CN112165558B - 一种双讲状态检测方法、装置、存储介质及终端设备 - Google Patents

一种双讲状态检测方法、装置、存储介质及终端设备 Download PDF

Info

Publication number
CN112165558B
CN112165558B CN202010998626.1A CN202010998626A CN112165558B CN 112165558 B CN112165558 B CN 112165558B CN 202010998626 A CN202010998626 A CN 202010998626A CN 112165558 B CN112165558 B CN 112165558B
Authority
CN
China
Prior art keywords
frequency
domain signal
energy
frequency point
frequency domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010998626.1A
Other languages
English (en)
Other versions
CN112165558A (zh
Inventor
陈英博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pulian International Co ltd
Original Assignee
Pulian International Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pulian International Co ltd filed Critical Pulian International Co ltd
Priority to CN202010998626.1A priority Critical patent/CN112165558B/zh
Publication of CN112165558A publication Critical patent/CN112165558A/zh
Application granted granted Critical
Publication of CN112165558B publication Critical patent/CN112165558B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)

Abstract

本发明公开了一种双讲状态检测方法、装置、存储介质及终端设备,包括:分别获取第一端麦克风频域信号和第二端扬声器频域信号;对所述第二端扬声器频域信号进行语音活性检测,获得所述第二端扬声器频域信号的检测结果;若所述第二端扬声器频域信号的检测结果为第二端存在语音信号,则分别计算所述第一端麦克风频域信号的第一频谱能量和所述第二端扬声器频域信号的第二频谱能量;根据所述第一频谱能量和所述第二频谱能量的差异判断双讲状态;本发明根据第一端麦克风频域信号和第二端扬声器频域信号的频谱能量的差异来判断双讲状态,提高双讲状态检测结果的准确度,从而提高回声的消除精度,进而提高用户的通话体验。

Description

一种双讲状态检测方法、装置、存储介质及终端设备
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种双讲状态检测方法、装置、存储介质及终端设备。
背景技术
在双工通话中,可参见图1,远端A的麦克风采集到语音信号后将该语音信号转递给近端B的扬声器播出,而近端B的麦克风又采集到刚刚由近端B的扬声器播出的语音信号,并传给远端A的扬声器播出,导致远端A说了一句话,过一会又从扬声器中听到了自己刚刚说的话,从而影响用户的通话体验。
为了提高用户的通话体验,通过设置回声消除系统来消除回声,目前回声消除系统包括双讲状态检测模块和自适应滤波模块,然而自适应滤波模块需要根据双讲状态检测模块的检测结果运行对应的工作模式,以达到回声消除的功能。可见,能够准确识别出双讲状态有利于提高回声的消除精度,从而提高用户的通话体验。
现有技术中,双讲状态检测有以下两种方法,一种是能量法;能量法主要采用Geigel算法,主要是将远端采样点中最大幅值的信号乘以固定乘积因子,若大于当前远端采样点信号幅值,则判断为双端发声,虽然这种算法计算简单,运算复杂度低,但是双讲状态检测结果的准确度低。
另一种是信号相关法,信号相关法将远端信号与误差信号的互相关作为比较参数,当不存在双端发声时,自适应滤波器能够较好逼近回波信号,误差信号中残留的远端信号较小,使相关值较小,将该相关值与固定阈值作比较,大于固定阈值为双端发声,即双讲,否则为单讲。这种方法依赖自适应滤波器的回声消除效果,但自适应滤波器的回声消除效果又取决于双讲状态检测的效果,即二者相互依赖,因此往往存在二者同时变差的情况,即错误的双讲状态检测导致自适应滤波朝着错误方向更新,反过来又导致双讲状态检测效果更差。
发明内容
本发明实施例所要解决的技术问题在于,提供一种双讲状态检测方法、装置、存储介质及终端设备,根据第一端麦克风频域信号和第二端扬声器频域信号的频谱能量的差异来判断双讲状态,提高双讲状态检测结果的准确度,从而提高回声的消除精度,进而提高用户的通话体验。
为了解决上述技术问题,本发明实施例提供了一种双讲状态检测方法,包括:
分别获取第一端麦克风频域信号和第二端扬声器频域信号;
对所述第二端扬声器频域信号进行语音活性检测,获得所述第二端扬声器频域信号的检测结果;
若所述第二端扬声器频域信号的检测结果为第二端存在语音信号,则分别计算所述第一端麦克风频域信号的第一频谱能量和所述第二端扬声器频域信号的第二频谱能量;
根据所述第一频谱能量和所述第二频谱能量的差异判断双讲状态;
所述根据所述第一频谱能量和所述第二频谱能量的差异判断双讲状态具体包括:
对比第一频点集合和第二频点集合,得到P个在所述第一频点集合中而没有在所述第二频点集合中的频点作为差异频点;其中,所述第一频点集合由从所述第一端麦克风频域信号中提取出的能量值最大的前K个频点组成,所述第二频点集合由从所述第二端扬声器频域信号中提取出的能量值最大的前K个频点组成,K≥P>0;
计算P个差异频点的频点能量之和,得到第三频谱能量;
根据所述第三频谱能量、所述第一频谱能量、P值和K值计算得到综合差异值;
当所述综合差异值大于预设阈值时,第一端和第二端均存在语音信号;
当所述综合差异值小于或等于预设阈值时,第一端没有语音信号而第二端存在语音信号。
进一步地,所述分别获取第一端麦克风频域信号和第二端扬声器频域信号,具体包括:
分别获取第一端麦克风原始时域信号和第二端扬声器时域信号;
以第二端扬声器时域信号为参考,将所述第一端麦克风原始时域信号进行时延估计对齐,得到第一端麦克风时域信号;
将所述第一端麦克风时域信号和第二端扬声器时域信号分别进行傅里叶变换,得到所述第一端麦克风频域信号和所述第二端扬声器频域信号。
进一步地,计算所述第一端麦克风频域信号的第一频谱能量具体包括:
从所述第一端麦克风频域信号中提取M个第一待筛选频点;
分别计算M个所述第一待筛选频点的加权能量,得到M个第一待筛选频点能量;
从M个所述第一待筛选频点能量中选取出能量值最大的前K个频点能量,前K个频点能量对应的频点的集合为第一频点集合;其中,M>K>0;
对所述前K个频点能量进行累加,得到所述第一频谱能量。
进一步地,计算所述第二端扬声器频域信号的第二频谱能量具体包括:
从所述第二端扬声器频域信号中提取M个第二待筛选频点;
分别计算M个所述第二待筛选频点的加权能量,得到M个第二待筛选频点能量;
从M个所述第二待筛选频点能量中选取出能量值最大的前K个频点能量,前K个频点能量对应的频点的集合为第二频点集合;其中,M>K>0;
对所述前K个频点能量进行累加,得到所述第二频谱能量。
进一步地,所述根据所述第三频谱能量、所述第一频谱能量、P值和K值计算得到综合差异值具体包括:
根据公式
Figure GDA0003118362630000041
计算得到所述综合差异值;
其中,z为综合差异值;A1、A2为加权因子,S1为第三频谱能量,Smax为第一频谱能量。
进一步地,所述方法还包括:
若所述第二端扬声器频域信号的检测结果为第二端不存在语音信号,则返回所述分别获取第一端麦克风频域信号和第二端扬声器频域信号的步骤。
相应地,本发明还提供一种双讲状态检测装置,包括:
获取模块,用于分别获取第一端麦克风频域信号和第二端扬声器频域信号;
语音活性检测模块,用于对所述第二端扬声器频域信号进行语音活性检测,获得所述第二端扬声器频域信号的检测结果;
计算模块,用于若所述第二端扬声器频域信号的检测结果为第二端存在语音信号,则分别计算所述第一端麦克风频域信号的第一频谱能量和所述第二端扬声器频域信号的第二频谱能量;
检测模块,用于根据所述第一频谱能量和所述第二频谱能量的差异判断双讲状态;
所述检测模块具体包括:
差异频点获取单元,用于对比第一频点集合和第二频点集合,得到P个在所述第一频点集合中而没有在所述第二频点集合中的频点作为差异频点;其中,所述第一频点集合由从所述第一端麦克风频域信号中提取出的能量值最大的前K个频点组成,所述第二频点集合由从所述第二端扬声器频域信号中提取出的能量值最大的前K个频点组成,K≥P>0;
第三计算单元,用于计算P个差异频点的频点能量之和,得到第三频谱能量;
第四计算单元,用于根据所述第三频谱能量、所述第一频谱能量、P值和K值计算得到综合差异值;
第一检测单元,用于当所述综合差异值大于预设阈值时,第一端和第二端均存在语音信号;
第二检测单元,用于当所述综合差异值小于或等于预设阈值时,第一端没有语音信号而第二端存在语音信号。
相应地,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一项所述的双讲状态检测方法。
相应地,本发明还提供了一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现上述任一项所述的双讲状态检测方法。
实施本发明实施例,具有如下有益效果:
本发明实施例提供了一种双讲状态检测方法、装置、存储介质及终端设备,该方法包括:分别获取第一端麦克风频域信号和第二端扬声器频域信号;对所述第二端扬声器频域信号进行语音活性检测,获得所述第二端扬声器频域信号的检测结果;若所述第二端扬声器频域信号的检测结果为第二端存在语音信号,则分别计算所述第一端麦克风频域信号的第一频谱能量和所述第二端扬声器频域信号的第二频谱能量;根据所述第一频谱能量和所述第二频谱能量的差异判断双讲状态;相比于现有的双讲状态检测方法,本发明根据第一端麦克风频域信号和第二端扬声器频域信号的频谱能量的差异来判断双讲状态,提高双讲状态检测结果的准确度,从而提高回声的消除精度,进而提高用户的通话体验。
附图说明
图1是现有双工通话的流程示意图;
图2是本发明提供的一种双讲状态检测方法的一个优选实施例的流程图;
图3是本发明提供的时延估计方法原理图;
图4是回声消除原理图;
图5是本发明提供的一种双讲状态检测装置的一个优选实施例的结构框图;
图6是本发明提供的一种终端设备的一个优选实施例的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本技术领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种双讲状态检测方法,参见图2所示,是本发明提供的一种双讲状态检测方法的一个优选实施例的流程图,所述方法包括步骤S11至步骤S14:
步骤S11、分别获取第一端麦克风频域信号和第二端扬声器频域信号;
步骤S12、对所述第二端扬声器频域信号进行语音活性检测,获得所述第二端扬声器频域信号的检测结果;
步骤S13、若所述第二端扬声器频域信号的检测结果为第二端存在语音信号,则分别计算所述第一端麦克风频域信号的第一频谱能量和所述第二端扬声器频域信号的第二频谱能量;
步骤S14、根据所述第一频谱能量和所述第二频谱能量的差异判断双讲状态。
具体地,先获取第一端麦克风频域信号和第二端扬声器频域信号;对第二端扬声器频域信号进行语音活性检测,若第二端扬声器频域信号的检测结果为1(第二端存在语音信号),则分别计算第一端麦克风频域信号的第一频谱能量和第二端扬声器频域信号的第二频谱能量;根据第一频谱能量和第二频谱能量的差异判断双讲状态;相比于现有的双讲状态检测方法,本发明根据第一端麦克风频域信号和第二端扬声器频域信号的频谱能量的差异来判断双讲状态,提高双讲状态检测结果的准确度,从而提高回声的消除精度,进而提高用户的通话体验。
在又一个优选实施例中,步骤S11具体包括:
分别获取第一端麦克风原始时域信号和第二端扬声器时域信号;
以第二端扬声器时域信号为参考,将所述第一端麦克风原始时域信号进行时延估计对齐,得到第一端麦克风时域信号;
将所述第一端麦克风时域信号和第二端扬声器时域信号分别进行傅里叶变换,得到所述第一端麦克风频域信号和所述第二端扬声器频域信号。
时延估计算法的原理如下(可参见图3):由于扬声器的一个语音信号帧从扬声器中播出到麦克风采集会有一个延时τ,时延估计的作用就是计算出这个延时τ,从而把麦克风原始时域信号与扬声器时域信号在时间上进行对齐,便于后续的分析计算。具体地,假设以第二端扬声器时域信号(S0)为参考,将第一端麦克风原始时域信号(M0)进行时延估计对齐,得到第一端麦克风时域信号(M1),后续就以S0和M1参与相应的计算。
在另一具体实施方式中,还可以以M0作为参考,将S0进行时延估计对齐,原理同上。
假设第一端麦克风时域信号与第二端扬声器时域信号的帧长均为N,N个离散点经过傅里叶变换后,其频域信号有(N/2+1)个点,即第一端麦克风频域信号和所述第二端扬声器频域信号均有(N/2+1)个点,且经傅里叶变换后得到的是频域信号的幅值。
在又一个优选实施例中,计算所述第一端麦克风频域信号的第一频谱能量具体包括:
从所述第一端麦克风频域信号中提取M个第一待筛选频点;
分别计算M个所述第一待筛选频点的加权能量,得到M个第一待筛选频点能量;
从M个所述第一待筛选频点能量中选取出能量值最大的前K个频点能量,前K个频点能量对应的频点的集合为第一频点集合;其中,M>K>0;
对所述前K个频点能量进行累加,得到所述第一频谱能量。
具体地,第一端麦克风频域信号中存在(N/2+1)个第一待筛选频点,可选地,不用统计所有第一待筛选频点的加权能量,可以统计低频一定范围内的第一待筛选频点即可,如从第一个第一待筛选频点到第(N/2+1)/4个第一待筛选频点或从第一个第一待筛选频点到第(N/2+1)/3个第一待筛选频点。第n个待筛选频点的加权能量的计算方法为:EM[n]=M[n]+(w2*M[2*n]+……+wi*M[i*n])/(i-1),i*n<(N/2+1),M[n]表示第n个第一待筛选频点的频域信号的幅值,w2至wi表示加权因子,其取值范围一般为[0,1],对于某些比较重要的频点,对应的加权因子的取值范围可以大于1。
假设本实施例的N为20,M为8,K为4时,计算这前8个第一待筛选频点的加权能量,得到这8个第一待筛选频点一一对应的第一待筛选频点能量,假设第一个第一待筛选频点对应的第一待筛选频点能量EM[1]=100,第二个第一待筛选频点对应的第一待筛选频点能量EM[2]=900,第三个第一待筛选频点对应的第一待筛选频点能量EM[3]=600,第四个第一待筛选频点的对应的第一待筛选频点能量EM[4]=200,第五个第一待筛选频点对应的第一待筛选频点能量EM[5]=100,第六个第一待筛选频点对应的第一待筛选频点能量EM[6]=400,第七个第一待筛选频点对应的第一待筛选频点能量EM[7]=300,第八个第一待筛选频点对应的第一待筛选频点能量EM[8]=500;从这8个第一待筛选频点能量中选取出能量值最大的前4个频点能量,分别为EM[2]=900,EM[3]=600,EM[6]=400,EM[8]=500;对应的第一频点集合为{2,3,6,8};第一频谱能量为2400。
在又一个优选实施例中,计算所述第二端扬声器频域信号的第二频谱能量具体包括:
从所述第二端扬声器频域信号中提取M个第二待筛选频点;
分别计算M个所述第二待筛选频点的加权能量,得到M个第二待筛选频点能量;
从M个所述第二待筛选频点能量中选取出能量值最大的前K个频点能量,前K个频点能量对应的频点的集合为第二频点集合;其中,M>K>0;
对所述前K个频点能量进行累加,得到所述第二频谱能量。
具体地,第二待筛选频点的加权能量的计算方法与第一待筛选频点的加权能量的计算方法类似,这这里就不进行赘述。假设本实施例的M为8,K为4时,第一个第二待筛选频点对应的第二待筛选频点能量ER[1]=100,第二个第二待筛选频点对应的第二待筛选频点能量ER[2]=300,第三个第二待筛选频点对应的第二待筛选频点能量ER[3]=500,第四个第二待筛选频点的对应的第二待筛选频点能量ER[4]=700,第五个第二待筛选频点对应的第二待筛选频点能量ER[5]=900,第六个第二待筛选频点对应的第二待筛选频点能量ER[6]=200,第七个第二待筛选频点对应的第二待筛选频点能量ER[7]=400,第八个第二待筛选频点对应的第二待筛选频点能量ER[8]=600;从这8个第二待筛选频点能量中选取出能量值最大的前4个频点能量,分别为ER[3]=500,ER[4]=700,ER[5]=900,ER[8]=600;对应的第二频点集合为{3,4,5,8}。
在又一个优选实施例中,所述根据所述第一频谱能量和所述第二频谱能量的差异判断双讲状态具体包括:
对比所述第一频点集合和所述第二频点集合,得到P个在所述第一频点集合中而没有在所述第二频点集合中的频点作为差异频点;其中,K≥P>0;
计算P个差异频点的频点能量之和,得到第三频谱能量;
根据所述第三频谱能量、所述第一频谱能量、P值和K值计算得到综合差异值;
当所述综合差异值大于预设阈值时,第一端和第二端均存在语音信号;
当所述综合差异值小于或等于预设阈值时,第一端没有语音信号而第二端存在语音信号。
具体地,第一频点集合为{2,3,6,8},对应的频点能量为EM[2]=900,EM[3]=600,EM[6]=400,EM[8]=500;第二频点集合为{3,4,5,8},对应的频点能量为ER[3]=500,ER[4]=700,ER[5]=900,ER[8]=600;对比第一频点集合和第二频点集合,得到在第一频点集合中而没有在第二频点集合中的频点,分别为编号为2的频点和编号为6的频点,并将编号为2的频点和编号为6的频点作为差异频点,计算这两个差异频点的频点能量,得到第三频谱能量S1=1300;根据第三频谱能量和第一频谱能量、P值和K值计算得到综合差异值;当综合差异值大于预设阈值时,第一端和第二端均存在语音信号;当所述综合差异值小于或等于预设阈值时,第一端没有语音信号而第二端存在语音信号。其中,若麦克风和扬声器质量较差,即使第一端没有语音信号,综合差异值也较大,此时可将预设阈值的值设置大一些,如0.5-0.7之间。相反,若麦克风和扬声器质量较好,失真较小,则预设阈值的值可适当设置得小一些,如0.3-0.5之间。
在又一个优选实施例中,所述根据所述第三频谱能量、所述第一频谱能量、P值和K值计算得到综合差异值具体包括:
根据公式
Figure GDA0003118362630000101
计算得到所述综合差异值;
其中,z为综合差异值;A1、A2为加权因子,S1为第三频谱能量,Smax为第一频谱能量;A1,A2为加权因子,可预先设置,也可在运行时动态调整;z≤1,当z实际>1时,将z的值设为1。
在又一个优选实施例中,所述方法还包括:
若所述第二端扬声器频域信号的检测结果为第二端不存在语音信号,则返回所述分别获取第一端麦克风频域信号和第二端扬声器频域信号的步骤。
在本实施例中,当第二端扬声器信号的检测结果为第二端不存在语音信号,无需计算所述第一端麦克风频域信号的第一频谱能量和所述第二端扬声器频域信号的第二频谱能量,提高双讲状态的检测效率。
回声消除时自适应滤波器有三种工作状态,“自适应与滤波”、“仅滤波”和“不工作”,如下:
当第一端没有语音信号而第二端存在语音信号时,控制自适应滤波器的运行模式为自适应与滤波模式;
当第一端和第二端均存在语音信号时,控制自适应滤波器的运行模式为滤波模式;
当第二端不存在语音信号时,控制自适应滤波器不工作。
具体地,结合上述实施例及图4,本发明的双讲状态检测方法适用于设有自适应滤波器的回声消除系统,根据双讲状态的检测结果控制自适应滤波器的运行模式,以达到消除回声的作用。具体地,当第一端没有语音信号而第二端存在语音信号时,控制自适应滤波器的运行模式为自适应与滤波模式,此时d(n)=y(n),输出信号为e(n)=d(n)-y^(n),并根据误差e(n)来调整自适应参数。其中,y(n)=x(n)*w(n),其中“*”代表信号处理中的卷积操作。而v(n)是第一端说话人的语音,即真正的有用信号。v(n)与y(n)不相关,所以第一端麦克风采集到的信号实际上是二者简单加和,即d(n)=y(n)+v(n)。而自适应滤波器w^(n)的作用是尽可能模拟真实回声路径w(n),使产生出的信号y^(n)=x(n)*w^(n)尽可能接近y(n)。之后通过d(n)-y^(n),我们就能将回声消除。当第一端和第二端均存在语音信号时,控制自适应滤波器的运行模式为滤波模式,此时滤波器不能进行参数更新,仅固定参数进行滤波;当第二端均没有语音信号时,此时自适应滤波器其实是不起作用的,控制自适应滤波器不工作。
本发明实施例还提供一种双讲状态检测装置,能够实现上述任一实施例所述的双讲状态检测方法的所有流程,装置中的各个模块、单元的作用以及实现的技术效果分别与上述实施例所述的双讲状态检测方法的作用以及实现的技术相关对应相同,这里不再赘述。
参见图5所示,是本发明提供的一种双讲状态检测装置的一个优选实施例的结构框图,装置包括:
获取模块11,用于分别获取第一端麦克风频域信号和第二端扬声器频域信号;
语音活性检测模块12,用于对所述第二端扬声器频域信号进行语音活性检测,获得所述第二端扬声器频域信号的检测结果;
计算模块13,用于若所述第二端扬声器频域信号的检测结果为第二端存在语音信号,则分别计算所述第一端麦克风频域信号的第一频谱能量和所述第二端扬声器频域信号的第二频谱能量;
检测模块14,用于根据所述第一频谱能量和所述第二频谱能量的差异判断双讲状态。
优选地,所述获取模块11具体包括:
获取单元,用于分别获取第一端麦克风原始时域信号和第二端扬声器时域信号;
时延估计单元,用于以第二端扬声器时域信号为参考,将所述第一端麦克风原始时域信号进行时延估计对齐,得到第一端麦克风时域信号;
频域转换单元,用于将所述第一端麦克风时域信号和第二端扬声器时域信号分别进行傅里叶变换,得到所述第一端麦克风频域信号和所述第二端扬声器频域信号。
优选地,所述计算模块13包括第一计算单元,所述第一计算单元具体用于:
从所述第一端麦克风频域信号中提取M个第一待筛选频点;
分别计算M个所述第一待筛选频点的加权能量,得到M个第一待筛选频点能量;
从M个所述第一待筛选频点能量中选取出能量值最大的前K个频点能量,前K个频点能量对应的频点的集合为第一频点集合;其中,M>K>0;
对所述前K个频点能量进行累加,得到所述第一频谱能量。
优选地,所述计算模块13包括第二计算单元,所述第二计算单元具体用于:
从所述第二端扬声器频域信号中提取M个第二待筛选频点;
分别计算M个所述第二待筛选频点的加权能量,得到M个第二待筛选频点能量;
从M个所述第二待筛选频点能量中选取出能量值最大的前K个频点能量,前K个频点能量对应的频点的集合为第二频点集合;其中,M>K>0;
对所述前K个频点能量进行累加,得到所述第二频谱能量。
优选地,所述检测模块14具体包括:
差异频点获取单元,用于对比所述第一频点集合和所述第二频点集合,得到P个在所述第一频点集合中而没有在所述第二频点集合中的频点作为差异频点;其中,K≥P>0;
第三计算单元,用于计算P个差异频点的频点能量之和,得到第三频谱能量;
第四计算单元,用于根据所述第三频谱能量、所述第一频谱能量、P值和K值计算得到综合差异值;
第一检测单元,用于当所述综合差异值大于预设阈值时,第一端和第二端均存在语音信号;
第二检测单元,用于当所述综合差异值小于或等于预设阈值时,第一端没有语音信号而第二端存在语音信号。
优选地,所述第四计算单元,具体用于:
根据公式
Figure GDA0003118362630000131
计算得到所述综合差异值;
其中,z为综合差异值;A1、A2为加权因子,S1为第三频谱能量,Smax为第一频谱能量。
优选地,所述装置还包括第二检测模块,用于若所述第二端扬声器频域信号的检测结果为第二端不存在语音信号,则返回所述分别获取第一端麦克风频域信号和第二端扬声器频域信号的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一项所述的双讲状态检测方法。
本发明实施例还提供了一种终端设备,参见图6所示,是本发明提供的一种终端设备的一个优选实施例的结构框图,所示终端设备包括处理器10、存储器20以及存储在所述存储器20中且被配置为由所述处理器10执行的计算机程序,所述处理器10在执行所述计算机程序时实现上述任一实施例所述的双讲状态检测方法。
优选地,所述计算机程序可以被分割成一个或多个模块/单元(如计算机程序1、计算机程序2、······),所述一个或者多个模块/单元被存储在所述存储器20中,并由所述处理器10执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。
所述处理器10可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,通用处理器可以是微处理器,或者所述处理器10也可以是任何常规的处理器,所述处理器10是所述终端设备的控制中心,利用各种接口和线路连接所述终端设备的各个部分。
所述存储器20主要包括程序存储区和数据存储区,其中,程序存储区可存储操作系统、至少一个功能所需的应用程序等,数据存储区可存储相关数据等。此外,所述存储器20可以是高速随机存取存储器,还可以是非易失性存储器,例如插接式硬盘,智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡和闪存卡(Flash Card)等,或所述存储器20也可以是其他易失性固态存储器件。
需要说明的是,上述终端设备可包括,但不仅限于,处理器、存储器,本领域技术人员可以理解,图6结构框图仅仅是上述终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
与现有技术相比,本发明根据第一端麦克风频域信号和第二端扬声器频域信号的频谱能量的差异来判断双讲状态,提高双讲状态检测结果的准确度,从而提高回声的消除精度,进而提高用户的通话体验。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (8)

1.一种双讲状态检测方法,其特征在于,包括:
分别获取第一端麦克风频域信号和第二端扬声器频域信号;
对所述第二端扬声器频域信号进行语音活性检测,获得所述第二端扬声器频域信号的检测结果;
若所述第二端扬声器频域信号的检测结果为第二端存在语音信号,则分别计算所述第一端麦克风频域信号的第一频谱能量和所述第二端扬声器频域信号的第二频谱能量;
根据所述第一频谱能量和所述第二频谱能量的差异判断双讲状态;
所述根据所述第一频谱能量和所述第二频谱能量的差异判断双讲状态具体包括:
对比第一频点集合和第二频点集合,得到P个在所述第一频点集合中而没有在所述第二频点集合中的频点作为差异频点;其中,所述第一频点集合由从所述第一端麦克风频域信号中提取出的能量值最大的前K个频点组成,所述第二频点集合由从所述第二端扬声器频域信号中提取出的能量值最大的前K个频点组成,K≥P>0;
计算P个差异频点的频点能量之和,得到第三频谱能量;
根据公式
Figure FDA0003142412870000011
计算得到综合差异值;其中,z为综合差异值,A1、A2为加权因子,S1为第三频谱能量,Smax为第一频谱能量;
当所述综合差异值大于预设阈值时,第一端和第二端均存在语音信号;
当所述综合差异值小于或等于预设阈值时,第一端没有语音信号而第二端存在语音信号。
2.如权利要求1所述的双讲状态检测方法,其特征在于,所述分别获取第一端麦克风频域信号和第二端扬声器频域信号,具体包括:
分别获取第一端麦克风原始时域信号和第二端扬声器时域信号;
以第二端扬声器时域信号为参考,将所述第一端麦克风原始时域信号进行时延估计对齐,得到第一端麦克风时域信号;
将所述第一端麦克风时域信号和第二端扬声器时域信号分别进行傅里叶变换,得到所述第一端麦克风频域信号和所述第二端扬声器频域信号。
3.如权利要求1所述的双讲状态检测方法,其特征在于,计算所述第一端麦克风频域信号的第一频谱能量具体包括:
从所述第一端麦克风频域信号中提取M个第一待筛选频点;
分别计算M个所述第一待筛选频点的加权能量,得到M个第一待筛选频点能量;
从M个所述第一待筛选频点能量中选取出能量值最大的前K个频点能量,前K个频点能量对应的频点的集合为第一频点集合;其中,M>K>0;
对所述前K个频点能量进行累加,得到所述第一频谱能量。
4.如权利要求3所述的双讲状态检测方法,其特征在于,计算所述第二端扬声器频域信号的第二频谱能量具体包括:
从所述第二端扬声器频域信号中提取M个第二待筛选频点;
分别计算M个所述第二待筛选频点的加权能量,得到M个第二待筛选频点能量;
从M个所述第二待筛选频点能量中选取出能量值最大的前K个频点能量,前K个频点能量对应的频点的集合为第二频点集合;其中,M>K>0;
对所述前K个频点能量进行累加,得到所述第二频谱能量。
5.如权利要求1至4任一项所述的双讲状态检测方法,其特征在于,所述方法还包括:
若所述第二端扬声器频域信号的检测结果为第二端不存在语音信号,则返回所述分别获取第一端麦克风频域信号和第二端扬声器频域信号的步骤。
6.一种双讲状态检测装置,其特征在于,包括:
获取模块,用于分别获取第一端麦克风频域信号和第二端扬声器频域信号;
语音活性检测模块,用于对所述第二端扬声器频域信号进行语音活性检测,获得所述第二端扬声器频域信号的检测结果;
计算模块,用于若所述第二端扬声器频域信号的检测结果为第二端存在语音信号,则分别计算所述第一端麦克风频域信号的第一频谱能量和所述第二端扬声器频域信号的第二频谱能量;
检测模块,用于根据所述第一频谱能量和所述第二频谱能量的差异判断双讲状态;
所述检测模块具体包括:
差异频点获取单元,用于对比第一频点集合和第二频点集合,得到P个在所述第一频点集合中而没有在所述第二频点集合中的频点作为差异频点;其中,所述第一频点集合由从所述第一端麦克风频域信号中提取出的能量值最大的前K个频点组成,所述第二频点集合由从所述第二端扬声器频域信号中提取出的能量值最大的前K个频点组成,K≥P>0;
第三计算单元,用于计算P个差异频点的频点能量之和,得到第三频谱能量;
第四计算单元,用于根据公式
Figure FDA0003142412870000031
计算得到综合差异值;其中,z为综合差异值,A1、A2为加权因子,S1为第三频谱能量,Smax为第一频谱能量;
第一检测单元,用于当所述综合差异值大于预设阈值时,第一端和第二端均存在语音信号;
第二检测单元,用于当所述综合差异值小于或等于预设阈值时,第一端没有语音信号而第二端存在语音信号。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1~5任一项所述的双讲状态检测方法。
8.一种终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如权利要求1~5任一项所述的双讲状态检测方法。
CN202010998626.1A 2020-09-21 2020-09-21 一种双讲状态检测方法、装置、存储介质及终端设备 Active CN112165558B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010998626.1A CN112165558B (zh) 2020-09-21 2020-09-21 一种双讲状态检测方法、装置、存储介质及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010998626.1A CN112165558B (zh) 2020-09-21 2020-09-21 一种双讲状态检测方法、装置、存储介质及终端设备

Publications (2)

Publication Number Publication Date
CN112165558A CN112165558A (zh) 2021-01-01
CN112165558B true CN112165558B (zh) 2021-10-29

Family

ID=73863338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010998626.1A Active CN112165558B (zh) 2020-09-21 2020-09-21 一种双讲状态检测方法、装置、存储介质及终端设备

Country Status (1)

Country Link
CN (1) CN112165558B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112908350B (zh) * 2021-01-29 2022-08-26 展讯通信(上海)有限公司 一种音频处理方法、通信装置、芯片及其模组设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7515704B2 (en) * 2004-01-05 2009-04-07 Telukuntla Krishna Prabhu N V R Method, apparatus and articles incorporating a step size control technique for echo signal cancellation
CN1925346A (zh) * 2006-09-05 2007-03-07 华为技术有限公司 一种回波抵消中双讲状态的检测方法
CN106506872B (zh) * 2016-11-02 2019-05-24 腾讯科技(深圳)有限公司 通话状态检测方法及装置
JP6833616B2 (ja) * 2017-05-29 2021-02-24 株式会社トランストロン エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム

Also Published As

Publication number Publication date
CN112165558A (zh) 2021-01-01

Similar Documents

Publication Publication Date Title
CN101719969B (zh) 判断双端对话的方法、系统以及消除回声的方法和系统
US8010355B2 (en) Low complexity noise reduction method
CN105825864B (zh) 基于过零率指标的双端说话检测与回声消除方法
CN111768796B (zh) 一种声学回波消除与去混响方法及装置
CN111554315B (zh) 单通道语音增强方法及装置、存储介质、终端
CN108447496B (zh) 一种基于麦克风阵列的语音增强方法及装置
US10553236B1 (en) Multichannel noise cancellation using frequency domain spectrum masking
CN109068012B (zh) 一种用于音频会议系统的双端通话检测方法
CN101933088A (zh) 用于回声抑制的滤波器系数的计算设备和方法
EP1887559B1 (en) Yule walker based low-complexity voice activity detector in noise suppression systems
JP2002541753A (ja) 固定フィルタを用いた時間領域スペクトラル減算による信号雑音の低減
CN113766073A (zh) 会议系统中的啸叫检测
CN107863099A (zh) 一种新型双麦克风语音检测和增强方法
CN110211602B (zh) 智能语音增强通信方法及装置
US20080240414A1 (en) Hybrid echo canceller controllers
CN111883154B (zh) 回声消除方法及装置、计算机可读的存储介质、电子装置
Seidel et al. Y $^ 2$-Net FCRN for Acoustic Echo and Noise Suppression
CN110148421B (zh) 一种残余回声检测方法、终端和装置
CN112165558B (zh) 一种双讲状态检测方法、装置、存储介质及终端设备
EP2774147B1 (en) Audio signal noise attenuation
CN109920444B (zh) 回声时延的检测方法、装置以及计算机可读存储介质
CN107360497B (zh) 估算混响分量的计算方法及装置
CN111355855B (zh) 回声处理方法、装置、设备及存储介质
CN112151060A (zh) 单通道语音增强方法及装置、存储介质、终端
CN107346658B (zh) 混响抑制方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant