CN113196733A - 使用低频近端语音检测的声学回声消除 - Google Patents
使用低频近端语音检测的声学回声消除 Download PDFInfo
- Publication number
- CN113196733A CN113196733A CN201980082783.3A CN201980082783A CN113196733A CN 113196733 A CN113196733 A CN 113196733A CN 201980082783 A CN201980082783 A CN 201980082783A CN 113196733 A CN113196733 A CN 113196733A
- Authority
- CN
- China
- Prior art keywords
- audio content
- microphone
- far
- low frequency
- band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims description 40
- 238000000034 method Methods 0.000 claims abstract description 22
- 230000003044 adaptive effect Effects 0.000 claims abstract description 19
- 238000001914 filtration Methods 0.000 claims abstract description 16
- 230000006978 adaptation Effects 0.000 claims abstract description 12
- 230000003595 spectral effect Effects 0.000 claims description 4
- 230000008014 freezing Effects 0.000 claims 1
- 238000007710 freezing Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 14
- 238000009499 grossing Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 230000001934 delay Effects 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
- H04M9/082—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Telephone Function (AREA)
Abstract
本发明公开了一种用于消除声学远端音频回声内容的方法,该方法包括对从远端接收的音频内容进行高通滤波并且通过扬声器播放经高通滤波的音频内容,在使用最小均方(LMS)自适应滤波器从由麦克风捕获的音频内容中减去经高通滤波的音频内容之后,检查由该麦克风捕获的音频内容以检测低频子带中音频内容的存在。如果在由麦克风捕获的音频内容中检测到低频子带中的音频内容,则冻结LMS滤波器的自适应并在减去之后将由麦克风捕获的音频内容发送到远端,并且如果在由麦克风捕获的音频内容中未检测到低频子带中的音频内容,则启用LMS滤波器的自适应并在减去之后将由麦克风捕获的音频内容发送到远端。
Description
背景技术
本发明涉及声学回声消除系统和方法。更具体地,本发明涉及采用自适应滤波器估计从扬声器到设备的麦克风的信道的声学回声消除系统和方法。此外,使用低频带检测由麦克风捕获的近端语音。
双端通话检测(DTD)是声学回声消除(AEC)系统中的主要问题。AEC系统使用自适应滤波器估计从扬声器到设备的麦克风的信道。当信道估计准确时,系统可在麦克风处消除来自扬声器的回声。双端通话是用于识别设备扬声器和近端用户两者同时处于活动状态的状况的术语。AEC系统必须检测双端通话并且在发生时停止滤波器自适应,或者响应于在双端通话期间始终存在的近端语音检测而停止滤波器自适应。
此外,许多AEC系统将在设备扬声器处于活动状态并且近端用户不活动时使来自麦克风的信号静噪。通常,当检测到双端通话时,静噪将停止,从而允许近端语音通过系统传输。如果DTD不准确,则静噪将在不适当的时间发生。这可能导致过量的残余回声或丢失的语音内容。
发明内容
本发明提供了一种使用低频带检测双端通话的解决方案。该解决方案旨在用于具有小扬声器的设备,该小扬声器不能产生低频率或在具有太多失真的情况下产生低频率,使得这些低频率可在不显著影响所接收的远端信号的可懂度的情况下被滤除。高通滤波器放置在接收侧上以去除任何低频内容。
根据本发明的一个方面,一种用于消除声学远端音频回声内容的方法包括对从远端接收的音频内容进行高通滤波,并且通过扬声器播放经高通滤波的音频内容,在使用最小均方(LMS)自适应滤波器从由麦克风捕获的音频内容中减去任何经高通滤波的音频内容之后,检查由麦克风捕获的音频内容以检测低频子带中音频内容的存在,如果在由麦克风捕获的音频内容中检测到低频子带中的音频内容,则冻结LMS滤波器的自适应并在减去之后将由麦克风捕获的音频内容发送到远端,以及如果在由麦克风捕获的音频内容中未检测到低频子带中的音频内容,则启用LMS滤波器的自适应并在减去之后将由麦克风捕获的音频内容发送到远端。
根据本发明的一个方面,检查由麦克风捕获的音频内容以检测低频子带中音频内容的存在包括检查由麦克风捕获的音频内容以检测具有低于高通滤波的截止频率的频率通带的低频子带中音频内容的存在。
根据本发明的一个方面,该方法还包括如果远端音频内容存在于所捕获的近端音频中,则向远端发送生成的舒适噪声以代替由麦克风捕获的音频内容,并且如果麦克风没有捕获远端音频内容,则向远端发送由麦克风捕获的音频内容。
根据本发明的一个方面,向远端发送生成的舒适噪声以代替由麦克风捕获的音频内容包括发送生成的舒适噪声,该舒适噪声从麦克风复制非信号电平并且匹配从麦克风捕获的背景噪声的频谱内容。
根据本发明的一个方面,对远端音频内容进行高通滤波包括将低频子带中的能量抑制到一定水平,使得低频子带中的远端音频回声内容的水平不高于预期在麦克风处遇到的最低背景噪声水平。
根据本发明的一个方面,对从远端接收的音频内容进行高通滤波包括以低于600Hz的截止频率对从远端接收的音频内容进行高通滤波。
根据本发明的一个方面,对从远端接收的音频内容进行高通滤波包括以不高于400Hz的截止频率对从远端接收的音频内容进行高通滤波。
根据本发明的一个方面,检查由麦克风捕获的音频内容以检测低频子带中音频内容的存在包括检查由麦克风捕获的音频内容以检测在约156.25Hz和约281.25Hz之间的频率子带中音频内容的存在。
根据本发明的一个方面,检查由麦克风捕获的音频内容以检测低频子带中音频内容的存在还包括估计低频子带中噪声的功率电平,将低频子带中的功率电平与低频子带中的所估计的噪声功率电平进行比较,并且如果低频子带中的功率电平高于所估计的噪声功率,则指示低频子带中音频内容的存在。
根据本发明的一个方面,一种用于消除音频设备中的声学回声内容的系统包括:麦克风,该麦克风位于近端处以捕获在近端处生成的音频内容;扬声器,该扬声器位于近端处;高通滤波器,该高通滤波器设置在远端与扬声器之间以从远端输出经高通滤波的音频内容以通过扬声器播放;带通滤波器,该带通滤波器耦接到麦克风并且具有低于高通滤波器的截止频率的低频通带;近端语音检测模块,该近端语音检测模块耦接到带通滤波器,如果由麦克风捕获的音频内容包括带通滤波器的低频通带中的音频内容,则近端语音检测模块生成第一信号,并且如果由麦克风捕获的音频内容不包括带通滤波器的低频通带中的音频内容,则近端语音检测模块生成第二信号;自适应滤波器,该自适应滤波器被布置为响应于来自近端语音检测模块的第一信号而调整滤波器系数,并且响应于来自近端语音检测模块的第二信号而不调整滤波器系数;减法电路,该减法电路用于在向远端发送由麦克风捕获的音频内容之前,从由麦克风捕获的音频内容中减去通过自适应滤波器的经高通滤波的音频内容。
根据本发明的一个方面,该系统还包括舒适噪声生成电路,以及开关,该开关耦接到减法电路和舒适噪声生成电路并且被配置为仅当存在经高通滤波的音频内容时才响应于来自近端语音检测模块的第二信号而向远端发送舒适噪声,否则将来自减法电路的音频内容发送到远端。
根据本发明的一个方面,带通滤波器是设置在快速傅里叶变换子带电路中的多个带通滤波器中的一个带通滤波器,该带通滤波器具有包括低频通带的通带。
根据本发明的一个方面,自适应滤波器是最小均方自适应滤波器。
根据本发明的一个方面,高通滤波器被配置为将低频通带中的能量抑制到不高于预期在麦克风处遇到的最低背景噪声水平的水平。
根据本发明的一个方面,高通滤波器具有低于600Hz的截止频率。
根据本发明的一个方面,高通滤波器具有不高于400Hz的截止频率。
根据本发明的一个方面,该系统的近端语音检测电路包括用于以下方面的电路:估计低频通带中噪声的功率电平,将低频通带中的功率电平与低频通带中的所估计的噪声功率电平进行比较,并且如果低频通带中的功率电平高于所估计的噪声功率,则指示低频通带中音频内容的存在。
根据本发明的一个方面,一种用于消除音频设备中的声学回声内容的系统,该音频设备将由近端处的麦克风捕获的音频发送到远端并且通过近端处的扬声器播放在远端处生成的音频,该系统包括:高通滤波器,该高通滤波器在通过扬声器播放在远端处生成的音频之前从在远端处生成的音频中去除低频内容;低频带通滤波器,该低频带通滤波器耦接到麦克风并且具有低于高通滤波器的截止频率的低频通带;近端活动语音检测模块,该近端活动语音检测模块响应于来自低频带通滤波器的输出;n个自适应滤波器,该n个自适应滤波器耦接到麦克风和高通滤波器并且被布置为仅响应于对自近端语音检测模块的近端活动语音的检测而调整滤波器系数,否则不调整滤波器系数;以及减法电路,该减法电路用于从由麦克风捕获的音频内容中减去通过自适应滤波器的音频内容。
根据本发明的一个方面,高通滤波器被配置为将低频通带中的能量抑制到不高于预期在麦克风处遇到的最低背景噪声水平的水平。
根据本发明的一个方面,该系统还包括舒适噪声生成电路、开关,该开关耦接到减法电路和舒适噪声生成电路并且被配置为仅当存在经高通滤波的音频内容时才响应于来自近端语音检测模块的第二信号而向远端发送舒适噪声,否则将来自减法电路的音频内容发送到远端。
附图说明
下面将参考实施方案和附图更详细地解释本发明,附图中示出:
图1是根据本发明的一个方面的例示性声学回声消除系统的框图;
图2是可在图1的系统中采用的例示性声学回声消除模块的框图;
图3是可用于提供在图1的声学回声消除系统中使用的带通滤波器的例示性子带器模块的框图;
图4是可在图1的系统中采用的例示性噪声估计器模块的框图;
图5是可在图1的系统中采用的例示性近端语音检测模块的框图;
图6是可在图1的系统中采用的例示性非线性处理器模块的框图;并且
图7是示出使用低频近端语音检测来进行声学回声消除的例示性方法的流程图。
具体实施方式
本领域普通技术人员将认识到,以下描述仅是例示性的而非以任何方式进行限制。本领域技术人员将易于想到其他实施方案。
首先参见图1,框图示出了根据本发明的一个方面的例示性声学回声消除(AEC)系统10。由系统的“近端”处的麦克风12捕获的声音被传输到系统的“远端”处的扬声器或其他设备,如由附图标号14处的传输信道所指示。在近端处接收由附图标号16处的接收信道表示的在系统的远端处生成的声音(以例如人类生成的声音或机器生成的声音的形式)并通过扬声器18播放。在本发明的一个实例中,麦克风12包括模数(A/D)转换器(未明确示出)以将由麦克风12捕获的模拟信号转换为数字信号。类似地,扬声器可包括数模(D/A)转换器(未明确示出)以将在远端的接收通道16上接收的数字信号转换为模拟信号。
麦克风12捕获语音和近端背景噪声两者,如附图标号20所示,也称为信号分量20。麦克风还捕获来自扬声器18的不期望的“回声”信号,如附图标号22所示,也称为远端回声22。AEC系统10最小化或去除由麦克风12捕获的声音的回声分量。
由AEC系统10执行的处理在数字域中执行。在本文所述的本发明的一个例示性实例中,采样率可为16kHz。表示由麦克风12捕获的声音的数字信号被传递到AEC模块24。AEC模块24将来自麦克风12的输入与线路26上的参考信号进行比较,该参考信号源自接收信道16上并且已在高通滤波器28中进行高通滤波。AEC模块24最小化来自由麦克风12捕获的声音的从返回信道接收的信号得到的回声分量(即,远端回声22)。
通过AEC模块24使回声分量最小化之后的麦克风12输出信号通过快速傅里叶变换(FFT)模块30变换到频域。在本发明的一个非限制性实例中,FFT样本量可为256个样本,其中短时间FFT重叠50%,这意味着假设采样率为16kHz,则每个帧与前一帧偏移8ms。
FFT模块30的输出由带通滤波器32滤波。带通滤波器32通过NEV检测模块34中使用的称为“NEV子带”的频率子带。根据本发明,带通滤波器32具有低于高通滤波器28的截止频率的低频通带。带通滤波器32的输出也被呈现给噪声估计器模块36。将来自噪声估计器36的所估计的噪声提供给NEV检测器模块34。
来自NEV检测器模块34的输出是线路38上的近端活动信号,并且是表示由麦克风12捕获的低频近端语音的存在或不存在的数字逻辑信号。在本文所述的本发明的实例中,如果检测到近端语音存在于NEV子带中,则NEV检测器模块34输出逻辑“1”,并且如果未检测到近端语音存在于NEV子带中,则输出逻辑“0”。近端活动信号被呈现给AEC模块24以及非线性处理器(NLP)模块40。NLP模块40的输出由逆FFT(IFFT)模块42处理,该模块将NLP模块40的输出转换回时域并将时域信号呈现给系统的远端处的传输信道14。
在系统的远端处生成的语音或其他音频信号被呈现给数字域中的接收信道16。信号由高通滤波器28滤波以去除信号的低频分量。高通滤波器28被配置为将NEV子带中的能量抑制到一定水平,使得NEV子带中的远端回声不高于预期在麦克风12处遇到的最低背景噪声水平,并且优选地具有低于约600Hz的截止频率。在本发明的一个实例中,高通滤波器的截止频率被设定为不高于约400Hz。
来自接收信道16的经高通滤波的音频信号被馈送到扬声器18,其中该经高通滤波的音频信号被D/A转换以驱动扬声器18。如前所述,经高通滤波的接收信道信号也被用作AEC模块24的参考信号。经高通滤波的接收信道信号也被馈送到功率检测模块44,该功率检测模块在远端活动线路46上生成数字逻辑信号,该数字逻辑信号表示来自接收信道16的呈现给非线性处理器模块34的信号的存在或不存在。在本文所述的本发明的实例中,如果来自接收信道的信号存在,则功率检测模块44输出逻辑“1”,并且如果来自接收信道的信号不存在,则输出逻辑“0”。
麦克风12处的数据由信号分量20和远端回声22组成。由于由高通滤波器28提供的滤波,远端回声22具有最小低频分量。由带通滤波器32传递的频率子带被选择用于处理,该处理足够高以包含近端语音,但是足够低以包含很少或不包含远端回声。在本发明的一个实例中,包含156.25Hz-281.25Hz的子带通过带通滤波器32以用于NEV检测器模块34,而其他子带不提供给NEV检测器模块34。优选地,NEV子带被选择为包括典型有声语音的基频的至少一部分,其中术语基频被定义为周期性波形的最低频率。典型成人男性的有声语音具有85Hz至180Hz的基频,并且典型成人女性的有声语音具有165Hz至255Hz的基频。所选NEV子带的高频端应当在高通滤波器的阻带内。
剩余动作是将近端语音与噪声区分开。在NEV检测器模块34中随时间推移(指数平滑)对NEV检测器模块34中使用的子带进行滤波,并将该子带与来自噪声估计器36的NEV子带中的所估计噪声进行比较,以在线路38上生成近端活动信号,该噪声估计器的操作将在下文进一步描述。如果来自NEV检测器模块34的经滤波的功率超过由噪声估计器36输出的噪声功率固定比率,则检测到近端语音并且在线路38上的近端活动信号上输出活动状态“1”。响应于线路38上的近端活动信号上的活动状态“1”,NLP模块40将FFT模块30的输出处的信号注入馈送到IFFT模块42的数据流中,而不管远端活动信号的状态如何。如果未检测到近端语音,即线路38上的近端活动信号为“0”,并且在远端活动线路上检测到远端语音,即线路46上的远端活动信号为“1”,则NLP模块40将FFT模块30的输出与IFFT模块42断开连接,并将舒适噪声注入馈送到IFFT模块42的数据流中。如果既未检测到近端语音也未检测到远端语音,即线路38上的近端活动信号上输出“0”,并且线路44上的远端活动信号上输出“0”,则FFT模块30的输出作为数据流被馈送到IFFT模块42。
本领域的普通技术人员将会知道,图1的AEC系统10可在固件中实现为DSP系统处理器,该DSP系统处理器在置于其所在的双向语音系统中的嵌入式处理器上运行。
现在参见图2,框图示出了可在图1的系统中采用的例示性声学回声消除(AEC)模块24。来自麦克风12的输入被提供给加法器50的一个输入。加法器50的另一个输入是最小均方(LMS)自适应滤波器52的取反输出,该滤波器具有来自线路38的近端活动信号、来自加法器50的输出的反馈以及线路26上来自高通滤波器28的输出的参考信号作为输入。LMS自适应滤波器52将FIR滤波器应用于来自高通滤波器28的输出的参考信号,从而调整FIR滤波器系数以使来自加法器50的输出的反馈最小化。滤波器与加法器50相结合具有使由麦克风12捕获的信号的远端回声22部分衰减(减去),留下由麦克风12捕获的剩余信号分量20的效果。来自线路38的近端活动输入用于控制LMS滤波器的自适应。虽然近端处于活动状态,但自适应将停止,并且FIR滤波器系数将不会更新。
现在参见图3,框图示出了可用于在图1的声学回声消除系统中提供带通滤波器32的例示性子带器模块。在将采用本发明的许多典型环境中,包括本发明的声学回声消除特征的系统的其他特征将利用子带器来提供用于其他目的的输出信号,因此出于例证的目的,在子带的上下文中示出了本发明中使用的单带通滤波器32。
子带器模块在量值平方单元56中将来自FFT模块30的复合FFT区间的量值求平方。平方值的平均值在平均值单元中确定,其中代表性的平均值单元由附图标号58、60、62和64标识。平均值单元58、60、62和64各自输出其通频带内的频率值的平方的平均值。
用作本发明的单带通滤波器32的子带器部分在图3中以虚线32示出。带通滤波器32具有低于图1的高通滤波器28的截止频率的低频通带。带通滤波器32的输出被发送到NEV检测器模块34以进行处理。本领域的普通技术人员将会知道,在仅提供声学回声消除的简单数字语音系统的实例中采用本发明的情况下,可提供具有NEV子带作为其通带的简单带通滤波器32。本领域的普通技术人员将会知道,在这样的系统中,FFT模块30和IFFT模块42可以被消除,带通滤波器32和NLP模块40均可被配置为在时域中而不是频域中操作。
现在参见图4,框图示出了可在图1的系统中采用的例示性噪声估计器模块36。噪声估计器模块36估计NEV子带中的静止噪声。该模块的输入是来自带通滤波器32的输出,并且表示所选子带中的功率。噪声估计器模块36的输出是子带噪声功率的估计值。该模块从指数平滑开始,该指数平滑由乘法器66和68、加法器70以及延迟单元72执行。常数α为指数平滑系数。常数α是基于噪声功率的方差根据经验选择的,并且试图减小噪声功率的方差。在本发明的一个实例中,为α选择量0.4。较高的α值将以准确性为代价来减少延迟,而较低的α值将以延迟为代价来增加准确性。
带通滤波器32的输出处的NEV子带的值的平方的平均值被呈现给乘法器66,其中将该平均值乘以常数α。在加法器70中将乘法器66的结果输出加到来自被延迟单元72延迟的加法器70的输出的在乘法器68中计算的量,并且乘以常数(1-α)以执行子带数据的指数平滑,以便通过减小数据的方差来改善语音活动检测。
在加法器70的指数平滑输出之后,在固定时间窗口内找到最小值。这是为NEV子带建立本底噪声的方法。其他延迟单元72被级联并且使其输出耦合到输出最小值的最小值电路74。在本发明的一个实例中,存在125个级联延迟。最小值在乘法器76中乘以恒定语音活动检测(VAD)阈值,该阈值被选择为高于该阈值的传入数据被认为不只包含噪声。VAD阈值是信号功率与噪声功率的比率。在本发明的一个实例中,VAD阈值为8。较高的VAD阈值将以估计值方差为代价提供较低的估计偏差(预期值与真值之间的差值),而较低的VAD阈值将以较高的估计偏差为代价提供估计值的较低方差。将乘法器76的结果与加法器70的输出在小于电路78中进行比较,在加法器70的结果小于乘法器76的输出的情况下,该小于电路输出值κ,即逻辑“1”,指示信号仅包含噪声,或者在加法器70的结果不小于乘法器76的输出的情况下,则输出逻辑“0”,指示信号中存在语音和/或回声。
值κ表示噪声估计器模块36是否将更新先前的噪声估计值。通过执行由乘法器80和84、加法器82以及另一延迟单元72执行的附加指数平滑来进行更新。执行该附加指数平滑,以便减小由噪声估计器模块生成的估计值的方差。指数平滑系数为κβ,其中β为常数。将加法器68的输出乘以乘法器80中的常数κβ。根据经验选择量β以控制噪声估计值的自适应率,从而实现低延迟和低方差之间的平衡。在本发明的一个实例中,选择量0.02。较高的β值将以准确性为代价来减少延迟,而较低的β值将以延迟为代价来增加准确性。在加法器82中将结果加到来自被延迟单元72延迟的加法器82的输出的在乘法器84中计算的量,并且在乘法器84中乘以如(1-κβ)所示的常数。假设16KHz时钟,噪声估计器36中的所有延迟72等于短时间傅里叶变换中的一个帧,等于8mS的时间段。加法器82的输出是馈送到NEV检测器模块34的NEV子带的噪声估计值。
现在参见图5,框图示出了可在图1的系统中采用的例示性NEV模块34。该模块的目的是检测数据中是否存在近端语音。这通过测试NEV子带中的功率是否显著大于噪声功率来实现。该模块从指数平滑开始,该指数平滑由乘法器90和92、加法器94以及延迟单元96执行。常数γ为指数平滑系数。常数γ连同恒定噪声阈值104是基于假阳性和假阴性近端语音检测之间的偏好根据经验选择的。在本发明的一个实例中,为γ选择量0.15。γ的较高值导致以较多假阳性近端语音检测为代价的较低延迟,并且γ的较低值导致以较高延迟为代价的较少错误检测。通过带通滤波器32的NEV子带在乘法器90中乘以常数γ。在加法器94中将结果加到来自被延迟单元96延迟的加法器94的输出的在乘法器92中计算的量,并且乘以如(1-γ)所示的常数。假设16KHz时钟,延迟96是短时间傅里叶变换中的一个帧,等于8mS的时间段。
在最大值单元98中将来自图4的噪声估计器36的噪声估计值与附图标号100处示出的最小噪声量进行比较,并且最大值单元98输出最小噪声量的最大值和来自噪声估计器36的噪声估计值。最小噪声量有助于防止在极低噪声条件期间的假阳性检测。最小噪声量可被设定为刚好低于最低预期的近端语音功率。该水平优选地与高通滤波器28在麦克风处抑制回声的低端内容的水平相同。最大值单元98的输出在乘法器102中乘以参考标号104处示出的噪声阈值。噪声阈值量是信号功率与噪声功率的比率,并且在本发明的一个实例中被选择为5。较低的噪声阈值将以较多错误检测为代价产生较多正确检测,而较高的阈值将以较少正确检测为代价产生较少错误检测。将由加法器94计算的总和在大于单位106中与乘法器102的输出进行比较。如果由加法器92计算的总和大于在乘法器102中计算的乘积,则大于单元106输出逻辑“1”,并且如果由加法器92计算的总和不大于在乘法器102中计算的乘积,则输出逻辑“0”。本领域的普通技术人员将会知道,应共同选择γ和噪声阈值以提供最佳性能,因为它们将彼此一定程度地相互作用。
如果大于单元106的输出在附图标号110处示出的最后一个保持时间期间是逻辑1,则保持108输出逻辑1,在本发明的一个实例中,保持时间被选择为200mS。该保持考虑了在短暂时间段内的声音暂停,在此期间近端语音是活动的,但在NEV子带中没有内容。保持108的输出是线路34上呈现的近端活动信号。NEV检测器模块34的输出响应于NEV子带,因此是低频近端语音检测。因此,线路38上的近端活动信号仅在检测到低频近端语音时才为活动状态“1”,如上所述,低频近端语音包含由于高通滤波器28引起的最小远端回声。
现在参见图6,框图示出了可在图1的系统中采用的例示性非线性处理器(NLP)模块40。NLP模块40包括开关112,该开关在携带FFT模块30的输出的输入与舒适噪声发生器114的输出之间进行选择。开关112的输出被呈现给IFFT模块42的输入。
通过比较近端活动线路38和远端活动线路46的状态来控制开关112。近端活动线路34的状态被反相器116反转,并且近端活动线路34的反转状态和远端活动线路46的状态被呈现给“与”门118。如果近端活动线路34为低并且远端活动线路46为高,即,远端语音信号存在于接收信道16上并且未检测到近端语音信号,则开关112选择来自舒适噪声发生器114的输出,从而使来自麦克风的信号静噪。如果近端活动线路34为高并且远端活动线路46为低,即接收信道16上不存在远端语音信号并且检测到近端语音信号,则开关112选择来自FFT模块30的输出。如果近端活动线路34和远端活动线路均为高(近端和远端语音信号均存在),则开关112选择来自FFT模块30的输出。
舒适噪声发生器114生成噪声,该噪声从麦克风复制非信号电平并且匹配从麦克风捕获的背景噪声的频谱内容。具有特定频谱内容的噪声的生成是本领域熟知的。本领域的技术人员将会知道,舒适噪声发生器114还可生成零信号电平。
常数α、β、γ、保持时间和VAD阈值是双向语音应用的典型特征。最小噪声电平是A/D转换中的增益的线性函数。
现在参见图7,流程图示出了根据本发明的一个方面的用于使用低频近端语音检测来进行声学回声消除的例示性方法120。该方法在附图标号122处开始。
在附图标号124处,在系统的近端处接收远端音频内容。在附图标号126处,对远端音频内容进行高通滤波。在附图标号128处,通过系统的近端处的扬声器播放经高通滤波的远端音频内容。
在附图标号130处,捕获所有近端音频。这包括在附图标号128处通过扬声器24播放的任何远端回声音频,该音频已由系统的近端处的麦克风拾取。在附图标号132处,任何远端回声被图1和图2的AEC单元24滤除。
在附图标号134处,确定所捕获的近端音频是否包括低频语音分量。如果在附图标号136处和附图标号138处冻结LMS滤波器的自适应,则将近端音频(在附图标号132处已剥离任何远端回声分量)发送到系统的远端。该方法然后循环回到附图标号124。
如果在附图标号130处确定所捕获的近端音频不包括任何低频语音分量,则在附图标号140处和附图标号142处启用LMS滤波器的自适应,确定接收信道是否具有活动信号。如果不具有,则在附图标号138处,将近端音频(在附图标号132处已剥离任何远端回声分量)发送到系统的远端。该方法然后循环回到附图标号124。
如果在附图标号142处确定接收通道确实具有活动信号,则在附图标号144处将舒适噪声发送到系统的远端。该方法然后循环回到附图标号124。
需注意,参考图7描述的方法是连续的,因为其从附图标号138或从附图标号144连续地循环回到附图标号124。
虽然已经示出和描述了本发明的实施方案和应用,但是对于本领域技术人员来说显而易见的是,在不脱离本文的发明构思的情况下,可以进行比上述更多的修改。因此,除了所附权利要求的实质之外,本发明不受限制。
Claims (20)
1.在从位于近端处的麦克风捕获音频内容并将其发送到远端并且在位于所述近端处的扬声器处播放从所述远端接收的音频内容的音频设备中,一种用于消除声学远端音频回声内容的方法,包括:
对从所述远端接收的所述音频内容进行高通滤波并且通过所述扬声器播放经高通滤波的音频内容;
在使用最小均方(LMS)自适应滤波器从由所述麦克风捕获的所述音频内容中减去任何经高通滤波的音频内容之后,检查由所述麦克风捕获的音频内容以检测低频子带中的音频内容的存在;
如果在由所述麦克风捕获的所述音频内容中检测到低频子带中的音频内容,则冻结所述LMS滤波器的自适应并且在所述减去之后将由所述麦克风捕获的所述音频内容发送到所述远端;以及
如果在由所述麦克风捕获的所述音频内容中未检测到低频子带中的音频内容,则启用所述LMS滤波器的自适应并且在所述减去之后将由所述麦克风捕获的所述音频内容发送到所述远端。
2.根据权利要求1所述的方法,其中检查由所述麦克风捕获的音频内容以检测低频子带中音频内容的存在包括检查由所述麦克风捕获的音频内容以检测具有低于所述高通滤波的截止频率的频率通带的低频子带中音频内容的存在。
3.根据权利要求1所述的方法,还包括:
如果远端音频内容存在于所捕获的近端音频中,则向所述远端发送生成的舒适噪声以代替由所述麦克风捕获的所述音频内容;以及
如果所述麦克风没有捕获远端音频内容,则向所述远端发送由所述麦克风捕获的所述音频内容。
4.根据权利要求3所述的方法,其中向所述远端发送生成的舒适噪声以代替由所述麦克风捕获的所述音频内容包括发送生成的舒适噪声,所述舒适噪声从所述麦克风复制非信号电平并且匹配从所述麦克风捕获的背景噪声的频谱内容。
5.根据权利要求1所述的方法,其中对所述远端音频内容进行高通滤波包括将所述低频子带中的能量抑制到一定水平,使得所述低频子带中的所述远端音频回声内容的水平不高于预期在所述麦克风处遇到的最低背景噪声水平。
6.根据权利要求1所述的方法,其中对从所述远端接收的所述音频内容进行高通滤波包括以低于600Hz的截止频率对从所述远端接收的所述音频内容进行高通滤波。
7.根据权利要求1所述的方法,其中对从所述远端接收的所述音频内容进行高通滤波包括以不高于400Hz的截止频率对从所述远端接收的所述音频内容进行高通滤波。
8.根据权利要求1所述的方法,其中检查由所述麦克风捕获的音频内容以检测低频子带中音频内容的存在包括检查由所述麦克风捕获的音频内容以检测在约156.25Hz和约281.25Hz之间的频率子带中音频内容的存在。
9.根据权利要求1所述的方法,其中检查由所述麦克风捕获的音频内容以检测所述低频子带中音频内容的存在还包括:
估计所述低频子带中噪声的功率电平;
将所述低频子带中的所述功率电平与所述低频子带中的所估计的噪声功率电平进行比较;以及
如果所述低频子带中的所述功率电平高于所估计的噪声功率,则指示所述低频子带中音频内容的存在。
10.一种用于消除音频设备中的声学回声内容的系统,包括:
麦克风,所述麦克风位于近端处以捕获在近端处生成的音频内容;
扬声器,所述扬声器位于所述近端处;
高通滤波器,所述高通滤波器设置在所述远端与所述扬声器之间以从所述远端输出经高通滤波的音频内容以通过所述扬声器播放;
带通滤波器,所述带通滤波器耦接到所述麦克风并且具有低于所述高通滤波器的截止频率的低频通带;
近端语音检测模块,所述近端语音检测模块耦接到所述带通滤波器,如果由所述麦克风捕获的音频内容包括所述带通滤波器的所述低频通带中的音频内容,则所述近端语音检测模块生成第一信号,并且如果由所述麦克风捕获的音频内容不包括所述带通滤波器的所述低频通带中的音频内容,则所述近端语音检测模块生成第二信号;
自适应滤波器,所述自适应滤波器被布置为响应于来自所述近端语音检测模块的所述第一信号而调整滤波器系数,并且响应于来自所述近端语音检测模块的所述第二信号而不调整所述滤波器系数;和
减法电路,所述减法电路用于在向所述远端发送由所述麦克风捕获的所述音频内容之前,从由所述麦克风捕获的所述音频内容中减去通过所述自适应滤波器的经高通滤波的音频内容。
11.根据权利要求10所述的系统,还包括:
舒适噪声生成电路;和
开关,所述开关耦接到所述减法电路和所述舒适噪声生成电路并且被配置为仅当存在经高通滤波的音频内容时才响应于来自所述近端语音检测模块的所述第二信号而向所述远端发送舒适噪声,否则将来自所述减法电路的音频内容发送到所述远端。
12.根据权利要求10所述的系统,其中所述带通滤波器是设置在快速傅里叶变换子带电路中的多个带通滤波器中的一个带通滤波器,所述带通滤波器具有包括所述低频通带的通带。
13.根据权利要求10所述的系统,其中所述自适应滤波器是最小均方自适应滤波器。
14.根据权利要求10所述的系统,其中所述高通滤波器被配置为将所述低频通带中的能量抑制到不高于预期在所述麦克风处遇到的最低背景噪声水平的水平。
15.根据权利要求10所述的系统,其中所述高通滤波器具有低于600Hz的截止频率。
16.根据权利要求10所述的系统,其中所述高通滤波器具有不高于400Hz的截止频率。
17.根据权利要求10所述的系统,其中所述近端语音检测电路包括:
用于以下方面的电路:估计所述低频通带中噪声的功率电平,将所述低频通带中的所述功率电平与所述低频通带中的所估计的噪声功率电平进行比较,并且如果所述低频通带中的所述功率电平高于所估计的噪声功率,则指示所述低频通带中音频内容的存在。
18.一种用于消除音频设备中的声学回声内容的系统,所述音频设备将由近端处的麦克风捕获的音频发送到远端并且通过所述近端处的扬声器播放在所述远端处生成的音频,所述系统包括:
高通滤波器,所述高通滤波器在通过所述扬声器播放在所述远端处生成的所述音频之前从在所述远端处生成的所述音频中去除低频内容;
低频带通滤波器,所述低频带通滤波器耦接到所述麦克风并且具有低于所述高通滤波器的截止频率的低频通带;
近端活动语音检测模块,所述近端活动语音检测模块响应于来自所述低频带通滤波器的输出;
自适应滤波器,所述自适应滤波器耦接到所述麦克风和所述高通滤波器,并且被布置为仅响应于从所述近端语音检测模块检测到近端活动语音来调整滤波器系数,否则不调整所述滤波器系数;和
减法电路,所述减法电路用于从由所述麦克风捕获的所述音频内容中减去通过所述自适应滤波器的音频内容。
19.根据权利要求18所述的系统,其中所述高通滤波器被配置为将所述低频通带中的能量抑制到不高于预期在所述麦克风处遇到的最低背景噪声水平的水平。
20.根据权利要求18所述的系统,还包括:
舒适噪声生成电路;和
开关,所述开关耦接到所述减法电路和所述舒适噪声生成电路并且被配置为仅当存在经高通滤波的音频内容时才响应于来自所述近端语音检测模块的所述第二信号而向所述远端发送舒适噪声,否则将来自所述减法电路的音频内容发送到所述远端。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862784441P | 2018-12-22 | 2018-12-22 | |
US62/784,441 | 2018-12-22 | ||
US16/245,217 US10636435B1 (en) | 2018-12-22 | 2019-01-10 | Acoustic echo cancellation using low-frequency double talk detection |
US16/245,217 | 2019-01-10 | ||
PCT/US2019/042908 WO2020131161A1 (en) | 2018-12-22 | 2019-07-23 | Acoustic echo cancellation using low-frequency near-end voice detection |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113196733A true CN113196733A (zh) | 2021-07-30 |
CN113196733B CN113196733B (zh) | 2023-08-04 |
Family
ID=70332418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980082783.3A Active CN113196733B (zh) | 2018-12-22 | 2019-07-23 | 使用低频近端语音检测的声学回声消除 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10636435B1 (zh) |
CN (1) | CN113196733B (zh) |
DE (1) | DE112019006383T5 (zh) |
WO (1) | WO2020131161A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11303758B2 (en) * | 2019-05-29 | 2022-04-12 | Knowles Electronics, Llc | System and method for generating an improved reference signal for acoustic echo cancellation |
CN113763945B (zh) * | 2020-12-29 | 2024-05-17 | 北京沃东天骏信息技术有限公司 | 一种语音唤醒方法、装置、设备及存储介质 |
US11863710B2 (en) * | 2021-11-01 | 2024-01-02 | Mediatek Inc. | Audio device and method for detecting device status of audio device in audio/video conference |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6052462A (en) * | 1997-07-10 | 2000-04-18 | Tellabs Operations, Inc. | Double talk detection and echo control circuit |
CN1463507A (zh) * | 2001-05-22 | 2003-12-24 | 三菱电机株式会社 | 回波处理装置 |
US20100135483A1 (en) * | 2008-12-02 | 2010-06-03 | Qualcomm Incorporated | Systems and methods for double-talk detection in acoustically harsh environments |
CN102637437A (zh) * | 2011-02-10 | 2012-08-15 | 佳能株式会社 | 音频处理设备及其控制方法 |
US8971543B1 (en) * | 2012-06-25 | 2015-03-03 | Rawles Llc | Voice controlled assistant with stereo sound from two speakers |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070019803A1 (en) | 2003-05-27 | 2007-01-25 | Koninklijke Philips Electronics N.V. | Loudspeaker-microphone system with echo cancellation system and method for echo cancellation |
JP4697465B2 (ja) * | 2004-11-08 | 2011-06-08 | 日本電気株式会社 | 信号処理の方法、信号処理の装置および信号処理用プログラム |
US7711108B2 (en) * | 2005-03-03 | 2010-05-04 | Mindspeed Technologies, Inc. | Fast echo canceller reconvergence after TDM slips and echo level changes |
US7856098B1 (en) * | 2005-09-15 | 2010-12-21 | Mindspeed Technologies, Inc. | Echo cancellation and control in discrete cosine transform domain |
GB2449720A (en) | 2007-05-31 | 2008-12-03 | Zarlink Semiconductor Inc | Detecting double talk conditions in a hands free communication system |
EP2822263B1 (en) | 2013-07-05 | 2019-03-27 | Sennheiser Communications A/S | Communication device with echo suppression |
US10014906B2 (en) | 2015-09-25 | 2018-07-03 | Microsemi Semiconductor (U.S.) Inc. | Acoustic echo path change detection apparatus and method |
US10079023B2 (en) * | 2015-09-25 | 2018-09-18 | Microsemi Semiconductor (U.S.) Inc. | Comfort noise generation apparatus and method |
US10122863B2 (en) | 2016-09-13 | 2018-11-06 | Microsemi Semiconductor (U.S.) Inc. | Full duplex voice communication system and method |
-
2019
- 2019-01-10 US US16/245,217 patent/US10636435B1/en active Active
- 2019-07-23 CN CN201980082783.3A patent/CN113196733B/zh active Active
- 2019-07-23 DE DE112019006383.9T patent/DE112019006383T5/de active Pending
- 2019-07-23 WO PCT/US2019/042908 patent/WO2020131161A1/en active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6052462A (en) * | 1997-07-10 | 2000-04-18 | Tellabs Operations, Inc. | Double talk detection and echo control circuit |
CN1463507A (zh) * | 2001-05-22 | 2003-12-24 | 三菱电机株式会社 | 回波处理装置 |
US20100135483A1 (en) * | 2008-12-02 | 2010-06-03 | Qualcomm Incorporated | Systems and methods for double-talk detection in acoustically harsh environments |
CN102637437A (zh) * | 2011-02-10 | 2012-08-15 | 佳能株式会社 | 音频处理设备及其控制方法 |
US8971543B1 (en) * | 2012-06-25 | 2015-03-03 | Rawles Llc | Voice controlled assistant with stereo sound from two speakers |
Also Published As
Publication number | Publication date |
---|---|
US10636435B1 (en) | 2020-04-28 |
WO2020131161A1 (en) | 2020-06-25 |
CN113196733B (zh) | 2023-08-04 |
DE112019006383T5 (de) | 2021-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109716743B (zh) | 全双工语音通信系统和方法 | |
US8306215B2 (en) | Echo canceller for eliminating echo without being affected by noise | |
US5598468A (en) | Method and apparatus for echo removal in a communication system | |
US6792107B2 (en) | Double-talk detector suitable for a telephone-enabled PC | |
US8644496B2 (en) | Echo suppressor, echo suppressing method, and computer readable storage medium | |
TWI392322B (zh) | 基於頻譜聲學特性之雙邊發話檢測方法 | |
US5848151A (en) | Acoustical echo canceller having an adaptive filter with passage into the frequency domain | |
US8433059B2 (en) | Echo canceller canceling an echo according to timings of producing and detecting an identified frequency component signal | |
JP5122042B2 (ja) | スペクトル分析による近端話者検出のためのシステムと方法 | |
CN113196733B (zh) | 使用低频近端语音检测的声学回声消除 | |
US9172817B2 (en) | Communication system | |
US8160239B2 (en) | Echo canceller and speech processing apparatus | |
IL112797A (en) | Visible bee multiplication using spectral content | |
JP5086769B2 (ja) | 拡声通話装置 | |
CN110956975B (zh) | 回声消除方法及装置 | |
TW201721630A (zh) | 柔和噪音產生裝置與方法 | |
JP3607625B2 (ja) | 多チャネル反響抑圧方法、その装置、そのプログラム及びその記録媒体 | |
EP3354004B1 (en) | Acoustic echo path change detection apparatus and method | |
Yang | Multilayer adaptation based complex echo cancellation and voice enhancement | |
JPH11205200A (ja) | 周期信号検出器 | |
JP5183506B2 (ja) | ハウリング防止装置 | |
JPS61121625A (ja) | 反響信号消去装置 | |
JPS6348210B2 (zh) | ||
PV et al. | Robust Acoustic Echo Suppression In Modulation Domain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |