CN108140395B - 舒适噪声生成装置和方法 - Google Patents
舒适噪声生成装置和方法 Download PDFInfo
- Publication number
- CN108140395B CN108140395B CN201680055931.9A CN201680055931A CN108140395B CN 108140395 B CN108140395 B CN 108140395B CN 201680055931 A CN201680055931 A CN 201680055931A CN 108140395 B CN108140395 B CN 108140395B
- Authority
- CN
- China
- Prior art keywords
- end signal
- far
- estimate
- voice activity
- background noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 18
- 230000000694 effects Effects 0.000 claims abstract description 90
- 230000004044 response Effects 0.000 claims abstract description 29
- 230000000977 initiatory effect Effects 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 description 27
- 238000004891 communication Methods 0.000 description 19
- 238000012549 training Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006978 adaptation Effects 0.000 description 4
- 206010002953 Aphonia Diseases 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000005314 correlation function Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
- H04M9/082—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02168—Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Telephone Function (AREA)
Abstract
一种舒适噪声生成装置,包括:近端和远端话音检测器,其被安排成检测近端和远端信号中的话音活动;以及舒适噪声生成器,其中响应于来自近端话音检测器的在近端信号上缺乏话音活动的指示和来自远端静默检测器的在远端信号上缺乏话音活动的指示,舒适噪声生成器被安排成发起对近端背景噪声的估计的确定,其中响应于来自近端话音检测器的在近端信号上存在话音活动的指示或来自远端静默检测器的在远端信号上存在话音活动的指示,舒适噪声生成器被安排成终止近端背景噪声的估计确定,并且其中舒适噪声生成器被安排成输出近端背景噪声估计的函数。
Description
背景
舒适噪声(或舒适频调)是在无线电和无线通信中用于填充因语音活动检测或现代数字线路的音频透明性而导致的传输中的人造静默的合成背景噪声。
在全双工语音通信系统中,在只有远端讲话者在讲话时,声学回音消除和降噪算法有时很好地抑制回音和噪声以使得远端讲话者听到绝对静默。在近端讲话者开始讲话时,一些背景噪声可被传送,由此向远端收听者提供非常不自然的对话体验。为了解决这个问题,仅当远端在讲话时生成舒适噪声并且将其传送到远端。
进一步,当在没有播放舒适噪声时在各状态之间转变时,期望提供以尽可能紧密地匹配背景噪声的振幅和频谱内容的形式的无缝体验。
于2007年7月10日向Stephens等人授权的美国专利7,243,065致力于舒适噪声生成器,其全部内容通过援引整体纳入于此。遗憾的是,所描述的舒适噪声生成器没有提供足够高质量的舒适噪声。
发明概述
相应地,本发明的主要目的在于克服现有技术舒适噪声生成装置的至少一些缺点。这在一个实施例中由一种舒适噪声生成装置实现,该装置包括:近端话音检测器,其被安排成检测近端信号中的话音活动;远端静默检测器,其被安排成检测远端信号中的话音活动;以及舒适噪声生成器,其中响应于来自近端话音检测器的在近端信号上缺乏话音活动的指示和来自远端静默检测器的在远端信号上缺乏话音活动的指示,舒适噪声生成器被安排成发起对近端背景噪声的估计的确定,其中响应于来自近端话音检测器的在近端信号上存在话音活动的指示或来自远端静默检测器的在远端信号上存在话音活动的指示,舒适噪声生成器被安排成终止近端背景噪声的所述估计确定,并且其中舒适噪声生成器被安排成输出近端背景噪声估计的函数。
在一个进一步实施例中,该装置进一步包括近端语音活动检测器,其被安排成检测所述近端信号中的话音活动,其中所述近端语音活动检测器检测话音活动的所述安排包括:在话音与背景噪声之间进行区分的安排,并且所述近端话音检测器检测话音活动的所述安排包括:在话音与所述远端信号的声学回音之间进行区分的安排,并且其中所述估计确定的所述发起进一步响应于来自所述近端语音活动检测器的在所述近端信号上缺乏话音活动的指示。在另一进一步实施例中,所述估计确定包括对声学回音消除器的输出的多个频率分量中的每一者的自回归移动平均滤波。
在一个进一步实施例中,所述估计确定的所述发起包括对先前背景噪声估计的更新。在另一进一步实施例中,所述近端背景噪声估计的所述函数包括使用所述近端背景噪声估计对白噪声快速傅里叶变换系数的调制。
独立地,提供了一种舒适噪声生成方法,该方法包括:检测近端信号中话音活动的缺乏;检测近端信号中话音活动的存在;检测远端信号中话音活动的缺乏;检测远端信号中话音活动的存在;响应于所述检测到在所述近端信号上缺乏话音活动以及所述检测到在所述远端信号上缺乏话音活动,发起对近端背景噪声的估计的确定;响应于所述检测到在所述近端信号上存在话音活动或者所述检测到在所述远端信号上存在话音活动,终止近端背景噪声的估计确定;以及输出所述近端背景噪声估计的函数。
在一个进一步实施例中,检测近端信号中话音活动的缺乏和存在包括:在话音与背景噪声之间进行区分;以及在话音与所述远端信号的声学回音之间进行区分,其中所述估计确定是响应于在所述近端信号中缺乏话音的第一指示以及在所述近端信号中缺乏话音的第二指示而发起的,所述第一指示响应于在话音与背景噪声之间的所述区分,并且所述第二指示响应于在话音与所述远端信号回音之间的所述区分。在另一进一步实施例中,所述估计确定包括对声学回音消除器的输出的多个频率分量中的每一者的自回归移动平均滤波。
在一个进一步实施例中,所述估计确定的所述发起包括更新先前背景噪声估计。在另一进一步实施例中,所述近端背景噪声估计的所述函数包括使用所述近端背景噪声估计对白噪声快速傅里叶变换系数的调制。
本发明另外的特征及优势由以下附图及描述而变得明显。
附图简述
为了更好地理解本发明以及示出相同的方法如何被实行,现在将参照附图(纯粹作为示例),其中相同的附图标记贯穿始终标记对应的部分或元件。
现在具体参照附图,需要强调的是,所示的细节仅作为示例且出于对本发明的优选实施例的解说性讨论的目的,并且是为了提供对本发明的原理及概念性方面被认为是最有用且容易理解的描述而给出的。就此而言,未做出尝试以示出比基本理解本发明所需更为具体的本发明的结构细节,结合附图的描述使得本领域技术人员明了本发明的若干形式如何在实践中实施。在附图中:
图1解说了根据某些实施例的包括舒适噪声生成装置和处理功能性的通信设备部分的高级框图;
图2解说了图1的通信设备部分的更详细实施例;
图3解说了图1的通信设备部分的舒适噪声生成器和处理功能性的详细实施例;以及
图4解说了根据某些实施例的舒适噪声生成方法的高级流程图。
优选实施例的详细描述
在详细解释本发明的至少一个实施例前,需要理解的是,本发明在其应用中并不限于以下描述中或阐述附图中解说的构造细节和组件安排。本发明适用于其它实施例或者以各种方式被实践或实行。另外,需要理解的是,本文中所采用的措辞及术语是为了描述并且不应被视为限制。
图1解说了通信设备部分5的高级框图,包括舒适噪声生成装置10;近端输入20;近端输出30;远端输入40;远端输出50;声学回音消除器90,其包括声学回音估计功能性62和加法器64;适配控制功能性70;以及处理功能性80。舒适噪声生成装置10包括:近端话音检测器90;远端静默检测器100;以及舒适噪声生成器110。通信设备部分5位于语音通信设备(诸如,电话)内。声学回音消除器60、适配控制功能性70、处理功能性80、近端话音检测器90、远端静默检测器100和舒适噪声生成器110各自被实现为ASIC功能性、专用模拟功能性中的任一者、或者实现为存储在存储器上且被安排成由处理器实现的指令。
近端输入20耦合至:话筒120、近端话音检测器90的相应输入;以及声学回音消除器60的加法器64的相应输入。加法器64的输出耦合至:近端话音检测器90的相应输入;以及处理功能性80的相应输入。声学回音消除器60的声学回音估计功能性62的输出耦合至加法器64的相应输入以及近端话音检测器90的相应输入。适配控制功能性70的输出耦合至声学回音估计功能性62的相应输入。远端输入40耦合至:近端输出30;处理功能性110的相应输入;声学回音消除器60的声学回音估计功能性62的输入;以及远端静默检测器100的输入。近端话音检测器90和远端静默检测器100中的每一者的输出耦合至舒适噪声生成器110的相应输入。舒适噪声生成器110的输出耦合至处理器功能性80的相应输入,并且处理功能性80的第一输出耦合至舒适噪声生成器110的相应输入。处理功能性80的第二输出耦合至远端输出50。
在操作中,在远端输入40处接收远端信号。具体而言,远端信号是与声学回音改变检测装置10处于通信的语音通信设备(诸如,与包括声学回音改变检测装置10的电话处于通信的电话)处的话筒处接收到的语音的数字或模拟表示。类似地,在近端输入20处接收近端信号。具体而言,近端信号是由话筒120接收到的语音的数字或模拟表示。
接收到的远端信号被扬声器130声学地输出并且在穿过近端声学回音路径(即,扬声器130与话筒120之间的空间)之后被话筒120捡取。结果,近端信号进一步包括被扬声器130输出并且作为回音发回远端电话的远端信号。声学回音消除器60被安排成减少近端信号上的声学回音,如本领域技术人员在本发明之时所知晓的。具体而言,声学回音估计功能性62被安排成通过估计远端信号被话筒120捡取的时间以及远端信号沿近端声学回音路径的衰减来估计近端信号内的声学回音。该估计被声学回音估计功能性62输出给加法器64。加法器64被安排成从近端信号中移除回音估计的副本。声学回音消除器60输出的信号由此包括其中远端信号的声学回音被消除掉或者被显著减小的近端信号。因此,声学回音消除器60输出的信号将是近端扬声器的语音的更准确表示。适配功能性70被安排成响应于附加检测器(未示出)(诸如,静默检测器和含糊检测器)而控制声学回音估计功能性62的模式,如本领域技术人员在本发明之时所知晓的。
处理功能性80被进一步安排成处理声学回音消除器60的输出信号,随后将该信号输出给远端输出50。在一个实施例中,处理功能性80被安排成将该信号从时域转变到频域,优选地通过执行快速傅里叶变换(FFT)。处理功能性80被进一步安排成将FFT功率系数编群成频率子带,可任选地,基于Bark标度的22个子带,如本领域技术人员在本发明之时所知晓的。在每个频率子带内,处理功能性80被进一步安排成:从该信号中移除噪声和残留回音;执行均衡;以及将FFT功率系数转换回时域。经处理的信号随后从近端输出50输出。在一个实施例中,处理功能性80的处理每10ms对相应子带内的FFT功率系数的采样的缓冲器执行一次。
近端话音检测器90被安排成检测接收到的近端信号中的话音活动,并且远端静默检测器100被安排成检测接收到的远端信号中的话音活动,如本领域技术人员在本发明之时知晓的。可任选地,近端话音检测器90被安排成响应于应用于以下各项的各种互相关函数而检测近端信号中的话音活动:近端信号;声学回音估计功能性62的输出声学回音估计;以及声学回音消除器60的加法器64的输出。另外,可任选地,远端静默检测器100被安排成响应于应用于远端信号的各种互相关函数而检测远端信号中的话音活动。
在近端话音检测器90检测到在接收到的近端信号中缺乏话音活动时,近端话音检测器90被安排成向舒适噪声生成器110输出此类缺乏的指示。在远端话音检测器100检测到在接收到的近端信号中缺乏话音活动时,远端静默检测器100被安排成向舒适噪声生成器110输出此类缺乏的指示。响应于接收到的在近端信号中缺乏话音活动的指示和接收到的在远端信号中缺乏话音活动的指示两者,舒适噪声生成器110被安排成发起对近端背景噪声的估计的确定。具体而言,在其中在近端和远端不存在话音活动的时段期间,舒适噪声生成器110被安排成根据近端信号中的背景噪声来估计背景噪声,以使得所生成的舒适噪声将是背景噪声的估计,这是因为背景噪声不会非常快速地改变。
在一个实施例中,如将在以下描述的,对近端背景噪声估计的确定的发起包括对先前确定的近端背景噪声估计的更新的发起。在另一实施例中,如将在以下描述的,近端背景噪声估计包括对声学回音消除器60的输出的多个频率分量中的每一者的自回归移动平均滤波。可任选地,该多个频率分量是从处理功能性80接收的。为了生成近端背景噪声的准确估计,该估计仅在近端和远端信号都缺乏话音活动时确定。话音活动通常与背景噪声显著不同,由此在某人讲话时估计近端背景噪声将是不准确的。尽管声学回音消除器60被安排成减少近端信号内声学回音的量,但如果远端信号包括话音活动,则声学回音消除器60的输出将不是近端背景噪声的准确示例,这是由于残留回音以及由于来自声学回音消除器60的处理的损耗而导致的。
响应于来自近端话音检测器90的在近端信号上存在话音活动的指示或来自远端静默检测器100的在远端信号上存在话音活动的指示,舒适噪声生成器110被安排成终止对近端背景噪声的估计的确定。
舒适噪声生成器110被安排成响应于以下各项而输出所估计的近端背景:近端话音检测器90的在近端信号中缺乏话音活动(即,近端说话者正在讲话)的指示以及远端静默检测器100的在远端信号中存在话音活动(即,远端说话者正在讲话)的指示。在一个实施例中,白噪声快速傅里叶变换(FFT)系数通过所估计的背景来调制,由此生成要在远端输出50处输出的舒适噪声。由于输出舒适噪声,远端说话者听不到它们自己的残留回音或者与真实的近端背景噪声不相似的低水平噪声。在近端话音时段期间播放舒适噪声将会将语音通信系统减小到半双工系统,其中一次仅可听到一个讲话者。在近端和远端两者处的静默时段期间播放舒适噪声也是不合乎需要的,因为远端讲话者将优选听到近端处的实际背景噪声。因此,当话音存在于远端信号上、但不存在于近端信号中时,舒适噪声被输出给远端输出50。
图2解说了具有舒适噪声生成装置10的更详细实施例的通信设备部分5的高级框图。具体而言,舒适噪声生成装置10进一步包括语音活动检测器(VAD)140。语音活动检测器140的第一输入耦合至近端输入20,并且语音活动检测器140的第二输入耦合至声学回音消除器的加法器64的输出。语音活动检测器140的输出耦合至舒适噪声生成器110的相应输入。近端话音检测器90被安排成通过在话音与背景噪声之间进行区分来检测话音活动。如上所述,在一个实施例中,近端话音检测器90被安排成响应于应用于以下各项的各种互相关函数而在背景噪声与话音之间进行区分:近端信号;声学回音估计功能性62的输出声学回音估计;以及声学回音消除器60的加法器64的输出。语音活动检测器140是较复杂的检测器并且被安排成在低水平话音与存在于近端信号内的远端信号的声学回音之间进行区分,如本领域技术人员在本发明之时所知晓的。
舒适噪声生成器110被安排成响应于远端静默检测器100的在远端信号中缺乏话音活动的指示以及近端话音检测器90和语音活动检测器140中的每一者的在近端信号中缺乏话音活动的指示,发起近端背景噪声估计确定。因此,如上所述,近端背景噪声仅在近端和远端处不存在话音活动时被估计。
图3解说了通信设备部分5的舒适噪声生成器110和处理功能性80的详细实施例的高级框图、以及其间的连接。舒适噪声生成器包括:控制功能性200;舒适噪声训练和播放功能性210;以及受控数据路径220。处理功能性80包括:时域到频域转换器230;频域处理功能性240;受控数据路径250;以及频域到时域转换器260。受控数据路径220和受控数据路径250各自被安排成提供其相应端子之间的可控数据传输路径。在一个实施例中,受控数据路径220和受控数据路径250可以各自被实现为专用软件功能。在另一实施例中,受控数据路径220和受控数据路径250可以各自被实现为硬件实现的电控开关。
如上所述,控制功能性200的相应输入被连接至近端话音检测器90、远端静默检测器100和语音活动检测器140(未示出)。控制功能性200的第一输出耦合至受控数据路径220的控制输入,并且控制功能性200的第二输出耦合至受控数据路径250的控制输入。受控数据路径220的第一端子耦合至时域到频域转换器230的输出。受控数据路径220的第二端子耦合至舒适噪声训练和播放功能性210的输入。舒适噪声训练和播放功能性210的输出耦合至处理功能性80的受控数据路径250的第一端子。时域到频域转换器230的输出耦合至频域处理功能性240的输入,并且频域处理功能性240的输出耦合至受控数据路径250的第二端子。受控数据路径250的第三端子耦合至频域到时域转换器260的输入。频域到时域转换器260的输出耦合至远端输出50(未示出),如上所述。
在操作中,响应于在近端和远端两者处不存在话音活动的指示,控制功能性200被安排成:控制受控数据路径220将时域到频域转换器230的输出耦合至舒适噪声训练和播放功能性210的输入;以及控制受控数据路径250将频域处理功能性240的输出耦合至频域到时域转换器260的输入。如上所述,在近端和远端两者处的静默期间,舒适噪声训练和播放功能性250被安排成估计近端背景噪声。具体而言,在一个实施例中,时域到频域转换器230被安排成通过对声学回音消除器60输出的信号执行FFT来将该信号转换到频域。FFT系数被分成频率子带,优选地根据Bark标度。舒适噪声训练和播放功能性210被安排成通过自回归移动平均(ARMA)滤波器来对子带系数滤波。经平均的子带系数被用来更新先前存储的对近端背景噪声的估计。结果,近端背景噪声中的任何改变被检测到并且近端背景噪声估计相应地被更新。如上所述,实际近端背景噪声被处理功能性80输出。
响应于在近端处不存在话音活动的指示以及在远端处不存在话音活动的指示,控制功能性200被安排成:控制受控数据路径220将时域到频域转换器230的输出与舒适噪声训练和播放功能性210的输入解耦;以及控制受控数据路径250将频域到时域转换器260的输入耦合至舒适噪声训练和播放功能性210的输出。如上所述,在一个实施例中,FFT白噪声被生成并且该白噪声被近端背景噪声估计来调制。经调制的FFT白噪声被频域到时域转换器260转换到时域并且输出给远端输出50。因此,舒适噪声代替近端信号被输出给远端说话者。如上所述,舒适噪声是近端背景噪声的估计并且不包括远端信号的声学回音。在一个优选实施例中,由于近端背景噪声估计的提高的准确性,所生成的舒适噪声被立即提供并且舒适噪声的逐步应用是不必要的。
响应于在近端处存在话音活动的指示,控制功能性200被安排成:控制受控数据路径220将时域到频域转换器230的输出与舒适噪声训练和播放功能性210的输入解耦;以及控制受控数据路径250将频域到时域转换器240的输入耦合至频域处理功能性260的输出。如上所述,频域处理功能性240被安排成从声学回音消除器60输出的信号中移除残留回音和噪声,经处理的信号在被频域到时域转换器260转换之后从处理功能性80输出。如上所述,在近端话音活动被检测到时,舒适噪声训练和播放功能性210不被安排成响应于受控数据路径220而更新近端背景噪声估计。
图4解说了根据某些实施例的舒适噪声生成方法的高级流程图。在阶段1000,检测近端信号中话音活动的缺乏或存在。具体而言,近端信号是从其中执行当前方法的通信设备处的话筒接收到的信号。在阶段1010,检测远端信号中话音活动的缺乏或存在。具体而言,远端信号是从与执行当前方法的通信设备处于通信的通信设备接收到的信号,远端信号被安排成在当前通信设备的近端扬声器处输出。
在阶段1020,响应于检测到在近端信号上缺乏话音活动并且检测到在远端信号上缺乏话音活动,发起对近端背景噪声的估计的确定。可任选地,发起对近端背景噪声的先前估计的更新。可任选地,该估计是响应于近端信号的频率分量的自回归移动平均滤波而确定,可任选地,在通过声学回音消除器使声学回音从中移除之后。进一步可任选地,这些频率分量是通过根据Bark标度将信号的FFT系数分成频率子带来确定的。
在阶段1030,响应于检测到在近端信号上存在话音活动并且检测到在远端信号上存在话音活动,终止阶段1020的对近端背景噪声的估计的确定。
在阶段1040,可任选地响应于检测到在远端信号上存在话音活动并且在近端信号上缺乏话音活动,输出阶段1020的背景噪声估计的函数。可任选地,该函数包括通过背景噪声估计对白噪声FFT系数的调制。
在可任选阶段1050,检测近端信号中话音活动的缺乏和/或存在包括:在话音与背景噪声之间进行区分;以及在话音与远端信号的声学回音之间进行区分。阶段1020的近端背景噪声估计确定是响应于近端信号中缺乏话音的第一指示和近端信号中缺乏话音的第二指示而发起的。第一指示响应于在话音与背景噪声之间进行区分,并且第二指示响应于在话音与远端信号回音之间进行区分。具体而言,第一指示是由话音检测器输出的,并且第二指示是由语音活动检测器输出的。
将领会,为清楚起见,在分开的实施例的上下文中所描述的本发明的某些特征也可以在单个实施例中组合提供。相反,为了简洁起见,在单一实施例的上下文中描述的本发明的各种特征也可以单独地提供或者在任何合适的子组合中提供。具体地,本发明通过以类别来标识每个受电设备来进行描述,然而这并不意在以任何方式进行限制。在替换性实施例中,所有的受电设备被平等地对待,并且由此不要求具有其相关功率要求的类别标识。
除非另行定义,否则在本文中所使用的所有技术和/或科学术语具有与本发明所属技术领域的普通技术人员所通常理解的相同的含义。虽然类似于或等同于本文中描述的方法可以用于实践或用于本发明的测试,但是本文中描述了合适的方法。
本文中所提及的所有公开、专利申请、专利和其他参考通过援引本整体纳入于本文中。在冲突的情况下,将以包括定义的本专利说明书为准。此外,材料、方法和示例仅为解说性的而不旨在作为限制。
本领域技术人员将会领会,本发明并不限于上文中所具体示出和描述的部分。确切而言,本发明的范围由所附权利要求定义,并且包括上文所描述的各个特种的组合和子组合二者,以及本领域技术人员在阅读先前的描述之际将会做出的其变形和修改。
Claims (9)
1.一种舒适噪声生成装置,包括:
近端话音检测器,其被安排成检测近端信号中的话音活动;
远端静默检测器,其被安排成检测远端信号中的话音活动;以及
舒适噪声生成器,
其中响应于来自所述近端话音检测器的在所述近端信号上缺乏话音活动的指示和来自所述远端静默检测器的在所述远端信号上缺乏话音活动的指示,所述舒适噪声生成器被安排成发起对近端背景噪声的估计的确定,其中对近端背景噪声的估计的所述确定包括:对声学回音消除器的输出的多个频率分量中的每一者的自回归移动平均滤波,所述声学回音消除器的输出包括其中所述远端信号的声学回音被消除掉的所述近端信号,
其中响应于来自所述近端话音检测器的在所述近端信号上存在话音活动的指示或来自所述远端静默检测器的在所述远端信号上存在话音活动的指示,所述舒适噪声生成器被安排成终止近端背景噪声的所述估计的确定,并且
其中所述舒适噪声生成器被安排成输出近端背景噪声的所述估计的函数。
2.如权利要求1所述的装置,其特征在于,进一步包括语音活动检测器,其被安排成在低水平话音与存在于所述近端信号内的所述远端信号的声学回音之间进行区分,
其中所述近端话音检测器检测所述近端信号中的话音活动的所述安排包括:在话音与背景噪声之间进行区分的安排,并且
其中所述估计的确定的所述发起进一步响应于来自所述语音活动检测器的在所述近端信号上缺乏话音活动的指示。
3.如权利要求1所述的装置,其特征在于,所述估计的确定的所述发起包括对先前背景噪声估计的更新。
4.如权利要求1所述的装置,其特征在于,所述近端背景噪声估计的所述函数包括使用近端背景噪声的所述估计对白噪声快速傅里叶变换系数的调制。
5.一种舒适噪声生成方法,所述方法包括:
检测近端信号中话音活动的缺乏;
检测所述近端信号中话音活动的存在;
检测远端信号中话音活动的缺乏;
检测所述远端信号中话音活动的存在;
由声学回音消除器输出包括其中所述远端信号的声学回音被消除掉的所述近端信号的信号;
响应于所述检测到在所述近端信号上缺乏话音活动以及所述检测到在所述远端信号上缺乏话音活动,通过对所述声学回音消除器的输出的多个频率分量中的每一者的自回归移动平均滤波,发起对近端背景噪声的估计的确定;
响应于所述检测到在所述近端信号上存在话音活动或者所述检测到在所述远端信号上存在话音活动,终止近端背景噪声的所述估计的确定;以及
输出近端背景噪声的所述估计的函数。
6.如权利要求5所述的方法,其特征在于,所述检测所述近端信号中话音活动的缺乏和存在包括:
在话音与背景噪声之间进行区分;以及
在话音与所述远端信号的声学回音之间进行区分,
其中所述估计的确定是响应于在所述近端信号中缺乏话音的第一指示以及在所述近端信号中缺乏话音的第二指示而发起的,所述第一指示响应于在话音与背景噪声之间的所述区分,并且所述第二指示响应于在话音与所述远端信号回音之间的所述区分。
7.如权利要求5所述的方法,其特征在于,所述估计的确定包括对声学回音消除器的输出的多个频率分量中的每一者的自回归移动平均滤波。
8.如权利要求5所述的方法,其特征在于,所述估计的确定的所述发起包括更新先前背景噪声估计。
9.如权利要求5所述的方法,其特征在于,近端背景噪声的所述估计的所述函数包括使用所述近端背景噪声估计对白噪声快速傅里叶变换系数的调制。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562232489P | 2015-09-25 | 2015-09-25 | |
US62/232,489 | 2015-09-25 | ||
PCT/US2016/052977 WO2017053493A1 (en) | 2015-09-25 | 2016-09-22 | Comfort noise generation apparatus and method |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108140395A CN108140395A (zh) | 2018-06-08 |
CN108140395B true CN108140395B (zh) | 2022-01-04 |
Family
ID=57043029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680055931.9A Active CN108140395B (zh) | 2015-09-25 | 2016-09-22 | 舒适噪声生成装置和方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10079023B2 (zh) |
EP (1) | EP3353781B1 (zh) |
CN (1) | CN108140395B (zh) |
TW (1) | TWI666631B (zh) |
WO (1) | WO2017053493A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10014906B2 (en) * | 2015-09-25 | 2018-07-03 | Microsemi Semiconductor (U.S.) Inc. | Acoustic echo path change detection apparatus and method |
US10122863B2 (en) | 2016-09-13 | 2018-11-06 | Microsemi Semiconductor (U.S.) Inc. | Full duplex voice communication system and method |
CN110313031B (zh) * | 2017-02-01 | 2023-09-12 | 惠普发展公司,有限责任合伙企业 | 针对语音隐私的自适应语音可懂度控制 |
CN109346098B (zh) * | 2018-11-20 | 2022-06-07 | 网宿科技股份有限公司 | 一种回声消除方法及终端 |
US10636435B1 (en) * | 2018-12-22 | 2020-04-28 | Microsemi Semiconductor (U.S.) Inc. | Acoustic echo cancellation using low-frequency double talk detection |
CN112738682A (zh) * | 2020-12-29 | 2021-04-30 | 精拓丽音科技(北京)有限公司 | 主动降噪耳机和主动降噪方法 |
CN113241085B (zh) * | 2021-04-29 | 2022-07-22 | 北京梧桐车联科技有限责任公司 | 回声消除方法、装置、设备及可读存储介质 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5307405A (en) | 1992-09-25 | 1994-04-26 | Qualcomm Incorporated | Network echo canceller |
US5341456A (en) * | 1992-12-02 | 1994-08-23 | Qualcomm Incorporated | Method for determining speech encoding rate in a variable rate vocoder |
GB2281680B (en) * | 1993-08-27 | 1998-08-26 | Motorola Inc | A voice activity detector for an echo suppressor and an echo suppressor |
CA2224541C (en) | 1997-01-07 | 2008-06-17 | Northern Telecom Limited | Method of providing conferencing in telephony |
US5920834A (en) | 1997-01-31 | 1999-07-06 | Qualcomm Incorporated | Echo canceller with talk state determination to control speech processor functional elements in a digital telephone system |
US6658107B1 (en) * | 1998-10-23 | 2003-12-02 | Telefonaktiebolaget Lm Ericsson (Publ) | Methods and apparatus for providing echo suppression using frequency domain nonlinear processing |
DE19935808A1 (de) * | 1999-07-29 | 2001-02-08 | Ericsson Telefon Ab L M | Echounterdrückungseinrichtung zum Unterdrücken von Echos in einer Sender/Empfänger-Einheit |
US7243065B2 (en) | 2003-04-08 | 2007-07-10 | Freescale Semiconductor, Inc | Low-complexity comfort noise generator |
US8139777B2 (en) | 2007-10-31 | 2012-03-20 | Qnx Software Systems Co. | System for comfort noise injection |
US8320553B2 (en) * | 2008-10-27 | 2012-11-27 | Apple Inc. | Enhanced echo cancellation |
CN101719969B (zh) * | 2009-11-26 | 2013-10-02 | 美商威睿电通公司 | 判断双端对话的方法、系统以及消除回声的方法和系统 |
US20110228946A1 (en) * | 2010-03-22 | 2011-09-22 | Dsp Group Ltd. | Comfort noise generation method and system |
CN102136271B (zh) * | 2011-02-09 | 2012-07-04 | 华为技术有限公司 | 舒适噪声生成器、方法及回声抵消装置 |
AR085224A1 (es) * | 2011-02-14 | 2013-09-18 | Fraunhofer Ges Forschung | Codec de audio utilizando sintesis de ruido durante fases inactivas |
CN102201241A (zh) * | 2011-04-11 | 2011-09-28 | 深圳市华新微声学技术有限公司 | 语音信号处理方法及装置 |
US8589153B2 (en) * | 2011-06-28 | 2013-11-19 | Microsoft Corporation | Adaptive conference comfort noise |
US20140358532A1 (en) * | 2013-06-03 | 2014-12-04 | Airoha Technology Corp. | Method and system for acoustic channel information detection |
-
2016
- 2016-09-22 EP EP16774793.0A patent/EP3353781B1/en active Active
- 2016-09-22 WO PCT/US2016/052977 patent/WO2017053493A1/en active Application Filing
- 2016-09-22 CN CN201680055931.9A patent/CN108140395B/zh active Active
- 2016-09-22 US US15/272,467 patent/US10079023B2/en active Active
- 2016-09-23 TW TW105130789A patent/TWI666631B/zh active
Also Published As
Publication number | Publication date |
---|---|
EP3353781A1 (en) | 2018-08-01 |
TW201721630A (zh) | 2017-06-16 |
US10079023B2 (en) | 2018-09-18 |
WO2017053493A1 (en) | 2017-03-30 |
TWI666631B (zh) | 2019-07-21 |
CN108140395A (zh) | 2018-06-08 |
EP3353781B1 (en) | 2020-10-28 |
US20170092281A1 (en) | 2017-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108140395B (zh) | 舒适噪声生成装置和方法 | |
CN109716743B (zh) | 全双工语音通信系统和方法 | |
CN101826892B (zh) | 回声消除器 | |
CN101964670B (zh) | 回声抑制方法及回声抑制设备 | |
KR100989266B1 (ko) | 스펙트럼 음향 특성에 기초한 더블 토크 검출 방법 | |
US8355511B2 (en) | System and method for envelope-based acoustic echo cancellation | |
EP1855456B1 (en) | Echo reduction in time-variant systems | |
US5848151A (en) | Acoustical echo canceller having an adaptive filter with passage into the frequency domain | |
CN101719969A (zh) | 判断双端对话的方法、系统以及消除回声的方法和系统 | |
KR20100133365A (ko) | 에코 억제 필터를 위한 제어 정보를 계산하는 장치 및 방법 및 지연 값을 계산하는 장치 및 방법 | |
WO2018221206A1 (ja) | エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム | |
KR101961998B1 (ko) | 즉각적인 바람 잡음을 감소시키는 것 | |
WO2019239977A1 (ja) | エコー抑圧装置、エコー抑圧方法およびエコー抑圧プログラム | |
CN106161820B (zh) | 一种用于立体声声学回声抵消的通道间去相关方法 | |
EP2490218B1 (en) | Method for interference suppression | |
CN108028876B (zh) | 声学回音路径改变检测装置和方法 | |
JP2009094802A (ja) | 通信装置 | |
CN103370741A (zh) | 处理音频信号 | |
CN107045872B (zh) | 通话回声的识别方法和装置 | |
JP6369192B2 (ja) | エコー抑圧装置、エコー抑圧プログラム、エコー抑圧方法及び通信端末 | |
JP2013005106A (ja) | 場内拡声装置、場内拡声方法、及びそのプログラム | |
JP2004274683A (ja) | エコーキャンセル装置、エコーキャンセル方法、プログラムおよび記録媒体 | |
JP6561011B2 (ja) | 無線装置 | |
JP6314608B2 (ja) | エコー抑圧装置、エコー抑圧プログラム、及びエコー抑圧方法 | |
CN115713942A (zh) | 音频处理方法、装置、计算设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |