CN104485118A - 用于语音活动检测的检测器和方法 - Google Patents
用于语音活动检测的检测器和方法 Download PDFInfo
- Publication number
- CN104485118A CN104485118A CN201510006946.3A CN201510006946A CN104485118A CN 104485118 A CN104485118 A CN 104485118A CN 201510006946 A CN201510006946 A CN 201510006946A CN 104485118 A CN104485118 A CN 104485118A
- Authority
- CN
- China
- Prior art keywords
- vad
- judgement
- signal
- outside
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000694 effects Effects 0.000 title claims abstract description 100
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000001514 detection method Methods 0.000 title description 4
- 206010019133 Hangover Diseases 0.000 claims abstract description 18
- 206010038743 Restlessness Diseases 0.000 description 13
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
- Circuits Of Receivers In General (AREA)
Abstract
本发明的实施例涉及语音活动检测器及其方法。所述语音活动检测器被配置为在接收到的输入信号中检测语音活动,所述语音活动检测器包括:输入部,被配置为接收来自所述VAD的初级语音检测器的指示初级VAD判决的信号以及来自至少一个外部VAD的指示来自所述至少一个外部VAD的语音活动判决的至少一个信号;处理器,被配置为将接收到的信号中指示的语音活动判决进行组合,以产生修改后的初级VAD判决;以及输出部,被配置为将修改后的初级VAD判决发送至所述VAD的尾响添加单元。
Description
分案申请说明
本申请是申请日为2010年10月18日、申请号为201080047231.8(国际申请号PCT/SE2010/051118)的、题为“用于语音活动检测的检测器和方法”的发明专利申请的分案申请。
技术领域
本发明涉及语音活动检测方法和语音活动检测器,且更具体地涉及用于处理例如非平稳背景噪声的增强语音活动检测器。
背景技术
在用于对话语音的语音编码系统中,通常使用非连续发送(DTX)来增加编码的效率。原因是对话语音包含了大量被嵌入语音中的停顿,例如当一个人在说话而另一个人在聆听时。因此在DTX的情况下,语音编码器平均仅在大约50%的时间上是活动的,且可以使用舒适噪声对其余时间进行编码。具有该特征的一些示例编解码是AMR NB(自适应多速率窄带)。
对于高质量DTX操作,即,在没有劣化的语音质量的情况下,在输入信号中检测到语音的周期是重要的。这是通过语音活动检测器(VAD)来实现的。图1示出了一般VAD 180的整体框图,其获取根据具体实现被分为5至30ms的数据帧的输入信号100作为输入,并产生VAD判决作为输出160。即,VAD判决160是针对每帧的该帧是包含语音还是噪声的判决。
通用VAD 180包括提供子带能量估计的背景估计器130以及提供特征子带能量的特征提取器120。对于每一帧,通用VAD计算特征,且为了识别活动帧,将当前帧的特征与该特征对于背景信号的“表现”的估计进行比较。
由初级语音活动检测器140来作出初级判决“vad_prim”150,且初级判决“vad_prim”150基本上就是对当前帧的特征与(根据之前的输入帧估计出的)背景特征的比较,其中,大于阈值的差异引起活动初级判决。尾响添加(hangover addition)块170用于基于过去的初级判决对来自初级VAD的VAD判决进行扩展,以形成最终VAD判决“vad_flag”160,即也将较早的VAD判决考虑在内。使用尾响的原因主要是为了减少/消除“讲到一半”(mid speech)的风险以及“突发语音”(speech burst)的后端截断(backend clipping)。然而,该尾响也可以用于避免音乐段落的截断。操作控制器110可以根据输入信号的特性来调整初级检测器的阈值以及尾响添加的长度。
存在可以用于VAD检测的大量不同的特征,一个特征是只查看帧能量,并将其与阈值进行比较,以判决该帧是否包括语音。该方案在SNR良好的条件下正常工作,但是在低SNR情况下则不能正常工作。在低SNR下,其代之以要求使用对语音和噪声信号的特性进行比较的其它度量。对于实时实现而言,VAD功能的附加要求在计算上是复杂的,且这在标准编解码(例如AMR NB、AMR WB(自适应多速率宽带)以及G.718(ITU-T建议嵌入式可扩缩语音和音频编解码))中反映为对子带SNR VAD的频繁表示上。
尽管基于子带SNR的VAD将不同子带的SNR组合为与用于初级判决的阈值进行比较的度量。在基于子带的VAD中,针对每个子带确定SNR,且基于这些SNR来确定组合SNR。组合SNR可以是在不同子带上的所有SNR的和。还存在已知的解决方案,其中,将具有不同特性的多个特征用于初级判决。然而,在这两种情况下,都只存在一个初级判决,用于添加适应于输入信号条件的尾响,以形成最终判决。此外,很多VAD具有用于静默检测的输入能量阈值,即,针对足够低的输入电平,强制初级判决为不活动状态。
对于基于子带SNR原则的VAD,已经表明:在子带SNR计算中引入非线性(所谓重要性阈值)可以增强对于非平稳噪声条件(嘈杂声、办公室)下的VAD性能。非平稳噪声对于所有VAD而言都是困难的,特别是在低SNR条件下,导致相比于实际语音的更高VAD活动,且从系统角度讲导致了减小的容量。在非平稳噪声中,最困难的是嘈杂噪声,且原因是其特性与VAD被设计用来检测的语音信号相对接近。嘈杂噪声的特性通常在于与前景说话者的语音强度相对的SNR和背景说话者的数目,其中,常见定义(如在主观评估中使用的)是嘈杂声应当具有40个或更多的背景说话者,其基本出发点是:对于嘈杂声,应当不可能听出嘈杂噪声中包括的任何说话者所说的内容(不应当有任何嘈杂声说话者是能被理解的)。还应当注意到随着嘈杂噪声中说话者数目的增加,其变得更为平稳。在只有1个(或较少)说话者在背景中的情况下,通常将他们称为干扰说话者。另一问题是嘈杂噪声可以具有VAD算法不会抑制的与一些音乐片段非常相似的频谱变化特性。
在之前提到的VAD解决方案AMR NB/WB和G.718中,在合理的SNR(20dB)上,在一些情况下已存在对于嘈杂噪声的不同程度的问题。结果是不能实现假设的通过使用DTX来获得的容量增益。在实际的移动电话系统中,已经注意到:要求在15至20dB SNR下的合理的DTX操作可能是不够的。如果有可能,取决于噪声类型,将需要低至5dB甚至0dB的合理的DTX操作。对于低频背景噪声,仅通过在VAD分析之前对信号进行高通滤波,就可以针对VAD功能实现10至15dB的SNR增益。由于嘈杂声与语音的相似性,通过对输入信号进行高通滤波所获得的增益是非常低的。
从质量的角度讲,使用故障防护(failsafe)VAD是更好的,这意味着当有疑问时,让VAD传输语音输入并考虑大量的额外活动是更好的。从系统容量角度讲,只要仅少数用户处于非平稳背景噪声的情况下,这就是可接受的。然而,随着在非平稳环境下的用户数目的增加,故障防护VAD的使用可能引起系统容量的大量损失。因此,推动在故障防护和普通VAD操作之间的边界使得使用普通VAD操作来处理更大的非平稳环境类别就变得重要起来。
尽管使用了增强VAD性能的重要性阈值,已注意到其还可以引起偶尔的语音截断,主要是低SNR非语音声音的前端截断。
对于现有的解决方案,当识别出新的问题区域时,难以找到对现有VAD的新的调整,而不改变VAD对于已运行条件的行为。即,尽管将有可能改变调整来处理新问题,但是不可能使该调整不改变在已知条件下的行为。
发明内容
本发明的实施例提供了一种用于重新调整现有VAD来处理非平稳背景噪声或其它发现的问题区域的解决方案。
从而通过允许多个VAD并行工作,然后将输出相组合,有可能利用不同VAD的能力,同时不因每个VAD的限制受到过多影响。
在希望减少过度活动的情况下使用的一个实施例中,将第一VAD的初级判决与来自外部VAD的最终判决通过逻辑“与”相组合。外部VAD优选地比第一VAD更激进。激进VAD意味着被调整/构造为相比于“普通”VAD产生更低的活动的VAD。激进VAD的主要目的是其应当相比于普通/原始VAD减少过度活动的量。应注意的是:该激进性仅可以应用于一些特定的(或有限数目的)条件,例如,涉及噪声类型或SNR的条件。
在希望增加活动而不引起过度活动的情况下可以使用另一实施例,在该实施例中可以将第一VAD的初级判决与来自外部VAD的初级判决通过逻辑“或”进行组合。
从而根据本发明的实施例的第一方面,提供了语音活动检测器(VAD)中的用于在接收到的输入信号中检测语音活动的方法。在该方法中,从所述VAD的初级语音检测器接收指示初级VAD判决的信号,以及从至少一个外部VAD接收指示来自所述至少一个外部VAD的语音活动判决的至少一个信号。将在接收到的信号中指示的语音活动判决进行组合,以产生修改后的初级VAD判决,且将修改后的初级VAD判决发送至所述VAD的尾响添加单元。
根据本发明的实施例的第二方面,提供一种语音活动检测器(VAD)。所述VAD被配置为在接收到的输入信号中检测语音活动,包括:输入部,被配置为从所述VAD的初级语音检测器接收指示初级VAD判决的信号,以及从至少一个外部VAD接收指示来自所述至少一个外部VAD的语音活动判决的至少一个信号。所述VAD还包括:处理器,被配置为将在接收到的信号中指示的语音活动判决进行组合,以产生修改后的初级VAD判决;以及输出部,被配置为将修改后的初级VAD判决发送至所述VAD的尾响添加单元。
通过将现有VAD与一个或多个外部VAD进行组合,有可能增强整体VAD性能,且仅对原始VAD的内部状态产生轻微影响-该影响可以是对其它编解码功能的要求,例如帧分类和编解码模式选择。
本发明的实施例另一优点是多个VAD的使用不影响普通操作,即,当输入信号的SNR良好时的操作。仅当普通VAD功能不够好时,外部VAD才应当使得扩展VAD的工作范围成为可能。
如果外部VAD对于引起问题的噪声正确工作,则实施例的方案允许外部VAD覆盖来自第一VAD的初级判决,即,避免仅与背景噪声相关的错误的活动。
此外,更多外部VAD的添加使得有可能减小过度活动的量,或允许对附加的之前截断的语音(或音频)进行检测。可能需要让组合逻辑适应当前输入条件,以避免外部VAD增加过度活动,或引入附加语音截断。组合逻辑的适配可以使得:仅在已识别出普通VAD不能正确工作的输入条件(噪声电平、SNR、或噪声特性[平稳/非平稳])期间,才使用外部VAD。
附图说明
图1示出了根据现有技术的具有背景估计的通用VAD。
图2至5示出了根据本发明的实施例的包括多VAD组合逻辑在内的具有背景估计的通用VAD。
图6公开了根据本发明的实施例的组合逻辑。
图7是根据本发明的实施例的方法的流程图。
具体实施方式
下文中将参照示出了本发明的优选实施例的附图,来更完全地描述本发明的实施例。然而,可以用很多不同形式来体现实施例,且这些实施例不应当被理解为对本文所阐述的实施例的限制;而是提供这些实施例使得本公开将是全面且完整的,且将向本领域技术人员完全地传达本发明的范围。在附图中,相似的应用符号指代相似的单元。
此外,本领域技术人员将意识到可以使用软件功能结合编程微处理器或通用计算机和/或使用专用集成电路(ASIC)来实现本文下面解释的装置和功能。还将意识到尽管主要以方法和设备的形式来描述当前实施例,还可以用计算机程序产品的形式以及包括计算机处理器和耦合到处理器的存储器在内的系统的形式来体现这些实施例,其中,使用可以执行本文公开的功能的一个或多个程序对存储器进行编码。
图2示出了如图1所示的具有背景估计的第一VAD 199。区别在于该VAD还包括根据本发明的第一实施例的组合逻辑145。在本实施例中,通过将来自外部VAD 198的外部vad_flag_HE 190引入组合逻辑145(在尾响添加170之前引入了组合逻辑145),增强了第一VAD的性能。应当注意到:使用外部VAD 198的方式将不影响在良好SNR条件期间初级语音活动检测器140和VAD的一般行为。通过在来自第一VAD的初级判决vad_prim和来自外部VAD 198的被称为vad_flag_he 190的最终判决之间的逻辑“与”,在组合逻辑145中形成被称为vad_prim′155的新的初级判决,从而导致可以避免在VAD的过度活动。在图3中也示出了第一实施例,图3还示意性地示出了外部VAD VAD2。下面进一步解释图3。
在使用根据上述实施例的外部VAD的情况下,有可能减少针对附加噪声类型的过度的活动。由于外部VAD可以避免来自原始VAD的错误的活动信号,因此这是可以实现的。过度活动意味着VAD针对仅包括背景噪声的帧而指示了活动语音。该过度活动通常是以下各项的结果:1)类似于噪声(嘈杂声)的非平稳语音,或2)由于非平稳噪声或其它误检测到的类似语音的输入信号而导致背景噪声估计未正确工作。
根据第二实施例,通过在来自第一VAD的初级判决vad_prim和来自外部VAD的被称为vad_prim_HE的初级判决之间的逻辑“或”,组合逻辑形成被称为vad_prim′的新的初级判决。这样,有可能增加活动,以校正由第一VAD执行的非期望截断。
在图4中示出了第二实施例,图4还示出了外部VAD 198。通过在第一VAD 199的初级VAD 140的初级判决vad_prim 150与来自外部VAD 198的被称为vad_prim_he的初级判决之间的逻辑“或”,组合逻辑145形成被称为vad_prim′155的初级判决。这导致了外部VAD198可以用于避免由第一VAD 199引起的截断。因此,外部VAD 198能够校正由第一VAD 199引起的错误,这意味着可以由外部VAD 198来检测第一VAD 199漏检的活动。为了避免增加过度活动,使用外部VAD的初级判决是有利的。
现在参见与图2相对应的示出了第三实施例的图5。在第三实施例中,通过来自第一VAD 140的初级判决vad_prim和来自外部VAD的最终判决190a和初级判决190b的组合,组合逻辑145形成被称为vad_prim′155的初级判决。在图5中示出了该点。可以通过在组合逻辑145中使用“与”和/或“或”的任意组合来组合这三个判决。作为一个示例,有可能使用在通过使用逻辑“与”和外部VAD的最终判决相组合之前要通过逻辑“或”相组合的第一和外部VAD的初级判决。然后,将有可能还检测到之前截断的片段。
根据第四实施例,组合逻辑使用来自多于一个外部VAD的VAD判决来形成新的Vad_prim′。这些VAD判决可以是初级VAD判决和/或最终VAD判决。如果使用多于一个外部VAD,可以在与第一VAD组合之前,将这些外部VAD相组合。例如Vad_prim&(external_vad_1&external_vad_2)。
在本说明书中,VAD的初级判决意味着由初级语音活动检测器作出的判决。将该判决称为Vad_prim或本地VAD。VAD的最终判决意味着在尾响添加之后由VAD作出的判决。在VAD中引入了根据本发明的实施例的组合逻辑,且该组合逻辑基于VAD的Vad_prim和来自外部VAD的外部VAD判决来产生Vad_prim′。外部VAD判决可以是一个或多个外部VAD的初级判决和/或最终判决。组合逻辑被配置为通过对第一VAD的Vad_prim和来自外部VAD的一个或多个VAD判决应用逻辑“与”或逻辑“或”来产生Vad_prim′。
参见作为第一VAD和外部VAD的框图的图3和4。框图示出了由原始VAD(VAD 1)和外部VAD(VAD 2)构成的2个VAD以及用于在根据实施例的原始VAD中产生增强的vad_prim的组合逻辑。
如图3和4所示,2个VAD共享特征提取器。外部VAD可以使用修改后的背景更新以及初级语音活动检测器。修改后的背景更新包括背景噪声更新策略的修改,其中,将普通噪声更新死锁恢复进行减速,并添加了针对噪声更新的备选可能性,以允许噪声估计更好的跟踪噪声。修改后的初级语音活动检测器可以添加重要性阈值以及基于输入的能量变化的更新阈值适配。可以并行地使用这2个修改。
为了作出第一VAD(被称为VAD 1)的初级判决,将可变SNR和(snr_sum)与计算出的阈值(thr1)进行比较,以在如下所示现有技术中确定输入信号是活动语音(localVAD=1,对应于Vad_prim=1)还是噪声(localVAD=0,对应于Vad_prim=0):
localVAD=0;
if(snr_sum>thr1){
localVAD=1;
}
使用根据本发明的实施例的组合逻辑,对来自第一VAD的localVAD和来自外部VAD的被称为vad_flag_he最终判决应用逻辑“与”。即,通过使用组合逻辑,仅允许初级语音活动检测器在来自第一VAD的localVAD和来自外部VAD的vad_flag_he都活动时才变得活动。即
localVAD=0;
if(snr_sum>thr1&&vad_flag_he){
localVAD=1;
}
为了容易识别将修改加以下划线。由于需要vad_flag_he的值,因此需要在可以产生修改后的VAD 1判决之前执行使外部VAD包括其尾响的代码。
在第五实施例中,组合逻辑被配置为是信号自适应的,即,根据当前输入信号属性来改变组合逻辑。组合逻辑可以取决于估计出的SNR,例如,如果组合逻辑被配置为使得仅在良好条件下才使用原始VAD,则可以使用更激进的第二VAD。当在吵闹的条件时,如实施例1一样使用该激进的VAD。使用该适配,激进的VAD在良好的SNR条件下不会引入语音截断,同时在吵闹的条件下,假定被截断的语音帧被噪声遮蔽。
本发明的一些实施例的一个目的是减小针对非平稳背景噪声的过度活动。可以通过比较已编码的混合的活动来使用客观度量对此进行测量。然而,该度量并不指示活动的减少何时开始影响语音,即,语音帧何时由背景噪声所取代。应当注意到:在具有背景噪声的语音中,不是所有的语音帧都是可听到的。在一些情况下,语音帧可能实际上被噪声所取代,而未引入可听出的劣化。因此,使用对一些修改后的片段的主观评估也是重要的。
下面呈现的客观报告基于语音与背景噪声在变化条件下的混合,与不同噪声环境和信噪比(SNR)的若干种语言的不同语音采样相关。
使用不同噪声采样和不同的SNR条件来创建混合。将噪声分类为展会噪声、办公室噪声、以及大堂噪声,作为非平稳背景噪声的代表。将语音和噪声文件混合,且将语音强度设置为-26dBov以及在范围10至30dB中的4个不同的SNR。
然后通过使用具有根据现有技术的原始VAD以及根据本发明的实施例的组合VAD方案(表示为双VAD)的编解码来处理准备好的采样。
对于客观结果,将比较使用不同的VAD方案的不同编解码所产生的语音活动,并且可以在下面的表中找到结果。注意到:针对各自为120秒的完整采样来测量表中的活动数值。用于语音片段的强度调整的工具指示了纯净的语音文件的语音活动被估计为21.9%。
活动结果的表格总结:全部、噪声类型和SNR
结果表明了图3所示本发明的一个实施例提供了活动的减少。
根据实施例的一个方面,如图7中流程图所示提供了VAD的组合逻辑的方法。VAD被配置为在接收到的输入信号中检测语音活动。接收来自所述VAD的初级语音检测器的指示初级VAD判决的信号以及来自至少一个外部VAD的指示来自所述至少一个外部VAD的语音活动判决的至少一个信号1101。将接收到的信号中指示的语音活动判决相组合1102,以产生修改后的初级VAD判决。将修改后的初级VAD判决发送1103至所述VAD的要用于进行最终VAD判决的尾响添加单元。
可以通过逻辑“与”来组合接收到的信号中的语音活动判决,使得仅在来自初级VAD的信号和来自至少一个外部VAD的信号都指示语音的情况下,所述VAD的修改后的初级VAD判决才指示语音。
此外,还可以通过逻辑“或”来组合接收到的信号中的语音活动判决,使得如果来自初级VAD的信号和来自至少一个外部VAD的信号中的至少一个信号指示语音,则所述VAD的修改后的初级VAD判决就指示语音。
来自至少一个外部VAD的至少一个信号可以指示来自外部VAD的作为最终VAD判决和/或初级VAD判决的语音活动判决。
根据实施例的另一方面,如图6中所示提供了被配置为在接收到的输入信号中检测语音活动的VAD。该VAD包括输入部502,用于接收来自所述VAD的初级语音检测器的指示初级VAD判决的信号150和来自至少一个外部VAD的指示来自所述至少一个外部VAD的语音活动判决的至少一个信号190。该VAD还包括:处理器503,用于组合在接收到的信号中指示的语音活动判决,以产生修改后的初级VAD判决;以及输出部505,用于向所述VAD的尾响添加单元发送修改后的初级VAD判决155。该VAD还可以包括用于存储历史信息的存储器和用于执行实施例的方法的软件代码部分。还应当注意到,上面作为示例之用的,可以在VAD中的组合逻辑145中体现输入部502、处理器503、存储器504以及输出部505。
根据实施例,处理器503被配置为:通过逻辑“与”来组合接收到的信号中的语音活动判决,使得仅在来自初级VAD的信号和来自至少一个外部VAD的信号都指示语音的情况下,所述VAD的修改后的初级VAD判决才指示语音。
根据另一实施例,处理器503被配置为:通过逻辑“或”来组合接收到的信号中的语音活动判决,使得如果来自初级VAD的信号和来自至少一个外部VAD的信号中的至少一个信号指示语音,则所述VAD的修改后的初级VAD判决就指示语音。
在具有前述描述和相关附图中呈现的教导之后,所公开的本发明的修改和其他实施例将对于本领域技术人员而言是显而易见的。因此,应当理解本发明的实施例不应受限于所公开的具体实施例,且在本公开的范围中预期包括修改和其它实施例。尽管本文中可以采用特定术语,仅在通用和描述性的意义上来使用它们,且不应将它们以限制的目的来使用。
Claims (18)
1.一种在语音活动检测器VAD(199)中的用于在接收到的输入信号中检测语音活动的方法,包括:
-接收(1101)来自所述VAD的初级语音检测器的、指示由所述初级语音检测器做出的初级语音活动判决的信号,其中,所述初级语音活动判决是所述VAD的中间语音活动判决,
-接收来自至少一个外部VAD的、指示由所述至少一个外部VAD做出的语音活动判决的至少一个信号,
-对从所述初级语音活动检测器和所述至少一个外部VAD接收到的信号中指示的语音活动判决进行组合(1102),以产生修改后的初级语音活动判决,以及
-将修改后的初级语音活动判决发送(1103)至所述VAD的尾响添加单元,所述尾响添加单元被配置为做出所述VAD的最终语音活动判决。
2.根据权利要求1所述的方法,其中,通过逻辑“与”来组合接收到的信号中的语音活动判决,使得仅在来自初级语音活动检测器的信号和来自至少一个外部VAD的信号都指示语音的情况下,所述VAD的修改后的初级语音活动判决才指示语音。
3.根据权利要求1所述的方法,其中,通过逻辑“或”来组合接收到的信号中的语音活动判决,使得如果来自初级语音活动检测器的信号和来自至少一个外部VAD的信号中的至少一个信号指示语音,则所述VAD的修改后的初级语音活动判决就指示语音。
4.根据权利要求1至3中任一项所述的方法,其中,来自至少一个外部VAD的指示来自所述外部VAD的语音活动判决的至少一个信号是最终VAD判决。
5.根据权利要求1至3中任一项所述的方法,其中,来自至少一个外部VAD的指示来自所述外部VAD的语音活动判决的至少一个信号是初级语音活动判决。
6.根据权利要求1至5中任一项所述的方法,其中,所述至少一个外部VAD是单个VAD。
7.根据权利要求1至5中任一项所述的方法,其中,所述至少一个外部VAD是多个VAD。
8.根据权利要求1至7中任一项所述的方法,其中,根据输入信号属性来组合语音活动判决。
9.根据权利要求8所述的方法,其中,所述输入信号属性包括以下至少一项:估计出的信噪比;以及背景特性。
10.一种被配置为在接收到的输入信号中检测语音活动的语音活动检测器VAD(199),包括:
输入部(502),被配置为接收来自所述VAD的初级语音检测器的、指示由所述初级语音检测器做出的初级语音活动判决的信号(150),其中,所述初级语音活动判决是所述VAD的中间语音活动判决,所述输入部还被配置为接收来自至少一个外部VAD(198)的、指示由所述至少一个外部VAD(198)做出的语音活动判决的至少一个信号(190),
处理器(503),被配置为对从所述初级语音活动检测器和所述至少一个外部VAD接收到的信号(150、190)中指示的语音活动判决进行组合,以产生修改后的初级语音活动判决(155),以及
输出部(505),被配置为将修改后的初级语音活动判决(155)发送至所述VAD(199)的尾响添加单元,所述尾响添加单元被配置为做出所述VAD的最终语音活动判决。
11.根据权利要求10所述的VAD(199),其中,所述处理器(503)被配置为:通过逻辑“与”来组合接收到的信号中的语音活动判决,使得仅在来自初级语音活动检测器的信号和来自至少一个外部VAD的信号都指示语音的情况下,所述VAD的修改后的初级语音活动判决才指示语音。
12.根据权利要求10所述的VAD(199),其中,所述处理器(503)被配置为:通过逻辑“或”来组合接收到的信号中的语音活动判决,使得如果来自初级语音活动检测器的信号和来自至少一个外部VAD的信号中的至少一个信号指示语音,则所述VAD的修改后的初级语音活动判决就指示语音。
13.根据权利要求10至12中任一项所述的VAD(199),其中,来自至少一个外部VAD的指示来自所述外部VAD的语音活动判决的至少一个信号是最终VAD判决。
14.根据权利要求10至12中任一项所述的VAD(199),其中,来自至少一个外部VAD的指示来自所述外部VAD的语音活动判决的至少一个信号是初级语音活动判决。
15.根据权利要求10至14中任一项所述的VAD(199),其中,所述至少一个外部VAD是单个VAD。
16.根据权利要求10至14中任一项所述的VAD(199),其中,所述至少一个外部VAD是多个VAD。
17.根据权利要求10至16中任一项所述的VAD(199),其中,根据输入信号属性来组合语音活动判决。
18.根据权利要求17所述的VAD(199),其中,所述输入信号属性包括以下至少一项:估计出的信噪比;以及背景特性。
Applications Claiming Priority (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US25296609P | 2009-10-19 | 2009-10-19 | |
US25285809P | 2009-10-19 | 2009-10-19 | |
US61/252,858 | 2009-10-19 | ||
US61/252,966 | 2009-10-19 | ||
US26258309P | 2009-11-19 | 2009-11-19 | |
US61/262,583 | 2009-11-19 | ||
US37681510P | 2010-08-25 | 2010-08-25 | |
US61/376,815 | 2010-08-25 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010800472318A Division CN102576528A (zh) | 2009-10-19 | 2010-10-18 | 用于语音活动检测的检测器和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104485118A true CN104485118A (zh) | 2015-04-01 |
Family
ID=43900545
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010800472318A Pending CN102576528A (zh) | 2009-10-19 | 2010-10-18 | 用于语音活动检测的检测器和方法 |
CN201510006946.3A Pending CN104485118A (zh) | 2009-10-19 | 2010-10-18 | 用于语音活动检测的检测器和方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010800472318A Pending CN102576528A (zh) | 2009-10-19 | 2010-10-18 | 用于语音活动检测的检测器和方法 |
Country Status (7)
Country | Link |
---|---|
US (3) | US9773511B2 (zh) |
EP (1) | EP2491549A4 (zh) |
JP (2) | JP5793500B2 (zh) |
KR (1) | KR20120091068A (zh) |
CN (2) | CN102576528A (zh) |
BR (1) | BR112012008671A2 (zh) |
WO (1) | WO2011049516A1 (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2491549A4 (en) * | 2009-10-19 | 2013-10-30 | Ericsson Telefon Ab L M | DETECTOR AND METHOD FOR DETECTING VOICE ACTIVITY |
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
US8626498B2 (en) * | 2010-02-24 | 2014-01-07 | Qualcomm Incorporated | Voice activity detection based on plural voice activity detectors |
US8831937B2 (en) * | 2010-11-12 | 2014-09-09 | Audience, Inc. | Post-noise suppression processing to improve voice quality |
ES2665944T3 (es) * | 2010-12-24 | 2018-04-30 | Huawei Technologies Co., Ltd. | Aparato para realizar una detección de actividad de voz |
SI3493205T1 (sl) * | 2010-12-24 | 2021-03-31 | Huawei Technologies Co., Ltd. | Postopek in naprava za adaptivno zaznavanje glasovne aktivnosti v vstopnem avdio signalu |
US20140006019A1 (en) * | 2011-03-18 | 2014-01-02 | Nokia Corporation | Apparatus for audio signal processing |
EP3113184B1 (en) | 2012-08-31 | 2017-12-06 | Telefonaktiebolaget LM Ericsson (publ) | Method and device for voice activity detection |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
CN104424956B9 (zh) * | 2013-08-30 | 2022-11-25 | 中兴通讯股份有限公司 | 激活音检测方法和装置 |
US8990079B1 (en) * | 2013-12-15 | 2015-03-24 | Zanavox | Automatic calibration of command-detection thresholds |
CN107086043B (zh) | 2014-03-12 | 2020-09-08 | 华为技术有限公司 | 检测音频信号的方法和装置 |
US10360926B2 (en) | 2014-07-10 | 2019-07-23 | Analog Devices Global Unlimited Company | Low-complexity voice activity detection |
CN105261375B (zh) * | 2014-07-18 | 2018-08-31 | 中兴通讯股份有限公司 | 激活音检测的方法及装置 |
US9978388B2 (en) | 2014-09-12 | 2018-05-22 | Knowles Electronics, Llc | Systems and methods for restoration of speech components |
CN105810214B (zh) * | 2014-12-31 | 2019-11-05 | 展讯通信(上海)有限公司 | 语音激活检测方法及装置 |
WO2016143125A1 (ja) * | 2015-03-12 | 2016-09-15 | 三菱電機株式会社 | 音声区間検出装置および音声区間検出方法 |
US9820042B1 (en) | 2016-05-02 | 2017-11-14 | Knowles Electronics, Llc | Stereo separation and directional suppression with omni-directional microphones |
US10566007B2 (en) * | 2016-09-08 | 2020-02-18 | The Regents Of The University Of Michigan | System and method for authenticating voice commands for a voice assistant |
CN106887241A (zh) * | 2016-10-12 | 2017-06-23 | 阿里巴巴集团控股有限公司 | 一种语音信号检测方法与装置 |
CN108899041B (zh) * | 2018-08-20 | 2019-12-27 | 百度在线网络技术(北京)有限公司 | 语音信号加噪方法、装置及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007030190A1 (en) * | 2005-09-08 | 2007-03-15 | Motorola, Inc. | Voice activity detector and method of operation therein |
US20070094018A1 (en) * | 2001-04-02 | 2007-04-26 | Zinser Richard L Jr | MELP-to-LPC transcoder |
WO2007091956A2 (en) * | 2006-02-10 | 2007-08-16 | Telefonaktiebolaget Lm Ericsson (Publ) | A voice detector and a method for suppressing sub-bands in a voice detector |
WO2008143569A1 (en) * | 2007-05-22 | 2008-11-27 | Telefonaktiebolaget Lm Ericsson (Publ) | Improved voice activity detector |
US20090089053A1 (en) * | 2007-09-28 | 2009-04-02 | Qualcomm Incorporated | Multiple microphone voice activity detector |
Family Cites Families (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4167653A (en) * | 1977-04-15 | 1979-09-11 | Nippon Electric Company, Ltd. | Adaptive speech signal detector |
US5276765A (en) | 1988-03-11 | 1994-01-04 | British Telecommunications Public Limited Company | Voice activity detection |
EP0548054B1 (en) | 1988-03-11 | 2002-12-11 | BRITISH TELECOMMUNICATIONS public limited company | Voice activity detector |
JPH0734547B2 (ja) * | 1988-06-16 | 1995-04-12 | パイオニア株式会社 | ミューティング制御回路 |
US5410632A (en) | 1991-12-23 | 1995-04-25 | Motorola, Inc. | Variable hangover time in a voice activity detector |
JP3176474B2 (ja) * | 1992-06-03 | 2001-06-18 | 沖電気工業株式会社 | 適応ノイズキャンセラ装置 |
JPH07123236B2 (ja) * | 1992-12-18 | 1995-12-25 | 日本電気株式会社 | 双方向通話状態検出回路 |
IN184794B (zh) | 1993-09-14 | 2000-09-30 | British Telecomm | |
US5742734A (en) | 1994-08-10 | 1998-04-21 | Qualcomm Incorporated | Encoding rate selection in a variable rate vocoder |
JPH08202394A (ja) * | 1995-01-27 | 1996-08-09 | Kyocera Corp | 音声検出器 |
FI100840B (fi) | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
US5884255A (en) * | 1996-07-16 | 1999-03-16 | Coherent Communications Systems Corp. | Speech detection system employing multiple determinants |
JPH10257583A (ja) * | 1997-03-06 | 1998-09-25 | Asahi Chem Ind Co Ltd | 音声処理装置およびその音声処理方法 |
US6424938B1 (en) | 1998-11-23 | 2002-07-23 | Telefonaktiebolaget L M Ericsson | Complex signal activity detection for improved speech/noise classification of an audio signal |
US6691092B1 (en) * | 1999-04-05 | 2004-02-10 | Hughes Electronics Corporation | Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system |
US6618701B2 (en) * | 1999-04-19 | 2003-09-09 | Motorola, Inc. | Method and system for noise suppression using external voice activity detection |
CA2390200A1 (en) * | 1999-11-03 | 2001-05-10 | Charles W. K. Gritton | Integrated voice processing system for packet networks |
US7263074B2 (en) * | 1999-12-09 | 2007-08-28 | Broadcom Corporation | Voice activity detection based on far-end and near-end statistics |
JP4221537B2 (ja) * | 2000-06-02 | 2009-02-12 | 日本電気株式会社 | 音声検出方法及び装置とその記録媒体 |
US6738358B2 (en) * | 2000-09-09 | 2004-05-18 | Intel Corporation | Network echo canceller for integrated telecommunications processing |
WO2002029780A2 (en) * | 2000-10-04 | 2002-04-11 | Clarity, Llc | Speech detection with source separation |
US6993481B2 (en) * | 2000-12-04 | 2006-01-31 | Global Ip Sound Ab | Detection of speech activity using feature model adaptation |
US7031916B2 (en) | 2001-06-01 | 2006-04-18 | Texas Instruments Incorporated | Method for converging a G.729 Annex B compliant voice activity detection circuit |
GB2379148A (en) * | 2001-08-21 | 2003-02-26 | Mitel Knowledge Corp | Voice activity detection |
CN1643571A (zh) * | 2002-03-27 | 2005-07-20 | 艾黎弗公司 | 用于与通信系统一起使用的麦克风和声音活动检测(vad)配置 |
CA2420129A1 (en) * | 2003-02-17 | 2004-08-17 | Catena Networks, Canada, Inc. | A method for robustly detecting voice activity |
JP2004317942A (ja) * | 2003-04-18 | 2004-11-11 | Denso Corp | 音声処理装置、音声認識装置及び音声処理方法 |
US7599432B2 (en) * | 2003-12-08 | 2009-10-06 | Freescale Semiconductor, Inc. | Method and apparatus for dynamically inserting gain in an adaptive filter system |
FI20045315A (fi) * | 2004-08-30 | 2006-03-01 | Nokia Corp | Ääniaktiivisuuden havaitseminen äänisignaalissa |
KR100631608B1 (ko) * | 2004-11-25 | 2006-10-09 | 엘지전자 주식회사 | 음성 판별 방법 |
US20060224381A1 (en) * | 2005-04-04 | 2006-10-05 | Nokia Corporation | Detecting speech frames belonging to a low energy sequence |
US8775168B2 (en) * | 2006-08-10 | 2014-07-08 | Stmicroelectronics Asia Pacific Pte, Ltd. | Yule walker based low-complexity voice activity detector in noise suppression systems |
BRPI0807703B1 (pt) * | 2007-02-26 | 2020-09-24 | Dolby Laboratories Licensing Corporation | Método para aperfeiçoar a fala em áudio de entretenimento e meio de armazenamento não-transitório legível por computador |
GB2450886B (en) * | 2007-07-10 | 2009-12-16 | Motorola Inc | Voice activity detector and a method of operation |
US7881459B2 (en) * | 2007-08-15 | 2011-02-01 | Motorola, Inc. | Acoustic echo canceller using multi-band nonlinear processing |
KR101444099B1 (ko) * | 2007-11-13 | 2014-09-26 | 삼성전자주식회사 | 음성 구간 검출 방법 및 장치 |
US8694308B2 (en) | 2007-11-27 | 2014-04-08 | Nec Corporation | System, method and program for voice detection |
US8554551B2 (en) * | 2008-01-28 | 2013-10-08 | Qualcomm Incorporated | Systems, methods, and apparatus for context replacement by audio level |
US8190440B2 (en) * | 2008-02-29 | 2012-05-29 | Broadcom Corporation | Sub-band codec with native voice activity detection |
ES2582232T3 (es) * | 2008-06-30 | 2016-09-09 | Dolby Laboratories Licensing Corporation | Detector de actividad de voz de múltiples micrófonos |
US8538749B2 (en) * | 2008-07-18 | 2013-09-17 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for enhanced intelligibility |
US8412525B2 (en) * | 2009-04-30 | 2013-04-02 | Microsoft Corporation | Noise robust speech classifier ensemble |
EP2491549A4 (en) * | 2009-10-19 | 2013-10-30 | Ericsson Telefon Ab L M | DETECTOR AND METHOD FOR DETECTING VOICE ACTIVITY |
-
2010
- 2010-10-18 EP EP20100825287 patent/EP2491549A4/en not_active Withdrawn
- 2010-10-18 KR KR1020127009104A patent/KR20120091068A/ko not_active Application Discontinuation
- 2010-10-18 JP JP2012534144A patent/JP5793500B2/ja active Active
- 2010-10-18 CN CN2010800472318A patent/CN102576528A/zh active Pending
- 2010-10-18 BR BR112012008671A patent/BR112012008671A2/pt not_active Application Discontinuation
- 2010-10-18 CN CN201510006946.3A patent/CN104485118A/zh active Pending
- 2010-10-18 US US13/121,305 patent/US9773511B2/en active Active
- 2010-10-18 WO PCT/SE2010/051118 patent/WO2011049516A1/en active Application Filing
-
2015
- 2015-05-15 JP JP2015100483A patent/JP6096242B2/ja active Active
-
2017
- 2017-08-18 US US15/680,432 patent/US9990938B2/en active Active
-
2018
- 2018-05-02 US US15/969,139 patent/US11361784B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070094018A1 (en) * | 2001-04-02 | 2007-04-26 | Zinser Richard L Jr | MELP-to-LPC transcoder |
WO2007030190A1 (en) * | 2005-09-08 | 2007-03-15 | Motorola, Inc. | Voice activity detector and method of operation therein |
GB2430129B (en) * | 2005-09-08 | 2007-10-31 | Motorola Inc | Voice activity detector and method of operation therein |
WO2007091956A2 (en) * | 2006-02-10 | 2007-08-16 | Telefonaktiebolaget Lm Ericsson (Publ) | A voice detector and a method for suppressing sub-bands in a voice detector |
WO2008143569A1 (en) * | 2007-05-22 | 2008-11-27 | Telefonaktiebolaget Lm Ericsson (Publ) | Improved voice activity detector |
US20090089053A1 (en) * | 2007-09-28 | 2009-04-02 | Qualcomm Incorporated | Multiple microphone voice activity detector |
Also Published As
Publication number | Publication date |
---|---|
JP6096242B2 (ja) | 2017-03-15 |
JP2013508744A (ja) | 2013-03-07 |
JP5793500B2 (ja) | 2015-10-14 |
EP2491549A4 (en) | 2013-10-30 |
US20110264449A1 (en) | 2011-10-27 |
WO2011049516A1 (en) | 2011-04-28 |
KR20120091068A (ko) | 2012-08-17 |
BR112012008671A2 (pt) | 2016-04-19 |
US9990938B2 (en) | 2018-06-05 |
JP2015207002A (ja) | 2015-11-19 |
US20170345446A1 (en) | 2017-11-30 |
US11361784B2 (en) | 2022-06-14 |
EP2491549A1 (en) | 2012-08-29 |
US9773511B2 (en) | 2017-09-26 |
US20180247661A1 (en) | 2018-08-30 |
CN102576528A (zh) | 2012-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104485118A (zh) | 用于语音活动检测的检测器和方法 | |
US9418681B2 (en) | Method and background estimator for voice activity detection | |
US9401160B2 (en) | Methods and voice activity detectors for speech encoders | |
US11900962B2 (en) | Method and device for voice activity detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150401 |
|
RJ01 | Rejection of invention patent application after publication |