CN102667927A - 语音活动检测的方法和背景估计器 - Google Patents

语音活动检测的方法和背景估计器 Download PDF

Info

Publication number
CN102667927A
CN102667927A CN2010800579955A CN201080057995A CN102667927A CN 102667927 A CN102667927 A CN 102667927A CN 2010800579955 A CN2010800579955 A CN 2010800579955A CN 201080057995 A CN201080057995 A CN 201080057995A CN 102667927 A CN102667927 A CN 102667927A
Authority
CN
China
Prior art keywords
noise
frame
input signal
ground unrest
confirm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010800579955A
Other languages
English (en)
Other versions
CN102667927B (zh
Inventor
马丁·绍尔斯戴德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of CN102667927A publication Critical patent/CN102667927A/zh
Application granted granted Critical
Publication of CN102667927B publication Critical patent/CN102667927B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • G10L2015/0636Threshold criteria for the updating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Noise Elimination (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

本发明涉及语音活动检测器中用于更新输入信号的背景噪声估计的方法和背景估计器。接收当前帧的输入信号,并确定输入信号的当前帧是否包括非噪声。此外,通过分析至少与输入信号的相关和能量电平有关的特性,来执行附加确定,确定非噪声输入的当前帧是否包括噪声;以及如果确定当前帧包括噪声,更新背景噪声估计。

Description

语音活动检测的方法和背景估计器
技术领域
本发明的实施例涉及语音活动检测器的方法和背景估计器。
背景技术
背景噪声估计用作对背景噪声的表征,并且在诸如噪声抑制、语音活动检测器、SNR(信噪比)估计等应用中是有用的。
背景噪声估计的比较重要的属性包括:应当能够跟踪输入噪声特性的改变;以及还应当能够处理噪声特性和/或强度的阶跃改变(如,突变),同时还避免使用非噪声段落来更新背景噪声估计。
在用于对话语音的语音编码系统中,普遍使用通常使用非连续发送(DTX)来增加编码的效率。还可以使用可变比特率(VBR)编码来降低比特率。原因在于:对话语音包含了嵌入在语音中的大量停顿,例如当一个人在说话而另一个人在聆听时。因此,利用非连续发送(DTX),语音编码器平均仅在大约50%的时间上是活动的,且可以使用舒适噪声对其余时间进行编码。使用DTX的一个示例是AMR(自适应多速率)窄带。对于高质量DTX操作,即,无劣化语音质量的情况下,在输入信号中检测语音的周期是十分重要的。这是由语音活动检测器(VAD)来完成的。DTX逻辑使用VAD结果来确定如何/何时在语音和舒适噪声间切换。
图1示出了一般化VAD 180的总体框图,其获取根据具体实现被分为5至30ms的数据帧的输入信号100作为输入,并产生VAD判决作为输出160。即,VAD判决160是针对每帧的该帧包含语音还是噪声的判决,又称VAD_flag。
通用VAD 180包括从输入信号中提取用于VAD判决的主要特征的特征提取器120,主要特征的一个示例是被用作每帧输入信号的频率表示的子带能量。为了进行判决,背景估计器130提供背景信号的子带估计(对先前输入帧进行估计)。操作控制器110采集输入信号的特性(如,长期噪声强度、用于长期SNR计算的长期语音强度、以及长期噪声强度变化),作为初级语音检测器的输入信号。
由初级语音活动检测器140来作出初级判决“vad_prim”150,且初级判决“vad_prim”150基本上就是对当前帧的特征与(根据先前输入帧估计出的)背景特征的比较,其中,大于阈值的差异导致活动初级判决。尾响添加(hangover addition)块170用于基于过去的初级判决对该初级判决进行扩展,以形成最终判决“vad_flag”160。使用尾响的原因主要是为了减少/消除“讲到一半”(mid speech)的风险以及“语音突发”(speech burst)的后端截断(backend clipping)。然而,该尾响也可以用于避免音乐段落的截断。操作控制器110可以根据输入信号的特性来调整初级语音活动检测器140的阈值以及尾响添加170的长度。
背景估计可以通过以下两个根本不同的原理来实现:或者使用初级判决(即,使用图1中的点划线所示的判决或判决度量反馈);或者使用输入信号的某些其他特性(即,不使用判决反馈)。还可以使用两种策略的组合。
存在可以使用的大量不同的特征,但在VAD中使用的一个特征是输入信号的频率特性。计算输入信号的频率子带中的能量是一种流行的表示输入频率特性的方式。采用该方式,背景噪声特征之一是每个子带的能量值的矢量。这些能量值是在频域中表征输入信号中背景噪声的值。为了实现对实际噪声的跟踪,可以至少三种不同方式来进行估计更新。第一种方式是,针对每个频率仓(frequency bin)使用AR过程(自回归规程)来处理更新。基本上,对于这类更新,更新的步长与观察到的当前输入和当前背景估计之差成正比。第二种方式是,在估计决不大于当前输入或小于最小值的限制条件下,使用当前估计的乘性缩放。这意味着,对于每帧使估计增加,直至其高于当前输入。在该情形下,使用当前输入作为估计。第三种方式是,使用最小值技术,其中,估计是先前帧的滑动窗期间的最小值。这基本上给出了最小估计,使用补偿因子对所述最小估计进行缩放以获得并逼近平稳噪声的平均估计。先前帧的滑动时间窗意味着:针对指定数量的先前帧,以关注的变量(帧能量或子带能量)创建缓冲区。当新帧到达时,通过从缓冲器中移除最早的值并插入最新的值来更新缓冲区。
虽然最小值估计技术具有较低的复杂度,但对于变化的背景噪声,得到的估计可能不够精确。其出发点在于:长滑动时间窗有时可能导致过低的估计,而短滑动时间窗可能导致过大的估计。对于滑动时间窗,背景估计器针对音乐型输入将如何工作也是不清楚的。
与纯粹的最小值估计技术相比,在估计不能大于当前值的限制条件下使用当前估计的乘性缩放表现出更好的跟踪,但在跟踪变化背景的快速增加方面仍存在问题。基本上,跟踪正常,直至增加速率超过乘性缩放所限的速率。
使用AR过程进行背景更新具有高效地跟踪背景噪声强度的潜力。然而,利用非噪声数据进行背景估计更新的判决误差可能导致糟糕的背景估计。特别地,对于依赖于判决反馈的VAD方案,不精确的背景估计可能导致甚至更多的判决错误。
为了避免以非噪声数据来更新背景,通常对何时更新(至少对向上更新)背景估计存在许多限制。虽然所述许多限制将降低使用非噪声数据进行更新的风险,但这些限制将同时降低估计器跟踪变化的背景噪声的能力,对非平稳背景噪声的情形尤其如此。通过允许估计始终向下更新,可以减小一些错误判决的影响。始终向下更新的缺陷在于:对于非平稳噪声,将最终导致过低的估计。此处的出发点类似于最小值估计,在最小值估计中,在该情况下,没有针对滑动时间窗定义长度。
还存在以背景噪声更新死锁告终的可能。即,背景逻辑结束于即使当前输入为纯噪声输入也不允许改变背景噪声的状态。如果存在噪声特性或噪声强度突变,使得输入不再被识别为噪声,则可能发生这种情况。因此,通常存在恢复算法。虽然该算法通常适用于平稳噪声,但其可能并不总是适用于嘈杂噪声,所述嘈杂噪声本质上与语音在特性上相对接近。
虽然基于能量的停顿检测器在较好的SNR条件下工作良好,但是在低SNR条件下能力有限。
发明内容
因此,本发明的实施例的目的在于:提供一种在低SNR条件下具有增强性能的VAD方案。
这是通过执行确定当前帧是否包括噪声的附加确定来实现的。在一个实施例中,仅对被认为包括非噪声的帧执行该附加确定。
根据本发明实施例的第一方面,提供了一种在VAD的背景估计器中更新输入信号的背景噪声估计的方法。在所述方法中,接收当前帧的输入信号,并确定输入信号的当前帧是否包括非噪声。此外,通过分析至少与输入信号的相关和能量电平有关的特性,来执行附加确定,确定非噪声输入的当前帧是否包括噪声;以及如果确定当前帧包括噪声,更新背景噪声估计。
根据本发明实施例的第二方面,提供了一种在VAD中更新输入信号的背景噪声估计的背景估计器。所述背景估计器包括:输入部,被配置为接收当前帧的输入信号。所述背景估计器还包括:处理器,被配置为确定输入信号的当前帧是否包括非噪声;通过分析至少与输入信号的相关和能量电平有关的特性,来执行附加确定,确定非噪声输入的当前帧是否包括噪声;以及如果确定当前帧包括噪声,更新背景噪声估计
通过使用本发明的实施例,获得了用于背景噪声估计(特别是对非平稳噪声)的更好的噪声跟踪。采用改进的噪声跟踪,VAD功能得以改进,该改进体现为非平稳噪声中的误报语音帧减少。此外,可以提供对平稳噪声类型的背景噪声估计的改进的死锁恢复。从系统角度讲,过多活动的减少将导致更好的容量。
因此,提供了(例如,用户设备中的发射机编码器的)语音活动检测器的方法和背景估计器,所述方法和背景估计器被配置为实现本发明实施例的方案。
附图说明
图1示出了根据现有技术的采用背景估计的通用语音活动检测器(VAD)。
图2是示出了根据现有技术的、要在发射机中实现的背景噪声估计器的背景更新过程的流程图。
图3是示出了根据本发明实施例的、要在发射机中实现的背景噪声估计器的背景更新过程的流程图。
图4是示出了根据本发明实施例的方法的另一流程图。
图5示意性地示出了根据本发明实施例的背景估计器。
图6示出了根据本发明实施例的、对混合语音(-26dBov)和嘈杂噪声64(-36dBov)输入的改进的噪声跟踪。
图7示出了根据本发明实施例的、对混合语音(-26dBov)和粉红噪声64(-46dBov)输入的改进的噪声跟踪。
具体实施方式
下文中将参照示出了本发明的优选实施例的附图,来更充分地描述本发明的实施例。然而,可以用很多不同形式来体现实施例,且实施例不应当被理解为受限于本文所阐述的实施例;相反,这些实施例被提供为使得本公开将是全面且完整的,并且将向本领域技术人员充分地传达本发明的范围。在附图中,相似的附图标记指代相似的元素。
此外,本领域技术人员将意识到:可以使用软件功能结合编程微处理器或通用计算机,和/或使用专用集成电路(ASIC),来实现以下说明的装置和功能。还将意识到:尽管主要以方法和设备的形式来描述当前实施例,还可以在计算机程序产品中以及包括计算机处理器和连接至处理器的存储器在内的系统中实现这些实施例,其中,使用可以执行本文公开的功能的一个或多个程序对存储器进行编码。
为了描述本发明的实施例,使用AR(自回归)过程来进行背景噪声估计,其中,始终允许对噪声估计进行向下调整。图2示出了根据现有技术的这样的背景估计器的判决逻辑的基本流程图。
1.背景估计的更新过程起始于根据当前输入帧来导出子带电平的频率分析。此外,在该步骤中计算用于判决逻辑的其他特征,如,与噪声估计、总能量Etot、相关有关的特征的示例,包括音调和发声参数。在该步骤中,还计算vad_flag,即,语音活动检测器是否检测到语音的判决。
2.在该步骤中,执行对潜在的新噪声估计tmpN的计算。该估计仅基于当前输入帧和来自最后一帧的背景噪声估计。如果当前估计的背景估计高于潜在的新噪声估计,则此时可以降低当前噪声估计。在以下伪码中,与此对应地,tmpN[i]低于bckr[i]。
3.接着,估计在噪声更新逻辑中使用的与噪声估计有关的特征,并且如果检测到非噪声输入,该输入很可能是活动的语音信号。
4.对于活动的语音信号,如果需要,激活尾响计数器。注意,背景更新过程使用尾响周期也是十分常见的,并且如此可以避免将语音信号的大的类噪声段落用于背景估计。
5.如果尾响计数器不为0,背景估计仍在尾响内,并且在该帧期间将不存在任何背景噪声更新。如果尾响周期结束,尾响计数器为0。可以增加噪声估计。
6.如果在块3中未检测到非噪声,语音突发已经结束,并且如果存在任何剩余尾响,递减/减小尾响计数器。
7.当尾响周期结束时,尾响计数器为0。进行最终测试以识别大能量阶跃(即,输入能量是否远大于当前噪声估计),从而确保不使用大能量阶跃进行背景更新。
8-11.为了避免大能量阶跃引起背景估计死锁,恢复逻辑允许在一定延迟(即,若干死锁帧)后进行更新。
12-13.结束噪声更新过程前的最后步骤是更新特征状态历史,以供评估下一帧时使用。
根据本发明的实施例,执行附加确定,确定非噪声输入的当前帧是否包括噪声。这是通过分析至少与输入信号的相关和能量电平有关的特性来执行的,并且如果确定当前帧包括噪声,更新背景噪声估计。
下面转向示出了本发明实施例的图3的流程图。与图2的流程图相比,图3的流程图包括:表示为“非噪声输入?”(附图标记3)、“噪声输入?”(附图标记4a)、“背景更新(向上)”(附图标记4a)、“大能量阶跃”(附图标记7)和“死锁恢复?”(附图标记8)以及背景更新减小步长(向上)(附图标记10a)的新增或修改步骤。其他框与图2中相应的框具有相同的功能。
采用图3中框3的逻辑,可能发生以下情况:特定噪声类型被误认为音乐,并且因此防止噪声估计增加。使用在图3的框3中实现的新特征(其中,与图2框3的逻辑的一部分组合,考虑从具有相关的最后一帧开始的时间),如果输入是类噪声的(即,根据本发明的实施例,如果输入在足够长的时间内未显示出相关的迹象),可以禁用该阻止噪声更新的特征。
在作为新增步骤的标记为4a的“噪声输入?”框中,根据本发明的实施例,执行附加确定,确定当前帧的非噪声输入是否包括噪声。改进的判决逻辑将现有特征和新特征组合,以改进框3中的非噪声判决,并且在框4a中增加了第二噪声输入检测步骤,该步骤还允许附加背景更新(参见步骤4b),尽管在框5中已确定仍在背景噪声更新尾响以内。因此,框4a中的附加噪声输入检测步骤引入了对在“非噪声输入”中被识别为潜在语音帧的帧的额外检查,检查它们是否确实是语音。如果此时确定这些帧是噪声,则在框4b中允许使用噪声估计增加来更新背景。基本上,这允许更好地跟踪接近语音突发的噪声估计,有时甚至语音突发内的噪声估计。
标记为4b的“背景更新(向上)”框的逻辑允许噪声估计的增加,但以比在图2的框中使用的“常规”噪声增加小的步长来增加。
通过引入尽管在框5中确定背景噪声更新的尾响周期仍在继续也更新噪声的新的可能(4a和4b),可以强化对常规噪声更新的要求(即,在框5中确定自非噪声输入存在起已经过足够的时间),而不增加在标记为7的“大能量阶跃?”框中以噪声估计死锁而告终的风险。噪声估计死锁意味着不允许进一步增加噪声估计。由于强化这些要求避免了例如引起音乐截断的一些非期望的规则噪声更新,因此期望强化这些要求。
由于图2的死锁恢复过于激进,与图2的现有技术方案相比,框8的修改和框10a的添加改进了性能。框“死锁恢复?”8和“背景更新减小步长(向上)”10a导致噪声估计增加的减小的步长,用以避免死锁。
根据不同特征所出现的上下文,不同特征具有不同的可靠度。对于语音、音乐和音调输入,相关是重要的特征,这是由于语音和音乐至少由可以检测到相关的输入段落组成。此外,不应低估作为低复杂特征的帧能量在与其他特征组合时对于噪声检测的有效性。
对于根据本发明实施例的改进的控制逻辑,定义了以下特征:
Ef_low_LP是每帧更新的平滑后的最小能量跟踪量。该特征主要用作其他特征的基础。
Et-Ef_low_LP是当前帧与平滑后的最小能量跟踪量的能量差。
Ntot-Ef_low_LP是当前噪声估计与平滑后的最小能量跟踪量的能量差。
Nbg是连续的可能背景帧的数目的计数器,基于Ef_low_LP和总能量Et。注意,该特征将不会对平稳噪声造成死锁。
Ncorr是相关事件计数器,从指示相关的最后一帧开始对连续帧的数目进行计数。
SNRsum是来自子带SNR VAD的判决度量。在改进的背景噪声更新逻辑中,SNRsum用作加权的频谱差特征。
由于仅在较长的语音/音乐停顿中特征Ncorr将达到较高值,在改进的非噪声检测器中使用相关事件计数器Ncorr。当从最后一个的相关事件开始已存在较长停顿时,这可以用于降低非噪声检测器的灵敏度。这将允许背景噪声估计器在纯噪声的情况下更好地跟踪噪声强度。
避免背景噪声跟踪直接跟随输入能量的大幅阶跃仍是重要的。因此,可以使用特征Et-Ef_low_LP来检测这样的能量阶跃何时发生,并且暂时阻止噪声更新跟踪该输入。注意,对于达到新电平的阶跃,特征Et-Ef_low_LP将最终恢复,这是由于Ef_low_LP仅基于输入能量,并将在一定延迟后适应于新电平。
根据实施例的附加噪声检测器可以被视为二次噪声更新和可选死锁恢复的组合。允许两个附加条件,进行常规更新过程以外的背景更新。第一附加条件使用特征Ncorr、Et-Ef_low_LP、Ntot-Ef_low_LP和Nbg,其中,Ncorr确保多个帧不相关,Et-Ef_low_LP确保当前能量接近于当前所估计的噪声强度,Ntot-Ef_low_LP确保两个噪声估计接近(由于还允许Ef_low_LP跟踪音乐中的输入能量,需要如此),Nbg确保输入电平对于多个帧低至合理水平(接近于Ef_low_LP)。第二附加条件使用特征Ncorr和SNRsum,确定输入何时是类噪声的,其中,如前所述Ncorr确保多个不相关帧,SNRsum被用作加权的频谱差测量。这两个条件中的任一个可以允许更新背景噪声。
在大能量阶跃检测器和死锁恢复中也做出了改进。通过添加特定的噪声检测步骤,可以提高大能量阶跃检测器的灵敏度,并且可以减小原始死锁恢复的步长。
以下进一步定义上述特征中一些特征的计算:
Ef_low_LP如上所述是帧能量的最小估计的平滑函数,其缓慢增加直至找到新的最小值。Ef_low是在当前帧能量Et小于修改后的Ef_low的情况下以较小值δf_low增加的未平滑值。接着,Ef_low被设置为Et。接着,通过AR过程,使用新的Ef_low值来更新所述平滑值:Ef_low_LP=(1-α)Ef_low_LP+αEf_low。注意,在平滑后,Ef_low_LP不再是严格的最小估计。
Nbg如上所述是连续的可疑背景帧的数目的计数器,通过特征Et-Ef_low_LP而基于Ef_low_LP和总能量Et。如果Nbg为0或更大并且Et充分大于Ef_low_LP,假设语音突发已经开始或者正在进行,然后设置Nbg=-1。如果Nbg=-1并且Et并非充分大于Ef_low_LP,假设语音停顿已经开始,设置Nbg=0。如果此时Nbg为0或更大,则使Nbg增1。
Ncorr是相关事件计数器,自最近相关事件起对连续帧的数目进行计数。如果在当前帧中检测到相关,则设置Ncorr=0,否则使计数器增加Ncorr=Ncorr+1。
本发明的实施例改进了阻止常规噪声更新过程的判决逻辑,但还增加了更新背景估计的可选逻辑。如此,使得背景噪声估计实现了对非平稳输入噪声的更好的跟踪,并且避免了对平稳噪声类型(如粉红噪声和白噪声)的死锁,并仍然保持/改进了不跟踪音乐或语音突发前端的能力。
下面将结合以下伪码来描述本发明的实施例。使用G.718编解码器(ITU-T建议嵌入式可扩缩语音和音频编解码器)作为该描述的基础,但应注意实施例也适用于其他编解码器。
表1
Figure BDA00001784991400101
首先,如结合图2的框1说明的那样,在框1中,执行频率分析和特征计算。如图2的框2,可以更新噪声强度估计。在框3中,执行确定,确定输入帧是否包括非噪声输入。
为了允许噪声估计还适用于粉红噪声和白噪声,需要修改VAD的输入。根据实施例,这是通过引入计数器(st_harm_cor_cnt或Ncorr)在框3中实现的,所述计数器用于从最后一个谐音或相关事件开始对帧数目进行计数。这基于与图2的非噪声测试中相同的用于相关准则的特征。差别在于:增加了计数器。在以下伪码中示意了如何能够实现计数器的示例。
Figure BDA00001784991400111
此外,在框3中,基于稍后将在特征(Etot-Etot_l_lp或Et-Ef_low_LP)中使用的(Etot_l_lp或Ef_low_LP),引入检测输入能量突然增加的特征。
Figure BDA00001784991400112
Etot_l每帧增加,并且决不能高于当前输入能量。进一步对该度量进行低通滤波,以形成Etot_l_lp。条件(Etot-Etot_l_lp>10)避免基于能量与当前的平滑后最小估计相比过高的帧,来自执行常规噪声更新。
使用该度量,在该实施例中,用于防止背景的条件被修改为:
Figure BDA00001784991400121
该实施例在最后80帧内不存在谐音或相关事件的情况下,防止non_sta、tmp_pc和noise_char特征停止背景更新。
采用与框3相对应的本发明实施例的上述修改(更新后的防止逻辑),需要使噪声更新变慢的可选方案,来防止背景噪声的突然增加导致噪声估计器以死锁告终。对于灵敏的基于能量的停顿检测器,这还需要另一附加特征,该附加特征具有背景帧计数器(bg_cnt)的形式(bg_cnt==-1->可能的语音突发,bg_cnt==0->背景起始,bg_cnt==n->从背景起始开始的第n帧)
Figure BDA00001784991400122
此处,bg_cnt形成组合的基于能量的停顿检测器和停顿突发长度计数器,确保当前帧能量不大幅偏离其长期估计。这用于确保不将非语音帧用于背景更新,不存在以死锁而告终的风险。更新背景的最终条件被修改为在框3中确定其不是非噪声:
Figure BDA00001784991400123
Figure BDA00001784991400131
Figure BDA00001784991400141
在以上伪码中,初始测试(aEn==0)为与图3中的框5相对应的“在尾响内?”测试。由于(与之前的25dB相比)仅允许Etot和totalNoise的15 dB的差异,以上伪码的第一修改块使得常规背景更新过程对能量增加更加灵敏;还应注意,死锁修改块被移至第二修改块,其中,更新使用与图3的框8和10a相对应的减小的步长。该伪码部分对应于图3中修改框7以及框11和10的功能。
如果在20帧内不存在相关且Etot和totalNoise之差小于25 dB,以上伪码的第二修改块允许减小步长更新。此外,仅允许死锁更新使用减小步长更新。该伪码部分对应于图3框中框8、11和10a的功能。如果上述噪声调整都不可能,伪码块以死锁计数器增加结束,这对应于图3中的框9。
以上伪码的第三修改块包含:框4a中的附加噪声检测测试以及框4b中的增加的背景噪声更新可能。注意,当常规噪声估计因尾响而被禁止时,执行该伪码块。存在两种可选方案,并且该两种可选方案均依赖于相关计数器harm_cor_cnt。在第一可选方案中,利用新度量totalNoise-Etot_l_lp和Etot-Etot_l_lp结合低复杂度停顿长度计数器bg_cnt,除了较低的能量差,还要求多于20个无相关帧。在第二可选方案中,除了较低的snr_sum,还要求多于80个无相关帧。注意,snr_sum是在VAD中使用的判决度量,并且在情况下其被用作当前帧和当前背景噪声估计的频谱差异。使用作为频谱差异测量的snr_sum,不对与背景估计相比的子带能量降低施加权重。对于该频谱差异,仅子带能量增加具有权重。
对于图3的框3中的非噪声测试,在上述实施例中,将特征Et-Ef_low_LP与固定阈值进行了比较。对于Nbg的创建,这也是有效的,在Nbg的创建中,特征Et-Ef_low_LP与固定阈值比较。上述实施例的可选方案是:对Et-Ef_low_LP的判决阈值应用迟滞,即,根据寻找语音突发(Nbg≥0)还是语音停顿(Nbg=-1)使用不同的固定阈值。
在上述实施例中,对于图3的框4a中的噪声测试,将特征Et-Ef_low_LP和Ntot-Ef_low_LP与固定阈值比较,还将特征SNRsum与固定阈值比较。
根据又一实施例,对于框3的框3中的非噪声测试,将特征Et-Ef_low_LP与自适应阈值比较。对于Nbg的创建,也将特征Et-Ef_low_LP与自适应阈值比较。可选方案是:对Et-Ef_low_LP的阈值应用迟滞,即,根据寻找语音突发(Nbg≥0)还是语音停顿(Nbg=-1)使用不同的自适应阈值。
对于噪声测试,将特征Et-Ef_low_LP和Ntot-Ef_low_LP与自适应阈值比较。此外,将特征SNRsum与自适应阈值比较。
所有上述阈值适配可以基于输入特征,如,输入能量变化、所估计的SNR、背景强度、或其组合。
根据又一实施例,对所有帧,而不仅仅对非噪声或尾响帧,应用框4a中的附加噪声测试功能。
以下,将结合图4来描述本发明的实施例。VAD的背景估计器中的用于更新输入信号的背景噪声估计的方法包括:接收401当前帧的输入信号。应当注意的是,该接收是在VAD的其他块间共享的,并且背景估计器能够接收执行背景估计所需的其他输入信号。此外,实施例的方法还包括:确定402输入信号的当前帧是否包括非噪声,或者如图3的框5根据这样的帧确定仍处于背景噪声尾响以内。如果确定不处于尾响以内,则更新背景估计。如果确定在尾响以内,则通过分析至少与输入信号的相关和能量电平有关的特性来执行403附加确定,确定当前帧输入是否包括噪声。接着,如果确定当前帧包括噪声,更新404背景噪声估计,这对应于图3中的框4b。
根据实施例,确定非噪声输入的当前帧是否包括噪声的附加确定包括以下至少一项:如果输入信号的能量电平与平滑最小能量电平的差距在第一范围以内,以及如果总噪声与平滑最小能量电平的差距在第二范围以内,对相关进行检测并从指示相关事件的最后一帧开始对帧的数量进行计数。此外,根据一实施例,执行对相关的检测并从指示相关事件的最后一帧开始对帧的数量进行计数,以减小背景噪声估计更新的步长,并确定应何时执行背景噪声估计更新。
根据一实施例,利用对输入信号的能量电平与平滑最小能量电平的差距是否在第一范围以内的分析,避免基于能量与平滑最小能量电平相比过高的帧对背景噪声估计进行更新,并确定应何时在图3的框4b中执行背景噪声估计更新。此外,根据实施例,利用对总噪声与当前所估计的噪声强度的差距是否在第二范围以内的分析,来确定应何时在图3的框4b中执行背景噪声估计更新。
第一和第二范围可以是固定范围或自适应范围。
在又一实施例中,对所有帧,而不仅仅对在图3的框5中被视为包括背景更新尾响帧的帧,应用在图3的框4a中执行的附加确定。
根据本发明的另一方面,提供了VAD中的用于更新输入信号501的背景噪声估计的背景估计器。背景估计器500包括:输入部502,被配置为接收当前帧的输入信号501和用于估计背景噪声的其他信号。背景估计器500还包括:处理器503、存储器504和输出部505。处理器503被配置为:确定输入信号的当前帧是否包括非噪声;通过分析至少与输入信号的相关和能量电平有关的特性,来执行附加确定4a,确定非噪声输入的当前帧是否包括噪声;以及如果确定当前帧包括噪声,更新背景噪声估计。存储器504被配置为:存储用于执行处理器503的功能的软件代码部分、背景噪声估计以及与噪声和信号能量估计有关的其他数据。
此外,确定非噪声输入的当前帧是否包括噪声的附加确定4a可以进一步包括以下至少一项:如果输入信号的能量电平与平滑最小能量电平的差距在第一范围以内,以及如果总噪声与平滑最小能量电平的差距在第二范围以内,对相关进行检测并从指示相关事件的最后一帧开始对帧的数量进行计数。
此外,处理器503可以被配置为:基于对相关的检测以及从指示相关事件的最后一帧开始的帧的数量,来减小背景噪声估计更新的步长,并确定应何时执行背景噪声估计更新。
根据一实施例,处理器503被配置为:利用对输入信号的能量电平与平滑最小能量电平的差距是否在第一范围以内的分析,来避免基于能量与平滑最小能量电平相比过高的帧对背景噪声估计进行更新,并确定应何时执行背景噪声估计更新。
此外,处理器503可以被配置为:利用对总噪声与当前所估计的噪声强度的差距是否在第二范围以内的分析,来确定应何时执行背景噪声估计更新。第一和第二范围可以是固定范围或自适应范围。
此外,根据一实施例,处理器503被配置为:对非噪声帧或尾响中的帧,应用附加确定。
还应注意的是,可以使用重要性阈值来确定输入信号的子带能量电平。
以下示例示出了使用结合伪码描述的实施例在背景噪声跟踪方面的改进。图6示出了对混合了10 dB SNR的嘈杂噪声的语音的改进,所述嘈杂噪声具有64个同时说话者。图6清晰地示出:改进的判决逻辑允许语音停顿中的更多的更新。此外,对于仅具有噪声的初始段落,原判决逻辑无法跟踪输入噪声,相反由于始终向下更新的策略表现出下降趋势。
图7示出了对混合了20dB SNR的粉红噪声输入的语音的改进。该图清晰地示出:原方案甚至不允许噪声跟踪开始进行。对于改进逻辑,仅在跟踪开始前存在较小的延迟,并且此处甚至还允许跟踪在语音停顿中工作。
受益于前述描述和相关附图中呈现的教导,本领域技术人员将想到所公开的本发明的修改和其他实施例。因此,应当理解本发明的实施例不应限于所公开的具体实施例,且在本公开的范围中意在包括该修改和其他实施例。虽然此处采用了特定术语,但这些术语是在一般性和描述性的意义下使用的,而非用于限制的目的。

Claims (18)

1.一种在语音活动检测器VAD的背景估计器中更新输入信号的背景噪声估计的方法,包括:
接收(401)当前帧的输入信号,
确定(402)输入信号的当前帧是否包括非噪声,所述方法还包括:
通过分析至少与输入信号的相关和能量电平有关的特性,来执行(403)附加确定(4a),确定非噪声输入的当前帧是否包括噪声,以及
如果确定当前帧包括噪声,更新(404)背景噪声估计。
2.根据权利要求1所述的方法,其中,确定非噪声输入的当前帧是否包括噪声的所述附加确定(4a)进一步包括以下至少一项:如果输入信号的能量电平与平滑最小能量电平的差距在第一范围以内,以及如果总噪声强度与平滑最小能量电平的差距在第二范围以内,对相关进行检测并从指示相关事件的最后一帧开始对帧的数量进行计数。
3.根据权利要求2所述的方法,其中,执行对相关的检测并从指示相关事件的最后一帧开始对帧的数量进行计数,以减小背景噪声估计更新的步长,并确定应何时执行背景噪声估计更新。
4.根据权利要求2或3所述的方法,其中,通过分析输入信号的能量电平与平滑最小能量电平的差距是否在第一范围以内,避免基于能量与平滑最小能量电平相比过高的帧,对背景噪声估计进行更新,并确定应何时执行背景噪声估计更新。
5.根据权利要求2至4中任一项所述的方法,其中,通过分析总噪声与当前所估计的噪声强度的差距是否在第二范围以内,确定应何时执行背景噪声估计更新。
6.根据权利要求2至5中任一项所述的方法,其中,所述第一和第二范围是固定范围。
7.根据权利要求2至5中任一项所述的方法,其中,所述第一和第二范围是自适应范围.
8.根据权利要求1至7中任一项所述的方法,其中,对所有帧应用所述附加确定(4a)。
9.根据权利要求1至7中任一项所述的方法,其中,对非噪声帧或尾响中的帧应用附加确定(4a)。
10.一种在语音活动检测器VAD中更新输入信号(501)的背景噪声估计的背景估计器(500),所述背景估计器包括:输入部(502),被配置为接收当前帧的输入信号(501);处理器(503),被配置为确定输入信号的当前帧是否包括非噪声;通过分析至少与输入信号的相关和能量电平有关的特性,来执行附加确定,确定非噪声输入的当前帧是否包括噪声;以及如果确定当前帧包括噪声,更新背景噪声估计
11.根据权利要求10所述的背景估计器(500),其中,确定非噪声输入的当前帧是否包括噪声的附加确定(4a)进一步包括以下至少一项:如果输入信号的能量电平与平滑最小能量电平的差距在第一范围以内,以及如果总噪声强度与平滑最小能量电平的差距在第二范围以内,对相关进行检测并从指示相关事件的最后一帧开始对帧的数量进行计数。
12.根据权利要求11所述的背景估计器(500),其中,所述处理器(503)被配置为:基于对相关的检测以及从指示相关事件的最后一帧开始对帧的数量进行计数,来减小背景噪声估计更新的步长,并确定应何时执行背景噪声估计更新。
13.根据权利要求11或12所述的背景估计器(500),其中,所述处理器(503)被配置为:通过分析输入信号的能量电平与平滑最小能量电平的差距是否在第一范围以内,避免基于能量与平滑最小能量电平相比过高的帧,对背景噪声估计进行更新,并确定应何时执行背景噪声估计更新。
14.根据权利要求11至13中任一项所述的背景估计器(500),其中,所述处理器(503)被配置为:通过分析总噪声与当前所估计的噪声强度的差距是否在第二范围以内的分析,确定应何时执行背景噪声估计更新。
15.根据权利要求11至14中任一项所述的背景估计器(500),其中,所述第一和第二范围是固定范围。
16.根据权利要求11至14中任一项所述的背景估计器(500),其中,所述第一和第二范围是自适应范围。
17.根据权利要求11至16中任一项所述的背景估计器(500),其中,所述处理器(503)被配置为对所有帧执行所述附加确定。
18.根据权利要求11至16中任一项所述的背景估计器(500),其中,所述处理器(503)被配置为对非噪声帧或尾响中的帧执行所述附加确定。
CN2010800579955A 2009-10-19 2010-10-18 语音活动检测的方法和背景估计器 Active CN102667927B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US25285809P 2009-10-19 2009-10-19
US61/252,858 2009-10-19
US26258309P 2009-11-19 2009-11-19
US61/262,583 2009-11-19
US37675210P 2010-08-25 2010-08-25
US61/376,752 2010-08-25
PCT/SE2010/051116 WO2011049514A1 (en) 2009-10-19 2010-10-18 Method and background estimator for voice activity detection

Publications (2)

Publication Number Publication Date
CN102667927A true CN102667927A (zh) 2012-09-12
CN102667927B CN102667927B (zh) 2013-05-08

Family

ID=43900543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010800579955A Active CN102667927B (zh) 2009-10-19 2010-10-18 语音活动检测的方法和背景估计器

Country Status (9)

Country Link
US (2) US9202476B2 (zh)
EP (2) EP2816560A1 (zh)
JP (1) JP5712220B2 (zh)
CN (1) CN102667927B (zh)
AU (1) AU2010308597B2 (zh)
CA (1) CA2778342C (zh)
IN (1) IN2012DN03221A (zh)
PT (1) PT2491559E (zh)
WO (1) WO2011049514A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103730110A (zh) * 2012-10-10 2014-04-16 北京百度网讯科技有限公司 一种检测语音端点的方法和装置
CN105210148A (zh) * 2012-12-21 2015-12-30 弗劳恩霍夫应用研究促进协会 用以在低比特率下模型化背景噪声的舒缓噪声添加技术
CN106297819A (zh) * 2015-05-25 2017-01-04 国家计算机网络与信息安全管理中心 一种应用于说话人识别的噪声消除方法
CN106448696A (zh) * 2016-12-20 2017-02-22 成都启英泰伦科技有限公司 一种基于背景噪声估计自适应高通滤波语音降噪方法
CN108762221A (zh) * 2018-07-09 2018-11-06 西安电子科技大学 含有不可控事件的自动制造系统的无死锁控制方法
CN111554314A (zh) * 2020-05-15 2020-08-18 腾讯科技(深圳)有限公司 噪声检测方法、装置、终端及存储介质
CN112927724A (zh) * 2014-07-29 2021-06-08 瑞典爱立信有限公司 用于估计背景噪声的方法和背景噪声估计器

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2860986T3 (es) * 2010-12-24 2021-10-05 Huawei Tech Co Ltd Método y aparato para detectar adaptivamente una actividad de voz en una señal de audio de entrada
US9699667B2 (en) * 2012-01-09 2017-07-04 Qualcomm Incorporated Systems and methods to transmit configuration change messages between an access point and a station
CN103578477B (zh) * 2012-07-30 2017-04-12 中兴通讯股份有限公司 基于噪声估计的去噪方法和装置
CN102820035A (zh) * 2012-08-23 2012-12-12 无锡思达物电子技术有限公司 一种对长时变噪声的自适应判决方法
WO2014035328A1 (en) 2012-08-31 2014-03-06 Telefonaktiebolaget L M Ericsson (Publ) Method and device for voice activity detection
CN104217723B (zh) * 2013-05-30 2016-11-09 华为技术有限公司 信号编码方法及设备
US9997172B2 (en) * 2013-12-02 2018-06-12 Nuance Communications, Inc. Voice activity detection (VAD) for a coded speech bitstream without decoding
CN110265058B (zh) 2013-12-19 2023-01-17 瑞典爱立信有限公司 估计音频信号中的背景噪声
CN105336344B (zh) * 2014-07-10 2019-08-20 华为技术有限公司 杂音检测方法和装置
US9576589B2 (en) * 2015-02-06 2017-02-21 Knuedge, Inc. Harmonic feature processing for reducing noise
CN106328169B (zh) * 2015-06-26 2018-12-11 中兴通讯股份有限公司 一种激活音修正帧数的获取方法、激活音检测方法和装置
EP3324406A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
KR102280692B1 (ko) * 2019-08-12 2021-07-22 엘지전자 주식회사 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스
CN112489692A (zh) * 2020-11-03 2021-03-12 北京捷通华声科技股份有限公司 语音端点检测方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1159639A (zh) * 1991-06-11 1997-09-17 夸尔柯姆股份有限公司 可变速率声码器
CN1300417A (zh) * 1999-04-19 2001-06-20 摩托罗拉公司 使用外部语音活动检测的噪声抑制
WO2004012097A1 (en) * 2002-07-26 2004-02-05 Motorola, Inc. Method for fast dynamic estimation of background noise
WO2008143569A1 (en) * 2007-05-22 2008-11-27 Telefonaktiebolaget Lm Ericsson (Publ) Improved voice activity detector

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3623147A1 (de) 1986-07-10 1988-01-21 Metallgesellschaft Ag Vorrichtung zur gasentstaubung
JPS63237100A (ja) * 1987-03-26 1988-10-03 沖電気工業株式会社 音声検出器
US5410632A (en) * 1991-12-23 1995-04-25 Motorola, Inc. Variable hangover time in a voice activity detector
JPH06332492A (ja) 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
US6001131A (en) * 1995-02-24 1999-12-14 Nynex Science & Technology, Inc. Automatic target noise cancellation for speech enhancement
US5727072A (en) * 1995-02-24 1998-03-10 Nynex Science & Technology Use of noise segmentation for noise cancellation
US5659622A (en) * 1995-11-13 1997-08-19 Motorola, Inc. Method and apparatus for suppressing noise in a communication system
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US5819217A (en) * 1995-12-21 1998-10-06 Nynex Science & Technology, Inc. Method and system for differentiating between speech and noise
WO1998001847A1 (en) * 1996-07-03 1998-01-15 British Telecommunications Public Limited Company Voice activity detector
US6070137A (en) * 1998-01-07 2000-05-30 Ericsson Inc. Integrated frequency-domain voice coding using an adaptive spectral enhancement filter
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US6801895B1 (en) * 1998-12-07 2004-10-05 At&T Corp. Method and apparatus for segmenting a multi-media program based upon audio events
US6275798B1 (en) * 1998-09-16 2001-08-14 Telefonaktiebolaget L M Ericsson Speech coding with improved background noise reproduction
US6424938B1 (en) * 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
US6381570B2 (en) * 1999-02-12 2002-04-30 Telogy Networks, Inc. Adaptive two-threshold method for discriminating noise from speech in a communication signal
US6490556B2 (en) * 1999-05-28 2002-12-03 Intel Corporation Audio classifier for half duplex communication
US7171357B2 (en) * 2001-03-21 2007-01-30 Avaya Technology Corp. Voice-activity detection using energy ratios and periodicity
FR2825826B1 (fr) * 2001-06-11 2003-09-12 Cit Alcatel Procede pour detecter l'activite vocale dans un signal, et codeur de signal vocal comportant un dispositif pour la mise en oeuvre de ce procede
US20020198708A1 (en) * 2001-06-21 2002-12-26 Zak Robert A. Vocoder for a mobile terminal using discontinuous transmission
FR2833103B1 (fr) * 2001-12-05 2004-07-09 France Telecom Systeme de detection de parole dans le bruit
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
US7024353B2 (en) * 2002-08-09 2006-04-04 Motorola, Inc. Distributed speech recognition with back-end voice activity detection apparatus and method
SG119199A1 (en) * 2003-09-30 2006-02-28 Stmicroelectronics Asia Pacfic Voice activity detector
JP4601970B2 (ja) * 2004-01-28 2010-12-22 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
KR100677396B1 (ko) * 2004-11-20 2007-02-02 엘지전자 주식회사 음성인식장치의 음성구간 검출방법
US7610197B2 (en) * 2005-08-31 2009-10-27 Motorola, Inc. Method and apparatus for comfort noise generation in speech communication systems
US8990073B2 (en) * 2007-06-22 2015-03-24 Voiceage Corporation Method and device for sound activity detection and sound signal classification
JP5229234B2 (ja) * 2007-12-18 2013-07-03 富士通株式会社 非音声区間検出方法及び非音声区間検出装置
US8244528B2 (en) * 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1159639A (zh) * 1991-06-11 1997-09-17 夸尔柯姆股份有限公司 可变速率声码器
EP1239456A1 (en) * 1991-06-11 2002-09-11 QUALCOMM Incorporated Variable rate vocoder
CN1300417A (zh) * 1999-04-19 2001-06-20 摩托罗拉公司 使用外部语音活动检测的噪声抑制
WO2004012097A1 (en) * 2002-07-26 2004-02-05 Motorola, Inc. Method for fast dynamic estimation of background noise
WO2008143569A1 (en) * 2007-05-22 2008-11-27 Telefonaktiebolaget Lm Ericsson (Publ) Improved voice activity detector

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103730110B (zh) * 2012-10-10 2017-03-01 北京百度网讯科技有限公司 一种检测语音端点的方法和装置
CN103730110A (zh) * 2012-10-10 2014-04-16 北京百度网讯科技有限公司 一种检测语音端点的方法和装置
CN105210148B (zh) * 2012-12-21 2020-06-30 弗劳恩霍夫应用研究促进协会 用以在低比特率下模型化背景噪声的舒缓噪声添加技术
US10339941B2 (en) 2012-12-21 2019-07-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Comfort noise addition for modeling background noise at low bit-rates
CN111145767A (zh) * 2012-12-21 2020-05-12 弗劳恩霍夫应用研究促进协会 解码器及用于产生和处理编码频比特流的系统
CN105210148A (zh) * 2012-12-21 2015-12-30 弗劳恩霍夫应用研究促进协会 用以在低比特率下模型化背景噪声的舒缓噪声添加技术
US10789963B2 (en) 2012-12-21 2020-09-29 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Comfort noise addition for modeling background noise at low bit-rates
CN111145767B (zh) * 2012-12-21 2023-07-25 弗劳恩霍夫应用研究促进协会 解码器及用于产生和处理编码频比特流的系统
CN112927724A (zh) * 2014-07-29 2021-06-08 瑞典爱立信有限公司 用于估计背景噪声的方法和背景噪声估计器
CN112927724B (zh) * 2014-07-29 2024-03-22 瑞典爱立信有限公司 用于估计背景噪声的方法和背景噪声估计器
CN106297819A (zh) * 2015-05-25 2017-01-04 国家计算机网络与信息安全管理中心 一种应用于说话人识别的噪声消除方法
CN106297819B (zh) * 2015-05-25 2019-09-06 国家计算机网络与信息安全管理中心 一种应用于说话人识别的噪声消除方法
CN106448696A (zh) * 2016-12-20 2017-02-22 成都启英泰伦科技有限公司 一种基于背景噪声估计自适应高通滤波语音降噪方法
CN108762221A (zh) * 2018-07-09 2018-11-06 西安电子科技大学 含有不可控事件的自动制造系统的无死锁控制方法
CN111554314A (zh) * 2020-05-15 2020-08-18 腾讯科技(深圳)有限公司 噪声检测方法、装置、终端及存储介质

Also Published As

Publication number Publication date
US20160078884A1 (en) 2016-03-17
WO2011049514A1 (en) 2011-04-28
IN2012DN03221A (zh) 2015-10-23
CN102667927B (zh) 2013-05-08
EP2491559A4 (en) 2013-11-06
JP2013508772A (ja) 2013-03-07
PT2491559E (pt) 2015-05-07
CA2778342C (en) 2017-08-22
AU2010308597B2 (en) 2015-10-01
EP2491559A1 (en) 2012-08-29
US9418681B2 (en) 2016-08-16
US9202476B2 (en) 2015-12-01
JP5712220B2 (ja) 2015-05-07
EP2816560A1 (en) 2014-12-24
EP2491559B1 (en) 2014-12-10
AU2010308597A1 (en) 2012-05-17
US20120209604A1 (en) 2012-08-16
CA2778342A1 (en) 2011-04-28

Similar Documents

Publication Publication Date Title
CN102667927B (zh) 语音活动检测的方法和背景估计器
US9990938B2 (en) Detector and method for voice activity detection
CN102804261B (zh) 用于语音编码器的方法和语音活动检测器
US8612222B2 (en) Signature noise removal
KR102012325B1 (ko) 오디오 신호의 배경 잡음 추정
US10783899B2 (en) Babble noise suppression
RU2609133C2 (ru) Способ и устройство для обнаружения голосовой активности
Lin et al. A Novel Normalization Method for Autocorrelation Function for Pitch Detection and for Speech Activity Detection.
Dekens et al. On Noise Robust Voice Activity Detection.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant