CN1225736A - 语音活动检测器 - Google Patents

语音活动检测器 Download PDF

Info

Publication number
CN1225736A
CN1225736A CN97196590A CN97196590A CN1225736A CN 1225736 A CN1225736 A CN 1225736A CN 97196590 A CN97196590 A CN 97196590A CN 97196590 A CN97196590 A CN 97196590A CN 1225736 A CN1225736 A CN 1225736A
Authority
CN
China
Prior art keywords
value
voice activity
frequency spectrum
activity detector
measured value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN97196590A
Other languages
English (en)
Inventor
尼尔·罗伯特·加纳
保罗·亚历山大·巴雷特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of CN1225736A publication Critical patent/CN1225736A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

公开了一种适用于移动电话机中的语音活动检测器。该语音活动检测器的优点是能更好地判定(79)输入信号(19)是由噪音(不需要被发送)组成还是包括语音或信息音调(需要被发送)(79),尤其适用于噪音环境中。该语音活动检测器包括多个部件,尤其是辅助语音活动检测器(3)。辅助语音活动检测器(3)基于语音频谱比噪音频谱变化快的特征区分噪音及语音。这使得辅助检测器(3)几乎不会将语音信号错认为噪音信号。因此,获得了非常可靠的噪音模板(421)。为此,辅助检测器(3)也可用于降低噪音的应用。该语音活动检测器也使用神经网分类器(7)。

Description

语音活动检测器
本发明涉及一种语音活动检测器。它尤其适用于包括在主语音活动检测器及包含在噪音降低装置中的辅助语音活动检测器。包含这种辅助语音检测器的主语音活动检测器特别适用于移动电话机,后者需要工作在噪音环境中。
因为蜂窝式无线电系统的可使用的电磁频谱区域是有限的,在最近十年中移动电话用户数目的猛然增长意味着蜂窝式无线电设备的供应商必须寻求新途径,以增加可用的电磁频谱的使用效率。
可以实现该目的的一个方式是减小蜂窝式无线电系统中单元的尺寸。但是,已发现,仅在来自邻近单元的干扰幅度(同信道干扰)变得高到不可接受之前,单元尺寸才能降低许多。为了降低同信道干扰,使用了一种称为不连续传送的技术。该技术采用仅当移动式电话用户说话时才让移动式电话发送代表语音的信号,并基于观察发现:即在给定会话中,通常在任何一时刻仅是一方在说话。通过实施非连续发送,同信道干扰的平均幅值可被降低。这又意味着,系统中单元的尺寸能减小,并由此系统可支持更多的用户。
当移动式电话用户说话时仅发送代表语音的信号的另一优点是移动式电话手机内的电池寿命增大了。
使用语音活动检测器能实现非连续发送。这种检测器的目的是指示给定信号是否仅由噪音组成,或是否该信号包括语音。如果该语音活动检测器指示待发送的信号仅由噪音组成,则不发送该信号。
现在许多移动电话均使用与欧洲专利No.335521中所述相似的语音活动检测器。在那里所述的语音活动检测器中,对输入的代表语音的信号的频谱和噪音信号的频谱之间的相似性进行测量。从已被确定为噪音的先期输入信号部分中获得在该比较测量中使用的噪音频谱。通过辅助语音活动检测器作出判定,该辅助语音活动检测器构成主语音活动检测器的一个部件。由于重要的是包含语音的信号要被移动电话发送,及由于主语音活动检测器的判定是基于由辅助语音检测器识别为噪音的信号,所希望的是,在边界状态下辅助语音检测器倾向作出信号包含语音的判定。被语音活动检测器识别为语音的会话比例被称为检测器的语音活动系数(或简称为“活动率”)。实际上会话中包括语音的比例典型在35%至40%的范围中。因此,理想地,主语音活动检测器将具有处于该范围或稍高于此的活动率,而辅助语音活动检测器具有明显高的活动率。
虽然公知的语音活动检测器在多种环境中呈现良好的性能,但发现在噪音环境中其性能差。移动电话需要工作在汽车、城市街道、繁忙的办公室、火车站或飞机场中。因此,需要有能可靠地工作在噪音环境中的语音活动检测器。
根据本发明的第一方面,提供了一种语音活动检测器,它包括:
在操作中计算至少一个第一频谱差测量值的装置,该测量值指示一对信号时间区段中的频谱相似性程度,该对中一个时间区段滞后于另一时间区段一个第一时间间隔;
在操作中计算至少一个第二频谱差测量值的装置,该测量值指示一对信号时间区段中的频谱相似性程度,该对中一个时间区段滞后另一时间区段一个第二时间间隔;该间隔不同于第一时间间隔;
在操作中基于至少所述第一及第二频谱差测量值计算频谱不规则性测量值的装置;以及
在操作中将该频谱不规则性测量值与一个阈值相比较的装置。
该语音活动检测器具有的优点是,它能可靠判定输入信号是由噪音组成。如上所述可知,这对于辅助语音活动检测器是希望有的特性,它被用来识别在装置中执行另外处理时用作噪音模板的信号。并且,通过对涉及不同时间间隔得到的频谱差测量值的组合,根据本发明的语音活动检测器可考虑在不同时间间隔上信号的稳定性程度。例如,如果考虑以相对长的第一时间间隔来计算第一频谱差测量值,而以相对短的第二时间间隔来计算第二频谱差测量值,则信号的长期及短期稳定性均会影响频谱不规性测量值,后者组合了第一及第二频谱差测量值。因为噪音频谱不同于语音频谱,它至少在从80ms至1s的时间间隔上是固定不变的,本发明的语音活动检测器提供了在噪音环境中的可靠性能。
最好,时间的预定长度在400ms至1s的范围中。其优点在于,语音频谱相对快的随时间变化的特性能最好地区别于噪音频谱相对慢的随时间变化的特性。
最好,所述频谱不规则性测量值计算装置被设置用来在操作中计算所述频谱差测量值加权的和。其优点在于,在作出语音/噪音判定时,可给予从这样的时间间隔中得到的频谱差测量值较大的权重,即在这样的时间间隔上语音频谱与噪音频谱之间的稳定性差别最为显著。
根据本发明的第二方面,提供了一种语音活动检测器,它包括:
根据本发明第一方面的可作为辅助语音活动检测器工作的语音活动检测器。
由于该辅助噪音检测器具有高的活动性,可依赖它正确地作出输入信号是由噪音组成的判定。此外,因为主语音活动检测器的正确工作依赖于辅助语音活动检测器正确地识别噪音信号,根据本发明第二方面的语音活动检测器可以对信号是包括语音还是仅由噪音组成的作出可靠的判定。
根据本发明的第三方面,提供了一种噪音抑制装置,包括:
根据本发明第一部分的语音活动检测器,
在操作中基于从被所述语音活动检测器确定为由噪音组成的各时间区段中获得的一个或多个频谱来提供估值噪音频谱的装置;及在操作中从所述信号随后的时间区段中获得的频谱中扣减所述估值噪音频谱的装置。
本领域的技术熟练人员了解,仅当要从需增强的信号中扣除的噪音其特性是固定不变时,频谱扣减技术才可很好地起作用。这意味着,频谱扣减装置及根据本发明第一方面的语音活动检测器的组合形成了一种特别有效的噪音降低装置,因为根据本发明第一方面的语音活动检测器的操作意味着,如果在预定时间长度中噪音信号主要是固定不变的,则输入信号将被确定为是由噪音组成的。
总之,需要可靠噪音模板的任何装置将会因为使用根据本发明第一方面的语音活动检测器而受益。
根据本发明的第四方面,提供了一种语音活动检测器,它包括在操作中从输入信号提取特征值的装置,及在操作中处理多个所述特征值以输出指示所述输入信号是否由噪音组成的一个值的神经网装置。
该装置的优点在于,神经网络一旦示教后便能模拟不易被分析确定的输入参数与输出判定之间的关系。虽然示教神经网络的处理是费力的,但一旦神经网络受训后,其算法的计算复杂度将小于公知的算法。这当然对可能要大规模生产的产品,如语音活动检测器来说是有利的。
最好,输入给神经网络的参数包括从待发送的信号中获得的反频谱系数。已经证实,这些是在对语音及噪音作出区分时有用的参数。
根据本发明的第五方面,提供了一种语音活动检测方法,它包括以下步骤:
计算至少一个第一频谱差测量值,该测量指示一对信号时间区段中的频谱相似性程度,该对中一个时间区段滞后另一时间区段一个第一时间间隔;
计算至少一个第二频谱差测量值,该测量值指示一对信号时间区段中的频谱相似性程度,该对中一个时间区段滞后另一时间区段一个第二时间间隔,该间隔不同于第一时间间隔;
基于至少所述第一及第二频谱差测量值计算频谱不规则性测量值;
将所述频谱不规则性测量值与一个阈值相比较;及
基于该比较确定所述信号是否由噪音组成。
该方法具有的优点是,噪音及语音之间的鉴别是可靠的。
根据本发明的第六方面,提供了一种在连续的预定频率上增强代表频谱特性值的频谱的方法,所述增强包括以下步骤:
对于每个所述预定频率,将所述频率的频谱特性值与相邻频率的频谱特性值相比较,及计算对所述预定频谱值的调节值,所述计算是这样的,即,当所述的预定频谱值大于任何一个相邻频谱特性值时,增大调节值,当所述的预定频谱值小于任何一个相邻频谱特性值时,减小调节值;及
在频谱内根据所述计算调节值调节每个所述频谱值。
现在,将仅以例子的方式参照附图来描述本发明的具体实施例,附图为:
图1是表示构成第一实施例的语音活动检测器的操作的框图;
图2是表示形成图1中的语音活动检测器的一个部件的辅助语音活动检测器的操作的框图;
图3是表示频谱扣减部件的框图;
图4是表示分类器部件的示意图;及
图5是公知的语音活动检测器的框图。
图1中所示语音活动检测器设计用于移动电话机中,并在进行一系列信号处理2、3、4、5、6、7(每个用矩形框表示)前输入信号19,以便达到输入信号是否全由噪音组成的判定79。在处理完2、3、4、5、6、7中每一个之后,产生结果参数或参数组29、39、49、59、69、79(每个用椭圆框表示)。这些处理过程2、3、4、5、6、7的每个可由合适的数字信号集成电路来完成,例如AT&T DS P32C浮点32位处理器来执行。
该语音活动检测器的输入是数字信号19,它代表语音/信息音调和/或噪音。信号19从模拟信号以8KHz速率采样得到及每个采样由13位表示。信号19以20ms帧输入到语音活动检测器中,每个帧由160个采样值组成。
信号19输入到滤波器组处理2,它对每个输入帧进行256点快速付里叶变换。该处理2的输出为三十二个频带能量29,它代表输入信号帧中的功率部分,这些功率部分对应于以下列值为界的三十二个频带的每一个(频率以Hz为单位):100,143,188,236,286,340,397,457,520,588,659,735,815,900,990,1085,1186,1292,1405,1525,1625,1786,1928,2078,2237,2406,2584,2774,2974,3186,3410,3648,3900。
因此第一频带从100Hz延伸到143Hz,第二频带从143Hz延伸到188Hz,以此类推。可以看出,与较高频带相比较较低频带相对地窄。
由滤波器组2输出的频带能量29被输入到一个辅助语音活动检测器3及一个频谱减扣处理器4。
现在参照图2,辅助活动检测器3输入频带能量29,及进行一系列处理过程31、32、33、34以提供一个辅助判定39,即信号帧19是否仅由噪音组成。
提供辅助判定39时使用的第一处理是过程31。过程31涉及对每个频带能量29取底数为10的对数,并将其结果乘以10以提供三十二个频带对数能量311。最先输入的三十个输入信号帧的对数能量被存储在设于DSP IC中的存储器的合适区域中。
频谱不规则性计算处理32首先输入来自当前输入信号帧19的对数能量311及来自在当前输入信号帧之前分别30个帧(即600ms)、20个帧(即400ms)、10个帧(即200ms)发生的第一、第二及第三信号帧的对数能量314、313、312。然后求出当前帧每频带中对数能量311与第三帧相应频带中对数能量312之间的幅值差。于是获得了三十二个不同幅值差,随后相加得到第一频谱差测量值。以类似方式,求得第二、第三及第四频谱差测量值,它们分别表示:第二与第三帧的对数能量313、312之间的幅值差,第一与第二帧的对数能量314、313之间的幅值差,及第一与当前帧的对数能量314、311之间的幅值差。可以看出,第一,第二及第三频谱差测量值是相隔200ms的帧之间的频谱差的测量值。第四频谱差测量值是相隔600ms的帧之间的频谱差的测量值。然后将第一至第四频谱差测量值相加在一起,得出一个频谱不规则性测量值321、因此该频谱不规则性测量值既反映了在200ms间隔上信号的稳定性又反映了在600ms间隔上信号的稳定性。
虽然,在该实施例中,频谱不规则性测量值是由四个频谱差测量值的简单相加构成的,但可想到,也可用进行加权求和方式代替此算法。例如,对第一、第二及第三频谱差测量值可给予比对第四频谱差测量值较大的加权,或反之亦然。本领域的熟练技术人员将理解:设有三个涉及200ms间隔及仅一个涉及600ms间隔的测量值的作用在于,提供对在短间隔上发生的频谱差给予较大权重的频谱不规则性测量值。
然后将频谱不规则性测量值321输入到阈值处理33,它将确定测量值321是否超过一个预定常数K。该处理的输出是噪音状态,如果测量值321小于预定常数则为“真”,否则为“假”。从最先二个帧获得的噪音状态被存储到设在DSP IC中的存储器的合适位置上。该噪音状态被输入到延时释放处理34,由它输出一个辅助判定39,它表示仅当求得的噪音状态为“真”及当由先前两帧求得的噪音状态也为“真”则当前信号帧仅由噪音组成。否则辅助判定为当前帧包含语音。
本发明人发现,由噪音组成的信号的频谱特性其变化慢于包括语言的信号的频谱特性的变化。尤其是,噪音信号频谱特性在400ms至1s间隔中的差别大大地小于在相同间隔中语音信号相应的区别。辅助语音活动检测器(图2)利用这种区别来识别由噪音组成的和包括语音的输入信号。可以设想,这种语音活动检测器可以用于各种应用,尤其涉及噪音降低技术,其中需要指示当前信号为噪音,以便形成噪音信号的当前估值,用于随后从输入信号中扣减噪音信号。
回到图1,由辅助语音活动检测器(图2)输出的辅助判定39与频带能量29一起被输入到频谱扣减处理4。频谱扣减处理被详细地表示在图3中。首先,通过升高频带能量29的幂到5/7,使该频带能量29在压缩处理41中被压缩。然后将压缩的频带输入到噪音模板处理42。从当前输入信号帧得到的压缩频带能量N1及从在先三帧中得到的压缩频带能量N2、N3、N4与涉及这些帧的辅助判定一起被存储到DSP IC中的存储器的四个区域内。如果当前帧及在先三个输入信号帧被指定为噪音,则将这四个压缩频带能量N1、N2、N3、N4求平均值,以便提供噪音模板421。
每当噪音模板421更新时,它被输入到频谱增强处理43。频谱增强处理包括多个增强级。第n增强级产生n倍的增强频谱。因此,第一增强级将原始噪音模板转换成一倍增强噪音模板,它被输入到第二级中,第二级提供二倍增强噪音模板,如此下去直到最后第八级,并由该最后级产生八倍增强噪音模板。每个增强级的处理如下。
首先,计算涉及最低(第一)频带的压缩能量值及涉及第二频带的压缩能量之间的差。然后,计算涉及第二频带及第三频带之间的压缩能量之间的差。计算每个相应的差值,直到第三十一频带及第三十二频带之间的差为止。将这些差值存储在DSP IC中存储器合适位置上。
在每个增强级中,对输入的噪音模板的每个频带的每个能量值进行调整,以增加其能量值与涉及相邻频带的能量值之间的差。在该计算中所使用的差值是基于输入能量值的差值,而非在当前增强级中产生的调整值。
更详细地,在每个增强级中,以第一输入频带能量值与第二输入频带能量值之差的5%为幅度,调整第一频带能量值,产生新的第一频带能量值。该调整可选择为增大或减小,以便有效地增大两个能带值之差。由于对第二输入频带能量值的调节依赖于两个相邻的频带能量值,调整分两个步骤来计算。首先基于第二与第一频带能量值之差进行5%调整,以产生部分调整的第二频带能量值。然后以类似方式基于第二与第三频带能量值之差进行第二频带能量值第二部分的调整。对其他每个频带重复地进行该处理,但除第三十二频带能量值外,它仅有一个相邻的频带能量值。在此情况下其调整与对第一频带能量值的调整相似。
应当理解,如果一个相邻频带能量值比被调整频带能量值高,而另一相邻频带能量值为低,则两部分调整作用彼此抵消。
在频带增强处理43的第二级中,进行类似的调整处理,在一倍增强噪音模板基础上得到二倍增强噪音模板。当八个增强级均被处理完后,则使每个频带能量值乘以一缩放系数,例如0.9。本发明人发现,引入频带增强处理43意味着,缩放系数可比噪音降低应用的典型值(如1.1)小,而不会引入“音乐”频谱减噪音。
由频谱增强处理43输出的调整噪音模板431比未修改的噪音模板421呈现更明显的谐波。于是,频谱增强处理43模拟发生于人听觉皮层称为“横向抑制”的处理。该调整已被证实能改善在信号一背景噪音比大于10dB时的主语音活动检测器(图1)的性能。
在扣减处理44中,从由当前输入信号帧得到的频带压缩能量411的压缩值中减去调整噪音幅样值431,以提供压缩修正能量441。
然后将压缩修正能量441输入到限幅处理45,它简单地将任何小于1的压缩修正能量值调整到1。一旦以此方式引入了较低的限值,每个压缩的修正能量值的幂在扩展步骤46中升高到1.4次幂(即步骤41中压缩指数的反运算),以提供修正频带能量49。
再参照图1,将修正频带能量输入到唛耳(Mel)倒频谱系数计算处理5,它基于当前输入信号帧的修正频带能量49计算当前输入信号帧的16个唛耳倒频谱系数。
在取对数处理6中,进行与处理31所进行的操作相似的操作,即基于修正频带能量49提供对数修正频带能量69。
使用全连接多层感知算法来进行分类处理7。在该算法中所使用的权重是使用以动量(α=100,ε=0.05)的反向传播算法示教该算法获得的,其中使用了6545帧,其一半帧为噪音帧,另一半帧为语音帧。在每权重更新前产生了一百个示教采样数据及示教数据将通过二百次。
参照图4,多层感知结构具有48个输入节点71。在输入到相应的输入切点前,使用未示出的方式对16个唛耳倒频谱系数59及32个对数修正频带能量69标称化,以使它们位于0和1之间。每个输入节点71通过连接线72(图中仅一个有标号)连接到二十个初级节点73(图中仅一个有标号)。每个连接线72具有通过训练处理过程设定的相关权重系数X。每个初级节点上的值是通过对每个输入节点值与相关权重系数的积求和来算出。通过对初级节点值进行非线性函数修正获得每个初级节点输出的值。在本例中,该非线性函数是S形函数。
每个初级节点73的输出通过连接线74(每个也具有相关的权重系数)连接到8个次级节点75的每一个上。使用与基于输入节点值计算初级节点值相似的方法,基于初级节点值来计算次级节点值。次级节点输出也使用S形函数来修正。8个次级节点75的每个经过相应的连接线76连接到输出节点77。使用与基于初级节点的输出值计算次级节点值相似的方法,基于二次节点75的输出值来计算输出节点上的值。输出节点上的值是位于0和1之间的单浮点值。如果该值大于0.5,则由语音活动检测器输出的判定79指示当前输入信号帧包括语音,否则,判定39指示该输入信号帧仅由噪音组成。可以理解,判定76形成了主语音活动检测器(图1)的输出。
在另外一个实施例中,多层感知结构设有第二输出节点,它指示输入信号帧是否包含信息语音(例如拨号音、预定音或DTMF信号音调)。
为了减少语音衰减,输出判定可仅指示:当对于当前输入信号帧输出节点值超过0.5及对于在先输入信号帧也超过0.5时,输入信号帧由噪音组成。
在一些实施例中,可在最初的短时期内(如1s),禁止语音活动检测器对输入的信号帧包含有噪声的判定输出。本发明的第二实施例提供了一种改进型的符合标准文件“欧洲数字蜂窝通信(阶段2)”语音活动检测器(VAD)(GSM06.32)ETS300580-6”规定的辅助语音检测器。它对应于在我们的欧洲专利0335521中所述的语音活动检测器,并表示在图5中。
在输入端601上接收带噪音的语音信号。存储器602包含规定噪音频谱估值或模型的数据;在该数据与当前信号的频谱之间作出比较(603)以获得相似性测量值,后者再与一个阈值相比较(604)。为了跟踪噪音分量中的变化,仅在无语音时从输入端更新噪音模型。并且,阈值可以做相应调整以达到适配效果(适配器606)。
为了保证在仅有噪音的期间达到适配效果,而不会因错误的判定而引起逐渐不正确的适配危险,在辅助检测器607的控制下执行适配,该辅助检测器包括一个清音语音检测器608及一个浊音语音检测器609;如果有一个检测器识别出语音,则检测器607认为语音存在,并抑制更新及主检测器阈值的适配。清音语音检测器608获得一组信号的LPC系数并比较相继帧周期间这些系数的自相关函数,而浊音语音检测器609检验LPC余项自相关性的变化。
在清音语音检测器608中,使用信号频谱稳定性的测量值来形成判定,即输入信号是否包括清音语音的判定。更具体地,即输入信号是否包括清音语音的判定。更具体地,将输入信号相邻80ms组之间频谱差的测量值中的帧间变化与一阈值相比较,以产生一个稳定性判定的布尔值。所使用的频谱差测量是Itakura-Saito失真测量的变型,每个80ms组的频谱表示是由多个20ms帧的自相关函数的平均值获得的。本发明的第二实施例改善了判定的可靠性。
根据本发明的第二实施例,待分析的信号组被分成多个子组,例如160ms组被分成8个20ms子组。然后通过计算所有子组的任意两个之间的频谱距离测量值来判定清音语音/噪音(在该列中C2 8=28个比较对),并对各个距离测量值求和以形成单个量值。该稳定性测量值比以上参照的GSM标准中所述者还要精确,因为它考虑了子组对之间的频谱相似性,相隔不同间隔的组分(20ms,40ms,60ms…140ms),而非只是相邻组之间的相似性。该方法能容易地结合进上述GSMVAD中,因为可由对每一个20ms信号帧得到的自相关函数来计算Itakura-Saito失真测量的变化,本领域中熟练技术人员可以理解,也可使用另外的频谱测量如基于FFT的方法。并且在求上述单量值时可使用失真测量的加权组合。例如,对失真测量值可采用求解它们时使用的与子组之间的间隔成比例地加权。

Claims (24)

1、一种语音活动检测器,包括:
在操作中计算至少一个第一频谱差测量值的装置,该测量值指示一对信号时间区段中的频谱相似性程度,该对中一个时间区段滞后另一时间区段一个第一时间间隔;在操作中计算至少一个第二频谱差测量值的装置,该测量值指示一对信号时间区段中的频谱相似性程度,该对中一个时间区段滞后另一时间区段一个第二时间间隔,该间隔不同于第一时间间隔;操作中基于至少所述第一及第二频谱差测量值计算频谱不规则性测量值的装置;及
在操作中将所述频谱不规则性测量值与一个阈值相比较的装置。
2、根据权利要求1的语音活动检测器,其中所述预定时间长度在80ms至1s的范围中。
3、根据权利要求1或2的语音活动检测器,其中所述频谱不规则性测量值计算装置被设置用来在操作中计算所述频谱差测量值加权的和。
4、一种语音活动检测器,包括根据以上任一权利要求的可作为辅助语音活动检测器工作的语音活动检测器。
5、根据权利要求4的语音活动检测器,还包括:
在操作中基于从被所述辅助语音活动检测器确定为由噪音组成的各时间区段中获得的一个或多个频谱来提供估值噪音频谱的装置;及
在操作中从由所述信号随后的时间区段中获得的频谱中扣减所述估值噪音频谱的装置。
6、一种噪音抑制装置,包括:
根据权利要求1至3中任一项的语音活动检测器;
在操作中基于从被所述语音活动检测器确定为由噪音组成的各时间区段中获得的一个或多个频谱来提供估值噪音频谱的装置;及
在操作中从由所述信号随后的时间区段中获得的频谱中扣减所述估值噪音频谱的装置。
7、一种语音活动检测器,包括:
在操作中从输入信号提取特征值的装置;及
在操作中处理多个所述特征值以输出一个值指示所述输入信号是否由噪音组成的神经网装置。
8、根据权利要求7的语音活动检测器,其中:
所述提取装置包括滤波器组,在工作中该滤波器组产生多个滤波器组值,表示在所述信号频谱内每一个频带的功率。
9、根据权利要求8的语音活动检测器,其中所述提取装置还包括在操作中处理所述滤波器组值以获得包括反频谱系数的特征值的装置。
10、根据权利要求8或9的语音活动检测器,其中所述提取装置还包括处理所述滤波器组值以获得含有滤波器组值的对数的特征值的装置。
11、根据权利要求7至10中任一项的语音活动检测器,其中所述神经网装置具有另一输出,它的值指示所述信号是否是信息音调。
12、根据权利要求7至11中任一项的语音活动检测器,还包括:
根据权利要求1至3中任一项的可作为辅助语音活动检测器工作的语音活动检测器;及
在操作中基于从被所述语音活动检测器确定为由噪音组成的各时间区段中获得的一个或多个频谱来提供估值噪音频谱的装置;及
在操作中从由所述信号随后的时间区段中获得的频谱中扣减所述估值噪音频谱的装置。
13、一种具有符合任一上述权利要求的语音活动检测器的移动无线电装置。
14、一种语音活动检测方法,包括以下步骤:
计算至少一个第一频谱差测量值,该测量值指示一对信号时间区段中的频谱相似性程度,该对中一个时间区段滞后另一时间区段一个第一时间间隔;
计算至少一个第二频谱差测量值,该测量值指示一对信号时间区段中的频谱相似性程度,该对中一个时间区段滞后另一时间区段一个第二时间间隔,该间隔不同于第一时间间隔;
基于至少所述第一及第二频谱差测量值计算频谱不规则性测量值;及
将所述频谱不规则性测量值与一个阈值相比较,及
基于该比较确定所述信号是否由噪音组成。
15、根据权利要求14的方法,其中所述预定时间长度在80ms至1s的范围中。
16、根据权利要求14或15的方法,其中所述频谱不规则性测量值计算步骤包括对所述频谱差测量值做加权求和。
17、一种增强频谱的方法,该频谱代表一系列预定频率的预定的频谱特征值,增强过程包括以下几步:对每一个预定频率,将所述频率上所述频谱特性值与在相邻频率上的所述特性值相比较及计算针对所述预定频谱值的调节值,所述计算是这样的,即,当所述的预定频谱值大于相邻频谱的任一频谱值时,增大调节值,当所述的预定频谱值小于相邻频谱的任一频谱值时,减小调节值;及
在频谱内根据所述计算调节值调节每个所述频谱值。
18、根据权利要求17的方法,其中所述比较包括:
获得所述预定频谱值;
在相邻的较低频率上获得所述特性值;
在相邻的较高频率上获得所述特性值;
对超过所述较低频谱值的所述预定频谱值计算向下的减少量;
对超过所述较高频谱值的所述预定频谱值计算向上的减少量;
对小于所述较低频谱值的所述预定频谱值计算向下的增加量;
对小于所述较高频谱值的所述预定频谱值计算向上的增加量;
所述的调节值计算是这样的,即,基于任何计算的减少量所述调节值增加,和/或基于任何计算的增加量所述调节值下降。
19、根据权利要求18的方法,其中所述调节步骤包括:
将所述预定频率值增加一个线性比例于计算出的任何减少量的值;和/或
将所述预定频率值减少一个线性比例于计算的任何增加量的值。
20、根据权利要求17至19中任一项的方法,包括多次地重复权利要求17、18和19的方法。
21、一种语音活动检测方法,包括根据权利要求17至20中任一项的频谱增强。
22、一种语音活动检测器,包括:
基于信号的时间区段计算频谱的装置,它在操作中基于信号的第一时间区段计算第一频谱及基于信号的第二时间区段计算第二频谱,所述第二区段滞后所述第一区段一个预定的时间长度;
计算频谱之间频谱差测量值的装置,它在操作中计算指示所述第一及第二频谱之间频谱差的频谱差测量值;
频谱不规则性测量值计算装置,它在操作中基于至少所述频谱差测量值计算频谱不规则性测量值;
用于将所述频谱不规则性测量值与阈值相比较的装置;及
基于所述比较确定所述信号是否由噪音组成的装置;
其中所述预定时间长度足够地大,以便展示语音信号频谱的时间变化特性;
所述频谱计算装置还在操作中基于落在所述预定时间长度内的所述信号时间区段计算一个或多个中间频谱;
所述频谱差计算装置还在操作中计算某些或所有所述中间频谱及所述第一及第二频谱之间的中间频谱差测量值;及
所述频谱不规则性测量值计算装置在操作中基于所述频谱差测量值及所述中间频谱差测量值计算频谱不规则性测量值。
22、一种语音活动检测器,它基本上如前参照图1所述并如图1中所示。
23、一种语音活动检测方法,它实质上如前所述。
CN97196590A 1996-07-03 1997-07-02 语音活动检测器 Pending CN1225736A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP96304920 1996-07-03
EP96304920.0 1996-07-03

Publications (1)

Publication Number Publication Date
CN1225736A true CN1225736A (zh) 1999-08-11

Family

ID=8224997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN97196590A Pending CN1225736A (zh) 1996-07-03 1997-07-02 语音活动检测器

Country Status (8)

Country Link
US (1) US6427134B1 (zh)
EP (1) EP0909442B1 (zh)
JP (1) JP4307557B2 (zh)
KR (1) KR20000022285A (zh)
CN (1) CN1225736A (zh)
AU (1) AU3352997A (zh)
DE (1) DE69716266T2 (zh)
WO (1) WO1998001847A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7809560B2 (en) 2005-02-01 2010-10-05 Panasonic Corporation Method and system for identifying speech sound and non-speech sound in an environment
CN1805007B (zh) * 2004-11-20 2010-11-03 Lg电子株式会社 用于在语音信号处理中检测语音片段的方法和装置
CN101681619B (zh) * 2007-05-22 2012-07-04 Lm爱立信电话有限公司 改进的话音活动性检测器
CN102629472A (zh) * 2011-02-07 2012-08-08 Jvc建伍株式会社 噪声去除装置及噪声去除方法
CN102687196A (zh) * 2009-10-08 2012-09-19 西班牙电信公司 用于检测语音段的方法
CN110556128A (zh) * 2019-10-15 2019-12-10 出门问问信息科技有限公司 一种语音活动性检测方法、设备及计算机可读存储介质

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6243003B1 (en) 1999-08-25 2001-06-05 Donnelly Corporation Accessory module for vehicle
US6278377B1 (en) 1999-08-25 2001-08-21 Donnelly Corporation Indicator for vehicle accessory
ES2389626T3 (es) 1998-04-03 2012-10-29 Tellabs Operations, Inc. Filtro para acortamiento de respuesta al impulso, con restricciones espectrales adicionales, para transmisión de múltiples portadoras
US7440498B2 (en) 2002-12-17 2008-10-21 Tellabs Operations, Inc. Time domain equalization for discrete multi-tone systems
US6420975B1 (en) * 1999-08-25 2002-07-16 Donnelly Corporation Interior rearview mirror sound processing system
US6795424B1 (en) * 1998-06-30 2004-09-21 Tellabs Operations, Inc. Method and apparatus for interference suppression in orthogonal frequency division multiplexed (OFDM) wireless communication systems
US6618701B2 (en) 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
FR2797343B1 (fr) * 1999-08-04 2001-10-05 Matra Nortel Communications Procede et dispositif de detection d'activite vocale
GB9928011D0 (en) * 1999-11-27 2000-01-26 Ibm Voice processing system
US6529868B1 (en) * 2000-03-28 2003-03-04 Tellabs Operations, Inc. Communication system noise cancellation power signal calculation techniques
US7254532B2 (en) * 2000-04-28 2007-08-07 Deutsche Telekom Ag Method for making a voice activity decision
DE10026904A1 (de) 2000-04-28 2002-01-03 Deutsche Telekom Ag Verfahren zur Berechnung des die Lautstärke mitbestimmenden Verstärkungsfaktors für ein codiert übertragenes Sprachsignal
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US7203643B2 (en) * 2001-06-14 2007-04-10 Qualcomm Incorporated Method and apparatus for transmitting speech activity in distributed voice recognition systems
US20030110029A1 (en) * 2001-12-07 2003-06-12 Masoud Ahmadi Noise detection and cancellation in communications systems
US6847930B2 (en) * 2002-01-25 2005-01-25 Acoustic Technologies, Inc. Analog voice activity detector for telephone
KR100853681B1 (ko) * 2002-05-24 2008-08-25 엘지전자 주식회사 냉장고의 홈바히터 제어방법
US20040064314A1 (en) * 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
SG119199A1 (en) * 2003-09-30 2006-02-28 Stmicroelectronics Asia Pacfic Voice activity detector
FI20045315A (fi) * 2004-08-30 2006-03-01 Nokia Corp Ääniaktiivisuuden havaitseminen äänisignaalissa
GB2422279A (en) * 2004-09-29 2006-07-19 Fluency Voice Technology Ltd Determining Pattern End-Point in an Input Signal
KR100714721B1 (ko) * 2005-02-04 2007-05-04 삼성전자주식회사 음성 구간 검출 방법 및 장치
US20070198251A1 (en) * 2006-02-07 2007-08-23 Jaber Associates, L.L.C. Voice activity detection method and apparatus for voiced/unvoiced decision and pitch estimation in a noisy speech feature extraction
JP4749925B2 (ja) 2006-04-21 2011-08-17 株式会社リコー 画像形成装置、画像形成方法、及びプロセスカートリッジ
US7892718B2 (en) 2006-04-21 2011-02-22 Ricoh Company, Ltd. Image forming apparatus, image forming method and process cartridge
WO2007142094A1 (ja) 2006-06-02 2007-12-13 Kao Corporation 電子写真用トナー
EP2115742B1 (en) * 2007-03-02 2012-09-12 Telefonaktiebolaget LM Ericsson (publ) Methods and arrangements in a telecommunications network
JP5054443B2 (ja) 2007-06-20 2012-10-24 株式会社リコー 画像形成装置、画像形成方法、及びプロセスカートリッジ
EP2051142B1 (en) 2007-10-19 2016-10-05 Ricoh Company, Ltd. Toner and image forming apparatus using it
JP5229234B2 (ja) * 2007-12-18 2013-07-03 富士通株式会社 非音声区間検出方法及び非音声区間検出装置
US8275136B2 (en) * 2008-04-25 2012-09-25 Nokia Corporation Electronic device speech enhancement
US8244528B2 (en) 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
US8611556B2 (en) * 2008-04-25 2013-12-17 Nokia Corporation Calibrating multiple microphones
JP5369691B2 (ja) 2008-11-28 2013-12-18 株式会社リコー トナー及び現像剤
FR2943875A1 (fr) * 2009-03-31 2010-10-01 France Telecom Procede et dispositif de classification du bruit de fond contenu dans un signal audio.
US8509398B2 (en) * 2009-04-02 2013-08-13 Microsoft Corporation Voice scratchpad
WO2010146711A1 (ja) * 2009-06-19 2010-12-23 富士通株式会社 音声信号処理装置及び音声信号処理方法
CN102667927B (zh) * 2009-10-19 2013-05-08 瑞典爱立信有限公司 语音活动检测的方法和背景估计器
KR20140026229A (ko) 2010-04-22 2014-03-05 퀄컴 인코포레이티드 음성 액티비티 검출
US8725506B2 (en) * 2010-06-30 2014-05-13 Intel Corporation Speech audio processing
US8898058B2 (en) 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
US9070374B2 (en) * 2012-02-20 2015-06-30 JVC Kenwood Corporation Communication apparatus and condition notification method for notifying a used condition of communication apparatus by using a light-emitting device attached to communication apparatus
CN103325386B (zh) 2012-03-23 2016-12-21 杜比实验室特许公司 用于信号传输控制的方法和系统
ES2661924T3 (es) * 2012-08-31 2018-04-04 Telefonaktiebolaget Lm Ericsson (Publ) Método y dispositivo para detectar la actividad vocal
JP2014085609A (ja) * 2012-10-26 2014-05-12 Sony Corp 信号処理装置および方法、並びに、プログラム
US9542933B2 (en) 2013-03-08 2017-01-10 Analog Devices Global Microphone circuit assembly and system with speech recognition
US9570093B2 (en) * 2013-09-09 2017-02-14 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing
JPWO2015072059A1 (ja) * 2013-11-13 2017-03-16 日本電気株式会社 ネットワーク図描画システム、ネットワーク図描画方法およびネットワーク図描画プログラム
FR3017484A1 (fr) 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
JP7221335B2 (ja) * 2021-06-21 2023-02-13 アルインコ株式会社 無線通信装置
CN117711419B (zh) * 2024-02-05 2024-04-26 卓世智星(成都)科技有限公司 用于数据中台的数据智能清洗方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4357491A (en) 1980-09-16 1982-11-02 Northern Telecom Limited Method of and apparatus for detecting speech in a voice channel signal
EP0127718B1 (fr) 1983-06-07 1987-03-18 International Business Machines Corporation Procédé de détection d'activité dans un système de transmission de la voix
US4720802A (en) * 1983-07-26 1988-01-19 Lear Siegler Noise compensation arrangement
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
DE68910859T2 (de) 1988-03-11 1994-12-08 British Telecommunications P.L.C., London Detektion für die Anwesenheit eines Sprachsignals.
JP2573352B2 (ja) 1989-04-10 1997-01-22 富士通株式会社 音声検出装置
JP2643593B2 (ja) * 1989-11-28 1997-08-20 日本電気株式会社 音声・モデム信号識別回路
US5195138A (en) * 1990-01-18 1993-03-16 Matsushita Electric Industrial Co., Ltd. Voice signal processing device
EP0538536A1 (en) * 1991-10-25 1993-04-28 International Business Machines Corporation Method for detecting voice presence on a communication line
US5410632A (en) 1991-12-23 1995-04-25 Motorola, Inc. Variable hangover time in a voice activity detector
US5369791A (en) 1992-05-22 1994-11-29 Advanced Micro Devices, Inc. Apparatus and method for discriminating and suppressing noise within an incoming signal
GB9213459D0 (en) * 1992-06-24 1992-08-05 British Telecomm Characterisation of communications systems using a speech-like test stimulus
US5890104A (en) * 1992-06-24 1999-03-30 British Telecommunications Public Limited Company Method and apparatus for testing telecommunications equipment using a reduced redundancy test signal
IN184794B (zh) * 1993-09-14 2000-09-30 British Telecomm
US5794188A (en) * 1993-11-25 1998-08-11 British Telecommunications Public Limited Company Speech signal distortion measurement which varies as a function of the distribution of measured distortion over time and frequency
UA41913C2 (uk) * 1993-11-30 2001-10-15 Ейті Енд Ті Корп. Спосіб шумозаглушення у системах зв'язку
US5657422A (en) * 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator
WO1996034382A1 (en) 1995-04-28 1996-10-31 Northern Telecom Limited Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US5737716A (en) * 1995-12-26 1998-04-07 Motorola Method and apparatus for encoding speech using neural network technology for speech classification
US5991718A (en) * 1998-02-27 1999-11-23 At&T Corp. System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1805007B (zh) * 2004-11-20 2010-11-03 Lg电子株式会社 用于在语音信号处理中检测语音片段的方法和装置
US7809560B2 (en) 2005-02-01 2010-10-05 Panasonic Corporation Method and system for identifying speech sound and non-speech sound in an environment
CN101681619B (zh) * 2007-05-22 2012-07-04 Lm爱立信电话有限公司 改进的话音活动性检测器
CN102687196A (zh) * 2009-10-08 2012-09-19 西班牙电信公司 用于检测语音段的方法
CN102687196B (zh) * 2009-10-08 2014-05-07 西班牙电信公司 用于检测语音段的方法
CN102629472A (zh) * 2011-02-07 2012-08-08 Jvc建伍株式会社 噪声去除装置及噪声去除方法
CN102629472B (zh) * 2011-02-07 2015-03-18 Jvc建伍株式会社 噪声去除装置及噪声去除方法
CN110556128A (zh) * 2019-10-15 2019-12-10 出门问问信息科技有限公司 一种语音活动性检测方法、设备及计算机可读存储介质

Also Published As

Publication number Publication date
EP0909442A1 (en) 1999-04-21
AU3352997A (en) 1998-02-02
JP4307557B2 (ja) 2009-08-05
US6427134B1 (en) 2002-07-30
KR20000022285A (ko) 2000-04-25
DE69716266T2 (de) 2003-06-12
DE69716266D1 (de) 2002-11-14
WO1998001847A1 (en) 1998-01-15
JP2000515987A (ja) 2000-11-28
EP0909442B1 (en) 2002-10-09

Similar Documents

Publication Publication Date Title
CN1225736A (zh) 语音活动检测器
CN108564942B (zh) 一种基于敏感度可调的语音情感识别方法及系统
US10878823B2 (en) Voiceprint recognition method, device, terminal apparatus and storage medium
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN1185626C (zh) 修改语音信号的系统和方法
EP0722164B1 (en) Method and apparatus for characterizing an input signal
EP1083542B1 (en) A method and apparatus for speech detection
CN1121681C (zh) 语言处理
CN1121680C (zh) 语音识别
CN1132152C (zh) 用于执行音频信号的传输质量的机器支持的评估的方法
CN1013525B (zh) 认人与不认人实时语音识别的方法和装置
CN1750124A (zh) 带限音频信号的带宽扩展
EP1250699B1 (en) Speech recognition
CN1543640A (zh) 在分布式语音识别系统中传输语音活动的方法和设备
CN106653056A (zh) 基于lstm循环神经网络的基频提取模型及训练方法
CN1160450A (zh) 从连续语音中识别讲话声音的系统及其应用方法
CN113488063B (zh) 一种基于混合特征及编码解码的音频分离方法
CN115602165B (zh) 基于金融系统的数字员工智能系统
KR20080064557A (ko) 음성 신호의 명료도를 향상시키는 장치 및 방법
CN109036470A (zh) 语音区分方法、装置、计算机设备及存储介质
Gupta et al. Speech feature extraction and recognition using genetic algorithm
CN111326170B (zh) 联合时频域扩张卷积的耳语音向正常音转换方法及其装置
US20020062211A1 (en) Easily tunable auditory-based speech signal feature extraction method and apparatus for use in automatic speech recognition
CN112017658A (zh) 一种基于智能人机交互的操作控制系统
CN111816208A (zh) 一种语音分离质量评估方法、装置及计算机存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication