CN103548081B

CN103548081B - 噪声稳健语音译码模式分类

Info

Publication number: CN103548081B
Application number: CN201280025143.7A
Authority: CN
Inventors: 伊桑·罗伯特·杜尼; 维韦克·拉金德朗
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2011-05-24
Filing date: 2012-04-12
Publication date: 2016-03-30
Anticipated expiration: 2032-04-12
Also published as: CN103548081A; CA2835960C; KR101617508B1; TWI562136B; WO2012161881A1; KR20140021680A; BR112013030117B1; JP2014517938A; EP2715723A1; BR112013030117A2; JP5813864B2; RU2013157194A; CA2835960A1; TW201248618A; US20120303362A1; US8990074B2; RU2584461C2

Abstract

本发明揭示一种噪声稳健语音分类的方法。将分类参数从外部组件输入到语音分类器。在所述语音分类器中从所述输入参数中的至少一者产生内部分类参数。设定正规化自动相关系数函数阈值。根据信号环境来选择参数分析器。基于多个输入语音帧的噪声估计而确定语音模式分类。

Description

噪声稳健语音译码模式分类

相关申请案

本申请案涉及2011年5月24日申请的名为“噪声稳健语音译码模式分类(Noise-RobustSpeechCodingModeClassification)”的第61/489,629号美国临时专利申请案且主张其优先权。

技术领域

本发明大体上涉及语音处理的领域。更特定来说，所揭示配置涉及噪声稳健语音译码模式分类。

背景技术

通过数字技术进行的话音发射已变得普遍，特别是在长距离及数字无线电电话应用中。此情形又已产生对在维持经重建构语音的感知质量的同时确定可经由信道而发送的最少量的信息的兴趣。如果通过简单地取样及数字化来发射语音，则需要大约每秒64千位(kbps)的数据速率以实现常规模拟电话的语音质量。然而，经由使用语音分析，接着使用适当译码、发射及在接收器处的重新合成，可实现数据速率的显著缩减。语音分析可被执行得越准确，则数据可被编码得越适当，因此缩减数据速率。

使用通过提取关于人类语音产生模型的参数来压缩语音的技术的装置被称为语音译码器。语音译码器将传入语音信号划分成时间块或分析帧。语音译码器通常包括编码器及解码器，或编解码器。编码器分析传入语音帧以提取某些相关参数，且接着将所述参数量化成二进制表示，即，量化到位集合或二进制数据包。数据包是经由通信信道发射到接收器及解码器。解码器处理数据包、解量化数据包以产生参数，且接着使用经解量化参数来重新合成语音帧。

现代语音译码器可使用多模式译码方法，所述方法根据输入语音的各种特征将输入帧分类成不同类型。多模式可变位速率编码器使用语音分类以使用每帧最小数目个位来准确地俘获及编码高百分比的语音区段。更准确的语音分类产生较低的平均经编码位速率及较高质量的经解码语音。先前，语音分类技术仅针对经隔离语音帧考虑最小数目个参数，从而产生很少且不准确的语音模式分类。因此，需要高性能语音分类器以在变化的环境条件下正确地分类众多语音模式，以便实现多模式可变位速率编码技术的最大性能。

发明内容

附图说明

图1为说明用于无线通信的系统的框图；

图2A为说明可使用噪声稳健语音译码模式分类的分类器系统的框图；

图2B为说明可使用噪声稳健语音译码模式分类的另一分类器系统的框图；

图3为说明噪声稳健语音分类的方法的流程图；

图4A到4C说明用于噪声稳健语音分类的模式决策制订过程的配置；

图5为说明用于调整用于分类语音的阈值的方法的流程图；

图6为说明用于噪声稳健语音分类的语音分类器的框图；

图7为说明具有相关联参数值及语音模式分类的经接收语音信号的一个配置的时间线曲线图；及

图8说明可包含于电子装置/无线装置内的某些组件。

具体实施方式

语音译码器的功能是通过移除语音中所固有的所有自然冗余而将经数字化语音信号压缩成低位速率信号。通过用参数集合来表示输入语音帧且使用量化以用位集合来表示参数而实现数字压缩。如果输入语音帧具有Ni数目个位且通过语音译码器产生的数据包具有No数目个位，则通过语音译码器实现的压缩因数为Cr=Ni/No。挑战是保持经解码语音的高话音质量，同时实现目标压缩因数。语音译码器的性能取决于：(1)语音模型或上文所描述的分析及合成过程的组合执行得有多好；及(2)在每帧No个位的目标位速率下参数量化过程执行得有多好。因此，语音模型的目标是在针对每一帧具有小参数集合的情况下俘获语音信号的本质或目标话音质量。

语音译码器可经实施为时域译码器，其试图通过采用高时间分辨率处理以每次编码小语音区段(通常为5毫秒(ms)的子帧)来俘获时域语音波形。对于每一子帧，通过各种搜索算法来找到来自码簿空间的高精确度代表。或者，语音译码器可经实施为频域译码器，其试图用参数集合(分析)来俘获输入语音帧的短期语音频谱且采用对应合成过程以从频谱参数来重新建立语音波形。参数量化器根据A.Gersho及R.M.Gray的“向量量化和信号压缩(VectorQuantizationandSignalCompression)”(1992年)中所描述的量化技术通过用码向量的经存储表示来表示参数而保持所述参数。

一种可能的时域语音译码器是以引用的方式完全地并入本文中的L.B.Rabiner及R.W.Schafer的“语音信号的数字处理(DigitalProcessingofSpeechSignals)”第396页到第453页(1978年)中所描述的码激励线性预测性(CELP)译码器。在CELP译码器中，通过找到短期共振峰滤波器的系数的线性预测(LP)分析来移除语音信号中的短期相关或冗余。将短期预测滤波器应用于传入语音帧会产生LP残余信号，LP残余信号是用长期预测滤波器参数及后续随机码簿进一步模型化及量化。因此，CELP译码将编码时域语音波形的任务划分成编码LP短期滤波器系数及编码LP残余的分离任务。可以固定速率(即，针对每一帧使用相同数目(NO)个位)或以可变速率(其中针对不同类型的帧内容使用不同位速率)执行时域译码。可变速率译码器试图仅使用将编解码器参数编码到适于获得目标质量的水平所需要的位量。第5,414,796号美国专利中描述一种可能的可变速率CELP译码器，所述专利转让给目前所揭示配置的受让人且以引用的方式完全地并入本文中。

例如CELP译码器的时域译码器通常依赖于每帧高数目(NO)个位以保持时域语音波形的准确度。如果每帧的位数目NO相对大(例如，8kbps或8kbps以上)，则这些译码器通常递送极好话音质量。然而，在低位速率(4kbps及4kbps以下)下，时域译码器归因于可用位的有限数目而未能保持高质量及稳健性能。在低位速率下，有限码簿空间削减了如此成功地部署于较高速率商业应用中的常规时域译码器的波形匹配能力。

通常，CELP方案采用短期预测(STP)滤波器及长期预测(LTP)滤波器。在编码器处采用合成式分析(AbS)方法以找到LTP延迟及增益，以及最佳随机码簿增益及索引。例如增强型可变速率译码器(EVRC)的当前现有技术CELP译码器可在大约每秒8千位的数据速率下实现良好质量的经合成语音。

另外，清音语音不展现周期性。在常规CELP方案中编码LTP滤波器所消耗的带宽不与用于浊音语音一样有效率地用于清音语音，在浊音语音中，语音的周期性强且LTP滤波有意义。因此，对于清音语音，更有效率(即，较低位速率)的译码方案是理想的。为了选择最有效率的译码方案及实现最低数据速率，准确的语音分类是必要的。

为了在较低位速率下译码，已开发语音的各种频谱或频域译码方法，其中分析语音信号作为频谱的时变演变。见(例如)“语音译码和合成(SpeechCodingandSynthesis)”第四章(编者为W.B.Kleijn及K.K.Paliwal，1995年)中R.J.McAulay及T.F.Quatieri的“正弦译码(SinusoidalCoding)”。在频谱译码器中，目标是用频谱参数集合来模型化或预测每一输入语音帧的短期语音频谱，而非精确地模仿时变语音波形。接着编码频谱参数且用经解码参数来建立输出语音帧。所得经合成语音不匹配于原始输入语音波形，但提供相似感知质量。频域译码器的实例包含多频带激励译码器(MBE)、正弦变换译码器(STC)及谐波译码器(HC)。这些频域译码器提供高质量参数模型，所述参数模型具有可用在低位速率下可用的低数目个位准确地量化的紧密参数集合。

然而，低位速率译码强加有限译码分辨率或有限码簿空间的临界约束，其限制单一译码机制的有效性，从而致使译码器不能够以相等准确度在各种背景条件下表示各种类型的语音区段。举例来说，常规低位速率频域译码器不发射用于语音帧的相位信息。而是，通过使用随机的人工产生的初始相位值及线性内插技术来重建构相位信息。见(例如)29ElectronicLetters第856页到第857页(1993年5月)中H.Yang等人的“用于MBE模型中的浊音语音合成的二次相位内插(QuadraticPhaseInterpolationforVoicedSpeechSynthesisintheMBEModel)”。因为人工地产生相位信息，所以即使通过量化-解量化过程完美地保持正弦曲线的振幅，通过频域译码器产生的输出语音仍将不与原始输入语音对准(即，主要脉冲将不同步)。因此，已证明难以在频域译码器中采用任何封闭回路性能度量，例如，信噪比(SNR)或感知SNR。

在低位速率下有效率地编码语音的一种有效技术为多模式译码。多模式译码技术已用以结合开放回路模式决策过程来执行低速率语音译码。“语音译码和合成(SpeechCodingandSynthesis)”第7章(编者为W.B.Kleiin及K.K.Paliwal，1995年)中AmitavaDas等人的“语音的多模式和可变速率译码(Multi-modeandVariable-RateCodingofSpeech)”中描述一种此类多模式译码技术。常规多模式译码器将不同模式或编码-解码算法应用于不同类型的输入语音帧。每一模式或编码-解码过程经定制成以最有效率的方式表示某一类型的语音区段，例如，浊音语音、清音语音或背景噪声(非语音)。这些多模式译码技术的成功高度地取决于正确模式决策或语音分类。外部开放回路模式决策机制检查输入语音帧，且制订关于哪一模式将应用于所述帧的决策。通常通过从输入帧提取数个参数、关于某些时间及频谱特性来评估所述参数且使模式决策基于所述评估来执行开放回路模式决策。因此，在不预先知道输出语音的确切条件(即，输出语音在话音质量或其它性能度量方面将有多接近输入语音)的情况下制订模式决策。第5,414,796号美国专利中描述用于语音编解码器的一种可能开放回路模式决策，所述专利转让给本发明的受让人且以引用的方式完全地并入本文中。

多模式译码可为固定速率(针对每一帧使用相同数目(NO)个位)或可变速率(其中针对不同模式使用不同位速率)。可变速率译码的目标是仅使用将编解码器参数编码到适于获得目标质量的水平所需要的位量。结果，可使用可变位速率(VBR)技术在显著较低的平均速率下获得与固定速率的较高速率译码器的话音质量相同的目标话音质量。第5，414,796号美国专利中描述一种可能的可变速率语音译码器。目前存在对开发以中到低位速率(即，在2.4kbps到4kbps及4kbps以下的范围内)操作的高质量语音译码器的研究兴趣激情及强烈商业需要。应用领域包含无线电话学、卫星通信、因特网电话学、各种多媒体及话音串流应用、话音邮件及其它话音存储系统。驱动力为在包损耗情形下针对高容量的需要及针对稳健性能的需求。各种新近语音译码标准化努力是推进低速率语音译码算法的研究及开发的另一直接驱动力。低速率语音译码器建立每容许应用带宽的更多信道或用户。与合适信道译码的额外层耦合的低速率语音译码器可配合译码器规格的总体位预算且在信道错误条件下递送稳健性能。

因此，多模式VBR语音译码是用以在低位速率下编码语音的有效机制。常规多模式方案需要针对各种语音区段(例如，清音、浊音、转变)的有效率编码方案或模式以及针对背景噪声或静音的模式的设计。语音译码器的总体性能取决于模式分类的稳健性及每一模式执行得有多好。译码器的平均速率取决于针对清音、浊音及其它语音区段的不同模式的位速率。为了在低平均速率下实现目标质量，有必要在变化条件下正确地确定语音模式。通常，浊音及清音语音区段是在高位速率下俘获，且背景噪声及静音区段是用在显著较低的速率下工作的模式表示。多模式可变位速率编码器需要正确的语音分类以使用每帧最小数目个位来准确地俘获及编码高百分比的语音区段。更准确的语音分类产生较低的平均经编码位速率及较高质量的经解码语音。

换句话说，在来源受控的可变速率译码中，此帧分类器的性能基于输入语音的特征(能量、发声、频谱倾斜、音高升降曲线(pitchcontour)，等等)而确定平均位速率。当输入语音受到噪声损毁时，语音分类器的性能可能会降级。此情形可造成对质量及位速率的不良影响。因此，可使用用于检测噪声的存在且合适地调整分类逻辑的方法以确保在真实世界使用状况下的稳健操作。另外，先前，语音分类技术仅针对经隔离语音帧考虑最小数目个参数，从而产生很少且不准确的语音模式分类。因此，需要高性能语音分类器以在变化的环境条件下正确地分类众多语音模式，以便实现多模式可变位速率编码技术的最大性能。

所揭示配置提供一种用于声码器应用中的改进型语音分类的方法及设备。可分析分类参数而以相对高准确度产生语音分类。使用决策制订过程以逐帧地分类语音。可由以状态为基础的决策制订者使用从原始输入语音所导出的参数来准确地分类各种语音模式。可通过分析过去及未来帧以及当前帧来分类每一语音帧。可通过所揭示配置分类的语音模式至少包括暂态、到作用中语音及在言语结束时的转变、浊音、清音及静音。

为了确保分类逻辑的稳健性，本发明的系统及方法可使用背景噪声估计(其通常是通过例如话音活动检测器的标准上游语音译码组件提供)的多帧度量且基于此多帧度量而调整分类逻辑。或者，如果SNR包含关于一个以上帧的信息(例如，如果SNR是在多个帧上求平均值)，则可通过分类逻辑使用SNR。换句话说，可通过分类逻辑使用在多个帧上相对稳定的任何噪声估计。分类逻辑的调整可包含改变用以分类语音的一个或一个以上阈值。具体来说，可增大用于将帧分类为“清音”的能量阈值(反映“静音”帧的高电平)，可增大用于将帧分类为“清音”的发声阈值(反映在噪声下发声信息的损毁)，可减低用于将帧分类为“浊音”的发声阈值(再次反映发声信息的损毁)，或某一组合。在噪声不存在的状况下，可不引入对分类逻辑的改变。在具有高噪声(例如，20dB的SNR，通常为在语音编解码器标准化中所测试的最低SNR)的一个配置中，可将清音能量阈值增大10dB，可将清音发声阈值增大0.06，且可将浊音发声阈值减低0.2。在此配置中，可通过基于输入噪声度量而在“清洁”设定与“噪声”设定之间内插或针对某一中间噪声电平使用硬阈值集合来处置中间噪声状况。

图1为说明用于无线通信的系统100的框图。在系统100中，第一编码器110接收经数字化语音样本s(n)且编码样本s(n)以供在发射媒体112或通信信道112上发射到第一解码器114。解码器114解码经编码语音样本且合成输出语音信号sSYNTH(n)。对于在相反方向上的发射，第二编码器116编码在通信信道118上所发射的经数字化语音样本s(n)。第二解码器120接收及解码经编码语音样本，从而产生经合成输出语音信号sSYNTH(n)。

语音样本s(n)表示已根据包含(例如)脉码调制(PCM)、压扩μ定律或A定律的各种方法中的任一者而数字化及量化的语音信号。在一个配置中，语音样本s(n)被组织成输入数据帧，其中每一帧包括预定数目个经数字化语音样本s(n)。在一个配置中，使用8kHz的取样速率，其中每一20ms帧包括160个样本。在下文所描述的配置中，数据发射速率可逐帧地从8kbps(全速率)变化到4kbps(半速率)到2kbps(四分之一速率)到1kbps(八分之一速率)。或者，可使用其它数据速率。如本文所使用，术语“全速率”或“高速率”通常指代大于或等于8kbps的数据速率，且术语“半速率”或“低速率”通常指代小于或等于4kbps的数据速率。变化数据发射速率是有益的，因为可针对含有相对较少语音信息的帧选择性地使用较低位速率。虽然本文描述特定速率，但任何合适取样速率、帧大小及数据发射速率可供本发明的系统及方法使用。

第一编码器110及第二解码器120可一起构成第一语音译码器或语音编解码器。相似地，第二编码器116及第一解码器114一起构成第二语音译码器。语音译码器可用数字信号处理器(DSP)、专用集成电路(ASIC)、离散门逻辑、固件或任何常规可编程软件模块及微处理器实施。软件模块可驻存于RAM存储器、快闪存储器、寄存器或任何其它形式的可写存储媒体中。或者，任何常规处理器、控制器或状态机均可取代微处理器。第5,727，123号及第5,784,532号美国专利中描述经特定地设计用于语音译码的可能ASIC，所述专利转让给本发明的受让人且以引用的方式完全地并入本文中。

作为一实例而非限制，语音译码器可驻存于无线通信装置中。如本文所使用，术语“无线通信装置”指代可用于经由无线通信系统的话音及/或数据通信的电子装置。无线通信装置的实例包含蜂窝式电话、个人数字助理(PDA)、手持型装置、无线调制解调器、膝上型计算机、个人计算机、平板计算机，等等。或者，无线通信装置可被称作接入终端、移动终端、移动台、远程台、用户终端、终端、订户单元、订户台、移动装置、无线装置、用户设备(UE)或某一其它相似术语。

图2A为说明可使用噪声稳健语音译码模式分类的分类器系统200a的框图。图2A的分类器系统200a可驻存于图1所说明的编码器中。在另一配置中，分类器系统200a可独立，从而将语音分类模式输出246a提供到例如图1所说明的编码器的装置。

在图2A中，输入语音212a提供到噪声抑制器202。输入语音212a可通过话音信号的模/数转换而产生。噪声抑制器202滤波来自输入语音212a的噪声分量，从而产生经噪声抑制输出语音信号214a。在一个配置中，图2A的语音分类设备可使用增强型可变速率CODEC(EVRC)。如图所示，此配置可包含确定噪声估计216a及SNR信息218的内建式噪声抑制器202。

噪声估计216a及输出语音信号214a可输入到语音分类器210a。噪声抑制器202的输出语音信号214a也可输入到话音活动检测器204a、LPC分析器206a及开放回路音高估计器208a。噪声估计216a也可与来自噪声抑制器202的SNR信息218一起馈送到话音活动检测器204a。噪声估计216a可由语音分类器210a使用以设定周期性阈值且区别清洁语音与有噪声语音。

用以分类语音的一种可能方式是使用SNR信息218。然而，本发明的系统及方法的语音分类器210a可使用噪声估计216a来代替SNR信息218。或者，如果SNR信息218在多个帧上相对稳定(例如，针对多个帧包含SNR信息218的量度)，则可使用SNR信息218。噪声估计216a可为输入语音中所包含的噪声的相对长期指示符。噪声估计216a在后文中被称作ns_est。输出语音信号214a在后文中被称作t_in。在一个配置中，如果噪声抑制器202不存在或关断，则可将噪声估计216a(ns_est)预设到默认值。

使用噪声估计216a代替SNR信息218的一个优点在于：噪声估计可逐帧地相对稳定。噪声估计216a仅估计背景噪声电平，其趋向于相对恒定历时长时期。在一个配置中，噪声估计216a可用以针对特定帧确定SNR218。与此对比，SNR218可为逐帧度量，其可取决于瞬时话音能量而包含相对大的摆幅，例如，SNR可在静音帧与作用中语音帧之间摆动达许多dB。因此，如果SNR信息218用于分类，则可在输入语音212a的一个以上帧上对SNR信息218求平均值。噪声估计216a的相对稳定性可用于区别高噪声情形与完全静音帧。甚至在零噪声中，SNR218在其中扬声器未通话的帧中仍可能极低，且因此，可在所述帧中激活使用SNR信息218的模式决策逻辑。除非周围噪声条件改变，否则噪声估计216a可相对恒定，借此避免问题。

话音活动检测器204a可将针对当前语音帧的话音活动信息220a输出到语音分类器210a，即，基于输出语音214a、噪声估计216a及SNR信息218。话音活动信息输出220a指示当前语音为作用中还是非作用中。在一个配置中，话音活动信息输出220a可为二元的，即，作用中或非作用中。在另一配置中，话音活动信息输出220a可为多值的。话音活动信息参数220a在本文中被称作vad。

LPC分析器206a将针对当前输出语音的LPC反射系数222a输出到语音分类器210a。LPC分析器206a也可输出例如LPC系数(未图示)等其它参数。LPC反射系数参数222a在本文中被称作refl。

开放回路音高估计器208a将正规化自动相关系数函数(NACF)值224a及音高周围NACF值226a输出到语音分类器210a。NACF参数224a在后文中被称作nacf，且音高周围NACF参数226a在后文中被称作nacf_at_pitch。更具周期性的语音信号产生nacf_at_pitch226a的较高值。nacf_at_pitch226a的较高值更可能与平稳话音输出语音类型相关联。语音分类器210a维持可基于子帧计算的nacf_at_pitch值226a的阵列。在一个配置中，通过每帧测量两个子帧而针对输出语音214a的每一帧来测量两个开放回路音高估计。可根据针对每一子帧的开放回路音高估计来计算音高周围NACF(nacf_at_pitch)226a。在一个配置中，nacf_at_pitch值226a的五维阵列(即，nacf_at_pitch[4])含有输出语音214a的二又二分之一个帧的值。nacf_at_pitch阵列是针对输出语音214a的每一帧更新。nacf_at_pitch参数226a的阵列的使用向语音分类器210a提供使用当前、过去及先行(未来)信号信息以制订更准确且噪声稳健的语音模式决策的能力。

除了从外部组件输入到语音分类器210a的信息以外，语音分类器210a也从输出语音214a在内部产生经导出参数282a以供语音模式决策制订过程中使用。

在一个配置中，语音分类器210a在内部产生过零率参数228a(在后文中被称作zcr)。当前输出语音214a的zcr参数228a被定义为每语音帧的语音信号的正负号改变的数目。在浊音语音中，zcr值228a低，而清音语音(或噪声)具有高zcr值228a，因为信号极随机。zcr参数228a由语音分类器210a使用以分类浊音及清音语音。

在一个配置中，语音分类器210a在内部产生当前帧能量参数230a(在后文中被称作E)。E230a可由语音分类器210a使用以通过比较当前帧中的能量与过去及未来帧中的能量来识别暂态语音。参数vEprev为从E230a所导出的先前帧能量。

在一个配置中，语音分类器210a在内部产生先行帧能量参数232a(在后文中被称作Enext)。Enext232a可含有来自当前帧的一部分及下一输出语音帧的一部分的能量值。在一个配置中，Enext232a表示当前帧的第二半部中的能量及下一输出语音帧的第一半部中的能量。Enext232a由语音分类器210a使用以识别转变语音。在语音结束时，相比于当前帧的能量230a，下一帧的能量232a显著地下降。语音分类器210a可比较当前帧的能量230a与下一帧的能量232a以识别语音的结束及语音条件的开始，或上行暂态及下行暂态语音模式。

在一个配置中，语音分类器210a在内部产生频带能量比率参数234a(被定义为log2(EL/EH))，其中EL为从0kHz到2kHz的低频带当前帧能量，且EH为从2kHz到4kHz的高频带当前帧能量。频带能量比率参数234a在后文中被称作bER。bER234a参数允许语音分类器210a识别浊音语音及清音语音模式，这是因为：一般来说，浊音语音将能量集中于低频带中，而有噪声清音语音将能量集中于高频带中。

在一个配置中，语音分类器210a从输出语音214a在内部产生三帧平均浊音能量参数236a(在后文中被称作vEav)。在其它配置中，vEav236a可在除了三个以外的数目个帧上求平均值。如果当前语音模式为作用中及浊音，则vEav236a计算输出语音的最后三个帧中的能量的流动平均值。相比于单独的单帧能量计算，对输出语音的最后三个帧中的能量求平均值会向语音分类器210a提供更稳定的统计，所述统计将作为语音模式决策的基础。vEav236a由语音分类器210a使用以分类话音语音的结束或下行暂态模式，这是因为：当语音已停止时，相比于平均话音能量236a(vEav)，当前帧能量230a(E)将显著地下降。仅在当前帧为浊音或复位到清音或非作用中语音的固定值时才更新vEav236a。在一个配置中，固定复位值为0.01。

在一个配置中，语音分类器210a在内部产生先前三帧平均浊音能量参数238a(在后文中被称作vEprev)。在其它配置中，vEprev238a可在除了三个以外的数目个帧上求平均值。vEprev238a由语音分类器210a使用以识别转变语音。在语音开始时，相比于先前三个浊音帧的平均能量238a，当前帧的能量230a显著地上升。语音分类器210可比较当前帧的能量230a与先前三个帧的能量238a以识别语音条件的开始，或上行暂态及语音模式。相似地，在浊音语音结束时，当前帧的能量230a显著地下降。因此，vEprev238a也可用以分类在语音结束时的转变。

在一个配置中，语音分类器210a在内部产生当前帧能量对先前三帧平均浊音能量比率参数240a(被定义为10*log10(E/vEprev))。在其它配置中，vEprev238a可在除了三个以外的数目个帧上求平均值。当前能量对先前三帧平均浊音能量比率参数240a在后文中被称作vER。vER240a由语音分类器210a使用以分类浊音语音的开始及浊音语音的结束，或上行暂态模式及下行暂态模式，因为vER240a在语音已再次开始时大且在浊音语音结束时小。vER240a参数可结合vEprev238a参数而用于分类暂态语音。

在一个配置中，语音分类器210a在内部产生当前帧能量对三帧平均浊音能量参数242a(被定义为MIN(20，10*log10(E/vEav)))。当前帧能量对三帧平均浊音能量242a在后文中被称作vER2。vER2242a由语音分类器210a使用以分类在浊音语音结束时的暂态话音模式。

在一个配置中，语音分类器210a在内部产生最大子帧能量索引参数244a。语音分类器210a将输出语音214a的当前帧均匀地划分成子帧，且计算每一子帧的均方根(RMS)能量值。在一个配置中，将当前帧划分成十个子帧。最大子帧能量索引参数为针对在当前帧中或在当前帧的第二半部中具有最大RMS能量值的子帧的索引。最大子帧能量索引参数244a在后文中被称作maxsfe_idx。将当前帧划分成子帧会向语音分类器210a提供关于帧内的峰值能量的位置(包含最大峰值能量的位置)的信息。通过将帧划分成更多子帧来实现更大分辨率。maxsfe_idx参数244a是结合其它参数而由语音分类器210a使用以分类暂态语音模式，这是因为：清音或静音语音模式的能量大体上稳定，而在暂态语音模式中能量提升或递减。

语音分类器210a可使用直接地从编码组件输入的参数及在内部产生的参数，以比先前可能的分类更准确且稳健地分类语音模式。语音分类器210a可将决策制订过程应用于直接输入的参数及在内部产生的参数以产生改进型语音分类结果。下文参看图4A到4C及表4到6来详细地描述决策制订过程。

在一个配置中，由语音分类器210输出的语音模式包括：暂态模式、上行暂态模式、下行暂态模式、浊音模式、清音模式及静音模式。暂态模式为最佳地用全速率CELP编码的浊音但较不具周期性的语音。上行暂态模式为最佳地用全速率CELP编码的在作用中语音中的第一浊音帧。下行暂态模式为最佳地用半速率CELP编码的通常在言语结束时的低能量浊音语音。浊音模式为主要包括元音的高度周期性浊音语音。浊音模式语音可以全速率、半速率、四分之一速率或八分之一速率编码。用于编码浊音模式语音的数据速率经选择成满足平均数据速率(ADR)要求。主要包括辅音的清音模式最佳地用四分之一速率噪声激励线性预测(NELP)编码。静音模式为最佳地用八分之一CELP编码的非作用中语音。

合适参数及语音模式不限于所揭示配置的特定参数及语音模式。在不脱离所揭示配置的范围的情况下，可使用额外参数及语音模式。

图2B为说明可使用噪声稳健语音译码模式分类的另一分类器系统200b的框图。图2B的分类器系统200b可驻存于图1所说明的编码器中。在另一配置中，分类器系统200b可独立，从而将语音分类模式输出提供到例如图1所说明的编码器的装置。图2B所说明的分类器系统200b可包含对应于图2A所说明的分类器系统200a的元件。具体来说，图2B所说明的LPC分析器206b、开放回路音高估计器208b及语音分类器210b可分别对应于图2A所说明的LPC分析器206a、开放回路音高估计器208a及语音分类器210a且分别包含与图2A所说明的LPC分析器206a、开放回路音高估计器208a及语音分类器210a相似的功能性。相似地，图2B中的语音分类器210b输入(话音活动信息220b、反射系数222b、NACF224b及音高周围NACF226b)可分别对应于图2A中的语音分类器210a输入(话音活动信息220a、反射系数222a、NACF224a及音高周围NACF226a)。相似地，图2B中的经导出参数282b(zcr228b、E230b、Enext232b、bER234b、vEav236b、vEprev238b、vER240b、vER2242b及maxsfe_idx244b)可分别对应于图2A中的经导出参数282a(zcr228a、E230a、Enext232a、bER234a、vEav236a、vEprev238a、vER240a、vER2242a及maxsfe_idx244a)。

在图2B中，不包含噪声抑制器。在一个配置中，图2B的语音分类设备可使用增强型话音服务(EVS)CODEC。图2B的设备可从在语音编解码器外部的噪声抑制组件接收输入语音帧212b。或者，可不执行噪声抑制。因为不包含噪声抑制器202，所以噪声估计(ns_est)216b可由话音活动检测器204a确定。虽然图2A到2B描述噪声估计216b分别由噪声抑制器202及话音活动检测器204b确定的两个配置，但噪声估计216a到216b可通过任何合适模块(例如，通用噪声估计器(未图示))确定。

图3为说明噪声稳健语音分类的方法300的流程图。在步骤302中，针对每一经噪声抑制输出语音帧来处理从外部组件输入的分类参数。在一个配置(例如，图2A所说明的分类器系统200a)中，从外部组件输入的分类参数包括从噪声抑制器组件202输入的ns_est216a及t_in214a、从开放回路音高估计器组件208a输入的nacf224a及nacf_at_pitch226a参数、从话音活动检测器组件204a输入的vad220a，及从LPC分析组件206a输入的refl222a。或者，可从不同模块(例如，如图2B所说明的话音活动检测器204b)输入ns_est216b。t_in214a到214b输入可为如图2A中来自噪声抑制器202的输出语音帧214a，或如图2B中的212b的输入帧。控制流程进行到步骤304。

在步骤304中，根据从外部组件输入的分类参数来计算额外的在内部产生的经导出参数282a到282b。在一个配置中，根据t_in214a到214b来计算zcr228a到228b、E230a到230b、Enext232a到232b、bER234a到234b、vEav236a到236b、vEprev238a到238b、vER240a到240b、vER2242a到242b及maxsfe_idx244a到244b。当已针对每一输出语音帧计算在内部产生的参数时，控制流程进行到步骤306。

在步骤306中，确定NACF阈值，且根据语音信号的环境来选择参数分析器。在一个配置中，通过比较步骤302中所输入的ns_est参数216a到216b与噪声估计阈值来确定NACF阈值。ns_est信息216a到216b可提供周期性决策阈值的自适应控制。以此方式，在分类过程中针对具有不同噪声分量电平的语音信号而应用不同周期性阈值。当针对每一输出语音帧选择最适于语音信号的噪声电平的NACF或周期性阈值时，此应用可产生相对准确的语音分类决策。确定最适于语音信号的周期性阈值会允许针对语音信号选择最佳参数分析器。或者，如果SNR信息218包含关于多个帧的信息且在不同帧之间相对稳定，则可使用SNR信息218以确定NACF阈值。

清洁语音信号及有噪声语音信号在周期性方面固有地不同。当存在噪声时，存在语音损毁。当存在语音损毁时，周期性或nacf224a到224b的度量低于清洁语音的周期性或nacf224a到224b的度量。因此，NACF阈值经降低以补偿有噪声信号环境或经升高用于清洁信号环境。所揭示系统及方法的语音分类技术可针对不同环境来调整周期性(即，NACF)阈值，从而产生相对准确且稳健的模式决策，而不管噪声电平如何。

在一个配置中，如果ns_est216a到216b的值小于或等于噪声估计阈值，则应用针对清洁语音的NACF阈值。可通过下表来定义针对清洁语音的可能NACF阈值：

针对类型的阈值	阈值名称	阈值
			浊音	VOICEDTH	0.605
转变	LOWVOICEDTH	0.5
			清音	UNVOICEDTH	0.35

表1

然而，取决于ns_est216a到216b的值，可调整各种阈值。举例来说，如果ns_est216a到216b的值大于噪声估计阈值，则可应用针对有噪声语音的NACF阈值。噪声估计阈值可为任何合适值，例如，20dB、25dB，等等。在一个配置中，将噪声估计阈值设定到高于在清洁语音下所观测的阈值且低于在极具噪声的语音中所观测的阈值。可通过下表来定义针对有噪声语音的可能NACF阈值：

针对类型的阈值	阈值名称	阈值
			浊音	VOICEDTH	0.585
转变	LOWVOICEDTH	0.5
			清音	UNVOICEDTH	0.35

表2

在噪声不存在(即，ns_est216a到216b不超过噪声估计阈值)的状况下，可不调整发声阈值。然而，当在输入语音中存在高噪声时，可减低用于将帧分类为“浊音”的发声NACF阈值(反映发声信息的损毁)。换句话说，相比于表1，如在表2中所见，可将用于分类“浊音”语音的发声阈值减低0.2。

替代修改用于分类“浊音”帧的NACF阈值，或除了修改用于分类“浊音”帧的NACF阈值以外，语音分类器210a到210b也可基于ns_est216a到216b的值而调整用于分类“清音”帧的一个或一个以上阈值。可存在基于ns_est216a到216b的值而调整的用于分类“清音”帧的两种类型的NACF阈值：发声阈值及能量阈值。具体来说，可增大用于将帧分类为“清音”的发声NACF阈值(反映在噪声下发声信息的损毁)。举例来说，在高噪声存在的情况下(即，当ns_est216a到216b超过噪声估计阈值时)，“清音”发声NACF阈值可增大0.06，借此使分类器更随意地将帧分类为“清音”。如果使用多帧SNR信息218以代替ns_est216a到216b(低SNR(指示高噪声的存在))，则“清音”发声阈值可增大0.06。可根据表3来给出经调整的发声NACF阈值的实例：

针对类型的阈值	阈值名称	阈值
			浊音	VOICEDTH	0.75
转变	LOWVOICEDTH	0.5
			清音	UNVOICEDTH	0.41

表3

在高噪声存在的情况下(即，当ns_est216a到216b超过噪声估计阈值时)，也可增大用于将帧分类为“清音”的能量阈值(反映“静音”帧的高电平)。举例来说，在高噪声帧中，清音能量阈值可增大10dB，例如，能量阈值可从在清洁语音状况下的一25dB增大到在有噪声状况下的一15dB。增大用于将帧分类为“清音”的发声阈值及能量阈值可使得更容易地(即，更随意地)在噪声估计变得越来越高(或SNR变得越来越低)时将帧分类为清音。可通过基于输入噪声估计而在“清洁”设定(表1)与“噪声”设定(表2及/或表3)之间内插来调整针对中间噪声帧的阈值(例如，当ns_est216a到216b不超过噪声估计阈值但高于最小噪声度量时)。或者，可针对一些中间噪声估计来定义硬阈值集合。

可独立于“清音”发声阈值及能量阈值而调整“浊音”发声阈值。举例来说，可调整“浊音”发声阈值，但不可调整“清音”发声阈值及能量阈值两者。或者，可调整“清音”发声阈值及能量阈值中的一者或两者，但可不调整“浊音”发声阈值。或者，可用“清音”发声阈值及能量阈值中的仅一者来调整“浊音”发声阈值。

有噪声语音与经添加有噪声的清洁语音相同。在自适应周期性阈值控制的情况下，稳健语音分类技术可比先前可能的技术更可能产生针对清洁语音及有噪声语音的等同分类决策。当已针对每一帧设定nacf阈值时，控制流程进行到步骤308。

在步骤308中，至少部分地基于噪声估计而确定语音模式分类246a到246b。将根据信号环境而选择的状态机或任何其它分析方法应用于参数。在一个配置中，将从外部组件输入的参数及在内部产生的参数应用于参看图4A到4C及表4到6详细地描述的以状态为基础的模式决策制订过程。所述决策制订过程产生语音模式分类。在一个配置中，产生暂态、上行暂态、下行暂态、浊音、清音或静音的语音模式分类246a到246b。当已产生语音模式决策246a到246b时，控制流程进行到步骤310。

在步骤310中，更新状态变量及各种参数以包含当前帧。在一个配置中，更新vEav236a到236b、vEprev238a到238b，及当前帧的浊音状态。更新当前帧能量E230a到230b、nacf_at_pitch226a到226b及当前帧语音模式246a到246b以用于分类下一帧。可针对每一语音帧重复步骤302到310。

图4A到4C说明用于噪声稳健语音分类的模式决策制订过程的配置。决策制订过程基于语音帧的周期性而选择用于语音分类的状态机。对于每一语音帧，通过比较语音帧周期性度量(即，nacf_at_pitch值226a到226b)与图3的步骤304中所设定的NACF阈值而针对决策制订过程来选择与语音帧的周期性或噪声分量最兼容的状态机。语音帧的周期性水平限制及控制模式决策程序的状态转变，从而产生更稳健的分类。

图4A说明当vad220a到220b为1(存在作用中语音)且nacf_at_pitch226a到226b的第三值(即，nacf_at_pitch[2]，编入零索引)极高或大于VOICEDTH时在一个配置中选择的状态机的一个配置。VOICEDTH在图3的步骤306中定义。表4说明通过每一状态评估的参数：

表4

根据一个配置，表4说明通过每一状态评估的参数，且当nacf_at_pitch226a到226b的第三值(即，nacf_at_pitch[2])极高或大于VOICEDTH时状态转变。表4所说明的决策表由图4A所描述的状态机使用。最左列中展示先前语音帧的语音模式分类246a到246b。当如与每一先前模式相关联的行所示来确定参数的值时，语音模式分类转变到相关联列的顶行中所识别的当前模式。

初始状态为静音450a。如果vad=0(即，不存在话音活动)，则将总是将当前帧分类为静音450a，而不管先前状态。

当先前状态为静音450a时，可将当前帧分类为清音452a或上行暂态460a。如果nacf_at_pitch[3]极低、zcr228a到228b高、bER234a到234b低且vER240a到240b极低，或如果满足这些条件的组合，则将当前帧分类为清音452a。否则，分类默认到上行暂态460a。

当先前状态为清音452a时，可将当前帧分类为清音452a或上行暂态460a。如果nacf224a到224b极低、nacf_at_pitch[3]极低、nacf_at_pitch[4]极低、zcr228a到228b高、bER234a到234b低、vER240a到240b极低且E230a到230b小于vEprev238a到238b，或如果满足这些条件的组合，则当前帧保持分类为清音452a。否则，分类默认到上行暂态460a。

当先前状态为浊音456a时，可将当前帧分类为清音452a、暂态454a、下行暂态458a或浊音456a。如果vER240a到240b极低且E230a小于vEprev238a到238b，则将当前帧分类为清音452a。如果nacf_at_pitch[1]及nacf_at_pitch[3]低、E230a到230b大于vEprev238a到238b的一半或满足这些条件的组合，则将当前帧分类为暂态454a。如果vER240a到240b极低且nacf_at_pitch[3]具有中等值，则将当前帧分类为下行暂态458a。否则，当前分类默认到浊音456a。

当先前状态为暂态454a或上行暂态460a时，可将当前帧分类为清音452a、暂态454a、下行暂态458a或浊音456a。如果vER240a到240b极低且E230a到230b小于vEprev238a到238b，则将当前帧分类为清音452a。如果nacf_at_pitch[1]低、nacf_at_pitch[3]具有中等值、nacf_at_pitch[4]低且先前状态不为暂态454a，或如果满足这些条件的组合，则将当前帧分类为暂态454a。如果nacf_at_pitch[3]具有中等值且E230a到230b小于vEav236a到236b的0.05倍，则将当前帧分类为下行暂态458a。否则，当前分类默认到浊音456a到456b。

当先前帧为下行暂态458a时，可将当前帧分类为清音452a、暂态454a或下行暂态458a。如果vER240a到240b极低，则当前帧将分类为清音452a。如果E230a到230b大于vEprev238a到238b，则当前帧将分类为暂态454a。否则，当前分类保持下行暂态458a。

图4B说明当vad220a到220b为1(存在作用中语音)且nacf_at_pitch226a到226b的第三值极低或小于UNVOICEDTH时在一个配置中所选择的状态机的一个配置。UNVOICEDTH在图3的步骤306中定义。表5说明通过每一状态评估的参数。

表5

根据一个配置，表5说明通过每一状态评估的参数，且当第三值(即，nacf_at_pitch[2])极低或小于UNVOICEDTH时状态转变。表5所说明的决策表由图4B所描述的状态机使用。最左列中展示先前语音帧的语音模式分类246a到246b。当如与每一先前模式相关联的行所示来确定参数的值时，语音模式分类转变到相关联列的顶行中所识别的当前模式246a到246b。

初始状态为静音450b。如果vad=0(即，不存在话音活动)，则将总是将当前帧分类为静音450b，而不管先前状态。

当先前状态为静音450b时，可将当前帧分类为清音452b或上行暂态460b。如果nacf_at_pitch[2-4]展示增大趋势、nacf_at_pitch[3-4]具有中等值、zcr228a到228b极低到中等、bER234a到234b高且vER240a到240b具有中等值，或如果满足这些条件的组合，则将当前帧分类为上行暂态460b。否则，分类默认到清音452b。

当先前状态为清音452b时，可将当前帧分类为清音452b或上行暂态460b。如果nacf_at_pitch[2-4]展示增大趋势、nacf_at_pitch[3-4]具有中等到极高值、zcr228a到228b极低或中等、vER240a到240b不低、bER234a到234b高、refl222a到222b低、nacf224a到224b具有中等值且E230a到230b大于vEprev238a到238b，或如果满足这些条件的组合，则将当前帧分类为上行暂态460b。这些条件的组合及阈值可取决于如在参数ns_est216a到216b(或可能地为多帧平均SNR信息218)中所反映的语音帧的噪声电平而变化。否则，分类默认到清音452b。

当先前状态为浊音456b、上行暂态460b或暂态454b时，可将当前帧分类为清音452b、暂态454b或下行暂态458b。如果bER234a到234b小于或等于零、vER240a极低、bER234a到234b大于零且E230a到230b小于vEprev238a到238b，或如果满足这些条件的组合，则将当前帧分类为清音452b。如果bER234a到234b大于零、nacf_at_pitch[2-4]展示增大趋势、zcr228a到228b不高、vER240a到240b不低、refl222a到222b低、nacf_at_pitch[3]及nacf224a到224b中等且bER234a到234b小于或等于零，或如果满足这些条件的某一组合，则将当前帧分类为暂态454b。这些条件的组合及阈值可取决于如在参数ns_est216a到216b中所反映的语音帧的噪声电平而变化。如果bER234a到234b大于零、nacf_at_pitch[3]中等、E230a到230b小于vEprev238a到238b、zcr228a到228b不高且vER2242a到242b小于负十五，则将当前帧分类为下行暂态458a到458b。

当先前帧为下行暂态458b时，可将当前帧分类为清音452b、暂态454b或下行暂态458b。如果nacf_at_pitch[2-4]展示增大趋势、nacf_at_pitch[3-4]适度地高、vER240a到240b不低且E230a到230b大于vEprev238a到238b的两倍，或如果满足这些条件的组合，则当前帧将分类为暂态454b。如果vER240a到240b不低且zcr228a到228b低，则当前帧将分类为下行暂态458b。否则，当前分类默认到清音452b。

图4C说明当vad220a到220b为1(存在作用中语音)且nacf_at_pitch226a到226b的第三值(即，nacf_at_pitch[3])中等(即，大于UNVOICEDTH且小于VOICEDTH)时在一个配置中所选择的状态机的一个配置。UNVOICEDTH及VOICEDTH在图3的步骤306中定义。表6说明通过每一状态评估的参数。

表6

根据一个实施例，表6说明通过每一状态评估的参数，且当nacf_at_pitch226a到226b的第三值(即，nacf_at_pitch[3])中等(即，大于UNVOICEDTH但小于VOICEDTH)时状态转变。表6所说明的决策表由图4C所描述的状态机使用。最左列中展示先前语音帧的语音模式分类。当如与每一先前模式相关联的行所示来确定参数的值时，语音模式分类246a到246b转变到相关联列的顶行中所识别的当前模式246a到246b。

初始状态为静音450c。如果vad=0(即，不存在话音活动)，则将总是将当前帧分类为静音450c，而不管先前状态。

当先前状态为静音450c时，可将当前帧分类为清音452c或上行暂态460c。如果nacf_at_pitch[2-4]展示增大趋势、nacf_at_pitch[3-4]中等到高、zcr228a到228b不高、bER234a到234b高、vER240a到240b具有中等值、zcr228a到228b极低且E230a到230b大于vEprev238a到238b的两倍，或如果满足这些条件的某一组合，则将当前帧分类为上行暂态460c。否则，分类默认到清音452c。

当先前状态为清音452c时，可将当前帧分类为清音452c或上行暂态460c。如果nacf_at_pitch[2-4]展示增大趋势、nacf_at_pitch[3-4]具有中等到极高值、zcr228a到228b不高、vER240a到240b不低、bER234a到234b高、refl222a到222b低、E230a到230b大于vEprev238a到238b、zcr228a到228b极低、nacf224a到224b不低、maxsfe_idx244a到244b指向最后子帧且E230a到230b大于vEprev238a到238b的两倍，或如果满足这些条件的组合，则将当前帧分类为上行暂态460c。这些条件的组合及阈值可取决于如在参数ns_est216a到216b(或可能地为多帧平均SNR信息218)中所反映的语音帧的噪声电平而变化。否则，分类默认到清音452c。

当先前状态为浊音456c、上行暂态460c或暂态454c时，可将当前帧分类为清音452c、浊音456c、暂态454c、下行暂态458c。如果bER234a到234b小于或等于零、vER240a到240b极低、Enext232a到232b小于E230a到230b、nacf_at_pitch[3-4]极低、bER234a到234b大于零且E230a到230b小于vEprev238a到238b，或如果满足这些条件的某一组合，则将当前帧分类为清音452c。如果bER234a到234b大于零、nacf_at_pitch[2-4]展示增大趋势、zcr228a到228b不高、vER240a到240b不低、refl222a到222b低、nacf_at_pitch[3]及nacf224a到224b不低，或如果满足这些条件的组合，则将当前帧分类为暂态454c。这些条件的组合及阈值可取决于如在参数ns_est216a到216b(或可能地为多帧平均SNR信息218)中所反映的语音帧的噪声电平而变化。如果bER234a到234b大于零、nacf_at_pitch[3]不高、E230a到230b小于vEprev238a到238b、zcr228a到228b不高、vER240a到240b小于负十五且vER2242a到242b小于负十五，或如果满足这些条件的组合，则将当前帧分类为下行暂态458c。如果nacf_at_pitch[2]大于LOWVOICEDTH、bER234a到234b大于或等于零且vER240a到240b不低，或如果满足这些条件的组合，则将当前帧分类为浊音456c。

当先前帧为下行暂态458c时，可将当前帧分类为清音452c、暂态454c或下行暂态458c。如果bER234a到234b大于零、nacf_at_pitch[2-4]展示增大趋势、nacf_at_pitch[3-4]适度地高、vER240a到240b不低且E230a到230b大于vEprev238a到238b的两倍，或如果满足这些条件的某一组合，则当前帧将分类为暂态454c。如果vER240a到240b不低且zcr228a到228b低，则当前帧将分类为下行暂态458c。否则，当前分类默认到清音452c。

图5为说明用于调整用于分类语音的阈值的方法500的流程图。经调整阈值(例如，NACF或周期性阈值)接着可用于(例如)图3所说明的噪声稳健语音分类的方法300中。方法500可由图2A到2B所说明的语音分类器210a到210b执行。

可在语音分类器210a到210b处接收(502)输入语音的噪声估计(例如，ns_est216a到216b)。噪声估计可基于多个输入语音帧。或者，可使用多帧SNR信息218的平均值以代替噪声估计。在多个帧上相对稳定的任何合适噪声量度可用于方法500中。语音分类器210a到210b可确定(504)噪声估计是否超过噪声估计阈值。或者，语音分类器210a到210b可确定多帧SNR信息218是否未能超过多帧SNR阈值。如果否，则语音分类器210a到210b可不(506)调整用于将语音分类为“浊音”或“清音”的任何NACF阈值。然而，如果噪声估计超过噪声估计阈值，则语音分类器210a到210b也可确定(508)是否调整清音NACF阈值。如果否，则可不(510)调整清音NACF阈值，即，可不调整用于将帧分类为“清音”的阈值。如果是，则语音分类器210a到210b可增大(512)清音NACF阈值，即，增大用于将当前帧分类为清音的发声阈值且增大用于将当前帧分类为清音的能量阈值。增大用于将帧分类为“清音”的发声阈值及能量阈值可使得更容易地(即，更随意地)在噪声估计变得越来越高(或SNR变得越来越低)时将帧分类为清音。语音分类器210a到210b也可确定(514)是否调整浊音NACF阈值(或者，可调整频谱倾斜或暂态检测或过零率阈值)。如果否，则语音分类器210a到210b可不(516)调整用于将帧分类为“浊音”的发声阈值，即，可不调整用于将帧分类为“浊音”的阈值。如果是，则语音分类器210a到210b可减低(518)用于将当前帧分类为“浊音”的发声阈值。因此，可彼此独立地调整用于将语音帧分类为“浊音”或“清音”的NACF阈值。举例来说，取决于在清洁(无噪声)状况下如何调谐分类器610，可独立地调整“浊音”或“清音”阈值中的仅一者，即，状况可为，“清音”分类对噪声更加敏感。另外，错误分类“浊音”帧的损失可大于错误分类“清音”帧的损失(在质量及位速率两个方面)。

图6为说明用于噪声稳健语音分类的语音分类器610的框图。语音分类器610可对应于图2A到2B所说明的语音分类器210a到210b，且可执行图3所说明的方法300或图5所说明的方法500。

语音分类器610可包含经接收参数670。此可包含经接收语音帧(t_in)672、SNR信息618、噪声估计(ns_est)616、话音活动信息(vad)620、反射系数(refl)622、NACF624及音高周围NACF(nacf_at_pitch)626。可从例如图2A到2B所说明的模块的各种模块接收这些参数670。举例来说，经接收语音帧(t_in)672可为来自图2A所说明的噪声抑制器202的输出语音帧214a，或如图2b所说明的输入语音212b自身。

参数导出模块674也可确定经导出参数682的集合。具体来说，参数导出模块674可确定过零率(zcr)628、当前帧能量(E)630、先行帧能量(Enext)632、频带能量比率(bER)634、三帧平均浊音能量(vEav)636、先前帧能量(vEprev)638、当前能量对先前三帧平均浊音能量比率(vER)640、当前帧能量对三帧平均浊音能量(vER2)642及最大子帧能量索引(maxsfe_idx)644。

噪声估计比较器678可比较经接收噪声估计(ns_est)616与噪声估计阈值676。如果噪声估计(ns_est)616不超过噪声估计阈值676，则可不调整NACF阈值684的集合。然而，如果噪声估计(ns_est)616超过噪声估计阈值676(指示高噪声的存在)，则可调整NACF阈值684中的一者或一者以上。具体来说，可减低用于分类“浊音”帧的发声阈值686，可增大用于分类“清音”帧的发声阈值688，可增大用于分类“清音”帧的能量阈值690，或调整的某一组合。或者，代替于比较噪声估计(ns_est)616与噪声估计阈值676，噪声估计比较器可比较SNR信息618与多帧SNR阈值680以确定是否调整NACF阈值684。在所述配置中，如果SNR信息618未能超过多帧SNR阈值680，则可调整NACF阈值684，即，当SNR信息618下降到低于最小水平而因此指示高噪声的存在时，可调整NACF阈值684。横越多个帧相对稳定的任何合适噪声量度可由噪声估计比较器678使用。

如上文所描述且如图4A到4C及表4到6所说明，分类器状态机692接着可经选择且用以至少部分地基于经导出参数682而确定语音模式分类646。

图7为说明具有相关联参数值及语音模式分类746的经接收语音信号772的一个配置的时间线曲线图。具体来说，图7说明本发明的系统及方法的一个配置，其中语音模式分类746是基于各种经接收参数670及经导出参数682而选择。每一信号或参数在图7中经说明为随着时间而变。

举例来说，展示音高周围NACF的第三值(nacf_at_pitch[2])794、音高周围NACF的第四值(nacf_at_pitch[3])795及音高周围NACF的第五值(nacf_at_pitch[4])796。另外，也展示当前能量对先前三帧平均浊音能量比率(vER)740、频带能量比率(bER)734、过零率(zcr)728及反射系数(refl)722。基于所说明信号，可将经接收语音772分类为时间0周围的静音、时间4周围的清音、时间9周围的暂态、时间10周围的浊音及时间25周围的下行暂态。

图8说明可包含于电子装置/无线装置804内的某些组件。电子装置/无线装置804可为接入终端、移动台、用户设备(UE)、基站、接入点、广播发射器、节点B、演进型节点B，等等。电子装置/无线装置804包含处理器803。处理器803可为通用单芯片或多芯片微处理器(例如，ARM)、专用微处理器(例如，数字信号处理器(DSP))、微控制器、可编程门阵列，等等。处理器803可被称作中央处理单元(CPU)。尽管在图8的电子装置/无线装置804中展示仅单一处理器803，但在替代配置中，可使用处理器的组合(例如，ARM及DSP)。

电子装置/无线装置804还包含存储器805。存储器805可为能够存储电子信息的任何电子组件。存储器805可体现为随机存取存储器(RAM)、只读存储器(ROM)、磁盘存储媒体、光学存储媒体、RAM中的快闪存储器装置、与处理器一起包含的机上存储器、EPROM存储器、EEPROM存储器、寄存器，等等(包含其组合)。

数据807a及指令809a可存储于存储器805中。可通过处理器803执行指令809a以实施本文所揭示的方法。执行指令809a可涉及使用存储于存储器805中的数据807a。当处理器803执行指令809a时，指令809b的各种部分可加载到处理器803上，且数据807b的各种片段可加载到处理器803上。

电子装置/无线装置804还可包含发射器811及接收器813以允许将信号发射到电子装置/无线装置804及从电子装置/无线装置804接收信号。发射器811及接收器813可被共同地称作收发器815。多个天线817a到817b可电耦合到收发器815。电子装置/无线装置804也可包含(未图示)多个发射器、多个接收器、多个收发器及/或额外天线。

电子装置/无线装置804可包含数字信号处理器(DSP)821。电子装置/无线装置804也可包含通信接口823。通信接口823可允许用户与电子装置/无线装置804互动。

电子装置/无线装置804的各种组件可通过一个或一个以上总线耦合在一起，所述一个或一个以上总线可包含电力总线、控制信号总线、状态信号总线、数据总线，等等。为了清晰起见，在图8中将各种总线说明为总线系统819。

本文所描述的技术可用于各种通信系统，包含基于正交多路复用方案的通信系统。这些通信系统的实例包含正交频分多址(OFDMA)系统、单载波频分多址(SC-FDMA)系统，等等。OFDMA系统利用正交频分多路复用(OFDM)，OFDM为将整个系统带宽分割成多个正交副载波的调制技术。这些副载波也可被称为音调、频率区间，等等。在OFDM的情况下，可用数据来独立地调制每一副载波。SC-FDMA系统可利用交错式FDMA(IFDMA)以在横越系统带宽而分布的副载波上发射、利用局部化FDMA(LFDMA)以在邻近副载波的块上发射，或利用增强型FDMA(EFDMA)以在邻近副载波的多个块上发射。一般来说，在OFDM的情况下在频域中发送调制符号，且在SC-FDMA的情况下在时域中发送调制符号。

术语“确定”涵盖广泛种类的动作，且因此，“确定”可包含运算、计算、处理、导出、调查、查找(例如，在表、数据库或另一数据结构中查找)、查明及其类似者。又，“确定”可包含接收(例如，接收信息)、存取(例如，存取存储器中的数据)及其类似者。又，“确定”可包含解析、选择、挑选、建立及其类似者。

除非另有明确指定，否则短语“基于”不意味着“仅基于”。换句话说，短语“基于”描述“仅基于”及“至少基于”两者。

应将术语“处理器”广泛地解释为涵盖通用处理器、中央处理单元(CPU)、微处理器、数字信号处理器(DSP)、控制器、微控制器、状态机，等等。在一些情况下，“处理器”可指代专用集成电路(ASIC)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)，等等。术语“处理器”可指代处理装置的组合，例如，DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器，或任何其它此类配置。

应将术语“存储器”广泛地解释为涵盖能够存储电子信息的任何电子组件。术语“存储器”可指代各种类型的处理器可读媒体，例如，随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除PROM(EEPROM)、快闪存储器、磁性或光学数据存储装置、寄存器，等等。如果处理器可从存储器读取信息及/或将信息写入到存储器，则将存储器称为与处理器进行电子通信。与处理器成整体的存储器是与处理器进行电子通信。

应将术语“指令”及“代码”广泛地解释为包含任何类型的计算机可读语句。举例来说，术语“指令”及“代码”可指代一个或一个以上程序、例程、子例程、函数、过程，等等。“指令”及“代码”可包括单一计算机可读语句或许多计算机可读语句。

可以通过硬体执行的软件或固件来实施本文所描述的功能。所述功能可作为一个或一个以上指令而存储于计算机可读媒体上。术语“计算机可读媒体”或“计算机程序产品”指代可由计算机或处理器存取的任何有形存储媒体。通过实例而非限制，计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置，或可用以携载或存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。如本文所使用，磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘及光盘，其中磁盘通常以磁性方式再生数据，而光盘用激光以光学方式再生数据。

本文所揭示的方法包括用于实现所描述方法的一个或一个以上步骤或动作。方法步骤及/或动作可在不脱离权利要求书的范围的情况下彼此互换。换句话说，除非为了所描述的方法的适当操作而需要步骤或动作的特定次序，否则可在不脱离权利要求书的范围的情况下修改特定步骤及/或动作的次序及／或使用。

另外，应了解，可通过装置下载及/或以其它方式获得用于执行本文所描述的方法及技术(例如，由图3及5所说明的方法及技术)的模块及/或其它适当装置。举例来说，可将装置耦合到服务器以促进用于执行本文所描述的方法的装置的传送。或者，可经由存储装置(例如，随机存取存储器(RAM)、只读存储器(ROM)、例如压缩光盘(CD)或软磁盘的物理存储媒体，等等)而提供本文所描述的各种方法，使得在将所述存储装置耦合或提供到装置后，所述装置可即刻获得所述各种方法。

应理解，权利要求书不限于上文所说明的精确配置及组件。在不脱离权利要求书的范围的情况下，可在本文所描述的系统、方法及设备的布置、操作及细节方面进行各种修改、改变及变化。

Claims

1.一种噪声稳健语音分类的方法，其包括：

将分类参数从外部组件输入到语音分类器；

在所述语音分类器中从输入分类参数中的至少一者产生内部分类参数；

基于比较多个输入语音帧的噪声估计与噪声估计阈值而设定至少一个正规化自动相关系数函数NACF阈值，其中设定所述至少一个正规化自动相关系数函数NACF阈值包含：

当信噪比SNR未超过第一SNR阈值时增大用于将当前帧分类为清音的第一发声阈值，其中如果所述SNR大于所述第一SNR阈值，则不调整所述第一发声阈值；以及

当所述噪声估计超过噪声估计阈值时增大用于将所述当前帧分类为清音的能量阈值，其中如果所述噪声估计小于所述噪声估计阈值时，则不调整所述能量阈值；及

基于所述第一发声阈值和所述能量阈值确定语音模式分类。

2.根据权利要求1所述的方法，其中设定所述至少一个正规化自动相关系数函数NACF阈值进一步包括在所述SNR未超过第二SNR阈值时减低用于将当前帧分类为浊音的第二发声阈值，其中如果所述SNR大于所述第二SNR阈值，则不调整所述第二发声阈值。

3.根据权利要求1所述的方法，其中所述内部分类参数是针对经噪声抑制语音信号的每一帧而产生。

4.根据权利要求1所述的方法，其中所述输入分类参数包括话音活动信息。

5.根据权利要求1所述的方法，其中所述输入分类参数包括线性预测反射系数。

6.根据权利要求1所述的方法，其中所述输入分类参数包括正规化自动相关系数函数信息。

7.根据权利要求1所述的方法，其中所述输入分类参数包括音高处正规化自动相关系数函数信息。

8.根据权利要求7所述的方法，其中所述音高处正规化自动相关系数函数信息为值阵列。

9.根据权利要求1所述的方法，其中所述内部分类参数包括过零率参数。

10.根据权利要求1所述的方法，其中所述内部分类参数包括当前帧能量参数。

11.根据权利要求1所述的方法，其中所述内部分类参数包括先行帧能量参数。

12.根据权利要求1所述的方法，其中所述内部分类参数包括频带能量比率参数。

13.根据权利要求1所述的方法，其中所述内部分类参数包括三帧平均浊音能量参数。

14.根据权利要求1所述的方法，其中所述内部分类参数包括先前三帧平均浊音能量参数。

15.根据权利要求1所述的方法，其中所述内部分类参数包括当前帧能量对先前三帧平均浊音能量比率参数。

16.根据权利要求1所述的方法，其中所述内部分类参数包括当前帧能量对三帧平均浊音能量参数。

17.根据权利要求1所述的方法，其中所述内部分类参数包括最大子帧能量索引参数。

18.根据权利要求1所述的方法，其进一步包括通过参数分析器将所述输入分类参数和所述内部分类参数应用于状态机。

19.根据权利要求18所述的方法，其中所述状态机针对每一语音分类模式包括一状态。

20.根据权利要求1所述的方法，其中所述语音模式分类包括暂态模式。

21.根据权利要求1所述的方法，其中所述语音模式分类包括上行暂态模式。

22.根据权利要求1所述的方法，其中所述语音模式分类包括下行暂态模式。

23.根据权利要求1所述的方法，其中所述语音模式分类包括浊音模式。

24.根据权利要求1所述的方法，其中所述语音模式分类包括清音模式。

25.根据权利要求1所述的方法，其中所述语音模式分类包括静音模式。

26.根据权利要求1所述的方法，其进一步包括更新至少一个参数。

27.根据权利要求26所述的方法，其中经更新的参数包括音高处正规化自动相关系数函数参数。

28.根据权利要求26所述的方法，其中经更新的参数包括三帧平均浊音能量参数。

29.根据权利要求26所述的方法，其中经更新的参数包括先行帧能量参数。

30.根据权利要求26所述的方法，其中经更新的参数包括先前三帧平均浊音能量参数。

31.根据权利要求26所述的方法，其中经更新的参数包括话音活动检测参数。

32.一种用于噪声稳健语音分类的设备，其包括：

用于将分类参数从外部组件输入到语音分类器的装置；

用于在所述语音分类器中从输入分类参数中的至少一者产生内部分类参数的装置；

用于基于比较多个输入语音帧的噪声估计与噪声估计阈值而设定至少一个正规化自动相关系数函数NACF阈值的装置，其中用于设定所述至少一个正规化自动相关系数函数NACF阈值的装置包含：

用于当信噪比SNR未超过第一SNR阈值时增大用于将当前帧分类为清音的第一发声阈值的装置，其中如果所述SNR大于所述第一SNR阈值，则不调整所述第一发声阈值；以及

用于当所述噪声估计超过噪声估计阈值时增大用于将所述当前帧分类为清音的能量阈值的装置，其中如果所述噪声估计小于所述噪声估计阈值时，则不调整所述能量阈值；及

用于基于所述第一发声阈值和所述能量阈值确定语音模式分类的装置。

33.根据权利要求32所述的设备，其中用于设定所述至少一个正规化自动相关系数函数NACF阈值的装置进一步包括用于在所述SNR未超过第二SNR阈值时减低用于将当前帧分类为浊音的第二发声阈值的装置，其中如果所述SNR大于所述第二SNR阈值，则不调整所述第二发声阈值。

34.根据权利要求32所述的设备，其中所述输入分类参数包括话音活动信息、线性预测反射系数、正规化自动相关系数函数信息及音高处正规化自动相关系数函数信息中的一者或一者以上。

35.根据权利要求34所述的设备，其中所述音高处正规化自动相关系数函数信息为值阵列。

36.根据权利要求34所述的设备，其中所述内部分类参数包括过零率参数、当前帧能量参数、先行帧能量参数、频带能量比率参数、三帧平均浊音能量参数、先前三帧平均浊音能量参数、当前帧能量对先前三帧平均浊音能量比率参数、当前帧能量对三帧平均浊音能量参数及最大子帧能量索引参数中的一者或一者以上。

37.根据权利要求32所述的设备，其进一步包括用于更新至少一个参数的装置。

38.根据权利要求37所述的设备，其中经更新的参数包括音高处正规化自动相关系数函数参数、三帧平均浊音能量参数、先行帧能量参数、先前三帧平均浊音能量参数及话音活动检测参数中的一者或一者以上。