CN101131817A

CN101131817A - 强壮语音分类方法和装置

Info

Publication number: CN101131817A
Application number: CNA200710152618XA
Authority: CN
Inventors: P·黄
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2000-12-08
Filing date: 2001-12-04
Publication date: 2008-02-27
Anticipated expiration: 2021-12-04
Also published as: WO2002047068A2; HK1067444A1; TW535141B; KR100895589B1; JP2010176145A; BR0116002A; ATE341808T1; CN1543639A; AU2002233983A1; JP2004515809A; JP4550360B2; KR20030061839A; WO2002047068A3; EP1340223B1; DE60123651D1; CN101131817B; BRPI0116002B1; US7472059B2; JP5425682B2; EP1340223A2

Abstract

用于不同语音模式强壮分类的语音分类技术(502－530)，使得多模式可变比特率编码技术能得到最佳性能。语音分类器精确地将大部分语音段分类，用于以最小比特率编码以符合低比特率的要求。高度精确的语音分类产生较低平均编码的比特率，以及较高质量解码的语音。语音分类器要考虑每个语音帧的最大参数数量，为每帧产生大量精确的语音模式分类。语音分类器在变化的环境条件下正确地分类大量语音模式。语音分类器从外部组件输入分类参数，从输入参数产生内部分类参数，设定标准化的自相关系数函数阈值并根据信号环境选择参数分析器，然后分析参数以产生语音模式分类。

Description

强壮语音分类方法和装置

本申请是申请日为2001年12月4日申请号为第01822493.8号发明名称为“强壮语音分类方法和装置”的中国专利申请的分案申请。

背景

I.领域

所揭示的实施例涉及语音处理领域，特别是，揭示的实施例涉及用于强壮语音分类的新颖并改进了的方法和装置。

II.背景

由数字技术传输语音已经很普及了，特别在长距离和数字无线电话的应用中。这又引起了要在维持所察觉的重建语音质量的同时确定可以在信道上被发送的最少信息量。如果语音通过简单地采样和数字化而被发送，则需要65千比特每秒(kbps)数量级上的数据速率来达到常规模拟电话的语音质量。然而，通过语音分析、随后适当编码、以及接收机处再合成的使用，可以显著减少数据速率。语音分析越精确地实现，数据就越适当地被编码，从而减少数据速率。

采用通过析取与人类语音产生模型相关的参数而压缩语音的技术的设备被称为语音编码器。语音编码器将进入语音信号分为时间块或分析帧。语音编码器一般包括编码器和解码器或编解码器。编码器分析进入语音帧以析取某些相关参数，然后将参数量化为二进制表示，即，量化为一组比特或二进制数据包。数据包在通信信道上被发送到接收器和解码器。解码器处理数据包，将其反量化以产生参数，然后再使用经反量化的参数再合成语音帧。

语音编码器的作用是通过除去语音中固有的所有自然冗余而将经数字化的语音信号压缩为低比特率信号。数字压缩通过用一组参数表示输入语音帧并采用量化来用一组比特表示参数而实现。如果输入语音帧有N_i个比特，由语音编码器产生的数据包有N_o个比特，由语音编码器得到的压缩比C_r＝N_i/N_o。问题是要保持已解码语音声音的高质量同时实现目标压缩因子。语音解码器的性能取决于(1)语音模式或上述的分析和合成过程的组合的工作情况，以及(2)参数量化过程在目标比特率每帧N_o比特时的工作情况。因此，语音模式的目标是用每帧一小组参数获得语音信号的本质或目标声音质量。

语音编码器可以用时域编码器实现，它试图通过使用高时间分辨率的处理每次编码小段语音帧(一般5毫秒(ms)子帧)而获取时域语音波形。对每个子帧，通过本领域已知的各种语音算法而找到来自电码本空间的高精度代表。或者，语音编码器可以用频域编码器实现，它试图用一组参数(分析)获取输入语音帧的短时语音频谱并且采用相应的合成过程以从频谱参数重建语音波形。参数量化器通过根据在A.Gersho&R.M.Gray所著的Vector Quantization and SignalCompression(1992)中描述的已知量化技术中的存贮的码向量表示来代表它们而保留参数。

很有名的时域语音编码器是在L.B.Rabiner&R.W.Schafter所著的DigitalProcessing of Speech Signals 396-453(1978)的代码激励的线性预测(CELP)编码器，在此完全被引用并结合于此。在CELP编码器内，语音信号内的短时相关或冗余由线性预测(LP)分析除去，它发现短时共振峰滤波器的系数。对进入语音帧应用短时预测滤波器会产生LP剩余信号，它进一步用长时预测滤波器参数和随后随机电码本被模式化并被量化。因此，CELP编码将对时域语音波形编码的任务分成分开的对LP短时滤波器系数编码的任务和对LP剩余编码的任务。时域编码可以以固定的速率(即，对每帧使用相同数目的比特N_o)或以可变速率(其中不同比特率用于不同类型的帧内容)进行。可变速率编码器试图仅使用编码编解参数所需的比特数量以达到目标质量。可变速率CELP编码器的范例在美国专利号5414796中描述，该专利被转让给本发明的受让人，并通过引用被结合于此。

时域编码器、如CELP编码器一般依赖每帧高比特数N_o以保留时域语音波形的精确性。只要每帧特数N_o相对很大(如8Kbps或以上)，这种编码器一般给出极好的声音质量。然而，在低比特率时(4Kbps及更低)，时域编码器由于有限的可用比特数而不能保持高质量和强壮性能。在低比特率时，有限的电码本空间限制了常规时域编码器的波形匹配性能，它成功地用于较高速率的商业应用中。

一般而言，CELP方案使用短时预测(STP)滤波器和长时预测(LTP)滤波器。编码器处采用由合成(AbS)方法进行的分析以发现LTP延时和增益，以及最佳随机电码本增益和索引。目前工艺水平的CELP编码器，如增强型可变速率编码器(EVRC)能以将近8千比特每秒的数据速率达到高质量合成的语音。

可以知道，无声语音不呈现周期性。常规CELP方案中对LTP滤波器的带宽消耗的编码对于无声语音并不像对有声语音那样有效地被使用，其中语音的周期性很强且LTP滤波也是有意义的。因此，对于无声语音需要更有效的(即，较低比特率)编码方案。精确语音分类对于选择最有效的编码方案并达到最低数据速率是必要的。

对于较低比特率时的编码，已经研发了各种频谱方法、或语音的频域编码，其中语音信号作为频谱的时变演变而被分析，参见如R.J.McAulay&T.F.Quatieri，Sinusoidal Coding，in Speech Coding and Synthesis第四章(W.B.Kleijn&K。K。Paliwal eds，1995)。在频谱编码器中，目标是用一组频谱参数模拟或预测语音每个输入帧的短时语音频谱，而不是精确地模拟时变语音波形。频谱参数然后被编码且用已解码参数创建输出语音帧。所产生的经合成的语音并不与原始输入语音波形匹配，但提供了相似的可察觉的质量。本领域中熟知的频域编码器的例子包括多频带激励编码器(MBE)、正弦变换编码器(STC)以及谐波编码器(HC)。这种频域编码器提供高质量的参数模型，该模型具有一小组可以用低比特率时可用的少量比特精确量化的参数。

然而，低比特率编码强加有限编码解决方案或有限电码本空间的关键限制，后者限制了单编码机制的有效性，值编码器不能在不同背景条件下以相同的精确性表现出各种类型的语音段。例如，常规的低比特率频域编码器不发送语音帧的相位信息。相反，相位信息是通过使用随机、人为产生的初始相位值和线性内插技术重建的。参见如H.Yang等人所著的Quadratic Phase Interpolation for Voiced Speech Synthesis in the MBE Model，in 29Electronic Letters 856-57(1993年5月)。由于相位信息是人为产生的，因此即使正弦波的幅度由量化-反量化过程完好地保留，然而由频域编码器产生的输出语音不会与原始输入语音对齐(即，主脉冲不会同步)。因此证实很难采用任何闭环性能测量，譬如频域编码器中的信噪比(SNR)或感知SNR。

一种以低比特率有效编码语音的有效技术是多模式编码。多模式编码技术已用于连同开环模式判决过程一起进行低速率语音编码。一种这样的多模式编码技术在Amitava Das等人所著的Multi-mode and Variable-Rate Coding of Speech，in Speech Coding and Synthesis第七章(W.B.Kleijn&K.K.Paliwaleds.1995)中已作描述。常规多模式编码器对不同类型的输入语音帧应用不同的模式或编码-解码算法。每个模式或编码-解码过程都被用户化，从而以更有效的方式表示出某类型的语音段，譬如有声语音、无声语音或背景噪声(非语音)。这种多模式编码技术的成功高度取决于正确的模式判决，即语音分类。外部开环模式判决机制检查输入语音帧并作出关于对帧应用哪个模式的判决。开环模式判决的进行一般通过从输入帧析取许多参数、估计关于某些时域和频域特性的参数、以及根据估计作出模式判决。因此，模式判决在预先不知道输入语音的确切条件下进行的，即，输出语音与输入语音在声音质量或其他性能度量方面如何相近。语音编解码开环模式判决的范例在美国专利号5414796中已作描述，该专利被转让给本发明的受让人，并通过引用被完全结合于此。

多模式编码可以是固定速率的，对每帧使用同样数目的比特N_o，或可变速率的，其中不同比特率用于不同模式。可变速率编码的目的是仅使用为足以获得目标质量而对编解码器参数编码所需的比特数。结果，同样的目标声音质量，如固定速率的高速率编码器的声音质量可以用可变比特率(VBR)技术以显著较低的平均速率而得到。可变比特率语音编码器的一个范例在美国专利号5414796已作描述。目前有一种研究热潮和强烈的商业需要，以研发一种工作在中到低比特率的高质量语音编码器(即，在2.4到4Kbps之间和以下)。应用范围包括无线电话、卫星通信、因特网电话、各种多媒体和声音流应用、声音邮件和其他声音存贮系统。驱动力是对高容量的需要和在包丢失情况下对强壮性能的要求。各种最近的语音编码标准研究是另一直接驱动力推进低速率语音编码算法的研究和发展。低速率语音编码器在每个所允许的应用带宽建立更多的信道或用户。与适当信道编码的附加层耦合的低速率语音编码器能适合编码器规范的总比特预算，并且在信道错误条件下有强壮性能。

多模式VBR语音编码因此是以低比特率编码语音的有效机制。常规多模式方案要求为各语音段(如，无声的、有声的、转变)设计有效的编码方案或模式，以及背景噪声或寂静的模式。语音编码器的整体性能取决于模式分类的强壮性以及每个模式的表现。编码器的平均率取决于无声、有声和其他语音段的不同模式的比特率。为了以低平均速率达到目标质量，必须正确地确定不同条件下的语音模式。一般而言，有声和无声语音段以高比特率被捕捉，背景噪声和寂静段用工作在显著较低的速率下的模式表示。多模式可比特率编码器要求正确语音分类以精确地捕捉并使用每帧最少比特数对大部分语音段实行编码。较精确的语音分类产生较低的平均已编码比特率以及较高质量的已解码语音。以前，语音分类技术仅考虑到分离的语音帧的最少参数数，产生很少且不精确的语音分类。因此，为了允许多模式可变比特率编码技术的最佳性能，需要一种高性能的语音分类器以在不同环境条件下正确地分类许多语音模式。

摘要

所揭示的实施例针对强壮语音分类技术，估计语音的许多特征参数在不同条件下以高度精确性分类语音的各种模式。从而，在一方面，语音分类方法得以揭示。该方法包括将分类参数从外部组件输入语音分类器、在语音分类器内从至少一个输入参数中产生内部分类参数、设定标准化的自相关系数函数阈值并根据信号环境选择参数分析器、以及分析输入参数和内部参数以产生语音模式分类。

另一方面，语音分类器得以揭示。语音分类器包括：发生器，用以从至少一个外部输入参数产生内部分类参数，标准化的自相关系数函数阈值发生器，用以设定标准化的自相关系数函数阈值并根据信号环境选择参数分析器，以及参数分析器，用以分析至少一个外部输入参数和内部参数以产生语音模式分类的参数分析器。

附图简述

通过下面提出的结合附图的详细描述，本发明的特征、性质和优点将变得更加明显，附图中相同的符号具有相同的标识，其中：

图1是由语音编码器在各端点终止的通信信道框图；

图2是可由图1所述编码器使用的强壮语音分类器的框图；

图3是说明强壮语音分类器的语音分类步骤的流程图；

图4A、4B和4C是由语音分类器所揭示的实施例使用的状态图；

图5A、5B和5C是由语音分类器所揭示的实施例使用的判决表；以及

图6是带有分类参数和语音模式值的语音信号的一个实施例的示例图。

优选实施例的详细描述

所揭示的实施例为声码器内改进了的语音分类提供了一种方法和装置。新分类参数被分析以产生比先前有更高精确性的更多语音分类。新判决过程用于在帧基础上在帧上分类语音。从原始输入语音、SNR信息、噪声抑制的输出语音、声音活动信息、线性预测系数(LPC)分析和开环音调估计导出的参数，以及开环音调估计由基于新状态的判决者使用，以精确地分类各种语音模式。每语音帧通过分析过去和将来帧以及当前帧而被分类。可由所揭示实施例分类的语音模式包括在话语结束时向活动语音的瞬时转变，有声、无声和寂静。

所揭示的实施例示出一种语音分类技术在不同环境噪声下不同语音模式的语音分类技术。语音模式可以可靠地且精确地经识别以最有效的方法编码。

在图1中，第一编码器10接收经数字化语音采样s(n)以及对采样s(n)实现编码用于在传输介质12中或通信信道12中传输到第一解码器14。第一解码器对经编码的语音采样解码并合成输出语音信号S_SYNTH(n)。对反向的传输，第二编码器16对数字化采样s(n)编码，然后在通信信道18上传送。第二解码器20接收并对经编码的语音采样解码，产生经合成的输出语音信号S_SYNTH(n)。

语音采样s(n)代表已数字化的语音信号且根据任何已知的方法如脉冲编码调制(PCM)、压缩扩展μ定律或A定律量化。如在领域所知，语音采样s(n)被组织成输入帧其中每个帧包括预定数量的经数字化语音采样s(n)。在范例实施例中，使用8kHz的采样率，以及每20ms帧包括160采样。在以下描述的实施例中，数据传输率可能在帧到帧的基础上变化从8kbps(全速率)到4kbps(半速率)到2kbps(四分之一速率)到1kbps(八分之一速率)。另外，可能使用其他数据速率。在这里用的，“全速率”或“高速率”一般指比8kbps或等于8kbps的数据速率，“半速率”或“低速率”一般指比4kbps或等于4kbps的数据速率。改变数据传输率是有好处的因为低比特率可能经选择使用于包括相对较少语音信息的帧。如本领域的专业人员所能理解的，可能使用其他采样率、帧大小和数据传输率。

第一编码器10和第二解码器20一起包括第一语音编码器或语音编解码。类似的，第二编码器16和第一解码器14一起包括第二语音编码器。本领域的专业人员理解语音编码器可能用数字信号处理器(DSP)、特殊应用集成电路(ASIC)、离散门逻辑、固件或任何常规可编程软件模块以及微处理器实现。软件模块可能留在RAM内存、闪存、寄存器或任何其他可写本领域的已知存储介质内。另外，任何常规的处理器、控制器或状态机可以代替微处理器。为语音编码特别设计的ASIC示范在美国专利号5727123和5784532，被转让给本发明的受让人，并通过引用被结合于此。

图2说明强壮语音分类器的示范实施例。在一实施例中，图2的语音分类器装置可能留在图1的编码器(10，16)中。在另一实施例中，强壮的语音分类器可以独自存在，如果提供语音分类模式输出给如图1的编码器(10，16)的设备。

在图2中，输入语音被提供给噪声抑制器(202)。输入语音一般由声音信号的模拟到数字转换产生。噪声抑制器(202)从输入语音信号过滤噪声组件产生经噪声抑制输出语音信号，以及当前输出语音的SNR信息。SNR信息和输出语音信号输入到语音分类器(210)。噪声抑制器(202)的输出语音信号也输入声音活动检测器(204)，LPC分析器(206)以及开环音调估计器(208)。SNR信息由语音分类器(210)使用以设定周期性阈值并在归零和噪声语音间实现区分。SNR参数因此称作curr_ns_snr。输出语音信号在以下称为t_in。如果，在一实施例中，噪声抑制器(202)并不存在，或被关闭，SNR参数curr_ns_snr应被预设为一缺省值。

声音活动检测器(204)输出当前帧的声音活动信息到语音分类器(210)。声音活动信息输出指明如果当前语音为活动或非活动的。在一示范实施例中，声音活动信息输出可能是二进制的，即活动或非活动。在另一实施例中，声音活动信息输出可以是多值的。声音活动信息参数在以下称作vad。

LPC分析器(206)输出当前输出语音LPC反射系数到语音分类器(210)。LPC分析器(206)可能还输出其他参数如LPC系数。LPC反射系数参数在以下被称作refl。

开环音调估计器(208)将标准化的自相关系数函数NACF值、以及音调值附近的NACF输出至语音分类器(210)。NACF参数在以下被称作nacf，且音调参数左右的NACF在以下被称作nacf_at_pitch。更周期性的语音信号产生较高的nacf_at_pitch值。较高的nacf_at_ptch值更可能与静止的声音输出语音类型相关联。语音分类器(210)维持一数组的nacf_at_pitch值。nacf_at_pitch在子帧基础上被计算。在示范实施例中，通过测量每帧两个子帧而对输出语音的每个帧测量两个开环音调估计。每个子帧的nacf_at_pitch从开环音调估计中被计算。在本示范实施例中，五维nacf_at_pitch值数组(即nacf_at_pitch[5])包括两个半输出语音帧的值。为输出语音的每个帧更新nacf_at_pitch数组。nacf_at_pitch参数数组的新颖使用为语音分类器(210)提供了使用当前、过去和先行(将来)信号信息的能量，以作出更精确且强壮的语音模式判决。

除了从外部组件来的信息输入到语音分类器(210)，语音分类器(210)内部从输出语音产生附加新参数用于语音模式判决过程。

在一实施例中，语音分类器(210)内部产生零交叉率参数，在以下称为zcr。当前输出语音的zcr参数定义维每语音帧的语音信号的符号变化次数。在声音语音内，zcr值低，而由于信号是非常随机的，无声语音(或噪音)有高zcr值。zcr参数经语音分类器(210)使用于分类声音和无声语音。

在一实施例中，语音分类器(210)内部产生当前帧能量参数，在以下称为E。E可以为语音分类器(210)使用通过将当前帧的能量与过去和将来的帧比较以识别瞬变语音。参数vEprev为从E导出的先前帧的能量。

在一实施例中，语音分类器(210)内部产生先行帧能量参数，在以下称为Enext。Enext可能包含当前帧一部分和输出语音的下一帧一部分的能量值。在一实施例中，Enext代表当前帧的第二部分的能量和输出语音下一帧的第一部分的能量。Enext为语音分类器(210)使用以识别瞬变语音。在语音最后，下一帧的能量与当前帧相比突然下降。语音分类器(210)可以将当前帧能量和下一帧能量相比以识别语音结尾和语音条件开始或上瞬变和下瞬变语音模式。

在一实施例中，语音分类器(210)内部产生带能量比参数，定义为log2(EL/EH)，其中EL为低带当前帧能量从0到2kHz，且EH为高带当前帧能量从2kHz到4kHz。带能量比参数在以下称为bER。bER参数允许语音分类器(210)识别有声语音和无声语音模式，如一般情况，有声语音集中能量在低带，而噪声无声语音集中能量在高带。

在一实施例中，语音分类器(210)内部从输出语音产生三帧平均有声能量参数，在以下称为vEav。在其他实施例中，vEav可能在多帧而不是三帧上取平均。如果当前语音模式为活动的和声音的，vEav计算输出语音最后三帧的能量的运行平均。最后三帧的能量平均提供语音分类器(210)更多稳定的统计，在此之上判决语音模式而不是仅仅单帧能量计算。vEav为语音分类器(210)使用以分类声音语音的结尾或下瞬变模式，如当前帧能量E与平均有声能量vEav在语音停止时将会陡降。vEav只在当前帧是声音时才更新，或重设为无声或非活动语音的一固定值。在一实施例中，固定重设值为0.01。

在一实施例中，语音分类器(210)内部产生前三帧平均有声能量参数，在以下称为vEprev。在其他实施例中，vEprev可能在多个而不是三个帧上取平均。vEprev为语音分类器(210)使用以识别瞬变语音。语音开始时，当前帧能量E与先前三声音帧比陡升。语音分类器(210)能比较当前帧能量和先前三帧能量以识别语音条件的开始，或上瞬变和语音模式。类似的有声语音结尾，当前帧能量陡降，因此，vEprev能用于分类语音结尾的转变。

在一实施例中，语音分类器(210)内部产生当前帧能量与先前三帧平均有声能量比参数，定义为10*log10(E/vEprev)。在其他实施例中，vEprev可能在多个而不是三个帧上取平均。当前能量与先前vEprev为语音分类器(210)使用以识别瞬变语音。语音开始时，当前帧能量E与先前三帧平均有声能量比参数在以下称为vER。vER为语音分类器(210)用于以分类声音语音开始和声音语音结束或上瞬变模式和下瞬变模式，vER在语音再开始时大在声音语音结束时小。vER参数可能连同vEprev参数一起用于分类瞬变语音。

在一实施例中，语音分类器(210)内部产生当前帧能量比先前三帧平均有声能量参数，定义为MIN(20，10*log10(E/vEav))。当前帧能量比三帧平均有声能量在以下称为vER2。vER2为语音分类器(210)用于以分类声音语音结束时分类瞬变声音模式。

在一实施例中，语音分类器(210)内部产生最大子帧能量索引参数。语音分类器(210)将输出语音当前帧均分为子帧，且计算每个子帧的均方根(RMS)能量值。在一实施例中，当前帧被分为十个子帧。最大子帧能量索引参数是当前帧内具有最大RMS能量值的子帧的索引。最大子帧能量索引参数在以下称为maxsfe_idx。将当前帧分为子帧提供了语音分类器(210)峰值能量位置信息，包括一帧内最大峰值能量位置。更多的解决方案可以通过将帧分为更多的子帧达到。maxsfe_idx是与其他参数一起为语音分类器(210)使用于分类瞬变语音模式，如无声或无声语音模式能量一般稳定，而能量在瞬变语音模式时逐渐增加或逐渐停止。

语音分类器(210)直接从编码组件使用新参数输入，以及新内部产生的参数，得到比以前更精确且更强壮的语音分类模式。语音分类器(210)应用新判决过程到直接的输入和内部产生参数以产生经改经语音分类结果。判决过程参考图4A-4C和5A-5C详细描述如下。

在一实施例中，语音分类器(210)的语音模式输出包括：瞬变、上瞬变、下瞬变、有声、无声以及无声模式。瞬变模式是声音但更少周期性语音，最佳用全速率CELP编码。上瞬变模式是活动语音的第一声音帧，最佳用全速率CELP编码。下瞬变模式是低能量有声语音一般在字结尾，最佳用半速率CELP编码。有声模式是高度周期性声音语音，主要包括元音。有声模式语音可能以全速率、半速率、四分之一速率或八分之一速率编码。对声音模式语音的数据速率经选择以符合平均数据速率(ADR)要求。无声模式，主要包括辅音，最佳以四分之一速率噪声受激线性预测(NELP)编码。无声模式是非活动语音，最佳以八分之一速率CELP编码。

本领域的专业人员理解参数和语音模式不限于揭示实施例的参数和语音模式。可以使用附加参数和语音模式而不偏离揭示实施例的范围。

图3是说明强壮语音分类技术的语音分类步骤一实施例的流程图。

在步骤200，从外部组件来的分类参数输入包括从噪声抑制组件来的curr_ns_sur和t_in输入，从开环音调估计器组件来的nacf和nacf_at_pitch参数输入，从声音活动检测器组件来的vad输入，以及从LPC分析组件来的refl输入。控制流程进行到步骤302。

在步骤302，附加内部产生的参数从外部组件来的分类参数输入经计算。在一示范实施例中，zcr、E、Enext、bER、vEav、vEprev、vER、vER2以及maxsfe_idx从t_in经计算。当内部产生参数对每个输出语音帧都已计算，控制流程进行到步骤304。

在步骤304，NACF阈值被确定，而且参数分析器根据语音信号环境经选择。在一示范实施例中，NACF阈值通过将步骤300处的curr_ns_snr参数输入与SNR阈值比较。curr_ns_snr信息，从噪声抑制器导出，提供新的周期性判决阈值的适应性控制。这样，不同周期性阈值与不同噪声组件电平应用于语音信号的分类过程。更精确语音分类判决在最合适的nacf或周期，语音信号噪音电平的阈值为输出语音的每个帧选择时产生。确定语音信号的最合适周期阈值允许为语音信号选择最佳参数分析器。

归零和噪声语音信号原本周期不同。当有噪声时，存在语音恶化。当语音恶化存在时，周期测量，或nacf，比归零语音的要低。因此，nacf阈值在噪声信号环境内降低以补偿或在归零信号环境内升高。揭示实施例的新语音分类技术不对所有环境固定周期阈值，不管噪声电平产生更精确且强壮的模式判决。

在示范实施例中，如果curr_ns_snr值比SNR阈值25db大或相等，归零语音的nacf阈值得到应用。归零语音的示范nacf阈值由下表定义。

类型的阈值	阈值名称	阈值值
类型的阈值	阈值名称	阈值值	有声	VOICEDTH	.75
瞬变	LOWVOICEDTH	.5	有声	VOICEDTH	.75
瞬变	LOWVOICEDTH	.5	无声	UNVOICEDTH	.35

表1

在示范实施例中，如果curr_ns_snr值比SNR阈值25db小，噪声语音的nacf阈值得到应用。噪声语音的示范nacf阈值由下表定义。

类型的阈值	阈值名称	阈值值
类型的阈值	阈值名称	阈值值	有声	VOICEDTH	.65
瞬变	LOWVOICEDTH	.5	有声	VOICEDTH	.65
瞬变	LOWVOICEDTH	.5	无声	UNVOICEDTH	.35

表2

噪声语音等同与带附加噪声的归零语音。和适应性周期阈值控制一起，强壮的语音分类技术比以前对归零语音和噪声语音更可能产生相同的分类判决。当nacf阈值为每个帧设定时，控制流程进行到步骤306。

在步骤306，从外部组件的参数输入和内部产生参数经分析以产生语音模式分类。状态机或其他根据信号环境选择的分析方法应用到这些参数。在一示范实施例中，参数从外部组件输入且内部产生参数应用到参考图4A-4C和5A-5C详细描写的基于状态模式判决过程。判决过程产生语音模式分类。在一示范实施例中，瞬变、上瞬变、下瞬变、有声、无声、无声语音模式分类产生。当语音模式判决产生时，控制流程进行到步骤308。

在步骤308，状态变量和不同参数经更新以包括当前帧。在示范实施例中，vEav、vEprev和当前帧的有声状态经更新。当前帧能量E、nacf_at_pitch和当前帧语音模式经更新以分类下一帧。

步骤300-308对每语音帧重复。

图4A-4C说明一强壮语音分类技术示范实施例的模式判决处理实施。判决过程基于语音帧的周期性为语音分类选择状态机。对语音的每帧，通过将语音帧周期测量即nacf_at_pitch值与图3步骤304设定的NACF阈值比较后为判决过程选择语音帧的与周期性最相符的状态机或噪声分量。语音帧周期电平限制并控制了模式判决过程的状态转换，产生更强壮的分类。

图4A说明示范实施例中选择的状态机的实施，当vad为1(有活动语音)且nacf_at_pitch的第三值(即nacf_at_pitch[2]，零索引)很高，或比VOICEDTH要大。VOICEDTH在图3步骤304处被定义。图5A说明每个状态估计的参数。

初始状态为寂静。如果vad＝0(即没有声音活动)，当前帧总被分类为无声，不管先前一状态如何。

当先前状态为寂静时，当前帧可能被分类为或无声或上瞬变。如果nacf_at_pitch[3]很低，zcr高，bER低vER很低或这些条件的组合满足，当前帧被分类为无声。否则分类缺省为上瞬变。

当先前状态为无声，当前帧可能被分类为或无声或上瞬变。如果nacf_at_pitch[3]很低，nacf_at_pitch[3]很低，nacf_at_pitch[4]很低，zcr高，bER低vER很低且E比vEprev小，或这些条件的组合满足，当前帧被分类为无声。否则分类缺省为上瞬变。

当先前状态为有声，当前帧可能被分类为或无声、瞬变、下瞬变或有声。如果vER很低且E比vEprev小，当前帧被分类为无声。如果nacf_at_pitch[1]和nacf_at_pitch[3]低，E比vEprev一半大或这些条件的组合满足，当前帧被分类为瞬变。如果vER低，且nacf_at_pitch[3]为适中值，当前帧被分类为下瞬变。否则分类缺省为有声。

当先前状态为瞬变或上瞬变，当前帧可能被分类为或无声、瞬变、下瞬变或有声。如果vER很低且E比vEprev小，当前帧被分类为无声。如果nacf_at_pitch[1]低nacf_at_pitch[3]值适中，nacf_at_pitch[4]低且状态不为瞬变，或如果满足这些条件的组合，当前帧被分类为瞬变。如果nacf_at_pitch[3]为适中值，且E比vEav的0.05倍小，当前帧被分类为下瞬变。否则分类缺省为有声。

当先前状态为下瞬变，当前帧可能被分类为或无声、瞬变或下瞬变。如果vER很低，当前帧被分类为无声。如果E比vEprev大，当前帧被分类为瞬变。否则分类缺省为下瞬变。

图4B说明示范实施例中选择的状态机的实施，当vad为1(有活动语音)且nacf_at_pitch的第三值很低，或比UNVOICEDTH要小。UNVOICEDTH在图3步骤304处被定义。图5B说明每个状态估计的参数。

初始状态为寂静。如果vad＝0(即没有声音活动)，当前帧总被分类为寂静，不管先前一状态如何。

当先前状态为寂静，当前帧可能被分类为或无声或上瞬变。如果nacf_at_pitch[2-4]表现出增长趋势，nacf_at_pitch[3-4]有适中值，zcr为很低到适中，bER高，vER有适中值，或如果满足这些条件的组合，则当前帧被分类为上瞬变。否则分类缺省为无声。

当先前状态为无声，当前帧可能被分类为或无声或上瞬变。如果nacf_at_pitch[2-4]表现出增长趋势，nacf_at_pitch[3-4]有适中到很高值，zcr很低或适中，vER不低，bER高，refl低，nacf有适中值且E比vEprev大，或如果满足这些条件的组合，则当前帧被分类为上瞬变。这些条件的组合和阈值可能取决于语音帧的噪声电平中在curr_ns_snr参数反射的。否则分类缺省为无声。

当先前状态为有声、上瞬变或瞬变时，当前帧可能被分类为或无声、瞬变或下瞬变。如果bER小于或等于零，vER很低，bER比零大，且E小于vEprev或这些条件的组合满足，当前帧被分类为无声。如果bER大于零，nacf_at_pitch[2-4]显示出增长趋势，zcr不高，vER不低，refl低，nacf_at_pitch[3]和nacf适中且bER小于零或等于零，或如果满足这些条件的组合，当前帧被分类为瞬变。这些条件的组合和阈值可能取决于语音帧的噪声电平中在curr_ns_snr参数反射的。如果bER比零大，nacf_at_pitch[3]适中，E比Eprev小，zcr不高且vER2小于负十五，当前帧被分类为下瞬变。

当先前状态为下瞬变，当前帧可能被分类为或无声、瞬变或下瞬变。如果nacf_at_pitch[2-4]显示出增长趋势，nacf_at_pitch[3-4]适中高，vER不低，E比Eprev两倍大，或如果满足这些条件的组合，当前帧被分类为瞬变。如果vER不低且zcr低，当前帧被分类为下瞬变。否则分类缺省为无声。

图4C说明示范实施例中选择的状态机的实施，当vad为1(有活动语音)且nacf_at_pitch的第三值(即nacf_at_pitch[3])适中，即比UNVOICEDTH大比VOICEDTH小。UNVOICEDTH和VOICEDTH在图3步骤304处被定义。图5C说明每个状态估计的参数。

当先前状态为寂静，当前帧可能被分类为或无声或上瞬变。如果nacf_at_pitch[2-4]表现出增长趋势，nacf_at_pitch[3-4]有适中到很高值，zcr不高，bER高，vER值适中，zcr很低且E比vEprev两倍大，或如果满足这些条件的组合，当前帧被分类为上瞬变。否则分类缺省为无声。

当先前状态为无声时，当前帧可能被分类为无声或上瞬变。如果nacf_at_pitch[2-4]显示出增长趋势，nacf_at_pitch[3-4]值适中到很高值，zcr不高，vER不低，bER高，refl低，E比vEprev大，zcr很低，nacf不低，maxsfe_idx指向最后子帧且E大于两倍的vEprev，或如果满足这些条件的组合，当前帧被分类为上瞬变。这些条件的组合和阈值可能根据语音帧的噪声电平中在curr_ns_snr参数反射的。否则分类缺省为无声。

当先前状态为有声、上瞬变或瞬变，当前帧可能被分类为无声、有声、瞬变、下瞬变。如果bER小于或等于零，vER很低，Enext比E小，nacf_at_pitch[3-4]很低，bER比零大且E小于vEprev或如果满足这些条件的组合，当前帧被分类为无声。如果bER比零大，nacf_at_pitch[2-4]显示增长趋势，zcr不高，vER不低，refl低，nacf_at_pitch[3]和nacf不低，或满足这些条件的组合，当前帧被分类为瞬变。这些条件的组合和阈值可能取决于语音帧的噪声电平中在curr_ns_snr参数反射的。如果bER大于零，nacf_at_pitch[3]不高，E比vEprev小，zcr不高，vER比负十五小且vER2小于负十五，或满足这些条件的组合，当前帧被分类为下瞬变。如果nacf_at_pitch[2]比LOWVOICEDTH大，bER大于或等于零，且vER不低，或满足这些条件的组合，则当前帧被分类为有声。

当先前状态为下瞬变，当前帧可能被分类为或无声、瞬变或下瞬变。如果bER比零大，nacf_at_pitch[2-4]显示增长趋势，nacf_at_pitch[3-4]适中高，vER不高，E比Eprev两倍大，或这些条件的组合满足，当前帧被分类为瞬变。如果vER不低且zcr低，当前帧被分类为下瞬变。否则分类缺省为无声。

图5A-5C为语音分类器的揭示实施例使用的判决表实施例。

图5A，根据一实施例，说明每个状态估计的参数，以及当nacf_at_pitch第三值(即nacf_at_pitch[2])很高，或大于VOICEDTH时的状态转换。图5A说明的判决表由图4A描述的状态机使用。语音先前帧的语音模式分类在最左面列内示出。当参数值为于每个先前模式相连的行内所示，语音模式分类转换到相关列顶部行识别的当前模式。

图5B，根据一实施例，说明每个状态估计的参数，以及当nacf_at_pitch第三值(即nacf_at_pitch[2])很低，或低于UNVOICEDTH时的状态转换。图5B说明的判决表由图4B描述的状态机使用。语音先前帧的语音模式分类在最左面列内示出。当参数值为于每个先前模式相连的行内所示，语音模式分类转换到相关列顶部行识别的当前模式。

图5C，根据一实施例，说明每个状态估计的参数，以及当nacf_at_pitch第三值(即nacf_at_pitch[3])适中，即大于UNVOICEDTH但小于VOICEDTH时的状态转换。图5C说明的判决表由图4C描述的状态机使用。语音先前帧的语音模式分类在最左面列内示出。当参数值为于每个先前模式相连的行内所示，语音模式分类转换到相关列顶部行识别的当前模式。

图6是带相关参数值和语音分类的语音信号示范实施例的时间线图。

本领域的技术人员可以理解语音分类可能由DSP、ASIC、离散门逻辑、固件或任何常规可编程软件模块以及微处理器实现。软件模块可能留在RAM内存、闪存、寄存器或任何其他可写本领域的已知存储介质内。另外，任何常规的处理器、控制器或状态机可以代替微处理器。

上述优选实施例的描述使本领域的技术人员能制造或使用本发明。这些实施例的各种修改对于本领域的技术人员来说是显而易见的，这里定义的一般原理可以被应用于其它实施例中而不使用创造能力。因此，本发明并不限于这里示出的实施例，而要符合与这里揭示的原理和新颖特征一致的最宽泛的范围。

Claims

1.一种语音分类方法，其特征在于包括：

从外部组件将分类参数输入到语音分类器；

在语音分类器内，从至少一个输入参数产生内部分类参数；

根据信号环境，设定标准化的自相关系数函数阈值并选择参数分析器；以及

分析输入参数和内部参数以产生语音模式分类。

2.如权利要求1所述的方法，其特征在于，所述输入参数包括噪声抑制的语音信号。

3.如权利要求1所述的方法，其特征在于，所述输入参数包括噪声抑制的语音信号的信噪比信息。

4.如权利要求1所述的方法，其特征在于，所述输入参数包括声音活动信息。

5.如权利要求1所述的方法，其特征在于，所述输入参数包括线性预测反射系数。

6.如权利要求1所述的方法，其特征在于，所述输入参数包括标准化的自相关系数函数信息。

7.如权利要求1所述的方法，其特征在于，所述输入参数包括音调信息处的标准化的自相关系数函数。

8.如权利要求7所述的方法，其特征在于，所述音调信息处的标准化的自相关系数函数是一数值数组。

9.如权利要求1所述的方法，其特征在于，所述内部参数包括零交叉率参数。

10.如权利要求1所述的方法，其特征在于，所述内部参数包括当前帧能量参数。

11.如权利要求1所述的方法，其特征在于，所述内部参数包括先行帧能量参数。

12.如权利要求1所述的方法，其特征在于，所述内部参数包括带宽能量比参数。

13.如权利要求1所述的方法，其特征在于，所述内部参数包括三帧平均的有声能量参数。

14.如权利要求1所述的方法，其特征在于，所述内部参数包括前面三帧平均的有声能量参数。

15.如权利要求1所述的方法，其特征在于，所述内部参数包括当前帧能量与前面三帧平均有声能量之比的参数。

16.如权利要求1所述的方法，其特征在于，所述内部参数包括当前帧能量对三帧平均的有声能量参数。

17.如权利要求1所述的方法，其特征在于，所述内部参数包括最大子帧能量索引参数。

18.如权利要求1所述的方法，其特征在于，所述设定标准化的自相关系数函数阈值包括将信噪比信息参数与预定的信噪比值相比较。

19.如权利要求1所述的方法，其特征在于，所述分析包括将参数应用于状态机。

20.如权利要求19所述的方法，其特征在于，所述状态机包括每个语音分类模式的状态。

21.如权利要求1所述的方法，其特征在于，所述语音模式分类包括瞬变模式。

22.如权利要求1所述的方法，其特征在于，所述语音模式分类包括上瞬变模式。

23.如权利要求1所述的方法，其特征在于，所述语音模式分类包括下瞬变模式。

24.如权利要求1所述的方法，其特征在于，所述语音模式分类包括有声模式。

25.如权利要求1所述的方法，其特征在于，所述语音模式分类包括无声模式。

26.如权利要求1所述的方法，其特征在于，所述语音模式分类包括寂静模式。

27.如权利要求1所述的方法，其特征在于还包括更新至少一个参数。

28.如权利要求27所述的方法，其特征在于，所述经更新的参数包括音调参数处的标准化的自相关系数函数。

29.如权利要求27所述的方法，其特征在于，所述经更新的参数包括三帧平均的有声能量参数。

30.如权利要求27所述的方法，其特征在于，所述经更新的参数包括先行帧能量参数。

31.如权利要求27所述的方法，其特征在于，所述经更新的参数包括前三帧平均有声能量参数。

32.如权利要求27所述的方法，其特征在于，所述经更新的参数包括声音活动检测参数。

33.一种语音分类器，其特征在于包括：

用于产生分类参数的发生器；

标准化的自相关系数函数阈值发生器，用于根据信号环境，设定标准化的自相关系数函数阈值并选择参数分析器；以及

参数分析器，用于分析至少一个外部输入参数和内部参数以产生语音模式分类。

34.如权利要求33所述的语音分类器，其特征在于，所述用于产生分类参数的发生器从噪声抑制的语音信号中产生参数。

35.如权利要求33所述的语音分类器，其特征在于，所述用于产生分类参数的发生器从信噪比信息中产生参数。

36.如权利要求33所述的语音分类器，其特征在于，所述用于产生分类参数的发生器从声音活动信息中产生参数。

37.如权利要求33所述的语音分类器，其特征在于，所述用于产生分类参数的发生器从线性预测反射系数中产生参数。

38.如权利要求33所述的语音分类器，其特征在于，所述用于产生分类参数的发生器从标准化的自相关系数函数信息中产生参数。

39.如权利要求33所述的语音分类器，其特征在于，所述用于产生分类参数的发生器从音调信息处的标准化的自相关系数函数中产生参数。

40.如权利要求39所述的语音分类器，其特征在于，所述音调信息处的标准化的自相关系数函数是一数值数组。

41.如权利要求33所述的语音分类器，其特征在于，所述经产生的参数包括零交叉率参数。

42.如权利要求33所述的语音分类器，其特征在于，所述经产生的参数包括当前帧能量参数。

43.如权利要求33所述的语音分类器，其特征在于，所述经产生的参数包括先行帧能量参数。

44.如权利要求33所述的语音分类器，其特征在于，所述经产生的参数包括带宽能量比参数。

45.如权利要求33所述的语音分类器，其特征在于，所述经产生的参数包括三帧平均的有声能量参数。

46.如权利要求33所述的语音分类器，其特征在于，所述经产生的参数包括前三帧平均有声能量参数。

47.如权利要求33所述的语音分类器，其特征在于，所述经产生的参数包括当前帧能量与前三帧平均有声能量之比的参数。

48.如权利要求33所述的语音分类器，其特征在于，所述经产生的参数包括当前帧能量对三帧平均有声能量参数。

49.如权利要求33所述的语音分类器，其特征在于，所述经产生的参数包括最大子帧能量索引参数。

50.如权利要求33所述的语音分类器，其特征在于，所述设定标准化的自相关系数函数阈值包括将信噪比信息参数与预定信噪比值相比较。

51.如权利要求33所述的语音分类器，其特征在于，所述分析包括将参数应用于状态机。

52.如权利要求33所述的语音分类器，其特征在于，所述状态机包括每个语音分类模式的状态。

53.如权利要求33所述的语音分类器，其特征在于，所述语音模式分类包括瞬变模式。

54.如权利要求33所述的语音分类器，其特征在于，所述语音模式分类包括上瞬变模式。

55.如权利要求33所述的语音分类器，其特征在于，所述语音模式分类包括下瞬变模式。

56.如权利要求33所述的语音分类器，其特征在于，所述语音模式分类包括有声模式。

57.如权利要求33所述的语音分类器，其特征在于，所述语音模式分类包括无声模式。

58.如权利要求33所述的语音分类器，其特征在于语音模式分类包括寂静模式。

59.如权利要求33所述的语音分类器，其特征在于还包括更新至少一个参数。

60.如权利要求59所述的语音分类器，其特征在于，所述经更新的参数包括音调参数处的标准化的自相关系数函数。

61.如权利要求59所述的语音分类器，其特征在于，所述经更新的参数包括三帧平均的有声能量参数。

62.如权利要求59所述的语音分类器，其特征在于，所述经更新的参数包括先行帧能量参数。

63.如权利要求59所述的语音分类器，其特征在于，所述经更新的参数包括前三帧平均有声能量参数。

64.如权利要求59所述的语音分类器，其特征在于，所述经更新的参数包括声音活动检测参数。