CN1624765A

CN1624765A - 使用分段线性逼近的连续值声道共振跟踪方法和装置

Info

Publication number: CN1624765A
Application number: CNA2004100956562A
Authority: CN
Inventors: A·阿塞罗; H·阿蒂亚斯; L·J·李; 邓立
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2003-11-26
Filing date: 2004-11-26
Publication date: 2005-06-08
Also published as: JP2005157350A; DE602004007223T2; EP1536411B1; DE602004007223D1; EP1536411A1; KR20050050533A; ATE365960T1; US20050114134A1

Abstract

一种方法和装置跟踪语音信号中的共振分量，包括频率和带宽。通过定义对过去的声道共振矢量线性、且预测当前声道共振矢量的状态方程式来跟踪这些分量。也定义对当前声道共振矢量为线性的、且预测观测矢量的至少一个分量的观测方程式。状态方程式、观测方程式和观测矢量序列用于使用卡尔曼滤波器算法来标识声道共振矢量序列。在一个实施例中，基于对非线性函数的分段线性逼近来定义观测方程式。基于预定义的区域来选择线性逼近的参数，这些区域根据声道共振矢量的粗略估算来确定。

Description

使用分段线性逼近的连续值声道共振跟踪方法和装置

技术领域

本发明涉及语音识别系统，尤其涉及利用语音中的声道共振的语音识别系统。

背景技术

在人类语音中，大量的信息包含在语音信号的前三个或前四个共振频率内。特别地，当说话者发出元音时，这些共振的频率(对较小的范围，为带宽)指示正在说出哪一元音。

这一共振频率和带宽通常被总称为共振峰(formant)。在通常为有声的响音语音中，可发现共振峰为语音的频率表示中的谱突起。然而，在非响音语音中，不能直接找到共振峰为谱突起。为此，术语“共振峰”有时被解释为仅应用于语音的响音部分。为避免混淆，某些研究人员使用词组“声道共振”来指出现在响音和非响应语音中的共振峰。在两种情况下，共振仅指声道共振的口腔道部分。

为检测共振峰，现有技术的系统分析语音信号帧的频谱内容。由于共振峰可以是任何频率，因此现有技术试图在标识最可能的共振峰值之前限制搜索空间。在某些现有技术系统中，可能的共振峰的搜索空间通过标识帧的频谱内容中的峰值来减小。通常，这通过使用线性预测编码(LPC)来完成，LPC试图找出表示语音信号帧的频谱内容的多项式。该多项式的每一根值表示信号中的一个可能的共振频率，并由此表示可能的公正共振峰。由此，使用LPC，搜索空间被减小至形成LPC多项式根的那些频率。

在现有技术的其它共振峰跟踪系统中，通过将帧的频谱内容与一组在其中由专家标识了共振峰的频谱模板进行比较来减小搜索空间。然后选择最接近的“n”个模板，并将它们用于计算该帧的共振峰。由此，这些系统将搜索空间减小至与最接近的模板相关联的那些共振峰。

由本发明的相同的发明人开发的现有技术的一种系统使用了对输入信号的每一帧都相同的一致搜索空间。搜索空间中的每一组共振峰被映射到一特征矢量。每一特征矢量然后被应用到一模型以确定哪一组共振峰是最可能的。

该系统能够较好地工作，然而它需要很大的计算量，因为它通常使用梅尔频率(Mel-Frenquency)倒谱系数频率矢量，这需要将一组频率应用到基于要映射的共振峰组中的所有共振峰的复杂滤波器，随后执行加窗步骤和离散余弦变换步骤，以将共振峰映射到特征矢量。这一计算在运行时执行太耗时，由此所有共振峰组都必须在运行之前映射，并且映射的特征矢量必须被储存在一个大表中。这并不理想，因为它需要充足的存储器来储存所有映射的特征矢量。

在由本发明的发明人开发的另一系统中，一组离散声道共振矢量被储存在码本中。每一离散矢量被转化成一仿真特征矢量，将该仿真特征矢量与输入特征矢量相比较，以确定哪一离散矢量能最好地表示输入语音信号。该系统并不理想，因为它不确定声道共振矢量的连续值，而是选择离散的声道共振码字的其中之一。

发明内容

一种方法和装置跟踪语音信号中的声道共振分量。通过定义对过去的声道共振矢量为线性、且预测当前的声道共振矢量的状态方程式来跟踪该分量。也定义对当前声道共振矢量为线性、且预测观测矢量的至少一个分量的观测方程式。状态方程式、观测方程式和一系列观测矢量用于标识一系列声道共振矢量。在一个实施例中，基于对非线性函数的线性逼近来定义观测方程式。基于声道共振矢量的估算来选择该线性逼近的参数。

附图说明

图1是可在其中实践本发明的实施例的通用计算环境的框图。

图2是语音信号的幅度频谱曲线图。

图3所示是对指数函数的分段线性逼近的曲线图。

图4所示是对正弦函数的分段线性逼近的曲线图。

图5是本发明的方法的流程图。

图6是用于训练余量模型的训练系统的框图。

图7是本发明的一个实施例中共振峰跟踪系统的框图。

具体实施方式

图1示出了适合在其中实现本发明的计算系统环境100的一个示例。计算系统环境100仅为合适的计算环境的一个示例，并非暗示对本发明的使用范围或功能的局限。也不应将计算环境100解释为对示例性操作环境100中示出的任一组件或其组合具有依赖或需求。

本发明可以使用众多其它通用或专用计算系统环境或配置来操作。适合使用本发明的众所周知的计算系统、环境和/或配置的示例包括但不限于：个人计算机、服务器计算机、手持式或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型机、大型机、电话系统、包括任一上述系统或设备的分布式计算环境等等。

本发明可在诸如由计算机执行的程序模块等计算机可执行指令的一般上下文环境中描述。一般而言，程序模块包括例程、程序、对象、组件、数据结构等等，执行特定的任务或实现特定的抽象数据类型。本发明被设计成在分布式计算环境中实践，其中，任务由通过通信网络连接的远程处理设备来执行。在分布式计算环境中，程序模块可以位于本地和远程计算机存储媒质中，包括存储器存储设备。

参考图1，用于实现本发明的示例系统包括以计算机110形式的通用计算装置。计算机110的组件可包括但不限于，处理单元120、系统存储器130以及将包括系统存储器的各类系统组件耦合至处理单元120的系统总线121。系统总线121可以是若干种总线结构类型的任一种，包括存储器总线或存储器控制器、外围总线以及使用各类总线体系结构的局部总线。作为示例而非局限，这类体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线以及外围部件互连(PCI)总线，也称为Mezzanine总线。

计算机110通常包括各种计算机可读媒质。计算机可读媒质可以是可由计算机110访问的任一可用媒质，包括易失和非易失媒质、可移动和不可移动媒质。作为示例而非局限，计算机可读媒质包括计算机存储媒质和通信媒质。计算机存储媒质包括以用于储存诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任一方法或技术实现的易失和非易失，可移动和不可移动媒质。计算机存储媒质包括但不限于，RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储设备、或可以用来储存所期望的信息并可由计算机110访问的任一其它媒质。通信媒质通常在诸如载波或其它传输机制的已调制数据信号中包含计算机可读指令、数据结构、程序模块或其它数据，并包括任一信息传送媒质。术语“已调制数据信号”指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。作为示例而非局限，通信媒质包括有线媒质，如有线网络或直接连线连接，以及无线媒质，如声学、RF、红外和其它无线媒质。上述任一的组合也应当包括在计算机可读媒质的范围之内。

系统存储器130包括以易失和/或非易失存储器形式的计算机存储媒质，如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)包括如在启动时帮助在计算机110内的元件之间传输信息的基本例程，通常储存在ROM131中。RAM132通常包含处理单元120立即可访问或者当前正在操作的数据和/或程序模块。作为示例而非局限，图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。

计算机110也可包括其它可移动/不可移动、易失/非易失计算机存储媒质。仅作示例，图1示出了对不可移动、非易失磁媒质进行读写的硬盘驱动器141、对可移动、非易失磁盘152进行读写的磁盘驱动器151以及对可移动、非易失光盘156，如CD ROM或其它光媒质进行读写的光盘驱动器155。可以在示例性操作环境中使用的其它可移动/不可移动、易失/非易失计算机存储媒质包括但不限于，磁带盒、闪存卡、数字多功能盘、数字视频带、固态RAM、固态ROM等等。硬盘驱动器141通常通过不可移动存储器接口，如接口140连接到系统总线121，磁盘驱动器151和光盘驱动器155通常通过可移动存储器接口，如接口150连接到系统总线121。

图1讨论并示出的驱动器及其关联的计算机存储媒质为计算机110提供了计算机可读指令、数据结构、程序模块和其它数据的存储。例如，在图1中，示出硬盘驱动器141储存操作系统144、应用程序145、其它程序模块146和程序数据147。注意，这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同，也可以与它们不同。这里对操作系统144、应用程序145、其它程序模块146和程序数据147给予不同的标号来说明至少它们是不同的副本。

用户可以通过输入设备，如键盘162、麦克风163和定位设备161(如鼠标、跟踪球或触摸板)向计算机110输入命令和信息。其它输入设备(未示出)可包括操纵杆、游戏垫、圆盘式卫星天线、扫描仪等等。这些和其它输入设备通常通过耦合至系统总线的用户输入接口160连接至处理单元120，但是也可以通过其它接口和总线结构连接，如并行端口、游戏端口或通用串行总线(USB)。监视器191或其它类型的显示设备也通过接口，如视频接口190连接至系统总线121。除监视器之外，计算机也可包括其它外围输出设备，如扬声器197和打印机196，通过输出外围接口195连接。

计算机110可以在使用到一个或多个远程计算机，如远程计算机180的逻辑连接的网络化环境中操作。远程计算机180可以是个人计算机、手持式设备、服务器、路由器、网络PC、对等设备或其它公用网络节点，并通常包括许多或所有上述与计算机110相关的元件。图1描述的逻辑连接包括局域网(LAN)171和广域网(WAN)173，但也可包括其它网络。这类网络环境常见于办公室、企业范围计算机网络、内联网以及因特网。

当在LAN网络环境中使用时，计算机10通过网络接口或适配器170连接至LAN171。当在WAN网络环境中使用时，计算机110通常包括调制解调器172或其它装置，用于通过WAN173，如因特网建立通信。调制解调器172可以是内置或外置的，通过用户输入接口160或其它合适的机制连接至系统总线121。在网络化环境中，描述的与计算机110相关的程序模块或其部分可储存在远程存储器存储设备中。作为示例而非局限，图1示出远程应用程序185驻留在远程计算机180上。可以理解，示出的网络连接是示例性的，也可以使用在计算机之间建立通信链路的其它装置。

图2是人类语音的一个片段的频谱曲线图。在图2中，频率沿水平轴200示出，频率分量的幅度沿垂直轴202示出。图2的曲线图示出了响音人类语音包含的共振或共振峰，如第一共振峰204、第二共振峰206、第三共振峰208和第四共振峰210。每一共振峰由其中心频率F与其带宽B描述。

本发明提供了在响音和非响音语音中，跨共振峰频率和带宽的连续范围标识语音信号中的共振峰频率和带宽的方法。由此，本发明能够跟踪声道共振频率和带宽。

为完成这一过程，本发明将隐含的声道共振频率和带宽模型化为一列隐含的状态，其每一个都产生一观测。在一个具体的实施例中，隐含的声道共振频率和带宽使用以下状态方程式1和观测方程式2来模型化：

x_t＝Φx_t-1+(I-Φ)T+w_t 公式1

o_t＝C(x_t)+v_t 公式2

其中，x_t是t时刻的隐含声道共振矢量，它由x_t＝{f₁，b₁，f₂，b₂，f₃，b₃，f₄，b₄}构成，x_t-1是前一时刻t-1的隐含声道共振矢量，Φ是系统矩阵，I是单位矩阵，T是声道共振频率和带宽的目标矢量，w_t是状态方程式中的噪声，o_t是已观测矢量，C(x_t)是从隐含声道共振矢量到观测矢量的映射方程，v_t是观测中的噪声。在一个实施例中，Φ是对角矩阵，其每一元素具有根据经验所确定的0.7和0.9之间的值，T是矢量，在一个实施例中，它的值为：

(500 1500 2500 3500 200 300 400 400)T在本实施例中，噪声参数w_t和v_t的值由具有零平均值矢量和对角协方差矩阵的随机高斯样值来确定。本实施例中，这些矩阵的对角元素的值对w_t在10和30,000之间，对v_t在0.8和78之间。

在一个实施例中，已观测的矢量是线性预测编码倒谱(LPC倒谱)矢量，该矢量的每一分量表示一LPC阶。结果，可由解析非线性函数来精确地确定映射函数C(x_t)。帧t的矢量值函数C(x_t)的第n个分量为：

C_{n} (x_{t}) = Σ_{k = 1}^{K} \frac{2}{n} e^{- πn \frac{b_{k} (t)}{f_{s}}} \cos (2 πn \frac{f_{k} (t)}{f_{s}})

公式3

其中，C_n(x_t)是第N阶LPC倒谱特征矢量中的第n个元素，K是声道共振(VTR)频率的数量，f_k(t)是帧t的第k个VTR频率，b_k(t)是帧t的第k个VTR带宽，f_s是采样频率，在许多实施例中为8kHz，在其它实施例中为16kHz。C_o元素被设为等于logG，其中G是增益。

为从一列观测矢量标识一列隐含声道共振矢量，本发明使用卡尔曼(Kalman)滤波器。卡尔曼滤波器提供了一种递归技术，它可确定由公式1和2表示的线性动态系统中的连续值隐含声道共振矢量的最佳估算。这一卡尔曼滤波器在本领域中是众所周知的。

卡尔曼滤波器需要公式1和2的右侧对隐含声道共振矢量为线性。然而，公式3的映射函数对声道共振矢量是非线性的。为解决该问题，本发明使用了分段线性逼近来替代公式3中的指数和余弦项。在一个实施例中，指数项由5个线性段来表示，余弦项由10个线性段来表示。

图3示出了对公式3中的指数项的分段线性逼近。指数的值沿垂直轴300示出，第k个VTR带宽的带宽b_k的值沿水平轴302示出。在图3中，使用5个线段304、306、308、310和312来近似指数曲线314。下表提供了每一线段所覆盖的指数值的范围。

线段	指数值的范围
线段	指数值的范围	304	0-100Hz
306	100-200Hz	304	0-100Hz
306	100-200Hz	308	200-300Hz
310	300-400Hz	308	200-300Hz
310	300-400Hz	312	400-500Hz

表1

图4示出了对公式3中的余弦项的分段线性逼近的示例。余弦函数的值沿垂直轴400示出，第k个VTR频率的频率f_k的值沿水平轴402示出。在图4中，示出了余弦函数的单个周期，然而，本领域的技术人员将认识到，可对余弦函数的每一周期使用同一分段线性逼近。在图4的实施例中，余弦函数424由10个线段404、406、408、410、412、414、416、418、420和422来近似。下表2提供了由每一线段覆盖的余弦值的不均匀范围，假定完整的周期覆盖了从0Hz到8000Hz的频率范围。

线段	余弦值范围
线段	余弦值范围	404	0-500Hz
406	500-1000Hz	404	0-500Hz
406	500-1000Hz	408	1000-3000Hz
410	3000-3500Hz	408	1000-3000Hz
410	3000-3500Hz	412	3500-4000Hz
414	4000-4500Hz	412	3500-4000Hz
414	4000-4500Hz	416	4500-5000Hz
418	5000-7000Hz	416	4500-5000Hz
418	5000-7000Hz	420	7000-7500Hz
422	7500-8000Hz	420	7000-7500Hz

表2

使用这些线性逼近，公式3可重写为：

C_{n} (x_{t}) = Σ_{k = 1}^{K} \frac{2}{n} (α_{kx} x_{t} + β_{kx}) (γ_{kx} x_{t} + δ_{kx})

公式4

其中，α_kx是近似指数项的线段的斜率，β_kx是其截矩，γ_kx是近似余弦项的线段的斜率，δ_kx是其截矩。注意，这四项都依赖于x_t，因为用于近似非线性函数的线段是基于由依照表1和2的x_t的值来确定的区域上选择的。

公式4中的映射函数的形式在x_t中仍非线性，这是由于二次项的存在。在本发明的一个实施例中，忽略该项的递增部分，由此获得从x_t到C_n(x_t)的线性方程式。

在该形式中，只要参数基于表1和2中例示的范围是固定的，则可直接应用卡尔曼滤波器以从一列已观测的LPC特征矢量o_1:T来获取一列连续值状态x_1:T。

图5提供了一种一般的方法的流程图，该方法选择线性逼近，并在卡尔曼滤波器中使用该近似以使用公式1、2和4来标识一列连续值的状态，同时忽略公式4中二次项的递增部分。图6和7提供了图5的方法中使用的组件的框图。

在图5的步骤500，通过量化可能的声道共振(VTR)频率和带宽形成一组量化值，然后对量化值的不同组合形成条目，来构造储存在一表中的VTR码本。由此，所得的码本包含作为VTR频率和带宽的条目。例如，如果码本包含四个VTR的条目，码本中第i个条目x[i]为矢量[F_1i，B_1i，F_2i，B_2i，F_3i，B_3i，F_4i，B_4i]，其中，F_1i、F_2i、F_3i和F_4i是第一、第二、第三和第四VTR的频率，B_1i、B_2i、B_3i和B_4i是第一、第二、第三和第四VTR的带宽。在以下的讨论中，码本的索引i可与储存在该索引上的值x[i]交换使用。当下文单独使用索引时，它意味着表示储存在该索引上的值。

在一个实施例中，依照下表3中的条目量化共振峰和带宽，其中Min(Hz)是以赫兹表示的频率或带宽的最小值，Max(Hz)是以赫兹表示的最大值，“Num.Quant.”是量化状态数。对于频率和带宽，最小值和最大值之间的范围由量化状态数来划分，以在每一量化状态之间提供分隔。例如，对于表3中的带宽B1，260Hz的范围由5个量化状态均匀地划分，使得每一状态按照65Hz与其它状态分隔(即，40、105、170、235、300)。

	Min(Hz)	Max(Hz)	Num.Quant.
	Min(Hz)	Max(Hz)	Num.Quant.	F₁	200	900	20
F₂	600	2800	20	F₁	200	900	20
F₂	600	2800	20	F₃	1400	3800	20
F₄	1700	5000	20	F₃	1400	3800	20
F₄	1700	5000	20	B₁	40	300	5
B₂	60	300	5	B₁	40	300	5
B₂	60	300	5	B₃	60	500	5

B₄

100

700

5

表3

表3中的量化状态数可生成总共1亿个以上不同的VTR组。然而，由于约束F₁＜F₂＜F₃＜F₄，实际上码本中VTR的组较少。

在形成了码本之后，在步骤502，码本中的条目用于训练描述剩余随机变量的参数。剩余随机变量是一组观测训练特征矢量和一组仿真特征矢量之差。以公式表示：

v_t＝o_t-S(x_t[i]) 公式5

其中，v_t是余量，o_t是t时刻的已观测训练特征矢量，S(x_t[i])是仿真特征矢量。

如图6所示，当向LPC倒谱计算器602应用VTR码本600中的一组VTRx_t[i]需要时，构造仿真矢量S(x_t[i])，它执行以下计算：

S_{n} (x_{t} [i]) = Σ_{k = 1}^{K} \frac{2}{n} e^{- πn \frac{b_{k} [i]}{f_{s}}} \cos (2 πn \frac{f_{k} [i]}{f_{s}})

公式6

其中，S_n(x_t[i])是n阶LPC倒谱特征矢量中的第n个元素，K是VTR的数量，f_k是第k个VTR频率，b_k是第k个VTR带宽，f_s是采样频率，在许多实施例中为8kHz。S_o元素被设为等于logG，其中，G是增益。

为产生用于训练余量模型的已观察训练特征矢量o_t，人类说话者612生成由麦克风616检测的声学信号，麦克风616也检测附加噪声614。麦克风616将声学信号转化成提供给模-数(A/D)转化器618的模拟电信号。模拟信号由A/D转化器618以采样频率f_s来采样，并将所得的样值转化成数字值。在一个实施例中，A/D转化器618以8kHz和每样值16比特对模拟信号进行采样，由此创建了每秒16千字节的语音数据。在其它实施例中，A/D转化器618以16kHz对模拟信号进行采样。数字样值被提供给帧构造器620，它将样值组合成帧。在一个实施例中，帧构造器620每隔10毫秒创建包含25毫秒数据的新帧。

数据帧被提供给LPC倒谱特征提取器622，它使用快速傅立叶变换(FFT)将信号变换到频域，然后使用LPC系数系统626标识表示语音信号帧的频谱内容的多项式。使用递归628将LPC系数转化成LPC倒谱系数。递归628的输出是表示训练语音信号的一组训练特征矢量630。仿真特征矢量610和训练特征矢量630被提供给余量训练器632，它训练余量v_t的参数。

在一个实施例中，v_t是具有平均值h和精度D的单个高斯型，其中，h是对特征矢量的每一分量具有单独的平均值的矢量，D是对特征矢量的每一分量具有单独的值的对角精度矩阵。

在本发明的一个实施例中，使用期望值最大化(EM)算法来训练这些参数。在该算法的E步骤，确定后验概率

γ_{t} (i) = p (x_{t} [i] | o_{1}^{N}) .

在一个实施例中，该后验概率使用后向递归来确定，定义如下：

γ_{t} (i) = \frac{ρ_{t} (i) σ_{t} (i)}{\underset{i}{Σ} ρ_{t} (i) σ_{t} (i)}

公式7

其中，ρ_t(i)和σ_t(i)被递归地定义为：

ρ_{t} (i) = \underset{j}{Σ} ρ_{t - 1} (j) p (x_{t} [i] | x_{t - 1} [j]) p (o_{t} | x_{t} [i] = x [i])

公式8

σ_{t} (i) = \underset{j}{Σ} σ_{t + 1} (j) p (x_{t} [i] | x_{t + 1} [j]) p (o_{t} | x_{t} [i] = x [i])

公式9

在本发明的一个方面，使用上述公式1来确定转移概率p(x_t[i]|x_t-1[j])和p(x_t[i]|x_t+1[j]，此处为方便起见，使用码本索引表示法来重复该公式：

x_t[i]＝Φx_t-1[i]+(I-Φ)T+w_t 公式10

其中，x_t[i]是帧t的VTR的值，x_t-1[j]是前一帧t-1的VTR的值，Φ是速率，T是与帧t相关联的VTR的目标，w_t是帧t的噪声，在一个实施例中假定噪声为具有精度矩阵B的零均值高斯型。

使用这一动态模型，转移概率可被描述为高斯函数：

p(x_t[i]|x_t-1[j])＝N(x_t[i]；Φx_t-1[i]+(I-Φ)T，B) 公式11

p(x_t[i]|x_t+1[j])＝N(x_t+1[i]；Φx_t[i]+(I-Φ)T，B) 公式12

可选地，可通过令概率仅取决于当前观测矢量而非矢量序列来估算后验概率

r_{t} (i) = p (x_{t} [i] | o_{1}^{N}),

使得后验概率变为：

γ_t(i)≈p(x_t[i]|o_t) 公式13

它可被计算如下：

p (x_{t} [i] | o_{t}) = \frac{N (o_{t}; S (x_{t} [i]) + \hat{h}, \hat{D})}{Σ_{i - 1}^{I} N (o_{t}; S (x_{t} [i]) + \hat{h}, \hat{D})}

公式14

其中，是余量的平均值，是余量的精度，余量是根据EM算法的前一次迭代确定的，或者如果是第一次迭代，则是最初设定的。在执行了E步骤来标识后验概率

γ_{t} (i) = p (x_{t} [i] | o_{1}^{N})

之后，执行M步骤，使用以下公式来确定余量的方差D^-1(精度矩阵的逆)的平均值h和每一对角元素d^-1：

\hat{h} = \frac{Σ_{t = 1}^{N} Σ_{i - 1}^{I} γ_{t} (i) {o_{t} - S (x_{t} [i])}}{N}

公式15

{\hat{d}}^{- 1} = \frac{Σ_{t = 1}^{N} Σ_{i - 1}^{I} γ_{t} (i) {o_{t} - S (x_{t} [i]) - \hat{h}}^{2}}{N}

公式16

其中，N是训练话语中的帧的数量，I是VTR的量化组合的数量，o_t是t时刻的已观测特征矢量，S(x_t[i])是VTRx_t[i]的仿真特征矢量。

余量训练器632通过重复E步骤和M步骤来多次更新平均值和方差，每次都使用前一次迭代的平均值和方差。在平均值和方差达到稳定值之后，它们被作为余量参数634储存。

一旦构造了余量参数634，它们可在图5的步骤504中用于标识输入的语音信号中的VTR矢量。图7示出了用于标识VTR矢量的系统的框图。

在图7中，语音信号由说话者712生成。语音信号和附加噪声714由麦克风716、A/D转化器718、帧构造器720和特征提取器722转化成特征矢量流710，特征提取器包括FFT 724、LPC系统716和递归728。注意，麦克风716、A/D转化器718、帧构造器720和特征提取器722以与图6的麦克风616、A/D转化器618、帧构造器620和特征提取器622相同的方式操作。

特征矢量流730连同余量参数634和仿真特征矢量610一起提供给VTR跟踪器732。VTR跟踪器732使用动态编程来标识一列最可能的VTR矢量734。特别地，它使用维特比(Viterbi)解码算法，其中，网格图中的每一节点具有下列公式的最优部分得分：

δ_{t} (i) = \max_{x {[i]}_{1}^{j - 1}} Π_{τ = 1}^{t - 1} p (o_{τ} | x_{τ} [i]) p (o_{t} | x_{t} [i] = x [i])

\times p (x {[i]}_{1}) Π_{τ = 2}^{t - 1} p (x_{τ} [i] | x_{τ - 1} [i]) p (x_{τ} [i] = x [i] | x_{t - 1} [i])

公式17

基于最优原理，t+1处理阶段的最优部分似然性可使用以下维特比递归来计算：

δ_{t + 1} (i) = \max_{i^{'}} δ_{t} (i^{'}) p (x_{t + 1} [i] = x [i] | x_{t} [i] = x [i^{'}]) p (o_{t + 1} | x_{t + 1} [i] = x [i])

公式18

在公式18中，“转移”概率p(x_t+1[i]＝x[i]|x_t[i]＝x[i′])使用上文的状态方程式10来计算，以生成高斯分布：

p(x_t+1[i]＝x[i]|x_t[i]＝x[i′])＝N(x_t+1[i]；Φx_t[i′]+(I-Φ)T，B) 公式19

其中，Φx_t[i]+(I-Φ)T是该分布的平均值，B是该分布的精度。

公式18的观测概率p(o_t+1[i]＝x[i])被作为高斯型处理，并根据观测方程式5和余量参数h和D来计算，使得：

p(o_t+1|x_t+1[i]＝x[i])＝N(o_t+1；S(x_t+1[i]+h，D) 公式20

公式20中最优量化索引i′的后向跟踪提供了初始VTR序列734。

为减少必须执行的计算数量，可执行修剪(pruning)束搜索来替代严格的维特比搜索。在一个实施例中，在对每一帧仅标识一个索引时，使用修剪的极端形式。

在步骤504标识了初始VTR序列734之后，将初始VTR序列提供给线性参数估算器736，它选择用于上述步骤506处的公式4的线性逼近的参数。具体地，对于每一帧，该帧的初始VTR矢量用于确定对每一声道共振索引k和每一LPC阶n的线性参数α_kx、β_kx、γ_kx和δ_kx的值。

在一个实施例中，通过向指数项

应用初始VTR矢量的带宽b_k并计算该指数的值来对LPC阶n确定线性参数α_kx和β_kx的值。然后选择图3中跨越该指数值的线段，由此选择定义线段的线性参数α_kx和β_kx。注意，这些参数的每一个是对除与带宽b_k相关联的矢量分量之外的每一矢量分量具有零值的矢量。

在一个实施例中，通过向余弦项应用初始VTR矢量的频率f_k并计算该余弦的值来对LPC阶n确定线性参数γ_kx和δ_kx的值。然后选择图4中跨越该余弦值的线段，由此选择了定义线段的线性参数γ_kx和δ_kx。注意，这些参数的每一个是对除与频率f_k相关联的矢量分量之外的每一矢量分量具有零值的矢量。

在步骤508，将每一帧的线性参数应用到公式4。忽略公式4中二次项的递增部分，公式4在公式2中使用。然后将公式1和2提供给卡尔曼滤波器738，它对每一帧重新估算VTR矢量。在步骤510，过程确定是否存在更多迭代要执行。如果存在更多迭代，则过程返回到步骤506，根据新VTR矢量重新估算线性参数。然后将新线性参数应用到公式2到公式4，并且在步骤508在卡尔曼滤波器738中使用公式1和2来重新估算VTR矢量。重复步骤506、508和510，直到在步骤510确定不需要更多的迭代。在这一点上，过程在步骤512结束，VTR矢量734的最后一次估算用作输入信号的声道共振频率和带宽序列。

注意，卡尔曼滤波器738提供了声道共振矢量的连续值。由此，所得的声道共振频率和带宽的序列不限于VTR码本600中找到的离散值。

尽管参考具体实施例描述了本发明，然而本领域的技术人员将认识到，可在不脱离本发明的精神和范围的情况下在形式和细节上作出改变。

Claims

1.一种跟踪语音信号中的声道共振频率的方法，其特征在于，它包括：

定义对过去的声道共振矢量为线性的、且预测当前声道共振矢量的一状态方程式；

定义对当前声道共振矢量为线性的、且预测观测矢量的至少一个分量的一观测方程式；以及

使用所述状态方程式、所述观测方程式和所述观测矢量序列来标识一声道共振矢量序列，每一声道共振矢量包括至少一个声道共振频率。

2.如权利要求1所述的方法，其特征在于，使用所述状态方程式、所述观测方程式和所述观测矢量序列来标识声道共振矢量序列包括向一卡尔曼滤波器应用所述状态方程式、所述观测方程式和所述观测矢量序列。

3.如权利要求1所述的方法，其特征在于，标识声道共振矢量包括根据一组连续值标识声道共振矢量。

4.如权利要求1所述的方法，其特征在于，定义所述观测方程式包括定义对所述声道共振矢量非线性的函数的线性逼近。

5.如权利要求4所述的方法，其特征在于，定义所述观测方程式还包括定义对两个函数的乘积的线性逼近，该两个函数的每一个对所述声道共振矢量都为非线性。

6.如权利要求5所述的方法，其特征在于，对所述声道共振矢量非线性的所述函数的其中之一是一个对所述声道共振矢量的带宽分量非线性的指数函数。

7.如权利要求5所述的方法，其特征在于，对所述声道共振矢量非线性的所述函数的其中之一是对所述声道共振矢量的频率分量非线性的正弦函数。

8.如权利要求4所述的方法，其特征在于，定义线性逼近包括从共同形成对所述非线性函数的分段线性逼近的一组线性逼近中选择一线性逼近。

9.如权利要求4所述的方法，其特征在于，定义线性逼近包括基于声道共振矢量的估算来计算所述非线性函数的值以生成一非线性函数值，并使用所述非线性函数值来选择所述线性逼近的参数。

10.如权利要求9所述的方法，其特征在于，定义线性逼近还包括使用所述非线性函数值以从共同形成对所述非线性函数的分段线性逼近的一组线性逼近中选择一线性逼近。

11.如权利要求1所述的方法，其特征在于，它还包括：

使用所标识的声道共振矢量来重定义所述观测方程式；以及

使用所述重定义的观测方程式、所述状态方程式和所述观测矢量来标识一声道共振矢量的新序列。

12.如权利要求11所述的方法，其特征在于，重定义所述观测方程式包括使用一已标识的声道共振矢量来选择对声道共振矢量非线性的函数的至少一个线性逼近的参数。

13.如权利要求12所述的方法，其特征在于，使用已标识的声道共振矢量来选择参数包括使用所述声道共振矢量来计算所述非线性函数的值以生成一非线性函数值、及使用所述非线性函数值来选择至少一个线性逼近的参数。

14.一种具有计算机可执行指令的计算机可读媒质，其特征在于，所述指令执行以下步骤：

使用至少一个声道共振分量的估算来选择对所述声道共振分量非线性的函数的线性逼近；

使用所述线性逼近来定义一观测方程式；以及

使用所述观测方程式和至少一个观测矢量来重新估算所述声道共振分量。

15.如权利要求14所述的计算机可读媒质，其特征在于，选择线性逼近包括从形成所述非线性函数的分段线性逼近的一组线性逼近中选择一线性逼近。

16.如权利要求14所述的计算机可读媒质，其特征在于，选择线性逼近包括向所述非线性函数应用所述声道共振分量以形成一函数值、及基于所述函数值选择所述线性逼近。

17.如权利要求14所述的计算机可读媒质，其特征在于，重新估算所述声道共振分量的值还包括使用对所述声道共振分量线性的一状态方程式。

18.如权利要求17所述的计算机可读媒质，其特征在于，重新估算所述声道共振分量的值还包括向一卡尔曼滤波器应用所述状态方程式、所述观测方程式和所述至少一个观测矢量。

19.如权利要求14所述的计算机可读媒质，其特征在于，它还包括选择对所述声道共振分量非线性的第二函数的第二线性逼近、及使用所述第二线性逼近来定义所述观测方程式。

20.如权利要求14所述的计算机可读媒质，其特征在于，所述非线性函数包括一指数函数。

21.如权利要求14所述的计算机可读媒质，其特征在于，所述非线性函数包括一正弦函数。

22.如权利要求14所述的计算机可读媒质，其特征在于，所述声道共振分量是连续值。