CN1121681C

CN1121681C - 语言处理

Info

Publication number: CN1121681C
Application number: CN97193504A
Authority: CN
Inventors: B·P·米尔纳
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1996-03-29
Filing date: 1997-03-25
Publication date: 2003-09-17
Anticipated expiration: 2017-03-25
Also published as: CA2247006C; JP4218982B2; EP0891618A1; NZ331431A; KR20000004972A; JP2000507714A; DE69705830D1; CN1215491A; DE69705830T2; NO984502L; WO1997037346A1; EP0891618B1; US6278970B1; AU2168497A; NO984502D0; CA2247006A1; HK1018110A1; AU712412B2

Abstract

一种产生用于语言识别的特征的方法和设备，所说方法包括：计算一个输入语言信号的预定数目的n个帧中的每一帧的对数帧能量值；并且向n个对数帧能量值施加一个矩阵变换以形成代表输入语言信号的一个时序矩阵。该矩阵变换可以是离散余弦变换。

Description

语言处理

本发明涉及语言处理，具体来说涉及用于语言识别的特征的产生。

自动语言识别系统一般是为一特定的应用设计的。例如，一种由公众访问的服务要求有一种普通的语言识别系统，这种系统可识别来自任何用户的语言。和专用于一个用户的数据有关的自动语言识别器或者用于识别用户，或者用于鉴定用户的要求保护的身份(所谓发言者识别)。

自动语言识别系统或者直接地或者间接地(例如经一电信链路)接收来自一个送话器的输入信号。然后通过语言处理装置处理该输入信号，一般通过产生随时间而变的输入信号的特征的一个适当的(频谱)表示，把输入信号分割成相继的时间区段或帧。频谱分析的通用技术是线性预测编码(LPC)和傅里叶变换。接着，把频谱测量值转换成用于描述输入信号的宽声学性质的一组特征或特征矢量。在语言识别中所用的最普通的特征是唛(音调单位)-频率倒频系数(mel-frequency cepstral coefficlents-MFCC)。

然后，将这些特征和代表要识别的字(或者字的一些部分)或短语的多个模式进行比较，其中所说的多个模式还按某种方式和所说的字或短语有关联。比较的结果指示字/短语是否被认为已被识别。

用于语言识别的模式匹配法一般来说涉及两种技术之一：模板匹配技术或统计模型技术。对于前者，形成一个模板，该模板代表表示一个字的典型语言信号的频谱特性。每个模板是在整个语言持续期间的频谱帧的结合。于是，经一平均步骤可产生用于一个模式的语言帧的一个典型的序列，并且将一个输入信号和这些模板作比较。表示一个模式的多个帧的频谱特性的特点的一种众所周知的并且广泛使用的统计方法是隐式马尔可夫模型(hidden Markov model)(HMM)法。HMM(或者任何其它类型的统计模型)的重要假设是：语言信号的特征是一个参数的随机过程，并且可按照一种准确的、完全确定的方式确定该随机变化的过程的参数。

现行的模式匹配技术(尤其是HMM)的一个众所周知的缺陷是缺乏利用特征抽取的相关性的有效机制。一种左-右HMM法提供一种时序结构，用于给语言频谱特征从一个状态到下一个状态的时间进展变化建立模型，但在每一状态内假定观测矢量是相互独立并且恒等分布的(IID)。IID假设说：在相继的语言矢量之间没有任何相关性。这就是说，在每个状态内，语言矢量与具有相同的平均值和协方差的相同的几率密度函数(DDF)相关联。这进一步表明，在每个状态内的频谱-时间轨迹是一个具有不变的平均值的随机涨落的曲线。然而，在实际中，频谱-时间轨迹在从一个语言事件移动到下一个语言事件时很清晰地有一个确定的方向。

IID假设的频谱矢量的这种背离实际的现象归因于在HMM法的性能中的限制。把某种时序的信息包括在语言特征中，可减小语言是一种不变的独立过程这种假设的不良效果，并且可用来改善识别性能。

允许把时序信息包括在特征矢量中的一个常规的方法是，用倒频谱的一阶和二阶时间导数来扩充特征矢量。语言动态特性的一种在数学上更加隐含的表示方法是倒频谱-时间矩阵，所说矩阵利用一种余弦变换来编码该时序信息，见B P Milner和S V Vaseghi所著(对用于噪声和信道健全语言识别的倒频谱-时间特征矩阵的分析)“Ananalysis of cepstral-time feature matrices for noise andchannel robust speech recognition”(Proc.Eurospeech，pp519-522，1995)。

获得倒频谱-时间矩阵Ct(m，n)的方法是，或者向一频谱-时间矩阵施加一个二维的离散余弦变换(DCT)，或者向唛-频率倒频谱系数(MFCC)语言矢量的一个堆栈施加一个一维的DCT。把M个N维对数滤波器组的矢量堆在一起，形成一个频谱-时间矩阵Xt(f，k)，其中：t表示时间帧，f表示滤波器组信道，并且k表示矩阵中的时间矢量。然后，使用一个二维的DCT把该频谱-时间矩阵变换成倒频谱-时间矩阵。由于一个二维的DCT可分成两个一维的DCT，所以，构成倒频谱-时间矩阵的另一个方案是沿由M个常规MFCC矢量组成的一个矩阵的时间轴施加一个一维的DCT。

按照本发明的第一方面，提供一种产生用于语言识别的特征的方法，所说方法包括：计算一个输入语言信号的预定数目的n个帧中的每个帧的对数帧能量值；并且向n个对数帧能量值施加一种变换以形成代表该输入语言信号的时序矢量。

和用扩充的导数以倒频谱矢量实现的显式表示法相比，在时序的矢量内隐含地产生语言过渡动态变化。于是，在这种矩阵上训练的模型具有如下优点：可进行反向变换；并且对于诸如并行模型组合(PMC)之类的技术，可反向变换到线性滤波器组的域，以便改进相对于噪声的健壮性。

变换可以是离散余弦变换。最好，把时序矩阵截断，使其包括少于n个的元素。已经发现，这样作能产生良好的性能效果，同时又能减小有关的计算量。可以省略矩阵的稳态(m＝0)的列，从而可通过线性卷积信道失真来除掉语言信号中的任何失真，使该矩阵具有信道健壮特征。

本发明还涉及包括本发明的特征产生方法在内的一种语言识别方法。

按本发明的另一方面，提供用于语言识别的特征产生设备，它包括：

用于计算一个输入语言信号的预定数目的n个帧中每一个帧的能量的对数的处理器；以及

用于对n个对数能量值施加一个变换以便通过计算可形成代表输入语言的一个时序矢量的处理器。

本发明的特征产生装置适于和语言识别设备一道使用，并且还能产生用于这种设备的识别数据。

现在参照附图结合实例描述本发明，其中：

图1示意地表示在一电信环境中的一个语言识别器的实施例；

图2是一语言识别器的示意表示；

图3示意地表示按本发明的一个特征抽取器的部件；

图4表示确定一个Karhunen-Loeve变换的步骤；

图5示意地表示形成图2的语言识别器的一部分的一个常规的语言分类器的部件；

图6是示意地表示图5的分类器的操作的一个流程图；

图7是示意地表示形成图2的语言识别器的一部分的一个常规的定序器的部件的方块图；

图8示意地表示在形成图7的定序器的一部分的一个存储器内的一个字段的内容；以及

图9是示意地表示图7的定序器的操作的一个流程图。

参照图1，一种包括语言识别的电信系统一般来说包括：一个送话器1(一般，形成一个电话手机的一个部分)；一个电信网络2(一般，是一个公众交换电信网(PSTN))；一个语言识别器3，对其进行连接以从网络2接收声音信号；以及，一个应用设备4，它和语言识别器3相连，并对其进行安排以便从语言识别器3接收一声音识别信号，指示一个特定字或短语的识别结果或其它，并据此采取行动。例如，应用设备4可以是实现金融交易、信息服务等的一个遥控终端。

在许多情况下，应用设备4将产生对用户的可听响应，该响应经网络2发送到扬声器5，扬声器5一般形成用户手机的一部分。

在操作中，一用户向送话器1讲话，从送话器1向网络2发送信号，该信号到达语言识别器3。语言识别器3分析该语言信号，并且产生一个指示特定字或短语的识别结果或其它的信号，并且将该信号发送到应用设备4，并且一旦识别出该语言，应用设备4就采取适当的动作。

一般来说，语言识别器3不知道该信号从送话器1到网络2并穿过网络2所走的路线。在大量的手机类型或不同质量的手机当中，可能使用其中的任何一种。类似地，在网络2内，在大量的发送路径中，可能取其中的任何一个，其中包括无线链路、模拟路径、和数字路径、等。因此，抵达语言识别器3的语言信号Y对应于在送话器1接收的语言信号S，但所说语言信号S是经过送话器1、至网络2的链路、穿过网络2的信道、和至语言识别器3的链路(它们总括起来可用单个传递特性H表示)的变换特性卷积的。

一般说来，语言识别器3需要获取有关语言的数据，据此鉴别语言信号，并且这种数据采集是通过按训练操作方式工作的语言识别器完成的；在所说训练操作方式下，语言识别器3从送话器1接收语言信号以形成用于该字或短语的识别数据。然而还可能有获取语言识别数据的其它一些方法。

现在参照图2，语言识别器包括：一个输入端31，用于接收数字形式的语言(或从一数字网络，或从一模拟/数字转换器)；一个帧发生器32，用于把一系列的数字采样值分隔成一系列的由连续的采样值组成的帧；一个特征抽取器33，用于从采样值帧产生一个对应的特征矢量；一个分类器34，用于接收系列的特征矢量并产生识别结果；一个定序器35，用于确定输入信号表现出最大相似性的预定声音；以及，一个输出端口35，用于提供指示已被识别的语言声音的识别信号。

如早些时候曾提到过的，语言识别器一般来说是在训练阶段获得识别数据的。按照本发明，在训练期间，把语言信号输入到语言识别器3，并通过特征抽取器33抽取一个特征。通过语言识别器3存储该特征，以供随后的识别之用。可以用任何方便的形式存储该特征，例如通过隐式Markov模型(HMM)进行建模，这是在语言处理中一项众所周知的技术，下面对其再作介绍。在识别期间，特征提取器从一未知的输入信号抽取一个相似特征，并且比较该未知信号特征与针对每个要识别的字/短语存储的特征(一个或多个)。

为简单起见，下面描述识别阶段中语言识别器的操作。在训练阶段，使用提取的特征来训练适当的分类器34，这在本领域中是众所周知的。帧发生器32

对帧发生器32进行安排，使其能够以例如每秒8000个采样值的速率接收语言采样值，并且以每16毫秒1帧的帧速率形成由256个连续的采样值构成的帧。最好，例如使用汉明窗口(Hamming window)来减小由帧边缘产生的假象，从而可对每个帧窗口化(即，在帧边缘附近的采样值要乘以预定的加权常数)。在优选实施例中，帧是重叠的(例如，重叠50％)，从而改善了窗口化的效果。特征抽取器33

特征抽取器33从帧发生器32接收帧，并且从每一个帧产生一个特征或特征矢量。图3表示的是按本发明的一个特征抽取器的实施例。可提供附加措施来产生其它特征，例如LPC倒频系数或者MFCC。

把一个输入语言信号的每一帧j输入到处理器331，该处理器331计算数据帧的平均能量，即，能量计算器处理器331计算：

E_{{uv}_{i}} = \frac{1}{256} Σ_{i = 1}^{256} x_{i}^{2}

其中，X_i是帧j中采样值i的能量值。

然后，对数处理器332形成帧j的这个平均值的对数。该对数能量值输入到缓冲器333，缓冲器333具有足够大的长度以存储例如n＝7的n个帧的这个对数能量值。一旦计算出7个帧的数据值，就把该堆栈数据输出到变换处理器334。

在形成帧能量矢量或时序矩阵的过程中，输入到变换处理器334的堆栈对数能量值的频谱-时间矢量要乘以一个变换矩阵，即

MH＝T其中，M是堆栈对数能量值的矢量，H是可对时序信息编码的变换矩阵，并且T是帧能量矢量。

变换矩阵H的列是用于编码时序信息的基函数。使用编码时序信息的这种方法，可以使用很大范围内的变换矩阵作为时序变换矩阵H。

变换矩阵H编码时序信息，即，变换矩阵H使对数能量值堆栈的协方差矩阵变为对角矩阵。这就是说，通过H矩阵变换的对数能量值的协方差矩阵的非对角线元素(即，非主对角线元素)趋向于零。协方差矩阵的非对角线元素表示对应采样值之间的相关程度。实现这种方法的最佳变换是Karhunen-Loeve(KL)变换，见NS Jayant和P Noll所著的书“波形的数字编码”(Digital Coding of Waveforms，Prentice，1984)。

为了寻找编码由特征矢量传达的时序信息的最佳KL变换，需要有关矢量的相继相关性的统计学方法。如果使用这种相关信息，即可计算该KL变换。图4表示和从语言数据确定KL变换有关的步骤。

为了精确确定KL变换，首先把整个训练数据集参数化成对数能量值。产生向量X_t，向量X_t包含n个按时间相继的对数能量值：

X_t＝[C_t，C_t-1，…，C_t+n-1]

从该整个训练集的该整个矢量集，计算出一个协方差矩阵∑_xx，∑_xx＝E{xx^T}-μ_xμ_x ^T，其中μ_x是对数能量值的平均矢量。

可以看到，这个协方差矩阵∑_xx和相关矩阵E{xx^T}紧密相关，并且它本身就包含有关语言的时序动态特性的信息。KL变换是从协方差矩阵的本征矢量确定的，并且例如使用奇异值分解可以计算出该KL变换，其中

H^T∑_XXH＝dia(λ₀，λ₁，…，λ_M)＝Λ

最终的矩阵H是由协方差矩阵的本征向量构成的。按照相应本征值λ_i的大小排列这些本征值。该矩阵就是KL导出的时序变换矩阵。

可使用另外一些多项式来产生时序变换矩阵，例如勒让德多项式、拉盖尔多项式等。KL变换是很复杂的，因为需要针对每一组训练数据来计算变换矩阵本身。另外，还可以使用离散余弦变换(DCT)。在这种情况下，变换处理器334计算和n个帧的对数能量值有关的堆栈数据的DCT。

一维DCT定义为：

F (u) = \sqrt{\frac{2}{n}} C (u) Σ_{i = 0}^{n - 1} f (i) \cos [\frac{(2 i + 1) uπ}{2 n}]

其中：

f(i)＝帧i的对数能量值

c (u) = 1 / \sqrt{2}

对于u＝0

＝1 否则

u是从0到n-1的一个整数

变换处理器334输出从n个帧数据产生的n个DCT系数。这些系数形成和输入信号的能量值有关的一个帧能量矢量。

对于输入信号的相继的n个帧中的每一个，例如当n＝7时对于帧0-6、1-7、2-8、等等。都形成一个能量矢量。帧能量矢量形成一帧语言的一个特征矢量的一部分。可以使用这一特征来增扩其它特征，例如MFCC，或微分MFCC。分类器35

参照图5，分类器35是一种常规设计，在该实施例中，分类器35包括一个HMM分类处理器341、一个HMM状态存储器342、和一个方式存储器343。

状态存储器342对于要识别的多个语言部分中的每一个都包括一个状态字段3421，3422，……。例如，对于要识别的一个字的每个音素，都可提供一个状态字段。对于噪音/无声，也可以提供一个状态字段。

在状态存储器342中的每个状态字段包括一个指针字段3421b、3422b、……用于存储针对方式存储器343中的一个方式字段组361、362、……的指针地址。每个方式字段组都包括多个方式字段3611、3612……，每个方式字段都包括用于确定代表所说状态特征的特征系数值的多维高斯分布的数据。例如，如果在每个特征中有d个系数(例如，头8个MFCC系数和本发明的能量矩阵的7个系数)，则存储在每个方式字段3611、3612、……中的表示每种方式的特征的数据是：一个常数C、一组d个特征平均值Mi、和一组d个特征偏差σ_i；换言之，总共2d+1个数。

在每个方式字段组361、362、……中，方式字段3611、3612、……的数据Ni是可变的。在训练阶段产生方式字段，方式字段代表由特征抽取器导出的特征(一个或多个)。

在识别期间，对分类处理器34进行安排，以便可读出也在存储器342中的每个状态字段，并且针对每个状态字段、使用由本发明的特征抽取器33输出的当前输入特征系数组计算该输入特征组和相应的状态产生相互对应关系的几率。为此，如图6所示，对处理器341进行安排，以便可在状态字段中读出指针、访问由指针指向的方式存储器343中的方式字段组、并且针对方式字段组中的每个方式字段j计算模态几率P_j。

接下去，处理器341通过对模态几率P_j求和来计算状态几率。因此，分类处理器341的输出是多个状态几率P，状态存储器342的每个状态都有一个状态几率P，代表输入特征矢量对应于每个状态的似然性。

可以理解，图6只是为了说明分类器处理器341的操作。实践中，每个方式几率只计算一次，并进行暂时的存储，就可以用在和与方式对应的音素有关的所有状态几率的计算中。

分类处理器341可以是经适当编程的数字信号处理(DSP)设备，并且具体来说可以是和特征抽取器33相同的数字信号处理设备。定序器35

参照图7，定序器35在设计上是常规的，并且在该实施例中包括：一个状态几率存储器353，它对于处理过的每一帧存储由分类器处理器341输出的状态几率；一个状态序列存储器352；一个语法分析处理器351；以及，一个定序器输出缓冲器354。

状态序列存储器352包括多个状态序列字段3521、3522、……，每个字段对应于要识别的一个字或短语的序列，每个字段例如由一串音素组成。如图8所示，在状态序列存储器352中的每个状态序列包括一系列状态P₁、P₂、……P_N，并且对于每个状态有两个几率：一个重复几率(P_j1)和到下一个状态的过渡几率(P_j2)。因此，与一系列帧有关的、观测到的状态序列在每个状态序列模型3521等中可能包括每个状态P_j的几次重复；例如：

帧号	1 2 3 4 5 6 7 8 9 ……Z Z+1
帧号	1 2 3 4 5 6 7 8 9 ……Z Z+1	状态	P1 P1 P1 P2 P2 P2 P2 P2 P2……Pn Pn

如图9所示，对定序处理器351进行安排，以便在每一帧都可读出由分类器处理器341输出的状态几率以及先前在状态几率存储器353中存储的状态几率，计算随时间而变的最大可能的状态路径，并且将这个状态序列与存储在状态序列存储器中的每个状态序列进行比较。

该计算使用了众所周知的隐式Markov模型方法，该方法概述在“用于自动语言识别的隐式Markov方法：理论和应用”(“HiddenMarkov Method for Automatic Speech Recognition：theory andapplications”)上，作者为S.J.Cox，British Telecom TechnologyJournal(英国电信技术杂志)，1988年4月第105页。习惯上，由定序处理器351实现的HMM处理使用了公知的维特比算法。定序处理器351例如可以是诸如Intel^(TM)i-486^(TM)微处理器、或Motorola^(TM)6800微处理器之类的微处理器，或者按另一种方式可以是一种DSP设备(例如，和对于任何先前的处理器所采用的DSP设备相同的一种DSP设备)。

因此，对于每个状态序列(对应于要识别的一个字、短语、或其它语言序列)，在输入语言的每一帧都要由定序处理器351输出一个几率评分。例如状态序列可以包括电话薄中的名称。当检测到声音结束时，从定序处理器351向输出端口38输出指示最大可能状态序列的一个标记信号，指示：已经识别出对应的名称、字、或短语。

Claims

1.一种产生用于语言响应设备的特征的方法，所说方法包括：

计算一个输入语言信号的预定数目的n个帧中的每一序列的对数帧能量值；并且，

向n个对数帧能量值施加一个变换矩阵以形成代表该输入语言信号的一个帧能量矢量，

其特征在于，所说变换矩阵编码时序信息，使得所说帧能量矢量的协方差矩阵的非对角线元素基本上为零。

2.如权利要求1的方法，其中：相继的序列代表该输入信号的n个帧的各个重叠的组。

3.如权利要求1的方法，其中：变换矩阵是一离散余弦变换。

4.如权利要求1的方法，其中：截断该帧能量矢量以包括小于n个元素。

5.一种语言识别方法，包括：

接收代表语言的输入信号，把所说输入信号分成多个帧；

通过计算一个输入语言信号的预定数目的n个帧中每个帧的对数帧能量值产生一个特征；并且，

向n个对数帧能量值施加一个变换矩阵以形成代表输入语言信号的一个帧能量矢量；

比较产生的特征与代表允许的声音的识别数据，所说的识别数据和所说特征是相关的；以及

根据比较步骤指示该识别结果或其它；

6.如权利要求5的语言识别方法，其中：对变换处理器进行安排，以便能向n个对数能量值施加一个离散余弦变换。

7.一种用于语言响应设备的特征产生装置，所说特征产生装置包括：

一个用于计算一个输入语言信号的预定数目的n个帧中每一个帧的对数帧能量值的处理器；以及

一个用于向n个对数帧能量值施加一个变换矩阵以便通过计算可形成代表输入语言的一个帧能量矢量的处理器；其特征在于，所说变换矩阵编码时序信息，使得所说帧能量矢量的协方差矩阵的非对角线元素基本上为零。

8.如权利要求7的特征产生装置，其中：对该变换处理器进行安排，以便能够向n个对数能量值施加一种离散余弦变换。

9.一种包括如权利要求7所述的特征产生装置的语言识别设备。