CN1216380A

CN1216380A - 特征抽取装置和方法以及模式识别装置和方法

Info

Publication number: CN1216380A
Application number: CN98125060A
Authority: CN
Inventors: 岩桥直人; 包洪长; 本田等
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1997-10-31
Filing date: 1998-10-31
Publication date: 1999-05-12
Also published as: CA2251509A1; AU8937398A; BR9804324A; US7509256B2; TW392130B; US7117151B2; US6910010B2; SG75886A1; JP3584458B2; JPH11133992A; US20050171773A1; EP0913810A3; EP0913810A2; CA2251509C; US20020010583A1; AU746511B2; KR19990037460A; US20050171772A1

Abstract

本发明意在提高语音识别和图像识别中的识别速率。将作为输入数据表示观测矢量空间中的某一点的观测矢量进行变换映射到在特征矢量空间中离散的一点,以及确定表示该分布的特征分布参数。根据特征分布参数进行输入数据的模式识别。

Description

特征抽取装置和方法以及模式识别装置和方法

本发明涉及一种特征抽取装置和方法以及模式识别装置和方法。特别是本发明涉及适合于在噪声环境中进行语音识别的情况下使用的特征抽取装置和方法以及模式识别装置和方法。

图1表示一种常规的模式识别装置的示例性结构。

一个作为模式识别对象的观测矢量输入到特征抽取部分101。特征抽取部分101根据该观测矢量确定表示其特征参量的特征矢量。这样确定的特征矢量提供到一鉴别部分102。根据由特征提取部分101提供的特征矢量，鉴别部分102判别该输入的观测矢量属于预定数量的类别中的哪一类别。

例如，在图1中的模式识别装置是语音识别装置的情况下，每一时间单位的语音数据(在适当的情况下，下文称为一帧)作为一观测矢量输入到特征抽取部分101。特征抽取部分101按声学原理对作为观测矢量的语音数据进行分析，并因此抽取特征矢量作为语言的特征参数例如功率谱、倒频谱系数或线性预测系数。该特征矢量提供到鉴别部分102。鉴别部分102将该特征矢量分类为预定数量类别中的一个类别。分类结果作为语言数据(观测矢量)的识别结果输出。

在鉴别部分102中在已知的用于判别一特征矢量属于预定数量的类别中的一个类别的各种方法中，有利用Mahalanobis鉴别函数，混合正态分布函数或多项式函数的方法、利用HMM方法的方法，以及利用中枢网络的方法。

例如，上述语音识别技术的详细情况公开在由L.Rabiner和BH.Juang共同著的“语音识别基本原理(Ⅰ)和(Ⅱ)”，(由Furui(NTT Advanced Technology Corp)出版的论文集，1995)。至于普遍的模式识别，例如在RDuda和P.Hart所著的“模式分类和场景分析”(John Wiley & Sons 1973)。

顺便说，当进行模式识别时，作为模式识别对象的观测矢量(输入模式)通常包含噪声。例如作为观测矢量当进行语音识别时输入的声音包含使用人谈话时的环境噪声(例如，其它人的声音或车辆的噪声)。为了提供另一个实例，作为观测矢量当进行图像识别时输入的图像包含图像的拍摄环境的噪声(例如与气候条件例如雾或雨相关的噪声，或由于用于拍摄图像的摄像机的透镜像差)。

已知频谱相减法是特征参量(特征矢量)抽取方法中的一种，这些抽取方法用在噪声环境中的声音识别。

在频谱相减法中，将产生声音之前的输入(即在一语音段落之前的输入)采用作为噪声，以及计算噪声的平均频谱。当接着输入声音时，由该声音中减去噪声平均频谱，通过利用其余的部分计算特征矢量作为真实声音部分。

频谱相减法的详细情况例如公开在S.F.Boll的“利用频谱相减抑制语音中的噪声”(IEEE关于声学、语音和信号处理的论文集，第1卷，ASSP-27，第2期，1979)；以及P.Lockwood和J.Boudy的“利用非线性频谱减法器、隐藏马尔科夫模型的实验及设计，汽车中的实用语音识别”(语音通信，第11卷1992)。

顺便说，可认为图1中的模式识别装置中的特征抽取部分101实行一种处理，即将表示在观测矢量空间中的某一点的观测矢量变换映射到表示在图2中所示的特征矢量空间中的对应点的特征矢量Y。

因此，特征矢量Y表示在特征矢量空间中的某一点(对应于观测矢量a)。在图2中，按照三维空间画出了观测矢量空间和特征矢量空间。

按照频谱相减法，由观测矢量a减去平均噪声部分频谱，然后计算特征矢量Y。然而，由于特征矢量Y如上所述表示特征矢量空间中的一个点，特征矢量Y不反映表示噪声的不规则性例如离差(variance)的特性，虽然其反映噪声的平均特性。

因此，特征矢量Y不能充分反映观测矢量a的特征，因此难于利用这种特征矢量Y实现高的识别速率。

根据上述情况形成本发明，因此本发明的目的是提高识别速度。

根据本发明的第一方面，提供一种特征抽取部分，其抽取输入数据的特征参量，包含：计算装置，用于计算一表示当将输入数据进行变换映射到输入数据的特征参量的空间中时得到的分布的特征分布参数。

根据本发明的第二方面，提供一种特征抽取方法，用于抽取输入数据的特征参量，包含的步骤有：计算一表示当将输入数据进行变换映射到输入数据的特征参量的空间中时得到的分布的特征分布参数。

根据本发明的第三方面，提供一种模式识别装置，其通过将该模式分类为预定数量的类别中的一个类别来识别输入数据的模式，包含：计算装置，用于计算一表示当将输入数据进行变换映射到输入数据的特征参量的空间中时得到的分布的分布特征参数；以及分类装置，用于将特征分布参数分类为预定数量的类别中的一个类别。

根据本发明的第四方面，提供一种模式识别方法，用于通过将该模式分类为预定数量的类别中的一类别来识别输入数据的模式，包含的步骤有：计算一表示当将输入数据进行变换映射到输入数据的特征参量的空间中时得到的分布的特征分布参数；以及将特征分布参数分类为预定数量的类别中的一个类别。

根据本发明的第五个方面，提供一种模式识别装置，其通过将该模式分类为预定数量的类别中的一个类别来识别输入数据的模式，包含：帧形成装置，用于按预定间隔抽取部分输入数据，以及按照一帧数据输出每一抽取的数据；特征抽取装置，接收由每一抽取的数据组成的一帧数据，用于输出一表示当将一帧数据进行变换映射到该一帧数据的特征参量的空间中时得到的分布的特征分布参数；以及分类装置，用于将一系列特征分布参数分类为预定数量的类别中的一个类别。

根据本发明的第六方面，提供一种模式识别方法，用于通过将该模式分类为预定数量的类别中的一个类别来识别输入数据的模式，包含：帧形成步骤，按照预定间隔抽取部分输入数据，以及按照一帧数据输出每一抽取的数据；特征抽取步骤，接收由每一抽取的数据组成的一帧数据，并输出一表示当将一帧数据进行变换映射到该一帧数据的特征参量的空间中时得到的分布的特征分布参数；以及分类步骤，将一系列特征分布系数分类为预定数量的类别中的一个类别。

在根据本发明的第五方面的特征抽取装置中，该计算装置计算一表示当将输入数据进行变换映射到输入数据的特征参量的空间中时得到的分布的特征分布参数。

在根据本发明的第二方面的特征抽取方法中，计算一表示当将输入数据进行变换映射到输入数据的特征参量的空间中时得到的分布的特征分布参数。

在根据本发明的第三方面的模式识别装置中，计算装置计算一表示当将输入数据进行变换映射到输入数据的特征参量的空间中时得到的分布的特征分布参数，并且分类装置将该特征分布参数分类为预定数量的类别中的一个类别。

在根据本发明的第四方面的模式识别方法中，计算一表示当将输入数据进行变换映射到输入数据的特征参量的空间中时得到的分布的特征分布参数；以及将该特征分布参数分类为预定数量的类别中的一个类别。

在根据本发明的第五方面的模式识别装置中，其通过将该模式分类为预定数量的类别中的一个类别来识别输入数据的模式，按照预定的间隔抽取部分输入数据，并按照一帧数据输出每一抽取的数据。输出一表示当将每一抽取数据组成的一帧数据进行变换映射到该一帧数据的特征参量的空间中时得到的分布的特征分布参数。然后将一系列的特征分布参数分类为预定数量的类别中的一个类别。

在根据本发明的第六方面的模式识别方法中，通过将该模式分类为预定数量的类别中的一个类别来识别输入数据的模式，按照预定间隔抽取部分输入数据，并按照一帧数据输出每一抽取的数据。输出一表示当将每一抽出的数据组成的一帧数据进行变换映射到该一帧数据的特征参量的空间中时得到的分布的特征分布参数。然后，将一系列的特征分布参数分类为预定数量类别中的一个类别。

图1是表示常规模式识别装置的示例性结构的方块示意图；

图2表示图1中所示的特征抽取部分101的工作过程；

图3是表示根据本发明的一实施例的语音识别装置的示例性结构的方块示意图；

图4表示图3中所示的帧形成部分的过程；

图5表示图3中所示的特征抽取部分的过程；

图6是表示图3中所示的特征抽取部分的示例性结构的方块示意图；

图7A和7B表示噪声功率谱和真实声音功率谱的概率密度函数；

图8是表示在图3中所示的鉴别部分的示例性结构的方块示意图；

图9表示HMM；以及

图10是表示图3中所示的特征抽取部分2的另一示例性结构的方块示意图。

图3表示根据本发明的一实施例的语音识别装置的示例性结构。

作为识别对象的数字语音数据输入到帧形成部分1。例如，如图4中所示，帧形成部分1按预定的时间间隔(例如10毫秒)抽取部分的接收语音数据1这一操作称为帧形成)，并将作为1帧数据的每一抽取语音数据输出。由帧形成部分1输出的每一帧语音数据以观测矢量a的形式提供到特征抽取部分，该观测矢量a含有该帧包含的作为分量(components)的对应时序语音数据。

随后，适当情况下作为第t帧语音数据的观测矢量用a(t)来表示。

特征抽取部分2(计算装置)按声学原理对按照由帧抽取部分1提供的观测矢量a形式的语音数据进行分析，以此由语音数据中抽取特征参量。例如特征抽取部分2利用付立业变换确定作为观测矢量a的语音数据的功率谱；并计算具有作为组成部分的功率谱的对应频率部分的特征矢量Y。计算功率谱的方法并不局限于付立业变换，利用其它方法例如滤波器组方法就可以确定功率谱。

此外，特征抽取部分2根据上面计算的特征矢量Y计算参数Z(下文称之为特征分布参数)，该参数代表当在的语音数据中包含的真实声音作为观测矢量a被映射变换(mapping)到特征矢量空间中时得到的特征参量空间(即特征矢量空间)中的分布，并将参数Z提供到鉴别部分3。

即，如图5中所示，特征抽取部分2计算并输出作为特征分布参数的一种参数，该参数表示在通过将代表在观测矢量中的某一点的某一观测矢量a变换映射到特征矢量空间时得到的特征矢量空间中产生的离散状况的分布。

虽然在图5中观测矢量空间和特征矢量空间都是按照三维空间表示的，观测矢量空间和特征矢量空间的各自维数并不局限于三，甚至不必相同。

鉴别部分3(分类装置)将由特征抽取部分2提供的每一个特征分布参数(系列参数)分类为预定数量的类别的其中之一个类别，并且将作为输入语音的识别结果的分类结果输出。例如，鉴别部分3存储各用于判别鉴别对象属于与预定字数K相对应的类别中的哪一类别的鉴别函数，并通过利用作为变量的，由特征抽取部分2提供的特征分布参数，计算各个类别的鉴别函数的数值。具有最大函数值的类别(在这一实例中为一个字)输出作为观测矢量a的声音识别结果。

接着，介绍上述装置的工作情况。

帧形成部分1将输入数字语音数据分帧作为识别对象。将各帧的语音数据的观测矢量a顺序提供到特征提取部分2。特征抽取部分2通过对作为由帧形成部分1提供的观测矢量a的语音数据按声学原理分析来确定特征矢量Y。此外，根据这样确定的特征矢量Y，特征抽取部分2计算一代表在特征矢量空间中的分布的特征分布参数，并将其提供到鉴别部分3。

通过利用由特征提取部分2提供的特征分布参数，鉴别部分3计算与预定字数K相对应的各个类别的鉴别函数，并将具有最大函数值的类别输出作为声音的识别结果。

由于作为观测矢量a的语音数据被变换为代表如上所述的特征矢量空间(语音数据的特征参量的空间)中的分布的特征分布参数，特征分布参数Z反映包含在语音数据中的噪声的分布特性。此外由于声音的识别是根据这样一种特征分布参数Z，识别速率可以大为提高。

图6表示在图3中所示的特征抽取部分2的示例性结构。

观测矢量a提供到功率谱分析器12。功率谱分析器12例如根据FFT(快速付立业变换)算法对观测矢量a进行付立业变换，并因此按照特征矢量确定(抽取)作为声音的特征参量的功率谱。这里假设，作为一帧语音数据的观测矢量变换为由D维构成的特征矢量(即D维特征矢量)。

下面，将由第t帧的观测矢量a(t)得到的特征矢量用y(t)来代表。此外，特征矢量y(t)中的真实声音部分频谱和噪声部分频谱分别用x(t)和u(t)来表示。在这种情况下，真实声音成分频谱x(t)由下式确定：

x(t)=y(t)-U(t)其中假设，噪声具有不规则的特性，作为观测矢量a(t)的语音数据是真实声音部分和噪声之和。

由于噪声u(t)具有不规则的特性，u(t)是一随机的变量，因此x(t)由于是按方程(1)确定的，也是一随机的变量。因此，例如，如果噪声功率谱具有如图7A中所示的概率密度分布，则根据方程(1)真实声音的功率谱的概率密度函数按照图7B所示确定。真实声音的功率谱具有某一数值的概率是通过乘以一归一化系数得到的，该系数使得真实声音的概率分布具有单位面积；噪声功率谱具有某一数值的概率，是通过由输入声音(输入信号)的功率谱减去真实声音的功率谱的上述数值得到的。图7A和7B是按照这一假设画出的，即每一U(t),x(t)和y(t)的分量的数目为1(D=1)。

参阅图6，由功率谱分析器12得到的特征矢量y(t)提供到开关13。开关13在语音部分检测部分11的控制下选择连接端13a和13b的其中之一。

语音时段检测部分11检测语音时段(即使用人说话持续时间)。例如检测语音时段方法的细节公开在J.C.Junqua,B.Mark以及B.Reaves的“用于在出现噪声时的字边界检测的实用算法”，IEEE论文集“语音和音频处理，第2卷、第3期、1994。

可以利用其它方法来识别语音时段，例如通过在语音识别装置中装设适当的按键和当使用人说话时由使用人操纵该按键。

语音时段检测部分11控制开关13，使得其在一语言时段中选择端13b而在另一时段(下文称之为无语音时段，在适当情况下)选择端13a。

因此，在无语音时段，开关13选择端13a，因此，将功率谱分析器12的输出经过开关13提供到噪声特性计算器14。噪声特性计算器14根据在无语音时段中功率谱分析器12的输出计算在语音时段中的噪声特性。

在这一实例中，噪声特性计算器14按照一些假设确定噪声的平均数值(平均矢量)和离差(离差矩阵)，该假设即在某一语音时段中的噪声功率谱U(t)具有与直接在这一语音时段之前的无语音时段相同的分布，以及假设该分布是正态分布。

具体地说，假设语音时段中的第1帧为1号帧(t=1)，确定100帧(由语音时段之前200帧的一帧到语音时段之前101帧的一帧)的功率谱分析器12的y(-200)到y(-101)输出的平均矢量μ’和离差矩阵∑’，作为该语音时段的噪声特性。

可以根据如下方程(2)确定平均矢量μ’和离差矩阵∑’

μ' (i) = \frac{1}{100} Σ_{1 - - 200}^{- 101} y (t) (i)

Σ' (i, j) = \frac{1}{100} Σ_{1 - - 200}^{- 101} (y (t) (i) - μ' (i)) (y (t) (j) - μ' (j)) . . . . . (2)

其中μ’(i)代表平均矢量μ’(i=1,2,…D)的第i部分，y(t)(i)代表第t帧的特征矢量的第i部分；以及∑’(i,j)代表离差矩阵∑’中的第i行第j列部(j=1,2,…D)。

这里，为了减少计算量，假设关于噪声，该特征矢量y的各部分必须互相关。在这种情况下，按照下式(3)除离差矩阵∑’中的对角线分量以外的分量为0

∑’(i,j)=0,1≠j ……(3)

噪声特性计算器14按上述方式确定平均矢量μ’和离差矩阵∑’作为噪声特性并将它们提供到特征分布参数计算器15。

另一方面，在语音时段，开关13选择端13b，因此，功率谱分析器12的输出即作为包含真实声音和噪声的语音数据的特征矢量经过开关13提供到特征分布参数计算器15。根据由功率谱分析器12提供的特征矢量Y和由噪声特性计算器15提供的噪声，特征分布参数计算器15计算代表真实声音的功率谱的分布(估值的分布)。

即，按照假设，即真实声音的功率谱为正态分布，特征分布参数计算器15根据如下公式计算该分布的平均矢量3和离差4，该公式为：E(t)(i)-E[x(t)(i)]

-E[y(t)(i)-u(t)(i)]

- {&Integral;}_{0}^{y (t) (i)} (y (t) (i) - u (t) (i)) \frac{P (u (t) (i))}{{&Integral;}_{0}^{y (t) (i)} P (u (t) (i) du (t) (i))} du (t) (i)

- \frac{y (t) (i) {&Integral;}_{0}^{y (t) (i)} P (u (t) (i)) du (t) (i) - {&Integral;}_{0}^{y (t) (i)} u (t) (i) P (u (t) (i)) du (t) (i)}{{&Integral;}_{0}^{y (t) (i)} P (u (t) (i)) du (t) (i)} \cdot \cdot \cdot \cdot \cdot (4)

- y (t) (i) - \frac{{&Integral;}_{0}^{y (t) (i)} u (t) (i) P (u (t) (i)) du (t) (i)}{{&Integral;}_{0}^{y (t) (i)} P (u (t) (i)) du (t) (i)}

如果i=j,ψ(t)(i,j)=V[x(t)(i)]

=E[(x(t)(i))²]-(E[x(t)(i)])²

(=E[(x(t)(i))²]-(ξ(T)(i))²).如果i≠j,ψ(t)(i,j)=0.

.....(5)E[(x(t)(i)²]-E[(y(t)(i)-u(t)(i))²]

- {&Integral;}_{0}^{y (t) (i)} {(y (t) (i) - u (t) (i))}^{2} \frac{P (u (t) (i))}{{&Integral;}_{0}^{y (t) (i)} P (u (t) (i)) du (t) (i)} du (t) (i)

- \frac{1}{{&Integral;}_{0}^{y (t) (i)} P (u (t) (i)) du (t) (i)} \times {{(y (t) (i))}^{2} {&Integral;}_{0}^{y (t) (i)} P (u (t) (i)) du (t) (i)

- 2 y (t) (i) {&Integral;}_{0}^{y (t) (i)} u (t) (i) P (u (t) (i)) du (t) (i)

+ {&Integral;}_{0}^{y (t) (i)} {(u (t) (i))}^{2} P (u (t) (i)) du (t) (i)}

- {(y (t) (i))}^{2} - 2 y (t) (i) \frac{{&Integral;}_{0}^{y (t) (i)} u (t) (i) P (u (t) (i)) du (t) (i)}{{&Integral;}_{0}^{y (t) (i)} P (u (t) (i)) du (t) (i)} . . . . . (6)

+ \frac{{&Integral;}_{0}^{y (t) (i)} {(u (t) (i))}^{2} P (u (t) (i)) du (t) (i)}{{&Integral;}_{0}^{y (t) (i)} P (u (t) (i)) du (t) (i)}

P (u (t) (i)) = \frac{1}{\sqrt{2 πΣ' (i, i)}} e^{- \frac{1}{2 Σ' (i, i)} {(u (t) (i) - μ' (i))}^{2}} . . . . . (7)

在上述公式中，ξ(t)(i)代表第t帧的平均矢量ξ(t)的第i部分，E[]意指在方括号“[]”中的变量的平均值，x(t)(i)代表第t帧的真实声音的功率谱的第i部分。此外，u(t)(i)代表第t帧的噪声功率谱的第i部分；以及P(U(t)(i)代表第i帧的噪声功率谱中第i部分为U(t)(i)的概率。在这一实例中，由于假设噪声分布是正态分布，P(U(t)(i))由方程(7)确定。

此外，ψ(t)(i,j)代表第t帧的离差矩阵ψ(t)中的第i行第j列分量，以及V[]意指在方括号“[]”中的变量的离差。

按上述方式，特征分布参数计算器15针对每一帧确定作为代表在特征矢量空间中真实声音分布(即假设在特征矢量空间中真实声音的分布是正态分布)的特征分布参数的，平均矢量ξ和离差矩阵ψ。

于是，当语音时段结束时，开关13选择端13a并且特征分布参数计算器15向鉴别部分3输出已针对在该语音时段中的每一帧确定的特征参数。即，假设该语言时段由T帧组成，针对T帧中的每一帧确定的特征分布参数按Z(t)={ξ(t),ψ(t)}来表示，其中t=1,2,…T，特征分布参数计算器15向鉴别部分3提供特征分布参数(序列参数)Z={z(1),z(2),…z(T)}。

在此之后特征抽取部分2重复相似的过程。

图8表示在图3中的鉴别部分3的示例性结构。

由特征抽取部分2(特征分布参数计算器15)提供的特征分布参数Z被提供到K个鉴别函数计算部分21₁-21_k。鉴别函数计算部分21_k存储用于鉴别与K个类别(K=1,2,…K)的第K类别相对应的一个字的鉴别函数g_k(Z)，并且作为变量通过利用由特征抽取部分2提供的特征分布参数Z来计算鉴别函数g_k(Z)。

鉴别部分3例如根据HMM(隐藏马尔科夫模型)确定作为一类别的字。

在这一实施例中，例如采用图9中所示的HMM。按照这种HMM，有H级q₁-q_H，以及仅允许一自转换和转换到直接相邻的状态。起始的状态是最左侧的状态q₁和最终的状态是最右侧的状态，并且禁止由最终状态q_H再状态转换。一种其中当前状态左侧状态没有发生转换的模型称之为左向右模型。在语音识别中通常采用左向右模型。

下面将用于鉴别HMM中的第K类别的模型称之为第K类别模型。例如，利用起始状态为状态q_h的概率(起始状态概率)π_k(q_h)；概率(转换概率)a_k(q_i,q_j)，即在某一时间点(帧)t建立状态q₁和在下一时间点t+1产生向状态q_j的状态转变时的概率；以及概率(输出概率)b_k(q_i)(o)，即当由状态q_i(h=1,2,…H)发生状态转换时状态q_i输出特征矢量o的概率；来确定第k组模型。

当提供特征矢量序列O₁,O₂,…时，例如将具有观测这样的特征矢量序列的最高概率(观测概率)的该组模型，选择作为特征矢量序列的识别结果。

在这一实例中，通过利用鉴别函数q_rZ)来确定观测概率。即，利用作为用于确定概率的函数的如下方程提供鉴别函数，该概率即在对特征分布参数(序列)Z={z₁,z₂,…Z_T}在最佳状态序列(即状态转变的最佳方式)下观测特征分布参数(序列)Z={z₁,z₂,…Z_T}时的概率。

g_{k} (Z) = \max_{q_{t .} c_{2 .} \cdot \cdot \cdot q_{r}} π_{k} (q_{1}) \cdot b_{k}^{'} (q_{1}) (z_{1}) \cdot a_{k} (q_{1} \cdot q_{2}) \cdot b_{k}^{'} (q_{2}) (z_{2})

…a_k(q_T-1,q_T)·b_k’(q_T)(z_T) .....(8)

在上述方程中，b_k’(q_i)(Z_i)代表对于具有一种分布Zj的输出概率。在这一实施例中，例如作为每个特征矢量在状态转变时输出时的概率的输出概率是在假设在特征矢量空间中的各部分不具有互相关的情况下用正态分布函数表示的。在这种情况下，当输入具有一分布Zt时，可以通过利用如下方程来确定输出概率b_k’(S)(Zt)，该方程包含利用平均矢量μ_k(S)和离差矩阵∑_k(S)确定的概率密度函数P_k ^m(s)(x)以及表示第t帧的特征矢量的分布(在这一实施例中为功率谱)的概率密度函数P^f(t)(x)。b_k’(s)(z_t)-∫P^f(t)(x)P_x ^m(s)(x)dx

= Π_{1 - 1}^{0} P (s) (i) (ξ (t) (i), ψ (t) (i, i))

k=1,2,…,K:s=q₁.q₂...,q_T:T=1.2…,T.....(9)

在方程(9)中，该积分的积分区间是整个的D维特征矢量空间(在这一实例中为功率谱空间)。

在方程(9)中，P(s)(i)(ξ(t)(i),ψ(t),(i,1))是由下式给定的：P(s)(i)(ξ(t)(i),ψ(t),(i,i))

= \frac{1}{\sqrt{2 π (Σ_{k} (s) (i, i) + ψ (t) (i, i))}} e^{- \frac{{(μ_{k} (s) (i) - ξ (t) (i))}^{2}}{2 (Σ_{k} (s) (i, i) + ψ (t) (i, i))}} \cdot \cdot \cdot \cdot \cdot (10)

其中μ_k(S)(i)代表平均矢量μ_k(S)中的第i分量以及∑_k(S)(i,i)代表离差矩阵∑_k(S)中的第i行第i列分量。第K类别模型的输出概率是按上面方程确定的。

如上所述，HMM是利用起始状态概率π_k(q_h)、转变概率a_k(q_i,q_j)和输出概率b_k(q_i)(O)确定的，而这些概率是通过使用根据学习语音数据计算的特征矢量预先确定的。

在使用图9中所示的HMM的情况下，由最左侧状态q₁开始转变。因此，仅状态q₁的起始概率为1，其它状态的起始概率为0。正如由方程(9)和(10)所看到的，如果项ψ(t),(i,i)为O，则输出概率等于在其中没有考虑特征矢量的离差的连续的HMM中的输出概率。

HMM学习方法的一个实例是Baum-Welch的重新估测法。

图8中所示的鉴别函数计算部分Z1_k对于第K类别模型存储该利用先前已经通过学习确定的起始状态概率π_k(q_h)、转变概率a_k(q_i,q_j)和输出概率b_k(q_i)(0)确定的方程(8)的鉴别函数g_k(Z)。鉴别函数计算部分Z1_k通过利用由特征提取部分2提供的特征分布参数Z计算该鉴别函数，并将所形成的函数值(上面介绍的观测概率)g_k(Z)输出到决定部分22。

决定部分22通过例如将如下公式的一种确定规则应用于由各个确定函数计算部分21_r-21_k提供的函数值g_k(Z)，确定特征分布参数Z即输入声音所属的那一类别(即输入声音被分类为各类别中的一类别)。

C (Z) = C_{k} \cdot H g_{k} (Z) = \max_{1} (g_{i} (Z)) \cdot \cdot \cdot \cdot \cdot (11)

其中，C(Z)是为确定特征分布参数Z所属一个类别的鉴别运算(处理)的函数。在公式(11)的第二方程中的右侧的运算“max”意指在其后的函数值g_i(Z)的最大值(i=1,2,…K)。

确定部分22根据公式(11)确定类别，并将其作为输入声音的识别结果输出。

图10表示在图3中所示的特征抽取部分2的另一种示例性结构。在图10中与图6中的组成部分相对应的各部分指定与图6中所示相同的标号。即这一特征抽取部分2除去设有噪声缓冲器31和特征分布参数计算器32分别取代噪声特性计算器14和特性分布参数计算器15之外，其基本上按照与图6相同的方式构成。

在这一实例中，例如，噪声缓冲器31暂时存储作为噪声功率谱的，无语音时段中的功率谱分析器12的输出。例如，噪声缓冲器31存储作为噪声功率谱W(1),W(2)…W(100)的即100帧的功率谱12的各个输出y(-200),y(-199),…y(-101)，这100帧即在一语音时段前分别为200帧到101帧的各帧。

当语音时段已出现时，100帧的噪声功率谱W(n)(n=1,2,…N；在这一实例中N=100)输出到特征分布参数计算器32。

当语音时段已经出现以及特征分布参数计算器32已接收来自噪声缓冲器31的噪声功率谱W(n)(n=1,2,…N)时，特征分布参数计算器32例如根据如下的方程计算平均矢量ξ(t)和离差矩阵∑(t)，它们限定了真实声音的功率谱的分布(假设按正态分布)(即真实声音的功率谱的估值的分布)。ξ(t)(i)=E[x(t)(i)]

= \frac{1}{N} Σ_{n = 1}^{N} (y (t) (i) - w (n) (i))

ψ (t) (i, j) = \frac{1}{N} Σ_{n = 1}^{N} ((y (t) (i) - w (n) (i) - ξ (t) (i)) \cdot \cdot \cdot \cdot \cdot (12)

X(y(t)(j)-w(n)(j)-ξ(t)(j)))j=1,2,…,D:j=1,2,…,D其中W(n)(i)表示第n噪声功率谱W(n)中的第i部分(W(n)(j)按相似方式确定)。

特征分布参数计算器32按照上述方式对于每一帧确定平均矢量ξ(t)和离差矩阵∑(t)，并将在语音时段内的特征分布参数Z={Z₁,Z₂…Z_T}输出到鉴别部分3(特征分布参数Zt是ξ(t)和∑(t)的组合)

虽然在图6所示的实例中假设：噪声功率谱中的各部分必须互相关，但是在图10所示的实例中没有采用这种假设确定特征分布参数，因此可以得到更精确的特征分布参数。

虽然在以上各实例中，将功率谱用作特征矢量(矢量参量)，例如倒频谱也可用作特征矢量。

现在假设x^c(t)代表某一帧t的真实声音的倒频谱，以及它的分布(倒频谱的估值的分布)例如是正态分布。根据如下方程可以确定平均矢量ξ^c(t)和离差矩阵ψ^c(t)，它们确定了代表第t帧的特征矢量的分布x^c(在这一实例中为倒频谱)的概率密度函数P^f(t)(x^c)。

ξ^{c} (t) (i) = \frac{1}{N} Σ_{n = 1}^{N} x^{c} (t) (n) (i) . . . . . . i = 1,2, \cdot \cdot \cdot, D

ψ^{c} (t) (i, j) = \frac{1}{N} Σ_{n = 1}^{N} (x^{c} (t) (n) (i) - ξ^{c} (t) (i)) (x^{c} (t) (n) (j) - ξ^{c} (t) (i)) . . . . . (13)

i=1,2,..,D:j=1,2,...,D其中ξ^c(t)(i)表示平均矢量ξ^c(t)的第i分量，ψ^c(t)(i,j)是离差矩阵ψ^c(t)的第i行第j列分量，以及x^c(t)(n)(i)是如下列方程提供的倒频谱x^c(t)(n)的第i分量。

x^c(t)(n)=Cx^L(t)(n)

x^L(t)(n)=(x^L(t)(n)(1),x^L(t)(n)(2),...,x^L(t)(n)(D))

x^L(t)(n)(i)=log(y(t)(i)-w(n)(i))

.....(14)其中i=1,2,…D。在方程组(14)中的第一个方程中，C是DCT(离散余弦变换)矩阵。

在将倒频谱用作特征矢量的情况下，图3中的特征抽取部分2可以按照上述方式对于每一帧确定平均矢量ξ^c(t)和离差矩阵ψ^c(t)，并将在语音时段中的特征分布参数Z^c={Z₁ ^c,Z₂ ^c,…Z_T ^c}输出到鉴别部分3(特征分布参数Z_t ^c是{ξ^c(t),ψ^c(t)}的组合。

在这种情况下，通过利用如下方程可以确定用于在鉴别部分3计算鉴别函数g_k(Z^c)的输出概率b_k’(S)(Z_t ^c)，作为表示在倒频谱空间中分布的概率；该方程包含由平均矢量μ_k ^c(S)和离差矩阵∑_k ^c(S)确定的概率密度函数P_k ^m(S)(x^c)以及表示第t帧特征矢量的分布(在这一实例中为例频谱)的概率密度函数。b_k’(s)(z_t ^c)=∫P^f(x^c)P_k ^m(s)(x^c)dx^c

= \frac{e^{- \frac{1}{2} {(ξ^{c} (i) - μ_{k}^{c} (s))}^{7} {(ψ^{c} (t) + Σ_{k}^{c} (s))}^{- 1} (ξ^{c} (t) - μ_{k}^{c} (s))}}{{(2 π)}^{\frac{D}{2}} | ψ^{c} (t) + Σ_{k}^{c} (s) |^{\frac{1}{2}}} . . . . . (15)

在方程(15)中，积分的积分区间是整个D维特征矢量空间(在这一实例中为倒频谱空间)。该项(ξ^c(t)-μ_k ^c(S))^T是矢量ξ^c(t)-μ_k ^c(S)的转置。

如上所述，由于特征分布参数的确定反映了噪声分布特性以及利用这样确定的特征分布参数进行语音识别，识别速率可以提高。

表1表示了在这样一种情况下的识别速率，即其中通过利用倒频谱以及HMM方法实验语音的特征参数和鉴别部分3中的语音识别算法分别为利用特征分布参数进行语音识别(字识别)实验时的识别速率，以及在利用频谱减法进行语音识别实验情况下的识别速率。

表1

	识别速率％
	识别速率％		语音输入环境	SS方法	本发明
汽车慢速和背景音乐	72	86	语音输入环境	SS方法	本发明
汽车慢速和背景音乐	72	86	在市区行进	85	90
在高速路上行进	57	69	在市区行进	85	90

在上述各实验中，识别对象字的数目为5000，谈话人并非特定的人。在3种环境下进行谈话，即车辆慢速状态以及有背景音乐的环境、车辆行驶在市区的环境，以及车辆行驶在高速公路上的环境下谈话。

由表1可以看出，通过利用特征分布参数的语音识别，在这些环境中的任一个环境下，都能实现较高的识别速率。

上面已经将本发明应用于语音识别装置进行了介绍。这种语音识别装置能应用于可输入语音的车辆导引装置。

在上述实施例中，确定一种反映噪声分布特性的特征分布参数。应注意，例如该噪声包含在谈话环境中的外部噪声以及通信线路的噪声特性(当要识别经过电话线或某些其它通信线传输的声音)。

例如，本发明还可适用于在特定谈话人识别的情况下对于特定谈话人的查明。在这种情况下，本发明可以提高查明速度。

本发明不仅能够适用于语音识别，而且还适于模式识别，例如图像识别。例如，在图像识别的情况下，通过利用反映噪声分布特性的特征分布参数可提高图像识别速率，这种噪声来自用于拍摄图像，气候状态等的摄像机的镜头特性。

在上述实施例中，确定表示在功率谱或倒频谱空间中的分布的特征分布参数。然而，其它空间例如线性预测系数的空间，在各倒频谱和相邻各帧之间的差的空间以及过零空间都可用作要确定其中分布的空间。

在上述实施例中，确定表示在一种语音特征参数的空间中的分布的特征分布参数。然而，可以确定在多种语音特征参数的各个空间中的特征分布参数。还可以确定在多种语音特征参数的一或多个空间中的特征分布参数，以及通过利用这样确定的特征分布参数和在其它特征参数的空间中的特征矢量来进行语音识别。

在上述实施例中，在特征矢量空间中的特征矢量的分布(真实声音的特征矢量的各估值)被假设为正态分布，以及采用表示这样一种分布的特征分布参数。然而还可以采用其它分布例如对数正态概率分布，离散概率分布以及模糊分布作为要利用特征分布参数表示的分布。

.此外，在上述实施例中，通过利用其中的输出概率用正态分布表示的HMM来进行鉴别部分3中的类别鉴别。然而，可以按其它方法，例如通过利用其中的输出概率用混合的正态概率分布或离散分布表示的HMM；或者利用正态概率分布函数、对数概率分布函数，多项式函数、中枢(neural)网络等，在鉴别部分3中进行类别鉴别。

如上所述，在根据本发明的特征抽取装置和方法中，计算一表示当将输入数据进行变换映射到输入数据的特征参量的一个空间时得到的分布的特征分布参数。然而，例如当输入数据包含噪声时，可以得到一种反映噪声分布特性的参数。

在根据本发明的模式识别装置和方法中，计算一种表示当将输入数据变换映射到输入数据的特征参量的空间时得到的分布的特征分布参数，并将该特征分布参数进行分类作为预定数量的类别中的一个类别。因此，例如，当输入数据包含噪声时，可以得到反映噪声分布特性的参数。这样就使得能够增加输入数据的识别速率。

Claims

1、一种特征抽取装置，抽取输入数据中的特征参量，包含：

计算装置，用于计算一表示当将输入数据进行变换映射到输入数据的特征参量的空间中时得到的分布的特征分布参数。

2、根据权利要求1所述的特征抽取装置，其中的计算装置计算一表示正态概率分布的特征分布参数。

3、根据权利要求1所述的特征抽取装置，其中的计算装置计算一表示对数正态概率分布的特征分布参数。

4、根据权利要求1所述的特征抽取装置，其中的计算装置计算一表示离散概率分布的特征分布参数。

5、根据权利要求1所述的特征抽取装置，其中的计算装置计算一表示模糊分布的特征分布参数。

6、根据权利要求1所述的特征抽取装置，其中的计算装置计算在输入数据的多种特征参量中的至少一种的空间中的特征分布参数。

7、一种特征抽取方法，用于抽取输入数据中的特征参量，包含的步骤有：

计算一表示当将输入数据进行变换映射到输入数据的特征参量的空间中时得到的分布的特征分布参数。

8、一种模式识别装置，其通过将该模式分类为预定数目的类别中的一个类别来识别输入数据的模式，包含：

计算装置，用于计算一表示当将输入数据变换映射到输入数据的特征参量的空间中时得到的分布的特征分布参数；以及

分类装置，用于将该特征分布数据分类为预定数量的类别中的一个类别。

9、根据权利要求8所述的模式识别装置，其中的计算装置计算一表示正态概率分布的特征分布参数。

10、根据权利要求8所述的模式识别装置，其中的计算装置计算一表示对数正态概率分布的特征分布参数。

11、根据权利要求8所述的模式识别装置，其中的计算装置计算一种表示离散概率分布的特征分布参数。

12、根据权利要求8所述的模式识别装置，其中的计算装置计算一表示模糊分布的特征分布参数。

13、根据权利要求8所述的模式识别装置，其中的计算装置计算在输入数据的多种特征参量的至少其中一个的空间中的特征分布参数，以及其中该分类装置将其余种类的特征参量和特征分布参数分类为预定数量类别中的一个类别。

14、根据权利要求8所述的模式识别装置，其中的分类装置通过利用至少一个正交概率分布函数判别特征分布参数属于预定数量的类别中的哪一个类别。

15、根据权利要求8所述的模式识别装置，其中的分类装置通过利用至少一个多项式函数判别特征分布参数属于预定数量的类别中的哪一个类别。

16、根据权利要求8所述的模式识别装置，其中的分类装置通过利用至少一种隐藏的马尔科夫模型方法判别特征分布参数属于预定数量的类别中的哪一个类别。

17、根据权利要求8所述的模式识别装置，其中的分类装置通过利用至少一个中枢网络判别特征分布参数属于预定数量的类别中的哪一个类别。

18、根据权利要求8所述的模式识别装置，其中的输入数据是语音数据。

19、根据权利要求18所述的模式识别装置，其中的计算装置通过利用语音数据和与噪声相关的信息计算特征分布参数。

20、根据权利要求18所述的模式识别装置，其中的计算装置计算一表示正态概率分布的特征分布参数。

21、根据权利要求18所述的模式识别装置，其中的分类装置通过利用至少一种隐藏马尔科夫模型法判别特征分布参数属于预定数量的类别中的哪一个类别。

22、根据权利要求18所述的模式识别装置，其中的分类装置通过利用至少一种中枢网络判别特征分布参数属于预定数量类别中的哪一个类别。

23、根据权利要求18所述的模式识别装置，其中的计算装置计算一种表示语音数据的功率谱空间或倒频谱空间中的分布的特征分布参数。

24、一种模式识别方法，用于通过将该模式分类为预定数量类别中的一个类别来识别输入数据的模式，包含的步骤有：

计算一种表示当将输入数据变换映射到输入数据的特征参数的空间中时得到的分布的特征分布参数；以及

将特征分布参数分类为预定数量类别中的一个类别。

25、一种模式识别装置，通过将该模式分类为预定数量类别中的一个类别来识别输入数据的模式，包含：

帧形成装置，用于按照预定的间隔抽取部分输入数据，并作为1帧数据输出每一抽取的数据；

特征抽取装置，接收由每一抽取的数据组成的1帧数据，用于输出一种表示当将一帧数据变换映射到该一帧数据的特征参量的空间中时得到的分析的特征分布参数；以及

分类装置，用于将一系列的特征分布参数分类为预定数量类别中的一个类别。

26、根据权利要求25所述的模式识别装置，其中的输入数据是语音数据。

27、根据权利要求25所述的模式识别装置，其中的特征抽取装置包含：

频谱分析装置，用于对包含1帧数据的数据的频谱进行分析，并输出该频谱；

噪声特性计算装置，用于计算和输出噪声特性；以及

特征分布参数计算装置，用于根据该频谱和噪声特性计算表示1帧数据的频谱分布的特征频谱参数，并输出所计算的特征分布参数。

28、根据权利要求27所述的模式识别装置，其中的特征分布参数是表示在倒频谱空间中的分布的参数。

29、根据权利要求27所述的模式识别装置，其中的特征分布参数是表示在功率谱空间中的分布的参数。

30、根据权利要求27所述的模式识别装置，其中的特征分布参数是表示在频谱幅值空间中的分布的参数。

31、根据权利要求27所述的模式识别装置，其中的特征抽取装置还包含：

数据输入时段检测装置，用于检测其中输入了数据的数据输入时段和其中未输入该输入数据的未输入数据时段，并将数据时段检测结果输出，以及

选择装置，用于根据数据时段检测结果，选择性地将由频谱分析装置输出的频谱输出到噪声特性计算装置或者特征分布参数计算装置。

32、根据权利要求31所述的模式识别装置，其中的噪声计算装置根据在未输入数据的时段中的噪声输出数据。

33、一种模式识别方法，用于通过将该模式分类为预定数量类别中的一个类别来识别输入数据的模式，包含：

帧形成步骤，按照预定间隔抽取部分的输入数据，以及按照1帧数据输出每一抽取的数据；

特征抽取步骤，接收由每一抽取数据构成的1帧数据，并输出一种表示当将1帧数据变换映射到1帧数据的特征参量的空间中时得到的分析的特征分布参数；以及

分类步骤，将一系列的特征分布参数分类为预定数量的类别中的一个类别。

34、根据权利要求33所述的模式识别方法，其中的输入数据是语音数据。

35、根据权利要求33所述的模式识别方法，其中的特征抽取步骤包含：

频谱分析步骤，对包含1帧数据的数据进行分析，并输出该频谱；

噪声特性计算步骤，计算和输出噪声特性；以及

特征分布参数计算步骤，根据该频谱和噪声特征计算一种表示1帧数据的频谱分布的特征分布参数，并输出计算的特征分布参数。

36、根据权利要求35所述的模式识别方法，其中的特征分布参数是表示在倒频谱空间中的分布的参数。

37、根据权利要求35所述的模式识别方法，其中的特征分布参数是表示在功率谱空间中的分布的参数。

38、根据权利要求35所述的模式识别方法，其中的特征分布参数是表示在频谱幅值空间中分布的参数。

39、根据权利要求35所述的模式识别方法，其中的特征抽取步骤还包含：

数据输入时段检测步骤，检测其中输入了该输入数据的数据输入时段和未输入该输入数据的未输入数据时段，并输出数据时段检测结果；以及

选择步骤，根据数据时段检测结果输出该利用频谱分析步骤输出的该频谱。

40、根据权利要求39所述的模式识别方法，其中的噪声特性计算步骤根据在未输入数据的时段中的噪声输出数据。