CN1249665C

CN1249665C - 语音识别系统

Info

Publication number: CN1249665C
Application number: CN01132877.0A
Authority: CN
Inventors: 小林载
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 2000-09-12
Filing date: 2001-09-12
Publication date: 2006-04-05
Anticipated expiration: 2021-09-12
Also published as: US7035798B2; US20020046026A1; JP4201471B2; CN1343967A; JP2002091468A; EP1189201A1

Abstract

LPC分析部分18产生特征矢量A和预测残余能量ε，内积操作部分19计算输入声音Saf的特征矢量A和训练矢量V之间的内积值V^TA，而阈值确定部分21将内积值V^TA与阈值θv相比较，并在θv≤V^TA情况下确定语音部分。同样，阈值确定部分23将输入信号Saf的预测残余能量ε与阈值THD相比较，并在THD≤ε情况下语音部分。如果θv≤V^TA或THD≤ε，语音部分被最终定义，且用于语音识别的输入信号Svc被提取。

Description

语音识别系统

技术领域

本发明涉及一种语音识别系统，且更具体地说，本发明涉及一种语音部分的检测精度得以改善的语音识别系统。

背景技术

在语音识别系统中，例如当在嘈杂环境中发出的语音直接经受语音识别时，由于噪声的影响语音识别比将恶化。因此，正确检测语音部分以进行语音识别是首要的。

利用矢量内积检测语音部分的传统公知的语音识别系统如图4所示构造。

该语音识别系统创建以词或子词(例如因素或音节)为单位的声学样板(语音HMM)，采用一HMM(隐式马尔可夫原型(Hidden Markov Model))，产生观察值序列，该观察值是如果要被识别的语音发出时，对于输入的信号的倒频谱(Cepstrum)的时间序列，将观察值序列与语音HMM对照，并选取最相象的语音HMM，其然后作为识别结果输出。

更具体地说，采集并存储在一训练语音数据库内的大量语音数据Sm被分隔成对于预定时间段(约10到20毫秒)帧单元，通过使倒频谱依次在以帧为单位的每个数据上操作而得到倒频谱的时间序列，此外，该倒频谱的时间序列被学习为语音的特征量，并反映为声学样板(语音HMM)的参数，从而产生以词或子词为单位的语音HMM。

同样，用于检测语音部分的语音部分检测部分包括声学分析器1、3、本征矢量产生部分2、内积操作部分4、比较部分5、以及语音提取部分6。

在此，声学分析器1在训练语音数据库内对于每个帧号n进行语音数据Sm的声学分析，以产生M维特征矢量x_n＝[x_n1 x_n2 x_n3…x_nM]^T。在此，T表示转置。

本征矢量产生部分2从M维特征矢量xn产生由下面的表达式(1)表示的相关矩阵R，且相关矩阵R通过求解以下表达式(2)而展开成本征值，以获得一本征矢量(称为训练矢量)V。

R = \frac{1}{N} Σ_{n = 1}^{N} X_{n} X_{n}^{T} - - - (1)

(R-λ_kI)V_k ＝0(2)

其中，k＝1、2、3、…、M；

I表示单位矩阵；以及

0表示零矢量。

从而，训练矢量V先前基于训练语音数据Sm计算出。如果当发出语音时，真正产生输入信号数据Sa，声学分析部分4分析输入信号Sa以产生特征矩阵A。内积操作部分5计算训练矢量V和特征矢量A的内积。此外，比较部分6将内积值V^TA与固定的阈值θ相比较，且如果内积值V^TA大于阈值θ时，语音部分被确定。

并且，在语音部分被如上所述确定以从输入信号Sa中提取用于语音识别的信号Svc过程中，语音提取部分6被打开(导通)，并产生一系列要与语音HMM相对照的观察值。

顺便地说，通过利用矢量内积检测语音部分的传统方法，阈值θ被固定在零(θ＝0)。且如果在真实环境下获得的输入信号Sa的特征矢量A与训练矢量V之间的内积值V^TA大于固定的阈值θ，语音部分被确定。

因此，在不太嘈杂环境中产生语音的情况下，考虑到真实环境下获得的输入信号中的噪声(噪声矢量)的特征矢量、正确语音(语音矢量)的特征矢量、在真实环境下获得的输入信号的特征矢量A、以及线性谱域上的训练矢量V之间的关系，噪声矢量不大，且正确语音的语音矢量占主导地位，如图5A所示，从而在真实环境下获得的输入信号的特征矢量A指向与语音矢量和训练矢量V相同的方向。

于是，特征矢量A和训练矢量V之间的内积值V^TA为正(+)值，从而可以采用固定阈值θ(＝0)作为检测语音部分的确定标准。

然而，在较低S/N比的具有大量噪声的地方，例如在车厢内，噪声矢量是主要的，而语音矢量相对小，因此，在真实环境下获得的输入信号的特征矢量A与语音矢量和训练矢量V反向，如图5B所示。于是，特征矢量A和训练矢量V之间的内积值V^IA为负(-)值，从而，存在固定阈值θ(＝0)不能被用作正确检测语音部分的确定标准的问题。

换句话说，如果在低S/N比的存在大量噪声的地方进行语音识别，即使在语音部分应被确定时，特征矢量A和训练矢量V之间的内积值V^TA为负值(V^TA＜θ)，导致语音部分不能被正确检测的问题，如图5C所示。

发明内容

已经完成了本发明以解决上如上所述的传统问题，且本发明的目的是提供一种语音识别系统，其中语音部分的检测精度得以改善。

本发明的目的是这样实现的，即提供一种语音识别系统，包括：

用于检测要经历语音识别的语音部分的语音部分检测部分(100)，所述语音部分检测部分包括：

用于先前产生语音特征作为训练矢量的训练矢量产生部分(16)；

LPC倒频谱分析部分(15，18)；

训练矢量产生部分(16)；

成帧部分(17)；

内积产生部分(19)；

语音提取部分(400)；

倒频谱操作部分(13)；

识别部分(12)；以及

第一阈值产生部分(20)，其用于基于训练矢量和在非语音时段内产生的声音的特征矢量之间的内积值产生第一阈值；

第一阈值确定部分(21)，如果训练矢量和在发生输入信号时产生的输入信号的特征矢量之间的内积值大于或等于第一阈值，所述第一确定部分用于确定输入信号作为语音部分。

为了实现上述目的，根据本发明，提供了一种语音识别系统，其具有用于检测经受语音识别的语音部分的语音部分检测部分，语音部分检测部分包括用于在先产生针对语音特征的训练矢量的训练矢量产生部分，用于基于存在于非语音声音时段内的声音的特征矢量和训练矢量之间的内积值产生第一阈值的第一阈值产生部分，以及如果发出语音时产生的输入信号的特征矢量和训练矢量之间的内积值大于或等于第一阈值时确定语音部分的第一确定部分。

通过这种结构，只用于背景声音的特征矢量在非语音时段内产生(即，对于实际未产生语音的时段)，且第一阈值在实际环境下基于特征矢量和训练矢量之间的内积值产生。

如果实际发出语音，即得到输入信号的特征矢量和训练矢量的内积，且如果内积值大于或等于第一阈值，语音部分即被确定。

由于第一阈值可以在真实环境下适宜地调整，实际讲话发出的输入信号的特征矢量和训练矢量的内积值基于第一阈值加以判断，从而改善了语音部分的检测精度。

同样，为了实现上述目的，本发明提供了一种语音识别系统，其还包括用于基于存在于非语音时段之内的声音的预测残余能量产生第二阈值的第二阈值产生部分，且如果发出语音时产生的输入信号的预测残余能量大于或等于第二阈值，用于确定语音部分的第二确定部分，其中被第一确定部分即第二确定部分中一个或全部确定的语音部分中的输入信号经受语音识别。

通过这种结构，第一确定部分基于输入信号的特征矢量和训练矢量的内积值确定语音部分。同时，第二确定部分基于输入信号的预测残余能量来确定语音部分。对应于由第一确定部分和第二确定部分中至少一个确定的输入信号经受语音识别。尤其是，通过基于输入信号的特征矢量和训练矢量之间的内积值确定语音部分，有可能提供一种正确检测包含非语音声音语音部分的有效功能。同样，通过基于输入信号的预测残余能量确定语音部分，有可能提供一种正确检测包含语音声音的语音部分的有效功能。

附图说明

图1是示出根据本发明实施例的语音识别系统的结构的方块图；

图2是示出低S/N比训练矢量和输入信号的特征矢量之间的内积关系的视图；

图3是示出可变阈值与内积值之间关系的曲线；

图4是示出通过采用传统矢量内积技术检测语音部分的语音识别系统的结构的方块图；

图5A到5C是用于解释通过采用传统矢量内积技术检测语音部分的检测方法的问题的视图。

具体实施方式

以下，将参照附图详细描述本发明优选实施例。图1是示出根据本发明实施例的语音识别系统的结构的方块图。

在图1中，该语音识别系统包括采用隐式马尔可夫原型创建的以词或子词为单位的声学样板(音频HMM)11、识别部分12、以及倒频谱操作部分13，其中识别部分将作为在倒频谱操作部分13内产生的输入声音的倒频谱时间序列的观察值序列与语音HMM11相对照，并选取最相象的语音HMM，以作为识别结果将其输出。

更具体地说，成帧(framing)部分8将试验采集并存储在学习语音数据库7中的语音数据Sm分隔对应预定时间段(大约10到20msec)的帧单元，倒频谱操作部分9使以帧为单位的语音数据依次倒频谱操作，以获得倒频谱的时间序列，并进一步训练部分10将这个倒频谱的时间序列学习为语音的特征量，从而，制备好了以词或子词为单位的语音HMM11。

并且，倒频谱操作部分13对由检测语音部分所提取的实际数据Svc倒频谱操作，如将要描述的一样，以产生观察值的序列，而识别部分12将观察值的序列与以词或子词为单位的语音HMM11相对照，以进行语音识别。

此外，该语音识别系统包括用于检测实际讲话语音(输入信号)以提取作为语音识别目标的输入信号数据Svc的语音部分检测部分。并且，语音部分检测部分包括第一检测部分100、第二检测部分200、语音部分判定部分300、以及语音提取部分400。

在此，第一检测部分100包括用于存储事先采集的语音的非语音声音部分的数据(非语音声音数据)Sc的训练非语音声音数据库14，LPC倒频谱分析部分15、以及训练矢量产生部分16。

LPC倒频谱分析部分15进行在训练非语音声音数据库14中以帧为单位的预定时间段(约10到20msec)的非语音声音数据Sc的LPC(线性预测译码(linear predictive coding))倒频谱分析，以产生M维特征矢量C_n＝[C_n1 C_n2 C_n3 … C_nM]^T。

训练矢量产生部分16从M维特征矢量Cn中产生由以下表达式(3)表示的相关矩阵R，并将相关矩阵R扩展成本征值，以获得M本征值λk和vk。此外，训练矢量V被定义为对应M本征值λk中的最大本征值的本征矢量，并从而可以很好地表示非语音声音的特征。应指出的是，变量n表示帧数量，而T在以下表达式(3)表示转置。

R = \frac{1}{N} Σ_{n = 1}^{N} C_{n} C_{n}^{T} - - - (3)

此外，第一检测部分100包括用于将实际讲话语音的输入信号数据Sa成帧为对应预定时间段(约10到20msec)的帧单元的成帧部分17、LPC倒频谱分析部分18、内积操作部分19、阈值产生部分20以及第一阈值确定部分21。

LPC倒频谱分析部分18进行从成帧部分17中输出的帧单元内的输入信号数据Saf的LPC分析，以获得在倒频谱域的M维特征矢量A以及预定的残余能量ε。

内积操作部分19计算先前在训练矢量产生部分16中产生的训练矢量V和特征矢量A之间的内积值V^TA。

阈值产生部分20产生特征矢量A和训练矢量V之间的内积，其中训练矢量是在从讲话者打开设置在该语音识别系统上的讲话开始开关(未示出)到实际开始讲话的预定时间段(非语音时段)τ1内在内积操作部分19中获得的，阈值产生部分20还计算在非语音声音时间段τ1之内对于多个帧的内积值V^TA的时间平均值G。而时间平均值G与试验获得的调整值α相加，且该加法值作为第一阈值θv(＝G+α)被提供给阈值确定部分21。

第一阈值确定部分21将从内积操作部分19输出的内积值V^TA与阈值θv相比较，在非语声音音时间段τ1消逝后，且如果内积值V^TA大于阈值θv，语音部分即被确定，并且其确定结果D1被提供给语音部分确定部分300。

即，如果在非语音时间段τ1消逝后，实际发出语音，且成帧部分17分隔输入信号数据Sa为以帧为单位的输入信号数据Saf，LPC倒频谱分析部分18进行对于帧单元内的输入信号数据Saf的LPC倒频谱分析，以产生输入信号数据Saf的特征矢量A和预测残余能量ε。此外，内积操作部分19计算输入信号数据Saf的特征矢量A和训练矢量V之间的内积。而第一阈值确定部分21进行内积值V^TA和阈值θv之间的比较，并且，如果内积值V^TA大于阈值θv，语音部分即被确定，且其确定结果D1被提供给语音部分确定部分300内。

第二检测部分200包括阈值产生部分22和第二阈值确定部分23。

阈值产生部分22计算从讲话者打开讲话开始开关的时刻到实际开始讲话时刻的非语音声音时间段τ1之内的在LPS倒频谱分析部分18内获得的预测残余能量ε的时间平均值E，并进一步将该时间平均值E与试验获得的调整值β相加，以获得阈值THD(＝E+β)，该阈值然后提供给阈值确定部分23。

第二阈值确定部分23将LPS倒频谱分析部分18内获得的预测残余能量ε与阈值THD相比较，在非语音声音时间段τ1消逝后，且如果预测残余能量ε大于或等于阈值THD，语音部分即被确定，而其确定结果D2被提供给语音部分确定部分300。

即，如果在非语音声音时间段τ1消逝后，实际发出语音，而成帧部分17分隔输入信号数据Sa成为以帧为单位的输入信号数据Saf，LPC倒频谱分析部分18进行对于帧单元内的输入信号数据Saf的LPC倒频谱分析，以产生输入信号数据Saf的特征矢量A和预测残余能量ε。此外，第二阈值确定部分23将预测残余能量ε与阈值THD相比较，且如果预测残余能量ε大于或等于阈值THD，语音部分即被确定，且其确定结果D2被提供给语音部分确定部分300。

语音部分确定部分300随着确定结果D1从第一检测部分100提供以及随着确定结果D2从第二检测部分200提供而确定输入信号Sa的语音部分τ2。即，当条件θv≤V^TA及THD≤ε之一满足，语音部分τ2即被确定，并且其确定结果D3被提供给语音提取部分400。

语音提取部分400通过最终检测语音部分而将由成帧部分17提供的帧为单位的输入信号数据Saf的要被识别的输入信号数据Svc切下，在确定结果D3的基础上，从而将输入信号数据Svc提供给倒频谱操作部分13。

且倒频谱操作部分13产生倒频谱域的提取的输入数据Svc观察值序列，并进一步识别部分12将观察值序列与语音HMM相对照，以进行语音识别。

以这种方式，通过该实施例的语音识别系统，第一检测部分100主要呈现正确检测非语音声音的语音部分的有效功能，而第二检测部分100主要呈现正确检测语音声音的语音部分的有效功能。

即，第一检测部分100计算基于训练非语音声音数据Sc而产生的非语音声音的训练矢量V和在实际讲话中产生的输入信号数据Saf的特征矢量A之间的内积，且如果所算出的内积V^TA大于阈值θv，在输入信号Sa中的非语音声音区域被确定。即，可以以较高精度检测出相对小能量的非语音声音。

第二检测部分200包括将在实际讲话中产生的输入信号数据的预测残余能量ε与事先基于非语音声音区域的预测残余能量获得的阈值THD相比较，且如果预测残余能量ε大于或等于阈值THD，在输入信号数据Sa内的时段的语音声音被确定。即，可以以高精度确定相对大能量的语音声音。

而语音部分检测部分基于第一和第二检测部分100和200的确定结果D1和D2最终确定语音部分(即，语音声音和非语音声音的时段)，而要被识别的输入信号数据Dvc基于其确定结果D3而被提取，从而，可以改善语音识别的精度。

语音部分可以基于第一检测部分100的确定结果D1和第二检测部分200的确定结果D2二者，或第一检测部分100的确定结果D1和第二检测部分200的检测结果D2中任一个。

此外，LPC倒频谱分析部分18产生仅在非语音时段τ1内背景噪声的特征矢量A。而非语音时段内的特征矢量A和训练矢量V之间的内积值V^TA加上预定的调整值α，即V^TA+α值被定义为阈值θv。因此，作为检测语音部分的确定标准的阈值θv可以在实际发生背景噪声的实际环境下适宜地调整，从而检测语音部分的精度可以改善。

传统地，在低S/N比的存在大量噪声的地方，例如，在车厢内，噪声矢量为主要的，且语音矢量相对小，因此在实际环境下获得的输入信号的特征矢量指向语音矢量和训练矢量V的相反方向，如图5B所示。于是，存在的问题是，由于特征矢量A和训练矢量V之间的内积值V^TA为负(-)，而不能采用固定的阈值(θ＝0)作为正确检测语音部分的确定标准。

相反，通过本实施例的语音识别系统，即使特征矢量A和训练矢量V之间的内积值V^TA为负值，阈值θv可以根据背景噪声适宜地调整，如图2所示。从而，通过将内积值V^TA与作为确定标准的阈值θv相比较而正确检测语音部分。

换句话说，阈值θv可以适宜地调整，因此实际讲话的输入信号的特征矢量A和训练矢量V之间的内积值V^TA可能高于阈值θv，如图3所示。因此，检测语音部分的精度可以提高。

在上述实施例中，特征矢量A和训练矢量V之间的内积值可以在非语音时段τ1之内而在内积操作部分18之中予以计算，进一步算出对于在非语音时段τ1之内获得的多个帧的内积值V^TA的时间平均值G，且阈值θv被定义为这个时间平均值G加上预定调整值α。

本发明不限于上述实施例。可以获得对于在非语音时段τ1之内获得的多个帧的内积值V^TA的最大值(V^TA)max，而阈值θv被定义为该最大值(V^TA)max加上试验确定的预定阈值α′，即，(V^TA)max+α′值。

如上所述，通过本发明的语音识别系统，第一阈值基于在非语音时段内的信号的特征矢量和训练矢量之间的内积值而产生，且当实际发出语音时，输入信号的特征矢量和训练矢量之间的内积值与第一阈值加以比较，以检测语音部分，从而可以改善语音部分的检测精度。即，由于作用为语音部分确定标准的第一阈值可以根据非语音时段内的信号加以适应性调整，可以通过输入信号的特征矢量和训练矢量之间的内积值与作用为检测确定标准的第一阈值加以比较来适当地检测语音部分。

另外，第一确定部分基于输入信号的特征矢量和训练矢量之间的内积值确定语音部分，而第二确定部分基于输入信号的预测残余能量确定语音部分，而对应于由第一和第二检测部分任一个或是两个所确定的语音部分的输入信号经受语音识别，从而，可以正确地检测非语音声音和语音声音的语音部分。

Claims

1.一种语音识别系统，包括：

倒频谱操作部分(13)，用于产生语音的一系列被观察值；

识别部分(12)，用于通过核对所述一系列被观察值和一声音模型完成语音识别；

语音部分检测部分，用于检测要经历语音识别的语音部分；

所述语音部分检测部分包括：第一检测部分(100)和语音提取部分(400)；

其特征在于，第一检测部分(100)还包括：

第一LPC倒频谱分析部分(15)，用于对预先存储的非语音数据进行LPC倒频谱分析，并产生一第一M维特征矢量；

训练矢量产生部分(16)，用于基于所述M维特征矢量产生训练矢量；

成帧部分(17)，用于在成帧单元内将实际讲话语音的输入语音数据成帧；

第二LPC倒频谱分析部分(18)，用于对已在成帧单元内成帧的输入语音数据进行倒频谱分析，并用于产生一第二M维特征矢量；

内积操作部分(19)，用于在所述训练矢量和所述第二M维特征矢量间计算内积值；

以及

第一阈值产生部分(20)，其用于基于在非语音时段内的内积值产生第一阈值；和

第一阈值确定部分(21)，如果所述内积值大于或等于第一阈值，用于确定输入语音作为语音部分。

2.如权利要求1所述的语音识别系统，还包括：

第二阈值产生部分(22)，其用于基于在非语音时段内输入信号的预测残余能量产生第二阈值；以及

第二阈值确定部分(23)，其用于在如果在发出声音时产生的输入信号的预测残余能量大于或等于第二阈值情况下确定语音部分，

其中，通过第一阈值确定部分和第二阈值确定部分任一个或二者确定的在语音部分内的输入信号经受语音识别。