CN1061451C

CN1061451C - 隐藏式马可夫模型的中文词音识别方法

Info

Publication number: CN1061451C
Application number: CN96122602A
Authority: CN
Inventors: 彭吴忠谋
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 1996-09-26
Filing date: 1996-09-26
Publication date: 2001-01-31
Anticipated expiration: 2016-09-26
Also published as: CN1177775A

Abstract

一种基于隐藏式马可夫模型的中文词音识别方法，其特点是采用两阶段步骤处理中文词音识别并运用了二组模型数据库；一组为包含词汇中所有的词音模型，另一组为声、韵母的发声模型；在两阶过程中第一阶段利用声、韵母模型在词汇中筛选出大量的候选词。然后在第二阶段对这些少量的候选词作面搜寻。与通常的全面搜寻方法相比，它具有快速而又不牺牲识别率的优点，因而可以应用在个人计算机上。

Description

隐藏式马可夫模型的中文词音识别方法

本发明提出一中文词音的快速识别方法。此方法为基于隐藏式马可夫模型的一种改良识别方法。

随着计算机技术的进步与普及，许多用语音识别技术作为产品开发策略的主张也跟着被提出及试行。虽然经过多方面的努力，语音识别仍被认为是在人工智能及计算机科技上较难处理的问题。

用语音作为输入的方式有许多好处，它提供了自然、快速、免于用手、眼，而且可不拘于场所的一种输入介面。对中文而言，语音输入提供了更具吸引力的条件，因为中文的文字输入比起拼音式的文字，譬如英文要困难得多。然而目前仍存在一些障碍，包括成本高、反应不够迅速、需要训练、在噪音环境、说话速度不定，以及音量大小变化的情况下，功能仍不够稳定，对不成文法的话语(nongrammatical speech)仍缺乏处理的能力等等。此外，中文语音中声母(相当于英文中的辅音)的混淆使得前述的问题更为严重。

有好几种在识别率上表现得相当准确的语音识别方法曾被提出。这些方法包括NTT Itakura所提的非线性对齐的动态时间标准法，Carnegie-Mellon大学的DRAGON系统(将语音规律的知识化成随机模型stochastic modelling)，Carnegie-Mellon大学的HAPPY系统(结合了DRAGON及HEARSAY的优点，并用网路表示法及光束搜寻法以改善搜寻效率)，Bell Lab的Wilpon系统，(用聚集技术建立较强健的非特定语者词音识别参考模版)，Carnegie-Mellon大学的FEATURE系统(使用与语者无关的特征免用文法规则可将英文字母的识别率提升90％以上)。IBM的Tangora系统(可识别大量词汇的自然文句)，BBN的BYBLOS系统(使用了音素间前后文相关的模型)，以及Bell Labs的Rabiner系统(用连续隐藏式马可夫模型)等。有关这些技术优点及限制的各方面讨论可参考Kai-Fu Lee所著“Automatic Speech Recognition Thedevelopment of the SHPHINX System”，Kluwer Academic Publishers 1989出版。有关隐藏式马可夫模型在语音识别上的应用在其上亦有详细的论述。

构成中文字音(Syllable)的基本单位有声母及韵母。而一中文词音由中文字音串接而成。在识别时，输入的语音信号A是以一串特征向量表示。例如A可表示成A=X₁X₂…X_t…X_T。X_t即为第t个音框(frame)的特征向量，而T为信号的总音框数。

隐藏式马可夫模型为一统计式的语音信号的描述方式。在此模型中，语音信号根据某种概率分布产生。而此概率分布随时间逐渐改变。换言之，在某一阶段(某段时间)信号以某种概率分布呈现，但在下一阶段会变成另一概率分布呈现。此“阶段”在隐藏式马可夫模型中称为状态(state)，每个状态i伴随着一产生信号的概率分布b_i(X_t)，此被称为产出的观测概率。从某一状态i转移至状态j以状态转移概率a_ij描述。因此基本上隐藏式马可夫模型由一些可转移的状态组成。转移由a_ij决定而每次转移所产生的信号X_t由b_i(X_t)决定。有关隐藏式马可夫模型的细节可参考L．R．Rabiner及B．H．Juang所著的论文“An Introduction to Hidden Markov Models，”IEEE ASSPMagazine(January 1986)。下文中“隐藏式马可夫模型”以此为参考，不再赘述。

在本发明所用的术语中，含N个词的词汇(Vocabulary)集以W={W₁，W₂…W_N}表示，W_i的词长(即词中所含的字数)为｜W_i｜l_i。词W_i所对应的发声模型(acoustic model)为M_i，此模型由字音模型串接而成。字音模型出自集合{(C₁，C₂，C₃…}。即M_i=C_i1C_i2…C_i｜Wi｜，再往下分解，字音模型C_i由声母模型m^l _j及韵母模型m^F _k组成，即C_i=[m^l _j]m^F _k。声母模型中的中括号表示字音中有可能没有声母。声、韵母模型以隐藏式马可夫模型表示。

在识别时，设输入语音信号A为词W_j的发音。所谓识别即在词汇W中找出W_j。在本发明中，所谓全面搜寻(full search procedure)即是对所在词汇中的词音模型M_i(i=1，2…，N)计算由M_i产生A的概率Prob(A｜M_i)。具有最大概率的词W_k即被辨认为会产生A的词。即

k = \arg \underset{i}{M} ax (Prob (A | M_{i}))

概率Prob(A｜M_i)的计算，是通过具有由左至右(left-to-right)的结构并具有s个状态的隐藏式马可夫模型，对输入信号A=X₁X₂…X_t…X_T进行的。计算过程中的最佳状态通过Viterbi算法获得。此算法的详细内容亦可在L．R．Rabiner及B．H．Juang的文章中“An Introduction to Hidden Markov Model”，IEEEASSP Maggazine(January1986)中提到，不在此赘述。

前面所提到的识别方法称为全面搜寻法。在此方法中，输入的语音信号要对所有N个模型作计算，当词汇数N很大时，这种作法便非常费时。

本发明的目的在于提出一种改善中文词音识别的方法。具体而言，在于开发一快速，特别是在即时(realtime)速度上，基于隐藏式马可夫模型的一种中文词音识别方法。

本发明的目的是这样实现的，即提出一种基于隐藏式马可夫模型的快速的中文词音识别的方法，所述方法在全面搜寻之前先过滤掉词汇中大部份的词，然后再对剩下的少量词做全面搜寻，如图1的流程图所示。输入信号首先被切割成l个字音段，每段包含一声母段及韵母段。(声母段有时空缺)。此步骤以下式表示为

A=([s^l ₁]s^F ₁)([s^l ₂]s^F ₂)…([s^l ₁]S^F _l)其中A为输入的语音信号，s^l _i(i=1，2…，l)为第i个声母段落，s^F _i为第i个韵母段落。中括号表示声母段落可能不在信号中。

如前述，每个字音模型C_i是由声母模型m^l _j及韵母模型m^F _k串接而成，即C_i=[m^l _j]m^F _k。因此在筛选阶段要用到两组模型的数据库。一组为词音模型M_n，另一组含J个声母模型m^l _j(j=1，2…，J)，及K个韵母模型m^F _k(k=1，2，…K)。下一步骤即对所有的声韵母段落(即i=1，2，…，l)及对所有的声韵母模型m^l _j，m^F _k(即j=1，2，…，J，k=1，2，…K)计算logProb(s^l _i｜m^l _j)及logProb(s^F _i｜m^F _k)。在本发明中，在W中每个词长为l的词W_n对应的发声模型为M_n=([m^l _n1]m^F _n1)([m^l _n2]m^F _n2)…([m^l _n1]m^F _n1)。因此logProb(W_n)可由下式算出

\log Prob (W_{n}) = Σ_{r = l}^{l} (\log Prob (s_{r}^{l} | m_{nr}^{l}) + \log Prob (s_{r}^{F} | m_{nr}^{F}))

输入的语音信号A，可能为除了l外的别的词长。因此，必须挑选别的词长对A再作切割，并用上式再计算一遍，直到词汇W中所有可能的词长(通常不外乎2字词，3字词或4字词，即l=2，3或4)均用相同的方式处理过为止。当所有的logProb(W_n)均计算完后，找出前X个具有最大值的词W_i，i=1，2…，X。这些即为在第一阶段时筛选得到的结果，由原先N个词的搜寻范围减到只剩X个词。在第二阶段中，仅对剩下的X个候选词作全面搜寻。从而A被辨认为词W_x，其中

x = \arg \underset{i}{M} ax (Prob (A | M_{i})) i = 1,2, . . ., X

另外，本发明还提供了一种采用所述方法实现中文语音识别的装置，包括：存储第一组数据库的第一存储装置和取得第一组数据库的装置；存储第二组数据库的第二存储装置和取得第二组数据库的装置；接收一输入语音信号A的装置；将输入语音信号切割成l个段落的装置；存取该第二存储装置并计算logProb(W_n)的装置；寻找前X个最大logProb(W_n)值的装置；存取该第一存储装置并计算Prob(A｜M_n)的装置；及输出识别词W_x的装置。

隐藏式马可夫模型曾被成功地用在中文词音识别上。然而，用来执行的机器大都是高速计算机。由于计算速度的限制，用较低级(low end)的计算机，例如个人计算机，在辨认大词汇集时往往会遭遇到一些困难。本发明提出的一两阶段的中文词音识别的方法和装置，得到了快速而不牺牲识别率的结果。

以下参考附图详细说明本发明的实施例，其中

图1为本发明两阶段快速识别中文词的方法流程图。

图2显示将一中文词音信号切割成2段、3段或4段的结果。

本发明提出一种基于设计模型的改善识别中文词音的方法。在此方法中涉及二组统计模型数据库，并采用两阶段作法，每一阶段均使用到此二组数据库以达到即时或接近即时的快速中文词音识别。

本发明的词音识别针对一组含N个词的词汇W即

W={W₁，W₂，…W_N}每个词W_i的词长(所含字的个数)以｜W_i｜=l_i表示。因此若词W_i的发声模型(acoustic model)以M_i表示，则M_i由字音模型串接而成。即若字音模型所成的集合为{C₁，C₂，C₃…}，则词音模型M_i可表示为

M_i=C_i1C_i2…C_i｜Wi｜

｜W_i｜即词音模型M_i中所包含的字音个数。

在中文字音中，每一字音由声、韵母接序而成。因此，每一字音模型C_i可用声母模型m^l _j及韵母模型m^F _k表示为

C_i=[m^l _j]m^F _k其中，中括号表示有些字音声母可能不存在。在本发明中，声母模型及韵母模型均以隐藏式马可夫模型表示。此二组模型数据库，包括词音模型及声韵母模型，将在以后的识别过程中使用到。

在语音识另时，输入的语音信号为A。识别的目标即在词汇W中找出一词W_j，A即为该词在正确发音情况下产生的信号。

本发明提出一种基于隐藏式马可夫模型，用两阶段步骤处理中文词音识别的新方法。此方法运用了二组模型数据库。一组为包含词汇中所有的词音模型，另一组为声、韵母的发声模型。在两阶段过程中第一阶段利用声、韵母模型在词汇中筛选出少量的候选词。然后在第二阶段对这些少量的候选词作全面搜寻。图1的流程图说明了此筛选的过程。输入的语音信号A首先被切割成l段字音段(segment)每个段落包含了一声母及韵母的子段落(subsegment)或者是声母段落空缺而只含一韵母段落。若以符号表示即如下式

A=([s^l ₁]s^F ₁)([s^l ₂]s^F ₂)…([s^l ₁]s^F ₁)其中s^l _i(i=1，2，…，l)即为声母子段落，而s^F _i(i=1，2，…，l)为韵母子段落。中括号表示此段落可能空缺。此一切割的过程通过Viterbi算法完成。然而用来切割的模型是分别由一般声韵母结合而成的通用声、韵母模型。此二模型与一般的声母及韵母模型结构相同，只是每个状态的产出观测概率为一般声母及韵母在同一状态下观测概率中的最大值。图2显示一输入语音被切割成2段、3段及4段的结果。

如前述，每个字音模型C_i为一声母模型m^l _j(可能空缺)接一韵母模型m^F _k，即C_i=[m^l _i]m^F _k。因此在本发明的第一阶段即涉及J个一般声母模型m^l _j(j=1，2，…，J)以及K个一般韵母模型m^F _k(k=1，2，…，K)。前述用来切割的通用声母模型由此J个一般声母模型结合而成。此通用模型与一般模型有相同的结构，而状态的产生观测概率取所有一般声母中同一状态下的最大产出观测概率。通用韵母也是采用相同的方式由一般韵母结合形成。有了切割的子段落s^l _i或s^F _i及一般声韵母模型m^l _j，m^F _k后，下一步即针对所有的段落i(i=1，2…，l)及所有的声母模型m^l _j j=1，2，…，J及所有的韵母模型m^F _kk=1，2，…，K计算logProb(s^l _i｜m^l _j)及logProb(s^F _i｜m^F _k)。

本发明中，在词汇W中具有词长l的每一词W_n其发声模型为M_n=([m^l _n1]m^F _n1)([m^l _n2]m^F _n2)…([m^l _n1]m^F _n1)。而logProb(W_n)的值可由下式而得

\log Prob (W_{n}) = Σ_{r = l}^{l} (\log Prob (s_{r}^{l} | m_{nr}^{l}) + \log Prob (s_{r}^{F} | m_{nr}^{F}))

若词汇中除l外尚有其它的词长(通常中文词汇中有2个字词3字词或4字词)则A需再次被切割成其它的词长并重复以上的步骤直到所有词长均被处理过为止。

当计算出所有的logProb(W_n)后，具有前X个最大logProb(W_n)值的词W_i，i=1，2，…，X即为被筛选出的第一阶段的候选词。这些候选词然后被送入第二阶段作全面搜寻。

若W_i的发声模型为M_i，则在作全面搜寻时，所有的Prob(A｜M_i)均需计算。具有最大值的词W_x即为最后的识别结果。(即A是由词W_x所产生的语音信号之一)。以数学式表示如下：

x = \arg \underset{i}{M} ax (Prob (A | M_{i})) i = 1,2, . . ., X

全面搜寻亦可直接用在整个词汇上。由于未经筛选，Prob(A｜M_i)的计算涉及词汇中所有的N个词。具有最大值的词W_k即为识别结果，即若

k = \arg \underset{i}{M} ax (Prob (A | M_{i})) i = 1,2 . . ., N

则A被识别为词W_k。

以下将用一些特例验证本发明方法的效果。这些特例只是用来方便说明而已。并不表示本发明方法只能局限于此范围。

在实验中，使用21个一般声母模型及36个一般韵母模型。模型以具有3个状态由左至右结构的隐藏式马可夫模型表示，每个状态的产出观测概率为4个高斯分布(Gaussian Distribution)的混合。模型中的参数估计用众所周知的Baum-Welch重估法得到，关于这方面的细节可参考Rabsiner及Juang的文章“An Introduction to Hidder Markov Modds”IEEE ASSP Magazine January1986，在此不再赘述。

切割输入语音所用的通用声母及通用韵母模型分别由21个一般声母模型及36个一般韵母模型结合而成。在通用模型观测概率方面，若通用声母模型在状态i的产出观测概率为B^l _i(O_t)而在一般声母的

{\hat{b}}_{i}^{j} (O_{t})

(j=1，2，…，21)，同样地，若通用韵母模型在状态i的产出观测概率为B^F _i(O_t)而一般韵母的为 b^k _i(k=1，2，…36)，则B^l _i(O_t)及B^F _i(O_t)的值分别为

{\hat{b}}_{i}^{j} (O_{t})

及 b^k _i(O_t)中最大值，如下式所示

B_{i}^{I} (O_{t}) = m \underset{j}{a} x \hat{b_{i}^{j}} (O_{t}), j = 1,2, . . . . . 21

B_{i}^{F} (O_{t}) = m \underset{k}{a} x \bar{b_{i}^{k}} (O_{t}), k = 1,2, . . . . . 36

由于转移概率a_ij对切割结果几乎无任何影响，因此通用模型的转移概率取向任一一般模型的转移概率。这些计算步骤的原始程序由附录给出。

三种不同大小的词汇：100个词、400个词及945个词，用来作测试。每个词音由字音串接而成，而每个字音C_i由一般声母模型m^l _j接一韵母模型m^F _k形成。

表1比较了传统的全面搜寻方法以及本发明的两阶段识别方法所需要的识别时间。计算系在SUN SPARC 10工作站上执行。表中数据显示本发明方法所需时间少于全面搜寻法所需时间并且几乎与词汇大小无关。此结果说明本发明方法对中文大词汇的识别有快速效果。

表1 不同候选词数(X)所需的识别时间(Sec/fiame)

本发明方法			全面搜寻
本发明方法			全面搜寻		词数(N)	X=10	X=20	X=30
945	0．043752	0．045630		0．046557	词数(N)	X=10	X=20	X=30		0．096750
945	0．043752	0．045630		0．046557	480	0．043605	0．044246	0．045242	0．072973	0．096750
100	0．043605	0．043999		0．045533	480	0．043605	0．044246	0．045242	0．072973	0．051507

表2至表5比较了传统的全面搜寻方法与本发明的两阶段方法的识别率。表2-4列出了测试语音数据为3名男性语者(M1，M2，M3)所读的479个词的识别结果，词汇所含的词数为480。表5列出了某语者读100词的测试结果。

表2

M1	错误数	错误率(％)
M1	错误数	错误率(％)	全面搜寻	52	10．86
本发明方法			全面搜寻	52	10．86
本发明方法			X=10	64	13．36
X=20	63	13．15	X=10	64	13．36
X=20	63	13．15	X=30	62	12．94
X=40	60	12．53	X=30	62	12．94
X=40	60	12．53	X=50	58	12．11

表3

M2	错误数	错误率(％)
M2	错误数	错误率(％)	全面搜寻		2．30
本发明方法			全面搜寻		2．30
本发明方法			X=10	16	3．34
X=20	15	3．13	X=10	16	3．34
X=20	15	3．13	X=30	15	3．13
X=40	14	2．92	X=30	15	3．13
X=40	14	2．92	X=50	14	2．92

表4

M3	错误数	错误率(％)
M3	错误数	错误率(％)	全面搜寻	50	10．44
本发明方法			全面搜寻	50	10．44
本发明方法			X=10	49	10．23
X=20	47	9．81	X=10	49	10．23
X=20	47	9．81	X=30	47	9．81
X=40	48	10．02	X=30	47	9．81
X=40	48	10．02	X=50	49	10．23

表5

	错误数	错误率(％)
	错误数	错误率(％)	全面搜寻	5	5

本发明方法
本发明方法			X=10	6	6
X=20	6	6	X=10	6	6
X=20	6	6	X=30	6	6

表2-5的结果说明，用本发明的两阶段方法获得的识别率与用全面搜寻法获得的效果相当。然而本发明方法却有较快的识别速度，使得大量词汇的语音识别可在普遍被使用的个人计算机上执行。

以上所述仅为本发明优选实施例的说明，但本发明并不受限于此，本领域的普通技术人员，在本发明说明书的公开之下，进行的任意变化，都不脱离所附权利要求规定的范围。

Claims

1、一种中文词音识别方法，包括以下的步骤：

(a)取得第一组数据库，其中该第一组数据库包括一组含N个中文词的词汇集，此词汇集以W=(W₁，W₂，…，W_N}表示，每个词W_i有个发声模型M_i，此模型由字音模型串接而成，字音模型的集合以{C₁，C₂，C₃…}表示，每个字音模型C_i是由声母模型后接一韵母模型形成，其中声母模型可能空缺，声母模型及韵母模型均以统计模型表示；

(b)取得第二组数据库，其中该第二组数据库包括一组J个声母模型m^l _j(j=1，2，…，J)及另一组K个韵母模型m^F _k(k=1，2，…，K)；

(c)接收一输入语音信号A；

(d)将输入语音信号切割成l个段落(segnent)，其中该l为一整数，而输入语音信号可以以下式表示

A=([s^l ₁]s^F ₁)([S^l ₂]S^F ₂)…([s^l ₁]S^F ₁)

其中s^l _i(i=1，2，…，l)为声母子段落，而s^F _i(i=1，2，l)为韵母子段落，[]表示有些声母子段落可能为空段落；

(e)对词汇W中的每一个词长为l的词W_n，此词的发声模型为M_n=([m^l _n1]m^F _n1)([m^l _n2]m^F _n2)…([m^l _n1]m^F _nl)，由下式计算logProb(W_n)，

\log Prob (W_{n}) = Σ_{r = 1}^{l} (\log Prob (s_{r}^{l} | m_{nr}^{l}) + \log Prob (s_{r}^{F} | m_{nr}^{F}))

；

(f)在词汇W中找X个词，这些词的logProb(W_n)值在词汇W中的所有词的logProb(W_n)值中为前X个最大值，设这些X个词的集合为W’；

(g)对每个在词汇W’内的词W_n，计算Prob(A｜M_n)(n=1，2，…，X)，即在已知M_n模型下产生A的概率；及

(h)输出识别出的词W_x，其中

x = a rg \underset{n}{M} ax (Prob (A | M_{n})) n = 1,2, . . ., X

。

2、如权利要求1所述的方法，其中声母模型与韵母模型均用隐藏式马可夫模型表示。

3、如权利要求1所述的方法，其中输入语音信号采用Viterbi算法进行切割。

4、如权利要求1所述的方法，其中包括用不同的词长l重复步骤(d)及(e)。

5、如权利要求4所述的方法，其中所述不同的词长l分别为2，3及4。

6、如权利要求1所述的方法，其中X是个等于或大于10的整数。

7、如权利要求1所述的方法，其中X是个整数，且至少是N的2％。