CN1177313C

CN1177313C - 带方言背景的汉语语音识别方法

Info

Publication number: CN1177313C
Application number: CNB021556059A
Authority: CN
Inventors: 方郑; 郑方
Original assignee: Individual
Current assignee: Beijing D Ear Technologies Co ltd
Priority date: 2002-12-13
Filing date: 2002-12-13
Publication date: 2004-11-24
Anticipated expiration: 2022-12-13
Also published as: CN1412741A

Abstract

本发明属于计算机人工智能及模式识别技术领域，涉及带方言背景的汉语语音识别方法。本发明包括：根据特定方言的特点，构建从普通话读音到方言读音的音节映射表；根据音节映射表，扩展已有的标准普通话语音识别器中的搜索树；用扩展了的搜索树替换标准普通话语音识别器中的搜索树。本发明可节省大量的录制数据库的工作量；不同方言背景的普通话语音识别器与标准普通话的语音识别器共用相同的声学模型和语言模型；变换方言背景时，只需要变换音节映射表即可，因而使用和维护方便；语音识别器既可以识别标准普通话，又可以识别带有各种程度的方言背景的普通话，因而可以很大程度地提高汉语普通话语音识别器的性能。

Description

带方言背景的汉语语音识别方法

技术领域

本发明属于计算机人工智能及模式识别技术领域，特别涉及通过计算机识别人类语音的方法。

背景技术

“大词汇连续语音识别”(Large Vocabulary Continuous Speech Recognition，LVCSR，简称“语音识别”)，就是由计算机根据人的连续声音信号中所蕴涵的语言信息，识别出某段语音对应的是哪些文字的过程。“大词汇连续语音识别器”(Large VocabularyContinuous Speech Recognizer，简称“语音识别器”)指用于进行语音识别的设备或软件。语音识别是由声音信号到文字的转换过程，可以广泛地应用于包括电信业、银行业、财经金融业、旅游及运输业、公用事业、娱乐业、公众消费行为方面、企业经营行为方面等几乎所有方面，应用的类型包括呼叫中心(Call Center)语音服务、中文智能互动短信服务、电脑/电子设备中的语音命令控制、教育、国家安全领域等等。

语音识别器由两个部分组成：一个是声学模型(Acoustic Model，AM)，一个是语言模型(Language Model，LM)。

声学模型用于把声音信号转换为汉语声韵母(或音节)的网格，实现由信号到声音符号(用声韵母或拼音表示)的转换。目前最有效、最通用的实现声学模型的方法是隐式马尔可夫模型(Hidden Markov Model，HMM)方法及由其派生出来的方法。声学模型分为声学模型的训练过程和声学模型的识别过程两个部分，如图1所示。声学模型的训练过程1(简称声学训练)，包括声学特征提取、声学训练和声学模型库的建立；它利用从大量的说话人所说的话语中提取出来的声学特征为每个声学识别基元(也称识别基元、基元或语音识别基元)建立一个模型，对汉语的语音识别，识别基元通常为汉语音节、汉语声韵母或汉语音素等。声学模型的识别过程2(简称声学识别)，包括声学特征提取、声学搜索；它用模型库中的模型与某段发音的声学特征进行匹配比较，从而找到最可能的匹配模型序列或网格，也就是声学识别的结果；由于模型序列有很多种可能性，识别过程需要尽可能有效地尝试各种可能的模型序列组合，这相当于在模型序列空间中进行最优序列的搜索，因此声学模型的识别过程也称为声学模型的搜索过程(简称声学搜索)。在语音识别的整个过程中，声学搜索是第一阶段，其输出结果往往是语音识别基元的网格的形式，它是下一阶段的输入，如图2所示，图中，灰色的圆圈中是实际所发音节的拼音(实际发音为：我们是中国人)，而其他圆圈中的拼音是声学搜索输出的其他可能的候选。

语言模型用以刻划句子的上下文中相邻词之间的搭配概率关系。目前最常用的语言模型是称为Tri-gram(三元组)的语言模型，它给出了任意三个词a、b和c之间的搭配概率P(c|a，b)。语言模型部分也分为语言模型的训练过程和语言模型的搜索过程两个部分。语言模型的训练过程：当已经有海量的汉语文本(称为训练文本)时，通过简单的计数方法，可以统计出任意三个词之间的搭配次数，从而估算出其搭配概率；语言模型的搜索过程：在把声学搜索的中间结果——语音识别基元网格——转换为汉语句子过程中，语言模型用以从众多可能的候选中根据最大似然的原则挑选出最好的句子候选。这里最大似然准则意味着最大概率。在搜索过程中，句子概率用下式计算：

P (w_{1}, w_{2}, \cdot \cdot \cdot, w_{N}) \approx P (w_{1}) \cdot P (w_{2} | w_{1}) \cdot Π_{n = 3}^{N} P (w_{n} | w_{n - 2}, w_{n - 1})

其中词的三元组(w_n-2，w_n-1，w_n)出现的概率，也就是P(w_n|w_n-2，w_n-1)，是从训练文本中通过已有语言模型训练方法学习来的。

在进行语言模型的搜索时，采用搜索树约束其空间扩展的速度和程度，以保证搜索的效率。搜索树的例子如图3所示，这是按声母和韵母组织的。搜索树中总共有三类节点。根节点：用双圆环表示，是一棵树的起点，也是搜索过程的起点。中间节点：用黑色圆点表示，在从中间节点的父节点指向该节点的有向弧上标出的是声学基元，图3中表示的声学基元是声母、韵母；其中一个节点的父节点定义为用箭头指向该节点的那个节点，在搜索树中，除根节点外任何一个节点的父节点都有且只有一个。叶子节点：用白色圆点表示，在从叶子节点的父节点指向该节点的有向弧上标出的是汉语的词，表示该词读音的拼音串就是从根节点到该叶子节点所经过的所有有向弧上标出的声母和韵母按顺序组成的拼音串；由于指向叶子节点的有向弧是唯一的，因此，把该有向弧对应的词称作该叶子节点所对应的词。

搜索树中所有的叶子节点所对应的词组成了语音识别器的整个词表。大词汇连续汉语语音识别器的词表一般含5～6万汉语词汇。语言模型的搜索过程，就是把声学搜索中间结果——语音识别基元网格(按声韵母或按拼音组织)——与搜索树(按声韵母或按拼音组织)进行匹配比较，利用语言模型概率计算公式，从而找到最大似然句子的过程。在搜索过程中，如果识别基元网格的某条路径与搜索树的某个叶子节点所对应的有向弧已经匹配完成，则搜索树会自动回复到根节点起点，除非此时识别基元网格中的那条路径已经匹配到最后一个基元。

大词汇连续汉语语音识别器已经取得了很大的进展，对标准普通话，识别器的准确率可以达到95％以上。但是，汉语的方言问题是汉语语音识别面临的主要问题。由于在中国大部分人的普通话都带有一定的方言背景，在这样的情况下，大部分的语音识别器的性能都会大大下降，甚至降至不能使用的地步。

在中国，汉语有八大方言区：

(1)北方方言——以黄河流域为中心，东北和长江流域中部及西南各省；

(2)吴方言——上海地区、江苏东南部和浙江大部分；

(3)湘方言——湖南省大部分地区；

(4)赣方言——江西省大部分地区和湖北东南角；

(5)客家方言——广东、广西、福建、江西部分地区；

(6)闽北方言——福建北部和台湾部分地区；

(7)闽南方言——福建南部、广东潮汕、台湾大部分、海南部分地区；

(8)粤方言——广东中部及西南部、广西东南部。

这八大方言又可以进一步分为40多个子方言。各方言都有各自明显的特点，使得有方言背景的说话人的普通话与标准普通话存在一定的差别。

目前很多识别器对方言背景对语音识别器性能造成的影响是用数据库方法去消除或减弱的，就是说，当已经有一个对标准普通话进行识别的语音识别器，需要对带某种方言背景的普通话进行识别时，采用的方法为：收集大量与该方言有关的语音数据库，然后利用已有的声学模型训练方法去重新训练声学模型，或利用已有的说话人自适应方法对声学模型进行自适应。这种方法的缺点是：(1)收集带方言背景的数据库的工作量非常巨大，对于汉语这么多的方言，数据库的收集更是一件巨大的工程。(2)这种方法无法兼顾标准普通话和带发音背景普通话之间的共性，仅是通过数据驱动的方法去解决问题，相当于完全重新构建一个语音识别器，给不同方言背景的语音识别器之间的资源共享和兼容带来困难。

发明内容

本发明的目的是为克服现有语音识别技术对带方言背景的普通话识别的不足之处，提出一种新的带方言背景的汉语语音识别方法，利用音节映射表和搜索树扩展等一系列方法，几乎不用录制带方言背景的语音数据库就可以很好地消除方言背景对汉语语音识别器性能的影响。

本发明提出一种带方言背景的汉语语音识别方法，包括一个汉语标准普通话的语音识别器；其特征在于，该方法包括以下步骤：

1)根据特定方言的特点，构建从普通话读音到方言读音的音节映射表；

2)根据音节映射表，扩展已有的标准普通话语音识别器中的搜索树；

3)用扩展了的搜索树替换标准普通话语音识别器中的搜索树；所说的步骤1)构建音节映射表的方法，具体包括以下步骤：

(1)根据语言知识总结相关方言的音节映射规律；

(2)对于任何一个词无关的音节映射，如果映射是发生在声母，则注册声母映射对{I^*(x)}→{I^*(y)}，式中表示含有声母x的音节其声母会映射成y；

(3)对于任何一个词无关的音节映射，如果映射是发生在韵母，则注册韵母映射对{^*F(x)}→{^*F(y)}，式中表示含有韵母x的音节其韵母会映射成y；

(4)对于任何一个词相关的音节映射，则注册音节映射对{W(x₁，…，x_n)}→{W(y₁，…，y_n)}，式中表示在词W的上下文环境下，词W的音节串由(x₁，…，x_n)映射成(y₁，…，y_n)，其中，没有发生音节映射的音节，或仅发生词无关的音节映射的音节，相应的y_i用“^*”标出；

所说的步骤2)扩展搜索树的方法，具体包括以下步骤：

(1)根据每一个词相关的音节映射对{W(x₁，…，x_n)}→{W(y₁，…，y_n)}，向词表中加入一个新词W，其中该词的汉字串不变，用以表示该词的标识码不变，该词的音节串(y₁，…，y_n)中用“*”标出的拼音从原词相应的音节复制过来，对每一个这样的词，有一个新的读音；

(2)按已有的搜索树的创建方法，为加入了新词后的词表建立新的搜索树；

(3)对每一个词无关的音节映射{I^*(x)}→{I^*(y)}或{^*F(x)}→{^*F(y)}，检查搜索树中所有非叶子节点对应的有向弧，如果该有向弧中所标的声母或韵母是x，则将该有向弧扩展出一个与之并列的同向有向弧，并标以y；

所说的步骤3)的用扩展了的搜索树替换已有语音识别器中的搜索树方法为，在搜索树扩展完成后，不修改已有识别器中的声学搜索算法和语言搜索算法，直接用已有的语音识别器中去进行声学搜索和语言搜索。

经过以上三个步骤的改造，汉语标准普通话的语音识别器就可以识别带方言背景的普通话。

本发明的原理说明如下：

带方言背景的普通话与标准普通话之间存在很多共性，通过一定的语言知识，可以让它们很好结合起来，使得带方言背景的普通话的语音识别器与标准普通话的语音识别器共用在一个框架下。根据语言学知识，带方言背景的普通话，其音节表与标准普通话的音节表是类似的。但是由于方言背景的影响，带方言背景的普通话的实际音节发音会发生变化：如果所说的普通话比较标准，那么这种变化很小；相反，则可能保留很多方言的发音特点。总结来说，这种变化分为几种，两者发音的映射关系如图4所示(映射前后的发音均用标准普通话的拼音、声母或韵母表示)：

(1)词无关(Word-Independent)的声母和韵母变化，这种变化在任何词中都可能发生，并不受具体词的影响。比如南方口音把声母zh、ch、sh分别发成z、c、s；把韵母eng和en、ing和in、或ang和an混淆等。

(2)词相关(Word-Dependent)的音节变化，这种变化因词而异。比如，在四川话中，拼音guo在“中国”中读gui，而在“过去”中仍然读guo。

图4中，带箭头的虚线表示词无关的音节映射，由于只发生声母或韵母的变化，图中仅把相关的声母或韵母用黑体标出，该线段由标准普通话的发音指向所映射成的方言中的发音。图4中，带箭头的实线表示词相关的音节映射，由该词中发生映射音节的标准普通话发音指向其在该方言中的发音；词中没有发生发音变化，或发生词无关发音变化的那些音节，则不标出，相应的汉字用“[ ]”标出。

本发明具有以下特征：

1)充分利用语言层面的知识和规律，变换方言背景时，不用采集大量用于自适应的语音数据库，因而可以节省大量的工作量；

2)不同方言背景的普通话语音识别器与标准普通话的语音识别器共用相同的声学模型和语言模型；

3)变换方言背景时，只需要变换音节映射表即可，支持音节映射表的声学搜索算法与语言搜索算法可以很好地解决方言背景对发音的影响，因而使用和维护方便；

4)语音识别器既可以识别标准普通话，又可以识别带有各种程度的方言背景的普通话，因而可以很大程度地提高汉语普通话语音识别器的性能。

附图说明

图1是已有的语音识别之声学模型训练和搜索的总体框图。

图2是已有语音识别中声学搜索输出的结果示例(拼音的网格)。

图3是按声母和韵母组织的搜索树示例。

图4是四川话发音变化的示例(用标准普通话的拼音表示音节映射关系)。

图5是音节映射表构建的流程图。

图6是搜索树扩展的流程图。

图7是搜索树中按词无关的音节映射对对有向弧进行扩展的示例。

具体实施方式

本发明提出的带方言背景的汉语语音识别方法结合实施例及附图详细说明如下：

3)用扩展了的搜索树替换标准普通话语音识别器中的搜索树。

上述步骤1)构建音节映射表的方法实施例，如图5所示，包括以下步骤：

(1)根据语言知识总结相关方言的音节映射规律；

(2)对于任何一个词无关的音节映射，如果映射是发生在声母，则注册声母映射对{I^*(x)}→{I^*(y)}，它表示含有声母x的音节其声母会映射成y，例如：{I^*(zh)}→{I^*(z)}，{I^*(hu)}→{I^*(w)}等；

(3)对于任何一个词无关的音节映射，如果映射是发生在韵母，则注册韵母映射对{^*F(x)}→{^*F(y)}，它表示含有韵母x的音节其韵母会映射成y，例如：{^*F(en)}→{^*F(eng)}，{^*F(eng)}→{^*F(en)}等；

(4)对于任何一个词相关的音节映射，则注册音节映射对{W(x₁，…，x_n)}→{W(y₁，…，y_n)}，它表示在词W的上下文环境下，词W的音节串由(x₁，…，x_n)映射成(y₁，…，y_n)，其中，没有发生音节映射的音节，或仅发生词无关的音节映射的音节，相应的y_i用“^*”标出，例如：{中国(zhong，guo)}→{中国(^*，gui)}，表示在“中国”这个词中，音节guo发生词相关音节映射成为gui，而仅发生词无关音节映射的音节zhong，在箭头右端用“^*”标出。

上述步骤2)扩展搜索树的方法实施例，如图6所示，包括以下步骤：

(1)根据每一个词相关的音节映射对{W(x₁，…，x_n)}→{W(y₁，…，y_n)}，向词表中加入一个新词W，其中该词的汉字串不变，用以表示该词的标识码(在已有语音识别器中每一个词有唯一的标识码)不变，该词的音节串(y₁，…，y_n)中用“^*”标出的拼音从原词相应的音节复制过来，对每一个这样的词，该步骤使得它有个一个新的读音；

(3)对每一个词无关的音节映射{I^*(x)}→{I^*(y)}或{^*F(x)}→{^*F(y)}，检查搜索树中所有非叶子节点对应的有向弧，如果该有向弧中所标的声母或韵母是x，则将该有向弧扩展出一个与之并列的同向有向弧，并标以y；如图7所示，图中粗线表示的有向弧是根据大箭头上面的音节映射对所扩展出来的有向弧。

上述步骤3)的用扩展了的搜索树替换已有语音识别器中的搜索树方法实施例为，在搜索树扩展完成后，不用修改已有识别器中的声学搜索算法和语言搜索算法，直接用已有的语音识别器中去进行声学搜索和语言搜索。

Claims

1、一种带方言背景的汉语语音识别方法，包括一个汉语标准普通话的语音识别器；其特征在于，该方法包括以下步骤：

3)用扩展了的搜索树替换标准普通话语音识别器中的搜索树；

所说的步骤1)构建音节映射表的方法，具体包括以下步骤：

(1)根据语言知识总结相关方言的音节映射规律；

所说的步骤2)扩展搜索树的方法，具体包括以下步骤：

(1)根据每一个词相关的音节映射对{W(x₁，…，x_n)}→{W(y₁，…，y_n)}，向词表中加入一个新词W，其中该词的汉字串不变，用以表示该词的标识码不变，该词的音节串(y₁，…，y_n)中用“^*”标出的拼音从原词相应的音节复制过来，对每一个这样的词，有一个新的读音；