CN101118541B

CN101118541B - 汉语语音码汉语语音识别方法

Info

Publication number: CN101118541B
Application number: CN2006100297329A
Authority: CN
Inventors: 苗玉水
Original assignee: Individual
Current assignee: Jiangsu Huayin Information Science & Technology Co Ltd
Priority date: 2006-08-03
Filing date: 2006-08-03
Publication date: 2011-08-17
Anticipated expiration: 2026-08-03
Also published as: CN101118541A

Abstract

本发明是一种汉语语音码汉语语音识别方法，它是一种使用不附加任何硬件的世界通用的计算机或嵌入式系统将汉语全部有调汉语语音音节以音节为单位精确转换成仅用26个拉丁字母表示的汉语语音码的计算机或嵌入式系统的转换方法。采用该方法使得汉语语音识别可以在纯ASCII码系统中进行，且使识别系统的复杂性与词库的规模性无关，本发明能广泛应用于计算机汉语语音识别领域并提供了极大的便利。

Description

汉语语音码汉语语音识别方法

一.所属技术领域

该发明申请的技术领域属于计算机汉语语音识别技术领域。

二.背景技术

计算机语音技术是机器通过识别和“理解”过程将语言的语音信号准确地转变为相应文本文件或命令的高科技技术，语音识别技术在近半个多世纪以来一直是人们研究的热点，经过40多年的发展，其研究成果已广泛应用于人类社会的各个领域，已经显示出巨大的应用前景。

随着人机互动概念的加强，微软公司董事长比尔·盖茨也大胆提出“人机交流”设想：在未来，电脑用户将可以直接和人类进行语音交流，而个人电脑也将走入一个完全摈弃鼠标键盘的直接沟通时代。在比尔·盖茨的“人机交流”构想中，语音识别系统被摆在了绝对主导的地位。随着语音技术的发展“视”窗操作系统将让位于“说”窗操作系统，因此语音识别技术是下一代计算机的战略制高点之一，对未来计算机的发展起着里程碑的作用，

随着中国经济的迅速崛起国际地位的不断提高，世界范围内掀起了一股汉语热，再加上全世界近1/5以上的人口的人将汉语作为自己的母语，汉语语音技术市场特别是汉语语音识别技术市场潜力巨大，因此，包括中国在内的世界各国计算机技术领域的巨头无不在该领域投入巨资，以便能够研发出该技术领域的领先技术抢站这巨大的市场先机。

现在几乎所有的汉语语音识别系统无论技术先进与否，由于受到目前汉语信息处理技术上的限制，它们不得不都遵循几乎完全相同的运行模式即：输入的汉语语音经过一系列的技术处理后，汉语语音识别系统最终输出该系统识别出的汉字，由于汉字大量同音字的存在，在这过程中这些系统常常先要借助于与词库大小有关的汉语连续语音识别搜索策略技术，先判明这个语音组成的是哪个词后才能决定输出哪个汉字。在这里我们清楚地看到：汉语语音识别系统的识别效果不仅与汉语语音物理意义上的声学参数的识别效果有关，而且还直接与汉语词库的大小、采用的搜索策略技术及汉字字形有关。为了使汉语连续语音识别系统能够识别用汉语语音表达的更多的汉语信息，相应的汉语词库也就需要同步扩充，为了不降低输出字形的准确度，对相应的搜索策略技术的要求也就越高，技术也就越复杂，同时输出的字形也就越多，汉字输出判断也就会越复杂，为了实时输出识别结果对硬件系统的要求也相应提高，导致系统成本相对提高，随着社会的发展新的词汇不断出现，系统的规模就会越来越大，系统也就会越来越复杂，这样势必会影响到系统的实用性。

这种结构的汉语语音识别系统实际上是一个汉语语音识别加汉字辨别的复合系统，不是真正意义上的一个纯的语音识别系统，这样的系统必然是一个系统的复杂性和系统的规模性相关的系统，汉语语音识别系统长期以来采用这种模式也实在是无奈之举，因为表达汉语信息的不是只与发音有关的拼音文字而是表意的方块汉字，要使汉语语音识别系统的复杂性和系统的规模性无关，就必须使得汉语语音识别系统的识别结果只与输入的语音有关，而与汉字的字形无直接关系，汉字的可辨别字形输出，留给后面的可维护扩充的以词为单位的只和汉语语音有关的汉语语音码与以词为单位的汉字对照词库标准转换模块去完成。

三.发明内容

本发明的目的就是要解决以上这些问题，通过采用本发明的关键技术使计算机汉语语音识别系统的复杂性和系统的词库规模性无直接关系，不管在社会的哪个阶段汉语词汇增加量和变化量有多大，产生了多少新学科及其该学科的新术语，只要正常听得懂汉语的人能够识别的标准汉语普通话，系统语音识别技术层面不加改造就能识别，而且对系统的软硬件要求不高，只要能够识别1282左右的个不同汉语有调音节的系统就可以满足要求，在识别汉语语音数量上看这相当于目前汉语的中小语音识别系统的要求，使系统成本大大下降，实用性大大提高，甚至还可以直接做成芯片成为一个嵌入式汉语语音识别系统，只有这样音节组成相对简单的汉语的优势才能得到充分发挥，汉语语音才会在世界众多语言的语音识别中率先取得成功。

我们知道用于表达汉语信息的汉字的字形很多，据统计光《康熙字典》里收入的汉字就有5-6万之多，汉字的多一方面反映了中华民族五千年文化底蕴的厚重，另一方面却给计算机汉语语音识别中的汉字同音字辨认输出带来极大的复杂性。由那么多字形的汉字组成汉语的单词就更多。

但研究表明由那么多字形组成的汉字和汉语单词的语音的声母却只有22个(包括一个零声母)、韵母只有38个，声调只有5个(包括一个轻音)，由这些汉语声韵母组成的没有声调的音节也只有416个，有声调的全部汉语音节也只有1282个左右，不超过1300个，不管汉字字形发生了怎样的变化，汉语又发展出了多少新的单词，可以说所有的汉字的读音都包括在这1282个左右的汉语有调音节的拼音中，所有的包括新发展在内的汉语单词都是有这1282个左右汉语有调音节以词为单位排列组合的结果。从中我们可以看到汉语中不变的或者说相对稳定的是汉语的声、韵、调和1282个左右的汉语有调音节，变化的是汉字字形和汉语单词，要使汉语语音识别系统以不变应万变，一个有效的方法是变传统的汉语语音识别系统的“输入语音后经过判词等识别后直接输出汉字”的模式为“输入语音后只进行汉语有调音节的判断，识别后直接输出汉语有调音节串即可”不管今后汉字的字形和汉语单词如何变化，汉语语音识别的这部分都是不变的，至此汉语语音识别系统完成了汉语语音物理参数意义上的语音识别。接下去将得到的汉语有调音节串再通过词库查词按词切分，当某一串有调音节遇两种以上切分法时，系统采取人脑在听人说话时某种智能机制，可以依据汉语词法句法上下文联系及统计规律等手段进行判别后进行单词切分，切分后的单词音节与音节之间连写，词与词之间用空格键隔开输出，至此不仅完成了汉语语音的识别，而且完成了已具实际应用价值的除汉语同音词外的机器对汉语语音意义的理解(如果到这步计算机语音识别结束，对汉语同音词的意义的最后辨别和理解就由人脑完成，类似于人们看汉语拼音时的情况)，最后再根据人们对识别结果的输出要求，通过查询预先设置好的数据库等方式，通过标准转换模块，机器再将以上识别结果转换成汉语拼音、汉语机器合成语音、简体或繁体汉字或各种可以提供机器进一步执行的机器的命令。在机器将以上识别结果转换成汉字过程中遇同音词时，系统将依据汉语词法句法上下文联系及统计规律等手段进行判别后，再输出相应的汉字。由于与某同音词相对应的汉字从众多的可能的汉字中被唯一地挑选出来，意味着机器完成了对汉语同音词的意义的最后辨别，所以至此机器不仅完成了汉语语音物理参数意义上汉语语音的识别，而且完成了机器对汉语语音意义的最终“理解”。

这里还有的一个关键技术是汉语音节的语音码的设计，这种语音码理想状况是第一每一个汉语音节必须含有声韵调全部信息，第二由于在本发明的汉语语音识别系统中，汉语语音识别后首先输出的是连写在一起的汉语有调音节串，因此，要求汉语音节的语音码的设计必须保证汉语无限多的音节被连写在一起时，音节和音节之间不能发生混淆，换句话说任意多的音节被连写在一起后，一旦需要这任意多的音节同样要能保持原貌地被唯一地分离出来，只有这样才能保证在整个语音识别信息处理中，语音信息被准确地传递。第三整个语音码必须采用26个拉丁字母从左到右一唯线性排列，这样一方面能与ASCII码100％兼容，另一方面便于计算机信息处理；第四整个语音码必须方便地与汉语拼音、汉语语音和以词为单位的汉字的转换；第五该语音码本身能够方便地表达汉语信息，能够非常容易地被人们拼读成汉语标准语音，从而根据这汉语标准语音理解出它所要表达的汉语信息的意义。

要设计出具有以上技术性能的语音码可以说技术难度应该也是非常大的，目前所有的汉语语音识别系统之所以未能发明出类似本发明的规模性和复杂性无关的系统，与缺少该关键技术有关，由于缺少该关键技术使得设计语音识别技术的人们从一开始就走上了一条与本发明思想不同的道路，最终导致设计出来的汉语语音识别系统的规模性和复杂性有关的系统，目前汉语语音识别系统不得不被分成小、中、大三个等级的词汇量语音识别系统，这又从另一个角度证明了这一点。

所幸的是具有以上技术性能的语音码也已经由本人设计出来并且被成功运用于本系统的发明中。下面结合实施例作进一步的详细说明。

四、具体实施方式

下面结合实施例对本发明的具体实施方式作进一步的说明。

(一)所采用的语音码的每一音节声、韵、调的编码方法可以采用类似以下的方法：

(注：括号内的符号均为汉语拼音符号，不带括号的字母为本发明所采用的汉语每一音节声、韵、调的编码，以上以下叙述均同。)

1、声码的编码：

b：(b) p：(p) m：(m) f：(f) d：(d) t：(t)

n：(n) l：(l) g：(g) k：(k) h：(h) j：(zh)(j)

q：(ch)，(q) x：(sh)，(x) r：(r)

z：(z) c：(c) s：(s) y：(y) w：(w)

2、介码的编码：

i：(i) u：(u) y：(ü)

3、韵码的编码：

a：(a) o：(o) e：(e) i：(i) u：(u) y：(ü)

k：(ao) c：(ai) s：(an) x：(ou) w：(ei) n：(en)

z：(ua) l：(uo) b：(ang) d：(ong) p：(eng)

q：(ing) g：(ng) (无声母韵母) er：(er)

r：(i) [只与(zh)、(ch)、(sh)相拼]

4、调码的编码：

a：(-)阴平 e：(/)阳平 v：(∨)上声 u：(\)去声

o：(不标)轻声

(二)利用上述编码的汉语信息全息表示可以采用如下的方法：

以单词为单位，这里将单个汉字看作单音节词，根据组成该单词的每个音节的《汉语拼音方案》中的拼音，依次按“声码+介码+韵码+调码兼隔音节符号”的顺序编码，同一个单词的多个音节不用空格隔开连写，单词与单词之间的编码用空格隔开。

这里由于将独立运用的汉字看作单音节词，因此，本发明所采用的汉字编码的方法和汉语单词音节编码的方法相同，在本发明中单词音节编码按词连写后得到单词编码，我们将由若干个单词组成的一组词称为词组，本发明所采用的词组的编码同汉语句子的编码相同，由于单词可以表示词组和汉语句子，因此本发明所采用的词组的编码和汉语句子的编码都可以通过单词的编码实现，而不需要对词组和汉语句子另外制定一套专门的编码，一般在整句整篇以词为单位表示汉语信息时，在理解时一般不需要进行同音字词的选择，原则上听起来不会产生歧义的句子，用编码表达时也不会产生歧义。

下面例举一些用本发明方法对汉语语音进行语音码或汉字转换的例子：

1.汉语语音转换成汉语语音码：

比如：我们用汉语语音朗读“我们会使用汉语拉丁文。”

(1)通过查找预先储存在计算机中的汉语音节语音模板和汉语语音音节码对照表，匹配后识别出相应的汉语音节语音码串：

wov mno huiu xrv ydu hsu yyv laa dqa wnv.(音节与音节之间有空格)

或wovmnohuiuxrvyduhsuyyvlaadqawnv.(音节与音节之间无空格)

(熟练后mno中的轻音符o在不引起混音时可以省略，以上以下均同。)

为了让大家看清楚这里将表示声调的字母加了下划线，语音码中的声调字母同时具隔音节作用，实际语音码中声调无下划线，熟练语音码后声调兼隔音节符能够方便区分出来。

这样便完成了一个系统的复杂性与系统的词库规模性无关的纯语音识别过程。

如果汉语语音是带某种方言口音的汉语或是某一种中国的方言，只要这种中国的方言的音节与汉语音节具有某种对应关系，我们通过以上相类似的方法即：通过查找预先储存在计算机中的带某种方言口音的汉语或与汉语音节具有某种对应关系的方言音节的语音模板和汉语语音音节码对照表，匹配后识别出相应的汉语音节语音码串，就可以实现对该带某种方言口音的汉语或方言的汉语语音码识别，实现该带某种方言口音的汉语或方言与汉语语音码的转换。

(2)将语音码串进行单词切分，最终完成以词为单位的语音码转换。

通过查找预先分好词的汉语语音码单词词库，将同一个单词的多个音节连写，词与词之间用空格隔开便得到以下我们最终需要的汉语语音码：

wovmno huiu xrvydu hsuyyv laadqawnv.

为了得到传统的语音识别结果，我们还可以进行如下的转换，这里需要强调的是该过程与语音识别系统没有必然的联系，该标准转换模块可以脱离语音识别系统独立运行。

2.汉语语音码转换成汉字和汉语拼音：

通过分别查找汉语语音码与以词为单位的汉字和有关汉语拼音对照表可以方便地将汉语语音码转换成汉字和汉语拼音，比如：

wovmno通过查声码、介码、韵码、调码和汉语拼音对照表或根据该对照表生成的汉语语音码音节或单词和拼音音节或单词对照表得到wǒmen，再通过wǒmen查找到以词为单位的汉字“我们”，依次类推，我们可以得到如下的拼音和汉字组成的句子：

“Wǒmen huì shǐyòng hànyǔ lādīngwěn。”

“我们会使用汉语拉丁文。”

当以单词为单位的语音码通过以单词为单位的汉语拼音与以单词为单位的汉字建立对应关系后，一旦需要以单词为单位的语音码可以不再需要通过以单词为单位的汉语拼音，直接与以单词为单位的汉字建立对应关系并实行相应的转换。即：“wovmno huiu xrvyduhsuyyv laadqawnv.”可以直接转换成“我们会使用汉语拉丁文。”

遇同音词时，可以依据汉语词法句法上下文联系及统计规律等手段进行判别后进行以词为单位的汉字选定。比如：ysvlune上装满了邮包。ysvlune上装满了原油。结合上下文的联系可以知道：前面一句中的“ysvlune”代表“邮轮”，后面一句中的“ysvlune”代表“油轮”，这两句话分别会转换成“邮轮上装满了邮包”和“油轮上装满了原油”。对其它单词情况也依次类推。

上述识别的结果既可以单独显示也可以对照显示，比如：

原句：“我们会使用汉语拉丁文。”可以转换为以下几种形式：

1.“Wǒmen huì shǐyòng hànyǔ lādīngwěn。”

2.“wovmno huiu xrvydu hsuyyv laadqawnv.”

3.“Wǒmen huì shǐyòng hànyǔ lādīngwěn。”

我们会使用汉语拉丁文。

4.“wovmno huiu xrvydu hsuyyv laadqawnv.”

我们会使用汉语拉丁文。

5.“Wǒmen huì shǐyòng hànyǔ lādīngwěn。”

“wovmno huiu xrvydu hsuyyv laadqawnv.”

为了让外国人或中国少数民族更方面地了解汉语的含义和学习汉语，也可以在每个对照的单词中插入相应的外语单词或少数民族文字，比如在下面的单词中加入相应的英语单词作中文意思的注解：

“wovmno Wǒmen huiu huì xrvydu sh ǐyòng hsuyyv hànyǔlaadqawnv lādīngwěn。”

我们 We 会 can 使用 use 汉语 Chinese 拉丁文 Latine。

依次类推，用上述方法，将可以任意多音节的汉语语音识别成汉语语音码，并根据需要进一步转换成汉字或汉语拼音，汉语语音码、汉字或汉语拼音可以单独显示也可以对照显示，以这些汉语单词为基础，就可以实现任何汉语语音信息的识别，从而方便进行各种汉语语音信息处理。

Claims

1.一种汉语语音码汉语语音识别方法，它是一种使用不附加任何硬件的世界通用的计算机或嵌入式系统将汉语全部有调汉语语音音节以音节为单位精确转换成仅用26个拉丁字母表示的汉语语音码的计算机或嵌入式系统的转换方法，其特征主要包括以下步骤：

步骤A：

(一)所采用的语音码的每一音节声、韵、调的编码方法采用以下的方法：

注：括号内的符号均为汉语拼音符号，不带括号的字母为所采用的汉语每一音节声、韵、调的编码

1、声码的编码：

b：(b) p：(p) m：(m) f：(f) d：(d) t：(t)

n：(n) l：(l) g：(g) k：(k) h：(h)

j：(zh)(j) q：(ch)，(q) x：(sh)，(x) r：(r)

z：(z) c：(c) s：(s) y：(y) w：(w)

2、介码的编码：

i：(i) u：(u) y：(ü)

3、韵码的编码：

a：(a) o：(o) e：(e) i：(i) u：(u) y：(ü)

k：(ao) c：(ai) s：(an) x：(ou) w：(ei) n：(en)

z：(ua) l：(uo) b：(ang) d：(ong) p：(eng)

q：(ing) g：(ng) (无声母韵母) er：(er)

r：(i) [只与(zh)、(ch)、(sh)相拼]

4、调码的编码：

a：(-)阴平 e：(/)阳平 v：(∨)上声 u：(\)去声

o：(不标)轻声

(二)利用上述编码的汉语信息全息表示采用如下的方法：

以单词为单位，这里将单个汉字看作单音节词，根据组成该单词的每个音节的《汉语拼音方案》中的拼音，依次按“声码+介码+韵码+调码兼隔音节符号”的顺序编码，同一个单词的多个音节不用空格隔开连写，单词与单词之间的编码用空格隔开；

步骤B：

在汉语语音转换成汉语语音码时，汉语语音识别系统将汉语音节作为识别的基元，通过查找预先储存在计算机中的汉语音节语音模板和汉语语音音节码对照表，匹配后识别出相应的汉语音节语音码，语音连续输入时便得到连续的汉语音节语音码串；对上述得到汉语音节语音码串通过查词库的方式进行按词切分，对多种单词切分，可以依据汉语词法、句法、上下文联系及统计规律手段进行判别后再进行单词切分；对切分出的单词采取同一单词的音节与音节之间连写，词与词之间空格的方式表示；在汉语信息处于汉语语音码状态时，其标点符号的用法同英文标点符号的用法相同。

2.一种如权利要求1所述的汉语语音识别方法，其特征在于：当汉语语音码需要进一步转换成汉字时，采用查语音码与以词为单位的汉字对照表、匹配后输出相应的汉字；遇同音词时，先依据汉语词法、句法、上下文联系及统计规律手段进行判别，判别后再进行以词为单位的汉字选定。

3.一种如权利要求1所述的汉语语音识别方法，其特征在于：当汉语语音码需要进一步转换成汉语拼音时，既可以采用查汉语语音码的声码、介码、韵码、调码与汉语拼音编码对照表，也可以查通过该对照表生成的以音节或词为单位的汉语语音码与以音节或词为单位的汉语拼音对照表，匹配后输出相应的汉语拼音。

4.一种如权利要求1所述的汉语语音识别方法，其进一步特征在于：在汉语语音码转换成汉字或汉语拼音时，其标点符号也从与英文相同的状态转变为相应的中文标点符号状态。

5.一种如权利要求1所述的汉语语音识别方法，其进一步特征在于：对于汉语语音是带某种方言口音的汉语或是某一种中国的方言，只要这种中国的方言的音节与汉语音节具有某种对应关系，我们通过查找预先储存在计算机中的带某种方言口音的汉语或与汉语音节具有某种对应关系的方言音节的语音模板和汉语语音音节码对照表，匹配后识别出相应的汉语音节语音码串，就可以实现对该带某种方言口音的汉语或方言的汉语语音码识别，实现该带某种方言口音的汉语或方言与汉语语音码的转换。

6.一种如权利要求1所述的汉语语音识别方法，其进一步特征在于：能够将任意多音节的汉语语音识别成汉语语音码，并根据需要进一步转换成汉字或汉语拼音，汉语语音码、汉字或汉语拼音可以单独显示也能够对照显示，还能够在每个对照的单词中插入相应的外语单词或少数民族文字显示。