CN1063554C - 中文电脑的汉语语音输入系统及其方法 - Google Patents

中文电脑的汉语语音输入系统及其方法 Download PDF

Info

Publication number
CN1063554C
CN1063554C CN94102358A CN94102358A CN1063554C CN 1063554 C CN1063554 C CN 1063554C CN 94102358 A CN94102358 A CN 94102358A CN 94102358 A CN94102358 A CN 94102358A CN 1063554 C CN1063554 C CN 1063554C
Authority
CN
China
Prior art keywords
chinese
sound
paragraph
speech
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN94102358A
Other languages
English (en)
Other versions
CN1107981A (zh
Inventor
李琳山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN94102358A priority Critical patent/CN1063554C/zh
Publication of CN1107981A publication Critical patent/CN1107981A/zh
Application granted granted Critical
Publication of CN1063554C publication Critical patent/CN1063554C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

一种汉语语音输入系统及其方法,用以将任意文句的汉语语音直接转换成相应的中文文字,该系统及其方法包括声音处理过程及语言解码过程两大部分,其特征在于声音处理过程利用“段落统计模型”计算输入汉语语音的各单音节及声调的机率,进而辨识之;语言解码过程针对声音处理过程送来的一连串音节利用“词类双连中文语言模型”找出对应的中文字。一种包含“智慧型学习技术”的汉语听写机,用本方法将语音输入转换成文字显示。

Description

中文电脑的汉语语音输入系统及其方法
本发明是关于一种智慧型汉语语音输入方法及汉语听写机。本发明是同一发明人的台湾专利申请案第78105818号的改良,利用此改良方法,或使得利用汉语语音输入中文文字的方法更为精确。
目前中文电脑的输入方法百家争鸣,或用注音,或用字根,或用划笔,但没有一种是众所公认最好的(因为没有一种真正最方便)。这是因为有的输入速度较慢,有的需要特别训练,有的方法特别要背口诀,久了不用会忘掉等,而人人都会、不需训练的注音符号法,则因其速度太慢,而无法通行。在众多中文输入法中,速度最快的是仓颉法、大易法或类似的方法,但此方法却只有专业人员在长期训练下才会用,一般人不常用就会忘掉。事实上,这是现阶段我国社会信息化最大的障碍,因为“中文输入”变成一种专门职业,一般人自然不会常用它。这些方法不方便的基本原因,是尝试把汉字转成几个按键,由键盘输入;但事实上键盘是西方拚音文字下的产物,汉字不是拚音文字,所以由键盘输入就自然不方便了。
既然键盘输入不方便,还有什么其他方法可用呢?很多人很早就想到了可用声音输入。只是用声音输入的技术困难太多,几乎是不太可能的事,所以一直没有这方面的方便产品问世。技术上困难的原因有三点:(1)需要辨识的词汇太多了,中文常用字至少五千个,常用词至少十万个,这种数字已超出技术可行的范围;(2)中文字的同音字太多,即使知道是什么音,又如何能方便而快速无误地知道是什么字呢?(3)要能“即时”听写汉语,就必须在极短时间内解决如此困难的问题,更是不容易。
本发明人的美国专利第5,220,639号专利申请案基本上已可以解决上述困难,这是因为:(1)选用汉语单音节为单位:中文字、词的数日虽大,不同的单音节却只有1300个,是语音辨认技术上可以接受的范围;知道是什么音节以后,可以再由其前后的音节去判断可能构成什么词、什么句。(2)藉助以中文字为基础的马可夫模型建立中文的语言模型,可以靠大量的训练文字,统计出每一个字的前后与其他不同的字衔接的机率,由这些机率可以算出当一个音节前后与其他音节衔接时,这些音节最可能是代表什么字,这种方法可以大部分解决同音字的问题,不能解决的再在荧光屏上予以更正。(3)制作特殊设计的硬件,以便在最短时间内完成复杂的工作。
然而,前项申请案的发明基本上虽已可决上述困难,但有其先天上的限制:(1)所需运算量极大,为了要达到“即时”听写汉语的目的,亦即在很短时间内完成极大量运算,必须制作特殊设计的硬件,使得该发明代价昂贵,(2)正确率仍不够高(约89%),使用者仍需一再更正错字。这两项限制是至今它并没有成为产品大量上市的原因。
本发明中,就是考虑到前项专利案的上述限制,便在原有的构想下发展出两项重要的新技术:(1)专门针对汉语单音节的特性,发展出专门作汉语单音节辨识的“段落统计模型”及(2)专门针对中文的语言结构,发展出“词类双连中文语言模型”。这两项技术都是针对中文及汉语的特性发展出来,结合起来以后,所需的运算量大为减小,而正确率却可大为提高。于是不再需要特殊硬件来达到“即时”输入,同时,所有技术可以用软件完成,并轻易写入任何装有一片“数字信号处理芯片”(DSP Chip)的“数字信号处理电路板(DSPBoard)”(这类芯片及电路板市面上产品很多,故很容易在不同的电路板或芯片上发展出不同的产品),只要芯片的运算速度足够快,电路板上的存储容量足够大,它就能“即时”输入。这块电路板可以插入任何一台AT级以上的个人电脑上,故使用方便,价格亦可大为降低。以上述的基本技术及功能为基础,本发明又进一步发展出诸如“智慧型学习技术”,使得这套听写机更具备不时“学习”的“智慧”。这包括:自动学习新使用者的声音,从而使得新使用者可以很快开始使用;自动学习使用者的环境噪音并适应该噪音;不断联机学习使用者的声音、用字、用词、构句等,使得正确率可以继续上升等等。所有这些都将在以下详细说明。
本发明系关于中文电脑的汉语语音输入系统及方法,该系统利用语音处理技术的方法及根据此方法研制而成的机器,可以“听写”任意文句的汉语,亦即使用者对着机器说任意文句的汉语,机器可以将其辨识出来,把语句转换成文字,显示在荧光屏上(以中文文字)。其主要应用是作为中文电脑的输入。这就好比有一个“听写员”,收听了使用者的语句,并将之输入电脑。当然,在输入电脑之后,就可以加以任何处理、修改,编排、储存、打印输出、传递到远方等应用。简言之,这种机器使中文电脑“会听汉语”。这种“汉语听写机”和一般看到的能辨识汉语语音的机器系统最大的不同有二:(1)它必须能“听写”由极大词汇量(中文常用词至少10万以上,常用字至少5千以上)组成的任意文句,因为一般电脑要输入的中文可以是任意的文字;(2)它必须快到可以“即时”(Real-time)辨识,完成听写,亦即使用者不能在说完话后慢慢等中文字显示,因为一般电脑输入的应用都是即时的,这两个不同点使得“汉语听写机”在技术上不易做到,故到目前止尚没有真正可以有效使用的产品出现。目前各研究单位所发展的“汉语语音辨认系统”,或者只能辨识少数的有限词汇(例如100个地名等),或者正确率仍很低尚不便于使用等,均与本发明不同。
因为上述“国语听写机”在技术上十分困难,本申请案的发明人在78年提出前项申请案的发明时系将上述构想再坛加一些条件,使上述构想在以下三个条件下在技术上变成可行,可以确实作到:(1)特定语者:亦即一架机器一次只听一个使用者的声音,每个使用者在购买机器时可以对机器说一番话作成“训练资料”,输入机器后机器即可以听懂他的话,换使用者时只要换一套“训练资粒”即可,并不构成太大困难,因为这种机器一次只有一个人在用。发音不正确的人也可以用其不正确的发音去训练机器,机器基本上也可以一样听不正确的发音;(2)输入以断开的单音节为单位:汉语每一个字构成一个单音节,但构成连续语句后整句信号连在一起,前后音互相影响使辨识困难;事实上使用者可以把输入语句每一个字的单音节断开来念,仍然十分方便而且仍然可以很快地输入大量中文;(3)输入的文字可以允许有少量的错误:事实上任何输入法均可能输入错误的字,只要输入的文字可以先显示在荧光屏上,使用者看到有错时,可以用简单的方法,借助方便的软件予以更正。在这样的条件下,使用前项申请案中的发明,每分钟约可输入150字,其中约有17字需要更正;由于更正的软件十分方便,每分钟的“净输入”可达约110字。若使用本发明,则效果会更好。需要说明的是,目前中文输入法中最快的方法也可达到约每分钟110字以上,不过全台湾只有少数专业人员在长期练习下才能达到。使用本发明则任何人均可随时达到这个数字。
因此本发明的主要目的,就是使任何会说汉语之人,在不需训练及永不忘掉的情况下,方便又快速使用本发明所述的中文语音输入方法及根据此方法所制成的汉语听写机来输入中文。
本发明的其它目的和优点可由下列较佳实施例配合附图的说明叙述如下,其中:
图1为本发明的基本原理与结构;
图2为“段落统计模型”的基本原理及其训练方式;
图3为“段落统计模型”的辨识单音节的方式;
图4为前项申请案中的“词类双连中文语言模型”;
图5说明本发明的“词类双连中文语言模型”;
图6说明机器联机学习使用者用字、用词、构句习惯及用短期记忆保留的技术;
图7说明用电脑自动选取“学习例句”的方法;
图8为本发明的一个较佳具体实施例。
本发明的基本原理及结构,请见图1,分为“声音处理器”以及“语言解码器”两个部分,每一部份针对输入的音节,以声音处理的方式负责辨识出是哪一个单音节;第二部分则针对辨识出来的一系列单音节,以语言解码的方式负责找出各是哪一个字。在第一部份“声音处理器”中,则先对每一输入单音节检测出其端点,再分别进行“基本单音节辨认”(“基本单音节”是指不考虑声语者,例如辨识出为“ㄉ-ㄢ”)及“声调辨认”(例如辨识出其为“第四声”),则可知其为哪一个音节(例如“ㄉ-ㄢ、”)。这些辨识出来的音节就都被送到“语言解码器”之中去找出正确的同音字。首先先由“字形假设”部分把每一个音的同音字都找出来。再藉助“中文语言模型”找出机率最大的(或最可能的)同音字作为输出。如果输出不正确,使用者可以在荧光屏上予以更正。
首先说明本发明在图1中第一部分“声音处理器”的第一步工作,也就是端点检测法。这是作语音辨识的人所熟知的技术。基本上所有声音一输入,先由取样器对其波型取样,变成一串数据,即可输入电脑。电脑即可根据这些数据计算其“瞬间能置”(即短瞬间能量有多大)及“过零率”(即单位时间内波形由正变到负通过“零”的次数),根据这两种数据,电脑即可判断声音由哪里开始到哪里结束,其余是噪音,可以去除。例如韵母的能量比噪音高很多,声母有时能量不高,但过零率比噪音高很多,故根据这两者即可把噪音和声音分开来,再就声音部分加以辨识。其次说明“声音处理器”中的“基本单音节辨认”部份,汉语单音节共约1300个,如果扣除四声变化,则只有约四百多个基本单音节(例如“ㄅㄚ”、“ㄅㄚ/”、“ㄅㄚ√”、“ㄅㄚ丶”、“ㄅㄚ·”、当成5个单音节,则共有约1300个;当成1个基本单音节,则共有约四百多个)。本发明系将四声分出来单独考虑,故先当成共有四百多个基本单音节来辨识;经多年来深入研究,发现以本发明所发展出来针对汉语音节特性的“段落统计模型”,可以比前项申请案的“连续式隐藏式马可夫模型”(Continnous Hidden Markov Models)获得更理想结果。这是因为汉语单音节中混淆音组极多(例如“ㄅㄚ”、“ㄆㄚ”、“ㄇㄚ”、“ㄈㄚ”、“ㄉㄚ”、“ㄊㄚ”、“ㄋㄚ”、“ㄉㄚ”、“ㄍㄚ”、“ㄎㄚ”、“ㄏㄚ”、………都非常接近),正确无误的辨识将十分困难;上述特殊方法为本发明在台大发展出来,针对汉语音节特性所找出的方法。
图2简要说明“段落统计模型”的基本原理及其训练方式。在图2(a)中说明,若某一音节α的总长度为T个音框,则将其分成N段,每一段有T/N个音框,分别由一个状态代表。在图2(b)中说明“段落统计模型”的训练方式。假设使用者把音节α念了好几次,每次念的长短都不尽相同,但都一样等分成N段,所有音的第一段的音框的特征向量合在一起训练成第一段的状态,所有音的第二段音框的特征向量合在一起训练成第二段的状态等等,每个状态则用M个高斯机率混合(Mixtures of Gaussian Probabililes)来描述,其参数就由这些音框的特征向量训练出来。这M个状态就构成这音节α的“段落统计模型”。
图3简要说明“段落统计模型”的辨识方式。未知的音β进入电脑也一样等分作N段,每一段中的每一个音框的特征向量分别代到某个音节的“段落统计模型”的该段状态的M个高斯机率混合中去计算机率。各段的机率相乘就是这个未知音β相对于这个音节的“段落统计模型”的机率。现在把所有的408基本单音节都训练成“段落统计模型”,当一个未知的音β进来,就拿它来计算相对于这408个基本单音节的“段落统计模型”的机率,机率最高的那个“段落统计模型”所相对应的基本单音节,就是辨识结果。
再其次说明图1的“声音处理器”中的“声调辨认”部分,基本上其功能是要辨识该音节是第几声(包括四声及轻声,共有5种选择)。其所用的方法仍是上述的“段落统计模型”,亦即为五种声调建立五个“段落统计模型”,未知音节分别对这五个模型计算机率,机率最高者就是辨识结果。只是所选用的声音特征必须选择基频(决定声音高低的特征,事实上就是声带振动的频率,可以由声音数据中算出来)、能量及音长。需要说明的是,辨别四声的方法早已由许多人发明过,只不过从没有人用过“段落统计模型”,在本发明中发现,基本单音节与声调的辨识都可以用“段落统计模型”,简单又方便。此外,使用能量及音长的原因,是为了帮助分辨轻声。
其次说明图1的原理中的第二部分“语言解码器”的原理,前项申请案中所用的方法如图4所示。当“声音处理器”送来一系列辨识出来的音节(注音符号)后,“字形假设”的部分首先将每一个音节的可能的同音字都假设出来,这是靠机器中存的一套字典来查出来。需要说明的是,有时有些音节有些混淆,不能确定,例如图4中的“ㄑ-丶”和“ㄐ-丶”很象,“声音处理器”如果没有把握它一定是哪一个,可以把两个一起送过来,“字形假设”的部分会把可能的“ㄥ-丶的同音字和“ㄐ-丶”的同音字都一起列出来,然后送进“马可夫中文语言模型”去计算机率。
关于前项专利案所提的基于中文字的“马可夫中文语言模型”(第4图)的训练方式如下。例如把20,000,000字的报纸新闻资料(电脑档案)输入电脑,电脑的程序会去计算里面的字和词出现的次数,例如“中”字共出现150个,但“中央”出现32个,“中国”出现28个……等,电脑的程序根据一定的公式,即可算出各个字出现及组合的机率。当“声音处理器”送来一串音节(注音符号)时,这个语言模型中的程序就会有一定的公式去计算每一组可能的同音字会组合成一组句子的机率。例如在图4中:“ㄗㄥ”、“ㄐ-ㄅ丶”各有很多同音字,但“增进”两字相连的可能性最大,而“ㄐ-丶”或“ㄑ-丶”以及“-丶各有很多同音字,但“记忆”丙字相连的可能性最大,而当整句输入是“ㄗㄥ丶ㄐ-ㄅ丶ㄧ-丶-丶ㄌ-丶”时,相对于“增进记忆力”的机率是多少,相对于“曾近寄义立”的机率是多少等,最后会发现“增进记忆力”的机率最高,并把机率最高的句子输出。又例如可以将国小的国语课本的文字,或是报章杂志的文字(转成电脑档案后)等当作“训练文字”直接输入电脑,电脑就去计算在这些文字中各种不同的字前后相连出现的次数,来建立相当于国小国语课本或某些报章杂志的语言模型。事实上,每一个使用者可以用他自己最适合的训练文字去训练他自己的语言模型;例如财经记者可以用报纸的财经新闻去训练机器,则这机器特别适合听写财经新闻,而作家可以用他过去的作品去训练机器,机器则可以适应作家所习用的用语及句语,可用来写稿,错误率可以更低。
上述“中文语言模型”还有一个好处,就是可以部分更正“声音处理器”的错误,因为当两个音十分混淆时,可以一起送给“中文语言模型”去选。例如图4中“ㄑ-丶”的机率最高,“ㄐ-丶”的机率第二,故应辨识为“ㄑ-丶”;但因二者机率接近,可以暂不决定而将两个音“ㄑ-丶”和“ㄐ-丶”一起送到后面的语言模型去算前后文的机率,因为下一个音是“-丶”或“ㄒ-丶”,“语言模型”会算出来“记忆”的机率远比“汽细”高,故最后仍选择了“记忆”,错误就被更正了。这种情形和人听汉语很像,有些人耳听不清的音,我们会自动根据前后文判断出来是什么音。
这样的“听写机”能听写的字数及词汇数视输入的字典及训练文字的字数及词汇而定。只要输入更多字的字典及训练资料,就可将这些数字增大。
以上所说明的是前项申请案中的“中文语言模型”,那事实上是以“字”为基础,亦即计算“字”与“字”相连的机率为最主要的选字参考。但事实上中文文句是以“词”构成,每个“词”是包含了一个到数个“字”,事实上“词”才是中国人造句的基本单位。以图5(a)中的句子为例,该句子可以看成是13个“字”构成的,但是更理想的看法是看成由5个“词”构成。以此推想,以“词”为基楚的“中文语言模型”,亦即计算“词”与“词”相连的机率为最主要的选字参考,效果一定更好;这也是本发明的基本构想,把上次申请案中以“字”为基础的“中文语言模型”改为以“词”为基础,实验也显示这样的想法是正确的,效果会更好。但“中文语言模型”要以“词”为基础,作起来比以“字”为基础要难得多,主要是“常用词”比“常用字”多很多。例如以“字”为基础,常用字如果有5千,两两相连共有5千×5千种组合,故共需5千×5千个机率值;但常用词是10万以上,两两相连共有10万×10万种组合,故需10万×10万个机率值,那是实际上做不到的。本发明乃发展出一种“词类双连中文语言模型”,其说明如图5(b)的例句所示。“昨天晚上校门口前面人山人海”的例句中共有“昨天”“晚上”“校门口”“前面”“人山人海”5个词,原应依两两相连计算机率,亦即“昨天”接“晚上”,“早上”接“校门口”,“校门口”接“前面”,“前面”接“人山人海”等,但本发明发展的“词类双连中文语言模型”的方武,亦即只计算两两相连的词之间相连的字,例如“天”接“晚”,“上”接“校”,“口”接“前”,“面”接“人”等。这是因为例如我们可以把所有以“天”结尾的词合成一类,包括“昨天”“明天”等;把所有以“晚”开头的词合成一类,包括“晚上”“晚自习”等,则它们这两类的词两两相连可以都用“天”接“晚”来代表,例如“今天晚上”“明天晚自习”等等,故“天”接“晚”的机率在此所代表的,事实上是两类更大的词类相连的关系,不仅仅是“晚天”和“晚上”相连而已。这么一来“词尾字”和“词头字”两两相连的组合仍然只有5千×5千(如果常用字是5千),故所需的机率值仍然是5千×5千个,和原来以字为基础的语言模型相同;但实验显示它的效果要好很多。此外,当“中文语言模型”是以“词”为基础时,很容易再加入“词频”的信息,也就是越是常用的词越优先选出,这更可进一步提高正确率。
以上是说明了“段落统计模型”和“词类双连中文语言模型”,这两项是本发明两项最基本的技术。这两项基本技术使得本发明所需的运算大为减少,而正确率大为提高。以下再说明本发明进一步发展出来的诸如“智慧型学习技术”,使得本发明的听写机具备不时“学习”的“智慧”。
第一项学习技术是自动学习使用者的声音。由于新机器已先用许多人的声音训练过,一开始新的使用者还没有开始训练机器,已有约平均55%的正确率。本发明的学习方法是用一套特别设计的“学习例句”。新的使用者只要念最前面的24句(共188字,约费时5分钟),即可使机器初步学习会听使用者的声音,正确率约在80%左右。这是因为这188字共包含了汉语的所有22个声母,38个韵母及一百多种声韵母相连的交化。例如念了一个“ㄕㄨ”音,机器也会同时学到“ㄕㄨㄛ”“ㄕㄨヘ丶”等音的声母,“ㄅㄨ”“ㄇㄨ”等音的韵母等;故这24句下来已可学到所有可能的声音。同时这24句中也让越常出现的音出现次数越多,所以训练得越正确。这是为什么只要24句就可以初步学会使用。在第二阶段中,若新使用者愿再多念24句(共149字,约再费时4分钟),就可以把正确率提高到72%左右。这是因为这24句中把最常用的200个汉语基本单音节全部纳入,并让越常用的单音节出现次数越多,训练得越好。例如“ㄊㄚ”是一个常用的音,在最前面的24句中,这个音是靠“ㄊㄠ”的声母和“ㄆㄚ”的韵母训练的,所以不是很精确,但在这第二阶段的24句中,“ㄊㄚ”会多出现几次,所以会训练得不错,正确率也大幅提高。在第三阶段中若新使用者愿意再多念57句(共516字,约费时13分钟),则正确率可以提高到80%,其原因与上述相同,只是此时包含了所有汉语中可以出现的408个基本单音节(但不计声调),且常出现的也多念几次。在第4阶段中,若新使用者愿意再多念280句(共2501字,约费时65分钟),即可把正确率提高到89%,这是因为在这280句中,所有汉语的1300个单音节包括不同的声调(例如“ㄅㄚ”事实上有5种变化:“ㄅㄚ”“ㄅㄚ/”“ㄅㄚ√”“ㄅㄚ丶”“ㄅㄚ·”都会念至一次以上,且越常用的出现次数越多。
第二项学习技术是机器自动“联机”学习使用者的声音。使用者事实上不必做完上述的四个阶段的学习才开始使用机器,而是可以在作完上述第一阶段的训练(24句188字)以后的任何时候开始使用,只是正确率较低而已。不论是用上述例句训练机器,或是在真正使用中,只要随时更正错误,机器立刻作“联机学习”,亦一面使用中一面把所有辨别过的声音全部学习进去,因此只要使用者继续使用并让机器学习,正确率可以逐步达到95%-97%左右,亦即约每20-35字才须修正一个错字。
第三项学习技术是联机自动学习环境噪音。每一个使用者的环境都有他自己的噪音,这些噪音都会对机器的使用正确率造成伤害。在本发明的上述第二项“联机学习使用者的声音”的过程中,事实上机器还可以自动学习使用者的环境噪音的特性,并适应之。因此学习一段时间以后,机器就可以在环境噪音下工作得很好。
上述三项学习功能使用的技术事实上是相同的。首先先用很多位不同的语者所发的声音,来训练汉语每一个单音的“段落统计模型”。因为很多位不同的语者声音一定不同,即使是发同一个单音节,也会有相当大的不同,故这样多语者的“段落统计模型”中,常常需要相相当多数目的高斯机率混合,才可以涵盖不同的语者发这一个单音的各种不同的声音特性。当新使用者念这一个单音节的时候,就用一套演算法去在许多语者的“段落统计模型”的许多高斯机率混合中找出最接近新使用者声音的那几个高斯机率混合,而把其他的高斯机率混合抛弃,这时的“段落统计模型”就会变成新使用者的“段落统计模型”了。以后新使用者的声音继续进来,可以再把新的声音加进去一起平均算出新的高斯机率混合,于是新使用声音的成份越来越多,这个“段落统计模型”就越来越能精确地描述新使用者的声音,正确率也就越来越高。当使用者的环境有噪音时,噪音夹著新使用者的声音一起进来,也会一起把噪音的特性平均进去,因此所算出的高斯机率混合就自动带著噪音特性作为背景了。因此所训练出来的“段落统计模型”就自动能适应该种特性的噪音了。值得一提的是“段落统计模型”本身的数学结构很简单,演算十分方便快速,因此才可以作“联机”学习;也就是使用者一面使用,一面声音就被平均进去,下一次念的时候就是用新的模型来辨识,因此“联机”的效果可以很快而显著。
第四种学习技术是联机自动学习使用者的用字、用词及构句习惯,每一个使用者基本上都会有他自己特别的用字、用词及构句习惯,事实上很多错误发生是因为机器不能学习使用者的这些习惯。因此当使用者一面使用机器,并将错误作联机更正后,机器立刻把使用者用过的文句,包括里面的用字、用词及构句学习进去,也就是把诸如词频、两两相连的机率等语言模型的重要参数重新计算一次并调整之,于是机器就学到了使用者的用字、用词及构句习惯。
第五种学习技术是短期记忆保留。在输入一段文字时,当这段文字在讨论某一事物,若干特别的用词、构句常会重覆出现,此时经联机更正后,机器可以把这些特别的信息包括词频、两两相连的机率等保留在短期记忆中优先参考使用,因此越用到后来正确率会越高。当改输入其他主题的文字时,这些短期记忆中的信息可以全部消除。
以上第四、五两种学习技术详细情形请见图6。当“声音处理器”送过来一串辨识出来的音节时,先藉助词典查出所有可能的词,再用“词类双连中文语言模型”及“词频”找出最可能的句子输出。使用者可以作联机更正,机器就会立刻学习,也就是算出新的词频及马可夫模型的词两两相连的机率等,也包括可以建立一个临时新词典存放一些新词并包括这些新词的词频。这个新词典及新词频在输入这篇文章结束以后,使用者可以决定并入整个词典及词频信息中,也可以将之取消。此外,也常有一些用词或构句是这一篇文章在讨论某一事物时特别会重覆出现。若仅学习进入整体词典及整体语言模型中,学习效果并不明显,因为这些用词或构句也不过多出现几次,对整体的词频及两两相连的机率影响不大。因此在本发明中另外建立一个短期记忆,如图6下方,里面存有为这篇文章所特别计算的词频及两两相连的机率等;机器在寻找句子时,优先在短期记忆中找寻答案,找不到时才诉诸整体模型及整体词典词频。这样这篇文章特有的用词、构句就会被学会,因此越输入到后面,正确率会越高。但等到下次输入主题不同的另一篇文章时,此一短期记忆可以全部清洗掉,故不致干扰后面的输入工作。
本发明中尚有几项技术需补充说明。第一项是用计算机程序来自动选取“学习例句”的技术。如前所述,本发明有一套特别设计的“学习例句”,新的使用者因此只需念最少的句子就可以训练机器听他的声音。这些特别的“学习例句”事实上是由电脑在一大堆文章档案中搜寻出来的。图7是这样一个电脑自动选句的演算法的流程图。其基本原理是把所有想要的基本单位音(声母、韵母、声韵母相连、单音节、基本单音节等),都可以给定分数;而文章档案中的每一句子也可根据句中所包含的基本单位音的分数算出句子的分数;当然同一句中若含越多不同的基本单位者,就分数越高,因此就越优先被挑出来;可是一个句子一旦被挑出,它所有包含的基本单位音的分数就自动归零,也就是下次不再优先选出包含这些已出现过的基本单位音的句子了。此外,为了让平常出现越多(也就是越常用)的基本单位音在“训练例句”中也出现越多次,以便训练得更精确,因此利用一个参数来描述各个基本单位音出现的频率分布和它们在正常用语中真正的频率分布接近的程度,故可用这个参数来选句,以致于只用很少的句子就可以使得越常用的音出现越多,也就是频率分布越接近真实情形。
另一项技术是“段落统计模型”的“段落共用法”。正如前所述,当新使用者念了一个“ㄕㄨ”的单音节时,这个音分成N段,事实上前面几段描述声母“ㄕ”,后面几段描述韵母“ㄨ";因此前面几段可以同时用来训练“ㄕㄨㄜ”“ㄕㄨヘ丶”等单音节的声母,而后面几段可以同时用来训练“ㄅㄨ”“ㄇㄨ”等单音节的韵母,这才使得可以用最少的声音(24句,188个字)就可以训练机器听新使用者的全部声音。此外,这里所说的声母必须根据其后面所接的韵母来分类,例如这里的“ㄕㄨ”“ㄕㄨㄛ”“ㄕㄨヘ丶”的声母是同一个,因为“ㄨㄛ”“ㄨヘ”均以“ㄨ”音开头,故它们的声母其实都是“接ㄨ的ㄕ”;但“ㄕㄚ”“ㄕㄠ”“ㄕㄢ”等单音节的声母是另一个“接ㄚ的ㄕ”,和“接ㄨ的ㄕ”不相同,等等。这就是“段落统计模型”的“段落共用法”。
另一项技术是“动态词典结构”。由于词典中词的数目极为庞大,每次搜寻耗费时间甚多;其中尤其单字词、双字词特别多。因此本发明设计出“动态词典结构”,也就是把最常用的双字词、单字词找出来,加上其他的三字以上的长词,构成一个“常用词典”,其他的词则于在另一个“罕用词典”中。机器操作时原则上只在“常用词典”中找词,找不到词无法构成理想句子时才去“罕用词典”找。在“罕用词典”中找出来而正确的词学习后就放入“常用词典”中,而“常用词典”中的词若久不使用,也可移入“罕用词典”。如此在词典中找词所费的时间,可以缩减到约1/10。
图8为本发明的一个较佳具体实施例。主机是一台个人电脑,而整个汉语听写机的技术则可完全以软件完成,写入一片Ariel DSP96003D数字信号处理电路板上,包括所有基本单音节、声调的“段落统计模型”、“词类双连中文语言模型”以及上述的诸多智慧型学习技术作业,全部写在这片电路板上。所有的运算只靠电路板上的一片数字信号处理芯片Motorolla DSP-9600即可完成。事实上市面上可以选用的数字信号处理芯片及电路板很多,本较佳具体实施例所用的只是本发明在台大实际制作时所用的例子而已。使用者的声音由麦克风输入电路板,听写机完成听写程序后,把中文字显示在个人电脑的荧光屏上。
上述的实施例只是用以说明本发明的原理,并不能用此限制本发明。任何人依据本发明原理所做的修改皆应仍隶属于本发明的精神。本发明的范畴应如后列的权利要求范围所列。

Claims (18)

1.一种汉语语音输入方法,用以将任意文句的汉语语音直接转换成相对应的中文文字,所述方法包括声音处理过程以及语言解码过程两大部分,其特征在于,所述声音处理过程包括步骤:
(1)利用“段落统计模型”将每一音节的声音切成复数个段落;
(2)在训练程序中求出每一段落中声音特征参数的统计分布并建成模型;
(3)辨认时也将未知语音切成复数个段落,以计算出未知语音针对每一音节及声调的机率;和
(4)由该机率决定辨认结果;所述语言解码过程针对所述声音处理过程送来的一连串音节进行的处理包括步骤:
以“马可夫中文语言模型”中大量训练用文字档案所计算出之词与词前后相连出现在文句中的次数及机率,以及每一个词出现的频率以找出所对应的文字。
2.根据权利要求1所述的方法,其特征在于,所述“马可夫中文语言模型”是以“词”为基础、但以“字”来计算机率的“马可夫中文语言模型”。
3.根据权利要求1所述的方法,其特征在于,所述以“词”为基础、以“字”来计算机率的“马可夫中文语言模型”是将输入的音节串所对应的同音字一一分割为若干个词,但根据两两相连的词之间相连的词头字及词尾字相连出现的机率,并比较每一个词出现的频率及前后文关系判断该音节的字。
4.根据权利要求1所述的方法,其特征在于,所述“段落统计模型”的训练方式包含下列步骤:
(1)若某一单音节α的总长度为T个音框,则将该单音节分为N段,每一段含有T/N个音框;
(2)使用者重覆念该单音节数次,长度虽不尽相同,但同样等分成N段;
(3)将所有上述单音节的第一段音框的特征向量合在一起,训练成第一段的状态;
(4)将所有上述单音节的第二段音框的特征向量混合在一起,训练成第二段的状态,依此类推,训练出N个状态;
(5)上述每个状态以M个高斯机率混合来描述,以上述音框的特征向量训练各个高斯机率的参数;和
(6)上述M个状态即构成该音节α的“段落统计模型”。
5.根据权利要求4所述的方法,其特征在于,其中该“段落统计模型”训练法尚包含“分段共用”训练法,该方法系将输入之单音节分为N段,该N段的前面几段描述声母部分,后面几段描述韵母部分,因此可利用此两部份分别训练其他有相同声母或韵母的单音节的相关声母与韵母各段的状态。
6.根据权利要求4所述的方法,其特征在于,所述“段落统计模型”的辨认方法包含下列步骤:
(1)使所有的408个基本单音节都训练成“段落统计模型”;
(2)将输入的未知音β分成N段;
(3)该N段中的每一段的每一个音框的特征向量分别代入某个音节的“段落统计模型”的该段状态的M个高斯机率混合中,以计算机率;
(4)将各段的机率相乘,即得到该未知音β相对于上述音节的“段落统计模型”的机第;和
(5)依上述方法计算该未知音β相对于所有408个基本单音节的“段落统计模型”的机率,比较后机率最高的“段落统计模型”所对应的基本单音节,即是辨识结果。
7.根据权利要求1所述的方法,其特征在于,所述“中文语言模型”尚可用于部份更正声音处理部分的错误。
8.一种训练汉语语音辨认系统迅速学习新使用者的声音的训练方法,用以训练一个汉语语音听写机,以辨认新使用者输入的汉语语音,该方法须先以很多位不同的语者所发语音来训练每一个单音节的涵盖各种不同语者的可能的声音特性的“段落统计模型”;其步骤包括:
(1)以“段落统计模型”训练法建立很多不同的语者发出某一单音节的“段落统计模型”,因许多位语者声音特性各不相同,故常需很多个高斯机率混合才能描述每一个状态;
(2)以某一个新使用者发出同一单音节,然后自上述很多位使用者的“段落统计模型”的许多高斯机率混合中找出最接近该某一新使用者声音的那几个高斯机率混合,而把其他的高斯机率混合抛弃,即建立出此一新使用者的“段落统计模型”;
(3)当新使用者继续发出同一单节时,此一新发的单音节的分段特征向量就可以再平均进入在步骤(2)所求的新使用者的“段落统计模型”中,算出新的高斯机率混合,而得到新的“段落统计模型”;和
(4)重覆步骤(3)的方法,新使用者的声音在“段落统计模型”中的成份于是越来越多,即可得更精密的描述新使用者声音的“段落统计模型”。
9.根据权利要求8所述的方法,其特征在于,它还包括随时于电脑屏幕上联机更正电脑辨别错误的声音的步骤,并将此结果立即送入一个存储器中,并当场重复所述的步骤(3)、(4),使得所述机器亦即学到新的声音,下次再辨认就用新的模型,从而正确率达到不断提高。
10.一种用以听写汉语文句的汉语听写机,其特征在于,它包括:
一个滤波及模/数转换器,与一个输入装置相连接以将语音输入信号滤波及转换为数字信号;
一个个人电脑及附加数字信号处理电路板,与前述转换器相连接用以接收该转换器送来的数字信号而加以处理;
一个特征求取器及一个基频检测器,与该数字信号处理电路板相连接,用以检测及计算由该数字信号处理电路板所收到的数字信号的基频及其他多种特征;
一个段落统计模型处理器及一个高斯机率混合处理器,与前述数字信号处理电路板相连接以计算每一音节的端点,并辨认其基本单音节及声调;
一个以“词”为基础、但以“字”来计算机率的马可夫中文语言模型处理器,与所述数字信号处理电路板相连接以计算输入语音音节的各个同音字、词的机率,并将辨认结果送回所述数字信号处理电路板;
一个训练装置,与所述数字信号处理电路板相连接用以训练出所有基本单音节及声调的“段落统计模型”的机率数值以及“马可夫中文语言模型”的机率数值,然后将此数值送入该数字信号处理电路板。
11.根据权利要求10所述的汉语听写机,其特征在于,其中语音输入是以断开的单音节为单位的。
12.根据权利要求10所述的汉语听写机,其特征在于,它包括一个荧光屏,用以显示输入的注音符号及中文文字以及方便的改正错误的软件,以便使用者可以直接用鼠标器在荧光屏上改正错误,完全不需用到键盘。
13.根据权利要求10所述的汉语听写机,其特征在于,它包括一个动态存储装置,用以暂存使用者的语词和习惯用语或所输入的某一段文字中反覆出现的特别语词,并根据该语词的出现频率,存储于不同的存储器中,这些语词及其信息可以并入听写机的整体中文语言模型中,也可以在事后清洗掉。
14.根据权利要求13所述的汉语写机,其特征在于,所述动态存储装置还包括一个常用词存储器和一个罕用词存储器,所述听写机操作时原则上只在所述常用词存储器内找词,找不到时才到所述罕用词存储器内寻找,并将找到的罕用词存入所述常用词存储器内;所述常用词存储器内存储的常用词若久不使用,则移入所述罕用词存储器中。
15.一种训练汉语听写机学习新使用者声音的方法,其特征在于,它包括数段学习步骤,每一段步骤须由新使用者各念一段经特别设计的例句,该组例句不但以最少的字句包含所有汉语语音的基本单位音(例如声母、韵母、单音节等),并使常出现的单位音多出现几次故多念几次,可以把“段落统计模型”训练得更精确,通过反覆练习该组例句,而使该汉语听写机习惯新使用者的各种发音方式,并将该发音方式记录起来。
16.根据权利要求15所述的方法,其特征在于,它还包括一个联机学习步骤,所述步骤可在做学习训练时或正式使用汉语听写机期间进行,使用者随时更正所述汉语听写机所显示辨认错误的声音或文字,使所述听写机随时学习正确的语音及语词,并将更正的语音对应文字内容存储起来。
17.根据权利要求15所述的方法,其特征在于,它还包括一个自动学习环境噪音的步骤,所述步骤是与权利要求8的(3)、(4)两个步骤所描述的学习新使用者的声音的步骤同时进行的,让新使用者的环境噪音也自动被平均进去成为“段落统计模型”的成份,以使该汉语听写机熟悉学习环境的噪音。
18.根据权利要求15所述的方法,其特征在于,所述汉语听写机学习新使用者声音的例句,是由电脑由语料库中选出的,是先将所有的汉语基本单位音给予不同的分数,同一句子中所包含的不同基本单位音愈多,则其分数愈高,愈会优先选出,并利用一个参数描述各个基本单位音出现的频率分布,从而使用此参数作为选句的基础。
CN94102358A 1994-03-03 1994-03-03 中文电脑的汉语语音输入系统及其方法 Expired - Fee Related CN1063554C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN94102358A CN1063554C (zh) 1994-03-03 1994-03-03 中文电脑的汉语语音输入系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN94102358A CN1063554C (zh) 1994-03-03 1994-03-03 中文电脑的汉语语音输入系统及其方法

Publications (2)

Publication Number Publication Date
CN1107981A CN1107981A (zh) 1995-09-06
CN1063554C true CN1063554C (zh) 2001-03-21

Family

ID=5030593

Family Applications (1)

Application Number Title Priority Date Filing Date
CN94102358A Expired - Fee Related CN1063554C (zh) 1994-03-03 1994-03-03 中文电脑的汉语语音输入系统及其方法

Country Status (1)

Country Link
CN (1) CN1063554C (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100419647C (zh) * 2004-03-29 2008-09-17 台达电子工业股份有限公司 汉字字元的语音输入方法与系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
US4759068A (en) * 1985-05-29 1988-07-19 International Business Machines Corporation Constructing Markov models of words from multiple utterances
US4797929A (en) * 1986-01-03 1989-01-10 Motorola, Inc. Word recognition in a speech recognition system using data reduced word templates

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
US4759068A (en) * 1985-05-29 1988-07-19 International Business Machines Corporation Constructing Markov models of words from multiple utterances
US4797929A (en) * 1986-01-03 1989-01-10 Motorola, Inc. Word recognition in a speech recognition system using data reduced word templates

Also Published As

Publication number Publication date
CN1107981A (zh) 1995-09-06

Similar Documents

Publication Publication Date Title
CN103578464B (zh) 语言模型的建立方法、语音辨识方法及电子装置
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
CN103578465B (zh) 语音辨识方法及电子装置
CN103578467B (zh) 声学模型的建立方法、语音辨识方法及其电子装置
US6067520A (en) System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models
Ran et al. Artificial intelligence speech recognition model for correcting spoken English teaching
CN105957518A (zh) 一种蒙古语大词汇量连续语音识别的方法
CN112466279B (zh) 一种英语口语发音自动纠正方法和装置
Seljan et al. Combined automatic speech recognition and machine translation in business correspondence domain for english-croatian
CN1153127C (zh) 普通话语音输入和训练方法及普通话听写机
Shrawankar et al. Speech user interface for computer based education system
CN1063554C (zh) 中文电脑的汉语语音输入系统及其方法
Aichaoui et al. Automatic Building of a Large Arabic Spelling Error Corpus
CN111429886B (zh) 一种语音识别方法及系统
US11341961B2 (en) Multi-lingual speech recognition and theme-semanteme analysis method and device
Unnibhavi et al. Development of Kannada speech corpus for continuous speech recognition
Soman et al. Corpus driven malayalam text-to-speech synthesis for interactive voice response system
CN1952995B (zh) 智能互动型语言练习装置及其方法
Huang et al. Detection of Mispronunciation in Non-native Speech Using Acoustic Model and Convolutional Recurrent Neural Networks
TWI731493B (zh) 多語語音辨識及主題語意分析方法與裝置
CN112988955B (zh) 多语语音识别及主题语意分析方法与装置
Lander et al. Multi-language speech database: Creation and phonetic labeling agreement
Jayalakshmi et al. Augmenting Kannada Educational Video with Indian Sign Language Captions Using Synthetic Animation
Harmsen et al. Exploring a Joint Approach for Analyzing Reading and Writing Errors in Dutch
Wu et al. CNN-based Articulatory Feature Recognition for Kunqu-Singing Pronunciation Evaluation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20010321

Termination date: 20110303