CN1112698A - 汉语语音识别系统的拼音校正法 - Google Patents

汉语语音识别系统的拼音校正法 Download PDF

Info

Publication number
CN1112698A
CN1112698A CN 94105346 CN94105346A CN1112698A CN 1112698 A CN1112698 A CN 1112698A CN 94105346 CN94105346 CN 94105346 CN 94105346 A CN94105346 A CN 94105346A CN 1112698 A CN1112698 A CN 1112698A
Authority
CN
China
Prior art keywords
speech recognition
phonetic
recognition system
correcting method
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 94105346
Other languages
English (en)
Inventor
吴军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chaofan Electronic Sci & Tech Co Ltd Beijing
Original Assignee
Chaofan Electronic Sci & Tech Co Ltd Beijing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chaofan Electronic Sci & Tech Co Ltd Beijing filed Critical Chaofan Electronic Sci & Tech Co Ltd Beijing
Priority to CN 94105346 priority Critical patent/CN1112698A/zh
Publication of CN1112698A publication Critical patent/CN1112698A/zh
Pending legal-status Critical Current

Links

Abstract

本发明汉语语音识别系统的拼音校正法,属于语 音识别输入汉字的信息处理技术领域。本发明针对 语音识别率不高和语音理解数据处理量过大的问题, 将原来不相关的语音到拼音的转换过程中,引入上文 的知识,以减少语音识别混淆度,提高语音识别系统 的识别速度和识别率,从而提高系统整体的性能。

Description

本发明汉语语音识别系统的拼音校正法,属于语音识别输入汉字的信息处理技术领域。
汉语语音识别技术目前已转化为一种实用的产品,如“四达-863语音识别系统”,这些系统将人机直接对话变为一种实用的汉字输入方法,使人们在使用电脑输入汉字时摆脱键盘。但是语音识别的复杂性,使得人们很难对现有的语音系统识别率十分满意,主要原因有:
1.汉语的全部1254个读音中有很多音易混淆,如z,c,s,zhi,shi,chi等。
2.每个人在不同的环境及心理作用下,发音不同。
3.受目前的计算机设备在速度以及容量上的限制。
“知音文书系统”中的语音识别予系统,在语音识别后,得到6个可能性最大的候选音,而每个音又对应多个可能的汉字(平均5.87个),这样在使用智能拼音输入法时,会给系统带来以下困难:
1.计算量大、占用过多机时。
2.由于后选字太多,会使系统产生一些无法避免的错误。
本发明的目的:就是针对前语音识别系统中的不足,以使语音识别系统既能容忍语音识别率不高,又能给语音理解减轻负担,从而减少语音识别混淆度,提高语音识别系统的识别速度和识别率,进而提高系统整体的性能。
本发明的基本技术特征是:针对语音识别率不高和语音理解数据处理量过大的问题,将原来不相关的语音到拼音的转换过程,引入上文的知识,以减少语音识别混淆度,提高语音识别系统的识别速度和识别率。而由语音到拼音的转换,是通过引入上下文的转移概率P(Wi/Wi-1)来辅助实现的。
根据汉语语音规律对于一个句子,可以认为是一个读音串R=(R1,R2,…,RN),相应的拼音为W=(W1,W2,…,Wn),为找出i时刻发音R1对应的W1,根据最大后验概率准则:
W1=(Arg max P(W(j) 1/Ai)
        j
由Bayes公式:
Wi=Arg max P(Ai/W(j) i).P(W(j) i)
       j
Wi=Arg max P(Ri/W(j) i)*P(W(j) i/Wi-1)
       j
其中,P(Ri/W(j) i)由语音识别部分给出,校正的任务是给出P(W(j) i/Wi-1)。
P(W(j) i/Wi-1)是经过大量的本文统计得到的。在实现时,先用P(W(j) i/Wi-1),再由计算机优化语音识别的结果。
下面举一实例,加以说明:当语音输入“中”“国”时,可能的候选音和经过处理后的候选音如下:
语音输入后可能的候选者 经过处理后的候选语音
″中″ ″国″ ″中″ ″国″
zhong1 gaol zhongl guo2
dong2 ge2 chong1 gaol
chong1 gou4 dong2 gao2
song2 kuo3 rong3 gou4
dong4 rou4 song2 kuo3
rong3 guo2 dong4 rou4
经过处理后的统计结果表明,首选的正确率能提高7%,而且可以将4个候选字送到下一级语音理解,完成音字转换,大大节省了时间,提高了正确率。
本发明与本公司发明“智能拼音输入法”(专利受理号:94103482.8)紧密结合,使语音识别的正确率达到80%到90%左右。
本发明的突出特点:
1.提高语音识别率7个百分点,使语音识别系统的实用性能增强。
2.语音识别的时间短,速度快。
3.数据占用空间少。

Claims (3)

1、本发明汉语语音识别系统的拼音校正法,其特征在于:当输入语音系统进行识别时,把原来不相关的语音到拼音的的转换过程,引入上文的知识,以减少语音识别混淆度,从而提高语音识别系统的速度和正确率。
2、根据权利要求1所述,汉语语音识别系统的拼音校正法的特征在于:由语音到拼音的转换,是通过引入上下文的转移概率P(Wi/Wi-1)来辅助实现的,即在实现时先用统计出的P(Wi/Wi-1),再由计算机优化语音识别的结果。
3、根据权利要求1所述,汉语语音识别系统的拼音校正法的特征在于:在输入一个语音后,语音识别首先计算出10个候选字,由本方法优化为4个候选字,选入下一级语音理解,并完成音字转换。
CN 94105346 1994-05-23 1994-05-23 汉语语音识别系统的拼音校正法 Pending CN1112698A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 94105346 CN1112698A (zh) 1994-05-23 1994-05-23 汉语语音识别系统的拼音校正法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 94105346 CN1112698A (zh) 1994-05-23 1994-05-23 汉语语音识别系统的拼音校正法

Publications (1)

Publication Number Publication Date
CN1112698A true CN1112698A (zh) 1995-11-29

Family

ID=5032026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 94105346 Pending CN1112698A (zh) 1994-05-23 1994-05-23 汉语语音识别系统的拼音校正法

Country Status (1)

Country Link
CN (1) CN1112698A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106575503A (zh) * 2014-06-18 2017-04-19 微软技术许可有限责任公司 用于对话理解系统的会话上下文建模
CN107016994A (zh) * 2016-01-27 2017-08-04 阿里巴巴集团控股有限公司 语音识别的方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106575503A (zh) * 2014-06-18 2017-04-19 微软技术许可有限责任公司 用于对话理解系统的会话上下文建模
CN107016994A (zh) * 2016-01-27 2017-08-04 阿里巴巴集团控股有限公司 语音识别的方法及装置
CN107016994B (zh) * 2016-01-27 2020-05-08 阿里巴巴集团控股有限公司 语音识别的方法及装置

Similar Documents

Publication Publication Date Title
US7280963B1 (en) Method for learning linguistically valid word pronunciations from acoustic data
CN1137449C (zh) 在中文语音识别系统中识别字母/数字串的方法
CN1112698A (zh) 汉语语音识别系统的拼音校正法
CN1869892A (zh) 一种中文短语、短句快速输入的方法和系统
CN1026271C (zh) 智能拼音汉字输入系统
CN1147811C (zh) 具有矫正功能的中文汉字辨别方法及系统
CN1074553C (zh) Hlv汉字拼音输入方法
CN1115616C (zh) 计算机彝文字输入方法及其键盘
Ito et al. A new word pre-selection method based on an extended redundant hash addressing for continuous speech recognition
CN1164701A (zh) 霹雳码计算机汉字输入方法
CN1203391C (zh) 左右音形数码汉字电脑输入法及其键盘
CN1114853C (zh) 一种使用计算机数字键盘的数字编码双笔划汉字输入法
KR20040008546A (ko) 연속 음성인식 기기의 오인식 수정 방법
CN1664760A (zh) 汉字的数字编码六码输入方法
Seo et al. Joint On-Demand Pruning and Online Distillation in Automatic Speech Recognition Language Model Optimization.
CN105607753B (zh) 一种五笔的长句输入方法和长句输入系统
CN1107237A (zh) 意音汉字输入法
CN1438562A (zh) 一种用于手机中文输入的混合拼音快速输入法
CN1121006C (zh) 计算机汉字输入方法
CN111507102A (zh) 基于局部自注意力机制和分割树的多准则中文分词方法
CN1230715A (zh) 特殊码辅助拼音-汉字自动变换通用键盘汉字输入方法
CN1075644C (zh) 母子码汉字单元声化编码输入方法及其键盘
CN1108401A (zh) 计算机汉字输入方法
CN115481622A (zh) 一种多语言神经机器音译系统及方法
CN1100538A (zh) 新拼音汉字输入法及其键盘设计

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C57 Notification of unclear or unknown address
DD01 Delivery of document by public notice

Addressee: Wu Jun

Document name: payment instructions

C57 Notification of unclear or unknown address
DD01 Delivery of document by public notice

Addressee: Chaofan Electronic Sci & Tech Co., Ltd., Beijing

Document name: Deemed as a notice of withdrawal