CN1137449C - 在中文语音识别系统中识别字母/数字串的方法 - Google Patents

在中文语音识别系统中识别字母/数字串的方法 Download PDF

Info

Publication number
CN1137449C
CN1137449C CNB971196508A CN97119650A CN1137449C CN 1137449 C CN1137449 C CN 1137449C CN B971196508 A CNB971196508 A CN B971196508A CN 97119650 A CN97119650 A CN 97119650A CN 1137449 C CN1137449 C CN 1137449C
Authority
CN
China
Prior art keywords
chinese
speech
numeral
letter
idiom
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB971196508A
Other languages
English (en)
Other versions
CN1212404A (zh
Inventor
唐道南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CNB971196508A priority Critical patent/CN1137449C/zh
Priority to TW086116677A priority patent/TW385429B/zh
Priority to US09/143,186 priority patent/US5995934A/en
Publication of CN1212404A publication Critical patent/CN1212404A/zh
Priority to HK99102035A priority patent/HK1017450A1/xx
Application granted granted Critical
Publication of CN1137449C publication Critical patent/CN1137449C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

一种在中文语音识别系统中识别字母/数字串的方法。该方法选取特殊的编码方案,用由多个汉字组成的、便于记忆和识别的成语和词来表示要输入的每个字母、数字或命令。对于每个阿拉伯数字,用起始为该数字所对应的汉字的成语或词来表示。对于每个英文字母,用起始汉字的汉语拼音的头拼为该英文字母的成语和词来表示。如果有必须包括的命令,也可用意义近似的成语或词来表示。这样就可以解决中文语音识别系统中字母/数字串的不可靠识别问题。

Description

在中文语音识别系统中识 别字母/数字串的方法
本发明一般涉及汉字语音识别技术,更具体地说,涉及在中文语音识别系统中识别字母/数字串的技术。
随着现代科学和计算机技术的发展,人与机器之间的信息交换变得越来越更重要了。传统的信息交换方式主要是通过键盘输入,通过显示器或打印机输出。在进行汉字输入时,还得记住汉字编码。这种传统的方式非常不方便。如果计算机能获得象人一样的用声音进行信息交流的能力,那么,人与计算机之间便可以通过声音进行对话,这将使人机之间的信息交流发生根本性的变化,能大大提高信息处理的效率。目前在计算机工作者的努力下,已开发各种该音识别系统,特别是汉字语音识别系统。
因为汉字通常具有多个同音或近音字,所以在现有的汉字语音识别系统中人们借助词、词组或高层语言信息来解决汉字级上的歧义性,以便正确识别出每个汉字。人们一般使用声音模型来确定对应于输入的音节的最大可能汉字是什么,而且储存有高层语音使用模式信息和概率信息的字典或语言模型来解决汉字级上的歧义性。
然而,在脱离上下文环境的情况下,识别单个汉字是非常困难的,其识别结果通常是给出一些具有相同或相似发音的汉字。特别是,在汉字语音识别系统中通过语音输入随机阿拉伯数字或单个英文字母时,无法将其与同音或近音的汉字区分开来。一般来说,汉字语音识别系统通常没有受过识别英文字母的训练,且人们对英文字母的发音也各不相同。
综上所述,需要一种在汉字语音识别系统中能可靠识别字母/数字串的方法。
根据本发明的在中文语音识别系统中识别字母/数字串方法,包括以下步骤:
·选取一种编码方案,在该方案中用由多个汉字组成的、便于记忆和识别的成语或词,在此称为编码词,来表示要输入的每个字母、数字或命令;
·建立特殊的词汇表,表中每一个词是一个数字、字母或命令,而该词的注音则是其对应编码词的拼音;
·接收一个通过编码词的语音S输入的字母数字或命令,并记录该语音所处的上下文H;
·根据声学模型和语言模型,对照特殊的词汇表确定出输入的字母、数字或命令。
这样当通过语音输入字母数字串时,就可以对其进行可靠识别,并对这种由中文成语、词表示的字母/数字串进行恢复。
通过以下对具体实施例的描述,可以更好地理解本发明的优点。
图1A、1B为方框图,分别示出了普通中文语音识别系统和根据本发明的中文语音识别系统;
图2为一流程图,示出本发明在图1所示的中文语音识别系统中识别字母、数字或命令的过程。
根据本发明的一个具体实施例所选取的特殊编码方案提供了一种标准的用汉字串表示36个字母-数字的方法。这样的汉字串应具有以下特点:
·抗噪声:这样的汉字串长度应至少等于3,以提供充分的语言鉴别能力。
·声音距离:这样的汉字串在发音上应不相近。
·便于使用:成语是具有独特含义和用法的特殊类型的词。
对于每个阿拉伯数字,用起始为该数字所对应的汉字的成语/词来表示;
对于每个英文字母,用起始汉字的汉语拼音头拼(拼音的第一字母)为该英文字母的成语/词来表示。
有三个英文字母不会用作任何汉字的汉语拼音的头拼:
·“I”:使用以“yi”为拼音开头字母的汉字;
·“U”:使用以“Wu”为拼音开头字母的汉字;
“V”:使用以“Yu”为拼音开头字母的汉字;
为了避免混淆,在以Y和W为其拼音头拼的汉字中使用除以“Yi”和“Yu”为拼音开头字母的汉字代表“Y”,而使用除以“Wu”为拼音开头字母的汉字代表“W”。
表1中示出了36个数字-字母和与其对应的由4个汉字组成的成语或由3个汉字组成的词。表1中还示出了两个控制符及其对应的成语。
A 安居乐业 1 一心一意 一条龙
B 百战百胜 2 两全其美 哥俩好
C 草木皆兵 3 三生有幸 三结义
D 地大物博 4 四海为家 四喜财
E 耳目一新 5 五体投地 五魁首
F 发扬光大 6 六六大顺 六六顺
G 国泰民安 7 七窍生烟 七星照
H 花好月圆 8 八仙过海 八匹马
I 衣食住行 9 九霄云外 九月九
J 金鸡独立 0 零零星星 全没有
K 开天辟地
L 龙飞凤舞 SPA CE-BAR 空空如也
M 马到成功 RETURN 回头是岸
N 南来北往
O 藕断丝连
P 排山倒海
Q 前途无量
R 人山人海
S 所向无敌
T 同心同德
U 无忧无虑
V 雨过天晴
W 万寿无疆
X 习以为常
Y 洋洋得意
Z 自由自在
在此,我们将以上成语或词称为字母、数字或命令所对应的编码词。
在选取了以上的编码方案之后,要对现有的中文语音识别系统进行改造,以便可靠地识别出字母、数字或命令。
图1分别示出了普通的中文语音识别系统和用于本发明的语音识别系统。它们都是由词汇表、声学模型和语言模型三部分组成,声学模型用于计算输入语音S和词汇表中词在声音上的相似程度,而语言模型用于计算在输入语音S所处的上下文H中词汇表中词出现的可能性。用于本发明的中文语音识别系统中包括了一个特殊的构造的词汇表,表中每个词是一个数字、字母或命令,而该词的注音则是其对应的编码词的拼音。这样当人们通过一个编码词的语音输入字母、数字或命令时,在图1所示的用于本发明的中文语音识别系统中就可以通过以下步骤将其识别出来。如图2所示,当人们通过编码词的语音输入字母、数字或命令时,用于本发明的语音识别系统记录下发音S和该发音所处的上下文H。对特殊构造的词汇表中的每个词Wi,它的注音是它的编码词Ci的拼音,记作Py(Ci)。用语音模型计算S和Py(Ci)在声音上的相似程度,记为P(S|py(Ci))。对特殊构造的词汇表中的每个词Wi,用语言模型计算Wi在该上下文H中出现的可能性,记在P(Wi|H)。对特殊构造的词汇表中每个词Wi,计算P(S|py(Ci))×P(Wi|H),即计算每个词的语音模型和语言模型的综合得分,找出得分最高者Wmax,Wamx即为发音S在上下文为H时的识别结果。
从以上可以看出,本发明的用于在中文语音识别系统中识别字母、数字或命令串的方法,可以解决随机字母/数字串的不可靠:识别问题。

Claims (2)

1.一种在中文语音识别系统中识别字母/数字串的方法,其特征在于以下步骤:
·选取一种编码方案,在该方案中用由多个汉字组成的、便于记忆和识别的成语或词,在此称为编码词,来表示要输入的每个字母、数字或命令;
·建立特殊的词汇表,表中每一个词是一个数字、字母或命令,而该词的注音则是其对应编码词的拼音;
·接收一个通过编码词的语音S输入的字母数字或命令,并记录该语音所处的上下文H;
·根据声学模型和语言模型,对照特殊的词汇表确定出输入的字母、数字或命令。
2.根据权利权利要求1的在中文语音识别系统中识别字母/数字串的方法,其特征在于,在所选取的编码方案中:
·对于每个阿拉伯数字,用起始为该数字所对应的汉字的成语或词来表示;
·对每个英文字母,用起始汉字的汉语拼音的头拼为该英文字母的成语或词来表示;
·对于一组命令中的一条,用意义近似的成语或词来表示。
CNB971196508A 1997-09-19 1997-09-19 在中文语音识别系统中识别字母/数字串的方法 Expired - Lifetime CN1137449C (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CNB971196508A CN1137449C (zh) 1997-09-19 1997-09-19 在中文语音识别系统中识别字母/数字串的方法
TW086116677A TW385429B (en) 1997-09-19 1997-11-08 Recognition method for alpha-numeric strings in Chinese speech recognition system
US09/143,186 US5995934A (en) 1997-09-19 1998-08-28 Method for recognizing alpha-numeric strings in a Chinese speech recognition system
HK99102035A HK1017450A1 (en) 1997-09-19 1999-05-06 Method for recognizing alpha/numeric strings in a chinese speech recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB971196508A CN1137449C (zh) 1997-09-19 1997-09-19 在中文语音识别系统中识别字母/数字串的方法

Publications (2)

Publication Number Publication Date
CN1212404A CN1212404A (zh) 1999-03-31
CN1137449C true CN1137449C (zh) 2004-02-04

Family

ID=5175480

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB971196508A Expired - Lifetime CN1137449C (zh) 1997-09-19 1997-09-19 在中文语音识别系统中识别字母/数字串的方法

Country Status (4)

Country Link
US (1) US5995934A (zh)
CN (1) CN1137449C (zh)
HK (1) HK1017450A1 (zh)
TW (1) TW385429B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101826325A (zh) * 2010-03-10 2010-09-08 华为终端有限公司 对中英文语音信号进行识别的方法和装置

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6321196B1 (en) 1999-07-02 2001-11-20 International Business Machines Corporation Phonetic spelling for speech recognition
US20010056345A1 (en) * 2000-04-25 2001-12-27 David Guedalia Method and system for speech recognition of the alphabet
US20040006560A1 (en) * 2000-05-01 2004-01-08 Ning-Ping Chan Method and system for translingual translation of query and search and retrieval of multilingual information on the web
US6604101B1 (en) 2000-06-28 2003-08-05 Qnaturally Systems, Inc. Method and system for translingual translation of query and search and retrieval of multilingual information on a computer network
US7085716B1 (en) * 2000-10-26 2006-08-01 Nuance Communications, Inc. Speech recognition using word-in-phrase command
US20040236581A1 (en) * 2003-05-01 2004-11-25 Microsoft Corporation Dynamic pronunciation support for Japanese and Chinese speech recognition training
US7398199B2 (en) * 2004-03-23 2008-07-08 Xue Sheng Gong Chinese romanization
CN1674092B (zh) * 2004-03-26 2010-06-09 松下电器产业株式会社 连续数字识别的声韵母跨词建模、解码方法及系统
US8249873B2 (en) * 2005-08-12 2012-08-21 Avaya Inc. Tonal correction of speech
US20070050188A1 (en) * 2005-08-26 2007-03-01 Avaya Technology Corp. Tone contour transformation of speech
US7657421B2 (en) 2006-06-28 2010-02-02 International Business Machines Corporation System and method for identifying and defining idioms
CN105702256B (zh) * 2014-11-28 2020-01-31 上海航空电器有限公司 一种基于机载设备的数字串语音识别方法
US9690766B2 (en) 2014-12-30 2017-06-27 Chengnan Liu Method for generating random content for an article
US20170364486A1 (en) * 2016-06-17 2017-12-21 Yan Zhou Precise Encoding and Direct Keyboard Entry of Chinese as Extension of Pinyin
CN107632718B (zh) * 2017-08-03 2021-01-22 百度在线网络技术(北京)有限公司 语音输入中的数字信息的推荐方法、装置与可读介质
CN108133706B (zh) * 2017-12-21 2020-10-27 深圳市沃特沃德股份有限公司 语义识别方法及装置
CN108595584B (zh) * 2018-04-18 2022-06-07 卓望数码技术(深圳)有限公司 一种基于数字标记的汉字输出方法和系统
CN111179937A (zh) * 2019-12-24 2020-05-19 上海眼控科技股份有限公司 文本处理的方法、设备和计算机可读存储介质
US11735169B2 (en) 2020-03-20 2023-08-22 International Business Machines Corporation Speech recognition and training for data inputs
CN114387947B (zh) * 2022-03-23 2022-08-02 北京中科深智科技有限公司 一种适用于电商直播中虚拟主播的自动语音合成方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5787230A (en) * 1994-12-09 1998-07-28 Lee; Lin-Shan System and method of intelligent Mandarin speech input for Chinese computers
US5903861A (en) * 1995-12-12 1999-05-11 Chan; Kun C. Method for specifically converting non-phonetic characters representing vocabulary in languages into surrogate words for inputting into a computer
US5764851A (en) * 1996-07-24 1998-06-09 Industrial Technology Research Institute Fast speech recognition method for mandarin words

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101826325A (zh) * 2010-03-10 2010-09-08 华为终端有限公司 对中英文语音信号进行识别的方法和装置

Also Published As

Publication number Publication date
US5995934A (en) 1999-11-30
HK1017450A1 (en) 1999-11-19
TW385429B (en) 2000-03-21
CN1212404A (zh) 1999-03-31

Similar Documents

Publication Publication Date Title
CN1137449C (zh) 在中文语音识别系统中识别字母/数字串的方法
US5479563A (en) Boundary extracting system from a sentence
US5119296A (en) Method and apparatus for inputting radical-encoded chinese characters
US5360343A (en) Chinese character coding method using five stroke codes and double phonetic alphabets
Bentin et al. New evidence for phonological processing during visual word recognition: The case of Arabic.
KR100656736B1 (ko) 표음 입력 모호성 제거 시스템 및 방법
Tamaoka Psycholinguistic nature of the Japanese orthography
Sproat A statistical comparison of written language and nonlinguistic symbol systems
CN1037598A (zh) 八笔首音(傻瓜)码汉字输入方法
CN100485590C (zh) 汉字输入方法
CN1019425B (zh) 中文输入装置及其键盘
CN1027839C (zh) 中华双拼汉字编入的计算机键盘
CN1080070A (zh) 形声位全息汉字编码
CN85102847A (zh) 计算机汉字动态编码输入
CN1442781A (zh) 汉语无形字-仿语音系统
CN1063856C (zh) 一种拆字拼音的计算机输入键盘及其输入方法
KR100564742B1 (ko) 문자의 음성변환장치 및 방법
Shibayama et al. Thai morphological analyses based on the syllable formation rules
CN1064757A (zh) 通用双拼键盘输入系统
KR0176779B1 (ko) 한글 흘림문자의 코딩방법
van den Bosch et al. Linguistic pattern matching capabilities of connectionist networks
Kim et al. Hybrid grapheme to phoneme conversion for unlimited vocabulary
Soonklang et al. Multilingual pronunciation by analogy
Wang et al. A hybrid language model based on statistics and linguistic rules
CN1149732A (zh) 声母、韵母、声调笔画汉字编码方法

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NEW ANST COMMUNICATION CO.,LTD.

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINE CORP.

Effective date: 20090911

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20090911

Address after: Massachusetts, USA

Patentee after: Nuance Communications Inc

Address before: American New York

Patentee before: International Business Machines Corp.

CX01 Expiry of patent term

Granted publication date: 20040204

CX01 Expiry of patent term