CN1137449C - 在中文语音识别系统中识别字母/数字串的方法 - Google Patents
在中文语音识别系统中识别字母/数字串的方法 Download PDFInfo
- Publication number
- CN1137449C CN1137449C CNB971196508A CN97119650A CN1137449C CN 1137449 C CN1137449 C CN 1137449C CN B971196508 A CNB971196508 A CN B971196508A CN 97119650 A CN97119650 A CN 97119650A CN 1137449 C CN1137449 C CN 1137449C
- Authority
- CN
- China
- Prior art keywords
- chinese
- speech
- numeral
- letter
- idiom
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 12
- 230000008676 import Effects 0.000 claims description 2
- 230000014509 gene expression Effects 0.000 abstract 4
- 230000000977 initiatory effect Effects 0.000 abstract 1
- 238000012821 model calculation Methods 0.000 description 2
- 241001108921 Asclepias asperula Species 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000003517 fume Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003760 hair shine Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
一种在中文语音识别系统中识别字母/数字串的方法。该方法选取特殊的编码方案,用由多个汉字组成的、便于记忆和识别的成语和词来表示要输入的每个字母、数字或命令。对于每个阿拉伯数字,用起始为该数字所对应的汉字的成语或词来表示。对于每个英文字母,用起始汉字的汉语拼音的头拼为该英文字母的成语和词来表示。如果有必须包括的命令,也可用意义近似的成语或词来表示。这样就可以解决中文语音识别系统中字母/数字串的不可靠识别问题。
Description
本发明一般涉及汉字语音识别技术,更具体地说,涉及在中文语音识别系统中识别字母/数字串的技术。
随着现代科学和计算机技术的发展,人与机器之间的信息交换变得越来越更重要了。传统的信息交换方式主要是通过键盘输入,通过显示器或打印机输出。在进行汉字输入时,还得记住汉字编码。这种传统的方式非常不方便。如果计算机能获得象人一样的用声音进行信息交流的能力,那么,人与计算机之间便可以通过声音进行对话,这将使人机之间的信息交流发生根本性的变化,能大大提高信息处理的效率。目前在计算机工作者的努力下,已开发各种该音识别系统,特别是汉字语音识别系统。
因为汉字通常具有多个同音或近音字,所以在现有的汉字语音识别系统中人们借助词、词组或高层语言信息来解决汉字级上的歧义性,以便正确识别出每个汉字。人们一般使用声音模型来确定对应于输入的音节的最大可能汉字是什么,而且储存有高层语音使用模式信息和概率信息的字典或语言模型来解决汉字级上的歧义性。
然而,在脱离上下文环境的情况下,识别单个汉字是非常困难的,其识别结果通常是给出一些具有相同或相似发音的汉字。特别是,在汉字语音识别系统中通过语音输入随机阿拉伯数字或单个英文字母时,无法将其与同音或近音的汉字区分开来。一般来说,汉字语音识别系统通常没有受过识别英文字母的训练,且人们对英文字母的发音也各不相同。
综上所述,需要一种在汉字语音识别系统中能可靠识别字母/数字串的方法。
根据本发明的在中文语音识别系统中识别字母/数字串方法,包括以下步骤:
·选取一种编码方案,在该方案中用由多个汉字组成的、便于记忆和识别的成语或词,在此称为编码词,来表示要输入的每个字母、数字或命令;
·建立特殊的词汇表,表中每一个词是一个数字、字母或命令,而该词的注音则是其对应编码词的拼音;
·接收一个通过编码词的语音S输入的字母数字或命令,并记录该语音所处的上下文H;
·根据声学模型和语言模型,对照特殊的词汇表确定出输入的字母、数字或命令。
这样当通过语音输入字母数字串时,就可以对其进行可靠识别,并对这种由中文成语、词表示的字母/数字串进行恢复。
通过以下对具体实施例的描述,可以更好地理解本发明的优点。
图1A、1B为方框图,分别示出了普通中文语音识别系统和根据本发明的中文语音识别系统;
图2为一流程图,示出本发明在图1所示的中文语音识别系统中识别字母、数字或命令的过程。
根据本发明的一个具体实施例所选取的特殊编码方案提供了一种标准的用汉字串表示36个字母-数字的方法。这样的汉字串应具有以下特点:
·抗噪声:这样的汉字串长度应至少等于3,以提供充分的语言鉴别能力。
·声音距离:这样的汉字串在发音上应不相近。
·便于使用:成语是具有独特含义和用法的特殊类型的词。
对于每个阿拉伯数字,用起始为该数字所对应的汉字的成语/词来表示;
对于每个英文字母,用起始汉字的汉语拼音头拼(拼音的第一字母)为该英文字母的成语/词来表示。
有三个英文字母不会用作任何汉字的汉语拼音的头拼:
·“I”:使用以“yi”为拼音开头字母的汉字;
·“U”:使用以“Wu”为拼音开头字母的汉字;
“V”:使用以“Yu”为拼音开头字母的汉字;
为了避免混淆,在以Y和W为其拼音头拼的汉字中使用除以“Yi”和“Yu”为拼音开头字母的汉字代表“Y”,而使用除以“Wu”为拼音开头字母的汉字代表“W”。
表1中示出了36个数字-字母和与其对应的由4个汉字组成的成语或由3个汉字组成的词。表1中还示出了两个控制符及其对应的成语。
A | 安居乐业 | 1 | 一心一意 | 一条龙 | |
B | 百战百胜 | 2 | 两全其美 | 哥俩好 | |
C | 草木皆兵 | 3 | 三生有幸 | 三结义 | |
D | 地大物博 | 4 | 四海为家 | 四喜财 | |
E | 耳目一新 | 5 | 五体投地 | 五魁首 | |
F | 发扬光大 | 6 | 六六大顺 | 六六顺 | |
G | 国泰民安 | 7 | 七窍生烟 | 七星照 | |
H | 花好月圆 | 8 | 八仙过海 | 八匹马 | |
I | 衣食住行 | 9 | 九霄云外 | 九月九 | |
J | 金鸡独立 | 0 | 零零星星 | 全没有 | |
K | 开天辟地 | ||||
L | 龙飞凤舞 | SPA CE-BAR | 空空如也 | ||
M | 马到成功 | RETURN | 回头是岸 | ||
N | 南来北往 | ||||
O | 藕断丝连 | ||||
P | 排山倒海 | ||||
Q | 前途无量 | ||||
R | 人山人海 | ||||
S | 所向无敌 | ||||
T | 同心同德 | ||||
U | 无忧无虑 | ||||
V | 雨过天晴 | ||||
W | 万寿无疆 | ||||
X | 习以为常 | ||||
Y | 洋洋得意 | ||||
Z | 自由自在 |
在此,我们将以上成语或词称为字母、数字或命令所对应的编码词。
在选取了以上的编码方案之后,要对现有的中文语音识别系统进行改造,以便可靠地识别出字母、数字或命令。
图1分别示出了普通的中文语音识别系统和用于本发明的语音识别系统。它们都是由词汇表、声学模型和语言模型三部分组成,声学模型用于计算输入语音S和词汇表中词在声音上的相似程度,而语言模型用于计算在输入语音S所处的上下文H中词汇表中词出现的可能性。用于本发明的中文语音识别系统中包括了一个特殊的构造的词汇表,表中每个词是一个数字、字母或命令,而该词的注音则是其对应的编码词的拼音。这样当人们通过一个编码词的语音输入字母、数字或命令时,在图1所示的用于本发明的中文语音识别系统中就可以通过以下步骤将其识别出来。如图2所示,当人们通过编码词的语音输入字母、数字或命令时,用于本发明的语音识别系统记录下发音S和该发音所处的上下文H。对特殊构造的词汇表中的每个词Wi,它的注音是它的编码词Ci的拼音,记作Py(Ci)。用语音模型计算S和Py(Ci)在声音上的相似程度,记为P(S|py(Ci))。对特殊构造的词汇表中的每个词Wi,用语言模型计算Wi在该上下文H中出现的可能性,记在P(Wi|H)。对特殊构造的词汇表中每个词Wi,计算P(S|py(Ci))×P(Wi|H),即计算每个词的语音模型和语言模型的综合得分,找出得分最高者Wmax,Wamx即为发音S在上下文为H时的识别结果。
从以上可以看出,本发明的用于在中文语音识别系统中识别字母、数字或命令串的方法,可以解决随机字母/数字串的不可靠:识别问题。
Claims (2)
1.一种在中文语音识别系统中识别字母/数字串的方法,其特征在于以下步骤:
·选取一种编码方案,在该方案中用由多个汉字组成的、便于记忆和识别的成语或词,在此称为编码词,来表示要输入的每个字母、数字或命令;
·建立特殊的词汇表,表中每一个词是一个数字、字母或命令,而该词的注音则是其对应编码词的拼音;
·接收一个通过编码词的语音S输入的字母数字或命令,并记录该语音所处的上下文H;
·根据声学模型和语言模型,对照特殊的词汇表确定出输入的字母、数字或命令。
2.根据权利权利要求1的在中文语音识别系统中识别字母/数字串的方法,其特征在于,在所选取的编码方案中:
·对于每个阿拉伯数字,用起始为该数字所对应的汉字的成语或词来表示;
·对每个英文字母,用起始汉字的汉语拼音的头拼为该英文字母的成语或词来表示;
·对于一组命令中的一条,用意义近似的成语或词来表示。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB971196508A CN1137449C (zh) | 1997-09-19 | 1997-09-19 | 在中文语音识别系统中识别字母/数字串的方法 |
TW086116677A TW385429B (en) | 1997-09-19 | 1997-11-08 | Recognition method for alpha-numeric strings in Chinese speech recognition system |
US09/143,186 US5995934A (en) | 1997-09-19 | 1998-08-28 | Method for recognizing alpha-numeric strings in a Chinese speech recognition system |
HK99102035A HK1017450A1 (en) | 1997-09-19 | 1999-05-06 | Method for recognizing alpha/numeric strings in a chinese speech recognition system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB971196508A CN1137449C (zh) | 1997-09-19 | 1997-09-19 | 在中文语音识别系统中识别字母/数字串的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1212404A CN1212404A (zh) | 1999-03-31 |
CN1137449C true CN1137449C (zh) | 2004-02-04 |
Family
ID=5175480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB971196508A Expired - Lifetime CN1137449C (zh) | 1997-09-19 | 1997-09-19 | 在中文语音识别系统中识别字母/数字串的方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5995934A (zh) |
CN (1) | CN1137449C (zh) |
HK (1) | HK1017450A1 (zh) |
TW (1) | TW385429B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101826325A (zh) * | 2010-03-10 | 2010-09-08 | 华为终端有限公司 | 对中英文语音信号进行识别的方法和装置 |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6321196B1 (en) | 1999-07-02 | 2001-11-20 | International Business Machines Corporation | Phonetic spelling for speech recognition |
US20010056345A1 (en) * | 2000-04-25 | 2001-12-27 | David Guedalia | Method and system for speech recognition of the alphabet |
US20040006560A1 (en) * | 2000-05-01 | 2004-01-08 | Ning-Ping Chan | Method and system for translingual translation of query and search and retrieval of multilingual information on the web |
US6604101B1 (en) | 2000-06-28 | 2003-08-05 | Qnaturally Systems, Inc. | Method and system for translingual translation of query and search and retrieval of multilingual information on a computer network |
US7085716B1 (en) * | 2000-10-26 | 2006-08-01 | Nuance Communications, Inc. | Speech recognition using word-in-phrase command |
US20040236581A1 (en) * | 2003-05-01 | 2004-11-25 | Microsoft Corporation | Dynamic pronunciation support for Japanese and Chinese speech recognition training |
US7398199B2 (en) * | 2004-03-23 | 2008-07-08 | Xue Sheng Gong | Chinese romanization |
CN1674092B (zh) * | 2004-03-26 | 2010-06-09 | 松下电器产业株式会社 | 连续数字识别的声韵母跨词建模、解码方法及系统 |
US8249873B2 (en) * | 2005-08-12 | 2012-08-21 | Avaya Inc. | Tonal correction of speech |
US20070050188A1 (en) * | 2005-08-26 | 2007-03-01 | Avaya Technology Corp. | Tone contour transformation of speech |
US7657421B2 (en) | 2006-06-28 | 2010-02-02 | International Business Machines Corporation | System and method for identifying and defining idioms |
CN105702256B (zh) * | 2014-11-28 | 2020-01-31 | 上海航空电器有限公司 | 一种基于机载设备的数字串语音识别方法 |
US9690766B2 (en) | 2014-12-30 | 2017-06-27 | Chengnan Liu | Method for generating random content for an article |
US20170364486A1 (en) * | 2016-06-17 | 2017-12-21 | Yan Zhou | Precise Encoding and Direct Keyboard Entry of Chinese as Extension of Pinyin |
CN107632718B (zh) * | 2017-08-03 | 2021-01-22 | 百度在线网络技术(北京)有限公司 | 语音输入中的数字信息的推荐方法、装置与可读介质 |
CN108133706B (zh) * | 2017-12-21 | 2020-10-27 | 深圳市沃特沃德股份有限公司 | 语义识别方法及装置 |
CN108595584B (zh) * | 2018-04-18 | 2022-06-07 | 卓望数码技术(深圳)有限公司 | 一种基于数字标记的汉字输出方法和系统 |
CN111179937A (zh) * | 2019-12-24 | 2020-05-19 | 上海眼控科技股份有限公司 | 文本处理的方法、设备和计算机可读存储介质 |
US11735169B2 (en) | 2020-03-20 | 2023-08-22 | International Business Machines Corporation | Speech recognition and training for data inputs |
CN114387947B (zh) * | 2022-03-23 | 2022-08-02 | 北京中科深智科技有限公司 | 一种适用于电商直播中虚拟主播的自动语音合成方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5787230A (en) * | 1994-12-09 | 1998-07-28 | Lee; Lin-Shan | System and method of intelligent Mandarin speech input for Chinese computers |
US5903861A (en) * | 1995-12-12 | 1999-05-11 | Chan; Kun C. | Method for specifically converting non-phonetic characters representing vocabulary in languages into surrogate words for inputting into a computer |
US5764851A (en) * | 1996-07-24 | 1998-06-09 | Industrial Technology Research Institute | Fast speech recognition method for mandarin words |
-
1997
- 1997-09-19 CN CNB971196508A patent/CN1137449C/zh not_active Expired - Lifetime
- 1997-11-08 TW TW086116677A patent/TW385429B/zh not_active IP Right Cessation
-
1998
- 1998-08-28 US US09/143,186 patent/US5995934A/en not_active Expired - Lifetime
-
1999
- 1999-05-06 HK HK99102035A patent/HK1017450A1/xx not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101826325A (zh) * | 2010-03-10 | 2010-09-08 | 华为终端有限公司 | 对中英文语音信号进行识别的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
US5995934A (en) | 1999-11-30 |
HK1017450A1 (en) | 1999-11-19 |
TW385429B (en) | 2000-03-21 |
CN1212404A (zh) | 1999-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1137449C (zh) | 在中文语音识别系统中识别字母/数字串的方法 | |
US5479563A (en) | Boundary extracting system from a sentence | |
US5119296A (en) | Method and apparatus for inputting radical-encoded chinese characters | |
US5360343A (en) | Chinese character coding method using five stroke codes and double phonetic alphabets | |
Bentin et al. | New evidence for phonological processing during visual word recognition: The case of Arabic. | |
KR100656736B1 (ko) | 표음 입력 모호성 제거 시스템 및 방법 | |
Tamaoka | Psycholinguistic nature of the Japanese orthography | |
Sproat | A statistical comparison of written language and nonlinguistic symbol systems | |
CN1037598A (zh) | 八笔首音(傻瓜)码汉字输入方法 | |
CN100485590C (zh) | 汉字输入方法 | |
CN1019425B (zh) | 中文输入装置及其键盘 | |
CN1027839C (zh) | 中华双拼汉字编入的计算机键盘 | |
CN1080070A (zh) | 形声位全息汉字编码 | |
CN85102847A (zh) | 计算机汉字动态编码输入 | |
CN1442781A (zh) | 汉语无形字-仿语音系统 | |
CN1063856C (zh) | 一种拆字拼音的计算机输入键盘及其输入方法 | |
KR100564742B1 (ko) | 문자의 음성변환장치 및 방법 | |
Shibayama et al. | Thai morphological analyses based on the syllable formation rules | |
CN1064757A (zh) | 通用双拼键盘输入系统 | |
KR0176779B1 (ko) | 한글 흘림문자의 코딩방법 | |
van den Bosch et al. | Linguistic pattern matching capabilities of connectionist networks | |
Kim et al. | Hybrid grapheme to phoneme conversion for unlimited vocabulary | |
Soonklang et al. | Multilingual pronunciation by analogy | |
Wang et al. | A hybrid language model based on statistics and linguistic rules | |
CN1149732A (zh) | 声母、韵母、声调笔画汉字编码方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
ASS | Succession or assignment of patent right |
Owner name: NEW ANST COMMUNICATION CO.,LTD. Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINE CORP. Effective date: 20090911 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20090911 Address after: Massachusetts, USA Patentee after: Nuance Communications Inc Address before: American New York Patentee before: International Business Machines Corp. |
|
CX01 | Expiry of patent term |
Granted publication date: 20040204 |
|
CX01 | Expiry of patent term |