CN1889171B

CN1889171B - 用于识别字符/字符串的语音识别方法和系统

Info

Publication number: CN1889171B
Application number: CN2005100798258A
Authority: CN
Inventors: 汪浩; 王霞
Original assignee: Nokia China Investment Co Ltd
Current assignee: Lay (Shanghai) Trading Co., Ltd.
Priority date: 2005-06-29
Filing date: 2005-06-29
Publication date: 2010-09-01
Anticipated expiration: 2025-06-29
Also published as: CN1889171A

Abstract

本发明公开了一种用于识别字符/字符串的语音识别方法和系统，该语音识别方法包括：用户通过用户接口为选定的字符/字符串定义发音模型；将用户为选定的字符/字符串定义的发音模型记录在该语音识别系统的发音模型库中，作为用户自定义的发音模型；用户利用自定义的发音模型输入选定的字符/字符串；以及优先利用发音模型库中的自定义发音模型对输入的字符/字符串进行语音识别。本发明使用户能够对选定字符/字符串定义自己的发音方式，以方便用户进行语音输入并避免易混淆字符/字符串出现识别错误的可能性。

Description

用于识别字符/字符串的语音识别方法和系统

技术领域

本发明涉及语音识别技术，具体地，涉及用于识别孤立字符/字符串的语音识别技术。

背景技术

语音接口一直是移动终端应用技术的焦点领域。对于其移动电话的键盘不支持所有字符/字母集合的用户来说，或者对于不熟悉传统的键盘拼音或笔划输入方法的用户来说，语音识别可以解决输入难的问题。

通常的语音识别应用是依赖于说话人的语音识别应用，它需要冗长的训练过程，且只能支持10到20个语音标签。非特定人的语音识别技术是用户友好的，因为它不需要训练，并且与说话人无关，每个人都能够使用非特定人的语音识别应用进行语音输入。

发音模型是非特定人的自动语音识别(ASR)系统中的一个重要部分。它将语素转换为音素序列，这也称作文本到语音的映射(TTP)。TTP可以通过大型的发音字典、决策树、或有限规则集来实现，这依赖于语言的规则程度及ASR系统中的可用资源数量。在具有更多计算资源和存储资源的高端系统中，通常使用大型发音字典来实现。而在嵌入式系统中，像规则或决策树这样占用资源少的在线发音模型是最好的选择。对于像芬兰语、日语和汉语普通话这样相当规则的语言来说，TTP模块是非常简洁的，因为它可以由有限规则集来实现。但是，还有许多语言，英语就是最好的例子，它们的发音不能用规则集来准确表述。在这些情况下，通常使用像决策树之类的统计方法。

所有这些方案都是基于词典中所定义的规范发音的。但是，由于ASR应用和ASR用户数量的急速增长，规范发音模型正面临着许多来自各类终端用户的挑战，对于移动终端中的语音识别系统来说更是这样。这些挑战是：

1.口音变化：相对于西方语言来说，汉语的口音变化是巨大的，这是由于中文方言的语言变化而导致的。虽然大多数中国人都能够说普通话，但他们不是在音调上有问题，就是在某一发音对上有问题。有些人不能区分“zi”和“zhi”、“ci”和“chi”、“si”和“shi”；有些人不能区分“hui”和“fei”；有些人不能区分“ling”和“lin”，等等。因此，口音变化对非特定人的ASR系统呈现了极大的挑战。通常对于这些问题的解决方法是设法在训练数据库中覆盖尽可能多的语音，以使声学模型能够适应任何口音的变化。但是，这一方案的副作用是声学模型的不准确性和易混淆性。而在普遍适用性和准确性之间是很难找到平衡的。如果用户能够定义自己的发音，则问题就可以解决。

2.词汇混淆：中文是典型的音节语言，中文普通话中单音节的数量只有大约1300个，这远远少于西方语言。如果忽略声调，则基本音节只有400个，它们共享21个声母(在音节开始处的辅音)和38个韵母(在音节结尾处的元音和辅音)。因此，将会存在许多字共享相同的韵母的情况，如果它们的声母也相同的话，那将产生麻烦。例如，两个姓“张(zhang1)”和“章(zhang1)”共享相同的发音，这是语音识别应用在没有其他诸如语音模型的技术的帮助下根本处理不了的同音异义字情况。“张(zhang1)”、“长(zhang3)”、和“杖(zhang4)”共享相同的拼音基形，但是它们的声调彼此不同。在其他如泰语、越南语这样的带调语言中，还可以发现许多这样的例子。对于日语来说，虽然它不是带调语言，但是一个字的声调具有区别其意思的功能。在中文数字拨叫中，“一(yi1)”和“七(qi1)”经常引起麻烦。当存在例如“yi1 yi1 qi1 yi1”这样的一个数字串时，识别机可能会以“yi1 qi1”或“yi1 qi1 yi1”这样的结果来结束。在英文字母的识别中，那些“E”序列会产生问题。ASR系统很可能会在识别词汇表中易混淆的字时产生错误。如果能够改变这些易混淆项的发音，构建相对简化的词汇表，则对于ASR机来说是有益的。

3.多个发音：在汉语、日语和泰语中，存在很多具有不只一个发音的字符。汉语中的“长”在不同情形下可以发音为“zhang3”或“chang2”。在日语中，中文字符，称作Kanji，甚至具有根据不同情境的更多发音。这种现象在日语名字方面尤为突出。甚至本国人在向名字所有人确认之前或在没有平假名或片假名的帮助下，也不能确定怎样读一个Kanji。在泰语中，像汉语和日语那样，在音节和词之间没有分隔符，这样，音节界限的不明确将导致不同的发音。如果语音拨叫软件能够请求用户确认或自定义发音，用户的这一点很少的工作量，对语音拨叫软件来说将会有极大的帮助。

4.同音异义字：汉语比西方语言具有多很多的同音异义字，这是因为中文是一种音节语言。对于音节语言来说，音节数量是有限的，汉语中单音节的数量大约为400个，但是汉字的总数量却超过了10,000个。当中国人口头描述某一汉字时，他们通常会使用包含该汉字的短语，由于利用上下文信息，听到这个短语的人能够立刻从同音异义字中确定所描述的是哪个汉字，例如“文章”中的“zhang1”是“章”，不是“张”；而有“亻”的“bao3”是“保”，不是“宝”或“饱”。在日语中，情况是相同的。在泰语中，具有44个辅音，其中有些具有相同的发音。为了区分它们，每个泰语字母都有一个名字，这个名字是唯一的。

5.真实的电话簿的挑战：由于存在各类终端用户，实际生活中的电话簿具有很多规范发音模型不能轻松处理的字符串的缩写、特殊符号、特殊字或数字。例如，这些特殊符号可能是“:-x”、“～”、“@”、“`”、“.”、“＊”、“$”等。对于电话簿中的那些缩写，除了电话簿的所有者之外，几乎没有人能正确读出它们。用户使用缩写可能是由于：1.使用移动设备向电话本中输入对应的条目太麻烦；2.缩写对于电话簿的用户来说足够了，因为他/她知道缩写背后的含义。但是，对于语音拨叫软件来说，缩写却会引起麻烦，因为软件根本不知道其背后的真正含义和其全称。为了能够使用语音进行拨叫，或者用户必须改变他/她的习惯，或者语音拨叫软件必须能够与用户进行交互并允许用户能够根据他的习惯来定义某一字符的发音。

总之，虽然利用非特定人的语音识别技术输入单个音节是一个好的想法，但是由于音节常容易被混淆，识别性能并不理想，识别准确率只在80％之下。在移动电话中进行语音识别的情况下，这种识别的准确率甚至更低。此外，在有些情况下，这种语音识别只能给出拼音或发音形式的结果，用户仍然需要从几十个同音异义字中选择某一字符，这样识别效率相应受到影响。

发明内容

为了解决上述问题，本发明提出一种用于识别字符/字符串的语音识别方法和系统，以使用户能够对选定字符/字符串定义自己的发音方式，而这一发音方式不必与字典中所规定的规范发音相同，从而方便用户进行语音输入并避免易混淆字符/字符串的识别错误的可能性。

根据本发明的一个方面，提供了一种在语音识别系统中识别字符/字符串的方法，包括：用户通过用户接口为选定的字符/字符串定义发音模型；将用户为选定的字符/字符串定义的发音模型记录在该语音识别系统的发音模型库中，作为用户自定义的发音模型；用户利用自定义的发音模型输入选定的字符/字符串；以及优先利用发音模型库中的自定义发音模型对输入的字符/字符串进行语音识别。

优选地，所述将选定的字符/字符串的自定义发音模型记录在该语音识别系统的发音模型库中的步骤为：根据选定的字符/字符串的类型，将该字符/字符串的自定义发音模型记录在该语音识别系统的发音模型库中与该字符/字符串的类型相对应的自定义发音模型组中；还包括：定义该语音识别系统发音模型库中的各个自定义发音模型组在该语音识别系统中的应用范围；在所述进行语音识别的步骤之前还包括：该语音识别系统根据用户正在使用的应用，激活发音模型库中相应的自定义发音模型组。

优选地，所述将选定的字符/字符串的自定义发音模型记录在该语音识别系统的发音模型库中的步骤为：根据用户对选定的字符/字符串所使用的自定义发音模型的类型，将该字符/字符串的自定义发音模型记录在该语音识别系统的发音模型库中与该字符/字符串的自定义发音类型相对应的自定义发音模型组中；所述用户为选定的字符/字符串定义发音模型的步骤还包括：用户定义该选定的字符/字符串的自定义发音模型在该语音识别系统中的应用范围；在所述进行语音识别的步骤之前还包括：该语音识别系统根据用户正在使用的应用和选定字符/字符串的自定义发音模型的类型，激活发音模型库中相应的自定义发音模型。

优选地，所述字符/字符串的自定义发音模型是用户为该字符/字符串自定义的发音规则，自定义的发音规则包括：利用字符的结构信息的发音来代替该字符的发音；利用字符的构词信息的发音来代替该字符的发音；利用字符/字符串的上下文信息的发音来代替该字符/字符串的发音；利用缩略字符/字符串的发音来代替长字符串的发音；利用字/字串的发音来代替字母或符号的发音；以及利用发音不易混淆的字母/字母串的发音来代替发音易混淆的字母/字母串的发音。

优选地，该方法还包括：当该语音识别系统的发音模型库中的项数超过预定数量时，对该发音模型库进行压缩；所述字符/字符串包括中文字符、日文字符、泰文字符、拉丁字母、韩文、越南文、阿拉伯数字、特殊符号或菜单命令。

根据本发明的另一个方面，提供了一种用于识别字符/字符串的语音识别系统，包括语音识别机、声学模型模块、发音模型模块，还包括用户接口，用户通过该接口为选定字符/字符串定义发音模型；以及其中所述发音模型模块中还包括自定义发音模型库，用于动态记录用户为选定字符/字符串定义的发音模型。

优选地，所述自定义发音模型库按字符/字符串的类型分成不同的自定义发音模型组。

优选地，所述自定义发音模型库按字符/字符串的自定义发音模型的类型分成不同的自定义发音模型组。

优选地，该系统还包括：应用范围定义模块，用于指定自定义发音模型库中各个自定义发音模型组或自定义发音模型在该语音识别系统中的应用范围；发音模型激活模块，用于根据用户正在使用的应用和选定字符/字符串的自定义发音模型类型，激活所述自定义发音模型库中相应的自定义发音模型组或相对应的自定义发音模型。

根据本发明的另一个方面，提供了一种机器可读记录介质，其上存储有用于识别字符/字符串的程序，当由机器执行该程序时，可以使得该机器执行如下的步骤：用户通过用户接口为选定的字符/字符串定义发音模型；将用户为选定的字符/字符串定义的发音模型记录在该机器的发音模型库中，作为用户自定义的发音模型；用户利用自定义的发音模型输入选定的字符/字符串；以及优先利用发音模型库中的自定义发音模型对输入的字符/字符串进行语音识别。

本发明所提供的用于识别字符/字符串的语音识别技术，允许用户按自己的发音方式或习惯为选定的字符/字符串自定义发音模型，以便将利用规范发音模型进行识别存在困难的项的识别问题转换为对更加清楚明确和不易混淆项的识别，使得用户进行语音输入更加方便和个性化，语音识别系统更加用户友好。因为回避了易混淆字符可能出现的识别错误情况，所以使得语音识别的准确性大大提高。此外，利用自定义的缩略发音模型来代替长字符串或出现频率较高的字符串的发音模型，识别效率大大提高。而且，利用占用资源较小的自定义发音模型的方案来提高语音识别的准确性，省去了大型发音字典和持续语音识别技术的需要，这对于具有较低计算能力和较少存储资源的移动终端来说，是相当有价值的。综上所述，利用本发明的用于识别字符/字符串的语音识别技术，语音识别系统的性能得到了改善。

附图说明

相信通过以下结合附图对本发明具体实施方式的说明，能够使人们更好地了解本发明上述的特点、优点和目的。

图1是根据本发明一个实施例的用于在语音识别系统中识别字符/字符串的语音识别方法的流程图；

图2是图1中在发音模型中记录自定义发音模型的一种方式示意图；

图3是图1中在发音模型中记录自定义发音模型的另一种方式示意图；

图4是图1中进行语音识别步骤的过程示意图；

图5是根据本发明一个实施例用于识别字符/字符串的语音识别系统的框图；

图6是根据本发明一个实施例的在语音识别系统中发音模型模块的细节框图；

图7是根据本发明另一个实施例的在语音识别系统中发音模型模块的细节框图。

具体实施方式

下面结合附图对本发明的优选实施例进行详细的说明。

如前面所述，非特定人的语音识别系统的传统发音模型通常都使用大型的发音字典，这对于具有较少计算和存储资源的移动终端来说是不切实际的。此外，对于主要的亚洲语言来说，如果每个说话者都能用标准发音语言来语音输入的话，那么基于规则的规范发音模型将会很好的工作。但是，在实际中是很难达到这一理想条件的，因为音节语言中存在很多易混淆的音节，而且也存在地方口音变化的情况，这为规范发音模型的识别带来极大困难。此外，移动终端中很多基于个性化的应用是规范模型很难处理的，例如移动电话的电话簿中会存储很多用户定制的个性化内容，这对于其他人来说也是很难理解的，而对于规范发音模型来说将会更加困难。因此，本发明针对这些问题提出了新的识别语音的技术方案。

根据本发明的一个方面，提供了一种在语音识别系统中识别字符/字符串的语音识别方法。下面就结合附图对该方法进行详细说明。

图1是根据本发明一个实施例的在语音识别系统中识别字符/字符串的语音识别方法的流程图。本实施例中，用户可在希望对目标字符/字符串自定义发音模型的情况下启动图1所示的语音识别方法，也可在已存在自定义发音模型的情况下跳过定义发音模型部分，而直接从语音输入步骤启动图1所示的语音识别方法。

如图1所示，本方法在步骤105由用户为选定的字符/字符串定义发音模型。本步骤由用户根据需要来选择是否执行，当用户需要为某一字符/字符串定义自己的发音模型以便在以后使用该自定义的发音模型时，可向语音识别系统提出请求以使用系统中的这一功能。

在本步骤中，用户根据自己的发音方式或习惯来规定某一字符/字符串的发音模型，这一自定义的发音模型不必与字典中的发音相一致。其中的发音模型是用户为该字符/字符串自定义的发音规则。其中用户对某一字符/字符串自定义的发音规则可以包括：利用字符的结构信息的发音来代替该字符的发音，例如，利用“木子李的李”这一具有结构信息的发音模型来代替“李”这一具有多个易被混淆同音异义字的发音；利用字符的构词信息的发音来代替该字符的发音，例如，利用“文章的章”这一包含目标字符的构词短语的发音来代替“章”这一易被混淆字的发音；利用字符/字符串的上下文信息的发音来代替该字符/字符串的发音，例如，利用“堵车晚点到”这一具有情境信息的短语的发音来代替词“堵车”的发音；利用缩略字符/字符串的发音来代替出现频率较高的长字符串的发音，例如，可以用“办公地址”这一缩略表示的发音来代替较长且出现频率较高的详细字符串“和平里东街11号”的发音；利用字/字串的发音来代替字母或符号的发音，例如，可用字串“诺基亚”的发音来代替英文单词“nokia”的发音，或可用字串“好高兴”的发音作为规范发音模型无法处理的特殊符号“:-)”的发音；以及利用发音不易混淆的字母/字母串的发音来代替发音易混淆的字母/字母串的发音，例如，可用字母“z”发音来代替字母“zh”发音，这可由用户根据自己的口音来规定。总之，用户可以根据语音识别过程中的具体情况来设置个性化的发音模型，以利用对用户自己和对语音识别系统来说都很方便、清楚、不易混淆的发音模型进行语音输入，以便减少出现语音识别结果错误的情况。

接着，在步骤110，记录用户自定义的发音模型。本步骤中，语音识别系统将用户为选定的字符/字符串定义的发音模型记录在该语音识别系统的发音模型库中，作为用户自定义的发音模型。需要说明的是，该语音识别系统的发音模型库中，已嵌入了规范的发音模型，而用户自定义的发音模型是作为对规范发音模型的补充来存储的，但在语音识别过程中，用户自定义的发音模型具有比规范发音模型高的优先级，即优先利用发音模型库中用户自定义的发音模型来进行语音识别。

在一个实施例中，语音识别系统根据字符/字符串的类型，将发音模型库中的自定义发音模型进行分组，并定义各个自定义发音模型组在该语音识别系统中的应用范围。然后，根据用户选定的字符/字符串的类型，将用户对该字符/字符串的自定义发音模型记录在该发音模型库中与该字符/字符串的类型相对应的自定义发音模型组中。在这一分组方式的情况下，在以后的语音识别过程中，可以根据当前的应用来对相应的自定义发音模型组进行操作。图2示出了这种分组方式的一个例子，在该例中，语音识别系统的发音模型库包括规范发音模型部分和自定义发音模型部分，而自定义发音模型部分又被分为姓氏、经常使用但输入困难的汉字、经常使用的汉字/短语、以及数字/字母四个自定义发音模型组。这样，可以根据字符/字符串的类型将其自定义发音模型记录到相应自定义发音模型组中，例如选定字符是姓氏，则应将其自定义发音模型记录到姓氏自定义发音模型组中。在以后的应用中，可以根据应用类型来激活相应的自定义发音模型组。例如，当前用户正在使用电话本进行语音拨叫时，则系统会相应地激活姓氏自定义发音模型组；而用户在发送短消息时，系统会激活相应的经常使用的汉字/短语的自定义发音模型组。

在另一个实施例中，语音识别系统根据字符/字符串的自定义发音模型的类型，对发音模型库中的自定义发音模型进行分组。在这一自定义发音模型的分组方式下，在用户为某一字符/字符串定义发音模型时，应提示用户选择将要使用的发音模型类别，并选择该自定义发音模型在该语音识别系统中的应用范围，默认情况下的应用范围为整个语音识别系统，这样可以只在某一特定应用的情况下使用用户自定义的发音模型，而在其他应用中仍然使用规范发音模型进行语音识别，这增加了语音识别应用的灵活性。然后，系统根据用户选定的发音模型类别，将用户对该字符/字符串的自定义发音模型记录在该发音模型库中与该发音模型类别相对应的自定义发音模型组中。图3示出了这种分组方式的一个例子。在该例中，发音模型库中自定义发音模型部分被分为拉丁字母转换为语音、拉丁字母转换为汉字、汉字转换为语音、和汉字转换为汉字四个自定义发音模型组。这样，可以在用户定义发音模型时提示用户从这四组发音模型类别中选择一种将要使用的类别，然后系统根据该类别将用户的自定义发音模型记录到相应的自定义发音模型组中。例如用户要用“办公地址”来代替“和平里东街11号”，应选择汉字转换为汉字的自定义发音模型组。然后系统应将用户的自定义发音模型记录到这一自定义发音模型组中。

然后，在步骤115，用户语音输入字符/字符串。若用户已为需要输入的字符/字符串定义了发音模型，则可以根据已定义的发音模型语音输入该字符/字符串。当用户对需要输入的字符/字符串未定义发音模型时，则根据规范的发音模型语音输入该选定字符/字符串。

在步骤120，语音识别系统对输入的字符/字符串进行语音识别。图4是语音识别过程的示意图。在识别过程中，语音识别系统中发音模型库的自定义发音模型部分具有相对的优先级，即在进行语音识别时优先利用用户的自定义发音模型来进行语音识别。在用户未对所输入的内容定义发音模型时，语音识别系统利用发音模型库中的规范发音模型来进行语音识别。首先，系统根据用户在语音输入时所使用的应用来激活发音模型库中相应的自定义发音模型组或相应的自定义发音模型。该语音识别过程与常规的语音识别相同，而只在读取发音模型库时优先从相应的自定义发音模型组读取相应的自定义发音模型。

此外，本实施例中，当语音识别系统的发音模型库中自定义发音模型超过预定数量时，对该发音模型库进行压缩。但应该理解，用户的自定义发音模型只会占用移动终端相当少量的资源。

以上，结合附图对本发明实施例的在语音识别系统中识别字符/字符串的方法进行了描述。应当指出，虽然给出的实施例以中文语音识别的情况为例进行了描述，但应该理解，对于像日语、泰语这样的音节语言来说，本方法是同样适用的。

在同一发明构思下，根据本发明的另一方面，提供了一种用于识别字符/字符串的语音识别系统。下面就结合附图对该系统进行详细说明。

图5是根据本发明一个实施例的用于识别字符/字符串的语音识别系统的框图。本实施例的语音识别系统包括：语音识别机501、声学模型模块502、发音模型模块503、用户接口504、应用范围定义模块505和发音模型激活模块506。

其中，语音识别机501和声学模型模块502分别与传统语音识别系统中的语音识别机和声学模型模块相同，在此省略了对其细节的描述。

其中，用户接口504是本实施例的语音识别系统与用户进行交互的通道，用户通过该接口为选定字符/字符串定义发音模型。用户在需要为某一字符/字符串定义发音模型时，通过该接口启动与该语音识别系统的交互过程。此外，该系统还通过该接口在用户定义发音模型时为用户提供对发音模型类别的选择功能，即用户在定义发音模型之前可以先选择将要使用的发音模型类型。

在用户为某一字符/字符串定义了发音模型后，该发音模型作为自定义发音模型被存储到发音模型模块503中。

发音模型模块503除了包括规范发音模型库之外，还包括自定义发音模型库，自定义发音模型库用于动态记录用户通过用户接口为选定字符/字符串定义的发音模型。

在一个实施例中，发音模型模块503的自定义发音模型库按照字符/字符串的类型不同而分为四个不同的发音模型组：姓氏、经常使用但输入困难的汉字、经常使用的汉字/短语、以及数字/字母自定义发音模型组。图6示出了在这以分组方式下的发音模型模块的细节。在这一分组方式下，在用户定义了选定字符/字符串的发音模型之后，系统根据该字符/字符串的类型，将用户对该字符/字符串的自定义发音模型记录在该发音模型库中与该字符/字符串的类型相对应的自定义发音模型组中。例如，将用户为英文字母定义的发音模型记录在相应的数字/字母自定义发音模型组中。

在另一实施例中，发音模型模块503的自定义发音模型库按照字符/字符串的自定义发音模型的类型不同而分为四个不同的发音模型组：拉丁字母转换为语音、拉丁字母转换为汉字、汉字转换为语音、和汉字转换为汉字自定义发音模型组。图7示出了在这一分组方式下的发音模型模块的细节。在这一分组方式下，在用户为某一字符/字符串定义发音模型时，应提示用户选择将要使用的发音模型类别。然后，系统根据用户选定的发音模型类别，将用户对该字符/字符串的自定义发音模型记录在该发音模型库中与该发音模型类别相对应的自定义发音模型组中。例如，用户选择使用将拉丁字母转换为汉字类型的发音模型，则应将用户的自定义发音模型记录在相应的拉丁字母转换为汉字的自定义发音模型组中。

应用范围定义模块505用于指定用户的自定义发音模型在该语音识别系统中的应用范围。在图6所示的发音模型模块503的分组方式下，应用范围定义模块505自动为自定义模型库中的每个自定义发音模型组指定应用范围。在这一分组方式下，在该语音识别系统工作的过程中，可以根据用户所使用的具体应用对其中的某个自定义发音模型组进行整体操作。在用户进行语音识别时，发音模型激活模块506根据用户正使用的应用来激活与当前应用相应的自定义发音模型组。例如，用户启动了短消息功能，且短消息中经常需要加入用户的地址，则发音模型激活模块506会启动相应的经常使用的汉字/短语自定义发音模型组。在图7所示的发音模型模块503的分组方式下，应用范围定义模块505请求用户为当前正定义的发音模型指定应用范围，即该自定义发音模型对哪一应用起作用，且只有在用户使用这一应用时才由发音模型激活模块506激活该自定义发音模型。在默认情况下，当前正定义的自定义发音模型的应用为全局，即在语音识别系统进行语音识别时，对所有的应用均优先使用该发音模型来进行语音识别。在用户进行语音识别时，发音模型激活模块506根据用户正使用的字符/字符串的自定义发音模型类型来激活相应的自定义发音模型。

以上，结合附图对本发明实施例的用于识别字符/字符串的语音识别系统进行了描述。应当指出，虽然给出的实施例以中文语音识别的情况为例进行了描述，但应该理解，对于像日语、泰语这样的音节语言来说，本系统是同样适用的。

需要说明的是，本发明的方法还可以被嵌入到程序产品中，它包括能够实现本发明方法的所有特征，并且当其被载入机器系统时可以实现该方法。

Claims

1.一种在语音识别系统中识别字符/字符串的方法，其特征在于，该方法包括：

用户通过用户接口为选定的字符/字符串定义发音模型，其中，所述发音模型是用户为该字符/字符串自定义的发音规则；

将用户为选定的字符/字符串定义的发音模型记录在该语音识别系统的发音模型库中，作为用户自定义的发音模型；

用户利用自定义的发音模型输入选定的字符/字符串；以及

优先利用发音模型库中的自定义发音模型对输入的字符/字符串进行语音识别，

其中，所述自定义的发音规则包括：

利用字符的结构信息的发音来代替该字符的发音；

利用字符的构词信息的发音来代替该字符的发音；以及

利用字符/字符串的上下文信息的发音来代替该字符/字符串的发音。

2.根据权利要求1所述的在语音识别系统中识别字符/字符串的方法，其特征在于，所述将选定的字符/字符串的自定义发音模型记录在该语音识别系统的发音模型库中的步骤为：

根据选定的字符/字符串的类型，将该字符/字符串的自定义发音模型记录在该语音识别系统的发音模型库中与该字符/字符串的类型相对应的自定义发音模型组中。

3.根据权利要求2所述的在语音识别系统中识别字符/字符串的方法，其特征在于，该方法还包括：

定义该语音识别系统发音模型库中的各个自定义发音模型组在该语音识别系统中的应用范围。

4.根据权利要求2或3所述的在语音识别系统中识别字符/字符串的方法，其特征在于，在所述进行语音识别的步骤之前还包括：

该语音识别系统根据用户正在使用的应用，激活发音模型库中相应的自定义发音模型组。

5.根据权利要求1所述的在语音识别系统中识别字符/字符串的方法，其特征在于，所述将选定的字符/字符串的自定义发音模型记录在该语音识别系统的发音模型库中的步骤为：

根据用户对选定的字符/字符串所使用的自定义发音模型的类型，将该字符/字符串的自定义发音模型记录在该语音识别系统的发音模型库中与该字符/字符串的自定义发音类型相对应的自定义发音模型组中。

6.根据权利要求5所述的在语音识别系统中识别字符/字符串的方法，其特征在于，所述用户为选定的字符/字符串定义发音模型的步骤还包括：

用户定义该选定的字符/字符串的自定义发音模型在该语音识别系统中的应用范围。

7.根据权利要求5或6所述的在语音识别系统中识别字符/字符串的方法，其特征在于，在所述进行语音识别的步骤之前还包括：

该语音识别系统根据用户正在使用的应用和选定字符/字符串的自定义发音模型的类型，激活发音模型库中相应的自定义发音模型。

8.根据权利要求1所述的在语音识别系统中识别字符/字符串的方法，其特征在于，所述自定义的发音规则还包括：

利用缩略字符/字符串的发音来代替长字符串的发音；

利用字/字串的发音来代替字母或符号的发音；以及

利用发音不易混淆的字母/字母串的发音来代替发音易混淆的字母/字母串的发音。

9.根据权利要求1所述的在语音识别系统中识别字符/字符串的方法，其特征在于，该方法还包括：

当该语音识别系统的发音模型库中的项数超过预定数量时，对该发音模型库进行压缩。

10.根据权利要求1所述的在语音识别系统中识别字符/字符串的方法，其特征在于，所述字符/字符串包括中文字符、日文字符、泰文字符、韩语字符、越南语字符、拉丁字母、阿拉伯数字、特殊符号或菜单命令。

11.一种用于识别字符/字符串的语音识别系统，包括语音识别机、声学模型模块、发音模型模块，其特征在于，

该系统还包括用户接口，用户通过该接口为选定字符/字符串定义发音模型，其中，所述发音模型是用户为该字符/字符串自定义的发音规则；以及

所述发音模型模块中还包括自定义发音模型库，用于动态记录用户为选定字符/字符串定义的发音模型，

其中，所述自定义的发音规则包括：

利用字符的结构信息的发音来代替该字符的发音；

利用字符的构词信息的发音来代替该字符的发音；以及

12.根据权利要求11所述的用于识别字符/字符串的语音识别系统，其特征在于，所述自定义发音模型库按字符/字符串的类型分成不同的自定义发音模型组。

13.根据权利要求11所述的用于识别字符/字符串的语音识别系统，其特征在于，所述自定义发音模型库按字符/字符串的自定义发音模型的类型分成不同的自定义发音模型组。

14.根据权利要求12或13所述的用于识别字符/字符串的语音识别系统，其特征在于，该系统还包括：

应用范围定义模块，用于指定自定义发音模型库中各个自定义发音模型组或自定义发音模型在该语音识别系统中的应用范围。

15.根据权利要求14所述的用于识别字符/字符串的语音识别系统，其特征在于，该系统还包括：

发音模型激活模块，用于根据用户正在使用的应用和选定字符/字符串的自定义发音模型类型，激活所述自定义发音模型库中相应的自定义发音模型组或相对应的自定义发音模型。

16.一种在语音识别系统中识别字符/字符串的设备，其特征在于，该设备包括：

用于用户通过用户接口为选定的字符/字符串定义发音模型的装置，其中，所述发音模型是用户为该字符/字符串自定义的发音规则；

用于将用户为选定的字符/字符串定义的发音模型记录在该语音识别系统的发音模型库中作为用户自定义的发音模型的装置；

用于用户利用自定义的发音模型输入选定的字符/字符串的装置；以及

用于优先利用发音模型库中的自定义发音模型对输入的字符/字符串进行语音识别的装置，

其中，所述自定义的发音规则包括：

利用字符的结构信息的发音来代替该字符的发音；

利用字符的构词信息的发音来代替该字符的发音；以及

17.根据权利要求16所述的设备，其特征在于，所述用于将选定的字符/字符串的自定义发音模型记录在该语音识别系统的发音模型库中的装置包括：

用于根据选定的字符/字符串的类型，将该字符/字符串的自定义发音模型记录在该语音识别系统的发音模型库中与该字符/字符串的类型相对应的自定义发音模型组中的装置。

18.根据权利要求17所述的设备，其特征在于，该设备还包括：

用于定义该语音识别系统发音模型库中的各个自定义发音模型组在该语音识别系统中的应用范围的装置。

19.根据权利要求17或18所述的设备，其特征在于，该设备还包括：

用于在进行语音识别之前，该语音识别系统根据用户正在使用的应用，激活发音模型库中相应的自定义发音模型组的装置。

20.根据权利要求16所述的设备，其特征在于，所述用于将选定的字符/字符串的自定义发音模型记录在该语音识别系统的发音模型库中的装置包括：

用于根据用户对选定的字符/字符串所使用的自定义发音模型的类型，将该字符/字符串的自定义发音模型记录在该语音识别系统的发音模型库中与该字符/字符串的自定义发音类型相对应的自定义发音模型组中的装置。

21.根据权利要求20所述的设备，其特征在于，所述用于用户为选定的字符/字符串定义发音模型的装置还包括：

用于用户定义该选定的字符/字符串的自定义发音模型在该语音识别系统中的应用范围的装置。

22.根据权利要求20或21所述的设备，其特征在于，该设备还包括：

用于在进行语音识别之前，该语音识别系统根据用户正在使用的应用和选定字符/字符串的自定义发音模型的类型，激活发音模型库中相应的自定义发音模型的装置。

23.根据权利要求16所述的设备，其特征在于，该设备还包括：

用于当该语音识别系统的发音模型库中的项数超过预定数量时，对该发音模型库进行压缩的装置。