CN1989547A

CN1989547A - 在语音识别和文本－语音引擎中处理缩写词和数字

Info

Publication number: CN1989547A
Application number: CNA2005800250133A
Authority: CN
Inventors: 朱阿·伊索－西皮拉; 雅纳·叙翁托斯塔; 吉雷·泰恩
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2004-05-27
Filing date: 2005-05-25
Publication date: 2007-06-27
Also published as: US20050267757A1; WO2005116991A1; WO2005116991A8

Abstract

所公开的方法用于检测缩写词和数字以及用于发现它们的发音的方法。该方法可以结合为自动语音识别（ASR）和文本－语音（TTS）系统的一部分。此外，该方法可以为多语言自动语音识别（ML－ASR）和TTS系统的一部分。在语音识别和文本-语音系统中处理缩写饲的方法可包括从文本中检测缩写词，基于该文本中的非缩写词单词标识该文本的语言,以及在缩写词发音生成中利用该标识的语言以为该检测的缩写词生成发音。

Description

在语音识别和文本-语音引擎中处理缩写词和数字

技术领域

本发明一般涉及在电信系统中的语音识别和文本-语音(TTS)合成技术。更特别地，本发明涉及在电信系统中的多语言语音识别和文本-语音引擎的缩写词和数字处理。

背景技术

文本-语音(TTS)转换器被用来改善对电存储的信息的访问。传统的TTS转换器仅可以从符合语言的拼写和语法习惯的文本中产生可理解的语音。例如，大多数转换器不能可理解地阅读典型的电子邮件(e-mail)消息。不同于认真编辑的文本，电子邮件消息、电话目录条目和日历约会(例如)经常包含马虎的、拼写错误的文本，这些文本具有随机使用的语言格、空格、字体、标点、情绪指示符以及工业专用缩略语和缩写词的优势。为使文本-语音转换可用于这样的应用，必须实施灵活和复杂的规则以智能地解释甚至是最恶劣地形成的文本消息。

在非特定语者人名拨号(SIND)系统中，电子电话目录或电话号码簿内容可以通过无需用户训练的语音或语音标签(voice-tagging)来使用。因此，整个电话号码簿的内容可以立即通过语音使用。与例如蜂窝电话的通信设备相关联的电子电话号码簿的文本内容预先可能是未知的。此外，不同的用户可以例如具有在电话目录中标注/指示某些事情的各种方案。许多人在电话号码簿中使用缩写词、数字或特殊字符使得电话号码簿条目较短或消除电话号码簿条目中的含糊不清。如果所有的用户都以电话号码簿的方式存储名称，则SIND引擎的工作将大为容易。遗憾地，在实际上并没有遵循这样的实践。

当用户向电话号码簿输入缩写词时，他或她可以将缩写词如其拼写地逐字母地发音或如单词一样地发音。通常，没有简单的解决方案来从正常的单词中检测缩写词，尤其是在多语言系统中。

传统的自动语音识别(ASR)和文本-语音(TTS)系统使用查找表发现单词的发音。词汇单词和它们的发音可以存储在查找表中。类似地，可以构建另一个查找表以就缩写词发现它们的发音。

直接的查找表途径有几个缺点。对于由多语言词汇项目组成的词汇，缩写词的发音取决于语言。目前，系统能够处理由单词组成的文本输入。然而，已知的系统不能处理缩写词和数字。

Malsheen等人的美国专利No.5,634,084描述了为文本-语音阅读器扩展了的缩写词、特殊单词或标签的方法。Malsheen的专利描述了使用特殊的查找表以生成发音。然而，如同其他查找表解决方案，Malsheen的专利所描述的系统不能处理多语言词汇项目。

因此，需要一种在发现缩写词的发音之前决定语言的方法。同样，期望区分规则的单词的发音的生成与缩写词的发音的生成。另外，需要依赖于语言的表以发现缩写词的发音。

发明内容

一般地，本发明涉及用于检测缩写词和数字以及用于发现它们的发音的方法。该方法可以结合为自动语音识别(ASR)和文本-语音(TTS)系统的一部分。此外，该方法可以为多语言自动语音识别(ML-ASR)和TTS系统的一部分。

在文本-音素(text-to-phoneme)(TTP)映射中用于检测缩写词和用于发现它们的发音的示例性方法可以是语音用户接口软件的一部分。示例性ML-ASR引擎或系统可以包括自动语言标识(LID)、发音建模和多语言声学建模模块。为引擎以文本形式给出词汇项目。首先，基于词汇项目的书写表示，LID模块标识语言。一旦确定了语言，将应用适当的TTP建模方案以获得与词汇项目相关的音素序列。最后，每个词汇项目的识别模型都构成为多语言声学模型的拼接。使用这些模块，识别器可以自动处理多语言词汇项目，而无需用户的任何协助。

TTP模块可以在ASR以及TTS二者中为词汇项目提供音素序列。TTP模块可以处理由用户提供的所有种类的文本输入。文本输入可以包括单词、数字和缩写词。该方法可以检测缩写词并且发现单词、缩写词和数字序列的发音。

一个示例性的实施例涉及一种在语音识别和文本-语音系统中处理缩写词的方法，该方法包括从文本中检测缩写词，基于该文本中的非缩写词单词标识该文本的语言，以及在缩写词发音生成中利用该标识的语言以为该检测的缩写词生成发音。

另一个示例性的实施例涉及一种用于将语音识别和文本-语音应用于缩写词的设备，该设备包括：语言标识符模块，用于从该文本中标识文本和词汇项目的语言；文本-音素模块，用于为标识的词汇项目提供音素序列；以及处理器，用于执行指令，以基于该所标识的文本的语言，使用来自该文本-音素模块的该音素序列，构成文本-语音信号。

另一个示例性的实施例涉及一种用于将语音识别和文本-语音应用于缩写词的系统，该系统包括：语言标识符，用于标识包括多个词汇项目的文本的语言；词汇管理器，用于将该词汇项目分离为单个单词并且用于在该词汇项目中检测缩写词；以及文本-音素(TTP)模块，用于生成该词汇项目的发音，包括缩写词和数字序列的发音。

再一个示例性的实施例涉及一种计算机程序产品，包括计算机代码，以便从包括缩写词和非缩写词的文本检测缩写词并且标注该检测的缩写词，基于非缩写词单词标识该文本的语言，并且在缩写词发音生成中使用该语言。

附图说明

图1为描述在发现缩写词的发音中所执行的操作的流程图；

图2为描述多语言自动语音识别系统的至少一部分的示图；

图3为描述在生成具有缩写词和数字的词汇的发音中的示例性操作的流程图；以及

图4为在为缩写词提供文本-语音和自动语音识别的系统中操作的一般流程图。

具体实施方式

在描述用于生成缩写词和数字的发音的示例性实施例之前，给出了某些定义。“单词”是由空白的空格字符分开的字母或字符的序列。“名称标签”是单词的序列。“缩写词”是由空格从其他单词分开的大写字母的序列。缩写词(通常)是通过提取以说话中每个单词的第一个字母并将它们彼此拼接而生成的。例如，IBM代表International BusinessMachines(国际商用机器)。

“数字”序列是数字组。它可以由空格从其他单词分开或它可以嵌入在字母序列中(在开始、中间或结尾处)。“缩略语”是后面带点(dot)的字母的序列。同样，存在源于特殊拉丁语的缩略语：E.g.代表“例如”，i.e.代表“即”，jr.代表“小”。“词汇项目”由单词、缩写词和数字的序列组成。

在此描述的语音识别系统中的词汇由条目组成，单个条目由单词、缩写词和数字序列组成。条目可以是大写和小写字符、数字和其他符号的混合并且其包含至少一个字符。最简单的条目之一是象包含人的名和姓的“Timo Makinen”。另一个条目可以象“Marti Virtanen GSM”。在此示例中，在条目中的最后的实体是缩写词，因为其都是大写的。当用户输入具有大小写字符混合的条目时可以区分缩写词与其余单词。因此，规则的单词优选地包含小写字符。如果名称标签全用大写字母书写，则假设其不包含任何缩写词。

在此描述的多语言ASR和TTS引擎覆盖了如中文或韩文的亚洲语言。在这样的语言中，单词由符号表示并且不需要处理缩写词，但是可能需要处理数字序列。

条目的另一个示例是“Bill W.Smith”。在该条目中，有一个由单个字母和点符号组成的实体。带点或不带点的单个字母被假设为缩写词。

原则上，某些缩写词，如“SUN”(Stanford University Network)可以读作单词。某些其他的缩写词，如GSM不能读作单词。作为替代，它们是逐字母地拼写的。为了描述的目的，假设所有的缩写词都逐字母地拼写。条目还可以包含如“123”的数字序列。象对待缩写词一样对待数字序列，这些数字序列被从条目的其余部分隔离并且被分开处理。该数字序列可以被读作“壹佰贰拾叁”，或者它们可以被逐位地拼写为“壹、贰、叁”假设数字序列逐位地拼写。这样的假设只是说明性的。

另外，除字符符号和数字之外，条目可以包含完全不发音的其他符号(如“Bill W.Smith”中的点)。非字符和非数字符号在生成发音之前被从条目中删除。

为描述示例性实施例的目的，做出以下假设：

-缩写词书写为大写字母

-缩写词逐字母地拼写

-将各字母的拼写存储在感兴趣的语言组的专用语言查找表中

-数字序列逐位地拼写

-将各数字的拼写存储在感兴趣的语言组的专用语言查找表中

示例性实施例在词汇的条目中检测缩写词并且在多语言语音识别引擎中生成针对缩写词的发音。生成针对缩写词的发音的途径利用了用于检测缩写词的算法。

图1说明了根据示例性实施例在发现缩写词的发音中所执行的操作的流程图，取决于实施例，可以执行另外的、较少的或不同的操作。

在操作12中，检测缩写词。缩写词可以通过标识具有多个大写字母的单词得以检测。在操作14中，检测的缩写词被标注。例如，标注可以包括向检测的缩写词和数字添加特殊的标注符(例如，“<”和“>”)，以便由语言标识符和文本-音素(TTP)模块进一步处理。例如，短语JohnGSM将被转换成john<GSM>。

如果名称标签中只有一个单词，那么它不可能是缩写词。如果所有的单词都是大写字母，则不存在缩写词，因为假设用户用大写字母输入缩写词。如果至少一个单词是全大写字母，所有那些单词都设置为缩写词。具有单个字母并可能跟随有点字符的单词，被认为是缩写词，例如，John J.Smith＝>john<J>smith。

在操作16中，标识文本的语言。语言可以是英语、西班牙语、芬兰语、法语或任何其他语言。语言的标识是使用了可以与包含在表中的文本中的非缩写词单词或者是通过使用对其他语言有标识力的方法。在操作18中，使用在操作16中标识的语言提供对所检测的和标注的缩写词的发音。该发音可以例如从依赖于语言的缩写词或字母表提取。

图2说明了多语言自动语音识别系统，包括语言标识符(LID)模块22、词汇管理(VM)模块24和文本-音素(TTP)模块26。自动语言识别系统还包括声学建模模块23和识别模块25。LID模块22基于每个词汇项目的文本形式标识其语言。

在示例性实施例中，缩写词的语音的生成要求LID模块22、TTP模块26和词汇管理(VM)模块24之间的相互作用。词汇管理模块24是TTP模块26和LID模块22的集线器，并且用作存储TTP模块26和LID模块22的结果。TTP模块26和LID模块22的处理假设单词以小写字符书写并且缩写词以大写字符书写。如果任何需要进行转换的情况下，则TTP模块22为它们提供覆盖目标语言的全局字母表。TTP模块22在生成发音之前，自动地将非缩写词单词转换为小写。缩写词在VM模块24中被转换为大写以匹配于预先定义的拼写发音规则。

在处理过程中，VM模块24将词汇中的条目拆分为单个单词。因为VM模块24具有关于词汇中的条目的全部信息，所以它实现了用于检测缩写词的逻辑。检测算法是基于大写单词的检测。因为TTP模块26存储了目标语言的全局字母表以及依赖于语言的字母表组，所以VM模块24利用TTP模块26来发现大写单词。基于检测逻辑，如果条目中的单词识别为缩写词，则将前缀“<”置于缩写词的前端并且将后缀“>”置于缩写词的后端。这将使得LID模块22和TTP模块26能够区分规则单词与缩写词。

在条目被分解为单个的单词并且缩写词被隔离之后，将它们中的单个的单词传送到LID模块22。LID模块22基于在条目中的规则单词为名称标签分配语言标识符。LID模块22忽略缩写词和数字序列。将所标识的语言标识符附加到缩写词和数字序列。

在将语言标识符分配给条目之后，VM模块24调用TTP模块26以便为条目生成发音。TTP模块26用例如查找表、发音规则或神经网络(NN)的TTP方法为规则单词生成发音。缩写词的发音是从依赖于语言的缩写词/字母表提取的。数字序列的发音通过拼接单个数字的发音构成。如果条目中有不是字符或数字的符号，则它们在TTP算法的处理过程中被忽略。

图3说明了词汇条目的发音的生成。在操作32中，VM模块从文本加载条目。在操作34中，VM模块将词汇中的条目拆分为单个的单词。这个分割或分离可以通过发现文本字符之间的空格来完成。在操作36中，VM模块实现检测逻辑以隔离缩写词并且为缩写词放置前缀“<”和后缀“>”。至少有一个实施例具有利用TTP模块检测作为缩写词的大写单词的检测逻辑。

在操作38中，VM模块将处理的条目传送到发现条目语言标识符的LID模块。LID模块忽略缩写词和数字串。在操作40中，VM模块将处理的条目传送到生成发音的TTP模块。TTP模块应用依赖于语言的缩写词/字母表和数字表以发现缩写词和数字序列的发音。对于其余的单词，使用非缩写词TTP方法。忽略不熟悉的字符和非数字符号。

参考图2和图3，模块之间的计算的区分不是必需的，计算可以重新分配给另一个模块定义。在这些示例性实施例中，发音的生成依赖于语言专用的缩写词和数字表。

图4说明了根据示例性实施例为缩写词提供文本-语音和自动语音识别的系统中操作的一般流程图。取决于实施例，可以执行另外的、较少的或不同的操作。在操作42、44和46中，系统检测和标注检测的缩写词，基于非缩写词单词标识文本的语言，并且在缩写词发音生成中使用该语言。缩写词的检测可以基于特定规则，例如缩写词使用所有的大写字母或缩写词是没有在专用语言字典文件中发现的单词或是带有特殊字符标签的单词(例如，-、*、#)。缩写词/字母表的发音表用于生成这些特殊情况的发音。

尽管已经描述了本发明的几个实施例，但应当理解，本发明所属领域技术人员将可以做出修改和变化。例如，虽然通过标识大写字母检测缩写词，但也可以利用其他标识习惯。因此，本说明书所附权利要求书试图准确地限定本发明。

Claims

1.一种在语音识别和文本-语音系统中处理缩写词的方法，该方法包括：

从文本中检测缩写词；

基于该文本中的非缩写词单词标识该文本的语言；以及

在缩写词发音生成中利用该标识的语言以便为该检测的缩写词生成发音。

2.根据权利要求1所述的方法，其中该缩写词基于大写字母被检测。

3.根据权利要求1所述的方法，其中在缩写词发音生成中利用该标识的语言以便为该检测的缩写词生成发音包括：获得与该检测的缩写词相关联的音素序列。

4.根据权利要求3所述的方法，进一步包括使用声学模型构成该检测的缩写词。

5.根据权利要求1所述的方法，进一步包括标注该检测的缩写词。

6.根据权利要求5所述的方法，其中标注包括在该检测的缩写词之前添加<标注符并且在该检测的缩写词之后添加>标注符。

7.根据权利要求1所述的方法，其中从文本中检测缩写词包括从文件加载条目。

8.一种用于将语音识别和文本-语音应用于缩写词的系统，该系统包括：

语言标识符，用于标识包括多个词汇项目的文本的语言；

词汇管理器，用于将该词汇项目分离为单个单词并且用于在该词汇项目中检测缩写词并且用于保存该单词的发音；以及

文本-音素(TTP)模块，用于生成该词汇项目的发音，包括缩写词和数字序列的发音。

9.根据权利要求8所述的系统，其中该语言标识符、词汇管理器和TTP模块被集成到共用计算机软件代码。

10.根据权利要求8所述的系统，其中使用检测逻辑检测缩写词并且将其进行标注以从非缩写词分离出缩写词。

11.根据权利要求10所述的系统，其中该检测逻辑基于大写字母标识缩写词。

12.根据权利要求8所述的系统，其中该语言标识符从该文本中的非缩写词单词标识该文本的语言。

13.根据权利要求8所述的系统，其中文本-音素(TTP)模块使用依赖于语言的字母表为该词汇项目生成发音。

14.一种用于将语音识别和文本-语音应用于缩写词的设备，该设备包括：

语言标识符模块，用于从该文本中标识文本和词汇项目的语言；

文本-音素模块，用于为标识的词汇项目提供音素序列；以及

处理器，用于执行指令，以基于该所标识的文本的语言，使用来自该文本-音素模块的该音素序列，构成文本-语音信号。

15.根据权利要求14所述的设备，其中该处理器在该文本-语音信号的构成中使用多语言声学建模。

16.根据权利要求14所述的设备，其中该文本的语言基于来自该文本的非缩写词词汇项目得以标识。

17.一种计算机程序产品，包括：

计算机代码，以便：

从包括缩写词和非缩写词的文本中检测缩写词并且标注该检测的缩写词；

基于非缩写词单词标识该文本的语言；以及

在缩写词发音生成中使用该语言。

18.根据权利要求17所述的计算机程序代码，其中该缩写词的检测是基于包含在存储器中的特定的规则。

19.根据权利要求17所述的计算机程序代码，其中缩写词发音表被用于生成发音。

20.根据权利要求17所述的计算机程序产品，其中在该缩写词的开始处使用<并在该缩写词的结尾处使用>，以对该缩写词进行标注。