CN101901599B

CN101901599B - 不同语言的现有语音识别方案的快速原形化的系统和方法

Info

Publication number: CN101901599B
Application number: CN2010101828285A
Authority: CN
Inventors: S·K·科帕拉普; I·A·谢赫; A·S·法兰德
Original assignee: Tata Consultancy Services Ltd
Current assignee: Tata Consultancy Services Ltd
Priority date: 2009-05-19
Filing date: 2010-05-19
Publication date: 2013-08-28
Anticipated expiration: 2030-05-19
Also published as: US8498857B2; US20100299133A1; CN101901599A

Abstract

公开一种将源语言的现有语音识别方案移植到目标语言的系统和方法。本发明设想的系统能够将源语言的工作语音识别方案移植到目标语言的工作系统，由此最小化开发过程和重用现有语音识别方案，以识别多种语言。

Description

不同语言的现有语音识别方案的快速原形化的系统和方法

技术领域

本发明涉及语音识别领域。

背景技术

说明书中使用的术语的定义

以下是本领域已知的并在说明书中使用的术语的定义：

●字素(grapheme)：是书面语言的基本单位。

●音素(phoneme)：是声音的最小部分单位，其用以形成话语之间的有意义的对比。

●翻译(translate)：是文本的意义的理解以及用另一语言传达相同消息的同等文本的后期制作。

●音译(transliterate)：是以系统化方式将文本从一个书写系统转换成另一书写系统的处理。

如今，为了提高客户服务，交互技术扮演了关键角色。如IVR(交互式语音应答)交互技术接受口头的用户输入和/或请求，并响应于用户的请求提供预记录的或动态生成的输出。

典型地，IVR应用使用语音识别系统识别并将口语单词或口语单词序列转换成机器可读形式，用于进一步处理和/或应答用户查询。典型地，这些语音识别系统被部署用于特定语言，因此当必须部署相同系统用于不同语言时，必须移植(port)现有系统，使其能够理解新语言，这等同于建立新的应用。由于以下原因，大部分现有系统以英语来部署：

(a)语言的更广泛的可接受性；以及

(b)英语的信息和其他资源的随时性。

然而，随着在本国语言并非英语的各个国家中基于语音的方案的可接受性增加，急切地需要将源语言(例如英语)的基于现有语音识别的应用转换成目标语言(例如印地语)。

典型地，基于现有语音识别的方案需要以下组件：

●具有用于声学识别的声学模型的语音识别(SR)引擎；

●必须识别的单词的发音词典；

●语音文法或语言模型；以及

●用于产生来自用户的响应的语音提示，即，提示用户提交他们的查询。

前三个组件在一起协作将口语语音转换成文本，而第四个组件帮助基于现有语音识别的方案与用户交流。典型地，从源语言将基于现有语音识别的方案转换成目标语言需要将这四个组件移植到目标语言。

但是，如果以目标语言适当地实现了其他两个组件(即发音词典和语音文法)，则为了特定语言调整声学模型，并使用声学模型以满意的精度识别另一语言的语音。

实质上，从一个语言将基于现有语音识别的方案转换成另一语言必须创建用于目标语言的新的发音词典，其包含基于语音识别的方案要识别的所有单词以及目标语言的语音文法模型。此外，必须将源语言的提示转换成目标语言的提示。

用于将源语言的基于现有语音识别的方案移植成目标语言的这些修改需要等同于建立完全新的基于语音识别的方案的工作量。在现有技术中存在各种尝试，以开发能够容易地将应用从一个语言移植成另一语言的系统。

具体地，美国专利7406417公开了一种调节用于自动语音处理的数据库的方法。该文档公开了一种神经网络，其可被训练以借助于通过自动匹配字素和音素所生成的数据库来合成或识别语音。首先，对于具有相同数目的字素和音素的单词来匹配字素和音素。接下来，在将字素与先前音素组合的一系列步骤中，对于具有比音素更多字素的单词来匹配字素和音素。然后，对于具有比音素更少字素的单词来匹配字素和音素。在每个步骤之后，清除在先前步骤中做出的较少的和未成功的匹配。在这个处理完成之后，可使用数据库来训练神经网络和字素，或者可借助于训练的人工神经网络将文本的字母转换成相应的音素。

此外，美国专利申请2005197835公开了一种方法和装置，用于生成由非本国演讲者发出的外语单词的演讲者独立语音识别的声学模型。该文档公开了自动生成的并利用来自本国语言和外国语言的训练声学模型的用于语音识别的声学模型。利用音素到音素的映射来实现通过本国语言音素对外国语言单词的描述。使用音素到音素的映射来训练外国语言单词，这通过本国语言音素以外国语言语音素材来描述。

创建新的音素词典，其包含外国语言单词以及由本国语言音素转录的本国语言单词。可利用外国语言和本国语言训练素材导出健壮的本国语言声学模型。可使用所述映射来训练字素到音素转换器(即外国语言到本国语言)，以生成对于新的外国语言单词的本国语言发音。

此外，美国专利申请2009150153公开了使用声学数据的字素到音素的转换。该文档公开了使用声学数据来改进用于语音识别的字素到音素的转换，例如用以在语音拨号系统中更精确地识别口语名称。描述了声学和音素的联合模型(声学数据、音素序列、字素序列以及音素序列和字素序列之间的排列)，使用声学数据通过适配字素模型参数的最大可能性训练和区别性训练对所述模型进行重新训练。还描述了用于接收的声学数据的字素标签的非监督集合，从而自动获得可在重新训练时使用的大量实际采样。可过滤出不满足信任阈值的语音输入，而不被重新训练的模型使用。

此外，世界知识产权组织文档No.2009/150591公开了一种方法和设备，用于生成主题特定的词汇表和计算机程序产品。该文档公开了一种方法，用于从公用文本而计算机辅助生成主题特定的词汇表。在该文档中公开的步骤如下：语言和主题特定文本的自动选择；词汇表项目的自动生成，其每个包括基于所选文本的单词以及标音；采用词汇表项目的基于字素结构的分类来实现词汇表项目的自动生成，以根据多个预定类型来分类词汇表项目；词汇表项目类型特定的字素到音素的转换；以及获得用于单词的标音。

然而，上述文档不适于在现有部署中通过最小的改变将现有语音识别方案移植到多个目标语言。因此，需要一种系统，通过重用现有应用的语音识别引擎使得现有应用被快速移植和/或修改，从而以多个目标语言工作。

发明内容

本发明的目的在于提供一种系统，能够将现有语音识别方案快速移植到以另一目标语言工作。

本发明的另一目的在于提供一种系统，用于精确的源到目标语言词典和语音文法音译和翻译。

本发明的另一目的在于提供一种系统，其自动生成目标语言单词的源语言音素发音。

一种用于移植源语言的语音识别方案以识别目标语言的系统，所述语音识别方案包括语音识别引擎、源语言的发音词典、源语言的语音文法文件、源语言的提示，所述系统包括：

●词典转换装置，适于将源语言的发音词典转换成在目标语言中使用的等同词典，所述词典转换装置具有：

i.第一数据库，用于存储与目标语言的相似单词相应的源语言的单词的词典；

ii.与所述第一数据库协作的翻译装置，适于接收源语言的每个单词，以及提供目标语言的其相应单词；

iii.音译装置，适于接收所述翻译的单词并将其映射至源语言字素；

iv.字素到音素转换装置，适于针对所述源语言字素中的每个生成源语言音素，以获得源语言的目标语言单词的音素发音；

v.查询表生成装置，适于从所述字素到音素转换装置接收源语言的音译的目标语言单词，以及还接收所述单词的等同音素发音，并且制备查询表；

●文法转换装置，适于修改源语言的语音文法文件，以处理目标语言的基于自由语音的语音识别方案，所述文法转换装置具有：

i.翻译装置，适于接收源语言的语音文法文件，以及将所述文法文件翻译成目标语言；

ii.音译装置，适于接收所述翻译的文法文件，以及将所述翻译的文法文件音译成源语言，以及用源语言提供针对目标语言的音译文法文件；

●提示生成装置，适于将源语言的话音提示转换成目标语言，所述提示生成装置具有：

i.翻译装置，适于将可包含在源语言的话音提示中的单词转换成目标语言的单词；

ii.识别装置，适于使用所述词典转换装置的所述查询表中的单词以识别与可包含在目标语言的提示中的单词相应的音素发音，并提供可包含在源语言的提示中的单词的音素序列；

iii.文本到语音转换装置，适于接收所述单词的音素序列，并生成可包含在源语言的提示中的单词串；

iv.文法调节装置，适于接收所转换的可包含在源语言的提示中的单词串，并根据针对目标语言的音译文法文件设置单词，以及提供基于文法修改的文本的提示；

v.语音生成装置，适于接收所述基于文法修改的文本的提示，以及针对所述基于文法修改的文本的提示生成基于语音的输出；

●与所述提示生成装置协作的提示装置，适于输出与目标语言的提示相应的所生成的语音，以引导用户提交他们的查询；

●接收装置，适于从用户接收目标语言的基于语音的查询，所述查询适于被接收，并通过所述语音识别引擎使用针对目标语言的所述查询表和所述音译文法文件转换成源语言文本和源语言表示；

●处理装置，适于处理所述源语言文本和执行预定操作，并进一步适于提供处理的输出；

●编译装置，与所述词典转换装置、所述语音文法转换装置、所述提示生成装置、和所述处理装置协作，以及适于编译目标语言的最终输出；以及

●回放装置，适于播放目标语言的所述最终输出。

根据本发明，提供一种用于移植源语言的语音识别方案以用目标语言工作的方法，所述方法包括以下步骤：

●修改源语言的发音词典，以提供目标语言的发音词典；

●修改源语言的语音文法文件，以提供目标语言的语音文法文件；

●转换源语言的话音提示，以提供目标语言的话音提示；

目标语言方案然后：

●提示用户用目标语言提交他们的查询；

●从用户接收目标语言的基于语音的查询；

●使用目标语言的修改的发音词典将接收的查询转换成目标语言；

●查询与识别的目标语言文本等同的源语言文本；

●处理基于转换的源语言文本的查询，以执行预定操作和提供处理的输出；以及

●编译目标语言的最终输出；以及

●播放目标语言的所述最终输出。

典型地，修改源语言的发音词典，以提供目标语言的发音词典的步骤包括以下步骤：

●提供第一数据库，其用于存储源语言的单词的词典；

●翻译源语言的每个单词，并提供目标语言的其相应单词；

●将所述翻译的单词中的每个音译成源语言字素；

●针对所述源语言字素的每个生成源语言音素序列，以获得源语言的目标语言单词的音素发音；以及

●通过将目标语言的音译单词与其等同的音素发音映射来创建目标语言的单词的查询表。

优选地，修改源语言的语音文法文件，以提供目标语言的语音文法文件的步骤包括以下步骤：将源语言的语音文法文件翻译成目标语言，以及将所述翻译的语音文法文件从目标语言音译成源语言。

此外，将源语言的话音提示转换成目标语言的步骤包括以下步骤：

●将源语言的话音提示翻译成目标语言；

●识别与可包含在目标语言的提示中的单词相应的音素发音，以及提供可包含在源语言的提示中的单词的音素序列；以及

●生成针对单词的所述音素序列的语音，以及生成针对单词提示的所述音素序列的基于语音的输出。

附图说明

现在将参照附图描述本发明，其中：

图1示出根据本发明的提出的系统的概况及其具有现有语音识别方案的接口；

图2示出根据本发明的词典转换装置的示意图；

图3示出根据本发明的文法转换装置的示意图；

图4示出根据本发明的提示生成装置的示意图；以及

图5示出根据本发明的将语音识别方案从源语言移植到目标语言的方法的流程图。

具体实施方式

典型地，针对特定源语言(典型地英语)建立传统的语音识别方案，然而，随着在本国语言不同于源语言的各个国家中基于语音的方案的可接受性增加，需要以最小开发工作量将以源语言工作的现有语音方案转换成目标语言。为了克服现有语音识别方案的这些缺点，本发明设想从源语言的基于现有语音识别的方案建立目标语言的语音识别系统。

具体地，本发明所设想的系统能够将源语言的任意现有语音识别方案移植到目标语言，因此最小化了在开发过程中涉及的时间和工作量，并且能够重用现有语音识别方案组件。

参照附图，图1示出将现有语音识别方案从语言移植到目标语言的本发明的概况及其具有源语言的现有语音识别方案的接口。

建立具有一个或多个调用流单元(一般地，通过图1的标号10代表)的传统的语音识别应用。

每个传统的调用流单元10包括执行以下功能的模块：

●由提示装置12执行的提示用户说话/提交他们的请求/查询；

●由接收装置14执行的接收用户请求；

●由语音识别引擎16执行的识别用户请求；

●由处理装置18执行的处理所识别的文本，以应答用户请求；

●由编译装置20执行的编译向用户提供的结果；以及

●由回放装置22执行的向用户提供响应。

典型地，所识别的文本的处理的步骤包括两种类型数据的处理：

1.语音(声学)数据；以及

2.文本数据。

在与用户交互时使用语音数据，而为了处理从语音数据提取的信息内部处理文本数据。

为了将这样的现有语音识别方案移植到目标语言，本发明提出了通过采用以下步骤移植现有方案：

●保持文本数据以及由现有语音识别调用流单元对其进行的处理不变；

●保持(源/英语语言的)语音数据的文本数据表示不变，而不管目标语言；以及

●修改源语音识别资源(即音素词典和语音文法)，以处理目标语言。

根据本发明，参照图1，调用流单元与应用数据24一起在目标语言中保持不变。由框100表示本发明所执行的修改。

为了有效地将任意现有语音识别方案移植到目标语言，本发明提出修改音素词典、语音文法和话音提示。

系统100包括用于将现有语音识别方案从源语言移植到目标语言的以下组件：

●词典转换装置102，适于将源语言的发音词典转换成目标语言的等同发音词典；

●文法转换装置104，适于转换源语言的语音文法文件，以处理目标语言的基于自由语音的语音识别方案；以及

●提示生成装置106，适于将源语言的话音提示转换成目标语言。

本发明的上述组件结合现有语音识别方案的组件运行，移植现有方案以识别目标语言。现有语音识别方案的组件如下：

●应用数据24，提供基于源语音识别方案的数据，包括源语言发音词典、语音文法文件和提示；

●提示装置12，适于引导用户提交他们的查询；

●接收装置14，适于从用户接收目标语言的基于语音的查询；

●现有语音识别方案的语音识别引擎16，接收基于语音的查询，并使用词典修改装置102将其转换成源语言音素；

●处理装置18，适于处理源语言文本并执行预定的操作，以及还适于提供所处理的输出；

●编译装置20，适于通过编译来自词典修改装置102、语音文法修改装置104、提示生成装置12和处理装置18的结果来编译目标语言的最终输出；以及

●回放装置22，适于播放最终编译的输出。

图2示出根据本发明的词典转换装置102的示意图。

词典转换装置102从源语言词典提取每个单词，并使用翻译装置202确定其翻译。翻译装置202检查单词是否存在于第一数据库200中，如果单词存在，则从第一数据库200提取目标语言的相应翻译的单词。如果单词不存在于第一数据库200中，则使用音译装置204将单词音译成目标语言字素。基于单词是专有名词的假设来执行到目标语言的音译。因此，词典转换装置102可处理普通名词和专有名词。

此外，通过音译装置204将翻译的/音译的单词音译成源语言字素。将源语言的音译单词提供至字素到音素转换装置206，其接收音译的单词，并生成源语言音素序列，获得源语言的目标语言单词的音素发音。

现在，将借助于以下实例描述源语言词典到目标语言的移植。例如，如果我们必须将单词“gold”从源语言英语移植到目标语言印地语，这可通过以下步骤实现：首先，本发明设想的系统检查单词“gold”的类似单词是否存在于第一数据库200中，如果存在，则通过翻译装置202从第一数据库200选择翻译的目标语言单词

然后，通过音译装置204进行音译，将目标语言翻译的单词

转换成“sona”。接下来，如表1所示，使用字素到音素转换装置206通过源语言从sona确定发音为“s/ow/n/aa”。

	英语	印地语
			文法短语	<Gold>	<Gold>
词典项目	/g/ow/l/d/	/s/ow/n/aa/
			应用要求输入	-(文法未变)	-(文法未变)
用户发音	/gold/	/sonaa/
			语音识别输出和处理输入	“Gold”	“Gold”

表1

为了避免每次处理目标语言单词以及获得源语言的其发音的开销，词典转换装置102使用查询表创建装置208制备查询表。查询表创建装置208接收用源语言表示的音译的目标语言单词以及用源语言的其音素发音，并创建将两者映射的查询表。

因此，下一次，语音识别方案需要识别目标语言的单词，并且可跳过字素到音素转换的步骤。该方案可针对作为源语言的发音词典一部分的任意音译单词直接获得源语言的字素序列。这个处理加速了目标语言的词典创建的处理。

参照图1，词典转换装置102将查询表提供至“音素词典”26，后者将目标语言单词发音提供至调用流单元10的语音识别引擎16。因此，语音识别引擎16通过基于源语言的脚本将语音识别方案所识别的源语言单词移植成目标语言的单词来仅理解/识别源语言，该系统可快速和健壮地识别目标语言单词。这样，语音识别引擎16可在无需开发开销的情况下被有效地重用，从而节省了移植现有语音识别应用以理解目标语言的时间。

图3示出根据本发明的文法转换装置104的示意图。

根据本发明，因为对于现有菜单驱动的语音识别方案来说，该方案仅期望一个单词或单词的小序列作为来自用户的输入，所以通常不需要文法转换装置104。在期望语音识别方案处理自由语音用户查询的情况下，需要语音文法修改(源到目标)。文法转换装置104通过采用翻译装置300实现对于目标语言的语音文法创建，所述翻译装置300接收源语言的语音文法文件，并将文法文件翻译成目标语言。由音译装置302音译目标语言的这个翻译的文件，用源语言提供针对目标语言的音译的文法文件。

参照图1，文法转换装置104执行这些翻译和音译，并向调用流单元10的语音识别引擎16给出作为框28表示的针对目标语言的语音文法文件的输出。

图4示出根据本发明的提示生成装置106的示意图。

根据本发明，如果在现有方案中使用记录的提示，则创建目标语言的提示的类似数据库，并且现有语音识别方案指示用于提示和响应于用户的这个数据库，另外通过翻译装置500将源语言的文本提示翻译成目标语言。将翻译的提示提供至识别装置502，后者使用词典转换装置102的查询表中的单词以识别与可包含在目标语言的提示中的单词相应的音素发音，并提供可包含在源语言的提示中的单词的音素序列。通过文本到语音转换装置504排列单词的这个音素序列，以形成可包含在源语言的提示中的单词串。然后，将排列的串继续传递至文法调节装置506，后者根据针对目标语言的音译文法文件转换可包含在源语言的提示中的单词串并设置单词，以及提供基于文法修改的文本的提示，由语音生成装置508将其实时地转换成语音。

参照图1，现有语音识别方案的提示装置12与本发明的提示生成装置106协作，向用户提供目标语言的语音提示。通过接收装置14接收响应于提示的用户查询，并且通过语音识别引擎16在音素26和文法文件28的帮助下识别这个查询。然后，处理识别的查询，如同通过处理装置18用源语言进行处理。由编译装置20提供向用户的最终处理的输出，并且回放装置22典型地以基于话音的格式向用户提供编译的输出。回放装置22还适于以文本和/或多媒体格式提供编译的输出。

因此，通过增加本发明提出的修改，可将源语言的工作语音识别方案移植到目标语言的工作语音识别方案。根据本发明，提供一种方法，用于移植源语言的语音识别方案以识别目标语言，该方法包括如图5所示的以下步骤：

●将源语言的发音词典修改成目标语言的发音词典，1000；

●将源语言的语音文法文件修改成目标语言的语音文法文件，1002；

●将源语言的话音提示转换成目标语言，1004；

●提示用户提交他们的查询，1006；

●从用户接收目标语言的基于语音的查询，1008；

●使用目标语言的修改的发音词典将接收的查询转换成基于目标语言的源语言文本，1010；

●查询与识别的目标语言文本等同的源语言文本并处理转换的源语言文本查询，以执行预定操作和提供处理的输出，1012；

●编译目标语言的最终输出，1014；以及

●播放目标语言的所述最终输出，1016。

技术进步

本发明的技术进步包括：

●提供了建立多语言语音识别系统的系统；

●提供了能够快速移植现有应用以通过另一语言工作的系统；

●提供了保持文本数据及其由现有语言识别调用流单位的处理不变并生成目标语言单词的源语言音素发音的系统；

●提供了当期望用目标语言“移植”源语言的现有应用时最小化与设计目标语言的新应用等同的工作量的系统；以及

●提供了重用原始应用和商业逻辑的系统。

尽管这里主要强调了优选实施例的组件和组件部分，但是应理解，可实现许多实施例并且在不脱离本发明的原理的情况下可在优选实施例中进行许多修改。根据这里公开的内容，对于本领域普通技术人员来说，本发明的优选实施例以及其他实施例中的这些和其他修改将变得清楚，从而可清楚地理解，以上描述性主题仅被理解为本发明的说明，而并非限制。

Claims

1.一种用于移植源语言的语音识别方案以识别目标语言的系统，所述语音识别方案包括语音识别引擎、源语言的发音词典、源语言的语音文法文件、源语言的提示，所述系统包括：

iii.音译装置，适于接收所述翻译装置提供的单词并将其映射至源语言字素；

ii.音译装置，适于接收所述翻译装置翻译的文法文件，以及将所述翻译的文法文件音译成源语言，以及用源语言提供针对目标语言的音译文法文件；

●回放装置，适于播放目标语言的所述最终输出。

2.一种用于移植源语言的语音识别方案以识别目标语言的方法，所述方法包括以下步骤：

●修改源语言的发音词典，以提供目标语言的发音词典；

●转换源语言的话音提示，以提供目标语言的话音提示；

●提示用户用目标语言提交他们的查询；

●从用户接收目标语言的基于语音的查询；

●查询与识别的目标语言文本等同的源语言文本；

●编译目标语言的最终输出；以及

●播放目标语言的所述最终输出。

3.如权利要求2所述的方法，其中修改源语言的发音词典，以提供目标语言的发音词典的步骤包括以下步骤：

●提供第一数据库，其用于存储源语言的单词的词典；

●翻译源语言的每个单词，并提供目标语言的其相应单词；

●将所述翻译的单词中的每个音译成源语言字素；

4.如权利要求2所述的方法，其中修改源语言的语音文法文件，以提供目标语言的语音文法文件的步骤包括以下步骤：将源语言的语音文法文件翻译成目标语言，以及将所述翻译的语音文法文件从目标语言音译成源语言。

5.如权利要求2所述的方法，其中将源语言的话音提示转换成目标语言的步骤包括以下步骤：

●将源语言的话音提示翻译成目标语言的单词；

●生成针对可包含在提示中的单词的所述音素序列的语音，以及生成针对可包含在提示中的单词的所述音素序列的基于语音的输出。