CN101276585B - 多语言非母语语音识别 - Google Patents

多语言非母语语音识别 Download PDF

Info

Publication number
CN101276585B
CN101276585B CN200810086920.4A CN200810086920A CN101276585B CN 101276585 B CN101276585 B CN 101276585B CN 200810086920 A CN200810086920 A CN 200810086920A CN 101276585 B CN101276585 B CN 101276585B
Authority
CN
China
Prior art keywords
language
sub
confusion matrix
word unit
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200810086920.4A
Other languages
English (en)
Other versions
CN101276585A (zh
Inventor
G·维尔申
M·亨内克
M·施瓦茨
D·威利特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
Nuance Communications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuance Communications Inc filed Critical Nuance Communications Inc
Publication of CN101276585A publication Critical patent/CN101276585A/zh
Application granted granted Critical
Publication of CN101276585B publication Critical patent/CN101276585B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Navigation (AREA)

Abstract

本发明涉及多语言非母语语音识别,具体涉及一种用于经由语音输入从元素列表选择列表元素的方法,该方法包括以下步骤:为所述语音输入识别子词单元串,将识别的子词单元串与元素列表进行比较,且基于比较结果产生最佳匹配元素的候选列表,其中为产生最佳匹配元素的候选列表,使用包含矩阵元素的混淆矩阵,所述矩阵元素包括关于不同语言的子词单元(包括不同自然语言的子词单元)的混淆概率的信息。

Description

多语言非母语语音识别
技术领域
本发明涉及一种用于经由语音输入从元素列表选择列表元素的方法及其系统。
背景技术
很多电子应用具有由用户的语音支配或语音控制的设计过程或顺序。这些电子应用包括用于交通工具的目的引导系统、电话和/或地址系统等。交通工具包括汽车、火车、轮船、飞机等。
在这些过程或顺序中,用户向语音识别单元提供语音输入。该语音输入能够对应于用户希望从列表元素的列表或组中选择的列表元素。语音识别单元处理语音输入,并响应于处理的语音输入,选择所需的列表元素。
WO 2004/077405公开了一种对用户的语音输入实施两步识别过程的语音识别系统。一个识别过程将整个词的语音输入分离成至少一个语音子单元序列以产生列表元素的词汇表。接下来的识别过程将整个词的语音输入与列表元素的词汇表进行比较。
本方法需要列表元素和识别系统的语言相同。举例来说,在导航应用中,当使用德语导航系统的用户在法国驾驶时可能在目的地点的语音驱动选择中存在困难。
发明内容
因此,存在这样的一种需要:为来自不同于语音识别系统训练的语言的另一自然语言的列表元素的语音驱动选择提供可能。
本发明通过提供独立的权利要求中提及的方法和语音识别系统来克服这种需要。在相关权利要求中描述了本发明的优选实施例。
根据本发明的第一方面,提供一种用于经由语音输入从元素列表选择列表元素的方法。该方法包括为语音输入识别子词单元(subwordunit)串的步骤。在另一步骤中,识别的子词单元串与元素列表相比较,且基于比较结果产生最佳匹配元素的候选列表。为产生最佳匹配元素的候选列表,使用包含矩阵元素的混淆矩阵(confusion matrix),所述矩阵元素包括关于不同语言的子词单元的混淆概率的信息。在常规系统中,在语音识别系统中使用的混淆矩阵比较相同语言的子词单元。现在,本发明的一个方面是要建立和使用能够比较不同语言的混淆矩阵。混淆矩阵通过用于每个子词单元的识别系统为给定的子词单元组定义可能被错误识别的子词单元组。子词单元可以对应于语言的音素或音节或任意其他单元,诸如较大组音素或较小组音素(诸如半音素(demiphoneme))。当子词单元是音素时,音素序列被确定为最好地匹配所述语音输入的子词单元串。
优选地,混淆矩阵的每个矩阵元素代表特定子词单元对的混淆概率,所述子词单元对包含第一语言的子词单元和不同于第一语言的第二语言的子词单元。矩阵的每个元素代表特定子词单元对的混淆概率。每个矩阵元素数字地指定了子词单元对的第一子词单元与子词单元对的另一子词单元的混淆程度。优选地,混淆矩阵包含第一语言的可能子词单元以及第一语言的这些可能子词单元与第二语言的可能子词单元的混淆概率。因为两种语言的子词单元典型地在子词单元或音素的数量上不同,混淆矩阵不再是正方的。只包括一种语言的子词单元的混淆矩阵是正方的,因为矩阵具有相同的列数和行数。
根据本发明的另一方面,使用被训练成识别第一语言的子词单元的子词单元语言识别单元来识别子词单元串,以识别与第一语言不同的语言的语音输入。该方面的思想是使用相同的识别器训练用于识别的混淆矩阵,但是针对外语。举例来说,被训练成理解德语语音输入的子词单元语音识别单元用于识别诸如法语或英语的另一语言中的子词单元序列,以评估混淆矩阵的混淆概率。该方法的优点在于它隐含地得知了这两种不同语言之间的最典型的子词单元混淆。
根据本发明的一个方面,不同的混淆矩阵可以设置有用于不同语言对的混淆概率。在本实施方案中,若干混淆矩阵将可用于不同的语言对。这允许匹配不同的语言。当可以使用不同的语言对和不同的混淆矩阵时,必须选择用于产生最佳匹配元素的候选列表的混淆矩阵。
为此,优选地通过确定用户的语言和通过确定元素列表的语言确定语音输入的语言对,并相应地选择混淆矩阵。在大多数语音识别应用中,语音识别系统的用户语言是已知的。如果可以确定元素列表的语言,则语言对是已知的。
当元素列表是用于引导用户到列表的目的地点之一的导航系统中使用的目的地点列表时,可以以下面的方式确定语言对的语言之一。首先,例如,通过确定交通工具的当前位置并通过将它与地图数据相比较,确定导航系统用在哪个国家。当交通工具的位置已知时,可以推断出交通工具所行驶的国家。当国家已知时,能够确定该国家的官方语言。举例来说,当交通工具在德国行驶时,能够推断出目的地点的列表包括德语名称,当交通工具在法国行驶时,所述列表可以包括诸如城市或其他目的地点的名称的法语列表元素。
在本发明的另一方面中,确定导航系统的用户语言,该语言用作所述语言对的另一语言。导航系统的所有者通常可能选择预定的语言作为该导航系统的用户语言,在操作过程中,只要没有选择其他语言,该语言用作缺省值。当用户的语言且当元素列表的语言已知时,语言对是已知的,使得可以选择合适的混淆矩阵。
当用户的语言已知且当列表元素的语言也已知时,能够确定混淆矩阵。
当语音识别方法与导航系统相结合使用时,交通工具也可能行驶在具有多于一种官方语言的国家,例如具有德语、意大利语和法语作为官方语言的瑞士,或具有两种官方语言的比利时。在这种情况下,可以以不同语言提供不同元素列表,并且必须确定最佳匹配项目的候选列表。语音识别系统的用户语言是已知的。然而在这种情况下,必须确定是使用用户语言与德语、用户语言与法语还是用户语言与意大利语的混淆矩阵。除了这三个混淆矩阵之外,提供三种不同的元素列表,德语的目的地点列表、法语的目的地点列表和意大利语的目的地点列表。现在出现的问题是哪个列表和哪个混淆矩阵用于匹配步骤。一种方法是组合不同的列表并使用这三个不同的混淆矩阵从所有三个列表中编辑最佳匹配条目。该方法的缺点在于必须搜索多于一个的元素列表,极大地增加了搜索时间。而且,在每种语言中可能选择相同的条目,减少了最佳匹配元素列表中的独特条目的数目。
根据另一方法,当不同的混淆矩阵具有不同的语言对并提供多个列表且当必须选择混淆矩阵之一以用于确定最佳元素的候选列表时,可以选择具有最小平均混淆数的混淆矩阵。这意味着选择了最匹配用户语言的语言。一旦已经选择了混淆矩阵,能够根据所选的混淆矩阵选择不同列表的元素列表。
可以通过计算每个矩阵的分数确定最小平均混淆数,所述分数表示与用户语言的符合度。举例来说,分数能够用于通过优选级对可用的语言进行分类。如果用户指示某些语言偏好,即,用户能够说出他正旅行的国家的语言之一,也可考虑这些偏好来选择合适的混淆矩阵和合适的对应元素列表。
可能的语言对是提前知道的。因而,不必在使用过程中计算分数。可以预先计算分数并与不同的矩阵一起存储各自的分数。在正方矩阵的情况下,主对角线上的条目对应于自混淆概率,而对角线以外的元素对应于不正确的识别,即识别错误。计算矩阵中的所有错误将是确定列表和识别系统之间的符合度的一种方法。不幸的是,因为矩阵比较具有不同音素组的不同语言,该方法可能导致当前情况中的难题。
根据本发明的一个实施例,可以通过确定每个矩阵的熵来确定分数,熵越低,与用户语言的符合度越好。在这里使用的统计学方法中,熵是微观结构的数目的测量。在本方法中,能够为矩阵的每行确定熵。如果熵大,这意味着该行的所有不同矩阵元素的混淆概率大约相等。在当前上下文中,这意味着第一音素或子词单元被理解为其他语言的音素或子词单元的概率大约与其他语言的所有音素相同。在当前上下文中,通过添加不同的列,每个列和完整矩阵的熵越低,与用户语言的符合度越好,且混淆概率越低。
另外,可以通过确定共有信息(mutual information)计算分数,共有信息越高,与用户语言的符合度越好。为了评估用于混淆矩阵的混淆概率,必须完成识别运行(recognition run)。因而,对于训练组中的每次发声,正确的和识别的音素序列都是可用的。这使得能够计算音素序列之间的相互信息。共有信息越高,识别的音素串的预测能力越好且矩阵越好。
然而另一方法是对真实数据进行实际识别试验。在本实施方式中,通过使用不同矩阵并使用测试数据实施识别试验来确定分数,具有最高识别率的矩阵用于产生候选列表。尽管到现在为止该方法是最昂贵的一个,它也提供了最精确的分数。
根据本发明的另一方面,后面涉及用于使用语音输入从元素列表选择列表元素的语音识别系统。该系统包括识别用于语音输入的子词单元串的子词单元语音识别单元。子词单元比较单元将识别的子词单元串与元素列表进行比较且基于比较结果产生最佳匹配元素的候选列表。此外,在存储器中提供包含矩阵元素的混淆矩阵,所述矩阵元素包括关于第一语言的子词单元与第二语音的子词单元混淆的混淆概率的信息。子词单元比较单元基于所述至少一个多语言混淆矩阵产生最佳匹配元素的列表。上述语音识别系统允许通过声音以不同于列表元素的语言的其他语言从列表选择条目。该语音识别系统具有这样的优点:它在存储器和CPU方面是有效率的,从而工作在嵌入式设备上。
所述矩阵可以以这种方式设计:混淆矩阵的每个矩阵元素代表特定子词单元对的混淆概率,所述子词单元对包含第一语言的子词单元和第二语言的子词单元。语音识别系统可以是如WO 2004/077405中描述的两步语音识别系统。在这种实施例中,语音识别系统的第一步骤产生最佳匹配项目的候选列表,即,较大元素列表中的较小列表。第二语音识别步骤从最匹配语音输入的候选列表中识别和选择项目。一旦已经产生了短的候选列表,必须在识别系统中登记该短的候选列表以用于第二识别步骤。以前是这样做的,然而现在识别系统处理不同语言的条目。例如,德语识别系统可以接收英语音素。在本技术领域中,用于执行从一组外语音素到识别器的语言的音素组的映射的方法对于本领域技术人员而言是可用的且已知的。备选地,识别器能够与不同语言的声学模型结合使用以处理外语音素。两种方法是可行的,因为短列表仅包含整个列表条目的一部分。
返回使用多语言混淆矩阵的语音识别系统和第一识别步骤,子词单元语音识别单元能够被训练,以识别第一语言的子词单元,且可以为不同于第一语言的语言的语音输入产生子词单元串。如上所述,该方法的优点在于该系统隐含地得知了这两种不同语言之间的最典型的混淆。可以提供包含为不同语言的不同子词单元对提供混淆概率的不同混淆矩阵的存储单元。
为了确定使用哪个矩阵和哪个元素列表,语音识别系统可以包括确定子词单元对的两种语言的语言对确定单元。
在导航应用的情况下,提供包含能够引导用户的用于不同国家的不同元素列表或不同目的地点的数据库。为了确定语言对,可以提供确定语音识别系统的用户语言的用户语言确定单元,该用户语言用于确定子词对的语言之一。此外,可以提供确定交通工具行驶的国家的官方语言的国家确定单元,所述语言用于确定语言对的另一语言。
当已知语言对时,提供从多个混淆矩阵中选择混淆矩阵的混淆矩阵选择单元,所述混淆矩阵选择单元根据从语言对确定单元接收的信息选择混淆矩阵。当考虑用户语言和交通工具正在行驶的国家的官方语言,混淆矩阵选择单元不能选择混淆矩阵(即,当所述国家具有多于一种的官方语音)时,能够使用混淆确定单元来确定每个混淆矩阵的混淆平均数。混淆矩阵选择单元然后选择具有最小混淆数的矩阵。为此,能够提供为每个混淆矩阵确定分数的分数确定单元,所述分数表示与用户语言的符合度。应当理解并不需要整个时间都在语音识别系统中提供分数确定单元。只需提供一次,用于确定不同的分数。在已经计算出分数和为每个混淆矩阵确定分数并且分数被存储到相应的矩阵之后,就不再需要分数确定单元。根据不同矩阵的分数,混淆矩阵选择单元从所述多个混淆矩阵选择混淆矩阵。优选地,语音识别系统根据如上所述的方法工作。
附图说明
参考下面的附图和描述将更好地理解本发明。附图中的部件不必成比例,而是用于强调说明本发明的原理。
附图中:
图1呈现了本发明的语音识别系统的示意图;
图2示出了混淆矩阵,其包含图1的系统中使用的两种不同语言的混淆概率;
图3是图1中所示的语音识别系统的更详细的视图;
图4示出了使用图2的矩阵识别语音以从元素列表中选择列表元素的方法的流程图;
图5示出了另一流程图,更详细地说明了对元素列表的多语言非母语识别的方法步骤。
具体实施方式
在图1中示出了一种允许语音输入的多语言识别的语音识别系统。图1中所示的系统尤其允许通过语音以不同于用户语言的另一语言从列表中选择条目。在所示实施例中,示出了与引导用户到预定目的地点的导航系统相结合的系统。然而,本发明并不限制于经由语音输入的目的地点的选择。本发明能够用在各种情况,其中与用户语言不同的语言的语音输入将被正确地识别。在很多语音识别系统中,声学信号的最可能的译码被作为识别输出向用户输出,或最佳匹配结果被输出给用户,使得用户能够选择最佳匹配结果之一。本系统保持了在识别处理中考虑的多种假定,这些多种假定,在当前上下文中被称为最佳匹配元素,提供了用于附加信息的已经被检索系统(retrievalsystem)探究的基础。语音识别系统中的一个问题是已知和未知词汇术语的概念,词汇表是语音识别系统用于将语音转换成文本的一组词。作为译码处理的一部分,语音识别系统将来自语音输入的声音与词汇表中的词进行比较。因此,仅词汇表中的词能够被识别。不在词汇表中的词通常将被错误地识别为发音与语音识别系统未知的另一词类似的已知的词汇表的词。词汇表可以是任意词汇表,例如,姓名、地址或诸如一种语言的完整的一组词之类的任意其他词汇表。因此,词汇表不限于描述目的地址的列表元素,词汇表能够包含任意类型的列表元素。
图1示意性地示出了一种语音识别系统,其中语音输入被输入到子词语音识别单元10。子词语音识别单元10处理该语音输入且产生子词单元串,在所示实施例中为音素串。音素串被馈入到匹配器11,在那里音素串与存储在数据库12中的元素列表相比较。在所示实施例中,数据库12包括在不同列表中的目的地址。举例来说,对于列表A中的国家A,包含能够在该国家中到达的所有可能的目的地址。这种列表能够具有大量的条目,例如,多于50000或150000个列表元素。在所示实施例中,列表包含导航数据。然而,列表也可以包括人名或电话号码或任意其他数据。在数据库12中,以相应国家的官方语言提供列表。在所示的实施例中,国家A和B具有一种官方语言,使得为每个国家提供一个列表。国家C具有两种官方语言,使得对于第一和第二官方语言,存在不同的目的地列表。当用户想要选择列表元素之一时,语音输入将包含该列表元素。匹配器比较从子词语音识别单元接收的音素串且产生最佳匹配项目的候选列表,因而,如果最佳匹配项目的候选列表包含少量元素,它能够被直接呈现给用户。然而,候选列表也可能包含更多的列表元素,例如500或2000个。在这种情况下,最佳匹配元素的候选列表形成第二识别步骤的基础,在该第二识别步骤中,语音输入与这个较小的列表进行比较。
导航系统的用户现在可以在使用与用户语言不同的其他语言的国家中旅行。举例来说,使用英语导航系统的英语司机能够在德国或法国旅行,或者德语用户可以在法国或英国旅行。在这些示例中,存储在列表中的目的地址是不同于用户语音的另一语言的列表元素。
为了允许较高的识别率,当用户发出另一语言的城市名称时,提供包括不同混淆矩阵的存储器13。在所示的实施例中,存储器13包括第一混淆矩阵(包括德语子词单元和意大利语子词单元)。而且,提供比较德语和英语子词单元的混淆矩阵和包括法语和英语音素组或子词单元的混淆矩阵。
也参考更详细地示出混淆矩阵20的图2。混淆矩阵包括多个矩阵元素21,混淆矩阵表示假定声音属于一个子词单元时另一子词单元被识别的概率。每个矩阵元素21 Cij代表特定子词单元对的混淆概率,即,Cij=P(j/i),其中Cij数字地指定了子词单元i与子词单元j的混淆程度。P(j/i)是假定声音属于子词单元i时子词单元j被识别的概率。在所示实施例中,左上部矩阵元素21代表了子词单元对22的混淆概率。在图2中所示的实施例中,大写字符代表一种语言的子词单元或音素,小写字符代表另一语言的子词单元或音素。第一语言具有可能的子词单元AA-ZZ,第二语言具有子词单元ba-zz。因为两种不同语言的音素组通常在音素的数目中不同,因此混淆矩阵不再是正方的。
图1所示的系统现在包括这些混淆矩阵中的若干个,每个混淆矩阵表示一种语言的子词单元与另一语言的子词单元的混淆概率。
结合图3,它更详细地解释了怎样确定使用哪个混淆矩阵和哪个列表。为了确定哪个混淆矩阵应该用于确定最佳匹配结果,必须确定语言对。语言对的一种语言能够被确定,因为用户语言对于系统而言是已知的,例如,系统知道用户说德语,因为该语言被设置为缺省值。现在以下面的方式确定语言对的另一语言。为此,提供语言对确定单元31,语言对确定单元接收作为一个输入的用户语言。语言对确定单元进一步包括确定在哪个国家使用语音识别系统的国家确定单元32。在导航应用中,系统一般包括确定系统(当用在交通工具中时,为交通工具)的当前位置的位置确定单元33。当交通工具或系统位置已知时,通过比较交通工具位置与地图数据,能够容易地确定国家。语言对确定单元现在知道语言对的两种语言且然后能够访问存储器13以检索对应的混淆矩阵。举例而言,英语用户正在法国旅行。因此,语言对确定单元将检索包含英语和法语子词单元的混淆概率的混淆矩阵。该混淆矩阵被发送到匹配器,在那里它与数据库12的列表之一结合使用。由于已知交通工具正在行驶的国家,列表也是已知的。在上述示例中,这意味着英语用户使用目的地址的法语列表在具有法语名称的法国选择目的地点。为此,使用包含英语-法语对的混淆矩阵。
通常,这些混淆矩阵被提前确定且被存储在系统中。为了确定混淆概率,系统必须被训练。根据本发明的另一方面,通过使用相同的但是用于外语的匹配器,能够确定混淆矩阵的混淆概率。举例而言,英语匹配器用于识别法语数据的音素序列以评估混淆矩阵的混淆概率。该方法的优点在于它可以隐含地得知法语和英语之间最典型的语音混淆(phonetic confusion)。通过提供具有不同语言对的不同的混淆矩阵,系统允许与不同的语言匹配。
然而,情况可能更加复杂。举例而言,用户可能正在具有多于一种语言的外国使用语音识别系统。在所示实施例中,数据库包括具有三种不同列表C1、C2和C3的国家C。例如,当系统用在瑞士时,元素(即,目的地)的瑞士语的列表可以以德语、法语和意大利语获得。然而,在瑞士的英语旅行者可能不会说这些语言中的任意一种。不过,存在用于英语-意大利语、英语-法语和英语-德语的语言对的任意一个的混淆矩阵。现在的问题是使用哪个列表用于匹配。
一种方法将是简单地使用所有的列表并从所有的列表中编辑最佳匹配条目。然而,该方法的缺点是必须搜索多于一个的列表,因而极大地增加了搜索时间。考虑到每个列表具有大于50000个条目,这种方法将并不是有效的。该方法的另一缺点在于将在每种语言中选择相同的条目,因而减小了最佳匹配结果中独特条目的数目。现在用户可能已经指示了某些语言偏好(例如,英语旅行者能够在瑞士说官方语言之一)。该偏好则能用于选择合适的混淆矩阵和相应的列表。举例而言,当英语旅行者说德语时,英语-德语混淆矩阵和条目的德语列表将用于确定最佳匹配结果。
然而,也可能不存在偏好。在这种情况下,该过程能够如下进行。系统能够以选择具有最小平均混淆数的语言对的方式进行配置。对于上述示例,这意味着在英语-德语、英语-法语和英语-意大利语之间选择语言对。语言对和相应的混淆矩阵以及相关列表必须被确定。通过提前确定代表与用户语言符合度的分数能够选择最好地匹配用户语言的语言。在图3所示的实施例中,分数与混淆矩阵一起存储。为确定分数,可以提供分数确定单元。如果分数与矩阵一起存储,在使用过程中不需要计算分数。然而,在语音识别系统的设计过程中必须以某种方式确定分数。可以使用多种方法来计算分数。在正方矩阵的情况下,主对角线的条目对应于自混淆概率,而对角线外的元素对应于不正确的识别,即存在识别错误。计算矩阵中的所有错误将是确定两种语言之间或列表与识别器之间的符合度的一种方法。不幸的是,可能难以实现这种方法,因为在当前情况下矩阵比较具有不同子词单元组的两种不同语言。矩阵通常不再是正方的,所以难以确定非对角矩阵元素。确定分数的另一种可能是使用矩阵的熵测量。矩阵的熵是在矩阵应用之后剩余的不确定性的测量。不确定性剩余越少,符合度越好。另一种可能的方法是计算共有信息。为了评估混淆矩阵的混淆概率,必须完成识别运行(recognition run)。对于训练组中的每次发声,正确的和识别的音素序列是可用的。这使得可以计算音素序列之间的共有信息。共有信息越高,识别的音素序列的预测能力越好,且矩阵越好。另一方法是对真实数据进行实际的识别试验。尽管到目前为止该方法是最昂贵的,但它也获得了最精确的分数。在这种情况下,具有最高识别率的矩阵胜出。
为了选择正确的矩阵,可以提供在可能存在若干混淆矩阵和若干列表的情况下确定所需的矩阵和相应列表的混淆矩阵选择单元34。混淆矩阵选择单元选择具有最小平均混淆数的混淆矩阵。用户语言是已知的,且当前通过从使用系统的国家的官方语音中选择最符合用户语言的语言确定语言对的另一语言。现在语言对的第二语言是已知的并且相应的列表用于从列表确定最佳匹配元素。最佳匹配元素可以被包括在列表元素的较小列表中,例如,100和2000个元素的列表中。第二语音识别步骤(在附图中没有示出)对较小列表条目应用语音识别。在该第二步骤中,通过将候选列表中列出的条目的语音声音表示与声音输入进行匹配并确定最佳匹配条目,为相同的语音输入确定列表中的最可能的条目。该方法节省了计算资源,因为对在第一步骤中进行的音素识别要求较少,且计算昂贵的第二步骤仅在元素的大列表的小的子集上进行。这种两步识别系统从DE 102 07 895 A1获知,引用该文献以获知两步识别方案的进一步的细节。
在第二识别步骤中,再次比较两种不同的语言。例如,德语识别器可能接收英语音素。用于进行从外语音素组到识别器的语言的音素组的映射的方法可以在文献中获得。备选地,识别器能够与不同语言的声音模型一起使用以处理外语音素。两种方法是可行的,因为短列表仅包含列表元素的大列表的条目的一部分。
在图4示出了这种两步识别方案。在步骤41中启动处理之后,说话者说出所需列表元素的完整描述。当从电话列表中选择时,所述列表元素例如包括城市或街道名称或人名。该语音输入在步骤41中被记录,用于第二识别步骤中的附加用途。在第一识别步骤中,在步骤42中产生音素串。通常,独立于数据库12中存储的列表元素的词汇表产生第一音素串。构建包括连续音素部分序列、音素序列、字母序列、音节序列等的语音子词单元序列。在步骤43中,如上所述,使用多语言混淆矩阵实施映射过程。在步骤44中,产生的子词单元串与元素列表相比较且产生最佳匹配元素的候选列表。在步骤45中,实施第二识别步骤,第二识别步骤基于最佳匹配结果的候选列表而不是第一匹配步骤43中使用的整个列表。在步骤45中,记录的语音输入被递送到配备有最佳匹配项目的候选列表的识别单元(未示出)。在步骤46中,最可能的列表元素然后被呈现给用户,或者最可能的列表元素被使用且能够被进一步处理。本方法在步骤47中结束。
在图5中,以流程图的形式总结了图3中解释的混淆矩阵和相应的元素列表的选择。在步骤51中启动处理之后并且在步骤52中已经从子词语音识别单元接收音素串之后,必须确定用户语言以确定语言对的一种语言(步骤53)。语言对的确定对于混淆矩阵和元素列表的选择是必须的。在下一步骤中,在步骤54中确定使用识别系统的官方语音。在步骤55中,询问使用系统的国家是否存在多于一种的官方语音。如果不存在,官方语音是已知的且可以在步骤56中确定语言对。一旦语言对已知,能够在步骤57中确定相应的混淆矩阵,并且能在步骤58中确定最佳匹配元素的候选列表。如结合图4所讨论的,该候选列表能够被输入到第二识别步骤(步骤59)。在一步识别过程的情况下,最佳匹配元素被呈现给用户,以用于确认或进一步的选择。在一个国家中存在多于一种官方语言的情况下,在步骤60必须确定可用于识别处理的可能的混淆矩阵。在上述示例中,对于在瑞士旅行的英语旅行者,已确定的组包含英语-德语、英语-法语和英语-意大利语的矩阵元素。为了确定哪个混淆矩阵将用于匹配过程,在步骤61中确定哪个矩阵具有最小混淆数,表示哪种语言是最好地匹配用户语言的语言。这能够通过比较矩阵的分数完成。在步骤62中,根据分数选择矩阵。当通过计算分数获知最佳匹配语言时,选择所述语言的列表元素的列表且使用所选的矩阵和相应的元素列表确定最佳匹配条目的候选列表(步骤63)。在步骤65中处理结束之前,在步骤64中能够输出结果以用于进一步的处理。
总而言之,本发明通过使用比较不同语言的混淆矩阵允许存储器和CPU有效地通过语音从不同于用户语言的语言的列表选择条目。

Claims (38)

1.用于经由语音输入从元素列表选择列表元素的方法,该方法包括以下步骤:
为所述语音输入识别子词单元串,
将识别的子词单元串与所述元素列表相比较,并且基于比较结果产生最佳匹配元素的候选列表,其中
为产生最佳匹配元素的候选列表,使用包含矩阵元素的混淆矩阵,所述矩阵元素包括关于不同语言的子词单元的混淆概率的信息,
其中,当存在具有不同的语言对的不同的混淆矩阵并且提供多个列表元素时,并且当必须选择混淆矩阵之一以用于确定候选列表时,选择具有最小平均混淆数的混淆矩阵。
2.根据权利要求1所述的方法,其中所述混淆矩阵中的每个矩阵元素表示特定子词单元对的混淆概率,所述子词单元对包含第一语言的子词单元和第二语言的子词单元。
3.根据权利要求1或2所述的方法,其中所述混淆矩阵包含第一语言的可能子词单元以及所述第一语言的可能子词单元与另一语言的子词单元混淆的概率。
4.根据权利要求2所述的方法,其中使用被训练成识别第一语言的子词单元的子词单元语音识别单元来识别子词单元串,以识别与第一语言不同的语言的语音输入。
5.根据权利要求1所述的方法,其中提供不同的混淆矩阵,所述混淆矩阵提供用于不同语言对的混淆概率。
6.根据权利要求1所述的方法,其中通过确定用户语言和通过确定元素列表的语言来确定语言对和相应的混淆矩阵。
7.根据权利要求1所述的方法,其中所述元素列表包括用于引导用户到列表的目的地点之一的导航系统中使用的不同目的地点。
8.根据权利要求5或7所述的方法,其中为确定使用哪个混淆矩阵,确定使用导航系统的国家,所述信息用于确定包括不同目的地点的元素列表的语言和/或用于确定语言对中的一种语言。
9.根据权利要求6或7所述的方法,其中为了确定使用哪个混淆矩阵,确定导航系统的用户语言,并且所述用户语言用于确定语言对的另一语言。
10.根据权利要求8所述的方法,其中,根据使用导航系统的国家的语言且根据用户语言选择所述混淆矩阵。
11.根据权利要求1所述的方法,其中当以不同的语言提供不同的元素列表并要确定最佳匹配项目的候选列表时,不同的列表被组合并且基于来自于不同列表的元素产生最佳匹配项目的候选列表。
12.根据权利要求11所述的方法,其中当已经选择所述混淆矩阵之一时,根据所选的混淆矩阵选择所述不同列表的元素列表。
13.根据权利要求11或12所述的方法,其中为确定所述最小平均混淆数,为每个矩阵计算分数,所述分数表示与用户语言的符合度。
14.根据权利要求13所述的方法,其中通过确定每个矩阵的熵来确定所述分数,所述熵越低,与用户语言的符合度越好。
15.根据权利要求13所述的方法,其中通过确定共有信息来确定所述分数,共有信息越高,与用户语言的符合度越好。
16.根据权利要求14或15所述的方法,其中通过使用不同矩阵和使用测试数据实施识别试验来确定所述分数,具有最高识别率的矩阵用于产生候选列表。
17.用于经由语音输入从元素列表选择列表元素的语音识别系统,该系统包括:
为所述语音输入识别子词单元串的子词单元语音识别单元,
将识别的子词单元串与所述元素列表进行比较并且基于比较结果产生最佳匹配元素的候选列表的子词单元比较单元,
存储至少一个混淆矩阵的存储器,每个混淆矩阵包含矩阵元素,所述矩阵元素包括关于第一语言的子词单元与另一语音的子词单元混淆的混淆概率的信息,
其中所述子词单元比较单元基于所述至少一个混淆矩阵产生最佳匹配元素的列表,
其中,当存在具有不同的语言对的不同的混淆矩阵并且提供多个列表元素时,并且当必须选择混淆矩阵之一以用于确定候选列表时,选择具有最小平均混淆数的混淆矩阵。
18.根据权利要求17所述的语音识别系统,其中所述混淆矩阵中的每个矩阵元素表示特定子词单元对的混淆概率,所述子词单元对包含第一语言的子词单元和第二语言的子词单元。
19.根据权利要求17或18所述的语音识别系统,其中所述混淆矩阵包含表示第一语言的可能子词单元与第二语言的子词单元的混淆概率的矩阵元素。
20.根据权利要求17所述的语音识别系统,其中所述子词单元语音识别单元被训练成识别第一语言的子词单元并且产生用于不同于第一语言的语言的语音输入的子词单元串。
21.根据权利要求17所述的语音识别系统,其中所述存储器包含不同的混淆矩阵,所述混淆矩阵提供用于不同语言的不同子词单元对的混淆概率。
22.根据权利要求21所述的语音识别系统,其中所述系统进一步包括确定子词单元对的两种语言的语言对确定单元。
23.根据权利要求17所述的语音识别系统,其中提供包含所述元素列表的数据库,所述元素列表对应于用于引导用户到列表的目的地址之一的导航系统中使用的不同目的地点。
24.根据权利要求22所述的语音识别系统,其中所述语言对确定单元包括确定语音识别系统的用户语言的用户语言确定单元,所述用户语言用于确定子词单元对的语言之一。
25.根据权利要求22所述的语音识别系统,其中所述语言对确定单元进一步包括确定交通工具正在行驶的国家的官方语言的国家确定单元,所述官方语言用于确定语言对的另一语言。
26.根据权利要求25所述的语音识别系统,其中所述国家确定单元包括确定实际交通工具位置和推断出交通工具正在行驶的国家的官方语言的交通工具位置确定单元。
27.根据权利要求17所述的语音识别系统,其中提供从多个混淆矩阵选择混淆矩阵的混淆矩阵选择单元,所述混淆矩阵选择单元根据从语言对确定单元接收的信息选择混淆矩阵。
28.根据权利要求17所述的语音识别系统,进一步包括:
确定交通工具正在行驶的国家的官方语言的官方语言确定单元,
从混淆矩阵组中选择混淆矩阵的混淆矩阵选择单元,所述组包含混淆矩阵,在混淆矩阵中,语言对中的一种语言是用户语言并且语言对中的另一语言是交通工具正在行驶的国家的官方语言之一。
29.根据权利要求17所述的语音识别系统,其中提供确定每个混淆矩阵的平均混淆数的混淆确定单元。
30.根据权利要求28所述的语音识别系统,其中如果提供具有语言对的多个混淆矩阵,在其中语言对中的一种语言是用户语言并且另一语言是使用所述语音识别系统的国家的官方语言,则所述混淆矩阵选择单元选择具有最小平均混淆数的矩阵。
31.根据权利要求28所述的语音识别系统,其中所述混淆矩阵选择单元依照提供具有最小平均混淆数的矩阵的信息的混淆确定单元的信息来选择所述混淆矩阵。
32.根据权利要求27所述的语音识别系统,其中提供为每个混淆矩阵确定分数的分数确定单元,所述分数表示与用户语言的符合度。
33.根据权利要求32所述的语音识别系统,其中所述混淆矩阵选择单元根据不同矩阵的分数从所述多个混淆矩阵中选择混淆矩阵。
34.根据权利要求17所述的语音识别系统,其中所述语音识别系统根据权利要求1至16中任意一个所述的方法工作。
35.从元素列表产生最佳匹配元素的候选列表的方法,包括:
根据语音输入产生子词单元串;
使用将一种语言的子词单元与另一语言的子词单元相关联的混淆矩阵转换所述子词单元串;
将转换的串与所述元素列表进行比较;以及
基于比较结果创建最佳匹配元素的候选列表;
其中,当存在具有不同的语言对的不同的混淆矩阵并且提供多个列表元素时,并且当必须选择混淆矩阵之一以用于确定候选列表时,选择具有最小平均混淆数的混淆矩阵。
36.用于经由语音输入从元素列表选择列表元素的语音识别系统,所述系统包括:
用于从所述语音输入产生子词单元串的装置;
用于存储包括与不同语言的子词单元相关的概率的至少一个混淆矩阵的装置;
用于将所述子词单元串与所述元素列表进行比较的装置,所述比较利用所述至少一个混淆矩阵;以及
用于基于比较结果产生最佳匹配元素的候选列表的装置,
其中,当存在具有不同的语言对的不同的混淆矩阵并且提供多个列表元素时,并且当必须选择混淆矩阵之一以用于确定候选列表时,选择具有最小平均混淆数的混淆矩阵。
37.根据权利要求36所述的系统,其中所述子词单元串的语言不同于元素列表的元素的语言,并且其中所述混淆矩阵包括用于所述两种语言的子词单元的混淆概率。
38.根据权利要求37所述的系统,进一步包括:
用于从候选列表选择元素的识别装置;以及
用于向识别装置登记所述候选列表的装置。
CN200810086920.4A 2007-03-28 2008-03-28 多语言非母语语音识别 Expired - Fee Related CN101276585B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP07105096.7 2007-03-28
EP07105096.7A EP1975923B1 (en) 2007-03-28 2007-03-28 Multilingual non-native speech recognition

Publications (2)

Publication Number Publication Date
CN101276585A CN101276585A (zh) 2008-10-01
CN101276585B true CN101276585B (zh) 2013-01-02

Family

ID=38008294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810086920.4A Expired - Fee Related CN101276585B (zh) 2007-03-28 2008-03-28 多语言非母语语音识别

Country Status (5)

Country Link
EP (1) EP1975923B1 (zh)
JP (1) JP5189874B2 (zh)
KR (1) KR101526918B1 (zh)
CN (1) CN101276585B (zh)
CA (1) CA2626651A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103076893B (zh) * 2012-12-31 2016-08-17 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备
KR102084646B1 (ko) * 2013-07-04 2020-04-14 삼성전자주식회사 음성 인식 장치 및 음성 인식 방법
CN104021786B (zh) * 2014-05-15 2017-05-24 北京中科汇联信息技术有限公司 一种语音识别的方法和装置
DE102014210716A1 (de) 2014-06-05 2015-12-17 Continental Automotive Gmbh Assistenzsystem, das mittels Spracheingaben steuerbar ist, mit einer Funktionseinrichtung und mehreren Spracherkennungsmodulen
DE112014007287B4 (de) * 2014-12-24 2019-10-31 Mitsubishi Electric Corporation Spracherkennungsvorrichtung und Spracherkennungsverfahren
EP3292376B1 (en) * 2015-05-05 2019-09-25 Nuance Communications, Inc. Automatic data switching approach in onboard voice destination entry (vde) navigation solution
DE102015014206B4 (de) 2015-11-04 2020-06-25 Audi Ag Verfahren und Vorrichtung zum Auswählen eines Navigationsziels aus einer von mehreren Sprachregionen mittels Spracheingabe
CN107195296B (zh) * 2016-03-15 2021-05-04 阿里巴巴集团控股有限公司 一种语音识别方法、装置、终端及系统
US10249298B2 (en) 2017-01-11 2019-04-02 Here Global B.V. Method and apparatus for providing global voice-based entry of geographic information in a device
US10593321B2 (en) * 2017-12-15 2020-03-17 Mitsubishi Electric Research Laboratories, Inc. Method and apparatus for multi-lingual end-to-end speech recognition
WO2020226948A1 (en) * 2019-05-03 2020-11-12 Google Llc Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models
CN115083437B (zh) * 2022-05-17 2023-04-07 北京语言大学 一种确定学习者发音的不确定性的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW273550B (zh) * 1991-05-16 1996-04-01 Glaxo Group Ltd
CN1773606A (zh) * 2004-11-12 2006-05-17 中国科学院声学研究所 一种基于混淆网络的语音解码方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10207895B4 (de) * 2002-02-23 2005-11-03 Harman Becker Automotive Systems Gmbh Verfahren zur Spracherkennung und Spracherkennungssystem
WO2004077405A1 (en) 2003-02-21 2004-09-10 Harman Becker Automotive Systems Gmbh Speech recognition system
JP4333838B2 (ja) * 2003-07-04 2009-09-16 マイクロジェニックス株式会社 複数言語音声認識プログラム及び複数言語音声認識システム
JP2006084966A (ja) * 2004-09-17 2006-03-30 Advanced Telecommunication Research Institute International 発話音声の自動評定装置およびコンピュータプログラム
ATE385024T1 (de) * 2005-02-21 2008-02-15 Harman Becker Automotive Sys Multilinguale spracherkennung

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW273550B (zh) * 1991-05-16 1996-04-01 Glaxo Group Ltd
CN1773606A (zh) * 2004-11-12 2006-05-17 中国科学院声学研究所 一种基于混淆网络的语音解码方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Viet Bac Le et al..FIRST STEPS IN FAST ACOUSTIC MODELING FOR A NEW TARGET LANGUAGE: APPLICATION TO VIETNAMESE.《Proceedings.(ICASSP"05) IEEE International Conference on Acoustics, Speech, and Signal Processing, 2005.》.2005,第1卷I-821-I-824. *

Also Published As

Publication number Publication date
CN101276585A (zh) 2008-10-01
KR101526918B1 (ko) 2015-06-08
KR20080088490A (ko) 2008-10-02
JP5189874B2 (ja) 2013-04-24
CA2626651A1 (en) 2008-09-28
EP1975923B1 (en) 2016-04-27
EP1975923A1 (en) 2008-10-01
JP2008242462A (ja) 2008-10-09

Similar Documents

Publication Publication Date Title
CN101276585B (zh) 多语言非母语语音识别
US11783830B2 (en) Systems and methods for adaptive proper name entity recognition and understanding
US8548806B2 (en) Voice recognition device, voice recognition method, and voice recognition program
US9524718B2 (en) Speech recognition server integration device that is an intermediate module to relay between a terminal module and speech recognition server and speech recognition server integration method
CN103430232B (zh) 利用设备停靠情境的语音识别
US8521539B1 (en) Method for chinese point-of-interest search
US8340958B2 (en) Text and speech recognition system using navigation information
US9449599B2 (en) Systems and methods for adaptive proper name entity recognition and understanding
US20050182558A1 (en) Car navigation system and speech recognizing device therefor
US20090112593A1 (en) System for recognizing speech for searching a database
US8374868B2 (en) Method of recognizing speech
EP1197951B1 (en) Handling homophones in a spoken query system
JP2005030982A (ja) 音声入力方法及び、車載装置
JP2006195576A (ja) 車載音声認識装置
AU2023258338A1 (en) Systems and methods for adaptive proper name entity recognition and understanding
KR101063607B1 (ko) 음성인식을 이용한 명칭 검색 기능을 가지는 네비게이션시스템 및 그 방법
US7295923B2 (en) Navigation device and address input method thereof
JP4977116B2 (ja) 音声認識装置、方法、およびプログラム
JP2017181631A (ja) 情報制御装置
WO2006028171A1 (ja) データ提示装置、データ提示方法、データ提示プログラムおよびそのプログラムを記録した記録媒体
KR20060098673A (ko) 음성 인식 방법 및 장치
JP4645708B2 (ja) コード認識装置および経路探索装置
US20060265388A1 (en) Information retrieval system and method for distinguishing misrecognized queries and unavailable documents
KR102128025B1 (ko) 음성인식 기반의 네비게이션 시스템 제어 방법
CN116246611A (zh) 用于确定车辆域的方法和用于车辆的语音识别系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: NEW ANST COMMUNICATION CO., LTD.

Free format text: FORMER OWNER: HAMANBECK AUTOMATED SYSTEMS CO., LTD.

Effective date: 20100421

C10 Entry into substantive examination
C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: KARLSBAD, GERMANY TO: MASSACHUSETTS STATE, U.S.A

SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20100421

Address after: Massachusetts, USA

Applicant after: Nuance Communications Inc

Address before: Carlsbad

Applicant before: Harman Becker Automotive Sys

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130102

Termination date: 20170328

CF01 Termination of patent right due to non-payment of annual fee