CN107112007A

CN107112007A - 语音识别装置及语音识别方法

Info

Publication number: CN107112007A
Application number: CN201480084337.3A
Authority: CN
Inventors: 丸田裕三
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-12-24
Filing date: 2014-12-24
Publication date: 2017-08-29
Anticipated expiration: 2034-12-24
Also published as: WO2016103358A1; US10403265B2; CN107112007B; US20180240455A1; DE112014007287T5; DE112014007287B4; JP6109451B2; JPWO2016103358A1

Abstract

本发明的目的在于提供一种抑制语音识别辞典的数据大小、并能对混合存在多种语言的语音进行语音识别的技术。语音识别辞典(5)包含多个地名辞典(51A～51C)及将其他语言的音素映射到对应语言的音素的多种门牌辞典(52BA～52BC)。从多个地名辞典(51A～51C)中设定用于由设定于语音识别语言设定部(6)的语言用语音识别部利用对应语言的音素进行语音识别的地名辞典，并且从多个门牌辞典(52BA～52BC)中设定用于由该语言用语音识别部将其他语言的音素置换为对应语言的音素并并进行语音识别的门牌辞典。

Description

语音识别装置及语音识别方法

技术领域

本发明涉及能实现语音识别的语音识别装置及语音识别方法。

背景技术

提出了通过内置语音识别装置对来自用户的语音进行语音识别，从而能输入地址的导航系统。在将上述导航系统用于欧洲等地区时，具有设定为导航系统所使用的语言的语言(以下记载为“系统设定语言”)与表示目的地的语言不同的情况。例如，在用户是英国人而目的地是德国的地址的情况下，假设系统设定语言为英语，表示目的地的语言为德语。

用于进行地名的语音识别的地名的音素(相当于发音记号)由地图制作公司提供，通常提供该地名所表示的地区中主要使用的语言的音素。例如，对于德国地名的音素，使用德语的音素。因此，在表示目的地的语言是德语的情况下，从效率的观点来看，优选使用由地图制作公司提供的德语的音素构成的语音识别辞典，并且使用与此对应的德语的语音识别引擎。

另一方面，对于系统设定语言，通常使用用户的母语。因此，在系统设定语言是英语的情况下，优选使用英语的语音识别引擎。

因此，在系统设定语言是英语而表示目的地的语言是德语的情况下，关于表示目的地的语言所优选的语音识别辞典与关于系统设定语言所优选的语音识别辞典是不同的。

然而，具有存在于英语及德语的一种语言中的音素(发音)不存在于另一种语言中的情况，因此存在以下问题：无法利用英语及德语的一种语言的语音识别引擎来处理另一种语言的音素。

为了解决该问题，提出了如下技术：使用将某一语言A的音素a与另一语言B的音素b中与该音素a相同或最接近的音素b相对应的语音识别辞典(例如专利文献1)。若使用上述语音识别辞典，则能将语言A的音素置换为语言B的音素并利用语言B的语音识别引擎来进行语音识别。下面，在语音识别辞典中有时也将某个语言的音素与另一语言的音素相对应的情况记载为“音素的映射”。

现有技术文献

专利文献

专利文献1：日本专利特开2011-033874号公报

发明内容

发明所要解决的技术问题

然而，在现有的语音识别装置中存在如下问题：即、无法对混合存在多种语言的语音进行语音识别，此外，实施了上述音素的映射的语音识别辞典的数据大小较大。

因此，本发明是鉴于上述问题点而完成的，其目的在于，提供一种能抑制语音识别辞典的数据大小、并能对混合存在多种语言的语音进行语音识别的技术。

解决技术问题的技术方案

本发明所涉及的语音识别装置包括：语音识别辞典，该语音识别辞典规定了语音识别对象的词汇；以及语音识别处理电路，该语音识别处理电路利用语音识别辞典来进行输入语音的语音识别。语音识别处理电路包含能利用各个预先设定的语言的音素进行语音识别的多个语言用语音识别处理电路。语音识别辞典包含：多个第1辞典，该多个第1辞典用于分别由多个语言用语音识别处理电路利用与自身相对应的语言即对应语言的音素来进行第1词汇的语音识别；以及多个第2辞典，该多个第2辞典用于分别由多个语言用语音识别处理电路将不同于对应语言的语言即其他语言的音素置换为对应语言的音素并进行第2词汇的语音识别，该多个第2辞典将关于第2词汇的其他语言的音素映射到对应语言的音素。语音识别装置还包括：语音识别语言设定处理电路，该语音识别语言设定处理电路从多个语言用语音识别处理电路中设定语音识别所要使用的语言用语音识别处理电路；以及语音识别辞典设定处理电路，该语音识别辞典设定处理电路从多个第1辞典中设定用于由语音识别语言设定处理电路所设定的语言用语音识别处理电路利用对应语言的音素来进行第1词汇的语音识别的第1辞典，并且从多个第2辞典中设定用于由语音识别语言设定处理电路所设定的语言用语音识别处理电路将其他语言的音素置换为对应语言的音素并进行第2词汇的语音识别的第2辞典。

本发明所涉及的语音识别方法包括如下步骤：准备语音识别辞典的步骤，所述语音识别辞典规定了语音识别对象的词汇；以及利用语音识别辞典来进行输入语音的语音识别的步骤。进行语音识别的步骤包含准备多个语言用语音识别处理电路的步骤，所述多个语言用语音识别处理电路能利用各个预先设定的语言的音素来进行语音识别。准备语音识别辞典的步骤包含如下步骤：准备多个第1辞典及多个第2辞典，其中，所述多个第1辞典用于分别由多个语言用语音识别处理电路利用与自身相对应的语言即对应语言的音素来进行第1词汇的语音识别，所述多个第2辞典与用于分别由多个语言用语音识别处理电路将不同于对应语言的语言即其他语言的音素置换为对应语言的音素并进行第2词汇的语音识别，所述多个第2辞典将关于第2词汇的其他语言的音素映射到对应语言的音素。语音识别方法还包括如下步骤：从多个语言用语音识别处理电路中设定语音识别所要使用的语言用语音识别处理电路的步骤；以及从多个第1辞典中设定用于由设定的语言用语音识别处理电路利用对应语言的音素来进行第1词汇的语音识别的第1辞典、并从多个第2辞典中设定用于由设定的语言用语音识别处理电路将其他语言的音素置换为对应语言的音素并进行第2词汇的语音识别的第2辞典的步骤。

发明效果

根据本发明，能抑制语音识别辞典的数据大小，并能对混合存在多种语言的语音进行语音识别。

本发明的目的、特征、方式以及优点通过以下详细的说明和附图来进一步阐明。

附图说明

图1是表示实施方式1所涉及的语音识别装置的硬件结构的框图。

图2是表示实施方式1所涉及的语音识别装置的主要结构的框图。

图3是表示实施方式1所涉及的语音识别装置的结构的框图。

图4是用于说明实施方式1所涉及的音素的映射的图。

图5是表示实施方式1所涉及的语音识别装置的动作的流程图。

图6是表示实施方式2所涉及的语音识别装置的结构的框图。

图7是表示实施方式2所涉及的语音识别装置的动作的流程图。

具体实施方式

<实施方式1>

下面，以将本发明的实施方式1所涉及的语音识别装置搭载于导航系统(或导航装置)的结构为例进行说明。

图1是表示本实施方式1所涉及的语音识别装置的硬件结构的框图。图1的语音识别装置具备例如由CPU(Central Processing Unit：中央处理单元)等构成的处理器81及例如由半导体存储器等构成的存储器82。

图2是表示实施方式1所涉及的语音识别装置的主要功能结构的框图。图2的语音识别装置包括语音识别部4、语音识别辞典5、语音识别语言设定部6及语音识别辞典设定部7。此处，语音识别部4、语音识别语言设定部6及语音识别辞典设定部7通过由图1的处理器81执行存储于存储器82等存储装置的程序，从而作为该处理器81的功能来实现。另外，上述功能也可以由多个处理器81来协作实现。语音识别辞典5对应于图1的存储器82、未图示的HDD(Hard Disk Drive：硬盘驱动器)等存储装置。

图3是表示该语音识别装置的主要功能结构及附加功能结构的框图。另外，仅由图3所示的附加结构仅仅是与本发明间接相关的结构，除了以下说明的结构以外也能适用各种结构。图3的语音识别装置除了图2的结构要素以外还具备语音输入部1、语音获取部2、声响分析部3。

接着，对本实施方式1所涉及的语音识别装置的图2及图3的各结构要素进行详细说明。

语音输入部1从外部(例如用户)获取语音。语音获取部2对由语音输入部1获取的语音进行数字信号化，从而生成语音信号。声响分析部3对语音信号进行分析并转换成声响特征的矢量序列或声响特征的时间序列。

语音识别部4利用规定有语音识别对象的词汇的语音识别辞典5，进行输入语音(声响特征的矢量序列或声响特征的时间序列)的语音识别。其结果是，语音识别部4从语音识别辞典5的词汇中输出最正确的词汇。

本实施方式1中，语音识别部4包含多个语言用语音识别部即语言用语音识别部4A、4B、4C(以下汇总记载为“语言用语音识别部4A～4C”)。

语言用语音识别部4A～4C分别是能利用预先设定的语言的音素进行语音识别的语音识别引擎。例如，语言用语音识别部4A具有用于识别与自身相对应的语言A的声响模型(未图示)，能利用该语言A的音素进行语音识别。语言用语音识别部4B及语言用语音识别部4C也同样地构成，分别能利用与自身相对应的语言B及语言C的音素进行语音识别。

另外，以下的说明中，将与各个语言用语音识别部4A～4C相对应的语言记载为“对应语言”，将不同于对应语言的语言记载为“其他语言”。具体而言，语言A对于语言用语音识别部4A而言为对应语言A，而对于语言用语音识别部4B而言为其他语言A。

语音识别部4适当利用语言用语音识别部4A～4C中的任一个语言用语音识别部，从而能适当地进行对应语言A～C中的一个的语音识别。

语音识别辞典5规定有语音识别对象的词汇。本实施方式1中，语音识别辞典5包含多个作为第1辞典的地名辞典51A、51B、51C(以下汇总记载为“地名辞典51A～51C”)，门牌辞典52AA、52BB、52CC，多个作为第2辞典的门牌辞典52BA、52CA、52AB、52CB、52AC、52BC。另外，以下的说明中，将门牌辞典52BA、52CA、52AB、52CB、52AC、52BC汇总记载为“门牌辞典52BA～52BC”。

地名辞典51A～51C是用于由语言用语音识别部4A～4C分别利用对应语言A～C的音素进行地名的词汇(第1词汇)的语音识别的辞典。例如，地名辞典51A中规定有主要使用对应语言A的地名的词汇。语言用语音识别部4A利用上述地名辞典51A，从而能根据对应语言A的音素的输入语音来进行确定对应语言A的音素的地名的语音识别。

然而，由于通常对应语言A的音素与语言B、C的音素不同，语言用语音识别部4A无法根据不同于对应语言A的其他语言B、C等的音素的输入语音来进行确定对应语言A的音素的地名的语音识别。该情况对于语言用语音识别部4B、4C而言也同样。

地名辞典52AA、52BB、52CC是用于由语言用语音识别部4A～4C分别利用对应语言A～C的音素进行门牌(house number)的词汇(第1词汇)的语音识别的辞典。例如，语言用语音识别部4A利用门牌辞典52AA，从而能根据对应语言A的音素的输入语音来进行确定对应语言A的音素的门牌的语音识别。该情况对于语言用语音识别部4B、4C而言也同样。

门牌辞典52BA、52CA是用于由语言用语音识别部4A将其他语言B、C的音素置换为对应语言A的音素并进行门牌的词汇(第2词汇、预先设定的数字的词汇)的语音识别的辞典。

图4是用于说明门牌辞典52AA、52BA、52CA的图。如图4所示，对除门牌辞典52AA以外的门牌辞典52BA、52CA实施音素的映射。

门牌辞典52BA是将关于门牌的词汇(第2词汇，预先设定的数字的词汇)的其他语言B的音素b映射到对应语言A的音素a中的与该音素b相同或最接近的音素a的语音识别辞典。门牌辞典52CA是将关于门牌的词汇(第2词汇，预先设定的数字的词汇)的其他语言C的音素c映射到对应语言A的音素a中的与该音素c相同或最接近的音素a的语音识别辞典。另外，能对音素的映射应用例如专利文献1所公开的技术等。

语言用语音识别部4A利用门牌辞典52AA，从而能根据对应语言A的音素的输入语音进行确定对应语言A的音素的门牌的语音识别。

语言用语音识别部4A利用门牌辞典52BA，从而能将其他语言B的音素的输入语音置换为对应语言A的音素中的相同或类似的音素的语音，根据置换后的输入语音进行确定对应语言A的音素的门牌的语音识别。

语言用语音识别部4A利用门牌辞典52CA，从而能将其他语言C的音素的输入语音置换为对应语言A的音素中的相同或类似的音素的语音，根据置换后的输入语音进行确定对应语言A的音素的门牌的语音识别。

如上所述，语言用语音识别部4A能利用门牌辞典52AA、52BA、52CA进行语音识别。

以上对门牌辞典52BA、52CA进行了说明，但图2、3的门牌辞典52AB、52CB、52AC、52BC也同样。也就是说，门牌辞典52AB、52CB是用于由语言用语音识别部4B将其他语言A、C的音素置换为对应语言B的音素并进行门牌的词汇的语音识别的语音识别辞典，是将关于门牌的词汇的其他语言A、C的音素映射到对应语言B的音素的语音识别辞典。门牌辞典52AC、52BC是用于由语言用语音识别部4C将其他语言A、B的音素置换为对应语言C的音素并进行门牌的词汇的语音识别的语音识别辞典，是将关于门牌的词汇的其他语言A、B的音素映射到对应语言C的音素的语音识别辞典。

语音识别语言设定部6从语言用语音识别部4A～4C中设定语音识别所要使用的一个语言用语音识别部。本实施方式1中，由用户预先设定上述导航系统中的目的地(例如经由地、最终到达地等)，语音识别语言设定部6基于该目的地设定语音识别所要使用的一个语言用语音识别部。

例如，语音识别语言设定部6预先存储有将多个地区和各地区所主要使用的语言相对应的表格。然后，语音识别语言设定部6从该表格中获取与目的地的地名所属地区相对应的语言，设定对该获取到的语言进行语音识别的语言用语音识别部。

以下的说明中，将语音识别语言设定部6所设定的语言用语言识别部记载为“设定语音识别部”。

接着，对由语音识别辞典设定部7所进行的地名辞典及门牌辞典的设定进行说明。

语音识别辞典设定部7从地名辞典51A～51C中设定用于由设定语音识别部(设定于语音识别语言设定部6的语言用语音识别部)利用对应语言的音素进行地名的语音识别的地名辞典。例如，在设定语音识别部是语言用语音识别部4A的情况下，语音识别辞典设定部7设定地名辞典51A。

此外，在系统设定语言(由导航系统设定的语言)与设定语音识别部的对应语言相同的情况下，语音识别辞典设定部7从门牌辞典52AA、52BB、52CC中设定用于由设定语音识别部利用对应语言的音素进行门牌的语音识别的门牌辞典。例如，在设定语音识别部是语言用语音识别部4A，系统设定语言是语言用语音识别部4A的对应语言A的情况下，语音识别辞典设定部7设定门牌辞典52AA。

另一方面，在系统设定语言是不同于设定语音识别部的对应语言的其他语言的情况下，语音识别辞典设定部7从门牌辞典52BA～52BC中设定用于由设定语音识别部将其他语言的音素置换为对应语言的音素并进行门牌的语音识别的门牌辞典。例如，在设定语音识别部是语言用语音识别部4A、系统设定语言是语言用语音识别部4A的其他语言B的情况下，语音识别辞典设定部7设定门牌辞典52BA。也就是说，在系统设定语言是其他语言的情况下，语音识别辞典设定部7将其他语言与系统设定语言相同的门牌辞典设定作为用于由设定语音识别部将其他语言的音素置换为对应语言的音素并进行语音识别的门牌辞典。

另外，设定语音识别部构成为对于输入语音的输入顺序的预先设定的第1部分进行利用了地名辞典(地名辞典51A～51C中的任一个地名辞典)的语音识别。并且，设定语音识别部构成为对于输入语音的输入顺序的预先设定的第2部分进行利用了门牌辞典(门牌辞典52AA、52BB、52CC及门牌辞典52BA～52BC中的任一个门牌辞典)的语音识别。

此处，通常在语音输入地址的一个话语中，地名比门牌先说出的情况较多，因此，本实施方式1中，将上述第1部分应用于输入语音的输入顺序的前半部分，将上述第2部分应用于输入语音的输入顺序的后半部分。

<动作>

图5是表示本实施方式1所涉及的语音识别装置的动作的流程图。另外，以下的说明中，以如下情况为例进行说明：即、目的地为德国的地址(目的地的语言为德语)，系统设定语言为英语，德语的语言用语音识别部为语言用语音识别部4A，德语的地名辞典为地名辞典51A，将英语的音素映射到德语的音素的门牌辞典为门牌辞典52BA。然而，这仅是一个示例，并不限于此。

首先，步骤S1中，语音输入部1获取(接受)来自用户的语音(话语)。步骤S2中，语音获取部2根据由语音输入部1获取的语音来生成语音信号。步骤S3中，声响分析部3对语音信号进行分析并转换成声响特征的矢量序列或声响特征的时间序列等。

步骤S4中，语音识别语言设定部6基于目的地从语言用语音识别部4A～4C中设定(选定)语言用语音识别部。上述示例中，由于目的地是德国的地名，因此语音识别语言设定部6设定德语的语言用语音识别部4A。即，设定语音识别部成为德语的言语用语音识别部4A。

步骤S5中，语音识别辞典设定部7从地名辞典51A～51C中设定(选定)用于由设定语音识别部利用对应语言的音素进行地名的语音识别的地名辞典。上述示例中，设定语音识别部为德语的语言用语音识别部4A，因此语音识别辞典设定部7设定德语的地名辞典51A。

步骤S6中，语音识别辞典设定部7从门牌辞典52AA、52BB、52CC及地名辞典52BA～52BC中设定(选定)用于由设定语音识别部利用系统设定语言的音素进行语音识别的门牌辞典。上述示例中，设定语音识别部是德语的语言用语音识别部4A，系统设定语言是英语，因此语音识别辞典设定部7设定将英语的音素映射到德语的音素的门牌辞典52BA。

步骤S7中，语音识别部4参照语音识别辞典5，对经声响分析的声响数据进行语音识别，输出最正确的识别结果。上述示例中，德语的语言用语音识别部4A对输入语音的输入顺序的前半部分进行利用了地名辞典51A的语音识别，对输入语音的输入顺序的后半部分进行利用了实施映射后的门牌辞典52BA的语音识别。步骤S7中从语音识别部4输出的识别结果从未图示的扬声器进行语音输出，或显示于未图示的显示器装置中。之后，结束图5的动作。

<实施方式1的总结>

例如，假设作为用户的英国人(系统设定语言为英语)将德国的地址作为目的地进行语音输入的情况。此时，预想在英国人以德语的发音说出德国的地名(例如“StuttgartNeckar strasse”)后，以英语的发音说出门牌(例如“one，two，three(1，2，3)”)的情况。

此处，本实施方式1所涉及的语音识别装置例如能利用第1辞典(地名辞典51A～51C)对“Stuttgart Neckar strasse”进行语音识别。然后，本实施方式1所涉及的语音识别装置能例如利用对“one，two，three”实施音素的映射后的第2辞典(门牌辞典52BA～52BC)进行语音识别。根据上述结构，能对例如混合存在有德语及英语等多个语言的一个话语进行语音识别。此外，由于对地名等不实施音素的映射，从而能降低实施了数据大小较大的音素的映射的语音识别辞典的比例。其结果是，能抑制语音识别辞典的数据大小。并且，也能期待误识别的降低。

此外，本实施方式1所涉及的语音识别装置对输入语音的输入顺序的预先设定的第1部分进行利用了地名辞典的语音识别，对输入语音的输入顺序的预先设定的第2部分进行利用了门牌辞典的语音识别。由此，能提高语音识别的精度。

<实施方式1的变形例>

实施方式1中，实施了音素的映射的各第2辞典(门牌辞典52BA～52BC)的第2词汇是门牌的词汇。然而，并不限于此，各第2辞典的第2词汇可以应用邮政编码等预先设定的数字的词汇。

此外，各第2辞典的第2词汇也可以应用导航系统中POI(point of interest：兴趣点)的预先设定的目录的词汇。并且，在系统设定语言是其他语言的情况下，语音识别辞典设定部7将其他语言与系统设定语言相同的第2辞典设定作为用于由设定语音识别部将其他语言的音素置换为对应语言的音素并进行上述目录的词汇的语音识别的第2辞典。

例如，假设在输入了“World Heritage(世界遗产)”这种英语的POI的目录的语音后输入了“Aachener Dom”这种德语的POI的语音的情况。对于该假设，可以在德语的言语用语音识别部4A对输入语音的输入顺序的前半部分进行利用了将英语的音素映射到德语的音素的第2辞典的语音识别，对输入语音的输入顺序的后半部分进行利用了德语的第1辞典的语音识别。在采用以上结构的情况下，对于目录及POI也能获得与实施方式1相同的效果。

此外，各第2辞典的第2词汇也可以应用导航系统中预先设定的命令的词汇。并且，在系统设定语言是其他语言的情况下，语音识别辞典设定部7将其他语言与系统设定语言相同的第2辞典设定作为用于由设定语音识别部将其他语言的音素置换为对应语言的音素并进行上述命令的词汇的语音识别的第2辞典。

例如，假设在输入了“Navigate to(导航去)”这种英语的命令的语音后输入“Aachener Dom”这种德语的POI的语音的情况。对于该假设，可以在德语的言语用语音识别部4A对输入语音的输入顺序的前半部分进行利用了将英语的音素映射到德语的音素的第2辞典的语音识别，对输入语音的输入顺序的后半部分进行利用了德语的第1辞典的语音识别。在采用以上结构的情况下，也能获得与实施方式1同样的效果。另外，例如在输入了“Play(播放)”这种英语的命令的语音后输入表示德语的曲名的语音的情况、及在输入了“Call(呼叫)”这种英语的命令的语音后输入表示德语的人名的语音的情况也相同。

另外，在实施方式1说明的结构中，利用未对地名实施音素的映射的第1辞典，利用对门牌实施了音素的映射的第2辞典。然而，并不限于此，也可以利用未对门牌实施了音素的映射的第1辞典，对地名实施了音素的映射的第2辞典。然而，如实施方式1所示，相比对大量存在的地名进行音素的映射的情况，对仅少量存在的门牌进行音素的映射的情况能更有效地抑制语音识别辞典的数据大小。

另外，以上说明的变形例也能应用于后述的实施方式2及之后的实施方式中。

<实施方式2>

实施方式1中，作为由用户预先设定导航系统中的目的地(例如经由地、最终到达地等)的情况，语音识别语言设定部7基于该目的地设定了语音识别所要使用的一个语言用语音识别部。然而，实际的运用中，有时在说话前并未预先设定上述目的地。因此，如以下说明的那样，本实施方式2中，即使未预先设定目的地，也能进行与实施方式1同样的动作。

图6是表示本实施方式2所涉及的语音识别装置的结构的框图。另外，本实施方式2所涉及的语音识别装置中，对与以上说明的结构要素相同或类似的部分标注相同的参照标号，并主要对不同部分进行说明。

图6的语音识别装置除了图3的结构要素以外还具备语音存储部8及一次识别结果判定部9。

此处，语音识别部8与图1的存储器82等存储装置相对应。一次识别结果判定部9通过由图1的处理器81执行存储于存储器82等存储装置中的程序，从而作为该处理器81的功能来实现。另外，上述功能也可以由多个处理器81来协作实现。

语音存储部8为了对于一个输入语音由语音识别部4进行多次语音识别而暂时存储该一个输入语音(此处为由声响分析部3转换后的声响特征的矢量序列或声响特征的时间序列)。语音存储部8在每次语音识别时都能利用即可，这样的语音存储部8能利用现有技术来实现，因此省略语音存储部8的详细说明及动作。

另外，如后文详细说明的那样，本实施方式2中，对于一个输入语音，由语音识别部4进行两次的语音识别。通过其中第一次的语音识别来获取目的地的语言。即，在进行了第一次的语音识别后，成为实质上与预先设定了目的地的状态相同的情况。然后，在第二次的语音识别中进行与实施方式1同样的语音识别。

本实施方式2中，语音识别辞典5包含多个地名辞典51A～51C、门牌及命令辞典53AA、53BB、53CC、多个作为第2辞典的门牌及命令辞典53BA、53CA、53AB、53CB、53AC、53BC。另外，以下的说明中，将门牌及命令辞典53BA、53CA、53AB、53CB、53AC、53BC汇总记载为“门牌及命令辞典53BA～53BC”。并且，语音识别辞典5还包含多个作为第3辞典的命令及垃圾辞典54A、54B、54C(以下汇总记载为“命令及垃圾辞典54A～54C”)。

语音识别辞典5中的地名辞典51A～51C与实施方式1所涉及的地名辞典51A～51C相同。

门牌及命令辞典53AA、53BB、53CC是将实施方式1所涉及的门牌辞典52AA、52BB、52CC的门牌置换为门牌及导航系统的命令后的辞典。因此，例如语言用语音识别部4A利用门牌及命令辞典53AA，从而能根据对应语言A的音素的输入语音来进行确定对应语言A的音素的地名及命令的语音识别。另外，设为导航系统的命令包含“Navigate to Germany(导航去德国)”及“Navigate to French(导航去法国)”等。

门牌及命令辞典53BA～53BC是将实施方式1所涉及的门牌辞典52BA～52BC的门牌置换为门牌及导航系统的命令后的辞典。因此，例如语言用语音识别部4A利用门牌及命令辞典53BA，从而能根据其他语言B的音素的输入语音，将该其他语言B的音素置换为对应语言A的音素，并能根据置换后的输入语音进行确定对应语言A的音素的门牌及命令的语音识别。

命令及垃圾辞典54A～54C是用于由各个语言用语音识别部4A～4C分别利用对应语言的音素进行包含垃圾识别在内的第一次的语音识别的辞典。

下面，以如下情况为例进行说明：即、命令及垃圾辞典54A的对应语言A为德语，“navigieren Deutschland”及“navigieren Frankreich”等导航系统的命令被设定于命令及垃圾辞典54A。此外，以如下情况为例进行说明：即、命令及垃圾辞典54B的对应语言B为英语，“Navigate to Germany”及“Navigate to French”等导航系统的命令被设定于命令及垃圾辞典54B。然而，这些仅是一个示例，并不限于此。

垃圾识别是利用被称为垃圾声响模型的模型来进行识别的识别方法。根据上述垃圾识别，无论对于何种话语，均能输出表示该话语与辞典内的几个词汇分别一致的程度的识别分数。

例如，英语的语言用语音识别部4B利用命令及垃圾辞典54B进行包含垃圾识别在内的语音识别。该情况下，无论输入语音是“Navigate to Germany Stuttgart Neckarstrasse”及“Navigate to Germany Aachener Dom”的哪一个，语言用语音识别部4B对“Navigate to Germany<...>”的语音识别的结果赋予比“Navigate to French<…>”等的语音识别的结果要高的识别分数。另外，<…>通常是表示垃圾识别结果的记号。

本实施方式2中，对导航系统中预先设定的多个命令进行如上所述的垃圾识别。并且，各命令设为包含表示可设定为导航系统的目的地的地名、国名、以及它们所使用的语言的至少一个的词汇(例如上述的Deutschland、Frankreich、Germany、French等)。

一次识别结果判定部9基于利用了命令及垃圾辞典54A～54C的第一次的语音识别的结果中所包含的垃圾识别的结果，来判定第二次的语音识别所要使用的语言。本实施方式2中，一次识别结果判定部9基于垃圾识别的结果从多个命令中决定一个命令，基于该一个命令中所包含的地名、国名及表示它们所使用的语言的至少一种语言的词汇，来判定第二次的语音识别所要使用的语言。

例如，作为使用了命令及垃圾辞典54A～54C的第一次的语音识别的结果中所包含的垃圾识别的结果，“Navigate to Germany<…>”的识别分数最高。该情况下，一次识别结果判定部9将多个命令中识别分数最高的“Navigate to Germany”决定作为上述一个命令，并基于该命令中所包含的“Germany”将第二次的语音识别所使用的语言判定为“德语”。

语音识别辞典设定部7在系统设定语言是其他语言的情况下，将其他语言与系统设定语言相同的门牌及命令辞典设定作为用于由设定语音识别部将其他语言的音素置换为对应语言的音素并进行门牌及命令(第2词汇)的语音识别的门牌及命令辞典53BA～53BC。

<动作>

图7是表示本实施方式2所涉及的语音识别装置的动作的流程图。另外，下面以如下情况为例进行说明：即、系统设定语言为英语，德语的语言用语音识别部是语言用语音识别部4A，英语的语言用语音识别部是语言用语音识别部4B，德语的地名辞典为地名辞典51A，将英语的音素映射到德语的音素后的门牌及命令辞典为门牌及命令辞典53BA，英语的命令及垃圾辞典为命令及垃圾辞典54B。并且，以如下情况为例进行说明：英语发音的命令“Navigate to Germany”、德语发音的地名“Stuttgart Neckar strasse”、英语发音的门牌“one，two，three”被依次输入。然而，这仅是一个示例，并不限于此。

首先，步骤S11～S13中进行与实施方式1所涉及的步骤S1～S3相同的动作。

之后，步骤S14中，语音存储部8存储由声响分析部3转换后的声响特征的矢量序列或声响特征的时间序列。

步骤S15中，语音识别语言设定部6基于系统设定语言，从语言用语音识别部4A～4C中设定第一次的语音识别中所要使用的语言用语音识别部。上述示例中，系统设定语言为英语，因此语音识别语言设定部6设定英语的语言用语音识别部4B。另外，以下的说明中，有时也将步骤S15中语音识别语言设定部6所设定的语言用语言识别部记载为“第一次的设定语音识别部”。

步骤S16中，语音识别辞典设定部7从命令及垃圾辞典54A～54C中设定用于由第一次的设定语音识别部利用对应语言的音素进行包含垃圾识别在内的语音识别的命令及垃圾辞典。上述示例中，第一次的设定语音识别部为英语的语言用语音识别部4B，因此语音识别辞典设定部7设定英语的命令及垃圾辞典54B。

步骤S17中，语音识别部4参照语音识别辞典5，对经声响分析的声响数据进行第一次的语音识别，输出最正确的识别结果。上述示例中，英语的语言用语音识别部4B对输入语音“Navigate to Germany Stuttgart Neckar strasse one，two，three”进行包含利用了命令及垃圾辞典54B的垃圾识别在内的语音识别。作为该垃圾识别的结果，对“Navigate toGermany<…>”这一命令赋予最高的识别分数。

步骤S18中，一次识别结果判定部9基于垃圾识别的结果，从多个命令中决定一个命令，基于该一个命令中所包含的地名、国名及表示它们所使用的语言的至少一种语言的词汇，来判定第二次的语音识别所要使用的语言。也就是说，一次识别结果判定部9对与实施方式1中的目的地的语言实质相同的语言进行判定。

上述示例中，一次识别结果判定部9从多个命令中决定识别分数最高的“Navigateto Germany”，并基于该命令中所包含的“Germany”将第二次的语音识别所使用的语言即目的地的语言判定为“德语”。

步骤S19中进行与实施方式1所涉及的步骤S4相同的动作。具体而言，语音识别语言设定部6基于一次识别结果判定部9判定得到的语言，从语言用语音识别部4A～4C中设定语言用语音识别部来作为第二次的语音识别所要使用的语言用语音识别部。上述示例中，由于目的地的语言是德语，因此语音识别语言设定部6设定德语的语言用语音识别部4A。另外，以下的说明中，将步骤S19中语音识别语言设定部6所设定的语言用语言识别部记载为“第二次的设定语音识别部”。

步骤S20中进行与实施方式1所涉及的步骤S5相同的动作。具体而言，语音识别辞典设定部7从地名辞典51A～51C中设定用于由第二次的设定语音识别部利用对应语言的音素进行地名(第1词汇)的语音识别的地名辞典。上述示例中，第二次的设定语音识别部为德语的语言用语音识别部4A，因此语音识别辞典设定部7设定德语的地名辞典51A。

步骤S21中进行与实施方式1所涉及的步骤S6相同的动作。具体而言，语音识别辞典设定部7从门牌及命令辞典53AA、53BB、53CC和门牌及命令辞典53BA～53BC中设定用于由第二次的设定语音识别部利用系统设定语言的音素进行门牌及命令(第2词汇)的语音识别的门牌及命令辞典。上述示例中，第二次的设定语音识别部是德语的语言用语音识别部4A，系统设定语言是英语，因此语音识别辞典设定部7设定将英语的音素映射到德语的音素后的门牌及命令辞典53BA。

步骤S22中，将存储于语音存储部8的声响特征的矢量序列或声响特征的时间序列、即与进行第一次的语音识别后的声响特征相同的声响特征的矢量序列或声响特征的时间序列输入至语音识别部4。

步骤S23中，语音识别部4参照语音识别辞典5，对输入的声响数据进行第二次的语音识别，输出最正确的识别结果。上述示例中，德语的语言用语音识别部4A对输入语音“Stuttgart Neckar strasse”进行利用了地名辞典51A的语音识别，对输入语音“Navigateto Germany”及输入语音“one，two，three”进行利用了实施映射后的门牌及命令辞典53BA的语音识别。步骤S23中从语音识别部4输出的识别结果从未图示的扬声器进行语音输出，或显示于未图示的显示器装置中。之后，结束图7的动作。

<实施方式2的总结>

在如上所述的本实施方式2所涉及的语音识别装置中，也能获得与实施方式1相同的效果。并且，本实施方式2中，对一个输入语音进行包含垃圾识别在内的第一次的语音识别，从而获取目的地的语言，并通过设定了目的地的语言的第二次的语音识别对该一个输入语音进行与实施方式1同样的语音识别。因此，能省去预先设定目的地的过程。

<实施方式2的变形例>

实施方式2中，在第二次的语音识别时，对输入语音(声响特征的矢量序列或声响特征的时间序列)的命令部分进行了语音识别，该语音识别利用了实施映射后的门牌及命令辞典。然而，并不限于此，若能从输入语音(音响特征的矢量序列或音响特征的时间序列)去除命令部分(例如“Navigate to Germany”)，则可以在剩余的部分(例如“Stuttgart Neckarstrasse one，two，three”)中，对前半部分进行利用了地名辞典的语音识别，对后半部分进行利用了门牌辞典的语音识别。也就是说，在该情况下，不使用门牌及命令辞典53AA、53BB、53CC、53BA～53BC，而能与实施方式1同样地使用门牌辞典52AA、52BB、52CC、52BA～52BC。

此外，实施方式2中，对未设定目的地的语言的情况进行了说明，但并不限于此。例如，在未设定要检索的人名的语言的情况下，在依次输入了英语发音的命令“CallJapanese”、日语发音的人名“やまだたろう”时，也能与上述同样地进行语音识别。

<其他的变形例>

以上说明中，语音识别部4通过由图1的处理器81执行存储于存储器82等存储装置中的程序来实现。然而，并不限于上述作为软件来实现的语音识别部4，也可以由与该语音识别部4具有同样的功能的硬件来实现。也就是说，语音识别装置可以具备作为上位概念的语音识别处理电路，该上位概念在作为软件来实现的语音识别部4和与语音识别部4具有同样的功能的硬件两者之间是共通的。

此外，语音识别装置可以包括同样的语言用语音识别处理电路以作为语言用语音识别部4A～4C的上位概念，包括同样的语音识别语言设定处理电路以作为语音识别语言设定部6的上位概念，包括同样的语音识别辞典设定处理电路以作为语音识别辞典设定部7的上位概念。同样地，实施方式2所涉及的语音识别装置可以具备同样的一次识别结果判定处理电路以作为一次识别结果判定部9的上位概念。

此外，以上说明的语音识别装置不仅是能搭载于车辆的导航装置，也包含将便携式导航装置(Portable Navigation Device)、通信终端(例如便携式电话、智能手机、及平板电脑等移动终端)、安装于上述设备的应用程序的功能、及服务器等进行适当组合来作为系统而构成的语音识别系统。该情况下，以上说明的语音识别装置的各功能或各结构要素可以分散地配置于构建上述系统的各设备，也可以集中配置于某一个设备。

另外，本发明在其发明的范围内能够自由地对各实施方式和各变形例进行组合，或者适当地对各实施方式和各变形例进行变形、省略。

虽然对本发明进行了详细的说明，但上述的说明在所有的方式中均为例示，本发明并不限于此。未进行例示的无数的变形例可在不脱离本发明的范围的情况下设想得到。

标号说明

4 语音识别部、

4A、4B、4C 语言用语音识别部、

5 语音识别辞典、

6 语音识别语言设定部、

7 语音识别辞典设定部、

8 语音存储部、

9 一次识别结果判定部、

51A、51B、51C 地名辞典、

52AA、52BA、52CA、52AB、52BB、52CB、52AC、52BC、52CC 门牌辞典、

53AA、53BA、53CA、53AB、53BB、53CB、53AC、53BC、53CC 门牌及命令辞典、

54A、54B、54C 命令及垃圾辞典。

Claims

1.一种语音识别装置，其特征在于，包括：

语音识别辞典，该语音识别辞典规定了语音识别对象的词汇；以及

语音识别处理电路，该语音识别处理电路利用所述语音识别辞典来进行输入语音的语音识别，

所述语音识别处理电路包含能利用各个预先设定的语言的音素来进行所述语音识别的多个语言用语音识别处理电路，

所述语音识别辞典包含：多个第1辞典，该多个第1辞典用于分别由所述多个语言用语音识别处理电路分别利用与自身相对应的所述语言即对应语言的音素来进行第1词汇的所述语音识别；以及多个第2辞典，该多个第2辞典用于分别由所述多个语言用语音识别处理电路分别将不同于所述对应语言的所述语言即其他语言的音素置换为所述对应语言的音素并进行第2词汇的所述语音识别，该多个第2辞典将关于所述第2词汇的所述其他语言的音素映射到所述对应语言的音素，

所述语音识别装置还包括：语音识别语言设定处理电路，该语音识别语言设定处理电路从所述多个语言用语音识别处理电路中设定所述语音识别所要使用的所述语言用语音识别处理电路；以及

语音识别辞典设定处理电路，该语音识别辞典设定处理电路从所述多个第1辞典中设定用于由所述语音识别语言设定处理电路所设定的所述语言用语音识别处理电路利用所述对应语言的音素来进行所述第1词汇的所述语音识别的所述第1辞典，并且从所述多个第2辞典中设定用于由所述语音识别语言设定处理电路所设定的所述语言用语音识别处理电路将所述其他语言的音素置换为所述对应语言的音素并进行所述第2词汇的所述语音识别的所述第2辞典。

2.如权利要求1所述的语音识别装置，其特征在于，

所述语音识别语言设定处理电路基于导航系统中的目的地来设定所述语音识别所要使用的所述语言用语音识别处理电路。

3.如权利要求1所述的语音识别装置，其特征在于，

各所述第2辞典的所述第2词汇包含预先设定的数字的词汇。

4.如权利要求3所述的语音识别装置，其特征在于，

所述语音识别辞典设定处理电路在导航系统所设定的语言是所述其他语言的情况下，

作为用于由所述语音识别语言设定处理电路所设定的所述语言用语音识别处理电路将所述其他语言的音素置换为所述对应语言的音素并进行所述第2词汇的所述语音识别的所述第2辞典，设定所述其他语言与所述导航系统所设定的语言相同的所述第2辞典。

5.如权利要求1所述的语音识别装置，其特征在于，

各所述第2辞典的所述第2词汇包含导航系统中的POI(point of interest：兴趣点)的预先设定的目录的词汇。

6.如权利要求5所述的语音识别装置，其特征在于，

所述语音识别辞典设定处理电路在所述导航系统所设定的语言是所述其他语言的情况下，

7.如权利要求1所述的语音识别装置，其特征在于，

各所述第2辞典的所述第2词汇包含导航系统中的预先设定的命令的词汇，

8.如权利要求1所述的语音识别装置，其特征在于，

所述语音识别语言设定处理电路所设定的所述语言用语音识别处理电路对所述输入语音的输入顺序的预先设定的第1部分进行利用了所述第1辞典的语音识别，对所述输入语音的输入顺序的预先设定的第2部分进行利用了所述第2辞典的语音识别。

9.如权利要求1所述的语音识别装置，其特征在于，还包括：

存储装置，该存储装置为了利用所述语音识别处理电路对一个所述输入语音进行多次所述语音识别而存储该一个输入语音；以及

一次识别结果判定处理电路，

所述语音识别辞典还包含多个第3辞典，该多个第3辞典用于分别由所述多个语言用语音识别处理电路分别利用所述对应语言的音素进行包含垃圾识别在内的第一次语音识别，

所述语音识别语言设定处理电路基于导航系统所设定的语言，从所述多个语言用语音识别处理电路中设定所述第一次语音识别所要使用的所述语言用语音识别处理电路，所述语音识别辞典设定电路从所述多个第3辞典中设定用于由所述语音识别语言设定处理电路所设定的所述第一次语音识别所要使用的所述语言用语音识别处理电路利用所述对应语言的音素进行包含所述垃圾识别在内的所述第一次语音识别的所述第3辞典，

所述一次识别结果判定处理电路基于利用了所述第3辞典的所述第一次语音识别的结果所包含的所述垃圾识别的结果，来判定第二次语音识别所要使用的所述语言，

所述语音识别语言设定处理电路基于由所述一次识别结果判定处理电路判定得到的所述语言，从所述多个语言用语音识别处理电路中设定所述第二次语音识别所要使用的所述语言用语音识别处理电路，所述语音识别辞典设定处理电路从所述多个第1辞典中设定用于由所述语音识别语言设定处理电路所设定的所述第二次语音识别所要使用的所述语言用语音识别处理电路利用所述对应语言的音素进行所述第1词汇的所述语音识别的所述第1辞典，并且从所述多个第2辞典中设定用于由所述语音识别语言设定处理电路所设定的所述第二次语音识别所要使用的所述语言用语音识别处理电路将所述其他语言的音素置换为所述对应语言的音素并进行所述第2词汇的所述语音识别的所述第2辞典。

10.如权利要求9所述的语音识别装置，其特征在于，

对所述导航系统中的预先设定的多个命令进行所述垃圾识别，

各所述命令包含表示可设定为所述导航系统的目的地的地名和国名，以及所述地名和所述国名所使用的语言的至少一个的词汇。

11.如权利要求10所述的语音识别装置，其特征在于，

所述一次识别结果判定处理电路基于所述垃圾识别的结果，从所述多个命令中决定一个命令，基于该一个命令中所包含的表示所述地名、所述国名及所述语言的至少一个的词汇，来判定所述第二次语音识别所要使用的语言。

12.如权利要求9所述的语音识别装置，其特征在于，

各所述第2辞典的所述第2词汇包含所述导航系统中的预先设定的命令的词汇，

13.一种语音识别方法，其特征在于，包括如下步骤：

准备语音识别辞典的步骤，所述语音识别辞典规定了语音识别对象的词汇；以及

利用所述语音识别辞典来进行输入语音的语音识别的步骤，

进行所述语音识别的步骤包含准备多个语言用语音识别处理电路的步骤，所述多个语言用语音识别处理电路能利用各个预先设定的语言的音素来进行所述语音识别，

准备所述语音识别辞典的步骤包含如下步骤：准备多个第1辞典及多个第2辞典，其中，所述多个第1辞典用于分别由所述多个语言用语音识别处理电路利用与自身相对应的所述语言即对应语言的音素来进行第1词汇的所述语音识别，所述多个第2辞典与用于分别由所述多个语言用语音识别处理电路将不同于所述对应语言的所述语言即其他语言的音素置换为所述对应语言的音素并进行第2词汇的所述语音识别，所述多个第2辞典将关于所述第2词汇的所述其他语言的音素映射到所述对应语言的音素，

所述语音识别方法还包括如下步骤：

从所述多个语言用语音识别处理电路中设定所述语音识别所要使用的所述语言用语音识别处理电路的步骤；以及

从所述多个第1辞典中设定用于由设定的所述语言用语音识别处理电路利用所述对应语言的音素来进行所述第1词汇的所述语音识别的所述第1辞典、并从所述多个第2辞典中设定用于由设定的所述语言用语音识别处理电路将所述其他语言的音素置换为所述对应语言的音素并进行所述第2词汇的所述语音识别的所述第2辞典的步骤。