CN105793920B

CN105793920B - 声音识别装置及声音识别方法

Info

Publication number: CN105793920B
Application number: CN201380081091.XA
Authority: CN
Inventors: 濑户祐介
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2013-11-20
Filing date: 2013-11-20
Publication date: 2017-08-08
Anticipated expiration: 2033-11-20
Also published as: DE112013007617B4; DE112013007617T5; JPWO2015075789A1; US9711136B2; WO2015075789A1; JP6080978B2; US20160240188A1; CN105793920A

Abstract

本发明提供一种声音识别装置及声音识别方法。声音获取部(1)获取用户自由说话的原声音。声音数据加工部(7)对原声音信号进行加工以生成加工声音信号。音响模型切换部(4)基于声音识别部(5)利用各语言的音响模型(3‑1～3‑x)对加工声音信号的音响特征的时间序列数据进行识别处理而计算出的每一语言的识别分数，从多个音响模型(3‑1～3‑x)中决定1个音响模型。

Description

声音识别装置及声音识别方法

技术领域

本发明涉及识别用户说话的声音的声音识别装置及声音识别方法。

背景技术

近年的声音识别装置可识别多种语言。这种声音识别装置中，为了提高识别率，需要使用与用户所使用的语言相适合的音响模型来进行识别处理。例如，即使是相同的英语，母语为德语的用户和母语为法语的用户的发音不同，因此，需要使用适合各自的音响模型。

以往，作为多种语言的切换方法，例如有专利文献1所记载的电子词典装置的使用语言切换方法。该电子词典装置构成为包括对每一语言登记单词的登记单元、判定用户说话的声音和登记在登记单元中的单词是否一致的判定单元、以及切换到与一致的单词对应的语言的词典的切换单元。用户需要预先将与各语言对应的单词登记在登记单元中，在切换到要使用的语言的词典时，进行与该语言对应的单词的发音。

现有技术文献

专利文献

专利文献1：日本专利特开2001-282788号公报

发明内容

发明所要解决的技术问题

在上述声音识别装置中，为了切换到与用户使用的语言相适合的音响模型而利用例如专利文献1那样的方法时，存在如下问题：要求用户进行单词的登记及说话，对用户而言，这种的操作较为麻烦。

本发明是为了解决上述问题而完成的，其目的在于提供一种不要求用户进行单词的登记及说话之类的特别操作、而自动切换到适当的音响模型的声音识别装置及声音识别方法。

解决技术问题的技术方案

本发明的声音识别装置包括：声音获取部，该声音获取部获取声音并作为原声音信号输出；声音数据加工部，该声音数据加工部对原声音信号进行加工以生成加工声音信号；音响分析部，该音响分析部对原声音信号及加工声音信号进行分析以生成音响特征的时间序列数据；与作为识别对象的多种语言相对应的多个音响模型；声音识别部，该声音识别部利用各语言的音响模型，将原声音信号的音响特征的时间序列数据转换成各语言的声音标签串，生成各语言的判定用词典，并利用各语言的音响模型和判定用词典，对加工声音信号的音响特征的时间序列数据进行识别处理并对每一语言计算识别分数；以及音响模型切换部，该音响模型切换部基于声音识别部计算出的每一语言的识别分数，从多个音响模型中决定一个音响模型。

本发明的声音识别方法包括：声音数据加工步骤，该声音数据加工步骤中，对数字信号化后的声音即原声音信号进行加工以生成加工声音信号；音响分析步骤，该音响分析步骤中，对原声音信号及加工声音信号进行分析以生成音响特征的时间序列数据；判定词典生成步骤，该判定词典生成步骤中，利用与作为识别对象的多种语言相对应的多个音响模型，将原声音信号的音响特征的时间序列数据转换成各语言的声音标签串，生成各语言的判定用词典；识别分数计算步骤，该识别分数计算步骤中，利用各语言的音响模型和判定用词典，对加工声音信号的音响特征的时间序列数据进行识别处理并对每一语言计算识别分数；以及音响模型决定步骤，该音响模型决定步骤中，基于每一语言的识别分数，从多个所述音响模型中决定一个音响模型。

发明效果

根据本发明，使用用户自由说话的声音来决定音响模型，因此，用户无需为了切换音响模型而进行单词的登记及说话等特别操作。因此，能够消除操作的复杂性。此外，通过对原声音信号施加重叠环境噪音等加工，可考虑环境噪音等来决定音响模型，可防止切换到不合适的音响模型。

附图说明

图1是表示本发明实施方式1的声音识别装置的基本概念的框图。

图2是表示实施方式1的声音识别装置中决定适合用户的音响模型的处理的流程图。

图3是表示图2的步骤ST4的处理细节的流程图。

图4是表示图2的步骤ST5的处理细节的流程图。

图5是表示图2的步骤ST5的处理中求出的识别分数的一个示例的表。

图6是表示本发明实施方式2的声音识别装置的结构例的框图。

具体实施方式

以下，为了更详细地对本发明进行说明，根据附图对用于实施本发明的方式进行说明。

实施方式1

图1是表示本发明实施方式1的声音识别装置的基本概念的框图。该声音识别装置包括声音获取部1、音响分析部2、按每一语言而准备的音响模型3-1～3-x(x为任意数)、音响模型切换部4、声音识别部5、声音数据存储部6、声音数据加工部7、词典生成部8、按每一语言而生成的判定用词典9-1～9-x。

声音获取部1利用例如PCM(Pulse Code Modulation：脉冲编码调制)将从未图示的麦克风输入的用户说话的声音(以下记为原声音)进行A/D(Analog/Digital：模拟/数字)转换，进行数字信号化。

另外，在以下的说明中，将对原声音进行数字信号化后的声音信号记为原声音信号。

声音数据存储部6存储由声音获取部1输出的原声音信号。

声音数据加工部7从声音数据存储部6获取原声音信号，对该原声音信号进行加工，新生成1个模式以上的声音信号。

另外，在以下的说明中，将经加工后的声音信号记为加工声音信号。

作为加工方法，例如可举出在使用声音识别装置的环境下而假设的环境噪音的重叠、音量的变更、速度的变更等或它们的组合，只要是不会消除用户说话的特征的加工方法即可。另一方面，避免人声混入的声音的重叠及频率的变更。

音响分析部2对由声音获取部1进行数字信号化后的原声音信号及由声音数据加工部7生成的加工声音信号进行分析，转换成音响特征的时间序列数据。

该音响分析部2例如以一定时间间隔对声音信号进行分析，并输出表示声音的特征的音响特征的时间序列数据(音响特征量矢量)。

音响模型3-1～3-x为与第1～第x语言各自的声音标签(例如音素标签)对应的标准的音响特征，该音响特征例如由HMM(Hidden Markov Model：隐马尔可夫模型)等进行模型化。

例如，将以英语为母语的用户说话的英语设为第1语言，为该第1语言准备音响模型3-1及后述的判定用词典9-1。另一方面，将以德语为母语的用户说话的英语设为第2语言，为该第2语言准备音响模型3-2及后述的判定用词典9-2。

声音识别部5在决定适合用户的音响模型时，将由音响分析部2输出的音响特征的时间序列数据作为输入，与音响模型3-1～3-x分别进行对照，求解并输出所对应的声音标签串(例如音素标签串)。

在决定适合用户的音响模型时，声音识别部5将由音响分析部2输出的音响特征的时间序列数据作为输入，利用音响模型3-1～3-x和判定用词典9-1～9-x来执行对音响特征的时间序列数据的声音识别处理，输出识别分数来作为识别结果。

另一方面，在通常的声音识别处理中，声音识别部5将由音响分析部2输出的音响特征的时间序列数据作为输入，利用由音响模型切换部4决定的音响模型3-1～3-x中的某一个音响模型来执行声音识别处理，输出识别结果。

词典生成部8在决定适合用户的音响模型时，将由声音识别部5输出的音素标签串存放到所对应语言的判定用词典9-1～9-x。

例如，在声音识别部5将音响特征的时间序列数据与第1语言的音响模型3-1进行对照并输出所对应的音素标签串的情况下，词典生成部8将该音素标签串存放在第1语言的判定用词典9-1中。

另外，也可构成为使声音识别部5具有词典生成部8的功能，使声音识别部5生成判定用词典9-1～9-x。

音响模型切换部4基于由声音识别部5进行声音识别处理后的加工声音信号的识别结果(识别分数)，从音响模型3-1～3-x中，决定适合发出原声音的用户的音响模型，并通知给声音识别部5。

对于音响模型切换部4决定音响模型的处理，将在后面阐述。

另外，声音数据存储部6、音响模型3-1～3-x、以及判定用词典9-1～9-x可以存储在公共的存储元件或存储装置等中，也可以分别存储在独立的存储元件或存储装置等中。

声音识别装置例如构成为具有存放程序的存储器及执行该程序的CPU(CentralProcessing Unit：中央处理器)，通过使CPU执行程序，来利用软件执行声音获取部1、音响分析部2、音响模型切换部4、声音识别部5、声音数据加工部7以及词典生成部8所具有的功能，或者也可以利用硬件来置换其中一部分。

虽然声音识别装置构成为以音素单位来进行声音识别处理，但也可构成为以音素以外的单位来进行声音识别处理。

接着，利用图2～图4所示的流程图，对实施方式1的声音识别装置的处理进行说明。

图2是表示决定适合用户的音响模型的处理的流程图。

首先，声音获取部1经由麦克风将用户自由说话的声音获取作为原声音，例如利用PCM进行A/D转换来作为原声音信号(步骤ST1)，并将其存放在声音数据存储部6中(步骤ST2)。

接着，声音数据加工部7从声音数据存储部6获取原声音信号，对该原声音信号进行加工，新生成1个模式以上的加工声音信号(步骤ST3)。

之后，音响分析部2对原声音信号进行分析，生成音响特征的时间序列数据，声音识别部5将该音响特征的时间序列数据与音响模型3-1～3-x分别进行对照，求出所对应的音素标签串，词典生成部8将该音素标签串存放到对应语言的判定用词典9-1～9-x中(步骤ST4)。

这里，利用图3所示的流程图，来对步骤ST4的处理的详细情况进行说明。

首先，音响分析部2对原声音信号进行分析，并将其转换成音响特征的时间序列数据(步骤ST11)。

接着，音响模式切换部4将用于对音响模型3-1～3-x进行计数的计数器n初始化(步骤ST12)。然后，音响模型切换部4在计数器n为音响模型数x以下的情况(步骤ST13为“是”)下，对声音识别部5输出利用第n语言的音响模型3-n来识别原声音信号的指示(步骤ST14)。

接着，声音识别部5将由音响分析部2输出的原声音信号的音响特征的时间序列数据和由音响模型切换部4指示的第n语言的音响模型3-n进行对照，输出与该音响特征的时间序列数据对应的第n语言的音素标签串(步骤ST15)。

之后，词典生成部8将由声音识别部5输出的第n语言的音素标签串存放到第n语言的判定用词典9-n中(步骤ST16)。然后，音响模型切换部4使计数器n增加(步骤ST17)，返回至步骤ST13的处理。

重复步骤ST13～ST17的处理，在结束对原声音信号生成所有语言的音素标签串之后，音响模型切换部4判定为计数器n大于音响模型数x(步骤ST13为“否”)，前进至图2的流程图的步骤ST5。

返回至图2的步骤ST5，音响分析部2对各加工声音信号进行分析，生成音响特征的时间序列数据，声音识别部5利用音响模型3-1～3-x和各自对应的判定用词典9-1～9-x，对各加工声音信号的音响特征的时间序列数据进行声音识别处理，并输出识别分数，音响模型切换部4以与音响模型3-1～3-x相对应的方式存储各识别分数(步骤ST5)。

这里，利用图4所示的流程图，来对步骤ST5的处理的详细情况进行说明。

首先，音响分析部2利用声音数据加工部7对根据1个原声音信号生成的多个模式(例如，第1～第y模式；y为任意数)的加工声音信号进行分析，将加工声音信号分别转换成音响特征的时间序列数据(步骤ST21)。

音响模式切换部4将用于对第1～第y模式的加工声音信号进行计数的计数器m初始化(步骤ST22)。然后，音响模型切换部4在计数器m为加工声音信号数y以下的情况(步骤ST23为“是”)下，将用于对音响模型3-1～3-x进行计数的计数器n初始化(步骤ST24)，在计数器n为音响模型数以下的情况(步骤ST25为“是”)下，向声音识别部5输出指示，使其利用第n语言的音响模型3-n和判定用词典9-n来对第m模式的加工声音信号进行声音识别处理。接着，声音识别部5将第m模式的加工声音信号的音响特征的时间序列数据作为输入，利用由音响模型切换部4指示的第n语言的音响模型3-n和判定用词典9-n来执行声音识别处理，输出识别分数来作为识别结果(步骤ST26)。

接着，音响模型切换部4例如如图5所示，将由声音识别部5输出的第m模式的加工声音信号的识别分数与第n语言的音响模型3-n相对应地进行存储(步骤ST27)。然后，音响模型切换部4使计数器n增加(步骤ST28)，返回至步骤ST25的处理。

重复步骤ST25～ST28的处理，在结束对第m模式的加工声音信号进行所有语言的声音识别处理之后，音响模型切换部4判定为计数器n大于音响模型数(步骤ST25为“否”)，将计数器m增加(步骤ST29)，返回至步骤ST23的处理。

重复步骤ST23～ST29的处理，在结束对所有模式的加工声音信号进行所有语言的声音识别处理之后，若音响模型切换部4判定为计数器m大于加工声音信号数y(步骤ST23为“否”)，则前进至图2的流程图的步骤ST6。

返回至图2的步骤ST6，音响模型切换部4基于与音响模型3-1～3-x分别对应地存储的第1～第y模式的加工声音信号的识别分数，从音响模型3-1～3-x中决定适合发出原声音的用户的音响模型(步骤ST6)。

声音识别部5在之后的声音识别处理中，利用音响模型切换部4所决定的音响模型。

这里，利用图5所示的识别分数的示例，来对步骤ST6的处理的详细情况进行说明。图5中，识别分数的值越高，则设为音响特征的时间序列数据和音响模型的似然度越高。

音响模型切换部4对于各音响模型3-1～3-x，求出第1～第y模型的加工声音信号的识别分数的平均值，决定平均值最大的音响模型。

具体而言，在利用第1～第x语言的音响模型3-1～3-x执行了加工声音信号的声音识别处理时的识别分数为如图5所示的情况下，与第1语言的音响模型3-1相对应的第1～第3模式的加工声音信号的识别分数“400”、“430”、“400”的平均值为“410”。与第2语言的音响模型3-2相对应的第1～第3模式的加工声音信号的识别分数的平均值为“390”，与第3语言的音响模型3-3相对应的第1～第3模式的加工声音信号的识别分数的平均值为“380”。因此，音响模型切换部4将平均值最大的第1语言的音响模型3-1决定为适合用户的音响模型。

音响模型切换部4对于各音响模型3-1～3-x分别判定第1～第y模式的加工声音信号的识别分数是否为规定阈值以上(或大于阈值)，计算出阈值以上(或大于阈值)的识别分数的个数，将该个数作为评价值。然后，决定该评价值最大的音响模型。

具体而言，在图5所示的识别分数的情况下设阈值为“400”时，第1语言的音响模型3-1的评价值为“3”，第2语言的音响模型3-2的评价值为“1”，第3语言的音响模型3-3的评价值为“0”。因此，音响模型切换部4将评价值最大的第1语言的音响模型3-1决定为适合用户的音响模型。

如上所述，根据实施方式1，声音识别装置构成为包括：声音获取部1，该声音获取部1获取声音并作为原声音信号输出；声音数据加工部7，该声音数据加工部7对原声音信号进行加工来生成加工声音信号；音响分析部2，该音响分析部2对原声音信号及加工声音信号进行分析以生成音响特征的时间序列数据；与作为识别对象的多种语言相对应的多个音响模型3-1～3-x；声音识别部5，该声音识别部5利用各语言的音响模型3-1～3-x，将原声音信号的音响特征的时间序列数据转换成各语言的声音标签串(例如音素标签串)，生成各语言的判定用词典9-1～9-x，并利用各语言的音响模型3-1～3-x和判定用词典9-1～9-x，对加工声音信号的音响特征的时间序列数据进行识别处理并对每一语言计算识别分数；以及音响模型切换部4，该音响模型切换部4基于声音识别部5计算出的每一语言的识别分数，从多个音响模型3-1～3-x中决定1个音响模型。因此，可使用用户自由说话的声音来决定音响模型，用户无需为了切换音响模型而进行单词的登记及说话等特别操作。因此，能够消除操作的复杂性。此外，通过对原声音信号施加重叠环境噪音等加工，可考虑环境噪音等来决定音响模型，可防止切换到不合适的音响模型。

根据实施方式1，声音数据加工部7根据1个原声音信号生成多个模式的加工声音信号，音响模型切换部4对每一语言计算出与多个模式的加工声音信号对应的多个识别分数的平均值，决定该平均值最大的语言的音响模型。

或者，声音数据加工部7根据1个原声音信号生成多个模式的加工声音信号，音响模型切换部4对每一语言比较与多个模式的加工声音信号对应的多个识别分数和阈值，决定该阈值以上的识别分数个数最多(即评价值最大)的语言的音响模型。

通过这样，可决定更适合用户的音响模型。

另外，实施方式1的音响模型切换部4将1个原声音信号作为输入，逐个求出各音响模型3-1～3-x的识别分数的平均值(或评价值)，但并不限于此。例如，将多个原声音信号作为输入，多次进行图2的步骤ST4、ST5的处理，对于1个音响模型求出多个识别分数的平均值(或评价值)，计算该多个平均值的平均值(或多个评价值的平均值)，将该平均值最大的音响模型决定为适合用户的音响模型。

此外，音响模型切换部4预先存储过去计算出的各音响模型3-1～3-x的识别分数的平均值(或评价值)，在用户重新说话时，计算过去的识别分数的平均值(或评价值)、和根据本次的用户说话的原声音信号计算出的识别分数的平均值(或评价值)之间的平均值，将该平均值最大的音响模型决定为适合用户的音响模型。

在计算过去和本次的各识别分数的平均值(或评价值)的平均值时，音响模型切换部4也可以对各识别分数的平均值(或评价值)进行加权。例如，相对于计算出的时期较早的识别分数的平均值(或评价值)，使得新的识别分数的平均值(或评价值)具有更大的加权值。由于人的声音随着年龄等而变化，因此，可将较新的识别分数的平均值(或评价值)反映到音响模型决定中。

通过这样，可反映当前用户的身体状况及环境噪音状况等，因此，可决定更适合用户的音响模型。

此外，根据实施方式1，声音数据加工部7生成固定原声音信号的频率而变更音量后的加工声音信号，因此，可防止在对原声音信号施加加工时消除用户的说话的特征这样的情况。因此，可防止决定不适合用户的音响模型这样的情况。

实施方式2

图6是表示实施方式2的声音识别装置的结构的框图，是表示对装载于车辆等移动体的导航装置中组装有声音识别装置后的示例。

应用了实施方式2的声音识别装置的导航装置包括导航动作执行部10、导航用系统词典11以及语音标签用用户词典12。导航动作执行部10检测本车位置并在未图示的显示器的地图上显示本车位置，或进行从本车位置到目的地的路径引导。导航用系统词典11中存放有与导航动作执行部10所执行的功能相对应的操作命令的音素标签串。

另外，图6中，对于与图1相同或相当的部分，标注相同的标号，并省略说明。

应用了实施方式2的声音识别装置的导航装置具有将驾驶员等用户说话的声音作为语音标签来登记在语音标签用用户词典12中并用作为识别对象语的功能(以下记为利用声音所实现的用户词典生成功能)。另外，利用声音所实现的用户词典生成功能并不限于语音标签，也可以是具有存储驾驶员说话的声音的处理的功能。

此外，实施方式2中，将实施用户词典生成功能时的声音(例如语音标签)利用于音响模型决定中。

在此，参考图2的流程图来说明利用声音所实现的用户词典生成功能。

例如，考虑将使导航动作执行部10执行从本车位置到“家”的路径引导的操作命令作为语音标签而登记在语音标签用用户词典12的情况。在此情况下，若用户为了登记语音标签而说出“家”，则声音获取部1获取作为原声音(步骤ST1)，并存放到声音数据存储部6(步骤ST2)。

声音数据加工部7a在对原声音信号进行加工时，不仅进行音量及速度的变更等，还重叠车内的噪声(例如与车速对应的行驶噪音、雨刷音、转向灯音等)，生成加工声音信号(步骤ST3)。

接着，与上述实施方式1同样进行步骤ST4、ST5、ST6的处理，音响模型切换部4从音响模型3-1～3-x中决定适合用户的音响模型。这样，可将用户为了登记语音标签而说话的声音兼用于音响模型决定中，因此，用户无需为了决定音响模型而进行特别的操作。

之后，词典生成部8a将音素标签串登记于语音标签用用户词典12中，上述音素标签串对应于声音识别部5a利用由音响切换部4决定的该音响模型而生成的“家”的原声音信号。由此，语音标签“家”成为识别对象语。

在之后的通常的(执行利用声音所实现的用户词典生成功能时以外的)声音识别处理中，在用户说出语音标签(例如“家”)的情况下，声音识别部5a将由音响分析部2输出的语音标签的音响特征的时间序列数据作为输入，利用由音响模型切换部4决定的音响模型3-1～3-x中的某一个音响模型和语音标签用用户词典12来执行声音识别处理，并将识别结果输出到导航动作执行部10。导航动作执行部10执行与识别结果的语音标签相关联地登记的规定的操作命令(例如进行从本车位置到“家”的路径引导的功能)。

此外，例如在通常的声音识别处理中，在用户说出导航用的操作命令(例如变更地图的比例尺的功能)的情况下，声音识别部5a也将其说话声音的音响特征的时间序列数据作为输入，利用由音响模型切换部4决定的音响模型3-1～3-x中的某一个音响模型和导航用系统词典11来执行声音识别处理。导航动作执行部10执行与从声音识别部5a输出识别结果相关联地登记的功能。

如上所述，根据实施方式2，声音识别装置包括将用户说话的声音作为声音识别部5a的识别对象语而登记于语音标签用用户词典12中的词典生成部8a，声音获取部1获取用户为了登记于语音标签用用户词典12而说话的声音(例如语音标签)，因此，用户无需为了切换音响模型而进行单词的登记及说话等特别操作。因此，能够消除操作的复杂性。

此外，根据实施方式2，声音获取部1获取车辆的乘坐人员说话的声音，声音数据加工部7生成将车辆的噪音与原声音信号重叠后的加工声音信号，因此，可考虑车辆噪音等来决定适当的音响模型。因此，可实现适用于车载用导航装置等的声音识别装置。

另外，在实施方式2中，举出将声音识别装置适用于车辆所装载的导航装置的情况为例进行了说明，但也可以适用于车辆以外的移动体用的导航装置，或者也可以适用于由移动体所装载的终端及向该终端提供导航所需的信息的服务器构成的导航系统的终端或服务器。将智能电话、平板PC(个人计算机)、移动电话等移动信息终端用作为导航装置或导航系统的终端的情况下，也可以是安装于该移动信息终端的应用程序。

在将实施方式2的声音识别装置适用于由移动体所装载的终端和服务器构成的导航系统的情况下，构成为终端至少包括声音获取部1，服务器包括其它结构，从终端向服务器以无线的方式发送原声音信号等即可。

此外，实施方式2中，将声音识别装置适用于导航装置，但也可以适用于无线接收装置、免提通话装置等。在此情况下，作为利用声音所实现的用户词典生成功能，用声音(例如语音标签)来登记与广播的频率相对应的广播电台名，或用声音(例如语音标签)来登记与电话号码相对应的人名或地名。

实施方式1、2中，说明了对每一语言准备音响模型和判定用词典的情况，但准备音响模型和判定用词典的单位并不仅限于语言，例如也可以根据每一地方的方言口音的不同来区分音响模型和判定用词典。

此外，本发明可以在其发明的范围内对各实施方式进行自由组合，或对各实施方式的任意构成要素进行变形、或在各实施方式中省略任意的构成要素。

工业上的实用性

如上所述，本发明的声音识别装置基于用户自由说话的声音来自动地切换音响模型，因此，适用于车辆等所装载的声音识别装置。

符号说明

1 声音获取部、2 音响分析部、3-1～3-x 音响模型、4 音响模型切换部、5，5a 声音识别部、6 声音数据存储部、7，7a 声音数据加工部、8，8a 词典生成部、9-1～9-x 判定用词典、10 导航动作执行部、11 导航用系统词典、12 语音标签用用户词典。

Claims

1.一种声音识别装置，其特征在于，包括：

声音获取部，该声音获取部获取声音并作为原声音信号输出；

声音数据加工部，该声音数据加工部对所述原声音信号进行加工以生成加工声音信号；

音响分析部，该音响分析部对所述原声音信号及所述加工声音信号进行分析以生成音响特征的时间序列数据；

与作为识别对象的多种语言相对应的多个音响模型；

声音识别部，该声音识别部利用各语言的所述音响模型，将所述原声音信号的音响特征的时间序列数据转换成各语言的声音标签串，生成各语言的判定用词典，并利用各语言的所述音响模型和所述判定用词典，对所述加工声音信号的音响特征的时间序列数据进行识别处理并对每一语言计算识别分数；以及

音响模型切换部，该音响模型切换部基于所述声音识别部计算出的每一所述语言的识别分数，从多个所述音响模型中决定一个音响模型。

2.如权利要求1所述的声音识别装置，其特征在于，

所述声音数据加工部对一个原声音信号生成多个加工声音信号，

所述音响模型切换部对每一语言计算与多个所述加工声音信号对应的多个识别分数的平均值，决定该平均值最大的语言的音响模型。

3.如权利要求1所述的声音识别装置，其特征在于，

所述音响模型切换部对每一语言计算与多个所述加工声音信号对应的多个识别分数和阈值，决定该阈值以上的识别分数个数最多的语言的音响模型。

4.如权利要求2所述的声音识别装置，其特征在于，

所述音响模型切换部对每一语言，根据所述声音获取部获取原声音信号的时期，对所述识别分数进行加权。

5.如权利要求3所述的声音识别装置，其特征在于，

所述音响模型切换部根据所述声音获取部获取原声音信号的时期，对所述识别分数进行加权。

6.如权利要求1所述的声音识别装置，其特征在于，

所述声音数据加工部生成将环境噪音与原声音信号进行重叠后的加工声音信号。

7.如权利要求1所述的声音识别装置，其特征在于，

所述声音数据加工部生成固定原声音信号的频率来变更音量后的加工声音信号。

8.如权利要求1所述的声音识别装置，其特征在于，

包括将用户说话的声音作为所述声音识别部的识别对象语而登记于用户词典的词典生成部，

所述声音获取部获取所述用户为了登记于所述用户词典而说话的声音，并将其作为原声音信号输出。

9.如权利要求1所述的声音识别装置，其特征在于，

所述声音获取部获取车辆的乘坐人员说话的声音，

所述声音数据加工部生成将所述车辆的噪音与原声音信号进行重叠后的加工声音信号。

10.一种声音识别方法，其特征在于，包括：

声音数据加工步骤，该声音数据加工步骤中，对数字信号化后的声音即原声音信号进行加工以生成加工声音信号；

音响分析步骤，该音响分析步骤中，对所述原声音信号及所述加工声音信号进行分析以生成音响特征的时间序列数据；

判定词典生成步骤，该判定词典生成步骤中，利用与作为识别对象的多种语言相对应的多个音响模型，将所述原声音信号的音响特征的时间序列数据转换成各语言的声音标签串，生成各语言的判定用词典；

识别分数计算步骤，该识别分数计算步骤中，利用各语言的所述音响模型和所述判定用词典，对所述加工声音信号的音响特征的时间序列数据进行识别处理并对每一语言计算识别分数；以及

音响模型决定步骤，该音响模型决定步骤中，基于每一所述语言的识别分数，从多个所述音响模型中决定一个音响模型。