CN1941079A

CN1941079A - 语音识别方法和系统

Info

Publication number: CN1941079A
Application number: CNA2006101396196A
Authority: CN
Inventors: R·陈加尔瓦拉延; S·M·彭诺克
Original assignee: Motors Liquidation Co
Current assignee: Motors Liquidation Co
Priority date: 2005-09-27
Filing date: 2006-09-26
Publication date: 2007-04-04
Anticipated expiration: 2026-09-26
Also published as: CN1941079B; US20070073539A1; US7729911B2

Abstract

一种语音识别方法，包括如下步骤：存储词汇集的多个识别模型，每个模型响应于Lombard特征而区别于其他的模型；检测机动车辆内至少一个说话者的讲话；响应于至少一个说话者讲话的Lombard特征选择多个识别模型中的一个识别模型；利用所选的识别模型识别所述至少一个说话者的讲话；以及，响应于所述识别提供信号。

Description

语音识别方法和系统

技术领域

本发明涉及机动车辆语音识别的方法和系统。

背景技术

在构造机动车辆语音识别系统的已知示例中，基于性别、方言、或腔调将说话者或训练科目分组。说话者的讲话经过长时间的收集，被收集成训练用数据集，并且使用收集到的训练用数据集训练机动车辆的语音识别系统。此方法假定说话者用正常的速度和声调讲话。利用该模型的识别系统把由说话者发出的声能组成的信号认作讲话，并确定信号与一个单词或一个短语、或一组单词或短语的匹配概率。说话者的讲话是在几乎没有背景噪声的环境中收集的，产生了开发或训练声学模型的无噪数据集。

在机动车辆的环境中，机动车辆语音识别系统的用户以不同的方式说话，这取决于车辆内部的背景噪声。许多用户因车辆内部背景噪声强度增大而提高讲话的响度和声调。车辆内部背景噪声受以下因素影响，例如：车辆行驶的道路类型，车辆行驶的速度，风噪声，车辆外的噪声，HVAC设置，以及其他因素。用户讲话响度和声调随外部和内部背景噪声变化而变化，可以代表对使声学模型与用户相关联和实现说话识别提出的挑战。

发明内容

有利地，本发明提供了一种语音识别的方法和系统。

有利地，根据示例，语音识别方法包括如下步骤：存储词汇集的多个识别模型，每个模型响应于Lombard特征而区别于其他的模型；检测机动车辆内至少一个说话者的讲话；响应于至少一个说话者讲话的Lombard特征选择多个识别模型中的一个识别模型；利用所选的识别模型识别所述至少一个说话者的讲话；以及，响应于所述识别提供信号。

有利地，根据另一示例，语音识别系统包括：存储器，其包括词汇集的多个识别模型，每个模型响应于Lombard特征而区别于其他的模型；声音检测设备，其接收至少一个说话者的讲话；处理设备，其包括被执行的控制结构，以响应于至少一个说话者讲话的Lombard特征而选择多个识别模型中的一个识别模型，利用所选的识别模型识别所述至少一个说话者的讲话，并响应于所述识别提供信号。

在又一示例中，语音识别系统包括：词汇录制子系统，用于从多个说话者录制所需词汇的讲话，并将来自录制的讲话的数据存储为语言资料库(corpus)，其中，背景噪声对于每个说话者听得到但未被包含在录制的讲话中；混合设备，用于将不同的背景音与录制的讲话组合在一起；以及数据结构，其包括所需词汇的至少两个模型，其中，所述模型响应于混合设备，并且其中，每个模型响应于至少一部分语言资料库的Lombard特征而区别于其他的模型。

附图说明

图1说明了用于产生声学模型的步骤示例；

图2提供了将非车辆专用的语音数据与车辆专用信息卷积和混合在一起的略图示例；

图3是用于确定车辆驾驶室(cabin)脉冲响应的系统的略图示例；

图4说明了三个说话者数据簇(cluster)的示例的Lombard电平曲线；

图5说明了三个说话者数据簇的另一示例的Lombard电平曲线；

图6响应于Lombard特征分离说话者的模型；

图7说明了使用Lombard特征进行识别的步骤示例；以及

图8说明了与图7所示步骤一起使用的系统示意图。

具体实施方式

参照图1，步骤100从102开始。应该理解，讲话通过位于开发、测试或录制设施或车辆的一个或多个训练对象说出来。

在步骤104，说话者的讲话被录制，用作说话者的数据。在此示例中，说话者的数据是录制的说话者的讲话，用于使说话者与声学模型相关联。戴着具有悬挂式话筒的耳机的人坐在计算机显示器的前面，响应于通过计算机程序控制下的显示器提示的一组引导讲话。引导的讲话是录制系统要求说话者说出的为语音识别声学模型所知的单词或短语，例如数字“2”或短语“打电话”的发音。

说话者被提示说出正在在被引入说话者耳机的不同电平的噪声下建模的词汇。噪声的电平模拟车辆在路上经历到的不同类型的驾驶室内的噪声。噪声类型包括驾驶室的HVAC风机、不同车辆速度时和不同类型道路上的路面噪音、例如在行驶中车辆窗户打开时的风噪声、及其他在车辆驾驶室中可能发生的其他噪声。因此在步骤104，每个说话者通过正在被培训的词汇来提示，并被提示针对被引入说话者耳机的每个噪声电平来重复词汇表中的每个单词或短语。

在步骤106，更新具有Lombard信息的语言资料库或讲话集。例如，Lombard语言资料库可以包括一组由许多不同人录制的48kHz的16位信号；对于某些应用，500名说话者可以构成适宜的语言资料库。

在步骤108，确定录制的讲话的响度级。确定响度级的一个示例是测量时域信号的RMS(均方根)电平并分配适宜的单位。确定响度级的另一示例是测量单位为宋(sone)的响度。以宋为单位来测量响度的优点在于宋接近所感知的声音的响度。例如，如果某人经受五宋的声级，然后经受十宋的声级，则此人通常将报告感觉出十宋的声级比五宋的声级响一倍。此方法在使说话者行为对于背景噪声电平的相应变化相关联时是有利的。

在另一示例中，响度通过提供给定音频信号或说话者对1/3倍频程滤波器组说的话的功率密度频谱来计算。通过1/3倍频程滤波器组计算给定音频信号的响度级，在国际标准ISO 532 B中进行了规定。对应于响度级的宋单位响应于所述计算进行分配。

在步骤108计算的响度是在步骤104录制的讲话的响度。每个录音具有标识在步骤104的提示期间被引入说话者耳机的噪声电平的关联数据，并且所引入的噪声的响度是针对每个讲话的Lombard电平。响度的Lombard电平单位也可以为宋。

在此示例中，Lombard电平按照离散的间隔设置，并且语言资料库中每个讲话的Lombard电平与最接近的离散设置的电平相关联。例如，电平可以相对于具体机动车辆的预期Lombard噪声区被设置为低、中和高。如果需求的话，可以设置多于三个的电平。

Lombard电平曲线在步骤110产生。通过对笛卡尔纵坐标或Y轴上单位为宋的不同响度级的讲话针对横坐标或X轴上的Lombard电平进行分类，然后在分类的讲话之间内插，产生Lombard曲线。

在步骤112，说话者的讲话基于Lombard特征被分类成簇。在一个示例中，簇基于它们的Lombard曲线的特征。这也可以通过参照图4和5来更好地理解。在图4中，不同说话者的讲话集(用曲线或线图406、408和410表示)如上所述进行绘制，具有例如用参考标记412表示的图(plot)。绘制的曲线406、408和410都具有以下特征，即Lombard电平增大到L1~L2之上(L2＞L1＞L0)，录制的讲话语音电平(例如，响度)增加。属于此类似情形的讲话类型然后被集合成一个簇。

在图5，其他说话者的讲话集(用曲线或线图506、508和510表示)被绘制，例如用参考标记512标明，并且全都具有如下特征：当Lombard电平增大时，录制的讲话的语音电平趋向于保持平坦。因此，这些说话者表现出不随背景噪声电平的增高而提高他们声音的特征。

因此可以发现，具有相似特征的说话者的Lombard曲线位于特定的数据结构中，其特征为比照着宋的范围划定描述Lombard电平的参数的界限，例如Lombard电平0对应于10～25宋的宋级，Lombard电平1对应于30～40宋的宋级，Lombard电平3对应于65～80宋的宋级。在这些簇之内，可以基于性别和方言进一步定义语音信号处理技术中已知的其它子簇，包括在给定簇内的地方方言。例如，在一组男性说话者与一组女性说话者之间一致的差值可以使Lombard电平曲线分离，但相似的簇处于一个声学模型之内，或处于分离的声学模型之内。

尽管上述示例中Lombard簇基于Lombard曲线产生，但是还可以基于Lombard特征实现其他的替换物。例如，Lombard簇可以基于局部曲线；在图4和5的示例中，L0～L1的图可以表示一组局部曲线，而L1～L2的图可以表示另一组局部曲线。

在又一示例中，Lombard簇可以基于本身的Lombard电平来产生。因此在L0、L1和L2中的每个电平，不同的讲话响度的簇可以基于离散的响度级边界来分组。

在设置Lombard簇中，系统设计员将为适合于特定应用的分类确定Lombard数量和讲话响度级。另外，响度级的边界点将被设置为给定应用预期响度范围内的离散级。

一旦设置了Lombard簇，则每个簇的数据被处理以便训练模型。通常，每个簇用于训练用于识别应用的词汇的模型。在步骤114作为此处理的一部分，每个簇中说话者的数据按照已知的方式被卷积。

通常，卷积必然伴有数学运算符，该数学运算符采用两个函数f和g，并产生表示在f与g的翻转与变换的变型之间重叠的第三个函数。卷积可以被直观地概念化为：针对一个或多个对象将信号变模糊或将一个或多个声音变模糊。例如，回声是原声或说话者讲话表示反射原声或说话者讲话的对象的函数的卷积，其中f可以是讲话，而g可以是表示反射的对象的函数。此处理的优点在于卷积可以用于模拟特定车辆的驾驶室的声学特征。在此示例中，说话者的数据在没有外部噪声输入的情况下进行卷积。例如，说话者的数据可以在车辆熄火静止不动时进行卷积。

在图2说明了示例的卷积步骤。在204将非特定录音202和车辆驾驶室的脉冲响应206卷积在一起。脉冲响应是声压比时间的测量。而且，脉冲响应是设备在声能输入已经停止后的表现方式，而设备在此示例中为车辆驾驶室和话筒或话筒矩阵。脉冲中的能量被均匀地分布在宽频带上，使得它便于用作测量声频系统或设备的特征的测试信号。在一个示例中，车辆驾驶室的脉冲响应206用于车辆的特殊类别或线路，例如中等大小的卡车的线路，具有类似设计的内部，并且，车辆驾驶室的脉冲响应206可以用本领域技术人员已知的方式针对每台车辆进行测量。

此刻还参照图3，用于卷积步骤204的车辆脉冲响应的确定可以通过所示系统完成。头部和躯干模拟器(HATS)304安置在车辆驾驶室302中。附着于HATS的是位于模拟人嘴位置的位置的扬声器306。播放通过扬声器306的源自白噪声发生器320的白噪声。

话筒308放在HATS 304说话者的声学点。声学点是用户讲话的录制点。在一个示例中，录制用户讲话的声学点距离用户的唇平面(lipplane)五十毫米。话筒308与声卡310相连，并向声卡310信道一322传输通过HATS 304的扬声器306产生的音频信号，用于处理。

车辆驾驶室包括连接到远程信息处理单元318的内置话筒314。内置话筒314在车辆工作期间使用。高阻抗分接头316连接内置话筒314的输出和声卡310。高阻抗分接头316向声卡310信道二324传输通过HATS 304的扬声器306产生的音频信号，用于处理。

声卡310连接个人计算机(PC)312。PC 312利用声卡310信道一322和信道二324上进入的音频数据来确定在信道一322和信道二324接收的音频信号之间的相关性和/或协方差，因此产生车辆驾驶室302和话筒314的脉冲响应。

再次参照图2，卷积步骤208的输出是与车辆的具体类别或线路的脉冲响应卷积在一起的每个具体的讲话。

再次参照图1，把卷积的数据与各种车辆工作条件下的车辆特定噪声混合。这在图2加以说明，在图2中，车辆特定噪声210被引入并在212与卷积的输出混合，而结果用参考标记214表示。在此示例中，混合的步骤包括把车辆特定噪声添加给卷积的信号208。车辆特定噪声由车辆内不同速度下的环境噪声录音组成，包括变化的内外环境噪声组合。录制车辆噪声的示例条件可以是：(a)车辆以每小时四十五英里的速度行驶在分段的混凝土路上，同时空调系统定在三级；(b)车辆以每小时六十英里的速度行驶在柏油路上，同时放下司机和乘客的车窗等。系统设计员可以轻易地设置各种条件以创建供此处理之用的车辆噪声集。

输出信号214此刻包括处理过的讲话的集合，其中，处理过的讲话已经针对特定车辆环境的响应特征进行了卷积，并且已经与各种车辆条件的背景噪声组合在一起。这些数据集最初通过它们的Lombard特征进行定义，可以被进一步处理，以便细化Lombard的分类，例如通过对照着Lombard电平绘制信号214的响度。进一步的分类可以产生用于识别但非必需的细化模型。

再次参照图1，在步骤118，基于Lombard簇(细化后的，并且如果需要的话，基于上述的卷积和混合被进一步分类)分类的声学模型用已知的方法进行训练。建模可以是已经实现了的为本领域技术人员所知的任何可接受的建模，可以理解的是，新的建模技术变为可用或在将来被细化。

在一个示例中，声学模型使用表示为P(单词|信号)＝P(单词)P(信号|单词)/P(信号)的Bayes规则进行训练。先给出一信号，然后搜索单词的序列，以便最大化给出该信号特定单词的概率，或者P(单词|信号)。在已知的示例中，Markov(马尔可夫)建模提供了数学上严格趋近，以开发健壮统计语音模型。

在基于HMM的语音识别中，极大似然估计(MLE)是训练模型参数最常用的方法。在MLE训练中，语音数据的似然函数在给定语音类别的模型上被最大化。使用Baum-Welch算法或分段的K平均数算法迭代执行最大化。分类错误(MCE)可用于最小化预期的语音分类或识别差错率。MCE是已知的，并且已经成功地应用于各种常用结构的语音识别，包括HMM、动态时间偏差、以及神经网络。

最终的训练出的声学模型表示成簇的说话者数据，而成簇的说话者数据与车辆驾驶室的声学卷积，并且与车辆工作的噪声条件混合在一起。根据说话者的Lombard电平和车辆驾驶室的声学特征的训练有素的声学模型，可以更好地匹配测试条件的情形，最小化由于严重不匹配而造成的识别的退化，并促进性能。

此刻参照图6，示出了用于语音识别设备的词汇模型602和604。图6只示出了用于例示的两个模型，还应理解，如果系统的制订人定义更多的分类，则使用更多的模型。两个模型602和604每个表示用于识别应用的整套词汇，并且示意地说明了它们基于上面参照图1～5所述的Lombard簇或分类数据(606、610)和Lombard语言资料库中不同说话者406、408、410和506、508、510的讲话。因此总的来说，在语音识别设备的工作期间，选择用来识别设备用户说出的具体短语或讲话的模型602、604将基于说话者与模型602、604的匹配来选择。这可以通过参照图7来更好地理解。

此刻参照图7和8，所示步骤700从702开始。在此示例中，系统的用户是使用自动语音识别系统的移动车辆802的乘坐者。

在步骤704，来自用户的讲话通过操作耦合于车载远程信息处理单元806的车载话筒816来检测。

在步骤706，识别系统试图匹配说话者的讲话与基于分类的模型(例如，图6中的602、604)。如果模型基于Lombard曲线，则可以在系统能够匹配用户与模型之前采用一个以上的讲话。可以预料，模型本地存储在车载单元806中，但是系统还可以是分布式的，在此情况下模型可以远程存储，或在此情况下，模型可以保留在车辆单元中，但可以从远程设施上进行检索，如果可以获得比车辆本地存储的一个模型更好的模型的话。

如果在步骤706未找到匹配的模型，则存储录制的讲话，从而车载系统可以收集数据点，并定义该用户的Lombard曲线。如果使用此方法，则步骤710确定是否为用户获取了充足的点，并且如果是这样的话，执行步骤712、714、716和718产生该用户的Lombard曲线，将数据发送给远程站，在远程站基于最接近Lombard簇的模型被选中714，并被下载716到车辆的远程信息处理单元806。下载的模型然后在718被选择，并被用来进行语音识别722。

在某些网络的数据传输速率下，选择和下载未必能快得足以处理讲话，所以选择默认模型用于识别待定的讲话，并在步骤706未发现匹配的模型时选择默认模型。下载的模型可以用于未来的识别。

使用从步骤706、步骤718或步骤720选择的模型，在讲话上执行语音识别，并按照已知的方式在步骤724输出数据串。步骤726检查是否要处理更多的讲话，如果是这样的话，移到步骤728。否则在步骤730结束识别处理，并按照已知的方式使用输出的串作为远程信息处理单元806(或其他车载设备)的命令或输出信号。

尽管利用车载环境中的模型分类描述了上面的示例，但是上述示例还可以用于远程的语音识别，其中，车载用户正在对寄主在远程站的应用说话。在此示例中，远程站执行识别，包括存储、选择和利用在此所述的适宜模型。

如上所述，声学模型分类不必在Lombard曲线上进行设置，但是可以在局部曲线上或在Lombard电平上、或在Lombard分类内的噪声电平上进行设置。尽管上述步骤说明使用Lombard分类，但是可以理解，这是对语音识别的其他已知分类的补充，并且可以联合其他已知分类一起使用。

在图8所示的示意系统中，系统800包括车辆802、车辆通信总线804、远程信息处理单元806、双向射频通信系统(包括但不限于一个或多个无线载波系统824、一个或多个通信网络828、和/或一个或多个陆地网络830)、以及一个或多个呼叫中心832。在一个示例中，车辆802是具有用于收发语音和数据通信的适宜硬件和软件的机动车辆。

在一示例中，车辆经由车辆通信总线804，从远程信息处理单元806向车辆802内的设备的各个单元和系统发送信号，以便执行各种功能，例如开车门和执行个人舒适设置。通信总线804由接口组成，例如，控制器区域网(CAN)、用于高速应用的ISO标准11989、用于低速应用的ISO标准11519、和/或用于高速和低速应用的机动车辆工程师学会(SAE)标准J1850。

远程信息处理单元可以向无线载波系统824发送无线电传输和从无线载波系统824接收无线电传输。在一个示例中，无线载波系统824可以是用于在车辆802和通信网828/830之间传输信号的模拟或数字的蜂窝电话系统。而且，无线载波系统824可以包括蜂窝通信收发机、卫星通信收发机、无线计算机网络收发机(无线计算机网络收发机的非限定性示例包括广域网(WAN)收发机，和/或其组合)。

远程信息处理单元806可以包括操作耦合于无线调制解调器810的处理器808、位置检测系统812(例如，全球定位系统(GPS))、车载存储器814、话筒816、一个或多个扬声器820、和嵌入的或车载兼容电话822。这些设备可以在远程信息处理单元806之内或之外，并且与远程信息处理单元806操作耦合。例如，扬声器820可以是车辆声频系统的元件，远程信息处理单元806用已知的方式与车辆声频系统相互作用。

处理器808可以是微型控制器、控制器、微处理器、主处理器，和/或车辆通信处理器。在另一示例中，处理器808可以是专用集成电路(ASIC)。可替换地，处理器808可以是和执行通用处理器功能的中央处理器(CPU)一起工作的处理器。

在使用GPS接收机的示例中，GPS接收机响应于从GPS卫星星座(未示出)接收的GPS广播信号，提供车辆802的经纬度坐标。位置检测系统812的其他示例包括全球定位系统接收机、无线电三角测量系统、船位推算定位系统、和/或它们的组合。车载移动电话822可以是蜂窝型电话，例如模拟、数字、双模、双频带、多模和/或多频带的蜂窝电话。车载移动电话822可以包括分离的处理器(未示出)。

处理器808可以执行相互影响车辆802内电子和机械系统的工作模式的各种计算机程序。应该理解，处理器808控制远程信息处理单元806、无线载波系统824与呼叫中心832之间的通信(例如，呼叫信号)。

而且，处理器808可以产生和接受在远程信息处理单元806与车辆通信网络804之间传输的数字信号，车辆通信网络804连接车辆802中的各个电子模块。在一个示例中，这些数字信号激活电子模块内的编程模式，以及为电子模块之间数据传输提供的编程模式。

可以理解的是，处理器808或与处理器808相关联的存储器814中驻留的软件，可以用于监控、识别和/或录制输入的用户讲话。

通信网络824可以包括来自一个或多个移动电话交换局和/或无线网络的业务。通信网络828连接无线载波系统824与陆地网络830。通信网络824可以是用于连接无线载波系统824与车辆802和陆地网络830的任何适宜的系统或系统组合。

陆地网络830连接通信网络828与呼叫中心832。在一个示例中，陆地网络830是公共交换电话网(PSTN)。在另一示例中，陆地网络830是互联网协议(IP)网络。在其他的示例中，陆地网络830是有线网络、光网络、光纤网路、另一无线网络，和/或它们的组合。陆地网络830可以连接一个或多个陆上通信线电话。可以理解的是，通信网络828和陆地网络830连接无线载波系统与呼叫中心832。

呼叫中心832包括一个或多个语音和/或数据调制解调器834、一个或多个数据交换机838、一个或多个通信业务管理器842、包括用户简档记录和/或用户信息的一个或多个通信业务数据库、一个或多个通信业务顾问864、以及一个或多个网络系统840。

在一个示例中，通信业务数据库包括要下载到车辆802远程信息处理单元120的一个或多个声学模型(图6的602，图6的604)，而声学模型包括Lombard电平用户簇(图6的606，图6的610)。

调制解调器834在一个示例中被直接连接至数据交换机838。在另一示例中，调制解调器834经由网络840与数据交换机838进行通信，并连接陆地网络830。调制解调器834通过无线载波系统824、通信网络828和陆地网络830，从呼叫中心832发送语音和/或数据传输，从车辆802中的远程信息处理单元806接收语音和/或数据传输。交换机838经由一个或多个网络系统840，从一个或多个通信业务管理器842接收数据传输，或向一个或多个通信业务管理器842发送数据传输。

呼叫中心832可以包括一个或多个业务顾问846。在一个示例中，业务顾问846可以是人。在另一示例中，业务顾问846可以是自动机。

尽管已经详细描述了若干示例，但是上述说明将被认为是示例性的而非限制性的。

Claims

1.一种语音识别方法，包括如下步骤：

存储词汇集的多个识别模型，每个模型响应于Lombard特征而区别于其他的模型；

检测机动车辆内的至少一个说话者的讲话；

响应于至少一个说话者讲话的Lombard特征，选择多个识别模型中的一个识别模型；

利用所选的识别模型来识别所述至少一个说话者的讲话；以及

响应于所述识别来提供信号。

2.根据权利要求1的方法，其中，所存储的多个识别模型通过如下步骤构造，包括：

录制多人的讲话，其中，录制至少一些具有每个人都听得到的但在讲话录制中不包括的背景噪声的讲话，其中，背景噪声随不同的录制而变化，以便创建语言资料库；

响应于Lombard特征将录制的讲话进行分类，以便创建多个分类。

3.根据权利要求2的方法，其中，所述构造还包括：

将语言资料库中的数据与车辆响应特征进行卷积；

将噪声添加给已卷积的数据；以及

基于添加的结果训练所述多个识别模型，其中每个识别模型对应于多个分类中的一个分类。

4.权利要求3的方法，其中，被添加到卷积数据的噪声表示在车辆不同工作条件下的车辆环境噪声。

5.权利要求2的方法，其中，Lombard特征包括背景噪声的Lombard电平。

6.权利要求1的方法，其中，Lombard特征包括表示与改变背景噪声相关联的说话者讲话的曲线。

7.权利要求1的方法，其中，Lombard特征包括响应于改变背景噪声的说话者讲话的局部曲线。

8.权利要求1的方法，其中，Lombard特征包括说话者在讲话期间听得到的背景噪声电平。

9.权利要求6的方法，其中，所检测的说话者的讲话被存储在存储器中，还包括：

确定多个所检测的说话者讲话的Lombard曲线，其中，选择步骤响应于所确定的Lombard曲线。

10.权利要求1的方法，还包括如果无法获得与至少一个说话者讲话的Lombard特征匹配的模型，就选择默认的模型。

11.权利要求1的方法，还包括向远程站传输响应至少一个说话者讲话的数据，其中，所述选择在远程站执行。

12.权利要求11的方法，其中，所选的识别模型被下载到车载设备。

13.权利要求11的方法，其中，所述识别在远程站执行。

14.权利要求1的方法，其中，所述识别通过车载设备执行。

15.一种语音识别系统，包括：

存储器，其包括词汇集的多个识别模型，每个识别模型响应于Lombard特征而区别于其他的模型；

声音检测设备，其接收至少一个说话者的讲话；

处理设备，其包括被执行的控制结构，以响应于至少一个说话者讲话的Lombard特征而选择多个识别模型中的一个识别模型，利用所选的识别模型识别所述至少一个说话者的讲话，并响应于所述识别来提供信号。

16.权利要求15的系统，其中，所述声音检测设备位于机动车辆内。

17.权利要求15的系统，其中，所述处理设备被集成在机动车辆中。

18.权利要求16的系统，其中，所述处理设备位于远离机动车辆的台站。

19.一种语音识别系统，包括：

词汇录制子系统，用于从多个说话者录制所需词汇的讲话，并将来自录制的讲话的数据存储为语言资料库，其中背景噪声是每个说话者听得到的但不被包含在录制的讲话中；

混合设备，用于将不同的背景音与录制的讲话混合在一起；以及

数据结构，其包括所需词汇的至少两个模型，其中，所述模型响应于混合设备，并且其中，每个模型响应于至少一部分语言资料库的Lombard特征而区别于其他的模型。

20.权利要求19的语音识别系统，其中，所述数据结构的至少一个拷贝位于机动车辆内。

21.权利要求19的语音识别系统，还包括卷积设备，其中，将录制的讲话与表示车辆声波响应的信号卷积在一起，并将其提供给混合设备。