CN106992002A

CN106992002A - 用于改进含噪语音识别的动态声学模型切换

Info

Publication number: CN106992002A
Application number: CN201710041764.9A
Authority: CN
Inventors: 阿里·哈萨尼; 斯科特·安德鲁·安曼; 弗朗索瓦·沙雷特; 布丽奇特·弗朗西丝·莫拉·理查森; 金塔拉斯·文森特·普斯科瑞斯; 季安; 兰杰尼·兰加拉詹; 约翰·爱德华·胡伯
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2016-01-21
Filing date: 2017-01-20
Publication date: 2017-07-28
Also published as: GB2548681A; MX2017000938A; DE102016125104A1; US20170213549A1; US10297251B2; GB201701046D0; RU2017101192A

Abstract

本公开涉及一种用于改进含噪语音识别的动态声学模型切换。一种用于车辆的自动语音识别系统包括控制器，所述控制器被配置为：基于车辆的车厢中的周围环境噪声和车辆的操作参数来从声学模型库中选择声学模型。所述控制器还被配置为：将选择的声学模型应用于含噪语音，以改进对所述含噪语音的识别。

Description

用于改进含噪语音识别的动态声学模型切换

技术领域

本公开涉及用于改进语音识别性能的声学模型的动态切换。

背景技术

车载用户体验可通过改进用户如何经由语音与他们的车辆进行交互而被改善。就此而言，期望改进车辆自动语音识别(ASR)系统的能力，以在车辆在变化的操作状况下运行时始终如一地识别语音命令。

传统的声学模型是静态的，并且在各种操作状况下被训练(各种操作状况被认为对于ASR使用情形是典型的)。对于车辆，典型的操作状况包括车辆在停车场怠速、车辆在高速公路上关窗行驶、车辆在高速公路上开窗行驶等。车辆的构造(诸如，车厢中的绝缘量、车辆的燃料经济性结构特性等)也被考虑进去。典型的操作状况具有明显地不同的背景噪声水平，这在构建静态声学模型中内在地提出了挑战。因此，单一的静态声学模型无法在变化的操作状况下很好地工作。

伦巴效应(Lombard Effect)是人类对于周围环境噪声的响应，其中，扬声器作为补偿机制而发出更大的声音。除了在语音的输出音量上增大的伦巴效应之外，语音的频谱密度朝向更高的频率偏移且音素的持续时间增加。频谱上的这些变化比信噪比上的降低对语音识别引擎提出了更多的挑战。因此，存在的问题在于：稳健的声学模型针对中性(neutral)(非伦巴)语音和噪声(伦巴)语音两者同样很好地执行，而不管频谱上的变化如何。

发明内容

一种用于车辆的自动语音识别系统包括控制器。所述控制器被配置为：基于车辆的车厢中的周围环境噪声和车辆的操作参数来从声学模型库中选择声学模型。所述控制器还被配置为：将选择的声学模型应用于含噪语音，以改进对所述含噪语音的识别。

所述自动语音识别系统还可包括：车厢噪声麦克风，被配置为检测车辆的车厢中的周围环境噪声。所述控制器可与所述车厢噪声麦克风进行通信，以接收指示车辆的车厢中的周围环境噪声的信息。

所述控制器可与车辆的控制器局域网(CAN)总线进行通信，以获取指示车辆的操作参数的信息。指示车辆的操作参数的信息可包括指示车辆发动机每分钟转数、车辆速度和车辆暖通空调(HVAC)设置的信息。

所述控制器还可被配置为：通过以下处理来选择声学模型：首先基于车辆的车厢中的周围环境噪声来从所述声学模型库中选择声学模型的子集，随后基于车辆的操作参数来从所述声学模型的子集中选择声学模型。

所述控制器可与车辆的用户穿戴的可穿戴装置进行通信，以从所述可穿戴装置获取情境信息。所述控制器还可被配置为：基于车辆的车厢中的周围环境噪声、车辆的操作参数和所述情境信息来从所述声学模型库中选择声学模型。

所述控制器可与车辆的车厢中的用户麦克风进行通信，以接收所述含噪语音。

声学模型可以是伦巴效应声学模型。

所述控制器还可被配置为：基于车辆的车厢中的周围环境噪声和车辆的操作参数来估计所述含噪语音的伦巴效应，并且基于估计的伦巴效应来从所述声学模型库中选择声学模型。

所述控制器还可被配置为：基于车辆的车厢中的周围环境噪声的分贝水平和频谱分析来估计所述含噪语音的伦巴效应成分，基于车辆的操作参数来估计所述含噪语音的伦巴效应成分，并且基于估计的伦巴效应成分来从所述声学模型库中选择声学模型。

一种用于车辆的自动语音识别方法包括：基于车辆的车厢中的周围环境噪声和车辆的操作参数来从声学模型库中选择声学模型。所述方法还包括：将选择的声学模型应用于含噪语音，以改进对所述含噪语音的识别。

根据本发明的一个实施例，所述自动语音识别方法还包括：从多个车厢噪声麦克风接收指示车辆的车厢中的周围环境噪声的信息。

根据本发明的一个实施例，所述自动语音识别方法还包括：从车辆的控制器局域网(CAN)总线接收指示车辆的操作参数的信息。

根据本发明的一个实施例，所述自动语音识别方法还包括：通过以下处理来选择声学模型：首选基于车辆的车厢中的周围环境噪声来从所述声学模型库中选择声学模型子集，然后基于车辆的操作参数来从所述声学模型子集中选择声学模型。

根据本发明的一个实施例，所述自动语音识别方法还包括：从车辆的用户穿戴的可穿戴装置接收情境信息；进一步基于所述情境信息来选择声学模型。

根据本发明的一个实施例，所述自动语音识别方法还包括：从车辆的车厢中的用户麦克风接收所述含噪语音。

根据本发明的一个实施例，所述自动语音识别方法还包括：从所述用户麦克风接收指示车辆的车厢中的周围环境噪声的信息。

根据本发明的一个实施例，所述自动语音识别方法还包括：基于车辆的车厢中的周围环境噪声和车辆的操作参数来估计所述含噪语音的伦巴效应；基于估计的伦巴效应来从所述声学模型库中选择声学模型。

根据本发明的一个实施例，所述自动语音识别方法还包括：基于车辆的车厢中的周围环境噪声的分贝水平和频谱分析来估计所述含噪语音的伦巴效应成分；基于车辆的操作参数来估计所述含噪语音的伦巴效应成分；基于估计的伦巴效应成分来从所述声学模型库中选择声学模型。

附图说明

图1示出了用于在车辆中使用的自动语音识别(ASR)系统的框图；

图2示出了描述ASR系统的噪声量化操作和声学模型识别操作的框图；

图3示出了描述ASR系统的声学模型选择操作以及将选择的声学模型用于语音识别的操作的框图。

具体实施方式

在此公开本发明的具体实施例；然而，应理解的是，所公开的实施例仅为本发明的示例，其中，本发明可以以多种替代形式来实现。附图无需按比例绘制；可夸大或最小化一些特征以示出特定组件的细节。因此，在此所公开的具体结构和功能细节不应被解释为具有限制性，而仅仅作为用于教导本领域技术人员以多种形式利用本发明的代表性基础。

本公开提供自动语音识别(ASR)系统和方法，所述系统和方法采用伦巴效应声学模型(“声学模型”)的动态切换，以改进语音识别性能。ASR系统和方法利用在被用于将噪声类型与频谱内容的变化相关联的伦巴效应上收集的数据，以适当地调节纯净语音和含噪语音两者。

如上面在背景技术部分中所指出的，不管语音频谱上的变化如何，使得稳健的声学模型针对中性(非伦巴)语音和噪声(伦巴)语音两者同样很好地执行，这是个问题。为了解决该问题，本公开针对车辆提供的ASR系统和方法采用这样一种架构，所述架构通过考虑来自车辆中的车厢噪声的各种输入来估计伦巴效应的影响。按照这种方式，ASR系统和方法实际上可动态地切换到从预先建立的声学模型库中选择的声学模型，其中，针对这种状况以最佳方式对该声学模型库进行训练以与各种类型的含噪语音(中性语音除外)进行最优匹配。

由于嵌入式平台现在包括具有大量随机存取存储器(RAM)的图形处理单元(GPU)以用于大规模并行处理能力，所以将多个声学模型放入单个车辆系统是可行的。本公开的ASR系统和方法从放入车辆系统中的预先训练的声学模型库中动态地选择适当的声学模型，作为车辆参数和周围环境噪声的函数。

本公开提供的ASR系统和方法涉及少数声学模型按照实验室设置来进行训练，在该实验室设置中，资源可用于捕获重要的使用情形。随后实现函数以将给定噪声关联到最佳表示的声学模型。噪声通过若干不同信息进行量化，这些信息包括但不限于：指示车辆参数的信息(诸如，来自车辆的控制器局域网(CAN)总线的关于车辆速度、发动机每分钟转数和暖通空调(HVAC)设置的信息)；指示车厢噪声的信息(诸如，来自进行被动噪声分析的车厢噪声麦克风的信息)；和/或可穿戴装置提供的情境信息(contextual information)。

作为示例，本公开的车辆中的ASR系统和方法使用车厢噪声分贝水平/频谱分析来预筛选从预先训练的声学模型库中选择的声学模型。因为用于发动机噪声的声学模型可能由于噪声的频谱性质而与用于HVAC的声学模型不同，所以ASR系统和方法随后使用诸如发动机每分钟转数和HVAC设置的车辆参数来进一步减少(pare down)选择。一旦最具代表性的声学模型被识别出，则ASR系统和方法就使用该最具代表性的声学模型来完成语音识别。这种动态切换也可被用于负责不同的扬声器。

现参照图1，示出了用于在车辆中使用的自动语音识别(ASR)系统10的框图。ASR系统10包括控制器12。控制器12与车辆的车厢中的用户麦克风14进行通信。用户麦克风14被配置为检测车辆的车厢中的用户说出的语音(例如，命令)。用户麦克风14向控制器12提供指示语音的电信号。在车辆的正常实际操作状况下，车厢中存在一定量的噪声。因此，用户麦克风14检测到的语音是含噪语音。如在图1中所指示的，用户麦克风14因此向控制器12提供指示含噪语音的电信号16。

控制器12还与一个或更多个车厢噪声麦克风18进行通信。车厢噪声麦克风18位于车厢内的各种位置并且被配置为检测车厢中的噪声。车厢噪声麦克风18向控制器12提供指示车厢噪声的电信号20。

控制器12还与车辆的CAN总线22进行通信。指示车辆参数的电信号在CAN总线22上被传送。控制器12从CAN总线22接收指示车辆参数(诸如，车辆速度、发动机每分钟转数和HVAC设置)的电信号24。

控制器12还与用户穿戴的可穿戴装置26进行通信。控制器12从可穿戴装置26接收指示情境信息的电信号28。

控制器12包括用于执行噪声量化操作的处理器级30(用短语“噪声量化”标出)。处理器级30从车厢噪声麦克风18接收指示车厢噪声的电信号20，从CAN总线22接收指示车辆参数的电信号24，从可穿戴装置26接收指示情境信息的电信号28。处理器级30处理电信号20、24和28，以量化存在于车辆车厢中的噪声。处理器级30产生指示量化的噪声的电信号32。

按照这种方式，处理器级30通过若干不同信息对噪声进行量化，这些信息包括来自进行被动噪声分析的车厢噪声麦克风18的指示车辆车厢噪声的信息、来自CAN总线22的指示车辆参数(诸如，车辆速度、发动机每分钟转数和HVAC设置)的信息和/或来自可穿戴装置26的情境信息。量化的噪声代表伦巴效应的影响。因此，处理器级30通过考虑关于车辆中的车厢噪声的各种输入(即，检测到的车厢噪声、车辆参数和情境信息)，来估计伦巴效应的影响。

控制器12还包括用于执行最优声学模型选择操作的处理器级34(用短语“选择最优的声学模型”标出)。处理器级34可访问预先建立的声学模型库36(在图3中示出的)。库36包含放入单个车辆系统中的多个声学模型。库36的声学模型通过按照实验室设置进行训练而被预先建立，以捕获重要的使用情形。因此，库36中的每个声学模型与使用情形中的相应一个使用情形对应。

处理器级34从处理器级30接收指示量化的噪声的电信号32。处理器级34从库36中选择声学模型中的一个作为量化的噪声的函数。该函数将给定的噪声关联到最佳表示的声学模型。也就是说，处理器级34从库36中选择相对于库36中的其他声学模型最佳对应于量化的噪声的声学模型。由于被量化的噪声，处理器级34选择的声学模型是被最佳训练以适应嘈杂的含噪语音的声学模型。按照这种方式，处理器级34从声学模型库36中动态地选择适当的声学模型作为车辆参数和周围环境噪声的函数。处理器级34输出指示选择的声学模型的电信号38。

控制器12还包括用于利用选择的声学模型处理含噪语音的处理器级40(用短语“将选择的声学模型应用于噪音语音”标出)。处理器级40从用户麦克风14接收指示含噪语音的电信号16，并且从处理器级34接收指示选择的声学模型的电信号38。处理器级40将选择的声学模型应用于含噪语音，以改进对含噪语音的识别并输出指示含噪语音的电信号42。

ASR系统10的接收器44(用短语“识别语音”标出)接收指示语音的电信号42。接收器44将语音与命令的列表等进行比较，以便识别语音，随后对识别出的语音进行相应地操作。

如所描述的，控制器12连同用户麦克风14、车厢噪声麦克风18、CAN总线22和可穿戴装置26一起提供了动态切换声学模型系统。控制器12基于各种输入来量化噪声，基于量化的噪声来选择声学模型，并将选择的声学模型应用于含噪语音，以改进对含噪语音的识别。控制器12连续地执行该操作，使得当噪声改变时，控制器选择最适合于改变的噪声的某个其他声学模型，随后将该选择的声学模型应用于含噪语音，以改进对含噪语音的识别。按照这种方式，控制器12采用声学模型的动态切换来改进语音识别性能。

在变型中，用户麦克风14检测车厢中的周围环境噪声，并将指示检测到的周围环境噪声的信息传送到控制器12。按照这种方式，用户麦克风14除了检测车厢中的用户说出的语音之外，用户麦克风14还用作被配置为检测车厢中的周围环境噪声的车厢噪声麦克风。因此，当没有车厢麦克风可用于捕获车厢中的周围环境噪声时，用户麦克风14可用于捕获车厢中的周围环境噪声。

现在参照图2，并继续参照图1，示出了描述ASR系统10的噪声量化操作和声学模型识别操作的框图。如上所述，ASR系统10的控制器12的处理器级30用于执行噪声量化操作。如在图2中示出的，处理器级30包括第一处理器子级30a和第二处理器子级32b。第一处理器子级30a从CAN总线22接收指示车辆参数的电信号24，第二处理器子级32b从车厢噪声麦克风18接收指示车厢噪声的电信号20。

第一处理器子级30a(用短语“噪声估计函数”标出)用于基于车辆参数估计伦巴效应。第一处理器子级30a产生指示基于车辆参数的估计的伦巴效应的电信号32a。第二处理器子级30b(用短语“车厢噪声频谱分析”标出)产生指示基于车厢噪声的估计的伦巴效应的电信号32b。彼此结合的电信号32a和32b指示量化的噪声环境，该量化的噪声环境是处理器级30的噪声量化操作的总输出。

控制器12的处理器级34(在图2中用短语“识别最优声学模型”标出)接收指示基于车辆参数的估计的伦巴效应的电信号32a以及基于车厢噪声的估计的伦巴效应的电信号32b。处理器级34从库36(在图3中示出)中选择声学模型中的一个，作为基于车辆参数和车厢噪声的估计的伦巴效应的函数。更一般地，处理器级34基于量化的噪声从库36中选择声学模型中的一个。按照这种方式，处理器级34从库36中选择与量化的噪声最佳对应的声学模型。

处理器级34输出指示哪个声学模型已被选择的电校准信号46。参照图3，处理器级34将电校准信号46提供给库36，以便控制器12的处理器级40访问选择的声学模型。处理器级40随后将选择的声学模型应用于含噪语音。

在变型中，处理器级34从库36中选择声学模型的操作包括：处理器级34根据基于车厢噪声的估计的伦巴效应来预筛选声学模型，以获取候选声学模型的子集，随后进一步根据基于车辆参数的估计的伦巴效应来减少候选声学模型的子集，以从候选声学模型的子集中选择最合适的声学模型。作为示例，处理器级34根据电信号32b使用车厢噪声分贝水平/频谱分析信息来预筛选从库36中选择的声学模型。处理器级34随后根据电信号32a使用车辆参数信息(诸如，发动机每分钟转数和HVAC设置)来进一步减少选择。由于用于发动机噪声的声学模型可能因噪声的频谱性质而与用于HVAC噪声的声学模型不同，所以处理器级34以这种方式来进一步减少选择。

如描述的，图2连同图3一起示出了ASR系统10首先量化噪声，随后使用查找表类型函数来识别库36中的最优声学模型。

图3中示出的库36中的声学模型用通用标号48标出。声学模型48用短语AM“x”来表示，其中，“x”是唯一标识码。作为示例，声学模型“AM 5”48a是通过电校准信号46而被识别为由控制器12的处理器级34选择的声学模型的声学模型。

图3的框图描述了ASR系统10的声学模型选择操作以及将选择的声学模型用于语音识别的操作。在操作中，处理器级34向库36输出指示选择的声学模型的电校准信号46。进而，处理器级40访问选择的声学模型，并将选择的声学模型应用于含噪语音，以便识别含噪语音。

图3示出了具有在车辆中可用的N个声学模型的库36的ASR系统10，并且示出了ASR系统10如何选择由电校准信号46指定的声学模型中的一个(例如，声学模型48a)并将选择的声学模型应用于含噪语音。如在此描述的，选择的声学模型完全取决于噪声分析。

尽管上面描述了示例性实施例，但并不意在这些实施例描述了本发明的所有可能形式。更确切地，说明书中使用的词语为描述性词语而非限制性词语，并且应理解的是，可在不脱离本发明的精神和范围的情况下做出各种改变。此外，可组合各种实现的实施例的特征以形成本发明的进一步的实施例。

Claims

1.一种用于车辆的自动语音识别系统，包括：

控制器，被配置为：基于车辆的车厢中的周围环境噪声和车辆的操作参数来从声学模型库中选择声学模型，并将选择的声学模型应用于含噪语音，以改进对所述含噪语音的识别。

2.如权利要求1所述的自动语音识别系统，还包括：

多个车厢噪声麦克风，被配置为检测车辆的车厢中的周围环境噪声；

控制器与所述车厢噪声麦克风进行通信，以接收指示车辆的车厢中的周围环境噪声的信息。

3.如权利要求1所述的自动语音识别系统，其中，控制器与车辆的控制器局域网(CAN)总线进行通信，以获取指示车辆的操作参数的信息。

4.如权利要求3所述的自动语音识别系统，其中，指示车辆的操作参数的信息包括指示车辆发动机每分钟转数、车辆速度和车辆暖通空调设置的信息。

5.如权利要求1所述的自动语音识别系统，其中，控制器还被配置为通过以下处理来选择声学模型：首先基于车辆的车厢中的周围环境噪声来从所述声学模型库中选择声学模型的子集，随后基于车辆的操作参数来从所述声学模型的子集中选择声学模型。

6.如权利要求1所述的自动语音识别系统，其中，

控制器与车辆的用户穿戴的可穿戴装置进行通信，以从所述可穿戴装置获取情境信息；

控制器还被配置为：基于车辆的车厢中的周围环境噪声、车辆的操作参数和所述情境信息来从所述声学模型库中选择声学模型。

7.如权利要求1所述的自动语音识别系统，其中，

控制器与车辆的车厢中的用户麦克风进行通信，以接收所述含噪语音。

8.如权利要求1所述的自动语音识别系统，其中，

所述声学模型库中的声学模型因声学模型分别与不同的使用情形对应而彼此不同。

9.如权利要求1所述的自动语音识别系统，其中，

声学模型是伦巴效应声学模型。

10.如权利要求1所述的自动语音识别系统，其中，

控制器还被配置为：基于车辆的车厢中的周围环境噪声和车辆的操作参数来估计所述含噪语音的伦巴效应；

控制器还被配置为：基于估计的伦巴效应，从所述声学模型库中选择声学模型。

11.如权利要求1所述的自动语音识别系统，其中，

控制器还被配置为：基于车辆的车厢中的周围环境噪声的分贝水平和频谱分析来估计所述含噪语音的伦巴效应成分，并且基于车辆的操作参数来估计所述含噪语音的伦巴效应成分；

控制器还被配置为：基于估计的伦巴效应成分来从所述声学模型库中选择声学模型。

12.一种用于车辆的自动语音识别方法，所述方法包括：

基于车辆的车厢中的周围环境噪声和车辆的操作参数来从声学模型库中选择声学模型；

将选择的声学模型应用于含噪语音，以改进对所述含噪语音的识别。