CN108292507A

CN108292507A - 车辆动态声学模型

Info

Publication number: CN108292507A
Application number: CN201580082572.1A
Authority: CN
Inventors: 普拉米塔·密特拉; 加里·史蒂文·斯特鲁莫洛; 克雷格·约翰·西蒙兹; 阿里·哈桑尼; 马克·A·库迪西; 戴维·梅尔彻
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2015-08-24
Filing date: 2015-08-24
Publication date: 2018-07-17
Also published as: GB2557132A; GB201803532D0; RU2018106645A; US20180286413A1; US10593335B2; MX2018001996A; DE112015006831T5; GB2557132B; RU2018106645A3; RU2704746C2; WO2017034536A1

Abstract

车辆语音处理器包括处理设备和数据存储介质。处理设备编程为从可穿戴设备接收识别信息、根据识别信息识别讲话者、根据识别信息识别与讲话者相关联的语调、选择预定的声学模型、并且至少部分地基于所识别的语调来调整预定的声学模型。

Description

车辆动态声学模型

背景技术

具有语音识别的车辆允许乘客使用语音命令来控制某些车辆功能。语音指令允许乘客通过说出某些车辆可理解的命令来控制信息娱乐系统、娱乐系统、气候控制系统等。根据接收到的语音命令，车辆将处理和通过输出各种控制信号来执行语音命令。

附图说明

图1示出了具有与可穿戴设备通信的语音处理系统的示例车辆；

图2是示出语音处理系统的示例部件的框图；

图3是示出示例数据流的框图；

图4是示出可以并入语音处理系统中的声学模型的示例性调整的框图；

图5是可由语音处理系统执行以解释特定用户的语音模式的示例过程的流程图。

具体实施方式

改善乘客如何通过语音与车辆交互会增强车内体验。可以使乘客感觉好像在与车辆进行交流、而不是简单地给出指令的自然语言模式，是一种改善乘客与车辆互动的方式。在自然语言模型普及到车辆中之前，车辆必须能够更稳定和更精确地识别语音。

一种增加车辆语音识别系统的稳定性和精确性的方式包括修改语音识别系统处理语音的方式。传统的声学模型是静态的，并且在被认为是自动语音识别(automaticspeech recognition，ASR)的典型用例的各种条件下进行训练。也就是说，传统的声学模型是根据一般人的预期语音模式而进行训练的。为每一种可能的语调和口音包括一种声学模型即使不是不可能的，也会是成本高昂的。而且，背景噪声使得传统的声学模型难以精确地处理语音。

可穿戴设备可以允许车辆更好地识别和理解特定的乘员的讲话模式。可以基于来自特定人员的可穿戴设备的数据而为特定人员定制声学模型的示例车辆语音处理器包括处理设备和数据存储介质。处理设备编程为从可穿戴设备接收识别信息、根据识别信息识别讲话者、根据识别信息识别与讲话者相关联的语调、选择预定的声学模型、并且至少部分地基于所识别的语调来调整预定的声学模型。

因此，根据可穿戴设备的识别信息，语音处理器可以动态地对声学模型再加权。由于传统的声学模型是以在各种适当的组合形式下从训练集中导出的特征向量(featurevector)的线性组合构建的，并且由于许多静态模型在处理有口音的讲话方面做得不好，因此语音处理器可以针对由可穿戴设备识别的特定讲话者校准声学模型。校准声学模型可以包括例如选择可用的特征向量和对可用的特征向量再加权。

因此，语音处理器可以充分利用由可穿戴设备收集的数据。数据可以包括由用户在设置可穿戴设备时自愿提供的基本分类信息，如种族、民族、主要语言等。可替代地或额外地，数据可以包括由机器学习算法执行的分类，以具体地识别用户偏向何种音素分布。利用这些信息，语音处理器可以将声学模型针对讲话者的特征向量的最佳线性组合再加权，极大地改善了语音识别。另外，由于信息娱乐系统可以构建出连续增强特征向量权重的配置文件，所以语音识别(通过语音识别讲话者)可以与内置于例如信息娱乐系统中的自适应学习范例一起使用，以进一步增强识别。

所示的元件可以采取许多不同的形式并且包括多个和/或可替代的部件和设施。所示的示例部件不旨在限制。事实上，可以使用额外的或可替代的组件和/或实施方式。此外，除非明确说明，所示的元件不一定按比例绘制。

如图1所示，主车辆100包括与可穿戴设备110通信的语音处理系统105。尽管示为四门轿车，但是主车辆100可以包括任何乘客车辆或商用车辆，例如轿车、卡车、越野车、跨界车、厢式货车、面包车、出租车、公共汽车等。在一些可能的方法中，主车辆100是配置为以自主(例如无人驾驶)模式、部分自主模式、和/或非自主模式操作的自主车辆。

可穿戴设备110可以包括允许可穿戴设备110与语音处理系统105无线通信的任何数量的电路或部件。可穿戴设备110可以配置为使用任何数量的无线通信技术而通信，例如无线保真(Wireless fidelity，Wi-Fi)，无线保真直连(Wi-FiDirect)等等。可穿戴设备110可以编程为与语音处理系统105配对，这使得可穿戴设备110和语音处理系统105可以交换数据。例如，可穿戴设备110可以编程为将与穿戴可穿戴设备110的人相关联的识别信息发送到语音处理系统105。识别信息可以包括例如讲话者的身份。讲话者的身份可以基于例如由讲话者在设置可穿戴设备110时提供的信息。设置可穿戴设备110可以包括生成配置文件并将配置文件关联到可穿戴设备110。识别信息可以包括例如与讲话者相关联的唯一标识，并且可以将唯一标识符与识别信息一起发送到主车辆100。

识别信息还可以包括语调信息。例如，可穿戴设备110可以执行正在进行的“训练”功能，其中可穿戴设备110通过例如将讲话音素与预期音素相匹配而持续尝试理解用户的讲话。讲话音素和预期音素之间的差异可以表征为讲话者的语调。因此，语调信息可以被识别讲话者的语调、或讲话音素相对于预期音素的另一表示。

语音处理系统105可以编程为与可穿戴设备110配对，并且从可穿戴设备110接收识别信息。语音处理系统105可以处理识别信息以识别讲话者。在识别出讲话者的情况下，语音处理系统105可以选择声学模型。可称为“预定的声学模型”的声学模型可以是并入语音处理系统105中的标准模型。

语音处理系统105可以进一步识别讲话者的语调。可以根据讲话者的身份、或关于讲话者的其他信息(包括从可穿戴设备110发送的语调信息)来识别语调。例如，语调可以与不同的地理区域相关联，该地理区域可以包括讲话者的当前地理区域或讲话者的先前地理区域(讲话者长大或消耗最多时间的地理区域)。例如，可以为在波士顿附近度过他大半生的讲话者选择一种语调，并且可以为在美国南部度过大半生的讲话者选择不同的语调。替代地理方法或除地理方法之外，语音处理系统105还可以基于由可穿戴设备110执行的“训练”来识别讲话者的语调。

语音处理系统105可以基于所识别的语调来调整预定的声学模型，以创建校准的声学模型。调整预定的声学模型可以包括例如在多个语音特征中选择语音特征。每个语音特征可以与特定的音素相关联。调整预定的声学模型可以进一步包括调整施加到所选语音特征的权重。所施加的权重可以指示在解释讲话者的讲话时，特定音素应该受到多大的影响。因此，增加权重可以使特征更具影响力，而降低权重可以使特征的影响力降低。

语音处理系统105可以接收声学信号(即穿戴可穿戴设备110的人发出的讲话)，并将校准的声学模型应用于声学信号。语音处理系统105可以根据校准的声学模型处理声学信号，并且生成与由声学信号表示的语音命令一致的适当命令，该命令发送到一个或多个车辆子系统115(参见图2)。

图2是示出语音处理系统105的示例部件的框图。如图所示，语音处理系统105包括通信设备120、拾音器125、数据存储介质130、和语音处理器135。

通信设备120可以包括便于可穿戴设备110和语音处理器135之间通信的任何数量的电路或部件。通信设备120可以编程为通过任何数量的无线通信技术(例是Wi-Fi、Wi-Fi Direct等)与可穿戴设备110通信。通信设备120可以编程为与可穿戴设备110配对，并且从可穿戴设备110无线接收包括语调信息的识别信息。通信设备120可以编程为将识别信息发送到例如语音处理器135。

拾音器125可以包括可以接收声学信号(例如语音)、并且将声学信号转换成可以称为“模拟声学信号”的电信号的任何数量的电路或部件。例如，拾音器125可以包括根据语音生成模拟声学信号的传感器。拾音器125可以位于例如主车辆100的乘客舱中。在一些可能的实施方式中，拾音器125可以配置或编程为将模拟声学信号输出到例如信号转换器，使得可以将模拟声学信号转换为数字声学信号。

数据存储介质130可以包括可以存储电子数据的任何数量的电路或部件。在一种可能的方法中，数据存储介质130可以包括计算机可执行指令。数据存储介质130可以额外地或可替代地存储声学模型。声学模型可以包括例如任何数量的预定的声学模型(如上所述可以是并入语音处理系统105中的标准模型)。此外，数据存储介质130可以编程或配置为存储一个或多个校准的声学模型。

语音处理器135可以包括配置或编程为处理语音的任何数量的电路或部件。在一种可能的方法中，语音处理器135可以编程为从通信设备120接收识别信息，并根据识别信息识别讲话者(即穿戴可穿戴设备110的人)。语音处理器135可以进一步配置为识别与讲话者相关联的语调。语调可以根据识别信息(如上所述可以包括语调信息)来识别。语音处理器135可以编程为选择一个存储在数据存储介质130中的预定的声学模型。可以基于例如识别信息而选择预定的声学模型。此外，语音处理器135可以编程为基于例如从可穿戴设备110接收的、或者从识别信息推断出的(例如，从与穿戴可穿戴设备110的人相关联的地理区域推断出的)语调信息来调整选择的预定的声学模型。如上所述，调整的预定的声学模型可以称为校准的声学模型，并且语音处理器135可以编程为将校准的声学模型存储在数据存储介质130中。利用生成的校准的声学模型，语音处理器135可以实时接收模拟或数字声学信号，并将校准的声学模型应用于任何接收的声学信号，以更好地理解讲话者的话语。如果讲话包括语音命令，则语音处理器135可以生成命令信号并将命令信号输出到执行语音命令的一个或多个车辆子系统115。

图3是示出示例数据流的框图300。可穿戴设备110发送识别信息到语音处理系统105。在框305，语音处理系统105识别讲话者，并且在框310，语音处理系统105识别讲话者的语调。在框315，语音处理系统105根据语调调整声学模型，以生成如框320所示的校准的声学模型。在语音处理系统105通过拾音器125接收语音，并将语音转换为声学信号。声学信号通过帮助语音处理系统105更好地处理和解释语音的校准的声学模型。如果讲话包括语音命令，则语音处理系统105可以将命令输出到一个或更多个车辆子系统115。

图4是示出了可以并入语音处理系统105中的声学模型的示例性调整的框图400。在框405示出了校准的(即调整的)声学模型。语音处理器135可以将校准信号410应用于预定的声学模型。如框415A-415N所示，校准信号可以识别施加到一个或多个特征的权重发生的特定改变。框420指示语音处理器135的编程，以根据校准信号来对每个特征415A-415N再加权。如上面所讨论的，对特征415A-415N再加权可以包括选择语音特征415A-415N中的一个或多个，其中每个语音特征与特定的音素相关联，并且调整施加到任何选定的语音特征的权重。所施加的权重可以指示在解释讲话者的讲话时，特定音素应当受到多大的影响。因此，增加权重可能会使特征更具影响力，而降低权重可能会使特征影响降低。由框425表示的声学信号可以传递通过校准的声学模型，并且在框430示出的校准的声学模型405的输出可以包括识别的语音。

图5是可以由语音处理系统105执行以解释特定用户的语音模式的示例过程500的流程图。过程500可以在主车辆100行驶时执行。例如，过程500可以在主车辆100首次起动时开始，并且继续执行直到主车辆100关闭时、直到所有乘客已经离开主车辆100、直到没有可穿戴设备110与主车辆100配对、或者直到主车辆100不再能够接收和处理语音命令。

在框505，语音处理系统105可以与可穿戴设备110配对。语音处理系统105可以与例如与驾驶员或另一车辆的乘员相关联的可穿戴设备110配对。可以通过例如通信设备120来促进配对。

在框510，语音处理系统105可以从可穿戴设备110接收识别信息。在一种可能的方式中，识别信息可以包括语调信息。可以通过通信设备120接收识别信息，并且将识别信息发送到例如语音处理器135。

在框515，语音处理系统105可以识别讲话者。也就是说，语音处理系统105可以处理识别信息以识别谁在穿戴可穿戴设备110。在一些情况下，语音处理器135可以识别讲话者并且从数据存储介质130中选择与讲话者相关联的配置文件。

在框520，语音处理系统105可以识别与在框515识别的人相关联的语调。在一个可能的实施方式中，语音处理器135可以根据例如识别信息来识别语调。

在框525，语音处理系统105可以选择一个预定的声学模型。数据存储介质130中可以存储多个预定的声学模型，并且语音处理器135可以从存储的声学模型中选择一个预定的声学模型。

在框530，语音处理系统105可调整在框525选择的预定的声学模型。例如，语音处理器135可以使用在框520识别的语调或从可穿戴设备110接收的可能的其他信息，来调整预定的声学模型以生成校准的声学模型。一种调整预定的声学模型的方式包括从多个语音特征中选择一个或多个语音特征，并且调整应用于一个或多个语音特征的权重。如上所述，每个语音特征与音素相关联，因此调整语音特征的权重指示了应当给予每个音素的影响力的量。增加权重可能意味着音素更具有影响力，而减轻权重可能指示音素的影响力降低。

在框535，语音处理系统105可以接收声学信号。声学信号可以通过拾音器125接收，并且可以表示在主车辆100的乘客舱中发出的语音。

在框540，语音处理系统105可以将校准模型应用于声学信号。例如，语音处理器135可以从拾音器接收声学信号，并将在框530生成的校准的声学模型应用于声学信号。

在判定框545，语音处理系统105可以识别声学信号是否包括任何语音命令。例如，语音处理器135可以通过比较声学信号表示的话语与加权特征、并且识别话语是否表示与语音命令相关联的音素，来做出这样的识别。如果声学信号包括语音命令，则过程500可以前进到框550。否则，过程500可以返回到框535。

在框550，语音处理系统105可以生成并输出适当的命令信号。语音处理器135可以生成与在框545检测到的语音命令相关联的命令信号。另外，语音处理器135可以将命令信号输出到适当的车辆子系统，使得语音命令得以执行。过程500可以在框535继续。

因此，根据可穿戴设备110提供的识别信息，所公开的语音处理系统105可以动态地对预定的声学模型再加权。由于传统的声学模型是以在各种适当的组合形式下从训练集中导出的特征向量的线性组合构建的，并且由于许多静态模型在处理有口音的语音方面做得不好，因此语音处理系统105可以针对由可穿戴设备110识别的特定讲话者来校准声学模型。校准声学模型可以包括例如选择可用的特征向量和对可用的特征向量再加权。

通常，所描述的计算系统和/或设备可以采用多个计算机操作系统中的任何一个的任何版本和/或品种，包括但不限于：Ford操作系统、Microsoft操作系统、Unix操作系统(例如，由加利福尼亚州Redwood Shores的Oracle公司发布的操作系统)、由纽约Armonk的IBM公司发布的AIX UNIX操作系统、Linux操作系统、由加利福尼亚州Cupertino的Apple公司发布的Mac OSX和iOS操作系统、由加拿大Waterloo的Blackberry有限公司发布的Blackberry操作系统、以及由Google公司和开放手机联盟开发的Android操作系统。计算设备的示例包括但不限于：车载车辆计算机、计算机工作站、服务器、台式机、笔记本电脑、膝上型电脑或手持式计算机、或者一些其他计算系统和/或设备。

计算设备通常包括计算机可执行指令，其中指令可由如上所列的一个或多个计算设备执行。计算机可执行指令可以由使用各种编程语言和/或技术创建的计算机程序进行编译或解释，编程语言和/或技术包括但不限于单独使用或组合使用的Java^TM、C、C++、Visual Basic、Java Script、Perl等。通常，处理器(例如微处理器)例如从存储器、计算机可读介质等处接收指令并执行这些指令，从而执行一个或多个步骤，包括本文所述的一个或多个步骤。可以使用各种计算机可读介质来存储和发送这样的指令和其他数据。

计算机可读介质(又称处理器可读介质)包括参与提供可由计算机(例如由计算机的处理器)读取的数据(例如指令)的任何非暂态介质(例如有形介质)。这种介质可以采取许多形式，包括但不限于非易失性介质和易失性介质。非易失性介质可以包括例如光盘或磁盘以及其它持久存储器。易失性介质可以包括例如通常构成主存储器的动态随机存取存储器(dynamic random access memory，DRAM)。这样的指令可以通过包括同轴电缆、铜线、和光纤在内的一个或多个传输介质来传输，传输介质包括包含连接到计算机处理器的系统总线的导线。计算机可读介质的常见形式包括例如软盘、可折叠磁盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD、任何其它光学介质、穿孔卡片、纸带、任何其他具有孔图案的物理介质、RAM、PROM(可编程只读存储器)、EPROM(可擦可编程只读存储器)、闪存EEPROM(电可擦可编程只读存储器)、任何其它存储器芯片或盒式磁盘、或计算机可读取的任何其他介质。

在此描述的数据库、数据存储库、或其他数据存储可以包括用于存储、访问、和检索各种数据的各种机构，各种机构包括分层数据库、文件系统中的一组文件、专有格式的应用程序数据库、关系数据库管理系统(relational database management system，RDBMS)等。每个这样的数据存储通常被包括在采用诸如上述那些之一的计算机操作系统、以各种方式中的任何一种或多种方式来通过网络访问的计算设备中。文件系统可以从计算机操作系统访问，并且可以包括以各种格式存储的文件。RDBMS除了使用创建、存储、编辑、和执行存储过程的语言之外，通常还使用结构化查询语言(Structured Query Language，SQL)，例如上面提到的过程化SQL语言(Procedural Language/SQL,PL/SQL)。

在一些示例中，可以将系统元件实现为存储在与计算设备相关联的计算机可读介质(例如磁盘、存储器等)上的一个或多个计算设备(例如服务器、个人计算机等)上的计算机可读指令(例如软件)。计算机程序产品可以包括存储在计算机可读介质上、用于执行在此描述的功能的这种指令。

关于本文所述的过程、系统、方法、启发等应当理解，尽管已经将这些过程的步骤等描述为根据某个有序序列发生，但是可以以除本文所述的顺序之外的顺序执行描述的步骤来实施这些过程。还应当理解，可以同时执行某些步骤，可以添加其他步骤，或者可以省略本文描述的某些步骤。换言之，为了说明某些实施例的目的提供了本文的过程描述，并且不应将其解释为限制权利要求。

因此应当理解，上述描述旨在说明性而非限制。在阅读上述描述之后，除所提供的实施例之外的许多实施例和应用将是显而易见的。获得权利的范围不应该是参考上述描述确定，而应该参照所附权利要求以及这些权利要求的等同物的全部范围来确定。可以预计和意在将在本文讨论的技术中发生的未来的发展，并且所公开的系统和方法将并入到未来的实施例中。总之应该理解，应用能够修改和变化。

除非在本文中作出相反的明确指示，否则权利要求书使用的所有术语旨在赋予其在本文描述中本领域技术人员所理解的普通含义。特别地，除非一项权利要求明确说明相反的限制，否则“一个”、“所述”、“所述的”等使用的单数形式应当解读为说明一个或多个指出的元素。

提供摘要以允许读者快速确定所公开技术的本质。应当理解，提交摘要并非用于解释或限制权利要求的范围或含义。另外，在前面的详细描述中可以看出，出于简化本公开的目的，在各种实施例中将各种特征分组在一起。这种公开的方法不应被解释为意图反映所要求保护的实施例比每个权利要求中明确叙述的特征更多。相反，如以下权利要求所反映的那样，本发明的主题在于少于单独公开的实施例的所有特征。因此，以下权利要求在此并入详细描述中，每个权利要求独立地作为单独要求保护的主题。

Claims

1.一种车辆语音处理器，包括处理设备和数据存储介质，其中所述处理设备编程为：

从可穿戴设备接收识别信息；

根据所述识别信息识别讲话者；

根据所述识别信息识别与所述讲话者相关联的语调；

选择预定的声学模型；并且

至少部分地基于所识别的所述语调来调整所述预定的声学模型。

2.根据权利要求1所述的车辆语音处理器，其中所述处理设备编程为至少部分地基于根据由所述识别信息所识别的所述语调而调整的所述预定的声学模型来生成校准的声学模型。

3.根据权利要求1所述的车辆语音处理器，其中所述处理设备编程为将校准的声学模型应用于声学信号。

4.根据权利要求3所述的车辆语音处理器，其中所述处理设备编程为至少部分地基于所述声学信号和所述校准的声学模型而输出车辆命令。

5.根据权利要求1所述的车辆语音处理器，其中调整所述预定的声学模型包括从多个语音特征中选择语音特征。

6.根据权利要求5所述的车辆语音处理器，其中调整所述预定的声学模型包括调整与所述选择的语音特征相关联的权重。

7.根据权利要求1所述的车辆语音处理器，其中调整所述预定的声学模型包括调整与多个语音特征中的至少一个相关联的权重。

8.根据权利要求7所述的车辆语音处理器，其中所述多个语音特征中的每一个都与音素相关联。

9.根据权利要求1所述的车辆语音处理器，还包括编程为与所述可穿戴设备配对的通信设备。

10.根据权利要求1所述的车辆语音处理器，还包括配置为接收模拟声学信号的拾音器。

11.一种方法，包括：

从可穿戴设备接收识别信息；

根据所述识别信息识别讲话者；

根据所述识别信息识别与所述讲话者相关联的语调；

选择预定的声学模型；并且

12.根据权利要求11所述的方法，还包括至少部分地基于根据由所述识别信息所识别的所述语调而调整的所述预定的声学模型来生成校准的声学模型。

13.根据权利要求11所述的方法，还包括将校准的声学模型应用于声学信号。

14.根据权利要求13所述的方法，至少部分地基于所述声学信号和所述校准的声学模型而输出车辆命令。

15.根据权利要求11所述的方法，其中调整所述预定的声学模型包括从多个语音特征中选择语音特征。

16.根据权利要求11所述的方法，其中调整所述预定的声学模型包括调整与多个语音特征中的至少一个相关联的权重。

17.根据权利要求16所述的方法，其中所述多个语音特征中的每一个都与音素相关联。

18.一种车辆系统，包括：

编程为与可穿戴设备配对的通信设备；

配置为接收声学信号的拾音器；和

语音处理器，所述语音处理器编程为：从所述可穿戴设备接收识别信息、根据所述识别信息识别讲话者、根据所述识别信息识别与所述讲话者相关联的语调、选择预定的声学模型、至少部分地基于所识别的所述语调来调整所述预定的声学模型以生成校准的声学模型、并且将所述校准的声学模型应用于所述声学信号。