CN104011735B

CN104011735B - 基于车辆的对乘员音频和可视输入的确定

Info

Publication number: CN104011735B
Application number: CN201180075888.XA
Authority: CN
Inventors: P·王; Y·张
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2011-12-26
Filing date: 2011-12-26
Publication date: 2018-03-30
Anticipated expiration: 2031-12-26
Also published as: KR101749143B1; BR112014015844A2; WO2013097075A1; BR112014015844A8; CN104011735A; JP2015507219A; JP5928606B2; EP2798635A4; US20140214424A1; KR20140104461A; EP2798635A1

Abstract

描述了包括用于接收来自车辆的一个或多个乘员的音频数据和可视数据的操作的系统、装置、制品和方法。可以至少部分地基于所接收的可视数据来做出关于车辆的一个或多个乘员中的哪个与所接收的音频数据相关联的确定。

Description

基于车辆的对乘员音频和可视输入的确定

背景技术

语音控制系统通常伴随具有离线训练和在线识别的基于统计学的算法。在学术界和工业界，发言者识别(例如，谁正在发言)和话语识别(例如，正在说什么)已成为两个活跃的主题。语音识别典型地被理解为发言者识别和话语识别的组合。语音识别可以使用发言者语音的所学习的方面来确定正在说什么。例如，某些语音识别系统可能无法非常准确地识别来自随机发言者的话语，但对已由语音识别系统训练过的个体语音可以达到高准确度。

音频-可视话语识别在学术界已经研究了几十年。普通的音频-可视话语识别包括面部检测、跟踪；面部特征定位；用于可视话语的面部特征表示；话语的音频和可视表示的融合。

现有用于车载信息娱乐(IVI)系统(例如OnStar、SYNC、以及Nuance)的话语控制系统典型地依赖于声学信号处理技术来进行话语识别。现有用于车载信息娱乐的话语控制系统尚未引入可视信号处理技术来进行语音识别。

附图说明

在附图中以示例方式而不是以限制的方式说明了本文描述的内容。为了说明的简单和清晰，在附图中示出的元件不一定按比例绘制。例如，为了清晰，某些元件的尺寸可能相对其他元件被放大了。此外，在认为适当之处，附图标记在附图之间重复，以指示相应的或类似的元件。在附图中：

图1为示例性车载信息娱乐(IVI)系统的示意图；

图2为示出了示例性语音识别过程的流程图；

图3为操作中的示例性车载信息娱乐系统(IVI)的示意图；

图4示出了在唇部跟踪期间被处理的若干示例性图像；

图5是示例性系统的示意图；以及

图6是全部根据本公开的至少一些实现方式布置的示例性系统的示意图。

具体实施方式

现在参考随附的附图对一个或多个实施例或实现方式进行描述。虽然讨论的是具体的配置和布置，但应当理解，这仅是出于举例说明的目的进行的。相关领域技术人员将认识到，在不脱离本说明书精神和范围的情况下可以使用其它配置和布置。在此描述的技术和/或布置也可以在不同于在此所描述的各种其它系统和应用中使用，这对相关领域技术人员来说是显而易见的。

虽然下述说明提出了可以体现在例如像片上系统(SoC)架构的架构中的各种实现方式，但在此所描述的技术和/或布置的实现方式并不限于具体的架构和/或计算系统，并且可以通过任何用于类似目的的架构和/或计算系统来实现。举例来说，例如采用多个集成电路(IC)芯片和/或封装的各种架构、和/或各种计算设备和/或消费性电子产品(CE)设备(例如机顶盒、智能电话等)可以实现在此所描述的技术和/或布置。此外，虽然下述说明可能提出许多具体细节(诸如系统组件的逻辑实现方式、类型和相互关系，逻辑划分/集成选择等等)，但要求保护的主题可以在没有这些具体细节的情况下被实现。在其他例子中，例如，可能没有详细地示出诸如控制结构和完整的软件指令序列之类的一些内容，以免模糊这里所公开的内容。

在此所公开的内容可以用硬件、固件、软件或它们的任意组合来实现。在此所公开的内容也可以作为存储在机器可读介质上的指令来实现，所述指令可以由一个或多个处理器读出并执行。机器可读介质可以包括任何用于以机器(例如，计算设备)可读形式存储或传送信息的介质和/或机制。例如，机器可读介质可以包括只读存储器(ROM)；随机存取存储器(RAM)；磁盘存储介质；光存储介质；闪存装置；电学的、光学的、声学的或其它形式的传播信号(例如，载波、红外信号、数字信号，等等)以及其他。

在本说明书中对“一种实现方式”，“实现方式”，“示例性实现方式”等的提及表示所描述的实现方式可以包括特定的特征、结构或特性，但不是每种实现方式都必须包括所述特定的特征、结构或特性。并且，这样的短语不一定指的是同一实现方式。此外，当结合一实现方式来描述特定的特征、结构或特性时，所主张的是：结合其他实现方式(不管是否在本文中被显式地描述)来实现这样的特征、结构或特性落入本领域技术人员的知识范围内。

下面描述的系统、装置、制品和方法包括用于从车辆的一个或多个乘员接收音频数据和可视数据的操作。可以至少部分地基于所接收的可视数据，来做出关于车辆的一个或多个乘员中的哪个与所接收的音频数据相关联的确定。在某些示例中，可以实现唇部检测和跟踪以用于车载信息娱乐(IVI)系统中的智能语音控制。

某些IVI系统可以基于少数几个预定义的词汇来执行基于话语的识别控制。车载话语识别系统通常具有挑战，例如，车载话语识别系统通常具有信噪比在5到20分贝范围内的噪音环境。此外，车载话语识别系统通常还具有安装在距发言者30至100厘米处的低成本的麦克风。

更自然的用户接口可能会利用更自然的和/或更稳健的语言处理技术。例如，在某些示例性实现方式中，IVI系统可以提取发言者的可视数据，以增强噪音稳健的语音识别系统。例如，当多于一个的用户说出语音指令时，对于IVI系统来说，可能有用的是分辨哪个发言者正在发言并适应特定于用户的话语识别器。类似地，当驾驶员正在做出语音指令时，可能有用的是自动降低收音机音量以使背景噪音更低。

如将在下面更详细地描述的，某些示例性实现方式可以将唇部检测和跟踪用于发言者识别(例如，发言者变化检测)和用于自适应的特定于用户的语音识别。在所述音频-可视语音识别系统中，唇读可以依赖于唇部轮廓检测和/或跟踪的准确性。类似地，准确的唇部检测同样可以依赖于面部检测的稳健性。

如在此所用的，术语“发言者识别”可以指谁正在发言的识别。如在此所用的，术语“话语识别”可以指正在说什么的识别。如在此所用的，术语“语音识别”可以指至少部分基于谁正在发言的识别对正在说什么的识别，或者，换句话说，作为发言者识别和话语识别的组合。音频-可视语音控制一般是计算昂贵的，但可能能够提供比单独的话语识别更高的识别准确性。

图1是根据本公开的至少某些实现方式布置的示例性车载信息娱乐(IVI)系统100的示意图。在图示的实现方式中，IVI系统100可以包括成像装置104和麦克风装置106。IVI系统100可以是可操作地与车辆108相关联的。例如，IVI系统100可以位于车辆108内。在某些示例中，IVI系统100可以包括为清楚起见而未在图1中示出的附加项目。例如，IVI系统100可以包括处理器、射频型(RF)收发器和/或天线。另外，IVI系统100可以包括为清除起见而未在图1中示出的其他项目，如扬声器、显示器、加速计、存储器、路由器、网络接口逻辑等等。

如在此所用的，术语“车载信息娱乐”可以指被配置为执行娱乐和/或信息服务的位于车辆内的系统。在某些示例中，车载信息娱乐可以指：逐转弯的导航(turn-by-turnnavigation)、免提通话、车辆诊断、紧急服务、911帮助、音乐搜索、可听文本消息、商业搜索、兴趣点网络搜索、语音至文本消息传送、无线充电、远程监控等等，和/或它们的组合。在上述应用当中，可能利用在此所讨论的语音识别技术的用户接口特征的某些更具体的示例可以包括：智能手机应用的语音控制、语音激活的导航系统、语音控制和触摸屏访问的组合、语音命令、基于蓝牙的语音通信应用、基于语音的Facebook应用、驾驶时基于语音的文本消息、交互式语音响应等等，和/或它们的组合。

成像装置104可以被配置为从车辆108的一个或多个乘员110捕捉可视数据。例如，成像装置104可以被配置为从驾驶员112、前座乘客114、从一个或多个后座乘客116等等和/或它们的组合捕获可视数据。

在某些示例中，可以经由摄像仪传感器等(例如，互补金属氧化物半导体型图像传感器(CMOS)或电荷耦接设备型的图像传感器(CCD))来捕获第一用户的可视数据，而不使用红-绿-蓝(RGB)深度摄像仪和/或麦克风阵列来定位谁正在发言。在其他示例中，除了摄像仪传感器移位或者替代摄像仪传感器，也可能使用RGB深度摄像仪和/或麦克风阵列。

由于车辆通常具有受约束的环境，所以乘员的活动和行为通常是有限的。具体地，当乘员做出命令时，乘员通常是就坐的并且通常是面向仪表板的。因此，成像设备104可能包括安装在后视镜位置的摄像仪传感器。在该示例中，安装了摄像仪传感器的后视镜可能能够捕捉到车辆内的所有乘员的视图。

麦克风装置106可以被配置为从一个或多个乘员110捕捉音频数据。在某些示例中，可以在不使用红-绿-蓝(RGB)深度摄像仪和/或麦克风阵列来定位谁正在发言的情况下来捕捉第一用户的可视数据。在其他示例中，除了摄像仪传感器以外或者替代摄像仪传感器，也可以使用RGB深度摄像仪和/或麦克风阵列。

如将在下面更详细讨论的，IVI系统100可以用于执行结合图2和/或图3在下文中所讨论的各种功能中的一些或全部。例如，IVI系统100可以从车辆108的一个或多个乘员110接收来自麦克风装置106的音频数据和/或来自成像装置104的可视数据。可以至少部分地基于所接收的可视数据，做出关于车辆108的一个或多个乘员110中的哪个与所接收的音频数据相关联的确定。

在操作中，IVI系统100可以利用针对用户口头输入的智能的和情境感知的响应。音频和可视数据输入可以分别被麦克风装置106和成像装置104捕捉。通过组合音频和可视数据，IVI系统100能够在受约束的环境中(如在车辆或其他受约束环境中)分辨一个乘客与另一个乘客。因此，IVI系统100能够通过利用可视信息处理技术来在车载信息娱乐系统中执行智能的和稳健的语音控制。

图2是示出了根据本公开的至少某些实现方式布置的示例性语音识别过程200的流程图。在图示的实现方式中，过程200可以包括如由块202、204、和/或206中的一个或多个所示的一个或多个操作、功能或动作。通过非限制性示例的方式，将在此参考图1的示例性车载信息娱乐(IVI)系统100来描述过程200。

过程200可以开始于块202，“接收音频数据”，其中可以接收音频数据。例如，所接收的音频数据可以包括来自车辆的一个或多个乘员的口语输入。

处理可以从操作202继续至操作204，“接收可视数据”，其中可以接收可视数据。例如，所接收的可视数据可以包括车辆的一个或多个乘员的视频。

处理可以从操作204继续至操作206，“确定车辆的一个或多个乘员中的哪个与所接收的音频数据相关联”，其中可以确定车辆的一个或多个乘员中的哪个与所接收的音频数据相关联。例如，可以至少部分地基于所接收的可视数据来确定车辆的一个或多个乘员中的哪个与所接收的音频数据相关联。

在操作中，过程200可以利用针对用户口头输入的智能的和情境感知的响应。通过组合音频和可视数据，过程200能够在受约束的环境中(如在车辆或其它受约束的环境中)分辨一个乘客与另一个乘客。因此，过程200能够通过利用可视信息处理技术在车载信息娱乐系统中执行智能的和稳健的语音控制。

可以在下文中关于图3更详细地讨论的实现方式的一个或多个示例中说明与过程200相关的某些附加的和/或可替换的细节。

图3是根据本公开的至少某些实现方式布置的示例性车载信息娱乐(IVI)100和语音识别过程300在操作中的示意图。在图示的实现方式中，过程300可以包括如由动作310、311、312、314、316、318、320、322、324、326和/或328中的一个或多个所示的一个或多个操作、功能或动作。通过非限制性示例的方式，将在此处参考图1的示例性车载信息娱乐(IVI)系统100来描述过程200。

在图示的实现方式中，IVI系统100可以包括话语识别模块302、面部检测模块304、唇部跟踪模块306、控制系统308等等和/或它们的组合。如图所示，话语识别模块302、面部检测模块304以及唇部跟踪模块306能够彼此通信和/或与控制系统308通信。虽然图3所示的IVI系统100可以包括与特定模块相关联的特定的一组块或动作，但是这些块或动作可以与同在此所示的特定模块不同的模块相关联。

过程300可以提供增强的语音控制方法，其可以组合音频和可视处理技术来处理车内噪音和/或扬声器适应问题。车内噪音来自发动机、道路、车内娱乐声音等等。除了声学信号处理技术以外，为了识别驾驶员或乘客正在发出什么命令，过程300还可以采用诸如面部检测和唇部跟踪之类的可视信息处理技术。所述可视信息处理技术可以提高在各种噪音环境下命令识别的稳健性。

过程300可以开始于块310，“接收音频数据”，其中，可以接收音频数据。例如，可以经由话语识别模块302接收音频数据。音频数据可以包括来自车辆的一个或多个乘员的口语输入。

处理可以从操作310继续至操作311，“执行话语识别”，其中，可以执行话语识别。例如，可以经由话语识别模块302执行话语识别。在某些示例中，可以至少部分地基于所接收的音频数据执行所述话语识别。

重要的是理解音频数据流很少是原始的。例如，音频数据流可能不仅包含话语数据(例如，说了什么)，而且还包括背景噪音。这种噪音能够干扰识别过程，并且话语识别模块302可以处理(并且甚至适应于)音频被说出的环境。

话语识别模块302具有相当复杂的要处理的任务，即取得原始音频输入并将其转换为应用程序理解的已识别的文本。在某些实现方式中，话语识别模块302可以利用一种或多种语言语法模型和/或声学模型，以将来自音频数据输入形式的已识别文本返回给车辆的乘员。例如，话语识别模块302可以利用一种或多种语言语法模型来将口语音频数据输入转换为文本。所述语言语法模型可以采用各种数据、统计和/或软件算法，以将已知的关于主动语法的单词和短语考虑在内。类似地，以声学模型的形式向话语识别模块302提供环境知识。

一旦话语识别模块302识别了所说的话的最可能的匹配，话语识别模块302就可以返回所识别的内容作为初始文本字符串。一旦口语音频数据处于初始文本字符串的正确格式，话语识别模块302就可以搜索输出文本字符串的最佳匹配。话语识别模块302可以非常努力地尝试找到输出文本字符串的匹配，并且可能非常宽容(例如，通常可以基于相对较差质量的初始文本字符串提供最好的猜测)。

如将在下文更详细讨论的，对车辆的一个或多个乘员中的哪个与所接收的音频数据相关联的确定可以包括若干操作。在图示的示例中，所述操作可以包括与唇部跟踪结合的面部检测。

处理可以从操作311继续至操作312，“接收可视数据”，其中可以接收可视数据。例如，可以经由面部检测模块304接收可视数据。所接收的可视数据可以包括车辆的一个或多个乘员的视频。

处理可以从操作312继续至操作314，“执行面部检测”，其中可以检测乘员的面部。例如，可以至少部分地基于可视数据经由面部检测模块304来检测车辆的一个或多个乘员的面部。在某些示例中，所述面部检测可以被配置为在车辆的一个或多个乘员之间进行区分。

在某些示例中，面部的检测可以包括：至少部分地基于Viola-Jones型框架(例如，参见Paul Viola,Michael Jones的Detection using a Boosted Cascade of SimpleFeatures,CVPR2001和/或Yangzhou,Qiang Li的名称为“TECHNIQUES FOR FACE DETECTIONAND TRACKING”的于2010年12月10日提交的PCT/CN2012/000997)来检测面部。这样的面部检测技术可以允许相对积累包括面部检测、界标检测、面部对准、微笑/眨眼/性别/年龄检测、面部识别、检测两个或更多个面部和/或其他。

Viola-Jones型框架是一种这样的实时目标检测的方法。训练可能是相对慢的，但检测可能是相对快的。这样的Viola-Jones型框架可以利用积分图像来进行快速特征评估、利用推进(boosting)进行特征选择、利用注意级联(attentional cascade)进行非面部窗口的快速拒绝。

例如，面部检测可以包括：在图像上滑动窗口；以及在每个位置评估面部模型。在图像中面部通常是稀少的，而滑动窗口检测器可以在面部检测任务期间评估成千上万个位置/比例的组合。为了计算效率，尽可能在非面部窗口上花费较少的时间。百万像素的图像具有大约106个像素和相当数量的候选面部位置。为了避免在每个图像中具有假阳性，假阳性率可以低于10:6。

处理可以从操作314继续至操作316，“执行唇部跟踪”，其中可以执行唇部跟踪。例如，可以经由唇部跟踪模块306执行车辆的一个或多个乘员的唇部跟踪。在某些示例中，可以至少部分地基于所接收的可视数据和所执行的面部检测来执行唇部跟踪；

下文在图4更详细地讨论关于唇部跟踪的一个示例性实现方式的附加细节。

处理可以从操作316继续至操作318，“确定是否正在发言”，其中，可以确定车辆的一个或多个乘员中是否有任何乘员正在发言。例如，可以经由唇部跟踪模块306来确定车辆的一个或多个乘员中是否有任何乘员正在发言。在某些示例中，可以至少部分地基于唇部跟踪来确定车辆的一个或多个乘员中是否有任何乘员正在发言。

处理可以从操作318继续至操作320，“降低音量”，其中，可以降低车辆音频输出的音量。例如，可以经由控制系统308降低车辆音频输出的音量。在某些示例中，可以是至少部分地基于对车辆的一个或多个乘员中是否有任何乘员正在发言的确定来降低车辆音频输出的音量。

举例来说，行驶中的发动机、来自广播收听的背景音乐干扰和/或多个发言的乘员通常会降低话语识别的准确性。当音频数据本身不能对改善语音控制的准确性有益时，可视数据可以是补充提示，以供IVI系统100与车辆乘员进行交互。在某些示例中，可以是至少部分地基于对车辆的一个或多个乘员中是否有任何乘员正在发言的确定来降低车辆音频输出的音量。

处理可以从操作320继续至操作322，“确定谁正在发言”，其中，可以确定车辆的一个或多个乘员中的哪个正在发言。例如，可以经由唇部跟踪模块306来确定车辆的一个或多个乘员中的那个正在发言。在某些示例中，可以至少部分地基于唇部跟踪来进行这种对车辆的一个或多个乘员中的哪个正在发言的确定。

处理可以从操作322继续至操作324，“将发言者与个体简档相关联”，其中，可以将车辆的一个或多个乘员与个体简档关联起来。例如，可以经由控制系统306将车辆的一个或多个乘员与个体简档关联起来。在某些示例中，可以至少部分地基于面部检测并至少部分地基于对哪个乘员正在发言的确定来将车辆的一个或多个乘员与个体简档关联起来。

如在此所使用的，术语“个体简档”可以包括与个体乘员相关的控制信息，例如乘员身份、控制系统偏好等等。例如，在接收到表示这样的个体位于车辆内的数据时，或者在接收到关于这样的个体正在发言或已经发送了命令的数据指示时，控制系统308可以至少部分地基于这样的个体简档来对命令进行响应或预先调整设置。

例如，利用稳健的面部检测模块304，IVI系统100可以自动地分辨正在发言的人的身份，然后对IVI系统100执行个性化设置。在某些示例中，当面部被检测到并被识别出时，控制系统308可以适于至少部分地基于所识别的乘员的身份调节控制设置。附加地或可替换地，当面部被检测到并被识别出时，控制系统308可以调适任何对命令的响应，以至少部分地基于所识别的乘员的身份来调节响应。另外，操作322的谁正在发言的确定可以被传送至控制系统308。在所述示例中，当面部被检测到并被识别出，并且做出该个体正在发言的确定时，控制系统308可以适于至少部分地基于所识别的乘员的身份来调节控制设置和/或调解对乘员命令的响应。

处理可以从操作324继续至操作326，“执行语音识别”，其中，可以执行语音识别。例如，可以经由语音识别模块302来执行语音识别。在某些示例中，语音识别可以至少部分地基于所执行的话语识别和对车辆的一个或多个乘员中的哪个与所接收的音频数据相关联的确定。

在某些示例中，所述语音识别可以作为操作311的话语识别的修正而被执行。可替换地，所述语音识别可以独立地或作为操作311的话语识别的替代而被执行。

在某些示例中，当面部被检测到并被识别出时，可以至少部分地基于所识别的乘员的身份来使话语识别模块302适应于特定的发言者模型。例如，话语识别模块302可以适于针对各种输入进行调节(举例来说，使用提前离线训练的用于特定乘员(如驾驶员和/或少量乘员)的特定识别器)。此外，操作322的谁正在发言的确定可以被传送至话语识别模块302。在所述示例中，当面部被检测到并被识别出，并且做出该个体正在发言的确定时，可以至少部分地基于所识别的乘员身份使话语识别模块302适应于特定发言者模型。

处理可以从操作326继续至操作328，“确定用户命令”，其中，可以确定用户命令。例如，可以经由控制系统308确定用户命令。这种对用户命令的确定可以至少部分地基于所执行的话语识别和/或语音识别。

在操作中，IVI系统100可以将智能的和情境感知响应应用于用户的口头输入。音频和可视数据输入可以分别由麦克风和摄像仪捕捉。在音频数据处理线程中，话语识别模块302可以逐字分辨正在说什么。在可视数据处理线程(例如，面部检测模块304和/或唇部跟踪模块306)中，面部检测模块304可以分辨摄影仪图像中的面部的位置、大小和数量。当面部被检测到时，可以经由唇部跟踪模块306在运动图片中被进一步定位和跟踪唇部区域。在使用面部识别和唇部跟踪的情况下，控制系统308能够分辨出谁在车里，以及他/她此刻是否正在发言。通过组合音频和可视数据，控制系统308可以监控发言者的改变和命令输入状态。

在某些实现方式中，可视处理模块(例如，面部检测模块304和/或唇部跟踪模块306)可以不只是实现语音识别上的协助。例如，在使用稳健的面部检测模块304的情况下，IVI系统100能够自动分辨出正在发言者的身份，然后对IVI系统100执行个性化设置。此外，当面部被检测到并被识别出时，可以至少部分地基于所识别的成员的身份来使话语识别模块302适应于特定发言者模型。除此之外，在使用稳定的唇部跟踪模块306的情况下，IVI系统100能够自动分辨出如果某人正在发言的状态，然后执行积极声学环境设置，如降低收音机音量等等。在另一个示例中，当唇部跟踪输出为正时，IVI系统100的音量可能以智能方式降低。

虽然图2和图3中所示的示例性过程200和300的实现方式可以包括执行以所示顺序示出的所有块，但本公开并不限于此，并且，在各种示例中，过程200和300的实现方式可以包括仅执行所示块的子集和/或以不同于所示顺序来执行。

此外，图2和图3中的块中的任意一个或多个也可以是响应于由一个或多个计算机程序产品提供的指令而被执行的。所述程序产品可以包括提供指令的信号承载媒介，当所述指令由例如处理器执行时，可以提供在此所描述的功能。计算机程序产品可以以任何形式的计算机可读介质来提供。因此，例如，包括一个或多个处理器核心的处理器可以响应于计算机可读媒介传送给处理器的指令来执行图5和图6中所示的块中的一个或多个。

如在此所描述的任何实现方式中所使用的，术语“模块”是指被配置为提供在此描述的功能的软件、固件和/或硬件的任何组合。软件可以体现为软件包、代码和/或指令集或指令，并且如在此所描述的任何实现方式中所使用的，“硬件”可以例如单独地或任何组合地包括硬连线电路、可编程电路、状态机电路和/或存储由可编程电路执行的指令的固件。模块可以共同地或单独地体现为电路，其形成较大的系统(例如集成电路(IC)、片上系统(SoC)等)的一部分。

图4示出了根据本公开的至少某些实现方式布置的在唇部跟踪过程400期间处理的若干示例性图像。如上所讨论的，某些示例性实现方式可以将唇部检测和跟踪用于发言者识别(例如，发言者改变检测)和用于自适应的特定于用户的语音识别。

在唇部定位和跟踪中的挑战存在于若干方面。例如，可变形对象模型可能是复杂的，某些面部姿势和/或唇部形状可能不是公知的或者很好研究的，光照条件可能经受频繁变化，背景可能是复杂的和/或可能经受频繁变化，唇部运动连同头部运动可能频繁地或以不可预知的方式改变位置，和/或其它因素，如自我遮挡。

在图示的实现方式中，唇部跟踪过程400可以依赖于唇部轮廓检测和/或跟踪的准确性。类似地，准确的唇部检测同样可以依赖于面部检测的稳健性。例如，唇部跟踪过程400可以依赖于基于运动的唇部跟踪以及依赖于基于优化的分割。

在图示的实现方式中，可以处理视频数据图像401以使唇部402可以被检测到。唇部跟踪过程400的基于运动的唇部跟踪部分可以遵循三个步骤：特征点初始化、光流量跟踪和/或特征点细化等等。例如，四个特征点可以通过分层直接外观模型(HDAM)进行初始化，然后，金字塔Lucas-Kanade光流量方法能够帮助在稀疏的特征集上跟踪。例如，唇部跟踪过程400的特征点初始化操作可以包括唇部定位404。特征点细化406随后可以修正唇部定位404。例如，特征点细化406的特征点位置可以通过颜色直方图比较和/或局部搜索而被细化，如图所示。

唇部跟踪过程400可以包括唇部轮廓的椭圆建模407。通过唇部跟踪过程400，唇部轮廓可以用椭圆模型408来表示。由于唇部通常是对称的，所以可以通过首先识别左/右嘴角410，然后识别顶部/底部边缘点412来构造唇部轮廓，如图所示。

唇部跟踪过程400可以包括：通过局部搜索唇部402的嘴部边缘进行的唇部轮廓构造414。例如，可以定位四个或更多个点416，并且唇部轮廓414可以通过局部搜索嘴部边缘来构造，如图所示。

唇部跟踪过程400可以包括：在唇部402运动时在运动图片上跟踪唇部轮廓构造414的结果。例如，视频数据图像420示出了在唇部402闭合时唇部跟踪过程400跟踪唇部轮廓构造414的结果。类似地，视频数据图像422示出了在唇部402闭合时唇部跟踪过程400跟踪唇部轮廓构造414的结果。通过跟踪唇部轮廓构造414，唇部跟踪过程400能够分辨出车辆乘员是否正在发言。

图5示出了根据本公开的示例性系统500。在各种实现方式中，系统500可以是媒体系统，尽管系统500并不局限于这种上下文。例如，系统500可以被并入个人计算机(PC)、膝上型计算机、超膝上型计算机、平板电脑、触摸板、便携式计算机、手持计算机、掌上型计算机、个人数字助理(PDA)、蜂窝电话、组合蜂窝电话/PDA、电视机、智能设备(如智能手机、智能平板电脑或智能电视机)、移动互联网设备(MID)、消息传送设备、数据通信设备等等中。

在各种实现方式中，系统500包括耦接至显示器520的平台502。平台502可以接收来自内容设备(如内容服务设备530或内容传送设备540或其他类似的内容源)的内容。包括一个或多个导航特征的导航控制器550可以被用来例如与平台502和/或显示器520进行交互。在下文更详细地描述这些组件中的每一个。

在各种实现方式中，平台502可以包括芯片组505、处理器510、存储器512、存储设备514、图形子系统515、应用程序516和/或无线电设备518的任何组合。芯片组505可以提供处理器510、存储器512、存储设备514、图形子系统515、应用程序516和/或无线电设备518之间的相互通信。例如，芯片组505可以包括能够提供与存储设备514的相互通信的存储适配器(未示出)。

处理器510可以被实现为复杂指令集计算机(CISC)或精简指令集计算机(RISC)处理器、x86指令集兼容处理器、多核、或任何其它微处理器或中央处理单元(CPU)。在各种实现方式中，处理器510可以是双核处理器、双核移动处理器等等

存储器512可以被实现为易失性存储器设备，例如但不限于：随机存取存储器(RAM)、动态随机存取存储器(DRAM)、或静态RAM(SRAM)。

存储设备514可以被实现为非易失性存储设备，例如但不限于：磁盘驱动器、光盘驱动器、带驱动器、内部存储设备、附加存储设备、闪存、电池备份的SDRAM(同步DRAM)和/或可访问网络的存储设备。在各种实现方式中，例如当包括多个硬盘驱动器时，存储设备514可以包括用于为有价值的数字媒体提高存储性能增强保护的技术。

图形子系统515可以执行对图像(例如用于显示的静止图像或视频)的处理。例如，图形子系统515可以是图形处理单元(GPU)或可视处理单元(VPU)。模拟或数字接口可被用于可通信地耦接图形子系统515和显示器520。例如，接口可以是高清晰多媒体接口、显示端口、无线HDMI、和/或无线HD兼容技术中的任何一种。图形子系统515可以集成到处理器510或芯片组505中。在某些实现方式中，图形子系统515可以是可通信地耦接到芯片组505的独立卡(stand-alone card)。

在此描述的图形和/或视频处理技术可以用各种硬件架构来实现。例如，图形和/或视频功能可以集成在芯片组内。可替换地，可以使用分立的图形和/或视频处理器。作为又一实现方式，图形和/或视频功能可以由通用处理器(包括多核处理器)来提供。在进一步的实施例中，所述功能可以在消费电子设备中实现。

无线电设备518可以包括一个或多个能够使用各种合适的无线通信技术发射和接收信号的无线电设备。所述技术可以涉及跨越一个或多个无线网络的通信。示例性无线网络包括(但不限于)无线局域网(WLAN)、无线个域网(WPAN)、无线城域网(WMAN)、蜂窝网络和卫星网络。在跨越这样的网络的通信中，无线电设备518可以根据任意版本的一个或多个可应用标准进行运行。

在各种实现方式中，显示器520可以包括任何电视机类型的监视器或显示器。显示器520可以包括例如计算机显示屏幕、触摸屏显示器、视频监视器、像电视机一样的设备和/或电视机。显示器520可以是数字的和/或模拟的。在各种实现方式中，显示器520可以是全息显示器。此外，显示器520可以是可接收可视投影的透明表面。所述投影可以传送各种形式的信息、图像和/或对象。例如，所述投影可以是用于移动增强现实(MAR)应用的可视叠加。在一个或多个软件应用程序516的控制下，平台502可以在显示器520上显示用户界面522。

例如，在各种实现方式中，内容服务设备530可以由任何国家的、国际的和/或独立的服务托管，并因此经由因特网访问平台502。内容服务设备530可以耦接至平台502和/或显示器520。平台502和/或内容服务设备530可以耦接至网络560以向网络560并从网络560传送(例如，发送和/或接收)媒体信息。内容传送设备540也可以耦接至平台502和/或显示器520。

在各种实现方式中，内容服务设备530可以包括有线电视盒、个人计算机、网络、电话、能连接互联网的设备或能够传送数字信息和/或内容的装置、以及能够单向地或双向地在内容提供商和平台502和/显示器520之间经由网络560或直接进行通信的任何其他类似设备。应当认识到，可以经由网络560单向地和/或双向地向以及从系统500中的部件和内容提供商中的任何一个传送内容。内容的示例可以包括任何媒体信息，包括例如视频、音乐、医疗和游戏信息等等。

内容服务设备530可以接收诸如有线电视节目之类的内容，包括媒体信息、数字信息和/或其它内容。内容提供商的示例可以包括任何有线或卫星电视或者无线电或互联网内容提供商。所提供的示例不意味着以任何方式限制根据本公开的实现方式。

在各种实现方式中，平台502可以从具有一个或多个导航特征的导航控制器550接收控制信号。例如，控制器550的导航特征可以用于与用户接口522交互。在实施例中，导航控制器550可以是定点设备，其可以是允许用户输入空间(例如，连续的和多维的)数据到计算机的计算机硬件组件(具体地是人机接口设备)。许多系统(例如图形用户界面(GUI)、电视机以及监视器)允许用户使用身体姿势来控制并将数据提供给计算机或电视机。

可以通过指针、光标、对焦环或在显示器上显示的其他可视指示符的移动来在显示器(例如，显示器520)上复制控制器550的导航特征的移动。例如，在软件应用程序516的控制下，位于导航控制器550上的导航特征可以被映射到显示在用户界面522上的虚拟导航特征。在实施例中，控制器550可以不是单独的部件，而可以被集成到平台502和/或显示器520中。但是，本公开不限于这些元件或者限于在本文所示或描述的上下文中。

例如，在各种实现方式中，驱动器(未示出)可以包括使用户能够在初始启动之后通过触摸按钮来像电视机一样立即打开和关闭平台502(在使能时)的技术。程序逻辑可以允许平台502将内容流式传输到媒体适配器或其他内容服务设备530或内容传送设备540，即使在平台被“关闭”时也是如此。此外，芯片组505可以包括例如用于5.1环绕声音频和/或高清7.1环绕声音频的硬件和/或软件支持。驱动器可以包括用于集成图形平台的图形驱动器。在实施例中，图形驱动器可以包括外围组件互连(PCI)快速图形卡。

在各种实现方式中，系统500中所示组件中的任何一个或多个可以被集成。例如，平台502和内容服务设备530可以被集成，或者平台502和内容传送设备540可以被集成，或者平台502、内容服务设备530和内容传送设备540可以被集成。在各种实施例中，平台502和显示器520可以是集成的单元。例如，显示器520和内容服务设备530可以被集成，或者显示器520和内容传送设备540可以被集成。这些示例并不意味着限制本公开。

在各种实施例中，系统500可以被实现为无线系统、有线系统或两者的组合。当被实现为无线系统时，系统500可以包括适于在无线共享介质(例如一个或多个天线、发射机、接收机、收发机、放大器、滤波器、控制逻辑等等)上进行通信的部件和接口。无线共享介质的示例可以包括无线频谱的部分，如RF频谱等。当被实现为有线系统时，系统500可以包括适于在有线通信介质(例如输入/输出(I/O)适配器、将I/O适配器与相应有线通信介质连接的物理连接器、网络接口卡(NIC)、磁盘控制器、视频控制器、音频控制器等等)上进行通信的部件和接口。有线通信介质的示例可以包括电线、电缆、金属引线、印刷电路板(PCB)、底板、交换结构、半导体材料、双绞线、同轴电缆、光纤等等。

平台502可以建立一个或多个逻辑或物理信道来传送信息。信息可以包括媒体信息和控制信息。媒体信息可以是指表示对用户有意义的内容的任何数据。内容的示例可以包括例如来自语音会话、视频会议、流式视频、电子邮件(“email”)消息、语音邮件消息、字母数字符号、图形、图像、视频、文本等的数据。来自语音会话的数据可以是例如话语信息、静音期、背景噪音、舒适噪音、音调等等。控制信息可以是指表示对自动化系统有意义的命令、指令或控制字的任何数据。例如，控制信息可以用于通过系统路由媒体信息，或指示节点以预定的方式处理媒体信息。但是，实施例并不限于这些元素或者限制在图5中所示或描述的上下文中。

如上所述，系统500可以体现为不同的物理样式或形状因数。图6示出了小形状因数设备600的实现方式，系统500可以体现在其中。在实施例中，例如，设备600可以被实现为具有无线能力的移动计算设备。例如，移动计算设备可以指具有处理系统和移动功率源或电源(例如一个或多个电池)的任何设备。

如上所述，移动计算设备的示例可以包括个人计算机(PC)、膝上型计算机、超膝上型计算机、平板电脑、触摸板、便携式计算机、手持计算机、掌上型计算机、个人数字助理(PDA)、蜂窝电话、组合蜂窝电话/PDA、电视机、智能设备(例如，智能手机、智能平板电脑或智能电视机)、移动互联网设备(MID)、消息传送设备、数据通信设备等等。

移动计算设备的示例还可以包括布置为由人穿戴的计算机，如手腕计算机、手指计算机、戒指计算机、眼镜计算机、皮带夹计算机、臂带计算机、鞋计算机、服装计算机以及其他可穿戴的计算机。在各种实施例中，例如，移动计算设备可以被实现为能够执行计算机应用程序以及语音通信和/或数据通信的智能电话。虽然可以通过例子的方式用被实现为智能电话的移动计算设备来描述某些实施例，但是可以理解的是，也可以使用其他无线移动计算设备来实现其他实施例。实施例不限于这种上下文。

如图6所示，设备600可以包括外壳602、显示器604、输入/输出(I/O)设备606以及天线608。设备600还可以包括导航特征612。显示器604可以包括任何合适的显示单元，用于显示适合于移动计算设备的信息。I/O设备606可以包括任何合适的I/O设备，用于将信息输入到移动计算设备。I/O设备606的示例可以包括字母数字键盘、数字小键盘、触摸板、输入键、按钮、开关、摇臂开关、麦克风、扬声器、语音识别设备和软件等等。信息还可以通过麦克风(未示出)被输入到设备600。所述信息可以被语音识别设备(未示出)数字化。所述实施例不限于这种上下文。

可以使用硬件元件、软件元件或两者组合来实现各个实施例。硬件元件的示例可以包括处理器、微处理器、电路、电路元件(例如，晶体管、电阻器、电容器、感应器等等)、集成电路、专用集成电路(ASIC)、可编程逻辑器件(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等等。软件的示例可以包括软件组件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、过程、软件界面、应用程序接口(API)、指令集、计算代码、计算机代码、代码段、计算机代码段、字、值、符号或其任意组合。确定实施例是否使用硬件元件和/或软件元件来实现可以根据任意数量的因素(如所期望的计算速率、功率水平、耐热性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度以及其它设计或性能约束)变化。

至少一个实施例的一个或多个方面可以由存储在机器可读介质上的代表性指令执行，所述代表性指令代表处理器内的各种逻辑，当所述逻辑被机器读出时，使得机器制造用于执行在此所描述的技术的逻辑。所述代表被称为“IP核心”，可以存储在有形的机器可读介质上，并供应给不同的客户或生产设施以加载到实际上制造逻辑或处理器的制造机器中。

虽然已经参考各种实现方式对在此提出的某些特征进行了描述，但该描述并非旨在以限制性的意义进行解释。因此，对本公开所属领域的技术人员显而易见的、对此处描述的实施方式以及其他实施方式的各种修改被认为落入本公开内容的精神和范围内。

Claims

1.一种计算机实现的方法，包括：

接收音频数据，其中，所述音频数据包括来自车辆的一个或多个乘员的口语输入；

至少部分地基于所接收的音频数据来执行话语识别，以识别正在说什么；

接收可视数据，其中，所述可视数据包括所述车辆的所述一个或多个乘员的视频；

至少部分地基于：至少部分地基于所接收的可视数据来对所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联的确定，以及在没有基于音频的发言者验证的情况下，通过至少部分地基于所接收的可视数据来对所述车辆的所述一个或多个乘员的唇部跟踪，来确定谁正在发言；

至少部分地基于在没有基于音频的发言者验证的情况下对谁正在发言的基于可视数据的确定，来选择特定的发言者模型；

至少部分地基于：对作为对所执行的话语识别操作的修改的适合于选定的特定的发言者模型的语音识别的执行，来确定正在说什么，其中，所执行的语音识别是至少部分地基于所执行的话语识别和对所述车辆中的所述一个或多个乘员中的哪一个与所接收的音频数据相关联的确定的；以及

至少部分地基于所执行的语音识别来执行与所述车辆的操作相关联的用户命令。

2.根据权利要求1所述的方法，其中，确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联还包括：

至少部分地基于所接收的可视数据，来执行对所述车辆的所述一个或多个乘员的面部检测，其中，所述面部检测被配置为在所述车辆的所述一个或多个乘员之间进行区分。

3.根据权利要求1所述的方法，其中，确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联还包括：

至少部分地基于所接收的可视数据，来执行对所述车辆的所述一个或多个乘员的面部检测，其中，所述面部检测被配置为在所述车辆的所述一个或多个乘员之间进行区分；以及

至少部分地基于所述面部检测，来将所述车辆的所述一个或多个乘员与个体简档关联起来。

4.根据权利要求1所述的方法，其中，确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联还包括：

至少部分地基于所接收的可视数据，来将所述车辆的所述一个或多个乘员与个体简档关联起来；

至少部分地基于所述唇部跟踪，来确定所述车辆的所述一个或多个乘员中是否有任何乘员正在发言；以及

至少部分地基于对所述车辆的所述一个或多个乘员中是否有任何乘员正在发言的确定，来降低车辆音频输出的音量。

5.根据权利要求1所述的方法，其中，确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联还包括：

6.一种计算机实现的装置，包括：

用于接收音频数据的单元，其中，所述音频数据包括来自车辆的一个或多个乘员的口语输入；

用于至少部分地基于所接收的音频数据来执行话语识别，以识别正在说什么的单元；

用于接收可视数据的单元，其中，所述可视数据包括所述车辆的所述一个或多个乘员的视频；用于至少部分地基于所接收的可视数据，来确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联的单元；

用于至少部分地基于：至少部分地基于所接收的可视数据来对所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联的确定，以及在没有基于音频的发言者验证的情况下，通过至少部分地基于所接收的可视数据来对所述车辆的所述一个或多个乘员的唇部跟踪，来确定谁正在发言的单元；

用于至少部分地基于在没有基于音频的发言者验证的情况下对谁正在发言的基于可视数据的确定，来选择特定的发言者模型的单元；

用于至少部分地基于：对作为对所执行的话语识别操作的修改的适合于选定的特定的发言者模型的语音识别的执行，来确定正在说什么的单元，其中，所执行的语音识别是至少部分地基于所执行的话语识别和对所述车辆中的所述一个或多个乘员中的哪一个与所接收的音频数据相关联的确定的；以及

用于至少部分地基于所执行的语音识别来执行与所述车辆的操作相关联的用户命令的单元。

7.根据权利要求6所述的装置，其中，用于确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联的单元还包括：

用于至少部分地基于所接收的可视数据，来执行对所述车辆的所述一个或多个乘员的面部检测的单元，其中，所述面部检测被配置为在所述车辆的所述一个或多个乘员之间进行区分。

8.根据权利要求6所述的装置，其中，用于确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联的单元还包括：

用于至少部分地基于所接收的可视数据，来执行对所述车辆的所述一个或多个乘员的面部检测的单元，其中，所述面部检测被配置为在所述车辆的所述一个或多个乘员之间进行区分；以及

用于至少部分地基于所述面部检测，来将所述车辆的所述一个或多个乘员与个体简档关联起来的单元。

9.根据权利要求6所述的装置，其中，用于确定所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联的单元还包括：

用于至少部分地基于所接收的可视数据，来将所述车辆的所述一个或多个乘员与个体简档关联起来的单元；

用于至少部分地基于所述唇部跟踪，来确定所述车辆的所述一个或多个乘员中是否有任何乘员正在发言的单元；以及

用于至少部分地基于对所述车辆的所述一个或多个乘员中是否有任何乘员正在发言的确定，来降低车辆音频输出的音量的单元。

10.一种装置，包括：

处理器，其被配置为：

11.根据权利要求10所述的装置，其中，对所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联的确定还包括：

12.根据权利要求10所述的装置，其中，对所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联的确定还包括：

13.根据权利要求10所述的装置，其中，对所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联的确定还包括：

至少部分基于所接收的可视数据，来将所述车辆的所述一个或多个乘员与个体简档关联起来；

14.一种系统，包括：

成像设备，其被配置为捕捉可视数据；以及

计算系统，其中，所述计算系统通信地耦接至所述成像设备，并且其中，所述计算系统被配置为：

接收所述可视数据，其中，所述可视数据包括所述车辆的所述一个或多个乘员的视频；

15.根据权利要求14所述的系统，其中，对所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联的确定还包括：

16.根据权利要求14所述的系统，其中，对所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联的确定还包括：

17.根据权利要求14所述的系统，其中，对所述车辆的所述一个或多个乘员中的哪个与所接收的音频数据相关联的确定还包括：