CN108573701A

CN108573701A - 基于唇部检测的查询端点化

Info

Publication number: CN108573701A
Application number: CN201711049276.9A
Authority: CN
Inventors: 金澯佑; R.C.农皮乌尔; M.A.U.巴奇亚尼
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-03-14
Filing date: 2017-10-31
Publication date: 2018-09-25
Anticipated expiration: 2037-10-31
Also published as: GB2581886A; GB201717843D0; US20190333507A1; GB202003401D0; US20220238112A1; WO2018169568A1; US10755714B2; US11308963B2; GB2560598A; US20180268812A1; US10332515B2; CN114141245A; DE202017106586U1; CN108573701B; DE102017125396B4; GB2581886B; GB2560598B; DE102017125396A1; US20200357401A1

Abstract

描述了用于改善由用户提交的言语查询的端点检测的系统和方法。在一些实施方式中，接收同步的视频数据和音频数据。确定包括与脸部上的唇部移动对应的图像的视频数据的帧序列。基于对应于帧序列的第一帧的第一音频数据和对应于帧序列的最后一帧的第二音频数据来端点化音频数据。端点化的音频数据的录音由自动语音识别器生成。然后生成的录音被提供用于输出。

Description

基于唇部检测的查询端点化

技术领域

本说明书通常涉及自动语音识别(ASR)。

背景技术

自动语音识别(ASR)通常用于促进由用户提供的任务和/或命令的完成。例如，智能个人助理(PA)系统经常使用ASR来识别用户的口头命令以响应于该命令而执行指定动作。PAS可以基于用户输入、位置感知和/或从各种在线来源(例如天气或交通状况、新闻、股票价格、用户日程、零售价格等)访问信息的能力来执行动作。

发明内容

许多PA系统通常仅处理用户的音频数据编码话音(utterance)以识别和录音(transcribe)由用户提交的言语查询。然而，如果接收到的音频数据包括例如由于背景声音的高噪声电平，则可能难以准确地端点化(endpointing)音频数据以识别与所提交的言语查询相对应的音频的语音部分。结果，许多PA系统经常错误地识别或录音音频数据，包括例如包括不对应于用户的言语查询的音频段的音频数据、例如在用户的言语查询之前或之后的背景噪声。

在一些实施方式中，系统能够改善由用户提交的言语查询的端点检测。例如，系统可以初始地获得编码所提交的言语查询的音频数据、以及与包括当提交言语查询时的用户脸部的图像的所获得的音频数据同步的视频数据。然后，该系统使用技术来区分对应于语音输入的音频数据的部分和对应于非语音输入的言语查询的其它部分(例如背景噪声)。作为示例，系统初始地确定包括用户脸部的图像的视频帧序列。然后，系统识别包括检测到的唇部移动的图像的视频帧序列。在一些实施方式中，系统确定序列的第一帧和最后帧、以及它们对应的时间点。然后，系统识别音频数据中的具有与视频帧序列的第一和最后帧的时间点对应的开始和结束时间点的音频段。系统端点化音频数据以提取音频段，并提供音频段以输出到ASR用于录音。

通篇描述的端点化技术可用于为PA系统提供各种优点。例如，由于使用同步的视频数据来验证音频数据的语音部分，所以可以使用端点化技术来例如减少假阳性(falsepositive)言语查询检测，减少指定的PA系统激活术语或短语的错过(missed)检测，或者识别在编码接收到的查询的音频数据内的多个言语命令的发生。此外，在一些实施方式中，检测到的唇部移动数据可以用作由ASR系统独立验证语音识别以减少生成不正确的录音假设(hypotheses)的可能性。例如，可以针对指示用户所说的术语和/或短语的检测到的唇部移动数据来验证基于将语音识别技术应用于音频数据而生成的基线录音假设，以识别和/或纠正错误识别的术语。

在一个方面，一种计算机实现的方法可以包括：接收同步的视频数据和音频数据；确定视频数据的帧序列包括与脸部上的唇部移动相对应的图像；基于对应于帧序列的第一帧的第一音频数据和对应于帧序列的最后一帧的第二音频数据，端点化音频数据；通过自动语音识别器生成端点化的音频数据的录音；并提供所生成的录音以输出。

一个或多个实施方式可以包括以下可选特征。例如，在一些实施方式中，确定视频数据的帧序列包括与脸部上的唇部移动相对应的图像包括：识别与脸部上的唇部移动相对应的图像的一个或多个特征统计；以及确定一个或多个所识别的特征统计包括被确定为表示唇部移动相关语音的特征统计。

在一些实施方式中，该方法还包括：确定视频数据包括用户运动；并且响应于确定视频数据包括用户动作，确定视频数据的帧序列包括脸部的图像。

在一些实施方式中，从智能电话接收同步的视频数据和音频数据；该同步的视频数据由智能电话的前置摄像机捕获。

在一些实施方式中，端点化的音频数据对应于编码由用户提交的言语查询的音频数据的一部分。

在一些实施方式中，该方法还包括：响应于确定视频数据的帧序列包括脸部的图像，激活个人助理系统以处理用户提交的言语查询。

在一些实施方式中，确定视频数据的帧序列包括与脸部上的唇部移动相对应的图像包括：从视频数据获得帧序列；以及使用深度神经网络来处理帧序列，深度神经网络配置为：接收帧序列内的每个帧；并且计算帧序列内的每个帧的置信度分数，该置信度分数表示该帧包括与该脸部上的唇部移动相对应的图像的可能性。

在一些实施方式中，该方法还包括：确定视频数据的帧的子集包括脸部的图像，帧序列包括帧的子集，其中确定视频数据的帧序列包括与脸部的唇部移动相对应的图像包括：响应于确定视频数据的帧的子集包括脸部的图像，确定视频数据的帧序列包括与脸部上的唇部移动相对应的图像。

在一些实施方式中，确定视频数据的帧的子集包括脸部的图像包括：从视频数据获得帧的子集；使用深度神经网络来处理帧的子集，深度神经网络被配置为：接收帧的子集内的每个帧；并且计算帧的子集内的每个帧的置信度分数，该置信度分数表示该帧包括该脸部的图像的可能性。

在一些实施方式中，端点化音频数据包括：识别对应于视频数据的帧序列的第一帧的第一音频数据；识别对应于视频数据的帧序列的最后一帧的第二音频数据；以及截断在第一音频数据之前且第二音频数据之后的音频数据。

其它版本包括对应的系统和计算机程序，其被配置为执行在计算机存储设备上编码的方法的动作。

在附图和下面的说明书中阐述了一个或多个实施方式的细节。其它潜在的特征和优点将从说明书、附图和权利要求中变得显而易见。

这些方面的其它实施方式包括被配置为执行在计算机存储设备上编码的方法的动作的对应系统、装置和计算机程序。

附图说明

图1示出了能够使用检测到的唇部移动数据来确定言语查询段的端点的系统的示例。

图2示出了能够使用替代录音技术来选择性地处理言语查询的系统的示例。

图3示出了可用于训练图1和图2所示的系统的系统的示例。

图4示出了基于检测到的唇部移动数据来确定言语查询段的端点的处理的示例。

图5示出了可以在其上实现本文所描述的处理或其部分的计算设备的示例。

在附图中，相同的附图标记始终表示对应的部分。

具体实施方式

通常，系统能够改善由用户提交给个人助理设备的言语查询的端点检测。例如，系统可以初始地获得编码所提交的言语查询的音频数据、以及包括在提交言语查询时用户的脸部图像的同步视频数据。系统使用技术来区分对应于语音输入的音频数据的部分和对应于非语音输入的言语查询的其它部分(例如背景噪声)。作为示例，系统确定包括检测到的唇部移动的视频帧的序列。系统识别序列的第一帧和最后一帧及其对应的时间点。该系统识别音频数据的如下音频段，其具有与视频帧序列的第一帧和最后一帧的时间点对应的开始和结束时间点。系统通过提取音频段来端点化音频数据，并提供音频段以输出到ASR用于录音。

如所描述的，“端点”可以指代音频段的起始点或终止点。例如，如果使用单个端点来端点化单个音频文件，则生成两个音频段，例如，从音频文件的开头到作为终止点的端点的一个音频段、以及从作为起始点的该端点到音频文件的末尾的第二音频段。

图1示出了能够使用检测到的唇部移动数据来确定言语查询段的端点的PA系统100的示例。在该示例中，系统100包括客户端设备110、脸部检测模块122、唇部移动模块124、查询端点模块126、ASR 128和查询响应生成器129。

通常，系统100可以表示任何类型的智能个人助理软件，其能够执行诸如语音交互、音乐回放、制作待办事项列表、设置闹钟、流式音频数据、提供信息(例如，天气交通或实时信息)的任务。在一些实施方式中，系统100还可以另外能够被用作家庭自动化集线器(hub)。系统100可以在诸如客户端设备110(例如通过移动应用)、通过本地网络与客户端设备110进行通信的另一电子设备(例如支持Wi-Fi的个人助理设备)与在客户端设备110上运行的应用相关联的服务器、或其组合的设备上本地实现。

客户端设备110可以是任何类型的支持网络的个人电子计算设备。例如，客户端设备110可以是智能电话、膝上型计算设备、平板计算设备、智能个人助理设备、智能可穿戴设备或任何其它类型的物联网(IOT)能力的设备中的一个或多个。

脸部检测模块122、唇部移动模块124和查询端点模块126、ASR 128和查询响应生成器129可以是在可应用硬件元件上实现的系统100的软件模块。例如，在图1所示的示例中，模块122、124、126、128和129每个与系统100相关联，在与客户端设备110相关联的服务器(例如，web服务器、应用服务器或任何其它类型的可应用服务器)上执行。

在其它实施方式中，脸部检测模块122、唇部移动模块124、查询端点模块126、ASR128和查询响应生成器129是软件模块，其每个在不同的硬件元件、例如不同的服务器上实现。作为示例，脸部检测模块122、唇部移动模块124、查询端点模块126和查询响应生成器129可以在响应于用户提交的命令而获得信息的个人助理服务器上实现，而ASR 128可以利用识别和录音由用户提交的言语查询的另一不同的语音识别服务器来实现。

在操作中，用户102初始地在客户端设备110上提交话音104，其在客户端设备110上被处理并被编码为音频数据104a。响应于接收到话音104，客户端设备110可以向用户102显示用户界面。例如，用户界面可以提供看向客户端设备110的前置摄像机的指令。在其它示例中，用户界面可以向闹钟或通知提供与话音104相关联的信息，例如，响应于接收到话音104的话音的录音。在一些实施方式中，用户界面可以提供由客户端设备110执行的用户可选择的设备动作的列表。

与客户端设备110相关联的摄像机捕获用户102的视频数据106a。在所描绘的示例中，客户端设备110的前置摄像机在他/她说出激活系统100的激活术语或短语(称为“热词(hot word)”)、例如话音104内的短语“好的，计算机”之后捕获用户102的视频数据106a。在其它示例中，一旦用户102提供输入，例如言语输入、文本输入、图标/按钮按压，指示他/她即将提交话音104，则与客户端设备110相关联的摄像机可以自动捕获视频。

视频数据106a由与客户端设备110相关联的摄像机捕获，捕获的视频数据106a相关于音频数据104a被处理。例如，视频数据106a内的视频帧与音频数据104a内的音频段同步，使得与用户102正提供话音104的视频帧相关联的时间点与对应于与音频数据104a的音频段相关联的对应时间点对齐。然后将视频数据106a和同步的音频数据104b发送到脸部检测模块122。

脸部检测模块122处理视频数据106a以识别用户102的脸部。脸部检测模块122可以使用脸部识别技术来确定用户的脸部的图像是否存在于视频数据106a的视频帧内。脸部检测模块122使用的脸部识别技术的例子是由Zhu和Ramanan在题为“Face Detection，PoseEstimation，and Landmark Localization in the Wild”的研究出版物中描述的技术，可在https：//www。ics.uci.edu/～xzhu/paper/face-cvpr12.pdf得到。

在图1所示的示例中，脸部检测模块122识别由客户端设备110的前置摄像机拍摄的视频数据106a内的检测到的脸部108。视频数据106b包括包含检测到的脸部108的图像的视频帧序列，并且然后同步的音频数据104b被发送到唇部移动模块124。

唇部移动模块124处理视频数据106b以识别视频数据106b内的包括对应于检测到的唇部移动的图像的视频帧序列。例如，唇部移动模块124可以迭代地比较用户脸部的视频数据106b内的连续视频帧，以确定用户的唇部是否在帧之间移动。在图1所示的例子中，唇部移动模块124确定包括检测到的脸部108和唇部移动数据109的图像的视频帧的子集，例如其中检测到用户的唇部在连续的视频帧之间移动的视频数据106b的子集。

唇部移动模块124确定在视频数据106b内的所识别的视频帧序列中检测到的唇部移动109是否与用户的语音相关联或相对应。这些视频帧可以被称为视频数据106b的语音部分，并且在音频数据104b内的它们的对应部分可以被称为音频数据104b的语音部分。

唇部移动模块124可以使用各种统计技术来计算特征统计，其指示检测唇部移动109的部分是否与语音相关联。例如，如下面在图3中详细描述的，唇部移动模块124可以应用各种机器学习技术来计算视频数据106b的特征统计，然后将其用于区分与语音输入不相关的检测到的唇部移动和对应于语音输入的检测到的唇部移动。作为示例，唇部移动模块124可以使用诸如深度神经网络(deep neural network，DNN)或长短时记忆(long short-term memory，LSTM)网络的神经网络架构来自动区分与语音相关联的检测到的唇部移动(或“与语音相关的检测到的唇部移动”)和与语音不相关联的检测到的唇部移动(或“非语音相关的唇部移动”)。

然后，唇部移动模块124提取视频数据106b内被确定为包括与语音相关的检测到的唇部移动的视频帧以生成视频数据106c。包括该视频帧序列的视频数据106c和同步的音频数据104b可被发送到查询端点模块126。

查询端点模块126基于处理视频数据104c以识别同步的音频数据104b的语音部分来端点化音频数据104b。如果视频数据106c包括单个视频帧序列，例如，连续视频帧的集合，则查询端点模块126基于识别视频数据106c内的具有最早时间点的视频帧(例如，起始帧)和视频数据106c内的具有最晚时间点的视频帧(例如终止帧)，来端点化音频数据104b。查询端点模块126然后分别识别同步的音频数据104b内的对应于起始帧和终止帧的时间点的时间点。可以基于端点化音频数据104b来生成多个音频段。

在图1所示的示例中，查询端点模块126端点化音频数据104b以从音频数据104b生成三个音频段。在三个生成的音频段中，查询端点模块126基于视频数据106c中具有检测到的与语音相关的唇部移动的其相关联的视频帧，确定音频段104c对应于语音部分。在该示例中，音频段104c对应于音频数据104a内用户102说出话音104的部分。查询端点模块126确定其它两个音频段(例如标记为“(1)”的音频段和标记为“(3)”的音频段)不表示音频数据124的语音部分。这是因为视频数据106a内的对应于音频段的视频帧不包括检测到的唇部移动，或包括如上所述的与语音无关的检测到的唇部移动。例如，标记为“(1)”的音频段表示PAS激活短语，例如“好的，计算机(OKAY CPMPUTER)”，而标记为“(3)”的音频段表示在用户102提交查询之后收集的残留声音。

在端点化音频数据104b以生成音频数据104b的音频段之后，查询端点模块126然后发送语音相关音频段用于输出到ASR。在图1所示的例子中，查询端点模块126发送音频段104c用于输出到ASR 128。

ASR 128录音音频段104c，并向查询响应生成器129提供录音104d。查询响应生成器129处理录音104d作为执行特定动作的命令。在所描绘的示例中，查询响应生成器129解析录音内的术语，并确定该命令是提供天气信息用于输出给用户102。然后，查询响应生成器129获得与用户102相关联的位置的实时天气信息，并且生成响应112用于提供以向客户端设备110输出。如所示，然后响应112作为对在录音104d内包含的命令的响应而被提供以输出给用户102。

在一些实施方式中，ASR 128可另外地或替代地将录音104d发送到搜索引擎，该搜索引擎例如基于在录音104d内录音的话音进行搜索。在这样的实施方式中，由用户102提供的话音可用于执行搜索，例如网页搜索或通过本地应用的搜索。

上面的描述涉及系统100的示例性实现。在其它实施方式中，系统100可以被配置为提供一个或多个可选特征。在一些实施方式中，捕获视频数据106a的摄像机可以与客户端设备110不同。例如，如果客户端设备110是台式计算设备或膝上型计算设备，则该摄像机可以是面向用户的单独的网络摄像机，因为他/她使用客户端设备110。在其它实施方式中，摄像机可以是被放置在指定位置中的设备，使得当用户102提交话音104时，用户102在其视野内。例如，在这样的实施方式中，摄像机可以是例如监视其视野内的指定区域内的用户活动的安全摄像机、电视摄像机或一些其它类型的固定摄像机。在这些实施方式中的每一个中，捕获的视频数据106a可以通过连接客户端设备110和摄像机的本地网络而发送。

在一些实施方式中，可以由与客户端设备110(包括客户端设备110)相关联的多个设备来捕获视频数据106。例如，可以由客户端设备110的前置摄像机、捕获属性的区域的安全摄像机等来收集视频。在这种实施方式中，由多个装置收集的视频数据可以被缝合在一起，然后被发送到脸部检测模块122以进行处理。

在一些实施方式中，例如，当收集视频数据106a的摄像机是客户端设备110的组件时，视频数据106a和音频数据104a在客户端设备110上本地同步。或者，如果摄像机与客户端设备110不同，可以由摄像机或另一个处理设备(例如，脸部检测模块122和/或唇部移动模块124在其上操作的服务器)执行同步。

另外，系统100可以在处理与话音104相关联的数据的各个时间点执行同步操作。例如，在图1所示的示例中，系统100在确定是否在视频数据106a内检测到用户102的脸部之前，同步视频数据106a和音频数据104a。在该示例中，同步可以基于例如比较与由与客户端设备110相关联的摄像机捕获的视频数据106a相关联的音频和由与客户端设备110相关联的麦克风捕获的音频数据104a。

或者，在其它实施方式中，在执行查询端点化之前的任何时间点，例如在脸部检测之后，但在唇部移动检测之前，或者在唇部移动检测之后，但在查询端点化之前，系统100执行同步操作。在这种实施方式中，可以由脸部检测模块122、唇部检测移动模块124、查询端点模块126或其组合来执行同步操作。

在一些实施方式中，在检测到用户102的脸部之后，脸部检测模块122可处理视频数据106a。由脸部检测模块122执行的处理操作的示例包括：减少视频数据106a的视野以对应于检测到的脸部，调整视频数据106a的视觉属性以改善特征检测，例如亮度、对比度、颜色比、色调、饱和度等，和/或标记视频数据106a的视野内的脸部特征(例如眼睛、唇部、鼻子)的位置。

在一些实施方式中，检测到的唇部移动数据109可以用于独立地验证系统100对话音104的识别和/或录音。例如，唇部移动模块124可以能够识别在检测到的唇部移动109内的唇部移动模式，然后确定被预定为与所识别的唇部移动模式相关联的术语和/或短语。唇部移动模块124然后使用该技术来在话音104中识别用户102所说的术语和/或短语。在这样的实施方式中，唇部移动模块124能够识别由用户102所说的术语和/或短语，而不使用声学模型。在这方面，系统100可以基于检测到的唇部移动109来生成用于话音104的录音假设，并且，例如通过使用声学模型和语言模型，确定基于所检测到的唇部移动109的录音假设是否与仅基于音频数据104a的话音104的识别假设相一致。在这方面，上述唇部移动检测技术可以用于减少例如由于背景噪声、假或错过的热词检测和/或错误地将多个顺序查询录音为单个查询而生成不正确的录音的可能性。

在一些实施方式中，唇部移动模块124和/或查询端点模块126可以使用上述唇部移动检测和查询端点化技术来将较大查询的录音解析为子查询的多个录音。例如，较大的查询可以是“好的，计算机，外面天气怎么样？我上班要迟到了(OKAY COMPUTER,WHAT ISTHE WEATHER OUTSIDE？I’M LATE FOR WORK)”。在生成整个语音部分的录音后，系统100可以确定话音104包括三个子查询：“好的，计算机(OKAY COMPUTER)”、“温度怎么样(WHAT ISTHE TEMPERATURE)”和“我上班要迟到了(I’M LATE FOR WORK)”。该确定可以基于具有与语音短语中的转变相关联的检测到的唇部移动(例如短语之间的有限的唇部移动)的视频数据106a内的视频帧的识别。

图2示出了能够使用替代录音技术选择性地处理查询的个人助理系统(PAS)200的示例。在该示例中，系统200包括客户端设备210、移动检测模块222、脸部检测模块224、唇部移动模块226、查询端点模块228和言语活动检测模块232。

在一些实施方式中，系统200的组件执行与系统100的组件基本类似的操作。例如，由客户端设备210、脸部检测模块224、唇部移动模块226、查询端点模块228和言语活动检测模块232执行的功能与客户端设备110、脸部检测模块122、唇部移动模块124、查询端点模块126和言语活动检测模块128的执行的功能基本类似。

另外，在一些实施方式中，系统可以并入系统100和系统200的特征的组合。在这样的实施方式中，系统可以能够使用脸部识别和唇部移动数据来处理接收到的用户查询，如上面关于图1所述，并且基于在接收到用户查询时用户的脸部和/或用户的移动是否可检测来使用选择性的录音处理技术，如下面关于图2所述。

通常，系统200使用替代的传输路径来使用不同的技术来处理与用户提交的话音204相关联的数据。例如，在由路径“A1”和“B1”定义的一个传输路径中，系统200使用检测到的唇部移动数据，例如唇部移动数据109，以类似于如上关于图2所述的技术的方式改进话音204的语音识别。

或者，在由路径“A1”和“B1”定义的另一个传输路径中，系统200仅使用言语活动检测模块232作为默认语音识别模块来处理编码语音204a的音频数据204a。在该传输路径中，系统200不处理视频数据，因为在提交话音204时不能检测到用户的脸部。在由路径“A2”定义的另一个传输路径中，系统200使用言语活动检测模块232类似地处理音频数据204a。在该传输路径中，系统200不处理视频数据，因为在接收音频数据204a的客户端设备210附近没有检测到运动，指示在任何收集的视频数据中不可能检测到用户的脸部。如果例如视频数据内的阈值数目的像素已被确定为在连续帧之间改变，则可以检测到运动。在其它示例中，可以基于在视频的视野内使用对象识别和/或检测技术、并且跟踪与视频内的检测到的对象相关联的、视频内的参考点来检测运动。在一些实施方式中，可以处理视频数据以区分某些类型的运动，例如与唇部移动相关联的检测到的运动、以及与唇部移动不相关的检测到的运动。

现在参考图2所示的示例，用户102初始地向客户端设备210提交查询204，其在客户端设备210上被编码为音频数据204a。客户端设备210接收音频数据204a，移动检测模块222确定在客户端设备210附近是否检测到移动。例如，移动检测模块222可以是当用户102提交言语话音204时放置在客户端设备210所在的属性的区域中的运动传感器。

移动检测模块222检测客户端设备210附近的运动，以确定用户102的捕获视频是否可能包括用户102的脸部，如上面参照图1所描述的。如图2所示，如果移动检测模块222检测到客户端设备210的附近的运动，则系统200用传输路径“A1”继续，并生成使与客户端设备210相关联的摄像机捕获视频数据206a的指令。摄像机可以以与针对捕获视频数据106a的图1中描述的技术相似的方式捕获视频数据206a。在该示例中，运动检测模块222可以用于选择性地触发摄像机的视频捕获，以便例如通过不要求摄像机不断捕获视频数据来保留摄像机的电池寿命并降低摄像机的功耗。

或者，如果移动检测模块122不能检测到客户端设备210附近的运动，则系统200用传输路径“A2”继续，并且将音频数据204a发送到言语活动检测模块232，而不指示摄像机如上所述地收集视频数据。在下面更详细地提供关于言语活动检测模块232的操作的细节。

在一些实施方式中，系统200不包括移动检测模块222。在这样的实施方式中，客户端设备210将音频数据204a和捕获的视频数据206a直接发送到脸部检测模块224。例如，一旦客户端设备210接收到音频数据204a，与客户端设备210相关联的摄像机初始地收集视频数据206a。脸部检测模块224然后处理捕获的视频数据206a以使用上面关于图1描述的脸部识别技术来确定是否可以在捕获的视频数据206a的视野内检测到用户102的脸部。

脸部检测模块224确定与话音204相关联的所捕获的视频数据206a是否包括用户102的脸部。如图2所示，如果脸部检测模块224确定在捕获的视频数据206a内检测到用户102的脸部，则系统200用传输路径“B1”继续，并进行上述关于图1所述的操作。例如，脸部检测模块224发送视频数据206b和音频数据204a到唇部移动模块226，其然后使视频数据和音频数据同步，并且识别检测到的唇部移动数据，例如唇部移动数据109，如上所述。然后，查询端点模块228基于检测到的唇部移动数据对同步的音频数据进行分段，并且如图1的示例所示，生成用于音频段的录音208a。

或者，如果脸部检测模块224不能检测到视频数据206a内的用户102的脸部，则系统200用传输路径“B2”继续，并将音频数据204a发送到言语活动检测模块232，而不执行图1的示例中所示的视频处理技术。

一旦系统200进入传输路径“A2”或“B2”中的任一个，音频数据204a被发送到言语活动检测模块232。如通篇所述，言语活动检测模块232可以是例如使用声学模型和相关联的语言模型来发音地(phonetically)录音诸如话音204的言语查询的ASR。例如，言语活动检测模块232基于处理在音频数据204a内包括的发音属性来生成用于话音204的录音208b。

在一些实施方式中，系统200并行地执行传输路径“B1”和“B2”。在这种实现中，在一个传输路径中收集的数据可用于改进和/或补充替代传输路径中的数据处理。例如，如果在视频数据206a中的视频的部分期间用户的脸部消失，则由言语活动检测模块232生成的数据可以用于通过如上所述的唇部移动模块226和查询端点模块228补充处理操作。

图3示出了训练系统300的示例，训练系统300可用于训练图1和图2中所示的系统100和200。系统300包括可用于训练系统100和200的各种组件的机器学习模块310。机器学习模块310可以训练例如脸部检测模块122和224以自动检测收集的视频数据(例如视频数据106a和206a)内的脸部，训练唇部移动模块124和226以自动检测视频数据(例如，视频数据106b和206b)内的唇部移动数据(例如唇部移动数据109)或训练检测靠近客户端设备210的附近的运动的运动检测模块222。

机器学习模块310还可以是采用多层操作来预测来自一个或多个输入的一个或多个输出的任何合适的机器学习模型。例如，机器学习模型310可以包括位于输入层和输出层之间的一个或多个隐藏层。然后可以将每个层的输出用作网络中的另一层(例如下一层或输出层)的输入。在一些实施方式中，机器学习模块310可以包括例如卷积神经网络(convolutional neural network，CNN)、长短期记忆(LSTM)网络或其组合。

为了训练系统100和200的各种组件，机器学习模块310可以使用各种统计分类技术来确定在各种处理阶段接收到的视频数据、例如所捕获的视频数据106a或视频数据106b是否包括被预定为与一组手动分类的视频帧相关联的特征。在图3所示的示例中，机器学习模块310访问包括非说话视频帧314a和说话视频帧314b的训练数据库312。

非说话视频帧314a对应于被确定为不对应于用户查询的语音部分的用户的视频帧。例如，非说话视频帧314a可以包括其中没有检测到用户的唇部移动的视频帧、或者检测到唇部移动但检测到的唇部移动与语音无关(例如，由于用户正在进食的唇部移动、与用户咳嗽相关联的唇部移动等)的视频帧。相反，说话视频帧314b对应于被确定为对应于用户查询的语音部分的用户的视频帧。

在一些实施方式中，视频帧314b中的每一个可以与当收集用户的视频帧时用户说的单词和/或短语相关联。例如，在提供言语查询“你好(HELLO)”的用户的视频内包括的视频帧可以与术语“你好(HELLO)”相关联。在这样的实施方式中，机器学习模块310可以训练唇部移动模块124和226不仅使用上述技术来确定查询的语音部分，而且还执行语音识别技术，以基于使用与检测到的唇部移动数据相关联的模式匹配技术来识别用户所说的术语或短语。作为示例，如果唇部移动模块124确定视频数据106b的帧序列包括与短语“好的，计算机(OKAY COMPUTER)”相关联的唇部移动模式，则唇部移动模块124可独立于音频数据104a来确定在对应于帧序列的时间序列期间用户已表说出短语“好的，计算机(OKAYCOMPUTER)”。

图4示出了用于基于检测到的唇部移动数据来确定言语查询段的端点的处理400的示例。简而言之，处理400可以包括：接收同步的视频数据和音频数据(410)，确定视频数据的帧序列包括与脸部的唇部移动相对应的图像(420)，端点化音频数据(430)，生成端点化的音频数据的录音(440)，以及提供录音以输出(450)。

更详细地，处理400可以包括接收同步的视频数据和音频数据(410)。例如，脸部检测模块122可以接收与视频数据106a同步的视频数据106a和音频数据104a。音频数据和视频数据可以例如在客户端设备110上本地同步，或者在使用脸部检测模块122的服务器上远程同步。如上所述，同步处理涉及识别音频104a和视频数据106b内的对应时间点或者基于例如对齐音频数据104a的音频和视频数据104b的音频。

在一些实施方式中，处理400可以另外包括确定视频帧序列包括脸部的图像。在这样的实施方式中，脸部检测模块122确定视频数据106a的帧的序列包括用户102的检测到的脸部108的图像。如上所述，脸部检测模块122可以使用各种脸部识别技术来确定视频数据106a的帧是否包括与检测到的脸部108相关联的特征。

处理400可以包括确定视频数据的帧序列包括对应于脸部(541)的唇部移动的图像。例如，响应于确定视频数据106a的帧序列包括用户102的检测到的脸部108的图像，唇部移动模块124确定视频数据106b，其包括具有检测到的脸部的图像的帧，包括包含检测到的唇部移动109的帧序列。然后，唇部移动模块124对检测到的唇部移动109进行分类，以识别具有与语音相关的唇部移动的视频数据106b的帧，例如视频数据106b的语音部分。如上所述，视频数据106b的语音部分通常是指视频数据106b内的其中用户102提供某种类型的口头输入、例如说出热词、提供言语查询等的视频帧。

处理400可以包括端点化音频数据(430)。例如，查询端点模块126基于诸如音频段104c的音频段的起始点和终止点来端点化音频数据104b。如图1的示例所示，查询端点模块126端点化音频数据104b以生成三个音频段。在该示例中，音频段104c对应于在步骤430中确定的包括语音关联的唇部移动的帧序列。音频段104c对应于由用户102提交的查询，而两个其它音频段表示PAS激活命令(例如“好的，计算机(OKAY COMPUTER)”)或其它类型的非语音音频(诸如背景噪声)。在该示例中，虽然用户的唇部在与PAS激活命令相对应的音频段期间移动，但是该段仍然不被查询端点模块126处理，因为它与用户提交的查询无关。

处理400可以包括生成端点化的音频数据的录音(440)。例如，ASR 128生成表示端点化音频数据的音频段104c的录音104d。如图1的示例所述，音频段104c被选择用于录音，因为它被确定为表示用于查询104的音频数据104a的语音部分。

处理400可以包括提供录音以输出(450)。例如，自动语音识别器提供录音104d用于输出到查询响应生成器129。在图1所示的示例中，查询响应生成器129然后生成客户端设备110作为输出提供给用户102的响应112。

图5是可以用于将本文档中描述的系统和方法用作客户机或一个服务器或多个服务器的计算设备500、550的框图。计算设备500旨在表示各种形式的数字计算机，例如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机(mainframe)和其它合适的计算机。计算设备550旨在表示各种形式的移动设备，诸如个人数字助理、蜂窝电话、智能电话和其它类似的计算设备。此外，计算设备500或550可以包括通用串行总线(USB)闪存驱动器。USB闪存驱动器可以存储操作系统和其它应用程序。USB闪存驱动器可以包括输入/输出组件，例如可插入另一计算设备的USB端口的无线发射器或USB连接器。这里所示的组件、它们的连接和关系以及它们的功能仅仅是示例性的，并不意味着限制本文档中描述和/或要求保护的发明的实施方式。

计算设备500包括处理器502、存储器504、存储设备506、连接到存储器504和高速扩展端口510的高速接口508以及连接到低速总线514和存储设备506的低速接口512。组件502、504、506、508、510和512中的每一个使用各种总线互连，并且可以安装在公共主板上或适当地以其它方式安装。处理器502可以处理用于在计算设备500内执行的指令，包括存储在存储器504中或存储设备506上的指令，以在外部输入/输出设备(诸如耦合到高速接口508的显示器516)上显示GUI的图形信息。在其它实施方式中，可以适当地使用多个处理器和/或多个总线以及多个存储器和多种存储器。此外，可以连接多个计算设备500，每个设备提供必要操作的部分，例如作为服务器组、一组刀片服务器或多处理器系统。

存储器504在计算设备500内存储信息。在一个实施方式中，存储器504是(一个或多个)易失性存储器单元。在另一实施方式中，存储器504是(一个或多个)非易失性存储器单元。存储器504还可以是另一种形式的计算机可读介质，诸如磁盘或光盘。

存储设备506能够为计算设备500提供大容量存储。在一个实施方式中，存储设备506可以是或包含计算机可读介质，诸如软盘设备、硬盘设备、光盘设备或磁带设备、闪存或其它类似的固态存储设备、或包括存储区域网络或其它配置中的设备的设备阵列。计算机程序产品可以有形地体现在信息载体中。计算机程序产品还可以包含指令，其当被执行时进行一个或多个方法，例如上述的方法。信息载体是计算机或机器可读介质，诸如存储器504、存储设备506或处理器502上的存储器。

高速控制器508管理计算设备500的带宽密集型操作，而低速控制器512管理较低带宽密集型操作。功能的这种分配仅是示例性的。在一个实施方式中，高速控制器508例如通过图形处理器或加速器耦合到存储器504、显示器516，以及到可接受各种扩展卡(未示出)的高速扩展端口510。在该实施方式中，低速控制器512耦合到存储设备506和低速扩展端口514。可以包括各种通信端口(例如USB、蓝牙、以太网、无线以太网)的低速扩展端口可以耦合到诸如键盘、指示设备、麦克风/扬声器对、扫描仪的一个或多个输入/输出设备或诸如交换机或路由器的网络设备(例如通过网络适配器)。计算设备500可以以多种不同的形式来实现，如图所示。例如，它可以被实现为标准服务器520，或者在一组这样的服务器中多次实现。它也可以被实现为机架服务器系统524的部分。此外，它可以在诸如膝上型计算机522的个人计算机中实现。或者，来自计算设备500的组件可以与移动设备(未示出)(诸如设备550)中的其它组件组合。这些设备中的每一个可以包含计算设备500、550中的一个或多个，并且整个系统可以由彼此通信的多个计算设备500、550组成。

计算设备500可以以多种不同的形式来实现，如图所示。例如，它可以被实现为标准服务器520，或者在一组这样的服务器中多次实现。它也可以被实现为机架服务器系统524的一部分。此外，它可以在诸如膝上型计算机522的个人计算机中实现。或者，来自计算设备500的组件可以与移动设备中的其它组件(未示出)(诸如设备550)组合。这些设备中的每一个可以包含计算设备500、550中的一个或多个，并且整个系统可以由彼此通信的多个计算设备500、550组成。

计算设备550包括处理器552、存储器564以及诸如显示器554的输入/输出设备、通信接口666和收发器568等。设备550还可以被提供有诸如微驱动器或其它设备的存储设备，以提供额外的存储。组件550、552、564、554、566和568中的每一个使用各种总线互连，并且可以在公共主板上或适当地以其它方式安装多个组件。

处理器552可以执行计算设备550内的指令，包括存储在存储器564中的指令。处理器可以被实现为包括单独的和多个模拟和数字处理器的芯片的芯片组。另外，处理器可以使用许多架构中的任何一种来实现。例如，处理器510可以是CISC(复杂指令集计算机)处理器、RISC(精简指令集计算机)处理器或MISC(最小指令集计算机)处理器。处理器可以例如提供设备550的其它组件的协调，诸如用户界面、由设备550运行的应用以及由设备550进行的无线通信的控制。

处理器552可以通过耦合到显示器554的控制接口458和显示接口456与用户进行通信。显示器554可以是例如TFT(薄膜晶体管液晶显示器)显示器或OLED(有机发光二极管)显示器或其它适当的显示技术。显示器接口556可以包括用于驱动显示器554以向用户呈现图形和其它信息的适当电路。控制接口558可以接收来自用户的命令并将转换它们以提交给处理器552。此外，可以提供与处理器552通信的外部接口562，以便能够与其它设备进行设备550的近区域通信。外部接口562可以在一些实施方式中提供例如有线通信，或者在其它实施方式中提供无线通信，并且还可以使用多个接口。

存储器564在计算设备550内存储信息。存储器564可以被实现为计算机可读介质或媒介、易失性存储器单元或非易失性存储器单元中的一个或多个。扩展存储器574还可以通过扩展接口572来被提供和连接到设备550，扩展接口572可以包括例如SIMM(单列直插存储器模块)卡接口。这种扩展存储器574可以为设备550提供额外的存储空间，或者还可以存储设备550的应用或其它信息。具体地，扩展存储器574可以包括执行或补充上述处理的指令，并且还可以包括安全信息。因此，例如，扩展存储器574可以被提供为用于设备550的安全模块，并且可以用允许设备550的安全使用的指令进行编程。此外，可以经由SIMM卡以来提供安全应用及附加信息，例如以不可攻击的方式将识别信息放置在SIMM卡上。

存储器可以包括例如闪存和/或NVRAM存储器，如下所述。在一个实施方式中，计算机程序产品被有形地体现在信息载体中。计算机程序产品包含指令，其当被执行时进行一个或多个方法，例如上述的方法。信息载体是诸如存储器564、扩展存储器574或可以例如通过收发器568或外部接口562接收的处理器552上的存储器的计算机或机器可读介质。

设备550可以通过通信接口566进行无线通信，通信接口566可以在必要时包括数字信号处理电路。通信接口666可以提供诸如GSM言语呼叫、SMS、EMS或MMS消息、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS等的各种模式或协议的通信。这种通信可以例如通过射频收发机668发生。另外，可以发生短距离通信，例如使用蓝牙、Wi-Fi或其它这样的收发机(未示出)。此外，GPS(全球定位系统)接收机模块570可以向设备550提供附加的导航和位置相关的无线数据，其可以由在设备550上运行的应用适当地使用。

设备550还可以使用音频编解码器560可听地通信，音频编解码器560可以从用户接收口语信息并将其转换为可用的数字信息。音频编解码器560同样可以为用户生成可听见的声音，例如通过例如在设备550的手机中的扬声器。这种声音可以包括来自言语电话呼叫的声音，可以包括记录的声音，例如言语消息、音乐文件等，并且还可以包括由在设备550上操作的应用生成的声音。

计算设备550可以以多种不同的形式来实现，如图所示。例如，它可以被实现为蜂窝电话580。它也可以被实现为智能电话582、个人数字助理或其它类似移动设备的一部分。

这里描述的系统和方法的各种实现可以在数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或这些实施方式的组合中实现。这些各种实施方式可以包括在可编程系统上可执行和/或可解释的一个或多个计算机程序中的实施方式，所述可编程系统包括可以是特殊或通用目的的至少一个可编程处理器，其被耦合以从其接收数据和指令并传输数据以及指令到存储系统、至少一个输入设备和至少一个输出设备。

这些计算机程序(也称为程序、软件、软件应用程序或代码)包括用于可编程处理器的机器指令，并且可以以高级程序和/或面向对象编程语言和/或装配/机器语言来实现。如本文所使用的，术语“机器可读介质”、“计算机可读介质”是指任何计算机程序产品、装置和/或设备，例如磁盘、光盘、存储器、可编程逻辑器件(PLD)，用于向可编程处理器提供机器指令和/或数据，包括接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。

为了提供与用户的交互，这里描述的系统和技术可以在具有显示装置(例如用于向用户显示信息的CRT(阴极射线管)或LCD(液晶显示器)监视器)、和键盘以及指示设备(例如鼠标或轨迹球，用户可以通过其向计算机提供输入)的计算机上实现。也可以使用其它类型的设备来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声音、语音或触觉输入。

这里描述的系统和技术可以在包括后端组件(例如，作为数据服务器)或包括中间件组件(例如，应用服务器)、或者包括前端组件(例如，具有图形用户界面或Web浏览器的客户端计算机，用户可以通过图形用户界面或Web浏览器与这里描述的系统和技术的实施方式或者一个或多个这种后端、中间件或前端组件的任何组合进行交互)的计算系统中实现。系统的组件可以通过数字数据通信的任何形式或介质、例如通信网络而互连。通信网络的示例包括局域网(“LAN”)、和广域网(“WAN”)，例如因特网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端和服务器的关系是由于每个计算机上运行且具有彼此之间的客户端-服务器关系的计算机程序而生成的。

已经描述了许多实施例。然而，应当理解，在不脱离本发明的精神和范围的情况下，可以进行各种修改。此外，附图中所示的逻辑流程不需要所示的特定顺序或顺序的顺序来实现期望的结果。此外，可以从所描述的流程中提供其它步骤，或者可以消除步骤，并且可以向其描述的系统添加或移除其它组件。因此，其它实施例在所附权利要求的范围内。

Claims

1.一种计算机实现的方法，包括：

接收同步的视频数据和音频数据；

确定所述视频数据的帧序列包括与脸部上的唇部移动相对应的图像；

基于对应于帧序列的第一帧的第一音频数据和对应于帧序列的最后一帧的第二音频数据来端点化音频数据；

通过自动语音识别器生成端点化的音频数据的录音；以及

提供生成的录音以输出。

2.根据权利要求1所述的方法，其中确定所述视频数据的帧序列包括与脸部上的唇部移动相对应的图像包括：

识别与脸部的唇部移动相对应的图像的一个或多个特征统计；以及

确定所述一个或多个所识别的特征统计包括被确定为表示唇部移动相关语音的特征统计。

3.根据权利要求1所述的方法，包括：

确定视频数据包括用户动作；以及

响应于确定视频数据包括用户动作，确定视频数据的帧序列包括脸部的图像。

4.根据权利要求1所述的方法，其中：

从智能电话接收同步的视频数据和音频数据；以及

同步的视频数据由智能电话的前置摄像机捕获。

5.根据权利要求1所述的方法，其中所述端点化的音频数据对应于编码由用户提交的言语查询的所述音频数据的一部分。

6.根据权利要求5所述的方法，包括：

响应于确定视频数据的帧序列包括脸部的图像，激活个人助理系统以处理由用户提交的言语查询。

7.根据权利要求1所述的方法，其中确定所述视频数据的帧序列包括与脸部上的唇部移动相对应的图像包括：

从视频数据获取帧序列；以及

使用深度神经网络处理帧序列，所述深度神经网络配置为：

接收帧序列内的每个帧；以及

计算帧序列内的每个帧的置信度分数，所述置信度分数表示帧包括与脸部上的唇部移动相对应的图像的可能性。

8.根据权利要求1所述的方法，包括：

确定所述视频数据的帧的子集包括所述脸部的图像，所述帧序列包括所述帧的子集，

其中确定所述视频数据的帧序列包括与所述脸部上的唇部移动相对应的图像包括：

响应于确定视频数据的帧的子集包括脸部的图像，确定视频数据的帧序列包括与脸部上的唇部移动相对应的图像。

9.根据权利要求8所述的方法，其中确定所述视频数据的帧的子集包括脸部的图像包括：

从视频数据获得帧的子集；

使用深度神经网络处理帧的子集，所述深度神经网络配置为：

接收帧的子集内的每个帧；以及

计算帧的子集内的每个帧的置信度分数，所述置信度分数表示帧包括脸部的图像的可能性。

10.根据权利要求1所述的方法，其中，端点化所述音频数据包括：

识别对应于视频数据的帧序列的第一帧的第一音频数据；

识别对应于视频数据的帧序列的最后一帧的第二音频数据；以及

截断第一音频数据之前且第二音频数据之后的音频数据。

11.一种系统，包括：

一个或多个计算机；以及

存储指令的一个或多个存储设备，所述指令在由所述一个或多个计算机执行时使得所述一个或多个计算机执行操作，所述操作包括：

接收同步的视频数据和音频数据；

基于对应于帧序列的第一帧的第一音频数据和对应于帧序列的最后一帧的第二音频数据，端点化音频数据；

通过自动语音识别器生成端点化的音频数据的录音；以及

提供生成的录音以输出。

12.根据权利要求11所述的系统，其中确定所述视频数据的帧序列包括与脸部上的唇部移动相对应的图像包括：

13.根据权利要求11所述的系统，包括：

确定视频数据包括用户动作；以及

14.根据权利要求11所述的系统，其中：

从智能电话接收同步的视频数据和音频数据；以及

所述同步的视频数据由智能电话的前置摄像机捕获。

15.根据权利要求11所述的系统，其中所述端点化的音频数据对应于编码由用户提交的言语查询的所述音频数据的一部分。

16.一种编码有计算机程序指令的非暂时性计算机可读存储设备，所述计算机程序指令在由一个或多个计算机执行时使所述一个或多个计算机执行操作，所述操作包括：

接收同步的视频数据和音频数据；

通过自动语音识别器生成端点化的音频数据的录音；以及

提供生成的录音以输出。

17.根据权利要求16所述的设备，其中，确定所述视频数据的帧序列包括与脸部上的唇部移动相对应的图像包括：

确定所述一个或多个所识别的特征统计包括确定为表示唇部移动相关语音的特征统计。

18.根据权利要求16所述的设备，包括：

确定视频数据包括用户动作；以及

19.根据权利要求16所述的设备，其中：

从智能电话接收同步的视频数据和音频数据；以及

所述同步的视频数据由智能电话的前置摄像机捕获。

20.根据权利要求16所述的设备，其中所述端点化的音频数据对应于编码由用户提交的言语查询的所述音频数据的一部分。