CN111033611A

CN111033611A - 使嘴部图像与输入指令关联的系统和方法

Info

Publication number: CN111033611A
Application number: CN201880034575.1A
Authority: CN
Inventors: 伦纳德·切赫; 詹森·利斯曼
Original assignee: TK Holdings Inc
Current assignee: TK Holdings Inc; Joyson Safety Systems Acquisition LLC
Priority date: 2017-03-23
Filing date: 2018-03-23
Publication date: 2020-04-17
Also published as: EP3602544A4; US20180286404A1; US11031012B2; JP7337699B2; US10748542B2; JP2020518844A; US20210035586A1; EP3602544A1; WO2018175959A1

Abstract

一种自动会话识别系统使用：计算机存储器；执行成像软件和音频处理软件的处理器；以及传输会话输入的物理源的图像的相机。音频处理软件包括从至少一个会话输入导出的音频样本的音频数据流。至少一个定时器被配置为响应于至少一个定时器接收到的各个触发点而向所述计算机存储器传输所测量的经过时间值。音频处理软件被配置为对定时器触发点进行起效和解除起效，以测量音频样本之间的相应音频采样时间和过渡周期时间。音频处理软件还被配置为将过渡周期时间与对应于指令之间的期望过渡时间值的指令间隔时间值进行比较，由此确定会话输入为指令数据或非指令数据。

Description

使嘴部图像与输入指令关联的系统和方法

相关申请的交叉引用

本申请要求2017年3月23日提交的标题为“System and Method of CorrelatingMouth Images to Input Commands”的待审美国临时专利申请No.62/475,510的优先权，并且通过引用将其全部并入该案。

背景技术

本公开涉及自动会话识别和从会话输入装置接收音频指令的领域，其中，将音频指令与来自成像装置或图像传感器(例如聚焦于音频指令源的相机)的图像数据进行交叉检查。口述词句是通过嘴部运动调节从说话者的嘴部通过空气传播的声波而产生的。用户的车辆会话输入系统通常包括一个或多个被放置以检测语音的麦克风。典型地，这些麦克风是机电组件，这些机电组件在一定范围的会话(频率小于20khz的声波)的机械频率上发生机械共振。可以将数字语音令牌(时间性会话片段)发送到人工语音识别系统，并转换为数字请求(例如，车辆信息娱乐系统或车辆控制系统中的信息技术请求，或通过无线网络传输的外部基于Web的服务请求)。这些音频请求的成果是使所需功能简化和/或自动化，以增强用户的舒适度和/或便利性和/或安全性——通常这三个方面都被增强。

为了改善人工语音识别系统的性能，已经开发了许多数字和算法驱动的方法。例如，基于从音频内容中学习特定用户会话特征的令牌匹配系统通常用于提高人工语音识别系统的成功率。另一种典型的方法是使用人工智能技术来将语音输入的会话特征与一个或多个音标特征(例如语言、发音等)进行匹配。通常用于减少噪声的一种附加方法是要求用户按下通常在方向盘上的机电按钮，以将语音捕获限制在按下按钮的时间。

在一些情况下，声音检测和处理系统使用一个或多个麦克风，并且使用后续信号处理来降低噪声(包括道路噪声、来自车辆娱乐系统产生的噪声和非用户的音频输入)的影响。降噪可以通过适当的麦克风的几何布置来实现，以在降低噪声的同时增强用户语音输入。另外，多个麦克风相对于正常驾驶过程中用户位置的适当对称布置有助于降低外部噪声源的影响。具体地，例如，假设用户是车辆的驾驶员，“目视道路”，则在眼睛自然地面向前方时将麦克风相对于自然嘴部位置的视轴矢量对称地放置。研究显示，对麦克风输入的后续相位对消处理可以大大降低噪声的影响。在此示例中，在多个麦克风处检测到的用户会话信号的相位是相同的(因此距离用户嘴部的行进距离相同)，而多个麦克风处的来自车辆内部/外部其他位置的噪声相位则具有不同的相位，因此可以通过各种信号处理技术过滤掉此声音。

自动会话识别处理中的误差可导致错误地确定意旨的用户会话，从而导致用户潜在的挫败感(和/或分心)。例如，会话识别可能会错误地解读声音并发出错误的请求(例如，呼叫错误的人)。或者，会话识别会忽略该请求。包括了声音检测和测量系统在内的自动会话识别处理的一个目标是最大化用户的会话输入声音(信号)的质量，并最小化不需要的声音(噪声)，例如，最大化信噪比(SNR：Signal to Noise)。

自动会话识别领域中的一个问题在于，对于现有技术的系统而言，缺乏可靠的方式来用附加的带外(out-of-band)信息(即，除标准音频信号分析之外的信息)来复查所感知的会话输入。本领域在构造自动会话识别系统方面存在需求，以使发出至车辆操作及性能系统的用户指令在来源、授权和内容方面都得到保证。

发明内容

在一个实施例中，本公开提供了一种自动会话识别系统，其包括：计算机存储器；处理器，其执行成像软件和音频处理软件；相机，其传输来自从与相机相关联的视场内获取的图像的数字像素数据的多个连续帧；会话输入装置，其将从至少一个会话输入导出的音频样本的音频数据流传输到所述音频处理软件；以及至少一个定时器，其被配置为响应于所述至少一个定时器接收到的各个触发点而向所述计算机存储器传输所测量的经过时间值。音频处理软件被配置为对定时器触发进行起效和解除起效，以测量音频样本之间的相应的音频采样时间和过渡周期时间。音频处理软件还被配置为将过渡周期时间与对应于指令间的期望过渡时间值的指令间隔时间值进行比较。

在第二实施例中，自动会话识别系统包括：计算机存储器；处理器，其执行成像软件、音频处理软件和指令处理软件；相机，其传输来自从与相机相关联的视场内获取的图像的数字像素数据的多个连续帧；以及会话输入装置，其将从至少一个会话输入导出的音频样本的音频数据流传输到所述音频处理软件。成像软件从数字像素数据帧中隔离出代表了会话输入物理源的像素子集。指令处理软件可以是存储在存储器中的计算机可读指令的子程序，并且按时间将各音频样本与代表了图像数据的各组连续帧中的物理源的各像素子集相关联。成像软件被配置为通过从像素的各子集中推导出物理源的各自位置来跟踪会话输入的物理源的多个位置。指令处理软件根据会话输入的所述物理源相对于所述会话输入装置的各自位置来将音频样本验证为指令。

在另一个实施例中，自动会话识别的数据获取系统包括：计算机存储器，处理器，其执行成像软件、音频处理软件、指令处理软件和编解码软件。该系统还包括：相机，其向存储器传输来自从与相机相关联的视场内获取的图像的数字像素数据的多个帧。会话输入装置向存储器传输从各会话输入导出的一组音频数据流。成像软件从数字像素数据帧中隔离出代表了会话输入源的像素子集。处理器基于代表了会话输入源的像素子集来针对各组数字音频样本生成语音令牌资料，其中，处理器在数据库中存储相应的会话资料，针对与各个用户相关联的已识别会话资料来过滤数据库，并且将已识别会话资料存储为针对相应个人的各自编解码。

附图说明

图1A是本文所述的自动会话识别系统的示意图。

图1B是由相机采集的图像数据的第一帧，该相机在相机视场中具有第一用户并且与本文所述的自动会话识别系统相关联。

图1C是由相机采集的图像数据的第二帧，该相机在相机视场中具有第二用户并且与本文所述的自动会话识别系统相关联。

图1D是由相机采集的图像数据的第三帧，该相机在相机视场中具有第三用户并且与本文所述的自动会话识别系统相关联。

图2A是在使用本文所述的自动会话识别系统的车辆中，针对不同用户位置的可调节相机视场的示意图。

图2B是来自图2A的相机的图像数据的第一帧，并且聚焦在位于相机视场内的第一位置处的用户嘴部。

图2C是来自图2A的相机的图像数据的第二帧，并且聚焦在位于相机视场内的第二位置处的用户嘴部。

图3A是由图1的自动会话识别系统检索的音频信号的语音令牌配置文件的曲线图。

图3B是与图3A的语音令牌配置文件相关联并且显示用户嘴部在运动的图像数据的帧。

图3C是与图3A的语音令牌配置文件相关联并且显示用户嘴部静止的图像数据的第二帧。

图4A是安装在车辆中的相机的侧视图，该相机视场内有用户头部并且用户头部略微转向用户右侧。

图4B是安装在车辆中的相机的侧视图，该相机视场内有用户头部并且用户头部直接面对相机，且用户眼睛注视道路。

图4C是安装在车辆中的相机的侧视图，该相机视场内有用户头部并且用户头部略微转向用户左侧。

图4D是安装在车辆中的相机的侧视图，该相机视场内有用户头部并且用户头部急剧偏向用户最右侧。

图5A是在使用图1A的自动会话识别系统的车辆中由焦点聚焦在用户嘴部的相机采集的图像数据的第一帧的示意图。

图5B是图5A的图像数据的解析部分，其示出了在用户嘴部处于第一位置时发出语音令牌的用户嘴部的图像。

图5C是图5A的图像数据的解析部分，其示出了在用户嘴部处于第二位置时发出第二语音令牌的用户嘴部的图像。

图5D是图5A的图像数据的解析部分，其示出了在用户嘴部处于第三位置时发出第三语音令牌的用户嘴部的图像。

图5E是由图1的自动会话识别系统检索到的音频信号的语音令牌配置文件的曲线图，并且该图可与图5A-5D的图像数据匹配。

图5F是结合图1的自动会话识别系统使用的图像数据的第二帧，该帧提供了相机视场中用户嘴部的第二视图。

图6是根据图1的自动会话识别系统的示意图，其包括参照供系统使用的已采集且成对的图像数据帧和音频数据帧。

图7是根据图1的自动会话识别系统使用的信号处理方法的示意图，其包括参照供系统使用的已采集且成对的图像数据帧和音频数据帧用。

图8是根据图1的自动会话识别系统使用的信号处理方法的示意图，其包括参照供系统使用的已采集且成对的图像数据帧和音频数据帧的时序特征。

图9是图像检测装置和会话输入装置的系统的透视图，该系统如本文所述地被安置成用于遍布整个车厢内的数据采集。

具体实施方式

本公开中的术语应该根据上下文的最广泛解释来解读。例如，术语“相机”包括操作在例如RGB、红外波段以及同步光源的不同波长下的装置的全部类型，其中同步光源使用正弦LED或VCSEL IR激光来得出强度和深度图像。

另外，术语“相机”并非是简单的收集图像帧的装置，其包括但不限于3D飞行时间相机。其他实施例包括收集“点云”数据帧的图像传感器。这些点云数据帧包括来自每个像素处的传感器的强度和距离。包括在本公开范围内的相机也可以是“多光谱”2-D或3-D相机，对于这些相机而言，每个像素可以包括多个波长的反射率以及从相机到反射表面的距离。在本公开中，“相机”的使用可以包括固定的成像装置和围绕区域扫描以进行数据采集的装置，以及在固定视场或可调节的视场中的对应功能。

为了能够完成本文目标，在本公开中使用单个装置或元件依然可以实现相当于采用了多个相同装置或元件的示例的实施例。因此，本公开的实施例包括但不限于如下配置：其中多个成像装置、多个会话输入装置和多个计算机硬件组件针对本文所讨论的目标而协同工作。

在本公开的实施例中，首先将通过个体嘴部和舌部运动影响声带发出的声波而产生的物理或“机械”共振运动转换为可以通过模拟信号处理方法(放大、频率滤波)进一步处理的模拟电信号，和/或转换为数字信号并通过数字信号处理方法进一步处理。得到的信号可用于各种自动会话识别应用程序，包括免提语音通信、语音控制或语音功能请求。通常，在不将描述限制于任何单一范围的情况下，本公开的实施例利用被麦克风或任何会话输入装置(被配置为感测声波并将声能转换为诸如模拟或数字电信号的另一种形式)检索到的音频信号的各部分。所讨论的音频信号通常来自正在讲话并正在与本文描述的用户视听监控系统(AVMS：User Audio-Visual monitoring system)和自动会话识别系统交互的个体。根据本说明书收集并分析的音频信号的各部分统称为“会话输入”。会话输入可以进一步划分为代表了整个音频信号或单个会话输入中的单词、短语或声音的各部分的单独的“语音令牌”。换言之，为了本公开的目的，“语音令牌”可以被认为是会话输入的最小的可区分部分，并且可以从会话输入中被解析出来以由本文描述的系统进行进一步评估。

本文所述的系统和方法参考的是视听监控系统的个体用户，该个体用户通常是但并非总是车辆中的驾驶员。然而，对用户、驾驶员和其他车辆乘员的参考并非旨在限制本文所述的自动会话识别系统的实施例的范围。

本公开的自动会话识别系统和应用可通过与整体视听监控系统(AVMS)100进行电子通信和传输来实施并实现，该AVMS使用自动会话识别系统200来获取有关使用了该AVMS100并与之交互的个体的大量空间/时间信息，该个体通常但不限于车辆用户15。获取的信息可以包括但不限于：唯一性个体的用户识别、对面部中心位置的检测和跟踪、面部大小、用户面部的形状和旋转方向以及面部具体特征(诸如眼睛、鼻子、嘴唇和耳朵等)。通过将自动会话识别系统200结合到整体视听监控系统(AVMS)100中，本公开中描述的计算机化方法和系统可以检测和跟踪包括但不限于面部毛发、口罩、眼镜、太阳镜的其他用户状态或外观特征和/或诸如饮酒、呼吸、吸烟、饮食、打电话、咳嗽、打哈欠、眯眼、皱眉、哭泣、大喊等的活动和状况。在技术上可行的是，AVMS 100可以用于获取有关用户15的生理信息，诸如，单纯从图像甚至视频格式中无法轻易看出的唇读图案、心率、呼吸频率、皮肤温度和其他用户属性。

在一个实施例中，如图1所示，视听监控系统(AVMS)100包括或能够经由电子通信访问本文所述的自动会话识别系统200。自动会话识别系统200包括与处理器250和计算机可读存储器215经由存储在非暂时性计算机可读介质中的软件指令进行电子通信的相机240。非暂时性计算机可读介质和存储器215类似地与数据库300中存储的至少一个先前训练过的单词和短语的词典315进行电子通信。该词典可以包括一个或多个“关键字”短语和一个或多个“指令”短语。“关键字”短语包括可用于启动会话识别处理的一个或多个单词，例如“开始指令(Begin command)”等。一旦检测到“关键字”短语，它后面通常会跟着“指令”短语请求(例如，“我是否有足够的费用到达目的地？”)。数据库300可以存储在存储器215本地的附加存储结构中，或者在不同的实施例中，相机240、处理器250和存储器215可以访问通过网络连接到自动会话识别系统的远程服务器存储器以及操作/应用程序。本文所述的网络连接组件包括互联网、电话、蜂窝、卫星以及在不同地理位置共享信息的任何其他有线、无线或光纤传输方案。

相机240包括来自镜头的视场246，该镜头基于在与相机相关联的视场内获取的图像以数字像素数据的连续帧的形式创建图像数据。在图1的示例中，视场246包括用户头部和/或面部的至少一部分，优选地包括用户的整个面部，以创建本文所述的图像分析软件所用的图像。图1B、1C和1D示出了相机240从进入相机视场的不同用户Q、R、S拍摄的图像20、30、40的非限制性示例，其中，相机可以放置在车辆的内部或一部分上。值得注意的是，各AVMS 100用户(分别描述为用户Q-20、R-30和S-40)具有明显不同的物理特征，包括头部和面部形状、皮肤颜色和色调、眼睛形状，特别是，各用户的嘴部27、37、47相对于面部和相机视场246的个体化位置。因此，相机240结合图1的自动会话识别系统200和AVMS 100访问上述软件指令以完成模式识别和面部识别处理。这允许相机240将视场246聚焦在用户嘴部，用户嘴部由用户Q-20、R-30和S-40面部上的视场图案22示出。利用作为成像软件225的一部分的面部识别软件指令以及用户嘴部27、37、47在相机视场246内的位置，自动会话识别的系统200具有足够的信息以利用相关的处理器250来识别Q-20、R-30、S-40选项中的哪个/哪几个用户可能在车辆中并准备在驾驶时发出指令或作为车辆中乘客而发出指令。相机240还可以包括麦克风239，该麦克风与相机硬件集成安装或作为与相机240、AVMS 100和自动会话识别系统200进行数据通信的多个麦克风的系统的一部分。

如上所述，本公开的实施例的一方面包括将用户相关信息存储在数据库300中，该数据库300包括由自动会话识别系统200使用的用户资料。在一个实施例中，被授权向车辆中的用户视听监控系统(AVMS)100发出指令的每个用户(Q-20、R-30、S-40)将具有存储在数据库300中或存储在类似数据存储架构中的资料，以记录关于各个用户的信息。在本实施例中，自动会话识别系统200与AVMS 100通信，并且包括能够训练自动会话识别系统200来识别AVMS 100用户15的人工智能特征。识别用户包括在物理特征方面(例如，用户坐在汽车座椅上时的身高、宽度、头部形状、面部特征和嘴巴位置)和语音特征(例如，语法、口音、指令和方言的时序、特定单词或短语的发音)方面识别个体。在一个实施例中，当特定用户操作车辆并且和与该车辆相关联的相应的AVMS 100和自动会话识别系统200进行交互时，随着重复使用，该用户的资料在数据库300中随时间连续更新。因此，数据库300中的用户记录的内容在增长，以包括越来越多的单词和短语，这些单词和短语可以与AVMS 100随时间已经学习并成功实施的命令和指令配对。换言之，当用户说出某些指令时，该音频指令通过本文所述的自动会话识别系统200被传输到AVMS 100。相关联的数据库条目被类似地更新，使得针对各个用户的数据库条目包括各自的音频样本，该音频样本待以计算机可用格式与指令进行配对。验证技术被结合到自动会话识别系统200和所连接的AVMS 100中，以确认来自用户的某会话输入42与AVMS 100中的特定指令有关。

因此，本文所述的自动会话识别系统200可以访问数据库300和特定于给定用户或其他AVMS 100用户15的指令的相关词典315。该数据库300可以本地存储在车辆中，或者可以从远程服务器访问。当被远程访问时，当每辆车具有与远程服务器电子通信的相应AVMS100时，数据库300中的用户资料可以与一个以上的车辆结合使用。在这方面，本公开的一个方面是实现了自动会话识别系统200并允许在为个人定制会话识别处理的各个方面的同时使AVMS 100识别车辆中的AVMS 100的该个人用户或任何用户(例如，乘客)的系统、方法和计算机程序产品。

如上所述，机器学习技术用于将先前使用的音频语音令牌填入数据库条目，然后针对数据库中的每个用户资料推导出单独的会话编解码。编解码代表会话元素的数学模型，会话元素可用于以简单有效的方式来代表如图8中附图标记45A、45B、45C所示的语音令牌(例如，短语、音节、句子)，以支持会话识别功能。每个人可以具有不同的口音、语调、语法用法和语音模式，这些可以被表示为该个人的编解码中的识别模型。因此，编解码在表达给定的AVMS 100命令或其他会话输入时，表达了针对个体呈唯一性的音频和面部图像之间的数学建模关系。在一个实施例中，存储在存储器215中的个体编解码是被配置为模板的数据存储结构，随着相关联的自动会话识别系统200在延续的使用时期中利用人工智能程序处理语音令牌、音频样本和指令数据的新的会话输入实例，该模板易于被例行更新。因此，模板操作为可更新的数据存储结构形式的人机接口。相应地，该模板的存储器结构可以建立在存储着会话识别数据的非易失性计算机可读介质的扇区中，从而为了存储目的而单独压缩这些扇区。就这一点而言，使用下面讨论的图像与音频关联技术，该模板可以以允许更快地检索和解压所存储数据的至少一个扇区的方式来存储相关指令数据。自动会话识别系统200可以仅解压缩给定操作所需的那些扇区。根据数据类型来在扇区中存储编解码的这种灵活性允许在云服务器环境中分布式地存储编解码。

在车辆中的相应AVMS 100内实现自动会话识别系统200包括将用于选择数据库编解码、和/或用于通过训练序列来创建供给定个体使用的新的编解码、以及用于学习个体的会话特征所需的那些软件和硬件属性并入自动会话识别系统200中。对AVMS 100进行编程，以便经过本文描述的自动会话识别系统200的那一个体的反复使用来改善并改进该给定用户的编解码。通过利用本文描述的系统来识别个体用户，可以分析关于个体的会话请求的统计数据(例如，会话请求的发生频率、重复时间和条件)并且定制和/或优化会话识别性能。例如，自动会话识别系统200可以使用编解码来学习个体的最常用名称(例如，家庭成员)、Web搜索请求(例如，天气、球队比分、地图和路况报告)或其他常用术语，以及针对AVMS100的特定指令和请求。这些存储的请求可以在会话识别过程中被确定优先级。在新的自动会话识别请求期间，可基于针对AVMS 100的指令由自动会话识别系统200搜索先前存储的信息并将该信息用于学习附加语言。

图2A、2B和2C示出了本公开的一方面，其中，自动会话识别系统200将车辆相机视场聚焦在目标用户15上，该目标用户被感知为车辆内会话输入源42(即一系列音频样本282或语音令牌45)。在一个实施例中，自动会话识别系统200被配置为感知用户向AVMS 100发出指令。图2B示出了先前访问过AVMS100并且在上述数据库300中具有资料的一个个体15的存储图像，该数据库具有本文描述的自动会话识别系统200的先前使用记录。数据库资料300包括先前针对图1中的用户Q-20所示的个体而收集和存储的数据。在图2A的示例中，用户Q-20从车辆内的第一位置和第二位置(n，n+1)发出音频关键词或指令作为会话输入42，这些位置分别被标记为第一位置“n”和第二位置“n+1”，并且车辆的用户可以从这两个位置访问车辆AVMS 100。例如，位置1可以与用户首次进入车辆时在车辆中所占据的初始位置重合，而位置2可以与为使用户更舒适且更可易访问的经调整后的第二位置(即，在用于局部地调节车辆座椅的车辆座椅系统中的优选或先前存储的座椅位置)重合。图2A的相机240与AVMS 100电子通信，因此也与本文公开的自动会话识别系统200电子通信，该动会话识别系统包括控制系统，该控制系统根据来自车辆中的麦克风239的输入来调节相机240和相关联的视场246。麦克风239或用于从用户接收至少一个会话输入42的任意会话输入装置均通过可以是有线、无线、光纤等的信号传输方案连接到自动会话识别系统200。

在本公开中描述的自动会话识别系统200包括软件(即，存储在非暂时性计算机可读介质上的计算机可读指令)，在一个非限制性实施例中，软件可以被配置为包括了音频处理软件275和成像软件225的软件模块。针对自动会话识别系统200的会话输入42的物理属性可以被音频处理软件用来推导出代表了会话输入42相对于麦克风239的位置和方向的数据。通过将多个麦克风239安装在车辆中的关键位置处，系统可以在音频处理软件内包括人工智能功能，该人工智能功能学习并在存储器215中存储从会话输入42中推导出的分别接收的音频样本282的物理特征。例如，被划分为来自各个麦克风239的语音令牌45的相应样本282的幅度和相位，协同车辆的系统存储的虚拟几何映射一起使自动会话识别系统200能够在AVMS 100的用户或其他用户发出会话输入时，分离出会话输入42在车辆中所源自的方向和几何位置。

如图2B和2C所示，在AVMS环境中运行的自动会话识别系统200可以被配置为利用会话输入方向和原始数据来将相机240和相机视场246引导到相应用户(或说话者)的嘴部27、37、47。可以从会话输入数据的源头方向以及(如果可用的话)从数据库中存储的针对该特定用户/说话者的其他资料数据来确定嘴部的位置。例如，自动会话识别系统200可以被配置为访问与会话输入具有类似几何源头的数据库资料的最可能候选者。在图2B和2C的示例中，通过使用音频信号282的物理资料和先前存储在上述数据库300中的用户资料数据中的一者或两者，自动会话识别系统200可以访问足够的信息来识别用户身份、用户在车辆内的位置以及可用于会话识别处理的任何相关会话编解码。该访问是通过系统接收(包括但不限于)来自操作为会话输入装置232的至少一个麦克风239以及来自相关联的相机240的数据的信息而实现，用以识别用户的嘴部在用户面部上的位置，而无论用户是坐在车辆中的位置“n”还是位置“n+1”。一旦相机240在用户嘴部进行训练，就可以由可被自动会话识别系统200访问的图像处理软件225比较由相机240收集的图像20、30、40，以确定用户嘴部是否在运动。如图5所示，图像数据的帧270A-270D之间的像素中的图像差异可以确定用户的嘴部是否在运动和/或不动。成像软件可以将嘴部运动用作初步的区分标准，以评估用户是否已发出指令或者会话输入是否来自未被指令授权的其他来源。

图3示出了用户嘴部的图像序列如何显示嘴部是运动还是静止的。可以将图3B和3C所示的图像数据的帧22A、22B与对应的音频数据序列进行比较，对应的音频数据序列例如是由车辆中的各个麦克风239接收的音频信号302的曲线。在一些实施例中，从用户/使用者到自动会话识别系统200的会话输入信号42作为被会话输入装置(例如，麦克风239)检索到的会话输入42的序列的一部分而抵达会话输入装置232。因此，本文所述的自动会话识别系统200包括音频处理软件275，该音频处理软件275具有计算机执行指令，该指令允许音频处理软件275检索、存储、操纵、解析并且整体上使用由会话输入装置239拾取的输入声音数据来参与会话识别算法。该软件可以过滤、增强、缓冲、剪辑或参与进一步实现自动会话识别系统的目的所必需的任何数据增强技术。特别地，音频处理软件200被配置为利用大量音频信号来确定对本文所述的会话识别处理的有效会话输入，并且更特别地，被配置为识别与可以有效完成会话识别的关键声音、单词部分或短语相关联的语音令牌45(即语音数据的片段)。

图3A的图示出了针对音频信号序列的一部分的示例音频信号资料，本公开的系统将音频信号与由成像软件225作用的图像数据270的相应帧相关联，并且识别出嘴部在运动并且音频信号302的幅度具有能指明用户正在生成会话输入42的特征。在图3C的图像“n+1”处，用户嘴部没有动，并且音频信号的对应图确认未检测到会话输入。因此，图3示出了来自相机240的可被逐帧访问的图像22A、22B可以与从由AVMS接收的一系列会话输入42中解析的音频信号302的对应曲线配对。对于满足音频信号的幅度阈值333(其被认为是可能是用户指令的最小水平)的那些部分而言，本文所述的系统将音频信号282的部分与来自相机240的相应图像配对，以确认用户已发出会话输入42。在用户嘴部运动的同时，该会话输入42很可能是需要自动会话识别系统200进行进一步处理的来自用户的AVMS指令的候选。值得注意的是，本文各个实施例的详细描述包括将音频样本部分282与时域图中的图像数据的对应帧21A、21B、22A、22B配对。然而，该示例不将本文所述的系统和方法限于用于绘制配对操作的任何特定坐标系。许多其他数字信号分析方法可用于将音频信号的特征与对应图像进行比较并进行相应的配对，因此，图3的示例不限于如本文所述的可用于比较图像数据和音频数据的信号处理技术。

图4示出了本文所述的装置、方法和系统所用的数据采集的另一方面。根据图4，安装在车辆上和/或内部的相机240具有视场246，优选地，视场246可由AVMS 100和/或自动会话识别系统200调节。AVMS 100和/或会话识别系统200可用于改变相机设置，这些设置包括但不限于快门速度、帧频、分辨率、色彩控制、焦点和镜头设置、景深、视角、焦距和工作距离。如上所讨论，某些相机设置由被编程在非暂时性计算机可读介质中的软件来控制，该软件作为相机和/或AVMS的组成部分，并且AVMS利用车辆中的上述麦克风布置来识别会话输入源的位置和可能的身份。在识别出会话输入源的位置和可能的身份之后，将配置最佳的相机设置，以定位并提供该输入源的头部、面部，尤其是该输入源的嘴部的图像。

在图4中，相机设置被配置为逐帧地提供车辆中的音频信号282的源的图像数据270。图4A-图4D各者示出了相机240检索和处理图像数据270，以供自动会话识别系统200和AVMS 100使用，以便确认在相关联的麦克风239或一组麦克风处接收到的会话输入4(即，音频信号或语音令牌)被正确地识别为AVMS的指令。在图4的示例实施例中，相机240从视场246中生成图像数据270，该视场拍摄车辆用户的图像作为会话输入42的源。图4A示出了用户的头部、面部和嘴部在相机视场内的第一位置。在该示例中，相机240生成图像数据270，其中用户的面部稍微向用户的右侧转动。在一个实施例中，从用户的角度看，用户的头部和面部向左或向右转动的程度是自动会话识别系统和/或AVMS的决策过程中的数据点，以便AVMS评估会话输入是否为应该考虑在安装于车辆上的车辆系统的车辆队列中加以执行的有效命令。

换言之，自动会话识别系统的软件可以使用用户头部和面部位置的图像来确定头部、面部和/或嘴部相对于三维坐标系的旋转程度。在一个示例中，三维坐标系包括在相对于车辆地板的水平面中的x和y轴和在相对于车辆地板的垂直面中的z轴。这些x、y和z轴建立了以原点为中心的直角坐标系，原点理论上位于用户头部的内部。从数据和图像处理的角度来看，在本文所述的软件和系统中，用户头部所映射的三维坐标系可用于确定用户是否正在发布指令数据，如图4所示。在一个示例中，将指令识别为话语或会话输入42的最佳头部位置是面部朝向正前方或者眼睛处于注视用户前方的“道路”的头部位置。图4B示出了该位置，在该位置下，会话识别系统利用至少一个麦克风作为会话输入装置(未显示)，其中相机提供了用户头部、面部和/或嘴部的图像数据，并且由自动会话识别系统来消化解析这些成分中的数据。因此，AVMS可以评估输入到麦克风的会话中潜在指令数据的内容和有效性。在一个实施例中，相对于上述直角坐标的用户面部和嘴部的角度旋转程度可以用于确定在用户发出AVMS指令时，用户的头部、面部和嘴部是否可能处于预期的位置。相比之下，图4C和图4D所示的头部、面部和嘴部旋转可能超出了供AVMS来考虑是否要将与这些图像配对的话语视为指令数据的阈值(即，头部旋转的角度或度)。该系统可以被配置有允许用户的头部、面部和嘴部相对于相机视场246变化角度的公差，以使得只要所采集的图像数据帧显示头部、面部和嘴部在规定的公差之内，即可将会话输入信号认为是包括指令数据的可能候选者，例如图4A所示。

本公开的设备、系统和方法包括附加的硬件和软件模块，用以解析单个帧内的部分图像数据270以用于进一步分析。图5A示出了图像数据270的示例帧，其中，安装在车辆内的相机已经将其设置聚焦在用户嘴部上，该嘴部为可作为对AVMS的指令的话语源。可以分析由相机240提供的每帧图像数据，以确定代表用户的像素配置，或更具体地，确定代表作为AVMS指令源的用户嘴部的像素配置。在图5B、5C和5D中，已经从相机240提供的几组嘴部像素中将用户嘴部隔离出来。可以配备安装在AVMS 100上或AVMS 100远程可用的图像分析和唇读软件，以识别由特定嘴形引起的可能的音频或声音输出。顺序地放置这些嘴形可将AVMS 100配置为将用户发出的可能指令解密为音频信号。如上所述，可以在AVMS 100中实现机器学习技术，以推导出存入到数据库300中的一系列音频信号的条目，由此为数据库300中的每个用户资料编写单独的会话编解码。编解码表示会话元素的数学模型，会话元素可用于以简单有效的方式表示音频信号282或语音令牌45(例如，短语、音节、句子)以支持会话识别功能。每个人可以具有能够以该个人的编解码来表示的不同的口音、语调、语法用法和语音模式。如图5所示，该数据库300和编解码实施方式的一部分是收集那些可以从图像数据中解析出并保存到用户资料的相应嘴部位置、嘴部形状和面部表情。因此，用户的编解码可以包括每个相应AVMS用户是如何操纵其面部、嘴部、舌头、嘴唇和相关的头肌形态以说出指令的数据和模型的。随着自动会话识别软件将越来越多的会话条目共享到数据库中，并允许每个用户逐步使用更详细、更复杂且相应地更准确的编解码，自动会话识别系统被训练成从可用会话输入、头部旋转分析和至少用户嘴部的图像数据中解密作为指令数据说出的语言。

图6示出了根据本文所述实施例的自动会话识别系统200的系统架构的全局实现的一个示例。车辆中的用户15被识别为音频语音信号675形式的至少一个会话输入42的目标源。本公开的系统所考虑的音频样本282的部分包括语音令牌45，语音令牌45是来自音频信号串的片段，该片段可以被识别为单个指令的有限分量。图6示出了系统的拾取范围内的其他声音49可以是噪声源26、36，这些次要音频源26、36影响对应的会话输入信号42，并且最好被排除在分析之外，因为噪声源26、36不包括对AVMS 100或外围组件有用的指令数据。

该系统包括会话输入装置232，该会话输入装置232被配置为将会话输入42转换为数字或模拟格式的电子信号675，以进行进一步处理。在图6的示例中，会话输入装置232是麦克风239。其他实施方式可以包括在整个车辆中以阵列布置的或在不同位置布置的多个麦克风239。如上所述，车辆内会话输入装置232的地理位置以及从每个会话输入装置232接收的电子信号675的物理属性，使AVMS 100能够识别车辆内的音频样本282源自的方向和位置。以这种方式，系统允许对来自期望的目标源或外围噪声源的会话输入42进行初步筛选。

根据图6和图7，在一个实施例中，自动会话识别系统200访问计算机存储器215，并且处理器250至少执行成像软件225和音频处理软件275。处理器250被配置为将音频信号282的序列的部分与由相应的会话输入装置232和相机240收集的图像数据的帧21A、21B、22A、22B的整体集合的部分进行配对。对音频信号和图像数据两者的上述操作向AVMS赋予了以下功能：识别会话输入42(被划分为语音令牌45)的源的位置，以及确定图像数据270A、270B是否验证给定的会话输入42或语音令牌45可能是来自授权用户或车辆用户的关键字短语或指令。通过自动会话识别系统200访问如上所述的针对各个用户/使用者具有不同方面的会话和语言模式模型的编解码，来进一步调节针对关键词短语或指令数据存在性的确定。可作为给定的一组用户/使用者的资料被访问的编解码和其他数据库条目可用于提供增强型机器翻译和唇读程序，增强型机器翻译和唇读程序基于本文所述的音频信号和图像数据中的一者或两者进行操作。

图7示出了信号处理步骤的示例，该信号处理步骤可通过本地或远程连接到的上述数据库300和翻译词典315的处理器250和非暂时性计算机可读存储器215来实现。如图7所示，来自图6的相机240的图像数据270A、270B、270C的解析帧被隔离出来以在发出特定会话输入42(其被转换为音频样本282A、282B、282C)期间识别用户的嘴唇和嘴部的各个形状，并且可以进一步解析为语音令牌45A、45B、45C，例如单词或短语的一部分。类似于图3的系统，类似地从音频信号中解析出由会话输入装置232(例如至少一个麦克风239)检索的来自整体音频样本282的语音令牌45A-45C，并如图所示将其绘制在时间或频率空间中。与车辆AVMS 100相关联的本公开的系统200可以将所示的图像与在相同的时域或频域中类似地检测的对应语音令牌45配合使用，并使用该数据来从会话输入中确认某些声音和单词。

图8示出了信号处理过程的一个或多个示例，通过该信号处理过程，可以使用图7的成对的音频和图像数据，以及从存储在上述会话识别和唇读资料的数据库300中的用户资料中选择的编解码。除了将图8所示的作为顺序图像数据帧270A、270B、270C的嘴部图像像素数据帧与相应的音频样本282A、282B、282C配对之外，一种非限制性信号处理技术将成对的音频信号282A、282B、282C和图像数据帧270A、270B、270C与相应的语音令牌45A、45B、45C进行匹配。本文所述的系统还包括使用多个音频样本时长700的能力，该音频样本是表示对应的语音令牌45A、45B、45C的音频样本282A、282B、282C的顺序集合。伴随这些数据集的是音频样本282A、282B、282C之间的过渡周期时间715，以进一步评估相应的音频信号数据流中是否存在或缺失关键字词组或指令数据。如图7所示，在时间或频率空间中的语音令牌45A、45B、45C的曲线可以描述为一系列触发点750，其中会话输入装置提供了从原始音频中提取的足够的电子信号，自动会话识别系统可以针对音频样本中的一系列音频片段检测出起始点和终止点。在图7和图8中，每个音频片段或语音令牌45具有可识别的起始触发点750A、750C、750E和终止触发点750B、750D、750F，这些触发点可由音频样本282A、282B、282C与选定的绘图区域中的零轴相交而确定。在时域中，例如，关联的时钟290测量给定语音令牌45的起始触发点和终止触发点之间的时间，并且该测量值在本文中可以称为音频样本时长700。对于连续的语音令牌，在第一终止触发点和随后的起始触发点之间的时间被认为是过渡周期长度715A、715B、715C。在本公开中描述的系统、方法和计算机程序产品被配置为在从会话指令到AVMS的整体验证和会话翻译中，将音频样本长度和过渡周期长度用作附加数据点。

在图8的示例中，用户/使用者可以通过提供一系列供处理的音频格式的关键字短语或指令来训练系统。该训练还可以包括使用机电开关来指示训练请求的开始或停止。处理器250、存储器215和数据库300使用这些示例关键词短语或指令来更新数据库中的用户资料，并且该用户的相应编解码将与用户的会话方式和语言资料的模型一起可用。从全局意义上讲，识别期望过渡周期715的长度和可能来自给定用户/使用者的指令数据信号765的样本长度700提供了至少第一级别的指令数据筛选，该筛选是针对会话输入装置处接收的属于非指令数据775的噪声源的音频。如一个非限制性示例中所示，诸如车辆或电话中的一般对话之类的噪声源26、36不太可能具有与用户在表达方面更加明确的指令数据765时相同的起始触发点750A和终止触发点750B。可以在用户的编解码中对已知关键字短语或指令数据的过渡周期和音频采样时间进行建模，以便系统更快速地评估用户/使用者的身份以及用于实现针对来自音频样本282的语音令牌45和来自图像数据270的唇读的新机器翻译所必需的资料数据。

考虑上述附图和特征，本公开描述了整体自动会话识别系统，该系统可以在软件中实现，该软件被编程为一系列计算机实现的指令并且是存储在非暂时性计算机可读介质上的模块，以实现相关联的方法和/或计算机程序产品。该系统包括计算机存储器215、处理器250、系统时钟290以及存储在本地存储器中或在客户端和服务器的分布式系统中通过网络远程访问的上述计算机实现的指令。处理器250可以是若干AVMS处理器中的一者，该AVMS处理器执行成像软件225和音频处理软件275，用以将对应的数据传送到不同系统中的AVMS或另一个处理器。本公开的自动会话识别系统200包括相机240，该相机传输来自在与相机240相关联的视场246内获取的图像的数字像素数据的多个连续帧。诸如麦克风239之类的会话输入装置232向音频处理软件275传输语音令牌302的音频数据流，该语音令牌是从用户/使用者的至少一个会话输入中得出的。至少一个时钟/定时器290被配置为将经过时间值传输到计算机存储器，该经过时间值是响应于接收和/或识别与音频数据流的片段相关联的相应的起始触发点和终止触发点而测量的。音频处理软件275被编程为无论在硬件还是在软件中均适当切换于“起效(asssert)”与“解除起效(de-assert)”，从而提供用于测量音频样本之间的相应音频采样时间700和过渡周期时间715的定时器290。在一些实施例中，音频样本是已经从至少一个会话输入42中解析的上述语音令牌45。作为上述从车辆内部进行的会话和关键字短语及指令识别的一部分，音频处理软件275还被配置为将过渡周期时间715与对应于有效指令数据集中的指令之间的期望过渡时间值的指令间隔时间值常数进行比较。跟踪已知指令音频信号传输期间的过渡周期是训练会话识别系统的一方面，以将语音令牌识别为关键字短语或指令，或关键字短语或指令的一部分。

在识别上述图像数据和音频数据两者的特征时，该系统被配置为针对明显超出对AVMS 100有用的指令数据的范围的音频和图像数据进行筛选。在计算机的存储器和/或缓冲区结构中保留潜在有效的关键字短语和指令数据以便进行进一步处理，同时丢弃无效的样本。在一种配置中，系统分析先前配对的嘴部图像数据和语音令牌，以确认在会话输入装置从周围环境收集音频数据期间用户嘴部是否在运动。对于图像数据指示出用户嘴部没有运动的那些周期而言，可以将在时域中与图像配对的相应的音频样本或语音令牌视为无效并丢弃。类似地，系统还利用处理器和存储器来存储那些被视为是针对AVMS 100的可能指令的音频信号的幅度阈值。可以进一步考虑的是，将超过已建立的阈值的音频信号和各个语音令牌的幅度转换为作为针对AVMS 100的命令的有用的格式。可以将实现为本公开的系统和方法的计算机软件布置在许多不同的模块中，诸如音频信号处理软件275、图像数据处理软件225，以及能确保正确的指令被发送到AVMS以采取行动的指令处理软件。

在图8和图9所示的另一实施例中，根据本公开的系统利用上述构成要素和计算机化方法来将来自授权用户的指令数据与源自车辆中不同个体的非指令数据区分开。在另外的实施例中，该系统被配置成将会话输入42与来自噪声源26、36的个体的会话输入区分开。上述音频信号处理技术涵盖如下系统：这些系统记录物理特征、位置、语音指纹和其他识别标准，将此记录数据存储在存储器215中，并评估给定的会话输入42是否来自授权用户15、该用户在车辆中的位置以及用户15被授权向AVMS 100发出的指令种类。通过跟踪在本公开范围内的嘴部运动、物理位置、身体测量、音频信号的方向、不同麦克风处的音频信号的强度以及其他参数，AVMS可以将给定的个体与数据库300中的特定记录关联，并且跟踪针对每个用户15可能发出的有效指令的适当的预设授权。例如，尽管驾驶员可以发出控制车辆操作的指令，但是车辆其他部位中的其他乘客可以被识别，并且根据他们在车辆中的相应位置也可以发出针对车厢中可用的某些附件的指令。诸如儿童之类的个体可以根本无权发出任何指令数据。这些授权中的每一者都可以在计算机可读存储器中被预编程，并且在用户进入车辆时以自组网(ad-hoc)方式被分配给每个用户15。

根据对AVMS 100的多个用户访问，本文所述的实施例还包括如下系统组件：这些系统组件可配置为跟踪、识别和控制来自车辆内各个位置的用户的命令765。除了利用遍及车辆内部的多个会话输入装置232之外，本公开还结合使用了图9所示的图像检测器和传感器950，其具有视场975，该视场覆盖直至并包括整个车辆内部、个体座椅、前排座椅区域和地板井、后排座椅区域和地板井等的广阔区域。在其他实施例中，通过在整个车辆中放置相机910A-910G和对特定目标具有更精确的视场的其他图像传感器，以及配合使用在关键位置放置的会话输入装置920A-920F和/或录音机、收发器等，AVMS被配置为利用所有适当的信号传播和信号分析技术来识别特定会话输入的来源。这些技术包括但不限于来自构成车辆中的无线通信系统的硬件的波束形成技术。例如，天线阵列使用自适应波束形式来增强和排斥源自车辆的适当音频信号。用于设计天线阵列的布局的信号处理技术可应用于本文所述的AVMS，以识别会话输入的来源42。

公开了可用于执行所公开的方法和系统的组成部分。本文公开了这些和其他组成部分，并且应该理解，当公开这些组成部分的组合、子集、交互、组等时，尽管可能没有明确公开各种个体各者和集体组合的具体参考以及它们的置换，但是本文针对所有方法和系统具体构思和描述了各者。这适用于包括但不限于所公开的方法中的步骤的本申请的所有方面。因此，如果存在可以执行的各种附加步骤，则应当理解，可以利用所公开方法的任何特定实施例或实施例的组合来执行这些附加步骤中的每者。

如本领域普通技术人员将理解的，该方法和系统可以采取完全硬件实施例的形式、完全软件实施例的形式或结合软件和硬件方面的实施例的形式。此外，这些方法和系统可以采取计算机可读存储介质上的计算机程序产品的形式，该计算机可读存储介质具有体现在该存储介质中的计算机可读程序指令(例如，计算机软件)。更特别地，本方法和系统可以采用网络实现的计算机软件的形式。可以利用任何合适的计算机可读存储介质，其包括硬盘、CD-ROM、光学存储装置或磁性存储装置。

参照图6-图9，本文参考方法、系统、装置和计算机程序产品的框图和流程图说明来说明方法和系统的实施例。将理解的是，框图中的每个方框和流程图说明可以由计算机程序指令来实现。这些计算机程序指令可以被加载到通用计算机，专用计算机或其他可编程数据处理设备上以产生机器，使在计算机或其他可编程数据处理设备上执行的指令创建用于实现一个或多个流程图方框中指定功能的装置。

这些计算机程序指令还可以存储在计算机可读存储器中，该计算机可读存储器可以指导计算机或其他可编程数据处理装置以特定方式起作用，从而使得存储在计算机可读存储器中的指令产生包括用于实现在一个或多个流程图方框中指定功能的计算机可读指令的制品。也可以将计算机程序指令加载到计算机或其他可编程数据处理设备上，以使一系列操作步骤在计算机或其他可编程设备上执行，以产生计算机实现的处理，使得在计算机或其他可编程设备上执行的指令提供用于实现在一个或多个流程图方框中指定功能的步骤。

因此，框图和流程图说明的方框支持用于执行指定功能的装置的组合、用于执行指定功能的步骤的组合以及用于执行指定功能的程序指令装置。还将理解，框图和流程图说明的每个方框以及框图和流程图说明的方框的组合可以通过执行指定功能或步骤的基于专用硬件的计算机系统或专用硬件和计算机指令的组合来实现。

本文描述了用于支持储层压力预测的计算机可读介质的实施例。附图提供了与本文公开的方法一起使用的计算机可读介质的实施例的概况。可以以图形用户界面格式将结果传送到网关(经由Internet或卫星的远程计算机)。所述系统可以与算法(诸如本文公开的那些)一起使用。

从图中可以理解，在该实施方式中，计算机可以包括与其他元件通信的处理单元106。计算机可读介质中还可以包括用于接收和显示数据的输出装置和输入装置。该显示装置/输入装置可以是例如与监视器结合使用的键盘或定点设备。计算机系统可以进一步包括至少一个存储设备，诸如硬盘驱动器、软盘驱动器、CD Rom驱动器、SD盘、光盘驱动器等，用以在诸如硬盘、可移动磁盘或CD-ROM磁盘等各种计算机可读介质上存储信息。如本领域普通技术人员将理解的，这些存储设备中的每者可以通过适当的接口连接到系统总线。存储设备及其关联的计算机可读介质可以提供非易失性存储。重要的是，要注意上述计算机可以被本领域中的任何其他类型的计算机代替。这样的介质包括，例如，盒式磁带、闪存卡和数字影碟。

进一步包括系统的实施例的可以是网络接口控制器。本领域普通技术人员将理解，本文公开的系统和方法可以经由网关来实现，该网关包括计算设备或计算机形式的通用计算设备。

也可以使用几种可能类型的总线结构中的一种或多种，包括使用各种总线架构中的任一者的存储器总线或存储器控制器、外围总线、加速图形端口以及处理器或本地总线。举例来说，这样的架构可以包括：工业标准架构(ISA：Industry Standard Architecture)总线、微通道架构(MCA：Micro Channel Architecture)总线、增强ISA(EISA：EnhancedISA)总线、视频电子标准协会(VESA：视电标准协会：Video Electronics StandardsAssociation)本地总线、加速图形端口(AGP：Accelerated Graphics Port)总线、外部设备互连(PCI：Peripheral Component Interconnect)，PCI-Express总线、个人计算机存储卡工业协会(PCMCIA：Personal Computer Memory Card Industry Association)、通用串行总线(USB：Universal Serial Bus)等。总线以及本说明中指定的所有总线也可以通过有线或无线网络连接实现，并且包括处理器、大容量存储设备、操作系统、网络接口控制器、输入/输出接口和显示设备在内的每个子系统可以包含在一个或多个远程计算设备中，远程计算设备处于物理上分开的位置处并通过这种形式的总线连接，从而有效地实现了完全分布式的系统。

计算机通常包括各种计算机可读介质。示例性可读介质可以是计算机可访问的任何可用介质，并且例如包括但不旨在限于，易失性和非易失性介质、可移动和不可移动介质。系统存储器包括形式为诸如随机存取存储器(RAM：random access memory)等易失性存储器和/或诸如只读存储器(ROM：read only memory)等非易失性存储器的计算机可读介质。

在另一方面，计算机102还可包括其他可移动/不可移动、易失性/非易失性计算机存储介质。

例如但不旨在限于，大容量存储设备可以是硬盘、可移动磁盘、可移动光盘、盒式磁带或其他磁性存储设备、闪存卡、CD-ROM、数字通用光盘(DVD：digital versatile disk)或其他光存储器、随机存取存储器(RAM)、只读存储器(ROM)、电可擦可编程只读存储器(EEPROM：electrically erasable programmable read-only memory)等。

可选地，可以在大容量存储设备上存储任何数量的程序模块，例如，包括操作系统和计算软件。操作系统和计算软件(或其某种组合)中的每者都可以包括编程和计算软件的元素。数据也可以存储在大容量存储设备上。数据也可以存储在本领域已知的一个或多个数据库中的任一者中。此类数据库的示例包括DB2^TM、MICROSOFT^TM ACCESS、MICROSOFT^TM SQLServer、ORACLE^TM、mySQL、PostgreSQL等。数据库可以被集中化或可以被分布在多个系统上。

在另一方面，用户可以经由输入设备将指令和信息输入到计算机102中。此类输入设备的示例包括但不限于键盘、定点设备(例如“鼠标”)、麦克风、操纵杆、扫描仪、诸如手套等触觉输入设备和其他身体覆盖物等。虽然这些输入设备和其他输入设备可以通过人机界面连接到处理单元，该人机界面耦合到网络接口控制器，但是上述输入设备也可以通过其他接口和总线结构连接，诸如并行端口、游戏端口、IEEE 1394端口(也称为Firewire端口)、串行端口或通用串行总线(USB)等。

在另一方面，显示设备也可以经由诸如显示适配器等接口连接至系统总线。可以想到，计算机可以具有不止一个显示适配器，并且计算机可以具有不止一个显示设备。例如，显示设备可以是监视器、液晶显示器(LCD：Liquid Crystal Display)或投影仪。除显示设备外，其他输出外围设备可包括诸如扬声器和打印机等的可通过输入/输出接口连接到计算机的组件。该方法的任何步骤和/或结果可以以任何形式输出到输出设备。这钟输出可以是任何形式的视觉表示，包括但不限于文本、图形、动画、音频、触感等。

计算机102可以在网络环境中操作。举例来说，远程计算设备可以是个人计算机、便携式计算机、服务器、路由器、网络计算机、对等设备、传感器节点或其他公共网络节点等。可以经由局域网(LAN：local area network)、通用广域网(WAN：general wide areanetwork)或任何其他形式的网络在计算机和远程计算设备之间建立逻辑连接。这种网络连接可以通过网络适配器进行。网络适配器在有线和无线环境中均可实现。这种联网环境在办公室、企业范围的计算机网络、内部网和诸如Internet等其他网络中是常规且常见的。

所公开的方法中的任一者都可以由包含在计算机可读介质上的计算机可读指令来执行。计算机可读介质可以是能够被计算机访问的任何可用介质。通过示例而非限制的方式，计算机可读介质可以包括“计算机存储介质”和“通信介质”。“计算机存储介质”包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。示例性计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储技术、CD-ROM、数字通用光盘(DVD)或其他光学存储器、盒式磁带、磁带、磁盘存储器或其他磁性存储设备或者可用于存储所需信息并可由计算机访问的任何其他介质。

本文所述的方法和系统可以采用诸如机器学习和迭代学习等的人工智能技术。这种技术的示例包括但不限于专家系统、案例为本的推理、贝叶斯(Bayesian)网络、基于行为的AI、神经网络、模糊系统、进化计算(例如，遗传算法)、群体智能(例如，蚂蚁算法)和混合智能系统(例如，通过神经网络生成的专家推理规则或基于统计学习的生产规则)。

在以下权利要求中进一步阐述了本文所述的方法、系统和计算机程序产品的实施例。

Claims

1.一种用于监测车辆内区域的系统，包括：

计算机存储器；

处理器，其执行成像软件和音频处理软件；

成像装置，其将来自从车辆内与所述成像装置相关联的视场获取的图像的像素数据的多个帧传输到所述成像软件；

会话输入装置，其将从至少一个会话输入导出的音频样本的音频数据流传输到所述音频处理软件；

其中，所述处理器被配置为从所述像素数据的帧和所述音频样本中识别所述音频数据流的源。

2.根据权利要求1所述的系统，进一步包括：

至少一个定时器，其被配置为响应于所述至少一个定时器接收到的各个触发点而向所述计算机存储器传输所测量的经过时间值；

其中，所述音频处理软件被配置为对定时器触发点进行起效和解除起效，以测量所述音频样本之间的相应音频采样时间和过渡周期时间，从而识别所述音频数据流的源。

3.根据权利要求2所述的系统，其中，所述音频处理软件还被配置为将所述过渡周期时间与对应于指令间的期望过渡时间值的指令间隔时间值进行比较。

4.根据权利要求1所述的系统，进一步包括：幅度阈值，所述幅度阈值存储在所述计算机存储器中，

其中，所述音频处理软件被进一步配置为将相应音频样本的幅度与所述幅度阈值进行比较，以区分有效音频样本、无效音频样本和音频样本之间的过渡周期。

5.根据权利要求4所述的系统，进一步包括：指令处理软件，所述指令处理软件被配置为(i)跟踪时域内的效音频样本、(ii)丢弃无效的音频样本，并且(iii)跟踪所述时域内的所述过渡周期。

6.根据权利要求5所述的系统，其中，所述指令处理软件还跟踪所述时域内的所述像素数据的帧，并利用所述处理器和所述计算机存储器来在所述时域中将所述像素数据的帧与时间上对应的有效音频样本和过渡周期分为一组。

7.根据权利要求1所述的系统，其中，所述成像软件被配置为将所述像素数据的连续帧进行比较，并确定所述连续帧之间的图像差异。

8.根据权利要求7所述的系统，其中，所述会话输入源自用户嘴部，并且所述图像差异包括所述帧中的像素差异，所述像素差异确定了用户嘴部在运动和/或不动。

9.根据权利要求8所述的系统，其中，所述处理器访问存储在所述计算机存储器中的指令处理软件，并且根据由所述像素数据的子集表示的所述嘴部的虚拟位置来计算所述嘴部相对于所述成像装置的所述视场的物理位置。

10.根据权利要求9所述的系统，其中，所述处理器访问存储在所述计算机存储器中的指令处理软件，并且确定出在有效音频样本期间或者在过渡周期期间的所述嘴部的多个虚拟位置。

11.根据权利要求10所述的系统，其中，所述嘴部的所述虚拟位置验证所述会话输入中指令数据的存在。

12.根据权利要求10所述的系统，其中，所述嘴部的所述虚拟位置验证在音频样本的所述音频数据流期间所述嘴部在运动和/或在过渡周期期间所述嘴部不动。

13.根据权利要求10所述的系统，其中，所述指令处理软件识别代表了所述嘴部的相应虚拟位置的并且与至少一个有效音频样本分为一组的像素数据的多个帧，并且所述指令处理软件比较所述多个帧之间的所述图像差异，以从用户嘴部运动中解密指令。

14.根据权利要求13所述的系统，其中，所述指令处理软件将所述指令传输至所述计算机存储器。

15.根据权利要求14所述的系统，进一步包括：授权数据的数据库，所述数据库用于将所述指令与所述授权数据进行匹配，以确定所述音频数据流的源是否具有发出所述指令的权限。

16.根据权利要求15所述的系统，其中，所述处理器被配置为确定所述音频数据流的源是车辆中的驾驶员还是乘客。

17.根据权利要求15所述的系统，进一步包括：所述会话输入装置和所述成像装置的相应组合，其对应于所述驾驶员或所述乘客中的至少一者。

18.根据权利要求1所述的系统，进一步包括：数字像素数据，其中所述成像软件从所述帧中隔离出代表了所述音频数据流的物理源的所述数字像素数据的子集。

19.根据权利要求18所述的系统，其中，所述存储器包括翻译词典，所述翻译词典将由所述数字像素数据的子集表示的嘴部运动的序列与由所述音频样本的各部分表示的口述话语相匹配。

20.根据权利要求19所述的系统，其中，所述处理器计算所述嘴部相对于所述会话输入装置在所述车辆中的设定位置的虚拟位置，以确定所述音频数据流的方向。

21.根据权利要求20所述的系统，其中，所述处理器利用所述音频数据流的方向、所述像素数据的帧、口述话语来识别所述会话输入的源。

22.根据权利要求21所述的系统，其中，所述处理器利用所述会话输入的源来认证所述口述话语中的指令。

23.根据权利要求22所述的系统，其中，通过所述处理器在所述时域中跟踪所述像素数据的帧并在所述时域中将所述像素数据的帧与时间上相应的音频样本分成一组，来进一步验证所述指令。

24.根据权利要求21所述的系统，其中，通过所述处理器对所述像素数据进行评估以识别所述会话输入的源的面部特征，来进一步验证所述会话输入的源。

25.根据权利要求21所述的系统，进一步包括：语音令牌的数据库，所述声音令牌被存储为所述音频样本中用于将会话输入评估为指令的部分，所述会话输入针对已识别的用户也被存储在所述数据库中。