CN105579319B

CN105579319B - 用于识别车载信息系统中的手写手势的系统和方法

Info

Publication number: CN105579319B
Application number: CN201480027205.7A
Authority: CN
Inventors: Z·冯; Y-C·程; C-H·李; F·翁
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2013-03-12
Filing date: 2014-03-12
Publication date: 2018-02-16
Anticipated expiration: 2034-03-12
Also published as: WO2014165218A1; CN105579319A; EP2969697A4; EP2969697B1; US20140270382A1; EP2969697A1; US9275274B2

Abstract

一种车载信息系统包括接收手势输入的摄像机和控制器。控制器接收视频数据的帧并产生针对视频数据中的手部移动的轨迹数据。所述控制器使用第一隐马尔科夫模型（HMM）从轨迹数据解码笔划序列，去除开始笔划和结束笔划以形成编辑的笔划序列，并使编辑的笔划序列中的笔划再归一化。所述控制器使用对应于一组预定字符的第二HMM来识别对应于再归一化的编辑的笔划序列的字符。

Description

用于识别车载信息系统中的手写手势的系统和方法

优先权声明

本申请要求2013年3月12日提交的题为“System And Method For IdentifyingHandwriting Gestures In An In-Vehicle Information System”的美国临时号61/777,601的优先权，所述申请的全部内容通过引用结合于本文中。本申请还要求2013年3月13日提交的题为“System And Method For Identifying Handwriting Gestures In An In-Vehicle Information System”的美国临时申请号61/778,702的优先权，所述申请的全部内容通过引用结合于本文中。

技术领域

本公开一般涉及自动化辅助的领域，并且更具体而言，涉及使车载信息系统能够识别手写手势的系统和方法。

背景技术

现代机动车辆通常包括一个或多个车载信息系统，其给车辆中的乘员提供多种多样的信息和娱乐选择。车载信息系统所提供的常见服务包括但不限于车辆状态和诊断信息、导航应用、免提电话、收音机和音乐回放以及交通状况预警。车载信息系统通常包括多个输入和输出设备。例如，用于操作收音机和音频系统的传统按钮和控制旋钮通常被用在车辆信息系统中。较新形式的车辆输入包括将输入和显示结合到单屏幕中的触摸屏输入设备，以及车载信息系统响应语音命令的声控功能。输出系统的示例包括：机械仪器仪表；输出显示面板，例如液晶显示（LCD）面板；以及产生合成语音的音频输出设备。

用于车载信息系统的用户界面需要使用户能够获取正在寻找的信息，而不过度分散注意力。虽然大部分这样的信息系统与用于用户交互的显示器一起使用控制旋钮或触摸屏，但一些系统结合多种形式，例如语音和手势识别。在使用多种形式的这些系统中，手势输入起关键作用。对车载手势识别而言，一个挑战来自于可能的手势的多样性。这种多样性中的一些因为驾驶员的焦点在车辆操作上而不是执行手势上而发生。因此，手势是具有噪声的并且可包括无意义的成分，例如在实际执行手势之前做出长的开始笔划。在手势中包括这样的噪声笔划能够导致手势的错误识别。对手势多样性的另一个贡献因素是车辆中照明条件的变化。大多数通用的手势识别系统被构建成用于室内环境。不同的颜色空间表示、皮肤区域对非皮肤区域分类规则、自动白平衡校正或深度信息通常被用于过滤杂乱的环境状况。因为车载环境彼此极其不同，所以这些软件工具在成功识别手势方面是不可靠的。因此，车载信息系统识别手势的能力的改进是有价值的。

发明内容

车载信息系统通过使用自适应皮肤检测器来解决手势的多样性。这些检测器被配置成连同最大后验概率（MAP）适应的皮肤模型一起使用相对应的背景和前景信息二者，以增强检测器的性能和稳健性。此系统还结合了笔划建模，而不是全字母建模。用于手势的笔划建模类似于用于手写汉字字符识别的笔划建模或用于语音识别的音素建模。此笔划建模通过利用几何属性明确地对笔划内相关性建模作为后处理阶段，增强了系统区分手势的能力。这样的建模还具有去除噪声笔划的潜力。

在一个实施例中，已开发了一种车载信息系统，其配置成从操作者接收手势输入。所述车载信息系统包括：第一摄像机，其配置成产生车辆中的内表面和车辆中的操作者的手在所述内表面上移动的图像数据；控制器，其操作性地连接到第一摄像机和车载信息系统中的至少一个部件。所述控制器被配置成：从第一摄像机接收图像数据的多个帧；识别操作者的手在所述多个帧中的每一帧中的位置；产生与手在所述多个帧中的位置的变化相对应的轨迹数据；参考第一隐马尔科夫模型（HMM）从轨迹数据产生针对手的解码的笔划序列；从解码的笔划序列去除第一笔划和最后笔划中的至少一个，以产生编辑的笔划序列；使与编辑的笔划序列中的每个笔划相关联的轨迹数据归一化；参考第二HMM来识别对应于与编辑的笔划序列相关联的归一化的轨迹数据的字符；以及响应于识别的字符来操作车载信息系统中的至少一个部件。

在另一个实施例中，已开发了一种用于从车载信息系统中的操作者接收手势输入的方法。所述方法包括：利用控制器接收第一摄像机所产生的图像数据的多个帧；利用控制器识别操作者的手在所述多个帧中的每一帧中的位置；利用控制器产生与手在所述多个帧中的位置的变化相对应的轨迹数据；参考第一隐马尔科夫模型（HMM），利用控制器从轨迹数据产生解码的笔划序列；利用控制器从解码的笔划序列去除第一笔划和最后笔划中的至少一个，以产生编辑的笔划序列；利用控制器使与编辑的笔划序列中的每个笔划相关联的轨迹数据归一化；参考第二HMM利用控制器来识别对应于与编辑的笔划序列相关联的归一化的轨迹数据的字符；以及响应于所识别的字符，利用控制器来操作车载信息系统中的至少一个部件。

附图说明

图1为车辆的乘客舱中的车载信息系统的部件的示意图。

图2为图1的车载信息系统中的手势识别子系统的系统图。

图3为形成来自车辆操作者的手势的个别笔划的图形描绘。

图4为形成包括开始笔划和结束笔划的手势的笔划的图形描绘以及在去除了开始笔划和结束笔划并且再归一化剩余笔划之后的手势的另一图形描绘。

图5为在图2的子系统中用于检测帧序列中的手的过程的框图。

图6为图1的车载信息系统和图2的子系统中的用于字符识别的过程的框图。

具体实施方式

为了促进对本文所公开的实施例的原理的理解的目的，现在参考附图和以下书面说明书中的描述。这些参考不意在限制主题的范围。本公开还包括对所示实施例的任何改变和修改，并且包括如本公开所属领域的技术人员正常将想到的所公开的实施例的原理的另外的应用。

如本文所用的，术语“手势”指的是与用于车载信息系统的预定输入相对应的一系列手部移动。手势由多个称为“笔划”的较小手部移动形成。例如，每个笔划为手沿直线或在开始位置和结束位置之间的曲线上的连续移动。一些手势对应于字母表或象征性字典（lexicon）中的个别字符。如本文所用的，术语“字符”指的是字母、数字、意符、标点或被识别为用于车载信息系统的输入形式并且能够由手势形成的其他符号。如本文所用的，术语“字典”指的是被识别为用于车载信息系统的有效输入字符的一组预定字符。车载信息系统接收一个或多个字符作为输入，来控制通过车载信息系统中的一个或多个处理器执行的软件程序的操作以及控制车辆中的部件。如本文所用的，术语“部件”指的是车辆中连接到数字控制设备并且能够基于来自车辆操作者的手势输入来操作或重新配置的任何电的、机械的、液压的、气动的或机电的设备。

本文描述了车载信息系统100，其集成多个输入和输出设备，并且被配置成识别来自车辆中的操作者所提供的手势的字符。车载信息系统100包括以下结合图1来描述的部件。在图1中，车载信息系统100包括平视显示器（HUD）120、一个或多个控制台LCD面板124、一个或多个输入麦克风128、一个或多个输出扬声器132、在方向盘区域104上的输入基准区域134A、134B和136、分别用于左臂和右臂中的一个或两个的附近扶手区域112和113上的输入区域140和141，以及运动感应摄像机144。LCD显示124可选择地包括接收触觉输入的触摸屏界面。

控制器148被操作性地连接到车载信息系统100中的部件中的每一个。控制器148包括配置为中央处理单元（CPU）、微控制器、现场可编程门阵列（FPGA）、专用集成电路（ASIC）、数字信号处理器（DSP）或任何其他合适的数字逻辑设备的一个或多个集成电路。控制器148还包括存储编程指令的存储器，例如固态存储设备或磁性数据存储设备，所述编程指令通过控制器148执行，用于车载信息系统100的操作。在一些实施例中，控制器148连接到或结合附加的部件，例如全球定位系统（GPS）接收器152和无线网络设备154，以提供导航以及与外部数据网络和计算设备的通信。车载信息系统100还包括一个或多个外部摄像机和传感器158，其提供关于车辆周围环境的视频和其他传感器数据，以帮助操作者驾驶和停放车辆。车载信息系统100与通常在包括挡风玻璃102、仪表板108和方向盘104的机动车辆中找到的常规的部件集成。

在系统100中，输入区域134A、134B、136和140为车辆操作者提供了使用手部运动或手势来输入输入数据的表面。在一个实施例中，所述输入区域包括手势传感器设备，例如红外线传感器或飞行时间（TOF）传感器，其识别来自操作者的输入手势。在另一个实施例中，摄像机144被安装在乘客舱的顶部上，并且观察手势输入区域134A、134B、136、140和141中的一个或多个。除了在操作者与车辆中的表面接触时所做的手势外，摄像机144还记录驾驶员周围区域（例如，方向盘104上方的区域）中的手、臂和头部移动。LCD面板124还包括触摸传感器，例如电阻式或电容式的触摸屏传感器，并且车辆操作者通过与触摸屏LCD面板124直接接触来输入触觉输入，例如手势。

在方向盘104上，触摸输入区域134A和134B位于方向盘104的周界上，在车辆的操作期间，车辆操作者通常将他或她的手放置在那里。在一些情况下，操作者也接触触摸输入区域136，以激活例如车辆中的喇叭。此外，操作者可将手臂放置在扶手112上。除了当车辆操作者被提示使用触摸界面来输入输入数据时之外，控制器148被配置成忽略从触摸区域接收的触摸输入，以防止来自触摸区域的伪输入。

在一些实施例中，除识别通过触摸区域输入的简单手势外，控制器148被配置成识别从触摸界面区域中的一个接收的手写输入或键入输入。例如，操作者用手指接合触摸区域136或140以手写字符或数字。在另一个实施例中，控制器148使用HUD 120来显示简化的虚拟键盘，并且操作者使用触摸输入区域136或140来选择键，同时通过挡风玻璃102维持与车辆周围环境的目光接触。

麦克风128从接收自车辆操作者或另一车辆乘客的语音输入产生音频数据。控制器148包括处理音频数据的硬件（例如，DSP）和软件部件（例如，语音识别软件）以识别语音命令。此外，控制器148包括硬件和软件部件，其使得通过扬声器132能够产生合成语音输出，以给车辆操作者和乘客提供听觉反馈。

车载信息系统100使用LCD面板124、投射到挡风玻璃102上的HUD 120，以及通过仪表、指示灯或位于仪表板108中的附加LCD面板，来给车辆操作者提供视觉反馈。当车辆处于运动中时，控制器148可选择地停用LCD面板124，或仅通过LCD面板124显示简化的输出，以减少对车辆操作者的注意力干扰。控制器148使用HUD 120来显示视觉反馈，以使操作者在接收视觉反馈的同时能够观察车辆周围的环境。控制器148在对应于车辆操作者的周边视觉（或余光）的区域中通常在HUD 120上显示简化的数据，以确保车辆操作者具有车辆周围的道路和环境的无障碍视野。

如上所述，HUD 120在挡风玻璃120的一部分上显示视觉信息。如本文所用的，术语“HUD”一般地指范围广泛的平视显示设备，包括但不限于包括独立组合器元件等的组合平视显示器（CHUD）。在一些实施例中，HUD 120显示单色文本和图形，而其他HUD的实施例包括多色显示器。虽然HUD 120被描述为显示在挡风玻璃102上，但在替代性实施例中，平视单元与操作者在操作期间穿戴的眼镜、头盔护目镜或标线（reticle）集成。如下文所述，HUD 120和LCD显示器124中的一者或两者显示帮助车辆操作者使用车载信息系统的图形和视频数据。

在一些操作模式中，车载信息系统100独立地操作，而在其他操作模式中，车载信息系统100与移动电子设备170相互作用，所述移动电子设备170例如智能手机、平板电脑、笔记本电脑或其他电子设备。车载信息系统使用例如USB之类的有线接口或例如蓝牙之类的无线接口来与智能手机170通信。车载信息系统100提供用户接口，其使操作者能够在减少注意力分散的情况下控制移动电子设备170。例如，车载信息系统100提供基于组合的语音和手势的接口，以使车辆操作者能够利用移动电子设备170来打电话或发送文本消息，而不需要操作者握持或看着设备170。在一些实施例中，设备170包括各种设备，例如补充或代替收容在车辆中的设备的功能的GPS和无线网络设备。

图2中示出了系统100的手势识别部分的框图。手势识别系统200包括视频采集模块204、手检测和跟踪模块208、笔划解码模块212以及手势识别模块216。术语“模块”指如下控制器，即：所述控制器执行存储在操作性地连接到所述控制器的存储器中的编程指令，以执行任务或功能，或操作一个或多个部件来执行任务或功能。进一步参考图2，视频采集模块204操作一个或多个摄像机来获取视场的数字数据。视场的数字数据能够包括手势。如果视频采集模块在视场数据中检测到手势的存在，则采集的图像数据被传输到手检测和跟踪模块208，以定位和识别手势的对应轨迹。为了识别手势轨迹，检测图像数据中的手部位置并识别相对应的轨迹。手部使用逐帧检测或跟踪技术来定位，并且轨迹通过跟踪手部的若干特征点或手的质心来识别。识别的笔划轨迹被提供给基于笔划的解码模块212，用于识别多个笔划移动。这些笔划参考存储在存储器中的数据来识别，所述数据对应于来自人类书写模式的以不同定向的若干常用笔划，例如线、弧和椭圆。这些常用手势能够被编码成存储的字典，所以这些基础笔划用作在手势内识别的元素。所述字典还包括对应于无意义笔划的数据，例如，开始笔划的手势或结束笔划的手势。这些数据被用于识别对手势识别而言无用的笔划，所以能够从手势去除这些笔划，以更好地使整个手势序列归一化。然后，对应于所述多个笔划的数据被提供给识别模块216，所述识别模块216分析笔划数据以识别手势。为了解码笔划序列，双通（two pass）隐马尔科夫模型（HMM）与几何数据一起被用于识别两个最可能的手势。下面更详细地描述此过程。可替代地，也能使用用于笔划建模的其他HMM，以及其他建模技术，例如条件随机场（CRF）建模。此外，对手写文本识别而言已知的方法，例如MRF或基于属性的图，能够被用于分析笔划数据。在这些结构模型上使用这些方法能够比较几个候选笔划划分，以基于手势识别作出最终决定。此笔划分析还使轨迹数据能够检测不同的手写风格或笔划书写顺序，这增加了手势识别系统针对不同用户和书写风格的容忍度（tolerance）和稳健性。

在另外的细节中，用于人类手势识别的稳健的手部或身体部位检测器需要精确的信号采集。在图像数据的收集期间，自动白平衡校正首先被用于调整颜色分布。为了增强摄像机数据收集，LED灯被用于使不同照明条件的影响最小化。此外，红外线摄像机能够被用于获取深度信息，使得前景对象能够被可靠地提取。另外，视频采集模块204包括后处理阶段，其利用使处理器能够检测到摄像机图像数据中的皮肤颜色的编程指令来实施。这些指令使用适于更好的皮肤颜色检测的特定阈值。在不同的应用领域和模型中也使用不同的颜色空间表示和皮肤颜色模型。例如，使用期望最大化（EM）处理的颜色跟踪可以是有用的，而基于利用假检测样品来改善模型的自适应技术也能被用于增强皮肤检测性能。因为手势检测参考帧序列完成，皮肤检测建模中的背景和前景相关连同最大后验概率（Maximum aPosteriori，MAP）适应的使用一起使得能够调整模型条件，所以能够减少训练记录环境和图像数据的训练记录环境之间的不匹配。

系统200中的笔划建模也是很重要的。对此建模而言最常用的工具是基于顺序建模（sequential modeling），例如HMM或有限状态机（FSM），所述FSM比HMM灵活。在先前已知的系统中，整个手势通过单一的HMM或FSM来建模，并且给出最高分的模型被选为识别的手势。对模型而言典型的输入特征包括位置、速度和定向。为了解决车载环境的噪声手势和手势可具有若干不同的书写方式的问题，在下面描述的系统中使用笔划建模。笔划通常被用于识别汉字或其他亚洲书写字符的系统中。这些系统使用字典来调节用笔划构成字符的方式。用于形成不同字符的相同笔划能够被共享，以训练更好的笔划模型。然而，对车载手势识别而言，还存储有意义的笔划之间的无关移动，以使得能够实现它们的检测和去除。为了处理车载笔划建模和书写文本笔划建模之间的差异，形成手势的中间笔划被认为是在构建字典时有意义的笔划。利用此构架，能够处理手势的无意义的开始笔划和结束笔划，并且相应地能够完成有意义笔划的再归一化。此外，笔划关系能够通过一些几何属性结合在建模中。最后，与原来的全字母模型的分数融合也是可适用的。

图5描绘了用于在来自视频摄像机的图像帧的序列中识别手的存在和手部的移动的过程300，所述视频摄像机记录车辆的内表面。在下面的描述中，对执行功能或动作的过程300的引用指的是为了结合车载信息系统中的其他部件执行所述功能或动作，通过控制器（例如，图1的控制器148）的存储的程序指令的执行。为了说明的目的，结合图1的车载信息系统和图2的系统来描述过程300。

在过程300期间，对从摄像机接收的整个帧序列而言，控制器148通过取每帧和背景帧的每个像素之间的平方差的平均值来检查总方差σ（框304）。如果σ超过预定阈值，则该帧被声明为其中检测到手对象的候选帧（框308）。否则，所述过程继续采集帧序列并检查针对可能的手对象的方差（框304）。利用总是给定纯背景帧的假定来计算方差。对于具有预定块尺寸（例如，4像素乘4像素）的每个局部块（local patch），利用对应的背景块来计算块相关系数|ρ|的大小（框312）。在原皮肤颜色模型上产生MAP适应（框316），以减少训练和图像数据之间的不匹配。当前块的平均RGB值的MAP适应的对数似然分数LL产生，并且此分数使用下式来缩放以产生归一化的对数似然分数NLL：NLL=(1+e^(-0.5(LL)))^-1(框320)。利用ρ和NLL产生二维向量(框324)，并且通过训练数据中的这些特征来训练的融合分类器（fusionclassifier）被用于确定是否已检测到手（框328）。所述二维向量将背景-前景关系与颜色信息二者组合，使得能够实现跨不同照明条件的稳健性。如果检测到手，则处理用于手势的笔划数据（框332）。否则，获取另一个帧序列并测试它的方差（框304）。

过程300产生对应于手部在视频帧的序列中的背景中移动到不同位置的轨迹数据。所述轨迹数据包括对应于手在视频数据的每一帧中的背景表面上的不同位置处的坐标的信息，以及关于手的速度和加速度的信息。包括手的每个视频帧按时间在预定时刻捕捉手的位置。摄像机144以预定速率（例如，每秒24帧、30帧或60帧）产生帧，并且控制器148基于手在多个帧上的位置的变化以及视频数据中的帧之间经过的预定时间段来识别手的速度和加速度。在手势中，随着操作者执行形成手势的一系列移动，手部移动的方向、速度和加速度通常改变一次或多次。沿直线或沿弯曲路径的两个位置之间的手部的个别移动被称为“笔划”。控制器148产生轨迹数据，其包括每个笔划的开始位置和结束位置，可选择地包括手在笔划期间的一个或多个中间位置，以及与手在每个笔划期间的移动有关的加速度和速度信息。虽然轨迹数据包括形成手势的一个或多个笔划，但控制器148执行下面描述的解码过程，以将针对手势的轨迹数据分解成个别笔划的序列。

为了对手势建模，首先为每个英文字母手势定义字典。例如，字母P被定义为{开始、↓、↑、、结束}。字典中的字符中的每一个用一系列笔划来建模，并且在一些实施例中，由于不同的人类操作者可形成具有不同组笔划的手势，所以单字符能够使用两个或更多个笔划序列来建模。此过程被用于识别具有两个最高笔划分数的候选者，这是由于这些候选者可能在混淆矩阵（confusion matrix）中产生大的计数。然后，这些候选者能够被呈现给用户，以便确认哪一个是正确的手势。

图6描绘了用于由手势识别字符输入的过程600，所述手势在车辆的内表面上执行并且通过摄像机记录。在下面的描述中，对执行功能或动作的过程600的引用指的是为了结合车载信息系统中的其他部件执行所述功能或动作，通过控制器（例如，图1的控制器148）的存储的程序指令的执行。为了说明的目的，结合图1的车载信息系统来描述过程600，并且过程600描述了图2的轨迹理解模块212和识别结果模块216的操作。

当控制器148接收到针对在来自摄像机144的视频数据的多个帧中识别的手部移动的轨迹数据时，过程600开始（框604）。如上所述，控制器148在过程300期间可选择地产生轨迹数据。在另一个实施例中，控制器148从另一个计算设备接收轨迹数据，所述另一个计算设备处理来自一个或多个视频记录设备的图像数据。轨迹数据包括手在视频记录期间不同时间处的位置，并且轨迹数据还包括关于手部移动的速度和加速度数据。

过程600当控制器148使用第一隐马尔科夫模型（HMM）来分析轨迹数据并对来自轨迹数据的手势中的个别笔划解码时继续（框608）。第一HMM被应用于找到针对对应于一组字符中的第i个字符的手势中的笔划的对数似然分数，其对应于：，其中，为对应于字典中的第i个字符的一组预定的笔划，o为来自操作者的识别的笔划的序列，并且为针对字典中的字符中的每一个的一组HMM。在系统100中，控制器148使用第一HMM来将完整的手势解码成形成所述手势的个别笔划，包括开始笔划和结束笔划。所述笔划基于由用于在手势期间形成字符的一大组有效笔划训练的第一HMM来解码。从针对不同手部移动的轨迹数据以后，控制器148由解码的笔划产生笔划序列。由于关于手部的视频数据和轨迹数据按时间线性地记录，所以控制器148按时间组织笔划序列，并且能够识别手势的开始笔划（按时间最早的笔划）和结束笔划（按时间最终的笔划）以及中间笔划。

图3描绘了形成手势350的一系列笔划。手势350由笔划352、354、356、358、360、362和364形成。除了手形成笔划的速度和加速度之外，针对每个笔划的轨迹数据包括关于手在每个笔划期间的位置的信息。在图3的示例中，在形成手势350的笔划的序列中，笔划352为第一笔划，并且笔划364为最终笔划。

再次参考图6，过程600当控制器148从对应于手势的轨迹数据去除开始笔划和结束笔划以形成编辑的笔划序列时继续（框612）。在许多情况下，记录为手势的一部分的开始笔划和结束笔划并不向手势贡献意义，并且会增加错误地识别手势的可能性。例如，第一记录的笔划通常对应于为了形成手势操作者将他或她的手放置在方向盘上或车辆中的其他表面上。最终笔划通常当操作者从方向盘移走他或她的手或重新定位他或她的手以开始使用另一个手势来形成另一个字符时发生。在形成手势时发生的中间笔划形成当包括第一笔划和最终笔划时由手势形成的字符的更精确的表示。

过程600当控制器148再归一化针对编辑的笔划序列中的剩余笔划的轨迹数据时继续（框616）。再归一化过程调整笔划序列中剩余笔划的相对位置和大小，以适应用于手势识别的预定坐标平面。图4分别描绘了在过程600期间开始笔划和结束笔划的去除和再归一化之前和之后手势的两个图420和450。在图420中，手势包括笔划424、428、432和436。笔划424和436分别描绘开始笔划和结束笔划。图450描绘了在笔划424和436被去除并且编辑的笔划序列被再归一化之后的中间笔划428和432。在图4的示例中，再归一化序列将形成手势的笔划重新定位在于X轴和Y轴上从0-1延伸的相对坐标平面中。再归一化保持了笔划的相对大小和位置，但不考虑形成手势的记录的手部移动的绝对大小以及形成手势时手在车辆中的表面上的绝对位置。由于车辆中的操作者通常在不看他或她的手的情况下输入手势的笔划，所以过程600的笔划编辑和再归一化特征二者基于操作者的手部移动改进了字符识别的精度。

再次参考图6，过程600当控制器148可选择地识别对应于编辑的笔划序列中的笔划的轨迹数据的几何信息时继续（框620）。所述几何信息指的是再归一化的笔划序列中的多个笔划之间的空间关系。用于手势识别的几何信息的示例包括两个笔划的端点位置之间的距离、一个笔划的端点位置到连接另一个笔划的端点的线之间的距离、笔划的中点到连接另一个笔划的端点的线之间的距离以及延伸通过两个不同的笔划的端点的两条相交的线所形成的角的余弦值。所述端点位置对应于手所形成的每个笔划的开始和结束，其被存储为针对每个笔划的轨迹数据的一部分。在几何信息的处理中，由于许多笔划具有非线性的形状，所以控制器148产生连接笔划上的两个位置的线。在一些实施例中，过程600省略了用于手势识别的几何信息的识别。

过程600当控制器148使用第二HMM来识别针对编辑的笔划序列的对数似然分数时继续（框624）。针对字典中的第i个字符的对数似然用下式来表达：，其中，o_为编辑的和再归一化的笔划序列。在一个实施例中，对数似然分数还参考可选的几何信息来识别。第二HMM与编辑的笔划序列及几何信息的结合用下式来表达：

，

其中，为通常在[0,1]的范围中的正常数，并且k和h指定选自针对第i个手势的笔划D _i的整个组的不同笔划，以将针对字典中的预定字符的笔划之间的几何信息与来自输入手势的笔划比较。在过程600中对个别笔划的序列的比较比现有技术的字符识别过程简单和精确，所述现有技术的字符识别过程试图匹配整个手势，而不将手势分解成更简单的笔划序列。

在针对预定字典中的不同字符（例如，英文或另一种语言中的字母、数字和标点）的分数产生后，控制器148选择具有最高对数似然分数的字符（框628）。使用英文作为字典，控制器148识别针对与英文输入字符相关联的字母、数字和标点中的每一个的对数似然分数，如上文关于框624的处理所述。控制器142选择对编辑的和再归一化的笔划序列而言具有最高对数似然分数的字符，作为来自操作者的输入字符。

在过程600期间，控制器148基于来自操作者的字符输入来控制车辆中至少一个部件的操作（框632）。在一个实施例中，控制器148操作输出设备，例如LCD 124或HUD 120，来产生字符的图形显示。在例如消息传递应用之类的一些应用中，随着操作者使用手势输入文本消息，字符与来自操作者的其他字符一起显示。在其他配置中，控制器148使用输入字符来控制车辆中的部件。例如，系统100包括产生关于车辆周围环境的视频和其他信息的各种外部摄像机和车辆传感器158。在车辆的操作期间，来自车辆操作者的输入手势能够被用于使外部摄像机158激活、停用、变焦、倾斜或平移。在一个实施例中，控制器148识别字母或数字的输入字符，来控制摄像机158中的一个或多个，而在另一个实施例中，字典包括除标准字母和数字之外的字符，以使操作者能够输入特殊的手势来控制摄像机158。

虽然过程600针对单字符识别，但在另一配置中，过程600产生多个结果，包括针对与具有匹配记录的手势的不同似然度（likelihood）的字符相对应的每个结果的分数值。例如，在一个实施例中，控制器148在“2最佳”配置中识别具有两个最高分数的两个字符，并且在其他配置中，对于n最佳匹配，选择具有n个最高分数的多达n个字符。在例如文本输入应用之类的一些应用中，当字符被接收为预定语言（例如，英语）中的较大文本主体的一部分时，能够改进字符识别精度。拼写检查器或其他合适的过程接收针对不同字符的多个分数，并将这些分数与字符的预定分布比较，考虑到输入中已被接收的字符，所述字符的预定分布是针对语言中的措辞所预期的。考虑到已输入的其他字符的上下文，如果具有最高分数的字符将导致拼错的单词，则拼写检查器可选择不具有最高分数的字符。

将会理解的是，上文公开的变体及其其他的特征和功能或替代方案可被期望地结合到许多其他不同的系统、应用或方法中。本领域技术人员后续可作出的各种目前未预见或未预料到的替代、修改、变型或改进也意在被下面的权利要求所包含。

Claims

1.一种配置成接收手势输入的车载信息系统，包括：

第一摄像机，其配置成产生车辆中的内表面和所述车辆中的操作者的在所述内表面上移动的手的图像数据；

控制器，其操作性地连接到所述第一摄像机和所述车载信息系统中的至少一个部件，所述控制器配置成：

从所述第一摄像机接收图像数据的多个帧；

识别所述操作者的手在所述多个帧中的每一帧中的位置；

产生与所述手在所述多个帧中的位置的改变相对应的轨迹数据；

参考第一隐马尔科夫模型从所述轨迹数据产生来自所述手的解码的笔划序列；

从所述解码的笔划序列去除第一笔划和最后笔划中的至少一个，以产生编辑的笔划序列；

使与所述编辑的笔划序列中的每个笔划相关联的轨迹数据归一化；

参考第二隐马尔科夫模型来识别与所述归一化的轨迹数据相对应的字符，所述归一化的轨迹数据与所述编辑的笔划序列相关联；以及

响应于所识别的字符，操作所述车载信息系统中的所述至少一个部件。

2.如权利要求1所述的系统，所述控制器还配置成：

识别与所述归一化的轨迹数据相对应的几何信息，所述归一化的轨迹数据与所述编辑的笔划序列中的每个笔划相关联；以及

参考所述几何信息和所述第二隐马尔科夫模型来识别所述字符。

3.如权利要求2所述的系统，所述控制器还配置成：

参考一个笔划的一个端部的第一位置和另一个笔划的另一个端部的第二位置之间的距离，来识别针对所述编辑的笔划序列中的一个笔划的几何信息。

4.如权利要求2所述的系统，所述控制器还配置成：

识别包括一个笔划的端部的第一位置和连接对应于另一个笔划的开始的第二位置与对应于另一个笔划的结束的第三位置的线之间的距离的几何信息。

5.如权利要求2所述的系统，所述控制器还配置成通过识别下列各项来识别所述几何信息：

一个笔划的第一端部的第一位置和所述一个笔划的第二端部的第二位置之间的中点；

连接对应于另一个笔划的第一端部的第三位置和对应于另一个笔划的第二端部的第四位置的线；以及

所述中点和所述线之间的距离。

6.如权利要求2所述的系统，所述控制器还配置成通过识别下列各项来识别所述几何信息：

一个笔划的第一端部的第一位置和所述一个笔划的第二端部的第二位置之间的第一线；

另一个笔划的第一端部的第三位置和另一个笔划的第二端部的第四位置之间的第二线；以及

所述第一线和所述第二线的相交所形成的角的余弦。

7.如权利要求1所述的系统，所述控制器还配置成：

参考所述操作者的手从所述多个帧中的第一位置到第二位置的位置的识别的改变及在所述多个帧中的帧之间的预定时间段，来识别所述操作者的手的速度和加速度；以及

产生包括所述手的第一位置、所述手的第二位置以及所述手的识别的速度和加速度的轨迹数据。

8.如权利要求1所述的系统，所述至少一个部件还包括：

图形显示设备；以及

所述控制器还配置成：

操作所述图形显示设备来显示所述字符的图形描绘。

9.如权利要求1所述的系统，所述至少一个部件还包括：

第二摄像机，其配置成产生对应于所述车辆外部的环境的视频数据；以及

所述控制器还配置成：

参考所述字符来操作所述第二摄像机，以修改所述第二摄像机的变焦、平移或倾斜。

10.一种用于车载信息系统中的手势识别的方法，包括：

利用控制器接收第一摄像机产生的图像数据的多个帧；

利用所述控制器识别操作者的手在所述多个帧中的每一帧中的位置；

利用所述控制器产生与所述手在所述多个帧中的位置的改变相对应的轨迹数据；

参考第一隐马尔科夫模型利用所述控制器从所述轨迹数据产生解码的笔划序列；

利用所述控制器从所述解码的笔划序列去除第一笔划和最后笔划中的至少一个，以产生编辑的笔划序列；

利用所述控制器使与所述编辑的笔划序列中的每个笔划相关联的轨迹数据归一化；

参考第二隐马尔科夫模型利用所述控制器识别与归一化的轨迹数据相对应的字符，所述归一化的轨迹数据与所述编辑的笔划序列相关联；以及

响应于所识别的字符，利用所述控制器操作所述车载信息系统中的至少一个部件。

11.如权利要求10所述的方法，还包括：

利用所述控制器识别与所述归一化的轨迹数据相对应的几何信息，所述归一化的轨迹数据与所述编辑的笔划序列中的每个笔划相关联；以及

12.如权利要求11所述的方法，所述几何信息的识别还包括：

参考一个笔划的一个端部的第一位置和另一个笔划的另一个端部的第二位置之间的距离，利用所述控制器识别针对所述编辑的笔划序列中的一个笔划的所述几何信息。

13.如权利要求11所述的方法，所述几何信息的识别还包括：

利用所述控制器识别包括一个笔划的端部的第一位置和连接对应于另一个笔划的开始的第二位置与对应于另一个笔划的结束的第三位置的线之间的距离的几何信息。

14.如权利要求11所述的方法，所述几何信息的识别还包括：

利用所述控制器识别一个笔划的第一端部的第一位置和所述一个笔划的第二端部的第二位置之间的中点；

利用所述控制器产生连接对应于另一个笔划的第一端部的第三位置和对应于另一个笔划的第二端部的第四位置的线；以及

利用所述控制器识别所述中点和所述线之间的距离。

15.如权利要求11所述的方法，所述几何信息的识别还包括：

利用所述控制器产生一个笔划的第一端部的第一位置和所述一个笔划的第二端部的第二位置之间的第一线；

利用所述控制器产生另一个笔划的第一端部的第三位置和另一个笔划的第二端部的第四位置之间的第二线；以及

利用所述控制器识别所述第一线和所述第二线的相交所形成的角的余弦。

16.如权利要求10所述的方法，所述轨迹数据的产生还包括：

参考所述操作者的手从所述多个帧中的第一位置到第二位置的位置的识别的改变及所述多个帧中的帧之间的预定时间段，利用所述控制器识别所述操作者的手的速度和加速度；以及

利用所述控制器产生包括所述手的第一位置、所述手的第二位置以及所述手的识别的速度和加速度的轨迹数据。

17.如权利要求10所述的方法，所述至少一个部件的操作还包括：

利用所述控制器操作图形显示设备，以显示所述字符的图形描绘。

18.如权利要求10所述的方法，所述至少一个部件的操作还包括：

参考所述字符利用所述控制器操作配置成产生与车辆外部的环境相对应的视频数据的第二摄像机，以修改所述第二摄像机的变焦、平移或倾斜。