CN107690651B

CN107690651B - 用于自动化手语识别的系统和方法

Info

Publication number: CN107690651B
Application number: CN201680035117.0A
Authority: CN
Inventors: Z.周; T.门内; K.李; K.许; Z.冯; C-H.李
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2015-04-16
Filing date: 2016-04-15
Publication date: 2022-06-28
Anticipated expiration: 2036-04-15
Also published as: US10109219B2; EP3284019A4; EP3284019A1; US20160307469A1; WO2016168591A1; CN107690651A

Abstract

一种用于手语识别的方法包括：利用输入设备接收基于对应于符号序列的用户的多个手部移动和姿势的输入，从输入提取对应于所述多个手部移动和姿势的多个特征，基于所述多个特征中的第一特征集合和存储在存储器中的第一隐马尔科夫模型（HMM）而标识输入中的符号序列的开始，以及基于所述多个特征中的第二特征集合和存储在存储器中的第二HMM而标识输入中的第一符号。方法还包括生成对应于来自输入的第一符号的输出。

Description

用于自动化手语识别的系统和方法

优先权声明

本申请要求享有对题为“System and Method For Automated Sign LanguageRecognition”并且于2015年4月16日提交的美国临时申请号62/148,204的优先权，所述美国临时申请的完整内容通过引用特此并入本文。该申请进一步要求对题为“SignTransition Modeling and a Scalable Solution to Continuous Sign LanguageRecognition for Real-World Applications”并且于2015年6月10日提交的美国临时申请号62/173,878的优先权，所述美国临时申请的完整内容通过引用特此并入本文。

技术领域

本公开大体涉及手语识别（SLR）的领域，并且更具体地，涉及用于包括隐马尔可夫模型（HMM）的SLR的系统和方法，以及手语识别中的非优势手特征的建模。

背景技术

手语是主要由重听（HoH）人群使用的自然语言。口头语言使用话音来传达含义，而手语利用手部形状、取向和移动，有时在面部表情和身体移动的帮助下，来表述想法。现代研究已经证明，手语是真正的语言，并且可以是HoH人群的第一语言。

世界卫生组织估计，全球人口的超过5%（包括3200万儿童）听力受损。SLR的技术可以带来可以以各种方式使HoH群体受益的产品。然而，与SR相比，SLR接收到相对有限的研究努力，并且尚不成熟。将成熟的SR技术引入到SLR中可以带来SLR中的大幅进步。

SLR和SR的任务在以下含义上是类似的：它们二者都试图将输入信号的序列转变成文本文字的序列。用于SR的输入信号是话音信号，而用于SLR的那些可以是来自可穿戴设备的传感器信号和/或来自相机的图像序列。类似性指示SR框架还可以适用于SLR。但是，某些策略需要用于处置手语的特殊特性。

手语的一个主要特性是在符号短语的信号中，在第一符号之前和在最后的符号之后，在每两个顺序符号之间存在信号的过渡部分。在针对小词汇连续SLR的之前工作中，正常在建模中忽略过渡部分。然而，对于较大词汇连续SLR，对过渡部分进行显式建模已经被证明是有益的。对过渡信号进行显式建模的之前工作要求在结构上不同于符号模型的过渡模型，并且显著增加识别的复杂度。因此，改进针对具有宽广范围的词汇大小的手语的手语手势的识别的对SLR系统和方法的改进将是有益的。

对于手语，存在涉及非优势手的其它特性特性。第一特性是优势手和非优势手对于手语而言不是同等重要的。例如，频繁使用的手语词语在打手语中正常仅牵涉优势手。第二特性是对于仅优势手符号而言，非优势手信号可能不稳定并且受相邻符号或甚至附加动作所影响。处置涉及非优势手的这些特性的策略因而对于手语识别是有益的。

发明内容

方法包括针对在HMM框架内的符号之前、之间、之后的过渡信号的显式模型的生成。在传统的语音识别中，基于HMM的框架针对音素以及针对词语之间的短暂停顿和短语之间的沉默而训练HMM。语音识别HMM然后将音素HMM连接成词语HMM，并且将词语HMM与短暂停顿/沉默HMM连接成解码网络。识别通过搜索在给定输入信号的情况下在解码网络中具有最高概率的路径来进行。图2图示了用于SR的现有技术解码网络200连同HMM结构。

用于SLR的HMM框架不同于现有SR框架。系统通过以下来生成用于SLR的HMM框架（1）针对形成个体符号的每一个手势训练HMM；（2）训练针对更大短语内的两个连续符号之间的过渡信号的过渡HMM、针对符号短语中的第一符号开始之前的过渡信号的开始HMM，以及短语的最后符号完成之后的结束HMM；以及（3）将符号和过渡HMM连接成短语与将过渡/st/结束HMM连接成与SR的类似的解码网络，如图3中所图示的。以此方式，系统生成用于SLR的任务的基于HMM的识别框架。SLR框架生成过渡信号的显式模型以降低来自邻域符号对符号建模的影响，这改进识别精确度。

SLR系统还将从优势手和非优势手提取的特征合并到HMM的训练中。传统的语音识别来自用户的单个话音，而SLR系统的输入来自两个信道，所述两个信道对应于左手和右手的移动。手语的一个特性是优势和非优势手的使用是不均衡的。优势手使用在大多数符号中，而相比于优势手，非优势手不太常出现，并且主要扮演辅助角色。该特性指示以有区别的方式合并优势手和非优势手信息可以是有益的。系统可选地采用两个实施例来在建模中仅保持来自非优势手的关键信息，并且因而使SLR系统更加聚焦于优势手。在一个实施例中，系统仅包括涉及建模中的手部全局角度的来自非优势手的特征。

实验结果指示，与同等地包括左手/右手信息相比，第一方案有效地改进识别精确度，而第二方案提供相当的精确度。一个附加优点在于，通过使用这两个方案，可以大幅简化收集符号信号的非优势手设备（例如数字手套），其仅要求一个或若干传感器以在符号移动期间得到手部全局角度。

本文所描述的SLR系统和方法还对针对仅优势手符号的非优势手差异进行建模。非优势手差异模型被设计成处置仅优势手符号的非优势手输入受邻域符号或甚至附加动作影响的手语的特殊特性。系统设计包括连结与过渡（TWT）解决方案以降低该现象对识别性能的影响。训练和手语识别方法的一个实施例连结过渡模型的非优势手相关参数与针对仅优势手符号的模型的那些，并且通过在解码网络中包括作为针对每一个仅优势手符号模型的可替换选项的连结模型来更新解码网络，如果该符号遵循双手符号的话。采用该解决方案的优点是SLR系统的鲁棒性中的增加。

如在上个章节的最后两段中提到的，SLR中的之前工作没有对过渡信号进行显式建模，或者在具有引入复杂识别过程的需要的情况下对过渡信号进行建模。现有技术SLR系统不区分左手和右手手势，如本文所描述的。本文所描述的SLR系统和方法不同于之前的工作。

在一个实施例中，已经开发了一种用于自动化手语识别的训练方法。该方法包括，利用输入设备接收对应于来自用户的手部移动和姿势的多个预定符号序列的多个训练输入，利用处理器从对应于用户的手部移动和姿势的训练输入提取针对所述多个预定符号序列中的每一个符号的第一特征集合，利用处理器基于针对预定符号序列中的每一个符号的来自对应于手部移动和姿势的训练输入的第一特征集合而生成第一隐马尔可夫模型（HMM），利用处理器从对应于用户的手部移动和姿势的训练输入提取针对所述多个预定符号序列中的符号之间的过渡的第二特征集合，利用处理器基于来自训练输入和预定符号序列的第二特征集合而生成第二HMM，利用处理器从对应于用户的手部移动和姿势的训练输入提取针对开始和结束所述多个预定符号序列中的每一个预定符号序列的第三特征集合，利用处理器基于来自训练输入和预定符号序列的第三特征集合而生成第三HMM，以及利用处理器在存储器中存储第一HMM、第二HMM和第三HMM以用于从输入设备接收的附加符号的识别。

在另一实施例中，已经开发了一种用于自动化手语识别的方法。该方法包括，利用输入设备接收基于对应于符号序列的用户的多个手部移动和姿势的输入，利用处理器从对应于所述多个手部移动和姿势的输入提取多个特征，利用处理器基于所述多个特征中的第一特征集合和存储在存储器中的第一隐马尔可夫模型（HMM）而标识输入中的符号序列的开始，利用处理器基于所述多个特征中的第二特征集合和存储在存储器中的第二HMM而标识输入中的第一符号，以及利用输出设备生成对应于来自输入的第一符号的输出。

在另一实施例中，已经开发了一种用于自动化手语识别的系统。该系统包括配置成从用户接收对应于符号序列的对应于多个手部移动和姿势的输入的输入设备、输出设备、存储器和操作连接到输入设备、输出设备和存储器的处理器。处理器配置成从输入设备接收基于对应于符号序列的用户的多个手部移动和姿势的输入，从对应于所述多个手部移动和姿势的输入提取多个特征，基于所述多个特征中的第一特征集合和存储在存储器中的第一隐马尔可夫模型（HMM）而标识输入中的符号序列的开始，基于所述多个特征中的第二特征集合和存储在存储器中的第二HMM而标识输入中的第一符号，并且利用输出设备生成对应于来自输入的第一符号的输出。

附图说明

图1是执行自动化手语识别的系统的示意图。

图2是使用在语音识别中的现有技术隐马尔可夫模型（HMM）解码网络的图。

图3是使用在手语识别中的HMM解码网络的图。

图4是描绘手语短语中的手部移动和姿势的图。

图5是包括具有检测向图1的系统提供手语输入的用户的手部的运动、位置、取向和形状的传感器的手套的输入设备的描绘。

图6是人手结构和针对检测手部中的各个手指的运动和形状以及整个手部的运动、位置和取向的传感器的手部中的不同位置的绘图。

图7是在针对对应于图1的系统中的用户手部的移动的输入数据的特征提取期间所使用的三维空间中的每一个传感器上的坐标图。

图8是用于训练图1的系统中的HMM的过程的框图。

图9是用于使用图1的系统执行手语识别的过程的框图。

具体实施方式

出于促进本文所公开的实施例的原理的理解的目的，现在参考附图和以下书面说明书中的描述。没有对主题范围的限制是该参考所意图的。本公开还包括对所说明的实施例的任何更改和修改，并且包括所公开的实施例的原理的另外的应用，如本公开所关于的领域中的技术人员正常将容易想到的。

如本文所使用的，术语“符号音素”或更简单地“音素”可互换地使用，并且是指对应于手语的最小单位的使用一只手或双手的手势、手部形状、位置、手掌取向或其它手部姿势。预定手语中的每一个符号包括至少一个符号音素，并且如本文所使用的，术语“符号”是指由一个或多个符号音素形成的词语或语言的其它单位。在一些实例中，单个符号音素对应于单个词语，而在其它实例中，取决于手语的惯例，多个音素形成单个词语。许多符号化词语可以在序列中不止一次地使用相同音素或不同音素以在更大句子或短语的上下文中形成单个词语或表述想法。如本文所使用的，术语“过渡”是指在个体符号之间做出的手部的移动，诸如在形成个体词语的符号音素序列之间或在单个符号内的音素之间。不同于符号音素，过渡移动不是具有独立含义的手语的典型单位，但是过渡移动仍旧提供重要的上下文信息以指示第一词语或音素的结束和第二词语或音素的开始。如本文所使用的，术语“st/结束”是指用于开始和结束符号序列的用户的手部移动和姿势，包括使用在用于手语识别和用于操作期间的自动化手语识别系统检测的非预定符号序列的训练过程中的预定符号序列。如本文所使用的，术语“短语”是指包括某种形式的开始和结束手部运动连同用于至少一个个体符号的运动的任何符号序列。在包括多个符号的短语中，过渡手部移动分离短语内的个体符号。短语可以对应于任何相关符号序列，诸如对应于完整句子或较短词语序列中的多个词语的符号。短语还可以包括例如预定手语中的个体文字或数字序列。

如本文所使用的，术语“优势手”是指当产生符号时执行较大数目的移动的用户的手部。术语“非优势手”是指执行较少移动的另一只手。许多手语惯例指定优势手执行大部分移动以形成符号，而非优势手执行较少的手势以形成符号。在许多实例中，优势手是用户的右手，而非优势手是左手，尽管对于一些手语示意者（诸如左手手语示意者）而言，或者对于不同的手语惯例（其中左手是用于形成符号的优势手）而言，手部的角色可以反转。

如以下所描述的，手语识别（SLR）系统基于以至少一种形式的被识别手语产生一个或多个符号的用户的手部手势而记录数据。系统在用户执行符号手势时使用例如包括运动和位置传感器的手套或从手部的所记录的视频数据接收输入。系统还包括一个或多个数字处理设备、持有用于识别手语手势的隐马尔可夫模型（HMM）的系统的数据存储设备和输出设备。数字处理设备分析来自手势的所记录的数据，并且从对应于不同符号音素的一个或多个手部手势并且在用户重定位他或她的手部以形成一个或多个词语中的不同符号音素时参考过渡移动来标识手语中的词语的含义。在一些实施例中，系统还区分左手和右手手势，并且分析两只手的移动，因为一些形式的手语将左手和右手用于不同的目的。输出设备生成所识别的符号的文本或音频翻译，并且可以向其他人提供输出以用于翻译，或者附加的计算系统接收输入以使得能够实现作为人机接口的自动化手语识别。

图1描绘了执行自动化手语识别的系统100的实施例。系统100包括处理器104、存储器108、一个或多个输入设备132和一个或多个输出设备136。处理器104是例如包括一个或多个中央处理单元（CPU）核和可选地一个或多个图形处理单元（GPU）单元的数字微处理器、数字信号处理器（DSP）、现场可编程门阵列（FPGA）和专用集成电路（ASIC），以用于处理来自输入设备132的数据并且使用输出设备136生成输出。在以下更加详细描述的系统100的一个实施例中，输入设备132包括用户102在产生手语输入时穿戴的两只手套。手套包括提供在用户102执行不同的符号序列时追踪用户102的优势手和非优势手二者的位置、移动、取向和手部形状的输入数据的加速度计和陀螺仪传感器。

存储器108包括一个或多个易失性存储器设备，诸如动态或静态随机存取存储器（RAM），以及一个或多个非易失性存储器设备，诸如磁盘或固态存储设备，其存储程序指令110、模型数据和用于系统100的操作的其它形式的数据。在图1的实施例中，存储器108包括由三类不同的隐马尔可夫模型（HMM）形成的手语短语模型112，所述三类不同的隐马尔可夫模型（HMM）包括短语st/结束（st/结束）模型116、个体符号模型120和符号过渡模型124。组合的HMM 116-124形成手语识别解码网络300。总体手语短语识别模型112使用解码网络300中的各个HMM 116-124以标识短语的开头和结尾、短语内的个体符号和从接收自输入设备132的输入提取的特征中的多符号短语中的符号之间的过渡。存储器108中的手语短语识别模型还包括将来自手语短语识别模型112的所标识的符号转换成用于一种或多种语言的短语/句子（诸如中国或美国手语短语/句子）的语言模型128。存储器108还存储处理器104用于生成手语短语识别模型112中的HMM的训练数据130。

在操作期间，用户102使用输入设备132向系统100提供手语输入。在训练模式中，用户102向输入设备132提供针对一个或多个预定符号序列的符号输入，处理器104将所述一个或多个预定符号序列与训练数据130一起存储在存储器108中。如以下更加详细描述的，处理器104使用预定符号序列结构和从训练输入数据提取的所观察的特征来训练用于短语st/结束模型116、个体符号模型120和符号过渡模型124的多个HMM。在识别模式中，用户102使用输入设备132向系统100提供符号输入，并且系统100使用经训练的HMM 116-124连同语言模型128以基于用户102的手部移动和姿势而标识符号序列。系统100使用输出设备136生成输出以例如基于每一个短语中的所标识的符号而生成以预定语言的音频输出。在其它实施例中，输出设备136是分别显示或传输所标识的符号的文本表示的显示屏或网络适配器。在再其它的实施例中，系统100接收作为命令输入的符号，并且处理器104基于所标识的命令输入而执行所存储的程序指令110以使用输入设备136中的一个或多个来产生输出。

手语识别（SLR）系统100以与常规的基于HMM的语音识别系统类似的方式训练HMM和构建解码网络。SLR系统将每一个唯一的基本符号视为符号音素，并且针对其训练HMM。每一个符号词语因而可以通过连接组成符号音素的HMM来建模，刚好如同通过连接话音音素HMM来对语音词语进行建模。解码网络通过使用语言模型连接符号词语模型来构造，所述语言模型可以是语法、n元语法或其它类型的语言模型。针对SLR所需要的特殊处置在于过渡的建模。系统训练HMM，称为过渡模型，以便对相邻符号之间的过渡信号进行建模。还训练开始（st）HMM和结束HMM以便分别对第一符号之前和最后的符号之后的短语中的过渡信号进行建模。系统然后通过在相邻的符号音素之间插入过渡模型、在短语开始节点之前插入开始模型和在短语结束节点之后插入结束模型来修改解码网络。图3更加详细地图示了解码网络连同系统100中的HMM结构。在图3中，基于HMM的SLR解码网络300合并所有HMM，包括符号HMM 120、过渡HMM 124和st/结束HMM 116。所有这些HMM采用从左到右HMM结构。HMM解码网络300使用符号HMM 120内的固定数目的状态以编码针对不同符号音素的潜在特征集合中的每一个。分别针对符号HMM 120、过渡HMM 124和st/结束HMM 116调谐状态的数目。

图8是用于训练标识对应于针对每一个符号、符号之间的过渡的手部移动和姿势以及针对对应于训练过程中的多个短语的预定符号序列的开始和结束手部移动和姿势的特征的HMM的训练过程800的框图。如以下所阐述的，执行动作或功能的过程800的描述是指处理器执行所存储的程序指令以与自动化手语识别系统中的其它组件相关联地执行功能或动作的操作。出于说明的目的而结合图1的系统100来描述过程800。

过程800在系统100从输入设备132接收到包括来自用户102或执行训练过程的其他用户的优势手和非优势手二者的所生成的传感器数据的手语中的预定符号序列时开始（块804）。在一些实施例中，每一个手语输入序列包括对应于预定手语中的单个词语的音素集合，但是输入还包括来自用户的开始和结束特征以及符号音素之间的过渡。图4描绘了具有在训练过程期间形成一个预定序列的个体符号序列的输入的示例。在过程800的一些实施例中，图4中的每一个符号形成对训练过程800的一个输入序列。由于符号由个体音素形成，因此训练过程800不要求针对该语言中的所有可能词语和短语的输入，而是系统100在过程800期间接收符号音素、st/结束符号和过渡的代表性样本以使得能够实现没有在训练数据输入中直接包括的手语词语的识别。在图4中，序列400包括由针对词语“在”（符号404）、“哪里”（符号408）和指定词语“寄存器”的两个符号（符号412和416）的四个个体符号形成的短语。除了形成符号的手部移动和/或姿势之外，系统100还接收针对用户在预定序列的开头和结尾处执行的手部移动和姿势连同在序列中的符号之间发生的针对手部的过渡移动的输入数据。如本文所使用的，术语“手部姿势”或更简单地“姿势”是指传达符号音素中的信息的手部的取向和形状，包括手掌和手指中的任一个或二者，连同手部和手部上的手指的运动。在过程800期间，系统100从一个或多个用户接收针对宽广范围的短语的多个输入以提供不仅提供用于个体符号的识别的训练信息而且还包括对应于针对短语和针对短语内的符号之间的过渡的st/结束手部运动的输入数据的训练数据集合。

在过程800期间，系统100收集包括针对词汇中的每一个符号词语所收集的某个数目的样本的训练输入，包括包含单个音素和多音素符号的两种符号。为了充分利用所捕获的数据，系统100将输入数据分类在若干段中，即组成符号，前面是开始部分（即从开头到第一符号的开始），后面是结束部分（即从最后符号的终止点到结尾）以及过渡部分。因而可以在训练数据中的所聚焦的符号的所有段上训练每一个符号音素模型，而同时可以在对应段上分别训练过渡、开始和结束模型。该数据收集方法的主要优点如下：（i）当词汇大小增加时，训练数据中的需要仅线性增加；（ii）可以鲁棒地训练词汇中的每一个词语，包括不常用的词语；以及（iii）标记词语样本以提供用于训练的可靠分段信息是可行的，所述分段信息对于有噪声的真实世界数据而言尤其多变。

如以上所描述的，在一个实施例中，系统100使用具有传感器的手套，所述传感器记录针对用户的优势手和非优势手的加速度和手部角度位置信息。图5描绘了在过程800期间和在随后的手语识别处理期间穿戴的手套500的示例。手套500包括多个传感器，诸如微机电系统（MEMS）传感器，其在用户执行手部移动/姿势以形成预定序列中的符号时记录用户的优势手和非优势手的不同部分的高度、取向和加速度。图6描绘了用于右手的手套中的传感器600的一个实施例的更加详细的视图。传感器600包括多个传感器604A和604B，其生成针对指骨（手指）的位置和移动的数据，其中传感器604A在手指上并且604B在拇指上。传感器600还包括生成针对手部的掌骨区（手掌）的位置和移动的数据的传感器608和测量手部的腕骨区（腕部）的位置和移动的传感器612。虽然图6描绘了针对右手的传感器布置，但是系统100也包括具有针对左手的类似传感器布置的手套。

再次参考图8，过程800在系统100执行特征提取以标识对应于与预定符号音素序列对应的输入中的个体符号、符号过渡以及st/结束移动的特征时继续（块808）。特征提取过程使得系统100能够以均一的方式标识针对手部移动/姿势输入的传感器数据的特性以针对随后的手语识别操作而训练HMM 116-124。在一些实施例中，系统100接收手动输入的时间戳，所述时间戳分类针对对应于输入的st/结束、对应于每一个输入序列中的不同预定符号音素和对应于符号音素之间的过渡的手部移动和姿势的不同特征集合。此外，系统100可选地记录针对预定序列的时间信息，以区分用于特征提取过程的不同手部移动和姿势集合，所述预定序列包括针对以预定次序发生的手部移动/姿势所记录的数据。如以下更加详细地描述的，所提取的特征包括对应于各个手指的移动和形状的手指相关（FR）特征和对应于手部的总体角度和移动的全局角度（GA）特征二者。在一些实施例中，系统100从优势手和非优势手提取针对输入数据的不同特征集合。针对双手提取的特征形成训练系统100中的HMM 116-124的训练数据的基础。

对于优势手和非优势手，可以将特征集合分组到两个类别中：手指相关和全局角度相关，其在本文中分别被称为FR特征和GA特征。FR特征包括每一个手指的紧密度、拇指的打开度和这些特征的差量（即当前与之前帧之间的不同）。GA特征是指手部的姿势，并且从针对手部的全局极角x、y和z导出。特征包括当手部移动到不同的位置和取向以产生符号、音素间过渡和短语开始/结束手势和姿势时针对手部的角度和角度差量的三角函数。

将由传感器在时间

处给出的一系列所采样的角速度值给定为

，并且可以通过

来估计每一个样本周期中旋转的角度。如果旋转四元数是

，并且给定某个初始姿态四元数

，则在M次累积旋转之后的当前取向为

，其中

，并且

。处理器104基于当系统100从用户102接收输入时在不同时间处生成的不同传感器输入和特征而使用四元数的哈密顿积来标识优势手和非优势手二者的旋转和角度位置。在过程800中，系统100使用由角速度和加速度标识的四元数来在三维空间（诸如其中手部移动以产生训练序列的三维空间）中以避免万向节锁的简单方式表示针对双手角度的累积的旋转和位置，并且由于四元数运算在数学上是非交换的，因此这精确地表示用户手部的旋转移动的物理特性。

图7描绘了过程800用于提取特征的四元数的分量。图7描绘了在形成符号音素或过渡的同时针对用户102的手部的三个空间移动轴

、

和

。轴

、

和

指示预定绝对坐标系和绝对坐标系内的手部改变的取向。用户102穿戴以向系统100提供输入的是输入设备手套132中的传感器。在图7中，重力的向下方向充当初始姿态单位四元数

。用户102垂下他或她的手臂，其中手部和手指在每一个训练符号输入序列的开头处在四元数

的方向上平行于重力方向（在图7中示出为

）向下延伸，以使得输入数据中的每一个初始四元数

能够与针对重力的单个参考四元数对准而不要求针对手指和用户的手部的其它部分中的各个骨头的复杂校准。

给定经采样的加速度

，系统100使用前k个样本的均值来估计重力

，并且

是

的单位四元数。系统100将指向全局坐标空间的手指骨头的方向估计为

，其中

是根据传感器坐标而从初始传感器坐标到全局坐标的旋转。

如以上所提到的，系统100从输入数据提取两种类型的特征。第一类型的特征对应于手部形状的特征（手指相关，或FR），并且第二类型的特征对应于手部方向（手部的全局角度或GA）。在一个实施例中，针对手部形状的FR特征是相邻手指骨头的方向之间的余弦距离

。例如，如果s=“2c”并且r=“2b”，如在图6的手部配置中所描绘的，则

描述关于近端指间关节（食指的第二远端关节）的旋转。系统100提取针对每一个手指的FR特征。在一些实施例中，系统100仅提取针对仅在优势手中的各个手指的FR特征，而同时提取针对优势手和非优势手二者的GA特征，如以下更加详细描述的。在其它实施例中，系统100提取针对优势手和非优势手二者的FR和GA特征二者。

为了提取针对手部方向的GA特征，更具体地，手掌的方向，系统100标识与手部的手掌相关联的传感器（诸如图6中的传感器“2a”、“3a”、“4a”和“5a”）的方向的均值。系统100提取基于两个垂直方向（第一方向沿手掌平面并且第二方向沿手掌平面的法向）来完全描述手部在空间中的方向的特征。此外，系统100可选地通过随时间而标识多个旋转位置来标识手部的手掌或手指骨头的速度和加速度特征。系统100使用

的四元数表示，包括在一系列预定采样时间处生成的来自传感器的多个测量结果，而不是单个测量结果

，以估计优势手和非优势手中的任一个或二者的累积旋转。

过程800在系统100使用从多个预定符号输入序列提取的特征数据来训练HMM116-124时继续（块812）。处理器104生成针对从对应于开始结束手部移动和姿势的输入数据提取的特征的HMM 116，针对从对应于符号手部移动和姿势的输入数据提取的特征的HMM120，以及针对从对应于过渡手部移动和姿势的输入数据提取的特征的HMM 124。为了生成每一个HMM，系统100执行训练过程以基于来自用户102的训练输入和训练数据130中的预定符号输入序列而生成HMM和系统100。

对于手语而言，词语可以包含一个或多个符号音素。系统100生成针对符号音素的HMM 120以基于三个要求而对词语进行精确建模。第一，词语必须被建模以便评估特征概率

。第二，语言模型必须用于计算在先句子概率

。第三，词语模型和语言模型必须组合以形成HMM状态的网络，其中可以执行针对搜索空间

中的最可能的词语串

的解码。在过程800期间，处理器104执行训练过程以在符号在预定符号训练序列中的条件下基于针对所述符号所观察到的特征而生成针对符号音素的HMM 120。处理器104类似地在符号之间的过渡在预定符号训练序列中的条件下基于针对所述过渡所观察到的特征而执行针对过渡124的训练过程，并且在st/结束手部移动在预定训练数据130中的条件下基于针对st/结束手部移动所观察到的特征而执行针对短语st/结束手部移动116的训练过程。

系统100使用从特征数据所提取的特征作为形成用于分离的HMM中的每一个（包括st/结束HMM 116、符号HMM 120和过渡HMM 124）的训练过程的输入的多个不同特征向量。特征向量包括从优势手和非优势手二者选择的特征。特征向量包括来自双手的同时被记录以映射在用户102的手部移动以形成符号和st/结束或过渡移动时同时发生的双手的移动的特征。

在一个实施例中，系统100基于对应符号的段而训练符号音素模型120。可替换的训练方法是基于开始和结束段的详细性质，所述性质可能基于用于接收训练短语的不同上下文而变化。为了在训练过程期间归一化每一个短语的开始和结束，一个训练过程实施例要求手语示意者在符号化每一个短语之前和之后将双手放下。针对每一个短语的开始段包含静态手部位置和姿势信号，跟随在后的是移动信号，而每一个结束段包含可以跟随或可以不跟随有静态信号的移动信号。移动信号可以被视为一种类型的过渡。在过程800期间，系统100将每一个开始段标记成静态段和过渡段，并且将每一个结束段标记成过渡段和静态段，如果其存在的话。针对解码网络300中的所有HMM的训练过程包括具有针对手部姿势的静态段和针对手部移动的动态段二者的开始和结束段。系统100通过连接静态模型与过渡模型来生成开始模型HMM 116。结束模型HMM包括两个可替换方案，一个连接过渡模型与静态模型，并且另一个仅包括过渡模型。在系统100中，模型HMM 116-124是对角协方差高斯混合，并且系统100在初始化之后以及在拆分高斯混合之后迭代地重估计HMM。

训练过程隐式地包括在以上所描述的迭代过程期间在分离的HMM中的不同手部运动集合内发生的高斯拆分。例如，通过迭代重估计的标准HMM训练过程和高斯拆分，过渡模型可以包含每一个状态中的多个高速混合分量，并且因而使用过渡HMM 124隐式地执行关于过渡手部移动和姿势（其发生在分离的HMM 120中所编码的不同符号之间）的分类。在过程800期间，系统100训练“通用”过渡HMM 124，其可以标识多个符号之间所发生的过渡并且不要求系统100被训练以识别紧密连接的双符号和三符号序列以精确地识别手语输入。st/结束HMM 120还服务类似的角色以使得系统100能够标识对应于每一个短语的开始和结束的特征。

过程800在处理器104在存储器108中存储分离的HMM 116-124时继续（块816）。如以下更加详细描述的，在手语识别过程期间，系统100使用经训练的HMM来识别用户使用输入设备132向系统100输入的符号序列。经训练的HMM当然可以识别对应于训练数据的符号序列，但是系统100还配置成识别不精确地匹配训练符号序列的宽广范围的手语序列，因为处理器104使用语言模型128来构建解码网络300，所述解码网络300包括分离的HMM以识别具有未必直接包括在训练数据中的许多不同组合的个体符号和符号之间的过渡。

在过程800的另一实施例中，系统100执行不同的特征提取过程和HMM生成过程以用于过程800中的块812和816的处理。在另一实施例中，系统100采用连结与过渡（TWT）解决方案以增强手语识别系统朝向紧跟随给定符号序列短语中的双手符号的仅优势手符号音素的鲁棒性。对于仅优势手符号，非优势手按照定义应当不牵涉移动，但是实际上，可能由于相邻符号或附加动作而移动。

在TWT实施例中，系统100在用于HMM建模的两个数据流中分离优势手和非优势手特征以用于块808的处理期间的提取。然后使用以上描述的相同训练过程基于这两个数据流而训练所有的HMM 116-124，这导致分别针对优势手和非优势手相关数据流的每一个HMM状态中的两个高斯混合集合。因此，在TWT实施例中，处理器104基于来自对应于在训练过程期间形成符号音素的针对用户的优势手的手部移动和姿势的训练输入的第一特征集合的第一部分和基于来自对应于在训练过程期间执行过渡的用户的非优势手的手部移动和姿势的训练数据的第二特征集合的部分，而生成针对符号的HMM模型120。

系统100通过利用过渡模型124中的那些非优势手相关高斯混合取代所聚焦的符号模型中的非优势手相关高斯混合来基于针对两只手训练的HMM模型而生成针对每一个仅优势手符号模型的附加增强的HMM模型。要指出的是，以此方式，因而通过增强的符号模型而针对仅优势手符号覆盖非优势手差异。在块816中利用增强的仅优势手符号模型和原始训练的模型（即st/结束模型116、符号模型120和过渡模型124）二者以用于TWT解决方案。修改解码网络300以基于相邻符号而合并增强的仅优势手符号模型。如果解码网络300中的符号是仅优势手符号，并且相同路径中的在前符号牵涉非优势手，利用两个并行模型的混淆集合来取代解码网络300中的该符号模型，所述两个并行模型包括对应的增强模型和针对该仅优势手符号的原始模型。基于该经修改的解码网络的识别过程保持相同。

图9描绘了用于自动化手语识别的过程900。如以下所阐述的，执行动作或功能的过程900的描述是指执行所存储的程序指令以与自动化手语识别系统中的其它组件相关联地执行该功能或动作的处理器的操作。出于说明的目的，结合图1的系统100来描述过程900。

过程900在系统100经由输入设备132从用户102接收优势手和非优势手输入时开始（块904）。如以上所描述的，在一个实施例中，输入设备是包括在用户102执行对应于符号序列的手部移动和姿势时记录针对用户102的手部移动和姿势的传感器的手套500。

过程900在系统100从输入数据提取特征时继续（块908）。系统100以与以上结合过程800中的块808的处理所描述的特征提取大体相同的方式执行块908的特征提取处理。例如，处理器104以与在过程800中相同的方式提取针对来自优势手的输入数据的相同FR和GA特征，并且提取针对来自非优势手的输入数据的GA特征和可选地FR特征，以与在较早的训练过程期间相同的方式产生识别过程中的特征向量。

过程900在系统100分析从输入提取的特征以标识形成短语的至少一个符号的序列的开始时继续（块912）。在系统100中，处理器104使用手语识别模型112中的st/结束HMM116以标识对应于与新的符号序列的开头相关联的手部移动和姿势的特征。处理器104使用与在图8的训练过程期间使用的相同的所提取特征集合以用于使用解码网络300中的HMM模型的识别，诸如针对优势手的FR和GA特征的集合和针对非优势手的GA特征，或在TWT实施例中与非优势手的过渡特征组合的优势手的FR和GA特征。如图1中所指示的，将HMM 116-124链接到彼此，因此在检测到序列的开始之后，处理器104分析在跟随检测到初始开始特征之后的时间间隔中发生的下一特征集合，所述下一特征集合具有朝向对应于给定符号中的音素的特征的高概率加权（块916）。处理器104使用HMM 120以基于从输入序列提取的下一特征集合而标识序列中的下一符号。

在过程900期间，来自用户102的符号输入数据包括向新符号的过渡或符号化短语的结束的输入。例如，在多符号短语中，用户执行具有符号之间的过渡的一系列符号，直到短语完成，而在单符号短语中，用户在符号之后产生短语运动的结束。在过程900期间，处理器104使用过渡HMM 124和st/结束HMM 116二者来标识在输入数据中的符号之前和之后的特征集合（块920）。在一些实施例中，系统100将符号输入的整个短语解释为整体，并且处理器104使用手语识别模型112中的HMM网络300来基于词语序列的最大似然性而标识输入，这不仅基于在时间上向前延伸的词语序列，而且基于一旦系统100已经接收到整个短语则在时间上向后延伸的词语序列。处理器104使用HMM网络300和具有贝叶斯决策公式的最大后验概率（MAP）估计过程来标识路径以标识具有匹配从输入数据提取的特征的最大似然性的经训练的HMM中的符号音素和符号序列，以确定特征集合是否对应于符号之间的过渡或短语的结束，并且确定过渡或短语的结束。此外，在一些配置中，处理器104还标识特征检测之间的时间上的分离，这可以指示对应于具有符号之间的短暂时间间隔的简短过渡或具有符号之间的略微更长的时间间隔的短语结束的特征的似然性。如果系统100检测到过渡而不是短语中的序列的结束（块924），则过程900在系统100标识序列中的下一符号时继续（块916）。

块916-924的处理继续，直到处理器104标识对应于短语中的符号序列的结束的特征（块924）。所检测的短语的识别过程（块928）使用标准HMM解码技术来同时生成多个假定符号序列，其为在给定涉及短语的输入的情况下在解码网络300中具有最高

值（如在以上的公式中）的顶部排序路径。在过程900期间，系统100执行具有贝叶斯决策公式的最大后验概率（MAP）过程以标识用于来自用户102的符号输入的识别的HMM解码网络300中的路径。系统100基于以下公式而进行手语识别：

其中

是对应于未知输入句子的T个所观察的特征向量的序列，

是可以将输入转录成的M个符号的任何序列，并且

是表示语言模型（例如语法）的搜索空间的所有可允许的短语的集合。如以上所描述的，符号音素在此是指承载预定手语中的语言学含义的最小单位。

在系统100中，存储器108存储解码网络300中的HMM并且包括所有所识别的手语音素连同st/结束和过渡手势，以用于由用于来自用户102的输入的语言模型所支持的短语的识别，所述语言模型可以是语法、n元语法模型或其它类型的语言模型。具有所生成的多个假定之中的最高

值的假定符号序列被用作针对所检测的短语的手语识别过程的结果。块928还将符号序列从预定手语翻译成一种或多种不同的口头或书面语言，诸如中文或英语。为了确保正确的语法输出，翻译过程可以包括从如由用户102录入的实际符号次序对输出中的词语进行重排序或者向最终输出添加附加的冠词、连词、介词和没有直接包括在手语中的其它词语。

在接收到一个或多个短语之后，系统100生成对应于来自手语输入的所标识的词语的输出（块932）。如以上所描述的，在一些实施例中，处理器104使用扬声器或其它音频输出设备136生成针对输出中的词语的合成语音。在该模式中，系统100可以产生针对可以听到但是不能够理解来自用户102的符号的接收者的音频输出。在另一配置中，输出设备136包括生成对应于来自用户102的符号的文本输出的显示设备。在再一配置中，系统100基于来自用户102的符号输入而执行命令。例如，在一些实施例中，系统100还连接到家庭自动化系统或正常接收语音输入的其它系统，但是在图1的配置中，系统可以接受手语输入以向经由手语而不是口头词语进行交流的用户提供类似的功能。

将领会到，以上公开的和其它特征和功能或其可替换方案的变型可以合期望地组合成许多其它不同的系统、应用或方法。同样意图由随附权利要求涵盖的各种目前未预见到的或未设想到的可替换方案、修改、变型或改进可以随后由本领域技术人员做出。

Claims

1.一种用于自动化手语识别的训练方法，包括：

利用输入设备接收对应于来自用户的手部移动和姿势的多个预定符号序列的多个训练输入；

利用处理器从对应于用户的手部移动和姿势的训练输入提取针对所述多个预定符号序列中的每一个符号的第一特征集合；

利用处理器基于针对预定符号序列中的每一个符号的来自对应于手部移动和姿势的训练输入的第一特征集合而生成第一隐马尔可夫模型HMM；

利用处理器从对应于用户的手部移动和姿势的训练输入提取针对所述多个预定符号序列中的符号之间的过渡的第二特征集合；

利用处理器基于来自训练输入和预定符号序列的第二特征集合而生成第二HMM；

利用处理器从对应于用户的手部移动和姿势的训练输入提取针对开始和结束所述多个预定符号序列中的每一个预定符号序列的第三特征集合；

利用处理器基于来自训练输入和预定符号序列的第三特征集合而生成第三HMM；以及

利用处理器在存储器中存储第一HMM、第二HMM和第三HMM以用于从输入设备接收的附加符号的识别，

其中所述提取包括仅提取针对仅在优势手中的各个手指的手指相关特征，而同时提取针对优势手和非优势手二者的手部的全局角度特征。

2.权利要求1所述的方法，所述多个训练输入的接收还包括：

利用输入设备从用户的优势手接收对应于预定符号序列的第一多个输入；

利用输入设备从用户的非优势手接收对应于预定符号序列的第二多个输入。

3.权利要求2所述的方法，训练输入的接收还包括

从用户的优势手上所穿戴的手套中的第一多个传感器接收对应于用户的优势手中的至少两个手指的第一手指位置数据集合；

从用户的优势手上所穿戴的手套中的第一多个传感器接收对应于用户的优势手的角度的第一手部角度数据集合；以及

从用户的非优势手上所穿戴的手套中的第二多个传感器接收对应于用户的非优势手的角度的第二手部角度数据集合。

4.权利要求3所述的方法，第一特征集合的提取还包括：

利用处理器基于第一手指位置数据集合而标识作为优势手的所述至少两个手指中的第一手指和第二手指之间的余弦距离的第一特征集合中的至少一个特征。

5.权利要求3所述的方法，第二特征集合的提取还包括：

利用处理器标识在第一时间处生成的第一手部角度数据集合中的第一手部角度，第一手部角度平行于预定重力方向；

利用处理器标识在第二时间处生成的第一手部角度数据集合中的第二手部角度；以及

利用处理器基于第一手部角度、第二手部角度和四元数而提取作为第二特征集合中的特征的优势手的角度位置。

6.权利要求3所述的方法，第三特征集合的提取还包括：

利用处理器标识在第一时间处生成的第二手部角度数据集合中的第一手部角度，第一手部角度平行于预定重力方向；

利用处理器标识在第二时间处生成的第二手部角度数据集合中的第二手部角度；以及

利用处理器基于第一手部角度、第二手部角度和四元数而提取作为第二特征集合中的特征的非优势手的角度位置。

7.权利要求1所述的方法，第一HMM的生成还包括：

利用处理器基于针对所述多个预定符号序列中的每一个符号的来自对应于针对用户的优势手的手部移动和姿势的训练输入的第一特征集合的第一部分和基于针对所述多个预定符号序列中的符号之间的过渡的来自对应于用户的非优势手的手部移动和姿势的训练数据的第二特征集合的第二部分，生成第一HMM。

8.一种用于自动化手语识别的方法，包括：

利用输入设备接收基于对应于符号序列的用户的多个手部移动和姿势的输入；

利用处理器从对应于所述多个手部移动和姿势的输入提取多个特征；

利用处理器基于所述多个特征中的第一特征集合和存储在存储器中的第一隐马尔可夫模型HMM而标识输入中的符号序列的开始；

利用处理器基于所述多个特征中的第二特征集合和存储在存储器中的第二HMM而标识输入中的第一符号；以及

利用输入设备生成对应于来自输入的第一符号的输出，

9.权利要求8所述的方法，还包括：

利用处理器基于所述多个特征中的第三特征集合和存储在存储器中的第三HMM而标识对应于发生在输入中的符号之间的手部移动和姿势的第一过渡；

利用处理器基于所述多个特征中的第四特征集合和存储在存储器中的第二HMM而标识输入中的第二符号。

10.权利要求9所述的方法，还包括：

利用处理器基于所述多个特征中的第五特征集合和存储在存储器中的第一HMM而标识输入中的符号序列的结束；以及

利用输出设备在标识到符号序列的结束之后生成对应于来自输入的第一符号和第二符号的输出。

11.权利要求8所述的方法，输入的接收还包括：

利用输入设备接收对应于用户的优势手的多个移动的第一多个输入；以及

利用输入设备接收对应于用户的非优势手的多个移动的第二多个输入。

12.权利要求11所述的方法，输入的接收还包括：

13.权利要求12所述的方法，特征的提取还包括：

利用处理器基于第一手指位置数据集合而标识作为优势手的所述至少两个手指中的第一手指和第二手指之间的余弦距离的至少一个特征。

14.权利要求12所述的方法，特征的提取还包括：

利用处理器基于第一手部角度、第二手部角度和四元数而提取作为特征的优势手的位置。

15.权利要求12所述的方法，特征的提取还包括：

利用处理器基于第一手部角度、第二手部角度和四元数而提取作为第二特征集合中的特征的非优势手的位置。

16.一种用于自动化手语识别的系统，包括：

配置成从用户接收对应于符号序列的对应于多个手部移动和姿势的输入的输入设备；

输出设备；

存储器；以及

操作连接到输入设备、输出设备和存储器的处理器，处理器配置成：

从输入设备接收基于对应于符号序列的用户的多个手部移动和姿势的输入；

从对应于所述多个手部移动和姿势的输入提取多个特征；

基于所述多个特征中的第一特征集合和存储在存储器中的第一隐马尔可夫模型HMM而标识输入中的符号序列的开始；

基于所述多个特征中的第二特征集合和存储在存储器中的第二HMM而标识输入中的第一符号；以及

利用输出设备生成对应于来自输入的第一符号的输出，

17.权利要求16所述的系统，处理器还配置成：

基于所述多个特征中的第三特征集合和存储在存储器中的第三HMM而标识对应于发生在输入中的符号之间的手部移动和姿势的第一过渡；

基于所述多个特征中的第四特征集合和存储在存储器中的第二HMM而标识输入中的第二符号；以及

生成对应于来自输入的第一符号和第二符号的输出。

18.权利要求17所述的系统，处理器还配置成：

基于所述多个特征中的第五特征集合和存储在存储器中的第一HMM而标识输入中的符号序列的结束；以及

在标识到符号序列的结束之后生成对应于来自输入的第一符号和第二符号的输出。

19.权利要求16所述的系统，处理器还配置成：

从输入设备接收对应于用户的优势手的多个移动的第一多个输入；以及

从输入设备接收对应于用户的非优势手的多个移动的第二多个输入。

20.权利要求19所述的系统，输入设备还包括：

包括第一多个传感器的第一手套；

包括第二多个传感器的第二手套；并且

处理器还配置成：

从用户的优势手上所穿戴的第一手套中的第一多个传感器接收对应于用户的优势手中的至少两个手指的第一手指位置数据集合；

从用户的优势手上所穿戴的第一手套中的第一多个传感器接收对应于用户的优势手的角度的第一手部角度数据集合；以及