CN109032356B

CN109032356B - 手语控制方法、装置及系统

Info

Publication number: CN109032356B
Application number: CN201810846966.5A
Authority: CN
Inventors: 曲晓峰
Original assignee: Lumi United Technology Co Ltd
Current assignee: Lumi United Technology Co Ltd
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2022-05-31
Anticipated expiration: 2038-07-27
Also published as: CN109032356A

Abstract

本发明涉及了一种手语控制方法、装置及系统，所述手语控制方法应用于用户设备，包括：获取图像数据，所述图像数据是对用户执行的手语动作进行拍摄生成的；对所述图像数据中的手语动作进行动作识别，得到所述手语动作对应的文本信息；对所述手语动作对应的文本信息进行交互意图解析，生成用于指示用户交互意图的交互指令；通过所述交互指令控制目标设备执行相应动作。采用本发明所提供的手语控制方法、装置及系统解决了现有技术中手势控制的交互能力有限的问题。

Description

手语控制方法、装置及系统

技术领域

本发明涉及设备控制技术领域，尤其涉及一种手语控制方法、装置及系统。

背景技术

随着物联网技术的发展，越来越多的智能设备进入人们的视野，例如，智能空调、智能门锁、窗帘电机等等。

智能设备预先部署在网关中，并通过与网关之间的交互，使得用户可以借助用户设备(例如智能手机)，来远程监控并控制家中智能设备的工作状况。对于智能设备的控制，往往需要在用户设备中启动相应的客户端，并通过用户在客户端输入一系列操作，方可实现，然而，过于繁琐的操作并不利于提高智能设备控制的实用性。

为此，手势控制智能设备的方案应运而生，此方案中，仅需要对用户的手势加以识别，即可实现对智能设备的控制，例如，简单的手势可控制智能设备执行开、关、升、降等动作，避免用户基于客户端所输入的一系列操作，有效地提高了智能设备控制的实用性。

随着智能设备广泛且大规模的应用，受限于手势控制有限的交互能力，如何实现更为复杂的交互和精细的控制仍亟待解决。

发明内容

为了解决上述技术问题，本发明的一个目的在于提供一种手语控制方法、装置及系统。

其中，本发明所采用的技术方案为：

第一方面，一种手语控制方法，应用于用户设备，包括：获取图像数据，所述图像数据是对用户执行的手语动作进行拍摄生成的；对所述图像数据中的手语动作进行动作识别，得到所述手语动作对应的文本信息；对所述手语动作对应的文本信息进行交互意图解析，生成用于指示用户交互意图的交互指令；通过所述交互指令控制目标设备执行相应动作。

第二方面，一种手语控制方法，应用于手语控制系统，所述手语控制系统包括用户设备和服务端，包括：所述用户设备获取图像数据，并根据所述图像数据向所述服务端发起动作识别请求；所述服务端响应所述动作识别请求对所述图像数据中的手语动作进行动作识别，得到所述手语动作对应的文本信息；对所述手语动作对应的文本信息进行交互意图解析，生成用于指示用户交互意图的交互指令；通过所述交互指令控制目标设备执行相应动作。

第三方面，一种手语控制装置，应用于用户设备，包括：数据获取模块，用于获取图像数据，所述图像数据是对用户执行的手语动作进行拍摄生成的；动作识别模块，用于对所述图像数据中的手语动作进行动作识别，得到所述手语动作对应的文本信息；交互解析模块，用于对所述手语动作对应的文本信息进行交互意图解析，生成用于指示用户交互意图的交互指令；设备控制模块，用于通过所述交互指令控制智能设备执行相应动作。

在一示例性实施例中，所述数据获取模块包括：拍摄单元，用于从至少一个拍摄角度对所述用户所在环境进行连续性拍摄，得到原始图像数据；对所述原始图像数据进行人体特征检测；如果所述原始图像数据中检测到人体特征，则对所述原始图像数据进行分帧处理，生成包含若干图像帧的所述图像数据，所述图像帧包含所述用户执行的手语动作。

在一示例性实施例中，所述动作识别模块包括：局部特征提取单元，用于采用卷积神经网络对所述图像数据中的若干图像帧进行局部特征提取，得到所述图像数据的若干局部特征，每一个局部特征对应一个图像帧；全局特征提取单元，用于将所述图像数据的若干局部特征输入长短期记忆循环神经网络，得到所述图像数据的全局特征；文本预测单元，用于根据所述图像数据的全局特征对所述图像数据中的手语动作进行文本预测，得到所述手语动作对应的文本信息。

在一示例性实施例中，所述装置还包括：样本获取模块，用于获取样本图像数据，所述样本图像数据对用户执行的手语动作进行了标注；特征提取模块，用于调用神经网络模型从所述样本图像数据提取得到相应的全局特征；模型训练模块，用于根据所述样本图像数据的全局特征对所述神经网络模型进行模型训练；模型收敛模块，用于当所述神经网络模型收敛时，将收敛的神经网络模型作为手语动作识别模型，以通过所述手语动作识别模型进行所述图像数据中的手语动作识别。

在一示例性实施例中，所述交互解析模块包括：信息分类单元，用于对所述手语动作对应的文本信息进行分类，得到所述文本信息所属类别；关键词查找单元，用于按照所述类别对所述文本信息进行关键词查找；确定单元，用于根据查找到的关键词确定所述用户交互意图的交互对象及其属性；封装单元，用于将所述用户交互意图的交互对象及其属性封装为所述类别对应的所述交互指令。

在一示例性实施例中，所述设备控制模块包括：目标确定单元，用于根据所述交互指令对应的类别确定所述目标设备；请求转发单元，用于请求所述交互指令的接收方向所述目标设备转发所述交互指令；消息接收单元，用于接收所述目标设备按照所述交互指令执行相应动作而返回的应答消息；交互回应单元，用于根据所述应答消息在所述用户设备中输出交互回应结果，所述交互回应结果用于指示所述目标设备的执行结果。

在一示例性实施例中，所述目标确定单元包括：第一确定子单元，用于如果所述交互指令对应的类别为控制类别，则确定所述目标设备为可受控执行相应动作的智能设备；第二确定子单元，用于如果所述交互指令对应的类别为查询类别，则确定所述目标设备为提供智能设备监控服务的服务端。

第四方面，一种手语控制系统，所述系统包括用户设备和服务端，包括：所述用户设备，用于获取图像数据，并根据所述图像数据向所述服务端发起动作识别请求；所述服务端，用于响应所述动作识别请求对所述图像数据中的手语动作进行动作识别，得到所述手语动作对应的文本信息；对所述手语动作对应的文本信息进行交互意图解析，生成用于指示用户交互意图的交互指令；通过所述交互指令控制智能设备执行相应动作。

第五方面，一种手语控制装置，包括处理器及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上所述的手语控制方法。

第六方面，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的手语控制方法。

在上述技术方案中，通过对获取到图像数据中的手语动作进行动作识别，得到手语动作对应的文本信息，以对此手语动作对应的文本信息进行交互意图解析，生成用于指示用户交互意图的交互指令，进而通过交互指令控制目标设备执行相应动作，由此，以表达能力更丰富的手语来替代简单的手势，对于智能设备而言，可实现更为复杂的交互和精细的控制，解决了现有技术中存在的手势控制的交互能力有限的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据本发明所涉及的实施环境的示意图一。

图2是根据本发明所涉及的实施环境的示意图二。

图3是根据一示例性实施例示出的一种手语控制装置的硬件结构框图。

图4是根据一示例性实施例示出的一种手语控制方法的流程图。

图5是图4对应实施例中步骤310在一个实施例的流程图。

图6是图4对应实施例中步骤330在一个实施例的流程图。

图7是根据一示例性实施例示出的另一种手语控制方法的流程图。

图8是图4对应实施例中步骤350在一个实施例的流程图。

图9是图4对应实施例中步骤370在一个实施例的流程图。

图10是根据一示例性实施例示出的另一种手语控制方法的流程图。

图11是一应用场景中一种手语控制方法的具体实现示意图。

图12是根据一示例性实施例示出的一种手语控制装置的框图。

图13是根据一示例性实施例示出的一种手语控制系统的框图。

图14是根据一示例性实施例示出的另一种手语控制装置的硬件结构框图。

通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述，这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1为一种手语控制方法所涉及的实施环境的示意图一。该实施环境包括用户设备110、网关150以及部署在网关150中的智能设备130。

其中，用户设备110可以是台式电脑、笔记本电脑、平板电脑、智能手机或者其他可实施网络连接的电子设备，在此不进行限定。

用户设备110与网关150之间建立网络连接，在一种实施方式中，用户设备110与网关150之间通过2G/3G/4G/5G、Wi-Fi等建立网络连接。通过该网络连接与网关150交互，进而使得用户借助此用户设备110控制部署在网关150中的智能设备130执行相应动作。

智能设备130部署于网关150，并通过其自身所配置的通信模块与网关150通信，进而实现与网关150之间的交互。在一种实施方式中，智能设备130通过局域网络接入网关150，从而部署于网关150中。智能设备130通过局域网络接入网关150的过程包括，由网关150首先建立一个局域网络，智能设备130通过连接该网关150，从而接入该网关150建立的局域网络中。所述局域网络包括：ZIGBEE或者蓝牙。

智能设备130可以是智能打印机、智能传真机、智能摄像机、智能空调、智能门锁或者配置了通信模块(例如ZIGBEE模块、Wi-Fi模块、蓝牙模块等)的人体传感器、门窗传感器、温湿度传感器、水浸传感器、天然气报警器、烟雾报警器、墙壁开关、墙壁插座、无线开关无线墙贴开关、魔方控制器、窗帘电机等设备，在此不进行限定。

随着用户设备110、智能设备130与网关150之间的交互，用户即可执行手语动作，并以此借助用户设备110向网关150请求对智能设备130进行控制，使得智能设备130按照用户所执行的手语动作完成相应动作，由此实现用户借助手语对智能设备130的远程控制。

图2为一种手语控制方法所涉及的实施环境的示意图二。该实施环境包括用户设备110、服务端140、网关150以及部署在网关150中的智能设备130。

在用户设备110、服务端140与网关之间建立了网络连接，且智能设备130部署于网关150之后，即可实现上述两两之间的数据传输。

此处，服务端140可以是一台服务器，也可以是由多台服务器构成的服务器集群，甚至是由多台服务器构成的云计算中心，在此并未对此加以限定。其中，服务器是指为用户提供后台服务的电子设备，例如，后台服务包括智能设备监控服务。

随着用户设备110、智能设备130与网关150之间的交互，智能设备130将按照用户执行的手语动作完成相应动作，此时，智能设备130的运行状态数据，例如，运行状态数据包括智能设备130是否离线等等，将上报至服务端140进行存储，以便于服务端140为用户提供智能设备监控服务。

随着用户设备110、服务端140与网关150之间的交互，用户即可借助手语动作由服务端140中查询得到智能设备130的运行状态数据，以此实现用户借助手语对智能设备130的远程监控或者远程控制，例如，当智能设备130的运行状态数据满足动作执行条件时，远程控制智能设备130执行相应动作。

图3是根据一示例性实施例示出的一种手语控制装置的硬件结构框图。该装置适用于图1或者图2所示实施环境中的用户设备、网关。

需要说明的是，该装置只是一个适配于本发明的示例，不能认为是提供了对本发明的使用范围的任何限制。该装置也不能解释为需要依赖于或者必须具有图3中示出的示例性的装置200中的一个或者多个组件。

该装置200的硬件结构可因配置或者性能的不同而产生较大的差异，如图3所示，装置200包括：电源210、接口230、至少一存储器250、以及至少一中央处理器(CPU,CentralProcessing Units)270。

其中，电源210用于为装置200上的各硬件设备提供工作电压。

接口230包括至少一有线或无线网络接口231、至少一串并转换接口233、至少一输入输出接口235以及至少一USB接口237等，用于与外部设备通信。

存储器250作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统251、应用程序253及数据255等，存储方式可以是短暂存储或者永久存储。其中，操作系统251用于管理与控制装置200上的各硬件设备以及应用程序253，以实现中央处理器270对海量数据255的计算与处理，其可以是WindowsServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM等。应用程序253是基于操作系统251之上完成至少一项特定工作的计算机程序，其可以包括至少一模块(图3中未示出)，每个模块都可以分别包含有对装置200的一系列计算机可读指令。数据255可以是存储于磁盘中的照片、图片等。

中央处理器270可以包括一个或多个以上的处理器，并设置为通过总线与存储器250通信，用于运算与处理存储器250中的海量数据255。

如上面所详细描述的，适用本发明的装置200将通过中央处理器270读取存储器250中存储的一系列计算机可读指令的形式来完成手语控制方法。

此外，通过硬件电路或者硬件电路结合软件也能同样实现本发明，因此，实现本发明并不限于任何特定硬件电路、软件以及两者的组合。

请参阅图4，在一示例性实施例中，一种手语控制方法适用于图1或者图2所示实施环境的用户设备，此用户设备的结构可以如图3所示。

该种手语控制方法可以由用户设备执行，可以包括以下步骤：

步骤310，获取图像数据。

其中，图像数据是对用户执行的手语动作进行拍摄生成的。

图像数据可以来源于用户设备实时采集的图像数据，也可以是用户设备中预先存储的图像数据。也就是说，用户设备采集到图像数据之后，可以对该图像数据进行实时处理，也可以预先存储了再处理。例如，在用户设备处理任务较少的时候进行处理，或者，按照操作人员的指定时间进行处理。

由此，对于用户设备而言，所获取到的图像数据，可以是用户设备当前采集到的图像数据，也可以是用户设备中预先存储的图像数据，即通过调取一历史时间的采集到的图像数据，在此不进行限定。

进一步地，假设用户设备为独立的摄像设备，例如，摄像机、录像机等具有图像数据采集功能的电子设备，则此用户设备可以布设于用户所在环境的四周，以便于从不同角度拍摄用户执行的手语动作，从而有利于提高手语动作识别的精准度。

可以理解，拍摄可以是单次拍摄，还可以是连续性拍摄，相应地，对于连续性拍摄而言，得到的是包含若干连续图像帧的一段视频，而就单次拍摄来说，得到的则是包含独立图像帧的图片。基于此，本实施例中执行手语动作识别可以是基于包含若干连续图像帧的一段视频进行，也可以基于包含若干独立图像帧的多张图片进行。

换而言之，所获取的图像数据包括视频数据，或者至少一个图片数据，本实施例并未对此加以限定。

应当说明的是，无论是包含若干连续图像帧的一段视频，还是包含若干独立图像帧的多张图片，后续的手语动作识别均是以图像帧为单位执行的。

步骤330，对图像数据中的手语动作进行动作识别，得到手语动作对应的文本信息。

为了提高手语动作识别的精准度，手语动作的识别通常可以借助手语手套或者三维成像设备等辅助设备进行，本实施例中，通过手语动作识别模型进行图像数据中的手语动作识别，不仅不需要借助辅助设备，还充分地保证了手语动作识别的精准度。

手语动作识别模型，通过指定数学模型结构反映了手语动作和文本信息之间的数学映射关系，那么，在手语动作识别中，实质是基于此数学映射关系对图像数据中的手语动作进行文本预测，进而得到手语动作对应的文本信息。

其中，指定数学模型包括但不限于：神经网络模型、支持向量机模型、逻辑回归模型等等。

相应地，指定数据模型结构可以是多层卷积神经网络(CNN)、循环神经网络(RNN)、深度神经网络(DNN)、双向长短期记忆循环神经网络(BI-LSTM)、长短期记忆循环神经网络(LSTM)串联、并联或者串并联等等。

在此对手语动作识别模型的构建过程加以描述。

如图7所示，在一实施例中，手语动作识别模型的构建过程可以包括以下步骤：

步骤410，获取样本图像数据。

其中，样本图像数据对用户执行的手语动作进行了标注。

也就是说，样本图像数据中的手语动作所对应的文本信息是已知的，即，样本图像数据是已知手语动作对应文本信息的图像数据。

步骤430，调用神经网络模型从样本图像数据提取得到相应的全局特征。

优选地，指定数学模型为神经网络模型。

神经网络模型，用于构建手语动作识别模型，可视为手语动作识别模型的原型。

可以理解，样本图像数据是图像形式，在输入至神经网络模型之前，需要转化为数字形式，即，全局特征是通过数字形式对样本图像数据整体的准确描述。如果样本图像数据不同，则相应的全局特征也有所区别，由此，全局特征也可以理解为是基于数字对样本图像数据的唯一表示。

进一步地，神经网络模型对应的结构包括卷积层和全连接层。其中，卷积层可以由多层卷积神经网络、循环神经网络、或者深度神经网络构建，而全连接层则可以由多层双向长短期记忆神经网络、或者长短期记忆神经网络构建。

相应地，全局特征提取过程可以包括以下步骤：

将样本图像数据中的若干图像帧输入至卷积层进行局部特征提取，得到样本图像数据的若干局部特征。

如前所述，全局特征是通过数字形式对样本图像数据整体的准确描述，那么，此局部特征则是通过数字形式对样本图像数据局部(即图像帧)的准确描述。

利用全连接层对样本图像数据的若干局部特征进行全连接，得到样本图像数据的全局特征。

步骤450，根据样本图像数据的全局特征对神经网络模型进行模型训练。

应当理解，作为手语动作识别模型的原型，神经网络模型反映的仅是样本图像数据中手语动作和文本信息之间初始的数学映射关系，为了使此数学映射关系达到最优，则需要基于海量的样本图像数据进行神经网络模型的模型训练。

模型训练，实质是对神经网络模型的模型参数进行迭代更新。

具体地，对神经网络模型的模型参数执行随机初始化，并将随机初始化的模型参数和其中一个样本图像数据的全局特征输入至指定算法函数，以基于指定算法函数判断上述数学映射关系是否达到最优。

如果数学映射关系未达到最优，则更新神经网络模型的模型参数，并将更新的模型参数和后一个样本图像数据的全局特征输入至指定算法函数，以继续基于指定算法函数判断上述数学映射关系是否达到最优。

反之，如果数学映射关系达到最优或者迭代次数达到最大，则停止迭代，并跳转执行步骤470。

当然，迭代次数可以根据实际的应用场景进行灵活地设定，例如，对手语识别的精准度要求较高的应用场景，则设定较大的迭代次数。

其中，指定算法函数包括但不限于：最大期望函数、余弦损失函数等等。

相应地，将更新的模型参数输入至最大期望函数，如果最大期望函数的最大期望最大，或者，将更新的模型参数输入至余弦损失函数，如果余弦损失函数的损失最小，则视为数学映射关系达到最优。

步骤470，当神经网络模型收敛时，将收敛的神经网络模型作为手语动作识别模型，以通过手语动作识别模型进行图像数据中的手语动作识别。

如果迭代次数达到最大，或者数学映射关系达到最优，则视为神经网络模型收敛，即可将收敛的神经网络模型作为手语识别模型，执行图像数据手语动作识别。

步骤350，对手语动作对应的文本信息进行交互意图解析，生成用于指示用户交互意图的交互指令。

用户交互意图，是指用户期望与目标设备之间发生何种交互，手语动作是按照用户交互意图执行的，由此，手语动作对应的文本信息实质上反映了用户交互意图，相应地，交互指令，则是遵循设定数据结构而能够被目标设备识别的结构化数据，以使目标设备执行相应动作而实现用户交互意图。例如，设定数据结构包括但不限于：XML、JSON等数据结构，本实施例并未对此构成限定。

其中，目标设备可以是可受控执行相应动作的智能设备，还可以是提供智能设备监控服务的服务端，以此满足不同的用户交互意图，在此并未加以限定。

在一个应用场景中，家中有婴幼儿在睡觉，为了避免出现声音，用户便需要手语控制智能设备，此时，用户交互意图是：关闭窗帘、开启台灯、关闭吊灯，当用户根据此用户交互意图执行相应的手语动作，便得到了对应的文本信息“关闭窗帘、开启台灯、关闭吊灯”，通过交互意图解析，由此生成的交互指令包括：控制窗帘电机运行至闭合位置的窗帘电机运行指令、控制台灯运行至开机状态的台灯启动指令、控制吊灯运行至关机状态的吊灯关闭指令。

在另一个应用场景中，假设用户感冒了，因嗓子疼而不想发声，则用户可通过手语控制控制智能设备，例如，用户交互意图是：热水壶烧水，那么，当用户根据此用户交互意图执行相应的手语动作，便得到了对应的文本信息“热水壶烧水”，通过交互意图解析，由此生成的交互指令包括：控制智能热水壶运行至开机状态的智能热水壶启动指令。

由上可知，交互指令可以是一条指令，以此控制目标设备执行一个相应动作，也可以是多条指令，以此控制目标设备串行、并行、甚至于联动执行多个相应动作，本实施例并非对此构成限定。

步骤370，通过交互指令控制目标设备执行相应动作。

如前所述，目标设备可以是可受控执行相应动作的智能设备，还可以是提供智能设备监控服务的服务端，以此满足不同的用户交互意图。相应地，用户交互意图可以是控制智能设备执行相应动作，还可以是查询智能设备的运行状态数据，以对智能设备进行远程监控。

仍以上述例子进行说明，对于智能设备而言，当接收到交互指令之后，便可按照交互指令的指示执行相应动作，以此实现用户交互意图。

例如，在第一个应用场景中，窗帘电机运行至闭合位置，台灯运行至开机状态，吊灯运行至关机状态，以此实现“关闭窗帘、开启台灯、关闭吊灯”。

在第二个应用场景中，智能热水壶运行至开机状态，以此实现“热水壶烧水”。

通过如上所述的过程，实现了手语控制智能设备方案，不仅为聋哑残疾人等弱势群体提供了现代生活体验，极大地便利了此弱势群体的生活，而且也能够为健康人提供特殊时刻的替代手段，进而丰富了智能设备控制的应用场景，从而有效地提高了智能设备控制的实用性。

此外，基于表达能力更丰富的手语，对于智能设备而言，可实现更为复杂的交互和精细的控制，避免了手势控制所存在的交互能力有限的问题，有利于为资深用户提供非凡的控制和交互体验。

请参阅图5，在一示例性实施例中，步骤310可以包括以下步骤：

步骤311，从至少一个拍摄角度对用户所在环境进行拍摄，得到原始图像数据。

首先，拍摄，是指不间断地对用户所在环境进行连续性拍摄，以此实现对用户所在环境的长期监控，进而保证手语动作识别能够借此实时发起。例如，当用户所在环境中出现人物，则连续性拍摄的时间周期至少是指人物出现前后0.5s。

其次，随着用户设备在用户所在环境的四周布设，即可实现不同拍摄角度的连续性拍摄，进而方便于利用三维重建或者激光三维重建等方式进行手语动作识别，充分地保证了手语动作识别的精准度。

步骤313，对原始图像数据进行人体特征检测。

应当理解，对用户所在环境进行连续性拍摄，有可能存在用户执行的手语动作，也可能不存在用户执行的手语动作，为此，区别于包含手语动作的图像数据，原始图像数据，则是指可能不包含手语动作的图像数据。

那么，在对原始图像数据进行手语动作识别之前，首先需要对此原始图像数据进行人体特征检测，此人体特征包括人脸、手、脚、身体等。

具体地，人体特征检测，实质指的是人体特征识别。例如，人体特征为人脸时，人体特征检测即是指人脸识别，以此判断原始图像数据中是否存在人脸。

如果原始图像数据中存在人体特征，则视为用户所在环境中出现人物，进而认为此原始图像数据包含手语动作，跳转执行步骤315，以唤醒后续的手语动作识别。

反之，如果原始图像数据中不存在人体特征，则视为用户所在环境中未出现任何人物，进而认为此原始图像数据未包含手语动作，那么，返回执行步骤311。

步骤315，如果原始图像数据中检测到人体特征，则对原始图像数据进行分帧处理，生成包含若干图像帧的图像数据。

其中，图像帧包含用户执行的手语动作。

也就是说，伴随着对用户所在环境的长期监控，一旦由原始图像数据中检测到人体特征，表明用户所在环境中出现人物，即可实时发起关于出现在用户所在环境中人物的手语动作识别。

在此补充说明，本实施例中，用户设备始终开启，以实现长期监控用户所在环境，并结合软件的人体特征检测方法，当检测到人体特征时触发手语动作的识别。根据应用场景的实际需求，在其他实施例中，为了降低用户设备的功耗，以延长用户设备的使用寿命，用户设备将配置至少一个传感器，例如，人体传感器，当该至少一个传感器感测到用户所在环境出现人物时，生成启动指令，以通知用户设备开启，以对用户所在环境所出现的人物进行拍摄，进而触发关于该人物的手语动作识别。

也就是说，手语动作的识别，在一个实施例中，是由软件方式(人体特征检测)触发的，在另一个实施例中，则通过硬件方式(传感器)触发。

在上述实施例的作用下，为手语动作识别提供了足够丰富的图像数据依据，进而有利于准确地识别出图像数据中的手语动作。

请参阅图6，在一示例性实施例中，步骤330可以包括以下步骤：

步骤331，采用卷积神经网络对图像数据中的若干图像帧进行局部特征提取，得到图像数据的若干局部特征。

其中，每一个局部特征对应一个图像帧。

步骤333，将图像数据的若干局部特征输入长短期记忆循环神经网络，得到图像数据的全局特征。

如前所述，神经网络模型对应的结构包括卷积层和全连接层，全局特征即是通过输入样本图像数据至卷积层和全连接层提取得到的。

本实施例中，针对手语识别模型，卷积层由多层卷积神经网络构建，全连接层则是由多层长短期记忆循环神经网络构建。

相应地，图像数据的全局特征即是执行步骤331和步骤333完成的。

步骤335，根据图像数据的全局特征对图像数据中的手语动作进行文本预测，得到手语动作对应的文本信息。

本实施例中，文本预测，是通过手语动作识别模型中的分类器实现的。

具体地，将图像数据的全局特征输入分类器，分别计算图像数据的全局特征属于不同类别文本信息的概率。

假设文本信息的类别包括文本信息1、文本信息2、……、文本信息N，图像数据的全局特征属于文本信息1的概率为P₁，图像数据的全局特征属于文本信息2的概率为P₂，以此类推，图像数据的全局特征属于文本信息N的概率为P_N。

值得一提的是，P₁+P₂+……+P_N＝1。

那么，对于图像数据中的手语动作而言，如果概率最大值为P₁，则预测手语动作对应的文本信息为文本信息1，同理，如果概率最大值为P₂，则预测手语动作对应的文本信息为文本信息2。即，概率最大值的图像数据的全局特征所属文本信息即视为手语动作对应的文本信息。

在上述实施例的作用下，通过卷积神经网络和长短期记忆循环神经网络的结合，不仅能够学习到用于描述图像数据中相邻图像帧的局部特征，又能够学习到用于描述图像数据中所有图像帧的全局特征，有效地保证了手语识别的泛化能力，进一步有利于提高手语识别的精准度。

请参阅图8，在一示例性实施例中，步骤350可以包括以下步骤：

步骤351，对手语动作对应的文本信息进行分类，得到文本信息所属类别。

如前所述，用户不仅会借助手语实现对智能设备的远程控制，而且还可能借助手语对智能设备进行远程监控，因此，本实施例中，文本信息所属类别包括控制类别和查询类别。

其中，控制类别指示了用户期望控制智能设备执行相应的动作，而查询类别则指示了用户期望查询智能设备的运行状态数据。

例如，当文本信息为“关闭窗帘、开启台灯、关闭吊灯”，则此文本信息所属类别为控制类别，即用户期望控制窗帘关闭、台灯开启、吊灯关闭。

当文本信息为“热水壶烧水”，则此文本信息所属类别也为控制类别，即用户期望控制热水壶运行至开机状态。

当文本信息为“闹钟提醒是否设置”，则此文本信息所属类别为查询类别，即用户期望查询闹钟的运行状态数据中已设置提醒的相关信息。

步骤353，按照类别对文本信息进行关键词查找。

应当理解，对于控制和查询，用户的表达方式将所有区别，而文本信息反映了用户交互意图，那么，此文本信息中涉及的关键词也有所不同。

如果文本信息所属类别为控制类别，则涉及的关键词用于指示控制哪种智能设备执行哪种动作，例如，关键词可以是某个设备的名称、“开启”、“关闭”、“烧水”、“运行至26℃”或者其他包含控制语气的词句等。

如果文本信息所属类别为查询类别，则涉及的关键词用于指示查询哪种智能设备目前的运行状态，例如，关键词可以是某个设备的名称、“是否开机”、“是否设置”或者其他包含查询语气的词句等。

为此，用户设备需要针对不同的类别查找文本信息中相应的关键词，以便于能够准确地实现用户交互意图。

例如，文本信息为“关闭窗帘、开启台灯、关闭吊灯”，查找到的关键词包括“窗帘”、“关闭”、“台灯”、“开启”、“吊灯”、“关闭”。

文本信息为“热水壶烧水”，查找到的关键词包括“热水壶”、“烧水”。

文本信息为“闹钟提醒是否设置”，查找到的关键词包括“闹钟”、“提醒”、“是否设置”。

可选地，在一实施例中，关键词查找过程可以包括以下步骤：

对文本信息进行分词处理，得到文本信息中的若干分词。

基于预先存储海量关键词的关键词库，进行若干分词与关键词库中存储的关键词之间的匹配。

如果存在相匹配的关键词，则此分词视为文本信息中的关键词。反之，如果不存在相匹配的关键词，则忽略此分词。

步骤355，根据查找到的关键词确定用户交互意图的交互对象及其属性。

在获得文本信息中的关键词之后，即可由关键词确定用户交互意图的交互对象及其属性。其中，交互对象是指用户期望控制或者查询的智能设备，属性用于指示被控制智能设备所执行的动作，或者，被查询智能设备的运行状态数据。

仍以前述例子进行说明，关键词包括“窗帘”、“关闭”、“台灯”、“开启”、“吊灯”、“关闭”，则交互对象包括窗帘电机、台灯和吊灯，相应的属性包括控制窗帘电机运行至闭合位置、控制台灯运行至开机状态、控制吊灯运行至关机状态。

关键词包括“热水壶”、“烧水”，则交互对象为智能热水壶，相应的属性包括控制智能热水壶运行至开机状态。

关键词包括“闹钟”、“提醒”、“是否设置”，则交互对象为闹钟，相应的属性包括查询闹钟的运行状态数据中已设置提醒的相关信息。

步骤357，将用户交互意图的交互对象及其属性封装为类别对应的交互指令。

当用户交互意图不同，则交互对象及其属性也所有区别，以此封装得到的交互指令也各不相同。

仍以前述例子进行说明，交互指令包括窗帘电机运行指令、台灯启动指令、吊灯关闭指令，或者，交互指令包括智能热水壶启动指令，或者，交互指令包括闹钟提醒查询指令。

由上可知，交互指令指示了用户交互意图，即是对应于文本信息所属类别，以便于用户能够借助手语对智能设备实施远程控制或者远程监控。

请参阅图9，在一示例性实施例中，步骤370可以包括以下步骤：

步骤371，根据交互指令对应的类别确定目标设备。

如果交互指令对应的类别为控制类别，则确定目标设备为可受控执行相应动作的智能设备。

如果交互指令对应的类别为查询类别，则确定目标设备为提供智能设备监控服务的服务端。

在此，对服务端所提供的智能设备监控服务加以说明。

对于部署在网关中的智能设备而言，当智能设备开机，便会生成运行状态数据，例如，运行状态数据指示了智能设备是否开机、智能设备运行时的相关配置、智能设备运行时的相关参数等等。

对于服务端而言，便可接收到智能设备主动上报的运行状态数据，并将此运行状态数据与智能设备关联存储，进而为此智能设备向用户提供监控服务。

也就是说，如果用户期望查询智能设备的运行状态数据，并不是直接向此智能设备下发相关的查询指令，而是借助服务端所提供的此智能设备的运行状态数据进行相关查询。

步骤373，请求交互指令的接收方向目标设备转发交互指令。

本实施例中，交互指令的接收方可以是服务端，也可以是网关，在此并不加以限定。

需要说明的是，根据实际应用场景的需要，此服务端可以区别于提供智能设备监控服务的服务端，也可以就是提供智能设备监控服务的服务端，本实施例并非对此构成限定。

那么，交互指令的转发，可以是网关转发至智能设备，也可以是网关转发至服务端，还可以是服务端转发至智能设备。

步骤375，接收目标设备按照交互指令执行相应动作而返回的应答消息。

对于目标设备而言，在接收到交互指令之后，即可执行相应动作。例如，智能设备按照交互指令的指示执行相应动作，或者，服务端按照交互指令的指示查询智能设备的运行状态数据。

应答消息，即反映了目标设备的执行结果。例如，目标设备为智能设备时，应答消息包括目标设备是否成功执行了交互指令、执行交互指令失败的原因、执行交互指令成功时的运行状态数据等等。或者，目标设备为服务端时，应答消息包括服务端是否成功查询到智能设备的运行状态数据、查询失败的原因、查询成功时的运行状态数据等等。

步骤377，根据应答消息在用户设备中输出交互回应结果。

其中，交互回应结果用于指示目标设备的执行结果。

根据用户设备所配置的输出组件(屏幕、扬声器、振动器等等)的不同，交互回应结果的输出方式也有所区别。

例如，借助屏幕，交互回应结果可以通过图像、文字、背景闪烁等方式显示在屏幕中，或者，交互回应结果可通过扬声器以报警声输出，又或者，交互回应结果可通过振动器以振动方式输出，本实施例并未对此加以限定。

通过上述实施例的配合，用户即可实时地了解目标设备的执行结果，有利于提升用户的控制体验。

请参阅图10，在一示例性实施例中，一种手语控制方法适用于手语控制系统，此手语控制系统包括用户设备和服务端，此用户设备和服务端的结构可以如图3所示。

该种手语控制方法可以包括以下步骤：

步骤510，用户设备获取图像数据，并根据图像数据向服务端发起动作识别请求。

随着用户设备和服务端之间的交互，就服务端而言，服务端所接收到的图像数据均是由用户设备采集的，既可以是用户设备主动将采集到的图像数据上传，也可以是响应于服务端向用户设备所发起的数据获取请求，而将采集到的图像数据上传至服务端。

本实施例中，用户设备将主动向服务端发起动作识别请求，以请求服务端对动作识别请求中携带的图像数据进行手语动作识别。

通过如此部署，用户设备仅负责图像数据的采集，而需要消耗较多运算资源的手语动作识别和文本信息解析则依赖于服务端实现，不仅能够使得手势控制具备较高的响应速度，而且充分地保证了用户设备和服务端兼具良好的处理性能，有利于提高二者的处理效率，进而提升用户的控制体验。

步骤530，服务端响应动作识别请求对图像数据中的手语动作进行动作识别，得到手语动作对应的文本信息。

步骤550，对手语动作对应的文本信息进行交互意图解析，生成用于指示用户交互意图的交互指令。

步骤570，通过交互指令控制目标设备执行相应动作。

图11是一应用场景中一种手语控制方法的具体实现示意图。该应用场景中，手语控制系统包括采集图像数据的用户设备801、本地网关802、云端803、提供智能设备监控服务的服务端805、以及受控执行相应动作的若干智能设备804。

如图11所示，手语控制方法划分三个阶段：检测阶段701、识别与分析阶段702、交互执行阶段703。其中，检测阶段701进一步包括视频采集阶段7011和视频检测阶段7012。

视频采集阶段7011，采集图像数据，以持续监控用户所在环境，进而获取到包含用户执行手语动作的图像数据。

视频检测阶段7012，对所采集的图像数据进行人体特征检测，以丢弃不包含用户执行手语动作的图像数据。

识别与分析阶段702，包括手语动作识别和文本信息解析，以生成用于指示用户交互意图的交互指令，即符合设定数据结构的结构化数据。

交互执行阶段703，通过交互指令的传输，使得智能设备804执行相应动作，或者，服务端805提供智能设备监控服务。

考虑运算负担，上述手语控制方法的不同阶段(下文简称为阶段7011～阶段703)可以进行不同的硬件部署。

具体地，云端部署，即用户设备801仅执行阶段7011，而阶段7012～阶段702由云端803执行，尽量减小对用户设备801的依赖于。

本地部署，即阶段7011～阶段702全部由用户设备801执行，能够有效地提高手势控制的响应速度。

云端结合本地部署，即用户设备执行阶段7011～阶段7012，而云端803执行阶段702，使得手势控制兼具响应速度和处理性能。

在本应用场景中，借助表达能力完整的手语，可实现全方位的智能设备的控制和交互，丰富了智能设备控制的应用场景，不仅适用于聋哑人等弱势群体，而且适用于高噪音、静音等场合，有效地提高了智能场景控制的实用性。

下述为本发明装置实施例，可以用于执行本发明所涉及的手语控制方法。对于本发明装置实施例中未披露的细节，请参照本发明所涉及的手语控制方法的方法实施例。

请参阅图12，在一示例性实施例中，一种手语控制装置900包括但不限于：数据获取模块910、动作识别模块930、交互解析模块950和设备控制模块970。

其中，数据获取模块910用于获取图像数据，图像数据是对用户执行的手语动作进行拍摄生成的。

动作识别模块930用于对图像数据中的手语动作进行动作识别，得到手语动作对应的文本信息。

交互解析模块950用于对手语动作对应的文本信息进行交互意图解析，生成用于指示用户交互意图的交互指令。

设备控制模块970用于通过交互指令控制智能设备执行相应动作。

需要说明的是，上述实施例所提供的手语控制装置在进行手语控制时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即手语控制装置的内部结构将划分为不同的功能模块，以完成以上描述的全部或者部分功能。

另外，上述实施例所提供的手语控制装置与手语控制方法的实施例属于同一构思，其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

请参阅图13，在一示例性实施例中，一种手语控制系统1100包括用户设备1110和服务端1130。

其中，用户设备1110用于获取图像数据，并根据图像数据向服务端1130发起动作识别请求。

服务端1130用于响应动作识别请求对图像数据中的手语动作进行动作识别，得到手语动作对应的文本信息；对手语动作对应的文本信息进行交互意图解析，生成用于指示用户交互意图的交互指令；通过交互指令控制智能设备执行相应动作。

请参阅图14，在一示例性实施例中，一种手语控制装1000，包括至少一处理器1001、至少一存储器1002及至少一通信总线1003。

其中，存储器1002上存储有计算机可读指令，处理器1001通过通信总线1003从存储器1002中读取计算机可读指令。

该计算机可读指令被处理器1001执行时实现上述各实施例中的手语控制方法。

在一示例性实施例中，一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各实施例中的手语控制方法。

上述内容，仅为本发明的较佳示例性实施例，并非用于限制本发明的实施方案，本领域普通技术人员根据本发明的主要构思和精神，可以十分方便地进行相应的变通或修改，故本发明的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种手语控制方法，应用于用户设备，其特征在于，包括：

获取图像数据，所述图像数据是对用户执行的手语动作进行拍摄生成的；

对所述图像数据中的手语动作进行动作识别，得到所述手语动作对应的文本信息；

对所述手语动作对应的文本信息进行交互意图解析，生成用于指示用户交互意图的交互指令；

通过所述交互指令控制目标设备执行相应动作；

其中，所述对所述图像数据中的手语动作进行动作识别，得到所述手语动作对应的文本信息，包括：

将所述图像数据中的若干图像帧输入至卷积层进行局部特征提取，得到所述图像数据的若干局部特征，每一个局部特征对应一个图像帧；

通过全连接层对所述图像数据的若干局部特征进行全连接，得到所述图像数据的全局特征；

将所述图像数据的全局特征输入手语动作识别模型的分类器，分别计算所述图像数据的全局特征属于不同类别文本信息的概率；

选择最大的概率所对应的类别的文本信息作为所述手语动作对应的文本信息。

2.如权利要求1所述的方法，其特征在于，所述获取图像数据，包括：

从至少一个拍摄角度对所述用户所在环境进行拍摄，得到原始图像数据；

对所述原始图像数据进行人体特征检测；

如果所述原始图像数据中检测到人体特征，则对所述原始图像数据进行分帧处理，生成包含若干图像帧的所述图像数据，所述图像帧包含所述用户执行的手语动作。

3.如权利要求1所述的方法，其特征在于，所述对所述图像数据中的手语动作进行动作识别，得到所述手语动作对应的文本信息，包括：

采用卷积神经网络对所述图像数据中的若干图像帧进行局部特征提取，得到所述图像数据的若干局部特征，每一个局部特征对应一个图像帧；

将所述图像数据的若干局部特征输入长短期记忆循环神经网络，得到所述图像数据的全局特征；

根据所述图像数据的全局特征对所述图像数据中的手语动作进行文本预测，得到所述手语动作对应的文本信息。

4.如权利要求1或3所述的方法，其特征在于，所述对所述图像数据中的手语动作进行动作识别，得到所述手语动作对应的文本信息之前，所述方法还包括：

获取样本图像数据，所述样本图像数据对用户执行的手语动作进行了标注；

调用神经网络模型从所述样本图像数据提取得到相应的全局特征；

根据所述样本图像数据的全局特征对所述神经网络模型进行模型训练；

当所述神经网络模型收敛时，将收敛的神经网络模型作为手语动作识别模型，以通过所述手语动作识别模型进行所述图像数据中的手语动作识别。

5.如权利要求1所述的方法，其特征在于，所述对所述手语动作对应的文本信息进行交互意图解析，生成用于指示用户交互意图的交互指令，包括：

对所述手语动作对应的文本信息进行分类，得到所述文本信息所属类别；

按照所述类别对所述文本信息进行关键词查找；

根据查找到的关键词确定所述用户交互意图的交互对象及其属性；

将所述用户交互意图的交互对象及其属性封装为所述类别对应的所述交互指令。

6.如权利要求1所述的方法，其特征在于，所述通过所述交互指令控制目标设备执行相应动作，包括：

根据所述交互指令对应的类别确定所述目标设备；

请求所述交互指令的接收方向所述目标设备转发所述交互指令；

接收所述目标设备按照所述交互指令执行相应动作而返回的应答消息；

根据所述应答消息在所述用户设备中输出交互回应结果，所述交互回应结果用于指示所述目标设备的执行结果。

7.如权利要求6所述的方法，其特征在于，所述根据所述交互指令对应的类别确定所述目标设备，包括：

如果所述交互指令对应的类别为控制类别，则确定所述目标设备为可受控执行相应动作的智能设备；

如果所述交互指令对应的类别为查询类别，则确定所述目标设备为提供智能设备监控服务的服务端。

8.一种手语控制方法，应用于手语控制系统，所述手语控制系统包括用户设备和服务端，其特征在于，包括：

所述用户设备获取图像数据，并根据所述图像数据向所述服务端发起动作识别请求；

所述服务端响应所述动作识别请求对所述图像数据中的手语动作进行动作识别，得到所述手语动作对应的文本信息；

通过所述交互指令控制目标设备执行相应动作；

9.一种手语控制装置，应用于用户设备，其特征在于，包括：

数据获取模块，用于获取图像数据，所述图像数据是对用户执行的手语动作进行拍摄生成的；

动作识别模块，用于对所述图像数据中的手语动作进行动作识别，得到所述手语动作对应的文本信息；

交互解析模块，用于对所述手语动作对应的文本信息进行交互意图解析，生成用于指示用户交互意图的交互指令；

设备控制模块，用于通过所述交互指令控制智能设备执行相应动作；

10.一种手语控制系统，所述系统包括用户设备和服务端，其特征在于，包括：

所述用户设备，用于获取图像数据，并根据所述图像数据向所述服务端发起动作识别请求；

所述服务端，用于响应所述动作识别请求对所述图像数据中的手语动作进行动作识别，得到所述手语动作对应的文本信息；

通过所述交互指令控制智能设备执行相应动作；

11.一种手语控制装置，其特征在于，包括：

处理器；及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如权利要求1至8中任一项所述的手语控制方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的手语控制方法。