CN113837101A

CN113837101A - 手势识别方法、装置和电子设备

Info

Publication number: CN113837101A
Application number: CN202111128325.4A
Authority: CN
Inventors: 郭子奇
Original assignee: Spreadtrum Communications Tianjin Co Ltd
Current assignee: Spreadtrum Communications Tianjin Co Ltd
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2021-12-24
Anticipated expiration: 2041-09-26
Also published as: CN113837101B

Abstract

本发明实施例涉及互联网技术领域，尤其涉及一种手势识别方法、装置和电子设备。其中，上述手势识别方法包括：对接收到的手势视频数据进行采样，得到各视频帧；从所述各视频帧中识别用户手势，获取用户手势信息；从预设词库中确定与所述用户手势信息匹配的目标语言数据；向用户提供所述目标语言数据。本发明实施例中，通过对提取的视频帧中的用户手势进行识别，有效实现用户之间的无障碍沟通。

Description

手势识别方法、装置和电子设备

【技术领域】

本发明实施例涉及互联网技术领域，尤其涉及一种手势识别方法、装置和电子设备。

【背景技术】

对于普通用户来说，视频通话功能的出现为用户增加了新的体验，实现了在进行通话时人们彼此可以看到对方，从而能够更方便与人沟通。

对于聋哑人来说，可以使用视频通话传达无法用电话通话表达的信息。但当使用手语与普通用户进行沟通时，会让不了解手语的普通用户难以正确理解其想要表达的意思，给双方用户均造成不便。

因此，如何能让聋哑用户与普通用户进行无障碍沟通，成为目前亟待解决的技术问题。

【发明内容】

本发明实施例提供了一种手势识别方法、装置和电子设备，通过提取视频帧并基于卷积神经网络-门控循环单元(Convolutional Neural Networks-Gate RecurrentUnit,CNN-GRN)网络模型，有效实现用户之间的无障碍沟通。

第一方面，本发明实施例提供一种手势识别方法，包括：

对接收到的手势视频数据进行采样，得到各视频帧；

从所述各视频帧中识别用户手势，获取用户手势信息；

从预设词库中确定与所述用户手势信息匹配的目标语言数据；

向用户提供所述目标语言数据。

其中一种可能的实现方式中，从所述各视频帧中识别用户手势，获得用户手势信息，包括：

将所述各视频帧输入卷积神经网络-门控循环单元CNN-GRU网络模型，通过所述CNN-GRN网络模型识别用户手势，并根据所述用户手势获取用户手势信息。

其中一种可能的实现方式中，所述CNN-GRU网络模型包括：CNN子网络、GRU子网络和输出网络；

所述CNN子网络用于提取所述各视频帧的空间特征图序列，并输出给所述GRU子网络；

所述GRU子网络用于基于所述各视频帧的空间特征图序列提取时间特征图序列，并输出给所述输出网络；

所述输出网络用于根据所述时间特征图序列识别用户手势特征，并对识别出的用户手势特征进行分类，并根据所述分类结果输出所述用户手势信息。

其中一种可能的实现方式中，所述CNN子网络结构包括：批量归一化BN层、CNN单元层、池化层；

所述BN层用于对所述各视频帧进行归一化；

所述CNN单元层用于对归一化的所述各视频帧进行特征提取，得到各视频帧的空间特征图序列；

所述池化层用于对所述各视频帧的空间特征图序列池化压缩后输出给所述GRU子网络。

其中一种可能的实现方式中，所述CNN单元层包括依次串联的多个CNN单元，每个所述CNN单元包括依次串联的第一卷积核、第一激活函数、第二卷积核和第二激活函数，其中，所述第一激活函数的输出除了传输到所述第二卷积核之外外，所述第一激活函数的输出还与所述第二卷积核的输出相加后输出给所述第二激活函数；

所述CNN单元层通过所述各个CNN单元对所述各视频帧进行特征提取以得到各视频帧的空间特征图序列。

其中一种可能的实现方式中，所述GRU子网络包括第一GRU单元层和第二GRU单元层，所述第一GRU单元层和所述第二GRU单元层均包含N个GRU单元，所述N的个数与视频帧的帧数相同；

所述GRU子网络用于基于所述各视频帧的空间特征图序列提取时间特征图序列，包括：

将各视频帧的空间特征图序列按照第一时间顺序输入第一GRU单元层，所述第一GRU单元层的每个所述GRU单元均输入一个视频帧的空间特征图序列，所述第一GRU单元层输出第一时间特征图序列；

将各视频帧的空间特征图序列按照与所述第一时间顺序相反的时间顺序输入第二GRU单元层，所述第二GRU单元层的每个所述GRU单元输入一个视频帧的空间特征图序列，所述第二GRU单元层输出第二时间特征图序列；

其中，所述第一时间特征图序列和所述第二时间特征图序列联接后输入所述输出网络。

其中一种可能的实现方式中，所述输出网络基于softmax函数对识别出的用户手势特征进行分类，并根据各分类的概率值输出所述用户手势信息。

其中一种可能的实现方式中，所述向用户提供所述目标语言数据，包括：

采用语音或者文字方式向用户提供所述目标语言数据。

第二方面，本发明实施例提供一种手势识别装置，包括：

采样模块，用于对接收到的手势视频数据进行采样，得到各视频帧；

识别模块，从所述各视频帧中识别用户手势，获取用户手势信息；

确定模块，用于从预设词库中确定与所述用户手势信息匹配的目标语言数据；

提供模块，用于向用户提供所述目标语言数据。

其中一种可能的实现方式中，所述识别模块，具体用于将所述各视频帧输入卷积神经网络-门控循环单元CNN-GRU网络模型，通过所述CNN-GRN网络模型识别用户手势，并根据所述用户手势获取用户手势信息。

其中一种可能的实现方式中，所述识别模块包括：CNN子网络模块、GRU子网络模块和输出网络模块；其中，所述CNN子网络模块用于提取所述各视频帧的空间特征图序列，并输出给所述GRU子网络；所述GRU子网络模块用于基于所述各视频帧的空间特征图序列提取时间特征图序列，并输出给所述输出网络；所述输出网络模块用于根据所述时间特征图序列识别用户手势特征，并对识别出的用户手势特征进行分类，并根据所述分类结果输出所述用户手势信息。

其中一种可能的实现方式中，所述CNN子网络模块包括：批量归一化BN层、CNN单元层、池化层；所述BN层用于对所述各视频帧进行归一化；所述CNN单元层用于对归一化的所述各视频帧进行特征提取，得到各视频帧的空间特征图序列；所述池化层用于对所述各视频帧的空间特征图序列池化压缩后输出给所述GRU子网络。

其中一种可能的实现方式中，所述CRU子网络模块包括第一GRU单元层和第二GRU单元层，所述第一GRU单元层和所述第二GRU单元层均包含N个GRU单元，所述N的个数与视频帧的帧数相同，具体用于将各视频帧的空间特征图序列按照第一时间顺序输入第一GRU单元层，所述第一GRU单元层的每个所述GRU单元均输入一个视频帧的空间特征图序列，所述第一GRU单元层输出第一时间特征图序列；将各视频帧的空间特征图序列按照与所述第一时间顺序相反的时间顺序输入第二GRU单元层，所述第二GRU单元层的每个所述GRU单元输入一个视频帧的空间特征图序列，所述第二GRU单元层输出第二时间特征图序列；其中，所述第一时间特征图序列和所述第二时间特征图序列联接后输入所述输出网络。

其中一种可能的实现方式中，所述输出网络模块，具体用于基于softmax函数对识别出的用户手势特征进行分类，并根据各分类的概率值输出所述用户手势信息。

其中一种可能的实现方式中，所述提供模块，具体用于采用语音或者文字方式向用户提供所述目标语言数据。

第三方面，本发明实施例提供一种电子设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行第一方面提供的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行第一方面提供的方法。

应当理解的是，本说明书的第二～第四方面与本说明书的第一方面的技术方案一致，各方面及对应的可行实施方式所取得的有益效果相似，不再赘述。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种手势识别方法的流程图；

图2为本发明实施例提供的一种CNN-GRU网络模型的结构示意图；

图3为本发明实施例提供的一种CNN单元的结构示意图；

图4为本发明实施例提供的一种GRU子网络的结构示意图；

图5为本发明实施例提供的一种GRU子网络的工作流程图；

图6为本发明实施例提供的一种手势识别装置的结构示意图；

图7为本发明电子设备一个实施例的结构示意图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本说明书保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

图1为本发明实施例提供的一种手势识别方法的流程图。如图1所示，所述手势识别方法可以执行于终端设备。终端设备与对端设备进行视频通话，当来自对端设备的视频数据包含手势动作时，执行的处理步骤包括：

步骤101，对接收到的手势视频数据进行采样，得到各视频帧。

在一些实施例中，终端设备可以对接收到的手势视频数据进行间隔采样，以得到手势视频数据的各视频帧。

步骤102，从所述各视频帧中识别用户手势，获取用户手势信息。

具体地，将所述各视频帧输入卷积神经网络-门控循环单元CNN-GRU网络模型，通过所述CNN-GRN网络模型识别用户手势，并根据所述用户手势获取用户手势信息。

在一些实施例中，使用CNN网络和GRU网络相结合，基于结合所得的CNN-GRU网络模型从各视频帧中识别用户手势，获得用户手势信息。

步骤103，从预设词库中确定与所述用户手势信息匹配的目标语言数据。

在一些实施例中，可以将用户手势信息与预设词库中对应的语言类别进行匹配，从而获取目标语言数据。可选的，预设词库可以包含文字库和语音库。本发明实施例中，通过将用户手势信息与文字库和语音库的匹配，可以获取与用户手势信息对应的目标文字和目标语音。

步骤104，向用户提供所述目标语言数据。

在一些实施例中，可以将目标语言数据采用语音方式和文字方式提供给用户，用户可根据目标语言数据理解发送用户的手势含义。

图2为本发明实施例提供的一种CNN-GRU网络模型的结构示意图。如图2所示，CNN-GRU网络模型包括CNN子网络、GRU子网络和输出网络。所述CNN子网络用于提取所述各视频帧的空间特征图序列，并输出给所述GRU子网络；所述GRU子网络用于基于所述各视频帧的空间特征图序列提取时间特征图序列，并输出给所述输出网络；所述输出网络用于根据所述时间特征图序列识别用户手势特征，并对识别出的用户手势特征进行分类，并根据所述分类结果输出所述用户手势信息。

具体地，如图2所示，CNN子网络包含批量归一化(Batch Normalization,BN)层、CNN层和池化层。BN层用于对各视频帧进行归一化，归一化处理可以采用如下计算公式：

其中，N为视频帧的总数量，x_i为第i个视频帧，μ_B为所有视频帧的均值，

为所有视频帧的方差，

为标准化数据，y_i为第i个视频帧归一化数据，∈为为了避免除数为0时所使用的微小正数，γ和β为在训练时网络学习得到的已知需求参数。

归一化处理首先求出每个视频帧的所有像素值的平均值和方差，再对每个视频帧进行归一化并输出给CNN层。

CNN层用于对归一化的各视频帧进行特征提取，得到各视频帧的空间特征图序列。CNN单元层包括依次串联的多个CNN单元，每个CNN单元的内部结构如图3所示。图3为本发明实施例提供的一种CNN单元的结构示意图。图3中每个CNN单元包括依次串联的第一卷积核、第一激活函数、第二卷积核和第二激活函数，其中，所述第一激活函数的输出除了传输到所述第二卷积核之外外，所述第一激活函数的输出还与所述第二卷积核的输出相加后输出给所述第二激活函数。

具体地，首先将输入CNN单元的归一化的各视频帧使用1×1的第一卷积核进行卷积运算，再使用第一激活函数对运算结果进行激活处理。将第一激活函数激活处理后的输出使用n×n的第二卷积核进行相同的卷积运算，然后使用第二激活函数对运算结果和第一激活函数的输出之和进行再一次激活处理。

卷积运算为使用卷积核与输入的每个视频帧对应相乘，再将相乘所得相加起来。例如，

为视频帧，卷积核为

由于卷积核尺寸为2×2，视频帧尺寸为3×3，则需要在视频帧中按从左到右、从上到下的顺序依次选取2×2的子视频帧，选取的子视频帧分别为

和

然后使用四个子视频帧中的数据分别与卷积核中的数值对应相乘，

最后输出结果为

输出结果再使用激活函数进行激活处理，激活函数为RELU函数，RELU函数的公式如下：

其中，x为求和所得数据，f(x)为输出的激活函数。当x≤0时，输出为0；当x≥0时，输出为x。

CNN单元层通过所述各个CNN单元对所述各视频帧进行特征提取以得到各视频帧的空间特征图序列，并将空间特征图序列输出给池化层。

池化层用于对各视频帧的空间特征图序列池化压缩后输出给GRU子网络。池化压缩同样需要采用卷积核进行处理，使用m×m的卷积核将n×n的每个空间特征图压缩成m×m大小，其中m小于n。

使用CNN子网络生成的空间特征图序列输出到GRU子网络，GRU子网络结构如图4所示，图4为本发明实施例提供的一种GRU子网络的结构示意图。图中GRU子网络包括第一GRU单元层和第二GRU单元层，第一GRU单元层和第二GRU单元层均包含N个GRU单元，N的个数与视频帧的帧数相同。

GRU子网络的工作流程如图5所示，图5为本发明实施例提供的一种GRU子网络的工作流程图，上述方法包括：

步骤201，将各视频帧的空间特征图序列按照第一时间顺序输入第一GRU单元层，所述第一GRU单元层的每个所述GRU单元均输入一个视频帧的空间特征图序列，所述第一GRU单元层输出第一时间特征图序列。

步骤202，将各视频帧的空间特征图序列按照与所述第一时间顺序相反的时间顺序输入第二GRU单元层，所述第二GRU单元层的每个所述GRU单元输入一个视频帧的空间特征图序列，所述第二GRU单元层输出第二时间特征图序列。

结合图4所示，CNN子网络输出N个视频帧的空间特征图，记为x1、x2、x3…xN，其中，x1第1个视频帧的空间特征图序列，xN为第N个视频帧的空间特征图序列。本发明实施例中，按照x1、x2、x3…xN的顺序将x1输入第一GRU单元层的第一个GRU单元，x2输入第一GRU单元层的第二个GRU单元……xN输入第一GRU单元层的第N个GRU单元。第一GRU单元层根据按照x1至xN顺序输入的图像特征序列输出第一时间特征图序列。同时，按照xN至x1的顺序，将xN输入第二单元层的第一个GRU单元、将xN-1输入第二单元层的第二个GRU单元……将x1输入第二单元层的第N个GRU单元。第二GRU单元层根据按照xN至x1顺序输入的图像特征序列输出第二时间特征序列。

各GRU单元包含更新门和输出门，分别计算更新门和输出门的数据，再根据提取每个时间的特征数据，最后提取的每个时间的特征数据组成一个时间特征图，所有时间特征图最后生成时间特征图序列。时间特征数据提取计算公式如下：

z＝σ(x_tU^z+s_t-1W^z)

r＝σ(x_tU^r+s_t-1W^r)

其中，z为更新门数据，r为输出门数据，h为时间t的记忆信息，s_t为时间t的记忆数据，x_t为各空间特征图的第t个分量，s_t-1为时间t-1的记忆数据，U、W为权重矩阵。

在生成第一时间特征图序列和第二特征图序列之后，使用concat函数将两个序列联接，concat函数如下所示：

concat(y₁，y₂)

其中，y₁为第一时间特征图序列，y₂为第二时间特征图序列。

使用concat函数将第一时间特征图序列和第二时间特征图序列联接后，将联接的时间特征图序列序列输入输出网络。

如图2所示，输出网络包含softmax层，softmax层基于softmax函数，根据输入的时间特征图序列对识别出的用户手势特征进行分类，并根据各分类的概率值输出用户手势信息。而softmax函数即可计算出用户手势特征属于各分类的概率值，使用softmax函数计算概率值公式如下：

其中，zⁱ为时间特征图序列中的第i个向量，p_i为第i类手势信息的分类概率值，

将所有分类的概率值计算完成后，对比各概率值，选取最大概率值并确定对应的语言类别，用户手势信息即包含对应的语言类别。在预设词库中找到与用户手势信息中的语言类别所对应的类别信息，获取匹配的目标语言数据。最后，采用语音或者文字方式向用户提供目标语言数据。

图6为本发明实施例提供的一种手势识别装置的结构示意图，如图6所示，上述手势识别装置300可以包括：采样模块301、识别模块302、确定模块303和提供模块304。

采样模块301，用于对接收到的手势视频数据进行采样，得到各视频帧。

识别模块302，从所述各视频帧中识别用户手势，获取用户手势信息；

确定模块303，用于从预设词库中确定与所述用户手势信息匹配的目标语言数据。

提供模块304，用于向用户提供所述目标语言数据。

在本发明上述实施例中，可选地，所述识别模块，具体用于将所述各视频帧输入卷积神经网络-门控循环单元CNN-GRU网络模型，通过所述CNN-GRN网络模型识别用户手势，并根据所述用户手势获取用户手势信息。

在本发明上述实施例中，可选地，所述识别模块包括：CNN子网络模块、GRU子网络模块和输出网络模块；其中，所述CNN子网络模块用于提取所述各视频帧的空间特征图序列，并输出给所述GRU子网络；所述GRU子网络模块用于基于所述各视频帧的空间特征图序列提取时间特征图序列，并输出给所述输出网络；所述输出网络模块用于根据所述时间特征图序列识别用户手势特征，并对识别出的用户手势特征进行分类，并根据所述分类结果输出所述用户手势信息。

在本发明上述实施例中，可选地，所述CNN子网络模块包括：批量归一化BN层、CNN单元层、池化层；所述BN层用于对所述各视频帧进行归一化；所述CNN单元层用于对归一化的所述各视频帧进行特征提取，得到各视频帧的空间特征图序列；所述池化层用于对所述各视频帧的空间特征图序列池化压缩后输出给所述GRU子网络。

在本发明上述实施例中，可选地，所述CRU子网络模块包括第一GRU单元层和第二GRU单元层，所述第一GRU单元层和所述第二GRU单元层均包含N个GRU单元，所述N的个数与视频帧的帧数相同，具体用于将各视频帧的空间特征图序列按照第一时间顺序输入第一GRU单元层，所述第一GRU单元层的每个所述GRU单元均输入一个视频帧的空间特征图序列，所述第一GRU单元层输出第一时间特征图序列；将各视频帧的空间特征图序列按照与所述第一时间顺序相反的时间顺序输入第二GRU单元层，所述第二GRU单元层的每个所述GRU单元输入一个视频帧的空间特征图序列，所述第二GRU单元层输出第二时间特征图序列；其中，所述第一时间特征图序列和所述第二时间特征图序列联接后输入所述输出网络。

在本发明上述实施例中，可选地，包括：所述输出网络模块，具体用于基于softmax函数对识别出的用户手势特征进行分类，并根据各分类的概率值输出所述用户手势信息。

在本发明上述实施例中，可选地，所述提供模块，具体用于采用语音或者文字方式向向用户提供所述目标语言数据。

图7为本发明电子设备一个实施例的结构示意图。

如图7所示，上述电子设备可以包括至少一个处理器；以及与上述处理器通信连接的至少一个存储器，其中：存储器存储有可被处理器执行的程序指令，上述处理器调用上述程序指令能够执行本说明书图1和图5所示实施例提供的手势识别方法。

其中，上述电子设备可以为能够与用户进行手势识别的设备，例如：云服务器，本说明书实施例对上述电子设备的具体形式不作限定。可以理解的是，这里的电子设备即为方法实施例中提到的机器。

图7示出了适于用来实现本发明实施方式的示例性电子设备的框图。图7显示的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于：一个或者多个处理器410，存储器430，连接不同系统组件(包括存储器430和处理单元410)的通信总线440。

通信总线440表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

电子设备典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器430可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)和/或高速缓存存储器。电子设备可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。存储器430可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块的程序/实用工具，可以存储在存储器430中，这样的程序模块包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块通常执行本发明所描述的实施例中的功能和/或方法。

处理器410通过运行存储在存储器430中的程序，从而执行各种功能应用以及数据处理，例如实现本发明图1和图5所示实施例提供的手势识别方法。

本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行本说明书图1和图5所示实施例提供的手势识别方法。

上述计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ReadOnly Memory；以下简称：ROM)、可擦式可编程只读存储器(Erasable Programmable ReadOnly Memory；以下简称：EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本说明书操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network；以下简称：LAN)或广域网(Wide Area Network；以下简称：WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本说明书的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本说明书的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本说明书的实施例所属技术领域的技术人员所理解。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

需要说明的是，本说明书实施例中所涉及的终端可以包括但不限于个人计算机(Personal Computer；以下简称：PC)、个人数字助理(Personal Digital Assistant；以下简称：PDA)、无线手持设备、平板电脑(Tablet Computer)、手机、MP3播放器、MP4播放器等。

在本说明书所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本说明书各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本说明书各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory；以下简称：ROM)、随机存取存储器(Random Access Memory；以下简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

1.一种手势识别方法，其特征在于，包括：

对接收到的手势视频数据进行采样，得到各视频帧；

从所述各视频帧中识别用户手势，获取用户手势信息；

向用户提供所述目标语言数据。

2.根据权利要求1所述的方法，其特征在于，从所述各视频帧中识别用户手势，获得用户手势信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述CNN-GRU网络模型包括：CNN子网络、GRU子网络和输出网络；

4.根据权利要求3所述方法，其特征在于，所述CNN子网络结构包括：批量归一化BN层、CNN单元层、池化层；

所述BN层用于对所述各视频帧进行归一化；

5.根据权利要求4所述的方法，其特征在于，所述CNN单元层包括依次串联的多个CNN单元，每个所述CNN单元包括依次串联的第一卷积核、第一激活函数、第二卷积核和第二激活函数，其中，所述第一激活函数的输出除了传输到所述第二卷积核之外外，所述第一激活函数的输出还与所述第二卷积核的输出相加后输出给所述第二激活函数；

6.根据权利要求3所述方法，其特征在于，所述GRU子网络包括第一GRU单元层和第二GRU单元层，所述第一GRU单元层和所述第二GRU单元层均包含N个GRU单元，所述N的个数与视频帧的帧数相同；

7.根据权利要求3所述的方法，其特征在于，所述输出网络基于softmax函数对识别出的用户手势特征进行分类，并根据各分类的概率值输出所述用户手势信息。

8.根据权利要求1所述的方法，其特征在于，所述向用户提供所述目标语言数据，包括：

采用语音或者文字方式向用户提供所述目标语言数据。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至8任一所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至8任一所述的方法。