CN111310701B

CN111310701B - 手势识别方法、装置、设备及存储介质

Info

Publication number: CN111310701B
Application number: CN202010122817.1A
Authority: CN
Inventors: 阳赵阳; 沈小勇; 戴宇荣
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2023-02-10
Anticipated expiration: 2040-02-27
Also published as: CN111310701A

Abstract

本申请实施例公开了一种手势识别方法、装置、设备及存储介质，属于人工智能技术领域。该方法包括：获取到连续的预设数量的手势图像帧，通过手势识别模型输出对应的翻译短语。由于手势识别模型中通过多级编码器对手势图像帧进行卷积处理，因此能够避免出现过拟合现象的情况，可以扩大手势识别的通用性，从而提高了识别准确率。并且，计算机设备在获取到预设数量的手势图像帧时，即可进行识别得到对应的翻译短语，因此可以实现以短语为单位进行输出，提高了实时性和灵活性。与以语句为单位进行识别的方案相比，本申请实施例所需获取的手势图像帧的数量更少，即只需获取到更少数量的手势图像帧即可进行识别，可以提高手势识别的效率。

Description

手势识别方法、装置、设备及存储介质

技术领域

本申请实施例涉及人工智能技术领域，特别涉及一种手势识别方法、装置、设备及存储介质。

背景技术

手语是聋哑人士进行交流的一种手势语言，可根据手势的变化来传递信息。然而，由于手语的复杂性，多数正常人无法理解手语传递的信息，也无法使用手语与聋哑人士进行交流，导致正常人与聋哑人士的交流存在障碍。随着人工智能技术的发展，目前可通过手势识别功能实现对手语的翻译。

相关技术中，采集多个手势图像帧作为样本数据集，来训练双向长短期记忆网络模型(Bi-LSTM，Bi-Long Short Term Memory)，通过训练后的双向长短期记忆网络模型对待识别的多个手势图像帧进行处理，得到对应的翻译语句。

但是，由于样本数据集中的手势图像帧数量有限，在训练过程中双向长短期记忆网络模型容易出现过拟合现象，导致在识别手势过程中仅能识别出样本数据集中的手势图像帧，并且只能对多个手势图像帧进行识别得到翻译语句，识别效率较低。

发明内容

本申请实施例提供了一种手势识别方法、装置、设备及存储介质，可以提高手势识别的效率。所述技术方案如下：

一方面，提供了一种手势识别方法，所述方法包括：

每当获取到连续的预设数量的手势图像帧，通过手势识别模型中的第一编码器，对所述预设数量的手势图像帧进行卷积处理，得到所述预设数量的手势图像帧的第一语义特征，所述第一语义特征表示对应的手势图像帧的语义；

通过所述手势识别模型中的第二编码器，对所述第一语义特征进行卷积处理，得到所述预设数量的手势图像帧的第二语义特征，所述第二语义特征表示对应的手势图像帧对应的词语的语义；

通过所述手势识别模型中的第三编码器，对所述第二语义特征进行卷积处理，得到所述预设数量的手势图像帧的第三语义特征，所述第三语义特征表示对应的手势图像帧对应的短语的语义；

通过所述手势识别模型中的第一解码器，对所述第三语义特征进行解码处理，得到所述预设数量的手势图像帧对应的翻译短语，输出所述翻译短语，所述翻译短语包括至少一个词语。

另一方面，提供了一种手势识别装置，所述装置包括：

第一卷积处理模块，用于每当获取到连续的预设数量的手势图像帧，通过手势识别模型中的第一编码器，对所述预设数量的手势图像帧进行卷积处理，得到所述预设数量的手势图像帧的第一语义特征，所述第一语义特征表示对应的手势图像帧的语义；

第二卷积处理模块，用于通过所述手势识别模型中的第二编码器，对所述第一语义特征进行卷积处理，得到所述预设数量的手势图像帧的第二语义特征，所述第二语义特征表示对应的手势图像帧对应的词语的语义；

第三卷积处理模块，用于通过所述手势识别模型中的第三编码器，对所述第二语义特征进行卷积处理，得到所述预设数量的手势图像帧的第三语义特征，所述第三语义特征表示对应的手势图像帧对应的短语的语义；

解码处理模块，用于通过所述手势识别模型中的第一解码器，对所述第三语义特征进行解码处理，得到所述预设数量的手势图像帧对应的翻译短语，输出所述翻译短语，所述翻译短语包括至少一个词语。

可选地，所述第一编码器中包括多个卷积层以及每个卷积层对应的池化层，所述第一卷积处理模块，包括：

第一卷积处理单元，用于通过所述第一编码器中的第一卷积层，按照所述预设数量的手势图像帧的顺序分别对每个手势图像帧进行卷积处理，得到所述每个手势图像帧的第一卷积特征；

第一池化处理单元，用于通过所述第一卷积层对应的第一池化层，对所述每个手势图像帧的第一卷积特征进行池化处理，得到所述每个手势图像帧的第一池化特征；

第一处理单元，用于通过所述第一编码器中的第二卷积层和所述第二卷积层对应的第二池化层继续进行处理，直至通过最后一个卷积层对应的池化层得到所述预设数量的手势图像帧的第一语义特征。

可选地，所述第二编码器包括多个卷积层以及每个卷积层对应的池化层，所述第二卷积处理模块，包括：

第二卷积处理单元，用于通过所述第二编码器中的第三卷积层，对所述第一语义特征进行卷积处理，得到所述预设数量的手势图像帧的第二卷积特征；

第二池化处理单元，用于通过所述第三卷积层对应的第三池化层，对所述预设数量的手势图像帧的第二卷积特征进行池化处理，得到所述预设数量的手势图像帧的第二池化特征；

第二处理单元，用于通过所述第二编码器中的第四卷积层和所述第四卷积层对应的第四池化层继续进行处理，直至通过最后一个卷积层对应的池化层得到所述预设数量的手势图像帧的第二语义特征。

可选地，所述第三编码器包括第五卷积层，所述第三卷积处理模块，包括：

第三卷积处理单元，用于通过所述第三编码器中的第五卷积层，对所述第二语义特征进行卷积处理，得到所述预设数量的手势图像帧的第三语义特征。

可选地，所述解码处理模块，包括：

解码单元，用于通过所述第一解码器，对所述第三语义特征进行解码，得到所述第三语义特征对应的多个位置中，每个位置对应于多个预设词语的概率；

输出单元，用于将所述每个位置对应的概率最大的预设词语确定为所述每个位置对应的目标词语，按照所述每个位置的顺序输出所述每个位置对应的目标词语。

可选地，所述目标词语包括空白标识，所述输出单元，还用于将多个目标词语中的空白标识删除后，按照所述每个位置的顺序输出剩余的目标词语。

可选地，所述输出单元，还用于将位置相邻的相同目标词语进行去重处理后，按照所述每个位置的顺序输出剩余的目标词语。

可选地，所述装置还包括：

样本获取模块，用于获取连续的预设数量的样本手势图像帧，以及所述预设数量的样本手势图像帧对应的样本翻译短语；

训练模块，用于根据所述预设数量的样本手势图像帧以及所述样本翻译短语，训练所述手势识别模型。

可选地，所述训练模块，包括：

第四卷积处理单元，用于通过所述手势识别模型中的第一编码器，对所述预设数量的样本手势图像帧进行卷积处理，得到所述预设数量的样本手势图像帧的第一样本语义特征，所述第一样本语义特征表示对应的样本手势图像帧的语义；

第五卷积处理单元，用于通过所述手势识别模型中的第二编码器，对所述第一样本语义特征进行卷积处理，得到所述预设数量的样本手势图像帧的第二样本语义特征，所述第二样本语义特征表示对应的样本手势图像帧对应的词语的语义；

第六卷积处理单元，用于通过所述手势识别模型中的第三编码器，对所述第二样本语义特征进行卷积处理，得到所述预设数量的样本手势图像帧的第三样本语义特征，所述第三样本语义特征表示对应的样本手势图像帧对应的语句的语义；

训练单元，用于根据所述第二样本语义特征、所述第三样本语义特征和所述样本翻译短语，训练所述手势识别模型。

可选地，所述训练单元，还用于：

通过所述手势识别模型中的第一解码器，对所述第三样本语义特征进行解码，得到多个位置中，每个位置对应于多个预设词语的第一概率；

通过所述手势识别模型中的第二解码器，对所述第二样本语义特征进行解码，得到所述多个位置中，每个位置对应于多个预设词语的第二概率；

根据所述每个位置对应于所述多个预设词语的第一概率、所述每个位置对应于所述多个预设词语的第二概率和所述样本翻译短语，训练所述手势识别模型。

可选地，所述训练单元，还用于：

根据所述每个位置对应于所述多个预设词语的第一概率和所述样本翻译短语，确定参考集合，所述参考集合中包括所述每个位置对应的参考词语及第一概率；

根据所述每个位置对应于所述多个预设词语的第二概率和所述参考集合，确定目标集合，所述目标集合中包括所述每个位置对应的目标词语及第二概率，所述参考集合中的参考词语与所述目标集合中同一位置上的目标词语相同；

根据所述参考集合和所述目标集合之间的差异特征，对所述第一编码器和所述第二编码器的模型参数进行调整。

可选地，所述训练单元，还用于：

根据所述每个位置对应于所述多个预设词语的第一概率和所述样本翻译短语，确定多个候选参考集合，所述候选参考集合中包括所述每个位置对应的参考词语及第一概率，不同的候选参考集合中同一位置对应的参考词语不同；

对每个候选参考集合中的第一概率进行统计，分别确定每个候选参考集合的统计概率，在所述多个候选参考集合中选取所述统计概率最大的候选参考集合。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行以实现如所述手势识别方法中所执行的操作。

再一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如所述手势识别方法中所执行的操作。

本申请实施例提供的方法、装置及存储介质，每当获取到连续的预设数量的手势图像帧，通过手势识别模型输出对应的翻译短语。由于本申请实施例中的手势识别模型中，不包括双向长短期记忆网络，而是通过多级编码器对手势图像帧进行卷积处理，因此能够避免双向长短期记忆网络模型出现过拟合现象的情况，该手势识别模型可以扩大手势识别的通用性，从而提高了识别准确率。并且，计算机设备在获取到预设数量的手势图像帧时，即可进行识别得到对应的翻译短语，因此可以实现以短语为单位进行输出，提高了实时性和灵活性。与以语句为单位进行识别的方案相比，本申请实施例所需获取的手势图像帧的数量更少，即只需获取到更少数量的手势图像帧即可进行识别，可以提高手势识别的效率。

并且，通过多级编码器对预设数量的手势图像帧进行卷积处理，依次得到预设数量的手势图像帧的第一语义特征、第二语义特征和第三语义特征，其中第一语义特征表示手势图像帧的语义，第二语义特征表示手势图像帧的词语的语义，第三语义特征表示手势图像帧的短语的语义，从而划分出多个层级来进行特征提取，每个层级的实现都基于卷积神经网络，可以提高手势识别的准确率。

并且，获取连续的预设数量的样本手势图像帧，以及预设数量的样本手势图像帧对应的样本翻译短语，通过手势识别模型中的多级编码器获取样本手势图像帧的第二样本语义特征和第三样本语义特征，根据第一解码器对第三样本语义特征进行解码得到第一概率，根据第二解码器对第二样本语义特征进行解码得到第二概率，根据第一概率、第二概率以及样本翻译短语，训练手势识别模型。因此，通过增加第二解码器，对第二样本语义特征进行解码来实现对手势识别模型的训练，可以增强手势识别模型对第二语义特征的提取能力。

并且，由于手势识别模型通过对手势图像帧进行卷积处理得到第三语义特征，可以将第三语义特征所对应的相邻的手势图像帧的个数进行限制，使得手势识别模型无需基于完整句子对应的手势图像帧进行特征提取，进一步避免了手势识别模型的过拟合现象。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图。

图2是本申请实施例提供的一种手势识别模型的结构示意图。

图3是本申请实施例提供的一种手势识别方法的流程图。

图4是本申请实施例提供的一种处理手势图像帧的示意图。

图5是本申请实施例提供的一种处理第一语义特征的示意图。

图6是本申请实施例提供的一种处理第二语义特征的示意图。

图7是本申请实施例提供的另一种手势识别方法的流程图。

图8是本申请实施例提供的一种识别手势图像帧的示意图。

图9是本申请实施例提供的一种识别手势的示意图。

图10是本申请实施例提供的一种模型训练方法的流程图。

图11是本申请实施例提供的另一种模型训练方法的流程图。

图12是本申请实施例提供的另一种识别手势图像帧的示意图。

图13是本申请实施例提供的一种手势识别装置的结构示意图。

图14是本申请实施例提供的另一种手势识别装置的结构示意图。

图15是本申请实施例提供的一种终端的结构示意图。

图16是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说，在不脱离本申请的范围的情况下，可以将第一卷积特征称为第二卷积特征，且类似地，可将第二卷积特征称为第一卷积特征。

本申请所使用的术语“多个”和“每个”，多个包括两个或两个以上，而每个是指对应的多个中的每一个。举例来说，多个位置包括3个位置，而每个位置是指这3个位置中的每一个位置。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术包括自然语言处理技术和机器学习。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。以下将基于人工智能技术和自然语言处理技术，对本申请实施例提供的手势识别方法进行说明。

本申请实施例提供了一种手势识别方法，执行主体为计算机设备。

在一种可能实现方式中，该计算机设备可以为终端，终端可以是手机、计算机、平板电脑、智能电视、智能机器人等多种类型的设备。终端通过手势识别模型，对连续的预设数量的手势图像帧进行处理，得到预设数量的手势图像帧对应的翻译短语。

在另一种可能实现方式中，该计算机设备可以包括服务器和终端。图1是本申请实施例提供的一种实施环境的示意图，如图1所示，该实施环境包括终端101和服务器102。终端101与服务器102建立通信连接，通过建立的通信连接进行交互。其中，该终端101可以为手机、计算机、平板电脑、智能电视、智能机器人等多种类型的终端101。服务器102可以为一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务器中心。

服务器102对手势识别模型进行训练，将训练后的手势识别模型发送至终端101，终端101通过该手势识别模型，对连续的预设数量的手势图像帧进行处理，得到预设数量的手势图像帧对应的翻译短语。

在一种可能实现方式中，如图2所示，本申请实施例提供的手势识别模型201可以包括第一编码器211、第二编码器221、第三编码器231、第一解码器241和第二解码器251。

其中，第一编码器211与第二编码器221连接，第二编码器221与第三编码器231连接，第三编码器231与第一解码器241连接，第二编码器221与第二解码器251连接。

其中，第一编码器211用于根据输入的图像帧，得到图像帧的第一语义特征；第二编码器221用于根据输入的第一语义特征，得到对应的图像帧的第二语义特征；第三编码器231用于根据输入的第二语义特征，得到对应的图像帧的第三语义特征；第一解码器241用于根据输入的第三语义特征进行解码，得到对应的翻译短语，第二解码器251用于根据输入的第二语义特征进行解码，得到对应的翻译短语。

本申请实施例提供的手势识别方法，可应用于将预设数量的手势图像帧转换成翻译短语的场景下。

例如，通过本申请实施例提供的手势识别方法，可以实现手语翻译，手语翻译是指将手语翻译成文字，这是通过对手语表达中的一系列手势、动作以及手势和动作之间的切换进行分析而达到的。

具体可应用于翻译应用的手语翻译系统中，用户做出手语的手势，计算机设备中通过摄像头进行拍摄，获取连续的预设数量的手势图像帧，计算机设备通过预先存储的手势识别模型，对该预设数量的手势图像帧进行识别，得到对应的翻译短语，将翻译短语发送给该用户的好友，或者将该翻译短语发布在社交平台上。除此之外，还可以应用于听障人与健全人聊天的其他场景下，将听障人的手语实时翻译成短语，实现听障人与健全人之间的无障碍沟通。

图3是本申请实施例提供的一种手势识别方法的流程图。应用于计算机设备中，参见图3，该方法包括：

301、计算机设备获取连续的预设数量的手势图像帧。

计算机设备可通过预设方式获取连续的预设数量的手势图像帧。手势图像帧是指包括手势的图像帧，该连续的预设数量的手势图像帧是指在时间上连续的预设数量的手势图像帧，例如在时间上连续的多个手语手势的图像帧等。其中，手势图像帧的大小可以由计算机设备默认设置或者由用户设置，例如，手势图像帧的大小为224*224、512*512等。该预设数量也可以由计算机设备默认设置或者由用户设置，是指一般情况下能够识别出短语的手势图像帧的数量，例如，预设数量可以为12个、15个等。

在一种可能的实现方式中，计算机设备中配置有摄像头，对摄像头进行设置之后，该摄像头可以对预设范围进行拍摄，得到拍摄画面，并将拍摄画面存储在电子设备中，其中预设范围即该摄像头可以拍摄到的范围，如以摄像头为顶点的扇形区域或者以摄像头为圆心的圆形区域等，该预设范围可以根据摄像头的拍摄距离和拍摄角度确定。计算机设备通过摄像头对预设范围进行拍摄，得到拍摄画面，在拍摄画面中提取连续的预设数量的手势图像帧。

在另一种可能实现的方式中，预设数量的手势图像帧可以由该计算机设备从其他设备中下载，或者由其他设备上传到该计算机设备中，或者由用户存储于计算机设备中，或者还可以为其他来源的手势图像帧。

在另一种可能实现的方式中，计算机设备中可以运行目标应用，当计算机设备检测到目标应用开始运行时，通过摄像头对预设范围进行拍摄，得到对预设范围的拍摄画面，在拍摄画面中提取连续的预设数量的手势图像帧。其中，该目标应用可以为计算机设备上安装的手语翻译应用等，本申请实施例对此不做限定。

302、计算机设备通过手势识别模型中的第一编码器，对预设数量的手势图像帧进行卷积处理，得到预设数量的手势图像帧的第一语义特征。

计算机设备中存储有预先训练的手势识别模型，该手势识别模型用于根据连续的预设数量的手势图像帧，生成与该预设数量的手势图像帧对应的翻译短语。该手势识别模型可以为基于深度全卷积神经网络的模型或者其他类型的模型，该手势识别模型至少包括第一编码器、第二编码器、第三编码器和第一解码器。其中，该手势识别模型的具体结构可参见上述图2，对手势识别模型进行训练的过程可参见下述图10对应的实施例，在此暂不做说明。

计算机设备将预设数量的手势图像帧输入至手势识别模型中，手势识别模型中的第一编码器按照预设数量的手势图像帧在时间上的排列顺序，分别对每个手势图像帧进行卷积处理，得到预设数量的手势图像帧的第一语义特征。

其中，该手势识别模型中的第一编码器为帧级编码器，用于根据手势图像帧得到该手势图像帧的第一语义特征，第一语义特征为帧级语义特征，该第一语义特征以图像帧为单位，能够表示对应的手势图像帧的语义，该第一语义特征可以为特征矩阵或者多维特征向量等。

在一种可能实现的方式中，第一编码器中包括多个卷积层以及每个卷积层对应的池化层。其中，第一编码器的卷积层用于进行特征提取，池化层用于进行特征压缩。每个卷积层与对应的池化层连接，每个池化层与下一个卷积层连接。池化层可以为最大池化层、全局均值池化层等。可选地，第一编码器中的卷积层可以为二维卷积层，相应地，该二维卷积层的对应的池化层为二维池化层。例如，二维卷积层的卷积核大小可以为3*3，步长可以为1；该二维池化层的大小可以为2*2等。本申请实施例对卷积层的具体参数和池化层的具体参数不做限定。

计算机设备通过第一编码器中的第一卷积层，按照预设数量的手势图像帧的顺序分别对每个手势图像帧进行卷积处理，得到每个手势图像帧的第一卷积特征。计算机设备通过第一卷积层对应的第一池化层，对每个手势图像帧的第一卷积特征进行池化处理，得到每个手势图像帧的第一池化特征。计算机设备通过第一编码器中的第二卷积层和第二卷积层对应的第二池化层继续进行处理，直至通过最后一个卷积层对应的池化层得到预设数量的手势图像帧的第一语义特征。其中，本申请实施例中的第一卷积层是指第一编码器中的第一个卷积层，第二卷积层是指第一个卷积层之后的卷积层。

对于预设数量的手势图像帧中的任一手势图像帧，计算机设备通过第一编码器中的第一卷积层对该手势图像帧进行卷积处理，得到该手势图像帧的第一卷积特征，计算机设备将该第一卷积特征输入至该第一卷积层对应的第一池化层，由第一池化层对该第一卷积特征进行池化处理，得到该手势图像帧的第一池化特征，计算机设备将该第一池化特征输入至该第一池化层连接的第二卷积层中，由第二卷积层对该第一池化特征进行卷积处理，然后由第二卷积层对应的第二池化层对第二卷积层得到的结果进行池化处理，再由下一个卷积层和对应的池化层重复执行上述操作，直至最后一个卷积层对应的池化层输出池化特征，该池化特征即为该手势图像帧的第一语义特征。因此，对于预设数量的手势图像帧中的任一手势图像帧，均执行上述操作，即可得到预设数量的手势图像帧的第一语义特征。

其中，第一编码器的编码过程可用以下公式表示：

{s}^t×fs＝S({x}^t×c×h×w)＝S_gap(S_cnn({x}^t×c×h×w))；

其中，{s}^t×fs表示维度为fs、序列长度为t的第一语义特征，{x}^t×c×h×w表示个数为t、通道数量为c、高度为h、宽度为w的手势图像帧，S(·)表示第一编码器，S_gap(·)表示全局均值池化层，S_cnn(·)表示卷积层。

例如，预设数量的手势图像帧的数量为12个，手势图像帧的大小为224*224，第一编码器中包括5个二维卷积层和对应的5个二维池化层，二维卷积层的卷积核大小为3*3，步长为1，二维池化层的大小为2*2，其中，前四个二维池化层为最大池化层，第五个二维池化层为全局均值池化层。则第一编码器按照时间顺序分别对12个手势图像帧进行处理，得到该12个手势图像帧的第一语义特征，则该第一语义特征为12个512维的帧级特征向量，帧级特征向量能够表示对应的手势图像帧的语义，12个512维的帧级特征向量分别表示12个手势图像帧的语义。

如图4所示，手势图像帧401包括RGB(Red-Green-Blue，红绿蓝)三个通道，由四个二维卷积层以及对应的二维池化层对手势图像帧进行处理，得到的是512维(也即是512个通道)的特征矩阵，由全局均值池化层对512维的特征矩阵进行处理，得到的是该手势图像帧的第一语义特征402，其中第一语义特征402为512维的特征向量。

303、计算机设备通过手势识别模型中的第二编码器，对第一语义特征进行卷积处理，得到预设数量的手势图像帧的第二语义特征。

计算机设备获取到预设数量的手势图像帧的第一语义特征时，将该第一语义特征输入至手势识别模型中的第二编码器，该第二编码器对第一语义特征进行卷积处理，可以得到该第一语义特征对应的语义特征，该语义特征即为该预设数量的手势图像帧的第二语义特征。

其中，第二编码器与第一编码器连接，该第二编码器为词级编码器，用于根据第一语义特征得到对应的手势图像帧的第二语义特征。该第二语义特征为词级语义特征，表示对应的手势图像帧对应的词语的语义，该第二语义特征可以为特征矩阵或者多维特征向量等。

在一种可能实现的方式中，第二编码器包括多个卷积层以及每个卷积层对应的池化层。其中，第二编码器的卷积层用于进行特征提取，池化层用于进行特征压缩。每个卷积层与对应的池化层连接，每个池化层与下一个卷积层连接。池化层可以为最大池化层、全局均值池化层等。可选地，第一编码器中的卷积层可以为一维卷积层，相应地，该一维卷积层的对应的池化层为一维池化层。例如，一维卷积层的卷积核大小可以为3，步长可以为1，该一维池化层的大小可以为2等。本申请实施例对卷积层的具体参数和池化层的具体参数不做限定。

计算机设备通过第二编码器中的第三卷积层，对第一语义特征进行卷积处理，得到预设数量的手势图像帧的第二卷积特征。计算机设备通过第三卷积层对应的第三池化层，对预设数量的手势图像帧的第二卷积特征进行池化处理，得到预设数量的手势图像帧的第二池化特征。计算机设备通过第二编码器中的第四卷积层和第四卷积层对应的第四池化层继续进行处理，直至通过最后一个卷积层对应的池化层得到预设数量的手势图像帧的第二语义特征。其中，本申请实施例中的第三卷积层是指第二编码器中的第一个卷积层，第四卷积层是指第一个卷积层之后的卷积层。

计算机设备通过第二编码器中的第三卷积层对该输入的第一语义特征进行卷积处理，得到预设数量的手势图像帧的第二卷积特征，计算机设备将该第二卷积特征输入至该第三卷积层对应的第三池化层，由第三池化层对该第二卷积特征进行池化处理，得到该手势图像帧的第二池化特征，计算机设备将该第二池化特征输入至该第三池化层连接的第四卷积层中，由第四卷积层对该第二池化特征进行卷积处理，然后由第四卷积层对应的第四池化层对第三卷积层得到的结果进行池化处理，再由下一个卷积层和对应的池化层重复执行上述操作，直至最后一个卷积层对应的池化层输出池化特征，该池化特征即为该手势图像帧的第二语义特征。可选地，该第一语义特征为多个多维帧级特征向量，通过卷积层对第一语义特征进行卷积处理时，将每个帧级特征向量作为卷积通道，将帧级特征向量的时序维度作为卷积方向。

其中，第二编码器的编码过程可用以下公式表示：

{g}^k×fg＝T({s}^t×fs)，{g}^k×fg表示维度为fg、序列长度为k的第二语义特征，{s}^t×fs表示维度为fs序列长度为t的第一语义特征，T(·)表示第二编码器。

序列长度为k可用以下公式计算得出：

其中l为第二编码器进行卷积处理时的滑动窗口的大小，δ为第二编码器进行卷积处理时的步幅的大小。

例如，该第一语义特征为12个512维的帧级特征向量，第二编码器中包括2个一维卷积层和对应的2个一维池化层，一维卷积层的卷积核大小为3，步长为1，一维池化层的大小为2，其中一维池化层为最大池化层。则第二编码器对该12个512维的特征向量进行处理，得到对应的12个手势图像帧的第二语义特征，则该第二语义特征为3个512维的词级特征向量。

如图5所示，预设数量的手势图像帧的第一语义特征501包括12个帧级特征向量，由一维卷积层以及对应的一维池化层对第一语义特征501进行处理，得到的是6个中间特征向量，再由一维卷积层以及对应的一维池化层对6个中间特征向量进行处理，得到的是预设数量的手势图像帧的第二语义特征502，其中第二语义特征502为3个词级特征向量。

304、计算机设备通过手势识别模型中的第三编码器，对第二语义特征进行卷积处理，得到预设数量的手势图像帧的第三语义特征。

计算机设备获取到预设数量的手势图像帧的第二语义特征时，将该第二语义特征输入至手势识别模型中的第三编码器，该第三编码器对第二语义特征进行卷积处理，可以得到该第二语义特征对应的语义特征，该语义特征即为该预设数量的手势图像帧的第三语义特征。

其中，第三编码器与第二编码器连接，该第三编码器为句级编码器，用于根据第二语义特征得到对应的手势图像帧的第三语义特征。该第三语义特征为短语级语义特征，表示对应的手势图像帧对应的短语的语义，该第三语义特征可以为特征矩阵或者多维特征向量等。

在一种可能实现的方式中，第三编码器包括第五卷积层，该第五卷积层用于进行特征提取。可选地，第五卷积层可以为一维卷积层，例如一维卷积层的卷积核大小可以为3，步长可以为1等。本申请实施例对卷积层的具体参数不做限定。计算机设备通过第三编码器中的第五卷积层，对第二语义特征进行卷积处理，得到预设数量的手势图像帧的第三语义特征。

其中，第三编码器的编码过程可用以下公式表示：

{m}^k×fm＝M({g}^k×fg)，{m}^k×fm表示维度为fm、序列长度为k的第三语义特征，{g}^k×fg表示维度为fg、序列长度为k的第二语义特征，M(·)表示第三编码器。

例如，该第二语义特征为3个512维的词级特征向量，第三编码器中包括一个一维卷积层，该一维卷积层的卷积核大小为3步长为1。则第二编码器对该3个512维的特征向量进行处理，得到对应的12个手势图像帧的第三语义特征，则该第三语义特征为3个512维的短语级特征向量。

如图6所示，预设数量的手势图像帧的第二语义特征601包括3个词级特征向量，由一维卷积层对第二语义特征601进行处理，得到的是预设数量的手势图像帧的第三语义特征602，其中第三语义特征602为3个短语级特征向量。

305、计算机设备通过手势识别模型中的第一解码器，对第三语义特征进行解码处理，得到预设数量的手势图像帧对应的翻译短语。

计算机设备获取到预设数量的手势图像帧的第三语义特征时，将该第三语义特征输入至手势识别模型中的第一解码器中，该第一解码器对该第三语义特征进行解码处理，可以得到该第三语义特征对应的短语，该短语即为该预设数量的手势图像帧对应的翻译短语，该翻译短语中包括至少一个词语。

其中，第一解码器与手势识别模型中的第三编码器连接，该第一解码器用于对第三编码器输出的第三语义特征进行解码，得到翻译短语。可选地，该第一解码器可以为CTC(Convolutional Turbo Code，一种并行级联卷积码)解码器。

在一种可能实现的方式中，计算机设备通过第一解码器，对第三语义特征进行解码，得到第三语义特征对应的多个位置中，每个位置对应于多个预设词语的概率。计算机设备将每个位置对应的概率最大的预设词语确定为每个位置对应的目标词语，按照每个位置的顺序输出每个位置对应的目标词语，输出的多个目标词语即为翻译短语。

可选地，第三语义特征包括第一预设数量的多个词语级特征向量，其中每个短语级特征向量对应一个位置，则该第一预设数量的多个短语级特征向量对应第一预设数量的多个位置。该第一解码器对该第一预设数量的多个短语级特征向量进行解码处理，得到第一预设数量的多个位置中，每个位置对应于第二预设数量的多个预设词语的概率。也即是，通过第一解码器，对第三语义特征进行解码，得到了大小为u×k的概率图，其中u为多个预设词语的第二预设数量，k为多个短语级特征向量的第一预设数量。对于多个位置中的每一个位置，计算机设备将该位置对应于多个预设词语的概率中，最大概率对应的预设词语确定为该位置上的目标词语。最终得到多个位置中的每个位置上的目标词语，该多个目标词语即为翻译短语。则计算机设备按照多个位置的排列顺序，输出每个位置对应的目标词语，实现了输出翻译短语。

可选地，目标词语包括空白标识，空白标识表示对应的位置上没有真实的词语，该空白标识不具备表示语义的作用。因此，当计算机设备确定每个位置上的目标词语后，若该多个目标词语中属于空白标识的目标词语，则将多个目标词语中的空白标识删除，按照每个位置的顺序输出剩余的目标词语。

可选地，多个位置中相邻位置上的目标词语可能不同但也可能相同，若相邻位置上的目标词语相同，则将每个位置对应的目标词语进行拼接，得到的翻译短语中会出现连续的多个目标词语相同的情况，影响翻译短语所表达的语义。因此，当计算机设备确定每个位置上的目标词语后，若相邻位置上的目标词语相同，则将位置相邻的相同目标词语进行去重处理，从而保证位置相邻的相同的多个目标词语仅保留一个目标词语，按照每个位置的顺序输出剩余的目标词语。

其中，第一解码器的解码过程可用以下公式表示：

{z}^k×u＝D({m}^k×fm)＝D_softmax(D_fc({m}^k×fm))；

其中，{z}^k×u表示k个位置中每个位置对应于u个预设词语的概率，{m}^k×fm表示维度为fm、序列长度为k的第三语义特征，D(·)表示第一解码器，D_softmax(·)表示第一解码器中的Softmax(逻辑回归)层，D_fc(·)表示第一解码器中的全连接层。

例如，4个位置中对应的目标词语分别为“A”、“A”、“A”、“B”，则输出的翻译短语为“AAAB”，若计算机设备对位置相邻的相同目标词语进行去重处理，则输出的翻译短语为“AB”。或者，4个位置中对应的目标词语分别为“A”、“A”、“B”、“B”，则输出的翻译短语为“AABB”，若计算机设备对位置相邻的相同目标词语进行去重处理，则输出的翻译短语为“AB”。

可选地，计算机设备确定每个位置上的目标词语后，将多个目标词语中的空白标识删除，并将位置相邻的相同目标词语进行去重处理。也即是，若计算机设备确定目标词语中包括空白标识，而且相邻位置上的目标词语相同，则计算机设备将空白标识删除，并将位置相邻的相同目标词语进行去重处理。

图7是本申请实施例提供的另一种手势识别方法的流程图，参见图7，计算机设备将连续的预设数量的手势图像帧输入第一编码器701中，得到预设数量的手势图像帧的第一语义特征，将第一语义特征输入第二编码器702中，得到预设数量的手势图像帧的第二语义特征；将第二语义特征输入第三编码器703中，得到预设数量的手势图像帧的第三语义特征，将第三语义特征输入第一解码器704中，得到预设数量的手势图像帧对应的翻译短语。

通过本申请实施例提供的方法，首先运用二维卷积层对手势图像帧中的空间信息进行捕捉得到第一语义特征，然后利用一维卷积层对相邻的第一语义特征进行整合分析得到第二语义特征，之后再次利用一维卷积层对相邻的第二语义特征进行整合分析得到第三语义特征，而第三语义特征将被用于词语推测，得到预设数量的手势图像帧对应的翻译短语。如图8所示，将连续的10个手势图像帧801-810进行处理，可以得到该10个手势图像帧801-810对应的翻译短语“我丈夫的朋友是教练”。

如表1所示，选取第一数据集和第二数据集作为实验数据，分别通过以下几种手势识别模型进行实验得到实验结果，其中可用词语错误率来评估模型的性能，参见表1。

表1

	第一数据集	第二数据集
			无卷积网络模型	60.5	23.3
长短期记忆网络-卷积网络模型	32.1	10.8
			单级卷积网络模型	42.1	10.4
卷积网络-双向长短期记忆网络模型	26.5	3.4
			长短期记忆网络-双向长短期记忆网络模型	31.4	3.6
多级卷积网络模型	26.0	8.2

从表1中可以看出，与无卷积网络模型、长短期记忆网络-卷积网络模型、单级卷积网络模型、卷积网络-双向长短期记忆网络模型、长短期记忆网络-双向长短期记忆网络模型相比，本申请实施例采用的多级卷积网络模型的词语错误率最低，手势识别的准确率更高。

相关技术中，采用双向长短期记忆网络模型进行手势识别，而双向长短期记忆网络模型在处理手势图像帧时，需要对多个手势图像帧按照时间顺序进行正向和反向的两次处理，因此只能输出该多个手势图像帧对应的完整的翻译语句，相应地，需要等到获取到足够数量的手势图像帧才能输出完整的翻译语句。

而本申请实施例提供的方法，无需对手势图像帧进行正向和反向的两次处理，因此无需获取足够数量的手势图像帧，仅需输入较少数量的手势图像帧即可进行识别。并且通过对较少数量的手势图像帧进行识别输出的是对应的翻译短语而不是翻译语句，因此可以实现以短语为单位进行输出。

例如，如图9所示，用户按顺序做出手势，手势对应的翻译语句为“我丈夫的朋友是教练”，且通过计算机设备实时采集手势图像帧。

参见图9，相关技术中，计算机设备实时采集用户做出手势的画面，最终获取到手势图像帧集合901，手势图像帧集合901中包括完整的翻译语句对应的9个手势图像帧，计算机设备对手势图像帧集合901进行识别，输出翻译语句“我丈夫的朋友是教练”。

参见图9，本申请实施例提供的方法，以预设数量为3个为例，计算机设备实时采集用户做出手势的画面，获取到包括3个手势图像帧的手势图像帧集合902，对手势图像帧集合902进行识别，输出翻译短语“我丈夫的”；当获取到下一组包括3个手势图像帧的手势图像帧集合903时，对手势图像帧集合903进行识别，输出翻译短语“朋友是”；当再次获取到下一组包括3个手势图像帧的手势图像帧集合904时，对手势图像帧集合904进行识别，输出翻译短语“朋友是”。因此实现了多次输出翻译短语，多个翻译短语即可构成翻译语句。

本申请实施例提供的方法，每当获取到连续的预设数量的手势图像帧，通过手势识别模型输出对应的翻译短语。由于本申请实施例中的手势识别模型中，不包括双向长短期记忆网络，而是通过多级编码器对手势图像帧进行卷积处理，因此能够避免双向长短期记忆网络模型出现过拟合现象的情况，该手势识别模型可以扩大手势识别的通用性，从而提高了识别准确率。并且，计算机设备在获取到预设数量的手势图像帧时，即可进行识别得到对应的翻译短语，因此可以实现以短语为单位进行输出，提高了实时性和灵活性。与以语句为单位进行识别的方案相比，本申请实施例所需获取的手势图像帧的数量更少，即只需获取到更少数量的手势图像帧即可进行识别，可以提高手势识别的效率。

图10是本申请实施例提供的一种模型训练方法的流程图。通过本申请实施例可训练手势识别模型，该手势识别模型可应用于上述图3对应的实施例中提供的手势识别方法中。本申请实施例的执行主体为计算机设备，参见图10，该方法包括：

1001、计算机设备获取连续的预设数量的样本手势图像帧，以及预设数量的样本手势图像帧对应的样本翻译短语。

预设数量的样本手势图像帧和对应的样本翻译短语可以由该计算机设备从其他设备中下载，或者由其他设备上传到该计算机设备中，或者由用户存储于计算机设备中，或者还可以为其他来源的样本手势图像帧和样本翻译短语。

1002、计算机设备通过手势识别模型中的第一编码器，对预设数量的样本手势图像帧进行卷积处理，得到预设数量的样本手势图像帧的第一样本语义特征。

当计算机设备获取到预设数量的样本手势图像帧时，将该预设数量的样本手势图像帧输入至该手势识别模型中。此时的手势识别模型可以为生成的初始模型，也可以为初始模型在经过一次或多次训练后得到的模型。

其中，该手势识别模型中至少包括第一编码器、第二编码器、第三编码器、第一解码器和第二解码器。该手势识别模型的具体结构可参见上述图2。

其中，该第一样本语义特征为样本帧级语义特征，表示对应的样本手势图像帧的语义。

1003、计算机设备通过手势识别模型中的第二编码器，对第一样本语义特征进行卷积处理，得到预设数量的样本手势图像帧的第二样本语义特征。

该第二语义特征样本为样本词级语义特征，表示对应的样本手势图像帧对应的词语的语义。

1004、计算机设备通过手势识别模型中的第三编码器，对第二样本语义特征进行卷积处理，得到预设数量的样本手势图像帧的第三样本语义特征。

该第三样本语义特征为样本短语级语义特征，表示对应的样本手势图像帧对应的短语的语义。

其中，步骤1002-1004中计算机设备通过该第一编码器、第二编码器和第三编码器得到预设数量的样本手势图像帧的第三样本语义特征的过程，与上述步骤302-304中计算机设备得到预设数量的手势图像帧的第三语义特征的具体过程类似，在此不再一一赘述。

1005、计算机设备通过手势识别模型中的第一解码器，对第三样本语义特征进行解码，得到多个位置中，每个位置对应于多个预设词语的第一概率。

当计算机设备通过手势识别模型中的第三编码器得到预设数量的样本手势图像帧的第三样本语义特征时，计算机设备将该第三样本语义特征输入至手势识别模型中的第一解码器中，由第一解码器对该第三样本语义特征进行解码处理，得到该第三样本语义特征对应的多个位置中，每个位置对应于多个预设词语的第一概率。

其中，该第一解码器与手势识别模型中的第三编码器连接，该第一解码器用于对第三编码器输出的第三语义特征进行解码，得到翻译短语。可选地，该第一解码器可以为CTC(Convolutional Turbo Code，一种并行级联卷积码)解码器。

在一种可能的实现方式中，第三样本语义特征包括第一预设数量的多个样本短语级特征向量，其中每个样本短语级特征向量对应一个位置，则该第一预设数量的多个样本短语级特征向量对应第一预设数量的多个位置。该第一解码器对该第一预设数量的多个样本短语级特征向量进行解码处理，得到第一预设数量的多个位置中，每个位置对应于第二预设数量的多个预设词语的第一概率。也即是，通过第一解码器，对第三样本语义特征进行解码，得到了大小为u×k的第一概率图，其中u为多个预设词语的第二预设数量，k为多个样本短语级特征向量的第一预设数量。

1006、计算机设备通过手势识别模型中的第二解码器，对第二样本语义特征进行解码，得到多个位置中，每个位置对应于多个预设词语的第二概率。

当计算机设备通过手势识别模型中的第二编码器得到预设数量的样本手势图像帧的第二样本语义特征时，计算机设备将该第二样本语义特征输入至手势识别模型中的第二解码器中，由第二解码器对该第二样本语义特征进行解码处理，得到该第二样本语义特征对应的多个位置中，每个位置对应于多个预设词语的第二概率，该多个预设词语与上述步骤105中的多个预设词语相同。

其中，该第二解码器与手势识别模型中的第二编码器连接，该第二解码器用于对第二编码器输出的第二语义特征进行解码，得到翻译短语。可选地，该第二解码器可以为GFE(Gloss Feature Enhancement，光泽特性增强)解码器。

在一种可能的实现方式中，第二样本语义特征包括第一预设数量的多个样本词级特征向量，其中每个样本词级特征向量对应一个位置，则该第一预设数量的多个样本词级特征向量对应第一预设数量的多个位置。该第二解码器对该第一预设数量的多个样本词级特征向量进行解码处理，得到第一预设数量的多个位置中，每个位置对应于第二预设数量的多个预设词语的第二概率。也即是，通过第二解码器，对第二样本语义特征进行解码，得到了大小为u×k的第二概率图，其中u为多个预设词语的第二预设数量，k为多个样本词级特征向量的第一预设数量。

1007、计算机设备根据每个位置对应于多个预设词语的第一概率和样本翻译短语，确定参考集合。

计算机设备获取到每个位置对应于多个预设词语的第一概率，其中每个位置均对应多个预设词语，为了对手势识别模型进行训练，需根据样本翻译短语确定每个位置对应的参考词语，该参考词语属于该位置对应的多个预设词语中的某一词语，由每个位置对应的参考词语以及该参考词语的第一概率组成参考集合。该参考集合需满足的条件为：将每个位置对应的参考词语进行拼接，得到的参考翻译短语应与该样本翻译短语相同。可选地，参考词语中包括空白标识，则将空白标识删除；若相邻位置上的参考词语相同，则将位置相邻的相同参考词语进行去重处理。其中，该参考集合又被称为弱监督算子，弱监督算子用于训练手势识别模型的第一编码器和第二编码器。

由于参考词语中可能包括空白标识，且相邻位置上的参考词语可能相同，因此对于不同的参考集合，参考词语中的空白标识删除，以及将位置相邻的相同参考词语进行去重处理后，得到的参考翻译短语可能是相同的，也即是存在多个参考集合，每个参考集合对应的参考翻译短语均满足与样本翻译短语相同的条件。

因此，在一种可能实现的方式中，计算机设备根据每个位置对应于多个预设词语的第一概率和样本翻译短语，可以确定多个候选参考集合，候选参考集合中包括每个位置对应的参考词语及第一概率，不同的候选参考集合中同一位置对应的参考词语不同。则计算机设备对每个候选参考集合中的第一概率进行统计，分别确定每个候选参考集合的统计概率，在多个候选参考集合中选取统计概率最大的候选参考集合。

可选地，计算机设备确定多个候选参考集合，每个候选参考集合中包括多个第一概率，对于任一候选参考集合，将该候选参考集合中多个第一概率的乘积作为该候选参考集合的统计概率，计算机设备在多个统计概率中确定最大的统计概率，将最大的统计概率对应的候选参考集合作为训练手势识别模型的参考集合。

例如，样本翻译短语为“AB”，预设词语包括“A”、“B”及空白标识“#”，第一解码器对第三样本语义特征进行解码，得到3个位置中每个位置对应于该3个预设词语的第一概率。则3个位置分别对应的参考词语为表2所示的五种情况时，对参考词语进行处理后均可以得到与样本翻译短语相同的参考翻译短语。因此，根据计算机设备根据每个位置对应于多个预设词语的第一概率和样本翻译短语，可以确定5个候选参考集合。

表2

第一个位置	第二个位置	第三个位置
			A	B	B
A	#	B
			A	B	#
#	A	B
			A	A	B

1008、计算机设备根据每个位置对应于多个预设词语的第二概率和参考集合，确定目标集合。

计算机设备获取到每个位置对应于多个预设词语的第二概率，其中每个位置对应多个预设词语，为了对手势识别模型进行训练，需根据参考集合确定每个位置对应的目标词语，该目标词语属于该位置对应的多个预设词语中的某一词语，由每个位置对应的目标词语以及该目标词语的第二概率组成目标集合。该目标集合需满足的条件为：目标集合中的目标词语与参考集合中同一位置上的参考词语相同。其中，目标集合中目标词语的第二概率与参考集合中同一位置上的参考词语的第一概率可能相同，也可能不同。

1009、计算机设备根据参考集合和目标集合之间的差异特征，对第一编码器和第二编码器的模型参数进行调整。

由于参考集合是根据手势识别模型中的第一编码器、第二编码器、第三编码器、第一解码器和对应的样本翻译短语得到的，而目标集合是根据手势识别模型中的第一编码器、第二编码器、第二解码器和参考集合得到的，因此，可以根据参考集合中的第一概率与目标集合中同一位置上对应的第二概率之间的差异特征，来对手势识别模型中的第一编码器和第二编码器的模型参数进行调整，来实现对手势识别模型的训练。

在一种可能实现的方式中，计算机设备确定参考集合和目标集合后，计算参考集合和目标集合中同一位置上的第一概率和第二概率的交叉熵，该交叉熵即为同一位置上的第一概率和第二概率之间的差异特征。每个位置上对应的目标词语包括空类词语和非空类词语，空类词语是指该目标词语为空白标识，非空类词语是指该目标词语不为空白标识。其中，空类词语对应有第一权重，非空类词语对应有第二权重。计算机设备根据空类词语的概率的差异特征和对应的第一权重，以及非空类词语的概率的差异特征和对应的第二权重，得到参考集合和目标集合的联合差异特征，计算机设备根据该联合差异特征对手势识别模型的第一编码器和第二编码器的模型参数进行调整，来完成对手势识别模型的训练。

图11是本申请实施例提供的另一种模型训练方法的流程图，与上述图7所示的手势识别方法相比，在模型训练过程中增加了联合训练网络1109，该联合训练网络1109用于提升第二语义特征的提取能力。参见图11，计算机设备将预设数量的样本手势图像帧输入至第一编码器1101中得到第一样本语义特征，将第一样本语义特征输入至第二编码器1102中得到第二样本语义特征；将第二样本语义特征输入至第三编码器1103中，得到第三样本语义特征。将第三样本语义特征输入至第一解码器1104中得到每个位置对应于多个预设词语的第一概率，也即是概率图1106，根据概率图1106和样本翻译短语确定参考集合1107。将第二样本语义特征输入至第二解码器1105中得到每个位置对应于多个预设词语的第二概率，根据第二概率和参考集合确定目标集合1108，通过对参考集合1107和目标集合1108中同一位置上的第一概率和第二概率计算交叉熵，得到每个位置对应的第一概率和第二概率之间的差异特征。计算机设备根据空类词语的概率的差异特征和对应的第一权重，以及非空类词语的概率的差异特征和对应的第二权重，得到参考集合1107和目标集合1108的联合差异特征，计算机设备根据该联合差异特征对手势识别模型的第一编码器1101和第二编码器1102的模型参数进行调整，来完成对手势识别模型的训练。

其中，计算机设备可通过CTC目标函数计算参考集合和目标集合之间的差异特征。计算公式如下所示：

其中，L_net即为参考集合和目标集合之间的差异特征，L_main为手势识别模型的主网络对应的CTC目标函数，L_gfe手势识别模型的训练网络对应的CTC目标函数，λ₂为训练网络对应的调节因子。主网络是指手势识别模型的第一编码器、第二编码器、第三编码器和第一解码器，训练网络是指手势识别模型的第一编码器、第二编码器和第二解码器。

其中，主网络对应的CTC目标函数的表达式为：

L_ctc为CTC目标函数的主函数，L_reg为CTC目标函数的调节函数，λ₁为调节函数对应的调节因子。

L_ctc函数的表达式为

x表示样本手势图像帧，y表示预设词语，S表示样本空间，p(y|x)表示第一解码器根据样本手势图像帧得到的某一位置上的预设词语的第一概率。

L_reg函数的表达式为L_reg＝||W||²，W表示手势识别模型中的网络参数。

其中，训练网络对应的CTC目标函数的表达式为：

g表示第二样本语义特征，γ表示目标词语，ν表示参考集合中的多个参考词语，u表示预设词语的个数，i＝1、2、3……u。p(γ＝γ_i|g)表示第二编码器根据第二样本语义特征得到的某一位置上第i个预设词语的第二概率，w_i表示第i个预设词语对应的权重，当预设词语为空类词语时，w_i＝br，br为空类词语对应的第一权重；当预设词语为非空类词语时，w_i＝1，也即是非空类次有对应的第二权重。

该第一权重的表达式为：

br表示空类词语对应的第一权重，#non表示非空类词语的个数，#blank表示空类词语的个数，#total表示目标词语的总个数。

需要说明的是，上述步骤1007-1009中，通过第一概率、第二概率和样本翻译短语确定参考集合和目标集合，根据参考集合和目标集合之间的差异特征来调整第一编码器和第二编码器的模型参数，由此实现根据每个位置对应于多个预设词语的第一概率、每个位置对应于多个预设词语的第二概率和样本翻译短语，训练手势识别模型。而在另一实施例中，还可以采用其他方式实现通过第一概率、第二概率和和样本翻译短语来训练手势识别模型。

需要说明的是，通过上述步骤1005-1009，即可实现根据第二样本语义特征、第三样本语义特征和样本翻译短语，训练手势识别模型。在另一实施例中，还可以采用其他方式实现根据第二样本语义特征、第三样本语义特征和样本翻译短语来训练手势识别模型。

如表3所示，可以通过一系列实验来研究联合训练网络的有效性，计算机设备在第一数据集和第二数据集上测试了不同的训练方法，训练方法包括考虑空类词语的权重和不考虑空类词语的权重，以及改变引入联合训练网络的时间点。对第一数据集和第二数据集进行实验得到的词语错误率参见表3。

表3

从表3中可以看出，当考虑空类词语的权重时，可以提高联合训练网络的性能。我们还可以发现，在完成四分之一的训练时引入联合训练网络是最有效的。

如图12所示，通过对三组样本手势图像帧进行实验，分别得到第一组实验数据1201、第二组实验数据1202和第三组实验数据1203，每组实验均采用长短期记忆网络模型、未引入联合训练网络的手势识别模型以及引入联合训练网络的手势识别模型对样本手势图像帧进行处理。其中，第一组实验数据包括第一组样本手势图像帧、对应的样本翻译短语以及三种模型的实验结果，第二组实验数据包括第二组样本手势图像帧、对应的样本翻译短语以及三种模型的实验结果，第三组实验数据包括第三组样本手势图像帧、对应的样本翻译短语以及三种模型的实验结果。其中，在图12中，为便于分析和对比，采用长短不一的矩形来代表样本翻译短语和实验结果，实验结果对应的矩形与样本翻译短语对应的矩形的对齐情况可以代表手势识别的误差情况，且黑色矩形代表手势识别结果为错误。在每组实验数据中，第一行矩形代表对应的样本翻译短语，第二行矩形代表长短期记忆网络模型的实验结果，第三行代表本申请实施例中未引入联合训练网络的手势识别模型的实验结果，第四行代表本申请实施例中引入联合训练网络的手势识别模型的实验结果。

从图12中可以看出，当手势图像帧对应的翻译短语很长或很短时，长短期记忆网络模型的性能比较差，与长短期记忆网络模型不同的是，本申请实施例提出的手势识别模型，手势图像帧对应的词语可以被更好地识别，在此基础上，联合训练网络通过纠正错误识别和调整对齐，可以进一步提高系统的性能。

本申请实施例提供的方法，获取连续的预设数量的样本手势图像帧，以及预设数量的样本手势图像帧对应的样本翻译短语，通过手势识别模型中的多级编码器获取样本手势图像帧的第二样本语义特征和第三样本语义特征，根据第一解码器对第三样本语义特征进行解码得到第一概率，根据第二解码器对第二样本语义特征进行解码得到第二概率，根据第一概率、第二概率以及样本翻译短语，训练手势识别模型。因此，通过增加第二解码器对第二样本语义特征进行解码来实现对手势识别模型的训练，可以增强手势识别模型对第二语义特征的提取能力。

图13是本申请实施例提供的一种手势识别装置的结构示意图。参见图12，该装置包括：

第一卷积处理模块1301，用于每当获取到连续的预设数量的手势图像帧，通过手势识别模型中的第一编码器，对预设数量的手势图像帧进行卷积处理，得到预设数量的手势图像帧的第一语义特征，第一语义特征表示对应的手势图像帧的语义；

第二卷积处理模块1302，用于通过手势识别模型中的第二编码器，对第一语义特征进行卷积处理，得到预设数量的手势图像帧的第二语义特征，第二语义特征表示对应的手势图像帧对应的词语的语义；

第三卷积处理模块1303，用于通过手势识别模型中的第三编码器，对第二语义特征进行卷积处理，得到预设数量的手势图像帧的第三语义特征，第三语义特征表示对应的手势图像帧对应的短语的语义；

解码处理模块1304，用于通过手势识别模型中的第一解码器，对第三语义特征进行解码处理，得到预设数量的手势图像帧对应的翻译短语，输出翻译短语，翻译短语包括至少一个词语。

本申请实施例提供的装置，每当获取到连续的预设数量的手势图像帧，通过手势识别模型输出对应的翻译短语。由于本申请实施例中的手势识别模型中，不包括双向长短期记忆网络，而是通过多级编码器对手势图像帧进行卷积处理，因此能够避免双向长短期记忆网络模型出现过拟合现象的情况，该手势识别模型可以扩大手势识别的通用性，从而提高了识别准确率。并且，计算机设备在获取到预设数量的手势图像帧时，即可进行识别得到对应的翻译短语，因此可以实现以短语为单位进行输出，提高了实时性和灵活性。与以语句为单位进行识别的方案相比，本申请实施例所需获取的手势图像帧的数量更少，即只需获取到更少数量的手势图像帧即可进行识别，可以提高手势识别的效率。

可选地，参见图14，第一编码器中包括多个卷积层以及每个卷积层对应的池化层，第一卷积处理模块1301，包括：

第一卷积处理单元1311，用于通过第一编码器中的第一卷积层，按照预设数量的手势图像帧的顺序分别对每个手势图像帧进行卷积处理，得到每个手势图像帧的第一卷积特征；

第一池化处理单元1321，用于通过第一卷积层对应的第一池化层，对每个手势图像帧的第一卷积特征进行池化处理，得到每个手势图像帧的第一池化特征；

第一处理单元1331，用于通过第一编码器中的第二卷积层和第二卷积层对应的第二池化层继续进行处理，直至通过最后一个卷积层对应的池化层得到预设数量的手势图像帧的第一语义特征。

可选地，参见图14，第二编码器包括多个卷积层以及每个卷积层对应的池化层，第二卷积处理模块1302，包括：

第二卷积处理单元1312，用于通过第二编码器中的第三卷积层，对第一语义特征进行卷积处理，得到预设数量的手势图像帧的第二卷积特征；

第二池化处理单元1322，用于通过第三卷积层对应的第三池化层，对预设数量的手势图像帧的第二卷积特征进行池化处理，得到预设数量的手势图像帧的第二池化特征；

第二处理单元1332，用于通过第二编码器中的第四卷积层和第四卷积层对应的第四池化层继续进行处理，直至通过最后一个卷积层对应的池化层得到预设数量的手势图像帧的第二语义特征。

可选地，参见图14，第三编码器包括第五卷积层，第三卷积处理模块1303，包括：

第三卷积处理单元1313，用于通过第三编码器中的第五卷积层，对第二语义特征进行卷积处理，得到预设数量的手势图像帧的第三语义特征。

可选地，参见图14，解码处理模块1304，包括：

解码单元1314，用于通过第一解码器，对第三语义特征进行解码，得到第三语义特征对应的多个位置中，每个位置对应于多个预设词语的概率；

输出单元1324，用于将每个位置对应的概率最大的预设词语确定为每个位置对应的目标词语，按照每个位置的顺序输出每个位置对应的目标词语。

可选地，参见图14，目标词语包括空白标识，输出单元1324，还用于将多个目标词语中的空白标识删除后，按照每个位置的顺序输出剩余的目标词语。

可选地，参见图14，输出单元1324，还用于将位置相邻的相同目标词语进行去重处理后，按照每个位置的顺序输出剩余的目标词语。

可选地，参见图14，装置还包括：

样本获取模块1305，用于获取连续的预设数量的样本手势图像帧，以及预设数量的样本手势图像帧对应的样本翻译短语；

训练模块1306，用于根据预设数量的样本手势图像帧以及样本翻译短语，训练手势识别模型。

可选地，参见图14，训练模块1306，包括：

第四卷积处理单元1316，用于通过手势识别模型中的第一编码器，对预设数量的样本手势图像帧进行卷积处理，得到预设数量的样本手势图像帧的第一样本语义特征，第一样本语义特征表示对应的样本手势图像帧的语义；

第五卷积处理单元1326，用于通过手势识别模型中的第二编码器，对第一样本语义特征进行卷积处理，得到预设数量的样本手势图像帧的第二样本语义特征，第二样本语义特征表示对应的样本手势图像帧对应的词语的语义；

第六卷积处理单元1336，用于通过手势识别模型中的第三编码器，对第二样本语义特征进行卷积处理，得到预设数量的样本手势图像帧的第三样本语义特征，第三样本语义特征表示对应的样本手势图像帧对应的语句的语义；

训练单元1346，用于根据第二样本语义特征、第三样本语义特征和样本翻译短语，训练手势识别模型。

可选地，参见图14，训练单元1346，还用于：

通过手势识别模型中的第一解码器，对第三样本语义特征进行解码，得到多个位置中，每个位置对应于多个预设词语的第一概率；

通过手势识别模型中的第二解码器，对第二样本语义特征进行解码，得到多个位置中，每个位置对应于多个预设词语的第二概率；

根据每个位置对应于多个预设词语的第一概率、每个位置对应于多个预设词语的第二概率和样本翻译短语，训练手势识别模型。

可选地，参见图14，训练单元1346，还用于：

根据每个位置对应于多个预设词语的第一概率和样本翻译短语，确定参考集合，参考集合中包括每个位置对应的参考词语及第一概率；

根据每个位置对应于多个预设词语的第二概率和参考集合，确定目标集合，目标集合中包括每个位置对应的目标词语及第二概率，参考集合中的参考词语与目标集合中同一位置上的目标词语相同；

根据参考集合和目标集合之间的差异特征，对第一编码器和第二编码器的模型参数进行调整。

可选地，参见图14，训练单元1346，还用于：

根据每个位置对应于多个预设词语的第一概率和样本翻译短语，确定多个候选参考集合，候选参考集合中包括每个位置对应的参考词语及第一概率，不同的候选参考集合中同一位置对应的参考词语不同；

对每个候选参考集合中的第一概率进行统计，分别确定每个候选参考集合的统计概率，在多个候选参考集合中选取统计概率最大的候选参考集合。

需要说明的是：上述实施例提供的手势识别装置在识别手势时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的手势识别装置与手势识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图15示出了本申请一个示例性实施例提供的终端1500的结构示意图。该终端1500可用于执行上述方法实施例提供的回复文本生成方法或者模型训练方法中。

通常，终端1500包括有：处理器1501和存储器1502。

处理器1501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1501可以在集成有GPU(Graphics Processing Unit，图像处理的交互器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1502中的非暂态的计算机可读存储介质用于存储至少一条程序代码，该至少一条程序代码用于被处理器1501所具有以实现本申请中方法实施例提供的手势识别方法。

在一些实施例中，设备1500还可选包括有：外围设备接口1503和至少一个外围设备。处理器1501、存储器1502和外围设备接口1503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1503相连。具体地，外围设备包括：射频电路1504、触摸显示屏1505、摄像头1506、音频电路1507、定位组件1508和电源1509中的至少一种。

外围设备接口1503可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1501和存储器1502。在一些实施例中，处理器1501、存储器1502和外围设备接口1503被集成在同一芯片或电路板上；在一些其他实施例中，处理器1501、存储器1502和外围设备接口1503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1504用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1504包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1504可以通过至少一种无线通信协议来与其它设备进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及8G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1504还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1505用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1505是触摸显示屏时，显示屏1505还具有采集在显示屏1505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1501进行处理。此时，显示屏1505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1505可以为一个，设置终端1500的前面板；在另一些实施例中，显示屏1505可以为至少两个，分别设置在终端1500的不同表面或呈折叠设计；在一些实施例中，显示屏1505可以是柔性显示屏，设置在终端1500的弯曲表面上或折叠面上。甚至，显示屏1505还可以设置成非矩形的不规则图形，也即异形屏。显示屏1505可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1506用于采集图像或视频。可选地，摄像头组件1506包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端1500的前面板，后置摄像头设置在终端1500的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1501进行处理，或者输入至射频电路1504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1501或射频电路1504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1507还可以包括耳机插孔。

定位组件1508用于定位终端1500的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1508可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源1509用于为终端1500中的各个组件进行供电。电源1509可以是交流电、直流电、一次性电池或可充电电池。当电源1509包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1500还包括有一个或多个传感器1510。该一个或多个传感器1510包括但不限于：加速度传感器1511、陀螺仪传感器1512、压力传感器1513、指纹传感器1514、光学传感器1515以及接近传感器1516。

加速度传感器1511可以检测以终端1500建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1511可以用于检测重力加速度在三个坐标轴上的分量。处理器1501可以根据加速度传感器1511采集的重力加速度信号，控制触摸显示屏1505以横向视图或纵向视图进行用户界面的显示。加速度传感器1511还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1512可以检测终端1500的机体方向及转动角度，陀螺仪传感器1512可以与加速度传感器1515协同采集用户对终端1500的3D动作。处理器1501根据陀螺仪传感器1512采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1513可以设置在终端1500的侧边框和/或触摸显示屏1505的下层。当压力传感器1513设置在终端1500的侧边框时，可以检测用户对终端1500的握持信号，由处理器1501根据压力传感器1513采集的握持信号进行左右手识别或快捷操作。当压力传感器1513设置在触摸显示屏1505的下层时，由处理器1501根据用户对触摸显示屏1505的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1514用于采集用户的指纹，由处理器1501根据指纹传感器1514采集到的指纹识别用户的身份，或者，由指纹传感器1514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1501授权该用户具有相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1514可以被设置终端1500的正面、背面或侧面。当终端1500上设置有物理按键或厂商Logo时，指纹传感器1514可以与物理按键或厂商标志集成在一起。

光学传感器1515用于采集环境光强度。在一个实施例中，处理器1501可以根据光学传感器1515采集的环境光强度，控制触摸显示屏1505的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1505的显示亮度；当环境光强度较低时，调低触摸显示屏1505的显示亮度。在另一个实施例中，处理器1501还可以根据光学传感器1515采集的环境光强度，动态调整摄像头组件1506的拍摄参数。

接近传感器1516，也称距离传感器，通常设置在终端1500的前面板。接近传感器1516用于采集用户与终端1500的正面之间的距离。在一个实施例中，当接近传感器1516检测到用户与终端1500的正面之间的距离逐渐变小时，由处理器1501控制触摸显示屏1505从亮屏状态切换为息屏状态；当接近传感器1516检测到用户与终端1500的正面之间的距离逐渐变大时，由处理器1501控制触摸显示屏1505从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图15中示出的结构并不构成对终端1500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图16是本申请实施例提供的一种服务器的结构示意图，该服务器1600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central ProcessingUnits，CPU)1601和一个或一个以上的存储器1602，其中，所述存储器1602中存储有至少一条程序代码，所述至少一条程序代码由所述处理器1601加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

服务器1600可以用于执行上述手势识别方法中计算机设备所执行的步骤。

本申请实施例还提供了一种用于识别手势的计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现上述实施例的手势识别方法中所具有的操作。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现上述实施例的手势识别方法中所具有的操作。

本申请实施例还提供了一种计算机程序，该计算机程序包括至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现上述实施例的手势识别方法中所具有的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请实施例的可选实施例，并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种手势识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一编码器中包括多个卷积层以及每个卷积层对应的池化层，所述通过手势识别模型中的第一编码器，对所述预设数量的手势图像帧进行卷积处理，得到所述预设数量的手势图像帧的第一语义特征，包括：

通过所述第一编码器中的第一卷积层，按照所述预设数量的手势图像帧的顺序分别对每个手势图像帧进行卷积处理，得到所述每个手势图像帧的第一卷积特征；

通过所述第一卷积层对应的第一池化层，对所述每个手势图像帧的第一卷积特征进行池化处理，得到所述每个手势图像帧的第一池化特征；

通过所述第一编码器中的第二卷积层和所述第二卷积层对应的第二池化层继续进行处理，直至通过最后一个卷积层对应的池化层得到所述预设数量的手势图像帧的第一语义特征。

3.根据权利要求1所述的方法，其特征在于，所述第二编码器包括多个卷积层以及每个卷积层对应的池化层，所述通过所述手势识别模型中的第二编码器，对所述第一语义特征进行卷积处理，得到所述预设数量的手势图像帧的第二语义特征，包括：

通过所述第二编码器中的第三卷积层，对所述第一语义特征进行卷积处理，得到所述预设数量的手势图像帧的第二卷积特征；

通过所述第三卷积层对应的第三池化层，对所述预设数量的手势图像帧的第二卷积特征进行池化处理，得到所述预设数量的手势图像帧的第二池化特征；

通过所述第二编码器中的第四卷积层和所述第四卷积层对应的第四池化层继续进行处理，直至通过最后一个卷积层对应的池化层得到所述预设数量的手势图像帧的第二语义特征。

4.根据权利要求1所述的方法，其特征在于，所述第三编码器包括第五卷积层，所述通过所述手势识别模型中的第三编码器，对所述第二语义特征进行卷积处理，得到所述预设数量的手势图像帧的第三语义特征，包括：

通过所述第三编码器中的第五卷积层，对所述第二语义特征进行卷积处理，得到所述预设数量的手势图像帧的第三语义特征。

5.根据权利要求1所述的方法，其特征在于，所述通过所述手势识别模型中的第一解码器，对所述第三语义特征进行解码处理，得到所述预设数量的手势图像帧对应的翻译短语，输出所述翻译短语，包括：

通过所述第一解码器，对所述第三语义特征进行解码，得到所述第三语义特征对应的多个位置中，每个位置对应于多个预设词语的概率；

将所述每个位置对应的概率最大的预设词语确定为所述每个位置对应的目标词语，按照所述每个位置的顺序输出所述每个位置对应的目标词语。

6.根据权利要求5所述的方法，其特征在于，所述目标词语包括空白标识，所述按照所述每个位置的顺序输出所述每个位置对应的目标词语，包括：

将多个目标词语中的空白标识删除后，按照所述每个位置的顺序输出剩余的目标词语。

7.根据权利要求5所述的方法，其特征在于，所述按照所述每个位置的顺序输出所述每个位置对应的目标词语，包括：

将位置相邻的相同目标词语进行去重处理后，按照所述每个位置的顺序输出剩余的目标词语。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取连续的预设数量的样本手势图像帧，以及所述预设数量的样本手势图像帧对应的样本翻译短语；

根据所述预设数量的样本手势图像帧以及所述样本翻译短语，训练所述手势识别模型。

9.根据权利要求8所述的方法，其特征在于，所述根据所述预设数量的样本手势图像帧以及所述样本翻译短语，训练所述手势识别模型，包括：

通过所述手势识别模型中的第一编码器，对所述预设数量的样本手势图像帧进行卷积处理，得到所述预设数量的样本手势图像帧的第一样本语义特征，所述第一样本语义特征表示对应的样本手势图像帧的语义；

通过所述手势识别模型中的第二编码器，对所述第一样本语义特征进行卷积处理，得到所述预设数量的样本手势图像帧的第二样本语义特征，所述第二样本语义特征表示对应的样本手势图像帧对应的词语的语义；

通过所述手势识别模型中的第三编码器，对所述第二样本语义特征进行卷积处理，得到所述预设数量的样本手势图像帧的第三样本语义特征，所述第三样本语义特征表示对应的样本手势图像帧对应的语句的语义；

根据所述第二样本语义特征、所述第三样本语义特征和所述样本翻译短语，训练所述手势识别模型。

10.根据权利要求9所述的方法，其特征在于，所述根据所述第二样本语义特征、所述第三样本语义特征和所述样本翻译短语，训练所述手势识别模型，包括：

11.根据权利要求10所述的方法，其特征在于，所述根据所述每个位置对应于所述多个预设词语的第一概率、所述每个位置对应于所述多个预设词语的第二概率和所述样本翻译短语，训练所述手势识别模型，包括：

12.根据权利要求11所述的方法，其特征在于，所述根据所述每个位置对应于所述多个预设词语的第一概率和所述样本翻译短语，确定参考集合，包括：

13.一种手势识别装置，其特征在于，所述装置包括：

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如权利要求1至12任一所述的手势识别方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1至12任一所述的手势识别方法。