CN111461005B

CN111461005B - 一种手势识别方法、装置、计算机设备以及存储介质

Info

Publication number: CN111461005B
Application number: CN202010246917.5A
Authority: CN
Inventors: 阳赵阳; 戴宇榮
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2023-11-28
Anticipated expiration: 2040-03-31
Also published as: CN111461005A

Abstract

本申请实施例公开人工智能的计算机视觉领域的一种手势识别方法；本申请在第一对象的第一客户端，显示第一对象与第二对象之间的会话页面，会话页面包括手势识别控件；基于针对手势识别控件的触发操作，采集会话中目标对象的手势图像；对采集到的手势图像进行手势识别，得到文本识别结果；当目标对象为第二对象时，向第二对象的第二客户端发送文本识别结果，在第一客户端的会话页面显示第二客户端返回的修正后的文本识别结果；当目标对象为第一对象时，在第一客户端的修正页面上显示文本识别结果，当检测到第一对象在修正页面上的修正操作完成时，在第一客户端的会话页面上显示第一对象向第二对象发送的修正后的文本识别结果。

Description

一种手势识别方法、装置、计算机设备以及存储介质

技术领域

本申请涉及人工智能领域，具体涉及一种手势识别方法、装置、计算机设备以及存储介质。

背景技术

手语作为一种重要的交流媒介，极大地方便了特定群体之间的沟通，但是对于没有掌握手语的非特定群体来说，想要实现与特定群体的沟通仍然有一定的困难，比如，现有技术通过基于人工智能的手语识别进行沟通时，需要借助一定的特定采集设备(如特定手套、特定摄像装置)，当手语识别完成时，手语识别结果会显示在进行手语识别与特定采集设备相连的计算机设备上，此时沟通的另一方可以在此计算机设备上查看手语识别结果。

在对现有技术的研究和实践过程中，本申请的发明人发现，现有的手语识别方式和结果显示方式，导致特定群体和非特定群体在进行沟通时，沟通效率较低。

发明内容

本申请实施例提供了一种手势识别方法、装置、计算机设备以及存储介质，可以提高沟通效率。

本申请实施例提供一种手势识别方法，包括：

在第一对象的第一客户端，显示所述第一对象与第二对象之间的会话页面，所述会话页面包括手势识别控件；

基于针对所述手势识别控件的触发操作，采集会话中目标对象的手势图像；

对采集到的手势图像进行手势识别，得到文本手势识别结果；

当所述目标对象为所述第二对象时，向所述第二对象的第二客户端发送所述文本手势识别结果，在所述第一客户端的会话页面显示所述第二客户端返回的消息，其中，所述消息包括修正后的文本手势识别结果，所述修正后的文本手势识别结果为所述第二对象通过所述第二客户端对所述文本手势识别结果进行修正得到；

当所述目标对象为所述第一对象时，在所述第一客户端的修正页面上显示所述文本手势识别结果，以及基于所述第一对象在所述修正页面上的修正操作，对所述文本手势识别结果进行修正，当检测到修正操作完成时，在所述第一客户端的会话页面上显示所述第一对象向所述第二对象发送的消息，所述消息包括修正后的文本手势识别结果。

相应地，本申请实施例提供一种手势识别装置，包括：

显示模块，用于在第一对象的第一客户端，显示所述第一对象与第二对象之间的会话页面，所述会话页面包括手势识别控件；

采集模块，用于基于针对所述手势识别控件的触发操作，采集会话中目标对象的手势图像；

识别模块，用于对采集到的手势图像进行手势识别，得到文本手势识别结果；

第二对象模块，用于当所述目标对象为所述第二对象时，向所述第二对象的第二客户端发送所述文本手势识别结果，在所述第一客户端的会话页面显示所述第二客户端返回的消息，其中，所述消息包括修正后的文本手势识别结果，所述修正后的文本手势识别结果为所述第二对象通过所述第二客户端对所述文本手势识别结果进行修正得到；

第一对象模块，用于当所述目标对象为所述第一对象时，在所述第一客户端的修正页面上显示所述文本手势识别结果，以及基于所述第一对象在所述修正页面上的修正操作，对所述文本手势识别结果进行修正，当检测到修正操作完成时，在所述第一客户端的会话页面上显示所述第一对象向所述第二对象发送的消息，所述消息包括修正后的文本手势识别结果。

在本申请的一些实施例中，显示模块包括第一显示子模块、获取子模块和第二显示子模块，其中，

第一显示子模块，用于在第一对象的第一客户端显示对象配对页面，所述对象配对页面包括对象配对控件；

获取子模块，用于基于针对所述对象配对控件的配对操作，获取与所述第一对象建立联系的第二对象的标识；

第二显示子模块，用于根据所述第二对象的标识，在所述第一客户端上显示所述第一对象与所述第二对象之间的会话页面。

在本申请的一些实施例中，手势识别装置还包括：

页面显示模块，用于显示所述第一客户端上的图像预览页面，所述图像预览页面包括采集完成控件和实时采集到的手势图像；

在此实施例中，识别模块具体用于：

当检测到针对所述采集完成控件的触发操作时，对采集到的手势图像进行识别，得到文本手势识别结果。

在本申请的一些实施例中，采集模块包括显示子模块、确定子模块和采集子模块，其中，

显示子模块，用于基于针对所述手势识别控件的触发操作，显示采集视角选择控件；

确定子模块，用于当检测到针对所述采集视角选择控件的确定操作时，确定图像采集的目标采集视角；

采集子模块，用于通过所述目标采集视角采集所述目标对象的手势图像。

在本申请的一些实施例中，采集子模块具体用于:

显示所述目标采集视角对应的角度调整页面，所述角度调整页面包括标准采集区域和实时预览画面；

当检测到所述实时预览画面中的目标对象区域与所述标准采集区域相匹配时，通过所述目标采集视角采集所述目标对象的手势图像。

在本申请的一些实施例中，所述视角选择控件包括第一视角控件和第二视角控件，确定子模块具体用于：

当检测到针对所述第一采集视角控件的确定操作时，确定目标采集视角为第一视角；

当检测到针对所述第二采集视角控件的确定操作时，确定目标采集视角为第二视角。

在本申请的一些实施例中，手势识别装置还包括：

确定模块，用于基于所述目标采集视角，确定所述会话的目标对象。

在本申请的一些实施例中，采集模块具体用于：

基于针对所述手势识别控件的触发操作，采集会话中目标对象的手势视频，所述手势视频包括若干手势图像以及每一手势图像在所述手势视频内的时间信息；

在此实施例中，识别模块包括确定子模块和识别子模块，其中，

确定子模块，用于对所述手势视频进行手势检测，确定所述手势视频中的目标手势时间信息，其中，所述目标手势时间信息为所述手势视频中满足预设变化条件的手势图像对应的时间信息；

识别子模块，用于基于所述目标手势时间信息对所述手势视频进行手势识别，得到文本手势识别结果。

在本申请的一些实施例中，确定子模块具体用于：

识别所述手势视频中每一手势图像的关键点；

基于设定参数和每一手势视频的关键点，确定每一手势图像内的差异检测区域；

对相邻手势图像内的差异检测区域进行差异检测，得到所述手势视频的差异信息；

基于设定系数和所述差异信息，确定所述手势视频中的待筛除图像；

根据所述待筛除图像对应的时间信息，确定所述手势视频的目标手势时间信息。

在本申请的一些实施例中，识别子模块包括分割单元、识别单元和整合单元，其中，

分割单元，用于根据所述目标手势时间信息，对所述手势视频进行分割处理，得到至少一个手势子视频以及每一手势子视频的时间信息；

识别单元，用于对每一手势子视频进行手势识别，得到每一手势子视频对应的文本识别结果；

整合单元，用于基于每一手势子视频的时间信息，整合每一手势子视频对应的文本识别结果，得到所述手势视频的文本手势识别结果。

在本申请的一些实施例中，识别单元具体用于：

对每一手势子视频内的手势图像进行截取，得到每一手势子视频内的手势图像的区域图像；

基于每一手势子视频内的手势图像和每一手势子视频内的区域图像，对每一手势子视频进行特征提取，得到每一手势子视频的特征信息；

对每一手势子视频的特征信息进行识别，得到每一手势子视频对应的文本识别结果。

相应的，本申请实施例还提供了一种存储介质，存储介质存储有计算机程序，计算机程序适于处理器进行加载，以执行本申请实施例提供的任一种手势识别方法。

相应的，本申请实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现本申请实施例提供的任一种手势识别方法。

本申请实施例首先在第一对象的第一客户端，显示第一对象与第二对象之间的会话页面，会话页面包括手势识别控件，然后基于针对手势识别控件的触发操作，采集会话中目标对象的手势图像，再对采集到的手势图像进行手势识别，得到文本手势识别结果；当目标对象为第二对象时，向第二对象的第二客户端发送文本手势识别结果，在第一客户端的会话页面显示第二客户端返回的消息，其中，消息包括修正后的文本手势识别结果，修正后的文本手势识别结果为第二对象通过第二客户端对文本手势识别结果进行修正得到；当目标对象为第一对象时，在第一客户端的修正页面上显示文本手势识别结果，以及基于第一对象在修正页面上的修正操作，对文本手势识别结果进行修正，当检测到修正操作完成时，在第一客户端的会话页面上显示第一对象向第二对象发送的消息，消息包括修正后的文本手势识别结果。

本方案可以通过对象的客户端直接进行手势图像的采集，相比需要借助特定采集设备的方式，简单易行，显著扩大了手势识别的应用场景；本申请引入了目标对象修正机制，可以对手势识别得到的文本手势识别结果进行修正，提高了信息沟通的准确性。

本方案还可以根据目标对象自动判别采集场景，当目标对象为第二对象时，第一对象为进行手势采集的采集对象，第二对象为发出手势的手势对象，因此直接将第一对象识别得到的文本手势识别结果发送至第二对象的第二客户端，由第二对象进行修正和信息发送，第二对象发送的信息即第二对象发出的手势欲表达的内容，相应的地，第一对象为目标对象时，可确定第一对象为手势采集的采集对象和发出手势的手势对象，因此文本手势识别结果在第一对象的第一客户端上进行显示，由第一对象进行修正和信息发送，此方式可以根据目标对象进行相应的自动操作，极大的提高了沟通效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的手势识别装置的场景示意图；

图2为本申请实施例提供的手势识别方法的一应用场景示例图；

图3为本申请实施例提供的手势识别方法的另一应用场景示例图；

图4为本申请实施例提供的手势识别方法的另一应用场景示例图；

图5为本申请实施例提供的手势识别方法的另一应用场景示例图；

图6是本申请实施例提供的手势识别方法的流程示意图；

图7是本申请实施例提供的手势识别方法的部分页面操作示意图；

图8是本申请实施例提供的手势识别方法的另一部分页面操作示意图；

图9是本申请实施例提供的手势识别方法的另一部分页面操作示意图；

图10是本申请实施例提供的手势识别方法的另一部分页面操作示意图；

图11是本申请实施例提供的手语识别方法的流程示意图；

图12是本申请实施例提供的手语识别方法的另一部分页面操作示意图；

图13是本申请实施例提供的手语识别方法的另一部分页面操作示意图；

图14是本申请实施例提供的手语识别方法的另一部分页面操作示意图；

图15是本申请实施例提供的手语识别方法的另一部分页面操作示意图；

图16是本申请实施例提供的手语识别方法的另一部分页面操作示意图；

图17是本申请实施例提供的手势识别方法的一种交互逻辑示例图；

图18是本申请实施例提供的手语识别方法过程示例图；

图19是本申请实施例提供的手势识别装置的结构示意图；

图20是本申请实施例提供的手势识别装置的另一结构示意图；

图21是本申请实施例提供的手势识别装置的另一结构示意图；

图22是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例提供使用对手势图像进行手势识别的过程涉及人工智能领域的计算机视觉等技术，通过人工智能的计算机视觉技术可以从手势图像中识别得到文本手势识别结果，具体内容将通过实施例进行说明。

本申请实施例提供了一种手势识别方法、装置、计算机设备和存储介质。具体地，本申请实施例可以集成在第一手势识别装置和第二手势识别装置，第一手势识别装置可以集成在第一计算机设备，该第一计算机设备可以包括终端、或者服务器等电子设备，终端可以包括相机、摄像机、智能手机、平板电脑、笔记本电脑、或个人计算机等能进行图像采集的电子设备，该终端可以为单个终端，也可以为若干终端组成的终端集合，该服务器可以为单台服务器，可以为服务器集群。

第二手势识别装置可以集成在第二计算机设备，第二计算机设备可以包括终端、或者服务器等电子设备，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

下面，本申请实施例以第一计算设备为终端，第二计算机设备为服务器为例，对手势识别方法进行介绍。

如图1所示，本申请实施例提供了手势识别系统包括终端10和服务器20；终端10与服务器20之间通过网络连接，比如，通过有线或无线网络连接等，其中，第一手势识别装置集成在终端中，比如，以第一客户端的形式集成在终端10中。

具体地，终端10可以在第一对象的第一客户端，显示第一对象与第二对象之间的会话页面，会话页面包括手势识别控件，基于针对识别控件的触发操作，终端10可以采集会话中目标对象的手势视频，然后终端10可以将采集到的手势视频进行发送到服务器20，然后接收服务器20返回的手势视频的文本手势识别结果。

当目标对象为第二对象时，终端10可以向第二对象的第二客户端发送文本手势识别结果，在第一客户端的会话页面显示第二客户端返回的消息，具体地，发送和接收消息可以通过服务器20进行，如，终端10可以将发送至第二客户端的文本手势识别结果上传至服务器20，再由第二客户端通过服务器20获取该文本手势识别结果，其中，消息包括修正后的文本手势识别结果，修正后的文本手势识别结果为第二对象通过第二客户端对文本手势识别结果进行修正得到。

当目标对象为第一对象时，终端10可以在第一客户端的修正页面上显示文本手势识别结果，以及基于第一对象在修正页面上的修正操作，对文本手势识别结果进行修正，当检测到修正操作完成时，在第一客户端的会话页面上显示第一对象向第二对象发送的消息，消息包括修正后的文本手势识别结果。

具体地，服务器20可以对手势视频进行手势检测，确定手势视频中的目标手势时间信息，其中，目标手势时间信息为手势视频中满足预设变化条件的手势图像对应的时间信息，然后服务器20可以根据目标手势时间信息，对手势视频进行分割处理，得到至少一个手势子视频以及每一手势子视频的时间信息，接着服务器20可以对每一手势子视频进行手势识别，得到每一手势子视频对应的文本识别结果，基于每一手势子视频的时间信息，服务器20可以整合每一手势子视频对应的文本识别结果，得到手势视频的文本手势识别结果，并向终端10发送该文本手势识别结果。

在一实施例中，对采集到的手势视频进行手势识别的过程，也可以通过终端10进行，具体使用场景可以根据实际需求灵活选择，在此不做赘述。

在一实施例中，将以第一计算设备为终端，第二计算机设备为终端为例，对手势识别方法进行介绍，此时，第一手势识别装置以第一客户端的形式集成在终端A，第二手势识别装置以第二客户端的形式集成在终端B。

具体地，终端A可以在第一对象的第一客户端，显示第一对象与第二对象之间的会话页面，会话页面包括手势识别控件，基于针对识别控件的触发操作，终端A可以采集会话中目标对象的手势视频，然后终端A可以对采集到的手势视频进行手势识别，得到文本手势识别结果。

当目标对象为第二对象时，终端A可以向终端B的第二客户端发送文本手势识别结果，在第一客户端的会话页面显示终端B的第二客户端返回的消息，其中，消息包括修正后的文本手势识别结果，修正后的文本手势识别结果为第二对象通过第二客户端对文本手势识别结果进行修正得到。

当目标对象为第一对象时，终端A可以在第一客户端的修正页面上显示文本手势识别结果，以及基于第一对象在修正页面上的修正操作，对文本手势识别结果进行修正，当检测到修正操作完成时，在第一客户端的会话页面上显示第一对象向第二对象发送的消息，消息包括修正后的文本手势识别结果。

具体地，终端B的第二客户端可以接收终端A发送的文本手势识别结果，然后可以在第二客户端的修正页面上显示该文本手势识别结果，再基于第二对象对文本手势识别结果的修正操作，得到修正后的文本手势识别结果，并以消息的形式向终端A发送修正后的文本手势识别结果。

在一些实施例中，第一对象和第二对象可以位于同一真实空间(近距离)内，第一对象可以为只能通过手语手势进行沟通的残障人士，如聋哑人，第二对象为不了解手语手势的普通人，若第一对象和第二对象想要进行信息交流，可以通过集成了本申请的手势识别方法的计算机设备进行高效沟通，具体地，可以是普通人通过计算机设备对聋哑人的手语手势进行采集和识别，识别结果可以显示在聋哑人的对应的页面上，聋哑人可以在其对应的页面上对识别结果进行修正，修正后的识别结果可以显示在普通人对应的页面上，则普通人可以理解聋哑人的手势手语。

在一实施例中，参见图2，第一对象可以是正常对象B，第二对象可以是聋哑对象A，正常对象B和聋哑对象A通过一应用程序进行沟通，该应用程序的客户端可以安装在正常对象B的第一终端上和聋哑对象A的第二步终端上，在此实施例中，正常对象B可以通过第一终端对聋哑对象A所做的手势进行采集和识别，得到手语识别结果(即文本手势识别结果)，由于做出手势的是聋哑对象A，因此，第一终端可以将识别到的文本手势识别结果发送至第二终端，由聋哑对象A在第二终端上对手语识别结果进行修正，修正完成后，聋哑对象可以选择将修正后的手语识别结果(即修正后的文本手势识别结果)以消息的形式发送至第一终端，使得正常对象B可以理解聋哑对象A所做的手势的含义，二者可以通过此种方式进行顺畅地沟通。

在一实施例中，正常对象B和聋哑对象A通过一应用程序进行沟通，该应用程序的客户端可以安装在同一终端上，其中可以包括第一客户端和第二客户端，该终端可以包含两组必要组件(必要组件如屏幕)，一必要组件对应一客户端，参见图3，正常对象B对应第一客户端，第一客户端的页面显示在第一屏幕上，第一屏幕可以改变终端上的图像采集部件的状态(如拍摄、调整摄像头等)，第二客户端的页面显示在第二屏幕上，正常对象B可以通过第一客户端对聋哑对象A所做的手势进行采集和识别，得到文本手势识别结果后，第一客户端可以将该文本手势识别结果发送至第二客户端，第二客户端可以将该结果显示在第二屏幕上，由聋哑对象A通过第二屏幕对文本手势识别结果进行修正，修正完成后，聋哑对象A可以将修正后的文本手势识别结果发送至显示第一客户端，并由第一客户端显示第一屏幕上，此时，正常对象B和聋哑对象A即可进行高效沟通。

此外，在一实施例中，第一客户端和第二客户端也可以为同一客户端，该客户端可以包含针对两方对象的页面，如第一页面和第二页面，第一屏幕上可以显示正常对象B对应的第一页面，第二屏幕上可以显示聋哑对象A对应的第二页面，终端可以通过正常对象B在第一页面上的操作，对聋哑对象A做的手势进行采集，并将对采集到的手势图像进行识别，将识别得到的文本手势识别结果显示在第二页面上，聋哑对象A可以对文本手势识别结果进行修正，客户端可以将修正后的文本手势识别结果显示在正常对象B的第一页面上。

在一些实施例中，第一对象和第二对象也可以位于同一真实空间或不同真实空间内(近距离或远距离)内。

在一实施例中，参见图4，第一对象可以是正常对象B，第二对象可以是聋哑对象A，正常对象B和聋哑对象A通过一应用程序进行沟通，该应用程序的客户端可以包括聋哑对象A终端上的第一客户端和正常对象B终端上的第二客户端，在此实施例中，聋哑对象A可以通过第一客户端对聋哑对象A所做的手势进行采集和识别，得到手语识别结果(即文本手势识别结果)，由于做出手势的是聋哑对象A，因此，第一客户端可以将识别到的文本手势识别结果显示在第一客户端上，聋哑对象A可以在第一客户端上对手语识别结果进行修正，修正完成后，聋哑对象A可以选择将修正后的手语识别结果(即修正后的文本手势识别结果)以消息的形式发送至第二客户端，正常对象B可以通过第二客户端查看消息以接收聋哑对象A传递的信息，正常对象也可以基于此消息与聋哑对象进行进一步地沟通。

在一实施例中，第一客户端和第二客户端也可以安装在同一终端上，该终端可以包含两组必要组件(必要组件如屏幕)，一必要组件对应一客户端，参见图5，聋哑对象A对应第一客户端，第一客户端的页面显示在第一屏幕上，第一屏幕可以改变终端上的图像采集部件的状态(如拍摄、调整摄像头等)，第二客户端的页面显示在第二屏幕上，聋哑对象A可以通过第一客户端对自身所做的手势进行采集和识别，得到文本手势识别结果后，第一客户端可以将该文本手势识别结果显示在第一客户端的第一屏幕上，聋哑对象A可以在第一客户端上对手语识别结果进行修正，修正完成后，聋哑对象A可以选择将修正后的手语识别结果(即修正后的文本手势识别结果)以消息的形式发送至第二客户端，基于从种方式，正常对象B和聋哑对象A可以进行高效沟通。

此外，在一实施例中，第一客户端和第二客户端也可以为同一客户端，该客户端可以包含针对两方对象的页面，如第一页面和第二页面，第一屏幕上可以显示聋哑对象A对应的第一页面，第二屏幕上可以显示正常对象B对应的第二页面，终端可以通过聋哑对象A在第一页面上的操作，对聋哑对象A做的手势进行采集，并将对采集到的手势图像进行识别，将识别得到的文本手势识别结果显示在第一页面上，聋哑对象A可以对文本手势识别结果进行修正，客户端可以将修正后的文本手势识别结果显示在正常对象B的第二页面上。由此，正常对象B和聋哑对象A可以进行顺畅有效的沟通。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例顺序的限定。

本发明实施例将从第一手势识别装置的角度进行描述，该第一手势识别装置具体可以集成在终端中，比如，相机、摄像机、智能手机、平板电脑、笔记本电脑、个人计算机以及穿戴式智能设备等具备储存单元、安装有微处理器且能够进行图像采集的终端。

本发明实施例提供的一种手势识别方法，该方法可以由终端的处理器执行，如图6所示，该手势识别方法的流程可以如下：

201、在第一对象的第一客户端，显示第一对象与第二对象之间的会话页面，会话页面包括手势识别控件。

其中，本申请中的手势可以包括手部的动作变化，且此动作变化可以表示一定含义的无声语言。

具体地，手势可以包括手部的动作变化，也可以包括手部的动作变化和身体其他部位上的动作变化相互结合，还可以包括手部的动作变化与特定空间位置结合，等，手势可以包括固定静止的动作，也可以包括动态变化的动作，等。比如，双手合十可以为一个手势；双手合十且位于头部正上方可以为另一个手势；双手处于分开、合十的动态变化状态可以为另一手势；双手合十置于脸部的一侧下颌骨处、且头部朝此下颌骨的方向偏斜可以为另一手势，等等。

手势可以表达一定含义，因此包含含义的手势可以作为一种不需要发出声音的语言，进行信息传递和交流等的活动，比如，双手合十可以表达问好；双手合十且位于头部正上方可以表达尊敬；双手处于分开、合十的动态变化状态可以表达喜爱；双手合十置于脸部的一侧下颌骨处、且头部朝此下颌骨的方向偏斜可以表达睡个好觉，等等。

手势与其表达的含义之间的对应关系可以是约定俗称，如基于传统习俗、互联网流行趋势等，比如，在一些地区的传统习俗中，双手合十，且掌心相互摩擦可以表达求饶的含义；起源于互联网的可以包含，拇指和小指伸长，其他手指拢向掌心，且手腕旋转的手势可以表达敬佩、赞许的含义，等。手语与其表达的含义之间也可以是固定的对应规则，比如，手语中特定手势可以包含固定含义，等等。

其中，客户端可以包括在计算机设备上为对象提供服务的应用程序，客户端可以仅在计算机设备本地提供服务，也可以通过与网络相连的方式提供更加丰富的服务，等。

其中，对象可以包括客户端所属的应用程序中的虚拟对象，对象可以通过字符、二维码等标识进行身份区分和标识，通过对象进行操作的主体可以是对象、也可以是能够实现自动操作的程序或设备(如测试程序、智能设备、智能机器人等)，等。具体地，第一对象和第二对象可以是第一客户端所属的应用程序上的两个虚拟对象，第一对象在第一客户端上处于登录状态，第一对象与第二对象为该应用程序上建立联系的两个虚拟对象。

其中，第一对象与第二对象位于该应用程序内的一会话中，会话可以使得对象之间通过网络进行基于文字、语音、视频、或图像等等多种形式的沟通交流，会话可以是第一对象与第二对象之间的会话，也可以是包括第一对象和第二对象在内的多对象之间的会话，会话在客户端上可以以会话页面的形式显示。为了优化使用场景，提高会话效率，会话内可以设置如语音识别等功能，如，会话中的A方发送语音，而B方处于不适合听语音的情况，则B方可以通过语音识别的方式，将语音转化为文字，通过看文字的方式进行信息接收A方发送的语音，等。

其中，手势识别控件的表现形式可以包括按钮、编辑框、或图标等形式，为了提高沟通效率，本申请提供了一种手势识别控件，手势识别控件可以用于手势图像的采集和识别等过程，触发该手势识别控件，对象可以基于客户端提示，发出手势，客户端可以进行手势图像的采集和识别等操作，并最终返回对象发出的手势的识别结果。

手势识别控件可以为单个控件，如，可以为按钮，触发按钮即可进行手势图像的采集和识别；手势识别控件也可以为若干控件的集合，此时若干控件可以同时出现，也可以基于一定的时间先后等因素，分别出现，同时出现如，可以同时显示文本框、滑动按钮和确定按钮；分别出现如，触发一控件后，显示另一控件，触发此另一控件后，客户端开始手势图像的采集和识别。

会话页面上显示手势识别控件，可以为会话中进行沟通的对象提供便利，不需要输入文字，只需要通过触发手势识别控件和做手势的操作，也可以在应用程序上进行交流，对于特殊群体来说，手势识别控件可以显著提高沟通效率。

如图7，在对象a的客户端A上，显示对象a与对象b之间的会话页面01，会话页面包括手势识别按钮011。

在一些实施例中，步骤“在第一对象的第一客户端，显示第一对象与第二对象之间的会话页面”可以包括：

在第一对象的第一客户端显示对象配对页面，对象配对页面包括对象配对控件；基于针对对象配对控件的配对操作，获取与第一对象建立联系的第二对象的标识；根据第二对象的标识，在第一客户端上显示第一对象与第二对象之间的会话页面。

其中，对象配对页面可以为两个或多个对象之间建立联系，对象配对页面上包含用于对象配对的对象配控件，对象配对控件的表现形式可以为按钮、编辑框、或图标等形式，通过对象配对控件可以确定与第一对象建立联系的至少一个第二对象，并将其置于同一会话内。

其中，第二对象可以是与第一对象建立联系的对象，第二对象的标识可以是唯一标识第二对象的信息，标识的形式可以有多种，如字符、二维码等。

基于对象配对控件的配对操作可以有多种形式，可以通过输入框输入标识、二维码识别扫描标识、等，在进行配对操作的过程中，对象配对控件可以根据配对操作的不同而灵活变化，比如，对象配对控件可以包括一组并列或递进的控件，当第一对象想要添加多个对象到同一会话中时，对象配对控件可以包括多个并列的标识输入框和用于确定每一输入框内的标识对应的对象添加会话的确定按钮，等。

比如，参见图8，对象a的客户端A上显示对象a的对象配对页面01，对象配对页面01上包括对象配对按钮021，点击对象配对按钮021后，显示输入框031，以及提示信息“输入对象标识”，提示信息可用于提示输入即将与对象a建立联系的对象的标识，对象a可通过键盘032进行标识的输入，当对象a输入完成后，应用获取输入的对象b的标识，并根据对象b的标识，在客户端A上显示对象a与对象b之间的会话页面01。

202、基于针对手势识别控件的触发操作，采集会话中目标对象的手势图像。

目标对象可以为会话中的一个特定对象，如，目标对象可以是发出手势的对象，则手势图像可以是包括目标对象的图像，采集到的手势图像通常是若干图像的集合，目标对象的手势可以是相对连贯的，采集图像时，可以以一定时间间隔进行采集，时间间隔的确定可以结合进行手势识别时的识别算法的需求，采集设备的连续采集能力等综合确定，需要注意的是，手势图像可以是通常包含手势的图像，但是在实际采集过程中，由于采集设备、以及目标对象的动作变化等，采集到的每一对象图像并不一定全部包含手势。

采集手势图像是能够进行手势识别的重要一步，保证了通过手势识别功能进行对象之间相互交流的顺利实现，对于会话中的对象来说，手势与输入的文本类似，都是传递信息的载体，本申请借助应用程序上的手势识别功能，将手语发出对象所作的手语动作转化为更加普遍的文本，方便对象之间的交流。

比如，基于对象a针对手势识别按钮的触发操作，采集会话中目标对象(如对象a)的手势图像。

在一些实施例中，为了得到更加适于手势识别的手势图像，以及更加方便的采集手势图像，步骤“基于针对手势识别控件的触发操作，采集会话中目标对象的手势图像”可以包括：

基于针对手势识别控件的触发操作，显示采集视角选择控件；当检测到针对采集视角选择控件的确定操作时，确定图像采集的目标采集视角；通过目标采集视角采集目标对象的手势图像。

本实施例中的视角可以指对目标对象进行图像采集选择的视角，通过采集设备进行图像拍摄的过程中，不同的视角可以采集到不同的内容，若想要得到理想的图像，结合采集设备和目标对象的位置信息，选择合适的视角是至关重要的一步。

采集视角选择控件的表现形式可以包括按钮、图标、或编辑框等，如，采集视角选择控件可以为编辑框，针对采集视角选择控件的确定操作，可以是在编辑框内输入目标视角的信息，终端可以根据此信息确定图像采集的目标采集视角，信息可以以提示信息的方式在编辑框周围进行提示，如，可以显示提示信息：视角P即输入数字1，视角O即输入数字2。

通过针对采集视角选择控件的确定操作，可以确定进行图像采集的目标采集视角，目标采集视角即进行图像采集时使用的视角，再通过该目标采集视角采集目标对象的手势图像。

比如，参见图9，基于对象a针对会话页面01上的手势识别按钮011的触发操作，显示视角选择按钮041，对象a通过视角选择按钮041输入目标采集视角，终端接收对象a的输入的目标采集视角，并通过目标采集视角采集目标对象的手势图像。

在一些实施例中，为了得到更加适于手势识别、更加优质的手势图像，步骤“通过目标采集视角采集目标对象的手势图像”可以包括：

显示目标采集视角对应的角度调整页面，角度调整页面包括标准采集区域和实时预览画面；当检测到实时预览画面中的目标对象区域与标准采集区域相匹配时，通过目标采集视角采集目标对象的手势图像。

为了得到包含更清晰手势动作的手势图像，在进行手势图像采集前，可以通过标准采集区域限定进行采集时，采集设备与目标对象之间相对固定的距离、角度等位置信息。检测到实时预览画面中的目标对象区域与标准采集区域相匹配，可以是客户端自动检测得到，也可以是目标对象观察实时预览画面和标准采集区域得到，等，通过目标采集视角采集目标对象的手势图像，可以是自动检测到时自动开始采集，也可以设置采集开始控件，当检测到采集开始控件被触发时，即通过目标采集视角采集目标对象的手势图像。标准采集区域的形状和面积大小可以根据实际需求灵活设置。

比如，参见图10，显示目标采集视角对应的角度调整页面05，角度调整页面05包括标准采集区域052(图中的深色区域)和实时预览画面051(图中的深色和浅色区域)，当客户端自动检测到实时预览画面中的目标对象区域与标准采集区域相匹配时，客户端自动通过目标采集视角采集目标对象的手势图像。

在一些实施例中，视角选择控件包括第一视角控件和第二视角控件，步骤“当检测到针对采集视角选择控件的确定操作时，确定图像采集的目标采集视角”可以包括：

当检测到针对第一采集视角控件的确定操作时，确定目标采集视角为第一视角；当检测到针对第二采集视角控件的确定操作时，确定目标采集视角为第二视角。

比如，对于同时包含前置和后置摄像头的计算机设备来说，第一采集视角控件可以是前置采集确定按钮，第二采集视角控件可以是后置采集确定按钮，则，当检测到针对前置采集确定按钮的触发操作时，可以确定目标采集视角为计算机设备的前置摄像头对应的视角；当检测到针对后置采集确定按钮的触发操作时，可以确定目标采集视角为计算机设备的后置摄像头对应的视角。

在一些实施例中，手势识别方法还可以包括步骤：

基于目标采集视角，确定会话的目标对象。

如，当目标采集视角为第一视角时，可以确定会话的目标对象为第一对象；当目标采集视角为第二视角时，可以确定会话的目标对象为第二对象。

比如，当目标采集视角为计算机设备的前置摄像头对应的视角时，确定目标对象为第一对象，当目标采集视角为计算机设备的后置摄像头对应的视角时，确定目标对象为第二视角。

203、对采集到的手势图像进行手势识别，得到文本手势识别结果。

对采集到的手势图像进行手势识别，手势识别的方式可以有多种，可以通过人工或自动的方式进行识别，自动的方式进行手势识别如对通过算法进行，算法可以包括人工智能的计算机视觉领域的相关技术，算法可以基于神经网络进行，神经网络如卷积神经网络(CNN，Convolutional Neural Networks)、循环神经网络(RNN，Recurrent NeuralNetwork)等。

文本手势识别结果可以为对采集到的手势图像进行手势识别得到的结果，具体地，文本手势识别结果所使用的语言(如汉字、英语等)、或表达形式(如字体、字号等)等可以在实际使用过程中灵活调节。

对采集到的手势图像进行手势识别，得到文本手势识别结果，是实现通过手势识别在会话中传递信息的关键一步，对于特殊群体来说，通过键盘输入文字、语音等方式可能比较困难甚至不可实现，通过技术将目标对象所作的手势转化为文本，可以帮助这些特殊群体在群体间、群体外的对象之间，高效地沟通。

比如，采集到的若干手势图像包含的手势可以描述为右手拇指竖起,其他四指握拳,竖起的大拇指向前弯曲两下，对该若干手势图像进行手势识别，得到的文本手势识别结果为汉字“谢谢”。

在一些实施例中，手势识别方法还可以包括：

显示第一客户端上的图像预览页面，图像预览页面包括实时采集到的手势图像，

此时，步骤“对采集到的手势图像进行手势识别，得到文本手势识别结果”可以包括：

当检测到针对手势图像的采集完成时，对采集到的手势图像进行识别，得到文本手势识别结果。

开始图像采集后，可以将采集到的图像在图像预览页面上进行显示，可以方便目标对象对及时调整自身、或调整采集设备，以得到包含更多手势动作等手势识别所需关键信息的手势图像。

当检测到针对手势图像的采集完成时，对采集到的手势图像进行识别，得到文本手势识别结果。手势图像的采集完成可以有多种检测方式，可以自动检测，客户端可以对连续的手势图像之间是否有差异、或手势图像内手否有手势等进行自动检测，如，当客户端检测到存在出现大于设定阈值的连续静止图片的数量时，可以自动停止手势图像的采集；可以在实施预览页面上设置采集结果控件，则当客户端检测到针对采集结束控件的触发操作时，即检测到手势图像的采集完成，等等，然后，对采集到的手势图像进行识别，得到文本手势识别结果。

比如,对象a的客户端A上可以显示图像预览页面，图像预览页面上包括已经采集到的手势图像，当检测到对象a对图像预览页面上的采集结束控件的触发操作时，客户端A确定手势图像的采集完成，对采集到的手势图像进行手势识别，得到文本手势识别结果。

在一些实施例中，步骤“基于针对手势识别控件的触发操作，采集会话中目标对象的手势图像”可以包括：、

基于针对手势识别控件的触发操作，采集会话中目标对象的手势视频，手势视频包括若干手势图像以及每一手势图像在手势视频内的时间信息。

对手势视频进行手势检测，确定手势视频中的目标手势时间信息；基于目标手势时间信息对手势视频进行手势识别，得到文本手势识别结果。

手势视频可以为包含若干手势图像的图像集，手势视频中的每一手势图像携带时间信息，时间信息可以包括每一手势图像在该手势视频内的时间先后顺序信息，比如，可以通过阿拉伯数字对手势图像进行编号，手势图像对应的阿拉伯数字越大，该手势图像在该手势视频中出现的时间点越晚；时间信息也可以包括更加精确的数据，如，时间信息可以是采集到该手势图像的时间点，或者是该手势图像在该段视频内的所处的时间点，等。

其中，目标手势时间信息可以包括手势视频中满足预设变化条件的手势图像对应的时间信息，目标手势时间信息需要对手势视频进行一定的处理和检测，得到满足预设变化条件的手势图像，再对此手势图像的时间信息进行整合，即可得到目标手势时间信息。

手势采集过程中，可能会出现目标对象在做出手势的时候停顿，停顿可以是无意的，如目标对象在思考如何组织手势，产生了无意识的停顿；也可以是有意的停顿，如为了表达一组手势的结束，目标对象可以在该组手势做完时停顿一段时间；当然也可以存在有意和无意结合产生的停顿，区分停顿是为了确定这些停顿的目的是什么，进而判断是否需要对这些停顿进行处理。

比如，可以对手势视频进行手势检测，确定手势视频中的手势停顿时间，手势停顿时间可以是一组手势与另一组手势的时间停顿，可以类似理解为说话时句子(或词语)与句子(或词语)之间的时间停顿。

此外，手势视频可以包括若干手势子视频以及每一手势子视频在该手势视频内的时间信息，每一手势子视频内可以包含若干手势图像以及每一手势图像在该手势子视频内的时间信息。则，可以对每一手势子视频进行手势检测，确定每一手势子视频中的目标手势时间信息，再基于目标手势时间信息对手势子视频进行手势识别，得到每一手势子视频对应的文字识别结果，再根据每一手势子视频携带的时间信息对每一手势子视频对应的文字识别结果进行整合，得到手势视频的文本手势识别结果。

在一些实施例中，步骤“对手势视频进行手势检测，确定手势视频中的目标手势时间信息”可以包括：

识别手势视频中每一手势图像的关键点；基于设定参数和每一手势视频的关键点，确定每一手势图像内的差异检测区域；对相邻手势图像内的差异检测区域进行差异检测，得到手势视频的差异信息；基于设定系数和差异信息，确定手势视频中的待筛除图像；根据待筛除图像对应的时间信息，确定手势视频的目标手势时间信息。

关键点可以是手势图像中目标对象的关键位置，比如，关键点可以是人体或手势的关键位置，如，可以是人体上的手腕、手肘、或肩膀等，可以是脸部的嘴角、眼角、或鼻头等位置，识别每一手势图像上的关键点，并结合预先设置的设定系数，来确定每一手势图像上的差异检测区域。比如，可以通过设定的算法模型识别一手势图像中的肩膀左右边界点，并依此确定该手势图像中目标对象的肩宽，再根据设定系数，将肩宽与设定系数相融合，即可确定人体的上半身长度，并将肩膀位置作为上半身终止线，即可得到理论上的上半身起始线。

其中，差异检测区域可以是手势图像中的一块连续区域，差异检测区域可以为手势的发出区域，对差异检测区域进行差异检测，可以确定相邻两张手势图像之间是否有手势的变化，如差异检测区域可以为手势图像中的人体上半身区域，对象可以结合上半身区域的特定位置表达一些手势，对相邻手势图像的差异检测区域进行检测，差异检测可以通过设定的检测模型进行，检测可以确定相邻手势图像之间是否存在差异(差异检测区域是否存在变化)，得到相邻手势图像之间的差异信息。

其中，差异信息可以是衡量相邻手势图像之间存在的差异的信息，差异信息可以通过设定的衡量标准，对相邻手势图像之间的差异程度进行度量，或者差异信息可以也可以对差异进行更加精确地记录，比如可以记录包含差异的区域等，具体地，可以在实际应用时根据需要灵活确定。

得到差异信息后，可以基于设定阈值和差异信息，确定手势图像中的待筛除图像，待筛除图像的确定可以通过多种因素共同确定，准确的确定待筛除图像，保证对包含有效手势的手势图像的完整保存，对于最终取得手势视频的文本手势识别结果来说至关重要。

比如，当连续存在N(N为正整数)个表征无差异的差异信息时，通常需要根据N的数量来确定这些差异信息对应的手势图像是否为待筛除图像，此时可以通过设定阈值进行，设定阈值可以根据目标对象的手语发出节奏、或习惯等综合确定，设定阈值可以统一设置，大多数人可以根据统一设置的设定阈值得到较准确的结果，应用范围更广；也可以根据单个的目标对象进行单独设定，此时更加注重个性差异，得到的设定阈值相对更加准确，等。确定设定阈值可以是通过分析大样本或单个样本的历史手势视频，得到历史数据，通过对历史数据的分析，得到更加合理的设定阈值。

此外，在确定待筛除图像时，还要考虑不同个体的发出手势时的表达节奏，比如，若存在部分对象，在做动作时习惯性停顿(如初学者等)，则需要根据这类对象的历史数据进行分析，再对设定阈值进行设置。对于N小于设定阈值的情况，此N个差异信息对应的手势图像会被保留。其中，待筛除图像可以是即将进行对被执行抛弃操作的手势图像。

确定待筛除图像后，基于待筛除图像时间信息，即可确定手势视频的目标手势时间信息。

在本实施例中，目标手势时间信息可以是与待筛除图像对应的时间信息，在另一些实施例中，目标手势时间信息也可以是与待保留图像对象的时间信息，等等。

在一些实施例中，步骤“基于目标手势时间信息对手势视频进行手势识别，得到文本手势识别结果”可以包括：

根据目标手势时间信息，对手势视频进行分割处理，得到至少一个手势子视频以及每一手势子视频的时间信息；对每一手势子视频进行手势识别，得到每一手势子视频对应的文本识别结果；基于每一手势子视频的时间信息，整合每一手势子视频对应的文本识别结果，得到手势视频的文本手势识别结果。

其中，目标手势时间信息为待图像对应的时间信息或待筛除图像对应的时间信息时，对手势图像进行分割处理，都可以得到待保留的手势子视频，以及每一手势子视频对应的时间信息，其中，所有手势子视频的并集可以为手势视频的子集，时间信息可以包括时间先后顺序信息，也可以包括精确的时间段信息，等。

然后，可以对每一手势子视频进行手势识别，得到每一手势子视频对应的文本识别结果，根据每一手势自视频对应的时间信息，为所有文本识别结果设置先后顺序，并在相邻文本识别结果之间添加恰当的标点符号，最终可以得到手势视频的文本手势识别结果。

在一些实施例中，步骤“对每一手势子视频进行手势识别，得到每一手势子视频对应的文本识别结果”可以包括：

对每一手势子视频内的手势图像进行截取，得到每一手势子视频内的手势图像的区域图像；基于每一手势子视频内的手势图像和每一手势子视频内的区域图像，对每一手势子视频进行特征提取，得到每一手势子视频的特征信息；对每一手势子视频的特征信息进行识别，得到每一手势子视频对应的文本识别结果。

本实施例可以借助一种可行的方法对手势子视频进行手势识别，其他未列举出的现有的手势识别方法，也应理解为本申请中进行手势识别时，可行的手势识别方法，而不应有所限制。

其中，对手势图像进行截取，主要是提取出仅包含手势以及关键身体部位的区域，将此区域图像和手势图像输入特征提取模型进行手势子视频的特征提取和表示，然后可以通过潜在空间(LS，Latent Space)、将得到的特征与包含若干组手势及其对应含义的数据集之间建立联系，再将建立联系后的特征输入另一网络模型，最终得到手势视频的识别结果，如网络模型可以是层次结构的注意力机制网络(HAN，the Hierarchical AttentionNetwork)。

204、当目标对象为第二对象时，向第二对象的第二客户端发送文本手势识别结果，在第一客户端的会话页面显示第二客户端返回的消息，其中，消息包括修正后的文本手势识别结果，修正后的文本手势识别结果为第二对象通过第二客户端对文本手势识别结果进行修正得到。

比如，目标对象为对象b时，则客户端A向对象b的客户端B发送文本手势识别结果，对象b可以在客户端B上对文本手势识别结果进行修正，当识别得到的文本手势识别结果存在不恰当或错误的表达时，对象b可以对其进行修改，得到与对象b发出的手势表示的含义相一致的文本，并将该文本(即修正后的文本手势识别结果)返回至客户端A，则对象a可以在自己的计算机设备上看到对象b的手势所表达的准确含义，此方式促进了会话双方的互动，加入修正过程和消息发送过程，使得会话中的手语信息发出方(对象b)可以以更高效的方式向手语信息接收方(对象a)传递信息。

205、当目标对象为第一对象时，在第一客户端的修正页面上显示文本手势识别结果，以及基于第一对象在修正页面上的修正操作，对文本手势识别结果进行修正，当检测到修正操作完成时，在第一客户端的会话页面上显示第一对象向第二对象发送的消息，消息包括修正后的文本手势识别结果。

比如，目标对象为对象a时，则在客户端A的修正页面上显示文本手势识别结果,对象a可以对该文本手势识别结果进行修正，比如，删除错误内容，补全不完善内容等，对象a的修正操作完成时，也可以是对象a进行了消息发送操作时，即可向客户端B发送包含修正后的文本手势识别结果的消息，客户端A的会话页面上会显示该消息。

此外，若第一客户端上的第一对象不准备进行消息传递，则不论目标对象是第一对象或第二对象，文本手势识别结果都会显示在第一客户端上。

本方案还可以根据目标对象自动判别采集场景，当目标对象为第二对象时，第一对象为进行手势采集的采集对象，第二对象为发出手势的手势对象，因此直接将第一对象识别得到的文本手势识别结果发送至第二对象的第二客户端，由第二对象进行修正和信息发送，第二对象发送的信息即第二对象发出的手势欲表达的内容，相应地，第一对象为目标对象时，可确定第一对象为手势采集的采集对象和发出手势的手势对象，因此文本手势识别结果在第一对象的第一客户端上进行显示，由第一对象进行修正和信息发送，此方式可以根据目标对象进行相应的自动操作，极大的提高了沟通效率。

根据上述实施例所描述的方法，以下将举例作进一步详细说明。

本实施例将以手语识别为例，如图11，图11为本申请实施例提供的手语识别方法的一流程示意图，其中，第一客户端与第二客户端所属的应用程序为一手语识别程序，该应用程序可以安装并应用在同时包含前置摄像头和后置摄像头的计算机设备上，如智能手机、平板电脑等，该方法可以包括：

301、第一对象的第一客户端对应的第一终端上显示对象配对页面，对象配对页面上包含用于与其他对象建立联系的对象配对控件。

比如，如图12，一手语识别应用程序的客户端的页面06上包含对话按钮061(即对象配对控件)和体验按钮062，其中，体验按钮02可以提供手语识别技术的体验服务。

302、基于第一对象针对对象配对控件的编辑操作，第一终端确定与第一对象建立联系的第二对象，并显示第一对象与第二对象之间的会话页面，会话页面上包括语音控件、常用语控件、文本输入控件、以及手语识别控件。

本申请实施例中，控件的表现形式可以包括按钮、编辑框、图标等。

比如，参见图12，小O触发对话按钮061后，该客户端显示扫描二维码页面07，二维码可以通过摄像头采集的方式获取，通过摄像头采集时，小O需要将二维码对准识别框071，识别框071上方包含提示信息“扫描二维码”，客户端可以根据在识别框071内采集到的二维码进行二维码识别，此识别框071的大小和形状为一种示例，比如，实际操作过程中，识别框的大小可以与页面相同，形状可以为圆形、多边形等；获取二维码也可以通过相册输入，此时，小O可以触发扫描二维码页面07上的相册按钮072，并在客户端所属的终端上选择二维码图像，

最终，客户端可以对小O选中的二维码图像进行识别，并，得到即将与小O建立联系的对象小U的标识，进而显示小O与小U的会话页面08，会话页面上包括快捷用语按钮081(即常用语控件)、键盘按钮082(即文本输入控件)、手语按钮083(即手语识别控件)和语音按钮084(即语音控件)。

其中，触发快捷用语按钮081可以显示如图13中的快捷用语页面09，并直接显示可以选择发送的快捷用语，如图中的“你还好吗”按钮091、“请问卫生间怎么走”按钮092以及“我肚子饿了”按钮093，触发例子中的按钮即可将此按钮上的文字作为消息在发送出去，并在会话页面上显示此消息；触发键盘按钮082可以显示如图9中的文本输入页面10，并显示用于文字编辑的键盘103、编辑框101、以及确定发送编辑框的内容的确定按钮102；触发语音按钮084可以进行如图9中的语音页面11，对象可以直接进行语音输入，语音页面11上提示动画提示正在采集语音。

303、基于第一对象针对手语识别控件的触发操作，第一终端显示目标采集视角下的实时预览画面，以及标准采集区域。

目标采集视角可以通过摄像头确定，通常默认采集视角为后置摄像头对应的视角，对象可以通过调整摄像头的方式调整目标采集视角，如将摄像头调整为前置，则目标采集视角即前置摄像头对应的视角。

，小O触发手语按钮083后，客户端显示如图14中的角度调整页面12，页面上包含通过后置摄像头(目标采集视角对应的采集设备)得到的实施预览画面121(图10中的浅色和深色区域)、以及采集标准区域122(图10中的深色区域)、以及手语按钮123。

304、当实时预览画面中目标对象区域与标准采集区域相匹配且触发此页面上的图像采集控件时，第一终端通过目标采集视角对目标对象进行手势图像采集。

如，小O将计算机设备对准小U,并通过调整摄像头与小U的距离和角度，使得计算机设备上实时预览画面中的目标对象区域与标准采集区域相匹配，此时，小O可以触发如图14中的手语按钮123此时手语按钮可以触发手势图像采集)，小O的客户端即可通过后置摄像头采集小U的手势。

305、当检测到手势图像采集操作结束时，对采集到的手势图像进行手语识别，得到手语识别结果。

比如，小O可以通过触发图14中的手语按钮123来结束采集(此时手语按钮可以终止手势图像采集)，小O的客户端或服务器等可以对采集到的手势图像进行手语识别，得到手语识别结果。

306、当目标对象为第二对象时，向第二对象的第二客户端对应的第二终端发送手语识别结果，接收第二客户端返回的包含修正后手语识别结果的消息。

目标对象可以通过目标采集视角确定，后置摄像头则目标对象为第二对象，前置摄像头则目标对象第一对象。

比如，目标对象为小U，则该识别结果可以由第一终端或服务器发送至第二终端，并显示在小U的第二客户端上，小U可以在第二客户端上对手语识别结果进行修正，修正完成后小U可以修正后的手语识别结果发送给小O，，如图15，则此时第一客户端小O的会话页面13上会显示包含修正后手语识别结果的消息“请问卫生间怎么走”，

此外，小U也可以选择放弃发送，如图15,，则小O的第一客户端上会显示提示页面14，提示页面14显示提示信息141“对方放弃此次手语识别结果”、“留在此界面”按钮142和“返回主界面”按钮143。

307、当目标对象为第一对象时，在第一客户端的修正页面上显示手语识别结果，当检测到第一对象在修正页面上针对手语识别结果的修正操作完成时，在第一客户端上显示第一对象向第二对象发送的消息，该消息包括修正后手语识别结果。

比如，参见图16，若小O选择前置摄像头进行手势图像采集，则目标对象为小O,第一终端得到手语识别结果后，将该手语识别结果显示在第一客户端上的修正页面15上，手语识别结果为“请问卫生间怎么走”，小O可以对该手语识别结果进行修正，若小O修正完毕，并确定向小U发送修正后的手语识别结果，则可以触发确定按钮151，小O的会话页面16上就会显示小O发送的消息“请问卫生间怎么走”；如果小O决定不发送，则可以触发取消按钮152,即小O不发送消息至小U并放弃此次识别结果。

小O与小U进行会话可以通过信息池来进行信息的接收，如，小O在与小U配对后，后台会给小O开辟一个小U的信息池，若小U发送消息至小O，即发送消息至小O的信息池，小O的客户端会以设定时间去查找信息池内是否存在信息，若存在，则客户端将信息池内的信息显示在小O与小U的会话页面上。

当小O与小U此次对话完成后，可以选择解除二者的匹配关系，此时可以将彼此在进行配对时存储的对方的标识(如对象ID)删除，即为解除配对关系。

如图17，本申请一种可选的交互逻辑是，终端实时上传手语视频至服务器，由服务器对手语视频进行识别，并返回中间结果(中间结果可以是基于对实时上传的手语视频的识别结果)，当终端确定停止拍摄(采集)手语视频时，通过判断终端上的摄像头来确定进行采集结果确认的对象(摄像头对应视角，通过视角确定目标对象)，当检测到进行拍摄的为前置摄像头时，将手语识别结果发送至本地终端，由本地对象在本地终端进行确认和修改(修正)，当检测到进行拍摄的为后置摄像头时，将手语识别结果发送至会话中的对方，由对方在对方终端进行确认和修改(修正)，不论是本地对象或对方，在修正完成后，当确定发送结果至会话的另一方时，本地终端或对方终端发送最终结果到会话中。

如图18，在对上传的手语视频进行手语识别的过程可以大致如图所示，首先进行人体关键点检测，找到鼻子、左右肩膀、左右手肘、左右手腕共7个关键点，然后通过左右肩膀和鼻子关键点找到人体上半身区域，接着进行动作检测，判断是否有在做动作，比如检测手语视频中相邻帧图像的差异信息，基于差异信息判断是否做动作，然后进行端点检测，判断是否有停顿或终止拍摄，比如，一定时间内没有动作(即若干相邻帧图像的差异信息不存在)可以判断为停顿或终止拍摄等，如果检测到端点，则该端点处添加句号作为分割，并将端点两侧的部分手语视频作为一个连贯的表达进行动作识别(手语识别)，如果没有检测到端点，则可以直接对该手语视频进行动作识别(手势识别)，最后返回识别结果至终端，终端可以展示该识别结果，也可以仅将识别结果保存起来。

本实施例中，第一对象的第一客户端对应的第一终端上显示对象配对页面，对象配对页面上包含用于与其他对象建立联系的对象配对控件，挤着基于第一对象针对手语识别控件的触发操作，第一终端显示目标采集视角下的实时预览画面，以及标准采集区域，然后基于第一对象针对手语识别控件的触发操作，第一终端显示目标采集视角下的实时预览画面，以及标准采集区域，当实时预览画面中目标对象区域与标准采集区域相匹配且触发此页面上的图像采集控件时，第一终端通过目标采集视角对目标对象进行手势图像采集，然后当检测到手势图像采集操作结束时，对采集到的手势图像进行手语识别，得到手语识别结果，接着当目标对象为第二对象时，向第二对象的第二客户端对应的第二终端发送手语识别结果，接收第二客户端返回的包含修正后手语识别结果的消息。当目标对象为第一对象时，在第一客户端的修正页面上显示手语识别结果，当检测到第一对象在修正页面上针对手语识别结果的修正操作完成时，在第一客户端上显示第一对象向第二对象发送的消息，该消息包括修正后手语识别结果。

为便于更好的实本申请实施例提供的手势识别方法，本申请实施例还提供一种基于上述手势识别方法的装置。其中名词的含义与上述手势识别方法中相同，具体实现细节可以参考方法实施例中的说明。

如图19所示，图19为本申请一实施例提供的手势识别装置的结构示意图，其中该手势识别装置可以包括显示模块401、采集模块402、识别模块403、第二对象模块404和第一对象模块405，其中：

显示模块401，用于在第一对象的第一客户端，显示第一对象与第二对象之间的会话页面，会话页面包括手势识别控件；

采集模块402，用于基于针对手势识别控件的触发操作，采集会话中目标对象的手势图像；

识别模块403，用于对采集到的手势图像进行手势识别，得到文本手势识别结果；

第二对象模块404，用于当目标对象为第二对象时，向第二对象的第二客户端发送文本手势识别结果，在第一客户端的会话页面显示第二客户端返回的消息，其中，消息包括修正后的文本手势识别结果，修正后的文本手势识别结果为第二对象通过第二客户端对文本手势识别结果进行修正得到；

第一对象模块405，用于当目标对象为第一对象时，在第一客户端的修正页面上显示文本手势识别结果，以及基于第一对象在修正页面上的修正操作，对文本手势识别结果进行修正，当检测到修正操作完成时，在第一客户端的会话页面上显示第一对象向第二对象发送的消息，消息包括修正后的文本手势识别结果。

在本申请的一些实施例中，显示模块401包括第一显示子模块、获取子模块和第二显示子模块，其中，

第一显示子模块，用于在第一对象的第一客户端显示对象配对页面，对象配对页面包括对象配对控件；

获取子模块，用于基于针对对象配对控件的配对操作，获取与第一对象建立联系的第二对象的标识；

第二显示子模块，用于根据第二对象的标识，在第一客户端上显示第一对象与第二对象之间的会话页面。

在本申请的一些实施例中，手势识别装置还包括：

页面显示模块，用于显示第一客户端上的图像预览页面，图像预览页面包括采集完成控件和实时采集到的手势图像；

在此实施例中，识别模块具体用于：

在本申请的一些实施例中，如图20所示，采集模块402包括显示子模块4021、确定子模块4022和采集子模块4023，其中，

显示子模块4021，用于基于针对手势识别控件的触发操作，显示采集视角选择控件；

确定子模块4022，用于当检测到针对采集视角选择控件的确定操作时，确定图像采集的目标采集视角；

采集子模块4023，用于通过目标采集视角采集目标对象的手势图像。

在本申请的一些实施例中，采集子模块4023具体用于:

显示目标采集视角对应的角度调整页面，角度调整页面包括标准采集区域和实时预览画面；

当检测到实时预览画面中的目标对象区域与标准采集区域相匹配时，通过目标采集视角采集目标对象的手势图像。

在本申请的一些实施例中，视角选择控件包括第一视角控件和第二视角控件，确定子模块4022具体用于：

当检测到针对第一采集视角控件的确定操作时，确定目标采集视角为第一视角；

当检测到针对第二采集视角控件的确定操作时，确定目标采集视角为第二视角。

在本申请的一些实施例中，手势识别装置还包括：

确定模块，用于基于目标采集视角，确定会话的目标对象。

在本申请的一些实施例中，采集模块具体用于：

基于针对手势识别控件的触发操作，采集会话中目标对象的手势视频，手势视频包括若干手势图像以及每一手势图像在手势视频内的时间信息；

在此实施例中，如图21，识别模块403包括确定子模块4031和识别子模块4032，其中，

确定子模块4031，用于对手势视频进行手势检测，确定手势视频中的目标手势时间信息，其中，目标手势时间信息为手势视频中满足预设变化条件的手势图像对应的时间信息；

识别子模块4032，用于基于目标手势时间信息对手势视频进行手势识别，得到文本手势识别结果。

在本申请的一些实施例中，确定子模块具体用于：

识别手势视频中每一手势图像的关键点；

对相邻手势图像内的差异检测区域进行差异检测，得到手势视频的差异信息；

基于设定系数和差异信息，确定手势视频中的待筛除图像；

根据待筛除图像对应的时间信息，确定手势视频的目标手势时间信息。

分割单元，用于根据目标手势时间信息，对手势视频进行分割处理，得到至少一个手势子视频以及每一手势子视频的时间信息；

整合单元，用于基于每一手势子视频的时间信息，整合每一手势子视频对应的文本识别结果，得到手势视频的文本手势识别结果。

在本申请的一些实施例中，识别单元具体用于：

本申请实施例中，显示模块401在第一对象的第一客户端，显示第一对象与第二对象之间的会话页面，会话页面包括手势识别控件，然后修正模块402基于针对手势识别控件的触发操作，采集会话中目标对象的手势图像，识别模块403再对采集到的手势图像进行手势识别，得到文本手势识别结果；当目标对象为第二对象时，第二对象模块404向第二对象的第二客户端发送文本手势识别结果，在第一客户端的会话页面显示第二客户端返回的消息，其中，消息包括修正后的文本手势识别结果，修正后的文本手势识别结果为第二对象通过第二客户端对文本手势识别结果进行修正得到；当目标对象为第一对象时，第一模块405在第一客户端的修正页面上显示文本手势识别结果，以及基于第一对象在修正页面上的修正操作，对文本手势识别结果进行修正，当检测到修正操作完成时，在第一客户端的会话页面上显示第一对象向第二对象发送的消息，消息包括修正后的文本手势识别结果。

此外，本申请实施例还提供一种计算机设备，该计算机设备可以为终端或者服务器，如图22所示，其示出了本申请实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解，图22中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器501是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体检测。可选的，处理器501可包括一个或多个处理核心；优选的，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、对象页面和应用程序等，调制解调处理器主要处理无线通讯。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。

存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502的访问。

计算机设备还包括给各个部件供电的电源503，优选的，电源503可以通过电源管理系统与处理器501逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元504，该输入单元504可用于接收输入的数字或字符信息，以及产生与对象设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器501会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中，并由处理器501来运行存储在存储器502中的应用程序，从而实现各种功能，如下：

在第一对象的第一客户端，显示第一对象与第二对象之间的会话页面，会话页面包括手势识别控件；基于针对手势识别控件的触发操作，采集会话中目标对象的手势图像；对采集到的手势图像进行手势识别，得到文本手势识别结果；当目标对象为第二对象时，向第二对象的第二客户端发送文本手势识别结果，在第一客户端的会话页面显示第二客户端返回的消息，其中，消息包括修正后的文本手势识别结果，修正后的文本手势识别结果为第二对象通过第二客户端对文本手势识别结果进行修正得到；当目标对象为第一对象时，在第一客户端的修正页面上显示文本手势识别结果，以及基于第一对象在修正页面上的修正操作，对文本手势识别结果进行修正，当检测到修正操作完成时，在第一客户端的会话页面上显示第一对象向第二对象发送的消息，消息包括修正后的文本手势识别结果。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成，或通过计算机程序控制相关的硬件来完成，该计算机程序可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例还提供一种存储介质，其中存储有计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种手势识别方法中的步骤。例如，该计算机程序可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种手势识别方法中的步骤，因此，可以实现本申请实施例所提供的任一种手势识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种手势识别方法、装置、计算机设备以及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种手势识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述在第一对象的第一客户端，显示所述第一对象与第二对象之间的会话页面，包括：

在第一对象的第一客户端显示对象配对页面，所述对象配对页面包括对象配对控件；

基于针对所述对象配对控件的配对操作，获取与所述第一对象建立联系的第二对象的标识；

根据所述第二对象的标识，在所述第一客户端上显示所述第一对象与所述第二对象之间的会话页面。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

显示所述第一客户端上的图像预览页面，所述图像预览页面包括采集完成控件和实时采集到的手势图像；

所述对采集到的手势图像进行识别，得到文本手势识别结果，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于针对所述手势识别控件的触发操作，采集会话中目标对象的手势图像，包括：

基于针对所述手势识别控件的触发操作，显示采集视角选择控件；

当检测到针对所述采集视角选择控件的确定操作时，确定图像采集的目标采集视角；

通过所述目标采集视角采集所述目标对象的手势图像。

5.根据权利要求4所述的方法，其特征在于，所述通过所述目标采集视角采集所述目标对象的手势图像，包括：

6.根据权利要求4所述的方法，其特征在于，所述视角选择控件包括第一采集视角控件和第二采集视角控件，所述当检测到针对所述采集视角选择控件的确定操作时，确定图像采集的目标采集视角，包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

基于所述目标采集视角，确定所述会话的目标对象。

8.根据权利要求1所述的方法，其特征在于，所述基于针对所述手势识别控件的触发操作，采集会话中目标对象的手势图像，包括：

所述对采集到的手势图像进行手势识别，得到文本手势识别结果，包括：

对所述手势视频进行手势检测，确定所述手势视频中的目标手势时间信息，包括：识别所述手势视频中每一手势图像的关键点；基于设定参数和每一手势视频的关键点，确定每一手势图像内的差异检测区域；对相邻手势图像内的差异检测区域进行差异检测，得到所述手势视频的差异信息；基于设定系数和所述差异信息，确定所述手势视频中的待筛除图像；根据所述待筛除图像对应的时间信息，确定所述手势视频的目标手势时间信息；

基于所述目标手势时间信息对所述手势视频进行手势识别，得到文本手势识别结果。

9.根据权利要求8所述的方法，其特征在于，所述基于所述目标手势时间信息对所述手势视频进行手势识别，得到文本手势识别结果，包括：

根据所述目标手势时间信息，对所述手势视频进行分割处理，得到至少一个手势子视频以及每一手势子视频的时间信息；

对每一手势子视频进行手势识别，得到每一手势子视频对应的文本识别结果；

基于每一手势子视频的时间信息，整合每一手势子视频对应的文本识别结果，得到所述手势视频的文本手势识别结果。

10.根据权利要求9所述的方法，其特征在于，所述对每一手势子视频进行手势识别，得到每一手势子视频对应的文本识别结果，包括：

11.一种手势识别装置，其特征在于，包括：

12.一种计算机设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1至10任一项所述方法的步骤。

13.一种存储介质，其特征在于，所述存储介质存储有多条计算机程序，所述计算机程序适于处理器进行加载，以执行如权利要求1至10任一项方法中的步骤。