CN111831120B

CN111831120B - 一种视频应用的手势交互方法、装置及系统

Info

Publication number: CN111831120B
Application number: CN202010672888.9A
Authority: CN
Inventors: 罗振亚
Original assignee: Shanghai Suiqi Intelligent Technology Co ltd
Current assignee: Shanghai Suiqi Intelligent Technology Co ltd
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2024-02-09
Anticipated expiration: 2040-07-14
Also published as: CN111831120A

Abstract

本发明属于视频应用领域，本发明提供一种视频应用的手势交互方法、装置及系统，其方法包括：通过分析视频应用画面中参与者的当前行为信息，识别所述参与者的当前交互手势；依据所述参与者的当前交互状态和所述当前交互手势，进行交互语义匹配；当所述视频应用系统匹配到在当前交互状态下，所述当前交互手势表达的交互语义时，所述参与者成功表达所述当前交互语义的真实意愿，通过所述视频应用对所述交互语义进行功能响应和/或应用响应。本发明实现在视频应用中进行有序的手势交互，自动分析交互结果并保存以使得到交互结果保持可靠性，进而后续能实时提取交互结果。

Description

一种视频应用的手势交互方法、装置及系统

技术领域

本发明涉及视频应用领域，尤指一种视频应用的手势交互方法、装置及系统。

背景技术

目前在线视频应用领域中，当参与者与发言者或视频应用管理员进行交互时，通常只能选择打断发言者、或者在点击发言按钮、输入文字，视频应用次序受到挑战。输入操作也需要获取到键盘、鼠标、遥控器等输入设备。一个视频方有多人操作时，输入设备的使用也会比较混乱。

当视频应用需要多人参与时，如签到、决策时，只能按参与方做统计，无法按参与人员详细统计。

视频应用需要多人参与决策等可能会产生责权、法律效力的过程时，无法对决策过程进行存证，形成有效的合规记录。

发明内容

本发明提供一种视频应用的手势交互方法、装置及系统，实现了在视频应用中有序的进行手势交互，自动分析交互结果并保存以使得到交互结果保持可靠性，进而后续能实时提取交互结果。

本发明提供的技术方案如下：

一方面，一种视频应用的手势交互方法，包括以下步骤：

通过分析视频应用画面中参与者的当前行为信息，识别所述参与者的当前交互手势；其中，所述当前行为信息包括参与者、关节、肢体姿态、位置信息、运动轨迹、画面差异；

依据所述参与者的当前交互状态和所述当前交互手势，进行交互语义匹配；

当所述视频应用系统匹配到在当前交互状态下，所述当前交互手势表达的交互语义时，所述参与者成功表达所述当前交互语义的真实意愿，通过所述视频应用对所述交互语义进行功能响应和/或应用响应；

其中，所述参与者的当前交互状态包括通过在视频应用中自动识别判断的交互状态或由特定权限人员调整的交互状态。

进一步优选地，对视频应用画面进行实时或异步分析，获取参与者的特征信息；

基于所述参与者的特征信息识别所述参与者的身份，以使所述参与者的交互手势具备被识别的资格。

进一步优选地，还包括：

预定义交互语义、交互状态和交互手势，具体包括步骤：

视频应用根据不同阶段、不同场景、不同参与者及参与者的不同身份特性，预设不同的交互状态；

所述视频应用预设不同的交互语义，所述交互语义为参与者通过交互手势期望对所述视频应用进行功能操作和/或应用操作的真实意愿；

其中，所述预定义交互语义包括：交互手势与交互状态，每种交互语义对应一种视频应用中的功能或视频应用中的对应操作响应；所述交互状态包括视频应用功能响应、视频应用主持、视频应用管理、不同视频应用中不同场景下参与者状态等；所述预定义交互语义、所述交互状态和所述交互手势可以自定义新增、删除或修改；

在所述当前交互状态为功能响应状态时，通过分析所述视频应用画面中参与者的当前行为信息，识别所述参与者的当前交互手势，具体包括步骤：

当所述当前行为信息为单手手掌掌心置于嘴部时，所述当前交互手势的交互语义为麦克风静音或取消静音；

当所述当前行为信息为单手手掌顺时针画圈时，所述当前交互手势的交互语义为开始录像/停止录像；

当所述当前行为信息为双手并于胸前，平移分开时，所述当前交互手势的交互语义为摄像头拉近；

当所述当前行为信息为双手手掌向前，平移合拢时，所述当前交互手势的交互语义为摄像头拉远；

当所述当前行为信息为单手握拳食指立起立于嘴部时，所述当前交互手势的交互语义为声音静音/取消静音；

当所述当前行为信息为双手握拳相对时，所述当前交互手势的交互语义为麦克风交接；

当所述当前行为信息为单掌置于头侧后方时，所述当前交互手势的交互语义为提高音量；

当所述当前行为信息为单掌连续往返向下按压时，所述当前交互手势的交互语义为降低音量；

当所述当前行为信息为单手掌心向外且处于额头处时，所述当前交互手势的交互语义为关闭/打开所述视频应用的摄像头；

当所述当前行为信息为单手手臂向前伸展且手心向外时，所述当前交互手势的交互语义为摄像头焦点追踪；

当所述当前行为信息为双手手掌向外平行下滑时，所述当前交互手势的交互语义为截屏；

在所述当前交互状态为主持、管理或发言状态时，通过分析所述视频应用画面中参与者的当前行为信息，识别所述参与者的当前交互手势，具体包括步骤：

当所述当前行为信息为单手手掌张开转握拳时，所述当前交互手势的交互语义为关闭所述视频应用以外的所有麦克风；

当所述当前行为信息为双手掌心向外垂直立起时，所述当前交互手势的交互语义为关闭所述视频应用以外的所有摄像头；

当所述当前行为信息为双手交叉置于胸前时，所述当前交互手势的交互语义为拒绝请求；

当所述当前行为信息为单手单拳叩击2下时，所述当前交互手势的交互语义为幻灯片播放/暂停；

当所述当前行为信息为单手手掌从身体外侧向内侧滑动时，所述当前交互手势的交互语义为幻灯片下一页；

当所述当前行为信息为单手手掌从身体内侧向外侧滑动时，所述当前交互手势的交互语义为幻灯片上一页；

当所述当前行为信息为双手手掌垂直相交，手指指向另一手心时，所述当前交互手势的交互语义为请求视频应用暂停/呼叫管理员；

当所述当前行为信息为单手手指指向眼部时，所述当前交互手势的交互语义为视频应用纪律提醒；

在当前交互状态为旁听状态时，通过分析所述视频应用画面中参与者的当前行为信息，识别所述参与者的当前交互手势，具体包括步骤：

当所述当前行为信息为单手掌心向外垂直立起时，所述当前交互手势的交互语义为请求发言；

当所述当前行为信息为单手握拳拇指食指交错时，所述当前交互手势的交互语义为收藏；

当所述当前行为信息为单手握拳大拇指竖直向上时，所述当前交互手势的交互语义为赞成观点；

当所述当前行为信息为单手握拳大拇指立起向下时，所述当前交互手势的交互语义为反对观点；

在当前交互状态为签到状态时，通过分析所述视频应用画面中参与者的当前行为信息，识别所述参与者的当前交互手势，具体包括步骤：

当所述当前行为信息为单手掌心向外垂直立起时，所述当前交互手势的交互语义为应答签到；

当所述当前行为信息为双手交叉置于胸前时，所述当前交互手势的交互语义为不参与签到；

在当前交互状态为决策状态时，通过分析所述视频应用画面中参与者的当前行为信息，识别所述参与者的当前交互手势，具体包括步骤：

当所述当前行为信息为单手掌心向外垂直立起时，所述当前交互手势的交互语义为投赞成票；

当所述当前行为信息为双手交叉置于胸前时，所述当前交互手势的交互语义为投反对票；

当所述当前行为信息为双手掌心向外垂直立起时，所述当前交互手势的交互语义为投票弃权；

当所述当前行为信息为单手掌心向外处于额头处时，所述当前交互手势的交互语义为不参与投票。

进一步优选地，所述视频应用的手势交互方法，还包括步骤：

在所述对视频应用的画面进行实时或异步分析，获取参与者的特征信息前，提醒参与者进行交互手势的测试，获取视频应用画面中所述参与者在测试下的测试交互手势；

对所述参与者的测试交互手势或当前交互手势进行学习校正，保存与预设交互手势的偏差值以识别所述参与者的交互手势；

其中，所述校正的方式包括自动校正和手动校正。

进一步优选地，所述视频应用的手势交互方法，所述基于所述参与者的特征信息识别所述参与者的身份，以使所述参与者的交互手势具备被识别的资格，包括步骤：

将至少一个所述参与者的特征信息与数据库中参与者的特征信息进行匹配；

当匹配成功时，展示所述参与者的身份信息；

当匹配不成功时，通过不同的识别方式对所述参与者的身份信息进行唯一性标识或录入所述参与者的个人信息，并将所述参与者的身份信息或个人信息与在交互状态下表达的交互手势对应的交互语义关联，以使识别所述参与者的交互手势；

其中，所述标识的方式包括口令识别、智能卡识别、二维码、证书、第三方认证、生物识别、人工标注；所述关联的方式包括通过所述视频应用自动关联或由视频应用管理员二次确认后进行关联。

基于所述参与者的当前行为信息中位置信息和/或在对所述视频应用画面进行实时或异步分析时，获取所述参与者的数量；

判断所述参与者的位置信息和/或数量是否发生改变；

当所述参与者的位置信息和/或数量发生改变时，修正数据库中所述参与者的位置信息和/或数量；所述位置信息的改变包括新增、离场、返场、移位。

实时监测所述视频应用画面中所述参与者的状态信息；

分析所述参与者的状态信息，展示所述参与者的状态；

其中，所述状态包括中途离场、睡觉、注意力不集中和玩手机。

调整所述参与者的交互状态，提示所述参与者在控制所述视频应用进行功能响应和应用响应时可执行对应的交互手势，以进行手势交互，所述提示的方法可以包括在视频应用画面中展示；

所述调整所述参与者的交互状态具体包括：选择所述视频应用中可执行的交互状态作为所述参与者的当前交互状态、更换所述参与者的当前交互状态、关闭所述视频应用中参与者的当前交互状态。

获取所述交互状态下所述参与者的数量和交互信息，所述交互信息包括每个所述参与者进行手势交互时生成的所述视频应用数据、视频应用凭据、视频应用报表、存证图像和视频录像；

基于所述参与者的数量和交互信息，分析所述交互状态下的交互结果；所述分析方式包括统计、计算和报表；

将所述交互信息以及对应的交互结果生成文件以供调取。

当所述参与者成功表达所述当前交互手势后，以不同的方式展示所述参与者的身份信息和交互信息。

本发明还提供一种视频应用的手势交互装置，包括：

参与者识别模块，用于基于参与者的特征信息识别所述参与者的身份，以使所述参与者的交互手势具备被识别的资格；

状态识别模块，用于通过分析所述视频应用的不同阶段、不同场景、不同参与者及参与者不同身份等特征，判断所述参与者所处的交互状态；

手势识别模块，通过分析所述视频应用画面中参与者的当前行为信息，识别所述参与者的当前交互手势；所述当前行为信息包括肢体姿态、位置信息、运动轨迹、画面差异；

手势控制模块包括功能手势模块和应用手势模块，用于当匹配到在所述当前交互状态下的所述当前交互手势表达的交互语义时，所述参与者成功表达所述当前交互手势，控制所述视频应用进行功能响应和/或应用响应；其中，所述交互手势包括用于控制所述视频应用进行功能响应的功能手势和用于控制所述视频应用进行应用响应的应用手势。

本发明还提供一种视频应用的手势交互系统，包括所述的视频应用的手势交互装置、摄像装置和服务器；

所述摄像装置，用于获取参与者的交互手势；

所述视频应用的手势交互装置，用于识别所述参与者的交互手势，控制所述视频应用进行功能响应和/或应用响应；

所述服务器包括视频应用服务器、应用手势服务器、存证服务器和数据库服务器，用于将所述手势交互中的交互信息以及对应的交互结果生成文件以供调取；

其中，所述视频应用服务器用于获取手势交互过程中的视频和图像；所述应用手势服务器用于返回图像和声音信息至所述视频应用服务器；所述存证服务器用于存储所述手势交互中的交互信息以及对应的交互结果；

所述数据库服务器包括参与者当前数据库服务器、参与者历史数据库服务器、手势语义库服务器和交互记录数据库服务器；

其中，所述参与者当前数据库服务器用于获取参与者的当前身份信息；所述参与者历史数据库服务器用于存储参与者的历史身份信息；所述手势语义库服务器用于存储交互手势对应的交互语义；所述交互记录数据库服务器用于存储手势交互过程中的交互记录。

本发明提供的一种视频应用的手势交互方法、装置和系统至少具有以下有益效果：

1)本发明实现在视频应用中有序的进行手势交互，自动分析交互结果并保存以使得到交互结果保持可靠性，进而后续能实时提取交互结果。

2)通过不同的自动分析方式分析交互手势和交互结果，例如AI识别、深度学习、差异分析、大数据比对等方法，提高了手势交互和交互结果获得的效率，同时也提高了交互结果的准确性，节约了人工。

3)本发明通过系统对参与者进行监控，将监控数据进行分析后直接向管理人员展示分析结果，通过图表式的数据可以对分析结果进行形象化的展示，提高通过手势交互进行视频应用的效率，避免了人工的浪费。

4)通过本发明可以灵活的控制每一次手势交互的交互结果的展示方法，从而满足每一种视频应用以及手势交互的模式，是一种通用的视频应用的手势交互方法。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细说明：

图1是本发明的一种视频应用的手势交互方法的一个实施例的流程示意图；

图2是本发明的一种视频应用的手势交互方法的一个实施例的流程示意图；

图3是本发明中交互手势的单手势的示意图；

图4是本发明中交互手势的双手势的的示意图；

图5是本发明中交互手势的肢体姿势手势的示意图；

图6是本发明的功能手势的示意图；

图7是本发明的功能手势的示意图；

图8是本发明的应用手势的示意图；

图9是本发明中基于所述参与者的特征信息识别所述参与者的身份，以使所述参与者的交互手势具备被识别的资格的流程示意图；

图10是本发明中交互手势的学习校正的示意图；

图11是本发明的参与者数量变化的示意图；

图12是本发明的参与者交互状态的示意图；

图13是本发明的参与者交互结果的示意图；

图14是本发明的一种视频应用的手势交互装置的结构示意图；

图15是本发明的一种视频应用的手势交互系统的一个实施例的结构示意图；

图16是本发明的一种视频应用的手势交互系统的另一个实施例的结构示意图；

图17是本发明的一种视频应用的手势交互方法的另一个实施例的流程示意图；

图18是在功能响应状态下的手势示意图；

图19是在主持、管理或发言状态下的手势示意图；

图20是在旁听状态下的手势示意图；

图21是在签到状态下的手势示意图；

图22是在决策状态下的手势示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在本文中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

另外，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

一方面，如图1所示，本发明提供一种视频应用的手势交互方法的一个实施例，包括以下步骤：

S300通过分析所述视频应用画面中参与者的当前行为信息，识别所述参与者的当前交互手势；其中，所述当前行为信息包括肢体姿态、位置信息、运动轨迹、画面差异。

S400所述视频应用根据不同阶段、不同场景、不同参与者及参与者的不同身份等特征，识别所处的交互状态。

S500当匹配到在当前交互状态下，所述当前交互手势表达的交互语义时，所述参与者成功表达所述当前交互语义的真实意愿，通过所述视频应用对所述交互语义进行功能响应和/或应用响应。

具体的，如图2～4所示，所述交互手势可以包括由参与者的肢体姿势、单、双手势、或肢体运动轨迹一种或多种组合而成，可在系统中内置常用的交互手势，并可在视频应用进行前或进行中进行自动、手动校正，校正记录可存于服务器用于下次参考。交互手势还可以进行自定义。交互系统通过分析画面中参与者、关节、肢体的姿态、位置、运动轨迹、画面差异等进行判断。同一画面中可以匹配一个或多个人员表达的手势。交互手势分析的方式包括但不限于AI识别、深度学习、差异分析、大数据比对等方法。

此外，本方案中的交互状态是指：定义了参与者当前状态及可以使用的功能手势或视频应用手势。参与者在视频应用场景过程中同一个时间段可以处于多个交互状态下，每个参与者处于完全独立状态集，与其他参与者不冲突。视频应用管理员可选择视频应用中只能使用的状态，也可以强制调整参与者的当前使用的状态，也可以选择系统不对某些参与者交互进行相应。

同时，在本方案中的交互状态，可以通过预设或自定义。而且参与者的交互状态可以自动分析或者视频应用管理员手动设置。

其中，自动分析的方式包括但不限于AI识别、深度学习、差异分析、大数据比对等方法。

另一方面，如图2所示，本发明提供一种视频应用的手势交互方法的一个实施例，包括以下步骤：

S101通过分析视频应用画面中参与者的当前行为信息，识别所述参与者的当前交互手势；其中，所述当前行为信息包括参与者、关节、肢体姿态、位置信息、运动轨迹、画面差异。

S102依据所述参与者的当前交互状态和所述当前交互手势，进行交互语义匹配。

S103当所述视频应用系统匹配到在当前交互状态下，所述当前交互手势表达的交互语义时，所述参与者成功表达所述当前交互语义的真实意愿，通过所述视频应用对所述交互语义进行功能响应和/或应用响应。

示例性的，常见的交互状态包括参与、签到、发言、旁听、辩论、投票等，如下表所示：

其中，交互语义：交互语义由交互手势与交互状态构成，每种交互语义对应一种视频应用中的功能或表达方意愿。交互语义从功能上分为功能手势和视频应用手势两种。功能手势指通过交互手势取代视频应用中通用功能，如关闭摄像头、关闭麦克风、截屏等操作。功能手势通常需要由视频应用服务器或视频应用终端提供功能接口，由功能手势模块请求相关接口完成操作。应用手势功能指利用交互手势完成视频应用过程中各类状态的手势功能。此部分为参与者为完成视频应用目的而设计的状态功能，如会务签到、会务表决等。功能手势与视频应用手势在功能上可以重复，但在同一状态下手势不能相同。一个交互语义可以有多个交互手势。

预定义交互语义、交互状态和交互手势，通过分析所述视频应用画面中参与者的当前行为信息，识别所述参与者的当前交互手势，依据当前参与者所处的交互状态，进行交互语义匹配。当匹配到预定义的交互语义时，由视频应用或视频设备根据交互语义完成下一步操作；

其中，所述预定义交互语义包括：交互手势与交互状态，每种交互语义对应一种视频应用中的功能或视频应用中的对应操作响应；所述交互状态包括视频应用功能响应、视频应用主持、视频应用管理等；所述预定义交互语义、所述交互状态和所述交互手势可以自定义新增、删除或修改。

具体的，预定义一套交互语义，通过分析所述视频应用画面中参与者的当前行为信息，识别所述参与者的当前交互手势，依据当前参与者所处的交互状态，如匹配预定义的交互语义，由视频应用或视频设备根据语义完成下一步操作，具体包括步骤：

预定义交互语义：由特定手势与交互状态构成，每种交互语义对应一种视频应用中的功能或视频应用中的对应操作响应。预定义语义可以自定义新增、删除或修改。

预定义不同交互状态，如视频应用功能响应、视频应用主持、视频应用管理、视频应用法语。各类状态也可自定义新增、删除或修改。

预定义特定手势：手势为视频画面中采集到的视频应用参与者的一人或多人的行为信息，包括参与者、关节、肢体姿态、位置信息、运动轨迹、画面差异；各类手势也可自定义新增、删除或修改。

下述为一套典型的交互语义：

示例性的，如图18～21所示，在所述当前交互状态为功能响应状态时，通过分析所述视频应用画面中参与者的当前行为信息，识别所述参与者的当前交互手势，具体包括步骤：

如图7中的手势图，当所述当前行为信息为单手手掌掌心置于嘴部时，所述当前交互手势的交互语义为麦克风静音或取消静音。

当所述当前行为信息为单手手掌顺时针画圈时，所述当前交互手势的交互语义为开始录像/停止录像。

当所述当前行为信息为双手并于胸前，平移分开时，所述当前交互手势的交互语义为摄像头拉近。

当所述当前行为信息为双手手掌向前，平移合拢时，所述当前交互手势的交互语义为摄像头拉远。

当所述当前行为信息为单手握拳食指立起立于嘴部时，所述当前交互手势的交互语义为声音静音/取消静音。

当所述当前行为信息为双手握拳相对时，所述当前交互手势的交互语义为麦克风交接。

当所述当前行为信息为单掌置于头侧后方时，所述当前交互手势的交互语义为提高音量。

当所述当前行为信息为单掌连续往返向下按压时，所述当前交互手势的交互语义为降低音量。

当所述当前行为信息为单手掌心向外且处于额头处时，所述当前交互手势的交互语义为关闭/打开所述视频应用的摄像头。

当所述当前行为信息为单手手臂向前伸展且手心向外时，所述当前交互手势的交互语义为摄像头焦点追踪。

当所述当前行为信息为双手手掌向外平行下滑时，所述当前交互手势的交互语义为截屏。

如图19所示的手势图，在所述当前交互状态为主持、管理或发言状态时，通过分析所述视频应用画面中参与者的当前行为信息，识别所述参与者的当前交互手势，具体包括步骤：

当所述当前行为信息为单手手掌张开转握拳时，所述当前交互手势的交互语义为关闭所述视频应用以外的所有麦克风。

当所述当前行为信息为双手掌心向外垂直立起时，所述当前交互手势的交互语义为关闭所述视频应用以外的所有摄像头。

当所述当前行为信息为双手交叉置于胸前时，所述当前交互手势的交互语义为拒绝请求。

当所述当前行为信息为单手单拳叩击2下时，所述当前交互手势的交互语义为幻灯片播放/暂停。

当所述当前行为信息为单手手掌从身体外侧向内侧滑动时，所述当前交互手势的交互语义为幻灯片下一页。

当所述当前行为信息为单手手掌从身体内侧向外侧滑动时，所述当前交互手势的交互语义为幻灯片上一页。

当所述当前行为信息为双手手掌垂直相交，手指指向另一手心时，所述当前交互手势的交互语义为请求视频应用暂停/呼叫管理员。

当所述当前行为信息为单手手指指向眼部时，所述当前交互手势的交互语义为视频应用纪律提醒。

如图20所示的手势图，在当前交互状态为旁听状态时，通过分析所述视频应用画面中参与者的当前行为信息，识别所述参与者的当前交互手势，具体包括步骤：

当所述当前行为信息为单手掌心向外垂直立起时，所述当前交互手势的交互语义为请求发言。

当所述当前行为信息为单手握拳拇指食指交错时，所述当前交互手势的交互语义为收藏。

当所述当前行为信息为单手握拳大拇指竖直向上时，所述当前交互手势的交互语义为赞成观点。

当所述当前行为信息为单手握拳大拇指立起向下时，所述当前交互手势的交互语义为反对观点。

如图21所示的手势图，在当前交互状态为签到状态时，通过分析所述视频应用画面中参与者的当前行为信息，识别所述参与者的当前交互手势，具体包括步骤：

当所述当前行为信息为单手掌心向外垂直立起时，所述当前交互手势的交互语义为应答签到。

当所述当前行为信息为双手交叉置于胸前时，所述当前交互手势的交互语义为不参与签到。

如图22所示的手势图，在当前交互状态为决策状态时，通过分析所述视频应用画面中参与者的当前行为信息，识别所述参与者的当前交互手势，具体包括步骤：

当所述当前行为信息为单手掌心向外垂直立起时，所述当前交互手势的交互语义为投赞成票。

当所述当前行为信息为双手交叉置于胸前时，所述当前交互手势的交互语义为投反对票。

当所述当前行为信息为双手掌心向外垂直立起时，所述当前交互手势的交互语义为投票弃权。

示例性的，使用者也可在使用过程中进行自定义修改交互语义。关于通用交互语义，如图6所示，视频应用系统功能的交互语义可以包括麦克风静音/取消静音(图6中标号1所示的手势图)、开始录像/停止录像(图6中标号2所示的手势图)、摄像头拉近(图6中标号3所示的手势图)、摄像头拉远(图6中标号4所示的手势图)、静音/取消静音(图6中标号5所示的手势图)、麦克风交接(图6中标号6所示的手势图)、提高音量(图6中标号7所示的手势图)、降低音量(图6中标号8所示的手势图)、关闭/打开本终端摄像头(图6中标号9所示的手势图)、摄像头焦点追踪(图6中标号10所示的手势图)、截屏(图6中标号11所示的手势图)。如图7所示，视频应用主持、管理和发言功能的交互语义可以包括关闭其他所有麦克风(图7中标号12所示的手势图)、关闭其他所有摄像头(图7中标号13所示的手势图)、拒绝请求(图7中标号14所示的手势图)、幻灯片播放/暂停(图7中标号15所示的手势图)、幻灯片下一页(图7中标号16所示的手势图)、幻灯片上一页(图7中标号17所示的手势图)、请求视频应用暂停/呼叫管理员(图7中标号18所示的手势图)、视频应用纪律提醒(图7中标号19所示的手势图)、请求发言(图7中标号20所示的手势图)、开始录像/停止录像(图7中标号21所示的手势图)、收藏(图7中标号22所示的手势图)、截屏(图7中标号23所示的手势图)。如图8所示，视频应用中的应用手势交互状态还包括旁听、签到和决策，对应的交互语义以及交互手势包括：旁听包括赞成观点(图8中标号24所示的手势图)和反对观点(图8中标号25所示的手势图)；签到包括应答签到(图8中标号26所示的手势图)和不参与签到(图8中标号27所示的手势图)；决策包括投赞成票(图8中标号28所示的手势图)、投反对票(图8中标号29所示的手势图)、投票弃权(图8中标号30所示的手势图)和不参与投票(图8中标号31所示的手势图)。

另一方面，如图17所示，本发明提供一种视频应用的手势交互方法的一个实施例，包括以下步骤：

S100对视频应用画面进行实时或异步分析，获取参与者的特征信息。

具体的，所述参与者可以包括交互手势的执行者，交互状态的载体。其中，参与者并不全部都需要进行参与手势交互。每个参与者在交互系统中也可以存在自己的识别编号，以区分交互手势的请求者。交互系统也可以将参与者通过口令识别、智能卡识别、二维码、证书、第三方认证、生物识别、人工标注等方法等将参与者身份进行唯一性标识后进行存档记录，同时可录入个人相关信息，在后续使用中对用户进行交互判断、基本信息展示或数据处理。

S200基于所述参与者的特征信息识别所述参与者的身份，以使所述参与者的交互手势具备被识别的资格。

具体的，通过识别参与者的特征信息，例如识别编号；可以识别参与者的身份。当数据库中存储了该参与者的身份信息时，将参与者的身份与该参与者的交互手势绑定，之后在手势交互过程中，可以直接展示该参与者的身份信息和交互信息，此时该参与者的交互手势具备被识别的资格。如果数据库并未存储该参与者的身份信息时，可以通过口令识别、智能卡识别、二维码、证书、第三方认证、生物识别、人工标注等方法等将参与者身份进行唯一性标识后进行存档记录，同时可录入个人相关信息，在后续使用中对参与者进行交互判断、基本信息展示或数据处理。

视频应用系统通过当前所处的阶段、场景、参与者及参与者身份等特性，判断每位参与者处于哪一种或多种交互状态之下；或有视频应用管理员或有特定权限的人员对参与者进行状态调整。进而可以精准调整视频应用对参与者交互手势的响应，避免交互手势的误判、重复、滥用、破坏视频次序等不当的交互响应。

具体的，如图3～5所示，所述交互手势可以包括由参与者的肢体姿势、单、双手势、或肢体运动轨迹一种或多种组合而成，可在系统中内置常用的交互手势，并可在视频应用进行前或进行中进行自动、手动校正，校正记录可存于服务器用于下次参考。交互手势还可以进行自定义。交互系统通过分析画面中参与者、关节、肢体的姿态、位置、运动轨迹、画面差异等进行判断。同一画面中可以匹配一个或多个人员表达的手势。交互手势分析的方式包括但不限于AI识别、深度学习、差异分析、大数据比对等方法。

示例性的，使用者也可在使用过程中进行自定义修改交互语义。关于通用交互语义，如图6所示，视频应用系统功能的交互语义可以包括麦克风静音/取消静音(图6中标号1所示的手势图)、开始录像/停止录像(图6中标号2所示的手势图)、摄像头拉近(图6中标号3所示的手势图)、摄像头拉远(图6中标号4所示的手势图)、静音/取消静音(图6中标号5所示的手势图)、麦克风交接(图6中标号6所示的手势图)、提高音量(图6中标号7所示的手势图)、降低音量(图6中标号8所示的手势图)、关闭/打开本终端摄像头(图6中标号9所示的手势图)、摄像头焦点追踪(图6中标号10所示的手势图)、截屏(图6中标号11所示的手势图)。如图7所示，视频应用主持、管理和发言功能的交互语义可以包括关闭其他所有麦克风(图7中标号12所示的手势图)、关闭其他所有摄像头(图7中标号13所示的手势图)、拒绝请求(图7中标号14所示的手势图)、幻灯片播放/暂停(图7中标号15所示的手势图)、幻灯片下一页(图7中标号16所示的手势图)、幻灯片上一页(图7中标号17所示的手势图)、请求视频应用暂停/呼叫管理员(图7中标号18所示的手势图)、视频应用纪律提醒(图6中标号19所示的手势图)、请求发言(图7中标号20所示的手势图)、开始录像/停止录像(图7中标号21所示的手势图)、收藏(图7中标号22所示的手势图)、截屏(图7中标号23所示的手势图)。如图8所示，视频应用中的应用手势交互状态还包括旁听、签到和决策，对应的交互语义以及交互手势包括：旁听包括赞成观点(图8中标号24所示的手势图)和反对观点(图8中标号25所示的手势图)；签到包括应答签到(图8中标号26所示的手势图)和不参与签到(图8中标号27所示的手势图)；决策包括投赞成票(图8中标号28所示的手势图)、投反对票(图8中标号29所示的手势图)、投票弃权(图8中标号30所示的手势图)和不参与投票(图8中标号31所示的手势图)。

S400通过所述视频应用根据不同阶段、不同场景、不同参与者及参与者的不同身份等特征，识别所处的交互状态；

本发明还提供另一个实施例，如图9所示，步骤S200所述基于所述参与者的特征信息识别所述参与者的身份，以使所述参与者的交互手势具备被识别的资格，包括步骤：

S201将至少一个所述参与者的特征信息与数据库中参与者的特征信息进行匹配。

S202当匹配成功时，展示所述参与者的身份信息。

S203当匹配不成功时，通过不同的识别方式对所述参与者的身份信息进行唯一性标识或录入所述参与者的个人信息，并将所述参与者的身份信息或个人信息与在交互状态下表达的交互手势对应的交互语义关联，以使识别所述参与者的交互手势。

基于上述实施例，所述视频应用的手势交互方法，还包括步骤：

在所述对视频应用的画面进行实时或异步分析，获取参与者的特征信息前，提醒参与者进行交互手势的测试，获取视频应用画面中所述参与者在测试下的测试交互手势。

对所述参与者的测试交互手势或当前交互手势进行学习校正，保存与预设交互手势的偏差值以识别所述参与者的交互手势。

其中，所述校正的方式包括自动校正和手动校正。

示例性，如图10所示，视频应用启动前：交互系统读取视交互手势、人员信息等基础数据。视频应用启动时进行交互手势的学习校对，交互系统可提醒所有或部分参与方对交互手势进行测试，获取参与者的测试交互手势，基于测试交互手势，系统校准各参与方对交互手势容错与误差，并保存相关偏差用于以后的视频应用参考。提醒的方式可以包括在视频应用显示如图9所示的画面：“交互校正！请在10秒内做出如下几种手势：”以及交互手势。

基于所述参与者的当前行为信息中位置信息和/或在对所述视频应用画面进行实时或异步分析时，获取所述参与者的数量。

判断所述参与者的位置信息和/或数量是否发生改变。

示例性的，如图11所示，关于参与者识别，交互系统对视频应用传送的画面进行实时或异步分析，判断各方参与者的数量，视频应用管理员可以查看并修正。同时可将参与者的特征与后台人员信息数据库进行比对，如发现匹配，可展示相关人员信息，同时视频应用管理员可对无信息的人员进行标注和保存，供以后识别人员使用。交互系统参与者识别和手势识别进入持续工作状态：持续侦测画面人员变化，可判断参与者是否发生新增、离场、返场、移位等行为，并做出相应的记录和识别修正。

其中，通过视频应用进行视频会议时，可以获取多个会场的各参与者的位置信息和数量，并将数量变化以及参与者的信息进行展示，可以向管理人员进行展示。如图11所示，会场包括会场1、会场2、会场3和会场4。在会场1展示参与者的信息，例如，工号：013；姓名：Micheal Liu；职务：秘书长。会场2的参与者并无变化，会场3发现有新增参与人即新增参与者，会场4发现有人员离场。可以展示每个会场的相关参与者的信息。

实时监测所述视频应用画面中所述参与者的状态信息；分析所述参与者的状态信息，展示所述参与者的状态；其中，所述状态包括中途离场、睡觉、注意力不集中和玩手机。

示例性的，因为通过视频应用进行相关视频场景时，参与者的数量可能很多，对于每一个视频方的参与者的参与状态进行管理时，非常耗费管理人员的精力，同时管理人员也无法精准的对视频应用进行管理。

此时，交互系统及视频应用也可加入对参与者其他特征行为进行分析或展示的功能，如中途离场、睡觉、注意力不集中、玩手机等。通过系统对参与者进行监控，将监控数据进行分析后直接向管理人员展示分析结果，通过图表式的数据可以对分析结果进行形象化的展示，提高通过手势交互进行视频应用的效率，避免了人工的浪费。

调整所述参与者的交互状态，提示所述参与者在控制所述视频应用进行功能响应和应用响应时可执行对应的交互手势，以进行手势交互，所述提示的方法可以包括在视频应用画面中展示。

示例性的，视频应用进行中参与者识别、手势识别、状态识别将持续工作，直至视频应用终止退出。如视频应用处于特定阶段，如需要签到、决策投票等阶段，交互系统自动或系统管理员手动把所有人员调整到对应交互状态，提示参与者参与进行相关视频应用功能响应。视频应用系统可适当将部分当前可执行的语义及手势方法在屏幕画面上进行提示。

示例性的，如图12所示，交互系统通过分析画面中参与者、肢体的姿态、位置、运动轨迹、画面差异等，配合参与者所处的交互状态，如匹配到预设的交互语义，即为参与者成功表达交互手势。

成功表达后，表达方、视频应用管理员均在视频应用的画面中收到画面、声音提醒，同时交互系统记录相关信息。如画面中有多个参与者，可对当前表达参与方画面、人物轮廓和交互手势进行高亮重点标识，如视频应用系统中已记录了参与者信息，可展示参与者相关信息。

部分交互语义可以与视频应用系统功能、手势功能相关功能进行自动关联、也可由手势表达方、视频应用管理员二次确认操作后生效。

获取所述交互状态下所述参与者的数量和交互信息，所述交互信息包括每个所述参与者进行手势交互时生成的所述视频应用数据、视频应用凭据、视频应用报表、存证图像和视频录像；基于所述参与者的数量和交互信息，分析所述交互状态下的交互结果；所述分析方式包括统计、计算和报表；将所述交互信息以及对应的交互结果生成文件以供调取。

示例性的，如图13所示，每个参与者在同一交互状态下通过不同的交互手势表达不同的交互语义，需要对每个会场的一个或多个参与者的交互语义进行统计。例如，在投票阶段，会场1的参与者表示同意；会场2的一个参与者表示同意；会场3的一个参与者表示反对，另一个参与者表示弃权；会场4的参与者表示不参与投票。投票统计结果为：总与会人数：5；参与投票：3；赞成：2；反对：1；弃权：1；投票率：50％。

在本方案中，根据实际需求，可以选择将这些信息展示给管理人员，也可以将参与者的投票信息展示给自己，也可以将所有的投票信息展示给每个参与者和/或未参与者。

通过视频应用进行手势交互后：交互系统生成相关视频应用数据、视频应用凭据、视频应用报表，需要保存的存证图像、视频资料按规范生成合规文件，供管理员、与会方调取。

通过本方案可以灵活的控制每一次手势交互的交互结果的展示方法，从而满足每一种视频场景模式以及手势交互的模式，是一种通用的视频应用的手势交互方法。

另一方面，如图14所示，本发明还提供一种视频应用的手势交互装置30，包括：

参与者识别模块301，用于基于参与者的特征信息识别所述参与者的身份，以使所述参与者的交互手势具备被识别的资格；

状态识别模块302，用于通过分析所述视频应用的不同阶段、不同场景、不同参与者及参与者不同身份等特征，判断所述参与者所处的交互状态；

手势识别模块303，通过分析所述视频应用画面中参与者的当前行为信息，识别所述参与者的当前交互手势；所述当前行为信息包括肢体姿态、位置信息、运动轨迹、画面差异；

手势控制模块304包括功能手势模块和应用手势模块，用于当匹配到在所述当前交互状态下的所述当前交互手势表达的交互语义时，所述参与者成功表达所述当前交互手势，控制所述视频应用进行功能响应和/或应用响应；其中，所述交互手势包括用于控制所述视频应用进行功能响应的功能手势和用于控制所述视频应用进行应用响应的应用手势。

本发明还提供一种视频应用的手势交互系统，如图15所示，包括所述视频应用的手势交互装置30、摄像装置40和服务器50；

所述摄像装置40，用于获取参与者的交互手势；

所述视频应用的手势交互装置30，用于识别所述参与者的交互手势，控制所述视频应用进行功能响应和/或应用响应；

所述服务器50，用于将所述手势交互中的交互信息以及对应的交互结果生成文件以供调取。

本发明还提供一种视频应用的手势交互系统的另一个实施例，如图16所示，本系统可以应用于视频应用中，让参与者在视频应用过程中，使用简单的肢体姿态、手势、动作等表达自己的意愿、行为、操作视频应用的系统功能。实现参与者、视频应用管理员、视频应用系统系统之间的静默动态交互。系统架构：交互系统可以作为独立服务也可以作为模块集成于视频应用系统。交互系统的部分分析、识别能力可以将由交互系统完成，也可以由有处理能力的视频应用终端、视频应用节点服务器等在终端侧处理完成，只需把结果和相关数据返回给交互系统即可。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的设备/系统和方法，可以通过其他的方式实现。示例性的，以上所描述的系统实施例仅仅是示意性的，示例性的，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，示例性的，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性、机械或其他的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可能集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频应用的手势交互方法，其特征在于，包括以下步骤：

其中，所述参与者的当前交互状态包括通过在视频应用中自动识别判断的交互状态或由特定权限人员调整的交互状态；

预定义交互语义、交互状态和交互手势，具体包括步骤：

其中，每种交互语义对应一种视频应用中的功能或视频应用中的对应操作响应；所述交互状态包括视频应用功能响应、视频应用主持、视频应用管理、不同视频应用中不同场景下参与者状态等；所述预定义交互语义、所述交互状态和所述交互手势可以自定义新增、删除或修改；

2.根据权利要求1所述视频应用的手势交互方法，其特征在于，通过分析所述视频应用画面中参与者的当前行为信息，识别所述参与者的当前交互手势之前，还包括步骤：

对视频应用画面进行实时或异步分析，获取参与者的特征信息；

3.根据权利要求2所述视频应用的手势交互方法，其特征在于，还包括步骤：

其中，所述校正的方式包括自动校正和手动校正。

4.根据权利要求2所述视频应用的手势交互方法，其特征在于，所述基于所述参与者的特征信息识别所述参与者的身份，以使所述参与者的交互手势具备被识别的资格，包括步骤：

当匹配成功时，展示所述参与者的身份信息；

5.根据权利要求2所述视频应用的手势交互方法，其特征在于，还包括步骤：

判断所述参与者的位置信息和/或数量是否发生改变；

6.根据权利要求2所述视频应用的手势交互方法，其特征在于，还包括步骤：

实时监测所述视频应用画面中所述参与者的状态信息；

分析所述参与者的状态信息，展示所述参与者的状态；

7.根据权利要求2所述视频应用的手势交互方法，其特征在于，还包括步骤：

8.根据权利要求1～7中任一项所述视频应用的手势交互方法，其特征在于，还包括步骤：

将所述交互信息以及对应的交互结果生成文件以供调取。

9.根据权利要求1～7中任一项所述视频应用的手势交互方法，其特征在于，还包括步骤：

10.一种视频应用的手势交互装置，其特征在于，应用如权利要求1～9中任一项所述的视频应用的手势交互方法，包括：

11.一种视频应用的手势交互系统，其特征在于，包括权利要求10所述的视频应用的手势交互装置、摄像装置和服务器；

所述摄像装置，用于获取参与者的交互手势；