CN117806451A

CN117806451A - 一种手势识别方法及电子设备

Info

Publication number: CN117806451A
Application number: CN202211209455.5A
Authority: CN
Inventors: 张玉; 何晨迪; 田友强; 孙萁浩
Original assignee: Hisense Group Holding Co Ltd
Current assignee: Hisense Group Holding Co Ltd
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2024-04-02

Abstract

本申请公开了一种手势识别方法及电子设备，用以提高手势识别的准确性，进而提高手势控制的准确性。本申请提供的一种手势识别方法，包括：获取图像采集设备当前采集到的视频流，通过遍历在所述当前采集到的视频流中检测到的手势结果，判断所述当前采集的视频流中是否存在预设的第一标志性手势；其中，所述第一标志性手势为用于表示手势控制开始的手势；当检测到所述当前采集的视频流中存在所述第一标志性手势时，通过检测所述第一标志性手势所在的图像帧的后续图像上与所述第一标志性手势相对应的目标手势位置，相比所述第一标志性手势在所述图像帧上的位置的变化，实现对与所述第一标志性手势相对应的目标手势的跟踪。

Description

一种手势识别方法及电子设备

技术领域

本申请涉及图像技术领域，尤其涉及一种手势识别方法及电子设备。

背景技术

在智慧家庭生活中，采用手势识别方法用于控制家电尤其是视频播放时，用于控制进度条前进后退，声音增减等功能。在观看自由视角视频等特殊场景中，出现了需要左右转动视角等需求。手势语义除用于视频播放还可应用于设备控制等其他应用中。为了帮助用户更自然地进行交互，避免因找不到遥控器而无法控制的情况，可以通过手势识别实现相应功能的控制，从而使用尽可能少的设备完成用户更多的需求。

发明内容

本申请实施例提供了一种手势识别方法及装置，用以提高手势识别的准确性，进而提高手势控制的准确性。

本申请实施例提供的一种手势识别方法，包括：

获取图像采集设备当前采集到的视频流，通过遍历在所述当前采集到的视频流中检测到的手势结果，判断所述当前采集的视频流中是否存在预设的第一标志性手势；其中，所述第一标志性手势为用于表示手势控制开始的手势；

当检测到所述当前采集的视频流中存在所述第一标志性手势时，通过检测所述第一标志性手势所在的图像帧的后续图像上与所述第一标志性手势相对应的目标手势位置，相比所述第一标志性手势在所述图像帧上的位置的变化，实现对与所述第一标志性手势相对应的目标手势的跟踪。

通过该方法，当在视频流中识别到用于表示手势控制开始的预设的第一标志性手势时，通过检测所述第一标志性手势所在的图像帧的后续图像上与所述第一标志性手势相对应的目标手势位置，相比所述第一标志性手势在所述图像帧上的位置的变化，实现对与所述第一标志性手势相对应的目标手势的跟踪，从而实现对同一只手(即出现所述第一标志性手势的主控手)的手势跟踪，避免非主控手对主控手的影响，提高手势识别的准确性，进而提高手势控制的准确性。

在一些实施方式中，通过检测所述图像帧的后续图像上与所述第一标志性手势相对应的目标手势位置，相比所述第一标志性手势在所述图像帧上的位置的变化，实现对与所述第一标志性手势相对应的目标手势的跟踪，包括：

确定所述图像帧上所述第一标志性手势对应的目标手势框；

针对当前帧图像上的每一静态手势框：

计算该静态手势框与所述目标手势框的重叠率；以及，计算该静态手势框与所述目标手势框的距离；

根据该静态手势框与所述目标手势框的重叠率，以及该静态手势框与所述目标手势框的距离，确定该静态手势框的置信度；

根据所述当前帧图像上所有静态手势框的置信度，确定所述当前帧的目标手势框。

在一些实施方式中，所述计算该静态手势框与所述目标手势框的重叠率，包括：

计算该静态手势框与所述目标手势框的交并比。

在一些实施方式中，所述计算该静态手势框与所述目标手势框的距离，包括：

计算该静态手势框的顶边中点，与所述目标手势框的顶边中点之间的距离。

在一些实施方式中，通过如下公式计算该静态手势框与所述目标手势框的距离：

其中，DIS_i表示该静态手势框与所述目标手势框的距离，(x0，y0)表示所述目标手势框的左上角的顶点坐标，w0表示所述目标手势框的宽度，(xi，yi)表示该静态手势框的左上角的顶点坐标，wi表示该静态手势框的宽度，当该静态手势框与所述目标手势框的距离大于预设像素距离阈值时，通过上述公式计算得到的DIS_i分布在0到0.1之间，当该静态手势框与所述目标手势框的距离小于或等于所述预设像素距离阈值时，通过上述公式计算得到的DIS_i分布在0.1到1之间，M为根据所述预设像素距离阈值设置的预设常数。

在一些实施方式中，所述根据该静态手势框与所述目标手势框的重叠率，以及该静态手势框与所述目标手势框的距离，确定该静态手势框的置信度，包括：

将该静态手势框与所述目标手势框的重叠率，和该静态手势框与所述目标手势框的距离进行加权求和，将得到的和值作为该静态手势框的置信度。

在一些实施方式中，根据所述当前帧图像上所有静态手势框的置信度，确定所述当前帧的目标手势框，包括：

确定所述当前帧图像上所有静态手势框中置信度最大的静态手势框；

若所述置信度最大的静态手势框的置信度大于预设阈值，则将所述置信度最大的静态手势框作为所述当前帧的目标手势框。

在一些实施方式中，所述方法还包括：

若当前帧不存在目标手势框，则将上一帧的目标手势框作为当前帧的临时填补目标手势框；

若存在临时填补目标手势框的连续帧数大于预设帧数，则停止所述目标手势的跟踪。

在一些实施方式中，所述方法还包括：

当跟踪到的当前帧的目标手势框中的目标手势为预设的第二标志性手势时，结束手势控制；

当跟踪到的当前帧的目标手势框中的目标手势不是预设的第二标志性手势时，获取所述当前帧之前的多帧目标手势框的手势标志参数，并根据所述当前帧之前的多帧目标手势框的手势标志参数，确定所述当前帧的目标手势框的手势识别结果参数；根据所述当前帧的目标手势框的手势识别结果参数，确定所述当前帧的目标手势框中的目标手势是否为预设的过程手势。

本申请另一实施例提供了一种电子设备，其包括存储器和处理器，其中，所述存储器用于存储程序指令，所述处理器用于调用所述存储器中存储的程序指令，按照获得的程序执行上述任一种方法。

此外，根据实施例，例如提供了一种用于计算机的计算机程序产品，其包括软件代码部分，当所述产品在计算机上运行时，这些软件代码部分用于执行上述所定义的方法的步骤。该计算机程序产品可以包括在其上存储有软件代码部分的计算机可读介质。此外，该计算机程序产品可以通过上传过程、下载过程和推送过程中的至少一个经由网络直接加载到计算机的内部存储器中和/或发送。

本申请另一实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行上述任一种方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种手势识别方法的总体流程示意图；

图2为本申请实施例提供的手势语义和动作示意图；

图3为本申请实施例提供的第一标志性手势(用于表示控制开始的手势)示意图；

图4为本申请实施例提供的过程手势(用于表示控制过程的手势)示意图；

图5为本申请实施例提供的第二标志性手势(用于表示控制结束的手势)示意图；

图6为本申请实施例提供的一种手势识别方法的具体流程示意图；

图7为本申请实施例提供的一种跟踪流程示意图；

图8为本申请实施例提供的前一帧的目标手势框与当前帧的静态手势框的示意图；

图9为本申请实施例提供的两个手势框距离的分布可视化结果示意图；

图10为本申请实施例提供的静态手势识别结果的帧间同步过程示意图；

图11为本申请实施例提供的用于保存最近的连续n帧的手势识别结果的列表示意图；

图12为本申请实施例提供的一种手势识别装置的结构示意图；

图13为本申请实施例提供的另一种手势识别装置的结构示意图；

图14为本申请实施例提供的显示设备与控制装置之间操作场景；

图15为本申请实施例提供的控制设备100的硬件配置框图；

图16为本申请实施例提供的显示设备200的硬件配置框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，并不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种手势识别方法及电子设备，用以提高手势识别的准确性，进而提高手势控制的准确性。

其中，方法和装置是基于同一申请构思的，由于方法和装置解决问题的原理相似，因此装置和方法的实施可以相互参见，重复之处不再赘述。

本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

以下示例和实施例将只被理解为是说明性的示例。虽然本说明书可能在若干处提及“一”、“一个”或“一些”示例或实施例，但这并非意味着每个这种提及都与相同的示例或实施例有关，也并非意味着该特征仅适用于单个示例或实施例。不同实施例的单个特征也可以被组合以提供其他实施例。此外，如“包括”和“包含”的术语应被理解为并不将所描述的实施例限制为仅由已提及的那些特征组成；这种示例和实施例还可以包含并未具体提及的特征、结构、单元、模块等。

下面结合说明书附图对本申请各个实施例进行详细描述。需要说明的是，本申请实施例的展示顺序仅代表实施例的先后顺序，并不代表实施例所提供的技术方案的优劣。

参见图1，本申请实施例提供的一种手势识别方法，包括：

S101、获取图像采集设备当前采集到的视频流，通过遍历在所述当前采集到的视频流中检测到的手势结果，判断所述当前采集的视频流中是否存在预设的第一标志性手势；其中，所述第一标志性手势为用于表示手势控制开始的手势；

所述第一标志性手势，例如手掌向前的开始手势等；

S102、当检测到所述当前采集的视频流中存在所述第一标志性手势时，通过检测所述第一标志性手势所在的图像帧的后续图像上与所述第一标志性手势相对应的目标手势位置，相比所述第一标志性手势在所述图像帧上的位置的变化，实现对与所述第一标志性手势相对应的目标手势的跟踪。

通过该方法，当在视频流中识别到用于表示手势控制开始的预设的第一标志性手势时，通过检测所述第一标志性手势所在的图像帧的后续图像上与所述第一标志性手势相对应的目标手势位置，相比所述第一标志性手势在所述图像帧上的位置的变化，实现对与所述第一标志性手势相对应的目标手势的跟踪，即通过手部距离(例如手部外接矩形框的像素距离)的帧间比较，实现同一只手的手部外接矩形框的跟踪，从而避免其他手的影响，提高手势识别的准确性，进而提高手势控制的准确性。例如，用户左手进行控制，即左手是出现第一标志性手势的主控手，那么本申请实施例可以对该用户的左手进行持续的手势跟踪，避免非主控手(例如用户右手或其他用户的手)对主控手的影响，提高手势识别的准确性，进而提高手势控制的准确性。

确定所述图像帧上所述第一标志性手势对应的目标手势框；

针对当前帧图像上的每一静态手势框：

计算该静态手势框与所述目标手势框的交并比。

考虑手部活动的不确定性(例如手部可能五指张开，可能五指并拢)，顶边中点的位移受手部活动影响较小，所以选用前后两帧手势框顶边中点的位置作为当前手势框和目标手势框距离判断的依据。通过计算两个手势框的顶边中点之间的距离，计算这两个手势框的距离，可以使得算得的距离更准确，更能真实体现同一只手的不同帧的距离变化。因为，手部活动的不确定性(例如手部可能五指张开，可能五指并拢)，顶边中点的位移受手部活动影响较小，所以选用前后两帧手势框顶边中点的位置作为当前静态手势框和目标手势框距离判断的依据更为合理。

其中，DIS_i表示该静态手势框与所述目标手势框的距离，(x0，y0)表示所述目标手势框的左上角的顶点坐标，w0表示所述目标手势框的宽度，(xi，yi)表示该静态手势框的左上角的顶点坐标，wi表示该静态手势框的宽度，当该静态手势框与所述目标手势框的距离大于预设像素距离阈值(例如预设像素距离阈值为M*10，例如若M＝60，则像素距离阈值为600像素)时，通过上述公式计算得到的DIS_i分布在0到0.1之间，当该静态手势框与所述目标手势框的距离小于或等于所述预设像素距离阈值时，通过上述公式计算得到的DIS_i分布在0.1到1之间，M为根据所述预设像素距离阈值设置的预设常数(例如60)，M的具体值，可以根据实际应用场景、摄像头广角等多种实际情况进行设定。从而，避免两个手势框在距离较远(例如超过600像素)时，被识别为同一只手的情况。

从而，可以更加准确地实现对同一只手的手部动作的跟踪。

在一些实施方式中，所述方法还包括：

若存在临时填补目标手势框的连续帧数大于预设帧数(例如5帧)，则停止所述目标手势的跟踪。

从而，本申请实施例中，通过临时填补的方法(将上一帧的目标手势框作为当前帧的目标手势框)，能够避免实时的动态手势控制由于算法漏检造成的控制失效的问题，进而提高了手势控制效果。

在一些实施方式中，所述方法还包括：

当跟踪到的当前帧的目标手势框中的目标手势为预设的第二标志性手势(即用于表示结束手势控制的手势)时，结束手势控制；那么，所述过程手势，即位于第一标志性手势和第二标志性手势之间的手势；

当跟踪到的当前帧的目标手势框中的目标手势不是预设的第二标志性手势时，获取所述当前帧之前的多帧(例如当前帧的前连续n帧，n为预设大于0的整数)目标手势框的手势标志参数(例如用x表示)，并根据所述当前帧之前的多帧目标手势框的手势标志参数，确定所述当前帧的目标手势框的手势识别结果参数；根据所述当前帧的目标手势框的手势识别结果参数，确定所述当前帧的目标手势框中的目标手势是否为预设的过程手势。

也就是说，本申请实施例通过目标手势的帧间同步，能够解决由于手部移动速度快部分帧画面出现运动模糊，影响了手势识别算法的识别结果，进而导致手势控制失败的问题，通过前序帧的帧间同步避免手势漏检的情况。

下面给出更为具体的举例说明。

以自由视角视频播放为例，手势语义和动作如图2中的列表所示。

其中，第一标志性手势、第二标志性手势和中间的过程手势都是可以是被自定义的手势，比如：参见图3，定义手掌向前的手势作为控制开始的第一标志性手势势；参见图4，握拳手势或OK手势等可以用作过程手势，不同的手势可以表示不同功能的控制；参见图5，手掌向前的手势作为控制结束的第二标志性手势。

需要说明的是，第一标志性手势(用于表示控制开始的手势)，与第二标志性手势(用于表示控制结束的手势)可以相同，也可以不同，也就是说，过程手势的前后两个手势是可以相同的，也可以不同的。

以音量增加为例，实时动态手势控制，例如在OK手势向上移动过程中，电视声音缓慢增加。那么，非实时动态手势控制，即在出现第二标志性手势后，声音直接调高。

本申请实施例提供的技术方案，不仅可以解决静态手势移动过程中的误检和漏检等问题，提高手势识别的准确性，还能够实现实时手势控制，而无需等到手势操作结束后，系统直接给一个反馈。比如调高80格音量，没有过度的过程会给用户惊吓，用户体验较差，而实时手势控制，系统能够及时给用户过程反馈，便于用户精准控制。

参见图6，本申请实施例提供的手势识别方法包括：

步骤一：采集视频流；

步骤二：静态手势检测识别，得到所有的手势框；

步骤三：遍历所有检测到的手势框中的手势；

本申请实施例中，可以预先针对指定的动态手势类型进行深度学习网络训练，当输入一张图像时，静态手势检测识别模型能够推理出图像中所有的手部包围矩形框(即手势框)和静态手势识别结果(即手势框中的手势)。

步骤四：判断每一手势框中的手势是否为开始手势(即上述第一标志性手势)，如果是，则执行步骤五，否则，继续进行静态手势检测识别。

步骤五：检测到开始手势时，开始对目标手部进行跟踪。

具体的跟踪流程参见图7，例如包括：

参见图8，将前一帧的目标手势框与当前帧的静态手势框(当前帧的所有手势框和手势类别)进行比对，确定当前帧目标手势框的位置。

在一些实施方式中，在对比过程中考虑目标手部漏检或误检情况，可以在连续帧间不断重复该过程。

第一步、遍历计算当前帧所有静态手势框Handi，采用如下公式一计算其与上一帧中的目标手势框Hand0的交并比(IOU，交并比计算两个边界框交集和并集之比)，主要用于比较前后两帧手部位置的重叠率。

第二步、遍历计算当前帧所有静态手势框，计算其与上一帧中的目标手势框顶边中点的距离，并做归一化处理，具体采用如下公式二计算，该过程主要用于比较前后两帧手部位置距离。

其中，如图8所示，(x0，y0)表示上一帧中的目标手势框的左上角的顶点坐标，w0表示上一帧中的目标手势框的宽度，(xi，yi)表示当前帧的任一静态手势框i的左上角的顶点坐标，wi表示该静态手势框i的宽度。图8中的h表示手势框的高度，本实施例中没有应用该参数进行计算，但也可以应用高度进行距离计算，具体根据实际需要而定。

通过上述公式二，实现了DIS_i的归一化，即DIS_i的值分布在0～1之间，和IOU_i的取值范围保持一致，且在两个手势框距离较近时DIS_i的分布更稀疏。

本申请实施例中，考虑到两个手势框在距离较远时，不太可能是同一只手，所以更多考虑距离较近的情况，参见图9，即让距离较近时计算得到的DIS_i能稀疏分布在0.1分到1分之间，距离大于600像素小于1920像素时，可以稠密的分布在0到0.1之间。也就是说，当两个手势框距离较远，大于600像素时，认为其不可能为连续帧的同一个手，DIS_i的值应很小。图9所示为上述公式二的可视化结果，X轴为前后两帧手部位置距离(以像素为单位)，Y轴为DIS_i。

第三步、加权计算当前帧的静态手势框的置信度，并用阈值过滤。

将前后两帧手部位置重叠率和前后两帧手部位置距离加权求和，采用如下公式三得到当前帧的每一静态手势框的置信度：

Score_i＝k₁×IOU_i+k₂×DIS_i 公式三

其中，k₁+k₂＝1

例如，其中，k₁设为0.7，k₂设为0.3。

第四步、遍历当前帧所有静态手势框的置信度进行排序，若置信度的最大值大于阈值(例如0.7)，则将该置信度最大的手势框确定为当前帧的目标手势框，即该目标手势框中的手与前一帧中的目标手势框中的手是同一个手，也就是说，成功跟踪到了同一只手的手部动作。

在一些实施例中，还可以进一步优化手部跟踪，解决手部检测漏检问题。

例如，经过上述操作在当前帧中没有获得目标手势框，说明目标手势出现了漏检或者被遮挡或者离开画面。因此，当前帧没有获得目标手势框时，可以复制上一帧的结果对当前帧进行临时填补，并记录临时填补帧数，当连续的临时填补帧数超过5帧，认为属于手势被遮挡或者用户离开画面的情况，停止目标手势的跟踪和动态手势信号处理。若连续填补帧数不超过5帧，而后又重新在最新的当前帧中获得了目标手势框，则认为属于算法漏检情况，可以通过临时填补的方法能够避免实时的动态手势控制由于算法漏检造成控制失效的问题，从而提高手势识别准确性，实现更好的用户控制效果。

步骤六：对跟踪手势框的识别结果进行帧间同步。

当获得了当前帧的目标手势框时，判断其手势识别结果，分以下三种情况：

情况一、若当前帧的目标手势框为第二标志性手势(结束手势)，则结束当前的动态手势控制。

情况二、若当前帧的目标手势框不是第二标志性手势，则参见图10，需要进行如下的静态手势识别结果的帧间同步过程：

获取当前帧之前的多帧目标手势框的手势标志参数x_i，x_i代表当前帧的n-i帧前的图像的手势识别结果，例如，如果当前帧的n-i帧前的图像中的目标手势框中的手势识别结果为过程手势，则x_i的值为1，否则x_i的值为0；

根据当前帧之前的多帧目标手势框的手势标志参数，确定当前帧的目标手势框的手势识别结果参数y，y代表当前帧的帧间同步结果，受连续n帧的手势识别结果影响；

根据当前帧的目标手势框的手势识别结果参数y，确定当前帧的目标手势框中的目标手势是否为预设的过程手势，具体地，例如，如果y大于阈值，则当前帧的目标手势框中的目标手势为过程手势，并计算当前帧的目标手势框与前一帧的目标手势框的位置移动矢量，进而根据过程手势语义发送手势指令和移动矢量，实现手势的实时控制；如果y小于等于阈值，则当前帧的目标手势框中的目标手势为非过程手势，结束手势跟踪，并发送手势控制终止的指令。

其中，关于获取当前帧之前的多帧目标手势框的手势标志参数，本申请实施例中，可以预先建立一个列表，例如图11所示，用于保存最近的连续n帧的手势识别结果(例如包括目标手势框的位置和目标手势的类型等信息)。

本申请实施例中，考虑到帧间影响随着时间的变化而变化，当前帧的手势识别结果影响最大，n-1帧前的手势识别结果影响最小，当前帧的手势识别结果将通过以下公式对其进行判断。

因此，可以设n-1帧前的权重为k₁，n-2帧前的权重为k₂,……,前一帧的权重为k_n-1。

那么，根据当前帧之前的多帧目标手势框的手势标志参数，确定当前帧的目标手势框的手势识别结果参数，例如采用如下公式四进行加权计算：

y＝k₁×x₁+k₂×x₂+k₃×x₃+…+k_n×x_n 公式四

其中，y为当前帧的目标手势框的手势识别结果参数，x₁为前一帧的目标手势框的手势标志参数，x₂为n-2帧前的图像的目标手势框的手势标志参数，以此类推，x_n为当前帧的目标手势框的手势标志参数。

其中，在一些实施方式中，考虑前序帧以一定的权重影响着当前帧的计算结果，权重和为1，保证最终结果不会超过1，因此有：

当前帧的结果影响最大，n-1帧前的结果影响最小，其关系为当前帧权重为n-1帧前的n倍，以此类推，从而有：

故在一些实施方式中，也可以采用如下公式五计算当前帧的目标手势框的手势识别结果参数y：

其中，n是预设的大于1的整数。

步骤七：反馈动态手势指令和手势移动距离。

在上述跟踪处理的过程中，也就是说，在目标手势框移动过程中，实时反馈动态手势指令和手势移动距离(相邻两帧的像素距离)，应用端对自由视角视频等应用进行相应操作，给与用户实时的反馈效果。

步骤八：判断当前是否检测到结束手势(即上述第二标志性手势)，若是，则结束手势控制，否则继续跟踪手部框。

下面介绍一下本申请实施例提供的设备或装置，其中与上述方法中所述的相同或相应的技术特征的解释或举例说明，后续不再赘述。

参见图12，本申请实施例提供的一种电子设备包括：

处理器600，用于读取存储器620中的程序，执行下列过程：

确定所述图像帧上所述第一标志性手势对应的目标手势框；

针对当前帧图像上的每一静态手势框：

计算该静态手势框与所述目标手势框的交并比。

在一些实施方式中，处理器600，还用于读取存储器620中的程序，执行下列过程：

在一些实施例中，本申请实施例提供的电子设备还包括收发机610，用于在处理器600的控制下接收和发送数据。

其中，在图12中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器600代表的一个或多个处理器和存储器620代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机610可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元。

在一些实施例中，还包括用户接口630，用户接口630可以是能够外接内接需要设备的接口，连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。

处理器600负责管理总线架构和通常的处理，存储器620可以存储处理器600在执行操作时所使用的数据。

在一些实施例中，处理器600可以是CPU(中央处埋器)、ASIC(ApplicationSpecific Integrated Circuit，专用集成电路)、FPGA(Field－Programmable GateArray，现场可编程门阵列)或CPLD(Complex Programmable Logic Device，复杂可编程逻辑器件)。

参见图13，与上述方法相对应的，本申请另一实施例提供了一种电子设备包括：

第一单元11，用于获取图像采集设备当前采集到的视频流，通过遍历在所述当前采集到的视频流中检测到的手势结果，判断所述当前采集的视频流中是否存在预设的第一标志性手势；其中，所述第一标志性手势为用于表示手势控制开始的手势；

第二单元12，用于当检测到所述当前采集的视频流中存在所述第一标志性手势时，通过检测所述第一标志性手势所在的图像帧的后续图像上与所述第一标志性手势相对应的目标手势位置，相比所述第一标志性手势在所述图像帧上的位置的变化，实现对与所述第一标志性手势相对应的目标手势的跟踪。

上述单元还可以具有执行上述手势识别方法中其他的流程功能，在此不再赘述。

需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例提供了一种计算设备，该计算设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)等。该计算设备可以包括中央处理器(Center Processing Unit，CPU)、存储器、输入/输出设备等，输入设备可以包括键盘、鼠标、触摸屏等，输出设备可以包括显示设备，如液晶显示器(Liquid Crystal Display，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器提供存储器中存储的程序指令和数据。在本申请实施例中，存储器可以用于存储本申请实施例提供的任一所述方法的程序。

处理器通过调用存储器存储的程序指令，处理器用于按照获得的程序指令执行本申请实施例提供的任一所述方法。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中的任一所述方法。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请实施例提供了一种计算机可读存储介质，用于储存为上述本申请实施例提供的装置所用的计算机程序指令，其包含用于执行上述本申请实施例提供的任一方法的程序。所述计算机可读存储介质，可以是非暂时性计算机可读介质。

所述计算机可读存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

本申请实施例提供的任一所述的装置，可以是任意一种终端设备，例如任意一种显示设备，具体地，例如可以是智能电视等。

图14为根据实施例中显示设备与控制装置之间操作场景的示意图。如图14所示，用户可通过智能设备300或控制装置100操作显示设备200。

在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式，通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等输入用户指令，来控制显示设备200。

在一些实施例中，也可以使用智能设备300(如移动终端、平板电脑、计算机、笔记本电脑等)以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。

在一些实施例中，显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制，例如，可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过显示设备200设备外部设置的语音控制设备来接收用户的语音指令控制。

在一些实施例中，显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。

图15示例性示出了根据示例性实施例中控制装置100的配置框图。如图15所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。

图16示出了根据示例性实施例中显示设备200的硬件配置框图。

在一些实施例中，显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。

在一些实施例中控制器包括处理器，视频处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

在一些实施例中，显示器260包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面。

在一些实施例中，显示器260可为液晶显示器、OLED显示器、以及投影显示器，还可以为一种投影装置和投影屏幕。

在一些实施例中，通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。显示设备200可以通过通信器220与外部控制设备100或服务器400建立控制信号和数据信号的发送和接收。

在一些实施例中，用户接口，可用于接收控制装置100(如：红外遥控器等)的控制信号。

在一些实施例中，检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

在一些实施例中，外部装置接口240可以包括但不限于如下：高清多媒体接口接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。

在一些实施例中，调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG数据信号。

在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器260上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中，所述对象可以是可选对象中的任何一个，例如超链接、图标或其他可操作的控件。与所选择的对象有关操作有：显示连接到超链接页面、文档、图像等操作，或者执行与所述图标相对应程序的操作。

在一些实施例中控制器包括中央处理器(Central Processing Unit，CPU)，视频处理器，音频处理器，图形处理器(Graphics Processing Unit，GPU)，RAM Random AccessMemory，RAM)，ROM(Read-Only Memory,ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

CPU处理器。用于执行存储在存储器中操作系统和应用程序指令，以及根据接收外部输入的各种交互指令，来执行各种应用程序、数据和内容，以便最终显示和播放各种音视频内容。CPU处理器，可以包括多个处理器。如，包括一个主处理器以及一个或多个子处理器。

在一些实施例中，图形处理器，用于产生各种图形对象，如：图标、操作菜单、以及用户输入指令显示图形等。图形处理器包括运算器，通过接收用户输入各种交互指令进行运算，根据显示属性显示各种对象；还包括渲染器，对基于运算器得到的各种对象，进行渲染，上述渲染后的对象用于显示在显示器上。

在一些实施例中，视频处理器，用于将接收外部视频信号，根据输入信号的标准编解码协议，进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等视频处理，可得到直接可显示设备200上显示或播放的信号。

在一些实施例中，视频处理器，包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等。其中，解复用模块，用于对输入音视频数据流进行解复用处理。视频解码模块，用于对解复用后的视频信号进行处理，包括解码和缩放处理等。图像合成模块，如图像合成器，其用于将图形生成器根据用户输入或自身生成的GUI信号，与缩放处理后视频图像进行叠加混合处理，以生成可供显示的图像信号。帧率转换模块，用于对转换输入视频帧率。显示格式化模块，用于将接收帧率转换后视频输出信号，改变信号以符合显示格式的信号，如输出RGB数据信号。

在一些实施例中，音频处理器，用于接收外部的音频信号，根据输入信号的标准编解码协议，进行解压缩和解码，以及降噪、数模转换、和放大处理等处理，得到可以在扬声器中播放的声音信号。

在一些实施例中，用户可在显示器260上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

在一些实施例中，“用户界面”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

在一些实施例中，显示设备的系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构，它们让用户可以管理文件、运行程序并使用系统。上电后，内核启动，激活内核空间，抽象硬件、初始化硬件参数等，运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后，再加载Shell和用户应用程序。应用程序在启动后被编译成机器码，形成一个进程。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种手势识别方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，通过检测所述图像帧的后续图像上与所述第一标志性手势相对应的目标手势位置，相比所述第一标志性手势在所述图像帧上的位置的变化，实现对与所述第一标志性手势相对应的目标手势的跟踪，包括：

确定所述图像帧上所述第一标志性手势对应的目标手势框；

针对当前帧图像上的每一静态手势框：

3.根据权利要求2所述的方法，其特征在于，所述计算该静态手势框与所述目标手势框的重叠率，包括：

计算该静态手势框与所述目标手势框的交并比。

4.根据权利要求2所述的方法，其特征在于，所述计算该静态手势框与所述目标手势框的距离，包括：

5.根据权利要求4所述的方法，其特征在于，通过如下公式计算该静态手势框与所述目标手势框的距离：

6.根据权利要求2所述的方法，其特征在于，所述根据该静态手势框与所述目标手势框的重叠率，以及该静态手势框与所述目标手势框的距离，确定该静态手势框的置信度，包括：

7.根据权利要求2所述的方法，其特征在于，根据所述当前帧图像上所有静态手势框的置信度，确定所述当前帧的目标手势框，包括：

8.根据权利要求2所述的方法，其特征在于，所述方法还包括：

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

10.一种电子设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行权利要求1至9任一项所述的方法。