CN110059661B

CN110059661B - 动作识别方法、人机交互方法、装置及存储介质

Info

Publication number: CN110059661B
Application number: CN201910345010.1A
Authority: CN
Inventors: 罗镜民; 乔亮; 朱晓龙
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2022-11-22
Anticipated expiration: 2039-04-26
Also published as: US11710351B2; WO2020216116A1; CN110059661A; US20210271892A1

Abstract

本发明公开了一种动作识别方法、人机交互方法、装置及存储介质，属于计算机技术领域。方法包括：从目标视频中提取多个目标窗口；得到每个目标窗口的第一动作特征信息；当获取到多个第一动作特征信息与预设特征信息之间的多个相似度中最大的第一相似度大于第一预设阈值，第一相似度与第二相似度之间的差值大于第二预设阈值时，确定第一相似度对应的第一目标窗口包含的动态动作为预设动态动作。本发明实施例提供了一种识别预设动态动作的方案，对目标窗口中的视频帧进行动作识别，避免相邻目标窗口之间的影响而造成识别错误的问题，识别目标窗口中包含的预设动态动作，突破了相关技术中只能识别静态动作的限制，扩展了应用范围，提高了灵活性。

Description

动作识别方法、人机交互方法、装置及存储介质

技术领域

本发明涉及计算机技术领域，特别涉及一种动作识别方法、人机交互方法、装置及存储介质。

背景技术

动作识别技术是对动作图像进行分析处理，从而理解动作图像中所包含动作的技术，随着计算机技术的发展，动作识别技术广泛应用于视频监控、体感游戏、虚拟现实、互联网医疗等多种领域，已成为一种热门的研究方向。

相关技术中，用户在电子设备的拍摄范围内做出某种动作，电子设备对用户进行拍摄，得到动作图像，提取该动作图像中的身体关键点，如手腕关键点、肘部关键点或肩部关键点等，根据提取的身体关键点的分布情况，确定任两个身体部位之间的角度。获取预设角度范围，该预设角度范围为在做出预设动作时指定的两个身体部位之间的角度所属的角度范围。当确定该动作图像中指定的两个身体部位之间的角度属于该预设角度范围时，确定该动作图像中的动作为预设动作，也即是识别出用户做出了预设动作。

发明人认为，上述方案中仅可以根据静态的动作图像识别出静态动作，因此应用范围较为局限。

发明内容

本发明实施例提供了一种动作识别方法、人机交互方法、装置及存储介质，解决了相关技术存在的问题。所述技术方案如下：

一方面，提供了一种动作识别方法，所述方法包括：

从目标视频中提取多个目标窗口，所述多个目标窗口中的每个目标窗口包括第一预设数量的连续视频帧；

对所述每个目标窗口中的视频帧进行动作识别，得到所述每个目标窗口的第一动作特征信息，所述第一动作特征信息用于描述所述目标窗口包含的动态动作；

获取所述每个目标窗口的第一动作特征信息与预设特征信息之间的相似度，所述预设特征信息用于描述预设动态动作；

当获取到的多个相似度中最大的第一相似度大于第一预设阈值，且所述第一相似度与第二相似度之间的差值大于第二预设阈值时，确定所述第一相似度对应的第一目标窗口包含的动态动作为所述预设动态动作，所述第二相似度为与所述第一目标窗口相邻的目标窗口对应的相似度。

可选地，所述从目标视频中提取多个目标窗口，包括：

从所述目标视频中提取多个视频帧；

以所述第一预设数量作为每个目标窗口中的视频帧数量，以第二预设数量作为任两个相邻的目标窗口包含的相同视频帧的数量，对所述多个视频帧进行划分，得到所述多个目标窗口。

可选地，所述对所述每个目标窗口中的视频帧进行动作识别，得到所述每个目标窗口的第一动作特征信息，包括：

对于所述每个目标窗口中的每个视频帧，提取所述视频帧中的多个身体关键点；

根据所述多个身体关键点的分布情况，对所述视频帧进行动作识别，得到所述视频帧的第二动作特征信息，所述第二动作特征信息用于描述所述视频帧包含的静态动作；

分别将所述每个目标窗口中的视频帧的第二动作特征信息进行组合，得到所述每个目标窗口的第一动作特征信息。

可选地，所述预设动态动作由至少两个预设身体部位做出；所述根据所述多个身体关键点的分布情况，对所述视频帧进行动作识别，得到所述视频帧的第二动作特征信息，包括以下至少一项：

根据所述多个身体关键点在所述视频帧中的坐标以及所述多个身体关键点所属的身体部位，确定所述视频帧中任两个预设身体部位之间的角度，作为所述第二动作特征信息；

获取所述多个身体关键点中至少一个身体关键点与参考视频帧中对应的身体关键点之间的位移量，作为所述第二动作特征信息，所述参考视频帧在所述视频帧之前，且与所述视频帧相隔第三预设数量的视频帧；

获取任两个预设身体部位中的参考身体部位的尺寸，以及所述任两个预设身体部位之间的距离，将所述距离与所述参考身体部位的尺寸之间的比例作为第二动作特征信息。

可选地，所述第一动作特征信息为包括M个第一动作向量的第一动作矩阵，所述预设特征信息为包括N个预设动作向量的预设动作矩阵，M和N为正整数，所述获取所述每个目标窗口的第一动作特征信息与预设特征信息之间的相似度，包括：

创建相似度矩阵，所述相似度矩阵的行数为M、列数为N，或者行数为N、列数为M；

对于与第i个第一动作向量和第j个预设动作向量对应的指定位置，获取第一位置、第二位置和第三位置的相似度中的最大相似度与所述第i个第一动作向量与所述第j个预设动作向量之间的相似度的和，作为所述指定位置的相似度，所述第一位置为与第i-1个第一动作向量和第j个预设动作向量对应的位置，所述第二位置为与第i-1个第一动作向量和第j-1个预设动作向量对应的位置，所述第三位置为与第i个第一动作向量和第j-1个预设动作向量对应的位置，i为不小于1且不大于M的正整数，j为不小于1且不大于N的正整数；

将所述相似度矩阵中与第M个第一动作向量和第N个预设动作向量对应的位置的相似度确定为所述第一动作特征信息与所述预设特征信息之间的相似度。

另一方面，提供了一种人机交互方法，所述方法包括：

通过配置的摄像头拍摄用户的动作视频，作为目标视频；

从所述目标视频中提取多个目标窗口，所述多个目标窗口中的每个目标窗口包括第一预设数量的连续视频帧；

当获取到的多个相似度中最大的第一相似度大于第一预设阈值，且所述第一相似度与第二相似度之间的差值大于第二预设阈值时，确定所述第一相似度对应的第一目标窗口包含的动态动作为所述预设动态动作，所述第二相似度为与所述第一目标窗口相邻的目标窗口对应的相似度；

执行与所述预设动态动作对应的交互操作。

可选地，所述执行与所述预设动态动作对应的交互操作，包括以下至少一项：

确定所述用户的动作通过验证，显示验证通过的预设动态效果；

为所述用户分配所述预设动态动作对应的虚拟奖励数据；

为所述用户分配所述预设动态动作对应的操作权限。

另一方面，提供了一种动作识别装置，所述装置包括：

提取模块，用于从目标视频中提取多个目标窗口，所述多个目标窗口中的每个目标窗口包括第一预设数量的连续视频帧；

动作识别模块，用于对所述每个目标窗口中的视频帧进行动作识别，得到所述每个目标窗口的第一动作特征信息，所述第一动作特征信息用于描述所述目标窗口包含的动态动作；

相似度获取模块，用于获取所述每个目标窗口的第一动作特征信息与预设特征信息之间的相似度，所述预设特征信息用于描述预设动态动作；

确定模块，用于当获取到的多个相似度中最大的第一相似度大于第一预设阈值，且所述第一相似度与第二相似度之间的差值大于第二预设阈值时，确定所述第一相似度对应的第一目标窗口包含的动态动作为所述预设动态动作，所述第二相似度为与所述第一目标窗口相邻的目标窗口对应的相似度。

可选地，所述提取模块，包括：

获取单元，用于从所述目标视频中提取多个视频帧；

划分单元，用于以所述第一预设数量作为每个目标窗口中的视频帧数量，以第二预设数量作为任两个相邻的目标窗口包含的相同视频帧的数量，对所述多个视频帧进行划分，得到所述多个目标窗口。

可选地，所述动作识别模块，包括：

提取单元，用于对于所述每个目标窗口中的每个视频帧，提取所述视频帧中的多个身体关键点；

动作识别单元，用于根据所述多个身体关键点的分布情况，对所述视频帧进行动作识别，得到所述视频帧的第二动作特征信息，所述第二动作特征信息用于描述所述视频帧包含的静态动作；

组合单元，用于分别将所述每个目标窗口中的视频帧的第二动作特征信息进行组合，得到所述每个目标窗口的第一动作特征信息。

可选地，所述预设动态动作由至少两个预设身体部位做出；所述动作识别单元还用于执行以下至少一项：

可选地，所述第一动作特征信息为包括M个第一动作向量的第一动作矩阵，所述预设特征信息为包括N个预设动作向量的预设动作矩阵，M和N为正整数，所述相似度获取模块，包括：

创建单元，用于创建相似度矩阵，所述相似度矩阵的行数为M、列数为N，或者行数为N、列数为M；

相似度获取单元，用于对于与第i个第一动作向量和第j个预设动作向量对应的指定位置，获取第一位置、第二位置和第三位置的相似度中的最大相似度与所述第i个第一动作向量与所述第j个预设动作向量之间的相似度的和，作为所述指定位置的相似度，所述第一位置为与第i-1个第一动作向量和第j个预设动作向量对应的位置，所述第二位置为与第i-1个第一动作向量和第j-1个预设动作向量对应的位置，所述第三位置为与第i个第一动作向量和第j-1个预设动作向量对应的位置，i为不小于1且不大于M的正整数，j为不小于1且不大于N的正整数；

所述相似度获取单元，还用于将所述相似度矩阵中与第M个第一动作向量和第N个预设动作向量对应的位置的相似度确定为所述第一动作特征信息与所述预设特征信息之间的相似度。

另一方面，提供了一种人机交互装置，所述装置包括：

拍摄模块，用于通过配置的摄像头拍摄用户的动作视频，作为目标视频；

提取模块，用于从所述目标视频中提取多个目标窗口，所述多个目标窗口中的每个目标窗口包括第一预设数量的连续视频帧；

确定模块，用于当获取到的多个相似度中最大的第一相似度大于第一预设阈值，且所述第一相似度与第二相似度之间的差值大于第二预设阈值时，确定所述第一相似度对应的第一目标窗口包含的动态动作为所述预设动态动作，所述第二相似度为与所述第一目标窗口相邻的目标窗口对应的相似度；

执行模块，用于执行与所述预设动态动作对应的交互操作。

可选地，所述执行模块，用于执行以下至少一项：

为所述用户分配所述预设动态动作对应的虚拟奖励数据；

为所述用户分配所述预设动态动作对应的操作权限。

另一方面，提供了一种动作识别装置，所述装置包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现所述动作识别方法中所执行的操作或所述人机交互方法中所执行的操作。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现所述动作识别方法中所执行的操作或所述人机交互方法中所执行的操作。

本发明实施例提供的动作识别方法、人机交互方法、装置及存储介质，通过从目标视频中提取多个目标窗口，根据每个目标窗口中的视频帧，获取每个目标窗口的第一动作特征信息，第一动作特征信息用于描述目标窗口包含的动态动作，获取每个目标窗口的第一动作特征信息与预设特征信息之间的相似度，预设特征信息用于描述预设动态动作，当获取到的多个相似度中最大的第一相似度大于第一预设阈值，且第一相似度与相邻目标窗口对应的第二相似度之间的差值大于第二预设阈值时，表示第一相似度对应的第一目标窗口中的动态动作与相邻目标窗口中的动态动作差别足够大，不会受到相邻目标窗口中动态动作的影响，因此确定第一目标窗口包含的动态动作为预设动态动作。本发明实施例提供了一种识别预设动态动作的方案，能够以目标视频中的目标窗口为单位，对目标窗口中的视频帧进行动作识别，从而识别目标窗口中包含的预设动态动作，突破了相关技术中只能识别静态动作的限制，扩展了应用范围，提高了灵活性。而且通过计算相邻目标窗口的相似度之间的差值的方式确定相邻目标窗口中动作是否相互影响，避免由于相邻目标窗口之间的影响而造成识别错误的问题，提高了准确率。

而且动态动作的识别过程中不会受到动态动作频率的限制，可以识别出任意频率的预设动态动作，提高了识别动态动作的鲁棒性。

另外，利用动态规划的思想，采用自底向上的方式计算相似度，快速地获取到了目标窗口中包含的动态动作与预设动态动作的相似度，且提高了准确性。

另外，能够识别用户做出的动态动作，根据用户做出的动态动作执行相应的交互操作，与用户进行交互，提供了一种新型准确的交互方式。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种动作识别方法的流程图；

图2是本发明实施例提供的一种检测身体关键点的流程图；

图3是本发明实施例提供的一种视频帧的身体关键点示意图；

图4是本发明实施例提供的一种获取视频帧的动作特征信息的流程图；

图5是本发明实施例提供的一种相似度矩阵的示意图；

图6是发明实施例提供的一种确定预设动态动作的流程图；

图7是本发明实施例提供的一种动作识别方法的流程图；

图8是本发明实施例提供的一种动作识别装置的结构示意图；

图9是本发明实施例提供的另一种动作识别装置的结构示意图；

图10是本发明实施例提供的一种人机交互装置的结构示意图；

图11是本发明实施例提供的一种电子设备的结构示意图；

图12是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在对本发明实施例进行详细地解释说明之前，首先对本发明实施例涉及到的概念进行如下解释：

1、静态动作：是指身体部位静止的状态下做出的动作，静态动作没有运动过程，身体部位在做出静态动作时，位置和姿态都不会发生变化。例如，静态动作可以包括抬头动作、倒立动作、手臂弯曲的动作等。

2、动态动作：是指身体部位运动的状态下做出的动作，动态动作具有运动过程，身体部位在做出动态动作时，位置或姿态可以会发生变化。一个动态动作可以看作是多个静态动作组合得到。

例如，动态动作可以包括挥手动作、摇摆动作、扩胸运动的动作等。

图1是本发明实施例提供的一种动作识别方法的流程图。参见图1，应用于电子设备，该电子设备可以为手机、平板电脑、计算机、体感游戏机、门禁设备等多种类型的设备。该方法包括：

101、获取目标视频，从目标视频中提取多个视频帧。

本发明实施例以识别预设动态动作为例，电子设备确定预设动态动作，当获取到目标视频时，对目标视频进行动作识别，以识别目标视频中包含的预设动态动作。

其中，目标视频可以为电子设备获取到的任意视频。从内容上来讲，目标视频可以为舞蹈类视频、娱乐新闻类视频、体育类视频等。从来源上来讲，目标视频可以为电子设备通过摄像头拍摄的视频，或者从互联网下载的视频，或者其他设备发送的视频等。

在一种可能实现方式中，电子设备接收动作识别指令，根据动作识别指令调用视频数据库，获取用户从视频数据库中选择的视频，作为目标视频，从而对该目标视频进行动作识别。其中，该视频数据库存储有一个或多个视频。

例如，电子设备安装视频监控客户端，该视频监控客户端用于录制视频，将录制的视频存储于视频数据库中。当用户需要核查某些视频中是否包含预设动态动作时，可以触发动作识别指令，从视频数据库中选择希望核查的视频，从而触发动作识别过程。

在另一种可能实现方式中，电子设备接收服务器下发的动作识别指令，该动作识别指令携带预设动态动作，用于指示电子设备识别包含该预设动态动作的视频，则电子设备根据动作识别指令，将本地存储的每个视频分别作为目标视频，从而触发动作识别过程。

其中，该服务器用于进行视频安全检测，可以根据相关规定定期或随机地向电子设备下发携带一些违规的动态动作的动作识别指令。

在另一种可能实现方式中，电子设备接收动作识别指令，打开摄像头，通过摄像头拍摄视频，将当前拍摄的视频作为目标视频。例如，电子设备为体感游戏机，当检测到开始进行游戏的操作时，确定接收到动作识别指令，从而根据动作识别指令拍摄用户的视频，作为目标视频，从而触发动作识别过程，识别用户是否做出了预设动态动作，从而根据识别结果进行后续操作。

需要说明的是，当目标视频为实时拍摄的视频时，电子设备会随着视频的拍摄，对当前已拍摄的视频片段进行动作识别，后续再拍摄得到新的视频片段时，再对新拍摄的视频片段进行动作识别。而当目标视频为本地存储的视频时，电子设备可以以目标视频为整体，对该目标视频进行动作识别。

本发明实施例中，目标视频包括按照时间先后顺序依次排列的多个视频帧，每个视频帧中可能会包括一个或多个静态动作，而预设动态动作包括多个静态动作。因此，为了识别目标视频包含的预设动态动作，从目标视频中提取多个视频帧，后续再根据多个视频帧进行处理。

其中，该多个视频帧可以包括目标视频中的所有视频帧，或者仅包括目标视频中的部分连续视频帧。电子设备在从目标视频中提取视频帧时，可以按照目标视频中视频帧的排列顺序依次进行提取，或者从目标视频中提取预设数量的连续视频帧。例如，以目标视频中的任一个视频帧为提取的第一个视频帧，按照该视频帧之后各个视频帧的排列顺序，提取预设数量的连续视频帧。其中，该预设数量可以根据动作识别的复杂度要求确定，或者根据目标视频中的视频帧数量确定。

在一种可能实现方式中，当目标视频为实时拍摄的视频时，电子设备会随着视频的进行，每当拍摄到预设数量的视频帧时，提取该预设数量的视频帧，作为一个视频片段，对该视频片段进行动作识别，后续再次拍摄得到新的预设数量的视频帧时，继续提取新的预设数量的视频帧，得到另一个视频片段，对另一个视频片段进行动作识别，也即是每次将当前时刻之前的预设数量的视频帧作为输入，进行动作识别。而当目标视频为本地存储的视频时，电子设备从目标视频中提取多个视频帧。

102、以第一预设数量作为每个目标窗口中的视频帧数量，以第二预设数量作为任两个相邻的目标窗口包含的相同视频帧的数量，对多个视频帧进行划分，得到多个目标窗口。

每个目标窗口包括第一预设数量的连续视频帧，多个目标窗口构成一个窗口序列，后续电子设备可以以目标窗口为单位，对窗口序列中的每个目标窗口进行动作识别，识别每个目标窗口包含的预设动态动作。

其中，每个目标窗口中包括的视频帧的数量为第一预设数量，且任两个相邻的目标窗口包含的相同视频帧的数量为第二预设数量。其中，该第一预设数量为大于1的整数，该第二预设数量为大于0的整数。并且，由于第一预设数量不大于第二预设数量时，无法实现相邻目标窗口中包含第二预设数量的相同的视频帧，因此第一预设数量大于第二预设数量。

例如，该第一预设数量为30，第二预设数量为29，则每个目标窗口中包括30帧视频帧，任两个相邻的目标窗口中包括29帧相同的视频帧。

在一种可能实现方式中，电子设备设置预设步长，该预设步长用于规定任两个相邻目标窗口的起始视频帧之间的距离，且该预设步长为第一预设数量与第二预设数量的差值。则电子设备将提取的多个视频帧中的起始视频帧作为第一起始视频帧，从第一起始视频帧开始提取第一预设数量的视频帧，得到一个目标窗口。继续确定与第一起始视频帧之间的距离为预设步长的第二起始视频帧，从该第二起始视频帧开始，提取第一预设数量的视频帧，得到下一个目标窗口，以此类推，即可依次提取出间隔预设步长的目标窗口。

例如，当第一预设数量为30，预设步长为2时，以目标视频中的第一个视频帧为起点，将第1帧至第30帧作为第一个目标窗口，将第3帧至第32帧作为第二个目标窗口，以此类推，可以从目标视频中提取多个目标窗口。

需要说明的是，本发明实施例仅是以电子设备提取多个视频帧后按照第一预设数量和第二预设数量进行划分为例，对得到目标窗口的过程进行说明。而本发明实施例中，还可以采用其他可能实现方式，只需保证在时间维度上对目标视频进行划窗处理，从目标视频中提取多个目标窗口，且每个目标窗口包括第一预设数量的连续视频帧即可。

例如，以第一预设数量作为每个目标窗口中的视频帧的数量，电子设备将提取的多个视频帧中的起始视频帧作为第一起始视频帧，从第一起始视频帧开始提取第一预设数量的视频帧，得到一个目标窗口。此时随机确定一个步长，继续确定与第一起始视频帧之间的距离为该步长的第二起始视频帧，从该第二起始视频帧开始，提取第一预设数量的视频帧，得到下一个目标窗口，后续继续随机确定另一个步长，以此类推，即可依次提取出多个目标窗口，且任两个相邻的目标窗口包括的相同视频帧的数量不固定。

103、对于每个目标窗口中的每个视频帧，提取该视频帧中的多个身体关键点。

由于目标窗口的动态动作与每个视频帧的静态动作有关，因此为了对目标窗口进行动态动作的识别，可以先对每个视频帧进行特征提取，得到每个视频帧的动作特征信息，再根据每个视频帧的动作特征信息获取目标窗口的动作特征信息。

因此，对于每个目标窗口中的每个视频帧，电子设备对该视频帧进行关键点提取，提取该视频帧中的多个身体关键点，该多个身体关键点用于描述该视频帧中包括的对象。其中，该视频帧中包括的对象可以为人的身体、动物的身体或者其他种类的身体。视频帧中的身体关键点可以为眼睛关键点、耳朵关键点、鼻子关键点、肩膀关键点、手部关键点、脚部关键点等。

在一种可能实现方式中，电子设备将该视频帧输入到关键点检测模型中，基于该关键点检测模型对该视频帧进行关键点检测，可以得到该视频帧中的多个身体关键点。

如图2所示，电子设备获取到目标视频后，从目标视频中提取多个目标窗口，获取每个目标窗口中的视频帧集，将视频帧集中的每个视频帧输入到关键点检测模型中，基于该关键点检测模型即可输出每个视频帧中的身体关键点。

可选地，将视频帧输入至关键点检测模型中，关键点检测模型会根据视频帧生成与多个身体部位对应的热力图，即一个热力图对应一个身体部位。其中，每个热力图中的每个像素点的像素值代表该像素点在该视频帧中对应的像素点属于对应的身体部位中的关键点的概率，热力图中像素点的像素值越大，表示在该视频帧中对应的像素点越可能是该身体部位上的身体关键点，热力图中像素点的像素值越小，表示在该视频帧中对应的像素点越可能不是该身体部位上的身体关键点。获取热力图中的像素值最大的像素点，将该像素点在该视频帧中对应的像素点确定为该热力图对应的身体部位的身体关键点。

其中，在获取热力图中的像素值最大的像素点时，可以采用NMS(Non-MaximumSuppression，非极大值抑制)算法进行局部最大搜索，抑制不是极大值的像素值，从而获取热力图中的像素值最大的像素点，或者还可以采用其他方式。

且将视频帧输入至关键点检测模型中，关键点检测模型通过热力图确定视频帧中的身体关键点后，可以获取该视频帧中任两个身体关键点构成的向量，通过确定该任两个身体关键点构成的向量是否与预设向量相同，当确定该任两个身体关键点与预设向量相同时，确定该任两个身体关键点属于同一对象上与该预设向量对应的身体部位。

如图3所示，该视频帧中包括三个对象，且检测出6个身体关键点，将该6个身体关键点中的任两个关键点相连，构成多个向量，分别判断该多个向量与预设向量是否相同，从而可以确定该6个身体关键点属于的对象。

其中，该关键点检测模型的模型结构可以为darknet(一种模型结构)，包括特征提取子模型和特征处理子模型，特征提取子模型包括多个网络层，每个网络层采用的卷积核尺寸可以相同也可以不同，且每个网络层的输出作为下一个网络层的输入，该特征提取子模型的多个网络层的输出、输入和卷积核尺寸可以如表1所示。特征处理子模型包括两个分支，第一个分支用于获取热力图，第二个分支用于确定身体关键点所属的身体部位。且每个分支包括多个网络层，每个网络层采用的卷积核尺寸可以相同也可以不同，且每个网络层的输出作为下一个网络层的输入，第一个分支的多个网络层的输出、输入和卷积核尺寸可以如表2所示，第二个分支的多个网络层的输出、输入和卷积核尺寸可以如表3所示。

表1

表2

输出	输入	卷积核尺寸
			256	256	3
256	256	3
			256	256	3
512	256	1
			38	512	1

表3

在训练关键点检测模型时，构建初始化的关键点检测模型，获取多个样本视频帧和每个样本视频帧的身体关键点，根据每个样本视频帧和每个样本视频帧中的身体关键点对关键点检测模型进行训练，从而可以使关键点检测模型具备检测身体关键点的能力，得到训练后的关键点检测模型。

在一种可能实现方式中，当训练关键点检测模型时，可以采用Coco(CommonObjects in Context，上下文中的公共对象)数据集对关键点检测模型进行训练。该关键点检测模型可以为卷积神经网络模型、全卷积神经网络模型、mobilenet模型(一种用于移动终端的神经网络模型)、Shufflenet模型(一种用于移动终端的神经网络模型)等，或者还可以为基于Heatmap(热力图)与PAF(Part Affinity Fields，部分亲和字段)结合的模型等。

104、根据多个身体关键点的分布情况，对视频帧进行动作识别，得到视频帧的第二动作特征信息，第二动作特征信息用于描述视频帧包含的静态动作。

电子设备提取视频帧中的多个身体关键点时，即可确定每个身体关键点的坐标，从而确定每个身体关键点在视频帧中的位置，进而确定多个身体关键点的分布情况。则根据多个身体关键点的分布情况获取用于描述视频帧中包含的静态动作的第二动作特征信息。

根据该多个身体关键点得到第二动作特征信息的方式可以包括步骤1041-1043中的至少一种：

1041、根据多个身体关键点在视频帧中的坐标以及多个身体关键点所属的身体部位，确定视频帧中任两个预设身体部位之间的角度，作为第二动作特征信息。

其中，预设动态动作由至少两个预设身体部位做出，因此，可以根据多个身体关键点在视频帧中的坐标，获取属于任两个预设身体部位中每个预设身体部位的身体关键点，根据该任两个预设身体部位中每个预设身体部位的身体关键点的坐标，确定表示每个预设身体部位的向量，根据确定的任两个预设身体部位的向量确定该任两个预设身体部位之间的角度，将该角度作为第二动作特征信息。

例如，获取身体的肘关节相对肩膀的角度、手腕关节相对肘关节的角度，将获取的角度作为第二动作特征信息。

由于一个对象的姿态可以根据多个身体关键点构成的骨架来表示，因此本发明实施例通过将任两个预设身体部位之间的角度作为第二动作特征信息，使第二动作特征信息能够表示多个身体关键点构成的骨架的姿态，也即是该对象的静态动作。

在一种可能实现方式中，当获取到任两个预设身体部位之间的角度后，为了后续能够根据获取到的角度计算预设动态动作和目标窗口中的动态动作的相似度，可以先对获取到的角度进行编码，从而能够将该角度归一化，通过归一化后的角度来表示第二动作特征信息。

其中，编码的方式可以采用Onehot(独热编码)，也即是将360度的角度划分为多份，例如划分为4份：0-90度、91度-180度、181度-270度、271度-360度，每份均对应于一个编码。当获取的角度属于任一个范围时，将该角度所属的范围对应的编码设置为1，其余范围对应的编码设置为0，得到该角度对应的编码。

需要说明的是，当做出预设动态动作的预设身体部位包括三个或三个以上时，将任两个预设身体部位作为一组，每组预设身体部位可以得到对应的角度，则将多组预设身体部位对应的角度均作为第二动作特征信息。

1042、获取多个身体关键点中至少一个身体关键点与参考视频帧中对应的身体关键点之间的位移量，作为第二动作特征信息。

其中，参考视频帧在视频帧之前，且与视频帧相隔第三预设数量的视频帧。由于目标窗口中包含一个动态动作，当前视频帧中的身体关键点与参考视频帧中对应的身体关键点之间可能会发生位移，因此，确定当前视频帧中的身体关键点与参考视频帧中对应的身体关键点之间的位移量，该位移量可以表示当前视频帧中的身体关键点相对于参考视频帧中对应的身体关键点的运动幅度，将该位移量作为第二动作特征信息。

在一种可能实现方式中，当获取多个身体关键点后，获取该身体关键点中的任一个身体关键点的坐标以及参考视频帧中对应的身体关键点的坐标，该坐标包括横坐标和纵坐标，确定该视频帧中的关键点与参考视频帧中对应的关键点的横坐标之间的差值以及纵坐标之间的差值，将横坐标之间的差值与纵坐标之间的差值均作为第二动作特征信息。

例如，当获取到多个身体关键点后，获取该视频帧中左手手腕关键点与参考视频帧中左手手腕关键点的横坐标之间的差值以及纵坐标之间的差值，该参考视频帧与该视频帧之间间隔5帧。

在另一种可能实现方式中，当获取多个身体关键点后，获取该多个身体关键点中的任一身体关键点的坐标以及参考视频帧中对应的身体关键点的坐标，获取参考视频帧中对应的身体关键点在当前视频帧中对应的位置的坐标，确定该坐标和当前视频帧中的身体关键点的坐标之间的距离，将该距离作为第二动作特征信息。

1043、获取任两个预设身体部位中的参考身体部位的尺寸，以及该任两个预设身体部位之间的距离，将该距离与参考身体部位的尺寸之间的比例作为第二动作特征信息。

由于预设动态动作由至少两个预设身体部位做出，因此可以根据多个身体关键点在视频帧中的坐标，获取该视频帧中任两个预设身体部位之间的距离，并且对于这两个预设身体部位，还可以将其中一个身体部位作为参考身体部位，获取该参考身体部位的尺寸，确定这两个预设身体部位之间的距离与该参考身体部位的尺寸的比例，将该比例作为第二动作特征信息。

其中，该参考身体部位可以为身体中尺寸不发生改变的部位，例如该参考身体部位可以为肩膀、脖子等，则参考身体部位的尺寸可以为肩膀的尺寸、脖子的尺寸等。

例如，预设动态动作为挥手动作，由肩膀和手臂做出，则将肩膀作为参考身体部位，可以根据左手手腕关键点和左肩膀关键点确定左手手腕到肩膀的距离，根据左肩膀关键点和右肩膀关键点可以确定肩膀的宽度，根据左手手腕到肩膀的距离和肩膀的宽度可以确定比例，将该比例作为第二动作特征信息。

通过将任两个预设身体部位之间的距离与参考身体部位的尺寸的比例作为第二动作特征信息，而不是仅计算任两个预设身体部位之间的距离，考虑到了不同对象尺寸不同的问题，使获取到的动作特征信息可以兼容不同尺寸的对象，避免受到尺寸的影响。

本发明实施例中，可以通过步骤1041-1043中的任一项可以分别获取第二动作特征信息，该第二动作特征信息可以准确地对视频帧中包含的静态动作进行描述，提高了准确性，便于后续根据视频帧中包含的静态动作描述目标窗口中包含的动态动作。

另外，还可以将上述步骤1041-1043中的任两项或三项进行组合，从而可以得到组合后的第二动作特征信息，通过组合后的第二动作特征信息描述视频帧中的静态动作，可以更加准确全面地对视频帧中包含的静态动作进行描述，提高了准确性，便于后续根据视频帧中包含的静态动作描述目标窗口中包含的动态动作。

105、分别将每个目标窗口中的视频帧的第二动作特征信息进行组合，得到每个目标窗口的第一动作特征信息。

其中，该第一动作特征信息用于描述目标窗口包含的动态动作。

每个目标窗口中包括连续的多个视频帧，每个视频帧的第二动作特征信息表示对应的视频帧中包含的静态动作。由于目标窗口的动态动作可以由每个视频帧中的静态动作组合得到，因此将每个目标窗口中的多个视频帧的第二动作特征信息进行组合，得到组合后的第一动作特征信息，该第一动作特征信息可以描述目标窗口中包含的动态动作。

如图4所示，将视频帧集中的每个视频帧输入关键点检测模型，基于该关键点检测模型，确定每个视频帧中的身体关键点集，根据每个视频帧中的身体关键点集确定左手上臂与左肩膀的角度45°、左手下臂与左手上臂的角度25°，左手关键点的横坐标位移0.4、左手关键点的纵坐标位移0.5、左手关键点到肩膀的距离与肩宽的比值1.5、右手关键点到肩膀的距离与肩宽的比值1.6，将得到的数据进行组合，得到该视频帧的第二动作特征信息[45°，25°][0.4，0.5][1.5，1.6]，将第二动作特征信息采用onehot进行编码，得到编码后的动作特征信息[0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，0，0.4，0.5，1.5，1.6]，将得到的每个视频帧的编码后的动作特征信息进行组合，可以得到用于表示目标窗口的第一动作特征信息。

106、获取每个目标窗口的第一动作特征信息与预设特征信息之间的相似度。

其中，预设特征信息用于描述预设动态动作，可以作为预设动态动作的特征模板，在后续过程中用于与目标窗口的动作特征信息进行匹配对比。

该预设特征信息的获取过程包括：获取多个仅包含预设动态动作的视频，对该多个视频进行动作识别，得到每个视频的特征信息，根据得到的每个视频的特征信息进行统计，得到预设特征信息，从而该预设特征信息可以表示预设动态动作。其中，根据多个特征信息进行统计的方式可以为计算总和、计算平均值等。

在本发明实施例中，通过获取每个目标窗口的第一动作特征信息与预设特征信息之间的相似度，可以确定每个目标窗口的第一动作特征信息与预设特征信息之间的相似程度，从而根据确定的相似度可以确定目标窗口中的动态动作是否与预设动态动作相同。

在一种可能实现方式中，确定第一动作特征信息对应的第一动作矩阵，确定预设特征信息对应的预设动作矩阵，再确定第一动作矩阵和预设动作矩阵之间的相似度，将确定的相似度作为第一动作特征信息和预设特征信息之间的相似度。

其中，第一动作特征信息为包括M个第一动作向量的第一动作矩阵，预设特征信息为包括N个预设动作向量的预设动作矩阵，且M和N为正整数。且该第一动作矩阵和该预设动作矩阵均可以数组的形式存储于电子设备中，或者采用其他存储形式。

例如M等于30，且每个第一动作向量为由编码后的两个预设身体部位之间的角度、多个身体关键点中任一身体关键点与参考视频帧中对应的身体关键点的横坐标之差、纵坐标之差、任两个身体部位之间的比值组合构成38维的向量，因此该第一动作矩阵为38*30的矩阵。

例如N等于20，且每个预设动作向量均由编码后的两个预设身体部位之间的角度、多个身体关键点中任一关键点的横坐标之差、纵坐标之差、任两个身体部位之间的比值组合构成38维的向量，因此该预设动作矩阵为38*20的矩阵。

其中，确定动作矩阵和预设动作矩阵之间的相似度可以包括步骤1061-1063：

1061、创建相似度矩阵。

其中，该相似度矩阵的尺寸由第一动作矩阵包括的第一动作向量的数量M和预设动作矩阵包括的预设动作向量的数量N确定，当该相似度矩阵的每行代表一个预设动作向量，每列代表一个第一动作向量时，该相似度矩阵的行数为N，列数为M，而当该相似度矩阵的每行代表一个第一动作向量，每列代表一个预设动作向量时，该相似度矩阵的行数为M，列数为N。

1062、对于与第i个第一动作向量和第j个预设动作向量对应的指定位置，获取第一位置、第二位置和第三位置的相似度中的最大相似度与第i个第一动作向量与第j个预设动作向量之间的相似度的和，作为指定位置的相似度。

其中，第一位置为与第i-1个第一动作向量和第j个预设动作向量对应的位置，也即是指定位置的左侧位置，第二位置为与第i-1个第一动作向量和第j-1个预设动作向量对应的位置，也即是指定位置的左下侧位置，第三位置为与第i个第一动作向量和第j-1个预设动作向量对应的位置，也即是指定位置的下侧位置，i为不小于1且不大于M的正整数，j为不小于1且不大于N的正整数。因此从第1个第一动作向量和第1个预设动作向量对应的位置开始确定相似度，直至确定第N个第一动作向量和第M个预设动作向量对应的位置的相似度。

相似度矩阵中，指定位置的相似度用于表示目标视频中的第i帧以及第i帧之前的动态动作与做出预设动态动作的视频中第j帧以及第j帧之前的预设动态动作之间的相似度，可以在一定程度上代表目标视频中到第i帧为止的动态动作与预设动态动作是否相同。

需要说明的是，该相似度可以采用欧式距离、余弦相似度、曼哈顿距离、马氏距离等不同的方式进行表示，且不同方式的相似度与其所表示的第一动作特征信息与预设特征信息之间的相似程度的关系不同。例如，欧式距离与相似程度呈负相关关系，欧式距离越大，代表第一动作特征信息与预设特征信息越不相似。而余弦相似度与相似程度呈正相关关系，余弦相似度越大，代表第一动作特征信息与预设特征信息越相似。

则按照上述步骤1061-1062获取指定位置的相似度时，如果相似度与第一动作特征信息与预设特征信息之间的相似程度呈正相关关系，则获取第一位置、第二位置和第三位置的相似度中的最大相似度与第i个第一动作向量与第j个预设动作向量之间的相似度的和，作为指定位置的相似度。如果相似度与第一动作特征信息与预设特征信息之间的相似程度呈负相关关系，则获取第一位置、第二位置和第三位置的相似度中的最小相似度与第i个第一动作向量与第j个预设动作向量之间的相似度的和，作为指定位置的相似度。

例如，如图5所示，该相似度矩阵包括16个位置，计算位置6的相似度时，获取位置1、位置2、位置5的相似度分别为0.4、0.3、0.6，获取位置6对应的第一动作向量和预设特征向量的相似度为0.1，则位置6的相似度为0.7。依次确定相似度矩阵中位置1到位置16的相似度，将位置16的相似度确定为第一动作特征信息与预设特征信息之间的相似度。

另外，该相似度矩阵包括M*N个位置，确定该M*N个位置中每个位置对应的第一特征向量和预设特征向量之间的相似度，根据确定的每个位置对应的第一特征向量和预设特征向量之间的相似度，以及该位置的左侧位置、左下侧位置和下侧位置的相似度，可以确定每个位置的相似度。

其中，第一特征向量和预设特征向量之间的相似度可以采用多种方式表示，相似度的表示方式包括欧式距离、余弦相似度、曼哈顿距离、马氏距离等。

在一种可能实现方式中，若要确定第M个第一特征向量和第N个预设特征向量对应的位置的相似度，要先获取到该位置的左侧位置、左下侧位置以及下侧位置的相似度以及第M个第一特征向量和第N个预设特征向量之间的相似度。而如果确定左侧位置、左下侧位置以及下侧位置的相似度，仍要确定这些位置的左侧位置、左下侧位置、下侧位置的相似度，以此类推，直至第1个第一特征向量与第1个预设特征向量对应的位置。在此过程中，相似度矩阵中的有些位置无需参与计算，因此可以将无需参与计算的位置之外的位置作为预设位置，只确定该相似度矩阵中预设位置的相似度，而无需确定该相似度矩阵中除预设位置以外的其他位置的相似度，减少了计算量，从而加快了相似度的计算速率。

需要说明的是，当指定位置位于相似度矩阵的边缘时，可能会导致指定位置不存在左侧位置、左下侧位置或下侧位置，因此，当指定位置仅存在左侧位置、左下侧位置和下侧位置中的两个位置时，获取两个位置中最大的相似度，确定该指定位置对应的第一动作向量与预设特征向量的相似度与该最大相似度的和，作为该指定位置的相似度。而当指定位置仅存在左侧位置、左下侧位置和下侧位置中的一个位置时，直接确定该指定位置对应的第一动作向量与预设特征向量的相似度与该一个位置的相似度的和，作为该指定位置的相似度。而当指定位置不存在左侧位置、左下侧位置和下侧位置时，直接将该指定位置对应的第一动作向量和预设特征向量之间的相似度作为该指定位置的相似度。

1063、将相似度矩阵中与第M个第一动作向量和第N个预设动作向量对应的位置的相似度确定为第一动作特征信息与预设特征信息之间的相似度。

通过步骤1062获取相似度矩阵中每个位置的相似度后，将第M个第一动作向量和第N个预设动作向量对应的位置的相似度确定为第一动作特征信息与预设特征信息之间的相似度。

例如，计算第一动作特征信息与预设特征信息之间的相似度的代码如下：

本发明实施例构建用于描述目标窗口中包含的动态动作的第一动作矩阵，创建该第一动作矩阵与预设动作矩阵的相似度矩阵，可以根据相似度矩阵确定该第一动作矩阵与预设动作矩阵的相似度，该相似度可以作为对目标窗口的打分，衡量目标窗口中包含的动态动作与预设动态动作的相似程度。利用动态规划的思想，采用自底向上的方式计算相似度，快速地获取到了目标窗口中包含的动态动作与预设动态动作的相似度，且提高了准确性。

107、根据获取到的至少一个相似度，识别多个目标窗口中包含的预设动态动作。

从目标视频中提取到多个目标窗口，则可以获取到该多个目标窗口中每个目标窗口对应的一个相似度，此时，获取多个相似度中最大的第一相似度，当第一相似度大于第一预设阈值时，表示第一目标窗口包含的动态动作与预设动态动作的相似程度较高，可以认为第一相似度对应的第一目标窗口包含的动态动作为预设动态动作。而当第一相似度不大于第一预设阈值时，可以认为多个目标窗口包含的动态动作均不是预设动态动作。

当获取多个相似度中最大的第一相似度时，可以按照从小到大的顺序将多个相似度进行排列，获取最后一个相似度，该最后一个相似度即为多个相似度中最大的第一相似度，或者按照从大到小的顺序将多个相似度进行排列，获取第一个相似度，该第一个相似度即为多个相似度中最大的第一相似度。

例如，当获取的相似度为0.4、0.5、0.6、0.7、0.8且第一预设阈值为0.7时，获取最大的相似度0.8，且该相似度0.8大于第一预设阈值，则确定该相似度0.8对应的第一目标窗口包含的动态动作为预设动态动作。

本发明实施例中，当第一相似度大于第一预设阈值时，获取与第一相似度对应的第一目标窗口相邻的第二目标窗口，确定第二目标窗口对应的第二相似度与第一相似度之间的差值，当差值大于第二预设阈值时，确定第一目标窗口包含的动态动作为预设动态动作。

通过确定第二目标窗口对应的第二相似度与第一相似度之间的差值是否大于第二预设阈值，可以确定第一目标窗口中包含的动态动作与第二目标窗口包含的动态动作之间的差别是否足够大，当第一目标窗口中包含的动态动作与第二目标窗口包含的动态动作差别足够大时，表示第二目标窗口中包含的动态动作与预设动态动作区别较大，即第一目标窗口中包含的动态动作已经结束，可以确定该第一目标窗口中的动态动作为预设动态动作。而当第一目标窗口中包含的动态动作与第二目标窗口包含的动态动作差别不够大时，表示第二目标窗口中包含的动态动作与预设动态动作区别较小，即第一目标窗口中包含的动态动作还未结束，第一目标窗口中包含的动态动作与第二目标窗口中包含的动态动作可能为连续的动作，此时不会确定该第一目标窗口中的动态动作为预设动态动作。

如图6所示，获取多个目标窗口的第一动作特征信息，获取每个目标窗口中的第一动作特征信息与预设动作特征信息之间的相似度，获取的相似度结果为[0.4、0.45、0.6、0.8、0.6、0.45]，确定该0.8是否为局部最大的相似度，且该0.8大于第一预设阈值，且0.8与0.6之间的差值大于第二预设阈值，因此可以确定用户完成了预设动态动作。

需要说明的第一点是，获取到多个目标窗口，且多个目标窗口的相似度中最大的第一相似度大于第一预设阈值时，获取该第一相似度对应的第一目标窗口相邻的第二目标窗口，当该第一目标窗口相邻的第二目标窗口存在一个时，确定该第一目标窗口和第二目标窗口之间的差值，当该差值大于第二预设阈值时，确定第一目标窗口包含的动态动作为预设动态动作。而当该第一目标窗口相邻的第二目标窗口存在两个时，确定该第一目标窗口与该两个第二目标窗口中每个第二目标窗口之间的差值，得到两个差值，当该两个差值均大于第二预设阈值时，确定第一目标窗口包含的动态动作为预设动态动作。

需要说明的第二点是，本发明实施例中仅是以目标视频中仅识别一个对象的动态动作进行说明，在另一实施例中，当目标视频中包括多个对象时，通过关键点检测模型可以确定每个视频帧中的身体关键点，且可以确定每个身体关键点所属的对象，因此可以根据每个对象的身体关键点分别执行步骤104-107，从而可以确定每个对象的动态动作是否为预设动态动作。

需要说明的第三点是，本发明实施例中的动作识别方法仅是以执行主体为电子设备为例进行说明，在另一实施例中，该动作识别方法的执行主体还可以为服务器，电子设备将目标视频发送给服务器，服务器执行步骤101-107，确定目标窗口中包含的动态动作是否为预设动态动作，将执行结果发送给电子设备。

其中，该服务器可以为一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。

本发明实施例提供的动作识别方法，通过从目标视频中提取多个目标窗口，根据每个目标窗口中的视频帧，获取每个目标窗口的第一动作特征信息，第一动作特征信息用于描述目标窗口包含的动态动作，获取每个目标窗口的第一动作特征信息与预设特征信息之间的相似度，预设特征信息用于描述预设动态动作，当获取到的多个相似度中最大的第一相似度大于第一预设阈值，且第一相似度与相邻目标窗口对应的第二相似度之间的差值大于第二预设阈值时，表示第一相似度对应的第一目标窗口中的动态动作与相邻目标窗口中的动态动作差别足够大，不会受到相邻目标窗口中动态动作的影响，因此确定第一目标窗口包含的动态动作为预设动态动作。本发明实施例提供了一种识别预设动态动作的方案，能够以目标视频中的目标窗口为单位，对目标窗口中的视频帧进行动作识别，从而识别目标窗口中包含的预设动态动作，突破了相关技术中只能识别静态动作的限制，扩展了应用范围，提高了灵活性。而且通过计算相邻目标窗口的相似度之间的差值的方式确定相邻目标窗口中动作是否相互影响，避免由于相邻目标窗口之间的影响而造成识别错误的问题，提高了准确率。而且动态动作的识别过程中不会受到动态动作频率的限制，可以识别出任意频率的预设动态动作，提高了识别动态动作的鲁棒性。

相关技术中，如果只有静态的动作图像，则仅能够根据静态的动作图像识别出用户在某一时刻做出的静态动作，但无法识别出用户做出的完整的动态动作。因此采用这种识别方式无法自然地与用户进行人机交互，交互效果非常生硬。而若要识别出用户的动态动作，需要其他传感设备的辅助，也会增加硬件成本，使用不便。而本发明实施例中，可以根据动态的动作视频识别出用户做出的预设动态动作，而不仅是某一时刻的静态动作，因此采用这种识别方式可以自然地与用户进行人机交互，提升了交互效果。而且无需额外增加传感设备，节省了硬件设备，操作非常便捷。

图7是本发明实施例提供的一种动作识别方法的流程图，如图7所示，该方法包括：

701、从目标视频中提取4个目标窗口，每个目标窗口包括连续的多个视频帧。

702、确定目标窗口中每个视频帧的第二动作特征信息：

左手上臂与左肩膀的角度45°、左手下臂与左手上臂的角度25°、相隔5个视频帧的左手关键点的横坐标位移0.4、纵坐标位移0.5，左手关键点到肩膀的距离与肩宽的比值1.5、右手关键点到肩膀的距离与肩宽的比值1.6。则组合得到的第二动作特征信息为[45°，25°][0.4，0.5][1.5，1.6]。

703、将组合得到的第二动作特征信息进行独热编码，得到用于表示该视频帧的动作特征信息[0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，0，0.4，0.5，1.5，1.6]，将每个视频帧的动作特征信息进行组合，得到用于描述目标窗口的第一动作矩阵M＝{[0，1，0，0，0，0，0，0，1，0，0，0，0，0，0，0，0.4，0.5，1.5，1.6][...]...}。

704、确定每个目标窗口的第一动作矩阵和预设特征矩阵的相似度，得到相似度序列[0.4、0.45、0.8、0.6]。

705、第3个目标窗口的相似度最大且大于第一预设阈值，表示第3个目标窗口包含的动态动作为预设动态动作。

本公开实施例还提供了一种人机交互方法，该方法可以包括以下步骤：

1、电子设备通过配置的摄像头拍摄用户的动作视频，作为目标视频。

其中，该电子设备上设置有摄像头，电子设备通过该摄像头拍摄用户的动作视频。

该电子设备中预先设置有预设动态动作，当用户位于电子设备的摄像头的拍摄范围内时，电子设备可以通过摄像头拍摄用户的动作，后续可以确定用户的动作是否为预设动态动作。

例如，电子设备可以显示提示信息，该提示信息可以包括预设动态动作的画面，以及提示用户做出预设动态动作的信息。

2、从目标视频中提取多个目标窗口，多个目标窗口中的每个目标窗口包括第一预设数量的连续视频帧。

3、对每个目标窗口中的视频帧进行动作识别，得到每个目标窗口的第一动作特征信息，第一动作特征信息用于描述目标窗口包含的动态动作。

4、获取每个目标窗口的第一动作特征信息与预设特征信息之间的相似度，预设特征信息用于描述预设动态动作。

5、当获取到的多个相似度中最大的第一相似度大于第一预设阈值，且第一相似度与第二相似度之间的差值大于第二预设阈值时，确定第一相似度对应的第一目标窗口包含的动态动作为预设动态动作，第二相似度为与第一目标窗口相邻的目标窗口对应的相似度。

其中，步骤2-5与上述步骤101-107类似，在此不再赘述。

6、电子设备执行与预设动态动作对应的交互操作。

当确定第一目标窗口包含的动态动作为预设动态动作时，表示用户做出了预设动态动作，此时，电子设备可以执行与该预设动态动作对应的交互操作。

在一种可能实现方式中，电子设备执行与预设动态动作对应的交互操作，包括以下至少一项：

601、电子设备确定用户的动作通过验证，显示验证通过的预设动态效果。

例如，电子设备为体感游戏机，体感游戏机获取用户所做的动作视频，当用户的动作与预设动态动作匹配时，确定用户的动作通过验证，体感游戏机显示动作完成的预设动态效果，从而指示用户做对了预设动态动作。该预设动态效果可以为撒花效果、显示的预设动态动作逐渐消失等显示效果。

602、电子设备为用户分配预设动态动作对应的虚拟奖励数据。

电子设备基于用户标识进行登录，用户标识用于确定唯一的用户，可以为用户账号、电话号码等。且电子设备还会为用户标识管理账户，账户中可以存储为用户分配的各种数据。

因此，当电子设备确定第一目标窗口包含的动态动作为预设动态动作时，表示用户做出了预设动态动作，此时可以为用户分配预设动态动作对应的虚拟奖励数据，也即是向用户标识的账户中添加虚拟奖励数据。

其中，不同的预设动态动作对应的虚拟奖励数据可以相同，也可以不同。该虚拟奖励数据可以包括虚拟礼物、虚拟货币、虚拟分数等。

例如，电子设备为体感游戏机，体感游戏机获取用户所做的动作视频，当确定用户的动作与预设动态动作匹配时，为用户增加奖励分数，随着用户做对的动态动作越来越多，得到的奖励分数也越来越多。

603、电子设备为用户分配预设动态动作对应的操作权限。

电子设备基于用户标识进行登录，用户标识用于确定唯一的用户，可以为用户账号、电话号码等。且电子设备还会为用户标识设置操作权限，只有为用户标识分配了操作权限，才会允许用户执行相应的操作。

因此，当电子设备确定第一目标窗口包含的动态动作为预设动态动作时，表示用户做出了预设动态动作，此时可以为用户分配预设动态动作对应的操作权限。

例如，电子设备为门禁设备，门禁设备获取用户所做的动作视频，当确定用户的动作与预设动态动作相同时，确定用户的动作通过验证，则门禁设备开启，允许用户进入。

例如，电子设备为体感游戏机，体感游戏机获取用户所做的动作视频，当确定用户的动作与预设动态动作相同时，确定用户的动作通过验证，则游戏过关，进入下一关游戏。

本发明实施例提供的人机交互方法，能够识别用户做出的动态动作，根据用户做出的动态动作执行相应的交互操作，与用户进行交互，提供了一种新型准确的交互方式。

图8是本发明实施例提供的一种动作识别装置的结构示意图。如图8所示，该装置包括：

提取模块801，用于从目标视频中提取多个目标窗口，多个目标窗口中的每个目标窗口包括第一预设数量的连续视频帧；

动作识别模块802，用于对每个目标窗口中的视频帧进行动作识别，得到每个目标窗口的第一动作特征信息，第一动作特征信息用于描述目标窗口包含的动态动作；

相似度获取模块803，用于获取每个目标窗口的第一动作特征信息与预设特征信息之间的相似度，预设特征信息用于描述预设动态动作；

确定模块804，用于当获取到的多个相似度中最大的第一相似度大于第一预设阈值，且第一相似度与第二相似度之间的差值大于第二预设阈值时，确定第一相似度对应的第一目标窗口包含的动态动作为预设动态动作，第二相似度为与第一目标窗口相邻的目标窗口对应的相似度。

本发明实施例提供了一种识别预设动态动作的方案，能够以目标视频中的目标窗口为单位，对目标窗口中的视频帧进行动作识别，从而识别目标窗口中包含的预设动态动作，突破了相关技术中只能识别静态动作的限制，扩展了应用范围，提高了灵活性。而且通过计算相邻目标窗口的相似度之间的差值的方式确定相邻目标窗口中动作是否相互影响，避免由于相邻目标窗口之间的影响而造成识别错误的问题，提高了准确率。

在一种可能实现方式中，如图9所示，提取模块801，包括：

获取单元8011，用于从目标视频中提取多个视频帧；

划分单元8012，用于以第一预设数量作为每个目标窗口中的视频帧数量，以第二预设数量作为任两个相邻的目标窗口包含的相同视频帧的数量，对多个视频帧进行划分，得到多个目标窗口。

在另一种可能实现方式中，如图9所示，动作识别模块802，包括：

提取单元8021，用于对于每个目标窗口中的每个视频帧，提取视频帧中的多个身体关键点；

动作识别单元8022，用于根据多个身体关键点的分布情况，对视频帧进行动作识别，得到视频帧的第二动作特征信息，第二动作特征信息用于描述视频帧包含的静态动作；

组合单元8023，用于分别将每个目标窗口中的视频帧的第二动作特征信息进行组合，得到每个目标窗口的第一动作特征信息。

预设动态动作由至少两个预设身体部位做出；动作识别单元8022，还用于执行以下至少一项：

根据多个身体关键点在视频帧中的坐标以及多个身体关键点所属的身体部位，确定视频帧中任两个预设身体部位之间的角度，作为第二动作特征信息；

获取多个身体关键点中至少一个身体关键点与参考视频帧中对应的身体关键点之间的位移量，作为第二动作特征信息，参考视频帧在视频帧之前，且与视频帧相隔第三预设数量的视频帧；

获取任两个预设身体部位中的参考身体部位的尺寸，以及任两个预设身体部位之间的距离，将该距离与参考身体部位的尺寸之间的比例作为第二动作特征信息。

在另一种可能实现方式中，第一动作特征信息为包括M个第一动作向量的第一动作矩阵，预设特征信息为包括N个预设动作向量的预设动作矩阵，M和N为正整数，相似度获取模块803，包括：

创建单元8033，用于创建相似度矩阵，相似度矩阵的行数为M、列数为N，或者行数为N、列数为M；

相似度获取单元8034，用于对于与第i个第一动作向量和第j个预设动作向量对应的指定位置，获取第一位置、第二位置和第三位置的相似度中的最大相似度与第i个第一动作向量与第j个预设动作向量之间的相似度的和，作为指定位置的相似度，第一位置为与第i-1个第一动作向量和第j个预设动作向量对应的位置，第二位置为与第i-1个第一动作向量和第j-1个预设动作向量对应的位置，第三位置为与第i个第一动作向量和第j-1个预设动作向量对应的位置，i为不小于1且不大于M的正整数，j为不小于1且不大于N的正整数；

相似度获取单元8034，还用于将相似度矩阵中与第M个第一动作向量和第N个预设动作向量对应的位置的相似度确定为第一动作特征信息与预设特征信息之间的相似度。

需要说明的是：上述实施例提供的动作识别装置在识别动作时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将电子设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的动作识别装置的实施例与动作识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图10是本发明实施例提供的一种人机交互装置的结构示意图。如图10所示，该装置包括：

拍摄模块1001，用于通过配置的摄像头拍摄用户的动作视频，作为目标视频；

提取模块1002，用于从目标视频中提取多个目标窗口，多个目标窗口中的每个目标窗口包括第一预设数量的连续视频帧；

动作识别模块1003，用于对每个目标窗口中的视频帧进行动作识别，得到每个目标窗口的第一动作特征信息，第一动作特征信息用于描述目标窗口包含的动态动作；

相似度获取模块1004，用于获取每个目标窗口的第一动作特征信息与预设特征信息之间的相似度，预设特征信息用于描述预设动态动作；

确定模块1005，用于当获取到的多个相似度中最大的第一相似度大于第一预设阈值，且第一相似度与第二相似度之间的差值大于第二预设阈值时，确定第一相似度对应的第一目标窗口包含的动态动作为预设动态动作，第二相似度为与第一目标窗口相邻的目标窗口对应的相似度；

执行模块1006，用于执行与预设动态动作对应的交互操作。

本发明实施例提供的人机交互装置，能够识别用户做出的动态动作，根据用户做出的动态动作执行相应的交互操作，与用户进行交互，提供了一种新型准确的交互方式。

在一种可能实现方式中，执行模块，用于执行以下至少一项：

确定用户的动作通过验证，显示验证通过的预设动态效果；

为用户分配预设动态动作对应的虚拟奖励数据；

为用户分配预设动态动作对应的操作权限。

需要说明的是：上述实施例提供的人机交互装置在进行人机交互时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将电子设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的人机交互装置的实施例与人机交互方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图11是本发明实施例提供的一种电子设备的结构示意图。该电子设备1100可以是：体感游戏机、门禁设备、智能手机、平板电脑、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑、台式电脑、头戴式设备，或其他任意智能电子设备。电子设备1100还可能被称为用户设备、便携式电子设备、膝上型电子设备、台式电子设备等其他名称。

通常，电子设备1100包括有：处理器1101和存储器1102。

处理器1101可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1101可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1101可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1101还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1102可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1101所具有以实现本申请中方法实施例提供的动作识别方法。

在一些实施例中，电子设备1100还可选包括有：外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1103相连。具体地，外围设备包括：射频电路1104、触摸显示屏1105、摄像头1106、音频电路1107和电源1109中的至少一种。

外围设备接口1103可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1101和存储器1102。在一些实施例中，处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上；在一些其他实施例中，处理器1101、存储器1102和外围设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1104用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1104包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1104可以通过至少一种无线通信协议来与其它电子设备进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及8G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1104还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1105用于显示UI(UserInterface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是触摸显示屏时，显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时，显示屏1105还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1105可以为一个，设置电子设备1100的前面板；在另一些实施例中，显示屏1105可以为至少两个，分别设置在电子设备1100的不同表面或呈折叠设计；在再一些实施例中，显示屏1105可以是柔性显示屏，设置在电子设备1100的弯曲表面上或折叠面上。甚至，显示屏1105还可以设置成非矩形的不规则图形，也即异形屏。显示屏1105可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1106用于采集图像或视频。可选地，摄像头组件1106包括前置摄像头和后置摄像头。通常，前置摄像头设置在电子设备的前面板，后置摄像头设置在电子设备的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1106还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1101进行处理，或者输入至射频电路1104以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备1100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1101或射频电路1104的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1107还可以包括耳机插孔。

电源1109用于为电子设备1100中的各个组件进行供电。电源1109可以是交流电、直流电、一次性电池或可充电电池。当电源1109包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备1100还包括有一个或多个传感器1110。该一个或多个传感器1110包括但不限于：加速度传感器1111、陀螺仪传感器1112、压力传感器1113、光学传感器1115以及接近传感器1116。

加速度传感器1111可以检测以电子设备1100建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1111可以用于检测重力加速度在三个坐标轴上的分量。处理器1101可以根据加速度传感器1111采集的重力加速度信号，控制触摸显示屏1105以横向视图或纵向视图进行用户界面的显示。加速度传感器1111还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1112可以检测电子设备1100的机体方向及转动角度，陀螺仪传感器1112可以与加速度传感器1111协同采集用户对电子设备1100的3D动作。处理器1101根据陀螺仪传感器1112采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1113可以设置在电子设备1100的侧边框和/或触摸显示屏1105的下层。当压力传感器1113设置在电子设备1100的侧边框时，可以检测用户对电子设备1100的握持信号，由处理器1101根据压力传感器1113采集的握持信号进行左右手识别或快捷操作。当压力传感器1113设置在触摸显示屏1105的下层时，由处理器1101根据用户对触摸显示屏1105的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器1115用于采集环境光强度。在一个实施例中，处理器1101可以根据光学传感器1115采集的环境光强度，控制触摸显示屏1105的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1105的显示亮度；当环境光强度较低时，调低触摸显示屏1105的显示亮度。在另一个实施例中，处理器1101还可以根据光学传感器1115采集的环境光强度，动态调整摄像头组件1106的拍摄参数。

接近传感器1116，也称距离传感器，通常设置在电子设备1100的前面板。接近传感器1116用于采集用户与电子设备1100的正面之间的距离。在一个实施例中，当接近传感器1116检测到用户与电子设备1100的正面之间的距离逐渐变小时，由处理器1101控制触摸显示屏1105从亮屏状态切换为息屏状态；当接近传感器1116检测到用户与电子设备1100的正面之间的距离逐渐变大时，由处理器1101控制触摸显示屏1105从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图11中示出的结构并不构成对电子设备1100的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图12是本发明实施例提供的一种服务器的结构示意图，该服务器1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)1201和一个或一个以上的存储器1202，其中，所述存储器1202中存储有至少一条指令，所述至少一条指令由所述处理器1201加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

服务器1200可以用于执行上述动作识别方法中或上述人机交互方法中电子设备所执行的步骤。

本发明实施例还提供了一种动作识别装置，该装置包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，指令、程序、代码集或指令集由处理器加载并具有以实现上述实施例的动作识别方法中所具有的操作或上述实施例的人机交互方法中所具有的操作。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该指令、该程序、该代码集或该指令集由处理器加载并具有以实现上述实施例的动作识别方法中所具有的操作或上述实施例的人机交互方法中所具有的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种动作识别方法，其特征在于，所述方法包括：

所述第一动作特征信息为包括M个第一动作向量的第一动作矩阵，预设特征信息为包括N个预设动作向量的预设动作矩阵，M和N为正整数，

将所述相似度矩阵中与第M个第一动作向量和第N个预设动作向量对应的位置的相似度确定为所述第一动作特征信息与所述预设特征信息之间的相似度，所述预设特征信息用于描述预设动态动作；

2.根据权利要求1所述的方法，其特征在于，所述从目标视频中提取多个目标窗口，包括：

从所述目标视频中提取多个视频帧；

3.根据权利要求1所述的方法，其特征在于，所述对所述每个目标窗口中的视频帧进行动作识别，得到所述每个目标窗口的第一动作特征信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述预设动态动作由至少两个预设身体部位做出；所述根据所述多个身体关键点的分布情况，对所述视频帧进行动作识别，得到所述视频帧的第二动作特征信息，包括以下至少一项：

获取任两个预设身体部位中的参考身体部位的尺寸，以及所述任两个预设身体部位之间的距离，将所述距离与所述参考身体部位的尺寸之间的比例作为所述第二动作特征信息。

5.根据权利要求1所述的方法，其特征在于，所述从目标视频中提取多个目标窗口，所述多个目标窗口中的每个目标窗口包括第一预设数量的连续视频帧之前，所述方法包括：

通过配置的摄像头拍摄用户的动作视频，作为所述目标视频；

所述当获取到的多个相似度中最大的第一相似度大于第一预设阈值，且所述第一相似度与第二相似度之间的差值大于第二预设阈值时，确定所述第一相似度对应的第一目标窗口包含的动态动作为所述预设动态动作之后，所述方法还包括：

执行与所述预设动态动作对应的交互操作。

6.根据权利要求5所述的方法，其特征在于，所述执行与所述预设动态动作对应的交互操作，包括以下至少一项：

为所述用户分配所述预设动态动作对应的虚拟奖励数据；

为所述用户分配所述预设动态动作对应的操作权限。

7.一种动作识别装置，其特征在于，所述装置包括：

所述第一动作特征信息为包括M个第一动作向量的第一动作矩阵，所述预设特征信息为包括N个预设动作向量的预设动作矩阵，M和N为正整数，所述相似度获取模块，包括：

8.根据权利要求7所述的装置，其特征在于，所述提取模块，包括：

获取单元，用于从所述目标视频中提取多个视频帧；

9.根据权利要求7所述的装置，其特征在于，所述动作识别模块，包括：

10.根据权利要求9所述的装置，其特征在于，所述预设动态动作由至少两个预设身体部位做出；所述动作识别单元还用于执行以下至少一项：

11.根据权利要求7所述的装置，其特征在于，所述装置包括：

拍摄模块，用于通过配置的摄像头拍摄用户的动作视频，作为所述目标视频；

执行模块，用于执行与所述预设动态动作对应的交互操作。

12.一种动作识别装置，其特征在于，所述装置包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至6任一权利要求所述的动作识别方法中所执行的操作。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至6任一权利要求所述的动作识别方法中所执行的操作。