CN113569753A

CN113569753A - 视频中的动作比对方法、装置、存储介质与电子设备

Info

Publication number: CN113569753A
Application number: CN202110866841.0A
Authority: CN
Inventors: 车宏伟
Original assignee: Hangzhou Douku Software Technology Co Ltd
Current assignee: Hangzhou Douku Software Technology Co Ltd
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2021-10-29

Abstract

本公开提供一种视频中的动作比对方法、视频中的动作比对装置、计算机可读存储介质与电子设备，涉及计算机技术领域。所述视频中的动作比对方法包括：获取目标视频；根据所述目标视频中人体预设关键点的位置统计结果确定所述目标视频中的关键帧；检测所述关键帧中多个人体预设部位的状态信息，并根据所述关键帧中多个人体预设部位的状态信息的组合确定所述关键帧的动作信息；将所述关键帧的动作信息与指导视频中的参考帧的动作信息进行比对，得到比对结果。本公开能够准确有效的将目标视频与指导视频中的人体动作进行比对。

Description

视频中的动作比对方法、装置、存储介质与电子设备

技术领域

本公开涉及计算机技术领域，尤其涉及一种视频中的动作比对方法、视频中的动作比对装置、计算机可读存储介质与电子设备。

背景技术

随着社会的发展，人们越来越多的参与到运动中以提高身体素质，在健身、舞蹈或体能测试等场景中，常常需要对人体动作是否标准进行判定或指导，以确保用户的有效运动。

现有技术中常常采用现场教学或视频指导的方式，来为用户进行姿态动作的指导。其中，视频指导的方式，通常是将用户进行动作的视频与教练视频或标准动作视频进行比对，以对用户进行姿态指导。但是，由于不同的人在进行动作时，执行动作的程度或执行动作的快慢均有所差异，现有的视频中的动作比对的方法难以针对每个用户的实际动作进行准确的动作指导，满足不同用户的实际情况和需求。

因此，如何对视频中的动作进行有效、准确的比对，以在视频指导等应用场景中对用户的姿态动作进行针对性的指导，是现有技术亟待解决的问题。

发明内容

本公开提供了一种视频中的动作比对方法、视频中的动作比对装置、计算机可读存储介质与电子设备，进而至少在一定程度上改善现有技术中视频中的动作比对方法不准确的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供一种视频中的动作比对方法，包括：获取目标视频；根据所述目标视频中人体预设关键点的位置统计结果确定所述目标视频中的关键帧；检测所述关键帧中多个人体预设部位的状态信息，并根据所述关键帧中多个人体预设部位的状态信息的组合确定所述关键帧的动作信息；将所述关键帧的动作信息与指导视频中的参考帧的动作信息进行比对，得到比对结果。

根据本公开的第二方面，提供一种视频中的动作比对装置，包括：目标视频获取模块，用于获取目标视频；关键帧确定模块，用于根据所述目标视频中人体预设关键点的位置统计结果确定所述目标视频中的关键帧；动作信息确定模块，用于检测所述关键帧中多个人体预设部位的状态信息，并根据所述关键帧中多个人体预设部位的状态信息的组合确定所述关键帧的动作信息；动作信息比对模块，用于将所述关键帧的动作信息与指导视频中的参考帧的动作信息进行比对，得到比对结果。

根据本公开的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面的视频中的动作比对方法及其可能的实现方式。

根据本公开的第四方面，提供一种电子设备，包括：处理器；存储器，用于存储所述处理器的可执行指令。其中，所述处理器配置为经由执行所述可执行指令，来执行上述第一方面的视频中的动作比对方法及其可能的实现方式。

本公开的技术方案具有以下有益效果：

获取目标视频；根据目标视频中人体预设关键点的位置统计结果确定目标视频中的关键帧；检测关键帧中多个人体预设部位的状态信息，并根据关键帧中多个人体预设部位的状态信息的组合确定关键帧的动作信息；将关键帧的动作信息与指导视频中的参考帧的动作信息进行比对，得到比对结果。一方面，本示例性实施例提出了一种新的视频中的动作比对方法，将关键帧中不同人体预设部位的状态信息进行组合作为关键帧的动作信息，与参考帧的动作信息进行比对，兼顾了人体执行动作时的整体状态和局部状态，能够提高图像帧之间动作信息比对的准确性和针对性；另一方面，本示例性实施例能够结合人体执行动作时关键点的运动特点，基于人体预设关键点的位置统计结果确定目标视频中的关键帧，相比于随机提取关键帧或将全部视频帧作为关键帧进行图像帧之间的比对，提高了确定出关键帧的有效性，节省计算量的同时，进一步保证了动作比对的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本示例性实施方式中一种系统架构的示意图；

图2示出本示例性实施方式中一种电子设备的结构图；

图3示出本示例性实施方式中一种视频中的动作比对方法的流程图；

图4示出本示例性实施方式中一种人体关键点的示意图；

图5示出本示例性实施方式中一种视频中的动作比对方法的子流程图；

图6示出本示例性实施方式中另一种视频中的动作比对方法的流程图；

图7示出本示例性实施方式中一种视频中的动作比对装置的结构图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

鉴于上述一个或多个问题，本公开的示例性实施方式提供一种视频中的动作比对方法。图1示出了本示例性实施方式运行环境的系统架构图。如图1所示，该系统架构100可以包括终端设备110和服务端120，两者之间通过网络形成通信交互。其中，终端设备110可以是采集或获取包括用户动作信息的目标视频的电子设备，包括但不限于智能手机、平板电脑、游戏机、可穿戴设备或者智能健身镜等，服务端120是指提供互联网服务的后台服务器。

应当理解，图1中各装置的数量仅是示例性的。根据实现需要，可以设置任意数量的终端设备，或者服务端可以是多台服务器形成的集群。

本公开实施方式所提供的视频中的动作比对方法可以由终端设备110执行，例如终端设备110拍摄关于用户运动的目标视频后，直接对其进行处理，将关键帧的动作信息与指导视频中的参考帧的动作信息进行比对，得到比对结果；也可以由服务端120执行，例如终端设备110拍摄关于用户运动的目标视频后，上传到服务端120，使服务端120将目标视频中的关键帧的动作信息与指导视频中的参考帧的动作信息进行比对，得到比对结果，本公开对此不做限定。

本公开的示例性实施方式提供一种用于实现视频中的动作比对方法的电子设备，其可以是图1中的终端设备110或服务端120。该电子设备至少包括处理器和存储器，存储器用于存储处理器的可执行指令，处理器配置为经由执行可执行指令来执行视频中的动作比对方法。

下面以图2中的移动终端200为例，对上述电子设备的构造进行示例性说明。本领域技术人员应当理解，除了特别用于移动目的的部件之外，图2中的构造也能够应用于固定类型的设备。

如图2所示，移动终端200具体可以包括：处理器210、内部存储器221、外部存储器接口222、USB(Universal Serial Bus，通用串行总线)接口230、充电管理模块240、电源管理模块241、电池242、天线1、天线2、移动通信模块250、无线通信模块260、音频模块270、扬声器271、受话器272、麦克风273、耳机接口274、传感器模块280、显示屏幕290、摄像模组291、指示器292、马达293、按键294以及SIM(Subscriber Identification Module，用户标识模块)卡接口295等。

处理器210可以包括一个或多个处理单元，例如：处理器210可以包括AP(Application Processor，应用处理器)、调制解调处理器、GPU(Graphics ProcessingUnit，图形处理器)、ISP(Image Signal Processor，图像信号处理器)、控制器、编码器、解码器、DSP(Digital Signal Processor，数字信号处理器)、基带处理器和/或NPU(Neural-Network Processing Unit，神经网络处理器)等。编码器可以对图像或视频数据进行编码(即压缩)；解码器可以对图像或视频的码流数据进行解码(即解压缩)，以还原出图像或视频数据。

在一些实施方式中，处理器210可以包括一个或多个接口，通过不同的接口和移动终端200的其他部件形成连接。

内部存储器221可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器221可以包括易失性存储器、非易失性存储器等。处理器210通过运行存储在内部存储器221的指令和/或存储在设置于处理器中的存储器的指令，执行移动终端200的各种功能应用以及数据处理。

外部存储器接口222可以用于连接外部存储器，例如Micro SD卡，实现扩展移动终端200的存储能力。外部存储器通过外部存储器接口222与处理器210通信，实现数据存储功能，例如存储音乐，视频等文件。

USB接口230是符合USB标准规范的接口，可以用于连接充电器为移动终端200充电，也可以连接耳机或其他电子设备。

充电管理模块240用于从充电器接收充电输入。充电管理模块240为电池242充电的同时，还可以通过电源管理模块241为设备供电；电源管理模块241还可以监测电池的状态。

移动终端200的无线通信功能可以通过天线1、天线2、移动通信模块250、无线通信模块260、调制解调处理器以及基带处理器等实现。天线1和天线2用于发射和接收电磁波信号。移动通信模块250可以提供应用在移动终端200上的包括2G/3G/4G/5G等无线通信的解决方案。无线通信模块260可以提供应用在移动终端200上的包括WLAN(Wireless LocalArea Networks，无线局域网)(如Wi-Fi(Wireless Fidelity，无线保真)网络)、BT(Bluetooth，蓝牙)、GNSS(Global Navigation Satellite System，全球导航卫星系统)、FM(Frequency Modulation，调频)、NFC(Near Field Communication，近距离无线通信技术)、IR(Infrared，红外技术)等无线通信解决方案。

移动终端200可以通过GPU、显示屏幕290及AP等实现显示功能，显示用户界面。移动终端200可以通过ISP、摄像模组291、编码器、解码器、GPU、显示屏幕290及AP等实现拍摄功能，还可以通过音频模块270、扬声器271、受话器272、麦克风273、耳机接口274及AP等实现音频功能。

传感器模块280可以包括深度传感器2801、压力传感器2802、陀螺仪传感器2803、气压传感器2804等，以实现不同的感应检测功能。

指示器292可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。马达293可以产生振动提示，也可以用于触摸振动反馈等。按键294包括开机键，音量键等。

移动终端200可以支持一个或多个SIM卡接口295，用于连接SIM卡，以实现通话以及数据通信等功能。

图3示出了视频中的动作比对方法的示例性流程，可以由上述终端设备110或服务端120执行，包括以下步骤S310至S340：

步骤S310，获取目标视频。

目标视频是指需要进行动作比对的待比对视频，其中包括用户进行肢体运动的内容，例如用户的健身视频、舞蹈视频或者体能测试视频等。在本示例性实施例中，目标视频可以通过多种方式获取，例如通过终端设备，如智能健身镜，配置的摄像头实时采集用户的动作视频获取；或者从网络或云端下载关于用户运动的视频获取等等，本公开对此不做具体限定。

步骤S320，根据目标视频中人体预设关键点的位置统计结果确定目标视频中的关键帧。

其中，关键帧是指目标视频中用户在执行某些特定动作下的图像帧，也是重点需要进行动作信息比对的图像帧。本示例性实施例可以通过特定算法对目标视频中人体的关键点进行检测，并通过其中某些预设关键点的位置统计结果来确定目标视频中的关键帧。其中，关键点可以是能够反映用户人体特征、结构或位置的骨骼关键点，例如肩膀、肘部、胯部、膝盖、脚踝等部位所在的关键点，关键点的类型和数量可以根据实际需要进行自定义设置，例如可以在人体的骨骼关键点中确定16、18或20个等关键点，或者仅使用某些部位类型下的关键点，进行动作比对的分析处理过程等。

在本示例性实施例中，可以先对目标视频中的图像帧进行感兴趣对象的检测，例如人体对象的检测，具体可以采用单次检测算法，例如SSD(Single Shot MultiBoxDetector，单次目标检测)算法，对每张图像帧进行边框选择、边框归一化、特征提取、边框回归、分类器分类以及数据后处理等，得到包括人体的边框区域，其中，特征提取部分可以使用训练好的卷积神经网络进行卷积计算得到。

然后，可以通过预先训练的关键点识别网络模型对边框区域进行识别，以确定其中人体的多个关键点。本示例性实施例可以采用人体姿态估计算法，如simple baseline的方法，在该算法的基础上采集相关场景样本，标注并训练关键点识别网络模型，具体处理过程可以包括关键点识别网络模型的训练和对边框区域的特征提取、关键点回归、关键点分类、数据后处理以及得到关键点识别结果等。本示例性实施例可以设置对人体的17个关键点进行检测和识别，具体可以包括表1中的0～16关键点：

表1

对应的，得到的人体关键点的示意图，如图4所示。

预设关键点，可以是所有关键点中，任意选定的某些关键点；或者根据当前进行动作信息的比对需求确定特定关键点；再或者根据用户的实际运动情况确定的某些关键点等，例如预设关键点可以是与手部相关的关键点12、13、15、16，或者与胯部相关的关键点4、1，再或者与腿部相关的关键点2、3、5、6等。位置统计结果可以是指上述预设关键点的位置信息的统计结果，例如预设关键点的坐标信息；或者与其他预设关键点的关系信息，例如两个预设关键点位置之间的距离信息等等。本示例性实施例可以根据人体预设关键点的位置统计结果从目标视频帧中确定出关键帧，比如，可以根据手部相关的关键点的位置统计结果，确定与手部相关的关键帧；或者根据胯部相关的关键点的位置统计结果，确定与胯部相关的关键帧；再或者根据腿部相关的关键点的位置统计结果，确定与腿部相关的关键帧等等。根据确定出的关键帧的时间戳，还可以对关键帧进行时间排序，以生成关键帧序列。

步骤S330，检测关键帧中多个人体预设部位的状态信息，并根据关键帧中多个人体预设部位的状态信息的组合确定关键帧的动作信息。

其中，人体部位是指能够组成人体结构的多种部位，例如可以包括手部、腿部、臀部、胯部或头部等。人体预设部位可以是上述多种部位中的任意一种部位，其可以根据用户实际的运动状态确定，例如用户进行深蹲行为时，人体预设部位可以包括臀部、腿部和手部等，由于深蹲时常不涉及头部运动，因此可以不考虑头部。人体预设部位的状态信息是指能够反映人体运动姿势或运动状态的信息，例如弯曲、伸展、打开、方向向右或向左等等。不同的运动行为下人体预设部位具有不同的状态信息，例如深蹲动作时，手臂通常是弯曲的，腿部也是弯曲动作；而侧滑步时，手臂不弯曲，且腿部也不弯曲，其中弯曲或不弯曲的状态均可以作为对应人体预设部位的状态信息。

关键帧中通常会包含人体的多个预设部位，根据多个人体预设部位的状态信息的组合，可以确定关键帧的动作信息，例如关键帧包括深蹲动作时，人体预设部位可以包括手部和腿部，手部的状态信息可以包括手部的方向或弯曲情况，腿部的状态信息可以包括腿部的弯曲情况，因此，手部和腿部的状态信息的组合可以确定该关键帧的动作信息。需要说明的是，上述关键帧为深蹲动作的图像帧仅为示意性说明，实际应用中，对关键帧中的动作不做限定，本示例性实施例只考虑关键帧中出现的人体预设部位的状态信息组合即可。

为了便于进行动作信息的比对计算与处理，上述动作信息可以以向量或矩阵等形式表示，例如关键帧中的人体预设部位包括手部、腿部，其中，手部包括多个维度的数据，如可以包括状态、位置和方向3个维度的数据，腿部同理，也可以包括多个维度的数据，则关键帧的动作信息可以通过包含手部和腿部等多个维度数据的向量表示，同理，参考帧的动作信息也可以通过向量形式表示。

步骤S340，将关键帧的动作信息与指导视频中的参考帧的动作信息进行比对，得到比对结果。

其中，指导视频是指相对于目标视频而言的标准视频，例如教练动作视频，或老师动作视频等。参考帧可以是指指导视频中标准动作的图像帧，用于与关键帧进行比对，确定用户动作是否准确。本示例性实施例可以预先对指导视频中的动作类别、动作执行个数、动作开始时间和结束时间等信息进行人为标注，以结合标注的信息，确定指导视频中的动作信息。具体确定参考帧的动作信息，可以采用与确定目标视频的关键帧的动作信息类似的方式，检测指导视频中人体关键点，并根据人体关键点确定参考帧，进一步根据参考帧中不同人体预设部位的状态信息的组合，来确定参考帧的动作信息。

最后，通过计算关键帧的动作信息与参考帧的动作信息的相似度，来确定其是否匹配，进而为用户提供动作指导或提醒。考虑到实际应用中，通常需要进行关键帧序列与参考帧序列的动作信息的比对，为了提高图像帧之间匹配的准确性，在本示例性实施例可以在计算每一帧关键帧的比对结果时，先从参考帧序列中找到与当前关键帧最相似的一帧参考帧，然后进行关键帧动作信息和参考帧动作信息的比对计算。进一步，可以根据比对结果，为用户提供提醒服务或指导，例如“当前动作不准确”，或“请继续执行动作”等提醒服务；以及“将手臂再抬高一点”或者“再下蹲一点”等等，具体可以根据实际动作需求设置。

综上，本示例性实施方式中，获取目标视频；根据目标视频中人体预设关键点的位置统计结果确定目标视频中的关键帧；检测关键帧中多个人体预设部位的状态信息，并根据关键帧中多个人体预设部位的状态信息的组合确定关键帧的动作信息；将关键帧的动作信息与指导视频中的参考帧的动作信息进行比对，得到比对结果。一方面，本示例性实施例提出了一种新的视频中的动作比对方法，将关键帧中不同人体预设部位的状态信息进行组合作为关键帧的动作信息，与参考帧的动作信息进行比对，兼顾了人体执行动作时的整体状态和局部状态，能够提高图像帧之间动作信息比对的准确性和针对性；另一方面，本示例性实施例能够结合人体执行动作时关键点的运动特点，基于人体预设关键点的位置统计结果确定目标视频中的关键帧，相比于随机提取关键帧或将全部视频帧作为关键帧进行图像帧之间的比对，提高了确定出关键帧的有效性，节省计算量的同时，进一步保证了动作比对的准确性。

在本示例性实施例中，可以在目标视频中用户动作开始至动作结束的过程中，确定多帧关键帧，其中，动作开始与动作结束的判断可以根据用户的动作信息进行判断，以动作信息为标准状态发生变化时，作为动作开始状态，以动作信息为恢复为标准状态时，作为动作结束状态。其中标准状态可以是标准站立状态、标准正坐状态或者平躺状态等，根据不同的运动类型与运动内容，判断动作开始或结束的标准状态可以不同，本公开对此不做具体限定。

本示例性实施例可以通过多种方式确定目标视频中的关键帧，具体的，在一示例性实施例中，上述步骤S320可以包括：

统计目标视频中人体预设关键点的坐标值的最值；

根据人体预设关键点的坐标值的最值确定目标视频中的关键帧。

其中，坐标值的最值是指人体预设关键点在x轴(水平方向)上的最大值或最小值，以及在y轴(竖直方向)上的最大值或最小值，通常情况下，用户所执行的动作，往往是骨骼点能达到的最大值或最小值，例如深蹲运动时，用户下蹲到一定程度就会起立，则胯部骨骼点的运动就是从基准位置点向y轴向下方向移动至最大值，也可以认为是y轴上的最小值。因此，本示例性实施例可以统计目标视频中人体预设关键点的坐标值的最值，并在人体预设关键点的最值下确定对应的关键帧，以胯部关键点1和关键点4进行举例说明，可以确定关键点1在x轴和y轴的坐标值的最值对应的4帧图像帧，以及关键点4在x轴和y轴的坐标值的最值对应的4帧图像帧，总共8帧图像作为与胯部相关的关键帧。

另外，也可以采用其他方式确定目标视频中的关键帧，在一示例性实施例中，上述步骤S320可以包括：

根据目标视频中人体预设关键点的位置，统计目标视频中预设点对的距离的最值，预设点对包括两个人体预设关键点，预设点对的距离为两个人体预设关键点之间的距离；

根据预设点对的距离的最值确定目标视频中的关键帧。

其中，预设点对的距离是指两个相关或对称的人体预设关键点之间的距离，例如图4所示的关键点中，胯部的关键点1和关键点4可以作为预设点对，手腕的关键点13和关键点16可以作为预设点对，腿部的关键点3和关键点5可以作为预设点对等。通过固定预设点对距离的最值，也可以确定目标视频中的关键帧，以关键点13和关键点16关键点对为例，可以将关键点13与关键点16之间距离最大值和最小值的两帧图像帧作为关键帧。

在本示例性实施例中，也可以结合上述两种方式确定关键帧，举例说明，可以从手部、胯部和腿部三个部位考虑，获取44帧图像，其中手部关键帧可以包括，以关键点13和关键点16构成的预设点对，在预设点对的距离的最值下取得的2帧，以及关键点12、13、15、16的坐标值的最值下取得的16帧；胯部关键帧可以包括，关键点1和关键点4的坐标值的最值下取得的8帧；腿部关键帧可以包括，以关键点3和关键点6构成的预设点对，在预设点对的距离的最值下取得的2帧，以及关键点2、3、5、6的坐标值的最值下取得的16帧。

另外，本示例性实施例还可以根据实际需要增加或减少关键帧的数量等等。考虑到用户在目标视频中，相同或相似的关键帧可能不少于一张，因此，为了挑选出有效关键帧，在一示例性实施例中，在确定目标视频中的关键帧之后，上述视频中的动作比对方法还可以包括：

确定任意两关键帧之间的相似度，并根据相似度从关键帧中去除重复帧。

本示例性实施例可以通过在确定的关键帧中，计算每两帧关键帧的动作信息的相似度，来确定其是否冗余，进而对无效图像帧进行剔除，以减少计算量。具体的，相似度计算可以通过多种方式，例如欧式距离或者余弦相似度等等。如果计算两帧关键帧的相似度高于一预设阈值时，则可以判断这两帧关键帧相似度较高，可以任意剔除其中一帧关键帧，如果相似度不高于预设阈值，则可以两帧都保留，进而确定待比对的全部关键帧。

在本示例性实施例中，可以以关键点为参考点来对人体结构进行表征，并基于关键点反映的肢体结构确定人体的动作信息。每个人体预设部位可以包括左侧的一段或多端肢体与右侧的一段或多段肢体，例如以手部关键点11、12、13为参考点，关键点11-12之间可以表示人体右侧肘关节以上手臂的肢体部分，关键点12-13可以表示人体右侧肘关节以下手臂的肢体部分，则通过关键点11、12、13可以表示人体右侧的一段或多段肢体。

在一示例性实施例中，可以在关键帧中检测每个人体预设部位的以下至少一种状态信息：

肢体的弯曲角度，肢体的位置，左侧的肢体与右侧的肢体间的位置关系，肢体的方向，不同肢体间的长度关系。

其中，肢体的弯曲角度可以包括手臂弯曲、腿部弯曲等，其可以通过多个表征肢体的关键点的连线之间的角度来表示，例如右侧肘关节以上肢体段(关键点11-12)与肘关节以下肢体段(关键点12-13)之间的弯曲角度可以反映右侧手臂进行了怎样程度的弯曲。肢体的位置可以表示肢体在运动时的位置状态，例如手臂向上、向下或水平等。左侧肢体与右侧肢体的位置关系可以表示人体在运动时，肢体的朝向，例如在侧滑步运动时，往往需要打开双手，一只手向左，一只手向右等。肢体的方向可以表示肢体运动时的方向状态，例如手臂向左、向右、向上、向下等等。另外，人体在运动时，往往会由于人体伸展，使得肢体或肢体在平面投影的长度发生变化，例如开合跳时，腿部肢体的长度会因为腿部打开与合上的状态不同，发生长短变化，因此，状态信息还可以包括不同肢体间的长度关系。本示例性实施例可以通过对能够表征肢体的相关关键点的处理，来检测对应肢体的上述状态信息。

进一步的，在一示例性实施例中，如图5所示，上述步骤S330中，根据关键帧中多个人体预设部位的状态信息的组合确定关键帧的动作信息，可以包括以下步骤：

步骤S510，获取多个人体预设部位的状态信息对应的状态分类结果；

步骤S520，将多个人体预设部位的状态信息对应的状态分类结果进行组合，得到关键帧的动作信息。

不同维度的状态信息下可以对应包括不同的状态分类结果，例如手部及手臂预设部位可以包括肢体的弯曲角度、肢体的位置和肢体的方向3个维度的状态信息，其中，肢体的弯曲角度的状态信息可以包括五个状态分类结果，分别为手臂弯曲90度，手臂弯曲小于90度，手臂弯曲大于90度，手臂不弯曲，双手重叠交叉(关键点13与关键点16之间的距离可以判断)；肢体的位置的状态信息可以包括三个状态分类结果，分别为向下、水平和向上；肢体的方向的状态信息可以包括两个状态分类结果，分别为向左和向右。腿部预设部位可以包括肢体的弯曲角度以及不同肢体间的长度关系2个维度的状态信息，其中，肢体的弯曲角度可以包括两个状态分类结果，分别为腿部弯曲动作和腿部非弯曲动作，腿部弯曲动作可以通过膝关节，如关键点2上段肢体与下段肢体的弯曲角度确定，弯曲角度小于160度时，为腿部弯曲动作，大于160度时，为非腿部弯曲动作；不同肢体间的长度关系可以包括站立动作和打开动作两个状态分类结果，站立动作或打开动作也可以通过关键点之间的距离进行判断，例如当关键点4和关键点6之间的距离，小于关键点1和关键点4之间的距离的一半时，认为当前为站立动作；当关键点4和关键点6之间的距离，大于关键点1和关键点4之间的距离的一半时，认为当前为打开动作等等，这里仅对右侧腿部进行举例说明，实际应用中，可以对一条或两条腿部进行状态信息的检测。

进一步的，通过对关键帧中不同人体预设部位的状态信息对应的状态分类结果进行组合，即可以得到关键帧的动作信息，例如深蹲动作时，可以包括手臂和腿部两个人体预设部位的状态信息，手臂的状态信息对应的状态分类结果包括，手臂弯曲小于90度、水平位置以及一只手臂向左一只手臂向右；腿部的状态信息对应的状态分类结果包括，两只腿弯曲动作，且保持站立动作；侧滑步动作时，可以包括手臂和腿部两个人体预设部位的状态信息，手臂的状态信息对应的状态分类结果包括，手臂不弯曲，水平位置以及一只手臂向左一只手臂向右；腿部的状态信息对应的状态分类结果包括，两只腿不弯曲，且保持两腿打开动作。

在本示例性实施例中，可以通过预先标注的方式，确定不同状态分类结果对应的值，以对关键帧的动作信息进行向量表示，例如肢体的弯曲角度的状态信息可以通过数值“1”、“2”、“3”、“4”、“5”分别表示手臂弯曲90度，手臂弯曲小于90度，手臂弯曲大于90度，手臂不弯曲，双手重叠交叉的状态分类结果等等，以向量的形式标识手臂状态信息对应的状态分类结果，以及腿部状态信息对应的状态分类结果，然后进行拼接，以将不同预设部位的状态信息对应的状态分类结果进行组合，生成关键帧的动作信息。本示例性实施例仅以上述实施例作示意性说明，具体状态分类结果的表示，以及具体可以包括哪几种状态分类结果，都可以根据实际需要进行自定义设置，本公开对此不做具体说明。

在一示例性实施例中，上述步骤S340可以包括以下步骤：

根据关键帧的动作信息与参考帧的动作信息之间的相似度，在参考帧中确定每一关键帧对应的参考帧；

基于每一关键帧的动作信息与对应的参考帧的动作信息之间的相似度，确定比对结果。

最后，本示例性实施例可以将关键帧序列与参考帧序列进行匹配，以确定用户执行的动作是否标准，具体可以通过计算关键帧与参考帧的动作信息的相似度确定比对结果。考虑到可能会出现一帧关键帧可能会对应多帧参考帧的情况，即一帧关键帧的动作与多帧参考帧都相似或相关。因此，本示例性实施例在进行动作信息匹配之前，需要在参考帧序列中找出与关键帧最相似的参考帧，进行动作信息的匹配。本示例性实施例可以通过对关键帧与参考帧对应的每个点，例如关键帧与参考帧手部所在的对应点，计算均方差的方式，确定哪一参考帧与关键帧最为相似，如果关键帧与参考帧每个点求得的均方差之和最小，表示两帧图像中的动作最为相似，也可以认为该参考帧是与关键帧最为相似的图像帧，进一步计算关键帧与该参考帧之间的动作信息的相似度，来确定比对结果。

在本示例性实施例中，确定比对结果后，还可以根据比对结果提供指导信息或提示信息，具体的，可以根据关键帧序列中人体动作是否出现间断，提供动作是否保持连贯的提示信息，例如在进行动作信息比对时，在参考帧序列中未找到与关键帧动作状态相同或相似的动作信息，则可以认为用户未执行相应的动作，如果所执行的动作是连续的动作，仅做到了一个序列动作，另一个动作没有达到可以视为间断动作，此时可以提醒用户需要继续执行相应的动作，保持动作连贯性。另外，还可以根据比对结果提供动作是否标准，或者应当如何调整才能更为标准的提示信息，在本示例性实施例中，每帧关键帧都可以包括多个人体预设部位的状态信息，其可以反映人体的整体运动情况也可以反映人体的局部运动情况，因此，在进行提醒时，除了可以进行整体动作是否标准的提醒，还可以针对不同的人体预设部位进行提醒，例如将关键帧与参考帧中手臂、胯部或臀部动作的状态信息进行分别比对，可以得到手臂、胯部或臀部是否标准的比对结果，以及手臂应该如何进行调整，如提醒用户“手臂应该再低一点”，或者“手臂应该再高一点”等等。

本示例性实施例通过将人体动作拆分为不同部位的状态信息并组合，并在参考帧序列中找到与关键帧最相似的参考帧，进行关键帧与参考帧动作信息的比对过程，相比于直接进行图像帧序列之间的比对，降低了数据处理过程的复杂度，提高了动作信息比对的准确性，避免了由于不同用户在进行动作时快慢不同产生动作时延，造成关键帧与参考帧不匹配而影响计算结果的问题。

图6示出了本示例性实施例中另一种视频中的动作比对方法，具体可以包括以下步骤：

步骤S610，获取目标视频；

步骤S620，根据目标视频中人体预设关键点的位置统计结果确定目标视频中的关键帧；

步骤S630，检测关键帧中多个人体预设部位的状态信息，并根据关键帧中多个人体预设部位的状态信息的组合确定关键帧的动作信息；

步骤S640，获取指导视频；

步骤S650，根据指导视频中人体预设关键点的位置统计结果确定参考视频中的参考帧；

步骤S660，检测参考帧中多个人体预设部位的状态信息，并根据参考帧中多个人体预设部位的状态信息的组合确定参考帧的动作信息；

步骤S670，将关键帧的动作信息与指导视频中的参考帧的动作信息进行比对，得到比对结果。

本公开的示例性实施方式还提供一种视频中的动作比对装置。如图7所示，该视频中的动作比对装置700可以包括：目标视频获取模块710，用于获取目标视频；关键帧确定模块720，用于根据目标视频中人体预设关键点的位置统计结果确定目标视频中的关键帧；动作信息确定模块730，用于检测关键帧中多个人体预设部位的状态信息，并根据关键帧中多个人体预设部位的状态信息的组合确定关键帧的动作信息；动作信息比对模块740，用于将关键帧的动作信息与指导视频中的参考帧的动作信息进行比对，得到比对结果。

在一示例性实施例中，关键帧确定模块包括：第一最值统计单元，用于统计目标视频中人体预设关键点的坐标值的最值；第一关键帧确定单元，用于根据人体预设关键点的坐标值的最值确定目标视频中的关键帧。

在一示例性实施例中，关键帧确定模块包括：第二最值统计单元，用于根据目标视频中人体预设关键点的位置，统计目标视频中预设点对的距离的最值，预设点对包括两个人体预设关键点，预设点对的距离为两个人体预设关键点之间的距离；第二关键帧确定单元，用于根据预设点对的距离的最值确定目标视频中的关键帧。

在一示例性实施例中，视频中的动作比对装置还包括：重复帧去除模块，用于在确定目标视频中的关键帧后，确定任意两关键帧之间的相似度，并根据相似度从关键帧中去除重复帧。

在一示例性实施例中，每个人体预设部位包括左侧的一段或多段肢体与右侧的一段或多段肢体；动作信息确定模块包括：状态信息检测单元，用于在关键帧中检测每个人体预设部位的以下至少一种状态信息：肢体的弯曲角度，肢体的位置，左侧的肢体与右侧的肢体间的位置关系，肢体的方向，不同肢体间的长度关系。

在一示例性实施例中，动作信息确定模块包括：分类结果获取单元，用于，获取多个人体预设部位的状态信息对应的状态分类结果；动作信息确定单元，用于将多个人体预设部位的状态信息对应的状态分类结果进行组合，得到关键帧的动作信息。

在一示例性实施例中，动作信息比对模块包括：参考帧确定单元，用于根据关键帧的动作信息与参考帧的动作信息之间的相似度，在参考帧中确定每一关键帧对应的参考帧；相似度确定单元，用于基于每一关键帧的动作信息与对应的参考帧的动作信息之间的相似度，确定比对结果。

上述装置中各部分的具体细节在方法部分实施方式中已经详细说明，因而不再赘述。

本公开的示例性实施方式还提供了一种计算机可读存储介质，可以实现为程序产品的形式，包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤，例如可以执行图3、图5或图6中任意一个或多个步骤。该程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施方式。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限定。

Claims

1.一种视频中的动作比对方法，其特征在于，包括：

获取目标视频；

根据所述目标视频中人体预设关键点的位置统计结果确定所述目标视频中的关键帧；

检测所述关键帧中多个人体预设部位的状态信息，并根据所述关键帧中多个人体预设部位的状态信息的组合确定所述关键帧的动作信息；

将所述关键帧的动作信息与指导视频中的参考帧的动作信息进行比对，得到比对结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标视频中人体预设关键点的位置统计结果确定所述目标视频中的关键帧，包括：

统计所述目标视频中人体预设关键点的坐标值的最值；

根据所述人体预设关键点的坐标值的最值确定所述目标视频中的关键帧。

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标视频中人体预设关键点位置统计结果确定所述目标视频中的关键帧，包括：

根据所述目标视频中人体预设关键点的位置，统计所述目标视频中预设点对的距离的最值，所述预设点对包括两个人体预设关键点，所述预设点对的距离为所述两个人体预设关键点之间的距离；

根据所述预设点对的距离的最值确定所述目标视频中的关键帧。

4.根据权利要求1所述的方法，其特征在于，在确定所述目标视频中的关键帧后，所述方法还包括：

确定任意两关键帧之间的相似度，并根据所述相似度从所述关键帧中去除重复帧。

5.根据权利要求1所述的方法，其特征在于，每个所述人体预设部位包括左侧的一段或多段肢体与右侧的一段或多段肢体；所述检测所述关键帧中多个人体预设部位的状态信息，包括：

在所述关键帧中检测每个所述人体预设部位的以下至少一种状态信息：

6.根据权利要求5所述的方法，其特征在于，所述根据所述关键帧中多个人体预设部位的状态信息的组合确定所述关键帧的动作信息，包括：

获取所述多个人体预设部位的状态信息对应的状态分类结果；

将所述多个人体预设部位的状态信息对应的状态分类结果进行组合，得到所述关键帧的动作信息。

7.根据权利要求1所述的方法，其特征在于，所述将所述关键帧的动作信息与指导视频中的参考帧的动作信息进行比对，得到比对结果，包括：

根据所述关键帧的动作信息与所述参考帧的动作信息之间的相似度，在所述参考帧中确定每一所述关键帧对应的参考帧；

基于每一所述关键帧的动作信息与对应的参考帧的动作信息之间的相似度，确定比对结果。

8.一种视频中的动作比对装置，其特征在于，包括：

目标视频获取模块，用于获取目标视频；

关键帧确定模块，用于根据所述目标视频中人体预设关键点的位置统计结果确定所述目标视频中的关键帧；

动作信息确定模块，用于检测所述关键帧中多个人体预设部位的状态信息，并根据所述关键帧中多个人体预设部位的状态信息的组合确定所述关键帧的动作信息；

动作信息比对模块，用于将所述关键帧的动作信息与指导视频中的参考帧的动作信息进行比对，得到比对结果。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的方法。

10.一种电子设备，其特征在于，包括：

处理器；

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至7任一项所述的方法。