CN113642531A

CN113642531A - 视频图像的识别方法、系统以及计算机可读存储介质

Info

Publication number: CN113642531A
Application number: CN202111184272.8A
Authority: CN
Inventors: 王雨桐; 黄明杨; 马菲莹; 谢宣松
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2021-10-12
Filing date: 2021-10-12
Publication date: 2021-11-12
Anticipated expiration: 2041-10-12
Also published as: CN113642531B

Abstract

本申请公开了一种视频图像的识别方法、系统以及计算机可读存储介质。其中，该方法包括：从当前帧图像中识别出待识别对象，其中，当前帧图像为待识别的视频图像所包含的图像，并对待识别对象进行特征融合，得到当前帧图像中待识别对象的至少一个候选关键点，从而基于上一帧图像中待识别对象的至少一个关键点对至少一个候选关键点进行融合处理，得到当前帧图像中待识别对象的至少一个目标关键点，进而根据至少一个目标关键点对待识别对象的姿态进行识别，得到识别结果。本申请解决了现有技术中，识别视频图像中的目标对象的关键点时存在识别不准确的技术问题。

Description

视频图像的识别方法、系统以及计算机可读存储介质

技术领域

本申请涉及人工智能领域，具体而言，涉及一种视频图像的识别方法、系统以及计算机可读存储介质。

背景技术

随着生活水平的提高，人们越来越重视身体健康，其中，家庭健身成为人们追求健康生活方式的一大趋势，受限于场地以及时间等原因，线上健身方式也受到了广大群众的欢迎。在全民健身的浪潮中，关于健身的人工智能健身技术应用而生，方便了人们对自身健康状况的测评。

但是，由于人体自身的柔韧性和肢体的高自由度，任何关节的微小变化都会产生新的姿态，使得人体数据的收集、关键点检测以及动作识别成为很有挑战的问题。除了姿态多样性，人工健身检测还会受人体自身的穿着、视角、光照以及遮挡等因素的影响，进一步加大了精准识别人体关键点的难度。

另外，现有技术在进行人体关键点识别时，通常采用自底向上的检测算法，虽然能够支持多人关键点检测，但会容易受到图像中其他背景对象的影响，出现错检、多检测的情形，并且现有的自底向上的检测算法中并不包括人体跟踪逻辑，因此在对视频图像实时检测时，会出现明显抖动、漏检等现象。

而且，现有技术对于地面卧姿的识别精度较差，而健身运动中会有很多卧姿动作，从而也会经常出现容易出现错检的情形。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种视频图像的识别方法、系统以及计算机可读存储介质，以至少解决现有技术中，识别视频图像中的目标对象的关键点时存在识别不准确的技术问题。

根据本申请实施例的一个方面，提供了一种视频图像的识别方法，包括：从当前帧图像中识别出待识别对象，其中，当前帧图像为待识别的视频图像所包含的图像，并对待识别对象进行特征融合，得到当前帧图像中待识别对象的至少一个候选关键点，从而基于上一帧图像中待识别对象的至少一个关键点对至少一个候选关键点进行融合处理，得到当前帧图像中待识别对象的至少一个目标关键点，进而根据至少一个目标关键点对待识别对象的姿态进行识别，得到识别结果。

在一种可选的实施例中，视频图像的识别方法还包括：获取当前帧图像对应的帧标识，并根据帧标识确定当前帧图像对应的帧类型。

在一种可选的实施例中，视频图像的识别方法还包括：在当前帧图像的帧类型为关键帧时，基于第一神经网络模型对当前帧图像进行图像处理，得到待识别对象在当前帧图像的候选区域，并基于候选区域对当前帧图像进行裁剪，从当前帧图像中识别出待识别对象。

在一种可选的实施例中，视频图像的识别方法还包括：获取第二神经网络模型对待识别对象进行特征提取，得到多个对象特征，其中，第二神经网络模型至少包括残差网络，残差网络由多个残差单元组成。从而确定残差网络所对应的目标残差深度，并根据目标残差深度确定目标残差网络，进而获取目标残差网络对多个对象特征进行特征融合的融合结果，根据融合结果确定至少一个候选关键点。

在一种可选的实施例中，视频图像的识别方法还包括：在当前帧图像的帧类型为非关键帧时，获取待识别对象在上一帧图像中的预设区域，并对预设区域进行扩展处理，得到扩展后的预设区域，从而基于扩展后的预设区域确定待识别对象在当前帧图像中的候选区域，并基于候选区域对当前帧图像进行裁剪，从当前帧图像中识别出待识别对象。

在一种可选的实施例中，视频图像的识别方法还包括：基于第二神经网络模型对待识别对象进行特征融合，得到当前帧图像中待识别对象的至少一个当前帧关键点，并计算至少一个当前帧关键点的平均置信度，从而根据平均置信度与置信度阈值确定当前帧图像中待识别对象的至少一个候选关键点。

在一种可选的实施例中，视频图像的识别方法还包括：获取第二神经网络模型对待识别对象进行特征提取，得到多个对象特征，其中，第二神经网络模型至少包括残差网络，残差网络由多个残差单元组成，并确定残差网络所对应的目标残差深度，从而根据目标残差深度确定目标残差网络，进而获取目标残差网络对多个对象特征进行特征融合的融合结果，根据融合结果确定至少一个当前帧关键点。

在一种可选的实施例中，视频图像的识别方法还包括：在平均置信度大于或等于置信度阈值时，确定至少一个当前帧关键点为至少一个候选关键点。

在一种可选的实施例中，视频图像的识别方法还包括：在平均置信度小于置信度阈值时，基于第一神经网络模型对当前帧图像进行图像处理，得到待识别对象在当前帧图像的候选区域，从而基于候选区域从当前帧图像中识别出待识别对象，并基于第二神经网络模型对待识别对象进行特征融合，得到当前帧图像中待识别对象的至少一个候选关键点。

在一种可选的实施例中，视频图像的识别方法还包括：在根据至少一个目标关键点对待识别对象的姿态进行识别，得到识别结果之后，获取待识别对象的目标姿态，并确定目标姿态与待识别对象的姿态之间的姿态差异，从而基于姿态差异对待识别对象的姿态进行姿态调整。

根据本申请实施例的一个方面，提供了一种视频图像的识别方法，包括：采集待识别的视频图像，并从待识别的视频图像中确定当前帧图像，并显示当前帧图像中的待识别对象。从而在待识别对象上显示至少一个目标关键点，其中，至少一个目标关键点是通过对上一帧图像中待识别对象的至少一个关键点对当前帧图像中待识别对象的至少一个候选关键点进行融合得到的，进而显示根据至少一个目标关键点对待识别对象的姿态进行识别的识别结果。

在一种可选的实施例中，视频图像的识别方法还包括：在显示根据至少一个目标关键点对待识别对象的姿态进行识别的识别结果之后，显示待识别对象的目标姿态，并显示目标姿态与待识别对象的姿态之间的姿态差异，从而基于姿态差异对待识别对象的姿态进行调整的调整结果。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，在程序运行时控制计算机可读存储介质所在设备执行上述的视频图像的识别方法。

根据本申请实施例的一个方面，提供了一种视频图像的识别系统，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：从当前帧图像中识别出待识别对象，其中，当前帧图像为待识别的视频图像所包含的图像；对待识别对象进行特征融合，得到当前帧图像中待识别对象的至少一个候选关键点；基于上一帧图像中待识别对象的至少一个关键点对至少一个候选关键点进行融合处理，得到当前帧图像中待识别对象的至少一个目标关键点；根据至少一个目标关键点对待识别对象的姿态进行识别，得到识别结果。

在本申请实施例中，采用对当前帧图像中的候选关键点和上一帧图像中的关键点进行融合处理的方式，通过从当前帧图像中识别出待识别对象，其中，当前帧图像为待识别的视频图像所包含的图像。对待识别对象进行特征融合，得到当前帧图像中待识别对象的至少一个候选关键点，从而基于上一帧图像中待识别对象的至少一个关键点对至少一个候选关键点进行融合处理，得到当前帧图像中待识别对象的至少一个目标关键点，进而根据至少一个目标关键点对待识别对象的姿态进行识别，得到识别结果。

由上述过程可知，在本申请实施例中，在当前帧图像中识别出待识别对象，可避免由于当前帧图像中其他背景对象的干扰，导致识别过程中出现错检、多检的问题，而且，在得到当前帧图像中待识别对象的至少一个候选关键点之前，本申请会首先对待识别对象进行特征融合。其中，通过特征融合可在尽可能保证候选关键点的识别精度的同时，减少识别过程中的计算量，从而实现了降低设备内存和处理器占用率，提高资源使用效率的效果。另外，本申请还可以基于上一帧图像中待识别对象的至少一个关键点对至少一个候选关键点进行融合处理，得到当前帧图像中待识别对象的至少一个目标关键点。其中，由于利用了上一帧图像中的关键点的信息对当前帧的候选关键点进行融合处理，因此，在识别视频图像的一个目标关键点时，至少会通过两帧图像进行处理，从而选择准确度高的候选关键点作为目标关键点，进而避免了由于视频图像中的关键点存在抖动，导致的识别视频图像中的目标对象的关键点时存在识别不准确的问题，实现了稳定精准识别视频图像中目标关键点的效果。

由此可见，本申请实施例所提供的方案达到了保证了识别视频图像中目标关键点的稳定性的目的，解决了现有技术中，识别视频图像中的目标对象的关键点时存在识别不准确的问题，并且实现了提高视频图像中目标关键点识别精度的效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种用于实现视频图像的识别方法的计算机终端（或移动设备）的硬件结构框图；

图2是根据本申请实施例的一种用于实现视频图像的识别方法流程图；

图3是根据本申请实施例的一种用于实现视频图像的识别方法流程图；

图4是根据本申请实施例的一种用于实现视频图像的识别方法示意图；

图5是根据本申请实施例的一种用于实现视频图像的识别方法示意图；

图6是根据本申请实施例的一种用于实现视频图像的识别方法示意图；

图7是根据本申请实施例的一种用于实现视频图像的识别方法流程图；

图8是根据本申请实施例的一种用于实现视频图像的识别方法示意图；

图9是根据本申请实施例的一种用于实现视频图像的识别方法示意图；

图10是根据本申请实施例的一种用于实现视频图像的识别方法示意图；

图11是根据本申请实施例的一种用于实现视频图像的识别方法示意图；

图12是根据本申请实施例的一种用于实现视频图像的识别方法流程图；

图13是根据本申请实施例的一种用于实现视频图像的识别方法流程图；

图14是根据本申请实施例的一种计算机设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

人体关键点: 用于标识人体头、颈、肩，肘、腕、膝、踝的人体关节点；

人体关键点检测：又称人体姿态估计检测，是指通过算法从图像、视频中获取人体关键点的视觉任务，是实现人体动作识别、行为分析、人机交互任务等技术的基础。

实施例1

根据本申请实施例，还提供了一种视频图像的识别方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现视频图像的识别方法的计算机终端（或移动设备）的硬件结构框图。如图1所示，计算机终端10（或移动设备10）可以包括一个或多个（图中采用102a、102b，……，102n来示出）处理器102（处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）、用于存储数据的存储器104。除此以外，还可以包括：显示器、输入/输出接口（I/O接口）、通用串行总线（USB）端口（可以作为BUS总线的端口中的一个端口被包括）、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10（或移动设备）中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制（例如与接口连接的可变电阻终端路径的选择）。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的视频图像的识别方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

显示器可以例如触摸屏式的液晶显示器（LCD），该液晶显示器可使得用户能够与计算机终端10（或移动设备）的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备（或移动设备）可以包括硬件元件（包括电路）、软件元件（包括存储在计算机可读介质上的计算机代码）、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备（或移动设备）中的部件的类型。

另外，还需要说明的是，在本实施例中，终端设备可以作为本实施例中的视频图像的识别方法的执行主体。其中，终端设备包括但限于：笔记本计算机、台式计算机、智能手机、智能平板、服务器以及智能便携式佩戴设备，终端设备上可以安装具有本实施中的视频图像的识别方法的应用程序。

在上述运行环境下，本申请提供了如图2所示的视频图像的识别方法。图2是根据本申请实施例1视频图像的识别方法的流程图。由图2可知，该方法包括如下步骤：

步骤S202，从当前帧图像中识别出待识别对象。

可选的，在步骤S202中，如图3所示，当一段待识别视频图像输入到终端设备中后，待识别视频图像中包含有多帧图像，从而终端设备可以根据时间顺序对待识别视频图像进行拆帧处理，得到待识别视频图像所包含的当前帧图像，进而终端设备可对当前帧图像进行人体检测，即识别待识别对象。其中，视频图像可以由终端设备的摄像头拍摄得到，也可以由第三方摄像设备拍摄得到，通过网络传输等方式发送给终端设备。

进一步地，如图4所示，终端设备获取到当前帧图像，其中，当前帧图像中既包含有待识别对象（进行滑冰的小孩），也包含有并非为待识别对象的其他背景对象（远处的树木）。此时，终端设备可通过第一神经网络模型对当前帧图像进行图像处理，识别待识别对象在当前帧图像的候选区域，并基于候选区域对当前帧图像进行裁剪，从而识别出待识别对象，如图5所示，候选区域为图中虚线所包含的区域，由于进行滑冰的小孩处于该区域中，因此，第一神经网络模型可正确识别出进行滑冰的小孩为待识别对象，而树木等其他背景对象则可自动忽略。

在上述过程中，通过在当前帧图像中识别出待识别对象，可避免由于当前帧图像中其他背景对象的干扰，导致识别过程中出现错检、多检的问题，实现了提高待识别对象识别准确度的效果。

步骤S204，对待识别对象进行特征融合，得到当前帧图像中待识别对象的至少一个候选关键点。

可选的，如图3所示，在步骤S204中，终端设备在识别出待识别对象后，可通过第二神经网络模型对待识别对象进行特征融合，从而得到待识别对象的至少一个候选关键点，其中，待识别对象的候选关键点可以有多个。

进一步地，第二神经网络模型可以是设计为基于U-net框架结合残差网络的一种融合多分辨率特征的关键点检测模型，其中U-net是深度学习领域中一种图像语义分割网络。如图8所示，为了方便第二神经网络模型在部署时的压缩与剪枝，第二神经网络模型在模型训练时引入目标残差深度监督信息，即在最高分辨率特征融合的每个阶段提供目标残差深度的监督，从而使得第二神经网络模型在学习过程中学习得到的高分辨率特征尽可能接近目标残差深度。而且，当第二神经网络模型部署时，可以适量剪枝部分网络结构，使用中间过程学习得到的高分辨率特征，从而可在保证第二神经网络模型检测精度的同时，压缩第二神经网络模型的大小。

在上述过程中，由于通过第二神经网络模型可根据目标残差深度，对待识别对象进行特征融合，因此，第二神经网络模型可在较小体积下完成精准检测待识别对象的候选关键点，从而降低了终端设备的内存占用资源以及处理器的运算占用资源，实现了可应用于更多不同配置的终端设备的效果。

步骤S206，基于上一帧图像中待识别对象的至少一个关键点对至少一个候选关键点进行融合处理，得到当前帧图像中待识别对象的至少一个目标关键点。

可选的，在步骤S206中，终端设备不会直接将上述检测得到的候选关键点作为目标关键点使用，而是会利用上一帧图像中的至少一个关键点位的信息对当前帧图像中的至少一个候选关键点进行融合处理，从而确定待识别对象的至少一个目标关键点，保证视频图像中目标关键点位的稳定性，例如，图3中通过相邻的两帧图像进行关键点跟踪，最终得到人体关键点，人体关键点可以在终端设备显示为图6中用于标识人体头、颈、肩，肘、腕、膝、踝的人体关节点。

进一步地，上述至少一个关键点对至少一个候选关键点进行融合处理的过程，可参见公式1：

其中，

为目标关键点的点位，

为当前帧图像的至少一个候选关键点的点位，

为上一帧图像的至少一个关键点的点位。

在上述过程中，由于利用了上一帧图像中的关键点的信息对当前帧的候选关键点进行融合处理，因此，在识别视频图像的一个目标关键点时，至少会通过两帧图像进行处理，从而选择准确度高的候选关键点作为目标关键点，进而避免了由于视频图像中的关键点存在抖动，导致的识别视频图像中的目标对象的关键点时存在识别不准确的问题，实现了稳定精准识别视频图像中目标关键点的效果。

另外，针对视频图像，上述过程中在降低关键点抖动，保证视觉的稳定性的同时，并不依赖任何第三方平台和系统进行推理，可编译打包为安卓系统和苹果系统的软件安装包，能够同时在低端的终端设备上达到20ms的实时推理，其中，表1展示了根据本发明实施例的视频图像的识别方法的核心性能和算法指标。

表1

指标参数
			计数准确率	95.95%
耗时	49ms（安卓低端机）	23ms（苹果低端机）
			点位	15点
模型大小	1.1M

步骤S208，根据至少一个目标关键点对待识别对象的姿态进行识别，得到识别结果。

可选的，终端设备利用得到的目标关键点可对待识别对象的姿态进行识别，例如，待识别对象可以是健身人员，通过识别健身人员的姿态，可对其姿势是否正确标准做出判断，如果姿势正确，则目标关键点为一个颜色，如果姿势不正确，则目标关键点为另外一个颜色，并且会进行提示，告知用户如何调整。例如，健身人员在进行篮球训练，终端设备根据目标关键点对健身人员的投篮时的姿态进行识别，如果此时健身人员的腿部动作符合标准，但是手部动作不正确，则识别结果中，健身人员腿部的人体关键点显示为绿色，表示动作正确，手部的人体关键点显示为红色，表示动作错误，同时会通过文字、图像以及声音等形式对健身人员进行提示，指导健身人员调整手部姿态。

在上述过程中，根据目标关键点对待识别对象的姿态进行识别，从而可对待识别对象的姿态进行记录、评估以及矫正等操作，实现了人机互动的效果，有利于提高用户使用体验。

基于上述步骤S202至步骤S208的内容，采用对当前帧图像中的候选关键点和上一帧图像中的关键点进行融合处理的方式，通过从当前帧图像中识别出待识别对象，其中，当前帧图像为待识别的视频图像所包含的图像。对待识别对象进行特征融合，得到当前帧图像中待识别对象的至少一个候选关键点，从而基于上一帧图像中待识别对象的至少一个关键点对至少一个候选关键点进行融合处理，得到当前帧图像中待识别对象的至少一个目标关键点，进而根据至少一个目标关键点对待识别对象的姿态进行识别，得到识别结果。

容易注意到的是，在本申请实施例中，在当前帧图像中识别出待识别对象，可避免由于当前帧图像中其他背景对象的干扰，导致识别过程中出现错检、多检的问题，而且，在得到当前帧图像中待识别对象的至少一个候选关键点之前，本申请会首先对待识别对象进行特征融合。其中，通过特征融合可在尽可能保证候选关键点的识别精度的同时，减少识别过程中的计算量，从而实现了降低设备内存和处理器占用率，提高资源使用效率的效果。另外，本申请还可以基于上一帧图像中待识别对象的至少一个关键点对至少一个候选关键点进行融合处理，得到当前帧图像中待识别对象的至少一个目标关键点。其中，由于利用了上一帧图像中的关键点的信息对当前帧的候选关键点进行融合处理，因此，在识别视频图像的一个目标关键点时，至少会通过两帧图像进行处理，从而选择准确度高的候选关键点作为目标关键点，进而避免了由于视频图像中的关键点存在抖动，导致的识别视频图像中的目标对象的关键点时存在识别不准确的问题，实现了稳定精准识别视频图像中目标关键点的效果。

在一种可选的实施例中，终端设备在从当前帧图像中识别出待识别对象之前，获取当前帧图像对应的帧标识，并根据帧标识确定当前帧图像对应的帧类型。

可选的，终端设备可对待识别视频图像中的多帧图像预设间隔数量，其中，将每间隔一个预设间隔数量的帧图像标识为关键帧，预设间隔数量内的帧图像则标识为非关键帧，从而对待识别视频图像的每一帧图像进行标识处理。例如，预设间隔数量设置为20，若第一帧图像标识为关键帧，则间隔20帧图像后的第22帧图像也标识为关键帧，第2-21帧图像则标识为非关键帧。

进一步地，终端设备可根据当前帧图像对应的帧标识确定当前帧图像对应的帧类型。其中，帧类型至少包括：关键帧以及非关键帧。

在上述过程中，通过将待识别视频图像的多帧图像进行分类以及标识处理，从而可有选择的对不同类型的帧图像进行不同方式的处理，有利于提高处理效率，实现降低终端设备资源占用率的效果。

在一种可选的实施例中，终端设备在当前帧图像的帧类型为关键帧时，可基于第一神经网络模型对当前帧图像进行图像处理，得到待识别对象在当前帧图像的候选区域，并基于候选区域对当前帧图像进行裁剪，从当前帧图像中识别出待识别对象。

可选的，如图7所示，第一神经网络模型可以是基于双主干网络结构设计的轻量级人体检测模型，其中，第一神经网络模型能够充分利用当前帧图像的浅层以及深层的特征信息，对当前帧图像中的大、小对象都能做到比较好的响应和预测，而且，由于采用双主干网络结构设计，第一神经网络模型的整体计算量很小，单独运行第一神经网络模型，在一般的智能手机上能够达到50fps的处理效率。

进一步地，图7中示出了一种基于backbone双主干网络结构设计的第一网络模型，其中，backbone为深度学习领域中双主干网络结构设计中的一种设计模式，图7中“conv”以及“spp”为第一神经网络模型中的卷积网络部分，用于实现卷积计算，“module”为第一神经网络模型中包含模型的参数以及计算逻辑的模块，用于根据参数进行逻辑计算处理，下采样模块，用于对当前帧图像进行采样，“concat”为第一神经网络中的融合模块，可用于融合待识别对象的特征。

另外，如图12所示，当输入当前帧图像类型为关键帧时，第一神经网络模型对当前帧图图像中的待识别对象进行检测，并依据候选区域框对图像中的待识别对象进行裁剪，进行关键点检测。其中，待识别对象可以是一个，也可以是多个，当在一个当前帧图像中包含有多个待识别对象时，第一神经网络模型对当前帧图像进行图像处理，可分别得到多个待识别对象在当前帧图像中的候选区域，并基于候选区域对当前帧图像进行裁剪，识别出多个待识别对象。

在上述过程中，通过第一神经网络模型对当前帧图像进行图像处理，从而得到候选区域，识别出待识别对象，避免了由于当前帧图像中其他背景对象的干扰，导致的识别过程中出现错检、多检的问题，实现了提高待识别对象识别准确度的效果。而且，由于基于双主干网络结构设计的轻量级人体检测模型具有计算量小、占用资源率的优点，因此可突破终端设备的内存资源以及运算资源的限制，实现了在内存较小和/或运算能力较差的终端设备上进行视频图像识别的效果。

在一种可选的实施例中，终端设备可基于第二神经网络模型对待识别对象进行特征提取，得到多个对象特征，其中，第二神经网络模型至少包括残差网络，残差网络由多个残差单元组成。终端设备可确定残差网络所对应的目标残差深度，并根据目标残差深度确定目标残差网络，从而获取目标残差网络对多个对象特征进行特征融合的融合结果，进而根据融合结果确定至少一个候选关键点。

可选的，如图8所示，第二神经网络模型可以是设计为基于U-net框架结合残差网络的一种融合多分辨率特征的关键点检测模型，第二神经网络模型中至少会包括残差网络，残差网络由多个残差单元组成，例如，图8中有17个残差单元组成可残差网络。而且，第二神经网络模型在模型训练时还引入了目标残差深度监督信息，可在最高分辨率特征融合的每个阶段提供目标残差深度的监督，例如，图8中残差网络对应有6个残差深度，分别为hm0-hm5。

进一步地，第二神经网络模型在部署时，可获取残差网络所对应的目标残差深度，并使用模型剪枝方法，根据目标残差深度确定目标残差网络，从而获取目标残差网络对多个对象特征进行特征融合的融合结果，进而根据融合结果确定至少一个候选关键点。例如，图9是根据目标残差深度为hm2时，第二神经网络模型获取的融合结果，图10是根据目标残差深度为hm3时，第二神经网络模型获取的融合结果，图11是根据目标残差深度为hm4时，第二神经网络模型获取的融合结果。终端设备根据上述融合结果可确定候选关键点。

在上述过程中，由于第二神经网络模型可适量剪枝部分网络结构，使用中间过程学习得到的高分辨率特征，因此可极大程度地缩减检测时间和内存空间，以及避免人体、服饰、光线等外在因素对检测过程的干扰。

在一种可选的实施例中，终端设备在当前帧图像的帧类型为非关键帧时，获取待识别对象在上一帧图像中的预设区域，并对预设区域进行扩展处理，得到扩展后的预设区域，从而基于扩展后的预设区域确定待识别对象在当前帧图像中的候选区域，基于候选区域对当前帧图像进行裁剪，从当前帧图像中识别出待识别对象。

可选的，如图12所示，若输入当前帧图像的帧类型为非关键帧时，则终端设备会获取待识别对象在上一帧图像中的预设区域，例如，预设区域可以是上一帧图像中待识别对象所处的人体区域。第二神经网络模型此时对预设区域进行扩展处理，例如，在上述人体区域的基础上外扩20%作为扩展后的预设区域，从而终端设备可基于扩展后的预设区域确定待识别对象在当前帧图像中的候选区域，并基于候选区域对当前帧图像进行裁剪，从当前帧图像中识别出待识别对象。

在上述过程中，通过对非关键帧类型的当前帧图像，进行预设区域扩展，实现了在更大的区域下裁剪当前帧图像，以识别出待识别对象，有利于提高待识别对象的识别准确度。

在一种可选的实施例中，终端设备基于第二神经网络模型对待识别对象进行特征融合，得到当前帧图像中待识别对象的至少一个当前帧关键点，并计算至少一个当前帧关键点的平均置信度，从而根据平均置信度与置信度阈值确定当前帧图像中待识别对象的至少一个候选关键点。

可选的，如图12所示，终端设备针对非关键帧类型的当前帧图像，对其进行裁剪得到待识别对象后，可对待识别对象进行特征融合，得到当前帧图像中待识别对象的至少一个帧关键点。此时终端设备可对至少一个当前帧关键点的平均置信度进行计算，若检测得到平均置信度满足置信度阈值，则接受并使用当前当前帧关键点为候选关键点，若检测得到的平均置信度小于置信度阈值，则说明当前帧图像中扩展后的预设区域作为候选区域不准确，需要重新调用第一神经网络模型，并根据重新得到的候选区域对当前帧图像进行裁剪，识别待识别对象，此时当前帧图像重新标识为关键帧。

在上述过程中，通过平均置信度对非关键帧类型的当前帧图像的识别结果进行检测，如果平均置信度满足置信度阈值，则说明识别结果准确，无需重新通过第一神经网络模型进行识别，如果平均置信度不满足置信度阈值，则说明识别结果存在偏差，将当前帧图像重新标识为关键帧类型，重新通过第一神经网络模型或许候选区域，并得到待识别对象。由于非关键帧类型的图像数量要远远多于关键帧类型的图像数量，因此，如果非关键帧类型的图像可以不需要通过第一神经网络模型进行识别，可以大大减少资源使用率，提高计算效率，而且，平均置信度也保证了每一个非关键帧类型的图像的识别准确度满足要求。

在一种可选的实施例中，终端设备获取第二神经网络模型对待识别对象进行特征提取，得到多个对象特征，其中，第二神经网络模型至少包括残差网络，残差网络由多个残差单元组成，并确定残差网络所对应的目标残差深度，根据目标残差深度确定目标残差网络，从而获取目标残差网络对多个对象特征进行特征融合的融合结果，并根据融合结果确定至少一个当前帧关键点。

可选的，如图12所示，针对非关键帧类型的当前帧图像，终端设备仍通过第二神经网络模型对获取的待识别对象进行特征提取，与关键帧类型的当前帧图像一样，第二神经网络模型在部署时，可获取残差网络所对应的目标残差深度，并使用模型剪枝方法，根据目标残差深度确定目标残差网络，从而获取目标残差网络对多个对象特征进行特征融合的融合结果，进而根据融合结果确定至少一个候选关键点。

在一种可选的实施例中，终端设备在平均置信度大于或等于置信度阈值时，确定至少一个当前帧关键点为至少一个候选关键点。

可选的，如图12所示，针对非关键帧类型的当前帧图像，当平均置信度大于或等于置信度阈值时，说明识别得到的至少一个当前帧关键的准确度满足要求，因此，终端设备可直接确定至少一个当前帧关键点为至少一个候选关键点，不需要通过第一神经网络模型进行重新识别。其中，置信度阈值可以由操作人员自定义调整，例如，根据不同的场景置信度阈值可设置不同的值，从而实现自动调节识别精度。

在上述过程中，由于非关键帧类型的图像数量要远远多于关键帧类型的图像数量，因此，如果非关键帧类型的图像可以不需要通过第一神经网络模型进行识别，可以大大减少资源使用率，提高计算效率。

在一种可选的实施例中，终端设备在平均置信度小于置信度阈值时，基于第一神经网络模型对当前帧图像进行图像处理，得到待识别对象在当前帧图像的候选区域，并基于候选区域从当前帧图像中识别出待识别对象，从而基于第二神经网络模型对待识别对象进行特征融合，得到当前帧图像中待识别对象的至少一个候选关键点。

可选的，如图12所示，针对非关键帧类型的当前帧图像，当平均置信度小于置信度阈值时，说明说明识别得到的至少一个当前帧关键的准确度不能满足要求，此时，终端设备将当前帧图像重新标识为关键帧类型的图像，并基于第一神经网络模型对当前帧图像重新进行图像处理，从而得到新的候选区域，从候选区域中识别出待识别对象，并基于第二神经网络模型对待识别对象进行特征融合，得到当前帧图像中待识别对象的至少一个候选关键点。其中，当终端设备将当前帧图像重新标识为关键帧类型的图像后，后续的帧图像将重新按照预设间隔数量进行标识处理。

需要注意到的是，在视频图像的识别过程中，随着过程的深入，非关键帧类型的图像的识别准确度会越来越低，而通过设置平均置信度则保证了每一个非关键帧类型的图像的识别准确度都会满足设定的准确度要求，实现了在高效识别非关键帧类型的图像的同时，保证满足识别准确度的效果。

在一种可选的实施例中，终端设备获取待识别对象的目标姿态，并确定目标姿态与待识别对象的姿态之间的姿态差异，从而基于姿态差异对待识别对象的姿态进行姿态调整。

可选的，终端设备可根据待识别对象的目标姿态与待识别对象的姿态之间的姿态差异，对待识别对象的姿态进行姿态调整，例如，终端设备可将姿态差异以图片的形式展示在显示屏幕中，并且通过文字描述如何进行调整，为了方便使用，还可以通过语音播报的方式提示待识别对象如何进行姿态调整。

另外，通过获取待识别对象的目标姿态，还可应用于在体育测评计数场景，例如，对跳绳类等快速运动场景中的多运动模糊图像的关键点检测，以及对仰卧起坐等多遮挡较难动作完成关键点检测。其中，关键点检测精度和计数衡量指标如下表2所示，可见准确率可达到95%以上：

表2

	总个数	关键点检测计数个数	误差个数	综合误差率	查全率	准确率
							跳绳	63956	63141	6505	10.1710551	94.27731565	95.49421137
开合跳	1165	1080	109	9.356223176	91.67381974	95.49421137

由上述过程可知，通过获取待识别对象的目标姿态，实现了对待识别对象的姿态进行准确记录、评估以及矫正等操作，有利于提高用户使用体验。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的视频图像的识别方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本申请各个实施例的方法。

实施例2

根据本申请实施例，还提供了一种视频图像的识别方法，如图13所示，该方法包括如下步骤：

步骤1302，采集待识别的视频图像。

在步骤S1302中，采集待识别的视频图像的方式可以由终端设备的摄像头拍摄得到，也可以由第三方摄像设备拍摄得到，通过网络传输等方式发送给终端设备。

步骤1304，从待识别的视频图像中确定当前帧图像，并显示当前帧图像中的待识别对象。

可选的，在步骤S1304中，如图3所示，当一段待识别视频图像输入到终端设备中后，待识别视频图像中包含有多帧图像，从而终端设备可以根据时间顺序对待识别视频图像进行拆帧处理，得到待识别视频图像所包含的当前帧图像，进而终端设备可对当前帧图像进行人体检测，即识别待识别对象。

进一步地，如图4所示，终端设备从待识别的视频图像中确定当前帧图像像，其中，当前帧图像中既包含有待识别对象（进行滑冰的小孩），也包含有并非为待识别对象的其他背景对象（远处的树木）。此时，终端设备可通过第一神经网络模型对当前帧图像进行图像处理，识别待识别对象在当前帧图像的候选区域，并基于候选区域对当前帧图像进行裁剪，从而识别出待识别对象，如图5所示，候选区域为图中虚线所包含的区域，由于进行滑冰的小孩处于该区域中，因此，第一神经网络模型可正确识别出进行滑冰的小孩为待识别对象，而树木等其他背景对象则可自动忽略。

进一步地，待识别对象可显示在终端设备上的显示屏幕中或者终端设备所连接的第三方设备中的显示屏幕中。

步骤S1306，在待识别对象上显示至少一个目标关键点，其中，至少一个目标关键点是通过对上一帧图像中待识别对象的至少一个关键点对当前帧图像中待识别对象的至少一个候选关键点进行融合得到的。

可选的，如图3所示，终端设备在识别出待识别对象后，可通过第二神经网络模型对待识别对象进行特征融合，从而得到待识别对象的至少一个候选关键点，其中，待识别对象的候选关键点可以有多个。

进一步地，终端设备不会直接将上述检测得到的候选关键点作为目标关键点使用，而是会利用上一帧图像中的至少一个关键点位的信息对当前帧图像中的至少一个候选关键点进行融合处理，从而确定待识别对象的至少一个目标关键点，保证视频图像中目标关键点位的稳定性，例如，图3中通过相邻的两帧图像进行关键点跟踪，最终得到人体关键点，人体关键点可以在终端设备显示为图6中用于标识人体头、颈、肩，肘、腕、膝、踝的人体关节点。

在上述过程中，通过在待识别对象上显示至少一个目标关键点，可直观显示关键点信息，有利于待识别对象进行判断姿态是否正确。

步骤S1308，显示根据至少一个目标关键点对待识别对象的姿态进行识别的识别结果。

可选的，终端设备利用得到的目标关键点可对待识别对象的姿态进行识别，例如，待识别对象可以是健身人员，通过识别健身人员的姿态，可对其姿势是否正确标准做出判断，如果姿势正确，则目标关键点显示为一个颜色，如果姿势不正确，则目标关键点显示为为另外一个颜色，并且会进行提示，告知用户如何调整。例如，健身人员在进行篮球训练，终端设备根据目标关键点对健身人员的投篮时的姿态进行识别，如果此时健身人员的腿部动作符合标准，但是手部动作不正确，则识别结果中，健身人员腿部的人体关键点显示为绿色，表示动作正确，手部的人体关键点显示为红色，表示动作错误，同时会通过文字、图像以及声音等形式对健身人员进行提示，指导健身人员调整手部姿态。

在上述过程中，通过显示根据至少一个目标关键点对待识别对象的姿态进行识别的识别结果，，从而待识别对象可查看自身的的姿态评估结果以及矫正信息，实现了人机互动的效果，有利于提高用户使用体验。

基于上述步骤S1302至步骤S1308的内容，通过采集待识别的视频图像，从待识别的视频图像中确定当前帧图像，并显示当前帧图像中的待识别对象，并在待识别对象上显示至少一个目标关键点，其中，至少一个目标关键点是通过对上一帧图像中待识别对象的至少一个关键点对当前帧图像中待识别对象的至少一个候选关键点进行融合得到的，从而显示根据至少一个目标关键点对待识别对象的姿态进行识别的识别结果。

在一张可选的实施例中，显示设备在显示根据至少一个目标关键点对待识别对象的姿态进行识别的识别结果之后，显示待识别对象的目标姿态，并显示目标姿态与待识别对象的姿态之间的姿态差异，从而基于姿态差异对待识别对象的姿态进行调整的调整结果。

可选的，终端设备可将姿态差异以图片的形式展示在显示屏幕中，并且通过文字描述如何进行调整，为了方便使用，还可以通过语音播报的方式提示待识别对象如何进行姿态调整。

在上述过程中，通过显示待识别对象的目标姿态，实现了对待识别对象的姿态、姿态差异以及调整信息的显示，有利于提高用户使用体验。

另外，需要说明的是，视频图像的识别过程已在实施例1中进行说明，在此不再赘述。

实施例3

根据本申请实施例，还提供了一种视频图像的识别系统，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：从当前帧图像中识别出待识别对象，其中，当前帧图像为待识别的视频图像所包含的图像；对待识别对象进行特征融合，得到当前帧图像中待识别对象的至少一个候选关键点；基于上一帧图像中待识别对象的至少一个关键点对至少一个候选关键点进行融合处理，得到当前帧图像中待识别对象的至少一个目标关键点；根据至少一个目标关键点对待识别对象的姿态进行识别，得到识别结果。

实施例4

本申请的实施例可以提供一种计算机设备，该计算机设备可以是计算机终端群中的任意一个计算机设备。可选地，在本实施例中，上述计算机设备也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机设备可以执行视频图像的识别方法中以下步骤的程序代码：从当前帧图像中识别出待识别对象，其中，当前帧图像为待识别的视频图像所包含的图像，并对待识别对象进行特征融合，得到当前帧图像中待识别对象的至少一个候选关键点，从而基于上一帧图像中待识别对象的至少一个关键点对至少一个候选关键点进行融合处理，得到当前帧图像中待识别对象的至少一个目标关键点，进而根据至少一个目标关键点对待识别对象的姿态进行识别，得到识别结果。

可选地，图14是根据本申请实施例的一种计算机设备的结构框图。如图14所示，该计算机设备14可以包括：一个或多个（图中仅示出一个）处理器1402、存储器1404、以及外设接口1406。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的图像识别方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的图像识别方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备14。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：从当前帧图像中识别出待识别对象，其中，当前帧图像为待识别的视频图像所包含的图像，并对待识别对象进行特征融合，得到当前帧图像中待识别对象的至少一个候选关键点，从而基于上一帧图像中待识别对象的至少一个关键点对至少一个候选关键点进行融合处理，得到当前帧图像中待识别对象的至少一个目标关键点，进而根据至少一个目标关键点对待识别对象的姿态进行识别，得到识别结果。

可选的，上述处理器还可以执行上述实施例1中视频图像的识别方法所对应的程序代码。

本领域普通技术人员可以理解，图14所示的结构仅为示意，计算机设备也可以是智能手机（如Android手机、iOS手机等）、平板电脑、掌声电脑以及移动互联网设备（MobileInternet Devices，MID）、PAD等终端设备。图14其并不对上述电子装置的结构造成限定。例如，计算机设备14还可包括比图14中所示更多或者更少的组件（如网络接口、显示装置等），或者具有与图14所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（Read-Only Memory，ROM）、随机存取器（RandomAccess Memory，RAM）、磁盘或光盘等。

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的视频图像的识别方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：从当前帧图像中识别出待识别对象，其中，当前帧图像为待识别的视频图像所包含的图像，并对待识别对象进行特征融合，得到当前帧图像中待识别对象的至少一个候选关键点，从而基于上一帧图像中待识别对象的至少一个关键点对至少一个候选关键点进行融合处理，得到当前帧图像中待识别对象的至少一个目标关键点，进而根据至少一个目标关键点对待识别对象的姿态进行识别，得到识别结果。

可选的，上述存储介质还可以被设置为存储用于执行上述实施例1中视频图像的识别方法所对应的程序代码。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种视频图像的识别方法，其特征在于，包括：

从当前帧图像中识别出待识别对象，其中，所述当前帧图像为待识别的视频图像所包含的图像；

对所述待识别对象进行特征融合，得到所述当前帧图像中所述待识别对象的至少一个候选关键点；

基于上一帧图像中所述待识别对象的至少一个关键点对所述至少一个候选关键点进行融合处理，得到所述当前帧图像中所述待识别对象的至少一个目标关键点；

根据所述至少一个目标关键点对所述待识别对象的姿态进行识别，得到识别结果。

2.根据权利要求1所述的方法，其特征在于，在从当前帧图像中识别出待识别对象之前，所述方法还包括：

获取所述当前帧图像对应的帧标识；

根据所述帧标识确定所述当前帧图像对应的帧类型。

3.根据权利要求2所述的方法，其特征在于，从当前帧图像中识别出待识别对象，包括：

在所述当前帧图像的帧类型为关键帧时，基于第一神经网络模型对所述当前帧图像进行图像处理，得到所述待识别对象在所述当前帧图像的候选区域；

基于所述候选区域对所述当前帧图像进行裁剪，从所述当前帧图像中识别出所述待识别对象。

4.根据权利要求3所述的方法，其特征在于，对所述待识别对象进行特征融合，得到所述当前帧图像中所述待识别对象的至少一个候选关键点，包括：

基于第二神经网络模型对所述待识别对象进行特征提取，得到多个对象特征，其中，所述第二神经网络模型至少包括残差网络，所述残差网络由多个残差单元组成；

确定所述残差网络所对应的目标残差深度；

根据所述目标残差深度确定目标残差网络；

获取所述目标残差网络对所述多个对象特征进行特征融合的融合结果；

根据所述融合结果确定所述至少一个候选关键点。

5.根据权利要求2所述的方法，其特征在于，从当前帧图像中识别出所述待识别对象，包括：

在所述当前帧图像的帧类型为非关键帧时，获取所述待识别对象在所述上一帧图像中的预设区域；

对所述预设区域进行扩展处理，得到扩展后的预设区域；

基于所述扩展后的预设区域确定所述待识别对象在所述当前帧图像中的候选区域；

6.根据权利要求5所述的方法，其特征在于，对所述待识别对象进行特征融合，得到所述当前帧图像中所述待识别对象的至少一个候选关键点，包括：

基于第二神经网络模型对所述待识别对象进行特征融合，得到所述当前帧图像中所述待识别对象的至少一个当前帧关键点；

计算所述至少一个当前帧关键点的平均置信度；

根据所述平均置信度与置信度阈值确定所述当前帧图像中所述待识别对象的至少一个候选关键点。

7.根据权利要求6所述的方法，其特征在于，基于第二神经网络模型对所述待识别对象进行特征融合，得到所述当前帧图像中所述待识别对象的至少一个当前帧关键点，包括：

获取所述第二神经网络模型对所述待识别对象进行特征提取，得到多个对象特征，其中，所述第二神经网络模型至少包括残差网络，所述残差网络由多个残差单元组成；

确定所述残差网络所对应的目标残差深度；

根据所述目标残差深度确定目标残差网络；

根据所述融合结果确定所述至少一个当前帧关键点。

8.根据权利要求6所述的方法，其特征在于，根据所述平均置信度与置信度阈值确定所述当前帧图像中所述待识别对象的至少一个候选关键点，包括：

在所述平均置信度大于或等于所述置信度阈值时，确定所述至少一个当前帧关键点为所述至少一个候选关键点。

9.根据权利要求6所述的方法，其特征在于，根据所述平均置信度与置信度阈值确定所述当前帧图像中所述待识别对象的至少一个候选关键点，包括：

在所述平均置信度小于所述置信度阈值时，基于第一神经网络模型对所述当前帧图像进行图像处理，得到所述待识别对象在所述当前帧图像的候选区域；

基于所述候选区域从所述当前帧图像中识别出所述待识别对象；

基于所述第二神经网络模型对所述待识别对象进行特征融合，得到所述当前帧图像中所述待识别对象的至少一个候选关键点。

10.根据权利要求1所述的方法，其特征在于，在根据所述至少一个目标关键点对所述待识别对象的姿态进行识别，得到识别结果之后，所述方法还包括：

获取所述待识别对象的目标姿态；

确定所述目标姿态与所述待识别对象的姿态之间的姿态差异；

基于所述姿态差异对所述待识别对象的姿态进行姿态调整。

11.一种视频图像的识别方法，其特征在于，包括：

采集待识别的视频图像；

从所述待识别的视频图像中确定当前帧图像，并显示所述当前帧图像中的待识别对象；

在所述待识别对象上显示至少一个目标关键点，其中，所述至少一个目标关键点是通过对上一帧图像中所述待识别对象的至少一个关键点对所述当前帧图像中所述待识别对象的至少一个候选关键点进行融合得到的；

显示根据所述至少一个目标关键点对所述待识别对象的姿态进行识别的识别结果。

12.根据权利要求11所述的方法，其特征在于，在显示根据所述至少一个目标关键点对所述待识别对象的姿态进行识别的识别结果之后，所述方法还包括：

显示所述待识别对象的目标姿态；

显示所述目标姿态与所述待识别对象的姿态之间的姿态差异；

基于所述姿态差异对所述待识别对象的姿态进行调整的调整结果。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至12中任意一项所述的视频图像的识别方法。

14.一种视频图像的识别系统，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：

从当前帧图像中识别出待识别对象，其中，所述当前帧图像为待识别的视频图像所包含的图像；对所述待识别对象进行特征融合，得到所述当前帧图像中所述待识别对象的至少一个候选关键点；基于上一帧图像中所述待识别对象的至少一个关键点对所述至少一个候选关键点进行融合处理，得到所述当前帧图像中所述待识别对象的至少一个目标关键点；根据所述至少一个目标关键点对所述待识别对象的姿态进行识别，得到识别结果。