CN108205655B

CN108205655B - 一种关键点预测方法、装置、电子设备及存储介质

Info

Publication number: CN108205655B
Application number: CN201711084158.1A
Authority: CN
Inventors: 杨涛; 颜深根
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-11-07
Filing date: 2017-11-07
Publication date: 2020-08-11
Anticipated expiration: 2037-11-07
Also published as: CN108205655A

Abstract

本发明实施例公开了一种关键点预测方法、装置、电子设备及存储介质，其中，关键点预测方法包括：获取视频帧中包含有待识别人物的目标区域；将目标区域输入神经网络中的任意一个神经网络单元，生成关键点热点图；其中，神经网络包括多个级联的神经网络单元，每个神经网络单元包括长短期记忆子网络，长短期记忆子网络用于根据目标区域和当前神经网络单元的前级神经网络单元对应的长短期记忆子网络的输出结果筛选记忆特征，所述记忆特征用于确定所述关键点热点图；根据关键点热点图，确定视频帧中人体关键点的位置信息。本发明实施例实现了对视频进行快速高精度的关键点预测，提高了关键点预测的准确度。

Description

一种关键点预测方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及图像识别技术，尤其涉及一种人体关键点的预测方法、装置、电子设备及存储介质。

背景技术

人体关键点的预测是人体运动视觉分析领域的重要研究课题，广泛应用于增强现实、计算机动画以及自动照片处理等领域。传统的人体关键点的预测多数是基于手工设计的图模型，受限于模型表现能力导致预测精度不高。

随着卷积神经网络的发展，人体关键点的预测技术也得到快速发展，但是目前的预测均是对静态图像的预测，不能融合时序特征，且静态关键点预测的存在的预测误差导致视频的人体关键点在连续的各视频帧中不连贯，预测准确率降低。

发明内容

本发明提供一种人体关键点的预测方法、装置、电子设备及存储介质，以实现提高视频中关键点预测的准确度。

第一方面，本发明实施例提供了一种关键点预测方法，该方法包括：

获取视频帧中包含有待识别人物的目标区域；

将所述目标区域输入神经网络中的任意一个神经网络单元，生成关键点热点图；其中，所述神经网络包括多个级联的所述神经网络单元，每个所述神经网络单元包括长短期记忆子网络，所述长短期记忆子网络用于根据所述目标区域和当前神经网络单元的前级神经网络单元对应的长短期记忆子网络的输出结果筛选记忆特征，所述记忆特征用于确定所述关键点热点图；

根据所述关键点热点图，确定所述视频帧中人体关键点的位置信息。

进一步的，获取视频帧中包含有待识别人物的目标区域，包括：

识别所述视频帧中的所述待识别人物的位置信息，根据所述待识别人物的位置信息在所述视频帧中截取预设大小的目标区域，所述待识别人物位于所述目标区域的中心位置。

进一步的，所述方法还包括：

对所述神经网络进行训练；

所述对所述神经网络进行训练，包括：

建立神经网络，所述神经网络包括预设级数的神经网络单元，所述各神经网络单元依次连接，其中，每个所述神经网络单元包括长短期记忆子网络；

在预设帧数的样本视频帧中分别获取对应的样本目标区域，将各所述样本目标区域分别输入对应的神经网络单元，生成人体关键点的训练热点图，其中，所述预设帧数与所述预设级数相同；

根据所述人体关键点的样本热点图和所述训练热点图之间的误差，调节所述神经网络的网络参数。

进一步的，所述神经网络单元还包括第一子网络和第二子网络；

其中，所述第一子网络用于提取所述训练区域的轮廓特征图；

所述长短期记忆子网络分别与所述第一子网络、上一级第二子网络以及上一级的长短期记忆子网络相连，用于根据所述轮廓特征图、所述上一级第二子网络输出的关键点热点图以及上一级长短期记忆子网络输出的记忆特征图，生成当前神经网络单元的记忆特征图，并将所述当前神经网络单元的记忆特征图发送至下一级长短期记忆子网络；

所述第二子网络用于根据所述当前神经网络单元的记忆特征图生成当前神经网络单元的关键点热点图。

进一步的，所述预设神经网络还包括初始神经网络单元，所述初始神经网络单元与第一级神经网络单元连接，用于提取初始训练区域的初始热点图，并根据所述初始热点图对所述长短期记忆子网络进行初始化，所述初始训练区域为所述训练视频的第一训练区域。

进一步的，根据所述人体关键点的样本热点图和所述训练热点图之间的误差，调节所述神经网络的网络参数，包括：

计算所述样本热点图与所述训练热点图对应像素点的像素值的差值，将所述各差值的平方和确定为所述训练热点图的误差，其中，所述像素值与所述人体关键点出现在对应像素点的概率相匹配；

将所述误差依次反传至对应的神经网络单元，根据所述误差更新所述神经网络单元中各通道的网络参数。

进一步的，所述长短期记忆子网络为卷积型神经网络。

进一步的，所述各神经网络单元的对应的网络参数一致。

进一步的，将所述目标区域输入神经网络中的的任意一个神经网络单元，生成关键点热点图，包括：

将所述目标区域输入神经网络中的任一神经网络单元；

基于所述任一神经网络单元的第一子网络提取所述目标区域的轮廓特征图；

将所述轮廓特征图、上一目标区域的关键点热点图以及标准中心热点图依次进行序列组合，生成组合特征图，并将所述组合特征图输入所述任一神经网络单元的长短期记忆子网络；

基于所述长短期记忆子网络对所述组合特征图与上一目标区域的记忆特征图生成所述目标区域的记忆特征图；

基于所述任一神经网络单元的第二子网络根据所述记忆特征图生成所述目标区域的关键点热点图。

进一步的，在所述任一神经网络单元之前设置初始神经网络单元，获取视频帧中包含有待识别人物的目标区域之后，还包括：

获取初始训练区域，将所述初始训练区域输入初始神经网络单元，生成初始热点图；

根据所述初始热点图对所述神经网络单元的长短期记忆子网络进行初始化。

进一步的，在获取视频帧中包含有待识别人物的目标区域之后，还包括：

识别所述目标区域中的待识别人物是否进行切换；

若所述目标区域中的待识别人物进行切换，则将切换后的第一视频帧的目标区域确定为初始训练区域。

进一步的，其中，将所述目标区域输入神经网络中的任意一个神经网络单元，生成关键点热点图，包括：

对所述目标区域进行分组，将每一组中目标区域输入神经网络中的对应的神经网络单元，其中，每一组的目标区域数量与所述神经网络中神经网络单元数量相同；

基于所述对应的神经网络单元的第一子网络提取所述目标区域的轮廓特征图；

将所述轮廓特征图、上一目标区域的关键点热点图以及标准中心热点图依次进行序列组合，生成组合特征图，并将所述组合特征图输入所述对应的神经网络单元的长短期记忆子网络；

基于所述对应的神经网络单元的第二子网络根据所述记忆特征图生成所述目标区域的关键点热点图。

进一步的，在所述神经网络的第一神经网络单元之前设置初始神经网络单元，获取视频帧中包含有待识别人物的目标区域之后，还包括：

根据所述初始热点图对所述神经网络中的长短期记忆子网络进行初始化。

进一步的，在对所述目标区域进行分组之后，还包括：

识别所述目标区域中的待识别人物是否进行切换；

若所述目标区域中的待识别人物进行切换，则将切换后的第一视频帧的目标区域确定为分组节点，以根据分组节点对后续目标区域进行重新分组，并将所述分组节点对应的目标区域确定为初始训练区域。

进一步的，根据所述关键点热点图确定所述视频帧中人体关键点的位置信息，包括：

筛选所述关键点热点图中像素值最大的像素点，将所述像素值最大的像素点的位置信息确定为所述人体关键点的位置信息。

进一步的，根据所述关键点热点图确定所述视频帧中人体关键点的位置信息之前，包括：

根据所述各关键点热点图生成完整热点图，所述完整热点图包含所有人体关键点的位置信息；

根据所述完整热点图对所述人体关键点的位置信息进行校验。

进一步的，所述视频帧为直播视频中的视频帧。

第二方面，本发明实施例还提供了一种关键点预测装置，该装置包括：

目标区域获取模块，用于获取视频帧中包含有待识别人物的目标区域；

热点图生成模块，用于将所述目标区域输入神经网络中的任意一个神经网络单元，生成关键点热点图；其中，所述神经网络包括多个级联的所述神经网络单元，每个所述神经网络单元包括长短期记忆子网络，所述长短期记忆子网络用于根据所述目标区域和当前神经网络单元的前级神经网络单元对应的长短期记忆子网络的输出结果筛选记忆特征，所述记忆特征用于确定所述关键点热点图；

关键点确定模块，用于根据所述关键点热点图确定所述视频帧中人体关键点的位置信息。

进一步的，所述目标区域获取模块具体用于：

进一步的，所述装置还包括神经网络训练模块，用于对所述神经网络进行训练，其中所述神经网络训练模块包括：

神经网络建立单元，用于建立神经网络，所述神经网络包括预设级数的神经网络单元，所述各神经网络单元依次连接，其中，所述神经网络单元至少包括长短期记忆子网络；

训练热点图生成单元，用于在训练视频中截取预设帧数的训练区域，分别输入对应的神经网络单元，生成人体关键点的训练热点图，其中，所述预设帧数与所述预设级数相同；

网络参数调节单元，用于根据所述人体关键点的样本热点图和所述训练热点图，生成误差，根据所述误差调节所述神经网络的网络参数。

进一步的，所述网络参数调节单元包括：

误差确定子单元，用于计算所述样本热点图与所述训练热点图对应像素点的像素值的差值，将所述各差值的平方和确定为所述训练热点图的误差，其中，所述像素值与所述人体关键点出现在对应像素点的概率相匹配；

网络参数调节子单元，用于将所述误差依次反传至对应的神经网络单元，根据所述误差更新所述神经网络单元中各通道的网络参数。

进一步的，所述长短期记忆子网络为卷积型神经网络。

进一步的，所述各神经网络单元的对应的网络参数一致。

进一步的，所述热点图生成模块包括：

第一输入单元，用于将所述目标区域输入神经网络中的任一神经网络单元；

第一轮廓特征图提取单元，用于基于所述任一神经网络单元的第一子网络提取所述目标区域的轮廓特征图；

第一特征图组合单元，用于将所述轮廓特征图、上一目标区域的关键点热点图以及标准中心热点图依次进行序列组合，生成组合特征图，并将所述组合特征图输入所述任一神经网络单元的长短期记忆子网络；

第一记忆特征图生成单元，用于基于所述长短期记忆子网络对所述组合特征图与上一目标区域的记忆特征图生成所述目标区域的记忆特征图；

第一热点图确定单元，用于基于所述任一神经网络单元的第二子网络根据所述记忆特征图生成所述目标区域的关键点热点图。

进一步的，在所述任一神经网络单元之前设置初始神经网络单元，所述装置还包括：

第一初始热点图生成模块，用于获取视频帧中包含有待识别人物的目标区域之后，获取初始训练区域，将所述初始训练区域输入初始神经网络单元，生成初始热点图；

第一初始化模块，用于根据所述初始热点图对所述神经网络单元的长短期记忆子网络进行初始化。

进一步的，所述装置还包括：

第一人物识别模块，用于在获取视频帧中包含有待识别人物的目标区域之后，识别所述目标区域中的待识别人物是否进行切换；

第一初始训练区域确定模块，用于若所述目标区域中的待识别人物进行切换，则将切换后的第一视频帧的目标区域确定为初始训练区域。

进一步的，其中，所述热点图生成模块包括：

第二输入单元，用于对所述目标区域进行分组，将每一组中目标区域输入神经网络中的对应的神经网络单元，其中，每一组的目标区域数量与所述神经网络中神经网络单元数量相同；

第二轮廓特征图提取单元，用于基于所述对应的神经网络单元的第一子网络提取所述目标区域的轮廓特征图；

第二特征图组合单元，用于将所述轮廓特征图、上一目标区域的关键点热点图以及标准中心热点图依次进行序列组合，生成组合特征图，并将所述组合特征图输入所述对应的神经网络单元的长短期记忆子网络；

第二记忆特征图生成单元，用于基于所述长短期记忆子网络对所述组合特征图与上一目标区域的记忆特征图生成所述目标区域的记忆特征图；

第二热点图确定单元，用于基于所述对应的神经网络单元的第二子网络根据所述记忆特征图生成所述目标区域的关键点热点图。

进一步的，在所述神经网络的第一神经网络单元之前设置初始神经网络单元，所述装置还包括：

第二初始热点图生成模块，用于获取视频帧中包含有待识别人物的目标区域之后，获取初始训练区域，将所述初始训练区域输入初始神经网络单元，生成初始热点图；

第二初始化模块，用于根据所述初始热点图对所述神经网络中的长短期记忆子网络进行初始化。

进一步的，所述装置还包括：

第二人物识别模块，用于在对所述目标区域进行分组之后，识别所述目标区域中的待识别人物是否进行切换；

第二初始训练区域确定模块，用于若所述目标区域中的待识别人物进行切换，则将切换后的第一视频帧的目标区域确定为分组节点，以根据分组节点对后续目标区域进行重新分组，并将所述分组节点对应的目标区域确定为初始训练区域。

进一步的，所述关键点确定模块具体用于：

进一步的，所述装置还包括：

完整热点图确定模块，用于根据所述关键点热点图确定所述视频帧中人体关键点的位置信息之前，根据所述各关键点热点图生成完整热点图，所述完整热点图包含所有人体关键点的位置信息；

校验模块，用于根据所述完整热点图对所述人体关键点的位置信息进行校验。

进一步的，所述视频帧为直播视频中的视频帧。

第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本发明任意实施例提供的关键点预测方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，该程序被处理器执行时实现本发明任意实施例提供的关键点预测方法。

本发明实施例将视频帧的目标区域输入神经网络中任意一个包含长短期记忆子网络的神经网络单元，使得神经网络单元中的长短期记忆子网结合前级长短期记忆子网络的输出结果，对目标区域进行记忆特征的筛选，融合各目标区域的时序关系，提高了记忆特征的准确度，进一步提高了人体关键点的识别精度，同时仅由一个神经网络单元对目标区域进行上述关键点预测，而无需将目标区域输入整个神经网络，大大减少了计算时间，解决了视频中人体关键点预测精度低以及计算效率低的问题，实现了对视频进行快速高精度的关键点预测，提高了关键点预测的准确度。

附图说明

图1是本发明实施例一提供的一种关键点预测方法的流程图；

图2为本发明实施例一提供的一种长短期记忆子网络的结构示意图；

图3是本发明实施例一提供的神经网络的训练方法的流程图；

图4为本发明实施例一提供的一种神经网络的示意图；

图5是本发明实施例二提供的一种关键点预测方法的流程图；

图6是本发明实施例一二供的一种目标区域的示意图；

图7是本发明实施例二提供的组合特征图的示意图；

图8是本发明实施例二提供的关键点热点图的示意图；

图9是本发明实施例三提供的一种关键点预测方法的流程图；

图10是本发明实施例四提供的一种关键点预测装置的结构示意图；

图11为本发明实施例五提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种关键点预测方法的流程图，该方法可以由本发明实时提供的关键点预测装置来执行，该装置可采用软件和/或硬件的方式实现，例如，关键点预测装置可通过其设置的处理器运行存储器存储的相应指令来实现。参见图1，该方法包括：

S110、获取视频帧中包含有待识别人物的目标区域。

其中，待处理视频中包括至少一视频帧，各视频帧中包括待识别人物。目标区域指的是视频帧中包含待识别人物的区域，可选的，目标区域可以是原始视频帧，也可以是对原始视频帧进行图像预处理，生成的子图像。示例性的，图像预处理可以包括但不限于图像均一化处理、图像旋转和图像分割或裁剪等。

可选的，获取各视频帧中待识别人物的目标区域，包括：识别视频帧中的待识别人物的位置信息，根据待识别人物的位置信息在视频帧中截取预设大小的目标区域，待识别人物位于目标区域的中心位置。

本实施例中，在各视频帧中确定待识别人物的位置信息可以是通过人脸识别或者附属特征信息识别的方式，确定待识别人物，读取待识别人物的位置信息。示例性的，待识别人物的位置信息可以是待识别人物中心点的坐标信息。可选的，待识别人物的附属特征信息可以是但不限于待识别人物的服饰信息。

可选的，将待识别人物的位置信息为目标区域的中心位置信息，对视频帧进行预处理，获取预设大小的目标区域，其中，目标区域的尺寸根据用户需求确定，本实施例对此不进行限定。本实施例中，对各原始视频帧进行预处理生成预设大小的目标区域，且待识别人物位于目标区域的中心位置，避免了原始视频帧中包含大量非必要信息，导致大量非必要计算的问题，提高了目标区域的针对性。

可选的，检测目标区域中待识别人物在目标区域中的比例，若目标区域中待识别人物所占比例过小或者目标区域未包含全部的待识别人物，则对原始视频帧进行放大或缩小，使得经预处理获取的目标区域中包含完整的待识别人物区域，提高了目标区域中待识别人物的准确度。

S120、将目标区域输入神经网络中的任意一个神经网络单元，生成关键点热点图。

其中，其中，神经网络包括多个级联的神经网络单元，每个神经网络单元包括长短期记忆子网络，长短期记忆子网络用于根据目标区域和当前神经网络单元的前级神经网络单元对应的长短期记忆子网络的输出结果筛选记忆特征，所述记忆特征用于确定所述关键点热点图。

本实施例中，神经网络包括预多级的神经网络单元，且各级神经网络单元依次相连。本实施例中，可以是将目标区域输入神经网络的任意一个神经网络单元，其中，神经网络中各神经网络单元中对应的网络参数一致，神经网络中的各个神经网络单元具有相同的人体关键点的识别能力。

可选的，视频帧的数量可以是与神经网络中神经网络单元的级数相同或不同。示例性的，视频帧输入神经网络时，相邻视频帧可以是输入相邻的神经网络单元，也可以是间隔输入不相邻的神经网络单元，也可以是依次输入同一神经网络单元。本实施例中，由于神经网络中的每一个神经网络单元均具有相同的结构、网络参数以及识别能力，使得神经网络具有很强的灵活性和适用性，可根据需求设置神经网络单元的架构。

本实施例中，基于任意一个神经网络单元提取目标区域的特征信息，并进行加权处理，输出与目标区域对应的关键点热点图。关键点热点图用于表征人体关键点在目标区域中位置信息。可选的，待识别人物的关键点包括但不限于头、脖子、左手肘、左手腕、左肩膀、左胯部、左膝盖、左脚踝、右手肘、右手腕、右肩膀、右胯部、右膝盖和右脚踝等。可选的，关键点热点图可以是仅包含一个关键点的特征图，也可以是同时包含多个或全部关键点的特征图。

长短期记忆子网络是一种特殊的递归神经网络，能够学习长期依赖关系。其中，长短期记忆子网络中由输入门、遗忘门和输出门管理，包含记忆体和隐含层，各长短期记忆子网络依次连接，根据每个长短期记忆子网络中输入信息和前一级长短期记忆子网络的隐含层共同调节本级长短期记忆子网络的多个门单元，用于辅助记忆体进行选择性遗忘和信息更新，提高本级神经网络单元的预测结果的准确度。

可选的，长短期记忆子网络为卷积型神经网络。示例性的，参见图2，图2为本发明实施例一提供的一种长短期记忆子网络的结构示意图。需要说明的是，图2仅为一种可选实例，长短期记忆子网络可根据用户需求进行不同结构的设置。本实施例中，该长短期记忆子网络的信息计算过程为：

i_t＝σ(W_xi*X_t+W_hi*h_t-1+b_i)

f_t＝σ(W_xf*X_t+W_hf*h_t-1+b_f)

O_t=σ(W_xo*X_t+W_ho*h_t-1+b_o)

C_t＝f_t⊙C_t-1+i_t⊙g_t

其中，两种非线性激活函数为

和

i_t、f_t、o_t分别代表t时刻输入门、遗忘门和输出门所对应的状态量，C_t为t时刻记忆体中的记忆特征信息，g_t为t时刻输入记忆体的更新特征信息，W_xi、W_xf、W_xo、W_xg分别为输入门、遗忘门、输出门和更新特征信息所对应的X_t的权重转移矩阵，W_hi、W_hf、W_ho、W_hg分别为输入门、遗忘门、输出门和更新特征信息所对应的t-1时刻隐含层h_t-1的权重转移矩阵，b_i、b_f、b_o、b_g分别为输入门、遗忘门、输出门和更新特征信息的偏置向量。需要说明的是，上述公式仅是长短期记忆子网络前向传导过程的一种可选的表示方式，而非唯一的表示方式。

本实施例中，神经网络中包含卷积型的长短期记忆子网络，即长短期记忆子单元中各门单元为卷积控制，相对于传统长短期记忆神经网络，提高了神经网络的训练效率和计算效率，且卷积型长短期记忆子网络不仅能够实现对全局信息的提取，还能够对局部信息进行提取，将局部信息和全局信息进行结合，增强了神经网络对目标区域的理解，提高了神经网络对目标区域中关键点的预测精度。

本实施例中，神经网络单元中的长短期记忆子网络能够根据目标区域和当前神经网络单元的前级神经网络单元对应的长短期记忆子网络的输出结果筛选记忆特征，以使当前神经网络单元根据记忆特征确定关键点热点图，将前级神经网络单元对应的长短期记忆子网络的输出结果作为本级神经网络单元进行关键点预测的依据，使得本级神经网络单元能够获取前级神经网络单元所处理的目标区域的时序信息，提高了本级神经网络单元的预测精度。需要说明的是，前级神经网络单元可以是与本级神经网络单元相连的前一级神经网络单元，也可以是神经网络中与本级神经网络单元具有间隔的在前神经网络单元。

应当理解，除了卷积型神经网络之外，长短期记忆子网络还可为非卷积类型的神经网络，神经网络的网络结构除了上述列举的例子之外，还可选用层数、层、不同卷积核和/或权重等网络参数的其他网络结构。

神经网络是预先训练得到的，通过训练过程调整神经网络的网络参数，使得神经网络具有针对目标区域的特征信息的提取、加权计算等处理能力。本发明实施例对神经网络的具体训练方法并不限制，本领域技术人员可采用监督、半监督、无监督或者满足深度特征信息处理的人物需求的其他训练方法训练神经网络。

S130、根据关键点热点图确定各视频帧中人体关键点的位置信息。

本实施例中，读取各关键点热点图中的信息，并根据该信息确定对应的关键点的位置信息。

可选的，步骤S130包括：筛选关键点热点图中像素值最大的像素点，将像素值最大的像素点的位置信息确定为人体关键点的位置信息。

本实施例中，关键点热点图中通过像素值表征关键点的置信度，示例性的，人体关键点在该位置的置信度越高，该位置的像素值越大，反之，人体关键点在该位置的置信度越低，该位置的像素值越小。通过读取像素值最大的像素点的位置信息，可确定置信度最大的位置信息，将该位置信息确定为人体关键点的位置信息。其中，该关键点热点图仅包含一个人体关键点信息。

本实施例中，同时将待处理视频的至少一个目标区域输入神经网络，并将前级神经网络单元的关键点热点图作为后级神经网络单元的依据，辅助后级神经网络单元生成精确的关键点热点图，实现了持续不断的输出视频中人体关键点的精确位置信息，提高了视频中关键点预测精度和效率。

其中，视频帧例如可以是但不限于直播视频、动画制作视频和增强现实视频中的视频帧等。示例性的，在获取视频帧中待识别人物的人体关键点的位置信息之后，对该待识别人物进行后续操作，其实后续操作包括但不限于增添服装、道具等附属特征、设置环境等。示例性的，应用于动画制作中，通过快速连续获取视频中待识别人物的人体关键点的位置信息对人体进行描绘，相对于传统的传感器，提高了制作效率，降低了制作成本。

本实施例的技术方案，将视频帧的目标区域输入神经网络中任意一个包含长短期记忆子网络的神经网络单元，使得神经网络单元中的长短期记忆子网结合前级长短期记忆子网络的输出结果，对目标区域进行记忆特征的筛选，融合各目标区域的时序关系，提高了记忆特征的准确度，进一步提高了人体关键点的识别精度，同时仅由一个神经网络单元对目标区域进行上述关键点预测，而无需将目标区域输入整个神经网络，大大减少了计算时间，解决了视频中人体关键点预测精度低以及计算效率低的问题，实现了对视频进行快速高精度的关键点预测，提高了关键点预测的准确度。

在上述实施例的基础上，在步骤S110之前，还包括对神经网络进行训练。参见图3，图3是本发明实施例一提供的神经网络的训练方法的流程图，该神经网络的训练方法可由神经网络的训练装置来执行，该装置可采用软件和/或硬件的方式实现，例如，神经网络的训练装置可通过其设置的处理器运行存储器存储的相应指令来实现。其中，神经网络的训练方法包括：

S101、建立神经网络，神经网络包括预设级数的神经网络单元，各神经网络单元依次连接，神经网络单元至少包括长短期记忆子网络。

本实施例中，神经网络包括预设数量的神经网络单元，且各神经网络单元均包含长短期记忆子网络。其中，神经网络单元的数量根据用户需求确定，示例性的，神经网络单元的数量例如可以是10-15。可选的，长短期记忆子网络为卷积型神经网络。

对建立的神经网络设置随机初始化网络参数，可选的，通过随机逼近法设置神经网络的网络参数，提高初始化网络参数的准确度，避免神经网络无法收敛的问题。

S102、在预设帧数的样本视频帧中分别获取对应的样本目标区域，将各样本目标区域分别输入对应的神经网络单元，生成人体关键点的训练热点图，其中，预设帧数与预设级数相同。

示例性的，若神经网络中神经网络单元的数量为N，N为大于等于1的正整数，则样本视频帧的帧数为N，且样本视频帧为视频中相邻视频帧经预处理生成的。

将各样本视频帧输入对应的神经网络单元，生成人体关键点的训练热点图。

S103、根据人体关键点的样本热点图和训练热点图之间的误差，调节神经网络的网络参数。

本实施例中，与样本视频帧对应的各人体关键点的样本热点图是预先设置的，将人体关键点的样本热点图和训练热点图进行误差计算，示例性的，误差可采用均方误差(Mean Squared Error，MSE)的方式确定。

可选的，步骤S103包括：计算样本热点图与训练热点图对应像素点的像素值的差值，将各差值的平方和确定为训练热点图的误差，像素值与人体关键点出现在对应像素点的概率相匹配；将误差依次反传至对应的神经网络单元，根据误差更新神经网络单元中各通道的网络参数。

其中，神经网络的训练过程包括样本视频帧的正传过程和误差的反传过程。在正传过程中，样本视频帧输入神经网络，各级神经网络单元对样本视频帧进行特征信息提取和加权处理，生成训练热点图。在反传过程中，误差反向输入神经网络，根据误差调节各级神经网络单元的网络参数。上述正传过程和反传过程是迭代进行的，网络参数不断调节的过程直至满足训练完成条件，该过程就是神经网络的优化训练过程。可选的，网络参数包括但不限于权重和偏移值。

可选的，训练完成条件可根据实际情况确定，实现方式灵活，例如：若误差满足预设条件，则可停止对神经网络的训练，即神经网络训练完成；或者，若迭代次数超过预定次数阈值，可停止对神经网络的训练，即预设神经网路训练完成。本实施例中，基于误差进行训练判停的预设条件可以是误差为零，或者小于某一阈值，或者误差达到稳定不下降状态，例如若当前误差小于上一次误差，则继续对神经网络进行优化训练，直到当前误差为零，或者等于上一次误差，确定神经网络训练成功。

可选的，各神经网络单元的对应的网络参数一致，即对各级神经网络单元进行网络参数共享。示例性的，网络参数共享例如可以是对神经网络中任一神经网络单元进行优化训练，并将训练好的网络参数共享至其他神经网络单元。示例性的，网络参数共享例如还可以是包含建立预设级数的神经网络，并进行优化训练，其中预设级数小于第一阈值，在训练好的各神经网络单元中筛选最优网络参数，并将该网络参数进行共享。网络参数共享使得各神经网络单元的对应的网络参数一致，减少了神经网络的中待训练的网络参数的数量，加快了神经网络的训练速度，提高了神经网络的灵活性和适用性。

本实施例的技术方案，通过建立神经网络，该神经网络包括预设数量的神经网络单元，每一个神经网络单元中均包含长短期记忆子网络，通过训练视频对神经网络进行优化训练，使得训练得到的神经网络具有提取视频帧中人体关键点的特征信息，融合前级视频帧的时序信息进行加权处理的能力，使得同时对视频中的多个视频帧的人体关键点进行精确预测，提高了视频中人体关键点的预测效率和预测精度。

可选的，神经网络单元还包括第一子网络和第二子网络；其中，第一子网络用于提取样本视频帧的轮廓特征图；长短期记忆子网络分别与第一子网络、上一级第二子网络以及上一级的长短期记忆子网络相连，用于根据轮廓特征图、上一级第二子网络输出的关键点热点图以及上一级长短期记忆子网络输出的记忆特征图，生成当前神经网络单元的记忆特征图，并将当前神经网络单元的记忆特征图发送至下一级长短期记忆子网络；第二子网络用于根据当前神经网络单元的记忆特征图生成当前神经网络单元的关键点热点图。

示例性的，示例性的，参见图4，图4为本发明实施例一提供的一种神经网络的示意图。可选的，对样本目标区域进行编号，其中样本目标区域的编号可以是与对应视频帧在视频中的帧数相对应。通过第一子网络提取目标区域的轮廓特征图，其中轮廓特征图可以是多个，用于表征目标区域中待识别人物的轮廓信息和背景语义信息等。将上一级神经网络单元输出的关键点热点图与本级轮廓特征图进行组合，形成组合特征图，其中组合特征图中各关键点热点图的序列关系可根据神经网络训练过程中组合特征图的排序规则确定。本级长短期记忆子网络根据上一级长短期记忆子网络发送的记忆特征图，对组合特征图进行遗忘处理和信息更新处理，筛选需要记忆的特征信息，过滤非必要特征信息，生成本级神经网络单元的记忆特征图，并将该记忆特征图发送至下一级长短期记忆子网络以及第二子网络。第二子网络对记忆特征图进一步进行关键点预测，生成多个人体关键点热点图。

本实施例中，通过上一级神经网络单元输出的关键点热点图和上一级长短期记忆子网络发送的记忆特征信息作为本级神经网络单元的依据，为本级神经网络单元提供了时序信息，提高了本级神经网络单元的预测精度。

可选的，神经网络还包括初始神经网络单元，初始神经网络单元与第一级神经网络单元连接，用于提取初始训练区域的初始热点图，并根据初始热点图对长短期记忆子网络进行初始化，初始训练区域为训练视频的第一训练区域。

示例性的，可以是将样本视频中第一视频帧对应的目标区域确定为初始训练区域。示例性的，参见图4，图4中对第一视频帧的目标区域进行预测，并将初始预测结果作为各级神经网络单元提供时序依据，提高各级神经网络单元的预测结果精度。

实施例二

图5是本发明实施例二提供的一种关键点预测方法的流程图，在上述实施例的基础上，提供了有神经网络中任一神经网络单元进行关键点预测的方法。相应的，该方法具体包括：

S210、获取视频帧中包含有待识别人物的目标区域。

S220、将目标区域输入神经网络中的任一神经网络单元。

S230、基于任一神经网络单元的第一子网络提取目标区域的轮廓特征图。

S240、将轮廓特征图、上一目标区域的关键点热点图以及标准中心热点图依次进行序列组合，生成组合特征图，并将组合特征图输入任一神经网络单元的长短期记忆子网络。

S250、基于长短期记忆子网络对组合特征图与上一目标区域的记忆特征图生成目标区域的记忆特征图。

S260、基于任一神经网络单元的第二子网络根据记忆特征图生成目标区域的关键点热点图。

本实施例中，神经网络可以是仅包含一个神经网络单元，也可以是包含多个神经网络单元，选择神经网络中的任一神经网络单元，将视频帧中的目标区域输入到该任一神经网络单元中进行关键点预测处理。其中，若视频帧包含多个视频帧，则将各视频帧的目标区域依次输入该任一神经网络单元。

通过第一子网络提取目标区域的轮廓特征图，其中轮廓特征图可以是多个，用于表征目标区域中待识别人物的轮廓信息和背景语义信息等。该任一神经网络单元将上一目标区域的关键点热点图、轮廓特征图以及标准中心热点图进行组合，形成组合特征图，其中组合特征图中各关键点热点图的序列关系可根据神经网络训练过程中组合特征图的排序规则确定。该任一神经网络单元的长短期记忆子网络根据上一目标区域的记忆特征图，对组合特征图进行遗忘处理和信息更新处理，筛选需要记忆的特征信息，过滤非必要特征信息，生成目标区域的的记忆特征图，并将该记忆特征图作为下一目标区域关键点预测处理的依据。第二子网络对记忆特征图进一步进行关键点预测，生成多个人体关键点热点图。

可选的，在组合特征图中添加标准中心热点图。其中，标准中心热点图的中心像素点的最大，并以中心像素点为中心，像素值依次递减，用于辅助关键点热点图的生成，使得关键点热点图具有与标准中心热点图相似的像素值分布，提高了关键点热点图中人体关键点的准确度。

示例性的，参见图6，图6是本发明实施例二供的一种目标区域的示意图，该目标区域是由原始视频帧进行预处理得到的。参见图7，图7是本发明实施例二提供的组合特征图的示意图。其中，前32张特征图为第一子网络提取的轮廓特征图，第33-46张特征图为上一目标区域的的关键点热点图，最后一种特征图为标准中心热点图。参见图8，图8是本发明实施例二提供的关键点热点图的示意图，其中，图8中第1-14张特征图为各人体关键点热点图，各特征图中像素值最大的点为人体关键点所在位置。图8中最后一张特征图包含所有关键点的特征图，该特征图与图6中待识别人物的目标区域相匹配。可选的，根据关键点热点图确定各视频帧中人体关键点的位置信息之前，包括：根据所述各关键点热点图生成完整热点图，所述完整热点图包含所有人体关键点的位置信息；根据所述完整热点图对所述人体关键点的位置信息进行校验。示例性的，图8中最后一张热点图为包含所有人体关键点的完整热点图，将该完整热点图与图6中目标区域进行匹配，若完整热点图与目标区域中的待识别人物匹配，则确定关键点预测成功；若完整热点图中存在关键点重合或者完整热点图与目标区域中的待识别人物不匹配的情况，则确定关键点预测失败。

可选的，在神经网络的第一神经网络单元之前设置初始神经网络单元，在获取待处理视频中各视频帧中待识别人物的目标区域之后，还包括：获取初始训练区域，将初始训练区域输入初始神经网络单元，生成初始热点图；根据初始热点图对神经网络中的长短期记忆子网络进行初始化。

示例性的，可以是将视频中第一视频帧对应的目标区域确定为初始目标区域，将初始预测结果作为各级神经网络单元提供时序依据，提高各级神经网络单元的预测结果精度。

在上述实施例的基础上，在获取待处理视频中各视频帧中待识别人物的目标区域之后，还包括若目标区域中的待识别人物进行切换，则将切换后的第一视频帧的目标区域确定为初始训练区域。

本实施例中，可以是通过人脸识别等方式确定对待识别人物是否进行切换，示例性的，检测相邻目标区域中待识别人物的脸部特征是否相同。若目标区域中的待识别人物进行切换，即相邻目标区域中待识别人物不同，则将切换后的第一视频帧确定为预设初始目标区域，并对切换后的待识别人物进行关键点预测，避免了切换前的人物关键点信息影响切换后人物关键点的预测结果，降低预测精度。

本实施例的技术方案，通过上一目标区域的关键点热点图和记忆特征信息作为本级神经网络单元的依据，为目标区域中的关键点预测提供了时序信息，提高了神经网络单元的预测精度。同时仅应用一个神经网络单元对视频帧的至少一个目标区域进行关键点预测处理，神经网络架构简单，神经网络占用内存小，可用于内存较小的终端设备中，提高了神经网络的应用灵活性，兼顾了占用内存小、计算速度快和预测精度高。

实施例三

图9是本发明实施例三提供的一种关键点预测方法的流程图，在上述实施例的基础上，提供了由神经网络中多个神经网络单元进行关键点预测的方法。相应的，该方法具体包括：

S310、获取视频帧中包含有待识别人物的目标区域。

S320、对目标区域进行分组，将每一组中目标区域输入神经网络中的对应的神经网络单元，其中，每一组的目标区域数量与神经网络中神经网络单元数量相同。

S330、基于对应的神经网络单元的第一子网络提取目标区域的轮廓特征图。

S340、将轮廓特征图、上一目标区域的关键点热点图以及标准中心热点图依次进行序列组合，生成组合特征图，并将组合特征图输入对应的神经网络单元的长短期记忆子网络。

S350、基于长短期记忆子网络对组合特征图与上一目标区域的记忆特征图生成目标区域的记忆特征图。

S360、基于对应的神经网络单元的第二子网络根据记忆特征图生成目标区域的关键点热点图。

本实施例中，神经网络包括至少两个神经网络单元，示例性的，可以是应用神经网网络中所有的神经网络单元，也可以是在神经网络中选择多个神经网络单元，用于多个目标区域进行关键点预测处理。其中，根据选择的神经网络单元的数量对目标区域进行分组，每一组的目标区域数量与神经网络中选择的神经网络单元数量相同。

本实施例中，将每一组中的目标区域同时输入对应的神经网络单元中，示例性的，将该组中第一目标区域输入第一神经网络单元，将第二目标区域输入第二神经网络单元，并依次类推。

相应的，本级神经网络单元通过第一子网络提取目标区域的轮廓特征图，本级神经网络单元将上一级神经网络单元的关键点热点图、轮廓特征图以及标准中心热点图进行组合，形成组合特征图。本级神经网络单元的长短期记忆子网络根据上一级神经网络单元的长短期记忆子网络对应的记忆特征图，对组合特征图进行遗忘处理和信息更新处理，筛选需要记忆的特征信息，过滤非必要特征信息，生成目标区域的的记忆特征图，并将该记忆特征图发送至下一级神经网络单元的长短期记忆子网络。第二子网络对记忆特征图进一步进行关键点预测，生成多个人体关键点热点图。

可选的，在神经网络的第一神经网络单元之前设置初始神经网络单元，获取视频帧中包含有待识别人物的目标区域之后，还包括：获取初始训练区域，将初始训练区域输入初始神经网络单元，生成初始热点图；根据初始热点图对神经网络中的长短期记忆子网络进行初始化。

可选的，在对目标区域进行分组之后，还包括：识别目标区域中的待识别人物是否进行切换；若目标区域中的待识别人物进行切换，则将切换后的第一视频帧的目标区域确定为分组节点，以根据分组节点对后续目标区域进行重新分组，并将分组节点对应的目标区域确定为初始训练区域。

本实施例中，通过初始训练区域对神经网络进行初始化，在对待识别人物进行检测后，将目标区域中的待识别人物进行切换后的第一视频帧的目标区域确定为分组节点，即将切换前的最后一视频帧的目标区域作为上一组的最后一个目标区域，将切换后的第一视频帧的目标区域作为下一组的第一个目标区域。避免了切换前的人物关键点信息影响切换后人物关键点的预测结果，降低预测精度。

本实施例的技术方案，根据神经网络中应用的神经网络单元对目标区域进行分组，将每一组目标区域依次输入至对应的神经网络单元，使得神经网络可同时对多个目标区域进行关键点预测处理，在对每一个神经网络单元处理目标区域的基础上，进一步提高了关键点预测速度，对应包含大量视频帧的视频来说，大大缩减了视频处理效率，且神经网络中神经网络单元数量可根据需求进行增加或筛减，提供了不同视频的处理灵活性和鲁棒性。

实施例四

图10是本发明实施例四提供的一种关键点预测装置的结构示意图，该装置具体包括：

目标区域获取模块410，用于获取视频帧中包含有待识别人物的目标区域；

热点图生成模块420，用于将目标区域输入神经网络中的任意一个神经网络单元，生成关键点热点图；其中，神经网络包括多个级联的神经网络单元，每个神经网络单元包括长短期记忆子网络，长短期记忆子网络用于根据目标区域和当前神经网络单元的前级神经网络单元对应的长短期记忆子网络的输出结果筛选记忆特征，记忆特征用于确定关键点热点图；

关键点确定模块430，用于根据关键点热点图确定视频帧中人体关键点的位置信息。

可选的，目标区域获取模块410具体用于：

识别视频帧中的待识别人物的位置信息，根据待识别人物的位置信息在视频帧中截取预设大小的目标区域，待识别人物位于目标区域的中心位置。

可选的，装置还包括神经网络训练模块，用于对神经网络进行训练，其中神经网络训练模块包括：

神经网络建立单元，用于建立神经网络，神经网络包括预设级数的神经网络单元，各神经网络单元依次连接，其中，神经网络单元至少包括长短期记忆子网络；

训练热点图生成单元，用于在训练视频中截取预设帧数的训练区域，分别输入对应的神经网络单元，生成人体关键点的训练热点图，其中，预设帧数与预设级数相同；

网络参数调节单元，用于根据人体关键点的样本热点图和训练热点图，生成误差，根据误差调节神经网络的网络参数。

可选的，神经网络单元还包括第一子网络和第二子网络；

其中，第一子网络用于提取训练区域的轮廓特征图；

长短期记忆子网络分别与第一子网络、上一级第二子网络以及上一级的长短期记忆子网络相连，用于根据轮廓特征图、上一级第二子网络输出的关键点热点图以及上一级长短期记忆子网络输出的记忆特征图，生成当前神经网络单元的记忆特征图，并将当前神经网络单元的记忆特征图发送至下一级长短期记忆子网络；

第二子网络用于根据当前神经网络单元的记忆特征图生成当前神经网络单元的关键点热点图。

可选的，预设神经网络还包括初始神经网络单元，初始神经网络单元与第一级神经网络单元连接，用于提取初始训练区域的初始热点图，并根据初始热点图对长短期记忆子网络进行初始化，初始训练区域为训练视频的第一训练区域。

可选的，网络参数调节单元包括：

误差确定子单元，用于计算样本热点图与训练热点图对应像素点的像素值的差值，将各差值的平方和确定为训练热点图的误差，其中，像素值与人体关键点出现在对应像素点的概率相匹配；

网络参数调节子单元，用于将误差依次反传至对应的神经网络单元，根据误差更新神经网络单元中各通道的网络参数。

可选的，长短期记忆子网络为卷积型神经网络。

可选的，各神经网络单元的对应的网络参数一致。

可选的，热点图生成模块420包括：

第一输入单元，用于将目标区域输入神经网络中的任一神经网络单元；

第一轮廓特征图提取单元，用于基于任一神经网络单元的第一子网络提取目标区域的轮廓特征图；

第一特征图组合单元，用于将轮廓特征图、上一目标区域的关键点热点图以及标准中心热点图依次进行序列组合，生成组合特征图，并将组合特征图输入任一神经网络单元的长短期记忆子网络；

第一记忆特征图生成单元，用于基于长短期记忆子网络对组合特征图与上一目标区域的记忆特征图生成目标区域的记忆特征图；

第一热点图确定单元，用于基于任一神经网络单元的第二子网络根据记忆特征图生成目标区域的关键点热点图。

可选的，在任一神经网络单元之前设置初始神经网络单元，装置还包括：

第一初始热点图生成模块，用于获取视频帧中包含有待识别人物的目标区域之后，获取初始训练区域，将初始训练区域输入初始神经网络单元，生成初始热点图；

第一初始化模块，用于根据初始热点图对神经网络单元的长短期记忆子网络进行初始化。

可选的，装置还包括：

第一人物识别模块，用于在获取视频帧中包含有待识别人物的目标区域之后，识别目标区域中的待识别人物是否进行切换；

第一初始训练区域确定模块，用于若目标区域中的待识别人物进行切换，则将切换后的第一视频帧的目标区域确定为初始训练区域。

可选的，热点图生成模块420包括：

第二输入单元，用于对目标区域进行分组，将每一组中目标区域输入神经网络中的对应的神经网络单元，其中，每一组的目标区域数量与神经网络中神经网络单元数量相同；

第二轮廓特征图提取单元，用于基于对应的神经网络单元的第一子网络提取目标区域的轮廓特征图；

第二特征图组合单元，用于将轮廓特征图、上一目标区域的关键点热点图以及标准中心热点图依次进行序列组合，生成组合特征图，并将组合特征图输入对应的神经网络单元的长短期记忆子网络；

第二记忆特征图生成单元，用于基于长短期记忆子网络对组合特征图与上一目标区域的记忆特征图生成目标区域的记忆特征图；

第二热点图确定单元，用于基于对应的神经网络单元的第二子网络根据记忆特征图生成目标区域的关键点热点图。

可选的，在神经网络的第一神经网络单元之前设置初始神经网络单元，装置还包括：

第二初始热点图生成模块，用于获取视频帧中包含有待识别人物的目标区域之后，获取初始训练区域，将初始训练区域输入初始神经网络单元，生成初始热点图；

第二初始化模块，用于根据初始热点图对神经网络中的长短期记忆子网络进行初始化。

可选的，装置还包括：

第二人物识别模块，用于在对目标区域进行分组之后，识别目标区域中的待识别人物是否进行切换；

第二初始训练区域确定模块，用于若目标区域中的待识别人物进行切换，则将切换后的第一视频帧的目标区域确定为分组节点，以根据分组节点对后续目标区域进行重新分组，并将分组节点对应的目标区域确定为初始训练区域。

可选的，关键点确定模块430具体用于：

筛选关键点热点图中像素值最大的像素点，将像素值最大的像素点的位置信息确定为人体关键点的位置信息。

可选的，装置还包括：

完整热点图确定模块，用于根据关键点热点图确定视频帧中人体关键点的位置信息之前，根据各关键点热点图生成完整热点图，完整热点图包含所有人体关键点的位置信息；

校验模块，用于根据完整热点图对人体关键点的位置信息进行校验。

可选的，视频帧为直播视频中的视频帧。

本发明实施例提供的关键点预测装置可执行本发明任意实施例所提供的关键点预测方法，具备执行关键点预测方法相应的功能模块和有益效果。

实施例五

图11为本发明实施例五提供的一种电子设备的结构示意图。图11示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图11显示的电子设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示，电子设备12可包括具有运算处理能力的电子设备，其类型可包括但不限于终端设备和服务端设备，其中终端设备例如可以是移动终端、PC机等，服务端设备例如可以是服务器或计算机集群等。电子设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图11未显示，通常称为“硬盘驱动器”)。尽管图11中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该电子设备12交互的设备通信，和/或与使得该电子设备12能与一个或多个其它电子设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与电子设备12的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16可包括但不限于中央处理单元(CPU)和/或图像处理器(GPU)，通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本申请发明实施例提供的任一种关键点预测方法：

获取视频帧中包含有待识别人物的目标区域；

实施例六

本发明实施例六提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请发明实施例提供的关键点预测方法：

获取视频帧中包含有待识别人物的目标区域；

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种关键点预测方法，其特征在于，包括：

获取视频帧中包含有待识别人物的目标区域；

2.根据权利要求1所述的方法，其特征在于，获取视频帧中包含有待识别人物的目标区域，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述神经网络进行训练；

所述对所述神经网络进行训练，包括：

4.根据权利要求3所述的方法，其特征在于，所述神经网络单元还包括第一子网络和第二子网络；

其中，所述第一子网络用于提取训练区域的轮廓特征图；

5.根据权利要求3所述的方法，其特征在于，预设神经网络还包括初始神经网络单元，所述初始神经网络单元与第一级神经网络单元连接，用于提取初始训练区域的初始热点图，并根据所述初始热点图对所述长短期记忆子网络进行初始化，所述初始训练区域为训练视频的第一训练区域。

6.根据权利要求3所述的方法，其特征在于，根据所述人体关键点的样本热点图和所述训练热点图之间的误差，调节所述神经网络的网络参数，包括：

7.根据权利要求1-6任一所述的方法，其特征在于，所述长短期记忆子网络为卷积型神经网络。

8.根据权利要求1-6任一所述的方法，其特征在于，所述各神经网络单元的对应的网络参数一致。

9.根据权利要求1所述的方法，其特征在于，将所述目标区域输入神经网络中的任意一个神经网络单元，生成关键点热点图，包括：

将所述目标区域输入神经网络中的任一神经网络单元；

10.根据权利要求9所述的方法，其特征在于，在所述任一神经网络单元之前设置初始神经网络单元，获取视频帧中包含有待识别人物的目标区域之后，还包括：

11.根据权利要求10所述的方法，其特征在于，在获取视频帧中包含有待识别人物的目标区域之后，还包括：

识别所述目标区域中的待识别人物是否进行切换；

12.根据权利要求1所述的方法，其特征在于，其中，将所述目标区域输入神经网络中的任意一个神经网络单元，生成关键点热点图，包括：

13.根据权利要求12所述的方法，其特征在于，在所述神经网络的第一神经网络单元之前设置初始神经网络单元，获取视频帧中包含有待识别人物的目标区域之后，还包括：

14.根据权利要求13所述的方法，其特征在于，在对所述目标区域进行分组之后，还包括：

识别所述目标区域中的待识别人物是否进行切换；

15.根据权利要求1-6或9-14中任一所述的方法，其特征在于，根据所述关键点热点图确定所述视频帧中人体关键点的位置信息，包括：

16.根据权利要求7所述的方法，其特征在于，根据所述关键点热点图确定所述视频帧中人体关键点的位置信息，包括：

17.根据权利要求8所述的方法，其特征在于，根据所述关键点热点图确定所述视频帧中人体关键点的位置信息，包括：

18.在权利要求1-6或9-14中任一所述的方法，其特征在于，根据所述关键点热点图确定所述视频帧中人体关键点的位置信息之前，包括：

19.根据权利要求7所述的方法，其特征在于，根据所述关键点热点图确定所述视频帧中人体关键点的位置信息之前，包括：

20.根据权利要求8所述的方法，其特征在于，根据所述关键点热点图确定所述视频帧中人体关键点的位置信息之前，包括：

21.根据权利要求1-6或9-14中任一所述的方法，其特征在于，所述视频帧为直播视频中的视频帧。

22.根据权利要求7所述的方法，其特征在于，所述视频帧为直播视频中的视频帧。

23.根据权利要求8所述的方法，其特征在于，所述视频帧为直播视频中的视频帧。

24.一种关键点预测装置，其特征在于，包括：

25.根据权利要求24所述的装置，其特征在于，所述目标区域获取模块具体用于：

26.根据权利要求24所述的装置，其特征在于，所述装置还包括神经网络训练模块，用于对所述神经网络进行训练，其中所述神经网络训练模块包括：

训练热点图生成单元，用于在训练视频中截取预设帧数的训练区域，分别输入对应的神经网络单元，生成人体关键点的训练热点图，所述预设帧数与所述预设级数相同；

27.根据权利要求26所述的装置，其特征在于，所述神经网络单元还包括第一子网络和第二子网络；

28.根据权利要求26所述的装置，其特征在于，预设神经网络还包括初始神经网络单元，所述初始神经网络单元与第一级神经网络单元连接，用于提取初始训练区域的初始热点图，并根据所述初始热点图对所述长短期记忆子网络进行初始化，所述初始训练区域为所述训练视频的第一训练区域。

29.根据权利要求26所述的装置，其特征在于，所述网络参数调节单元包括：

30.根据权利要求24-29任一所述的装置，其特征在于，所述长短期记忆子网络为卷积型神经网络。

31.根据权利要求24-29任一所述的装置，其特征在于，所述各神经网络单元的对应的网络参数一致。

32.根据权利要求24所述的装置，其特征在于，所述热点图生成模块包括：

33.根据权利要求32所述的装置，其特征在于，在所述任一神经网络单元之前设置初始神经网络单元，所述装置还包括：

34.根据权利要求33所述的装置，其特征在于，所述装置还包括：

35.根据权利要求24所述的装置，其特征在于，其中，所述热点图生成模块包括：

36.根据权利要求35所述的装置，其特征在于，在所述神经网络的第一神经网络单元之前设置初始神经网络单元，所述装置还包括：

37.根据权利要求36所述的装置，其特征在于，所述装置还包括：

38.根据权利要求24-29或32-37中任一所述的装置，其特征在于，所述关键点确定模块具体用于：

39.根据权利要求30所述的装置，其特征在于，所述关键点确定模块具体用于：

40.根据权利要求31所述的装置，其特征在于，所述关键点确定模块具体用于：

41.在权利要求24-29或32-37中任一所述的装置，其特征在于，所述装置还包括：

42.根据权利要求30所述的装置，其特征在于，所述装置还包括：

43.根据权利要求31所述的装置，其特征在于，所述装置还包括：

44.根据权利要求24-29或32-37中任一所述的装置，其特征在于，所述视频帧为直播视频中的视频帧。

45.根据权利要求30所述的装置，其特征在于，所述视频帧为直播视频中的视频帧。

46.根据权利要求31所述的装置，其特征在于，所述视频帧为直播视频中的视频帧。

47.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-23中任一所述的一种关键点预测方法。

48.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-23中任一所述的一种关键点预测方法。