CN109584276A

CN109584276A - 关键点检测方法、装置、设备及可读介质

Info

Publication number: CN109584276A
Application number: CN201811475894.4A
Authority: CN
Inventors: 胡耀全
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2018-12-04
Filing date: 2018-12-04
Publication date: 2019-04-05
Anticipated expiration: 2038-12-04
Also published as: CN109584276B

Abstract

本公开实施例公开了一种关键点检测方法、装置、设备及可读介质。其中，方法包括：获取显示有用户图像的视频帧序列；将视频帧序列的模板帧输入至关键点检测模型，得到多个关键点的位置信息；将模板帧中包括多个关键点的目标对象和检测帧输入至跟踪模型，检测到检测帧中的目标对象，并得到目标对象中多个关键点的位置信息。本公开实施例能够提高关键点检测的效率和准确性。

Description

关键点检测方法、装置、设备及可读介质

技术领域

本公开实施例涉及计算机视觉技术，尤其涉及一种关键点检测方法、装置、设备及可读介质。

背景技术

随着计算机视觉的发展，一些电子设备可以从用户的图像中检测出用户的各个关键点，例如各个关节、肢体和五官等。

目前，检测出的关键点往往会进一步处理，达到美化、矫正、动作识别等目的，从而对关键点检测的准确性和效率提出了更高的要求，然而，现有的关键点检测方法并不能满足高准确性和高效率的要求。

发明内容

本公开实施例提供一种关键点检测方法、装置、设备及可读介质，以提高关键点检测的准确性和效率。

第一方面，本公开实施例提供了一种关键点检测方法，包括：

获取显示有用户图像的视频帧序列；

将视频帧序列的模板帧输入至关键点检测模型，得到多个关键点的位置信息；

将模板帧中包括多个关键点的目标对象和检测帧输入至跟踪模型，检测到检测帧中的目标对象，并得到目标对象中多个关键点的位置信息；

其中，检测帧是视频帧序列中模板帧的任一后续帧。

第二方面，本公开实施例还提供了一种关键点检测装置，包括：

获取模块，用于获取显示有用户图像的视频帧序列；

第一检测模块，用于将视频帧序列的模板帧输入至关键点检测模型，得到多个关键点的位置信息；

第二检测模块，用于将模板帧中包括多个关键点的目标对象和检测帧输入至跟踪模型，检测到检测帧中的目标对象，并得到目标对象中多个关键点的位置信息；

其中，检测帧是视频帧序列中模板帧的任一后续帧。

第三方面，本公开实施例还提供了一种电子设备，所述电子设备包括：

一个或多个处理装置；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理装置实现任一实施例所述的关键点检测方法。

第四方面，本公开实施例还提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理装置执行时实现任一实施例所述的关键点检测方法。

本公开实施例中，通过获取显示有用户图像的视频帧序列；将视频帧序列的模板帧输入至关键点检测模型，得到多个关键点的位置信息；将模板帧中包括多个关键点的目标对象和检测帧输入至跟踪模型，检测到检测帧中的目标对象，并得到目标对象中多个关键点的位置信息，从而对检测帧基于跟踪模型进行关键点检测，无需输入至关键点检测模型，节省计算时间，提高检测效率；通过在跟踪模型中输入目标对象为参考，提高了检测的准确性，在检测帧中目标对象被遮挡、运动模糊的情况下，也能较精确地检测到关键点的位置信息。

附图说明

图1是本公开实施例一提供的一种关键点检测方法的流程图；

图2是本公开实施例二提供的一种关键点检测方法的流程图；

图3是本公开实施例三提供的一种关键点检测方法的流程图；

图4是本公开实施例四提供的一种关键点检测装置的结构示意图；

图5是本公开实施例五提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本公开，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分而非全部结构。下述各实施例中，每个实施例中同时提供了可选特征和示例，实施例中记载的各个特征可进行组合，形成多个可选方案，不应将每个编号的实施例仅视为一个技术方案。

实施例一

图1是本公开实施例一提供的一种关键点检测方法的流程图，本实施例可适用于对显示有用户图像的视频帧序列进行关键点检测的情况，该方法可以由关键点检测装置来执行，该装置可以由硬件和/或软件构成，并集成在电子设备中，具体包括如下操作：

S110、获取显示有用户图像的视频帧序列。

视频帧序列指视频流中的一段时间内的连续视频帧时间段内的连续视频帧，该视频帧序列包括多个视频帧，例如20个视频帧。

本实施例中，获取的视频帧序列的时长应较短，例如该时长在预设时长范围内，例如3秒，使得用户图像在不同视频帧中的显示位置变化较小、姿态变换较小，从而提高跟踪模型检测的准确性。

可选地，视频帧序列的各个视频帧中显示有用户图像，用户图像上显示有至少一个关键点，例如用户的头顶、左肩、右膝等。

S120、将视频帧序列的模板帧输入至关键点检测模型，得到多个关键点的位置信息。

视频帧序列的模板帧为视频帧序列中的任一帧，检测帧为模板帧的任一后续帧。由于视频帧序列中后一视频帧中的用户图像在前一视频帧的基础上进一步变化，将视频帧序列中的首帧确定为模板帧，将后续帧确定为检测帧。

关键点检测模型，用于检测模板帧中用户的多个关键点的位置信息。可选地，关键点的位置信息包括关键点的位置坐标，例如用(x,y)表示。

S130、将模板帧中包括多个关键点的目标对象和检测帧输入至跟踪模型，检测到检测帧中的目标对象，并得到目标对象中多个关键点的位置信息。

在S120中得到多个关键点的位置信息之后，计算包括多个关键点的目标对象的尺寸。可选地，在从模板帧中检测到的多个关键点的位置信息中选择最大横坐标、最大纵坐标、最小横坐标和最小纵坐标，根据最大横坐标、最大纵坐标、最小横坐标和最小纵坐标确定目标对象的尺寸，或者将最大横坐标、最大纵坐标、最小横坐标和最小纵坐标构成的区域扩大第一预设倍数后，得到目标对象的尺寸，第一预设倍数例如为10％、15％等。最后，按照目标对象的尺寸，从模板帧中截取目标对象。

本实施例中，检测帧的数量为至少一个。当检测帧的数量为多个时，按照时间顺序，将检测帧依次输入至跟踪模型，同时，将目标对象输入至跟踪模型。可选地，由于多个检测帧均以模板帧中的目标对象为参考，则在第一个检测帧输入至跟踪模型时，输入目标对象即可，后续输入与该模板帧中的目标对象为参考的其它检测帧时，不需要再次输入目标对象。

跟踪模型，用于以模板帧中的目标对象为参考，对检测帧中的目标对象进行检测，以及检测目标对象中多个关键点的位置信息。其中，模板帧中的目标对象包括多个关键点，如果跟踪模型检测到检测帧中的目标对象，说明跟踪到目标对象，继而检测目标对象中多个关键点的位置信息。

实施例二

本实施例对上述实施例中各可选实施方式进一步优化，可选地，在上述实施例中追加操作“将模板帧中包括多个关键点的目标对象和检测帧输入至跟踪模型，如果未检测到检测帧中的目标对象，将检测帧确定为新的模板帧；返回执行将视频帧序列的模板帧输入至关键点检测模型，得到多个关键点的位置信息的操作”。图2是本公开实施例二提供的一种关键点检测方法的流程图，具体包括以下操作：

S210、获取显示有用户图像的视频帧序列。

S220、将视频帧序列的模板帧输入至关键点检测模型，得到多个关键点的位置信息。

S230、将模板帧中包括多个关键点的目标对象和检测帧输入至跟踪模型。

S240、判断跟踪模型是否检测到检测帧中的目标对象，如果检测到，跳转到S241；如果未检测到，跳转到S242。

S241、得到检测帧中目标对象中多个关键点的位置信息。

S242、将检测帧确定为新的模板帧。返回执行S220。

本实施例中，将多个检测帧依次输入至跟踪模型，跟踪模型首先根据模板帧中的目标对象，检测检测帧中的目标对象。如果检测到，继续得到检测帧中目标对象中多个关键点的位置信息。如果没有检测到，说明检测帧中的用户图像与模板帧中的用户图像差别较大，不能根据跟踪模型得到关键点的位置信息；则将检测帧作为新的模板帧，将新的模板帧输入至关键点检测模型，得到多个关键点的位置信息。接着，将新的模板帧的后续检测帧以及新的模板帧中包括多个关键点的目标对象输入至跟踪模型，由跟踪模型检测新的模板帧的后续检测帧中多个关键点的位置信息。

本实施例中，通过未检测到检测帧中的目标对象，将检测帧确定为新的模板帧，进而执行将视频帧序列的新的模板帧输入至关键点检测模型，得到多个关键点的位置信息的操作，进一步提高了检测准确性。

实施例三

本实施例对上述实施例的各可选实施方式进一步优化，本实施例提供了关键点检测模型和跟踪模型的训练过程。由于关键点检测模型和跟踪模型联合对视频帧序列进行关键点检测，基于此，本实施例对关键点检测模型和跟踪模型一起训练。结合图3，本公开实施例提供的方法具体包括以下操作：

S310、获取显示有用户图像的多段样本视频帧序列。

每段样本视频帧序列包括多个样本视频帧。样本视频帧序列与上述实施例中的视频帧序列类似，时长在预设时长范围内。

可选地，由于跟踪模型会受限于简单的样本视频帧序列，而缺乏较好的泛化能力。为了提高跟踪模型的泛化能力，提高样本的多样性，S310包括以下操作中的至少一种：

第一种操作：获取显示同一用户不同姿态图像的多段样本视频帧序列。

第二种操作：获取显示不同用户同一姿态图像的多段样本视频帧序列。

第三种操作：获取显示不同用户不同姿态图像的多段样本视频帧序列，其中，不同用户的着装相似度大于等于预设阈值。

第四种操作：获取显示不同用户同一姿态图像的多段样本视频帧序列，其中，不同用户的着装相似度大于等于预设阈值。

第五种操作：获取显示不同用户不同姿态图像的多段样本视频帧序列，其中，不同用户的着装相似度小于等于预设阈值。

在上述各操作中，一段样本视频帧序列中显示同一用户的同一姿态。在第三、四、五种操作中，计算不同用户的着装相似度，例如款式相似度、颜色相似度、尺寸相似度。着装相似度大于等于预设阈值，说明着装类似或者相同；如果着装相似度小于预设阈值，说明着装不类似。

在一些情况下，一段视频帧序列中，可能有的视频帧关键点被遮挡或者运动模糊，为了进一步提高跟踪模型检测的准确性，可选地，对多段样本视频帧序列中的全部或者部分视频帧进行运动模糊处理。运动模糊，是在拍摄设备快门打开的时间内，物体在成像平面上的投影发生平移或旋转，使接受的影像彼此发生重叠。基于此原理，将原视频帧进行平面移动后叠加在原视频帧上，生成运动模糊处理后的视频帧。

S320、从多段样本视频帧序列中获取与多种姿态分别对应的多个目标框，目标框包括对应姿态中多个关键点的位置信息。

可选地，首先获取经过人工标注关键点的多段样本视频帧序列，该标注例如是人工标注的特殊颜色的圆圈。经过图像识别，提取各视频帧中标注的关键点的位置信息，例如标注的中心位置坐标。

接着，对多段样本视频帧序列上标注的关键点的位置信息进行聚类，得到聚类的类别和各类别的聚类中心；可选地，聚类方法包括但不限于k-means聚类算法、层次聚类算法、SOM聚类算法和FCM聚类算法。对各视频帧中多个关键点的位置信息进行聚类后，得到多个聚类的类别以及各类别的聚类中心。

然后，每个聚类的类别代表一种姿态，则根据聚类的类别数量，得到对应数量个姿态向量。接着，根据各类别的聚类中心，得到各姿态向量中的多个关键点的位置信息。

最后，根据各姿态向量中的多个关键点的位置信息，确定包括对应姿态中多个关键点的位置信息的目标框。以各姿态向量中的第一姿态向量为例，其它姿态向量对应的目标框的得到方法相同。从第一姿态向量的多个关键点的位置信息中选择最大横坐标、最大纵坐标、最小横坐标和最小纵坐标。根据最大横坐标、最大纵坐标、最小横坐标和最小纵坐标确定对应的目标框；或者，将根据最大横坐标、最大纵坐标、最小横坐标和最小纵坐标确定的矩形框扩大第二预设倍数后，得到对应的目标框，第二预设倍数例如为10％、15％等。

S330、根据多段样本视频帧序列和多个目标框，训练关键点检测模型和跟踪模型。

首先，预先搭建待训练的关键点检测模型和跟踪模型，再执行两个模型的训练操作。

本实施例中，由于关键点检测模型和跟踪模型是两个独立的模型，分别执行模板帧和检测帧的关键点检测；然而，模板帧的检测准确性直接影响检测帧的检测准确性，因此，对关键点检测模型和跟踪模型进行交替训练。

可选地，以多段样本视频帧序列中的第一段样本视频帧序列为例，其它段样本视频帧序列的训练方法相同，下面详细说明训练过程：

第一步：将多个目标框以及第一段样本视频帧序列的样本模板帧输入至关键点检测模型，得到样本模板帧中的多个候选框对应的类别和多个关键点的位置信息。

其中，样本模板帧为样本视频帧序列中的任一帧，样本检测帧为样本模板帧的任一后续帧。例如，将样本视频帧序列中的首帧确定为样本模板帧，将后续帧确定为样本检测帧。

关键点检测模型首先从样本模板帧中提取多个候选框，从多个候选框中检测关键点的位置信息。

在一具体实施方式中，关键点检测模型包括特征提取层、候选框生成层、分类层和回归层。关键点检测模型通过特征提取层从样本模板帧中提取特征；通过候选框生成层根据提取出的特征，生成多个候选框。其中，每个候选框可能对应任一种姿态类别或者背景类别。然后，通过分类层找到每个候选框对应的类别。基于此，通过分类层分别计算多个候选框与各目标框的重叠度。可选地，通过分类层按照中心对齐的方式，将各目标框放入各候选框中；计算两个中心对齐的目标框和候选框的交并比(Intersection over Union，IoU)作为重叠度。接着，根据重叠度满足预设要求的目标框，确定候选框对应的类别。其中，预设要求例如为重叠度最大，或者重叠度大于预设重叠度阈值。值得说明的是，如果一候选框不对应满足预设要求的目标框，则该候选框的类别为背景类别。最后，通过回归层对多个候选框中的特征进行回归，得到关键点的位置信息，其中，假设姿态类别数量为K，背景类别的数量为1，则候选框对应的类别为K+1个，关键点的数目为N个，则回归层的维度为(K+1)×2×N。

第二步：最小化第一损失函数，对关键点检测模型中的参数进行一次迭代。

其中，第一损失函数包括多个候选框与对应的目标框的距离，以及检测得到的样本模板帧中多个关键点的位置信息与真实位置信息的偏差。可选地，候选框与对应的目标框之间的距离可以用中心点之间的欧式距离来表征。如果一候选框不对应目标框，则认为该候选框与对应的目标框的距离为较大的常数。真实位置信息指样本模板帧中人工标注的关键点的位置信息，检测得到的位置信息与真实位置信息的偏差可以用对应关键点的位置坐标的距离来表征。

通过最小化第一损失函数，对关键点检测模型中特征提取层、候选框生成层、分类层和回归层的参数进行一步迭代。接着执行第三步，训练跟踪模型。

第三步：将样本模板帧中包括多个关键点的目标对象和样本检测帧输入至跟踪模型，得到样本检测帧中目标对象的检测结果和多个关键点的位置信息；

可选地，计算包括多个关键点的目标对象的尺寸。可选地，在从样本模板帧中检测到的多个关键点的位置信息中选择最大横坐标、最大纵坐标、最小横坐标和最小纵坐标，根据最大横坐标、最大纵坐标、最小横坐标和最小纵坐标确定目标对象的尺寸，或者将最大横坐标、最大纵坐标、最小横坐标和最小纵坐标构成的区域扩大第一预设倍数后，得到目标对象的尺寸。最后，按照目标对象的尺寸，从样本模板帧中截取目标对象。

按照时间顺序，将样本检测帧依次输入至跟踪模型，同时将从样本模板帧中截取的目标对象输入至跟踪模型。在第一个样本检测帧输入至跟踪模型时，输入目标对象即可，后续输入与该样本模板帧中的目标对象为参考的其它样本检测帧时，不需要再次输入目标对象。进一步地，为了减少跟踪模型的处理数据量和特征维度，对目标对象和样本检测帧进行缩放后输入至跟踪模型，例如，将目标对象缩放到127×127×3大小，将样本检测帧缩放到255×255×3大小。

在一具体实施方式中，跟踪模型包括：特征提取层、分类层和回归层。首先，跟踪模型通过特征提取层提取目标对象的第一特征，提取样本检测帧多个区域中各区域的第二特征。可选地，设置跟踪模型的锚点为M个，提取样本检测帧中的特征，根据M个锚点，将样本检测帧中的特征划分为M个窗口，分别对应样本视频帧中M个区域。为了方便描述和区分，每个区域中的特征均称为第二特征，目标对象的特征称为第一特征。第一特征和第二特征是通过组合低层特征形成的更加抽象的高层特征。然后，通过分类层计算第一特征与各第二特征的特征映射图。可选地，第一特征与第二特征的通道数可能不同，则对第一特征和各第二特征的通道数进行升维操作，以使通道数一致。对通道数一致的第一特征与各第二特征分别进行卷积，得到特征映射图。接着，根据特征映射图得到样本检测帧各区域对目标对象的检测结果。特征映射图实质是一个特征矩阵，包括多个特征值。特征值越大说明进行卷积的两个特征越相近，则特征映射图中的特征值能够反映第一特征与不同区域的第二特征的相关程度。基于此，如果特征值大于等于预设特征阈值，认为第一特征与该区域的第二特征相关性高，该区域对应正类，即该区域检测到目标对象；如果特征值小于预设特征阈值，认为第一特征与该区域的第二特征相关性低，该区域对应负类，即该区域未检测到目标对象。在具体实施方式中，为了满足输出的格式要求，通过分类层对特征映射图进行维度变形和调整，输出各区域对应的正负类。调整的方式包括经过全连接层，以对每个卷积得到的特征进行综合和降维。最后，通过回归层对特征映射图进行回归，得到关键点的位置信息。可选地，回归层为1×1的卷积核。在一示例中，对特征映射图进行回归后，得到N×N大小的特征映射图，该N×N大小的特征映射图包括N个关键点的位置坐标。

第四步：最小化第二损失函数，对跟踪模型中的参数进行一次迭代。

其中，第二损失函数包括检测结果与真实结果的偏差，以及检测得到的样本检测帧中多个关键点的位置信息与真实位置信息的偏差。参考第三步中的解释，检测结果包括各区域是否检测到目标对象，具体体现为各区域对应的正负类。相应地，真实结果为各区域是否显示有目标对象。真实位置信息指样本检测帧中人工标注的关键点的位置信息，检测得到的位置信息与真实位置信息的偏差可以用对应关键点的位置坐标的距离来表征。

通过最小化第二损失函数，对跟踪模型中特征提取层、分类层和回归层的参数进行一步迭代。接着执行第五步，继续根据下一段样本视频帧序列训练关键点检测模型和跟踪模型。

在一可选实施方式中，由上述关键点检测模型和跟踪模型的结构和功能可知，两个模型中的特征提取层实际提取的是关键点的特征。基于此，为了加快训练速度，在对关键点检测模型中的参数进行一次迭代后，将关键点检测模型中特征提取层的参数传递至跟踪模型的特征提取层中，实现参数共享。在训练跟踪模型时，通过最小化第二损失函数，迭代跟踪模型中分类层和回归层的参数，特征提取层的参数不进行迭代。

第五步：返回执行将多个目标框以及下一段样本视频帧序列的样本模板帧输入至关键点检测模型的操作，直到满足训练结束条件。

训练结束条件包括但不限于多段样本视频帧序列训练完成、关键点检测模型和跟踪模型中的参数收敛、第一损失函数值和第二损失函数值收敛和迭代次数达到预设次数。

S340、获取显示有用户图像的视频帧序列。

S350、将视频帧序列的模板帧输入至关键点检测模型，得到多个关键点的位置信息。

S360、将模板帧中包括多个关键点的目标对象和检测帧输入至跟踪模型，检测到检测帧中的目标对象，并得到目标对象中多个关键点的位置信息。

本实施例中，通过根据多段样本视频帧序列和多个目标框，训练关键点检测模型和跟踪模型，根据目标框对关键点检测模型中的候选框进行约束，提高训练的效率；通过对关键点检测模型和跟踪模型进行交替训练，保证了两个模型均能达到较好的精度，同时减少训练耗时；通过将关键点检测模型中特征提取层的参数传递至跟踪模型的特征提取层中，实现特征提取层的参数共享，加快训练速度；根据跟踪模型和结果和功能可知，跟踪模型的尺寸远小于关键点检测模型，进一步节省了训练时间和检测时间。

通过上述对关键点检测模型和跟踪模型的训练过程，可以直接推断出关键点检测模型和跟踪的模型的检测过程，下面以一具体应用场景进行详细说明。

首先，获取显示有用户图像的视频帧序列。然后，将视频帧序列的模板帧(例如第一帧)以及多个目标框输入至关键点检测模型，得到多个候选框对应的类别以及多个关键点的位置信息；接着，将模板帧中包括多个关键点的目标对象和检测帧(例如第二帧)输入至跟踪模型，得到各区域对应的正负类，且包括正类(即检测到目标对象)，进而得到多个关键点的位置信息。接着，将后续检测帧(例如第三帧)和模板帧中包括多个关键点的目标对象输入至跟踪模型，得到对应输出，直到视频帧序列处理完成。如果各区域对应的正负类中不包括正类(即未检测到目标对象)，则将该检测帧确定为新的模板帧；返回执行将新的模板帧输入至关键点检测模型的操作，直到视频帧序列处理完成。

实施例四

图4是本公开实施例四提供的一种关键点检测装置的结构示意图，包括：获取模块41、第一检测模块42和第二检测模块43。

获取模块41，用于获取显示有用户图像的视频帧序列.

第一检测模块42，用于将视频帧序列的模板帧输入至关键点检测模型，得到多个关键点的位置信息。

第二检测模块43，用于将模板帧中包括多个关键点的目标对象和检测帧输入至跟踪模型，检测到检测帧中的目标对象，并得到目标对象中多个关键点的位置信息。

其中，检测帧是视频帧序列中模板帧的任一后续帧。

本实施例中，通过获取显示有用户图像的视频帧序列；将视频帧序列的模板帧输入至关键点检测模型，得到多个关键点的位置信息；将模板帧中包括多个关键点的目标对象和检测帧输入至跟踪模型，检测到检测帧中的目标对象，并得到目标对象中多个关键点的位置信息，从而对检测帧基于跟踪模型进行关键点检测，无需输入至关键点检测模型，节省计算时间，提高检测效率；通过在跟踪模型中输入目标对象为参考，提高了检测的准确性，在检测帧中目标对象被遮挡、运动模糊的情况下，也能较精确地检测到关键点的位置信息。

可选地，该装置还包括：确定模块和返回模块。确定模块用于将模板帧中包括多个关键点的目标对象和检测帧输入至跟踪模型，如果未检测到检测帧中的目标对象，将检测帧确定为新的模板帧。返回模块用于返回执行将视频帧序列的模板帧输入至关键点检测模型，得到多个关键点的位置信息的操作。

可选地，该装置还包括训练模块，用于在将视频帧序列的模板帧输入至关键点检测模型，得到多个关键点的位置信息之前，获取显示有用户图像的多段样本视频帧序列；从多段样本视频帧序列中获取与多种姿态分别对应的多个目标框，目标框包括对应姿态中多个关键点的位置信息；根据多段样本视频帧序列和多个目标框，训练关键点检测模型和跟踪模型。

可选地，训练模块在从多段样本视频帧序列中获取与多种姿态分别对应的多个目标框时，具体用于：对多段样本视频帧序列上标注的关键点的位置信息进行聚类，得到聚类的类别和各类别的聚类中心；根据聚类的类别数量，得到对应数量个姿态向量；根据各类别的聚类中心，得到各姿态向量中的多个关键点的位置信息；根据各姿态向量中的多个关键点的位置信息，确定包括对应姿态中多个关键点的位置信息的目标框。

可选地，对于多段样本视频帧序列中的第一段样本视频帧序列，训练模块在根据样本视频帧序列和多个目标框，训练关键点检测模型和跟踪模型时，具体用于：将多个目标框以及第一段样本视频帧序列的样本模板帧输入至关键点检测模型，得到样本模板帧中的多个候选框分别对应的类别和多个关键点的位置信息；最小化第一损失函数，对关键点检测模型中的参数进行一次迭代，其中，第一损失函数包括多个候选框与对应的目标框的距离，以及检测得到的样本模板帧中多个关键点的位置信息与真实位置信息的偏差；将样本模板帧中包括多个关键点的目标对象和样本检测帧输入至跟踪模型，得到样本检测帧中目标对象的检测结果和多个关键点的位置信息；最小化第二损失函数，对跟踪模型中的参数进行一次迭代，其中，第二损失函数包括检测结果与真实结果的偏差，以及检测得到的样本检测帧中多个关键点的位置信息与真实位置信息的偏差；返回执行将多个目标框以及下一段样本视频帧序列的样本模板帧输入至关键点检测模型的操作，直到满足训练结束条件。

可选地，关键点检测模型，包括：特征提取层、候选框生成层、分类层和回归层；跟踪模型包括：特征提取层、分类层和回归层；

关键点检测模型通过特征提取层从样本模板帧中提取特征；通过候选框生成层根据提取出的特征，生成多个候选框；通过分类层分别计算多个候选框与各目标框的重叠度；根据重叠度满足预设要求的目标框，确定候选框对应的类别；通过回归层对多个候选框中的特征进行回归，得到关键点的位置信息；

跟踪模型通过特征提取层提取目标对象的第一特征，提取样本检测帧多个区域中各区域的第二特征；通过分类层计算第一特征与各第二特征的特征映射图；根据特征映射图得到样本检测帧各区域对目标对象的检测结果；通过回归层对特征映射图进行回归，得到关键点的位置信息。

可选地，训练模块在最小化第二损失函数，对跟踪模型中的参数进行一次迭代时，具体用于：将关键点检测模型中特征提取层的参数传递至跟踪模型的特征提取层中；最小化第二损失函数，迭代跟踪模型中分类层和回归层的参数。

可选地，训练模块在获取显示有用户图像的多段样本视频帧序列时，用于执行以下至少一种操作：

获取显示同一用户不同姿态图像的多段样本视频帧序列；

获取显示不同用户同一姿态图像的多段样本视频帧序列；

获取显示不同用户不同姿态图像的多段样本视频帧序列，其中，不同用户的着装相似度大于等于预设阈值；

获取显示不同用户同一姿态图像的多段样本视频帧序列，其中，不同用户的着装相似度大于等于预设阈值；

获取显示不同用户不同姿态图像的多段样本视频帧序列，其中，不同用户的着装相似度小于等于预设阈值。

可选地，训练模块在根据多段样本视频帧序列和多个目标框，训练关键点检测模型和跟踪模型之前，还用于：对多段样本视频帧序列中的全部或者部分视频帧进行运动模糊处理。

本公开实施例所提供的关键点检测装置可执行本公开任意实施例所提供的关键点检测方法，具备执行方法相应的功能模块和有益效果。

实施例五

下面参考图5，其示出了适于用来实现本公开实施例的电子设备500的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端，或者各种形式的服务器，如独立服务器或者服务器集群。图5示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图5所示，电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501，其可以根据存储在只读存储装置(ROM)502中的程序或者从存储装置505加载到随机访问存储装置(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

通常，以下装置可以连接至I/O接口505：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507；包括例如磁带、硬盘等的存储装置508；以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备500，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行可操作控件的显示方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置509从网络上被下载和安装，或者从存储装置505被安装，或者从ROM 502被安装。在该计算机程序被处理装置501执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储装置(RAM)、只读存储装置(ROM)、可擦式可编程只读存储装置(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储装置(CD-ROM)、光存储装置件、磁存储装置件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该处理装置执行时，使得该电子设备：获取显示有用户图像的视频帧序列；将视频帧序列的模板帧输入至关键点检测模型，得到多个关键点的位置信息；将模板帧中包括多个关键点的目标对象和检测帧输入至跟踪模型，检测到检测帧中的目标对象，并得到目标对象中多个关键点的位置信息；其中，检测帧是视频帧序列中模板帧的任一后续帧。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，获取模块还可以被描述为“获取显示有用户图像的视频帧序列的模块”。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种关键点检测方法，其特征在于，包括：

获取显示有用户图像的视频帧序列；

其中，检测帧是视频帧序列中模板帧的任一后续帧。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将模板帧中包括多个关键点的目标对象和检测帧输入至跟踪模型，如果未检测到检测帧中的目标对象，将所述检测帧确定为新的模板帧；

返回执行将视频帧序列的模板帧输入至关键点检测模型，得到多个关键点的位置信息的操作。

3.根据权利要求1或2所述的方法，其特征在于，在将视频帧序列的模板帧输入至关键点检测模型，得到多个关键点的位置信息之前，还包括：

获取显示有用户图像的多段样本视频帧序列；

从多段样本视频帧序列中获取与多种姿态分别对应的多个目标框，所述目标框包括对应姿态中多个关键点的位置信息；

根据多段样本视频帧序列和多个目标框，训练所述关键点检测模型和跟踪模型。

4.根据权利要求3所述的方法，其特征在于，所述从多段样本视频帧序列中获取与多种姿态分别对应的多个目标框，包括：

对多段样本视频帧序列上标注的关键点的位置信息进行聚类，得到聚类的类别和各类别的聚类中心；

根据聚类的类别数量，得到对应数量个姿态向量；

根据各类别的聚类中心，得到各姿态向量中的多个关键点的位置信息；

根据各姿态向量中的多个关键点的位置信息，确定包括对应姿态中多个关键点的位置信息的目标框。

5.根据权利要求3所述的方法，其特征在于，对于多段样本视频帧序列中的第一段样本视频帧序列，所述根据样本视频帧序列和多个目标框，训练所述关键点检测模型和跟踪模型，包括：

将多个目标框以及第一段样本视频帧序列的样本模板帧输入至关键点检测模型，得到样本模板帧中的多个候选框分别对应的类别和多个关键点的位置信息；

最小化第一损失函数，对关键点检测模型中的参数进行一次迭代，其中，第一损失函数包括多个候选框与对应的目标框的距离，以及检测得到的样本模板帧中多个关键点的位置信息与真实位置信息的偏差；

将样本模板帧中包括多个关键点的目标对象和样本检测帧输入至跟踪模型，得到样本检测帧中目标对象的检测结果和多个关键点的位置信息；

最小化第二损失函数，对跟踪模型中的参数进行一次迭代，其中，第二损失函数包括检测结果与真实结果的偏差，以及检测得到的样本检测帧中多个关键点的位置信息与真实位置信息的偏差；

返回执行将多个目标框以及下一段样本视频帧序列的样本模板帧输入至关键点检测模型的操作，直到满足训练结束条件。

6.根据权利要求5所述的方法，其特征在于，所述关键点检测模型，包括：特征提取层、候选框生成层、分类层和回归层；所述跟踪模型包括：特征提取层、分类层和回归层；

所述关键点检测模型通过特征提取层从样本模板帧中提取特征；通过候选框生成层根据提取出的特征，生成多个候选框；通过分类层分别计算多个候选框与各目标框的重叠度；根据重叠度满足预设要求的目标框，确定候选框对应的类别；通过回归层对多个候选框中的特征进行回归，得到关键点的位置信息；

所述跟踪模型通过特征提取层提取目标对象的第一特征，提取样本检测帧多个区域中各区域的第二特征；通过分类层计算第一特征与各第二特征的特征映射图；根据特征映射图得到样本检测帧各区域对目标对象的检测结果；通过回归层对特征映射图进行回归，得到关键点的位置信息。

7.根据权利要求6所述的方法，其特征在于，所述最小化第二损失函数，对跟踪模型中的参数进行一次迭代，包括：

将关键点检测模型中特征提取层的参数传递至跟踪模型的特征提取层中；

最小化第二损失函数，迭代跟踪模型中分类层和回归层的参数。

8.根据权利要求3所述的方法，其特征在于，所述获取显示有用户图像的多段样本视频帧序列，包括以下操作中至少一种：

获取显示同一用户不同姿态图像的多段样本视频帧序列；

获取显示不同用户同一姿态图像的多段样本视频帧序列；

9.根据权利要求3所述的方法，其特征在于，在根据多段样本视频帧序列和多个目标框，训练所述关键点检测模型和跟踪模型之前，还包括：

对多段样本视频帧序列中的全部或者部分视频帧进行运动模糊处理。

10.一种视频场景分类装置，其特征在于，包括：

获取模块，用于获取显示有用户图像的视频帧序列；

其中，检测帧是视频帧序列中模板帧的任一后续帧。

11.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理装置；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理装置实现如权利要求1-9中任一所述的关键点检测方法。

12.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理装置执行时实现如权利要求1-9中任一所述的关键点检测方法。