CN112818908A

CN112818908A - 关键点检测方法、装置、终端及存储介质

Info

Publication number: CN112818908A
Application number: CN202110199485.1A
Authority: CN
Inventors: 王多民; 陶训强; 郭彦东; 何苗
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2021-05-18
Anticipated expiration: 2041-02-22

Abstract

本申请实施例公开了一种关键点确定方法、装置、终端及存储介质，属于图像处理技术领域。该方法包括：确定第一图像，该第一图像为视频文件的任一帧图像，该第一图像上标注有第一标注框，该第一标注框用于标注目标对象的面部图像；将该第一图像输入第一关键点检测模型，得到该目标对象的第一关键点，该第一关键点检测模型用于在该第一标注框内包含该目标对象的部分面部图像的情况下，输出该目标对象的完整关键点；通过该第一关键点，对该第一标注框进行调整，得到第二标注框；基于该第二标注框，确定该目标对象的第二关键点。通过本方案，能够准确地检测到该目标对象的关键点，提高了关键点检测的准确性。

Description

关键点检测方法、装置、终端及存储介质

技术领域

本申请实施例涉及图像处理技术领域，特别涉及一种关键点检测方法、装置、终端及存储介质。

背景技术

为了实现对视频中的人脸图像进行处理，通常需要确定视频中每一帧图像中人脸的位置。而确定任一帧图像中人脸的位置的过程为：通过确定图像中人脸关键点，基于人脸关键点的位置来确定图像中人脸的位置。而确定图像的关键点的过程为：将图像输入至关键点检测模型，通过该关键点检测模型确定图像中的人脸关键点。

发明内容

本申请实施例提供了一种关键点确定方法、装置、终端及存储介质。所述技术方案如下：

一方面，本申请实施例提供了一种关键点确定方法，所述方法包括：

确定第一图像，所述第一图像为视频文件的任一帧图像，所述第一图像上标注有第一标注框，所述第一标注框用于标注目标对象的面部图像；

将所述第一图像输入第一关键点检测模型，得到所述目标对象的第一关键点，所述第一关键点检测模型用于在所述第一标注框内包含所述目标对象的部分面部图像的情况下，输出所述目标对象的完整关键点，且所述第一关键点包括所述第一标注框内的关键点和所述第一标注框以外的关键点；

通过所述第一关键点，对所述第一标注框进行调整，得到第二标注框；

基于所述第二标注框，确定所述目标对象的第二关键点。

另一方面，本申请实施例提供了一种关键点确定装置，所述装置包括：

第一确定模块，用于确定第一图像，所述第一图像为视频文件的任一帧图像，所述第一图像上标注有第一标注框，所述第一标注框用于标注目标对象的面部图像；

输入模块，用于将所述第一图像输入第一关键点检测模型，得到所述目标对象的第一关键点，所述第一关键点检测模型用于在所述第一标注框内包含所述目标对象的部分面部图像的情况下，输出所述目标对象的完整关键点，且所述第一关键点包括所述第一标注框内的关键点和所述第一标注框以外的关键点；

调整模块，用于通过所述第一关键点，对所述第一标注框进行调整，得到第二标注框；

第二确定模块，用于基于所述第二标注框，确定所述目标对象的第二关键点。

另一方面，本申请实施例提供了一种终端，所述终端包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现如上述方面所述的关键点确定方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质存储有至少一条指令，所述至少一条指令用于被处理器执行以实现如上述方面所述的关键点确定方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。终端的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该终端执行上述方面的各种可选实现方式中提供的关键点确定方法。

本申请实施中，在本申请实施例中，通过使用能够检测半脸图像的关键点的第一关键点检测模型来对跟踪得到的第一标注框进行位置调整，得到第二标注框，根据第二标注框进行关键点检测，由于第一关键点检测模型在该第一标注框内包含该目标对象的部分面部图像的情况下，输出该目标对象的完整关键点，使得该第一关键点包括该第一标注框内的关键点和该第一标注框以外的关键点，这样调整之后的标注框中能够包含目标对象的完整关键点，进而在进行关键点检测的过程中，能够准确地检测到该目标对象的关键点，提高了关键点检测的准确性。

附图说明

图1是本申请实施例提供的图像跟踪的实施过程的原理图；

图2示出了本申请一个示例性实施例提供的关键点确定方法的流程图；

图3示出了本申请一个示例性实施例提供的关键点确定方法的流程图；

图4示出了本申请一个示例性实施例提供的关键点确定方法的流程图；

图5示出了本申请一个示例性实施例提供的关键点确定方法的流程图；

图6示出了本申请一个实施例提供的关键点确定装置的结构框图；

图7示出了本申请一个示例性实施例提供的终端的结构方框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

在对拍摄的视频文件中的任一帧图像进行处理的过程中，通常通过图像跟踪的方法，实现对当前帧图像中的目标对象进行处理的方法。参见图1，将上一帧图像中目标对象所在的位置进行标注，得到标注框，在当前帧图像中，根据标注框的位置和尺寸在当前帧图像中进行标注，以便对标注框中的图像进行图像处理。

相关技术中，一般采用关键点检测模型进行关键点检测以及应用人脸跟踪。其中，一般根据上一帧图像的标注框对当前帧图像进行裁剪，将裁剪后的图像输入至关键点检测模型，关键点检测模型用户对输入的图像进行关键点检测，确定输入的图像中的人脸置信度，从而根据该人脸置信度确定该标注框是否为有效的标注框，在有效的标注框中进行下一步的图像处理操作，将无效的标注框删除。

该方案在人脸移动范围较小以及人脸移动速度较慢的情况下具有较好的跟踪效果；但是如果在人脸移动范围变大并且移动速度过快的情况下，根据上一帧图像得到的标注框在当前帧图像上进行标注时，会导致人脸跟丢，人脸跟踪对于快速移动的人脸的跟踪鲁棒性较差。因此，作为跟踪得到的标注框，在人脸移动幅度稍大、上一帧关键点检测不是很准的情况下，直接使用上一帧的关键点去确定当前帧人脸位置所得到的人脸框对于当前帧人脸关键点检测模型来说可能并不是最优的，从而导致当前帧的人脸关键点检测不准确。

为了提高人脸关键点检测的准确性，本申请实施例通过使用能够检测半脸图像的关键点的第一关键点检测模型来对跟踪得到的第一标注框进行位置调整，得到第二标注框，根据第二标注框进行关键点检测，由于第一关键点检测模型在该第一标注框内包含该目标对象的部分面部图像的情况下，输出该目标对象的完整关键点，使得该第一关键点包括该第一标注框内的关键点和该第一标注框以外的关键点，这样调整之后的标注框中能够包含目标对象的完整关键点，进而在进行关键点检测的过程中，能够准确地检测到该目标对象的关键点，提高了关键点检测的准确性。

为了提高关键点检测的准确性，通过第一关键点检测模型，对第一标注框进行调整，得到第二标注框，使得第二标注框能够包含第一图像的目标对象的全部关键点。请参考图2，其示出了本申请一个示例性实施例提供的关键点确定方法的流程图。该方法包括如下步骤：

步骤201，终端确定第一图像。

其中，该第一图像为视频文件的任一帧图像，该第一图像上标注有第一标注框，该第一标注框用于标注目标对象的面部图像。

在本步骤中，终端分别确定视频文件中的任一第二图像，获取预测得到的该第二图像中需要标注的第三标注框，通过第三标注框对该第二图像进行标注，得到第一图像。该过程通过以下步骤(1)-(4)实现，包括：

(1)终端确定该视频文件的任一帧图像对应的第二图像。

该视频文件为待处理的视频文件，该视频文件为终端通过摄像头采集的视频文件，或者，该视频文件为终端从其他电子设备中获取的文件，在本申请实施例中，对此不做具体限定。

在本步骤中，终端从该视频文件中提取任一帧图像对应的第二图像。例如，该第二图像为对视频文件进行处理的过程中，待处理的一帧图像。

(2)终端确定该第二图像的第三标注框。

其中，该第三标注框用于标注被预测的该目标对象的面部图像。该第三标注框为根据第二图像的上一帧图像预测的标注框，或者，该第三标注框为通过人脸检测模型检测得到的标注框。相应的，在一些实施例中，终端确定该第二图像的前一帧图像中标注的标注框，将该前一帧图像中标注的标注框确定为该第二图像的第三标注框。在本实现方式中，终端通过第上一帧图像中的标注框进行跟踪，得到第二图像的标注框，从而无需重新标注框，进而提高了确定标注框的效率。

在一些实施例中，终端将该第二图像输入至人脸检测模型中，得到该第二图像的第三标注框。在本实现方式中，终端将第二图像输入至人脸检测模型中，通过人脸检测模型对该第二图像进行人脸检测，得到该第二图像中的人脸坐在的区域，对该第二图像中人脸所在的区域进行标注，得到该第三标注框。在本实现方式中，通过人脸检测模型确定该第二图像中的第三标注框，从而保证了该第三标注框为第二图像中包含人脸的标注框，提高了标注框的准确性。

(3)终端对该第三标注框进行调整，得到该第一标注框。

在本步骤中，终端根据第三标注框的来源对第三标注框的尺寸和位置进行调整，得到该第一标注框。该过程通过以下步骤(3-1)-(3-2)实现，包括：

(3-1)终端根据该第三标注框的来源类型，确定该来源类型匹配的调整参数。

其中，该第三标注框的来源类型包括如步骤(2)中所示的至少一种，例如，该第三标注框的来源为从上一帧图像跟踪得到的标注框和根据人脸识别模型识别得到的人脸标注框。

在本步骤中，终端根据第三标注框的不同来源类型，确定该第三标注框调整参数。其中，该调整参数包括尺寸和偏移量中的至少一项。终端确定该第三标注框的尺寸，将该尺寸与该第三标注框的来源类型对应的扩大系数相乘，得到调整后的尺寸，以及，根据该第三标注框的来源，确定该第三标注框的偏移量(offset)。

例如，第三标注框记为b1，第三标注框的宽为w，高为h，则该第三标注框的尺寸为size＝(w+h)/2。

若该第三标注框为通过人脸检测模型检测得到的标注框，则终端将该第三标注框的尺寸size与扩大系数scale1相乘，得到新的尺寸new_size，并将偏移量设置为size/d1。若该第三标注框为根据前一帧的标注框跟踪得到的标注框，则终端将该标注框的尺寸size与扩大系数scale2相乘，得到new_size，并将offset设置为0。其中，scale1、scale2与d1由实验或经验等方式进行确定。scale1大于scale2，且scale1和scale2均大于1。d1为大于6小于8的任一数值。

(3-2)终端根据该调整，对该第三标注框进行调整，得到该第一标注框。

在本步骤中，终端分别根据调整后的尺寸和偏移量对第三标注框的宽和高进行调整，重新确定标注框的四个角的位置，从而确定出该第一标注框。其中，终端分别根据以下公式一至四确定第一标注框的四个角的位置。

公式一：Xmin＝center_x–new_size/2

公式二：Xmax＝center_x+new_size/2

公式三：Ymin＝center_y–new_size/2+offset

公式四：Ymax＝center_y+new_size/2+offset

其中，Xmin和Xmax分别为标注框的四个角的横坐标取值，Ymin和Ymax分别为标注框的四个角的横坐标取值，center_x和center_y为第三标注框的中心点的位置坐标，new_size为对第三标注框进行调整后得到的标注框的新的尺寸。Offset为偏移量。相应的，调整后终端得到第一标注框的四个角的坐标分别为(Xmin，Ymin)、(Xmin，Ymax)、(Xmax，Ymax)和(Xmax，Ymin)，将该四个角的坐标顺次连接，得到该第一标注框。

在本实现方式中，分别根据第三标注框的来源类型，对第三标注框进行调整，得到第一标注框，从而能够根据第三标注框的来源类型确定该第三标注框的调整参数，使得得到的调整参数更准确，从而提高了调整第三标注框的准确性。

(4)终端将该第一标注框标注在该第二图像中，得到该第一图像。

在本步骤中，终端根据该第一标注框对该第二图像进行标注，得到第一图像。在一些实施例中，终端根据第一标注框的尺寸和位置在第二图像中标注出该第一标注框对应的图像区域，得到该第一图像。在一些实施例中，终端根据该第一标注框的尺寸和位置，对该第二图像进行裁剪，得到裁剪得到的图像确定为第一图像。

步骤202，终端将该第一图像输入第一关键点检测模型，得到该目标对象的第一关键点。

其中，该第一关键点检测模型用于在该第一标注框内包含该目标对象的部分面部图像的情况下，输出该目标对象的完整关键点，且该第一关键点包括该第一标注框内的关键点和该第一标注框以外的关键点。

在本步骤中，第一关键点检测模型为用于进行半脸关键点检测模型，该第一关键点检测模型输出的关键点可以超出(0，1)的范围。其中，(0，1)的范围指输入至该第一关键点检测模型中的标注框对应的图像范围。

通过使用第一关键点检测模型，使得得到的关键点的位置可以超出标注框的区域，便于跟踪到上一帧与本帧图像中目标对象的位置相差较大的情况下，本帧图像中目标对象的位置，从而提高确定目标对象的位置的准确性。

在本步骤之前，终端对该第一关键点检测模型对应的原始关键点检测模型进行模型训练得到该第一关键点检测模型。该过程为：

(1)终端获取原始关键点检测模型和样本图像。

其中，该样本图像上标注有该样本图像的前一帧图像的标注框；

其中，该原始关键点检测模型的全连接层后不连接sigmoid激活函数，从而该原始关键点检测模型输出的关键点的范围大于该样本图像的标注框的范围。

(2)终端将该样本图像输入至该原始关键点检测模型，得到该样本图像的关键点。

(3)终端确定该样本图像的关键点的外接矩形，得到该原始关键点检测模型检测的标注框。

(4)终端基于该原始关键点检测模型检测的标注框和该样本图像中标注的标注框，对该原始关键点检测模型进行模型训练，得到该第一关键点检测模型。

需要说明的一点是，终端可以从其他电子设备中获取该第一关键点检测模型。相应的，其他电子设备对原始关键点检测模型进行模型训练，在接收到终端发送的模型获取请求时，将训练的第一关键点检测模型发送给终端，终端接收其他电子设备发送的第一关键点检测模型。其中，其他电子设备对原始关键点检测模型进行训练得到第一关键点检测模型的过程与终端对原始关键点检测模型进行训练得到第一关键点检测模型的过程相似，再次不再赘述。

步骤203，终端通过该第一关键点，对该第一标注框进行调整，得到第二标注框。

在本步骤中，终端根据该第一关键点，重新调整该第一标注框的位置和尺寸，得到第二标注框。在一些实施例中，终端第该第一关键点，确定第一关键点的外接矩形，将该外接矩形确定为第二标注框。

步骤204，终端基于该第二标注框，确定该目标对象的第二关键点。

在本步骤中，终端基于该第二标注框对该第一图像重新进行标注，根据重新标注后的第一图像确定该第二关键点。

在一些实施例中，终端根据该第二关键点检测模型对该第二标注框中的图像区域进行图像关键点检测，得到该第一图像的第二关键点。该过程通过以下步骤(1)-(2)实现，包括：

(1)终端在该第一图像标注该第二标注框。

在本步骤中，终端将第一图像中的第一标注框删除，根据第二标注框的尺寸和位置重新对第一图像进行标注。

(2)终端将标注该第二标注框后的第一图像输入至第二关键点检测模型，得到该第二标注框内的关键点。

其中，第二关键点检测模型为用于检测全脸关键点的模型。该第二关键点检测模型能够根据输入的标注框，确定该标注框内的目标对象的关键点。该第二关键点检测模型，确定的关键点的位置在(0，1)范围内，也即确定标注框对应的图像区域内的关键点。

第二关键点检测模型和第二关键点检测模型的结构相似，输入均为待检测的图像，输出为关键点、关键点的遮挡信息、待检测的图像中的人脸置信度以及人脸姿态角度等信息。其中，第二关键点检测模型的全连接层后连接sigmoid激活函数，通过sigmoid激活函数使检测到的关键点均位于标注框内。而第一关键点检测模型的全连接层后不连接sigmoid激活函数，从而第二关键点检测模型输出的关键点可以在标注框以外。

在一些实施例中，终端根据第二标注框对第一图像进行裁剪，将裁剪后的图像输入至第二关键点检测模型中，通过该第二关键点检测模型对该裁剪后的图像关键点检测。该过程通过以下过程实现：终端基于该第二标注框，对该第一图像进行裁剪，得到标注图像；将该标注图像输入至该第二关键点检测模型，通过该第二关键点检测模型确定该标注图像中的关键点；将该标注图像中的关键点确定为该第二标注框内的关键点。

需要说明的一点是，该第一关键点检测模型和第二关键点检测模型可以为根据第一关键点检测模型和第二关键点检测模型可以同时进行训练。参见图3，第一关键点检测模型与第二关键点检测模型连接，在模型训练的过程中，将第一关键点模型的输出作为第二关键点检测模型的输入，通过第二关键点检测模型输出的关键点对第一关键点检测模型和第二关键点检测模型的模型参数进行调整。

在本实现方式中，通过第二关键点检测模型对该第二标注框中的图像内容进行关键点检测，得到第一图像中第二标注框内的关键点，将该第二标注框内的第二关键点确定为该目标对象的关键点，提高了关键点预测的精准性。

在本申请实施例中，通过使用能够检测半脸图像的关键点的第一关键点检测模型来对跟踪得到的第一标注框进行位置调整，得到第二标注框，根据第二标注框进行关键点检测，由于第一关键点检测模型在该第一标注框内包含该目标对象的部分面部图像的情况下，输出该目标对象的完整关键点，使得该第一关键点包括该第一标注框内的关键点和该第一标注框以外的关键点，这样调整之后的标注框中能够包含目标对象的完整关键点，进而在进行关键点检测的过程中，能够准确地检测到该目标对象的关键点，提高了关键点检测的准确性。

在终端通过第二标注框确定了目标对象的第二关键点之后，终端还能够基于该第二关键点，对该第一图像进行图像处理。例如，在一些实施例中，终端根据该第一图像中目标对象的第二关键点对该目标对象进行美颜、美体、磨皮等图像优化处理。在一些实施例中，终端基于该第二标注框，对该视频文件中的面部图像进行跟踪。请参考图4，其示出了本申请一个示例性实施例提供的关键点确定方法的流程图。该方法包括如下步骤：

步骤401，终端从该视频文件中确定第三图像。

其中，该第三图像为该第一图像的下一帧图像。

在本步骤中，终端确定该视频文件中第一图像的下一帧图像，将该下一帧图像确定为第三图像。

步骤402，终端基于该第二标注框，对该第三图像进行标注，得到第四图像。

在本步骤中，终端基于第一图像中的第二标注框的尺寸和位置，对该第三图像中的图像区域进行标注。该标注过程与步骤201中，终端对第二图像进行标注得到第一图像的过程相似，在此不再赘述。

步骤403，终端将该第四图像输入至该第一关键点检测模型，得到该第四图像的第三关键点和该第二标注框的人脸置信度。

在本步骤中，终端通过第一关键点检测模型，对第四图像中的目标对象进行人脸关键点检测，根据检测到的关键点，确定该关键点组成的目标对象为人脸的置信度，得到第二标注框的人脸置信度。

需要说明的一点是，终端可以仅通过第一关键点检测模型确定该第三关键点和该第二标注框的人脸置信度。终端还可以通过第一关键点检测模型确定新的标注框，再根据新的标注框和第二关键点检测模型确定该第四图像的第三关键点和第二标注框的人脸置信度。该过程与步骤202-204相似，在此不再赘述。

步骤404，终端将该第二标注框的人脸置信度与预设阈值进行对比。

终端在人脸跟踪的过程中，分别将每一帧图像最终的标注框确定为跟踪队列，在本步骤中，终端将第一图像的第二标注框组成该跟踪队列，相应的，在对第三图像中的目标对象进行跟踪的过程中，分别根据跟踪队列中的标注框对第三图像进行标注。

在本步骤中，终端通过确定第二标注框中人脸置信度是否大于预设阈值，若该人脸置信度小于预设阈值，执行步骤405，若该置信度不小于预设阈值，执行步骤406。

步骤405，若该第二标注框的人脸置信度小于预设阈值，终端删除该第二标注框。

其中，若该第二标注框的人脸置信度小于预设阈值，则终端确定该第二标注框中不存在目标对象。因此，在跟踪队列中删除该第二标注框。

步骤406，若该第二标注框的人脸置信度不小于预设阈值，终端确定该第三关键点的外接矩形，得到第四标注框。

其中，该第四标注框对该第三图像的下一帧图像中目标对象的面部图像进行跟踪所用的标注框。

若该第二标注框的人脸置信度不小于预设阈值，则终端确定该第二标注框中存在目标对象。因此，根据该第二标注框在该第三图像中的第三关键点确定第四标注框，将该第四标注框确定为该跟踪队列中的标注框。

步骤407，终端通过该跟踪队列中的标注框对该第三图像的下一帧图像进行图像跟踪。

重复执行步骤401-407实现对视频文件中的目标对象进行图像跟踪。

并且，通过第一关键点检测模型对图像跟踪过程中的标注框进行校正，保证在图像跟踪过程中，能够使跟上一帧图像到当前帧图像的跟踪过程中，标注框中包括目标对象，从而保证了图像跟踪的准确性。

需要说明的一点是，在进行图像跟踪的过程中，终端还可以每隔预设帧数进行一次人脸检测，从而对该跟踪过程进行校正，保证对视频文件进行跟踪的过程中，跟踪目标对象的准确性。请参考图5，其示出了本申请一个示例性实施例提供的关键点确定方法的流程图。该方法包括如下步骤：

步骤501，终端每隔预设帧数，通过人脸检测模型对第四图像进行人脸检测，得到第五标注框。

该预设帧数根据需要进行设置，在本公开实施例中，对该预设帧数不做具体限定。例如，该预设帧数为20、50或100等。该第四图像为视频跟踪过程中，第预设帧数个未进行人脸检测的图像帧。

在本步骤中，终端确定视频文件中的第四帧图像，将该第四帧图像输入至人脸检测模型中，得到该第四帧图像中的人脸，确定检测到的人脸外接矩形，将该外接矩形确定为该检测到的人脸对应的第五标注框。

步骤502，终端将该第五标注框，与第六标注框进行匹配。

其中，该第六标注框为该第四图像的前一帧图像中目标对象的面部图像对应的标注框。

在本步骤中，终端可以通过任一匹配方式将该第五标注框与第六标注框进行匹配。在一些实施例中，终端确定第五标注框中的图像区域与第六标注框中的图像区域的相似度，根据该相似度确定该第五标注框和第六标注框的匹配度。

在一些实施例中，终端根据该第五标注框和第六标注框的交并比值，根据该交并比值确定该第五标注框和第六标注框是否匹配。该过程通过以下步骤(1)-(3)实现，包括：

(1)终端确定该第六标注框与该第五标注框的交并比值。

在本步骤中，终端通过IoU(Intersection over Union，交并比)算法确定第六标注框和第五标注框的交集和并集的比值。

(2)若该交并比值大于预设阈值，终端确定该第六标注框与该第五标注框匹配。

(3)若该交并比值不大于预设阈值，终端确定该第六标注框与该第五标注框不匹配。

需要说明的一点是，跟踪队列中的标注框和检测到的标注框中，都可能包括多个标注框。在第五标注框和第六标注框为多个标注框中的任意标注框时，对于任一第六标注框，分别与当前检测到的第五标注框确定交并比值，从第六标注框与第五标注框的交并比值中确定最大的交并比值，若该最大的交并比值大于预设阈值，则确定该第五标注框与该第六标注框匹配；若该最大的交并比值大于预设阈值，则确定第五标注框中不存在与该第六标注框匹配的标注框。

步骤503，若该第六标注框与该第五标注框匹配，终端将与第五标注框匹配的第六标注框的标识，确定为该第五标注框的标识。

在本步骤中，若该第六标注框与第五标注框匹配，则确定该第六标注框为有效的标注框，将该第六标注框的标识标注给第五标注框，从而通过第五标注框更新跟踪队列中对应的第六标注框，使得跟踪队列中的标注框为更准确的标注框。

步骤504，若该第六标注框与该第五标注框不匹配，终端删除该第六标注框，将该第五标注框作为该第四图像的下一帧图像中目标对象的面部图像的标注框。

若该第六标注框与该第五标注框不匹配，说明该第六标注框为无效的标注框，从而将该第六标注框从跟踪队列中删除。并且，将第五标注框更新至跟踪队列中。

并且，在进行图像跟踪的过程中，终端还可以每隔预设帧数进行一次人脸检测，从而对该跟踪过程进行校正，保证对视频文件进行跟踪的过程中，跟踪目标对象的准确性。

请参考图6，其示出了本申请一个实施例提供的关键点确定装置的结构框图。该装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置包括：

第一确定模块601，用于确定第一图像，该第一图像为视频文件的任一帧图像，该第一图像上标注有第一标注框，该第一标注框用于标注目标对象的面部图像；

第一输入模块602，用于将该第一图像输入第一关键点检测模型，得到该目标对象的第一关键点，该第一关键点检测模型用于在该第一标注框内包含该目标对象的部分面部图像的情况下，输出该目标对象的完整关键点，且该第一关键点包括该第一标注框内的关键点和该第一标注框以外的关键点；

调整模块603，用于通过该第一关键点，对该第一标注框进行调整，得到第二标注框；

第二确定模块604，用于基于该第二标注框，确定该目标对象的第二关键点。

在一些实施例中，该第二确定模块604包括：

第一标注单元，用于在该第一图像标注该第二标注框；

第一输入单元，用于将标注该第二标注框后的第一图像输入至第二关键点检测模型，得到该第二标注框内的关键点；

第一确定单元，用于将该第二标注框内的关键点确定为该目标对象的第二关键点。

在一些实施例中，该输入单元，用于基于该第二标注框，对该第一图像进行裁剪，得到标注图像；将该标注图像输入至该第二关键点检测模型，通过该第二关键点检测模型确定该标注图像中的关键点，得到该第二标注框内的关键点。

在一些实施例中，该第一确定模块601包括：

第二确定单元，用于确定该视频文件的任一帧图像对应的第二图像；

第三确定单元，用于确定该第二图像的第三标注框，该第三标注框用于标注被预测的该目标对象的面部图像；

调整单元，用于对该第三标注框进行调整，得到该第一标注框；

第二标注单元，用于将该第一标注框标注在该第二图像中，得到该第一图像。

在一些实施例中，该第三确定单元，用于确定该第二图像的前一帧图像中标注的标注框，将该前一帧图像中标注的标注框确定为该第二图像的第三标注框；或者，

该第三确定单元，用于将该第二图像输入至人脸检测模型中，得到该第二图像的第三标注框。

在一些实施例中，该调整单元，用于根据该第三标注框的来源类型，确定该来源类型匹配的调整参数，该调整参数包括尺寸和偏移量中的至少一项；根据该调整，对该第三标注框进行调整，得到该第一标注框。

在一些实施例中，该装置还包括：

跟踪模块，用于基于该第二标注框，对该视频文件中的面部图像进行跟踪。

在一些实施例中，该跟踪模块包括：

第四确定单元，用于从该视频文件中确定第三图像，该第三图像为该第一图像的下一帧图像；

第三标注单元，用于基于该第二标注框，对该第三图像进行标注，得到第四图像；

第二输入单元，用于将该第四图像输入至该第一关键点检测模型，得到该第四图像的第三关键点和该第二标注框的人脸置信度；

删除单元，用于若该第二标注框的人脸置信度小于预设阈值，删除该第二标注框；

第五确定单元，用于若该第二标注框的人脸置信度不小于预设阈值，确定该第三关键点的外接矩形，得到第四标注框，该第四标注框对该第三图像的下一帧图像中目标对象的面部图像进行跟踪所用的标注框。

在一些实施例中，该装置还包括：

检测模块，用于每隔预设帧数，通过人脸检测模型对该第四图像进行人脸检测，得到第五标注框；

匹配模块，用于将该第五标注框，与第六标注框进行匹配，该第六标注框为该第四图像的前一帧图像中目标对象的面部图像对应的标注框；

第三确定模块，用于若该第六标注框与该第五标注框匹配，将与第五标注框匹配的第六标注框的标识，确定为该第五标注框的标识；

删除模块，用于若该第六标注框与该第五标注框不匹配，删除该第六标注框，将该第五标注框作为该第四图像的下一帧图像中目标对象的面部图像的标注框。

在一些实施例中，该匹配模块，用于确定该第六标注框与该第五标注框的交并比值；若该交并比值大于预设阈值，确定该第六标注框与该第五标注框匹配；若该交并比值不大于预设阈值，确定该第六标注框与该第五标注框不匹配。

在一些实施例中，该装置还包括：

获取模块，用于获取原始关键点检测模型和样本图像，该样本图像上标注有该样本图像的前一帧图像的标注框；

第二输入模块，用于将该样本图像输入至该原始关键点检测模型，得到该样本图像的关键点；

第四确定模块，用于确定该样本图像的关键点的外接矩形，得到该原始关键点检测模型检测的标注框；

训练模块，用于基于该原始关键点检测模型检测的标注框和该样本图像中标注的标注框，对该原始关键点检测模型进行模型训练，得到该第一关键点检测模型。

在一些实施例中，该原始关键点检测模型输出的关键点的范围大于该样本图像的标注框的范围。

上述装置实施例中，各个模块或单元的功能实施过程可以参考上述方法实施例，本实施例在此不再赘述。

请参考图7，其示出了本申请一个示例性实施例提供的终端的结构方框图。该终端700可以是智能手机、平板电脑、可穿戴式设备等。本申请中的终端700可以包括一个或多个如下部件：处理器710、存储器720、显示屏730和摄像头740。

处理器710可以包括一个或者多个处理核心。处理器710利用各种接口和线路连接整个终端700内的各个部分，通过运行或执行存储在存储器720内的指令、程序、代码集或指令集，以及调用存储在存储器720内的数据，执行终端700的各种功能和处理数据。可选地，处理器710可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器710可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)、神经网络处理器(Neural-network Processing Unit，NPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责触摸显示屏730所需要显示的内容的渲染和绘制；NPU用于实现人工智能(Artificial Intelligence，AI)功能；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器710中，单独通过一块芯片进行实现。

存储器720可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。可选地，该存储器720包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器720可用于存储指令、程序、代码、代码集或指令集。存储器720可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等；存储数据区可存储根据终端700的使用所创建的数据(比如音频数据、电话本)等。

显示屏730是用于进行图像显示的组件。该显示屏730可以为全面屏、异形屏、双面屏、折叠屏、柔性屏等等，本实施例对此不作限定。且除了具备显示功能外，显示屏730还可以具有触控功能，即显示屏730为触控显示屏。

摄像头740是用于进行图像采集的组件。可选的，该摄像头740可以为RGB摄像头或深度摄像头。本申请实施例中，显示屏730一侧设置有摄像头740(即前置摄像头)，该摄像头740用于采集显示屏730朝向一侧的图像。

除此之外，本领域技术人员可以理解，上述附图所示出的终端700的结构并不构成对终端700的限定，终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端700中还包括射频电路、传感器、音频电路、无线保真(WirelessFidelity，WiFi)组件、电源、蓝牙组件等部件，在此不再赘述。

本申请实施例还提供了一种计算机可读介质，该计算机可读介质存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上各个实施例所述的关键点确定方法。

本申请实施例提供了还一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。终端的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该终端执行上述方面的各种可选实现方式中提供的关键点确定方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种关键点确定方法，其特征在于，所述方法包括：

基于所述第二标注框，确定所述目标对象的第二关键点。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第二标注框，确定所述目标对象的第二关键点，包括：

在所述第一图像标注所述第二标注框；

将标注所述第二标注框后的第一图像输入至第二关键点检测模型，得到所述第二标注框内的关键点；

将所述第二标注框内的关键点确定为所述目标对象的第二关键点。

3.根据权利要求2所述的方法，其特征在于，所述将标注所述第二标注框后的第一图像输入至第二关键点检测模型，得到所述第二标注框内的关键点，包括：

基于所述第二标注框，对所述第一图像进行裁剪，得到标注图像；

将所述标注图像输入至所述第二关键点检测模型，通过所述第二关键点检测模型确定所述标注图像中的关键点，得到所述第二标注框内的关键点。

4.根据权利要求1所述的方法，其特征在于，所述确定第一图像，包括：

确定所述视频文件的任一帧图像对应的第二图像；

确定所述第二图像的第三标注框，所述第三标注框用于标注被预测的所述目标对象的面部图像；

对所述第三标注框进行调整，得到所述第一标注框；

将所述第一标注框标注在所述第二图像中，得到所述第一图像。

5.根据权利要求4所述的方法，其特征在于，所述确定所述第二图像的第三标注框，包括以下至少一种实现方式：

确定所述第二图像的前一帧图像中标注的标注框，将所述前一帧图像中标注的标注框确定为所述第二图像的第三标注框；或者，

将所述第二图像输入至人脸检测模型中，得到所述第二图像的第三标注框。

6.根据权利要求4或5所述的方法，其特征在于，所述对所述第三标注框进行调整，得到所述第一标注框，包括：

根据所述第三标注框的来源类型，确定所述来源类型匹配的调整参数，所述调整参数包括尺寸和偏移量中的至少一项；

根据所述调整，对所述第三标注框进行调整，得到所述第一标注框。

7.根据权利要求1所述的方法，其特征在于，所述基于所述第二标注框，确定所述目标对象的第二关键点之后，所述方法还包括：

基于所述第二标注框，对所述视频文件中的面部图像进行跟踪。

8.根据权利要求7所述的方法，其特征在于，所述基于所述第二标注框，对所述视频文件中的面部图像进行跟踪，包括：

从所述视频文件中确定第三图像，所述第三图像为所述第一图像的下一帧图像；

基于所述第二标注框，对所述第三图像进行标注，得到第四图像；

将所述第四图像输入至所述第一关键点检测模型，得到所述第四图像的第三关键点和所述第二标注框的人脸置信度；

若所述第二标注框的人脸置信度小于预设阈值，删除所述第二标注框；

若所述第二标注框的人脸置信度不小于预设阈值，确定所述第三关键点的外接矩形，得到第四标注框，所述第四标注框对所述第三图像的下一帧图像中目标对象的面部图像进行跟踪所用的标注框。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

每隔预设帧数，通过人脸检测模型对所述第四图像进行人脸检测，得到第五标注框；

将所述第五标注框，与第六标注框进行匹配，所述第六标注框为所述第四图像的前一帧图像中目标对象的面部图像对应的标注框；

若所述第六标注框与所述第五标注框匹配，将与第五标注框匹配的第六标注框的标识，确定为所述第五标注框的标识；

若所述第六标注框与所述第五标注框不匹配，删除所述第六标注框，将所述第五标注框作为所述第四图像的下一帧图像中目标对象的面部图像的标注框。

10.根据权利要求9所述的方法，其特征在于，所述将所述第五标注框，与第六标注框进行匹配，包括：

确定所述第六标注框与所述第五标注框的交并比值；

若所述交并比值大于预设阈值，确定所述第六标注框与所述第五标注框匹配；

若所述交并比值不大于预设阈值，确定所述第六标注框与所述第五标注框不匹配。

11.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取原始关键点检测模型和样本图像，所述样本图像上标注有所述样本图像的前一帧图像的标注框；

将所述样本图像输入至所述原始关键点检测模型，得到所述样本图像的关键点；

确定所述样本图像的关键点的外接矩形，得到所述原始关键点检测模型检测的标注框；

基于所述原始关键点检测模型检测的标注框和所述样本图像中标注的标注框，对所述原始关键点检测模型进行模型训练，得到所述第一关键点检测模型。

12.根据权利要求11所述的方法，其特征在于，所述原始关键点检测模型输出的关键点的范围大于所述样本图像的标注框的范围。

13.一种关键点确定装置，其特征在于，所述装置包括：

14.一种终端，其特征在于，所述终端包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现如权利要求1至12任一所述的关键点确定方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令，所述至少一条指令用于被处理器执行以实现如权利要求1至12任一所述的关键点确定方法。