CN112102364A

CN112102364A - 目标物跟踪方法、装置、电子设备及存储介质

Info

Publication number: CN112102364A
Application number: CN202011004769.2A
Authority: CN
Inventors: 张波; 王雷; 李心雨; 莫宇达
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2020-12-18

Abstract

本申请公开一种目标物跟踪方法、装置、电子设备以及存储介质，通过从待处理视频图像的第一指定帧图像中获取第一目标物检测框，基于第一目标物检测框获取与第一待跟踪视频图像对应的待跟踪目标物图像，将待跟踪目标物图像输入指定检测模型，获取指定检测模型输出的目标跟踪框，从第二指定帧图像中获取第二目标物检测框，获取第二目标物检测框与至少一个目标物跟踪框的交并比，基于数值大于等于预设阈值的交并比对应的第一目标物跟踪框对第二目标物检测框进行平滑处理，得到参考目标物检测框，基于参考目标物检测框对与第一目标物跟踪框对应的第二待跟踪视频图像进行跟踪。本申请实现了减少目标物跟踪框跟踪过程中的计算复杂度，以及跟踪的持续性。

Description

目标物跟踪方法、装置、电子设备及存储介质

技术领域

本申请涉及图像处理技术领域，更具体地，涉及一种目标物跟踪方法、装置、电子设备以及存储介质。

背景技术

短视频即短片视频，是一种互联网内容传播方式，一般是在互联网新媒体上传播的时长在5分钟以内的视频；随着移动终端普及和网络的提速，短平快的大流量传播内容逐渐获得各大平台、粉丝和资本的青睐。为了提升短视频的趣味性，可以在短视频拍摄的过程中添加特效，例如通过人手或人脸控制的特效。作为一种方式，为了确保用户可以通过人手或人脸准确操控特效，在拍摄的过程中需要对用户的人手或人脸及其变化进行跟踪。然而，现有的人手或人脸跟踪模型的计算过程复杂以及计算量巨大，容易造成人手或人脸跟踪丢失，且难以应用到计算性能较弱的设备中。

发明内容

鉴于上述问题，本申请提出了一种目标物跟踪方法、装置、电子设备及存储介质，以改善上述问题。

第一方面，本申请实施例提供了一种目标物跟踪方法，应用于电子设备，该方法包括：从待处理视频图像的第一指定帧图像中获取第一目标物检测框；基于所述第一目标物检测框获取与第一待跟踪视频图像对应的待跟踪目标物图像，所述第一待跟踪视频图像为所述第一指定帧图像之后的图像；将所述待跟踪目标物图像输入指定检测模型，获取所述指定检测模型输出的目标跟踪框，所述目标跟踪框包括至少一个目标物跟踪框，所述指定检测模型为经过裁剪得到的轻量级检测模型；从第二指定帧图像中获取第二目标物检测框，所述第二指定帧图像为与所述第一待跟踪视频图像中的最后一帧图像相邻的下一帧图像；获取所述第二目标物检测框与所述至少一个目标物跟踪框的交并比；基于数值大于等于预设阈值的交并比对应的第一目标物跟踪框对所述第二目标物检测框进行平滑处理，得到参考目标物检测框；基于所述参考目标物检测框对与所述第一目标物跟踪框对应的第二待跟踪视频图像进行跟踪，所述第二待跟踪视频图像为所述第二指定帧图像之后的图像。

第二方面，本申请实施例提供了一种目标物跟踪装置，运行于电子设备，该装置包括：第一获取模块，用于从待处理视频图像的第一指定帧图像中获取第一目标物检测框；第二获取模块，用于基于所述第一目标物检测框获取与第一待跟踪视频图像对应的待跟踪目标物图像，所述第一待跟踪视频图像为所述第一指定帧图像之后的图像；第三获取模块，用于将所述待跟踪目标物图像输入指定检测模型，获取所述指定检测模型输出的目标跟踪框，所述目标跟踪框包括至少一个目标物跟踪框，所述指定检测模型为经过裁剪得到的轻量级检测模型；第四获取模块，用于从第二指定帧图像中获取第二目标物检测框，所述第二指定帧图像为与所述第一待跟踪视频图像中的最后一帧图像相邻的下一帧图像；第五获取模块，用于获取所述第二目标物检测框与所述至少一个目标物跟踪框的交并比；处理模块，用于基于数值大于等于预设阈值的交并比对应的第一目标物跟踪框对所述第二目标物检测框进行平滑处理，得到参考目标物检测框；跟踪模块，用于基于所述参考目标物检测框对与所述第一目标物跟踪框对应的第二待跟踪视频图像进行跟踪，所述第二待跟踪视频图像为所述第二指定帧图像之后的图像。

第三方面，本申请实施例提供了一种电子设备，包括存储器以及一个或多个处理器；一个或多个程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于执行上述第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质中存储有程序代码，其中，在程序代码被处理器运行时执行上述第一方面所述的方法。

本申请实施例提供的一种目标物跟踪方法、装置、电子设备以及存储介质，通过从待处理视频图像的第一指定帧图像中获取第一目标物检测框，继而基于第一目标物检测框获取与第一待跟踪视频图像对应的待跟踪目标物图像，再将待跟踪目标物图像输入指定检测模型，获取指定检测模型输出的目标跟踪框，再从第二指定帧图像中获取第二目标物检测框，再获取第二目标物检测框与至少一个目标物跟踪框的交并比，然后基于数值大于等于预设阈值的交并比对应的第一目标物跟踪框对第二目标物检测框进行平滑处理，得到参考目标物检测框，然后基于参考目标物检测框对与第一目标物跟踪框对应的第二待跟踪视频图像进行跟踪。本方法通过裁剪后的更轻量级的检测模型对待跟踪目标物图像进行目标物跟踪框检测，将检测得到的结果作为对目标物跟踪框的预测结果，而不用依赖庞大的目标物跟踪模型的计算结果，减小了目标物跟踪框预测过程中的计算量。通过对第二目标物检测框进行平滑处理，可以使得第二目标物检测框与前一帧目标物跟踪框衔接更加自然，通过间隔指定帧视频图像再获取一次目标物检测框，可以减少目标物跟踪框跟踪过程中的计算复杂度，同时确保跟踪的持续性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了本申请实施例提供的一种应用环境示意图。

图2示出了本申请一实施例提供的一种目标物跟踪方法的方法流程图。

图3示出了本申请实施例提供的当前帧图像的人手与上一帧图像的人手的匹配关系示意图。

图4示出了本申请实施例提供的计算人手跟踪框和人手检测框的计算方式示意图。

图5示出了本申请另一实施例提供的一种目标物跟踪方法的方法流程图。

图6示出了本申请又一实施例提供的一种目标物跟踪方法的方法流程图。

图7示出了本申请实施例提供的一种目标物跟踪装置的结构框图。

图8示出了本申请实施例提供的一种电子设备的结构框图。

图9示出了本申请实施例的用于保存或者携带实现根据本申请实施例的目标物跟踪方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

近年来，随着网络技术的迅猛发展，网络直播备受用户青睐。用户可以通过拍摄短视频发布到网络直播平台而分享自己的生活、工作以及旅行趣事等。为了提升短视频的趣味性，可以在短视频拍摄的过程中添加特效，例如通过人手或人脸控制的特效。而为了确保用户可以通过人手或人脸准确操控特效，在拍摄的过程中需要对用户的人手或人脸及其变化进行跟踪。

作为一种方式，可以根据上一帧人手检测框，将原图像裁剪后的图像进行特征提取得到特征图，再在特征图上进行分割得到人手图像，并再次根据特征图和人手图像进行检测得到新的检测框，作为下一帧的图像输入，以此实现对下一帧图像的跟踪。然而，这种跟踪方式需要进行手势图像的分割以及肤色检测，且计算过程复杂以及计算量巨大，容易造成人手或人脸跟踪丢失，且难以应用到计算性能较弱的设备中。

针对上述的问题，发明人经过长期的研究发现，可以通过从待处理视频图像的第一指定帧图像中获取第一目标物检测框，继而基于第一目标物检测框获取与第一待跟踪视频图像对应的待跟踪目标物图像，再将待跟踪目标物图像输入指定检测模型，获取指定检测模型输出的目标跟踪框，再从第二指定帧图像中获取第二目标物检测框，再获取第二目标物检测框与至少一个目标物跟踪框的交并比，然后基于数值大于等于预设阈值的交并比对应的第一目标物跟踪框对第二目标物检测框进行平滑处理，得到参考目标物检测框，然后基于参考目标物检测框对与第一目标物跟踪框对应的第二待跟踪视频图像进行跟踪。本方法通过裁剪后的更轻量级的检测模型对待跟踪目标物图像进行目标物跟踪框检测，将检测得到的结果作为对目标物跟踪框的预测结果，而不用依赖庞大的目标物跟踪模型的计算结果，减小了目标物跟踪框预测过程中的计算量。通过对第二目标物检测框进行平滑处理，可以使得第二目标物检测框与前一帧目标物跟踪框衔接更加自然，通过间隔指定帧视频图像再获取一次目标物检测框，可以减少目标物跟踪框跟踪过程中的计算复杂度，同时确保跟踪的持续性。因此，提出了本申请实施例提供的一种目标物跟踪方法、装置、电子设备以及存储介质。

为了便于详细说明本申请方案，下面先结合附图对本申请实施例中的一种应用环境进行介绍。

请参阅图1，为本申请实施例提供的一种目标物跟踪方法的应用环境示意图，如图1所示，该应用环境可以理解为本申请实施例的提供的一种网络系统10，该网络系统10包括：用户终端11以及服务器12，可选的，用户终端11可以是任何具备通信和存储功能的设备，包括但不限于PC(Personal Computer，个人计算机)、PDA(平板电脑)、智能电视、智能手机、智能可穿戴设备或其他具有网络连接功能的智能通信设备，服务器12可以是一台服务器(网络接入服务器)，也可以是由若干台服务器组成的服务器集群(云服务器)，或者可以是一个云计算中心(数据库服务器)。

本实施例中，用户终端11可以用于录制或拍摄短视频，并对视频录制或拍摄过程中的用户人手或者人脸进行跟踪，为了提升对与用户人手或者人脸对应的跟踪位置的计算速率，用户终端11可以将跟踪结果通过网络发送至服务器12进行存储，以便于可以减少对用户终端11的存储空间的占用，进而提升对目标物的跟踪位置的计算速度，使得可以在计算性能较弱的设备中实施本申请的目标物跟踪方法。

下面将结合附图具体描述本申请的各实施例。

请参阅图2，示出了本申请一实施例提供的一种目标物跟踪方法的流程图，本实施例提供一种目标物跟踪方法，可应用于电子设备，该方法包括：

步骤S110：从待处理视频图像的第一指定帧图像中获取第一目标物检测框。

可选的，本实施例中的待处理视频图像可以为包括特定视频特效的视频图像，例如，待处理视频图像可以为包括通过人手控制特效的视频图像，或为包括通过人脸控制特效的视频图像，或可以为包括通过人手以及人脸同时控制特效的视频图像。可选的，待处理视频图像可以为实时拍摄过程中的视频图像。待处理视频图像可以包括多帧图像。本实施例中的目标物可以为人手或者人脸。可以理解的是，在对包括有用户通过手势(或人脸)控制特效的视频图像中的手势(或人脸)进行跟踪时，为了确保跟踪的持续性，需要对每一帧视频图像中的手势(或人脸)进行检测以及跟踪，而当视频文件较大时，将会给用户终端带来巨大的计算压力，进而影响跟踪的效果以及效率。

作为一种改善上述问题的方式，电子设备可以通过从待处理视频图像的第一指定帧图像中获取第一目标物检测框，即将第一目标物确定为跟踪对象，并获取第一目标物在第一指定帧图像中的检测框。其中，第一指定帧图像可以为待处理视频图像的第一帧图像(即起始帧图像，在这种方式下，第一指定帧图像中包括第一目标物的图像，例如，若第一目标物为手势，那么第一指定帧图像中包括手势图像)，也可以为任一最先包括有第一目标物图像的视频帧图像(例如，假设待处理视频图像的第20帧图像最先包括第一目标物图像，那么第一指定帧图像为该第20帧图像)。

在一种实现方式中，若第一目标物为手势，那么可以基于预设的人手检测模型从待处理视频图像的第一指定帧图像中获取第一目标物检测框。可选的，该预设的人手检测模型可以为基于resnet18作为backbone(骨干网络)的retinanet模型进行通道裁剪后训练得到的模型。

步骤S120：基于所述第一目标物检测框获取与第一待跟踪视频图像对应的待跟踪目标物图像。

其中，第一待跟踪视频图像为待处理视频图像的第一指定帧图像之后的图像。可选的，第一待跟踪视频图像可以包括多帧视频图像。作为一种方式，可以基于第一目标物检测框获取与第一待跟踪视频图像对应的待跟踪目标物图像。示例性的，若第一指定帧图像为待处理视频图像的第1帧图像，第一待跟踪视频图像包括10帧视频图像，分别为待处理视频图像的第2-10帧图像，那么可以基于第1帧图像中的第一目标物检测框逐次获取与第2-10帧图像对应的待跟踪目标物图像。具体的，可以采用第一目标物检测框在第1帧图像中的位置对第2帧图像中的目标物图像的位置进行标定，进而可以获取第2帧图像中的待跟踪目标物图像的位置。然后可以采用待跟踪目标物图像在第2帧图像中的跟踪框所在的位置对第3帧图像中的目标物图像的位置进行标定，进而可以获取第3帧图像中的待跟踪目标物图像的位置，以此类推，直至获取完第一待跟踪视频图像的最后一帧图像中待跟踪目标物的位置。

步骤S130：将所述待跟踪目标物图像输入指定检测模型，获取所述指定检测模型输出的目标跟踪框。

可选的，在获取了与第一待跟踪视频图像的各帧图像分别对应的待跟踪目标物图像之后，可以将这些待跟踪目标物图像输入指定检测模型，进而可以获取指定检测模型输出的目标跟踪框，该目标跟踪框包括至少一个目标物跟踪框，即该目标跟踪框可以理解为指定检测模型输出(预测)的第一待跟踪视频图像的各帧图像中待跟踪目标物图像的跟踪框位置。

可选的，本实施例中的指定检测模型为经过裁剪得到的轻量级检测模型。例如，指定检测模型可以为基于MobilenetV2+FPN框架进行模型裁剪得到的更轻量级检测模型，可以将该指定检测模型的检测结果作为对第一目标物检测框的跟踪结果。

作为一种方式，在获取目标跟踪框之后，可以按照第一平滑处理规则对前述至少一个目标物跟踪框进行中心点平滑处理，以便后续可以获取第二目标物检测框与进行中心点平滑处理后的至少一个目标物跟踪框的交并比。其中，第一平滑处理规则可以表示为：

其中，X_mean表征中心点平滑处理后的目标物跟踪框的中心点X坐标，Y_mean表征中心点平滑处理后的目标物跟踪框的中心点Y坐标，N表征至少一个目标物跟踪框的数量(例如，可以为3)，x_i表征至少一个目标物跟踪框的中心点x坐标，y_i表征至少一个目标物跟踪框的中心点y坐标，λ_i表征至少一个目标物跟踪框的中心点坐标的权重参数。可选的，λ_i的具体数值可以根据实际情况进行设定，例如，本实施例中的λ_i取值可以为：λ₁＝0.05,λ₂＝0.25,λ₃＝0.70。

步骤S140：从第二指定帧图像中获取第二目标物检测框。

其中，第二指定帧图像为与第一待跟踪视频图像中的最后一帧图像相邻的下一帧图像，第二指定帧图像与第一指定帧图像间隔固定视频帧，可选的，固定视频帧的具体帧数可以根据实际需求进行设定，例如，固定视频帧可以为10帧，固定视频帧也可以为5～15帧，具体数值或范围可以不作限定。

作为一种方式，可以从待处理视频图像的第二指定帧图像中获取第二目标物检测框，以便于可以实现对检测目标物的持续跟踪。其中，第二目标物检测框与第一目标物检测框可以对应于同一个检测(跟踪)对象。可选的，关于从第二指定帧图像中获取第二目标物检测框的原理以及具体获取过程可以参照步骤S110中的描述，在此不再赘述。

步骤S150：获取所述第二目标物检测框与所述至少一个目标物跟踪框的交并比。

可选的，第二目标物检测框可以包括多个目标物的检测框，在这种方式下，第二目标物检测框与第一目标物检测框可以不对应于同一个检测(跟踪)对象，例如，第二目标物检测框可以包括用户A的左手对应的检测框以及用户A的右手对应的检测框，而第一目标物检测框可以仅包括用户A的左手对应的检测框。在这种方式下，为了确保跟踪的准确性以及持续性，电子设备可以获取第二目标物检测框与至少一个目标物跟踪框的交并比(Intersection over Union)。

以前述示例为例，可以获取第二目标物检测框与待处理视频图像的第2-10帧图像分别对应的待跟踪目标物图像的跟踪框的交并比，以便于可以根据计算得出的交并比判定跟踪是否有效。可选的，若计算得出交并比大于等于预设阈值，那么可以判定跟踪有效；而若计算得出的交并比小于预设阈值，那么可以判定跟踪失效。可选的，预设阈值的具体数值可以不做限定，例如，预设阈值可以为0.3～0.6中的任一数值。

例如，在一些具体的实施方式中，如图3所示，假设上一帧产生的两个人手所在的跟踪框为a1和a2；当前帧通过检测产生的两个人手检测框为b1和b2。对于每个检测框例如b1，可以计算b1和上一帧每个人手跟踪框a1和a2的IOU数值(即交并比)。可选的，若b1和a1的IOU数值最大，那么可以判定当前帧检测框b1和上一帧跟踪框a1匹配，同理可得当前帧检测框b2和上一帧跟踪框a2匹配。

其中，在进行交并比计算时，作为一种具体的实施方式，假设目标物为人手，第一待跟踪视频图像的最后一帧有m个人手跟踪框为t₁,t₁,…,t_m，第二指定帧图像通过人手检测模型产生了n个人手检测框为d₁,d₁,…,d_n，可以计算每个人手检测框和每个人手跟踪框的交并比(可以用IOU表示)，具体计算公式可以表示如下：

IoU＝area/(area1+area2-area)。

其中area为人手检测矩形框d_i(i＝1,2,…,n)和人手跟踪矩形框t_i(i＝1,2,…,m)的重合区域面积，area1和area2分别为人手检测矩形框和人手跟踪矩形框的面积。那么可以计算得到所有人手跟踪框和所有人手检测框的IoU矩阵为：

其中IoU_ij,i＝1,2,…,n；j＝1,2,…,m。可选的，IoU计算示意图可以参考图4。

步骤S160：基于数值大于等于预设阈值的交并比对应的第一目标物跟踪框对所述第二目标物检测框进行平滑处理，得到参考目标物检测框。

作为一种方式，若计算得出交并比大于等于预设阈值，为了确保跟踪的准确性与持续性，可以基于数值大于等于预设阈值的交并比对应的第一目标物跟踪框对第二目标物检测框进行平滑处理，以使得第二目标物检测框的位置与第一目标物跟踪框的位置在整体上更加协调与连贯，进而可以使得通过目标物控制的特效更加稳定与准确。可选的，可以将对第二目标物检测框进行平滑处理后得到的检测框作为参考目标物检测框。

例如，在一个具体的应用场景中，假设待处理视频图像的第2-10帧图像分别对应有第一目标物跟踪框，第11帧图像对应有第二目标物检测框，可以分别求第11帧图像中的第二目标物检测框与第2-10帧图像中的第一目标物跟踪框的交并比，可以理解的是，第二目标物检测框可以包括与多个目标物分别对应的检测框，例如，第二目标物检测框可以包括与用户A的左手对应的检测框，也可以包括与用户A的右手对应的检测框，假设第一目标物跟踪框为与用户A的左手对应的跟踪框，那么所求得的交并比中，用户A的左手对应的检测框与第2-10帧图像中的第一目标物跟踪框的交并比可能会大于等于预设阈值，而用户A的右手对应的检测框与第2-10帧图像中的第一目标物跟踪框的交并比可能会小于预设阈值，在这种方式下，为了确保对用户A的左手跟踪的持续性，可以基于与第2-10帧图像中的第一目标物跟踪框对和用户A的左手对应的检测框进行平滑处理，再将平滑处理后得到的检测框作为目标物检测框。

可选的，在一些可能的实施方式中，也可以基于数值最大的交并比对应的第一目标物跟踪框对所述第二目标物检测框进行平滑处理，将平滑处理后的检测框作为参考目标物检测框。其中，关于交并比的具体计算原理以及计算过程可以参照上述描述，在此不再赘述。

步骤S170：基于所述参考目标物检测框对与所述第一目标物跟踪框对应的第二待跟踪视频图像进行跟踪。

其中，第二待跟踪视频图像为待处理视频图像的第二指定帧图像之后的图像。第二待跟踪视频图像中包括与第一目标物跟踪框对应的目标物，作为一种方式，可以基于参考目标物检测框对与第一目标物跟踪框对应的第二待跟踪视频图像进行跟踪，以实现对与第一目标物跟踪框对应的目标物进行持续跟踪。可选的，在对第二待跟踪视频图像进行跟踪时的具体跟踪原理以及跟踪过程可以参考前述步骤S120-步骤S130中的描述，例如，可以基于参考目标物检测框获取与第二待跟踪视频图像对应的待跟踪目标物图像，再将该待跟踪目标物图像输入前述指定检测模型，然后获取指定检测模型输出的目标跟踪框。在对第二待跟踪视频图像进行跟踪后，可以再次获取第三目标物检测框，重复前述步骤S150至步骤S170中的内容，直至完成对整个待处理视频图像的目标物跟踪。

本实施例提供的目标物跟踪方法，通过从待处理视频图像的第一指定帧图像中获取第一目标物检测框，继而基于第一目标物检测框获取与第一待跟踪视频图像对应的待跟踪目标物图像，再将待跟踪目标物图像输入指定检测模型，获取指定检测模型输出的目标跟踪框，再从第二指定帧图像中获取第二目标物检测框，再获取第二目标物检测框与至少一个目标物跟踪框的交并比，然后基于数值大于等于预设阈值的交并比对应的第一目标物跟踪框对第二目标物检测框进行平滑处理，得到参考目标物检测框，然后基于参考目标物检测框对与第一目标物跟踪框对应的第二待跟踪视频图像进行跟踪。本方法通过裁剪后的更轻量级的检测模型对待跟踪目标物图像进行目标物跟踪框检测，将检测得到的结果作为对目标物跟踪框的预测结果，而不用依赖庞大的目标物跟踪模型的计算结果，减小了目标物跟踪框预测过程中的计算量。通过对第二目标物检测框进行平滑处理，可以使得第二目标物检测框与前一帧目标物跟踪框衔接更加自然，通过间隔指定帧视频图像再获取一次目标物检测框，可以减少目标物跟踪框跟踪过程中的计算复杂度，同时确保跟踪的持续性。

请参阅图5，示出了本申请另一实施例提供的一种目标物跟踪方法的流程图，本实施例提供一种目标物跟踪方法，可应用于电子设备，该方法包括：

步骤S210：从待处理视频图像的第一指定帧图像中获取第一目标物检测框。

步骤S220：基于所述第一目标物检测框获取与第一待跟踪视频图像对应的待跟踪目标物图像。

步骤S230：将所述待跟踪目标物图像输入指定检测模型，获取所述指定检测模型输出的目标跟踪框。

步骤S240：按照第一平滑处理规则对所述至少一个目标物跟踪框进行中心点平滑处理，以及按照第二平滑处理规则对所述至少一个目标物跟踪框进行宽高平滑处理。

可选的，在获得目标跟踪框之后，除了前述实施例所述的可以按照第一平滑处理规则对至少一个目标物跟踪框进行中心点平滑处理之外，还可以继续按照第二平滑处理规则对中心点平滑处理后的至少一个目标物跟踪框进行宽高平滑处理，以便于后续可以获取第二目标物检测框与进行中心点平滑处理以及宽高平滑处理后的至少一个目标物跟踪框的交并比。其中，第二平滑处理规则可以表示为：

其中，W_mean表征中心点平滑处理后的目标物跟踪框的宽度，h_mean表征中心点平滑处理后的目标物跟踪框的高度，N表征至少一个目标物跟踪框的数量，w_i表征至少一个目标物跟踪框的宽度，h_i表征至少一个目标物跟踪框的高度，σ_i表征至少一个目标物跟踪框的宽度以及高度所占的权重。可选的，σ_i的具体数值可以根据实际情况进行设定，例如，本实施例中的σ_i取值可以为：σ₁＝0.25,σ₂＝0.35,σ₃＝0.40。

步骤S250：从第二指定帧图像中获取第二目标物检测框。

步骤S260：获取所述第二目标物检测框与进行中心点平滑处理以及宽高平滑处理后的所述至少一个目标物跟踪框的交并比。

参考上述描述，本实施例可以获取第二目标物检测框与进行中心点平滑处理以及宽高平滑处理后的至少一个目标物跟踪框的交并比，交并比的具体获取原理以及计算过程可以参照前述实施例的描述，在此不再赘述。

步骤S270：基于数值大于等于预设阈值的交并比对应的第一目标物跟踪框对所述第二目标物检测框进行平滑处理，得到参考目标物检测框。

步骤S280：基于所述参考目标物检测框对与所述第一目标物跟踪框对应的第二待跟踪视频图像进行跟踪。

可选的，第二待跟踪视频图像为第二指定帧图像之后的图像。

可选的，本实施例中可以预先建立目标物与不同特效功能的对应关系，目标物可以用于控制对应的特效功能的特效进行移动。例如，若目标物为人手，可以建立多种通过人手控制的特效功能，使得用户通过手势就可以控制相关的特效(例如，“雨滴”特效)进行移动，进而完成短视频等视频内容的拍摄。同理若目标物为人脸，可以建立多种通过人脸控制的特效功能，使得用户可以通过人脸控制相关的特效(例如，“雨滴”特效)进行移动，进而完成短视频等视频内容的拍摄。需要说明的是，本实施例中的目标物可以同时包括人手以及人脸，在该种方式下，若检测到与目标物对应的特效功能处于开启状态，可以先获取目标物的移动方向；然后控制指定特效(可选的，这里可以是通过手势控制的特效，也可以是通过人脸控制的特效，或者是通过手势和人脸均可以控制的特效，该指定特效的具体特效内容可以不做限定，例如，该指定特效可以为“雨滴特效”、“树叶飘落的特效”或者是“向日葵特效”等)按照目标物的移动方向进行同步或延迟移动。

例如，在一个具体的应用场景中，假设指定特效为“云雨特效”，目标物为手势，当用户手势对着电子设备的摄像头向屏幕左侧移动时，可以控制该“云雨特效”也向左侧移动，若用户手势对着电子设备的摄像头向屏幕右侧移动时，可以控制该“云雨特效”也向右侧移动。

可选的，若该指定特效是用户通过手势或者人脸均可以控制的特效，在特效录制的过程中，用户可以交替使用手势或人脸来控制该特效，其中，手势或人脸的出现顺序可以不做限定。通过对目标物进行跟踪，再基于跟踪结果控制指定特效的移动，提升了视频拍摄的趣味性与互动性。

本实施例提供的目标物跟踪方法，通过裁剪后的更轻量级的检测模型对待跟踪目标物图像进行目标物跟踪框检测，将检测得到的结果作为对目标物跟踪框的预测结果，而不用依赖庞大的目标物跟踪模型的计算结果，减小了目标物跟踪框预测过程中的计算量。通过对目标物跟踪框进行平滑处理，可以确保对目标物跟踪的持续性，通过对第二目标物检测框进行平滑处理，可以使得第二目标物检测框与前一帧目标物跟踪框衔接更加自然，通过间隔指定帧视频图像再获取一次目标物检测框，可以减少目标物跟踪框跟踪过程中的计算复杂度，同时确保跟踪的持续性。通过对目标物进行跟踪，再基于跟踪结果控制指定特效的移动，提升了视频拍摄的趣味性与互动性，进而提升了用户体验。

请参阅图6，示出了本申请又一实施例提供的一种目标物跟踪方法的流程图，本实施例提供一种目标物跟踪方法，可应用于电子设备，该方法包括：

步骤S310：从待处理视频图像的第一指定帧图像中获取第一目标物检测框。

步骤S320：基于所述第一目标物检测框获取与第一待跟踪视频图像对应的待跟踪目标物图像。

步骤S330：将所述待跟踪目标物图像输入指定检测模型，获取所述指定检测模型输出的目标跟踪框。

步骤S340：从第二指定帧图像中获取第二目标物检测框。

步骤S350：获取所述第二目标物检测框与所述至少一个目标物跟踪框的交并比。

步骤S361：基于数值大于等于预设阈值的交并比对应的第一目标物跟踪框对所述第二目标物检测框进行平滑处理，得到参考目标物检测框。

步骤S362：基于所述参考目标物检测框对与所述第一目标物跟踪框对应的第二待跟踪视频图像进行跟踪。

步骤S371：将数值小于所述预设阈值的交并比对应的目标物跟踪框作为第二目标物跟踪框。

可选的，在一些视频特效录制场景中，用户可能先伸出一只手控制特效移动，等到一定时长(例如，可以为5秒、10秒等，具体数值可以不作限定)后再伸出另一只手来控制特效，此时，可以是两只手一起控制特效移动，也可以是在伸出另一只手的时候收回在先伸出的一只手，具体可以不受限制。

作为一种方式，若计算得出交并比小于预设阈值，那么可能第二目标物检测框包括与多个目标物对应的检测框，在这种方式下，可以将数值小于预设阈值的交并比对应的目标物跟踪框作为第二目标物跟踪框(可以理解为新的跟踪对象)，需要说明的是，该第二目标物跟踪框与第一目标物跟踪框对应的目标物可以不同，例如，第一目标物跟踪框对应的目标物可以为用户的左手，而第二目标物跟踪框对应的目标物可以为用户的右手，可选的，这里的左手和右手可以是同一用户的左右手，也可以不同的用户的左右手，即可以是用户A的左手与用户B的右手。

步骤S372：基于所述第二目标物检测框对与所述第二目标物跟踪框对应的第二待跟踪视频图像进行跟踪。

可选的，依据上述描述，可以将第二目标物跟踪框作为新的跟踪对象，然后基于第二目标物检测框对与第二目标物跟踪框对应的第二待跟踪视频图像进行跟踪。其中，具体的跟踪原理以及跟踪过程可以参照前述实施例中的相关描述，在此不再赘述。

本实施例提供的目标物跟踪方法，通过裁剪后的更轻量级的检测模型对待跟踪目标物图像进行目标物跟踪框检测，将检测得到的结果作为对目标物跟踪框的预测结果，而不用依赖庞大的目标物跟踪模型的计算结果，减小了目标物跟踪框预测过程中的计算量。通过对目标物跟踪框进行平滑处理，可以确保对目标物跟踪的持续性。通过对第二目标物检测框进行平滑处理，可以使得第二目标物检测框与前一帧目标物跟踪框衔接更加自然，通过间隔指定帧视频图像再获取一次目标物检测框，可以减少目标物跟踪框跟踪过程中的计算复杂度，同时确保跟踪的持续性。通过将第二目标物跟踪框作为新的跟踪对象，然后基于第二目标物检测框对与第二目标物跟踪框对应的第二待跟踪视频图像进行跟踪，可以实现同时对多个目标物(手势或人脸)进行持续跟踪。

请参阅图7，为本申请实施例提供的一种目标物跟踪装置的结构框图，本实施例提供一种目标物跟踪装置400，可以运行于电子设备，所述装置400包括：第一获取模块410、第二获取模块420、第三获取模块430、第四获取模块440、第五获取模块450、处理模块460以及跟踪模块470：

第一获取模块410，用于从待处理视频图像的第一指定帧图像中获取第一目标物检测框。

可选的，本实施例中的目标物可以为人手或人脸等，用户可以通过人手或者人脸控制视频录制过程中的视频特效，例如使视频特效随着用户人手或人脸的移动而同步移动，以丰富视频内容。

第二获取模块420，用于基于所述第一目标物检测框获取与第一待跟踪视频图像对应的待跟踪目标物图像，所述第一待跟踪视频图像为所述第一指定帧图像之后的图像。

第三获取模块430，用于将所述待跟踪目标物图像输入指定检测模型，获取所述指定检测模型输出的目标跟踪框，所述目标跟踪框包括至少一个目标物跟踪框，所述指定检测模型为经过裁剪得到的轻量级检测模型。

第四获取模块440，用于从第二指定帧图像中获取第二目标物检测框，所述第二指定帧图像为与所述第一待跟踪视频图像中的最后一帧图像相邻的下一帧图像。

第五获取模块450，用于获取所述第二目标物检测框与所述至少一个目标物跟踪框的交并比。

可选的，装置400还可以包括平滑处理模块，可以用于按照第一平滑处理规则对所述至少一个目标物跟踪框进行中心点平滑处理。可选的，该第一平滑处理规则可以为：

其中，所述X_mean表征中心点平滑处理后的目标物跟踪框的中心点X坐标，Y_mean表征中心点平滑处理后的目标物跟踪框的中心点Y坐标，所述N表征所述至少一个目标物跟踪框的数量，所述x_i表征所述至少一个目标物跟踪框的中心点x坐标，所述y_i表征所述至少一个目标物跟踪框的中心点y坐标，所述λ_i表征所述至少一个目标物跟踪框的中心点坐标的权重参数。

在这种方式下，第五获取模块450可以用于获取所述第二目标物检测框与进行中心点平滑处理后的所述至少一个目标物跟踪框的交并比。

可选的，在一些实施方式中，上述平滑处理模块可以用于按照第一平滑处理规则对所述至少一个目标物跟踪框进行中心点平滑处理，以及按照第二平滑处理规则对所述至少一个目标物跟踪框进行宽高平滑处理；在这种方式下，第五获取模块450可以用于获取所述第二目标物检测框与进行中心点平滑处理以及宽高平滑处理后的所述至少一个目标物跟踪框的交并比。

其中，本实施例中的第二平滑处理规则可以为：

其中，所述W_mean表征中心点平滑处理后的目标物跟踪框的宽度，所述h_mean表征中心点平滑处理后的目标物跟踪框的高度，所述N表征所述至少一个目标物跟踪框的数量，所述w_i表征所述至少一个目标物跟踪框的宽度，所述h_i表征所述至少一个目标物跟踪框的高度，所述σ_i表征所述至少一个目标物跟踪框的宽度以及高度所占的权重。

可选的，在一些可能的实施方式中，上述平滑处理模块也可以用于仅按照第二平滑处理规则对所述至少一个目标物跟踪框进行宽高平滑处理，在这种方式下，第五获取模块450可以用于获取所述第二目标物检测框与进行宽高平滑处理后的所述至少一个目标物跟踪框的交并比。具体采用何种平滑处理方式可以不作限定。

处理模块460，用于基于数值大于等于预设阈值的交并比对应的第一目标物跟踪框对所述第二目标物检测框进行平滑处理，得到参考目标物检测框。

跟踪模块470，用于基于所述参考目标物检测框对与所述第一目标物跟踪框对应的第二待跟踪视频图像进行跟踪，所述第二待跟踪视频图像为所述第二指定帧图像之后的图像。

可选的，处理模块460，还可以用于将数值小于所述预设阈值的交并比对应的目标物跟踪框作为第二目标物跟踪框(即作为新的目标物进行跟踪)，在这种方式下，跟踪模块470可以用于基于所述第二目标物检测框对与所述第二目标物跟踪框对应的第二待跟踪视频图像进行跟踪。

可选的，装置400还可以包括特效控制模块，用于若检测到与目标物对应的特效功能处于开启状态，获取所述目标物的移动方向，所述目标物用于控制对应的特效功能的特效进行移动；控制指定特效按照所述移动方向移动。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图8，基于上述的目标物跟踪方法及装置，本申请实施例还提供了一种可以执行前述目标物跟踪方法的电子设备100。电子设备100包括存储器102以及相互耦合的一个或多个(图中仅示出一个)处理器104，存储器102以及处理器104之间通信线路连接。存储器102中存储有可以执行前述实施例中内容的程序，而处理器104可以执行存储器102中存储的程序。

其中，处理器104可以包括一个或者多个处理核。处理器104利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器102内的指令、程序、代码集或指令集，以及调用存储在存储器102内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器104可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器104可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器104中，单独通过一块通信芯片进行实现。

存储器102可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器102可用于存储指令、程序、代码、代码集或指令集。存储器102可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现前述各个实施例的指令等。存储数据区还可以存储电子设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参考图9，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质500中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质500可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质500包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质500具有执行上述方法中的任何方法步骤的程序代码510的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码510可以例如以适当形式进行压缩。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

综上所述，本申请实施例提供的一种目标物跟踪方法、装置、电子设备以及存储介质，通过从待处理视频图像的第一指定帧图像中获取第一目标物检测框，继而基于第一目标物检测框获取与第一待跟踪视频图像对应的待跟踪目标物图像，再将待跟踪目标物图像输入指定检测模型，获取指定检测模型输出的目标跟踪框，再从第二指定帧图像中获取第二目标物检测框，再获取第二目标物检测框与至少一个目标物跟踪框的交并比，然后基于数值大于等于预设阈值的交并比对应的第一目标物跟踪框对第二目标物检测框进行平滑处理，得到参考目标物检测框，然后基于参考目标物检测框对与第一目标物跟踪框对应的第二待跟踪视频图像进行跟踪。本方法通过裁剪后的更轻量级的检测模型对待跟踪目标物图像进行目标物跟踪框检测，将检测得到的结果作为对目标物跟踪框的预测结果，而不用依赖庞大的目标物跟踪模型的计算结果，减小了目标物跟踪框预测过程中的计算量。通过对第二目标物检测框进行平滑处理，可以使得第二目标物检测框与前一帧目标物跟踪框衔接更加自然，通过间隔指定帧视频图像再获取一次目标物检测框，可以减少目标物跟踪框跟踪过程中的计算复杂度，同时确保跟踪的持续性。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种目标物跟踪方法，其特征在于，所述方法包括：

从待处理视频图像的第一指定帧图像中获取第一目标物检测框；

基于所述第一目标物检测框获取与第一待跟踪视频图像对应的待跟踪目标物图像，所述第一待跟踪视频图像为所述第一指定帧图像之后的图像；

将所述待跟踪目标物图像输入指定检测模型，获取所述指定检测模型输出的目标跟踪框，所述目标跟踪框包括至少一个目标物跟踪框，所述指定检测模型为经过裁剪得到的轻量级检测模型；

从第二指定帧图像中获取第二目标物检测框，所述第二指定帧图像为与所述第一待跟踪视频图像中的最后一帧图像相邻的下一帧图像；

获取所述第二目标物检测框与所述至少一个目标物跟踪框的交并比；

基于数值大于等于预设阈值的交并比对应的第一目标物跟踪框对所述第二目标物检测框进行平滑处理，得到参考目标物检测框；

基于所述参考目标物检测框对与所述第一目标物跟踪框对应的第二待跟踪视频图像进行跟踪，所述第二待跟踪视频图像为所述第二指定帧图像之后的图像。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

按照第一平滑处理规则对所述至少一个目标物跟踪框进行中心点平滑处理；

所述获取所述第二目标物检测框与所述至少一个目标物跟踪框的交并比，包括：

获取所述第二目标物检测框与进行中心点平滑处理后的所述至少一个目标物跟踪框的交并比。

3.根据权利要求2所述的方法，其特征在于，所述第一平滑处理规则为：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

按照第二平滑处理规则对所述至少一个目标物跟踪框进行宽高平滑处理；

获取所述第二目标物检测框与进行中心点平滑处理以及宽高平滑处理后的所述至少一个目标物跟踪框的交并比。

5.根据权利要求4所述的方法，其特征在于，所述第二平滑处理规则为：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将数值小于所述预设阈值的交并比对应的目标物跟踪框作为第二目标物跟踪框；

基于所述第二目标物检测框对与所述第二目标物跟踪框对应的第二待跟踪视频图像进行跟踪。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述方法还包括：

若检测到与目标物对应的特效功能处于开启状态，获取所述目标物的移动方向，所述目标物用于控制对应的特效功能的特效进行移动；

控制指定特效按照所述移动方向移动。

8.一种目标物跟踪装置，其特征在于，所述装置包括：

第一获取模块，用于从待处理视频图像的第一指定帧图像中获取第一目标物检测框；

第二获取模块，用于基于所述第一目标物检测框获取与第一待跟踪视频图像对应的待跟踪目标物图像，所述第一待跟踪视频图像为所述第一指定帧图像之后的图像；

第三获取模块，用于将所述待跟踪目标物图像输入指定检测模型，获取所述指定检测模型输出的目标跟踪框，所述目标跟踪框包括至少一个目标物跟踪框，所述指定检测模型为经过裁剪得到的轻量级检测模型；

第四获取模块，用于从第二指定帧图像中获取第二目标物检测框，所述第二指定帧图像为与所述第一待跟踪视频图像中的最后一帧图像相邻的下一帧图像；

第五获取模块，用于获取所述第二目标物检测框与所述至少一个目标物跟踪框的交并比；

处理模块，用于基于数值大于等于预设阈值的交并比对应的第一目标物跟踪框对所述第二目标物检测框进行平滑处理，得到参考目标物检测框；

跟踪模块，用于基于所述参考目标物检测框对与所述第一目标物跟踪框对应的第二待跟踪视频图像进行跟踪，所述第二待跟踪视频图像为所述第二指定帧图像之后的图像。

9.一种电子设备，其特征在于，包括一个或多个处理器以及存储器；

一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行权利要求1-7任一所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被处理器运行时执行权利要求1-7任一所述的方法。