CN110334635B

CN110334635B - 主体追踪方法、装置、电子设备和计算机可读存储介质

Info

Publication number: CN110334635B
Application number: CN201910572412.5A
Authority: CN
Inventors: 康健
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2021-08-31
Anticipated expiration: 2039-06-28
Also published as: WO2020259264A1; CN110334635A

Abstract

本申请涉及一种主体追踪方法、装置、电子设备和计算机可读存储介质。上述方法包括：在视频流中获取一帧图像作为参考图像；对参考图像进行主体检测，获得参考图像中主体所在的主体区域；依次获取视频流中参考图像之后的每一帧图像；基于主体区域，通过追踪算法对参考图像之后的每一帧图像进行追踪，得到主体在每一帧图像中的区域；当追踪的图像帧数大于或等于帧数阈值时，将获取的下一帧图像作为参考图像，返回执行对参考图像进行主体检测，获得参考图像中主体所在的主体区域的步骤。上述方法可以在主体追踪过程更新图像的主体区域，可以提高主体追踪的准确性。

Description

主体追踪方法、装置、电子设备和计算机可读存储介质

技术领域

本申请涉影像技术领域，特别是涉及一种主体追踪方法、装置、电子设备和计算机可读存储介质。

背景技术

随着影像技术的发展，主体追踪技术的应用越来越广泛。目前，主体追踪技术通常依靠用户手动选取图像中的主体，进而根据该主体对后续图像进行主体追踪。然而，由于在视频流的拍摄过程中，视频流中的主体、主体的大小、主体的位置等都可能发生变化，传统的主体追踪方法往往无法准确地追踪到主体，存在主体追踪的准确性较低的问题。

发明内容

本申请实施例提供一种主体追踪方法、装置、电子设备和计算机可读存储介质，可以提高主体追踪的准确性。

一种主体追踪方法，包括：

在视频流中获取一帧图像作为参考图像；

对所述参考图像进行主体检测，获得所述参考图像中主体所在的主体区域；

依次获取所述视频流中所述参考图像之后的每一帧图像；

基于所述主体区域，通过追踪算法对所述参考图像之后的每一帧图像进行追踪，得到所述主体在每一帧图像中的区域；

当追踪的图像帧数大于或等于帧数阈值时，将获取的下一帧图像作为所述参考图像，返回执行对所述参考图像进行主体检测，获得所述参考图像中主体所在的主体区域的步骤。

一种主体追踪装置，包括：

第一获取模块，用于在视频流中获取一帧图像作为参考图像；

主体检测模块，用于对所述参考图像进行主体检测，获得所述参考图像中主体所在的主体区域；

第二获取模块，用于依次获取所述视频流中所述参考图像之后的每一帧图像；

主体追踪模块，用于基于所述主体区域，通过追踪算法对所述参考图像之后的每一帧图像进行追踪，得到所述主体在每一帧图像中的区域；

图像确定模块，用于当追踪的图像帧数大于或等于帧数阈值时，将获取的下一帧图像作为所述参考图像，返回执行对所述参考图像进行主体检测，获得所述参考图像中主体所在的主体区域的步骤。

一种电子设备，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

在视频流中获取一帧图像作为参考图像；

依次获取所述视频流中所述参考图像之后的每一帧图像；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：

在视频流中获取一帧图像作为参考图像；

依次获取所述视频流中所述参考图像之后的每一帧图像；

上述主体追踪方法、装置、电子设备和计算机可读存储介质，通过对视频流中的参考图像进行主体检测得到主体所在的主体区域，依次获取参考图像之后的每一帧图像进行主体追踪，得到主体在每一帧图像中的区域，当追踪的图像帧数大于或等于帧数阈值时，则将获取的下一帧图像作为参考图像，并返回对参考图像进行主体检测的步骤，即可以更新图像的主体区域，避免视频流中主体发生变化时导致的主体追踪失败的问题，可以提高主体追踪的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中电子设备的内部结构示意图；

图2为一个实施例中主体追踪方法的流程图；

图3为一个实施例中对图像进行主体追踪的流程图；

图4(a)为一个实施例中上一帧图像的示意图；

图4(b)为一个实施例中图(a)对应的当前帧图像的示意图；

图5为一个实施例中设定帧数阈值的流程图；

图6为一个实施例中对图像进行主体追踪的流程图；

图7为一个实施例中对图像进行主体检测的流程图；

图8为一个实施例中主体区域置信度图进行处理的流程图；

图9为一个实施例图像检测效果的示意图；

图10为一个实施例中根据主体区域置信度图得到主体所在的主体区域的流程的流程图；

图11为一个实施例中主体追踪装置的结构框图；

图12为一个实施例中图像处理电路的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一获取模块称为第二获取模块，且类似地，可将第二获取模块称为第一获取模块。第一获取模块和第二获取模块两者都是获取模块，但其不是同一获取模块。

图1为一个实施例中电子设备的内部结构示意图。如图1所示，该电子设备包括通过系统总线连接的处理器和存储器。其中，该处理器用于提供计算和控制能力，支撑整个电子设备的运行。存储器可包括非易失性存储介质及内存储器。非易失性存储介质存储有操作系统和计算机程序。该计算机程序可被处理器所执行，以用于实现以下各个实施例所提供的一种主体追踪方法。内存储器为非易失性存储介质中的操作系统计算机程序提供高速缓存的运行环境。该电子设备可以是手机、平板电脑或者个人数字助理或穿戴式设备等。在一些实施例中，该电子设备也可以是服务器。其中，服务器可以是独立的服务器，也可以是由多个服务器组成的服务器集群来实现。

图2为一个实施例中主体追踪方法的流程图。本实施例中的主体追踪方法，以运行于图1中的电子设备上为例进行描述。如图2所示，主体追踪方法包括步骤202至步骤210，其中：

步骤202，在视频流中获取一帧图像作为参考图像。

视频流是由多帧图像的视频。视频流可以是电子设备通过摄像头录制的视频，也可以存储在电子设备本地的视频或从网络下载的视频。视频流还可以是电子设备通过摄像头实时捕捉当前场景的画面生成的，即电子设备通过摄像头实时采集多帧预览图像，预览图像可以展示在电子设备的显示屏上，视频流则由多帧预览图像组成的。

参考图像为视频流中的一帧图像。电子设备可以在视频流中获取一帧图像作为参考图像。具体地，电子设备可以获取视频流中第一帧图像作为参考图像。可选地，电子设备可以获取用户选中的视频流中的一帧图像作为参考图像；也可以在接收到主体追踪指令后获取的第一帧图像作为参考图像。当然，参考图像可以是视频流中任意一帧图像，在此不做限定。

步骤204，对参考图像进行主体检测，获得参考图像中主体所在的主体区域。

电子设备对参考图像进行主体检测，获得参考图像中主体所在的主体区域。具体地，电子设备可以通过深度学习的神经网络算法训练主体检测模型，以对参考图像进行主体检测。通过将标识有主体区域和类别的图像的输入至神经网络中，通过神经网络根据检测的预测区域和预测类别对神经网络的参数进行调整，以获得可以准确识别主体区域和类别的主体检测模型。电子设备可以将参考图像输入至主体检测模型，通过主体检测模型对该参考图像进行主体检测，并根据识别的主体对参考图像进行分割，得到主体所在的主体区域。主体所在的主体区域是参考图像中包含主体对应的像素点的最小区域。具体地，当主体检测模型采用矩形框输出主体所在的主体区域时，主体区域包含的像素点与主体对应的像素点关联度高于该参考图像中其他矩形区域包含的像素点与主体对应的像素点的关联度；当主体检测模型采用主体轮廓的方式输出主体所在的主体区域，则主体区域的边缘像素点即为主体的轮廓的边缘像素点，此时主体区域包含的像素点与主体对应的像素点的关联度最高。可选地，主体识别网络可通过深度学习算法如CNN(Convolutional NeuralNetwork，卷积神经网络)、DNN(Deep Neural Network，深度神经网络)、或RNN(RecurrentNeural Network，循环神经网络)等来实现。可选地，在一些实施例中，电子设备也可以获取用户选中的主体区域。

步骤206，依次获取视频流中参考图像之后的每一帧图像。

电子设备获取参考图像及参考图像中主体所在的区域之后，可以依次获取视频流中参考图像之后的每一帧图像，以对视频流中的图像进行主体追踪。可以理解的是，主体追踪的过程通常为逐帧进行的，即对一帧图像进行主体追踪，完成后再对下一帧图像进行主体追踪。

步骤208，基于主体区域，通过追踪算法对参考图像之后的每一帧图像进行追踪，得到主体在每一帧图像中的区域。

主体区域包含有主体对应的特征信息及主体在参考图像中的位置信息。特征信息包括主体的颜色特征、纹理特征、形状特征和空间关系特征等。位置信息可以采用主体在参考图像中的坐标位置来表示。

电子设备可以基于主体区域，通过追踪算法对参考图像之后的每一帧图像进行追踪，得到主体在每一帧图像中的区域。具体地，电子设备可以获取参考图像中主体区域包含的主体的特征信息，从而通过追踪算法在参考图像之后的每一帧图像中查找与该主体的特征信息相匹配的区域，即该图像中主体所在的区域；电子设备还可以根据主体在参考图像中的位置信息在参考图像之后的每一帧图像中对应的位置周围查找与该主体的特征信息相匹配的区域。其中，电子设备可采用的追踪算法可以但不限于是帧差法、光流法、特征点匹配、KCF (High-Speed Tracking with Kernelized Correlation Filters，基于核相关滤波器的高速跟踪算法)等。

可选地，在一个实施例中，电子设备采用KCF追踪算法对参考图像之后的每一帧图像中的主体进行追踪，具体地，在追踪过程中电子设备以上一帧图像中主体所在的区域追踪当前帧图像主体所在的区域，本实施例以上一帧图像为参考图像进行说明，电子设备可以采用的循环矩阵在参考图像的主体区域周围进行采样，使用核相关滤波器根据采样的样本训练分类器，进而在当前帧图像中采用训练的分类器采样，得到每一个样本区域的相关值，将相关值最大的样本区域作为当前帧图像中主体所在的区域。采用KCF进行图像追踪时，通过轮转矩阵进行采样，可以增加训练样本，提高分类器的精准度，进而提高主体追踪的准确性。并且， KCF追踪算法中在采用循环矩阵采样时进行了傅里叶变换，可以避免矩阵求逆操作，可以提高主体追踪的速度。

步骤210，当追踪的图像帧数大于或等于帧数阈值时，将获取的下一帧图像作为参考图像，返回执行对参考图像进行主体检测，获得参考图像中主体所在的主体区域的步骤。

帧数阈值可以根据实际应该应用需求设定，在此不做限定。例如，帧数阈值可以是3帧、 5帧、8帧、10帧等。电子设备在依次获取参考图像之后的每一帧图像进行追踪时，可以统计追踪的图像帧数，当追踪的图像帧数大于或等于帧数阈值时，则将获取的下一帧图像作为参考图像。例如，当帧数阈值为4帧，若电子设备将视频流中的第一帧图像作为参考图像并检测到参考图像中包含的主体所在的主体区域，电子设备可以依次获取第一帧图像之后的每一帧图像进行追踪，直至追踪的图像帧数大于或等于帧数阈值，在该例子中，当对第五帧图像进行追踪后，则追踪的图像帧数等于帧数阈值，则电子设备可以将获取的下一帧即第六帧图像作为参考图像。

电子设备也可以在当连续的追踪的时间大于或等于时间阈值时，将获取的下一帧图像作为参考图像，并返回执行对参考图像进行主体检测，获取参考图像中主体所在的主体区域的步骤。可以理解的是，在视频流中，追踪的图像帧数和追踪的时间可以转换。如当视频流的帧率为60帧每秒时，则帧数阈值为3帧相当于时间阈值为3s，帧数阈值为5帧相当于时间阈值为5s，帧数阈值为10帧相当于时间阈值为10s等。例如，当视频流的帧率为30帧每秒，若帧数阈值为5帧，则电子设备可以在连续追踪的图像帧数大于或等于5帧时，将获取的下一帧图像作为参考图像，相当于电子设备在连续追踪的时间大于或等于10s时，将获取的下一帧图像作为参考图像。电子设备将获取的下一帧图像作为参考图像后，则返回执行对参考图像进行主体检测，获得参考图像中主体所在的主体区域，即在视频流的主体追踪过程中，可以在追踪了帧数阈值的图像后，重新进行主体检测，以更新图像的主体区域再继续追踪。

本申请实施例中，通过对视频流中的参考图像进行主体检测得到主体所在的主体区域，依次获取参考图像之后的每一帧图像进行主体追踪，得到主体在每一帧图像中的区域，当追踪的图像帧数大于或等于帧数阈值时，则将获取的下一帧图像作为参考图像，并返回对参考图像进行主体检测的步骤，即可以更新图像的主体区域，避免视频流中主体发生变化时导致的主体追踪失败的问题，可以提高主体追踪的准确性。并且，本申请中采用深度学习的方式对图像进行主体检测，而采用图像追踪算法进行主体追踪，可以避免采用神经网络识别主体并追踪而导致功耗大、实时性差的问题，不会出现采用传统图像处理方法进行检测图像中的主体而导致追踪效果差的问题，即本申请实施例所提供的技术方案可以在降低功耗的同时，提高主体检测的实时性和准确性。

如图3所示，在一个实施例中，提供的主体追踪方法中基于主体区域，通过追踪算法对参考图像之后的每一帧图像进行追踪，得到主体在每一帧图像中的区域的过程，包括：

步骤302，获取主体在上一帧图像中的区域。

上一帧图像为视频流中即将要进行追踪的当前帧图像的上一帧图像。当前帧图像为将要进行追踪的图像。电子设备可以获取当前帧图像的上一帧图像中主体所在的区域。可选地，若当前帧图像为参考图像之后的第一帧图像，则上一帧图像即为参考图像。

步骤304，将主体在上一帧图像中的区域增大预设尺寸，得到第一预测区域。

预设尺寸可以根据实际应用需求设定，在此不做限定。预设尺寸包括不同方向的尺寸大小。例如，当主体在上一帧图像中的区域为圆形，预设尺寸可以是要增大的半径大小；当主体在上一帧图像中的区域为四方形时，预设尺寸可以包括四个边长要增长的大小。具体地，预设尺寸可以是固定的数值，也可以根据不同的拍摄场景采用的不同的预设尺寸。例如，电子设备可以预设不同的主体类别对应的尺寸，从而根据参考图像的主体识别结果获取相对应的预设尺寸。可以理解的是，预设尺寸也可以基于主体在上一帧图像中的区域的大小来确定。例如，电子设备可以预设增大的幅度为原区域大小的0.1、0.2、0.3等，由此，电子设备可以根据主体在上一帧图像中的区域的大小和预设的幅度确定该预设尺寸。

步骤306，从当前帧图像中获取与第一预测区域的位置相对应的第二预测区域。

第一预测区域为上一帧图像中的区域。第二预测区域在当前帧图像中的位置与第一预测区域在上一帧图像中的位置相同。电子设备可以将主体在上一帧图像中的区域增大预设尺寸，得到第一预测区域，进而根据第一预测区域在上一帧图像中的位置从当前帧图像中获取位置相对应的第二预测区域。具体地，电子设备可以根据第一预测区域在上一帧图像中的位置将第一预测区域映射到当前帧图像，得到第二预测区域；也可以获取第一预测区域在上一帧图像中的坐标位置，根据该坐标位置从当前帧图像获取对应的第二预测区域。

步骤308,对第二预测区域进行追踪，得到主体在当前帧图像中的区域。

电子设备可以对当前帧图像的第二预测区域进行追踪，得到主体在当前帧图像中的区域。即电子设备在对当前帧图像进行主体追踪时，可以不用对整帧图像进行追踪，可以减少图像追踪时的计算量，提高主体追踪的实时性和效率。

图4(a)为一个实施例中上一帧图像的示意图。图4(b)为一个实施例中与图4(a)对应的当前帧图像的示意图。如图4(a)、4(b)所示，上一帧图像中402中主体所在的区域404，电子设备将主体在上一帧图像中的区域404增大预设尺寸可以得到第一预测区域406；进而从当前帧图像412中获取与第一预测区域406位置相对应的第二预测区域416，根据主体在上一帧图像中的区域404对第二预测区域416进行主体追踪，得到主体在当前帧图像中的区域414。

在一个实施例中，将主体在上一帧图像中的区域增大预设尺寸，得到第一预测区域之前，还包括：获取主体在上一帧图像之前的多帧图像中的区域；根据主体在多帧图像中的区域分析主体的移动速度；当移动速度大于或等于预设速度时，增大预设尺寸；当移动速度小于预设速度时，减小预设尺寸。

电子设备在对图像进行追踪时，可以得到并输出主体在图像的区域。在上一帧图像之前的多帧图像通常为视频流中参考图像与当前帧图像之间的图像。可选地，若当前帧图像之前的至少两帧参考图像中的主体相同或相似时，则电子设备获取的多帧图像的数量可以大于帧数阈值；若当前帧图像之前的至少两帧参考图像中的主体不相同时，则获取的多帧图像的数量可以小于或等于帧数阈值。

电子设备可以获取主体在上一帧图像之前的多帧图像中的区域，根据主体在多帧图像中的区域分析主体的移动速度，当移动速度大于或等于预设速度时，增大预设尺寸，当移动速度小于预设速度时，则减小预设尺寸。主体的移动速度可以根据主体所在区域在多帧图像中位置及视频流的帧率来计算。预设尺寸增大和减小的幅度可以根据实际应用需求设定，在此不做限定。可选地，移动速度越大，则预设尺寸增大的幅度可以越大；移动速度越小，则预设尺寸减小的幅度可以越小。其中，预设尺寸可以是主体的移动速度为预设速度时，确定的最佳调整尺寸。

通过根据主体在上一帧图像之前多帧图像中的区域分析主体的移动速度，根据主体的移动速度对预设尺寸进行调整，在移动速度较大时，则增大预设尺寸，可以避免主体在当前帧图像的区域超出未调整的预设尺寸设定的第二预测区域而导致追踪失败的问题，在移动速度较小时，则减小预设尺寸，可以进一步减少图像追踪时的计算量，即可以在保证主体追踪成功的同时提高主体追踪效率。

在一个实施例中，提供的主体追踪方法中在追踪的图像帧数大于或等于帧数阈值之前，还可以包括：

步骤502，获取主体在已追踪的多帧图像中的区域。

通常，已追踪的多帧图像的数量小于或等于帧数阈值。在一些实施例中，已追踪的多帧图像可以包括参考图像，当至少两帧参考图像中的主体相同或相似时，则已追踪的多帧图像的数量可以大于该帧数阈值。电子设备可以获取主体在已追踪的多帧图像中的区域。

步骤504，基于主体在已追踪的多帧图像中的区域分析主体的位置变化量，位置变化量表示主体在图像中的位置变化幅度。

主体的位置变化量表示主体在图像中的位置变化幅度。主体的位置变化量可以包括视频流中主体的面积的变化量和主体移动产生的变化量中的至少一种。电子设备基于主体在已追踪的多帧图像中的区域分析主体的位置变化量，即分析主体在视频流中的变化幅度。位置变化量越大，则主体的变化幅度越大；反之位置变化量越小，则主体的变化幅度越小。

步骤506，当位置变化量大于或等于变化量阈值时，将帧数阈值设为第一数值。

步骤508，当位置变化量小于变化量阈值时，将帧数阈值设为第二数值，其中，第二数值大于第一数值。

变化量阈值可以根据实际应用需求设定，在此不做限定。在电子设备根据位置变化量设定帧数阈值之前，电子设备可以根据默认的帧数阈值判断追踪的图像帧数是否大于或等于帧数阈值。可选地，默认的帧数阈值可以根据实验数据确定的主体的位置变化量为变化量阈值时，用于更新参考图像的最佳帧数阈值。第一数值和第二数值可以根据实际应用需要设定，在此不做设定。具体地，第二数值大于第一数值，电子设备默认的帧数阈值大于或等于第一数值，且小于或等于第二数值。例如，第一数值为3，第二数值可以为5；第一数值为5，第二数值可以为10；第一数值为4，第二数值可以为8等，在此不做限定。

电子设备可以在位置变化量大于或等于变化量阈值时，将帧数阈值设为第一数值，当位置变化量小于变化量阈值时，将帧数阈值设为大于第一数值的第二数值。即在主体的变化幅度较大时，可以及时对参考图像进行更新，以重新确定参考图像主体所在的区域，则主体的变化幅度较小时，可以延迟参考图像的更新，可以减少频繁对参考图像进行主体检测而导致的功耗较大的问题。

在一个实施例中，电子设备包含有陀螺仪，该主体追踪方法还包括：获取陀螺仪输出的角速度数据；根据角速度数据分析电子设备的抖动信息；根据抖动信息对帧数阈值进行调整。

陀螺仪是用于检测角速度的角运动检测装置。电子设备可以视频流的采集过程中获取陀螺仪输出的角速度数据。电子设备可以根据角速度数据可以分析电子设备的抖动幅度，进而根据抖动幅度对帧数阈值进行调整。电子设备的抖动幅度越大，则视频流中的主体产生变化的可能性越高，则电子设备可以预设有幅度阈值，当抖动幅度超过幅度阈值时，则将帧数阈值调低；电子设备的抖动幅度越小，则视频流中主体产生变化的可能性相对较低，电子设备可以在抖动幅度小于幅度阈值时，将帧数阈值调高。可选地，电子设备也可以预先划分多个幅度区间及每一个幅度区间对应的帧数，从而可以根据陀螺仪输出的角速度数据分析抖动幅度，将帧数阈值调整为该抖动幅度所处的幅度区间对应的帧数。

在一个实施例中，提供的主体追踪方法中基于主体区域，通过追踪算法对参考图像之后的每一帧图像进行追踪，得到主体在每一帧图像中的区域的过程，包括：

步骤602，获取参考图像中每一个主体对应的主体区域和类别。

参考图像可以包括一个或多个主体。电子设备对参考图像进行主体检测时，可以输出参考图像中每一个主体对应的主体区域和类别。主体区域的类别包括人物、动物、植物、书籍、家具等，在此不做限定。

步骤604，根据每一个主体对应的类别的优先等级、主体区域的大小和主体区域的位置中的至少一种确定每一个主体的追踪顺序。

具体地，电子设备还可以预设不同类别的优先等级、不同区域大小、以及区域在图像中的不同位置的得分值，从而可以根据每一个主体对应的类别的优先等级、区域的大小、区域在图像中的位置计算每一个主体的分数值，根据每一个主体的分数值确定每一个主体的追踪顺序。通常，主体的类别的优先等级越高、主体区域越大、主体区域距离图像的中心越近，则该主体的追踪顺序越靠前。以优先等级越高，得分值越大，主体区域越大，得分值越大，主体区域距离图像中心越近，得分值越大为例，则每一个主体的追踪顺序即按照分数值从高到低排序的主体的顺序。

步骤606，基于追踪顺序对参考图像之后的每一帧图像进行追踪，得到每一帧图像中每一个主体所在的区域。

电子设备基于追踪顺序对每一帧图像进行追踪，得到每一帧图像中每一个主体所在的区域，即在对一帧图像进行追踪时，可以按照追踪顺序依次对图像中的每一个主体进行追踪，输出该图像中每一个主体所在的区域。

在图像或视频的拍摄过程中，往往会使感兴趣的拍摄物体成像于图像的中心，或者拉近摄像头与感兴趣的拍摄物体之间的物体，使得感兴趣的拍摄物体在图像中成像的面积越大。电子设备根据主体对应的类别的优先等级、主体区域的大小、主体区域的位置中的至少一种确定每一个主体的追踪顺序，根据追踪顺序对图像进行追踪，可以提高主体追踪的效果，满足用户的个性化需求。

在一个实施例中，提供的主体追踪方法中对参考图像进行主体检测，获得参考图像中主体所在的主体区域的过程，包括：

步骤702，生成与参考图像对应的中心权重图，其中，中心权重图所表示的权重值从中心到边缘逐渐减小。

其中，中心权重图是指用于记录参考图像中各个像素点的权重值的图。中心权重图中记录的权重值从中心向四边逐渐减小，即中心权重最大，向四边权重逐渐减小。通过中心权重图表征参考图像的图像中心像素点到图像边缘像素点的权重值逐渐减小。

电子设备可以根据参考图像的大小生成对应的中心权重图。该中心权重图所表示的权重值从中心向四边逐渐减小。中心权重图可采用高斯函数、或采用一阶方程、或二阶方程生成。该高斯函数可为二维高斯函数。

步骤704，将参考图像和中心权重图输入至主体检测模型中，得到主体区域置信度图。

其中，主体检测模型是预先根据同一场景的样本图、中心权重图及对应的已标注的主体掩膜图进行训练得到的模型。具体地，电子设备可以预先采集大量的训练数据，将训练数据输入到包含有初始网络权重的主体检测模型进行训练，得到该主体检测模型。每组训练数据包括同一场景对应的样本图、中心权重图及已标注的主体掩膜图。其中，样本图和中心权重图作为训练的主体检测模型的输入，已标注的主体掩膜(mask)图作为训练的主体检测模型期望输出得到的真实值(ground truth)。主体掩膜图是用于识别图像中主体的图像滤镜模板，可以遮挡图像的其他部分，筛选出图像中的主体。主体检测模型可训练能够识别检测各种主体，如人、花、猫、狗等。

具体地，电子设备可将该参考图像和中心权重图输入到主体检测模型中，进行检测可以得到主体区域置信度图。主体区域置信度图包含各个像素点为不同主体类别的置信度值，例如某个像素点属于人的置信度是0.8，花的置信度是0.1，狗的置信度是0.1。

步骤706，根据主体区域置信度图确定参考图像中的主体，并获取主体所在的主体区域。

主体可以是各种对象，如人、花、猫、狗、牛、白云等。电子设备根据主体区域置信度图中各个像素点为不同主体类别的置信度值的大小可以确定参考图像包含的各个主体及主体所在的主体区域。

具体地，电子设备可以对主体区域置信度图进行自适应阈值过滤，可以剔除主体区域置信度图中置信度值较低，和/或零散的像素点；电子设备还可以对主体区域置信度图进行滤波、膨胀、腐蚀中的一种或多个处理，可以得到边缘精细的主体区域置信度图；从而电子设备可以根据处理后的主体区域置信度图输出参考图像中包含的多个主体所在的主体区域，可以提高主体检测的准确性。

通过生成与参考图像对应的中心权重图，将参考图像和中心权重图输入到对应的主体检测模型中，可以得到主体区域置信度图，根据主体区域置信度图可以确定参考图像中的主体及所在的主体区域，利用中心权重图可以让图像中心的对象更容易被检测，可以更加准确的识别出参考图像中的主体。

在一个实施例中，提供的主体追踪方法还可以获取与参考图像对应深度图像，对参考图像和深度图像进行配准处理，得到配准后的参考图像和深度图像，从而将配准后的参考图像、深度图像、中心权重图输入至主体检测模型中，得到主体区域置信度图，根据主体区域置信度图确定参考图像中的主体，并获取主体所在的主体区域。

深度图像是指包含深度信息的图像。深度图像可以是通过双摄像头拍摄同一场景计算得到的深度图；也可以是由结构光摄像头或TOF(Time of flight，飞行时间)摄像头采集的深度图等。具体地，电子设备可通过摄像头拍摄同一场景得到参考图像和对应的深度图像，然后采用相机标定参数对参考图像和深度图像进行配准，得到配准后的可见光图和深度图。可选地，电子设备对参考图像和深度图像进行配准之后，还可以对该参考图像中像素点的像素值和该深度图像中像素点的像素值分别进行归一化处理。具体地，对参考图像中像素点的像素值从0到255的整型归一化处理为-1到+1的浮点型数值，对深度图像中像素点的像素值归一化处理为0到1的浮点型数值。当无法拍摄得到深度图像时，可自动生成深度值为预设值的仿真深度图。该预设值可为0至1的浮点型数值。

在该实施例中，主体检测模型是预先根据同一场景的可见光图、深度图、中心权重图及对应的已标注的主体掩膜图进行训练得到的模型。主体检测模型是预先采集大量的训练数据，将训练数据输入到包含有初始网络权重的主体检测模型进行训练得到的。每组训练数据包括同一场景对应的可见光图、深度图、中心权重图及已标注的主体掩膜图。

本实施例中，将深度图像和中心权重图作为主体检测模型的输入，可以利用深度图像的深度信息让距离摄像头更近的对象更容易被检测，利用中心权重图中中心权重大，四边权重小的中心注意力机制，让图像中心的对象更容易被检测，引入深度图像实现对主体做深度特征增强，引入中心权重图对主体做中心注意力特征增强，不仅可以准确识别简单场景下的目标主体，更大大提高了复杂场景下的主体识别准确度，引入深度图像可以解决传统目标检测方法对自然图像千变万化的目标鲁棒性较差的问题。简单场景是指主体单一，背景区域对比度不高的场景。

在一个实施例中，提供的图像编码方法中根据主体区域置信度图确定参考图像中的主体，并获取主体所在的主体区域的过程，包括：

步骤802，对主体区域置信度图进行处理，得到主体掩膜图。

具体地，主体区域置信度图中存在一些置信度较低、零散的点，电子设备可以对主体区域置信度图进行过滤处理，得到主体掩膜图。该过滤处理可采用配置置信度阈值，将主体区域置信度图中置信度值低于置信度阈值的像素点过滤。该置信度阈值可采用自适应置信度阈值，也可以采用固定阈值，也可以采用分区域配置对应的阈值。其中，自适应置信度阈值可为局部自适应置信度阈值。该局部自适应置信度阈值是根据像素点的领域块的像素值分布来确定该像素点位置上的二值化置信度阈值。亮度较高的图像区域的二值化置信度阈值配置的较高，亮度较低的图像区域的二值化阈值置信度配置的较低。

可选地，电子设备还可以对该主体区域置信度图进行自适应置信度阈值过滤处理，得到二值化掩膜图；对该二值化掩膜图进行形态学处理和引导滤波处理，得到主体掩膜图。具体地，电子设备将主体区域置信度图按照自适应置信度阈值过滤处理后，将保留的像素点的置信度值采用1表示，去掉的像素点的置信度值采用0表示，得到二值化掩膜图。形态学处理可包括腐蚀和膨胀。可先对二值化掩膜图进行腐蚀操作，再进行膨胀操作，去除噪声；再对形态学处理后的二值化掩膜图进行引导滤波处理，实现边缘滤波操作，得到边缘提取的主体掩膜图。通过形态学处理和引导滤波处理可以保证得到的主体掩膜图的噪点少或没有噪点，边缘更加柔和。

步骤804，检测参考图像，确定参考图像中的高光区域。

其中，高光区域是指亮度值大于亮度阈值的区域。

具体地，电子设备对参考图像进行高光检测，筛选得到亮度值大于亮度阈值的目标像素点，对目标像素点采用连通域处理得到高光区域。

步骤806，根据参考图像中的高光区域与主体掩膜图，确定参考图像中的主体，并获取主体所在的主体区域。

具体地，电子设备可以将参考图像中的高光区域与该主体掩膜图做差分计算或逻辑与计算得到参考图像中消除高光的主体对应的主体区域。其中，电子设备将该参考图像中的高光区域与该主体掩膜图做差分处理，即参考图像和主体掩膜图中对应的像素值相减，得到该参考图像中的主体所在的主体区域。

通过对主体区域置信度图做过滤处理得到主体掩膜图，提高了主体区域置信度图的可靠性，对参考图像进行检测得到高光区域，然后与主体掩膜图进行处理，可得到消除了高光的主体所在的主体区域，针对影响主体识别精度的高光、高亮区域单独采用滤波器进行处理，提高了主体识别的精度和准确性。

图9为一个实施例中图像处理效果示意图。如9所示，参考图像902中存在一只蝴蝶，将参考图像902输入到主体检测模型后得到主体区域置信度图904，然后对主体区域置信度图904进行滤波和二值化得到二值化掩膜图906，再对二值化掩膜图906进行形态学处理和引导滤波实现边缘增强，得到主体掩膜图908。

步骤1002，根据主体区域置信度图得到参考图像包含的多个物体所在的区域及对应的类别。

具体地，电子设备可以通过主体识别网络对参考图像进行主体检测，得到参考图像包含的多个物体所在的区域及对应的类别。

步骤1004，基于每一个物体对应的类别的优先等级、区域的大小和区域的位置中至少一种确定作为主体的目标物体。

电子设备可以预设不同类别对应的优先等级。例如，类别的优先等级可以是人、花、猫、狗、牛、白云依次降低。电子设备基于每一个物体对应的类别的优先等级、区域的大小和区域的位置中的至少一种确定作为主体的目标物体。具体地，当参考图像中存在属于相同类别的多个物体时，电子设备可以根据多个物体对应的区域大小将区域最大的物体确定为目标物体，也可以将距离图像的中心最接近的物体确定目标物体。当参考图像中存在属于不同了类别的多个物体时，电子设备可以将优先等级最高的类别对应的物体作为目标物体，若参考图像中存在优先等级最高的多个物体，则可以进一步根据多个物体所在区域的大小确定目标区域；电子设备还可以结合每一个物体所在区域在图像中的位置确定主体的目标物体。例如，电子设备还可以预设不同类别的优先等级、不同区域大小、以及区域在图像中的不同位置的得分值，以根据每一个物体对应的类别的优先等级、区域的大小、区域在图像中的位置计算每一个物体的分数值，将分数值最高的物体作为目标物体。

步骤1006，将目标物体所在的区域作为主体所在的主体区域。

电子设备确定作为主体的目标物体后，则将目标物体所在的区域作为主体所在的主体区域。

通过基于每一个物体对应的类别的优先等级、区域的大小和区域的位置中至少一种确定作为主体的目标物体，将目标物体所在的区域作为主体所在的主体，可以提高主体识别的准确性。

应该理解的是，虽然图2、3、5-7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、3、5-7中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

图11为一个实施例的主体追踪装置的结构框图。如图11所示，该主体追踪装置包括第一获取模块1102、主体检测模块1104、第二获取模块1106、主体追踪模块1108、图像确定模块1110。其中：

第一获取模块1102，用于在视频流中获取一帧图像作为参考图像；

主体检测模块1104，用于对参考图像进行主体检测，获得参考图像中主体所在的主体区域；

第二获取模块1106，用于依次获取视频流中参考图像之后的每一帧图像；

主体追踪模块1108，用于基于主体区域，通过追踪算法对参考图像之后的每一帧图像进行追踪，得到主体在每一帧图像中的区域；

图像确定模块1110，用于当追踪的图像帧数大于或等于帧数阈值时，将获取的下一帧图像作为参考图像，返回执行对参考图像进行主体检测，获得参考图像中主体所在的主体区域的步骤。

本申请实施例提供的主体追踪装置，通过对视频流中的参考图像进行主体检测得到主体所在的主体区域，依次获取参考图像之后的每一帧图像进行主体追踪，得到主体在每一帧图像中的区域，当追踪的图像帧数大于或等于帧数阈值时，则将获取的下一帧图像作为参考图像，并返回对参考图像进行主体检测的步骤，即可以更新图像的主体区域，避免视频流中主体发生变化时导致的主体追踪失败的问题，可以提高主体追踪的准确性。

在一个实施例中，主体追踪模块1108还可以用于获取主体在上一帧图像中的区域；将主体在上一帧图像中的区域增大预设尺寸，得到第一预测区域；从当前帧图像中获取与第一预测区域的位置相对应的第二预测区域；对第二预测区域进行追踪，得到主体在当前帧图像中的区域。

在一个实施例中，提供的主体追踪装置还包括尺寸调整模块812，尺寸调整模块812用于获取主体在上一帧图像之前的多帧图像中的区域；根据主体在多帧图像中的区域分析主体的移动速度；当移动速度大于或等于预设速度时，增大预设尺寸；当移动速度小于预设速度时，减小预设尺寸。

在一个实施例中，提供的主体追踪装置还包括帧数阈值设定模块814，帧数阈值设定模块814用于获取主体在已追踪的多帧图像中的区域；基于主体在已追踪的多帧图像中的区域分析主体的位置变化量；当位置变化量大于或等于变化量阈值时，将帧数阈值设为第一数值；当位置变化量小于变化量阈值时，将帧数阈值设为第二数值，其中，第二数值大于第一数值。

在一个实施例中，帧数阈值设定模块814还可以用于获取陀螺仪输出的角速度数据；根据角速度数据分析电子设备的抖动幅度；根据抖动幅度对帧数阈值进行调整。

在一个实施例中，主体追踪模块808还可以用于获取参考图像中每一个主体对应的主体区域和类别；根据每一个主体对应的类别的优先等级、主体区域的大小和主体区域的位置中的至少一种确定每一个主体的追踪顺序；基于追踪顺序对参考图像之后的每一帧图像进行追踪，得到每一帧图像中每一个主体所在的区域。

在一个实施例中，主体检测模块1104还可以用于生成与参考图像对应的中心权重图，其中，中心权重图所表示的权重值从中心到边缘逐渐减小；将参考图像和中心权重图输入至主体检测模型中，得到主体区域置信度图；根据主体区域置信度图确定参考图像中的主体，并获取主体所在的主体区域。

在一个实施例中，主体检测模块1104还可以用于对主体区域置信度图进行处理，得到主体掩膜图；检测参考图像，确定参考图像中的高光区域；根据参考图像中的高光区域与主体掩膜图，确定参考图像中的主体，并获取主体所在的主体区域。

在一个实施例中，主体检测模块1104还可以用于获取与参考图像对应的深度图像；对参考图像和深度图像进行配准处理，得到配准后的参考图像和深度图像；将配准后的参考图像、深度图像和所述中心权重图输入到主体检测模型中，得到主体区域置信度图；根据主体区域置信度图确定参考图像中的主体，并获取主体所在的主体区域。

在一个实施例中，主体检测模块1104还可以用于根据主体区域置信度图参考图像包含多个物体所在的区域及对应的类别；基于每一个物体对应的类别的优先等级、区域的大小和区域的位置中至少一种确定作为主体的目标物体；将目标物体所在的区域作为主体所在的主体区域。

上述主体追踪装置中各个模块的划分仅用于举例说明，在其他实施例中，可将主体追踪装置按照需要划分为不同的模块，以完成上述主体追踪装置的全部或部分功能。

本申请实施例中提供的主体追踪装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在终端或服务器上运行。该计算机程序构成的程序模块可存储在终端或服务器的存储器上。该计算机程序被处理器执行时，实现本申请实施例中所描述方法的步骤。

本申请实施例还提供一种电子设备。上述电子设备中包括图像处理电路，图像处理电路可以利用硬件和/或软件组件实现，可包括定义ISP(Image Signal Processing，图像信号处理)管线的各种处理单元。图12为一个实施例中图像处理电路的示意图。如图12所示，为便于说明，仅示出与本申请实施例相关的图像处理技术的各个方面。

如图12所示，图像处理电路包括ISP处理器1240和控制逻辑器1250。成像设备1210捕捉的图像数据首先由ISP处理器1240处理，ISP处理器1240对图像数据进行分析以捕捉可用于确定和/或成像设备1210的一个或多个控制参数的图像统计信息。成像设备1210可包括具有一个或多个透镜1212和图像传感器1214的照相机。图像传感器1214可包括色彩滤镜阵列(如Bayer滤镜)，图像传感器1214可获取用图像传感器1214的每个成像像素捕捉的光强度和波长信息，并提供可由ISP处理器1240处理的一组原始图像数据。传感器1220(如陀螺仪)可基于传感器1220接口类型把采集的图像处理的参数(如防抖参数)提供给ISP处理器1240。传感器1220接口可以利用SMIA(Standard Mobile Imaging Architecture，标准移动成像架构)接口、其它串行或并行照相机接口或上述接口的组合。

此外，图像传感器1214也可将原始图像数据发送给传感器1220，传感器1220可基于传感器1220接口类型把原始图像数据提供给ISP处理器1240，或者传感器1220将原始图像数据存储到图像存储器1230中。

ISP处理器1240按多种格式逐个像素地处理原始图像数据。例如，每个图像像素可具有 8、10、12或14比特的位深度，ISP处理器1240可对原始图像数据进行一个或多个图像处理操作、收集关于图像数据的统计信息。其中，图像处理操作可按相同或不同的位深度精度进行。

ISP处理器1240还可从图像存储器1230接收图像数据。例如，传感器1220接口将原始图像数据发送给图像存储器1230，图像存储器1230中的原始图像数据再提供给ISP处理器 1240以供处理。图像存储器1230可为存储器装置的一部分、存储设备、或电子设备内的独立的专用存储器，并可包括DMA(Direct Memory Access，直接直接存储器存取)特征。

当接收到来自图像传感器1214接口或来自传感器1220接口或来自图像存储器1230的原始图像数据时，ISP处理器1240可进行一个或多个图像处理操作，如时域滤波。处理后的图像数据可发送给图像存储器1230，以便在被显示之前进行另外的处理。ISP处理器1240从图像存储器1230接收处理数据，并对所述处理数据进行原始域中以及RGB和YCbCr颜色空间中的图像数据处理。ISP处理器1240处理后的图像数据可输出给显示器1270，以供用户观看和 /或由图形引擎或GPU(Graphics Processing Unit，图形处理器)进一步处理。此外，ISP 处理器1240的输出还可发送给图像存储器1230，且显示器1270可从图像存储器1230读取图像数据。在一个实施例中，图像存储器1230可被配置为实现一个或多个帧缓冲器。此外， ISP处理器1240的输出可发送给编码器/解码器1260，以便编码/解码图像数据。编码的图像数据可被保存，并在显示于显示器1270设备上之前解压缩。编码器/解码器1260可由CPU或 GPU或协处理器实现。

ISP处理器1240确定的统计数据可发送给控制逻辑器1250单元。例如，统计数据可包括自动曝光、自动白平衡、自动聚焦、闪烁检测、黑电平补偿、透镜1212阴影校正等图像传感器1214统计信息。控制逻辑器1250可包括执行一个或多个例程(如固件)的处理器和/或微控制器，一个或多个例程可根据接收的统计数据，确定成像设备1210的控制参数及ISP处理器1240的控制参数。例如，成像设备1210的控制参数可包括传感器1220控制参数(例如增益、曝光控制的积分时间、防抖参数等)、照相机闪光控制参数、透镜1212控制参数(例如聚焦或变焦用焦距)、或这些参数的组合。ISP控制参数可包括用于自动白平衡和颜色调整(例如，在RGB处理期间)的增益水平和色彩校正矩阵，以及透镜1212阴影校正参数。

在本申请提供的实施例中，成像设备1210可以用于采集视频流中的每一帧图像；图像存储器1230用于存储成像设备1210采集的图像；ISP处理器1240可以获取对成像设备1210 采集的视频流中的一帧图像进行主体检测，以得到参考图像中主体所在的主体区域，并根据主体区域对参考图像之后的每一帧图像进行主体追踪，当追踪的图像帧数大于或等于帧数阈值时，将获取的下一帧图像作为参考图像，返回执行对参考图像进行主体检测，获得参考图像中主体所在的主体区域的步骤，直至视频流追踪完成。电子设备通过上述图像处理电路可以实现上述实施例所提供的主体追踪方法，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质。一个或多个包含计算机可执行指令的非易失性计算机可读存储介质，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行主体追踪方法的步骤。

一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行主体追踪方法。

本申请实施例所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。合适的非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)，它用作外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种主体追踪方法，其特征在于，包括：

在视频流中获取一帧图像作为参考图像；

生成与所述参考图像对应的中心权重图，其中，所述中心权重图所表示的权重值从中心到边缘逐渐减小；

将所述参考图像和所述中心权重图输入至主体检测模型中，得到主体区域置信度图；

根据所述主体区域置信度图确定所述参考图像中的主体，并获取所述主体所在的主体区域；

依次获取所述视频流中所述参考图像之后的每一帧图像；

2.根据权利要求1所述的方法，其特征在于，所述基于所述主体区域，通过追踪算法对所述参考图像之后的每一帧图像进行追踪，得到所述主体在每一帧图像中的区域，包括：

获取所述主体在上一帧图像中的区域；

将所述主体在上一帧图像中的区域增大预设尺寸，得到第一预测区域；

从当前帧图像中获取与所述第一预测区域的位置相对应的第二预测区域；

对所述第二预测区域进行追踪，得到所述主体在所述当前帧图像中的区域。

3.根据权利要求2所述的方法，其特征在于，所述从当前帧图像中获取与所述第一预测区域的位置相对应的第二预测区域，包括：

根据所述第一预测区域在所述上一帧图像中的位置将所述第一预测区域映射至所述当前帧图像，得到所述第二预测区域；和/或

获取所述第一预测区域在所述上一帧图像中的坐标位置，根据所述坐标位置从所述当前帧图像中获取对应的所述第二预测区域。

4.根据权利要求2所述的方法，其特征在于，所述将所述主体在上一帧图像中的区域增大预设尺寸，得到第一预测区域之前，还包括：

获取所述主体在所述上一帧图像之前的多帧图像中的区域；

根据所述主体在多帧所述图像中的区域分析所述主体的移动速度；

当所述移动速度大于或等于预设速度时，增大所述预设尺寸；

当所述移动速度小于所述预设速度时，减小所述预设尺寸。

5.根据权利要求1所述的方法，其特征在于，所述当追踪的图像帧数大于或等于帧数阈值时，将获取的下一帧图像作为所述参考图像之前，还包括：

获取所述主体在已追踪的多帧图像中的区域；

基于所述主体在已追踪的多帧图像中的区域分析所述主体的位置变化量，其中，所述位置变化量表示所述主体在图像中的位置变化幅度；

当所述位置变化量大于或等于变化量阈值时，将所述帧数阈值设为第一数值；

当所述位置变化量小于所述变化量阈值时，将所述帧数阈值设为第二数值，其中，所述第二数值大于所述第一数值。

6.根据权利要求1所述的方法，其特征在于，应用于电子设备，所述电子设备包含陀螺仪，所述方法还包括：

获取所述陀螺仪输出的角速度数据；

根据所述角速度数据分析所述电子设备的抖动幅度；

根据所述抖动幅度对所述帧数阈值进行调整。

7.根据权利要求1所述的方法，其特征在于，所述基于所述主体区域，通过追踪算法对所述参考图像之后的每一帧图像进行追踪，得到所述主体在每一帧图像中的区域，包括：

获取所述参考图像中每一个所述主体对应的主体区域和类别；

根据每一个所述主体对应的类别的优先等级、主体区域的大小和主体区域的位置中的至少一种确定每一个所述主体的追踪顺序；

基于所述追踪顺序对所述参考图像之后的每一帧图像进行追踪，得到每一帧图像中每一个所述主体所在的区域。

8.根据权利要求1所述的方法，其特征在于，所述根据所述主体区域置信度图确定所述参考图像中主体，并获取所述主体所在的主体区域，包括：

对所述主体区域置信度图进行处理，得到主体掩膜图；

检测所述参考图像，确定所述参考图像中的高光区域；

根据所述参考图像中的高光区域与所述主体掩膜图，确定所述参考图像中的主体，并获取所述主体所在的主体区域。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取与所述参考图像对应的深度图像；

对所述参考图像和所述深度图像进行配准处理，得到配准后的参考图像和深度图像；

所述将所述参考图像和所述中心权重图输入至主体检测模型中，得到主体区域置信度图，包括：

将所述配准后的参考图像、所述深度图像和所述中心权重图输入到主体检测模型中，得到主体区域置信度图。

10.根据权利要求1所述的方法，其特征在于，所述根据所述主体区域置信度图确定所述参考图像中的主体，并获取所述主体所在的主体区域，包括：

根据所述主体区域置信度图得到所述参考图像包含多个物体所在的区域及对应的类别；

基于每一个所述物体对应的类别的优先等级、所述区域的大小和所述区域的位置中至少一种确定作为所述主体的目标物体；

将所述目标物体所在的区域作为所述主体所在的主体区域。

11.一种主体追踪装置，其特征在于，包括：

主体检测模块，用于生成与所述参考图像对应的中心权重图，其中，所述中心权重图所表示的权重值从中心到边缘逐渐减小；将所述参考图像和所述中心权重图输入至主体检测模型中，得到主体区域置信度图；根据所述主体区域置信度图确定所述参考图像中的主体，并获取所述主体所在的主体区域；

12.一种电子设备，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至10中任一项所述的主体追踪方法的步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至10中任一项所述的方法的步骤。