CN112507906A

CN112507906A - 目标跟踪的方法、装置以及计算机可读存储介质

Info

Publication number: CN112507906A
Application number: CN202011475631.0A
Authority: CN
Inventors: 罗伯特·罗恩思; 马原
Original assignee: Beijing Pengsi Technology Co ltd
Current assignee: Beijing Pengsi Technology Co ltd
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-03-16

Abstract

本申请实施例提供了一种目标跟踪的方法、装置以及计算机可读存储介质，包括：确定参考帧中的待跟踪目标所在的第一区域；根据第一区域在参考帧中的位置，确定搜索帧中的第二区域，第二区域与第一区域大小相同，且第二区域相对于搜索帧的位置与第一区域相对于参考帧的位置相同；对第一区域执行二维傅里叶变换得到第一频域结果，对第二区域执行二维傅里叶变换得到第二频域结果；获取对预设的高斯标签进行二维傅里叶变换所得到的第三频域结果；根据第一频域结果、第二频域结果和第三频域结果，得到频域综合结果；对频域综合结果进行二维傅里叶逆变换，得到相关性矩阵；根据相关性矩阵，确定待跟踪目标在第二区域中的目标位置。能够提高计算效率。

Description

目标跟踪的方法、装置以及计算机可读存储介质

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种目标跟踪的方法、装置以及计算机可读存储介质。

背景技术

在对图像中的目标进行跟踪时，一般是采用基于支持向量机(SVM)的跟踪器对图像中的目标进行跟踪，或者采用基于相关性的跟踪器对图像中的目标进行跟踪。

在采用上述方法进行目标跟踪时，一般需要将图像中的全部像素点作为输入数据，计算准确度比较高，但是，计算过程中，输入跟踪器的数据量比较大，计算速度比较慢。

发明内容

有鉴于此，本申请实施例的目的在于提供了一种目标跟踪的方法、装置以及计算机可读存储介质，在不降低跟踪结果准确度的前提下，提高了输出跟踪结果的计算效率。

第一方面，本申请实施例提供了一种目标跟踪的方法，该方法包括：

确定参考帧中的待跟踪目标所在的第一区域；

根据所述第一区域在所述参考帧中的位置，确定搜索帧中的第二区域，其中所述第二区域与所述第一区域具有相同的大小，且所述第二区域相对于所述搜索帧的位置与所述第一区域相对于所述参考帧的位置相同；

对所述第一区域执行二维傅里叶变换得到第一频域结果，对所述第二区域执行二维傅里叶变换得到第二频域结果；

获取对预先设定的高斯标签进行二维傅里叶变换所得到的第三频域结果；

根据所述第一频域结果、所述第二频域结果和所述第三频域结果，得到频域综合结果；

对所述频域综合结果进行二维傅里叶逆变换，得到相关性矩阵；

根据所述相关性矩阵，确定所述待跟踪目标在所述第二区域中的目标位置。

在一种实施方式中，所述根据所述第一频域结果、所述第二频域结果和所述第三频域结果，得到频域综合结果，包括：

获取所述第一频域结果的共轭；

计算所述第一频域结果的共轭、所述第二频域结果和所述第三频域结果的第一哈达玛德乘积；

计算所述第一频域结果的共轭与所述第一频域结果的第二哈达玛德乘积，以及，所述第二哈达玛德乘积与预设的正则系数的和值；

计算所述第一哈达玛德乘积与所述和值的商，得到所述频域综合结果。

在一种实施方式中，所述对所述第一区域执行二维傅里叶变换得到第一频域结果，包括：

针对所述第一区域的每一通道，对该通道的各像素的像素值执行二维傅里叶变换，得到第一频域通道结果；

对各第一频域通道结果执行求和，得到所述第一频域结果。

在一种实施方式中，通过下式得到频域综合结果：

其中，

Ψ为频域综合结果；

x_c为参考帧中各像素的像素值；

F为二维快速傅里叶变换；

z_c为搜索帧中各像素的像素值；

C为通道数；

g为预先设定的高斯标签；

λ为预设的正则系数；

*为共轭；

⊙为哈达玛德乘积；

-为逐元素相除。

在一种实施方式中，所述高斯标签和正则系数是基于二维傅里叶变换对实数输入的共轭对称性而预先确定的。

在一种实施方式中，所述确定参考帧中的待跟踪目标所在的第一区域，包括：

使用基于深度学习的目标检测方法，确定所述待跟踪目标在所述参考帧中的边界框；

将所述边界框作为所述第一区域，或者，将包围所述边界框的具有特定大小的区域作为所述第一区域。

在一种实施方式中，所述第一区域和所述第二区域为相同大小的方形，且每条边的像素数等于2的幂次。

在一种实施方式中，根据所述相关性矩阵，确定所述待跟踪目标在所述第二区域中的目标位置，包括：

根据所述相关性矩阵中数值最大的元素所在的位置，来确定所述目标位置。

第二方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被处理器或计算机运行时执行上述目标跟踪的方法的步骤。

第三方面，本申请实施例提供了一种目标跟踪的装置，包括：处理器和如上所述的计算机可读存储介质，当所述处理器运行所述计算机可读存储介质上所存储的计算机程序时，执行上述目标跟踪的方法的步骤。

本申请实施例提供的目标跟踪的方法，在计算目标位置时，对目标所在参考帧、搜索帧中的区域以及预先设定的高斯标签分别执行二维傅里叶变换得到频域结果，并基于频域结果计算目标的位置，相比使用图像帧中全部的像素点计算目标的位置，在不降低得到位置准确度的前提下，减少了计算量，提高了计算速度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种目标跟踪的方法的流程示意图；

图2示出了本申请实施例所提供的一种从图像帧中切割出的包括目标的图像区域的示意图；

图3A示出了本申请实施例所提供的当N＝8时，频域矩阵中存在中心共轭对称的区域的示意图；

图3B示出了本申请实施例所提供的当N＝32时，频域矩阵中存在中心共轭对称的区域的示意图；

图3C示出了本申请实施例所提供的当N＝64时，频域矩阵中存在中心共轭对称的区域的示意图；

图3D示出了本申请实施例所提供的当N＝8时，频域矩阵中所存储的元素的示意图；

图4示出了本申请实施例所提供的一种目标跟踪的装置的结构示意图；

图5示出了本申请实施例所提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

在采用基于相关性的跟踪器对图像中的目标进行跟踪时，在获取视频片段后，对视频片段中的上一个视频帧和当前视频帧分别进行傅立叶变换，得到的频域结果中的元素数量等于视频帧中的像素点数量，这样，用于确定目标在当前视频帧中的目标位置的数据量比较大，从而导致计算量比较大，计算速率比较低，那么实现目标跟踪的效率也会比较低。

在应用场景包括人体跟踪、车辆跟踪、非机动车跟踪时，通用目标跟踪在抓拍机算法中很重要，在相机端进行不同目标的跟踪(例如人脸、人体、车辆等)，构造目标序列，从序列当中选取质量最好的人脸图、人体图、车辆图等，并且输出最优图。

由于相机端计算量有限，更耗时的计算步骤在计算资源丰富的服务器端进行，例如人脸识别、人体属性、车辆品牌分类等，相机端计算资源受到严格的限制，在抓拍过程离不开快速的跟踪算法。

本申请实施例提供了一种目标跟踪的方法，在计算目标位置时，通过确定参考帧中的待跟踪目标所在的第一区域；根据所述第一区域在所述参考帧中的位置，确定搜索帧中的第二区域，其中所述第二区域与所述第一区域具有相同的大小，且所述第二区域相对于所述搜索帧的位置与所述第一区域相对于所述参考帧的位置相同；对所述第一区域执行二维傅里叶变换得到第一频域结果，对所述第二区域执行二维傅里叶变换得到第二频域结果；获取对预先设定的高斯标签进行二维傅里叶变换所得到的第三频域结果；根据所述第一频域结果、所述第二频域结果和所述第三频域结果，得到频域综合结果；对所述频域综合结果进行二维傅里叶逆变换，得到相关性矩阵；根据所述相关性矩阵，确定所述目标在所述第二区域中的目标位置，相比使用图像帧中全部的像素点计算目标的位置，在不降低得到位置准确度的前提下，减少了计算量，提高了计算速度。本申请实施例将基于该思想进行详细描述。

针对上述情况，本申请实施例提供了一种目标跟踪的方法，如图1所示，该方法包括以下步骤：

S101，确定参考帧中的待跟踪目标所在的第一区域。

待跟踪目标可以为人脸、物体、人体等，其中，物体可以为机动车、非机动车等；参考帧可以为基于针对被监控区域进行拍摄得到的视频序列确定的，例如，从对视频序列进行采样得到的多个图像帧中选取一图像帧为参考帧，采样频率可以根据实际情况确定，多个图像帧可以为时间连续的图像帧(按照时间由远及近的顺序排序后的序列)。

这里，确定参考帧中的待跟踪目标所在的第一区域，包括：

这里，基于深度学习的目标检测方法可以是CNN模型、RCNN模型、人脸检测模型等。

在一个实施例中，本实施例中可以通过目标检测(如人脸检测)的方法确定目标(如人脸)在参考帧中的位置，表示为边界框(boundingbox)，如w×h的大小。进一步地，可以确定第一区域，其中该第一区域包含该boundingbox。本申请中，第一区域可以为正方形形状，且每边的像素数为2的幂次，如32×32等。

S102，根据所述第一区域在所述参考帧中的位置，确定搜索帧中的第二区域，其中所述第二区域与所述第一区域具有相同的大小，且所述第二区域相对于所述搜索帧的位置与所述第一区域相对于所述参考帧的位置相同。

这里，搜索帧与参考帧位于同一视频序列中，且搜索帧位于参考帧之后，两者的帧间距等于或大于1帧。依据参考帧中第一区域的位置，在搜索帧中，找到与第一区域相对于参考帧的位置相同的位置，选取与第一区域相同大小的第二区域。这里，作为一可选实施例，第一区域和第二区域为相同大小的方形，且每条边的像素数等于2的幂次。例如，参考帧以及搜索帧大小均为1024x1024，第一区域大小为256x256，第一区域位于参考帧的中心，则确定的搜索帧中的第二区域大小为256x256，第二区域位于搜索帧的中心。第一区域和第二区域也可以为相同大小的其他形状，例如，第一区域大小为256x512，第一区域位于参考帧的左下角，边缘分别与参考帧左下角的边缘重合，则确定的搜索帧中的第二区域大小为256x512，第二区域也位于搜索帧的左下角，边缘分别与搜索帧左下角的边缘重合。

在一个实施例中，搜索帧可以是参考帧的下一帧。例如，可以将视频序列的第0帧作为参考帧，将第1帧作为搜索帧。在另一个实施例中，搜索帧可以位于参考帧之后的第p帧，例如p＝5，可以根据场景需求来进行设定。考虑到目标的移动速度有限，因此可以只限于第一区域和与之相同位置的第二区域进行搜索，这样能够避免针对整个图像进行搜索，减小了计算量。

S103，对所述第一区域执行二维傅里叶变换得到第一频域结果，对所述第二区域执行二维傅里叶变换得到第二频域结果。

这里，对区域中的各像素点对应的像素值进行二维傅里叶变换，像素值可以包括灰度值、红色通道值、蓝色通道值和绿色通道值中的至少一个，例如，在图像帧为灰度图像时，那么，此处涉及的像素值为像素点的灰度值，在图像帧为彩色图像时，那么，此处涉及的像素值为像素点的RGB值，也就是，像素点分别在红绿蓝三个颜色通道的值，可以根据实际情况确定，在图像帧为彩色图像时，需要针对每个颜色通道执行本申请的方法。

可见，本申请中二维傅里叶变换可以指二维快速傅里叶变换(FFT)，且二维FFT的输入是图像中各像素的像素值，无需对图像先进行特征提取过程，从而能够极大地提升处理效率，降低对处理器的要求，能够应用于诸如相机、手机等移动终端。

本申请实施例中，考虑本申请进行傅立叶变换的图像帧为2的幂，选择二维傅立叶变换算法，对于第一区域和第二区域，二维傅里叶变换的输入分别为第一区域中各个像素点的像素值、第二区域中各个像素点的像素值。

二维傅立叶变换可以将一个满足一定条件的二维信号表示为无数个二维正交基的线性组合，该变换不需要空间域原图具有对称性，具有中心共轭对称特性，在进行变换时，可以先对各列进行傅立叶变换之后，对各行进行傅立叶变换，即依次对二维数据中的各列都进行一次一维傅立叶变换，从而得到一维傅里叶系数矩阵，接着，依次对各行的傅里叶系数再进行一次一维傅立叶变换。这里，在列处理过程中，输入是实数，而输出是共轭对称复数。基于二维傅里叶变换的中心共轭对称特性，可以将原始输入向量的傅立叶变换结果与复共轭输入向量的傅立叶变换结果相关联。

这里，第一频域结果中的元素数量以及各个元素的位置是根据二维傅里叶变换的结果的共轭对称性所确定的。

这里，考虑到图像采集设备(如摄像头)采集到的图像帧的尺寸可能比较大，较大的图像帧中包括的像素点比较多，用于进行后续计算导致数据量比较大，或者从网络获取的包括待跟踪目标的图像帧的尺寸可能比较小，较小的图像帧包括的像素点较少，用于后续计算的执行效果会比较差，因此，为了提高后续步骤的执行效率或执行效果，对图像帧进行缩放处理，使得各图像帧中包含待跟踪目标的区域均相同，相对于该图像帧的位置也都相同。

针对每个图像帧，从该图像帧中确定包括待跟踪目标的图像区域，并确定图像缩放比例；按照所述图像缩放比例对该图像区域进行等比例缩放处理，并对缩放处理后的图像区域进行傅立叶变换，以得到该图像帧中像素点的频域值。

考虑小尺寸的跟踪区域，可以提高跟踪器的速度，但性能可能会受影响，而本申请大量使用傅立叶变换，以2的幂执行效果最佳，因此，本申请仅考虑大小为2的幂的正方形图像区域，即，图像区域的尺寸为32x32像素、64x64像素和128x128像素为较佳。

在具体实施过程中，在获取多个图像帧后，针对每个图像帧，可以从该图像帧中切割出包括待跟踪目标的图像区域，图像区域的示意图可以参考图2。其中，从图像帧中切割出包括待跟踪目标的图像区域的过程不进行详细介绍。

在确定图像缩放比例时，可以根据图像采集设备的处理性能来选择图像缩放比例，例如，图像采集设备为相机，相机的CPU处理能力较差，可以选择缩放后图像区域的尺寸为32x32像素对应的缩放比例，若图像采集设备为PC设备，PC设备的CPU处理性能较强，可以选择缩放后图像区域的尺寸为64x64像素或者128x128像素对应的缩放比例。

在对图像区域进行缩小处理时，可以删除图像区域中的部分像素点，在对图像区域进行放大处理时，可以在图像区域中增加像素点，在增加像素点或删除像素点时，以不影响待跟踪目标中包含的信息为前提，通过插值方式插入或删除像素点。

等比例缩放处理后的图像区域一般包括N*N个的像素点的像素值，那么，对缩放处理后的图像区域进行傅立叶变换后得到的N*N个频域值。

本申请实施例中，基于二维傅立叶变换具有中心共轭对称的特性，对图像区域进行傅立叶变换后得到的频域值，依据中心共轭对称特性，选取对称的频域值，得到该图像区域进行傅立叶变换后的频域结果。

在执行S103时，为了便于后续计算，可以根据图像区域(第一区域、第二区域)中像素点的频域值，生成该图像区域对应的频域矩阵。

这里，图像区域一般为N*N的像素矩阵，将像素矩阵中的每个像素值转换到频域。

例如，参考图3A，当N为8时，行0和行4中的第2、3、4列频域值与第6、7、8列的频域值关于列5共轭对称，以行0为例，行0中C1*、C2*、C3*为重复频域值，去除位于该行尾部的C1*、C2*、C3*，将频域值R0、C1、C2、C3、R4作为行0进行傅立叶变换后的频域结果，行4中确定频域结果的情况与行0相同。对于行1和行7、行2和行6、行3和行5，位于两行中一行首位的频域值与位于另一行首位的频域值相同，位于两行中一行首位之后的各个频域值和另一行首位之后的各个频域值关于中心位置(行4、列4)中心对称。

又如，参考图3B，当N＝32时，行0和行16中的列2-列15列频域值与列17-列31的频域值关于列16(第17列)共轭对称。对于行1和行31、行2和行30、行3和行29……行15和行17，位于两行中一行首位的频域值与位于另一行首位的频域值相同，位于两行中一行首位之后的各个频域值和另一行首位之后的各个频域值关于中心位置(行16、列16)中心对称。

再如，当N＝20时，行0中的列2-列9的频域值与列11-列19的频域值关于列10(第11列)对称。对于行1和行19、行2和行18、行3和行17……行9和行11，位于两行中一行首位的频域值与位于另一行首位的频域值相同，位于两行中一行首位之后的各个频域值和另一行首位之后的各个频域值关于中心位置(行10、列10)中心对称。

此处需要说明，当N为偶数，如，10、64、128时，中心共轭对称的情况与上述示例情况相同，考虑到当N越大时，频域矩阵中展示的频域值越密集，频域值显示时会不清楚，因此不对其它N的频域矩阵进行示意，当N＝64时，频域矩阵中存在中心共轭对称的区域可以参考图3C。

通过上述方式，频域结果中的元素数量小于全部像素点数量，元素数量大体上为所述像素点数量的一半，这样，可以保证在确定的位置准确度不降低的情况下，大大减少计算量，由于计算量大大减少，有效降低了所需的计算资源，因而，本申请实施例提供的目标跟踪的方法可以应用于计算资源有限的相机端，从而在相机端实现人脸识别、人体属性、车辆品牌分类等。

对8×8的实数输入进行二维FFT之后的结果的共轭对称性可以如图3A所示，其中*表示共轭。例如，C3*表示C3的共轭……。因此，没有必要计算得到二维FFT之后的8×8大小矩阵中的每个位置的元素。参照图3A，由于共轭对称性，只需要其中第一行的R0，C1，C2，C3，R4；第二行；第三行；第四行；以及第五行的R32，C33，C34，C35，R36就足够了。

以第一区域是8×8为例，第一频域结果无需是8×8的，而可以认为只是8×8矩阵的一个裁剪矩阵。并且，由于第二区域与第一区域具有相同大小，因此第二频域结果与第一频域结果中的元素位置是一一对应的。

具体地，假设第一区域是N×N的，那么第一频域结果中所包含的元素的对应位置包括：第1行的前N/2+1个元素，第2行至第N/2行，以及第N/2+1行的前N/2+1个元素。其中，N为2的幂次。

具体地，所得到的第一频域结果以及第二频域结果中只需得到其中N/2+2位置的元素即可。并且由于这些元素中至少有4个为实数，其他为复数，因此在实际对第一频域结果以及第二频域结果进行存储时，只需占用一半的存储空间即可，如图3D所示为N＝8所示的一例。

这里，频域矩阵中存在中心共轭对称的频域值满足以下公式：

F[i][j]＝F[(N-i)％N][(N-j)％N]*，i,j＝0,…,N-1

其中，F[i][j]为频域矩阵中第i行第j列的频域值，N为频域矩阵的总行数或总列数，％为余数运算符。

这里，对所述第一区域执行二维傅里叶变换得到第一频域结果，包括：

对各第一频域通道结果执行求和，得到所述第一频域结果。

S104，获取对预先设定的高斯标签进行二维傅里叶变换所得到的第三频域结果。

这里，对高斯标签进行二维傅里叶变换的过程与对所述一区域执行二维傅里叶变换的过程相同。

其中，本申请中的预先设定的高斯标签是基于二维傅里叶变换对实数输入的共轭对称性而预先确定的。

作为一个实施例，S104中可以包括：先获取预先设定的高斯标签，然后对其进行二维傅里叶变换从而得到第三频域结果。

作为另一个实施例，S104中可以包括：直接获取第三频域结果，该第三频域结果表示对预先设定的高斯标签进行二维傅里叶变换的结果。

S105，根据所述第一频域结果、所述第二频域结果和所述第三频域结果，得到频域综合结果。

这里，对第一频域结果中的元素和第二频域结果的元素执行逐元素(element-wise)的哈达玛德(Hadamard)相乘运算。

这样，由于逐元素点乘运算的执行速度很快，从而使得本申请中的基于相关性的跟踪器的执行效率很高。

这里，根据所述第一频域结果、所述第二频域结果和所述第三频域结果，得到频域综合结果，包括：

获取所述第一频域结果的共轭；

这里，通过下式得到频域综合结果：

其中，

Ψ为频域综合结果；

x_c为参考帧中各像素的像素值；

F为二维快速傅里叶变换；

z_c为搜索帧中各像素的像素值；

C为通道数；

g为预先设定的高斯标签；

λ为预设的正则系数；

*为共轭；

⊙为哈达玛德乘积；

-为逐元素相除。

这里，高斯标签和正则系数是基于二维傅里叶变换对实数输入的共轭对称性所确定的。

S106，对所述频域综合结果进行二维傅里叶逆变换，得到相关性矩阵。

这里，相关性矩阵的维度等于第一区域的像素值矩阵的维度，元素数量等于第一区域的像素点数量。利用二维逆傅立叶变换，对频域综合结果进行变换，也就是，将频域值转换到空间域，逆傅立叶变换后的结果为第一区域与第二区域对应的像素点的相关性值。

示例性地，相关性矩阵中的N×N个元素中，每个都是0至1之间的值。

S107，根据所述相关性矩阵，确定所述待跟踪目标在所述第二区域中的目标位置。

这里，根据所述相关性矩阵，确定所述待跟踪目标在所述第二区域中的目标位置，包括：

这里，从对频域综合结果进行二维傅里叶逆变换得到的相关性矩阵中，查找并得到最大元素值，依据该最大元素值对应的元素在第二区域中的位置来确定目标位置。例如，可以通过轮询的方式找到最大元素值。

这里，在确定待跟踪目标在所述第二区域中的目标位置后，可以将第二区域对应的搜索帧作为参考帧，执行本申请实施例提供的目标跟踪的方法的步骤，可以实现对目标的实时跟踪。

由此可见，本申请中在二维FFT之前无需进行特征提取这样的预处理，能够加快处理速度，提升效率。并且本申请中二维FFT无需得到结果中的每个元素，能够进一步地提升处理速度。这样的跟踪方式算法简单，能够在诸如相机、手机等移动终端上执行，与此同时还能够保证跟踪精度，使性能满足实际需要，因此具有很高的性价比。

参照图4所示，为本申请实施例提供的一种目标跟踪的装置的示意图，该装置包括：

第一区域获取模块41，用于确定参考帧中的待跟踪目标所在的第一区域；

第二区域获取模块42，用于根据所述第一区域在所述参考帧中的位置，确定搜索帧中的第二区域，其中所述第二区域与所述第一区域具有相同的大小，且所述第二区域相对于所述搜索帧的位置与所述第一区域相对于所述参考帧的位置相同；

第一变换模块43，用于对所述第一区域执行二维傅里叶变换得到第一频域结果，对所述第二区域执行二维傅里叶变换得到第二频域结果；

第二变换模块44，用于获取对预先设定的高斯标签进行二维傅里叶变换所得到的第三频域结果；

计算模块45，用于根据所述第一频域结果、所述第二频域结果和所述第三频域结果，得到频域综合结果；

逆变换模块46，用于对所述频域综合结果进行二维傅里叶逆变换，得到相关性矩阵；

位置确定模块47，用于根据所述相关性矩阵，确定所述待跟踪目标在所述第二区域中的目标位置。

在一种实施方式中，计算模块45用于根据以下步骤确定频域综合结果：

获取所述第一频域结果的共轭；

在一种实施方式中，计算模块45通过下式得到频域综合结果：

其中，

Ψ为频域综合结果；

x_c为参考帧中各像素的像素值；

F为二维快速傅里叶变换；

z_c为搜索帧中各像素的像素值；

C为通道数；

g为预先设定的高斯标签；

λ为预设的正则系数；

*为共轭；

⊙为哈达玛德乘积；

-为逐元素相除。

在一种实施方式中，高斯标签和正则系数是基于二维傅里叶变换对实数输入的共轭对称性所确定的。

在一种实施方式中，第一区域获取模块41用于根据以下步骤确定参考帧中的待跟踪目标所在的第一区域：

在一种实施方式中，位置确定模块46用于根据以下步骤确定所述第二区域中的目标位置：根据所述相关性矩阵中数值最大的元素所在的位置，来确定所述目标位置。

在一种实施方式中，所述搜索帧与所述参考帧位于同一视频序列中，且所述搜索帧位于所述参考帧之后，两者的帧间距等于或大于1帧。

在一种实施方式中，所述第一区域获取模块41用于根据以下步骤对图像帧进行缩放处理，使得各图像帧中包含待跟踪目标的区域均相同，相对于该图像帧的位置也都相同：

针对每个图像帧，从该图像帧中确定包括待跟踪目标的图像区域，并确定图像缩放比例；

按照所述图像缩放比例对该图像区域进行等比例缩放处理。

在一种实施方式中，基于二维傅立叶变换具有中心共轭对称的特性，对图像区域进行傅立叶变换后得到的频域值，依据中心共轭对称特性，选取对称的频域值，得到该图像区域进行傅立叶变换后的频域结果。其中，依据中心共轭对称特性，选取对称的频域值，可以是根据该图像区域中像素点的频域值重复情况进行选取。

这里，频域值重复情况可以包括行内的频域值重复、或列内的频域值重复、或两行包括的频域值重复、或者两列包括的频域值重复。

在一种实施方式中，所述像素值包括灰度值、红色通道值、蓝色通道值和绿色通道值中的至少一个。

本申请实施例还提供了一种计算机设备50，如图5所示，为本申请实施例提供的计算机设备50结构示意图，包括：处理器51、存储器52、和总线53。所述存储器52存储有所述处理器51可执行的机器可读指令(比如，图4中的装置中第一区域获取模块41、第二区域获取模块42、第一变换模块43、第二变换模块44、计算模块45、逆变换模块46和位置确定模块47对应的执行指令等)，当计算机设备50运行时，所述处理器51与所述存储器52之间通过总线53通信，所述机器可读指令被所述处理器51执行时执行如下处理：

确定参考帧中的待跟踪目标所在的第一区域；

一种可能的实施方式中，处理器51执行的指令中，根据所述第一频域结果、所述第二频域结果和所述第三频域结果，得到频域综合结果，包括：

获取所述第一频域结果的共轭；

一种可能的实施方式中，处理器51执行的指令中，对所述第一区域执行二维傅里叶变换得到第一频域结果，包括：

对各第一频域通道结果执行求和，得到所述第一频域结果。

一种可能的实施方式中，处理器51执行的指令中，通过下式得到频域综合结果：

其中，

Ψ为频域综合结果；

x_c为参考帧中各像素的像素值；

F为二维快速傅里叶变换；

z_c为搜索帧中各像素的像素值；

C为通道数；

g为预先设定的高斯标签；

λ为预设的正则系数；

*为共轭；

⊙为哈达玛德乘积；

-为逐元素相除。

一种可能的实施方式中，处理器51执行的指令中，高斯标签和正则系数是基于二维傅里叶变换对实数输入的共轭对称性所确定的。

一种可能的实施方式中，处理器51执行的指令中，确定参考帧中的待跟踪目标所在的第一区域，包括：使用基于深度学习的目标检测方法，确定所述待跟踪目标在所述参考帧中的边界框；将所述边界框作为所述第一区域，或者，将包围所述边界框的具有特定大小的区域作为所述第一区域。

一种可能的实施方式中，处理器51执行的指令中，所述第一区域和所述第二区域为相同大小的方形，且每条边的像素数等于2的幂次。

一种可能的实施方式中，处理器51执行的指令中，根据所述相关性矩阵，确定所述待跟踪目标在所述第二区域中的目标位置，包括：根据所述相关性矩阵中数值最大的元素所在的位置，来确定所述目标位置。

如本领域技术人员所知，随着计算机硬件的发展，总线的具体实现方式以及名称可能发生各种改变，此处所称的总线概念上涵盖任何能够为计算机设备内各部件提供服务的信息传送线路，包括但不限于FSB、HT、QPI、Infinity Fabric等。

在本申请实施例中，处理器可以是通用处理器，包括中央处理器(CPU)，还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、神经网络处理器(NPU)、张量处理器(TPU)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述目标跟踪的方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述目标跟踪的方法，从而解决现有技术中在不降低跟踪结果准确度的前提下，提高了输出跟踪结果的计算效率的问题，本申请在计算目标位置时，通过确定目标在参考帧中的第一区域以及在搜索帧中的第二区域，对第一区域和第二区域分别执行二维傅里叶变换，得到第一频域结果和第二频域结果，第一频域结果和第二频域结果中的元素数量小于第一区域和第二区域中的像素点数量，相比使用图像帧中全部的像素点计算目标的位置，在不降低得到位置准确度的前提下，减少了计算量，提高了计算速度。本申请实施例将基于该思想进行详细描述。

本申请实施例还提供了一种电子设备，包括如图5所示的计算机设备和成像元件，所述成像元件与所述处理器耦接；所述成像元件配置成获取针对目标拍摄得到的多个图像帧；所述处理器配置成执行所述机器可读指令，以执行时执行如上述目标跟踪的方法的步骤。

在一种实施方式中，还包括通讯器件，与目标设备耦接；所述通讯器件配置成在出现目标在各个图像帧中的位置时向目标设备发送所述目标在各个图像帧中的位置。

可选地，本申请涉及的电子设备可以是在商场、教室、交通道路等环境中使用的摄像设备(如摄像头、摄像机、边缘计算盒等)；目标设备可以是关联绑定的手机、平板等设备；通讯器件可以是基于蓝牙技术、第四代移动通信技术(4th generation mobile networks，4G)、第五代移动通信技术(5th generation mobile networks，5G)、无线局域网技术(Wi-Fi Alliance，Wi-Fi)等技术的器件，通讯器件通过路由器向目标设备发送针对目标所处状态的警报信息或者通过无线广域网(Wireless Wide Area Network，WWAN)直接向目标设备发送针对目标在各个图像帧中的位置的警报信息。

本申请实施例还提供了一种计算机程序产品，包括计算机程序/指令，其中，该计算机程序/指令被处理器执行时实现上述目标跟踪的方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种目标跟踪的方法，其特征在于，包括：

确定参考帧中的待跟踪目标所在的第一区域；

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一频域结果、所述第二频域结果和所述第三频域结果，得到频域综合结果，包括：

获取所述第一频域结果的共轭；

3.根据权利要求1所述的方法，其特征在于，所述对所述第一区域执行二维傅里叶变换得到第一频域结果，包括：

对各第一频域通道结果执行求和，得到所述第一频域结果。

4.根据权利要求1所述的方法，其特征在于，通过下式得到频域综合结果：

其中，

Ψ为频域综合结果；

x_c为参考帧中各像素的像素值；

F为二维快速傅里叶变换；

z_c为搜索帧中各像素的像素值；

C为通道数；

g为预先设定的高斯标签；

λ为预设的正则系数；

*为共轭；

⊙为哈达玛德乘积；

-为逐元素相除。

5.根据权利要求4所述的方法，其特征在于，所述高斯标签和正则系数是基于二维傅里叶变换对实数输入的共轭对称性而预先确定的。

6.根据权利要求1所述的方法，其特征在于，所述确定参考帧中的待跟踪目标所在的第一区域，包括：

7.根据权利要求1所述的方法，其特征在于，所述第一区域和所述第二区域为相同大小的方形，且每条边的像素数等于2的幂次。

8.根据权利要求1所述的方法，其特征在于，根据所述相关性矩阵，确定所述待跟踪目标在所述第二区域中的目标位置，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序被处理器或计算机运行时实现如权利要求1至8任一所述方法的步骤。

10.一种目标跟踪的装置，其特征在于，包括：处理器和如权利要求9所述的计算机可读存储介质，当所述处理器运行所述计算机可读存储介质上所存储的计算机程序时，实现如权利要求1至8任一所述方法的步骤。