CN114926650A

CN114926650A - 基于多特征的滤波器降帧更新方法

Info

Publication number: CN114926650A
Application number: CN202210376234.0A
Authority: CN
Inventors: 韩宇星; 林鹏; 顾一帆
Original assignee: South China Agricultural University
Current assignee: South China Agricultural University
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-08-19
Anticipated expiration: 2042-04-11
Also published as: CN114926650B

Abstract

本公开涉及一种基于多特征的滤波器降帧更新方法，以提高对目标对象跟踪定位的准确性。方法包括：获取目标样本图像；对目标样本图像进行特征提取，得到目标样本图像对应的多个特征通道的特征，多个特征通道的特征至少对应两类特征提取方式提取到的特征；将多个特征通道的特征进行融合，得到目标样本图像对应的融合特征；基于待更新滤波器矩阵以及融合特征，得到目标对象对应的置信得分；至少基于目标对象对应的置信得分与目标对象对应的位置标签，构建损失函数，基于损失函数对待更新滤波器矩阵进行一次参数更新，待更新滤波器矩阵的参数更新过程满足预设条件之后，得到用于对视频中的目标对象进行跟踪定位的目标滤波器矩阵。

Description

基于多特征的滤波器降帧更新方法

技术领域

本公开涉及计算机技术领域，具体地，涉及一种基于多特征的滤波器降帧更新方法。

背景技术

在计算机视觉领域，目标对象跟踪是其中的一个重要研究主题。目标对象跟踪主要是通过提取视频图像的上下文目标信息进行建模，并根据此模型预测标定目标位置。目标跟踪在智能监控等诸多领域应用广泛。例如，在视频监控中通过对检测区域内目标的行为分析预警犯罪行为，或在智能交通系统中统计分析车流量、车况以及异常行为。

然而，相关技术中的目标对象跟踪方法存在跟踪精度差，准确性低的问题。

发明内容

本公开的目的是提供一种基于多特征的滤波器降帧更新方法、装置、存储介质及电子设备，以至少部分地解决相关技术中存在的上述问题。

为了实现上述目的，第一方面，本公开提供一种基于多特征的滤波器降帧更新方法，所述方法包括：

获取目标样本图像，所述目标样本图像为样本视频中的图像，所述目标样本图像包括目标对象对应的位置标签；

对所述目标样本图像进行特征提取，得到所述目标样本图像对应的多个特征通道的特征，所述多个特征通道的特征至少对应两类特征提取方式提取到的特征；

将所述多个特征通道的特征进行特征融合，得到所述目标样本图像对应的融合特征；

基于待更新滤波器矩阵以及所述融合特征，得到所述目标对象对应的置信得分，所述置信得分表征目标对象在各个位置的可能性大小；

至少基于所述目标对象对应的置信得分与所述目标对象对应的位置标签，构建损失函数，并基于所述损失函数对所述待更新滤波器矩阵进行一次参数更新，其中，所述待更新滤波器矩阵的参数更新过程满足预设条件之后，得到训练完成的目标滤波器矩阵，所述目标滤波器矩阵用于对目标视频中的目标对象进行跟踪定位。

可选地，所述将所述多个特征通道的特征进行特征融合，得到所述目标样本图像对应的融合特征，包括：

对所述多个特征通道的特征分别进行插值运算，得到位于连续特征空间下的各个插值算子，所述融合特征包括所述各个插值算子。

可选地，所述连续特征空间为希尔伯特空间，所述插值运算计算式包括：

其中，P_d{x^d}表示第d个特征通道对应的插值算子，x^d表示第d个特征通道的特征，设特征通道为D个，d∈{1,2,…,D}，

为在时间t上连续的周期函数，t∈[0,T)，N_d表示第d个特征通道对应的行数以及列数的乘积，n∈{1,2,…,N_d}表示索引值，b_d∈L²(T)表示希尔伯特空间的标准正交基，t∈[0,T)。

可选地，所述方法还包括：

每隔预设帧数，从所述样本视频中获取一帧样本图像作为所述目标样本图像。

可选地，所述基于目标滤波器矩阵以及所述融合特征，得到所述目标对象对应的置信得分，包括：

对所述待更新滤波器矩阵进行降维处理，得到降维后的滤波器矩阵；

基于所述降维后的滤波器矩阵以及所述融合特征，得到所述目标对象对应的置信得分。

可选地，所述至少基于所述目标对象对应的置信得分与所述目标对象对应的位置标签，构建损失函数，包括：

基于所述目标对象对应的置信得分与所述目标对象对应的位置标签，构建目标损失项；

获取所述目标滤波器矩阵对应的第一正则项以及所述目标分解算子对应的第二正则项；

将所述目标损失项、第一正则项以及第二正则项的和确定为所述损失函数。

可选地，所述至少对应两类特征提取方式提取到的特征包括采用ResNet-50网络提取到的图像深度特征、采用HOG提取到的方向梯度直方图特征以及采用CN提取到的颜色特征。

为了实现上述目的，第二方面，本公开提供一种基于多特征的滤波器降帧更新装置，所述装置包括：

目标样本图像获取模块，用于获取目标样本图像，所述目标样本图像为样本视频中的图像，所述目标样本图像包括目标对象对应的位置标签；

特征提取模块，用于对所述目标样本图像进行特征提取，得到所述目标样本图像对应的多个特征通道的特征，所述多个特征通道的特征至少对应两类特征提取方式提取到的特征；

特征融合模块，用于将所述多个特征通道的特征进行特征融合，得到所述目标样本图像对应的融合特征；

置信得分确定模块，用于基于待更新滤波器矩阵以及所述融合特征，得到所述目标对象对应的置信得分，所述置信得分表征目标对象在各个位置的可能性大小；

参数更新模块，用于至少基于所述目标对象对应的置信得分与所述目标对象对应的位置标签，构建损失函数，并基于所述损失函数对所述待更新滤波器矩阵进行一次参数更新，其中，所述待更新滤波器矩阵的参数更新过程满足预设条件之后，得到训练完成的目标滤波器矩阵，所述目标滤波器矩阵用于对目标视频中的目标对象进行跟踪定位。

第三方面，本公开提供一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面中任一项所述方法的步骤。

第四方面，本公开提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现第一方面中任一项所述方法的步骤。

通过上述技术方案，由于在对所述目标样本图像进行特征提取，得到所述目标样本图像对应的多个特征通道的特征时，使用的是至少两类特征提取方式提取到的特征，因此，可以结合不同的特征提取方式的特点，在一定程度上可以对单个特征提取方式存在的缺陷进行互补，进而增强对目标的特征提取效果，使得训练得到的目标滤波器矩阵在用于对视频中的目标对象进行跟踪定位时具有更高的精度。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据本公开一示例性实施例示出的一种针对光照变化挑战的示意图；

图2是根据本公开一示例性实施例示出的一种针对尺度变化挑战的示意图；

图3是根据本公开一示例性实施例示出的一种针对遮挡挑战的示意图；

图4是根据本公开一示例性实施例示出的一种基于多特征的滤波器降帧更新方法的流程示意图；

图5是根据本公开一示例性实施例示出的另一种基于多特征的滤波器降帧更新方法的流程示意图；

图6是根据本公开一示例性实施例示出的一种基于多特征的滤波器降帧更新装置的框图；

图7是根据本公开一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

目标对象跟踪可以是人为选定目标对象，在后续的视频中跟踪系统自动跟踪选定的目标对象，持续捕捉目标对象在视频中所在位置。

发明人研究发现，目标对象跟踪问题的研究是前景广阔且富有挑战的，这是因为现实情况是多种多样的，例如目标的非刚性形变、遮挡、视野消失、自旋转以及光照变化、尺寸变化等。此外，目标对象跟踪算法对实时性(指在规定时间内系统的反应能力)的要求较高。这些都是目标跟踪研究中需要妥善处理的问题。请参阅图1-图3，图1-图3分别从光照变化、尺度变化以及遮挡对上述部分挑战进行了解释。

示例性地，目标对象例如可以是图1以及图3中的人物对象，又例如可以是图2中的车辆，当然，还可以是其他视频图像中的其他对象，例如房屋、飞机等对象。

目标跟踪一般是人为选定目标，在后续的视频中跟踪系统自动跟踪选定的目标，持续捕捉目标在视频中所在位置。跟踪系统主要由运动模型、特征提取、观测模型、模型更新和集成处理五个部分组成。其中，观测模型是对上一阶段提取到的特征进行表观建模，用于确定目标对象的位置，从而实现对目标对象的跟踪定位。观测模型的类型较多，选择合适的观测模型可以提升预期结果。

相关技术中，根据不同的思路，观测模型可分为两类。其一是生成式模型，此模型是通过提取目标特征构造一个具有相当辨识度的特征模型，然后对给定的图像进行模型对照检索得出最终结果。此方法是早期较为常用的方法。基于此模型的算法有LK光流法、meanshift、粒子滤波等。其二是判别式模型，此模型通过过滤掉相似的背景信息，将被跟踪目标和所在背景区分开来，进而实现对目标的跟踪。

然而，相关技术中构建的观测模型对目标对象的跟踪存在跟踪精度差，准确性低的问题。

因此，本公开提供一种基于多特征的滤波器降帧更新方法、装置、存储介质及电子设备，以至少部分地解决相关技术中存在的上述问题。

图4是根据本公开一示例性实施例示出的一种基于多特征的滤波器降帧更新方法的流程图。参照图4，该基于多特征的滤波器降帧更新方法包括：

S410，获取目标样本图像，目标样本图像为样本视频中的图像，目标样本图像包括目标对象对应的位置标签。

其中，目标样本图像可以理解为本次对滤波器矩阵的参数进行更新时，使用的样本图像。

本公开实施例中，可以获取一段样本视频，然后为该段样本视频中的每帧图像标注关注的目标对象在图像中的位置标签。接着便可以用该段样本视频中的图像来训练滤波器矩阵，也即更新滤波器矩阵对应的参数。

也就是说，本公开实施例中，可以通过一段样本视频来对滤波器矩阵完成多次迭代更新。

S420，对目标样本图像进行特征提取，得到目标样本图像对应的多个特征通道的特征，多个特征通道的特征至少对应两类特征提取方式提取到的特征。

本公开实施例中，可以采用不同的特征提取方法来对目标样本图像进行特征提取，使得可以得到不同类型的特征。并且，在对目标样本图像进行特征提取时，可以得到目标样本图像对应的D个特征通道的特征，例如

一共D个特征通道表示的特征图，x表示图像，x的右上标表示在特征图中的第几通道，x的右下标j表示视频图像中的第几帧被提取特征的图像，右下标j为正整数且从1起算直到覆盖全部视频图像的帧数。

S430，将多个特征通道的特征进行特征融合，得到目标样本图像对应的融合特征。

本公开实施例中，为了能够综合多种类型特征的优势，可以将多个特征通道的特征进行特征融合，得到目标样本图像对应的融合特征。

S440，基于待更新滤波器矩阵以及融合特征，得到目标对象对应的置信得分，置信得分表征目标对象在各个位置的可能性大小。

可以理解的是，本公开实施例中，对待更新滤波器矩阵进行参数更新的过程可以是对滤波器矩阵进行初次更新，也可以是已经经过一定次数参数更新之后的滤波器矩阵进行的再次更新。

当对待更新滤波器矩阵进行参数更新的过程是对滤波器矩阵进行初次更新的时候，可以对首次更新的滤波器矩阵进行初始化，接着利用初始化的滤波器矩阵对融合特征进行处理，便可以得到目标对象对应的置信得分，也即得到目标对象在目标样本图像的各个位置的可能性大小。

当对待更新滤波器矩阵进行参数更新的过程是对已经经过一定次数参数更新之后的滤波器矩阵进行的再次更新的时候，可以利用经过一定次数参数更新之后的滤波器矩阵对融合特征进行处理，可以得到目标对象对应的置信得分，也即得到目标对象在目标样本图像的各个位置的可能性大小。

需要说明的是，置信得分越高，目标对象在目标样本图像某个位置的置信得分越高，说明目标对象在该位置的可能性越大，因此，可以将置信得分最高的区域作为通过待更新滤波器矩阵预测得到的目标对象的位置。

在一些实施方式中，置信得分的计算公式包括：

其中，g_f{x_j}表示置信得分，f表示待更新滤波器矩阵，其中，滤波器矩阵的每一列可以表示一个滤波器，因此，待更新滤波器矩阵可以表示为多个待更新滤波器的集合，从而f表示全部待更新滤波器的集合，f^d∈L²(T)，f^d表示第d个特征通道的待更新滤波器，*为卷积运算符。

需要说明的是，在对待更新滤波器矩阵进行初次更新的时候以及在对经过一定次数参数更新之后的滤波器矩阵进行的再次更新的时候，使用的目标样本图像是不同的。当对待更新滤波器矩阵进行初次更新的时候，可以使用样本视频中的第1帧图像作为目标样本图像，当对经过一定次数参数更新之后的滤波器矩阵进行的再次更新的时候，使得的是第1帧之后的图像作为目标样本图像，而具体使用第1帧之后的哪张图像，可以根据当前对待更新滤波器进行参数更新的迭代轮数，以及迭代更新用的目标样本图像的选择频率确定。

S450，至少基于目标对象对应的置信得分与目标对象对应的位置标签，构建损失函数，并基于损失函数对待更新滤波器矩阵进行一次参数更新，其中，待更新滤波器矩阵的参数更新过程满足预设条件之后，得到训练完成的目标滤波器矩阵，目标滤波器矩阵用于对目标视频中的目标对象进行跟踪定位。

本公开实施例中，在得到目标对象对应的置信得分之后，可以将置信得分最高的位置认为是滤波器矩阵预测的目标对象在目标样本图片中的位置，接着，便可以至少基于目标对象对应的置信得分与目标对象对应的位置标签，构建损失函数，在得到损失函数之后，可以通过最小化损失函数，采用批处理梯度下降方式训练待更新滤波器矩阵，从而完成对待更新滤波器矩阵进行一次参数更新。

在一些实施方式中，损失函数C(f)，计算公式如下：

其中，g_f{x₁}表示第1帧图像求得的置信得分，

表示相关滤波器的正则化项。

在一些实施方式中，预设条件可以有多种条件。可选地，可以是待更新滤波器矩阵的迭代更新次数达到预设次数。可选地，还可以是目标样本图像为样本视频中的最后一次被确定为目标样本图像的图像。

在待更新滤波器矩阵的参数更新过程满足预设条件之后，便可以得到训练完成的目标滤波器矩阵，接着在应用阶段，便可以利用目标滤波器矩阵对从图像中确定的融合特征进行处理，得到的目标图像中的目标对象的置信得分，接着便可以将置信得分最高的位置确定为目标对象在目标图像中的位置，进而实现了在单帧图像中的跟踪定位，并可以将该方法扩展到目标视频中，即实现对目标视频中每一帧图像中的目标对象进行跟踪定位，最终实现对目标视频中的目标对象进行跟踪定位的功能。

在一些实施方式中，可以利用目标滤波器矩阵构建观测模型，从而通过观测模型对从图像中确定的融合特征进行处理得到的目标图像中的目标对象的置信得分，接着便可以将置信得分最高的位置确定为目标对象在目标图像中的位置，进而实现了在单帧图像中的跟踪定位。

采用上述方法，由于在对目标样本图像进行特征提取，得到目标样本图像对应的多个特征通道的特征时，使用的是至少两类特征提取方式提取到的特征，因此，可以结合不同的特征提取方式的特点，在一定程度上可以对单个特征提取方式存在的缺陷进行互补，进而增强对目标的特征提取效果，使得训练得到的目标滤波器矩阵在用于对视频中的目标对象进行跟踪定位时具有更高的精度。

在一些实施方式中，至少对应两类特征提取方式提取到的特征包括采用ResNet-50网络提取到的图像深度特征、采用HOG提取到的方向梯度直方图特征以及采用CN提取到的颜色特征。

其中，考虑到形变、遮挡、视野消失、自旋转以及光照变化、尺寸变化等因素的影响，造成了视频中跟踪目标的困难性，因此，本公开实施例中，采用了ResNet-50网络(Residual Network50)，ResNet-50网络的高层特征包含的空间信息丰富，能够很好的处理遮挡等复杂问题。

示例性地，ResNet-50网络的相关参数可以参见下表所示。

表1

也即，该残差网络ResNet-50的结构包含5层，第一层是以卷积核7×7、步长为2的卷积层，剩下4层由残差块组成，每个残差块均包含三个卷积操作且卷积核均分别为1×1、3×3、1×1。

此外，HOG提取的特征能够很好的描述目标轮廓特征，能对图像平移和旋转等外观变化具有一定鲁棒性。CN提取的特征对于快速运动的目标反应较好。且通过HOG提取的梯度特征弥补被颜色特征忽视的空间信息，减少光照变化、颜色相似等影响较大的因素，实现HOG提取的方向梯度直方图特征和CN提取到的颜色特征的综合互补。

结合前述内容可知，在对目标样本图像进行特征提取，可以得到目标样本图像对应的D个特征通道的特征，在这D个特征通道中，一个特征通道为方向梯度直方图特征，另一个特征通道为颜色特征，剩余的D-2个特征通道为图像深度特征，其中D为大于或者等于1的整数。

此外，考虑到通过不同特征提取方式提取到的不同特征分辨率不同，即特征维度不同，简单的串行融合是不能进行后续的训练任务的。因此，提出一种插值运算，把离散的特征通道变换到一个连续的特征空间。因此，在一些实施方式中，将多个特征通道的特征进行特征融合，得到目标样本图像对应的融合特征，可以包括步骤：

对多个特征通道的特征分别进行插值运算，得到位于连续特征空间下的各个插值算子，融合特征包括各个插值算子。

本公开实施例中，将目标样本图像的多个特征通道的特征

作为输入数据，通过插值运算将

转换到连续特征空间下的各个插值算子，便完成了对多个特征通道的特征进行特征融合，从而，融合特征包括各个插值算子。

首先设定原始离散空间用

表示，

是定义在[0,T)上的欧式空间，仅表示在一维上的定义。插值运算的目的是计算一个插值算子，实现提取到的多分辨率从欧式空间(离散空间)

到连续特征空间的映射。用x表示样本，一共有D个特征通道，x^d,d∈{1,2,…,D}表示第d个特征通道，即表示提取到的一种特征，第d个通道的插值算子表示为P_d{x^d}。

在一些实施方式中，连续特征空间为希尔伯特空间L²(T)，这种情况下，

因此我们提出第d个特征通道的插值算子的计算公式，即差值运算计算式包括：

可以理解的是，在将多个特征通道的特征进行特征融合之后，就将原本属于欧式空间的特征转换到连续的希尔伯特空间。然后便可以进一步用插值算子代替原始的多个特征通道的特征训练滤波器矩阵，实现提取到的不同分辨率特征从欧式空间(离散空间

)到连续特征空间的映射，从而完成特征融合的过程。

此外，考虑到待更新滤波器矩阵的计算量巨大，且视频中相邻两帧之间的目标形态、位置等差距较小，导致相邻帧之间相似的特征较多，容易产生过多的冗余特征，进而引起目标对象定位的过拟合，在一些实施方式中，可以采用一种降帧更新机制，也即本公开实施例的方法还包括步骤：

每隔预设帧数，从样本视频中获取一帧样本图像作为目标样本图像。

其中，每个预设帧数例如可以是每隔1帧、2帧、3帧、4帧、5帧等。

示例性地，当从样本视频的第1帧图像开始，每隔5帧，从样本视频中获取一帧样本图像时，可以分别取样第1帧图像、第6帧图像、第11帧图像等帧序号的图像作为目标样本图像，并将第1帧图像用于对初始滤波器矩阵进行参数更新得到第一待更新滤波器矩阵，将第6帧图像用于对第一滤波器矩阵进行参数更新得到第二待更新滤波器矩阵，将第11帧图像用于对初始滤波器矩阵进行参数更新得到第三待更新滤波器矩阵，依次类推，直到样本视频中的最后一次被确定为目标样本图像的图像。例如，当样本视频包括100帧图像时，则直到第96帧图像被确定为目标样本图像，并将第96帧图像用于对对应的待更新滤波器矩阵进行参数更新，并且，在将第96帧图像用于对对应的待更新滤波器矩阵进行参数更新，可以得到训练完成的目标滤波器矩阵。

本公开实施例中，每隔预设帧数，从样本视频中获取一帧样本图像作为目标样本图像，相当于是调整了待更新滤波器矩阵的更新频率，提高目标的跟踪速度，同时经过实验发现，采用降帧更新机制在一定程度上也提高了目标的跟踪效果。

可以理解的是，也可以从样本视频的第1帧图像开始，从样本视频中获取连续样本图像来作为目标样本图像，此时相当于是将样本视频中的每帧图像均作为样本图像。也即，对初始滤波器矩阵进行参数更新得到第一待更新滤波器矩阵时，采用样本视频中的第1帧图像，对第一待更新滤波器矩阵进行参数更新得到第二待更新滤波器矩阵时，采用样本视频中的第二帧图像，对第二待更新滤波器矩阵进行参数更新得到第三待更新滤波器矩阵时，采用样本视频中的第三帧图像，依次类推，直到样本视频中的最后一帧图像，并将最后一帧图像用于对对应的待更新滤波器矩阵进行参数更新，并且，在将最后一帧图像用于对对应的待更新滤波器矩阵进行参数更新，可以得到训练完成的目标滤波器矩阵。

请参阅表2，表2为不同的更新策略的实验结果，根据表2的实验结果，当选择每隔5帧确定一帧目标样本图像来对待更新滤波器矩阵进行一次参数更新时，能在兼顾跟踪速度的同时达到最优的跟踪精度。其中，参数N表示每隔N帧图像进行一次参数更新，即待更新滤波器矩阵的更新。

样本图像频率	跟踪精度	跟踪速度(FPS)
			连续图像帧	0.7996	1.1424
每隔1帧	0.8028	1.1658
			每隔2帧	0.8030	1.2169
每隔3帧	0.8041	1.2880
			每隔4帧	0.8046	1.3479
每隔5帧	0.8036	1.3551
			每隔6帧	0.8036	1.3689

表2

此外，考虑到特征通道过多，计算量庞大，导致计算缓慢，降低了实时性，且通过实验发现，部分特征通道训练得到的待更新滤波器对当前帧目标的定位帮助不大，因此可以考虑简化待更新滤波器矩阵，即进行一次额外的特征降维。因此，在一些实施方式中，基于目标滤波器矩阵以及融合特征，得到目标对象对应的置信得分，包括：

对待更新滤波器矩阵进行降维处理，得到降维后的滤波器矩阵；基于降维后的滤波器矩阵以及融合特征，得到目标对象对应的置信得分。

本公开实施例中，通过对待更新滤波器矩阵进行降维处理，得到降维后的滤波器矩阵，并进一步基于降维后的滤波器矩阵以及融合特征，得到目标对象对应的置信得分，由于对待更新滤波器矩阵进行了降维处理，可以缩减对当前样本图像中的目标对象的定位帮助不大的滤波器，从而降低了计算量，更能满足目标对象跟踪定位的实时性需求。

在一些实施方式中，可以通过分解运算来对待更新滤波器矩阵进行降维处理，分解运算用到的分解算子Q＝{q¹,q²,…,q^C}也是一个待学习的系数矩阵，从而通过计算分解算子与待更新滤波器矩阵的积，便相当于是对待更新滤波器矩阵进行降维处理，以得到降维后的滤波器矩阵。其中，分解算子Q与待更新滤波器矩阵是同时进行迭代更新的。

通过学习得到分解算子Q，计算得到新的置信得分函数如下：

其中，

表示基于降维后的滤波器矩阵以及融合特征，得到目标对象对应的置信得分，Q＝{q¹,q²,…,q^C}表示分解算子，

为分解算子和待更新滤波器矩阵的积，用来表达降维后的滤波器矩阵。

本公开实施例中，通过分解运算来对待更新滤波器矩阵进行降维处理之后，可以用少于D的C个滤波器表示D个通道的特征，相当于进行了一次特征降维操作。

此外，在对待更新滤波器矩阵进行降维处理，得到降维后的滤波器矩阵，并基于降维后的滤波器矩阵以及融合特征，得到目标对象对应的置信得分之后，为了避免过拟合问题，以进一步提高后续对目标对象跟踪效果，在一些实施方式中，至少基于目标对象对应的置信得分与目标对象对应的位置标签，构建损失函数，可以包括步骤：

基于目标对象对应的置信得分与目标对象对应的位置标签，构建目标损失项；获取目标滤波器矩阵对应的第一正则项以及目标分解算子对应的第二正则项；将目标损失项、第一正则项以及第二正则项的和确定为损失函数。

本公开实施例中，损失函数除了包括基于目标对象对应的置信得分与目标对象对应的位置标签，构建的目标损失项之外，还可以包括目标滤波器矩阵对应的第一正则项以及目标分解算子对应的第二正则项，通过增加目标滤波器矩阵对应的第一正则项以及目标分解算子对应的第二正则项，可以避免过拟合问题，以进一步提高后续对目标对象跟踪效果。

同样地，在计算得到损失函数之后，便可以通过最小化损失函数训练待更新滤波器矩阵以及分解算子。

在一些实施方式中，分解算子可以只在利用第1帧图像对初始化滤波器矩阵进行参数更新的时候更新一次，而在后续迭代过程中保持参数不变。

在一些实施方式中，损失函数可以包括以下计算式：

其中，

表示损失函数，通过

训练相关滤波器

表示第j个训练样本的样本-标签对，

表示相关滤波器的第一正则化项，

是一个由参数λ控制的对分解算子的第二正则化项，

为Frobenius范数。

下面结合图5所示的流程示意图，对初始滤波器矩阵进行第一次参数更新开始，以一个示例来对本公开实施例的模型训练方法的过程进行说明。

准备样本视频，假设样本视频包括100帧样本图像，为样本视频中的这100帧样本图像标注关注的目标对象的位置标签。并且，在本实施例中，以从第1帧样本图像开始，每隔5帧样本图像，确定一帧目标样本图像为例。

对第1帧样本图像x₁分别采用ResNet-50、HOG、CN三种特征提取方式进行提取特征得到

一共D个特征通道的特征图。

将分辨率不同的

作为输入数据，通过插值运算将其转换到连续的希尔伯特空间，以完成对特征进特征融合的过程。计算第d(d∈{1,2,…,D})个特征通道的插值算子P_d{x^d}，计算公式如下：

上式中，x^d表示第d个特征通道，N_d表示第d个特征通道对应的行数以及列数的乘积，n∈{1,2,…,N_d}表示索引值，b_d∈L²(T)表示希尔伯特空间的标准正交基，t∈[0,T)。

利用初始化的分解算子对初始化的滤波器矩阵进行降维，得到降维后的滤波器矩阵，接着利用降维后的滤波器矩阵对D个特征通道的插值算子进行计算，得到第1帧样本图像中目标对象的置信得分。该过程可以用以下公式表示：

上式中，

接着，基于目标对象对应的置信得分与目标对象对应的位置标签，构建目标损失项，获取初始话的滤波器矩阵对应的第一正则项以及目标分解算子对应的第二正则项，将目标损失项、第一正则项以及第二正则项的和确定为损失函数。该过程可以用以下公式表示：

其中，

表示损失函数，

表示第1个帧样本图像的样本-标签对，

表示初始化的滤波器的第一正则化项，

是一个由参数λ控制的对分解算子的第二正则化项，

为Frobenius范数。

最后，最小化损失函数，采用批处理梯度下降方式对初始化的分解算子以及初始化的滤波器矩阵进行更新。

上述过程便完成了对初始化的滤波器矩阵以及初始化的分解算子进行第一次参数更新的过程。

接着，对第6帧样本图像x₆分别采用ResNet-50、HOG、CN三种特征提取方式进行提取特征得到

一共D个特征通道的特征图。

将分辨率不同的

作为输入数据，通过插值运算将其转换到连续的希尔伯特空间，以完成对特征进特征融合的过程。计算第d(d∈{1,2,…,D})个特征通道的插值算子P_d{x^d}。

利用第一次更新的分解算子对第一次更新的滤波器矩阵进行降维，得到降维后的滤波器矩阵，接着利用降维后的滤波器矩阵对D个特征通道的插值算子进行计算，得到第6帧样本图像中目标对象的置信得分。

接着，基于目标对象对应的置信得分与目标对象在第6帧图像中的位置标签，构建目标损失项，获取第一次更新的滤波器矩阵对应的第一正则项以及目标分解算子对应的第二正则项，将目标损失项、第一正则项以及第二正则项的和确定为损失函数。

最后，最小化损失函数，采用批处理梯度下降方式第一次更新的滤波器矩阵进行更新，得到第二次更新的滤波器矩阵。

上述过程便完成了对待更新的滤波器矩阵进行第二次参数更新的过程。

接着，便可以依次将第11帧、16帧等帧序号的样本图像用于对待更新的滤波器矩阵进行参数更新，并且，当在完成将第96帧样本图像用于对待更新的滤波器矩阵进行参数更新之后，便可以得到训练完成的目标滤波器矩阵。

本公开实施例通过利用图像深度特征、方向梯度直方图特征以及颜色特征，可以具备不同特性的目标特征解决由于形变、遮挡、视野消失、自旋转以及光照变化、尺寸变化等因素的影响，解决了视频中跟踪目标困难的问题，提出分解运算对冗余的特征信息进行降维，仅保留对跟踪目标具有显著影响的滤波器，减少庞大的计算量，更好的满足模型对实时性的需求，加强了整体结构的鲁棒性。提出降帧更新机制，进一步满足实时跟踪目标的要求，而且在一定程度上提升了目标跟踪精度。

基于同一构思，本公开还提供一种基于多特征的滤波器降帧更新装置，该装置可以通过软件、硬件或者两者结合的方式成为电子设备的部分或全部。参照图6，该基于多特征的滤波器降帧更新装置600可以包括：

目标样本图像获取模块610，用于获取目标样本图像，所述目标样本图像为样本视频中的图像，所述目标样本图像包括目标对象对应的位置标签；

特征提取模块620，用于对所述目标样本图像进行特征提取，得到所述目标样本图像对应的多个特征通道的特征，所述多个特征通道的特征至少对应两类特征提取方式提取到的特征；

特征融合模块630，用于将所述多个特征通道的特征进行特征融合，得到所述目标样本图像对应的融合特征；

置信得分确定模块640，用于基于待更新滤波器矩阵以及所述融合特征，得到所述目标对象对应的置信得分，所述置信得分表征目标对象在各个位置的可能性大小；

参数更新模块650，用于至少基于所述目标对象对应的置信得分与所述目标对象对应的位置标签，构建损失函数，并基于所述损失函数对所述待更新滤波器矩阵进行一次参数更新，其中，所述待更新滤波器矩阵的参数更新过程满足预设条件之后，得到训练完成的目标滤波器矩阵，所述目标滤波器矩阵用于对目标视频中的目标对象进行跟踪定位。

可选地，特征融合模块630，还用于对所述多个特征通道的特征分别进行插值运算，得到位于连续特征空间下的各个插值算子，所述融合特征包括所述各个插值算子。

可选地，装置还包括：

目标样本图像确定模块，用于每隔预设帧数，从所述样本视频中获取一帧样本图像作为所述目标样本图像。

可选地，置信得分确定模块640，还用于对所述待更新滤波器矩阵进行降维处理，得到降维后的滤波器矩阵；基于所述降维后的滤波器矩阵以及所述融合特征，得到所述目标对象对应的置信得分。

可选地，参数更新模块650，还用于基于所述目标对象对应的置信得分与所述目标对象对应的位置标签，构建目标损失项；获取所述目标滤波器矩阵对应的第一正则项以及所述目标分解算子对应的第二正则项；将所述目标损失项、第一正则项以及第二正则项的和确定为所述损失函数。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

基于同一发明构思，本公开还提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现上述任一数据确定方法的步骤。

在可能的方式中，该电子设备的框图可以如图7所示。参照图7，该电子设备700可以包括：处理器701，存储器702。该电子设备700还可以包括多媒体组件703，输入/输出(I/O)接口704，以及通信组件705中的一者或多者。

其中，处理器701用于控制该电子设备700的整体操作，以完成上述的基于多特征的滤波器降帧更新方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作，这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-OnlyMemory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(NearField Communication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件705可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的基于多特征的滤波器降帧更新方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的基于多特征的滤波器降帧更新方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器702，上述程序指令可由电子设备700的处理器701执行以完成上述的基于多特征的滤波器降帧更新方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的基于多特征的滤波器降帧更新方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种基于多特征的滤波器降帧更新方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述多个特征通道的特征进行特征融合，得到所述目标样本图像对应的融合特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述连续特征空间为希尔伯特空间，所述插值运算计算式包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述基于目标滤波器矩阵以及所述融合特征，得到所述目标对象对应的置信得分，包括：

6.根据权利要求5所述的方法，其特征在于，所述至少基于所述目标对象对应的置信得分与所述目标对象对应的位置标签，构建损失函数，包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述至少对应两类特征提取方式提取到的特征包括采用ResNet-50网络提取到的图像深度特征、采用HOG提取到的方向梯度直方图特征以及采用CN提取到的颜色特征。

8.一种基于多特征的滤波器降帧更新装置，其特征在于，所述装置包括：

9.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-7中任一项所述方法的步骤。