CN114445689A

CN114445689A - 目标先验信息指导的多尺度加权融合目标检测方法及系统

Info

Publication number: CN114445689A
Application number: CN202210112397.8A
Authority: CN
Inventors: 陈飞; 李宜剑; 王波; 赵文新
Original assignee: Fuzhou University; Union Medical College Hospital of Fujian Medical University
Current assignee: Fuzhou University; Union Medical College Hospital of Fujian Medical University
Priority date: 2022-01-29
Filing date: 2022-01-29
Publication date: 2022-05-06

Abstract

本发明涉及一种目标先验信息指导的多尺度加权融合目标检测方法及系统，该方法包括以下步骤：首先使用卷积神经网络进行特征提取，然后对目标尺寸、颜色及形状角度先验信息进行基于尺度大小的聚类，使用聚类结果得到的权重来指导多尺度特征的加权融合，使得多尺度检测在目标具有多种形态、大小的场景下能够更有针对性地学习目标尺度的分布；其次在多尺度动态加权融合之后，引入尺度特征贡献度微调来进一步学习多尺度特征图的贡献度，并使用先验信息权重引导初始化；最后将多尺度输出传入分类与回归两个子网络进行目标物体的定位与分类。该方法及系统可以有效地利用目标的先验信息解决目标尺度不均衡问题，提高目标检测的准确性。

Description

目标先验信息指导的多尺度加权融合目标检测方法及系统

技术领域

本发明属于图像处理技术领域，具体涉及一种目标先验信息指导的多尺度加权融合目标检测方法及系统。

背景技术

对于图像、视频中目标对象的检测问题已经产生了许多成功的算法，如Yolo3、RetinaNet、FasterR-CNN等。但是这些算法在进行多尺度检测的时候都没有考虑到目标的先验信息，很容易出现误检、漏检、定位错误的情况，因此应该考虑其多种多样的形态、大小的信息，来更好地进行多尺度融合，这样才能更具有针对性地检测各种形态大小的目标。所以如何更有效地融合这些多尺度的信息，并且加以利用为后续的定位与分类提供更加有效的语义信息和细节信息是这类目标检测算法的难题。

发明内容

本发明的目的在于提供一种目标先验信息指导的多尺度加权融合目标检测方法及系统，该方法及系统有利于提高目标检测的准确性。

为实现上述目的，本发明采用的技术方案是：一种目标先验信息指导的多尺度加权融合目标检测方法，包括以下步骤：

S1、获取具有目标对象的图片，建立目标图片数据集，并对各个场景下存在的目标对象进行标注；

S2、对数据样本进行增强处理，利用目标样本的尺寸、颜色及形状角度先验信息进行基于尺度大小的聚类，获得多尺度输出特征图对应的权重；将图片输入卷积神经网络进行特征提取，并进行K个尺度的输出；

S3、将得到的权重作为K个尺度的加权融合系数，进行动态融合，并调整到权重最大的尺度，然后再使用高斯非局部注意力来精炼该特征，最后调整回原先的特征图大小，得到动态融合的特征图输出；

S4、对得到的多个特征图输出信息进一步引入可学习的参数进行尺度特征贡献度微调，并使用目标先验信息聚类所得的权重进行引导初始化，得到多尺度加权融合步骤输出的有效特征图信息；

S5、将有效特征图输入ClassPredictionNet分类子网络和BoxPredictionNet回归子网络，进行目标的分类和定位；

S6、计算损失函数，利用AdamW进行反向传递，对网络模型参数进行更新；

S7、重复步骤S4-S6进行多轮的网络模型训练，同时进行loss和mAP指标的输出，直至满足终止条件，获得训练结束后的网络参数；

S8、将获得的模型权重载入模型，对输入的图像、视频进行检测，输出检测结果。

进一步地，所述步骤S2中，读入目标图片数据集中图片，进行图像像素值的平均和标准差处理，同时通过包括图像随机翻转、裁剪的处理扩充数据集，并采用包括亮度增强、对比度调整的图像增强操作进行预处理；

对增强之后的数据集使用卷积神经网络进行特征提取，并在不同分辨率大小的特征图层进行多尺度输出，分别为{P₃,P₄,P₅,P₆,P₇}，P₃到P₇为自底向上的特征图压缩，再进行P₇到P₃的上采样，同时进行特征图的侧向连接，更新多尺度输出为

不同尺度的输出检测不同大小的目标。

进一步地，为了更好地融合多个尺度的输出，利用目标样本的尺寸、颜色及形状角度先验信息进行基于尺度大小的聚类，利用所获得的权重求和来为不同尺度分配最终融合结果的贡献度，以此来指导多尺度特征加权融合；具体为：分析处理n张数据集训练图片，获得如下所需数据：

标注框为

其中n为第n张图片，j为第j个标注框，{x₁，y₁，x₂，y₂}为目标标注框的绝对坐标左上角、右下角坐标；

宽为{w^1_1，w^1_2，w^1_3，......，w^i_j}，其中{w^i_j}表示第i张图片的第j个目标的宽；

高为{h^1_1，h^1_2，h^1_3，......，h^i_j}，其中{h^i_j}表示第i张图片的第j个目标的高；

对每张归一化后的图像X提取B、G、R通道数据，然后对每个通道的数据求和再取平均，综合3个通道颜色信息公式如下：

对所有图像求目标区域的目标角度

构建角度信息集合Angle。

进一步地，假设训练集有n张图片，这n张图片里总共有N个标注框；对该些标注框根据宽高分布在二维空间{(w^1_1，h^1_1)，......，(w^i_j，h^i_j)}进行类别数为K的聚类，即多尺度特征层数K＝5，其中每一类得到的个数分别为{N₁，N₂，N₃，N₄，N₅}，除以总目标样本数来计算该类别占比，得到5个尺度在目标大小这个维度的权重信息，权重占比如下：

对所有目标区域的颜色信息color与目标大小Area进行二维空间的聚类，获得颜色信息对应的5个尺度权重colorWeight；

对所有目标区域的角度信息Angle与目标大小Area进行二维空间的聚类，获得基于角度的形状信息5个尺度权重shapeWeight；

对三方面的先验信息权重进行求和，得到多尺度对应的权重weight_i，公式如下：

weight_i＝sizeWeight_i+colorWeight_i+shapeWeight_i i∈{3，···，7}。

进一步地，所述步骤S3中，将步骤S2得到的

特征图通过上采样或池化调整到权重占比最大的层

的目标特征图大小(w，h)，调整完之后对多个特征图的信息根据得到的权重weight_i进行不同尺度的重要性分配，以此进行动态融合，公式如下：

其中，L为多尺度的层数，L＝5；

对得到的特征图C_out通过使用高斯非局部注意力来精炼增强该特征得到C_refine，对C_refine进一步做池化或上采样操作来重新调整得到原先对应的5个特征图大小，并且与

在对应相同大小的特征图上进行通道维度的逐元素相加，得到{P₃ ⁱⁿ，P₄ ⁱⁿ，P₅ ⁱⁿ，P₆ ⁱⁿ，P₇ ⁱⁿ}。

进一步地，所述步骤S4中，对经过动态融合得到的{P₃ ⁱⁿ，P₄ ⁱⁿ，P₅ ⁱⁿ，P₆ ⁱⁿ，P₇ ⁱⁿ}特征图输入同样的多尺度融合结构，同时对该结构引入可学习的参数进行尺度特征贡献度微调，并利用目标先验信息聚类所得到的权重进行初始化，在微调不同尺度特征贡献度的同时加快模型的收敛，最终得到5个有效的特征图信息{P₃ ^last_out，P₄ ^last_out，P₅ ^last_out，P₆ ^last_out，P₇ ^last_out}，至此，得到动态特征融合步骤的最后输出特征图，以更好地进行目标定位与类别预测。

进一步地，所述步骤S4具体包括以下步骤：

S41、先利用目标先验信息聚类所获得的权重weight_i进行参数的引导初始化得到w_i，公式如下：

w_i＝Relu(Parameter(weight_i))

S42、经过模型的训练，随着loss的下降w_i不断被更新，最后达到最优值w_i'，即模型经过学习之后认为的多个尺度最合理的贡献度，所以在前向推理的过程中就可以直接利用所学到的尺度贡献度权重去进一步做多尺度的融合；具体公式如下：

C_i＝P_i ⁱⁿ·w_i'

C_i'＝Resize(C_i，C_k)，k＝argmax(w_i')

进一步地，所述步骤S5中，将所述5个有效特征图输入ClassPredictionNet子网络，该子网络采用3次通道数为64的深度可分离卷积和1次通道数为(priors_num×classes_num)的卷积，其中priors_num为该特征层中特征图的每个网格点拥有的先验框Anchors的数量，classes_num为网络对多少类目标进行检测；

将所述5个有效特征图输入BoxPredictionNet子网络，该子网络采用3次通道数为64的深度可分离卷积和1次通道数为(priors_num×4)的卷积，其中priors_num为该特征层中特征图的每个网格点拥有的先验框Anchors的数量，4指的是每一个网格点上的每一个先验框的中心点坐标、宽高调整情况；

计算两个子网络输出的预测结果置信度得分，进行非极大值抑制后，得到最终的目标位置(x_{1_pre},y_{1_pre},x_{2_pre},y_{2_pre})和类别信息Class。

进一步地，所述步骤S6中，回归子网络使用smooth_L1损失函数，类别子网络使用Focal Loss损失函数：

Focal Loss＝-α_t(1-p_t)^γlog(p_t)。

本发明还提供了一种目标先验信息指导的多尺度加权融合目标检测系统，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现上述的方法步骤。

与现有技术相比，本发明具有以下有益效果：

1)通过引入对目标尺寸、颜色以及形状角度先验信息进行基于尺度大小的聚类，在卷积神经网络特征提取之后，使用获得的聚类权重来指导多尺度特征的加权融合，使得多尺度检测在目标具有不同形态、大小的场景下能够更有针对性地学习目标的尺度分布，更有效地聚合高层特征图的语义信息与低层特征图的细节信息，使得各个尺度的检测更加合理有效。

2)通过对本发明所提出的特定目标样本的分析，更好地利用到目标先验信息与检测任务的潜在联系，并且在多尺度动态加权融合之后，引入权重引导初始化的尺度贡献度微调，进一步学习不同尺度的特征的重要性，使得多尺度融合更好地适应网络模型，同时进行权重引导初始化可以加快模型的收敛速度。

附图说明

图1为本发明实施例的方法实现流程图。

图2为本发明实施例的网络结构图。

图3为本发明实施例中对样本宽高分布在二维空间进行聚类的结果图。

图4为本发明实施例中对样本基于面积的颜色聚类结果图。

图5位本发明实施例中对样本基于面积的角度聚类结果图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供了一种目标先验信息指导的多尺度加权融合目标检测方法，包括以下步骤：

S1、获取具有目标对象的图片，建立目标图片数据集，并对各个场景下存在的目标对象进行标注。

S2、对数据样本进行增强处理，利用目标样本的尺寸、颜色及形状角度先验信息进行基于尺度大小的聚类，获得多尺度输出特征图对应的权重；将图片输入卷积神经网络进行特征提取，并进行K个尺度的输出。

S3、将得到的权重作为K个尺度的加权融合系数，进行动态融合，并Resize到权重最大的尺度，然后再使用高斯非局部注意力(Gaussiannon-local attention)来精炼该特征，最后Resize回原先的特征图大小，得到动态融合的特征图输出。

S4、对得到的多个特征图输出信息进一步引入可学习的参数进行尺度特征贡献度微调，并使用目标先验信息聚类所得的权重进行引导初始化，得到多尺度加权融合步骤输出的有效特征图信息。

S5、将有效特征图输入ClassPredictionNet分类子网络和BoxPredictionNet回归子网络，进行目标的分类和定位。

S6、计算损失函数，利用AdamW进行反向传递，对网络模型参数进行更新。

S7、重复步骤S4-S6进行多轮的网络模型训练，同时进行loss和mAP指标的输出，直至满足终止条件，获得训练结束后的网络参数。

所述步骤S2中，读入batch_size张目标图片数据集中图片{b₁,b₂,...,b_n-1,b_n}，进行图像像素值的平均和标准差处理，同时通过图像随机翻转、裁剪等处理扩充数据集，并采用亮度增强、对比度调整等图像增强操作进行预处理。

不同尺度的输出检测不同大小的目标。

为了更好地融合多个尺度的输出，利用目标样本的尺寸、颜色及形状角度先验信息进行基于尺度大小的聚类，利用所获得的权重求和来为不同尺度分配最终融合结果的贡献度，以此来指导多尺度特征加权融合；具体为：分析处理n张数据集训练图片，获得如下所需数据：

标注框为

其中n为第n张图片，j为第j个标注框，{x₁，y₁，x₂，y₂}为目标标注框的绝对坐标左上角、右下角坐标。

宽为{w^1_1，w^1_2，w^1_3，......，w^i_j}，其中{w^i_j}表示第i张图片的第j个目标的宽。

高为{h^1_1，h^1_2，h^1_3，......，h^i_j}，其中{h^i_j}表示第i张图片的第j个目标的高。

对所有图像求目标区域的目标角度

构建角度信息集合Angle。

假设训练集有n张图片，这n张图片里总共有N个标注框。对该些标注框根据宽高分布在二维空间{(w^1_1，h^1_1)，......，(w^i_j，h^i_j)}进行类别数为K的聚类，即多尺度特征层数K＝5，其中每一类得到的个数分别为{N₁，N₂，N₃，N₄，N₅}，除以总目标样本数来计算该类别占比，得到5个尺度在目标大小这个维度的权重信息，权重占比如下：

对所有目标区域的颜色信息color与目标大小Area进行二维空间的聚类，获得颜色信息对应的5个尺度权重colorWeight。

对所有目标区域的角度信息Angle与目标大小Area进行二维空间的聚类，获得基于角度的形状信息5个尺度权重shapeWeight。

weight_i＝sizeWeight_i+colorWeight_i+shapeWeight_i i∈{3，···，7}。

所述步骤S3中，将步骤S2得到的

特征图通过上采样或池化调整到权重占比最大的层

其中，L为多尺度的层数，L＝5。

对得到的特征图C_out通过使用高斯非局部注意力(Gaussian non-localattention)来精炼增强该特征得到C_refine，对C_refine进一步做池化或上采样操作来重新调整得到原先对应的5个特征图大小，并且与

所述步骤S4中，对经过动态融合得到的{P₃ ⁱⁿ，P₄ ⁱⁿ，P₅ ⁱⁿ，P₆ ⁱⁿ，P₇ ⁱⁿ}特征图输入同样的多尺度融合结构，同时对该结构引入可学习的参数进行尺度特征贡献度微调，并利用目标先验信息聚类所得到的权重进行初始化，在微调不同尺度特征贡献度的同时加快模型的收敛，最终得到5个有效的特征图信息{P₃ ^last_out，P₄ ^last_out，P₅ ^last_out，P₆ ^last_out，P₇ ^last_out}，至此，得到动态特征融合步骤的最后输出特征图，为更好地进行目标定位与类别预测做准备。所述步骤S4具体包括以下步骤：

w_i＝Relu(Parameter(weight_i))

C_i＝P_i ⁱⁿ·w_i'

C_i'＝Resize(C_i，C_k)，k＝argmax(w_i')

所述步骤S5中，将所述5个有效特征图输入ClassPredictionNet子网络，该子网络采用3次通道数为64的深度可分离卷积和1次通道数为(priors_num×classes_num)的卷积，其中priors_num为该特征层中特征图的每个网格点拥有的先验框Anchors的数量，classes_num为网络对多少类目标进行检测。

将所述5个有效特征图输入BoxPredictionNet子网络，该子网络采用3次通道数为64的深度可分离卷积和1次通道数为(priors_num×4)的卷积，其中priors_num为该特征层中特征图的每个网格点拥有的先验框Anchors的数量，4指的是每一个网格点上的每一个先验框的中心点坐标、宽高调整情况。

所述步骤S6中，回归子网络使用smooth_L1损失函数，类别子网络使用Focal Loss损失函数：

Focal Loss＝-α_t(1-p_t)^γlog(p_t)。

图2是本发明方法的网络结构图。图3是对数据集宽高分布在二维空间进行聚类的结果图。图4是对样本基于面积的颜色聚类结果图。图5是对样本基于面积的角度聚类结果图。本发明提出的目标先验信息指导的多尺度加权融合目标检测方法，使用卷积神经网络进行特征提取，首先利用目标样本的尺寸、颜色以及形状角度先验信息做基于尺度大小的聚类，使用获得的权重求和来指导多尺度特征的加权融合，使得多尺度检测在目标具有多种形态、多种大小的场景下能够更有针对性地学习目标的尺度分布，其次引入权重引导初始化的尺度贡献度微调，进一步学习不同尺度的特征的重要性，有效地利用目标的先验信息解决目标尺度不均衡问题，同时使用权重引导初始化可以加快模型的收敛速度。

本实施例还提供了目标先验信息指导的多尺度加权融合目标检测系统，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现上述的方法步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种目标先验信息指导的多尺度加权融合目标检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的目标先验信息指导的多尺度加权融合目标检测方法，其特征在于，所述步骤S2中，读入目标图片数据集中图片，进行图像像素值的平均和标准差处理，同时通过包括图像随机翻转、裁剪的处理扩充数据集，并采用包括亮度增强、对比度调整的图像增强操作进行预处理；

不同尺度的输出检测不同大小的目标。

3.根据权利要求2所述的目标先验信息指导的多尺度加权融合目标检测方法，其特征在于，为了更好地融合多个尺度的输出，利用目标样本的尺寸、颜色及形状角度先验信息进行基于尺度大小的聚类，利用所获得的权重求和来为不同尺度分配最终融合结果的贡献度，以此来指导多尺度特征加权融合；具体为：分析处理n张数据集训练图片，获得如下所需数据：

标注框为

对所有图像求目标区域的目标角度

构建角度信息集合Angle。

4.根据权利要求3所述的目标先验信息指导的多尺度加权融合目标检测方法，其特征在于，假设训练集有n张图片，这n张图片里总共有N个标注框；对该些标注框根据宽高分布在二维空间{(w^1_1，h^1_1)，......，(w^i_j，h^i_j)}进行类别数为K的聚类，即多尺度特征层数K＝5，其中每一类得到的个数分别为{N₁，N₂，N₃，N₄，N₅}，除以总目标样本数来计算该类别占比，得到5个尺度在目标大小这个维度的权重信息，权重占比如下：

weight_i＝sizeWeight_i+colorWeight_i+shapeWeight_ii∈{3，…，7}。

5.根据权利要求4所述的目标先验信息指导的多尺度加权融合目标检测方法，其特征在于，所述步骤S3中，将步骤S2得到的

特征图通过上采样或池化调整到权重占比最大的层

其中，L为多尺度的层数，L＝5；

6.根据权利要求5所述的目标先验信息指导的多尺度加权融合目标检测方法，其特征在于，所述步骤S4中，对经过动态融合得到的{P₃ ⁱⁿ，P₄ ⁱⁿ，P₅ ⁱⁿ，P₆ ⁱⁿ，P₇ ⁱⁿ}特征图输入同样的多尺度融合结构，同时对该结构引入可学习的参数进行尺度特征贡献度微调，并利用目标先验信息聚类所得到的权重进行初始化，在微调不同尺度特征贡献度的同时加快模型的收敛，最终得到5个有效的特征图信息{P₃ ^last_out，P₄ ^last_out，P₅ ^last_out，P₆ ^last_out，P₇ ^last_out}，至此，得到动态特征融合步骤的最后输出特征图，以更好地进行目标定位与类别预测。

7.根据权利要求6所述的目标先验信息指导的多尺度加权融合目标检测方法，其特征在于，所述步骤S4具体包括以下步骤：

w_i＝Relu(Parameter(weight_i))

C_i'＝Resize(C_i，C_k)，k＝argmax(w_i')

8.根据权利要求6所述的目标先验信息指导的多尺度加权融合目标检测方法，其特征在于，所述步骤S5中，将所述5个有效特征图输入ClassPredictionNet子网络，该子网络采用3次通道数为64的深度可分离卷积和1次通道数为(priors_num×classes_num)的卷积，其中priors_num为该特征层中特征图的每个网格点拥有的先验框Anchors的数量，classes_num为网络对多少类目标进行检测；

9.根据权利要求8所述的目标先验信息指导的多尺度加权融合目标检测方法，其特征在于，所述步骤S6中，回归子网络使用smooth_L1损失函数，类别子网络使用Focal Loss损失函数：

Focal Loss＝-α_t(1-p_t)^γlog(p_t)。

10.一种目标先验信息指导的多尺度加权融合目标检测系统，其特征在于，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如权利要求1-9所述的方法步骤。