CN114445689A - 目标先验信息指导的多尺度加权融合目标检测方法及系统 - Google Patents

目标先验信息指导的多尺度加权融合目标检测方法及系统 Download PDF

Info

Publication number
CN114445689A
CN114445689A CN202210112397.8A CN202210112397A CN114445689A CN 114445689 A CN114445689 A CN 114445689A CN 202210112397 A CN202210112397 A CN 202210112397A CN 114445689 A CN114445689 A CN 114445689A
Authority
CN
China
Prior art keywords
target
scale
feature
information
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210112397.8A
Other languages
English (en)
Inventor
陈飞
李宜剑
王波
赵文新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Union Medical College Hospital of Fujian Medical University
Original Assignee
Fuzhou University
Union Medical College Hospital of Fujian Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University, Union Medical College Hospital of Fujian Medical University filed Critical Fuzhou University
Priority to CN202210112397.8A priority Critical patent/CN114445689A/zh
Publication of CN114445689A publication Critical patent/CN114445689A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems

Abstract

本发明涉及一种目标先验信息指导的多尺度加权融合目标检测方法及系统,该方法包括以下步骤:首先使用卷积神经网络进行特征提取,然后对目标尺寸、颜色及形状角度先验信息进行基于尺度大小的聚类,使用聚类结果得到的权重来指导多尺度特征的加权融合,使得多尺度检测在目标具有多种形态、大小的场景下能够更有针对性地学习目标尺度的分布;其次在多尺度动态加权融合之后,引入尺度特征贡献度微调来进一步学习多尺度特征图的贡献度,并使用先验信息权重引导初始化;最后将多尺度输出传入分类与回归两个子网络进行目标物体的定位与分类。该方法及系统可以有效地利用目标的先验信息解决目标尺度不均衡问题,提高目标检测的准确性。

Description

目标先验信息指导的多尺度加权融合目标检测方法及系统
技术领域
本发明属于图像处理技术领域,具体涉及一种目标先验信息指导的多尺度加权融合目标检测方法及系统。
背景技术
对于图像、视频中目标对象的检测问题已经产生了许多成功的算法,如Yolo3、RetinaNet、FasterR-CNN等。但是这些算法在进行多尺度检测的时候都没有考虑到目标的先验信息,很容易出现误检、漏检、定位错误的情况,因此应该考虑其多种多样的形态、大小的信息,来更好地进行多尺度融合,这样才能更具有针对性地检测各种形态大小的目标。所以如何更有效地融合这些多尺度的信息,并且加以利用为后续的定位与分类提供更加有效的语义信息和细节信息是这类目标检测算法的难题。
发明内容
本发明的目的在于提供一种目标先验信息指导的多尺度加权融合目标检测方法及系统,该方法及系统有利于提高目标检测的准确性。
为实现上述目的,本发明采用的技术方案是:一种目标先验信息指导的多尺度加权融合目标检测方法,包括以下步骤:
S1、获取具有目标对象的图片,建立目标图片数据集,并对各个场景下存在的目标对象进行标注;
S2、对数据样本进行增强处理,利用目标样本的尺寸、颜色及形状角度先验信息进行基于尺度大小的聚类,获得多尺度输出特征图对应的权重;将图片输入卷积神经网络进行特征提取,并进行K个尺度的输出;
S3、将得到的权重作为K个尺度的加权融合系数,进行动态融合,并调整到权重最大的尺度,然后再使用高斯非局部注意力来精炼该特征,最后调整回原先的特征图大小,得到动态融合的特征图输出;
S4、对得到的多个特征图输出信息进一步引入可学习的参数进行尺度特征贡献度微调,并使用目标先验信息聚类所得的权重进行引导初始化,得到多尺度加权融合步骤输出的有效特征图信息;
S5、将有效特征图输入ClassPredictionNet分类子网络和BoxPredictionNet回归子网络,进行目标的分类和定位;
S6、计算损失函数,利用AdamW进行反向传递,对网络模型参数进行更新;
S7、重复步骤S4-S6进行多轮的网络模型训练,同时进行loss和mAP指标的输出,直至满足终止条件,获得训练结束后的网络参数;
S8、将获得的模型权重载入模型,对输入的图像、视频进行检测,输出检测结果。
进一步地,所述步骤S2中,读入目标图片数据集中图片,进行图像像素值的平均和标准差处理,同时通过包括图像随机翻转、裁剪的处理扩充数据集,并采用包括亮度增强、对比度调整的图像增强操作进行预处理;
对增强之后的数据集使用卷积神经网络进行特征提取,并在不同分辨率大小的特征图层进行多尺度输出,分别为{P3,P4,P5,P6,P7},P3到P7为自底向上的特征图压缩,再进行P7到P3的上采样,同时进行特征图的侧向连接,更新多尺度输出为
Figure BDA0003495443440000021
不同尺度的输出检测不同大小的目标。
进一步地,为了更好地融合多个尺度的输出,利用目标样本的尺寸、颜色及形状角度先验信息进行基于尺度大小的聚类,利用所获得的权重求和来为不同尺度分配最终融合结果的贡献度,以此来指导多尺度特征加权融合;具体为:分析处理n张数据集训练图片,获得如下所需数据:
标注框为
Figure BDA0003495443440000022
其中n为第n张图片,j为第j个标注框,{x1,y1,x2,y2}为目标标注框的绝对坐标左上角、右下角坐标;
宽为{w1_1,w1_2,w1_3,......,wi_j},其中{wi_j}表示第i张图片的第j个目标的宽;
高为{h1_1,h1_2,h1_3,......,hi_j},其中{hi_j}表示第i张图片的第j个目标的高;
对每张归一化后的图像X提取B、G、R通道数据,然后对每个通道的数据求和再取平均,综合3个通道颜色信息公式如下:
Figure BDA0003495443440000023
对所有图像求目标区域的目标角度
Figure BDA0003495443440000024
构建角度信息集合Angle。
进一步地,假设训练集有n张图片,这n张图片里总共有N个标注框;对该些标注框根据宽高分布在二维空间{(w1_1,h1_1),......,(wi_j,hi_j)}进行类别数为K的聚类,即多尺度特征层数K=5,其中每一类得到的个数分别为{N1,N2,N3,N4,N5},除以总目标样本数来计算该类别占比,得到5个尺度在目标大小这个维度的权重信息,权重占比如下:
Figure BDA0003495443440000031
对所有目标区域的颜色信息color与目标大小Area进行二维空间的聚类,获得颜色信息对应的5个尺度权重colorWeight;
对所有目标区域的角度信息Angle与目标大小Area进行二维空间的聚类,获得基于角度的形状信息5个尺度权重shapeWeight;
对三方面的先验信息权重进行求和,得到多尺度对应的权重weighti,公式如下:
weighti=sizeWeighti+colorWeighti+shapeWeighti i∈{3,···,7}。
进一步地,所述步骤S3中,将步骤S2得到的
Figure BDA0003495443440000032
特征图通过上采样或池化调整到权重占比最大的层
Figure BDA0003495443440000033
的目标特征图大小(w,h),调整完之后对多个特征图的信息根据得到的权重weighti进行不同尺度的重要性分配,以此进行动态融合,公式如下:
Figure BDA0003495443440000034
Figure BDA0003495443440000035
其中,L为多尺度的层数,L=5;
对得到的特征图Cout通过使用高斯非局部注意力来精炼增强该特征得到Crefine,对Crefine进一步做池化或上采样操作来重新调整得到原先对应的5个特征图大小,并且与
Figure BDA0003495443440000036
在对应相同大小的特征图上进行通道维度的逐元素相加,得到{P3 in,P4 in,P5 in,P6 in,P7 in}。
进一步地,所述步骤S4中,对经过动态融合得到的{P3 in,P4 in,P5 in,P6 in,P7 in}特征图输入同样的多尺度融合结构,同时对该结构引入可学习的参数进行尺度特征贡献度微调,并利用目标先验信息聚类所得到的权重进行初始化,在微调不同尺度特征贡献度的同时加快模型的收敛,最终得到5个有效的特征图信息{P3 last_out,P4 last_out,P5 last_out,P6 last_out,P7 last_out},至此,得到动态特征融合步骤的最后输出特征图,以更好地进行目标定位与类别预测。
进一步地,所述步骤S4具体包括以下步骤:
S41、先利用目标先验信息聚类所获得的权重weighti进行参数的引导初始化得到wi,公式如下:
wi=Relu(Parameter(weighti))
Figure BDA0003495443440000041
S42、经过模型的训练,随着loss的下降wi不断被更新,最后达到最优值wi',即模型经过学习之后认为的多个尺度最合理的贡献度,所以在前向推理的过程中就可以直接利用所学到的尺度贡献度权重去进一步做多尺度的融合;具体公式如下:
Ci=Pi in·wi'
Ci'=Resize(Ci,Ck),k=argmax(wi')
Figure BDA0003495443440000042
进一步地,所述步骤S5中,将所述5个有效特征图输入ClassPredictionNet子网络,该子网络采用3次通道数为64的深度可分离卷积和1次通道数为(priors_num×classes_num)的卷积,其中priors_num为该特征层中特征图的每个网格点拥有的先验框Anchors的数量,classes_num为网络对多少类目标进行检测;
将所述5个有效特征图输入BoxPredictionNet子网络,该子网络采用3次通道数为64的深度可分离卷积和1次通道数为(priors_num×4)的卷积,其中priors_num为该特征层中特征图的每个网格点拥有的先验框Anchors的数量,4指的是每一个网格点上的每一个先验框的中心点坐标、宽高调整情况;
计算两个子网络输出的预测结果置信度得分,进行非极大值抑制后,得到最终的目标位置(x1_pre,y1_pre,x2_pre,y2_pre)和类别信息Class。
进一步地,所述步骤S6中,回归子网络使用smoothL1损失函数,类别子网络使用Focal Loss损失函数:
Figure BDA0003495443440000051
Focal Loss=-αt(1-pt)γlog(pt)。
本发明还提供了一种目标先验信息指导的多尺度加权融合目标检测系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现上述的方法步骤。
与现有技术相比,本发明具有以下有益效果:
1)通过引入对目标尺寸、颜色以及形状角度先验信息进行基于尺度大小的聚类,在卷积神经网络特征提取之后,使用获得的聚类权重来指导多尺度特征的加权融合,使得多尺度检测在目标具有不同形态、大小的场景下能够更有针对性地学习目标的尺度分布,更有效地聚合高层特征图的语义信息与低层特征图的细节信息,使得各个尺度的检测更加合理有效。
2)通过对本发明所提出的特定目标样本的分析,更好地利用到目标先验信息与检测任务的潜在联系,并且在多尺度动态加权融合之后,引入权重引导初始化的尺度贡献度微调,进一步学习不同尺度的特征的重要性,使得多尺度融合更好地适应网络模型,同时进行权重引导初始化可以加快模型的收敛速度。
附图说明
图1为本发明实施例的方法实现流程图。
图2为本发明实施例的网络结构图。
图3为本发明实施例中对样本宽高分布在二维空间进行聚类的结果图。
图4为本发明实施例中对样本基于面积的颜色聚类结果图。
图5位本发明实施例中对样本基于面积的角度聚类结果图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供了一种目标先验信息指导的多尺度加权融合目标检测方法,包括以下步骤:
S1、获取具有目标对象的图片,建立目标图片数据集,并对各个场景下存在的目标对象进行标注。
S2、对数据样本进行增强处理,利用目标样本的尺寸、颜色及形状角度先验信息进行基于尺度大小的聚类,获得多尺度输出特征图对应的权重;将图片输入卷积神经网络进行特征提取,并进行K个尺度的输出。
S3、将得到的权重作为K个尺度的加权融合系数,进行动态融合,并Resize到权重最大的尺度,然后再使用高斯非局部注意力(Gaussiannon-local attention)来精炼该特征,最后Resize回原先的特征图大小,得到动态融合的特征图输出。
S4、对得到的多个特征图输出信息进一步引入可学习的参数进行尺度特征贡献度微调,并使用目标先验信息聚类所得的权重进行引导初始化,得到多尺度加权融合步骤输出的有效特征图信息。
S5、将有效特征图输入ClassPredictionNet分类子网络和BoxPredictionNet回归子网络,进行目标的分类和定位。
S6、计算损失函数,利用AdamW进行反向传递,对网络模型参数进行更新。
S7、重复步骤S4-S6进行多轮的网络模型训练,同时进行loss和mAP指标的输出,直至满足终止条件,获得训练结束后的网络参数。
S8、将获得的模型权重载入模型,对输入的图像、视频进行检测,输出检测结果。
所述步骤S2中,读入batch_size张目标图片数据集中图片{b1,b2,...,bn-1,bn},进行图像像素值的平均和标准差处理,同时通过图像随机翻转、裁剪等处理扩充数据集,并采用亮度增强、对比度调整等图像增强操作进行预处理。
对增强之后的数据集使用卷积神经网络进行特征提取,并在不同分辨率大小的特征图层进行多尺度输出,分别为{P3,P4,P5,P6,P7},P3到P7为自底向上的特征图压缩,再进行P7到P3的上采样,同时进行特征图的侧向连接,更新多尺度输出为
Figure BDA0003495443440000071
不同尺度的输出检测不同大小的目标。
为了更好地融合多个尺度的输出,利用目标样本的尺寸、颜色及形状角度先验信息进行基于尺度大小的聚类,利用所获得的权重求和来为不同尺度分配最终融合结果的贡献度,以此来指导多尺度特征加权融合;具体为:分析处理n张数据集训练图片,获得如下所需数据:
标注框为
Figure BDA0003495443440000072
其中n为第n张图片,j为第j个标注框,{x1,y1,x2,y2}为目标标注框的绝对坐标左上角、右下角坐标。
宽为{w1_1,w1_2,w1_3,......,wi_j},其中{wi_j}表示第i张图片的第j个目标的宽。
高为{h1_1,h1_2,h1_3,......,hi_j},其中{hi_j}表示第i张图片的第j个目标的高。
对每张归一化后的图像X提取B、G、R通道数据,然后对每个通道的数据求和再取平均,综合3个通道颜色信息公式如下:
Figure BDA0003495443440000073
对所有图像求目标区域的目标角度
Figure BDA0003495443440000074
构建角度信息集合Angle。
假设训练集有n张图片,这n张图片里总共有N个标注框。对该些标注框根据宽高分布在二维空间{(w1_1,h1_1),......,(wi_j,hi_j)}进行类别数为K的聚类,即多尺度特征层数K=5,其中每一类得到的个数分别为{N1,N2,N3,N4,N5},除以总目标样本数来计算该类别占比,得到5个尺度在目标大小这个维度的权重信息,权重占比如下:
Figure BDA0003495443440000075
对所有目标区域的颜色信息color与目标大小Area进行二维空间的聚类,获得颜色信息对应的5个尺度权重colorWeight。
对所有目标区域的角度信息Angle与目标大小Area进行二维空间的聚类,获得基于角度的形状信息5个尺度权重shapeWeight。
对三方面的先验信息权重进行求和,得到多尺度对应的权重weighti,公式如下:
weighti=sizeWeighti+colorWeighti+shapeWeighti i∈{3,···,7}。
所述步骤S3中,将步骤S2得到的
Figure BDA0003495443440000081
特征图通过上采样或池化调整到权重占比最大的层
Figure BDA0003495443440000082
的目标特征图大小(w,h),调整完之后对多个特征图的信息根据得到的权重weighti进行不同尺度的重要性分配,以此进行动态融合,公式如下:
Figure BDA0003495443440000083
Figure BDA0003495443440000084
其中,L为多尺度的层数,L=5。
对得到的特征图Cout通过使用高斯非局部注意力(Gaussian non-localattention)来精炼增强该特征得到Crefine,对Crefine进一步做池化或上采样操作来重新调整得到原先对应的5个特征图大小,并且与
Figure BDA0003495443440000085
在对应相同大小的特征图上进行通道维度的逐元素相加,得到{P3 in,P4 in,P5 in,P6 in,P7 in}。
所述步骤S4中,对经过动态融合得到的{P3 in,P4 in,P5 in,P6 in,P7 in}特征图输入同样的多尺度融合结构,同时对该结构引入可学习的参数进行尺度特征贡献度微调,并利用目标先验信息聚类所得到的权重进行初始化,在微调不同尺度特征贡献度的同时加快模型的收敛,最终得到5个有效的特征图信息{P3 last_out,P4 last_out,P5 last_out,P6 last_out,P7 last_out},至此,得到动态特征融合步骤的最后输出特征图,为更好地进行目标定位与类别预测做准备。所述步骤S4具体包括以下步骤:
S41、先利用目标先验信息聚类所获得的权重weighti进行参数的引导初始化得到wi,公式如下:
wi=Relu(Parameter(weighti))
Figure BDA0003495443440000086
S42、经过模型的训练,随着loss的下降wi不断被更新,最后达到最优值wi',即模型经过学习之后认为的多个尺度最合理的贡献度,所以在前向推理的过程中就可以直接利用所学到的尺度贡献度权重去进一步做多尺度的融合;具体公式如下:
Ci=Pi in·wi'
Ci'=Resize(Ci,Ck),k=argmax(wi')
Figure BDA0003495443440000091
所述步骤S5中,将所述5个有效特征图输入ClassPredictionNet子网络,该子网络采用3次通道数为64的深度可分离卷积和1次通道数为(priors_num×classes_num)的卷积,其中priors_num为该特征层中特征图的每个网格点拥有的先验框Anchors的数量,classes_num为网络对多少类目标进行检测。
将所述5个有效特征图输入BoxPredictionNet子网络,该子网络采用3次通道数为64的深度可分离卷积和1次通道数为(priors_num×4)的卷积,其中priors_num为该特征层中特征图的每个网格点拥有的先验框Anchors的数量,4指的是每一个网格点上的每一个先验框的中心点坐标、宽高调整情况。
计算两个子网络输出的预测结果置信度得分,进行非极大值抑制后,得到最终的目标位置(x1_pre,y1_pre,x2_pre,y2_pre)和类别信息Class。
所述步骤S6中,回归子网络使用smoothL1损失函数,类别子网络使用Focal Loss损失函数:
Figure BDA0003495443440000092
Focal Loss=-αt(1-pt)γlog(pt)。
图2是本发明方法的网络结构图。图3是对数据集宽高分布在二维空间进行聚类的结果图。图4是对样本基于面积的颜色聚类结果图。图5是对样本基于面积的角度聚类结果图。本发明提出的目标先验信息指导的多尺度加权融合目标检测方法,使用卷积神经网络进行特征提取,首先利用目标样本的尺寸、颜色以及形状角度先验信息做基于尺度大小的聚类,使用获得的权重求和来指导多尺度特征的加权融合,使得多尺度检测在目标具有多种形态、多种大小的场景下能够更有针对性地学习目标的尺度分布,其次引入权重引导初始化的尺度贡献度微调,进一步学习不同尺度的特征的重要性,有效地利用目标的先验信息解决目标尺度不均衡问题,同时使用权重引导初始化可以加快模型的收敛速度。
本实施例还提供了目标先验信息指导的多尺度加权融合目标检测系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现上述的方法步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (10)

1.一种目标先验信息指导的多尺度加权融合目标检测方法,其特征在于,包括以下步骤:
S1、获取具有目标对象的图片,建立目标图片数据集,并对各个场景下存在的目标对象进行标注;
S2、对数据样本进行增强处理,利用目标样本的尺寸、颜色及形状角度先验信息进行基于尺度大小的聚类,获得多尺度输出特征图对应的权重;将图片输入卷积神经网络进行特征提取,并进行K个尺度的输出;
S3、将得到的权重作为K个尺度的加权融合系数,进行动态融合,并调整到权重最大的尺度,然后再使用高斯非局部注意力来精炼该特征,最后调整回原先的特征图大小,得到动态融合的特征图输出;
S4、对得到的多个特征图输出信息进一步引入可学习的参数进行尺度特征贡献度微调,并使用目标先验信息聚类所得的权重进行引导初始化,得到多尺度加权融合步骤输出的有效特征图信息;
S5、将有效特征图输入ClassPredictionNet分类子网络和BoxPredictionNet回归子网络,进行目标的分类和定位;
S6、计算损失函数,利用AdamW进行反向传递,对网络模型参数进行更新;
S7、重复步骤S4-S6进行多轮的网络模型训练,同时进行loss和mAP指标的输出,直至满足终止条件,获得训练结束后的网络参数;
S8、将获得的模型权重载入模型,对输入的图像、视频进行检测,输出检测结果。
2.根据权利要求1所述的目标先验信息指导的多尺度加权融合目标检测方法,其特征在于,所述步骤S2中,读入目标图片数据集中图片,进行图像像素值的平均和标准差处理,同时通过包括图像随机翻转、裁剪的处理扩充数据集,并采用包括亮度增强、对比度调整的图像增强操作进行预处理;
对增强之后的数据集使用卷积神经网络进行特征提取,并在不同分辨率大小的特征图层进行多尺度输出,分别为{P3,P4,P5,P6,P7},P3到P7为自底向上的特征图压缩,再进行P7到P3的上采样,同时进行特征图的侧向连接,更新多尺度输出为
Figure FDA0003495443430000011
不同尺度的输出检测不同大小的目标。
3.根据权利要求2所述的目标先验信息指导的多尺度加权融合目标检测方法,其特征在于,为了更好地融合多个尺度的输出,利用目标样本的尺寸、颜色及形状角度先验信息进行基于尺度大小的聚类,利用所获得的权重求和来为不同尺度分配最终融合结果的贡献度,以此来指导多尺度特征加权融合;具体为:分析处理n张数据集训练图片,获得如下所需数据:
标注框为
Figure FDA0003495443430000021
其中n为第n张图片,j为第j个标注框,{x1,y1,x2,y2}为目标标注框的绝对坐标左上角、右下角坐标;
宽为{w1_1,w1_2,w1_3,......,wi_j},其中{wi_j}表示第i张图片的第j个目标的宽;
高为{h1_1,h1_2,h1_3,......,hi_j},其中{hi_j}表示第i张图片的第j个目标的高;
对每张归一化后的图像X提取B、G、R通道数据,然后对每个通道的数据求和再取平均,综合3个通道颜色信息公式如下:
Figure FDA0003495443430000022
对所有图像求目标区域的目标角度
Figure FDA0003495443430000023
构建角度信息集合Angle。
4.根据权利要求3所述的目标先验信息指导的多尺度加权融合目标检测方法,其特征在于,假设训练集有n张图片,这n张图片里总共有N个标注框;对该些标注框根据宽高分布在二维空间{(w1_1,h1_1),......,(wi_j,hi_j)}进行类别数为K的聚类,即多尺度特征层数K=5,其中每一类得到的个数分别为{N1,N2,N3,N4,N5},除以总目标样本数来计算该类别占比,得到5个尺度在目标大小这个维度的权重信息,权重占比如下:
Figure FDA0003495443430000024
对所有目标区域的颜色信息color与目标大小Area进行二维空间的聚类,获得颜色信息对应的5个尺度权重colorWeight;
对所有目标区域的角度信息Angle与目标大小Area进行二维空间的聚类,获得基于角度的形状信息5个尺度权重shapeWeight;
对三方面的先验信息权重进行求和,得到多尺度对应的权重weighti,公式如下:
weighti=sizeWeighti+colorWeighti+shapeWeightii∈{3,…,7}。
5.根据权利要求4所述的目标先验信息指导的多尺度加权融合目标检测方法,其特征在于,所述步骤S3中,将步骤S2得到的
Figure FDA0003495443430000031
特征图通过上采样或池化调整到权重占比最大的层
Figure FDA0003495443430000032
的目标特征图大小(w,h),调整完之后对多个特征图的信息根据得到的权重weighti进行不同尺度的重要性分配,以此进行动态融合,公式如下:
Figure FDA0003495443430000033
Figure FDA0003495443430000034
其中,L为多尺度的层数,L=5;
对得到的特征图Cout通过使用高斯非局部注意力来精炼增强该特征得到Crefine,对Crefine进一步做池化或上采样操作来重新调整得到原先对应的5个特征图大小,并且与
Figure FDA0003495443430000035
在对应相同大小的特征图上进行通道维度的逐元素相加,得到{P3 in,P4 in,P5 in,P6 in,P7 in}。
6.根据权利要求5所述的目标先验信息指导的多尺度加权融合目标检测方法,其特征在于,所述步骤S4中,对经过动态融合得到的{P3 in,P4 in,P5 in,P6 in,P7 in}特征图输入同样的多尺度融合结构,同时对该结构引入可学习的参数进行尺度特征贡献度微调,并利用目标先验信息聚类所得到的权重进行初始化,在微调不同尺度特征贡献度的同时加快模型的收敛,最终得到5个有效的特征图信息{P3 last_out,P4 last_out,P5 last_out,P6 last_out,P7 last_out},至此,得到动态特征融合步骤的最后输出特征图,以更好地进行目标定位与类别预测。
7.根据权利要求6所述的目标先验信息指导的多尺度加权融合目标检测方法,其特征在于,所述步骤S4具体包括以下步骤:
S41、先利用目标先验信息聚类所获得的权重weighti进行参数的引导初始化得到wi,公式如下:
wi=Relu(Parameter(weighti))
Figure FDA0003495443430000036
S42、经过模型的训练,随着loss的下降wi不断被更新,最后达到最优值wi',即模型经过学习之后认为的多个尺度最合理的贡献度,所以在前向推理的过程中就可以直接利用所学到的尺度贡献度权重去进一步做多尺度的融合;具体公式如下:
Figure FDA0003495443430000041
Ci'=Resize(Ci,Ck),k=argmax(wi')
Figure FDA0003495443430000042
8.根据权利要求6所述的目标先验信息指导的多尺度加权融合目标检测方法,其特征在于,所述步骤S5中,将所述5个有效特征图输入ClassPredictionNet子网络,该子网络采用3次通道数为64的深度可分离卷积和1次通道数为(priors_num×classes_num)的卷积,其中priors_num为该特征层中特征图的每个网格点拥有的先验框Anchors的数量,classes_num为网络对多少类目标进行检测;
将所述5个有效特征图输入BoxPredictionNet子网络,该子网络采用3次通道数为64的深度可分离卷积和1次通道数为(priors_num×4)的卷积,其中priors_num为该特征层中特征图的每个网格点拥有的先验框Anchors的数量,4指的是每一个网格点上的每一个先验框的中心点坐标、宽高调整情况;
计算两个子网络输出的预测结果置信度得分,进行非极大值抑制后,得到最终的目标位置(x1_pre,y1_pre,x2_pre,y2_pre)和类别信息Class。
9.根据权利要求8所述的目标先验信息指导的多尺度加权融合目标检测方法,其特征在于,所述步骤S6中,回归子网络使用smoothL1损失函数,类别子网络使用Focal Loss损失函数:
Figure FDA0003495443430000043
Focal Loss=-αt(1-pt)γlog(pt)。
10.一种目标先验信息指导的多尺度加权融合目标检测系统,其特征在于,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-9所述的方法步骤。
CN202210112397.8A 2022-01-29 2022-01-29 目标先验信息指导的多尺度加权融合目标检测方法及系统 Pending CN114445689A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210112397.8A CN114445689A (zh) 2022-01-29 2022-01-29 目标先验信息指导的多尺度加权融合目标检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210112397.8A CN114445689A (zh) 2022-01-29 2022-01-29 目标先验信息指导的多尺度加权融合目标检测方法及系统

Publications (1)

Publication Number Publication Date
CN114445689A true CN114445689A (zh) 2022-05-06

Family

ID=81372277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210112397.8A Pending CN114445689A (zh) 2022-01-29 2022-01-29 目标先验信息指导的多尺度加权融合目标检测方法及系统

Country Status (1)

Country Link
CN (1) CN114445689A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020181685A1 (zh) * 2019-03-12 2020-09-17 南京邮电大学 一种基于深度学习的车载视频目标检测方法
CN112926486A (zh) * 2021-03-16 2021-06-08 上海海事大学 一种舰船小目标的改进RFBnet目标检测算法
WO2021139069A1 (zh) * 2020-01-09 2021-07-15 南京信息工程大学 自适应注意力指导机制的一般性目标检测方法
CN113420706A (zh) * 2021-07-05 2021-09-21 吉林大学 一种基于多层特征融合的车辆检测方法
CN113516659A (zh) * 2021-09-15 2021-10-19 浙江大学 一种基于深度学习的医学影像自动分割方法
WO2021244079A1 (zh) * 2020-06-02 2021-12-09 苏州科技大学 智能家居环境中图像目标检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020181685A1 (zh) * 2019-03-12 2020-09-17 南京邮电大学 一种基于深度学习的车载视频目标检测方法
WO2021139069A1 (zh) * 2020-01-09 2021-07-15 南京信息工程大学 自适应注意力指导机制的一般性目标检测方法
WO2021244079A1 (zh) * 2020-06-02 2021-12-09 苏州科技大学 智能家居环境中图像目标检测方法
CN112926486A (zh) * 2021-03-16 2021-06-08 上海海事大学 一种舰船小目标的改进RFBnet目标检测算法
CN113420706A (zh) * 2021-07-05 2021-09-21 吉林大学 一种基于多层特征融合的车辆检测方法
CN113516659A (zh) * 2021-09-15 2021-10-19 浙江大学 一种基于深度学习的医学影像自动分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈飞: ""Context-dependent responses of Drosophila intestinal stem cells to intracellular reactive oxygen species"", REDOX BIOLOGY, 9 February 2021 (2021-02-09) *

Similar Documents

Publication Publication Date Title
CN108647585B (zh) 一种基于多尺度循环注意力网络的交通标识符检测方法
JP7236545B2 (ja) ビデオターゲット追跡方法と装置、コンピュータ装置、プログラム
CN107945204B (zh) 一种基于生成对抗网络的像素级人像抠图方法
CN111027493B (zh) 一种基于深度学习多网络软融合的行人检测方法
EP2864933B1 (en) Method, apparatus and computer program product for human-face features extraction
CN109446889B (zh) 基于孪生匹配网络的物体追踪方法及装置
US20200134377A1 (en) Logo detection
CN107273832B (zh) 基于积分通道特征与卷积神经网络的车牌识别方法及系统
CN112734775A (zh) 图像标注、图像语义分割、模型训练方法及装置
KR102140805B1 (ko) 위성 영상의 물체 식별을 위한 뉴럴 네트워크 학습 방법 및 장치
CN106845338B (zh) 视频流中行人检测方法与系统
CN113221787A (zh) 基于多元差异性融合的行人多目标跟踪方法
CN108256454B (zh) 一种基于cnn模型的训练方法、人脸姿态估测方法及装置
CN110827312A (zh) 一种基于协同视觉注意力神经网络的学习方法
CN112926486A (zh) 一种舰船小目标的改进RFBnet目标检测算法
CN114331946A (zh) 一种图像数据处理方法、设备以及介质
CN112347805A (zh) 一种多目标二维码检测识别方法、系统、装置及存储介质
CN113223614A (zh) 一种染色体核型分析方法、系统、终端设备和存储介质
CN112508966A (zh) 一种交互式图像分割方法及系统
CN115018886B (zh) 运动轨迹识别方法、装置、设备及介质
Jeong et al. Homogeneity patch search method for voting-based efficient vehicle color classification using front-of-vehicle image
CN114445689A (zh) 目标先验信息指导的多尺度加权融合目标检测方法及系统
CN114782709A (zh) 一种基于高斯分配策略的图像小目标检测方法及系统
WO2020237674A1 (zh) 目标跟踪方法、目标跟踪装置和无人机
Goyal et al. Moving Object Detection in Video Streaming Using Improved DNN Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination