CN112465880B - 基于多源异构数据认知融合的目标检测方法 - Google Patents
基于多源异构数据认知融合的目标检测方法 Download PDFInfo
- Publication number
- CN112465880B CN112465880B CN202011355669.4A CN202011355669A CN112465880B CN 112465880 B CN112465880 B CN 112465880B CN 202011355669 A CN202011355669 A CN 202011355669A CN 112465880 B CN112465880 B CN 112465880B
- Authority
- CN
- China
- Prior art keywords
- network
- feature
- convolution
- fusion
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 127
- 238000001514 detection method Methods 0.000 title claims abstract description 116
- 230000001149 cognitive effect Effects 0.000 title claims abstract description 31
- 230000003287 optical effect Effects 0.000 claims abstract description 72
- 238000012549 training Methods 0.000 claims abstract description 61
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000012360 testing method Methods 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000000605 extraction Methods 0.000 claims description 41
- 238000011176 pooling Methods 0.000 claims description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 10
- 238000005520 cutting process Methods 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 3
- 238000004088 simulation Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 230000019771 cognition Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种多源异构数据认知融合的目标检测方法,用于解决现有技术中存在的图像中包含被遮挡的目标导致目标检测精度较低的技术问题,实现步骤为:数据预处理;获取训练数据集和测试数据集;构建基于多源异构数据认知融合的目标检测模型H;对基于多源异构数据认知融合的目标检测模型H进行迭代训练;获取目标检测结果。本发明在目标检测网络的基础上,通过融合输入的光学遥感图像和SAR图像、融合提取特征后的光学遥感特征图和SAR特征图、融合光学遥感图像和SAR图像的检测结果,使得目标检测模型既学习到SAR图像的特征,又学习到光学遥感图像的特征,解决了包含被遮挡目标的图像的检测精度较低的技术问题。
Description
技术领域
本发明属于图像处理技术领域,涉及一种目标检测方法,更涉及一种基于多源异构数据认知融合的自动目标检测方法。
背景技术
目标检测是指在给定的图像或视频中检测出人们感兴趣的目标的类别和边框坐标,目标检测以其广泛的应用需求,存在于各行各业,例如生物医疗、道路监控、航空航天、工业制造、文化展示等等。
目标检测算法分为传统的目标检测算法和基于学习的目标检测算法两类。传统的目标检测算法主要由图像预处理、特征提取、目标分类三部分组成。主要通过经过与处理后的一系列图像使用人工设计的特征算子进行特征提取。人工设计的算子一般只支持某种特征,所以传统的目标检测算法没有形成种统一有效的算法可以针对所有类别的复杂图像。然而在实际应用中,背景复杂多变,待检测的目标复杂多变,所以很难通过使用传统的目标检测方法完成对目标的检测。
基于学习的目标检测算法是通过提取大量包含相同目标数据中的目标特征,完成对于目标的检测,所以基于学习的目标检测算法,可以适用于背景信息更为复杂,待检测目标更加多变的图像,算法的健壮性更高,泛化能力更强,更容易应用于实际场景。基于学习的目标检测算法可以分成two-stage检测算法和one-stage,one-stage检测算法先通过提取目标的特征生成特征图,不需要产生候选区域,直接产生物体的类别概率和位置坐标值,经过单次检测即可直接得到最终的检测结果。
认知就是信息加工的过程,即人脑接受外界输入的信息,经过头脑的加工处理,转换成内在的心理活动,进而支配人的行为的过程。目标价测技术模拟人的认知过程进行目标检测,接受输入的图像,对图像中的目标进行特征提取,转化成图像的特征图,进而进行回归和分类,从而达到目标检测的目的。
图像中待检测的目标被遮挡时,目标检测算法无法精确提取光学遥感图像中被遮挡的目标的特征,造成包含有被遮挡目标的光学遥感图像检测精度较低;SAR虽然可以对被遮挡的目标进行成像,但SAR成像得到的图像的平均精度较低,目标检测技术无法精准的学习待测目标的特征,造成SAR图像检测精度较低的问题。所以基于单源数据的目标检测方法在检测包含有被遮挡目标的图像中检测精度较低。
申请公布号为CN111914795A,名称为“一种航拍图像中旋转目标检测方法”的专利申请,公开了一种目标检测方法,该方法首先设计图像特征提取网络,用于获取输入的航拍图像的高维特征,同时采用FPN架构构建特征金字塔,实现不同分辨率下目标特征提取;然后采用聚类方法生成候选区域提取网络的基础锚点尺寸,针对训练图像中目标的尺寸分布信息实现对应锚点的尺寸调整,提高训练效率;接着设计了结合注意力机制的特征去噪检测器,用于对候选区域目标特征进行去噪操作;最后采用旋转角度误差优化方法,针对不同长宽比的目标框设计对应的权重因子,优化大长宽比目标的定位结果,实现航拍图像中多种目标的旋转框预测。但该方法只能检测干净的即不包含被遮挡目标的图像,当图像中的待测目标被遮挡时,则无法检测出该目标,使得该方法在包含被遮档的目标的图像的目标检测任务中目标检测精度较低。
发明内容
本发明的目的在于针对上述现有技术存在的不足,提出了一种基于多源异构数据认知融合的目标检测方法,用于解决现有技术中存在的图像中包含被遮挡的目标导致目标检测精度较低的技术问题。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)数据预处理:
(1a)获取包含有多种目标的相同场景的s幅光学遥感图像A={Ai|1≤i≤s}和s幅合成孔径雷达SAR图像B={Bi|1≤i≤s},并对每幅光学遥感图像Ai和每幅SAR图像Bi分别进行配准,得到配准后的光学遥感图像集A'={A'i|1≤i≤s}和B'={B'i|1≤i≤s},其中,s≥5,Ai表示第i幅光学遥感图像,Bi表示Ai对应的SAR图像,A'i表示Ai的配准图像,B'i表示Bi的配准图像;
(1b)对A'i和B'i分别进行均等裁剪,并从裁剪结果中筛选出IS幅大小为a×b且每幅图像包含至少一个目标的光学遥感子图像Ai″={A″ij|1≤j≤Is}和SAR子图像Bi″={B″ij1≤j≤Is},得到包括M个光学遥感子图像的子图像集A″={A″ij|1≤i≤s,1≤j≤Is}和包括M个SAR子图像的子图像集B″={B″ij|1≤i≤s,1≤j≤Is},其中,IS≥200,a≥500,b≥500,M=s×Is,A″ij表示第j幅光学遥感子图像,B″ij表示第j幅SAR子图像;
(1c)对每幅光学遥感子图像A″ij和每幅SAR子图像B″ij分别进行目标边框标记,并将A″ij目标边框标签与B″ij目标边框标签组合成标签文件C″ij,得到M个标签文件;
(2)获取训练样本集和测试样本集:
对每幅光学遥感子图像A″ij、每幅SAR子图像B″ij和标签文件C″ij进行组合,得到M个样本对,并随机选取其中半数以上的样本对组成训练样本集,将剩下的样本对组成测试样本集;
(3)构建基于多源异构数据认知融合的目标检测模型H:
构建包括输入级融合网络、特征级融合网络和决策级融合网络的目标检测模型,其中:
第一特征提取网络、第二特征提取网络和第三特征提取网络的结构相同,均包含多个卷积层和多个最大池化层;第一特征增强网络、第二特征增强网络和第三特征增强网络的结构相同,均包含多个卷积层;第一分类回归网络、第二分类回归网络和第三分类回归网络的结构相同,均包含多个卷积层;输入融合网络包含多个卷积层;特征融合网络包含多个卷积层;
(4)对基于多源异构数据认知融合的目标检测模型H进行迭代训练:
(4a)初始化迭代次数为qS,最大迭代次数为QS,QS≥50000,并令qS=0;
(4b)无回放的随机选取训练样本集中的t个训练样本对作为基于多源异构数据认知融合的目标检测模型H的输入,t≥1,输入级融合网络、特征级融合网络和决策级融合网络分别对一t个训练样本对进行处理:
输入级融合网络中的输入融合网络对每个训练样本对中的光学遥感子图像和SAR子图像进行融合,第一特征提取网络对融合的图像进行特征提取,第一特征增强网络对提取的特征图进行特征增强,第一分类回归网络对特征增强后的图像进行目标分类和边框坐标回归,得到t个训练样本对中目标的类别和边框坐标;
特征级融合网络中的第二特征提取网络对每个训练样本对中的光学遥感子图像和SAR子图像分别进行特征提取,特征融合网络对提取的光学遥感特征图和SAR特征图进行融合,第二特征增强网络对融合后的特征图进行特征增强,第二分类回归网络对特征增强的图像进行目标分类和边框坐标回归,得到t个训练样本对中目标的类别和边框坐标;
决策级融合网络中的第三特征提取网络对每个训练样本对中的光学遥感子图像和SAR子图像分别进行特征提取,第二特征增强网络对提取的的光学遥感特征图和SAR特征图分别进行特征增强,第二分类回归网络对增强后的的光学遥感特征图和SAR特征图均进行目标分类和边框坐标回归,得到每个样本中的光学遥感子图像中目标的类别和边框坐标和SAR子图像中目标的类别和边框坐标,决策融合层对光学遥感子图像中目标的类别和边框坐标和SAR子图像中目标的类别和边框坐标进行融合,采用NMS算法对融合后的目标类别和边框坐标进行合并,得到t个训练样本对中目标的类别和边框坐标;
(4c)采用Focal_Loss损失函数,通过训练样本对中的标签文件目标的类别和边框坐标以及输入级融合网络得到的t个训练样本对中目标的类别和边框坐标计算输入级融合网络损失值同时通过训练样本对中的标签文件目标的类别和边框坐标以及特征级融合网络得到的t个训练样本对中目标的类别和边框坐标计算融合网络损失值同时通过训练样本对中的标签文件目标的类别和边框坐标以及决策级融合网络得到的t个训练样本对中目标的类别和边框坐标计算决策级融合网络损失值
(4d)采用随机梯度下降法,并通过损失值分别对第一特征提取网络权值第一特征增强网络权值和第一分类回归网络权值进行更新,通过损失值分别对第二特征提取网络权值第二特征增强网络权值和第二分类回归网络权值进行更新,通过损失值分别对第三特征提取网络权值第三特征增强网络权值和第三分类回归网络权值进行更新;
(4e)判断qS=QS是否成立,若是,得到训练好的基于多源异构数据认知融合的目标检测模型H',否则,令qS=qS+1,并执行步骤(4b);
(5)获取目标检测结果:
将测试样本集作为训练好的基于多源异构数据认知融合的目标检测模型H'的输入进行目标检测,得到测试样本集包含的所有目标的类别和边框坐标。
本发明与现有技术相比,具有如下优点:
本发明所构建的目标检测模型包括三种不同结构的输入级融合网络、特征级融合网络和决策级融合网络,在模型进行训练的过程中,三种不同网络结构分别通过融合输入的光学遥感图像和SAR图像、融合提取特征后的光学遥感特征图和SAR特征图、融合光学遥感图像和SAR图像的检测结果,使得目标检测模型既学习到SAR图像的特征,又学习到光学遥感图像的特征,解决了包含被遮挡目标的图像的检测精度较低的技术问题,仿真结果表明,本发明与现有技术相比,平均检测精确度提高了11.5%,平均检测召回率提高了13.9%。
附图说明
图1是本发明的实现流程图。
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细描述。
参照图1,本发明包括如下步骤:
步骤1)数据预处理:
步骤1a)获取包含有多种目标的相同场景的s幅光学遥感图像A={Ai|1≤i≤s}和s幅合成孔径雷达SAR图像B={Bi|1≤i≤s},并对每幅光学遥感图像Ai和每幅SAR图像Bi分别进行配准,得到配准后的光学遥感图像集A'={A'i|1≤i≤s}和B'={B'i|1≤i≤s},其中,s≥5,Ai表示第i幅光学遥感图像,Bi表示Ai对应的SAR图像,A'i表示Ai的配准图像,B'i表示Bi的配准图像;本实例中,s=5,获取的包含有三种不同的飞机类别以及部分飞机被遮挡的相同场景的光学遥感图像和合成孔径雷达SAR图像;
步骤1b)对A'i和B'i分别进行均等裁剪,并从裁剪结果中筛选出IS幅大小为a×b且每幅图像包含至少一个目标的光学遥感子图像Ai″={A″ij|1≤j≤Is}和SAR子图像Bi″={B″ij|1≤j≤Is},得到包括M个光学遥感子图像的子图像集A″={A″ij|1≤i≤s,1≤j≤Is}和包括M个SAR子图像的子图像集B″={B″ij|1≤i≤s,1≤j≤Is},其中,IS≥200,a≥500,b≥500,M=s×Is,A″ij表示第j幅光学遥感子图像,B″ij表示第j幅SAR子图像;本实例中,IS=200,a=300,b=300,每一次卷积操作图像尺寸都会缩小,分类回归网络的输入图像尺寸至少为32×32,所以我们所输入的图像尺寸至少为500×500,即a=500,b=500;
步骤1c)对每幅光学遥感子图像A″ij和每幅SAR子图像B″ij分别进行目标边框标记,并将A″ij目标边框标签与B″ij目标边框标签组合成标签文件C″ij,得到M个标签文件;
步骤2)获取训练样本集和测试样本集:
步骤2a)对每幅光学遥感子图像A″ij、每幅SAR子图像B″ij和标签文件C″ij进行组合,得到M个样本对;
步骤2b)随机选取全部样本对中半数以上的样本对组成训练样本集,将剩下的样本对组成测试样本集;本实例中,训练样本集包含700个样本对,测试样本集包含300个样本对;
步骤3)构建基于多源异构数据认知融合的目标检测模型H:
构建包括输入级融合网络、特征级融合网络和决策级融合网络的目标检测模型,在目标检测模型的不同阶段添加融合机制,是为对遮挡情况不同的图像进行检测,当目标被重度遮挡时,光学遥感数据中目标不明显,可通过输入级融合网络进行目标检测;当目标被轻度遮挡时,光学遥感数据中目标明显,可通过决策级融合网络进行目标检测;由于特征级融合网络由于在目标被轻度遮挡或重度遮挡这两种情况下,目标检测能力基本一样,所以当目标遮挡情况无法精确判断时,可通过特征级融合网络进行目标检测:
第一特征提取网络、第二特征提取网络和第三特征提取网络的结构相同,均包含13个卷积层和6个最大池化层,具体结构和参数分别为:第一卷积层→第二卷积层→第三卷积层→最大池化层→第四卷积层→第五卷积层→最大池化层→第六卷积层→第七卷积层→最大池化层→第八卷积层→第九卷积层→最大池化层→第十卷积层→第十一卷积层→最大池化层→第十二卷积层→第十三卷积层→最大池化层;卷积核大小均为,卷积核步长均为1,第一卷积层至第十三卷积层的卷积核数量分别为16、16、24、24、40、40、80、80、112、112、192、192、320;
第一特征提取网络、第二特征提取网络和第三特征提取网络是六个基础的卷积+relu+池化层组合,用于提取图像的特征图,提取的特征图被共享用于特征增强网络;
第一特征增强网络、第二特征增强网络和第三特征增强网络的结构相同,均包含2个卷积层,第一卷积层的卷积核大小为3×3,卷积核数量为6,第二卷积层的卷积核大小为1×1,卷积核数量为3,该两个卷积层的卷积核步长均为1,填充方式均为等大填充;
第一分类回归网络、第二分类回归网络和第三分类回归网络的结构相同,均包含4个卷积层,具体结构和参数分别为:第一卷积层→第二卷积层→第三卷积层→第四卷积层;第一卷积层和第三卷积层的卷积核大小均为3×3,卷积核数量均为320,第二卷积层的卷积核大小为1×1,卷积核数量为320,第四卷积层的卷积核大小为3×3,卷积核数量为36,该四个卷积层的卷积核步长均为1;
分类回归网络通过卷积层和softmax计算每个建议目标区域目标的类别以及边框坐标;
输入融合网络包含2个卷积层,第一卷积层的卷积核大小为3×3,卷积核数量为6,第二卷积层的卷积核大小为1×1,卷积核数量为3,第一卷积层和第二卷积层的卷积核步长均为1;输入融合网络通过第一卷积层将光学遥感图像和SAR图像融合为一个图像,融合后的图像既有光学遥感图像的特征又有SAR图像的特征,第二卷积层仅改变融合后图像的通道数,以保证第一特征提取网络所输入的是三通道的图像;
特征融合网络包含2个卷积层,第一卷积层的卷积核大小为3×3,卷积核数量为640,第二卷积层的卷积核大小为1×1,卷积核数量为320,该两个卷积层的卷积核步长均为1;特征融合层通过第一卷积层将经过特征提取层的光学遥感特征图和SAR特征图融合为一个特征图,融合后的图像既有光学遥感特征图的特征又有SAR特征图的特征,第二卷积层改变仅融合后特征图的通道数,以保证第二特征增强网络所输入的是三通道的特征图;
决策融合层对光学遥感图像中目标的类别和边框坐标和SAR图像中目标的类别和边框坐标进行融合,光学遥感图像和SAR图像的检测结果进行互补;
步骤4a)初始化迭代次数为qS,最大迭代次数为QS,QS≥50000,并令qS=0;在本实例中QS=50000;
步骤4b)无回放的随机选取训练样本集中的t个训练样本对作为基于多源异构数据认知融合的目标检测模型H的输入,t≥1,输入级融合网络、特征级融合网络和决策级融合网络分别对t个训练样本对进行处理,在本实例中t=6:
输入级融合网络中的输入融合网络对每个训练样本对中的光学遥感子图像和SAR子图像进行融合,第一特征提取网络对融合的图像进行特征提取,第一特征增强网络对提取的特征图进行特征增强,第一分类回归网络对特征增强后的图像进行目标分类和边框坐标回归,得到t个训练样本对中目标的类别和边框坐标;
特征级融合网络中的第二特征提取网络对每个训练样本对中的光学遥感子图像和SAR子图像分别进行特征提取,特征融合网络对提取的光学遥感特征图和SAR特征图进行融合,第二特征增强网络对融合后的特征图进行特征增强,第二分类回归网络对特征增强的图像进行目标分类和边框坐标回归,得到t个训练样本对中目标的类别和边框坐标;
决策级融合网络中的第三特征提取网络对每个训练样本对中的光学遥感子图像和SAR子图像分别进行特征提取,第二特征增强网络对提取的的光学遥感特征图和SAR特征图分别进行特征增强,第二分类回归网络对增强后的的光学遥感特征图和SAR特征图均进行目标分类和边框坐标回归,得到每个样本中的光学遥感子图像中目标的类别和边框坐标和SAR子图像中目标的类别和边框坐标,决策融合层对光学遥感子图像中目标的类别和边框坐标和SAR子图像中目标的类别和边框坐标进行融合,采用NMS算法对融合后的目标类别和边框坐标进行合并,得到t个训练样本对中目标的类别和边框坐标;
步骤4c)采用Focal_Loss损失函数,通过训练样本对中的标签文件目标的类别和边框坐标以及输入级融合网络得到的t个训练样本对中目标的类别和边框坐标计算输入级融合网络损失值同时通过训练样本对中的标签文件目标的类别和边框坐标以及特征级融合网络得到的t个训练样本对中目标的类别和边框坐标计算融合网络损失值同时通过训练样本对中的标签文件目标的类别和边框坐标以及决策级融合网络得到的t个训练样本对中目标的类别和边框坐标计算决策级融合网络损失值
步骤4d)采用随机梯度下降法,并通过损失值分别对第一特征提取网络权值第一特征增强网络权值和第一分类回归网络权值进行更新,通过损失值分别对第二特征提取网络权值第二特征增强网络权值和第二分类回归网络权值进行更新,通过损失值分别对第三特征提取网络权值第三特征增强网络权值和第三分类回归网络权值进行更新,本实施例中,所有训练过程均使用Adam优化器,采用随机梯度下降法更新公式分别为:
步骤4e)判断qS=QS是否成立,若是,得到训练好的基于多源异构数据认知融合的目标检测模型H',否则,令qS=qS+1,并执行步骤(4b);
步骤5)获取目标检测结果:
将测试样本集作为训练好的基于多源异构数据认知融合的目标检测模型H'的输入进行目标检测,得到测试样本集包含的所有目标的类别和边框坐标,选择分类置信度大于T的检测结果,作为目标域测试图像的最终检测结果;T表示对检测结果的信任度,若设置较大,会漏掉一部分检测结果,若设置较小,会产生一些虚警,通过对数据和网络分析,本实施例中,T=0.8。
下面结合仿真实验,对本发明技术效果作以说明。
1、仿真条件和内容:
仿真实验的硬件平台为深度学习工作站,CPU型号为Intel至强处理器,显卡为单卡TITAN RTX 24G显存,仿真实验的软件平台为Ubuntu18.04,PyTorch 1.6.0,CUDA10.1+cuDNN7.6,Python3.7.8。
对本发明和一种航拍图像中旋转目标检测方法的方法在本发明所获取的训练数据集和测试数据集的目标平均检测精度和平均检测召回率进行对比,结果分别如表1和表2。
2、仿真结果分析:
表1一种航拍图像中旋转目标检测方法检测结果评估
表2本发明方法检测结果评估
本发明采用评价指标为IOU值为0.5时平均检测精确度mAP@0.5和平均检测召回率mAR@0.5对本发明方法所涉及输入级融合网络、特征级融合网络和决策级融合网络准确率分别进行评估,得到的计算结果见表2。
AP表示检测精确度,AR表示检测召回率,tp表示某类检测对的个数,fp表示其余类检测对的个数,fn表示某类被检测为其他类的个数,mAP表示多类的平均检测精确度,mAR表示平均检测召回率。
由表1和2可知,通过多源数据训练的融合目标检测网络的性能普遍高于单源数据训练的网络性能。输入级融合网络、特征级融合网络分别较单源图像输入的目标检测结在平均检测精确度和平均检测召回率均有提升,决策级融合网络在平均检测精度上略低于光学遥感图像的目标检测网络,但其检测召回率高于单源输入目标检测结果;在相对增益上,三个网络较相对单源光学遥感图像目标检测的平均检测精确度提升11.5%,平均检测召回率提升13.9%;三个网络较相对单源SAR图像目标的平均检测精确度提升37.5%,平均检测召回率提升24.1%。在目标被遮挡的极端情况下,多源异构数据认知融合的目标检测模型能够很好整合多源数据的特征,充分互补,从而提升了目标检测精度,因而具有重要意义。
以上描述仅是本发明的一个具体实例,不构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修改和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。
Claims (7)
1.一种基于多源异构数据认知融合的目标检测方法,其特征在于,包括如下步骤:
(1)数据预处理:
(1a)获取包含有多种目标的相同场景的s幅光学遥感图像A={Ai|1≤i≤s}和s幅合成孔径雷达SAR图像B={Bi|1≤i≤s},并对每幅光学遥感图像Ai和每幅SAR图像Bi分别进行配准,得到配准后的光学遥感图像集A'={A’i|1≤i≤s}和B'={B’i|1≤i≤s},其中,s≥5,Ai表示第i幅光学遥感图像,Bi表示Ai对应的SAR图像,A’i表示Ai的配准图像,B’i表示Bi的配准图像;
(1b)对A’i和B’i分别进行均等裁剪,并从裁剪结果中筛选出IS幅大小为a×b且每幅图像包含至少一个目标的光学遥感子图像Ai”和SAR子图像Bi”,组成包括M个光学遥感子图像的子图像集A”和包括M个SAR子图像的子图像集B”,其中,IS≥200,a≥500,b≥500,M=s×Is;
(1c)对光学遥感子图像集A”中每幅光学遥感子图像和SAR子图像的子图像集B”中每幅SAR子图像分别进行目标边框标记,并将每幅光学遥感子图像的目标边框标签与其对应的SAR子图像的目标边框标签组合成标签文件,得到M个标签文件;
(2)获取训练样本集和测试样本集:
对每幅光学遥感子图像A”ij、每幅SAR子图像B”ij和标签文件C”ij进行组合,得到M个样本对,并随机选取其中半数以上的样本对组成训练样本集,将剩下的样本对组成测试样本集;
(3)构建基于多源异构数据认知融合的目标检测模型H:
构建包括输入级融合网络、特征级融合网络和决策级融合网络的目标检测模型,其中:
第一特征提取网络、第二特征提取网络和第三特征提取网络的结构相同,均包含多个卷积层和多个最大池化层;第一特征增强网络、第二特征增强网络和第三特征增强网络的结构相同,均包含多个卷积层;第一分类回归网络、第二分类回归网络和第三分类回归网络的结构相同,均包含多个卷积层;输入融合网络包含多个卷积层;特征融合网络包含多个卷积层;
(4)对基于多源异构数据认知融合的目标检测模型H进行迭代训练:
(4a)初始化迭代次数为qS,最大迭代次数为QS,QS≥50000,并令qS=0;
(4b)无回放的随机选取训练样本集中的t个训练样本对作为基于多源异构数据认知融合的目标检测模型H的输入,t≥1,输入级融合网络、特征级融合网络和决策级融合网络分别对一t个训练样本对进行处理:
输入级融合网络中的输入融合网络对每个训练样本对中的光学遥感子图像和SAR子图像进行融合,第一特征提取网络对融合的图像进行特征提取,第一特征增强网络对提取的特征图进行特征增强,第一分类回归网络对特征增强后的图像进行目标分类和边框坐标回归,得到t个训练样本对中目标的类别和边框坐标;
特征级融合网络中的第二特征提取网络对每个训练样本对中的光学遥感子图像和SAR子图像分别进行特征提取,特征融合网络对提取的光学遥感特征图和SAR特征图进行融合,第二特征增强网络对融合后的特征图进行特征增强,第二分类回归网络对特征增强的图像进行目标分类和边框坐标回归,得到t个训练样本对中目标的类别和边框坐标;
决策级融合网络中的第三特征提取网络对每个训练样本对中的光学遥感子图像和SAR子图像分别进行特征提取,第三特征增强网络对提取的光学遥感特征图和SAR特征图分别进行特征增强,第三分类回归网络对增强后的光学遥感特征图和SAR特征图均进行目标分类和边框坐标回归,得到每个样本中的光学遥感子图像中目标的类别和边框坐标和SAR子图像中目标的类别和边框坐标,决策融合层对光学遥感子图像中目标的类别和边框坐标和SAR子图像中目标的类别和边框坐标进行融合,采用NMS算法对融合后的目标类别和边框坐标进行合并,得到t个训练样本对中目标的类别和边框坐标;
(4c)采用Focal_Loss损失函数,通过训练样本对中的标签文件目标的类别和边框坐标以及输入级融合网络得到的t个训练样本对中目标的类别和边框坐标计算输入级融合网络损失值同时通过训练样本对中的标签文件目标的类别和边框坐标以及特征级融合网络得到的t个训练样本对中目标的类别和边框坐标计算融合网络损失值同时通过训练样本对中的标签文件目标的类别和边框坐标以及决策级融合网络得到的t个训练样本对中目标的类别和边框坐标计算决策级融合网络损失值
(4d)采用随机梯度下降法,并通过损失值分别对第一特征提取网络权值第一特征增强网络权值和第一分类回归网络权值进行更新,通过损失值分别对第二特征提取网络权值第二特征增强网络权值和第二分类回归网络权值进行更新,通过损失值分别对第三特征提取网络权值第三特征增强网络权值和第三分类回归网络权值进行更新;
(4e)判断qS=QS是否成立,若是,得到训练好的基于多源异构数据认知融合的目标检测模型H',否则,令qS=qS+1,并执行步骤(4b);
(5)获取目标检测结果:
将测试样本集作为训练好的基于多源异构数据认知融合的目标检测模型H'的输入进行目标检测,得到测试样本集包含的所有目标的类别和边框坐标。
2.根据权利要求1所述的基于多源异构数据认知融合的目标检测方法,其特征在于:步骤(3)中所述的第一特征提取网络、第二特征提取网络和第三特征提取网络包含的卷积层和池化层的数量分别为13和6,具体结构和参数分别为:
第一卷积层→第二卷积层→第三卷积层→最大池化层→第四卷积层→第五卷积层→最大池化层→第六卷积层→第七卷积层→最大池化层→第八卷积层→第九卷积层→最大池化层→第十卷积层→第十一卷积层→最大池化层→第十二卷积层→第十三卷积层→最大池化层;
卷积核大小均为3×3,卷积核步长均为1,第一卷积层至第十三卷积层的卷积核数量分别为16、16、24、24、40、40、80、80、112、112、192、192、320。
3.根据权利要求1所述的基于多源异构数据认知融合的目标检测方法,其特征在于:步骤(3)中所述的第一特征增强网络、第二特征增强网络和第三特征增强网络包含的卷积层数量为2,具体参数为:
第一卷积层的卷积核大小为3×3,卷积核数量为6,第二卷积层的卷积核大小为1×1,卷积核数量为3,该两个卷积层的卷积核步长均为1。
4.根据权利要求1所述的基于多源异构数据认知融合的目标检测方法,其特征在于:步骤(3)中所述的第一分类回归网络、第二分类回归网络和第三分类回归网络包含的卷积层数量为4,具体结构和参数分别为:
第一卷积层→第二卷积层→第三卷积层→第四卷积层;
第一卷积层和第三卷积层的卷积核大小均为3×3,卷积核数量均为320,第二卷积层的卷积核大小为1×1,卷积核数量为320,第四卷积层的卷积核大小为3×3,卷积核数量为36,该四个卷积层的卷积核步长均为1。
5.根据权利要求1所述的基于多源异构数据认知融合的目标检测方法,其特征在于:步骤(3)中所述的输入级融合网络,其包含的卷积层数量为2,具体参数为:
第一卷积层的卷积核大小为3×3,卷积核数量为6,第二卷积层的卷积核大小为1×1,卷积核数量为3,第一卷积层和第二卷积层的卷积核步长均为1。
6.根据权利要求1所述的基于多源异构数据认知融合的目标检测方法,其特征在于:步骤(3)中所述的特征级融合网络,其包含的卷积层数量为2,具体参数为:
第一卷积层的卷积核大小为3×3,卷积核数量为640,第二卷积层的卷积核大小为1×1,卷积核数量为320,该两个卷积层的卷积核步长均为1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011355669.4A CN112465880B (zh) | 2020-11-26 | 2020-11-26 | 基于多源异构数据认知融合的目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011355669.4A CN112465880B (zh) | 2020-11-26 | 2020-11-26 | 基于多源异构数据认知融合的目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112465880A CN112465880A (zh) | 2021-03-09 |
CN112465880B true CN112465880B (zh) | 2023-03-10 |
Family
ID=74809761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011355669.4A Active CN112465880B (zh) | 2020-11-26 | 2020-11-26 | 基于多源异构数据认知融合的目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112465880B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076655B (zh) * | 2021-04-13 | 2022-09-06 | 大连海事大学 | 一种多源异构油耗数据特征提取及融合方法 |
CN113177456B (zh) * | 2021-04-23 | 2023-04-07 | 西安电子科技大学 | 基于单阶段全卷积网络和多特征融合的遥感目标检测方法 |
CN113096058B (zh) * | 2021-04-23 | 2022-04-12 | 哈尔滨工业大学 | 空间目标多源数据参数化仿真与MixCenterNet融合检测方法 |
CN113221852B (zh) * | 2021-06-09 | 2021-12-31 | 中国人民解放军91977部队 | 一种目标识别方法及装置 |
CN113657196B (zh) * | 2021-07-27 | 2024-05-28 | 中国科学院自动化研究所 | Sar图像目标检测方法、装置、电子设备和存储介质 |
CN114022960B (zh) * | 2022-01-05 | 2022-06-14 | 阿里巴巴达摩院(杭州)科技有限公司 | 模型训练和行为识别方法、装置、电子设备以及存储介质 |
CN115272857B (zh) * | 2022-07-28 | 2023-04-07 | 北京卫星信息工程研究所 | 基于注意力机制的多源遥感图像目标识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598029A (zh) * | 2019-09-06 | 2019-12-20 | 西安电子科技大学 | 基于注意力转移机制的细粒度图像分类方法 |
CN110942000A (zh) * | 2019-11-13 | 2020-03-31 | 南京理工大学 | 一种基于深度学习的无人驾驶车辆目标检测方法 |
CN111401201A (zh) * | 2020-03-10 | 2020-07-10 | 南京信息工程大学 | 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法 |
CN111611905A (zh) * | 2020-05-18 | 2020-09-01 | 沈阳理工大学 | 一种可见光与红外融合的目标识别方法 |
CN111723748A (zh) * | 2020-06-22 | 2020-09-29 | 电子科技大学 | 一种红外遥感图像舰船检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10282462B2 (en) * | 2016-10-31 | 2019-05-07 | Walmart Apollo, Llc | Systems, method, and non-transitory computer-readable storage media for multi-modal product classification |
-
2020
- 2020-11-26 CN CN202011355669.4A patent/CN112465880B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598029A (zh) * | 2019-09-06 | 2019-12-20 | 西安电子科技大学 | 基于注意力转移机制的细粒度图像分类方法 |
CN110942000A (zh) * | 2019-11-13 | 2020-03-31 | 南京理工大学 | 一种基于深度学习的无人驾驶车辆目标检测方法 |
CN111401201A (zh) * | 2020-03-10 | 2020-07-10 | 南京信息工程大学 | 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法 |
CN111611905A (zh) * | 2020-05-18 | 2020-09-01 | 沈阳理工大学 | 一种可见光与红外融合的目标识别方法 |
CN111723748A (zh) * | 2020-06-22 | 2020-09-29 | 电子科技大学 | 一种红外遥感图像舰船检测方法 |
Non-Patent Citations (3)
Title |
---|
Multimodal fusion for multimedia analysis: a survey;Pradeep K. Atrey等;《Multimedia Systems volume》;20100430;第345–379页 * |
Multistage Fusion With Dissimilarity Regularization for SAR/IR Target Recognition;Young-Rae Cho等;《 IEEE Access》;20181209;第728 - 740页 * |
基于目标检测的多源遥感图像特征融合方法研究;周钟娜等;《计算机仿真》;20080415(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112465880A (zh) | 2021-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112465880B (zh) | 基于多源异构数据认知融合的目标检测方法 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
Wspanialy et al. | A detection and severity estimation system for generic diseases of tomato greenhouse plants | |
CN106408030B (zh) | 基于中层语义属性和卷积神经网络的sar图像分类方法 | |
CN108830285B (zh) | 一种基于Faster-RCNN的加强学习的目标检测方法 | |
CN110929607B (zh) | 一种城市建筑物施工进度的遥感识别方法和系统 | |
CN106446933B (zh) | 基于上下文信息的多目标检测方法 | |
CN110378281A (zh) | 基于伪3d卷积神经网络的组群行为识别方法 | |
CN111611874B (zh) | 基于ResNet和Canny的人脸口罩佩戴检测方法 | |
CN108898065B (zh) | 候选区快速筛选与尺度自适应的深度网络舰船目标检测方法 | |
CN114612835A (zh) | 一种基于YOLOv5网络的无人机目标检测模型 | |
Shen et al. | Biomimetic vision for zoom object detection based on improved vertical grid number YOLO algorithm | |
CN112634369A (zh) | 空间与或图模型生成方法、装置、电子设备和存储介质 | |
CN109584206B (zh) | 零件表面瑕疵检测中神经网络的训练样本的合成方法 | |
CN114821102A (zh) | 密集柑橘数量检测方法、设备、存储介质及装置 | |
Su et al. | Potato quality grading based on depth imaging and convolutional neural network | |
CN112069985A (zh) | 基于深度学习的高分辨率大田图像稻穗检测与计数方法 | |
Manandhar et al. | Towards automatic extraction and updating of VGI-based road networks using deep learning | |
CN116469020A (zh) | 一种基于多尺度和高斯Wasserstein距离的无人机图像目标检测方法 | |
CN114170487A (zh) | 一种基于视觉的水面油污检测方法 | |
Zhang et al. | A precise apple leaf diseases detection using BCTNet under unconstrained environments | |
CN114140395A (zh) | 肺部纤维化智能判定方法 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN107423771B (zh) | 一种两时相遥感图像变化检测方法 | |
CN113724204A (zh) | 一种航天复合材料缺陷定位与识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |