CN112529005B - 基于语义特征一致性监督金字塔网络的目标检测方法 - Google Patents

基于语义特征一致性监督金字塔网络的目标检测方法 Download PDF

Info

Publication number
CN112529005B
CN112529005B CN202011458846.1A CN202011458846A CN112529005B CN 112529005 B CN112529005 B CN 112529005B CN 202011458846 A CN202011458846 A CN 202011458846A CN 112529005 B CN112529005 B CN 112529005B
Authority
CN
China
Prior art keywords
network
convolution
convolution kernels
layer
target detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011458846.1A
Other languages
English (en)
Other versions
CN112529005A (zh
Inventor
何立火
柯俊杰
甘海林
韩博
高新波
唐杰浩
路文
蔡虹霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202011458846.1A priority Critical patent/CN112529005B/zh
Publication of CN112529005A publication Critical patent/CN112529005A/zh
Application granted granted Critical
Publication of CN112529005B publication Critical patent/CN112529005B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于语义特征一致性金字塔网络的图像目标检测方法,用于解决现有技术中存在的因为图像或视频目标检测过程中目标多尺度语义特征融合时不一致导致的检测精度较低的技术问题,实现步骤为:获取训练样本集K和测试样本集V;构建基于语义特征一致性金字塔网络P的图像目标检测网络S;对基于语义特征一致性金字塔网络P的图像目标检测网络S进行迭代训练;获取目标检测识别结果。本方法在主流RCNN目标检测网络中即插即用,解决了不同层语义特征融合时不一致导致的检测精度较低的技术问题提高了检测精度。

Description

基于语义特征一致性监督金字塔网络的目标检测方法
技术领域
本发明属于图像处理中的计算机视觉技术领域,涉及一种基于深度学习的目标检测方法,具体涉及一种基于语义特征一致性监督金字塔网络的目标检测方法,可用于RGB光学图像与视频中的目标检测。
背景技术
随着计算机技术的发展和人工智能时代的到来,计算机视觉领域技术突飞猛进,目标检测技术也取得了突破性的成果。目标检测是计算机视觉领域的核心问题之一,其任务是找出图像中所有感兴趣的目标,确定它们的位置和大小。人脸检测、行人检测、车辆检测等重要目标的检测被广为研究,不仅如此,在安全、交通、医疗等领域目标检测均得到了广泛的应用。因此,为了获得满意的图像物体检测效果,设计相应算法有效地检测图像目标成为一个广泛而基本的问题。
传统的目标检测方法利用手工设计特征,使用与图所包含目标边缘相关的滤波器对规则物体进行滤波,对于单一目标检测,手工设计特征的方法在清晰可见的图像中检测精度显著提升,但此方法在复杂场景下难以准确匹配目标,鲁棒性较差。随着卷积神经网络的发展,基于卷积神经网络的目标检测算法成为主流算法,该算法通过学习大量的标注训练数据的特征来提升模型对特征的识别能力
随着深度卷积网络的发展,基于深度学习的目标检测算法成为研究热点。深度卷积网络可通过学习并融合图像中目标的浅层定位信息与深层语义信息来增强对图像感兴趣区域的激活值,进而对目标的显著特征识别,达到对图像中目标的检测。在基于深度卷积网络的目标检测算法中,设计合理的多尺度特征融合模块对多尺度目标检测非常重要,多尺度特征决定网络具备图像中不同尺度目标进行定位与辨识,特征金字塔可融合出高语义细粒度特征,实现多尺度精准检测的目标。
基于特征金字塔的目标检测方法可以分为基于图像特征融合和基于图像特征精炼的目标检测方法,其中,基于特征精炼的目标检测过程中首先将骨干网络提取的多尺度特征直接融合得到单一尺度特征,再对该特征进行不同尺度的采样分离出相同的特征图,然而由于特征金字塔顶层与底层特征存在较大差距,精炼后采样分离出的特征图依旧未对齐且特征信息损失。
基于特征融合的目标检测将高语义分类特征用于增强底层定位特征,使底层特征同样具有高语义分析信息,提高了检测的精度。例如申请公布号为CN 110084124 A,名称为“基于特征金字塔网络的特征增强目标检测方法”的专利申请,公开了一种基于特征金字塔网络的图像目标检测方法,该方法首先建立基于深度学习神经网络的骨干网络,将骨干网络在ImageNet的分类数据集上进行预训练;然后将待检测图像送入建立的骨干网络提取特征,得到各层特征;在前两步建立的金字塔特征网络模型的基础上增加自顶向下模块、自底向上模块、融合扩展模块;其次对三个模块得到的特征金字塔相同尺寸的对应层特征进行按通道方向做连接操作;最后将对应层特征分别送入目标检测器中。该方法提升了对多尺度目标的检测精度,参数和计算量少。但其存在的不足之处在于,该方法仅考虑图像特征金字塔不同层间相同通道的关系,没有考虑不同层的相同通道特征图所代表的语义特征与上下文属性经过非线性变换发生了改变,从而导致不同层语义特征信息不具备一致性,进而导致多尺度目标的检测精度较低。
发明内容
本发明目的在于针对上述现有技术的不足,提出了一种基于语义特征一致性金字塔网络的图像目标检测方法,用于解决现有技术中存在的因为图像或视频目标检测过程中目标多尺度语义特征融合时不一致导致的检测精度较低的技术问题。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)获取训练样本集K和测试样本集V:
获取目标检测数据集中的多幅大小为W×H的RGB三通道图像,并将其中N幅带有目标类别标签和目标位置坐标的RGB三通道图像作为训练样本集K={k1,k2,...,kn,...,kN},
Figure BDA0002830487200000021
将M幅带有目标类别标签和目标位置坐标的RGB三通道图像作为测试样本集V={v1,v2,...,vm,...,vM},
Figure BDA0002830487200000022
其中,N≥100000,M≥5000,kn表示第n个目标类别标签为
Figure BDA0002830487200000023
目标位置坐标为
Figure BDA0002830487200000024
的训练样本,vm表示第m个目标类别标签为
Figure BDA0002830487200000025
目标位置坐标为
Figure BDA0002830487200000026
的测试样本;
(2)构建基于语义特征一致性金字塔网络P的图像目标检测网络S:
构建包括区域卷积神经网络RCNN和语义特征一致性金字塔网络P的图像目标检测网络S,其中RCNN包括顺次连结的特征提取网络、候选区域生成网络和感兴趣区域分类回归网络;语义特征一致性监督金字塔网络P包括级联的非对称特征对齐侧接网络F和多尺度语义特征扩充网络E,F包括多个对称卷积层F′、多个横向非对称卷积层
Figure BDA0002830487200000031
多个纵向非对称卷积层
Figure BDA0002830487200000032
和多个可变形卷积层
Figure BDA0002830487200000033
多尺度语义特征扩充网络E包括多个并行排布的自适应平均池化层A,以及与每个自适应平均池化层A级联的对称卷积层F″和通道融合层C;语义特征一致性金字塔网络P加载在特征提取网络与候选区域生成网络之间;
(3)对基于语义特征一致性金字塔网络P的图像目标检测网络S进行迭代训练:
(3a)初始化迭代次数为t,最大迭代次数为T,T≥20,当前基于语义特征一致性金字塔网络P的图像目标检测网络为St,并令t=1,St=S;
(3b)将K作为St的输入进行前向推理,特征提取网络对每个训练样本进行多尺度特征提取,得到多尺度原始特征图集X={x1,x2,...,xn,...,xN},其中xn表示第n个训练样本kn对应的特征图子集,
Figure BDA0002830487200000034
表示xn的第j个原始特征图,J≥4;
(3c)语义特征一致性金字塔网络P对X中的特征图子集进行特征融合,得到语义信息一致的融合特征图Y={y1,y2,...,yn,...,yN},yn表示xn对应语义信息一致的融合特征图:
Figure BDA0002830487200000035
其中,
Figure BDA00028304872000000314
为卷积核间并行相加操作,
Figure BDA0002830487200000036
为卷积核频域相乘操作;
(3d)候选区域生成网络对每个语义信息一致的融合特征图yn进行感兴趣区域位置预测,感兴趣区域分类回归网络对yn的感兴趣区域位置预测结果进行目标分类和位置预测,得到预测结果T={t1,t2,...,tn,...,tN},其中,tn表示yn对应的包括目标类别
Figure BDA0002830487200000037
和位置
Figure BDA0002830487200000038
的预测结果,
Figure BDA0002830487200000039
(3e)采用反向传播算法,Log损失函数计算感兴趣区域分类回归网络分类预测结果
Figure BDA00028304872000000310
与训练样本的目标类别标签为
Figure BDA00028304872000000311
的分类误差,Smooth L1损失函数计算感兴趣区域分类回归网络位置预测结果
Figure BDA00028304872000000312
与训练样本的目标位置坐标为
Figure BDA00028304872000000313
的回归误差,采用随机梯度下降法降低分类误差与回归误差,对S中卷积核参数ωt、各全连接层节点之间的参数υt进行更新,得到更新后的St
(3f)判断t=T是否成立,若是,得到训练好基于语义特征一致性金字塔网络P的图像目标检测网络S*,否则,令t=t+1,并执行步骤(3b);
(4)获取目标检测识别结果:
将V中的测试样本作为训练好语义特征一致性金字塔网络P的图像目标检测网络S*的输入进行目标检测与识别,得到目标分类与位置的预测结果。
与现有技术相比,本发明具有以下优点:
本发明构建包括区域卷积神经网络RCNN和语义特征一致性金字塔网络P的图像目标检测网络S,其中RCNN包括顺次连结的特征提取网络、候选区域生成网络和感兴趣区域分类回归网络;语义特征一致性监督金字塔网络P包括级联的非对称特征对齐侧接网络F和多尺度语义特征扩充网络E,语义特征一致性金字塔网络P加载在特征提取网络与候选区域生成网络之间,语义特征一致性金字塔网络P采用的非对称特征对齐侧接网络F增强了各层特征图之间语义的一致性,并利用多尺度语义特征扩充网络E提升低层特征图的语义信息,显著提高了检测精度,并且只引入少量的参数和计算量,可在区域卷积神经网络RCNN中即插即用,具有灵活性和高效性。
附图说明
图1是本发明的实现流程图。
图2是本发明采用的语义特征一致性金字塔网络的结构示意及融合原理图。
具体实施方式
下面结合附图和具体实施例,对本发明作进一步详细描述:
参照图1,本发明包括如下步骤:
步骤1)获取训练样本集K和测试样本集V:
获取目标检测数据集中的多幅大小为W×H的RGB三通道图像,并将其中N幅带有目标类别标签和目标位置坐标的RGB三通道图像作为训练样本集K={k1,k2,...,kn,...,kN},
Figure BDA0002830487200000041
将M幅带有目标类别标签和目标位置坐标的RGB三通道图像作为测试样本集V={v1,v2,...,vm,...,vM},
Figure BDA0002830487200000042
其中,N≥100000,M≥5000,kn表示第n个目标类别标签为
Figure BDA0002830487200000043
目标位置坐标为
Figure BDA0002830487200000044
的训练样本,vm表示第m个目标类别标签为
Figure BDA0002830487200000045
目标位置坐标为
Figure BDA0002830487200000051
的测试样本,训练样本集和测试样本集也可为视频,本实施例中,N=117280,M=5000,W=1333,H=800;
步骤2)构建基于语义特征一致性金字塔网络P的图像目标检测网络S:
构建包括区域卷积神经网络RCNN和语义特征一致性金字塔网络P的图像目标检测网络S,其中:
区域卷积神经网络RCNN,包括顺次连结的特征提取网络、候选区域生成网络和感兴趣区域分类回归网络,其中:
特征提取网络,其包含数个依次连接的残差单元,每个残差单元包含三个依次层叠的对称卷积层,卷积核大小依次为3×3、1×1、3×3,卷积核数量大于64,卷积核步长为1;
候选区域生成网络,其包含一个融合卷积层、前背景分类卷积层、锚点位置卷积回归层,融合卷积层的卷积核大小为3×3,卷积核数量为512,卷积核步长为1,前背景分类卷积层的卷积核大小为1×1,卷积核数量为3,卷积核步长为1,锚点位置卷积回归层的卷积核大小为1×1,卷积核数量为12,卷积核步长为1;
感兴趣区域分类回归网络,其中包含感兴趣区域分类层和感兴趣区域位置回归层,感兴趣区域分类的卷积核大小为3×3,卷积核数量为81,卷积核步长为1,卷积核大小为3×3,卷积核数量为4,卷积核步长为1;
语义特征一致性监督金字塔网络P,其结构如图2所示,包括级联的非对称特征对齐侧接网络F和多尺度语义特征扩充网络E,F包括多个对称卷积层F′、多个横向非对称卷积层
Figure BDA0002830487200000052
多个纵向非对称卷积层
Figure BDA0002830487200000053
和多个可变形卷积层
Figure BDA0002830487200000054
多尺度语义特征扩充网络E包括多个并行排布的自适应平均池化层A,以及与每个自适应平均池化层A级联的对称卷积层F″和通道融合层C,其中:
非对称特征对齐侧接网络F,其中包含对称卷积层F′的卷积核大小为3×3,卷积核数量为256,卷积核步长为1;横向非对称卷积层
Figure BDA0002830487200000055
的卷积核大小1×3,卷积核数量为256,卷积核步长为1;纵向非对称卷积层
Figure BDA0002830487200000056
的卷积核大小3×1,卷积核数量为256,卷积核步长为1;可变形卷积层
Figure BDA0002830487200000057
的卷积核大小为3×3,卷积核数量为256,卷积核步长为1;
多尺度语义特征扩充网络E,其中包含自适应平均池化层A池化区域随设定输入的输出大小变化,步长为池化区域大小;对称卷积层F″的卷积核大小为3×3,卷积核数量为256,卷积核步长为1;通道融合层C为卷积核大小为1×1,卷积核数量为256,卷积核步长为1。
非对称特征对齐侧接网络F通过可变形卷积将不同尺度的目标图进行特征对齐,增强了各层特征图之间语义的一致性,多尺度语义特征扩充网络E通过顶层特征图的高语义信息提升低层特征图的语义信息,使融合后的特征图富含负责定位的低层位置信息与高层分类语义信息。
语义特征一致性金字塔网络P加载在特征提取网络与候选区域生成网络之间。
步骤3)对基于语义特征一致性金字塔网络P的图像目标检测网络S进行迭代训练:
(3a)初始化迭代次数为t,最大迭代次数为T,T≥20,在本实施例中,T=30,当前基于语义特征一致性金字塔网络P的图像目标检测网络为St,并令t=1,St=S;
(3b)将K作为St的输入进行前向推理,特征提取网络对每个训练样本进行多尺度特征提取,得到多尺度原始特征图集X={x1,x2,...,xn,...,xN},其中xn表示第n个训练样本kn对应的特征图子集,
Figure BDA0002830487200000061
表示xn的第j个原始特征图,J≥4,在本实施例中,J=4;
(3c)语义特征一致性金字塔网络P对X中的特征图子集进行特征融合,其融合原理如图2所示,得到语义信息一致的融合特征图Y={y1,y2,...,yn,...,yN},yn表示xn对应语义信息一致的融合特征图:
Figure BDA0002830487200000062
其中,
Figure BDA0002830487200000067
为卷积核间并行相加操作,
Figure BDA0002830487200000063
为卷积核频域相乘操作;
语义特征一致性金字塔网络P融合后的特征图yn相比于原始特征图集富含更多高层语义信息,使网络对目标的类别判定更加准确,特征图语义特征一致性强,使网络对目标的定位更加精确。
(3d)候选区域生成网络对每个语义信息一致的融合特征图yn进行感兴趣区域位置预测,感兴趣区域分类回归网络对yn的感兴趣区域位置预测结果进行目标分类和位置预测,得到预测结果T={t1,t2,...,tn,...,tN},其中,tn表示yn对应的包括目标类别
Figure BDA0002830487200000064
和位置
Figure BDA0002830487200000065
的预测结果,
Figure BDA0002830487200000066
(3e)采用反向传播算法,Log损失函数计算感兴趣区域分类回归网络分类预测结果
Figure BDA0002830487200000071
与训练样本的目标类别标签为
Figure BDA0002830487200000072
的分类误差,Smooth L1损失函数计算感兴趣区域分类回归网络位置预测结果
Figure BDA0002830487200000073
与训练样本的目标位置坐标为
Figure BDA0002830487200000074
的回归误差,损失函数公式为:
Figure BDA0002830487200000075
Figure BDA0002830487200000076
采用随机梯度下降法降低分类误差与回归误差,对S中卷积核参数ωt、各全连接层节点之间的参数υt进行更新,得到更新后的St,更新公式为:
Figure BDA0002830487200000077
Figure BDA0002830487200000078
其中,η表示学习步长,0.002≤η≤0.02,ωt+1和υt+1分别表示ωt和υt更新后的结果,
Figure BDA0002830487200000079
表示偏导计算,在本实施例中,η=0.02;
(3f)判断t=T是否成立,若是,得到训练好基于语义特征一致性金字塔网络P的图像目标检测网络S*,否则,令t=t+1,并执行步骤(3b);
步骤4)获取目标检测识别结果:
将V中的测试样本作为训练好语义特征一致性金字塔网络P的图像目标检测网络S*的输入进行目标检测与识别,得到目标分类与位置的预测结果。
下面结合仿真实验对本发明的效果作进一步的描述:
1.仿真实验条件:
仿真实验的硬件测试平台是:Intel(R)Xeon(R)Silver 4114CPU,主频为2.20GHz,内存192GB,GPU为4路NVIDIA Tesla V100 32GB。
仿真实验的软件平台是:Ubuntu 16.04.6LTS操作系统、编程语言Python 3.8、深度学习框架PyTorch 1.6。
2.仿真内容及其结果分析:
本发明的仿真实验是采用本发明的方法,从Tsung-Yi Lin等人在其发表的论文“Microsoft COCO:Common Objects in Context”中下载Microsoft COCO图像数据集,该数据集为大规模标注数据集,包含目标检测、图像实例分割、图像全景分割、图像关键点检测等任务,见https://cocodataset.org/#home。所有类别的平均精确度mAP(mean AveragePrecision)是衡量目标检测模型针对多尺度多类别目标检测效能的指标,包含:AP、AP50、AP75、AP small、AP medium、AP Large、AR,见https://cocodataset.org/#detection-eval。本发明所使用训练集与测试集图像输入尺寸为1333×800。
本发明的仿真实验分别以ResNet50、ResNet101、ResNeXt101作为特征提取网络,构建包括区域卷积神经网络RCNN和语义特征一致性金字塔网络P的图像目标检测网络S,其中RCNN包括顺次连结的特征提取网络、候选区域生成网络和感兴趣区域分类回归网络;语义特征一致性监督金字塔网络P包括级联的非对称特征对齐侧接网络F和多尺度语义特征扩充网络E,语义特征一致性金字塔网络P加载在特征提取网络与候选区域生成网络之间。
本发明的仿真实验结果如下表:
表1基于语义特征的一致性监督金字塔网络的目标检测平均准确率
Figure BDA0002830487200000081
结合表1可以看出,在Microsoft COCO图像数据集上测试,使用Faster R-CNN方法,选择ResNet50作为特征提取网络,学习率调整一次,在测试集上AP指标值为39.6%,相较于基线方法提升6.1%,选择ResNet101作为特征提取网络,学习率调整一次,在测试集上AP指标值为41.0%,相较于基线方法提升2.8%,选择ResNext-101-32x4d作为特征提取网络,学习率调整一次,在测试集上AP指标值为42.8%,相较于基线方法提升1.4%。

Claims (4)

1.一种基于语义特征一致性金字塔网络的图像目标检测方法,其特征在于包括如下步骤:
(1)获取训练样本集K和测试样本集V:
获取目标检测数据集中的多幅大小为W×H的RGB三通道图像,并将其中N幅带有目标类别标签和目标位置坐标的RGB三通道图像作为训练样本集K={k1,k2,...,kn,...,kN},
Figure FDA0003920725790000011
将M幅带有目标类别标签和目标位置坐标的RGB三通道图像作为测试样本集V={v1,v2,...,vm,...,vM},
Figure FDA0003920725790000012
其中,N≥100000,M≥5000,kn表示第n个目标类别标签为
Figure FDA0003920725790000013
目标位置坐标为
Figure FDA0003920725790000014
的训练样本,vm表示第m个目标类别标签为
Figure FDA0003920725790000015
目标位置坐标为
Figure FDA0003920725790000016
的测试样本;
(2)构建基于语义特征一致性金字塔网络P的图像目标检测网络S:
构建包括区域卷积神经网络RCNN和语义特征一致性金字塔网络P的图像目标检测网络S,其中RCNN包括顺次连结的特征提取网络、候选区域生成网络和感兴趣区域分类回归网络;语义特征一致性监督金字塔网络P包括级联的非对称特征对齐侧接网络F和多尺度语义特征扩充网络E,F包括多个对称卷积层F′、多个横向非对称卷积层
Figure FDA0003920725790000017
多个纵向非对称卷积层
Figure FDA0003920725790000018
和多个可变形卷积层
Figure FDA0003920725790000019
多尺度语义特征扩充网络E包括多个并行排布的自适应平均池化层A,以及与每个自适应平均池化层A级联的对称卷积层F″和通道融合层C;语义特征一致性金字塔网络P加载在特征提取网络与候选区域生成网络之间;
(3)对基于语义特征一致性金字塔网络P的图像目标检测网络S进行迭代训练:
(3a)初始化迭代次数为t,最大迭代次数为T,T≥20,当前基于语义特征一致性金字塔网络P的图像目标检测网络为St,并令t=1,St=S;
(3b)将训练样本集K作为St的输入进行前向推理,特征提取网络对每个训练样本进行多尺度特征提取,得到多尺度原始特征图集X={x1,x2,...,xn,...,xN},其中xn表示第n个训练样本kn对应的特征图子集,
Figure FDA00039207257900000110
Figure FDA00039207257900000111
表示xn的第j个原始特征图,J≥4;
(3c)语义特征一致性金字塔网络P对X中的特征图子集进行特征融合,得到语义信息一致的融合特征图Y={y1,y2,...,yn,...,yN},yn表示xn对应语义信息一致的融合特征图:
Figure FDA0003920725790000021
其中,
Figure FDA0003920725790000022
为卷积核间并行相加操作,
Figure FDA0003920725790000023
为卷积核频域相乘操作;
(3d)候选区域生成网络对每个语义信息一致的融合特征图yn进行感兴趣区域位置预测,感兴趣区域分类回归网络对yn的感兴趣区域位置预测结果进行目标分类和位置预测,得到预测结果T={t1,t2,...,tn,...,tN},其中,tn表示yn对应的包括目标类别
Figure FDA0003920725790000024
和位置
Figure FDA0003920725790000025
的预测结果,
Figure FDA0003920725790000026
(3e)采用反向传播算法,Log损失函数计算感兴趣区域分类回归网络分类预测结果
Figure FDA0003920725790000027
与训练样本的目标类别标签为
Figure FDA0003920725790000028
的分类误差,Smooth L1损失函数计算感兴趣区域分类回归网络位置预测结果
Figure FDA0003920725790000029
与训练样本的目标位置坐标为
Figure FDA00039207257900000210
的回归误差,采用随机梯度下降法降低分类误差与回归误差,对S中卷积核参数ωt、各全连接层节点之间的参数υt进行更新,得到更新后的St
(3f)判断t=T是否成立,若是,得到训练好基于语义特征一致性金字塔网络P的图像目标检测网络S*,否则,令t=t+1,并执行步骤(3b);
(4)获取目标检测识别结果:
将V中的测试样本作为训练好语义特征一致性金字塔网络P的图像目标检测网络S*的输入进行目标检测与识别,得到目标分类与位置的预测结果。
2.根据权利要求1所述的基于语义特征一致性金字塔网络的图像目标检测方法,其特征在于,步骤(2)中所述的区域卷积神经网络RCNN和语义特征一致性金字塔网络P,其中:
区域卷积神经网络RCNN:
特征提取网络,其包含数个依次连接的残差单元,每个残差单元包含三个依次层叠的对称卷积层,卷积核大小依次为3×3、1×1、3×3,卷积核数量大于64,卷积核步长为1;
候选区域生成网络,其包含一个融合卷积层、前背景分类卷积层、锚点位置卷积回归层,融合卷积层的卷积核大小为3×3,卷积核数量为512,卷积核步长为1,前背景分类卷积层的卷积核大小为1×1,卷积核数量为3,卷积核步长为1,锚点位置卷积回归层的卷积核大小为1×1,卷积核数量为12,卷积核步长为1;
感兴趣区域分类回归网络,其中包含感兴趣区域分类层和感兴趣区域位置回归层,感兴趣区域分类的卷积核大小为3×3,卷积核数量为81,卷积核步长为1,卷积核大小为3×3,卷积核数量为4,卷积核步长为1;
语义特征一致性金字塔网络P:
非对称特征对齐侧接网络F,其中包含对称卷积层F′的卷积核大小为3×3,卷积核数量为256,卷积核步长为1;横向非对称卷积层
Figure FDA0003920725790000031
的卷积核大小1×3,卷积核数量为256,卷积核步长为1;纵向非对称卷积层
Figure FDA0003920725790000032
的卷积核大小3×1,卷积核数量为256,卷积核步长为1;可变形卷积层
Figure FDA0003920725790000033
的卷积核大小为3×3,卷积核数量为256,卷积核步长为1;
多尺度语义特征扩充网络E,其中包含自适应平均池化层A池化区域随设定输入的输出大小变化,步长为池化区域大小;对称卷积层F″的卷积核大小为3×3,卷积核数量为256,卷积核步长为1;通道融合层C为卷积核大小为1×1,卷积核数量为256,卷积核步长为1。
3.根据权利要求1所述的基于语义特征一致性金字塔网络的图像目标检测方法,其特征在于,步骤(3e)中所述的Log损失函数与Smooth L1损失函数,公式如下:
Figure FDA0003920725790000034
Figure FDA0003920725790000035
4.根据权利要求1所述基于语义特征一致性金字塔网络的图像目标检测方法,其特征在于,步骤(3d)中所述的卷积层的卷积核参数ωt,以及各全连接层结点之间的连接参数υt,更新公式为:
Figure FDA0003920725790000036
Figure FDA0003920725790000037
其中χ为步骤(2)中基于区域卷积神经网络RCNN目标检测网络的损失函数,η表示学习步长,0.002≤η≤0.02,ωt+1和υt+1分别表示ωt和υt更新后的结果,
Figure FDA0003920725790000041
表示偏导计算。
CN202011458846.1A 2020-12-11 2020-12-11 基于语义特征一致性监督金字塔网络的目标检测方法 Active CN112529005B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011458846.1A CN112529005B (zh) 2020-12-11 2020-12-11 基于语义特征一致性监督金字塔网络的目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011458846.1A CN112529005B (zh) 2020-12-11 2020-12-11 基于语义特征一致性监督金字塔网络的目标检测方法

Publications (2)

Publication Number Publication Date
CN112529005A CN112529005A (zh) 2021-03-19
CN112529005B true CN112529005B (zh) 2022-12-06

Family

ID=74999115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011458846.1A Active CN112529005B (zh) 2020-12-11 2020-12-11 基于语义特征一致性监督金字塔网络的目标检测方法

Country Status (1)

Country Link
CN (1) CN112529005B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076926B (zh) * 2021-04-25 2022-11-18 华南理工大学 一种带语义引导的多尺度目标检测方法及系统
CN114170230B (zh) * 2022-02-14 2022-04-29 清华大学 基于可变形卷积与特征融合的玻璃缺陷检测方法与装置
CN114782863B (zh) * 2022-04-07 2023-12-19 中国科学院宁波材料技术与工程研究所 基于i-p帧特征融合的视频目标检测方法
CN115205855B (zh) * 2022-07-08 2023-10-27 中国人民解放军国防科技大学 融合多尺度语义信息的车辆目标识别方法、装置及设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3391290A1 (en) * 2015-12-16 2018-10-24 Intel Corporation Fully convolutional pyramid networks for pedestrian detection
CN110264466A (zh) * 2019-06-28 2019-09-20 广州市颐创信息科技有限公司 一种基于深度卷积神经网络的钢筋检测方法
CN110909642A (zh) * 2019-11-13 2020-03-24 南京理工大学 一种基于多尺度语义特征融合的遥感图像目标检测方法
CN111274980A (zh) * 2020-01-23 2020-06-12 天津大学 基于yolov3和非对称卷积的小尺寸交通标志识别方法
CN111432207A (zh) * 2020-03-30 2020-07-17 北京航空航天大学 基于显著目标检测和显著性指导的感知高清视频编码方法
CN111652216A (zh) * 2020-06-03 2020-09-11 北京工商大学 基于度量学习的多尺度目标检测模型方法
CN111680655A (zh) * 2020-06-15 2020-09-18 深延科技(北京)有限公司 一种面向无人机航拍影像的视频目标检测方法
CN111738110A (zh) * 2020-06-10 2020-10-02 杭州电子科技大学 基于多尺度注意力机制的遥感图像车辆目标检测方法
CN111767944A (zh) * 2020-05-27 2020-10-13 重庆大学 一种基于深度学习的适用于多尺度目标检测的单阶段检测器设计方法
CN112052893A (zh) * 2020-09-01 2020-12-08 西安电子科技大学 基于生成对抗网络的半监督图像分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2017361061B2 (en) * 2016-11-15 2022-02-03 Magic Leap, Inc. Deep learning system for cuboid detection
US10147193B2 (en) * 2017-03-10 2018-12-04 TuSimple System and method for semantic segmentation using hybrid dilated convolution (HDC)

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3391290A1 (en) * 2015-12-16 2018-10-24 Intel Corporation Fully convolutional pyramid networks for pedestrian detection
CN110264466A (zh) * 2019-06-28 2019-09-20 广州市颐创信息科技有限公司 一种基于深度卷积神经网络的钢筋检测方法
CN110909642A (zh) * 2019-11-13 2020-03-24 南京理工大学 一种基于多尺度语义特征融合的遥感图像目标检测方法
CN111274980A (zh) * 2020-01-23 2020-06-12 天津大学 基于yolov3和非对称卷积的小尺寸交通标志识别方法
CN111432207A (zh) * 2020-03-30 2020-07-17 北京航空航天大学 基于显著目标检测和显著性指导的感知高清视频编码方法
CN111767944A (zh) * 2020-05-27 2020-10-13 重庆大学 一种基于深度学习的适用于多尺度目标检测的单阶段检测器设计方法
CN111652216A (zh) * 2020-06-03 2020-09-11 北京工商大学 基于度量学习的多尺度目标检测模型方法
CN111738110A (zh) * 2020-06-10 2020-10-02 杭州电子科技大学 基于多尺度注意力机制的遥感图像车辆目标检测方法
CN111680655A (zh) * 2020-06-15 2020-09-18 深延科技(北京)有限公司 一种面向无人机航拍影像的视频目标检测方法
CN112052893A (zh) * 2020-09-01 2020-12-08 西安电子科技大学 基于生成对抗网络的半监督图像分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Geospatial Object Detection on High Resolution Remote Sensing Imagery Based on Double Multi-Scale Feature Pyramid Network;Xiaodong Zhang et al;《remote sensing》;20190328;1-27 *
Object Detection in Remote Sensing Images Based on a Scene-Contextual Feature Pyramid Network;Chaoyue Chen et al;《remote sensing》;20190208;1-17 *
X光安检图像多尺度违禁品检测;张友康 等;《信号处理》;20200731;第36卷(第7期);1096-1106 *
基于深度卷积神经网络的SAR 图像舰船小目标检测;胡昌华 等;《中国惯性技术学报》;20190630;第27卷(第3期);397-405,414 *

Also Published As

Publication number Publication date
CN112529005A (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
Ali et al. Structural crack detection using deep convolutional neural networks
CN112529005B (zh) 基于语义特征一致性监督金字塔网络的目标检测方法
Xing et al. A convolutional neural network-based method for workpiece surface defect detection
CN108764292B (zh) 基于弱监督信息的深度学习图像目标映射及定位方法
CN113486981B (zh) 基于多尺度特征注意力融合网络的rgb图像分类方法
CN110852316B (zh) 一种采用密集结构卷积网络的图像篡改检测和定位方法
Deng et al. Vision based pixel-level bridge structural damage detection using a link ASPP network
CN109086811B (zh) 多标签图像分类方法、装置及电子设备
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
CN111767882A (zh) 一种基于改进yolo模型的多模态行人检测方法
CN108171112A (zh) 基于卷积神经网络的车辆识别与跟踪方法
CN110765954A (zh) 一种车辆重识别方法、设备及存储装置
CN108197326A (zh) 一种车辆检索方法及装置、电子设备、存储介质
CN111401293B (zh) 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法
CN108846404B (zh) 一种基于相关约束图排序的图像显著性检测方法及装置
CN111680678A (zh) 目标区域识别方法、装置、设备及可读存储介质
CN111985325A (zh) 特高压环境评价中的航拍小目标快速识别方法
CN113221770B (zh) 基于多特征混合学习的跨域行人重识别方法及系统
CN112990282B (zh) 一种细粒度小样本图像的分类方法及装置
CN108133235A (zh) 一种基于神经网络多尺度特征图的行人检测方法
CN111126361A (zh) 基于半监督学习和特征约束的sar目标鉴别方法
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品
CN114511710A (zh) 一种基于卷积神经网络的图像目标检测方法
Tian et al. Object localization via evaluation multi-task learning
CN111598155A (zh) 一种基于深度学习的细粒度图像弱监督目标定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant