CN112529005A - 基于语义特征一致性监督金字塔网络的目标检测方法 - Google Patents
基于语义特征一致性监督金字塔网络的目标检测方法 Download PDFInfo
- Publication number
- CN112529005A CN112529005A CN202011458846.1A CN202011458846A CN112529005A CN 112529005 A CN112529005 A CN 112529005A CN 202011458846 A CN202011458846 A CN 202011458846A CN 112529005 A CN112529005 A CN 112529005A
- Authority
- CN
- China
- Prior art keywords
- network
- convolution
- convolution kernels
- layer
- target detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于语义特征一致性金字塔网络的图像目标检测方法,用于解决现有技术中存在的因为图像或视频目标检测过程中目标多尺度语义特征融合时不一致导致的检测精度较低的技术问题,实现步骤为:获取训练样本集K和测试样本集V;构建基于语义特征一致性金字塔网络P的图像目标检测网络S;对基于语义特征一致性金字塔网络P的图像目标检测网络S进行迭代训练;获取目标检测识别结果。本方法在主流RCNN目标检测网络中即插即用,解决了不同层语义特征融合时不一致导致的检测精度较低的技术问题提高了检测精度。
Description
技术领域
本发明属于图像处理中的计算机视觉技术领域,涉及一种基于深度学习的目标检测方法,具体涉及一种基于语义特征一致性监督金字塔网络的目标检测方法,可用于RGB光学图像与视频中的目标检测。
背景技术
随着计算机技术的发展和人工智能时代的到来,计算机视觉领域技术突飞猛进,目标检测技术也取得了突破性的成果。目标检测是计算机视觉领域的核心问题之一,其任务是找出图像中所有感兴趣的目标,确定它们的位置和大小。人脸检测、行人检测、车辆检测等重要目标的检测被广为研究,不仅如此,在安全、交通、医疗等领域目标检测均得到了广泛的应用。因此,为了获得满意的图像物体检测效果,设计相应算法有效地检测图像目标成为一个广泛而基本的问题。
传统的目标检测方法利用手工设计特征,使用与图所包含目标边缘相关的滤波器对规则物体进行滤波,对于单一目标检测,手工设计特征的方法在清晰可见的图像中检测精度显著提升,但此方法在复杂场景下难以准确匹配目标,鲁棒性较差。随着卷积神经网络的发展,基于卷积神经网络的目标检测算法成为主流算法,该算法通过学习大量的标注训练数据的特征来提升模型对特征的识别能力
随着深度卷积网络的发展,基于深度学习的目标检测算法成为研究热点。深度卷积网络可通过学习并融合图像中目标的浅层定位信息与深层语义信息来增强对图像感兴趣区域的激活值,进而对目标的显著特征识别,达到对图像中目标的检测。在基于深度卷积网络的目标检测算法中,设计合理的多尺度特征融合模块对多尺度目标检测非常重要,多尺度特征决定网络具备图像中不同尺度目标进行定位与辨识,特征金字塔可融合出高语义细粒度特征,实现多尺度精准检测的目标。
基于特征金字塔的目标检测方法可以分为基于图像特征融合和基于图像特征精炼的目标检测方法,其中,基于特征精炼的目标检测过程中首先将骨干网络提取的多尺度特征直接融合得到单一尺度特征,再对该特征进行不同尺度的采样分离出相同的特征图,然而由于特征金字塔顶层与底层特征存在较大差距,精炼后采样分离出的特征图依旧未对齐且特征信息损失。
基于特征融合的目标检测将高语义分类特征用于增强底层定位特征,使底层特征同样具有高语义分析信息,提高了检测的精度。例如申请公布号为CN 110084124 A,名称为“基于特征金字塔网络的特征增强目标检测方法”的专利申请,公开了一种基于特征金字塔网络的图像目标检测方法,该方法首先建立基于深度学习神经网络的骨干网络,将骨干网络在ImageNet的分类数据集上进行预训练;然后将待检测图像送入建立的骨干网络提取特征,得到各层特征;在前两步建立的金字塔特征网络模型的基础上增加自顶向下模块、自底向上模块、融合扩展模块;其次对三个模块得到的特征金字塔相同尺寸的对应层特征进行按通道方向做连接操作;最后将对应层特征分别送入目标检测器中。该方法提升了对多尺度目标的检测精度,参数和计算量少。但其存在的不足之处在于,该方法仅考虑图像特征金字塔不同层间相同通道的关系,没有考虑不同层的相同通道特征图所代表的语义特征与上下文属性经过非线性变换发生了改变,从而导致不同层语义特征信息不具备一致性,进而导致多尺度目标的检测精度较低。
发明内容
本发明目的在于针对上述现有技术的不足,提出了一种基于语义特征一致性金字塔网络的图像目标检测方法,用于解决现有技术中存在的因为图像或视频目标检测过程中目标多尺度语义特征融合时不一致导致的检测精度较低的技术问题。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)获取训练样本集K和测试样本集V:
获取目标检测数据集中的多幅大小为W×H的RGB三通道图像,并将其中N幅带有目标类别标签和目标位置坐标的RGB三通道图像作为训练样本集K={k1,k2,...,kn,...,kN},将M幅带有目标类别标签和目标位置坐标的RGB三通道图像作为测试样本集V={v1,v2,...,vm,...,vM},其中,N≥100000,M≥5000,kn表示第n个目标类别标签为目标位置坐标为的训练样本,vm表示第m个目标类别标签为目标位置坐标为的测试样本;
(2)构建基于语义特征一致性金字塔网络P的图像目标检测网络S:
构建包括区域卷积神经网络RCNN和语义特征一致性金字塔网络P的图像目标检测网络S,其中RCNN包括顺次连结的特征提取网络、候选区域生成网络和感兴趣区域分类回归网络;语义特征一致性监督金字塔网络P包括级联的非对称特征对齐侧接网络F和多尺度语义特征扩充网络E,F包括多个对称卷积层F′、多个横向非对称卷积层多个纵向非对称卷积层和多个可变形卷积层多尺度语义特征扩充网络E包括多个并行排布的自适应平均池化层A,以及与每个自适应平均池化层A级联的对称卷积层F″和通道融合层C;语义特征一致性金字塔网络P加载在特征提取网络与候选区域生成网络之间;
(3)对基于语义特征一致性金字塔网络P的图像目标检测网络S进行迭代训练:
(3a)初始化迭代次数为t,最大迭代次数为T,T≥20,当前基于语义特征一致性金字塔网络P的图像目标检测网络为St,并令t=1,St=S;
(3b)将K作为St的输入进行前向推理,特征提取网络对每个训练样本进行多尺度特征提取,得到多尺度原始特征图集X={x1,x2,...,xn,...,xN},其中xn表示第n个训练样本kn对应的特征图子集,表示xn的第j个原始特征图,J≥4;
(3c)语义特征一致性金字塔网络P对X中的特征图子集进行特征融合,得到语义信息一致的融合特征图Y={y1,y2,...,yn,...,yN},yn表示xn对应语义信息一致的融合特征图:
(3d)候选区域生成网络对每个语义信息一致的融合特征图yn进行感兴趣区域位置预测,感兴趣区域分类回归网络对yn的感兴趣区域位置预测结果进行目标分类和位置预测,得到预测结果T={t1,t2,...,tn,...,tN},其中,tn表示yn对应的包括目标类别和位置的预测结果,
(3e)采用反向传播算法,Log损失函数计算感兴趣区域分类回归网络分类预测结果与训练样本的目标类别标签为的分类误差,Smooth L1损失函数计算感兴趣区域分类回归网络位置预测结果与训练样本的目标位置坐标为的回归误差,采用随机梯度下降法降低分类误差与回归误差,对S中卷积核参数ωt、各全连接层节点之间的参数υt进行更新,得到更新后的St;
(3f)判断t=T是否成立,若是,得到训练好基于语义特征一致性金字塔网络P的图像目标检测网络S*,否则,令t=t+1,并执行步骤(3b);
(4)获取目标检测识别结果:
将V中的测试样本作为训练好语义特征一致性金字塔网络P的图像目标检测网络S*的输入进行目标检测与识别,得到目标分类与位置的预测结果。
与现有技术相比,本发明具有以下优点:
本发明构建包括区域卷积神经网络RCNN和语义特征一致性金字塔网络P的图像目标检测网络S,其中RCNN包括顺次连结的特征提取网络、候选区域生成网络和感兴趣区域分类回归网络;语义特征一致性监督金字塔网络P包括级联的非对称特征对齐侧接网络F和多尺度语义特征扩充网络E,语义特征一致性金字塔网络P加载在特征提取网络与候选区域生成网络之间,语义特征一致性金字塔网络P采用的非对称特征对齐侧接网络F增强了各层特征图之间语义的一致性,并利用多尺度语义特征扩充网络E提升低层特征图的语义信息,显著提高了检测精度,并且只引入少量的参数和计算量,可在区域卷积神经网络RCNN中即插即用,具有灵活性和高效性。
附图说明
图1是本发明的实现流程图。
图2是本发明采用的语义特征一致性金字塔网络的结构示意及融合原理图。
具体实施方式
下面结合附图和具体实施例,对本发明作进一步详细描述:
参照图1,本发明包括如下步骤:
步骤1)获取训练样本集K和测试样本集V:
获取目标检测数据集中的多幅大小为W×H的RGB三通道图像,并将其中N幅带有目标类别标签和目标位置坐标的RGB三通道图像作为训练样本集K={k1,k2,...,kn,...,kN},将M幅带有目标类别标签和目标位置坐标的RGB三通道图像作为测试样本集V={v1,v2,...,vm,...,vM},其中,N≥100000,M≥5000,kn表示第n个目标类别标签为目标位置坐标为的训练样本,vm表示第m个目标类别标签为目标位置坐标为的测试样本,训练样本集和测试样本集也可为视频,本实施例中,N=117280,M=5000,W=1333,H=800;
步骤2)构建基于语义特征一致性金字塔网络P的图像目标检测网络S:
构建包括区域卷积神经网络RCNN和语义特征一致性金字塔网络P的图像目标检测网络S,其中:
区域卷积神经网络RCNN,包括顺次连结的特征提取网络、候选区域生成网络和感兴趣区域分类回归网络,其中:
特征提取网络,其包含数个依次连接的残差单元,每个残差单元包含三个依次层叠的对称卷积层,卷积核大小依次为3×3、1×1、3×3,卷积核数量大于64,卷积核步长为1;
候选区域生成网络,其包含一个融合卷积层、前背景分类卷积层、锚点位置卷积回归层,融合卷积层的卷积核大小为3×3,卷积核数量为512,卷积核步长为1,前背景分类卷积层的卷积核大小为1×1,卷积核数量为3,卷积核步长为1,锚点位置卷积回归层的卷积核大小为1×1,卷积核数量为12,卷积核步长为1;
感兴趣区域分类回归网络,其中包含感兴趣区域分类层和感兴趣区域位置回归层,感兴趣区域分类的卷积核大小为3×3,卷积核数量为81,卷积核步长为1,卷积核大小为3×3,卷积核数量为4,卷积核步长为1;
语义特征一致性监督金字塔网络P,其结构如图2所示,包括级联的非对称特征对齐侧接网络F和多尺度语义特征扩充网络E,F包括多个对称卷积层F′、多个横向非对称卷积层多个纵向非对称卷积层和多个可变形卷积层多尺度语义特征扩充网络E包括多个并行排布的自适应平均池化层A,以及与每个自适应平均池化层A级联的对称卷积层F″和通道融合层C,其中:
非对称特征对齐侧接网络F,其中包含对称卷积层F′的卷积核大小为3×3,卷积核数量为256,卷积核步长为1;横向非对称卷积层的卷积核大小1×3,卷积核数量为256,卷积核步长为1;纵向非对称卷积层的卷积核大小3×1,卷积核数量为256,卷积核步长为1;可变形卷积层的卷积核大小为3×3,卷积核数量为256,卷积核步长为1;
多尺度语义特征扩充网络E,其中包含自适应平均池化层A池化区域随设定输入的输出大小变化,步长为池化区域大小;对称卷积层F″的卷积核大小为3×3,卷积核数量为256,卷积核步长为1;通道融合层C为卷积核大小为1×1,卷积核数量为256,卷积核步长为1。
非对称特征对齐侧接网络F通过可变形卷积将不同尺度的目标图进行特征对齐,增强了各层特征图之间语义的一致性,多尺度语义特征扩充网络E通过顶层特征图的高语义信息提升低层特征图的语义信息,使融合后的特征图富含负责定位的低层位置信息与高层分类语义信息。
语义特征一致性金字塔网络P加载在特征提取网络与候选区域生成网络之间。
步骤3)对基于语义特征一致性金字塔网络P的图像目标检测网络S进行迭代训练:
(3a)初始化迭代次数为t,最大迭代次数为T,T≥20,在本实施例中,T=30,当前基于语义特征一致性金字塔网络P的图像目标检测网络为St,并令t=1,St=S;
(3b)将K作为St的输入进行前向推理,特征提取网络对每个训练样本进行多尺度特征提取,得到多尺度原始特征图集X={x1,x2,...,xn,...,xN},其中xn表示第n个训练样本kn对应的特征图子集,表示xn的第j个原始特征图,J≥4,在本实施例中,J=4;
(3c)语义特征一致性金字塔网络P对X中的特征图子集进行特征融合,其融合原理如图2所示,得到语义信息一致的融合特征图Y={y1,y2,...,yn,...,yN},yn表示xn对应语义信息一致的融合特征图:
语义特征一致性金字塔网络P融合后的特征图yn相比于原始特征图集富含更多高层语义信息,使网络对目标的类别判定更加准确,特征图语义特征一致性强,使网络对目标的定位更加精确。
(3d)候选区域生成网络对每个语义信息一致的融合特征图yn进行感兴趣区域位置预测,感兴趣区域分类回归网络对yn的感兴趣区域位置预测结果进行目标分类和位置预测,得到预测结果T={t1,t2,...,tn,...,tN},其中,tn表示yn对应的包括目标类别和位置的预测结果,
(3e)采用反向传播算法,Log损失函数计算感兴趣区域分类回归网络分类预测结果与训练样本的目标类别标签为的分类误差,Smooth L1损失函数计算感兴趣区域分类回归网络位置预测结果与训练样本的目标位置坐标为的回归误差,损失函数公式为:
采用随机梯度下降法降低分类误差与回归误差,对S中卷积核参数ωt、各全连接层节点之间的参数υt进行更新,得到更新后的St,更新公式为:
(3f)判断t=T是否成立,若是,得到训练好基于语义特征一致性金字塔网络P的图像目标检测网络S*,否则,令t=t+1,并执行步骤(3b);
步骤4)获取目标检测识别结果:
将V中的测试样本作为训练好语义特征一致性金字塔网络P的图像目标检测网络S*的输入进行目标检测与识别,得到目标分类与位置的预测结果。
下面结合仿真实验对本发明的效果作进一步的描述:
1.仿真实验条件:
仿真实验的硬件测试平台是:Intel(R)Xeon(R)Silver 4114CPU,主频为2.20GHz,内存192GB,GPU为4路NVIDIA Tesla V100 32GB。
仿真实验的软件平台是:Ubuntu 16.04.6LTS操作系统、编程语言Python 3.8、深度学习框架PyTorch 1.6。
2.仿真内容及其结果分析:
本发明的仿真实验是采用本发明的方法,从Tsung-Yi Lin等人在其发表的论文“Microsoft COCO:Common Objects in Context”中下载Microsoft COCO图像数据集,该数据集为大规模标注数据集,包含目标检测、图像实例分割、图像全景分割、图像关键点检测等任务,见https://cocodataset.org/#home。所有类别的平均精确度mAP(mean AveragePrecision)是衡量目标检测模型针对多尺度多类别目标检测效能的指标,包含:AP、AP50、AP75、AP small、AP medium、AP Large、AR,见https://cocodataset.org/#detection-eval。本发明所使用训练集与测试集图像输入尺寸为1333×800。
本发明的仿真实验分别以ResNet50、ResNet101、ResNeXt101作为特征提取网络,构建包括区域卷积神经网络RCNN和语义特征一致性金字塔网络P的图像目标检测网络S,其中RCNN包括顺次连结的特征提取网络、候选区域生成网络和感兴趣区域分类回归网络;语义特征一致性监督金字塔网络P包括级联的非对称特征对齐侧接网络F和多尺度语义特征扩充网络E,语义特征一致性金字塔网络P加载在特征提取网络与候选区域生成网络之间。
本发明的仿真实验结果如下表:
表1基于语义特征的一致性监督金字塔网络的目标检测平均准确率
结合表1可以看出,在Microsoft COCO图像数据集上测试,使用Faster R-CNN方法,选择ResNet50作为特征提取网络,学习率调整一次,在测试集上AP指标值为39.6%,相较于基线方法提升6.1%,选择ResNet101作为特征提取网络,学习率调整一次,在测试集上AP指标值为41.0%,相较于基线方法提升2.8%,选择ResNext-101-32x4d作为特征提取网络,学习率调整一次,在测试集上AP指标值为42.8%,相较于基线方法提升1.4%。
Claims (4)
1.一种基于语义特征一致性金字塔网络的图像目标检测方法,其特征在于包括如下步骤:
(1)获取训练样本集K和测试样本集V:
获取目标检测数据集中的多幅大小为W×H的RGB三通道图像,并将其中N幅带有目标类别标签和目标位置坐标的RGB三通道图像作为训练样本集K={k1,k2,...,kn,...,kN},将M幅带有目标类别标签和目标位置坐标的RGB三通道图像作为测试样本集V={v1,v2,...,vm,...,vM},其中,N≥100000,M≥5000,kn表示第n个目标类别标签为目标位置坐标为的训练样本,vm表示第m个目标类别标签为目标位置坐标为的测试样本;
(2)构建基于语义特征一致性金字塔网络P的图像目标检测网络S:
构建包括区域卷积神经网络RCNN和语义特征一致性金字塔网络P的图像目标检测网络S,其中RCNN包括顺次连结的特征提取网络、候选区域生成网络和感兴趣区域分类回归网络;语义特征一致性监督金字塔网络P包括级联的非对称特征对齐侧接网络F和多尺度语义特征扩充网络E,F包括多个对称卷积层F′、多个横向非对称卷积层多个纵向非对称卷积层和多个可变形卷积层多尺度语义特征扩充网络E包括多个并行排布的自适应平均池化层A,以及与每个自适应平均池化层A级联的对称卷积层F″和通道融合层C;语义特征一致性金字塔网络P加载在特征提取网络与候选区域生成网络之间;
(3)对基于语义特征一致性金字塔网络P的图像目标检测网络S进行迭代训练:
(3a)初始化迭代次数为t,最大迭代次数为T,T≥20,当前基于语义特征一致性金字塔网络P的图像目标检测网络为St,并令t=1,St=S;
(3b)将K作为St的输入进行前向推理,特征提取网络对每个训练样本进行多尺度特征提取,得到多尺度原始特征图集X={x1,x2,...,xn,...,xN},其中xn表示第n个训练样本kn对应的特征图子集, 表示xn的第j个原始特征图,J≥4;
(3c)语义特征一致性金字塔网络P对X中的特征图子集进行特征融合,得到语义信息一致的融合特征图Y={y1,y2,...,yn,...,yN},yn表示xn对应语义信息一致的融合特征图:
(3d)候选区域生成网络对每个语义信息一致的融合特征图yn进行感兴趣区域位置预测,感兴趣区域分类回归网络对yn的感兴趣区域位置预测结果进行目标分类和位置预测,得到预测结果T={t1,t2,...,tn,...,tN},其中,tn表示yn对应的包括目标类别和位置的预测结果,
(3e)采用反向传播算法,Log损失函数计算感兴趣区域分类回归网络分类预测结果与训练样本的目标类别标签为的分类误差,Smooth L1损失函数计算感兴趣区域分类回归网络位置预测结果与训练样本的目标位置坐标为的回归误差,采用随机梯度下降法降低分类误差与回归误差,对S中卷积核参数ωt、各全连接层节点之间的参数υt进行更新,得到更新后的St;
(3f)判断t=T是否成立,若是,得到训练好基于语义特征一致性金字塔网络P的图像目标检测网络S*,否则,令t=t+1,并执行步骤(3b);
(4)获取目标检测识别结果:
将V中的测试样本作为训练好语义特征一致性金字塔网络P的图像目标检测网络S*的输入进行目标检测与识别,得到目标分类与位置的预测结果。
2.根据权利要求1所述的基于语义特征一致性金字塔网络P的图像目标检测识别方法,其特征在于,步骤(2)中所述的区域卷积神经网络RCNN和语义特征一致性金字塔网络P,其中:
区域卷积神经网络RCNN:
特征提取网络,其包含数个依次连接的残差单元,每个残差单元包含三个依次层叠的对称卷积层,卷积核大小依次为3×3、1×1、3×3,卷积核数量大于64,卷积核步长为1。
候选区域生成网络,其包含一个融合卷积层、前背景分类卷积层、锚点位置卷积回归层,融合卷积层的卷积核大小为3×3,卷积核数量为512,卷积核步长为1,前背景分类卷积层的卷积核大小为1×1,卷积核数量为3,卷积核步长为1,锚点位置卷积回归层的卷积核大小为1×1,卷积核数量为12,卷积核步长为1;
感兴趣区域分类回归网络,其中包含感兴趣区域分类层和感兴趣区域位置回归层,感兴趣区域分类的卷积核大小为3×3,卷积核数量为81,卷积核步长为1,卷积核大小为3×3,卷积核数量为4,卷积核步长为1;
语义特征一致性金字塔网络P:
非对称特征对齐侧接网络F,其中包含对称卷积层F′的卷积核大小为3×3,卷积核数量为256,卷积核步长为1;横向非对称卷积层的卷积核大小1×3,卷积核数量为256,卷积核步长为1;纵向非对称卷积层的卷积核大小3×1,卷积核数量为256,卷积核步长为1;可变形卷积层的卷积核大小为3×3,卷积核数量为256,卷积核步长为1;
多尺度语义特征扩充网络E,其中包含自适应平均池化层A池化区域随设定输入的输出大小变化,步长为池化区域大小;对称卷积层F″的卷积核大小为3×3,卷积核数量为256,卷积核步长为1;通道融合层C为卷积核大小为1×1,卷积核数量为256,卷积核步长为1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011458846.1A CN112529005B (zh) | 2020-12-11 | 2020-12-11 | 基于语义特征一致性监督金字塔网络的目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011458846.1A CN112529005B (zh) | 2020-12-11 | 2020-12-11 | 基于语义特征一致性监督金字塔网络的目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112529005A true CN112529005A (zh) | 2021-03-19 |
CN112529005B CN112529005B (zh) | 2022-12-06 |
Family
ID=74999115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011458846.1A Active CN112529005B (zh) | 2020-12-11 | 2020-12-11 | 基于语义特征一致性监督金字塔网络的目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112529005B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076926A (zh) * | 2021-04-25 | 2021-07-06 | 华南理工大学 | 一种带语义引导的多尺度目标检测方法及系统 |
CN114170230A (zh) * | 2022-02-14 | 2022-03-11 | 清华大学 | 基于可变形卷积与特征融合的玻璃缺陷检测方法与装置 |
CN114782863A (zh) * | 2022-04-07 | 2022-07-22 | 中国科学院宁波材料技术与工程研究所 | 基于i-p帧特征融合的视频目标检测方法 |
CN115205855A (zh) * | 2022-07-08 | 2022-10-18 | 中国人民解放军国防科技大学 | 融合多尺度语义信息的车辆目标识别方法、装置及设备 |
CN115294552A (zh) * | 2022-08-08 | 2022-11-04 | 腾讯科技(深圳)有限公司 | 一种杆状物识别方法、装置、设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180137642A1 (en) * | 2016-11-15 | 2018-05-17 | Magic Leap, Inc. | Deep learning system for cuboid detection |
US20180260956A1 (en) * | 2017-03-10 | 2018-09-13 | TuSimple | System and method for semantic segmentation using hybrid dilated convolution (hdc) |
EP3391290A1 (en) * | 2015-12-16 | 2018-10-24 | Intel Corporation | Fully convolutional pyramid networks for pedestrian detection |
CN110264466A (zh) * | 2019-06-28 | 2019-09-20 | 广州市颐创信息科技有限公司 | 一种基于深度卷积神经网络的钢筋检测方法 |
CN110909642A (zh) * | 2019-11-13 | 2020-03-24 | 南京理工大学 | 一种基于多尺度语义特征融合的遥感图像目标检测方法 |
CN111274980A (zh) * | 2020-01-23 | 2020-06-12 | 天津大学 | 基于yolov3和非对称卷积的小尺寸交通标志识别方法 |
CN111432207A (zh) * | 2020-03-30 | 2020-07-17 | 北京航空航天大学 | 基于显著目标检测和显著性指导的感知高清视频编码方法 |
CN111652216A (zh) * | 2020-06-03 | 2020-09-11 | 北京工商大学 | 基于度量学习的多尺度目标检测模型方法 |
CN111680655A (zh) * | 2020-06-15 | 2020-09-18 | 深延科技(北京)有限公司 | 一种面向无人机航拍影像的视频目标检测方法 |
CN111738110A (zh) * | 2020-06-10 | 2020-10-02 | 杭州电子科技大学 | 基于多尺度注意力机制的遥感图像车辆目标检测方法 |
CN111767944A (zh) * | 2020-05-27 | 2020-10-13 | 重庆大学 | 一种基于深度学习的适用于多尺度目标检测的单阶段检测器设计方法 |
CN112052893A (zh) * | 2020-09-01 | 2020-12-08 | 西安电子科技大学 | 基于生成对抗网络的半监督图像分类方法 |
-
2020
- 2020-12-11 CN CN202011458846.1A patent/CN112529005B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3391290A1 (en) * | 2015-12-16 | 2018-10-24 | Intel Corporation | Fully convolutional pyramid networks for pedestrian detection |
US20180137642A1 (en) * | 2016-11-15 | 2018-05-17 | Magic Leap, Inc. | Deep learning system for cuboid detection |
US20180260956A1 (en) * | 2017-03-10 | 2018-09-13 | TuSimple | System and method for semantic segmentation using hybrid dilated convolution (hdc) |
CN110264466A (zh) * | 2019-06-28 | 2019-09-20 | 广州市颐创信息科技有限公司 | 一种基于深度卷积神经网络的钢筋检测方法 |
CN110909642A (zh) * | 2019-11-13 | 2020-03-24 | 南京理工大学 | 一种基于多尺度语义特征融合的遥感图像目标检测方法 |
CN111274980A (zh) * | 2020-01-23 | 2020-06-12 | 天津大学 | 基于yolov3和非对称卷积的小尺寸交通标志识别方法 |
CN111432207A (zh) * | 2020-03-30 | 2020-07-17 | 北京航空航天大学 | 基于显著目标检测和显著性指导的感知高清视频编码方法 |
CN111767944A (zh) * | 2020-05-27 | 2020-10-13 | 重庆大学 | 一种基于深度学习的适用于多尺度目标检测的单阶段检测器设计方法 |
CN111652216A (zh) * | 2020-06-03 | 2020-09-11 | 北京工商大学 | 基于度量学习的多尺度目标检测模型方法 |
CN111738110A (zh) * | 2020-06-10 | 2020-10-02 | 杭州电子科技大学 | 基于多尺度注意力机制的遥感图像车辆目标检测方法 |
CN111680655A (zh) * | 2020-06-15 | 2020-09-18 | 深延科技(北京)有限公司 | 一种面向无人机航拍影像的视频目标检测方法 |
CN112052893A (zh) * | 2020-09-01 | 2020-12-08 | 西安电子科技大学 | 基于生成对抗网络的半监督图像分类方法 |
Non-Patent Citations (4)
Title |
---|
CHAOYUE CHEN ET AL: "Object Detection in Remote Sensing Images Based on a Scene-Contextual Feature Pyramid Network", 《REMOTE SENSING》 * |
XIAODONG ZHANG ET AL: "Geospatial Object Detection on High Resolution Remote Sensing Imagery Based on Double Multi-Scale Feature Pyramid Network", 《REMOTE SENSING》 * |
张友康 等: "X光安检图像多尺度违禁品检测", 《信号处理》 * |
胡昌华 等: "基于深度卷积神经网络的SAR 图像舰船小目标检测", 《中国惯性技术学报》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076926A (zh) * | 2021-04-25 | 2021-07-06 | 华南理工大学 | 一种带语义引导的多尺度目标检测方法及系统 |
CN114170230A (zh) * | 2022-02-14 | 2022-03-11 | 清华大学 | 基于可变形卷积与特征融合的玻璃缺陷检测方法与装置 |
CN114170230B (zh) * | 2022-02-14 | 2022-04-29 | 清华大学 | 基于可变形卷积与特征融合的玻璃缺陷检测方法与装置 |
CN114782863A (zh) * | 2022-04-07 | 2022-07-22 | 中国科学院宁波材料技术与工程研究所 | 基于i-p帧特征融合的视频目标检测方法 |
CN114782863B (zh) * | 2022-04-07 | 2023-12-19 | 中国科学院宁波材料技术与工程研究所 | 基于i-p帧特征融合的视频目标检测方法 |
CN115205855A (zh) * | 2022-07-08 | 2022-10-18 | 中国人民解放军国防科技大学 | 融合多尺度语义信息的车辆目标识别方法、装置及设备 |
CN115205855B (zh) * | 2022-07-08 | 2023-10-27 | 中国人民解放军国防科技大学 | 融合多尺度语义信息的车辆目标识别方法、装置及设备 |
CN115294552A (zh) * | 2022-08-08 | 2022-11-04 | 腾讯科技(深圳)有限公司 | 一种杆状物识别方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112529005B (zh) | 2022-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112529005B (zh) | 基于语义特征一致性监督金字塔网络的目标检测方法 | |
Ali et al. | Structural crack detection using deep convolutional neural networks | |
Xing et al. | A convolutional neural network-based method for workpiece surface defect detection | |
Zhou et al. | Split depth-wise separable graph-convolution network for road extraction in complex environments from high-resolution remote-sensing images | |
Roy et al. | DenseSPH-YOLOv5: An automated damage detection model based on DenseNet and Swin-Transformer prediction head-enabled YOLOv5 with attention mechanism | |
CN108764292B (zh) | 基于弱监督信息的深度学习图像目标映射及定位方法 | |
Deng et al. | Vision based pixel-level bridge structural damage detection using a link ASPP network | |
CN113486981B (zh) | 基于多尺度特征注意力融合网络的rgb图像分类方法 | |
CN114202672A (zh) | 一种基于注意力机制的小目标检测方法 | |
CN109086811B (zh) | 多标签图像分类方法、装置及电子设备 | |
CN108171112A (zh) | 基于卷积神经网络的车辆识别与跟踪方法 | |
CN108764308A (zh) | 一种基于卷积循环网络的行人重识别方法 | |
CN108846404B (zh) | 一种基于相关约束图排序的图像显著性检测方法及装置 | |
Cepni et al. | Vehicle detection using different deep learning algorithms from image sequence | |
CN111985325A (zh) | 特高压环境评价中的航拍小目标快速识别方法 | |
CN111680678A (zh) | 目标区域识别方法、装置、设备及可读存储介质 | |
Xing et al. | Traffic sign recognition using guided image filtering | |
CN113221770B (zh) | 基于多特征混合学习的跨域行人重识别方法及系统 | |
Li et al. | Transformer helps identify kiwifruit diseases in complex natural environments | |
CN108133235A (zh) | 一种基于神经网络多尺度特征图的行人检测方法 | |
Tian et al. | Object localization via evaluation multi-task learning | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
US20230095533A1 (en) | Enriched and discriminative convolutional neural network features for pedestrian re-identification and trajectory modeling | |
CN111598155A (zh) | 一种基于深度学习的细粒度图像弱监督目标定位方法 | |
Dong et al. | Multi-scale discriminative location-aware network for few-shot semantic segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |