CN111598107B - 一种基于特征动态选择的多任务联合检测方法 - Google Patents

一种基于特征动态选择的多任务联合检测方法 Download PDF

Info

Publication number
CN111598107B
CN111598107B CN202010303705.6A CN202010303705A CN111598107B CN 111598107 B CN111598107 B CN 111598107B CN 202010303705 A CN202010303705 A CN 202010303705A CN 111598107 B CN111598107 B CN 111598107B
Authority
CN
China
Prior art keywords
task
detection
image
different
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010303705.6A
Other languages
English (en)
Other versions
CN111598107A (zh
Inventor
刘姜江
程明明
侯淇彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN202010303705.6A priority Critical patent/CN111598107B/zh
Publication of CN111598107A publication Critical patent/CN111598107A/zh
Application granted granted Critical
Publication of CN111598107B publication Critical patent/CN111598107B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于特征动态选择的多任务联合检测方法,属于图像处理技术领域。大多数现有的检测模型都是每个不同的任务独立设计一个不同的模型来分别进行处理,需要花费大量的人工精力。本发明创造性地提出一种基于特征动态选择的多任务联合检测模型,该模型能够根据不同任务的特点自适应且动态地从共享的特征集合中选择各任务合适的特征;此外,该模型能够能够被端到端的训练,并且能够一次计算同时输出得到待检测图像的显著性物体检测结果图像、边缘检测结果图像以及骨架检测结果图像。本方法在一个网络模型中同时并且快速地完成了三种不同的图像处理任务,此方法具有结构简单、参数量小和运行速度快的优点,并且具有良好的检测准确率。

Description

一种基于特征动态选择的多任务联合检测方法
技术领域
本发明属于图像处理技术领域,特别涉及到一种基于特征动态选择的多任务联合检测方法。
背景技术
显著性物体检测、边缘检测和骨架检测这三类问题在图像处理技术领域有着重要的研究和应用价值,例如在无人驾驶、机器人导航、目标分割等众多高科技领域均发挥着不可替代的作用。之前的大部分方法都是针对上述问题中的某一个特定问题而专门设计一个深度网络结构,独立地完成这三类检测任务,并且对应于某一类的任务的方法不能在其它类型的方法上发挥效果,这极大提高了此类方法的研发和应用成本,降低了实际应用意义。
对于显著性物体检测,Xi Li等人于2016年提出的方法“Li X,Zhao L,Wei L,etal.DeepSaliency:Multi-task deep neural network model for salient objectdetection[J].IEEE Transactions on Image Processing,2016,25(8):3919-3930.”采用了一种多任务监督的深度网络结构来解决此任务。此方法对深度网络结构进行了大幅修改,且只能应用于显著性物体检测;对于边缘检测,Saining Xie等人于2015年提出了“XieS,Tu Z.Holistically-nested edge detection[C]//Proceedings of the IEEEinternational conference on computer vision.2015:1395-1403.”方法,此方法在深度网络结构中的每一层都加上强监督,一次来得到更精细的边缘信息;对于骨架提取,Wei Ke等人于2017年提出了“Ke W,Chen J,Jiao J,et al.SRN:Side-output Residual Networkfor Object Symmetry Detection in the Wild[J].arXiv preprint arXiv:1703.02243,2017.”,此方法对深度网络结构的多个侧输出上进行了监督学习,并加入了跳层连接来适应骨架提取任务。
上述三种方法都是针对特定的问题而分别设计了一种复杂的网络结构以专门解决此类问题,这些网络结构并不能够被运用到其他类别的任务,研究投入巨大的同时实际使用成本也较高。
此外,名称为“基于新型神经网络的多任务场景语义理解模型及其应用”的201710453745.7号专利申请中提出的网络模型的应用场景为富含具体物体类别信息的语义分割任务,不适合解决一些不关注物体类别信息的低层计算机视觉任务。
名称为“一种基于深度神经网络的多任务语音分类方法”的201710801016.6号专利申请中的多任务方法的领域为语音处理,数据输入类型为一维语音信息,不能解决二维图像信息相关的问题。
发明内容
本发明需要解决的技术问题是,针对已有的显著性物体检测方法、边缘检测方法以及骨架检测方法分别需要设计三种不同的模型,且这三种模型之间的差异明显,因此不能够被运用到其他类别检测任务的问题。这些限制提高了深度网络的应用要求和难度。为此提出了一种基于特征动态选择的多任务联合检测方法,该方法开发了一种新的统一的深度网络模型,能够同时实现显著性物体检测、边缘检测和骨架检测三种不同类别的图像检测功能。这样一个统一的深度网络模型能够大大减少深度网络的推广和量产成本。
本发明的采用的技术方案是:
一种基于特征动态选择的多任务联合检测方法,该方法能够根据不同任务的特点自适应且动态地从共享的特征集合中选择各任务所需的特征,端到端的完成训练并通过一次计算同时输出得到待检测图像的显著性物体检测结果图像、边缘检测结果图像以及骨架检测结果图像,具体包含如下步骤:
第1步、利用任一一个已知架构的CNN网络,输入待检测的RGB图像并提取5个不同层级的特征集合;
第2步、将第1步提取得到的5个不同层级的特征集合进行合并(concatenate)操作,然后将合并后的特征分别插值为具有4个不同下采样率尺寸的特征集合;
第3步、将第2步得到的4个不同下采样率尺寸的特征集合分别经过一个特征动态选择模块后获得适合各个待解决任务的选择性融合后的特征:包括待检测图像的显著性物体检测、边缘检测以及骨架检测共3个待解决任务,每个任务各4个不同下采样率尺寸的特征集合;
所述的特征动态选择模块包括一个共享的全局池化操作和3个独立的全连接操作;
第4步、对于每个任务,分别将第3步得到的该任务的4个不同下采样率尺寸的特征集合上采样到原输入图像的尺寸,再进行像素级别的相加,并经过一个卷积层后生成对应任务最终的预测结果图。
本发明的有益效果为:本发明通过动态选择共享特征集合中的特征并加以组合,能够极大减少监测模型的参数量并兼顾各个任务的特点。通过多任务协同学习也可以达到对各检测任务的学习起到相互促进的作用。本方法通过将特征动态选择这一学习策略广泛地结合到原有的检测模型中,在减少检测模型参数量的同时提升了检测速度,并且保持了各任务良好的检测效果。以多任务协同学习的形式,本方法能够同时完成显著性物体检测、边缘检测和骨架检测三种不同的任务,并且保证了三种检测任务的良好检测效果。在拥有单个NVIDIA RTX2080Ti显卡的服务器上,本方法可以以约40FPS的速度运行。
附图说明
图1为基于特征动态选择的多任务联合检测方法的流程图。
图2为基于特征动态选择的多任务联合检测方法的一个实施方案的整体结构示意图。
图3为基于特征动态选择的多任务联合检测方法的一个实施方案的特征动态选择模块结构示意图。
图4为基于特征动态选择的多任务联合检测方法的一个实施方案的网络模型训练过程示意图。
具体实施方式
下面结合附图和一个示例实施方案的具体实施方式对本发明作进一步详细的说明。
示例性实施例:
参照图1,表示基于特征动态选择的多任务联合检测方法的流程图,图中表示的步骤为:接收待检测的图像;将所述待检测图像输入至目标检测模型(一个示例性实施例如图2所示)中,同时输出待检测图像的显著性检测结果、边缘检测结果和骨架检测结果。
参照图2,表示基于特征动态选择的多任务联合检测方法的一个实施方案的整体结构示意图,显著性物体检测、边缘检测和骨架检测三类检测任务在这个模型下同时完成,具体而言:
其中的黑色空心矩形表示深度网络中的卷积层和激活层的序列组合;黑色斜线填充圆角矩形为本方法引入的特征动态选择模块(一个示例性实施例如图3所示);黑色斜线填充矩形表示各任务的预测层,为卷积层;黑色箭头和黑色实线表示卷积层和卷积层之间、卷积层和激活层、卷积层和池化层、其他深度网络层与层之间的必要连接。方法中的深度网络的特征提取部分(图2中左侧的一列黑色空心矩形)可以为VGGNet、ResNet、GoogleNet等常见的深度网络模型,本模型使用的损失函数为多元损失函数(交叉熵)。
实施方案的具体实施步骤如下:
1.利用ResNet-50 CNN网络,输入待检测的RGB图像并提取5个不同层级的特征集合即{fi;i=1,2,...,5};
2.将第1步提取得到的5个不同层级的特征集合进行合并(concatenate)操作得到合并后的特征Fc,然后将Fc分别插值为具有4个不同下采样率尺寸的特征集合即
Figure BDA0002454982950000041
3.将第2步得到的4个不同下采样率尺寸的特征集合
Figure BDA0002454982950000042
分别经过一个特征动态选择模块后获得适合各个待解决任务的选择性融合后的特征
Figure BDA0002454982950000043
包括待检测图像的显著性物体检测、边缘检测以及骨架检测共3个待解决任务,每个任务各4个不同下采样率尺寸的特征集合;
其中,参照图3,表示基于特征动态选择的多任务联合检测方法的一个实施方案的特征动态选择模块结构示意图,其中包括了一个全局平均池化层和三个全连接层用来自动学习各任务对共享特征集合中的不同特征的选择权重。
Figure BDA0002454982950000044
输入到第i个特征自动选择模块中,通过全局池化后得到一维特征向量
Figure BDA0002454982950000045
此向量再分别通过三个独立的全连接层后分别得到三个长度为5的概率系数
Figure BDA0002454982950000046
对应于特征集合
Figure BDA0002454982950000047
中的5个不同层级的特征。
最后,将得到的概率系数作为权重与对应的特征集合相乘得到每个特征动态选择模块的输出:
Figure BDA0002454982950000048
4.对于每个任务,分别将第3步得到的该任务的4个不同下采样率尺寸的特征集合上采样到原输入图像的尺寸,再进行像素级别的相加,并经过一个卷积层后生成对应任务最终的预测结果图。
Figure BDA0002454982950000049
参照图4,表示基于特征动态选择的多任务联合检测方法的一个实施方案的网络模型训练过程示意图,其中显著性检测任务的训练图片、边缘检测任务的训练图片和骨架检测任务的训练图片交替输入,经过N次前向传播和反向传播来累计梯度后,再更新梯度和网络参数。
5.本发明的效果通过以下仿真实验进一步说明:
表1展示了本发明在ECSSD、PASCAL-S、DUT-OMRON、HKU-IS、SOD、DUTS-TE六个显著性物体检测数据集上与其他14个显著性检测方法的对比实验。该实验采用Max Fmeasure(Fβ)、MAE、和S-measure(Sm)三个评价指标来全面评估该方法。结果显示,本发明的性能超过所有已经发表的最新显著性物体检测方法结果。
表1
Figure BDA0002454982950000051
表2展示了本发明在BSDS-500边缘检测数据集上与其他13个边缘检测方法的对比实验。该实验采用ODS和OIS两个评价指标来全面评估该方法。结果显示,本发明的性能超过所有已经发表的最新边缘检测方法结果。
表2
Figure BDA0002454982950000052
表3展示了本发明在SK-LARGE和SYM-PASCAL两个骨架检测数据集上与其他9个骨架检测方法的对比实验。该实验采用F-measure评价指标来全面评估该方法。结果显示,本发明的性能超过所有已经发表的最新骨架检测方法结果。
表3
Figure BDA0002454982950000061
值得注意的是,本方法所得到的三种类型的检测结果为同一个模型同时输出。由于没有其他方法可以同时得到本发明提到的此三种类型的检测结果,表1、2、3中的结果选取了各类型检测任务对应领域的最新的单任务方法作为对比。
本实例没有详细说明的部分属于本领域公共所知的常识,这里不一一赘述。
以上对本发明所述的一种基于特征动态选择的多任务联合检测方法进行了详细介绍,本文中应用了具体实施例对本发明的原理及实施方式进行了阐述;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,本说明书内容不应理解为对本发明的限制,凡是和本发明相似或相同的设计均属于本发明的保护范围。

Claims (3)

1.一种基于特征动态选择的多任务联合检测方法,其特征在于该方法能够根据不同任务的特点自适应且动态地从共享的特征集合中选择各任务所需的特征,端到端的完成训练并通过一次计算同时输出得到待检测图像的显著性物体检测结果图像、边缘检测结果图像以及骨架检测结果图像,包含如下步骤:
第1步、利用任意一个已知架构的CNN网络,输入待检测的RGB图像并提取5个不同层级的特征集合;
第2步、将第1步提取得到的5个不同层级的特征集合进行合并(concatenate)操作,然后将合并后的特征分别插值为具有4个不同下采样率尺寸的特征集合;
第3步、将第2步得到的4个不同下采样率尺寸的特征集合分别经过一个特征动态选择模块后获得适合各个待解决任务的选择性融合后的特征:包括待检测图像的显著性物体检测、边缘检测以及骨架检测共3个待解决任务,每个任务各4个不同下采样率尺寸的特征集合;
第4步、对于每个任务,分别将第3步得到的该任务的4个不同下采样率尺寸的特征集合上采样到原输入图像的尺寸,再进行像素级别的相加,并经过一个卷积层后生成对应任务最终的预测结果图。
2.根据权利要求1所述的方法,其特征在于:第3步描述的特征动态选择模块包括一个共享的全局池化操作和3个独立的全连接操作。
3.根据权利要求1所述的方法,其特征在于:在第1至4步的训练阶段,通过交替输入显著性物体检测的训练图片、边缘检测的训练图片以及骨架检测的训练图片来实现网络模型的端到端训练和部署。
CN202010303705.6A 2020-04-17 2020-04-17 一种基于特征动态选择的多任务联合检测方法 Active CN111598107B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010303705.6A CN111598107B (zh) 2020-04-17 2020-04-17 一种基于特征动态选择的多任务联合检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010303705.6A CN111598107B (zh) 2020-04-17 2020-04-17 一种基于特征动态选择的多任务联合检测方法

Publications (2)

Publication Number Publication Date
CN111598107A CN111598107A (zh) 2020-08-28
CN111598107B true CN111598107B (zh) 2022-06-14

Family

ID=72190287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010303705.6A Active CN111598107B (zh) 2020-04-17 2020-04-17 一种基于特征动态选择的多任务联合检测方法

Country Status (1)

Country Link
CN (1) CN111598107B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112884730B (zh) * 2021-02-05 2022-06-07 南开大学 一种协同显著性物体检测方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2871261B1 (fr) * 2004-06-02 2006-09-08 Cervval Sarl Dispositif de simulation de l'evolution d'un milieu par traitement asynchrone et chaotique, en presence d'entites autonomes interagissant en un systeme multi-agents
CN107341488B (zh) * 2017-06-16 2020-02-18 电子科技大学 一种sar图像目标检测识别一体化方法
CN108428238B (zh) * 2018-03-02 2022-02-15 南开大学 一种基于深度网络的多类型任务通用的检测方法
CN108510000B (zh) * 2018-03-30 2021-06-15 北京工商大学 复杂场景下行人细粒度属性的检测与识别方法
CN108804715A (zh) * 2018-07-09 2018-11-13 北京邮电大学 融合视听感知的多任务协同识别方法及系统
CN110348416A (zh) * 2019-07-17 2019-10-18 北方工业大学 一种基于多尺度特征融合卷积神经网络的多任务人脸识别方法
CN110414489A (zh) * 2019-08-21 2019-11-05 五邑大学 一种基于多任务学习的人脸美丽预测方法
CN110598715A (zh) * 2019-09-04 2019-12-20 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备及可读存储介质

Also Published As

Publication number Publication date
CN111598107A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN111242138B (zh) 一种基于多尺度特征融合的rgbd显著性检测方法
CN110363716B (zh) 一种基于条件生成对抗网络复合降质图像高质量重建方法
CN111582316B (zh) 一种rgb-d显著性目标检测方法
WO2021018163A1 (zh) 神经网络的搜索方法及装置
CN110569851B (zh) 门控多层融合的实时语义分割方法
CN107292458A (zh) 一种应用于神经网络芯片的预测方法和预测装置
CN112348870B (zh) 一种基于残差融合的显著性目标检测方法
CN110852295B (zh) 一种基于多任务监督学习的视频行为识别方法
CN108428238B (zh) 一种基于深度网络的多类型任务通用的检测方法
CN113658189B (zh) 一种跨尺度特征融合的实时语义分割方法和系统
CN111666948A (zh) 一种基于多路聚合的实时高性能语义分割方法和装置
Wang et al. TF-SOD: a novel transformer framework for salient object detection
CN111476133A (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
Yu et al. A review of single image super-resolution reconstruction based on deep learning
CN111598107B (zh) 一种基于特征动态选择的多任务联合检测方法
CN111667401A (zh) 多层次渐变图像风格迁移方法及系统
CN113360683B (zh) 训练跨模态检索模型的方法以及跨模态检索方法和装置
CN110110775A (zh) 一种基于超连接网络的匹配代价计算方法
Huang et al. Image style transfer for autonomous multi-robot systems
CN116757924A (zh) 基于混合注意力和频域重构的图像超分方法、超分系统及图像压缩方法
CN116310643A (zh) 视频处理模型训练方法、装置以及设备
CN116246109A (zh) 一种多尺度孔洞邻域注意力计算骨干网络模型及其应用
CN116311455A (zh) 一种基于改进Mobile-former的表情识别方法
CN114419051B (zh) 一种适应含有像素级分割的多任务场景的方法及系统
CN112529064B (zh) 一种高效的实时语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant