CN111709947B - 一种双流沟通和全局信息引导的显著物体图像检测方法 - Google Patents

一种双流沟通和全局信息引导的显著物体图像检测方法 Download PDF

Info

Publication number
CN111709947B
CN111709947B CN202010783155.2A CN202010783155A CN111709947B CN 111709947 B CN111709947 B CN 111709947B CN 202010783155 A CN202010783155 A CN 202010783155A CN 111709947 B CN111709947 B CN 111709947B
Authority
CN
China
Prior art keywords
layer
convolution
color
depth
activation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010783155.2A
Other languages
English (en)
Other versions
CN111709947A (zh
Inventor
周武杰
朱赟
雷景生
郭翔
强芳芳
王海江
何成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Publication of CN111709947A publication Critical patent/CN111709947A/zh
Application granted granted Critical
Publication of CN111709947B publication Critical patent/CN111709947B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种双流沟通和全局信息引导的显著物体图像检测方法。输入原始的彩色信息图像和深度信息图像进卷积神经网络分类训练模型中进行训练,得到显著物体检测预测图;再通过显著物体检测预测图构成的集合与真实显著检测图像构成的集合之间的损失函数,获得卷积神经网络分类训练模型的最优权值矢量和偏置项;将选定数据集中的立体图像输入到训练好的卷积神经网络模型中,得到显著性检测结果。本发明提高了图像的显著物体检测效率和准确度,减少了参数易于迁移。

Description

一种双流沟通和全局信息引导的显著物体图像检测方法
技术领域
本发明涉及一种深度学习的显著物体检测方法,尤其是涉及一种双流沟通和全局信息引导的的显著物体检测方法。
背景技术
卷积神经网络的兴起,使得其在各种各样的场景中有着越来越多的应用,显著物体检测就是其中一个重要的应用。目前,最常用的显著物体检测采用的都是利用彩色信息检测显著物体,而近年来,随着深度传感器的发展,如:Microsoft Kinect和IntelRealSense,使得获得深度信息变得越来越方便,使用彩色加深度信息来对显著物体进行检测,提高了图像像素级检测任务的精度。
采用深度学习的显著物体检测方法,直接进行像素级别端到端(end-to-end)的显著物体检测,其只需要将训练集中的图像输入进模型框架中训练,得到权重与模型,即可在测试集进行预测。卷积神经网络的强大之处在于它的多层结构能自动学习特征,并且可以学习到多个层次的特征。目前,基于深度学习显著物体检测的方法一般都是编码-译码架构。编码过程通过池化层逐渐减少分辨率、增加感受野、获得更多的语义信息;译码过程逐渐恢复分辨率。而在译码与编码间一般都有直接的连接来获得更多的位置信息。
现有的显著物体检测方法大多采用深度学习的方法,利用卷积层与池化层相结合的模型较多,然而单纯只利用彩色信息操作获得的特征图单一且不具有代表性,从而会导致得到的图像的特征信息减少,最终导致还原的效果信息比较粗糙,检测精度低。
发明内容
本发明所要解决的技术问题是提供一种双流沟通和全局信息引导的显著物体图像检测方法,其检测准确度较高,且模型参数较少,易于迁移,能够提高图像的显著物体检测效率和准确度,减少了参数易于迁移。
本发明解决上述所述技术问题所采用的技术方案为:
方法包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:采集Q幅原始的彩色信息图像和Q幅深度信息图像以及对应的真实显著检测图像,并构成训练集,彩色信息图像和深度信息图像构成场景图像;训练集中将第q幅原始彩色信息图像记为将与之对应的第q幅原始深度信息图像记为/>将与原始彩色信息图像/>对应的真实显著检测图像记为/>其中,Q为正整数,Q≥200,如取Q=1588,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,如取W=224、H=224,/>表示/>中坐标位置为(i,j)的像素点的像素值,/>表示/>中坐标位置为(i,j)的像素点的像素值,/>表示中坐标位置为(i,j)的像素点的像素值。
采集时同一时刻采集一幅彩色信息图像和一幅深度信息图像,并标注获得真实显著检测图像,真实显著检测图像标注为对图像中的物体进行矩形框标注。具体实施中可以将原始图像直接选用彩色加深度图像数据库NJU2K训练集中的1588幅图像。
所述的图像具体均为针对静态物体的图像识别,例如为道路上监控摄像头中的车辆/行人检测。
步骤1_2:构建卷积神经网络分类训练模型,卷积神经网络分类训练模型包括依次连接的输入层、隐层和输出层;
步骤1_3:将训练集中的每幅原始的场景图像输入到卷积神经网络中进行训练,得到训练集中的每幅原始的场景图像对应的四幅显著物体检测预测图并组成集合,即将第q幅原始彩色信息图像对应的显著物体检测预测图构成集合记为/>
步骤1_4:计算步骤1_3获得的显著物体检测预测图的集合与所有真实显著检测图像/>构成的集合/>之间的损失函数值/>采用交叉熵(crossentropy)获得;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量Wbest和最优偏置项bbest,其中,V>1,在本实施例中取V=100,获得训练好的卷积神经网络分类训练模型;
所述的测试阶段过程的具体步骤为:针对待检测的场景图像待检测的场景图像/>包括了待检测的彩色信息图像和深度信息图像,其中,1≤i'≤W',1≤j'≤H',W'表示/>的宽度,H'表示/>的高度,/>表示/>中坐标位置为(i,j)的像素点的像素值;待检测的彩色信息图像的红、绿、蓝三层通道分量输入到卷积神经网络分类训练模型的彩色信息流,将待检测的深度信息图像被复制成三通道的深度通道分量输入到卷积神经网络分类训练模型的深度信息流,并利用训练好的卷积神经网络分类训练模型进行预测,得到待检测的场景图像/>对应的预测显著物体检测图像作为检测结果;其中,/>表示/>中坐标位置为(i',j')的像素点的像素值。
所述的卷积神经网络分类训练模型中:
所述的输入层输出原始输入图像给隐层,输入层接收的原始输入图像的宽度为W、高度为H。
所述的卷积神经网络分类训练模型的隐层包括彩色信息流和深度信息流以及五个逆置注意力模块,彩色信息流包括五个彩色卷积块、四个彩色解码块、五个彩色注意力模块、五个彩色上采样模块;与彩色信息流相同,深度信息流包括五个深度卷积块、四个深度解码块、五个深度注意力模块、五个深度上采样模块;五个逆置注意力模块均用于沟通彩色信息流和深度信息流。
彩色信息流的输入端接收原始彩色信息图像的红、绿、蓝三层通道分量,深度信息流输入端接收原始深度信息图像的深度通道分量,并将其复制三份变成类似彩色图像的三层通道分量;
五个彩色卷积块依次连接,第一个彩色卷积块的输入端作为彩色信息流的输入端,四个彩色解码块依次连接,每相邻两个彩色解码块之间均连接有一个通道相加层,且第一个彩色解码块的输入端连接有一个通道相加层,通道相加层对输入自身的多幅特征图进行通道相加操作,前三个彩色卷积块的输出端均依次经各自唯一对应的一个彩色注意力模块和一个彩色上采样模块后分别连接输入到后三个彩色解码块输入侧的通道相加层的输入端,后两个彩色卷积块的输出端依次经各自唯一对应的一个彩色注意力模块和一个彩色上采样模块后一起连接输入到第一个彩色解码块输入侧的通道相加层的输入端;
五个深度卷积块依次连接,第一个深度卷积块的输入端作为深度信息流的输入端,四个深度解码块依次连接,每相邻两个深度解码块之间均连接有一个通道相加层,且第一个深度解码块的输入端连接有一个通道相加层,前三个深度卷积块的输出端均依次经各自唯一对应的一个深度注意力模块、一个像素相加层和一个深度上采样模块后分别连接输入到后三个深度解码块输入侧的通道相加层的输入端,像素相加层对输入自身的多幅特征图进行相同位置的像素点进行像素值相加操作,后两个深度卷积块的输出端依次经各自唯一对应的一个深度注意力模块和一个深度上采样模块后一起连接输入到第一个深度解码块输入侧的通道相加层的输入端;同时五个彩色卷积块的输出端经各自唯一对应的一个逆置注意力模块后分别输入到五个深度解码块输入侧的像素相加层的输入端;每一个深度解码块与其对应的一个彩色解码块的输出端均连接输入到一个通道相加层后输出到各自的输出层。
五个彩色卷积块分别为彩色第1个卷积块、彩色第2个卷积块、彩色第3个卷积块、彩色第4个卷积块和彩色第5个卷积块,四个彩色解码块分别为彩色第1个解码块、彩色第2个解码块、彩色第3个解码块和彩色第4个解码块,五个彩色注意力模块分别为彩色第1个注意力模块、彩色第2个注意力模块、彩色第3个注意力模块、彩色第4个注意力模块和彩色第5个注意力模块,五个彩色上采样模块分别为彩色第1个上采样模块、彩色第2个上采样模块、彩色第3个上采样模块、彩色第4个上采样模块和彩色第5个上采样模块;五个深度卷积块分别为深度第1个卷积块、深度第2个卷积块、深度第3个卷积块、彩色第4个卷积块和深度第5个卷积块,四个深度解码块分别为深度第1个解码块、深度第2个解码块、深度第3个解码块和深度第4个解码块,五个深度注意力模块分别为深度第1个注意力模块、深度第2个注意力模块、深度第3个注意力模块、深度第4个注意力模块和深度第5个注意力模块,五个深度上采样模块分别为深度第1个上采样模块、深度第2个上采样模块、深度第3个上采样模块、深度第4个上采样模块和彩色第5个上采样模块;五个逆置注意力模块分别为第1个逆置注意力模块、第2个逆置注意力模块、第3个逆置注意力模块、第4个逆置注意力模块和第5个逆置注意力模块;具体网络结构为:
彩色信息流:彩色第1个卷积块、彩色第2个卷积块、彩色第3个卷积块、彩色第4个卷积块和彩色第5个卷积块依次连接,彩色第1个解码块、彩色第2个解码块、彩色第3个解码块和彩色第4个解码块依次连接,彩色信息流的输入到彩色第1个卷积块的输入,彩色第1个卷积块的输出依次经彩色第5个注意力模块、彩色第5个上采样模块后的结果和彩色第3个解码块的输出一起再通过一个通道相加层后输入到彩色第4个解码块,彩色第2个卷积块的输出依次经彩色第4个注意力模块、彩色第4个上采样模块后的结果和彩色第2个解码块的输出一起再通过一个通道相加层后输入到彩色第3个解码块,彩色第3个卷积块的输出依次经彩色第3个注意力模块、彩色第3个上采样模块后的结果和彩色第1个解码块的输出一起再通过一个通道相加层后输入到彩色第2个解码块,彩色第4个卷积块的输出依次经彩色第2个注意力模块、彩色第2个上采样模块后的结果和彩色第5个卷积块的输出依次经彩色第1个注意力模块、彩色第1个上采样模块后的结果一起再通过一个通道相加层后输入到彩色第1个解码块;
深度信息流:深度第1个卷积块、深度第2个卷积块、深度第3个卷积块、深度第4个卷积块和深度第5个卷积块依次连接,深度第1个解码块、深度第2个解码块、深度第3个解码块和深度第4个解码块依次连接,深度信息流的输入到深度第1个卷积块的输入,深度第1个卷积块的输出经深度第5个注意力模块后的结果和彩色第1个卷积块经第5个逆置注意力模块后的结果一起再通过一个像素相加层后输入到深度第5个上采样模块,深度第5个上采样模块的输出和深度第3个解码块的输出一起再通过一个通道相加层后输入到深度第4个解码块;深度第2个卷积块的输出经深度第4个注意力模块后的结果和彩色第2个卷积块经第4个逆置注意力模块后的结果一起再通过一个像素相加层后输入到深度第4个上采样模块,深度第4个上采样模块的输出和深度第2个解码块的输出一起再通过一个通道相加层后输入到深度第3个解码块;深度第3个卷积块的输出经深度第3个注意力模块后的结果和彩色第3个卷积块经第3个逆置注意力模块后的结果一起再通过一个像素相加层后输入到深度第3个上采样模块,深度第3个上采样模块的输出和深度第1个解码块的输出一起再通过一个通道相加层后输入到深度第2个解码块;深度第4个卷积块的输出经深度第2个注意力模块后的结果和彩色第4个卷积块经第2个逆置注意力模块后的结果一起再通过一个像素相加层后输入到深度第2个上采样模块,深度第5个卷积块的输出经深度第1个注意力模块后的结果和彩色第5个卷积块经第1个逆置注意力模块后的结果一起再通过一个像素相加层后输入到深度第1个上采样模块,深度第2个上采样模块和深度第1个上采样模块的输出一起再通过一个通道相加层后输入到深度第1个解码块;
深度第4个解码块和彩色第4个解码块的输出通过一个像素相加层后输入到第一输出层,深度第3个解码块和彩色第3个解码块的输出通过一个像素相加层后输入到第二输出层,深度第2个解码块和彩色第2个解码块的输出通过一个像素相加层后输入到第三输出层,深度第1个解码块和彩色第1个解码块的输出通过一个像素相加层后输入到第四输出层。
所述的彩色第1个卷积块由依次连接的第一卷积层(Convolution,Conv)、第一激活层(Activation,Act)、第二卷积层、第二激活层、第三卷积层组成,输出64幅特征图集合Pr1
所述的彩色第2个卷积块由依次连接的第三激活层、第四最大池化层、第四卷积层、第四激活层、第五卷积层、第五激活层、第六卷积层、第六激活层、第七卷积层、第七激活层、第八卷积层、第八激活层、第九卷积层、第九激活层、第十卷积层、第十激活层、第十一卷积层、第十一激活层、第十二卷积层、第十二激活层以及用于沟通通道用的第一跳连卷积层、第一跳连层、第二跳连层组成,第五卷积层、第八卷积层、第十一卷积层的卷积核为多尺度3×3卷积,输出256幅特征图集合Pr2
所述的彩色第3个卷积块由依次连接的第十三卷积层、第十三激活层、第十四卷积层、第十四激活层、第十五卷积层、第十五激活层、第十六卷积层、第十六激活层、第十七卷积层、第十七激活层、第十八卷积层、第十八激活层、第十九卷积层、第十九激活层、第二十卷积层、第二十激活层、第二十一卷积层、第二十一激活层、第二十二卷积层、第二十二激活层、第二十三卷积层、第二十三激活层、第二十四卷积层、第二十四激活层以及用于沟通通道用的第二卷积跳连层、第三跳连层、第四跳连层和第五跳连层组成,第十四卷积层、第十七卷积层、第二十卷积层、第二十三卷积层的卷积核为多尺度3×3卷积,输出512幅特征图集合Pr3
所述的彩色第4个卷积块由依次连接的第二十五卷积层、第二十五激活层、第二十六卷积层、第二十六激活层、第二十七卷积层、第二十七激活层、第二十八卷积层、第二十八激活层、第二十九卷积层、第二十九激活层、第三十卷积层、第三十激活层、第三十一卷积层、第三十一激活层、第三十二卷积层、第三十二激活层、第三十三卷积层、第三十三激活层、第三十四卷积层、第三十四激活层、第三十五卷积层、第三十五激活层、第三十六卷积层、第三十六激活层、第三十七卷积层、第三十七激活层、第三十八卷积层、第三十八激活层、第三十九卷积层、第三十九激活层、第四十卷积层、第四十激活层、第四十一卷积层、第四十一激活层、第四十二卷积层、第四十二激活层以及用于沟通通道用的第三跳连卷积层、第六跳连层、第七跳连层、第八跳连层、第九跳连层、第十跳连层组成,第二十六卷积层、第二十九卷积层、第三十二卷积层、第三十五卷积层、第三十八卷积层、第四十一卷积层的卷积核为多尺度3×3卷积,输出1024幅特征图集合Pr4
所述的彩色第5个卷积块由依次连接的第四十三卷积层、第四十三激活层、第四十四卷积层、第四十四激活层、第四十五卷积层、第四十五激活层、第四十六卷积层、第四十六激活层、第四十七卷积层、第四十七激活层、第四十八卷积层、第四十八激活层、第四十九卷积层、第四十九激活层、第五十卷积层、第五十激活层、第五十一卷积层、第五十一激活层以及用于沟通通道用的第四跳连卷积层、第十一跳连层和第十二跳连层组成,第四十四卷积层、第四十七卷积层、第五十卷积层的卷积核为多尺度3×3卷积,输出2048幅特征图集合Pr5
所述的彩色第1个注意力模块采用一个全局沟通层,输出2048幅特征图构成的集合Qr1;所述的彩色第2个注意力模块采用一个全局沟通层,输出1024幅特征图构成的集合Qr2;所述的彩色第3个注意力模块采用一个全局沟通层,输出512幅特征图构成的集合Qr3;所述的彩色第4个注意力模块采用一个全局沟通层,输出256幅特征图构成的集合Qr4;所述的彩色第5个注意力模块采用一个全局沟通层,输出64幅特征图构成的集合Qr5
所述的彩色第1个上采样模块由依次连接的第五十二卷积层、第五十二激活层、第一上采样层组成,第五十二卷积层的卷积核为简化卷积,输出64幅特征图构成的集合Ur1;所述的彩色第2个上采样模块由依次连接的第五十三卷积层、第五十三激活层、第二上采样层组成,第五十三卷积层的卷积核为简化卷积,输出64幅特征图构成的集合Ur2;所述的彩色第3个上采样模块由依次连接的第五十四卷积层、第五十四激活层、第三上采样层组成,第五十四卷积层的卷积核为简化卷积,输出64幅特征图构成的集合Ur3;所述的彩色第4个上采样模块由依次连接的第五十五卷积层、第五十五激活层、第四上采样层组成,第五十五卷积层的卷积核为简化卷积,输出64幅特征图构成的集合Ur4;所述的彩色第5个上采样模块由依次连接的第五十六卷积层、第五十六激活层、第五上采样层组成,第五十六卷积层的卷积核为简化卷积,输出64幅特征图构成的集合Ur5
所述的彩色第1个解码块由依次连接的第五十七卷积层、第五十七激活层组成,第五十七卷积层的卷积核为简化卷积,输出64幅特征图构成的集合Tr1;所述的彩色第2个解码块由依次连接的第五十八卷积层、第五十八激活层组成,第五十八卷积层的卷积核为简化卷积,输出64幅特征图构成的集合Tr2;所述的彩色第3个解码块由依次连接的第五十九卷积层、第五十九激活层组成,第五十九卷积层的卷积核为简化卷积,输出64幅特征图构成的集合Tr3;所述的彩色第4个解码块由依次连接的第六十卷积层、第六十激活层组成,第六十卷积层的卷积核为简化卷积,输出64幅特征图构成的集合Tr4
所述的深度第1个卷积块由依次连接的第六十一卷积层、第六十一激活层组成,输出16幅特征图构成的集合Pd1
所述的深度第2个卷积块由依次连接的第一扩张卷积层、第一扩张激活层、第一纵向卷积层、第六全局沟通层、第二扩张卷积层、第二扩张激活层组成,输出16幅特征图构成的集合Pd2
所述的深度第3个卷积块由依次连接的第三扩张卷积层、第三扩张激活层、第二纵向卷积层、第四扩张卷积层、第四扩张激活层组成,输出24幅特征图构成的集合Pd3
所述的深度第4个卷积块由依次连接的第五扩张卷积层、第五扩张激活层、第三纵向卷积层、第六扩张卷积层、第六扩张激活层、第七扩张卷积层、第七激活层、第四纵向卷积层、第七全局沟通层、第八扩张卷积层、第八扩张激活层、第九扩张卷积层、第九扩张激活层、第五纵向卷积层、第八全局沟通层、第十扩张卷积层、第十扩张激活层、第十一扩张卷积层、第十一扩张激活层、第九全局沟通层、第六纵向卷积层、第十二扩张卷积层、第十二扩张激活层、第十三扩张卷积层、第十三扩张激活层、第十全局沟通层、第七纵向卷积层、第十四扩张卷积层、第十四扩张激活层、第十五扩张卷积层、第十五激活层、第十一全局沟通层、第八纵向卷积层、第十六扩张卷积层、第十六扩张激活层组成,输出48幅特征图构成的集合Pd4
所述的对于深度第5个卷积块由依次连接的第十七扩张卷积层、第十七扩张激活层、第九纵向卷积层、第十一全局沟通层、第十八扩张卷积层、第十八扩张激活层、第十九扩张卷积层、第十九激活层、第十纵向卷积层、第十二全局沟通层、第二十扩张卷积层、第二十扩张激活层、第二十一扩张卷积层、第二十一扩张激活层、第十一纵向卷积层、第十三全局沟通层、第二十二扩张卷积层、第二十二扩张激活层、第六十二卷积层、第六十二激活层组成,输出576幅特征图构成的集合Pd5
所述的深度第1个注意力模块由依次连接的第十四全局沟通层组成,输出576幅特征图构成的集合Qd1;所述的深度第2个注意力模块由依次连接的第十五全局沟通层组成,输出48幅特征图构成的集合Qd2;所述的深度第3个注意力模块由依次连接的第十六全局沟通层组成,输出24幅特征图构成的集合Qd3;所述的深度第4个注意力模块由依次连接的第十七全局沟通层组成,输出16幅特征图构成的集合Qd4;所述的深度第5个注意力模块由依次连接的第十八全局沟通层组成,输出16幅特征图构成的集合Qd5
所述的深度第1个上采样模块由依次连接的第六十八卷积层、第六十八激活层、第六上采样层组成,第六十八卷积层卷积核为简化卷积,输出64幅特征图构成的集合Ud1;所述的深度第2个上采样模块由依次连接的第六十九卷积层、第六十九激活层、第七上采样层组成,第六十九卷积层卷积核为简化卷积,输出64幅特征图构成的集合Ud2;所述的深度第3个上采样模块由依次连接的第七十卷积层、第七十激活层、第八上采样层组成,第七十卷积层卷积核为简化卷积,输出64幅特征图构成的集合Ud3;所述的深度第4个上采样模块由依次连接的第七十一卷积层、第七十一激活层、第九上采样层组成,第七十一卷积层卷积核为简化卷积,输出64幅特征图构成的集合Ud4;所述的深度第5个上采样模块由依次连接的第七十二卷积层、第七十二激活层、第十上采样层组成,第七十二卷积层卷积核为简化卷积,输出64幅特征图构成的集合Ud5
所述的深度第1个解码块由依次连接的第七十三卷积层、第七十三激活层组成,第七十三卷积层卷积核为简化卷积,输出64幅特征图构成的集合Td1;所述的深度第2个解码块由依次连接的第七十四卷积层、第七十四激活层组成,第七十四卷积层卷积核为简化卷积,输出64幅特征图构成的集合Td2;所述的深度第3个解码块由依次连接的第七十五卷积层、第七十五激活层组成,第七十五卷积层卷积核为简化卷积,输出64幅特征图构成的集合Td3;所述的深度第4个解码块由依次连接的第七十六卷积层、第七十六激活层组成,第七十六卷积层卷积核为简化卷积,输出64幅特征图构成的集合Td4
所述的第1个逆置注意力模块由依次连接的第六十三卷积层、第六十三激活层、第一翻转全局沟通层组成,第六十三卷积层的卷积核为简化卷积,输出576幅特征图构成的集合Q1
所述的第2个逆置注意力模块由依次连接的第六十四卷积层、第六十四激活层、第二翻转全局沟通层组成,第六十四卷积层的卷积核为简化卷积,输出48幅特征图构成的集合Q2
所述的第3个逆置注意力模块由依次连接的第六十五卷积层、第六十五激活层、第三翻转全局沟通层组成,第六十五卷积层的卷积核为简化卷积,输出24幅特征图构成的集合Q3
所述的第4个逆置注意力模块由依次连接的第六十六卷积层、第六十六激活层、第四翻转全局沟通层组成,第六十六卷积层的卷积核为简化卷积,输出16幅特征图构成的集合Q4
所述的第5个逆置注意力模块由依次连接的第六十七卷积层、第六十七激活层、第五翻转全局沟通层组成,第六十七卷积层的卷积核为简化卷积,输出16幅特征图构成的集合Q5
所述的第一输出层由第七十七卷积层、第七十七激活层、第七十八卷积层、第七十八激活层组成,输出第一幅显著物体检测预测图;所述的第二输出层由第七十九卷积层、第七十九激活层、第八十卷积层、第八十激活层组成,输出第二幅显著物体检测预测图;所述的第三输出层由第八十一卷积层、第八十一激活层、第八十二卷积层、第八十二激活层组成,输出第三幅显著物体检测预测图;所述的第四输出层由第八十三卷积层、第八十三激活层、第八十四卷积层、第八十四激活层组成,输出第四幅显著物体检测预测图。
多尺度3×3卷积均相同操作,与普通3×3卷积不同的均是先将自身输入的特征图xm的按通道的通道数nm均分为4份,再经过3×3卷积分别得到四幅多尺度中间图x1m、x2m、x3m和x4m,将其中尺度从小到大排序第二位的第二多尺度中间图x2m经过3×3卷积处理获得第一多尺度参考图y1m,第一多尺度参考图y1m与尺度从小到大排序第三位的第三多尺度中间图x3m相加后经过3×3卷积处理获得第二多尺度参考图y2m,第一多尺度参考图y1m与尺度从小到大排序第四位的第四多尺度中间图x4m相加后经过3×3卷积得处理获得第三多尺度参考图y3m,将尺度从小到大排序第一位的第一多尺度中间图x1m、第一多尺度参考图y1m、第二多尺度参考图y2m、第三多尺度参考图y3m的四幅图按通道数相加获得结果特征图ym
所述的简化卷积均相同操作,均是先将自身输入的特征图xs的按通道的通道数ns均分为2份,再经过3×3卷积后得到第一简化卷积中间图y1s,第一简化卷积中间图y1s经过1×1分组卷积再得到第二简化卷积中间图y2s,第一简化卷积中间图y1s和第二简化卷积中间图y2s按通道数相加后输出得到结果特征图ys
各个全局沟通层均相同操作,均是先将自身输入的特征图vg经过1×1的卷积、softmax激活函数后输出获得第一全局沟通中间图sg1,将第一全局沟通中间图sg1与自身输入的特征图vg相乘后的结果再依次经过1×1的卷积、Relu激活函数、1×1的卷积后处理获得第二全局沟通中间图sg2,第二全局沟通中间图sg2与自身输入的特征图vg再次相加后输出得到结果特征图sg
各个翻转全局沟通层均相同操作,均是先将自身输入的特征图vf依次经过1×1的卷积、softmax激活函数后输出获得第一翻转全局沟通中间图sf1,将第一翻转全局沟通中间图sf1与自身输入的特征图vf相乘后的结果再经过1×1的卷积、Relu激活函数、1×1的卷积后处理获得第二翻转全局沟通中间图sf2,第二翻转全局沟通中间图sf2的结果取反与自身输入的特征图vf再次相加后输出得到结果特征图sf
与现有技术相比,本发明的优点在于:
本发明方法构建了一个编码-解码卷积神经网络,使用训练集中图像输入到卷积神经网络中进行训练,并将训练后的模型参数保存下来;再将测试集中图像输入到卷积神经网络中,并将训练所得到的参数导入到测试中,预测到得到对应的显著物体检测图像,由于本发明在构建全卷积神经网络时利用了移动设备所采用的mobilenetv3、全局沟通机制以及翻转全局沟通机制的特点,从而有效的提高了检测的准确性。
2)本发明方法在处理深度信息时采用了常见于移动设备的移动卷积块,有利于减少网络参数和优化训练速度;采用全局沟通机制,使得网络在训练时能够获得更多的全局特征,减少了图像边缘细节的丢失,使得检测图像轮廓更加清楚。
3)本发明方法在搭建卷积神经网络架构时在彩色信息流和深度信息流之间建立了联系,利用翻转全局沟通机制让深度信息流学习彩色信息流所忽略的但也十分重要的图像部分,有效的解决了所生成检测图像中出现局部模糊的问题。
附图说明
图1为本发明方法的总体实现框图;
图2a为同一场景的第1幅原始的场景彩色信息图像;
图2b为同一场景的第1幅原始的场景深度信息图像;
图2c为利用本发明方法对图2a所示的原始的图像进行预测,得到的预测显著物体检测图像;
图3a为同一场景的第2幅原始的场景彩色信息图像;
图3b为同一场景的第2幅原始的场景深度信息图像;
图3c为利用本发明方法对图3a所示的原始的场景图像进行预测,得到的预测显著物体检测图像;
图4a为同一场景的第3幅原始的场景彩色信息图像;
图4b为同一场景的第3幅原始的场景深度信息图像;
图4c为利用本发明方法对图4a所示的原始的场景图像进行预测,得到的预测显著物体检测图像;
图5a为同一场景的第4幅原始的场景彩色信息图像;
图5b为同一场景的第4幅原始的场景深度信息图像;
图5c为利用本发明方法对图5a所示的原始的场景图像进行预测,得到的预测显著物体检测图像。
图6为利用本发明方法在测试集上的评测结果图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种双流沟通和全局信息引导的显著物体图像检测方法,其总体实现框图如图1所示,其包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅原始的彩色信息图像和对应的Q幅深度信息图像以及每幅原始的图像所对应的真实显著检测图像,并构成训练集,将训练集中的第q幅原始的彩色信息图像记为与之对应的第q幅原始深度信息图像/>将训练集中与/>对应的真实显著检测图像记为/>其中,Q为正整数,Q≥200,如取Q=1588,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,如取W=224、H=224,/>表示/>中坐标位置为(i,j)的像素点的像素值,/>表示中坐标位置为(i,j)的像素点的像素值,/>表示/>中坐标位置为(i,j)的像素点的像素值;在此,原始图像直接选用彩色加深度图像数据库NJU2K训练集中的1588幅图像。
步骤1_2:构建卷积神经网络:卷积神经网络包括输入层、隐层和输出层;隐层包括设置的彩色信息流的彩色第1个卷积块、彩色第2个卷积块、彩色第3个卷积块、彩色第4个卷积块、彩色第5个卷积块、彩色第1个解码块、彩色第2个解码块、彩色第3个解码块、彩色第4个解码块、彩色第1个注意力模块、彩色第2个注意力模块、彩色第3个注意力模块、彩色第4个注意力模块、彩色第5个注意力模块、彩色第1个上采样模块、彩色第2个上采样模块、彩色第3个上采样模块、彩色第4个上采样模块、彩色第5个上采样模块;与彩色信息流相同,深度信息流也拥有这些模块包括:深度第1个卷积块、深度第2个卷积块、深度第3个卷积块、彩色第4个卷积块、深度第5个卷积块、深度第1个解码块、深度第2个解码块、深度第3个解码块、深度第4个解码块、深度第1个注意力模块、深度第2个注意力模块、深度第3个注意力模块、深度第4个注意力模块、深度第5个注意力模块、深度第1个上采样模块、深度第2个上采样模块、深度第3个上采样模块、深度第4个上采样模块、彩色第5个上采样模块;此外,还有第1个逆置注意力模块、第2个逆置注意力模块、第3个逆置注意力模块、第4个逆置注意力模块、第5个逆置注意力模块用于沟通彩色信息流和深度信息流,彩色信息流输入端接收一幅原始输入图像的红、绿、蓝三层通道分量,深度信息流输入端接收一幅原始输入图像的深度通道分量,并将其复制三层,变成类似彩色图像的三层通道分量,输入层的输出端输出原始输入图像给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为W、高度为H。
首先定义四种结构:
第一种是一种与普通3×3卷积不同的多尺度3×3卷积(Multi-scale 3×3Convolution),假设输入为xm输入通道数为nm,首先按通道nm将通道数均分为4份,xm经过3×3卷积,得到称为x1m,x2m,x3m,x4m。x2m经过3×3卷积后得到输出称为y1m,y1m与x3m相加后经过3×3卷积得到的输出称为y2m,y1m与x4m相加后经过3×3卷积得到的输出称为y3m,将x1m,y1m,y2m,y3m按通道数相加的最后结果ym,以上3×3卷积的卷积核大小均为/>补零参数为1,步长为1。
第二种为简化卷积,假设输入为xs输入通道数为ns,首先按通道ns将通道数均分为2份,xs经过3×3卷积(卷积核大小为补零参数为1,步长为1)后得到输出称为y1s,y1s经过1×1分组卷积(卷积核大小为/>分组个数为/>补零参数为0,步长为1)得到的输出称为y2s,y1s和y2s按通道数相加/>得到最后结果ys
第三种为全局沟通层,假设输入为vg输入通道为cg,先对vg经过1×1的卷积、softmax激活函数,其输出设为sg1;sg1与vg相乘后的结果经过1×1的卷积(1×1卷积的卷积核大小为补零参数为0,步长为1)、Relu激活函数、1×1的卷积(卷积核大小为cg,补零参数为0,步长为1)的结果称为sg2,sg2将与vg再次相加形成最后的输出sg
第四种称为翻转全局沟通层,假设输入为vf输入通道为cf,先经过1×1的卷积、softmax激活函数,其输出设为sf1;sf1与vf相乘后的结果经过1×1的卷积(卷积核大小为补零参数为0,步长为1)、Relu激活函数、1×1的卷积(卷积核大小为cf,补零参数为0,步长为1)的结果称为sf2,sf2的取反结果将与vf再次相加形成最后的输出sf
对于彩色第1个卷积块,其由依次设置的第一卷积层(Convolution,Conv)、第一激活层(Activation,Act)、第二卷积层、第二激活层、第三卷积层组成;彩色第1个卷积块的输入端接收输入层的输出端输出的原始输入图像的红、绿、蓝三层通道分量,彩色第1个卷积块的输出端输出64幅特征图,将64幅特征图构成的集合记为Pr1;其中,第一卷积层、第二卷积层、第三层卷积层的卷积核大小(kernel_size)均为3×3、卷积核个数(filters)分别为为32,32,64、补零(padding)参数均为1,步长(strides)分别为2,1,1、第一激活层和第二激活层的激活方式均为“Relu”,Pr1中的输出特征图的宽度为高度为/>
对于彩色第2个卷积块,其由依次设置的第三激活层、第四最大池化层、第四卷积层、第四激活层、第五卷积层、第五激活层、第六卷积层、第六激活层、第七卷积层、第七激活层、第八卷积层、第八激活层、第九卷积层、第九激活层、第十卷积层、第十激活层、第十一卷积层、第十一激活层、第十二卷积层、第十二激活层以及用于沟通通道用的第一跳连卷积层、第一跳连层、第二跳连层组成;彩色第2个卷积块的输入端接收Pr1中的所有特征图,第2个神经网络块的输出端输出256幅特征图,将256幅特征图构成的集合记为Pr2;其中,第四池化层的尺寸为2,第四卷积层、第六卷积层、第七卷积层、第九卷积层、第十卷积层、第十二卷积层的卷积核大小均为1×1、卷积核个数分别为64、256、64、256、64、256,补零参数为0,第五卷积层、第八卷积层、第十一卷积层的卷积核为多尺度3×3卷积,卷积核个数均为64,补零参数为1,第一跳连卷积层的卷积核大小为3×3,卷积核大小为256,补零参数为1,第三激活层到第十二激活层的激活方式均为“Relu”,以上所有卷积层步长均为1,第一跳连卷积层将第四最大池化层的输出经过卷积后与第六卷积层输出相加,第一跳连层直接将第六激活层输出和第九卷积层输出相加,第二跳连层直接将第九激活层输出和第十二卷积层输出相加,Pr2中的输出特征图的宽度为高度为/>
对于彩色第3个卷积块,其由依次设置的第十三卷积层、第十三激活层、第十四卷积层、第十四激活层、第十五卷积层、第十五激活层、第十六卷积层、第十六激活层、第十七卷积层、第十七激活层、第十八卷积层、第十八激活层、第十九卷积层、第十九激活层、第二十卷积层、第二十激活层、第二十一卷积层、第二十一激活层、第二十二卷积层、第二十二激活层、第二十三卷积层、第二十三激活层、第二十四卷积层、第二十四激活层用于沟通通道用的依次设置的第二卷积跳连层,第三跳连层,第四跳连层,第五跳连层组成,彩色第3个卷积块的输入端接收Pr2中的所有特征图,彩色第3个卷积块的输出端输出512幅特征图,将512幅特征图构成的集合记为Pr3;其中,其中,第十三卷积层、第十五卷积层、第十六卷积层、第十八卷积层、第十九卷积层、第二十一卷积层、第二十二卷积层、第二十四卷积层的卷积核大小均为1×1、卷积核个数分别为128、512、128、512、128、512,128,512,补零参数为0,第十四卷积层、第十七卷积层、第二十卷积层、第二十三卷积层的卷积核为多尺度3×3卷积,卷积核个数均为128,补零参数为1,第二跳连卷积层的卷积核大小为3×3,卷积核大小为512,补零参数为1,第十三激活层到第二十四激活层的激活方式均为“Relu”,以上所有卷积层步长除第十三卷积层为2外其余均为1,第二跳连卷积层将第十二激活层的输出经过卷积后与第十五卷积层输出相加,第三跳连层直接将第十五激活层输出和第十八卷积层输出相加,第四跳连层直接将第十八激活层输出和第二十一卷积层输出相加,第五跳连层直接将第二十一激活层输出和第二十四卷积层输出相加,Pr3中的输出特征图的宽度为高度为/>
对于彩色第4个卷积块,其由依次设置的第二十五卷积层、第二十五激活层、第二十六卷积层、第二十六激活层、第二十七卷积层、第二十七激活层、第二十八卷积层、第二十八激活层、第二十九卷积层、第二十九激活层、第三十卷积层、第三十激活层、第三十一卷积层、第三十一激活层、第三十二卷积层、第三十二激活层、第三十三卷积层、第三十三激活层、第三十四卷积层、第三十四激活层、第三十五卷积层、第三十五激活层、第三十六卷积层、第三十六激活层、第三十七卷积层、第三十七激活层、第三十八卷积层、第三十八激活层、第三十九卷积层、第三十九激活层、第四十卷积层、第四十激活层、第四十一卷积层、第四十一激活层、第四十二卷积层、第四十二激活层以及沟通通道用的依次设置的第三跳连卷积层、第六跳连层、第七跳连层、第八跳连层、第九跳连层、第十跳连层组成;彩色第4个卷积块的输入端接收Pr3中的所有特征图,彩色第4个神经网络块的输出端输出1024幅特征图,将1024幅特征图构成的集合记为Pr4;其中,其中,第二十五卷积层、第二十七卷积层、第二十八卷积层、第三十卷积层、第三十一卷积层、第三十三卷积层、第三十四卷积层、第三十六卷积层、第三十七卷积层、第三十九卷积层、第四十卷积层、第四十二卷积层的卷积核大小均为1×1、卷积核个数分别为256、1024、256、1024、256、1024,256,1024,256,1024,补零参数为0,第二十六卷积层、第二十九卷积层、第三十二卷积层、第三十五卷积层、第三十八卷积层、第四十一卷积层的卷积核为多尺度3×3卷积,卷积核个数均为256,补零参数为1,第三跳连卷积层的卷积核大小为3×3,卷积核大小为1024,补零参数为1,第二十五激活层到第四十二激活层的激活方式均为“Relu”,以上所有卷积层步长除第二十五卷积层为2外其余均为1,第三跳连卷积层将第二十四激活层的输出经过卷积后与第二十七卷积层输出相加,第六跳连层直接将第二十七激活层输出和第三十卷积层输出相加,第七跳连层直接将第三十激活层输出和第三十三卷积层输出相加,第八跳连层直接将第三十三激活层输出和第三十六卷积层输出相加,第九跳连层直接将第三十六激活层输出和第三十九卷积层输出相加,第十跳连层直接将第三十九激活层输出和第四十二卷积层输出相加,Pr4中的每一层输出特征图的宽度为高度为/>
对于彩色第5个卷积块,其由依次设置的第四十三卷积层、第四十三激活层、第四十四卷积层、第四十四激活层、第四十五卷积层、第四十五激活层、第四十六卷积层、第四十六激活层、第四十七卷积层、第四十七激活层、第四十八卷积层、第四十八激活层、第四十九卷积层、第四十九激活层、第五十卷积层、第五十激活层、第五十一卷积层、第五十一激活层以及用于沟通通道用的依次设置的第四跳连卷积层、第十一跳连层、第十二跳连层组成;彩色第5个卷积块的输入端接收Pr4中的所有特征图,彩色第5个卷积块的输出端输出2048幅特征图,将2048幅特征图构成的集合记为Pr5;其中,其中,第四十三卷积层、第四十五卷积层、第四十六卷积层、第四十八卷积层、第四十九卷积层、第五十一卷积层的卷积核大小均为1×1、卷积核个数分别为512、2048、512、2048、512、2048,补零参数为0,第四十四卷积层、第四十七卷积层、第五十卷积层的卷积核为多尺度3×3卷积,卷积核个数均为256,补零参数为1,第三跳连卷积层的卷积核大小为3×3,卷积核大小为1024,补零参数为512,第四十三激活层到第五十一激活层的激活方式均为“Relu”,以上所有卷积层步长除第四十三卷积层为2外其余均为1,第四跳连卷积层将第四十二激活层的输出经过卷积后与第四十五卷积层输出相加,第十一跳连层直接将第四十五激活层输出和第四十八卷积层输出相加,第十二跳连层直接将第四十八激活层输出和第五十一卷积层输出相加,Pr5中的特征图的输出宽度为高度为/>/>
对于彩色第1个注意力模块,其由设置的第一全局沟通层组成;彩色第1个注意力模块的输入端接收Pr5中的所有特征图,彩色第1个注意力模块的输出端输出2048幅特征图,将2048幅特征图构成的集合记为Qr1;其中,第一全局沟通层输入为Pr5,通道数为2048,最后的输出Qr1,Qr1中的每幅特征图的宽度为高度为/>
对于彩色第2个注意力模块,其由设置的第二全局沟通层组成;彩色第2个注意力模块的输入端接收Pr4中的所有特征图,彩色第2个注意力模块的输出端输出1024幅特征图,将1024幅特征图构成的集合记为Qr2;其中,第二全局沟通层输入为Pr4,通道数为1024,最后的输出Qr2,Qr2中的每幅特征图的宽度为高度为/>
对于彩色第3个注意力模块,其由设置的第三全局沟通层组成;彩色第3个注意力模块的输入端接收Pr3中的所有特征图,彩色第3个注意力模块的输出端输出512幅特征图,将512幅特征图构成的集合记为Qr3;其中,第三全局沟通层输入为Pr3,通道数为512,最后的输出Qr3,Qr3中的每幅特征图的宽度为高度为/>
对于彩色第4个注意力模块,其由设置的第四全局沟通层组成;彩色第4个注意力模块的输入端接收Pr2中的所有特征图,彩色第4个注意力模块的输出端输出256幅特征图,将256幅特征图构成的集合记为Qr4;其中,第四全局沟通层输入为Pr2,通道数为256,最后的输出Qr4,Qr4中的每幅特征图的宽度为高度为/>
对于彩色第5个注意力模块,其由设置的第五全局沟通层组成;彩色第5个注意力模块的输入端接收Pr1中的所有特征图,彩色第5个注意力模块的输出端输出64幅特征图,将64幅特征图构成的集合记为Qr5;其中,第五全局沟通层输入为Pr1,通道数为64,最后的输出Qr5,Qr5中的每幅特征图的宽度为高度为/>
对于彩色第1个上采样模块,其由依次设置的第五十二卷积层、第五十二激活层、第一上采样层组成;彩色第一个上采样模块的输入端接收Qr1中的所有特征图,彩色第1个上采样模块的输出端输出64幅特征图,将64幅特征图构成的集合记为Ur1;其中,第五十二卷积层卷积核为简化卷积、卷积核个数为64,第五十二激活层的激活方式为“Relu”,第一上采样层采用的是双线性插值,上采样率为32,Ur1中的每幅特征图的宽度为W、高度为H。
对于彩色第2个上采样模块,其由依次设置的第五十三卷积层、第五十三激活层、第二上采样层组成;彩色第2个上采样模块的输入端接收Qr2中的所有特征图,彩色第2个上采样模块的输出端输出64幅特征图,将64幅特征图构成的集合记为Ur2;其中,第五十三卷积层卷积核为简化卷积、卷积核个数为64,第五十三激活层的激活方式为“Relu”,第二上采样层采用的是双线性插值,上采样率为16,Ur2中的每幅特征图的宽度为W、高度为H。
对于彩色第3个上采样模块,其由依次设置的第五十四卷积层、第五十四激活层、第三上采样层组成;彩色第3个上采样模块的输入端接收Qr3中的所有特征图,彩色第3个上采样模块的输出端输出64幅特征图,将64幅特征图构成的集合记为Ur3;其中,第五十四卷积层卷积核为简化卷积、卷积核个数为64,第五十四激活层的激活方式为“Relu”,第三上采样层(Upsample)采用的是双线性插值,上采样率为8,Ur3中的每幅特征图的宽度为W、高度为H。
对于彩色第4个上采样模块,其由依次设置的第五十五卷积层、第五十五激活层、第四上采样层组成;彩色第4个上采样模块的输入端接收Qr4中的所有特征图,彩色第4个上采样模块的输出端输出64幅特征图,将64幅特征图构成的集合记为Ur4;其中,第五十五卷积层卷积核为简化卷积、卷积核个数为64,第五十五激活层的激活方式为“Relu”,第四上采样层采用的是双线性插值,上采样率为4,Ur4中的每幅特征图的宽度为W、高度为H。
对于彩色第5个上采样模块,其由依次设置的第五十六卷积层、第五十六激活层、第五上采样层组成;彩色第5个上采样模块的输入端接收Qr5中的所有特征图,彩色第5个上采样模块的输出端输出64幅特征图,将64幅特征图构成的集合记为Ur5;其中,第五十二卷积层卷积核为简化卷积、卷积核个数为64,第五十六激活层的激活方式为“彩色elu”,第5上采样层采用的是双线性插值,上采样率为2,Ur5中的每幅特征图的宽度为W、高度为H。
对于彩色第1个解码块,其由依次设置的第五十七卷积层、第五十七激活层组成;彩色第1个解码块的输入端接收Ur1和Ur2中的所有特征图按通道数相加(64+64=128)的结果,彩色第1个的解码块输出端输出64幅特征图,将64幅特征图构成的集合记为Tr1;其中,第五十七卷积层的卷积核为简化卷积、卷积核个数为64、补零参数为1、步长为1,第五十七激活层的激活方式为“Relu”,Tr1中的每幅特征图的宽度为W、高度为H。
对于彩色第2个解码块,其由依次设置的第五十八卷积层、第五十八激活层组成;彩色第2个解码块的输入端接收Tr1和Ur3中的所有特征图按通道数相加(64+64=128)的结果,彩色第2个的解码块输出端输出64幅特征图,将64幅特征图构成的集合记为Tr2;其中,第五十八卷积层的卷积核为简化卷积、卷积核个数为64,第五十八激活层的激活方式为“Relu”,Tr2中的每幅特征图的宽度为W、高度为H。
对于彩色第3个解码块,其由依次设置的第五十九卷积层、第五十九激活层组成;彩色第3个解码块的输入端接收Tr2和Ur4中的所有特征图按通道数相加(64+64=128)的结果,彩色第3个的解码块输出端输出64幅特征图,将64幅特征图构成的集合记为Tr3;其中,第五十九卷积层的卷积核为简化卷积、卷积核个数为64,第五十九激活层的激活方式为“Relu”,Tr3中的每幅特征图的宽度为W、高度为H。
对于彩色第4个解码块,其由依次设置的第六十卷积层、第六十激活层组成;彩色第4个解码块的输入端接收Tr3和Ur5中的所有特征图按通道数相加(64+64=128)的结果,彩色第4个的解码块输出端输出64幅特征图,将64幅特征图构成的集合记为Tr4;其中,第六十卷积层的卷积核为简化卷积、卷积核个数为64,第六十激活层的激活方式为“Relu”,Tr4中的每幅特征图的宽度为W、高度为H。
对于深度信息流,以下为具体实施,对于深度第1个卷积块,其由依次设置的第六十一卷积层、第六十一激活层组成;深度第1个卷积块的输入端接收输入层的输出端输出的原始输入图像的深度信息并将其复制三分,形成类似与彩色信息流输入的三层通道,深度第1个卷积块的输出端输出16幅特征图,将16幅特征图构成的集合记为Pd1;其中,第六十一的卷积核大小均为3×3、卷积核个数分别为为16、补零参数均为1,步长为2、第六十一激活层激活方式均为“H-switch”,Pd1中的输出特征图的宽度为高度为/>
对于深度第2个卷积块,其由依次设置的第一扩张卷积层、第一扩张激活层、第一纵向卷积层、第六全局沟通层、第二扩张卷积层、第二扩张激活层组成;深度第2个卷积块的输入端接收Pd2中的所有特征图,深度第2个卷积块的输出端输出16幅特征图,将16幅特征图构成的集合记为Pd2;其中,第一扩张卷积层、第二扩张卷积层卷积核大小均为1×1、卷积核个数分别为16,16,补零参数为0,步长为2、1,第一纵向卷积层是分组卷积,分组个数为16,卷积核大小为3×3,卷积核个数为16,补零参数为1,步长为1,输出为d1,第六全局沟通层的通道数为16,输入为d1,第一扩张激活层、第二扩张激活层的激活方式均为“Relu”,Pd2中的输出特征图的宽度为高度为/>
对于深度第3个卷积块,其由依次设置的第三扩张卷积层、第三扩张激活层、第二纵向卷积层、第四扩张卷积层、第四扩张激活层组成;深度第3个卷积块的输入端接收Pd2中的所有特征图,深度第3个卷积块的输出端输出24幅特征图,将24幅特征图构成的集合记为Pd3;其中,第一扩张卷积层、第二扩张卷积层卷积核大小均为1×1、卷积核个数分别为72,24,补零参数为0,步长为2、1,第一纵向卷积层是分组卷积,分组个数为72,卷积核大小为3×3,卷积核个数为72,补零参数为1,步长为1,第三扩张激活层、第四扩张激活层的激活方式均为“Relu”,Pd3中的输出特征图的宽度为高度为/>
对于深度第4个卷积块,其由依次设置的第五扩张卷积层、第五扩张激活层、第三纵向卷积层、第六扩张卷积层、第六扩张激活层、第七扩张卷积层、第七激活层、第四纵向卷积层、第七全局沟通层、第八扩张卷积层、第八扩张激活层、第九扩张卷积层、第九扩张激活层、第五纵向卷积层、第八全局沟通层、第十扩张卷积层、第十扩张激活层、第十一扩张卷积层、第十一扩张激活层、第九全局沟通层、第六纵向卷积层、第十二扩张卷积层、第十二扩张激活层、第十三扩张卷积层、第十三扩张激活层、第十全局沟通层、第七纵向卷积层、第十四扩张卷积层、第十四扩张激活层、第十五扩张卷积层、第十五激活层、第十一全局沟通层、第八纵向卷积层、第十六扩张卷积层、第十六扩张激活层组成;深度第4个卷积块的输入端接收Pd3中的所有特征图,深度第4个卷积块的输出端输出48幅特征图,将48幅特征图构成的集合记为Pd4;其中,第五扩张卷积层、第六扩张卷积层、第七扩张卷积层、第八扩张卷积层、第九扩张卷积层、第十扩张卷积层、第十一扩张卷积层、第十二扩张卷积层、第十三扩张卷积层、第十四扩张卷积层、第十五扩张卷积层、第十六扩张卷积层卷积核大小均为1×1、卷积核个数分别为88、24、96、40、240、40、240、40、120、48、144、48,补零参数为0,除了第七卷积层步长为2外其余都为1,第三纵向卷积层、第四纵向卷积层、第五纵向卷积层、第六纵向卷积层、第七纵向卷积层、第八纵向卷积层是分组卷积,分组个数分别为88、96、240、240、120、144,除第三纵向卷积核大小为3×3其余均为5×5,卷积核个数为88、96、240、240、120、144,补零参数为1,步长为1,记第四纵向卷积层输出为d2,第五纵向卷积层输出为d3,第六纵向卷积层输出为d4,第七纵向卷积层输出为d5,第八纵向卷积层输出为d6。第七全局沟通层的通道数为96,输入为d2,第八全局沟通层的通道数为240,输入为d3,第九全局沟通层的通道数为240,输入为d4,第十全局沟通层的通道数为120,输入为d5,第七全局沟通层的通道数为144,输入为d6,除了第五和第六激活层的激活方式为“Relu”,其余均为“H-switch”,Pd4中的输出特征图的宽度为高度为/>/>
对于深度第5个卷积块,其由依次设置的第十七扩张卷积层、第十七扩张激活层、第九纵向卷积层、第十一全局沟通层、第十八扩张卷积层、第十八扩张激活层、第十九扩张卷积层、第十九激活层、第十纵向卷积层、第十二全局沟通层、第二十扩张卷积层、第二十扩张激活层、第二十一扩张卷积层、第二十一扩张激活层、第十一纵向卷积层、第十三全局沟通层、第二十二扩张卷积层、第二十二扩张激活层、第六十二卷积层、第六十二激活层组成;深度第5个卷积块的输入端接收Pd4中的所有特征图,深度第5个卷积块的输出端输出576幅特征图,将576幅特征图构成的集合记为Pd5;其中,第十七扩张卷积层、第十八扩张卷积层、第十九扩张卷积层、第二十扩张卷积层、第二十一扩张卷积层、第二十二扩张卷积层卷积核大小均为1×1、卷积核个数分别为288、96、576、96、576、96,补零参数为0,除了第十七卷积层步长为2外其余都为1,第九纵向卷积层、第十纵向卷积层、第十一纵向卷积层是分组卷积,分组个数分别为288、576、576,卷积核大小均为5×5,卷积核个数为288、576、576,补零参数为1,步长为1,记第九纵向卷积层输出为d7,第十纵向卷积层输出为d8,第十一纵向卷积层输出为d9。第六十二卷积层卷积核大小为1×1,卷积核个数为576,补零参数为0,步长为1。第十一全局沟通层的通道数为288,输入为d7,第十二全局沟通层的通道数为576,输入为d8,第十三全局沟通层的通道数为576,输入为d8,激活层的激活方式均为“h-switch”,Pd5中的特征图的输出宽度为高度为/>
对于深度第1个注意力模块,其由设置的第十四全局沟通层组成;深度第1个注意力模块的输入端接收Pd5中的所有特征图,深度第1个注意力模块的输出端输出576幅特征图,将576幅特征图构成的集合记为Qd1;其中,第十四全局沟通层输入为Pd5,通道数为576,最后的输出Qd1,Qd1中的每幅特征图的宽度为高度为/>
对于深度第2个注意力模块,其由设置的第十五全局沟通层组成;深度第2个注意力模块的输入端接收Pd4中的所有特征图,深度第2个注意力模块的输出端输出48幅特征图,将48幅特征图构成的集合记为Qd2;其中,第十五全局沟通层输入为Pd4,通道数为48,最后的输出Qd2,Qd2中的每幅特征图的宽度为高度为/>
对于深度第3个注意力模块,其由设置的第十六全局沟通层组成;深度第3个注意力模块的输入端接收Pd3中的所有特征图,深度第3个注意力模块的输出端输出24幅特征图,将24幅特征图构成的集合记为Qd3;其中,第十六全局沟通层输入为Pd3,通道数为24,最后的输出Qd3,Qd3中的每幅特征图的宽度为高度为/>
对于深度第4个注意力模块,其由设置的第十七全局沟通层组成;深度第4个注意力模块的输入端接收Pd2中的所有特征图,深度第4个注意力模块的输出端输出16幅特征图,将16幅特征图构成的集合记为Qd4;其中,第十七全局沟通层输入为Pd2,通道数为16,最后的输出Qd4,Qd4中的每幅特征图的宽度为高度为/>
对于深度第5个注意力模块,其由设置的第十八全局沟通层组成;深度第5个注意力模块的输入端接收Pd1中的所有特征图,深度第5个注意力模块的输出端输出16幅特征图,将16幅特征图构成的集合记为Qd5;其中,第五十八全局沟通层输入为Pd1,通道数为16,最后的输出Qd5,Qd5中的每幅特征图的宽度为高度为/>
对于第1个逆置注意力模块,其由依次设置的第六十三卷积层、第六十三激活层、第一翻转全局沟通层组成;第1个逆置注意力模块的输入端接收Pr5中的所有特征图,第1个逆置注意力模块的输出端输出576幅特征图,将576幅特征图构成的集合记为Q1;其中,第六十三卷积层的输入为Pr5卷积核为简化卷积,卷积核个数为576,第一翻转全局沟通层的通道数为576,最后的输出Q1,激活层激活函数为“Relu”,Q1中的每幅特征图的宽度为高度为
对于第2个逆置注意力模块,其由依次设置的第六十四卷积层、第六十四激活层、第二翻转全局沟通层组成;第2个逆置注意力模块的输入端接收Pr4中的所有特征图,第2个逆置注意力模块的输出端输出48幅特征图,将48幅特征图构成的集合记为Q2;其中,第六十四卷积层的输入为Pr4,卷积核为简化卷积,卷积核个数为48,第二F全局沟通层通道数为48,最后的输出Q2,激活层激活函数为“Relu”,Q2中的每幅特征图的宽度为高度为/>
对于第3个逆置注意力模块,其由设置的第六十五卷积层、第六十五激活层、第三翻转全局沟通层组成;第3个逆置注意力模块的输入端接收Pr3中的所有特征图,第3个逆置注意力模块的输出端输出24幅特征图,将24幅特征图构成的集合记为Q3;其中,第六十五卷积输入为Pr3,卷积核为简化卷积,卷积核个数为24,第三翻转全局沟通层通道数为24,最后的输出Q3,激活层激活函数为“Relu”,Q3中的每幅特征图的宽度为高度为/>
对于第4个逆置注意力模块,其由设置的第六十六卷积层、第六十六激活层、第四翻转全局沟通层组成;第4个逆置注意力模块的输入端接收Pr2中的所有特征图,第4个逆置注意力模块的输出端输出16幅特征图,将16幅特征图构成的集合记为Q4;其中,第六十六卷积层输入为Pr2,卷积核为简化卷积,卷积核个数为16,第四翻转全局沟通层通道数为16,最后的输出Q4,激活层激活函数为“Relu”,Q4中的每幅特征图的宽度为高度为/>
对于第5个逆置注意力模块,其由设置的第六十七卷积层、第六十七激活层、第五翻转全局沟通层组成;第5个逆置注意力模块的输入端接收Pr1中的所有特征图,第5个逆置注意力模块的输出端输出16幅特征图,将16幅特征图构成的集合记为Q5;其中,第六十七卷积层的输入为Pr1,卷积核为简化卷积,卷积核个数为16,第五F全局沟通层通道数为16,最后的输出Q5,激活层激活函数为“Relu”,Q5中的每幅特征图的宽度为高度为/>
对于深度第1个上采样模块,其由依次设置的第六十八卷积层、第六十八激活层、第六上采样层组成;深度第1个上采样模块的输入端接收Qd1和Q1元素级相加的结果中的所有特征图,深度第1个上采样模块的输出端输出64幅特征图,将64幅特征图构成的集合记为Ud1;其中,第六十八卷积层卷积核为简化卷积、卷积核个数为64,第六十八激活层的激活方式为“Relu”,第六上采样层采用的是双线性插值,上采样率为32,Ud1中的每幅特征图的宽度为W、高度为H。
对于深度第2个上采样模块,其由依次设置的第六十九卷积层、第六十九激活层、第七上采样层组成;彩色第2个上采样模块的输入端接收Qd2和Q2元素级相加的结果中的所有特征图,深度第2个上采样模块的输出端输出64幅特征图,将64幅特征图构成的集合记为Ud2;其中,第六十九卷积层卷积核为简化卷积、卷积核个数为64,第六十九激活层的激活方式为“Relu”,第七上采样层采用的是双线性插值,上采样率为16,Ud2中的每幅特征图的宽度为W、高度为H。
对于彩色第3个上采样模块,其由依次设置的第七十卷积层、第七十激活层、第八上采样层组成;深度第3个上采样模块的输入端接收Qd3和Q3元素级相加的结果中的所有特征图,深度第3个上采样模块的输出端输出64幅特征图,将64幅特征图构成的集合记为Ud3;其中,第七十卷积层卷积核为简化卷积、卷积核个数为64,第七十激活层的激活方式为“Relu”,第八上采样层采用的是双线性插值,上采样率为8,Ud3中的每幅特征图的宽度为W、高度为H。
对于深度第4个上采样模块,其由依次设置的第七十一卷积层、第七十一激活层、第九上采样层组成;深度第4个上采样模块的输入端接收Qd4和Q4元素级相加的结果中的所有特征图,深度第4个上采样模块的输出端输出64幅特征图,将64幅特征图构成的集合记为Ud4;其中,第七十一卷积层卷积核为简化卷积、卷积核个数为64,第七十一激活层的激活方式为“Relu”,第九上采样层采用的是双线性插值,上采样率为4,Ud4中的每幅特征图的宽度为W、高度为H。
对于深度第5个上采样模块,其由依次设置的第七十二卷积层、第七十二激活层、第十上采样层组成;深度第5个上采样模块的输入端接收Qd5和Q5元素级相加的结果中的所有特征图,深度第5个上采样模块的输出端输出64幅特图,将64幅特征图构成的集合记为Ud5;其中,第七十二卷积层卷积核为简化卷积、卷积核个数为64,步长为1,第七十二激活层的激活方式为“Relu”,第十上采样层采用的是双线性插值,上采样率为2,Ud5中的每幅特征图的宽度为W、高度为H。
对于深度第1个解码块,其由依次设置的第七十三卷积层、第七十三激活层组成;深度第1个解码块的输入端接收Ud1和Ud2中的所有特征图按通道数相加(64+64=128)的结果,深度第1个的解码块输出端输出64幅特征图,将64幅特征图构成的集合记为Td1;其中,第七十三卷积层的卷积核为简化卷积、卷积核个数为64,第七十三激活层的激活方式为“Relu”,Td1中的每幅特征图的宽度为W、高度为H。
对于深度第2个解码块,其由依次设置的第七十四卷积层、第七十四激活层组成;深度第2个解码块的输入端接收Td1和Ud3中的所有特征图按通道数相加(64+64=128)的结果,深度第2个的解码块输出端输出64幅特征图,将64幅特征图构成的集合记为Td2;其中,第七十四卷积层的卷积核为简化卷积、卷积核个数为64,第七十四激活层的激活方式为“Relu”,Td2中的每幅特征图的宽度为W、高度为H。
对于深度第3个解码块,其由依次设置的第七十五卷积层、第七十五激活层组成;深度第3个解码块的输入端接收Td2和Ud4中的所有特征图按通道数相加(64+64=128)的结果,深度第3个的解码块输出端输出64幅特征图,将64幅特征图构成的集合记为Td3;其中,第七十五卷积层的卷积核为简化卷积、卷积核个数为64,第七十五激活层的激活方式为“彩色elu”,Td3中的每幅特征图的宽度为W、高度为H。
对于深度第4个解码块,其由依次设置的第七十六卷积层、第七十六激活层组成;深度第4个解码块的输入端接收Td3和Ud5中的所有特征图按通道数相加(64+64=128)的结果,深度第4个的解码块输出端输出64幅特征图,将64幅特征图构成的集合记为Td4;其中,第七十六卷积层的卷积核为简化卷积、卷积核个数为64,第七十六激活层的激活方式为“Relu”,Td4中的每幅特征图的宽度为W、高度为H。
对于第一输出层,其由第七十七卷积层、第七十七激活层、第七十八卷积层、第七十八激活层组成,其中,第七十七卷积层的输入为Tr4,经过卷积核大小为1×1的卷积(卷积核个数为1,步长为1,补零参数为0),记为Pr4,第七十八卷积层的输入为Td4,经过卷积核大小为1×1的卷积(卷积核个数为1,步长为1,补零参数为0),记为Pd4,然后将Pr4和Pd4分别经过第七十七激活层和第七十八激活层激活,激活函数均为“Sigmoid”,最后Pr4和Pd4进行元素级相加得到输出端输出的1幅与原始输入图像对应的显著检测预测图P,宽度为W、高度为H。
对于第二输出层,其由第七十九卷积层、第七十九激活层、第八十卷积层、第八十激活层组成,其中,第七十九卷积层的输入为Tr3,经过卷积核大小为1×1的卷积(卷积核个数为1,步长为1,补零参数为0),记为Pr3,第七十八卷积层的输入为Td3,经过卷积核大小为1×1的卷积(卷积核个数为1,步长为1,补零参数为0),记为Pd3,然后将Pr3和Pd3分别经过第七十九激活层和第八十激活层激活,激活函数均为“Sigmoid”,最后Pr3和Pd3进行元素级相加得到输出端输出的1幅与原始输入图像对应的作为监督的显著检测预测图P1,宽度为W、高度为H。
对于第三输出层,其由第八十一卷积层、第八十一激活层、第八十二卷积层、第八十二激活层组成,其中,第八十一卷积层的输入为Tr2,经过卷积核大小为1×1的卷积(卷积核个数为1,步长为1,补零参数为0),记为Pr2,第八十二卷积层的输入为Td2,经过卷积核大小为1×1的卷积(卷积核个数为1,步长为1,补零参数为0),记为Pd2,然后将Pr2和Pd2分别经过第八十一激活层和第八十二激活层激活,激活函数均为“Sigmoid”,最后Pr2和Pd2进行元素级相加得到输出端输出的1幅与原始输入图像对应的作为监督的显著检测预测图P2,宽度为W、高度为H。
对于第四输出层,其由第八十三卷积层、第八十三激活层、第八十四卷积层、第八十四激活层组成,其中,第八十三卷积层的输入为Tr1,经过卷积核大小为1×1的卷积(卷积核个数为1,步长为1,补零参数为0),记为Pr1,第七十八卷积层的输入为Td1,经过卷积核大小为1×1的卷积(卷积核个数为1,步长为1,补零参数为0),记为Pd1,然后将Pr1和Pd1分别经过第七十七激活层和第七十八激活层激活,激活函数均为“Sigmoid”,最后Pr1和Pr1进行元素级相加得到输出端输出的1幅与原始输入图像对应的作为监督的显著检测预测图P3,宽度为W、高度为H。
步骤1_3:将训练集中的每幅原始的场景图像作为原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的场景图像对应的4幅显著物体检测预测图,将对应的显著物体检测预测图构成的集合记为/>/>
步骤1_4:计算训练集中的每幅原始的场景图像对应的显著物体检测预测图构成的集合与对应的真实显著检测图像构成的集合之间的损失函数值,将与/>之间的损失函数值记为/>采用交叉熵(crossentropy)获得。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,在本实施例中取V=100。
所述的测试阶段过程的具体步骤为:
步骤2_1:令表示待检测的场景图像;其中,1≤i'≤W',1≤j'≤H',W'表示/>的宽度,H'表示/>的高度,/>表示/>中坐标位置为(i,j)的像素点的像素值。
步骤2_2:将的红、绿、蓝三层通道分量输入到卷积神经网络彩色信息流,被复制成三通道的深度通道分量输入到卷积神经网络深度信息流,并利用训练好的Wbest和bbest进行预测,得到/>对应的预测显著物体检测图像,记为/>其中,表示/>中坐标位置为(i',j')的像素点的像素值。
为了进一步验证本发明方法的可行性和有效性,进行实验。
使用基于python的深度学习库Pytorch1.1.0搭建了一种双流沟通和全局信息引导的卷积神经网络。采用彩色加深度图像数据库NJU2K的测试集来分析利用本发明方法预测得到的显著物体检测图像(取397幅图像)的检测效果如何。这里,利用评估显著物体检测方法的3个常用客观参量作为评价指标,即接收操作特征曲线下方的面积大小(Area UnderCurve,AUC)、平均绝对误差(Mean Absolute Error,MAE)、最大F1分数(Max F1 Score,MaxF)来评价显著物体检测图像的检测性能。
利用本发明方法对彩色加深度图像数据库NJU2K的测试集中的每幅图像进行预测,得到每幅图像对应的显著物体检测图像,反映本发明方法的语义检测效果的接收操作特征曲线下方的面积大小AUC、平均绝对误差MAE、最大F1分数MaxF如表1所列。从图6可知按本发明方法得到的显著物体检测图像的精确率和召回率都比较高,从表1所列的数据可知,按本发明方法得到的显著物体检测图像的检测结果是较好的,表明利用本发明方法来获取场景图像对应的预测显著物体检测图像是可行性且有效的。
表1利用本发明方法在测试集上的评测结果
AUC 0.983
MaxF 0.909
MAE 0.049
图2a为同一场景的第1幅原始的场景彩色信息图像;图2b为同一场景的第1幅原始的场景深度信息图像;图2c为利用本发明方法对图2a所示的原始的图像进行预测,得到的预测显著物体检测图像;图3a为同一场景的第2幅原始的场景彩色信息图像;图3b为同一场景的第2幅原始的场景深度信息图像;图3c为利用本发明方法对图3a所示的原始的场景图像进行预测,得到的预测显著物体检测图像;图4a为同一场景的第3幅原始的场景彩色信息图像;图4b为同一场景的第3幅原始的场景深度信息图像;图4c为利用本发明方法对图4a所示的原始的场景图像进行预测,得到的预测显著物体检测图像;图5a为同一场景的第4幅原始的场景彩色信息图像;图5b为同一场景的第4幅原始的场景深度信息图像;图5c为利用本发明方法对图5a所示的原始的场景图像进行预测,得到的预测显著物体检测图像。对比图2a,图2b和图2c,对比图3a,图3b和图3c,对比图4a,图4b和图4c,对比图5a,图5b和图5c,可以看出利用本发明方法得到的显著物体检测图像的检测精度较高且模型参数较少,易于迁移。

Claims (8)

1.一种双流沟通和全局信息引导的显著物体图像检测方法,其特征在于方法包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:采集Q幅原始的彩色信息图像和Q幅深度信息图像以及对应的真实显著检测图像,并构成训练集,彩色信息图像和深度信息图像构成场景图像;训练集中将第q幅原始彩色信息图像记为将与之对应的第q幅原始深度信息图像记为/>将与原始彩色信息图像/>对应的真实显著检测图像记为/>
步骤1_2:构建卷积神经网络分类训练模型,卷积神经网络分类训练模型包括依次连接的输入层、隐层和输出层;
步骤1_3:将训练集中的每幅原始的场景图像输入到卷积神经网络中进行训练,得到训练集中的每幅原始的场景图像对应的四幅显著物体检测预测图并组成集合,即将第q幅原始彩色信息图像对应的显著物体检测预测图构成集合记为/>
步骤1_4:计算步骤1_3获得的显著物体检测预测图的集合与所有真实显著检测图像/>构成的集合/>之间的损失函数值/> 采用交叉熵获得;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量Wbest和最优偏置项bbest,获得训练好的卷积神经网络分类训练模型;
所述的测试阶段过程的具体步骤为:针对待检测的场景图像待检测的场景图像/>包括了待检测的彩色信息图像和深度信息图像,待检测的彩色信息图像的红、绿、蓝三层通道分量输入到卷积神经网络分类训练模型的彩色信息流,将待检测的深度信息图像被复制成三通道的深度通道分量输入到卷积神经网络分类训练模型的深度信息流,并利用训练好的卷积神经网络分类训练模型进行预测,得到待检测的场景图像对应的预测显著物体检测图像/>作为检测结果;
所述的卷积神经网络分类训练模型中,所述的卷积神经网络分类训练模型的隐层包括彩色信息流和深度信息流以及五个逆置注意力模块,彩色信息流包括五个彩色卷积块、四个彩色解码块、五个彩色注意力模块、五个彩色上采样模块;深度信息流包括五个深度卷积块、四个深度解码块、五个深度注意力模块、五个深度上采样模块;彩色信息流的输入端接收原始彩色信息图像的红、绿、蓝三层通道分量,深度信息流输入端接收原始深度信息图像的深度通道分量,并将其复制三份变成三层通道分量;
五个彩色卷积块依次连接,第一个彩色卷积块的输入端作为彩色信息流的输入端,四个彩色解码块依次连接,每相邻两个彩色解码块之间均连接有一个通道相加层,且第一个彩色解码块的输入端连接有一个通道相加层,前三个彩色卷积块的输出端均依次经各自的一个彩色注意力模块和一个彩色上采样模块后分别连接输入到后三个彩色解码块输入侧的通道相加层的输入端,后两个彩色卷积块的输出端依次经各自的一个彩色注意力模块和一个彩色上采样模块后一起连接输入到第一个彩色解码块输入侧的通道相加层的输入端;
五个深度卷积块依次连接,第一个深度卷积块的输入端作为深度信息流的输入端,四个深度解码块依次连接,每相邻两个深度解码块之间均连接有一个通道相加层,且第一个深度解码块的输入端连接有一个通道相加层,前三个深度卷积块的输出端均依次经各自的一个深度注意力模块、一个像素相加层和一个深度上采样模块后分别连接输入到后三个深度解码块输入侧的通道相加层的输入端,后两个深度卷积块的输出端依次经各自的一个深度注意力模块和一个深度上采样模块后一起连接输入到第一个深度解码块输入侧的通道相加层的输入端;同时五个彩色卷积块的输出端经各自的一个逆置注意力模块后分别输入到五个深度解码块输入侧的像素相加层的输入端;每一个深度解码块与其对应的一个彩色解码块的输出端均连接输入到一个通道相加层后输出到各自的输出层;
五个彩色卷积块分别为彩色第1个卷积块、彩色第2个卷积块、彩色第3个卷积块、彩色第4个卷积块和彩色第5个卷积块,四个彩色解码块分别为彩色第1个解码块、彩色第2个解码块、彩色第3个解码块和彩色第4个解码块,五个彩色注意力模块分别为彩色第1个注意力模块、彩色第2个注意力模块、彩色第3个注意力模块、彩色第4个注意力模块和彩色第5个注意力模块,五个彩色上采样模块分别为彩色第1个上采样模块、彩色第2个上采样模块、彩色第3个上采样模块、彩色第4个上采样模块和彩色第5个上采样模块;五个深度卷积块分别为深度第1个卷积块、深度第2个卷积块、深度第3个卷积块、深度第4个卷积块和深度第5个卷积块,四个深度解码块分别为深度第1个解码块、深度第2个解码块、深度第3个解码块和深度第4个解码块,五个深度注意力模块分别为深度第1个注意力模块、深度第2个注意力模块、深度第3个注意力模块、深度第4个注意力模块和深度第5个注意力模块,五个深度上采样模块分别为深度第1个上采样模块、深度第2个上采样模块、深度第3个上采样模块、深度第4个上采样模块和深度第5个上采样模块;五个逆置注意力模块分别为第1个逆置注意力模块、第2个逆置注意力模块、第3个逆置注意力模块、第4个逆置注意力模块和第5个逆置注意力模块;具体网络结构为:
彩色信息流:彩色第1个卷积块、彩色第2个卷积块、彩色第3个卷积块、彩色第4个卷积块和彩色第5个卷积块依次连接,彩色第1个解码块、彩色第2个解码块、彩色第3个解码块和彩色第4个解码块依次连接,彩色信息流的输入到彩色第1个卷积块的输入,彩色第1个卷积块的输出依次经彩色第5个注意力模块、彩色第5个上采样模块后的结果和彩色第3个解码块的输出一起再通过一个通道相加层后输入到彩色第4个解码块,彩色第2个卷积块的输出依次经彩色第4个注意力模块、彩色第4个上采样模块后的结果和彩色第2个解码块的输出一起再通过一个通道相加层后输入到彩色第3个解码块,彩色第3个卷积块的输出依次经彩色第3个注意力模块、彩色第3个上采样模块后的结果和彩色第1个解码块的输出一起再通过一个通道相加层后输入到彩色第2个解码块,彩色第4个卷积块的输出依次经彩色第2个注意力模块、彩色第2个上采样模块后的结果和彩色第5个卷积块的输出依次经彩色第1个注意力模块、彩色第1个上采样模块后的结果一起再通过一个通道相加层后输入到彩色第1个解码块;
深度信息流:深度第1个卷积块、深度第2个卷积块、深度第3个卷积块、深度第4个卷积块和深度第5个卷积块依次连接,深度第1个解码块、深度第2个解码块、深度第3个解码块和深度第4个解码块依次连接,深度信息流的输入到深度第1个卷积块的输入,深度第1个卷积块的输出经深度第5个注意力模块后的结果和彩色第1个卷积块经第5个逆置注意力模块后的结果一起再通过一个像素相加层后输入到深度第5个上采样模块,深度第5个上采样模块的输出和深度第3个解码块的输出一起再通过一个通道相加层后输入到深度第4个解码块;深度第2个卷积块的输出经深度第4个注意力模块后的结果和彩色第2个卷积块经第4个逆置注意力模块后的结果一起再通过一个像素相加层后输入到深度第4个上采样模块,深度第4个上采样模块的输出和深度第2个解码块的输出一起再通过一个通道相加层后输入到深度第3个解码块;深度第3个卷积块的输出经深度第3个注意力模块后的结果和彩色第3个卷积块经第3个逆置注意力模块后的结果一起再通过一个像素相加层后输入到深度第3个上采样模块,深度第3个上采样模块的输出和深度第1个解码块的输出一起再通过一个通道相加层后输入到深度第2个解码块;深度第4个卷积块的输出经深度第2个注意力模块后的结果和彩色第4个卷积块经第2个逆置注意力模块后的结果一起再通过一个像素相加层后输入到深度第2个上采样模块,深度第5个卷积块的输出经深度第1个注意力模块后的结果和彩色第5个卷积块经第1个逆置注意力模块后的结果一起再通过一个像素相加层后输入到深度第1个上采样模块,深度第2个上采样模块和深度第1个上采样模块的输出一起再通过一个通道相加层后输入到深度第1个解码块;
深度第4个解码块和彩色第4个解码块的输出通过一个像素相加层后输入到第一输出层,深度第3个解码块和彩色第3个解码块的输出通过一个像素相加层后输入到第二输出层,深度第2个解码块和彩色第2个解码块的输出通过一个像素相加层后输入到第三输出层,深度第1个解码块和彩色第1个解码块的输出通过一个像素相加层后输入到第四输出层。
2.根据权利要求1所述的一种双流沟通和全局信息引导的显著物体图像检测方法,其特征在于:
所述的彩色第1个卷积块由依次连接的第一卷积层、第一激活层、第二卷积层、第二激活层、第三卷积层组成,输出64幅特征图集合Pr1
所述的彩色第2个卷积块由依次连接的第三激活层、第四最大池化层、第四卷积层、第四激活层、第五卷积层、第五激活层、第六卷积层、第六激活层、第七卷积层、第七激活层、第八卷积层、第八激活层、第九卷积层、第九激活层、第十卷积层、第十激活层、第十一卷积层、第十一激活层、第十二卷积层、第十二激活层以及用于沟通通道用的第一跳连卷积层、第一跳连层、第二跳连层组成,第五卷积层、第八卷积层、第十一卷积层的卷积核为多尺度3×3卷积,输出256幅特征图集合Pr2
所述的彩色第3个卷积块由依次连接的第十三卷积层、第十三激活层、第十四卷积层、第十四激活层、第十五卷积层、第十五激活层、第十六卷积层、第十六激活层、第十七卷积层、第十七激活层、第十八卷积层、第十八激活层、第十九卷积层、第十九激活层、第二十卷积层、第二十激活层、第二十一卷积层、第二十一激活层、第二十二卷积层、第二十二激活层、第二十三卷积层、第二十三激活层、第二十四卷积层、第二十四激活层以及用于沟通通道用的第二卷积跳连层、第三跳连层、第四跳连层和第五跳连层组成,第十四卷积层、第十七卷积层、第二十卷积层、第二十三卷积层的卷积核为多尺度3×3卷积,输出512幅特征图集合Pr3
所述的彩色第4个卷积块由依次连接的第二十五卷积层、第二十五激活层、第二十六卷积层、第二十六激活层、第二十七卷积层、第二十七激活层、第二十八卷积层、第二十八激活层、第二十九卷积层、第二十九激活层、第三十卷积层、第三十激活层、第三十一卷积层、第三十一激活层、第三十二卷积层、第三十二激活层、第三十三卷积层、第三十三激活层、第三十四卷积层、第三十四激活层、第三十五卷积层、第三十五激活层、第三十六卷积层、第三十六激活层、第三十七卷积层、第三十七激活层、第三十八卷积层、第三十八激活层、第三十九卷积层、第三十九激活层、第四十卷积层、第四十激活层、第四十一卷积层、第四十一激活层、第四十二卷积层、第四十二激活层以及用于沟通通道用的第三跳连卷积层、第六跳连层、第七跳连层、第八跳连层、第九跳连层、第十跳连层组成,第二十六卷积层、第二十九卷积层、第三十二卷积层、第三十五卷积层、第三十八卷积层、第四十一卷积层的卷积核为多尺度3×3卷积,输出1024幅特征图集合Pr4
所述的彩色第5个卷积块由依次连接的第四十三卷积层、第四十三激活层、第四十四卷积层、第四十四激活层、第四十五卷积层、第四十五激活层、第四十六卷积层、第四十六激活层、第四十七卷积层、第四十七激活层、第四十八卷积层、第四十八激活层、第四十九卷积层、第四十九激活层、第五十卷积层、第五十激活层、第五十一卷积层、第五十一激活层以及用于沟通通道用的第四跳连卷积层、第十一跳连层和第十二跳连层组成,第四十四卷积层、第四十七卷积层、第五十卷积层的卷积核为多尺度3×3卷积,输出2048幅特征图集合Pr5
所述的彩色第1个注意力模块采用一个全局沟通层,输出2048幅特征图构成的集合Qr1;所述的彩色第2个注意力模块采用一个全局沟通层,输出1024幅特征图构成的集合Qr2;所述的彩色第3个注意力模块采用一个全局沟通层,输出512幅特征图构成的集合Qr3;所述的彩色第4个注意力模块采用一个全局沟通层,输出256幅特征图构成的集合Qr4;所述的彩色第5个注意力模块采用一个全局沟通层,输出64幅特征图构成的集合Qr5
所述的彩色第1个上采样模块由依次连接的第五十二卷积层、第五十二激活层、第一上采样层组成,第五十二卷积层的卷积核为简化卷积,输出64幅特征图构成的集合Ur1;所述的彩色第2个上采样模块由依次连接的第五十三卷积层、第五十三激活层、第二上采样层组成,第五十三卷积层的卷积核为简化卷积,输出64幅特征图构成的集合Ur2;所述的彩色第3个上采样模块由依次连接的第五十四卷积层、第五十四激活层、第三上采样层组成,第五十四卷积层的卷积核为简化卷积,输出64幅特征图构成的集合Ur3;所述的彩色第4个上采样模块由依次连接的第五十五卷积层、第五十五激活层、第四上采样层组成,第五十五卷积层的卷积核为简化卷积,输出64幅特征图构成的集合Ur4;所述的彩色第5个上采样模块由依次连接的第五十六卷积层、第五十六激活层、第五上采样层组成,第五十六卷积层的卷积核为简化卷积,输出64幅特征图构成的集合Ur5
所述的彩色第1个解码块由依次连接的第五十七卷积层、第五十七激活层组成,第五十七卷积层的卷积核为简化卷积,输出64幅特征图构成的集合Tr1;所述的彩色第2个解码块由依次连接的第五十八卷积层、第五十八激活层组成,第五十八卷积层的卷积核为简化卷积,输出64幅特征图构成的集合Tr2;所述的彩色第3个解码块由依次连接的第五十九卷积层、第五十九激活层组成,第五十九卷积层的卷积核为简化卷积,输出64幅特征图构成的集合Tr3;所述的彩色第4个解码块由依次连接的第六十卷积层、第六十激活层组成,第六十卷积层的卷积核为简化卷积,输出64幅特征图构成的集合Tr4
3.根据权利要求1所述的一种双流沟通和全局信息引导的显著物体图像检测方法,其特征在于:
所述的深度第1个卷积块由依次连接的第六十一卷积层、第六十一激活层组成,输出16幅特征图构成的集合Pd1
所述的深度第2个卷积块由依次连接的第一扩张卷积层、第一扩张激活层、第一纵向卷积层、第六全局沟通层、第二扩张卷积层、第二扩张激活层组成,输出16幅特征图构成的集合Pd2
所述的深度第3个卷积块由依次连接的第三扩张卷积层、第三扩张激活层、第二纵向卷积层、第四扩张卷积层、第四扩张激活层组成,输出24幅特征图构成的集合Pd3
所述的深度第4个卷积块由依次连接的第五扩张卷积层、第五扩张激活层、第三纵向卷积层、第六扩张卷积层、第六扩张激活层、第七扩张卷积层、第七激活层、第四纵向卷积层、第七全局沟通层、第八扩张卷积层、第八扩张激活层、第九扩张卷积层、第九扩张激活层、第五纵向卷积层、第八全局沟通层、第十扩张卷积层、第十扩张激活层、第十一扩张卷积层、第十一扩张激活层、第九全局沟通层、第六纵向卷积层、第十二扩张卷积层、第十二扩张激活层、第十三扩张卷积层、第十三扩张激活层、第十全局沟通层、第七纵向卷积层、第十四扩张卷积层、第十四扩张激活层、第十五扩张卷积层、第十五激活层、第十一全局沟通层、第八纵向卷积层、第十六扩张卷积层、第十六扩张激活层组成,输出48幅特征图构成的集合Pd4
对于深度第5个卷积块由依次连接的第十七扩张卷积层、第十七扩张激活层、第九纵向卷积层、第十一全局沟通层、第十八扩张卷积层、第十八扩张激活层、第十九扩张卷积层、第十九激活层、第十纵向卷积层、第十二全局沟通层、第二十扩张卷积层、第二十扩张激活层、第二十一扩张卷积层、第二十一扩张激活层、第十一纵向卷积层、第十三全局沟通层、第二十二扩张卷积层、第二十二扩张激活层、第六十二卷积层、第六十二激活层组成,输出576幅特征图构成的集合Pd5
所述的深度第1个注意力模块由依次连接的第十四全局沟通层组成,输出576幅特征图构成的集合Qd1;所述的深度第2个注意力模块由依次连接的第十五全局沟通层组成,输出48幅特征图构成的集合Qd2;所述的深度第3个注意力模块由依次连接的第十六全局沟通层组成,输出24幅特征图构成的集合Qd3;所述的深度第4个注意力模块由依次连接的第十七全局沟通层组成,输出16幅特征图构成的集合Qd4;所述的深度第5个注意力模块由依次连接的第十八全局沟通层组成,输出16幅特征图构成的集合Qd5
所述的深度第1个上采样模块由依次连接的第六十八卷积层、第六十八激活层、第六上采样层组成,第六十八卷积层卷积核为简化卷积,输出64幅特征图构成的集合Ud1;所述的深度第2个上采样模块由依次连接的第六十九卷积层、第六十九激活层、第七上采样层组成,第六十九卷积层卷积核为简化卷积,输出64幅特征图构成的集合Ud2;所述的深度第3个上采样模块由依次连接的第七十卷积层、第七十激活层、第八上采样层组成,第七十卷积层卷积核为简化卷积,输出64幅特征图构成的集合Ud3;所述的深度第4个上采样模块由依次连接的第七十一卷积层、第七十一激活层、第九上采样层组成,第七十一卷积层卷积核为简化卷积,输出64幅特征图构成的集合Ud4;所述的深度第5个上采样模块由依次连接的第七十二卷积层、第七十二激活层、第十上采样层组成,第七十二卷积层卷积核为简化卷积,输出64幅特征图构成的集合Ud5
所述的深度第1个解码块由依次连接的第七十三卷积层、第七十三激活层组成,第七十三卷积层卷积核为简化卷积,输出64幅特征图构成的集合Td1;所述的深度第2个解码块由依次连接的第七十四卷积层、第七十四激活层组成,第七十四卷积层卷积核为简化卷积,输出64幅特征图构成的集合Td2;所述的深度第3个解码块由依次连接的第七十五卷积层、第七十五激活层组成,第七十五卷积层卷积核为简化卷积,输出64幅特征图构成的集合Td3;所述的深度第4个解码块由依次连接的第七十六卷积层、第七十六激活层组成,第七十六卷积层卷积核为简化卷积,输出64幅特征图构成的集合Td4
4.根据权利要求1所述的一种双流沟通和全局信息引导的显著物体图像检测方法,其特征在于:
所述的第1个逆置注意力模块由依次连接的第六十三卷积层、第六十三激活层、第一翻转全局沟通层组成,第六十三卷积层的卷积核为简化卷积,输出576幅特征图构成的集合Q1
所述的第2个逆置注意力模块由依次连接的第六十四卷积层、第六十四激活层、第二翻转全局沟通层组成,第六十四卷积层的卷积核为简化卷积,输出48幅特征图构成的集合Q2
所述的第3个逆置注意力模块由依次连接的第六十五卷积层、第六十五激活层、第三翻转全局沟通层组成,第六十五卷积层的卷积核为简化卷积,输出24幅特征图构成的集合Q3
所述的第4个逆置注意力模块由依次连接的第六十六卷积层、第六十六激活层、第四翻转全局沟通层组成,第六十六卷积层的卷积核为简化卷积,输出16幅特征图构成的集合Q4
所述的第5个逆置注意力模块由依次连接的第六十七卷积层、第六十七激活层、第五翻转全局沟通层组成,第六十七卷积层的卷积核为简化卷积,输出16幅特征图构成的集合Q5
所述的第一输出层由第七十七卷积层、第七十七激活层、第七十八卷积层、第七十八激活层组成,输出第一幅显著物体检测预测图;所述的第二输出层由第七十九卷积层、第七十九激活层、第八十卷积层、第八十激活层组成,输出第二幅显著物体检测预测图;所述的第三输出层由第八十一卷积层、第八十一激活层、第八十二卷积层、第八十二激活层组成,输出第三幅显著物体检测预测图;所述的第四输出层由第八十三卷积层、第八十三激活层、第八十四卷积层、第八十四激活层组成,输出第四幅显著物体检测预测图。
5.根据权利要求2所述的一种双流沟通和全局信息引导的显著物体图像检测方法,其特征在于:多尺度3×3卷积均相同操作,均是先将自身输入的特征图xm的按通道的通道数nm均分为4份,再经过3×3卷积分别得到四幅多尺度中间图x1m、x2m、x3m和x4m,将其中尺度从小到大排序第二位的第二多尺度中间图x2m经过3×3卷积处理获得第一多尺度参考图y1m,第一多尺度参考图y1m与尺度从小到大排序第三位的第三多尺度中间图x3m相加后经过3×3卷积处理获得第二多尺度参考图y2m,第一多尺度参考图y1m与尺度从小到大排序第四位的第四多尺度中间图x4m相加后经过3×3卷积得处理获得第三多尺度参考图y3m,将尺度从小到大排序第一位的第一多尺度中间图x1m、第一多尺度参考图y1m、第二多尺度参考图y2m、第三多尺度参考图y3m的四幅图按通道数相加获得结果特征图ym
6.根据权利要求2-4任一所述的一种双流沟通和全局信息引导的显著物体图像检测方法,其特征在于:所述的简化卷积均相同操作,均是先将自身输入的特征图xs的按通道的通道数ns均分为2份,再经过3×3卷积后得到第一简化卷积中间图y1s,第一简化卷积中间图y1s经过1×1分组卷积再得到第二简化卷积中间图y2s,第一简化卷积中间图y1s和第二简化卷积中间图y2s按通道数相加后输出得到结果特征图ys
7.根据权利要求2-4任一所述的一种双流沟通和全局信息引导的显著物体图像检测方法,其特征在于:各个全局沟通层均相同操作,均是先将自身输入的特征图vg经过1×1的卷积、softmax激活函数后输出获得第一全局沟通中间图sg1,将第一全局沟通中间图sg1与自身输入的特征图vg相乘后的结果再依次经过1×1的卷积、Relu激活函数、1×1的卷积后处理获得第二全局沟通中间图sg2,第二全局沟通中间图sg2与自身输入的特征图vg再次相加后输出得到结果特征图sg
8.根据权利要求4所述的一种双流沟通和全局信息引导的显著物体图像检测方法,其特征在于:各个翻转全局沟通层均相同操作,均是先将自身输入的特征图vf依次经过1×1的卷积、softmax激活函数后输出获得第一翻转全局沟通中间图sf1,将第一翻转全局沟通中间图sf1与自身输入的特征图vf相乘后的结果再经过1×1的卷积、Relu激活函数、1×1的卷积后处理获得第二翻转全局沟通中间图sf2,第二翻转全局沟通中间图sf2的结果取反与自身输入的特征图vf再次相加后输出得到结果特征图sf
CN202010783155.2A 2020-04-24 2020-08-06 一种双流沟通和全局信息引导的显著物体图像检测方法 Active CN111709947B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2020103326520 2020-04-24
CN202010332652 2020-04-24

Publications (2)

Publication Number Publication Date
CN111709947A CN111709947A (zh) 2020-09-25
CN111709947B true CN111709947B (zh) 2024-04-02

Family

ID=72546919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010783155.2A Active CN111709947B (zh) 2020-04-24 2020-08-06 一种双流沟通和全局信息引导的显著物体图像检测方法

Country Status (1)

Country Link
CN (1) CN111709947B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052888B (zh) * 2020-11-03 2021-12-17 杭州尽享科技有限公司 异常环境实时监测系统
CN113362322B (zh) * 2021-07-16 2024-04-30 浙江科技学院 一种判别辅助和多模态加权融合的显著物体检测方法
CN114742917B (zh) * 2022-04-25 2024-04-26 桂林电子科技大学 一种基于卷积神经网络的ct图像分割方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110246148A (zh) * 2019-05-27 2019-09-17 浙江科技学院 多模态的深度信息融合和注意力学习的显著性检测方法
CN110298361A (zh) * 2019-05-22 2019-10-01 浙江省北大信息技术高等研究院 一种rgb-d图像的语义分割方法和系统
CN110728682A (zh) * 2019-09-09 2020-01-24 浙江科技学院 一种基于残差金字塔池化神经网络的语义分割方法
WO2020035661A1 (en) * 2018-08-13 2020-02-20 Imperial College Of Science, Technology And Medicine Mapping object instances using video data
CN110930342A (zh) * 2019-10-28 2020-03-27 杭州电子科技大学 一种基于彩色图引导的深度图超分辨率重建网络构建方法
CN110992414A (zh) * 2019-11-05 2020-04-10 天津大学 一种基于卷积神经网络的室内单目场景深度估计的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8989437B2 (en) * 2011-05-16 2015-03-24 Microsoft Corporation Salient object detection by composition

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020035661A1 (en) * 2018-08-13 2020-02-20 Imperial College Of Science, Technology And Medicine Mapping object instances using video data
CN110298361A (zh) * 2019-05-22 2019-10-01 浙江省北大信息技术高等研究院 一种rgb-d图像的语义分割方法和系统
CN110246148A (zh) * 2019-05-27 2019-09-17 浙江科技学院 多模态的深度信息融合和注意力学习的显著性检测方法
CN110728682A (zh) * 2019-09-09 2020-01-24 浙江科技学院 一种基于残差金字塔池化神经网络的语义分割方法
CN110930342A (zh) * 2019-10-28 2020-03-27 杭州电子科技大学 一种基于彩色图引导的深度图超分辨率重建网络构建方法
CN110992414A (zh) * 2019-11-05 2020-04-10 天津大学 一种基于卷积神经网络的室内单目场景深度估计的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Salient object detection for RGB-D image by single stream recurrent convolution neural network;Zhengyi Liu;《Neurocomputing》;第46-57页 *
基于金字塔池化网络的道路场景深度估计方法;周武杰;《电子与信息学报》;第41卷(第10期);第2509-2515页 *
复杂场景下基于光场技术的显著性检测研究;李啸;《中国优秀硕士学位论文全文数据库信息科技辑》;第1-56页 *

Also Published As

Publication number Publication date
CN111709947A (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
CN111709947B (zh) 一种双流沟通和全局信息引导的显著物体图像检测方法
CN112347859B (zh) 一种光学遥感图像显著性目标检测方法
CN107506740B (zh) 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法
CN110728682B (zh) 一种基于残差金字塔池化神经网络的语义分割方法
CN111401436B (zh) 一种融合网络和双通道注意力机制的街景图像分割方法
CN110992238B (zh) 一种基于双通道网络的数字图像篡改盲检测方法
CN110246148B (zh) 多模态的深度信息融合和注意力学习的显著性检测方法
CN112508956A (zh) 一种基于卷积神经网络的道路场景语义分割方法
JP7097641B2 (ja) 畳み込み知覚ハッシュアルゴリズムに基づくループ検出方法
CN109635662B (zh) 一种基于卷积神经网络的道路场景语义分割方法
CN110490205B (zh) 基于全残差空洞卷积神经网络的道路场景语义分割方法
CN112597985B (zh) 一种基于多尺度特征融合的人群计数方法
CN113139989B (zh) 一种基于深度学习的粒子图像测速方法与装置
TWI718750B (zh) 來源分離方法、裝置及非暫態電腦可讀取媒體
CN107229757A (zh) 基于深度学习和哈希编码的视频检索方法
CN110782458B (zh) 一种非对称编码网络的物体图像3d语义预测分割方法
CN112396607A (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN117237559B (zh) 面向数字孪生城市的三维模型数据智能分析方法及系统
CN113192073A (zh) 基于交叉融合网络的服装语义分割方法
CN112991364A (zh) 基于卷积神经网络跨模态融合的道路场景语义分割方法
CN112487915A (zh) 一种基于Embedded YOLO算法的行人检测方法
CN111445432A (zh) 一种基于信息融合卷积神经网络的图像显著性检测方法
CN112257509A (zh) 基于联合信息编码的立体图像单流视觉显著性检测方法
CN112396167B (zh) 一种外观相似度与空间位置信息融合的回环检测方法
CN113362322A (zh) 一种判别辅助和多模态加权融合的显著物体检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant