CN115471718A - 基于多尺度学习的轻量级显著性目标检测模型的构建和检测方法 - Google Patents

基于多尺度学习的轻量级显著性目标检测模型的构建和检测方法 Download PDF

Info

Publication number
CN115471718A
CN115471718A CN202211191605.4A CN202211191605A CN115471718A CN 115471718 A CN115471718 A CN 115471718A CN 202211191605 A CN202211191605 A CN 202211191605A CN 115471718 A CN115471718 A CN 115471718A
Authority
CN
China
Prior art keywords
layer
network block
output
neural network
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211191605.4A
Other languages
English (en)
Inventor
彭艳斌
郑志军
丰明坤
翟治年
潘志刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN202211191605.4A priority Critical patent/CN115471718A/zh
Publication of CN115471718A publication Critical patent/CN115471718A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多尺度学习的轻量级显著性目标检测模型的构建和检测方法,首先,利用多尺度学习机制和深度可分离卷积提取彩色三通道RGB图像特征;其次,利用反向残差块提取深度图像特征;再次,利用通道注意力机制和空间注意力机制增强所述的深度图像特征;接着,将彩色三通道RGB图像特征和增强的深度图像特征进行融合;最后,融合特征经过解码网络和输出层,产生显著性预测图。所述模型通过深度可分离卷积减少参数数量,通过膨胀卷积进行多尺度学习,通过注意力机制挖掘深度图像的有效信息,提高显著性目标检测的效果。

Description

基于多尺度学习的轻量级显著性目标检测模型的构建和检测 方法
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于多尺度学习的轻量级显著性目标检测模型的构建和检测方法。
背景技术
显著性目标检测,又称显著性检测,其目的是检测出自然图片中人眼最为关注的物体或者区域。显著性检测技术在计算机视觉领域的应用很广,包括图像检索、图像分割、目标检测、视觉跟踪、场景分类等。近年来,由于卷积神经网络的蓬勃发展,基于深度学习的显著性目标检测方法取得了巨大的成功。然而,基于深度学习的方法需要强大的计算能力作为支撑,使得显著性目标检测技术难以在实际中应用。尤其在移动设备、自动驾驶、机器人等需要实时处理并且计算资源有限的场景中效果欠佳。设计轻量级显著性目标检测模型无疑是解决上述问题的关键。因此,对基于轻量级卷积神经网络的RGBD图像显著性目标检测进行研究,提出一种基于多尺度学习的轻量级显著性目标检测模型,在资源有限的情况下,提高显著性目标检测的效果。
发明内容
本发明的目的在于针对目前RGBD图像显著性检测方法的不足,提出一种基于多尺度学习的轻量级显著性目标检测模型的构建和检测方法,提高显著性目标检测的效果。
本发明解决上述技术问题所采用的技术方案为:一种基于多尺度学习的轻量级显著性目标检测模型,包括以下步骤:
步骤S1:建立训练样本集。选取M幅彩色三通道RGB图像(即RGB三通道彩色图像)、彩色图像对应的深度图像和彩色图像对应的真实显著图像,构成训练样本集;
步骤S2:建立卷积神经网络。该网络包括输入层、隐藏层和输出层;
步骤S3:将训练样本集中每幅彩色图像和对应的深度图像输入卷积神经网络进行训练,得到训练集中每幅彩色图对应的五幅显著性预测图像,记为{Qi},其中1≤i≤5;
步骤S4:计算训练集中每幅彩色图对应的显著性预测图和对应的真实显著图之间的损失函数值,记为{lossi},其中1≤i≤5,lossi为第i幅显著性预测图和真实显著图之间的损失函数值,采用二元交叉熵损失函数。综合损失函数值为
Figure BDA0003869329870000021
其中0≤α≤1是权重系数;
步骤S5:循环执行步骤S3和步骤S4,在每次循环中,将训练样本输入卷积神经网络,计算综合损失函数值,并进行反向传播,用梯度下降方法来优化网络参数,得到最优权值向量和最优偏置项。
步骤S6:将待预测的彩色图像及其对应的深度图像输入训练好的卷积神经网络模型,获得彩色图像对应的显著性预测图Q1,完成显著性目标检测任务。
本发明中,首先,利用多尺度学习机制和深度可分离卷积提取彩色三通道RGB图像特征;其次,利用反向残差块提取深度图像特征;再次,利用通道注意力机制和空间注意力机制增强所述的深度图像特征;接着,将彩色三通道RGB图像特征和增强的深度图像特征进行融合;最后,融合特征经过解码网络和输出层,产生显著性预测图。所述模型通过深度可分离卷积减少参数数量,通过膨胀卷积进行多尺度学习,通过注意力机制挖掘深度图像的有效信息,提高显著性目标检测的效果。
所述步骤S2中,输入层包括彩色图输入层和深度图输入层,隐藏层包括彩色图轻量特征提取网络、深度图轻量特征提取网络、深度图信息增强网络、全局特征提取网络和解码网络。
彩色图输入层将彩色三通道RGB图像转化为训练用彩色三通道RGB图像,输入到彩色图轻量特征提取网络,要求训练用彩色三通道RGB图像的宽度和高度均为32的整数倍。
深度图输入层将深度图像转化为训练用深度图像,输入到深度图轻量特征提取网络,要求训练用深度图像的宽度和高度均为32的整数倍。
彩色图轻量特征提取网络包含五个依次连接的彩色轻量网络块,深度图轻量特征提取网络包含五个依次连接的深度轻量网络块,深度图信息增强网络包含五个深度增强网络块,第一个深度轻量网络块接收深度图输入层传来的训练用深度图像,输出分别连接到第二个深度轻量网络块和第一个深度增强网络块,第二个深度轻量网络块的输出分别连接到第三个深度轻量网络块和第二个深度增强网络块,第三个深度轻量网络块的输出分别连接到第四个深度轻量网络块和第三个深度增强网络块,第四个深度轻量网络块的输出分别连接到第五个深度轻量网络块和第四个深度增强网络块,第五个深度轻量网络块的输出连接到第五个深度增强网络块。
解码网络包含五个解码神经网络块,第五个彩色轻量网络块和第五个深度增强网络块的输出进行Element-wise addion(逐元素相加)操作后,得到特征图F5输入全局特征提取网络;全局特征提取网络的输出作为第五个解码神经网络块的其中一个输入,特征图F5为第五个解码神经网络块的另一个输入;第五个解码神经网络块的输出作为第四个解码神经网络块的其中一个输入,第四个彩色轻量网络块和第四个深度增强网络块的输出进行Element-wise addion操作后,得到的特征图F4作为第四个解码神经网络块的另一个输入;第四个解码神经网络块的输出作为第三个解码神经网络块的其中一个输入,第三个彩色轻量网络块和第三个深度增强网络块的输出进行Element-wise addion操作后,得到的特征图F3作为第三个解码神经网络块的另一个输入;第三个解码神经网络块的输出作为第二个解码神经网络块的其中一个输入,第二个彩色轻量网络块和第二个深度增强网络块的输出进行Element-wise addion操作后,得到的特征图F2作为第二个解码神经网络块的另一个输入;第二个解码神经网络块的输出作为第一个解码神经网络块的其中一个输入,第一个彩色轻量网络块和第一个深度增强网络块的输出进行Element-wise addion操作后,得到的特征图F1作为第一个解码神经网络块的另一个输入。输出层包含五个预测神经网络块,分别接收五个解码神经网络块的输出为输入,输出五个显著性预测图。
所述的第一个彩色轻量网络块的输入是训练用彩色三通道RGB图像。第一个彩色轻量网络块包含依次连接的第一个降采样神经网络块、第一批标准化层、第一激活层、第一个多尺度神经网络块、第二批标准化层和第二激活层。第一个降采样神网络块包含两个分支,第一个分支包含第一卷积层,第二个分支包含第一池化层,第一卷积层和第一池化层的输出进行堆叠操作后,其结果作为第一个降采样神经网络块的输出。第二个彩色轻量网络块包含依次连接的第二个降采样神经网络块、第三批标准化层、第三激活层、第二个多尺度神经网络块、第四批标准化层和第四激活层。第二个降采样神网络块包含两个分支,第一个分支包含依次连接的第二卷积层和第一深度可分离卷积层,第二个分支包含第二池化层,第一深度可分离卷积层和第二池化层的输出进行堆叠操作后,其结果作为第二个降采样神经网络块的输出。第三个彩色轻量网络块包含依次连接的第三个降采样神经网络块、第五批标准化层、第五激活层、第三个多尺度神经网络块、第六批标准化层和第六激活层。第三个降采样神网络块包含两个分支,第一个分支包含依次连接的第三卷积层和第二深度可分离卷积层,第二个分支包含第三池化层,第二深度可分离卷积层和第三池化层的输出进行堆叠操作后,其结果作为第三个降采样神经网络块的输出。第四个彩色轻量网络块包含依次连接的第四个降采样神经网络块、第七批标准化层、第七激活层、第四个多尺度神经网络块、第八批标准化层和第八激活层。第四个降采样神网络块包含两个分支,第一个分支包含依次连接的第四卷积层和第三深度可分离卷积层,第二个分支包含第四池化层,第三深度可分离卷积层和第四池化层的输出进行堆叠操作后,其结果作为第四个降采样神经网络块的输出。第五个彩色轻量网络块包含依次连接的第五个降采样神经网络块、第九批标准化层、第九激活层、第五个多尺度神经网络块、第十批标准化层和第十激活层。第五个降采样神网络块包含两个分支,第一个分支包含依次连接的第五卷积层和第四深度可分离卷积层,第二个分支包含第五池化层,第四深度可分离卷积层和第五池化层的输出进行堆叠操作后,其结果作为第五个降采样神经网络块的输出。其中,第一至第十激活层的激活方式均为“ReLu”。第一卷积层的卷积核大小为3×3,步长为2,填充为1,第二至第五卷积层的卷积核大小均为1×1,步长均为1,填充均为0。第一至第五卷积层的卷积核个数分别为13、8、8、64、224。第一至第四深度可分离卷积层的卷积核大小均为5×5,步长均为2,填充均为2。第一至第四深度可分离卷积层的卷积核个数分别为8、8、64、224。第一至第五池化层均采用最大池化,池化窗口大小均为2×2,步长均为2。
所述的第一个多尺度神经网络块包含两个分支,第一个分支包含第一个多尺度注意力融合网络块,第二个分支包含第十二卷积层,第一个多尺度注意力融合网络块和第十二卷积层的输出进行Element-wise addition操作,其结果作为第一个多尺度神经网络块的输出。第二个多尺度神经网络块包含两个分支,第一个分支包含第二个多尺度注意力融合网络块,第二个分支包含第十三卷积层,第二个多尺度注意力融合网络块和第十三卷积层的输出进行Element-wise addition操作,其结果作为第二个多尺度神经网络块的输出。第三个多尺度神经网络块包含两个分支,第一个分支包含依次连接的第三至第五个多尺度注意力融合网络块,第二个分支包含第十四卷积层,第五个多尺度注意力融合网络块和第十四卷积层的输出进行Element-wise addition操作,其结果作为第三个多尺度神经网络块的输出。第四个多尺度神经网络块包含两个分支,第一个分支包含依次连接的第六至第十个多尺度注意力融合网络块,第二个分支包含第十五卷积层,第十个多尺度注意力融合网络块和第十五卷积层的输出进行Element-wise addition操作,其结果作为第四个多尺度神经网络块的输出。第五个多尺度神经网络块包含两个分支,第一个分支包含依次连接的第十一至第十三个多尺度注意力融合网络块,第二个分支包含第十六卷积层,第十三个多尺度注意力融合网络块和第十六卷积层的输出进行Element-wise addition操作,其结果作为第五个多尺度神经网络块的输出。第十二至第十六卷积层的卷积核大小均为1×1,步长均为1,填充均为0,卷积核个数分别为16、24、32、96、320。
所述的第一至第十三个多尺度注意力融合网络块结构相同,多尺度注意力融合网络块包含五个处理分支,第一个处理分支的输入是多尺度注意力融合网络块的输入,第一个处理分支包含依次连接的第六池化层、第六卷积层、第十一激活层、第七卷积层和第十二激活层,第一个处理分支的输入和第十二激活层的输出进行维度扩展的相乘操作,其结果作为第一个处理分支的输出。第二个处理分支的输入是第一个处理分支的输出,第二个处理分支包含依次连接的第七池化层、第八卷积层、第十三激活层,第二个处理分支的输入和第十三激活层的输出进行通道扩展的相乘操作,其结果作为第二个处理分支的输出。第三个处理分支的输入是多尺度注意力融合网络块的输入,第三个处理分支包含第九卷积层、第一至第四膨胀深度可分离卷积层,第九卷积层的输入是第三处理分支的输入,第九卷积层的输出分别输入第一至第四膨胀深度可分离卷积层,第一至第四膨胀深度可分离卷积层的输出进行Element-wise addition操作,其结果作为第三个处理分支的输出。第四个处理分支的输入是第三个处理分支的输出,第四个处理分支包含依次连接的第十一批标准化层、第十四激活层、第十卷积层和第十二批标准化层,多尺度注意力融合网络块的输入和第十二批标准化层的输出进行Element-wise addition操作,其结果作为第四个处理分支的输出。第五个处理分支的输入是第四个处理分支的输出,第五个处理分支包含依次连接的第十一卷积层、第十三批标准化层和第十五激活层,第十五激活层的输出是第五个处理分支的输出。第二个处理分支的输出和第五个处理分支的输出进行Element-wisemultiplication(逐元素相乘)操作,其结果是多尺度注意力融合网络块的输出。将多尺度注意力融合网络块的输入通道数记为ch。第六、七、九、十卷积层的卷积核大小均为1×1,步长均为1,填充均为0,第六、七、九、十卷积层的卷积核个数分别为ch/8、ch、ch*4、ch。第八卷积层的卷积核大小为7×7,步长为1,填充为3,卷积核个数为1。第十一卷积层的卷积核大小为3×3,步长为1,填充为1,卷积核个数为ch。第六池化层采用全局最大池化。第七池化层采用沿通道的全局最大池化。第十一、十四和十五激活层的激活方式均为“ReLu”。第十二、十三激活层的激活方式均为“sigmoid”。第一至第四膨胀深度可分离卷积层的卷积核大小均为3×3,步长均为1,填充分别为1、2、4、8,膨胀系数分别为1、2、4、8,卷积核个数均为ch*4。第一个多尺度注意力融合网络块的输入通道数为16,第二个多尺度注意力融合网络块的输入通道数为24,第三至第五个多尺度注意力融合网络块的输入通道数均为32,第六至第十个多尺度注意力融合网络块的输入通道数均为96,第十一至第十三个多尺度注意力融合网络块的输入通道数均为320。
所述的第一至第五个深度轻量网络块结构相同,深度轻量网络块包含依次连接的第十七卷积层、第十四批标准化层、第十六激活层、第一深度可分离卷积层、第十五批标准化层、第十七激活层、第十八卷积层、第十六批标准化层、第十九卷积层、第十七批标准化层、第十八激活层、第二深度可分离卷积层、第十八批标准化层、第十九激活层、第二十卷积层、第十九批标准化层。第十六批标准化层的输出和第十九批标准化层的输出进行Element-wise addition操作,其结果作为深度轻量网络块的输出。将深度轻量网路块的输入通道数记为inc,输出通道数记为ouc。第十七至第二十卷积层的卷积核大小均为1×1,步长均为1,填充均为0,卷积核个数分别为inc*4、ouc、ouc*4、ouc。第十六至第十九激活层的激活方法均为“Relu”,第一至第二深度可分离卷积层的卷积核大小均为3×3,步长分别为2、1,填充均为1,卷积核个数分别为inc*4、ouc*4。第一至第五个深度轻量网络块的输入通道数分别为1、16、24、32、96。第一至第五个深度轻量网络块的输出通道数分别为16、24、32、96、320。
所述的第一至第五个深度增强网络块结构相同,深度增强网络块包含两个依次连接的处理分支。第一个处理分支包含依次连接的第八池化层、第二十一卷积层、第二十激活层、第二十二卷积层和第二十一激活层。深度增强网络块的输入和第二十一激活层的输出进行维度扩展的相乘操作,其结果作为第一个处理分支的输出。第二个处理分支包含依次连接的第九池化层、第二十三卷积层和第二十二激活层,第一个处理分支的输出和第二十二激活层的输出进行通道扩展的相乘操作,其结果作为第二个处理分支的输出,第二个处理分支的输出是深度增强网络块的输出。第八池化层采用全局最大池化,第九池化层采用沿通道的全局最大池化。将深度增强网络块的输入通道数记为inc,第二十一、第二十二卷积层的卷积核大小均为1×1,步长均为1,填充均为0,卷积核个数分别为inc/8、inc。第二十三卷积层的卷积核大小为7×7,步长为1,填充为3,卷积核个数为1。第二十激活层的激活方式为“Relu”,第二十一、第二十二激活层的激活方式均为“Sigmoid”。第一至第五个深度增强网络块的输入通道数分别为16、24、32、96、320。
所述的全局特征提取网络包含五个处理分支,第一个处理分支包含依次连接的第一自适应平均池化层、第二十四卷积层、第二十批标准化层、第二十三激活层和第一上采样层。第二个处理分支包含依次连接的第二自适应平均池化层、第二十五卷积层、第二十一批标准化层、第二十四激活层和第二上采样层。第三个处理分支包含依次连接的第三自适应平均池化层、第二十六卷积层、第二十二批标准化层、第二十五激活层和第三上采样层。第四个处理分支包含依次连接的第四自适应平均池化层、第二十七卷积层、第二十三批标准化层、第二十六激活层和第四上采样层。第一至第四个处理分支的输出和全局特征提取网络的输入进行Concatenation(堆叠)操作,其结果作为第五个处理分支的输入。第五个处理分支包含依次连接的第二十八卷积层、第二十四批标准化层和第二十七激活层,第五个处理分支的输出为全局特征提取网络的输出。第一至第四自适应平均池化层输出特征图大小分别为2×2、4×4、6×6、8×8。第二十四至第二十八卷积层的卷积核大小均为1×1,步长均为1,填充均为0,卷积核个数分别为80、80、80、80、320。第二十三至第二十七激活层的激活方式均为“Relu”。第一至第四上采样层的采样方法均为双线性插值,输出特征图大小均与全局特征提取网络输入特征图大小相同。
所述的第五个解码神经网络块包含依次连接的两个处理分支,第一个处理分支的输入是特征图F5,第一个处理分支包含依次连接的第二十九卷积层和第二十五批标准化层,全局特征提取网络的输出和第二十五批标准化层的输出进行Element-wise addition操作,其结果是第一处理分支的输出,第二处理分支包含依次连接的第五膨胀深度可分离卷积层、第二十六批标准化层、第二十八激活层、第三十卷积层、第二十七批标准化层、第二十九激活层。第二十九激活层的输出为第五个解码神经网络块的输出。第二十九卷积层的卷积的卷积核大小为3×3,步长为1,填充为1,卷积核个数为320。第三十卷积层的卷积核大小为1×1,步长为1,填充为0,卷积核个数为96。第五膨胀深度可分离卷积层的卷积核大小为3×3,步长为1,填充为1,膨胀系数为1,卷积核个数为320。第二十八和第二十九激活层的激活方法为“Relu”。
所述的第四至第一个解码神经网络块结构相同。解码神经网络块包含三个处理分支,第一个处理分支的输入是相应特征图,第一个处理分支包含依次连接的第三十一卷积层和第二十八批标准化层,第二个处理分支的输入是相应的解码神经网络块,第二个处理分支包含第五上采样层,第一个处理分支和第二个处理分支的输出进行Element-wiseaddition操作,其结果输入第三个处理分支,第三个处理分支包含依次连接的第六膨胀深度可分离卷积层、第二十九批标准化层、第三十激活层、第三十二卷积层,第三十批标准化层和第三十一激活层。第三十一激活层的输出是解码神经网络块的输出。将解码神经网络块的输入和输出通道数分别记为inc和ouc。第三十一卷积层的卷积核大小为3×3,步长为1,填充为1,卷积核个数为inc。第三十二卷积层的卷积核大小为1×1,步长为1,填充为0,卷积核个数为ouc。第六膨胀深度可分离卷积层的卷积核大小为3×3,步长为1,填充为2,膨胀系数为2,卷积核个数为inc。第三十和第三十一激活层的激活方法为“Relu”。第四至第一个解码神经网络块的输入通道数分别为96、32、24、16。第四至第一个解码神经网络块的输出通道数分别为32、24、16、16。第五上采样层的系数为2,采样方法为双线性插值。
所述的第一个至第五个预测神经网络块结构相同,预测神经网络块包含依次连接的第三十三卷积层、第三十二激活层和第六上采样层,第六上采样层的输出为预测神经网络块的输出。第三十三卷积层的卷积核大小为1×1,步长为1,填充为0,卷积核个数为1。第三十二激活层的激活方式为“Sigmoid”。第六上采样层的采样方法为双线性插值,输出特征图大小与训练用彩色图大小相同。
与现有技术相比,本发明具有如下优点:
1)本发明提出一种新颖的轻量级多尺度彩色图特征提取模块,它使用膨胀卷积进行多尺度学习,使用深度可分离卷积减少模型参数数量,达到轻量级多尺度学习的目的。
2)本发明使用反向残差块提取轻量级深度图特征,用通道注意力机制和空间注意力机制增强所提取的深度图特征。
3)本发明设计全局特征提取网络,通过金字塔池化机制来获取全局上下文信息,用于指导低层特征,获得准确清晰的显著性预测图。
附图说明
图1为本发明方法构建的卷积神经网络的总体框图;
图2a为本发明方法构建的卷积神经网络中的第二个彩色轻量网络块的结构框图;
图2b为本发明方法构建的卷积神经网络中的第二个降采样神经网络块的结构框图;
图2c为本发明方法构建的卷积神经网络中的第二个深度轻量网络块的结构框图;
图3为本发明方法的显著性检测性能的准确率召回率曲线图;
图4a为本发明方法的显著性检测性能的最大F度量值;
图4b为本发明方法的显著性检测性能的平均绝对误差值;
图5a为第1幅原始彩色三通道RGB图像;
图5b为图5a对应的深度图像;
图5c为利用本发明方法对图5a进行预测得到的显著性预测图像;
图6a为第1幅原始彩色三通道RGB图像;
图6b为图6a对应的深度图像;
图6c为利用本发明方法对图6a进行预测得到的显著性预测图像;
图7a为第1幅原始彩色三通道RGB图像;
图7b为图7a对应的深度图像;
图7c为利用本发明方法对图7a进行预测得到的显著性预测图像。
具体实施方式
以下结合附图实施案例对本发明作进一步详细描述。
如图1所示,本发明提出的一种基于多尺度学习的轻量级显著性目标检测模型,包括以下步骤:
步骤S1:建立训练样本集。选取M幅彩色三通道RGB图像、彩色图像对应的深度图像和彩色图像对应的真实显著图像,构成训练样本集;
步骤S2:建立卷积神经网络。该网络包括输入层、隐藏层和输出层;
步骤S3:将训练样本集中每幅彩色图像和对应的深度图像输入卷积神经网络进行训练,得到训练集中每幅彩色图对应的五幅显著性预测图像,记为{Qi},其中1≤i≤5;
步骤S4:计算训练集中每幅彩色图对应的显著性预测图和对应的真实显著图之间的损失函数值,记为{lossi},其中1≤i≤5,lossi为第i幅显著性预测图和真实显著图之间的损失函数值,采用二元交叉熵损失函数。综合损失函数值为
Figure BDA0003869329870000101
其中0≤α≤1是权重系数;
步骤S5:循环执行步骤S3和步骤S4,在每次循环中,将训练样本输入卷积神经网络,计算综合损失函数值,并进行反向传播,用梯度下降方法来优化网络参数,得到最优权值向量和最优偏置项。
步骤S6:将待预测的彩色图像及其对应的深度图像输入训练好的卷积神经网络模型,获得彩色图像对应的显著性预测图Q1,完成显著性目标检测任务。
所述步骤S2中,输入层包括彩色图输入层和深度图输入层,隐藏层包括彩色图轻量特征提取网络、深度图轻量特征提取网络、深度图信息增强网络、全局特征提取网络和解码网络。
彩色图输入层将彩色三通道RGB图像转化为训练用彩色三通道RGB图像,输入到彩色图轻量特征提取网络,要求训练用彩色三通道RGB图像的宽度和高度均为32的整数倍。
深度图输入层将深度图像转化为训练用深度图像,输入到深度图轻量特征提取网络,要求训练用深度图像的宽度和高度均为32的整数倍。
彩色图轻量特征提取网络包含五个依次连接的彩色轻量网络块,深度图轻量特征提取网络包含五个依次连接的深度轻量网络块,深度图信息增强网络包含五个深度增强网络块,第一个深度轻量网络块接收深度图输入层传来的训练用深度图像,输出分别连接到第二个深度轻量网络块和第一个深度增强网络块,第二个深度轻量网络块的输出分别连接到第三个深度轻量网络块和第二个深度增强网络块,第三个深度轻量网络块的输出分别连接到第四个深度轻量网络块和第三个深度增强网络块,第四个深度轻量网络块的输出分别连接到第五个深度轻量网络块和第四个深度增强网络块,第五个深度轻量网络块的输出连接到第五个深度增强网络块。
解码网络包含五个解码神经网络块,第五个彩色轻量网络块和第五个深度增强网络块的输出进行Element-wise addion操作后,得到特征图F5输入全局特征提取网络;全局特征提取网络的输出作为第五个解码神经网络块的其中一个输入,特征图F5为第五个解码神经网络块的另一个输入;第五个解码神经网络块的输出作为第四个解码神经网络块的其中一个输入,第四个彩色轻量网络块和第四个深度增强网络块的输出进行Element-wiseaddion操作后,得到的特征图F4作为第四个解码神经网络块的另一个输入;第四个解码神经网络块的输出作为第三个解码神经网络块的其中一个输入,第三个彩色轻量网络块和第三个深度增强网络块的输出进行Element-wise addion操作后,得到的特征图F3作为第三个解码神经网络块的另一个输入;第三个解码神经网络块的输出作为第二个解码神经网络块的其中一个输入,第二个彩色轻量网络块和第二个深度增强网络块的输出进行Element-wise addion操作后,得到的特征图F2作为第二个解码神经网络块的另一个输入;第二个解码神经网络块的输出作为第一个解码神经网络块的其中一个输入,第一个彩色轻量网络块和第一个深度增强网络块的输出进行Element-wise addion操作后,得到的特征图F1作为第一个解码神经网络块的另一个输入。输出层包含五个预测神经网络块,分别接收五个解码神经网络块的输出为输入,输出五个显著性预测图。
在此具体实施例中,第一个彩色轻量网络块的输入是训练用彩色三通道RGB图像。第一个彩色轻量网络块包含依次连接的第一个降采样神经网络块、第一批标准化层、第一激活层、第一个多尺度神经网络块、第二批标准化层和第二激活层。第一个降采样神网络块包含两个分支,第一个分支包含第一卷积层,第二个分支包含第一池化层,第一卷积层和第一池化层的输出进行堆叠操作后,其结果作为第一个降采样神经网络块的输出。第二个彩色轻量网络块包含依次连接的第二个降采样神经网络块、第三批标准化层、第三激活层、第二个多尺度神经网络块、第四批标准化层和第四激活层。第二个降采样神网络块包含两个分支,第一个分支包含依次连接的第二卷积层和第一深度可分离卷积层,第二个分支包含第二池化层,第一深度可分离卷积层和第二池化层的输出进行堆叠操作后,其结果作为第二个降采样神经网络块的输出。第三个彩色轻量网络块包含依次连接的第三个降采样神经网络块、第五批标准化层、第五激活层、第三个多尺度神经网络块、第六批标准化层和第六激活层。第三个降采样神网络块包含两个分支,第一个分支包含依次连接的第三卷积层和第二深度可分离卷积层,第二个分支包含第三池化层,第二深度可分离卷积层和第三池化层的输出进行堆叠操作后,其结果作为第三个降采样神经网络块的输出。第四个彩色轻量网络块包含依次连接的第四个降采样神经网络块、第七批标准化层、第七激活层、第四个多尺度神经网络块、第八批标准化层和第八激活层。第四个降采样神网络块包含两个分支,第一个分支包含依次连接的第四卷积层和第三深度可分离卷积层,第二个分支包含第四池化层,第三深度可分离卷积层和第四池化层的输出进行堆叠操作后,其结果作为第四个降采样神经网络块的输出。第五个彩色轻量网络块包含依次连接的第五个降采样神经网络块、第九批标准化层、第九激活层、第五个多尺度神经网络块、第十批标准化层和第十激活层。第五个降采样神网络块包含两个分支,第一个分支包含依次连接的第五卷积层和第四深度可分离卷积层,第二个分支包含第五池化层,第四深度可分离卷积层和第五池化层的输出进行堆叠操作后,其结果作为第五个降采样神经网络块的输出。其中,第一至第十激活层的激活方式均为“ReLu”。第一卷积层的卷积核大小为3×3,步长为2,填充为1,第二至第五卷积层的卷积核大小均为1×1,步长均为1,填充均为0。第一至第五卷积层的卷积核个数分别为13、8、8、64、224。第一至第四深度可分离卷积层的卷积核大小均为5×5,步长均为2,填充均为2。第一至第四深度可分离卷积层的卷积核个数分别为8、8、64、224。第一至第五池化层均采用最大池化,池化窗口大小均为2×2,步长均为2。
在此具体实施例中,第一个多尺度神经网络块包含两个分支,第一个分支包含第一个多尺度注意力融合网络块,第二个分支包含第十二卷积层,第一个多尺度注意力融合网络块和第十二卷积层的输出进行Element-wise addition操作,其结果作为第一个多尺度神经网络块的输出。第二个多尺度神经网络块包含两个分支,第一个分支包含第二个多尺度注意力融合网络块,第二个分支包含第十三卷积层,第二个多尺度注意力融合网络块和第十三卷积层的输出进行Element-wise addition操作,其结果作为第二个多尺度神经网络块的输出。第三个多尺度神经网络块包含两个分支,第一个分支包含依次连接的第三至第五个多尺度注意力融合网络块,第二个分支包含第十四卷积层,第五个多尺度注意力融合网络块和第十四卷积层的输出进行Element-wise addition操作,其结果作为第三个多尺度神经网络块的输出。第四个多尺度神经网络块包含两个分支,第一个分支包含依次连接的第六至第十个多尺度注意力融合网络块,第二个分支包含第十五卷积层,第十个多尺度注意力融合网络块和第十五卷积层的输出进行Element-wise addition操作,其结果作为第四个多尺度神经网络块的输出。第五个多尺度神经网络块包含两个分支,第一个分支包含依次连接的第十一至第十三个多尺度注意力融合网络块,第二个分支包含第十六卷积层,第十三个多尺度注意力融合网络块和第十六卷积层的输出进行Element-wiseaddition操作,其结果作为第五个多尺度神经网络块的输出。第十二至第十六卷积层的卷积核大小均为1×1,步长均为1,填充均为0,卷积核个数分别为16、24、32、96、320。
在此具体实施例中,第一至第十三个多尺度注意力融合网络块结构相同,多尺度注意力融合网络块包含五个处理分支,第一个处理分支的输入是多尺度注意力融合网络块的输入,第一个处理分支包含依次连接的第六池化层、第六卷积层、第十一激活层、第七卷积层和第十二激活层,第一个处理分支的输入和第十二激活层的输出进行维度扩展的相乘操作,其结果作为第一个处理分支的输出。第二个处理分支的输入是第一个处理分支的输出,第二个处理分支包含依次连接的第七池化层、第八卷积层、第十三激活层,第二个处理分支的输入和第十三激活层的输出进行通道扩展的相乘操作,其结果作为第二个处理分支的输出。第三个处理分支的输入是多尺度注意力融合网络块的输入,第三个处理分支包含第九卷积层、第一至第四膨胀深度可分离卷积层,第九卷积层的输入是第三处理分支的输入,第九卷积层的输出分别输入第一至第四膨胀深度可分离卷积层,第一至第四膨胀深度可分离卷积层的输出进行Element-wise addition操作,其结果作为第三个处理分支的输出。第四个处理分支的输入是第三个处理分支的输出,第四个处理分支包含依次连接的第十一批标准化层、第十四激活层、第十卷积层和第十二批标准化层,多尺度注意力融合网络块的输入和第十二批标准化层的输出进行Element-wise addition操作,其结果作为第四个处理分支的输出。第五个处理分支的输入是第四个处理分支的输出,第五个处理分支包含依次连接的第十一卷积层、第十三批标准化层和第十五激活层,第十五激活层的输出是第五个处理分支的输出。第二个处理分支的输出和第五个处理分支的输出进行Element-wise multiplication操作,其结果是多尺度注意力融合网络块的输出。将多尺度注意力融合网络块的输入通道数记为ch。第六、七、九、十卷积层的卷积核大小均为1×1,步长均为1,填充均为0,第六、七、九、十卷积层的卷积核个数分别为ch/8、ch、ch*4、ch。第八卷积层的卷积核大小为7×7,步长为1,填充为3,卷积核个数为1。第十一卷积层的卷积核大小为3×3,步长为1,填充为1,卷积核个数为ch。第六池化层采用全局最大池化。第七池化层采用沿通道的全局最大池化。第十一、十四和十五激活层的激活方式均为“ReLu”。第十二、十三激活层的激活方式均为“sigmoid”。第一至第四膨胀深度可分离卷积层的卷积核大小均为3×3,步长均为1,填充分别为1、2、4、8,膨胀系数分别为1、2、4、8,卷积核个数均为ch*4。第一个多尺度注意力融合网络块的输入通道数为16,第二个多尺度注意力融合网络块的输入通道数为24,第三至第五个多尺度注意力融合网络块的输入通道数均为32,第六至第十个多尺度注意力融合网络块的输入通道数均为96,第十一至第十三个多尺度注意力融合网络块的输入通道数均为320。
在此具体实施例中,第一至第五个深度轻量网络块结构相同,深度轻量网络块包含依次连接的第十七卷积层、第十四批标准化层、第十六激活层、第一深度可分离卷积层、第十五批标准化层、第十七激活层、第十八卷积层、第十六批标准化层、第十九卷积层、第十七批标准化层、第十八激活层、第二深度可分离卷积层、第十八批标准化层、第十九激活层、第二十卷积层、第十九批标准化层。第十六批标准化层的输出和第十九批标准化层的输出进行Element-wise addition操作,其结果作为深度轻量网络块的输出。将深度轻量网路块的输入通道数记为inc,输出通道数记为ouc。第十七至第二十卷积层的卷积核大小均为1×1,步长均为1,填充均为0,卷积核个数分别为inc*4、ouc、ouc*4、ouc。第十六至第十九激活层的激活方法均为“Relu”,第一至第二深度可分离卷积层的卷积核大小均为3×3,步长分别为2、1,填充均为1,卷积核个数分别为inc*4、ouc*4。第一至第五个深度轻量网络块的输入通道数分别为1、16、24、32、96。第一至第五个深度轻量网络块的输出通道数分别为16、24、32、96、320。
在此具体实施例中,第一至第五个深度增强网络块结构相同,深度增强网络块包含两个依次连接的处理分支。第一个处理分支包含依次连接的第八池化层、第二十一卷积层、第二十激活层、第二十二卷积层和第二十一激活层。深度增强网络块的输入和第二十一激活层的输出进行维度扩展的相乘操作,其结果作为第一个处理分支的输出。第二个处理分支包含依次连接的第九池化层、第二十三卷积层和第二十二激活层,第一个处理分支的输出和第二十二激活层的输出进行通道扩展的相乘操作,其结果作为第二个处理分支的输出,第二个处理分支的输出是深度增强网络块的输出。第八池化层采用全局最大池化,第九池化层采用沿通道的全局最大池化。将深度增强网络块的输入通道数记为inc,第二十一、第二十二卷积层的卷积核大小均为1×1,步长均为1,填充均为0,卷积核个数分别为inc/8、inc。第二十三卷积层的卷积核大小为7×7,步长为1,填充为3,卷积核个数为1。第二十激活层的激活方式为“Relu”,第二十一、第二十二激活层的激活方式均为“Sigmoid”。第一至第五个深度增强网络块的输入通道数分别为16、24、32、96、320。
在此具体实施例中,全局特征提取网络包含五个处理分支,第一个处理分支包含依次连接的第一自适应平均池化层、第二十四卷积层、第二十批标准化层、第二十三激活层和第一上采样层。第二个处理分支包含依次连接的第二自适应平均池化层、第二十五卷积层、第二十一批标准化层、第二十四激活层和第二上采样层。第三个处理分支包含依次连接的第三自适应平均池化层、第二十六卷积层、第二十二批标准化层、第二十五激活层和第三上采样层。第四个处理分支包含依次连接的第四自适应平均池化层、第二十七卷积层、第二十三批标准化层、第二十六激活层和第四上采样层。第一至第四个处理分支的输出和全局特征提取网络的输入进行Concatenation操作,其结果作为第五个处理分支的输入。第五个处理分支包含依次连接的第二十八卷积层、第二十四批标准化层和第二十七激活层,第五个处理分支的输出为全局特征提取网络的输出。第一至第四自适应平均池化层输出特征图大小分别为2×2、4×4、6×6、8×8。第二十四至第二十八卷积层的卷积核大小均为1×1,步长均为1,填充均为0,卷积核个数分别为80、80、80、80、320。第二十三至第二十七激活层的激活方式均为“Relu”。第一至第四上采样层的采样方法均为双线性插值,输出特征图大小均与全局特征提取网络输入特征图大小相同。
在此具体实施例中,第五个解码神经网络块包含依次连接的两个处理分支,第一个处理分支的输入是特征图F5,第一个处理分支包含依次连接的第二十九卷积层和第二十五批标准化层,全局特征提取网络的输出和第二十五批标准化层的输出进行Element-wiseaddition操作,其结果是第一处理分支的输出,第二处理分支包含依次连接的第五膨胀深度可分离卷积层、第二十六批标准化层、第二十八激活层、第三十卷积层、第二十七批标准化层、第二十九激活层。第二十九激活层的输出为第五个解码神经网络块的输出。第二十九卷积层的卷积的卷积核大小为3×3,步长为1,填充为1,卷积核个数为320。第三十卷积层的卷积核大小为1×1,步长为1,填充为0,卷积核个数为96。第五膨胀深度可分离卷积层的卷积核大小为3×3,步长为1,填充为1,膨胀系数为1,卷积核个数为320。第二十八和第二十九激活层的激活方法为“Relu”。
在此具体实施例中,第四至第一个解码神经网络块结构相同。解码神经网络块包含三个处理分支,第一个处理分支的输入是相应特征图,第一个处理分支包含依次连接的第三十一卷积层和第二十八批标准化层,第二个处理分支的输入是相应的解码神经网络块,第二个处理分支包含第五上采样层,第一个处理分支和第二个处理分支的输出进行Element-wise addition操作,其结果输入第三个处理分支,第三个处理分支包含依次连接的第六膨胀深度可分离卷积层、第二十九批标准化层、第三十激活层、第三十二卷积层,第三十批标准化层和第三十一激活层。第三十一激活层的输出是解码神经网络块的输出。将解码神经网络块的输入和输出通道数分别记为inc和ouc。第三十一卷积层的卷积的卷积核大小为3×3,步长为1,填充为1,卷积核个数为inc。第三十二卷积层的卷积核大小为1×1,步长为1,填充为0,卷积核个数为ouc。第六膨胀深度可分离卷积层的卷积核大小为3×3,步长为1,填充为2,膨胀系数为2,卷积核个数为inc。第三十和第三十一激活层的激活方法为“Relu”。第四至第一个解码神经网络块的输入通道数分别为96、32、24、16。第四至第一个解码神经网络块的输出通道数分别为32、24、16、16。第五上采样层的系数为2,采样方法为双线性插值。
在此具体实施例中,第一个至第五个预测神经网络块结构相同,预测神经网络块包含依次连接的第三十三卷积层、第三十二激活层和第六上采样层,第六上采样层的输出为预测神经网络块的输出。第三十三卷积层的卷积核大小为1×1,步长为1,填充为0,卷积核个数为1。第三十二激活层的激活方式为“Sigmoid”。第六上采样层的采样方法为双线性插值,输出特征图大小与训练用彩色图大小相同。
为了进一步验证本发明的可行性和有效性,进行试验。采用pytorch框架,用python语言编写基于多尺度的轻量级显著性目标检测模型。实验设备为英特尔i5-7500处理器,NVIDIA RTX 2080Ti显卡。采用显著性检测NJU2K数据集的测试集来验证本发明方法的检测效果(取500幅彩色三通道RGB图像以及对应的深度图像)。为了测试本发明方法的性能,使用评估显著性目标检测方法的3个常用客观参量作为评价指标:准确率召回率曲线(Precision Recall Curve,PR)、F度量(F-Measure)和平均绝对误差(Mean AbsoluteError,MAE)。卷积神经网络的总体框图如图1所示,反映本发明方法性能的准确率召回率曲线如图3所示,反映本发明方法性能的最大F度量值(Max F)如图4a所示,最大F度量值为0.8926,反映本发明方法性能的平均绝对误差如图4b所示,平均绝对误差值为0.0643。
为了测试本发明方法的处理速度,利用训练好的模型对数据集中的图像的进行处理,设置不同的batchsize,得到处理总时间,从而计算处理速度。本发明方法的处理速度如表1所示。
表1本发明方法的处理速度指标值
Figure BDA0003869329870000171
从表1可以看出,利用本发明方法设计的轻量级网络的处理速度较快,这是因为本发明方法采用了轻量级设计,在不损失检测性能的基础上,降低了模型的参数量(6.2M),因而计算速度快。
图5a给出了第1幅原始彩色三通道RGB图像;图5b给出了图5a对应的深度图像,图5c给出了利用本发明方法对图5a进行预测得到的显著性预测图像;图6a给出了第2幅原始彩色三通道RGB图像;图6b给出了图6a对应的深度图像,图6c给出了利用本发明方法对图6a进行预测得到的显著性预测图像;图7a给出了第3幅原始彩色三通道RGB图像;图7b给出了图7a对应的深度图像,图7c给出了利用本发明方法对图7a进行预测得到的显著性预测图像。对比图5a和图5c、图6a和图6c、图7a和图7c,可以看出利用本发明方法得到的显著性预测图的检测精度较高。

Claims (10)

1.一种基于多尺度学习的轻量级显著性目标检测模型的构建和检测方法,其特征在于,包括以下步骤:
步骤S1:建立训练样本集;
步骤S2:建立卷积神经网络,卷积神经网络包括输入层、隐藏层和输出层;
步骤S3:将训练样本集中每幅彩色图像和对应的深度图像输入卷积神经网络进行训练,得到训练样本集中每幅彩色图像对应的五幅显著性预测图像,记为{Qi},其中1≤i≤5;
步骤S4:计算训练样本集中每幅彩色图像对应的显著性预测图和对应的真实显著图之间的损失函数值,记为{lossi},其中1≤i≤5,lossi为第i幅显著性预测图和真实显著图之间的损失函数值,采用二元交叉熵损失函数,综合损失函数值为
Figure FDA0003869329860000011
其中0≤α≤1是权重系数;
步骤S5:循环执行步骤S3和步骤S4,在每次循环中,将训练样本输入卷积神经网络,计算综合损失函数值,并进行反向传播,用梯度下降方法来优化网络参数,得到最优权值向量和最优偏置项,获得训练好的卷积神经网络模型,即为基于多尺度学习的轻量级显著性目标检测模型;
步骤S6:将待预测的彩色图像及其对应的深度图像输入基于多尺度学习的轻量级显著性目标检测模型,获得彩色图像对应的显著性预测图Q1,完成显著性目标检测任务。
2.根据权利要求1所述的基于多尺度学习的轻量级显著性目标检测模型的构建和检测方法,其特征在于,步骤S1中,建立训练样本集,具体包括:
选取RGB三通道彩色图像、彩色图像对应的深度图像和彩色图像对应的真实显著图像,构成训练样本集。
3.根据权利要求1所述的基于多尺度学习的轻量级显著性目标检测模型的构建和检测方法,其特征在于,步骤S2中,所述的输入层包括彩色图输入层和深度图输入层,所述的隐藏层包括彩色图轻量特征提取网络、深度图轻量特征提取网络、深度图信息增强网络、全局特征提取网络和解码网络。
4.根据权利要求3所述的基于多尺度学习的轻量级显著性目标检测模型的构建和检测方法,其特征在于,所述的彩色图轻量特征提取网络包含五个依次连接的彩色轻量网络块;
所述的深度图轻量特征提取网络包含五个依次连接的深度轻量网络块;
所述的深度图信息增强网络包含五个深度增强网络块;
第一个深度轻量网络块接收深度图输入层传来的训练用深度图像,输出分别连接到第二个深度轻量网络块和第一个深度增强网络块,第二个深度轻量网络块的输出分别连接到第三个深度轻量网络块和第二个深度增强网络块,第三个深度轻量网络块的输出分别连接到第四个深度轻量网络块和第三个深度增强网络块,第四个深度轻量网络块的输出分别连接到第五个深度轻量网络块和第四个深度增强网络块,第五个深度轻量网络块的输出连接到第五个深度增强网络块。
5.根据权利要求4所述的基于多尺度学习的轻量级显著性目标检测模型的构建和检测方法,其特征在于,所述的解码网络包含五个解码神经网络块,第五个彩色轻量网络块和第五个深度增强网络块的输出进行Element-wise addion操作后,得到特征图F5输入全局特征提取网络;
全局特征提取网络的输出作为第五个解码神经网络块的其中一个输入,特征图F5为第五个解码神经网络块的另一个输入;
第五个解码神经网络块的输出作为第四个解码神经网络块的其中一个输入,第四个彩色轻量网络块和第四个深度增强网络块的输出进行Element-wise addion操作后,得到的特征图F4作为第四个解码神经网络块的另一个输入;
第四个解码神经网络块的输出作为第三个解码神经网络块的其中一个输入,第三个彩色轻量网络块和第三个深度增强网络块的输出进行Element-wise addion操作后,得到的特征图F3作为第三个解码神经网络块的另一个输入;
第三个解码神经网络块的输出作为第二个解码神经网络块的其中一个输入,第二个彩色轻量网络块和第二个深度增强网络块的输出进行Element-wise addion操作后,得到的特征图F2作为第二个解码神经网络块的另一个输入;
第二个解码神经网络块的输出作为第一个解码神经网络块的其中一个输入,第一个彩色轻量网络块和第一个深度增强网络块的输出进行Element-wise addion操作后,得到的特征图F1作为第一个解码神经网络块的另一个输入;
输出层包含五个预测神经网络块,分别接收五个解码神经网络块的输出为输入,输出五个显著性预测图。
6.根据权利要求5所述的基于多尺度学习的轻量级显著性目标检测模型的构建和检测方法,其特征在于,所述的第一个彩色轻量网络块的输入是训练用RGB三通道彩色图像,第一个彩色轻量网络块包含依次连接的第一个降采样神经网络块、第一批标准化层、第一激活层、第一个多尺度神经网络块、第二批标准化层和第二激活层;第一个降采样神网络块包含两个分支,第一个分支包含第一卷积层,第二个分支包含第一池化层,第一卷积层和第一池化层的输出进行堆叠操作后,其结果作为第一个降采样神经网络块的输出;
第二个彩色轻量网络块包含依次连接的第二个降采样神经网络块、第三批标准化层、第三激活层、第二个多尺度神经网络块、第四批标准化层和第四激活层;第二个降采样神网络块包含两个分支,第一个分支包含依次连接的第二卷积层和第一深度可分离卷积层,第二个分支包含第二池化层,第一深度可分离卷积层和第二池化层的输出进行堆叠操作后,其结果作为第二个降采样神经网络块的输出;
第三个彩色轻量网络块包含依次连接的第三个降采样神经网络块、第五批标准化层、第五激活层、第三个多尺度神经网络块、第六批标准化层和第六激活层;第三个降采样神网络块包含两个分支,第一个分支包含依次连接的第三卷积层和第二深度可分离卷积层,第二个分支包含第三池化层,第二深度可分离卷积层和第三池化层的输出进行堆叠操作后,其结果作为第三个降采样神经网络块的输出;
第四个彩色轻量网络块包含依次连接的第四个降采样神经网络块、第七批标准化层、第七激活层、第四个多尺度神经网络块、第八批标准化层和第八激活层;第四个降采样神网络块包含两个分支,第一个分支包含依次连接的第四卷积层和第三深度可分离卷积层,第二个分支包含第四池化层,第三深度可分离卷积层和第四池化层的输出进行堆叠操作后,其结果作为第四个降采样神经网络块的输出;
第五个彩色轻量网络块包含依次连接的第五个降采样神经网络块、第九批标准化层、第九激活层、第五个多尺度神经网络块、第十批标准化层和第十激活层;第五个降采样神网络块包含两个分支,第一个分支包含依次连接的第五卷积层和第四深度可分离卷积层,第二个分支包含第五池化层,第四深度可分离卷积层和第五池化层的输出进行堆叠操作后,其结果作为第五个降采样神经网络块的输出。
7.根据权利要求6所述的基于多尺度学习的轻量级显著性目标检测模型的构建和检测方法,其特征在于,所述的第一个多尺度神经网络块包含两个分支,第一个分支包含第一个多尺度注意力融合网络块,第二个分支包含第十二卷积层,第一个多尺度注意力融合网络块和第十二卷积层的输出进行Element-wise addition操作,其结果作为第一个多尺度神经网络块的输出;
第二个多尺度神经网络块包含两个分支,第一个分支包含第二个多尺度注意力融合网络块,第二个分支包含第十三卷积层,第二个多尺度注意力融合网络块和第十三卷积层的输出进行Element-wise addition操作,其结果作为第二个多尺度神经网络块的输出;
第三个多尺度神经网络块包含两个分支,第一个分支包含依次连接的第三至第五个多尺度注意力融合网络块,第二个分支包含第十四卷积层,第五个多尺度注意力融合网络块和第十四卷积层的输出进行Element-wise addition操作,其结果作为第三个多尺度神经网络块的输出;
第四个多尺度神经网络块包含两个分支,第一个分支包含依次连接的第六至第十个多尺度注意力融合网络块,第二个分支包含第十五卷积层,第十个多尺度注意力融合网络块和第十五卷积层的输出进行Element-wise addition操作,其结果作为第四个多尺度神经网络块的输出;
第五个多尺度神经网络块包含两个分支,第一个分支包含依次连接的第十一至第十三个多尺度注意力融合网络块,第二个分支包含第十六卷积层,第十三个多尺度注意力融合网络块和第十六卷积层的输出进行Element-wise addition操作,其结果作为第五个多尺度神经网络块的输出;
所述的第一至第十三个多尺度注意力融合网络块结构相同,多尺度注意力融合网络块包含五个处理分支,第一个处理分支的输入是多尺度注意力融合网络块的输入,第一个处理分支包含依次连接的第六池化层、第六卷积层、第十一激活层、第七卷积层和第十二激活层,第一个处理分支的输入和第十二激活层的输出进行维度扩展的相乘操作,其结果作为第一个处理分支的输出;
第二个处理分支的输入是第一个处理分支的输出,第二个处理分支包含依次连接的第七池化层、第八卷积层、第十三激活层,第二个处理分支的输入和第十三激活层的输出进行通道扩展的相乘操作,其结果作为第二个处理分支的输出;
第三个处理分支的输入是多尺度注意力融合网络块的输入,第三个处理分支包含第九卷积层、第一至第四膨胀深度可分离卷积层,第九卷积层的输入是第三处理分支的输入,第九卷积层的输出分别输入第一至第四膨胀深度可分离卷积层,第一至第四膨胀深度可分离卷积层的输出进行Element-wise addition操作,其结果作为第三个处理分支的输出;
第四个处理分支的输入是第三个处理分支的输出,第四个处理分支包含依次连接的第十一批标准化层、第十四激活层、第十卷积层和第十二批标准化层,多尺度注意力融合网络块的输入和第十二批标准化层的输出进行Element-wise addition操作,其结果作为第四个处理分支的输出;
第五个处理分支的输入是第四个处理分支的输出,第五个处理分支包含依次连接的第十一卷积层、第十三批标准化层和第十五激活层,第十五激活层的输出是第五个处理分支的输出;
第二个处理分支的输出和第五个处理分支的输出进行Element-wise multiplication操作,其结果是多尺度注意力融合网络块的输出。
8.根据权利要求4所述的基于多尺度学习的轻量级显著性目标检测模型的构建和检测方法,其特征在于,所述的第一至第五个深度轻量网络块结构相同,深度轻量网络块包含依次连接的第十七卷积层、第十四批标准化层、第十六激活层、第一深度可分离卷积层、第十五批标准化层、第十七激活层、第十八卷积层、第十六批标准化层、第十九卷积层、第十七批标准化层、第十八激活层、第二深度可分离卷积层、第十八批标准化层、第十九激活层、第二十卷积层、第十九批标准化层;
第十六批标准化层的输出和第十九批标准化层的输出进行Element-wise addition操作,其结果作为深度轻量网络块的输出;
所述的第一至第五个深度增强网络块结构相同,深度增强网络块包含两个依次连接的处理分支;第一个处理分支包含依次连接的第八池化层、第二十一卷积层、第二十激活层、第二十二卷积层和第二十一激活层;深度增强网络块的输入和第二十一激活层的输出进行维度扩展的相乘操作,其结果作为第一个处理分支的输出;
第二个处理分支包含依次连接的第九池化层、第二十三卷积层和第二十二激活层,第一个处理分支的输出和第二十二激活层的输出进行通道扩展的相乘操作,其结果作为第二个处理分支的输出,第二个处理分支的输出是深度增强网络块的输出。
9.根据权利要求3所述的基于多尺度学习的轻量级显著性目标检测模型的构建和检测方法,其特征在于,所述的全局特征提取网络包含五个处理分支,第一个处理分支包含依次连接的第一自适应平均池化层、第二十四卷积层、第二十批标准化层、第二十三激活层和第一上采样层;
第二个处理分支包含依次连接的第二自适应平均池化层、第二十五卷积层、第二十一批标准化层、第二十四激活层和第二上采样层;
第三个处理分支包含依次连接的第三自适应平均池化层、第二十六卷积层、第二十二批标准化层、第二十五激活层和第三上采样层;
第四个处理分支包含依次连接的第四自适应平均池化层、第二十七卷积层、第二十三批标准化层、第二十六激活层和第四上采样层;
第一至第四个处理分支的输出和全局特征提取网络的输入进行Concatenation操作,其结果作为第五个处理分支的输入;
第五个处理分支包含依次连接的第二十八卷积层、第二十四批标准化层和第二十七激活层,第五个处理分支的输出为全局特征提取网络的输出。
10.根据权利要求5所述的基于多尺度学习的轻量级显著性目标检测模型的构建和检测方法,其特征在于,第五个解码神经网络块包含依次连接的两个处理分支,第一个处理分支的输入是特征图F5,第一个处理分支包含依次连接的第二十九卷积层和第二十五批标准化层,全局特征提取网络的输出和第二十五批标准化层的输出进行Element-wiseaddition操作,其结果是第一处理分支的输出,第二处理分支包含依次连接的第五膨胀深度可分离卷积层、第二十六批标准化层、第二十八激活层、第三十卷积层、第二十七批标准化层、第二十九激活层,第二十九激活层的输出为第五个解码神经网络块的输出;
第四至第一个解码神经网络块结构相同,解码神经网络块包含三个处理分支,第一个处理分支的输入是相应特征图,第一个处理分支包含依次连接的第三十一卷积层和第二十八批标准化层,第二个处理分支的输入是相应的解码神经网络块,第二个处理分支包含第五上采样层,第一个处理分支和第二个处理分支的输出进行Element-wise addition操作,其结果输入第三个处理分支,第三个处理分支包含依次连接的第六膨胀深度可分离卷积层、第二十九批标准化层、第三十激活层、第三十二卷积层,第三十批标准化层和第三十一激活层,第三十一激活层的输出是解码神经网络块的输出;
所述的第一个至第五个预测神经网络块结构相同,预测神经网络块包含依次连接的第三十三卷积层、第三十二激活层和第六上采样层,第六上采样层的输出为预测神经网络块的输出。
CN202211191605.4A 2022-09-28 2022-09-28 基于多尺度学习的轻量级显著性目标检测模型的构建和检测方法 Pending CN115471718A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211191605.4A CN115471718A (zh) 2022-09-28 2022-09-28 基于多尺度学习的轻量级显著性目标检测模型的构建和检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211191605.4A CN115471718A (zh) 2022-09-28 2022-09-28 基于多尺度学习的轻量级显著性目标检测模型的构建和检测方法

Publications (1)

Publication Number Publication Date
CN115471718A true CN115471718A (zh) 2022-12-13

Family

ID=84334258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211191605.4A Pending CN115471718A (zh) 2022-09-28 2022-09-28 基于多尺度学习的轻量级显著性目标检测模型的构建和检测方法

Country Status (1)

Country Link
CN (1) CN115471718A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116362503A (zh) * 2023-03-30 2023-06-30 国网河南省电力公司安阳供电公司 基于人工智能的电力调节方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116362503A (zh) * 2023-03-30 2023-06-30 国网河南省电力公司安阳供电公司 基于人工智能的电力调节方法及系统
CN116362503B (zh) * 2023-03-30 2023-11-07 国网河南省电力公司安阳供电公司 基于人工智能的电力调节方法及系统

Similar Documents

Publication Publication Date Title
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
WO2022017025A1 (zh) 图像处理方法、装置、存储介质以及电子设备
CN113888744A (zh) 一种基于Transformer视觉上采样模块的图像语义分割方法
CN110059728B (zh) 基于注意力模型的rgb-d图像视觉显著性检测方法
CN111079739B (zh) 一种多尺度注意力特征检测方法
CN113313810B (zh) 一种透明物体的6d姿态参数计算方法
CN111915660A (zh) 基于共享特征和注意力上采样的双目视差匹配方法及系统
CN112927209B (zh) 一种基于cnn的显著性检测系统和方法
CN112164077B (zh) 基于自下而上路径增强的细胞实例分割方法
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN114897136A (zh) 多尺度注意力机制方法及模块和图像处理方法及装置
CN112149526B (zh) 一种基于长距离信息融合的车道线检测方法及系统
CN114998756A (zh) 一种基于yolov5的遥感图像检测方法、装置及存储介质
CN116363750A (zh) 人体姿态预测方法、装置、设备及可读存储介质
Niu et al. Boundary-aware RGBD salient object detection with cross-modal feature sampling
CN115471718A (zh) 基于多尺度学习的轻量级显著性目标检测模型的构建和检测方法
CN113393434A (zh) 一种基于非对称双流网络架构的rgb-d显著性检测方法
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
CN116823610A (zh) 一种基于深度学习的水下图像超分辨率生成方法和系统
TWI809957B (zh) 物件偵測方法及電子裝置
CN111242114A (zh) 文字识别方法及装置
CN113222016B (zh) 一种基于高层和低层特征交叉增强的变化检测方法及装置
CN113919479B (zh) 一种提取数据特征的方法和相关装置
Che et al. Research on an underwater image segmentation algorithm based on YOLOv8
CN114882405B (zh) 一种基于时空双流金字塔网络架构的视频显著性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination