CN114299305A - 聚合密集和注意力多尺度特征的显著性目标检测算法 - Google Patents
聚合密集和注意力多尺度特征的显著性目标检测算法 Download PDFInfo
- Publication number
- CN114299305A CN114299305A CN202111654905.7A CN202111654905A CN114299305A CN 114299305 A CN114299305 A CN 114299305A CN 202111654905 A CN202111654905 A CN 202111654905A CN 114299305 A CN114299305 A CN 114299305A
- Authority
- CN
- China
- Prior art keywords
- features
- feature
- information
- attention
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 38
- 230000004931 aggregating effect Effects 0.000 title claims description 13
- 230000004913 activation Effects 0.000 claims abstract description 16
- 230000002776 aggregation Effects 0.000 claims abstract description 12
- 238000004220 aggregation Methods 0.000 claims abstract description 12
- 230000009467 reduction Effects 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 34
- 238000011176 pooling Methods 0.000 claims description 28
- 238000000034 method Methods 0.000 claims description 24
- 238000005096 rolling process Methods 0.000 claims description 10
- 230000010354 integration Effects 0.000 claims description 9
- 238000005728 strengthening Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 3
- 238000002156 mixing Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000003014 reinforcing effect Effects 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 3
- 239000000654 additive Substances 0.000 claims description 2
- 230000000996 additive effect Effects 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 description 6
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000007865 diluting Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉领域领域,提供了一种聚合密集和注意力多尺度特征的显著性目标检测算法,包括以下步骤:首先,利用预训练好的ResNet‑50网络作为特征编码器从输入图像中提取初始多层次特征;随后,初始多层次特征通过深层稠密特征探索模块通过平行集成卷积块和稠密连接充分地提取和利用多尺度上下文信息增强特征的多样性和相关性;之后,优化后的多层次特征输入多尺度通道注意力强化模块通过集成多视角注意力特征强化通道中显著性目标信息和压缩背景来生成高质量特征表示;最后,生成的高质量特征表示进行降维和激活,生成的初始显著性图利用混合损失函数进行深层监督训练。
Description
技术领域:
本发明涉及计算机视觉领域,具体来说,涉及了聚合密集和注意 力多尺度特征的显著性目标检测。
背景技术:
本部分的陈述仅仅是涉及到了与本发明相关的背景技术,并不 必然构成现有技术。
显著性目标检测受人类视觉注意力机制所启发,目的是从单一 图像中区分最显著的目标或区域并将其从背景中分割出来,最终以 二值图的形式输出。由于显著性目标检测方法高效快速地处理图像 数据的能力,它作为一个预处理阶段被广泛地应用于其他计算机视 觉任务中。例如图像分割,视觉追踪,图像检索,自动水下机器 人,行人重识别,视频压缩,等等。
显著性目标检测(SOD)不仅需要充分地理解图像内容用于准确地 定位显著性目标而且分割后显著性目标需要具有丰富的边缘细节信 息,使得显著性目标检测在计算机视觉领域中仍然是一个巨大的挑 战。近十年来,大量的模型被提出用来有效地解决显著性目标检测的 诸多问题。现存的显著性目标检测模型根据能否自动选择特征大致可 以分为两类:基于传统的显著性目标检测模型和基于深度学习的显著 性目标检测模型。传统的显著性目标检测模型主要依赖手工特征,例 如颜色、对比度、纹理等信息,以一种自底向上的方式预测显著性 目标。然而传统方法由于结构上的限制无法有效地利用图像中的高层 次语义特征,因而大大降低了从复杂背景环境中预测显著性目标的准 确性。
近年来,由于卷积神经网络(CNN)和全卷积神经网络(FCN)层 次化的结构可以充分地捕获多层次特征,成功的打破了传统方法结构 上的限制。基于深度学习的SOD模型利用层次化的结构可以充分捕获 多层次特征用于预测显著性目标,例如,Short_Connect和Amulet 等方法通过利用不同的策略交互初始多层次特征中的不同信息(低层 次局部细节信息和高层次全局语义信息)生成包含信息更丰富信息的 特征用于预测显著性目标或区域;然而仅仅通过不同的融合策略优化 初始多层次特征的方法是次优化的,生成的显著性图性能无法达到令 人满意的结果。刘等人研究发现,丰富感受野的空洞卷积和卷积操作可以提取更丰富的特征(包含多尺度上下文信息),多尺度信息的聚 合可以进一步增强特征的多样性。CPD,Stack-UNet和MINet等方法 设计了一系列的多尺度特征提取模块有效提取特征中的多尺度信息 用于更准确地预测显著性目标。虽然这些方法相对于之前直接聚合多 层次特征的方法性能上有了很大的提升,然而过大填充率的卷积核内 部结构非常稀疏捕获信息的能力很差且捕获到的信息之间不具相关 性,会造成预测生成的显著性图不够准确。另外,考虑到并不是通道 中的所有特征对于预测显著性区域都有用,相反有些冗余特征会阻碍 准确地预测显著性目标。为此一些基于注意力机制的方法设计了许多 单一尺度注意力机制或门函数增强通道中前景信息的显著性,减少复 杂复杂背景干扰。尽管基于单一尺度注意力机制的显著性目标检测方 法取得了非凡的成就,然而单一尺度的注意力机制由于特征尺度上的 限制,仍然不能够准确地推理种类复杂多变且尺寸不固定的显著性目 标。
发明内容
为了缓解上述问题,我们设计了聚集密集和注意多尺度特征网 络用于显著性目标检测,名字叫做DAMFNet。如图1所示,我们的 模型预测生成的显著性图更接近于真值标签,这意味着我们的方法 不仅可以准确地定位显著性目标而且分割出的目标边缘细节信息 也非常丰富。DAMFNet包含两个模块:深层稠密特征探索(DDFE) 模块和多尺度通道注意力增强(MCAE)模块。具体的说,在DDFE 模块中我们串联了许多平行集成卷积块(包含卷积操作和填充率互 补的空洞卷积操作)用于层次化地捕获局部和全局上下文信息。另 外,在DDFE模块内部我们引入了稠密连接,目的是充分地利用每 层捕获到的特征信息增强多尺度特征信息之间的相关性。MCAE模块 聚焦通道中的有意义的特征,减少冗余特征的干扰。为了增强特征 的鲁棒性,预测生成更高质量的显著性图。这里我们的注意力机制 同时增强多个尺度特征通道中的前景信息,稀释复杂背景信息。通 过聚合注意力多尺度特征生成最显著特征表示,用于准确地预测显 著性目标。注意在MCAE模块中为了得到更多的压缩信息,我们采 用一种混合的池化方法进行特征压缩。本发明的技术方案是提供了 聚合密集和注意力多尺度特征的显著性目标检测算法,该方法包括 以下步骤:
1.此显著性目标检测算法利用预训练好的ResNet-50网络作为编 码器从输入图像中编码初始多层次特征;
1.1)开始,我们通过开源数据库收集到了显著性目标检测方向 的多种数据集,涉及ECSSD数据集,HKU-IS数据集,PASCAL-S 数据集,DUT-OMRON数据集,DUTS数据集,DUTS-TE数据集。
1.2)此专利聚合密集和注意力多尺度特征的显著性目标检测算 法,在此算法中我们利用拥有10553张图像的大型数据集,即DUTS 数据集训练我们的算法,训练完成之后,我们使用ECSSD数据集, PASCAL-S数据集,HKU-IS数据集,DUT-OMRON数据集和 DUTS-TE数据集作为测试数据集来验证我们所提出算法的高效性。
1.3)收集整理完成之后,我们将预训练好的ResNet50网络作为 编码器,这里为了提升算法的计算效率,我们将ResNet50网络的最 后一层池化层和全连接层移除,对输入RGB图像进行提取初始多层 次特征,然后利用一个卷积操作降维初始多层次特征生成特征表示为 I{I1,I2,I3,I4,I5}。
2.初始多层次特征输入深层稠密特征探索模块通过利用平行集 成卷积块和稠密连接充分提取及和利用多尺度上下文信息,然后集成 上下文信息优化多层次特征提升特征的多样性和相关性;
2.1)首先,我们设计了的四个平行集成卷积块利用填充率互补 的空洞卷积操作提取丰富的多尺度特征信息。注意四个平行集成卷积 块中都包含了两个填充率d(i.e.,2,4,6,8)和d/2(i.e.,1,2,3,4)的 空洞卷积操作。我们在平行集成卷积块的内部增加了一个卷积核为 ki(i.e.,1,3,5,7)的不对称卷积操作增强所提取特征之间的相关性, 通过线性聚合卷积和空洞卷积后的多尺度特征具有更多的上下文信 息。同时,我们引入稠密连接充分利用不同层次平行集成卷积块中提 取的不同尺度的特征信息,最终生成具有更多显著性信息的特征Mi。 注意平行集成卷积块的内部每个卷积和空洞卷积操作后都跟着一个 批量标准化(BN)和ReLU非线性激活操作。数学上,Mi的计算公式 为:
这里Dd和Dd/2表示填充率分别为d和d/2的空洞卷积操作,Ak表示卷 积核为k∈{1,3,5,7}的卷积操作,∑表示像素级加性融合操作,δ表 示Mi-1,Mi-2,Mi-3。注意当i=1是空洞卷积的填充率为2和1,卷积操 作的卷积核大小k=1,随着平行集成卷积块的加深,填充率和卷积核 依次递增。
2.2)然后四个平行集成卷积块提取的多尺度上下文特征Mi和残差 特征R进行特征聚合,并通过一个卷积核为1×1的卷积操作进行特征 降维,最后得到具有更多上下文信息的特征Qi。得到Qi的公式如下:
Qi=w(Cat(I,M1,...,Mi)), (2)
这里w表示卷积核大小为1×1的降维操作,Cat表示特征拼接操作。 通过利用多尺度上下文信息Mi和初始特征I,特征Qi通过DDFE模块 被增加更多的显著性信息,相比于初始特征I具有更强的鲁棒性和泛 化能力。
3.优化后的多层次特征通过多尺度通道注意力增强模块集成多 视角注意力特征强化通道中的显著性目标信息和压缩背景信息生成 高质量特征表示;
3.1)多尺度注意力特征强化模块包含三个分支每个分支用于聚 焦不同尺度特征通道中的前景信息,减少噪音或冗余特征的干扰,通 过集成不同尺度的注意力特征和残差特征生成包含更多显著性信息 的特征Y用于预测显著性目标。具体的说,每个分支包含一个卷积操 作,两个池化操作,两个全连接操作,一个ReLU激活操作和一个 Sigmoid激活操作。注意三个分支的卷积操作卷积核大小依次是 {1,3,5}用于生成多尺度特征,另外,考虑到最大池化和平均池化进 行池化操作时保留的信息是不同的,为此我们采用混合池化的方法融 合两种池化操作后的特征信息。通过三个分支的操作后,我们可以得 到A1,A3,A5三个不同尺度的注意力特征:
这里C1,C3,C5表示卷积核大小依次是{1,3,5}的卷积操作,AP,MP表示 平均池化操作和最大池化操作,ρ表示一系列的全连接操作,ReLU和 Sigmoid激活操作。
3.2)通过聚合多个不同尺度的注意力特征和残差特征生成集聚更 多显著性信息的特征Y{Y1,Y2,Y3,Y4,Y5}用于准确地预测和完整地分割 显著性目标。Y的数学公式如下:
Y=Cat(Q,C3(A1,A3,A5,Q)), (4)
这里,C3表示卷积核为3×3的卷积操作,Q表示残差特征,Cat特征 拼接操作。通过强化不同尺度特征通道中的前景信息,减少复杂背景 信息的干扰,生成的特征Y相较于主干网络中提取初始特征I具有更 多的显著性信息。
4.将生成的高质量特征表示进行降维并使用激活函数激活高质 量特征产生最原始的显著性图,使用一种混合损失函数对模型进行监 督训练。
4.1)为了使生成的显著性图可以更加接近于真值标签,这里我们 采用混合损失函数对模型进行监督训练。这里混合函数由IoU损失函 数和交叉熵损失函数组成。其公式定义如下:
φ=φbce+φiou (5)
这里φbce和φiou分别是交叉熵损失函数和iou损失函数。
交叉熵损失函数广泛应用于二值分类和分割,它可以精确地计算 每个像素的损失。其数学公式定义为:
这里q(x,y)∈[0,1]是像素(x,y)的真值标签。p(x,y)∈[0,1]像素 (x,y)是被预测成显著性目标的概率。然而交叉熵损失函数仅仅关注 每个独立像素的损失总是忽略图像中部分全局结构的损失,不利于监 督生成性能更好的显著性图。为此,我们引入IOU损失函数集中于更 完整地整体显著性目标信息,它的数学公式是:
这里q(x,y)∈[0,1]是像素(x,y)的真值标签。p(x,y)∈[0,1]像素 (x,y)被预测成显著性目标的概率。
本发明的优势:本发明基于特征重构的显著性目标检测算法高 效初始多层次特征,通过使用残差特征重构模块和残差短连接操作 高效捕获多层次特征中的局部和全局上下文信息,通过聚合上下文 信息提升多层次特征性能充分利用了从预训练好的ResNet50网络中 提取的多层次特征性能,然后通过残差短连接操作交互多层次特征 中的多种信息,进一步突出特征中的显著性目标及其边缘结构信息。
附图说明
图1聚合密集和注意力多尺度特征的显著性目标检测流程图
图2深层密集特征探索模块
图3多尺度通道注意力强化模块
图4算法定量比较表
图5算法定性比较图
具体实施方式
下面将结合本聚合密集和注意力多尺度特征的显著性目标检测 算法发明实例中的附图,对本发明实施例中的技术方案进行清楚、 完整地描述,此外,所叙述的实施例仅仅是本发明一部分实施例, 而不是所有的实施例。基于本发明中的实施例,本研究方向普通技 术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都 属于本发明保护范围。
本发明的流程图框架如图1所示,本发明聚合密集和注意力多 尺度特征的显著性目标检测算法,其具体操作说明如下:
1.此显著性目标检测算法利用预训练好的ResNet-50网络作为 编码器从输入图像中编码初始多层次特征。
近十年来,诸多的显著性目标检测算法被提出,同时基于深度 学习的显著性目标检测算法也得到了很大的发展,这里我们充分收 集了众多的显著性目标检测数据集用于训练和测试。此外,为了为 了进一步增强算法的泛化能力和鲁棒性,在算法模型训练的过程中 我们采用了图像增强操作,例如水平反转、随机剪裁等操作。此算 法利用从ImageNet中预训练好的ResNet50网络作为编码器,从训 练数据中提出初始多层次特征。
具体步骤如下:
1.1开始,我们通过开源数据库收集到了显著性目标检测方向的 多种数据集,涉及ECSSD数据集,HKU-IS数据集,PASCAL-S数据 集,DUT-OMRON数据集,DUTS数据集,DUTS-TE数据集。
1.2此专利聚合密集和注意力多尺度特征的显著性目标检测算 法,在此算法中我们利用拥有10553张图像的大型数据集,即DUTS 数据集训练我们的算法,训练完成之后,我们使用ECSSD数据集, PASCAL-S数据集,HKU-IS数据集,DUT-OMRON数据集和 DUTS-TE数据集作为测试数据集来验证我们所提出算法的高效性。
1.3收集整理完成之后,我们将预训练好的ResNet50网络作为 编码器,这里为了提升算法的计算效率,我们将ResNet50网络的最 后一层池化层和全连接层移除,对输入RGB图像进行提取初始多层 次特征,然后利用一个卷积操作降维初始多层次特征生成特征表示 为I{I1,I2,I3,I4,I5}。
2.初始多层次特征输入深层稠密特征探索模块通过利用平行集 成卷积块和稠密连接充分提取及和利用多尺度上下文信息,然后集成 上下文信息优化多层次特征提升特征的多样性和相关性,如图2所 示;
深层稠密特征探索(DDFE)模块利用平行集成卷积块(包含感受 野不同的卷积操作和空洞卷积操作)充分地提取多尺度上下文信息, 考虑到多尺度上下文信息利用的有效性和效率我们引入了稠密连接, 通过这样做,可以集成局部特征和全局特征让输出的特征具有更多的 显著性。
具体步骤如下:
2.1首先,我们设计了的四个平行集成卷积块利用填充率互补的 空洞卷积操作提取丰富的多尺度特征信息。注意四个平行集成卷积块 中都包含了两个填充率d(i.e.,2,4,6,8)和d/2(i.e.,1,2,3,4)的空 洞卷积操作。我们在平行集成卷积块的内部增加了一个卷积核为 ki(i.e.,1,3,5,7)的不对称卷积操作增强所提取特征之间的相关性, 通过线性聚合卷积和空洞卷积后的多尺度特征具有更多的上下文信 息。同时,我们引入稠密连接充分利用不同层次平行集成卷积块中提 取的不同尺度的特征信息,最终生成具有更多显著性信息的特征Mi。 注意平行集成卷积块的内部每个卷积和空洞卷积操作后都跟着一个 批量标准化(BN)和ReLU非线性激活操作。数学上,Mi的计算公式 为:
这里Dd和Dd/2表示填充率分别为d和d/2的空洞卷积操作,Ak表示卷 积核为k∈{1,3,5,7}的卷积操作,∑表示像素级加性融合操作,δ表 示Mi-1,Mi-2,Mi-3。注意当i=1是空洞卷积的填充率为2和1,卷积操 作的卷积核大小k=1,随着平行集成卷积块的加深,填充率和卷积核 依次递增。
2.2然后四个平行集成卷积块提取的多尺度上下文特征Mi和残差 特征R进行特征聚合,并通过一个卷积核为1×1的卷积操作进行特征 降维,最后得到具有更多上下文信息的特征Qi。得到Qi的公式如下:
Qi=w(Cat(I,M1,...,Mi)), (2)
这里w表示卷积核大小为1×1的降维操作,Cat表示特征拼接操作。 通过利用多尺度上下文信息Mi和初始特征I,特征Qi通过DDFE模块 被增加更多的显著性信息,相比于初始特征I具有更强的鲁棒性和泛 化能力。
3.优化后的多层次特征通过多尺度通道注意力增强模块集成多 视角注意力特征强化通道中的显著性目标信息和压缩背景信息生成 高质量特征表示,如图3所示。
研究发现并不是通道中的所有特征都有助于预测显著性目标,相 反,一些冗余或噪音特征会对预测造成干扰。多尺度通道注意力增强 (MCAE)模块的提出是为了强化不同尺度特征通道中的前景信息,减 少复杂背景信息对准确预测的干扰。
具体步骤如下:
3.1多尺度注意力特征强化模块包含三个分支每个分支用于聚焦 不同尺度特征通道中的前景信息,减少噪音或冗余特征的干扰,通过 集成不同尺度的注意力特征和残差特征生成包含更多显著性信息的 特征Y用于预测显著性目标。具体的说,每个分支包含一个卷积操作, 两个池化操作,两个全连接操作,一个ReLU激活操作和一个Sigmoid 激活操作。注意三个分支的卷积操作卷积核大小依次是{1,3,5}用于 生成多尺度特征,另外,考虑到最大池化和平均池化进行池化操作时 保留的信息是不同的,为此我们采用混合池化的方法融合两种池化操 作后的特征信息。通过三个分支的操作后,我们可以得到A1,A3,A5三个不同尺度的注意力特征:
这里C1,C3,C5表示卷积核大小依次是{1,3,5}的卷积操作,AP,MP表示 平均池化操作和最大池化操作,ρ表示一系列的全连接操作,ReLU和 Sigmoid激活操作。
3.2通过聚合多个不同尺度的注意力特征和残差特征生成集聚更 多显著性信息的特征Y{Y1,Y2,Y3,Y4,Y5}用于准确地预测和完整地分割 显著性目标。Y的数学公式如下:
Y=Cat(Q,C3(A1,A3,A5,Q)), (4)
这里,C3表示卷积核为3×3的卷积操作,Q表示残差特征,Cat特征 拼接操作。通过强化不同尺度特征通道中的前景信息,减少复杂背景 信息的干扰,生成的特征Y相较于主干网络中提取初始特征I具有更 多的显著性信息。
4.将生成的高质量特征表示进行降维并使用激活函数激活高质 量特征产生最原始的显著性图,使用一种混合损失函数对模型进行监 督训练。
具体步骤如下:
4.1为了使生成的显著性图可以更加接近于真值标签,这里我们 采用混合损失函数对模型进行监督训练。这里混合函数由IoU损失函 数和交叉熵损失函数组成。其公式定义如下:
φ=φbce+φiou (5)
这里φbce和φiou分别是交叉熵损失函数和iou损失函数。
交叉熵损失函数广泛应用于二值分类和分割,它可以精确地计算 每个像素的损失。其数学公式定义为:
这里q(x,y)∈[0,1]是像素(x,y)的真值标签。p(x,y)∈[0,1]像素 (x,y)是被预测成显著性目标的概率。然而交叉熵损失函数仅仅关注 每个独立像素的损失总是忽略图像中部分全局结构的损失,不利于监 督生成性能更好的显著性图。为此,我们引入IOU损失函数集中于更 完整地整体显著性目标信息,它的数学公式是:
这里q(x,y)∈[0,1]是像素(x,y)的真值标签。p(x,y)∈[0,1]像素 (x,y)被预测成显著性目标的概率。
5.为了充分展示我们模型的高效性和泛化能力我们将我们提出 的集成多源特征网络的显著性目标检测算法与当下存在的一些算法 进行定性和定量比较,如图4和5所示。
以上所述为本申请优选实施而以,并不用于限制本申请,对于 本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申 请的精神和原则之内,所作的任何修改、等同替换、改进等,均应 包括在本申请的保护范围内。
Claims (5)
1.聚合密集和注意力多尺度特征的显著性目标检测算法,其特征在于,该算法运行包含以下步骤:
1)此显著性目标检测算法利用预训练好的ResNet-50网络作为编码器从输入图像中编码初始多层次特征;
2)初始多层次特征输入深层稠密特征探索模块通过利用平行集成卷积块和稠密连接充分提取多尺度上下文信息,然后集成上下文信息优化多层次特征提升特征的多样性和相关性;
3)优化后的多层次特征通过多尺度通道注意力增强模块集成多视角注意力特征强化通道中的显著性目标信息和压缩背景信息生成高质量特征表示;
4)将生成的高质量特征表示进行降维并使用激活函数激活高质量特征产生最原始的显著性图,使用一种混合损失函数对模型进行监督训练。
2.根据权利要求1所述的聚合密集和注意力多尺度特征的显著性目标检测算法其特征在于:所述步骤1)具体方法是:
2.1)开始,我们通过开源数据库收集到了显著性目标检测方向的多种数据集,涉及ECSSD数据集,HKU-IS数据集,PASCAL-S数据集,DUT-OMRON数据集,DUTS数据集,DUTS-TE数据集。
2.2)此专利聚合密集和注意力多尺度特征的显著性目标检测算法,在此算法中我们利用拥有10553张图像的大型数据集,即DUTS数据集训练我们的算法,训练完成之后,我们使用ECSSD数据集,PASCAL-S数据集,HKU-IS数据集,DUT-OMRON数据集和DUTS-TE数据集作为测试数据集来验证我们所提出算法的高效性。
2.3)收集整理完成之后,我们将预训练好的ResNet50网络作为编码器,这里为了提升算法的计算效率,我们将ResNet50网络的最后一层池化层和全连接层移除,对输入RGB图像进行提取初始多层次特征,然后利用一个卷积操作降维初始多层次特征生成特征表示为I{I1,I2,I3,I4,I5}。
3.根据权利要求1所述的聚合密集和注意力多尺度特征的显著性目标检测算法其特征在于:所述步骤2)具体方法是:
3.1)首先,我们设计了的四个平行集成卷积块利用填充率互补的空洞卷积操作提取丰富的多尺度特征信息。注意四个平行集成卷积块中都包含了两个填充率d(i.e.,2,4,6,8)和d/2(i.e.,1,2,3,4)的空洞卷积操作。我们在平行集成卷积块的内部增加了一个卷积核为ki(i.e.,1,3,5,7)的不对称卷积操作增强所提取特征之间的相关性,通过线性聚合卷积和空洞卷积后的多尺度特征具有更多的上下文信息。同时,我们引入稠密连接充分利用不同层次平行集成卷积块中提取的不同尺度的特征信息,最终生成具有更多显著性信息的特征Mi。注意平行集成卷积块的内部每个卷积和空洞卷积操作后都跟着一个批量标准化(BN)和ReLU非线性激活操作。数学上,Mi的计算公式为:
这里Dd和Dd/2表示填充率分别为d和d/2的空洞卷积操作,Ak表示卷积核为k∈{1,3,5,7}的卷积操作,∑表示像素级加性融合操作,δ表示Mi-1,Mi-2,Mi-3。注意当i=1是空洞卷积的填充率为2和1,卷积操作的卷积核大小k=1,随着平行集成卷积块的加深,填充率和卷积核依次递增。
3.2)然后四个平行集成卷积块提取的多尺度上下文特征Mi和残差特征R进行特征聚合,并通过一个卷积核为1×1的卷积操作进行特征降维,最后得到具有更多上下文信息的特征Qi。得到Qi的公式如下:
Qi=w(Cat(I,M1,...,Mi)), (2)
这里w表示卷积核大小为1×1的降维操作,Cat表示特征拼接操作。通过利用多尺度上下文信息Mi和初始特征I,特征Qi通过DDFE模块被增加更多的显著性信息,相比于初始特征I具有更强的鲁棒性和泛化能力。
4.根据权利要求1所述的聚合密集和注意力多尺度特征的显著性目标检测算法,其特征在于:所述步骤3)具体方法是:
4.1)多尺度注意力特征强化模块包含三个分支每个分支用于聚焦不同尺度特征通道中的前景信息,减少噪音或冗余特征的干扰,通过集成不同尺度的注意力特征和残差特征生成包含更多显著性信息的特征Y用于预测显著性目标。具体的说,每个分支包含一个卷积操作,两个池化操作,两个全连接操作,一个ReLU激活操作和一个Sigmoid激活操作。注意三个分支的卷积操作卷积核大小依次是{1,3,5}用于生成多尺度特征,另外,考虑到最大池化和平均池化进行池化操作时保留的信息是不同的,为此我们采用混合池化的方法融合两种池化操作后的特征信息。通过三个分支的操作后,我们可以得到A1,A3,A5三个不同尺度的注意力特征:
这里C1,C3,C5表示卷积核大小依次是{1,3,5}的卷积操作,AP,MP表示平均池化操作和最大池化操作,ρ表示一系列的全连接操作,ReLU和Sigmoid激活操作。
4.2)通过聚合多个不同尺度的注意力特征和残差特征生成集聚更多显著性信息的特征Y{Y1,Y2,Y3,Y4,Y5}用于准确地预测和完整地分割显著性目标。Y的数学公式如下:
Y=Cat(Q,C3(A1,A3,A5,Q)), (4)
这里,C3表示卷积核为3×3的卷积操作,Q表示残差特征,Cat特征拼接操作。通过强化不同尺度特征通道中的前景信息,减少复杂背景信息的干扰,生成的特征Y相较于主干网络中提取初始特征I具有更多的显著性信息。
5.根据权利要求1所述的聚合密集和注意力多尺度特征的显著性目标检测算法,其特征在于:所述步骤4)具体方法是:
为了使生成的显著性图可以更加接近于真值标签,这里我们采用混合损失函数对模型进行监督训练。这里混合函数由IoU损失函数和交叉熵损失函数组成。其公式定义如下:
φ=φbce+φiou (5)
这里φbce和φiou分别是交叉熵损失函数和iou损失函数。
交叉熵损失函数广泛应用于二值分类和分割,它可以精确地计算每个像素的损失。其数学公式定义为:
这里q(x,y)∈[0,1]是像素(x,y)的真值标签。p(x,y)∈[0,1]像素(x,y)是被预测成显著性目标的概率。然而交叉熵损失函数仅仅关注每个独立像素的损失总是忽略图像中部分全局结构的损失,不利于监督生成性能更好的显著性图。为此,我们引入IOU损失函数集中于更完整地整体显著性目标信息,它的数学公式是:
这里q(x,y)∈[0,1]是像素(x,y)的真值标签。p(x,y)∈[0,1]像素(x,y)被预测成显著性目标的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111654905.7A CN114299305B (zh) | 2021-12-30 | 聚合密集和注意力多尺度特征的显著性目标检测算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111654905.7A CN114299305B (zh) | 2021-12-30 | 聚合密集和注意力多尺度特征的显著性目标检测算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114299305A true CN114299305A (zh) | 2022-04-08 |
CN114299305B CN114299305B (zh) | 2024-07-12 |
Family
ID=
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114926657A (zh) * | 2022-06-09 | 2022-08-19 | 山东财经大学 | 显著性目标检测方法及系统 |
CN116740069A (zh) * | 2023-08-15 | 2023-09-12 | 山东锋士信息技术有限公司 | 基于多尺度显著信息和双向特征融合的表面缺陷检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110120020A (zh) * | 2019-04-30 | 2019-08-13 | 西北工业大学 | 一种基于多尺度空洞残差注意力网络的sar图像去噪方法 |
CN112347859A (zh) * | 2020-10-15 | 2021-02-09 | 北京交通大学 | 一种光学遥感图像显著性目标检测方法 |
WO2021051520A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 图像识别、训练识别模型的方法、相关设备及存储介质 |
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110120020A (zh) * | 2019-04-30 | 2019-08-13 | 西北工业大学 | 一种基于多尺度空洞残差注意力网络的sar图像去噪方法 |
WO2021051520A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 图像识别、训练识别模型的方法、相关设备及存储介质 |
CN112347859A (zh) * | 2020-10-15 | 2021-02-09 | 北京交通大学 | 一种光学遥感图像显著性目标检测方法 |
Non-Patent Citations (1)
Title |
---|
刘涛;汪西莉;: "采用卷积核金字塔和空洞卷积的单阶段目标检测", 中国图象图形学报, no. 01, 16 January 2020 (2020-01-16) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114926657A (zh) * | 2022-06-09 | 2022-08-19 | 山东财经大学 | 显著性目标检测方法及系统 |
CN114926657B (zh) * | 2022-06-09 | 2023-12-19 | 山东财经大学 | 显著性目标检测方法及系统 |
CN116740069A (zh) * | 2023-08-15 | 2023-09-12 | 山东锋士信息技术有限公司 | 基于多尺度显著信息和双向特征融合的表面缺陷检测方法 |
CN116740069B (zh) * | 2023-08-15 | 2023-11-07 | 山东锋士信息技术有限公司 | 基于多尺度显著信息和双向特征融合的表面缺陷检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108062753B (zh) | 基于深度对抗学习的无监督域自适应脑肿瘤语义分割方法 | |
CN108171209B (zh) | 一种基于卷积神经网络进行度量学习的人脸年龄估计方法 | |
WO2022179533A1 (zh) | 一种量子卷积操作器 | |
CN111027576B (zh) | 基于协同显著性生成式对抗网络的协同显著性检测方法 | |
CN113806746B (zh) | 基于改进cnn网络的恶意代码检测方法 | |
CN113033454B (zh) | 一种城市视频摄像中建筑物变化的检测方法 | |
CN112733693B (zh) | 一种全局感知高分辨率遥感影像多尺度残差道路提取方法 | |
CN115294563A (zh) | 一种基于Transformer的增强了局部语义学习能力的3D点云分析方法及装置 | |
CN111008224A (zh) | 一种基于深度多任务表示学习的时间序列分类和检索方法 | |
WO2023173552A1 (zh) | 目标检测模型的建立方法、应用方法、设备、装置及介质 | |
CN113628297A (zh) | 一种基于注意力机制和迁移学习的covid-19深度学习诊断系统 | |
CN117033657A (zh) | 一种信息检索方法及装置 | |
CN116310850A (zh) | 基于改进型RetinaNet的遥感图像目标检测方法 | |
CN111815526A (zh) | 基于图像滤波和cnn的有雨图像雨条纹去除方法及系统 | |
CN114332491A (zh) | 一种基于特征重构的显著性目标检测算法 | |
CN114299305A (zh) | 聚合密集和注意力多尺度特征的显著性目标检测算法 | |
CN113344005B (zh) | 一种基于优化小尺度特征的图像边缘检测方法 | |
CN114299305B (zh) | 聚合密集和注意力多尺度特征的显著性目标检测算法 | |
CN115329821A (zh) | 一种基于配对编码网络和对比学习的舰船噪声识别方法 | |
CN115035408A (zh) | 基于迁移学习和注意力机制的无人机影像树种分类方法 | |
CN114780767A (zh) | 一种基于深度卷积神经网络的大规模图像检索方法及系统 | |
CN114119978A (zh) | 集成多源特征网络的显著性目标检测算法 | |
CN113537228A (zh) | 一种基于深度特征的实时图像语义分割方法 | |
CN112650877A (zh) | 一种基于改进的深度残差卷积神经网络和深度哈希的高清遥感图像快速检索方法 | |
Yu et al. | Construction of garden landscape design system based on multimodal intelligent computing and deep neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |