CN114998615A - 一种基于深度学习的协同显著性检测方法 - Google Patents
一种基于深度学习的协同显著性检测方法 Download PDFInfo
- Publication number
- CN114998615A CN114998615A CN202210469320.6A CN202210469320A CN114998615A CN 114998615 A CN114998615 A CN 114998615A CN 202210469320 A CN202210469320 A CN 202210469320A CN 114998615 A CN114998615 A CN 114998615A
- Authority
- CN
- China
- Prior art keywords
- images
- group
- attention
- map
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的协同显著性检测方法,属于计算机视觉领域。该方法包括如下步骤:1、给定一组相关的图像;2、使用特征提取网络提取一组图像的目标特征;3、通过分组注意力模块改善目标特征;4、通过共识模块产生一组图像的共同显著性目标特征共识;5、通过自上而下解码器生成协同显著性图。通过本发明提供的方法能够有效地从一组图像中提取协同显著性图,并且显著性目标轮廓清晰,背景噪点少。
Description
技术领域
本发明涉及一种基于深度学习的协同显著性检测方法,属于计算机视觉技术领域。
背景技术
大数据时代和互联网的普遍使用导致了信息媒体的爆炸式增长,并挑战我们在面对特定任务时处理大量而不是单一的图像。协同显著性检测就是这样一项任务,它模拟人类的视觉注意机制,旨在给定一组相关图像的情况下,检测出具有相同属性的共同显著目标。它源于以单幅图像中突出的显著目标为目标的显著性检测。近年来,协同显著性检测作为计算机视觉领域中一个新兴的、快速发展的研究领域,广泛应用于各种计算机视觉任务的预处理步骤中,例如图像检索,图像质量评估,图像监控,视频分析等。与显著性目标检测只关注单个图像中的吸引区域不同,协同显著性检测还需要利用图像组中对象共享的相似属性来区分存在噪声对象时的真实公共对象。
传统方法通过使用约束或启发式特征如流形排序和聚类,探索一组相关图像之间的图像间相关性。Li等人提出了基于流形排序的两阶段检测框架,首先通过显著图确定其标签,再通过流形排序得到协同显著性图。Fu等人提出一种基于聚类的方法,融合了对比度线索、空间位置线索、图像间的分布一致性线索来构造协同显著性图。最近,基于深度学习的模型通过不同的方法以有监督的方式同时探索图像内和图像间的一致性,例如Wei等人的端到端深度学习方案和Han等人的度量学习方案。
发明内容
本发明的目的在于提供一种基于深度学习的协同显著性检测方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于深度学习的协同显著性检测方法,包括以下步骤:
步骤三:将一组图像的特征图F∈RN×C×H×W输入进分组注意力模块中,得到改善后的特征图f∈RN×C×H×W;
步骤四:将特征图f∈RN×C×H×W输入进共识模块,得到一组图像的共同显著性目标特征共识E∈R1×C×1×1;
步骤五:基于特征图f和共识E得到共同显著性目标特征图,将其与特征提取网络中不同尺度的特征图进行自上而下的迭代,得到协同显著性图。
优选的,在步骤三中,包括以下步骤:
An=softmax(PW1(maxpool3×3,1(DW1×1(F’n)))) (1)
f=concat([f1,f2,f3,f4]) (3)
在公式(1)中,maxpool3×3,1是3×3的最大池化核并且padding=1,DW1×1是1×1的DW卷积,PW1是只有一个滤波器的1×1卷积,采用softmax函数规范化,An是一个从一组中间特征映射Fn推断出来的注意力映射;
分组注意力模块的输出f是通过公式(3)连接每一组的特征映射集得到的。
优选的,在步骤三中,包括以下步骤:
首先,对输入的特征图f∈RN×C×H×W采用内积进行逐像素的内积,得到亲和图Sf∈RNHW×NHW,如公式(4)所示:
S=θ(f)Tφ(f) (4)
其中,θ和φ为线性嵌入函数;
然后,计算亲和图Sf中每个图像的最大值得Mf∈RNHW×N,并且平均N个图像的最大值生成全局注意力亲和图Af∈RNHW×1;
使用一个softmax函数来规范Af并且改变其形式,生成注意力图As∈RN×(1×H×W);
再将注意力图As与原始特征图f相乘得到注意力特征图fa∈RN×C×H×W;
最后通过对注意力特征图fa∈RN×C×H×W沿批次维度和空间维度的平均池化生成图像组的共识E∈R1×C×1×1。
优选的,在步骤五中,包括以下步骤:
步骤(2)中采用在ImageNet预训练的VGG-16对输入的图像组进行特征提取,其分支VGG-16_1,VGG-16_2,VGG-16_3,VGG-16_4提取的特征为Fn,n∈(1,2,3,4);
然后依次按照如下步骤进行自上而下解码:
E(·)是两个64核卷积层;
D(·)用于深度监督,通过两个卷积层和一个sigmoid层输出预测;
最终S1为图像组的协同显著性图。
在训练过程中损失函数如下:
其中Sn是显著图预测,Gn是ground truth。
本发明的技术效果和优点:通过本发明提供的方法能够有效地从一组图像中提取协同显著性图,并且显著性目标轮廓清晰,背景噪点少。
具体实施方式
下面将结合本发明实施例中,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了一种基于深度学习的协同显著性检测方法,旨在实现检测出的显著性目标轮廓清晰,背景噪点少。
为实现上述技术目的,本发明的技术方案为:
步骤2:采用在ImageNet预训练的VGG-16特征提取网络对输入的图像组进行特征提取,得到一组图像的特征图F∈RN×C×H×W。
An=softmax(PW1(maxpool3×3,1(DW1×1(F’n)))) (1)
f=concat([f1,f2,f3,f4]) (3)
在公式(1)中,maxpool3×3,1是3×3的最大池化核并且padding=1,DW1×1是1×1的DW卷积,PW1是只有一个滤波器的1×1卷积,并且采用softmax函数规范化,An是一个从一组中间特征映射Fn推断出来的注意力映射。每一组注意力映射经过公式(2)中的特征分布后得到细化的特征映射集fn,其中元素乘法,是元素加法。分组注意力模块的输出f∈RN ×C×H×W是通过公式(3)连接每一组的特征映射集得到的。
步骤4:首先,对输入的特征图f∈RN×C×H×W采用内积进行逐像素的内积,得到亲和图Sf∈RNHW×NHW,如公式(4)所示:
S=θ(f)Tφ(f) (4)
其中,θ和φ为线性嵌入函数。
然后,计算亲和图Sf中每个图像的最大值得Mf∈RNHW×N,并且平均N个图像的最大值生成全局注意力亲和图Af∈RNHW×1。其次,使用一个softmax函数来规范Af并且改变其形式,生成注意力图As∈RN×(1×H×W)。再将注意力图As与原始特征图f相乘得到注意力特征图fa∈RN ×C×H×W。最后通过对注意力特征图fa∈RN×C×H×W沿批次维度和空间维度的平均池化生成图像组的共识E∈R1×C×1×1。
步骤5:将图像组的特征图f∈RN×C×H×W与其共识E∈R1×C×1×1相乘得到图像组的共同显著性目标特征图再用2个卷积层将其通道数将为64得步骤(2)中采用在ImageNet预训练的VGG-16对输入的图像组进行特征提取,其分支VGG-16_1,VGG-16_2,VGG-16_3,VGG-16_4提取的特征为Fn,n∈(1,2,3,4)。然后依次按照如下步骤进行自上而下解码:
其中,(·)↑为上采样,将上采样至Fn大小。L(·)为2个卷积层,将Fn通道数降为64。为元素加法。E(·)是两个64核卷积层。D(·)用于深度监督,通过两个卷积层和一个sigmoid层输出预测。最终S1为图像组的协同显著性图。
在训练过程中损失函数如下:
其中Sn是显著图预测,Gn是ground truth。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (4)
2.根据权利要求1所述的一种基于深度学习的协同显著性检测方法,其特征在于,在步骤三中,包括以下步骤:
An=soft max(PW1(maxpool3×3,1(DW1×1(F’n)))) (1)
f=concat([f1,f2,f3,f4]) (3)
在公式(1)中,max pool3×3,1是3×3的最大池化核并且padding=1,DW1×1是1×1的DW卷积,PW1是只有一个滤波器的1×1卷积,采用softmax函数规范化,An是一个从一组中间特征映射F'n推断出来的注意力映射;
分组注意力模块的输出f是通过公式(3)连接每一组的特征映射集得到的。
3.根据权利要求1所述的一种基于深度学习的协同显著性检测方法,其特征在于,在步骤三中,包括以下步骤:
首先,对输入的特征图f∈RN×C×H×W采用内积进行逐像素的内积,得到亲和图Sf∈RNHW ×NHW,如公式(4)所示:
S=θ(f)Tφ(f) (4)
其中,θ和φ为线性嵌入函数;
然后,计算亲和图Sf中每个图像的最大值得Mf∈RNHW×N,并且平均N个图像的最大值生成全局注意力亲和图Af∈RNHW×1;
使用一个softmax函数来规范Af并且改变其形式,生成注意力图As∈RN×(1×H×W);
再将注意力图As与原始特征图f相乘得到注意力特征图fa∈RN×C×H×W;
最后通过对注意力特征图fa∈RN×C×H×W沿批次维度和空间维度的平均池化生成图像组的共识E∈R1×C×1×1。
4.根据权利要求1所述的一种基于深度学习的协同显著性检测方法,其特征在于,在步骤五中,包括以下步骤:
步骤(2)中采用在ImageNet预训练的VGG-16对输入的图像组进行特征提取,其分支VGG-16_1,VGG-16_2,VGG-16_3,VGG-16_4提取的特征为Fn,n∈(1,2,3,4);
然后依次按照如下步骤进行自上而下解码:
E(·)是两个64核卷积层;
D(·)用于深度监督,通过两个卷积层和一个sigmoid层输出预测;
最终S1为图像组的协同显著性图;
在训练过程中损失函数如下:
其中Sn是显著图预测,Gn是ground truth。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210469320.6A CN114998615A (zh) | 2022-04-28 | 2022-04-28 | 一种基于深度学习的协同显著性检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210469320.6A CN114998615A (zh) | 2022-04-28 | 2022-04-28 | 一种基于深度学习的协同显著性检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114998615A true CN114998615A (zh) | 2022-09-02 |
Family
ID=83025894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210469320.6A Pending CN114998615A (zh) | 2022-04-28 | 2022-04-28 | 一种基于深度学习的协同显著性检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114998615A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115905610A (zh) * | 2023-03-08 | 2023-04-04 | 成都考拉悠然科技有限公司 | 一种多粒度注意力网络的组合式查询图像检索方法 |
CN116994006A (zh) * | 2023-09-27 | 2023-11-03 | 江苏源驶科技有限公司 | 一种融合图像显著性信息的协同显著性检测方法及系统 |
-
2022
- 2022-04-28 CN CN202210469320.6A patent/CN114998615A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115905610A (zh) * | 2023-03-08 | 2023-04-04 | 成都考拉悠然科技有限公司 | 一种多粒度注意力网络的组合式查询图像检索方法 |
CN115905610B (zh) * | 2023-03-08 | 2023-05-26 | 成都考拉悠然科技有限公司 | 一种多粒度注意力网络的组合式查询图像检索方法 |
CN116994006A (zh) * | 2023-09-27 | 2023-11-03 | 江苏源驶科技有限公司 | 一种融合图像显著性信息的协同显著性检测方法及系统 |
CN116994006B (zh) * | 2023-09-27 | 2023-12-08 | 江苏源驶科技有限公司 | 一种融合图像显著性信息的协同显著性检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111199233B (zh) | 一种改进的深度学习色情图像识别方法 | |
Pezeshk et al. | 3-D convolutional neural networks for automatic detection of pulmonary nodules in chest CT | |
CN110889852B (zh) | 基于残差-注意力深度神经网络的肝脏分割方法 | |
CN111242906B (zh) | 一种支持向量数据描述的胸部影像异常检测方法 | |
CN112116605A (zh) | 一种基于集成深度卷积神经网络的胰腺ct图像分割方法 | |
CN110889853A (zh) | 基于残差-注意力深度神经网络的肿瘤分割方法 | |
CN114998615A (zh) | 一种基于深度学习的协同显著性检测方法 | |
CN110969613B (zh) | 一种具有影像征象解释的肺结核智能识别方法及系统 | |
CN112329871B (zh) | 一种基于自校正卷积与通道注意力机制的肺结节检测方法 | |
CN113468996A (zh) | 一种基于边缘细化的伪装物体检测方法 | |
CN116739899A (zh) | 基于saugan网络的图像超分辨率重建方法 | |
CN117710760B (zh) | 残差的注意神经网络用于胸部x线病灶检测的方法 | |
CN111401209B (zh) | 一种基于深度学习的动作识别方法 | |
CN117351487A (zh) | 一种邻近区域与边缘信息融合的医学图像分割方法、系统 | |
CN116563536A (zh) | 不确定性增强上下文注意力网络的息肉图像分割系统 | |
CN113591797B (zh) | 一种深度视频行为识别方法 | |
CN116091885A (zh) | 一种基于rau-gan的肺结节数据增强方法 | |
CN115330600A (zh) | 一种基于改进srgan的肺部ct图像超分辨率方法 | |
CN111275720B (zh) | 一种基于深度学习的全端到端小器官图像识别方法 | |
CN114677704A (zh) | 一种基于三维卷积的时空特征多层次融合的行为识别方法 | |
Setiawan | Effect of Chest X-Ray Contrast Image Enhancement on Pneumonia Detection using Convolutional Neural Networks | |
CN117635645B (zh) | 一种复杂稠密网络下的并置多尺度融合边缘检测模型 | |
CN111932486A (zh) | 一种基于3d卷积神经网络的脑胶质瘤分割方法 | |
CN114549413B (zh) | 基于ct图像的多尺度融合全卷积网络淋巴结转移检测方法 | |
CN117649422B (zh) | 多模态图像分割模型的训练方法和多模态图像分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |