CN111539420A - 基于注意力感知特征的全景图像显著性预测方法及系统 - Google Patents

基于注意力感知特征的全景图像显著性预测方法及系统 Download PDF

Info

Publication number
CN111539420A
CN111539420A CN202010171611.8A CN202010171611A CN111539420A CN 111539420 A CN111539420 A CN 111539420A CN 202010171611 A CN202010171611 A CN 202010171611A CN 111539420 A CN111539420 A CN 111539420A
Authority
CN
China
Prior art keywords
attention
foreground
diagram
background
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010171611.8A
Other languages
English (en)
Other versions
CN111539420B (zh
Inventor
杨小康
朱丹丹
闵雄阔
朱文瀚
朱煜程
翟广涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202010171611.8A priority Critical patent/CN111539420B/zh
Publication of CN111539420A publication Critical patent/CN111539420A/zh
Application granted granted Critical
Publication of CN111539420B publication Critical patent/CN111539420B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于注意力感知特征的全景图像显著性预测方法及系统,包括:预测全景图像的前景注意力图和背景注意力图;计算预测的所述前景注意力图、所述背景注意力图中每一部分的逐像素的亮度值,得到可视化分数;提取全景图像的全局特征,将所述全局特征与预测的所述前景注意力图、所述背景注意力图使用逐元素乘的方式进行融合,得到融合后的所述前景注意力图、所述背景注意力图;将融合后的所述前景注意力图、所述背景注意力图与所述可视化分数加权融合,获得最终的预测结果。本发明在模拟人类视觉注意力机制方面具有较好的准确性。

Description

基于注意力感知特征的全景图像显著性预测方法及系统
技术领域
本发明涉及图像显著性预测技术领域,具体地,涉及一种基于注意力感知特征的全景图像显著性预测方法及系统,以及对应该方法的终端。
背景技术
传统图像的显著性预测已是目前研究比较深入的课题,在过去几十年中研究人员们提出了多种显著性预测模型,这些显著性预测模型可以分为两类:基于传统手动特征提取的显著性预测模型和基于深度神经网络的显著性预测模型。其中,对于传统手动特征提取的显著性预测模型是受神经生物学机制启发,利用自下而上的计算模式提取各种低层次特征进行显著性预测,该类模型是由数据驱动的,一般显著性预测准确率较低。比较具有代表性的是Itti等人提出的视觉显著性模型,通过提取多尺度上的低层次特征并利用线性加权融合的方法得到最终的显著图。基于深度神经网络的显著性预测模型是采用目前主流的各种深度神经网络模型提取高层次语义特征进行显著性预测的,该类模型是受数据量的限制,需在大规模数据的条件下进行模型训练的。与第一类显著性预测模型相比,第二类模型往往得到的显著性预测准确率较高,更符合人类视觉注意力机制。
然而,在使用基于深度神经网络的显著性预测模型对全景图像进行预测时,存在两个至关重要的问题:1)目前全景图像的数据集都是小规模的,不能支持基于深度神经网络的模型训练;2)在进行显著性预测时,由于全景图像包含有混杂的背景将会影响显著性预测的准确率。
对于全景图像的数据集,目前最广泛使用的是Rai等人在2017年《Proceedings ofthe 8th ACM on Multimedia Systems Conference》发表的“A Dataset of Head and EyeMovements for 360Degree Images”,该数据集共包含60幅全景图像,对于每一幅图像,平均有42个受试者参与观看,每幅图像观看25秒,在两幅图像之间有5秒的灰屏间隔。对于使用基于深度神经网络的模型进行训练,该数据量是不充足的。
对于使用基于深度神经网络进行显著性预测的方法中,比较具有代表性的是Monroy等人在2018年《Signal Processing:Image Communication》上发表的“SalNet360:Saliency maps for omni-directional images with CNN”,它通过微调传统2D图像的显著性预测模型解决全景图像的显著性预测问题;同时还有Pan等人在2018年《CVPR SceneUnderstanding Workshop》上发表的“Salgan:Visual saliency prediction withadversarial networks”,它通过引入对抗网络的对抗训练机制进行显著性预测,在进行训练时,应用设计的二元交叉熵和下采样显著图执行显著性预测。然而这两种方法都是启发式的,对于包含复杂背景的全景图像,不能得到准确的显著性预测结果。
发明内容
针对上述现有方法中存在的不足之处,本发明的目的是提供一种基于注意力感知特征的全景图像显著性预测方法、系统及终端。
根据本发明的第一方面,提供一种基于注意力感知特征的全景图像显著性预测方法,包括:
预测全景图像的前景注意力图和背景注意力图;
计算预测的所述前景注意力图、所述背景注意力图中每一部分的逐像素的亮度值,得到可视化分数;
提取全景图像的全局特征,将所述全局特征与预测的所述前景注意力图、所述背景注意力图使用逐元素乘的方式进行融合,得到融合后的所述前景注意力图、所述背景注意力图;
将融合后的所述前景注意力图、所述背景注意力图与所述可视化分数加权融合,获得最终的预测结果。
可选地,所述预测全景图像的前景注意力图和背景注意力图,是通过基于ResNet50网络的两阶段预测分别得到全景图像的前景注意力图和背景注意力图。
可选地,所述通过基于ResNet50网络的两阶段预测分别得到全景图像的前景注意力图和背景注意力图,其中,
在第一阶段进行预测的公式如下:
Figure BDA0002409371910000031
其中,MPA是通过ResNet50网络预测得到的特征图,
Figure BDA0002409371910000032
Figure BDA0002409371910000033
表示两个独立的预测网络;F1和B1分别表示得到的前景注意力图和背景注意力图。
在第二阶段,对第一阶段得到的前景注意力图和背景注意力图进行增强,其具体的计算如下:
Figure BDA0002409371910000034
通过上式计算得到预测的前景注意力图Fatt和背景注意力图Batt,M是在第二阶段经过ResNet50网络得到的特征图;
Figure BDA0002409371910000035
Figure BDA0002409371910000036
表示第二阶段的两个独立的预测网络。
可选地,所述计算预测的所述前景注意力图、所述背景注意力图中每一部分的逐像素的亮度值,其中:利用所述前景注意力图、所述背景注意力图中每个像素的亮度值表示可视化分数;
定义全局可视化分数
Figure BDA0002409371910000037
分别表示所述前景注意力图、所述背景注意力图中每一部分的可视化分数,
Figure BDA0002409371910000038
计算公式如下:
Figure BDA0002409371910000039
Figure BDA00024093719100000310
其中,(x0,y0)和(x',y')分别表示在所述前景注意力图、所述背景注意力图中的像素点,p和q分别表示前景注意力图和背景注意力图中像素点的集合。
可选地,所述提取全景图像的全局特征,是通过带有注意力机制的ResNet50网络执行的,其中,所述带有注意力机制的ResNet50网络:
1)在ResNet50网络的最后一层添加一个16通道的1×1的卷积核;
2)将输入全景图像的大小从224×224调整为256×128。
可选地,所述将全局特征与预测的前景注意力图、背景注意力图使用逐元素乘的方式进行融合,包括:
将预测的所述前景注意力图、所述背景注意力图和提取得到的所述全局特征利用哈达玛积操作进行特征融合;
将融合后的特征送入所述带有注意力机制的ResNet50网络中得到注意力感知融合的特征向量。
可选地,所述将融合后的特征送入所述带有注意力机制的ResNet50网络中得到注意力特征,计算公式如下:
Figure BDA0002409371910000041
其中,μ∈{F,B}表示的是前景注意力图、背景注意力图,
Figure BDA0002409371910000042
表示归一化后的注意力图,max(μ)表示是μ取最大值,f表示是在全局特征提取阶段得到的16通道的全局特征图,ο表示是对两个矩阵或张量进行逐元素乘操作,fa表示注意力感知融合的特征向量。
可选地,所述将融合后的前景注意力图、背景注意力图与所述可视化分数加权融合,包括:
将所述注意力感知融合的特征向量fa和所述可视化分数连接起来,送入1×1的卷积层中获得权重向量w;然后利用生成的权重向量w对融合后的前景注意力图和背景注意力图进行加权融合得到最终预测的显著图fatt
fatt=Conv(Concat(w,fa)),μ∈{F,B}
其中,Conv表示卷积操作,Concat表示连接操作,F和B分别表示的是全景图像的前景注意力图、背景注意力图,w表示权重向量。
根据本发明的第二方面,提供一种基于注意力感知特征的全景图像显著性预测系统,包括:
注意力图模块,该模块预测全景图像的前景注意力图和背景注意力图;
可视化分数模块,该模块计算所述注意力图模块预测的所述前景注意力图、所述背景注意力图中每一部分的逐像素的亮度值,得到可视化分数;
感知特征融合模块,该模块提取全景图像的全局特征,将所述全局特征与所述注意力模块预测的所述前景注意力图、所述背景注意力图使用逐元素乘的方式进行融合,得到融合后的所述前景注意力图、所述背景注意力图;最后将融合后的所述前景注意力图、所述背景注意力图与所述可视化分数模块得到的可视化分数加权融合,获得最终的预测结果。
根据本发明的第三方面,提供一种基于注意力感知特征的全景图像显著性预测终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述的基于注意力感知特征融合的全景图像显著性预测。
与现有技术相比,本发明具有如下至少一种有益效果:
本发明上述方法、系统及终端,通过可视化分数模块衡量在特征学习过程中前景和背景部分所占的权重,它可以在显著性预测中提供特定图像的可视化分数来决定特征的重要性。
本发明上述方法、系统及终端,将部分注意力特征和可视化分数有机的整合到一起,既考虑了部分(前景和背景区域)注意力,同时可视化这两部分注意力特征图,能够更好地指导特征学习,消除全景图像中混杂背景的干扰。
本发明上述方法、系统及终端,基于注意力感知特征融合的全景图像显著性预测框架可扩展性强,具有灵活、易于修改和可迁移的特性。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例中的基于注意力感知特征融合的显著性预测方法框架图;
图2为本发明一实施例与现有最先进的方法进行可视化比较的效果图;
图3为本发明一实施例中使用不同的基准网络对显著性预测性能的比较效果图。
具体实施方式
本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作流程。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
本发明实施例提供的基于注意力感知特征的全景图像显著性预测方法,利用注意力机制捕获前景和背景部分的注意力图;然后将特征学习过程中前景和背景部分所占的权重进行可视化以更好地指导特征学习;最后通过加权融合的方法对部分注意力图和可视化分数进行融合从而能够得到最终的显著图,提出的该方法在模拟人类视觉注意力机制方面具有较好的准确性。具体的,本发明实施例中,注意力感知特征包括:前景和背景部分的注意力特征;特征融合包括:部分注意力特征和可视化分数的融合。
参照图1所示,在一较优实施例中,基于注意力感知特征的全景图像显著性预测方法包括如下步骤:
步骤1:预测前景注意力图和背景注意力图;
步骤2:计算步骤1预测的前景注意力图、背景注意力图中每一部分的逐像素的亮度值,得到可视化分数;
步骤3:基于上述结果,进行注意力感知特征融合,包括:提取全景图像的全局特征,将全局特征与预测的前景注意力图、背景注意力图使用逐元素乘的方式进行融合,得到融合后的前景注意力图、背景注意力图;将融合后的前景注意力图、背景注意力图与可视化分数加权融合,获得最终的预测结果。
如图1所示,在部分优选实施例中,步骤1中,通过基于ResNet50网络的两阶段预测分别得到部分注意力图(前景、背景注意力图),其中,在第一阶段进行预测的公式如下:
Figure BDA0002409371910000061
其中,MPA是通过ResNet50网络预测得到的特征图,
Figure BDA0002409371910000062
Figure BDA0002409371910000063
表示两个独立的预测网络。
在第二阶段,对第一阶段得到的注意力进行增强,其具体的计算如下:
Figure BDA0002409371910000064
通过上式计算可以得到前景注意力图Fatt和背景注意力图Batt
本实施例中,部分注意力图来自于2018年的《Proceedings of the IEEEConference on Computer Vision and Pattern Recognition》发表的“Attention-AwareCompositional Network for Person Re-identification”中提出的用于估计行人身体不同部位(刚体和非刚体部分)注意力的特征从而可以消除相邻区域噪声的影响。当然,在其他实施例中,也可以采用其他的方式得到。
在另一优选实施例中,利用注意力图中每个像素的亮度值表示可视化分数;步骤2包括:
定义全局可视化分数
Figure BDA0002409371910000065
分别表示所述前景注意力图、所述背景注意力图中每一部分的可视化分数,计算公式如下:
Figure BDA0002409371910000071
Figure BDA0002409371910000072
其中,(x0,y0)和(x',y')分别表示在前景注意力图和背景注意力图中的像素位置。
在另一优选实施例中,步骤3可以包括如下子步骤:
步骤3.1:提取全景图像的全局特征:
步骤3.2:将部分注意力图(前景注意力图、背景注意力图)与全局特征进行融合:
步骤3.3:将部分注意力图(前景注意力图、背景注意力图)进行特征增强,生成注意力特征向量:
步骤3.4:产生权重向量w:
步骤3.5:对特征向量进行加权融合得到显著图:
较佳地,步骤3.1中,提取全景图像的全局特征,主要是通过基于改进的ResNet50网络执行的,具体的改进点包括:1)为了降低计算成本,在ResNet50网络的最后一层添加了一个16通道的1×1的卷积核;2)为了更好地拟合全景图像的长宽比,将输入全景图像的大小从224×224调整为256×128。改进后的ResNet50网络是一种带有注意力机制的ResNet50网络。
较佳地,步骤3.2中,将部分注意力图和提取得到的全局特征利用哈达玛积操作进行特征融合;然后把融合后的特征送入上述步骤3.1改进的带有注意力机制的ResNet50网络中得到注意力特征,其计算公式如下:
Figure BDA0002409371910000073
其中,μ∈{F,B}表示的是前景和背景部分的注意力图,
Figure BDA0002409371910000074
表示归一化后的注意力图,max(μ)表示是μ取最大值,f表示是在全局特征提取阶段得到的16通道的全局特征图,ο表示是对两个矩阵或张量进行逐元素乘操作,fa表示注意力感知融合的特征向量。
较佳地,步骤3.3中,将得到的部分注意力图送入带有自注意力机制的ResNet50模块中能够产生增强的注意力感知融合的特征向量fa
较佳地,步骤3.4中,将注意力感知融合的特征向量和可视化分数连接起来,送入1×1的卷积层中获得权重向量w。
较佳地,步骤3.5中,利用生成的权重向量w对注意力感知特征进行加权融合得到最终预测的显著图fatt
fatt=Conv(Concat(wρ,f'a)),ρ∈{F,B}
其中,Conv表示卷积操作,Concat表示连接操作;F和B分别表示的是全景图像的前景注意力图、背景注意力图,w表示权重向量。
本发明上述实施例提供的基于注意力感知特征融合的显著性预测方法,使用设计的基于ResNet50的两阶段双流网络分别预测得到前景注意力图和背景注意力图;通过计算注意力图中每一部分的逐像素的亮度值得到可视化分数;在注意力感知特征融合模块,首先利用改进的ResNet50网络提取全局特征,然后将全局特征与部分注意力图使用逐元素乘的方式进行特征融合,最后通过加权融合的方法对注意力图和可视化分数进行融合得到最终预测的显著图。该方法能够较好的模拟人类视觉注意力机制并取得了较高的准确性。
图2为本发明一实施例中的基于注意力感知特征融合的显著性预测系统模块图。参照图2所示,该实施例中基于注意力感知特征融合的全景图像显著性预测系统,包括:注意力图模块、可视化分数模块、感知特征融合模块,注意力图模块预测全景图像的前景注意力图和背景注意力图;可视化分数模块计算注意力图模块预测的前景注意力图、背景注意力图中每一部分的逐像素的亮度值,得到可视化分数;感知特征融合模块提取全景图像的全局特征,将全局特征与注意力模块预测的前景注意力图、背景注意力图使用逐元素乘的方式进行融合,得到融合后的前景注意力图、背景注意力图;最后将融合后的前景注意力图、背景注意力图与可视化分数模块得到的可视化分数加权融合,获得最终的预测结果。
本发明上述实施例中的基于注意力感知特征融合的全景图像显著性预测系统,其中每个模块中具体实现的技术与上述基于注意力感知特征融合的全景图像显著性预测方法中各步骤对应,在此不再赘述。
基于上述的基于注意力感知特征融合的全景图像显著性预测方法,本发明另一实施例中还提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述程序时可用于执行上述实施例中的基于注意力感知特征融合的全景图像显著性预测方法。
图2为本发明一实施例与现有最先进的方法进行可视化比较的效果图,从该图可以看出本发明得到的显著图最接近真值显著图。
图3为本发明一实施例中使用不同的基准网络对显著性预测性能的比较效果图,该发明使用4种不同的评价标准进行效果对比,从该图可以看出本发明使用ResNet50网络作为基准网络进行显著性预测的效果优于其他基准网络的显著性预测效果。
由上述可见,本发明实施例在公开基准数据集上进行实验验证和消融分析可以证明该方法的优越性,同时该方法在模拟人类视觉注意力机制方面具有较好的准确性。
需要说明的是,本发明提供的所述方法中的步骤,可以利用所述装置中对应的单元等予以实现,本领域技术人员可以参照所述装置的技术方案实现所述方法的步骤流程,即,所述装置中的实施例可理解为实现所述方法的优选例,在此不予赘述。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的装置以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的装置及其各个单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上是对本发明的具体实施例进行了描述。需要注意的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (10)

1.一种基于注意力感知特征融合的全景图像显著性预测方法,其特征在于,包括:
预测全景图像的前景注意力图和背景注意力图;
计算预测的所述前景注意力图、所述背景注意力图中每一部分的逐像素的亮度值,得到可视化分数;
提取全景图像的全局特征,将所述全局特征与预测的所述前景注意力图、所述背景注意力图使用逐元素乘的方式进行融合,得到融合后的所述前景注意力图、所述背景注意力图;
将融合后的所述前景注意力图、所述背景注意力图与所述可视化分数加权融合,获得最终的预测结果。
2.根据权利要求1所述的基于注意力感知特征融合的全景图像显著性预测方法,其特征在于,所述预测全景图像的前景注意力图和背景注意力图,是通过基于ResNet50网络的两阶段预测分别得到全景图像的前景注意力图和背景注意力图。
3.根据权利要求2所述的基于注意力感知特征融合的全景图像显著性预测方法,其特征在于,所述通过基于ResNet50网络的两阶段预测分别得到全景图像的前景注意力图和背景注意力图,其中,
在第一阶段进行预测的公式如下:
Figure FDA0002409371900000011
其中,MPA是通过ResNet50网络预测得到的特征图,
Figure FDA0002409371900000012
Figure FDA0002409371900000013
表示两个独立的预测网络,F1和B1分别表示得到的前景注意力图和背景注意力图;
在第二阶段,对第一阶段得到的前景注意力图和背景注意力图进行增强,其具体的计算如下:
Figure FDA0002409371900000014
通过上式计算得到预测的前景注意力图Fatt和背景注意力图Batt;M是在第二阶段经过ResNet50网络预测得到的特征图;
Figure FDA0002409371900000015
Figure FDA0002409371900000016
表示在第二阶段的两个预测网络。
4.根据权利要求1所述的基于注意力感知特征融合的全景图像显著性预测方法,其特征在于,所述计算预测的所述前景注意力图、所述背景注意力图中每一部分的逐像素的亮度值,其中:利用所述前景注意力图、所述背景注意力图中每个像素的亮度值表示可视化分数;
定义全局可视化分数
Figure FDA0002409371900000021
分别表示所述前景注意力图、所述背景注意力图中每一部分的可视化分数,计算公式如下:
Figure FDA0002409371900000022
Figure FDA0002409371900000023
其中,(x0,y0)和(x',y')分别表示在所述前景注意力图、所述背景注意力图中的像素点,p和q分别表示前景注意力图和背景注意力图中像素点的集合。
5.根据权利要求1所述的基于注意力感知特征融合的全景图像显著性预测方法,其特征在于,所述提取全景图像的全局特征,是通过改进的带有注意力机制的ResNet50网络执行的,其中,所述带有注意力机制的ResNet50网络:
在ResNet50网络的最后一层添加一个16通道的1×1的卷积核;
将输入全景图像的大小从224×224调整为256×128。
6.根据权利要求5所述的基于注意力感知特征融合的全景图像显著性预测方法,其特征在于,所述将全局特征与预测的前景注意力图、背景注意力图使用逐元素乘的方式进行融合,包括:
将预测的所述前景注意力图、所述背景注意力图和提取得到的所述全局特征利用哈达玛积操作进行特征融合;
将融合后的特征送入所述带有注意力机制的ResNet50网络中得到注意力感知融合的特征向量。
7.根据权利要求6所述的基于注意力感知特征融合的全景图像显著性预测方法,其特征在于,所述将融合后的特征送入所述带有注意力机制的ResNet50网络中得到注意力感知融合的特征,计算公式如下:
Figure FDA0002409371900000024
其中,μ∈{F,B}表示的是前景注意力图、背景注意力图,
Figure FDA0002409371900000025
表示归一化后的注意力图,max(μ)表示是μ取最大值,f表示是在全局特征提取阶段得到的16通道的全局特征图,
Figure FDA0002409371900000031
表示是对两个矩阵或张量进行逐元素乘操作,fa表示注意力感知融合的特征向量。
8.根据权利要求6所述的基于注意力感知特征融合的全景图像显著性预测方法,其特征在于,所述将融合后的前景注意力图、背景注意力图与所述可视化分数加权融合,包括:
将所述注意力感知融合的特征向量fa和所述可视化分数拼接起来,送入1×1的卷积层中获得权重向量w;然后利用生成的权重向量w对融合后的前景注意力图和背景注意力图进行加权融合得到最终预测的显著图fatt
fatt=Conv(Concat(w,fa)),μ∈{F,B}
其中,Conv表示卷积操作,Concat表示连接操作,F和B分别表示的是全景图像的前景注意力图、背景注意力图,w表示权重向量。
9.一种基于注意力感知特征融合的全景图像显著性预测系统,其特征在于,包括:
注意力图模块,该模块预测全景图像的前景注意力图和背景注意力图;
可视化分数模块,该模块计算所述注意力图模块预测的所述前景注意力图、所述背景注意力图中每一部分的逐像素的亮度值,得到可视化分数;
感知特征融合模块,该模块提取全景图像的全局特征,将所述全局特征与所述注意力模块预测的所述前景注意力图、所述背景注意力图使用逐元素乘的方式进行融合,得到融合后的所述前景注意力图、所述背景注意力图;最后将融合后的所述前景注意力图、所述背景注意力图与所述可视化分数模块进行加权融合,获得最终的预测结果。
10.一种基于注意力感知特征融合的全景图像显著性预测终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可用于执行权利要求1-8任一所述的方法。
CN202010171611.8A 2020-03-12 2020-03-12 基于注意力感知特征的全景图像显著性预测方法及系统 Active CN111539420B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010171611.8A CN111539420B (zh) 2020-03-12 2020-03-12 基于注意力感知特征的全景图像显著性预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010171611.8A CN111539420B (zh) 2020-03-12 2020-03-12 基于注意力感知特征的全景图像显著性预测方法及系统

Publications (2)

Publication Number Publication Date
CN111539420A true CN111539420A (zh) 2020-08-14
CN111539420B CN111539420B (zh) 2022-07-12

Family

ID=71978483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010171611.8A Active CN111539420B (zh) 2020-03-12 2020-03-12 基于注意力感知特征的全景图像显著性预测方法及系统

Country Status (1)

Country Link
CN (1) CN111539420B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001365A (zh) * 2020-09-22 2020-11-27 四川大学 一种高精度的农作物病虫害识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914834A (zh) * 2014-03-17 2014-07-09 上海交通大学 一种基于前景先验和背景先验的显著性物体检测方法
CN105825238A (zh) * 2016-03-30 2016-08-03 江苏大学 一种视觉显著性目标的检测方法
CN106056590A (zh) * 2016-05-26 2016-10-26 重庆大学 基于Manifold Ranking和结合前景背景特征的显著性检测方法
CN107730515A (zh) * 2017-10-12 2018-02-23 北京大学深圳研究生院 基于区域增长和眼动模型的全景图像显著性检测方法
CN110111353A (zh) * 2019-04-29 2019-08-09 河海大学 一种基于马尔可夫背景与前景吸收链的图像显著性检测方法
CN110188763A (zh) * 2019-05-28 2019-08-30 江南大学 一种基于改进图模型的图像显著性检测方法
CN110648334A (zh) * 2019-09-18 2020-01-03 中国人民解放军火箭军工程大学 一种基于注意力机制的多特征循环卷积显著性目标检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914834A (zh) * 2014-03-17 2014-07-09 上海交通大学 一种基于前景先验和背景先验的显著性物体检测方法
CN105825238A (zh) * 2016-03-30 2016-08-03 江苏大学 一种视觉显著性目标的检测方法
CN106056590A (zh) * 2016-05-26 2016-10-26 重庆大学 基于Manifold Ranking和结合前景背景特征的显著性检测方法
CN107730515A (zh) * 2017-10-12 2018-02-23 北京大学深圳研究生院 基于区域增长和眼动模型的全景图像显著性检测方法
CN110111353A (zh) * 2019-04-29 2019-08-09 河海大学 一种基于马尔可夫背景与前景吸收链的图像显著性检测方法
CN110188763A (zh) * 2019-05-28 2019-08-30 江南大学 一种基于改进图模型的图像显著性检测方法
CN110648334A (zh) * 2019-09-18 2020-01-03 中国人民解放军火箭军工程大学 一种基于注意力机制的多特征循环卷积显著性目标检测方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
MARCELLA CORNIA ET AL: "Predicting Human Eye Fixations via an LSTM-based Saliency Attentive Model", 《ARXIV:1611.09571V3》 *
MARCELLA CORNIA ET AL: "Predicting Human Eye Fixations via an LSTM-based Saliency Attentive Model", 《ARXIV:1611.09571V3》, 5 September 2017 (2017-09-05), pages 1 - 13 *
SHENGKAI XIANG ET AL: "Feature Decomposition and Attention-guided Boundary Refinement for Saliency Detection", 《2019 IEEE 3RD ADVANCED INFORMATION MANAGEMENT,COMMUNICATES,ELECTRONIC AND AUTOMATION CONTROL CONFERENCE》 *
SHENGKAI XIANG ET AL: "Feature Decomposition and Attention-guided Boundary Refinement for Saliency Detection", 《2019 IEEE 3RD ADVANCED INFORMATION MANAGEMENT,COMMUNICATES,ELECTRONIC AND AUTOMATION CONTROL CONFERENCE》, 31 December 2019 (2019-12-31), pages 982 - 989 *
崔丽群等: "复合域的显著性目标检测方法", 《中国图象图形学报》 *
崔丽群等: "复合域的显著性目标检测方法", 《中国图象图形学报》, no. 06, 16 June 2018 (2018-06-16), pages 72 - 82 *
王文冠等: "视觉注意力检测综述", 《软件学报》 *
王文冠等: "视觉注意力检测综述", 《软件学报》, 15 August 2018 (2018-08-15), pages 416 - 439 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001365A (zh) * 2020-09-22 2020-11-27 四川大学 一种高精度的农作物病虫害识别方法

Also Published As

Publication number Publication date
CN111539420B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
US11830230B2 (en) Living body detection method based on facial recognition, and electronic device and storage medium
CN109558832B (zh) 一种人体姿态检测方法、装置、设备及存储介质
CN110378264B (zh) 目标跟踪方法及装置
CN113284054B (zh) 图像增强方法以及图像增强装置
CN112132156B (zh) 多深度特征融合的图像显著性目标检测方法及系统
US10832069B2 (en) Living body detection method, electronic device and computer readable medium
CN111401516A (zh) 一种神经网络通道参数的搜索方法及相关设备
CN111539290B (zh) 视频动作识别方法、装置、电子设备及存储介质
CN108805058B (zh) 目标对象变化姿态识别方法、装置及计算机设备
CN111368672A (zh) 一种用于遗传病面部识别模型的构建方法及装置
CN111667001B (zh) 目标重识别方法、装置、计算机设备和存储介质
WO2021103731A1 (zh) 一种语义分割方法、模型训练方法及装置
CN115512251A (zh) 基于双分支渐进式特征增强的无人机低照度目标跟踪方法
CN111768438B (zh) 一种图像处理方法、装置、设备以及计算机可读存储介质
CN111209811B (zh) 一种实时检测眼球注意力位置的方法及系统
Lu et al. Rethinking prior-guided face super-resolution: A new paradigm with facial component prior
Liu et al. Attentive cross-modal fusion network for RGB-D saliency detection
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN111950700A (zh) 一种神经网络的优化方法及相关设备
CN111177460B (zh) 提取关键帧的方法及装置
CN113177432A (zh) 基于多尺度轻量化网络的头部姿态估计方法、系统、设备及介质
CN115620054A (zh) 一种缺陷分类方法、装置、电子设备及存储介质
CN111539420B (zh) 基于注意力感知特征的全景图像显著性预测方法及系统
CN117037244A (zh) 人脸安全检测方法、装置、计算机设备和存储介质
CN114463685B (zh) 行为识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant