CN113947530A - 一种基于相对显著性检测的图像重定向方法 - Google Patents
一种基于相对显著性检测的图像重定向方法 Download PDFInfo
- Publication number
- CN113947530A CN113947530A CN202111228342.5A CN202111228342A CN113947530A CN 113947530 A CN113947530 A CN 113947530A CN 202111228342 A CN202111228342 A CN 202111228342A CN 113947530 A CN113947530 A CN 113947530A
- Authority
- CN
- China
- Prior art keywords
- image
- stage
- relative
- map
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000001514 detection method Methods 0.000 title claims abstract description 22
- 238000005457 optimization Methods 0.000 claims abstract description 30
- 230000004913 activation Effects 0.000 claims abstract description 26
- 230000006870 function Effects 0.000 claims abstract description 26
- 230000002776 aggregation Effects 0.000 claims abstract description 24
- 238000004220 aggregation Methods 0.000 claims abstract description 24
- 238000013507 mapping Methods 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 230000004927 fusion Effects 0.000 claims abstract description 13
- 238000003708 edge detection Methods 0.000 claims abstract description 9
- 238000010606 normalization Methods 0.000 claims description 16
- 230000000295 complement effect Effects 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 230000003252 repetitive effect Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 2
- 239000011541 reaction mixture Substances 0.000 claims description 2
- 239000011800 void material Substances 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 abstract description 8
- 238000006073 displacement reaction Methods 0.000 abstract 2
- 239000013598 vector Substances 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明为一种基于相对显著性检测的图像重定向方法,包括相对显著图提取、图像边缘检测以及基于重要度图的重定向操作;通过多特征聚合的相对显著性分层监督模块以及显著等级引导的优化模块提取相对显著图,相对显著性分层监督模块以监督的方式对每阶段的特征进行加权,而显著等级引导的优化模块通过逐层优化,利用卷积模块生成每类显著等级的类别概率,再经过卷积层和激活函数生成每一个像素的注意力掩码,得到优化特征;将边缘图与相对显著图进行线性融合得到重要度图;最后学习输入图像到目标图像的位移映射,在输入图像上通过移位图实现图像重定向。本发明能够有效克服现有技术重定向后图像存在变形、扭曲的问题,获得更好的视觉效果。
Description
技术领域
本发明属于计算机视觉、图像处理等技术领域,具体地说是一种基于相对显著性检测的图像重定向方法。
背景技术
图像重定向是指对数字图像大小进行调整,以此来适配不同显示终端的长宽比。随着互联网和5G技术的迅速发展,各种数码产品不断涌现,无论是技术方面还是用户体验方面都在不断提升。除了设备性能不断优化外,显示屏幕也在逐渐改进以满足人们的不同需求,例如高清电视、平板电脑、扩展显示屏、手机、智能手表等,由于这些设备的应用范围不同,它们的显示屏幕长宽比也是不同的。市场上主流的分辨率有4:3、16:9、18.5:9等,面对不同大小的显示终端,如何让同一幅图像适配不同的显示屏成为了现阶段亟待解决的技术问题。
早期的图像重定向方法存在图像压缩或拉伸痕迹明显、内容显示不完全的问题。2007年Avidan和Shamir首次提出基于内容感知的图像重定向方法来提高重定向图像的视觉质量,该方法首先获取图像在视觉上的重要区域,再根据重要度图进行重定向操作,将由于长宽比改变所产生的形变尽可能发生在非重要区域,以此来保护图像主体内容。中国专利CN109447970A公开了一种基于能量转移和均匀缩放的图像重定向方法,获取的重要度图由图像的显著图、梯度图以及人脸图组成,这类方法大多利用图像的低层特征获取重要度图,当图像主体和背景较为复杂时,获取的重要度图不能准确反映出图像重要区域,在实际应用中表现不佳,容易造成图像变形。
深度学习方法利用神经网络强大的学习能力来学习图像的高级语义特征,在一定程度上弥补了低层特征的缺陷,这让深度学习在图像重定向领域中逐渐占据主导地位。2017年Cho等人首次将卷积神经网络应用于图像重定向方向,在《IEEE InternationalConference on Computer Vision》发表论文“Weakly-and Self-Supervised Learningfor Content-Aware Deep Image Retargeting”,通过输入原图像和目标比例,获取图像的注意力图从而引导网络学习从原图像到目标网格的逐像素移位映射,得到目标图像,实现了一种端到端的内容感知图像重定向框架。之后,基于卷积神经网络获取图像重要度图来引导图像重定向的方法被大量提出,研究者常常借助显著目标检测方法识别场景中最吸引人的区域来获取视觉重要区域,CN111161340A公开了一种基于深度特征提取的图像重定向方法,利用前景分割的全卷积网络提取图像重要度图,由于该方法对于目标面积大或数量多的图像,重要度图的检测结果准确度不高,因而重定向质量不高。现有的显著目标检测方法大多针对二元分割问题进行建模,不同的目标对象具有相同的显著值,这适用于单目标的场景图像,然而,对于复杂场景图像,当图像中包含多个显著目标时,人类注意力会优先聚焦于最显著的目标,其次关注到第二显著目标,以此类推,因为人类视觉系统会自动判断一个目标是否比另一个目标更显著,形成相对显著性。因此,面对复杂的多目标场景,使用二元分割显著目标检测方法获取的视觉重要度图无法区分不同目标的重要程度,甚至出现漏检误检的情况,造成重定向图像中部分重要内容无法得到保护。
发明内容
针对现有技术的不足,本发明所要解决的技术问题是,提出一种基于相对显著性检测的图像重定向方法,该方法由三部分组成,包括相对显著图提取、图像边缘检测以及基于重要度图的重定向操作。首先通过多特征聚合的相对显著性分层监督模块以及显著等级引导的优化模块提取相对显著图,相对显著性分层监督模块以监督的方式对每阶段的特征进行加权,学习相对显著性特征,而显著等级引导的优化模块将预测问题转化为等级分类问题,先利用卷积模块生成每类显著等级的类别概率,再经过卷积层和激活函数生成每一个像素的注意力掩码,得到优化特征;接着,为了得到更好的重定向结果,利用边缘检测模块提取边缘图,并与相对显著图进行线性融合得到重要度图;最后学习输入图像到目标图像的移位映射,在输入图像上通过移位图实现图像重定向。本发明能够有效保护输入图像的主体区域以及整体结构,克服现有技术重定向后图像存在变形、扭曲的问题,获得更好的视觉效果。
本发明解决该技术问题所采用的技术方案是:
一种基于相对显著性检测的图像重定向方法,其特征在于,具体步骤如下:
第一步,对显著目标排名数据集进行预处理,得到原始图像;
第二步,利用预训练的ResNet50网络对原始图像进行特征提取,得到每阶段的增强特征;
第2.1步,将原始图像输入到预训练的ResNet50网络中,提取主干特征Ci,i∈[1,5],预训练的ResNet50网络的每个阶段都会提取一个主干特征,i表示预训练的ResNet50网络的第i阶段;
第2.2步,使用卷积核大小为1×1的卷积层改变主干特征Ci的通道数量,得到特征Ci′;
第2.3步,将特征Ci′经过两个卷积核大小为3×3的卷积层、批量归一化和Relu激活函数后,再与特征Ci′进行元素级相加,得到第i阶段的增强特征Fi,每阶段都会生成一个增强特征;
第三步,获取原始图像的相对显著图;
第3.1步,将第5阶段的增强特征F5利用全局上下文模块进行特征提取,得到全局特征Fglobal;
第3.2步,利用相对显著性分层监督模块对第5阶段的增强特征F5进行特征提取,得到第5阶段的相对显著性加权特征F5 s;
第3.3步,除第5阶段外,其余各个阶段的增强特征Fi,i∈[1,4]分别利用多特征聚合模块提取每个阶段的聚合特征Fi agg,i∈[1,4];
第3.4步,将各阶段的聚合特征利用相对显著性分层监督模块,提取各阶段的相对显著性分层表示RSSRi,i∈[1,4]和一维相对显著图RSi,i∈[1,4];将一维相对显著图与对应的聚合特征进行元素级相乘相加,得到各阶段的相对显著性加权特征Fi s,i∈[1,4];
第3.5步,使用显著等级引导的优化模块对各阶段的相对显著性加权特征进行逐层优化,得到每阶段的优化特征Fi r,i∈[1,5];
第3.6步,对第1阶段的优化特征F1 r进行上采样,得到相对显著图SM;
第四步,使用边缘检测模块获取边缘图EM;
第五步,图像重定向;
第5.1步,将相对显著图SM和边缘图EM按照式(19)进行融合,得到重要度图IM;
IM=(1-α)SM+αEM (19)
其中,α∈[0,1]是网络参数,由网络自己学习得到,用于平衡相对显著图SM和边缘图EM对重要度图IM的贡献;
第5.2步,将重要度图IM的尺寸调整到目标大小,得到图像IMη,使用自适应1D(一维)重复卷积模块对图像IMη进行处理,得到图像IM1D;
第5.3步,将图像IMη和图像IM1D按照公式(24)进行融合,得到图像IMfinal;然后按照公式(25)对图像IMfinal进行累计归一化,得到输入图像到目标图像的移位映射S;
IMfinal=λIMη+IM1D (24)
其中,λ是图像IMη和IM1D之间的平衡参数,本实施例中λ设置为1;Sum(·)表示在图像宽度维度上进行求和,Cumsum(·)表示在图像宽度维度上进行累计求和;W、W′分别为尺寸调整前、后的图像宽度,H为图像高度;
第5.4步,根据移位映射S,利用式(26)对输入图像I执行重定向操作,得到重定向图像O,输出重定向图像O;
O=Warp(I,S) (26)
其中,Warp(·,S)表示利用移位映射S对图像进行重定向操作;
至此,完成了基于相对显著性检测的图像重定向。
与现有技术相比,本发明的有益效果是:
(1)本发明提出了一种基于相对显著性检测的图像重定向方法,具体是利用多特征聚合的相对显著性分层监督模块以及显著等级引导的优化模块检测图像显著区域,得到相对显著图,不同的显著目标具有不同得重要程度,用来模拟人类视觉注意力的分配情况,其中,多特征聚合的相对显著性分层监督模块将每阶段的低层、高层和全局特征进行融合得到互补的融合特征,再以监督的方式对特征进行加权,学习相对显著性特征,显著等级引导的优化模块将预测问题转化为等级分类问题,利用卷积模块生成每类显著等级的类别概率,再经过卷积层和激活函数生成每一个像素的注意力掩码,得到优化特征;另外,为保证图像整体结构不发生扭曲,提取了边缘图,最后将相对显著图与边缘图融合作为引导图像重定向的重要度图,采用自适应1D重复卷积模块改进原有的重定向方法学习原图像到目标图像的逐像素移位图进行图像重定向。
(2)Cho等人的论文“Weakly-and Self-Supervised Learning for Content-Aware Deep Image Retargeting”提出了一种端到端的内容感知图像重定向方法,通过输入原图像和目标比例,获取图像的注意力图来引导网络学习从原图像到目标网格的逐像素移位映射,得到重定向图像,但是由于该方法的1D重复卷积模块人为定义卷积核的大小,因此不能输入任意大小的图像。本发明对该模块进行了改进,设计的自适应1D重复卷积模块既能满足属于同一列的像素拥有相同的移位值,保证重定向后的图像不发生扭曲变形,也能输入任意大小的图像。
(3)CN109447970A公开了一种基于能量转移和均匀缩放的图像重定向方法,该方法的步骤是对输入图像进行预处理、提取RGB图像的重要度图,由图像的显著图、梯度图以及人脸图组成、根据累积能量矩阵确定最佳裁剪线、重要度图更新、移除最佳裁剪线、评价裁剪后的图像变形程度等,该方法能保证图像的视觉主体不发生严重的扭曲变形,但是,获取的重要度图是由手工特征组成,缺乏了对图像高级语义信息的理解,当图像主体和背景较为复杂时,该方法的处理效果并不友好,并且采用线裁剪的算法需要的时间相对较长。本发明与CN109447970A相比,考虑了图像的语义信息并利用多特征聚合的相对显著性分层监督模块以及显著等级引导的优化模块得到图像相对显著图,针对多目标的复杂图像,本发明为不同的显著目标分配不同的显著值,能够提供较准确的视觉重要度图,并且时间复杂度不高。
(4)CN111161340A公开了一种基于深度特征提取的图像重定向方法,该方法的步骤是训练用于前景分割的全卷积神经网络、提取图像不同尺度的特征图、线性组合所述特征图得到重要度图、网格变形,该方法考虑到图像的语义信息,采用前景分割的全卷积神经网络将图像中的显著前景与背景进行分割,获取重要度图,但是该方法依赖于前景分割网络,对于重要目标太大或者分散在背景的多目标图像,往往不能完全把显著区域分割出来。本发明与CN111161340A相比,将相对显著图提取模块获取的相对显著图与边缘提取模块获取的边缘图结合得到重要度图来引导图像变形,既保护图像的显著目标,也能保证图像整体结构不发生扭曲。
(5)CN111915489A公开了一种基于监督深度网络学习的图像重定向方法,该方法构建了一个新的重定向任务的数据集,包括:选择并确定原始输入图像、执行重定向操作、为重定向后的图像评估分数、选择评分最高的对应图像作为原图像的真值图、形成数据集,并设计了一个基于U-Net的生成对抗网络,分批次地使用新构建的数据集对网络进行训练,但是该方法是从原始图像上重构目标图像,图像的亮度和颜色会有轻微的不同。本发明与CN111915489A相比,网络学习的是原图像到目标图像的逐像素移位图,再使用四相邻像素再原图像上执行线性插值操作得到重定向图像,因此,图像色彩和颜色会保持原样。
附图说明
图1是本发明的整体流程图;
图2是本发明的多特征聚合模块与相对显著性分层监督模块的流程图;
图3是本发明的显著等级引导的优化模块的流程图;
图4是本发明的自适应1D重复卷积模块的流程图;
图5是本发明实施例重定向结果示例图。
具体实施方式
下面结合具体实施例和附图对本发明的技术方案进行详细描述,但并不以此限定本申请的保护范围。
本发明为一种基于相对显著性检测的图像重定向方法(简称方法,参见图1-4),具体步骤如下:
第一步,对显著目标排名数据集ASSR进行预处理,得到原始图像、真值图的相对显著性分层表示标签、显著等级标签以及边缘真值图;
第1.1步,给定输入图像I,使用双线性插值方法按比例将图像大小调整为H×W,得到原始图像;其中H表示图像高度,W表示图像宽度,本实施例中H=240,W=320;
第1.2步,对真值图G进行相对显著性分层,即依次删除真值图中属于显著等级最低的目标,每次删除都得到一个真值图的分层,直到真值图G中只剩显著等级最高的目标,生成真值图G的相对显著性分层表示标签GS;每张真值图G的相对显著性分层表示标签GS由N个真值图G的分层集合构成,即GS={G1,G2,…,Gn,…,GN},N表示数据集划分的显著等级数量,本实施例中N=5;G1显示所有的显著等级目标,GN显示显著等级最高的目标,每个Gn显示N-n+1个显著等级目标;
第1.3步,按照数据集给定的像素值将所有图像划分为六类,即将像素值为0的图像划分为类0,像素值为255的图像划分为类1,像素值为229的图像划分为类2,像素值为204的图像划分为类3,像素值为178的图像划分为类4,像素值为153的图像划分为类5,得到真值图的显著等级标签GR,R=0,1,…,5表示类别;
第1.4步,通过边缘检测方法生成图像的边缘真值图Ge,边缘检测方法参见文献“Dynamic feature integrationfor simultaneous detectionofsalient object,edge,and skeleton”;
第二步,利用预训练的ResNet50网络对原始图像进行特征提取,得到每阶段的增强特征;
第2.1步,将第1.1步得到的原始图像输入到预训练的ResNet50网络中,提取主干特征Ci,i∈[1,5],预训练的ResNet50网络的每个阶段都会提取一个主干特征,i表示预训练的ResNet50网络的第i阶段;
第2.2步,通过式(1)对第i阶段提取的主干特征Ci使用卷积核大小为1×1的卷积层改变通道数量,使每层通道维度实现统一,得到特征Ci′;
Ci′=Conv1×1(Ci) (1)
式(1)中,Conv1×1(·)表示卷积核大小为1×1的卷积层;
第2.3步,将特征Ci′经过两个卷积核大小为3×3的卷积层、批量归一化和Relu激活函数后,再与特征Ci′进行元素级相加,得到第i阶段的增强特征Fi,每阶段都会生成一个增强特征;Fi的表达式为:
第三步,获取原始图像的相对显著图;
第3.1步,将第5阶段的增强特征F5利用全局上下文模块进行特征提取,得到全局特征Fglobal;全局上下文模块的具体操作如式(3)-(5)所示;
branchk=BConv1×1(F5),k=1 (3)
其中,branchk,k∈[1,4]表示四个平行的卷积操作分支,表示卷积核大小为3×3、空洞率为2k-1的卷积层,Convu×v(·)表示卷积核大小为u×v的卷积层;Concat(·)表示通道拼接操作,Relu(·)表示激活函数;
式(6)中,RSSS(·)为相对显著性分层监督模块;相对显著性分层监督模块的具体操作如式(7)-(9)所示:即第5阶段的增强特征F5先通过卷积核大小为3×3的卷积层,得到第5阶段的相对显著性分层表示RSSR5,该相对显著性分层表示学习不同层级的显著目标;第5阶段的相对显著性分层表示RSSR5经过卷积核大小为3×3的卷积层、批量归一化、Relu激活函数、卷积核大小为1×1的卷积层和Relu激活函数生成一维相对显著图RS5,在一维相对显著图RS5中不同的显著目标具有不同的权重值;最后将一维相对显著图RS5与第5阶段的增强特征F5通过元素级相乘相加的方式进行加权,得到第5阶段的相对显著性加权特征F5 s;
RSSR5=Conv3×3(F5) (7)
RS5=RConv1×1(RBConv3×3(RSSR5)) (8)
第3.3步,除第5阶段外,其余各个阶段的增强特征Fi,i∈[1,4]分别利用多特征聚合模块提取每个阶段的聚合特征Fi agg,i∈[1,4];多特征聚合模块的具体操作如式(10)-(12)所示:多特征聚合模块的输入包括增强特征Fi、前一阶段的相对显著性加权特征以及全局特征Fglobal,将增强特征Fi作为低层特征,前一阶段的相对显著性加权特征作为高层特征;首先将高层特征和全局特征Fglobal分别经过两个卷积核大小为3×3的卷积层、批量归一化、Relu激活函数和上采样操作后,再分别与经过两个卷积核大小为3×3的卷积层、批量归一化和Relu激活函数后的低层特征进行元素级相乘,得到高层与低层结合的融合特征Mi lh,i∈[1,4]以及全局与低层结合的融合特征Mi lg,i∈[1,4];然后将两个融合特征进行级联,再经过卷积核大小为3×3的卷积层、批量归一化和Relu激活函数生成聚合特征Fi agg,i∈[1,4];
其中,Up(·)表示上采样操作;
第3.4步,将上述第3.3步提取的各阶段的聚合特征利用相对显著性分层监督模块,提取各阶段的相对显著性分层表示RSSRi,i∈[1,4]和一维相对显著图RSi,i∈[1,4];将一维相对显著图与对应的聚合特征进行元素级相乘相加,得到各阶段的相对显著性加权特征Fi s,i∈[1,4],具体操作如式(13)所示:
Fi s=RSSS(Fi agg),i∈[1,4] (13)
第3.5步,使用显著等级引导的优化模块对每阶段的相对显著性加权特征进行逐层优化,得到每阶段的优化特征Fi r,i∈[1,5];显著等级引导的优化模块的具体操作如式(14)、(15)所示,除第5阶段外,该模块的输入特征为每个阶段的相对显著性加权特征Fi s,i∈[1,4]以及前一阶段的优化特征i∈[1,4];首先将两个输入特征进行级联操作,然后利用卷积核大小为1×1的卷积层改变通道数量,将改变通道数量后的特征与相对显著性加权特征和前一阶段的优化特征再次进行级联操作,利用卷积核大小为1×1的卷积层改变通道数量,得到各阶段互补的融合特征Fi fuse,i∈[1,4];由于预训练的ResNet50网络值包含5个阶段,因此第5阶段互补的融合特征为第5阶段的相对显著性加权特征,即然后根据式(15)对各阶段互补的融合特征Fi fuse进行显著等级重加权操作,即各阶段互补的融合特征Fi fuse经过卷积核大小为3×3的卷积层、批量归一化、Relu激活函数和卷积核大小为3×3的卷积层,生成每类显著等级的类别概率,得到预测的显著等级Ri;再接入卷积核大小为1×1的卷积层和Sigmoid激活函数生成每个像素的注意力掩码,再与各自阶段互补的融合特征Fi fuse进行元素级相乘相加,得到每阶段的优化特征Fi r,i∈[1,5];
式(15)中,Sigmoid(·)表示激活函数;
第3.6步,利用式(16)对第1阶段的优化特征F1 r进行上采样,得到与原始图像大小一致的相对显著图SM;
SM=RBConv1×1(Deconv3×3(RBConv1×1(Deconv3×3(RBConv1×1(F1 r))))) (16)
式(16)中,Deconv3×3(·)为卷积核大小为3×3的反卷积操作;
第四步,使用边缘检测模块获取边缘图;边缘检测模块包含提取边缘特征和边缘注意力图;
第4.1步,将上述第2.3步生成的每阶段的增强特征经过卷积核大小为1×1的卷积层、Relu激活函数、卷积核大小为3×3的卷积层、Relu激活函数和上采样操作,提取每阶段的边缘特征,具体操作如式(17)所示;
Fi e=Up(RConv3×3(RConv1×1(Fi))),i∈[1,5] (17)
其中,Fi e表示第i阶段的边缘特征;
第4.2步,将第4.1步生成的所有阶段的边缘特征进行通道拼接,再使用卷积核大小为1×1的卷积层改变特征通道数量,然后接入到CBAM(Convolutional BlockAttentionModule)模块中,提取边缘注意力图,最后使用卷积核大小为1×1的卷积层将通道数变为1,得到边缘图EM,具体操作如式(18)所示:
EM=Conv1×1(CBAM(Conv1×1(Concat(Fi e)))),i∈[1,5] (18)
式(18)中,CBAM(·)为本技术领域公知的注意力提取模块;
第五步,图像重定向;
第5.1步,将上述第3.6步获取的相对显著图SM和上述第4.2步获取的边缘图EM按照式(19)进行融合,得到重要度图IM,其中α∈[0,1]是网络参数,由网络自己学习得到,用于平衡相对显著图SM和边缘图EM对重要度图IM的贡献;
IM=(1-α)SM+αEM (19)
第5.2步,将重要度图IM的尺寸调整到目标大小,得到图像IMη;如式(20),调整图像宽度时,当重定向比例为η∈[0,1],则图像IMη的目标大小为H×W′,W′=W×η,W′为调整后的宽度;调整图像高度时,将重要度图IM旋转90度,与调整图像宽度同理得到图像IMη;使用自适应1D(一维)重复卷积模块对图像IMη进行处理,使得满足图像中同一列的像素具有相同的移位值,该自适应1D重复卷积模块首先将图像IMη在高度维度上进行分列操作,得到W′个H维的列向量Vw′,w′∈[1,W′],并对每个列向量进行卷积核大小为1×1卷积操作,得到卷积后的列向量再将卷积后的结果与原始列向量进行点乘,对点乘后的向量进行级联操作得到一维向量,最后将得到的一维向量重复H次,得到同一列像素拥有相同移位值的图像IM1D,此时图像大小依然是H×W′,具体操作如式(21)-(23)所示:
IMη=Resize(IM,(H,W′)),W′=W×η,η∈[0,1] (20)
Vw′=Chunk(IMη,H),w′∈[1,W′] (21)
其中,Resize(·)表示图像大小调整操作,Chunk(·,H)表示在高度维度上进行分列操作,Mul(·)表示点乘操作,Dup(·,H)表示重复一维向量H次;
第5.3步,将上述第5.2步得到的图像IMη和IM1D按照公式(24)进行融合,得到图像IMfinal;然后按照公式(25)对图像IMfinal进行累计归一化,得到输入图像到目标图像的移位映射S;
IMfinal=λIMη+IM1D (24)
其中,λ是图像IMη和IM1D之间的平衡参数,本实施例中λ设置为1;Sum(·)表示在图像宽度维度上进行求和,Cumsum(·)表示在图像宽度维度上进行累计求和;
第5.4步,根据第5.3步得到的移位映射S,利用式(26)对输入图像I执行重定向操作,得到重定向图像O,输出重定向图像O;
O=Warp(I,S) (26)
其中,Warp(·,S)表示利用移位映射S对图像进行重定向操作;
第六步,通过损失函数计算上述过程中输出的预测图与真值图之间的损失;
第6.1步,计算相对显著性提取模块中预测图与真值图之间的损失,包括:
其中,RSSRi、RSi分别表示第i层的相对显著性分层表示和一维相对显著图,G表示真值图,xy表示图像像素点位置;
3)均方误差Lfinal表相对显著图SM与真值图G之间的损失,如下公式(30)所示:
4)总体显著损失Lsal如下公式(31)所示:
其中,δ1、δ2、δ3、δ4分别表示上述各个损失的平衡参数,本实施例中δ1、δ2、δ3设置为1,δ4设置为10;
第6.2步,二元交叉熵损失Ledge表示边缘图EM与边缘真值图Ge之间的损失,如下公式(32):
第6.3步,结构损失Lstruc表示利用移位映射来推断输入图像I和重定向图像O之间的对应关系,如下公式(33)所示:
其中:Fj(·)表示经过VGG16模型第一组卷积的前两层卷积层输出的结果,VGG16模型为本技术领域公知的网络结构;
第6.4步,最终损失函数如下公式(34)所示:
L=ω1Lsal+ω2Ledge+ω3Lstruc (34)
其中:ω1、ω2、ω3分别表示总体显著损失、二元交叉熵损失和结构损失的平衡系数,本实施例中ω1设置为0.1,ω2、ω3设置为1。
至此,完成了基于相对显著性检测的图像重定向。
图5显示了利用本发明的基于相对显著性检测的图像重定向方法生成的重定向结果图,图中第一列为测试的原始图像(Image),第二列为相对显著性检测模块生成的相对显著图(SM),第三列为生成的边缘图(EM),第四列为改变图像宽度为原始宽度的0.75(重定向比例η=0.75)时获取的重定向结果,第五列为改变图像宽度为原始宽度的0.5(重定向比例η=0.5)时获取的重定向结果。
本发明针对多目标场景图像的重定向问题,设计的相对显著性分层监督模块以及显著等级引导的优化模块,为不同的显著目标分配不同的显著值来模拟人类视觉注意力的优先级分配情况,将相对显著图与边缘图进行融合,以引导图像变形,能够使图像的整体结构不发生扭曲,有助于生成效果好的重定向图像。
本发明未述及之处适用于现有技术。
Claims (4)
1.一种基于相对显著性检测的图像重定向方法,其特征在于,具体步骤如下:
第一步,对显著目标排名数据集进行预处理,得到原始图像;
第二步,利用预训练的ResNet50网络对原始图像进行特征提取,得到每阶段的增强特征;
第2.1步,将原始图像输入到预训练的ResNet50网络中,提取主干特征Ci,i∈[1,5],预训练的ResNet50网络的每个阶段都会提取一个主干特征,i表示预训练的ResNet50网络的第i阶段;
第2.2步,使用卷积核大小为1×1的卷积层改变主干特征Ci的通道数量,得到特征Ci′;
第2.3步,将特征Ci′经过两个卷积核大小为3×3的卷积层、批量归一化和Relu激活函数后,再与特征Ci′进行元素级相加,得到第i阶段的增强特征Fi,每阶段都会生成一个增强特征;
第三步,获取原始图像的相对显著图;
第3.1步,将第5阶段的增强特征F5利用全局上下文模块进行特征提取,得到全局特征Fglobal;
第3.4步,将各阶段的聚合特征利用相对显著性分层监督模块,提取各阶段的相对显著性分层表示RSSRi,i∈[1,4]和一维相对显著图RSi,i∈[1,4];将一维相对显著图与对应的聚合特征进行元素级相乘相加,得到各阶段的相对显著性加权特征Fi s,i∈[1,4];
第3.5步,使用显著等级引导的优化模块对各阶段的相对显著性加权特征进行逐层优化,得到每阶段的优化特征Fi r,i∈[1,5];
第3.6步,对第1阶段的优化特征F1 r进行上采样,得到相对显著图SM;
第四步,使用边缘检测模块获取边缘图EM;
第五步,图像重定向;
第5.1步,将相对显著图SM和边缘图EM按照式(19)进行融合,得到重要度图IM;
IM=(1-α)SM+αEM (19)
其中,α∈[0,1]是网络参数,由网络自己学习得到,用于平衡相对显著图SM和边缘图EM对重要度图IM的贡献;
第5.2步,将重要度图IM的尺寸调整到目标大小,得到图像IMη,使用自适应1D(一维)重复卷积模块对图像IMη进行处理,得到图像IM1D;
第5.3步,将图像IMη和图像IM1D按照公式(24)进行融合,得到图像IMfinal;然后按照公式(25)对图像IMfinal进行累计归一化,得到输入图像到目标图像的移位映射S;
IMfinal=λIMη+IM1D (24)
其中,λ是图像IMη和IM1D之间的平衡参数,本实施例中λ设置为1;Sum(·)表示在图像宽度维度上进行求和,Cumsum(·)表示在图像宽度维度上进行累计求和;W、W′分别为尺寸调整前、后的图像宽度,H为图像高度;
第5.4步,根据移位映射S,利用式(26)对输入图像I执行重定向操作,得到重定向图像O,输出重定向图像O;
O=Warp(I,S) (26)
其中,Warp(·,S)表示利用移位映射S对图像进行重定向操作;
至此,完成了基于相对显著性检测的图像重定向。
2.根据权利要求1所述的基于相对显著性检测的图像重定向方法,其特征在于,第3.1步中全局上下文模块的具体操作如式(3)-(5)所示;
branchk=BConv1×1(F5),k=1 (3)
其中,branchk,k∈[1,4]表示四个平行的卷积操作分支,表示卷积核大小为3×3、空洞率为2k-1的卷积层,Convu×v(·)表示卷积核大小为u×v的卷积层;Concat(·)表示通道拼接操作,Relu(·)表示激活函数;B表示批量归一化;
第3.2步中,相对显著性分层监督模块的具体操作如式(7)-(9)所示:即第5阶段的增强特征F5先通过卷积核大小为3×3的卷积层,得到第5阶段的相对显著性分层表示RSSR5;第5阶段的相对显著性分层表示RSSR5经过卷积核大小为3×3的卷积层、批量归一化、Relu激活函数、卷积核大小为1×1的卷积层和Relu激活函数生成一维相对显著图RS5,在一维相对显著图RS5中不同的显著目标具有不同的权重值;最后将一维相对显著图RS5与第5阶段的增强特征F5通过元素级相乘相加的方式进行加权,得到第5阶段的相对显著性加权特征
RSSR5=Conv3×3(F5) (7)
RS5=RConv1×1(RBConv3×3(RSSR5)) (8)
第3.3步中,多特征聚合模块的具体操作如式(10)-(12)所示:多特征聚合模块的输入包括增强特征Fi、前一阶段的相对显著性加权特征以及全局特征Fglobal,将增强特征Fi作为低层特征,前一阶段的相对显著性加权特征作为高层特征;首先将高层特征和全局特征Fglobal分别经过两个卷积核大小为3×3的卷积层、批量归一化、Relu激活函数和上采样操作后,再分别与经过两个卷积核大小为3×3的卷积层、批量归一化和Relu激活函数后的低层特征进行元素级相乘,得到高层与低层结合的融合特征Mi lh,i∈[1,4]以及全局与低层结合的融合特征Mi lg,i∈[1,4];然后将两个融合特征进行级联,再经过卷积核大小为3×3的卷积层、批量归一化和Relu激活函数生成聚合特征Fi agg,i∈[1,4];
其中,Up(·)表示上采样操作;
第3.5步中,显著等级引导的优化模块的具体操作如式(14)、(15)所示,该模块的输入特征为每个阶段的相对显著性加权特征Fi s,i∈[1,4]以及前一阶段的优化特征首先将两个输入特征进行级联操作,然后利用卷积核大小为1×1的卷积层改变通道数量,将改变通道数量后的特征与相对显著性加权特征和前一阶段的优化特征再次进行级联操作,利用卷积核大小为1×1的卷积层改变通道数量,得到各阶段互补的融合特征Fi fuse,i∈[1,4];然后根据式(15)对各阶段互补的融合特征Fi fuse进行显著等级重加权操作,生成每类显著等级的类别概率,得到预测的显著等级Ri;再接入卷积核大小为1×1的卷积层和Sigmoid激活函数生成每个像素的注意力掩码,再与各自阶段互补的融合特征Fi fuse进行元素级相乘相加,得到每阶段的优化特征Fi r,i∈[1,5];
式(15)中,Sigmoid(·)表示激活函数。
3.根据权利要求1所述的基于相对显著性检测的图像重定向方法,其特征在于,该方法还包括第六步,通过损失函数计算上述过程中输出的预测图与真值图之间的损失;
第6.1步,计算相对显著性提取模块中预测图与真值图之间的损失,包括:
其中,GS为真值图G的相对显著性分层表示标签,xy表示图像像素点位置,N表示显著等级数量;
3)均方误差Lfinal表相对显著图SM与真值图G之间的损失,如下公式(30)所示:
4)总体显著损失Lsal如下公式(31)所示:
其中,δ1、δ2、δ3、δ4分别表示上述各个损失的平衡参数;
第6.2步,二元交叉熵损失Ledge表示边缘图EM与边缘真值图Ge之间的损失,如下公式(32):
第6.3步,结构损失Lstruc表示利用移位映射来推断输入图像I和重定向图像O之间的对应关系,如下公式(33)所示:
其中:Fj(·)表示经过VGG16模型第一组卷积的前两层卷积层输出的结果;
第6.4步,最终损失函数如下公式(34)所示:
L=ω1Lsal+ω2Ledge+ω3Lstruc (34)
其中,ω1、ω2、ω3分别表示总体显著损失、二元交叉熵损失和结构损失的平衡系数。
4.根据权利要求3所述的基于相对显著性检测的图像重定向方法,其特征在于,δ1、δ2、δ3均为1,δ4为10,ω1为0.1,ω2、ω3均为1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111228342.5A CN113947530B (zh) | 2021-10-21 | 2021-10-21 | 一种基于相对显著性检测的图像重定向方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111228342.5A CN113947530B (zh) | 2021-10-21 | 2021-10-21 | 一种基于相对显著性检测的图像重定向方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113947530A true CN113947530A (zh) | 2022-01-18 |
CN113947530B CN113947530B (zh) | 2024-04-30 |
Family
ID=79331852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111228342.5A Active CN113947530B (zh) | 2021-10-21 | 2021-10-21 | 一种基于相对显著性检测的图像重定向方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113947530B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104992403A (zh) * | 2015-07-07 | 2015-10-21 | 方玉明 | 一种基于视觉相似度度量的混合操作算子图像重定向方法 |
US20160210528A1 (en) * | 2014-02-24 | 2016-07-21 | Beijing University Of Technology | Method for detecting visual saliencies of video image based on spatial and temporal features |
CN106296632A (zh) * | 2015-05-25 | 2017-01-04 | 中国海洋大学 | 一种基于幅度谱分析的显著目标检测方法 |
CN111340046A (zh) * | 2020-02-18 | 2020-06-26 | 上海理工大学 | 基于特征金字塔网络和通道注意力的视觉显著性检测方法 |
CN112347859A (zh) * | 2020-10-15 | 2021-02-09 | 北京交通大学 | 一种光学遥感图像显著性目标检测方法 |
-
2021
- 2021-10-21 CN CN202111228342.5A patent/CN113947530B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160210528A1 (en) * | 2014-02-24 | 2016-07-21 | Beijing University Of Technology | Method for detecting visual saliencies of video image based on spatial and temporal features |
CN106296632A (zh) * | 2015-05-25 | 2017-01-04 | 中国海洋大学 | 一种基于幅度谱分析的显著目标检测方法 |
CN104992403A (zh) * | 2015-07-07 | 2015-10-21 | 方玉明 | 一种基于视觉相似度度量的混合操作算子图像重定向方法 |
CN111340046A (zh) * | 2020-02-18 | 2020-06-26 | 上海理工大学 | 基于特征金字塔网络和通道注意力的视觉显著性检测方法 |
CN112347859A (zh) * | 2020-10-15 | 2021-02-09 | 北京交通大学 | 一种光学遥感图像显著性目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113947530B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113240580B (zh) | 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法 | |
CN109859190B (zh) | 一种基于深度学习的目标区域检测方法 | |
CN112767418B (zh) | 基于深度感知的镜子图像分割方法 | |
CN111915627A (zh) | 语义分割方法、网络、设备及计算机存储介质 | |
CN107239733A (zh) | 连续手写字识别方法及系统 | |
CN112396607A (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN111401380B (zh) | 一种基于深度特征增强和边缘优化的rgb-d图像语义分割方法 | |
CN115222946B (zh) | 一种单阶段实例图像分割方法、装置以及计算机设备 | |
CN111797841B (zh) | 一种基于深度残差网络的视觉显著性检测方法 | |
CN111695494A (zh) | 一种基于多视角卷积池化的三维点云数据分类方法 | |
CN114119975A (zh) | 一种语言引导的跨模态实例分割方法 | |
CN111046915B (zh) | 一种风格字符生成的方法 | |
CN110148138A (zh) | 一种基于双重调制的视频目标分割方法 | |
CN115565043A (zh) | 结合多表征特征以及目标预测法进行目标检测的方法 | |
CN111667401B (zh) | 多层次渐变图像风格迁移方法及系统 | |
CN116863194A (zh) | 一种足溃疡图像分类方法、系统、设备及介质 | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN111179272A (zh) | 一种面向道路场景的快速语义分割方法 | |
CN118212415A (zh) | 一种基于混合卷积和多尺度注意力门的图像分割方法 | |
CN114612709A (zh) | 图像金字塔特征指导的多尺度目标检测方法 | |
CN111611999B (zh) | 一种融合小型深度生成模型的显著性检测方法及终端 | |
CN112989955A (zh) | 基于空时双流异构嫁接卷积神经网络人体动作识别方法 | |
CN117095172A (zh) | 一种基于内外部蒸馏的持续语义分割方法 | |
CN113947530B (zh) | 一种基于相对显著性检测的图像重定向方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |