CN107346436B - 一种融合图像分类的视觉显著性检测方法 - Google Patents

一种融合图像分类的视觉显著性检测方法 Download PDF

Info

Publication number
CN107346436B
CN107346436B CN201710530307.6A CN201710530307A CN107346436B CN 107346436 B CN107346436 B CN 107346436B CN 201710530307 A CN201710530307 A CN 201710530307A CN 107346436 B CN107346436 B CN 107346436B
Authority
CN
China
Prior art keywords
saliency
image
network
map
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710530307.6A
Other languages
English (en)
Other versions
CN107346436A (zh
Inventor
石柱国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Issa Technology Co ltd
ISSA Technology Co Ltd
Original Assignee
Beijing Yisa Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yisa Technology Co Ltd filed Critical Beijing Yisa Technology Co Ltd
Priority to CN201710530307.6A priority Critical patent/CN107346436B/zh
Publication of CN107346436A publication Critical patent/CN107346436A/zh
Application granted granted Critical
Publication of CN107346436B publication Critical patent/CN107346436B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种融合图像分类的视觉显著性检测方法,包括:利用包括图像编码网络、图像解码网络和图像辨识网络的视觉显著性检测模型,采用多尺度图像作为图像编码网络的输入,提取多分辨率下图像的特征作为编码特征向量F;固定所述图像编码网络中除最后两层外的权值,训练网络参数,得到原图像的视觉显著图;将F作为所述的图像解码网络的输入,对原图像对应的显著图做归一化处理;对图像解码网络输入F,通过上采样层和非线性sigmoid层最终得到生成的视觉显著图;利用图像辨识网络以原图像的视觉显著图和生成的视觉显著图作为输入,采用小卷积核的卷积层提取特征并池化处理,最后采用三个全连接层输出生成图的概率分布和分类标签的概率分布。本发明的方法实现了快速有效地对图像进行分析并做出判断的目的,在图像标注、监督和行为预测等实践中获得了节约人力物力成本、显著提高准确性等良好效果。

Description

一种融合图像分类的视觉显著性检测方法
技术领域
本发明属于图像检测与智能识别技术领域,特别是指一种视觉显著性检测方法。用于解决图像标注、监督和行为预测等技术问题。
背景技术
在一幅图像中,视觉显著性检测旨在估计出最为引起人们关注的对象在图像中的位置。视觉显著性检测的应用在日常社会生活中非常广泛,例如,在复杂的商城街道场景中,利用监控设备监察商城街道的安全和秩序,需要对携带高危物品和可疑举止行为的人员监督和排查,这除了具有专业素养的人员现场排查之外,同时还需要通过视频时刻监控。这样的监督和排查不但消耗资源大,并且无法避免因人员监察疲劳和侥幸心理而造成的重大疏漏。因此有必要通过视觉显著性检测技术帮助人们在特定的场景中快速、准确地聚焦在感兴趣或者危险的目标上,以便更好地节约人力物力。
近几年,视觉显著性检测受到计算机视觉领域各个研究机构的关注和重视。本领域的研究算法中,有些算法认为,可根据多尺度空间下提取图像低阶特征来形成当前图像的显著图,用于预测该场景下视觉显著性关注的部分,例如L.Itti等提出一种基于视觉显著性关注的快速场景分析模型[L.Itti,C.Koch,and E.Niebur.A model of saliency-based visual attention for rapid scene analysis.IEEE Transactions on PatternAnalysis and Machine Intelligence(PAMI),(20):1254-1259,1998.],J.Harel等在此基础上引入了基于图的显著性模型,这种模型定义了基于不同显著图的马尔科夫链,并且将显著性映射的位置的平衡分布作为激活函数和显著点的值,得到一种基于图论的视觉显著性检测方法[J.Harel,C.Koch,and P.Perona.Graph-based visual saliency.In NeuralInformation Processing Systems(NIPS),2006.]。但这种基于图像低阶特征的视觉显著性检测将关注点定位在图像所属的低阶信息,而很少关注纹理和边缘等重要的高阶信息,从而影响显著性判断和检测。而且,低阶信息冗余性大,对低阶信息的过多关注消耗资源,检测效率低。
视觉显著性检测作为一种智能模拟人的视觉特点,提取图像的显著区域,存在一种视觉注意机制的概念,即面对一个场景时,人的视觉系统会主动对感兴趣的区域进行处理,选择性地忽略不感兴趣区域,这些人们感兴趣的区域被称为显著性区域。人类的视觉注意机制有两种策略:
(1)自底而上基于数据驱动的注意机制
仅受感知数据的驱动将人的视点指导到场景中的显著区域,通常与周围具有较强对比度或与周围有明显不同的区域吸引自下而上的注意。
(2)自上而下基于任务驱动的目标注意机制
由人的“认知因素”决定,如知识、预期和当前的目标。针对图像的特定特征来计算图像区域的显著性。
T.Judd等提出的利用人类的视觉注意机制进行的“自底而上、自上而下”的视觉显著性检测[T.Judd,K.Ehinger,F.Durand,and A.Torralba.Learning to predict wherehumans look.In IEEE International Conference on Computer Vision(ICCV),2009.]不但结合图像低阶特征进行图像的视觉显著性分析,同时结合了中、高阶图像特征的应用。这种全面掌控的图像信息的算法有效改善了只保留图像低阶特征信息丢失造成的误检漏检情况,但仍然存在信息量冗余情况和检测效率低的问题。
随着深度学习在工业领域的广泛使用,基于深度神经网络的视觉显著性检测算法比传统算法更为鲁棒,J.Pan等对采用深度神经网络的算法进行了对比[J.Pan,E.Sayrol,X.Gir′o-i Nieto,K.McGuinness,and N.E.O’Connor.Shallow and deep convolutionalnetworks forsaliency prediction.In IEEE Conference on Computer Vision andPattern Recognition(CVPR),2016.]。其中,最近对视觉显著性检测的深度学习算法中,M.K¨ummerer等分别使用了AlexNet和VGG-19训练[M.K¨ummerer,L.Theis,andM.Bethge.DeepGaze I:Boosting saliency prediction with feature maps trained onImage Net.In International Conference on Learning Representations(ICLR),2015.]、[M.K¨ummerer,T.S.Wallis,and M.Bethge.DeepGaze II:Reading fixationsfrom deep features trained on object recognition.ArXiv preprint:1610.01563,2016.],后者中提出了一种基于多分辨率的卷积神经网络,用于训练图像区域中心在多分辨率中的固定和非固定的位置。不同的“自上而下”视觉机制的视觉特征能够在更高层中得到学习,而“自下而上”视觉机制所具有的突破性的创新思路同样被后来的研究人员延伸和发展,N.Liu等[N.Liu and J.Han.A deep spatial contextual long-term recurrentconvolutional network for saliency detection.ArXiv preprint:1610.01708,2016.]认为,并行的学习每幅图像中相关联的显著点的局部特征,同时结合全局内容和场景内容来推测属于该图像的视觉显著点,这种局部结合整体的思路非常适用,因此,这种结合的模型能够有效地学习一种长期空间交互和场景内容多变的图像显著性检测。
为了有效地训练深度神经网络,使训练的网络各司其职,分工明确,需要将复杂的网络功能化,例如M.Cornia等提到一种结合DCNN不同层的特征提取进行视觉显著性检测[M.Cornia,L.Baraldi,G.Serra,and R.Cucchiara.A deep multi-level network forsaliency prediction.In International Conference on Pattern Recognition(ICPR),2016.],该模型包括:(1)特征提取DCNN;(2)用于特征编码的网络——权重低、属高层特征映射;(3)优先学习的网络。M.Cornia等在文中还介绍了一种新的损失函数:衡量与真实显著性点的相似性、保持预测映射的不变性、重要像素点属于显著性点的概率固定。选择一种合适的损失函数能够有效的提高结果的精确度。
深度学习的算法由于深度神经网络具有很强的自主特征学习和提取的能力,并且存在所见特征维数的处理,很多程度上去掉了冗余信息,通过有效的监督或半监督式的学习,极大程度上提高了算法的实用性和稳定性,但是目前的基于深度学习的图像显著性检测算法受限于显著性目标的分辨率、大小以及误差传递函数,使得算法仍存在诸多问题。尤其是目标检测存在很多误检,原因在于分类上的不足。
由此可见,现在的图像显著性检测方法都具有一定的缺陷。
发明内容
鉴于上述技术背景,本发明的目的在于:提供一种能够快速有效地对图像进行分析并做出判断的方法,筛选出最为引起人们关注的目标位置并给予目标分类,可以广泛应用于图像标注、监督和行为预测中,不仅可以大大节约资源成本,而且能够显著提高准确性。
本发明的上述目的通过以下技术方案实现:
首先,提供一种基于卷积神经网络的视觉显著性检测模型,它包括图像编码网络、图像解码网络和图像辨识网络;
所述的图像编码网络通过在VGG-16网络模型基础上去掉最后一层池化层和全卷积层的方式构建,并在固定除网络最后两个卷积层部分外的其他权值的前提下,经多尺度图像做最后两层卷积结构的参数训练后形成;
所述的图像解码网络对称于所述的图像编码网络,在VGG-16网络模型基础上由上采样层替换池化层的方式构建,且除最后一层卷积层后连接非线性sigmoid层外,其他卷积层后连接非线性ReLU层;
所述的图像辨识网络结构中包括用于特征提取的小卷积核的卷积层、用于降低特征维数的池化层和用于最后的特征输出的全连接层;所述图像辨识网络包括两部分输入和两部分输出,所述的输入包括所述图像编码网络生成的原图像的视觉显著图和所述图像解码网络所得生成的视觉显著图;所述的输出包括生成图的概率分布和分类标签的概率分布。
本发明优选的模型中,所述的图像编码网络经多尺度图像做最后两层卷积结构的参数训练,具体优选采用所述的VGG-16网络模型的3×3小卷积核对特征层自动提取,并用最大池化层对特征映射层大小进行缩减,然后在原始VGG-16网络模型基础上通过训练微调后两层参数的大小。
本发明所述的基于卷积神经网络的视觉显著性检测模型中,所述的图像编码网络可以完成对不同分辨率图像的特征编码任务,从而生成原图像的视觉显著图;所述的图像解码网络可以生成与输入图像同分辨率或更高分辨率的生成的视觉显著图;所述的图像识别网络用于得到逼近真实显著图的预测显著图,同时估计该显著点真实类别属性,输出目标分类。
在此基础上,本发明进一步提供一种融合图像分类的视觉显著性检测方法,利用本发明所述的基于卷积神经网络的视觉显著性检测模型,包括以下步骤:
S1:采用多尺度图像作为所述的图像编码网络的输入,提取多分辨率下图像的特征作为编码特征向量F;原图像I表示为M×N的矩阵图,每一点的坐标可表示为(x,y),像素值表示为I(x,y),则最终所述的编码特征向量F可表示为F=[f1,f2,f3,···,fn];
S2:固定所述图像编码网络中除最后两层外的权值,训练网络参数,得到原图像的视觉显著图I_saliency_map_real;一个卷积神经网络通常可表述为不同层的串联结构,这种层的定义可表述为以下式(I)-(II):
θl=(Wl,bl) (I)
Figure BDA0001335777600000041
其中,θl表示该层的层参数,φl为非线性层参数,l∈[0,L-1],f0(I(x,y))=I(x,y);
假设卷积核参数为nl-1×nl×kl×kl,nl,kl表示层l的卷积核数量和大小,且n0=1;
S3:将S1中所述的编码特征向量F作为所述的图像解码网络的输入,对原图像I对应的显著图I_saliency_map_real做归一化处理,其范围为[0,1],I_saliency_map_real中的值为该点受关注的概率Psaliency,计算方法如下式(III)所示:
Figure BDA0001335777600000051
其中,Isaliency(x,y)=f(I(x,y);θ),表示从I(x,y)到I_saliency_map_real的映射函数,即I_saliency_map_real对应I(x,y)的显著值,相应地,Isaliency_min(x,y)表示I_saliency_map_real中对应I(x,y)的最小显著值,Isaliency_max(x,y)表示最大显著值;θ表示模型参数;通过式(III)的计算即可得到Psaliency
S4:对所述的图像解码网络输入F,通过上采样层和非线性sigmoid层最终得到生成的视觉显著图I_saliency_map_fake,将I_saliency_map_fake中所有显著点构成的集合看作一个事件集合Ssaliency={Psaliency_1,Psaliency_2,…,Psaliency_M×N},采用所述的非线性sigmoid层操作:
Figure BDA0001335777600000052
保证显著点之间的独立性;
S5:利用所述的图像辨识网络,以S2得到的原图像的视觉显著图和S4得到的生成的视觉显著图作为输入,采用3×3的小卷积核的卷积层提取特征,然后经池化层两两一组进行池化处理,降低特征维数,最后采用三个全连接层输出生成图的概率分布和分类标签的概率分布。
本发明优选的方法中,通过以下式(V)-(VI)将S5得到的特征作为误差函数的输入,进行所述图像辨识网络的权值更新:
Ls=E[log P(Psaliency=real|I_saliency_real)]+E[log P(Psaliency=fake|I_saliency_fake)] (V)
LC=E[log P(C=c|I_saliency_real)]+E[log P(C=c|I_saliency_fake)] (VI)
其中,
I_saliency_map_real为S2中对应原图像I的视觉显著图;
I_saliency_map_fake为步骤S4中解码网络生成的原图像I的视觉显著图;
P(Psaliency=real|I_saliency_real)表示真实视觉显著图中真实显著点的概率;
P(Psaliency=fake|I_saliency_fake)表示生成的视觉显著图中伪显著点的概率;
log P(C=c|I_saliency_real)表示真实视觉显著图中真实类别属性的概率;
P(C=c|I_saliency_fake)表示生成的视觉显著图中真实类别属性的概率;
符号E表示期望;
则所述的图像辨识网络的误差传递函数表示为下式(VII):
LDIS=Ls+LC (VII)。
本发明中,所述的图像编码网络和图像解码网络统称为生成式对抗网络,在对生成式对抗网络的误差传递和参数训练中,主要采用一种感知误差,主要包括三部分,基于原图像显著图的误差、基于对抗性网络误差和融合分类误差,其中,基于对抗性网络误差和融合分类误差如式(V)-(VI)所示,则基于原图像显著图的误差传递函数和网络训练过程表述如下:
a:采用二值交叉熵的计算方式,通过以下公式(VIII)生成:
Figure BDA0001335777600000061
其中,Sj表示原图像对应的视觉显著图事件集合中的独立事件;
Figure BDA0001335777600000062
表示图像解码网络生成的视觉显著图事件集合中的独立事件。
b:在训练过程中采用一种交替训练的方式,使用生成式对抗网络的生成的视觉显著图和原图像的视觉显著图作为输入,训练所述图像辨识网络,并由所述的式(VII)提到的误差传递函数LDIS计算反向误差并更新权重。
c:固定所述图像辨识网络的权重,输入原图像作为生成式对抗网络输入,训练生成式对抗网络,误差传递函数公式表达为式(IX):
LGAN=αLBCE+βLC-Ls (IX)
其中,LBCE为计算出的基于二值交叉熵误差(算法见式(VIII));LC为计算出的基于融合分类误差(算法见式(VI));Ls为计算出的基于图像辨识网络误差(算法见式(V))。
与现有技术相比,本发明是采用生成式对抗网络(图像编码网络和图像解码网络统称为生成式对抗网络)提取图像中最为引起人们关注的目标特征,并利用辨识网络识别目标位置并给予目标分类。本发明的方法中主要应用了三个网络:基于卷积神经网络的图像编码网络、基于卷积神经网络的图像解码网络、以及融合图像分类的图像识别网络。其中,基于卷积神经网络的图像编码网络利用多尺度图像做参数训练,完成对不同分辨率图像的特征编码任务,这项技术解决了对不同分辨率图像的特征提取任务,对不同清晰程度的图像具有鲁棒能力;基于卷积神经网络的图像解码网络采用上采样层进行图像解码训练,并添加sigmoid层来保证得到的每个显著点彼此相互独立,进而完成与输入图像同分辨率或更高分辨率的视觉显著图的生成;融合图像分类的图像识别网络利用二值交叉熵作为误差传递函数修正了前两个网络的参数,得到逼近真实显著图的预测显著图,同时估计该显著点真实类别属性,输出目标分类。本发明方法中,通过上述三种网络相互配合,各司其职,相互协作很好地完成了本发明所述的任务,实现了快速有效地对图像进行分析并做出判断的目的,在图像标注、监督和行为预测等实践中获得了节约人力物力成本、显著提高准确性等良好效果。
附图说明
图1为本发明实施例1的流程示意图。
图2A为实施例1检测的户外场景原图;图2B为经实施例1的视觉显著性检测得到的实际的视觉显著性特征图;图2C为经实施例1的实验结果得到的显著性特征图及其分类(带标签)。
图3A为实施例2检测的室内场景原图;图3B为经实施例2的视觉显著性检测得到的实际的视觉显著性特征图;图3C为经实施例2的实验结果得到的显著性特征图及其分类(带标签)。
图4A为实施例3检测的人体行为原图;图4B为经实施例3的视觉显著性检测得到的实际的视觉显著性特征图;图4C为经实施例3的实验结果得到的显著性特征图及其分类(带标签)。
图5A为实施例4检测的复杂场景原图;图5B为经实施例4的视觉显著性检测得到的实际的视觉显著性特征图;图5C为经实施例4的实验结果得到的显著性特征图及其分类(带标签)。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
实施例1
一种对如图2A所示的户外场景图像的视觉显著性检测方法,采用如图1所示流程,包括以下步骤:
S1:采用图2A的多尺度图像作为所述的图像编码网络的输入,提取多分辨率下图像的特征作为编码特征向量F;原图像I表示为M×N的矩阵图,每一点的坐标可表示为(x,y),像素值表示为I(x,y),则最终所述的编码特征向量F可表示为F=[f1,f2,f3,···,fn];
S2:固定所述图像编码网络中除最后两层外的权值,训练网络参数,得到原图像的视觉显著图I_saliency_map_real;一个卷积神经网络通常可表述为不同层的串联结构,这种层的定义可表述为以下式(I)-(II):
θl=(Wl,bl) (I)
Figure BDA0001335777600000081
其中,θl表示该层的层参数,φl为非线性层参数,l∈[0,L-1],f0(I(x,y))=I(x,y);
假设卷积核参数为nl-1×nl×kl×kl,nl,kl表示层l的卷积核数量和大小,且n0=1;
S3:将S1中所述的编码特征向量F作为所述的图像解码网络的输入,对原图像I对应的显著图I_saliency_map_real做归一化处理,其范围为[0,1],I_saliency_map_real中的值为该点受关注的概率Psaliency,计算方法如下式(III)所示:
Figure BDA0001335777600000082
其中,Isaliency(x,y)=f(I(x,y);θ),表示从I(x,y)到I_saliency_map_real的映射函数,即I_saliency_map_real对应I(x,y)的显著值,相应地,Isaliency_min(x,y)表示I_saliency_map_real中对应I(x,y)的最小显著值,Isaliency_max(x,y)表示最大显著值;θ表示模型参数;通过式(III)的计算即可得到Psaliency
S4:对所述的图像解码网络输入F,通过上采样层和非线性sigmoid层最终得到生成的视觉显著图I_saliency_map_fake,将I_saliency_map_fake中所有显著点构成的集合看作一个事件集合Ssaliency={Psaliency_1,Psaliency_2,…,Psaliency_M×N},采用非线性Sigmoid层操作:
Figure DA00013357776034581
保证显著点之间的独立性;
S5:利用所述的图像辨识网络,以S2得到的原图像的视觉显著图和S4得到的生成的视觉显著图作为输入,采用3×3的小卷积核的卷积层提取特征,然后经池化层两两一组进行池化处理,降低特征维数,最后采用三个全连接层输出生成图的概率分布和分类标签的概率分布。
通过以下式(V)-(VI)将S5得到的特征作为误差函数的输入,进行所述图像辨识网络的权值更新:
Ls=E[log P(Psaliency=real|I_saliency_real)]+E[log P(Psaliency=fake|I_saliency_fake)] (V)
LC=E[log P(C=c|I_saliency_real)]+E[log P(C=c|I_saliency_fake)] (VI)
其中,
I_saliency_map_real为S2中对应原图像I的视觉显著图;
I_saliency_map_fake为S4中解码网络生成的原图像I的视觉显著图;
P(Psaliency=real|I_saliency_real)表示真实视觉显著图中真实显著点的概率;
P(Psaliency=fake|I_saliency_fake)表示生成的视觉显著图中伪显著点的概率;
log P(C=c|I_saliency_real)表示真实视觉显著图中真实类别属性的概率;
P(C=c|I_saliency_fake)表示生成的视觉显著图中真实类别属性的概率;
符号E表示期望;
则所述的图像辨识网络的误差传递函数表示为下式(VII):
LDIS=Ls+LC (VII)。
实施例2
一种对如图3A所示的室内场景图像的视觉显著性检测方法,采用如图1所示流程,步骤基本同实施例1。得到图3B所示的实际的视觉显著性特征图和图3C所示的显著性特征图及其分类(带标签)。
实施例3
一种对如图4A所示的人体行为图像的视觉显著性检测方法,采用如图1所示流程,步骤基本同实施例1。得到图4B所示的实际的视觉显著性特征图和图4C所示的显著性特征图及其分类(带标签)。
实施例4
一种对如图5A所示的复杂场景图像的视觉显著性检测方法,采用如图1所示流程,步骤基本同实施例1。得到图5B所示的实际的视觉显著性特征图和图5C所示的显著性特征图及其分类(带标签)。

Claims (6)

1.一种融合图像分类的视觉显著性检测方法,其特征在于:先建立基于卷积神经网络的视觉显著性检测模型,再利用所述模型进行融合图像分类的视觉显著性检测;
所述的模型包括图像编码网络、图像解码网络和图像辨识网络;
所述的图像编码网络通过在VGG-16网络模型基础上去掉最后一层池化层和全卷积层的方式构建,并在固定除网络最后两个卷积层部分外的其他权值的前提下,经多尺度图像做最后两层卷积结构的参数训练后形成;
所述的图像解码网络对称于所述的图像编码网络,在VGG-16网络模型基础上由上采样层替换池化层的方式构建,且除最后一层卷积层后连接非线性sigmoid层外,其他卷积层后连接非线性ReLU层;
所述的图像辨识网络结构中包括用于特征提取的小卷积核的卷积层、用于降低特征维数的池化层和用于最后的特征输出的全连接层;所述图像辨识网络包括两部分输入和两部分输出,所述的输入包括所述图像编码网络生成的原图像的视觉显著图和所述图像解码网络所得生成的视觉显著图;所述的输出包括生成图的概率分布和分类标签的概率分布;
所述的利用所述模型进行融合图像分类的视觉显著性检测包括以下步骤:
S1:采用多尺度图像作为所述的图像编码网络的输入,提取多分辨率下图像的特征作为编码特征向量F;原图像I表示为M×N的矩阵图,每一点的坐标可表示为(x,y),像素值表示为I(x,y),则最终所述的编码特征向量F可表示为F=[f1,f2,f3,···,fn];
S2:固定所述图像编码网络中除最后两层外的权值,训练网络参数,得到原图像的视觉显著图I_saliency_map_real;一个卷积神经网络表述为不同层的串联结构,这种层的定义表述为以下式(I)-(II):
θl=(Wl,bl) (I)
Figure FDA0002212348590000011
其中,θl表示该层的层参数,φl为非线性层参数,l∈[0,L-1],f0(I(x,y))=I(x,y);
假设卷积核参数为nl-1×nl×kl×kl,nl,kl表示层l的卷积核数量和大小,且n0=1;
S3:将S1中所述的编码特征向量F作为所述的图像解码网络的输入,对原图像I对应的显著图I_saliency_map_real做归一化处理,其范围为[0,1],I_saliency_map_real中的值为该点受关注的概率Psaliency,计算方法如下式(III)所示:
Figure FDA0002212348590000021
其中,Isaliency(x,y)=f(I(x,y);θ),表示从I(x,y)到I_saliency_map_real的映射函数,即I_saliency_map_real对应I(x,y)的显著值,相应地,Isaliency_min(x,y)表示I_saliency_map_real中对应I(x,y)的最小显著值,Isaliency_max(x,y)表示最大显著值;θ表示模型参数;通过式(III)的计算即可得到Psaliency
S4:对所述的图像解码网络输入F,通过上采样层和非线性sigmoid层最终得到生成的视觉显著图I_saliency_map_fake,将I_saliency_map_fake中所有显著点构成的集合看作一个事件集合Ssaliency={Psaliency_1,Psaliency_2,···,Psaliency_M×N},采用非线性sigmoid层操作:
Figure FDA0002212348590000022
保证显著点之间的独立性;
S5:利用所述的图像辨识网络,以S2得到的原图像的视觉显著图和S4得到的生成的视觉显著图作为输入,采用3×3的小卷积核的卷积层提取特征,然后经池化层两两一组进行池化处理,降低特征维数,最后采用三个全连接层输出生成图的概率分布和分类标签的概率分布。
2.根据权利要求1所述的方法,其特征在于,所述的模型中的图像编码网络经多尺度图像做最后两层卷积结构的参数训练,具体是采用所述的VGG-16网络模型的3×3小卷积核对特征层自动提取,并用最大池化层对特征映射层大小进行缩减,然后在原始VGG-16网络模型基础上通过训练微调后两层参数的大小。
3.根据权利要求1所述的方法,其特征在于,通过以下式(V)-(VI)将S5得到的特征作为误差函数的输入,进行所述图像辨识网络的权值更新:
Ls=E[log P(Psaliency=real|I_saliency_real)]+E[log P(Psaliency=fake|I_saliency_fake)] (V)
LC=E[log P(C=c|I_saliency_real)]+E[log P(C=c|I_saliency_fake)] (VI)
其中,
I_saliency_map_real为S2中对应原图像I的视觉显著图;
I_saliency_map_fake为S4中解码网络生成的原图像I的视觉显著图;
P(Psaliency=real|I_saliency_real)表示真实视觉显著图中真实显著点的概率;
P(Psaliency=fake|I_saliency_fake)表示生成的视觉显著图中伪显著点的概率;
P(C=c|I_saliency_real)表示真实视觉显著图中真实类别属性的概率;
P(C=c|I_saliency_fake)表示生成的视觉显著图中真实类别属性的概率;
符号E表示期望;
则所述的图像辨识网络的误差传递函数表示为下式(VII):
LDIS=Ls+LC (VII)。
4.根据权利要求3所述的方法,其特征在于:基于原图像显著图的误差传递函数和网络训练过程表述如下:
采用二值交叉熵的计算方式,通过以下公式(VIII)生成:
Figure FDA0002212348590000032
其中,Sj表示原图像对应的视觉显著图事件集合中的独立事件;
Figure FDA0002212348590000031
表示图像解码网络生成的视觉显著图事件集合中的独立事件。
5.根据权利要求4所述的方法,其特征在于:在训练过程中采用一种交替训练的方式,使用生成式对抗网络的生成的视觉显著图和原图像的视觉显著图作为输入,训练所述图像辨识网络,并由所述的式(VII)提到的误差传递函数LDIS计算反向误差并更新权重。
6.根据权利要求4所述的方法,其特征在于:固定所述图像辨识网络的权重,输入原图像作为生成式对抗网络输入,训练生成式对抗网络,误差传递函数公式表达为式(IX):
LGAN=αLBCE+βLC-Ls (IX)
其中,LBCE为权利要求4所述的式(VIII)计算出的基于二值交叉熵误差;LC为权利要求3所述的式(VI)计算出的基于融合分类误差;Ls为权利要求3所述的式(V)计算出的基于图像辨识网络误差。
CN201710530307.6A 2017-06-29 2017-06-29 一种融合图像分类的视觉显著性检测方法 Active CN107346436B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710530307.6A CN107346436B (zh) 2017-06-29 2017-06-29 一种融合图像分类的视觉显著性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710530307.6A CN107346436B (zh) 2017-06-29 2017-06-29 一种融合图像分类的视觉显著性检测方法

Publications (2)

Publication Number Publication Date
CN107346436A CN107346436A (zh) 2017-11-14
CN107346436B true CN107346436B (zh) 2020-03-24

Family

ID=60257430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710530307.6A Active CN107346436B (zh) 2017-06-29 2017-06-29 一种融合图像分类的视觉显著性检测方法

Country Status (1)

Country Link
CN (1) CN107346436B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220044358A1 (en) * 2021-01-20 2022-02-10 Beijing Baidu Netcom Science Technology Co., Ltd. Image processing method and apparatus, device, and storage medium

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171701B (zh) * 2018-01-15 2021-06-22 复旦大学 基于u网络和对抗学习的显著性检测方法
CN108062754B (zh) * 2018-01-19 2020-08-25 深圳大学 基于密集网络图像的分割、识别方法和装置
CN108268870B (zh) * 2018-01-29 2020-10-09 重庆师范大学 基于对抗学习的多尺度特征融合超声图像语义分割方法
CN111492375B (zh) * 2018-02-06 2023-09-05 赫尔实验室有限公司 用于辨识新对象的机器视觉系统
CN108416428B (zh) * 2018-02-28 2021-09-14 中国计量大学 一种基于卷积神经网络的机器人视觉定位方法
CN110610185B (zh) * 2018-06-15 2023-03-31 阿里巴巴集团控股有限公司 图像的显著目标的检测方法、装置及设备
CN109166178B (zh) * 2018-07-23 2020-10-16 中国科学院信息工程研究所 一种视觉特性与行为特性融合的全景图像显著图生成方法及系统
CN109543502B (zh) * 2018-09-27 2023-06-06 天津大学 一种基于深度多尺度神经网络的语义分割方法
CN109492580B (zh) * 2018-11-08 2020-08-07 北方工业大学 一种基于全卷积网络的邻域显著性参照的多尺寸航拍图像定位方法
CN109376683A (zh) * 2018-11-09 2019-02-22 中国科学院计算技术研究所 一种基于稠密图的视频分类方法和系统
CN109766918B (zh) * 2018-12-18 2021-04-30 南开大学 基于多层次上下文信息融合的显著性物体检测方法
CN110223295B (zh) * 2019-06-21 2022-05-03 安徽大学 基于深度神经网络色彩感知的显著性预测方法及装置
CN110689599B (zh) * 2019-09-10 2023-05-19 上海大学 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
CN110648322B (zh) * 2019-09-25 2023-08-15 杭州智团信息技术有限公司 一种子宫颈异常细胞检测方法及系统
CN110942095A (zh) * 2019-11-27 2020-03-31 中国科学院自动化研究所 显著物体区域检测方法及系统
CN110689093B (zh) * 2019-12-10 2020-04-21 北京同方软件有限公司 一种复杂场景下的图像目标精细分类方法
CN111027576B (zh) * 2019-12-26 2020-10-30 郑州轻工业大学 基于协同显著性生成式对抗网络的协同显著性检测方法
CN111291784A (zh) * 2020-01-15 2020-06-16 上海理工大学 一种基于迁移显著性先验信息的服装属性识别方法
CN111325124B (zh) * 2020-02-05 2023-05-12 上海交通大学 虚拟场景下的实时人机交互系统
CN111723707B (zh) * 2020-06-09 2023-10-17 天津大学 一种基于视觉显著性的注视点估计方法及装置
CN112598053B (zh) * 2020-12-21 2024-01-09 西北工业大学 基于半监督学习的主动显著性目标检测方法
CN113822855B (zh) * 2021-08-11 2024-10-15 安徽大学 一种独立解码和联合解码相结合的rgb-t图像显著目标检测方法
CN113850377A (zh) * 2021-09-26 2021-12-28 安徽寒武纪信息科技有限公司 数据处理装置、数据处理方法及相关产品
CN114371686B (zh) * 2021-12-29 2024-07-19 以萨技术股份有限公司 基于局部邻域标准化的多工况过程故障检测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203432A (zh) * 2016-07-14 2016-12-07 杭州健培科技有限公司 一种基于卷积神经网显著性图谱的感兴趣区域的定位方法
CN106845471A (zh) * 2017-02-20 2017-06-13 深圳市唯特视科技有限公司 一种基于生成对抗网络的视觉显著性预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9025880B2 (en) * 2012-08-29 2015-05-05 Disney Enterprises, Inc. Visual saliency estimation for images and video

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203432A (zh) * 2016-07-14 2016-12-07 杭州健培科技有限公司 一种基于卷积神经网显著性图谱的感兴趣区域的定位方法
CN106845471A (zh) * 2017-02-20 2017-06-13 深圳市唯特视科技有限公司 一种基于生成对抗网络的视觉显著性预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A deep multi-level network for saliency prediction;Marcella Cornia 等;《2016 23rd International Conference on Pattern Recognition (ICPR)》;20161208;第3488-3493页 *
SalGAN: Visual saliency prediction with generative adversarial networks;Junting Pan 等;《网页在线公开:https://arxiv.org/abs/1701.01081》;20170107;第1-10页第3-4小节 *
Visual Saliency Based on Multiscale Deep Features;Guanbin Li 等;《IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》;20150612;第5455-5463页 *
深度卷积神经网络的显著性检测;李岳云 等;《中国图象图形学报》;20160131;第21卷(第1期);第53-59页 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220044358A1 (en) * 2021-01-20 2022-02-10 Beijing Baidu Netcom Science Technology Co., Ltd. Image processing method and apparatus, device, and storage medium
US11893708B2 (en) * 2021-01-20 2024-02-06 Beijing Baidu Netcom Science Technology Co., Ltd. Image processing method and apparatus, device, and storage medium

Also Published As

Publication number Publication date
CN107346436A (zh) 2017-11-14

Similar Documents

Publication Publication Date Title
CN107346436B (zh) 一种融合图像分类的视觉显著性检测方法
Thida et al. Laplacian eigenmap with temporal constraints for local abnormality detection in crowded scenes
CN102156871B (zh) 基于类别相关的码本和分类器投票策略的图像分类方法
CN107886062B (zh) 图像处理方法、系统及服务器
CN107818314A (zh) 脸部图像处理方法、装置及服务器
CN107301376B (zh) 一种基于深度学习多层刺激的行人检测方法
CN102867195B (zh) 一种遥感图像多类目标检测和识别方法
CN103617413B (zh) 一种在图像中识别物体的方法
CN108509833A (zh) 一种基于结构化分析字典的人脸识别方法、装置及设备
Yin et al. Attention-guided siamese networks for change detection in high resolution remote sensing images
Yandouzi et al. Investigation of combining deep learning object recognition with drones for forest fire detection and monitoring
CN116311214B (zh) 车牌识别方法和装置
CN105930793B (zh) 一种基于sae特征可视化学习的人体检测方法
Bagi et al. Cluttered textspotter: An end-to-end trainable light-weight scene text spotter for cluttered environment
Ghasemi et al. Optimizing Sector Ring Histogram of Oriented Gradients for human injured detection from drone images
Jiang et al. MANet: An Efficient Multi-Dimensional Attention-Aggregated Network for Remote Sensing Image Change Detection
Sandotra et al. Analyzing performance of deep learning models under the presence of distortions in identifying plant leaf disease
Imoh et al. Experimental face recognition using applied deep learning approaches to find missing persons
Kailash et al. Deep learning based detection of mobility aids using yolov5
CN102999763B (zh) 基于尺度选择的自顶向下的视觉显著性提取方法
Lan et al. An affine invariant discriminate analysis with canonical correlation analysis
Chaitra et al. Real-Time Gesture and Sentence Level Sign Language Translator
PS et al. Human Activity Recognition using ShuffleNetV2 Model
Shojaeilangari et al. Dynamic facial expression analysis based on extended spatio-temporal histogram of oriented gradients
Chen et al. Hand gesture recognition for human-computer interaction using moment invariants and neural network classifier

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 266400 No. 77, Lingyan Road, LINGSHANWEI sub district office, Huangdao District, Qingdao City, Shandong Province

Patentee after: Issa Technology Co.,Ltd.

Address before: 266400 No. 77, Lingyan Road, LINGSHANWEI sub district office, Huangdao District, Qingdao City, Shandong Province

Patentee before: Qingdao Issa Technology Co.,Ltd.

CP01 Change in the name or title of a patent holder
CP03 Change of name, title or address

Address after: 266400 No. 77, Lingyan Road, LINGSHANWEI sub district office, Huangdao District, Qingdao City, Shandong Province

Patentee after: Qingdao Issa Technology Co.,Ltd.

Address before: 100016 building 17, yard 6, Jingshun East Street, Chaoyang District, Beijing (Beijing link)

Patentee before: BEIJING YISA TECHNOLOGY Co.,Ltd.

CP03 Change of name, title or address