CN115471831A - 一种基于文本增强学习的图像显著性检测方法 - Google Patents

一种基于文本增强学习的图像显著性检测方法 Download PDF

Info

Publication number
CN115471831A
CN115471831A CN202210393877.6A CN202210393877A CN115471831A CN 115471831 A CN115471831 A CN 115471831A CN 202210393877 A CN202210393877 A CN 202210393877A CN 115471831 A CN115471831 A CN 115471831A
Authority
CN
China
Prior art keywords
text
image
convolution
attention
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210393877.6A
Other languages
English (en)
Other versions
CN115471831B (zh
Inventor
梁松
刘瑞航
王淑灏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Publication of CN115471831A publication Critical patent/CN115471831A/zh
Application granted granted Critical
Publication of CN115471831B publication Critical patent/CN115471831B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提出一种基于文本增强学习的图像显著性检测方法,该方法构建了基于文本增强学习的图像显著性检测模型,整个显著性检测模型在结构上采用先分后合的TEL‑SD两分支架构,即分别对输入图像进行文本特征提取和图像显著性特征提取,然后通过一个融合层进行特征融合,最终得到显著性图像。本发明综合考虑了文本区域和图片区域之间的相互作用,从而能够预测出人们在观察同时包含文字和图片的图像时,注视点的连续分布情况,弥补了现有技术的空白。

Description

一种基于文本增强学习的图像显著性检测方法
技术领域
本发明涉及显著性目标检测技术领域,具体涉及一种基于文本增强学习的图像显著性检测方法。
背景技术
图像显著性检测是指通过智能算法模拟人眼的视觉特点,提取图像中的显著区域(即人类感兴趣的区域)。目前的图像显著性检测方案的检测目标大多为自然图像场景,其中所处理的图像内容构成以图片元素为主,对人工设计的场景图像,比如广告,漫画等,同时包含文字和图片的图像则少有相应的检测方案。
发明内容
发明目的:为弥补现有技术的空白,本发明提出一种基于文本增强学习的图像显著性检测方法,该方法构建了基于文本增强学习的图像显著性检测模型,该模型针对文本元素与图片元素对视觉注意力的不同的影响机制,综合考虑了文本区域和图片区域之间的相互作用,从而能够预测出人们在观察同时包含文字和图片的图像时,注视点的连续分布情况。
技术方案:为实现上述目的,本发明提出以下技术方案:
首先提出一种基于文本增强学习的图像显著性检测方法,包括以下步骤:
(1)提取输入图像中的文本区域,将所述文本区域处理为文本地图,再通过文本增强学习网络学习所述文本地图的文本特征;
(2)采用SAM显著性检测模型从所述输入图像中提取显著性特征;
(3)将所述文本特征和显著性特征在灰度域进行融合,然后将融合后的特征张量映射到高维空间,最后通过1×1卷积对所述高维空间中的每个显著性特征的重要性进行加权,生成最终的显著性图像。
针对所述基于文本增强学习的图像显著性检测方法,以下还提供了若干可选方式,但并不作为对上述总体方案的额外限定,仅仅是进一步的增补或优选,在没有技术或逻辑矛盾的前提下,各可选方式可单独针对上述总体方案进行组合,还可以是多个可选方式之间进行组合。
作为所述基于文本增强学习的图像显著性检测方法的一种可选实施方式,所述步骤(1)中,采用文本检测算法提取输入图像中的文本区域。
作为所述基于文本增强学习的图像显著性检测方法的一种可选实施方式,所述文本检测算法为PixelLink算法。
作为所述基于文本增强学习的图像显著性检测方法的一种可选实施方式,所述SAM显著性检测模型包括:膨胀卷积网络、基于注意力机制的卷积LSTM和先验学习模块;
膨胀卷积网络用于从输入图像中提取一组特征X;
基于注意力机制的卷积LSTM包括注意力模型和卷积LSTM;其中,注意力模型将特征X与隐藏层特征Ht-1经过二维卷积操作后再依次经过tanh激活层和单通道卷积核卷积,得到一个二维的注意力地图Zt,再将注意力地图Zt通过softmax层映射归一化为[0,1]范围内的空间注意图At,最后将At通过点积运算加载到特征X中,得到LSTM注意图
Figure BDA0003596569810000021
卷积LSTM以
Figure BDA0003596569810000022
为输入图像,从中提取出精细化的特征图X′;
先验学习模块用于对视觉中心偏差进行建模,学习每个先验图的均值和方差,再将学习的先验与特征图X′通过卷积融合后,输出显著性特征。
作为所述基于文本增强学习的图像显著性检测方法的一种可选实施方式,所述注意力地图Zt表示为:
Zt=V*tanh(W*X+U*Ht-1+b)
其中,,V表示单通道卷积核函数,W、U表示二维卷积运算参数,b表示学习偏置参数。
作为所述基于文本增强学习的图像显著性检测方法的一种可选实施方式,所述空间注意图At表示为:
Figure BDA0003596569810000023
其中,
Figure BDA0003596569810000024
表示空间注意图At中位置坐标(i,j)处的元素,attij表示空间注意图At中位置坐标(i,j)处的视觉注意力强度,
Figure BDA0003596569810000025
表示注意力地图Zt中位置坐标(i,j)处的元素,p()表示映射函数。
作为所述基于文本增强学习的图像显著性检测方法的一种可选实施方式,所述LSTM注意图
Figure BDA0003596569810000031
的生成方法为:
Figure BDA0003596569810000032
Figure BDA0003596569810000033
表示点积计算。
作为所述基于文本增强学习的图像显著性检测方法的一种可选实施方式,所述卷积LSTM的更新方程为:
Figure BDA0003596569810000034
Figure BDA0003596569810000035
Figure BDA0003596569810000036
Figure BDA0003596569810000037
Figure BDA0003596569810000038
Figure BDA0003596569810000039
其中,It表示输入门模块,Ft表示遗忘门模块,Ot表示输出门模块,Gt表示候选记忆,Ct表示记忆单元,Ct-1表示上一时刻的记忆单元,Ht表示隐藏状态,Ht-1表示上一时刻的隐藏状态,Wi、Wf、Wo、Wc、Ui、Uf、Uo、Uc表示二维卷积运算参数,bi、bf、bo、bc表示学习偏置参数。
作为所述基于文本增强学习的图像显著性检测方法的一种可选实施方式,所述先验学习模块采用以下高斯函数对视觉中心偏差进行建模:
Figure BDA00035965698100000310
其中,x、y表示像素点(x,y)的横纵坐标,σx,σy分别表示像素点(x,y)在x方向和y方向的方差,μx,μy分别表示像素点(x,y)在x方向和y方向的均值。
有益效果:与现有技术相比,本发明具有以下优势:
1、现存的显著性检测模型大多针对自然场景设计,对包含大量人工设计元素的复杂场景图像性能受限,比如对广告图像和漫画图像,本发明弥补了现存显著性模型的不足。
2、本发明考虑到同一场景下,文本元素和图片元素对视觉的不同影响机制,并给出一个有效的处理这两种视觉元素方案,使得文本元素和图片元素对人眼的不同吸引机制得到更有效的体现。
3、本发明基于传统大众化的显著性检测模型的视觉先验基础上开发而来,借助OCR技术提出了核心的文本增强机制,并设计了双支路预测框架,普遍增强自然图像显著性检测模型对多文本图像的预测能力。
附图说明
图1为本发明所述基于文本增强学习的图像显著性检测方法的流程图;
图2为实施例1涉及的图像显著性检测模型的结构图;
图3为实施例1涉及的SAM显著性检测模型的结构图;
图4为实施例1涉及的两种膨胀卷积网络的结构图,其中,图3(a)为膨胀VGG-16卷积网络的结构图,图3(b)是膨胀ResNet-50卷积网络的结构图;
图5为实施例1涉及的PixelLink模型结构示意图;
图6为实施例1涉及的文本增强学习网络的结构示意图。
具体实施方式
本发明旨在弥补现有技术的空白,针对同时包含文字和图片的图像,提出相应的图像显著性检测方法,以实现对这类图像的显著性分析。有鉴于此,本发明提出了一种基于文本增强学习的图像显著性检测方法,其流程如图1所示,包括以下步骤:
(1)提取输入图像中的文本区域,将所述文本区域处理为文本地图,再通过文本增强学习网络学习所述文本地图的文本特征;
(2)采用SAM显著性检测模型从所述输入图像中提取显著性特征;
(3)将所述文本特征和显著性特征在灰度域进行融合,然后将融合后的特征张量映射到高维空间,最后通过1×1卷积对所述高维空间中的每个显著性特征的重要性进行加权,生成最终的显著性图像。
下面将结合附图和具体实施例对本发明提出的基于文本增强学习的图像显著性检测方法作更进一步的说明。但应当理解的是,本发明可以以各种形式实施,以下在附图中出示并且在下文中描述的一些示例性和非限制性实施例,并不意图将本发明限制于所说明的具体实施例。
实施例1:
图2示例性地给出了基于文本增强学习的图像显著性检测模型,而本实施例涉及的基于文本增强学习的图像显著性检测方法就是基于该显著性检测模型实现的。
如图2所示,整个显著性检测模型在结构上采用先分后合的TEL-SD两分支架构,即分别对输入图像进行文本特征提取和图像显著性特征提取,然后通过一个融合层进行特征融合,最终得到对于同时包含文字和图片的图像,注视点的连续分布情况。该模型在功能上则分为三个部分:(一)显著性特征提取模块、(二)文本先验增强学习模块、(三)融合模块。下面针对这三个部分,分别进行详细阐述。
(一)显著性特征提取模块
本实施例中,采用的是SAM显著性检测模型,如图3所示,SAM显著性检测模型主要包括2个部分,分别为膨胀卷积网络和基于注意力机制的卷积LSTM。
1.1膨胀卷积网络
膨胀卷积网络用于从输入图像中提取一组特征X,可采用的网络结构包括但不限于VGG-16网络和ResNet-50网络。
用卷积神经网络(CNNs)提取显著性特征有一个缺点,就是在特征提取阶段,CNNs会对输入图像进行较大的重缩放,从而降低了预测精度。
为了克服这一缺陷,本实施例中采用了一种网络结构设计方法,该方法在保持卷积滤波器的运算规模和参数数目的同时,能够提高CNN的输出分辨率。这一方法的原理是:给定一个选择的CNN,并选取其中一个步长s>1的层,通过减小该层的步长,并向跟随所选层的所有层添加空洞卷积来提高输出分辨率,这样,所有的卷积滤波器仍然在他们训练过的相同尺度上工作。
以VGG-16网络为例,VGG-16网络由13个卷积层和3个完全连接层组成。卷积层被分成五个卷积块,每个卷积块后面跟着一个最大池层,最大池层的步长(strides)为2。由于我们的目的是提取特征映射,所以我们只考虑VGG-16网络的卷积层,而忽略了VGG-16网络末端的完全连通层,我们还删除了最后一个maxpooling层,并将上述技术应用于最后一个池化层,具体结构如图4a所示。
以ResNet-50网络为例,ResNet-50网络由五个卷积块和一个完全连接层组成。第一个卷积块由一个卷积层和一个maxpooling层组成,这两个层的步长都是2,而其余四个卷积块是完全卷积的。除第二个卷积块(conv2)外,其余的卷积块都以2的步长减少了特征图的维数。在ResNet-50网络中,我们仍然只考虑VGG-16网络的卷积层,我们去掉步幅,在最后两个卷积块(图4b中的conv4和conv5)中引入扩张卷积。基于这种方式,我们在卷积块conv4的内核中引入了大小为1的孔,在块conv5的内核中引入了大小为22-1=3的孔。至此,残差网络的输出是2048通道的张量,而为了限制特征图的数量,我们在卷积块conv5之后使用512个滤波器将这个张量输入到另一个卷积层中,这样,最终的显著性图被重新缩放了8倍,而不是ResNet-50网络输出的32倍。
为简化说明,在本实施例的以下内容中,我们选择的是VGG-16网络以作示例性说明。
1.2基于注意力机制的卷积LSTM
LSMT是由循环神经网络衍生而来的时序卷积神经网络,通过引入门函数,可以挖掘时间序列中相对较长间隔和延迟等的时序变化规律。也就是说,传统的LSTM处理的是时变向量序列,不能直接用于显著性预测。基于此原因,本实施例中,我们在LSTM方程中使用卷积运算替换点积运算,从而将LSTM扩展到空间特征上,并利用LSTM的顺序特性实现显著特征的迭代。又因为人眼的选择性注意机制是经过类似全局扫描非常快速的决定大概的需要关注的位置之后,依次的看下一个感兴趣的物体,而看的顺序是由物体的显著性程度决定的,因此,本实施例在每一次迭代中引入注意力机制,将注意先验通过点积运算加载到输入图像中,从而通过不同物体的显著性程度引导显著性图像的修正。
基于上述目的,本实施例示例性地给出一种基于注意力机制的卷积LSTM结构,如图3所示。
图3中的注意力模型的输入是膨胀卷积网络提取出的特征X,在注意力模型中,特征X与隐藏层特征Ht-1经过二维卷积操作后再经过tanh激活层,最后通过单通道卷积核卷积,得到一个二维的注意力地图Zt
Zt=V*tanh(W*X+U*Ht-1+b)
其中,V表示单通道卷积核函数,W、U表示二维卷积运算参数,b表示学习偏置参数。
接着,将注意力地图Zt通过softmax层映射归一化为[0,1]范围内的空间注意图At
Figure BDA0003596569810000071
其中,
Figure BDA0003596569810000072
表示空间注意图At中位置坐标(i,j)处的元素,attij表示空间注意图At中位置坐标(i,j)处的视觉注意力强度,
Figure BDA0003596569810000073
表示注意力地图Zt中位置坐标(i,j)处的元素,p()表示映射函数。
最后,将At通过点积运算加载到特征X中,即得到最终的LSTM注意图
Figure BDA0003596569810000074
Figure BDA0003596569810000075
图3中的卷积LSTM(ConvLSTM)的输入是
Figure BDA0003596569810000076
(512个channels),输出是经过精细化的特征图X′(512个channels),LSTM的工作原理是根据三个sigmoid门(遗忘门、输入门、输出门)的值依次更新一个内部状态,在引入注意力机制后,LSTM的更新方程为:
Figure BDA0003596569810000077
Figure BDA0003596569810000078
Figure BDA0003596569810000079
Figure BDA00035965698100000710
Figure BDA00035965698100000711
Figure BDA00035965698100000712
其中,It表示输入门模块,Ft表示遗忘门模块,Ot表示输出门模块,Gt表示候选记忆,Ct表示记忆单元,Ct-1表示上一时刻的记忆单元,Ht表示隐藏状态,Ht-1表示上一时刻的隐藏状态,Wi、Wf、Wo、Wc、Ui、Uf、Uo、Uc表示二维卷积运算参数,bi、bf、bo、bc表示学习偏置参数。
至此,我们构建出一个基于注意力机制的卷积LSTM。
1.3先验学习
心理学研究表明,当观察者观察图像时,他们的目光偏向中心。这种现象主要是由于:
a.摄影师倾向于把感兴趣的物体放在图像的中心。
b.当人们反复观看中心位置有显著信息的图像时,他们自然希望在图像的中心位置找到信息量最大的内容。
c.鼓励这种行为的另一个重要原因是场景的趣味性。事实上,当没有显著的区域时,人类倾向于看图像的中心。
基于上述研究结果,我们利用一组具有对角协方差矩阵的高斯函数来对视觉中心偏差进行建模,学习每个先验图的均值和方差。高斯函数表达式如下:
Figure BDA0003596569810000081
其中,x、y表示像素点(x,y)的横纵坐标,σx,σy分别表示像素点(x,y)在x方向和y方向的方差,μx,μy分别表示像素点(x,y)在x方向和y方向的均值。
通过上述建模,我们让网络学习自己的先验。为了减少参数个数,便于学习,我们将每个先验约束为一个二维高斯函数,其均值和协方差矩阵可自由学习。这使得网络可以完全从数据中学习自己的先验知识,而不依赖生物学研究的假设。如图3所示,本实施例中我们学习16个高斯函数,然后在通道上组合得到新的特征。
(二)文本先验增强学习模块
文本先验增强学习模块用于实现纯文本的视觉先验,其功能具体包括以下几个步骤:
步骤1、采用文件检测方法提取带有边框的文本区域。
具体的,本实施例中,我们优选采用PixelLink模型来提取文本区域,PixelLink模型具体结构如图5所示。PixelLink主要是基于CNN网络,做某个像素(pixel)的文本/非文本的分类预测,以及该像素的8个邻域方向是否存在连接(link)的分类预测,然后基于OpenCV的minAreaRect(最小外接矩形)这种基于连通域的操作,获取不同大小的文本连通域,再进行噪声滤除操作,最后通过“并查集”(disjoint-set data structure)并出最终的文本边界框。
步骤2、对步骤1提取出的所有文本边界框,将文本边界框内的非文字部分腐蚀,留存的部分即为文本地图。
步骤3、通过文本增强学习网络学习所述文本地图的文本特征。
我们构建了文本增强学习网络来学习纯文本的视觉先验。文本增强学习网络的结构如图6所示,主要包括MobileNet V2的编码模块和U-Net的解码模块。
MobileNet V2是一种轻量级神经网络模型,具体结构如图6中的(a)所示,MobileNet V2在网络结构中引入具有倒残差策略的线性瓶颈块,具体为图6中Bottleneck_1至Bottleneck_6,而Bottleneck结构则如图6(b)所示,包括膨胀层、切除层、投影层。
MobileNet V2编码模块将一个紧凑的文本特征输入,然后调整文本映射(224×224×3),并将首次处理维度增强1×1扩张层,扩展系数默认设置为6。然后在高维空间中通过3×3深度卷积对特征映射进行过滤,提高了非线性每通道变换的表现力。最后通过1×1点卷积将特征投影到低维空间。
考虑到预处理后的文本映射只包含单一的文本信息,本模型仅保留了MobileNetV2的19个瓶颈块中的6个模块,其中参数是在Imagenet数据库上初始化。同时,为了减少过多缩放操作造成的信息损失,将文本图从输入大小的224×224下采样为28×28,而不是MobileNet V2中的7×7。此外,我们在每个上采样层后增加了两个快捷连接,以便在解码过程中重新学习文本特征。通过大量的实验,验证了所提出的编码器-解码器结构在学习文本相关显著性方面是有效的。
(三)融合模块
在文本先验增强学习模块中,我们得到112×112×16个特征,在融合模块中,我们用一个1×1卷积运算从文本特征中提取最终的文本学习地图。
在显著性特征提取模块中,我们得到了显著性特征,在融合模块中,我们在显著性特征上操纵一个Conv2d过滤器,将其缩放到与文本学习地图相同的大小。
随后,我们将文本学习地图和显著性特征在灰度域进行融合,然后将连接的张量(112×112×2)通过3个5×5通道递减的AtrousConv块(256→128→56)映射到高维空间,进一步进行显著性特征优化。
作为进一步优选实施方式,我们在3个5×5通道递减的AtrousConv块中设置了一个上升的锯齿状膨胀率,以缓解棋盘效应。同时,在3个5×5的AtrousConv块之后,我们采用了一个1×1卷积每个显著性特征的重要性进行加权,生成最终的显著性图像。
至此,图像显著性检测模型搭建完毕。而对于显著性检测模型的训练,我们采用以下损失函数:
Figure BDA0003596569810000101
其中,
Figure BDA0003596569810000102
表示显著性真值图,yden表示所预测的显著密度图,
Figure BDA0003596569810000103
表示第i张图的显著性真值图,
Figure BDA0003596569810000104
表示所预测的第i张图像的显著性密度图,ε表示偏差系数。
实施例2:
本实施例提出一种计算机可读存储介质,其上存储有计算机程序,此计算机程序被处理器执行时,实现实施例1所述的图像显著性检测方法。
实施例3:
本实施例提出一种装置,该装置包括处理器和存储器,存储器存储有计算机程序,而处理器执行所述计算机程序,以实现实施例1所述的图像显著性检测方法。
应当理解的是,在技术上可行的情况下,以上针对不同实施例所列举的技术特征可以相互组合,从而形成本发明范围内的另外的实施例。此外,本发明所述的特定示例和实施例是非限制性的,并且可以对以上所阐述的结构、步骤、顺序做出相应修改而不脱离本发明的保护范围。

Claims (9)

1.一种基于文本增强学习的图像显著性检测方法,其特征在于,包括以下步骤:
(1)提取输入图像中的文本区域,将所述文本区域处理为文本地图,再通过文本增强学习网络学习所述文本地图的文本特征;
(2)采用SAM显著性检测模型从所述输入图像中提取显著性特征;
(3)将所述文本特征和显著性特征在灰度域进行融合,然后将融合后的特征张量映射到高维空间,最后通过1×1卷积对所述高维空间中的每个显著性特征的重要性进行加权,生成最终的显著性图像。
2.根据权利要求1所述的基于文本增强学习的图像显著性检测方法,其特征在于,所述步骤(1)中,采用文本检测算法提取输入图像中的文本区域。
3.根据权利要求2所述的基于文本增强学习的图像显著性检测方法,其特征在于,所述文本检测算法为PixelLink算法。
4.根据权利要求1所述的基于文本增强学习的图像显著性检测方法,其特征在于,所述SAM显著性检测模型包括:膨胀卷积网络、基于注意力机制的卷积LSTM和先验学习模块;
膨胀卷积网络用于从输入图像中提取一组特征X;
基于注意力机制的卷积LSTM包括注意力模型和卷积LSTM;其中,注意力模型将特征X与隐藏层特征Ht-1经过二维卷积操作后再依次经过tanh激活层和单通道卷积核卷积,得到一个二维的注意力地图Zt,再将注意力地图Zt通过softmax层映射归一化为[0,1]范围内的空间注意图At,最后将At通过点积运算加载到特征X中,得到LSTM注意图
Figure FDA0003596569800000011
卷积LSTM以
Figure FDA0003596569800000012
为输入图像,从中提取出精细化的特征图X′;
先验学习模块用于对视觉中心偏差进行建模,学习每个先验图的均值和方差,再将学习的先验与特征图X′通过卷积融合后,输出显著性特征。
5.根据权利要求4所述的基于文本增强学习的图像显著性检测方法,其特征在于,所述注意力地图Zt表示为:
Zt=V*tanh(W*X+U*Ht-1+b)
其中,V表示单通道卷积核函数,W、U表示二维卷积运算参数,b表示学习偏置参数。
6.根据权利要求4所述的基于文本增强学习的图像显著性检测方法,其特征在于,所述空间注意图At表示为:
Figure FDA0003596569800000021
其中,
Figure FDA0003596569800000022
表示空间注意图At中位置坐标(i,j)处的元素,attij表示空间注意图At中位置坐标(i,j)处的视觉注意力强度,
Figure FDA0003596569800000023
表示注意力地图Zt中位置坐标(i,j)处的元素,p()表示映射函数。
7.根据权利要求4所述的基于文本增强学习的图像显著性检测方法,其特征在于,所述LSTM注意图
Figure FDA0003596569800000024
的生成方法为:
Figure FDA0003596569800000025
Figure FDA0003596569800000026
表示点积计算。
8.根据权利要求4所述的基于文本增强学习的图像显著性检测方法,其特征在于,所述卷积LSTM的更新方程为:
Figure FDA0003596569800000027
Figure FDA0003596569800000028
Figure FDA0003596569800000029
Figure FDA00035965698000000210
Figure FDA00035965698000000211
Figure FDA00035965698000000212
其中,It表示输入门模块,Ft表示遗忘门模块,Ot表示输出门模块,Gt表示候选记忆,Ct表示记忆单元,Ct-1表示上一时刻的记忆单元,Ht表示隐藏状态,Ht-1表示上一时刻的隐藏状态,Wi、Wf、Wo、Wc、Ui、Uf、Uo、Uc表示二维卷积运算参数,bi、bf、bo、bc表示学习偏置参数。
9.根据权利要求4所述的基于文本增强学习的图像显著性检测方法,其特征在于,所述先验学习模块采用以下高斯函数对视觉中心偏差进行建模:
Figure FDA0003596569800000031
其中,x、y表示像素点(x,y)的横纵坐标,σx,σy分别表示像素点(x,y)在x方向和y方向的方差,μx,μy分别表示像素点(x,y)在x方向和y方向的均值。
CN202210393877.6A 2021-10-15 2022-04-14 一种基于文本增强学习的图像显著性检测方法 Active CN115471831B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2021112052134 2021-10-15
CN202111205213 2021-10-15

Publications (2)

Publication Number Publication Date
CN115471831A true CN115471831A (zh) 2022-12-13
CN115471831B CN115471831B (zh) 2024-01-23

Family

ID=84363451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210393877.6A Active CN115471831B (zh) 2021-10-15 2022-04-14 一种基于文本增强学习的图像显著性检测方法

Country Status (1)

Country Link
CN (1) CN115471831B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937647A (zh) * 2023-01-31 2023-04-07 西南石油大学 一种多特征融合的图像显著性检测方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631426A (zh) * 2015-12-29 2016-06-01 中国科学院深圳先进技术研究院 对图片进行文本检测的方法及装置
CN106778757A (zh) * 2016-12-12 2017-05-31 哈尔滨工业大学 基于文本显著性的场景文本检测方法
CN109272440A (zh) * 2018-08-14 2019-01-25 阿基米德(上海)传媒有限公司 一种联合文本和图像内容的缩略图生成方法及系统
CN111062386A (zh) * 2019-11-28 2020-04-24 大连交通大学 基于深度金字塔注意力和特征融合的自然场景文本检测方法
CN111144411A (zh) * 2019-12-27 2020-05-12 南京大学 一种基于显著图的不规则文本修正与识别方法及系统
US20210004962A1 (en) * 2019-07-02 2021-01-07 Qualcomm Incorporated Generating effects on images using disparity guided salient object detection
CN112329793A (zh) * 2020-11-05 2021-02-05 天津大学 基于结构自适应和规模自适应感受野的显著性检测方法
CN112347859A (zh) * 2020-10-15 2021-02-09 北京交通大学 一种光学遥感图像显著性目标检测方法
CN112883843A (zh) * 2021-02-02 2021-06-01 清华大学 驾驶员视觉显著区域检测方法、装置和计算机设备
CN112950477A (zh) * 2021-03-15 2021-06-11 河南大学 一种基于双路径处理的高分辨率显著性目标检测方法
CN113139431A (zh) * 2021-03-24 2021-07-20 杭州电子科技大学 基于深监督学习的图像显著性目标检测方法
CN113191358A (zh) * 2021-05-31 2021-07-30 上海交通大学 金属零件表面文本检测方法和系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631426A (zh) * 2015-12-29 2016-06-01 中国科学院深圳先进技术研究院 对图片进行文本检测的方法及装置
CN106778757A (zh) * 2016-12-12 2017-05-31 哈尔滨工业大学 基于文本显著性的场景文本检测方法
CN109272440A (zh) * 2018-08-14 2019-01-25 阿基米德(上海)传媒有限公司 一种联合文本和图像内容的缩略图生成方法及系统
US20210004962A1 (en) * 2019-07-02 2021-01-07 Qualcomm Incorporated Generating effects on images using disparity guided salient object detection
CN111062386A (zh) * 2019-11-28 2020-04-24 大连交通大学 基于深度金字塔注意力和特征融合的自然场景文本检测方法
CN111144411A (zh) * 2019-12-27 2020-05-12 南京大学 一种基于显著图的不规则文本修正与识别方法及系统
CN112347859A (zh) * 2020-10-15 2021-02-09 北京交通大学 一种光学遥感图像显著性目标检测方法
CN112329793A (zh) * 2020-11-05 2021-02-05 天津大学 基于结构自适应和规模自适应感受野的显著性检测方法
CN112883843A (zh) * 2021-02-02 2021-06-01 清华大学 驾驶员视觉显著区域检测方法、装置和计算机设备
CN112950477A (zh) * 2021-03-15 2021-06-11 河南大学 一种基于双路径处理的高分辨率显著性目标检测方法
CN113139431A (zh) * 2021-03-24 2021-07-20 杭州电子科技大学 基于深监督学习的图像显著性目标检测方法
CN113191358A (zh) * 2021-05-31 2021-07-30 上海交通大学 金属零件表面文本检测方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MARCELLA CORNIA等: ""Predicting Human Eye Fixations via an LSTM-Based Saliency Attentive Model"", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》, pages 5142 - 5154 *
尤苡名等: ""虚假评论检测技术综述"", 《计算机系统应用》, pages 1 - 9 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937647A (zh) * 2023-01-31 2023-04-07 西南石油大学 一种多特征融合的图像显著性检测方法
CN115937647B (zh) * 2023-01-31 2023-05-19 西南石油大学 一种多特征融合的图像显著性检测方法

Also Published As

Publication number Publication date
CN115471831B (zh) 2024-01-23

Similar Documents

Publication Publication Date Title
CN109859190B (zh) 一种基于深度学习的目标区域检测方法
Van den Oord et al. Conditional image generation with pixelcnn decoders
CN109754015B (zh) 用于画作多标签识别的神经网络及相关方法、介质和设备
CN109886066B (zh) 基于多尺度和多层特征融合的快速目标检测方法
CN111612008B (zh) 基于卷积网络的图像分割方法
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
CN110276354B (zh) 一种高分辨率街景图片语义分割训练与实时分割方法
KR102224253B1 (ko) 심층 네트워크와 랜덤 포레스트가 결합된 앙상블 분류기의 경량화를 위한 교사-학생 프레임워크 및 이를 기반으로 하는 분류 방법
CN113902915A (zh) 一种基于低光照复杂道路场景下的语义分割方法及系统
CN111784623A (zh) 图像处理方法、装置、计算机设备和存储介质
CN111696110B (zh) 场景分割方法及系统
CN110706239A (zh) 融合全卷积神经网络与改进aspp模块的场景分割方法
CN111563507A (zh) 一种基于卷积神经网络的室内场景语义分割方法
CN111832453A (zh) 基于双路深度神经网络的无人驾驶场景实时语义分割方法
CN116051683B (zh) 一种基于风格自组的遥感图像生成方法、存储介质及设备
CN113159067A (zh) 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置
CN114037640A (zh) 图像生成方法及装置
CN111882620A (zh) 一种基于多尺度信息道路可行驶区域分割方法
CN110889360A (zh) 一种基于切换卷积网络的人群计数方法及系统
CN111626134A (zh) 一种基于隐密度分布的密集人群计数方法、系统及终端
CN115471831B (zh) 一种基于文本增强学习的图像显著性检测方法
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
CN112132145B (zh) 一种基于模型扩展卷积神经网络的图像分类方法及系统
Fang et al. A small network MicronNet-BF of traffic sign classification
CN112801029A (zh) 基于注意力机制的多任务学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant