CN115471831A

CN115471831A - 一种基于文本增强学习的图像显著性检测方法

Info

Publication number: CN115471831A
Application number: CN202210393877.6A
Authority: CN
Inventors: 梁松; 刘瑞航; 王淑灏
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2021-10-15
Filing date: 2022-04-14
Publication date: 2022-12-13
Anticipated expiration: 2042-04-14
Also published as: CN115471831B

Abstract

本发明提出一种基于文本增强学习的图像显著性检测方法，该方法构建了基于文本增强学习的图像显著性检测模型，整个显著性检测模型在结构上采用先分后合的TEL‑SD两分支架构，即分别对输入图像进行文本特征提取和图像显著性特征提取，然后通过一个融合层进行特征融合，最终得到显著性图像。本发明综合考虑了文本区域和图片区域之间的相互作用，从而能够预测出人们在观察同时包含文字和图片的图像时，注视点的连续分布情况，弥补了现有技术的空白。

Description

一种基于文本增强学习的图像显著性检测方法

技术领域

本发明涉及显著性目标检测技术领域，具体涉及一种基于文本增强学习的图像显著性检测方法。

背景技术

图像显著性检测是指通过智能算法模拟人眼的视觉特点，提取图像中的显著区域(即人类感兴趣的区域)。目前的图像显著性检测方案的检测目标大多为自然图像场景，其中所处理的图像内容构成以图片元素为主，对人工设计的场景图像，比如广告，漫画等，同时包含文字和图片的图像则少有相应的检测方案。

发明内容

发明目的：为弥补现有技术的空白，本发明提出一种基于文本增强学习的图像显著性检测方法，该方法构建了基于文本增强学习的图像显著性检测模型，该模型针对文本元素与图片元素对视觉注意力的不同的影响机制，综合考虑了文本区域和图片区域之间的相互作用，从而能够预测出人们在观察同时包含文字和图片的图像时，注视点的连续分布情况。

技术方案：为实现上述目的，本发明提出以下技术方案：

首先提出一种基于文本增强学习的图像显著性检测方法，包括以下步骤：

(1)提取输入图像中的文本区域，将所述文本区域处理为文本地图，再通过文本增强学习网络学习所述文本地图的文本特征；

(2)采用SAM显著性检测模型从所述输入图像中提取显著性特征；

(3)将所述文本特征和显著性特征在灰度域进行融合，然后将融合后的特征张量映射到高维空间，最后通过1×1卷积对所述高维空间中的每个显著性特征的重要性进行加权，生成最终的显著性图像。

针对所述基于文本增强学习的图像显著性检测方法，以下还提供了若干可选方式，但并不作为对上述总体方案的额外限定，仅仅是进一步的增补或优选，在没有技术或逻辑矛盾的前提下，各可选方式可单独针对上述总体方案进行组合，还可以是多个可选方式之间进行组合。

作为所述基于文本增强学习的图像显著性检测方法的一种可选实施方式，所述步骤(1)中，采用文本检测算法提取输入图像中的文本区域。

作为所述基于文本增强学习的图像显著性检测方法的一种可选实施方式，所述文本检测算法为PixelLink算法。

作为所述基于文本增强学习的图像显著性检测方法的一种可选实施方式，所述SAM显著性检测模型包括：膨胀卷积网络、基于注意力机制的卷积LSTM和先验学习模块；

膨胀卷积网络用于从输入图像中提取一组特征X；

基于注意力机制的卷积LSTM包括注意力模型和卷积LSTM；其中，注意力模型将特征X与隐藏层特征H_t-1经过二维卷积操作后再依次经过tanh激活层和单通道卷积核卷积，得到一个二维的注意力地图Z_t，再将注意力地图Z_t通过softmax层映射归一化为[0,1]范围内的空间注意图A_t，最后将A_t通过点积运算加载到特征X中，得到LSTM注意图

卷积LSTM以

为输入图像，从中提取出精细化的特征图X′；

先验学习模块用于对视觉中心偏差进行建模，学习每个先验图的均值和方差，再将学习的先验与特征图X′通过卷积融合后，输出显著性特征。

作为所述基于文本增强学习的图像显著性检测方法的一种可选实施方式，所述注意力地图Z_t表示为：

Z_t＝V*tanh(W*X+U*H_t-1+b)

其中，，V表示单通道卷积核函数，W、U表示二维卷积运算参数，b表示学习偏置参数。

作为所述基于文本增强学习的图像显著性检测方法的一种可选实施方式，所述空间注意图A_t表示为：

其中，

表示空间注意图A_t中位置坐标(i,j)处的元素，att_ij表示空间注意图A_t中位置坐标(i,j)处的视觉注意力强度，

表示注意力地图Z_t中位置坐标(i,j)处的元素，p()表示映射函数。

作为所述基于文本增强学习的图像显著性检测方法的一种可选实施方式，所述LSTM注意图

的生成方法为：

表示点积计算。

作为所述基于文本增强学习的图像显著性检测方法的一种可选实施方式，所述卷积LSTM的更新方程为：

其中，I_t表示输入门模块，F_t表示遗忘门模块，O_t表示输出门模块，G_t表示候选记忆，C_t表示记忆单元，C_t-1表示上一时刻的记忆单元，H_t表示隐藏状态，H_t-1表示上一时刻的隐藏状态，W_i、W_f、W_o、W_c、U_i、U_f、U_o、U_c表示二维卷积运算参数，b_i、b_f、b_o、b_c表示学习偏置参数。

作为所述基于文本增强学习的图像显著性检测方法的一种可选实施方式，所述先验学习模块采用以下高斯函数对视觉中心偏差进行建模：

其中，x、y表示像素点(x,y)的横纵坐标，σ_x，σ_y分别表示像素点(x,y)在x方向和y方向的方差，μ_x，μ_y分别表示像素点(x,y)在x方向和y方向的均值。

有益效果：与现有技术相比，本发明具有以下优势：

1、现存的显著性检测模型大多针对自然场景设计，对包含大量人工设计元素的复杂场景图像性能受限，比如对广告图像和漫画图像，本发明弥补了现存显著性模型的不足。

2、本发明考虑到同一场景下，文本元素和图片元素对视觉的不同影响机制，并给出一个有效的处理这两种视觉元素方案，使得文本元素和图片元素对人眼的不同吸引机制得到更有效的体现。

3、本发明基于传统大众化的显著性检测模型的视觉先验基础上开发而来，借助OCR技术提出了核心的文本增强机制，并设计了双支路预测框架，普遍增强自然图像显著性检测模型对多文本图像的预测能力。

附图说明

图1为本发明所述基于文本增强学习的图像显著性检测方法的流程图；

图2为实施例1涉及的图像显著性检测模型的结构图；

图3为实施例1涉及的SAM显著性检测模型的结构图；

图4为实施例1涉及的两种膨胀卷积网络的结构图，其中，图3(a)为膨胀VGG-16卷积网络的结构图，图3(b)是膨胀ResNet-50卷积网络的结构图；

图5为实施例1涉及的PixelLink模型结构示意图；

图6为实施例1涉及的文本增强学习网络的结构示意图。

具体实施方式

本发明旨在弥补现有技术的空白，针对同时包含文字和图片的图像，提出相应的图像显著性检测方法，以实现对这类图像的显著性分析。有鉴于此，本发明提出了一种基于文本增强学习的图像显著性检测方法，其流程如图1所示，包括以下步骤：

下面将结合附图和具体实施例对本发明提出的基于文本增强学习的图像显著性检测方法作更进一步的说明。但应当理解的是，本发明可以以各种形式实施，以下在附图中出示并且在下文中描述的一些示例性和非限制性实施例，并不意图将本发明限制于所说明的具体实施例。

实施例1：

图2示例性地给出了基于文本增强学习的图像显著性检测模型，而本实施例涉及的基于文本增强学习的图像显著性检测方法就是基于该显著性检测模型实现的。

如图2所示，整个显著性检测模型在结构上采用先分后合的TEL-SD两分支架构，即分别对输入图像进行文本特征提取和图像显著性特征提取，然后通过一个融合层进行特征融合，最终得到对于同时包含文字和图片的图像，注视点的连续分布情况。该模型在功能上则分为三个部分：(一)显著性特征提取模块、(二)文本先验增强学习模块、(三)融合模块。下面针对这三个部分，分别进行详细阐述。

(一)显著性特征提取模块

本实施例中，采用的是SAM显著性检测模型，如图3所示，SAM显著性检测模型主要包括2个部分，分别为膨胀卷积网络和基于注意力机制的卷积LSTM。

1.1膨胀卷积网络

膨胀卷积网络用于从输入图像中提取一组特征X，可采用的网络结构包括但不限于VGG-16网络和ResNet-50网络。

用卷积神经网络(CNNs)提取显著性特征有一个缺点，就是在特征提取阶段，CNNs会对输入图像进行较大的重缩放，从而降低了预测精度。

为了克服这一缺陷，本实施例中采用了一种网络结构设计方法，该方法在保持卷积滤波器的运算规模和参数数目的同时，能够提高CNN的输出分辨率。这一方法的原理是：给定一个选择的CNN，并选取其中一个步长s>1的层，通过减小该层的步长，并向跟随所选层的所有层添加空洞卷积来提高输出分辨率，这样，所有的卷积滤波器仍然在他们训练过的相同尺度上工作。

以VGG-16网络为例，VGG-16网络由13个卷积层和3个完全连接层组成。卷积层被分成五个卷积块，每个卷积块后面跟着一个最大池层，最大池层的步长(strides)为2。由于我们的目的是提取特征映射，所以我们只考虑VGG-16网络的卷积层，而忽略了VGG-16网络末端的完全连通层，我们还删除了最后一个maxpooling层，并将上述技术应用于最后一个池化层，具体结构如图4a所示。

以ResNet-50网络为例，ResNet-50网络由五个卷积块和一个完全连接层组成。第一个卷积块由一个卷积层和一个maxpooling层组成，这两个层的步长都是2，而其余四个卷积块是完全卷积的。除第二个卷积块(conv2)外，其余的卷积块都以2的步长减少了特征图的维数。在ResNet-50网络中，我们仍然只考虑VGG-16网络的卷积层，我们去掉步幅，在最后两个卷积块(图4b中的conv4和conv5)中引入扩张卷积。基于这种方式，我们在卷积块conv4的内核中引入了大小为1的孔，在块conv5的内核中引入了大小为2²-1＝3的孔。至此，残差网络的输出是2048通道的张量，而为了限制特征图的数量,我们在卷积块conv5之后使用512个滤波器将这个张量输入到另一个卷积层中，这样，最终的显著性图被重新缩放了8倍，而不是ResNet-50网络输出的32倍。

为简化说明，在本实施例的以下内容中，我们选择的是VGG-16网络以作示例性说明。

1.2基于注意力机制的卷积LSTM

LSMT是由循环神经网络衍生而来的时序卷积神经网络，通过引入门函数，可以挖掘时间序列中相对较长间隔和延迟等的时序变化规律。也就是说，传统的LSTM处理的是时变向量序列，不能直接用于显著性预测。基于此原因，本实施例中，我们在LSTM方程中使用卷积运算替换点积运算，从而将LSTM扩展到空间特征上，并利用LSTM的顺序特性实现显著特征的迭代。又因为人眼的选择性注意机制是经过类似全局扫描非常快速的决定大概的需要关注的位置之后，依次的看下一个感兴趣的物体，而看的顺序是由物体的显著性程度决定的，因此，本实施例在每一次迭代中引入注意力机制，将注意先验通过点积运算加载到输入图像中，从而通过不同物体的显著性程度引导显著性图像的修正。

基于上述目的，本实施例示例性地给出一种基于注意力机制的卷积LSTM结构，如图3所示。

图3中的注意力模型的输入是膨胀卷积网络提取出的特征X，在注意力模型中，特征X与隐藏层特征H_t-1经过二维卷积操作后再经过tanh激活层，最后通过单通道卷积核卷积，得到一个二维的注意力地图Z_t：

Z_t＝V*tanh(W*X+U*H_t-1+b)

其中，V表示单通道卷积核函数，W、U表示二维卷积运算参数，b表示学习偏置参数。

接着，将注意力地图Z_t通过softmax层映射归一化为[0,1]范围内的空间注意图A_t：

其中，

最后，将A_t通过点积运算加载到特征X中，即得到最终的LSTM注意图

图3中的卷积LSTM(ConvLSTM)的输入是

(512个channels)，输出是经过精细化的特征图X′(512个channels)，LSTM的工作原理是根据三个sigmoid门(遗忘门、输入门、输出门)的值依次更新一个内部状态，在引入注意力机制后，LSTM的更新方程为：

至此，我们构建出一个基于注意力机制的卷积LSTM。

1.3先验学习

心理学研究表明，当观察者观察图像时，他们的目光偏向中心。这种现象主要是由于：

a.摄影师倾向于把感兴趣的物体放在图像的中心。

b.当人们反复观看中心位置有显著信息的图像时，他们自然希望在图像的中心位置找到信息量最大的内容。

c.鼓励这种行为的另一个重要原因是场景的趣味性。事实上，当没有显著的区域时，人类倾向于看图像的中心。

基于上述研究结果，我们利用一组具有对角协方差矩阵的高斯函数来对视觉中心偏差进行建模，学习每个先验图的均值和方差。高斯函数表达式如下：

通过上述建模，我们让网络学习自己的先验。为了减少参数个数，便于学习，我们将每个先验约束为一个二维高斯函数，其均值和协方差矩阵可自由学习。这使得网络可以完全从数据中学习自己的先验知识，而不依赖生物学研究的假设。如图3所示，本实施例中我们学习16个高斯函数，然后在通道上组合得到新的特征。

(二)文本先验增强学习模块

文本先验增强学习模块用于实现纯文本的视觉先验，其功能具体包括以下几个步骤：

步骤1、采用文件检测方法提取带有边框的文本区域。

具体的，本实施例中，我们优选采用PixelLink模型来提取文本区域，PixelLink模型具体结构如图5所示。PixelLink主要是基于CNN网络，做某个像素(pixel)的文本/非文本的分类预测，以及该像素的8个邻域方向是否存在连接(link)的分类预测，然后基于OpenCV的minAreaRect(最小外接矩形)这种基于连通域的操作，获取不同大小的文本连通域，再进行噪声滤除操作，最后通过“并查集”(disjoint-set data structure)并出最终的文本边界框。

步骤2、对步骤1提取出的所有文本边界框，将文本边界框内的非文字部分腐蚀，留存的部分即为文本地图。

步骤3、通过文本增强学习网络学习所述文本地图的文本特征。

我们构建了文本增强学习网络来学习纯文本的视觉先验。文本增强学习网络的结构如图6所示，主要包括MobileNet V2的编码模块和U-Net的解码模块。

MobileNet V2是一种轻量级神经网络模型，具体结构如图6中的(a)所示，MobileNet V2在网络结构中引入具有倒残差策略的线性瓶颈块，具体为图6中Bottleneck_1至Bottleneck_6，而Bottleneck结构则如图6(b)所示，包括膨胀层、切除层、投影层。

MobileNet V2编码模块将一个紧凑的文本特征输入，然后调整文本映射(224×224×3)，并将首次处理维度增强1×1扩张层，扩展系数默认设置为6。然后在高维空间中通过3×3深度卷积对特征映射进行过滤，提高了非线性每通道变换的表现力。最后通过1×1点卷积将特征投影到低维空间。

考虑到预处理后的文本映射只包含单一的文本信息，本模型仅保留了MobileNetV2的19个瓶颈块中的6个模块，其中参数是在Imagenet数据库上初始化。同时，为了减少过多缩放操作造成的信息损失，将文本图从输入大小的224×224下采样为28×28，而不是MobileNet V2中的7×7。此外，我们在每个上采样层后增加了两个快捷连接，以便在解码过程中重新学习文本特征。通过大量的实验，验证了所提出的编码器-解码器结构在学习文本相关显著性方面是有效的。

(三)融合模块

在文本先验增强学习模块中，我们得到112×112×16个特征，在融合模块中，我们用一个1×1卷积运算从文本特征中提取最终的文本学习地图。

在显著性特征提取模块中，我们得到了显著性特征，在融合模块中，我们在显著性特征上操纵一个Conv2d过滤器，将其缩放到与文本学习地图相同的大小。

随后，我们将文本学习地图和显著性特征在灰度域进行融合，然后将连接的张量(112×112×2)通过3个5×5通道递减的AtrousConv块(256→128→56)映射到高维空间，进一步进行显著性特征优化。

作为进一步优选实施方式，我们在3个5×5通道递减的AtrousConv块中设置了一个上升的锯齿状膨胀率，以缓解棋盘效应。同时，在3个5×5的AtrousConv块之后，我们采用了一个1×1卷积每个显著性特征的重要性进行加权，生成最终的显著性图像。

至此，图像显著性检测模型搭建完毕。而对于显著性检测模型的训练，我们采用以下损失函数：

其中，

表示显著性真值图，y^den表示所预测的显著密度图，

表示第i张图的显著性真值图，

表示所预测的第i张图像的显著性密度图，ε表示偏差系数。

实施例2：

本实施例提出一种计算机可读存储介质，其上存储有计算机程序，此计算机程序被处理器执行时，实现实施例1所述的图像显著性检测方法。

实施例3：

本实施例提出一种装置，该装置包括处理器和存储器，存储器存储有计算机程序，而处理器执行所述计算机程序，以实现实施例1所述的图像显著性检测方法。

应当理解的是，在技术上可行的情况下，以上针对不同实施例所列举的技术特征可以相互组合，从而形成本发明范围内的另外的实施例。此外，本发明所述的特定示例和实施例是非限制性的，并且可以对以上所阐述的结构、步骤、顺序做出相应修改而不脱离本发明的保护范围。