CN111598183B

CN111598183B - 一种多特征融合图像描述方法

Info

Publication number: CN111598183B
Application number: CN202010444008.2A
Authority: CN
Inventors: 刘晋; 段铭杨; 田小琥
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2023-08-15
Anticipated expiration: 2040-05-22
Also published as: CN111598183A

Abstract

本发明公开了一种多特征融合图像描述方法，所述方法包括：获取数据集，并对数据集图像预处理；对预处理后的图像进行多尺度特征提取，获得语义特征和空间特征；将所述语义特征和所述空间特征分别输入至GRU，生成场景图，其中，所述场景图包括场景关系；将所述场景关系、所述语义特征和所述空间特征输入至双层LSTM语言模型，获得图片描述语句。应用本发明实施例，准确率较高，在Visual Genome和MSCOCO公开数据集测试中都有良好的表现。

Description

一种多特征融合图像描述方法

技术领域

本发明涉及计算机视觉以及自然语言处理技术领域，尤其涉及一种多特征融合图像描述方法。

背景技术

互联网的发展和智能移动设备的普及让大众有更多机会来创造图像信息。无论何时何地，只要你发现了有趣的东西，拿出手机拍照，就可以进行信息共享。近几年，图像数量爆炸性的增长，以图像社交为主的微博等社交平台，图像总数达百亿级，每天平均上传数千万张图像。要处理这个数量级的图像，不可能完全使用人工标注图像并简要描述，因此要使用计算机来辅助对图像进行自动标注和图像描述。

当我们看到一张图像时，可以很容易地识别出其中的实体，并有效描述场景。本发明所讨论的图像描述是给计算机一张图片，让计算机用自然语言给出一段描述图片的文本。然而让计算机生成自然语言对图像进行描述是非常具有挑战性的，因为图像描述不像那些基础的和有重复性的计算机视觉任务，它不仅需要识别图像，还需要理解图像，并将视觉知识转化为句子描述。

为了捕捉视觉和自然语言之间的相关性，我们需要将它们映射到同一个空间，以便了解它们之间的关系。执行此操作的传统方法是使用句子模板或基于图像检索，然而这些方法无法适应新的图像。神经网络由于有能力形成新的语法正确的句子，及其对新颖图像的泛化能力，从而被普遍使用于图像的描述。目前图像描述被广泛应用于生活中，例如帮助视觉障碍用户、人机交互、数据处理等。此外，深入研究图像与语言之间的联系，更好地理解从图像中提取哪些信息并选择适当的描述语言也是今后的发展方向。

对于图像描述的研究从上个世纪一直延续至今，是目前视觉领域研究主要方向之一，早期的研究方法通过颜色、纹理、形状等图像的初级特征，通过一些规则来联系图像中的对象和描述语句的关系，并利用这些特征和关系对图像进行描述。多年来，已经开发了许多不同方法。我们可以将它们大致分为三类：基于模板的图像描述方法、基于检索的图像描述方法和基于神经网络的图像描述方法。

基于模板的这类方法主要思想是检测对象及其属性，并将句子解析为短语，并使用条件随机场等模型学习它们的对应关系。然而由于不能添加新的短语，只能从有限的短语中选择并线性组成句子来描述图像，最终语句的表达相对于人类来说不够自然。由于生成可变长度句子的限制，使得描述语句中的形容词和副词时常不准确，在有限的范围内产生很好的效果，但在数据集外的泛化能力较差。

基于检索的图像描述方法是利用现有的文本去描述类似的图像，同时利用视觉空间中的距离来检索与测试类似的图像，然后修改和组合它们的描述以形成测试图像的描述。该类方法和基于模板的方法相比需要额外的步骤，比如修改和概括，最后得到描述语句的效果要好一些。但是该类方法高度依赖于训练或已有的数据，不能返回训练集中没有的词语，这样使得描述语句缺少多样性。

基于神经网络的方法目前是图像描述问题的主流解决方法，这些方法通过改进已有的图像描述方法框架，图片特征获取方法或语言模型，在常见的数据集有较好的结果。LSTM(长短期记忆网络)作为常用的语言模型经常被用到图像描述方法中，注意力机制由于在机器翻译中效果不错，也被用到了图像描述当中。

根据上述国内外的研究可以发现，利用深度学习对图像进行描述的准确性有了大幅度的提升。本发明在已有的图像描述的方法上，为了更好地获取图像的特征和了解图像中对象之间的关系，提出了一种基于DetNet-110网络及EIOU扩展目标重叠测试标准的多特征融合图像描述方法。实践证明，本发明提出的方法和模型参数量适中，准确率较高，在Visual Genome和MSCOCO等公开数据集测试中都有良好的表现。

发明内容

本发明的目的在于提供一种多特征融合图像描述方法，旨在解决现有之缺陷，本发明提出的方法和模型参数量适中，准确率较高，在Visual Genome和MSCOCO公开数据集测试中都有良好的表现。

为了实现上述目的，本发明提供一种多特征融合图像描述方法，所述方法包括：

获取数据集，并对数据集图像预处理；

对预处理后的图像进行多尺度特征提取，获得语义特征和空间特征；

将所述语义特征和所述空间特征分别输入至GRU，生成场景图，其中，所述场景图包括场景关系；

将所述场景关系、所述语义特征和所述空间特征输入至双层LSTM语言模型，获得图片描述语句。

优选的，所述获取数据集，并对数据集图像预处理的步骤，包括：

对所述数据集中的每一个图片进行归一化操作；

将图片缩放为一预设尺寸，并对缩放后的图片进行zero-padding操作。

一种实现方式中，所述对预处理后的图像进行多尺度特征提取，获得语义特征和空间特征的步骤，包括：

使用DetNet-110和FPN对预处理后的数据集图像进行图像的多尺度特征提取；

通过所述多尺度特征得到语义特征和空间特征；其中，所述语义特征为基于Faster R-CNN和Soft NMS的语义特征，所述空间特征为基于对象空间关系的空间特征。

优选的，将所述语义特征和空间特征分别输入至GRU，生成场景图的步骤，包括：

将生成的所述语义特征和所述空间特征分别输入GRU，以生成场景图。

优选的，所述将所述场景关系、所述语义特征和所述空间特征输入至多特征注意力机制的双层LSTM所述场景关系、所述语义特征和所述空间特征，获得图片描述语句的步骤，包括：

将所述场景关系、所述语义特征和所述空间特征，输入至双层LSTM语言模型进行训练，其中，所述场景关系、所述语义特征和所述空间特征作为解码器部分进行训练；

通过融合算法，将两层LSTM语言模型得到的语义向量进行权衡，以获得融合语义向量；

将所述融合语义向量输入Softmax函数计算描述语句每个单词的概率；

并获得概率中的最大值，并将最大值所对应的单词作为最终输出词；

将该输出词的文本特征设置为下一时刻的LSTM输入,直至发出结束符号字或达到预定义的最大句子长度。

应用本发明实施例提供的一种多特征融合图像描述方法，使用DetNet-110和FPN不同层次特征的互补性，进行多尺度的图像特征提取，再得到基于Faster R-CNN和SoftNMS的语义和空间关系特征，同时该方法采用扩展目标重叠测试标准进行性能测试；一种融合场景图和多特征注意力机制的图像描述模型,该模型首先利用语义和空间特征生成场景图，再将场景关系和经过注意力机制处理的语义和空间关系特征一同输入双层LSTM处理。本发明提出的方法和模型参数量适中，准确率较高，在Visual Genome和MSCOCO等公开数据集测试中都有良好的表现。

附图说明

图1是本发明实施例一种多特征融合图像描述方法的一种流程示意图。

图2是本发明实施例的多尺度语义特征和空间特征提取方法。

图3是本发明实施例基于场景图和注意力机制的图像描述模型。

图4是本发明实施例基于注意力机制的双层LSTM语言模型。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

请参阅图1-4。需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

如图1本发明提供一种多特征融合图像描述方法，所述方法包括：

S110，获取数据集，并对数据集图像预处理；

可以理解的是，数据集的准备，可以直接利用自构建的各细分领域图像数据集，也可以使用各类公开数据集，本发明使用两种公开数据集Visual Genome数据集和MSCOCO数据集；

Visual Genome数据集不仅仅含有图像，还是一个包含有图像物体之间关系的数据集，数据集中包含10万张图像，每个图像都标注了对象以及属性和对象之间的成对关系，能够提高模型对于图像的理解；MSCOCO数据集是一种开源的用于图像识别、描述、检测研究和竞赛的公开数据集，包含超过12万张图像，每张图像都有5个描述语句，数据更加丰富，能够训练出描述更加完善的模型。

数据集图像预处理，首先对图片进行归一化操作，将输入的图片统一缩放为尺寸大小为224*224*3的图像，然后对图片进行zero-padding操作，即在图像边界之外加一圈0值，使得在卷积过程中，图像的边界信息可以得到适当的保留，而不会快速衰减。

S120，对预处理后的图像进行多尺度特征提取，获得语义特征和空间特征；

需要说明的是，针对传统模型无法很好地找到大目标对象的准确位置和小目标对象的缺陷，本发明构建了DetNet-110网络模型。针对传统模型无法很好地找到大目标对象的准确位置和小目标对象的缺陷，本发明通过对ResNet-101网络进行修改，扩展为DetNet-110网络，很好地解决了传统网络无法准确找到大目标位置和分辨小目标的问题，同时也保证了特征图的大小，得到分辨率较高的特征图。多尺度语义和空间特征的提取，首先使用DetNet-110和FPN(特征金字塔网络)对输入的图片进行多尺度的图像特征提取，充分利用不同层次之间特征的互补性，得到每个图像更加完善的全局特征，然后通过多尺度特征分别得到基于Faster R-CNN和Soft NMS的语义特征和基于对象空间关系的空间特征。

具体的，基于DetNet-110和FPN的多尺度特征提取方法：

图像描述的图像特征提取需要同时识别目标的类别和目标对象所在的位置，所以本发明对传统的ResNet-101网络进行修改，扩展成DetNet-110网络：DetNet-110网络的前四个阶段与ResNet-101的前四个阶段保持一致，额外增加了第六个阶段，使得DetNet-110网络阶段数目与FPN网络阶段数目保持一致，使得增加的阶段也能在ImageNet上进行预训练。同时第五个阶段和第六个阶段是由3个重复的模块构成，每个模块当中按顺序含有256个1*1的卷积核、256个3*3的卷积核和256个1*1的卷积核。其中1*1的卷积核能够调整维度大小，减少和恢复权重的数量，保持特征图的大小。

在DetNet-110网络的残差模块中，输入的特征向量为x_i，输出的特征向量为x_i+1，残差模块的目的是让网络学习到残差特征其中/>为输入特征经过1*1卷积后的特征向量。

本发明还利用特征金字塔网络FPN结合DetNet-110网络学习多尺度的图像特征，FPN能够融合各个卷积层之间的特征，使得网络更能有效地提取多尺度的特征，对于输入任意大小的单个尺寸图像，特征公式如下所示：

f_n＝C_n(f_n-1)＝C_n(C_n-1(...C₁(I))) (1)

其中I是输入的图片，C_n是第n个卷积模块(包含卷积层、池化层和激活函数等)，f_n是第n层产生的特征图，由于每个特征图的感受野大小不同，他们所包含的语义尺寸不同，所以本发明提出如下公式，用来融合特征图中的低层和高层特征：

O＝{f′_n-k,...,f′_n} (2)

f′_n＝f_n (3)

f′_n-1＝f_n+f_n-1(n＞k＞0) (4)

...f′_n-k＝f_n+f_n-1+...+f_n-k (5)

其中O代表的是所有阶段特征经过FPN多尺度生成特征图的输出集合，通过将高层特征和低层特征进行融合，使得之后的检测网网络能够检测出之间不精准的大物体区域，也能够检测出一些难度较大的小物体。

经过上述操作步骤之后，最后生成的图像的全局特征如下公式表示：

f_global＝O＝{f′_n-k,...,f′_n} (6)

其中f_global代表全局特征，O代表的是所有阶段的特征经过FPN多尺度融合之后的输出集合。

基于Faster R-CNN和Soft NMS的语义特征提取方法：

本发明采用准确度比较高的两阶段方法Faster R-CNN来提取语义特征，得到目标对象和目标对象所在的区域，但不同之处在于，本发明采用上文提到的基于DetNet-110和FPN的多尺度特征提取方法代替了原有Faster R-CNN中的卷积特征提取方法。Faster R-CNN是分为两个阶段，首先是获取候选区域，其次是对候选区域进行分类和对区域进行回归操作。

第一阶段为区域候选网络(RPN)，使用多尺度特征图，为图像输出可能存在目标的候选区域，本发明将其分类表示为rpn-cls，将区域坐标回归表示为rpn-reg。RPN的Loss函数如下公式表达：

其中i是anchor(锚点)的索引，p_i是第i个anchor的目标对象概率，N_cls、N_reg都是平衡参数，通常分别设置为256、2400。如果anchor与真实区域框的重叠程度大于阈值，是正样本，真实标签为1，否则为0。t_i是区域坐标的向量编码，/>是与正样本相关联的向量，是交叉熵损失，L_reg是L1损失。

第二阶段称为目标检测网络，得到最终的目标分类和目标区域，将分类表示为det-cls，将区域回归表示为det-reg，第二阶段的Loss函数如下公式表达：

与上一个Loss函数不同的是其中表示目标类别u的预测概率，如果目标区域与具有类别u的重叠大于阈值，则/>为1。

Faster R-CNN由于网络没有强制约束，一个目标对象可以对应多个候选区域，因此本发明还采用非极大值抑制(NMS)来缓解一个目标对象上的多个候选区域的这种情况。进一步，Soft NMS采用线性或者高斯函数，来降低区域分数代替传统置零，使得性能进一步提升，能够更精确地获取目标区域，减少误差，公式如下表示：

其中，N_t是人为设定的阈值，代表与重叠度最高的区域，b_i为区域/>中重叠度高于阈值N_t的区域，上述函数中的IOU为两个区域的交并比，是一个测量标准，用来衡量目标检测方法的性能，两个区域的相关度越高，IOU的值就越高。上述函数会将与分数最高的区域中，重叠度高于阈值N_t的区域的分数线性衰减。因此，与该目标区域重叠度小于阈值的区域不会受到影响，而重叠程度高的将下调其分数。

基于空间关系的空间特征提取方法：

图像中的目标对象之间的关系是能够更好理解图片的重要线索，所以本发明在最终的目标检测区域集合中构造一个两两区域空间关系作为空间特征，用于之后的图片描述。

本发明将空间关系定义为空间距离关系、空间方向关系和空间拓扑关系构成。空间距离关系是另外两个关系的基础，描述目标对象之间的关系，设目标对象区域i和目标对象区域j的中心坐标分别为(x_i,y_i)、(x_j,y_j)，则两个区域的空间距离公式为：

空间方向关系是将图片分成八个方向区域之后，由Dire_ij＝{Dire₁,Dire₂,...,Dire₈}确定，Dire_m决定了目标对象j是否在参考对象i的第m个方向区域上，当Dire_m＝1时，表明目标对象j是在参考对象i的第m个方向区域上的，计算公式如下：

其中，Floor表示向下取整函数，θ_ij表示目标对象j与参考对象i的中心连线与水平线之间的夹角.

为了解决IOU值计算时可能出现的同值不同拓扑关系的问题，本发明对IOU算法进行了扩展，提出了一种EIOU算法，算法如下：

EIOU(扩展目标重叠测试标准)

输入：两个目标区域A、B

输出：EIOU

步骤1对于两个目标区域A、B，找到其最小封闭区域C

步骤2

步骤3

根据上述算法，本发明将两个区域之间的拓扑关系分为相离(相接)、小部分相交、大部分相交和覆盖(包含)四种情况，由Top＝{Top₁,Top₂,Top₃,Top₄}表示。最终，本发明将空间特征定义为f_spa：

其中，每一个f_ij＝{Dis_ij,Dire_ij,Top_ij}，即空间特征是由两两区域之间的1维空间距离关系Dis_ij、8维空间方向关系Dire_ij和4维空间的拓扑关系Top_ij组成，空间特征是N*N*13维的如图2。

S130，将所述语义特征和所述空间特征分别输入至GRU，生成场景图，其中，所述场景图包括场景关系；

可以理解的是，场景图是一个表示场景语义信息的有向图，节点代表对象，边代表对象之间的关系，将生成的语义特征和空间特征分别输入对象和关系的GRU，然后通过这两个部分的消息传递来生成场景图。

具体的，基于GRU的场景图生成：

对象之间的关系组合往往具有多样性，不一定都是主谓宾的形式，本发明将之前所得到的的语义、空间特征分别输入对象和关系的GRU中，然后通过这两个部分的消息传递来生成场景图。场景图能够抽象出图像当中的目标对象和关系，得到图像的结构化表示，即对于输入图像I得到有正确对象关系的场景图的概率P(G|I)，使用链式法则将联合概率分布分解为两个子问题，分别是对象O的概率分布和关系R的概率分布：

P(G|I)＝P(O|I)P(R|O,I) (15)

其中，G＝(N,E)，N代表场景图中的节点，E代表场景图中的边，根据链式法则，P(O|I)是在图像I的条件下对象O的概率分布，P(R|O,I)是在P(O|I)的条件下关系R的概率分布。节点是由n个目标对象o所构成的集合N＝{o₁,...,o_n}，边是由目标对象之间的关系对所组成的集合E＝{g_1,2,...,g_i,j,...,g_n,n}。

在本发明中，构建场景图时，把对象抽象为节点，利用关系对之间的关系生成权重，使用了Normalied Cut方法，对所有对象关系进行聚类，相关的对象分在一个关系组，计算公式如下：

上述分式中的两个函数可用如下两个式子解释：

cut(X,Y)＝∑_x∈X,y∈Yw(x,y)，ass(X,T)＝∑_x∈X,t∈Tw(x,t)，其中X、Y、T分别代表不同的三种关系组集合，w为根据关系生成的每个对象之间的权重。具体到公式中：A_i是一个相关关系组的集合，V/A_i是另一个相关关系组的集合，V是两个相关关系组的并集。

对于对象和对象关系这两个部分分别进行编码，在进行消息共享，能够更好地融合两者之间的特征，也可以更好地识别目标对象和它相关的关系。

S140，将所述场景关系、所述语义特征和所述空间特征输入至双层LSTM语言模型，获得图片描述语句。

需要说明的是，多特征注意力机制的双层LSTM语言模型相较于某些单层LSTM模型能够取得更好的效果，同时遗漏更少的信息，提升准确度；本发明提出的融合算法通过设置参数权衡第一层LSTM中的语言相关的语义向量和第二层LSTM中和图像相关的语义向量，从而在保证描述语句通顺的情况下，还能关注图像中的对象及其关系。场景图集成了语义概念、拓扑关系和关注区域，增强对于图片关键信息的理解。然后将场景图的场景关系和经过注意力机制的语义和空间特征，输入双层LSTM作为解码器部分进行训练，增加对特征中重要信息的关注度，提高描述语句的准确性如图3。

双层LSTM模型包含两个LSTM模块：第一层LSTM旨在通过图像的全局特征和隐藏状态生成中间语义向量；第二层LSTM通过场景关系、隐藏状态、语义特征和空间特征得到图像的描述；最后将两层LSTM得到的描述进行融合，得到最终的描述如图4。

其中在第二层LSTM中引入注意力机制后，能够在每一个时刻动态地关注图像中的特定区域，然后利用与该时刻相关程度最高的区域特征来生成单词，还通过运用语义注意力和空间注意力分别对图像的重要信息进行选择性的关注，再通过场景图得到场景关系丰富的图像描述。公式如下所示：

其中V＝{v₁,v₂,...,v_L}表示图像语义特征，并且W_v1,W_h1是要学习的参数。在语义注意力中，输入是语义特征V和第一层LSTM的隐藏状态/>激活函数是Tanh，得到输出维数为1的标量/>然后用softmax函数将/>归一化为语义注意力的权重/>再将权重/>和每个图像语义特征相乘，得到含有图像语义的视觉信息/>设L为图像语义特征的数量，/>为第l个语义注意力权重，v_l为第l个语义特征：

同理，空间注意力机制运用图像空间特征让第二层LSTM选择性地利用图片当中的空间特征，公式如下所示：

其中表示图像空间特征，并且/>W_v2,W_h2是要学习的参数，/>为通过激活函数tanh得到的二维标量，/>是空间注意力权重。然后得到含有图像的视觉信息设M为图像语义特征的数量，/>为第m个空间注意力权重，/>为第m个语义特征：

通过将图像语义的视觉信息与图像空间的视觉信息/>结合，可以生成t时刻，综合了语义和空间信息的/>其中W_ah是要学习的参数，[；]为连接操作：

将第二层LSTM单元的输入结合了场景图中得到的场景关系v₀、第一层LSTM的隐藏状态和综合特征/>定义为/>

则第二层LSTM的输出为：

本发明通过以下函数将第一层LSTM的输出和第二层LSTM的输出组合在一起，得到t时刻的候选单词，最后通过softmax函数来计算第t个单词的概率p_t，取最大者最为t时刻的最终单词输出h_t，对应的时刻分别为1-(t+n)得到公式(29)，将所有时刻连接起来就是最终的图片描述。

h_t＝max(p_t) (28)

H＝h₁+h₂+.....+h_t+....+h_t+n (29)

其中，为t时刻的候选单词，/>和/>分别为第一、第二层LSTM的输出，W_h12是要学习的参数，p_t是通过softmax函数计算获得的所有候选单词的概率向量，h_t为通过max函数得到该概率向量中的最大元素，H是将得到的所有单词拼接为最终生成的图片描述语句。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种多特征融合图像描述方法，其特征在于，所述方法包括：

获取数据集，并对数据集图像预处理；

将所述场景关系、所述语义特征和所述空间特征输入至双层LSTM语言模型，获得图片描述语句；

所述对预处理后的图像进行多尺度特征提取，获得语义特征和空间特征的步骤，包括：

通过所述多尺度特征得到语义特征和空间特征；其中，所述语义特征为基于Faster R-CNN和SoftNMS的语义特征，所述空间特征为基于对象空间关系的空间特征；

所述将所述场景关系、所述语义特征和所述空间特征输入至双层LSTM所述场景关系、所述语义特征和所述空间特征，获得图片描述语句的步骤，包括：

将所述场景关系、所述语义特征和所述空间特征，输入至多特征注意力机制的双层LSTM语言模型进行训练，其中，所述场景关系、所述语义特征和所述空间特征作为解码器部分进行训练；

2.根据权利要求1所述的一种多特征融合图像描述方法，其特征在于，所述获取数据集，并对数据集图像预处理的步骤，包括：

对所述数据集中的每一个图片进行归一化操作；

3.根据权利要求1所述的一种多特征融合图像描述方法，其特征在于，将所述语义特征和空间特征分别输入至GRU，生成场景图的步骤，包括：