CN111368118B

CN111368118B - 一种图像描述生成方法、系统、装置和存储介质

Info

Publication number: CN111368118B
Application number: CN202010090659.6A
Authority: CN
Inventors: 陈弟虎; 王铎沣
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-02-13
Filing date: 2020-02-13
Publication date: 2023-04-18
Anticipated expiration: 2040-02-13
Also published as: CN111368118A

Abstract

本发明公开了一种图像描述生成方法、系统、装置和存储介质，其中方法包括以下步骤：获取图片信息；采用基于融合多种特征的图像描述模型对图片信息进行处理后，获得描述信息；所述多种特征包括区块特征、目标特征和文本特征。本发明的图像描述模型在训练过程中，融合了区块特征、目标特征和文，基于多种特征进行融合，根据不同特征表示的语义层级不同，高语义层级的特征向量可以为底层的特征向量起到信息指导的作用，低语义层级的特征向量可以为高层级的特征向量起到信息，使得生成的句子描述更加准确，提高图像描述的效果，可广泛应用于数据处理技术领域。

Description

一种图像描述生成方法、系统、装置和存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种图像描述生成方法、系统、装置和存储介质。

背景技术

图像描述是指以图像为输入，通过模型和计算来输出对应图像的描述图像内容的自然语言(英文、中文等)句子。生成的句子是能够描述图像内容的句子。目前在建立用于图像描述的模型中，为了避免造成较大的损失函数值，训练过程中模型总是倾向于生成一些比较宽泛性的句子，这样生成的句子中常常会丢失图像中的某些细节信息，导致句子的信息不够丰富。

发明内容

为了解决上述技术问题，本发明的目的是提供一种能够提供更多细节信息的图像描述生成方法、系统、装置和存储介质。

本发明所采用的第一技术方案是：

一种图像描述生成方法，包括以下步骤：

获取图片信息；

采用基于融合多种特征的图像描述模型对图片信息进行处理后，获得描述信息；

所述多种特征包括区块特征、目标特征和文本特征。

进一步，还包括建立图像描述模型的步骤，具体包括以下步骤：

采用预设网络提取图像数据集的区块特征、目标特征及文本特征；

采用刺激性关注机制对区块特征进行处理后，将目标特征、文本特征及处理后的区块特征输入transformer模块；

采用多模融合映射模块对输入transformer模块的特征进行特征融合，获得融合特征；

结合融合特征和预设的损失函数对网络进行训练，并在训练完成后，获得图像描述模型。

进一步，所述采用预设网络提取图像数据集的区块特征、目标特征及文本特征这一步骤，具体包括以下步骤：

采用第一预设神经网络提取图像数据集的区块特征，所述第一预设神经网络为深度残差网络；

采用第二预设神经网络提取图像数据集的目标特征，所述第二预设神经网络为用于目标检测的卷积神经网络；

采用第三预设神经网络提取图像数据集的文本特征，所述第三预设神经网络为用于文本分类的卷积神经网络。

进一步，所述采用刺激性关注机制对区块特征进行处理这一步骤，具体为：

基于SALICON数据集训练获得显著目标预测网络，根据显著目标预测网络获得刺激性关注机制网络；

将区块特征输入刺激性关注机制网络进行处理后，获得处理后的区块特征。

进一步，所述刺激性关注机制网络的公式表达式为：

其中，所述I′代表经过处理后的区块特征，所述W_v代表卷积核数量为2048，卷积核大小为1的卷积层，所述

代表矩阵对应元素的乘法计算，所述W_ssal代表利用显著目标预测网络的得到的卷积层，所述I代表输入的区块特征，所述∈代表一个超参。

进一步，还包括以下步骤：

在将目标特征、文本特征及处理后的区块特征分别输入transformer模块的编码器后，采用动态卷积重构transformer模块中的自关注机制，以减少模型参数量。

进一步，所述动态卷积的计算公式如下：

DynamicConv(x,i,c)＝DepthwiseConv(X,softmax(f(X_i)_h,:),i,c)

其中，所述DepthwiseConv()代表深度卷积的计算公式，所述X代表代表输入，f()为可训练的线性函数，所示i为输出特征图上的一个元素，所述c为输出的特征图通道。

本发明所采用的第二技术方案是：

一种图像描述生成系统，包括：

图片获取模块，用于获取图片信息；

图像描述模块，用于采用基于融合多种特征的图像描述模型对图片信息进行处理后，获得描述信息；

所述多种特征包括区块特征、目标特征和文本特征。

本发明所采用的第三技术方案是：

一种图像描述生成装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述方法。

本发明所采用的第四技术方案是：

一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明的图像描述模型在训练过程中，融合了区块特征、目标特征和文，基于多种特征进行融合，根据不同特征表示的语义层级不同，高语义层级的特征向量可以为底层的特征向量起到信息指导的作用，低语义层级的特征向量可以为高层级的特征向量起到信息，使得生成的句子描述更加准确，提高图像描述的效果。

附图说明

图1是实施例中一种图像描述生成方法的步骤流程图；

图2是实施例中图像描述模型的整个网络结构示意图；

图3是实施例中多模态融合结构示意图；

图4是实施例中一种图像描述生成系统的结构框图。

具体实施方式

如图1所示，本实施例提供了一种图像描述生成方法包括以下步骤：

S101、获取图片信息；

S102、采用基于融合多种特征的图像描述模型对图片信息进行处理后，获得描述信息；

所述多种特征包括区块特征、目标特征和文本特征。

为了避免图像中的细节信息丢失，本实施例采用并有效融合了不同模态的特征，具体包括区块特征、目标特征和文本特征，使得生成的句子结构更具多元化，描述的信息更加丰富，能够根据生成以不同内容为主题的句子，其中，所述区块特征为采用预设图像分类模型从图像提取的特征，所述目标特征为采用预设目标检测模型从图像提取的特征，文本特征为采用预设语义分类模型从图像提取的特征。本实施例的图像描述模型在训练过程中采用了多轨合作机制，基于多种特征进行融合，根据不同特征表示的语义层级不同，高语义层级的特征向量可以为底层的特征向量起到信息指导的作用，低语义层级的特征向量可以为高层级的特征向量起到信息，使得生成的句子描述更加准确，模型效果得到提升。

当前国内外关于图像描述领域对transformer的研究非常匮乏，使用transformer构造结合其他网络结构构造更加复杂的模型仍然存在很多空白区。本实施例中，参照图2和图3，采用transformer来构建图像描述模型，具体的步骤如下所示：

S1、采用预设网络提取图像数据集的区块特征、目标特征及文本特征；

其中，采用三个预设的网络来分别提取区块特征、目标特征及文本特征三种特征，以下具体对每个特征的提取方式进行详细说明。

提取区块特征的步骤为：采用第一预设神经网络提取图像数据集的区块特征，所述第一预设神经网络为深度残差网络。具体如步骤S1.1-S1.2：

S1.1：采用第一预设神经网络提取图像数据集的区块特征，所述第一预设神经网络为在ImageNet数据集上预训练过的深度残差网络(具体为ResNet-101结构)，在提取图像特征时，不需要增加额外训练改变任何模型参数，直接将卷积神经网络的最后一层卷积层的输出作为区块特征；

S1.2：在提取区块特征时，针对不同尺寸的图片，可采用自适应空间均值池化层来获取统一尺寸的特征图(即区块特征)，所述特征图可以为尺寸为2048*14*14的特征图；也可以为尺寸为512*14*14的特征图，通过缩小特征图的尺寸，可加快特征提取的运算速度。

提取目标特征的步骤为：采用第二预设神经网络提取图像数据集的目标特征，所述第二预设神经网络为用于目标检测的卷积神经网络。具体地如步骤S1.3：

S1.3：采用第二预设神经网络提取图像数据集的目标特征，所述第二预设神经网络为在MSCOCO数据集上预训练过的卷积神经网络(具体可采用Faster RCNN)，将第二预设神经网络作为目标检测模型，用来提取图像上的局部目标特征。为了加强模型鲁棒性，可采用在每张图片上提取置信度最高的15个目标特征V_O，目标特征维度为15*2048。

提取文本特征的步骤为：采用第三预设神经网络提取图像数据集的文本特征，所述第三预设神经网络为用于文本分类的卷积神经网络。具体地如步骤S1.4：

S1.4：采用第三预设神经网络提取图像数据集的文本特征，所述第三预设神经网络为卷积神经网络(具体可采用ResNet)，使用三预设神经网络训练一个K＝2000，即2000个分类的文本预测器，2000个分类是指在数据集中出现频率最高的2000个和视觉描述有关的词汇。每次输入图片生成的特征图，再输入嵌入层得到文本特征V_t，每次只取置信度最高的10个单词作为关注机制的输入，文本特征大小为10*2048。

S2、采用刺激性关注机制对区块特征进行处理后，将目标特征、文本特征及处理后的区块特征输入transformer模块。

所述刺激性关注机制为基于SALICON数据集训练获得显著目标预测网络，根据显著目标预测网络获得刺激性关注机制网络。通过上述步骤得到区块特征后，对区块特征做进一步的处理，具体步骤如下：为了建立刺激性关注机制，先在SALICON数据集上训练一个显著目标预测网络，所述显著目标预测网络主要由卷积层构成，卷积核大小均为1，第一层卷积核数量是2048，第二层的卷积核数量是1，显著目标预测网络的前向传播过程如公式(1)所示：

S＝softmax(W_mδ(W_salI)) (1)

其中，W_sal为第一卷积层的权值、W_m为第二卷积层的权值，δ是激活函数，I是输入的特征图，S是显著目标权值图。网络训练完成后，保留第一层卷积层的参数W_sal，用于刺激性关注机制网络的初始化。

将区块特征输入第一个卷积核数量2048，卷积大小为1的额外卷积层W_v，获得第一个特征图；将区块特征输入利用利用显著目标预测网络的得到的W_sal层，得到的特征加上一个超参μ，并引入一个对数函数来减弱W_sal和W_v的共适应性，获得第二个特征图；最后，将上述得到的两个特征图进行矩阵相乘，刺激性关注机制用公式(2)表示：

其中，I是输入的特征图，I′经过刺激性关注机制处理过得特征图。经过刺激性关注机制后得到的区块特征表标记为V_p。

最后，将区块特征V_p、目标特征V_O、和文本特征V_t输入transformer模块。

S3、采用动态卷积重构transformer模块中的自关注机制，以减少模型参数量，加快运算速度；

其中，步骤S3具体包括步骤S3.1-S3.3：

S3.1：Transfoemer由编码器和解码器两部分组成，分别将V_O、V_p、V_t输入编码器，描述句子的嵌入层向量输入解码器，嵌入层的形状为17*2048(17是指将句子最大长度限制为17，大于此长度则选择截取前17个单词即可)。

S3.2：为了减少模型参数量，我们采用新的网络结构替代自关注模块，具体操作是将嵌入层特征输入一层全连接网络，将特征维度扩展为两倍，接着讲得到特征输入一个线性门单元GLU，线性门单元值指将特征一半的数值输入Sigmoid函数得到一个0到1之间的值，再将这个值乘以剩下的那一半的数值得到比原来特征更加精细化的特征；

S3.3：将特征输入动态卷积，动态卷积计算公式如下：

DynamicConv(x,i,c)＝DepthwiseConv(X,softmax(f(X_i)_h,:),i,c) (4)

其中，公式(3)是深度卷积的计算公式，k是卷积核的尺寸，i是输出特征图上的一个元素，c是输出的特征图通道。公式(4)是动态卷积的计算公式，其中f是一个可训练的线性模块。

S4、采用多模融合映射模块对输入transformer模块的特征进行特征融合，获得融合特征；

其中，步骤S4具体包括步骤S4.1-S4.5：

S4.1：将在步骤S1中获得的3种特征分别输入3个transformer编码器，得到的三种特征记为文本特征A_t，目标特征A_o，区块特征A_p，接着通过不同模态的特征融合使得视觉特征信息质量更高，特征融合采用多模融合映射模块；

S4.2：对于文本特征，为了将另外两种特征(即区块特征和目标特征)中信息作为引导信息融合入文本特征，首先将区块特征和目标特征中的所有特征向量取均值，再将得到特征进行复制，使它的尺寸和文本特征相同，如用公式(5)表示:

S4.3：将获得的特征和文本特征融合时可以采取不同的方式，比如相乘或者相加；

S4.4：同样的，如果需要将将另外两种特征分别融合入区块特征或目标特征，采取S4.2、S4.3的操作即可；

S4.5：将最后得到的融合特征输入transformer解码器。

S5、结合融合特征和预设的损失函数对网络进行训练，并在训练完成后，获得图像描述模型。

在本实施例中，选用交叉熵函数作为训练时的损失函数，通过最小化交叉熵函数的数值进行训练网络，交叉熵函数用公式(6)所示：

其中，Y_t表示ground-truth的单词，θ_0：i表示相对于不同解码器的参数，把所有的损失函数加在一起时，公式表示如下：

是第i个解码器输出的对单词Y_t的预测概率。

最后训练完成后，获得图像描述模型，将需要进行图像描述的图片输入该图像描述模型中，即可得到对应的描述信息。

在本实施例中，由于有效融合了不同模态的特征，使得生成的句子结构更具多元化，描述的信息更加丰富，能够根据生成以不同内容为主题的句子。由于采用了多轨合作机制，根据不同特征表示的语义层级不同，高语义层级的特征向量可以为底层的特征向量起到信息指导的作用，低语义层级的特征向量可以为高层级的特征向量起到信息，使得生成的句子描述更加准确，模型效果得到提升。在transformer本身自关注机制的基础上引入了其他关注机制，使得模型能够根据图像中某个较大较明显主体生成句子的同时关注的周围其他细小主体。通过使用动态卷积重构自关注机制，减少模型参数量，加快运算速度。

如图4所示，本实施例还提供了一种图像描述生成系统，包括：

图片获取模块，用于获取图片信息；

所述多种特征包括区块特征、目标特征和文本特征。

本实施例的一种图像描述生成系统，可执行本发明方法实施例所提供的一种图像描述生成方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本实施例还提供了一种图像描述生成装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

本实施例的一种图像描述生成装置，可执行本发明方法实施例所提供的一种图像描述生成方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本实施例还提供了一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行如上所述方法。

本实施例的一种存储介质，可执行本发明方法实施例所提供的一种图像描述生成方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种图像描述生成方法，其特征在于，包括以下步骤：

获取图片信息；

所述多种特征包括区块特征、目标特征和文本特征；

还包括建立图像描述模型的步骤，具体包括以下步骤：

结合融合特征和预设的损失函数对网络进行训练，并在训练完成后，获得图像描述模型；

所述采用预设网络提取图像数据集的区块特征、目标特征及文本特征这一步骤，具体包括以下步骤：

采用第三预设神经网络提取图像数据集的文本特征，所述第三预设神经网络为用于文本分类的卷积神经网络；

所述采用刺激性关注机制对区块特征进行处理这一步骤，具体为：

将区块特征输入刺激性关注机制网络进行处理后，获得处理后的区块特征；

所述刺激性关注机制网络的公式表达式为：

代表矩阵对应元素的乘法计算，所述W_sal代表利用显著目标预测网络的得到的卷积层，所述I代表输入的区块特征，所述∈代表一个超参。

2.根据权利要求1所述的一种图像描述生成方法，其特征在于，还包括以下步骤：

3.根据权利要求2所述的一种图像描述生成方法，其特征在于，所述动态卷积的计算公式如下：

DynamicConv(x,i,c)＝DepthwiseConv(X,softmax(f(X_i)_h),i,c)

其中，所述DepthwiseConv()代表深度卷积的计算公式，所述X代表输入，f()为可训练的线性函数，所示i为输出特征图上的一个元素，所述c为输出的特征图通道。

4.一种图像描述生成系统，其特征在于，包括：

图片获取模块，用于获取图片信息；

所述多种特征包括区块特征、目标特征和文本特征；

还包括建立图像描述模型的步骤，具体包括以下步骤：

所述刺激性关注机制网络的公式表达式为：

其中，所述I′代表经过处理后的区块特征，所述W_v代表卷积核数量为2048，卷积核大小为1的卷积层，所述°代表矩阵对应元素的乘法计算，所述W_sal代表利用显著目标预测网络的得到的卷积层，所述I代表输入的区块特征，所述∈代表一个超参。

5.一种图像描述生成装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现权利要求1-3任一项所述的一种图像描述生成方法。

6.一种存储介质，其中存储有处理器可执行的指令，其特征在于，所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-3任一项所述方法。