CN113076956B

CN113076956B - 一种图像描述生成方法、系统、介质及电子设备

Info

Publication number: CN113076956B
Application number: CN202110406530.6A
Authority: CN
Inventors: 鲁芹; 张丽萍
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2023-02-24
Anticipated expiration: 2041-04-15
Also published as: CN113076956A

Abstract

本公开提供了一种图像描述生成方法、系统、介质及电子设备，获取待描述的图像，提取全局特征和目标特征；利用预设循环神经网络的隐状态输出为目标特征分配权重，经加权求和后得到新的图像特征表示；利用全局特征为预设循环神经网络的隐状态输出计算注意力得分，经加权求和后得到新的语义信息表示；将图像特征表示和语义信息表示进行融合得到图像交互信息，对图像交互信息进行场景概念选择，得到场景概念信息，根据图像交互信息和场景概念信息，得到图像语义描述结果；本公开使用全局图像特征和局部图像特征来生成图像描述，采用交互机制，提高了描述的丰富性和准确性。

Description

一种图像描述生成方法、系统、介质及电子设备

技术领域

本公开涉及图像处理技术领域，特别涉及一种图像描述生成方法、系统、介质及电子设备。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术，并不必然构成现有技术。

现有的图像描述生成方法中，注意力机制根据当前时刻的语义信息挑选出相关度较高的图像信息，进而将编码后的图像信息作为解码器的输入，然后将图像信息解码成文字。

但是，发明人发现，在图像描述过程中，注意力机制没有考虑语义信息和图像信息在两个方向上面的交互；现有的注意力方法仅基于低级空间特征或高级文本特征，限制了图像描述的丰富性；现有的图像描述生成方法，缺乏的场景语义信息特征，使得生成的语义描述的准确度较低。

发明内容

为了解决现有技术的不足，本公开提供了一种图像描述生成方法、系统、介质及电子设备，使用全局图像特征和局部图像特征来生成图像描述，采用交互机制，提高了描述的丰富性和准确性。

为了实现上述目的，本公开采用如下技术方案：

本公开第一方面提供了一种图像描述生成方法。

一种图像描述生成方法，包括以下过程：

获取待描述的图像；

根据获取的图像，获取全局特征和目标特征；

利用预设循环神经网络的隐状态输出为目标特征分配权重，经加权求和后得到新的图像特征表示；

利用全局特征为预设循环神经网络的隐状态输出计算注意力得分，经加权求和后得到新的语义信息表示；

将图像特征表示和语义信息表示进行融合得到图像交互信息，对图像交互信息进行场景概念选择，得到场景概念信息，根据图像交互信息和场景概念信息，得到图像语义描述结果。

进一步的，利用Resnet101网络提取图像中的全局特征。

进一步的，利用Faster R–CNN网络提取图像中的目标特征。

进一步的，利用预设的门控单元将图像特征表示和语义信息表示进行融合。

进一步的，将图像交互信息、场景概念信息和隐状态输入到预设ON-LSTM解码器中，得到图像语义描述结果。

进一步的，将图像的场景主题类别转化成词嵌入向量形式，结合图像交互信息，得到场景概念信息。

进一步的，图像的场景主题类别包括多个主题词汇。

本公开第二方面提供了一种图像描述生成系统。

一种图像描述生成系统，包括以下过程：

图像获取模块，被配置为：获取待描述的图像；

特征提取模块，被配置为：根据获取的图像，获取全局特征和目标特征；

特征表示获取模块，被配置为：利用预设循环神经网络的隐状态输出为目标特征分配权重，经加权求和后得到新的图像特征表示；

语义信息获取模块，被配置为：利用全局特征为预设循环神经网络的隐状态输出计算注意力得分，经加权求和后得到新的语义信息表示；

图像场景描述模块，被配置为：将图像特征表示和语义信息表示进行融合得到图像交互信息，对图像交互信息进行场景概念选择，得到场景概念信息，根据图像交互信息和场景概念信息，得到图像语义描述结果。

本公开第三方面提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开第一方面所述的图像描述生成方法中的步骤。

本公开第四方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开第一方面所述的图像描述生成方法中的步骤。

与现有技术相比，本公开的有益效果是：

1、本公开所述的方法、系统、介质及电子设备，使用全局图像特征和局部图像特征来生成图像描述，采用交互机制，提高了描述的丰富性和准确性。

2、本公开所述的方法、系统、介质及电子设备，使用图像交互信息去选取场景语义信息来生成图像描述，通过一系列与图像场景密切相关的主题词汇来表示图像的场景语义信息，并将选取后的场景语义信息添加到语言模型中，与图像的交互信息相结合，从而使模型能够得到更丰富的图像信息，并提前预知到一些需要生成的重要词汇，以此来共同引导模型生成更加准确且符合场景的描述。

本公开附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例1提供的图像描述生成方法的流程示意图。

图2为本公开实施例1提供的交互机制示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例1：

如图1所示，本公开实施例1提供了一种图像描述生成方法，包括以下过程：

分别用Resnet101和Faster R-CNN提取图像中的全局特征和目标特征；

根据循环神经网络的隐状态输出

为所有的目标特征分量分配权重，经加权求和计算后，得到新的图像特征表示

本实施例保留了历史的隐状态输出集合

并根据图像的全局特征表示

为隐状态集合中的每个元素

计算注意力得分，同样经加权求和操作，得到新的语义信息表示

本实施例设计了一种门控机制完成对上述两种信息表示(

和

)的融合，融合得到

将融合得到的

通过场景语义选择模块来对场景概念进行选择得到新的场景概念信息

将

和

输入到ON-LSTM解码器生成更加准确和符合场景的描述。

本实施例提出的交互机制(Interactive mechanism)，将从两个方向进行交互计算，完成图像全局特征

和所有时刻语义信息

当前语义信息

和图像目标信息

的相互交互。筛选出较为重要的图像特征

和语义信息

并通过门控单元获得融合两种模态信息的向量表示

交互机制模块的具体内容如图2所示。

为了使模型能够生成更加准确且符合图像场景的描述，本实施例提出了使用图像交互信息去选取场景语义信息来生成图像描述的方法。通过一系列与图像场景密切相关的主题词汇来表示图像的场景语义信息，并将选取后的场景语义信息添加到语言模型中，与图像的交互信息相结合，从而使模型能够得到更丰富的图像信息，并提前预知到一些需要生成的重要词汇，以此来共同引导模型生成更加准确且符合场景的描述。

通过场景语义选择模块输出当前时间步模型关注的场景语义信息，具体的操作如下：

S＝W_eU_i

其中U_i表示图像的场景主题类别，它由M个主题词汇组成，首先将其转化成词嵌入向量形式S∈R^M*H，

表示交互机制后的图像特征信息。

h² _t＝ON-LSTM^L([C^c _t；C^m _t；h¹ _t],h² _t-1)

y_t≈p_t＝softmax(W_Ph² _t)

最后将图像交互信息

场景语义信息

隐状态

一同输入到ON-LSTM中，输出

用于预测当前时刻生成的单词。

本实施例使用的数据集为MSCOCO数据集。MSCOCO数据集采用Karpathy分割方法将数据集分为训练集、验证集和测试集，经该方法划分后，训练集、验证集和测试集分别含有82738张、5000张、5000张图像，如表1所示。

表1：各数据集图像数量。

数据集	训练集	验证集	测试集
				MSCOCO	82738	5000	5000

本实施例使用up-down作为基准模型，对up-down模型进行了复现，表2展示了up-down模型与本实施例方法在MSCOCO数据集上进行的性能比较。使用两阶段的训练策略，其中，XE表示使用交叉熵损失策略对模型进行训练的结果，RL表示使用强化学习方法，直接优化CIDEr分值进行训练的结果，Baseline指基准模型，ours指本实施例方法。

表2：up-down模型与本实施例方法在MSCOCO数据集上进行的性能比较。

表3：在MSCOCO数据集上与现有先进模型的性能比较。

Approach	BLEU-4	METEOR	ROUGE-L	CIDEr
					Spatial-Attention	34.2	26.3	55.2	106.0
Adaptive-Attention	33.2	26.6	55.0	103.7
					Semantic-Attention	30.4	24.3	54.3	104.2
Stack-Cap	36.1	27.4	56.9	120.4
					Up-down	36.3	27.7	56.9	120.1
RFNet	36.5	27.7	57.3	121.9
					CVAP	38.6	28.3	58.5	126.3
Ours(RL)	38.9	28.4	58.6	126.5

本实施例在MSCOCO测试集上选取了所有图像进行实验，实验结果显示，当生成与图像中目标相关的单词时，模型会关注到与当前时刻生成单词相关的图像区域，经过本实施例方法生成的描述语句与图像真实内容相比，句式比较完整，内容的含义比较准确且有意义。

实施例2：

本公开实施例2提供了一种图像描述生成系统，包括以下过程：

图像获取模块，被配置为：获取待描述的图像；

所述系统的工作方法与实施例1提供的图像描述生成方法相同，这里不再赘述。

实施例3：

本公开实施例3提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开实施例1所述的图像描述生成方法中的步骤。

实施例4：

本公开实施例4提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例1所述的图像描述生成方法中的步骤。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种图像描述生成方法，其特征在于：包括以下过程：

获取待描述的图像；

根据获取的图像，获取全局特征和目标特征；利用Resnet101网络提取图像中的全局特征；利用Faster R–CNN网络提取图像中的目标特征；

将图像特征表示和语义信息表示进行融合得到图像交互信息，对图像交互信息进行场景概念选择，得到场景概念信息，根据图像交互信息和场景概念信息，得到图像语义描述结果；通过一系列与图像场景密切相关的主题词汇来表示图像的场景语义信息，并将选取后的场景语义信息添加到语言模型中，与图像的交互信息相结合，从而使模型能够得到更丰富的图像信息，并提前预知到一些需要生成的重要词汇，以此来共同引导模型生成更加准确且符合场景的描述；

将图像的场景主题类别转化成词嵌入向量形式，结合图像交互信息，得到场景概念信息；

将图像交互信息、场景概念信息和隐状态输入到预设ON-LSTM解码器中，得到图像语义描述结果。

2.如权利要求1所述的图像描述生成方法，其特征在于：

利用预设的门控单元将图像特征表示和语义信息表示进行融合。

3.一种图像描述生成系统，其特征在于：包括以下过程：

图像获取模块，被配置为：获取待描述的图像；

特征提取模块，被配置为：根据获取的图像，获取全局特征和目标特征；利用Resnet101网络提取图像中的全局特征；利用Faster R–CNN网络提取图像中的目标特征；

图像场景描述模块，被配置为：将图像特征表示和语义信息表示进行融合得到图像交互信息，对图像交互信息进行场景概念选择，得到场景概念信息，根据图像交互信息和场景概念信息，得到图像语义描述结果；通过一系列与图像场景密切相关的主题词汇来表示图像的场景语义信息，并将选取后的场景语义信息添加到语言模型中，与图像的交互信息相结合，从而使模型能够得到更丰富的图像信息，并提前预知到一些需要生成的重要词汇，以此来共同引导模型生成更加准确且符合场景的描述；

4.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-2任一项所述的图像描述生成方法中的步骤。

5.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-2任一项所述的图像描述生成方法中的步骤。