CN111126479A

CN111126479A - 一种基于无监督独特性优化的图像描述生成方法及系统

Info

Publication number: CN111126479A
Application number: CN201911324479.3A
Authority: CN
Inventors: 吴烨; 李锐; 金长新
Original assignee: Shandong Inspur Artificial Intelligence Research Institute Co Ltd
Current assignee: Shandong Inspur Artificial Intelligence Research Institute Co Ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-05-08

Abstract

本发明公开一种基于无监督独特性优化的图像描述生成方法及系统，涉及图像描述技术领域，其实现包括：S1、获取成对的图像和人类生成的真实句子描述，并存储在训练集中；S2、使用训练集包含的成对数据训练图像描述检索模型；S3、构建图像描述生成模型；S4、获取训练集的图像并输入图像描述生成模型，图像描述生成模型生成与图像相对应的句子描述，将图像和生成的句子描述作为成对数据存储在比较集中；S5、利用图像描述检索模型估计比较集中成对数据的相似性，获得损失和梯度；S6、根据损失和梯度调整图像描述生成模型，返回执行S4或者输出最终图像描述生成模型。本发明可以无监督的生成图像的高质量句子描述，该描述具有多样性、独特性。

Description

一种基于无监督独特性优化的图像描述生成方法及系统

技术领域

本发明涉及图像描述技术领域，具体的说是一种基于无监督独特性优化的图像描述生成方法及系统。

背景技术

图像描述是一项需要模型获得对世界的多模式理解并以自然语言文本表达这种理解的任务，从而使其与从人机交互到数据管理的各个领域相关，实际目标是自动生成描述图像最相关的自然语言描述。大多数最新的神经网络模型都建立在编码器-解码器架构上，其中卷积神经网络(CNN)用作图像特征的编码器，该图像特征被馈送到递归神经网络(RNN)，该递归神经网络通过充当解码器生成句子描述。解码器通常还包括一个或多个注意力层，以将句子描述聚焦在图像的最突出部分。训练的标准方法是通过最大似然估计(MLE)，使用交叉熵损失为相应的图像复刻真实的人类描述。图像描述任务沿用一些机器翻译任务的评价标准，也有类似的方法(CIDEr)被提出专门用于评估图像描述的质量。但是这些方法没有将人类表达的丰富性和多样性考虑进去。SPICE是最近新增的评价标准，它通过比较由真实和生成的图像描述自动生成场景图来度量内容的重叠程度。有方法受生成对抗网络的启发，将图像描述生成模型的训练看作是对抗的过程，其中生成器和判别器处于不断竞争中-判别器旨在区分真实的描述和生成器生成的描述，而生成器旨在生成判别器无法区分的真实的描述。

近期图像描述方法显示出了令人印象深刻的结果，这要归功于长短期记忆(LSTM)RNN强大的语言建模能力。但是，尽管MLE训练使模型能够自信地生成与训练集中具有很高似然性的描述，但它限制了其生成新颖描述的能力。这些方法的输出表现出常见n元组(n-gram)和训练集中完整描述的不成比例的复制。导致这个问题的主要原因是现有的测试指标不足。标准度量基于生成的描述和真实描述之间的n元组重叠程度，奖励偏向常见的n元组。这激励模型出现这样的结果：尽管这些模型缺少描述每个图像特定的相关方面的目标，但这些模型输出的通用描述很可能适合一系列相似的图像。基于生成对抗网络的方法能生成多样的描述，但由于生成对抗网络的复杂性，这些方法往往存在训练不稳定的问题。

综上所述，现有基于极大似然估计的图像描述方法倾向于生成与训练集相似的句子而忽略特定的图像细节导致生成的句子描述缺乏多样性和生动性，与人类生成的描述差别较大。

发明内容

本发明针对目前技术发展的需求和不足之处，提供一种基于无监督独特性优化的图像描述生成方法及系统，以生成高质量的图像描述，满足多样性和生动性要求。

首先，本发明提供一种基于无监督独特性优化的图像描述生成方法，解决上述技术问题采用的技术方案如下：

一种基于无监督独特性优化的图像描述生成方法，该方法的实现过程包括：

S1、获取成对的图像和人类生成的真实句子描述，并存储在训练集中；

S2、使用训练集包含的成对数据训练SentEval工具中的图像描述检索模型；

S3、构建图像描述生成模型；

S4、获取训练集的图像并输入图像描述生成模型，图像描述生成模型生成与图像相对应的句子描述，将图像和生成的句子描述作为成对数据存储在比较集中；

S5、利用训练得到的图像描述检索模型，估计比较集中成对数据的相似性，获得图像描述生成模型的损失和梯度两类参数；

S6、判断估计结果是否在设定范围内，若不在则利用步骤S5的损失和梯度调整图像描述生成模型，返回执行步骤S4，若在则输出最终图像描述生成模型。

可选的，所涉及图像描述生成模型采用编码器-解码器框架；

编码器使用在ImageNet上预训练好的ResNet-101；

解码器使用带有注意力机制的两层LTSM，第一层LSTM关注于视觉上的信息，第二层LSTM则关注于语言上的信息。

执行步骤S4的具体步骤包括：

S4.1、获取训练集的图像并分成多个batch，依次且循环将多个batch所包含的图像输入图像描述生成模型；

S4.2、每个batch所包含的图像输入图像描述生成模型后，图像描述生成模型生成与图像相对应的句子描述，将图像和生成的句子描述作为成对数据存储在比较集中，且在多个batch所包含的图像开始循环输入图像描述生成模型时，比较集原来存储的成对数据被清空。

进一步的，执行步骤S5的具体步骤包括：

S5.1、将batch所包含的成对数据映射到同一个空间中；

S5.2、通过点积相似度、余弦相似度、对比点积相似度、对比点余弦相似度的均值来估计图像和生成句子描述两者的相似性，得到调整图像描述生成模型的损失和梯度两类参数。

更进一步的，执行步骤S6的具体步骤包括：

S6.1、手动设定阈值范围，并判断损失和梯度是否在阈值范围内，

a)、若在阈值范围内，则输出最终图像描述生成模型；

b)、若不在阈值范围内，则继续执行S6.2；

S6.2、根据步骤S5.2得到的损失和梯度参数调整图像描述生成模型；

S6.3、获取下一个batch所包含的图像并输入步骤S6.2调整得到的图像描述生成模型，返回执行S4.2。

优选的，得到最终图像描述生成模型后，还可以再次执行步骤S6.1-步骤S6.3，检验得到的损失和梯度两类参数是否仍在设定范围内，

a)如果检验结果仍在设定范围内，则表明最终图像描述生成模型通过检验；

b)如果检验结果不在设定范围内，则表明最终图像描述生成模型未通过检验。

其次，本发明还提供一种基于无监督独特性优化的图像描述生成系统，解决上述技术问题采用的技术方案如下：

一种基于无监督独特性优化的图像描述生成系统，其包括：

获取存储模块，用于获取成对的图像和人类生成的真实句子描述，并存储在训练集中；

训练模块，用于使用训练集包含的成对数据训练SentEval工具的图像描述检索模型；

构建模块，用于构建图像描述生成模型；

拆分处理模块，用于获取训练集的图像并分成多个batch，还用于将多个batch所包含的图像依次且循环输入图像描述生成模型；

图像描述生成模型，用于获取batch所包含的图像并生成与图像相对应的句子描述，还用于将图像和生成的句子描述作为成对数据存储在比较集中；在多个batch所包含的图像开始循环输入图像描述生成模型时，比较集原来存储的成对数据被清空；

图像描述检索模型，用于估计比较集中成对数据的相似性，获得图像描述生成模型的损失和梯度两类参数；

阈值判断模块，用于设定损失和梯度两类参数的范围，并判断图像描述检索模型输出的损失和梯度两类参数是否在设定范围内；

调整模块，用于使用不在设定范围内的损失和梯度两类参数调整图像描述生成模型，至图像描述检索模型输出的损失和梯度在设定范围时，输出最终图像描述生成模型。

可选的，所涉及构建模块采用编码器-解码器框架构建图像描述生成模型；

编码器使用在ImageNet上预训练好的ResNet-101；

可选的，所涉及图像描述检索模型获得损失和梯度两类参数的具体过程包括：

将batch所包含的成对数据映射到同一个空间中；

通过点积相似度、余弦相似度、对比点积相似度、对比点余弦相似度的均值来估计图像和生成句子描述两者的相似性，得到调整图像描述生成模型的损失和梯度两类参数。

一种基于无监督独特性优化的图像描述生成系统，还包括：

监视检验模块，用于将batch所包含的图像输入最终图像描述生成模型获取成对数据，还用于监视阈值判断模块的输出结果，并根据输出结果检验最终图像描述生成模型是否合格。

本发明的一种基于无监督独特性优化的图像描述生成方法及系统，与现有技术相比具有的有益效果是：

1)本发明的图像描述生成方法及系统可以划分成训练部分和使用部分，在训练部分需要获取训练集、构建图像描述生成模型、估计比较集中成对数据的相似性，进而调整图像描述生成模型得到最终图像描述生成模型，在使用部分，只需要将待描述图像输入最终图像描述生成模型，即可得到该待描述图像的满足多样性和生动性要求的句子描述，整个训练部分和使用部分无需监督，既提高了最终图像描述生成模型的独特性，又提高了图像的描述质量；

2)本发明的训练部分，使用训练集包含的成对数据训练图像描述检索模型，图像描述检索模型并不直接干涉图像描述生成模型的调整过程，避免了对抗生成网络中常见的训练不稳定和损失监控困难的情况；

3)本发明的最终图像描述生成模型生成的图像描述相比传统方法在新颖性、多样性和词汇量上都达到了更好的效果，易扩展到任何多模态的自然语言生成任务中。

附图说明

附图1是本发明实施例一的方法流程示意图；

附图2是本发明实施例二的框架结构连接图。

附图中各标号信息表示：

1、获取存储模块，2、训练模块，3、构建模块，4、图像描述生成模型，

5、拆分处理模块，6、阈值判断模块，7、调整模块，

8、最终图像描述生成模型4，9、监视检验模块，10、图像描述检索模型。

具体实施方式

为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白，以下结合具体实施例，对本发明的技术方案进行清楚、完整的描述。

实施例一：

结合附图1，本实施例提出一种基于无监督独特性优化的图像描述生成方法，该方法的实现过程包括：

S2、使用训练集包含的成对数据训练SentEval工具中的图像描述检索模型10。

S3、采用编码器-解码器框架构建图像描述生成模型4。

在本实施例中，编码器使用在ImageNet上预训练好的ResNet-101；

S4、获取训练集的图像并输入图像描述生成模型4，图像描述生成模型4生成与图像相对应的句子描述，将图像和生成的句子描述作为成对数据存储在比较集中。这一过程的具体操作包括：

S5、利用训练得到的图像描述检索模型，估计比较集中成对数据的相似性，获得图像描述生成模型的损失和梯度两类参数。这一过程的具体操作包括：

S5.1、将batch所包含的成对数据映射到同一个空间中；

S6、判断估计结果是否在设定范围内，若不在则利用步骤S5的损失和梯度调整图像描述生成模型4，返回执行步骤S4，若在则输出最终图像描述生成模型8。这一过程的具体操作包括：

a)、若在阈值范围内，则输出最终图像描述生成模型8；

b)、若不在阈值范围内，则继续执行S6.2；

S6.2、根据步骤S5.2得到的损失和梯度参数调整图像描述生成模型4；

S6.3、获取下一个batch所包含的图像并输入步骤S6.2调整得到的图像描述生成模型4，返回执行S4.2。

在本实施例中，为了进一步检验最终图像描述生成模型8，还可以再次执行步骤S6.1-步骤S6.3，检验得到的损失和梯度两类参数是否仍在设定范围内，

a)如果检验结果仍在设定范围内，则表明最终图像描述生成模型8通过检验；

b)如果检验结果不在设定范围内，则表明最终图像描述生成模型8未通过检验，需要重新执行步骤S1-步骤S6，以期获得符合检验结果的最终图像描述生成模型8。

使用时，直接将图像输入符合检验结果的最终图像描述生成模型8，即可得到满足多样性和生动性要求的句子描述。如果使用过程中，最终图像描述生成模型8的输出结果不符合需求，则可以重新执行S1-步骤S6，以期获得符合检验结果的最终图像描述生成模型8。

实施例二：

结合附图2，本实施例提出一种基于无监督独特性优化的图像描述生成系统，其包括：

获取存储模块1，用于获取成对的图像和人类生成的真实句子描述，并存储在训练集中；

训练模块2，用于使用训练集包含的成对数据训练SentEval工具的图像描述检索模型10；

构建模块3，用于构建图像描述生成模型4；

拆分处理模块5，用于获取训练集的图像并分成多个batch，还用于将多个batch所包含的图像依次且循环输入图像描述生成模型4；

图像描述生成模型4，用于获取训练集的图像并生成与图像相对应的句子描述，还用于将图像和生成的句子描述作为成对数据存储在比较集中；

图像描述检索模型10，用于估计比较集中成对数据的相似性，获得图像描述生成模型4的损失和梯度两类参数；

阈值判断模块6，用于设定损失和梯度两类参数的范围，并判断图像描述检索模型10输出的损失和梯度两类参数是否在设定范围内；

调整模块7，用于使用不在设定范围内的损失和梯度两类参数调整图像描述生成模型4，至图像描述检索模型10输出的损失和梯度两类参数在设定范围时，输出最终图像描述生成模型8。

还包括：

监视检验模块9，用于将batch所包含的图像输入最终图像描述生成模型8获取成对数据，还用于监视阈值判断模块6的输出结果，并根据输出结果检验最终图像描述生成模型8是否合格。

本实施例中，所涉及构建模块3采用编码器-解码器框架构建图像描述生成模型4；

编码器使用在ImageNet上预训练好的ResNet-101；

本实施例中，所涉及图像描述检索模型10获得损失和梯度两类参数的具体过程包括：

将batch所包含的成对数据映射到同一个空间中；

通过点积相似度、余弦相似度、对比点积相似度、对比点余弦相似度的均值来估计图像和生成句子描述两者的相似性，得到调整图像描述生成模型4的损失和梯度两类参数。

通过获取存储模块1、训练模块2、构建模块3、拆分处理模块5、图像描述生成模型4、图像描述检索模型10、阈值判断模块6、调整模块7可以得到符合要求的最终图像描述生成模型8，通过监视检验模块9可以检验最终图像描述生成模型8是否合格，通过最终图像描述生成模型8可以针对图像输出满足多样性和生动性要求的句子描述。

综上可知，采用本发明的一种基于无监督独特性优化的图像描述生成方法及系统，无需监督就可以得到符合要求的最终图像描述生成模型8，无需监督皆可以使最终图像描述生成模型8输出满足多样性和生动性要求的句子描述，既提高了最终图像描述生成模型8的独特性，又提高了图像的描述质量。另外，本发明的最终图像描述生成模型8生成的图像描述相比传统方法在新颖性、多样性和词汇量上都达到了更好的效果，易扩展到任何多模态的自然语言生成任务中。

以上应用具体个例对本发明的原理及实施方式进行了详细阐述，这些实施例只是用于帮助理解本发明的核心技术内容。基于本发明的上述具体实施例，本技术领域的技术人员在不脱离本发明原理的前提下，对本发明所作出的任何改进和修饰，皆应落入本发明的专利保护范围。

Claims

1.一种基于无监督独特性优化的图像描述生成方法，其特征在于,该方法的实现过程包括：

S3、构建图像描述生成模型；

2.根据权利要求1所述的一种基于无监督独特性优化的图像描述生成方法，其特征在于，所述图像描述生成模型采用编码器-解码器框架；

所述编码器使用在ImageNet上预训练好的ResNet-101；

所述解码器使用带有注意力机制的两层LTSM，第一层LSTM关注于视觉上的信息，第二层LSTM则关注于语言上的信息。

3.根据权利要求1所述的一种基于无监督独特性优化的图像描述生成方法，其特征在于，执行步骤S4的具体步骤包括：

4.根据权利要求3所述的一种基于无监督独特性优化的图像描述生成方法，其特征在于，执行步骤S5的具体步骤包括：

S5.1、将batch所包含的成对数据映射到同一个空间中；

5.根据权利要求4所述的一种基于无监督独特性优化的图像描述生成方法，其特征在于，执行步骤S6的具体步骤包括：

a)、若在阈值范围内，则输出最终图像描述生成模型；

b)、若不在阈值范围内，则继续执行S6.2；

6.根据权利要求5所述的一种基于无监督独特性优化的图像描述生成方法，其特征在于，得到最终图像描述生成模型后，还可以再次执行步骤S6.1-步骤S6.3，检验得到的损失和梯度两类参数是否仍在设定范围内，

7.一种基于无监督独特性优化的图像描述生成系统，其特征在于，其包括：

构建模块，用于构建图像描述生成模型；

调整模块，用于使用不在设定范围内的损失和梯度两类参数调整图像描述生成模型，至图像描述检索模型输出的损失和梯度两类参数在设定范围时，输出最终图像描述生成模型。

8.根据权利要求7所述的一种基于无监督独特性优化的图像描述生成系统，其特征在于，所述构建模块采用编码器-解码器框架构建图像描述生成模型；

所述编码器使用在ImageNet上预训练好的ResNet-101；

9.根据权利要求7所述的一种基于无监督独特性优化的图像描述生成系统，其特征在于，所述图像描述检索模型获得损失和梯度两类参数的具体过程包括：

将batch所包含的成对数据映射到同一个空间中；

10.根据权利要求7所述的一种基于无监督独特性优化的图像描述生成系统，其特征在于，还包括：