CN111291558B

CN111291558B - 一种基于非成对学习的图像描述自动评价方法

Info

Publication number: CN111291558B
Application number: CN202010054911.8A
Authority: CN
Inventors: 赵仲秋; 孙月林
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2023-05-02
Anticipated expiration: 2040-01-17
Also published as: CN111291558A

Abstract

本发明公开了一种基于非成对学习的图像描述自动评价方法，其步骤包括：1、提取被描述图像的视觉特征；2、描述语句的预处理和文本特征提取；3、基于图像特征和文本特征进行语义一致性评价；4、构建额外人工语句语料库；5、利用额外人工语句语料库对待评价描述文本进行语法正确性评价；6、对语义一致性得分和语法正确性得分进行融合，得到综合得分；7、对图像描述生成模型的评价。本发明能脱离参考描述语句，通过直接与图像特征的直接匹配和根据从额外语料库中习得的人类描述习惯，从语义一致性和语法正确性两方面对图像描述语句质量进行评价，从而能更灵活可靠地对风格化的图像描述语句质量进行评价。

Description

一种基于非成对学习的图像描述自动评价方法

技术领域

本发明涉及图像描述评价领域，具体的说是一种基于非成对学习的图像描述自动评价方法。

背景技术

随着科研领域对计算机视觉与自然语言处理相结合领域的兴趣逐渐升温，图像描述任务获得了一定的关注。图像描述任务即根据图像的内容，为图像生成相应的自然语言描述，实现从图像到语言的映射。然而，人工描述具有工作量大、成本高、主观性强等缺点，因而，需要利用计算机及相关算法和技术，在对图像内容准确分析的基础上，实现自动图像描述。随着神经网络的高速发展和注意力机制的引入，自动图像描述模型已经在BLEU、ROUGE、METEOR、CIDEr等传统指标上取得了很高的分数。近几年，关于图像描述的一部分研究焦点从进一步提升描述准确性转向了生成风格化的图像描述，例如可以进行幽默风格和浪漫风格图像描述的SemNet、SemStyle模型；可以进行看图写诗的微软小冰等。

传统的图像描述自动评价方法大多是基于对待评价的候选句和数据集给出的参考句之间的N元组共现的统计进行的。BLEU和METEOR指标引入自机器翻译任务，BLEU是对候选句和参考句中共同出现的N元子句出现次数的加权平均精度统计，而METEOR在此基础上添加了召回率的考量，计算候选句和参考句之间的单精度和单字召回率的加权调和平均数，此外，METEOR还通过最小化对应语句中连续有序块来进行了同义词匹配校准；ROUGE指标是引入自文本摘要任务的基于候选句和参考句间最大长度公共子序列召回率的相似性度量方法；CIDEr将TF-IDF权重应用到候选句与参考句的N元重叠上，并计算它们的N元余弦距离和。SPICE提出了一种新的评估图像描述的计算方法，即将候选句和参考句转换到同一个场景图中，并在过程中对图像字幕的主要特征进行编码，以及提取自然语言的大部分词汇和句法特征。为更加贴合人类评价和规避这些基于规则的方法的盲点，Yin等人提出了一种基于学习的图像描述自动评价方法，更贴合人类评价的同时，它适用于定义过的一些病句情形。

在实际应用中，虽然现有评价指标能一定程度上衡量候选句质量，但现有的图像描述评价指标仍存在以下问题：

(1)基于N元组共现的评价方法主要考察候选句的充分性和忠实性，无法对流畅性进行考量，且无法从语法语义上对病句进行判别,并不符合人类在判别两个语句语义是否一致时的习惯。

(2)N元重叠的方式很难对语句的语义进行捕捉，SPICE虽然对语义敏感，却依然存在忽略语法正确性的倾向，且SPICE还存在倾向对包含重复子句的长句打出高分的问题。

(3)Yin等人虽然提出了基于学习的评价方式，但与原有的基于规则的方法们一样，存在依赖于与有限的数据集给定参考句进行对比的问题。这些参考句风格固定甚至单调，无法覆盖到图像中所有可能被感兴趣的信息。因此，基于与此种参考句对比的现有评价指标并不能很好地对风格化的图像描述进行灵活的评价。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于非成对学习的图像描述自动评价方法，以期能脱离数据集中刻板的参考描述语句，直接将待评价描述语句和图像特征进行匹配，得到描述语句与对应图像的语义一致性评价，并通过从额外的风格化语料库学习人工描述语言习惯，得到描述语句相对于人工描述的语法正确性评价，从而能更贴近人工评价习惯地对图像描述语句质量进行评价，并能更灵活且可靠地对风格化的图像描述语句质量进行评价。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于非成对学习的图像描述自动评价方法的特点包括以下步骤：

步骤1、提取被描述图像的视觉特征；

步骤1.1、获取图像描述数据集，并从所述图像描述数据集中获取任意一幅图像I；

步骤1.2、使用卷积神经网络提取所述图像I的视觉特征x，再将所述视觉特征x嵌入到d维向量中，得到图像特征向量f(x)∈R^d；

步骤2、描述语句的预处理和文本特征提取；

步骤2.1、在所述图像描述数据集上利用图像描述生成模型生成描述语句集，并对所述描述语句集中所有的语句进行分词处理，得到分割后的单词并进行词嵌入处理，从而得到词向量表，利用所述词向量表中相应的词向量表示所述描述语句集中的语句；

步骤2.2、从所述描述语句集中获取所述图像I对应的描述语句，记为S＝[s₁,...,s_t,...,s_n]，其中，s_t表示t时刻描述语句S的子句；

步骤2.3、使用长短记忆网络LSTM提取所述描述语句S的文本特征s，再将所述文本特征s嵌入到d维向量中，得到文本特征向量f(s)∈R^d；

步骤3、基于图像特征和文本特征进行语义一致性评价；

步骤3.1、对图像特征向量f(x)和文本特征向量f(s)分别通过乘以d×n维的张量进行扩维，从而得到图像空间距离核K_x和文本空间距离核K_s；

步骤3.2、利用式(1)所定义的核函数得到文本特征s和视觉特征x的距离向量dist_x(s,x)：

式(1)中，||.||表示L1范式；

步骤3.3、将所述距离向量dist_x(s,x)与一个随机初始化的参数矩阵相乘后再进行逻辑回归操作，得到输出概率D(s,x)，用于表示所述描述语句S的语义一致性评分；

步骤3.4、以所述输出概率D(s,x)的负对数作为损失函数，对基于核函数的分类网络进行训练，并在训练中对所述参数矩阵进行更新，当损失函数收敛到阈值时停止训练，从而得到训练好的语义一致性判别器；

步骤4、构建额外人工语句语料库；

步骤4.1、采集风格化语料库并进行分词和词频统计，选取其中词频较高的单词建立单词表；

步骤4.2、根据统计结果，对所述风格化语料库中的语料进行初步筛选，得到筛选后的风格化语料库；

步骤4.3、将筛选后的风格化语料库中的语料作为正样本，并在所述正样本的基础上生成相应数量的病句作为负样本；由所述正样本和负样本构成额外人工语句语料库；

步骤5、利用额外人工语句语料库对待评价描述文本进行语法正确性评价；

步骤5.1、基于额外人工语句语料库，训练一个长短记忆网络LSTM，该过程可表示为：

式(2)中，q_t表示所述t时刻描述语句S的子句s_t为人工描述的概率，n为描述语句S的长度，

为长短记忆网络LSTM在t时刻的维度为d的隐状态，x_t为t时刻长短记忆网络LSTM的输入；以所述长短记忆网络LSTM最后一个步长的输出q_n，即描述语句S为人工描述的概率作为语法正确性评分；

步骤5.2、利用式(3)建立长短记忆网络LSTM训练损失函数loss_syn：

步骤5.3、对所述损失函数loss_syn进行优化求解，使损失代价loss_syn达到最小，从而得到最优参数的长短记忆网络LSTM，并作为语法正确性判别器；

步骤6、对语义一致性得分和语法正确性得分进行融合，得到综合得分；

步骤6.1、另外获取包含人工评分的图像数据集，从所述包含人工评分的图像数据集中获取任一图像

所述图像

对应的参考描述语句

以及参考描述语句

的人工评分

按照步骤1.2的方式处理所述图像

得到图像特征向量

按照步骤2.3的方式处理参考描述语句

得到文本特征向量

从而将

和

输入所述语义一致性判别器，得到语义一致性评分

将

输入所述语法正确性判别器，得到语法正确性评分

步骤6.2、将语义一致性评分

和语法正确性评分

作为输入，以所述人工评分

作为输出，以交叉熵作为损失函数，训练含有单个隐藏层的卷积神经网络；

步骤6.3、将步骤3中的输出概率D(s,x)和步骤5中的语法正确性评分q_n作为输入，利用所述卷积神经网络，预测二者融合后的综合得分y；

步骤7、对图像描述生成模型的评价；

按照步骤1.2的方式对所有被描述图像进行处理，得到图像特征向量集合；按照步骤2.3的方式对所有描述语句进行处理，得到文本特征向量集合；将图像特征向量集合输入所述语义一致性判别器中得到语义一致性评分集合；将文本特征向量集合输入所述语法正确性判别器中得到语法正确性评分集合；将语义一致性评分集合和语法正确性评分集合输入所述卷积神经网络中得到总的综合得分后再取均值，从而得到所述图像描述生成模型的最终得分。

与已有技术相比，本发明的有益效果体现在：

1、和以往研究的图像描述自动评价方法相比，本发明脱离了对数据集中给定参考描述语句的依赖，提出了一种基于非成对学习的图像描述自动评价方法，该方法创造性提出从语义匹配性和语法正确性两方面对图像描述语句质量进行评价，相比现有评价方法更加贴合人类评价习惯。

2、本发明将图像特征引入评价过程，通过训练一个用于提取图像特征的卷积神经网络和一个用于提取候选句特征的长短记忆网络，通过将提取到的图像特征和描述语句特征映射到同一空间并进行距离计算，实现了图像与描述语句的直接匹配，充分考虑了参考语句可能存在语义不完整甚至语义偏差的风险，使得在对描述语句与图像的语义匹配程度上的评价更加直接可靠。

3、本发明通过构建一个基于长短记忆网络的语法正确性判别器，并允许其在用户额外构建的风格化语料库上进行学习，使判别器获得评价风格化的描述语句是否符合语法习惯的能力，提高了图像描述自动评价方法在风格化描述语句评价上的灵活性，对风格化的图像描述评价具有重要的意义。

附图说明

图1为本发明基于非成对学习的图像描述自动评价方法流程图。

具体实施方式

在本实施例中，如图1所示，一种基于非成对学习的图像描述自动评价方法是按如下步骤进行：

步骤1、提取被描述图像的视觉特征；

步骤1.1、从网上获取图像描述数据集，目前公开的数据集主要有MSCOCO，该数据及由微软的相关研究员收集而成，图像描述数据集包含描述语句和图像；从图像描述数据集中获取任意一幅图像I；

步骤1.2、使用卷积神经网络提取图像I的视觉特征x，再将视觉特征x嵌入到d维向量中，得到图像特征向量f(x)∈R^d；本实施例中，可以采用在COCO 2014数据集上预训练过的152层残差网络作为视觉特征提取器，残差网络是一种卷积神经网络，被证明具有很强的视觉信息表达能力，且有助于解决梯度消失和梯度爆炸问题，在较深的网络上能够保持良好的性能；

步骤2、描述语句的预处理和文本特征提取；

步骤2.1、在图像描述数据集上利用图像描述生成模型生成描述语句集，并对描述语句集中所有的语句进行分词处理，得到分割后的单词并进行词嵌入处理，从而得到词向量表，利用词向量表中相应的词向量表示描述语句集中的语句；本实施例中采用GloVe进行初始化，GloVe是斯坦福大学自然语言处理研究组提出的词向量生成方法，该方法除了用到单词局部窗口信息外，还用到全局词共现矩阵中的非0数据进行训练，提高了自然语言处理基础任务的准确率；

步骤2.2、从描述语句集中获取图像I对应的描述语句，记为S＝[s₁,...,s_t,...,s_n]，其中，s_t表示t时刻描述语句S的子句；

步骤2.3、使用长短记忆网络LSTM提取描述语句S的文本特征s，再将文本特征s嵌入到d维向量中，得到文本特征向量f(s)∈R^d；

步骤3、基于图像特征和文本特征进行语义一致性评价；

式(1)中，||.||表示L1范式；

步骤3.4、以所述输出概率D(s,x)的负对数作为损失函数，对基于核函数的分类网络进行训练，并在训练中对参数矩阵进行更新，当损失函数收敛到阈值时停止训练，从而得到训练好的语义一致性判别器；

步骤4、构建额外人工语句语料库；

步骤4.1、采集风格化语料库；本实施例中以MSCOCO数据集中针对目标检测任务的80个目标类别为关键词，从Shutterstock上采集了大量常规风格的图像描述，Shutterstock是一个提供免税图片的在线网站，使用者可以上传带有描述的图片；本实施例中还从SmashWords上采集了大量浪漫小说用于训练能够评价浪漫风格图像描述语句的判别器，SmashWords是一个在线小说网站，提供还未发表的免费小说；

步骤4.2、对采集到的风格化语料进行分词和词频统计，选取其中词频较高的单词建立单词表，并根据统计结果对风格化语料库中的语料进行初步筛选，得到筛选后的风格化语料库；本实施例中筛选掉了对话、长度超过阈值或少于阈值的语句，以及包含超过阈值数量低频词的语句，长度阈值设置为[4,20]，包含低频词的阈值设置为语句长度的30％；

步骤4.3、将筛选后的风格化语料库中的语料作为正样本，并在正样本的基础上生成相应数量的病句作为负样本；由正样本和负样本构成额外人工语句语料库；本实施例中采用了三种病句生成方式：单词交换方法、单词随机方法和蒙特卡洛方法。单词交换即随机选择句子中一定比例的单词，将它们进行位置互换；单词随机即随机选择句子中一定比例的单词用单词表中的随机单词进行替换；由于机器生成的句子用到的单词受单词表所限，而人工编写的句子更可能用到生僻词，因此判别器会倾向于将用到不常见单词的语句判别为人工编写，为缓解这一问题，除了增大的单词表外，本实施例中还采用蒙特卡洛算法生成了一部分负样本；并举生成方式的选择上，本实施例设置了一个随机参数，对每一个正样本随机选择三种方法中的一种生成负样本，以保证正负样本的平衡；

式(2)中，q_t表示t时刻描述语句S的子句s_t为人工描述的概率，n为描述语句S的长度，

为长短记忆网络LSTM在t时刻的维度为d的隐状态，x_t为t时刻长短记忆网络LSTM的输入；以长短记忆网络LSTM最后一个步长的输出q_n，即描述语句S为人工描述的概率作为语法正确性评分；

步骤5.3、对损失函数loss_syn进行优化求解，使损失代价loss_syn达到最小，从而得到最优参数的长短记忆网络LSTM，并作为语法正确性判别器；

步骤6.1、另外获取包含人工评分的图像数据集，从包含人工评分的图像数据集中获取任一图像

图像

对应的参考描述语句

以及参考描述语句

的人工评分

本实施例中采用Flickr8k数据集，该数据集由雅虎的相关研究人员收集而成，包含图像及相应图像描述语句，部分描述包含语句对应的人工评分；

按照步骤1.2的方式处理图像