CN111414505B

CN111414505B - 一种基于序列生成模型的快速图像摘要生成方法

Info

Publication number: CN111414505B
Application number: CN202010166018.4A
Authority: CN
Inventors: 马祥祥
Original assignee: Shanghai Eisoo Information Technology Co Ltd
Current assignee: Shanghai Eisoo Information Technology Co Ltd
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2023-10-20
Anticipated expiration: 2040-03-11
Also published as: CN111414505A

Abstract

本发明涉及一种基于序列生成模型的快速图像摘要生成方法，包括以下步骤：S1：构造包括排序矩阵R与分类器C的循环神经网络；S2：将图片输入循环神经网络，解码得到第一个词；S3：循环神经网络对上文进行编码得到上文环境编码h；S4：排序矩阵R与分类器C利用上文环境编码h，对词典按类别进行筛选，得到最佳候选类别；S5：序列生成模型通过计算，从属于最佳候选类别的词中选取下一个词并输出；S6：重复执行步骤S3‑步骤S5，直至完成所有词的输出，生成与图片对应的完整的图像摘要，与现有技术相比，本发明具有加速解码过程且保证文本准确性等优点。

Description

一种基于序列生成模型的快速图像摘要生成方法

技术领域

本发明涉及图像摘要生成领域，尤其是涉及一种基于序列生成模型的快速图像摘要生成方法。

背景技术

随着数码相机、手机摄像头、谷歌眼镜等智能设备的不断发展，图像数据开始呈现指数式爆炸增长。用户通常需要输入图片来查找与之相关的信息。然而，由于图片数据量大、内容复杂，因此使用图片查找对应信息时需要对大量的数据进行检索，面临着数据量大以及存储计算复杂度高的技术难题。通过文字摘要信息来表达图片信息可以提升检索速度，但是由于视觉信息和文字信息是人类对自然界的两种截然不同的认知，因此通过文字准确、快速并清晰的描述相关图片并不容易，现有技术通常利用序列生成模型解码，从而将视觉信息转化为相关的文字信息。

现在主流的序列生成模型大都是基于循环神经网络实现的，例如Image Caption模型中的解码器就是一个序列生成模型，如图1所示，是一种简单的Image Caption模型。

其主流解码步骤如下：

1、将长短期记忆网络lstm输出的上文环境编码h经过线性变换，转换成为N维向量，得到隐藏层输出logits，其变换的公式为：

logits＝W*h+B

其中，W是形状为[D,N]的矩阵，D为上文环境编码h的维度大小，N为词典的大小，B为N维向量。

2、将隐藏层输出logits转换成为N维的概率分布，其转换公式为：

prob＝softmax(logits)

其中，prob表示词典中的每一个词被取为下一个词的概率大小，softmax()为归一化指数函数。

3、根据概率分布按照设定的策略选取下一个单词，例如采用贪心策略选取概率prob最大的单词，该策略的表达式为：

wid＝argmax(p)

其中，wid表示选取的下个词。

但是该方法有一个很大的缺陷，其第一步的时间复杂度Ω为：Ω＝D*N。

根据经验，要想让序列生成模型的效果更好需要让词典尽可能大，而且要让长短期记忆网络lstm的输出，即上文环境编码h的维度尽可能多。如果上文环境编码h的维度D＝1000，词典大小N＝100万。那么做一次解码操作就需要做10亿次乘法，采用最简单的贪心策略要解码出有L＝10个单词长度的文本序列，就需要做100亿次乘法操作。当换成当前主流的集束算法，取集束宽度beam_width＝10时，根据计算式：D*N*L*beam_width^2＝1万亿，计算机需要做1万亿次乘法操作，如此大的计算量使得普通的CPU与GPU均无法在有限的时间内完成。当面对100万词的大词典时，传统的解码算法已经失效，但现实世界的词汇量远不止100万。因此需要一种能够加速解码过程的图像摘要生成方法。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种加速解码过程且保证文本准确性的基于序列生成模型的快速图像摘要生成方法。

本发明的目的可以通过以下技术方案来实现：

一种基于序列生成模型的快速图像摘要生成方法，包括以下步骤：

S1：构造包括排序矩阵R与分类器C的循环神经网络；

S2：将图片输入循环神经网络，解码得到第一个词；

S3：循环神经网络对上文进行编码得到上文环境编码h；

S4：排序矩阵R与分类器C利用上文环境编码h，对词典按类别进行筛选，得到最佳候选类别；

S5：序列生成模型通过计算，从属于最佳候选类别的词中选取下一个词并输出；

S6：重复执行步骤S3-步骤S5，完成所有词的输出，生成与图片对应的完整的图像摘要。

所述的步骤S1具体包括：

S11：构造基于循环神经网络的序列生成模型；

S12：构造M*N大小的分数矩阵S，其中，M为分类类别数，N为词典大小，所述的分数矩阵S中的元素S[m,n]为第n个单词属于第m个类别的分类得分；

S13：利用神经网络模型构造包括M个类别的分类器C；

S14：固定循环神经网络的参数，训练分类器C与分数矩阵S；

S15：利用训练完成的分数矩阵S，得到M*K大小的排序矩阵R，其中，K为预设的每个类别中包含词语的个数，所述的排序矩阵R中的元素R[m,k]为属于第m个类别且根据分类得分排第k位的词语。

所述的步骤S14中，训练分类器C与分数矩阵S的目标函数J的表达式为：

J(θ)＝Σ(score*prob_真)

其中，score为下一个真实词在各个类别上的得分，prob_真为下一个真实词在各个类别上的概率，θ为分类器C与分数矩阵S的参数，J表示下一个真实词的期望分数之和。

所述的步骤S14中，训练分类器C与分数矩阵S的约束条件具体包括：分数矩阵S中每一个类别下的分类分数总和为0；分数矩阵S中所有元素的取值区间为[-1,1]。

所述的上文环境编码h为长短期记忆网络lstm的输出，所述的上文环境编码h经过线性变换，得到隐藏层输出logits。

所述的分类器C为基于概率模型的分类器，用于利用上文环境编码h，计算得到下一个词属于各类别的概率。

所述的步骤S4具体包括：

S41：分类器C根据上文环境编码h计算下一个词属于各类别的类别概率P_c；

S42：选取类别概率P_c最大的类别，作为最佳候选类别；

S43：在排序矩阵R中查询，获取最佳候选类别中包含的所有词语。

所述的步骤S5具体包括：

S51：计算最佳候选类别中所有词语的隐藏层输出logits，得到每个词的条件概率分布P_w；

S52：根据条件概率分布计算全局概率P，并选择使用贪心策略或者集束策略解码得到下一个单词，并输出该单词；

所述的全局概率P的计算公式为：

P＝P_c*P_w。

所述的分数矩阵S中，每个类别下的分类分数总和为0，每个词在一个类别上的分数取值范围为[-1,1]。

与现有技术相比，本发明具有以下优点：

1)加速解码过程：利用排序矩阵S(ClusterRank)与分类器C(ClusterClassify)，先确定下一个词最有可能属于的类别，缩小范围后再进行解码，极大加速了序列生成模型的解码，解码的时间复杂度与词典大小无关，与排序矩阵R(ClusterRank)中每个类别中词语个数K的取值正相关，可适应各种大小的词典；

2)保证图像摘要准确性：本发明根据上文环境编码h对词典中的词语进行分类，并且同时对分数矩阵S和分类器C进行训练，使得最终得到的排序矩阵中，具有相同上文环境的词基本上被聚为了一个类别，且大部分类别具有实际的意义，保证图像摘要生成的准确性；

3)便于调节控制：可通过排序矩阵R中每个类别中词语个数K，来控制解码算法在解码速度与效果上的达到平衡；

4)实现简单：无需改变原有模型的结构，只需要在原有序列生成模型上添加一个分类器与一个参数矩阵就可实现。

附图说明

图1为Image Caption模型解码过程的示意图；

图2为本发明方法的流程示意图；

图3为实施例中构造的序列生成模型解码过程的示意图；

图4为分类器C分类过程示意图；

图5实施例中生成的排序矩阵R，其中，图(5a)为排序矩阵R中0～54类，图(5b)为排序矩阵R中55～99类。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例

如图2所示，本发明提供一种基于序列生成模型的快速图像摘要生成方法，包括以下步骤：

步骤1：如图3所示，构造基于RNN循环神经网络的序列生成模型，以负采样softmax损失函数(sampled_softmax_loss)为损失函数，训练序列生成模型，得到序列生成模型，即一个普通的解码器。

步骤2：构造M*N大小的分数矩阵S(ClusterScore)，其中M表示词典中所有词语所属类别的数量，N表示词典大小。分数矩阵S中各元素的值表示某个词属于某一类别的分数，该分数越高表示该词属于对应类别的可能性越大，其中每个类别的分数和为0，每个词在一个类别上的分数取值范围为[-1,1]，下表为分数矩阵S包含元素的示例：

类别/词汇	单词0	单词1	单词2	…	单词N
						类别0	0.2	-0.1	-0.2	…	0.1
类别1	0.1	0.3	-0.1	…	-0.3
						类别2	0.3	-0.1	-0.3	…	0.1
…	…	…	…	…	…
						类别M	-0.1	0.2	0.1	…	-0.2

步骤3：如图4所示，利用神经网络模型构造包括M个类别的分类器C(ClusterClassify)，该分类器必须为基于概率模型的分类器，可采用利用softmax函数激活的MLP分类器。该分类器可利用长短期记忆网络lstm输出的上文环境编码h，计算得到下一个词属于各类别的概率。

步骤4：冻结RNN循环神经网络的参数，训练分类器C与分数矩阵S的参数。

本步骤中训练的目标为：使下一个真实词在概率较高的类别上对应的分数尽量高，而在概率较低的类别上对应的分数要尽量低，目标函数J的表达式为：

J(θ)＝Σ(score*prob_真)

其中，score为下一个真实词在各个类别上的分数，prob_真为下一个真实词在各个类别上的概率，θ为分类器C与分数矩阵S的参数。该表达式中，J在实际上表示下一个真实词的期望分数之和。

通过训练θ参数，使目标函数J尽可能大，从而达到训练的目标，训练结束的条件是模型的损失比上一轮训练损失的下降幅度低于千分之一。训练过程的约束包括：

(1)分数矩阵S中每一个类别下的分数总和为0；

(2)分数矩阵S中所有元素的取值区间为(-1,1)内。

这两个约束通过如下方法实现：

训练每完成一步就将分数矩阵S中每个元素的值减去所在类别的均值，并对分数矩阵S中每一类别的元素进行等比例缩放，使每一类别下的平方和等于1。

步骤5：训练完成后对分数矩阵S进行排行，在每个类别下取分数最高的前K个单词，作为本类别词，得到一个M*K的排序矩阵R(ClusterRank)，排序矩阵R中的元素为被分类完成的词，下表为排序矩阵R内包含元素的示例：

rank	1	2	3	…	K
						类别0	一个	一只	一条	…	一艘
类别1	小狗	小猫	绵羊	…	海豚
						类别2	红色	绿色	白色	…	褐色
…	…	…	…	…	…
						类别M	奔跑	跳跃	玩耍	…	俯冲

步骤6：利用排序矩阵R与分类器C进行解码，生成图片对应的文字摘要，实现解码过程的加速，该步骤具体包括：

(1)利用RNN循环神经网络对上文进行编码得到上文环境编码h；

(2)分类器C根据上文环境编码h计算下一个单词属于各类别的分类概率P_c；

(3)选取分类器C计算得到的概率最大的类别，作为最佳候选类别；

(4)选取排序矩阵R中最佳候选类别对应的行，得到优选词向量；

(5)利用序列生成模型进行解码，计算优选词向量中的所有单词的隐藏层输出logits，得到该向量中每个词的条件概率分布P_w；

(6)根据条件概率分布计算全局概率P，全局概率P的计算公式为：P＝P_c*P_w，根据全局概率P选择用贪心策略或者集束策略解码得到下一个单词，重复执行步骤(1)-步骤(6)，完成所有词的输出，生成与图片对应的完整的图像摘要。

本发明的原理为：先将词典中的词利用分数矩阵S和排序矩阵R，根据类别分类进行，然后通过分类器C确定下一个单词所属类别，序列生成模型只对该类别中的词的概率进行计算，缩小搜索范围，从而大大减少计算量。

例如，当已经有“一只小狗在草地上”这一段话后，根据上文环境“一只小狗在草地上”，我们基本上就能把下一个词的搜索范围限制在“动物动作”这一类的词汇上，而不用去考虑“动物名”、“植物名”、“色彩”、“人类动作”等这些类别的词汇上。虽然词典有可能很大，但是“动物动作”这个类别下的词汇的数量却很有限，如此就实现了范围的缩小。

本实施例中，利用tensorflow系统实现了本发明的方法，并于常见方法进行了结果对比，下表列出了几张利用Image Caption模型，通过不同算法解码出的结果：

通过对比我们可以发现，使用加速算法与普通贪心算法解码出的摘要内容大致相同，效果上几乎没有损失。

解码速度对比如下表所示：

根据上述表格我们可以看到实际解码耗时被压缩到优化前的1/3，没有达到期望的1/6，原因在于实现Image Caption模型解码过程还存在rnn操作、attention操作，这两种操作的计算量在K取值较小时与通过线性变换转换成logits的计算量大致相当，不能忽略。但即使这样也足够说明加速算法的有效性。目前词典只有60000个词，如果词典更大则优化的效果会更加明显。例如词典大小为100万时，我们仍取K为10000，此时期望的优化效果是加速50倍。

如图5所示为训练后得到的排序矩阵R中，100个类别下前15个分数最高得单词的示意。通过该图可以明显看到，具有相同上文环境的词基本上被聚为了一个类别，大部分类别也有实际的意义。如第99个类别基本上是动词、第71类别基本上都是量词、第65类别基本上都是名词，这与本发明的期望基本一致。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的工作人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于序列生成模型的快速图像摘要生成方法，其特征在于，包括以下步骤：

S1：构造包括排序矩阵R与分类器C的循环神经网络；

S2：将图片输入循环神经网络，解码得到第一个词；

S3：循环神经网络对上文进行编码得到上文环境编码h；

S6：重复执行步骤S3-步骤S5，直至完成所有词的输出，生成与图片对应的完整的图像摘要；

所述的步骤S1具体包括：

S11：构造基于循环神经网络的序列生成模型；

S13：利用神经网络模型构造包括M个类别的分类器C；

S14：固定循环神经网络的参数，训练分类器C与分数矩阵S；

2.根据权利要求1所述的一种基于序列生成模型的快速图像摘要生成方法，其特征在于，所述的步骤S14中，训练分类器C与分数矩阵S的目标函数J的表达式为：

J(θ)＝Σ(score*prob_真)

3.根据权利要求2所述的一种基于序列生成模型的快速图像摘要生成方法，其特征在于，所述的步骤S14中，训练分类器C与分数矩阵S的约束条件具体包括：分数矩阵S中每一个类别下的分类分数总和为0；分数矩阵S中所有元素的取值区间为[-1,1]。

4.根据权利要求3所述的一种基于序列生成模型的快速图像摘要生成方法，其特征在于，所述的上文环境编码h为长短期记忆网络lstm的输出，所述的上文环境编码h经过线性变换，得到隐藏层输出logits。

5.根据权利要求4所述的一种基于序列生成模型的快速图像摘要生成方法，其特征在于，所述的分类器C为基于概率模型的分类器，用于利用上文环境编码h，计算得到下一个词属于各类别的概率。

6.根据权利要求5所述的一种基于序列生成模型的快速图像摘要生成方法，其特征在于，所述的步骤S4具体包括：

S42：选取类别概率P_c最大的类别，作为最佳候选类别；

7.根据权利要求6所述的一种基于序列生成模型的快速图像摘要生成方法，其特征在于，所述的步骤S5具体包括：

所述的全局概率P的计算公式为：

P＝P_c*P_w。

8.根据权利要求1所述的一种基于序列生成模型的快速图像摘要生成方法，其特征在于，所述的分数矩阵S中，每个类别下的分类分数总和为0，每个词在一个类别上的分数取值范围为[-1,1]。