CN109978139B

CN109978139B - 图片自动生成描述的方法、系统、电子装置及存储介质

Info

Publication number: CN109978139B
Application number: CN201910214694.1A
Authority: CN
Inventors: 王娜; 吕锦涛
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2019-03-20
Filing date: 2019-03-20
Publication date: 2021-06-04
Anticipated expiration: 2039-03-20
Also published as: CN109978139A

Abstract

本发明公开了一种图片自动生成描述的方法、系统、电子装置及存储介质，用于对图片生成文字描述，解决了现有技术中训练的模型与评估标准不统一的问题，包括：使用损失函数、mobilenet卷积神经网络及长短时记忆神经网络构建图片自动生成描述的模型；记录构建所述模型时的网络参数；将图片输入所述模型；所述模型根据所述输入的图片及所述网络参数输出一段可以描述图片的文字；因此本申请提供的图片自动生成描述的方法，通过强化学习设计新的损失函数，使得模型的训练标准与评估标准能够统一。

Description

图片自动生成描述的方法、系统、电子装置及存储介质

技术领域

本发明涉及图片处理技术领域，尤其涉及一种图片自动生成描述的方法、系统、电子装置及存储介质。

背景技术

进入二十一世纪以来，互联网存储水平和计算机运算能力都经历了一个巨大的飞跃，智能手机用户的数量也在很大程度上得到了提升，用户通过手机终端、PC机等智能设备，每天都在互联网上共享大量的图片数据。这些庞大的图片数据资源可以更精准地反映客观世界，它们在视觉上产生的不同变化，蕴含了丰富的语义信息，为感知现实世界提供了充足的信息来源。

随着神经网络和深度学习的发展，图片理解由原始的基于低层视觉特征的图片处理向高层次的基于图片语义信息和语义理解的方向发展。现有的神经网络模型一般是encoder-decoder的模型,即通过CNN(卷积神经网络)提取特征，将提取到的特征作为LSTM(长短时记忆神经网络)的初始状态，由LSTM生成一段可以描述该图片的文字。

然而，现有的模型在训练时，主要使用的是交叉熵损失函数，而在模型训练完成后，需要使用BLUE等评估指标对模型进行评估，但是使用交叉熵损失函数训练的模型，普遍存在训练标准与评估标准不统一的问题。

发明内容

本发明的主要目的在于提供一种图片自动生成描述的方法、系统、电子装置及存储介质，旨在解决现有技术中训练的模型与评估标准不统一的技术问题。

为实现上述目的，本发明第一方面提供一种图片自动生成描述的方法，包括：使用损失函数、mobilenet卷积神经网络及长短时记忆神经网络构建图片自动生成描述的模型；记录构建所述模型时的网络参数；将图片输入所述模型；所述模型根据所述输入的图片及所述网络参数输出一段可以描述图片的文字。

进一步地，所述使用损失函数、mobilenet卷积神经网络及长短时记忆神经网络构建图片自动生成描述的模型包括：采用强化学习的思想设计并构建损失函数；使用预先训练的mobilenet卷积神经网络提取图片特征向量；使用矩阵变换加入注意力机制，以将所述特征向量与从预先训练的长短时记忆神经网络中提取的原状态向量融合，得到新特征向量；将所述新特征向量输入长短时记忆神经网络，所述长短时记忆神经网络根据所述新特征向量生成具有图片信息的文本；对所述损失函数求导，并将所述文本输入至求导后的损失函数中；判断所述损失函数在接收所述文本后是否收敛；若所述损失函数收敛，则保存训练时的网络参数；若所述损失函数不收敛，则继续使用mobilenet卷积神经网络、矩阵变换及长短时记忆神经网络生成具有图片信息的文本，并将文本输入至求导后的损失函数中，直至将所述文本输入所述损失函数中后，所述损失函数收敛。

进一步地，所述使用预先训练的mobilenet卷积神经网络提取图片特征向量包括：在将图片输入到预先训练的mobilenet卷积神经网络中后，保存mobilenet卷积神经网络的平均池化层输出的特征向量。

本发明第二方面提供一种图片自动生成描述的系统，包括：模型训练模块，用于使用损失函数、mobilenet卷积神经网络及长短时记忆神经网络构建图片自动生成描述的模型；网络参数记录模块，用于记录构建所述模型训练模块训练模型时的网络参数；图片接收模块，用于接收输入所述模型训练模块训练的模型的图片；文字生成模块，用于使所述模型根据所述图片接收模块接收的图片及所述网络参数记录模块记录的网络参数输出一段可以描述图片的文字。

进一步地，所述神经网络预训练模块包括：神经网络构建单元，用于构建mobilenet卷积神经网络；神经网络参数更新单元，用于根据现有的图片数据集对所述神经网络构建单元构建的mobilenet卷积神经网络进行预训练，更新mobilenet卷积神经网络的参数。

进一步地，所述模型训练模块包括：损失函数构建单元，用于采用强化学习的思想设计并构建损失函数；特征向量提取单元，用于使用预先训练的mobilenet卷积神经网络提取样本图片的特征向量；注意力机制引入单元，用于使用矩阵变换引入注意力机制，以将所述特征向量与从预先训练的长短时记忆神经网络中提取的原状态向量融合，得到新特征向量；文本生成单元，用于将所述注意力机制引入单元得到的新特征向量输入长短时记忆神经网络，所述长短时记忆神经网络根据所述新特征向量生成具有图片信息的文本；损失函数求导单元，用于对所述损失函数构建单元构建的损失函数求导，并将所述文本输入至求导后的损失函数中；损失函数收敛判断单元，用于判断所述损失函数求导单元求导后的损失函数是否收敛；网络参数保存单元，用于在所述损失函数收敛判断单元判断损失函数收敛后，保存训练时的网络参数；循环单元，用于在所述损失函数收敛判断单元判断损失函数不收敛后，继续使用所述特征向量提取单元、所述注意力机制引入单元及所述文本生成单元生成具有图片信息的文本，并将文本输入至所述损失函数求导单元得到的求导后的损失函数中，直至将所述文本输入所述损失函数中后，所述损失函数收敛。

进一步地，所述特征向量提取单元包括：池化层输出保存子单元，用于在将图片输入到预先训练的mobilenet卷积神经网络中后，保存mobilenet卷积神经网络的平均池化层输出的特征向量。

本发明第三方面提供一种电子装置，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现上述中的任意一项所述方法。

本发明第四方面提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现上述中的任意一项所述方法。

本发明提供一种图片自动生成描述的方法、系统、电子装置及存储介质，有益效果在于：使用mobilenet卷积神经网络能够提取图像特征，并且参数量和计算量都较少，能够有效提高效率，在使用长短时记忆神经网络后，能够生成图像特征的文本信息，并且整体使用损失函数进行反向传播网络参数来更新和完善模型，从而使得训练出的模型在生成图片描述的时候，数据能够更加准确，从而增加了训练的模型与评估标准的统一性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例图片自动生成描述的方法的流程示意框图；

图2为本发明实施例图片自动生成描述的方法中Mobilenet模型的矩阵分解原理图；

图3为本发明实施例图片自动生成描述的系统的结构示意框图；

图4为本发明实施例电子装置的结构示意框图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，为一种图片自动生成描述的方法，包括：S1、使用损失函数、mobilenet卷积神经网络及长短时记忆神经网络构建图片自动生成描述的模型；S2、记录构建模型时的网络参数；S3、将图片输入模型；S4、模型根据输入的图片及网络参数输出一段可以描述图片的文字。

使用损失函数、mobilenet卷积神经网络及长短时记忆神经网络构建图片自动生成描述的模型包括：采用强化学习的思想设计并构建损失函数；使用预先训练的mobilenet卷积神经网络提取图片特征向量；使用矩阵变换加入注意力机制，以将特征向量与从预先训练的长短时记忆神经网络中提取的原状态向量融合，得到新特征向量；将新特征向量输入长短时记忆神经网络，长短时记忆神经网络根据新特征向量生成具有图片信息的文本；对损失函数求导，并将文本输入至求导后的损失函数中；判断损失函数在接收文本后是否收敛；若损失函数收敛，则保存训练时的网络参数；若损失函数不收敛，则继续使用mobilenet卷积神经网络、矩阵变换及长短时记忆神经网络生成具有图片信息的文本，并将文本输入至求导后的损失函数中，直至将文本输入损失函数中后，损失函数收敛。

使用预先训练的mobilenet卷积神经网络提取图片特征向量包括：在将图片输入到预先训练的mobilenet卷积神经网络中后，保存mobilenet卷积神经网络的平均池化层输出的特征向量。

Mobilenet重点在压缩模型，同时保证精度。其思想就是，分解一个标准的卷积为一个深度卷积和一个1x1的普通卷积(也叫pointwise卷积)。简单理解就是矩阵的因式分解，具体步骤如图2所示。假设，输入的图片特征向量大小为DF*DF，维度为M，滤波器的大小为DK*DK，维度为N，并假设步长为1。则原始的卷积操作，需要进行的矩阵运算次数为DK*DK*M*N*DF*DF，卷积核参数为DK*DK*N。Mobilenet中的卷积需要进行的矩阵运算次数为DK*DK*M*DF*DF+M*N*DF*DF，卷积核参数为DK*DK*M+N。由于卷积的过程，主要是一个空间维度减少，通道维度增加的过程，即N>M，所以，DK*DK*N>DK*DK*M+N。因此，深度可分离卷积在模型大小上和模型计算量上都进行了大量的压缩，使得模型速度快，计算开销少，准确性好。

将新状态向量作为长短时记忆神经网络下一时刻状态的输入，并使用强化学习及反向传播的方法重新训练预先训练的长短时记忆神经网络，得到新长短时记忆神经网络包括：使用预先训练的长短时记忆神经网络根据图片生成的句子作为baseline，将随机选择的单词组成的句子作为reward，使用baseline减去reward构建损失函数；使用损失函数及新状态向量，并通过反向传播再次对长短时记忆神经网络进行训练，得到新长短时记忆神经网络，并更新新长短时记忆神经网络的训练参数。

关于强化学习的方法：把序列问题看作是一个强化学习的问题：

Agent:LSTM；

环境状态:单词和图片特征；

行动:预测下一个单词；

状态:LSTM的单元和隐含层的状态；

奖励:CIDEr评分；

训练目标是最小化负的期望L(θ)：

L(θ)＝-Ews～pθ[r(ws)]L(θ)＝-Ews～pθ[r(ws)]＝-∑r(ws)pθ(ws)＝-∑r(ws)pθ(ws)；

ws＝(ws1,…,wsT)ws＝(w1s,…,wTs)是生成的句子。

实际上，ws可以依据pθ的概率来进行随即选择(而不是选择概率最大的那一个)，L(θ)可以近似为：

L(θ)≈-r(ws),ws～pθ；

L关于θ的梯度为：

再引入一个baseline来减少方差：

baseline可以是任意函数，只要它不依赖行动ws，引入它并不会改变梯度的值。

实际上L(θ)可以被近似为：

应用链式法则，梯度可以表示为：

强化学习的思想就是用当前模型在测试阶段生成的词的reward作为baseline，梯度就变成了：

其中r(w^)＝argmax_wtp(wt|ht)，就是在测试阶段使用贪婪解码取概率最大的词来生成句子；而r(ws)是通过根据概率来随机选择的词，如果当前概率最大的词的概率为60％，那就有60％的概率选到它，而不是像贪婪解码一样100％选概率最大的。

公式的意思就是：对于如果当前随机到的词比测试阶段生成的词好，那么在这次词的维度上，整个式子的值就是负的(因为后面那一项一定为负)，这样梯度就会上升，从而提高这个词的分数；而对于其他词，后面那一项为正，梯度就会下降，从而降低其他词的分数。

请参阅图3，为一种图片自动生成描述的系统，包括：模型训练模块1、网络参数记录模块2、图片接收模块3及文字生成模块4；模型训练模块1用于使用损失函数、mobilenet卷积神经网络及长短时记忆神经网络构建图片自动生成描述的模型；网络参数记录模块2用于记录构建模型训练模块1训练模型时的网络参数；图片接收模块3用于接收输入模型训练模块1训练的模型的图片；文字生成模块4用于使模型根据图片接收模块3接收的图片及网络参数记录模块2记录的网络参数输出一段可以描述图片的文字。

模型训练模块1包括：损失函数构建单元、特征向量提取单元、注意力机制引入单元、文本生成单元、损失函数求导单元、损失函数收敛判断单元、网络参数保存单元及循环单元；损失函数构建单元用于采用强化学习的思想设计并构建损失函数；特征向量提取单元用于使用预先训练的mobilenet卷积神经网络提取样本图片的特征向量；注意力机制引入单元用于使用矩阵变换引入注意力机制，以将特征向量与从预先训练的长短时记忆神经网络中提取的原状态向量融合，得到新特征向量；文本生成单元用于将注意力机制引入单元得到的新特征向量输入长短时记忆神经网络，长短时记忆神经网络根据新特征向量生成具有图片信息的文本；损失函数求导单元用于对损失函数构建单元构建的损失函数求导，并将文本输入至求导后的损失函数中；损失函数收敛判断单元用于判断损失函数求导单元求导后的损失函数是否收敛；网络参数保存单元用于在损失函数收敛判断单元判断损失函数收敛后，保存训练时的网络参数；循环单元用于在损失函数收敛判断单元判断损失函数不收敛后，继续使用特征向量提取单元、注意力机制引入单元及文本生成单元生成具有图片信息的文本，并将文本输入至损失函数求导单元得到的求导后的损失函数中，直至将文本输入损失函数中后，损失函数收敛。

特征向量提取单元包括：池化层输出保存子单元，用于在将图片输入到预先训练的mobilenet卷积神经网络中后，保存mobilenet卷积神经网络的平均池化层输出的特征向量。

本申请实施例提供一种电子装置，请参阅4，该电子装置包括：存储器601、处理器602及存储在存储器601上并可在处理器602上运行的计算机程序，处理器602执行该计算机程序时，实现前述中描述的图片自动生成描述的方法。

进一步的，该电子装置还包括：至少一个输入设备603以及至少一个输出设备604。

上述存储器601、处理器602、输入设备603以及输出设备604，通过总线605连接。

其中，输入设备603具体可为摄像头、触控面板、物理按键或者鼠标等等。输出设备604具体可为显示屏。

存储器601可以是高速随机存取记忆体(RAM，Random Access Memory)存储器，也可为非不稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器601用于存储一组可执行程序代码，处理器602与存储器601耦合。

进一步的，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是设置于上述各实施例中的电子装置中，该计算机可读存储介质可以是前述中的存储器601。该计算机可读存储介质上存储有计算机程序，该程序被处理器602执行时实现前述实施例中描述的图片自动生成描述的方法。

进一步的，该计算机可存储介质还可以是U盘、移动硬盘、只读存储器601(ROM，Read-Only Memory)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本发明所提供的一种图片自动生成描述的方法、系统、电子装置及存储介质的描述，对于本领域的技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种图片自动生成描述的方法，其特征在于，包括：

使用损失函数、mobilenet卷积神经网络及长短时记忆神经网络构建图片自动生成描述的模型；

记录构建所述模型时的网络参数；

将图片输入所述模型；

所述模型根据所述输入的图片及所述网络参数输出一段可以描述图片的文字；

所述使用损失函数、mobilenet卷积神经网络及长短时记忆神经网络构建图片自动生成描述的模型包括：

采用强化学习的思想设计并构建损失函数；

使用预先训练的mobilenet卷积神经网络提取图片特征向量；

使用矩阵变换加入注意力机制，以将所述特征向量与从预先训练的长短时记忆神经网络中提取的原状态向量融合，得到新特征向量；

将所述新特征向量输入长短时记忆神经网络，所述长短时记忆神经网络根据所述新特征向量生成具有图片信息的文本数据；

对所述损失函数求导，并将所述文本数据输入至求导后的损失函数中；

判断所述求导后的损失函数在接收所述文本数据后是否收敛；

若所述损失函数收敛，则保存训练时的网络参数；

若所述损失函数不收敛，则继续使用mobilenet卷积神经网络、矩阵变换及长短时记忆神经网络生成具有图片信息的文本数据，并将文本数据输入至求导后的损失函数中，直至将所述文本数据输入所述损失函数中后，所述损失函数收敛。

2.根据权利要求1所述的图片自动生成描述的方法，其特征在于，

所述使用预先训练的mobilenet卷积神经网络提取图片特征向量包括：

在将图片输入到预先训练的mobilenet卷积神经网络中后，保存mobilenet卷积神经网络的平均池化层输出的特征向量。

3.一种图片自动生成描述的系统，其特征在于，包括：

模型训练模块，用于使用损失函数、mobilenet卷积神经网络及长短时记忆神经网络构建图片自动生成描述的模型；

网络参数记录模块，用于记录构建所述模型训练模块训练模型时的网络参数；

图片接收模块，用于接收输入所述模型训练模块训练的模型的图片；

文字生成模块，用于使所述模型根据所述图片接收模块接收的图片及所述网络参数记录模块记录的网络参数输出一段可以描述图片的文字；

所述模型训练模块包括：

损失函数构建单元，用于采用强化学习的思想设计并构建损失函数；

特征向量提取单元，用于使用预先训练的mobilenet卷积神经网络提取样本图片的特征向量；

注意力机制引入单元，用于使用矩阵变换引入注意力机制，以将所述特征向量与从预先训练的长短时记忆神经网络中提取的原状态向量融合，得到新特征向量；

文本数据生成单元，用于将所述注意力机制引入单元得到的新特征向量输入长短时记忆神经网络，所述长短时记忆神经网络根据所述新特征向量生成具有图片信息的文本数据；

损失函数求导单元，用于对所述损失函数构建单元构建的损失函数求导，并将所述文本数据输入至求导后的损失函数中；

损失函数收敛判断单元，用于判断所述损失函数求导单元求导后的损失函数是否收敛；

网络参数保存单元，用于在所述损失函数收敛判断单元判断损失函数收敛后，保存训练时的网络参数；

循环单元，用于在所述损失函数收敛判断单元判断损失函数不收敛后，继续使用所述特征向量提取单元、所述注意力机制引入单元及所述文本数据生成单元生成具有图片信息的文本数据，并将文本数据输入至所述损失函数求导单元得到的求导后的损失函数中，直至将所述文本数据输入所述损失函数中后，所述损失函数收敛。

4.根据权利要求3所述的图片自动生成描述的系统，其特征在于，

所述特征向量提取单元包括：

池化层输出保存子单元，用于在将图片输入到预先训练的mobilenet卷积神经网络中后，保存mobilenet卷积神经网络的平均池化层输出的特征向量。

5.一种电子装置，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现权利要求1至2中的任意一项所述方法。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1至2中的任意一项所述方法。