CN111859911B

CN111859911B - 图像描述文本生成方法、装置、计算机设备及存储介质

Info

Publication number: CN111859911B
Application number: CN202010737220.8A
Authority: CN
Inventors: 毛宇兆; 高维国
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2023-07-25
Anticipated expiration: 2040-07-28
Also published as: CN111859911A

Abstract

本申请涉及人工智能技术领域，提供一种图像描述文本生成方法、装置、计算机设备及存储介质，通过预设识别模型对待描述图像进行图像文本识别，得到参考句子；将参考句子输入至文本特征模型，对参考句子进行文本特征提取，得到时序文本；通过文本主题模型对时序文本进行主题提取，得到文本主题；通过视觉特征提取模型，对待描述图像进行视觉特征提取，得到各视觉字符串；通过注意力模型根据文本主题对所述视觉字符串进行特征重组，得到视觉重组特征；将视觉重组特征和时序文本输入至文本描述生成模型中，生成描述文本。本申请引入主题引导的注意力模型，使得图像与正确的描述文本能够逼近，与错误的描述文本疏远，提高了描述文本的准确性。

Description

图像描述文本生成方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种图像描述文本生成方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术的发展，图像文本描述技术也相应发展。对于一个图像而言，往往包含多个特征，在通过语言对其进行识别描述时，往往需要通过多个句子对其进行描述，以避免单个句子描述出现的局限性和不完整性。

现有技术中，常使用LDA(Latent Dirichlet Allocation，文档主题模型)主题模型实现对图像进行语言文本描述，LDA模型主要通过基于主题词构建的主题向量引导图像描述文本的生成，但其生成的图像描述文本经常会出现偏离图像内容或图像描述文本的语义出现错误等问题，从而导致生成的图像描述文本准确率低且与图像内容存在偏差。

发明内容

本申请实施例提供一种图像描述文本生成方法、装置、计算机设备及存储介质，以解决图像描述文本准确率低的问题。

一种图像描述文本生成方法，包括：

获取待描述图像以及预设识别模型，并通过所述预设识别模型对所述待描述图像进行图像文本识别，得到与所述待描述图像对应的至少一个参考句子；

将所述参考句子输入至文本特征模型，对所述参考句子进行文本特征提取，得到与所述参考句子对应的时序文本；

通过文本主题模型对所述时序文本进行主题提取，得到至少一个文本主题；

通过视觉特征提取模型，对所述待描述图像进行视觉特征提取，得到与所述待描述图像对应的各视觉字符串；

将所述文本主题和所述视觉字符串输入至注意力模型，根据所述文本主题对所述视觉字符串进行特征重组，得到视觉重组特征；

将所述视觉重组特征和所述时序文本输入至文本描述生成模型中，生成与所述待描述图像对应的描述文本。

一种图像描述文本生成装置，其特征在于，包括：

描述图像获取模块，用于获取待描述图像以及预设识别模型，并通过所述预设识别模型对所述待描述图像进行图像文本识别，得到与所述待描述图像对应的至少一个参考句子；

文本特征提取模块，用于将所述参考句子输入至文本特征模型，对所述参考句子进行文本特征提取，得到与所述参考句子对应的时序文本；

主题提取模块，用于通过文本主题模型对所述时序文本进行主题提取，得到至少一个文本主题；

视觉特征提取模块，用于通过视觉特征提取模型，对所述待描述图像进行视觉特征提取，得到与所述待描述图像对应的各视觉字符串；

特征重组模块，用于将所述文本主题和所述视觉字符串输入至注意力模型，根据所述文本主题对所述视觉字符串进行特征重组，得到视觉重组特征；

描述文本生成模块，用于将所述视觉重组特征和所述时序文本输入至文本描述生成模型中，生成与所述待描述图像对应的描述文本。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述图像描述文本生成方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述图像描述文本生成方法。

上述图像描述文本生成方法、装置、计算机设备及存储介质，通过获取待描述图像以及预设识别模型，并通过所述预设识别模型对所述待描述图像进行图像文本识别，得到与所述待描述图像对应的至少一个参考句子；将所述参考句子输入至文本特征模型，对所述参考句子进行文本特征提取，得到与所述参考句子对应的时序文本；通过文本主题模型对所述时序文本进行主题提取，得到至少一个文本主题；通过视觉特征提取模型，对所述待描述图像进行视觉特征提取，得到与所述待描述图像对应的各视觉字符串；

将所述文本主题和所述视觉字符串输入至注意力模型，根据所述文本主题对所述视觉字符串进行特征重组，得到视觉重组特征；将所述视觉重组特征和所述时序文本输入至文本描述生成模型中，生成与所述待描述图像对应的描述文本。本申请通过带有时序特征的文本特征模型，在保留原有句子语义结构信息的同时，使得后续生成句子上能够考虑时序特征带来的影响，并且将句子对应的文本特征统一为连续型特征，使得一个句子在后续的文本主题模型和文本描述生成模型中能够共用一套特征。为了能够处理连续型文本特征，本实施通过文本主题模型，并且引入主题引导的注意力模型，使得图像与正确的描述文本能够逼近，与错误的描述文本疏远，提高了描述文本的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例中图像描述文本生成方法的一应用环境示意图；

图2是本申请一实施例中图像描述文本生成方法的一流程图；

图3是本申请一实施例中图像描述文本生成方法中步骤S12的一流程图；

图4是本申请一实施例中图像描述文本生成方法中步骤S14的一流程图；

图5是本申请一实施例中图像描述文本生成方法中另一流程图；

图6是本申请一实施例中图像描述文本生成方法中另一流程图；

图7是本申请一实施例中图像描述文本生成装置的一原理框图；

图8是本申请一实施例中图像描述文本生成装置中卷积识别模块的一原理框图；

图9是本申请一实施例中图像描述文本生成装置中特征提取模块的一原理框图；

图10是本申请一实施例中计算机设备的一示意图。

具体实施方式

本申请实施例提供一图像描述文本生成方法，该图像描述文本生成方法可应用如图1所示的应用环境中。具体地，该图像描述文本生成方法应用在图像描述文本生成系统中，该图像描述文本生成系统包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于解决图像描述文本准确率低的问题。其中，客户端又称为用户端，是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种图像描述文本生成方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S11：获取待描述图像以及预设识别模型，并通过预设识别模型对待描述图像进行图像文本识别，得到与待描述图像对应的至少一个参考句子。

其中，待描述图像为等待生成图像描述文本的图像，该待描述图像可以从图像集中任意选取。预设识别模型用于对待描述图像进行图像文本识别，该预设识别模型可以为LDA模型。参考句子的实质为待描述图像的初始描述句子，该参考句子可以通过预设识别模型对待描述图像进行文本识别得到。

具体地，首先从图像集中任意选取一个图像作为待描述图像，通过预设识别模型(如LDA模型)对待描述图像进行图像文本识别，以得到对待描述图像进行描述的句，也即参考句子。

S12：将参考句子输入至文本特征模型，对参考句子进行文本特征提取，得到与参考句子对应的时序文本。

其中，文本特征模型的实质是自编码解码模型，该文本特征模型包括编码和解码两部分，用于提取参考句子的文本特征。时序文本为带有时序特征的文本，该时序文本是通过文本特征模型对参考句子进行文本特征提取之后得到的。

具体地，在通过预设识别模型对待描述图像进行图像文本识别，得到与待描述图像对应的至少一个参考句子之后，将参考句子输入至文本特征模型中，对所有的参考句子进行文本特征提取，使得参考句子带有时序特征，从而得到带有时序性的句子，所有参考句子对应的带有时序特征的句子构成时序文本。

S13：通过文本主题模型对时序文本进行主题提取，得到至少一个文本主题。

其中，文本主题模型用于进行文本主题提取处理。文本主题指的是对图像进行描述的重要元素，该文本主题反映的是描述文本在描述图像内容时的不同角度重或者表达方式。

具体地，本实施例中，选择高斯混合模型(Gaussian Mixture Model,GMM)作为文本主题模型对时序文本进行主题提取。将时序文本输入至文本主题模型之后，文本主题模型对时序文本中的每一句子向量进行主题提取，以得到与时序文本对应的至少一个文本主题。

进一步地，GMM文本主题模型可以在连续特征空间中发现主题，本实施例中，将GMM的一个高斯组件定义为一个文本主题，对于时序文本中的一个句子在任意一个文本主题下的概率可以表示为k个高斯组件的线性组合，即：

其中，z_k为第k个高斯组件，φ为高斯组件分布参数，φ是一个k维的概率分布，μ_k和为第k个高斯组件的参数，p(z_k)服从以φ_k为参数的范畴分布。

对于任一时序文本中的句子向量，可以通过贝叶斯计算句子向量在每个高斯组件下的概率分布，如下表示：

通过上述表达式，将时序文本中每个句子表示为k个高斯组件上的概率分布，这个概率分布即可视为句子在k个主题上的混合。

进一步地，参照上述表达式，假设时序文本中某一句子为x,x在第k个主题下的概率为p(z_k/x)，通过在概率分布最高时，确定时序文本中每一句子对应的文本主题。

S14：通过视觉特征提取模型，对待描述图像进行视觉特征提取，得到与待描述图像对应的各视觉字符串。

其中，视觉特征提取模型用于进行视觉特征提取处理，该视觉特征提取模型包含视觉特征模型和视觉词袋模型。视觉字符串为待描述图像中相似的图像区域聚合形成的视觉单词对应的字符串。

具体地，使用卷积神经网络对待描述进行卷积特征提取，得到最后一次卷积特征为res5c，并将卷积特征为res5c的卷积层对应的特征映射记为feature∈R²⁰⁴⁸；将该特征映射输入至视觉词袋模型中，对待描述图像的特征映射集合使用k-means聚类，得到聚类中心，并将该聚类中心定义为视觉单词对应的字符串，即视觉字符串。

示例性地，假设聚类中心数为V，一个特征映射可以通过如下方式表示为一个V维的one-hot向量w：

d＝KMeans(feature)

w＝1_argmax(d)

其中，d∈R^V是特征映射与聚类中心的距离，1为一个V维的指示向量，根据下标指定的位置将向量对应位置设为1，其它位置设为0；argmax(d)返回向量d中最大值的位置。如此，待描述图像中相似的图像区域将被聚合为一个视觉单词。

S15：将文本主题和视觉字符串输入至注意力模型，根据文本主题对视觉字符串进行特征重组，得到视觉重组特征。

其中，注意力模型用于将文本主题与视觉字符串进行关联，该注意力模型在给定主题下计算视觉字符串的权重。视觉重组特征是视觉字符串经过主题引导后得到的。

具体地，在得到文本主题和视觉字符串之后，将文本主题和视觉字符串输入至注意力模型中；在给定文本主题下，通过注意力模型学习视觉字符串在待描述图像中对应的权重，并根据每一视觉字符串对应的权重的转置权值向量，对视觉字符串进行加权和处理，得到视觉重组特征。

S16：将视觉重组特征和时序文本输入至文本描述生成模型中，生成与待描述图像对应的描述文本。

其中，文本描述生成模型用于生成任意图像对应的描述文本，可选地，本实施例中，该文本描述生成模型使用IGU-LSTM结构。

具体地，在得到相应的视觉重组特征和文本主题之后，将视觉重组特征和时序文本输入至文本描述生成模型中，生成与待描述图像对应的描述文本。

进一步地，文本描述生成模型中的训练代价函数可以由下述表达式表示：

log p(s_n/vr_n)＝IGU_LSTM(s_n,vr_n)

其中，(s_n,vr_n)为一个batch(批处理)中的第n个(句子，图像)对，进一步地，这里的句子指的是时序文本中包含的句子，图像指的是视觉重组特征(通过文本主题模型确定s_n的文本主题，vr_n是在s_n的文本主题下经过视觉特征提取模型引导加权后的视觉重组特征表示)。IGU_LSTM()函数输出的是在给定视觉重组特征的条件下，句子的对数似然，也即为log p(s_n/vr_n)。τIC为训练代价损失函数，该训练代价函数为所有batch中所有正确描述的负对数似然和，以确保生成与所述待描述图像对应的描述文本的准确性。

在本实施例中，通过带有时序特征的文本特征模型，在保留原有句子语义结构信息的同时，使得后续生成句子上能够考虑时序特征带来的影响，并且将句子对应的文本特征统一为连续型特征，使得一个句子在后续的文本主题模型和文本描述生成模型中能够共用一套特征。为了能够处理连续型文本特征，本实施通过GMM作为文本主题模型，并且引入主题引导的注意力模型，使得图像与正确的描述文本能够逼近，与错误的描述文本疏远，提高了描述文本的准确性。

在一实施例中，如图3所示，步骤S12中，也即将参考句子输入至文本特征模型，对参考句子进行文本特征提取，得到与参考句子对应的时序文本，可具体包括如下步骤：

S121：将参考句子输入至文本特征模型中的编码循环神经网络中，对参考句子进行编码处理，得到与参考句子对应的正向词向量和反向词向量。

其中，编码循环神经网络实质为文本编码网络，该编码循环神经网络可以为LSTM、BiLSTM或者Transformer等网络，可选地，本实施例采用BiLSTM编码循环神经网络，以得到正向词向量和反向词向量。正向词向量为参考句子中的字符按照正向顺序排序。反向词向量为参考句子中的字符按照逆向顺序排序。

具体地，在获取到参考句子之后，将该参考句子输入至文本特征模型的编码循环神经网络中，该编码循环神经网络对参考句子进行编码训练，得到参考句子中的字符以正向顺序排序的正向词向量和参考句子中的字符以逆向顺序排序的反向词向量。

S122：对每一正向词向量进行拼接，得到正向拼接词向量，对每一反向词向量进行拼接，得到反向拼接词向量。

其中，正向拼接词向量为对首个正向词向量到最后一个正向词向量进行拼接得到的。反向拼接词向量为对首个反向词向量到最后一个反向词向量进行拼接得到的。

具体地，在对参考句子进行编码处理，得到正向词向量和反向词向量之后，对所有正向词向量，按照与正向词向量对应的正向顺序进行拼接，即首个正向词向量与第二个正向词向量拼接，第二个正向词向量与第三个正向词向量进行拼接，直到拼接到最后一个正向词向量为止，得到初始正向拼接词向量。同理，对所有反向词向量，按照与反向词向量对应的逆向顺序进行拼接，得到反向拼接词向量。

S123：将正向拼接词向量和反向拼接词向量输入至文本特征模型中的全连接网络，得到句子向量。

其中，全连接网络用于综合得到的特征。句子向量的实质为一个完整的句子，该句子向量的维度与正向拼接词向量的维度和反向拼接词向量的维度是相同的。

具体地，在得到正向拼接词向量和反向拼接词向量之后，将正向拼接词向量和反向拼接词向量输入至一个两层的全连接网络，得到一个与正向拼接词向量和反向拼接词向量同维度的句子向量。

S124：通过文本特征模型中的解码循环神经网络对句子向量进行解码重构，得到时序文本。

其中，解码循环神经网络用于对句子向量进行解码重构处理，该解码循环神经网络为LSTM结构。时序文本是与参考句子相对应的文本，该时序文本是通过解码循环神经网络对句子向量进行解码重构后得到的。

具体地，在得到正向拼接词向量和反向拼接词向量之后，将在将正向拼接词向量和反向拼接词向量输入至编码循环神经网络中，并在将正向拼接词向量和反向拼接词向量输入至全连接网络，得到句子向量之后，将句子向量输入至编码循环神经网络中，对句子向量进行解码重构，得到时序文本。

在一实施例中，如图4所示，步骤S15中，也即将所述文本主题和所述视觉字符串输入至注意力模型，根据所述文本主题对所述视觉字符串进行特征重组，得到视觉重组特征，可具体包括如下步骤：

S151：根据文本主题，在注意力模型中设置每一文本主题对应的注意力权值向量。

其中，注意力权值向量为所有视觉字符串在文本主题下的被关注程度。

具体地，假设待描述图像对应的文本主题为Z∈{z₀,...,z_k}，视觉字符串为W∈{w₀,...,w_v}，注意力模型将设置注意力权值向量M_k∈R^v与文本主题对应，该注意力权值向量的值代表所有视觉字符串在文本主题下的被关注程度。

S152：对每一视觉字符串进行累加处理，得到视觉词袋。

其中，视觉词袋为累加所有视觉字符串后得到的集合。

具体地，在通过视觉特征提取模型，对待描述图像进行视觉特征提取，得到与待描述图像对应的各视觉字符串之后，对每一视觉字符串进行累加，构成视觉词袋。

视觉词袋可以以如下形式表示：

其中，为待描述图像的第i个特征映射feature_i对应的视觉字符串。Calc()为累加函数。bovw为视觉词袋。

S153：对注意力权值向量和视觉词袋进行按位相乘处理，得到与每一视觉字符串对应的权重，并对每一视觉字符串对应的权重进行归一化处理，得到每一视觉字符串的权值向量。

具体地，在根据所述文本主题，在注意力模型中设置每一文本主题对应的注意力权值向量，以及对每一视觉字符串进行累加，构成视觉词袋之后，对注意力权值向量和视觉词袋进行按位相乘计算，得到在待描述图像中出现的所有视觉字符串对应的权重，并对所有视觉字符串对应的权重进行归一化处理，得到每一视觉字符串的权值向量。

进一步地，每一所述视觉字符串的权值向量以如下表示：

α＝Norm(bovw⊙M_k)

其中，Norm()为归一化函数，α为每一视觉字符串的权值向量。

S154：对每一视觉字符串的权值向量进行转置处理，得到每一视觉字符串对应的转置权值向量。

S155：对所述每一所述视觉字符串以及与每一所述视觉字符串对应的所述转置权值向量进行加权和处理，得到视觉重组特征。

具体地，在对所述每一所述视觉字符串对应的权重进行归一化处理，得到每一所述视觉字符串的权值向量之后，对每一视觉字符串的权值向量进行转置处理，得到各转置权值向量；对每一视觉字符串以及与每一视觉字符串对应的转置权值向量进行向量乘法处理，得到每一视觉字符串对应的转置权重，该转置权重用于对每一视觉字符串对应的特征映射进行加权，并通过对加权后的每一视觉字符串对应的特征映射进行加权和处理，构成了待描述图像经过文本主题引导后的视觉重组特征。

可选地，在得到视觉重组特征之后，可以将视觉重组特征输入至一个2层的全连接网络，以将视觉重组特征映射为一个与上述实施例中时序文本同一维度的向量。

进一步地，得到视觉重组特征的过程可以通过如下表示：

其中，为视觉重组特征，α^T为转置权值向量，MLP_ir()为2层全连接网络对应的函数，vr_k为与上述实施例中时序文本同一维度的向量。

在一实施例中，如图5所示，步骤S12之前，也即将所述参考句子输入至文本特征模型之前，还包括：

S21：获取文本数据集、图像描述训练集以及初始文本模型，初始文本模型包括初始编码循环神经网络、初始解码循环神经网络和全连接网络。

其中，文本数据集为包含文本句子的集合，该文本数据集中的数据可以包含中文、英文或者其他语言文字。图像描述训练集为任一图像对应的描述文本的集合。初始文本模型的实质为文本模型，该初始文本模型用于对文本进行特征提取，初始文本模型包括初始编码循环神经网络、初始解码循环神经网络和全连接网络。

S22：通过文本数据集对初始编码循环神经网络进行训练，得到编码循环神经网络。

其中，初始编码循环神经网络用于对文本数据集进行编码处理，该初始编码循环神经网络可以为LSTM、BiLSTM或者Transformer等网络，可选地，本实施例采用BiLSTM初始编码循环神经网络。编码循环神经网络是以初始编码循环神经网络为基础网络，通过大规模文本数据对初始编码循环神经网络进行训练得到的。

具体地，在获取到文本数据集和初始文本模型之后，将文本数据集输入至初始文本模型的初始编码循环神经网络中，对初始编码循环神经网络进行迭代训练，得到训练好的初始编码循环神经网络，并对该训练好的初始编码循环神经网络进行测试验证，得到编码循环神经网络。

S23：将图像描述训练集输入至编码循环神经网络中，对图像描述训练集中的描述文本进行编码处理，得到初始正向词向量和初始反向词向量。

其中，初始正向词向量为图像描述训练集中的描述文本中的字符按照正向顺序排序。初始反向词向量为图像描述训练集中的描述文本中的字符按照逆向顺序排序。

具体地，在通过文本数据集对初始编码循环神经网络进行训练，得到编码循环神经网络之后，将图像描述训练集输入至编码循环神经网络中，对图像描述训练集中的描述文本进行编码处理，得到描述文本中的字符按照正向顺序排序的初始正向词向量和字符按照逆向顺序排序的初始反向词向量。

示例性地，综合数据计算成本和模型复杂度，本实施例采用BiLSTM编码循环神经网络，BiLSTM会将参考句子编码训练成正向词向量和反向词向量，具体可以表示为如下形式：

其中，FLSTM()为正向LSTM，RLSTM()为反向LSTM。

S24：对所有初始正向词向量进行拼接，得到初始正向拼接词向量，对所有初始反向词向量进行拼接，得到初始反向拼接词向量。

其中，初始正向拼接词向量为对首个初始正向词向量到最后一个初始正向词向量进行拼接得到的。初始反向拼接词向量为对首个初始反向词向量到最后一个初始反向词向量进行拼接得到的。

具体地，在对所述图像描述训练集中的描述文本进行编码处理，得到初始正向词向量和初始反向词向量之后，对所有初始正向词向量，按照与初始正向词向量对应的正向顺序进行拼接，即首个初始正向词向量与第二个初始正向词向量拼接，第二个初始正向词向量与第三个初始正向词向量进行拼接，直到拼接到最后一个初始正向词向量为止，得到初始正向拼接词向量。同理，对所有初始反向词向量，按照与初始反向词向量对应的逆向顺序进行拼接，得到初始反向拼接词向量。

S25：将初始正向拼接词向量和初始反向拼接词向量输入至全连接网络，得到初始句子向量。

其中，全连接网络用于综合得到的特征。初始句子向量的实质为一个完整的句子，该初始句子向量的维度与初始正向拼接词向量的维度和初始反向拼接词向量的维度是相同的。

具体地，在得到初始正向拼接词向量和初始反向拼接词向量之后，将初始正向拼接词向量和初始反向拼接词向量输入至一个两层的全连接网络，得到一个与初始正向拼接词向量和初始反向拼接词向量同维度的句子向量，即初始句子向量。

S26：将初始正向拼接词向量和初始反向拼接词向量输入至初始解码循环神经网络中，并通过初始解码循环神经网路对初始句子向量进行解码重构，得到输出文本。

其中，初始解码循环神经网络用于对初始句子向量进行解码重构处理，该初始解码循环神经网络为LSTM结构。输出文本是与图像描述训练集中的描述文本相对应的文本，该输出文本是通过初始解码循环神经网络对初始句子向量进行解码重构后得到的。

具体地，在得到初始正向拼接词向量和初始反向拼接词向量之后，将在将初始正向拼接词向量和初始反向拼接词向量输入至初始编码循环神经网络中，并在将初始正向拼接词向量和初始反向拼接词向量输入至全连接网络，得到初始句子向量之后，将初始句子向量输入至初始编码循环神经网络中，对初始句子向量进行解码重构，得到输出文本。

S27：对输出文本与图像描述训练集中的描述文本进行相似性比对，若输出文本与描述文本之间的相似度高于预设阈值，则将初始解码循环神经网络记录为解码循环神经网络。

具体地，在通过所述初始解码循环神经网路对所述初始句子向量进行解码重构，得到输出文本之后，对输出文本和描述文本:进行相似性对比，以得到输出文本与描述文本之间的相似度，若输出文本与描述文本的相似度高于预设阈值，则将初始解码循环神经网络记录为解码循环神经网络。

根据编码循环神经网络、解码循环神经网络和全连接网络，构建文本特征模型。

具体地，在得到编码循环神经网络、解码循环神经网络之后，根据编码循环神经网络、解码循环神经网络和全连接网络，构建文本特征模型。

在一实施例中，如图6所示，将所述初始正向拼接词向量和所述初始反向拼接词向量输入至所述初始解码循环神经网络中，并通过所述初始解码循环神经网路对所述初始句子向量进行解码重构，得到输出文本，包括如下步骤：

S31：将初始正向拼接词向量和初始反向拼接词向量输入至初始解码循环神经网络中，得到中间解码循环神经网络。

具体地，在得到初始正向拼接词向量和初始反向拼接词向量之后，将初始正向拼接词向量和初始反向拼接词向量输入至初始解码循环神经网络中，得到中间解码循环神经网络(中间解码循环神经网络指的存储初始正向拼接词向量和初始反向拼接词向量的初始解码循环网络)。其中，初始正向拼接词向量和初始反向拼接词向量为了给后续对初始句子向量进行解码重构提供数据支持，以使得初始解码循环神经网络中与编码循环神经网络共享词向量。

S32：通过中间解码循环神经网络确定初始句子向量中的每一词向量的第一概率；第一概率是指初始句子向量中的一个词向量作为输出文本中序列第一的词向量的概率值。

具体地，在得到中间解码循环神经网络之后，将初始句子向量输入至中间解码循环神经网络中，对初始句子向量中每一词向量进行识别，并通过中间解码循环神经网络确定初始句子向量中每一词向量作为输出文本中序列第一的词向量的概率值，即第一概率。

可以理解地，在初始句子向量中，任意一个词向量都有对应作为输出文本第一词向量的概率。

S33：将与各第一概率中的最大概率值对应的词向量作为第一词向量，并将第一词向量输入至中间解码循环神经网络中，通过中间解码循环神经网络确定初始正向拼接词向量和初始反向拼接词向量的第二概率，并将与各第二概率中的最大概率值对应的词向量作为第二词向量；第二概率是指中初始正向拼接词向量和初始反向拼接词向量的一个词向量作为输出文本中序列第二的词向量的概率值。

具体地，在通过所述中间解码循环神经网络确定所述初始句子向量中的每一词向量的第一概率之后，对每一词向量对应的第一概率进行最大值比较，将最大概率值的第一概率对应的词向量作为输出文本序列中的第一词向量。

进一步地，在得到第一词向量之后，将该第一词向量输入至中间解码循环神经网络中；根据第一词向量，通过中间解码循环神经网络确定初始正向拼接词向量和所述初始反向拼接词向量对应每一词向量作为输出文本中序列第二的词向量的概率值，即第二概率；在得到每一词向量的第二概率之后，对每一词向量对应的第二概率进行最大值比较，将最大概率值的第二概率对应的词向量作为输出文本序列中的第二词向量。

可以理解地，在将与各第二概率中的最大概率值对应的词向量作为第二词向量之后，将该第二词向量输入至中间解码循环神经网络中；根据第二词向量，通过中间解码循环神经网络确定初始正向拼接词向量和所述初始反向拼接词向量对应的每一词向量的第三概率；在得到每一词向量的第三概率之后，对每一词向量对应的第三概率进行最大值比较，将最大概率值的第三概率对应的词向量作为输出文本序列中的第三词向量。在得到第三词向量之后，参照上述步骤，重复执行S262-263步骤，也即在后续步骤中，若确定出的输出文本序列中对应的词向量不为最后一个词向量，则将确定新的词向量重新输入至中间编码循环神经网络中，以得到如第四词向量、第五词向量等词向量。

具体地，上述步骤可以表现为如下形式：

s₀,h_-1,c_-1＝tr,h_bilstm,c_bilstm

p(s_l+1/s_0:l)＝LSTM(s_l,h_l-1,c_l-1)

其中，s₀为LSTM中间解码循环神经网络对应的初始时刻的输入，s₀由经过全连接层后得到的初始句子向量表示。h_-1为LSTM中间解码循环神经网络的隐层单元，h_-1由编码循环神经网络的最终隐层单元表示。c_-1为LSTM中间解码循环神经网络的记忆单元，c_-1由编码循环神经网络的最终记忆单元表示。p(s_l+1/s_0:l)为l时刻LSTM中间解码循环神经网络输出的下一词向量的概率。

S34：在所有词向量均被输入中间解码循环神经网络中之后，得到包含已确定所有词向量序列的输出文本。

具体地，在所有词向量均被输入中间解码循环神经网络中，并且确定顺次排序的第一词向量、第二词向量直至最后一个词向量，即得到包含已确定所有词向量序列的输出文本。

在一实施例中，将所述文本主题和所述视觉字符串输入至注意力模型之前，还包括：

获取与样本图像对应的初始视觉特征和初始文本主题。

其中，初始视觉特征为样本图像对应的重组视觉特征。初始文本主题为预先对样本图像对应的文本主题进行预测，并将概率最大的主体作为初始文本主题。

根据所述初始文本主题，确定一个文本正例和一个文本反例。

其中，文本正例是与初始文本主题相对应的描述句子。文本反例是选择样本图像中其它主题对应的描述句子。

可选地，在确定初始文本主题之后，选择与样本图像对应的除初始文本主题外的其它主题作为文本反例的主题，并将该文本反例的主题对应的描述句子确定为文本反例。

若样本图像对应的所有描述句子，都是以同一主题进行生成描述句子的。则随机选择另一样本图像的文本主题对应的描述句子作为文本反例。可以理解地，从另一样本图像中确定的主题也应与初始文本主题不同。

根据所述文本正例、文本反例和初始视觉特征，采用比较学习代价函数对预设的初始注意力模型进行训练，得到注意力模型。

具体地，在得到文本正例、文本反例和初始视觉特征之后，采用比较学习代价函数对预设的初始注意力模型进行训练，使得在主题引导下的重组视觉特征与该主题的文本特征相互靠近，与非该主题的文本特征相互疏远，从而在训练完成后，得到注意力模型。

进一步地，采用比较学习代价函数对预设的初始注意力模型进行训练为如下步骤：

其中，vr_n为初始视觉特征；为文本正例；/>为文本反例；Ω是一个超参数，代表文本正例和文本反例之间距离目标的差异值；f()是一种距离度量函数，可以为欧式距离或者余弦距离。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在一实施例中，提供一种图像描述文本生成装置，该图像描述文本生成装置与上述实施例中图像描述文本生成方法一一对应。如图7所示，该图像描述文本生成装置包括描述图像获取模块11、文本特征提取模块12、主题提取模块13、视觉特征提取模块14、特征重组模块15以及描述文本生成模块16。各功能模块详细说明如下：

描述图像获取模块11，用于获取待描述图像以及预设识别模型，并通过预设识别模型对待描述图像进行图像文本识别，得到与待描述图像对应的至少一个参考句子。

文本特征提取模块12，用于将参考句子输入至文本特征模型，对参考句子进行文本特征提取，得到与参考句子对应的时序文本。

主题提取模块13，用于通过文本主题模型对时序文本进行主题提取，得到至少一个文本主题。

视觉特征提取模块14，用于通过视觉特征提取模型，对待描述图像进行视觉特征提取，得到与待描述图像对应的各视觉字符串。

特征重组模块15，用于将文本主题和视觉字符串输入至注意力模型，根据文本主题对视觉字符串进行特征重组，得到视觉重组特征。

描述文本生成模块16，用于将视觉重组特征和时序文本输入至文本描述生成模型中，生成与待描述图像对应的描述文本。

可选地，如图8所示，文本特征提取模块12包括如下单元：

句子编码单元121，用于将参考句子输入至文本特征模型中的编码循环神经网络中，对参考句子进行编码处理，得到与参考句子对应的正向词向量和反向词向量。

词向量拼接单元122，用于对每一正向词向量进行拼接，得到正向拼接词向量，同时，对每一反向词向量进行拼接，得到反向拼接词向量。

全连接单元123，用于将正向拼接词向量和反向拼接词向量输入至文本特征模型中的全连接网络，得到句子向量。

解码重构单元124，用于通过文本特征模型中的解码循环神经网络对句子向量进行解码重构，得到时序文本。

可选地，如图9所示，特征重组模块15包括如下单元：

权值向量设置单元151，用于根据文本主题，在注意力模型中设置每一文本主题对应的注意力权值向量。

字符串累加单元152，用于对每一视觉字符串进行累加处理，得到视觉词袋。

按位相乘单元153，用于对注意力权值向量和视觉词袋进行按位相乘处理，得到与每一视觉字符串对应的权重，并对每一视觉字符串对应的权重进行归一化处理，得到每一视觉字符串的权值向量。

向量转置单元154，用于对每一视觉字符串的权值向量进行转置处理，得到每一视觉字符串对应的转置权值向量。

加权和单元155，用于对所述每一所述视觉字符串以及与每一所述视觉字符串对应的所述转置权值向量进行加权和处理，得到视觉重组特征。

可选地，图像描述文本生成装置还包括如下模块：

数据获取模块，用于获取文本数据集、图像描述训练集以及初始文本模型，初始文本模型包括初始编码循环神经网络、初始解码循环神经网络和全连接网络。

神经网络训练模块，用于通过文本数据集对初始编码循环神经网络进行训练，得到编码循环神经网络。

文本编码模块，用于将图像描述训练集输入至编码循环神经网络中，对图像描述训练集中的描述文本进行编码处理，得到初始正向词向量和初始反向词向量。

向量拼接模块，用于对所有初始正向词向量进行拼接，得到初始正向拼接词向量，同时，对所有初始反向词向量进行拼接，得到初始反向拼接词向量。

句子向量生成模块，用于将初始正向拼接词向量和初始反向拼接词向量输入至全连接网络，得到初始句子向量。

解码重构模块，用于将初始正向拼接词向量和初始反向拼接词向量输入至初始解码循环神经网络中，并通过初始解码循环神经网路对初始句子向量进行解码重构，得到输出文本。

相似性比对模块，用于对输出文本与图像描述训练集中的描述文本进行相似性比对，在输出文本与描述文本的相似度高于预设阈值时，将初始解码循环神经网络记录为解码循环神经网络。

模型构建模块，用于根据编码循环神经网络、解码循环神经网络和全连接网络，构建文本特征模型。

可选地，解码重构模块包括如下单元：

数据输入单元，用于将初始正向拼接词向量和初始反向拼接词向量输入至初始解码循环神经网络中，得到中间解码循环神经网络。

词向量概率确定单元，用于通过中间解码循环神经网络确定初始句子向量中的每一词向量的第一概率；第一概率是指初始句子向量中的一个词向量作为输出文本中序列第一的词向量的概率值。

词向量确定单元，用于将与各第一概率中的最大概率值对应的词向量作为第一词向量，并将第一词向量输入至中间解码循环神经网络中，通过中间解码循环神经网络确定初始正向拼接词向量和初始反向拼接词向量的第二概率，并将与各第二概率中的最大概率值对应的词向量作为第二词向量；第二概率是指中初始正向拼接词向量和初始反向拼接词向量的一个词向量作为输出文本中序列第二的词向量的概率值。

输出文本确定单元264，用于在所有词向量均被输入中间解码循环神经网络中之后，得到包含已确定所有词向量序列的所述输出文本。

关于图像描述文本生成装置的具体限定可以参见上文中对于图像描述文本生成方法的限定，在此不再赘述。上述图像描述文本生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的处理。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器；其中，该存储介质可为非易失性的，也可为易失性的。该存储介质存储有处理系统、计算机程序和数据库。该内存储器为存储介质中的处理系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述图像描述文本生成方法中使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像描述文本生成方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中图像描述文本生成方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中数据处理模型生成方法，或处理器执行计算机程序时实现上述实施例中图像描述文本生成方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性或易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性或易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种图像描述文本生成方法，其特征在于，包括：

将所述文本主题和各所述视觉字符串输入至注意力模型，根据所述文本主题对所述视觉字符串进行特征重组，得到视觉重组特征；

将所述视觉重组特征和所述时序文本输入至文本描述生成模型中，生成与所述待描述图像对应的描述文本；

所述将所述参考句子输入至文本特征模型中，对所述参考句子进行文本特征提取，得到与所述参考句子对应的时序文本，包括：

将所述参考句子输入至所述文本特征模型中的编码循环神经网络中，对所述参考句子进行编码处理，得到与所述参考句子对应的正向词向量和反向词向量；

对每一所述正向词向量进行拼接，得到正向拼接词向量，对每一所述反向词向量进行拼接，得到反向拼接词向量；

将所述正向拼接词向量和所述反向拼接词向量输入至文本特征模型中的全连接网络，得到句子向量；

通过所述文本特征模型中的解码循环神经网络对所述句子向量进行解码重构，得到时序文本；

所述将所述文本主题和所述视觉字符串输入至注意力模型中，根据所述文本主题对所述视觉字符串进行特征重组，得到视觉重组特征，包括：

根据所述文本主题，在所述注意力模型中设置每一文本主题对应的注意力权值向量；

对每一所述视觉字符串进行累加处理，得到视觉词袋；

对所述注意力权值向量和所述视觉词袋进行按位相乘处理，得到与每一所述视觉字符串对应的权重，并对每一所述视觉字符串对应的权重进行归一化处理，得到每一所述视觉字符串的权值向量；

对每一所述视觉字符串的权值向量进行转置处理，得到每一所述视觉字符串对应的转置权值向量；

对所述每一所述视觉字符串以及与每一所述视觉字符串对应的所述转置权值向量进行加权和处理，得到视觉重组特征。

2.如权利要求1所述的图像描述文本生成方法，其特征在于，所述将所述参考句子输入至文本特征模型之前，还包括：

获取文本数据集、图像描述训练集以及初始文本模型，所述初始文本模型包括初始编码循环神经网络、初始解码循环神经网络和全连接网络；

通过所述文本数据集对所述初始编码循环神经网络进行训练，得到编码循环神经网络；

将所述图像描述训练集输入至所述编码循环神经网络中，对所述图像描述训练集中的描述文本进行编码处理，得到初始正向词向量和初始反向词向量；

对所有所述初始正向词向量进行拼接，得到初始正向拼接词向量，对所有所述初始反向词向量进行拼接，得到初始反向拼接词向量；

将所述初始正向拼接词向量和所述初始反向拼接词向量输入至所述全连接网络，得到初始句子向量；

将所述初始正向拼接词向量和所述初始反向拼接词向量输入至所述初始解码循环神经网络中，并通过所述初始解码循环神经网路对所述初始句子向量进行解码重构，得到输出文本；

对所述输出文本与所述图像描述训练集中的描述文本进行相似性比对，若所述输出文本与所述描述文本之间的相似度高于预设阈值，则将所述初始解码循环神经网络记录为解码循环神经网络；

根据所述编码循环神经网络、解码循环神经网络和全连接网络，构建文本特征模型。

3.如权利要求2所述的图像描述文本生成方法，其特征在于，所述将所述初始正向拼接词向量和所述初始反向拼接词向量输入至所述初始解码循环神经网络中，并通过所述初始解码循环神经网路对所述初始句子向量进行解码重构，得到输出文本，包括：

将所述初始正向拼接词向量和所述初始反向拼接词向量输入至所述初始解码循环神经网络中，得到中间解码循环神经网络；

通过所述中间解码循环神经网络确定所述初始句子向量中的每一词向量的第一概率；所述第一概率是指所述初始句子向量中的一个词向量作为输出文本中序列第一的词向量的概率值；

将与各所述第一概率中的最大概率值对应的词向量作为第一词向量，并将所述第一词向量输入至中间解码循环神经网络中，通过所述中间解码循环神经网络确定所述初始正向拼接词向量和所述初始反向拼接词向量的第二概率，并将与各所述第二概率中的最大概率值对应的词向量作为第二词向量；所述第二概率是指所述初始正向拼接词向量和所述初始反向拼接词向量的一个词向量作为输出文本中序列第二的词向量的概率值；

在所有词向量均被输入中间解码循环神经网络中之后，得到包含已确定所有词向量序列的所述输出文本。

4.如权利要求1所述的图像描述文本生成方法，其特征在于，所述将所述文本主题和所述视觉字符串输入至注意力模型之前，还包括：

获取与样本图像对应的初始视觉特征和初始文本主题；

根据所述初始文本主题，确定一个文本正例和一个文本反例；

5.一种图像描述文本生成装置，其特征在于，包括：

描述文本生成模块，用于将所述视觉重组特征和所述时序文本输入至文本描述生成模型中，生成与所述待描述图像对应的描述文本；

所述文本特征提取模块包括：

句子编码单元，用于将所述参考句子输入至所述文本特征模型中的编码循环神经网络中，对所述参考句子进行编码处理，得到与所述参考句子对应的正向词向量和反向词向量；

词向量拼接单元，用于对每一所述正向词向量进行拼接，得到正向拼接词向量，同时，对每一所述反向词向量进行拼接，得到反向拼接词向量；

全连接单元，用于将所述正向拼接词向量和所述反向拼接词向量输入至文本特征模型中的全连接网络，得到句子向量；

解码重构单元，用于通过所述文本特征模型中的解码循环神经网络对所述句子向量进行解码重构，得到时序文本；

特征重组模块包括：

权值向量设置单元，用于根据文本主题，在注意力模型中设置每一文本主题对应的注意力权值向量；

字符串累加单元，用于对每一视觉字符串进行累加处理，得到视觉词袋；

按位相乘单元，用于对注意力权值向量和视觉词袋进行按位相乘处理，得到与每一视觉字符串对应的权重，并对每一视觉字符串对应的权重进行归一化处理，得到每一视觉字符串的权值向量；

向量转置单元，用于对每一视觉字符串的权值向量进行转置处理，得到每一视觉字符串对应的转置权值向量；

加权和单元，用于对所述每一所述视觉字符串以及与每一所述视觉字符串对应的所述转置权值向量进行加权和处理，得到视觉重组特征。

6.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述图像描述文本生成方法。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述图像描述文本生成方法。