CN110968725B

CN110968725B - 图像内容描述信息生成方法、电子设备及存储介质

Info

Publication number: CN110968725B
Application number: CN201911221407.6A
Authority: CN
Inventors: 李鹏; 裴峥; 柯聪梁; 陈艺勇; 肖梦; 李晋瑞; 张伟; 王堃; 曾思达
Original assignee: Migu Cultural Technology Co Ltd; MIGU Comic Co Ltd
Current assignee: Migu Cultural Technology Co Ltd; MIGU Comic Co Ltd
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2023-04-28
Anticipated expiration: 2039-12-03
Also published as: CN110968725A

Abstract

本发明实施例提供一种图像内容描述信息生成方法、电子设备及存储介质，通过特征提取模型确定单词表中各单词用于描述图像所示内容的概率，作为图像的高维特征向量，根据图像的高维特征向量生成图像的内容描述信息。高维特征向量中包含了与图像所示内容有有关单词的信息，因而通过高维特征向量能够实现对图像所示内容的准确描述。

Description

图像内容描述信息生成方法、电子设备及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种图像内容描述信息生成方法、电子设备及存储介质。

背景技术

图像的内容描述信息是对图像所示内容的文字描述。通过图像的内容描述信息，使得对图像进行搜索和分类更为便捷和准确，同时也为存在视觉障碍的人群提供了根据文字通过语音解读图像内容的途径。

目前，多通过机器学习训练的模型根据图像的像素分布特点提取低层隐式特征，然后根据低层隐式特征自动生成图像的内容描述信息。然而，低层隐式特征是图像像素的信息，而不是与图像所示内容有关的单词或者语句信息，因此，通过低层隐式特征经常会出现内容描述信息与所示内容无关或者语句混乱的情况，无法对图像所示的内容进行准确的描述。

发明内容

本发明实施例提供一种图像内容描述信息生成方法、电子设备及存储介质，用以解决现有技术中生成的内容描述信息无法对图像所示内容进行准确描述的缺陷。

第一方面，本发明实施例提供一种图像内容描述信息生成方法，包括：

获取图像；

将所述图像输入特征提取模型，得到高维特征向量；

根据所述高维特征向量生成内容描述信息；

其中，高维特征向量包括单词表中各单词用于描述图像所示内容的概率。

第二方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以上所述图像内容描述信息生成方法的步骤。

第三方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以上所述图像内容描述信息生成方法的步骤。

本发明实施例提供的图像内容描述信息生成方法、电子设备及存储介质，通过特征提取模型确定单词表中各单词用于描述图像所示内容的概率，作为图像的高维特征向量，根据图像的高维特征向量生成图像的内容描述信息。高维特征向量中包含了与图像所示内容有有关单词的信息，因而通过高维特征向量能够实现对图像所示内容的准确描述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的图像内容描述信息生成方法的流程示意图；

图2为本发明实施例构建的描述生成模型的结构框架；

图3为本发明实施例提供的图像内容描述信息生成装置的结构框图；

图4为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供的图像内容描述信息生成方法由服务器、计算机或者专用于对图像生成内容描述信息的设备执行，通过从图像中提取的高维特征向量生成内容描述信息。由于高维特征向量中包含了各单词用于描述图像所示内容的概率，是与图像所示内容相关的信息，相较于低层隐式特征更有利于生成准确描述图像的内容描述信息。

图1为本实施例提供的图像内容描述信息生成方法的流程示意图，该方法包括以下步骤：

步骤101：获取图像。

获取的图像为待生成内容描述信息的图像。获取的是预先存储的图像、输入的图像或者由风格转换模型输出的图像。该图像与训练图像的图像风格相同，例如，通过动漫风格的图像进行训练得到特征提取模型，则该步骤中获取的图像通常也为动漫风格。

步骤102：将所述图像输入特征提取模型，得到高维特征向量；其中，高维特征向量包括单词表中各单词用于描述图像所示内容的概率。

单词表是由一系列单词组成的列表，这些单词是可能用来表示某一图像风格的图像所示内容的单词。通常单词表中的单词是根据训练图像的内容描述信息确定的。高维特征向量是一个1*n维的向量，其中n为单词表中包括单词总数。该向量中的各概率与单词表中的单词一一对应，例如，高维特征向量V_attr为[x1，x2……xn]，则xn表示单词表中第n个单词用于描述所述图像所示内容的概率。

在本实施例提供的方法中通过特征提取模型输出图像的高维特征向量。特征提取模型为预先以训练图像作为样本，以根据训练图像的内容描述信息确定的高维特征向量作为样本标签，进行训练得到。

步骤103：根据所述高维特征向量生成内容描述信息。

内容描述信息为对图像所示内容进行描述的语句。高维特征向量包含有用于表示图像所示内容的单词的信息，因此根据高维特征向量能够生成对图像所示内容进行准确描述的语句。可以通过高维特征向量，引导预先训练的模型生成图像的内容描述信息。

本实施例提供了图像内容描述信息生成方法，通过特征提取模型确定单词表中各单词用于描述图像所示内容的概率，作为图像的高维特征向量，根据图像的高维特征向量生成图像的内容描述信息。高维特征向量中包含了与图像所示内容有有关单词的信息，因而通过高维特征向量能够实现对图像所示内容的准确描述。

以下对特征提取模型的训练过程进行介绍：

在根据训练图像的内容描述信息生成样本标签时，将单词表中在训练图像的内容描述信息出现了的单词对应的概率标记为1，将单词表中没有在训练图像的内容描述信息出现的单词对应的概率标记为0，将按照单词表中单词顺序排列的，对每一单词标记的概率所组成的向量作为样本标签。

特征提取模型可以是卷积神经网络类型的模型。在训练的过程中，将训练图像作为样本，将按照上述方法根据该训练样本的内容描述信息所确定的向量作为向本标签，对卷积神经网络进行训练。经过大量的训练过程后，将得到的模型作为所述特征提取模型。

具体地，卷积神经网络类型的模型采用基于ImageNet数据集预训练的Resnet101模型，由于该模型用在图像分类数据集，去掉最后一层全连接层，改为尺寸为属性集大小的全连接层，最后为softmax层，用来将得到的特征向量做归一化，代表属于该图像的属性的概率大小。即特征提取模型的结构，从模型的输入到输出包括的层结构有：去掉最后一层全连接层的Resnet101模型、输出维度为1*n的全连接层和对1*n的向量进行归一化，使得该向量中各元素之和为1的结构层。

以下对特征提取模型的训练过程进行介绍：假设有N个训练样本，n为属性集大小(即单词表中包含的单词总数)，每一训练图像的样本标签设为y_ij，y_ij代表第i张训练图像的样本标签。y_ij＝[y_i1，y_i2，...,y_in]，其中，y_ij＝1代表单词表中第j个单词存在概率(即第j个单词包含在第i张训练图像的内容描述信息中)，反之，y_ij＝0(即第j个单词没有包含在第i张训练图像的内容描述信息中)。

在训练时，将第i张训练图像经过上述卷积神经网络类型的特征提取模型进行结果预测，得到预测结果为p_ij，p_ij＝[p_i1,p_i2,...,p_in]。可以理解的是，训练的目的是使得p_ij与y_ij接近。这一过程通过使得逻辑斯特损失函数减小实现。逻辑斯特损失函数越小，则特征提取模型的准确性越高，越符合预期。其中，逻辑斯特损失函数J表示为：

在训练过程中，可以采用Adam梯度下降算法，将卷积神经网络的最后一层全连接层的学习率设置为0.01，其他的层设置为0.001，总共进行40次迭代，并且每经过10次迭代之后，将学习率对应地设置为之前的1/10。为了加速计算并防止过拟合，采用dropout的训练方式，dropout的概率设置为0.5。

进一步地，将所述图像输入特征提取模型之前，还包括：将图像调整为256*256大小。

进一步地，在上述实施例的基础上，所述步骤103包括：

将所述高维特征向量输入描述生成模型，由所述描述生成模型循环执行描述生成操作，直到满足预设循环终止条件，将由每次执行所述描述生成操作的输出组成的语句，作为所述内容描述信息；

所述描述生成操作包括：首次执行时，根据所述高维特征向量、以及起始字符和/或初始的模型预设层向量确定首次的输出；

非首次执行时，根据所述高维特征向量，以及上一次执行所述描述生成操作的输出和/或确定的模型预设层向量，确定本次的输出；

其中，模型预设层向量为由所述描述生成模型的结构中某一预设层确定的向量；所述起始字符为用于标识开始生成所述内容描述信息的字符。

进一步地，描述生成模型根据训练图像的高维特征向量和训练图像的内容描述信息进行训练得到。

预设层是描述生成模型中某一参与运算的层，例如，描述生成模型中包括循环神经网络结构，预设层为循环神经网络结构的隐藏层。在本实施例中，描述生成模型通过多次执行描述生成操作生成内容描述信息，每次执行描述生成操作均输出内容描述信息的一部分，例如，每次输出的是一个单词或者一个介词。按照描述生成模型的输出顺序，由每次的输出所组成的语句为内容描述信息。初始的模型预设层向量为设定的向量。

对描述生成操作，具体包括以下几种情况：(1)首次执行时，根据起始字符和高维特征向量，确定首次的输出；非首次执行时，每次上一次执行所述描述生成操作的输出对所述高维特征向量进行调整，根据调整后的高维特征向量确定本次的输出。(2)首次执行时，根据初始的模型预设层向量和高维特征向量确定首次的输出；非首次执行时，每次根据上一次执行描述生成操作确定的模型预设层向量，和高维特征向量确定本次的输出。(3)首次执行时，根据起始字符和初始的模型预设层向量确定首次的输出；非首次执行时，每次根据上一次执行描述生成操作的模型预设层向量、上一次的输出和高维特征向量，三者确定本次的输出。

本实施提供的方法中，每次执行描述生成操作时，需要根据上一次的输出和/或上一次确定的模型预设层向量确定本次的输出。即描述生成模型每次的输出均需要根据上一次的情况调整本次执行描述生成操作的输入，使得在本次执行描述生成操作时，兼顾了已经输出的内容描述信息，有利于引导描述生成模型生成上下文连接通顺，能够准确表达的内容描述信息。

进一步地，在上述各实施例的基础上，所述根据所述高维特征向量，以及上一次执行所述描述生成操作的输出和确定的模型预设层向量，确定本次的输出，包括：

根据上一次执行所述描述生成操作确定的模型预设层向量和所述高维特征向量，确定本次的加权特征向量；

根据本次的加权特征向量和上一次执行所述描述生成操作的输出，确定本次的输出。

实际上，对加权特征向量可以理解为，加权特征向量包括了单词表中各单词用于描述所述图像的剩余内容的概率，所述剩余内容为所述图像的所示内容中，还未被执行所述描述生成操作的输出所描述的内容。

在实施例提供的方法中，描述生成模型非首次执行描述生成操作时，先根据上一次执行所述描述生成操作确定的模型预设层向量和高维特征向量，确定本次的加权特征向量。再根据本次的加权特征向量和上一次的执行描述生成操作的输出确定本次的输出。

在本实施例提供的方法中，由于本次的加权特征向量是根据模型预设层向量和高维特征向量新生的，表示单词表中各单词对应概率的向量，其根据已生成的模型预设层向量生成了融合上下文的加权特征向量，因而根据本次的加权特征向量有利于生成上下文通顺、能够准确表达的内容描述信息。

为了更好地说明描述生成模型对上一次的输出、上一次确定的模型预设层向量和高维特征向量进行运算的过程，图2为本实施例构建的描述生成模型的结构框架，参见图2，该描述生成模型200包括第一全连接层结构201、第二全连接层结构202、计算层结构203、第三全连接层结构204、拼接层结构205和循环神经网络206。通过图2所示的描述生成模型执行描述生成操作的过程介绍如下：

进一步地，在上述实施例的基础上，描述生成模型非首次执行描述生成操作时，所述根据上一次执行所述描述生成操作确定的模型预设层向量和所述高维特征向量，确定本次的加权特征向量，包括：

获取上一次执行所述描述生成操作时，由所述描述生成模型中循环神经网络结构的隐藏层确定的隐藏状态向量ht-1，作为上一次执行所述描述生成操作确定的模型预设层向量；

将上一次确定的模型预设层向量ht-1和所述高维特征向量V_attr，输入所述描述生成模型中的第一全连接层结构201，由所述第一全连接层结构201输出本次的第一特征向量；

将本次的第一特征向量和高维特征向量输入计算层结构203，由计算层结构203计算本次的第一特征向量与所述高维特征向量对应位置处的元素的乘积，将由乘积组成的向量作为本次的加权特征向量；

其中，第一特征向量与所述高维特征向量的维度相同。

进一步地，在上述实施例的基础上，描述生成模型非首次执行描述生成操作时，所述根据本次的加权特征向量和上一次执行所述描述生成操作的输出，确定本次的输出，包括：

获取本次的第二特征向量，将本次的第二特征向量输入所述描述生成模型中的第二全连接层结构202，由所述第二全连接层结构202输出本次的第三特征向量；

将本次的加权特征向量输入所述描述生成模型中的第三全连接层结构204，由所述第三全连接层结构204输出本次的第四特征向量；

将本次的第三特征向量和本次的第四特征向量输入拼接层结构205，拼接层结构205将本次的第三特征向量和本次的第四特征向量进行拼接，得到本次的拼接特征向量，将本次的拼接特征向量输入所述循环神经网络结构206，将所述循环神经网络结构206的输出，作为本次的输出；

其中，本次的第二特征向量为上一次的输出对应的特征向量；第三特征向量和第四特征向量的维度均等于预设维度。

预设维度为设定维度，例如，预设维度为1*256。

上一次的输出对应的特征向量通过doc2vec模型生成。

所述循环神经网络结构的结构单元采用长短时记忆单元LSTM。

以下提供一种具体的实施例，假设通过上述特征提取模型从图像中提取的高维特征向量V_attr为一维向量[x1，x2……xn]，其中，n等于单词表中单词的总数，通常为一个较大值。

将高维特征向量V_attr输入描述生成模型，由描述生成模型循环执行描述生成操作，直到满足预设循环终止条件，得到内容描述信息。

在描述生成模型循环执行描述生成操作过程中，若为非首次执行，高维特征向量V_attr，和上一次确定的模型预设层向量(在本实施中为循环神经网络隐藏层输出的隐藏状态向量h_t-1)经过第一全连接层结构201，由第一全连接层结构201输出本次的第一特征向量a_t，其中a_t为[a1，a2……an](计算过程用a_t＝softmax(f_attr(V_attr,h_t-1))来表示，f_attr(V_attr,h_t-1)表示V_attr和h_t-1经过第一全连接层结构的输出，softmax用于对a_t中的数据进行归一化，使得各概率的和为1)；

a_t和V_attr经过计算层结构203，由计算层结构203输出本次的得到加权特征向量e_t，e_t为[e1，e2……en]，其中，e_t中的任一元素ei＝xi*ai；

e_t经过第三全连接层结构204，由第三全连接层结构204进行降维处理，输出维度等于预设维度(例如，预设维度为1*256)向量，即本次的第四特征向量为z_t，其中z_t为[z1,z2……z256](z_t的计算可以用公式z_t＝W_ez*e_t+b_e表示，其中，W_ez和b_e为第三全连接层结构中的参数)；同时，上一次的输出对应的第二特征向量wordt，wordt为[d1,d2……dm]，经过第二全连接层结构202转换为维度等于预设维度的第三特征向量[f1,f2……f256]；

第四特征向量[z1,z2……z256]和第三特征向量[f1,f2……f256]经过拼接层结构205进行拼接，由接层结构205输出本次的拼接特征向量[z1，z2……z256，f1，f2……f256]；

拼接特征向量[z1,z2……z256，f1,f2……f256]经过到循环神经网络结构206，得到由循环神经网络结构206的输出，即为本次执行描述生成操作的输出。

本实施例通过搭建的描述生成模型实现了根据上一次的输出和确定的模型预设层向量生成确定本次的输出。描述生成模型整体进行训练，得到能够输出上下文通顺且能准确描述图像所示内容的内容描述信息。

具体地，LSTM可解决长期依赖问题，包括输入门、遗忘门、记忆门和输出门。以下为LSTM的基本结构：

c_t＝f_t*c_t-1+i_t*g_t

h_t＝o_t*tanh(c_t)

i_t、f_t、c_t和o_t分别为输入门、遗忘门、记忆门和输出门，W和b为可训练的参数，*表示向量对应元素相乘，h_t为t时间步的隐含层的隐含状态向量，将它用全连接层和高维特征向量一起映射到1*n维，再经过softmax函数，得到当前时间步每个单词的概率。最大概率的单词为输出的单词，即p_t＝softmax(W_hp*h_t+b_h)。

进一步地，在上述各实施例的基础上，描述生成模型首次执行描述生成操作时，所述根据所述高维特征向量、以及起始字符和/或初始的模型预设层向量确定首次的输出，包括：

获取目标语句对应的特征向量，作为初始的模型预设层向量，将所述初始的模型预设层向量和所述高维特征向量输入所述第一全连接层结构，由所述第一全连接层结构输出首次的第一特征向量；

计算首次的第一特征向量与所述高维特征向量对应位置处的元素的乘积，将由乘积组成的向量作为首次的加权特征向量；

获取所述起始字符对应的特征向量，作为所述起始特征向量，将所述起始特征向量输入所述第二全连接层结构，由所述第二全连接层结构输出首次的第三特征向量；

将首次的加权特征向量输入所述第三全连接层结构，由所述第三全连接层结构输出首次的第四特征向量；

将首次的第三特征向量和首次的第四特征向量进行拼接，得到首次的拼接特征向量，将首次的拼接特征向量输入所述循环神经网络结构，将所述循环神经网络结构的输出，作为首次的输出；

其中，所述目标语句根据目标单词在语句库中搜索得到；所述目标单词为所述高维特征向量中大于预设阈值的概率在所述单词表中对应的单词。

在确定目标语句时，先确定高维特征向量中概率大于预设概率的单词，根据这几个单词从语句库中搜索语句，搜索到的任一语句即为目标语句。例如，根据V_attr确定概率最大的5个单词，根据确定的单词从语句库中查询目标语句。然后，通过doc2vec模型确定目标语句的特征向量，作为初始的模型预设层向量V_know。

在首次执行描述生成操作时，根据初始的模型预设层向量V_know和高维特征向量确定首次的加权特征向量，根据本次的加权特征向量和起始字符对应的起始特征向量确定首次的输出。

在本实施中，由于目标语句是根据高维特征向量中概率较大的目标单词搜索的语句，因此初始的模型预设层向量中包含有以某一个或者某几个目标单词组成的语句中上下文关联的信息。且对描述生成模型进行训练的过程中，语句库中的语句用于生成初始的模型预设层向量，因此描述生成模型中保存了语句库中语句的上下文关联的信息。通过初始的模型预设层向量能够加强生成内容描述信息时上下文的关联，有利于生成通顺的语句。

进一步地，在上述各实施例的基础上，所述单词表包括从训练图像的内容描述信息中提取的单词，所述语句库包括从搜索信息中提取的语句；

其中，所述搜索信息为根据所述单词表中的各单词所获取的信息。

单词表的获取过程包括：从视频中进行关键帧的抽取，将底部字幕部分与上部主要图像分割，将字幕部分进行OCR识别，得到字幕的文本，对文本进行切割，和/或，对已知的训练图像的内容描述信息进行切割，得到所有的单词，并统计各单词出现的词频，按词频从大到小排序，去除词频小于等于5的单词，加入两个特殊字符代表描述句子的起始的标记和终止的标记，得到词库。将每个单词表示为one-hot向量，从词库中去除“a”、“of”、“on”等量词、介词，只保留动词、名词和形容词，并将所有单词转化为原型，比如“goes”、“gone”、“going”统一表示为“go”，得到单词表(也称为属性集)。

语句库的获取过程包括：利用单词表中的各单词，通过网络爬虫从各网站获取文档，然后去除文档中的无关信息，并按照句子对其进行分割。得到由分割的句子组成的语句库。

进一步地，在上述各实施例的基础上，所述预设循环终止条件为执行所述描述生成操作确定本次的输出为终止字符，或者，执行所述描述生成操作的次数大于预设次数；

其中，所述终止字符为用于标识生成所述内容描述信息的过程终止的字符。

预设次数是为了避免不生成终止字符或者终止字符太晚出现，导致描述生成模型一直循环执行描述生成操作而设置的。预设次数限制了生成内容描述信息的长度，例如，预设次数设置为16，表示每句内容描述信息最多有16个单词组成。起始字符和终止字符均为设定字符，例如，起始字符为“Start”，终止字符为“end”或者“。”，本实施例对此不做具体限制。

需要说明的是，在对描述生成模型的进行训练过程中，若非首次执行描述生成操作，则每次将上一次的样本标签对应的向量作为本次的第二特征向量，输入第二全连接层结构中。将上一次的模型预设层向量和高维特征向量输入第一全连接层结构中，执行一次描述生成操作的训练。若首次执行描述生成操作，则将通过上述语句库中搜索的语句作为初始的模型预设层向量，与高维特征向量一起输入第一全连接层结构中，并将起始字符对应的特征向量作为起始特征向量，输入第二全连接层结构中，进行首次执行描述生成操作的训练。

在描述生成模型的测试过程中，可以使得描述生成模型每次的输出为多个(例如，每次输出3个单词)。这样描述生成模型每次执行描述生成操作终止后，均能得到多个内容描述信息，根据这多个内容描述信息评价描述生成模型生成内容描述信息的准确性。这种对内容描述信息进行测试的方法减少了运行描述生成模型的次数，提高了测试效率。

以下对描述生成模型的训练过程进行阐述：

对模型进行训练时，首先将图像经过Resnet101网络得到图像的高维特征表示V_attr，取出V_attr中值最大的5个，到属性表中查询其对应的单词，将其作为关键字到文档中查询相关文本，使用doc2vec模型，得到外部知识向量V_know。

由于LSTM需要上一个时间步的隐含状态作为输入，所以将V_know经过一个全连接层(权重为W_ek)映射为512维的向量，并用其初始化h_0。随着迭代进行，外部知识会保存在LSTM中，并用相关知识是生成的描述更加准确。为了使LSTM在生成单词时，能够更加关注图像高维特征对应的信息，加入启发式概率加权，进而可以生成更合理的词。

在描述生成模型中的运算过程为：

首先，计算权重a_t，其中，a_t＝softmax(f_attr(V_attr,h_t-1))

然后，计算加权后的图像特征向量z_t，计算过程如下：

e_t＝V_attr*a_t；即将V_attr与a_t对应位置处的元素相乘，得到向量e_t；

z_t＝W_ez*e_t+b_e；即将e_t通过全连接层映射为尺寸为1*256的向量。

将上一次输出的内容描述信息也经过一个全连接层(权重为W_ea)映射为尺寸为1*256的向量，与上述的z_t拼接在一起，作为LSTM的输入。

设最后生成的单词序列为{S1,...,SL}，则每一次的加权表示为p(St|S1:t-1,V_attr,V_know)，p(St|S1:t-1,V_attr,V_know)为在图像高维特征、外部知识向量及上一个单词的条件下，生成单词S_t的概率，简写为p(St)，对其取对数操作，可以得到损失函数。损失函数为：

其中，N为训练样例的总数，L⁽ⁱ⁾是第i个训练样例生成描述的句子长度，θ表示所有的可训练参数，

是正则化项。

在训练的过程中，内容描述信息的输入以开始标记作为第一个输入，采用批量训练的方式，批处理的大小选择32，使用SGD算法对损失函数进行迭代优化。

进一步地，生成内容描述信息的图像与训练图像的图像风格相同。

不同图像风格的图像，具有不同的特点。例如，动漫风格的图像更注重图像的线条，自然风格的图像更注重色彩等。由于不同的图像具有不同的特点，因此，训练图像的图像风格与待生成内容描述信息的图像相同，能够保证生成的内容描述信息的准确性。

进一步地，还包括：

若图像为动漫风格，则训练图像包括由风格转换模型输出的动漫风格的图像。

风格转换模型以预设风格的图像作为训练样本，以动漫风格的图像作为样本标签，进行训练得到。

风格转换模型为双重对抗网络类型的模型。

若要训练对动漫图像进行高维特征提取的特征提取模型和描述

生成模型，需要大量的动漫图像作为训练图像。这些训练图像可以对MSCOCO、flickr30k等图像描述数据集中的图像进行图像风格的转换得到。进行图像风格的转换由训练的风格转换模型实现。

风格转换模型可以以真人版的图像为样本，以与真人版的图像对应的动漫版的图像为样本标签进行训练得到。例如，从真人版的《超人》影片中提取关键帧作为样本，从动漫版的《超人》影片中提取相应的关键帧作为样本标签，对双重对抗网络类型的模型进行训练得到风格转换模型。可见，通过风格转换模型扩展了获取动漫风格的训练图像的途径，保证了训练图像的种类和数量，为训练能够准确输出内容描述信息的模型奠定了基础。

以下对双重对抗网络类型的模型进行介绍：

双重对抗网络类型的模型中有两个生成器F和G，以及两个判别器D_X和D_Y。在对双重对抗网络类型的模型进行训练的过程中，假设训练样本为真人版的图像X和动漫版的图像Y。图像X经过生成器G生成另一图像风格(例如，动漫风格)的图像，用G(X)表示。而G(X)经过生成器F表示为图像X的重建图片，用F(G(X))表示。

双重对抗网络的损失函数由传统的GAN损失函数和新的循环一致性损失函数两部分组成，共同推动循环一致性。其中，传统GAN损失函数用来使GAN生成器生成对应风格的图像，G(X)，F(Y)与对应风格图像的相似性表示如下：

L_GAN(G,D_Y,X,Y)＝log(D_Y(Y))+log(1-D_Y(G(X)))

LGAN(F,DX,Y,X)＝log(Dx(X))+log(1-Dx(F(Y)))

新的循环一致性损失函数表示G(F(X))与X、F(G(Y))与Y之间的相似性，表示如下：

L_cyc(G,F)＝||F(G(X))-X||+||G(F(Y))-Y||

总的损失函数等于以上两种损失函数的加和，表示为：

L＝LGAN(G,D_Y,X,Y)+LGAN(F,D_X,Y,X)+Lcyc(G,F)

在对双重对抗网络类型的模型进行训练过程，可以采用Adam随机梯度下降算法进行训练，将学习率设置为0.00002。

图3为本实施例提供的图像内容描述信息生成装置的结构框图，参见图3，该图像内容描述信息生成装置包括获取模块301、提取模块302和生成模块303，其中，

获取模块301，用于获取图像；

提取模块302，用于将所述图像输入特征提取模型，得到高维特征向量；

生成模块303，用于根据所述高维特征向量生成内容描述信息；

本实施例提供的图像内容描述信息生成装置适用于上述实施例提供的图像内容描述信息生成方法，在此不再赘述。

本实施例提供的图像内容描述信息生成装置，通过特征提取模型确定单词表中各单词用于描述图像所示内容的概率，作为图像的高维特征向量，根据图像的高维特征向量生成图像的内容描述信息。高维特征向量中包含了与图像所示内容有有关单词的信息，因而通过高维特征向量能够实现对图像所示内容的准确描述。

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行如下方法：获取图像；将所述图像输入特征提取模型，得到高维特征向量；根据所述高维特征向量生成内容描述信息；其中，高维特征向量包括单词表中各单词用于描述图像所示内容的概率。

需要说明的是，本实施例中的电子设备在具体实现时可以为服务器，也可以为PC机，还可以为其他设备，只要其结构中包括如图4所示的处理器410、通信接口420、存储器430和通信总线440，其中处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信，且处理器410可以调用存储器430中的逻辑指令以执行上述方法即可。本实施例不对电子设备的具体实现形式进行限定。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

进一步地，本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：获取图像；将所述图像输入特征提取模型，得到高维特征向量；根据所述高维特征向量生成内容描述信息；其中，高维特征向量包括单词表中各单词用于描述图像所示内容的概率。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法，例如包括：获取图像；将所述图像输入特征提取模型，得到高维特征向量；根据所述高维特征向量生成内容描述信息；其中，高维特征向量包括单词表中各单词用于描述图像所示内容的概率。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像内容描述信息生成方法，其特征在于，包括：

获取图像；

将所述图像输入特征提取模型，得到高维特征向量；

根据所述高维特征向量生成内容描述信息；

其中，高维特征向量包括单词表中各单词用于描述图像所示内容的概率；

其中，所述根据所述高维特征向量生成内容描述信息，包括：

其中，模型预设层向量为由所述描述生成模型的结构中某一预设层确定的向量；所述起始字符为用于标识开始生成所述内容描述信息的字符；

其中，所述根据所述高维特征向量、以及起始字符和/或初始的模型预设层向量确定首次的输出，包括：

获取目标语句对应的特征向量，作为初始的模型预设层向量，将所述初始的模型预设层向量和所述高维特征向量输入第一全连接层结构，由所述第一全连接层结构输出首次的第一特征向量；

获取所述起始字符对应的特征向量，作为起始特征向量，将所述起始特征向量输入第二全连接层结构，由所述第二全连接层结构输出首次的第三特征向量；

将首次的加权特征向量输入第三全连接层结构，由所述第三全连接层结构输出首次的第四特征向量；

将首次的第三特征向量和首次的第四特征向量进行拼接，得到首次的拼接特征向量，将首次的拼接特征向量输入循环神经网络结构，将所述循环神经网络结构的输出，作为首次的输出；

2.根据权利要求1所述的图像内容描述信息生成方法，其特征在于，所述根据所述高维特征向量，以及上一次执行所述描述生成操作的输出和确定的模型预设层向量，确定本次的输出，包括：

3.根据权利要求2所述的图像内容描述信息生成方法，其特征在于，所述根据上一次执行所述描述生成操作确定的模型预设层向量和所述高维特征向量，确定本次的加权特征向量，包括：

获取上一次执行所述描述生成操作时，由所述描述生成模型中循环神经网络结构的隐藏层确定的隐藏状态向量，作为上一次执行所述描述生成操作确定的模型预设层向量；

将上一次确定的模型预设层向量和所述高维特征向量，输入所述描述生成模型中的第一全连接层结构，由所述第一全连接层结构输出本次的第一特征向量；

计算本次的第一特征向量与所述高维特征向量对应位置处的元素的乘积，将由乘积组成的向量作为本次的加权特征向量；

其中，第一特征向量与所述高维特征向量的维度相同。

4.根据权利要求3所述的图像内容描述信息生成方法，其特征在于，所述根据本次的加权特征向量和上一次执行所述描述生成操作的输出，确定本次的输出，包括：

获取本次的第二特征向量，将本次的第二特征向量输入所述描述生成模型中的第二全连接层结构，由所述第二全连接层结构输出本次的第三特征向量；

将本次的加权特征向量输入所述描述生成模型中的第三全连接层结构，由所述第三全连接层结构输出本次的第四特征向量；

将本次的第三特征向量和本次的第四特征向量进行拼接，得到本次的拼接特征向量，将本次的拼接特征向量输入所述循环神经网络结构，将所述循环神经网络结构的输出，作为本次的输出；

5.根据权利要求1所述的图像内容描述信息生成方法，其特征在于，所述预设循环终止条件为执行所述描述生成操作确定本次的输出为终止字符，或者，执行所述描述生成操作的次数大于预设次数；

6.根据权利要求1所述的图像内容描述信息生成方法，其特征在于，所述单词表包括从训练图像的内容描述信息中提取的单词，所述语句库包括从搜索信息中提取的语句；

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述图像内容描述信息生成方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述图像内容描述信息方法的步骤。