CN111611805B

CN111611805B - 一种基于图像的辅助写作方法、装置、介质及设备

Info

Publication number: CN111611805B
Application number: CN202010332409.9A
Authority: CN
Inventors: 杨翰章; 邓黎明; 庄伯金; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2023-04-07
Anticipated expiration: 2040-04-24
Also published as: CN111611805A; WO2021212601A1

Abstract

本申请涉及人工智能领域，提供一种基于图像的辅助写作方法，包括：获取目标图像的图像信息；将图像信息输入多标签分类模型中，得到图像的第一属性的关键词标签；将图像信息输入单标签分类模型中，得到图像的第二属性的候选关键词标签；第二属性与第一属性为目标图像中不同信息的特征；将第一属性的关键词标签与第二属性的候选关键词标签进行映射，得到图像关键词标签信息；将图像关键词标签信息输入至诗歌生成模型中，基于模型记忆矩阵生成诗词内容。此外，本申请还涉及区块链领域，多标签分类模型、单标签模型和诗歌生成模型可存储于区块链中。本申请可以增强生成的诗句与所给图像信息以及目标图像的关联性。

Description

一种基于图像的辅助写作方法、装置、介质及设备

技术领域

本发明涉及软件技术以及古诗词生成领域，尤其是涉及一种基于图像的辅助写作的方法、装置、计算机介质及设备。

背景技术

诗歌是一种语言简洁、表达凝练的文本形式，同时还具有一定的结构和音韵要求，在很多场景会用到古诗词生成工具，例如，老师教学中，老师会选择与某一场景类似的诗词信息进行教学，需要借助相关场景的图像信息从而在诗词生成工具中生成与该图像关联的诗句信息；在公园里游客会根据某一景物图需要借助诗词生成工具中生成与游客所需图像相关联的诗句信息。

但是古诗词生成工具基于图像内容生成诗歌的任务比普通文本更加困难，会出现生成的古诗词所表达的含义偏离图像内容，而且也无法保证诗句上下文语意连贯性，导致古诗词生成工具生成的诗词与图像之间关联性不强且生成的诗句上下文语义连贯性较弱。

发明内容

为了解决古诗词生成时，出现生成的古诗词中与图像内容关联性不强，且诗句上下文语意连贯性较弱的问题，本申请提出了一种基于图像的辅助写作的方法，包括：

获取目标图像的图像信息；将所述图像信息输入多标签分类模型中，得到所述图像的第一属性的关键词标签；将所述图像信息输入单标签分类模型中，得到所述图像的第二属性的候选关键词标签；所述第二属性与所述第一属性为所述目标图像中不同信息的特征；将所述第一属性的关键词标签与所述第二属性的候选关键词标签进行映射，得到图像关键词标签信息；将所述图像关键词标签信息输入至诗歌生成模型中，基于模型记忆矩阵生成诗词内容，所述模型记忆矩阵包括关键词记忆矩阵、当前记忆矩阵及历史记忆矩阵；所述关键词记忆矩阵用于存储所述图像关键词标签信息，所述当前记忆矩阵和所述历史记忆矩阵用于存储已生成的诗句的信息。

本申请的一种实施例中，所述模型记忆矩阵存储于所述诗歌生成模型中，所述关键词记忆矩阵用于存储所述图像关键词标签信息，所述当前记忆矩阵和所述历史记忆矩阵用于存储已生成的诗句的信息，包括：将所述图像关键词标签嵌入所述模型记忆矩阵的关键词记忆矩阵中作为关键词标签信息；从所述关键词记忆矩阵中通过记忆读取函数读取与生成第i行诗句信息关联的关键词标签信息；将第i-1行诗句中字符信息对应的隐藏状态信息填充到所述模型记忆矩阵的当前记忆矩阵中作为当前记忆信息；将第i-2行诗句中字符信息对应的隐藏状态信息通过记忆写入函数将计算后的信息填充到所述模型记忆矩阵的历史记忆矩阵中；读取所述关键词记忆矩阵以及所述第i行诗句的当前记忆矩阵以及历史记忆矩阵信息通过诗歌生成模型生成所述第i行诗句。

本申请的一种实施例中，还包括：所述多标签分类模型是基于多标签数据集ML-Images进行多标签图像分类任务的模型训练得到的；所述单标签模型是基于ImageNet-ILSVRC2012数据集在所述多标签分类模型上进行单标签模型的微调训练得到的。

本申请的一种实施例中，将所述第一属性关键词标签与所述第二属性候选关键词标签进行映射，得到图像关键词标签信息，包括：将所述第一属性的关键词标签和所述第二属性的候选关键词标签输入预训练的word2vec模型进行词嵌入，计算每个所述第一属性的关键词标签和每个所述第二属性的候选关键词标签的词语相似度；当存在t个词语相似度大于等于预定阈值时，选择最大的词语相似度对应的关键词标签及候选关键词标签作为图像主题词，并从所述图像主题词对应的古诗词语中随机选择一个词语映射为映射关键词标签；当存在t个词语相似度小于预定阈值时，根据预设关键词词典，对t个所述关键词标签及候选关键词标签进行映射，并选择出一个词语映射为映射关键词标签；基于所述映射关键词标签，从所述映射关键词标签中选择多个所述映射关键词标签作为输入至模型记忆矩阵中的图像关键词标签信息。

本申请的一种实施例中，从所述关键词记忆矩阵中通过记忆读取函数读取与生成第i行诗句信息关联的关键词标签信息包括：根据记忆读取函数，确定每个记忆片段被选中的概率与其自身的加权平均，得到所述模型记忆矩阵中读取记忆信息的向量，从而生成第i行诗句的第t时刻字符。

本申请的一种实施例中，所述将第i-2行诗句中字符信息对应的隐藏状态信息通过记忆写入函数计算后将计算后的信息填充到历史记忆矩阵中，包括：在诗句第i-1行诗句生成后并且在诗句第i行诗句生成前，历史时刻的第i-2行诗句的每个字符经过编码器后对应的隐藏状态，通过记忆写入函数计算后为其选择一个所述历史记忆矩阵，然后将所述隐藏状态填入所述历史记忆矩阵中。

本申请还提出了一种基于图像的辅助写作装置，包括：

图像信息获取模块，用于获取目标图像的信息；第一属性关键词模块，用于将图像信息输入多标签分类模型中，得到所述图像的第一属性的关键词标签；第二属性关键词模块，用于将图像信息输入单标签分类模型中，得到所述图像的第二属性的候选关键词标签；所述第二属性与所述第一属性为目标图像中不同信息的特征信息；关键词映射模块，用于将所述第一属性的关键词标签与所述第二属性的候选关键词标签进行映射，得到图像关键词标签信息；古诗词生成模块，用于将所述图像关键词标签信息输入至诗歌生成模型中，基于模型记忆矩阵生成诗词内容，所述模型记忆矩阵包括关键词记忆矩阵、当前记忆矩阵及历史记忆矩阵；所述关键词记忆矩阵用于存储所述图像关键词标签信息，所述当前记忆矩阵和所述历史记忆矩阵用于存储已生成的诗句信息。

根据所述的方法，所述古诗词生成模块还包括：关键词记忆矩阵单元，用于将所述图像关键词标签嵌入记忆实体的关键词记忆矩阵中作为关键词标签信息；关键词信息读取单元，用于从所述关键词记忆矩阵中通过记忆读取函数读取与生成第i行诗句信息关联的关键词标签信息；当前记忆矩阵单元，用于将第i-1行诗句中字符信息对应的隐藏状态信息填充到当前记忆矩阵中作为当前记忆信息；历史记忆矩阵单元，用于将第i-2行诗句中字符信息对应的隐藏状态信息通过记忆写入函数计算后将计算后的信息填充到历史记忆矩阵中；当前诗句生成单元，用于读取所述关键词记忆矩阵以及所述第i行诗句的当前记忆矩阵以及历史记忆矩阵信息通过序列到序列的结构生成所述第i行诗句。

本申请还提出了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述的基于图像的辅助写作的方法。

本申请还提出了一种电子设备，其特征在于，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述的基于图像的辅助写作的方法。

在本申请中，首先通过基于图像分类模型对目标图像信息进行识别与关键词提取，选择出需要生成与图像信息关联的第一属性关键词标签以及第二属性候选关键词标签，然后将第一属性关键词标签以及第二属性候选关键词标签进行映射，将映射后得到的图像关键词输入至诗歌模型中生成与目标图像相关的诗词内容。另外由于诗歌模型是基于模型记忆矩阵来生成与目标图像相关的诗词内容，模型记忆矩阵可以使生成的诗句之间具有较强的连贯性，而且也增强了生成的诗句与所给图像信息关联性，进一步也增强了生成的诗词内容与目标图像的关联性。

附图说明

为了更清楚的说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单的介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于图像的辅助写作的方法框图；

图2示意性示出一种基于图像的辅助写作的方法的应用场景示例图；

图3为本申请实施例提供的一种模型记忆矩阵构建图；

图4为本申请实施例提供的一种基于图像的辅助写作的装置框图；

图5为本申请实施例提供的一种基于图像的辅助写作的方法的电子设备示例框图；

图6为本申请实施例提供的一种基于图像的辅助写作的方法的计算机可读存储介质。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在现有诗词生成工具中，会出现缺乏与图像内容关联性强且诗句上下文语意连贯性较弱的问题。为了增强生成的古诗词与图像关键词之间的关联性，以及诗句之间的连贯性，本申请通过提出一种基于图像分类模型和模型记忆矩阵的辅助写作方法来生成与目标图像关联的诗词信息。为了实现上述申请目的，本申请提供以下技术方案：

图1是本申请实施例提供的一种基于图像的辅助写作方法，该方法包括但不限于以下步骤：

步骤S110：获取目标图像的图像信息。需要说明的是，对于图像信息，可能会包括多种特征信息，例如人物、山水风景、动物等。

步骤S120：将所述图像信息输入多标签模型中，得到所述目标图像的第一属性的关键词标签。

其中，在本申请中，使用了深度残差的卷积神经网络ResNet-101模型作为图像分类模型，在大型图像多标签数据集ML-Images上进行了多标签图像分类任务的模型训练。将一张图片I输入训练后的模型，输出为图像中多个物体对应的名词

其中k表示模型预测的前k大的概率值对应的物体名称。因此在本申请中一示例性实施例中多标签分类模型是基于多标签数据集ML-Images进行多标签图像分类任务的模型训练得到的。

需要说明的是，图像的第一属性在本申请中一示例性实施例中可以是人物的信息。

本申请使用了深度残差的卷积神经网络ResNet-101模型作为图像分类模型，在大型图像多标签数据集ML-Images上进行了多标签图像分类任务的模型训练。将一张图片I输入训练后的模型，输出为图像中多个物体对应的名词

其中k表示模型预测的前k大的概率值对应的物体名称。

其次，本申请将上述训练的多标签分类模型作为预训练模型，借助ImageNet-ILSVRC2012数据集(该数据集具有1000个标签)上进行了单标签模型的微调训练，得到图像分类单标签模型，即对于一张图片I输入该模型后，输出为图片I对应的最有可能的前k个标签

另外，由于使用ImageNet-ILSVRC2012数据集中缺少与人有关的语义标签，而依据图片作诗的任务场景中常会出现自拍及有人存在的风景照，因此本申请一示例性实施例对图像关键词对应标签进行了扩充以使多标签分类模型得到的图像属性标签可以满足与相关图像信息的关联程度。即在本申请实施例中，使用多标签分类模型预测图片中与人物相关的关键词标签

多标签分类模型扩充具体体现在在处理多标签分类模型标签时，因数据集ML-Images标签基于WordNet层次结构，它以同义词集合(synset)作为基本建构单位进行组织，且同义词集合之间是以一定数量的关系类型相关联，这些关系包括上下位关系、整体部分关系、继承关系等。本申请实施例中借助同义词集合间的上下位关系，对数据集的每一个标签，寻找其上位词，如果其上位词中包含“人物(person)”这个词，则将此标签作为与人物相关的关键词标签。通过此处理方式，不仅筛选出了候选预测标签中与人物相关联的标签，还因标签中包含更丰富的语义而增加了关键词的意象。例如，图片内容为一男一女牵手在海边沙滩上，候选关键词标签为“情侣、海边、沙滩”，经过筛选词语“情侣”是与人物相关的关键词标签，此时相较于现有的目标检测模型仅输出“男”或“女”标签，具有更丰富的语义特性。

步骤S130：将所述图像信息输入单标签分类模型中，得到所述目标图像的第二属性的候选关键词标签。

其中，单标签分类模型是指将上述训练的多标签分类模型作为预训练模型，借助ImageNet-ILSVRC2012数据集(该数据集具有1000个标签)上进行了单标签模型的微调训练，得到图像分类单标签模型，即对于一张图片I输入该模型后，输出为图片I对应的最有可能的前k个标签

步骤S140：将所述第一属性的关键词标签与所述第二属性的候选关键词标签进行映射，得到图像关键词标签信息。

本申请实施例利用《诗学含英》词典对图像的第一属性的关键词标签和第二属性的候选关键词标签进行了关键词映射。《诗学含英》词典由1016种主题词及对应古诗词语构成，即词典每行经空格隔开，首词表示主题词且基本以现代汉语表示，该行其余各词为对应该主题的古诗中词语。因此本申请分别对合并后的预测标签

以及各主题词

利用预训练过的word2vec进行词嵌入，然后计算每个预测标签

与各主题词

的词语相似度：

其中

分别为标签与主题词的词嵌入向量，d表示向量维度。设置相似度阈值δ＝0.6，则本申请中选择关键词的方法为：

当存在t个(t≥1)相似度满足similarity≥δ时，选择最大相似度对应的主题词，并从其对应的古诗词语中随机选择一个词语映射为关键词；

对于较少部分标签存在相似度similarity＜δ时，需要人工根据《诗学含英》词典，对其进行映射。

最后从映射后的关键词集合中选择K₁个关键词作为图像信息的关键词标签将其输入到诗歌生成模型中进行诗歌创作。

在图像生成关键词方面，本申请将单标签分类模型的输出标签和多标签分类模型的输出标签的进行合并，再通过根据《诗学含英》词典的映射关系，得到最终的关键词。通过上述方式生成与图片对应的关键词，使其能够尽量与图片内容以及图片中物体表示的语义相关联。由于本方案的古诗生成模型与输入关键词具有直接关联，因此关键词的准确性也保证了生成古诗与图像的关联性。

步骤S150：将所述图像关键词标签信息输入至诗歌生成模型中，基于模型记忆矩阵生成诗词内容。

诗歌生成模型是基于模型记忆矩阵将图像信息输入至序列到序列的结构中生成古诗词的。

其中，模型记忆矩阵包括：关键词记忆矩阵

当前记忆矩阵

以及历史记忆矩阵

关键词记忆矩阵用于存储图像关键词标签信息，当前记忆矩阵和历史记忆矩阵用于存储已生成的诗句的信息。其中模型记忆矩阵的每一行表示一个记忆片段，d_m表示记忆片段的尺寸，K₂和K₃分别表示当前记忆和历史记忆的片段长度；整个模型记忆矩阵的记忆表示为三段记忆的拼接

[i]表示矩阵拼接，且K＝K₁+K₂+K₃。

在模型学习和生成过程中，关键词记忆矩阵M_i由所有的关键词

的隐藏层状态信息组成，并在整个诗歌生成过程中保持不变，模型在生成每行诗句时都会参考关键词记忆信息，通过记忆读取函数确定每个记忆片段被选择的概率，并在计算最终读取的记忆信息时将此概率作为记忆片段加权求和时的权重。在生成第i行诗句L_i之前，前一行诗句L_i-1的每个字符对应的隐藏层状态信息都将被写入当前记忆矩阵M₂。汉语古诗中，因相邻的两行之间往往有较强的语义关联，因此本申请将L_i-1的信息保存至当前记忆，以提供完整的近期记忆信息。其中，L_i为生成的第i行诗句信息。i为大于2的整数。

与其他两部分不同的是，在保存历史记忆信息时，模型将选择历史诗句L_1：i-2中一些显著的模型状态信息进行写入。通过这种方式让历史记忆矩阵M₃保存着远距离的历史记忆信息。

另外，构建模型记忆矩阵具体可以包括但不限于以下步骤：

步骤S1501：将所述图像关键词标签嵌入记忆实体的关键词记忆矩阵中作为关键词标签信息。

由于在对图像信息利用图像分类模型进行处理时，使用多标签模型对预测标签进行了与人物相关词的扩充，并且这些扩充词带有丰富的语义涵义，因此最终输出的关键词不仅和图像具有相关性，同时还具有图像表示的语义特性。利用这一特性，本申请将诗歌模型学到的每个关键词词嵌入独立地保存在模型的记忆中，使模型在序列到序列的结构中能够在解码时根据模型状态及全局信息，对关键词信息中的重点部分进行选择，从而保证了输入到诗歌模型中的图像关键词信息与图像之间的关联性。

步骤S1502：从所述关键词记忆矩阵中通过记忆读取函数读取与生成第i行诗句信息关联的关键词标签信息。该步骤具体实现方式如下：

a.基于注意力机制，使用记忆读取函数α_r＝A_r(M，query)来确定每个记忆片段M[k，：]被选择的概率：

z_k＝v^Tσ(M[k，：]，q)，

α₁[k，：]＝softmax(z_k)

其中，query表示的是当前模型的状态信息；公式z_k＝v^Tσ(M[k，：]，q)，中，z_k表示根据记忆片段M和模型当前状态信息query计算的相关性程度变量，v^T表示模型参数；公式α_r[k，：]＝softmax(z_k)中，α_r[k，：]表示记忆片段M[k，：]被选中的概率；

b.接着计算每个记忆片段被选中的概率与其自身的加权平均，得到模型记忆矩阵中读取记忆信息的向量o_t，从而生成第i行诗句L_i的第t时刻字符时是与输入的图像关键词相关内容还是继续历史行诗句的内容：

α_r＝A_r(M，[S_t-1；V_i-1])，

公式α_r＝A_r(M，[s_t-1：v_i-1])，中，query向量由解码器的隐藏层向量s_t-1和全局的跟踪向量v_i-1拼接而成，v_i-1在此用于避免模型读取冗余内容。

步骤S1203：将第i-1行诗词中字符信息对应的隐藏状态信息填充到当前记忆矩阵中作为当前记忆信息。

在生成第i行诗句L_i之前，前一行诗句L_i-1的每个字符对应的隐藏层状态信息都将被写入当前记忆矩阵M₂。汉语古诗中，因相邻的两行之间往往有较强的语义关联，因此本申请将L_i-1的信息保存至当前记忆，以提供完整的近期记忆信息。当前记忆信息为当前时刻模型的输入，表示的是模型当前时刻输入的语义特征，在模型生成文本的过程中，本申请通过训练模型对这些语义特征进行选择从而学习古诗语料中语法及韵律格式。

步骤S1504：将第i-2行诗词中字符信息对应的隐藏状态信息通过记忆写入函数计算后将计算后的信息填充到历史记忆矩阵中。

该步骤具体实现方式如下：

在保存历史记忆信息时，模型将选择历史诗句L_1：i-2中一些显著的模型状态信息进行写入。通过这种方式让历史记忆矩阵M₃保存着远距离的历史记忆信息。

在诗句L_i生成后并且在诗句L_i+1生成前，历史时刻的诗句L_i-1的每个字符经过编码器后对应的隐藏状态h_t，通过记忆写入函数计算后为其选择一个历史记忆矩阵，然后将该状态h_t填入历史记忆矩阵中：

α_w＝A_w(M₃，[h_t；v_i-1])，

β＝tanh(γ×(α_w-1×max(α_w)))+1，

M₃[k，：]：＝(1-β[k，：])×M₂[k，：]+β[k，：]×h_t，

其中，公式α_w＝A_w(M₃，[h_t；v_i-1])，中，函数A_w的计算方法与公式α_r＝A_r(M，query)中的计算方式相同，α_w表示将隐藏状态h_t写入记忆片段的概率；

公式β＝tanh(γ×(α_w-1×max(α_w)))+1，中，1表示元素均为1的向量，γ表示经验选择的正数阈值，公式是可微的，通过公式能够将写入概率更高的隐藏状态h_t填充到历史记忆矩阵上。

步骤S1505：读取所述关键词记忆矩阵以及所述L_i诗句的当前记忆矩阵以及历史记忆矩阵信息通过序列到序列的结构生成所述L_i行诗句。

基于前序的i-1行诗句信息L_1：t-1和图像关键词信息

来生成第i行诗句，从而逐行地生成一首诗，得到与图片关联性较强的诗句，且每行诗句之间相关性较大。

在基于关键词生成古诗方面，本申请采用了具有记忆机制的序列到序列的神经网络模型。模型的记忆由关键词记忆信息，历史记忆信息以及当前记忆信息三段组成。关于模型记忆的特点，描述如下：

由于第一阶段中使用多标签模型对预测标签进行了与人物相关词的扩充，并且这些扩充词带有丰富的语义涵义，因此最终输出的关键词不仅和图像具有相关性，同时还具有图像表示的语义特性。利用这一特性，本申请将模型学到的每个关键词词嵌入独立地保存在模型的记忆中，使模型能够在解码时根据模型状态及全局信息，对关键词信息中的重点部分进行选择，实际上也通过这种方式间接利用了图像上的关键信息。

同时，通过对模型历史记忆地动态读写，让模型记忆只保留有限的历史信息，这有别于现有方法中，将历史生成过程中的状态信息全部保留下来的做法。本申请的这一做法，需要训练模型学会专注于与诗歌生成密切相关的信息，而筛选并忽略生成过程中的干扰信息，进一步地保证模型的生成诗句之间的连贯性。

最后，当前记忆信息为当前时刻模型的输入，表示的是模型当前时刻输入的语义特征，在模型生成文本的过程中，本方案通过训练模型对这些语义特征进行选择从而学习古诗语料中语法及韵律格式。

模型生成过程中，需要对记忆信息进行选择性地读取，以及需要对记忆信息进行选择性地更新，这也与现有专利方法中仅将关键词信息与前序诗句信息作为模型解码器输入的思路相区别。关键步骤如下：

在生成一行诗句时，本方案的古诗生成模型逐步学习从记忆中读取与该行诗句最相关的关键词信息及记忆信息，来指导当前行诗句的生成，这种读取是一种注意力机制的实现，通过训练模型将学会在生成诗句每个字符的时候找到记忆中最需要关注的信息，例如选择需要生成与关键词关联的字符还是与历史诗句语义相连贯的字符。

在生成一行诗句后，模型将被训练学习挑选出生成一句诗时作用最突出的模型当前记忆状态部分，写入模型的历史记忆中以完成模型整体记忆的更新。这种写入同样也是一种注意力机制的实现，通过历史记忆动态读写的方式，来训练模型学会专注于诗句生成相关的信息，而忽略生成过程中的干扰信息，从而保证诗句之间的连贯性。

在所述模型记忆矩阵构建完成之后，将目标图像的图像信息输入至诗歌生成模型中，并按照模型记忆矩阵的诗词生成方法，从而生成与所述图像关联的整首诗句信息。该步骤具体实现方式如下：

在本申请中，使用序列到序列(sequence-to-sequence)的结构生成每首古诗，该结构由编码器和解码器构成，本申请中使用双向的门控循环单元GRU(Gated RecurrentUnit)作为模型的编码器，使用单向的GRU作为模型的解码器。编码器的输入X为一行诗句L_i-1，X＝(x₁，x₂，...，x_{L_enc})，其中L_enc表示编码器限定的最大输入长度，解码器的输出Y也为一行诗句L_i，Y＝(y₁，y₂，...，y_{L_deo})，其中L_dec表示解码器限定的最大输出长度。

h_t和s_t分别表示编码器和解码器的隐藏层状态；e(y_t)表示t时刻解码器输出字符y_t的词嵌入向量；计算模型生成诗句L_t中生成t时刻字符的概率分布：

s_t＝GRU(s_t-1，[e(y_t-1)；o_t；p_t；v_i-1])

在公式s_t＝GRU(s_t-1，[e(y_t-1)；o_t；p_t；v_t-1])中，其中o_t表示模型记忆矩阵的输出向量；p_t是模型在训练中学习到的韵律嵌入和诗句长度嵌入的拼接向量；

公式

中，W表示模型需训练参数；所述公式表示在学习生成L_i行诗句时，模型需要参考该行已经生成的信息y_1，t-1，前序行已经生成的信息L_1：t-1，以及关键词信息

v_i-1表示全局的跟踪向量，其初始值为全零向量，用于记录到目前行L_i-1为止生成的内容信息，并为模型生成下一行诗句L_i时提供全局信息。

最后，在L_i行诗句生成结束，需要使用一个普通的循环神经网络RNN对其进行更新:

公式

中，σ表示非线性层映射函数。

对上述模型记忆矩阵进行训练，使训练数据的对数似然最大，并从序列到序列的结构中输出与所述图像关联的整首诗句信息：

本申请采用了具有记忆机制的序列到序列的神经网络模型。训练模型有效地关注和选择关键词的重要信息以及历史生成诗句中的关键信息，同时筛除和忽略信息中的干扰部分。在生成一行诗句时，通过读取记忆信息来找到模型生成单个字符时最需要关注的信息，如侧重与关键词的关联或是与历史诗句的连贯，从而指导单个字符的生成。在生成一行诗句后，通过对历史记忆信息进行更新，来保证模型将与诗句生成相关的状态信息写入记忆。通过对模型记忆进行动态地读取和写入，最终保证了生成的古诗与关键词的关联性，以及诗句之间的连贯性。

需要强调的是，为进一步保证上述多标签分类模型、单标签模型和诗歌生成模型的私密和安全性，上述多标签分类模型、单标签模型和诗歌生成模型还可以存储于一区块链的节点中。

图4是另一示例性实施例示出的一种基于图像的辅助写作装置300，包括：

图像信息获取模块310，用于获取目标图像的图像信息。

第一属性关键词模块320，用于将图像信息输入多标签分类模型中，得到图像的第一属性的关键词标签。

第二属性关键词模块330，用于将图像信息再次输入单标签分类模型中，得到图像的第二属性的候选关键词标签。

关键词映射模块340，用于将所述第一属性的关键词标签与所述第二属性的候选关键词标签进行映射，得到图像关键词标签信息。

诗词生成模块350，用于读取关键词记忆矩阵以及第i行诗句的当前记忆矩阵以及历史记忆矩阵信息通过序列到序列的结构生成第i行诗句。

通过多标签分类模型提取出与图像相关的人物关键词标签信息，使用多标签模型对预测标签进行了与人物相关词的扩充，并且这些扩充词带有丰富的语义涵义，因此最终输出的关键词不仅和图像具有相关性，同时还具有图像表示的语义特性。保证了提取的人物关键词信息与图像信息的关联性。然后将图像分类模型得到的图像属性关键词标签信息进行映射选取其中与图像有一定关联性的图像关键词，确保了一开始输入诗歌模型的图像属性关键词参数具有较强的关联性。

另外，在模型记忆矩阵中，通过对历史记忆地动态读写，让模型记忆只保留有限的历史信息，这有别于现有方法中，将历史生成过程中的状态信息全部保留下来的做法。本申请的这一做法中，需要训练模型学会专注于与诗歌生成密切相关的信息，而筛选并忽略生成过程中的干扰信息，进一步地保证模型的生成诗句之间的连贯性。从而可以满足使用者的需求，使生成的诗句信息与目标图像具有较强的关联性以及增强诗句之间的连贯性。

参照图5来描述根据本发明的这种实施方式的电子设备400。图5显示的电子设备400仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，电子设备400以通用计算设备的形式表现。电子设备400的组件可以包括但不限于：上述至少一个处理单元410、上述至少一个存储单元420、连接不同系统组件(包括存储单元420和处理单元410)的总线430。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元410执行，使得所述处理单元410执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元410可以执行如图1中所示的步骤S110：获取目标图像的图像信息。需要说明的是，对于图像信息，可能会包括多种特征信息，例如人物、山水风景、动物等；步骤S120：将所述图像信息输入多标签模型中，得到所述目标图像的第一属性的关键词标签；步骤S130：将所述图像信息输入单标签分类模型中，得到所述目标图像的第二属性的候选关键词标签；步骤S140：将所述第一属性的关键词标签与所述第二属性的候选关键词标签进行映射，得到图像关键词标签信息；步骤S150：将所述图像关键词标签信息输入至诗歌生成模型中，基于模型记忆矩阵生成诗词内容。

存储单元420可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)4201和/或高速缓存存储单元4202，还可以进一步包括只读存储单元(ROM)5203。

存储单元420还可以包括具有一组(至少一个)程序模块4205的程序/实用工具4204，这样的程序模块4205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线430可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备400也可以与一个或多个外部设备600(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备400交互的设备通信，和/或与使得该电子设备400能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口450进行。并且，电子设备400还可以通过网络适配器460与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器460通过总线430与电子设备400的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备400使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本申请的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。

参考图6所示，描述了根据本申请的实施方式的用于实现上述方法的程序产品500，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种基于图像的辅助写作方法，其特征在于，包括：

获取目标图像的图像信息；

将所述图像信息输入多标签分类模型中，得到所述目标图像的第一属性的关键词标签；

将所述图像信息输入单标签分类模型中，得到所述目标图像的第二属性的候选关键词标签；所述第二属性与所述第一属性为所述目标图像中不同信息的特征；

将所述第一属性的关键词标签与所述第二属性的候选关键词标签进行映射，得到图像关键词标签信息；

将所述图像关键词标签信息输入至诗歌生成模型中，基于模型记忆矩阵生成诗词内容，所述模型记忆矩阵包括关键词记忆矩阵、当前记忆矩阵及历史记忆矩阵；所述关键词记忆矩阵用于存储所述图像关键词标签信息，所述当前记忆矩阵和所述历史记忆矩阵用于存储已生成的诗句信息；

将所述图像关键词标签嵌入所述模型记忆矩阵的关键词记忆矩阵中作为关键词标签信息；

从所述关键词记忆矩阵中通过记忆读取函数读取与生成第i行诗句信息关联的关键词标签信息；

将第i-1行诗句中字符信息对应的隐藏状态信息填充到所述模型记忆矩阵的当前记忆矩阵中作为当前记忆信息；

将第i-2行诗句中字符信息对应的隐藏状态信息通过记忆写入函数计算后将计算后的信息填充到所述模型记忆矩阵的历史记忆矩阵中；其中，所述记忆写入函数用于计算将所述隐藏状态信息写入记忆片段的概率，并将写入概率更高的所述隐藏状态信息填充到所述历史记忆矩阵上；

读取所述关键词记忆矩阵以及所述第i行诗句的当前记忆矩阵以及历史记忆矩阵信息通过诗歌生成模型生成所述第i行诗句。

2.根据权利要求1所述的方法，其特征在于，所述模型记忆矩阵存储于所述诗歌生成模型中，所述诗歌生成模型存储于区块链中。

3.根据权利要求1所述的方法，其特征在于，还包括：

所述多标签分类模型是基于多标签数据集ML-Images进行多标签图像分类任务的模型训练得到的；

所述单标签模型是基于ImageNet-ILSVRC2012数据集在所述多标签分类模型上进行单标签模型的微调训练得到的；

所述多标签分类模型和所述单标签模型存储于区块链中。

4.根据权利要求1所述的方法，其特征在于，将所述第一属性的关键词标签与所述第二属性的候选关键词标签进行映射，得到图像关键词标签信息，包括：

将所述第一属性的关键词标签和所述第二属性的候选关键词标签输入预训练的word2vec模型进行词嵌入，计算每个所述第一属性的关键词标签和每个所述第二属性的候选关键词标签的词语相似度；

当存在t个词语相似度大于等于预定阈值时，选择最大的词语相似度对应的关键词标签及候选关键词标签作为图像主题词，并从所述图像主题词对应的古诗词语中随机选择一个词语映射为映射关键词标签；

当存在t个词语相似度小于预定阈值时，根据预设关键词词典，对t个所述关键词标签及候选关键词标签进行映射，并选择出一个词语映射为映射关键词标签；

基于所述映射关键词标签，从所述映射关键词标签中选择多个所述映射关键词标签作为输入至模型记忆矩阵中的图像关键词标签信息。

5.根据权利要求1所述的方法，其特征在于，从所述关键词记忆矩阵中通过记忆读取函数读取与生成第i行诗句信息关联的关键词标签信息包括：

根据记忆读取函数，确定每个记忆片段被选中的概率与其自身的加权平均，得到所述模型记忆矩阵中读取记忆信息的向量，从而生成第i行诗句的第t时刻字符。

6.根据权利要求1所述的方法，其特征在于，所述将第i-2行诗句中字符信息对应的隐藏状态信息通过记忆写入函数计算后将计算后的信息填充到历史记忆矩阵中，包括：

在诗句第i-1行诗句生成后并且在诗句第i行诗句生成前，历史时刻的第i-2行诗句的每个字符经过编码器后对应的隐藏状态，通过记忆写入函数计算后为其选择一个所述历史记忆矩阵，然后将所述隐藏状态填入所述历史记忆矩阵中。

7.一种基于图像的辅助写作装置，其特征在于，包括：

图像信息获取模块，用于获取目标图像的信息；

第一属性关键词模块，用于将图像信息输入多标签分类模型中，得到所述图像的第一属性的关键词标签；

第二属性关键词模块，用于将图像信息输入单标签分类模型中，得到所述图像的第二属性的候选关键词标签；所述第二属性与所述第一属性为目标图像中不同信息的特征信息；

关键词映射模块，用于将所述第一属性的关键词标签与所述第二属性的候选关键词标签进行映射，得到图像关键词标签信息；

古诗词生成模块，用于将所述图像关键词标签信息输入至诗歌生成模型中，基于模型记忆矩阵生成诗词内容，所述模型记忆矩阵包括关键词记忆矩阵、当前记忆矩阵及历史记忆矩阵；所述关键词记忆矩阵用于存储所述图像关键词标签信息，所述当前记忆矩阵和所述历史记忆矩阵用于存储已生成的诗句信息；

所述古诗词生成模块还包括：

关键词记忆矩阵单元，用于将所述图像关键词标签嵌入记忆实体的关键词记忆矩阵中作为关键词标签信息；

关键词信息读取单元，用于从所述关键词记忆矩阵中通过记忆读取函数读取与生成第i行诗句信息关联的关键词标签信息；

当前记忆矩阵单元，用于将第i-1行诗句中字符信息对应的隐藏状态信息填充到当前记忆矩阵中作为当前记忆信息；

历史记忆矩阵单元，用于将第i-2行诗句中字符信息对应的隐藏状态信息通过记忆写入函数计算后将计算后的信息填充到历史记忆矩阵中；其中，所述记忆写入函数用于计算将所述隐藏状态信息写入记忆片段的概率，并将写入概率更高的所述隐藏状态信息填充到所述历史记忆矩阵上；

当前诗句生成单元，用于读取所述关键词记忆矩阵以及所述第i行诗句的当前记忆矩阵以及历史记忆矩阵信息通过序列到序列的结构生成所述第i行诗句。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-6任一项所述的基于图像的辅助写作的方法。

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-6任一项所述的基于图像的辅助写作的方法。