CN115080786A

CN115080786A - 基于图片作诗的方法、装置、设备及存储介质

Info

Publication number: CN115080786A
Application number: CN202211003823.0A
Authority: CN
Inventors: 刘一凡; 李亚; 刘权
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-08-22
Filing date: 2022-08-22
Publication date: 2022-09-20

Abstract

本申请公开了一种基于图片作诗的方法、装置、设备及存储介质，本申请预先配置了图片文本相似度模型，基于该模型计算目标图片与预先配置的关键词列表中每一关键词对应的关键文本间的相似度，基于相似度可以筛选出满足设定条件的目标关键词，基于该目标关键词和待生成诗的目标体裁，生成与目标图片匹配的诗。本申请配置的图片文本相似度模型已经能够很好的表征输入图片、文本的特征，进而计算图片和文本间的相似度。在此基础上，通过预先配置关键词列表，能够针对任一目标图片通过模型计算得到匹配的目标关键词，当有新的关键词出现时，可以直接添加到关键词列表中即可，无需对模型进行更新训练，减少了人力成本。

Description

基于图片作诗的方法、装置、设备及存储介质

技术领域

本申请涉及自然语言处理技术领域，更具体的说，是涉及一种基于图片作诗的方法、装置、设备及存储介质。

背景技术

诗歌作为人类语言形式的巅峰，它是高度文学化，艺术化，凝练化的表达形式，多年以来都是研究自然语言生成的热门切入点。生成的诗需要满足形式格律的要求，也要满足语义方面的要求，例如文从字顺，上下文连贯一致，内容紧密围绕用户输入展开。

诗歌的生成可以辅助文学工作者进行诗歌文案的生成，激发其创作思路，也可以提供给科技馆、学校，从而激发大众、少儿对诗歌的兴趣。除此之外，还可以通过智能作诗研究如何激活人工智能的文字创作能力。

当前基于图片作诗的方案，需要额外接入一个物体识别网络以从图片中识别出包含的物体，进而以识别出的物体描述信息作为关键词，进行自动作诗。这就需要训练物体识别网络，一般性的要求用户收集大量的包含山、水、花、鸟等图片，来对物体识别网络进行训练。但是，训练后的物体识别网络依赖于训练集，对于训练集以外的新物体的图片无法识别，需要重新收集相关图片对网络进行重新训练，因而会浪费人力。

发明内容

鉴于上述问题，提出了本申请以便提供一种基于图片作诗的方法、装置、设备及存储介质，以实现支持对任意图片进行作诗，且不需要重复训练网络模型的目的。具体方案如下：

第一方面，提供了一种基于图片作诗的方法，包括：

获取目标图片，以及与预配置的关键词列表中每一关键词对应的关键文本，所述关键词对应的关键文本为包含所述关键词且不包含其余关键词的文本内容；

利用预配置的图片文本相似度模型，计算所述目标图片与每一关键词对应的关键文本的相似度；

其中，所述图片文本相似度模型基于对比学习策略进行预训练，训练过程，由训练图片与其标注的文字描述内容互为正例样本对，由训练图片与其它训练图片标注的文字描述内容互为负例样本对，以最大化正例样本对的表征特征间的相似度，最小化负例样本对的表征特征间的相似度为训练目标；

基于所述目标图片与各关键词对应的关键文本的相似度，筛选相似度满足设定条件的目标关键词；

基于所述目标关键词及待生成诗的目标体裁，生成与所述目标图片匹配的诗。

第二方面，提供了一种基于图片作诗的装置，包括：

图片及关键文本获取单元，用于获取目标图片，以及与预配置的关键词列表中每一关键词对应的关键文本，所述关键词对应的关键文本为包含所述关键词且不包含其余关键词的文本内容；

相似度计算单元，用于利用预配置的图片文本相似度模型，计算所述目标图片与每一关键词对应的关键文本的相似度；

目标关键词筛选单元，用于基于所述目标图片与各关键词对应的关键文本的相似度，筛选相似度满足设定条件的目标关键词；

诗句生成单元，用于基于所述目标关键词及待生成诗的目标体裁，生成与所述目标图片匹配的诗。

第三方面，提供了一种基于图片作诗的设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的基于图片作诗的方法的各个步骤。

第四方面，提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的基于图片作诗的方法的各个步骤。

借由上述技术方案，本申请预先配置了图片文本相似度模型，该图片文本相似度模型采用对比学习策略预训练，训练过程由训练图片与其标注的文字描述内容互为正例样本对，由训练图片与其它训练图片标注的文字描述内容互为负例样本对，以最大化正例样本对的表征特征间的相似度，最小化负例样本对的表征特征间的相似度为训练目标，基于该训练后的图片文本相似度模型，可以计算目标图片与预先配置的关键词列表中每一关键词对应的关键文本间的相似度，进而基于相似度可以筛选出满足设定条件的目标关键词，基于该目标关键词和待生成诗的目标体裁，生成与目标图片匹配的诗。由此可见，本申请预先配置的是图片文本相似度模型，而非直接对图片进行物体识别的模型，配置的图片文本相似度模型已经能够很好的表征输入图片、文本的特征，进而计算图片和文本间的相似度。在此基础上，通过预先配置关键词列表，能够针对任一目标图片通过模型计算得到匹配的目标关键词，当有新的关键词出现时，可以直接添加到关键词列表中即可，无需对图片文本相似度模型进行更新训练，极大减少了人力成本。

并且，本申请通过对比学习策略预训练得到图片文本相似度模型，该模型能够学习到图片与其标注的文字描述内容间的关系，从而更好表征输入图片及文本的表征特征，进而可以更加准确的计算图片与文本的相似度，据此能够准确的得到与图片相匹配的目标关键词，以该目标关键词进行作诗，所得到的诗句内容能够更加贴合目标图片的内容，提升了诗句的切题性。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例提供的基于图片作诗的方法的一流程示意图；

图2示例了一种图片文本相似度模型训练过程示意图；

图3示例了一种利用图片文本相似度模型计算目标图片与关键文本的相似度的过程示意图；

图4示例了一种采用本申请方案基于图片生成诗句的示意图；

图5为本申请实施例提供的一种基于图片作诗的装置结构示意图；

图6为本申请实施例提供的基于图片作诗的设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供了一种基于图片作诗的方案，可以基于用户提供的图片智能生成匹配的诗，保证诗句与图片内容的切合。

本申请方案可以基于具备数据处理能力的终端实现，该终端可以是手机、电脑、服务器、云端等。

接下来，结合图1所述，本申请的基于图片作诗的方法可以包括如下步骤：

步骤S100、获取目标图片，以及与预配置的关键词列表中每一关键词对应的关键文本。

其中，所述目标图片可以是用户提供或指定的需要进行作诗的图片。用户可以直接提供目标图片本身，也可以提供目标图片的链接，进而本申请访问该链接以获取到对应的目标图片。

本申请预先可以配置关键词列表，其中包含若干个关键词。关键词可以是对大量图片进行识别，所得到的图片中包含的物体的描述内容，如花朵、小溪、山、天空、鸟等等。

关键词对应的关键文本可以是包含所述关键词且不包含其余关键词的文本内容。通过构造与关键词对应的关键文本，便于下述步骤中利用图片文本相似度模型来计算图片与关键文本的相似度。

本步骤中可以按照设定的格式，生成与每一关键词对应的关键文本，保证生成的关键文本仅包含对应的关键词，而不包含关键词列表中其它关键词即可。

示例如，可以按照如下模板生成关键文本：这是一张包含[关键词]的图片。其中，[关键词]部分用对应的关键词替代即可，如当关键词为“小溪”时，按照上述模板生成的关键文本为：这是一张包含小溪的图片。

可以理解的是，上述仅仅示例了一种可选的生成关键文本的方式，除此之外还可以采用其它生成方式。

步骤S110、利用预配置的图片文本相似度模型，计算所述目标图片与每一关键词对应的关键文本的相似度。

其中，所述图片文本相似度模型基于对比学习策略进行预训练，训练过程，由训练图片与其标注的文字描述内容互为正例样本对，由训练图片与其它训练图片标注的文字描述内容互为负例样本对，以最大化正例样本对的表征特征间的相似度，最小化负例样本对的表征特征间的相似度为训练目标。

本申请可以收集大量带有文字描述内容的图片，作为训练数据。可以理解的是，图片标注的文字描述内容是对图片的正确描述，因此可以将图片及该图片标注的文字描述内容作为正例样本对。反之，图片A的文字描述内容与图片B并不匹配，因此可以将图片与其他图片标注的文字描述内容作为负例样本对。

在采用对比学习策略训练时，模型分别确定输入的图片和文本各自表征特征，进而以最大化正例样本对的表征特征间的相似度，最小化负例样本对的表征特征间的相似度为训练目标进行训练，得到预训练后的图片文本相似度模型。

其中，图片和文本的表征特征可以是编码向量的形式，则表征特征间的相似度可以采用图片的编码向量与文本的编码向量的乘积，作为相似度。

基于预训练得到的图片文本相似度模型，可以计算目标图片与每一关键词对应的关键文本间的相似度。具体地，可以将目标图片与关键文本输入模型，则模型分别计算目标图片和关键文本的编码向量，进而可以将计算得到的编码向量相乘，结果作为目标图片与关键文本间的相似度。

步骤S120、基于所述目标图片与各关键词对应的关键文本的相似度，筛选相似度满足设定条件的目标关键词。

具体的，本申请可以预先设置相似度条件，如相似度阈值、或相似度排名要求等，进而可以筛选相似度满足设定条件的目标关键文本，将目标关键文本对应的关键词确定为目标关键词。

步骤S130、基于所述目标关键词及待生成诗的目标体裁，生成与所述目标图片匹配的诗。

其中，待生成诗的目标体裁可以是由用户指定，也可以是随机确定。体裁可以是五言绝句、七言绝句、五言律诗、七言律诗等。

基于上一步骤得到的目标关键词及待生成诗的目标体裁，可以生成与目标图片匹配的诗。

本申请预先配置了图片文本相似度模型，该图片文本相似度模型采用对比学习策略预训练，训练过程由训练图片与其标注的文字描述内容互为正例样本对，由训练图片与其它训练图片标注的文字描述内容互为负例样本对，以最大化正例样本对的表征特征间的相似度，最小化负例样本对的表征特征间的相似度为训练目标，基于该训练后的图片文本相似度模型，可以计算目标图片与预先配置的关键词列表中每一关键词对应的关键文本间的相似度，进而基于相似度可以筛选出满足设定条件的目标关键词，基于该目标关键词和待生成诗的目标体裁，生成与目标图片匹配的诗。由此可见，本申请预先配置的是图片文本相似度模型，而非直接对图片进行物体识别的模型，配置的图片文本相似度模型已经能够很好的表征输入图片、文本的特征，进而计算图片和文本间的相似度。在此基础上，通过预先配置关键词列表，能够针对任一目标图片通过模型计算得到匹配的目标关键词，当有新的关键词出现时，可以直接添加到关键词列表中即可，无需对图片文本相似度模型进行更新训练，极大减少了人力成本。

接下来，结合图2，对图片文本相似度模型的训练过程进行说明。

图片文本相似度模型可以包括文本编码器和图片编码器，其中，文本编码器用于对输入的文本内容进行编码得到文本表征特征，可以用编码向量T表示，图片编码器用于对输入的图片进行编码得到图片表征特征，可以用编码向量I表示。

在训练图片文本相似度模型时，可以收集大量的携带有文字描述内容的训练图片，组成训练图片集。进一步将训练图片对应的文字描述内容作为文本内容，组成训练文本集。其中，训练图片集中第i个图片，与训练文本集中第i个训练文本相互对应，也即第i个训练文本为第i个训练图片的文字描述内容。

由图2可知，假设训练图片有N张，对应的文本内容也有N个。则对每张训练图片进行编码得到的编码向量分别为I₁-I_N。对每个训练文本进行编码得到的编码向量分别为T₁-T_N。

可以计算图片编码向量I与文本编码向量T间的相似度，具体可以是I与T的乘积。

由于第i张训练图片与对应的第i个训练文本是匹配的，因此图2中示例的相似度矩阵中，从左上角至右下角的对角线上的各个值为正例样本的相似度，其余为负例样本的相似度，在训练时可以以最大化正例样本的相似度，最小化负例样本的相似度为目标，对图片文本相似度模型进行训练。

具体地，训练目标可以按照如下公式计算：

其中，τ为温度指数。

可选的，上述文本编码器可以采用Transformer格式的编码器。图片编码器可以采用Vision Transformer格式的编码器。

基于训练后的图片文本相似度模型，上述步骤S110，利用预配置的图片文本相似度模型，计算所述目标图片与每一关键词对应的关键文本的相似度的过程按照如下方式实施。

参考图3所示：

S1、利用图片文本相似度模型中的图片编码器，对所述目标图片编码，得到目标图片的表征特征。

具体地，图片编码器对目标图片编码后得到的表征特征可以用I₁表示。

S2、利用图片文本相似度模型中的文本编码器，对关键词列表中每一关键词对应的关键文本编码，得到每一关键文本的表征特征。

本申请预先配置了关键词列表，里面包含收集的多个关键词。示例如图3，关键词列表包括：plane、car、cat…bird等。

对于关键词列表中每一个关键词，生成对应的关键文本。由文本编码器对每一关键文本进行编码，得到编码后的表征特征，用T表示。则对于关键词列表中第i个关键词，得到的编码表征特征为T_i。关键词列表中有N个关键词，最终得到N个编码表征特征T₁-T_N。

S3、计算所述目标图片的表征特征与每一关键文本的表征特征的相似度。

具体地，可以将目标图片的表征特征I₁分别与每一关键词对应关键文本的编码后的表征特征T进行点乘，结果作为目标图片与每一关键词对应关键文本的相似度。

如图3所示，目标图片中包含的是猫（cat），对应的关键词列表中第三个关键词为cat，由此可知，最终计算得到的I₁·T₃的值应该是满足设定相似度条件的，可以确定与目标图片匹配的目标关键词为cat。

在本申请的一些实施例中，对上述步骤S130，基于所述目标关键词及待生成诗的目标体裁，生成与所述目标图片匹配的诗的过程进行介绍。

本实施例中可以预先训练得到诗句生成模型，该诗句生成模型以训练诗句、所述训练诗句的体裁，及从所述训练诗句中抽取的关键词作为训练数据训练得到。

其中，训练数据可以是从网络公开数据中收集的诗句数据。对诗句数据进行格式处理，标注每首诗的体裁，如五言绝句、七言绝句、五言律诗、七言律诗等。

由于诗句本身并未标注关键词数据，因此本申请可以从训练诗句中抽取关键词，作为每首诗的关键词。从训练诗句中抽取关键词时，可以采用分词、TF-IDF算法查找得分最高的Y个词。进一步地，还可以从诗的标题中抽取关键词，如直接将标题作为关键词，或对标题采用TF-IDF算法提取关键词。

在得到训练诗句、训练诗句的体裁及其包含的关键词之后，构建训练集。在构建训练集时，可以按照设定模板编辑输入训练文本。示例如，设定模板可以是：该首诗体裁是[体裁]，包含如下关键词：[关键词1]、[关键词2]…[关键词m]，正文如下：[诗句正文]。

其中，[体裁]用具体的诗的体裁替换，[关键词1]、[关键词2]…[关键词m]用具体的诗句包含的关键词替换，[诗句正文]用具体的训练诗句替换。

需要说明的是，每一首诗中提取的若干个关键词，在构建输入训练文本时，可以对若干个关键词进行不同组合，如从一首诗提取的若干关键词中随机抽取x1次，每次随机抽取x2个关键词，则基于每次抽取的关键词可以分别构建一条输入训练文本，从而扩展了输入训练文本的数量。

以古诗《静夜思》为例，假设提取的关键词包含“月光”、“夜晚”、“故乡”。则可以将“月光”、“夜晚”组合，构建一条输入训练文本；将“月光”、“故乡”组合，构建一条输入训练文本；将“夜晚”、“故乡”组合，构建一条输入训练文本。

按照上述方式训练得到诗句生成模型之后，生成与目标图片匹配的诗的过程，具体可以包括：

将所述目标关键词及待生成诗的目标体裁按照设定模板编辑成输入文本，并将编辑后的输入文本输入至诗句生成模型，得到诗句生成模型输出的与目标图片匹配的诗。

本实施例中可以采用生成式预训练模型结构作为诗句生成模型，示例如采用GPT（Generative Pre-Training）模型等。

在此基础上，诗句生成模型在生成诗时是逐字生成的，模型以前文输出作为输入，来预测生成下一个字。示例如，

输入为：该首诗体裁是五言绝句，包含如下关键词：白日、黄河，正文如下：。

显然，正文部分是需要模型生成的，因此输入信息中正文部分空着。

诗句生成模型基于上述输入，输出为：

该首诗体裁是五言绝句，包含如下关键词：白日、黄河，正文如下：白。

诗句生成模型以该生成的字符作为正文部分，重新组织输入为：

基于上述新的输入，诗句生成模型的输出为：

该首诗体裁是五言绝句，包含如下关键词：白日、黄河，正文如下：白日。以此类推，直至最终得到完整的诗。

按照上述介绍，诗句生成模型在生成与目标图片匹配的诗时，基于所述目标关键词、所述目标体裁及已生成字符，逐个预测得到下一字符，直至得到最后一个字符后，按照预测顺序将各字符组合为一首诗。

其中，在预测得到每一字符时，基于诗句生成模型计算的词典中各字符的概率，选取概率最大的字符作为预测得到的字符，或，在概率最大的topQ个字符中随机选取一个字符作为预测得到的字符，Q为设定值。

具体地，诗句生成模型在预测每一个字符时，输出为词典长度p的向量V = [v₁,v₂,v₃…v_p]，每一个v的位置对应词典中的一个字符，v_i为词典中第i个字符的出现概率。

一种可选的情况下，可以直接选取概率最大的字符作为预测得到的字符。

另一种可选的情况下，为了提升生成的诗句的多样性，可以在概率最大的topQ个字符中随机选取一个字符作为预测得到的字符，以此提升了生成的各诗的多样性。

进一步可选的，为了提升生成的诗句符合韵律要求，本实施例中在预测每个字符过程中，还可以按照预设的韵律规律要求，对每个字符的概率进行惩罚，具体如下：

在上述步骤中，选取概率最大的字符作为预测字符，或，在概率最大的topQ个字符中随机选取一个字符作为预测字符之前，还可以包括如下步骤：

按照当前所要预测的字符在整首诗中的出现位置，以及预设的韵律规律要求，分别判断词典中每一字符的发音是否符合韵律规律要求，并基于判断结果确定每一字符的惩罚系数。

将计算得到的词典中每一字符的概率与对应的惩罚系数相乘，结果作为字符的最终概率。

其中，设定的韵律规则要求可以采用绝律诗平仄韵二十八式格律表。

对于词典中每一字符，若其存在至少一种读音符合韵律规律要求，则可以设置其惩罚系数为a1，若其发音不符合韵律规律要求，则可以设置其惩罚系数为a2，a1大于a2。a1示例性的可以取值为1，a2示例性的可取值为0.8或其它数值。

将每个字符的概率与对应的惩罚系数相乘，结果作为每个字符的最终概率。进一步，按照该最终概率，确定最终的预测字符。

显然，按照本实施例的方案，通过考虑字符发音是否符合韵律规律要求，对字符的概率进行惩罚，以提升符合韵律规律要求的字符作为生成字符的概率，使得最终生成的诗句更加符合韵律要求。

在本申请的一些实施例中，对前述实施例中步骤S100获取的预配置的关键词列表进行介绍。

一种可选的情况下，关键词列表可以是不区分所存储的各关键词类别的列表。

另一种可选的情况下，还可以设置关键词列表为树状结构表，该树状结构表包括多级节点，其中子节点中存储的关键词从属于父节点中存储的关键词，结构表中顶端的第一级中不同节点存储属于并列关系的不同类型的关键词。

通过上述树状结构表来存储关键词，能够很好的区分不同关键词的类型及从属关系。下表1示例了一种关键词树状结构表：

表1

可以理解的是，本申请实施例支持用户对关键词树状结构表进行更新，如添加新的关键词。对于用户所要添加的新的关键词，在树状结构表中确定新的关键词所从属的父节点，在该从属的父节点下新增子节点，并将新的关键词添加到新增子节点中。

通过对关键词列表进行分级，可以明确各个关键词的类型及从属关系，进而在确定与目标图片匹配的目标关键词时，可以选取不同类型的关键词，以提升基于目标关键词生成的诗的质量。

接下来，基于上述关键词树状结构表，对前述步骤S110中，计算所述目标图片与每一关键词对应的关键文本的相似度的过程进行说明：

S1、按照从关键词树状结构表的顶端第一级的各个节点到末尾最后一级的叶子节点的顺序遍历结构表中的每一级，在当前遍历级中确定属于上一遍历级中确定的候选节点的子节点的各个目标节点，所述候选节点为所包含的关键词对应的关键文本与所述目标图片的相似度超过设定相似度阈值的节点。

S2、计算所述目标图片与当前遍历级中确定的每一目标节点的关键词对应的关键文本的相似度，并筛选相似度超过所述设定相似度阈值的节点作为候选节点，直至得到结构表中每一级的候选节点为止。

具体地，从关键词树状结构表的第一级开始，向下逐级遍历。对于第一级，分别计算其中每个节点包含的关键词对应的关键文本与目标图片的相似度，并确定超过设定相似度阈值的节点，作为候选节点。

对于第二级，从第二级中确定属于第一级中各候选节点的子节点的目标节点。并计算目标图片与每一目标节点的关键词对应的关键文本的相似度，筛选超过设定相似度阈值的节点作为第二级的候选节点。

以此类推，确定出关键词树状结构表中每一级的候选节点，直至不存在候选节点为止。

可以理解的是，若某个节点不属于候选节点，则以该节点为根节点的树状结构中其余各个节点也不属于候选节点。以上表1为例，假设“植物”所在节点属于候选节点，下一级中“花”和“草”所在节点属于候选节点，“树”所在节点不属于候选节点，则第三级中属于“树”所在节点的各个子节点也不可能属于候选节点。

基于上述相似度计算方式，步骤S120，基于所述目标图片与各关键词对应的关键文本的相似度，筛选相似度满足设定条件的目标关键词的过程，可以包括：

S1、对于结构表中处于第一级的每个候选节点，确定从候选节点至每一叶子节点的各条路径。

也即，确定以第一级中每个候选节点为根节点的树状结构中，从根节点只各叶子节点的各条路径。

S2、在每一条路径中，查找层级最深的候选节点，基于查找到的层级最深的候选节点所包含的关键词，确定所述目标关键词。

具体地，树状结构中由上至下层级越来越深，越靠下的候选节点存储的关键词的类型越精细，本申请希望以更加精细的关键词作为目标关键词。基于此，在每一条路径中，查找层级最深的候选节点，基于查找到的层级最深的候选节点所包含的关键词，确定目标关键词。

一种可选的方式，可以将查找到的层级最深的候选节点所包含的关键词直接作为所述目标关键词。

另一种可选的方式，由查找到的层级最深的各候选节点组成候选节点集合，在候选节点集合中判断是否存在属于父子关系的两个节点，若存在，则从候选节点集合中剔除作为父节点的候选节点。

判断候选节点集合中是否存在属于同一级且从属于相同父节点的两个以上的候选节点，若存在，则在所述两个以上的候选节点中随机保留一个其余舍弃，由最终得到的候选节点集合中各候选节点所包含的关键词作为所述目标关键词。

仍以上表1为例进行说明：

假设经过上述计算确定的候选节点分别为：

“植物”、“花”、“草”、“含羞草”、“萱草”各自所在节点。

则在从“植物”到第三级中各个节点的路径上，分别查找层级最深的候选节点，分别找到：“花”、“含羞草”、“萱草”、“草”各自所在节点。

一种可选的方式，可以直接将“花”、“含羞草”、“萱草”、“草”作为目标关键词。

另一种可选的方式，判断“花”、“含羞草”、“萱草”、“草”对应的节点组成的集合中，是否存在属于父子关系的两个节点，可以看出“草”与“含羞草”、“萱草”为父子节点关系，因此从集合中将“草”对应的节点删除。

进一步，判断删除后的集合中是否存在属于同一级且从属于相同父节点的两个以上的候选节点，可以看出，“含羞草”和“萱草”属于同一级，且从属于相同父节点，因此可以从二者中随机保留一个，例如保留“含羞草”，则最终的候选节点集合中各候选节点包含的关键词为：

“花”、“含羞草”；

将上述两个关键词作为目标关键词。

按照本实施例的方式，可以避免最终确定的目标关键词中存在同类型、同级别的多个关键词，以及，避免存在属于从属关系的两个同类型关键词，使得基于确定的目标关键词所生成的诗既契合目标图片的内容，又不至于出现重复、啰嗦的情况。

参照图4，其示例了一种使用本申请的基于图片作诗的方案所生成的诗句情况。图4中左侧图片为目标图片，右侧为基于该目标图片所生成的诗句。由此可见，使用本申请的方案所生成的诗句，契合图片的主题内容，通顺度、韵律均符合要求。

下面对本申请实施例提供的文本处理装置进行描述，下文描述的文本处理装置与上文描述的文本处理方法可相互对应参照。

参见图5，图5为本申请实施例公开的一种基于图片作诗的装置结构示意图。

如图5所示，该装置可以包括：

图片及关键文本获取单元11，用于获取目标图片，以及与预配置的关键词列表中每一关键词对应的关键文本，所述关键词对应的关键文本为包含所述关键词且不包含其余关键词的文本内容；

相似度计算单元12，用于利用预配置的图片文本相似度模型，计算所述目标图片与每一关键词对应的关键文本的相似度；

目标关键词筛选单元13，用于基于所述目标图片与各关键词对应的关键文本的相似度，筛选相似度满足设定条件的目标关键词；

诗句生成单元14，用于基于所述目标关键词及待生成诗的目标体裁，生成与所述目标图片匹配的诗。

可选的，上述诗句生成单元基于所述目标关键词及待生成诗的目标体裁，生成与所述目标图片匹配的诗的过程，可以包括：

将所述目标关键词及待生成诗的目标体裁按照设定模板编辑成输入文本，并将编辑后的输入文本输入至预配置的诗句生成模型，得到诗句生成模型输出的与目标图片匹配的诗；

所述诗句生成模型以训练诗句、所述训练诗句的体裁，及从所述训练诗句中抽取的关键词作为训练数据训练得到。

可选的，上述诗句生成模型可以采用生成式预训练模型结构；所述诗句生成模型在生成与目标图片匹配的诗时，基于所述目标关键词、所述目标体裁及已生成字符，逐个预测得到下一字符，直至得到最后一个字符后，按照预测顺序将各字符组合为一首诗；

在预测得到每一字符时，基于模型计算的词典中各字符的概率，选取概率最大的字符作为预测得到的字符，或，在概率最大的topQ个字符中随机选取一个字符作为预测得到的字符，Q为设定值。

可选的，诗句生成单元诗利用诗句生成模型生成诗的过程中，在选取概率最大的字符作为预测字符，或，在概率最大的topQ个字符中随机选取一个字符作为预测字符之前，还包括：

按照当前所要预测的字符在整首诗中的出现位置，以及预设的韵律规律要求，分别判断词典中每一字符的发音是否符合韵律规律要求，并基于判断结果确定每一字符的惩罚系数；

可选的，所述图片文本相似度模型可以包括文本编码器和图片编码器，所述文本编码器用于对输入的文本内容进行编码得到文本表征特征，所述图片编码器用于对输入的图片进行编码得到图片表征特征。基于此，上述相似度计算单元利用预配置的图片文本相似度模型，计算所述目标图片与每一关键词对应的关键文本的相似度的过程，可以包括：

利用所述图片文本相似度模型中的图片编码器，对所述目标图片编码，得到目标图片的表征特征；

利用所述图片文本相似度模型中的文本编码器，对所述每一关键词对应的关键文本编码，得到每一关键文本的表征特征；

计算所述目标图片的表征特征与每一关键文本的表征特征的相似度。

可选的，上述预配置的关键词列表可以是关键词树状结构表，所述关键词树状结构表包括多级节点，子节点中存储的关键词从属于父节点中存储的关键词，结构表中顶端的第一级中不同节点存储属于并列关系的不同类型的关键词。

基于此，上述相似度计算单元计算所述目标图片与每一关键词对应的关键文本的相似度的过程，可以包括：

按照从关键词树状结构表的顶端第一级的各个节点到末尾最后一级的叶子节点的顺序遍历结构表中的每一级，在当前遍历级中确定属于上一遍历级中确定的候选节点的子节点的各个目标节点，所述候选节点为所包含的关键词对应的关键文本与所述目标图片的相似度超过设定相似度阈值的节点；

计算所述目标图片与当前遍历级中确定的每一目标节点的关键词对应的关键文本的相似度，并筛选相似度超过所述设定相似度阈值的节点作为候选节点，直至得到结构表中每一级的候选节点为止；

所述基于所述目标图片与各关键词对应的关键文本的相似度，筛选相似度满足设定条件的目标关键词，包括：

对于结构表中处于第一级的每个候选节点，确定从候选节点至每一叶子节点的各条路径；

在每一条路径中，查找层级最深的候选节点，基于查找到的层级最深的候选节点所包含的关键词，确定所述目标关键词。

可选的，上述相似度计算单元基于查找到的层级最深的候选节点所包含的关键词，确定所述目标关键词的过程，可以包括：

将查找到的层级最深的候选节点所包含的关键词作为所述目标关键词；

或，

由查找到的层级最深的各候选节点组成候选节点集合，在候选节点集合中判断是否存在属于父子关系的两个节点，若存在，则从候选节点集合中剔除作为父节点的候选节点；

可选的，本申请的装置还可以包括：关键词树状结构表更新单元，用于响应用户添加新的关键词的操作，在所述关键词树状结构表中确定所述新的关键词所从属的父节点，在所述从属的父节点下新增子节点，并将所述新的关键词添加到所述新增子节点中。

本申请实施例提供的基于图片作诗的装置可应用于基于图片作诗的设备，如终端：手机、电脑等。可选的，图6示出了基于图片作诗的设备的硬件结构框图，参照图6，设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC（ApplicationSpecific Integrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatilememory）等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于图片作诗的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，基于所述目标关键词及待生成诗的目标体裁，生成与所述目标图片匹配的诗，包括：

3.根据权利要求2所述的方法，其特征在于，所述诗句生成模型采用生成式预训练模型结构；

所述诗句生成模型在生成与目标图片匹配的诗时，基于所述目标关键词、所述目标体裁及已生成字符，逐个预测得到下一字符，直至得到最后一个字符后，按照预测顺序将各字符组合为一首诗；

4.根据权利要求3所述的方法，其特征在于，在选取概率最大的字符作为预测字符，或，在概率最大的topQ个字符中随机选取一个字符作为预测字符之前，还包括：

5.根据权利要求1所述的方法，其特征在于，所述图片文本相似度模型包括文本编码器和图片编码器，所述文本编码器用于对输入的文本内容进行编码得到文本表征特征，所述图片编码器用于对输入的图片进行编码得到图片表征特征；

所述利用预配置的图片文本相似度模型，计算所述目标图片与每一关键词对应的关键文本的相似度，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述预配置的关键词列表为关键词树状结构表，所述关键词树状结构表包括多级节点，子节点中存储的关键词从属于父节点中存储的关键词，结构表中顶端的第一级中不同节点存储属于并列关系的不同类型的关键词。

7.根据权利要求6所述的方法，其特征在于，所述计算所述目标图片与每一关键词对应的关键文本的相似度，包括：

8.根据权利要求7所述的方法，其特征在于，所述基于查找到的层级最深的候选节点所包含的关键词，确定所述目标关键词，包括：

或，

9.根据权利要求6所述的方法，其特征在于，还包括：

响应用户添加新的关键词的操作，在所述关键词树状结构表中确定所述新的关键词所从属的父节点，在所述从属的父节点下新增子节点，并将所述新的关键词添加到所述新增子节点中。

10.一种基于图片作诗的装置，其特征在于，包括：

11.一种基于图片作诗的设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1~9中任一项所述的基于图片作诗的方法的各个步骤。

12.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1~9中任一项所述的基于图片作诗的方法的各个步骤。