CN114782720A

CN114782720A - 文案的配图确定方法、装置、电子设备、介质及程序产品

Info

Publication number: CN114782720A
Application number: CN202210452241.4A
Authority: CN
Inventors: 申世伟; 金伟; 卢佳乐; 殷健源
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2022-07-22

Abstract

本公开关于一种文案的配图确定方法、装置、电子设备、介质及程序产品，该方法包括以下步骤：获得目标文案；提取目标文案的文本特征；分别确定待选图像集中每张待选图像的图像特征与目标文案的文本特征的相似度；根据相似度，在待选图像集中确定目标文案的配图。应用本公开实施例所提供的技术方案，通过确定待选图像的图像特征与目标文案的文本特征的相似度，可以简单快捷的在待选图像集中确定出目标文案的配图，提高了文案的配图的确定效率，不需要依赖于是否能够准确查找到相似文案，直接在待选图像集中确定目标文案的配图，提高了配图的匹配精准度。

Description

文案的配图确定方法、装置、电子设备、介质及程序产品

技术领域

本公开涉及计算机应用技术领域，特别是涉及一种文案的配图确定方法、装置、电子设备、介质及程序产品。

背景技术

随着计算机技术和互联网技术的快速发展，信息发布平台在给新闻报道、文学报告等文案确定配图时，多会借助于深度学习技术，智能化确定文案的配图，以节省人力成本。

目前，常用的一种文案的配图确定方式是，先查找待进行配图确定的目标文案的相似文案，然后到海量图像库中查找与相似文案的配图相似的图像，将查找到的相似图像作为目标文案的配图。即通过文本间相似、图像间相似作为桥梁实现配图的确定。

这种方式比较繁琐，要先查找到与目标文案相似的文案，才能再进一步查找与相似文案的配图相似的图像，效率较低，而且，如果在查找与目标文案相似的文案时出现偏差，将会导致查找到的与相似文案的配图相似的图像无法准确匹配到目标文案，配图的匹配精准度较低。

发明内容

本公开的目的是提供一种文案的配图确定方法、装置、电子设备、介质及程序产品，以提高文案的配图的确定效率，提高配图的匹配精准度。

为解决上述技术问题，本公开提供如下技术方案：

根据本公开实施例的第一方面，提供一种文案的配图确定方法，包括：

获得目标文案；

提取所述目标文案的文本特征；

分别确定待选图像集中每张待选图像的图像特征与所述目标文案的文本特征的相似度；

根据所述相似度，在所述待选图像集中确定所述目标文案的配图。

在本公开的一种具体实施方式中，通过以下步骤获得所述待选图像集：

基于所述目标文案的文本特征，确定所述目标文案所属的目标类目；

在素材库中查找属于所述目标类目的素材图像，并将查找到的素材图像作为待选图像加入到所述待选图像集中。

在本公开的一种具体实施方式中，通过以下步骤确定所述素材库中每张素材图像所属的类目：

提取所述素材库中每张素材图像的图像特征；

基于每张素材图像的图像特征，确定每张素材图像所属的类目。

在本公开的一种具体实施方式中，所述提取所述目标文案的文本特征，包括：

通过配图网络模型中文本分类分支提取所述目标文案的文本特征；

相应的，所述待选图像集中每张待选图像的图像特征为：通过所述配图网络模型中图像分类分支提取得到；

相应的，所述分别确定待选图像集中每张待选图像的图像特征与所述目标文案的文本特征的相似度，包括：

通过所述配图网络模型中图文相似匹配分支分别确定待选图像集中每张待选图像的图像特征与所述目标文案的文本特征的相似度。

在本公开的一种具体实施方式中，通过以下步骤预先训练获得所述配图网络模型：

获得训练数据集，所述训练数据集包括多个训练数据对，每个训练数据对包括训练图像和训练文本，每张训练图像和每个训练文本均有对应的类目标签；

利用所述训练数据集以及每个训练数据对中训练图像和训练文本对应的类目标签，对预先构建的配图网络初始模型进行迭代训练，所述配图网络初始模型包括文本分类分支、图像分类分支和图文相似匹配分支；

迭代训练完成后，获得所述配图网络模型。

在本公开的一种具体实施方式中，所述利用所述训练数据集以及每个训练数据对中训练图像和训练文本对应的类目标签，对预先构建的配图网络初始模型进行迭代训练，包括：

依次将所述训练数据集中每个训练数据对确定为当前训练数据对，将所述当前训练数据对中的训练图像输入到预先构建的配图网络初始模型的图像分类分支中，基于所述图像分类分支的输出结果和所述当前训练数据对中训练图像对应的类目标签，确定所述当前训练数据对中训练图像对应的图像分类损失；

将所述当前训练数据对中的训练文本输入到所述配图网络初始模型的文本分类分支中，基于所述文本分类分支的输出结果和所述当前训练数据对中训练文本对应的类目标签，确定所述当前训练数据对中训练文本对应的文本分类损失；

通过所述配图网络初始模型的图文相似匹配分支确定所述当前训练数据对对应的模态对比损失；

基于所述当前训练数据对中训练图像对应的图像分类损失、所述当前训练数据对中训练文本对应的文本分类损失、以及所述当前训练数据对对应的模态对比损失，确定模型损失；

基于所述模型损失，调整所述配图网络初始模型包括的图像分类分支、文本分类分支和图文相似匹配分支的参数。

在本公开的一种具体实施方式中，所述基于所述图像分类分支的输出结果和所述当前训练数据对中训练图像对应的类目标签，确定所述当前训练数据对中训练图像对应的图像分类损失，包括：

利用所述图像分类分支的图像特征提取模块提取所述当前训练数据对中训练图像的图像特征；

将所述当前训练数据对中训练图像的图像特征输入到所述图像分类分支的图像分类模块中，获得所述当前训练数据对中训练图像属于每种类目的第一分类概率；

基于所述第一分类概率与所述当前训练数据对中训练图像对应的类目标签，确定所述当前训练数据对中训练图像对应的图像分类损失。

在本公开的一种具体实施方式中，所述基于所述文本分类分支的输出结果和所述当前训练数据对中训练文本对应的类目标签，确定所述当前训练数据对中训练文本对应的文本分类损失，包括：

利用所述文本分类分支的文本特征提取模块提取所述当前训练数据对中训练文本的文本特征；

将所述当前训练数据对中训练文本的文本特征输入到所述文本分类分支的文本分类模块中，获得所述当前训练数据对中训练文本属于每种类目的第二分类概率；

基于所述第二分类概率与所述当前训练数据对中训练文本对应的类目标签，确定所述当前训练数据对中训练文本对应的文本分类损失。

在本公开的一种具体实施方式中，所述通过所述配图网络初始模型的图文相似匹配分支确定所述当前训练数据对对应的模态对比损失，包括：

将所述当前训练数据对中训练图像对应的图像特征和训练文本对应的文本特征输入到所述配图网络初始模型的图文相似匹配分支中；

利用所述图文相似匹配分支的相似度计算模块获得所述当前训练数据对对应的图文相似度矩阵；

利用所述图文相似匹配分支的损失计算模块对所述图文相似度矩阵与预设的图文匹配矩阵进行差异计算，确定所述当前训练数据对对应的模态对比损失。

在本公开的一种具体实施方式中，所述图文匹配矩阵为对角阵；所述利用所述图文相似匹配分支的损失计算模块对所述图文相似度矩阵与预设的图文匹配矩阵进行差异计算，确定所述当前训练数据对对应的模态对比损失，包括：

利用所述图文相似匹配分支的损失计算模块对所述图文相似度矩阵与预设的图文匹配矩阵对应的行分别进行差异计算，并基于全部行的差异值，获得以行为主的差异；

对所述图文相似度矩阵与所述图文匹配矩阵对应的列分别进行差异计算，并基于全部列的差异值，获得以列为主的差异；

基于所述以行为主的差异和所述以列为主的差异，确定所述当前训练数据对对应的模态对比损失。

在本公开的一种具体实施方式中，通过以下步骤判断对所述配图网络初始模型的迭代训练是否完成：

如果迭代次数达到预设的次数阈值或者所述配图网络初始模型的模型损失停止下降，则确定对所述配图网络初始模型的迭代训练完成。

在本公开的一种具体实施方式中，所述根据所述相似度，在所述待选图像集中确定所述目标文案的配图，包括：

将所述待选图像集中相似度最大的前设定数量的待选图像确定为所述目标文案的配图。

根据本公开实施例的第二方面，提供一种文案的配图确定装置，包括：

目标文案获得单元，用于获得目标文案；

文本特征提取单元，用于提取所述目标文案的文本特征；

相似度确定单元，用于分别确定待选图像集中每张待选图像的图像特征与所述目标文案的文本特征的相似度；

配图确定单元，用于根据所述相似度，在所述待选图像集中确定所述目标文案的配图。

在本公开的一种具体实施方式中，还包括待选图像集获得单元，用于通过以下步骤获得所述待选图像集：

在本公开的一种具体实施方式中，还包括图像所属类目确定单元，用于通过以下步骤确定所述素材库中每张素材图像所属的类目：

提取所述素材库中每张素材图像的图像特征；

在本公开的一种具体实施方式中，所述文本特征提取单元，用于：

相应的，所述相似度确定单元，用于：

在本公开的一种具体实施方式中，还包括模型训练单元，用于通过以下步骤预先训练获得所述配图网络模型：

迭代训练完成后，获得所述配图网络模型。

在本公开的一种具体实施方式中，所述模型训练单元，用于：

将所述当前训练数据对中训练文本的文本特征输入到所述文本分类分支的文本分类模块中，获得所述训练数据对中训练文本属于每种类目的第二分类概率；

在本公开的一种具体实施方式中，所述图文匹配矩阵为对角阵；所述模型训练单元，用于：

在本公开的一种具体实施方式中，所述模型训练单元，用于通过以下步骤判断对所述配图网络初始模型的迭代训练是否完成：

在本公开的一种具体实施方式中，所述配图确定单元，用于：

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现第一方面所述的文案的配图确定方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行第一方面所述的文案的配图确定方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中，且适于由处理器读取并执行，以使得具有所述处理器的电子设备执行第一方面所述的文案的配图确定方法。

应用本公开实施例所提供的技术方案，获得目标文案后，先提取出目标文案的文本特征，然后分别确定待选图像集中每张待选图像的图像特征与目标文案的文本特征的相似度，再根据相似度，在待选图像集中确定目标文案的配图。通过确定待选图像的图像特征与目标文案的文本特征的相似度，可以简单快捷的在待选图像集中确定出目标文案的配图，提高了文案的配图的确定效率，不需要依赖于是否能够准确查找到相似文案，直接在待选图像集中确定目标文案的配图，提高了配图的匹配精准度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例中一种文案的配图确定方法的实施流程图；

图2为本公开实施例中配图网络初始模型的结构示意图；

图3为本公开实施例中配图网络初始模型的训练过程示意图；

图4为本公开实施例中目标文案的配图过程示意图；

图5为本公开实施例中一种文案的配图确定装置的结构示意图；

图6为本公开实施例中一种电子设备的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开的核心是提供一种文案的配图确定方法，该方法可以应用于需要确定文案的配图的任意场景。比如，信息发布平台有一篇新闻报道需要发表，单纯使用文案表达无法较好地引起用户的关注，需要确定出与该新闻报道的文案匹配的配图，将新闻报道的文案和配图一起发表，以更好地吸引用户，帮助用户更好地理解该新闻报道。

参见图1所示，为本公开实施例所提供的一种文案的配图确定方法的实施流程图，该方法可以包括以下步骤：

S110：获得目标文案。

在本公开实施例中，目标文案可以为当前待进行配图确定的任意一个文案。目标文案可以是新闻报道、文学报告等的文本。

获得目标文案后可以继续后续步骤的操作。

S120：提取目标文案的文本特征。

获得目标文案后，可以提取目标文案的文本特征。具体的，可以先对目标文案的包括标题和内容的文本进行分词及编码处理，如进行one-hot编码(一位有效编码或者独热编码)。one-hot编码是通过文字字典实现文字→0-N等数字的映射，其中N就是整个字典库中文字的总数目。比如将“北京”映射为“1002”。然后可以基于编码结果提取得到目标文案的文本特征。

S130：分别确定待选图像集中每张待选图像的图像特征与目标文案的文本特征的相似度。

在本公开实施例中，可以预先获得待选图像集，待选图像集中可以包括若干张待选图像，可以预先提取得到每张待选图像的图像特征。

在获得目标文案并提取出目标文案的文本特征之后，针对待选图像集中每张待选图像，可以确定该待选图像的图像特征与目标文案的文本特征的相似度。从而分别确定出每张待选图像的图像特征与目标文案的文本特征的相似度。

在进行相似度确定时，待选图像的图像特征的特征维度与目标文案的文本特征的特征维度可以通过压缩等方式保持一致。

S140：根据相似度，在待选图像集中确定目标文案的配图。

分别确定出待选图像集中每张待选图像的图像特征与目标文案的文本特征的相似度之后，进一步可以根据相似度的大小，在待选图像集中确定目标文案的配图。对于待选图像集中的任意一张待选图像而言，该待选图像的图像特征与目标文案的文本特征的相似度越大，可以认为该待选图像与目标文案越匹配，该待选图像作为目标文案的配图越适合，反之，该待选图像的图像特征与目标文案的文本特征的相似度越小，可以认为该待选图像与目标文案越不匹配，该待选图像作为目标文案的配图越不适合。

根据相似度，在待选图像集中确定出目标文案的配图后，进一步可以输出目标文案的配图，由相关人员人工确定保留哪些配图。或者，根据相似度，如果在待选图像集中无法确定出目标文案的配图，则可以输出没有合适配图的提示信息，以方便相关人员及时进行人工确定。

应用本公开实施例所提供的方法，获得目标文案后，先提取出目标文案的文本特征，然后分别确定待选图像集中每张待选图像的图像特征与目标文案的文本特征的相似度，再根据相似度，在待选图像集中确定目标文案的配图。通过确定待选图像的图像特征与目标文案的文本特征的相似度，可以简单快捷的在待选图像集中确定出目标文案的配图，提高了文案的配图的确定效率，不需要依赖于是否能够准确查找到相似文案，可以直接在待选图像集中确定目标文案的配图，提高了配图的匹配精准度。

在本公开的一个实施例中，可以通过以下步骤获得待选图像集：

步骤一：基于目标文案的文本特征，确定目标文案所属的目标类目；

步骤二：在素材库中查找属于目标类目的素材图像，并将查找到的素材图像作为待选图像加入到待选图像集中。

为方便描述，将上述两个步骤结合起来进行说明。

在本公开实施例中，可以通过图像采集或者图像变换等方式预先建立一个素材库，素材库中包括若干张属于各种类目的素材图像，如属于体育类目、电影类目、娱乐类目、搞笑类目等的素材图像，同一素材图像可以属于一个或多个类目。具体的，可以通过人工识别的方式确定每张素材图像所属的类目，还可以通过以下步骤确定素材库中每张素材图像所属的类目：

提取素材库中每张素材图像的图像特征；

即对于素材库中每张素材图像，可以先提取得到该素材图像的图像特征，如通过图像特征提取模块提取该素材图像的图像特征，然后基于该素材图像的图像特征，确定该素材图像所属的类目，如通过图像分类模块基于该素材图像的图像特征，得到该素材图像属于每种类目的分类概率，将分类概率最高的类目确定为该素材图像所属的类目。

素材库中每加入一张素材图像，均可以提取该素材图像的图像特征，基于该素材图像的图像特征，确定该素材图像所属的类目，并在素材库中记录该素材图像所属的类目。

基于每张素材图像的图像特征，可以准确确定出每张素材图像所属的类目，为后续进行配图的准确确定提供基础保障。

获得目标文案，并提取到目标文案的文本特征之后，可以基于目标文案的文本特征，确定目标文案所属的目标类目。具体的，可以通过文本分类模块确定目标文案所属的目标类目。

确定出目标文案所属的目标类目后，可以基于该目标类目，在素材库中查找属于该目标类目的素材图像，然后将查找到的素材图像作为待选图像加入到待选图像集中。

这样将使得待选图像集中的待选图像所属的类目与目标文案所属的目标类目相同，待选图像与目标文案匹配的可能性较大。如，目标文案所属的目标类目为“体育类目”，则待选图像集中的每张待选图像所属的类目也为“体育类目”。

通过目标类目实现了粗过滤，可以精简待选图像集中待选图像，筛选掉相关性较低的素材图像，可以提高后续步骤分别确定待选图像集中每张待选图像的图像特征与目标文案的文本特征的相似度的执行效率。

当然，为保证待选图像集中待选图像的大而全，可以将素材库中所有素材图像作为待选图像加入到待选图像集中，以保障能够在待选图像集中确定出目标文案的配图。

在本公开的一个实施例中，根据相似度，在待选图像集中确定目标文案的配图，可以包括以下步骤：

将待选图像集中相似度最大的前设定数量的待选图像确定为目标文案的配图。

该设定数量可以根据实际情况进行设定和调整，如设定为3，即将相似度最大的前三张待选图像确定为目标文案的配图。这样可以保证确定出的目标文案的配图的图像特征与目标文案的文本特征的相似度较大，提高确定出的配图的准确性。

在本公开的一个实施例中，提取目标文案的文本特征，可以包括以下步骤：

通过配图网络模型中文本分类分支提取目标文案的文本特征；

相应的，待选图像集中每张待选图像的图像特征为：通过配图网络模型中图像分类分支提取得到；

相应的，分别确定待选图像集中每张待选图像的图像特征与目标文案的文本特征的相似度，可以包括以下步骤：

通过配图网络模型中图文相似匹配分支分别确定待选图像集中每张待选图像的图像特征与目标文案的文本特征的相似度。

在本公开实施例中，可以预先训练获得配图网络模型，配图网络模型可以包括文本分类分支、图像分类分支和图文相似匹配分支。

可以通过以下步骤预先训练获得配图网络模型：

第一个步骤：获得训练数据集，训练数据集包括多个训练数据对，每个训练数据对包括训练图像和训练文本，每张训练图像和每个训练文本均有对应的类目标签；

第二个步骤：利用训练数据集以及每个训练数据对中训练图像和训练文本对应的类目标签，对预先构建的配图网络初始模型进行迭代训练，配图网络初始模型包括文本分类分支、图像分类分支和图文相似匹配分支；

第三个步骤：迭代训练完成后，获得配图网络模型。

为方便理解，将上述三个步骤结合起来进行说明。

在本公开实施例中，可以先获得训练数据集。训练数据集包括多个训练数据对，每个训练数据对包括训练图像和训练文本。可以通过数据采集等方式获得训练数据对。对于每个训练数据对而言，该训练数据对中的训练图像可以是该训练数据对中的训练文本的一张或多张配图，以提高模型训练的准确度。比如，通过数据采集方式采集到一篇新闻报道，该新闻报道的文本可以作为训练文本，该新闻报道的配图可以作为训练图像，该训练文本和训练图像可以构成一个训练数据对。如果该新闻报道有多个配图，则可以将每个配图分别作为训练图像，与训练文本构成多个训练数据对，还可以将多个配图作为训练图像，与训练文本构成一个训练数据对。

每张训练图像和每个训练文本均有对应的类目标签，如体育类目、电影类目、娱乐类目、搞笑类目等类目标签。

获得训练数据集后，可以利用训练数据集以及每个训练数据对中训练图像和训练文本对应的类目标签，对预先构建的配图网络初始模型进行迭代训练。配图网络初始模型包括文本分类分支、图像分类分支和图文相似匹配分支。在迭代训练过程中，配图网络初始模型包括的文本分类分支、图像分类分支和图文相似匹配分支的所有参数均参与训练。

可以使用SGD(Stochastic Gradient Descent，随机梯度下降)优化器，设定初始学习率为0.01，设定batchsize(批尺寸)为64*GPU(graphics processing unit，图形处理器)卡数。

在迭代训练过程中，可以不断调整配图网络初始模型的参数，使得配图网络初始模型不断收敛。可以通过以下步骤判断对配图网络初始模型的迭代训练是否完成：

如果迭代次数达到预设的次数阈值或者配图网络初始模型的模型损失停止下降，则可以确定对配图网络初始模型的迭代训练完成。

次数阈值可以根据实际情况进行设定，本公开实施例对此不作限制。通过迭代次数或者配图网络初始模型的模型损失是否下降，可以准确判断配图网络初始模型的迭代训练是否完成。

在迭代训练完成后，可以将训练完成后的配图网络初始模型作为配图网络模型，应用到实际场景中。通过迭代训练，可以提高配图网络模型的匹配准确度。

具体的，可以通过配图网络模型中文本分类分支提取目标文案的文本特征，通过配图网络模型中图像分类分支提取得到待选图像集中每张待选图像的图像特征，通过配图网络模型中图文相似匹配分支分别确定待选图像集中每张待选图像的图像特征与目标文案的文本特征的相似度。

配图网络初始模型和配图网络模型的结构相同。

利用配图网络模型可以准确进行文本特征、图像特征的提取，可以准确确定待选图像的图像特征和目标文案的文本特征的相似度。

在本公开的一个实施例中，利用训练数据集以及每个训练数据对中训练图像和训练文本对应的类目标签，对预先构建的配图网络初始模型进行迭代训练，可以包括以下步骤：

步骤一：依次将训练数据集中每个训练数据对确定为当前训练数据对，将当前训练数据对中的训练图像输入到预先构建的配图网络初始模型的图像分类分支中，基于图像分类分支的输出结果和当前训练数据对中训练图像对应的类目标签，确定当前训练数据对中训练图像对应的图像分类损失；

步骤二：将当前训练数据对中的训练文本输入到配图网络初始模型的文本分类分支中，基于文本分类分支的输出结果和当前训练数据对中训练文本对应的类目标签，确定当前训练数据对中训练文本对应的文本分类损失；

步骤三：通过配图网络初始模型的图像相似匹配分支确定当前训练数据对对应的模态对比损失；

步骤四：基于当前训练数据对中训练图像对应的图像分类损失、当前训练数据对中训练文本对应的文本分类损失、以及当前训练数据对对应的模态对比损失，确定模型损失；

步骤五：基于模型损失，调整配图网络初始模型包括的图像分类分支、文本分类分支和图文相似匹配分支的参数。

为方便描述，将上述几个步骤结合起来进行说明。

获得的训练数据集包括多个训练数据对，每个训练数据对包括训练图像和训练文本，每张训练图像和每个训练文本均有对应的类目标签。

可以依次将训练数据集中每个训练数据对确定为当前训练数据对，将当前训练数据对中的训练图像输入到预先构建的配图网络初始模型的图像分类分支中，通过图像分类分支对该训练图像进行处理后，可以获得图像分类分支的输出结果。图像分类分支的输出结果可以包括该训练图像属于每种类目的分类概率。基于图像分类分支的输出结果和当前训练数据对中训练图像对应的类目标签，可以确定出当前训练数据对中训练图像对应的图像分类损失。当前训练数据对为当前操作所针对的训练数据对，即对于训练数据集中的每个训练数据对均按照对当前训练数据对的操作进行操作。

在本公开的一种具体实施方式中，如图2所示，图像分类分支可以包括图像特征提取模块和图像分类模块，基于图像分类分支的输出结果和当前训练数据对中训练图像对应的类目标签，确定当前训练数据对中训练图像对应的图像分类损失，可以包括以下步骤：

第一个步骤：利用图像分类分支的图像特征提取模块提取当前训练数据对中训练图像的图像特征；

第二个步骤：将当前训练数据对中训练图像的图像特征输入到图像分类分支的图像分类模块中，获得当前训练数据对中训练图像属于每种类目的第一分类概率；

第三个步骤：基于第一分类概率与当前训练数据对中训练图像对应的类目标签，确定当前训练数据对中训练图像对应的图像分类损失。

在本公开实施例中，图像分类分支包括的图像特征提取模块可以使用卷积网络等特征提取网络，如Resent-50D、Inception-V3等。将当前训练数据对中的训练图像输入到图像分类分支的图像特征提取模块中，可以利用图像特征提取模块提取得到该训练图像的深层内容表达特征，即图像特征X，特征维度可以为D。

提取得到当前训练数据对中训练图像的图像特征之后，进一步可以将该训练图像的图像特征输入到图像分类分支的图像分类模块中，通过图像分类模块对该训练图像进行分类处理，可以获得该训练图像属于每种类目的第一分类概率。图像分类模块可以包括多层全连接层。

获得当前训练数据对中训练图像属于每种类目的第一分类概率后，可以基于第一分类概率与当前训练数据对中训练图像对应的类目标签，确定当前训练数据对中训练图像对应的图像分类损失。具体的，可以将第一分类概率和当前训练数据对中训练图像对应的类目标签作为第一交叉熵损失函数的输入，利用第一交叉熵损失函数确定第一交叉熵损失，该第一交叉熵损失即为当前训练数据对中训练图像对应的图像分类损失，可以记为L1，如图2所示。

如图3所示，训练图像有多帧，通过Resent-50D可以对每帧图像进行图像特征提取，然后进行多帧特征交互，得到训练图像最终的图像特征，基于训练图像的图像特征，可以获得训练图像属于每种类目的第一分类概率，再基于第一分类概率和训练图像对应的类目标签，可以确定出训练图像对应的图像分类损失L1。

通过图像特征提取模块和图像分类模块准确获得训练图像属于每种类目的第一分类概率，再利用第一分类概率和训练图像对应的类目标签，可以准确确定出训练图像对应的图像分类损失。

在将当前训练数据对中的训练图像输入到配图网络初始模型的图像分类分支中，确定当前训练数据对中训练图像对应的图像分类损失的同时，可以将当前训练数据对中的训练文本输入到配图网络初始模型的文本分类分支中，通过文本分类分支对该训练文本进行处理后，可以获得文本分类分支的输出结果。文本分类分支的输出结果可以包括该训练文本属于每种类目的分类概率。基于文本分类分支的输出结果和当前训练数据对中训练文本对应的类目标签，可以确定出当前训练数据对中训练文本对应的文本分类损失。

在本公开的一种具体实施方式中，如图2所示，文本分类分支包括文本特征提取模块和文本分类模块，基于文本分类分支的输出结果和当前训练数据对中训练文本对应的类目标签，确定当前训练数据对中训练文本对应的文本分类损失，可以包括以下步骤：

第一个步骤：利用文本分类分支的文本特征提取模块提取当前训练数据对中训练文本的文本特征；

第二个步骤：将当前训练数据对中训练文本的文本特征输入到文本分类分支的文本分类模块中，获得当前训练数据对中训练文本属于每种类目的第二分类概率；

第三个步骤：基于第二分类概率与当前训练数据对中训练文本对应的类目标签，确定当前训练数据对中训练文本对应的文本分类损失。

在本公开实施例中，文本分类分支包括的文本特征提取模块可以使用用于自然语言处理的特征抽取器，如Bert等。可以先对当前训练数据对中的训练文本进行分词以及编码处理，如进行one-hot编码(一位有效编码或者独热编码)。然后将编码后的训练文本输入到文本分类分支的文本特征提取模块中，可以利用利用文本特征提取模块提取得到该训练文本的深层内容表达特征，即文本特征T，特征维度可以为D。

提取得到当前训练数据对中训练文本的图像特征之后，进一步可以将该训练文本的文本特征输入到文本分类分支的文本分类模块中，通过文本分类模块对该训练文本进行分类处理，可以获得该训练文本属于每种类目的第二分类概率。文本分类模块可以包括多层全连接层。

获得当前训练数据对中训练文本属于每种类目的第二分类概率后，可以基于第二分类概率与当前训练数据对中训练文本对应的类目标签，确定当前训练数据对中训练文本对应的文本分类损失。具体的，可以将第二分类概率和当前训练数据对中训练文本对应的类目标签作为第二交叉熵损失函数的输入，利用第二交叉熵损失函数确定第二交叉熵损失，该第二交叉熵损失即为当前训练数据对中训练文本对应的文本分类损失，可以记为L2，如图2所示。

如图3所示，训练文本为“花朵”，可以对训练文本进行文本特征提取，然后基于训练文本的文本特征，可以获得训练文本属于每种类目的第二分类概率，再基于第二分类概率和训练文本对应的类目标签，可以确定出训练文本对应的文本分类损失L2。

通过文本特征提取模块和文本分类模块准确获得训练文本属于每种类目的第二分类概率，再利用第二分类概率和训练文本对应的类目标签，可以准确确定出训练文本对应的文本分类损失。

确定出当前训练数据对中训练图像对应的图像分类损失以及训练文本对应的文本分类损失之后，进一步可以通过配图网络初始模型的图文相似匹配分支确定当前训练数据对对应的模态对比损失。

在本公开的一种具体实施方式中，如图2所示，图文相似匹配分支可以包括相似度计算模块和损失计算模块，通过配图网络初始模型的图文相似匹配分支确定当前训练数据对对应的模态对比损失，可以包括以下步骤：

第一个步骤：将当前训练数据对中训练图像对应的图像特征和训练文本对应的文本特征输入到配图网络初始模型的图文相似匹配分支中；

第二个步骤：利用图文相似匹配分支的相似度计算模块获得当前训练数据对对应的图文相似度矩阵；

第三个步骤：利用图文相似匹配分支的损失计算模块对图文相似度矩阵与预设的图文匹配矩阵进行差异计算，确定当前训练数据对对应的模态对比损失。

在本公开实施例中，可以先获得当前训练数据对中训练图像对应的图像特征和训练文本对应的文本特征。具体的，可以利用图像分类分支的图像特征提取模块提取训练图像的图像特征，利用文本分类分支的文本特征提取模块提取训练文本的文本特征。

将当前训练数据对中训练图像对应的图像特征和训练文本对应的文本特征可以输入到配图网络初始模型的图文相似匹配分支中。

先是通过图文相似匹配分支的相似度计算模块的计算处理，利用相似度计算模块获得当前训练数据对对应的图文相似度矩阵，如cos相似度矩阵。然后可以通过图文相似匹配分支的损失计算模块的计算处理，利用损失计算模块对图文相似度矩阵与预设的图文匹配矩阵进行差异计算，确定当前训练数据对对应的模态对比损失。

对图文相似度矩阵与图文匹配矩阵进行差异计算，具体的，可以进行KL散度计算或者平方差距离计算。KL散度即Kullback-Leibler divergence，也可称为相对熵(relative entropy)、信息散度(information divergence)，用于两个概率分布(probability distribution)间差异的非对称性度量。

具体的，图文匹配矩阵可以为对角阵，即对角线均为1，其他均为0的矩阵，可以先利用图文相似匹配分支的损失计算模块对图文相似度矩阵与预设的图文匹配矩阵对应的行分别进行差异计算，并基于全部行的差异值，获得以行为主的差异，同时，对图文相似度矩阵与图文匹配矩阵对应的列分别进行差异计算，并基于全部列的差异值，获得以列为主的差异，再基于以行为主的差异和以列为主的差异，确定当前训练数据对对应的模态对比损失。

即在利用图文相似匹配分支的相似度计算模块获得当前训练数据对对应的图文相似度矩阵之后，可以利用图文相似匹配分支的损失计算模块对图文相似度矩阵与图文匹配矩阵对应的行分别计算差异，得到全部行的差异值，基于全部行的差异值，可以获得以行为主的差异。比如，在差异计算为KL散度计算时，可以获得以行为主的KL散度，记为KL1，可以将全部行的KL散度值加和求平均得到以行为主的KL散度。再比如，在差异计算为平方差距离计算时，可以将全部行的平方差距离值加和求平均得到以行为主的距离。

同时，可以利用图文相似匹配分支的损失计算模块对图文相似度矩阵与图文匹配矩阵对应的列分别计算差异，得到全部列的差异值，基于全部列的差异值，可以获得以列为主的差异。比如，在差异计算为KL散度计算时，可以获得以列为主的KL散度，记为KL2，可以将全部列的KL散度值加和求平均得到以列为主的KL散度。再比如，在差异计算为平方差距离计算时，可以将全部列的平方差距离值加和求平均得到以列为主的距离。

分别获得以行为主的差异和以列为主的差异之后，可以基于以行为主的差异和以列为主的差异，确定当前训练数据对对应的模态对比损失。如可以将以行为主的差异和以列为主的差异的加权和确定为当前训练数据对对应的模态对比损失。比如，差异计算为KL散度计算，可以将以行为主的KL散度和以列为主的KL散度的加权和确定为当前训练数据对对应的模态对比损失。再比如，差异计算为平方差距离计算，可以将以行为主的距离和以列为主的距离的加权和确定为当前训练数据对对应的模态对比损失。

权重可以根据实际情况进行设定和调整，如设定为0.5，那么，以差异计算为KL散度计算为例，模态对比损失L3＝KL1*0.5+KL2*0.5。如图2所示。

如图3所示，在获得训练图像的图像特征和训练文本的文本特征后，可以获得图文相似度矩阵，对图文相似度矩阵与图文匹配矩阵进行KL散度计算，可以确定出模态对比损失L3。

通过上述方式可以准确确定出每个训练数据对对应的模态对比损失，从而为后续模型训练的顺利进行提供基础保障。

利用图文相似匹配分支确定当前训练数据对对应的模态对比损失，使得训练图像的图像特征和训练文本的文本特征有了在一个空间上进行表示的可能性。

至此，确定出了当前训练数据对中训练图像对应的图像分类损失、训练文本对应的文本分类损失、以及当前训练数据对对应的模态对比损失，可以基于确定出的这些损失，确定模型损失，也就是配图网络初始模型总的损失，可以记为Loss，Loss＝L1+L2+L3。或者，模型损失Loss可以为L1、L2和L3的加权和。

基于模型损失，可以调整配图网络初始模型包括的图像分类分支、文本分类分支和图文相似匹配分支的参数。具体的，可以以模型损失最小为目标，调整模型参数，使得配图网络初始模型不断收敛。

在利用训练数据集以及每个训练数据对中训练图像和训练文本对应的类目标签，对配图网络初始模型进行迭代训练的过程中，基于图像分类损失、文本分类损失、模态对比损失，可以准确确定模型损失，从而可以基于模型损失，有效地调整模型参数，提高模型的匹配精准度。

在迭代次数达到设定的次数阈值或者模型损失停止下降的情况下，可以确定对配图网络初始模型的迭代训练完成，获得配图网络模型。

进而在对目标文案进行配图确定的过程中，如图4所示，可以通过配图网络模型中文本分类分支的文本特征提取模块提取目标文案的文本特征，通过文本分类分支的文本分类模块确定目标文案所属的目标类目，通过配图网络模型中图像分类分支的图像特征提取模块提取素材库中每张素材图像的图像特征，通过图像分类分支的图像分类模块确定每张素材图像所属的类目，根据目标文案所属的目标类目，在素材库中查找属于目标类目的素材图像，得到待选图像集，待选图像集中的待选图像的图像特征可以调用素材库中相应素材图像的图像特征，通过配图网络模型中图文相似匹配分支分别确定待选图像集中每张待选图像的图像特征与目标文案的文本特征的相似度，再根据相似度，在待选图像集中确定目标文案的配图。

本公开实施例基于目标文案所属的目标类目，进行了粗过滤，筛选掉大量的相关性较低的素材图像，保留下与目标文案的相关性较强的待选图像，再通过相似度计算模块实现了文本特征与图像特征的相似匹配，使得确定出的目标文案的配图更加精准，在节省人力配图成本和机器运行成本的同时最大化文案和配图的匹配精准度。

相应于上面的方法实施例，本公开实施例还提供了一种文案的配图确定装置，下文描述的文案的配图确定装置与上文描述的文案的配图确定方法可相互对应参照。

参见图5所示，该装置可以包括以下单元：

目标文案获得单元510，用于获得目标文案；

文本特征提取单元520，用于提取目标文案的文本特征；

相似度确定单元530，用于分别确定待选图像集中每张待选图像的图像特征与目标文案的文本特征的相似度；

配图确定单元540，用于根据相似度，在待选图像集中确定目标文案的配图。

应用本公开实施例所提供的装置，获得目标文案后，先提取出目标文案的文本特征，然后分别确定待选图像集中每张待选图像的图像特征与目标文案的文本特征的相似度，再根据相似度，在待选图像集中确定目标文案的配图。通过确定待选图像的图像特征与目标文案的文本特征的相似度，可以简单快捷的在待选图像集中确定出目标文案的配图，提高了文案的配图的确定效率，不需要依赖于是否能够准确查找到相似文案，直接在待选图像集中确定目标文案的配图，提高了配图的匹配精准度。

在本公开的一种具体实施方式中，还包括待选图像集获得单元，用于通过以下步骤获得待选图像集：

基于目标文案的文本特征，确定目标文案所属的目标类目；

在素材库中查找属于目标类目的素材图像，并将查找到的素材图像作为待选图像加入到待选图像集中。

在本公开的一种具体实施方式中，还包括图像所属类目确定单元，用于通过以下步骤确定素材库中每张素材图像所属的类目：

提取素材库中每张素材图像的图像特征；

在本公开的一种具体实施方式中，文本特征提取单元520，用于：

相应的，相似度确定单元530，用于：

在本公开的一种具体实施方式中，还包括模型训练单元，用于通过以下步骤预先训练获得配图网络模型：

获得训练数据集，训练数据集包括多个训练数据对，每个训练数据对包括训练图像和训练文本，每张训练图像和每个训练文本均有对应的类目标签；

利用训练数据集以及每个训练数据对中训练图像和训练文本对应的类目标签，对预先构建的配图网络初始模型进行迭代训练，配图网络初始模型包括文本分类分支、图像分类分支和图文相似匹配分支；

迭代训练完成后，获得配图网络模型。

在本公开的一种具体实施方式中，模型训练单元，用于：

依次将训练数据集中每个训练数据对确定为当前训练数据对，将当前训练数据对中的训练图像输入到预先构建的配图网络初始模型的图像分类分支中，基于图像分类分支的输出结果和当前训练数据对中训练图像对应的类目标签，确定当前训练数据对中训练图像对应的图像分类损失；

将当前训练数据对中的训练文本输入到配图网络初始模型的文本分类分支中，基于文本分类分支的输出结果和当前训练数据对中训练文本对应的类目标签，确定当前训练数据对中训练文本对应的文本分类损失；

通过配图网络初始模型的图文相似匹配分支确定当前训练数据对对应的模态对比损失；

基于当前训练数据对中训练图像对应的图像分类损失、当前训练数据对中训练文本对应的文本分类损失、以及当前训练数据对对应的模态对比损失，确定模型损失；

基于模型损失，调整配图网络初始模型包括的图像分类分支、文本分类分支和图文相似匹配分支的参数。

在本公开的一种具体实施方式中，模型训练单元，用于：

利用图像分类分支的图像特征提取模块提取当前训练数据对中训练图像的图像特征；

将当前训练数据对中训练图像的图像特征输入到图像分类分支的图像分类模块中，获得当前训练数据对中训练图像属于每种类目的第一分类概率；

基于第一分类概率与当前训练数据对中训练图像对应的类目标签，确定当前训练数据对中训练图像对应的图像分类损失。

在本公开的一种具体实施方式中，模型训练单元，用于：

利用文本分类分支的文本特征提取模块提取当前训练数据对中训练文本的文本特征；

将当前训练数据对中训练文本的文本特征输入到文本分类分支的文本分类模块中，获得当前训练数据对中训练文本属于每种类目的第二分类概率；

基于第二分类概率与当前训练数据对中训练文本对应的类目标签，确定当前训练数据对中训练文本对应的文本分类损失。

在本公开的一种具体实施方式中，模型训练单元，用于：

将当前训练数据对中训练图像对应的图像特征和训练文本对应的文本特征输入到配图网络初始模型的图文相似匹配分支中；

利用图文相似匹配分支的相似度计算模块获得当前训练数据对对应的图文相似度矩阵；

利用图文相似匹配分支的损失计算模块对图文相似度矩阵与预设的图文匹配矩阵进行差异计算，确定当前训练数据对对应的模态对比损失。

在本公开的一种具体实施方式中，图文匹配矩阵为对角阵；模型训练单元，用于：

利用图文相似匹配分支的损失计算模块对图文相似度矩阵与预设的图文匹配矩阵对应的行分别进行差异计算，并基于全部行的差异值，获得以行为主的差异；

对图文相似度矩阵与图文匹配矩阵对应的列分别进行差异计算，并基于全部列的差异值，获得以列为主的差异；

基于以行为主的差异和以列为主的差异，确定当前训练数据对对应的模态对比损失。

在本公开的一种具体实施方式中，模型训练单元，用于通过以下步骤判断对配图网络初始模型的迭代训练是否完成：

如果迭代次数达到预设的次数阈值或者配图网络初始模型的模型损失停止下降，则确定对配图网络初始模型的迭代训练完成。

在本公开的一种具体实施方式中，配图确定单元540，用于：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

相应于上面的方法实施例，本公开实施例还提供了一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为执行指令，以实现上述的文案的配图确定方法。

如图6所示，为电子设备的组成结构示意图，电子设备可以包括：处理器10、存储器11、通信接口12和通信总线13。处理器10、存储器11、通信接口12均通过通信总线13完成相互间的通信。

在本公开实施例中，处理器10可以为中央处理器(Central Processing Unit，CPU)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。

处理器10可以调用存储器11中存储的程序，具体的，处理器10可以执行文案的配图确定方法的实施例中的操作。

存储器11中用于存放一个或者一个以上程序，程序可以包括程序代码，程序代码包括计算机操作指令，在本公开实施例中，存储器11中至少存储有用于实现以下功能的程序：

获得目标文案；

提取目标文案的文本特征；

分别确定待选图像集中每张待选图像的图像特征与目标文案的文本特征的相似度；

根据相似度，在待选图像集中确定目标文案的配图。

在一种可能的实现方式中，存储器11可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及至少一个功能(比如特征提取功能、相似度确定功能)所需的应用程序等；存储数据区可存储使用过程中所创建的数据，如特征数据、相似度数据等。

此外，存储器11可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。

通信接口12可以为通信模块的接口，用于与其他设备或者系统连接。

当然，需要说明的是，图6所示的结构并不构成对本公开实施例中电子设备的限定，在实际应用中电子设备可以包括比图6所示的更多或更少的部件，或者组合某些部件。

相应于上面的方法实施例，本公开实施例还提供了一种计算机可读存储介质，当计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述的文案的配图确定方法。

此外，需要说明的是：本公开实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或者计算机程序可以包括计算机指令，该计算机指令可以存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器可以执行该计算机指令，使得该电子设备执行前文所对应实施例中文案的配图确定方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本公开所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节，请参照本公开方法实施例的描述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种文案的配图确定方法，其特征在于，包括：

获得目标文案；

提取所述目标文案的文本特征；

2.根据权利要求1所述的文案的配图确定方法，其特征在于，通过以下步骤获得所述待选图像集：

3.根据权利要求2所述的文案的配图确定方法，其特征在于，通过以下步骤确定所述素材库中每张素材图像所属的类目：

提取所述素材库中每张素材图像的图像特征；

4.根据权利要求1所述的文案的配图确定方法，其特征在于，所述提取所述目标文案的文本特征，包括：

5.根据权利要求4所述的文案的配图确定方法，其特征在于，通过以下步骤预先训练获得所述配图网络模型：

迭代训练完成后，获得所述配图网络模型。

6.根据权利要求5所述的文案的配图确定方法，其特征在于，所述利用所述训练数据集以及每个训练数据对中训练图像和训练文本对应的类目标签，对预先构建的配图网络初始模型进行迭代训练，包括：

7.一种文案的配图确定装置，其特征在于，包括：

目标文案获得单元，用于获得目标文案；

文本特征提取单元，用于提取所述目标文案的文本特征；

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6之中任一项所述的文案的配图确定方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6之中任一项所述的文案的配图确定方法。

10.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中，且适于由处理器读取并执行，以使得具有所述处理器的电子设备执行如权利要求1至6之中任一项所述的文案的配图确定方法。