CN112801217B

CN112801217B - 文本相似度判断方法、装置、电子设备以及可读存储介质

Info

Publication number: CN112801217B
Application number: CN202110293330.4A
Authority: CN
Inventors: 周宏浩; 秦勇
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2021-07-06
Anticipated expiration: 2041-03-19
Also published as: CN112801217A

Abstract

本申请提供了一种文本相似度判断方法、装置、电子设备以及可读存储介质。文本相似度判断方法包括：获取第一文本和第二文本；将第一文本输入预先训练的图像生成模型，生成与第一文本的语义信息相对应的第一图像，以及，将第二文本输入图像生成模型，生成与第二文本的语义信息相对应的第二图像；根据第一图像和第二图像，得到第一文本和第二文本的相似度。通过实施本申请提供的技术方案，可以提高文本相似度判断的精确度。

Description

文本相似度判断方法、装置、电子设备以及可读存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种文本相似度判断方法、装置、电子设备以及可读存储介质。

背景技术

文本可以是句子、段落等，文本包含的语义信息非常丰富，而且同一个语义可以有多种不同的表达，非常的灵活，这导致了从客观（指用机器）上判断两个文本的相似度非常困难，文本是一个字符串，目前常用于度量两个字符串长度的方法有如下几种：Jaccard相似度，也称为交并比，它是将字符串视为一个集合，将字符视为元素，然后两个集合的交集内元素数量比上两个集合并集内元素数量；Sorenson Dice，也称为相似度系数，它与Jaccard相似度一样，都是将字符串视为集合，不同的是，它使用交集长度的两倍除以两个集合长度之和；汉明距离是首先保证两个字符串长度一致，然后从左到右，依次判断，记录对应位置不同字符出现的数量；编辑距离是指将一个字符串变成另一个字符串需要增删改的次数，编辑距离是目前最常用的判断两个文本相似度的方法，上述几种方法，都是从字符的层面来判断两个文本的相似性，与文本语义丝毫没有关系。近年来，随着深度学习的兴起，以及自然语言理解技术的发展，逐渐的我们可以通过理解两个文本的语义，从而判断他们是否相似，但是此类技术依然效果不佳。

发明内容

为了解决上述技术问题中的至少一个，本申请提供了一种文本相似度判断方法、装置、电子设备以及可读存储介质。

本申请的第一方面，一种文本相似度判断方法，包括：

获取第一文本和第二文本；

将所述第一文本输入预先训练的图像生成模型，生成与所述第一文本的语义信息相对应的第一图像，以及，将所述第二文本输入所述图像生成模型，生成与所述第二文本的语义信息相对应的第二图像；

根据所述第一图像和所述第二图像，得到所述第一文本和所述第二文本的相似度。

可选的，在所述将所述第一文本输入预先训练的图像生成模型，生成第一图像之前，所述方法还包括：

获取第一训练文本以及与所述第一训练文本的语义信息相对应的第一训练图像，其中，同一所述第一训练图像具有多个所述第一训练文本与之对应；

根据所述第一训练文本和所述第一训练图像训练得到所述图像生成模型。

可选的，所述图像生成模型包括生成器和判别器；

所述根据所述第一训练文本和所述第一训练图像训练得到所述图像生成模型，包括：

将所述第一训练文本输入所述生成器，以生成所述第一训练文本相对应的生成图像；

将所述第一训练图像和所述第一训练文本相对应的生成图像输入所述判别器，得到判别结果；

根据所述判别结果优化所述判别器的参数和所述生成器的参数，以得到所述图像生成模型。

可选的，所述根据所述第一图像和所述第二图像，得到所述第一文本和所述第二文本的相似度，包括：将所述第一图像和所述第二图像输入预先训练的相似度评估模型，得到所述第一文本和所述第二文本的相似度，其中，所述相似度评估模型根据第二训练图像、第三训练图像、以及第二训练图像与所述第三训练图像的目标相似度训练得到。

可选的，所述根据所述第一图像和所述第二图像，得到所述第一文本和所述第二文本的相似度，包括：

将所述第一图像、所述第二图像、第一文本编码特征和第二文本编码特征输入预先训练的相似度评估模型，得到所述第一文本和所述第二文本的相似度，其中，所述相似度评估模型根据第四训练图像、第五训练图像、第四训练文本编码特征、第五训练文本编码特征、以及所述第四训练图像与所述第五训练图像的目标相似度训练得到；

其中，所述第一文本编码特征是所述图像生成模型提取的所述第一文本的文本编码特征，所述第二文本编码特征是所述图像生成模型提取的所述第二文本的文本编码特征；

所述第四训练图像是与第四训练文本的语义信息相对应的图像，所述第四训练文本编码特征是所述图像生成模型提取的所述第四训练文本的文本编码特征；

所述第五训练图像是与第五训练文本的语义信息相对应的图像，所述第五训练文本编码特征是所述图像生成模型提取的所述第五训练文本的文本编码特征。

可选的，所述将所述第一图像、所述第二图像、所述第一文本编码特征和所述第二文本编码特征输入预先训练的相似度评估模型，得到所述第一文本和所述第二文本的相似度，包括：

提取所述第一图像的第一图像编码特征和所述第二图像的第二图像编码特征；

根据所述第一图像编码特征、所述第二图像编码特征、第一文本编码特征和第二文本编码特征，得到所述第一文本和所述第二文本的相似度。

可选的，所述提取所述第一图像的第一图像编码特征和所述第二图像的第二图像编码特征，包括：

提取第一特征，所述第一特征是所述第一图像的图像中心区域的图像编码特征；

提取第二特征，所述第二特征是所述第二图像的图像中心区域的图像编码特征；

提取第三特征，所述第三特征是缩小第一比率后的所述第一图像的图像编码特征；

提取第四特征，所述第四特征是缩小第一比率后的所述第二图像的图像编码特征；

提取第五特征，所述第五特征是缩小第二比率后的所述第一图像的灰度图像的图像编码特征；

提取第六特征，所述第六特征是缩小第二比率后的所述第二图像的灰度图像的图像编码特征；

根据所述第一特征、所述第三特征和所述第五特征，得到第一图像编码特征；

根据所述第二特征、所述第四特征和所述第六特征，得到第二图像编码特征。

可选的，所述第一比率为50%，所述第二比率为50%。

本申请的第二方面，一种文本相似度判断装置，包括：

文本获取模块，用于获取第一文本和第二文本；

图像生成模块，用于将所述第一文本输入预先训练的图像生成模型，生成与所述第一文本的语义信息相对应的第一图像，以及，将所述第二文本输入所述图像生成模型，生成与所述第二文本的语义信息相对应的第二图像；

相似度判断模块，用于根据所述第一图像和所述第二图像，得到所述第一文本和所述第二文本的相似度。

可选的，所述装置还包括训练模块，

所述训练模块，用于：

可选的，所述图像生成模型包括生成器和判别器；

所述训练模块在用于所述根据所述第一训练文本和所述第一训练图像训练得到所述图像生成模型时，具体用于：

可选的，所述相似度判断模块在用于根据所述第一图像和所述第二图像，得到所述第一文本和所述第二文本的相似度时，具体用于：

所述第四训练图像是与第四训练文本的语义信息相对应的图像；所述第四训练文本编码特征是所述图像生成模型提取的所述第四训练文本的文本编码特征；

可选的，所述相似度判断模块在用于将所述第一图像、所述第二图像、所述第一文本编码特征和所述第二文本编码特征输入预先训练的相似度评估模型，得到所述第一文本和所述第二文本的相似度时，所述相似度判断模块具体用于：

可选的，所述相似度判断模块在用于提取所述第一图像的第一图像编码特征和所述第二图像的第二图像编码特征时，具体用于：

根据所述第一特征、所述第二特征和所述第三特征，得到第一图像编码特征；

根据所述第四特征、所述第五特征和所述第六特征，得到第二图像编码特征。

本申请的第三方面，一种电子设备，包括存储器和处理器，所述存储器用于存储计算机指令，所述计算机指令被所述处理器执行以实现如本申请的第一方面任一所述的方法。

本申请的第四方面，一种可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现如本申请的第一方面任一所述的方法。

通过实施本申请的技术方案可以取得以下有益技术效果：

将第一文本转化为与第一文本的语义信息相对应的第一图像，将第二文本转化为与第二文本的语义信息相对应的第二图像，再根据第一图像和第二图像判断第一文本和第二文本的相似度，相比于直接根据文本字符本身的相似度判断两个文本的相似度，本申请的技术方案更能将语义参考在内，提高了文本相似度判断的精确度。

附图说明

附图示出了本申请的示例性实施方式，并与其说明一起用于解释本申请的原理，其中包括了这些附图以提供对本申请的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1是本申请实施例公开的一种文本相似度判断方法的流程图；

图2是本申请实施例公开的一种文本相似度判断装置的结构框图；

图3是本申请实施例公开的一种电子设备的结构框图；

图4是本申请实施例公开的一种文本相似度判断方法的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施方式对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本申请。

参见图1，一种文本相似度判断方法，包括：

S101，获取第一文本和第二文本；

S102，将第一文本输入预先训练的图像生成模型，生成与第一文本的语义信息相对应的第一图像，以及，将第二文本输入图像生成模型，生成与第二文本的语义信息相对应的第二图像；

S103，根据第一图像和第二图像，得到第一文本和第二文本的相似度。

本申请实施例提供的文本相似度判断方法将第一文本转化为与第一文本的语义信息相对应的第一图像，将第二文本转化为与第二文本的语义信息相对应的第二图像，再根据第一图像和第二图像判断第一文本和第二文本的相似度，相比于直接根据文本字符本身的相似度判断两个文本的相似度，本申请的文本相似度判断方法更能将语义参考在内，使得文本相似度判断更为精确。

其中，本申请实施例提供的文本相似度判断方法在具体的某个应用场景中具有较高的判断精度，例如教学应用场景、学生作业应用场景、道路应用场景等，可以知道的，在具体运用在某个应用场景时，训练的样本也采用该应用场景下的图像以及对应的文本进行训练。

下面对本申请实施例提供的文本相似度判断方法的相关原理进行说明，文本和图像是两种不同模态的信息，文本相对于与该文本语义信息相对应的图像来说是低维数据，根据低维数据生成高维数据，本质上来讲本是一个病态过程，但是依靠神经网络强大的参数调节和拟合能力，使得这个操作变的可能；将文本转成图像，是低维空间转至高维空间的过程，尽管文本相比于图像维度过低，信息量较少，但文本相对于图像只缺少一些细节信息，由此推断，利用文本生成的图像可能细节上不够丰富，但大体上是一致的。举例来说：第一文本的描述内容是：男人，帽子，大树；第二文本的描述内容是：一个戴帽子的男人站在一颗繁茂的大树下面；两个文本的描述内容相比之后，其实语义相似度高，但是第二文本更具体丰富，而将这两个文本，映射成图像，会得到两张非常相似的图像，因为第一文本的描述内容是第二文本的描述内容的关键词，尽管第二文本的描述内容更加丰富，但是它的维度相对于图像来说，第二文本的描述内容跟第一文本的描述内容没什么差别，所以用第二文本生成的图像几乎无法表现这些细节差别，而在判断两个文本相似度时，恰恰需要忽略掉这些细节，故使得将文本转化为图像后，再基于图像判断文本相似度，可以使文本相似度判断精度更高。

在一个实施方式中，在将第一文本输入预先训练的图像生成模型，生成第一图像之前，方法还包括，还包括：

获取第一训练文本以及与第一训练文本的语义信息相对应的第一训练图像，其中，同一第一训练图像具有多个第一训练文本与之对应；

根据第一训练文本和第一训练图像训练得到图像生成模型。

本实施方式中，由于同一第一训练图像具有多个第一训练文本与之对应，所以在训练图像生成模型时，一个第一训练图像需准备多个与之对应的第一训练文本，此时该多个与之对应的第一训练文本之间的语义基本相同，使得训练得到图像生成模型在将文本转化为图像时，语义越是相近的文本生成的图像也越是相近。其中，可以知道的，与第一训练文本的语义信息相对应的第一训练图像指的是第一训练文本整体的语义信息与第一训练图像整体的内容相对应。

具体的，在获取第一训练文本以及与第一训练文本的语义信息相对应的第一训练图像时，先收集大量图像，此处可以根据后续评判相似度的文本都出自哪个应用场景来决定收集哪些图像，为每个图像提供一定数量的描述图像内容的文本，可选的，可以为每个图像提供20个描述该图像内容的文本，可选的，每个文本可以包含一个文本句子。此处可以标注图像对的相似度，以用于训练下文中的相似度评估模型，相似度一般是0~1之间，若完全一样则相似度是1，若完全不一样则相似度是0，若有关键点一样，例如有相同的物体，则可以是0.5等。

以学生作业应用场景为例，在准备训练样本时，先准备作业应用场景下的不同场景的图像，以其中该应用场景下的第一训练图像A为例，该第一训练图像A的图像内容是一个小孩在座位上专心的做作业，则该第一训练图像A对应的描述内容可以是：一个小孩在座位上做作业、一个小孩正在工位上做作业、一个人在座位上专心的做作业等，此时，可以将内容是“一个小孩在座位上做作业”的文本可以作为第一训练文本B、内容是“一个小孩正在工位上做作业”的文本可作为第一训练文本C、内容是“一个人在座位上专心的做作业”的文本可以作为第一训练文本D，此时与第一训练文本B的语义信息对应的图像是第一训练图像A，与第一训练文本C的语义信息对应的图像是第一训练图像A，与第一训练文本D的语义信息对应的图像是第一训练图像A；可以分别以第一训练文本B作为输入和第一训练图像A作为输出，以第一训练文本C作为输入和第一训练图像A作为输出，以第一训练文本D作为输入和第一训练图像A作为输出，训练图像生成模型。

在实际获取第一训练图像和第一训练文本时，可以根据计划运用的应用场景，提取该应用场景下的大量图像作为第一训练图像，对各第一训练图像进行描述得到相应的第一训练文本，根据第一训练样本和第一训练图像训练得到图像生成模型；其中，为了便于样本的获取，可由多个人对第一训练图像进行描述得到多个相应的第一训练文本，使得同一第一训练图像具有多个第一训练文本与之对应，此时同一第一训练图像对应的多个第一训练文本的语义相同或相近。

在一个具体的实施方式中，通过描述词与描述词的同义词的替换、修饰词与修饰词的同义词的替换、或修饰词的增减等方式获得与同一第一训练图像对应的多个第一训练文本。

由于根据文本生成图像的技术已经有了较大的发展，并且在特定的数据集上得到了较好的效果，所以本申请实施方式中的图像生成模型的基础模型（训练前的模型）可以采用已有的用于根据文本生成图像的模型，例如，由循环神经网络与卷积神经网络结合得到的模型作为基础模型，利用大量的文本及对应的图像监督训练基础模型，得到根据文本生成图像的图像生成模型。

具体的，在一个实施方式中，图像生成模型包括生成器和判别器；

根据第一训练文本和第一训练图像训练得到图像生成模型，包括：

将第一训练文本输入生成器，以生成第一训练文本相对应的生成图像；

将第一训练图像和第一训练文本相对应的生成图像输入判别器，得到判别结果；

根据判别结果优化判别器的参数和生成器的参数，以得到图像生成模型。

具体的，生成器可包括LSTM（长短期记忆网络）循环神经网络和卷积神经网络；

具体的，生成器可由一个两层双向20节点的LSTM循环神经网络和一个8层反卷积神经网络组成，判别器可由一个5层卷积神经网络构成；在训练时，可使用生成对抗网络中使用的交叉熵损失，先优化判别器，然后优化生成器，最终得到一个能用输入文本生成一张图像的图像生成模型。其中，生成器和判别器的组成也可参考其他生成器和判别器，可以知道的，该其他生成器和判别器是用于根据文本生成图像的网络模型所对应的生成器和判别器。

在一个可选实施方式中，根据第一图像和第二图像，得到第一文本和第二文本的相似度，包括：将第一图像和第二图像输入预先训练的相似度评估模型，得到第一文本和第二文本的相似度，其中，相似度评估模型根据第二训练图像、第三训练图像、以及第二训练图像与第三训练图像的目标相似度训练得到。

其中，第二训练图像与第二训练图像采用前文描述的图像对时，第二训练图像与第二训练图像的目标相似度是前文所标注的该图像对的相似度。

其中，相似度评估模型可使用L2损失函数进行训练，其中，L2损失函数也称之为最小平方误差。

具体的，将第一图像和第二图像输入预先训练的相似度评估模型，得到第一文本和第二文本的相似度时，可根据第一图像的图像编码特征和第二图像的图像编码特征，确定第一文本和第二文本的相似度。

其中，第二训练图像可以是第二训练文本的语义信息相对应的图像，第三训练图像可以是第三训练文本的语义信息相对应的图像；其中，第二训练文本和第二训练图像可用于训练生成图像生成模型，第三训练文本和第三训练图像可用于训练生成图像生成模型；在将第二训练文本输入图像生成模型时，图像生成模型根据第二训练文本生成相应的第二训练文本编码特征，再根据第二训练文本编码特征生成图像；在将第三训练文本输入图像生成模型时，图像生成模型根据第三训练文本生成相应的第三训练文本编码特征，再根据第三训练文本编码特征生成图像。

在一个可选实施方式中，根据第一图像和第二图像，得到第一文本和第二文本的相似度，包括：

将第一图像、第二图像、第一文本编码特征和第二文本编码特征输入预先训练的相似度评估模型，得到第一文本和第二文本的相似度，其中，相似度评估模型根据第四训练图像、第五训练图像、第四训练文本编码特征、第五训练文本编码特征、以及第四训练图像与第五训练图像的目标相似度训练得到；

其中，第一文本编码特征是图像生成模型提取的第一文本的文本编码特征，第二文本编码特征是图像生成模型提取的第二文本的文本编码特征；

第四训练图像是与第四训练文本的语义信息相对应的图像，第四训练文本编码特征是图像生成模型提取的第四训练文本的文本编码特征；

第五训练图像是与第五训练文本的语义信息相对应的图像，第五训练文本编码特征是图像生成模型提取的第五训练文本的文本编码特征。

其中，可以知道，与上述内容相对应的，将第一文本输入预先训练的图像生成模型，生成第一图像时，具体包括：通过图像生成模型，根据第一文本生成第一文本所对应的第一文本编码特征，根据第一文本编码特征生成第一图像；同时，将在将第二文本输入图像生成模型，以生成第二图像时，具体包括:通过图像生成模型，根据第二文本生成第二文本所对应的第二文本编码特征，根据第二文本编码特征生成第二图像。

其中，第四训练图像与第五训练图像采用前文描述的图像对时，第四训练图像与第五训练图像的目标相似度是前文所标注的该图像对的相似度。

其中，第一文本所对应的第一文本编码特征可通过图像生成模型的LSTM循环神经网络生成；第二文本所对应的第二文本编码特征可通过图像生成模型的LSTM循环神经网络生成。

进一步的，将第一图像、第二图像、第一文本编码特征和第二文本编码特征输入预先训练的相似度评估模型，得到第一文本和第二文本的相似度，包括：

提取第一图像的第一图像编码特征和第二图像的第二图像编码特征；

根据第一图像编码特征、第二图像编码特征、第一文本编码特征和第二文本编码特征，得到第一文本和第二文本的相似度。

本实施方式的相似度评估模型在判断的第一文本和第二文本的相似度时，根据第一图像编码特征、第二图像编码特征、图像生成模型生成第一图像时生成的文本编码特征和图像生成模型生成第二图像时生成的文本编码特征，确定第一文本和第二文本的相似度，以使相似度评估模型得到的第一文本和第二文本的相似度更精准。

具体的，本实施方式的相似度评估模型可包括特征提取网络和度量网络，此处的特征提取网络是用于提取第一图像的第一图像特征编码和第二图像的第二图像特征编码的网络，此处的度量网络是用于根据第一图像编码特征、第二图像编码特征、第一文本编码特征和第二文本编码特征，得到第一文本和第二文本的相似度的网络。其中，可选的，特征提取网络可由第一分支网络、第二分支网络、第三分支网络、第四分支网络第五分支网络和第六分支网络组成，每个分支网络可以是resnet残差网络，例如每个分支网络均采用resnet18残差网络；度量网络可由3个全连接层组成，最后一个全连接成节点数为1，其后接一个sigmoid函数，映射输出到0-1，其中，Sigmoid函数也称为S型生长曲线。

相似度评估模型的模型结构可采用已有的图像相似度评估模型的模型结构，例如Siamese（孪生网络）、Pseudo-siamese（伪孪生网络）、MatchNet模型(Unifying Featureand Metric Learning for Patch-Based Matching) 等，其中，MatchNet模型主要由特征提取网络和度量网络两部分组成，MatchNet模型的特征提取网络部分是一个卷积神经网络模型，由2个分支组成，其每个分支均包括5个卷积层和3个池化层，2个分支共享权重；2个分支分别对输入的2个图像进行特征提取，输出特征对；度量网络部分主要包括3个全连接层(第三个全连接层后接了一个softmax函数)，用于根据特征网络部分输出的特征对对2个图像的相似度进行度量。本申请实施例，对此处不做限定。

在一个可选的实施例中，提取第一图像的第一图像编码特征和第二图像的第二图像编码特征，包括：

提取第一特征，第一特征是第一图像的图像中心区域的图像编码特征；

提取第二特征，第二特征是第二图像的图像中心区域的图像编码特征；

提取第三特征，第三特征是缩小第一比率后的第一图像的图像编码特征；

提取第四特征，第四特征是缩小第一比率后的第二图像的图像编码特征；

提取第五特征，第五特征是缩小第二比率后的第一图像的灰度图像的图像编码特征；

提取第六特征，第六特征是缩小第二比率后的第二图像的灰度图像的图像编码特征；

根据第一特征、第三特征和第五特征，得到第一图像编码特征；

根据第二特征、第四特征和第六特征，得到第二图像编码特征。

本实施方式中，将第一图像的图像中心区域的图像编码特征、第二图像的图像中心区域的图像编码特征、缩小第一比率后的第一图像的图像编码特征、缩小第一比率后的第二图像的图像编码特征、缩小第二比率后的第一图像的灰度图像的图像编码特征和缩小第二比率后的第二图像的灰度图像的图像编码特征作为判断文本相似度的依据，提高了文本相似度判断的精度。

其中，缩小第一比率后的第一图像的图像编码特征指“缩小第一比率后的第一图像”的图像编码特征；缩小第一比率后的第二图像的图像编码特征指“缩小第一比率后的第二图像”的图像编码特征；缩小第二比率后的第一图像的灰度图像的图像编码特征是指“缩小第二比率后的第一图像”的灰度图像的图像编码特征；缩小第二比率后的第一图像的灰度图的图像编码特征是指“缩小第二比率后的第一图像”的灰度图的图像编码特征。

上述第一特征、第二特征、第三特征、第四特征、第五特征和第六特征可以由相应的分支网络提取，具体的，第一特征可由第一分支网络提取，第二特征可以由第二分支网络提取，第三特征可由第三分支网络提取，第四特征可由第四分支网络提取，第五特征可由第五分支网络提取，第六征可由第六分支网络提取。其中，第一分支网络与第二分支网络具有相同结构且共享权重参数；第三分支网络与第四分支网络具有相同结构且共享权重参数；第五分支网络与第六分支网络具有相同结构且共享权重参数。

具体的，第一比率可设置为50%，第二比率可设置为50%，图像中心区域可设置为原图像中心的1/4区域。

参见图2，一种文本相似度判断装置,包括：

文本获取模块201，用于获取第一文本和第二文本；

图像生成模块202，用于将第一文本输入预先训练的图像生成模型，生成与第一文本的语义信息相对应的第一图像，以及，将第二文本输入图像生成模型，生成与第二文本的语义信息相对应的第二图像；

相似度判断模块203，用于根据第一图像和第二图像，得到第一文本和第二文本的相似度。

在一个实施方式中，文本相似度判断装置还包括训练模块，训练模块，用于：

根据第一训练文本和第一训练图像训练得到图像生成模型。

在一个实施方式中，图像生成模型包括生成器和判别器；

训练模块在用于根据第一训练文本和第一训练图像训练得到图像生成模型时，具体用于：

在一个实施方式中，图像生成模块在用于根据第一图像和第二图像，得到第一文本和第二文本的相似度时，具体用于：将第一图像和第二图像输入预先训练的相似度评估模型，得到第一文本和第二文本的相似度，其中，相似度评估模型根据第二训练图像、第三训练图像、以及第二训练图像与第三训练图像的目标相似度训练得到。

相似度判断模块在用于根据第一图像和第二图像，得到第一文本和第二文本的相似度时，具体用于：

第四训练图像是与第四训练文本的语义信息相对应的图像；第四训练文本编码特征是图像生成模型提取的第四训练文本的文本编码特征；

其中，与上述实施方式相对应的，图像生成模块在用于将第一文本输入预先训练的图像生成模型，生成第一图像时，具体用于：通过图像生成模型，根据第一文本生成第一文本所对应的第一文本编码特征，根据第一文本编码特征生成第一图像；

图像生成模块在用于将第二文本输入图像生成模型，以生成第二图像时，具体用于:通过图像生成模型，根据第二文本生成第二文本所对应的第二文本编码特征，根据第二文本编码特征生成第二图像；

具体的，相似度判断模块在用于将第一图像、第二图像、第一文本编码特征和第二文本编码特征输入预先训练的相似度评估模型，得到第一文本和第二文本的相似度时，相似度判断模块具体用于：

具体的，相似度判断模块在用于提取第一图像的第一图像编码特征和第二图像的第二图像编码特征时，具体用于：

根据第一特征、第二特征和第三特征，得到第一图像编码特征；

根据第四特征、第五特征和第六特征，得到第二图像编码特征。

具体的，第一比率为50%，第二比率为50%，图像中心区域可设置为原图像中心的1/4区域。

本申请实施例中的文本相似度判断装置是与本申请实施例中的文本相似度判断方法相对应的，文本相似度判断装置的技术方案和技术效果可以参考文本相似度判断方法的技术方案和技术效果。

参见图3，一种电子设备300，包括处理器301和存储器302，存储器302用于存储计算机指令，计算机指令被处理器301执行以实现本申请实施例中任一所述的文本相似度判断方法。

本申请还提供了一种可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现本申请实施例中任一所述的一种文本相似度判断方法。

图4为适于用来实现根据本申请一实施方式的一种文本相似度判断方法的计算机系统的结构示意图。

参见图4，计算机系统包括处理单元401，其可以根据存储在只读存储器（ROM）402中的程序或者从存储部分408加载到随机访问存储器（RAM）403中的程序而执行上述附图所示的实施方式中的各种处理。在RAM403中，还存储有系统操作所需的各种程序和数据。处理单元401、ROM402以及RAM403通过总线404彼此相连。输入/输出（I/O）接口405也连接至总线404。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。其中，处理单元401可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。

特别地，根据本申请的实施方式，上文描述的方法可以被实现为计算机软件程序。例如，本申请的实施方式包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，计算机程序包含用于执行附图中的方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。

在本说明书的描述中，参考术语“一个实施例/方式”、“一些实施例/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例/方式或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例/方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例/方式或示例以及不同实施例/方式或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本申请，而并非是对本申请的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本申请的范围内。

Claims

1.一种文本相似度判断方法，其特征在于，包括：

获取第一文本和第二文本；

2.根据权利要求1所述的文本相似度判断方法，其特征在于，在所述将所述第一文本输入预先训练的图像生成模型，生成第一图像之前，所述方法还包括：

3.根据权利要求2所述的文本相似度判断方法，其特征在于，所述图像生成模型包括生成器和判别器；

4.根据权利要求1所述的文本相似度判断方法，其特征在于，所述根据所述第一图像和所述第二图像，得到所述第一文本和所述第二文本的相似度，包括：将所述第一图像和所述第二图像输入预先训练的相似度评估模型，得到所述第一文本和所述第二文本的相似度，其中，所述相似度评估模型根据第二训练图像、第三训练图像、以及第二训练图像与所述第三训练图像的目标相似度训练得到。

5.根据权利要求1所述的文本相似度判断方法，其特征在于，所述根据所述第一图像和所述第二图像，得到所述第一文本和所述第二文本的相似度，包括：

6.根据权利要求5所述的文本相似度判断方法，其特征在于，所述将所述第一图像、所述第二图像、所述第一文本编码特征和所述第二文本编码特征输入预先训练的相似度评估模型，得到所述第一文本和所述第二文本的相似度，包括：

7.根据权利要求6所述的文本相似度判断方法，其特征在于，所述提取所述第一图像的第一图像编码特征和所述第二图像的第二图像编码特征，包括：

8.根据权利要求7所述的文本相似度判断方法，其特征在于，所述第一比率为50%，所述第二比率为50%。

9.一种文本相似度判断装置，其特征在于，包括：

文本获取模块，用于获取第一文本和第二文本；

10.根据权利要求9所述的文本相似度判断装置，其特征在于，所述装置还包括训练模块，

所述训练模块，用于：

11.根据权利要求10所述的文本相似度判断装置，所述图像生成模型包括生成器和判别器；

12.根据权利要求9所述的文本相似度判断装置，其特征在于，所述相似度判断模块在用于根据所述第一图像和所述第二图像，得到所述第一文本和所述第二文本的相似度时，具体用于：

13.根据权利要求12所述的文本相似度判断装置，其特征在于，所述相似度判断模块在用于将所述第一图像、所述第二图像、所述第一文本编码特征和所述第二文本编码特征输入预先训练的相似度评估模型，得到所述第一文本和所述第二文本的相似度时，所述相似度判断模块具体用于：

14.根据权利要求13所述的文本相似度判断装置，其特征在于，所述相似度判断模块在用于提取所述第一图像的第一图像编码特征和所述第二图像的第二图像编码特征时，具体用于：

15.一种电子设备，包括存储器和处理器，所述存储器用于存储计算机指令，其特征在于，所述计算机指令被所述处理器执行以实现如权利要求1-8任一项所述的方法。

16.一种可读存储介质，其上存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现如权利要求1-8任一项所述的方法。