CN115809313A

CN115809313A - 一种文本相似度确定方法及设备

Info

Publication number: CN115809313A
Application number: CN202111072688.0A
Authority: CN
Inventors: 李�浩; 李建伟; 孙永良; 陈维强
Original assignee: Qingdao Guochuang Wisdom Cloud Brain Technology Co ltd; Hisense TransTech Co Ltd
Current assignee: Qingdao Guochuang Wisdom Cloud Brain Technology Co ltd; Hisense TransTech Co Ltd
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2023-03-17

Abstract

本申请涉及自然语言处理技术领域，公开了一种文本相似度确定方法及设备，包括：在对第一文本、第二文本进行分词处理后，确定每个分词的词嵌入向量，其中词嵌入向量为确定分词的词全局信息后，利用分词以及分词的词全局信息确定分词的词局部信息过程中得到的，然后利用第一分词集合中每个分词对应的词嵌入向量和每个分词的第一权重确定第一文本的句子向量，并利用第二分词集合中每个分词对应的词嵌入向量和每个分词的第二权重确定第二文本的句子向量，最后通过第一文本的句子向量和第二文本的句子向量，确定第一文本和第二文本的相似度，进而提高确定文本相似度的准确率。

Description

一种文本相似度确定方法及设备

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种文本相似度确定方法及设备。

背景技术

随着电子产品智能化程度的不断提高，在智能问答、信息检索等应用场景中，对文本进行自动识别和相似度比对的要求越来越高。相关技术中，通过比对两个文本中关键词词语重合度确定两个文本的相似度，但是针对语义丰富的词语来说，在不同的文本中可能具有不同的含义，进而导致确定两个文本相似度的准确率较低。

发明内容

本申请实施例提供一种文本相似度确定方法及设备，从而可以提高确定文本相似度的准确率。

第一方面，本申请一实施例提供了一种文本相似度确定方法，包括：

对第一文本、第二文本进行分词处理，得到第一分词集合、第二分词集合；

针对所述第一分词集合和所述第二分词集合中的每个分词，确定所述分词对应的词嵌入向量；其中，所述词嵌入向量为确定所述分词的词全局信息后，利用所述分词以及所述分词的词全局信息确定所述分词的词局部信息过程中得到的；

利用所述第一分词集合中每个分词对应的词嵌入向量和每个分词的第一权重确定所述第一文本的句子向量；并利用所述第二分词集合中每个分词对应的词嵌入向量和每个分词的第二权重确定所述第二文本的句子向量；

通过所述第一文本的句子向量和所述第二文本的句子向量，确定所述第一文本和所述第二文本的相似度。

相对于现有技术中，仅根据文本中关键词词语确定文本相似度，或者对第一文本、第二文本分词处理后，将每个分词分别输入给单个模型得到每个分词的词嵌入向量，再将每个分词的词嵌入向量进行加和平均得到文本的句子向量，进而确定文本相似度来说，本申请提出了一种文本相似度确定方法，结合分词的词局部信息和词全局信息确定第一文本、第二文本中分词的词嵌入向量，并在确定每个分词的权重值后分别确定第一文本、第二文本的句子向量，最后根据第一文本、第二文本的句子向量确定第一文本、第二文本的相似度，从而提高确定文本相似度的准确率。

可选的，在对第一文本、第二文本进行分词处理，得到第一分词集合、第二分词集合后，所述方法还包括：

针对所述第一分词集合和所述第二分词集合中的每个分词，根据预设规则确定所述分词的向量特征；所述预设规则为对所述分词所在的分句进行指定次数的向量特征提取；

利用所述分词的向量特征，确定所述分词对应的实体类别；

所述通过所述第一文本的句子向量和所述第二文本的句子向量确定所述第一文本和所述第二文本的相似度，包括：

确定所述第一文本的句子向量和所述第二文本的句子向量之间的余弦距离；

通过所述余弦距离和每个分词对应的实体类别，确定所述第一文本和所述第二文本的相似度。

从多个角度准确识别第一分词集合和第二分词集合中的每个分词，进而提高文本相似度的准确率。

可选的，所述通过所述余弦距离和每个分词对应的实体类别，确定所述第一文本和所述第二文本的相似度，包括：

确定所述第一分词集合和所述第二分词集合中每个相同实体类别的分词的关联度值；

将多个所述关联度值相乘后再乘以所述余弦距离的乘积结果确定为所述第一文本和所述第二文本的相似度。

通过构建多个关联度值计算关系，可以更准确计算文本的相似度。

可选的，所述确定所述第一分词集合和所述第二分词集合中任意一个相同实体类别的分词的关联度值，包括：

确定所述第一分词集合和所述第二分词集合中属于所述任意一个相同实体类别的相同分词的个数以及不同分词的个数；

将相同分词个数与不同分词个数之间的商确定为分词的关联度值。

通过构建第一分词集合和第二分词集合中每个相同实体类别的分词的关联度值的概念，可以更准确计算文本的相似度。

可选的，所述第一权重和所述第二权重为逆文本频率指数值时，所述方法还包括：

根据所述第一文本的文本信息确定所述第一分词集合中每个分词的逆文本频率指数值；并根据所述第二文本的文本信息确定所述第二分词集合中每个分词的逆文本频率指数值。

通过计算每个分词的逆文本频率指数值作为每个分词的词嵌入向量权重值，进而可以更准确确定第一文本的句子向量和第二文本的句子向量。

第二方面，本申请一实施例提供了一种文本相似度确定设备，包括：处理器和显示器；

所述显示器，用于显示用户操作界面；

所述处理器，被配置为执行：

可选的，所述处理器被配置为执行对第一文本、第二文本进行分词处理，得到第一分词集合、第二分词集合后，还被配置为执行：

利用所述分词的向量特征，确定所述分词对应的实体类别；

所述处理器被配置为执行通过所述第一文本的句子向量和所述第二文本的句子向量确定所述第一文本和所述第二文本的相似度时，具体被配置为执行：

可选的，所述处理器被配置为执行通过所述余弦距离和每个分词对应的实体类别，确定所述第一文本和所述第二文本的相似度时，具体被配置为执行：

可选的，所述处理器被配置为执行确定所述第一分词集合和所述第二分词集合中任意一个相同实体类别的分词的关联度值时，具体被配置为执行：

可选的，所述第一权重和所述第二权重为逆文本频率指数值时，所述处理器还被配置为执行：

第三方面，本申请的一实施例提供了一种文本相似度确定装置，包括：

处理模块，用于对第一文本、第二文本进行分词处理，得到第一分词集合、第二分词集合；

第一确定模块，用于针对所述第一分词集合和所述第二分词集合中的每个分词，确定所述分词对应的词嵌入向量；其中，所述词嵌入向量为确定所述分词的词全局信息后，利用所述分词以及所述分词的词全局信息确定所述分词的词局部信息过程中得到的；

第二确定模块，用于利用所述第一分词集合中每个分词对应的词嵌入向量和每个分词的第一权重确定所述第一文本的句子向量；并利用所述第二分词集合中每个分词对应的词嵌入向量和每个分词的第二权重确定所述第二文本的句子向量；

第三确定模块，用于通过所述第一文本的句子向量和所述第二文本的句子向量，确定所述第一文本和所述第二文本的相似度。

可选的，在处理模块之后，所述装置还包括：

第四确定模块，用于针对所述第一分词集合和所述第二分词集合中的每个分词，根据预设规则确定所述分词的向量特征；所述预设规则为对所述分词所在的分句进行指定次数的向量特征提取；

利用所述分词的向量特征，确定所述分词对应的实体类别；

所述第三确定模块，用于：

可选的，所述第三确定模块在通过所述余弦距离和每个分词对应的实体类别，确定所述第一文本和所述第二文本的相似度时，具体用于：

可选的，所述第三确定模块在确定所述第一分词集合和所述第二分词集合中任意一个相同实体类别的分词的关联度值时，具体用于：

可选的，所述第一权重和所述第二权重为逆文本频率指数值时，所述装置还包括：

第四方面，本申请一实施例还提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令由文本相似度确定设备的处理器执行时，使得文本相似度确定设备能够执行如本申请第一方面中提供的任一方法。

第五方面，本申请一实施例提供了一种计算机程序产品，包括计算机程序 /指令，所述计算机程序/指令被处理器执行时实现如本申请第一方面中提供的任一方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的文本相似度确定方法的应用场景示意图；

图2为本申请一实施例提供的文本相似度确定方法的流程示意图；

图3为本申请一实施例提供的skip-gram模型的结构示意图；

图4为本申请一实施例提供的skip-gram和Glove组成训练词嵌入模型的结构示意图；

图5为本申请一实施例提供的CBOW模型的结构示意图；

图6为本申请一实施例提供的CBOW和Glove组成训练词嵌入模型的结构示意图；

图7为本申请一实施例提供的BERT模型的结构示意图；

图8为本申请一实施例提供的BiLSTM模型的结构示意图；

图9为本申请一实施例提供的CRF模型的结构示意图；

图10为本申请一实施例提供的BERT、BiLSTM、CRF组成训练命名实体识别模型的结构示意图；

图11为本申请一实施例提供的文本相似度确定方法的流程示意图；

图12为本申请一实施例提供的文本相似度确定设备示意图。

具体实施方式

为了使本领域普通人员更好地理解本申请的技术方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应所述理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

以下，对本申请实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

(1)本申请实施例中术语“多个”是指两个或两个以上，其它量词与之类似。

(2)“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如， A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

(3)服务器，是为终端服务的，服务的内容诸如对终端发送的第一文本和第二文本的相似度进行计算；服务器是与终端上安装的应用程序相对应的，与终端上的应用程序配合运行。

(4)终端设备，既可以指软件类的APP(Application，应用程序)，也可以指客户端。它具有可视的显示界面，能与用户进行交互；是与服务器相对应，为客户提供本地服务。针对软件类的应用程序，除了一些只在本地运行的应用程序之外，一般安装在普通的客户终端上，需要与服务器互相配合运行。

在具体实践过程中，随着电子产品智能化程度的不断提高，在智能问答、信息检索等应用场景中，对文本进行自动识别和相似度比对的要求越来越高。相关技术中，通过比对两个文本中关键词词语重合度确定两个文本的相似度，但是针对语义丰富的词语来说，在不同的文本中可能具有不同的含义，进而导致确定两个文本相似度的准确率较低。

为此，本申请提出了一种文本相似度确定方法，结合分词的词局部信息和词全局信息确定第一文本、第二文本中分词的词嵌入向量，并在确定每个分词的权重值后分别确定第一文本、第二文本的句子向量，最后根据第一文本、第二文本的句子向量确定第一文本、第二文本的相似度，从而提高确定文本相似度的准确率。

在介绍完本申请实施例的设计思想之后，下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

参考图1，其为本申请实施例提供的文本相似度确定方法的应用场景示意图。该应用场景包括多个终端设备101(包括终端设备101-1、终端设备 101-2、……终端设备101-n)、服务器102。其中，终端设备101、服务器102 之间通过无线或有线网络连接，终端设备101包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备、智能电视等电子设备。服务器102可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

以终端设备101-1与服务器102之间的交互为例进行说明，用户通过终端设备101-1将第一文本、第二文本发送给服务器102，在服务器102中对第一文本、第二文本进行分词处理，并确定每个分词对应的词嵌入向量，然后利用第一分词集合中每个分词对应的词嵌入向量和每个分词的第一权重确定第一文本的句子向量，并利用第二分词集合中每个分词对应的词嵌入向量和每个分词的第二权重确定第二文本的句子向量，最后通过第一文本的句子向量和第二文本的句子向量，确定第一文本和第二文本的相似度，并将其发送给终端设备 101-1，在终端设备101-1中进行展示。

这里，也可以在终端设备101-1中确定第一文本和第二文本的相似度，还可以部分在终端设备101-1，部分在服务器102中确定第一文本和第二文本的相似度，在此本申请并不限定确定第一文本和第二文本相似度的具体方式。

当然，本申请实施例提供的方法并不限用于图1所示的应用场景中，还可以用于其它可能的应用场景，本申请实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述，在此先不过多赘述。

为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。

下面结合图1所示的应用场景，对本申请实施例提供的技术方案进行说明。

参考图2，本申请实施例提供一种文本相似度确定方法，包括以下步骤：

S201，对第一文本、第二文本进行分词处理，得到第一分词集合、第二分词集合。

示例性的，假设第一文本中的一句话为：“青岛市地区生产总值是多少”，那么该句话分词处理后的结果是："青岛市/地区/生产总值/是/多少"，在此本申请并不限定对文本分词处理的具体方法，可根据实际情况进行调整。

S202，针对第一分词集合和第二分词集合中的每个分词，确定分词对应的词嵌入向量；其中，词嵌入向量为确定分词的词全局信息后，利用分词以及分词的词全局信息确定分词的词局部信息过程中得到的。

这里，词嵌入过程是将一个包含多个词语数量的高维空间嵌入到一个维数较低的连续向量空间中，使得每个单词或者词组被映射为实数域上的向量。

本申请的一实施例中，为了得到更准确的词嵌入向量，结合分词的词局部信息和词全局信息确定分词的词嵌入向量。其中，词局部信息可以由Word2Vec (Word to Vector，词向量)模型训练实现，词全局信息可以由词表示的全局向量模型Glove(Global Vectorsfor Word Representation)训练实现。又，Word2Vec 模型可以包括跳字模型skip-gram和连续词袋模型CBOW(Continuous Bag-of-Words)两种不同模型架构。因此可以由skip-gram、Glove组成；或者由CBOW、Glove组成的方式确定分词的词嵌入向量。接下来分别介绍两种不同组成方式确定分词的词嵌入向量的过程：

一、由skip-gram、Glove组成

skip-gram模型结构的输入是特定的一个分词的词向量，输出是该特定的一个分词对应的上下文分词的词向量。示例性的，如图3所示，假设x1“我”、 x2“在”、x3“青岛”、x4“工作”组成一个具有上下文语义的句子“我在青岛工作”，将x2的词向量V-dim作为skip-gram模型的输入，并将隐含层h_i的词向量设置为N-dim，那么skip-gram模型的输出为x1“我”、x3“青岛”、x4“工作”分别对应的概率大小y1(86％)、y3(90％)、y4(96％)，并且输出的词向量为3*V-dim。通过不断的训练skip-gram模型，可以得到每个分词的文本表示矩阵W，例如x2的文本表示矩阵可以用W_V*N表示，x1、x3、x4的文本表示矩阵可以用W’_V*N表示。同时还可以将相关的分词整合到一个相近空间内，得到相近分词之间的距离关系。例如，分词“青岛”和分词“黄岛”之间的距离要小于分词“青岛”和分词“太平洋”之间的距离。

Glove模型是基于全局词频统计(count-based&overall statistics)的词表征(word representation)工具，可以把一个分词映射为一个由实数组成的向量，并且向量中包含该分词的部分语义特性，比如相似性(similarity)、类比性 (analogy)等。通过对向量的运算，比如欧几里得距离或者余弦相似度，计算出两个分词之间的语义相似性。

示例性的，假设Glove模型的输入为“青岛市地区生产总值是多少？”，将共现矩阵用X表示，其元素为X_i,j，也即在整句话中分词i和分词j共同出现在一个窗口中的次数，例如可以采用窗口宽度为5的统计窗口进行构建共现矩阵。然后按照公式一进行训练Glove模型。

其中，v_i、v_j为分词i和分词j的词向量，b_i、b_j为预设误差值，f为权重函数，共现矩阵维度为N*N。

skip-gram和Glove组成方式确定分词的词嵌入向量的训练过程如下所示：

A1，获取多个第一样本分句，其中每个第一样本分句至少包含一个具有上下文语义的关联词；

A2，将每个第一样本分句输入给Glove，得到对应输出的第一全局词向量特征；

A3，将每个第一样本分句中任意一个关联词、以及对应的第一全局词向量特征输入给skip-gram，得到对应输出的预测第一样本分句中除关联词之外的词；

A4，基于每个第一样本分句中除关联词之外的词和对应的预测除关联词之外的词之间的损失，重复上述步骤直至损失达到预设阈值确定完成skip-gram 和Glove组成方式确定分词的词嵌入向量的训练过程。

示例性的，如图4所示，假设x1、x2、x3、…、x9组成一个具有上下文语义的第一样本分句，首先将第一样本分句输入至Glove模型中，得到输出的全局词向量W，然后将x5、以及全局词向量W作为skip-gram模型的输入，且在skip-gram模型中设置隐含层H、融合词向量层Z，skip-gram模型的输出为x1、x2、x3、x4、x6、x7、x8、x9分别对应的概率大小，依次循环训练直至损失达到预设阈值。

通过结合分词的词局部信息和词全局信息，利用文本无监督训练简单方便，且提高词嵌入的准确度。

二、由CBOW、Glove组成

CBOW模型结构的输入是特定的一个分词对应的上下文分词的词向量，输出是该特定的一个分词的词向量。示例性的，如图5所示，假设x1“我”、x2 “在”、x3“青岛”、x4“工作”组成一个具有上下文语义的句子“我在青岛工作”，将x1“我”、x3“青岛”、x4“工作”组成的词向量3*V-dim作为CBOW 模型的输入，并将隐含层h_i的词向量设置为N-dim，那么CBOW模型的输出为x2“在”对应的概率大小y2(78％)，并且输出的词向量为V-dim。通过不断的训练CBOW模型，可以得到每个分词的文本表示矩阵W，例如x1、x3、 x4的文本表示矩阵可以用W_V*N表示，x2的文本表示矩阵可以用W’_V*N表示。

Glove模型在上述已经介绍，在此不再赘述。

CBOW、Glove组成方式确定分词的词嵌入向量的训练过程如下所示：

B1，获取多个第三样本分句，其中每个第三样本分句至少包含一个具有上下文语义的关联词；

B2，将每个第三样本分句输入给Glove，得到对应输出的第二全局词向量特征；

B3，将每个除第三样本分句中任意一个关联词之外的词、以及对应的第二全局词向量特征输入给CBOW，得到输出的预测第三样本分句中关联词；

B4，基于每个第三样本分句中关联词和对应的预测关联词之间的损失，重复上述步骤直至损失达到预设阈值确定完成CBOW和Glove组成方式确定分词的词嵌入向量的训练过程。

示例性的，如图6所示，假设x1、x2、x3、…、x9组成一个具有上下文语义的第二样本分句，首先将第二样本分句输入至Glove模型中，得到输出的全局词向量W，然后将x1、x2、x3、x4、x6、x7、x8、x9以及全局词向量W 作为CBOW模型的输入，且在CBOW模型中设置隐含层H、融合词向量层Z， CBOW模型的输出为x5对应的概率大小，依次循环直至损失达到预设阈值。

在得到每个分词对应的词嵌入向量后，继续执行步骤S203，利用第一分词集合中每个分词对应的词嵌入向量和每个分词的第一权重确定第一文本的句子向量；并利用第二分词集合中每个分词对应的词嵌入向量和每个分词的第二权重确定第二文本的句子向量。

本申请的一实施例中，第一权重和第二权重为IDF(Inverse DocumentFrequency，逆文本频率指数值)时，根据第一文本的文本信息确定第一分词集合中每个分词的逆文本频率指数值；并根据第二文本的文本信息确定第二分词集合中每个分词的逆文本频率指数值。

示例性的，假设文本信息为“某人认为电影A好看，决定去电影院看电影 A”，则“某人”、“电影院”各出现一次，“电影A”出现两次。虽然“电影A”的词频较高，但是重要性却低于词频较低的“某人”、“电影院”，因此需要利用IDF调整仅利用词频表示的词特征值。IDF反应了一个分词在所有文本中出现的频率，如果一个分词在很多的文本中出现，那么它的IDF值应该较低，比如上述示例中的“电影A”。而反过来如果一个分词在比较少的文本中出现，那么它的IDF值应该较高，比如一些专业的名词如“城市云脑”。还可以通过公式二计算IDF值：

其中，lg为以10为底的log函数，D为总文档数量，d_j为第j篇文档，t_i为出现第i个分词的文档总数量。

在确定第一文本的句子向量和第二文本的句子向量之后，继续执行步骤 S204，通过第一文本的句子向量和第二文本的句子向量，确定第一文本和第二文本的相似度。

本申请提出了一种文本相似度确定方法，结合分词的词局部信息和词全局信息确定第一文本、第二文本中分词的词嵌入向量，并在确定每个分词的权重值后分别确定第一文本、第二文本的句子向量，最后根据第一文本、第二文本的句子向量确定第一文本、第二文本的相似度，从而提高确定文本相似度的准确率。

本申请的一实施例中，为了避免结合分词的词局部信息和词全局信息处理后的非相似语句之间语义混淆，以及更准确的确定第一文本和第二文本的文本相似度，还可以结合第一分词集合、第二分词集合中每个分词对应的实体类别，进一步确定文本相似度。

具体的，针对第一分词集合和第二分词集合中的每个分词，根据预设规则确定分词的向量特征；预设规则为对分词所在的分句进行指定次数的向量特征提取；利用分词的向量特征，确定分词对应的实体类别。然后确定第一文本的句子向量和第二文本的句子向量之间的余弦距离，再通过余弦距离和每个分词对应的实体类别，确定第一文本和第二文本的相似度。

其中，命名实体识别(Named Entity Recognition，NER)是指对文本中具有特定意义或者指代性强的实体进行识别，通常包括人名、地名、组织机构名、日期时间、专有名词、产品名称、型号、价格等。

示例性的，以“青岛市社会消费品零售额是多少”和“胶州市社会消费品零售额是多少”两句话为例，“青岛市”和“胶州市”分词的语义非常接近，在比较这两句话时，若设置的阈值较小，则这两句话可能被判断为相似语句，因此需要进一步通过命名实体识别模型识别语句中的实体，以提高非相似语句的判断准确率。

通过从多个角度对第一分词集合和第二分词集合中的每个分词分别进行准确识别，进而提高文本相似度的准确率。

这里，预设规则可以由双向编码变换器BERT(Bidirectional EncoderRepresentations from Transformers)、长短期记忆网络BiLSTM(Bi-Long Short-TermMemory)、条件随机场CRF(Conditional Random Field)组成，确定分词的实体类别的训练过程如下所示：

C1，获取多个第二样本分句，并将每个第二样本分句输入给BERT，得到对应输出的第一向量特征；

C2，将每个第一向量特征输入给BiLSTM，得到对应输出的第二向量特征；

C3，将每个第二向量特征输入给CRF，得到对应的第二样本分句的预测实体类别；

C4，基于多个预测实体类别之间的损失，重复上述步骤直至损失达到预设阈值确定完成预设规则的向量特征提取。

针对BERT模型来说，如图7所示，为BERT模型的输入示例，包括Token Embeddings(字符嵌入)、Segment Embeddings(句子分段标记嵌入)、Position Embeddings(词位置嵌入)。其中，Token Embeddings用[CLS]A[SEP]B[SEP] 来划分语句，语句A为：某人，语句B为：某地调研。例如E某表示某的字符嵌入，E人表示人的字符嵌入，EA和EB为语句A和语句B的分段标记， E0代表第0个分词的位置嵌入，E1代表第1个分词的位置嵌入。因此可以按照上述示例获取多个语句样本输入至BERT模型中，进行实体标记训练，输出每个分词对应的实体标记，例如上述示例经过BERT模型训练后输出C、T1、 T2、…、TN，其中T5、T6的实体标记为地点。

针对BiLSTM模型来说，是前向LSTM(Long Short-Term Memory，长短期记忆网络)与后向LSTM组合而成。如图8所示，双向LSTM的前向LSTML 依次输入“我”、“在”、“青岛”得到三个向量{hL0，hL1，hL2}。后向LSTMR 依次输入“青岛”、“在”、“我”得到三个向量{hR0，hR1，hR2}。最后将前向 LSTML和后向LSTMR得到的向量进行拼接得到{[hL0，hR2]，[hL1，hR1]，[hL2，hR0]}，即{h0，h1，h2}。

针对CRF模型来说，是一种鉴别式机率模型，也即随机场的一种，常用于标注或分析序列资料，例如标注或分析自然语言文字、生物序列等。如图9 所示，假设CRF模型的输入序列为X＝(x1、x2、…、x9)，且语句表示为“某人A到某地B调研”，输出目标序列为Y＝(y1、y2、…、y9)，且[B-PRP]、 [I-PRP]、[I-PRP]、[O]、[B-ADD]、[I-ADD]、[I-ADD]、[O]、[O]表示输出目标序列中分别对应的字的类别，其中[O]：其他类、[B-PRP]：人物名称起始类、[I-PRP]：人物名称延续类、[B-ADD]：地点名称起始类、[I-ADD]：地点名称延续类。

在对BERT模型、BiLSTM模型、以及CRF模型分别介绍后，接下来介绍三者结合后组成预设规则的训练实现过程。

示例性的，如图10所示，假设输入文本Text由[CLS]、Tok1、Tok2、...、 TokN语句中的每个字组成，将[CLS]、Tok1、Tok2、...、TokN输入给BERT 模型，如上所述，[CLS]、Tok1、Tok2、...、TokN分别对应的位置嵌入为E_[CLS]、 E₁、E₂、...、E_N，经过BERT模型训练后输出对应的实体标记C、T₁、T₂、…、 T_N，也即第一向量特征。然后将第一向量特征输入给BiLSTM模型，输出拼接后的第二向量特征，也即P_c、P₁、P₂、…、P_N。再将第二向量特征输入给CRF 模型，得到输出的预测实体类别，用Tag₁、Tag₂、…、Tag_N表示。

本申请的一实施例中，通过余弦距离和每个分词对应的实体类别，确定第一文本和第二文本的相似度，包括：

确定第一分词集合和第二分词集合中每个相同实体类别的分词的关联度值；将多个关联度值相乘后再乘以余弦距离的乘积结果确定为第一文本和第二文本的相似度。

具体的，确定第一分词集合和第二分词集合中属于任意一个相同实体类别的相同分词的个数以及不同分词的个数，将相同分词个数与不同分词个数之间的商确定为分词的关联度值。

假设第一文本A分词处理后的第一分词集合为{w₁ ^A，w₂ ^A，…，w_i ^A}，第一分词集合经过词嵌入模型处理后每个分词的词嵌入向量为{v₁ ^A，v₂ ^A，…， v_i ^A}，第一分词集合经过命名实体识别模型处理后每个分词的实体类别用{E_t ^A， t表示实体类别标记}表示，第一分词集合中每个分词的IDF值为{idf₁ ^A， idf₂ ^A，…，idf_i ^A}，同理，第二文本B分词处理的第二分词集合为{w₁ ^B，w₂ ^B，…， w_i ^B}，第二分词集合经过词嵌入模型处理后每个分词的词嵌入向量为{v₁ ^B， v₂ ^B，…，v_j ^B}，第二分词集合经过命名实体识别模型处理后每个分词的实体类别用{E_t ^B，t表示实体类别标记}表示，第二分词集合中每个分词的IDF值为 {idf₁ ^B，idf₂ ^B，…，idf_j ^B}。

那么第一文本的句子向量V^A由公式三表示，第二文本的句子向量V^B由公式四表示，将第一分词集合和第二分词集合中属于任意一个相同实体类别的相同分词的个数用

表示，将不同分词的个数用

表示。针对相同实体类别的分词的关联度值F_t(A,B)用公式五表示，每个相同实体类别的分词的关联度值score(A，B)用公式六表示，第一文本的句子向量和第二文本的句子向量之间的余弦距离用cosine(V^A,V^B)表示，第一文本和第二文本的相似度simi(A， B)用公式七表示。

simi(A,B)＝cosine(V^A,V^B)*score(A,B) 公式七

示例性的，假设相同实体类别人名中第一文本的分词包括：小明、小李、小赵和小张，第二文本的分词包括：小张、小韩和小赵，那么第一文本和第二文本在人名实体类别的相同分词个数是2个，不同分词个数是5个，也即分词关联度值为0.4。

通过构建第一分词集合和第二分词集合中每个相同实体类别的分词的关联度值的概念，以及确定多个关联度值计算关系，可以更准确计算文本的相似度。

如图11所示，示出了本申请实施例提供的文本相似度确定方法的流程示意图，包括以下步骤：

S1101，对第一文本、第二文本进行分词处理，得到第一分词集合、第二分词集合。

S1102，针对第一分词集合和第二分词集合中的每个分词，确定分词对应的词嵌入向量；其中，词嵌入向量为确定分词的词全局信息后，利用分词以及分词的词全局信息确定分词的词局部信息过程中得到的。

S1103，针对第一分词集合和第二分词集合中的每个分词，根据预设规则确定分词的向量特征；预设规则为对分词所在的分句进行指定次数的向量特征提取；利用分词的向量特征，确定分词对应的实体类别。

S1104，利用第一分词集合中每个分词对应的词嵌入向量和每个分词的IDF 值确定第一文本的句子向量；并利用第二分词集合中每个分词对应的词嵌入向量和每个分词的IDF值确定第二文本的句子向量。

S1105，确定第一文本的句子向量和第二文本的句子向量之间的余弦距离，通过余弦距离和每个分词对应的实体类别，确定第一文本和第二文本的相似度。

这里，并不限定步骤S1102和步骤S1103的具体执行顺序。

在介绍了本申请示例性实施方式的文本相似度确定方法之后，接下来，介绍根据本申请的另一示例性实施方式的文本相似度确定设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本申请的文本相似度确定设备可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的文本相似度确定方法中的步骤。例如，处理器可以执行如文本相似度确定方法中的步骤。

下面参照图12来描述根据本申请的这种实施方式的文本相似度确定设备 120。图12显示的文本相似度确定设备120仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图12所示，文本相似度确定设备120以通用文本相似度确定设备的形式表现。文本相似度确定设备120的组件可以包括但不限于：上述至少一个处理器121、上述至少一个存储器122、连接不同系统组件(包括存储器122和处理器121)的总线123。

总线123表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器122可以包括易失性存储器形式的可读介质，例如随机存取存储器 (RAM)1221和/或高速缓存存储器1222，还可以进一步包括只读存储器(ROM) 1223。

存储器122还可以包括具有一组(至少一个)程序模块1224的程序/实用工具1225，这样的程序模块1224包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

文本相似度确定设备120也可以与一个或多个外部设备124(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与文本相似度确定设备120 交互的设备通信，和/或与使得该文本相似度确定设备120能与一个或多个其它文本相似度确定设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口125进行。并且，文本相似度确定设备120还可以通过网络适配器126与一个或者多个网络(例如局域网 (LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器126通过总线123与用于文本相似度确定设备120的其它模块通信。应当理解，尽管图中未示出，可以结合文本相似度确定设备120使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器122，上述指令可由处理器121执行以完成上述方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器121执行时实现如本申请提供的文本相似度确定方法的任一方法。

在示例性实施例中，本申请提供的一种文本相似度确定方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的一种文本相似度确定方法中的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器 (CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的用于文本相似度确定的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在文本相似度确定设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户文本相似度确定设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户文本相似度确定设备上部分在远程文本相似度确定设备上执行、或者完全在远程文本相似度确定设备或服务端上执行。在涉及远程文本相似度确定设备的情形中，远程文本相似度确定设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户文本相似度确定设备，或者，可以连接到外部文本相似度确定设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程文本相似度确定设备的处理器以产生一个机器，使得通过计算机或其他可编程文本相似度确定设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程文本相似度确定设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程文本相似度确定设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种文本相似度确定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在对第一文本、第二文本进行分词处理，得到第一分词集合、第二分词集合后，所述方法还包括：

利用所述分词的向量特征，确定所述分词对应的实体类别；

3.根据权利要求2所述的方法，其特征在于，所述通过所述余弦距离和每个分词对应的实体类别，确定所述第一文本和所述第二文本的相似度，包括：

4.根据权利要求3所述的方法，其特征在于，所述确定所述第一分词集合和所述第二分词集合中任意一个相同实体类别的分词的关联度值，包括：

5.根据权利要求1所述的方法，其特征在于，所述第一权重和所述第二权重为逆文本频率指数值时，所述方法还包括：

6.一种文本相似度确定设备，其特征在于，包括：处理器和显示器；

所述显示器，用于显示用户操作界面；

所述处理器，被配置为执行：

7.根据权利要求6所述的设备，其特征在于，所述处理器被配置为执行对第一文本、第二文本进行分词处理，得到第一分词集合、第二分词集合后，还被配置为执行：

利用所述分词的向量特征，确定所述分词对应的实体类别；

8.根据权利要求7所述的设备，其特征在于，所述处理器被配置为执行通过所述余弦距离和每个分词对应的实体类别，确定所述第一文本和所述第二文本的相似度时，具体被配置为执行：

9.根据权利要求8所述的设备，其特征在于，所述处理器被配置为执行确定所述第一分词集合和所述第二分词集合中任意一个相同实体类别的分词的关联度值时，具体被配置为执行：

10.根据权利要求6所述的设备，其特征在于，所述第一权重和所述第二权重为逆文本频率指数值时，所述处理器还被配置为执行：