CN113836938A

CN113836938A - 文本相似度的计算方法及装置、存储介质、电子装置

Info

Publication number: CN113836938A
Application number: CN202111116799.7A
Authority: CN
Inventors: 蒋志燕; 程刚; 汪雪
Original assignee: Shenzhen Raisound Technology Co ltd
Current assignee: Shenzhen Raisound Technology Co ltd
Priority date: 2021-09-23
Filing date: 2021-09-23
Publication date: 2021-12-24

Abstract

本发明提供了一种文本相似度的计算方法及装置、存储介质、电子装置，其中，该方法包括：获取待比较的第一文本和第二文本，并计算所述第一文本的第一文本长度和所述第二文本的第二文本长度；将所述第一文本长度与预设的第一阈值和第二阈值进行比对，并将所述第二文本长度与所述第一阈值和所述第二阈值进行比对，其中，所述第一阈值小于所述第二阈值；根据比较结果选择对应的文本语义匹配模型，并基于所述文本语义匹配模型计算所述第一文本和所述第二文本之间的相似度。通过本发明，解决了相关技术不能计算任意长度文本的相似度的技术问题，自动判断并选择相应的计算模型，计算两个文本之间的相似度，可以节约成本、高效、方便。

Description

文本相似度的计算方法及装置、存储介质、电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种文本相似度的计算方法及装置、存储介质、电子装置。

背景技术

相关技术中，文本语义匹配是自然语言处理领域的关键问题，常见的很多自然语言处理任务，如机器翻译、问答系统和网页搜索等，都可以归结为文本语义相似度匹配问题。一般来说，都是根据文本长度的不同，将文本语义相似度匹配问题分为三类：短文本-短文本语义匹配、长文本-长文本语义匹配和长文本-短文本语义匹配。在不同的文本语义匹配类型中，需要采取不同的解决方案，才能取得更不错的效果。

相关技术中，当语料比较多时，人为筛选长、短文本，工作量大，成本高。针对短文本-短文本进行语义匹配问题，目前常用的方法是使用像BERT(Bidirectional EncoderRepresentations from Transformers)这样的预训练模型，然后用自己的语料在预训练模型上进行微调。但是对于中文来说，在输入之前需要对句子进行分词，不然就没有效果，而词组的组合千变万化，不同的分词会带来不同的语义，这就容易造成一定的误差，对于长文本的匹配，现在还不能直接实现，只能将其拆分为多个短文本或者只匹配前面一段。

针对相关技术中存在的上述问题，目前尚未发现有效的解决方案。

发明内容

本发明实施例提供了一种文本相似度的计算方法及装置、存储介质、电子装置。

根据本发明的一个实施例，提供了一种文本相似度的计算方法，包括：获取待比较的第一文本和第二文本，并计算所述第一文本的第一文本长度和所述第二文本的第二文本长度；将所述第一文本长度与预设的第一阈值和第二阈值进行比对，并将所述第二文本长度与所述第一阈值和所述第二阈值进行比对，其中，所述第一阈值小于所述第二阈值；根据比较结果选择对应的文本语义匹配模型，并基于所述文本语义匹配模型计算所述第一文本和所述第二文本之间的相似度。

可选的，根据比较结果选择对应的文本语义匹配模型包括：若所述第一文本长度小于第一阈值，且所述第二文本长度小于所述第一阈值，选择长短期记忆网络深层语义模型LSTM-DSSM模型作为文本语义匹配模型。

可选的，所述文本语义匹配模型为LSTM-DSSM模型，基于所述文本语义匹配模型计算所述第一文本和所述第二文本之间的相似度包括：以所述第一文本的文本长度为分词长度将所述第一文本转换为第一文本向量，以所述第二文本的文本长度为分词长度将所述第二文本转换为第二文本向量；采用LSTM网络将所述第一文本向量和第二文本向量分别转换为第一潜层语义向量和第二潜层语义向量，其中，所述第一潜层语义向量和第二潜层语义向量分别包括所述第一文本和第二文本的上下文语义信息；计算所述第一潜层语义向量与所述第二潜层语义向量之间的第一余弦相似度，并将所述第一余弦相似度输出为所述第一文本和所述第二文本之间的相似度。

可选的，根据所述第一文本长度和所述第二文本长度选择文本语义匹配模型包括：若所述第一文本长度小于第一阈值，且所述第二文本长度大于所述第二阈值，选择无监督摘要模型和LSTM-DSSM模型作为文本语义匹配模型；若所述第一文本长度大于所述第一阈值且小于所述第二阈值，且所述第二文本长度大于所述第二阈值，选择无监督摘要模型和LSTM-DSSM模型作为文本语义匹配模型。

可选的，根据所述第一文本长度和所述第二文本长度选择文本语义匹配模型包括：若所述第一文本长度大于所述第一阈值且小于所述第二阈值，且所述第二文本长度大于所述第一阈值且小于所述第二阈值，选择无监督摘要模型和LSTM-DSSM模型作为文本语义匹配模型。

可选的，所述文本语义匹配模型为无监督摘要模型和LSTM-DSSM模型，基于所述文本语义匹配模型计算所述第一文本和所述第二文本之间的相似度包括：对所述第二文本进行句分割，得到多个第二子文本；采用句子嵌入模型将所述多个第二子文本分别转换为对应的多个句嵌入向量，其中，每个句嵌入向量包括一个与所述句子嵌入模型的编码器对应的句向量和两个与所述句子嵌入模型的解码器对应的前后句向量；对所述多个句嵌入向量进行聚类，生成摘要文本；计算所述摘要文本与所述第一文本之间的第二余弦相似度，并将所述第二余弦相似度输出为所述第一文本和所述第二文本之间的相似度。

可选的，对所述多个句嵌入向量进行聚类，生成摘要文本，包括：将所述多个句嵌入向量进行簇群聚类，得到目标数量个聚类向量，其中，所述目标数量小于所述第二文本的句子总数，每个簇群对应一组语义相似的句子集合；在每个所述聚类向量中分别选择距离聚类中心最接近的一个候选句，并对目标数量个候选句进行排序，生成摘要文本。

根据本发明的另一个实施例，提供了一种文本相似度的计算装置，包括：第一计算模块，用于获取待比较的第一文本和第二文本，并计算所述第一文本的第一文本长度和所述第二文本的第二文本长度；比对模块，用于将所述第一文本长度与预设的第一阈值和第二阈值进行比对，并将所述第二文本长度与所述第一阈值和所述第二阈值进行比对，其中，所述第一阈值小于所述第二阈值；第二计算模块，用于根据比较结果选择对应的文本语义匹配模型，并基于所述文本语义匹配模型计算所述第一文本和所述第二文本之间的相似度。

可选的，所述第二计算模块包括：第一选择单元，用于若所述第一文本长度小于第一阈值，且所述第二文本长度小于所述第一阈值，选择长短期记忆网络深层语义模型LSTM-DSSM模型作为文本语义匹配模型。

可选的，所述文本语义匹配模型为LSTM-DSSM模型，所述第二计算模块包括：第一转换单元，用于以所述第一文本的文本长度为分词长度将所述第一文本转换为第一文本向量，以所述第二文本的文本长度为分词长度将所述第二文本转换为第二文本向量；第二转换单元，用于采用LSTM网络将所述第一文本向量和第二文本向量分别转换为第一潜层语义向量和第二潜层语义向量，其中，所述第一潜层语义向量和第二潜层语义向量分别包括所述第一文本和第二文本的上下文语义信息；第一计算单元，用于计算所述第一潜层语义向量与所述第二潜层语义向量之间的第一余弦相似度，并将所述第一余弦相似度输出为所述第一文本和所述第二文本之间的相似度。

可选的，所述第二计算模块包括：第二选择单元，用于若所述第一文本长度小于第一阈值，且所述第二文本长度大于所述第二阈值，选择无监督摘要模型和LSTM-DSSM模型作为文本语义匹配模型；第二选择单元，用于若所述第一文本长度大于所述第一阈值且小于所述第二阈值，且所述第二文本长度大于所述第二阈值，选择无监督摘要模型和LSTM-DSSM模型作为文本语义匹配模型。

可选的，所述第二计算模块包括：第三选择单元，用于若所述第一文本长度大于所述第一阈值且小于所述第二阈值，且所述第二文本长度大于所述第一阈值且小于所述第二阈值，选择无监督摘要模型和LSTM-DSSM模型作为文本语义匹配模型。

可选的，所述文本语义匹配模型为无监督摘要模型和LSTM-DSSM模型，所述第二计算模块包括：分割单元，用于对所述第二文本进行句分割，得到多个第二子文本；第三转换单元，用于采用句子嵌入模型将所述多个第二子文本分别转换为对应的多个句嵌入向量，其中，每个句嵌入向量包括一个与所述句子嵌入模型的编码器对应的句向量和两个与所述句子嵌入模型的解码器对应的前后句向量；聚类单元，用于对所述多个句嵌入向量进行聚类，生成摘要文本；第二计算单元，用于基于所述LSTM-DSSM模型计算所述摘要文本与所述第一文本之间的第二余弦相似度，并将所述第二余弦相似度输出为所述第一文本和所述第二文本之间的相似度。

可选的，所述聚类单元包括：聚类子单元，用于将所述多个句嵌入向量进行簇群聚类，得到目标数量个聚类向量，其中，所述目标数量小于所述第二文本的句子总数，每个簇群对应一组语义相似的句子集合；选择子单元，用于在每个所述聚类向量中分别选择距离聚类中心最接近的一个候选句，并对目标数量个候选句进行排序，生成摘要文本。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，获取待比较的第一文本和第二文本，并计算第一文本的第一文本长度和第二文本的第二文本长度，将第一文本长度与预设的第一阈值和第二阈值进行比对，并将第二文本长度与第一阈值和第二阈值进行比对，其中，第一阈值小于第二阈值，根据比较结果选择对应的文本语义匹配模型，并基于文本语义匹配模型计算第一文本和第二文本之间的相似度，通过计算两个文本的文本长度，并基于两个长度自动选择文本语义匹配模型，实现了任意长度文本的相似度计算，解决了相关技术不能计算任意长度文本的相似度的技术问题，自动判断并选择相应的计算模型，计算两个文本之间的相似度，可以节约成本、高效、方便。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种计算机的硬件结构框图；

图2是根据本发明实施例的一种文本相似度的计算方法的流程图；

图3是本发明实施例中DSSM网络的原理图；

图4是本发明实施例的系统原理图；

图5是根据本发明实施例的一种文本相似度的计算装置的结构框图；

图6是本发明实施例的一种电子装置的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

本申请实施例一所提供的方法实施例可以在服务器、计算机、手机或者类似的运算装置中执行。以运行在计算机上为例，图1是本发明实施例的一种计算机的硬件结构框图。如图1所示，计算机可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述计算机还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述计算机的结构造成限定。例如，计算机还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的一种文本相似度的计算方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种文本相似度的计算方法，图2是根据本发明实施例的一种文本相似度的计算方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，获取待比较的第一文本和第二文本，并计算第一文本的第一文本长度和第二文本的第二文本长度；

本实施例中，第一文本和第二文本可以是语音识别的，或者是直接获取到的文本，包括多个文字字符。

通过计算，可以得到第一文本和第二文本的文本类型，文本类型包括：长文本、短文本，中间文件(文本长度介入长文本和短文本之间)，每个类型对应一个长度区间，如0～300对应短文本。文本长度用于表征文本的文本类型。

步骤S204，将第一文本长度与预设的第一阈值和第二阈值进行比对，并将第二文本长度与第一阈值和第二阈值进行比对，其中，第一阈值小于第二阈值；

步骤S206，根据比较结果选择对应的文本语义匹配模型，并基于文本语义匹配模型计算第一文本和第二文本之间的相似度；

在本实施例中，基于第一文本和第二文本的文本长度的不同，自动选择匹配的文本语义匹配模型，并计算第一文本和第二文本的相似度。

通过上述步骤，获取待比较的第一文本和第二文本，并计算第一文本的第一文本长度和第二文本的第二文本长度，将第一文本长度与预设的第一阈值和第二阈值进行比对，并将第二文本长度与第一阈值和第二阈值进行比对，其中，第一阈值小于第二阈值，根据比较结果选择对应的文本语义匹配模型，并基于文本语义匹配模型计算第一文本和第二文本之间的相似度，通过计算两个文本的文本长度，并基于两个长度自动选择文本语义匹配模型，实现了任意长度文本的相似度计算，解决了相关技术不能计算任意长度文本的相似度的技术问题，自动判断并选择相应的计算模型，计算两个文本之间的相似度，可以节约成本、高效、方便。

在本实施例中，采用预训练的文本语义匹配模型，样本文本或者带比较的文本如果是没有经过专门处理的数据集，可能会存在“脏”的情况，即包含一些无意义的字符或者多余的标点符号，这些都会对文本数据造成干扰，因此本实施例借助正则表达式(可选的)进行数据清洗，可以得到经过清洗的文本对context_pair{textA,textB}，其中textA、textB表示待处理的两个文本，即第一文本和第二文本。在训练阶段将所有的数据以文本对的形式，按比例(可修改的工程参数)划分为训练集、验证集和测试集。

本实施例的方案可以应用在短文本与短文本之间，长文本与短文本之间，长文本与长文本之间的相似度计算和比较。基于第一文本和第二文本的文本类型选择匹配的语义匹配模型以及对应的策略。

可选的，长度小于300(len(text)<300)的文本为短文本，长度大于1000的文本为长文本，介于中间的可以认为是短文本或者长文本。

在本实施例的一个实施方式中，根据比较结果选择对应的文本语义匹配模型包括：若第一文本长度小于第一阈值，且第二文本长度小于第一阈值，选择长短期记忆网络深层语义模型LSTM-DSSM模型作为文本语义匹配模型。

可选的，len(textA)<300且len(textB)<300，textA和textB都是短文本。

基于上述实施方式，文本语义匹配模型为LSTM-DSSM模型，基于文本语义匹配模型计算第一文本和第二文本之间的相似度包括：以所述第一文本的文本长度为分词长度将所述第一文本转换为第一文本向量，以所述第二文本的文本长度为分词长度将所述第二文本转换为第二文本向量；采用LSTM网络将第一文本向量和第二文本向量分别转换为第一潜层语义向量和第二潜层语义向量，其中，第一潜层语义向量和第二潜层语义向量分别包括第一文本和第二文本的上下文语义信息；计算第一潜层语义向量与第二潜层语义向量之间的第一余弦相似度，并将第一余弦相似度输出为第一文本和第二文本之间的相似度。在短短文本的匹配过程中，文本不需要分词，直接将第一文本或第二文本的文本长度为分词长度，减小了误差的输入。

针对短-短文本匹配的策略。采用LSTM-DSSM(Long Short Term Memory-DeepStructured Semantic Models)模型，这种方法可以不用分词，(可替代的技术，也可以采用分词的预训练模型，如BERT)，计算两个文本语义相似度。DSSM模型就是把textA和textB表达为低维语义向量，并通过余弦距离来计算两个语义向量的距离，最终训练出语义相似度模型。该模型既可以用来预测两个句子的语义相似度，又可以获得某句子的低维语义向量表达。DSSM的结构分为三层：输入层、表示层和匹配层。图3是本发明实施例中DSSM网络的原理图，下面对各个网络层进行说明：

输入层，输入层用于把句子映射到一个向量空间里并输入到表示层的DNN(DeepNeural Networks，深度神经网络)中，英文和中文的处理方式不同。

对于英文处理：英文的输入层处理方式是通过词散列(word hashing)，即N-Gram的方式，比如可以用letter-trigrams(可替代技术)来切分单词。这样做的好处不仅可以压缩空间，达到降维的效果，50万个词的one-hot向量空间可以通过letter-trigram压缩为一个3万维的向量空间。还可以增强泛化能力，三个字母的表达往往能代表英文中的前缀和后缀，且前缀后缀往往具有通用的语义。

对于中文处理：中文一般需要分词，但是往往在分词阶段就会引入误差。故这里不分词，而是仿照英文的处理方式，以字为单位处理。因为常用的单字大约是1.5万个，而常用的双字则到达了百万级别，出于向量空间的考虑，采用字向量的(one-hot)作为输入，向量空间约为1.5万维。

表示层，采用LSTM(可选的)的方式，这样可以确保向量获取到了文本的上下文信息。即把输入层的整个句子送入LSTM，训练LSTM，得出最后输出的状态y(m)，作为潜层语义向量。

匹配层，textA和textB之间的文本相似度使用两者的语义向量的余弦距离来进行刻画。如下公式(1)所示，y_A ^T表示向量y_A的转置，其中y_A和y_B分别表示textA和textB在表示层中输出的语义向量：

对于中文短文本-短文本语义匹配时，不需要进行分词，减少了误差的输入。

在本实施例的另一个实施方式中，根据第一文本长度和第二文本长度选择文本语义匹配模型包括：若第一文本长度小于第一阈值，且第二文本长度大于第二阈值，选择无监督摘要模型和LSTM-DSSM模型作为文本语义匹配模型；若所述第一文本长度大于所述第一阈值且小于所述第二阈值，且所述第二文本长度大于所述第二阈值，选择无监督摘要模型和LSTM-DSSM模型作为文本语义匹配模型。

可选的，len(textA)<300或len(textA)<1000，len(textB)>1000，textA是短文本，textB是长文本。

在本实施例的另一个实施方式中，根据第一文本长度和第二文本长度选择文本语义匹配模型包括：若第一文本长度大于第一阈值且小于第二阈值，且第二文本长度大于第一阈值且小于第二阈值，选择无监督摘要模型和LSTM-DSSM模型作为文本语义匹配模型。

可选的，300<len(textA)<1000且300<len(textB)<1000。

基于上述两个实施方式，文本语义匹配模型为无监督摘要模型和LSTM-DSSM模型，基于文本语义匹配模型计算第一文本和第二文本之间的相似度包括：

S11，对第二文本进行句分割，得到多个第二子文本；

S12，采用句子嵌入模型将多个第二子文本分别转换为对应的多个句嵌入向量，其中，每个句嵌入向量包括一个与句子嵌入模型的编码器对应的句向量和两个与句子嵌入模型的解码器对应的前后句向量；

S13，对多个句嵌入向量进行聚类，生成摘要文本；

在一个示例中，对多个句嵌入向量进行聚类，生成摘要文本，包括：将多个句嵌入向量进行簇群聚类，得到目标数量个聚类向量，其中，目标数量小于第二文本的句子总数，每个簇群对应一组语义相似的句子集合；在每个聚类向量中分别选择距离聚类中心最接近的一个候选句，并对目标数量个候选句进行排序，生成摘要文本。

S14，基于LSTM-DSSM模型计算摘要文本与第一文本之间的第二余弦相似度，并将第二余弦相似度输出为第一文本和第二文本之间的相似度。

针对长-短文本匹配的策略，本实施例采用无监督摘要的方法(如抽取式无监督摘要，生成式无监督摘要)，将长度大于300的文本转化为短文本，再利用短短文本的比较方法计算两个文本语义相似度。

在一个实例中，抽取式无监督摘要的过程包括：

a)句子分割。由上一步检测出文本语言之后，针对该语言对整个文本进行句子分割。比如可以使用NLTK包中的sen_tokenize()方法。

b)句子向量化。为了使文本表示成机器可以识别的输入，同时融入文本的语义信息，需要对文本进行编码，生成特定长度的向量表示，即Word Embedding。这里采用Wikipedia(维基百科)预训练好的一个句子嵌入模型Skip-Thoughts，句子嵌入模型包含有一个EncoderNetwork和两个DecoderNetwork，使用GRU-RNN框架的，其中EncoderNetwork对输入的每一个句子S(i)都生成一个固定长度的向量表示h(i)；两个DecoderNetwork分别用于生成句子S(i)的前一句S(i-1)和后一句S(i+1)，输入均为encoder的输出h(i)。

c)聚类。在文本生成句子向量之后，将这些句子编码在高维向量空间中进行聚类，聚类的数量为摘要任务所需要的句子数量，可以将最终摘要的句子数设定为初始输入句子总数的平方根，或者字数限制在短文本长度范围内，这里可以使用K-均值方法(可选的)实现。

d)提取摘要。聚类之后的每一个簇群都可以认为是一组语义相似的句子集合，而我们只需要使用其中的一句来表示就可以了。句子的尽量选择距离聚类中心最接近的句子，然后将每个簇群相对应的候选句子排序，形成最终的文本摘要。摘要中候选句子的顺序由文本中句子在其相应簇中的位置来确定。

e)将上述d)中生成的摘要文本作为新的文本，与另一短文本作为新的文本对，采用LSTM-DSSM模型进行文本语义相似度计算。

此外，针对长长文本的比较实施方式。如len(textA)>1000且len(textB)>1000，textA和textB都是长文本，300<len(textA)<1000，len(textB)>1000，或者300<len(textA)<1000且300<len(textB)<1000。可以采用如下方案来实现：

针对长-长文本匹配，第一文本长度和第二文本长度均大于第二阈值，本实施例可以采用以下两种方案来实现：

实现方式一：通过使用主题模型，得到两个长文本的主题分布，再通过计算两个多项分布的距离来衡量两个文本语义相似度。包括：

a)分词和去除停用词、低频词和标点符号后，建立字典。对于英文将文本内容进行大小写转换和根据空格分词。对于中文，需要借助jieba、Hanlp等分词工具进行分词。然后根据文本建立一个字典，字典对文本中的每个单词建立索引。

b)文本向量化。统计每个词出现的次数，假设对于一个文本，有['human','happy','interest']，这三个单词在文本中各出现1次，它们在上述的字典中的编号分别为2，0，1。则可以将该文本表示如下：[(2,1)，(0,1)，(1,1)]，这种向量表达称为BOW(BagofWord，词袋)。

c)向量变换，即将输入向量从一个向量空间转换到另外一个向量空间。这里采用TF-IDF(Term Frequency*Inverse Document Frequency，文档频率*逆文档频率)模型进行训练，在训练之后的变换中，TF-IDF模型输入一个词袋向量，并得到同样维度的变换向量。变换后的向量输出单词在训练文本中的稀有程度，越稀有，则值越大。这个值可以进行归一化设置，使它的取值范围在0～1之间。

d)将上述得到的每个文本中所有的词向量拼接写成矩阵A，并做SVD(SingularValue Decomposition，SVD)分解，其中i表示第i个文本，i的取值从1到m；t表示第t个主题，t的取值从1到m；j表示第j个词，j的取值从1到n；s表示第s个词义，s的取值从1到n，A_ij表示第i个文本的第j个词的特征，U_ij表示第i个文本和第j个主题的相关度，V_ij表示第i个词和第j个词义的相关度。m表示文本数量，n表示每个文本中词的数量，对于公式(2)中的第一行，认为m个文本就有m个主题，n个词就有n种词义。但实际计算中可以采用公式(2)中的第二行，也就是认为只有k个主题，k的取值小于矩阵A的秩。V_n×n ^T表示V_n×n矩阵的转置。

先假设有k个主题数，通过式(2)求解得到词和词义之间的分布关系以及文本和主题的分布关系。

e)利用文本主题矩阵计算文本的相似度，这里是通过海林格距离(可替代方法)来计算，计算公式(3)如下所示，其中P、Q表示的是概率分布。

其中，[n]表示从1到n的所有正整数组成的集合，i表示属于集合的任意一个数。

实现方式二：基于事件实例的事件抽取方法。假定已知所有文本是属于同一个类别的。首先，将文本中的每个句子作为一个候选事件，然后从句子中抽取出能够描述事件的有代表性的特征，把它们构成事件实例表示；其次，利用分类器对其进行二分类，区分文本中的事件实例和非事件实例；最后，计算两个文本的事件实例相似度。具体包括：

a)对于中文文本，需要对文本再处理，如中文分词、词性标注、根据标点符号？！。进行句子切分等。

b)特征选取。在a)的基础上，选取句子的特征为：长度、位置、命名实体的数量、词语的数量、时间的个数等。这里认为只有当一个句子含有事件特征时才构成事件实例,否则为非事件实例(相当于有了标签)。

c)对候选事件进行向量化。在特征的基础上，利用VSM(Vector Space Model，向量空间模型)对候选事件作向量表示。

d)利用分类器进行二分类。分类器可以选用SVM(支持向量机)或者利用常用的经过预训练的网络，如CNN等。训练时，对训练集a)到c)的操作后，使用分类器进行训练，参数更新，得到分类模型。测试时，也需要进行a)到c)的操作，再输入训练好的分类器中，完成事件实例的识别。

e)对事件实例进行聚类。可以采用K-均值方法(可替代的方案)。算法最后得到k个类，每个类表示的是同一个文本中不同实例的集合，这里考虑选取每个类中最靠近中心点的事件实例作为对文本的描述。

f)进行相似度计算。

图4是本发明实施例的系统原理图，整个系统包括：预处理模块，用于对文本进行清洗、格式修改等数据处理操作；长短文本类型判断模块，用于按照工程经验值和文本长度对两个文本进行分类；模型处理模块，用于根据得到的文本对类型选择合适的相似度求解模型；结果输出模块，用于输出模型求得的文本语义相似度，输出两个文本之间的语义相似度计算结果，供别的下游任务使用。

本方案提出的文本语义匹配模型自动选择框架，根据工程经验值去设定长短文本划分阈值，让框架自动判断并选择相应的求解模型，计算两个文本之间的相似度，可以节约成本、高效、方便。对于中文短文本-短文本语义匹配时，不需要进行分词，减少了误差的输入。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

在本实施例中还提供了一种文本相似度的计算装置，用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图5是根据本发明实施例的一种文本相似度的计算装置的结构框图，如图5所示，该装置包括：第一计算模块50，比对模块52，第二计算模块54，其中，

第一计算模块50，用于获取待比较的第一文本和第二文本，并计算所述第一文本的第一文本长度和所述第二文本的第二文本长度；

比对模块52，用于将所述第一文本长度与预设的第一阈值和第二阈值进行比对，并将所述第二文本长度与所述第一阈值和所述第二阈值进行比对，其中，所述第一阈值小于所述第二阈值；

第二计算模块54，用于根据比较结果选择对应的文本语义匹配模型，并基于所述文本语义匹配模型计算所述第一文本和所述第二文本之间的相似度。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

本申请实施例还提供了一种电子装置，图6是本发明实施例的一种电子装置的结构图，如图6所示，包括处理器61、通信接口62、存储器63和通信总线64，其中，处理器61，通信接口62，存储器63通过通信总线64完成相互间的通信，存储器63，用于存放计算机程序；

处理器61，用于执行存储器63上所存放的程序时，实现如下步骤：获取待比较的第一文本和第二文本，并计算所述第一文本的第一文本长度和所述第二文本的第二文本长度；将所述第一文本长度与预设的第一阈值和第二阈值进行比对，并将所述第二文本长度与所述第一阈值和所述第二阈值进行比对，其中，所述第一阈值小于所述第二阈值；根据比较结果选择对应的文本语义匹配模型，并基于所述文本语义匹配模型计算所述第一文本和所述第二文本之间的相似度。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的文本相似度的计算方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的文本相似度的计算方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种文本相似度的计算方法，其特征在于，包括：

获取待比较的第一文本和第二文本，并计算所述第一文本的第一文本长度和所述第二文本的第二文本长度；

将所述第一文本长度与预设的第一阈值和第二阈值进行比对，并将所述第二文本长度与所述第一阈值和所述第二阈值进行比对，其中，所述第一阈值小于所述第二阈值；

根据比较结果选择对应的文本语义匹配模型，并基于所述文本语义匹配模型计算所述第一文本和所述第二文本之间的相似度。

2.根据权利要求1所述的方法，其特征在于，根据比较结果选择对应的文本语义匹配模型包括：

若所述第一文本长度小于第一阈值，且所述第二文本长度小于所述第一阈值，选择长短期记忆网络深层语义模型LSTM-DSSM模型作为文本语义匹配模型。

3.根据权利要求2所述的方法，其特征在于，所述文本语义匹配模型为LSTM-DSSM模型，基于所述文本语义匹配模型计算所述第一文本和所述第二文本之间的相似度包括：

以所述第一文本的文本长度为分词长度将所述第一文本转换为第一文本向量，以所述第二文本的文本长度为分词长度将所述第二文本转换为第二文本向量；

采用LSTM网络将所述第一文本向量和第二文本向量分别转换为第一潜层语义向量和第二潜层语义向量，其中，所述第一潜层语义向量和第二潜层语义向量分别包括所述第一文本和第二文本的上下文语义信息；

计算所述第一潜层语义向量与所述第二潜层语义向量之间的第一余弦相似度，并将所述第一余弦相似度输出为所述第一文本和所述第二文本之间的相似度。

4.根据权利要求1所述的方法，其特征在于，根据所述第一文本长度和所述第二文本长度选择文本语义匹配模型包括：

若所述第一文本长度小于第一阈值，且所述第二文本长度大于所述第二阈值，选择无监督摘要模型和LSTM-DSSM模型作为文本语义匹配模型；

若所述第一文本长度大于所述第一阈值且小于所述第二阈值，且所述第二文本长度大于所述第二阈值，选择无监督摘要模型和LSTM-DSSM模型作为文本语义匹配模型。

5.根据权利要求1所述的方法，其特征在于，根据所述第一文本长度和所述第二文本长度选择文本语义匹配模型包括：

若所述第一文本长度大于所述第一阈值且小于所述第二阈值，且所述第二文本长度大于所述第一阈值且小于所述第二阈值，选择无监督摘要模型和LSTM-DSSM模型作为文本语义匹配模型。

6.根据权利要求4或5所述的方法，其特征在于，所述文本语义匹配模型为无监督摘要模型和LSTM-DSSM模型，基于所述文本语义匹配模型计算所述第一文本和所述第二文本之间的相似度包括：

对所述第二文本进行句分割，得到多个第二子文本；

采用句子嵌入模型将所述多个第二子文本分别转换为对应的多个句嵌入向量，其中，每个句嵌入向量包括一个与所述句子嵌入模型的编码器对应的句向量和两个与所述句子嵌入模型的解码器对应的前后句向量；

对所述多个句嵌入向量进行聚类，生成摘要文本；

基于所述LSTM-DSSM模型计算所述摘要文本与所述第一文本之间的第二余弦相似度，并将所述第二余弦相似度输出为所述第一文本和所述第二文本之间的相似度。

7.根据权利要求6所述的方法，其特征在于，对所述多个句嵌入向量进行聚类，生成摘要文本，包括：

将所述多个句嵌入向量进行簇群聚类，得到目标数量个聚类向量，其中，所述目标数量小于所述第二文本的句子总数，每个簇群对应一组语义相似的句子集合；

在每个所述聚类向量中分别选择距离聚类中心最接近的一个候选句，并对目标数量个候选句进行排序，生成摘要文本。

8.一种文本相似度的计算装置，其特征在于，包括：

第一计算模块，用于获取待比较的第一文本和第二文本，并计算所述第一文本的第一文本长度和所述第二文本的第二文本长度；

比对模块，用于将所述第一文本长度与预设的第一阈值和第二阈值进行比对，并将所述第二文本长度与所述第一阈值和所述第二阈值进行比对，其中，所述第一阈值小于所述第二阈值；

第二计算模块，用于根据比较结果选择对应的文本语义匹配模型，并基于所述文本语义匹配模型计算所述第一文本和所述第二文本之间的相似度。

9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至7任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至7任一项中所述的方法。