CN111767724A

CN111767724A - 一种文本相似度计算方法及系统

Info

Publication number: CN111767724A
Application number: CN202010530241.2A
Authority: CN
Inventors: 余祥; 李强; 陈立哲; 朱峰; 李腾飞; 顾正海
Original assignee: Anhui Lvben Technology Co ltd
Current assignee: Anhui Lvben Technology Co ltd
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2020-10-13

Abstract

本发明公开了一种文本相似度计算方法及系统，属于信息检索技术领域，包括：对两待比较文本分别进行分词处理，得到两待比较文本对应的分词结果，分别为第一分词结果和第二分词结果；对于第一分词结果中的单词和第二分词结果中的单词，分别形成单词所在整个文本的句意表示向量，得到两待比较文本对应的句意表示向量；基于向量空间模型计算两待比较文本对应的句意表示向量之间的相似度。本发明中相似度计算是基于当前文本，依赖少，在保证较高准确的同时能够保持较快的速度。

Description

一种文本相似度计算方法及系统

技术领域

本发明涉及信息检索技术领域，特别涉及一种基于相似度计算的文本匹配方法。

背景技术

文本相似度计算是信息检索处理中一项很重要的研究工作，电子文件密级甄别准确性很大程度上取决于语句相似度计算的准确性。

传统的文本相似度计算有编辑距离计算、简单单词匹配(比较文本出现相同单词个数)，基于语料库和知识库的语义相似度计算等方法。编辑距离或简单单词匹配以及其改进方法在比较结果准确性上并不高，基于语料库和知识库的文本相似度计算方法主要依赖语料库和知识库，预处理要求较高，且训练时间长，时间复杂度高。

发明内容

本发明的目的在于克服上述背景技术中的不足，提供一种准确的文本相似度计算方案。

为实现以上目的，本发明采用一种文本相似度计算方法，包括如下步骤：

对两待比较文本分别进行分词处理，得到两待比较文本对应的分词结果，分别为第一分词结果和第二分词结果；

对于第一分词结果中的单词和第二分词结果中的单词，分别形成单词所在整个文本的句意表示向量，得到两待比较文本对应的句意表示向量；

基于向量空间模型计算两待比较文本对应的句意表示向量之间的相似度。

进一步地，所述对于第一分词结果中的单词和第二分词结果中的单词，分别形成单词所在整个文本的句意表示向量，得到两待比较文本对应的句意表示向量，包括：

结合所述分词结果中的单词在局部和全局的上下文信息，学习第一分词结果中的单词在语境中的词义表示特征和第二分词结果中的单词在语境中的词义表示特征；

基于组合语义模型进行词义的组合，形成所述第一分词结果中单词对应的整个文本的句意表示向量以及所述第二分词结果中单词对应的整个文本的句意表示向量。

进一步地，所述结合所述分词结果中的单词在局部和全局的上下文信息，学习第一分词结果中的单词在语境中的词义表示特征和第二分词结果中的单词在语境中的词义表示特征，包括：

分别根据所述分词结果中单词在所处的词序列计算第一分词结果中单词的局部上下文特征向量和第二分词结果中单词的局部上下文特征向量；

将每个语句作为语句序列中的一个元素，计算第一分词结果中单词的全局上下文特征向量和第二分词结果中单词的全局上下文特征向量；

利用同一单词的局部上下文特征向量和全局上下文特征向量，得到该单词在语境中的词义表示特征。

进一步地，所述基于组合语义模型进行词义的组合，形成所述第一分词结果中单词对应的整个文本的句意表示向量以及所述第二分词结果中单词对应的整个文本的句意表示向量，包括：

基于组合语义模型将句子分析成一棵依存句法树，并使用句法分析工具进行句法分析；

将句法分析结果按照分析器定义的依存关系次序进行变换得到整个句子的组合关系树状层级图；

从叶子节点开始，按照树所表示的节点层次关系，从底层叶子节点开始逐层向上进行有序的组合，得到所述单词对应的整个文本的句意表示向量。

进一步地，所述基于向量空间模型计算两待比较文本对应的句意表示向量之间的相似度，具体为：

利用相似度计算公式计算两待比较文本对应的句意表示向量之间的相似度sim(D₁,D₂)，公式如下：

其中，score_1k表示文本D₁的各个维度的特征向量，score_2k表示文本D₂的各个维度的特征向量，k表示单个向量维度，n表示向量维度，D₁,D₂分别表示需要比较的两个文本。

进一步地，在所述基于向量空间模型计算两待比较文本对应的句意表示向量之间的相似度之后，还包括：

将所述相似度sim(D₁,D₂)与相似度阈值λ进行比较；

当λ≤sim(D₁,D₂)时，表示两个语句相似；

当λ>sim(D₁,D₂)时，表示两个语句不相似。

另一方面，采用一种文本相似度计算系统，包括分词模块、向量表示模块和相似度计算模块，其中：

分词模块用于对两待比较文本分别进行分词处理，得到两待比较文本对应的分词结果，分别为第一分词结果和第二分词结果；

向量表示模块用于对于第一分词结果中的单词和第二分词结果中的单词，分别形成单词所在整个文本的句意表示向量，得到两待比较文本对应的句意表示向量；

相似度计算模块基于向量空间模型计算两待比较文本对应的句意表示向量之间的相似度。

进一步地，所述向量表示模块包括词义表示特征单元和句意表示单元；

词义表示特征单元用于结合所述分词结果中的单词在局部和全局的上下文信息，学习第一分词结果中的单词在语境中的词义表示特征和第二分词结果中的单词在语境中的词义表示特征；

句意表示单元用于基于组合语义模型进行词义的组合，形成所述第一分词结果中单词对应的整个文本的句意表示向量以及所述第二分词结果中单词对应的整个文本的句意表示向量。

进一步地，所述词义表示特征单元包括局部上下文特征向量计算子单元、全局上下文特征向量计算子单元和词义表示特征子单元；

局部上下文特征向量计算子单元用于分别根据所述分词结果中单词在所处的词序列计算第一分词结果中单词的局部上下文特征向量和第二分词结果中单词的局部上下文特征向量；

全局上下文特征向量计算子单元用于将每个语句作为语句序列中的一个元素，计算第一分词结果中单词的全局上下文特征向量和第二分词结果中单词的全局上下文特征向量；

词义表示特征子单元用于利用同一单词的局部上下文特征向量和全局上下文特征向量，得到该单词在语境中的词义表示特征。

进一步地，所述句意表示单元包括句法分析子单元、变换子单元和句意表示子单元；

句法分析子单元用于基于组合语义模型将句子分析成一棵依存句法树，并使用句法分析工具进行句法分析；

变换子单元用于将句法分析结果按照分析器定义的依存关系次序进行变换得到整个句子的组合关系树状层级图；

句意表示子单元用于从叶子节点开始，按照树所表示的节点层次关系，从底层叶子节点开始逐层向上进行有序的组合，得到所述单词对应的整个文本的句意表示向量。

与现有技术相比，本发明存在以下技术效果：本发明针对待比较两个文本对应的分词结果中的单词，学习单词在语境中的表示，并进行词义的组合，形成整个文本的句意表示向量，根据两个短文本的句意表示向量来计算两个短文本之间的相似性。相似度计算是基于当前文本，依赖少，在保证较高准确的同时能够保持较快的速度。

附图说明

下面结合附图，对本发明的具体实施方式进行详细描述：

图1是一种文本相似度计算方法的流程示意图；

图2是一种文本相似度计算系统的结构示意图；

图3是“如何增加提现额度”得到的句子依存树；

图4是组合关系树状层级图示例。

具体实施方式

为了更进一步说明本发明的特征，请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用，并非用来对本发明的保护范围加以限制。

如图1所示，本实施例公开了一种文本相似度计算方法，包括如下步骤S1至S3：

S1、对两待比较文本分别进行分词处理，得到两待比较文本对应的分词结果，分别为第一分词结果和第二分词结果；

需要说明的是，本实施例采用的分词处理方法，可采用基于多层隐马模型的分词方法，也可以采用其他类似的分词方法。得到的分词结果是一个词语的序列，也就是说将一个文本进行划分，比如：李鸿章故居是一个合肥的旅游景点。划分为：李鸿章故居/是/一个/合肥/的/旅游景点。上述语句文本的分词结果是一个包括6个词语的单词序列。

S2、对于第一分词结果中的单词和第二分词结果中的单词，分别形成单词所在整个文本的句意表示向量，得到两待比较文本对应的句意表示向量；

S3、基于向量空间模型计算两待比较文本对应的句意表示向量之间的相似度。

进一步地，上述步骤S2：对于第一分词结果中的单词和第二分词结果中的单词，分别形成单词所在整个文本的句意表示向量，得到两待比较文本对应的句意表示向量，包括如下细分步骤S21至S22：

S21、结合所述分词结果中的单词在局部和全局的上下文信息，学习第一分词结果中的单词在语境中的词义表示特征和第二分词结果中的单词在语境中的词义表示特征；

S22、基于组合语义模型进行词义的组合，形成所述第一分词结果中单词对应的整个文本的句意表示向量以及所述第二分词结果中单词对应的整个文本的句意表示向量。

进一步地，上述步骤S21中，结合所述分词结果中的单词在局部和全局的上下文信息，学习单词在语境中的词义表示特征，具体包括如下步骤S211至S213：

目标词表示的特征提取公式：

C_s,d＝∑_w∈V max(0,1-g(s,d)+g(s^w,d))

其中，C_s,d表示文档d中出现的分词序列s的特征，s^w是s中目标词(即分词结果中的单词序列中的一个单词)替换成词汇表V(词汇表来自语料库，来自多次分词结果的集合)中词w后的序列，g(…)是一个神经网络模型计算公式，用来计算单词的词义；对于词汇表V中每一个词w，希望g(s,d)的值比g(s^w,d)大，且差距控制在1以内，从而优化每一对(s,d)的排序作用。

S211、根据所述单词在所处的分词序列s计算该单词的局部上下文特征向量score_l，局部上下文特征由目标词在所处的分词序列s计算而来，具体过程如下：

首先将分词序列s转换为一个有序向量x＝(x₁,x₂,…,x_m-1,x_m),x_i表示词序列中第i个词语，x是矩阵L∈R^n×|V|的一个列，|V|表示的是词汇表的大小，矩阵L中的每一列都是一个分词序列向量，在训练过程中不断变化其中的数值。

使用带有一个循环神经网络或递归网络来计算局部上下文特征结果，其中网络的输入是文档和分词序列，输出是局部上下文特征向量值：

a₁＝f(w₁[x₁；x₂；…；x_m-1；x_m]+b₁)

score_l＝w₂a₂+b₂

其中，[x₁；x₂；…；x_m-1；x_m]是组成分词序列s的m个词的向量表示，f是一个元素智能激活函数，例如双曲正切函数，a₁∈R^h×1是有h个隐藏节点的隐藏层的激活函数，w₁∈R^h×(mn)和w₂∈R^1×h是第一层和第二层神经网络的权重，b₁和b₂是隐藏层的平衡因子。这里的循环神经网络或递归神经网络，主要由输入层(Input Layer)、隐藏层Hidden Layer)、输出层(Output Layer)三部分组成。

需要说明的是，所有文档组成一个文档序列(集合)，对每个文档进行分词可以得到包含单词序列的一个分词结果。语句序列由文本根据标点符号进行划分，语句可以作为相似度计算的基本单位。

对于全局上下文特征的获取，是将所有的文档作为一个序列，每个文档作为序列中的一个元素。这里所有文档，一般是指建立的文献库或语料库，此文献库或语料库与当前需要比较的文本专业性接近，如步骤S212。

S212、计算单词的全局上下文特征向量score_g，全局上下文特征的提取是将所有文档作为一个序列，每个文档作为文档序列中的一个元素d＝(d₁,d₂,…,d_k),计算文档中所有分词向量的加权平均值：

其中，w(t_i)是计算分词t_i在语句中权重的函数，使用逆向文件频率IDF来计算权重，使用两层神经网络(即将递归神经网络递归两次)来计算全局上下文特征向量score_g，计算过程与上面类似：

其中，[c；x_m]是文本的加权平均值C和上下文分词序列s中最后目标分词x_m组成的向量关系，

是有h(g)个隐藏节点的隐藏层的激活函数，

和

是第一层和第二层神经网络的权重，

和

是平衡因子。

需要说明的是，w(t_i)即计算分词权重的函数，本实施例使用的是常见的逆向文件频率计算方法，是一种用于信息检索与数据挖掘的常用加权技术。其主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

S213、利用该单词的局部上下文特征向量score_l和该单词的全局上下文特征向量score_g，得到该单词在语境中的词义表示特征score，具体为将这两个子向量相加得到：score＝score_l+score_g。

需要说明的是，局部上下文特征score_l保留了词序信息和句法信息，而全局特征score_g使用了类似于词袋模型的加权平均分，使得最后的结果能够捕捉到更多的句意和文档的主题信息。在实际模型训练中，使用目标词的前后各5个词作为局部上下文信息。

进一步地，文本的表达的含义由构成文本的各个部分的含义及其之间的组合方式共同作用而成。通过依存句法分析研究语句的组成结构，分析各个部分之间的作用关系，进而结合词义表示模型，把语句各组成部分的含义进行组合计算，最终得到整个语句的含义表示。

上述步骤S22：基于组合语义模型进行词义的组合，形成所述第一分词结果中单词对应的整个文本的句意表示向量以及所述第二分词结果中单词对应的整个文本的句意表示向量，具体包括如下步骤S221至S223：

S221、基于组合语义模型进行词义的组合，将句子分析成一棵依存句法树，并使用句法分析工具进行句法分析；

需要说明的是，组合语义模型即通过组合语义模型对词义表示特征进行组合。组合语义模型主要包括句法分析和语义组合构建。句法分析可以得到句子各单词之间的依存关系。

一个句子中存在一个成分称之为根(root)，这个成分不依赖于其它成分，找到root根后，根据依存关系构建句子的组合关系树状层级图，并从树的叶子节点开始计算父节点的表示向量，最终得到整个句子的表示向量。

需要说明的是，本实施例中使用句法分析工具分析得到的结果是语句的依存关系，表示为一个句法的树形结构。

S222、将分析结果按照分析器定义的依存关系次序进行变换得到整个句子的组合关系树状层级图；

这里提到的依存关系，即组合句子的各个单词之间的关系，有一个核心，其它单词依此通过依存关系展开。通过依存关系可以更好的理解句子，找到句子的核心语义。每一个句子都可以分析成一颗依存句法树，这颗树描述了组成句子的各个词语之间的依存关系，也就是指出了词语之间在句法上的搭配，这种搭配关系是和语义相关的。比如：

“如何增加提现额度”得到的句子依存树如图3所示，其中：

HED：表示依存句法关系；ADV：表示语义角色类型语义角色类型。

句子依存树的构建方法：

第一步：找到句子的HED(核心)作为ROOT根；

第二步：找到依存于HED的其它单词作为叶子节点；

第三步：循环迭代依次展开完成树的构建。

分析得到的结果是语句的依存关系，表示为一个句法的树形结构。由于语义组合构建需要使用到语句不同成分之间的语义表达的组合关系，需要将上述工具分析得到的结果按照分析器定义的依存关系次序进行变换得到整个句子的组合关系树状层级图，如图4所示。

S223、从叶子节点开始，按照树所表示的节点层次关系，从底层叶子节点开始逐层向上进行有序的组合，得到所述单词对应的整个文本的句意表示，具体为：利用如下公式计算父节点：

p＝α×p_i+β×p_j

其中，p是子节点p_i和p_j的父节点，α和β是加权因子，整个句子的句意表示向量由上述公式迭代计算得到。

进一步地，上述步骤S3：基于向量空间模型计算两待比较文本对应的句意表示向量之间的相似度，具体为：

应当理解的是，文本的特征向量包括了两个维度，即局部上下文和全局上下文特征向量，与前述对应。

进一步地，在上述步骤S3：基于向量空间模型计算两待比较文本对应的句意表示向量之间的相似度之后，还包括：

将所述相似度sim(D₁,D₂)与相似度阈值λ进行比较；

当λ≤sim(D₁,D₂)时，表示两个语句相似；

当λ>sim(D₁,D₂)时，表示两个语句不相似。

需要说明的是，这里的相似度阈值是通过多次试验，人工取值的，取值范围一般在0.3-0.6之间。

如图2所示，本实施例公开了一种文本相似度计算系统，包括：分词模块10、向量表示模块20和相似度计算模块30，其中：

分词模块10用于对两待比较文本分别进行分词处理，得到两待比较文本对应的分词结果，分别为第一分词结果和第二分词结果；

向量表示模块20用于对于第一分词结果中的单词和第二分词结果中的单词，分别形成单词所在整个文本的句意表示向量，得到两待比较文本对应的句意表示向量；

相似度计算模块30基于向量空间模型计算两待比较文本对应的句意表示向量之间的相似度。

进一步地，所述向量表示模块20包括词义表示特征单元和句意表示单元；

进一步地，所述相似度计算模块30用于利用相似度计算公式计算两待比较文本对应的句意表示向量之间的相似度sim(D₁,D₂)，公式如下：

需要说明的是，该处公开的文本相似度计算系统与上述实施例公开的文本相似度计算方法具有相同或相应的技术特征，可实现相同的技术效果，该处关于具体技术细节不再赘述。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本相似度计算方法，其特征在于，包括：

2.如权利要求1所述的文本相似度计算方法，其特征在于，所述对于第一分词结果中的单词和第二分词结果中的单词，分别形成单词所在整个文本的句意表示向量，得到两待比较文本对应的句意表示向量，包括：

3.如权利要求2所述的文本相似度计算方法，其特征在于，所述结合所述分词结果中的单词在局部和全局的上下文信息，学习第一分词结果中的单词在语境中的词义表示特征和第二分词结果中的单词在语境中的词义表示特征，包括：

4.如权利要求2所述的文本相似度计算方法，其特征在于，所述基于组合语义模型进行词义的组合，形成所述第一分词结果中单词对应的整个文本的句意表示向量以及所述第二分词结果中单词对应的整个文本的句意表示向量，包括：

5.如权利要求1所述的文本相似度计算方法，其特征在于，所述基于向量空间模型计算两待比较文本对应的句意表示向量之间的相似度，具体为：

利用相似度计算公式计算两待比较文本对应的句意表示向量之间的相似度sim(D₁，D₂)，公式如下：

其中，score_1k表示文本D₁的各个维度的特征向量，score_2k表示文本D₂的各个维度的特征向量，k表示单个向量维度，n表示向量维度，D₁，D₂分别表示需要比较的两个文本。

6.如权利要求5所述的文本相似度计算方法，其特征在于，在所述基于向量空间模型计算两待比较文本对应的句意表示向量之间的相似度之后，还包括：

将所述相似度sim(D₁，D₂)与相似度阈值λ进行比较；

当λ≤sim(D₁，D₂)时，表示两个语句相似；

当λ＞sim(D₁，D₂)时，表示两个语句不相似。

7.一种文本相似度计算系统，其特征在于，包括：分词模块、向量表示模块和相似度计算模块，其中：

8.如权利要求7所述的文本相似度计算系统，其特征在于，所述向量表示模块包括词义表示特征单元和句意表示单元；

9.如权利要求8所述的文本相似度计算系统，其特征在于，所述词义表示特征单元包括局部上下文特征向量计算子单元、全局上下文特征向量计算子单元和词义表示特征子单元；

10.如权利要求8所述的文本相似度计算系统，其特征在于，所述句意表示单元包括句法分析子单元、变换子单元和句意表示子单元；