CN111814456A

CN111814456A - 一种基于动词的中文文本相似度计算方法

Info

Publication number: CN111814456A
Application number: CN202010450674.7A
Authority: CN
Inventors: 陈凯玲; 顾闻; 史松峰; 韩东; 徐雪莲
Original assignee: State Grid Shanghai Electric Power Co Ltd
Current assignee: State Grid Shanghai Electric Power Co Ltd
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2020-10-23

Abstract

本发明涉及一种基于动词的中文文本相似度计算方法，包括以下步骤：S1：获取需要进行相似度计算的第一文本和第二文本，并进行预处理；S2：分别对预处理完成的第一文本和第二文本的提取动词序列；S3：基于动词序列计算第一文本与第二文本的语法相似度f₁；S4：基于预处理完成的第一文本和第二文本，计算两文本的语义相似度f₂；S5：结合语法相似度和语义相似度计算第一文本和第二文本的文本间相似度f，与现有技术相比，本发明具有提高计算精确度和计算速度等优点。

Description

一种基于动词的中文文本相似度计算方法

技术领域

本发明涉及语义分析技术领域，尤其是涉及一种基于动词的中文文本相似度计算方法。

背景技术

在信息处理中，文本相似度的计算广泛应用于信息检索、机器翻译、自动问答系统和文本挖掘等领域，是一个非常基础而关键的问题，长期以来一直是人们研究的热点和难点。

近年来，一些方法提出利用文本相似度计算对已签订的合同进行智能评审，实现对合同文本中潜在的法律风险进行自动预警，使中文文本相似度计算方法的应用得到进一步的扩展应用，也对中文文本相似度计算提出了新的要求。

目前文本相似度计算方法包括基于字符串的方法、基于本体的方法和基于语料库的方法等，其中基于字符串的方法仅从字面上考虑了字符串的匹配或者共现，没有考虑到文本中包含的语义信息，基于本体的方法受限于人类构建的本体规模，不在本体中的词语无法计算相似度，而基于语料库的方法通过神经网络训练词向量，把句子表示成向量形式，在一定程度上能够捕获文本中的语法和语义的信息。

但是这些方法均没有结合汉语语言学以及自然语言处理的规律与经验，且没有有效结合，不能高效、准确地进行中文文本相似度的计算。而合同评审关系到签订双方的重要利益，如电网工程建设中，合同条款的制定是十分重要的环节，如果此类条款存在责任不明确等问题，就会存在引起纠纷并导致损失等风险，需要进行准确精细的审批。所以目前的中文文本相似度计算方法不能适用于合同智能评审，需要设计一种新的中文文本相似度计算方法，高效、准确地进行中文文本相似度的计算。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种提高计算精确度和计算速度的基于动词的中文文本相似度计算方法。

本发明的目的可以通过以下技术方案来实现：

一种基于动词的中文文本相似度计算方法，包括以下步骤：

S1：获取需要进行相似度计算的第一文本和第二文本，并进行预处理；

S2：分别对预处理完成的第一文本和第二文本的提取动词序列；

S3：基于动词序列计算第一文本与第二文本的语法相似度f₁；

S4：基于预处理完成的第一文本和第二文本，计算两文本的语义相似度f₂；

S5：结合语法相似度和语义相似度计算第一文本和第二文本的文本间相似度f。

进一步地，所述的预处理具体包括：对第一文本和第二文本进行分词，并去除停用词。

在分词的过程中，我们可以发现一些对文本内容意义不大但出现频率很高的词、符号和标点等。如“这、的、也、对、了、吗”等词基本上都会出现在任何一篇汉语文章中，但把这些词运用到文章中似乎并没有什么意义，它们在文章中的地位也变得可有可无，去除它们也并不影响文章所要表达的具体含义以及它的可读性。因此这些词就作为停用词在预处理的过程中进行取出，本发明采用四川大学机器智能实验室的停用词库，通过构造一个去除词表(Remove Words List)，过滤掉这些无意义词。

进一步地，所述的步骤S3具体包括：

S31：将第一文本和第二文本的动词序列分别作为第一文本特征字符串和第二文本特征字符串；

S32：获取第一文本特征字符串到第二文本特征字符串的公共子串个数，记为第一公共子串个数；

S33：获取第二文本特征字符串到第一文本特征字符串的公共子串个数，记为第二公共子串个数；

S34：选取第一公共子串个数和第二公共子串个数中最大公共子串个数，作为实际公共子串个数；

S35：利用实际公共子串个数，计算第一文本与第二文本的语法相似度f₁。

更进一步地，所述的语法相似度f₁的计算公式为：

其中，c为实际公共子串个数，a为第一文本的动词序列中动词的个数，b为第二文本的动词序列中动词的个数。

进一步地，所述的步骤S4具体包括：

S41：基于语义向量空间模型，构建语义主题空间P中的特征项向量表；

S42：分别提取第一文本和第二文本中所有的特征项，得到第一文本特征项集合和第二文本特征项集合；

S43：分别统计第一文本特征项集合和第二文本特征项集合中各特征项的出现次数；

S44：利用特征项向量表，获取第一文本特征项集合和第二文本特征项集合中各特征项对应的特征项向量；

S45：根据特征项向量，计算第一文本对应的特征向量和第二文本对应的特征向量，并分别做标准化处理，得到第一文本特征向量和第二文本特征向量；

S46：根据第一文本特征向量和第二文本特征向量，计算第一文本和第二文本的语义相似度f₂。

更进一步地，所述的第一文本对应的特征向量

的计算式为：

其中，f_i,k为第一文本特征项集合中第k个特征项出现的次数，n为第一文本中所有特征项的个数，

为第一文本特征项集合中第k个特征项在语义主题空间P中对应的特征项向量；

所述的第二文本对应的特征向量

的计算式为：

其中，f_j,k为第二文本特征项集合中第k个特征项出现的次数，m为第二文本中所有特征项的个数，

第二文本特征项集合中第k个特征项在语义主题空间P中对应的特征项向量。

更进一步地，所述的语义相似度f₂的计算式为：

其中，

为第一文本特征向量，

为第二文本特征向量，w_i,j为第一文本特征向量与第二文本特征向量之间的夹角。

更进一步地，所述的步骤S41具体包括：

S411：确定语义向量空间模型中使用的语义主题集合V_T＝{τ₁,τ₂,…,τ_d}，确定语义主题空间P；

S412：确定语义向量空间模型中非语义主题的文本特征项，记为集合V_N；

S413：将语义主题和特征项表示为集合V，以集合的元素为结点，元素之间的语义关系为边，组织语义关联图G＝<V,E>；

S414：根据语义关联图G＝<V,E>，确定所有语义主题对应的向量；

S415：计算各个特征项的向量表示，构建语义主题空间P中的特征项向量表。

进一步优选地，所述的特征项为文本中的各个词语。

进一步地，所述的文本间相似度计算式为：

f＝α*f₁+β*f₂

其中，α为语法加权系数，其值优选为0.4，β为语义加权系数，其值优选为0.6，该值根据文中语法结构、语义结构在度量文本相似性时的权重确定。

与现有技术相比，本发明具有以下优点：

1)本发明通过引入“动词中心词”的概念，扩展停用词的范围，将文本中去掉停用词后的动词组成动词序列作为文本特征串，结合串匹配算法，计算出中文文本间语法相似度f₁，算法简单，提高计算速度；

2)本发明根据IFIDF方法提取两篇文本的特征项，进行权重计算，并利用语义主题作为向量空间的维度提取文本的特征向量，计算出语义相似性f₂，有效解决简单以词语作为文本的特征项而忽略近义词和同义异形词替换的问题，有效提高计算结果的精准度；

3)本发明结合文本间语法相似度f₁和语义相似性f₂得到文本间相似度f作为最终文本相似度的结果，从语法和语义两方面同时考虑，提高文本相似度计算的精确度。

附图说明

图1为本发明的流程示意图；

图2为语法相似度计算过程示意图；

图3为语义相似度计算过程示意图；

图4为实施例中文本A到文本B的公共子串个数示意图；

图5为实施例中文本B到文本A的公共子串个数示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例

如图1所示，本发明提供一种基于动词的中文文本相似度计算方法，包括以下步骤：

其中，预处理具体包括：对第一文本和第二文本进行分词，并去除停用词。

本实施例中，在分词时使用开源中文分词组件——盘古分词，利用第三方库分词软件对两文本进行分词。分词时，首先将一些无意义的词语、对文本可有可无的词语放入提前构造的去除词表，便于后续加载搜狗词库计算词频以及权重。

我们可以发现一些对文本内容意义不大但出现频率很高的词、符号和标点等。如“这、的、也、对、了、吗”等词基本上都会出现在任何一篇汉语文章中，但把这些词运用到文章中似乎并没有什么意义，它们在文章中的地位也变得可有可无，去除它们也并不影响文章所要表达的具体含义以及它的可读性。因此这些词就作为停用词在预处理的过程中进行取出，本实施例中，采用四川大学机器智能实验室的停用词库，通过构造一个去除词表(Remove Words List)，过滤掉这些无意义词。

本发明一共包括三大部分，一是通过提取动词，对两篇文本进行语法相似度f₁的计算，二是通过提取特征项，利用TF-IDF加权法进行语义相似度f₂的计算，最后是将语法相似度f₁和语义相似度f₂结合，得到文本间相似度f。下面分三部分进行详细描述。

(一)通过提取动词，对两篇文本进行语法相似度f₁的计算

吕叔湘在其代表著《中国文法要略》中构建了以动词为中心的句法模型。在分析句子时，句子中心是表示动作的动词，而表示动作之所由起、所终止以及所关涉的各个方面的名词，都是对这个动词的补充，因而统统可称为“补词”。于是，句子中除动词这个中心以外，就有了“起词”、“止词”、“受词”、“关切补词”、“交与补词”、“凭借补词”等各种“补词”。也就是说，句子表达的意思体现在句中的中心动词上，因此段落中所有句子的中心动词组成的序列就体现了段落的中心意思。同理，文本中所有句子的中心动词组成的序列可以概括全文的中心意思。这样，动词序列不仅反映了文本中发生的动作，而且描述了动作的发生顺序，因此可以用动词序列作为文章的特征串。两个文本间特征串的相似性反映了文本间的相似性。

其具体步骤包括：

如图2所示，假定两个文本分别为文本A和文本B，在分别获得两个文本的动词序列后，可以将动词序列看作一个字符串，得到文本A特征字符串和文本B特征字符串，两个动词序列的相似性可以通过计算两个特征字符串的公共子串的个数来获得，假设文本A的动词序列为V1、V2、V3、V2和V4，文本B的动词序列为V1、V3、V2和V4。则文本A特征字符串到文本B特征字符串的公共子串个数如图4所示，文本B特征字符串到文本A特征字符串公共子串的个数如图5所示。由图4和图5可得，文本A特征字符串到文本B特征字符串的公共子串个数为3，文本B特征字符串到文本A特征字符串的公共子串个数为4，取两者中大的公共子串个数作为实际公共子串个数，得到实际公共子串个数为4。

最后通过语法相似度f₁的计算公式计算，其计算公式为：

(二)通过提取特征项，利用TF-IDF加权法进行语义相似度f₂的计算

度量语义相似性可以参考信息检索中的向量模型。向量空间模型的基本思想是以向量来表示文本，可以选择字、词语或者词组作为特征项，本实施例中，优选选择词语作为特征项，同时用词语的相对词频表示向量的分量。

VSM的TF-IDF相似度计算方法，以词语作为文本的特征项，忽略近义词和同义异形词的替换问题，使得计算结果的精准度降低。利用语义词典可以有效解决这个问题。根据语义词典提供的相关词语概念的信息，作为词语相似度的度量，常用的语义词典主要有同义词词林和知网。以语义主题作为向量空间的维度提取特征向量，采用基于语料库统计的方法，首先需要选择一组词的特征，然后将每个词与这组词的特征进行比较，得到一个相关特征向量，通过计算向量的夹角余弦来计算相似度，其具体步骤包括：

其中S41具体包括：

第一文本对应的特征向量

的计算式为：

第二文本对应的特征向量

的计算式为：

语义相似度f₂的计算式为：

其中，

为第一文本特征向量，

(三)将语法相似度f₁和语义相似度f₂结合，得到文本间相似度f

在获得了两个文本的语义相似度f₂和语法相似度f₁之后，需要计算总的相似度，即文本间相似度f，其计算式为：

f＝α*f₁+β*f₂

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的工作人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。