CN106610953A

CN106610953A - 基于基尼指数求解文本相似度的方法

Info

Publication number: CN106610953A
Application number: CN201610866921.5A
Authority: CN
Inventors: 金平艳
Original assignee: Sichuan Yonglian Information Technology Co Ltd
Current assignee: Sichuan Yonglian Information Technology Co Ltd
Priority date: 2016-09-30
Filing date: 2016-09-30
Publication date: 2017-05-03

Abstract

基于基尼指数求解文本相似度的方法，利用分词技术对文本分词处理，匹配停用词表对词汇进行去停用词操作，根据调研统计，得出一系列词汇位置和词性权重值，利用目标权重函数对文本词汇集合降维，根据语义相似度合并相似度高的词汇，对上述特征词汇集合再降维，利用向量间的相似度求解文本间的相似度。本发明比传统文本特征词汇提取方法准确度更高，具有更好的应用价值，数据处理效果好，克服了信息增益方法的缺点，结果更符合经验值，解决了文本特征词汇高维稀疏的问题和同义词与多义词的问题，计算了不同词汇对文本思想的贡献度，为后续文本相似度与文本聚类提供良好的理论基础。

Description

基于基尼指数求解文本相似度的方法

技术领域

本发明涉及语义网络技术领域，具体涉及基于基尼指数求解文本相似度的方法。

背景技术

在中文信息处理中,文本相似度的计算广泛应用于信息检索、机器翻译、自动问答系统、文本挖掘等领域,是一个非常基础而关键的问题,长期以来一直是人们研究的热点和难点。目前多数文本相似度算法是以向量空间模型为基础的,但这种方法会引起高维稀疏的问题以及不知特征词汇集合对文本的重要程度和贡献度。而且,这类算法没有很好地解决文本数据中存在的自然语言问题同义词和多义词。这些问题干扰了文本相似度算法的效率和准确性,使相似度计算的性能下降。为了满足上述需求，本发明提供了一种基于基尼指数求解文本相似度的方法。

发明内容

针对于特征向量高维稀疏问题、未考虑特征词汇集合对文本的重要程度和贡献度的问题、存在同义词与多义词问题以及文本相似度算法的效率和准确性不高问题，本发明提供了基于基尼指数求解文本相似度的方法。

为了解决上述问题，本发明是通过以下技术方案实现的：

步骤1：利用中文分词技术分别对两文本(w₁，w₂)进行分词处理；

步骤2：根据停用表分别对两文本(w₁，w₂)词汇进行去停用词处理，得到文本特征词汇集合T₁，T₂；

步骤3：根据词汇在文本中的位置得到一系列词汇位置权重值(α₁，α₂，…，α_n)；

步骤4：根据词汇在文本中的词性得到一系列词汇词性权重值β₁、β₂、β₃、β₄；

步骤5：综合上述步骤，利用目标权重函数f(w)_归一化对文本词汇集合进行进一步降维处理，得到文本特征词汇集合分别为T₁′、T₂′；

步骤6：根据语义相似度条件，合并相似度高的词汇，对两文本特征词汇集合T₁′、T₂′再降维，此时两文本的特征词汇向量分别为

步骤7：利用文本相似度函数sim(w₁，w₂)，求解两特征向量间的相似度即为文本相似度

本发明有益效果是：

1、此方法比传统的词频-反文档频率方法得到的特征词汇集合的准确度更高。

2、此方法克服了信息增益方法只适合用来提取一个类别的文本特征的缺点。

3、此方法结果更符合经验值。

4、此方法解决了文本特征词汇高维稀疏的问题。

5、此方法解决了同义词与多义词的问题。

6、为后续的文本聚类技术提供良好的理论基础。

7、此算法具有更大的利用价值。

8、此方法计算了特征词汇中不同词汇对文本思想的贡献度。

9、此方法计算文本相似度的准确性更高。

附图说明

图1基于基尼指数求解文本相似度的方法的结构流程图

图2 n元语法分词算法图解

图3中文文本预处理过程流程图

具体实施方式

为了解决特征向量高维稀疏问题、未考虑特征词汇集合对文本的重要程度和贡献度的问题、存在同义词与多义词问题以及文本相似度算法的效率和准确性不高问题，结合图1-图3对本发明进行了详细说明，其具体实施步骤如下：

步骤1：利用中文分词技术分别对两文本(w₁，w₂)进行分词处理，其具体分词技术过程如下：

步骤1.1：根据《分词词典》找到待分词句子中与词典中匹配的词，把待分词的汉字串完整的扫描一遍，在系统的词典里进行查找匹配，遇到字典里有的词就标识出来；如果词典中不存在相关匹配，就简单地分割出单字作为词；直到汉字串为空。

步骤1.2：依据概率统计学，将待分词句子拆分为网状结构，即得n个可能组合的句子结构，把此结构每条顺序节点依次规定为SM₁M₂M₃M₄M₅E，其结构图如图2所示。

步骤1.3：基于信息论方法，给上述网状结构每条边赋予一定的权值，其具体计算过程如下：

根据《分词词典》匹配出的字典词与未匹配的单个词，第i条路径包含词的个数为n_i。即n条路径词的个数集合为(n₁，c₂，…，n_n)。

得min()＝min(n₁，n₂，…，n_n)

在上述留下的剩下的(n-m)路径中，求解每条相邻路径的权重大小。

在统计语料库中，计算每个词的信息量X(C_i)，再求解路径相邻词的共现信息量X(C_i，C_i+1)。既有下式：

X(C_i)＝|x(C_i)₁-x(C_i)₂|

上式x(C_i)₁为文本语料库中词C_i的信息量，x(C_i)₂为含词C_i的文本信息量。

x(C_i)₁＝-P(C_i)₁lnp(C_i)₁

上式p(C_i)₁为C_i在文本语料库中的概率，n为含词C_i的文本语料库的个数。

x(C_i)₂＝-p(C_i)₂lnp(C_i)₂

上式p(C_i)₂为含词C_i的文本数概率值，N为统计语料库中文本总数。

同理X(C_i，C_i+1)＝|x(C_i，C_i+1)₁-x(C_i，C_i+1)₂|

x(C_i，C_i+1)₁为在文本语料库中词(C_i，C_i+1)的共现信息量，x(C_i，C_i+1)₂为相邻词(C_i，C_i+1)共现的文本信息量。

同理x(C_i，C_i+1)₁＝-p(C_i，C_i+1)₁lnp(C_i，C_i+1)₁

上式p(C_i，C_i+1)₁为在文本语料库中词(C_i，C_i+1)的共现概率，m为在文本库中词(C_i，C_i+1)共现的文本数量。

x(C_i，C_i+1)₂＝-p(C_i，C_i+1)₂lnp(C_i，C_i+1)₂

p(C_i，C_i+1)₂为文本库中相邻词(C_i，C_i+1)共现的文本数概率。

综上可得每条相邻路径的权值为

w(C_i，C_i+1)＝X(C_i)+X(C_i+1)-2X(C_i，C_i+1)

步骤1.4：找到权值最大的一条路径，即为待分词句子的分词结果，其具体计算过程如下：

有n条路径，每条路径长度不一样，假设路径长度集合为(L₁，L₂，…，L_n)。

假设经过取路径中词的数量最少操作，排除了m条路径，m<n。即剩下(n-m)路径，设其路径长度集合为

则每条路径权重为:

上式分别为第1,2到路径边的权重值，根据步骤1.4可以一一计算得出，为剩下(n-m)路径中第S_j条路径的长度。

权值最大的一条路径:

步骤2：根据停用表分别对两文本(w₁，w₂)词汇进行去停用词处理，得到文本特征词汇集合T₁，T₂，其具体描述如下：

停用词是指在文本中出现频率高，但对于文本标识却没有太大作用的单词。去停用词的过程就是将特征项与停用词表中的词进行比较，如果匹配就将该特征项删除。

综合分词和删除停用词技术,中文文本预处理过程流程图如图3。

步骤3：根据词汇在文本中的位置得到一系列词汇位置权重值(α₁，α₂，…，α_n)，其具体描述如下：

各个词在文本中的分布是不同的，而不同位置的词对于表示文本内容的能力也是不同的。这个可以根据统计调查得出一系列的位置权重值(α₁，α₂，…，α_n)。

步骤4：根据词汇在文本中的词性得到一系列词汇词性权重值β₁、β₂、β₃、β₄，其具体描述如下：

现代汉语语法中，一个句子主要由主语、谓语、宾语、定语和状语等成分构成。从词性的角度看，名词一般担当主语和宾语的角色，动词一般担当谓语的角色，形容词和副词一般担当定语的角色。词性的不同，造成了它们对文本或者句子的表示内容的能力的不一样。根据调查统计得出名词、动词、形容词、副词的权重值依次为β₁、β₂、β₃和β₄，且β₁＞β₂＞β₃＞β₄。

步骤5：综合上述步骤，利用目标权重函数f(w)_归一化对文本词汇集合进行进一步降维处理，得到文本特征词汇集合分别为T₁′、T₂′，其具体计算过程如下：

目标权重函数为：f(w)＝α_iβ_jP_W(1-P_K)

上述α_i、β_j分别为位置权重与词性权重，如上所述，i∈(1，2，…，n)，j∈(1，2，3，4)，P_W为特征词汇在文本中的概率，P_K为含有特征词汇的文本数在库中的概率。

上式又可写为：

上式n_wL为特征词汇T_L在文本中出现的次数，N_w为文本中特征词汇集合的总个数，n_kL为库中含有特征词汇T_L的文本个数，N_k为库中总文本个数。

为了使数据具有更好的标识性，对上式再进行归一化处理，得：

上式L为特征词汇集合中第L个特征词汇，S为特征词汇集合中特征词汇的个数。f(w)_归一化越大，词汇在文本中所占的权重越大，区分文本间的能力就越强，越能代表文本的主旨。

设定一个合适的阈值r，对特征词汇集合T₁，T₂降维处理，有下式选择条件：

f(w)_归一化＞r

只有满足上述条件，即是该文本的特征词汇集合T₁′、T₂′，r可以通过迭代试验测试出最恰当的值。

步骤6：根据语义相似度条件，合并相似度高的词汇，对两文本特征词汇集合T₁′、T₂′再降维，此时两文本的特征词汇向量分别为其具体过程如下：

步骤6.1)利用基于《知网》概念的方法，特征词汇集合T₁′、T₂′中的词汇映射到概念，求解两两词汇对应的两本体概念(g₁，g₂)间语义相似度即为词汇相似度。

构造两本体概念(g₁，g₂)语义相似度sim₁(g₁，g₂)

当两个概念共同直接子节点个数越多，则概念(g₁，g₂)相似度越大，反之，越小。

从概念(g₁，g₂)的直接子节点中找出共有的子节点个数N。

为了解决子节点多继承问题，有下式：

α为最长路径L₁的权重系数，β为(g₁，g₂)共有的子节点个数N的权重系数，α+β＝1。权重系数可以根据实验结果迭代得到。d₁为两本体概念的语义信息距离，d₂为从子集中找出概念经共同父节点的最长路径。

上式d₁＝[I(g₁)+I(g₂)]-I(ICN)

I(g₁)、I(g₂)分别为概念g₁、g₂在本体树中的信息量，I(ICN)为概念g₁、g₂在本体树中的共有信息量。

步骤6.2)设定阈值g，合并相似度高的词汇，重新分配其权重。

条件：sim₁(g₁，g₂)≥g

合并后的词汇为权重更大的那个，此时词汇的权重mw(c_i)′为两词汇权重的平均值，如下所式：

迭代计算两两词汇间的相似度，直到没有满足上述条件的词汇为止。

综上即分别得，文本特征词汇向量

步骤7：利用文本相似度函数sim(w₁，w₂)，求解两特征向量间的相似度即为文本相似度，其具体计算过程如下：

两特征向量间的相似度求解如下：

上式为文本1的特征词汇向量中的词汇个数，为文本2的特征词汇向量中的词汇个数。

基于基尼指数求解文本相似度的方法，其伪代码计算过程如下：

输入：两个文本(w₁，w₂)

输出：两文本(w₁，w₂)间的相似度sim(w₁，w₂)。

Claims

1.基于基尼指数求解文本相似度的方法，本发明涉及语义网络技术领域，具体涉及基于基尼指数求解文本相似度的方法，其特征是，包括如下步骤：

步骤1：利用中文分词技术分别对两文本进行分词处理，其具体分词技术过程如下：

步骤1.1：根据《分词词典》找到待分词句子中与词典中匹配的词，把待分词的汉字串完整的扫描一遍，在系统的词典里进行查找匹配，遇到字典里有的词就标识出来；如果词典中不存在相关匹配，就简单地分割出单字作为词；直到汉字串为空

步骤1.2：依据概率统计学，将待分词句子拆分为网状结构，即得n个可能组合的句子结构，把此结构每条顺序节点依次规定为，其结构图如图2所示

根据《分词词典》匹配出的字典词与未匹配的单个词，第i条路径包含词的个数为，即n条路径词的个数集合为

得

在上述留下的剩下的(n-m)路径中，求解每条相邻路径的权重大小

在统计语料库中，计算每个词的信息量，再求解路径相邻词的共现信息量，既有下式：

上式为文本语料库中词的信息量，为含词的文本信息量

上式为在文本语料库中的概率，n为含词的文本语料库的个数

上式为含词的文本数概率值，N为统计语料库中文本总数

同理

为在文本语料库中词的共现信息量，为相邻词共现的文本信息量

同理

上式为在文本语料库中词的共现概率，m为在文本库中词共现的文本数量

为文本库中相邻词共现的文本数概率

综上可得每条相邻路径的权值为

有n条路径，每条路径长度不一样，假设路径长度集合为

假设经过取路径中词的数量最少操作，排除了m条路径，m<n，即剩下(n-m)路径，设其路径长度集合为

则每条路径权重为:

上式分别为第1,2到路径边的权重值，根据步骤1.4可以一一计算得出，为剩下(n-m)路径中第条路径的长度

权值最大的一条路径:

步骤2：根据停用表分别对两文本词汇进行去停用词处理，得到文本特征词汇集合，，其具体描述如下：

停用词是指在文本中出现频率高，但对于文本标识却没有太大作用的单词，去停用词的过程就是将特征项与停用词表中的词进行比较，如果匹配就将该特

征项删除

综合分词和删除停用词技术,中文文本预处理过程流程图如图3

步骤3：根据词汇在文本中的位置得到一系列词汇位置权重值，其具体描述如下：

各个词在文本中的分布是不同的，而不同位置的词对于表示文本内容的能力也是不同的，这个可以根据统计调查得出一系列的位置权重值

步骤4：根据词汇在文本中的词性得到一系列词汇词性权重值、、、，其具体描述如下：

现代汉语语法中，一个句子主要由主语、谓语、宾语、定语和状语等成分构成，从词性的角度看，名词一般担当主语和宾语的角色，动词一般担当谓语的角色，形容词和副词一般担当定语的角色，词性的不同，造成了它们对文本或者句子的表示内容的能力的不一样，根据调查统计得出名词、动词、形容词、副词的权重值依次为、、和，且

步骤5：综合上述步骤，利用目标权重函数对文本词汇集合进行进一步降维处理，得到文本特征词汇集合分别为、；

步骤6：根据语义相似度条件，合并相似度高的词汇，对两文本特征词汇集合、再降维，此时两文本的特征词汇向量分别为、，其具体过程如下：

步骤6.1）利用基于《知网》概念的方法，特征词汇集合、中的词汇映射到概念，求解两两词汇对应的两本体概念间语义相似度即为词汇相似度

构造两本体概念语义相似度

当两个概念共同直接子节点个数越多，则概念相似度越大，反之，越小

从概念的直接子节点中找出共有的子节点个数N

为了解决子节点多继承问题，有下式：

为最长路径的权重系数，为共有的子节点个数N的权重系数，，权重系数可以根据实验结果迭代得到，为两本体概念的语义信息距离，为从子集中找出概念经共同父节点的最长路径

上式

、分别为概念、在本体树中的信息量，为概念、在本体树中的共有信息量

步骤6.2）设定阈值g，合并相似度高的词汇，重新分配其权重

条件：

合并后的词汇为权重更大的那个，此时词汇的权重为两词汇权重的平均值，如下所式：

迭代计算两两词汇间的相似度，直到没有满足上述条件的词汇为止

综上即分别得，文本特征词汇向量、

步骤7：利用文本相似度函数，求解两特征向量、间的相似度即为文本相似度。

2.根据权利要求1中所述的基于基尼指数求解文本相似度的方法，其特征是，以上所述步骤5中的具体计算过程如下：

步骤5：综合上述步骤，利用目标权重函数对文本词汇集合进行进一步降维处理，得到文本特征词汇集合分别为、，其具体计算过程如下：

目标权重函数为：

上述、分别为位置权重与词性权重，如上所述，，，为特征词汇在文本中的概率，为含有特征词汇的文本数在库中的概率

上式又可写为：

上式为特征词汇在文本中出现的次数，为文本中特征词汇集合的总个数，为库中含有特征词汇的文本个数，为库中总文本个数

上式L为特征词汇集合中第L个特征词汇，S为特征词汇集合中特征词汇的个数，越大，词汇在文本中所占的权重越大，区分文本间的能力就越强，越能代表文本的主旨

设定一个合适的阈值r，对特征词汇集合、降维处理，有下式选择条

只有满足上述条件，即是该文本的特征词汇集合、，r可以通过迭代试验测试出最恰当的值。

3.根据权利要求1中所述的基于基尼指数求解文本相似度的方法，其特征是，以上所述步骤7中的具体计算过程如下：

步骤7：利用文本相似度函数，求解两特征向量、间的相似度即为文本相似度，其具体计算过程如下：

两特征向量、间的相似度求解如下：

上式为文本1的特征词汇向量中的词汇个数，为文本2的特征词汇向量中的词汇个数

。