CN101576903B

CN101576903B - 一种文档相似度衡量方法

Info

Publication number: CN101576903B
Application number: CN2009100787853A
Authority: CN
Inventors: 杜小勇; 刘红岩; 何军; 蔡元哲; 李佩; 贾旭
Original assignee: 杜小勇
Priority date: 2009-03-03
Filing date: 2009-03-03
Publication date: 2011-03-30
Anticipated expiration: 2029-03-03
Also published as: CN101576903A

Abstract

一种文档相似度衡量方法，该方法包括步骤：A、对要处理的文档信息进行建模，构建出文档星型图模型，该星型图结构包括周边节点集和中心节点集，其中星型图的中心是相应文档，周边节点集包括多个周边特征节点集；B、对在步骤A得到的星型图模型进行迭代计算，从而得到文档的最终相似度结果；C、输出最终的文档之间的相似度结果。本发明从二部图相似度计算方法成功的扩展到了星型图结构上，从而高效的解决了文档相似度计算的问题。

Description

一种文档相似度衡量方法

技术领域

本发明涉及文档相似度计算领域，尤其是涉及一种文档相似度衡量方法。

背景技术

文档相似度计算就是利用文档自身的信息，计算出两个文档的相似度。该方法被广泛的应用到各个领域，包括信息检索，协同推荐系统，图书馆分类系统，等相关的领域中。我们将文档的内容和连接信息作为对象，对这样的文档信息进行分析从而用于文档的相似度的计算。

随着越来越多的文档涌现，现在很难将同一个主题的文档聚到该主题下。过去的几年中，一方面许多科研工作者提出了一些基于内容的相似度计算方法，比如向量空间模型和布尔模型等相关的模型，但是这些方法均有一定的局限性。因为现实中的文档数据中，还存在的大量的连接的信息，这些连接对于文档相似度的分析也非常的重要。比方说，两篇论文有相同的作者或者两篇论文发表在相同的会议上，那么这两篇论文的相似性就比较大。在这里我们把作者和文档之间的关系和会议和文档之间的关系作为连接信息。但是如果只利用内容来分析文档的相似度，而不用文档的连接信息，那么计算的文档的相似度就不够精确。另一方面，很多研究工作者提出了一些基于连接的文档相似度的计算的方法，但是这些方法没有利用到文档的内容的信息。因为对于连接分析来说存在着一定的噪声因素，因此上会造成一定的主题漂移的现象，从而导致文档相似度计算的不准确。

综合上面这些文档聚类的方法，提出了一种新的方法，这种方法有效的利用到了文档的内容信息和文档之间的连接信息来进行相似性计算，从而在准确度和效率方面，都有了很大的提高。

发明内容

本发明是鉴于上述技术问题而产生的。本发明的一个目的是提出一种文档相似度衡量方法。

在一个方面中，根据本发明的文档相似度衡量方法包括：A、对要处理的文档信息进行建模，构建出文档星型图模型，该星型图结构包括周边节点集和中心节点集，其中星型图的中心是相应文档，周边节点集包括多个周边特征节点集；B、对在步骤A得到的星型图模型进行迭代计算，从而得到文档的最终相似度结果；C、输出最终的文档之间的相似度结果。

在这个方面中，其中步骤B进一步包括：B1、将星型图结构信息转化成对应的各个周边特征节点集与中心节点集的转移矩阵；B2、根据各个周边特征节点集相似度矩阵和对应的转移矩阵来迭代地计算一次迭代的文档相似度矩阵；B3、利用步骤B2中的这次迭代所得到的文档相似度矩阵来迭代地计算各个周边特征节点集相似度矩阵以送至步骤B2以作为下一次迭代的输入；B4、对步骤B2的这次迭代结果与上次迭代结果进行比较以得到文档相似度矩阵的变化情况，如果两次迭代文档相似度矩阵的变化小于设定收敛参数H，那么迭代停止，如果大于收敛参数H，那么接着回到步骤B2，重复下次迭代的过程，直到收敛为止。

在这个方面中，其中步骤B2进一步包括：利用各个周边特征节点集相似度矩阵以及在步骤B1所得到的各个周边特征节点集与中心节点集的转移矩阵来计算基于各个周边特征的中心节点集相似度矩阵；对基于各个周边特征的中心节点集相似度矩阵进行平均，从而得到一次迭代的文档相似度矩阵。

在这个方面中，其中利用下述公式来分别计算各个周边特征集与中心节点集的二部图的相似度矩阵，

其中，c是衰减因子，取值范围在0到1之间，

是对应的转移矩阵。

在这个方面中，其中一个周边特征节点集是内容信息节点集，而其他周边特征节点集为连接节点集。

在这个方面中，其中步骤A进一步包括：A1、对要处理的文档信息分别处理；A2、对内容节点集和连接节点集进行链接统一，构建出星型图结构，星型图的周边节点集是文档所对应的内容信息节点集和其他周边特征节点集。

通过本发明，从二部图相似度计算方法成功的扩展到了星型图结构上，从而高效的解决了文档相似度计算的问题。

附图说明

结合随后的附图，从下面的详细说明中可显而易见的得出本发明的上述及其他目的、特征及优点。在附图中：

图1给出了根据本发明的方法的主流程图；

图2给出了根据本发明的方法的子流程图；

图3给出了根据本发明的方法的另一子流程图；

图4给出了文档模型的示例；

图5给出了文档-内容转移矩阵的构建示例；

图6给出了文档-作者转移矩阵的构建示例；

图7给出了单元矩阵的示例；

图8给出了能够实施本发明的一个示例环境的示意图。

具体实施方式

随着越来越多的文档的涌现，如何将相同主题的文档进行归类划分就成为了研究的重点。因此上，文档之间的相似度就成为了图书馆学，信息检索领域和协同推荐领域研究的重点。在图书管理学领域，图书管理人员可以通过计算文档之间的相似度，将相同主题的文档进行归类管理。信息检索领域，对相似文档的分类标注，可以大大的提高文档查询的精度和效率。对于协同推荐领域，系统可以根据用户阅读文档的情况以及文档之间的相似度关系，将文档推荐给用户。因此上，文档相似度计算的方法有着非常广泛的应用前景。文档相似度计算的研究主要包括两个方面：基于文档内容的相似度的研究和基于文档连接的相似度的研究。本发明即就是结合两个方面的研究提出一种基于内容和连接的文档相似性衡量的方法。

为了更全面地理解本发明及其优点，下面结合附图及具体实施例对本发明做进一步详细地说明。

首先，参考图1，对根据本发明的一种结合内容和链接信息的文档相似度衡量方法进行说明。

如图1所示，根据本发明的一种结合内容和链接信息的文档相似度衡量方法包括步骤：

A、对要处理的多个文档的信息进行建模，构建出文档星型图模型。随后参考图2，对该步骤进行详细的描述。

B、对在步骤A得到的星型图模型进行迭代计算，从而得到文档之间的最终相似度结果。随后参考图3，对该步骤进行详细地描述。

C、最后，输出文档之间的相似度结果。

接下来，参考图2，对星型图建模过程进行更详细地描述。

如图2所示，该星型图建模过程(步骤A)进一步包括：

A1、对文档信息分别处理。对于内容信息来说，从文档的内容信息中抽取出对应的词的信息，构建出文档和词所对应的二部图关系。对于连接信息来说，从文档中抽取所对应的文档和相对应的连接信息的二部图关系。连接信息例如包括作者、会议、关键词等等。例如，比方说对于文档和作者连接关系来说，就构建出文档和作者对应的二部图关系。当然也可分别构建出文档与会议、关键词等等二部图关系。对于本领域普通技术人员来说文档信息并不局限于此。

A2、对内容信息和连接信息进行链接统一，构建出星型图结构。星型图的中心是所对应的文档，星型图的周边信息是文档所对应的内容信息和连接信息。通过星型图模型，最终将文档的内容信息和连接信息结合到一起。图4给出了星型图模型的示例。其中，中心节点集是文档，而周边节点集是所对应的内容信息和连接信息。在该实例中，连接信息包括三个方面，即文档的作者信息、文档所发表的会议信息、以及文档的关键词信息。

由上可知，该星型图结构信息包括周边节点集和中心节点集。中心节点集就是文档的集合，例如文档1、文档2、.....、文档n。周边节点集包括内容节点集、作者节点集、会议节点集、关键词节点集。在下文中将内容、作者、会议、关键词统称为周边特征。由此可知，作者节点集是一类周边特征节点集，会议节点集也是一类周边特征节点集，当然对于内容节点集和关键词节点集也同样如此。也就是说，周边节点集包括多个周边特征节点集。当然，很显然的是周边节点集并不局限于此，而可以包括任何适当的周边特征节点集。

下面，参考图3，对相似度计算过程进行更详细地描述。

如图3所示，该相似度计算过程(步骤B)进一步包括：

B1、将星型图结构信息转化成对应的各个周边转移矩阵。星型图转化成转移矩阵就是分别构建成周边节点集与中心节点集的二步图的转移矩阵。因为周边节点集包括例如内容节点集、作者节点集、会议节点集、关键词节点集这样的多个特征集，因此存在多个周边特征集与中心节点集的转移矩阵。例如存在内容节点集与中心节点集的转移矩阵、作者节点集与中心节点集的转移矩阵等等。随后参考图5和图6对转移矩阵的构建进行说明。

B2、根据各个周边特征节点集相似度矩阵来迭代地计算一次迭代的文档相似度矩阵。

首先，利用各个周边特征节点集相似度矩阵以及在步骤B1所得到的各个周边特征节点集与中心节点集的转移矩阵来计算各个周边特征节点集-中心节点集相似度矩阵。

具体地说，利用下述公式来分别计算各个周边特征与文档的二部图的相似度矩阵。也就是说，分别计算作者、会议、关键词、以及内容与文档的二部图的相似度矩阵。

其中，c是衰减因子，取值范围在0到1之间，

是二部图之间的转移矩阵。在初始情况下，各个周边特征节点集相似度矩阵和中心节点集相似度矩阵分别都是单位矩阵。也就是说，单位矩阵包括n行和n列。对于作者节点集的单位矩阵而言，第1行和第1列与文档1的作者相对应，第2行和第2列与文档2的作者相对应，依次类推。当然对于会议节点集，关键词节点集、以及内容节点集而言同样如此。例如，如图7所示，图7中给出了中心节点集单元矩阵和作者节点集单元矩阵。对于同一文档而言相似度为1，对于不同文档而言相似度为0。

对于周边特征是作者这个例子来说，s_k就是所对应的作者相似度矩阵，

和

就是所对应的作者到文档的转移矩阵，这个公式就是计算的V_a，V_b两个文档之间就作者而言的相似度矩阵。当然，对于周边特征是会议来说，通过该计算可得到两个文档之间就会议而言的相似度矩阵。对于其他周边特征而言同样如此。通过该计算，就得到了一次迭代的就各个周边特征而言的中心节点集相似度矩阵，在下文中还将其统称为基于周边特征的中心节点集相似度矩阵。

接下来，对通过上面计算所得到的多个基于周边特征的中心节点集相似度矩阵进行平均，从而得到一次迭代的文档相似度矩阵。具体地说，通过作者得到基于作者的中心节点集相似度矩阵，通过会议得到基于会议的中心节点集相似度矩阵，通过内容信息得到基于内容信息的中心节点集相似度矩阵，通过关键词得到基于关键词的中心节点集相似度矩阵，从而对这四个基于周边特征的中心节点集相似度矩阵取均值得到一次迭代的文档相似度矩阵。

B3、利用步骤B2中的这次迭代所得到的文档相似度矩阵来计算各个周边特征节点集相似度矩阵以送至步骤B2以作为下一次迭代的输入。

该计算过程同样也利用上述公式。例如，根据上述公式，利用在步骤B2所得到文档相似度矩阵和作者节点集与中心节点集的转移矩阵，可得到作者节点集相似度矩阵。同样，分别求出会议节点集、关键词节点集、内容节点集相似度矩阵。

B4、对步骤B2的这次迭代结果与上次迭代结果进行比较以得到文档相似度矩阵的变化情况。如果两次迭代文档相似度矩阵的变化小于设定收敛参数ε，那么迭代停止。如果大于收敛参数ε，那么接着回到步骤B2，重复下次迭代的过程，直到收敛为止。一般情况下，参数ε的取值为0.01，所以该方法一般经过7-9次迭代。

下面，参考图5和图6，对转移矩阵的构建进行详细地描述。

图5是基于内容的转移矩阵的示例。如图5(a)，图中构建出来了词和文档的二部图，其中二部图的边的权重值描述的是词频信息，即词在该文档中出现的频率。如图5(b)，得到了基于权重的由文档节点集到内容节点集的概率转移矩阵。而内容节点集到文档节点集的概率转移矩阵是该矩阵的转秩。转移矩阵描述的是节点之间概率游走转移关系，比方说假设在图5(a)的节点doc1上站上一个人，那么他下一步将会游走到节点apple的概率就是2/(2+1+3)＝1/3。通过此可知，该转移矩阵的行是文档1、文档2、...、文档n，列是从内容信息中抽取的各个词。换句话说，转移矩阵中的各个单元表示对应文档中含有对应词的个数与所有文档中含有对应词的个数的比率。回到图5，doc1包含apple的个数是2，所有文档中包含apple的个数是(2+1+3)＝6，因此对应单元是2/(2+1+3)＝1/3。

图6是文档节点集到-连接信息节点集的概率转移矩阵的示例。因为连接信息不存在边的权重信息，所以对于图6(a)的结构图来说得到了图6(b)的由文档节点集到作者节点集的概率转移矩阵。该转移矩阵的行是文档1、文档2、...、文档n，列是各个连接信息。

下面将会结合图8来提供关于本发明处理范例的详细描述。

在该范例中，文本信息可通过多种方式输入设备输入，如存储设备(硬盘，闪存)，光驱，键盘输入或通过网络传输。此后，如图4所示，将文本信息转化成相对应的星型图结构。然后，图1-3中的一系列步骤将会执行，迭代计算完成后得到相对应的文本之间的相似度。

至此，已对本发明的详细流程进行了描述。本方法从二部图相似度计算方法成功的扩展到了星型图结构上，从而高效的解决了文档相似度计算的问题。

对于本领域的普通技术人员来说可显而易见的得出其他优点和修改。因此，具有更广方面的本发明并不局限于这里所示出的并且所描述的具体说明及示例性实施例。因此，在不脱离由随后权利要求及其等价体所定义的一般发明构思的精神和范围的情况下，可对其做出各种修改。

Claims

1.一种文档相似度衡量方法包括步骤：

A、对要处理的文档信息分别处理，对内容信息节点集和连接信息节点集进行链接统一，构建出星型图结构，所述星型图的周边节点集是文档所对应的内容信息节点集和连接信息节点集；该星型图结构包括周边节点集和中心节点集，其中星型图的中心是相应文档，周边节点集包括多个周边特征节点集；

B、对在步骤A得到的星型图模型进行迭代计算，从而得到文档的最终相似度结果；具体包括：

B1、将星型图结构信息转化成对应的各个周边特征节点集与中心节点集的转移矩阵；

B2、根据各个周边特征节点集相似度矩阵和对应的转移矩阵来迭代地计算一次迭代的文档相似度矩阵；

B3、利用步骤B2中的这次迭代所得到的文档相似度矩阵和对应的转移矩阵来迭代地计算各个周边特征节点集相似度矩阵以送至步骤B2以作为下一次迭代的输入；

B4、对步骤B2的这次迭代结果与上次迭代结果进行比较以得到文档相似度矩阵的变化情况，如果两次迭代文档相似度矩阵的变化小于设定收敛参数ε，那么迭代停止，如果大于收敛参数ε，那么接着回到步骤B2，重复下次迭代的过程，直到收敛为止；并且B1-B4步骤中的一个周边特征节点集是内容信息节点集，而其他周边特征节点集为连接信息节点集。

C、输出最终的文档之间的相似度结果。

2.根据权利要求1的方法，其中步骤B2进一步包括：

利用各个周边特征节点集相似度矩阵以及在步骤B1所得到的各个周边特征节点集与中心节点集的转移矩阵来计算基于各个周边特征的中心节点集相似度矩阵；

对基于各个周边特征的中心节点集相似度矩阵进行平均，从而得到一次迭代的文档相似度矩阵。

3.根据权利要求2的方法，其中利用下述公式来分别计算各个周边特征集与中心节点集的二部图的相似度矩阵，

其中，c是衰减因子，取值范围在0到1之间，

是对应的转移矩阵。