CN105335499A

CN105335499A - 一种基于分布-收敛模型的文献聚类方法

Info

Publication number: CN105335499A
Application number: CN201510706636.2A
Authority: CN
Inventors: 李益娟; 李永萍; 徐小龙; 徐友武
Original assignee: Yangcheng Institute of Technology
Current assignee: Yangcheng Institute of Technology; Yancheng Institute of Technology
Priority date: 2015-10-27
Filing date: 2015-10-27
Publication date: 2016-02-17
Anticipated expiration: 2035-10-27
Also published as: CN105335499B

Abstract

本发明公开了一种基于分布-收敛模型的文献聚类方法，首先给出基于分布-收敛模型的共现矩阵构建方法，利用分布-收敛模型统计知识属性的共现频次，并与散列图结合构建共现矩阵；其次，将共现矩阵与相近度系数结合构建相近度矩阵；然后，对相近度矩阵进行标准化；最后，使用离差平方和法对相近度矩阵进行聚类，实现对知识的高效的细粒度聚类。本发明方法应用于网络文献知识库进行文献聚类，可以达到较理想的聚类精度和计算效率，实现细粒度文献聚类，同时减少了时间开销。

Description

一种基于分布-收敛模型的文献聚类方法

技术领域

本发明涉及一种知识聚类方法，尤其涉及一种基于分布-收敛模型的文献聚类方法，属于数据挖掘和知识系统的交叉技术应用领域。

背景技术

网络文献知识库系统一般主要是按照学科门类对存储的文献进行分类，而没有按照学科下属的知识领域进行更细粒度的分类。这种分类的粗粒度，导致学习者容易在文献检索和阅读过程出现认知迷航和知识过载问题。通过文献聚类将知识对象按其属性进行整合与统计，不但可以更细致地对文献进行分类，为学习者理清知识脉络、提高文献调研效率，而且可以揭示知识发展规律与知识间联系等潜在的有价值信息。

高效的聚类方法是实现文献聚类与分类导航的关键。K均值方法简单高效，是使用最广泛的聚类方法，特别是超球K均值方法已被证明是非常有效的文本聚类方法。但是，超球K均值方法由于收敛性问题导致方法自身不稳定。聚类集成技术对聚类成员的结果再进行聚类，即通过二次聚类的方法提高了聚类方法的精确性和稳定性：首先得到对象之间的共现矩阵或相近度矩阵，然后使用聚类方法对矩阵进行聚类得到结果。相近度矩阵可以通过共现矩阵和相近度系数转换得到。合理地构造共现矩阵和相近度矩阵成为提高聚类方法精确度的关键。通过聚类集成技术可以有效地克服K均值方法的不稳定性。通过文献计量和内容分析两种方法结合的方式可以实现对关键词的共现矩阵和相异矩阵进行分层聚类分析。目前国内外有代表性的文献共现分析软件包括Citespace以及知网数据处理软件等。

共现矩阵的构造过程比较复杂。有研究人员采用传统谱聚类中的方法构造相近矩阵，但是没有充分利用样本点分布特征隐含的先验信息，构造效果不够理想；还有使用贪心方法寻找满足条件的非周期性相关系数来搜索最优的向量，构造(0,1)编码矩阵。如果矩阵的规模太大不适合全部放入内存时，在单机上执行任务将非常缓慢甚至难以实现。压缩技术可以使整个语料库规模减小，但容易影响系统的稳定性。因此，对大规模文献进行文献聚类需要更为有效的共现矩阵构建方法以及具有强大处理和存储能力的分布式计算平台。

发明内容

本发明所要解决的技术问题是：提供一种基于分布-收敛模型的文献聚类方法，利用分布-收敛模型构建共现矩阵，解决了单个计算节点有限内存难以存储与处理大矩阵而导致的无法聚类或聚类效率低等难题。

本发明为解决上述技术问题采用以下技术方案：

一种基于分布-收敛模型的文献聚类方法，包括如下步骤：

步骤1，利用分布-收敛模型构建待聚类文献的共现矩阵；

步骤2，根据步骤1得到的共现矩阵计算待聚类文献的相近度矩阵；

步骤3，对步骤2得到的相近度矩阵进行标准化得到标准化后的矩阵；

步骤4，对步骤3标准化后的矩阵，利用离差平方和法进行层次聚类，得到最终聚类结果。

优选的，提取待聚类文献的关键词构建共现矩阵CM_n×n，共现矩阵CM_n×n的每一行代表一个关键词、每一列代表一个关键词，且第i行与第i列所代表的关键词相同；共现矩阵第i行第j列的元素cm_ij代表待聚类文献中同时出现第i行代表的关键词与第j列代表的关键词的文献的篇数，i＝1,…,n，j＝1,…,n。

优选的，步骤2所述计算待聚类文献的相近度矩阵的方法为：相近度矩阵SM_n×n中元素sm_ij的值为cm_ij与第i行代表的关键词、第j列代表的关键词分别在待聚类文献的关键词中出现的篇数的几何平均值之商，i＝1,…,n，j＝1,…,n，i≠j；当i＝j时，sm_ij＝1。

优选的，步骤3所述标准化后的矩阵中元素其中，

优选的，步骤4所述离差平方和法的计算公式为：其中，d_w(C₁,C₂)表示两个簇C₁、C₂之间的距离，x_i、y_j分别表示簇中的对象，n₁、n₂分别表示各个簇中的对象个数，分别表示两个簇C₁、C₂的质心，||·||₂表示欧几里得距离。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、本发明基于分布-收敛模型的文献聚类方法，能够聚合集群平台的计算资源，利用分布-收敛模型构建共现矩阵，解决了单个计算节点有限内存难以存储与处理大矩阵而导致的无法聚类或聚类效率低等难题。

2、本发明基于分布-收敛模型的文献聚类方法，能够减少大规模文献聚类的时间开销，提高计算效率。

3、本发明基于分布-收敛模型的文献聚类方法，实现了细粒度文献聚类，从而方便学习者理清知识脉络，提高文献调研效率。

具体实施方式

下面详细描述本发明的实施方式，该实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本发明基于分布-收敛模型的文献聚类方法，包括如下几个步骤：

步骤1，基于分布-收敛模型的共现矩阵构建方法

本发明首先提出基于分布-收敛模型的共现矩阵构建方法：利用分布-收敛模型统计知识属性两两共现的频次，并与散列图结合构建共现矩阵，解决了单个计算节点有限内存难以存储与处理大矩阵而导致的无法聚类或聚类效率降低等难题。

(1)共现矩阵

共现矩阵是一个n×n的方阵，其中n是从待聚类文献中提取出来的关键词的个数。矩阵中的元素cm_ij表示待聚类文献中第i个关键词与第j个关键词共同出现的次数。在处理自然语言的时候，如果用一个大规模训练集来表示自然语言，那么其中的单词可以看成是离散的数据点，通过共现矩阵来评估这些离散点之间的关系。

(2)分布-收敛模型

分布-收敛模型能够对大数据集进行分布式并行运算，适用于数据密集型自动并行化计算。分布-收敛模型将大规模数据集的操作任务分解后分发给主节点管理的各计算节点执行，最后将结果进行汇总。分布-收敛模型的作业执行过程主要分为分布和收敛两个步骤，分布负责把任务分解成多个任务，收敛负责把分解后多个任务处理的结果进行汇总。

(3)文献对象建模

每一篇文献都有标题、作者、关键词、发表时间等属性，本发明对文献及其属性进行建模，用知识对象来表示科学文献，用知识属性来表示文献的属性。根据以上的表述，每个对象实例包含六个知识属性，用一个六元组来表示知识文献模型：P＝(T,A,S,I,K,Y)，其中，T代表标题，A代表作者，S代表作者所在的高校或者研究所，I代表发文机构，K代表关键词，Y代表发表时间。文献对象以上述六元组的形式写入，供分布-收敛模型。

(4)共现矩阵构建

在分布阶段，从文本集P中提取待统计的属性K；然后，由于每一个属性K对应一篇文献的全部关键词，因此通过对K进行中文分词并作为键。分布-收敛模型确保相同键的所有值都在收敛阶段汇聚，这样，收敛只需将同一个键下的所有值累加求和即可得到最终的键-值对，即关键词-词频，结果保存在关键词文本集中。K表示为：K＝ω₁,…,ω_m，其中，ω_a为K中的关键词，a＝1,…,m。

每一个K对应一篇文献的全部关键词。在构建共现矩阵之前，先要对文献数据进行预处理，提取其中的属性K。预处理过后，所有的K值会提取出来，以便于后续处理。

在分布阶段，由每行起始位置相对于文件起始位置的偏移量和该行的K构成输入的键-值对，由共现的词语对及其数量作为输出的键-值对。

整个过程由两个嵌套的循环直接完成：外层循环迭代所有的关键词，作为词对中左边的那个词，即第一个词，内层循环迭代第一个词右边的所有词，作为词对中右边的那个词。分布-收敛模型计算框架保证相同键下的所有值都在收敛中汇聚。这样，收敛的任务就是将相同键的所有值求和作为值，输出最终的键-值对，每一个键值对都与共现矩阵中的元素对应。由分布-收敛模型计算出的共现信息通过散列图迁移到二维数组。

迁移的过程分为两步进行：首先，散列图提供映射操作，为每一个关键词映射唯一的整型标签；其次，通过一个循环判断词对中的每个单词是否均有标签；最后获取这两个标签作为二维数组的下标，并将单词对的共现频次作为数组的值，得到关键词的共现矩阵。

基于分布-收敛模型的共现矩阵构建方法的工作流程为：从每个知识对象中提取出属性K；根据输出信息计算关键词的两两共现频次；统计关键词的词频；通过散列图将共现词对存入二维数组。

步骤2，基于相近度矩阵实现文献聚类方法

根据上述共现矩阵，计算相近度矩阵，并对相近度矩阵进行标准化，然后使用离差平方和法对相近度矩阵进行文献聚类，高效生成树状的文献聚类图。

(1)相近度矩阵

本发明将两个关键词的相近度定义为两个关键词的共现频次与这两个关键词单独出现次数的几何平均值之商：

其中，ω₁、ω₂分别表示两个关键词，n(ω₁∩ω₂)表示关键词ω₁和ω₂共同出现的次数，n(ω₁)、n(ω₂)分别表示各关键词ω₁、ω₂单独出现的次数。关键词的共现矩阵表示为CM[ω₁,ω₂]。由共现矩阵CM[ω₁,ω₂]就可以计算出相近度矩阵SM[ω₁,ω₂]：

(2)数据标准化

本发明对聚类的数据进行标准化：将原始数据通过标准偏差公式进行标准化处理，本发明采用样本的原始数据和平均数据之差与标准偏差的商作为标准化值。

将关键词之间的相近度进行标准化处理，目的是消除数值相差大造成的负面影响，使得聚类效果稳定可靠。样本的原始数据即为知识属性的相近度。知识属性的相近度矩阵SM表示为：

其中，SM的每一行[x_i1…x_in]为一个知识属性的相近度向量，其中的元素x表示该知识属性与所有知识属性的相近度，则每一个向量的相近度均值为：

标准差表示为：

基于知识属性相近度的标准化为：

(3)合并文献簇

本发明采用层次聚类的思想来合并文献簇，由此实现文献聚类，具体步骤是：首先，训练集中的每一个对象都是一个簇；然后，不断计算簇与簇之间的距离，合并距离最近的两个簇；最终，所有的文献对象汇聚在一个簇中，即构成一个独立的文献类。两个簇之间的距离利用离差平方和法进行计算：

其中，d_w(C₁,C₂)表示两个簇C₁、C₂之间的距离，n₁、n₂分别表示每个簇中的对象个数，分别表示两个簇的质心，||·||₂表示欧几里得距离。SM的每一行[x_i1…x_in]为一个知识属性的相近度向量，即每一个知识属性均由一个向量表示，||·||₂由向量间的欧氏距离得出。初始时，SM的一行即为一个对象，即为一个簇，计算各个簇之间的距离，并将距离最小的两个簇合并，以此类推。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于分布-收敛模型的文献聚类方法，其特征在于：包括如下步骤：

步骤1，利用分布-收敛模型构建待聚类文献的共现矩阵；

2.如权利要求1所述基于分布-收敛模型的文献聚类方法，其特征在于：步骤1所述构建待聚类文献的共现矩阵的方法为：提取待聚类文献的关键词构建共现矩阵CM_n×n，共现矩阵CM_n×n的每一行代表一个关键词、每一列代表一个关键词，且第i行与第i列所代表的关键词相同；共现矩阵第i行第j列的元素cm_ij代表待聚类文献中同时出现第i行代表的关键词与第j列代表的关键词的文献的篇数，i＝1,…,n，j＝1,…,n。

3.如权利要求1所述基于分布-收敛模型的文献聚类方法，其特征在于：步骤2所述计算待聚类文献的相近度矩阵的方法为：相近度矩阵SM_n×n中元素sm_ij的值为cm_ij与第i行代表的关键词、第j列代表的关键词分别在待聚类文献的关键词中出现的篇数的几何平均值之商，i＝1,…,n，j＝1,…,n，i≠j；当i＝j时，sm_ij＝1。

4.如权利要求1所述基于分布-收敛模型的文献聚类方法，其特征在于：步骤3所述标准化后的矩阵中元素

{sm}_{i j}^{*} = \frac{{sm}_{i j} - \overset{&OverBar;}{{sm}_{i}}}{S_{i}},

其中，

\overset{&OverBar;}{{sm}_{i}} = \frac{1}{n} Σ_{j = 1}^{n} {sm}_{i j},

S_{i} = \sqrt{\frac{1}{n - 1} Σ_{j = 1}^{n} {({sm}_{i j} - \overset{&OverBar;}{{sm}_{i}})}^{2}},

i＝1,…,n，j＝1,…,n。

5.如权利要求1所述基于分布-收敛模型的文献聚类方法，其特征在于：步骤4所述离差平方和法的计算公式为：其中，d_w(C₁,C₂)表示两个簇C₁、C₂之间的距离，x_i、y_j分别表示簇中的对象，n₁、n₂分别表示各个簇中的对象个数，分别表示两个簇C₁、C₂的质心，||·||₂表示欧几里得距离。