CN111581162B

CN111581162B - 一种基于本体的海量文献数据的聚类方法

Info

Publication number: CN111581162B
Application number: CN202010373160.6A
Authority: CN
Inventors: 李美晶; 陈天杰; 刘佳祺
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Meicui High tech Development Co.,Ltd.
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2022-09-06
Anticipated expiration: 2040-05-06
Also published as: CN111581162A

Abstract

本发明公开了一种基于本体的海量文献数据的聚类方法，其是利用Hadoop框架来对海量文献(例如海量生物医学文献)数据进行聚类的方法，该方法包括对生物医学文献进行预处理；利用Hadoop中的映射归约模型对输入文件作逐行处理，计算文献相似度；根据文献相似度用聚类算法得到最终的生物医学文献簇；基于TF‑IDF提取各个簇的代表性标签。本发明针对了在大数据环境下对生物医学文献进行聚类效率低下的问题，提出了一种并行化模型，使得计算文献相似度工作可以在Hadoop分布式系统中进行，提高了计算效率。

Description

一种基于本体的海量文献数据的聚类方法

技术领域

本发明涉及大数据与自然语言处理领域，尤其涉及一种基于本体的海量文献数据的聚类方法。

背景技术

文献聚类应用于寻找相似的文献，这对于文本挖掘和文献管理具有重要意义。通过文献聚类，可以高效地得到相似的文献；方便地获取想要的信息；从更高的维度观察分析数据。对于大数据环境下的文献聚类，如果使用传统方法，效率十分低下。

Hadoop是一个由Apache开发的分布式系统基础架构，用户可以在不了解分布式底层细节的情况下开发分布式程序。Hadoop的核心是分布式文件系统和映射归约编程模型。分布式文件系统提供海量数据的存储，映射归约编程模型提供海量数据的计算。因此，本发明选择借助Hadoop这一分布式系统基础架构，对文献相似度计算的过程作并行化处理，提升计算效率。

发明内容

本发明的目的在于提供一种基于本体的海量文献数据的聚类方法，其针对现有方法在对数量较多的文献进行聚类时速度较慢的问题，提出了一种并行化模型，用于并行计算文献之间的相似度，然后根据文献间的相似度，利用聚类算法得到文献簇，最后基于TF-IDF(词频-逆文档频率)方法提取文献簇的代表性标签。

为了达到上述目的，本发明通过以下技术方案实现：

一种基于本体的海量文献数据的聚类方法，包含以下步骤：

S1、对海量文献数据进行预处理，获取文本中的主题词，形成文献编号与代表性主题词组成的输入文件，上传到Hadoop分布式文件系统；

S2、利用所述Hadoop分布式文件系统中的映射归约模型对步骤S1中的所述输入文件作逐行处理，得到所有待处理文献两两之间的相似度，形成文献相似度矩阵；

S3、根据所述步骤S2得到的所述文献相似度矩阵，利用聚类算法得到最终的文献簇；

S4、基于TF-IDF方法提取所述步骤S3中的所述文献簇的代表性标签。

优选地，所述文献为生物医学文献，所述主题词为医学主题词，所述文献簇为生物医学文献簇。

优选地，所述步骤S1进一步包含以下步骤：S1.1、根据待处理文献的PubMed唯一标识码，获取所有待处理文献的相关主题词；S1.2、将所述步骤S1.1得到的文献对应的主题词组织成输入文件，该输入文件中每一行的内容是由待聚类文献的唯一标识码与该文献对应的主题词组成的。

优选地，所述步骤S2进一步包含以下步骤：S2.1、基于主题词本体进行相似度计算，其中，主题词是以树状结构组织在一起的，一个主题词在树上的位置由多个节点表示；S2.2、计算文献间的相似度；

所述步骤S2.1中，主题词相似度的计算公式如下：

主题词1对主题词2的相似度＝主题词1的所有节点对主题词2的相似度之和；

主题词1的一个节点对主题词2的相似度＝该节点与主题词2所有节点之间相似度的最大值；

其中，节点与节点的相似度计算公式如下：

节点信息含量的计算公式如下：

所述步骤S2.2中，计算文献间的相似度的公式如下：

文献1对文献2的相似度＝文献1的所有主题词对文献2的相似度之和；

优选地，所述步骤S2.1中，主题词相似度的计算结果以键值对的形式存储在远程字典服务Redis中，其中，键是主题词对，值是两个主题词之间的相似度。

优选地，所述主题词本体为医学主题词本体，所述键是医学主题词对，所述值是两个医学主题词之间的相似度。

优选地，所述骤S2.2中的文献相似度计算包含以下步骤：

S2.2-1、对输入文件的每一行作第一遍映射归约；所述第一遍映射归约过程如下：(1)将所述输入文件按行拆分成多个小文件，该小文件中每一行由文献标识码和对应的主题词组成，为每一个小文件分配一个映射任务；(2)在映射阶段，遍历所有主题词，若当前文献包含某个主题词，则输出一个键值对，键是该主题词，值是文献的PubMed唯一标识码；(3)在归约阶段，将键相同的结果整合到一起，最终输出的每一行由一个主题词以及包含该主题词的所有文献的PubMed唯一标识码组成；S2.2-2、对另一输入文件的每一行作第二遍映射归约，所述另一输入文件是所述步骤S2.2-1中第一遍映射归约输出的包含特定主题词的文献，其作为第二遍映射归约的映射阶段的输入文件；所述第二遍映射归约过程如下：(1)将步骤S2.2-2的所述另一输入文件按行拆分成多个小文件，该小文件中每一行是某个主题词以及包含该主题词的文献标识码，为每一个小文件分配一个Map任务；(2)在映射阶段，对于该行的每一篇文献，从远程字典服务Redis中获取该行主题词与其他任一文献的所有主题词之间的相似度，保留最大值，输出一个键值对，键是两篇文献的PubMed唯一标识码构成的字符串，值是该行的主题词与一篇文献中所有主题词的相似度的最大值；(3)在归约阶段，将键相同的值进行求和取均值，在归约阶段，将键相同的值进行求和取均值，得到每一行由两篇文献的PubMed唯一标识码构成的字符串以及对应的两篇文献的相似度组成的文献相似度文件。

优选地，所述步骤S3中进一步包含以下步骤：S3.1：从Hadoop分布式文件系统下载所述步骤S2产生的文献相似度文件；S3.2：从所述文献相似度文件中获取文献间的相似度，新建一个n*n大小的矩阵A，将文献相似度存储在矩阵A中，形成相似度矩阵；其中，n是文献总数，矩阵A的每一个元素a_ij表示第i篇文献与第j篇文献的相似度；S3.3：对步骤S2中产生的相似度矩阵进行聚类，得到文献簇。

优选地，所述步骤S4中进一步包含以下步骤：

S4.1：根据步骤S3得到的文献簇，将所有待处理文献的相关主题词整理为对应个数的簇，形成计算词频-逆文本频率指数TF-IDF的语料库；

S4.2：计算各个主题词的TF-IDF值，如下：

式中，N_w是在一个簇中主题词w出现的次数，N是该簇总主题词数，TF_w是主题词w的词频；

其中，Y是簇的总数，Y_w是包含主题词w的簇个数，IDF_w是主题词w的逆文本频率；

(TF-IDF)_w＝TF_w*IDF_w

其中，(TF-IDF)_w是主题词w的词频-逆文本频率指数；

步骤S4.3、选择词频-逆文本频率指数TF-IDF值最大的主题词作为该簇的标签。

与现有技术相比，本发明的有益效果在于：本发明提供的基于本体的海量文献数据的聚类方法，借助Hadoop分布式框架，采用并行计算的方法，有效地提升了在大数据环境下计算文献相似度的效率。

附图说明

图1是本发明的工作总流程图，分为4个模块：预处理、相似度计算、文献聚类和标签提取；

图2是本发明的预处理模块的具体流程示意图；

图3是本发明的医学主题词本体树状结构的具体示例(图中英文是指示例处的主题词)；

图4是本发明的相似度计算模块的具体流程；

图5是本发明的文献聚类模块的具体流程；

图6是本发明的标签提取模块的具体流程；

图7是本发明的第一遍映射归约的具体实施方法；

图8是本发明的第二遍映射归约的具体实施方法。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1-图8所示，本发明提供了一种基于本体的海量文献数据的聚类方法(下述以生物医学文献为例进行详细说明)，该方法包括如下步骤：

步骤S1、首先对海量文献数据(例如海量生物医学文献)进行预处理，获取文本中的主题词，形成文献编号与代表性主题词组成的输入文件，上传到Hadoop分布式文件系统，如图2所示。

步骤S2、利用Hadoop分布式文件系统中的映射归约模型对步骤S1中的所述输入文件作逐行处理，得到所有待处理文献两两之间的相似度，形成文献相似度矩阵。

步骤S3、文献聚类：根据步骤S2得到的所述文献相似度矩阵，利用聚类算法得到最终的文献簇。

步骤S4、标签提取：基于TF-IDF方法提取步骤S3中的所述文献簇的代表性标签。

如图2所示，所述步骤S1进一步包含以下步骤：

步骤S1.1：利用美国国家生物技术信息中心提供的E-utility工具，根据待处理文献的PubMed唯一标识码，获取所有待处理文献的相关医学主题词。

步骤S1.2：将步骤S1.1得到的文献对应的医学主题词组织成输入文件，该输入文件中每一行的内容是由待聚类文献的唯一标识码与该文献对应的医学主题词组成。

所述步骤S2中，利用Hadoop的映射归约模型计算相似度，其中，映射归约模型是一种用于并行计算的编程模型，其处理逻辑是先将一组键值对映射成一组新的键值对，然后根据需求指定并发的归约函数。因此，本实施例利用Hadoop中的所述映射归约模型对步骤S1产生的输入文件作逐行处理，得到待聚类文献两两之间的相似度，形成文献相似度矩阵，如图3所示。

具体地，所述步骤S2进一步包含以下步骤：

步骤S2.1：基于医学主题词本体的相似度(也称语义相似度)计算。其中，医学主题词本体是美国国立医学图书馆编制的权威性主题词表，它将医学主题词以树状的结构组织在一起，深度越深，主题词越特殊，一个主题词在树上的位置可以由多个节点表示。图3所示是医学主题词本体的一部分，括号里的内容表示该主题词在本体上的一个节点。对于主题词Gingival Pocket(龈袋)，除了图3上展示的一个节点外，还有另外一个节点为C07.465.714.258.480.360。

示例地，主题词相似度的计算公式如下：

其中，节点与节点的相似度计算公式如下：

其中，节点信息含量的计算公式如下：

然后将计算结果以键值对的形式存储在远程字典服务Redis中，键是医学主题词对，值是两个医学主题词之间的相似度。这样做的目的是在计算文献相似度时能够迅速取得某两个医学主题词之间的相似度值。

步骤S2.2：计算文献间的相似度，计算公式如下：

具体示例如表1所示：

表1各类相似度的一个示例

其中，根据步骤S2.2文献相似度计算公式编写映射归约程序，具体如下：

(一)对输入文件的每一行作第一遍映射归约，目的是整理排列包含特定医学主题词的文献，便于之后并行计算文献相似度，如图7所示。其中，D_i表示第i篇文献，T_i表示第i个医学主题词。第一遍映射归约具体流程如下：

(1)先将输入文件按行拆分成多个小文件，小文件中每一行由文献标识码和对应的医学主题词组成，为每一个小文件分配一个映射任务。

(2)在映射阶段，遍历所有医学主题词，如果当前文献包含某个主题词，则输出一个键值对，键是该主题词，值是文献的PubMed唯一标识码。

(3)在归约阶段，把键相同的结果整合到一起。最终输出的每一行由一个医学主题词以及包含该主题词的所有文献的PubMed唯一标识码组成。

(二)对另一输入文件的每一行作第二遍映射归约，目的是并行计算生物医学文献间的相似度，如图8所示。其中，D_i表示第i篇文献，T_i表示第i个医学主题词。其中，将步骤S2.2中第一遍映射归约输出的包含特定主题词的文献作为第二遍映射归约的映射阶段的所述另一输入文件。同样地，第二遍映射归约中的流程如下：

(1)先把第二遍映射归约的映射阶段的输入文件按行拆分成多个小文件，小文件中每一行是某个主题词以及包含该主题词的文献标识码，然后为每一个小文件分配一个Map任务。

(2)在映射阶段，对于该行的每一篇文献，从远程字典服务Redis中获取该行医学主题词与其他任一文献的所有主题词之间的相似度，保留最大值，输出一个键值对，键是两篇文献的PubMed唯一标识码构成的字符串，值是该行的医学主题词与一篇文献中所有主题词的相似度的最大值。

(3)在归约阶段，把键相同的值进行求和取均值，得到每一行由两篇文献的PubMed唯一标识码构成的字符串以及对应的两篇文献的相似度组成的文献相似度文件。

如图5所示，所述步骤S3中进一步包含以下步骤：

步骤S3.1：从Hadoop分布式文件系统下载所述步骤S2产生的文献相似度文件。

步骤S3.2：从文献相似度文件中获取生物医学文献间的相似度，新建一个n*n大小的矩阵A，把文献相似度存储在矩阵A中，形成相似度矩阵。其中，n是文献总数，矩阵A的每一个元素a_ij表示第i篇文献与第j篇文献的相似度。

步骤S3.3：利用Scikit-learn库的聚类函数对步骤S3.2中产生的相似度矩阵进行聚类，得到生物医学文献簇。

如图6所示，所述步骤S4中进一步包含以下步骤：

步骤S4.1：根据步骤S3得到的文献簇(例如生物医学文献簇)，将所有待处理生物医学文献的相关医学主题词整理为对应个数的簇，形成计算TF-IDF值的语料库。

步骤S4.2：计算各个主题词的词频-逆文本频率指数(TF-IDF)，计算公式如下：

其中，N_w是在某簇中主题词w出现的次数，N是该簇总主题词数，TF_w是主题词w的词频。

其中，Y是簇的总数，Y_w是包含主题词w的簇个数，IDF_w是主题词w的逆文本频率。

(TF-IDF)_w＝TF_w*IDF_w

其中，(TF-IDF)_w是主题词w的词频-逆文本频率指数。

步骤S4.3：选择词频-逆文本频率指数(TF-IDF)值最大的主题词作为该簇的标签。

为便于理解，本发明的说明书将举具体一例来演示本发明的实施过程，如下所述。

下表2是三篇文献的主题词：

表2是三篇文献的主题词的示例

首先计算主题词之间的相似度，存储在远程字典服务Redis中。

对于主题词Humanities(人类)与主题词Motion Pictures(电影)，它们在的节点如下表3所示：

表3是列举的两个主题词的节点

根据步骤S2.1中计算节点信息含量的公式可得各节点信息含量，以节点K01为例，总节点数量为59746，节点深度为1，孩子节点数量为210，带入公式可得下表4的结果：

表4是各个节点的信息含量列表

再根据步骤S2.1中节点相似度计算公式可得节点相似度，以节点K01与节点K01.093.545为例，它们的公共父节点是K01，所以有下述表5的结果：

表5是两个节点的节点相似度的结果

两个节点	节点相似度
		K01与J01.897.280.500.598	0.000
K01与K01.093.545	0.292
		K01与L01.178.590.500	0.000
K01与L01.178.820.090.598	0.000

然后根据步骤S2.1中主题词相似度计算公式，两个主题词节点数量之和为5，主题词Humanities(人类)对主题词Motion Pictures(电影)的相似度是：

max{0，0.292，0，0}＝0.292

主题词Motion Pictures(电影)对主题词Humanities(人类)的相似度是：

max{0}+max{0.292}+max{0}+max{0}＝0.292

则有：

类似地，可以得到所有主题词相似度，如下表6：

表6主题词和主题词相似度的列表

之后将主题词相似度存储在远程字典服务中。

然后，进行第一遍映射归约，整理排列包含特定医学主题词的文献，过程如下表7所示：

表7是第一遍映射归约的过程列表

再进行第二遍映射归约，计算文献相似度，过程如下表8：

表8是第二遍映射归约的过程列表

得到文献相似度如下表9：

表9是文献和文献相似度的列表

两篇文献	文献相似度
		A与B	0.10185
A与C	0.4
		B与C	0.03476

在聚类前，把相似度存储在矩阵中，如表10：

表10是存储在矩阵的相似度列表

相似度矩阵	A	B	C
				A	1	0.10185	0.4
B	0.10185	1	0.03746
				C	0.4	0.03476	1

聚类后可得两个簇，一个簇由A和C组成，另一个簇只含B。

最后进行标签提取。

计算各个主题词的TF-IDF值，以Proviruses(原生病毒)为例:

TF-IDF＝0.4*0.074＝0.0296

表11是各主题词的TF-IDF值的列表

主题词	TF-IDF值
		Proviruses(原生病毒)	0.0296
Humanities(人类)	0.0148
		Motion Pictures(电影)	0.037
Capsid(衣壳)	0.037
		Distemper(瘟热)	0.0148
Animals(动物)	0.0148

因此选取Proviruses作为第一个簇的标签，Motion Pictures与Capsid都可以作为第二个簇的标签。

综上所述，本发明提供的基于本体的海量文献数据的聚类方法，借助Hadoop分布式框架，采用并行计算的方法，有效地提升了在大数据环境下计算文献相似度的效率。

本发明不仅能够应用于生物医学文献，对于其他文献同样可以按此方法实施。此外，有关计算主题词相似度的公式也是可以替换的，不会影响Hadoop下并行计算的实施。使用者可以根据需求选择合适的主题词相似度计算公式。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程不一定是实施本发明所必须的。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种基于本体的海量文献数据的聚类方法，其特征在于，包含以下步骤：

S4、基于TF-IDF方法提取所述步骤S3中的所述文献簇的代表性标签；其中，所述步骤S2进一步包含以下步骤：

S2.1、基于主题词本体进行相似度计算，其中，主题词以树状结构组织在一起，一个主题词在树上的位置由多个节点表示；

S2.2、计算文献间的相似度；

所述步骤S2.1中，主题词相似度的计算公式如下：

其中，节点与节点的相似度计算公式如下：

节点信息含量的计算公式如下：

所述步骤S2.2中，计算文献间的相似度的公式如下：

2.如权利要求1所述的聚类方法，其特征在于，

所述文献为生物医学文献，所述主题词为医学主题词，所述文献簇为生物医学文献簇。

3.如权利要求1或2所述的聚类方法，其特征在于，

所述步骤S1进一步包含以下步骤：

S1.1、根据待处理文献的PubMed唯一标识码，获取所有待处理文献的相关主题词；

S1.2、将所述步骤S1.1得到的文献对应的主题词组织成输入文件，该输入文件中每一行的内容是由待聚类文献的唯一标识码与该文献对应的主题词组成的。

4.如权利要求3所述的聚类方法，其特征在于，

所述步骤S2.1中，主题词相似度的计算结果是以键值对的形式存储在远程字典服务Redis中，其中，键是主题词对，值是两个主题词之间的相似度。

5.如权利要求4所述的聚类方法，其特征在于，

所述主题词本体为医学主题词本体，所述键是医学主题词对，所述值是两个医学主题词之间的相似度。

6.如权利要求4～5中任意一项所述的聚类方法，其特征在于，

所述步骤S2.2中的文献相似度计算包含以下步骤：

S2.2-1、对输入文件的每一行作第一遍映射归约；所述第一遍映射归约过程如下：

(1)将所述输入文件按行拆分成多个小文件，该小文件中每一行由文献标识码和对应的主题词组成，为每一个小文件分配一个映射任务；

(2)在映射阶段，遍历所有主题词，若当前文献包含某个主题词，则输出一个键值对，键是该主题词，值是文献的PubMed唯一标识码；

(3)在归约阶段，将键相同的结果整合到一起，最终输出的每一行由一个主题词以及包含该主题词的所有文献的PubMed唯一标识码组成；

S2.2-2、对另一输入文件的每一行作第二遍映射归约，所述另一输入文件是所述步骤S2.2-1中第一遍映射归约输出的包含特定主题词的文献，其作为第二遍映射归约的映射阶段的输入文件；所述第二遍映射归约过程如下：

(1)将步骤S2.2-2的所述另一输入文件按行拆分成多个小文件，该小文件中每一行是某个主题词以及包含该主题词的文献标识码，为每一个小文件分配一个Map任务；

(2)在映射阶段，对于该行的每一篇文献，从远程字典服务Redis中获取该行主题词与其他任一文献的所有主题词之间的相似度，保留最大值，输出一个键值对，键是两篇文献的PubMed唯一标识码构成的字符串，值是该行的主题词与一篇文献中所有主题词的相似度的最大值；

(3)在归约阶段，将键相同的值进行求和取均值，得到每一行由两篇文献的PubMed唯一标识码构成的字符串以及对应的两篇文献的相似度组成的文献相似度文件。

7.如权利要求6所述的聚类方法，其特征在于，

所述步骤S3中进一步包含以下步骤：

S3.1：从Hadoop分布式文件系统下载所述步骤S2产生的文献相似度文件；

S3.2：从所述文献相似度文件中获取文献间的相似度，新建一个n*n大小的矩阵A，将文献相似度存储在矩阵A中，形成相似度矩阵；其中，n是文献总数，矩阵A的每一个元素a_ij表示第i篇文献与第j篇文献的相似度；

S3.3：对步骤S3.2中产生的相似度矩阵进行聚类，得到文献簇。

8.如权利要求7所述的基于本体的海量文献数据的聚类方法，其特征在于，所述步骤S4中进一步包含以下步骤：

S4.1：根据步骤S3得到的文献簇，将所有待处理文献的相关主题词归类到上述对应的文献簇中，形成计算词频-逆文本频率指数TF-IDF的语料库；

S4.2：计算各个主题词的TF-IDF值，如下：

(TF-IDF)_w＝TF_w*IDF_w

其中，(TF-IDF)_w是主题词w的词频-逆文本频率指数；