CN111581162B - 一种基于本体的海量文献数据的聚类方法 - Google Patents

一种基于本体的海量文献数据的聚类方法 Download PDF

Info

Publication number
CN111581162B
CN111581162B CN202010373160.6A CN202010373160A CN111581162B CN 111581162 B CN111581162 B CN 111581162B CN 202010373160 A CN202010373160 A CN 202010373160A CN 111581162 B CN111581162 B CN 111581162B
Authority
CN
China
Prior art keywords
subject
similarity
document
documents
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010373160.6A
Other languages
English (en)
Other versions
CN111581162A (zh
Inventor
李美晶
陈天杰
刘佳祺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Meicui High tech Development Co.,Ltd.
Original Assignee
Shanghai Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Maritime University filed Critical Shanghai Maritime University
Priority to CN202010373160.6A priority Critical patent/CN111581162B/zh
Publication of CN111581162A publication Critical patent/CN111581162A/zh
Application granted granted Critical
Publication of CN111581162B publication Critical patent/CN111581162B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于本体的海量文献数据的聚类方法,其是利用Hadoop框架来对海量文献(例如海量生物医学文献)数据进行聚类的方法,该方法包括对生物医学文献进行预处理;利用Hadoop中的映射归约模型对输入文件作逐行处理,计算文献相似度;根据文献相似度用聚类算法得到最终的生物医学文献簇;基于TF‑IDF提取各个簇的代表性标签。本发明针对了在大数据环境下对生物医学文献进行聚类效率低下的问题,提出了一种并行化模型,使得计算文献相似度工作可以在Hadoop分布式系统中进行,提高了计算效率。

Description

一种基于本体的海量文献数据的聚类方法
技术领域
本发明涉及大数据与自然语言处理领域,尤其涉及一种基于本体的海量文献数据的聚类方法。
背景技术
文献聚类应用于寻找相似的文献,这对于文本挖掘和文献管理具有重要意义。通过文献聚类,可以高效地得到相似的文献;方便地获取想要的信息;从更高的维度观察分析数据。对于大数据环境下的文献聚类,如果使用传统方法,效率十分低下。
Hadoop是一个由Apache开发的分布式系统基础架构,用户可以在不了解分布式底层细节的情况下开发分布式程序。Hadoop的核心是分布式文件系统和映射归约编程模型。分布式文件系统提供海量数据的存储,映射归约编程模型提供海量数据的计算。因此,本发明选择借助Hadoop这一分布式系统基础架构,对文献相似度计算的过程作并行化处理,提升计算效率。
发明内容
本发明的目的在于提供一种基于本体的海量文献数据的聚类方法,其针对现有方法在对数量较多的文献进行聚类时速度较慢的问题,提出了一种并行化模型,用于并行计算文献之间的相似度,然后根据文献间的相似度,利用聚类算法得到文献簇,最后基于TF-IDF(词频-逆文档频率)方法提取文献簇的代表性标签。
为了达到上述目的,本发明通过以下技术方案实现:
一种基于本体的海量文献数据的聚类方法,包含以下步骤:
S1、对海量文献数据进行预处理,获取文本中的主题词,形成文献编号与代表性主题词组成的输入文件,上传到Hadoop分布式文件系统;
S2、利用所述Hadoop分布式文件系统中的映射归约模型对步骤S1中的所述输入文件作逐行处理,得到所有待处理文献两两之间的相似度,形成文献相似度矩阵;
S3、根据所述步骤S2得到的所述文献相似度矩阵,利用聚类算法得到最终的文献簇;
S4、基于TF-IDF方法提取所述步骤S3中的所述文献簇的代表性标签。
优选地,所述文献为生物医学文献,所述主题词为医学主题词,所述文献簇为生物医学文献簇。
优选地,所述步骤S1进一步包含以下步骤:S1.1、根据待处理文献的PubMed唯一标识码,获取所有待处理文献的相关主题词;S1.2、将所述步骤S1.1得到的文献对应的主题词组织成输入文件,该输入文件中每一行的内容是由待聚类文献的唯一标识码与该文献对应的主题词组成的。
优选地,所述步骤S2进一步包含以下步骤:S2.1、基于主题词本体进行相似度计算,其中,主题词是以树状结构组织在一起的,一个主题词在树上的位置由多个节点表示;S2.2、计算文献间的相似度;
所述步骤S2.1中,主题词相似度的计算公式如下:
Figure BDA0002478908580000021
主题词1对主题词2的相似度=主题词1的所有节点对主题词2的相似度之和;
主题词1的一个节点对主题词2的相似度=该节点与主题词2所有节点之间相似度的最大值;
其中,节点与节点的相似度计算公式如下:
Figure BDA0002478908580000022
节点信息含量的计算公式如下:
Figure BDA0002478908580000023
所述步骤S2.2中,计算文献间的相似度的公式如下:
Figure BDA0002478908580000024
文献1对文献2的相似度=文献1的所有主题词对文献2的相似度之和;
Figure BDA0002478908580000025
优选地,所述步骤S2.1中,主题词相似度的计算结果以键值对的形式存储在远程字典服务Redis中,其中,键是主题词对,值是两个主题词之间的相似度。
优选地,所述主题词本体为医学主题词本体,所述键是医学主题词对,所述值是两个医学主题词之间的相似度。
优选地,所述骤S2.2中的文献相似度计算包含以下步骤:
S2.2-1、对输入文件的每一行作第一遍映射归约;所述第一遍映射归约过程如下:(1)将所述输入文件按行拆分成多个小文件,该小文件中每一行由文献标识码和对应的主题词组成,为每一个小文件分配一个映射任务;(2)在映射阶段,遍历所有主题词,若当前文献包含某个主题词,则输出一个键值对,键是该主题词,值是文献的PubMed唯一标识码;(3)在归约阶段,将键相同的结果整合到一起,最终输出的每一行由一个主题词以及包含该主题词的所有文献的PubMed唯一标识码组成;S2.2-2、对另一输入文件的每一行作第二遍映射归约,所述另一输入文件是所述步骤S2.2-1中第一遍映射归约输出的包含特定主题词的文献,其作为第二遍映射归约的映射阶段的输入文件;所述第二遍映射归约过程如下:(1)将步骤S2.2-2的所述另一输入文件按行拆分成多个小文件,该小文件中每一行是某个主题词以及包含该主题词的文献标识码,为每一个小文件分配一个Map任务;(2)在映射阶段,对于该行的每一篇文献,从远程字典服务Redis中获取该行主题词与其他任一文献的所有主题词之间的相似度,保留最大值,输出一个键值对,键是两篇文献的PubMed唯一标识码构成的字符串,值是该行的主题词与一篇文献中所有主题词的相似度的最大值;(3)在归约阶段,将键相同的值进行求和取均值,在归约阶段,将键相同的值进行求和取均值,得到每一行由两篇文献的PubMed唯一标识码构成的字符串以及对应的两篇文献的相似度组成的文献相似度文件。
优选地,所述步骤S3中进一步包含以下步骤:S3.1:从Hadoop分布式文件系统下载所述步骤S2产生的文献相似度文件;S3.2:从所述文献相似度文件中获取文献间的相似度,新建一个n*n大小的矩阵A,将文献相似度存储在矩阵A中,形成相似度矩阵;其中,n是文献总数,矩阵A的每一个元素aij表示第i篇文献与第j篇文献的相似度;S3.3:对步骤S2中产生的相似度矩阵进行聚类,得到文献簇。
优选地,所述步骤S4中进一步包含以下步骤:
S4.1:根据步骤S3得到的文献簇,将所有待处理文献的相关主题词整理为对应个数的簇,形成计算词频-逆文本频率指数TF-IDF的语料库;
S4.2:计算各个主题词的TF-IDF值,如下:
Figure BDA0002478908580000041
式中,Nw是在一个簇中主题词w出现的次数,N是该簇总主题词数,TFw是主题词w的词频;
Figure BDA0002478908580000042
其中,Y是簇的总数,Yw是包含主题词w的簇个数,IDFw是主题词w的逆文本频率;
(TF-IDF)w=TFw*IDFw
其中,(TF-IDF)w是主题词w的词频-逆文本频率指数;
步骤S4.3、选择词频-逆文本频率指数TF-IDF值最大的主题词作为该簇的标签。
与现有技术相比,本发明的有益效果在于:本发明提供的基于本体的海量文献数据的聚类方法,借助Hadoop分布式框架,采用并行计算的方法,有效地提升了在大数据环境下计算文献相似度的效率。
附图说明
图1是本发明的工作总流程图,分为4个模块:预处理、相似度计算、文献聚类和标签提取;
图2是本发明的预处理模块的具体流程示意图;
图3是本发明的医学主题词本体树状结构的具体示例(图中英文是指示例处的主题词);
图4是本发明的相似度计算模块的具体流程;
图5是本发明的文献聚类模块的具体流程;
图6是本发明的标签提取模块的具体流程;
图7是本发明的第一遍映射归约的具体实施方法;
图8是本发明的第二遍映射归约的具体实施方法。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-图8所示,本发明提供了一种基于本体的海量文献数据的聚类方法(下述以生物医学文献为例进行详细说明),该方法包括如下步骤:
步骤S1、首先对海量文献数据(例如海量生物医学文献)进行预处理,获取文本中的主题词,形成文献编号与代表性主题词组成的输入文件,上传到Hadoop分布式文件系统,如图2所示。
步骤S2、利用Hadoop分布式文件系统中的映射归约模型对步骤S1中的所述输入文件作逐行处理,得到所有待处理文献两两之间的相似度,形成文献相似度矩阵。
步骤S3、文献聚类:根据步骤S2得到的所述文献相似度矩阵,利用聚类算法得到最终的文献簇。
步骤S4、标签提取:基于TF-IDF方法提取步骤S3中的所述文献簇的代表性标签。
如图2所示,所述步骤S1进一步包含以下步骤:
步骤S1.1:利用美国国家生物技术信息中心提供的E-utility工具,根据待处理文献的PubMed唯一标识码,获取所有待处理文献的相关医学主题词。
步骤S1.2:将步骤S1.1得到的文献对应的医学主题词组织成输入文件,该输入文件中每一行的内容是由待聚类文献的唯一标识码与该文献对应的医学主题词组成。
所述步骤S2中,利用Hadoop的映射归约模型计算相似度,其中,映射归约模型是一种用于并行计算的编程模型,其处理逻辑是先将一组键值对映射成一组新的键值对,然后根据需求指定并发的归约函数。因此,本实施例利用Hadoop中的所述映射归约模型对步骤S1产生的输入文件作逐行处理,得到待聚类文献两两之间的相似度,形成文献相似度矩阵,如图3所示。
具体地,所述步骤S2进一步包含以下步骤:
步骤S2.1:基于医学主题词本体的相似度(也称语义相似度)计算。其中,医学主题词本体是美国国立医学图书馆编制的权威性主题词表,它将医学主题词以树状的结构组织在一起,深度越深,主题词越特殊,一个主题词在树上的位置可以由多个节点表示。图3所示是医学主题词本体的一部分,括号里的内容表示该主题词在本体上的一个节点。对于主题词Gingival Pocket(龈袋),除了图3上展示的一个节点外,还有另外一个节点为C07.465.714.258.480.360。
示例地,主题词相似度的计算公式如下:
Figure BDA0002478908580000061
主题词1对主题词2的相似度=主题词1的所有节点对主题词2的相似度之和;
主题词1的一个节点对主题词2的相似度=该节点与主题词2所有节点之间相似度的最大值;
其中,节点与节点的相似度计算公式如下:
Figure BDA0002478908580000062
其中,节点信息含量的计算公式如下:
Figure BDA0002478908580000063
然后将计算结果以键值对的形式存储在远程字典服务Redis中,键是医学主题词对,值是两个医学主题词之间的相似度。这样做的目的是在计算文献相似度时能够迅速取得某两个医学主题词之间的相似度值。
步骤S2.2:计算文献间的相似度,计算公式如下:
Figure BDA0002478908580000064
文献1对文献2的相似度=文献1的所有主题词对文献2的相似度之和;
Figure BDA0002478908580000065
具体示例如表1所示:
表1各类相似度的一个示例
Figure BDA0002478908580000071
其中,根据步骤S2.2文献相似度计算公式编写映射归约程序,具体如下:
(一)对输入文件的每一行作第一遍映射归约,目的是整理排列包含特定医学主题词的文献,便于之后并行计算文献相似度,如图7所示。其中,Di表示第i篇文献,Ti表示第i个医学主题词。第一遍映射归约具体流程如下:
(1)先将输入文件按行拆分成多个小文件,小文件中每一行由文献标识码和对应的医学主题词组成,为每一个小文件分配一个映射任务。
(2)在映射阶段,遍历所有医学主题词,如果当前文献包含某个主题词,则输出一个键值对,键是该主题词,值是文献的PubMed唯一标识码。
(3)在归约阶段,把键相同的结果整合到一起。最终输出的每一行由一个医学主题词以及包含该主题词的所有文献的PubMed唯一标识码组成。
(二)对另一输入文件的每一行作第二遍映射归约,目的是并行计算生物医学文献间的相似度,如图8所示。其中,Di表示第i篇文献,Ti表示第i个医学主题词。其中,将步骤S2.2中第一遍映射归约输出的包含特定主题词的文献作为第二遍映射归约的映射阶段的所述另一输入文件。同样地,第二遍映射归约中的流程如下:
(1)先把第二遍映射归约的映射阶段的输入文件按行拆分成多个小文件,小文件中每一行是某个主题词以及包含该主题词的文献标识码,然后为每一个小文件分配一个Map任务。
(2)在映射阶段,对于该行的每一篇文献,从远程字典服务Redis中获取该行医学主题词与其他任一文献的所有主题词之间的相似度,保留最大值,输出一个键值对,键是两篇文献的PubMed唯一标识码构成的字符串,值是该行的医学主题词与一篇文献中所有主题词的相似度的最大值。
(3)在归约阶段,把键相同的值进行求和取均值,得到每一行由两篇文献的PubMed唯一标识码构成的字符串以及对应的两篇文献的相似度组成的文献相似度文件。
如图5所示,所述步骤S3中进一步包含以下步骤:
步骤S3.1:从Hadoop分布式文件系统下载所述步骤S2产生的文献相似度文件。
步骤S3.2:从文献相似度文件中获取生物医学文献间的相似度,新建一个n*n大小的矩阵A,把文献相似度存储在矩阵A中,形成相似度矩阵。其中,n是文献总数,矩阵A的每一个元素aij表示第i篇文献与第j篇文献的相似度。
步骤S3.3:利用Scikit-learn库的聚类函数对步骤S3.2中产生的相似度矩阵进行聚类,得到生物医学文献簇。
如图6所示,所述步骤S4中进一步包含以下步骤:
步骤S4.1:根据步骤S3得到的文献簇(例如生物医学文献簇),将所有待处理生物医学文献的相关医学主题词整理为对应个数的簇,形成计算TF-IDF值的语料库。
步骤S4.2:计算各个主题词的词频-逆文本频率指数(TF-IDF),计算公式如下:
Figure BDA0002478908580000081
其中,Nw是在某簇中主题词w出现的次数,N是该簇总主题词数,TFw是主题词w的词频。
Figure BDA0002478908580000082
其中,Y是簇的总数,Yw是包含主题词w的簇个数,IDFw是主题词w的逆文本频率。
(TF-IDF)w=TFw*IDFw
其中,(TF-IDF)w是主题词w的词频-逆文本频率指数。
步骤S4.3:选择词频-逆文本频率指数(TF-IDF)值最大的主题词作为该簇的标签。
为便于理解,本发明的说明书将举具体一例来演示本发明的实施过程,如下所述。
下表2是三篇文献的主题词:
表2是三篇文献的主题词的示例
Figure BDA0002478908580000091
首先计算主题词之间的相似度,存储在远程字典服务Redis中。
对于主题词Humanities(人类)与主题词Motion Pictures(电影),它们在的节点如下表3所示:
表3是列举的两个主题词的节点
Figure BDA0002478908580000092
根据步骤S2.1中计算节点信息含量的公式可得各节点信息含量,以节点K01为例,总节点数量为59746,节点深度为1,孩子节点数量为210,带入公式可得下表4的结果:
Figure BDA0002478908580000093
表4是各个节点的信息含量列表
Figure BDA0002478908580000094
Figure BDA0002478908580000101
再根据步骤S2.1中节点相似度计算公式可得节点相似度,以节点K01与节点K01.093.545为例,它们的公共父节点是K01,所以有下述表5的结果:
Figure BDA0002478908580000102
表5是两个节点的节点相似度的结果
两个节点 节点相似度
K01与J01.897.280.500.598 0.000
K01与K01.093.545 0.292
K01与L01.178.590.500 0.000
K01与L01.178.820.090.598 0.000
然后根据步骤S2.1中主题词相似度计算公式,两个主题词节点数量之和为5,主题词Humanities(人类)对主题词Motion Pictures(电影)的相似度是:
max{0,0.292,0,0}=0.292
主题词Motion Pictures(电影)对主题词Humanities(人类)的相似度是:
max{0}+max{0.292}+max{0}+max{0}=0.292
则有:
Figure BDA0002478908580000103
类似地,可以得到所有主题词相似度,如下表6:
表6主题词和主题词相似度的列表
Figure BDA0002478908580000104
Figure BDA0002478908580000111
之后将主题词相似度存储在远程字典服务中。
然后,进行第一遍映射归约,整理排列包含特定医学主题词的文献,过程如下表7所示:
表7是第一遍映射归约的过程列表
Figure BDA0002478908580000112
再进行第二遍映射归约,计算文献相似度,过程如下表8:
表8是第二遍映射归约的过程列表
Figure BDA0002478908580000113
Figure BDA0002478908580000121
得到文献相似度如下表9:
表9是文献和文献相似度的列表
两篇文献 文献相似度
A与B 0.10185
A与C 0.4
B与C 0.03476
在聚类前,把相似度存储在矩阵中,如表10:
表10是存储在矩阵的相似度列表
相似度矩阵 A B C
A 1 0.10185 0.4
B 0.10185 1 0.03746
C 0.4 0.03476 1
聚类后可得两个簇,一个簇由A和C组成,另一个簇只含B。
最后进行标签提取。
计算各个主题词的TF-IDF值,以Proviruses(原生病毒)为例:
Figure BDA0002478908580000122
Figure BDA0002478908580000123
TF-IDF=0.4*0.074=0.0296
表11是各主题词的TF-IDF值的列表
主题词 TF-IDF值
Proviruses(原生病毒) 0.0296
Humanities(人类) 0.0148
Motion Pictures(电影) 0.037
Capsid(衣壳) 0.037
Distemper(瘟热) 0.0148
Animals(动物) 0.0148
因此选取Proviruses作为第一个簇的标签,Motion Pictures与Capsid都可以作为第二个簇的标签。
综上所述,本发明提供的基于本体的海量文献数据的聚类方法,借助Hadoop分布式框架,采用并行计算的方法,有效地提升了在大数据环境下计算文献相似度的效率。
本发明不仅能够应用于生物医学文献,对于其他文献同样可以按此方法实施。此外,有关计算主题词相似度的公式也是可以替换的,不会影响Hadoop下并行计算的实施。使用者可以根据需求选择合适的主题词相似度计算公式。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程不一定是实施本发明所必须的。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

Claims (8)

1.一种基于本体的海量文献数据的聚类方法,其特征在于,包含以下步骤:
S1、对海量文献数据进行预处理,获取文本中的主题词,形成文献编号与代表性主题词组成的输入文件,上传到Hadoop分布式文件系统;
S2、利用所述Hadoop分布式文件系统中的映射归约模型对步骤S1中的所述输入文件作逐行处理,得到所有待处理文献两两之间的相似度,形成文献相似度矩阵;
S3、根据所述步骤S2得到的所述文献相似度矩阵,利用聚类算法得到最终的文献簇;
S4、基于TF-IDF方法提取所述步骤S3中的所述文献簇的代表性标签;其中,所述步骤S2进一步包含以下步骤:
S2.1、基于主题词本体进行相似度计算,其中,主题词以树状结构组织在一起,一个主题词在树上的位置由多个节点表示;
S2.2、计算文献间的相似度;
所述步骤S2.1中,主题词相似度的计算公式如下:
Figure FDA0003627093560000011
主题词1对主题词2的相似度=主题词1的所有节点对主题词2的相似度之和;
主题词1的一个节点对主题词2的相似度=该节点与主题词2所有节点之间相似度的最大值;
其中,节点与节点的相似度计算公式如下:
Figure FDA0003627093560000012
节点信息含量的计算公式如下:
Figure FDA0003627093560000013
所述步骤S2.2中,计算文献间的相似度的公式如下:
Figure FDA0003627093560000014
文献1对文献2的相似度=文献1的所有主题词对文献2的相似度之和;
Figure FDA0003627093560000021
2.如权利要求1所述的聚类方法,其特征在于,
所述文献为生物医学文献,所述主题词为医学主题词,所述文献簇为生物医学文献簇。
3.如权利要求1或2所述的聚类方法,其特征在于,
所述步骤S1进一步包含以下步骤:
S1.1、根据待处理文献的PubMed唯一标识码,获取所有待处理文献的相关主题词;
S1.2、将所述步骤S1.1得到的文献对应的主题词组织成输入文件,该输入文件中每一行的内容是由待聚类文献的唯一标识码与该文献对应的主题词组成的。
4.如权利要求3所述的聚类方法,其特征在于,
所述步骤S2.1中,主题词相似度的计算结果是以键值对的形式存储在远程字典服务Redis中,其中,键是主题词对,值是两个主题词之间的相似度。
5.如权利要求4所述的聚类方法,其特征在于,
所述主题词本体为医学主题词本体,所述键是医学主题词对,所述值是两个医学主题词之间的相似度。
6.如权利要求4~5中任意一项所述的聚类方法,其特征在于,
所述步骤S2.2中的文献相似度计算包含以下步骤:
S2.2-1、对输入文件的每一行作第一遍映射归约;所述第一遍映射归约过程如下:
(1)将所述输入文件按行拆分成多个小文件,该小文件中每一行由文献标识码和对应的主题词组成,为每一个小文件分配一个映射任务;
(2)在映射阶段,遍历所有主题词,若当前文献包含某个主题词,则输出一个键值对,键是该主题词,值是文献的PubMed唯一标识码;
(3)在归约阶段,将键相同的结果整合到一起,最终输出的每一行由一个主题词以及包含该主题词的所有文献的PubMed唯一标识码组成;
S2.2-2、对另一输入文件的每一行作第二遍映射归约,所述另一输入文件是所述步骤S2.2-1中第一遍映射归约输出的包含特定主题词的文献,其作为第二遍映射归约的映射阶段的输入文件;所述第二遍映射归约过程如下:
(1)将步骤S2.2-2的所述另一输入文件按行拆分成多个小文件,该小文件中每一行是某个主题词以及包含该主题词的文献标识码,为每一个小文件分配一个Map任务;
(2)在映射阶段,对于该行的每一篇文献,从远程字典服务Redis中获取该行主题词与其他任一文献的所有主题词之间的相似度,保留最大值,输出一个键值对,键是两篇文献的PubMed唯一标识码构成的字符串,值是该行的主题词与一篇文献中所有主题词的相似度的最大值;
(3)在归约阶段,将键相同的值进行求和取均值,得到每一行由两篇文献的PubMed唯一标识码构成的字符串以及对应的两篇文献的相似度组成的文献相似度文件。
7.如权利要求6所述的聚类方法,其特征在于,
所述步骤S3中进一步包含以下步骤:
S3.1:从Hadoop分布式文件系统下载所述步骤S2产生的文献相似度文件;
S3.2:从所述文献相似度文件中获取文献间的相似度,新建一个n*n大小的矩阵A,将文献相似度存储在矩阵A中,形成相似度矩阵;其中,n是文献总数,矩阵A的每一个元素aij表示第i篇文献与第j篇文献的相似度;
S3.3:对步骤S3.2中产生的相似度矩阵进行聚类,得到文献簇。
8.如权利要求7所述的基于本体的海量文献数据的聚类方法,其特征在于,所述步骤S4中进一步包含以下步骤:
S4.1:根据步骤S3得到的文献簇,将所有待处理文献的相关主题词归类到上述对应的文献簇中,形成计算词频-逆文本频率指数TF-IDF的语料库;
S4.2:计算各个主题词的TF-IDF值,如下:
Figure FDA0003627093560000031
式中,Nw是在一个簇中主题词w出现的次数,N是该簇总主题词数,TFw是主题词w的词频;
Figure FDA0003627093560000041
其中,Y是簇的总数,Yw是包含主题词w的簇个数,IDFw是主题词w的逆文本频率;
(TF-IDF)w=TFw*IDFw
其中,(TF-IDF)w是主题词w的词频-逆文本频率指数;
步骤S4.3、选择词频-逆文本频率指数TF-IDF值最大的主题词作为该簇的标签。
CN202010373160.6A 2020-05-06 2020-05-06 一种基于本体的海量文献数据的聚类方法 Active CN111581162B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010373160.6A CN111581162B (zh) 2020-05-06 2020-05-06 一种基于本体的海量文献数据的聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010373160.6A CN111581162B (zh) 2020-05-06 2020-05-06 一种基于本体的海量文献数据的聚类方法

Publications (2)

Publication Number Publication Date
CN111581162A CN111581162A (zh) 2020-08-25
CN111581162B true CN111581162B (zh) 2022-09-06

Family

ID=72127664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010373160.6A Active CN111581162B (zh) 2020-05-06 2020-05-06 一种基于本体的海量文献数据的聚类方法

Country Status (1)

Country Link
CN (1) CN111581162B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113342980B (zh) * 2021-06-29 2024-05-17 中国平安人寿保险股份有限公司 Ppt文本挖掘的方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273412A (zh) * 2017-05-04 2017-10-20 北京拓尔思信息技术股份有限公司 一种文本数据的聚类方法、装置和系统
CN108874755A (zh) * 2018-06-28 2018-11-23 电子科技大学 基于MeSH的医学文献集相似性度量方法
CN110347401A (zh) * 2019-06-18 2019-10-18 西安交通大学 一种基于语义相似度的API Framework服务发现方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10191978B2 (en) * 2014-01-03 2019-01-29 Verint Systems Ltd. Labeling/naming of themes

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273412A (zh) * 2017-05-04 2017-10-20 北京拓尔思信息技术股份有限公司 一种文本数据的聚类方法、装置和系统
CN108874755A (zh) * 2018-06-28 2018-11-23 电子科技大学 基于MeSH的医学文献集相似性度量方法
CN110347401A (zh) * 2019-06-18 2019-10-18 西安交通大学 一种基于语义相似度的API Framework服务发现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
An Information-Theoretic Definition of Similarity;Dekang Lin;《Citeseer》;19981231;全文 *
基于本体的语义相似度计算研究;张克亮;《郑州大学学报(理学版)》;20190630;第51卷(第2期);全文 *

Also Published As

Publication number Publication date
CN111581162A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
Negara et al. Topic modelling twitter data with latent dirichlet allocation method
CN106649455B (zh) 一种大数据开发的标准化系统归类、命令集系统
Cohen et al. Learning to match and cluster large high-dimensional data sets for data integration
CN102915365A (zh) 基于Hadoop的分布式搜索引擎构建方法
CN104169948A (zh) 用于文本语义处理的方法、装置及产品
Bairi et al. Summarization of multi-document topic hierarchies using submodular mixtures
CN109558482B (zh) 一种基于Spark框架的文本聚类模型PW-LDA的并行化方法
CN113139599B (zh) 一种融合词向量扩充和主题模型的服务分布式聚类方法
El Abdouli et al. Sentiment analysis of moroccan tweets using naive bayes algorithm
CN115795061B (zh) 一种基于词向量和依存句法的知识图谱构建方法及系统
US20130024403A1 (en) Automatically induced class based shrinkage features for text classification
WO2013128684A1 (ja) 辞書生成装置、方法、及びプログラム
CN111581162B (zh) 一种基于本体的海量文献数据的聚类方法
Alian et al. Questions clustering using canopy-K-means and hierarchical-K-means clustering
Hanyurwimfura et al. A centroid and relationship based clustering for organizing
Kwatra et al. Extractive and abstractive summarization for hindi text using hierarchical clustering
Babur et al. Towards Distributed Model Analytics with Apache Spark.
Garrido et al. A distant supervised learning system for the TAC-KBP Slot Filling and Temporal Slot Filling Tasks.
Tang et al. Parallel computing for large-scale author name disambiguation in MEDLINE
CN113268616B (zh) 参考文献内容提取方法和装置
WO2018100700A1 (ja) データ変換装置とデータ変換方法
Chien et al. Semantic tagging of mathematical expressions
Ajeissh et al. An adaptive distributed approach of a self organizing map model for document clustering using ring topology
Alsharman et al. High-Performance Computing of Building The Dependency Trees and Calculating Tree Edit Distances For Text Similarity.
Senbel Fast and Memory-Efficient TFIDF Calculation for Text Analysis of Large Datasets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231117

Address after: Room 529, Zone C, Building 10, No. 199 Changjian Road, Baoshan District, Shanghai, 2009

Patentee after: Shanghai Meicui High tech Development Co.,Ltd.

Address before: 201306 1550 Harbour Road, Lingang New Town, Pudong New Area, Shanghai

Patentee before: Shanghai Maritime University