CN111581162B - 一种基于本体的海量文献数据的聚类方法 - Google Patents
一种基于本体的海量文献数据的聚类方法 Download PDFInfo
- Publication number
- CN111581162B CN111581162B CN202010373160.6A CN202010373160A CN111581162B CN 111581162 B CN111581162 B CN 111581162B CN 202010373160 A CN202010373160 A CN 202010373160A CN 111581162 B CN111581162 B CN 111581162B
- Authority
- CN
- China
- Prior art keywords
- subject
- similarity
- document
- documents
- term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000013507 mapping Methods 0.000 claims abstract description 36
- 238000004364 calculation method Methods 0.000 claims abstract description 32
- 230000009467 reduction Effects 0.000 claims abstract description 32
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 6
- 238000011946 reduction process Methods 0.000 claims description 2
- 210000000234 capsid Anatomy 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 208000000655 Distemper Diseases 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 241000700605 Viruses Species 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 208000003433 Gingival Pocket Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于本体的海量文献数据的聚类方法,其是利用Hadoop框架来对海量文献(例如海量生物医学文献)数据进行聚类的方法,该方法包括对生物医学文献进行预处理;利用Hadoop中的映射归约模型对输入文件作逐行处理,计算文献相似度;根据文献相似度用聚类算法得到最终的生物医学文献簇;基于TF‑IDF提取各个簇的代表性标签。本发明针对了在大数据环境下对生物医学文献进行聚类效率低下的问题,提出了一种并行化模型,使得计算文献相似度工作可以在Hadoop分布式系统中进行,提高了计算效率。
Description
技术领域
本发明涉及大数据与自然语言处理领域,尤其涉及一种基于本体的海量文献数据的聚类方法。
背景技术
文献聚类应用于寻找相似的文献,这对于文本挖掘和文献管理具有重要意义。通过文献聚类,可以高效地得到相似的文献;方便地获取想要的信息;从更高的维度观察分析数据。对于大数据环境下的文献聚类,如果使用传统方法,效率十分低下。
Hadoop是一个由Apache开发的分布式系统基础架构,用户可以在不了解分布式底层细节的情况下开发分布式程序。Hadoop的核心是分布式文件系统和映射归约编程模型。分布式文件系统提供海量数据的存储,映射归约编程模型提供海量数据的计算。因此,本发明选择借助Hadoop这一分布式系统基础架构,对文献相似度计算的过程作并行化处理,提升计算效率。
发明内容
本发明的目的在于提供一种基于本体的海量文献数据的聚类方法,其针对现有方法在对数量较多的文献进行聚类时速度较慢的问题,提出了一种并行化模型,用于并行计算文献之间的相似度,然后根据文献间的相似度,利用聚类算法得到文献簇,最后基于TF-IDF(词频-逆文档频率)方法提取文献簇的代表性标签。
为了达到上述目的,本发明通过以下技术方案实现:
一种基于本体的海量文献数据的聚类方法,包含以下步骤:
S1、对海量文献数据进行预处理,获取文本中的主题词,形成文献编号与代表性主题词组成的输入文件,上传到Hadoop分布式文件系统;
S2、利用所述Hadoop分布式文件系统中的映射归约模型对步骤S1中的所述输入文件作逐行处理,得到所有待处理文献两两之间的相似度,形成文献相似度矩阵;
S3、根据所述步骤S2得到的所述文献相似度矩阵,利用聚类算法得到最终的文献簇;
S4、基于TF-IDF方法提取所述步骤S3中的所述文献簇的代表性标签。
优选地,所述文献为生物医学文献,所述主题词为医学主题词,所述文献簇为生物医学文献簇。
优选地,所述步骤S1进一步包含以下步骤:S1.1、根据待处理文献的PubMed唯一标识码,获取所有待处理文献的相关主题词;S1.2、将所述步骤S1.1得到的文献对应的主题词组织成输入文件,该输入文件中每一行的内容是由待聚类文献的唯一标识码与该文献对应的主题词组成的。
优选地,所述步骤S2进一步包含以下步骤:S2.1、基于主题词本体进行相似度计算,其中,主题词是以树状结构组织在一起的,一个主题词在树上的位置由多个节点表示;S2.2、计算文献间的相似度;
所述步骤S2.1中,主题词相似度的计算公式如下:
主题词1对主题词2的相似度=主题词1的所有节点对主题词2的相似度之和;
主题词1的一个节点对主题词2的相似度=该节点与主题词2所有节点之间相似度的最大值;
其中,节点与节点的相似度计算公式如下:
节点信息含量的计算公式如下:
所述步骤S2.2中,计算文献间的相似度的公式如下:
文献1对文献2的相似度=文献1的所有主题词对文献2的相似度之和;
优选地,所述步骤S2.1中,主题词相似度的计算结果以键值对的形式存储在远程字典服务Redis中,其中,键是主题词对,值是两个主题词之间的相似度。
优选地,所述主题词本体为医学主题词本体,所述键是医学主题词对,所述值是两个医学主题词之间的相似度。
优选地,所述骤S2.2中的文献相似度计算包含以下步骤:
S2.2-1、对输入文件的每一行作第一遍映射归约;所述第一遍映射归约过程如下:(1)将所述输入文件按行拆分成多个小文件,该小文件中每一行由文献标识码和对应的主题词组成,为每一个小文件分配一个映射任务;(2)在映射阶段,遍历所有主题词,若当前文献包含某个主题词,则输出一个键值对,键是该主题词,值是文献的PubMed唯一标识码;(3)在归约阶段,将键相同的结果整合到一起,最终输出的每一行由一个主题词以及包含该主题词的所有文献的PubMed唯一标识码组成;S2.2-2、对另一输入文件的每一行作第二遍映射归约,所述另一输入文件是所述步骤S2.2-1中第一遍映射归约输出的包含特定主题词的文献,其作为第二遍映射归约的映射阶段的输入文件;所述第二遍映射归约过程如下:(1)将步骤S2.2-2的所述另一输入文件按行拆分成多个小文件,该小文件中每一行是某个主题词以及包含该主题词的文献标识码,为每一个小文件分配一个Map任务;(2)在映射阶段,对于该行的每一篇文献,从远程字典服务Redis中获取该行主题词与其他任一文献的所有主题词之间的相似度,保留最大值,输出一个键值对,键是两篇文献的PubMed唯一标识码构成的字符串,值是该行的主题词与一篇文献中所有主题词的相似度的最大值;(3)在归约阶段,将键相同的值进行求和取均值,在归约阶段,将键相同的值进行求和取均值,得到每一行由两篇文献的PubMed唯一标识码构成的字符串以及对应的两篇文献的相似度组成的文献相似度文件。
优选地,所述步骤S3中进一步包含以下步骤:S3.1:从Hadoop分布式文件系统下载所述步骤S2产生的文献相似度文件;S3.2:从所述文献相似度文件中获取文献间的相似度,新建一个n*n大小的矩阵A,将文献相似度存储在矩阵A中,形成相似度矩阵;其中,n是文献总数,矩阵A的每一个元素aij表示第i篇文献与第j篇文献的相似度;S3.3:对步骤S2中产生的相似度矩阵进行聚类,得到文献簇。
优选地,所述步骤S4中进一步包含以下步骤:
S4.1:根据步骤S3得到的文献簇,将所有待处理文献的相关主题词整理为对应个数的簇,形成计算词频-逆文本频率指数TF-IDF的语料库;
S4.2:计算各个主题词的TF-IDF值,如下:
式中,Nw是在一个簇中主题词w出现的次数,N是该簇总主题词数,TFw是主题词w的词频;
其中,Y是簇的总数,Yw是包含主题词w的簇个数,IDFw是主题词w的逆文本频率;
(TF-IDF)w=TFw*IDFw
其中,(TF-IDF)w是主题词w的词频-逆文本频率指数;
步骤S4.3、选择词频-逆文本频率指数TF-IDF值最大的主题词作为该簇的标签。
与现有技术相比,本发明的有益效果在于:本发明提供的基于本体的海量文献数据的聚类方法,借助Hadoop分布式框架,采用并行计算的方法,有效地提升了在大数据环境下计算文献相似度的效率。
附图说明
图1是本发明的工作总流程图,分为4个模块:预处理、相似度计算、文献聚类和标签提取;
图2是本发明的预处理模块的具体流程示意图;
图3是本发明的医学主题词本体树状结构的具体示例(图中英文是指示例处的主题词);
图4是本发明的相似度计算模块的具体流程;
图5是本发明的文献聚类模块的具体流程;
图6是本发明的标签提取模块的具体流程;
图7是本发明的第一遍映射归约的具体实施方法;
图8是本发明的第二遍映射归约的具体实施方法。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-图8所示,本发明提供了一种基于本体的海量文献数据的聚类方法(下述以生物医学文献为例进行详细说明),该方法包括如下步骤:
步骤S1、首先对海量文献数据(例如海量生物医学文献)进行预处理,获取文本中的主题词,形成文献编号与代表性主题词组成的输入文件,上传到Hadoop分布式文件系统,如图2所示。
步骤S2、利用Hadoop分布式文件系统中的映射归约模型对步骤S1中的所述输入文件作逐行处理,得到所有待处理文献两两之间的相似度,形成文献相似度矩阵。
步骤S3、文献聚类:根据步骤S2得到的所述文献相似度矩阵,利用聚类算法得到最终的文献簇。
步骤S4、标签提取:基于TF-IDF方法提取步骤S3中的所述文献簇的代表性标签。
如图2所示,所述步骤S1进一步包含以下步骤:
步骤S1.1:利用美国国家生物技术信息中心提供的E-utility工具,根据待处理文献的PubMed唯一标识码,获取所有待处理文献的相关医学主题词。
步骤S1.2:将步骤S1.1得到的文献对应的医学主题词组织成输入文件,该输入文件中每一行的内容是由待聚类文献的唯一标识码与该文献对应的医学主题词组成。
所述步骤S2中,利用Hadoop的映射归约模型计算相似度,其中,映射归约模型是一种用于并行计算的编程模型,其处理逻辑是先将一组键值对映射成一组新的键值对,然后根据需求指定并发的归约函数。因此,本实施例利用Hadoop中的所述映射归约模型对步骤S1产生的输入文件作逐行处理,得到待聚类文献两两之间的相似度,形成文献相似度矩阵,如图3所示。
具体地,所述步骤S2进一步包含以下步骤:
步骤S2.1:基于医学主题词本体的相似度(也称语义相似度)计算。其中,医学主题词本体是美国国立医学图书馆编制的权威性主题词表,它将医学主题词以树状的结构组织在一起,深度越深,主题词越特殊,一个主题词在树上的位置可以由多个节点表示。图3所示是医学主题词本体的一部分,括号里的内容表示该主题词在本体上的一个节点。对于主题词Gingival Pocket(龈袋),除了图3上展示的一个节点外,还有另外一个节点为C07.465.714.258.480.360。
示例地,主题词相似度的计算公式如下:
主题词1对主题词2的相似度=主题词1的所有节点对主题词2的相似度之和;
主题词1的一个节点对主题词2的相似度=该节点与主题词2所有节点之间相似度的最大值;
其中,节点与节点的相似度计算公式如下:
其中,节点信息含量的计算公式如下:
然后将计算结果以键值对的形式存储在远程字典服务Redis中,键是医学主题词对,值是两个医学主题词之间的相似度。这样做的目的是在计算文献相似度时能够迅速取得某两个医学主题词之间的相似度值。
步骤S2.2:计算文献间的相似度,计算公式如下:
文献1对文献2的相似度=文献1的所有主题词对文献2的相似度之和;
具体示例如表1所示:
表1各类相似度的一个示例
其中,根据步骤S2.2文献相似度计算公式编写映射归约程序,具体如下:
(一)对输入文件的每一行作第一遍映射归约,目的是整理排列包含特定医学主题词的文献,便于之后并行计算文献相似度,如图7所示。其中,Di表示第i篇文献,Ti表示第i个医学主题词。第一遍映射归约具体流程如下:
(1)先将输入文件按行拆分成多个小文件,小文件中每一行由文献标识码和对应的医学主题词组成,为每一个小文件分配一个映射任务。
(2)在映射阶段,遍历所有医学主题词,如果当前文献包含某个主题词,则输出一个键值对,键是该主题词,值是文献的PubMed唯一标识码。
(3)在归约阶段,把键相同的结果整合到一起。最终输出的每一行由一个医学主题词以及包含该主题词的所有文献的PubMed唯一标识码组成。
(二)对另一输入文件的每一行作第二遍映射归约,目的是并行计算生物医学文献间的相似度,如图8所示。其中,Di表示第i篇文献,Ti表示第i个医学主题词。其中,将步骤S2.2中第一遍映射归约输出的包含特定主题词的文献作为第二遍映射归约的映射阶段的所述另一输入文件。同样地,第二遍映射归约中的流程如下:
(1)先把第二遍映射归约的映射阶段的输入文件按行拆分成多个小文件,小文件中每一行是某个主题词以及包含该主题词的文献标识码,然后为每一个小文件分配一个Map任务。
(2)在映射阶段,对于该行的每一篇文献,从远程字典服务Redis中获取该行医学主题词与其他任一文献的所有主题词之间的相似度,保留最大值,输出一个键值对,键是两篇文献的PubMed唯一标识码构成的字符串,值是该行的医学主题词与一篇文献中所有主题词的相似度的最大值。
(3)在归约阶段,把键相同的值进行求和取均值,得到每一行由两篇文献的PubMed唯一标识码构成的字符串以及对应的两篇文献的相似度组成的文献相似度文件。
如图5所示,所述步骤S3中进一步包含以下步骤:
步骤S3.1:从Hadoop分布式文件系统下载所述步骤S2产生的文献相似度文件。
步骤S3.2:从文献相似度文件中获取生物医学文献间的相似度,新建一个n*n大小的矩阵A,把文献相似度存储在矩阵A中,形成相似度矩阵。其中,n是文献总数,矩阵A的每一个元素aij表示第i篇文献与第j篇文献的相似度。
步骤S3.3:利用Scikit-learn库的聚类函数对步骤S3.2中产生的相似度矩阵进行聚类,得到生物医学文献簇。
如图6所示,所述步骤S4中进一步包含以下步骤:
步骤S4.1:根据步骤S3得到的文献簇(例如生物医学文献簇),将所有待处理生物医学文献的相关医学主题词整理为对应个数的簇,形成计算TF-IDF值的语料库。
步骤S4.2:计算各个主题词的词频-逆文本频率指数(TF-IDF),计算公式如下:
其中,Nw是在某簇中主题词w出现的次数,N是该簇总主题词数,TFw是主题词w的词频。
其中,Y是簇的总数,Yw是包含主题词w的簇个数,IDFw是主题词w的逆文本频率。
(TF-IDF)w=TFw*IDFw
其中,(TF-IDF)w是主题词w的词频-逆文本频率指数。
步骤S4.3:选择词频-逆文本频率指数(TF-IDF)值最大的主题词作为该簇的标签。
为便于理解,本发明的说明书将举具体一例来演示本发明的实施过程,如下所述。
下表2是三篇文献的主题词:
表2是三篇文献的主题词的示例
首先计算主题词之间的相似度,存储在远程字典服务Redis中。
对于主题词Humanities(人类)与主题词Motion Pictures(电影),它们在的节点如下表3所示:
表3是列举的两个主题词的节点
根据步骤S2.1中计算节点信息含量的公式可得各节点信息含量,以节点K01为例,总节点数量为59746,节点深度为1,孩子节点数量为210,带入公式可得下表4的结果:
表4是各个节点的信息含量列表
再根据步骤S2.1中节点相似度计算公式可得节点相似度,以节点K01与节点K01.093.545为例,它们的公共父节点是K01,所以有下述表5的结果:
表5是两个节点的节点相似度的结果
两个节点 | 节点相似度 |
K01与J01.897.280.500.598 | 0.000 |
K01与K01.093.545 | 0.292 |
K01与L01.178.590.500 | 0.000 |
K01与L01.178.820.090.598 | 0.000 |
然后根据步骤S2.1中主题词相似度计算公式,两个主题词节点数量之和为5,主题词Humanities(人类)对主题词Motion Pictures(电影)的相似度是:
max{0,0.292,0,0}=0.292
主题词Motion Pictures(电影)对主题词Humanities(人类)的相似度是:
max{0}+max{0.292}+max{0}+max{0}=0.292
则有:
类似地,可以得到所有主题词相似度,如下表6:
表6主题词和主题词相似度的列表
之后将主题词相似度存储在远程字典服务中。
然后,进行第一遍映射归约,整理排列包含特定医学主题词的文献,过程如下表7所示:
表7是第一遍映射归约的过程列表
再进行第二遍映射归约,计算文献相似度,过程如下表8:
表8是第二遍映射归约的过程列表
得到文献相似度如下表9:
表9是文献和文献相似度的列表
两篇文献 | 文献相似度 |
A与B | 0.10185 |
A与C | 0.4 |
B与C | 0.03476 |
在聚类前,把相似度存储在矩阵中,如表10:
表10是存储在矩阵的相似度列表
相似度矩阵 | A | B | C |
A | 1 | 0.10185 | 0.4 |
B | 0.10185 | 1 | 0.03746 |
C | 0.4 | 0.03476 | 1 |
聚类后可得两个簇,一个簇由A和C组成,另一个簇只含B。
最后进行标签提取。
计算各个主题词的TF-IDF值,以Proviruses(原生病毒)为例:
TF-IDF=0.4*0.074=0.0296
表11是各主题词的TF-IDF值的列表
主题词 | TF-IDF值 |
Proviruses(原生病毒) | 0.0296 |
Humanities(人类) | 0.0148 |
Motion Pictures(电影) | 0.037 |
Capsid(衣壳) | 0.037 |
Distemper(瘟热) | 0.0148 |
Animals(动物) | 0.0148 |
因此选取Proviruses作为第一个簇的标签,Motion Pictures与Capsid都可以作为第二个簇的标签。
综上所述,本发明提供的基于本体的海量文献数据的聚类方法,借助Hadoop分布式框架,采用并行计算的方法,有效地提升了在大数据环境下计算文献相似度的效率。
本发明不仅能够应用于生物医学文献,对于其他文献同样可以按此方法实施。此外,有关计算主题词相似度的公式也是可以替换的,不会影响Hadoop下并行计算的实施。使用者可以根据需求选择合适的主题词相似度计算公式。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程不一定是实施本发明所必须的。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
Claims (8)
1.一种基于本体的海量文献数据的聚类方法,其特征在于,包含以下步骤:
S1、对海量文献数据进行预处理,获取文本中的主题词,形成文献编号与代表性主题词组成的输入文件,上传到Hadoop分布式文件系统;
S2、利用所述Hadoop分布式文件系统中的映射归约模型对步骤S1中的所述输入文件作逐行处理,得到所有待处理文献两两之间的相似度,形成文献相似度矩阵;
S3、根据所述步骤S2得到的所述文献相似度矩阵,利用聚类算法得到最终的文献簇;
S4、基于TF-IDF方法提取所述步骤S3中的所述文献簇的代表性标签;其中,所述步骤S2进一步包含以下步骤:
S2.1、基于主题词本体进行相似度计算,其中,主题词以树状结构组织在一起,一个主题词在树上的位置由多个节点表示;
S2.2、计算文献间的相似度;
所述步骤S2.1中,主题词相似度的计算公式如下:
主题词1对主题词2的相似度=主题词1的所有节点对主题词2的相似度之和;
主题词1的一个节点对主题词2的相似度=该节点与主题词2所有节点之间相似度的最大值;
其中,节点与节点的相似度计算公式如下:
节点信息含量的计算公式如下:
所述步骤S2.2中,计算文献间的相似度的公式如下:
文献1对文献2的相似度=文献1的所有主题词对文献2的相似度之和;
2.如权利要求1所述的聚类方法,其特征在于,
所述文献为生物医学文献,所述主题词为医学主题词,所述文献簇为生物医学文献簇。
3.如权利要求1或2所述的聚类方法,其特征在于,
所述步骤S1进一步包含以下步骤:
S1.1、根据待处理文献的PubMed唯一标识码,获取所有待处理文献的相关主题词;
S1.2、将所述步骤S1.1得到的文献对应的主题词组织成输入文件,该输入文件中每一行的内容是由待聚类文献的唯一标识码与该文献对应的主题词组成的。
4.如权利要求3所述的聚类方法,其特征在于,
所述步骤S2.1中,主题词相似度的计算结果是以键值对的形式存储在远程字典服务Redis中,其中,键是主题词对,值是两个主题词之间的相似度。
5.如权利要求4所述的聚类方法,其特征在于,
所述主题词本体为医学主题词本体,所述键是医学主题词对,所述值是两个医学主题词之间的相似度。
6.如权利要求4~5中任意一项所述的聚类方法,其特征在于,
所述步骤S2.2中的文献相似度计算包含以下步骤:
S2.2-1、对输入文件的每一行作第一遍映射归约;所述第一遍映射归约过程如下:
(1)将所述输入文件按行拆分成多个小文件,该小文件中每一行由文献标识码和对应的主题词组成,为每一个小文件分配一个映射任务;
(2)在映射阶段,遍历所有主题词,若当前文献包含某个主题词,则输出一个键值对,键是该主题词,值是文献的PubMed唯一标识码;
(3)在归约阶段,将键相同的结果整合到一起,最终输出的每一行由一个主题词以及包含该主题词的所有文献的PubMed唯一标识码组成;
S2.2-2、对另一输入文件的每一行作第二遍映射归约,所述另一输入文件是所述步骤S2.2-1中第一遍映射归约输出的包含特定主题词的文献,其作为第二遍映射归约的映射阶段的输入文件;所述第二遍映射归约过程如下:
(1)将步骤S2.2-2的所述另一输入文件按行拆分成多个小文件,该小文件中每一行是某个主题词以及包含该主题词的文献标识码,为每一个小文件分配一个Map任务;
(2)在映射阶段,对于该行的每一篇文献,从远程字典服务Redis中获取该行主题词与其他任一文献的所有主题词之间的相似度,保留最大值,输出一个键值对,键是两篇文献的PubMed唯一标识码构成的字符串,值是该行的主题词与一篇文献中所有主题词的相似度的最大值;
(3)在归约阶段,将键相同的值进行求和取均值,得到每一行由两篇文献的PubMed唯一标识码构成的字符串以及对应的两篇文献的相似度组成的文献相似度文件。
7.如权利要求6所述的聚类方法,其特征在于,
所述步骤S3中进一步包含以下步骤:
S3.1:从Hadoop分布式文件系统下载所述步骤S2产生的文献相似度文件;
S3.2:从所述文献相似度文件中获取文献间的相似度,新建一个n*n大小的矩阵A,将文献相似度存储在矩阵A中,形成相似度矩阵;其中,n是文献总数,矩阵A的每一个元素aij表示第i篇文献与第j篇文献的相似度;
S3.3:对步骤S3.2中产生的相似度矩阵进行聚类,得到文献簇。
8.如权利要求7所述的基于本体的海量文献数据的聚类方法,其特征在于,所述步骤S4中进一步包含以下步骤:
S4.1:根据步骤S3得到的文献簇,将所有待处理文献的相关主题词归类到上述对应的文献簇中,形成计算词频-逆文本频率指数TF-IDF的语料库;
S4.2:计算各个主题词的TF-IDF值,如下:
式中,Nw是在一个簇中主题词w出现的次数,N是该簇总主题词数,TFw是主题词w的词频;
其中,Y是簇的总数,Yw是包含主题词w的簇个数,IDFw是主题词w的逆文本频率;
(TF-IDF)w=TFw*IDFw
其中,(TF-IDF)w是主题词w的词频-逆文本频率指数;
步骤S4.3、选择词频-逆文本频率指数TF-IDF值最大的主题词作为该簇的标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010373160.6A CN111581162B (zh) | 2020-05-06 | 2020-05-06 | 一种基于本体的海量文献数据的聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010373160.6A CN111581162B (zh) | 2020-05-06 | 2020-05-06 | 一种基于本体的海量文献数据的聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111581162A CN111581162A (zh) | 2020-08-25 |
CN111581162B true CN111581162B (zh) | 2022-09-06 |
Family
ID=72127664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010373160.6A Active CN111581162B (zh) | 2020-05-06 | 2020-05-06 | 一种基于本体的海量文献数据的聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111581162B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113342980B (zh) * | 2021-06-29 | 2024-05-17 | 中国平安人寿保险股份有限公司 | Ppt文本挖掘的方法、装置、计算机设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273412A (zh) * | 2017-05-04 | 2017-10-20 | 北京拓尔思信息技术股份有限公司 | 一种文本数据的聚类方法、装置和系统 |
CN108874755A (zh) * | 2018-06-28 | 2018-11-23 | 电子科技大学 | 基于MeSH的医学文献集相似性度量方法 |
CN110347401A (zh) * | 2019-06-18 | 2019-10-18 | 西安交通大学 | 一种基于语义相似度的API Framework服务发现方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10191978B2 (en) * | 2014-01-03 | 2019-01-29 | Verint Systems Ltd. | Labeling/naming of themes |
-
2020
- 2020-05-06 CN CN202010373160.6A patent/CN111581162B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273412A (zh) * | 2017-05-04 | 2017-10-20 | 北京拓尔思信息技术股份有限公司 | 一种文本数据的聚类方法、装置和系统 |
CN108874755A (zh) * | 2018-06-28 | 2018-11-23 | 电子科技大学 | 基于MeSH的医学文献集相似性度量方法 |
CN110347401A (zh) * | 2019-06-18 | 2019-10-18 | 西安交通大学 | 一种基于语义相似度的API Framework服务发现方法 |
Non-Patent Citations (2)
Title |
---|
An Information-Theoretic Definition of Similarity;Dekang Lin;《Citeseer》;19981231;全文 * |
基于本体的语义相似度计算研究;张克亮;《郑州大学学报(理学版)》;20190630;第51卷(第2期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111581162A (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Negara et al. | Topic modelling twitter data with latent dirichlet allocation method | |
CN106649455B (zh) | 一种大数据开发的标准化系统归类、命令集系统 | |
Cohen et al. | Learning to match and cluster large high-dimensional data sets for data integration | |
CN102915365A (zh) | 基于Hadoop的分布式搜索引擎构建方法 | |
CN104169948A (zh) | 用于文本语义处理的方法、装置及产品 | |
Bairi et al. | Summarization of multi-document topic hierarchies using submodular mixtures | |
CN109558482B (zh) | 一种基于Spark框架的文本聚类模型PW-LDA的并行化方法 | |
CN113139599B (zh) | 一种融合词向量扩充和主题模型的服务分布式聚类方法 | |
El Abdouli et al. | Sentiment analysis of moroccan tweets using naive bayes algorithm | |
CN115795061B (zh) | 一种基于词向量和依存句法的知识图谱构建方法及系统 | |
US20130024403A1 (en) | Automatically induced class based shrinkage features for text classification | |
WO2013128684A1 (ja) | 辞書生成装置、方法、及びプログラム | |
CN111581162B (zh) | 一种基于本体的海量文献数据的聚类方法 | |
Alian et al. | Questions clustering using canopy-K-means and hierarchical-K-means clustering | |
Hanyurwimfura et al. | A centroid and relationship based clustering for organizing | |
Kwatra et al. | Extractive and abstractive summarization for hindi text using hierarchical clustering | |
Babur et al. | Towards Distributed Model Analytics with Apache Spark. | |
Garrido et al. | A distant supervised learning system for the TAC-KBP Slot Filling and Temporal Slot Filling Tasks. | |
Tang et al. | Parallel computing for large-scale author name disambiguation in MEDLINE | |
CN113268616B (zh) | 参考文献内容提取方法和装置 | |
WO2018100700A1 (ja) | データ変換装置とデータ変換方法 | |
Chien et al. | Semantic tagging of mathematical expressions | |
Ajeissh et al. | An adaptive distributed approach of a self organizing map model for document clustering using ring topology | |
Alsharman et al. | High-Performance Computing of Building The Dependency Trees and Calculating Tree Edit Distances For Text Similarity. | |
Senbel | Fast and Memory-Efficient TFIDF Calculation for Text Analysis of Large Datasets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231117 Address after: Room 529, Zone C, Building 10, No. 199 Changjian Road, Baoshan District, Shanghai, 2009 Patentee after: Shanghai Meicui High tech Development Co.,Ltd. Address before: 201306 1550 Harbour Road, Lingang New Town, Pudong New Area, Shanghai Patentee before: Shanghai Maritime University |