CN111353297B - 基于领域话题交互密度的生物医学文献主题抽取方法 - Google Patents

基于领域话题交互密度的生物医学文献主题抽取方法 Download PDF

Info

Publication number
CN111353297B
CN111353297B CN202010132576.9A CN202010132576A CN111353297B CN 111353297 B CN111353297 B CN 111353297B CN 202010132576 A CN202010132576 A CN 202010132576A CN 111353297 B CN111353297 B CN 111353297B
Authority
CN
China
Prior art keywords
topic
interaction
queue
topics
literature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010132576.9A
Other languages
English (en)
Other versions
CN111353297A (zh
Inventor
林绍福
盛莹
高江帆
徐哲
陈建辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202010132576.9A priority Critical patent/CN111353297B/zh
Publication of CN111353297A publication Critical patent/CN111353297A/zh
Application granted granted Critical
Publication of CN111353297B publication Critical patent/CN111353297B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于领域话题交互密度的生物医学文献主题抽取方法属于生物医学文本挖掘技术领域,对于领域知识库的自动构建与持续更新、文献精准推荐以及促进生物医学相关领域的发展等具有重要的意义。提出基于领域话题交互密度进行文献主题抽取方法,根据领域术语词典和初始语料集建立领域话题队列,不断发现新话题补充领域词典,进而构建话题交互队列,基于正性话题交互队列进行话题交互密度聚类,选择高密度区域划分为簇,得到话题聚集区,再对聚集区内的话题多样性和交互性进行度量,根据主题活跃度生成高质量的文献主题。最后通过语料集中抽取文献主题的准确率统计图观察主题抽取方法的准确性和可靠性。该方法可以有效提高文献主题抽取算法的性能。

Description

基于领域话题交互密度的生物医学文献主题抽取方法
技术领域
本发明是基于开放生物医学文献,使用基于领域词典和话题交互密度的方法寻找代表性和信息性的话题及话题交互性来确定理解性良好的文献主题,可以提高文本挖掘领域中文献主题抽取的可靠性。
背景技术
近年来,生物医学文献的数量正在以前所未有的速度爆炸式增长,以MEDLINE为例,在2016年,MEDLINE就新收录869,000篇,并且直到目前,它仍保持着每天超过2000篇的收录速度在高速增长。目前,文献是获取相关领域知识的主要来源之一,通过文本挖掘技术在海量的生物医学文献中获取知识是当前的研究热点之一。以功能神经影像文献为例,该领域的知名平台Neurosynth(https://www.neurosynth.org/)自动综合大量神经影像文献的研究结果,目前,该平台已使用自动解析器从已发布的14,371篇神经影像文章中提取激活坐标,并为每个文章生成研究中高频出现的术语列表以供进行交互式的动态元分析,生成可用于超过150000个大脑位置的功能连通性和共激活图,构建认知功能与神经状态之间的概率映射。
众所周知,通过文本挖掘技术从生物医学文献中抽取文献具有代表性的主题对于领域知识库的自动构建、推动知识网络的建立和相关领域的发展具有重要的意义。因此,构建性能良好的主题抽取方法是十分重要的。
发明内容
为了解决现有的主题抽取方法仅针对文献的摘要采用基于模式的方法进行识别,且性能不一定良好的问题。本发明提出了一种基于领域话题交互密度的主题抽取方法,最后我们使用识别主题的准确率统计图来验证通过该方法进行主题抽取的有效性。结果显示,该方法可以有效的提升针对文献全文抽取文献主题的准确性,且性能更加稳定可靠。
附图说明
图1是主题抽取准确率统计图。
具体实施方式
本发明采用的技术方案具体如下:
(1)确定领域术语词典
根据生物医学领域的相关特性,学习领域的研究焦点以及在基于任务的研究中与任务相关的信息和实验分析信息,抽象出领域最具代表性的术语类别,从维基百科、Healthon the Net等广泛使用的网站确定术语概念,建立对应类别的领域术语词典。
(2)构建原始语料集
基于开放科技文献抓取工具,在生物医学开放科技文献库PLoS One期刊上基于关键字搜索近5年发表的生物医学文献,爬取文献的全文来构造原始语料集。
(3)领域话题识别
在领域术语词典的驱动下遍历原始语料集,如果语料集中的词语与术语词典中的术语匹配,则将识别的术语加入领域话题队列,直至整个初始语料集遍历完成,生成完整的领域话题队列Qtopic
(4)领域话题补全领域词典
基于领域话题队列,对照领域术语词典,对领域话题队列中的话题元素进行分析,对于识别错误的话题元素进行验证,如果该术语term属于词典中对应判定类别i但不被词典Dictionaryi包含,则被认定为是假正性话题,其中Ui代表类别i的所有术语:
即发现的新话题,将新话题补充到词典Dictionaryi中,不断对领域词典进行动态更新和补充。
(5)话题交互状态识别
基于领域话题队列和原始语料集进行匹配,当语料集中的一个语料同时包含话题队列中两个不同的元素,则认为这两个话题存在交互性,将两个不同的话题元素和句子组成一个新的话题交互元素入队,据此构造话题交互队列。采用最短路径的方法对话题交互队列中的每个元素进行判定,当两个话题之间的距离小于最短路径时则认为是正性话题交互元素。遍历完整个话题交互队列,生成正性话题交互子队列Qposinter,则
(6)领域话题交互密度的识别
基于正性话题交互子队列,采用话题交互密度聚类的方法,根据每篇文献话题的动态分布进行交互聚类,确定文献主题聚集区,基于主题活跃度最终确定文献具有代表性和信息性的主题。
所述步骤(6)的具体过程为:
步骤1:确定领域话题交互密度聚类的参数
领域话题交互密度聚类算法的显著优点是聚类速度快且能够有效的处理噪声点和发现任意形状的空间聚类,本方法根据文献中话题交互的分布动态分配聚类需要的参数。共需要两个参数:话题交互半径topicEps和话题交互密度阈值topicMinPts。
topicEps参数的确定:遍历正性话题交互队列中的所有元素,将每个话题交互对按照所属的交互类别进行归一化,得到话题之间的交互距离(topicDist),取所有话题交互对距离的平均值为topicEps。
topicMinPts参数的确定:遍历正性话题交互队列中的所有元素,对于每一个话题交互对中的话题元素,求与其他所有话题交互距离大于交互半径的个数,再取所有个数的平均值作为topicMinPts。
步骤2:话题交互聚类
根据动态确定的topicEps和topicMinPts进行聚类,判断话题核心、话题边界和噪声话题。进一步删除噪声话题,分配边界话题,将多个核心话题合并,最后找到话题密度相连区域,形成最终的聚类结果,得到主题聚集区。
步骤3:确定主题活跃度
基于动态设置的参数进行话题交互密度聚类,通过对聚类后每个主题聚集簇中的话题多样性和话题交互性进行度量,得到文献主题活跃度最高的簇,进而输出高质量的主题。其中,C为聚类后所有的主题聚集簇。
主题抽取准确率统计图:以PLoS One期刊提供的文献主题词为评测标准,当抽取主题词与评测标准中词语完全一致时为匹配,分别计算了每篇文献中与评测标准匹配词语个数为1-2个或匹配词语个数大于等于3个的主题抽取准确率,如图1所示,通过本方法,文献主题抽取的准确率达到了较高的水平。

Claims (1)

1.基于领域话题交互密度的生物医学文献主题抽取方法,其特征在于,所述方法包括如下步骤:
(1)爬取开放存取的生物医学文献全文作为初始语料集;
(2)根据生物医学领域的相关特性,学习领域的研究焦点以及在基于任务的研究中与任务相关的信息和实验分析信息,抽象出领域最具代表性的术语类别,建立对应类别的术语词典集合Dictionary;
(3)领域话题识别:基于初始语料集和领域术语词典,采用基于规则的方法,如果语料集中的词语word与词典相应类别Dictionaryi中的术语匹配,即:
word∈Dictionaryi
则认为识别该类别的术语,将识别的术语加入领域话题队列,直至整个初始语料集遍历完成,生成完整的领域话题队列Qtopic;通过对照领域术语词典,如果术语term属于词典中对应判定类别但不被词典包含:
其中Ui代表类别i的所有术语,则被认定为是假正性话题,即发现的新话题,将新话题补充到词典中,不断对领域词典进行动态更新和补充;
(4)领域话题交互状态识别:当语料集中的一个语料corpus同时包含话题队列中两个不同的话题元素topici和topicj,即{corpus|topici∈corpus∧topicj∈corpus},则认为这两个话题存在交互性,将两个不同的话题元素和句子组成一个新的话题交互元素入队,据此构造话题交互队列Qinter;采用最短路径的方法对话题交互队列中的每个话题交互元素进行判定,当两个话题与之间的距离小于最短路径min_dist,则认为是正性话题交互元素,即:
|topici-topicj|<min_dist
遍历完整个话题交互队列,生成正性话题交互子队列Qposinter,则
(5)文献主题的确定:以正性话题交互子队列为基础进行领域话题交互密度的识别,采用话题交互密度聚类的方法,根据每篇文献话题的分布动态确定聚类参数进行聚类,基于交互聚类生成的簇确定文献主题聚集区,根据主题活跃度最终确定文献的主题;
所述步骤(5)中确定文献主题包括如下步骤:
(1)话题交互密度聚类中参数的确定;
a)话题交互半径topicEps参数的确定:遍历正性话题交互队列中的所有话题元素,将每个话题交互对按照所属的交互类别进行归一化,得到话题之间的交互距离topicDist,取所有话题交互对距离的平均值为话题交互半径;
b)话题交互密度阈值opicMinPts参数的确定:遍历正性话题交互队列中的所有话题元素,对于每一个话题交互对中的话题元素,求与其他所有话题交互距离大于交互半径的个数,再取所有个数的平均值作为话题交互密度阈值;
(2)基于确定的话题交互半径和话题交互密度阈值参数,进行交互密度聚类,找到话题密度相连区域,得到一个或多个不同的交互聚集区;
(3)确定文献主题:对话题交互密度聚类后每个交互聚集区中的话题多样性和话题交互性进行度量,统计话题类别数量numTopic和话题交互数量numTopicInteraction,话题类别和话题交互数量多的主题聚集簇具有较高的主题活跃度,主题活跃度最高的主题聚集簇中的话题为文献最终确定的主题。
CN202010132576.9A 2020-02-29 2020-02-29 基于领域话题交互密度的生物医学文献主题抽取方法 Active CN111353297B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010132576.9A CN111353297B (zh) 2020-02-29 2020-02-29 基于领域话题交互密度的生物医学文献主题抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010132576.9A CN111353297B (zh) 2020-02-29 2020-02-29 基于领域话题交互密度的生物医学文献主题抽取方法

Publications (2)

Publication Number Publication Date
CN111353297A CN111353297A (zh) 2020-06-30
CN111353297B true CN111353297B (zh) 2023-12-29

Family

ID=71197386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010132576.9A Active CN111353297B (zh) 2020-02-29 2020-02-29 基于领域话题交互密度的生物医学文献主题抽取方法

Country Status (1)

Country Link
CN (1) CN111353297B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004341948A (ja) * 2003-05-16 2004-12-02 Ricoh Co Ltd 概念抽出システム、概念抽出方法、プログラム及び記憶媒体
CN102971762A (zh) * 2010-07-01 2013-03-13 费斯布克公司 促进社交网络用户之间的交互
CN107342932A (zh) * 2017-05-23 2017-11-10 华为技术有限公司 一种信息交互方法及终端

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004341948A (ja) * 2003-05-16 2004-12-02 Ricoh Co Ltd 概念抽出システム、概念抽出方法、プログラム及び記憶媒体
CN102971762A (zh) * 2010-07-01 2013-03-13 费斯布克公司 促进社交网络用户之间的交互
CN107342932A (zh) * 2017-05-23 2017-11-10 华为技术有限公司 一种信息交互方法及终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于SNA和DMR方法的高血压主题探测与演化趋势比较研究;周利琴;徐健;巴志超;张斌;;图书情报工作(第13期);全文 *
基于概率生成模型的微博话题传播群体划分方法;陈静;刘琰;王煦中;;计算机科学(第08期);全文 *

Also Published As

Publication number Publication date
CN111353297A (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
US10860654B2 (en) System and method for generating an answer based on clustering and sentence similarity
Volkova et al. Inferring user political preferences from streaming communications
Xing et al. Extracting interpretable features for early classification on time series
US10831762B2 (en) Extracting and denoising concept mentions using distributed representations of concepts
Tsai et al. Concept-based analysis of scientific literature
CN108280206B (zh) 一种基于语义增强的短文本分类方法
WO2017167067A1 (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
CN113962293B (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
CN108304479B (zh) 一种基于图结构过滤的快速密度聚类双层网络推荐方法
Díaz-Morales Cross-device tracking: Matching devices and cookies
CN110097096B (zh) 一种基于tf-idf矩阵和胶囊网络的文本分类方法
CN106776672A (zh) 技术发展脉络图确定方法
Liu et al. Learning to predict population-level label distributions
CN111553186A (zh) 一种基于深度长短时记忆网络的电磁信号识别方法
Castillo et al. Text analysis using different graph-based representations
Potha et al. A biology-inspired, data mining framework for extracting patterns in sexual cyberbullying data
CN112559747A (zh) 事件分类处理方法、装置、电子设备和存储介质
CN115713072A (zh) 一种基于提示学习和上下文感知的关系类别推断系统及方法
CN110413997A (zh) 针对电力行业的新词发现方法及其系统、可读存储介质
CN114065749A (zh) 一种面向文本的粤语识别模型及系统的训练、识别方法
CN111353297B (zh) 基于领域话题交互密度的生物医学文献主题抽取方法
CN111125329B (zh) 一种文本信息筛选方法、装置及设备
US20140046884A1 (en) Apparatus, method, and program for extracting content-related posts
JP2015018372A (ja) 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム
Yafooz et al. Enhancing multi-class web video categorization model using machine and deep learning approaches

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant