CN111353297B

CN111353297B - 基于领域话题交互密度的生物医学文献主题抽取方法

Info

Publication number: CN111353297B
Application number: CN202010132576.9A
Authority: CN
Inventors: 林绍福; 盛莹; 高江帆; 徐哲; 陈建辉
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-02-29
Filing date: 2020-02-29
Publication date: 2023-12-29
Anticipated expiration: 2040-02-29
Also published as: CN111353297A

Abstract

基于领域话题交互密度的生物医学文献主题抽取方法属于生物医学文本挖掘技术领域，对于领域知识库的自动构建与持续更新、文献精准推荐以及促进生物医学相关领域的发展等具有重要的意义。提出基于领域话题交互密度进行文献主题抽取方法，根据领域术语词典和初始语料集建立领域话题队列，不断发现新话题补充领域词典，进而构建话题交互队列，基于正性话题交互队列进行话题交互密度聚类，选择高密度区域划分为簇，得到话题聚集区，再对聚集区内的话题多样性和交互性进行度量，根据主题活跃度生成高质量的文献主题。最后通过语料集中抽取文献主题的准确率统计图观察主题抽取方法的准确性和可靠性。该方法可以有效提高文献主题抽取算法的性能。

Description

基于领域话题交互密度的生物医学文献主题抽取方法

技术领域

本发明是基于开放生物医学文献，使用基于领域词典和话题交互密度的方法寻找代表性和信息性的话题及话题交互性来确定理解性良好的文献主题，可以提高文本挖掘领域中文献主题抽取的可靠性。

背景技术

近年来，生物医学文献的数量正在以前所未有的速度爆炸式增长，以MEDLINE为例，在2016年，MEDLINE就新收录869,000篇，并且直到目前，它仍保持着每天超过2000篇的收录速度在高速增长。目前，文献是获取相关领域知识的主要来源之一，通过文本挖掘技术在海量的生物医学文献中获取知识是当前的研究热点之一。以功能神经影像文献为例，该领域的知名平台Neurosynth(https://www.neurosynth.org/)自动综合大量神经影像文献的研究结果，目前，该平台已使用自动解析器从已发布的14，371篇神经影像文章中提取激活坐标，并为每个文章生成研究中高频出现的术语列表以供进行交互式的动态元分析，生成可用于超过150000个大脑位置的功能连通性和共激活图，构建认知功能与神经状态之间的概率映射。

众所周知，通过文本挖掘技术从生物医学文献中抽取文献具有代表性的主题对于领域知识库的自动构建、推动知识网络的建立和相关领域的发展具有重要的意义。因此，构建性能良好的主题抽取方法是十分重要的。

发明内容

为了解决现有的主题抽取方法仅针对文献的摘要采用基于模式的方法进行识别，且性能不一定良好的问题。本发明提出了一种基于领域话题交互密度的主题抽取方法，最后我们使用识别主题的准确率统计图来验证通过该方法进行主题抽取的有效性。结果显示，该方法可以有效的提升针对文献全文抽取文献主题的准确性，且性能更加稳定可靠。

附图说明

图1是主题抽取准确率统计图。

具体实施方式

本发明采用的技术方案具体如下：

(1)确定领域术语词典

根据生物医学领域的相关特性，学习领域的研究焦点以及在基于任务的研究中与任务相关的信息和实验分析信息，抽象出领域最具代表性的术语类别，从维基百科、Healthon the Net等广泛使用的网站确定术语概念，建立对应类别的领域术语词典。

(2)构建原始语料集

基于开放科技文献抓取工具，在生物医学开放科技文献库PLoS One期刊上基于关键字搜索近5年发表的生物医学文献，爬取文献的全文来构造原始语料集。

(3)领域话题识别

在领域术语词典的驱动下遍历原始语料集，如果语料集中的词语与术语词典中的术语匹配，则将识别的术语加入领域话题队列，直至整个初始语料集遍历完成，生成完整的领域话题队列Q_topic。

(4)领域话题补全领域词典

基于领域话题队列，对照领域术语词典，对领域话题队列中的话题元素进行分析，对于识别错误的话题元素进行验证，如果该术语term属于词典中对应判定类别i但不被词典Dictionary_i包含，则被认定为是假正性话题，其中U_i代表类别i的所有术语：

即发现的新话题，将新话题补充到词典Dictionary_i中，不断对领域词典进行动态更新和补充。

(5)话题交互状态识别

基于领域话题队列和原始语料集进行匹配，当语料集中的一个语料同时包含话题队列中两个不同的元素，则认为这两个话题存在交互性，将两个不同的话题元素和句子组成一个新的话题交互元素入队，据此构造话题交互队列。采用最短路径的方法对话题交互队列中的每个元素进行判定，当两个话题之间的距离小于最短路径时则认为是正性话题交互元素。遍历完整个话题交互队列，生成正性话题交互子队列Q_posinter，则

(6)领域话题交互密度的识别

基于正性话题交互子队列，采用话题交互密度聚类的方法，根据每篇文献话题的动态分布进行交互聚类，确定文献主题聚集区，基于主题活跃度最终确定文献具有代表性和信息性的主题。

所述步骤(6)的具体过程为：

步骤1：确定领域话题交互密度聚类的参数

领域话题交互密度聚类算法的显著优点是聚类速度快且能够有效的处理噪声点和发现任意形状的空间聚类，本方法根据文献中话题交互的分布动态分配聚类需要的参数。共需要两个参数：话题交互半径topicEps和话题交互密度阈值topicMinPts。

topicEps参数的确定：遍历正性话题交互队列中的所有元素，将每个话题交互对按照所属的交互类别进行归一化，得到话题之间的交互距离(topicDist)，取所有话题交互对距离的平均值为topicEps。

topicMinPts参数的确定：遍历正性话题交互队列中的所有元素，对于每一个话题交互对中的话题元素，求与其他所有话题交互距离大于交互半径的个数，再取所有个数的平均值作为topicMinPts。

步骤2：话题交互聚类

根据动态确定的topicEps和topicMinPts进行聚类，判断话题核心、话题边界和噪声话题。进一步删除噪声话题，分配边界话题，将多个核心话题合并，最后找到话题密度相连区域，形成最终的聚类结果，得到主题聚集区。

步骤3：确定主题活跃度

基于动态设置的参数进行话题交互密度聚类，通过对聚类后每个主题聚集簇中的话题多样性和话题交互性进行度量，得到文献主题活跃度最高的簇，进而输出高质量的主题。其中，C为聚类后所有的主题聚集簇。

主题抽取准确率统计图：以PLoS One期刊提供的文献主题词为评测标准，当抽取主题词与评测标准中词语完全一致时为匹配，分别计算了每篇文献中与评测标准匹配词语个数为1-2个或匹配词语个数大于等于3个的主题抽取准确率，如图1所示，通过本方法，文献主题抽取的准确率达到了较高的水平。

Claims

1.基于领域话题交互密度的生物医学文献主题抽取方法，其特征在于，所述方法包括如下步骤：

(1)爬取开放存取的生物医学文献全文作为初始语料集；

(2)根据生物医学领域的相关特性，学习领域的研究焦点以及在基于任务的研究中与任务相关的信息和实验分析信息，抽象出领域最具代表性的术语类别，建立对应类别的术语词典集合Dictionary；

(3)领域话题识别：基于初始语料集和领域术语词典，采用基于规则的方法，如果语料集中的词语word与词典相应类别Dictionary_i中的术语匹配，即：

word∈Dictionary_i

则认为识别该类别的术语，将识别的术语加入领域话题队列，直至整个初始语料集遍历完成，生成完整的领域话题队列Q_topic；通过对照领域术语词典，如果术语term属于词典中对应判定类别但不被词典包含：

其中U_i代表类别i的所有术语，则被认定为是假正性话题，即发现的新话题，将新话题补充到词典中，不断对领域词典进行动态更新和补充；

(4)领域话题交互状态识别：当语料集中的一个语料corpus同时包含话题队列中两个不同的话题元素topic_i和topic_j，即{corpus|topic_i∈corpus∧topic_j∈corpus}，则认为这两个话题存在交互性，将两个不同的话题元素和句子组成一个新的话题交互元素入队，据此构造话题交互队列Q_inter；采用最短路径的方法对话题交互队列中的每个话题交互元素进行判定，当两个话题与之间的距离小于最短路径min_dist，则认为是正性话题交互元素，即：

|topic_i-topic_j|<min_dist

遍历完整个话题交互队列，生成正性话题交互子队列Q_posinter，则

(5)文献主题的确定：以正性话题交互子队列为基础进行领域话题交互密度的识别，采用话题交互密度聚类的方法，根据每篇文献话题的分布动态确定聚类参数进行聚类，基于交互聚类生成的簇确定文献主题聚集区，根据主题活跃度最终确定文献的主题；

所述步骤(5)中确定文献主题包括如下步骤：

(1)话题交互密度聚类中参数的确定；

a)话题交互半径topicEps参数的确定：遍历正性话题交互队列中的所有话题元素，将每个话题交互对按照所属的交互类别进行归一化，得到话题之间的交互距离topicDist，取所有话题交互对距离的平均值为话题交互半径；

b)话题交互密度阈值opicMinPts参数的确定：遍历正性话题交互队列中的所有话题元素，对于每一个话题交互对中的话题元素，求与其他所有话题交互距离大于交互半径的个数，再取所有个数的平均值作为话题交互密度阈值；

(2)基于确定的话题交互半径和话题交互密度阈值参数，进行交互密度聚类，找到话题密度相连区域，得到一个或多个不同的交互聚集区；

(3)确定文献主题：对话题交互密度聚类后每个交互聚集区中的话题多样性和话题交互性进行度量，统计话题类别数量numTopic和话题交互数量numTopicInteraction，话题类别和话题交互数量多的主题聚集簇具有较高的主题活跃度，主题活跃度最高的主题聚集簇中的话题为文献最终确定的主题。