CN109741791A

CN109741791A - 一种面向PubMed论文库的作者学科方向数据挖掘方法及系统

Info

Publication number: CN109741791A
Application number: CN201811638977.0A
Authority: CN
Inventors: 蒋艳凰; 赵强利; 宋卓; 李�根; 张少伟; 余硕军; 马丑贤; 杨耀; 冯博伦
Original assignee: Human And Future Biotechnology (changsha) Co Ltd
Current assignee: Human And Future Biotechnology (changsha) Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-05-10
Anticipated expiration: 2038-12-29
Also published as: CN109741791B

Abstract

本发明公开了一种面向PubMed论文库的作者学科方向数据挖掘方法及系统，本发明实施例步骤包括初始化学科描述数组RD、作者学科计数数组AC，确定PubMed论文库中收录的目标作者的论文集合，针对目标作者的论文集合中的每一篇论文进行遍历，且每遍历一篇论文，则获取该论文的所有关键词的MESH号以及MESH树形编码，并根据MESH树形编码统计每个学科的词项计数后更新目标作者的作者学科计数数组AC，根据目标作者的作者学科计数数组AC确定目标作者的学科方向并输出；系统包括前述方法对应的系统。本发明利用PubMed论文库提供的关键词的MESH编号，能够实现作者学科方向数据挖掘，且具有运行性能高、获得研究学科方向准确的特点。

Description

一种面向PubMed论文库的作者学科方向数据挖掘方法及系统

技术领域

本发明涉及生物医学领域的论文数据挖掘技术，具体涉及一种面向PubMed论文库的作者学科方向数据挖掘方法及系统。

背景技术

在生物医学领域，获取作者的学科方向是文本挖掘任务的一个重要内容。PubMed论文库作为生物医学领域文本挖掘的重要数据来源，论文的具体内容是获取作者研究领域的重要依据。因此在对论文进行文本挖掘的过程中，为了获取某个作者的学科方向，需要对该作者发表的所有论文所属的学科方向进行综合分析。

PubMed论文库中的论文正文均没有提供论文所属的学科信息，因此通过对论文内容的挖掘获取作者的学科方向十分困难。但是，PubMed论文库是由美国国家生物技术信息中心(NCBI，National Center for Biotechnology Information)维护，该中心组织大量专业人士，对每篇论文内容中的能够体现论文重要信息的关键词进行人工提取，得到论文中的若干词对应在MESH数据库(Medical Subject Headings)中的MESH编号信息。MESH数据库按照树形结构进行组织，所有词项组成16棵树结构，每棵树对应着生物医学领域的一个学科方向，从树根向下对该学科不断地细化分类，因此MESH数据库中的每一个词项，不仅有一个全局唯一的MESH标号，还有一个树形结构编码，每棵树的根结点对应着一个学科，树中的其他非根节点都是对其父节点继续细分。因此，PubMed论文库中关键词的MESH编号信息包含了作者学科方向的线索。但是如何基于PubMed论文库的MESH编号信息，实现面向PubMed论文库的作者学科方向数据挖掘，则仍然是一项亟待解决的关键技术问题。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种面向PubMed论文库的作者学科方向数据挖掘方法及系统，本发明利用PubMed论文库中关键词的MESH编号信息，能够实现作者学科方向数据挖掘，且具有运行性能高、获得研究学科方向准确的特点。

为了解决上述技术问题，本发明采用的技术方案为：

一种面向PubMed论文库的作者学科方向数据挖掘方法，实施步骤包括：

1)根据MESH数据库初始化学科描述数组RD；

2)根据学科描述数组初始化目标作者的作者学科计数数组AC；

3)确定PubMed论文库中收录的目标作者的论文集合；

4)针对目标作者的论文集合中的每一篇论文进行遍历，且每遍历一篇论文，则获取该论文的所有关键词的MESH号以及MESH树形编码，并根据MESH树形编码统计每个学科的词项计数后更新目标作者的作者学科计数数组AC；

5)根据目标作者的作者学科计数数组AC确定目标作者的学科方向并输出。

优选地，步骤1)中初始化学科描述数组时，学科描述数组RD中的元素个数为学科的数目，且根据MESH数据库的学科数量设置学科描述数组的元素个数，每一个元素i包括描述名、缩写两个字段。

优选地，步骤2)中初始化目标作者的学科计数数组时，根据MESH数据库的学科数量设置作者学科计数数组AC中元素个数，且每个元素初始化为0。

优选地，步骤4)的详细步骤包括：

4.1)从目标作者的论文集合中遍历选择一篇论文作为当前论文；针对当前论文，根据MESH数据库的学科数量设置论文学科计数数组RC中元素个数，且每个元素初始化为0；

4.2)获取当前论文所有关键词的MESH号得到集合Φ，集合Φ中的第i个元素α_i表示当前论文第i个关键词的MESH号；

4.3)获取当前论文所有关键词的MESH树形编码；

4.4)根据MESH树形编码统计当前论文在每个学科中的论文学科计数数组RC；

4.5)根据当前论文每个学科的论文学科计数数组RC更新目标作者的作者学科计数数组AC；

4.6)判断论文集合是否遍历完毕，如果尚未遍历完毕则跳转执行步骤4.1)，否则跳转执行步骤5)。

优选地，步骤4.3)的详细步骤包括：针对集合Φ中的每一个MESH号分别查找MESH数据库，从而获得这些MESH号对应的树形结构编码，形成树形结构编码集合Θ，所述树形结构编码集合Θ中的第i个元素β_i表示集合Φ中第i个MESH编号α_i对应的树形结构编码，且每个树形结构编码的首字母对应着论文相应MESH词项所属的学科缩写，从而获取当前论文所有关键词的MESH树形编码的树形结构编码集合Θ。

优选地，步骤4.4)的详细步骤包括：分别针对当前论文所有关键词的MESH树形编码的每一个树形结构编码集合Θ中的每一个元素进行遍历，判断该元素的首字母是否和学科描述数组AD中的某一项元素的缩写匹配，如果匹配则将学科描述数组RD中匹配元素在论文学科计数数组RC中对应的元素加1。

优选地，步骤4.5)的详细步骤包括：

4.5.1)根据式(1)求出当前论文MESH词项最多的学科的序号k；

k＝arg_j max_0≤j≤n-1RC[j] (1)

式(1)中，k为当前论文MESH词项最多的学科的序号，n为学科总数量，RC[j]表示当前论文在第j个学科上的拥有的MESH词项的数目，对应学科描述数组RD中的第j个学科，max表示取最大值，式(1)表示将使RC[j]最大时的变量值j赋值给当前论文MESH词项最多的学科的序号。

4.5.2)针对当前论文MESH词项最多的学科的序号k，将该学科对应的作者学科计数AC[k]加1，AC[k]表示作者学科计数数组AC的第k个元素，对应学科描述数组RD中的第k个学科。

优选地，步骤5)的详细步骤包括：

5.1)根据目标作者的作者学科计数数组AC确定目标作者的学科方向序号，且确定目标作者的学科方向序号的函数表达式如式(2)所示；

式(2)中，γ为目标作者的学科领域标识集合，式(2)表示将使AC[j]最大时的变量值j对应的学科作为目标作者的学科方向序号，n为学科总数量；

5.2)针对目标作者的学科方向序号，从学科描述数组RD中取出学科描述名并输出。

本发明还提供一种面向PubMed论文库的作者学科方向数据挖掘系统，包括计算机设备，所述计算机设备被编程以执行本发明前述面向PubMed论文库的作者学科方向数据挖掘方法的步骤，或者所述计算机设备的存储介质上存储有被编程以执行本发明前述面向PubMed论文库的作者学科方向数据挖掘方法的计算机程序。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有被编程以执行本发明前述面向PubMed论文库的作者学科方向数据挖掘方法的计算机程序。

和现有技术相比，本发明具有下述优点：本发明包括初始化学科描述数组RD、作者学科计数数组AC，确定PubMed论文库中收录的目标作者的论文集合，针对目标作者的论文集合中的每一篇论文进行遍历，且每遍历一篇论文，则获取该论文的所有关键词的MESH号以及MESH树形编码，并根据MESH树形编码统计每个学科的词项计数后更新目标作者的作者学科计数数组AC，根据目标作者的作者学科计数数组AC确定目标作者的学科方向并输出，本发明通过利用PubMed论文库提供的关键词的MESH编号信息，能够实现作者学科方向数据挖掘，且具有运行性能高、获得研究学科方向准确的特点。

附图说明

图1为本发明实施例方法的基本流程示意图。

具体实施方式

如图1，本实施例面向PubMed论文库的作者学科方向数据挖掘方法的实施步骤包括：

1)根据MESH数据库初始化学科描述数组RD；

2)根据学科描述数组初始化目标作者的作者学科计数数组AC；

3)确定PubMed论文库中收录的目标作者的论文集合；

本实施例中，步骤1)中初始化学科描述数组时，学科描述数组RD中的元素个数为学科的数目，且根据MESH数据库的学科数量设置学科描述数组的元素个数，每一个元素i包括描述名RD[i].name、缩写RD[i].abbre两个字段。本实施例中，学科描述数组RD中的元素个数为学科的数目，MESH数据库中共有16个学科，RD[i].name对应着第i个学科的描述名，RD[i].abbre对应着该学科的缩写；例如：第0个学科对应的取值为RD[0].name＝Anatomy,RD[0].abbre＝A。

本实施例中，步骤2)中初始化目标作者的学科计数数组时，根据MESH数据库的学科数量设置作者学科计数数组AC中元素个数，且每个元素初始化为0。本实施例中，作者学科计数数组AC用于统计目标作者在每个学科领域发表的论文数目。作者学科计数数组AC为具有16个元素的数组，每个元素是一个整数值，分别对应着该作者在MESH数据库中每个学科发表的论文数目。

本实施例中，步骤4)的详细步骤包括：

4.3)获取当前论文所有关键词的MESH树形编码；

本实施例步骤4.1)中论文学科计数数组的初始化时，论文学科计数数组RC为具有16个元素的数组，每个元素是一个整数值，分别对应着MESH数据库中16个学科在该论文所占的MESH词项的数目，该步骤将学科计数数组RC中的元素值均初始化为0。

本实施例中，步骤4.3)的详细步骤包括：针对集合Φ中的每一个MESH号分别查找MESH数据库，从而获得这些MESH号对应的树形结构编码，形成树形结构编码集合Θ，所述树形结构编码集合Θ中的第i个元素β_i表示集合Φ中第i个MESH编号α_i对应的树形结构编码，且每个树形结构编码的首字母对应着论文相应MESH词项所属的学科缩写，从而获取当前论文所有关键词的MESH树形编码的树形结构编码集合Θ。令树形结构编码集合Θ中的第i个元素为β_i，则有β_i＝tree_code(α_i)。函数tree_code(x)表示根据MESH号x搜素MESH数据库，获得该MESH号对应的树形结构编码。

本实施例中，步骤4.4)的详细步骤包括：分别针对当前论文所有关键词的MESH树形编码，对树形结构编码集合Θ中的每一个元素进行遍历，判断该元素的首字母是否和学科描述数组RD中的某一项元素的缩写匹配，如果匹配则将学科描述数组RD中匹配元素在论文学科计数数组RC中对应的元素加1。即：对于树形结构编码集合Θ中的每个元素β_i，如果满足：RD[j].abbre＝first_letter(β_i)，则RC[j]＝RC[j]+1；函数first_letter(x)表示取出该字符串x中的第一个字符。

本实施例中，步骤4.5)的详细步骤包括：

4.5.1)根据式(1)求出当前论文MESH词项最多的学科的序号k；

k＝arg_j max_0≤j≤n-1RC[j] (1)

式(1)中，k为当前论文MESH关键词项最多的学科的序号，n为学科总数量，RC[j]表示论文学科计数数组RC的第j个元素，对应学科描述数组RD中的第j个学科，max表示取最大值，式(1)表示将使RC[j]最大时的变量值j赋值给当前论文MESH词项最多的学科的序号。

4.5.2)针对当前论文MESH词项最多的学科的序号k，将该学科对应的作者学科计数AC[k]加1(即：AC[k]＝AC[k]+1)，AC[k]表示作者学科计数数组AC的第k个元素，对应学科描述数组RD中的第k个学科。

本实施例中，步骤5)的详细步骤包括：

式(2)中，γ为目标作者的学科领域标识集合，式(2)表示将使AC[j]最大时的变量值j对应的学科作为目标作者的学科方向序号，n为学科总数量；如果作者学科计数数组AC中有多个学科领域都取最大值，则γ有多个值，表示该作者的研究为交叉学科；

5.2)针对目标作者的学科方向序号，从学科描述数组RD中取出学科描述名并输出，可表示为：Research_area＝{RD[j].name|j∈γ}，其中Research_area为输出的学科描述名，RD[j]为学科描述数组RD中的第j个元素，RD[j].name为第j个学科的描述名，γ为目标作者的学科领域的集合。

本实施例还提供一种面向PubMed论文库的作者学科方向数据挖掘系统，包括计算机设备，该计算机设备被编程以执行本实施例前述面向PubMed论文库的作者学科方向数据挖掘方法的步骤，本实施例还提供一种面向PubMed论文库的作者学科方向数据挖掘系统，包括计算机设备，该所述计算机设备的存储介质上存储有被编程以执行本实施例前述面向PubMed论文库的作者学科方向数据挖掘方法的计算机程序。本实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程以执行本实施例前述面向PubMed论文库的作者学科方向数据挖掘方法的计算机程序。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种面向PubMed论文库的作者学科方向数据挖掘方法，其特征在于实施步骤包括：

1)根据MESH数据库初始化学科描述数组RD；

2)根据学科描述数组初始化目标作者的作者学科计数数组AC；

3)确定PubMed论文库中收录的目标作者的论文集合；

2.根据权利要求1所述的面向PubMed论文库的作者学科方向数据挖掘方法，其特征在于，步骤1)中初始化学科描述数组时，学科描述数组RD中的元素个数为学科的数目，且根据MESH数据库的学科数量设置学科描述数组的元素个数，每一个元素i包括描述名、缩写两个字段。

3.根据权利要求1所述的面向PubMed论文库的作者学科方向数据挖掘方法，其特征在于，步骤2)中初始化目标作者的学科计数数组时，根据MESH数据库的学科数量设置作者学科计数数组AC中元素个数，且每个元素初始化为0。

4.根据权利要求1所述的面向PubMed论文库的作者学科方向数据挖掘方法，其特征在于，步骤4)的详细步骤包括：

4.3)获取当前论文所有关键词的MESH树形编码；

5.根据权利要求4所述的面向PubMed论文库的作者学科方向数据挖掘方法，其特征在于，步骤4.3)的详细步骤包括：针对集合Φ中的每一个MESH号分别查找MESH数据库，从而获得这些MESH号对应的树形结构编码，形成树形结构编码集合Θ，所述树形结构编码集合Θ中的第i个元素β_i表示集合Φ中第i个MESH编号α_i对应的树形结构编码，且每个树形结构编码的首字母对应着论文相应MESH词项所属的学科缩写，从而获取当前论文所有关键词的MESH树形编码的树形结构编码集合Θ。

6.根据权利要求5所述的面向PubMed论文库的作者学科方向数据挖掘方法，其特征在于，步骤4.4)的详细步骤包括：分别针对当前论文所有关键词的MESH树形编码的每一个树形结构编码集合Θ中的每一个元素进行遍历，判断该元素的首字母是否和学科描述数组RD中的某一项元素的缩写匹配，如果匹配则将学科描述数组RD中匹配元素在论文学科计数数组RC中对应的元素加1。

7.根据权利要求4所述的面向PubMed论文库的作者学科方向数据挖掘方法，其特征在于，步骤4.5)的详细步骤包括：

4.5.1)根据式(1)求出当前论文MESH词项最多的学科的序号k；

k＝arg_jmax_0≤j≤n-1RC[j] (1)

式(1)中，k为当前论文MESH词项最多的学科的序号，n为学科总数量，RC[j]表示论文学科计数数组RC的第j个元素，对应学科描述数组RD中的第j个学科，max表示取最大值，式(1)表示将使RC[j]最大时的变量值j赋值给当前论文MESH词项最多的学科的序号。

8.根据权利要求4所述的面向PubMed论文库的作者学科方向数据挖掘方法，其特征在于，步骤5)的详细步骤包括：

9.一种面向PubMed论文库的作者学科方向数据挖掘系统，包括计算机设备，其特征在于：所述计算机设备被编程以执行权利要求1～8中任意一项所述面向PubMed论文库的作者学科方向数据挖掘方法的步骤，或者所述计算机设备的存储介质上存储有被编程以执行权利要求1～8中任意一项所述面向PubMed论文库的作者学科方向数据挖掘方法的计算机程序。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质上存储有被编程以执行权利要求1～8中任意一项所述面向PubMed论文库的作者学科方向数据挖掘方法的计算机程序。