CN114528393B

CN114528393B - 一种学者研究兴趣标签挖掘与演变分析方法、系统及介质

Info

Publication number: CN114528393B
Application number: CN202210021637.3A
Authority: CN
Inventors: 林伟伟; 许皓钧
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-01-10
Filing date: 2022-01-10
Publication date: 2023-02-14
Anticipated expiration: 2042-01-10
Also published as: CN114528393A

Abstract

本发明公开了一种学者研究兴趣标签挖掘与演变分析方法、系统及介质，涉及文本挖掘与数据挖掘领域。本发明所涉及的主要流程包括：学者学术成果信息的采集与储存；学术成果信息的预处理；学者学术生涯内各时间片上学术研究关键词的挖掘；各时间片上研究关键词共现图的建立；各时间片上研究关键词社区的识别；各时间片上的研究兴趣标签的提取。在此基础之上，可以根据各时间片的学者研究兴趣标签得到学者研究兴趣的演变情况。本发明提出的一种学者研究兴趣标签挖掘与演变分析方法，可以在无先验信息的前提下实现学者研究兴趣标签的智能提取与学者学术生涯之内研究兴趣演变过程的智能分析。

Description

一种学者研究兴趣标签挖掘与演变分析方法、系统及介质

技术领域

本发明涉及文本挖掘与数据挖掘领域，特别涉及一种学者研究兴趣标签挖掘与演变分析方法、系统及介质。

背景技术

在科技强国的大背景下，越来越多的学者纷纷投身于科研工作中。为了找到所需要的学者，有学者智力支持需求的企业需要对学者的研究兴趣进行考量，以找到研究领域最符合需求知识的学者。

学者的研究兴趣往往体现在学者产出的学术成果当中。对学者的学术成果的文本内容进行主题提取，就可以在很大程度上得到的学者的研究兴趣。文本内容的主题提取经历了三个阶段。第一个阶段为基于关键词提取的文本主题描述阶段，典型算法有TF-IDF算法和TextRank算法。第二个阶段为基于图挖掘的文本主题描述阶段，如《一种基于词共现图的文档主题词自动抽取方法》指出可以可针对文本中具有意义的概念构建关系共现图，从而进一步利用主题间的连接特征提取文本内容的主题词。第三个阶段为基于概率主题模型的文本主题描述阶段，该阶段主要代表模型为David M.Blei等人提出的隐狄利克雷分布的潜在语义分析(Latent Dirichlet Allocation，LDA)主题模型。目前，主流的文本主题挖掘方法大多基于LDA模型，或基于David M.Blei等人提出的一种引入时间动态特性的LDA主题模型——动态主题模型。

社区发现是指对社交网络中具有较强联系性的社区群体进行挖掘提取的过程，在社交计算和个体推荐领域具有较大的应用范围。当前，常用的社区发现算法包含《Fastunfolding of communities in large networks》当中提出的Louvain算法、《Near LinearTime Algorithm to Detect Community Structures in Large-Scale Networks》当中提出的标签传播算法和《Maps of random walks on complex networks reveal communitystructure》当中提出的Infomap算法等。利用社区发现算法，可以发现学术网络中的学术团体，利用学术团体当中研究兴趣的相似性这一先验判断提升学者研究兴趣标签的挖掘效果。

在学者的研究兴趣标签挖掘问题上，目前主要的研究工作主要集中在有限研究兴趣标签空间内进行有监督的学者研究兴趣标签识别，如《面向学术文献的学者兴趣标签识别方法》利用同一期刊当中所发表的文章的研究兴趣相似性提升了学者研究兴趣标签识别效果。《面向学术文献的学者兴趣标签识别方法》和《融合主题相似度与合著网络的学者标签扩展方法研究》则分别结合了学术成果主题和学术社交网络对学者的研究兴趣标签进行综合识别，得到了较好的学者研究兴趣标签识别性能。

在科学技术快速发展的当下，学术研究对象正在以前所未有的速度增加。当新研究热点的研究对象不在研究兴趣标签空间当中时，学者研究兴趣标签识别算法所挖掘的学者研究兴趣标签将无法准确给出学者的研究兴趣。无监督的学者研究兴趣标签生成算法不受已有研究兴趣标签限制，可以提取出符合新研究热点的研究兴趣标签。目前，以论文《基于三词共现分析的学者主要研究兴趣识别及个性化外文推荐服务的实现》为代表的无监督学者研究兴趣标签提取工作大多集中于非时变的学者研究兴趣标签提取，忽略了学者研究兴趣随时间变化的时间动态特性。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种学者研究兴趣标签挖掘与演变分析方法、系统及介质，该方法从研究关键词社区发现的视角提取了学者在每个时间片上的多个研究兴趣，以高频共现研究关键词对表示了学者在不同时间片上的研究兴趣标签，展示了学者的研究兴趣演变情况，提升了学者的智能化画像效率。

为了达到上述目的，本发明采用以下技术方案：

本发明一方面公开了一种学者研究兴趣标签挖掘与演变分析方法，包括下述步骤：

收集学者所有的学术成果信息，对学术成果当中的文本信息进行文本预处理，并转化为结构化的学者学术成果信息文档；

挖掘各个时间片上的学者学术研究关键词，利用社区发现方法挖掘表征研究兴趣的研究关键词社区，形成各时间片上的研究兴趣标签；

根据各时间片上所挖掘的研究兴趣标签，以文字描述或可视化图表的方式生成学者的研究兴趣演变情况。

作为优选的技术方案，所述收集学者所有的学术成果信息，对学术成果当中的文本信息进行文本预处理，并转化为结构化的学者学术成果信息文档，具体为：

从学术数据源中收集学者发表的所有学术成果数据，所述学术成果数包括学术成果的标题、摘要、正文与发表时间；

对各学术成果当中的标题、摘要与正文的文本数据进行预处理，所述文本数据进行预处理包括：分词、统一字符的大小写或繁简体表征同一字符的字符形式、订正词语拼写错误与错别字、去除停用词和词干或词形统一，形成各学术成果的文本词序列；

各学术成果以<发表时间，文本词序列>二元组形式进行结构化，形成结构化的学者学术成果文档，并存入数据库中。

作为优选的技术方案，所述挖掘各个时间片上的学者学术研究关键词，利用社区发现方法挖掘表征研究兴趣的研究关键词社区，形成各时间片上的研究兴趣标签，具体为：

连接各时间片上的学术成果<发表时间，文本词序列>二元组记录，形成各时间片上的学者学术成果文档；

使用关键词挖掘模型或算法挖掘各时间片上的研究关键词；

记录各时间片上的共现研究关键词对并记录各共现研究关键词对的出现次数，其中共现研究关键词对是指在一个学术成果文本词集合当中出现的无序的两个研究关键词形成的二元组，共现研究关键词对出现一次是指共现研究关键词对当中的两个研究关键词构成的集合为一个学术成果的文本词序列中的元素构成的集合的子集；

构建各时间片上的研究关键词共现图，其中，共现图的节点为时间片上的研究关键词，共现图的边表征时间片上的共现研究关键词对，共现图的边的权重为各边所代表的共现研究关键词对的出现次数；

利用社区发现算法挖掘各时间片上的研究关键词共现图当中的研究关键词社区，滤除规模较小的研究关键词社区，得到各时间片上的表征学者研究兴趣的研究关键词社区；

提取各时间片上规模最大的研究关键词社区当中具有最大权重的边所连接的两端节点所表示的研究关键词对，形成学者在各时间片上的研究兴趣标签。

作为优选的技术方案，所述使用关键词挖掘模型或算法挖掘各时间片上的研究关键词，具体为：

将学术成果按照发表时间分为不同时间片上的学术成果；

将各时间片上的文本词序列输入现有关键词提取模型提取不同时间片上的研究关键词。

作为优选的技术方案，所述利用社区发现算法挖掘各时间片上的研究关键词共现图当中的研究关键词社区，滤除规模较小的研究关键词社区，得到各时间片上的表征学者研究兴趣的研究关键词社区，具体为：

使用社区发现算法，在各时间片上计算研究关键词的社区；

在使用者规定的社区规模阈值下滤除规模较小的研究关键词社区。

作为优选的技术方案，所述根据各时间片上所挖掘的研究兴趣标签，以文字描述或可视化图表的方式生成学者的研究兴趣演变情况，具体为：

在单一时间片上，选取最大规模研究关键词社区当中具有最大共现次数的共现研究关键词对中的两个词，按照语法规则排序后形成该时间片上的研究兴趣标签；

当需要在一个时间片上需要生成更多研究兴趣标签时，选取最大规模研究关键词社区当中具有更少共现次数的共现研究关键词对中的两个词，按照语法规则排序后形成该时间片上的多个研究兴趣标签；

按照时间顺序列排各时间上的研究兴趣标签，形成学者的研究兴趣演变轨迹，并以图示方式或文字方式描述该演变轨迹。

本发明另一方面提供了一种学者研究兴趣标签挖掘与演变分析系统，应用于所述的一种学者研究兴趣标签挖掘与演变分析方法，包括数据收集模块、数据挖掘模块、演变分析模块；

所述数据收集模块，用于收集学者所有的学术成果信息，对学术成果当中的文本信息进行文本预处理，并转化为结构化的学者学术成果信息文档；

所述数据挖掘模块，用于挖掘各个时间片上的学者学术研究关键词，利用社区发现方法挖掘表征研究兴趣的研究关键词社区，形成各时间片上的研究兴趣标签；

所述演变分析模块，用于根据各时间片上所挖掘的研究兴趣标签，以文字描述或可视化图表的方式生成学者的研究兴趣演变情况。

本发明又一方面提供了一种计算机可读存储介质，存储有程序，所述程序被处理器执行时，实现所述的一种学者研究兴趣标签挖掘与演变分析方法。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明在文本数据预处理过程引入了拼写订正与词干提取步骤，避免了同一词语在不同词态下形成不同研究兴趣标签但对同一个研究对象进行描述的情况。

(2)本发明的研究兴趣标签挖掘过程引入了关键词挖掘步骤，可以配合各类关键词挖掘算法和模型对学者的研究兴趣标签进行挖掘，并可基于各类关键词挖掘算法和模型的改进而进一步提升所挖掘的研究兴趣标签对学者研究兴趣进行描述的准确度。

(3)本发明通过对学者的全部学术成果内容进行挖掘，实现了无监督的学者研究兴趣标签智能提取，避免了新研究热点不在已有研究兴趣标签空间中导致学者的研究兴趣标签无法识别的问题。

(4)本发明通过对学者在不同时间片上的研究兴趣标签进行挖掘，而非使用多个研究兴趣标签对学者的研究兴趣进行笼统描述，实现了考虑时间动态特性下的学者研究兴趣标签挖掘。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例学者研究兴趣标签挖掘与演变分析方法的过程图。

图2为本发明实施例学者研究兴趣标签挖掘与演变分析系统的方框图。

图3为本发明实施例计算机可读存储介质的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本申请所描述的实施例可以与其它实施例相结合。

如图1所示，一种学者研究兴趣标签挖掘与演变分析方法包括学者学术成果数据的收集与处理储存、时间片上的研究兴趣标签挖掘和学者研究兴趣演变情况分析等步骤。具体实施步骤如下：

S1.学者学术成果数据的收集与处理储存，具体方法步骤为：

S1-1.针对需要挖掘研究兴趣标签和研究兴趣演变情况分析的学者，从中国知网、Google Scholar、微软学术知识图谱和清华大学AMiner团队提供的AMiner学术知识图谱等学术数据源中获取学者所发表的论文、所参与的项目和所创造的知识产权等学术成果的标题、摘要、正文和发表时间等数据。

S1-2.提取所收集的各类学者学术成果的发表时间和文本信息，并对各学术成果的所有文本信息进行连接，形成各个学术成果的文本文档。

S1-3.对各学术成果的文本文档实施统一化的文本预处理，包括：将非英语文本翻译为英语、分词、大小写统一化、拼写错误订正、去除停用词和词干提取，形成各学术成果的文本词序列。通过这些手段，可以减拼写错误和英文单词不同时态语态的差异导致的消极影响，因为同一英文单词在不同语态或拼写错误时就会导致处理时计算机将其认为是不同的单词。

进一步的，上述预处理过程中，对标题、摘要与正文的文本数据三部分的预处理方法都是相同的，对于对于论文、专利等学术成果其结构主要包含这三种基本组成部分。

S1-4.连接各学术成果的发表时间和文本词集合，形成结构化的<发表时间，文本词序列>二元组结构文档，并以该结构作为字段名，将各学术成果数据存入MySQL数据库中。

S2.各时间片上的学者研究兴趣标签无监督智能挖掘，具体方法步骤为：

S2-1.以一年为时间片单位，将各学术成果记录按照年份划分到不同的年份时间片中，并从MySQL数据库中获取不同年份时间片的学术成果数据。

S2-2.使用设置了多个主题数的LDA模型计算不同时间片上不同主题的主题词构成情况，将各主题的主题词进行并集计算，得到各时间片上的研究关键词。

S2-3.在各时间片上，记录共现研究关键词对并记录各共现研究关键词对的出现次数，其中共现研究关键词对是指在一个学术成果文本词集合当中出现的无序的两个研究关键词形成的二元组，共现研究关键词对出现一次是指共现研究关键词对当中的两个研究关键词构成的集合为一个学术成果的文本词序列中的元素构成的集合的子集。

S2-4.在各时间片上，以研究关键词为节点，以共现研究关键词对为边，以共现研究关键词对的出现次数为边的权重构造共现研究关键词图。

S2-5.在各时间片上，使用GN社区发现算法实现研究关键词图的社区识别与自动划分，形成研究关键词社区，其中每个社区表示了一个学者的研究兴趣。

S2-6.在各时间片上，选取具有最多节点的研究关键词社区作为研究兴趣标签的生成社区，选取该社区当中具有最大共现次数的共现研究关键词对中的两个词，按照语法规则排序后形成该时间片上的研究兴趣标签。

S3.对各时间片上的研究关键词社区和研究兴趣标签进行可视化，得到学者学术生涯的研究兴趣，特别是以时间片上研究兴趣标签为代表的主要研究兴趣的演变情况。

进一步的，步骤S3具体为：

S31.在单一时间片上，选取最大规模研究关键词社区当中具有最大共现次数的共现研究关键词对中的两个词，按照语法规则排序后形成该时间片上的研究兴趣标签；

S32.当需要在一个时间片上需要生成更多研究兴趣标签时，可以选取最大规模研究关键词社区当中具有更少共现次数的共现研究关键词对中的两个词，按照语法规则排序后形成该时间片上的多个研究兴趣标签；

S33.按照时间顺序列排各时间上的研究兴趣标签，形成学者的研究兴趣演变轨迹，并以图示方式或文字方式描述该演变轨迹。

需要说明的是，对于前述的各方法实施例，为了简便描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。

基于与上述实施例中的一种学者研究兴趣标签挖掘与演变分析方法相同的思想，本发明还提供一种学者研究兴趣标签挖掘与演变分析系统，该系统可用于执行上述一种学者研究兴趣标签挖掘与演变分析方法。为了便于说明，一种学者研究兴趣标签挖掘与演变分析系统实施例的结构示意图中，仅仅示出了与本发明实施例相关的部分，本领域技术人员可以理解，图示结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图2所示，在本申请的另一个实施例中，提供了一种学者研究兴趣标签挖掘与演变分析系统100，该系统包括数据收集模块101、数据挖掘模块102、演变分析模块103；

所述数据收集模块101，用于收集学者所有的学术成果信息，对学术成果当中的文本信息进行文本预处理，并转化为结构化的学者学术成果信息文档；

所述数据挖掘模块102，用于挖掘各个时间片上的学者学术研究关键词，利用社区发现方法挖掘表征研究兴趣的研究关键词社区，形成各时间片上的研究兴趣标签；

所述演变分析模块103，用于根据各时间片上所挖掘的研究兴趣标签，以文字描述或可视化图表的方式生成学者的研究兴趣演变情况。

需要说明的是，本发明的一种学者研究兴趣标签挖掘与演变分析系统与本发明的一种学者研究兴趣标签挖掘与演变分析方法一一对应，在上述一种学者研究兴趣标签挖掘与演变分析方法的实施例阐述的技术特征及其有益效果均适用于一种学者研究兴趣标签挖掘与演变分析系统的实施例中，具体内容可参见本发明方法实施例中的叙述，此处不再赘述，特此声明。

此外，上述实施例的一种学者研究兴趣标签挖掘与演变分析系统的实施方式中，各程序模块的逻辑划分仅是举例说明，实际应用中可以根据需要，例如出于相应硬件的配置要求或者软件的实现的便利考虑，将上述功能分配由不同的程序模块完成，即将所述一种学者研究兴趣标签挖掘与演变分析系统的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分功能。

如图3所示，在一个实施例中，提供了一种计算机可读存储介质200，存储有程序于存储器201中，所述程序被处理器202执行时，实现所述的一种学者研究兴趣标签挖掘与演变分析方法，具体为：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种学者研究兴趣标签挖掘与演变分析方法，其特征在于，包括下述步骤：

挖掘各个时间片上的学者学术研究关键词，利用社区发现方法挖掘表征研究兴趣的研究关键词社区，形成各时间片上的研究兴趣标签，具体为：

使用关键词挖掘模型或算法挖掘各时间片上的研究关键词；

提取各时间片上规模最大的研究关键词社区当中具有最大权重的边所连接的两端节点所表示的研究关键词对，形成学者在各时间片上的研究兴趣标签

根据各时间片上所挖掘的研究兴趣标签，以文字描述或可视化图表的方式生成学者的研究兴趣演变情况，具体为：

2.根据权利要求1所述一种学者研究兴趣标签挖掘与演变分析方法，其特征在于，所述收集学者所有的学术成果信息，对学术成果当中的文本信息进行文本预处理，并转化为结构化的学者学术成果信息文档，具体为：

3.根据权利要求1所述一种学者研究兴趣标签挖掘与演变分析方法，其特征在于，所述使用关键词挖掘模型或算法挖掘各时间片上的研究关键词，具体为：

将学术成果按照发表时间分为不同时间片上的学术成果；

4.根据权利要求1所述一种学者研究兴趣标签挖掘与演变分析方法，其特征在于，所述利用社区发现算法挖掘各时间片上的研究关键词共现图当中的研究关键词社区，滤除规模较小的研究关键词社区，得到各时间片上的表征学者研究兴趣的研究关键词社区，具体为：

使用社区发现算法，在各时间片上计算研究关键词的社区；

5.一种学者研究兴趣标签挖掘与演变分析系统，其特征在于，应用于权利要求1-4中任一项所述的一种学者研究兴趣标签挖掘与演变分析方法，包括数据收集模块、数据挖掘模块、演变分析模块；

6.一种计算机可读存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-4任一项所述的一种学者研究兴趣标签挖掘与演变分析方法。