CN116561605A - 一种文献完成者研究兴趣图聚类方法、装置、设备及介质 - Google Patents

一种文献完成者研究兴趣图聚类方法、装置、设备及介质 Download PDF

Info

Publication number
CN116561605A
CN116561605A CN202310638200.9A CN202310638200A CN116561605A CN 116561605 A CN116561605 A CN 116561605A CN 202310638200 A CN202310638200 A CN 202310638200A CN 116561605 A CN116561605 A CN 116561605A
Authority
CN
China
Prior art keywords
literature
document
index
completer
research interest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310638200.9A
Other languages
English (en)
Other versions
CN116561605B (zh
Inventor
周朝
林天宇
褚晓泉
段毅成
仇瑜
刘德兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhipu Huazhang Technology Co ltd
Original Assignee
Beijing Zhipu Huazhang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhipu Huazhang Technology Co ltd filed Critical Beijing Zhipu Huazhang Technology Co ltd
Priority to CN202310638200.9A priority Critical patent/CN116561605B/zh
Publication of CN116561605A publication Critical patent/CN116561605A/zh
Application granted granted Critical
Publication of CN116561605B publication Critical patent/CN116561605B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种文献完成者研究兴趣图聚类方法、装置、设备及介质,属于大数据技术领域,解决了现有主题挖掘不精准、学者兴趣描述模糊的问题。本申请技术方案主要包括:获取目标完成者的信息,根据所述信息获取所述目标学者的文献数据集;根据所述文献数据集构建文献网络图,所述文献网络图的包括所述文献数据集中,由各文献之间的文本相似度和文献引用数据融合得到的文献关系指标;对所述文献网络图进行图聚类分析,以获得若干研究兴趣簇;依据各所述研究兴趣簇各自的文献对各所述研究兴趣簇进行主题短语提取,以获得所述目标完成者的研究兴趣画像。

Description

一种文献完成者研究兴趣图聚类方法、装置、设备及介质
技术领域
本申请属于大数据技术领域,具体而言涉及一种文献完成者研究兴趣图聚类方法、装置、设备及介质。
背景技术
近年来,随着科学技术的发展,无论是高校还是科技公司发表学术文献的数量呈现爆炸式增长。科研人员及相关从业者在面对开放互联网和各种论文数据库中大量的科研学者及其科技论文时,无法快速且准确地从海量论文中方便且快捷地定位到所需论文集或者找到具有相同兴趣的从业者。而学者研究热点的标签来自于学者的自我设定,但是大部分学者的研究兴趣没有被定义,如何利用大数据技术挖掘学者的研究兴趣以及自动构建学者画像是亟待解决的问题。
传统研究方法主要分为两种实现思路:一方面是基于统计方法,即通过TF-IDF进行词频统计或者使用TextRank等算法抽取关键词,这种方法未充分利用到引文网络中图结构信息;另一方面是基于有监督的学习方法预测学者兴趣标签,即使用学者主题(AT)模型或者潜在狄利克雷分配(LAD)模型对学者与主题进行建模,它假设文档是由一组主题生成的,将主题表示成单词的特征分布,论文表示为潜在主题的多项概率分布,但是大部分学者并没有为自己设置研究兴趣标签,如果给未分配标签的学者进行人工分配标签不仅会花费大量的人力物力与财力,而且有标签的学者,其研究方向也会因时间发生变化,从而导致标签不精确。而且以上两种思路的本质都是利用了词与词、词与文档之间的关系。
综上,传统方法往往会导致主题挖掘不精准、学者兴趣描述模糊等问题。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种文献完成者研究兴趣图聚类方法、装置、设备及介质,用以解决现有技术中主题挖掘不精准、学者兴趣描述模糊的问题。
本申请第一方面实施例提供一种文献完成者研究兴趣图聚类方法,包括以下步骤:
获取目标完成者的信息,根据所述信息获取所述目标完成者的文献数据集;
根据所述文献数据集构建文献网络图,所述文献网络图的包括所述文献数据集中,由各文献之间的文本相似度和文献引用数据融合得到的文献关系指标;
对所述文献网络图进行图聚类分析,以获得若干研究兴趣簇;
依据各所述研究兴趣簇各自的文献对各所述研究兴趣簇进行主题短语提取,以获得所述目标完成者的研究兴趣画像。
在一些实施例中,所述目标完成者的信息包括常用名、常用邮箱或者所在机构;
所述根据所述信息获取所述目标完成者的文献数据集,包括:
根据所述常用名在文献数据库中进行检索以获得文献集S1;
根据所述常用邮箱或者所述所在机构对所述文献集S1进行筛选以获得所述文献数据集,所述文献数据集包括文献的基本属性,所述基本属性包括文献标题、摘要、发表地、关键词、引文关系以及合作者姓名与所属单位中的一种或多种的组合。
在一些实施例中,所述根据所述文献数据集构建文献网络图包括:
采用OAG-BERT学术语言大模型基于所述基本属性生成各所述文献的特征向量;
根据所述特征向量采用余弦相似度算法构建各所述文献间的相似度指标矩阵,所述相似度指标矩阵表示为:
,其中TS-index表示相似度指标矩阵,/>表示文献i与文献j之间的文本相似度,/>表示文献i的特征向量,/>表示文献j的特征向量;
根据所述引文关系构建各所述文献间的引用指标矩阵,所述引用指标矩阵表示为:
,其中CR-index表示引用指标矩阵,/>表示文献i对文献j的引用指标,/>表示文献i的参考文献总数;
将所述相似度指标矩阵和所述引用指标矩阵融合为文献关系指标矩阵,基于所述文献关系指标矩阵构建所述文献网络图,所述文献网络图表示为:
为所述目标完成者的文献j,,PR-value表示所述文献关系指标矩阵,/>表示文献i与文献j的文献关系指数。
在一些实施例中,所述通过熵权法将所述相似度指标矩阵和所述引用指标矩阵融合为文献关系指标矩阵,包括:
通过熵权法计算相似度指标和引用指标各自的权重;
根据所述权重融合所述相似度指标矩阵和所述引用指标矩阵以生成所述文献关系指标矩阵,计算公式表示为:
,其中PR-value表示所述文献关系指标矩阵,TS-index表示相似度指标矩阵,/>表示相似度指标的权重,CR-index表示引用指标矩阵,/>表示引用指标的权重。
在一些实施例中,所述通过熵权法计算相似度指标和引用指标各自的权重,包括:
根据每一指标中的若干文献数据样本,计算在每一指标下每一所述文献数据样本的比重,所述指标包括相似度指标和引用指标,计算公式表示为:
,其中/>表示第j项指标下第i个文献数据样本所占的比重,/>表示第j项指标下第i个文献数据样本,i/n表示i整除n的结果,i mod n表示i对n取余数;
根据所述比重计算每一所述指标的信息熵,计算公式表示为:
,其中/>表示第j个指标的信息熵,/>
根据所述信息熵计算所述指标的权重,计算公式表示为:
,其中/>表示指标j的权重。
在一些实施例中,所述依据各所述研究兴趣簇各自的文献对各所述研究兴趣簇进行主题短语提取,包括:
基于所述研究兴趣簇中各所述文献的标题、摘要以及关键词,采用Spacy算法和Rank算法提取所述研究兴趣簇的候选主题短语集合,所述候选主题短语集合包括若干候选主题短语;
基于所述候选主题短语集合,统计每一单词的词频和共现度,根据所述词频和所述共现计算单词得分,计算公式表示为:
,其中/>表示单词得分,/>表示单词的词频,/>表示单词的共现度;
依据所述单词得分计算各所述候选主题短语各自的得分,计算公式表示为:,其中/>表示得分,/>表示所述单词得分,words表示所述候选主题短语中的单词集合;
根据所述候选主题短语所属的文献在所述文献网络图中的节点中心度权重对所述得分进行加权处理以获得加权得分,所述加权得分的计算公式表示为:
,其中WS表示加权得分,/>表示得分,DC-degree表示节点中心度权重;
取所述加权得分中靠前的若干所述候选主题短语作为所述研究兴趣簇的所述主题短语。
在一些实施例中,所述图聚类分析包括采用Leiden算法;
所述挖掘方法还包括根据图聚类分析结果对所述文献网络图进行可视化展示,包括:
通过节点表示文献,任意两所述节点之间的连线表示所述文献关系指标,通过所述节点的不同颜色表示所述图聚类分析结果。
本申请第二方面实施例提供的文献完成者研究兴趣图聚类装置,包括:
获取模块,用于获取目标完成者的信息,根据所述信息获取所述目标完成者的文献数据集;
构建模块,根据所述文献数据集构建文献网络图,所述文献网络图的包括所述文献数据集中,由各文献之间的文本相似度和文献引用数据融合得到的文献关系指标;
聚类模块,对所述文献网络图进行图聚类分析,以获得若干研究兴趣簇;
提取模块,依据各所述研究兴趣簇各自的文献对各所述研究兴趣簇进行主题短语提取,以获得所述目标完成者的研究兴趣画像。
本申请第三方面实施例提供一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现如上任一实施例所述的文献完成者研究兴趣图聚类方法。
本申请第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一实施例所述的文献完成者研究兴趣图聚类方法。
有益效果:
本发明实施例通过对文献之间的文本相似度和文献引用数据进行融合形成文献关系指标,并基于此对目标学者的文献数据集进行文献网络图的构建,该关系指标不仅包括基于语义信息和上下文信息的相似度指标,优于传统方法中通过词与词的关系评估方法,而且通过文献引用数据加强后续聚类结果的可靠性。然后通过聚类的方式将目标学者的兴趣方向进行清晰的划分,在各个划分的方向中进行主题词的提取以得到清晰的研究兴趣主题词进行画像描述。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明第一方面实施例提供的文献完成者研究兴趣图聚类方法流程示意图;
图2为本发明第一方面实施例优选实施例流程示意图;
图3为本发明实施例的论文网络图可视化展示结果示意图;
图4为本发明第二方面实施例提供的文献完成者研究兴趣图聚类装置架构示意图;
图5为本发明第三方面实施例提供的电子设备架构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合、分离、互换和/或重新布置。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
这里使用的术语是为了描述具体实施例的目的,而不意图是限制性的。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。
以下通过具体实施例对本发明第一方面实施例提供的文献完成者研究兴趣图聚类方法进行介绍。请参阅图1,本发明第一方面实施例提供的文献完成者研究兴趣图聚类方法包括:
步骤一、获取目标完成者的信息,根据所述信息获取所述目标完成者的文献数据集;
步骤二、根据所述文献数据集构建文献网络图,所述文献网络图的包括所述文献数据集中,由各文献之间的文本相似度和文献引用数据融合得到的文献关系指标;
步骤三、对所述文献网络图进行图聚类分析,以获得若干研究兴趣簇;
步骤四、依据各所述研究兴趣簇各自的文献对各所述研究兴趣簇进行主题短语提取,以获得所述目标完成者的研究兴趣画像。
应当理解的是,本发明提供的研究兴趣图聚类方法的应用目标即文献完成者或者目标完成,文献完成者或者目标完成可以是学者、科研人员、教授、学生或者其他经常发表各种成果的学术人员或者文章作者等。相应的,本文中的文献可以是根据文献完成者可以检索到的科学技术文章,包括但不限于学术论文、科技期刊、专利文件、科普文章或者网络博文等。便于描述,本实施例中的应用对象以一般学者的论文集合为例对本发明进行说明。
优选地,在步骤一中,所述目标完成者的信息包括常用名、常用邮箱或者所在机构。
所述根据所述信息获取所述目标完成者的文献数据集,包括:
根据所述常用名在文献数据库中进行检索以获得文献集S1;
根据所述常用邮箱或者所述所在机构对所述文献集S1进行筛选以获得所述文献数据集,所述文献数据集包括文献的基本属性,所述基本属性包括文献标题、摘要、发表地、关键词、引文关系以及合作者姓名与所属单位中的一种或多种的组合。
具体地,在确定目标学者之后,为了构建目标学者的研究兴趣画像,一些实施例中设计有效的检索策略。例如,设置目标学者为“张三”,设置检索规则:首先使用张三学者的常用名检索其文献集S1,即“张三”或者“San Zhang”;然后为了区分同名学者,本专利又在S1的基础之上,进一步使用学者常用邮箱或者学者机构筛选其文献集,即“邮箱=xxx”或者“组织/机构=yyy”。
较佳地,在一些实施例中,选择Aminer论文数据库作为挖掘学者研究兴趣和自动构建学者画像的数据源,检索出研究目标论文的论文标题、摘要、发表地、关键词、引文关系以及合作者姓名与所属单位,构建研究目标的文献集PS,为进一步计算论文文本相似度以及构建论文引用网络奠定基础。
优选地,在一些实施例中,步骤二、所述根据所述文献数据集构建文献网络图包括:
采用OAG-BERT学术语言大模型基于所述基本属性生成各所述文献的特征向量。
OAG-BERT学术语言大模型使用论文的标题、摘要、发表地、关键词以及合作者姓名与所属单位生成第i篇论文的768维隐向量(下文也称作特征向量)表示为。OAG-BERT集成了科技资源大量的异构实体,包括论文、作者、概念、地点和隶属关系,并且采用新的预训练策略,适用于各种下游学术任务。只需将论文的标题、摘要、发表地、关键词以及合作者姓名与所属单位输入到OAG-BERT中就可以得到这篇论文隐向量表示。
根据所述特征向量采用余弦相似度算法构建各所述文献间的相似度指标矩阵,所述相似度指标矩阵表示为:
,其中TS-index表示相似度指标矩阵,/>表示文献i与文献j之间的文本相似度,/>表示文献i的特征向量,/>表示文献j的特征向量。取值范围为[-1,1],其中/>的值越大说明文献i与文献j的相似度越大,反之越小。
相比于只是将论文进行简单分词统计的传统方法,本实施例在计算论文文本相似度时,论文的信息不仅编码到同一个隐向量空间还引入了文本的语义信息以及上下文信息,该方法不仅在实验效果上优于以往传统方法,还更加符合现实需求。
根据所述引文关系构建各所述文献间的引用指标矩阵,所述引用指标矩阵表示为:
,其中CR-index表示引用指标矩阵,/>表示文献i对文献j的引用指标,/>表示文献i的参考文献总数。
在理论情况下只有两篇论文同时属于同一研究领域且内容非常相关,学者才有可能引用自己发表过的论文,本发明认为存在自引的论文较大概率属于同一簇,因此加入CR-index会使得自动挖掘学者研究兴趣的算法更加健壮。所以一些实施例中根据论文集的引文网络构建论文引用指标
将所述相似度指标矩阵和所述引用指标矩阵融合为文献关系指标矩阵,基于所述文献关系指标矩阵构建所述文献网络图,所述文献网络图表示为:
为所述目标学者的文献j,,PR-value表示所述文献关系指标矩阵,/>表示文献i与文献j的文献关系指数。
现实情况下,一方面有些学者可能为了能提高自身引用率,即使两篇论文的研究主题非常不相关但还会强制引用;另一方面根据相关研究表明有些非常相似的论文之间并没有引用关系。所以本专利利用熵权法根据TS-index与CR-index指标变异性的大小确定TS-index与CR-index的客观权重从而将其融合成论文关系指标PR-value,进而通过PR-value构建学者的论文网络图G。熵权法是根据每个指标的变异程度来确定指标之间比较客观的权重,当指标的信息熵越小时,意味着指标的变异程度越大,即该指标对于整体的影响更大,因此该指标在计算权重时应该拥有更大的比重。
优选地,在一些实施例中,所述通过熵权法将所述相似度指标矩阵和所述引用指标矩阵融合为文献关系指标矩阵,包括:
通过熵权法计算相似度指标和引用指标各自的权重;
根据所述权重融合所述相似度指标矩阵和所述引用指标矩阵以生成所述文献关系指标矩阵,计算公式表示为:
,其中PR-value表示所述文献关系指标矩阵,TS-index表示相似度指标矩阵,/>表示相似度指标的权重,CR-index表示引用指标矩阵,/>表示引用指标的权重。较佳的,关于得到的PR-value中的元素,当/>时,一些实施例认为文献i与文献j没有关系,即令/>
在一些实施例中,所述通过熵权法计算相似度指标和引用指标各自的权重,包括:
根据每一指标中的若干文献数据样本,计算在每一指标下每一所述文献数据样本的比重,所述指标包括相似度指标和引用指标,计算公式表示为:
,其中/>表示第j项指标下第i个文献数据样本所占的比重,/>表示第j项指标下第i个文献数据样本,i/n表示i整除n的结果,i mod n表示i对n取余数。在本实施例中,由于待确认权重的指标仅包括相似度指标和引用指标两个指标,因此j的取值为1和2,本实施例中的论文数据样本取自前述所得的TS-index和CR-index,此处通过矩阵下标的运算将二维矩阵数据展开为一维数组以方便进行比重的计算。
根据所述比重计算每一所述指标的信息熵,计算公式表示为:
,其中/>表示第j个指标的信息熵,/>
根据所述信息熵计算所述指标的权重,计算公式表示为:
,其中/>表示指标j的权重。
优选地,在一些实施例中,关于步骤三、对所述文献网络图进行图聚类分析,以获得若干研究兴趣簇。采用Leiden算法对G进行图聚类,最终得到若干个研究兴趣簇C。该方法能更好的保证每个社区都是良好的连接,聚类过程主要包括三个阶段:首先是节点的局部移动,然后是分区的重构,最后是基于引用分区的网络聚合,使用非引用分区为聚合网络创建一个初始分区。
优选地,在一些实施例中,所述依据各所述研究兴趣簇各自的文献对各所述研究兴趣簇进行主题短语提取,包括:
基于所述研究兴趣簇中各所述文献的标题、摘要以及关键词,采用Spacy算法和Rank算法提取所述研究兴趣簇的候选主题短语集合,所述候选主题短语集合包括若干候选主题短语。
具体地,分别使用Spacy算法与Rank算法提取研究兴趣簇中每篇论文的标题、摘要、关键词中的名词短语集合/>和短语集合/>。Spacy算法在nlp中属于工业级自然语言处理算法,它可以进行名词短语检测、动词短语检测以及命名实体识别。而Rank算法则利用停用词,即语言中的一些虚词或者语气词,如“be、and、a”或“wow”等词划分文本。相比于Rank抽取的短语,Spacy更倾向于抽取较短的短语,所以为了能更加全面抽取候选主题短语集合KS,一些实施例中将两种算法抽取的集合求并集,即/>
基于所述候选主题短语集合,统计每一单词的词频和共现度,其中词频是指单词在论文中出现的频数,共现度是指某一个单词与论文中其他单词共同出现的次数,从而得到主题词的得分根据所述词频和所述共现计算单词得分,计算公式表示为:
,其中/>表示单词得分,/>表示单词的词频,/>表示单词的共现度。由于论文中除了能够表现主题内容的短语单词之外,还有大量的虚词或者语气词等也会重复出现,因此单独采用词频进行统计评估其包含的信息噪声较高,本实施例中通过词频和共现度的运算得到的单词得分可以有效凸显出本实施例中希望提取的主题词的存在。
依据所述单词得分计算各所述候选主题短语各自的得分,计算公式表示为:,其中/>表示得分,/>表示所述单词得分,words表示所述候选主题短语中的单词集合。
由于每篇论文在簇中的重要程度不相同,所以不能直接简单认为主题短语在每篇论文中的得分权重相同,一些实施例中根据所述候选主题短语所属的文献在所述文献网络图中的节点中心度权重对所述得分进行加权处理以获得加权得分,所述加权得分的计算公式表示为:
,其中WS表示加权得分,/>表示得分,DC-degree表示节点中心度权重。
取所述加权得分中靠前的若干所述候选主题短语作为所述研究兴趣簇的所述主题短语。在一些实施例中取前三名作为研究兴趣簇的类别标签,即学者的研究兴趣之一。
综上,如图2所示,本发明优选实施例中,首先,以学者为检索目标基于Aminer数据库构建学者论文集合PS;根据论文标题、摘要、发表地、关键词以及合作者姓名与所属单位通过OAG-BERT构建论文的文本相似度指标TS-index,并利用引文网络构建文献直接引用指标CR-index,使用熵权法将TS-index与CR-index融合成PR-value,并基于PR-value构建论文网络图G;然后,利用Leiden算法对G进行图聚类划分学者的研究兴趣,并通过Spacy与Rank算法提取每个簇中论文属性的主题短语,从而得到每篇论文主题短语得分WS;最后,通过系统界面实现学者论文集的检索、构建等交互性操作,依据图聚类的结果对学者研究兴趣以论文网络图的形式进行可视化展示。
优选地,在一些实施例中,如图3所示,所述挖掘方法还包括根据图聚类分析结果对所述文献网络图进行可视化展示,包括:
通过节点表示文献,任意两所述节点之间的连线表示所述文献关系指标,通过所述节点的不同颜色表示所述图聚类分析结果。
通过系统界面实现学者文献集的检索、构建等交互性操作,依据图聚类的结果对目标完成者研究兴趣以文献网络图的形式进行可视化展示。
本申请第二方面实施例提供的文献完成者研究兴趣图聚类装置,如图4所示,包括:
获取模块,用于获取目标完成者的信息,根据所述信息获取所述目标完成者的文献数据集;
构建模块,根据所述文献数据集构建文献网络图,所述文献网络图的包括所述文献数据集中,由各文献之间的文本相似度和文献引用数据融合得到的文献关系指标;
聚类模块,对所述文献网络图进行图聚类分析,以获得若干研究兴趣簇;
提取模块,依据各所述研究兴趣簇各自的文献对各所述研究兴趣簇进行主题短语提取,以获得所述目标完成者的研究兴趣画像。
本申请第三方面实施例提供一种电子设备,如图5所示,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现如上任一实施例所述的文献完成者研究兴趣图聚类方法。
本申请第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一实施例所述的文献完成者研究兴趣图聚类方法。
计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施方式而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种文献完成者研究兴趣图聚类方法,其特征在于,包括以下步骤:
获取目标完成者的信息,根据所述信息获取所述目标完成者的文献数据集;
根据所述文献数据集构建文献网络图,所述文献网络图的包括所述文献数据集中,由各文献之间的文本相似度和文献引用数据融合得到的文献关系指标;
对所述文献网络图进行图聚类分析,以获得若干研究兴趣簇;
依据各所述研究兴趣簇各自的文献对各所述研究兴趣簇进行主题短语提取,以获得所述目标完成者的研究兴趣画像。
2.根据权利要求1所述的文献完成者研究兴趣图聚类方法,其特征在于:所述目标完成者的信息包括常用名、常用邮箱或者所在机构;
所述根据所述信息获取所述目标完成者的文献数据集,包括:
根据所述常用名在文献数据库中进行检索以获得文献集S1;
根据所述常用邮箱或者所述所在机构对所述文献集S1进行筛选以获得所述文献数据集,所述文献数据集包括文献的基本属性,所述基本属性包括文献标题、摘要、发表地、关键词、引文关系以及合作者姓名与所属单位中的一种或多种的组合。
3.根据权利要求2所述的文献完成者研究兴趣图聚类方法,其特征在于:所述根据所述文献数据集构建文献网络图包括:
采用OAG-BERT学术语言大模型基于所述基本属性生成各所述文献的特征向量;
根据所述特征向量采用余弦相似度算法构建各所述文献间的相似度指标矩阵,所述相似度指标矩阵表示为:
,其中TS-index表示相似度指标矩阵,/>表示文献i与文献j之间的文本相似度,/>表示文献i的特征向量,/>表示文献j的特征向量;
根据所述引文关系构建各所述文献间的引用指标矩阵,所述引用指标矩阵表示为:
,其中CR-index表示引用指标矩阵,/>表示文献i对文献j的引用指标,/>表示文献i的参考文献总数;
将所述相似度指标矩阵和所述引用指标矩阵融合为文献关系指标矩阵,基于所述文献关系指标矩阵构建所述文献网络图,所述文献网络图表示为:
为所述目标完成者的文献j,,PR-value表示所述文献关系指标矩阵,/>表示文献i与文献j的文献关系指数。
4.根据权利要求3所述的文献完成者研究兴趣图聚类方法,其特征在于:所述通过熵权法将所述相似度指标矩阵和所述引用指标矩阵融合为文献关系指标矩阵,包括:
通过熵权法计算相似度指标和引用指标各自的权重;
根据所述权重融合所述相似度指标矩阵和所述引用指标矩阵以生成所述文献关系指标矩阵,计算公式表示为:
,其中PR-value表示所述文献关系指标矩阵,TS-index表示相似度指标矩阵,/>表示相似度指标的权重,CR-index表示引用指标矩阵,/>表示引用指标的权重。
5.根据权利要求4所述的文献完成者研究兴趣图聚类方法,其特征在于:所述通过熵权法计算相似度指标和引用指标各自的权重,包括:
根据每一指标中的若干文献数据样本,计算在每一指标下每一所述文献数据样本的比重,所述指标包括相似度指标和引用指标,计算公式表示为:
,其中/>表示第j项指标下第i个文献数据样本所占的比重,/>表示第j项指标下第i个文献数据样本,i/n表示i整除n的结果,i mod n表示i对n取余数;
根据所述比重计算每一所述指标的信息熵,计算公式表示为:
,其中/>表示第j个指标的信息熵,/>
根据所述信息熵计算所述指标的权重,计算公式表示为:
,其中/>表示指标j的权重。
6.根据权利要求1所述的文献完成者研究兴趣图聚类方法,其特征在于:所述依据各所述研究兴趣簇各自的文献对各所述研究兴趣簇进行主题短语提取,包括:
基于所述研究兴趣簇中各所述文献的标题、摘要以及关键词,采用Spacy算法和Rank算法提取所述研究兴趣簇的候选主题短语集合,所述候选主题短语集合包括若干候选主题短语;
基于所述候选主题短语集合,统计每一单词的词频和共现度,根据所述词频和所述共现计算单词得分,计算公式表示为:
,其中/>表示单词得分,/>表示单词的词频,/>表示单词的共现度;
依据所述单词得分计算各所述候选主题短语各自的得分,计算公式表示为:,其中/>表示得分,/>表示所述单词得分,words表示所述候选主题短语中的单词集合;
根据所述候选主题短语所属的文献在所述文献网络图中的节点中心度权重对所述得分进行加权处理以获得加权得分,所述加权得分的计算公式表示为:
,其中WS表示加权得分,/>表示得分,DC-degree表示节点中心度权重;
取所述加权得分中靠前的若干所述候选主题短语作为所述研究兴趣簇的所述主题短语。
7.根据权利要求1所述的文献完成者研究兴趣图聚类方法,其特征在于:所述图聚类分析包括采用Leiden算法;
所述挖掘方法还包括根据图聚类分析结果对所述文献网络图进行可视化展示,包括:
通过节点表示文献,任意两所述节点之间的连线表示所述文献关系指标,通过所述节点的不同颜色表示所述图聚类分析结果。
8.一种文献完成者研究兴趣图聚类装置,其特征在于,包括:
获取模块,用于获取目标完成者的信息,根据所述信息获取所述目标完成者的文献数据集;
构建模块,根据所述文献数据集构建文献网络图,所述文献网络图的包括所述文献数据集中,由各文献之间的文本相似度和文献引用数据融合得到的文献关系指标;
聚类模块,对所述文献网络图进行图聚类分析,以获得若干研究兴趣簇;
提取模块,依据各所述研究兴趣簇各自的文献对各所述研究兴趣簇进行主题短语提取,以获得所述目标完成者的研究兴趣画像。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-7任一项所述的文献完成者研究兴趣图聚类方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任一项文献完成者研究兴趣图聚类方法。
CN202310638200.9A 2023-06-01 2023-06-01 一种文献完成者研究兴趣图聚类方法、装置、设备及介质 Active CN116561605B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310638200.9A CN116561605B (zh) 2023-06-01 2023-06-01 一种文献完成者研究兴趣图聚类方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310638200.9A CN116561605B (zh) 2023-06-01 2023-06-01 一种文献完成者研究兴趣图聚类方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN116561605A true CN116561605A (zh) 2023-08-08
CN116561605B CN116561605B (zh) 2023-10-24

Family

ID=87496476

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310638200.9A Active CN116561605B (zh) 2023-06-01 2023-06-01 一种文献完成者研究兴趣图聚类方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116561605B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101607771B1 (ko) * 2014-09-30 2016-03-30 연세대학교 산학협력단 저자 식별 방법 및 장치
CN106126497A (zh) * 2016-06-21 2016-11-16 同方知网数字出版技术股份有限公司 一种自动挖掘对应施引片段和被引文献原文内容片段的方法
CN106126732A (zh) * 2016-07-04 2016-11-16 中南大学 基于兴趣相似模型的作者影响力传播能力预测方法
CN108280114A (zh) * 2017-07-28 2018-07-13 淮阴工学院 一种基于深度学习的用户文献阅读兴趣分析方法
CN110083703A (zh) * 2019-04-28 2019-08-02 浙江财经大学 一种基于引用网络和文本相似度网络的文献聚类方法
US20200401660A1 (en) * 2019-06-18 2020-12-24 Microsoft Technology Licensing, Llc Semantic space scanning for differential topic extraction
WO2021189920A1 (zh) * 2020-10-23 2021-09-30 平安科技(深圳)有限公司 医疗文献簇的主题确定方法、装置、电子设备及存储介质
CN115129850A (zh) * 2022-06-20 2022-09-30 武汉大学 基于学术异质网络表示学习的参考文献引荐方法及设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101607771B1 (ko) * 2014-09-30 2016-03-30 연세대학교 산학협력단 저자 식별 방법 및 장치
CN106126497A (zh) * 2016-06-21 2016-11-16 同方知网数字出版技术股份有限公司 一种自动挖掘对应施引片段和被引文献原文内容片段的方法
CN106126732A (zh) * 2016-07-04 2016-11-16 中南大学 基于兴趣相似模型的作者影响力传播能力预测方法
CN108280114A (zh) * 2017-07-28 2018-07-13 淮阴工学院 一种基于深度学习的用户文献阅读兴趣分析方法
CN110083703A (zh) * 2019-04-28 2019-08-02 浙江财经大学 一种基于引用网络和文本相似度网络的文献聚类方法
US20200401660A1 (en) * 2019-06-18 2020-12-24 Microsoft Technology Licensing, Llc Semantic space scanning for differential topic extraction
WO2021189920A1 (zh) * 2020-10-23 2021-09-30 平安科技(深圳)有限公司 医疗文献簇的主题确定方法、装置、电子设备及存储介质
CN115129850A (zh) * 2022-06-20 2022-09-30 武汉大学 基于学术异质网络表示学习的参考文献引荐方法及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭红梅: "基于文献引证及其内容相似度的主题混合聚类方法研究", 情报理论与实践 *

Also Published As

Publication number Publication date
CN116561605B (zh) 2023-10-24

Similar Documents

Publication Publication Date Title
US9613024B1 (en) System and methods for creating datasets representing words and objects
Qiu et al. Geoscience keyphrase extraction algorithm using enhanced word embedding
Bisandu et al. Clustering news articles using efficient similarity measure and N-grams
Giordano et al. Text and dynamic network analysis for measuring technological convergence: A case study on defense patent data
Bales et al. Bibliometric visualization and analysis software: State of the art, workflows, and best practices
CN113064999B (zh) 基于it设备运维的知识图谱构建算法、系统、设备及介质
Bharathi Mohan et al. Survey of text document summarization based on ensemble topic vector clustering model
Huang et al. Identification of topic evolution: Network analytics with piecewise linear representation and word embedding
Xu et al. Leveraging cross-media analytics to detect events and mine opinions for emergency management
Wang et al. Personal research idea recommendation using research trends and a hierarchical topic model
Huang et al. Measuring the interdisciplinarity of Information and Library Science interactions using citation analysis and semantic analysis
CN115017315A (zh) 一种前沿主题识别方法、系统及计算机设备
Wang et al. Multi‐label emotion recognition of weblog sentence based on Bayesian networks
Rampisela et al. Academic expert finding in indonesia using word embedding and document embedding: A case study of fasilkom UI
US9262395B1 (en) System, methods, and data structure for quantitative assessment of symbolic associations
Nastiti et al. Discovering computer science research topic trends using latent dirichlet allocation
Wang Computer and Information Sciences
Zeng et al. Measuring the interdisciplinary characteristics of Chinese research in library and information science based on knowledge elements
Tandjung et al. Topic modeling with latent-dirichlet allocation for the discovery of state-of-the-art in research: A literature review
Wattiheluw et al. Developing word sense disambiguation corpuses using Word2vec and Wu Palmer for disambiguation
CN116561605B (zh) 一种文献完成者研究兴趣图聚类方法、装置、设备及介质
CN113869038A (zh) 一种针对百度贴吧、基于特征词分析的关注点相似性分析方法
Dhiyaulhaq et al. Sentiment analysis of the jakarta-bandung fast train project using the svm method
Singh et al. An Insight into Word Sense Disambiguation Techniques
CN116644338B (zh) 基于混合相似度的文献主题分类方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant