CN114547275B - 基于学者研究兴趣知识图谱的学者推荐方法、系统及介质 - Google Patents
基于学者研究兴趣知识图谱的学者推荐方法、系统及介质 Download PDFInfo
- Publication number
- CN114547275B CN114547275B CN202210022627.1A CN202210022627A CN114547275B CN 114547275 B CN114547275 B CN 114547275B CN 202210022627 A CN202210022627 A CN 202210022627A CN 114547275 B CN114547275 B CN 114547275B
- Authority
- CN
- China
- Prior art keywords
- academic
- scholars
- learner
- knowledge
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011160 research Methods 0.000 title claims abstract description 176
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000013528 artificial neural network Methods 0.000 claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 16
- 238000004140 cleaning Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 9
- 238000013145 classification model Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000013480 data collection Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 4
- 239000013604 expression vector Substances 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 238000005065 mining Methods 0.000 abstract description 18
- 238000007418 data mining Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于学者研究兴趣知识图谱的学者推荐方法、系统及介质,涉及文本挖掘、数据挖掘与推荐系统领域。本发明所涉及的主要流程包括:学者学术成果数据的采集与处理;学者研究兴趣标签数据的采集与处理;学者研究兴趣标签识别模型的训练与存储;基于学者研究兴趣知识图谱图神经网络的需求学者推荐。本发明提出的方法为一种基于知识图谱和图神经网络的学者推荐方法,可以在学术大数据背景下挖掘实际需求文本中的深度知识需求和学者学术知识间的关联,实现面向实际需求且符合深度需求知识关联模式的学者智能推荐。
Description
技术领域
本发明涉及文本挖掘、数据挖掘与推荐系统领域,特别涉及一种基于学者研究兴趣知识图谱的学者推荐方法、系统及介质。
背景技术
在科技强国的大背景下,越来越多的学者纷纷投身于科研工作中。为了找到所需要的学者,有学者智力支持需求的企业需要对学者的知识能力进行深入考察,以找到所掌握知识最符合需求的学者。
学者所掌握的学术知识往往可以由其研究兴趣体现,而其研究兴趣往往由其发表的学术成果体现。对学者所发表的学术成果当中的文本主题进行挖掘和归纳,就可以在很大程度上了解学者所掌握的专业知识。文本主题挖掘经历了三个阶段:以TF-IDF算法和TextRank算法为代表的关键词挖掘阶段、以关键概念共现图挖掘为代表的图挖掘阶段以及以隐狄利克雷分布的潜在语义分析(Latent Dirichlet Allocation,LDA)主题模型为代表的概率主题模型阶段。近年来,由于机器学习技术的快速发展,由Word2Vec算法演变而来的Doc2Vec主题模型也受到了青睐并在多个场合表现优良。目前,LDA主题模型与Doc2Vec主题模型已经成为了主题挖掘应用中的主流模型。
传统的学者推荐算法大多面向的问题为合作学者推荐,因而图与网络科学技术被广泛应用于学者推荐当中。大多数传统的学者推荐方法是基于合著网络与引用网络等学术网络随机游走过程建立的,推荐过程大多仅考虑了学者在学术社会内的学术社区地位和社交地位,而并没有将学者所掌握的知识放在重要位置,故而较难实现面向实际需求的学者推荐。
知识图谱使用一张异构图将具有不同知识概念的实体以及实体间的关系组织起来,从而形成具有强大数据表征能力的模型。对知识图谱当中的数据进行挖掘,就可以得到很多重要的信息。自Google公司于2012年正式提出知识图谱的概念以来,知识图谱技术在各个领域的推荐系统上取得了极为成功的应用。知识图谱可以表征学者所掌握的知识和学术信息,因而可用于面向实际需求的学者智能推荐。
目前,基于学者研究兴趣知识图谱的学者推荐大多数仅对所建立的知识图谱进行表面挖掘,例如曹洪飞于《面向企业需求的专家信息获取和专家推荐方法研究》当中提出可通过计算实际需求所产生的知识图谱与学术大数据背景下产生的知识图谱的最大公共子图获取推荐学者。对学术知识图谱的浅层挖掘较难挖掘实际需求文本当中的深度知识需求,从而推荐效果可能不尽人意。
在图信息挖掘方面,图神经网络的提出打破了神经网络只能应用于欧氏结构数据的桎梏。图神经网络的出现为深度学习在“图”这一非欧氏结构数据当中的应用提供了有力工具。多层图神经网络可以对图结构中表示的信息进行深度学习,从而实现对图信息的深度挖掘。将多层图神经网络应用于知识图谱当中,可以挖掘知识图谱当中的深度知识和知识关联模式,从而实现更智能的推荐。刘欢等人于《基于知识图谱驱动的图神经网络推荐模型》当中提出了一种知识图谱驱动图神经网络(Knowledge-driven Graph LearningNetwork,KGLN)的推荐模型,该推荐模型挖掘了知识图谱当中的深度信息,故该模型相较于DeepFM和RippleNet等传统推荐模型具有更好的推荐效果。KGLN的出现,为学术知识图谱信息的深度挖掘提供了工具,也为基于学者研究兴趣知识图谱深度挖掘的学者推荐提供了机遇。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于学者研究兴趣知识图谱的学者推荐方法。该方法通过学者研究兴趣知识图谱对学术知识元进行了隐式表示,并通过带有注意力性质的图神经网络对学者研究兴趣知识图谱当中体现的知识元关联模式进行符合实际需求的深度挖掘,实现了面向实际需求的精准与智能化的学者推荐。
为了达到上述目的,本发明采用以下技术方案:
本发明一方面公开了基于学者研究兴趣知识图谱的学者推荐方法,包括以下步骤:
收集学者所有的学术成果信息,对学术成果当中的文本信息进行文本预处理,并进一步对学者的学术成果信息进行结构化处理;
收集各学者的多个学术研究兴趣标签,并清洗和统一所收集的学者学术研究兴趣标签;
分别训练基于已有文本主题模型的学者学术成果摘要文本主题模型和基于多标签分类模型的研究兴趣标签识别模型,并对所训练的学术成果摘要文本主题模型和研究兴趣标签识别模型作存储处理;
根据学术成果摘要文本主题模型和学者的研究兴趣标签归属概率建立学者研究兴趣知识图谱,并训练和存储一个基于知识图谱的图神经网络学者推荐模型;
基于学术成果摘要文本主题模型对需求文本进行处理,并利用所存储的基于知识图谱的图神经网络学者推荐模型计算需求学者推荐清单。
作为优选的技术方案,所述收集学者所有的学术成果信息,对学术成果当中的文本信息进行文本预处理,并进一步对学者的学术成果信息进行结构化处理,具体为:
从学术数据源中收集学者所有的学术成果数据,所收集的学术成果数据具体包括学术成果的作者、摘要与学术成果引用关系;
对所收集的学术成果的摘要文本的文本数据进行预处理,包括:分词、统一字符的大小写或繁简体等表征同一字符的字符形式、订正词语拼写错误与错别字、去除停用词和词干或词形统一,形成各学术成果摘要的文本词序列;
对收集的所有学术成果进行编号和所收集学术成果数据中所有学者进行编号;将各学术成果以<学术成果编号,学术成果作者学者编号集合,引用学术成果编号集合>三元组形式进行结构化,形成结构化学术成果信息;
连接各学者所发表学术成果的摘要文本词序列,以<学者编号,学术成果文本词序列>二元组形式进行结构化,形成结构化学者成果信息。
作为优选的技术方案,所述收集各学者的多个学术研究兴趣标签,并清洗和统一所收集的学者学术研究兴趣标签,具体为:
从学术数据源中收集或手动标识所有涉及学者的各NI个研究兴趣标签,研究兴趣标签可使用单词或词组表示;
对所收集的所有学者的研究兴趣标签进行清洗,合并词义相同或相近的研究兴趣标签,并对学者研究兴趣标签进行编号。
作为优选的技术方案,所述分别训练学者学术成果摘要文本主题模型和研究兴趣标签识别模型,并对所训练的学术成果摘要文本主题模型和研究兴趣标签识别模型作存储处理,具体为:
提取结构化学者成果信息中各学者的学术成果摘要文本词序列,结合各学者的研究兴趣标签,输入基于已有文本主题模型的学术成果摘要文本主题模型,训练并保存完成训练的学术成果摘要文本主题模型;
将各学者的学术成果摘要文本词序列输入所保存的学术成果摘要文本主题模型,得到各学者所著学术成果的向量化表示T;
将各学者学术成果的向量化表示T与学者的研究兴趣标签输入基于多标签分类模型的研究兴趣标签识别模型,训练并保存完成训练的研究兴趣标签识别模型。
作为优选的技术方案,所述建立学者研究兴趣知识图谱,具体步骤为:
将各学者所述学术成果的向量化表示T作为各学者知识节点的特征表示N,即学者i的学者知识节点特征Ni为:
Ni=Ti
其中,Ti为学者i的学术成果的向量化表示;
由学者u指向学者v的知识节点间关系强度表示为:
将生成的各学者所著学术成果的向量化表示T输入所保存的研究兴趣标签识别模型,得到各学者对各研究兴趣标签的依属概率向量P;
其中,为研究兴趣标签与研究兴趣标签产生的学者研究兴趣标签数据中共现的次数,Nall为各无序二元研究兴趣标签对产生的学者研究兴趣标签数据中共现的次数;当两个研究兴趣标签均为同一学者的学者研究兴趣标签时,称以上两个研究兴趣标签构成的无序二元研究兴趣标签对共现一次;
整合各知识节点的特征与知识节点间的关系强度,形成和保存学者研究兴趣知识图谱。
作为优选的技术方案,所述训练和存储一个基于知识图谱的图神经网络学者推荐模型,具体为:
提取结构化学术成果信息中各学术成果的摘要文本词序列,输入所保存的学术成果摘要文本主题模型,得到各学术成果摘要的向量化表示d;
设定任意学者知识节点间的关系偏好程度χ为0;
将所保存的学者研究兴趣知识图谱和知识节点间关系的偏好程度代入图神经网络KGLN,计算各学者知识节点的图嵌入;
将各学者知识节点的图嵌入输入推荐神经网络,获得各学者针对各学术成果的推荐概率;
以各学术成果的作者为正确推荐目标,以平均交叉熵函数作为损失函数,训练图神经网络KGLN中的参数与推荐神经网络中的参数,并对训练完成的模型进行存储。
作为优选的技术方案,所述基于学术成果摘要文本主题模型对需求文本进行处理,并利用所存储的基于知识图谱的图神经网络学者推荐模型计算需求学者推荐清单,具体为:
对实际需求文本等文本数据进行预处理,包括:分词、统一字符的大小写或繁简体等表征同一字符的字符形式、订正词语拼写错误与错别字、去除停用词和词干或词形统一,形成需求文本的文本词序列;
将生成的需求文本的文本词序列输入所保存的学术成果摘要文本主题模型,得到需求文本的向量化表示d;
设定任意学者知识节点间的关系偏好程度χ为0;
将各知识节点特征、知识节点间关系强度和知识节点间偏好程度输入保存的图神经网络KGLN,计算各学者知识节点的知识图谱嵌入;
将各学者知识节点的图嵌入输入保存的推荐神经网络,获得各学者针对当下实际需求文本的推荐概率;
将生成的各学者推荐概率降序排序,依据需求方需求的需求学者数量取前N个推荐概率最高的学者组成需求学者推荐清单,推荐顺序依照推荐概率排序。
本发明另一方面提供了基于学者研究兴趣知识图谱的学者推荐系统,应用于所述的一种学者研究兴趣标签挖掘与演变分析方法,包括数据收集模块、数据清洗模块、训练模块、兴趣知识图谱构建模块以及推荐模块;
所述数据收集模块,用于收集学者所有的学术成果信息,对学术成果当中的文本信息进行文本预处理,并进一步对学者的学术成果信息进行结构化处理;
所述数据清洗模块,用于收集各学者的多个学术研究兴趣标签,并清洗和统一所收集的学者学术研究兴趣标签;
所述训练模块,用于分别训练基于已有文本主题模型的学者学术成果摘要文本主题模型和基于多标签分类模型的研究兴趣标签识别模型,并对所训练的学术成果摘要文本主题模型和研究兴趣标签识别模型作存储处理;
所述兴趣知识图谱构建模块,用于根据学术成果摘要文本主题模型和学者的研究兴趣标签归属概率建立学者研究兴趣知识图谱,并训练和存储一个基于知识图谱的图神经网络学者推荐模型;
所述推荐模块,用于基于学术成果摘要文本主题模型对需求文本进行处理,并利用所存储的基于知识图谱的图神经网络学者推荐模型计算需求学者推荐清单。
本发明又一方面公开了一种计算机可读存储介质,存储有程序,所述程序被处理器执行时,实现所述的基于学者研究兴趣知识图谱的学者推荐方法。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明在文本数据预处理过程引入了拼写订正与词干提取步骤,可以有效避免同一词语在不同词态下形成的对同一描述对象的不同描述形式对学者推荐过程产生的影响。
(2)本发明涉及了学者研究兴趣标签的自动识别问题,所训练和存储的学术成果摘要文本主题模型和研究兴趣标签识别模型可单独用于已有研究兴趣标签空间内的学者所属研究兴趣标签的挖掘。
(3)本发明使用知识图谱描述学者与研究兴趣标签之间的关系,从而在一个异构图内同时显式地表示了合著网络与引用网络等学术社交网络和学者与研究兴趣标签间的关系,并利用各知识节点的特征对学者所掌握的知识元和研究兴趣标签所需要的知识元进行了隐式表示。
(4)本发明使用了考虑知识节点间偏好关系的图神经网络实现了学者推荐过程中的学者知识节点嵌入计算,实现了推荐过程中对需求知识关联模式的深度挖掘分析,进一步提升了最终推荐学者清单的准确性。
附图说明
图1为本发明的基于学者研究兴趣知识图谱的学者推荐方法的过程图。
图2为本发明实施例中的学者研究兴趣识别模型及其训练过程的示意图。
图3为本发明的学者研究兴趣知识图谱的示意图。
图4为本发明的面向实际需求的需求学者推荐清单计算过程的示意图。
图5为本发明基于学者研究兴趣知识图谱的学者推荐系统的结构图。
图6为本发明计算机可读存储介质的结构图。
具体实施方式
为使本发明实施例的目、技术方案和优点更加清楚,下面将结合本发明的附图,对本发明实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种学基于学者研究兴趣知识图谱的学者推荐方法,包括学者学术成果数据的采集与处理、学者研究兴趣标签数据的采集与处理、学者研究兴趣标签识别模型的训练与存储和基于学者研究兴趣知识图谱图神经网络的需求学者推荐等步骤。具体实施步骤如下:
S1.学者学术成果数据的采集与处理,具体方法步骤为:
S1-1.从清华大学AMiner团队提供的AMiner学术知识图谱数据源中收集所有包含学者所有的学术成果数据,所收集的学术成果数据具体包括学术成果的作者、摘要与学术成果引用关系。
S1-2.对步骤S1-1所收集的学术成果的摘要文本等文本数据进行预处理,包括:分词、统一字符的大小写或繁简体等表征同一字符的字符形式、订正词语拼写错误与错别字、去除停用词和词干或词形统一,形成各学术成果摘要的文本词序列。
S1-3.对步骤S1-1收集的所有学术成果进行编号和所收集学术成果数据中所有学者进行编号;将各学术成果以<学术成果编号,学术成果作者学者编号集合,引用学术成果编号集合>三元组形式进行结构化,形成结构化学术成果信息并存入MySQL数据库中。
S1-4.连接各学者所发表学术成果的摘要文本词序列,以<学者编号,学术成果文本词序列>二元组形式进行结构化,形成结构化学者成果信息并存入MySQL数据库中。
S2.学者研究兴趣标签数据的采集与处理,具体方法步骤为:
S2-1.从清华大学AMiner团队提供的学者研究兴趣标签数据源中收集步骤S1中所有涉及学者的各NI个研究兴趣标签,各研究兴趣标签由单词或词组表示。
S2-2.对步骤S2-1所收集的所有学者的研究兴趣标签进行拼写订正、词态统一和同义标签合并等清洗处理,并对学者研究兴趣标签进行编号。
S3.学者研究兴趣标签识别模型的训练与存储,具体方法步骤为:
S3-1.从MySQL数据库中提取步骤S1-4产生的结构化学者成果信息中各学者的学术成果摘要文本词序列,输入、训练和保存图2所示的LDA主题模型。
S3-2.将各学者的学术成果摘要文本词序列各学者的研究兴趣标签输入、训练和保存图2所示的Doc2Vec主题模型。步骤S3-1所保存的LDA主题模型与本步骤保存的Doc2Vec主题模型共同构成学术成果摘要文本主题模型。
S3-3.将各学者的学术成果摘要文本词序列分别输入步骤S3-1保存的LDA主题模型与步骤S3-2保存的Doc2Vec主题模型,得到各学者所著学术成果的向量化表示TLDA和TDoc2Vec。
S3-4.将步骤S3-3生成的将各学者学术成果的向量化表示TLDA和TDoc2Vec与学者的研究兴趣标签如图2所示分别输入一个多层感知机并进行训练,保存完成训练的两个多层感知机模型。
S3-5.将步骤S3-3生成的将各学者学术成果的向量化表示TLDA和TDoc2Vec分别输入步骤S3-4所保存的两个多层感知机,得到两个多层感知机分别产生的学者对各研究兴趣标签的依属概率向量PLDA和PDoc2Vec。
S3-6.计算最终学者对各研究兴趣标签的依属概率向量
P=λPLDA+(1-λ)PDoc2Vec
其中,λ为一个取值范围为0到1间的常数。
S3-7.取步骤S3-6当中生成的学者对各研究兴趣标签的依属概率向量P当中数值最大的NI个元素所代表的研究兴趣标签为预测学者研究兴趣标签。
S3-8.使用模拟退火算法等寻优算法寻找并保存最优的步骤S3-6所示参数λ,使得该参数能最小化下述目标函数:
其中,M为所有涉及的学者人数,Ttr为步骤S2-2当中生成的学者i的真实研究兴趣标签集合,Tpr为步骤S3-7当中生成的学者i的预测研究兴趣标签集合。|·|为集合元素个数计数算子。本步骤寻得的参数λ以及步骤S3-4所保存的两个多层感知机模型构成研究兴趣标签识别模型。
S4.基于学者研究兴趣知识图谱图神经网络的需求学者推荐模型的训练与存储,具体方法步骤为:
S4-1.学者研究兴趣知识图谱生成,具体方法步骤为:
S4-1-1.将步骤S3-3中生成的各学者所述学术成果的向量化表示TLDA和TDoc2Vec的拼接向量作为各学者知识节点的特征表示N,即学者i的学者知识节点特征为
Ni=[TLDA|TDoc2Vec]
S4-1-3.由学者u指向学者v的知识节点间关系强度表示为
S4-1-4.将步骤S3-3生成的各学者所述学术成果的向量化表示TLDA和TDoc2Vec分别输入步骤S3-5保存的两个多层感知机,获得学者对各研究兴趣标签的依属概率向量PLDA和PDoc2Vec。
S4-1-5.计算最终学者对各研究兴趣标签的依属概率向量
P=λPLDA+(1-λ)PDoc2Vec
其中,λ为步骤S3-8所保存的最优参数。
其中,为研究兴趣标签与研究兴趣标签在步骤S2-2所产生的学者研究兴趣标签数据中共现的次数,Nall为各无序二元研究兴趣标签对在步骤S2-2所产生的学者研究兴趣标签数据中共现的次数。当两个研究兴趣标签均为同一学者的学者研究兴趣标签时,称以上两个研究兴趣标签构成的无序二元研究兴趣标签对共现一次。
S4-1-8整合各知识节点的特征与知识节点间的关系强度,形成和保存如图3所示的学者研究兴趣知识图谱。
S4-2.基于知识图谱的图神经网络学者推荐模型训练与存储,具体方法步骤为:
S4-2-1.从MySQL数据库中提取步骤S1-3生成的结构化学术成果信息中各学术成果的摘要文本词序列,分别输入步骤S3-1所保存的LDA主题模型与步骤S3-2所保存的Doc2Vec主题模型,得到各学术成果摘要的向量化表示dLDA和dDoc2Vec。
S4-2-2.拼接学术成果摘要的向量化表示,形成最终的各学术成果摘要的向量化表示
d=[dLDA|dDoc2Vec]
S4-2-3.设定任意学者知识节点间的关系偏好程度χ为0。
S4-2-6.将步骤S4-1-8所保存的学者研究兴趣知识图谱和知识节点间关系偏好程度输入多层图神经网络KGLN,计算各学者知识节点的图嵌入。
S4-2-7.将各学者知识节点的图嵌入输入以多层感知机方式呈现的推荐神经网络,获得各学者针对各学术成果的推荐概率。
S4-2-8.以各学术成果的作者为正确推荐目标,以平均交叉熵函数作为损失函数,训练图神经网络KGLN中的参数与推荐神经网络中的参数,并对训练完成的模型进行存储。
S5.推荐学者清单的生成,生成过程如图4所示,具体方法步骤为:
S5-1.对实际需求文本等文本数据进行预处理,包括:分词、统一字符的大小写或繁简体等表征同一字符的字符形式、订正词语拼写错误与错别字、去除停用词和词干或词形统一,形成需求文本的文本词序列。
S5-2.将步骤S5-1生成的需求文本的文本词序列分别输入步骤S3-1所保存的LDA主题模型和步骤S3-2所保存的Doc2Vec主题模型,得到需求文本的向量化表示dLDA和dDoc2vec。
S5-3.拼接需求文本的向量化表示,形成最终的需求文本的向量化表示
d=[dLDA|dDoc2Vec]
S5-4.设定任意学者知识节点间的关系偏好程度χ为0。
S5-7.将步骤S4-1-8所保存的学者研究兴趣知识图谱和知识节点间关系的偏好程度输入步骤S4-2-8所保存的图神经网络KGLN,计算各学者知识节点的知识图谱嵌入。
S5-8.将各学者知识节点的图嵌入输入步骤S4-2-8保存的推荐神经网络,获得各学者针对当下实际需求文本的推荐概率。
S5-9.将步骤S5-8生成的各学者推荐概率降序排序,依据需求方需求的需求学者数量取前N个推荐概率最高的学者组成需求学者推荐清单,推荐顺序依照推荐概率排序。
需要说明的是,对于前述的各方法实施例,为了简便描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。
基于与上述实施例中的基于学者研究兴趣知识图谱的学者推荐方法相同的思想,本发明还提供基于学者研究兴趣知识图谱的学者推荐系统,该系统可用于执行上述基于学者研究兴趣知识图谱的学者推荐方法。为了便于说明,基于学者研究兴趣知识图谱的学者推荐系统实施例的结构示意图中,仅仅示出了与本发明实施例相关的部分,本领域技术人员可以理解,图示结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图5所示,在本申请的另一个实施例中,提供了一种基于学者研究兴趣知识图谱的学者推荐系统100,该系统包括数据收集模块101、数据清洗模块102、训练模块103、兴趣知识图谱构建模块104以及推荐模块105;
所述数据收集模块101,用于收集学者所有的学术成果信息,对学术成果当中的文本信息进行文本预处理,并进一步对学者的学术成果信息进行结构化处理;
所述数据清洗模块102,用于收集各学者的多个学术研究兴趣标签,并清洗和统一所收集的学者学术研究兴趣标签;
所述训练模块103,用于分别训练学者学术成果摘要文本主题模型和研究兴趣标签识别模型,并对所训练的学术成果摘要文本主题模型和研究兴趣标签识别模型作存储处理;
所述兴趣知识图谱构建模块104,用于根据学术成果摘要文本主题模型和学者的研究兴趣标签归属概率建立学者研究兴趣知识图谱,并训练和存储一个基于知识图谱的图神经网络学者推荐模型;
所述推荐模块105,用于基于学术成果摘要文本主题模型对需求文本进行处理,并利用所存储的基于知识图谱的图神经网络学者推荐模型计算需求学者推荐清单。
需要说明的是,本发明的基于学者研究兴趣知识图谱的学者推荐系统与本发明的基于学者研究兴趣知识图谱的学者推荐方法一一对应,在上述基于学者研究兴趣知识图谱的学者推荐方法的实施例阐述的技术特征及其有益效果均适用于基于学者研究兴趣知识图谱的学者推荐系统的实施例中,具体内容可参见本发明方法实施例中的叙述,此处不再赘述,特此声明。
此外,上述实施例的基于学者研究兴趣知识图谱的学者推荐系统的实施方式中,各程序模块的逻辑划分仅是举例说明,实际应用中可以根据需要,例如出于相应硬件的配置要求或者软件的实现的便利考虑,将上述功能分配由不同的程序模块完成,即将所述基于学者研究兴趣知识图谱的学者推荐系统的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分功能。
如图6所示,在一个实施例中,提供了一种计算机可读存储介质200,存储有程序于存储器201中,所述程序被处理器202执行时,实现所述的基于学者研究兴趣知识图谱的学者推荐方法,具体为:
收集学者所有的学术成果信息,对学术成果当中的文本信息进行文本预处理,并进一步对学者的学术成果信息进行结构化处理;
收集各学者的多个学术研究兴趣标签,并清洗和统一所收集的学者学术研究兴趣标签;
分别训练基于已有文本主题模型的学者学术成果摘要文本主题模型和基于多标签分类模型的研究兴趣标签识别模型,并对所训练的学术成果摘要文本主题模型和研究兴趣标签识别模型作存储处理;
根据学术成果摘要文本主题模型和学者的研究兴趣标签归属概率建立学者研究兴趣知识图谱,并训练和存储一个基于知识图谱的图神经网络学者推荐模型;
基于学术成果摘要文本主题模型对需求文本进行处理,并利用所存储的基于知识图谱的图神经网络学者推荐模型计算需求学者推荐清单。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (6)
1.基于学者研究兴趣知识图谱的学者推荐方法,其特征在于,包括以下步骤:
收集学者所有的学术成果信息,对学术成果当中的文本信息进行文本预处理,并进一步对学者的学术成果信息进行结构化处理;
收集各学者的多个学术研究兴趣标签,并清洗和统一所收集的学者学术研究兴趣标签;
分别训练基于已有文本主题模型的学者学术成果摘要文本主题模型和基于多标签分类模型的研究兴趣标签识别模型,并对所训练的学术成果摘要文本主题模型和研究兴趣标签识别模型作存储处理,具体为:
提取结构化学者成果信息中各学者的学术成果摘要文本词序列,结合各学者的研究兴趣标签,输入基于已有文本主题模型的学术成果摘要文本主题模型,训练并保存完成训练的学术成果摘要文本主题模型;
将各学者的学术成果摘要文本词序列输入所保存的学术成果摘要文本主题模型,得到各学者所著学术成果的向量化表示T;
将各学者学术成果的向量化表示T与学者的研究兴趣标签输入基于多标签分类模型的研究兴趣标签识别模型,训练并保存完成训练的研究兴趣标签识别模型;
根据学术成果摘要文本主题模型和学者的研究兴趣标签归属概率建立学者研究兴趣知识图谱,并训练和存储一个基于知识图谱的图神经网络学者推荐模型;所述建立学者研究兴趣知识图谱,具体步骤为:
将各学者所述学术成果的向量化表示T作为各学者知识节点的特征表示N,即学者i的学者知识节点特征Ni为:
Ni=Ti
其中,Ti为学者i的学术成果的向量化表示;
由学者u指向学者v的知识节点间关系强度表示为:
将生成的各学者所著学术成果的向量化表示T输入所保存的研究兴趣标签识别模型,得到各学者对各研究兴趣标签的依属概率向量P;
其中,为研究兴趣标签与研究兴趣标签产生的学者研究兴趣标签数据中共现的次数,Nall为各无序二元研究兴趣标签对产生的学者研究兴趣标签数据中共现的次数;当两个研究兴趣标签均为同一学者的学者研究兴趣标签时,称以上两个研究兴趣标签构成的无序二元研究兴趣标签对共现一次;
整合各知识节点的特征与知识节点间的关系强度,形成和保存学者研究兴趣知识图谱;
基于学术成果摘要文本主题模型对需求文本进行处理,并利用所存储的基于知识图谱的图神经网络学者推荐模型计算需求学者推荐清单,具体为:
对实际需求文本进行预处理,包括:分词、统一字符的大小写或繁简体表征同一字符的字符形式、订正词语拼写错误与错别字、去除停用词和词干或词形统一,形成需求文本的文本词序列;
将生成的需求文本的文本词序列输入所保存的学术成果摘要文本主题模型,得到需求文本的向量化表示d;
设定任意学者知识节点间的关系偏好程度χ为0;
将各知识节点特征、知识节点间关系强度和知识节点间偏好程度输入保存的图神经网络KGLN,计算各学者知识节点的知识图谱嵌入;
将各学者知识节点的图嵌入输入保存的推荐神经网络,获得各学者针对当下实际需求文本的推荐概率;
将生成的各学者推荐概率降序排序,依据需求方的需求学者数量取前N个推荐概率最高的学者组成需求学者推荐清单,推荐顺序依照推荐概率排序。
2.根据权利要求1所述基于学者研究兴趣知识图谱的学者推荐方法,其特征在于,所述收集学者所有的学术成果信息,对学术成果当中的文本信息进行文本预处理,并进一步对学者的学术成果信息进行结构化处理,具体为:
从学术数据源中收集学者所有的学术成果数据,所收集的学术成果数据具体包括学术成果的作者、摘要与学术成果引用关系;
对所收集的学术成果的摘要文本的文本数据进行预处理,包括:分词、统一字符的大小写或繁简体表征同一字符的字符形式、订正词语拼写错误与错别字、去除停用词和词干或词形统一,形成各学术成果摘要的文本词序列;
对收集的所有学术成果进行编号和所收集学术成果数据中所有学者进行编号;将各学术成果以<学术成果编号,学术成果作者学者编号集合,引用学术成果编号集合>三元组形式进行结构化,形成结构化学术成果信息;
连接各学者所发表学术成果的摘要文本词序列,以<学者编号,学术成果文本词序列>二元组形式进行结构化,形成结构化学者成果信息。
3.根据权利要求1所述基于学者研究兴趣知识图谱的学者推荐方法,其特征在于,所述收集各学者的多个学术研究兴趣标签,并清洗和统一所收集的学者学术研究兴趣标签,具体为:
从学术数据源中收集或手动标识所有涉及学者的各NI个研究兴趣标签,研究兴趣标签可使用单词或词组表示;
对所收集的所有学者的研究兴趣标签进行清洗,合并词义相同或相近的研究兴趣标签,并对学者研究兴趣标签进行编号。
4.根据权利要求1所述基于学者研究兴趣知识图谱的学者推荐方法,其特征在于,所述训练和存储一个基于知识图谱的图神经网络学者推荐模型,具体为:
提取结构化学术成果信息中各学术成果的摘要文本词序列,输入所保存的学术成果摘要文本主题模型,得到各学术成果摘要的向量化表示d;
设定任意学者知识节点间的关系偏好程度χ为0;
将所保存的学者研究兴趣知识图谱和知识节点间关系的偏好程度代入图神经网络KGLN,计算各学者知识节点的图嵌入;
将各学者知识节点的图嵌入输入推荐神经网络,获得各学者针对各学术成果的推荐概率;
以各学术成果的作者为正确推荐目标,以平均交叉熵函数作为损失函数,训练图神经网络KGLN中的参数与推荐神经网络中的参数,并对训练完成的模型进行存储。
5.基于学者研究兴趣知识图谱的学者推荐系统,其特征在于,应用于权利要求1-4中任一项所述的基于学者研究兴趣知识图谱的学者推荐方法,包括数据收集模块、数据清洗模块、训练模块、兴趣知识图谱构建模块以及推荐模块;
所述数据收集模块,用于收集学者所有的学术成果信息,对学术成果当中的文本信息进行文本预处理,并进一步对学者的学术成果信息进行结构化处理;
所述数据清洗模块,用于收集各学者的多个学术研究兴趣标签,并清洗和统一所收集的学者学术研究兴趣标签;
所述训练模块,用于分别训练基于已有文本主题模型的学者学术成果摘要文本主题模型和基于多标签分类模型的研究兴趣标签识别模型,并对所训练的学术成果摘要文本主题模型和研究兴趣标签识别模型作存储处理;
所述兴趣知识图谱构建模块,用于根据学术成果摘要文本主题模型和学者的研究兴趣标签归属概率建立学者研究兴趣知识图谱,并训练和存储一个基于知识图谱的图神经网络学者推荐模型;
所述推荐模块,用于基于学术成果摘要文本主题模型对需求文本进行处理,并利用所存储的基于知识图谱的图神经网络学者推荐模型计算需求学者推荐清单。
6.一种计算机可读存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-4任一项所述的基于学者研究兴趣知识图谱的学者推荐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210022627.1A CN114547275B (zh) | 2022-01-10 | 2022-01-10 | 基于学者研究兴趣知识图谱的学者推荐方法、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210022627.1A CN114547275B (zh) | 2022-01-10 | 2022-01-10 | 基于学者研究兴趣知识图谱的学者推荐方法、系统及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114547275A CN114547275A (zh) | 2022-05-27 |
CN114547275B true CN114547275B (zh) | 2023-04-25 |
Family
ID=81669239
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210022627.1A Active CN114547275B (zh) | 2022-01-10 | 2022-01-10 | 基于学者研究兴趣知识图谱的学者推荐方法、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114547275B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722472A (zh) * | 2021-09-16 | 2021-11-30 | 北京市科学技术情报研究所 | 一种技术文献信息提取方法、系统及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111143672B (zh) * | 2019-12-16 | 2023-04-28 | 华南理工大学 | 基于知识图谱的专业特长学者推荐方法 |
CN112905891B (zh) * | 2021-03-05 | 2021-12-10 | 中国科学院计算机网络信息中心 | 基于图神经网络的科研知识图谱人才推荐方法及装置 |
-
2022
- 2022-01-10 CN CN202210022627.1A patent/CN114547275B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722472A (zh) * | 2021-09-16 | 2021-11-30 | 北京市科学技术情报研究所 | 一种技术文献信息提取方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114547275A (zh) | 2022-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106934012B (zh) | 一种基于知识图谱的自然语言问答实现方法和系统 | |
CN111475623A (zh) | 基于知识图谱的案件信息语义检索方法及装置 | |
CN111444344B (zh) | 实体分类方法、装置、计算机设备和存储介质 | |
CN103544242A (zh) | 面向微博的情感实体搜索系统 | |
CN111143569A (zh) | 一种数据处理方法、装置及计算机可读存储介质 | |
CN112163097A (zh) | 一种军事知识图谱构建方法及系统 | |
CN111914550A (zh) | 一种面向限定领域的知识图谱更新方法及系统 | |
CN113868406B (zh) | 搜索方法、系统、计算机可读存储介质 | |
Pratama et al. | Weighted inverse document frequency and vector space model for hadith search engine | |
CN114840685A (zh) | 一种应急预案知识图谱构建方法 | |
Ma et al. | Matching descriptions to spatial entities using a siamese hierarchical attention network | |
CN113610626A (zh) | 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质 | |
CN114547275B (zh) | 基于学者研究兴趣知识图谱的学者推荐方法、系统及介质 | |
CN110750632B (zh) | 一种改进的中文alice智能问答方法及系统 | |
CN117033816A (zh) | 停车推荐方法、装置、电子设备及存储介质 | |
CN117010373A (zh) | 一种电力设备资产管理数据所属类别和组的推荐方法 | |
CN109582958B (zh) | 一种灾难故事线构建方法及装置 | |
Ciravegna et al. | LODIE: Linked Open Data for Web-scale Information Extraction. | |
CN114528393B (zh) | 一种学者研究兴趣标签挖掘与演变分析方法、系统及介质 | |
Liu et al. | Research on entity relation extraction based on BiLSTM-CRF classical probability word problems | |
Ali et al. | Graph-based semantic learning, representation and growth from text: A systematic review | |
Sieminski et al. | Modern approaches for intelligent information and database systems | |
CN114090778A (zh) | 基于知识锚点的检索方法、装置、电子设备及存储介质 | |
Sun et al. | ASRC: A Knowledge Graph Relation Construction Model based on Active Learning and Semantic Recognition | |
CN111914201A (zh) | 网络页面的处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |