CN117114105B - 基于科研大数据信息的目标对象推荐方法和系统 - Google Patents
基于科研大数据信息的目标对象推荐方法和系统 Download PDFInfo
- Publication number
- CN117114105B CN117114105B CN202311388218.4A CN202311388218A CN117114105B CN 117114105 B CN117114105 B CN 117114105B CN 202311388218 A CN202311388218 A CN 202311388218A CN 117114105 B CN117114105 B CN 117114105B
- Authority
- CN
- China
- Prior art keywords
- scientific research
- research information
- node
- knowledge graph
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011160 research Methods 0.000 title claims abstract description 246
- 238000000034 method Methods 0.000 title claims abstract description 36
- 239000011159 matrix material Substances 0.000 claims abstract description 34
- 238000011156 evaluation Methods 0.000 claims abstract description 33
- 238000007781 pre-processing Methods 0.000 claims description 17
- 238000001228 spectrum Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 13
- 238000010801 machine learning Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000003058 natural language processing Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 2
- 230000008520 organization Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Finance (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于科研大数据信息的目标对象推荐方法和系统。本发明面向以整个国别为尺度的科研大数据信息范围下的目标学科领域对象推荐,通过自动构建学科领域科研信息知识图谱并利用该知识图谱确定推荐关联的科研信息集合,能够提高推荐的准确性和关联度;进而通过波士顿矩阵方法,基于推荐关联的科研信息集合,计算表征学科领域科研水平和合作倾向度的评价指标,基于评价指标实现目标学科领域对象推荐。
Description
技术领域
本发明涉及大数据推荐技术领域,特别涉及一种基于科研大数据信息的目标对象推荐方法和系统。
背景技术
随着网络、数据库等技术和人工智能算法的进步,大数据当中蕴含的潜在的、规律性的有价值信息被越来越深入的挖掘和应用。其中,基于大数据信息实现推荐是一个主要的应用方向,例如通过消费订单大数据信息的分析,向潜在用户推荐感兴趣的商品,基于用户对文章、短视频等浏览记录的大数据信息分析为用户推送可能感兴趣的内容等。
在学术平台、专门数据库中存放着海量的论文、专利、学术会议发言、技术资料等科研大数据信息,并且其中部分信息具有引用关系等标引,其范围往往覆盖了全球的主要国家,是非常重要的大数据资源。目前多数的数据库和平台基于科研大数据信息,支持利用关键词的检索和引文追踪等基本功能,也可以提供图表形式的可视化界面。
但是,在基于科研大数据信息的目标对象推荐方面尚缺乏有效的技术手段,特别是对科研合作,在以整个国别为尺度的科研信息范围下,目标学科领域的对象推荐方面,仍然存在明显的不足。
目前,科研人员在寻找某个具体的潜在合作对象时,尚可以通过常规的论文或专利等科研信息的检索、追踪和统计排序等手段实现。但是在上述国别尺度下的目标学科领域对象推荐来说,需要花费大量时间和精力在各种科研信息的平台和数据库中查找该国别各个学科领域相关的专利和论文等科研信息。由于科研数据库庞大且信息分散,基于关键词搜索、追踪检索等方法存在信息检索不准确、关联度低、样本代表性不足等问题,目前的数据检索结果往往只能提供基本的作者等专利和论文信息,无法全面评估国别尺度下各学科领域科研合作的能力和潜力。并且也缺乏科学、精确的评估维度和量化手段实现对潜在科研合作的学科领域推荐程度的分析,导致无法给出目标对象的有效推荐。
发明内容
(一)发明目的
鉴于上述问题,本发明的目的是提出一种基于科研大数据信息的目标对象推荐方法和系统。本发明面向以整个国别为尺度的科研大数据信息范围下的目标学科领域对象推荐,通过自动构建学科领域科研信息知识图谱并利用该知识图谱确定推荐关联的科研信息集合,能够提高推荐的准确性和关联度;进而通过波士顿矩阵方法,基于推荐关联的科研信息集合,计算表征学科领域科研水平和合作倾向度的评价指标,基于评价指标实现目标学科领域对象推荐。
(二)技术方案
为了解决以上技术问题,本发明公开了以下技术方案。
作为本发明的第一方面,本发明公开了一种基于科研大数据信息的目标对象推荐方法,其特征在于,包括:
以整个国别为尺度采集科研大数据信息,并进行数据预处理;
基于数据预处理之后的科研大数据信息,通过自然语言处理模型进行实体和关系抽取识别,建立初步科研信息知识图谱;
针对初步科研信息知识图谱,利用机器学习模型进行其中实体节点的规范化以及关联关系的预测,获得优化的科研信息知识图谱;
针对优化的科研信息知识图谱,提取确定与目标学科领域对象推荐相关联的科研信息集合;
通过波士顿矩阵方法,基于推荐关联的科研信息集合,计算表征学科领域科研水平和合作倾向度的评价指标,基于评价指标实现目标学科领域对象推荐。
优选的是,所述数据预处理包括文本清洗、去除重复数据、提取关键词。
优选的是,所述初步科研信息知识图谱存储在图数据库中,并建立索引以支持快速查询。
优选的是,所述机器学习模型包括采用R-GNN神经网络的图谱编码器和图谱解码器。
优选的是,所述图谱编码器针对输入的初步科研信息知识图谱中的每个表示实体的节点,其网络层计算该节点的特征表示;该图谱编码器最后一层网络层输出的特征表示连接到用于节点归类的第一Softmax分类层;所述第一Softmax分类层输出该节点的类别概率;根据类别概率属于同一类的节点在科研信息知识图谱中归类为同一实体族。
优选的是,所述图谱解码器对知识图谱中的任意两个节点进行两两搭配,将图谱编码器针对所述任意两个节点产生的特征输出按照该图谱解码器的参数矩阵进行两两组合,计算出节点组合特征;图谱解码器的输出连接到一个用于节点关联关系预测的第二Softmax分类层;所述第二Softmax分类层所输出的科研信息知识图谱当中任意2个节点之间具备关联关系的概率。
优选的是,针对优化的科研信息知识图谱,提取确定与目标学科领域对象推荐相关联的科研信息集合具体包括:基于优化的科研信息知识图谱,利用其中的实体节点和关联关系,以批量化数据搜索和提取的手段,获得匹配的科研信息,并汇总为与目标学科领域对象推荐相关联的科研信息集合。
优选的是,所述批量化数据搜索和提取的手段具体包括:针对国别尺度下的任何一个学科领域,确定该学科领域相关的数据搜索条件,从所述优化的科研信息知识图谱中搜索对应的实体节点,再根据实体节点的关联关系进一步扩充数据搜索条件,多轮迭代直至最终获得匹配的科研信息。
优选的是,对于纳入所述科研信息集合的专利、论文、学术会议发言、技术资料等科研信息,统计计算该集合中学科领域相关的合作科研信息数量、合作科研信息增长率、合作科研信息中高被引数、合作科研信息中热点数指标,作为合作倾向度的评价指标;从该科研信息集合中统计计算学科领域相关的科研信息数量、科研信息增长率、科研信息中高被引数、科研信息中热点数指标,作为学科领域水平的评价指标。
本发明公开的一种基于科研大数据信息的目标对象推荐系统,包括:
数据采集模块,用于以整个国别为尺度采集科研大数据信息,并进行数据预处理;
科研信息知识图谱构建模块,用于基于数据预处理之后的科研大数据信息,通过自然语言处理模型进行实体和关系抽取识别,建立初步科研信息知识图谱;
知识图谱优化模块,针对初步科研信息知识图谱,利用机器学习模型进行其中实体节点的规范化以及关联关系的预测,获得优化的科研信息知识图谱;
科研信息集合提取模块,针对优化的科研信息知识图谱,提取确定与目标学科领域对象推荐相关联的科研信息集合;
目标推荐模块,用于通过波士顿矩阵方法,基于推荐关联的科研信息集合,计算表征学科领域科研水平和合作倾向度的评价指标,基于评价指标实现目标学科领域对象推荐。
(三)有益效果
本发明面向以整个国别为尺度的科研大数据信息范围下的目标学科领域对象推荐,通过自动构建学科领域科研信息知识图谱并利用该知识图谱确定推荐关联的科研信息集合,能够提高推荐的准确性和关联度;进而通过波士顿矩阵方法,基于推荐关联的科研信息集合,计算表征学科领域科研水平和合作倾向度的评价指标,基于评价指标实现目标学科领域对象推荐。
附图说明
以下参考附图描述的实施例是示例性的,旨在用于解释和说明本发明,而不能理解为对本发明的保护范围的限制。
图1是本发明公开的一种基于科研大数据信息的目标对象推荐方法的流程图。
图2是本发明公开的一种基于科研大数据信息的目标对象推荐系统的结构图。
具体实施方式
为使本发明实施的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行更加详细的描述。
需要说明的是:在附图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本发明一部分实施例,而不是全部的实施例,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
鉴于上述问题,本发明的目的是提出一种基于科研大数据信息的目标对象推荐方法和系统。
下面参考图1,详细描述本发明公开的一种基于科研大数据信息的目标对象推荐方法,主要包括以下步骤:
S100、以整个国别为尺度采集科研大数据信息,并进行数据预处理。
本步骤中,从各类学术平台或专门数据库中,以整个国别为尺度收集该国别相关的科研大数据信息,被收集的科研信息包括某个特定国别相关的专利、论文、学术会议发言、技术资料等。其中特定国别相关指的是通过科研信息包含的论文作者国籍、专利发明人国籍、研究机构地址等方面的信息,能够确定该科研信息与特定的国别相关。其中,如果被收集的科研信息中的部分作者、发明人、研究机构地址等与特定国别相关,其他作者、发明人、研究机构地址等与其他国别相关,则也纳入特定国别相关的科研信息。具体来说,可以利用查询检索、数据导出、爬虫等技术手段,完成从学术平台的网页或者专门数据库中收集以上科研信息。
本步骤中,对收集到的科研信息进行数据预处理,所述数据预处理包括文本清洗、去除重复数据、提取关键词等操作,以便后续的知识图谱构建。
S200、基于数据预处理之后的科研大数据信息,通过自然语言处理模型进行实体和关系抽取识别,建立初步科研信息知识图谱。
本步骤中,可以采用现有的自然语言处理模型——例如BERT模型等,实现从数据预处理之后的科研大数据信息中进行知识图谱实体的抽取和识别,进而,将科研信息中的实体转化为所述初步科研信息知识图谱中的节点。从科研大数据信息中抽取的实体包括论文、专利等科研信息的作者姓名、作者单位名称、科研机构名、专利发明人姓名、专利申请单位、国别、学科领域、主题词、引用文献、被引用文献等。
本步骤中,进而通过关系抽取识别算法,提取科研信息的关联关系,如作者合作、文献引用关系等,进而将以上关联关系转化为所述初步科研信息知识图谱中的边,所述边连接具有关联关系的所述实体。
本步骤中,进而将构建好的所述初步科研信息知识图谱存储在图数据库中,并建立索引以支持快速查询。
S300、针对初步科研信息知识图谱,利用机器学习模型进行其中实体节点的规范化以及关联关系的预测,获得优化的科研信息知识图谱。
对于上述初步科研信息知识图谱,其中可能存在表示科研信息的作者姓名、作者单位名称、科研机构名、专利发明人姓名、专利申请单位、国别、学科领域、主题词、引用文献、被引用文献等实体的节点重复、分散的不规范问题,以及表示以上实体的关联关系建立不完整的问题,这些问题会导致后续执行目标学科领域对象推荐时,其确定的科研信息范围不准确、推荐相关的评价指标统计计算不准确的问题。为了克服以上问题,需要本步骤中利用机器学习模型,执行实体节点的规范化以及关联关系的预测,获得优化的科研信息知识图谱。
具体来说,所述机器学习模型包括采用R-GNN神经网络的图谱编码器和图谱解码
器。图谱编码器表示为,其中表示输入该编码器的知识图谱,即上述初步科研信息
知识图谱;是该图谱编码器的R-GNN神经网络各网络层的所有参数矩阵构成的参数向量,
该图谱编码器共计层网络层,每一层网络层的参数矩阵列表示为,其中。图
谱编码器针对知识图谱中的每个表示实体的节点 , ,在其第层网络层计算该
节点的特征表示:;这里是节点的图谱编码器第层的输
出特征, 表示激活函数,表示和节点有关联关系的节点
集合, , 表示集合元素的个数。该图谱编码器的输出,也即其第层网络
层的输出连接到一个用于节点归类的第一Softmax分类层以及图谱解码器。
第一Softmax分类层的输出,向量 是K维的一个向量,其中
第个元素 , , ,
是节点的类型数目,表示的是第i个节点属于第k类的概率。对于经第一Softmax分类层
确定属于同一类的节点,可以在科研信息知识图谱中归类为同一实体族,从而解决了初步
科研信息知识图谱中的实体节点重复、分散的不规范问题。
图谱解码器表示为其中表示图谱编码器的最后一层网络层的所
有输出特征构成的矩阵,即,其中是图谱解码器的R-GNN神经网络各网
络层的所有参数矩阵构成的参数向量。图谱解码器对知识图谱中的任意两个节点和进
行两两搭配,即将图谱编码器针对以上2个节点产生的特征输出和按照该图谱解码器
的参数矩阵进行两两组合,计算出节点组合特征。
图谱解码器的输出连接到一个用于节点关联关系预测的第二Softmax分类层;所
述第二Softmax分类层计算,表示所述节点和之间是否存在关联关系的
概率。根据第二Softmax分类层所输出的科研信息知识图谱当中任意2个节点之间具备关联
关系的概率,当作者合作、文献引用关系、共同学科领域、共同主题词等关系的预测概率高
于阈值,则对2个节点之间补充关联关系。
本步骤中,经过上述实体节点规范化为实体族以及关联关系的预测补充,最终获得优化的科研信息知识图谱。
S400、针对优化的科研信息知识图谱,提取确定与目标学科领域对象推荐相关联的科研信息集合。
本步骤中,可以基于优化的科研信息知识图谱,利用其中的实体节点和关联关系,以批量化数据搜索和提取的手段,获得匹配的专利、论文、学术会议发言、技术资料等科研信息,并将这些信息汇总为与目标学科领域对象推荐相关联的科研信息集合。例如,针对国别尺度下的任何一个学科领域,确定该学科领域相关的作者姓名、作者单位名称、科研机构名、专利发明人姓名、专利申请单位、主题词等数据搜索条件,从所述优化的科研信息知识图谱中搜索对应的实体节点,再根据实体节点的关联关系,进一步扩充数据搜索条件,继而进一步匹配,多轮迭代直至最终获得匹配的专利、论文、学术会议发言、技术资料等批量的科研信息,并将这些信息汇总为与目标学科领域对象推荐相关联的科研信息集合。以优化的科研信息知识图谱为依据建立推荐关联的科研信息集合,能够提高推荐的准确性和关联度;
S500、通过波士顿矩阵方法,基于推荐关联的科研信息集合,计算表征学科领域科研水平和合作倾向度的评价指标,基于评价指标实现目标学科领域对象推荐。
本步骤中,将学科领域水平和合作倾向度,作为在整个国别的尺度上测度和评估该特定国别的各个学科领域是否作为推荐的目标学科领域对象的标准
其中,对于纳入所述科研信息集合的专利、论文、学术会议发言、技术资料等科研信息,统计计算该集合中学科领域相关的合作科研信息数量、合作科研信息增长率、合作科研信息中高被引数、合作科研信息中热点数指标,作为合作倾向度的评价指标。以上指标的具体定义如下:在所述科研信息集合中,该特定国别在指定学科领域和统计时间区间内包含与其他国别合作的专利、论文、学术会议发言、技术资料等科研信息的总数量;合作科研信息增长率是针对两个统计期间[t1,t2]和[t3,t4](t3≥t2),在[t3,t4]期间包含的合作科研信息数量相比于在[t1,t2] 期间的合作科研信息数量的增长量与[t1,t2]期间的合作科研信息数量的比值;合作科研信息中高被引数是该特定国别在指定学科领域和统计区间内,在统计时间段累计被引用次数进入本科研信息集合前 1%的合作科研信息数量;科研信息中热点数是该特定国别在指定学科领域和统计时间区间内,在临近当前时间的预定时间段内被引用次数进入本学科领域前1‰的合作科研信息数量。
并且,从该科研信息集合中统计计算学科领域相关的科研信息数量、科研信息增长率、科研信息中高被引数、科研信息中热点数指标,作为学科领域水平的评价指标。以上指标具体定义如下:科研信息数量是在所述科研信息集合中,该特定国别在指定学科领域和统计时间区间内包含的专利、论文、学术会议发言、技术资料等科研信息的总数量;科研信息增长率是针对两个统计期间[t1,t2]和[t3,t4](t3≥t2),在[t3,t4]期间包含的科研信息数量相比于在[t1,t2] 期间的科研信息数量的增长量与[t1,t2]期间的科研信息数量的比值;科研信息中高被引数是该特定国别在指定学科领域和统计区间内,在统计时间段累计被引用次数进入本科研信息集合前 1%的科研信息数量;科研信息中热点数是该特定国别在指定学科领域和统计时间区间内,在临近当前时间的预定时间段内被引用次数进入本学科领域前1‰的科研信息数量。
本步骤中,在学科领域水平和合作倾向度两个方面,从各个评价指标中分别选择
一个指标分别作为矩阵的横纵轴;计算特定国别的各个学科领域中以上被选择指标的十分
位数值,作为坐标原点,构建矩阵;不同学科领域根据指标表现分布在矩阵的不同象限中。
具体来说,如果该特定国别的一个学科领域位于矩阵第一象限,说明在该学科领域的学科
领域水平和合作倾向度都很高,则该学科领域可以作为推荐的目标学科领域对象,赋予权
值=1。位于第二象限和第四象限的学科领域,属于次一级备选的推荐对象,位于第二象限
的学科领域的合作倾向度较高,但学科领域水平相对较低;第四象限的学科领域水平相对
较高,但合作倾向度较低。位于第三象限的学科领域不作为推荐的目标学科领域对象。
进而,本发明公开的一种基于科研大数据信息的目标对象推荐系统,包括:
数据采集模块,用于以整个国别为尺度采集科研大数据信息,并进行数据预处理;
科研信息知识图谱构建模块,用于基于数据预处理之后的科研大数据信息,通过自然语言处理模型进行实体和关系抽取识别,建立初步科研信息知识图谱;
知识图谱优化模块,针对初步科研信息知识图谱,利用机器学习模型进行其中实体节点的规范化以及关联关系的预测,获得优化的科研信息知识图谱;
科研信息集合提取模块,针对优化的科研信息知识图谱,提取确定与目标学科领域对象推荐相关联的科研信息集合;
目标推荐模块,用于通过波士顿矩阵方法,基于推荐关联的科研信息集合,计算表征学科领域科研水平和合作倾向度的评价指标,基于评价指标实现目标学科领域对象推荐。
可见,本发明面向以整个国别为尺度的科研大数据信息范围下的目标学科领域对象推荐,通过自动构建学科领域科研信息知识图谱并利用该知识图谱确定推荐关联的科研信息集合,能够提高推荐的准确性和关联度;进而通过波士顿矩阵方法,基于推荐关联的科研信息集合,计算表征学科领域科研水平和合作倾向度的评价指标,基于评价指标实现目标学科领域对象推荐。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (4)
1.一种基于科研大数据信息的目标对象推荐方法,其特征在于,包括:
以整个国别为尺度采集科研大数据信息,并进行数据预处理;
基于数据预处理之后的科研大数据信息,通过自然语言处理模型进行实体和关系抽取识别,建立初步科研信息知识图谱;
针对初步科研信息知识图谱,利用机器学习模型进行其中实体节点的规范化以及关联关系的预测,获得优化的科研信息知识图谱;所述机器学习模型包括采用R-GNN神经网络的图谱编码器和图谱解码器;所述图谱编码器针对输入的初步科研信息知识图谱中的每个表示实体的节点,其网络层计算该节点的特征表示;图谱编码器表示为,其中/>表示输入该编码器的所述初步科研信息知识图谱;/>是该图谱编码器的R-GNN神经网络各网络层的所有参数矩阵构成的参数向量,该图谱编码器共计/>层网络层,每一层网络层的参数矩阵列表示为/>,其中/>;图谱编码器针对所述初步科研信息知识图谱/>中的每个表示实体的节点/>,/>,在其第/>层网络层计算该节点的特征表示:;这里/>是节点/>的图谱编码器第层的输出特征,/>表示激活函数,/>表示和节点/>有关联关系/>的节点集合,/> , />表示集合/>元素的个数;该图谱编码器最后一层网络层输出的特征表示连接到用于节点归类的第一Softmax分类层;所述第一Softmax分类层输出该节点的类别概率;根据类别概率属于同一类的节点在科研信息知识图谱中归类为同一实体族;所述第一Softmax分类层的输出/>,向量是/>维的一个向量,其中第/>个元素/>,/>,,/>是节点的类型数目,/>表示的是第i个节点属于第k类的概率;所述图谱解码器对知识图谱中的任意两个节点进行两两搭配,将图谱编码器针对所述任意两个节点产生的特征输出按照该图谱解码器的参数矩阵进行两两组合,计算出节点组合特征;所述图谱解码器表示为/>,其中/>表示图谱编码器/>的最后一层网络层的所有输出特征构成的矩阵,即/>,其中/>是图谱解码器的R-GNN神经网络各网络层的所有参数矩阵/>构成的参数向量;图谱解码器对知识图谱中的任意两个节点/>和/>进行两两搭配,即将图谱编码器针对以上2个节点产生的特征输出/>和/>按照该图谱解码器的参数矩阵/>进行两两组合,计算出节点组合特征/>;图谱解码器的输出连接到一个用于节点关联关系预测的第二Softmax分类层;所述第二Softmax分类层所输出的科研信息知识图谱当中任意2个节点之间具备关联关系的概率;所述第二Softmax分类层计算/>,/>表示所述节点/>和/>之间是否存在关联关系的概率;根据第二Softmax分类层所输出的科研信息知识图谱当中任意2个节点之间具备关联关系的概率,当预测概率高于阈值,则对2个节点之间补充关联关系;针对优化的科研信息知识图谱,利用其中的实体节点和关联关系,以批量化数据搜索和提取的手段,从所述优化的科研信息知识图谱中搜索对应的实体节点,再根据实体节点的关联关系,进一步扩充数据搜索条件,继而进一步匹配,多轮迭代直至最终获得匹配的科研信息,汇总为与目标学科领域对象推荐相关联的科研信息集合;
通过波士顿矩阵方法,基于推荐关联的科研信息集合,计算表征学科领域科研水平和合作倾向度的评价指标,包括统计计算所述科研信息集合中学科领域相关的合作科研信息数量、合作科研信息增长率、合作科研信息中高被引数、合作科研信息中热点数指标,作为合作倾向度的评价指标;从该科研信息集合中统计计算学科领域相关的科研信息数量、科研信息增长率、科研信息中高被引数、科研信息中热点数指标,作为学科领域水平的评价指标;学科领域的科研水平和合作倾向度两个方面,从各个评价指标中分别选择一个指标分别作为矩阵的横纵轴;计算特定国别的各个学科领域中以上被选择指标的十分位数值,作为坐标原点,构建波士顿矩阵;不同学科领域根据指标表现分布在矩阵的不同象限中,基于评价指标实现目标学科领域对象推荐,特定国别的一个学科领域位于矩阵第一象限,则将该学科领域作为推荐的目标学科领域对象,特定国别的一个学科领域位于第二象限和第四象限,则作为次一级备选的推荐对象,特定国别的学科领域位于第三象限不作为推荐的目标学科领域对象。
2.根据权利要求1所述的基于科研大数据信息的目标对象推荐方法,其特征在于,所述数据预处理包括文本清洗、去除重复数据、提取关键词。
3.根据权利要求1所述的基于科研大数据信息的目标对象推荐方法,其特征在于,所述初步科研信息知识图谱存储在图数据库中,并建立索引以支持快速查询。
4.一种基于科研大数据信息的目标对象推荐系统,其特征在于,包括:
数据采集模块,用于以整个国别为尺度采集科研大数据信息,并进行数据预处理;
科研信息知识图谱构建模块,用于基于数据预处理之后的科研大数据信息,通过自然语言处理模型进行实体和关系抽取识别,建立初步科研信息知识图谱;
知识图谱优化模块,针对初步科研信息知识图谱,利用机器学习模型进行其中实体节点的规范化以及关联关系的预测,获得优化的科研信息知识图谱;所述机器学习模型包括采用R-GNN神经网络的图谱编码器和图谱解码器;所述图谱编码器针对输入的初步科研信息知识图谱中的每个表示实体的节点,其网络层计算该节点的特征表示;图谱编码器表示为,其中/>表示输入该编码器的所述初步科研信息知识图谱;/>是该图谱编码器的R-GNN神经网络各网络层的所有参数矩阵构成的参数向量,该图谱编码器共计/>层网络层,每一层网络层的参数矩阵列表示为/>,其中/>;图谱编码器针对所述初步科研信息知识图谱/>中的每个表示实体的节点/>,/>,在其第/>层网络层计算该节点的特征表示:/>;这里/>是节点/>的图谱编码器第/>层的输出特征,/>表示激活函数,/>表示和节点/>有关联关系/>的节点集合,/> , />表示集合/>元素的个数;该图谱编码器最后一层网络层输出的特征表示连接到用于节点归类的第一Softmax分类层;所述第一Softmax分类层输出该节点的类别概率;根据类别概率属于同一类的节点在科研信息知识图谱中归类为同一实体族;所述第一Softmax分类层的输出,向量 />是/>维的一个向量,其中第/>个元素,/>,/>,/>是节点的类型数目,/>表示的是第i个节点属于第k类的概率;所述图谱解码器对知识图谱中的任意两个节点进行两两搭配,将图谱编码器针对所述任意两个节点产生的特征输出按照该图谱解码器的参数矩阵进行两两组合,计算出节点组合特征;所述图谱解码器表示为/>,其中/>表示图谱编码器/>的最后一层网络层的所有输出特征构成的矩阵,即/>,其中/>是图谱解码器的R-GNN神经网络各网络层的所有参数矩阵/>构成的参数向量;图谱解码器对知识图谱中的任意两个节点/>和/>进行两两搭配,即将图谱编码器针对以上2个节点产生的特征输出/>和/>按照该图谱解码器的参数矩阵/>进行两两组合,计算出节点组合特征/>;图谱解码器的输出连接到一个用于节点关联关系预测的第二Softmax分类层;所述第二Softmax分类层所输出的科研信息知识图谱当中任意2个节点之间具备关联关系的概率;所述第二Softmax分类层计算/>,/>表示所述节点/>和/>之间是否存在关联关系的概率;根据第二Softmax分类层所输出的科研信息知识图谱当中任意2个节点之间具备关联关系的概率,当预测概率高于阈值,则对2个节点之间补充关联关系;科研信息集合提取模块,针对优化的科研信息知识图谱,利用其中的实体节点和关联关系,以批量化数据搜索和提取的手段,从所述优化的科研信息知识图谱中搜索对应的实体节点,再根据实体节点的关联关系,进一步扩充数据搜索条件,继而进一步匹配,多轮迭代直至最终获得匹配的科研信息,汇总为与目标学科领域对象推荐相关联的科研信息集合;
目标推荐模块,用于通过波士顿矩阵方法,基于推荐关联的科研信息集合,计算表征学科领域科研水平和合作倾向度的评价指标,包括统计计算所述科研信息集合中学科领域相关的合作科研信息数量、合作科研信息增长率、合作科研信息中高被引数、合作科研信息中热点数指标,作为合作倾向度的评价指标;从该科研信息集合中统计计算学科领域相关的科研信息数量、科研信息增长率、科研信息中高被引数、科研信息中热点数指标,作为学科领域水平的评价指标;学科领域的科研水平和合作倾向度两个方面,从各个评价指标中分别选择一个指标分别作为矩阵的横纵轴;计算特定国别的各个学科领域中以上被选择指标的十分位数值,作为坐标原点,构建波士顿矩阵;不同学科领域根据指标表现分布在矩阵的不同象限中,基于评价指标实现目标学科领域对象推荐,特定国别的一个学科领域位于矩阵第一象限,则将该学科领域作为推荐的目标学科领域对象,特定国别的一个学科领域位于第二象限和第四象限,则作为次一级备选的推荐对象,特定国别的学科领域位于第三象限不作为推荐的目标学科领域对象。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311388218.4A CN117114105B (zh) | 2023-10-25 | 2023-10-25 | 基于科研大数据信息的目标对象推荐方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311388218.4A CN117114105B (zh) | 2023-10-25 | 2023-10-25 | 基于科研大数据信息的目标对象推荐方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117114105A CN117114105A (zh) | 2023-11-24 |
CN117114105B true CN117114105B (zh) | 2024-01-30 |
Family
ID=88800674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311388218.4A Active CN117114105B (zh) | 2023-10-25 | 2023-10-25 | 基于科研大数据信息的目标对象推荐方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117114105B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287269A (zh) * | 2019-05-14 | 2019-09-27 | 北京邮电大学 | 一种基于复合层次分析的数据处理分类方法和装置 |
CN111309824A (zh) * | 2020-02-18 | 2020-06-19 | 中国工商银行股份有限公司 | 实体关系图谱显示方法及系统 |
CN112905891A (zh) * | 2021-03-05 | 2021-06-04 | 中国科学院计算机网络信息中心 | 基于图神经网络的科研知识图谱人才推荐方法及装置 |
WO2021235617A1 (ko) * | 2020-05-20 | 2021-11-25 | 위인터랙트 주식회사 | 과학기술 지식정보 추천 시스템 및 그 방법 |
CN115470339A (zh) * | 2022-07-28 | 2022-12-13 | 北京万方软件有限公司 | 基于科技大数据知识图谱的技术诊断专家智能匹配算法 |
-
2023
- 2023-10-25 CN CN202311388218.4A patent/CN117114105B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287269A (zh) * | 2019-05-14 | 2019-09-27 | 北京邮电大学 | 一种基于复合层次分析的数据处理分类方法和装置 |
CN111309824A (zh) * | 2020-02-18 | 2020-06-19 | 中国工商银行股份有限公司 | 实体关系图谱显示方法及系统 |
WO2021235617A1 (ko) * | 2020-05-20 | 2021-11-25 | 위인터랙트 주식회사 | 과학기술 지식정보 추천 시스템 및 그 방법 |
CN112905891A (zh) * | 2021-03-05 | 2021-06-04 | 中国科学院计算机网络信息中心 | 基于图神经网络的科研知识图谱人才推荐方法及装置 |
CN115470339A (zh) * | 2022-07-28 | 2022-12-13 | 北京万方软件有限公司 | 基于科技大数据知识图谱的技术诊断专家智能匹配算法 |
Non-Patent Citations (2)
Title |
---|
科技大数据知识图谱构建方法及应用研究综述;周园春等;中国科学 : 信息科学;第50卷(第7期);第957-987 * |
网络表示学习在学者科研合作预测中的应用研究;林原;王凯巧;刘海峰;许侃;丁堃;孙晓玲;;情报学报(04);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117114105A (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109165840B (zh) | 风险预测处理方法、装置、计算机设备和介质 | |
CN107066599B (zh) | 一种基于知识库推理的相似上市公司企业检索分类方法及系统 | |
CN107577688B (zh) | 基于媒体信息采集的原创文章影响力分析系统 | |
CN107944035B (zh) | 一种融合视觉特征和用户评分的图像推荐方法 | |
CN110458324B (zh) | 风险概率的计算方法、装置和计算机设备 | |
CN111680176A (zh) | 基于注意力与双向特征融合的遥感图像检索方法及系统 | |
CN109063921B (zh) | 客户风险预警的优化处理方法、装置、计算机设备和介质 | |
CN113422761B (zh) | 基于对抗学习的恶意社交用户检测方法 | |
CN108595414A (zh) | 基于源汇空间变量推理的土壤重金属企业污染源识别方法 | |
CN115934990B (zh) | 基于内容理解的遥感影像推荐方法 | |
CN113449111B (zh) | 基于时空语义知识迁移的社会治理热点话题自动识别方法 | |
CN110990718A (zh) | 一种公司形象提升系统的社会网络模型构建模块 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN115794803A (zh) | 一种基于大数据ai技术的工程审计问题监测方法与系统 | |
Yi-bin et al. | Improvement of ID3 algorithm based on simplified information entropy and coordination degree | |
CN113127464A (zh) | 农业大数据环境特征处理方法、装置及电子设备 | |
CN117114105B (zh) | 基于科研大数据信息的目标对象推荐方法和系统 | |
CN106816871B (zh) | 一种电力系统状态相似性分析方法 | |
CN112506930B (zh) | 一种基于机器学习技术的数据洞察系统 | |
CN114860903A (zh) | 一种面向网络安全领域的事件抽取、分类和融合方法 | |
CN114722920A (zh) | 一种基于图分类的深度图卷积模型钓鱼账户识别方法 | |
CN117556118B (zh) | 基于科研大数据预测的可视化推荐系统及方法 | |
CN112417322B (zh) | 一种面向兴趣点名称文本的类型判别方法及系统 | |
CN111723223B (zh) | 一种基于主体推断的多标签图像检索方法 | |
CN113537734B (zh) | 基于最大相关最小冗余的能源数据应用目录提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |