CN116756373A - 基于知识图谱更新的项目评审专家筛选方法、系统及介质 - Google Patents
基于知识图谱更新的项目评审专家筛选方法、系统及介质 Download PDFInfo
- Publication number
- CN116756373A CN116756373A CN202310263172.7A CN202310263172A CN116756373A CN 116756373 A CN116756373 A CN 116756373A CN 202310263172 A CN202310263172 A CN 202310263172A CN 116756373 A CN116756373 A CN 116756373A
- Authority
- CN
- China
- Prior art keywords
- expert
- knowledge graph
- names
- information
- experts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012552 review Methods 0.000 title claims abstract description 82
- 238000012216 screening Methods 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000004801 process automation Methods 0.000 claims abstract description 26
- 239000013598 vector Substances 0.000 claims description 55
- 238000013507 mapping Methods 0.000 claims description 40
- 238000011160 research Methods 0.000 claims description 37
- 230000007246 mechanism Effects 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 18
- 238000010276 construction Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 9
- 238000011835 investigation Methods 0.000 claims description 8
- 230000001502 supplementing effect Effects 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013549 information retrieval technique Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/83—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/81—Indexing, e.g. XML tags; Data structures therefor; Storage structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于知识图谱更新的项目评审专家筛选方法、系统及介质,属于计算机数据遴选技术领域,筛选方法包括:利用预先建立的流程自动化机器人定期从公开数据源自动收集专家相关信息,形成半结构化数据存入关系型数据库,获得专家信息数据库;基于专家信息数据库的半结构化数据设置三元组模式,自动从专家信息数据库中读取数据,构建专家知识图谱;根据待评审项目,结合回避策略,从专家知识图谱中搜索出评审专家。在获得专家信息数据库之后还包括对于新增入库专家进行同名消歧处理的步骤。本发明可以实现专家信息数据库自动更新,结合知识图谱搜索合适的项目评审专家,提升专家遴选效率,具有较大的工程应用价值和推广前景。
Description
技术领域
本发明属于计算机数据遴选技术领域,具体涉及一种基于知识图谱更新的项目评审专家筛选方法、系统及介质。
背景技术
在项目立项、执行、验收以及评奖阶段,评审专家遴选不仅要考虑专家的专业匹配度,还要遵循“回避原则”。在传统的科技咨询专家推荐工作中,大多凭项目管理人员的主观人工推荐,存在效率不高、工作量大、缺乏科学性等问题,专家信息的管理机制、专业结构及遴选方式有待完善。
早期的专家遴选工作主要使用标准的信息检索技术在专家库中查找给定主题的专家。近年来,研究人员开始探讨将概率模型、语言模型等复杂的信息检索方法与技术应用于专家遴选中,通过对“专家—文档”关系以及“文档—查询主题”关系进行建模,从而最终获取专家和查询主题之间的联系强度。但是,现有基于关系型数据库的专家库存在建模不灵活、查询效率低等问题;同时,专家的相关信息是不断更新的(如任职情况、新产出的成果等),现有专家库的数据结构很难实现自主跟进科技发展,以及自动更新库内的专家信息。
发明内容
本发明的目的在于针对上述现有技术中的问题,提供一种基于知识图谱更新的项目评审专家筛选方法、系统及介质,能够定期自动收集专家库更新信息,并自动化构建专家知识图谱,基于图谱可筛查专家关系,结合回避策略等可实现项目评审专家的智能化推荐。
为了实现上述目的,本发明有如下的技术方案:
第一方面,提供一种基于知识图谱更新的项目评审专家筛选方法,包括:
利用预先建立的流程自动化机器人定期从公开数据源收集专家相关信息,形成半结构化数据存入关系型数据库,获得专家信息数据库;
基于专家信息数据库的半结构化数据设置三元组模式,从专家信息数据库中读取数据,构建专家知识图谱;
根据待评审项目,结合回避策略,从专家知识图谱中搜索出评审专家。
作为一种优选方案,在所述利用预先建立的流程自动化机器人定期从公开数据源收集专家相关信息,形成半结构化数据存入关系型数据库,获得专家信息数据库的步骤中,所述专家相关信息包括专家基本信息、论文基本信息以及专利基本信息;所述流程自动化机器人包括专家基本信息收集机器人、论文基本信息收集机器人以及专利基本信息机器人;通过设置流程自动化机器人的更新频率,定期从公开数据源收集专家相关信息,形成半结构化数据存入关系型数据库。
作为一种优选方案,所述专家基本信息包括姓名、工作单位、关注领域以及合作作者;所述论文基本信息包括论文名称、摘要、关键词、期刊以及发表年份;所述专利基本信息包括专利名称、关键词、专利类型、摘要、主权项以及公开日期。
作为一种优选方案,在获得专家信息数据库之后还包括对于新增入库专家进行同名消歧处理的步骤,所述同名消歧处理的步骤具体包括:
遍历专家信息数据库,筛选出同名专家,并匹配抽出待消歧专家的专家相关信息;
建立学术及研究机构的全称与简称映射表,对于工作单位名称相似的,通过查阅学术、研究机构的全称与简称映射表排查是否为同名同单位,如是则合并待消歧专家名单,对于常见易重名的专家姓名,设置通用列表,后续进行相似性比对筛查;建立机构与从属单位映射表,通过查阅机构与从属单位映射表排查是否为同名同单位,如是则剔除;
提取专家相关信息文本的统计特征与语义特征,并进行相似性比对:对专家所有论文成果的名称、摘要、关键词进行拼接,对专家所有专利成果的名称、摘要、关键词进行拼接,构建专家特征信息;统计两待消歧专家成果中相同技术关键词重复出现的次数,构建词频向量,利用余弦相似度计算向量相似度,得到统计相似度;对专家相关信息文本进行分词处理,结合上下文语境计算关键词的语义向量,加和后得到整段文字的语义特征向量,利用余弦相似度计算向量相似度,得到语义相似度;对统计相似度和语义相似度求加权和,得到相似性比对计算结果;
设置相似性比对计算结果对于同名同人的判定阈值,如相似性比对计算结果超过阈值则加入疑似排查清单,经过二次校核后对同一人信息进行合并。
作为一种优选方案,在所述基于专家信息数据库的半结构化数据设置三元组模式,从专家信息数据库中读取数据,构建专家知识图谱的步骤中,根据专家信息数据库的半结构化数据筛选要加入知识图谱的字段信息,将字段名称作为知识图谱的关系/属性,将专家姓名、论文名称、专利名称作为头部实体,对应字段列作为尾部实体/属性值,设定三元组模式;根据三元组模式结构,从专家信息数据库中读取数据构建知识图谱,得到专家知识图谱。
作为一种优选方案,在所述将字段名称作为知识图谱的关系/属性,将专家姓名、论文名称、专利名称作为头部实体,对应字段列作为尾部实体/属性值,设定三元组模式的步骤中,所述三元组模式如下表:
作为一种优选方案,所述根据待评审项目,结合回避策略,从专家知识图谱中搜索出评审专家的步骤包括:
根据待评审项目的技术领域标签,在专家知识图谱中筛查出全部从事相关专业研究的专家,加入候选人名单;从待评审项目文档抽取项目负责人、课题负责人信息,如有项目负责人或课题负责人已在专家知识图谱中,则根据论文、专利合作频次,筛查候选人名单中有无要回避的专家;
根据项目描述文本,利用文章主题模型抽取隐含的技术主题,并在候选人的学术成果关键词中搜索同义词或近义词,加入候选节点;在专家知识图谱上搜索技术领域节点与候选节点间的可行路径定位到同时符合两种特征的专家,作为最终候选人;
构建待评审项目文本的语义向量与最终候选人标签向量,利用余弦相似度计算候选人与待评审项目的匹配度,并对所有候选人进行排序,按照排名的先后顺序将专家推荐给业务人员,如业务人员属于推荐名单中的专家,将由后续专家递补,直至业务人员选出足够数量的评审专家;
将项目作为工作经历添加至选定评审专家的专家信息数据库;
将长期未参与评审活动的评审专家在专家信息数据库中予以剔除。
第二方面,提供一种基于知识图谱更新的项目评审专家筛选系统,包括:
专家信息数据库获取模块,用于利用预先建立的流程自动化机器人定期从公开数据源收集专家相关信息,形成半结构化数据存入关系型数据库,获得专家信息数据库;
专家知识图谱构建模块,用于基于专家信息数据库的半结构化数据设置三元组模式,从专家信息数据库中读取数据,构建专家知识图谱;
评审专家搜索模块,用于根据待评审项目,结合回避策略,从专家知识图谱中搜索出评审专家。
作为一种优选方案,所述专家信息数据库获取模块利用预先建立的流程自动化机器人定期从公开数据源收集专家相关信息时,所述专家相关信息包括专家基本信息、论文基本信息以及专利基本信息;所述流程自动化机器人包括专家基本信息收集机器人、论文基本信息收集机器人以及专利基本信息机器人;通过设置流程自动化机器人的更新频率,定期从公开数据源收集专家相关信息,形成半结构化数据存入关系型数据库。
作为一种优选方案,所述基于知识图谱更新的项目评审专家筛选系统还包括同名消歧处理模块,用于对于新增入库专家进行同名消歧处理,所述同名消歧处理的步骤具体包括:
遍历专家信息数据库,筛选出同名专家,并匹配抽出待消歧专家的专家相关信息;
建立学术及研究机构的全称与简称映射表,对于工作单位名称相似的,通过查阅学术、研究机构的全称与简称映射表排查是否为同名同单位,如是则合并待消歧专家名单,对于常见易重名的专家姓名,设置通用列表,后续进行相似性比对筛查;建立机构与从属单位映射表,通过查阅机构与从属单位映射表排查是否为同名同单位,如是则剔除;
提取专家相关信息文本的统计特征与语义特征,并进行相似性比对:对专家所有论文成果的名称、摘要、关键词进行拼接,对专家所有专利成果的名称、摘要、关键词进行拼接,构建专家特征信息;统计两待消歧专家成果中相同技术关键词重复出现的次数,构建词频向量,利用余弦相似度计算向量相似度,得到统计相似度;对专家相关信息文本进行分词处理,结合上下文语境计算关键词的语义向量,加和后得到整段文字的语义特征向量,利用余弦相似度计算向量相似度,得到语义相似度;对统计相似度和语义相似度求加权和,得到相似性比对计算结果;
设置相似性比对计算结果对于同名同人的判定阈值,如相似性比对计算结果超过阈值则加入疑似排查清单,经过二次校核后对同一人信息进行合并。
作为一种优选方案,所述专家知识图谱构建模块根据专家信息数据库的半结构化数据筛选要加入知识图谱的字段信息,将字段名称作为知识图谱的关系/属性,将专家姓名、论文名称、专利名称作为头部实体,对应字段列作为尾部实体/属性值,设定三元组模式;根据三元组模式结构,从专家信息数据库中读取数据构建知识图谱,得到专家知识图谱。
作为一种优选方案,所述专家知识图谱构建模块设定的三元组模式如下表:
。
作为一种优选方案,所述评审专家搜索模块根据待评审项目的技术领域标签,在专家知识图谱中筛查出全部从事相关专业研究的专家,加入候选人名单;从待评审项目文档抽取项目负责人、课题负责人信息,如有项目负责人或课题负责人已在专家知识图谱中,则根据论文、专利合作频次,筛查候选人名单中有无要回避的专家;
根据项目描述文本,利用文章主题模型抽取隐含的技术主题,并在候选人的学术成果关键词中搜索同义词或近义词,加入候选节点;在专家知识图谱上搜索技术领域节点与候选节点间的可行路径定位到同时符合两种特征的专家,作为最终候选人;
构建待评审项目文本的语义向量与最终候选人标签向量,利用余弦相似度计算候选人与待评审项目的匹配度,并对所有候选人进行排序,按照排名的先后顺序将专家推荐给业务人员,如业务人员属于推荐名单中的专家,将由后续专家递补,直至业务人员选出足够数量的评审专家;
将项目作为工作经历添加至选定评审专家的专家信息数据库;
将长期未参与评审活动的评审专家在专家信息数据库中予以剔除。
第三方面,提供一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述的处理器执行所述的计算机程序时实现所述基于知识图谱更新的项目评审专家筛选方法的步骤。
第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述的计算机程序被处理器执行时实现所述基于知识图谱更新的项目评审专家筛选方法的步骤。
相较于现有技术,本发明的第一方面至少具有如下有益效果:
利用流程自动化机器人定期从公开数据源自动收集专家相关信息,获得专家相关信息定期更新的专家信息数据库,结合预先定义的三元组模式,自动化构建专家知识图谱,基于专家知识图谱可筛查专家学术研究合作关系,结合回避策略等可实现评审专家的智能化推荐。本发明基于现有专家信息数据库通过知识图谱技术建立更灵活的专家管理模式,通过定期检测不同数据源的数据增量更新情况及实体和关系的增删改情况,并设置相关规则,将检测到的数据更新情况及时反馈到知识图谱中,可以实现专家信息数据库自动更新,结合知识图谱搜索合适的项目评审专家,提升专家遴选效率,具有较大的工程应用价值和推广前景。
可以理解的是,上述第二方面至第四方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1本发明实施例基于知识图谱更新的项目评审专家筛选方法流程图;
图2本发明实施例中的中文BERT模型架构图;
图3本发明实施例构建的专家知识图谱及专家合作关系示意图;
图4本发明实施例构建的专家知识图谱及从事同一研究领域的专家示意图;
图5本发明实施例阈值设为0.5的同名消歧处理试验结果图:
(a)相似度分值分布图;(b)累计分布图;
图6本发明实施例基于知识图谱自动更新的电力科技专家推荐系统架构图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请的实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例1
本发明实施例提出的一种基于知识图谱更新的项目评审专家筛选方法,利用网络公开数据源,定期自动收集电力及相关交叉学科有影响力的学者增加至专家库中,同时更新已有专家与新增专家的学术成果;对于新增专家,先经过特征比对筛查同名专家是否为同一人,避免重复录入;然后基于半结构化数据自动构建/更新专家知识图谱,并构建专家之间的社交网络;最后结合知识图谱搜索合适的项目评审专家,提升专家遴选效率。
具体包括以下步骤:
S1、利用预先建立的流程自动化机器人定期从公开数据源收集专家相关信息,形成半结构化数据存入关系型数据库,获得专家信息数据库;
S2、基于专家信息数据库的半结构化数据设置三元组模式,从专家信息数据库中读取数据,构建专家知识图谱;
S3、根据待评审项目,结合回避策略,从专家知识图谱中搜索出评审专家。
在一种可能的实施方式中,步骤S1中,所述专家相关信息包括专家基本信息、论文基本信息以及专利基本信息;所述流程自动化机器人包括专家基本信息收集机器人、论文基本信息收集机器人以及专利基本信息机器人;通过设置流程自动化机器人的更新频率,定期从公开数据源收集专家相关信息,形成半结构化数据存入关系型数据库。
更进一步的,所述专家基本信息包括姓名、工作单位、关注领域以及合作作者;所述论文基本信息包括论文名称、摘要、关键词、期刊以及发表年份;所述专利基本信息包括专利名称、关键词、专利类型、摘要、主权项以及公开日期。
在一种可能的实施方式中,步骤S1在获得专家信息数据库之后还包括对于新增入库专家进行同名消歧处理的步骤,所述同名消歧处理的步骤具体包括:
遍历专家信息数据库,筛选出同名专家,并匹配抽出待消歧专家的专家相关信息;
建立学术及研究机构的全称与简称映射表,对于工作单位名称相似的,通过查阅学术、研究机构的全称与简称映射表排查是否为同名同单位,如是则合并待消歧专家名单,对于常见易重名的专家姓名,设置通用列表,后续进行相似性比对筛查;建立机构与从属单位映射表,通过查阅机构与从属单位映射表排查是否为同名同单位,如是则剔除;
提取专家相关信息文本的统计特征与语义特征,并进行相似性比对:对专家所有论文成果的名称、摘要、关键词进行拼接,对专家所有专利成果的名称、摘要、关键词进行拼接,构建专家特征信息;统计两待消歧专家成果中相同技术关键词重复出现的次数,构建词频向量,利用余弦相似度计算向量相似度,得到统计相似度;对专家相关信息文本进行分词处理,结合上下文语境计算关键词的语义向量,加和后得到整段文字的语义特征向量,利用余弦相似度计算向量相似度,得到语义相似度;对统计相似度和语义相似度求加权和,得到相似性比对计算结果;
设置相似性比对计算结果对于同名同人的判定阈值,如相似性比对计算结果超过阈值则加入疑似排查清单,经过二次校核后对同一人信息进行合并。
在一种可能的实施方式中,步骤S2中,根据专家信息数据库的半结构化数据筛选要加入知识图谱的字段信息,将字段名称作为知识图谱的关系/属性,将专家姓名、论文名称、专利名称作为头部实体,对应字段列作为尾部实体/属性值,设定三元组模式;根据三元组模式结构,从专家信息数据库中读取数据构建知识图谱,得到专家知识图谱。
更进一步的,所述三元组模式如下表:
在一种可能的实施方式中,步骤S3具体包括:
根据待评审项目的技术领域标签,在专家知识图谱中筛查出全部从事相关专业研究的专家,加入候选人名单;从待评审项目文档抽取项目负责人、课题负责人信息,如有项目负责人或课题负责人已在专家知识图谱中,则根据论文、专利合作频次,筛查候选人名单中有无要回避的专家;
根据项目描述文本,利用文章主题模型抽取隐含的技术主题,并在候选人的学术成果关键词中搜索同义词或近义词,加入候选节点;在专家知识图谱上搜索技术领域节点与候选节点间的可行路径定位到同时符合两种特征的专家,作为最终候选人;
构建待评审项目文本的语义向量与最终候选人标签向量,利用余弦相似度计算候选人与待评审项目的匹配度,并对所有候选人进行排序,按照排名的先后顺序将专家推荐给业务人员,如业务人员属于推荐名单中的专家,将由后续专家自动递补,直至业务人员选出足够数量的评审专家;
将项目作为工作经历添加至选定评审专家的专家信息数据库;
将长期未参与评审活动的评审专家在专家信息数据库中予以剔除。
综合上述本发明实施例的技术方案,可见本发明实施例提出的一种基于知识图谱更新的项目评审专家筛选方法通过构建流程自动化机器人,定期自动收集新增专家及学术成果信息;对于新入库的专家自动进行同名消歧排查,并提醒业务人员对疑似同名同人信息进行二次确认后自动合并同一人的信息;根据预设的三元组模式,自动从关系型数据库中抽取数据构建电力科技专家知识图谱。同时,提出了一种基于多特征的同名专家消歧方法,一方面涉及多维信息特征,主要包括工作单位、合作学者以及论文名称、论文关键词、论文摘要、专利名称、专利关键词、专利摘要。另一方面涉及信息文本的统计特征与语义特征,主要利用TF-IDF进行词频统计提取统计特征,利用语言模型构建关键词语义向量与段落语义向量;分别计算统计维度的相似度和语义维度的相似度,并求加权判断是否存在疑似同名同人。此外,本发明的方案还提出了一种基于知识图谱与回避策略的评审专家推荐方法,将关联至同一论文/专利成果的专家认定为存在合作关系,根据项目负责人与候选专家合作次数判定是否在评审阶段需要回避。根据项目的技术领域标签(人为添加)与主题标签(算法自动提取)筛选可行的评审专家人候选名单,根据候选人研究成果与待审项目的语义相似度进行排序,选取排名靠前的专家进行推荐,对人为剔除部分专家的情况以较低匹配度专家进行递补。
实施例2
请参阅图1,以电力科技专家推荐为例对本发明基于知识图谱更新的项目评审专家筛选方法进行说明,本发明实施例基于知识图谱更新的项目评审专家筛选方法包括以下步骤:
S1.构建流程自动化机器人,从公开数据源自动收集专家信息及学术成果信息;
具体如下:
1)由开发者根据学者信息和学术成果收集的需求,设计灵活添加各种AI组件、流程节点组件;然后由用户在百度学术、中国知网进行收集过程的操作,并录制业务系统操作流程,后续交由相应的用户机器人,7*24h值守处理相关日常业务流程作业;管理员可通过控制台,随时查看数字机器人集群中,每个机器人的执行情况;
2)分别建立专家信息收集机器人、论文信息收集机器人、专利信息机器人,从百度学术网站收集工业工程、信息工程、理学等一级学科学术影响力前一百的学者作为扩充专家库;从中国知网以“姓名+单位”的形式进行模糊搜索,获取专家最新的10篇论文及10项专利成果;
3)设置更新频率为半年一次,专家信息收集机器人、论文信息收集机器人、专利信息机器人定期自动重复上一步,并形成半结构化数据存入关系型数据库待用。
S2.对于新增入库专家进行同名消歧处理,避免重复录入的情况,具体如下:
1)遍历专家库,筛选出同名专家,并根据专家唯一id进行表间匹配,从论文库和专利库中抽出待消歧专家的成果信息;
2)根据规则进行预筛查:建立常见学术、研究机构的全称与简称映射表以及从属关系映射表;对于工作单位名称相似的同名专家,通过查阅映射表排查是否为“同一单位”,如“中国电科院”和“中国电力科学研究院”,如是则对两专家进行信息合并(对于少部分易重名的名字,可设置停用列表,待后续进行相似性比对筛查);排查同名专家的工作单位之间是否有从属关系,如“中国电力科学研究院”和“电网安全与节能国家重点实验室”,如是则合并两专家;映射表由业务人员定期维护更新;
3)提取专家信息文本的统计特征与语义特征,并进行相似性比对:对专家所有论文成果的名称、摘要、关键词进行拼接,对专家所有专利成果的名称、摘要、关键词进行拼接,构建专家特征信息;例如:
利用TF-IDF方法,结合电力主题词典,统计两待消歧专家成果中相同技术关键词重复出现的次数构建词频向量,利用余弦相似度计算向量相似度为0.8488;对专家信息文本进行分词处理,利用如图2所示的BERT-wwm模型,结合上下文语境计算关键词的语义向量,加和后进一步得到整段文字的语义特征向量;利用余弦相似度计算向量相似度为0.8515;对统计相似度和语义相似度求加权和(设统计特征占比为0.2、语义特征占比为0.8),得到最终的相似度计算值为0.8510;
4)设置同名同人判定阈值为0.5,相似度得分超过阈值加入疑似排查清单,由任务人员二次校核后对同一人信息进行合并;图5的(a)与(b)分别显示了阈值设为0.5的同名消歧处理试验相似度分值分布图和累计分布图;
S3.基于半结构化数据,设置三元组模式,自动化构建电力科技专家知识图谱:
1)业务人员根据半结构化数据库筛选需加入知识图谱的字段信息;
2)将字段名称作为知识图谱的关系/属性,专家姓名、论文名称、专利名称作为头部实体,对应字段列作为尾部实体/属性值,设定三元组模式,如下表所示:
/>
3)根据三元组结构,自动从数据库中读取数据构建知识图谱并存入图数据库,共专家推荐任务调用,构建的图谱样例如图3所示,根据成果关联情况可以判定专家之间的研究合作情况。
S4.根据待评审项目,结合回避策略,从专家知识图谱中搜索合适的评审专家组:
1)根据管理部门为待评审项目从下表的技术领域清单中为项目选择合适的标签,在知识图谱中筛查出全部从事相关专业研究的科技专家如图4所示,加入候选人名单;然后,从待评审项目文档抽取项目负责人、课题负责人姓名及单位(如有),如能负责人已在专家知识图谱中,根据论文、专利合作频次,筛查候选人名单中有无须回避的专家;
/>
2)根据项目描述文本,利用文章主题模型抽取隐含的技术主题,并在候选人的学术成果关键词中搜索同义词/近义词,加入候选节点;在图谱上搜索技术领域节点与候选节点间的可行路径定位到同时符合两种特征的专家,作为最终候选人;
3)基于BERT-wwm模型构建待评审项目文本的语义向量与最终候选人标签向量,利用余弦相似度计算候选人与待评审项目的匹配度,并对所有候选人进行排序,取排名靠前的专家推荐给业务人员;如业务人员为剔除推荐名单的中的部分专家,将由评分较低的专家自动递补,直至业务人员挑选出足够的评审专家;
4)将项目作为工作经历添加至最终选定的评审专家的信息库;
5)对于长期未参与评审活动的“不活跃”专家,在库中予以剔除。
S5.建立基于知识图谱自动更新的电力科技专家推荐系统架构,如图6所示。
本发明利用流程自动化机器人定期自动收集专家库更新信息,结合预先定义的三元组模式,自动化构建电力科技专家知识图谱,基于图谱可筛查专家学术研究合作关系,结合回避策略等可实现评审专家的智能化推荐,具有较大的工程应用价值和推广前景。
实施例3
本发明实施例的一种基于知识图谱更新的项目评审专家筛选系统,包括:
专家信息数据库获取模块,用于利用预先建立的流程自动化机器人定期从公开数据源收集专家相关信息,形成半结构化数据存入关系型数据库,获得专家信息数据库;
专家知识图谱构建模块,用于基于专家信息数据库的半结构化数据设置三元组模式,从专家信息数据库中读取数据,构建专家知识图谱;
评审专家搜索模块,用于根据待评审项目,结合回避策略,从专家知识图谱中搜索出评审专家。
在一种可能的实施方式中,专家信息数据库获取模块利用预先建立的流程自动化机器人定期从公开数据源收集专家相关信息时,所述专家相关信息包括专家基本信息、论文基本信息以及专利基本信息;所述流程自动化机器人包括专家基本信息收集机器人、论文基本信息收集机器人以及专利基本信息机器人;通过设置流程自动化机器人的更新频率,定期从公开数据源收集专家相关信息,形成半结构化数据存入关系型数据库。
在一种可能的实施方式中,本发明基于知识图谱更新的项目评审专家筛选系统还包括同名消歧处理模块,用于对于新增入库专家进行同名消歧处理;
所述同名消歧处理的步骤具体包括:
遍历专家信息数据库,筛选出同名专家,并匹配抽出待消歧专家的专家相关信息;
建立学术及研究机构的全称与简称映射表,对于工作单位名称相似的,通过查阅学术、研究机构的全称与简称映射表排查是否为同名同单位,如是则合并待消歧专家名单,对于常见易重名的专家姓名,设置通用列表,后续进行相似性比对筛查;建立机构与从属单位映射表,通过查阅机构与从属单位映射表排查是否为同名同单位,如是则剔除;
提取专家相关信息文本的统计特征与语义特征,并进行相似性比对:对专家所有论文成果的名称、摘要、关键词进行拼接,对专家所有专利成果的名称、摘要、关键词进行拼接,构建专家特征信息;统计两待消歧专家成果中相同技术关键词重复出现的次数,构建词频向量,利用余弦相似度计算向量相似度,得到统计相似度;对专家相关信息文本进行分词处理,结合上下文语境计算关键词的语义向量,加和后得到整段文字的语义特征向量,利用余弦相似度计算向量相似度,得到语义相似度;对统计相似度和语义相似度求加权和,得到相似性比对计算结果;
设置相似性比对计算结果对于同名同人的判定阈值,如相似性比对计算结果超过阈值则加入疑似排查清单,经过二次校核后对同一人信息进行合并。
在一种可能的实施方式中,专家知识图谱构建模块根据专家信息数据库的半结构化数据筛选要加入知识图谱的字段信息,将字段名称作为知识图谱的关系/属性,将专家姓名、论文名称、专利名称作为头部实体,对应字段列作为尾部实体/属性值,设定三元组模式;根据三元组模式结构,从专家信息数据库中读取数据构建知识图谱,得到专家知识图谱。
所述专家知识图谱构建模块设定的三元组模式如下表:
在一种可能的实施方式中,评审专家搜索模块根据待评审项目的技术领域标签,在专家知识图谱中筛查出全部从事相关专业研究的专家,加入候选人名单;从待评审项目文档抽取项目负责人、课题负责人信息,如有项目负责人或课题负责人已在专家知识图谱中,则根据论文、专利合作频次,筛查候选人名单中有无要回避的专家;
根据项目描述文本,利用文章主题模型抽取隐含的技术主题,并在候选人的学术成果关键词中搜索同义词或近义词,加入候选节点;在专家知识图谱上搜索技术领域节点与候选节点间的可行路径定位到同时符合两种特征的专家,作为最终候选人;
构建待评审项目文本的语义向量与最终候选人标签向量,利用余弦相似度计算候选人与待评审项目的匹配度,并对所有候选人进行排序,按照排名的先后顺序将专家推荐给业务人员,如业务人员属于推荐名单中的专家,将由后续专家自动递补,直至业务人员选出足够数量的评审专家;
将项目作为工作经历添加至选定评审专家的专家信息数据库;
将长期未参与评审活动的评审专家在专家信息数据库中予以剔除。
实施例4
一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述的处理器执行所述的计算机程序时实现所述基于知识图谱更新的项目评审专家筛选方法的步骤。
实施例5
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述的计算机程序被处理器执行时实现所述基于知识图谱更新的项目评审专家筛选方法的步骤。
所述计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。为了便于说明,以上内容仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机可读存储介质是非暂时性的,可以存储在各种电子设备形成的存储装置当中,能够实现本发明实施例方法记载的执行过程。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (15)
1.一种基于知识图谱更新的项目评审专家筛选方法,其特征在于,包括:
利用预先建立的流程自动化机器人定期从公开数据源收集专家相关信息,形成半结构化数据存入关系型数据库,获得专家信息数据库;
基于专家信息数据库的半结构化数据设置三元组模式,从专家信息数据库中读取数据,构建专家知识图谱;
根据待评审项目,结合回避策略,从专家知识图谱中搜索出评审专家。
2.根据权利要求1所述基于知识图谱更新的项目评审专家筛选方法,其特征在于,在所述利用预先建立的流程自动化机器人定期从公开数据源收集专家相关信息,形成半结构化数据存入关系型数据库,获得专家信息数据库的步骤中,所述专家相关信息包括专家基本信息、论文基本信息以及专利基本信息;所述流程自动化机器人包括专家基本信息收集机器人、论文基本信息收集机器人以及专利基本信息机器人;通过设置流程自动化机器人的更新频率,定期从公开数据源收集专家相关信息,形成半结构化数据存入关系型数据库。
3.根据权利要求2所述基于知识图谱更新的项目评审专家筛选方法,其特征在于,所述专家基本信息包括姓名、工作单位、关注领域以及合作作者;所述论文基本信息包括论文名称、摘要、关键词、期刊以及发表年份;所述专利基本信息包括专利名称、关键词、专利类型、摘要、主权项以及公开日期。
4.根据权利要求1所述基于知识图谱更新的项目评审专家筛选方法,其特征在于,在获得专家信息数据库之后还包括对于新增入库专家进行同名消歧处理的步骤,所述同名消歧处理的步骤具体包括:
遍历专家信息数据库,筛选出同名专家,并匹配抽出待消歧专家的专家相关信息;
建立学术及研究机构的全称与简称映射表,对于工作单位名称相似的,通过查阅学术、研究机构的全称与简称映射表排查是否为同名同单位,如是则合并待消歧专家名单,对于常见易重名的专家姓名,设置通用列表,后续进行相似性比对筛查;建立机构与从属单位映射表,通过查阅机构与从属单位映射表排查是否为同名同单位,如是则剔除;
提取专家相关信息文本的统计特征与语义特征,并进行相似性比对:对专家所有论文成果的名称、摘要、关键词进行拼接,对专家所有专利成果的名称、摘要、关键词进行拼接,构建专家特征信息;统计两待消歧专家成果中相同技术关键词重复出现的次数,构建词频向量,利用余弦相似度计算向量相似度,得到统计相似度;对专家相关信息文本进行分词处理,结合上下文语境计算关键词的语义向量,加和后得到整段文字的语义特征向量,利用余弦相似度计算向量相似度,得到语义相似度;对统计相似度和语义相似度求加权和,得到相似性比对计算结果;
设置相似性比对计算结果对于同名同人的判定阈值,如相似性比对计算结果超过阈值则加入疑似排查清单,经过二次校核后对同一人信息进行合并。
5.根据权利要求1所述基于知识图谱更新的项目评审专家筛选方法,其特征在于,在所述基于专家信息数据库的半结构化数据设置三元组模式,从专家信息数据库中读取数据,构建专家知识图谱的步骤中,根据专家信息数据库的半结构化数据筛选要加入知识图谱的字段信息,将字段名称作为知识图谱的关系/属性,将专家姓名、论文名称、专利名称作为头部实体,对应字段列作为尾部实体/属性值,设定三元组模式;根据三元组模式结构,从专家信息数据库中读取数据构建知识图谱,得到专家知识图谱。
6.根据权利要求5所述基于知识图谱更新的项目评审专家筛选方法,其特征在于,在所述将字段名称作为知识图谱的关系/属性,将专家姓名、论文名称、专利名称作为头部实体,对应字段列作为尾部实体/属性值,设定三元组模式的步骤中,所述三元组模式如下表:
7.根据权利要求1所述基于知识图谱更新的项目评审专家筛选方法,其特征在于,所述根据待评审项目,结合回避策略,从专家知识图谱中搜索出评审专家的步骤包括:
根据待评审项目的技术领域标签,在专家知识图谱中筛查出全部从事相关专业研究的专家,加入候选人名单;从待评审项目文档抽取项目负责人、课题负责人信息,如有项目负责人或课题负责人已在专家知识图谱中,则根据论文、专利合作频次,筛查候选人名单中有无要回避的专家;
根据项目描述文本,利用文章主题模型抽取隐含的技术主题,并在候选人的学术成果关键词中搜索同义词或近义词,加入候选节点;在专家知识图谱上搜索技术领域节点与候选节点间的可行路径定位到同时符合两种特征的专家,作为最终候选人;
构建待评审项目文本的语义向量与最终候选人标签向量,利用余弦相似度计算候选人与待评审项目的匹配度,并对所有候选人进行排序,按照排名的先后顺序将专家推荐给业务人员,如业务人员属于推荐名单中的专家,将由后续专家递补,直至业务人员选出足够数量的评审专家;
将项目作为工作经历添加至选定评审专家的专家信息数据库;
将长期未参与评审活动的评审专家在专家信息数据库中予以剔除。
8.一种基于知识图谱更新的项目评审专家筛选系统,其特征在于,包括:
专家信息数据库获取模块,用于利用预先建立的流程自动化机器人定期从公开数据源收集专家相关信息,形成半结构化数据存入关系型数据库,获得专家信息数据库;
专家知识图谱构建模块,用于基于专家信息数据库的半结构化数据设置三元组模式,从专家信息数据库中读取数据,构建专家知识图谱;
评审专家搜索模块,用于根据待评审项目,结合回避策略,从专家知识图谱中搜索出评审专家。
9.根据权利要求8所述基于知识图谱更新的项目评审专家筛选系统,其特征在于,所述专家信息数据库获取模块利用预先建立的流程自动化机器人定期从公开数据源收集专家相关信息时,所述专家相关信息包括专家基本信息、论文基本信息以及专利基本信息;所述流程自动化机器人包括专家基本信息收集机器人、论文基本信息收集机器人以及专利基本信息机器人;通过设置流程自动化机器人的更新频率,定期从公开数据源收集专家相关信息,形成半结构化数据存入关系型数据库。
10.根据权利要求8所述基于知识图谱更新的项目评审专家筛选系统,其特征在于,还包括同名消歧处理模块,用于对于新增入库专家进行同名消歧处理,所述同名消歧处理的步骤具体包括:
遍历专家信息数据库,筛选出同名专家,并匹配抽出待消歧专家的专家相关信息;
建立学术及研究机构的全称与简称映射表,对于工作单位名称相似的,通过查阅学术、研究机构的全称与简称映射表排查是否为同名同单位,如是则合并待消歧专家名单,对于常见易重名的专家姓名,设置通用列表,后续进行相似性比对筛查;建立机构与从属单位映射表,通过查阅机构与从属单位映射表排查是否为同名同单位,如是则剔除;
提取专家相关信息文本的统计特征与语义特征,并进行相似性比对:对专家所有论文成果的名称、摘要、关键词进行拼接,对专家所有专利成果的名称、摘要、关键词进行拼接,构建专家特征信息;统计两待消歧专家成果中相同技术关键词重复出现的次数,构建词频向量,利用余弦相似度计算向量相似度,得到统计相似度;对专家相关信息文本进行分词处理,结合上下文语境计算关键词的语义向量,加和后得到整段文字的语义特征向量,利用余弦相似度计算向量相似度,得到语义相似度;对统计相似度和语义相似度求加权和,得到相似性比对计算结果;
设置相似性比对计算结果对于同名同人的判定阈值,如相似性比对计算结果超过阈值则加入疑似排查清单,经过二次校核后对同一人信息进行合并。
11.根据权利要求8所述基于知识图谱更新的项目评审专家筛选系统,其特征在于,所述专家知识图谱构建模块根据专家信息数据库的半结构化数据筛选要加入知识图谱的字段信息,将字段名称作为知识图谱的关系/属性,将专家姓名、论文名称、专利名称作为头部实体,对应字段列作为尾部实体/属性值,设定三元组模式;根据三元组模式结构,从专家信息数据库中读取数据构建知识图谱,得到专家知识图谱。
12.根据权利要求11所述基于知识图谱更新的项目评审专家筛选系统,其特征在于,所述专家知识图谱构建模块设定的三元组模式如下表:
13.根据权利要求8所述基于知识图谱更新的项目评审专家筛选系统,其特征在于,所述评审专家搜索模块根据待评审项目的技术领域标签,在专家知识图谱中筛查出全部从事相关专业研究的专家,加入候选人名单;从待评审项目文档抽取项目负责人、课题负责人信息,如有项目负责人或课题负责人已在专家知识图谱中,则根据论文、专利合作频次,筛查候选人名单中有无要回避的专家;
根据项目描述文本,利用文章主题模型抽取隐含的技术主题,并在候选人的学术成果关键词中搜索同义词或近义词,加入候选节点;在专家知识图谱上搜索技术领域节点与候选节点间的可行路径定位到同时符合两种特征的专家,作为最终候选人;
构建待评审项目文本的语义向量与最终候选人标签向量,利用余弦相似度计算候选人与待评审项目的匹配度,并对所有候选人进行排序,按照排名的先后顺序将专家推荐给业务人员,如业务人员属于推荐名单中的专家,将由后续专家递补,直至业务人员选出足够数量的评审专家;
将项目作为工作经历添加至选定评审专家的专家信息数据库;
将长期未参与评审活动的评审专家在专家信息数据库中予以剔除。
14.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于:所述的处理器执行所述的计算机程序时实现如权利要求1至7中任意一项所述基于知识图谱更新的项目评审专家筛选方法的步骤。
15.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述的计算机程序被处理器执行时实现如权利要求1至7中任意一项所述基于知识图谱更新的项目评审专家筛选方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310263172.7A CN116756373A (zh) | 2023-03-17 | 2023-03-17 | 基于知识图谱更新的项目评审专家筛选方法、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310263172.7A CN116756373A (zh) | 2023-03-17 | 2023-03-17 | 基于知识图谱更新的项目评审专家筛选方法、系统及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116756373A true CN116756373A (zh) | 2023-09-15 |
Family
ID=87950212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310263172.7A Pending CN116756373A (zh) | 2023-03-17 | 2023-03-17 | 基于知识图谱更新的项目评审专家筛选方法、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116756373A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117708351A (zh) * | 2024-02-06 | 2024-03-15 | 国泰新点软件股份有限公司 | 基于深度学习的技术标辅助评审方法、系统及存储介质 |
-
2023
- 2023-03-17 CN CN202310263172.7A patent/CN116756373A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117708351A (zh) * | 2024-02-06 | 2024-03-15 | 国泰新点软件股份有限公司 | 基于深度学习的技术标辅助评审方法、系统及存储介质 |
CN117708351B (zh) * | 2024-02-06 | 2024-04-30 | 国泰新点软件股份有限公司 | 基于深度学习的技术标辅助评审方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11663254B2 (en) | System and engine for seeded clustering of news events | |
Ur-Rahman et al. | Textual data mining for industrial knowledge management and text classification: A business oriented approach | |
CN112612902A (zh) | 一种电网主设备的知识图谱构建方法及设备 | |
US20110191335A1 (en) | Method and system for conducting legal research using clustering analytics | |
CN104182450A (zh) | 信息结构化系统 | |
CN104572709A (zh) | 用于企业创新体系的数据挖掘系统 | |
KR20160098084A (ko) | 관심대상 문서 필터링 시스템 및 그 방법 | |
KR20180072167A (ko) | 유사특허 추출 시스템 및 그 방법 | |
Vysotska et al. | The commercial content digest formation and distributional process | |
CN116756373A (zh) | 基于知识图谱更新的项目评审专家筛选方法、系统及介质 | |
CN110033191B (zh) | 一种商业人工智能的分析方法及系统 | |
Bakariya et al. | An efficient algorithm for extracting infrequent itemsets from weblog. | |
KR20160120583A (ko) | 지식 관리 시스템 및 이의 지식 구조 기반의 자료 관리 방법 | |
Zamani et al. | Stochastic retrieval-conditioned reranking | |
Sumangali et al. | Determination of interesting rules in FCA using information gain | |
CN116010662A (zh) | 一种能源消费-碳排放查询系统的构建方法、装置及介质 | |
CN114862006A (zh) | 一种基于人工智能的社会工作服务方案自动化生成方法和装置 | |
Irshad et al. | SwCS: Section-Wise Content Similarity Approach to Exploit Scientific Big Data. | |
CN113505117A (zh) | 基于数据指标的数据质量评估方法、装置、设备及介质 | |
Baali et al. | A Multi-Criteria Analysis and Advanced Comparative Study of Recommendation Systems | |
Ye et al. | Bibliometric knowledge mapping of e-commerce platform operation on data mining | |
Balaji et al. | Avatar: Large scale entity resolution of heterogeneous user profiles | |
Andriichuk et al. | Usage of expert decision-making support systems in information operations detection | |
Kayani et al. | Towards Interdisciplinary Research: A Bibliometric View of Information Communication Technology for Development in Different Disciplines | |
Imambi et al. | Classification of medline documents using global relevant weighing schema |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |