CN111259166B - 基于知识图谱的科研实体链接方法及装置 - Google Patents

基于知识图谱的科研实体链接方法及装置 Download PDF

Info

Publication number
CN111259166B
CN111259166B CN202010074094.2A CN202010074094A CN111259166B CN 111259166 B CN111259166 B CN 111259166B CN 202010074094 A CN202010074094 A CN 202010074094A CN 111259166 B CN111259166 B CN 111259166B
Authority
CN
China
Prior art keywords
entity
word
scientific research
knowledge
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010074094.2A
Other languages
English (en)
Other versions
CN111259166A (zh
Inventor
唐杰
邵洲
刘德兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010074094.2A priority Critical patent/CN111259166B/zh
Publication of CN111259166A publication Critical patent/CN111259166A/zh
Application granted granted Critical
Publication of CN111259166B publication Critical patent/CN111259166B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2468Fuzzy queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明公开了一种基于知识图谱的科研实体链接方法及装置,其中,该方法包括:获取隶属信息集合,对隶属信息集合中的每一个科研成果中学者的隶属进行预处理生成字符串;将字符串进行分割,生成词集合,对词集合中每个词通过知识图谱的模糊查询进行匹配,找到每个词可能表达的实体集合,将实体集合作为候选集加入候选集合中;通过候选集实体选择模型在候选集合中选取每一个科研成果中学者的隶属对应的最终结果;将最终结果构造为与隶属信息集合一一对应的知识图谱实体集合,对知识图谱实体集合进行输出。该方法利用多重分割的字符串相似性扩充科研实体的候选集,并通过一个相似度模型来匹配最可能的实体。

Description

基于知识图谱的科研实体链接方法及装置
技术领域
本发明涉及信息检索技术领域,特别涉及一种基于知识图谱的科研实体链接方法及装置。
背景技术
科研成果中学者的隶属(即affiliation)展现了科研机构参与该科研创新的情况。但是该表示方式存在着歧义性和模糊性,如果将科研成果中的学者的隶属映射到现实社会中的科研实体上,则能够很好的避免其带来的歧义性和模糊性。
科研成果中科研实体是以学者的隶属所存在的,即现实世界中所指的科研机构。由于一系列的原因导致该表达存在着较大的歧义性和模糊性。主要的影响因素有:英文名翻译方法的不同、机构合并与更名、拼写错误、顶级机构与下级本门难以区分、不同的书写方式、印刷错误或OCR错误、机构简写、翻译错误、信息的遗漏、机构同名等。单从语义、语法等角度很难消除其歧义性和模糊性。
该问题很早就引起了大家的重视,主要采用基于规则的方法和基于知识的方法来实现。基于规则的方法中,代表性的工作有:Jonnalagadda等人提出的基于多字典的多层规则匹配、Jiang等人提出的一种基于标准化压缩距离的聚类方法、Huang等人提出了一种基于规则的算法等。基于知识的方法中,代表性的工作有:Aumueller等人提出基于网络搜索结果url的从属关系的相似性判断方法、Morillo等人提出了一种新的半自动方法编码方法、
Figure BDA0002378022600000011
等人使用Nooj进行机构标准化的方法等。传统基于规则或者基于知识的方法,很容易受限于预定义好的知识和框架,在数据量不断增长、时间跨度很长、数据量较大等真实环境下效果较差。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于知识图谱的科研实体链接方法,该方法利用多重分割的字符串相似性扩充科研实体的候选集,并通过一个相似度模型来匹配最可能的实体。
本发明的另一个目的在于提出一种基于知识图谱的科研实体链接装置。
为达到上述目的,本发明一方面实施例提出了一种基于知识图谱的科研实体链接方法,包括:
S1,获取隶属信息集合,对所述隶属信息集合中的每一个科研成果中学者的隶属进行预处理生成字符串;
S2,将所述字符串进行分割,生成词集合,对所述词集合中每个词通过知识图谱的模糊查询进行匹配,找到每个词可能表达的实体集合,将所述实体集合作为候选集加入候选集合中;
S3,通过候选集实体选择模型在所述候选集合中选取每一个科研成果中学者的隶属对应的最终结果;
S4,将所述最终结果构造为与所述隶属信息集合一一对应的知识图谱实体集合,对知识图谱实体集合进行输出。
本发明实施例的基于知识图谱的科研实体链接方法,通过利用多重分割的字符串相似性扩充科研实体的候选集,并通过一个相似度模型来匹配最可能的实体,可以应用到多种应用中,例如构建基于科研实体的知识图谱、科研实体合作网络、学者跨机构流动、科研成果管理等。
另外,根据本发明上述实施例的基于知识图谱的科研实体链接方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述S1进一步包括:
通过正则化表达式去除所述隶属信息集合中的无关信息,以及根据字符串中字符所对应的字符编码的区间判断是否为乱码,将乱码移除。
进一步地,在本发明的一个实施例中,使用基于词的n-gram模型对所述字符串进行多重分割。
进一步地,在本发明的一个实施例中,所述S2进一步包括:
通过对所述词集合W中每个词w基于知识图谱中实体的模糊匹配,找到每个词可能表达的实体集合G,表示为:h(w)=G=I+P,其中,I表示知识图谱中的实例集合,P表示知识图谱中的概念集合。
进一步地,在本发明的一个实施例中,所述候选集实体选择模型为:
Figure BDA0002378022600000021
其中,函数cls()表示最长公共子序列算法,med()函数表示最小编辑距离算法,科研成果中学者的隶属a去除标点符号后表示为a',候选集合C中的元素c去除标点符号后表示为c'。
为达到上述目的,本发明另一方面实施例提出了一种基于知识图谱的科研实体链接装置,包括:
处理模块,用于获取隶属信息集合,对所述隶属信息集合中的每一个科研成果中学者的隶属进行预处理生成字符串;
分割模块,用于将所述字符串进行分割,生成词集合,对所述词集合中每个词通过知识图谱的模糊查询进行匹配,找到每个词可能表达的实体集合,将所述实体集合作为候选集加入候选集合中;
生成模块,用于通过候选集实体选择模型在所述候选集合中选取每一个科研成果中学者的隶属对应的最终结果;
实体链接模块,用于将所述最终结果构造为与所述隶属信息集合一一对应的知识图谱实体集合,对知识图谱实体集合进行输出
本发明实施例的基于知识图谱的科研实体链接装置,通过利用多重分割的字符串相似性扩充科研实体的候选集,并通过一个相似度模型来匹配最可能的实体,可以应用到多种应用中,例如构建基于科研实体的知识图谱、科研实体合作网络、学者跨机构流动、科研成果管理等。
另外,根据本发明上述实施例的基于知识图谱的科研实体链接装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述处理模块,进一步用于通过正则化表达式去除所述隶属信息集合中的无关信息,以及根据字符串中字符所对应的字符编码的区间判断是否为乱码,将乱码移除。
进一步地,在本发明的一个实施例中,使用基于词的n-gram模型对所述字符串进行多重分割。
进一步地,在本发明的一个实施例中,所述分割模块,进一步用于,通过对所述词集合W中每个词w基于知识图谱中实体的模糊匹配,找到每个词可能表达的实体集合G,表示为:h(w)=G=I+P,其中,I表示知识图谱中的实例集合,P表示知识图谱中的概念集合。
进一步地,在本发明的一个实施例中,所述候选集实体选择模型为:
Figure BDA0002378022600000031
其中,函数cls()表示最长公共子序列算法,med()函数表示最小编辑距离算法,科研成果中学者的隶属a去除标点符号后表示为a',候选集合C中的元素c去除标点符号后表示为c'。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于知识图谱的科研实体链接方法流程图;
图2为根据本发明一个实施例的多重分割及基于知识图谱的模糊查询示例图;
图3为根据本发明一个实施例的基于知识图谱的科研实体链接方法流程框图;
图4为根据本发明一个实施例的基于知识图谱的科研实体链接装置结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于知识图谱的科研实体链接方法及装置。
首先将参照附图描述根据本发明实施例提出的基于知识图谱的科研实体链接方法。
图1为根据本发明一个实施例的基于知识图谱的科研实体链接方法流程图。
如图1所示,该基于知识图谱的科研实体链接方法包括以下步骤:
步骤S1,获取隶属信息集合,对隶属信息集合中的每一个科研成果中学者的隶属进行预处理生成字符串。
在本发明的实施例中,需要解决的问题可以形式化定义为o=argmaxP(c|a),c∈C。这里a∈A是科研成果中学者的隶属,o∈O是现实世界中的科研实体,c是a的候选集C中的元素,
Figure BDA0002378022600000041
在科研信息数据库的基础上获得隶属信息A,并对A中的每一个a进行简单的预处理进行数据的清洗和正则化。
具体地,以科研论文中的隶属信息为例,说明如何通过基于知识图谱的科研实体链接方法来将科研论文中的作者隶属信息映射到知识图谱上的。
使用正则表达式、地名和国家名库等方式将论文作者隶属中的表达邮箱信息、国家、邮编信息、州/省等无关信息去除,并根据字符串中字符所对应的字符编码的区间(如Unicode编码中中文的编码范围为4E00-9FBF)判断其是否属于乱码,同时将乱码移除。处理后,最终得到a处理之后的字符串s,这个过程本专利用一个函数来定义,表示为:s=f1(a)。其中f1函数能够反向映射,即通过a找到原始的s。例如,邮箱抽取正则表达式表述为'\b[\w.-]+?@\w+?\.\w+?\b'和'\b[\w.-]+?@\w+?\.\w+?\b.\w+?\b'。
步骤S2,将字符串进行分割,生成词集合,对词集合中每个词通过知识图谱的模糊查询进行匹配,找到每个词可能表达的实体集合,将实体集合作为候选集加入候选集合中。
知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成的巨大的语义网络图能够帮助本专利将科研成果中的实体和知识图谱中的实体链接起来。利用多重分割的字符串相似性扩充科研实体的候选集,并通过一个相似度模型来匹配最可能的实体。
使用基于词的n-gram模型对a进行多重分割,并通过知识图谱的模糊查询进行匹配,获得可能实体的知识图谱,然后将该知识图谱中可能的实体作为a的候选集加入到候选集合C中。
将s进行多重n-gram分割,一般选择的n-gram模型为n=3。假设s中有m个词,其分割过程为:对其一次进行3词的n-gram分割、4个词的n-gram分割、……、m个词的n-gram分割,其分割过程如图2左边所示,生成的词的集合为W。这一过程,使用一个函数来定义,表示为W=f2(s)。
通过对W中每个w基于知识图谱中实体的模糊匹配,找到w可能表达的实体,其结果定义为G。该过程用一个函数来定义,表示为:h(w)=G=I+P。其中,I表示知识图谱中的实例集合,P表示知识图谱中的概念集合,其过程如图2右边所示。
在本发明的实施例中,定义了基于知识图谱的多重分割候选集生成算法,其算法具体如下:
算法:基于知识图谱的多重分割候选集生成算法
Figure BDA0002378022600000051
Figure BDA0002378022600000061
其中,“Hyponymys”表示知识图谱中的下位词,“Instances”表示知识图谱中的实例。这里,得到了a对应的知识图谱中所有可能的实体候选集合C。
步骤S3,通过候选集实体选择模型在候选集合中选取每一个科研成果中学者的隶属对应的最终结果。
从候选集合C中根据模型选择出a最可能的结果r。
对实体的名称进行统一大小写,去除标点符号之后a表示为a',c表示为c',其处理并不影响字符串的表达,那么可以通过求解r'=argmaxP(c'|a'),c'∈C'中的r'来间接获得r=argmaxP(c|a),c∈C中最可能的结果。
定义了如下的模型来进行计算:
Figure BDA0002378022600000062
其中,函数cls()表示最长公共子序列算法,主要使用动态规划的方法来实现,区别于最长公共子串,med()函数表示最小编辑距离算法。
利用上述模型计算出结果之后,可以根据f1函数的反向映射性,将结果从r'映射到r。
即如下所示:
Figure BDA0002378022600000063
最终,获得a所对应的结果r。
步骤S4,将最终结果构造为与隶属信息集合一一对应的知识图谱实体集合,对知识图谱实体集合进行输出。
将模型计算出来的每一个最终结果r组成能够和隶属信息集合A一一对应的集合知识图谱实体集合R。输出隶属信息集合A所对应的知识图谱实体集合R。
本发明实施例的流程框图如图3所示,通过图3所示的过程,可以应用到多种应用中,例如构建基于科研实体的知识图谱、科研实体合作网络、学者跨机构流动、科研成果管理等。
在本发明的一个具体实施例中,从科技大数据分析平台AMiner中随机抽取了100000篇论文,在借助大规模的中英文知识平衡的知识图谱XLore的帮助下,分别使用本专利的方法和传统方法中最先进的方法(简称为Huang方法)进行了实验。其实验结果如下:
Figure BDA0002378022600000071
在AMiner数据集上该算法的准确率提高了10%,召回率提高了67%。实验结果表明,不论是在准确率上,还是在召回率上都比传统的方法提高了很多,而且还可以获得知识图谱中科研实体对应的相关信息。
根据本发明实施例提出的基于知识图谱的科研实体链接方法,通过利用多重分割的字符串相似性扩充科研实体的候选集,并通过一个相似度模型来匹配最可能的实体,可以应用到多种应用中,例如构建基于科研实体的知识图谱、科研实体合作网络、学者跨机构流动、科研成果管理等。
其次参照附图描述根据本发明实施例提出的基于知识图谱的科研实体链接装置。
图4为根据本发明一个实施例的基于知识图谱的科研实体链接装置结构示意图。
如图4所示,该基于知识图谱的科研实体链接装置包括:处理模块100、分割模块200、生成模块300和实体链接模块400。
其中,处理模块100,用于获取隶属信息集合,对隶属信息集合中的每一个科研成果中学者的隶属进行预处理生成字符串。
分割模块200,用于将字符串进行分割,生成词集合,对词集合中每个词通过知识图谱的模糊查询进行匹配,找到每个词可能表达的实体集合,将实体集合作为候选集加入候选集合中。
生成模块300,用于通过候选集实体选择模型在候选集合中选取每一个科研成果中学者的隶属对应的最终结果。
实体链接模块400,用于将最终结果构造为与隶属信息集合一一对应的知识图谱实体集合,对知识图谱实体集合进行输出。
进一步地,在本发明的一个实施例中,处理模块,进一步用于通过正则化表达式去除隶属信息集合中的无关信息,以及根据字符串中字符所对应的字符编码的区间判断是否为乱码,将乱码移除。
进一步地,在本发明的一个实施例中,使用基于词的n-gram模型对字符串进行多重分割。
进一步地,在本发明的一个实施例中,分割模块,进一步用于,通过对词集合W中每个词w基于知识图谱中实体的模糊匹配,找到每个词可能表达的实体集合G,表示为:h(w)=G=I+P,其中,I表示知识图谱中的实例集合,P表示知识图谱中的概念集合。
进一步地,在本发明的一个实施例中,候选集实体选择模型为:
Figure BDA0002378022600000081
其中,函数cls()表示最长公共子序列算法,med()函数表示最小编辑距离算法,科研成果中学者的隶属a去除标点符号后表示为a',候选集合C中的元素c去除标点符号后表示为c'。
需要说明的是,前述对基于知识图谱的科研实体链接方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
根据本发明实施例提出的基于知识图谱的科研实体链接装置,通过利用多重分割的字符串相似性扩充科研实体的候选集,并通过一个相似度模型来匹配最可能的实体,可以应用到多种应用中,例如构建基于科研实体的知识图谱、科研实体合作网络、学者跨机构流动、科研成果管理等。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (6)

1.一种基于知识图谱的科研实体链接方法,其特征在于,包括以下步骤:
S1,获取隶属信息集合,对所述隶属信息集合中的每一个科研成果中学者的隶属进行预处理生成字符串;
S2,将所述字符串进行分割,生成词集合,对所述词集合中每个词通过知识图谱的模糊查询进行匹配,找到每个词可能表达的实体集合,将所述实体集合作为候选集加入候选集合中;
S3,通过候选集实体选择模型在所述候选集合中选取每一个科研成果中学者的隶属对应的最终结果;
S4,将所述最终结果构造为与所述隶属信息集合一一对应的知识图谱实体集合,对知识图谱实体集合进行输出;
其中,所述将所述字符串进行分割,生成词集合,包括:
使用基于词的n-gram模型对所述字符串进行多重分割;
在所述生成词集合之后,通过对所述词集合W中每个词w基于知识图谱中实体的模糊匹配,找到每个词可能表达的实体集合G,表示为:h(w)=G=I+P,其中,I表示知识图谱中的实例集合,P表示知识图谱中的概念集合;
所述候选集合的生成包括:
将所述实例集合中实例对应的标签加入所述候选集合;
将所述概念集合中概念对应的标签加入所述候选集合;
将所述概念集合中概念所在实例对应的标签加入所述候选集合;
将所述概念集合中概念的下位词的标签加入所述候选集合。
2.根据权利要求1所述的基于知识图谱的科研实体链接方法,其特征在于,所述S1进一步包括:
通过正则化表达式去除所述隶属信息集合中的无关信息,以及根据字符串中字符所对应的字符编码的区间判断是否为乱码,将乱码移除。
3.根据权利要求1所述的基于知识图谱的科研实体链接方法,其特征在于,所述候选集实体选择模型为:
Figure FDA0003874344770000011
其中,函数cls()表示最长公共子序列算法,med()函数表示最小编辑距离算法,科研成果中学者的隶属a去除标点符号后表示为a',候选集合C中的元素c去除标点符号后表示为c'。
4.一种基于知识图谱的科研实体链接装置,其特征在于,包括:
处理模块,用于获取隶属信息集合,对所述隶属信息集合中的每一个科研成果中学者的隶属进行预处理生成字符串;
分割模块,用于将所述字符串进行分割,生成词集合,对所述词集合中每个词通过知识图谱的模糊查询进行匹配,找到每个词可能表达的实体集合,将所述实体集合作为候选集加入候选集合中;
生成模块,用于通过候选集实体选择模型在所述候选集合中选取每一个科研成果中学者的隶属对应的最终结果;
实体链接模块,用于将所述最终结果构造为与所述隶属信息集合一一对应的知识图谱实体集合,对知识图谱实体集合进行输出;
其中,所述分割模块,进一步用于,使用基于词的n-gram模型对所述字符串进行多重分割;
通过对所述词集合W中每个词w基于知识图谱中实体的模糊匹配,找到每个词可能表达的实体集合G,表示为:h(w)=G=I+P,其中,I表示知识图谱中的实例集合,P表示知识图谱中的概念集合;
以及,生成候选集合,包括:
将所述实例集合中实例对应的标签加入所述候选集合;
将所述概念集合中概念对应的标签加入所述候选集合;
将所述概念集合中概念所在实例对应的标签加入所述候选集合;
将所述概念集合中概念的下位词的标签加入所述候选集合。
5.根据权利要求4所述的基于知识图谱的科研实体链接装置,其特征在于,所述处理模块,进一步用于通过正则化表达式去除所述隶属信息集合中的无关信息,以及根据字符串中字符所对应的字符编码的区间判断是否为乱码,将乱码移除。
6.根据权利要求4所述的基于知识图谱的科研实体链接装置,其特征在于,所述候选集实体选择模型为:
Figure FDA0003874344770000021
其中,函数cls()表示最长公共子序列算法,med()函数表示最小编辑距离算法,科研成果中学者的隶属a去除标点符号后表示为a',候选集合C中的元素c去除标点符号后表示为c'。
CN202010074094.2A 2020-01-22 2020-01-22 基于知识图谱的科研实体链接方法及装置 Active CN111259166B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010074094.2A CN111259166B (zh) 2020-01-22 2020-01-22 基于知识图谱的科研实体链接方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010074094.2A CN111259166B (zh) 2020-01-22 2020-01-22 基于知识图谱的科研实体链接方法及装置

Publications (2)

Publication Number Publication Date
CN111259166A CN111259166A (zh) 2020-06-09
CN111259166B true CN111259166B (zh) 2023-02-03

Family

ID=70949172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010074094.2A Active CN111259166B (zh) 2020-01-22 2020-01-22 基于知识图谱的科研实体链接方法及装置

Country Status (1)

Country Link
CN (1) CN111259166B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874261A (zh) * 2017-03-17 2017-06-20 中国科学院软件研究所 一种基于语义三角的领域知识图谱及查询方法
CN109359249A (zh) * 2018-09-29 2019-02-19 清华大学 基于学者科研成果挖掘的学者精准定位方法及装置
CN110569328A (zh) * 2019-07-31 2019-12-13 平安科技(深圳)有限公司 实体链接方法、电子装置及计算机设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10423652B2 (en) * 2016-08-08 2019-09-24 Baidu Usa Llc Knowledge graph entity reconciler

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874261A (zh) * 2017-03-17 2017-06-20 中国科学院软件研究所 一种基于语义三角的领域知识图谱及查询方法
CN109359249A (zh) * 2018-09-29 2019-02-19 清华大学 基于学者科研成果挖掘的学者精准定位方法及装置
CN110569328A (zh) * 2019-07-31 2019-12-13 平安科技(深圳)有限公司 实体链接方法、电子装置及计算机设备

Also Published As

Publication number Publication date
CN111259166A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
CN112199511B (zh) 跨语言多来源垂直领域知识图谱构建方法
CN109378053B (zh) 一种用于医学影像的知识图谱构建方法
CN111723215B (zh) 基于文本挖掘的生物技术信息知识图谱构建装置与方法
Zubrinic et al. The automatic creation of concept maps from documents written using morphologically rich languages
CN113806563B (zh) 面向多源异构建筑人文史料的建筑师知识图谱构建方法
Zhou et al. Resolving surface forms to wikipedia topics
CN111914558A (zh) 基于句袋注意力远程监督的课程知识关系抽取方法及系统
CN110990590A (zh) 一种基于强化学习和迁移学习的动态金融知识图谱构建方法
CN112131872A (zh) 一种文献作者重名消歧方法和构建系统
CN115455935A (zh) 一种文本信息智能处理系统
CN111291188B (zh) 一种智能信息抽取方法及系统
CN114065758B (zh) 一种基于超图随机游走的文档关键词抽取方法
CN113535917A (zh) 基于旅游知识图谱的智能问答方法及系统
CN110765277A (zh) 一种基于知识图谱的移动端的在线设备故障诊断平台
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
CN113196277A (zh) 用于检索自然语言文档的系统
CN112417097A (zh) 一种用于舆情解析的多模态数据特征提取与关联方法
CN113761208A (zh) 一种基于知识图谱的科技创新资讯分类方法和存储设备
CN114048305A (zh) 一种基于图卷积神经网络的行政处罚文书的类案推荐方法
CN116719913A (zh) 一种基于改进命名实体识别的医疗问答系统及其构建方法
CN112148886A (zh) 一种内容知识图谱的构建方法及系统
CN116127090A (zh) 基于融合和半监督信息抽取的航空系统知识图谱构建方法
CN116244448A (zh) 基于多源数据信息的知识图谱构建方法、设备及系统
CN115982379A (zh) 基于知识图谱的用户画像构建方法和系统
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant