CN111191045B - 一种应用于知识图谱的实体对齐方法及系统 - Google Patents
一种应用于知识图谱的实体对齐方法及系统 Download PDFInfo
- Publication number
- CN111191045B CN111191045B CN201911398814.4A CN201911398814A CN111191045B CN 111191045 B CN111191045 B CN 111191045B CN 201911398814 A CN201911398814 A CN 201911398814A CN 111191045 B CN111191045 B CN 111191045B
- Authority
- CN
- China
- Prior art keywords
- author
- attribute data
- entity
- author attribute
- entity alignment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开一种应用于知识图谱的实体对齐方法及系统,涉及计算机技术领域,包括:将作者姓名与已入库作者姓名进行实体对齐,将匹配的第二作者属性数据作为候选实体;根据第一实体对齐模型对第一作者属性数据与各第二作者属性数据进行实体对齐打分得到第一实体对齐分值;第一实体对齐分值小于第一实体对齐阈值且知识图谱数据为学位论文,根据第二实体对齐模型对第一作者属性数据和第二作者属性数据进行实体对齐打分得到第二实体对齐分值;将第一实体对齐分值和第二实体对齐分值的求和结果作为总实体对齐分值,总实体对齐分值小于第二实体对齐阈值时将知识图谱数据加入作者实体库;否则进行知识融合。本发明有效提高实体对齐准确率和召回率。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种应用于知识图谱的实体对齐方法及系统。
背景技术
当今社会,大家对科研学术的重视程度与日俱增,大量的学术论文涌现出来,科研工作者通过这些科研论文来发表自己最新的研究成果和研究进展,一方面可以获得大家的肯定,另外一方面也可以跟其他相关领域的研究人员认识以及合作,因此论文对于科研工作者有着重要的影响,学位论文对学生有着同样的作用。对于论文管理平台,如知网、万方等,从院校、期刊和会议获取大量的论文为科研人员提供服务,方便科研工作者对感兴趣的领域方面的论文进行查阅和下载,但是大部分论文管理平台并没有针对论文的作者进行实体对齐,也就是没有判断两个同名的作者是否是同一个人,并且也没有进行中英文的匹配,而是选择用认领的方式来让作者本人去进行实体对齐,用户对用户和论文进行关联,这种处理不利于进行如同门和师生等关系的挖掘。
在科研学术的知识图谱构建中,判断两个作者是否是同一个人是其中一项重要的,也是必须要完成的任务,简单的利用实体属性的判断虽然可以完成实体对齐,但是准确率和召回率都不高,而是要考虑多种特殊的情况,如一个科研学者是有可能进行多个领域的研究工作的,如果是比较两篇论文的领域相似度、得分可能是零分,这种情况下就需要把领域这个属性抛弃,选用不考虑领域的模型,同一个科研工作者可能有过不同的科研单位等情况。设计的实体对齐方法要综合考虑不同的情况,才能够以很高的准确率和召回率完成实体对齐。
目前的实体对齐结合了规则、机器学习和深度学习等方法,这些方法大多倾向于机器学习和深度学习,但是这两种方法需要大量的训练样本,会随着属性的增多,更大幅度的增加所需标注数据的数据量,大量的标注样本也就对机器学习和深度学习进行了限制。规则的方法一般具有较高的召回率,但是准确率不高,因此需要人工参与来提高结果的准确性。
发明内容
本发明的目的在于提供一种应用于知识图谱的实体对齐方法及系统。
为达此目的,本发明采用以下技术方案:
提供一种应用于知识图谱的实体对齐方法,具体包括以下步骤:
步骤S1,获取知识图谱数据,并对所述知识图谱数据进行信息提取,得到待对齐学术数据;
所述待对齐学术数据包括作者姓名和对应的第一作者属性数据;
步骤S2,将所述作者姓名与预先生成的作者实体库中的所有已入库作者姓名进行实体对齐,根据实体对齐结果,将与所述作者姓名匹配的若干所述已入库作者姓名对应的第二作者属性数据作为候选实体,形成候选实体库;
步骤S3,根据预先建立的第一实体对齐模型,分别对所述第一作者属性数据与所述候选实体库中的各所述第二作者属性数据之间的实体对齐结果进行打分,得到相应的第一实体对齐分值;
步骤S4,将所述第一实体对齐分值与预设的第一实体对齐阈值进行比较,并判断是否存在所述第一实体对齐分值小于所述第一实体对齐阈值:
若是,则转向步骤S5;
若否,则将所述第一实体对齐分值作为总实体对齐分值输出,随后转向步骤S6;
步骤S5,根据所述实体对齐分值对应的所述第一作者属性数据判断所述知识图谱数据是否为学位论文:
若是,则根据预先建立的第二实体对齐模型,对所述第一作者属性数据和所述第二作者属性数据之间的实体对齐结果进行打分,得到相应的第二实体对齐分值,随后转向步骤S6;
若否,则将所述第一实体对齐分值作为所述总实体对齐分值输出,随后转向步骤S7;
步骤S6,对所述第一实体对齐分值和所述第二实体对齐分值进行求和,并将求和结果作为所述总实体对齐分值输出,
步骤S7,将所述总实体对齐分值与预设的第二实体对齐阈值进行比较,并判断是否存在所述总实体对齐分值小于所述第二实体对齐阈值:
若是,则将对应的所述知识图谱数据作为新实体加入所述作者实体库,以对所述作者实体库进行更新,随后退出;
若否,则将对应的所述第一作者属性数据和所述第二作者属性数据进行知识融合得到第三作者属性数据,并对所述候选实体库中的所述第二作者属性数据进行更新,随后转向步骤S8;
步骤S8,将所述第三作者属性数据作为所述第一作者属性数据,随后返回所述步骤S3。
作为本发明的一种优选方案,所述知识图谱数据包括中文学位论文,和/或英文学位论文,和/或中文期刊论文,和/或英文期刊论文,和/或中文会议论文,和/或英文会议论文。
作为本发明的一种优选方案,执行所述步骤S2之前,还包括:
在所述作者姓名中不包含所述作者姓名的英文名称时,补充所述英文名称,以对所述作者姓名进行更新。
作为本发明的一种优选方案,所述第一作者属性数据包括论文题目,和/或论文摘要,和/或关键词列表,和/或作者列表,和/或论文的引用文献列表,和/或论文的类型,和/或学位论文的等级,和/或作者受教育经历,和/或作者专业,和/或导师的姓名,和/或中图分类号。
作为本发明的一种优选方案,所述第一实体对齐模型为:
Score=ω0U+ω1L+ω2T+D
其中,
Score用于表示所述第一实体对齐分值;
U用于表示所述第一作者属性数据和所述第二作者属性数据为作者的研究单位时,所述第一作者属性数据和所述第二作者属性数据之间匹配得到的单位得分;
L用于表示所述第一作者属性数据和所述第二作者属性数据为作者的论文研究领域时,所述第一作者属性数据和所述第二作者属性数据之间匹配得到的领域得分;
T用于表示所述第一作者属性数据和所述第二作者属性数据中,根据共同作者匹配得到的合著关系得分;
D用于表示修正系数;
ω0,ω1,ω2用于表示所述第一实体对齐模型的影响权重。
作为本发明的一种优选方案,所述第二实体对齐模型包括第一实体对齐子模型和第二实体对齐子模型;
则所述步骤S5具体包括:
步骤S51,根据所述实体对齐分值对应的所述第一作者属性数据判断所述知识图谱数据是否为学位论文:
若是,则转向步骤S52;
若否,则将所述第一实体对齐分值作为总实体对齐分值输出,随后转向步骤S6;
步骤S52,判断所述第一作者属性数据对应的所述作者姓名的身份信息:
若所述作者姓名为所述学位论文的作者,则根据所述第一实体子对齐模型对所述第一作者属性数据和所述第二作者属性数据之间的实体对齐结果进行打分,得到相应的第二实体对齐分值,随后转向步骤S6;
若所述作者姓名是否为所述学位论文的导师,则根据所述第二实体对齐子模型对所述第一作者属性数据和所述第二作者属性数据之间的实体对齐结果进行打分,得到相应的第二实体对齐分值,随后转向步骤S6。
作为本发明的一种优选方案,所述第一实体对齐子模型为:
Score1=a0U+a1M+a2L+a3E+a4T+D
其中,
Score1用于表示所述第二实体对齐分值;
U用于表示所述第一作者属性数据和所述第二作者属性数据为作者的毕业院校时,所述第一作者属性数据和所述第二作者属性数据之间匹配得到的毕业院校得分;
M用于表示所述第一作者属性数据和所述第二作者属性数据为作者的所学专业时,所述第一作者属性数据和所述第二作者属性数据之间匹配得到的专业得分;
L用于表示所述第一作者属性数据和所述第二作者属性数据为作者的论文研究领域时,所述第一作者属性数据和所述第二作者属性数据之间匹配得到的领域得分;
E用于表示所述第一作者属性数据和所述第二作者属性数据为作者的学位时,所述第一作者属性数据和所述第二作者属性数据之间匹配得到的学位得分;
T用于表示所述第一作者属性数据和所述第二作者属性数据中,根据共同作者匹配得到的合著关系得分;
D用于表示修正系数;
a0,a1,a2,a3,a4用于表示所述第一实体对齐子模型的影响权重。
作为本发明的一种优选方案,所述第二实体对齐子模型为:
Score2=b0U+b1M+b2L+b3T+D
其中,
Score2用于表示所述第二实体对齐分值;
U用于表示所述第一作者属性数据和所述第二作者属性数据为作者的毕业院校时,所述第一作者属性数据和所述第二作者属性数据之间匹配得到的毕业院校得分;
M用于表示所述第一作者属性数据和所述第二作者属性数据为作者的所学专业时,所述第一作者属性数据和所述第二作者属性数据之间匹配得到的专业得分;
L用于表示所述第一作者属性数据和所述第二作者属性数据为作者的论文研究领域时,所述第一作者属性数据和所述第二作者属性数据之间匹配得到的领域得分;
T用于表示所述第一作者属性数据和所述第二作者属性数据中,根据共同作者匹配得到的合著关系得分;
D用于表示修正系数;
b0,b1,b2,b3用于表示所述第二实体对齐子模型的影响权重。
一种应用于知识图谱的实体对齐系统,应用以上任意一项所述的应用于知识图谱的实体对齐方法,所述应用于知识图谱的实体对齐系统具体包括:
数据获取模块,用于获取知识图谱数据,并对所述知识图谱数据进行信息提取,得到待对齐学术数据;
所述待对齐学术数据包括作者姓名和对应的第一作者属性数据;
第一实体对齐模块,连接所述数据获取模块,用于将所述作者姓名与预先生成的作者实体库中的所有已入库作者姓名进行实体对齐,根据实体对齐结果,将与所述作者姓名匹配的若干所述已入库作者姓名对应的第二作者属性数据作为候选实体,形成候选实体库;
第二实体对齐模块,分别连接所述数据获取模块和所述第一实体对齐模块,用于根据预先建立的第一实体对齐模型,分别对所述第一作者属性数据与所述候选实体库中的各所述第二作者属性数据之间的实体对齐结果进行打分,得到相应的第一实体对齐分值;
第一比较模块,连接所述第二实体对齐模块,用于将所述第一实体对齐分值与预设的第一实体对齐阈值进行比较,并在不存在所述第一实体对齐分值小于所述第一实体对齐阈值时生成第一比较结果,以及在存在所述第一实体对齐分值小于所述第一实体对齐阈值时生成第二比较结果;
第一处理模块,连接所述第一比较模块,用于根据所述第一比较结果将所述第一实体对齐分值作为总实体对齐分值输出;
数据判断模块,分别连接所述数据获取模块和所述第一比较模块,用于根据所述第二比较结果以及所述实体对齐分值对应的所述第一作者属性数据判断所述知识图谱数据是否为学位论文,并在所述述知识图谱数据是学位论文时生成第一判断结果,以及在所述述知识图谱数据不是学位论文时生成第二判断结果;
第二处理模块,连接所述数据判断模块,用于根据所述第一判断结果根据预先建立的第二实体对齐模型,对所述第一作者属性数据和所述第二作者属性数据之间的实体对齐结果进行打分,得到相应的第二实体对齐分值;
第三处理模块,连接所述数据判断模块,用于根据所述第二判断结果将所述第一实体对齐分值作为所述总实体对齐分值输出;
第四处理模块,分别连接所述第二实体对齐模块和所述第二处理模块,用于对所述第一实体对齐分值和所述第二实体对齐分值进行求和,并将求和结果作为所述总实体对齐分值输出;
第五处理模块,分别连接所述第一处理模块、所述第三处理模块和所述第四处理模块,用于将所述总实体对齐分值与预设的第二实体对齐阈值进行比较,并在存在所述总实体对齐分值小于所述第二实体对齐阈值时将对应的所述知识图谱数据作为新实体加入所述作者实体库,以对所述作者实体库进行更新;以及
在不存在所述总实体对齐分值小于所述第二实体对齐阈值时将对应的所述第一作者属性数据和所述第二作者属性数据进行知识融合得到第三作者属性数据,并对所述候选实体库中的所述第二作者属性数据进行更新。
本发明的有益效果:有效提高科研学术中作者实体对齐的准确率和召回率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例所述的一种应用于知识图谱的实体对齐方法的流程示意图。
图2是本发明一实施例所述的一种应用于知识图谱的实体对齐方法的流程框图。
图3是本发明一实施例所述的第二轮实体对齐方法的流程示意图。
图4是本发明一实施例所述的一种应用于知识图谱的实体对齐系统的结构示意图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
在本发明的描述中,除非另有明确的规定和限定,若出现术语“连接”等指示部件之间的连接关系,该术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
基于现有技术中存在的技术问题,本发明提供一种应用于知识图谱的实体对齐方法,如图1所示,具体包括以下步骤:
步骤S1,获取知识图谱数据,并对知识图谱数据进行信息提取,得到待对齐学术数据;
待对齐学术数据包括作者姓名和对应的第一作者属性数据;
步骤S2,将作者姓名与预先生成的作者实体库中的所有已入库作者姓名进行实体对齐,根据实体对齐结果,将与作者姓名匹配的若干已入库作者姓名对应的第二作者属性数据作为候选实体,形成候选实体库;
步骤S3,根据预先建立的第一实体对齐模型,分别对第一作者属性数据与候选实体库中的各第二作者属性数据之间的实体对齐结果进行打分,得到相应的第一实体对齐分值;
步骤S4,将第一实体对齐分值与预设的第一实体对齐阈值进行比较,并判断是否存在第一实体对齐分值小于第一实体对齐阈值:
若是,则转向步骤S5;
若否,则将第一实体对齐分值作为总实体对齐分值输出,随后转向步骤S6;
步骤S5,根据实体对齐分值对应的第一作者属性数据判断知识图谱数据是否为学位论文:
若是,则根据预先建立的第二实体对齐模型,对第一作者属性数据和第二作者属性数据之间的实体对齐结果进行打分,得到相应的第二实体对齐分值,随后转向步骤S6;
若否,则将第一实体对齐分值作为总实体对齐分值输出,随后转向步骤S7;
步骤S6,对第一实体对齐分值和第二实体对齐分值进行求和,并将求和结果作为总实体对齐分值输出,
步骤S7,将总实体对齐分值与预设的第二实体对齐阈值进行比较,并判断是否存在总实体对齐分值小于第二实体对齐阈值:
若是,则将对应的知识图谱数据作为新实体加入作者实体库,以对作者实体库进行更新,随后退出;
若否,则将对应的第一作者属性数据和第二作者属性数据进行知识融合得到第三作者属性数据,并对候选实体库中的第二作者属性数据进行更新,随后转向步骤S8;
步骤S8,将第三作者属性数据作为第一作者属性数据,随后返回步骤S3。
具体地,本实施例中,本发明应用于科研学术知识图谱构建中论文的作者之间的实体对齐。本方法对论文进行信息提取,重在从作者的属性出发,综合考虑作者的研究单位、作者的研究领域(也可以是论文的关键词)、专业、学位论文等级(学士、硕士、博士)、合著关系、同门关系以及导师关系,并不是简单地加权求和来打分,而是根据不同的情况投射出不同的模型分支,并结合不同的情况对模型进行修正,提高实体对齐的准确率和召回率。
本实施例中,如图2所示,上述知识图谱数据按照语言分,分别是中文文献和英文文献;按照论文的类型分,有学位论文、期刊论文和会议论文。将获取到的上述论文进行信息提取,论文题目、摘要、关键词列表、作者列表、论文的引用文献列表、论文的类型(学位论文、期刊论文或会议论文),若是学位论文,需要提取学位论文的等级(学士、硕士、博士)、受教育经历、作者专业、导师的姓名以及中图分类号,事实上除了国外的文献,国内文献无论是学位论文、会议论文还是期刊论文都有提供中图分类号,将这些信息合并一起作为一条数据。
在上述数据的基础上,要添加作者的英文名称(拼音)。如果该篇论文本身就是英文文献,作者都是英文和拼音的表示,则忽略此步骤。这里要获取到作者姓名的多种拼音表述,拼音缩写、姓和名的位置互换等,这里统称为英文姓名,将每个作者的英文姓名列表添加到上述数据中。
整理完该条数据之后,需要将此数据中包含的作者去跟已经入作者实体库的作者进行比较,也就是实体对齐。由于这里针对的是实体库里面的作者而不是知识库里面的人工整理明确的科研工作者,所以不能称为是实体链接,而应该是实体对齐。通过之前整理的作者姓名进行全库搜索,将姓名匹配(中文名和英文姓名)的作者都作为候选实体进行比较。
本实施例中,首先根据预先建立的第一实体对齐模型,分别对待入库作者A和候选实体库中的作者B之间的实体对齐结果进行初步打分,得到相应的第一实体对齐分值。在利用模型进行初步打分之后,根据设定的阈值进行判断,看其打分结果是否满足阈值,如果不满足阈值就需要对作者A和作者B作进一步的比较,然而只是针对当A是来自学位论文的作者或者导师,并且B也有学位论文这种情况,这是根据学位论文的独有的属性决定的,一般情况下只有学位论文会包含作者的专业和学位,因此在一般打分小于阈值的情况需要对学位论文的作者或者导师做第二轮判断。上面所说的都是在处理缺失各大关系的情况下的比较,若有同门关系等关系结果,可以再原模型的基础上进一步提高实体对齐的准确率。
进一步地,进行完两轮作者打分之后,如果综合得分超过阈值,那么就认为A和B是同一个作者,需要将A的属性与B的属性做知识融合,完成本次实体对齐,由于B的属性有所改变,就需要将B与一开始所有的候选实体进行实体对齐操作,直到该轮没有任何实体有属性更新,本轮实体对齐结束。如果综合得分小于阈值,则暂时认为A和B不是同一作者,待到A和所有的候选实体都比较完,并且综合得分都没有超过阈值,则A将作为新的实体入库。
作为本发明的一种优选方案,知识图谱数据包括中文学位论文,和/或英文学位论文,和/或中文期刊论文,和/或英文期刊论文,和/或中文会议论文,和/或英文会议论文。
作为本发明的一种优选方案,执行步骤S2之前,还包括:
在作者姓名中不包含作者姓名的英文名称时,补充英文名称,以对作者姓名进行更新。
作为本发明的一种优选方案,第一作者属性数据包括论文题目,和/或论文摘要,和/或关键词列表,和/或作者列表,和/或论文的引用文献列表,和/或论文的类型,和/或学位论文的等级,和/或作者受教育经历,和/或作者专业,和/或导师的姓名,和/或中图分类号。
作为本发明的一种优选方案,第一实体对齐模型为:
Score=ω0U+ω1L+ω2T+D
其中,
Score用于表示第一实体对齐分值;
U用于表示第一作者属性数据和第二作者属性数据为作者的研究单位时,第一作者属性数据和第二作者属性数据之间匹配得到的单位得分;
L用于表示第一作者属性数据和第二作者属性数据为作者的论文研究领域时,第一作者属性数据和第二作者属性数据之间匹配得到的领域得分;
T用于表示第一作者属性数据和第二作者属性数据中,根据共同作者匹配得到的合著关系得分;
D用于表示修正系数;
ω0,ω1,ω2用于表示第一实体对齐模型的影响权重。
具体地,本实施例中,对于待入库作者A和候选实体库中的作者B,分别计算两者之间的单位得分、领域得分和合著关系得分。
对于上述单位得分,论文中包含作者的单位信息,一个作者在一篇论文中可能写有多个单位,一个作者的多篇论文中可能也含有多个研究单位名称,因此二者的比较就要考虑完全匹配,部分比配以及完全不匹配。这里说一下部分比配,这里会有几种情况:A的单位是北京大学光华管理学院,B的单位是北京大学,这就属于部分匹配,而不是完全匹配;A的单位有两个是北京大学光华管理学院和北京科技大学经管学院,B的单位是北京科技大学经管学院,这也是属于部分匹配情况。针对完全匹配,部分匹配和完全不匹配这三种情况的单位得分要有阶梯值,如完全匹配时单位得分为1分,部分匹配按照部分匹配的单位个数进行计算,取值为0.9分,这里会出现完全匹配和部分匹配共存的情况,计算将结果就是(n×1+m×0.9)/(n+m),完全不匹配的得分就是0分。其中,n表示完全匹配的单位个数,m表示部分匹配的单位个数。
对于领域得分,论文的研究领域有很多表示形式,一方面用关键词直接表示,一方面制作映射词典,将关键词映射到更为统一的概括名称,如智能问答和知识图谱等关键词就可以映射到自然语言处理。再者,可以利用中图分类号进行匹配,但是中图分类号的结果不是很详细,相对来说是比较宏观的层面,如果用中图分类号进行比较得到的结果与前两个相比较准确度不高。这里以论文的关键词直接计算为例进行说明,就是利用近义词判断比较所有关键词的相似度,然后取平均值。但是,如果是取所有的关键词的平均值,那么结果肯定不是很理想,因为任何不同的两篇论文的关键词不可能完全一致,即便是研究同一类问题,因此需要取个阈值,例如10,就是将A和B的论文的关键词进行相似度计算,取分值高的前十个比较结果进行平均值计算,该平均值结果就作为A和B的领域得分。如果利用映射词典寻找交集,那么就要根据层级一次向上查找进行分数递减。
对于合著关系得分,表示的是A和B的发表的论文中共同的作者交集,事实上这里不能完全称为是共同作者,因为可能这两个作者还没有进行实体对齐,只是二者的名字一致,研究单位完全匹配或者部分匹配。根据共同作者的个数来进行阶梯分数的分配,这个可以根据场景情况进行分配,例如如果合著作者超过三个(不同姓名)或者有两个合著作者出现在同一篇文章,合著得分为1分,这里解释一下第二种情况。若A在一篇论文的合著作者有C和D,而C和D同时出现在B的一篇论文中,这就是上面提到的第二种情况,有两个合著作者出现在同一篇文章。如果只是有两个合著作者,得分为0.8分,只有一个合著作者,得分为0.6分,如果完全没有,则得分为0分。
对于修正系数,表示在遇到特殊情况时用来修正结果,使得一些人认为成立的情况得以实现。当人认为模型情况是成立的时候,并且当影响权重固定时,如果不考虑修正指数,当前的计算模型会得出与人意识相悖的结果,这样的情况很常见,比如上面提到的单位得分、领域得分以及合著关系得分,只要其中一种得分为零,那么它的影响权重就失效了,这是不合逻辑的,修正指数就是来处理这种情况。例如:如果影响权重分配为ω0=0.218,ω1=0.101,ω2=0.681,若取整体得分阈值为0.9,当合著关系得分为零时,若不考虑修正指数,即便是研究领域和研究单位完全相同,那么根据模型判断结果是不正确的,但是人的意识就会认为是同一个作者,这个时候讲修正指数取0.617,那么当单位得分为1,领域得分为0.65时,整体结果就大于0.9,这就符合了人的判断结果,因此修正指数是不能缺少的。
作为本发明的一种优选方案,第二实体对齐模型包括第一实体对齐子模型和第二实体对齐子模型;
如图3所示,则步骤S5具体包括:
步骤S51,根据实体对齐分值对应的第一作者属性数据判断知识图谱数据是否为学位论文:
若是,则转向步骤S52;
若否,则将第一实体对齐分值作为总实体对齐分值输出,随后转向步骤S6;
步骤S52,判断第一作者属性数据对应的作者姓名的身份信息:
若作者姓名为学位论文的作者,则根据第一实体子对齐模型对第一作者属性数据和第二作者属性数据之间的实体对齐结果进行打分,得到相应的第二实体对齐分值,随后转向步骤S6;
若作者姓名是否为学位论文的导师,则根据第二实体对齐子模型对第一作者属性数据和第二作者属性数据之间的实体对齐结果进行打分,得到相应的第二实体对齐分值,随后转向步骤S6。
具体地,本实施例中,针对作者的第二轮的判断模型实际上就是毕业院校得分、专业得分、研究领域得分,学位得分以及合著关系得分的综合得分。如果二者的学位一致或者部分包含,例如A当前的论文是硕士论文,B的学位论文已经有硕士论文,那么学位得分就会很低,读第二专业的人不占多数;如果二者毕业院校不一致,则需要比较彼此的受教育经历(论文中的信息提取),若有交集则认为毕业院校得分较高;如果二者毕业院校一致,学位不一致并且专业也不一致,通过对专业层级关系进行查找,若两个专业的多层上级是同一个则得分较高。
针对导师的第二轮判断,则是在上述模型的基础上去掉学位得分。事实上导师指导的学生属于大专业下的多个分支情况较常见,因此在计算导师的情况时需要加大专业的影响权重,降低研究领域的影响权重。
作为本发明的一种优选方案,第一实体对齐子模型为:
Score1=a0U+a1M+a2L+a3E+a4T+D
其中,
Score1用于表示第二实体对齐分值;
U用于表示第一作者属性数据和第二作者属性数据为作者的毕业院校时,第一作者属性数据和第二作者属性数据之间匹配得到的毕业院校得分;
M用于表示第一作者属性数据和第二作者属性数据为作者的所学专业时,第一作者属性数据和第二作者属性数据之间匹配得到的专业得分;
L用于表示第一作者属性数据和第二作者属性数据为作者的论文研究领域时,第一作者属性数据和第二作者属性数据之间匹配得到的领域得分;
E用于表示第一作者属性数据和第二作者属性数据为作者的学位时,第一作者属性数据和第二作者属性数据之间匹配得到的学位得分;
T用于表示第一作者属性数据和第二作者属性数据中,根据共同作者匹配得到的合著关系得分;
D用于表示修正系数;
a0,a1,a2,a3,a4用于表示第一实体对齐子模型的影响权重。
作为本发明的一种优选方案,第二实体对齐子模型为:
Score2=b0U+b1M+b2L+b3T+D
其中,
Score2用于表示第二实体对齐分值;
U用于表示第一作者属性数据和第二作者属性数据为作者的毕业院校时,第一作者属性数据和第二作者属性数据之间匹配得到的毕业院校得分;
M用于表示第一作者属性数据和第二作者属性数据为作者的所学专业时,第一作者属性数据和第二作者属性数据之间匹配得到的专业得分;
L用于表示第一作者属性数据和第二作者属性数据为作者的论文研究领域时,第一作者属性数据和第二作者属性数据之间匹配得到的领域得分;
T用于表示第一作者属性数据和第二作者属性数据中,根据共同作者匹配得到的合著关系得分;
D用于表示修正系数;
b0,b1,b2,b3用于表示第二实体对齐子模型的影响权重。
一种应用于知识图谱的实体对齐系统,应用以上任意一项的应用于知识图谱的实体对齐方法,如图4所示,应用于知识图谱的实体对齐系统具体包括:
数据获取模块1,用于获取知识图谱数据,并对知识图谱数据进行信息提取,得到待对齐学术数据;
待对齐学术数据包括作者姓名和对应的第一作者属性数据;
第一实体对齐模块2,连接数据获取模块1,用于将作者姓名与预先生成的作者实体库中的所有已入库作者姓名进行实体对齐,根据实体对齐结果,将与作者姓名匹配的若干已入库作者姓名对应的第二作者属性数据作为候选实体,形成候选实体库;
第二实体对齐模块3,分别连接数据获取模块1和第一实体对齐模块2,用于根据预先建立的第一实体对齐模型,分别对第一作者属性数据与候选实体库中的各第二作者属性数据之间的实体对齐结果进行打分,得到相应的第一实体对齐分值;
第一比较模块4,连接第二实体对齐模块3,用于将第一实体对齐分值与预设的第一实体对齐阈值进行比较,并在不存在第一实体对齐分值小于第一实体对齐阈值时生成第一比较结果,以及在存在第一实体对齐分值小于第一实体对齐阈值时生成第二比较结果;
第一处理模块5,连接第一比较模块4,用于根据第一比较结果将第一实体对齐分值作为总实体对齐分值输出;
数据判断模块6,分别连接数据获取模块1和第一比较模块4,用于根据第二比较结果以及实体对齐分值对应的第一作者属性数据判断知识图谱数据是否为学位论文,并在述知识图谱数据是学位论文时生成第一判断结果,以及在述知识图谱数据不是学位论文时生成第二判断结果;
第二处理模块7,连接数据判断模块6,用于根据第一判断结果根据预先建立的第二实体对齐模型,对第一作者属性数据和第二作者属性数据之间的实体对齐结果进行打分,得到相应的第二实体对齐分值;
第三处理模块8,连接数据判断模块6,用于根据第二判断结果将第一实体对齐分值作为总实体对齐分值输出;
第四处理模块9,分别连接第二实体对齐模块3和第二处理模块7,用于对第一实体对齐分值和第二实体对齐分值进行求和,并将求和结果作为总实体对齐分值输出;
第五处理模块10,分别连接第一处理模块5、第三处理模块8和第四处理模块9,用于将总实体对齐分值与预设的第二实体对齐阈值进行比较,并在存在总实体对齐分值小于第二实体对齐阈值时将对应的知识图谱数据作为新实体加入作者实体库,以对作者实体库进行更新;以及
在不存在总实体对齐分值小于第二实体对齐阈值时将对应的第一作者属性数据和第二作者属性数据进行知识融合得到第三作者属性数据,并对候选实体库中的第二作者属性数据进行更新。
需要声明的是,上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白,还可以对本发明做各种修改、等同替换、变化等等。但是,这些变换只要未背离本发明的精神,都应在本发明的保护范围之内。另外,本申请说明书和权利要求书所使用的一些术语并不是限制,仅仅是为了便于描述。
Claims (4)
1.一种应用于知识图谱的实体对齐方法,其特征在于,具体包括以下步骤:
步骤S1,获取知识图谱数据,并对所述知识图谱数据进行信息提取,得到待对齐学术数据;
所述待对齐学术数据包括作者姓名和对应的第一作者属性数据;
步骤S2,将所述作者姓名与预先生成的作者实体库中的所有已入库作者姓名进行实体对齐,根据实体对齐结果,将与所述作者姓名匹配的若干所述已入库作者姓名对应的第二作者属性数据作为候选实体,形成候选实体库;
步骤S3,根据预先建立的第一实体对齐模型,分别对所述第一作者属性数据与所述候选实体库中的各所述第二作者属性数据之间的实体对齐结果进行打分,得到相应的第一实体对齐分值;
步骤S4,将所述第一实体对齐分值与预设的第一实体对齐阈值进行比较,并判断是否存在所述第一实体对齐分值小于所述第一实体对齐阈值:
若是,则转向步骤S5;
若否,则将所述第一实体对齐分值作为总实体对齐分值输出,随后转向步骤S6;
步骤S5,根据所述实体对齐分值对应的所述第一作者属性数据判断所述知识图谱数据是否为学位论文:
若是,则根据预先建立的第二实体对齐模型,对所述第一作者属性数据和所述第二作者属性数据之间的实体对齐结果进行打分,得到相应的第二实体对齐分值,随后转向步骤S6;
若否,则将所述第一实体对齐分值作为所述总实体对齐分值输出,随后转向步骤S7;
步骤S6,根据预先建立的第二实体对齐模型,对所述第一作者属性数据和所述第二作者属性数据之间的实体对齐结果进行打分,得到相应的第二实体对齐分值,并对所述第一实体对齐分值和所述第二实体对齐分值进行求和,并将求和结果作为所述总实体对齐分值输出,
步骤S7,将所述总实体对齐分值与预设的第二实体对齐阈值进行比较,并判断是否存在所述总实体对齐分值小于所述第二实体对齐阈值:
若是,则将对应的所述知识图谱数据作为新实体加入所述作者实体库,以对所述作者实体库进行更新,随后退出;
若否,则将对应的所述第一作者属性数据和所述第二作者属性数据进行知识融合得到第三作者属性数据,并对所述候选实体库中的所述第二作者属性数据进行更新,随后转向步骤S8;
步骤S8,将所述第三作者属性数据作为所述第一作者属性数据,随后返回所述步骤S3;
所述第二实体对齐模型包括第一实体对齐子模型和第二实体对齐子模型;
则所述步骤S5具体包括:
步骤S51,根据所述实体对齐分值对应的所述第一作者属性数据判断所述知识图谱数据是否为学位论文:
若是,则转向步骤S52;
若否,则将所述第一实体对齐分值作为总实体对齐分值输出,随后转向步骤S6;
步骤S52,判断所述第一作者属性数据对应的所述作者姓名的身份信息:
若所述作者姓名为所述学位论文的作者,则根据所述第一实体子对齐模型对所述第一作者属性数据和所述第二作者属性数据之间的实体对齐结果进行打分,得到相应的第二实体对齐分值,随后转向步骤S6;
若所述作者姓名是否为所述学位论文的导师,则根据所述第二实体对齐子模型对所述第一作者属性数据和所述第二作者属性数据之间的实体对齐结果进行打分,得到相应的第二实体对齐分值,随后转向步骤S6;
所述第一实体对齐模型为:
Score=ω0U+ω1L+ω2T+D
其中,
Score用于表示所述第一实体对齐分值;
U用于表示所述第一作者属性数据和所述第二作者属性数据为作者的研究单位时,所述第一作者属性数据和所述第二作者属性数据之间匹配得到的单位得分;
L用于表示所述第一作者属性数据和所述第二作者属性数据为作者的论文研究领域时,所述第一作者属性数据和所述第二作者属性数据之间匹配得到的领域得分;
T用于表示所述第一作者属性数据和所述第二作者属性数据中,根据共同作者匹配得到的合著关系得分;
D用于表示修正系数;
ω0,ω1,ω2用于表示所述第一实体对齐模型的影响权重;
所述第一实体对齐子模型为:
Score1=a0U+a1M+a2L+a3E+a4T+D
其中,
Score1用于表示所述第二实体对齐分值;
U用于表示所述第一作者属性数据和所述第二作者属性数据为作者的毕业院校时,所述第一作者属性数据和所述第二作者属性数据之间匹配得到的毕业院校得分;
M用于表示所述第一作者属性数据和所述第二作者属性数据为作者的所学专业时,所述第一作者属性数据和所述第二作者属性数据之间匹配得到的专业得分;
L用于表示所述第一作者属性数据和所述第二作者属性数据为作者的论文研究领域时,所述第一作者属性数据和所述第二作者属性数据之间匹配得到的领域得分;
E用于表示所述第一作者属性数据和所述第二作者属性数据为作者的学位时,所述第一作者属性数据和所述第二作者属性数据之间匹配得到的学位得分;
T用于表示所述第一作者属性数据和所述第二作者属性数据中,根据共同作者匹配得到的合著关系得分;
D用于表示修正系数;
a0,a1,a2,a3,a4用于表示所述第一实体对齐子模型的影响权重;
所述第二实体对齐子模型为:
Score2=b0U+b1M+b2L+b3T+D
其中,
Score2用于表示所述第二实体对齐分值;
U用于表示所述第一作者属性数据和所述第二作者属性数据为作者的毕业院校时,所述第一作者属性数据和所述第二作者属性数据之间匹配得到的毕业院校得分;
M用于表示所述第一作者属性数据和所述第二作者属性数据为作者的所学专业时,所述第一作者属性数据和所述第二作者属性数据之间匹配得到的专业得分;
L用于表示所述第一作者属性数据和所述第二作者属性数据为作者的论文研究领域时,所述第一作者属性数据和所述第二作者属性数据之间匹配得到的领域得分;
T用于表示所述第一作者属性数据和所述第二作者属性数据中,根据共同作者匹配得到的合著关系得分;
D用于表示修正系数;
b0,b1,b2,b3用于表示所述第二实体对齐子模型的影响权重。
2.根据权利要求1所述的应用于知识图谱的实体对齐方法,其特征在于,所述知识图谱数据包括中文学位论文,和/或英文学位论文,和/或中文期刊论文,和/或英文期刊论文,和/或中文会议论文,和/或英文会议论文。
3.根据权利要求1所述的应用于知识图谱的实体对齐方法,其特征在于,执行所述步骤S2之前,还包括:
在所述作者姓名中不包含所述作者姓名的英文名称时,补充所述英文名称,以对所述作者姓名进行更新。
4.根据权利要求1所述的应用于知识图谱的实体对齐方法,其特征在于,所述第一作者属性数据包括论文题目,和/或论文摘要,和/或关键词列表,和/或作者列表,和/或论文的引用文献列表,和/或论文的类型,和/或学位论文的等级,和/或作者受教育经历,和/或作者专业,和/或导师的姓名,和/或中图分类号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911398814.4A CN111191045B (zh) | 2019-12-30 | 2019-12-30 | 一种应用于知识图谱的实体对齐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911398814.4A CN111191045B (zh) | 2019-12-30 | 2019-12-30 | 一种应用于知识图谱的实体对齐方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111191045A CN111191045A (zh) | 2020-05-22 |
CN111191045B true CN111191045B (zh) | 2023-06-16 |
Family
ID=70707930
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911398814.4A Active CN111191045B (zh) | 2019-12-30 | 2019-12-30 | 一种应用于知识图谱的实体对齐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111191045B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112463977A (zh) * | 2020-10-22 | 2021-03-09 | 三盟科技股份有限公司 | 基于知识图谱的社区挖掘方法、系统、计算机及存储介质 |
CN113761221B (zh) * | 2021-06-30 | 2022-02-15 | 中国人民解放军32801部队 | 基于图神经网络的知识图谱实体对齐方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145523A (zh) * | 2017-04-12 | 2017-09-08 | 浙江大学 | 基于迭代匹配的大型异构知识库对齐方法 |
CN107748799A (zh) * | 2017-11-08 | 2018-03-02 | 四川长虹电器股份有限公司 | 一种多数据源影视数据实体对齐的方法 |
CN108717425A (zh) * | 2018-04-26 | 2018-10-30 | 国家电网公司 | 一种基于多数据源的知识图谱人物实体对齐方法 |
CN110362692A (zh) * | 2019-07-23 | 2019-10-22 | 中南大学 | 一种基于知识图谱的学术圈构建方法 |
CN110580337A (zh) * | 2019-06-11 | 2019-12-17 | 福建奇点时空数字科技有限公司 | 一种基于实体相似度计算的专业实体消歧实现方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9183290B2 (en) * | 2007-05-02 | 2015-11-10 | Thomas Reuters Global Resources | Method and system for disambiguating informational objects |
US7953724B2 (en) * | 2007-05-02 | 2011-05-31 | Thomson Reuters (Scientific) Inc. | Method and system for disambiguating informational objects |
US9477909B2 (en) * | 2013-01-09 | 2016-10-25 | SynTouch, LLC | Object investigation and classification |
CN108038183B (zh) * | 2017-12-08 | 2020-11-24 | 北京百度网讯科技有限公司 | 结构化实体收录方法、装置、服务器和存储介质 |
-
2019
- 2019-12-30 CN CN201911398814.4A patent/CN111191045B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145523A (zh) * | 2017-04-12 | 2017-09-08 | 浙江大学 | 基于迭代匹配的大型异构知识库对齐方法 |
CN107748799A (zh) * | 2017-11-08 | 2018-03-02 | 四川长虹电器股份有限公司 | 一种多数据源影视数据实体对齐的方法 |
CN108717425A (zh) * | 2018-04-26 | 2018-10-30 | 国家电网公司 | 一种基于多数据源的知识图谱人物实体对齐方法 |
CN110580337A (zh) * | 2019-06-11 | 2019-12-17 | 福建奇点时空数字科技有限公司 | 一种基于实体相似度计算的专业实体消歧实现方法 |
CN110362692A (zh) * | 2019-07-23 | 2019-10-22 | 中南大学 | 一种基于知识图谱的学术圈构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111191045A (zh) | 2020-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107230174B (zh) | 一种基于网络的在线互动学习系统和方法 | |
CN111753098A (zh) | 一种基于跨媒体动态知识图谱的教学方法及系统 | |
WO2017152532A1 (zh) | 一种基于认知模型的计算思维训练方法及装置 | |
CN112395403A (zh) | 一种基于知识图谱的问答方法、系统、电子设备及介质 | |
CN111191045B (zh) | 一种应用于知识图谱的实体对齐方法及系统 | |
Liu et al. | An effective learning evaluation method based on text data with real-time attribution-a case study for mathematical class with students of junior middle school in China | |
Weng et al. | Construction and application of teaching system based on crowdsourcing knowledge graph | |
Speer | Open mind commons: An inquisitive approach to learning common sense | |
Gaheen et al. | Automated students arabic essay scoring using trained neural network by e-jaya optimization to support personalized system of instruction | |
Zhang | A New Machine Learning Framework for Effective Evaluation of English Education. | |
Soares et al. | Education question answering systems: a survey | |
Dwyer | Models of successful cooperation | |
CN111930908A (zh) | 基于人工智能的答案识别方法及装置、介质、电子设备 | |
Liu et al. | An evaluation of gpt-4v and gemini in online vqa | |
Gureeva et al. | Creating information retrieval competence of future translators: an integrative approach | |
Qiao et al. | Automated constmction of course knowledge graph based on China MOOC platform | |
Lazib et al. | Educational guidance process integrating opinion mining | |
Li et al. | A new algorithm to the automated assessment of the Chinese subjective answer | |
Wang | Evaluation and measurement of student satisfaction with online learning under integration of teaching resources | |
CN112084345B (zh) | 一种结合课程与教学大纲的本体的导学方法及系统 | |
CN117150151B (zh) | 一种基于大语言模型的错题分析及试题推荐系统和方法 | |
Raghu et al. | An Empirical Investigation of the Use of ML and Neural Networks in English Learning | |
Wang et al. | Extraction and Analysis of Influencing Factors of Scientific and Technological Ability Improvement of University Teachers Based on Deep Learning Model | |
Qin | University blended English teaching based on big data analytics | |
Plaza et al. | Automatic Recommendation of Contents and Reinforcement Activities to Facilitate the Autonomous Learning in a Data Structure and Programming Course |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |