CN112069817A - 一种学者知识抽取与融合方法及装置 - Google Patents

一种学者知识抽取与融合方法及装置 Download PDF

Info

Publication number
CN112069817A
CN112069817A CN202010692579.8A CN202010692579A CN112069817A CN 112069817 A CN112069817 A CN 112069817A CN 202010692579 A CN202010692579 A CN 202010692579A CN 112069817 A CN112069817 A CN 112069817A
Authority
CN
China
Prior art keywords
entity
knowledge base
entity relationship
relationship pair
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010692579.8A
Other languages
English (en)
Inventor
杜一
朱小杰
周园春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Network Information Center of CAS
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Priority to CN202010692579.8A priority Critical patent/CN112069817A/zh
Publication of CN112069817A publication Critical patent/CN112069817A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种学者知识抽取与融合方法及装置。本方法为:1)从各设定数据源获取学者相关的文本,并将文本存入学者文本库;2)从学者文本库中抽取实体和实体关系,则生成对应的实体关系对;3)将每一所述实体关系对i与学术领域知识库进行匹配,如果所述实体关系对i与所述学术领域知识库中一实体关系对a完全匹配,则在实体关系对a中标记新数据来源;如果没有匹配的实体关系对,则根据实体关系对i在所述学术领域知识库中创建新一实体关系对b并标记数据来源;如果与实体关系对c部分匹配,则在实体关系对c上增加对应的新实体或关系,并标记数据来源;4)对步骤3)处理后的所述学术领域知识库进行校对,更新学术领域知识库。

Description

一种学者知识抽取与融合方法及装置
技术领域
本发明属于计算机软件技术领域,涉及一种学者知识抽取与融合方法及装置。
背景技术
知识图谱在辅助问答、知识推理与推荐等领域取得了较好的效果,知识图谱的构建离不开知识的抽取与融合。当前,大多数知识图谱构建过程将知识抽取与融合分别进行研究与突破,公开号CN103902649B、名称“一种基于在线百科链接实体的知识抽取方法”,公开号CN110175334A、名称“基于自定义的知识槽结构的文本知识抽取系统和方法”,公开号CN111177401A、名称“一种电网自由文本知识抽取方法”等针对知识抽取已经特定领域的知识抽取进行了研究并给出了解决方案;公开号CN108647318A、名称“一种基于多源数据的知识融合方法”,公开号CN104239660B、名称“云制造模式下基于动态本体的知识融合方法”,公开号CN107545034A、名称“一种地方志知识融合方法”等针对知识融合方法进行研究并给出了解决方案。然而,仅依靠算法或规则形成的抽取或融合成果,难以直接应用到实际生产活动中。特别是在学术知识图谱中,普遍存在学者、机构名称消歧的问题,需要结合算法与专业知识进行优化,从而形成生产中可用的科技领域知识图谱。
发明内容
本发明旨在提供一种学者知识抽取与融合方法及装置。本发明面向知识工程,针对学者知识抽取与融合,设计了一种融合了数据探针、知识抽取、知识融合以及人工校对的方法。该方法首先通过预先配置的数据探针,及时获取学者相关的文本,并将文本存入学者文本库;然后利用实体、关系抽取模型对领域实体、关系进行抽取,形成“学者实体-关系-实体B”实体关系对;进一步,将实体关系对与学术领域知识库进行匹配,形成实体关系匹配结果;再进一步,结合人工校对,形成并更新学术领域知识库。
本发明的技术方案为:
一种学者知识抽取与融合方法,其步骤包括:
1)从各设定数据源获取学者相关的文本,并将文本存入学者文本库;
2)从学者文本库中抽取实体和实体关系,则生成对应的实体关系对;
3)将每一所述实体关系对i与学术领域知识库进行匹配,如果所述实体关系对i与所述学术领域知识库中一实体关系对a完全匹配,则不需要对所述学术领域知识库增加新的实体关系对,根据实体关系对i的数据来源在所述学术领域知识库的匹配实体关系对a中标记新数据来源;如果所述学术领域知识库中没有与所述实体关系对i匹配的实体关系对,则根据实体关系对i在所述学术领域知识库中创建新一实体关系对b并标记数据来源;如果所述实体关系对i与所述学术领域知识库中的实体关系对c部分匹配,即所述学术领域知识库中仅存在实体关系对i中的实体或关系,则根据实体关系对i在所述学术领域知识库中部分匹配上的实体关系对c上增加对应的新实体或关系,并标记数据来源;
4)对步骤3)处理后的所述学术领域知识库进行校对,更新学术领域知识库。
进一步的,步骤4)中,当步骤3)中实体关系对i仅匹配到一个实体时,直接进行双表匹配人工校验;当步骤3)中实体关系对i有多重匹配时,则首先对所述学术领域知识库中多重匹配的实体关系对进行融合,然后进行双表匹配人工校验。
进一步的,步骤3)中,使用全字段匹配方法将所述实体关系对i与学术领域知识库中的实体关系对进行匹配。
进一步的,步骤3)中,使用“文本相似度+阈值”的方式将所述实体关系对i与学术领域知识库中的实体关系对进行匹配。
进一步的,所述实体关系对以属性图方式进行存储与表达。
进一步的,如果学者实体A与机构实体B存在实体关系,则生成一个实体关系对“学者实体A-关系-机构实体B”;如果如果学者实体A与项目实体C存在实体关系,则生成一个实体关系对“学者实体A-关系-项目实体C”。
一种学者知识抽取与融合装置,其特征在于,包括数据采集模块、知识抽取模型、匹配模型和校验模块;其中,
数据采集模块,用于从各设定数据源获取学者相关的文本,并将文本存入学者文本库;
知识抽取模型,用于从学者文本库中抽取实体和实体关系,则生成对应的实体关系对;
匹配模型,用于将每一所述实体关系对i与学术领域知识库进行匹配,如果所述实体关系对i与所述学术领域知识库中一实体关系对a完全匹配,则不需要对所述学术领域知识库增加新的实体关系对,根据实体关系对i的数据来源在所述学术领域知识库的匹配实体关系对a中标记新数据来源;如果所述学术领域知识库中没有与所述实体关系对i匹配的实体关系对,则根据实体关系对i在所述学术领域知识库中创建新一实体关系对b并标记数据来源;如果所述实体关系对i与所述学术领域知识库中的实体关系对c部分匹配,即所述学术领域知识库中仅存在实体关系对i中的实体或关系,则根据实体关系对i在所述学术领域知识库中部分匹配上的实体关系对c上增加对应的新实体或关系,并标记数据来源;
所述校验模块,用于对所述学术领域知识库进行校对,更新学术领域知识库。
本发明的有益效果在于:
该发明将学术领域知识的抽取与学术领域知识库的融合进行了结合,克服了传统实体、关系抽取方法在抽取质量上的瓶颈,同时提高了人工抽取的效率。
附图说明
图1为本发明方法流程图。
图2为相关实体关系对以属性图方式进行存储与表达示意图。
图3为一个已有学术领域知识库实体、关系类别示例示意图。
图4为本发明的人工校对流程图。
具体实施方式
下面通过具体实施例,并配合附图,对本发明做进一步的说明。
该装置流程如图1所示,其具体步骤包括:
1.配置数据探针,及时获取领域相关的文本,并将文本存入学者文本库。
配置探针如下,在探针配置文件中,包含了获取数据所在的网页、网页数据变更模式、探针获取频率等。如下所示,在本例中从”http://cass.cssn.cn/xuebuweiyuan/xuebuweiyuan/”以及"http://casad.cas.cn/ysxx2017/ysmdyjj/qtysmd_124280/”两个学者源进行数据的定时采集,采集频率为每天下午9:30进行采集,采集后分别存储到特定的目标文本库中,在采集时采用的采集规则使用对应的mapping_file配置文件。
Figure BDA0002589828300000031
Figure BDA0002589828300000041
在采集后,形成的增量文本数据如下:
Figure BDA0002589828300000042
2.利用实体、关系抽取模型对领域实体、关系进行抽取,形成“学者实体A-关系-实体B”实体关系对。
a.通过人工进行实体、关系标注,利用标注好的数据进行实体、关系抽取模型训练,形成面向特定领域、特定实体关系的抽取模型。
以以上文本为例,相关标注内容包含了学者姓名、性别、出生日期、祖籍、就读学校等信息,同时包含研究领域、学术成果等信息。
Figure BDA0002589828300000051
b.对于学者文本库中的增量文本应用训练好的实体、关系抽取模型,对于存在关系的实体A、B,形成“实体A-关系-实体B”的实体关系对。
相关实体关系对以属性图方式进行存储与表达,如图2。
形成的实体关系对示例如下:
Figure BDA0002589828300000052
3.将实体关系对与学术领域知识库进行匹配,形成实体关系匹配结果。
在对相关文本进行实体关系对抽取后,要与已有的学术领域知识库进行融合。已有的学术领域知识库是通过关系数据库抽取、人工构建等方式建设的特定学术领域知识库,该领域知识库包含较为复杂的实体、关系结构。图3为一个已有学术领域知识库实体、关系类别示例。在该图3中,包含四类实体,每类实体均包含若干属性,同时该学术领域知识库还包含十类以上关系。
在该步骤中,针对输入的每一个实体关系对,以及已有的学术领域知识库,进行基于规则的融合。具体步骤如下:
a.对每一实体关系对所包含的信息实体A(学者)、实体B(机构)、关系C(就读/就职)分别在学术领域知识库中进行匹配。学术领域知识库中,存在很多“实体-关系-实体”这样的实体关系对。例如“张三-就职-山东大学”“张三-就读-山西大学”等等。
实体A(学者)、实体B(机构)、关系C(就读/就职),可构成“学者实体A-就读关系C-机构实体B”“学者实体A-就职关系C-机构实体B”等实体关系对。
此处有数据与元数据的概念:“张三-就读-山东大学”属于一条实体关系对数据,“学者-就读-机构”属于一类实体关系对(元数据)。
匹配规则使用全字段匹配,或使用“文本相似度+阈值”的方式进行匹配。
b.对不同的匹配结果,使用不同的融合策略。
如果实体关系对完全匹配,则不需要对现有学术领域知识库结构进行增加,只在已有学术领域知识库中标记新数据来源,以增强该实体关系对的可信性。
如果实体关系对不匹配,则说明现有学术领域中不存在相关实体、关系,在已有学术领域创建新实体、关系、属性,并标记数据来源等。
如果实体关系对部分匹配,则说明现有学术领域知识库中存在部分实体、关系,在已有学术领域知识库创建未匹配上的新实体、关系、属性,并标记数据来源等。
4.结合人工校对,形成并更新新的学术知识库
由于实体、关系抽取模型在准确率等指标上不能完全满足可用的要求,在流程中添加人工校对。针对匹配到的实体在原有学术领域知识库中的情况,设计人工校对流程如图4。
a.当仅匹配到一个实体,直接进行双表匹配人工校验。这里的双表匹配人工校验,指识别到的实体关系对与原有学术领域知识库中匹配到的实体关系对的比较,识别到的实体关系对使用一个表格形式呈现,原有学术领域知识库中匹配到的实体关系对也适用表格形式呈现;
b.当有多重匹配,首先进行原有学术领域知识库自融合,然后进行双表匹配人工校验。
针对某一学者在原有学术领域知识库中,首先进行自身融合。将自身所有出现的同名学者进行左右双屏的展示。
通过对于特定学者的详情的比较,进行自身学术领域知识库的融合。
在自身融合之后,进行抽取到的实体与原有学术领域知识库的融合,将已经匹配上的内容分为左右两部分。其中左侧为抽取后实体或关系,右侧为匹配到的学术领域知识库实体。
经过以上人工校对,实现对于特定文本的学者知识抽取与融合。
以上实施仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (10)

1.一种学者知识抽取与融合方法,其步骤包括:
1)从各设定数据源获取学者相关的文本,并将文本存入学者文本库;
2)从学者文本库中抽取实体和实体关系,则生成对应的实体关系对;
3)将每一所述实体关系对i与学术领域知识库进行匹配,如果所述实体关系对i与所述学术领域知识库中一实体关系对a完全匹配,则不需要对所述学术领域知识库增加新的实体关系对,根据实体关系对i的数据来源在所述学术领域知识库的匹配实体关系对a中标记新数据来源;如果所述学术领域知识库中没有与所述实体关系对i匹配的实体关系对,则根据实体关系对i在所述学术领域知识库中创建新一实体关系对b并标记数据来源;如果所述实体关系对i与所述学术领域知识库中的实体关系对c部分匹配,即所述学术领域知识库中仅存在实体关系对i中的实体或关系,则根据实体关系对i在所述学术领域知识库中部分匹配上的实体关系对c上增加对应的新实体或关系,并标记数据来源;
4)对步骤3)处理后的所述学术领域知识库进行校对,更新学术领域知识库。
2.如权利要求1所述的方法,其特征在于,步骤4)中,当步骤3)中实体关系对i仅匹配到一个实体时,直接进行双表匹配人工校验;当步骤3)中实体关系对i有多重匹配时,则首先对所述学术领域知识库中多重匹配的实体关系对进行融合,然后进行双表匹配人工校验。
3.如权利要求1或2所述的方法,其特征在于,步骤3)中,使用全字段匹配方法将所述实体关系对i与学术领域知识库中的实体关系对进行匹配。
4.如权利要求1或2所述的方法,其特征在于,步骤3)中,使用“文本相似度+阈值”的方式将所述实体关系对i与学术领域知识库中的实体关系对进行匹配。
5.如权利要求1所述的方法,其特征在于,所述实体关系对以属性图方式进行存储与表达。
6.如权利要求1所述的方法,其特征在于,如果学者实体A与机构实体B存在实体关系,则生成一个实体关系对“学者实体A-关系-机构实体B”;如果如果学者实体A与项目实体C存在实体关系,则生成一个实体关系对“学者实体A-关系-项目实体C”。
7.一种学者知识抽取与融合装置,其特征在于,包括数据采集模块、知识抽取模型、匹配模型和校验模块;其中,
数据采集模块,用于从各设定数据源获取学者相关的文本,并将文本存入学者文本库;
知识抽取模型,用于从学者文本库中抽取实体和实体关系,则生成对应的实体关系对;匹配模型,用于将每一所述实体关系对i与学术领域知识库进行匹配,如果所述实体关系对i与所述学术领域知识库中一实体关系对a完全匹配,则不需要对所述学术领域知识库增加新的实体关系对,根据实体关系对i的数据来源在所述学术领域知识库的匹配实体关系对a中标记新数据来源;如果所述学术领域知识库中没有与所述实体关系对i匹配的实体关系对,则根据实体关系对i在所述学术领域知识库中创建新一实体关系对b并标记数据来源;如果所述实体关系对i与所述学术领域知识库中的实体关系对c部分匹配,即所述学术领域知识库中仅存在实体关系对i中的实体或关系,则根据实体关系对i在所述学术领域知识库中部分匹配上的实体关系对c上增加对应的新实体或关系,并标记数据来源;
所述校验模块,用于对所述学术领域知识库进行校对,更新学术领域知识库。
8.如权利要求7所述的学者知识抽取与融合装置,其特征在于,所述匹配模型使用全字段匹配方法将所述实体关系对i与学术领域知识库中的实体关系对进行匹配。
9.如权利要求7所述的学者知识抽取与融合装置,其特征在于,所述匹配模型使用“文本相似度+阈值”的方式将所述实体关系对i与学术领域知识库中的实体关系对进行匹配。
10.如权利要求7或8或9所述的学者知识抽取与融合装置,其特征在于,如果学者实体A与机构实体B存在实体关系,则生成一个实体关系对“学者实体A-关系-机构实体B”;如果如果学者实体A与项目实体C存在实体关系,则生成一个实体关系对“学者实体A-关系-项目实体C”。
CN202010692579.8A 2020-07-17 2020-07-17 一种学者知识抽取与融合方法及装置 Pending CN112069817A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010692579.8A CN112069817A (zh) 2020-07-17 2020-07-17 一种学者知识抽取与融合方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010692579.8A CN112069817A (zh) 2020-07-17 2020-07-17 一种学者知识抽取与融合方法及装置

Publications (1)

Publication Number Publication Date
CN112069817A true CN112069817A (zh) 2020-12-11

Family

ID=73657060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010692579.8A Pending CN112069817A (zh) 2020-07-17 2020-07-17 一种学者知识抽取与融合方法及装置

Country Status (1)

Country Link
CN (1) CN112069817A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113094515A (zh) * 2021-04-13 2021-07-09 国网北京市电力公司 基于电力营销数据的知识图谱实体及链接提取方法
CN116049447A (zh) * 2023-03-24 2023-05-02 中科雨辰科技有限公司 一种基于知识库的实体链接系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014084712A1 (en) * 2012-11-29 2014-06-05 Mimos Berhad A system and method for automated generation of contextual revised knowledge base
CN108932340A (zh) * 2018-07-13 2018-12-04 华融融通(北京)科技有限公司 一种不良资产经营领域下金融知识图谱的构建方法
CN109446343A (zh) * 2018-11-05 2019-03-08 上海德拓信息技术股份有限公司 一种公共安全知识图谱构建的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014084712A1 (en) * 2012-11-29 2014-06-05 Mimos Berhad A system and method for automated generation of contextual revised knowledge base
CN108932340A (zh) * 2018-07-13 2018-12-04 华融融通(北京)科技有限公司 一种不良资产经营领域下金融知识图谱的构建方法
CN109446343A (zh) * 2018-11-05 2019-03-08 上海德拓信息技术股份有限公司 一种公共安全知识图谱构建的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周园春 等: "SKS:一种科技领域大数据知识图谱平台", 《数据与计算发展前沿》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113094515A (zh) * 2021-04-13 2021-07-09 国网北京市电力公司 基于电力营销数据的知识图谱实体及链接提取方法
CN116049447A (zh) * 2023-03-24 2023-05-02 中科雨辰科技有限公司 一种基于知识库的实体链接系统
CN116049447B (zh) * 2023-03-24 2023-06-13 中科雨辰科技有限公司 一种基于知识库的实体链接系统

Similar Documents

Publication Publication Date Title
CN110598000B (zh) 一种基于深度学习模型的关系抽取及知识图谱构建方法
Auer et al. Improving access to scientific literature with knowledge graphs
Rusk et al. Tracing the size, reach, impact, and breadth of positive psychology
Shatnawi et al. Automatic content related feedback for MOOCs based on course domain ontology
WO2020010834A1 (zh) 一种faq问答库泛化方法、装置及设备
CN111651614A (zh) 药膳知识图谱的构建方法、系统、电子设备及存储介质
Qin et al. Research and Application of Knowledge Graph in Teaching: Take the database course as an example
CN112069817A (zh) 一种学者知识抽取与融合方法及装置
Pollard et al. Enabling machine learning in critical care
CN110688421B (zh) 一种智能化的可定制的数据治理和分析方法
CN117371973A (zh) 基于知识图谱检索增强的语言模型毕业生就业服务系统
Zafrullah et al. Transforming the Utilization of ChatGPT in Education: A Bibliometric Analysis
Martin Hard et al. Metaphors we teach by: Uncovering the structure of metaphorical lay theories of teaching
CN115757720A (zh) 基于知识图谱的项目信息搜索方法、装置、设备和介质
Li et al. [Retracted] The Architecture of College Psychological Teaching Management System Based on Data Mining Technology
Ke et al. Dynamic generation of knowledge graph supporting STEAM learning theme design
Xilin et al. Design of Data Mining and Evaluation System for College Students’ Mental Health
Yu et al. Data service generation framework from heterogeneous printed forms using semantic link discovery
Chen et al. Application and Research of Media Information Retrieval Technology in Student Work Management Systems
Shang et al. Optimization of Computer-aided English Classroom Teaching System Based on Data Mining
Kumar et al. On the banks of Shodhganga: analysis of the academic genealogy graph of an Indian ETD repository
Zheng et al. A novel conditional knowledge graph representation and construction
Xu et al. Research on Multimedia Technology‐Assisted College English Grammar Teaching
Wu et al. Application of learning behavior analysis algorithm based on data mining in the cultivation of international talents
Shah et al. MIT-WPU Insight Sync: A Data Empowerment Platform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201211