CN112069817A

CN112069817A - 一种学者知识抽取与融合方法及装置

Info

Publication number: CN112069817A
Application number: CN202010692579.8A
Authority: CN
Inventors: 杜一; 朱小杰; 周园春
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2020-12-11

Abstract

本发明公开了一种学者知识抽取与融合方法及装置。本方法为：1)从各设定数据源获取学者相关的文本，并将文本存入学者文本库；2)从学者文本库中抽取实体和实体关系，则生成对应的实体关系对；3)将每一所述实体关系对i与学术领域知识库进行匹配，如果所述实体关系对i与所述学术领域知识库中一实体关系对a完全匹配，则在实体关系对a中标记新数据来源；如果没有匹配的实体关系对，则根据实体关系对i在所述学术领域知识库中创建新一实体关系对b并标记数据来源；如果与实体关系对c部分匹配，则在实体关系对c上增加对应的新实体或关系，并标记数据来源；4)对步骤3)处理后的所述学术领域知识库进行校对，更新学术领域知识库。

Description

一种学者知识抽取与融合方法及装置

技术领域

本发明属于计算机软件技术领域，涉及一种学者知识抽取与融合方法及装置。

背景技术

知识图谱在辅助问答、知识推理与推荐等领域取得了较好的效果，知识图谱的构建离不开知识的抽取与融合。当前，大多数知识图谱构建过程将知识抽取与融合分别进行研究与突破，公开号CN103902649B、名称“一种基于在线百科链接实体的知识抽取方法”，公开号CN110175334A、名称“基于自定义的知识槽结构的文本知识抽取系统和方法”，公开号CN111177401A、名称“一种电网自由文本知识抽取方法”等针对知识抽取已经特定领域的知识抽取进行了研究并给出了解决方案；公开号CN108647318A、名称“一种基于多源数据的知识融合方法”，公开号CN104239660B、名称“云制造模式下基于动态本体的知识融合方法”，公开号CN107545034A、名称“一种地方志知识融合方法”等针对知识融合方法进行研究并给出了解决方案。然而，仅依靠算法或规则形成的抽取或融合成果，难以直接应用到实际生产活动中。特别是在学术知识图谱中，普遍存在学者、机构名称消歧的问题，需要结合算法与专业知识进行优化，从而形成生产中可用的科技领域知识图谱。

发明内容

本发明旨在提供一种学者知识抽取与融合方法及装置。本发明面向知识工程，针对学者知识抽取与融合，设计了一种融合了数据探针、知识抽取、知识融合以及人工校对的方法。该方法首先通过预先配置的数据探针，及时获取学者相关的文本，并将文本存入学者文本库；然后利用实体、关系抽取模型对领域实体、关系进行抽取，形成“学者实体-关系-实体B”实体关系对；进一步，将实体关系对与学术领域知识库进行匹配，形成实体关系匹配结果；再进一步，结合人工校对，形成并更新学术领域知识库。

本发明的技术方案为：

一种学者知识抽取与融合方法，其步骤包括：

1)从各设定数据源获取学者相关的文本，并将文本存入学者文本库；

2)从学者文本库中抽取实体和实体关系，则生成对应的实体关系对；

3)将每一所述实体关系对i与学术领域知识库进行匹配，如果所述实体关系对i与所述学术领域知识库中一实体关系对a完全匹配，则不需要对所述学术领域知识库增加新的实体关系对，根据实体关系对i的数据来源在所述学术领域知识库的匹配实体关系对a中标记新数据来源；如果所述学术领域知识库中没有与所述实体关系对i匹配的实体关系对，则根据实体关系对i在所述学术领域知识库中创建新一实体关系对b并标记数据来源；如果所述实体关系对i与所述学术领域知识库中的实体关系对c部分匹配，即所述学术领域知识库中仅存在实体关系对i中的实体或关系，则根据实体关系对i在所述学术领域知识库中部分匹配上的实体关系对c上增加对应的新实体或关系，并标记数据来源；

4)对步骤3)处理后的所述学术领域知识库进行校对，更新学术领域知识库。

进一步的，步骤4)中，当步骤3)中实体关系对i仅匹配到一个实体时，直接进行双表匹配人工校验；当步骤3)中实体关系对i有多重匹配时，则首先对所述学术领域知识库中多重匹配的实体关系对进行融合，然后进行双表匹配人工校验。

进一步的，步骤3)中，使用全字段匹配方法将所述实体关系对i与学术领域知识库中的实体关系对进行匹配。

进一步的，步骤3)中，使用“文本相似度+阈值”的方式将所述实体关系对i与学术领域知识库中的实体关系对进行匹配。

进一步的，所述实体关系对以属性图方式进行存储与表达。

进一步的，如果学者实体A与机构实体B存在实体关系，则生成一个实体关系对“学者实体A-关系-机构实体B”；如果如果学者实体A与项目实体C存在实体关系，则生成一个实体关系对“学者实体A-关系-项目实体C”。

一种学者知识抽取与融合装置，其特征在于，包括数据采集模块、知识抽取模型、匹配模型和校验模块；其中，

数据采集模块，用于从各设定数据源获取学者相关的文本，并将文本存入学者文本库；

知识抽取模型，用于从学者文本库中抽取实体和实体关系，则生成对应的实体关系对；

匹配模型，用于将每一所述实体关系对i与学术领域知识库进行匹配，如果所述实体关系对i与所述学术领域知识库中一实体关系对a完全匹配，则不需要对所述学术领域知识库增加新的实体关系对，根据实体关系对i的数据来源在所述学术领域知识库的匹配实体关系对a中标记新数据来源；如果所述学术领域知识库中没有与所述实体关系对i匹配的实体关系对，则根据实体关系对i在所述学术领域知识库中创建新一实体关系对b并标记数据来源；如果所述实体关系对i与所述学术领域知识库中的实体关系对c部分匹配，即所述学术领域知识库中仅存在实体关系对i中的实体或关系，则根据实体关系对i在所述学术领域知识库中部分匹配上的实体关系对c上增加对应的新实体或关系，并标记数据来源；

所述校验模块，用于对所述学术领域知识库进行校对，更新学术领域知识库。

本发明的有益效果在于：

该发明将学术领域知识的抽取与学术领域知识库的融合进行了结合，克服了传统实体、关系抽取方法在抽取质量上的瓶颈，同时提高了人工抽取的效率。

附图说明

图1为本发明方法流程图。

图2为相关实体关系对以属性图方式进行存储与表达示意图。

图3为一个已有学术领域知识库实体、关系类别示例示意图。

图4为本发明的人工校对流程图。

具体实施方式

下面通过具体实施例，并配合附图，对本发明做进一步的说明。

该装置流程如图1所示，其具体步骤包括：

1.配置数据探针，及时获取领域相关的文本，并将文本存入学者文本库。

配置探针如下，在探针配置文件中，包含了获取数据所在的网页、网页数据变更模式、探针获取频率等。如下所示，在本例中从”http://cass.cssn.cn/xuebuweiyuan/xuebuweiyuan/”以及"http://casad.cas.cn/ysxx2017/ysmdyjj/qtysmd_124280/”两个学者源进行数据的定时采集，采集频率为每天下午9:30进行采集，采集后分别存储到特定的目标文本库中，在采集时采用的采集规则使用对应的mapping_file配置文件。

在采集后，形成的增量文本数据如下：

2.利用实体、关系抽取模型对领域实体、关系进行抽取，形成“学者实体A-关系-实体B”实体关系对。

a.通过人工进行实体、关系标注，利用标注好的数据进行实体、关系抽取模型训练，形成面向特定领域、特定实体关系的抽取模型。

以以上文本为例，相关标注内容包含了学者姓名、性别、出生日期、祖籍、就读学校等信息，同时包含研究领域、学术成果等信息。

b.对于学者文本库中的增量文本应用训练好的实体、关系抽取模型，对于存在关系的实体A、B，形成“实体A-关系-实体B”的实体关系对。

相关实体关系对以属性图方式进行存储与表达，如图2。

形成的实体关系对示例如下：

3.将实体关系对与学术领域知识库进行匹配，形成实体关系匹配结果。

在对相关文本进行实体关系对抽取后，要与已有的学术领域知识库进行融合。已有的学术领域知识库是通过关系数据库抽取、人工构建等方式建设的特定学术领域知识库，该领域知识库包含较为复杂的实体、关系结构。图3为一个已有学术领域知识库实体、关系类别示例。在该图3中，包含四类实体，每类实体均包含若干属性，同时该学术领域知识库还包含十类以上关系。

在该步骤中，针对输入的每一个实体关系对，以及已有的学术领域知识库，进行基于规则的融合。具体步骤如下：

a.对每一实体关系对所包含的信息实体A(学者)、实体B(机构)、关系C(就读/就职)分别在学术领域知识库中进行匹配。学术领域知识库中，存在很多“实体-关系-实体”这样的实体关系对。例如“张三-就职-山东大学”“张三-就读-山西大学”等等。

实体A(学者)、实体B(机构)、关系C(就读/就职)，可构成“学者实体A-就读关系C-机构实体B”“学者实体A-就职关系C-机构实体B”等实体关系对。

此处有数据与元数据的概念：“张三-就读-山东大学”属于一条实体关系对数据，“学者-就读-机构”属于一类实体关系对(元数据)。

匹配规则使用全字段匹配，或使用“文本相似度+阈值”的方式进行匹配。

b.对不同的匹配结果，使用不同的融合策略。

如果实体关系对完全匹配，则不需要对现有学术领域知识库结构进行增加，只在已有学术领域知识库中标记新数据来源，以增强该实体关系对的可信性。

如果实体关系对不匹配，则说明现有学术领域中不存在相关实体、关系，在已有学术领域创建新实体、关系、属性，并标记数据来源等。

如果实体关系对部分匹配，则说明现有学术领域知识库中存在部分实体、关系，在已有学术领域知识库创建未匹配上的新实体、关系、属性，并标记数据来源等。

4.结合人工校对，形成并更新新的学术知识库

由于实体、关系抽取模型在准确率等指标上不能完全满足可用的要求，在流程中添加人工校对。针对匹配到的实体在原有学术领域知识库中的情况，设计人工校对流程如图4。

a.当仅匹配到一个实体，直接进行双表匹配人工校验。这里的双表匹配人工校验，指识别到的实体关系对与原有学术领域知识库中匹配到的实体关系对的比较，识别到的实体关系对使用一个表格形式呈现，原有学术领域知识库中匹配到的实体关系对也适用表格形式呈现；

b.当有多重匹配，首先进行原有学术领域知识库自融合，然后进行双表匹配人工校验。

针对某一学者在原有学术领域知识库中，首先进行自身融合。将自身所有出现的同名学者进行左右双屏的展示。

通过对于特定学者的详情的比较，进行自身学术领域知识库的融合。

在自身融合之后，进行抽取到的实体与原有学术领域知识库的融合，将已经匹配上的内容分为左右两部分。其中左侧为抽取后实体或关系，右侧为匹配到的学术领域知识库实体。

经过以上人工校对，实现对于特定文本的学者知识抽取与融合。

以上实施仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种学者知识抽取与融合方法，其步骤包括：

2.如权利要求1所述的方法，其特征在于，步骤4)中，当步骤3)中实体关系对i仅匹配到一个实体时，直接进行双表匹配人工校验；当步骤3)中实体关系对i有多重匹配时，则首先对所述学术领域知识库中多重匹配的实体关系对进行融合，然后进行双表匹配人工校验。

3.如权利要求1或2所述的方法，其特征在于，步骤3)中，使用全字段匹配方法将所述实体关系对i与学术领域知识库中的实体关系对进行匹配。

4.如权利要求1或2所述的方法，其特征在于，步骤3)中，使用“文本相似度+阈值”的方式将所述实体关系对i与学术领域知识库中的实体关系对进行匹配。

5.如权利要求1所述的方法，其特征在于，所述实体关系对以属性图方式进行存储与表达。

6.如权利要求1所述的方法，其特征在于，如果学者实体A与机构实体B存在实体关系，则生成一个实体关系对“学者实体A-关系-机构实体B”；如果如果学者实体A与项目实体C存在实体关系，则生成一个实体关系对“学者实体A-关系-项目实体C”。

7.一种学者知识抽取与融合装置，其特征在于，包括数据采集模块、知识抽取模型、匹配模型和校验模块；其中，

知识抽取模型，用于从学者文本库中抽取实体和实体关系，则生成对应的实体关系对；匹配模型，用于将每一所述实体关系对i与学术领域知识库进行匹配，如果所述实体关系对i与所述学术领域知识库中一实体关系对a完全匹配，则不需要对所述学术领域知识库增加新的实体关系对，根据实体关系对i的数据来源在所述学术领域知识库的匹配实体关系对a中标记新数据来源；如果所述学术领域知识库中没有与所述实体关系对i匹配的实体关系对，则根据实体关系对i在所述学术领域知识库中创建新一实体关系对b并标记数据来源；如果所述实体关系对i与所述学术领域知识库中的实体关系对c部分匹配，即所述学术领域知识库中仅存在实体关系对i中的实体或关系，则根据实体关系对i在所述学术领域知识库中部分匹配上的实体关系对c上增加对应的新实体或关系，并标记数据来源；

8.如权利要求7所述的学者知识抽取与融合装置，其特征在于，所述匹配模型使用全字段匹配方法将所述实体关系对i与学术领域知识库中的实体关系对进行匹配。

9.如权利要求7所述的学者知识抽取与融合装置，其特征在于，所述匹配模型使用“文本相似度+阈值”的方式将所述实体关系对i与学术领域知识库中的实体关系对进行匹配。

10.如权利要求7或8或9所述的学者知识抽取与融合装置，其特征在于，如果学者实体A与机构实体B存在实体关系，则生成一个实体关系对“学者实体A-关系-机构实体B”；如果如果学者实体A与项目实体C存在实体关系，则生成一个实体关系对“学者实体A-关系-项目实体C”。