CN112507127B

CN112507127B - 一种基于先验知识图谱的智能抽取系统及方法

Info

Publication number: CN112507127B
Application number: CN202011417630.0A
Authority: CN
Inventors: 洪万福; 钱智毅; 奚少星
Original assignee: Xiamen Yuanting Information Technology Co ltd
Current assignee: Xiamen Yuanting Information Technology Co ltd
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2022-12-06
Anticipated expiration: 2040-12-07
Also published as: CN112507127A

Abstract

本发明涉及自然语言处理领域，提供了一种基于先验知识图谱的智能抽取系统及方法，所述系统包括客户端和服务器端，所述服务器端包括：智能抽取服务门户，用于接收客户端请求进行处理，并展示处理结果；访问图谱组件，用于访问知识图谱查询获取先验知识；数据处理组件，用于对先验知识和用户传入的数据进行处理形成由若干词向量组成的集合；实体抽取模块，用于对所述集合进行实体抽取；关系抽取模块，用于对所述集合进行实体间关系的抽取；事件抽取模块，用于对所述集合进行事件抽取；实体链接模块，用于对实体抽取模块抽取的实体进行候选实体消歧，并与图谱中的实体进行链接。本发明可无需人工标注，且跨领域适用性强。

Description

一种基于先验知识图谱的智能抽取系统及方法

技术领域

本发明涉及自然语言处理领域，尤其涉及一种基于先验知识图谱的智能抽取系统及方法。

背景技术

随着这几年自然语言处理和知识图谱的浪潮到来，这两方面的技术被应用到诸多行业和领域。信息抽取非常重要的一个板块和环节，许多工程中离不开对信息的抽取。对于信息抽取，当前不论是命名实体识别还是实体间关系，都在面临着两个重要的问题，第一，数据标签。传统的方式是进行人工打标，这种方式耗费大量的人工成本，时间成本；第二是抽取技术难度大，流程不熟悉。

为了解决这些问题，行业出现了一些不同领域的抽取技术，如电子病例命名实体识别等，在一定程度上使抽取的难度降低、抽取的准确率提升。当然，这些方案也存在一些缺点，例如跨领域的适用性较低，仍无法解决人工标注的难题，无法实现真正意义上的实现智能抽取。

发明内容

本发明的目的在于提供一种用于自然语言处理的智能抽取系统及方法，可无需人工标注，以节约人力成本和时间成本；且具备良好的跨领域适用性。

为实现上述目的，本发明提供了一种基于先验知识图谱的智能抽取系统，包括：包括客户端和服务器端，

所述服务器端包括智能抽取服务门户、数据处理组件、图谱访问组件、实体抽取模块、关系抽取模块、事件抽取模块和实体链接模块；

所述智能抽取服务门户用于集中接收客户端的请求，根据客户端请求的数据、抽取类型和图谱链接，使用数据处理组件或图谱访问组件进行处理并响应请求；所述抽取模型包括实体抽取、关系抽取和事件抽取；

所述图谱访问组件用于对用户提交的图谱地址进行访问，并将访问到的图谱信息作为先验知识传入数据处理组件；

所述数据处理组件用于对传入的先验知识和用户提交的数据进行处理，转换成由若干个词向量组成的集合；

所述实体抽取模块用于对所述集合进行实体抽取；

所述关系抽取模块用于对所述集合进行实体间关系的抽取；

所述事件抽取模块用于对所述集合进行事件抽取；

所述实体链接模块用于对实体抽取模块抽取的实体进行候选实体消歧，并与图谱中的实体进行链接。

进一步的，所述数据包括结构化数据，半结构化数据和文本数据，所述数据处理组件的处理事项包括结构化数据的D2R转换，半结构化数据包装，文本数据分词。

进一步的，所述图谱访问组件的访问事项包括查找实体、查找关系和比对实体。

进一步的，所述事件抽取模块抽取的事件信息包括事件类型、触发词、事件论元、论元角色。

进一步的，所述实体抽取模块，为基于命名实体识别技术的处理单元；内置BERT+CRF模型把数据处理组件输出的词向量提取为高级特征后再进行分类处理。

进一步的，所述关系抽取模块，采用Pipeline训练，对抽取的实体进行关系的分类；Pipeline训练的pipeline关系抽取模型为：触发词识别→事件类型识别→论元抽取。

进一步的，所述事件抽取模块，对基于图谱提取的事件类型、触发词、事件论元、论元角色，内置分类算法进行分类。

进一步的，包括多个服务器端，所述多个服务器端被部署执行如下功能：分布式集群管理、分布式模拟训练、任务调度、数据资源管理等。

本发明还提供了一种基于先验知识图谱的智能抽取方法，包含如下步骤：

步骤S1：用户使用客户端封装抽取所需相关资源，所述资源包括数据、抽取类型和图谱链接，发送请求到服务器端的智能抽取服务门户；

步骤S2：智能抽取服务门户接收对应的请求，将数据发送至数据处理组件处理，将图谱链接发送至图谱访问组件进行访问,并返回给客户端调度处理的流水号以及状态信息；

步骤S3：图谱访问组件将访问到的图谱信息作为先验知识传入数据处理组件；

步骤S4：数据处理组件将先验知识和/或数据转化成词向量形式，并根据抽取类型形成抽取任务将词向量集合发送至对应的抽取模块；

步骤S5：实体抽取任务在实体抽取模块完成；关系抽取任务，先发送至实体抽取模块进行实体抽取，在实体抽取完成后，再发送至关系抽取模块进行关系抽取；事件抽取任务在事件抽取模块抽取；

步骤S6：实体抽取后完成，根据用户需求是否进入图谱链接实体，进行实体比对消歧，由实体链接模块返回抽取结果至智能抽取服务门户；关系抽取和事件抽取完成后，直接将抽取结果返回至智能抽取服务门户；

步骤S7：抽取完成后，抽取结果传送至智能抽取服务门户，以便于用户查询及下载。

进一步的，所述智能抽取服务门户支持客户端使用REST和/或RPC协议进行访问，支持同步处理方式和异步处理方式。

进一步的，所述步骤S4具体包括：数据处理组件接收图谱访问组件的先验知识和接收智能抽取服务门户发送的待抽取数据和抽取类型，对于先验知识调用词向量函数把先验知识分别转化为词向量形式；对于待抽取数据分类，调用分句、分词、过滤停用词等预处理函数处理数据，后调用词向量函数将待抽取数据转化为词向量形式；根据抽取类型形成抽取任务将词向量集合发送至对应的抽取模块。

本发明和现有技术相比，其显著特点为：

(1)无需人工标注，先验图谱，节约人力成本和时间成本；

(2)跨领域适用性强，能对应不同领域的图谱匹配；

(3)任务集成，同一数据不同抽取目标可一键完成；

(4)使用简单，无需用户搭建模型，可直接投入生产使用。

附图说明

图1是本发明的基于先验知识图谱的智能抽取系统的结构框图；

图2是本发明的基于先验知识图谱的智能抽取方法的流程框图。

图3为本发明的基于先验知识图谱的智能抽取方法的局部流程框图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

现结合附图和具体实施方式对本发明进一步说明。

在进行实施例描述前，先对其中采用的概念或英文缩写词进行说明。

知识图谱(Knowledge Graph)，又称科学知识图谱，是图书情报学领域的概念，用于绘制、分析和显示学科或学术研究主体之间的相互联系，是揭示显示科学知识发展进程与结构关系的可视化工具。在多数情况下，知识图谱采用图结构进行可视化表示，使用结点代表作者、学术机构、科学文献或关键词，使用连线代表结点间关系。

先验知识图谱：先验既在事实发生之前就已经得知的。知识图谱以结构化的形式描述客观世界中的概念、实体及其之间的关系。

实体：在自然语言处理领域，是指文本中具有特定意义的名词，主要包括人名、地名、机构名、专有名词等。

关系：在自然语言处理领域，是指实体间的相互联系，如：同学、上级、包含、敌对等。

事件：在自然语言处理领域，是指描述某件事情或事实的信息，如：何时何地何人做了什么。

HMM：隐马尔可夫模型(Hidden Markov Model)，一种统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。

CRF：条件随机场(Conditional Random Field)，是给定一组输入序列的条件下，另一组输出序列的条件概率分布模型。

BERT:来自Transformer的双向编码器表示(Bidirectional EncoderRepresentations from Transformers)，一种语言表示模型，BERT旨在通过联合调节所有层中的左右上下文来预训练深度双向表示。因此，只需要一个额外的输出层，就可以对预训练的BERT表示进行微调，从而为广泛的任务(比如回答问题和语言推断任务)创建最先进的模型，而无需对特定于任务进行大量模型结构的修改。

NER：命名实体识别(Named Entity Recognition)，是自然语言处理(NaturalLanguage Processing，NLP)中的一项基础工具：在一段文本中识别出各类命名实体；需要识别的命名实体通常包括人名，地名，组织机构名，药物，时间等。

pipeline，管道，指在.NETFramework外接程序编程模型中，表示在外接程序与其宿主之间交换数据的管线段的线性通信模型。

REST：表述性状态传递(Representational State Transfer)，是一种软件架构风格，针对网络应用的设计和开发方式，可以降低开发的复杂性，提高系统的可伸缩性。它是Roy Fielding博士在2000年提出来的一种软件架构风格。

RPC：远程过程调用协议(Remote Procedure Call Protocol)，是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。该协议允许运行于一台计算机的程序调用另一台计算机的子程序，而程序员无需额外地为这个交互作用编程。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。

RDF：资源描述框架(Resource Description Framework)，一种用于描述Web资源的标记语言。

D2R：一种将数据库转换为RDF(资源描述框架)的工具，用于将关系型数据库发布为关联数据。

如图1所示，本发明公开了一种基于先验知识图谱的智能抽取系统，包括智能抽取客户端和智能抽取服务器端；所述智能抽取服务器端进一步包括：智能抽取服务门户、数据处理组件、图谱访问及注入组件、实体抽取模块、关系抽取模块、事件抽取模块和实体链接模块。

在本实施例中智能抽取客户端可以是Web浏览器，智能抽取服务器端可以是一个Web服务器，智能抽取客户端可以通过REST或RPC方式向智能抽取服务器端的智能抽取服务门户发送请求。

所述智能抽取服务门户用于集中接收智能抽取客户端的请求，根据智能抽取客户端请求的类型及数据形式，使用相应的服务组件进行处理并响应请求。

智能抽取服务门户支持同步处理和异步处理两种方式，对于智能抽取服务器端需要长时间处理的请求，智能抽取服务门户会自动转为异步处理，用户可以通过状态更新或其他操作查询处理结果。

所述数据处理组件用于对用户提交的数据进行处理，所述数据包括结构化数据，半结构化数据和文本数据等；数据处理事项包括结构化数据的D2R转换，半结构化数据封装，文本数据分词等。其中，所述结构化数据是指表格文档、数据库数据等，已建立完整的数据结构；文本数据为非结构化数据，由若干个单词组成，为便于抽取，本文将所有数据统一处理为词向量，其中文本数据进行分词，并根据预训练词向量进行迁移学习，将文本数据转换成有若干个词向量组成的集合；半结构化数据是指介于结构化数据和非结构化数据之间的数据，可以通过灵活的键值调整获取相应信息，如JSON(JavaScript Object Notation，或称JS对象简谱)，需要通过包装器对半结构化数据进行封装，从而将半结构化数据转化成一种结构化数据。

所述图谱访问组件用于对用户提交的图谱链接地址进行访问，图谱访问事项包括查找实体、查找关系和比对实体，用于解决无标注问题，以及实体、关系的链接。

所述实体抽取模块用于对用户提交的数据进行实体抽取；在本实施例应用中，实体抽取模块采用命名实体识别技术，内置BERT+CRF等模型把数据处理组件输出的词向量提取为高级特征后再进行分类处理。

所述关系抽取模块用于对用户提交的数据进行实体间关系的抽取；通常采用Pipeline训练。常用的pipeline关系抽取模型为：触发词识别→事件类型识别→论元抽取。

所述事件抽取模块用于对用户提交的数据进行事件抽取，对基于图谱提取的事件类型、触发词、事件论元、论元角色，内置分类算法进行分类。

如图2和图3所示，本实施例采取的智能抽取方法包括如下步骤：

步骤S1：用户使用智能抽取客户端封装抽取所需相关资源，发送请求到智能抽取服务器端的智能抽取服务门户。所述资源包括：数据(可以是结构化数据或半结构化数据或文本)、抽取类型、图谱链接(URL)。抽取类型包括实体抽取、关系抽取和事件抽取。

步骤S2：智能抽取服务门户接收对应的请求，将数据及抽取类型发送至数据处理组件处理，将图谱链接发送至图谱访问组件进行访问，并返回给智能抽取客户端调度处理的流水号以及状态信息(即说明是否智能抽取启动成功)。

步骤S3：图谱访问组件将访问到的图谱信息作为先验知识传入数据处理组件。

步骤S4：数据处理组件接收图谱访问组件的先验知识和接收智能抽取服务门户发送的待抽取数据和抽取类型，对于先验知识调用词向量函数把先验知识分别转化为词向量形式；对于待抽取数据分类，调用分句、分词、过滤停用词等预处理函数处理数据，后调用词向量函数将待抽取数据转化为词向量形式。根据抽取类型形成抽取任务将词向量集合发送至对应的抽取模块。

步骤S5：实体抽取任务在实体抽取模块完成；关系抽取任务，先发送至实体抽取模块进行实体抽取，在实体抽取完成后，再发送至关系抽取进行关系抽取；事件抽取任务在事件抽取模块抽取。如图3所示，types＝＝0表示实体抽取，types＝＝1表示关系抽取；types＝＝2表示事件抽取。

步骤S6：实体抽取后完成，根据用户需求是否进入图谱链接实体，进行实体比对消歧，由实体链接模块返回结果至智能抽取服务门户。关系抽取和事件抽取完成后，直接将结果返回至智能抽取服务门户。

步骤S7：智能抽取服务门户将抽取结果返回至智能抽取客户端，用户可在智能服务客户端查询及下载结果，以及中间过程信息；用户更新状态，如果还未完成，则返回训练。

传统的智能抽取缺乏图谱的有力支持，无法获得先验知识以及对抽取结果的比对，且抽取任务大多不完善，没有集成实体、关系、事件三大类。本发明的智能抽取系统，在注入了大量图谱包含的先验知识后，更适应于多领域任务，不用重复构建项目，且进行实体比对，抽取的精度有较好的提升。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种基于先验知识图谱的智能抽取系统，包括客户端和服务器端，其特征在于：所述服务器端包括智能抽取服务门户、数据处理组件、图谱访问组件、实体抽取模块、关系抽取模块、事件抽取模块和实体链接模块；

所述智能抽取服务门户用于集中接收客户端的请求，根据客户端请求的数据、抽取类型和图谱链接，使用数据处理组件或图谱访问组件进行处理并响应请求；所述抽取类型包括实体抽取、关系抽取和事件抽取；

所述实体抽取模块用于对所述集合进行实体抽取；

所述关系抽取模块用于对所述集合进行实体间关系的抽取；

所述事件抽取模块用于对所述集合进行事件抽取；

所述实体链接模块用于对实体抽取模块抽取的实体进行候选实体消歧，并与图谱中的实体进行链接；

所述数据包括结构化数据，半结构化数据和文本数据，所述数据处理组件的处理事项包括结构化数据的D2R转换，半结构化数据包装，文本数据分词；

所述图谱访问组件的访问事项包括查找实体、查找关系和比对实体；

所述实体抽取模块，为基于命名实体识别技术的处理单元；内置BERT+CRF模型把数据处理组件输出的词向量提取为高级特征后再进行分类处理；

所述关系抽取模块，采用Pipeline训练，对抽取的实体进行关系的分类；Pipeline训练的pipeline关系抽取模型为：触发词识别，事件类型识别，然后论元抽取；

所述事件抽取模块，对基于图谱提取的事件类型、触发词、事件论元、论元角色，内置分类算法进行分类。

2.如权利要求1所述的基于先验知识图谱的智能抽取系统，其特征在于：包括多个服务器端，所述多个服务器端被部署执行如下功能：分布式集群管理、分布式模拟训练、任务调度、数据资源管理。

3.一种基于先验知识图谱的智能抽取方法，其特征在于，包含如下步骤：

步骤S1：用户使用客户端封装抽取所需相关资源，所述资源包括数据、抽取类型和图谱链接，发送请求到服务器端的智能抽取服务门户，所述数据包括结构化数据，半结构化数据和文本数据，所述数据处理组件的处理事项包括结构化数据的D2R转换，半结构化数据包装，文本数据分词；

步骤S3：图谱访问组件将访问到的图谱信息作为先验知识传入数据处理组件，所述图谱访问组件的访问事项包括查找实体、查找关系和比对实体；

步骤S5：实体抽取任务在实体抽取模块完成，所述实体抽取模块，为基于命名实体识别技术的处理单元；内置BERT+CRF模型把数据处理组件输出的词向量提取为高级特征后再进行分类处理；关系抽取任务，先发送至实体抽取模块进行实体抽取，在实体抽取完成后，再发送至关系抽取模块进行关系抽取，所述关系抽取模块，采用Pipeline训练，对抽取的实体进行关系的分类；Pipeline训练的pipeline关系抽取模型为：触发词识别，事件类型识别，然后论元抽取；事件抽取任务在事件抽取模块抽取，所述事件抽取模块，对基于图谱提取的事件类型、触发词、事件论元、论元角色，内置分类算法进行分类；

4.如权利要求3所述的基于先验知识图谱的智能抽取方法，其特征在于：所述智能抽取服务门户支持客户端使用REST和/或RPC协议进行访问，支持同步处理方式和异步处理方式。

5.如权利要求3所述的基于先验知识图谱的智能抽取方法，其特征在于：所述步骤S4具体包括：数据处理组件接收图谱访问组件的先验知识和接收智能抽取服务门户发送的待抽取数据和抽取类型，对于先验知识调用词向量函数把先验知识分别转化为词向量形式；对于待抽取数据分类，调用预处理函数处理数据，所述预处理函数包括分句、分词、过滤停用词，后调用词向量函数将待抽取数据转化为词向量形式；根据抽取类型形成抽取任务将词向量集合发送至对应的抽取模块。