CN113901825B

CN113901825B - 一种基于主动深度学习的实体关系联合抽取方法及系统

Info

Publication number: CN113901825B
Application number: CN202111383783.2A
Authority: CN
Inventors: 刘珂; 靳显鑫; 冷芳玲; 鲍玉斌; 于戈
Original assignee: 东北大学
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2024-05-03
Anticipated expiration: 2041-11-22
Also published as: CN113901825A

Abstract

本发明提供一种基于主动深度学习的实体关系联合抽取方法及系统，涉及计算机自然语言处理技术领域。该方法首先获取待标注样本数据集作为语料库，并对语料库进行概念抽取，定义实体类别集合和关系类别集合；再使用基于主动学习的待标注采样方法进行样本采样，得到待标注样本数据集；并对待标注样本数据集使用改进EDA方法进行数据增强；然后根据定义的实体和关系类别集合，在待标注样本数据集的数据上采用BIO‑OVE/R‑HT标注策略进行标注；最后将标注的数据输入到实体关系联合抽取模型进行训练。使用模型进行预测时，对预测得到的标签使用和标注策略对应的解码规则解码得到三元组。该系统进行实体关系抽取的同时并将抽取的实体关系快速构建知识图谱并且进行管理。

Description

一种基于主动深度学习的实体关系联合抽取方法及系统

技术领域

本发明涉及计算机自然语言处理技术领域，尤其涉及一种基于主动深度学习的实体关系联合抽取方法及系统。

背景技术

实体关系抽取就是从文本中抽取出实体和实体之间的关系。为了解决实体关系抽取问题，人们提出了多种方法，大致可分为流水线抽取模型和联合抽取模型两大类。

第一种是将实体关系抽取划分为实体识别和关系抽取两个子任务，两个子任务按顺序依次执行，且不存在交互作用。中国专利“CN113297838A一种基于图神经网络的关系抽取方法”使用第一种流水线抽取模型的思想。此专利对待抽取文档进行数据处理；构建所述文档中句子的模型数据集；获取所述句子的语义特征向量；根据所述数据处理结果和所述语义特征向量生成所述句子的实体间邻域信息表达；根据所述实体间邻域信息表达强化所述句子的句子表达；根据所述数据处理结果和所述句子表达获取所述句子的句子池化表达和主客体池化表达；将所述句子池化表达和所述主客体池化表达进行级联表示；根据所述级联表示获取所述句子的关系类别表示。

第二种就是将实体识别和关系抽取两个任务联合到一起进行抽取。中国专利“CN113128229A一种中文实体关系联合抽取方法”使用这种模型的思想。此专利提供了一种中文实体关系联合抽取方法,包括使用BERT模型学习字符向量,字符向量拼接字形特征及字符位置信息；使用双向LSTM模型学习字符特征；使用选择性注意力机制进行实体识别；使用层次注意力机制LSTM进行关系抽取方法。本申请通过底层共享网络参数的方式,进行联合知识抽取,解决抽取中实体识别和关系抽取错误累计的问题；通过引入分词与词表向量,在词向量中拼接中文特征,解决中文特征信息不充分的问题；通过在结合自注意力机制的双向LSTM编码层,对长距离序列进行建模；通过层级注意力机制，解决实体关系之间关联不足的问题。

中国专利“CN113297838A一种基于图神经网络的关系抽取方法”提出的方法容易忽略任务之间的相互依赖，容易导致错误累积，产生大量冗余实体。该方法将实体抽取和关系抽取划分为两个阶段，其实两个阶段之间是有一定联系的。如果知道实体类型，则可以缩小实体和实体之间可能存在的关系搜索空间。例如，“中山”可能是人名或地名，如果上下文中有“位于”关系，则“中山”就是地名“中山市”。

第二种联合抽取模型可以进一步利用两个任务之间的潜在信息，以缓解错误传播的缺点，但是模型结构通常比较复杂。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，具体针对领域文本数据标注样本比较缺乏且标注成本较高的问题，本发明提出一种基于主动深度学习的实体关系联合抽取方法及系统，实现对实体关系的联合抽取。

为解决上述技术问题，本发明所采取的技术方案是：一方面，本发明提供一种基于主动深度学习的实体关系联合抽取方法，

获取待标注数据集作为语料库；

定义实体类别集合和关系类别集合；

对待标注数据进行采样，得到待标注样本数据集；

对待标注样本数据集的数据进行标注；

将标注的数据输入到实体关系联合抽取模型进行训练和测试，获得预测的标签；

对预测的标签解码得到三元组。

具体包括以下步骤：

步骤1：获取待标注数据集作为语料库；获取待标注数据集，并将待标注数据集进行分段和分句处理，得到以句子为单位的待标注数据集U作为语料库；

步骤2：对步骤1的语料库进行概念抽取，定义实体类别集合和关系类别集合；

步骤3：基于主动学习的融合信息熵和相似度对待标注数据进行待标注样本采样，得到待标注样本数据集，具体为：

步骤3.1：将步骤1得到的待标注领域数据集U的每一个样本x_i使用Word2Vec模型获得特征向量E_i；

步骤3.2：将特征向量E_i输入到CNN模型提取特征，获得样本x_i在每个关系类别下的概率值；

步骤3.3：根据样本在每个关系类别下的概率值计算每个样本的信息熵，计算公式如下：

式中，H_i为样本x_i的信息熵，P_a(x_i)代表样本x_i在第a个关系类别下的概率值，n为样本关系类别总数；

步骤3.4：将步骤3.3计算得到的每个样本的信息熵按照降序排列，每次取出信息熵最大的样本x_max进行标注，同时使用余弦相似度算法和编辑距离相似度算法计算信息熵最大的样本x_max和其他所有待标注样本的综合相似度；如果某待标注样本和信息熵最大的样本x_max的综合相似度大于等于设定的阈值threshold_sim，那么将该样本从待标注领域数据集U中移除，最后得到待标注样本数据集；

样本之间余弦相似度的计算公式如下所示：

其中，E_i和E_j分别是样本x_i和样本x_j的特征向量，||E_i||和||E_j||分别是特征向量E_i和E_j的模长，cos(x_i，x_j)是样本x_i和样本x_j的余弦相似度，Sim₁(x_i,x_j)是经过归一化后的余弦相似度；

编辑距离是指将一个字符串转化为另一个字符串所需的最少操作数，只能用增删改三种操作，两个样本之间的编辑距离的计算公式如下所示：

其中，|x_i|和|x_j|分别是样本x_i和样本x_j的文本长度，ED_ij是样本x_i和样本x_j的最小编辑距离，Sim₂(x_i,x_j)是经过归一化后的最小编辑距离；

则使用余弦相似度算法和编辑距离相似度算法计算信息熵最大的样本x_max和其他所有待标注样本的综合相似度Sim如下公式所示：

Sim＝(Sim₁+Sim₂)/2

步骤4：采用改进EDA的实体关系联合抽取数据增强方法对待标注样本数据集进行数据增强；

所述改进EDA的实体关系联合抽取数据增强方法包括以下八种数据增强方法：

1)同义词替换：从除停用词之外的文本数据随机抽取多个单词，然后从同义词字典中随机抽取同义词，并替换它们；如果替换词是实体，则实体对应的三元组也进行替换；

2)随机插入：随机在文本数据中插入非实体词的近义词，该过程重复多次；

3)随机交换：随机挑选文本数据中非实体词进行位置交换，该过程重复多次；

4)随机删除：以概率p随机从文本数据中删除非实体单词；

5)实体替换：随机用若干个实体类型相同的实体替代已标数据中的实体；

6)分句换位：随机交换一个标注样本中两个以分号结尾的短句子；

7)顿号换位：随机交换一个标注样本中两个以顿号分割的单词；

8)短句生成：随机选取样本中至少包含一个三元组关系的短句子生成新的样本；

步骤5：根据步骤2定义的领域实体和关系类别集合，在步骤3得到的待标注样本数据集的数据上采用BIO-OVE/R-HT标注策略进行标注；

所述BIO-OVE/R-HT标注策略由实体边界、关系类别和实体位置3部分组成，具体如下：

实体边界：对于实体边界标签，采用“BIO”标注方式来表示字在实体中的位置信息，“B”代表实体的起始边界，“I”代表实体的非起始位置，“O”代表该元素不属于任何实体；

关系类别：关系类别信息从预定义的关系类别集合中获得，但是当句子中存在一个实体和其他多个实体都存在关系时，则将重叠主实体的关系标签固定为“OVE”(Overlap)，然后将与主实体存在关系的实体的关系标签设置为两个实体之间存在的关系类型；

实体位置：实体位置用“H”、“T”、“HT”和“TH”来标识，“H”代表该实体为三元组中的头实体，“T”代表该实体为三元组中的尾实体；“HT”代表该实体是前一个三元组的头实体，后一个三元组的尾实体；“TH”代表该实体是前一个三元组的尾实体，后一个三元组的头实体；

因此，标签种类的总数是N＝2*|R|*4+4+1，其中，|R|是预定义关系类别集合的大小；

步骤6：将步骤5标注的数据输入到ChineseBERT-BiLSTM-CRF端到端的实体关系联合抽取模型进行训练和测试，获得预测的标签，然后对预测的标签使用和标注策略对应的解码规则解码得到三元组；

步骤6.1：将步骤5标注的数据输入到ChineseBERT模型实现向量化，ChineseBERT模型首先将拼音嵌入、字形嵌入和字符嵌入拼接后得到融合嵌入，然后将融合嵌入与位置嵌入和片段嵌入相加输入到多层双向Transformer编码器中，最后输出字向量；步骤6.2：然后将ChineseBERT模型输出的字向量输入BiLSTM层实现文本特征提取，输出所有的标记序列；

步骤6.3：将BiLSTM层输出的所有标记序列经过CRF层的约束得到最优的标签序列；

步骤6.4：对步骤6.3得到的最优的标签序列进行解码；首先根据实体边界获得实体，然后根据以下解码规则抽取三元组，实现标签序列的解码；

如果句子中存在实体类别为“OVE”的实体，那么向前和向后分别寻找与该实体位置不同且能与之匹配的实体组成三元组；

如果句子中不存在实体类别为“OVE”的实体，那么采用最近邻原则确定实体和关系，分别向前和向后寻找与之最近、实体位置不同且关系类别相同的实体组成三元组；

如果句子中存在实体位置为“HT”或“TH”的实体，该实体在两个三元组中分别担任头实体和尾实体角色；对于实体位置为“HT”的实体，将此实体作为第一个三元组的头实体，然后向前寻找与之关系类别相同但是实体位置不同的实体作为第一个三元组的尾实体；再将此实体作为第二个三元组的尾实体，然后向后寻找与之关系类别相同但是实体位置不同的实体作为第二个三元组的头实体；对于实体位置为“TH”的实体，将此实体作为第一个三元组的尾实体，然后向前寻找与之关系类别相同但是实体位置不同的实体作为第一个三元组的头实体；再将此实体作为第二个三元组的头实体，然后向后寻找与之关系类别相同但是实体位置不同的实体作为第二个三元组的尾实体；

另一方面，本发明还提供一种基于主动深度学习的实体关系联合抽取系统，包括主动学习标注模块、联合抽取模块、规则抽取模块、语料库管理模块、知识查询模块和图谱展示模块；

所述主动学习标注模块用于对领域文本数据进行标注，该模块利用基于主动学习的融合信息熵和相似度的待标注数据采样方法向标注人员推送最值得标注的数据，标注后将结果存储到MySQL数据库中；

所述联合抽取模块将待抽取的文本传入ChineseBERT-BiLSTM-CRF端到端的实体关系联合抽取模型中抽取出三元组；

所述规则抽取模块用于对结构化数据利用规则进行抽取，具体包括Excel文档抽取子模块、数据库抽取子模块和Word文档抽取子模块；

所述数据库抽取子模块实现从关系数据库(Oracle和MySQL)中抽取知识，然后将信息存储在Neo4j数据库中；

所述Excel文档抽取子模块用于抽取以Excel的形式进行存储的数据；

所述Word文档抽取子模块基于Word特征对总体论证报告、技术研究报告这些以Word的形式保存的材料进行知识抽取；

所述语料库管理模块用于将联合抽取、规则抽取以及主动学习标注的结果导入到Neo4j图数据库，以及下载用于ChineseBERT-BiLSTM-CRF模型训练的语料库信息；

所述知识查询模块在Neo4j图数据库中查询管理员输入的三元组关系，并以图谱的形式展示给管理员；

知识查询模块查询三元组关系entity1-[relation]->entity2，其中，entity1和entity2均为实体，relation为关系；输入查询的信息，分为如下几种情况：查询实体entity1、查询实体entity2、查询实体entity1和关系relation、查询关系relation和实体entity2、查询实体entity1和实体entity2、查询实体entity1、实体entity2和关系relation；根据管理员的查询条件从Neo4j图数据库中查询出结果，前端通过可视化组件将其以图谱的形式展示给管理员，同时通过表格以条目的形式展示出知识三元组，并能够对三元组进行修改和删除；若未查询到结果，则会提示“暂未找到相应的匹配”；

所述图谱展示模块将Neo4j图数据库中的信息展示在系统界面上。

采用上述技术方案所产生的有益效果在于：本发明提供的一种基于主动深度学习的实体关系联合抽取方法及系统，能够有效解决重叠关系问题，并且联合抽取的速度更快。同时能够避免实体抽取和关系抽取两个任务之间的误差积累。该系统进行实体关系抽取的同时能够将抽取的实体关系快速构建知识图谱并且进行管理，其中，文本标注模块能够实现半自动化标注，大大减少了人力成本。

附图说明

图1为本发明实施例提供的一种基于主动深度学习的实体关系联合抽取方法的流程图；

图2为本发明实施例提供的面向航空领域的实体关系联合抽取的标注策略示例图；

图3为本发明实施例提供的基于主动深度学习的实体关系联合抽取系统的功能结构图；

图4为本发明实施例提供的基于主动深度学习的实体关系联合抽取系统的数据流图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施例以航空领域为例，采用本发明的基于主动深度学习的实体关系联合抽取方法对航空领域的实体关系进行联合抽取。

本实施例中，一种基于主动深度学习的实体关系联合抽取方法，如图1所示，包括以下步骤：

步骤1：获取待标注数据集作为语料库；将待标注数据集进行分段和分句处理，得到以句子为单位的待标注数据集U作为语料库；

本实施例中，使用OCR技术将PDF格式文档转换成Word格式文档，并去除公式、图表、表格等无用内容，然后进行分段和分句处理，最终得到以句子为单位的航空领域语料库。

本实施例中，定义航空领域的实体类别集合包括{航空器，部件，系统，结构，性能参数，术语，文档}，关系类别集合包括{别名，组成，使用，参照，上下位，位置，选型，定义，性能需求，作用或影响}；

步骤3.3：熵(Entropy)可以衡量一个系统的不确定性，熵的值越大代表分类越困难，样本标注的价值越大，可以使用选择熵的值最大的样本数据作为待标注数据。根据样本在每个关系类别下的概率值计算每个样本的信息熵，计算公式如下：

样本之间余弦相似度的计算公式如下所示：

Sim＝(Sim₁+Sim₂)/2

本实施例中，基于主动学习的融合信息熵和相似度对待标注数据进行待标注样本采样的具体实现过程如表1中的算法1所示。

表1融合信息熵和相似度的待标注数据采样方法伪代码

步骤4：针对实体关系联合抽取任务和中文文本数据的特点，采用改进EDA的实体关系联合抽取数据增强方法(EDA-RE)对待标注样本数据集进行数据增强；

1)同义词替换(SR：Synonyms Replace)：从除停用词之外的文本数据随机抽取多个单词，然后从同义词字典中随机抽取同义词，并替换它们；如果替换词是实体，则实体对应的三元组也进行替换；

2)随机插入(RI：Randomly Insert)：随机在文本数据中插入非实体词的近义词，该过程重复多次；

3)随机交换(RS：Randomly Swap)：随机挑选文本数据中非实体词进行位置交换，该过程重复多次；

4)随机删除(RD:Randomly Delete)：以概率p随机从文本数据中删除非实体单词；

5)实体替换(ER：Entity Replace)：随机用若干个实体类型相同的实体替代已标数据中的实体，目的是丰富实体表达的多样性；

6)分句换位(CT：Clause Transposition)：随机交换一个标注样本中两个以分号结尾的短句子，目的是丰富样本的长距离上下文内容；

7)顿号换位：随机交换一个标注样本中两个以顿号分割的单词，目的是丰富样本的长距离上下文内容；

8)短句生成(SG：Short-sentence Generation)：随机选取样本中至少包含一个三元组关系的短句子生成新的样本，目的是提高缺乏上下文信息的短文本实体关系联合抽取的性能；

本实施例中，针对航空领域的实体关系联合抽取的标注策略如图2所示。

步骤6：将步骤5标注的数据输入到ChineseBERT-BiLSTM-CRF端到端的实体关系联合抽取模型模型进行训练和测试，获得预测的标签，然后对预测的标签使用和标注策略对应的解码规则解码得到三元组；

步骤6.1：将步骤5标注的数据输入到ChineseBERT模型实现向量化，ChineseBERT模型首先将拼音嵌入、字形嵌入和字符嵌入拼接后得到融合嵌入，然后将融合嵌入与位置嵌入和片段嵌入相加输入到多层双向Transformer编码器中，最后输出字向量；ChineseBERT模型融合了中文音标和字形信息，能够更好地表达汉字所蕴涵的意义。

步骤6.2：然后将ChineseBERT模型输出的字向量输入BiLSTM层实现文本特征提取，输出所有的标记序列；

步骤6.3：为了获取序列的全局最优解，不仅需要考虑当前位置的输入特征，还需要考虑与前一个位置标签的依赖关系，所以还需要将BiLSTM层输出的所有标记序列经过CRF层的约束得到最优的标签序列；

如果句子中存在实体类别为“OVE”的实体E₁，那么向前和向后分别寻找与该实体位置不同且能与之匹配的实体E₂并且根据实体E的标签解析出关系R组成(E₁，R，E₂)三元组；

如果句子中不存在实体类别为“OVE”的实体E₁，那么采用最近邻原则确定实体和关系，分别向前和向后寻找与之最近、实体位置不同且关系类别(R)相同的实体E₂组成(E₁，R，E₂)三元组；

如果句子中存在实体位置为“HT”或“TH”的实体，该实体在两个三元组中分别担任头实体和尾实体角色；对于实体位置为“HT”的实体，将此实体作为第一个三元组的头实体E₁，然后向前寻找与之关系类别(R)相同但是实体位置不同的实体作为第一个三元组的尾实体E₂组成(E₁，R，E₂)三元组；再将此实体作为第二个三元组的尾实体E₂，然后向后寻找与之关系类别(R)相同但是实体位置不同的实体作为第二个三元组的头实体E₁组成(E₁，R，E₂)三元组；对于实体位置为“TH”的实体，将此实体作为第一个三元组的尾实体E₂，然后向前寻找与之关系类别(R)相同但是实体位置不同的实体作为第一个三元组的头实体E₁组成(E₁，R，E₂)三元组；再将此实体作为第二个三元组的头实体E₁，然后向后寻找与之关系类别(R)相同但是实体位置不同的实体作为第二个三元组的尾实体E₂组成(E₁，R，E₂)三元组。

本实施例中，对步骤6.3得到的最优的标签序列进行解码的过程如表2中的序列标签解码算法所示；

表2序列标签解码算法

本实施例中，一种基于主动深度学习的实体关系联合抽取系统，如图3所示，包括主动学习标注模块、联合抽取模块、规则抽取模块、语料库管理模块、知识查询模块和图谱展示模块；

在航空领域，大量的数据以数据库表的形式存储于Oracle等关系型数据库中。同时，不同的数据库表之间往往基于外键等方式，存在着各种各样的联系，若能将这类知识从数据库中抽取出来，进而转换为三元组的形式，将为知识图谱的构建提供很大帮助。

在实际场景中，大量航空数据特别是故障问题处理数据，以Excel的形式进行存储，其中蕴含有大量可挖掘的知识，常规以非结构化文本为对象的实体关系抽取算法难以处理这类数据。

在飞机设计领域，大多数总体论证报告、技术研究报告等材料，并非以txt形式存在，而是以Word的形式保存。同时，由于专业领域的严谨性，这类材料在行文组织上规范性较强，结构特征明显，因此，在基于深度学习的方式同时，也可基于Word特征，进行知识抽取。

知识查询模块查询三元组关系entity1-[relation]->entity2，其中，entity1和entity2均为实体，relation为关系；输入查询的信息，分为如下几种情况：查询实体entity1、查询实体entity2、查询实体entity1和关系relation、查询关系relation和实体entity2、查询实体entity1和实体entity2、查询实体entity1、实体entity2和关系relation；根据管理员的查询条件从Neo4j图数据库中查询出结果，前端通过可视化组件将其以图的形式展示给管理员，使管理员更清晰直观的了解相关知识。同时通过表格以条目的形式展示出知识三元组，并能够对三元组进行修改和删除；若未查询到结果，则会提示“暂未找到相应的匹配”；修改和删除功能可保证三元组的准确性，方便管理员对存储在数据库中的三元组进行操作。

本实施例中，基于主动深度学习的实体关系联合抽取系统的抽取过程如图4所示，

管理员可以将待标注的word文件上传到主动学习标注模块，系统会使用基于主动学习的融合信息熵和相似度对待标注数据进行待标注样本采样，专家标注后将标注结果存放到语料库管理模块中；管理员还可以将Word文件、Excel文件上传到规则抽取模块，该模块会给管理员反馈回抽取得到的所有三元组信息，然后自动添加到语料库管理模块；管理员同时还可以将word文档上传到联合抽取模块，抽取得到的结果自动添加到语料库管理模块，管理员可以在语料库管理模块下载语料信息从而训练得到实体关系联合抽取模型。管理员还可以将查询信息提交到知识查询模块进行查询，系统会返回给管理员一个查询结果，并通过图谱形式进行展示。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于主动深度学习的实体关系联合抽取方法，其特征在于：

获取待标注数据集作为语料库；

定义实体类别集合和关系类别集合；

对待标注数据进行采样，得到待标注样本数据集；

对待标注样本数据集的数据进行标注；

对预测的标签解码得到三元组；

具体包括以下步骤：

步骤3：对待标注数据进行待标注样本采样，得到待标注样本数据集；

所述步骤3基于主动学习的融合信息熵和相似度对待标注数据进行待标注样本采样，得到待标注样本数据集，具体方法为：

4)随机删除：以概率p随机从文本数据中删除非实体单词；

关系类别：关系类别信息从预定义的关系类别集合中获得，但是当句子中存在一个实体和其他多个实体都存在关系时，则将重叠主实体的关系标签固定为“OVE”，然后将与主实体存在关系的实体的关系标签设置为两个实体之间存在的关系类型；

因此，标签种类的总数是N＝2*|R|*4+4+1，其中，|R|是预定义关系类别集合的大小。

2.根据权利要求1所述的一种基于主动深度学习的实体关系联合抽取方法，其特征在于：步骤3.4所述使用余弦相似度算法和编辑距离相似度算法计算信息熵最大的样本x_max和其他所有待标注样本的综合相似度的具体方法为：

样本之间余弦相似度的计算公式如下所示：

Sim＝(Sim₁+Sim₂)/2。

3.根据权利要求2所述的一种基于主动深度学习的实体关系联合抽取方法，其特征在于：所述步骤6的具体方法为：

如果句子中存在实体位置为“HT”或“TH”的实体，该实体在两个三元组中分别担任头实体和尾实体角色；对于实体位置为“HT”的实体，将此实体作为第一个三元组的头实体，然后向前寻找与之关系类别相同但是实体位置不同的实体作为第一个三元组的尾实体；再将此实体作为第二个三元组的尾实体，然后向后寻找与之关系类别相同但是实体位置不同的实体作为第二个三元组的头实体；对于实体位置为“TH”的实体，将此实体作为第一个三元组的尾实体，然后向前寻找与之关系类别相同但是实体位置不同的实体作为第一个三元组的头实体；再将此实体作为第二个三元组的头实体，然后向后寻找与之关系类别相同但是实体位置不同的实体作为第二个三元组的尾实体。

4.一种基于主动深度学习的实体关系联合抽取系统，基于权利要求1所述方法实现，其特征在于：包括主动学习标注模块、联合抽取模块、规则抽取模块、语料库管理模块、知识查询模块和图谱展示模块；

所述规则抽取模块用于对结构化数据利用规则进行抽取；

5.根据权利要求4所述的一种基于主动深度学习的实体关系联合抽取系统，其特征在于：所述规则抽取模块包括数据库抽取子模块、Excel文档抽取子模块和Word文档抽取子模块；

所述数据库抽取子模块实现从关系数据库中抽取知识，然后将信息存储在Neo4j数据库中；

所述Word文档抽取子模块基于Word特征对总体论证报告、技术研究报告这些以Word的形式保存的材料进行知识抽取。

6.根据权利要求5所述的一种基于主动深度学习的实体关系联合抽取系统，其特征在于：所述知识查询模块查询管理员输入的三元组关系entity1-[relation]->entity2，其中，entity1和entity2均为实体，relation为关系；输入查询的信息，分为如下几种情况：查询实体entity1、查询实体entity2、查询实体entity1和关系relation、查询关系relation和实体entity2、查询实体entity1和实体entity2、查询实体entity1、实体entity2和关系relation；根据管理员的查询条件从Neo4j图数据库中查询出结果，前端通过可视化组件将其以图谱的形式展示给管理员，同时通过表格以条目的形式展示出知识三元组，并能够对三元组进行修改和删除；若未查询到结果，则会提示“暂未找到相应的匹配”。