CN111709243A

CN111709243A - 一种基于深度学习的知识抽取方法与装置

Info

Publication number: CN111709243A
Application number: CN202010563907.4A
Authority: CN
Inventors: 杨鹏; 杨浩然; 李文翰
Original assignee: Nanjing Youhui Xin'an Technology Co ltd
Current assignee: Nanjing Youhui Xin'an Technology Co ltd
Priority date: 2020-06-19
Filing date: 2020-06-19
Publication date: 2020-09-25
Anticipated expiration: 2040-06-19
Also published as: CN111709243B

Abstract

本发明公开了一种基于深度学习的知识抽取方法与装置。首先，本发明使用BERT+CNN模型抽取百科文本中存在的多种关系，该模型改进了CNN基本结构并增加Attention机制，进而提高抽取精度。接着，枚举抽取的多种关系，根据关系类型识别文本对应的头实体和尾实体，并使用基于概率的实体对筛选方法筛选实体对。最后，基于文本相似度的实体消歧算法实现筛选实体对中实体的消岐，该算法解决实体消歧可参照信息量少的问题。本发明在减少知识抽取计算量的同时，可以准确、全面地从百科文本中抽取三元组知识。

Description

一种基于深度学习的知识抽取方法与装置

技术领域

本发明涉及一种基于深度学习的知识抽取方法与装置，该方法使用深度学习技术对百科文本进行知识抽取，属于自然语言处理技术领域。

背景技术

随着电子技术、计算机技术、互联网络技术等方面科学技术的不断发展与进步，互联网已经成为人们获取信息和资源最主要途径。百度百科、互动百科、维基百科网站等一些网络百科项目，是人们欢迎、使用广泛的参考工具书。例如，许多网民将维基百科视为一个重要信息来源。然而，百科文本内容纷繁杂乱，包含大量描述性语句。用户需要阅读大段的描述性语句才能获取自己想要的信息。知识抽取技术可以屏蔽原始数据的繁琐细节，从原始数据中提炼出简洁的知识。使用知识抽取技术从百科文本中抽取知识，有助于用户快速理解文本内容。

当前知识抽取主流方法分为实体识别、关系抽取和实体消歧三个步骤。实体识别，又称命名实体识别(Named Entity Recognition)，目标是抽取出文本中存在的多个实体，主流的方法包括基于规则的方法和基于机器学习的方法。实体识别后，穷举所有实体对，使用关系抽取技术抽取实体可能存在的关系。实体消歧可以在一定的上下文语境中，确定给定命名实体指称真正指向的实体概念。当前的知识抽取技术应用到百科文本中还存在以下问题：首先，百科文本通常一句话包含有多个实体。如果采用先实体识别再关系抽取的顺序，穷举多个实体对会大大增加知识抽取的计算量；其次，百科文本会出现包含多种关系和多个三元组的情况，从而导致准确率过低；最后，单个文本中抽取的实体相关描述信息量很少，难以利用少量的信息实现实体消歧。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明提出了一种基于深度学习的知识抽取方法与装置，在减少知识抽取计算量的同时，可以准确、全面地从百科文本中抽取三元组知识。

技术方案：为实现上述发明目的，本发明所述的一种基于深度学习的知识抽取方法，首先使用BERT+CNN模型抽取百科文本中存在的多种关系；然后枚举存在的关系，根据关系识别文本中对应的头尾实体节点，并基于概率筛选实体对；最后根据相似度计算对识别出的实体进行实体消歧。该方法主要包括四个步骤，具体如下：

(1)使用BERT+CNN模型抽取百科文本中存在的实体间的关系，所述BERT+CNN模型通过BERT模型生成句子嵌入向量，并通过CNN模型抽取语义特征，CNN模型中增加Attention机制以加强特征抽取能力；

(2)对步骤(1)中抽取的每个关系，将其余对应的百科文本同时输入BERT模型，识别每个关系对应的头尾实体节点，针对每个文本序列，输出头实体的起始概率和结束概率，以及，尾实体的起始概率和结束概率；

(3)根据步骤(2)输出的概率，去除重复实体，并根据就近原则筛选实体对；

(4)计算筛选的实体与百科中的实体之间的相似度，并根据相似度找到百科中对应的实体，完成实体消歧过程。

作为优选，所述步骤(1)中在CNN模型卷积核结构基础上加入残差，设第l层卷积层输入序列为

其中n为序列长度，

为长度d的向量，卷积宽度为k，卷积核参数为W∈R^2d×kd，b_w∈R^2d，卷积核计算方式如下：

其中

张量大小为R^2d，函数υ将该张量分为两部分，其中一个张量通过一个Sigmoid激活函数，再与另一个张量点积。

作为优选，所述步骤(1)中注意力机制在卷积神经网络中逐层计算，并且注意力范围随网络层数增加而扩大。

作为优选，所述步骤(3)中包括：

(3.1)枚举句子中的子串，每个子串分别计算作为头节点的概率head_ij和尾节点的概率tail_ij，若子串作为头节点的概率高于设定阈值则加入头节点待选集合，若子串作为尾节点的概率高于设定阈值则加入尾节点待选集合；其中

为文本序列中第i个位置成为头节点开始位置的概率，

为第j个位置成为头节点结束位置的概率，

为第i个位置成为尾节点开始位置的概率，

为第j个位置成为尾节点结束位置的概率；

(3.2)若集合中存在某个子串与另一个子串存在相交的部分，则根据概率大小去除概率小的子串；

(3.3)比较头实体节点待选集合和尾实体节点待选集合大小，在实体数量较多的集合中，每个实体就近匹配另一个集合中的实体，进而形成实体对。

作为优选，所述步骤(4)中包括：

(4.1)对于抽取的由头实体名、关系名和尾实体名组成的三元组知识中的实体名e，若与百科文本中对应句子归属的实体名e_o相同，则e和e_o属于同一实体，结束本次实体消歧过程；

(4.2)根据实体名e查询百科中的实体及实体对应的文本描述，通过实体名筛选近似实体，筛选条件为待筛选实体名e_candi和实体名e重复字数超过两个实体名长度的一半，筛选出的实体存入待选实体集合；

(4.3)对待选实体集合中的待选实体的实体描述进行筛选，生成实体描述集合，并计算和待消歧实体的相似度；其中待选实体和待消歧实体相似度包括实体名相似度和实体描述相似度，选择相似度最高的实体作为待消歧实体对应的实体。

作为优选，步骤(4.3)中实体描述筛选方法为：对待选实体e_candi的实体描述按句子划分，逐个将句子集合中的句子和三元组知识所在句子t比较，若句子去掉停用词后与句子t存在重复词汇，则该句加入实体描述集合，参与到相似度计算中。

基于相同的发明构思，本发明提供的一种基于深度学习的知识抽取装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的基于深度学习的知识抽取方法。

基于相同的发明构思，本发明提供的一种存储装置，存储有可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的基于深度学习的知识抽取方法。

有益效果：与现有技术相比，本发明具体如下优点：

1、本发明采用先关系抽取，后实体识别的方式，大大减少了知识抽取的计算量。

2、本发明改进了卷积神经网络结构，加入了残差和Attention机制，并提出实体对筛选方法，解决了同一文本中出现包含多种关系和多个三元组的情况，提高知识抽取精度。

3、本发明提出一种基于文本相似度的实体消歧算法，该算法解决了实体消歧可参照信息量少的问题，通过比较抽取实体的文本和实体描述文本的相似度实现实体消歧。

附图说明

图1为本发明实施例的方法流程图。

图2为本发明实施例的知识抽取模型结构图。

图3为本发明实施例涉及的改进卷积神经网络结构图。

图4为本发明实施例涉及的实体识别网络结构图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本发明实施例以维基百科为例，公开的一种基于深度学习的知识抽取方法，具体实施步骤如下：

步骤1，使用BERT+CNN模型抽取维基百科文本中存在的多种关系，改进CNN基本结构，并增加Attention机制以加强关键特征抽取能力。模型整体结构如图2所示，包括句子嵌入层、卷积层、全连接层和输出层四个部分。句子嵌入层使用BERT模型生成句子嵌入向量，卷积层用于抽取关键语义特征，全连接层用于整合卷积层的输出信息，以适合输出层的输出，输出层输出文本中存在关系的概率。

传统的知识抽取方法采用先实体识别再关系抽取的顺序，实体识别会产生大量的冗余实体，增加知识抽取计算量。本发明首先抽取维基百科文本中存在的关系，将关系抽取视为多标签分类问题。如文本“曹丕生于沛国谯县，曹操之子。”存在两个三元组知识，<曹丕，出生地，沛国谯县>和<曹丕，父亲，曹操>，步骤1负责抽取“出生地”和“父亲”两种关系，具体实施过程分为3个子步骤：

子步骤1.1，将维基百科文本输入BERT模型，BERT模型[CLS]符号对应的输出向量可以用于单文本分类任务，取[CLS]对应的输出向量作为维基百科文本的向量表示。

子步骤1.2，将BERT模型输出的768维向量分为长度为12的序列，以适应卷积神经网络的输入格式，每个序列长度为64维，并输入卷积层。本发明改进卷积核基本结构，加入残差，并在每层CNN网络增加Attention机制，用来抽取一定范围内的关键特征。

CNN改进模型结构如图3所示，设第l层卷积层输入序列为

其中，n为序列长度，

为长度d的向量，卷积宽度为k，卷积核参数为W∈R^2d×kd，b_w∈R^2d，卷积核计算方式如公式(1)所示：

其中

张量大小为R^2d，函数υ将该张量分为A、B两部分，将张量B通过一个Sigmoid激活函数，再与张量A点积，函数υ的计算方式如公式(2)所示：

每层卷积网络层加入了Attention机制，以增强特征交互能力，设第l层卷积输出序列为

文本信息抽取范围为st，st为模型预设的超参数，对于向量

通过Attention机制抽取

范围的关键特征，计算方式如下：

其中，λ_k为第k个序列对于第i个序列的注意力权重，k∈[i-st,i+st]，在计算

的注意力权重时，会生成{λ_i-st,…,λ_i+st}的注意力权重序列，W_att和b_att为Attention机制的共享参数。该注意力机制在卷积神经网络中逐层计算，并且注意力范围随网络层数增加而扩大，以保证模型先抽取短距离文本特征后抽取长距离文本特征。在该模型中采用8层卷积神经网络，前三层网络中注意力范围st设为3，中间三层网络注意力范围st设为5，最后两层网络注意力范围st设为7。

子步骤1.3，将卷积层输出进行拼接，通过两个全连接层进行微调，最终使用Sigmoid层输出，预测文本存在的多种关系。BERT+CNN模型损失函数如下：

其中，M为关系类型数量，λ为超参数，ω为模型参数，y_c为真实关系类别，p_c为对于关系类型c的预测值。

步骤2，枚举步骤1中抽取的多种关系，根据每个关系识别对应的头尾实体节点，针对每个文本序列，输出头实体、尾实体的起始概率和结束概率。模型整体结构图如图3所示，模型分为三个部分，分别是嵌入层、卷积层和输出层。文本输入嵌入层，使用BERT模型生成文本对应序列，并输入卷积层，抽取实体相关特征，卷积层结构与步骤1的卷积结构相同。在输出层设计上，对卷积层输出的每个序列使用四指针输出，输出该序列位置成为头实体、尾实体的起始概率和结束概率。具体实施过程分为3个子步骤：

子步骤2.1，枚举步骤1抽取的若干关系，将关系和维基百科文本同时输入BERT模型，取维基百科文本对应的输出序列。假设关系为relation，维基百科文本序列为{word₁,word₂,…,word_n}，则输入BERT模型的格式如下：

INPUT＝[CLS]relation[SEP]word₁,word₂,…,word_n (6)

其中，n为文本序列长度，关系和维基百科文本之间使用[SEP]标签间隔，BERT模型输出取word₁到word_n对应的输出序列。

子步骤2.2，将输出序列输入CNN层，实现序列特征的充分交互。步骤2.2中的卷积神经网络结构沿用步骤1.2中的卷积结构，与步骤1.2不同的是，BERT模型的输出序列直接作为卷积神经网络的输入，不需要进一步拆分。

子步骤2.3，对于CNN层输出的每个序列使用四指针输出，输出为四个概率，分别为头实体、尾实体的起始概率和结束概率。每个序列长度为n的序列，对于每个序列使用四个Sigmoid输出，输出的四个概率分别为头实体、尾实体的起始概率和结束概率，模型的损失函数如下：

其中，

为真实值，

为文本序列中第i个位置成为头节点开始位置的概率，

为第i个位置成为头节点结束位置的概率，

为第i个位置成为尾节点开始位置的概率，

为第i个位置成为尾节点结束位置的概率，λ为L2正则项的超参数，ω_ner为模型参数。

步骤3，提出一种实体对筛选方法，根据步骤2输出计算概率，去除重复实体，并根据就近原则筛选实体对，该过程的实施过程主要分为3个子步骤：

子步骤3.1，枚举句子中的子串，每个子串计算作为头节点和尾节点的起始概率、结束概率之积作为打分，设步骤2中模型生成的概率序列为

其中基于以上序列，则文本中第i个位置到第j个位置构成的子串成为头节点和尾节点的概率计算如下：

对子串计算的概率进行排序，设定阈值α，高于该阈值则加入头节点待选集合和尾节点待选集合。

子步骤3.2，去除重复实体，若集合中存在某个子串与另一个子串存在相交的部分，则根据概率大小去除概率小的子串。

子步骤3.3，考虑文本中可能出现的同一个关系存在多个实体对的情况，若头节点待选集合和尾节点改选集合待选实体数量都大于2，则根据就近原则匹配实体对，就近原则实体的中心位置为标准。比较头实体节点待选集合和尾实体节点待选集合大小，在实体数量较多的集合中，每个实体就近匹配另一个集合中的实体，进而形成实体对。

例如文本“《大明风华》是由张挺执导，汤唯、朱亚文、邓家佳等领衔主演的古装剧”，步骤2中根据关系“主演”抽取的结果，经过子步骤3.1和子步骤3.2筛选出的头实体节点待选集合和尾实体待选集合分别为“大明风华”，“汤唯、朱亚文、邓世佳”，则根据集合大小，尾实体待选集合中的实体依次和头实体待选集合的实体匹配。

步骤4，计算筛选的实体与维基百科中的实体之间的相似度，并根据相似度找到维基百科中对应的实体节点，完成实体消歧过程，设百科文本中待抽取三元组的句子t归属于实体e₀对应的词条，经过步骤1-步骤3抽取的三元组知识为<e_h,r,e_t>，e_h为头实体名，r为关系名，e_t为尾实体名，以头实体e_h的实体消歧过程为例，该过程的实施过程主要分为3个子步骤：

子步骤4.1，比较e_h和e_o实体名，若是实体名相同，则e_h和e_o属于同一实体，结束本次实体消歧过程。

子步骤4.2，使用mediawiki api根据e_h实体名查询维基百科中的实体及实体对应的文本描述，通过实体名筛选近似实体，筛选条件为待筛选实体名e_candi和实体名e_h重复字数超过两个实体名长度的一半，筛选出的实体存入待选实体集合。

子步骤4.3，对待选实体集合中的待选实体的实体描述进行筛选，生成实体描述集合，并和待消歧实体的相似度。

实体描述筛选方法如下：对待选实体e_candi的实体描述按句子划分，逐个将句子集合中的句子和句子t比较，若句子去掉停用词后与句子t存在重复词汇，则该句加入待选实体描述集合，参与到相似度计算当中。

两个文本的相似度计算方法如下：设存在两个文本t₁和t₂，统计t₁、t₂包含的所有文字，并建立文字索引表，并生成t₁和t₂对应的句向量vector₁和vector₂，句向量中第i位为j，代表索引表中第i位对应的文字在文本中出现了j次，文本t₁和t₂的相似度如公式(10)所示。

待选实体和待消歧实体相似度包括实体名相似度和实体描述相似度。选择相似度最高的实体作为待消歧实体对应的实体。相似度计算方法如下：

其中，e_candi为待选实体名，β为可调节参数，t′_i属于待选实体e_candi的待选实体描述集合，待选实体描述集合中句子数量为k。经过实体消歧后，本知识抽取方法完成维基百科知识抽取。

基于相同的发明构思，本发明实施例提供的一种基于深度学习的知识抽取装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述的基于深度学习的知识抽取方法。

基于相同的发明构思，本发明实施例提供的一种存储装置，存储有可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述的基于深度学习的知识抽取方法。

Claims

1.一种基于深度学习的知识抽取方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于深度学习的知识抽取方法，其特征在于，所述步骤(1)中在CNN模型卷积核结构基础上加入残差，设第l层卷积层输入序列为

其中n为序列长度，

其中

3.根据权利要求1所述的一种基于深度学习的知识抽取方法，其特征在于，所述步骤(1)中注意力机制在卷积神经网络中逐层计算，并且注意力范围随网络层数增加而扩大。

4.根据权利要求1所述的一种基于深度学习的知识抽取方法，其特征在于，所述步骤(3)中包括：

为文本序列中第i个位置成为头节点开始位置的概率，

为第j个位置成为头节点结束位置的概率，

为第i个位置成为尾节点开始位置的概率，

为第j个位置成为尾节点结束位置的概率；

5.根据权利要求1所述的一种基于深度学习的知识抽取方法，其特征在于，所述步骤(4)中包括：

6.根据权利要求5所述的一种基于深度学习的知识抽取方法，其特征在于，步骤(4.3)中实体描述筛选方法为：对待选实体e_candi的实体描述按句子划分，逐个将句子集合中的句子和三元组知识所在句子t比较，若句子去掉停用词后与句子t存在重复词汇，则该句加入实体描述集合，参与到相似度计算中。

7.一种基于深度学习的知识抽取装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求1-6任一项所述的基于深度学习的知识抽取方法。

8.一种存储装置，存储有可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求1-6任一项所述的基于深度学习的知识抽取方法。