CN113806493A

CN113806493A - 一种用于互联网文本数据的实体关系联合抽取方法、装置

Info

Publication number: CN113806493A
Application number: CN202111177032.5A
Authority: CN
Inventors: 宋怡晨; 李爱平; 贾焰; 周斌; 涂宏魁; 王晔; 江荣; 徐锡山; 喻承
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-10-09
Filing date: 2021-10-09
Publication date: 2021-12-17
Anticipated expiration: 2041-10-09
Also published as: CN113806493B

Abstract

本发明提供了一种用于互联网文本数据的实体关系联合抽取方法、装置，其可以有效提高从无结构文本中提取实体、关系三元组信息的准确率，包括构建实体关系联合抽取模型，具有数据预处理层、向量表示层、分类器层；将互联网文本数据输入数据预处理层，提取词构成词序列，枚举所有可能的词组合作为候选实体，构成候选实体序列；将词序列和候选实体序列输入向量表示层，得到对应的表示向量；将表示向量输入分类器层的实体分类器，得到实体；将实体组合得到实体对，将词序列和实体对的表示向量输入关系分类器，得到实体间关系；训练实体关系联合抽取模型，将互联网文本数据输入训练好的模型，输出实体和实体间关系，得到三元组<头实体，关系，尾实体>。

Description

一种用于互联网文本数据的实体关系联合抽取方法、装置

技术领域

本发明涉及机器学习中的神经网络领域，具体涉及一种用于互联网文本数据的实体关系联合抽取方法、装置。

背景技术

随着互联网技术的迅速发展普及，每时每秒会产生海量的文本数据，这些文本数据中涵盖着大量的实体、关系等知识，也存在大量的无意义信息。为了快速从非结构化的文本中获取到有效的信息，研究者们提出了信息抽取技术。信息抽取技术突破传统的人工阅读、理解等方式获取语义关系的限制，实现了语义关系的自动抽取。

传统的文本分类和聚类技术可以帮助用户从海量数据汇总筛选出所需要的文档或段落。而因为实体和关系信息文本信息的基础构成，实体和关系抽取技术可以更细粒度的挖掘蕴含在文本中的语义信息，同时可以将抽取到的语义信息表示为结构化的三元组信息。因此，实体和关系抽取不仅是信息抽取的重要组成部分，也是构建大型知识库中必不可少的一步，对于机器翻译、文本摘要、知识库构建、自动问答系统、搜索引擎等领域的发展都有重要的意义。

早期的工作一般将实体和关系抽取作为两个任务以流水线的方式实现，首先进行实体抽取(命名实体识别)主要识别文本中的命名实体，比如人名、地名、机构名称等；然后，通过关系抽取(关系分类)在给定的关系类别下，对文本中标注好的实体对，进行分类。这种流水线的方式使任务变得易于处理，而且每个方法都可以更加灵活；但是，它忽略了这两个任务之间的相关性，需要对每个任务设计一个独立模型，同时前序任务(命名实体识别)的准备性会影响后续任务(关系分类)的准确性，还会导致错误累积。

因此，人们提出了实体关系联合抽取的任务，对于输入的文本，同时抽取文本中的实体和关系，形成结构化的三元组<头实体，关系，尾实体>进行输出，这种联合抽取的方法可以有效地整合实体和关系的信息。然而早起的联合抽取方法主要是基于特征的结构化学习系统，很大程度上需要依赖于特征工程。随着深度学习方法，特别是神经网络方法的发展，越来越多的联合抽取方法通过用网络学习表示来代替人工特征的构造，基于神经网络的模型取得了相当大的成功。

然而这些基于神经网络的实体关系联合抽取方法大多是需要设计复杂的标签框架，采用标签的方法，一个词只能设计一个标签，无法对重复的情况打标签，这些现有的方法很少方法擅长解决重叠三元组问题，即同一个句子中的多个关系三元组共享同一个实体的问题；大多数方法训练时采用外部的数据直接训练，而在使用模型进行抽取时需要从零开始抽取，关系抽取的结果完全根据实体抽取的结果得来的，这种差异也会导致误差的积累。

发明内容

针对上述问题，本发明提供了一种用于互联网文本数据的实体关系联合抽取方法、装置，其可以有效提高从无结构文本中提取实体、关系三元组信息的准确率。

其技术方案是这样的：一种用于互联网文本数据的实体关系联合抽取方法，其特征在于，包括以下步骤：

步骤1：构建实体关系联合抽取模型，所述实体关系联合抽取模型包括数据预处理层、向量表示层、分类器层；

将从互联网信息中提取的互联网文本数据输入实体关系联合抽取模型的数据预处理层，提取互联网文本数据中的词构成词序列，枚举文本数据中所有可能的词组合作为候选实体，构成候选实体序列；

分别将词序列和候选实体序列输入向量表示层进行处理，得到词序列和候选实体序列的表示向量；

将词序列和候选实体序列的表示向量输入分类器层的实体分类器，得到实体；将实体组合得到实体对，将词序列和实体对的表示向量输入关系分类器，得到实体间关系；

步骤2：训练实体关系联合抽取模型，优化模型参数，得到训练好的实体关系联合抽取模型；

步骤3：将互联网文本数据输入训练好的实体关系联合抽取模型，输出实体和实体间关系，得到三元组<头实体，关系，尾实体>。

进一步的，在步骤1中，在实体关系联合抽取模型的数据预处理层中，对互联网文本数据进行预处理，将文本数据以词为单位进行分解，获得词序列，表示为{w₁,w₂,…,w_m}；

枚举获得的词序列中所有跨度小于span的词组合，作为候选实体，构成候选实体序列，{e₁,e₂,…,e_n}，其中，span为设定的预设的阈值，表示一个候选实体最多包含词的数量。

在步骤1中，在实体关系联合抽取模型的向量表示层设有预训练语言模型，所述预训练语言模型包括输入处理层和增加实体感知自注意力的transformer层，

在输入处理层中，对于通过数据预处理层获得的词序列，通过查找输入处理层中的词向量表，得到词对应的表示向量，获取词在文本数据的句子中的位置作为位置向量，将通过词向量表得到词对应的表示向量叠加位置向量得到文本数据中词的表示向量，输入处理层输出的词序列的表示向量为

对于通过数据预处理层获得的候选实体序列，通过查找输入处理层中的实体向量表，取得候选实体的表示向量，取候选实体的头尾词对应的位置向量的平均值作为位置向量，设置实体类型向量设为1，三个向量叠加得到输入处理层输出的候选实体的表示向量

将词序列和候选实体序列的表示向量链接在一起作为增加实体感知自注意力的transformer层的输入，并分别为词序列和候选实体序列增加输入序列的分隔符，表示为：

其中x_[cls]和x_[sep]分别为词序列和候选实体序列的分隔符；

将链接在一起的词序列和候选实体序列的表示向量输入增加实体感知自注意力的transformer层，得到每项输入对应的输出向量，输出向量序列表示为

进一步的，增加实体感知自注意力的transformer层的输出通过如下计算：

α_ij＝softmax(e_ij)，

其中，h_i为输出向量序列中的第i个输出向量，x_i为在输入预训练语言模型的向量序列中与h_i对应的表示向量，

x_j表示输入预训练语言模型的向量序列中x_i以外的表示向量；Q、K、V属于注意力机制的基础参数，分别为查询矩阵query、键矩阵key和值矩阵value，m、n分别为词序列和候选实体序列的长度，α_ij为注意力权重，表示每个输入对其他输入的影响程度，e_ij为注意力分数，Q_w2w为输入的x_i和x_j分别为词时的查询矩阵query，Q_e2e为输入的x_i和x_j分别为实体时的查询矩阵query，Q_w2e为输入的x_i为词和x_j为实体时的查询矩阵query，Q_e2w为输入的x_i为实体和x_j为词时的查询矩阵query。

进一步的，在分类器层的实体分类器中，对于候选实体e_i，e_i∈{e₁,e₂,…,e_n}，取候选实体e_i对应的首尾词

将候选实体e_i对应的首尾词

与向量表示层输出的对应的输出向量串联，得到实体分类器的输入项

将实体分类器的输入项

输入实体分类器,输出候选实体e_i是否为实体，通过实体分类器对所有候选实体进行识别，通过实体分类器识别到文本数据中包含的实体表示为{te₁,te₂,…,te_t}，其中

将识别到的实体两两组合，得到实体对(te_i‘,te_j’),实体对(te_i‘,te_j’)对应候选实体对为(e_i,e_j),将实体对(te_i‘,te_j’)与词序列的分隔符在向量表示层中计算得到的表示向量串联，得到关系分类器的输入项

将

输入关系分类器，输出实体对(te_i‘,te_j’)对应的关系，通过关系分类器对所有组合的实体对进行识别，输出实体对对应的所有关系。

进一步的，在所述分类器层中，所述实体分类器和关系分类器分别采用线性全连接模型。

进一步的，在步骤3，训练实体关系联合抽取模型时，对于实体分类器采用cross-entropy损失函数，训练实体分类器时，采用枚举中产生的错误候选实体输入实体分类器作为负样本；

训练关系分类器采用BCEWithLogitsLoss损失函数，利用实体分类器输出的错误实体和组合得到的错误的实体对作为负样本，训练关系分类器。

一种用于互联网文本数据的实体关系联合抽取装置，其特征在于，其包括：包括处理器、存储器以及程序；

所述程序存储在所述存储器中，所述处理器调用存储器存储的程序，以执行上述的用于互联网文本数据的实体关系联合抽取方法。

一种计算机可读存储介质，其特征在于：所述计算机可读存储介质被配置成存储程序，所述程序被配置成执行上述的用于互联网文本数据的实体关系联合抽取方法。

本发明的用于互联网文本数据的实体关系联合抽取方法，设置了一个实体关系联合抽取模型进行实体以及实体间关系的抽取，模型的数据预处理层通过对文本中所有可能的候选实体对进行枚举，给出了所有可能的词的组合，以此给出了所有可能的候选实体，为此对于文本中同一个句子中的多个关系三元组共享同一个实体的情况，可以准确的判断实体对之间存在的关系，解决实体无法重用导致的重叠三元组的问题；且在训练的时候，直接从零开始，采用真实的实体抽取的结果数据用于关系抽取，而模型在预测实体和关系时，同样是采用预测的真实的实体用于关系抽取，保持了训练和预测中数据和模型结构的一致性。相较于流水线模型和其他方法，本发明的联合抽取模型只需要训练一个模型，提高了工作效率，同时保持训练和预测中数据的一致性，减少了误差的积累,本发明的用于互联网文本数据的实体关系联合抽取方法可以更加高效的用于知识库自动构建或者搜索引擎搭建，更有力的保障了人们在信息爆炸的互联网上快速、准确、主动地获取知识。

附图说明

图1为本发明的用于互联网文本数据的实体关系联合抽取方法的步骤图；

图2为一个实施例中计算机装置的内部结构图。

具体实施方式

当前主流的实体关系联合抽取方法主要是通过设计复杂的标注框架的基础上实现的，这些方法对文本本身的语义信息利用不足，而且训练和推断采用不同的数据来源，造成误差的累积，预测的准确率偏低。

见图1，针对上述问题，本发明在实施例中提供了一种用于互联网文本数据的实体关系联合抽取方法，通过预训练好的语言模型将知识库的知识融入到模型中，然后利用该模型学习到文本和词语的特征，最后根据这些学到的特征信息，利用连续的两个分类器，抽取出文本中的实体和实体之间的关系，至少包括以下步骤：

具体在一个实施例中，将本发明的用于互联网文本数据的实体关系联合抽取方法应用在英文文本数据的实体关系联合抽取中，具体按照如下执行：

步骤1包括以下步骤：

构建包括数据预处理层、向量表示层、分类器层的实体关系联合抽取模型；

首先是数据预处理层：

从互联网信息中提取互联网文本数据，在实体关系联合抽取模型的数据预处理层中，对互联网文本数据进行预处理，将文本数据以词为单位进行分解，由于是针对英文文本，所以直接按照空格分解为词，获得文本对应的词序列，表示为{w₁,w₂,…,w_m}；序列中w₁,w₂,…,w_m分别为文本数据分解得到的每一个单词，

枚举获得的词序列中所有跨度小于span的词组合，作为候选实体，构成候选实体序列，{e₁,e₂,…,e_n}，其中，span为设定的预设的阈值，表示一个候选实体最多包含词的数量；譬如设定的span的值为5，则候选实体序列的一个实体e_i，可以是包含w₁，可以是包含w₁和w₂，可以是包含w₁和w₂和w₃，可以是包含w₁和w₂和w₃和w₄，也可以是包含w₁和w₂和w₃和w₄和w₅。

其次是向量表示层：

在实体关系联合抽取模型的向量表示层设有预训练语言模型，预训练语言模型包括输入处理层和增加实体感知自注意力的transformer层，

将词向量和位置向量结合起来，可以提高对文本数据中句子的表现能力；

取候选实体的表示向量、位置向量、实体类型叠加提高对文本数据中句子的表现能力；

传统方法中通常采用如word2vec等词向量模型，训练出来的都是静态的词向量，即同一个词，在任何的上下文当中，其向量表征是相同的，显然，这样的一种词向量是无法体现一个词在不同语境中的不同含义的；本方案中，采用预训练语言模型来代替词向量的关键在于，其能够更具上下文的不同，对上下文中的词提取符合其语境的词表征，该词表征向量为一个动态向量，即不同上下文输入预训练语言模型后，同一个词的词表征向量在两个上下文中的词表征是不同的；

其中x_[cls]和x_[sep]分别为词序列和候选实体序列的分隔符，在词序列和候选实体序列前插入一个分隔符，并将该符号对应的输出向量作为整篇文本的语义表示，在表示文本语义是，与文本中已有的其它字/词相比，这个无明显语义信息的符号会更公平地融合文本中各个字/词的语义信息；

具体的，增加实体感知自注意力的transformer层的输出通过如下计算：

α_ij＝softmax(e_ij)，

x_j表示输入预训练语言模型的向量序列中x_i以外的表示向量；Q、K、V属于注意力机制的基础参数，分别为查询矩阵query、键矩阵key和值矩阵value，m、n分别为词序列和候选实体序列的长度，α_ij为注意力权重，表示每个输入对其他输入的影响程度，e_ij为注意力分数，Q_w2w为输入的x_i和x_j分别为词时的查询矩阵query，Q_e2e为输入的x_i和x_j分别为实体时的查询矩阵query，Q_w2e为输入的x_i为词和x_j为实体时的查询矩阵query，Q_e2w为输入的x_i为实体和x_j为词时的查询矩阵query，查询矩阵query结合值矩阵V和整个输入向量序列，得到每个输入对应的输出h_i。

最后在分类器层中：

分类器层设有实体分类器和关系分类器,在分类器层的实体分类器中，实体分类器采用线性全连接模型，对于候选实体e_i，e_i∈{e₁,e₂,…,e_n}，取候选实体e_i对应的首尾词

将候选实体e_i对应的首尾词

将实体分类器的输入项

将

步骤2：构建完实体关系联合抽取模型后则需要对模型进行训练，在步骤2，训练实体关系联合抽取模型时，对于实体分类器采用cross-entropy损失函数，训练实体分类器时，采用枚举中产生的错误候选实体输入实体分类器作为负样本；

在训练中，关系抽取的输入完全依赖于实体抽取的输出，并不会另外设计负样本之类的，通过这样来减少训练和预测真实的实体、关系之间的区别，这点和以往都不同，以往模型对关系的训练是依赖于正确结果进行的；

在本实施例中，不专门设计负样本，而是利用输入中候选实体中的错误项作为实体分类器的天然负样本；而实体分类的错误结果产生的实体对，则作为关系分类器的天然负样本；这样不仅省去设计负样本的步骤，而且使得整个训练过程与实际应用的抽取实体关系过程保持一致，降低训练模型在实际应用因为步骤产生的偏差。

而且，本方案的实体关系联合抽取模型只需要对一个句子运行一次编码就可以用于后续的实体识别和关系抽取，依据loss训练损失函数，这区别于以往模型中有很多工作对于关系抽取要对每个关系设计一个分类器，本方案中只需要一个多标签分类器，使得本发明的方法更容易实现。

步骤3：得到训练好的实体关系联合抽取模型后，可以将互联网文本数据输入训练好的实体关系联合抽取模型，输出实体和实体间关系，得到三元组<头实体，关系，尾实体>。

对本实施例的方法进行实验测试，利用数据集包括NYT、NYT-raw、WebNLG、WebNLG-ETLSpan数据集，将本实施例提供的方法中的实体关系联合抽取模型鱼现有的模型譬如NovelTagging、CopyRE、MultiHead等等，具体见表1中所列。

表1

表1中本节模型(局部)指的是采用本发明的实施例提供的方法，在进行实体关系抽取时，只要实体的最后一个词抽对时的情况；本节模型(精确)指的是采用本发明的实施例提供的方法，在进行实体关系抽取时，要求三元组抽取完全一致时的情况。

相较于下现有的联合抽取效果最好的方法，本实施例的方法在NYT数据集上比TPLinker方法精确率上能提高越2.6个百分点，达到93.9％，f1值达到92.5％；在NYT-raw数据集上比TPLinker方法在精确率上能提高越3个百分点，达到94.5％，f1值达到92.5％；在WebNLG-ETLSpan数据集上，本节模型(精确)比TPLinker方法精确率上能提高约3.7个百分点，达到92.6％，F1值提高约4个比分点，达到90.6％，实验证明了专利提出方法在实体关系联合抽取上的有效性。

在本发明的实施例中，还提供了一种用于互联网文本数据的实体关系联合抽取装置，其包括：包括处理器、存储器以及程序；

程序存储在存储器中，处理器调用存储器存储的程序，以执行上述的一种用于互联网文本数据的实体关系联合抽取方法。

该计算机装置可以是终端，其内部结构图可以如图2所示。该计算机装置包括通过总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机装置的处理器用于提供计算和控制能力。该计算机装置的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机装置的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现用于互联网文本数据的实体关系联合抽取方法。该计算机装置的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机装置的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机装置外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

存储器可以是，但不限于，随机存取存储器(Random Access Memory，简称：RAM)，只读存储器(Read Only Memory，简称：ROM)，可编程只读存储器(Programmable Read-OnlyMemory，简称：PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，简称：EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，简称：EEPROM)等。其中，存储器用于存储程序，处理器在接收到执行指令后，执行程序。

处理器可以是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称：CPU)、网络处理器(NetworkProcessor，简称：NP)等。该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机装置的限定，具体的计算机装置可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本发明的实施例中，还提供了一种计算机可读存储介质，计算机可读存储介质被配置成存储程序，程序被配置成执行上述的一种用于互联网文本数据的实体关系联合抽取方法。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、计算机装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、计算机装置、或计算机程序产品的流程图和/或框图来描述的。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图和/或中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图中指定的功能。

以上对本发明所提供的在用于互联网文本数据的实体关系联合抽取方法、计算机装置、计算机可读存储介质的应用进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种用于互联网文本数据的实体关系联合抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种用于互联网文本数据的实体关系联合抽取方法，其特征在于：在步骤1中，在实体关系联合抽取模型的数据预处理层中，对互联网文本数据进行预处理，将文本数据以词为单位进行分解，获得词序列，表示为{w₁,w₂,…,w_m}；

3.根据权利要求2所述的一种用于互联网文本数据的实体关系联合抽取方法，其特征在于：在步骤1中，在实体关系联合抽取模型的向量表示层设置为预训练语言模型，所述预训练语言模型包括输入处理层和增加实体感知自注意力的transformer层，

其中x_[cls]和x_[sep]分别为词序列和候选实体序列的分隔符；

4.根据权利要求3所述的一种用于互联网文本数据的实体关系联合抽取方法，其特征在于：增加实体感知自注意力的transformer层的输出通过如下计算：

α_ij＝softmax(e_ij)，

5.根据权利要求4所述的一种用于互联网文本数据的实体关系联合抽取方法，其特征在于：所述分类器层中设置有实体分类器,在实体分类器中，对于候选实体e_i，e_i∈{e₁,e₂,…,e_n}，取候选实体e_i对应的首尾词

将候选实体e_i对应的首尾词

将实体分类器的输入项

6.根据权利要求5所述的一种用于互联网文本数据的实体关系联合抽取方法，其特征在于：所述分类器层中设置有关系分类器,将识别到的实体两两组合，得到实体对(te_i‘,te_j’),实体对(te_i‘,te_j’)对应候选实体对为(e_i,e_j),将实体对(te_i‘,te_j’)与词序列的分隔符在向量表示层中计算得到的表示向量串联，得到关系分类器的输入项

将

7.根据权利要求6所述的一种用于互联网文本数据的实体关系联合抽取方法，其特征在于：在所述分类器层中，所述实体分类器和关系分类器分别采用线性全连接模型。

8.根据权利要求7所述的一种用于互联网文本数据的实体关系联合抽取方法，其特征在于：在步骤3，训练实体关系联合抽取模型时，对于实体分类器采用cross-entropy损失函数，训练实体分类器时，采用枚举中产生的错误候选实体输入实体分类器作为负样本；

9.一种用于互联网文本数据的实体关系联合抽取装置，其特征在于，其包括：包括处理器、存储器以及程序；

所述程序存储在所述存储器中，所述处理器调用存储器存储的程序，以执行权利要求1所述的用于互联网文本数据的实体关系联合抽取方法。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质被配置成存储程序，所述程序被配置成执行权利要求1所述的用于互联网文本数据的实体关系联合抽取方法。