CN112329463A

CN112329463A - 遥监督关系抽取模型的训练方法及相关装置

Info

Publication number: CN112329463A
Application number: CN202011355553.0A
Authority: CN
Inventors: 崔宇浩; 金忠孝
Original assignee: SAIC Motor Corp Ltd
Current assignee: SAIC Motor Corp Ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-02-05

Abstract

本发明提供了一种遥监督关系抽取模型的训练方法及相关装置，遥监督关系抽取模型包括词嵌入层、特征提取层和输出层，特征提取层包括循环层和卷积层，输出层包括袋级最大池层和softmax层。通过循环层获得句子中实体的上下文信息，以及通过卷积层从位置句子中提取细粒度特征。无需涉及手工特征和NLP工具，增强了关系抽取的遥监督。方法包括对于一个实体关系，将多个正样本打包成一个句袋，以及将多个负样本打包成一个句袋，对模型进行训练，减轻了错误的标签带来的影响。

Description

遥监督关系抽取模型的训练方法及相关装置

技术领域

本发明涉及自然语言处理技术领域，更具体地说，涉及一种遥监督关系抽取模型的训练方法及相关装置。

背景技术

关系抽取，其目的是在从自由文本中提取语义关系，是自然语言处理领域中一个至关重要的研究主题。有监督关系抽取方法需要大量带标签的数据，耗时长，制作成本昂贵，不适用于大型语料；因此，有监督关系抽取方法不能满足从网络文本中获取相关知识的需求。而无监督关系抽取方法，在大量文本中提取实体之间的字符串，并对这些字符串进行聚类和简化，以生成关系字符串；无监督关系抽取方法可以使用非常多的数据，并抽取大量的关系，但是得到的关系不容易映射到特定知识库所需的关系。

还有一类比较好的方法是遥监督关系抽取方法，在诸如Freebase等知识库中，遥监督关系抽取方法将知识库中的相关事实与未标记的语料库，进行启发式的对齐，来自动生成标记数据。遥监督关系抽取方的假设是，如果知识库的中一个句子包含一个关系的两个命名实体，则该句子将相应地表达该关系。但是，一对实体可以表达一种以上的关系，也可以根本不表达任何关系。而遥监管关系抽取方法的假设忽略了这种可能性，不可避免地导致提取性能下降。

为了解决遥监督关系抽取方法的假设导致错误的标签问题，有一些方法在此基础上提出了一些合理的假设，以放松遥监督的约束并改善结果。但是，这些方法严重依赖于从外部自然语言处理工具生成的规则。由于此类工具中总是存在错误，因此衍生的规则可能会导致错误的传播，并严重影响性能。还有一些基于深度学习的方法，这些方法不依赖外部工具。比如在论文《Distant supervision for relation extraction via piecewiseconvolutional neural networks》中，Zeng等人提出了PCNN(Pulse Coupled NeuralNetwork，脉冲耦合神经网络)模型，该模型将CNN(Convolutional Neural Networks，卷积神经网络)扩展为具有附加的分段最大池化层，然后基于遥监督数据构建关系抽取器。此后，Lin等人在《Neural relation extraction with selective attention overinstances》中，通过将选择性注意力模型集成到了PCNN中，进一步提高了其性能。这些方法使用每个单词的位置嵌入来表示其与两个目标实体的相对距离。但是，位置嵌入所表达的信息是有限的，它几乎无法捕获句子中实体的依赖关系和上下文信息。对于结构复杂的句子，这个问题变得更加严重。

发明内容

有鉴于此，本发明提出一种遥监督关系抽取模型的训练方法及相关装置，欲增强关系抽取的遥监督，以及减轻错误标签带来的影响。

为了实现上述目的，现提出的方案如下：

第一方面，提供一种遥监督关系抽取模型的训练方法，所述遥监督关系抽取模型包括词嵌入层、特征提取层和输出层，所述特征提取层包括循环层和卷积层，所述输出层包括袋级最大池层和softmax层，所述训练方法包括：

对于每个实体关系，将与其对应的正样本打包成至少一个句袋，并将与其对应的负样本打包成至少一个句袋；

对于每个句袋，对所述句袋中的每个句子加入实体定位符，并进行分词和向量化，得到句袋索引向量；

将所述句袋索引向量输入到所述词嵌入层，得到所述词嵌入层输出的句袋词向量；

将所述句袋词向量输入到所述特征提取层，得到所述特征提取层输出的语义特征；

将所述语义特征输入到所述输出层，得到所述输出层输出的实体关系的预测概率；

比较所述预测概率与句袋代表的实体关系，并计算损失以及更新模型参数。

优选的，所述循环层，具体为：长短期记忆人工神经网络。

优选的，在所述将正样本按照实体关系类别打包成代表各实体关系的句袋，并将负样本依照大小分成若干句袋之前，还包括：

从知识库中提取实体关系；

对于每个所述实体关系，从样本中抽取包含所述实体关系的实体对的句子作为所述实体关系的正样本；

对于每个所述实体关系，从样本中抽取未包含所述实体关系的实体对的句子作为所述实体关系的负样本。

优选的，所述遥监督关系抽取模型的训练方法，还包括：

利用测试集，对遥监督关系抽取模型进行测试的过程。

第二方面，提供一种遥监督关系抽取模型的训练装置，所述遥监督关系抽取模型包括词嵌入层、特征提取层和输出层，所述特征提取层包括循环层和卷积层，所述输出层包括袋级最大池层和softmax层，所述训练装置包括：

句袋生成单元，用于对于每个实体关系，将与其对应的正样本打包成至少一个句袋，并将与其对应的负样本打包成至少一个句袋；

句袋索引向量单元，用于对于每个句袋，对所述句袋中的每个句子加入实体定位符，并进行分词和向量化，得到句袋索引向量；

矩阵形成单元，用于将所述句袋索引向量输入到所述词嵌入层，得到所述词嵌入层输出的句袋词向量；

语义特征提取单元，用于将所述句袋词向量输入到所述特征提取层，得到所述特征提取层输出的语义特征；

预测单元，用于将所述语义特征输入到所述输出层，得到所述输出层输出的实体关系的预测概率；

更新单元，用于比较所述预测概率与句袋代表的实体关系，并计算损失以及更新模型参数。

优选的，所述循环层，具体为：长短期记忆人工神经网络。

优选的，所述遥监督关系抽取模型的训练装置，还包括：

实体关系提取单元，用于从知识库中提取实体关系；

正样本单元，用于对于每个所述实体关系，从样本中抽取包含所述实体关系的实体对的句子作为所述实体关系的正样本；

负样本单元，用于对于每个所述实体关系，从样本中抽取未包含所述实体关系的实体对的句子作为所述实体关系的负样本。

优选的，所述遥监督关系抽取模型的训练装置，还包括：

模型测试单元，用于利用测试集，对遥监督关系抽取模型进行测试。

第三方面，提供一种可读存储介质，其上存储有程序，所述程序被处理器执行时，实现如第一方面中任意一种遥监督关系抽取模型的训练方法的各个步骤。

第四方面，提供一种遥监督关系抽取模型的训练设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如第一方面中任意一种遥监督关系抽取模型的训练方法的各个步骤。

与现有技术相比，本发明的技术方案具有以下优点：

上述技术方案提供了一种遥监督关系抽取模型的训练方法及相关装置，遥监督关系抽取模型包括词嵌入层、特征提取层和输出层，特征提取层包括循环层和卷积层，输出层包括袋级最大池层和softmax层。通过循环层获得句子中实体的上下文信息，以及通过卷积层从位置句子中提取细粒度特征。无需涉及手工特征和NLP工具，增强了关系抽取的遥监督。方法包括对于一个实体关系，将多个正样本打包成一个句袋，以及将多个负样本打包成一个句袋，对模型进行训练，减轻了错误的标签带来的影响。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的遥监督关系抽取模型的示意图；

图2为本发明实施例提供的一种遥监督关系抽取模型的训练方法的流程图；

图3为本发明实施例提供的一种遥监督关系抽取模型的训练装置的流程图；

图4为本发明实施例提供的一种遥监督关系抽取模型的训练设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

知识图谱是一种知识的结构化表示形式，将事物以节点的形式表示，然后用节点和节点之间的边来表示事物和事物之间的关系，以此构成一张网络。在知识图谱中：

1、每个节点用来表示一个实际的事物(如人、商品、机构等)，称之为实体；

2、实体会有一些属性，一般来说，同一类实体会有相同的属性类别，如：商品会有价格、体积、生产日期、重量等属性；

3、节点和节点之间的边称之为实体关系，比如“中国”和“北京”有“首都”的关系；

4、两个实体及他们之间的关系构成的三元组，称之为事实。

本发明提出了一种新的遥监督关系抽取模型架构，该遥监督关系抽取模型自动捕获句子中的上下文信息，来增强关系抽取中的遥监督；并采用多实例学习技术，将训练集建模为句子袋(即句袋)，以实现更准确地从大量文本中抽取实体关系，减少错误标签带来的影响。

参见图1，为本发明提供的遥监督关系抽取模型的示意图。该遥监督关系抽取模型包括词嵌入层、特征提取层和输出层。特征提取层包括循环层和卷积层。输出层包括袋级最大池层(BLM，Bag-Level Max pooling)和softmax层。

遥监督关系抽取模型的第一部分是词嵌入层，词嵌入层将句子转换为矩阵表示形式。对于关系抽取问题，此步骤中的关键问题是让模型识别目标实体，以学习关系知识。该词嵌入层具体采用递归层来获得相对距离。相对距离为对句子进行分词后两个词之间的相对距离。

遥监督关系抽取模型的第二部分是特征提取层。特征提取层分为两层：循环层和卷积层。循环层可以汇总到给定时间的所有历史信息，因此可以获得句子中词和实体的上下文信息。在一个具体实施例中使用长短期记忆人工神经网络(LSTM，Long Short-TermMemory)作为循环层，LSTM在表示过程中强调相邻词并解决了学习长距离依赖项的问题。通过使用卷积层可以更好地从位置句子表示中提取细粒度特征。

遥监督关系抽取模型的第三部分是输出层。输出层包括BLM和softmax层。采用多实例学习技术，由具有相同实体对的句子构成的句袋进行训练，而不是一个句子，BLM收集句袋中各个句子之间的信息，并将最重要的特征聚合为一个向量，作为袋子的表示形式。这样句袋中带有正确标签的句子可以减少错误标记的句子的所带来影响，减轻标记错误的句子的影响。

本发明提出的遥监督关系抽取模型，在关系抽取过程中利用句子的多种表示形式，让每个表示形式表示不同的局部信息。句子的多种表达形式指用不同大小的卷积核处理词向量得到范围不同的局部信息；每一种局部信息就是每一类卷积核与输入词向量卷积得到的特征。本发明的框架使用一种递归卷积神经网络(RCNN)模型来学习单个句子的表示形式：首先，采用LSTM来生成句子的位置表示形式；在这里，句子的位置是某个时间步长的表示，反映了相应词在该位置的上下文信息。然后，使用卷积神经网络来聚合不同位置句子表示的交互，学习到句子的组合向量表示。使用RCNN模型自动从句子中，以细粒度自动捕获上下文信息，并将句子编码为特征向量，而无需涉及手工特征和NLP工具，增强了关系抽取的遥监督。

参见图2，为本实施例提供的一种遥监督关系抽取模型的训练方法，该方法包括以下步骤：

S21：对于每个实体关系，将与其对应的正样本打包成至少一个句袋，并将与其对应的负样本打包成至少一个句袋。

对于一个实体关系，包含该实体关系的实体对的句子为该实体关系的正样本；不包含该实体关系的实体对的句子为该实体关系的负样本。本发明中的实体关系的形式可以为“实体1-关系-实体2”，例如“中国-首都-北京”，若一个句子中包含“中国”和“北京”，则确定该句子为“中国-首都-北京”的正样本；若一个句子不包含“中国”和“北京”，则确定该句子为“中国-首都-北京”的负样本。

执行步骤S21，将与实体关系对应的多个正样本放在一起，构成一个句袋；以及将与实体关系对应的多个负样本放在一起，构成一个句袋。每个句袋可包含32～128个正样本或负样本。

在一个具体实施例中，从知识库中提取实体关系；对于每个实体关系，从样本中抽取包含该实体关系的实体对的句子作为该实体关系的正样本；对于每个实体关系，从样本中抽取未包含实体关系的实体对的句子作为实体关系的负样本。

S22：对于每个句袋，对句袋中的每个句子加入实体定位符，并进行分词和向量化，得到句袋索引向量。

在一个具体实施例中，利用“<>”作为实体定位符。示例性的，句袋中的一个句子为“浦发银行位于浦东区”，“浦发银行”和“浦东区”为某个实体关系的实体对，加入定位符后为句子“<浦发银行>位于<浦东区>”；对“<浦发银行>位于<浦东区>”进行分词得到“<，浦发银行，>，位于，<,浦东区，>”，其中“，”表示分词符；预先设定一个索引表，通过索引表找到每个词和实体定位符的索引号，将索引号组合在一起得到句子的索引向量；若索引表中“<”和“>”对应的索引号均为0000，“浦发银行”对应的索引号为0001，“位于”对应的索引号为0002，“浦东区”对应的索引号为0003，则“<浦发银行>位于<浦东区>”对应的索引向量为(0000，0001，0000，0002，0000，0003，0000)。将句袋中每个句子对应的索引向量组合在一起得到了句袋索引向量。

S23：将句袋索引向量输入到词嵌入层，得到词嵌入层输出的句袋词向量。

S24：将句袋词向量输入到特征提取层，得到特征提取层输出的语义特征。

特征提取层输出的语义特征为多维向量。

S25：将语义特征输入到输出层，得到输出层输出的实体关系的预测概率。

假定预测类别为10，那么预测概率即为维度为10的1维向量，每一维表示实体对属于该实体关系的概率。在一个具体实施例中，语义特征为三维向量(32，30，10)，32代表每一个句袋包含样本的数量，30代表最大句子长度，10代表每个分词特征向量的维度。输出层首先通过BLM，将(32，30，10)的向量转化为(1，30，10)，转化方式为在对应维度取最大值。然后将(1，30，10)的向量转为(300)的向量，转化方式为连接，最后将300维向量作为输入送至全连接层，得到(10)的向量。

S26：比较预测概率与句袋代表的实体关系，并计算损失以及更新模型参数。

具体的，如果句袋代表的实体关系与预测的实体关系不同，可以按照交叉熵损失计算损失(即loss)，并通过反向传播算法计算每个训练参数对于loss的贡献程度，据此更新模型参数。

对训练后的遥监督关系抽取模型，还可以利用测试集，进行测试。以确定训练后的遥监督关系抽取模型的精度是否符合要求，并在该模型精度不符合要求时，再次进行训练。对训练后的遥监督关系抽取模型的训练过程具体包括：先对测试数据分词，向量化，生成索引向量；然后将向量索引输入到遥监督关系抽取模型，得到遥监督关系抽取模型输出的实体关系的预测概率。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

参见图3，为本实施例提供的一种遥监督关系抽取模型的训练装置，遥监督关系抽取模型包括词嵌入层、特征提取层和输出层，特征提取层包括循环层和卷积层，输出层包括袋级最大池层和softmax层。该遥监督关系抽取模型的训练装置包括：句袋生成单元31、句袋索引向量单元32、矩阵形成单元33、语义特征提取单元34、预测单元35和更新单元36。

句袋生成单元31，用于对于每个实体关系，将与其对应的正样本打包成至少一个句袋，并将与其对应的负样本打包成至少一个句袋。

句袋索引向量单元32，用于对于每个句袋，对句袋中的每个句子加入实体定位符，并进行分词和向量化，得到句袋索引向量。

矩阵形成单元33，用于将句袋索引向量输入到词嵌入层，得到词嵌入层输出的句袋词向量。

语义特征提取单元34，用于将句袋词向量输入到特征提取层，得到特征提取层输出的语义特征。

预测单元35，用于将语义特征输入到输出层，得到输出层输出的实体关系的预测概率。

更新单元36，用于比较预测概率与句袋代表的实体关系，并计算损失以及更新模型参数。

在一些具体实施例中，循环层为长短期记忆人工神经网络。

在一些具体实施例中，遥监督关系抽取模型的训练装置，还包括：实体关系提取单元、正样本单元和负样本单元。

实体关系提取单元，用于从知识库中提取实体关系。

正样本单元，用于对于每个实体关系，从样本中抽取包含实体关系的实体对的句子作为实体关系的正样本。

负样本单元，用于对于每个实体关系，从样本中抽取未包含实体关系的实体对的句子作为实体关系的负样本。

在一些具体实施例中，遥监督关系抽取模型的训练装置，还包括：模型测试单元，用于利用测试集，对遥监督关系抽取模型进行测试。

参见图4，为本发明提供的遥监督关系抽取模型的训练设备的较佳实施例的示意图。遥监督关系抽取模型的训练设备的硬件结构可以包括：至少一个处理器41，至少一个通信接口42，至少一个存储器43和至少一个通信总线44；且处理器41、通信接口42、存储器43通过通信总线44完成相互间的通信；

处理器41在一些实施例中可以是一个CPU(Central Processing Unit，中央处理器)，或者是ASIC(Application Specific Integrated Circuit，特定集成电路)，或者是被配置成实施本发明实施例的一个或多个集成电路等。

通信接口42可以包括标准的有线接口、无线接口(如WI-FI接口)。通常用于在遥监督关系抽取模型的训练设备与其他电子设备或系统之间建立通信连接。

存储器43包括至少一种类型的可读存储介质。可读存储介质可以为如闪存、硬盘、多媒体卡、卡型存储器等NVM(non-volatile memory，非易失性存储器)。可读存储介质还可以是高速RAM(random access memory，随机存取存储器)存储器。可读存储介质在一些实施例中可以是遥监督关系抽取模型的训练设备的内部存储单元，例如该遥监督关系抽取模型的训练设备的硬盘。在另一些实施例中，可读存储介质还可以是遥监督关系抽取模型的训练设备的外部存储设备，例如该遥监督关系抽取模型的训练设备上配备的插接式硬盘、SMC(Smart Media Card,智能存储卡)、SD(Secure Digital,安全数字)卡，闪存卡(FlashCard)等。

其中，存储器43存储有计算机程序，处理器41可调用存储器43存储的计算机程序，所述计算机程序用于：

所述程序的细化功能和扩展功能可参照上文描述。

图4仅示出了具有组件41～44的遥监督关系抽取模型的训练设备，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，该遥监督关系抽取模型的训练设备还可以包括用户接口，用户接口可以包括输入单元(比如键盘)、语音输入装置(比如包含麦克风的具有语音识别功能的设备)和/或语音输出装置(比如音响、耳机等)。可选地，用户接口还可以包括标准的有线接口和/或无线接口。

可选地，该遥监督关系抽取模型的训练设备还可以包括显示器，显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)显示器等。显示器用于显示可视化的用户界面。

可选地，该遥监督关系抽取模型的训练设备还包括触摸传感器。触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外，触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且，触摸传感器不仅包括接触式的触摸传感器，也可包括接近式的触摸传感器等。此外，触摸传感器可以为单个传感器，也可以为例如阵列布置的多个传感器。

此外，该遥监督关系抽取模型的训练设备的显示器的面积可以与触摸传感器的面积相同，也可以不同。可选地，将显示器与触摸传感器层叠设置，以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。

该遥监督关系抽取模型的训练设备还可以包括RF(Radio Frequency，射频)电路、传感器和音频电路等等，在此不再赘。

本发明实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可，且本说明书中各实施例中记载的特征可以相互替换或者组合。

对本发明所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种遥监督关系抽取模型的训练方法，其特征在于，所述遥监督关系抽取模型包括词嵌入层、特征提取层和输出层，所述特征提取层包括循环层和卷积层，所述输出层包括袋级最大池层和softmax层，所述训练方法包括：

2.根据权利要求1所述的遥监督关系抽取模型的训练方法，其特征在于，所述循环层，具体为：

长短期记忆人工神经网络。

3.根据权利要求1所述的遥监督关系抽取模型的训练方法，其特征在于，在所述将正样本按照实体关系类别打包成代表各实体关系的句袋，并将负样本依照大小分成若干句袋之前，还包括：

从知识库中提取实体关系；

4.根据权利要求1所述的遥监督关系抽取模型的训练方法，其特征在于，还包括：

利用测试集，对遥监督关系抽取模型进行测试的过程。

5.一种遥监督关系抽取模型的训练装置，其特征在于，所述遥监督关系抽取模型包括词嵌入层、特征提取层和输出层，所述特征提取层包括循环层和卷积层，所述输出层包括袋级最大池层和softmax层，所述训练装置包括：

6.根据权利要求5所述的遥监督关系抽取模型的训练装置，其特征在于，所述循环层，具体为：

长短期记忆人工神经网络。

7.根据权利要求5所述的遥监督关系抽取模型的训练装置，其特征在于，还包括：

实体关系提取单元，用于从知识库中提取实体关系；

8.根据权利要求5所述的遥监督关系抽取模型的训练装置，其特征在于，还包括：

9.一种可读存储介质，其上存储有程序，其特征在于，所述程序被处理器执行时，实现如权利要求1～4中任一项所述的遥监督关系抽取模型的训练方法的各个步骤。

10.一种遥监督关系抽取模型的训练设备，包括存储器和处理器，其特征在于，所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～4中任一项所述的遥监督关系抽取模型的训练方法的各个步骤。