CN111309921A

CN111309921A - 一种文本三元组抽取方法及抽取系统

Info

Publication number: CN111309921A
Application number: CN202010057970.0A
Authority: CN
Inventors: 聂桂芝; 杨攀攀
Original assignee: Shanghai Ferly Digital Technology Co ltd
Current assignee: Shanghai Ferly Digital Technology Co ltd
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2020-06-19

Abstract

本发明提出了一种文本三元组抽取方法，为了保证效率，模型以CNN+Attention的结构为基础。其中CNN使用膨胀卷积神经网络和残差结构，实现文本的长距离相关和信息的多通道流通，注意力机制应用Google力推的Self‑Attention。模型思想先预测文本中的subject，然后传入subject来预测该subject所对应的object及predicate。模型为了解决文本中存在多个subject、多个object甚至多个predicate等情况,利用0/1序列结构进行标注。本发明还提出了一种文本三元组抽取系统。

Description

一种文本三元组抽取方法及抽取系统

技术领域

本发明属于信息检索、智能问答、智能对话技术领域，具体涉及一种自然语言处理中文本三元组抽取方法及抽取系统。

背景技术

文本三元组抽取深度学习方法又分为两大类，Pipeline(先进行实体识别，然后对识别出的实体进行关系分类)和Joint model(实体识别和关系抽取作为一个整体的序列标注问题)。其中Pipeline把实体识别和关系分类作为两个完全独立的过程，不会相互影响，关系的识别依赖于实体识别的效果；而Joint Model实体识别和关系分类的过程共同优化。

网络缺点：

先进行实体识别，然后对识别出的实体进行关系分类，但这种思路无法很好地处理同一组(subject,object)对应多个predicate的情况，同时会存在采样效率地的问题；另一种思路是作为一个整体的序列标注来做，但这种设计不能很好地处理同时有多个subject、多个object的情况，而无一例外地，这些方法都不能解决subject、object有重叠的情况。

发明内容

为了克服目前文本三元组提取方法中存在的问题，本发明提出了一种文本三元组抽取方法，先预测subject，在进行object和predicate的预测。模型最后的输出为0/1序列，所以解决了现有模型不能解决的问题，如一个subject，对应多个(predicate,object)；多个subject,多个(predicate,object)；同一对(subject,object)也可能对应多个predicate；subject,object之间是可能重叠。

本发明提出的文本三元组抽取方法，包括以下步骤：

步骤1：对输入句子进行分字分词处理，分别在字级别和词级别进行embedding，把每个词的embedding，重复词中字的个数词，然后进行卷积和门控线性单元，得到的结果和字embedding进行混合，最后与Position Embedding相加得到总体的embedding层；

步骤2：将得到字-词-位置Embedding输入到19层膨胀卷积和残差结构中进行编码，得到编码后的特征序列记为F；其中15层的膨胀卷积中Dilation的大小分别为：1,2,4,8,1,2,4,8,1,2,4,8,1,1,1；

步骤3：将F传入一层Self-Attention后，将输出结果与先验特征进行拼接，其中先验特征是指对数据的每句中的subject，如果存在于现有的subject知识库中，则相应的位置标记为1，否则标0；

步骤4：将拼接后的结果传入TextCNN、Dense，用0/1序列的结构预测subject的首、尾位置；

步骤5：训练时随机采样一个标注的subject，然后将F对应此subject的子序列传入到一个6层膨胀卷积和残差结构中进行编码，得到subject的编码向量，然后加上相对位置的Position Embedding，得到一个与输入序列等长的向量序列；其中6层的膨胀卷积中Dilation的大小分别为：1,2,4,8,1,1,1；

步骤6：将F传入另一层Self-Attention后，将输出结果与第5步输出的向量序列、先验特征进行拼接，其中先验特征是指对数据的每句中的objec和predicate,如果存在于现有的object和predicate知识库中，则相应的位置标记为1，否则标记0；

步骤7：将拼接后的结果传入TextCNN、Dense，对于每一种predicate，都构建一个用0/1序列结构来预测对应的object的首、尾位置，把object、predicate预测出来。

本发明中，所述残差结构对应的公式是式(1)和式(2)：

式中，X为残差结构的输入(此发明中是指膨胀卷积之后的结果)，公式中有两个卷积：卷积1：X·W₁+b₁为卷积操作，其中W₁和b₁为卷积参数；卷积2：X·W₂+b₂为卷积操作，其中W₂和b₂为卷积参数；σ为sigmoid激活函数；

为乘法操作符；ε是一个常数因子，用于增加模型的鲁棒性。所述残差结构中两个卷积形式是一样的，包括卷积核数、窗口大小，权值不共享，其中一个用sigmoid函数激活，然后再加一个扰动，以增加模型的鲁棒性，另外一个不加激活函数，然后将它们得到的结果逐位相乘，另一方面用得到的结果与输入特征逐位相乘，最后把两路得到的相乘结果，逐位相加得到输出Y，使得信息能够在多通道传输。

基于以上方法，本发明还提出了一种文本三元组抽取系统，包括以下模块：

处理模块，其用于对输入句子进行分字分词处理，分别在字级别和词级别进行embedding，把每个词的embedding，重复词中字的个数词，进行卷积和门控线性单元，得到的结果和字embedding进行混合，最后与Position Embedding相加得到总体的embedding层；

编码模块，其用于将得到字-词-位置Embedding输入到19层膨胀卷积和残差结构中进行编码，得到编码后的特征序列记为F；

第一拼接模块，其用于将F传入一层Self-Attention后，将输出结果与先验特征进行拼接，其中先验特征是指对数据的每句中的subject，如果存在于现有的subject知识库中，则相应的位置标记为1，否则标0；

第一预测模块，其用于将拼接后的结果传入TextCNN、Dense，用0/1序列的结构预测subject的首、尾位置；

训练模块，其用于训练时随机采样一个标注的subject，然后将F对应此subject的子序列传入到一个6层膨胀卷积和残差结构中进行编码，得到subject的编码向量，然后加上相对位置的Position Embedding，得到一个与输入序列等长的向量序列；

第二拼接模块，其用于将F传入另一层Self-Attention后，将输出结果与所述训练模块输出的向量序列、先验特征进行拼接，其中先验特征是指对数据的每句中的objec和predicate,如果存在于现有的object和predicate知识库中，则相应的位置标记为1，否则标记0；

第二预测模块，其用于将拼接后的结果传入TextCNN、Dense，对于每一种predicate，都构建一个用0/1序列结构来预测对应的object的首、尾位置，把object、predicate预测出来。

本发明解决文本三元组提取中的以下情况：一个subject，对应多个(predicate,object)；多个subject,多个(predicate,object)；同一对(subject,object)也可能对应多个predicate；subject,object之间是可能重叠。

本发明方法为了保证效率，模型以CNN+Attention的结构为基础。其中CNN使用膨胀卷积神经网络和残差结构，实现文本的长距离相关和信息的多通道流通，注意力机制应用Google力推的Self-Attention。模型思想先预测文本中的subject，然后传入subject来预测该subject所对应的object及predicate。模型为了解决文本中存在多个subject、多个object甚至多个predicate等情况,利用0/1序列结构进行标注。

附图说明

图1是本发明模型示意图。

图2是普通卷积与膨胀卷积示意图。(左)普通卷积；(右)膨胀卷积(Dilation＝2)。

图3是残差结构示意图。

具体实施方式

结合以下具体实施例和附图，对发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

本发明整个模型如图1所示，模型以CNN和Attention为基础，其中利用膨胀卷积具有的远注意力性，如图2所示，普通卷积，每个节点只能捕捉到前后3个输入，而跟其他输入完全没关系。而Dilation＝2的膨胀卷积则能够捕捉到前后5个输入，但参数量和速度都没有变化；残差结构如图3所示，其所对应的公式是式(1)和式(2)。残差结构中两个Conv1D形式是一样包括卷积核数、窗口大小，但权值是不共享的，其中一个用sigmoid函数激活，然后再加一个扰动，以增加模型的鲁棒性，另外一个不加激活函数，然后将它们得到的结果逐位相乘，另一方面用得到的结果与输入特征逐位相乘，最后把两路得到的相乘结果，逐位相加得到输出Y，这种结构使得信息能够在多通道传输。

本发明提出的文本三元组抽取方法，包括以下步骤：

本发明中，所述残差结构对应的公式是式(1)和式(2)：

实施例

本发明的整体步骤如下：

1、对输入句子，进行分字分词处理，分别在字级别和词级别进行embedding，把每个次的embedding，重复词中字的个数词，然后进行卷积和门控线性单元，得到的结果和字embedding进行混合，最后与Position Embedding相加得到总体的embedding层；

2、将得到“字-词-位置Embedding”输入到19层膨胀卷积(如图2所示)和残差结构(如图3所示)中进行编码，得到编码后的特征序列记为F；其中15层的膨胀卷积中Dilation的大小分别为：1,2,4,8,1,2,4,8,1,2,4,8,1,1,1；

3、将F传入一层Self-Attention后，将输出结果与先验特征进行拼接，其中先验特征是指对数据的每句中的subject,如果存在于现有的subject知识库中，则相应的位置标记为1，否则标0；

4、将拼接后的结果传入TextCNN、Dense，用0/1序列的结构预测subject的首、尾位置；

5、训练时随机采样一个标注的subject(预测时逐一遍历所有的subject)，然后将F对应此subject的子序列传入到一个6层膨胀卷积(如图2所示)和残差结构(如图3所示)中进行编码，得到subject的编码向量，然后加上相对位置的Position Embedding，得到一个与输入序列等长的向量序列；其中6层的膨胀卷积中Dilation的大小分别为：1,2,4,8,1,1,1；

6、将F传入另一层Self-Attention后，将输出结果与第5步输出的向量序列、先验特征进行拼接，其中先验特征是指对数据的每句中的objec和predicate,如果存在于现有的object和predicate知识库中，则相应的位置标记为1，否则标记0；

7、将拼接后的结果传入TextCNN、Dense，对于每一种predicate，都构建一个用0/1序列结构来预测对应的object的首、尾位置，这样就同时把object、predicate都预测出来了。

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种文本三元组抽取方法，其特征在于，包括以下步骤：

步骤1：对输入句子进行分字分词处理，分别在字级别和词级别进行embedding，把每个词的embedding，重复词中字的个数词，进行卷积和门控线性单元，得到的结果和字embedding进行混合，最后与Position Embedding相加得到总体的embedding层；

步骤2：将得到字-词-位置Embedding输入到19层膨胀卷积和残差结构中进行编码，得到编码后的特征序列记为F；

步骤5：训练时随机采样一个标注的subject，然后将F对应此subject的子序列传入到一个6层膨胀卷积和残差结构中进行编码，得到subject的编码向量，然后加上相对位置的Position Embedding，得到一个与输入序列等长的向量序列；

2.如权利要求1所述的文本三元组抽取方法，其特征在于，所述残差结构对应的公式是式(1)和式(2)：

为乘法操作符；ε是一个常数因子，用于增加模型的鲁棒性。

3.如权利要求2所述的文本三元组抽取方法，其特征在于，所述残差结构中两个Conv1D形式是一样的，包括卷积核数、窗口大小，权值不共享，其中一个用sigmoid函数激活，然后再加一个扰动，以增加模型的鲁棒性，另外一个不加激活函数，然后将它们得到的结果逐位相乘，另一方面用得到的结果与输入特征逐位相乘，最后把两路得到的相乘结果，逐位相加得到输出Y，使得信息能够在多通道传输。

4.如权利要求1所述的文本三元组抽取方法，其特征在于，所述步骤2，其中15层的膨胀卷积中Dilation的大小分别为：1,2,4,8,1,2,4,8,1,2,4,8,1,1,1。

5.如权利要求1所述的文本三元组抽取方法，其特征在于，所述步骤5，其中6层的膨胀卷积中Dilation的大小分别为：1,2,4,8,1,1,1。

6.一种文本三元组抽取系统，其特征在于，包括以下模块：

7.如权利要求6所述的文本三元组抽取系统，其特征在于，所述系统采用如权利要求1-5之任一项所述的方法。