CN111241303A

CN111241303A - 一种大规模非结构化文本数据的远程监督关系抽取方法

Info

Publication number: CN111241303A
Application number: CN202010045929.1A
Authority: CN
Inventors: 秦娅
Original assignee: Dongfanghong Satellite Mobile Communication Co Ltd
Current assignee: Dongfanghong Satellite Mobile Communication Co Ltd
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2020-06-05

Abstract

本发明公开了一种大规模非结构化文本数据的远程监督关系抽取方法，包括以下步骤：S1：对实体关系进行语料标注；S2：对文本进行词向量和位置向量进行映射；S3：引入软标签思想，利用深度残差卷积神经网络加入门控机制提取句子的语义特征；S4：利用多实例Attention机制计算实例与对应关系的相关性。本发明具有解决语料匮乏问题、标注质量高、错误少的优点。

Description

一种大规模非结构化文本数据的远程监督关系抽取方法

技术领域

本发明涉及信息抽取技术领域，尤其涉及一种大规模非结构化文本数据的远程监督关系抽取方法。

背景技术

伴随互联网时代的不断发展，网络中的数据急剧增长，已逐渐成为一种资源甚至生产要素，有效抽取这些海量数据中用户所需的关键知识具有重要价值，关系抽取(Relation Extraction,RE)作为信息抽取中的关键技术，其主要目的为准确识别自然语言中实体间的语言关系，RE可将散乱的非结构化数据转换为易于理解的结构化知识，在海量信息处理、智能检索、知识问答与知识图谱构建等重要领域中均做出了卓越贡献，并逐渐成为众多研究者所关注的热点，在信息理解会议(Message Understanding Conference,MUC)及自动内容抽取(Automatic Content Extraction,ACE)测评等会议的推动下，多种RE方法被提出极大地促进了关系抽取技术的发展。

目前针对关系抽取已经有很多方法和技术，可以从不同维度进行划分，例如，从模型上的特点来看，可以分为基于规则的方法，基于传统机器学习的方法和基于深度学习的方法，从监督知识的依赖程度来看，实体关系抽取方法可以分为有监督学习方法、半监督学习方法和无监督学习方法；根据领域相关性，可以分为特定领域的关系抽取和开放领域的关系抽取，本发明是面向非结构化文本数据的关系抽取，在早期，基于有监督的方法是在正确的标注数据集上来进行关系抽取的，因此数据量很小；基于无监督的方法虽然可以在大规模数据集上进行关系抽取，不需要标注数据集，但是聚类的阈值比较难以确定，因此，随着大数据技术的发展，研究者开始考虑研究如何在大数据集上进行关系抽取，对于大数据集，基于远程监督(Distant Supervision)学习的关系抽取方法已经成为近两年的研究热点，远程监督的实体关系抽取方法不需要手动标记的种子和规则，但是需要外部知识库。

与传统有监督的实体关系抽取方法相比，基于远程监督的方法避免了训练语料数据集缺乏的问题，因此受到了广泛关注，然而，远程监督方法由于在构建语料过程中不可避免的会引入错误标签，性能将会受到极大影响。

发明内容

针对上述现有技术的不足，本专利申请所要解决的技术问题是：如何提供一种能够解决语料匮乏问题、标注质量高、错误少的大规模非结构化文本数据的远程监督关系抽取方法。

为了实现上述目的，本发明采用了如下技术方案：

一种大规模非结构化文本数据的远程监督关系抽取方法，包括以下步骤：

S1：对实体关系进行语料标注；

S2：对文本进行词向量和位置向量进行映射；

S3：引入软标签思想，利用深度残差卷积神经网络加入门控机制提取句子的语义特征；

S4：利用多实例Attention机制计算实例与对应关系的相关性。

优选的，步骤S1中，进行语料标注的具体步骤为:

A1：进行关系语料预处理，主要通过手动构建少量关系实体对，以确定关系类型；

A2：构建关系实例集，具体通过人工构建的实体对与量非结构文本数据进行匹配，从而建立关系实例集。

优选的，步骤S2的具体操作步骤包括:

B1：采用自然语言处理工具对文本数据进行分句和分词操作；

B2：将句子中的每一个单词映射到一个低维实值向量空间中，然后对句子进行词向量处理，得到句子中的每一个单词的向量表示；

B3：将句子中的每一个单词到两个实体的相对位置作为特征，并映射为位置向量；

B4：将训练数据句子中每一个单词利用预训练好的词向量和位置向量进行映射。

优选的，步骤S3中的具体操作步骤为：

C1：将句子X＝{x₁,x₂,…x_n}作为卷积层的输入，提取该句子的语义特征c∈R^n-k+1，其中，n表示句子X中包含的单词个数，k为卷积核的大小；

C2:定义多个卷积核，卷积核参数是由m个二维矩阵构成的向量W'＝{W₁,W₂,…W_m}，通过卷积后得到的卷积特征向量为c_i＝{c_i,1,c_i,2,…c_i,n-k+1}；

C3:在门控机制内引入软标签的思想，弱化硬标签对噪声过滤的影响，门控机制模块连接着两个卷积网络，一个为原始CNN，另一个带有标签特征，使用两个实体间的双线性变换结果作为实体对＜e_i,e_j＞之间的关系标签；

C4:引入残差学习，设计一个残差卷积块，每个残差卷积块是两个卷积层构成的序列，每个卷积层后使用ReLU激活函数进行非线性映射，引入残差学习，得到输出特征向量c；

C5:基于分段最大池化进一步提取语义特征中最具有代表性的局部特征，为捕获句子不同结构的特征信息，将特征向量c被分成了三部分{c_i,1,c_i,2,c_i,3}，然后计算每一段中的最大值；

C6:拼接向量，将计算出的最大值拼接为一个向量p，并运用tanh函数计算，得到最终的特征向量。

优选的，步骤S4的具体操作步骤为：

D1：构建实体关系实例集合，根据文本句子是否同时包含实体e_i和实体e_j，如果同时包含，则假设该句子是描述了e_i和e_j的关系r的一个具体样本，将出现e_i和e_j的句子样本集合用一个包表示，每一个包表示一个实体关系实例集合；

D2：基于注意力机制计算实例向量的权重，对于描述同一实体对＜e_i,e_j＞的实例集合S＝(g₁,g₂,g₃,…g_n)，其中g_i为卷积层输出的实例向量，n为集合S中所包含实例的数量，利用注意力机制计算实例向量g_i与关系r之间的相关性，即g_i的权重a_i。

有益效果

(1)本发明从基对实体关系抽取进行研究，提出了面向大规模非结构化文件数据的关系抽取方法。在该方法中，针对训练语料数据集匮乏，采用远程监督的方式对关系语料进行标注，避免了人工在构建数据集上花费的时间与精力；

(2)本发明在构建语料过程中不可避免的会引入错误标签基础上，通过深度残差卷积神经网络和门控机制引入弱标签的思想，缓解了在训练过程中噪声数据带来的影响，提高了关系抽取的准确率。

附图说明：

图1为本发明所述一种大规模非结构化文本数据的远程监督关系抽取方法算法流程图；

图2为本发明的远程监督关系抽取模型图；

图3为本发明的位置向量化；

图4为本发明的残差学习单元。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。

实施例1：

参照图1，一种大规模非结构化文本数据的远程监督关系抽取方法，S1：对实体关系进行语料标注；

S2：对文本进行词向量和位置向量进行映射；

S4：利用多实例Attention机制计算实例与对应关系的相关性。

本实施例中，步骤S1中，进行语料标注的具体步骤为:

A2：构建关系实例集，具体通过人工构建的实体对与大量非结构文本数据进行匹配，从而建立关系实例集。

本实施例中，步骤S2的具体操作步骤包括:

本实施例中，步骤S3中的具体操作步骤为：

C1：将句子X＝{x₁,x₂,...x_n}作为卷积层的输入，提取该句子的语义特征c∈R^n-k+1，其中，n表示句子X中包含的单词个数，k为卷积核的大小；

本实施例中，步骤S4的具体操作步骤为：

实施例2:

参考图2-4所示：

(一)利用远程监督的方法构建了训练数据集，最终通过人工的标注实体对的方式，定义多种关系类型，并以这些关系实体对组成网络安全实体关系集合K。在得到关系实体对集合K后，从而构建关系实例集，将搜索引擎(例如维基百科)中的文本数据D与集合K中包含的实体对＜e_i,e_j＞进行匹配，自动获取D中包含的实体对＜e_i,e_j＞的句子，作为实体对＜e_i,e_j＞所对应的关系r的安全实体关系实例；但是，本发明基于远程监督的方式数据标注，假设性太强，不可避免的带来了很多噪声数据，例如含有中国和北京的句子全都是首都关系，比如说中国的面积比北京的面积大，就不是。这就说明远程监督的数据里存在大量的噪声，把真正含有指定关系的句子叫做实例，实际上不含任何关系的句子叫NA，其余的都是反例，这个噪声问题被叫做错误标签问题，这是本发明利用远程监督关系抽取的首要解决的问题。

(二)在关系语料数据集的基础上，本方案的输入训练语句的词向量表示是由预先训练词向量文件和位置向量映射拼接而成。

给定一个由n个单词组成的句子X＝{x₁,x₂,...x_n}，利用word2vec将每一个词映射到一个低维实值向量空间中，然后对句子进行词向量处理，最终得到句子中的每一单词的向量表示，从而组成词向量查询矩阵D^c，维度为d^c，每个输入的训练序列可由词向量查询矩阵D^c进行映射得到对应的实值向量x_t＝{w₁,w₂,…w_n}。

在关系抽取任务中，往往靠近实体的单词更加能够突显出两个实体之间的关系。本发明将当前词与实体e₁和实体e₂的相对距离拼接并通过映射将其转换成向量表示，如图2所示。在句子位置向量化中，若词向量的维度是d^c，位置向量的维度是d^p，则句子向量的维度如公式1所示。

d^s＝d^c+d^p*2

(三)在将输入训练语句中的单词用词向量和位置向量映射表示之后，引入软标签思想，利用深度残差卷积神经网络加入门控机制提取句子的语义特征；在关系抽取模型中，本发明将句子X＝{x₁,x₂,…x_n}作为卷积层的输入，其中n表示句子X中包含的单词个数，x_i＝{w₁,w₂,…w_n}表示其中第i个单词并且用x_i表示其向量，本发明首先定义了卷积核的高度为k，宽度为d，则卷积核为一个二维矩阵W，X_i,j＝[x_i,x_i+1,…x_j]为一个由x_i到x_j水平拼接矩阵，那么句子X和卷积核之间进行卷积运算会产生一个特征向量c∈R^n-k+1：

c_j＝f(W·X_j,j+k-1+b)

其中1≤j≤n-k+1，b为是偏置向量。

于传统的CNN模型，本发明对卷积层进行了改进，加入了门控机制，并在此基础上，引入了软标签的思想，使得模型可以更好地过滤词级别噪声，基于GTU和GLU的门控机制在语言模型中被广泛应用，且取得了良好效果，综合计算性能和有效性的考虑，本发明对基于GTU的门控机制进行了改进，将其命名为GAU(Gated Activation Units)模块，对应的运算结构为：

其中relu函数会根据自身的输出来限制tanh函数的输出，以达到过滤句内噪声的目的。

在基于硬标签的方法中，实体对的关系标签(无论它们是否正确)在训练期间是不可变的，这在一定程度上扩大了远程监督错误标注问题对模型性能产生的负面影响，针对于此，本发明在门控机制内引入了软标签策略，即训练时将标签替换为实体对之间的动态信息来指导特征过滤。

如图1所示，GAU模块连接着两个卷积网络(一个为原始CNN，另一个带有标签特征)，使用两个实体间的双线性变换结果l_relation＝e_iW_Be_j(W_B模型参数)作为实体对＜e_i,e_j＞之间的关系标签，指导模型在词级别上对不相关特征进行过滤，具体来说，通过以下方式获得特征：

c_GAU,j＝m_j×n_j

然而在实际实验中，为了获得更多的语义特征，会使用多个卷积核，卷积参数是由m个二维矩阵构成的向量W'＝{W₁,W₂,…W_m}，那么整个模型的卷积操作计算如下公式所示。

c_ij＝c_GAU,j＝m_i,j×n_i,j

其中1≤i≤m，1≤j≤n-k+1。经过以上运算，卷积层的整体输出结果

c_i＝{c_i,1,c_i,2,…c_i,n-k+1}

从图2可看出，本发明利用残差学习设计了一个残差卷积块，每个残差卷积块是两个卷积层构成的序列，每个卷积层后使用ReLU激活函数进行非线性映射，随后利用局部最大池化提取特征，残差卷积模块所有的卷积操作的核大小为k，通过边界填充(padding)操作保证新生成的特征与原始的大小一致，两层卷积的卷积核为W₁,W₂∈R^k*1，以下是残差卷积块中的第一层：

c_i,1＝f(W₁·c_i,i+k-1+b₁)

第二层：

c_i,2＝f(W₂·c_i,i+k-1+b₂)

其中b₁,b₂为偏置向量，引入残差学习单元进行优化，如图4所示，能够解决梯度消失和梯度爆炸问题，在训练更深的关系抽取模型同时又能够保证良好的性能。残差卷积块的输出向量c，这个操作是由快速连接(Shortcut Connection)和逐元素添加(Element-wise Addition)完成的，在本方案模型中多次拼接残差卷积块，

c＝c_i,1+c_i,2

在通过卷积层获取语义特征之后，利用池化层进一步提取语义特征中最具有代表性的局部特征，传统的卷积神经网络方法在池化计算时，往往是在第i个卷积向量c_i中取一个最大值代表该卷积向量的最显著特征，但是这种传统的最大池化不适用于关系抽取，它过快地减少了隐藏层的大小，并且太粗糙而无法捕获用于关系提取的细粒度特征，由于本发明是针对网络安全实体关系，数据中的句子既有英文实体又有中文实体，具有一定句子结构，因此，本发明提出了一个分段最大池化(Piecewise Max Pooling)过程，它返回每个段中的最大值而不是单个最大值。为了捕获句子不同结构的特征信息，本方案将输入的句子基于所选实体分成三段，然后在每一段中取最大，如图2所示，将通过残差卷积快获得的卷积向量c被分成了三部分{c_i,1,c_i,2,c_i,3}，然后计算每一段中的最大值：

p_i,j＝max(c_i,j)

其中1≤i≤m,1≤j≤3，然后对所有的卷积向量都进行相同的操作，将计算出的最大值拼接为一个向量p＝{p_i,1,p_i,2,p_i,3}，然后连接所有向量p并应用非线性函数，例如双曲正切，最后，分段最大池输出一个向量如公式所示：

g＝tanh(p)

其中g∈R^3*m，g为最终得到的向量，作为当前句子的特征表示。

(四)使用多个实例上构建句子级别的注意力，期望动态地减少那些有噪声的实例的权重，充分利用这些句子中的语义信息得到最终的句子向量表示。

对于描述同一实体对＜e_i,e_j＞的实例集合S＝(g₁,g₂,g₃,…g_n)，其中g_i为卷积层输出的实例向量，n为集合S中所包含实例的数量，本发明将计算实例向量g_i与关系r之间的相关程度，为降低噪声数据的影响并充分利用集合中每个实例所包含的语义信息，实例集合向量S的计算将依赖于集合中的每个实例g_i：

其中a_i是输入的实例向量g_i的权重，衡量了所对应的关系r的相关性。α_i的计算公式如下：

其中e_i被称为基于查询的函数，表示对输入实例向量g_i和预测关系r的匹配程度进行评分，本发明选择了双线性形式，在不同的替代方案中获得了最好的性能:

e_i＝g_iAR

其中A为加权对角矩阵，R表示关系r对应的向量表示，然后在通过softmax函数计算预测关系的条件概率p(R|S)：

其中

为关系矩阵，b表示偏置向量。最后使用预测最终的关系：

实施例3：

为了验证本方案的有效性，本方案在实验中用到两个数据集，通用数据集NYT以及本发明标注的实体关系数据集，NYT中有53种关系，训练数据包含522611个句子，281270个实体对，测试集包含172448个句子，96678个实体对，第二个数据集是网络安全实体关系数据集，本方案基于远程监督的方式标记关系语料，最终获得实体关系实例70000条，共标注了7关系种类，本方案随机选取了55000个句子作为训练数据，其中包含了12000个实体对，选取15000条句子作为测试数据，其中包含了3000个实体对。

(1)不同模型对比实验

本方案对比实验主要是对比算法模型的两个方面，一方面是采用不同性能的CNN算法对训练数据进行编码，提取句子中的语义特征，主要包括传统PCNN、ResPCNN、GAU-ResPCNN三种算法；第二个方面是在PCNN/ResPCNN/GAU-ResPCNN的基础之上，如何使用bag中的信息进行实验对比，本发明采用不同3种方式对bag中的信息进行处理，分别是AVE、ONE以及ATT。AVE就是将包中同对实体对的所有句子的权重都看做一样的，即

ONE表示取置信度最高的一个实例向量，从每个bag中找一个得分最高的句子来表示整个bag。本发明所有的模型都在NYT数据集和标注的关系数据集上进行训练并测试，实验结果表明，本发明提出的模型关系抽取准备率高于其它模型。

1)模型深度对比实验

为了进一步验证本发明提出的关系抽取模型，本发明通过增加GAU-ResPCNN-ATT模型的深度，验证引入残差学习的有效性，设计了在不同层数的卷积层的对比实验。本发明通过增加残差卷积块的个数，从而增加卷积层的层数，并且在NYT数据集和NSER数据集上进行实验对比。实验结果表明，NYT数据集在GAU-ResPCNN-ATT层数为9和标注的关系数据集在ResPCNN-ATT层数为4的时候，关系抽取性能最好，由于标注的关系数据集数据量不大，所以在训练时，模型的深度不会太深

有益效果

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种大规模非结构化文本数据的远程监督关系抽取方法，其特征在于：包括以下步骤：

S1：对实体关系进行语料标注；

S2：对文本进行词向量和位置向量进行映射；

S4：利用多实例Attention机制计算实例与对应关系的相关性。

2.根据权利要求1所述的一种大规模非结构化文本数据的远程监督关系抽取方法，其特征在于，步骤S1中，进行语料标注的具体步骤为:

3.根据权利要求2所述的一种大规模非结构化文本数据的远程监督关系抽取方法，其特征在于，步骤S2的具体操作步骤包括:

4.根据权利要求3所述的一种大规模非结构化文本数据的远程监督关系抽取方法，其特征在于，步骤S3中的具体操作步骤为：

5.根据权利要求4所述的一种大规模非结构化文本数据的远程监督关系抽取方法，其特征在于，步骤S4的具体操作步骤为：