CN110555084B

CN110555084B - 基于pcnn和多层注意力的远程监督关系分类方法

Info

Publication number: CN110555084B
Application number: CN201910792860.6A
Authority: CN
Inventors: 廖伟智; 叶光磊; 马亚恒; 左东舟
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2023-01-24
Anticipated expiration: 2039-08-26
Also published as: CN110555084A

Abstract

本发明涉及一种基于PCNN和多层注意力的远程监督关系分类方法，属于信息技术领域；包括两个阶段，训练关系分类模型阶段和预测阶段；其中，训练关系分类模型阶段又包括：1)对关系分类模型的训练语料进行预处理；2)建立基于PCNN和Multi‑level attention的关系分类模型，并训练模型参数；3)训练模型，优化模型参数；4)将训练好的关系分类模型保存；预测阶段为使用训练好的关系分类模型，对待预测的数据进行关系类别预测。本发明提出的算法能更精确的确定句子中实体之间的关系类型，为一些下游工作提供了一个良好的基础；既减少了许多数据标注的人力，又具备了较高的精确度。

Description

基于PCNN和多层注意力的远程监督关系分类方法

技术领域

本发明涉及信息技术领域，具体的涉及一种基于PCNN和多层注意力的远程监督关系分类方法。

背景技术

传统的关系分类方法可以分为基于规则的关系分类的方法，基于传统机器学习的关系分类的方法，基于全监督的深度学习关系分类方法以及基于远程监督的深度学习关系分类方法。基于规则的关系分类的方法，其原理是利用手工编写的规则，将文本与规则进行匹配来进行关系分类。例如，founded(PERSON，ORGANIZATION)模式，在文中如果含有PERSON和ORGANIZATION，认为两个实体之间的关系为founded关系。基于传统机器学习的关系分类的方法，例如基于CRF(条件随机场)的关系分类的方法、基于核函数的关系分类的方法等，这类方法的原理是通过人工构建特征模板提取特征作为输入，训练一个分类器，预测数据的关系标签。基于全监督的深度学习关系分类方法，模型通常有CNN/RNN+attention，其原理是输入层主要输入word embedding+position embedding，通过CNN/RNN提取特征，输出特征与关系类别向量做点积求相似度，作为关系分类的结果。基于远程监督的深度学习关系分类方法，其原理是利用知识图谱中的两个entity以及对应的某个relation，在corpus中进行回标，如果某个句子中同时包含了两个entity，那么就假定这个句子包含了上述的relation。

但是上述分类方法都存在这一定的缺陷，例如：

1.基于规则的关系分类方法

在构建规则的过程中往往需要大量的语言学知识，特定领域的规则需要专家构建；还要考虑周全所有可能的规则，各规则之间可能存在冲突；构建规则的过程费时费力、可移植性不好。

2.基于传统机器学习关系分类方法

需要人工设计特征模板，非常耗时耗力，模板如果设计的不够精细将会产生误差，并向下传播、积累，对下游的工作产生影响。

3.基于全监督的深度学习关系分类方法

数据集过于封闭，可以用的数据仅仅是人工标注的数据，数据量较少，不能很好的对模型进行训练。

4.基于远程监督的深度学习关系分类方法

假设性太强，会引入很多噪音数据，例如包含两个entity的句子不一定可以刻画对应的relation，例如：乔布斯是苹果的创始人，和乔布斯吃了一个苹果，表达的完全不是一个关系。

因此，需要一种更加有效且分类准确性更高的分类方法。

发明内容

为解决是上述问题，本发明的目的在于提供一种新的关系分类方法，能够有效的提高关系分类的准确性。

为达到上述目的，本发明的的技术方案为：一种基于PCNN和多层注意力的远程监督关系分类方法，即基于PCNN和Multi-level attention的远程监督关系分类方法，包括两个阶段，训练关系分类模型阶段和预测阶段；

其中，训练关系分类模型阶段又包括：

1)对关系分类模型的训练语料进行预处理；

2)建立基于PCNN和Multi-level attention的关系分类模型，并训练模型参数；

3)训练模型，优化模型参数；

4)将训练好的关系分类模型保存；

预测阶段为使用训练好的关系分类模型，对待预测的数据进行关系类别预测。

进一步的，所述训练关系分类模型阶段的步骤1)包括以下步骤：

(1)将原始语料数据OrgData转换为字符级的语料数据NewData；

(2)统计NewData的字符，得到字符集合CharSet，将每个字符进行编号，得到字符集合对应字符编号集合CharID；

(3)将每个bag中的实体、关系、句子通过CharID进行转换，得到以ID形式表示的bag；

(4)得到每个bag的列表表示，其中bag包含的属性如下：bag＝[entities,num,sentences,positions,entitiesPos,masks]；

(5)得到每个bag的关系标签label，label以列表的形式表示；

(6)更新bag，为了方便后续运算，规定了句子长度为length，对于bag中句子长度不满足length长度的用0填充，同理对于positions和masks列表也进行填充；

(7)将训练语料分为Batch大小个bag，依次输入网络进行训练；

进一步的，所述训练关系分类模型阶段的步骤2)包括以下步骤：

(1)建立基于PCNN和Multi-level attention的关系分类模型；

(2)训练关系分类模型的参数。

进一步的，步骤(1)中基于PCNN和Multi-level attention的关系分类模型包括Embedding层、word level attention、PCNN层、sentence level attention、SoftMax层。

进一步的，所述Embedding层包括Word Embedings和Position Embeddings。

进一步的，所述预测阶段包括以下操作：

(1)计算句子中每个Word Embedings与关系类别的attention权重，得到句子的加权表示；

(2)通过PCNN依次提取bag中所有句子特征；

(3)计算bag中所有句子与关系类别的attention权重，得到bag的加权表示；

(4)通过公式：o＝Rb+q，计算得到o，o是n_r*1维度的向量，n_r是关系类型的数量；

(5)通过softmax函数计算最大关系类别对应的概率，即为对应关系r的预测概率。

进一步的，所述word level attention中，首先计算句子中每个词向量与bag的关系向量的相关性，公式如下：

M是在训练过程中学到的权重矩阵，r是关系向量，w_i为句子中的词向量，b是偏差，i表示索引，表示为句子中的第i个词；

然后通过softmax函数进行归一化，得到每个词向量权重，公式如下：

进而得到attention矩阵A，A＝diag(α₁，α₂，α₃.....α₄)，最终句子中的词向量可以表示为S和A的乘积：Q＝SA。

进一步的，所述PCNN层中，进行卷积操作，公式如下：

c_j＝wq_j-ω+1：j

W为卷积核W∈R^m(m＝ω*d)，j的范围为1到s+ω-1，s为句子中词向量个数，q_j-ω+1：j为卷积核所经过的第j-ω+1到j个词向量；

将卷积的输出结果进行分段池化，公式如下：

p_ij＝max(c_ij)1≤i≤n,1≤j≤3

i为卷积核的索引，表示通过使用第i个卷积得到的结果，j为句子的分段索引，表明句子的第j段；

得到池化输出后，将所有的池化结果进行拼接，得到最终的句子特征：p_1:n，进行激活，公式如下：

g＝tanh(p_1:n)

n代表n个卷积核，g的维数为3n，得到PCNN层最终的输出。

进一步的，所述sentence level attention中，经过attention之后，bag的向量表示形式为：

s_i表示句子向量，α_i为每个句子的权重，i为索引，α_i的计算方式如下：

e_i表示句子向量与关系向量的相关度，计算公式如下：

e_i＝s_iA r

A为权重对角矩阵，可通过学习过程中获得；s_i为句子向量，r为关系向量。

进一步的，所述SoftMax层最终定义归一化概率函数：

r n_r代表关系类型总数，θ代表模型的所有参数，o是神经网络的最终输出，为列向量，其中每一项代表相应关系的预测分数，模型训练通过最大化对数似然函数，公式如下：

N表示bag总数，θ表示模型的所有参数，r_i,b_i表示训练模型是给的训练样本(r_i,b_i)，r_i表示bag的标签关系向量r_i，b_i表示bag向量。

与现有技术相比，本发明的有益效果为：

1、本发明提出的改进的深度学习算法改进了关系分类的精度，本发明提出的算法不需要人工提取特征，通过PCNN自动获取特征，既减少了许多数据标注的人力，又具备了较高的精确度。

2、通过PCNN和Multi-level attention，可以同时考虑每个词和每个句子对于关系分类的贡献，提高了识别精度，更加充分利用了句子信息。

3、采用了多示例学习方式，降低了训练数据的噪音。

4、本发明提出的算法能更精确的确定句子中实体之间的关系类型，为一些下游工作，比如：知识图谱、问答系统、语义搜索、机器翻译等，提供了一个良好的基础。

5、本发明提出的关系分类方法，既减少了许多数据标注的人力，又具备了较高的精确度。

附图说明

图1本发明关系分类方法流程图；

图2本发明PCNN模型图；

图3本发明的关系分类模型图；

图4本发明关系分类网络图；

具体实施方式

下面将结合附图和具体实施方式对本发明技术方案作更进一步的描述。

如图1所示，一种基于PCNN和Multi-level attention的多示例学习远程监督关系分类方法，包括两个阶段，训练关系分类模型阶段和预测阶段；

(一)训练关系分类模型阶段

步骤1：对关系分类模型的训练语料进行预处理

(1)将原始语料数据OrgData转换为字符级的语料数据NewData；

(4)得到每个bag的列表表示，其中bag包含的属性如下：

bag＝[entities,num,sentences,positions,entitiesPos,masks]

entities：句子中实体1，实体2对应的ID。

num：每个bag中包含的句子个数。

sentences：bag中所有以ID形式表示的句子。

positions：句子中每个word到实体1和实体2的相对距离，positions列表包含两个子列表，分别为pf1，pf2。

entitiesPos：句子中实体1、实体2的绝对位置。

masks：分别以实体1，实体2为边界，将句子分为三段，句子开头到实体1的部分为segment1，实体1到实体2的部分为segment2，实体2到句子结尾为segment3。

(5)得到每个bag的关系标签label，label以列表的形式表示；

例：“知识表示是人工智能领域的核心研究方向之一”

句子中包含了两个实体，实体1：“知识表示”，ID：1；

实体2：“人工智能”，ID：2；

关系：“研究方向”,ID:8；

entities：[1,2]

num：1

sentences：[1,10,2,3,7,5,8,12,18]

positions：[[0,1,2,3,4,5,6,7,8],[-2,-1,0,1,2,3,4,5,6]]

entitiesPos：[1,3]

masks：[1,2,2,3,3,3,3,3,3]

bag＝[[1,2],1,[1,10,2,3,7,5,8,12,18],[[0,1,2,3,4,5,6,7,8],[-2,-1,0,1,2,3,4,5,6]],[1,3],[1,2,2,3,3,3,3,3,3]]

Label＝[8]

(7)将训练语料分为Batch大小个bag，依次输入网络进行训练；

步骤2：建立基于PCNN和Multi-level attention的关系分类模型，并训练模型参数

(1)建立基于PCNN和Multi-level attention的关系分类模型，如图3所示：

1)Embedding层：用于将输入的字符数据转换为向量；

2)word level attention：用于计算每个word与relation的相关程度；

3)PCNN层：用于自动获取句子的特征；

4)sentence level attention：用于计算bag中每个sentence与relation相关程度；

5)SoftMax层：用于预测句子的关系类别。

下面逐一介绍各个层：

1)Embedding层

Word Embedings：根据句子中每个词的ID，将词转换成对应词向量；

Position Embeddings：在关系分类过程中，认为距离实体越近的词对于确定关系类型有较大贡献，因此根据每个词到两个实体的距离，定义位置向量。例如在句子“...hired Kojo Annan,the son of Kofi Annan,in...”中，son与实体1：Kojo Annan的距离为3，实体2：Kofi Annan的距离为-2，得到两个距离ID，进而将距离ID转换为的位置向量[pf1,pf2]；最终得到的向量为词向量与位置向量的串联，维数为d＝d_w+d_p*2，d_w为词向量的维数，d_p为位置向量的维数，将最终向量输入到神经网络进行训练。

2)Word level attention

Attention机制的本质是从人类视觉注意力机制中获得灵感，当人们在通过视觉感知东西的时候，往往是根据需求观察注意特定的一部分，当发现自己想观察的目标时，就会将更多的注意力放在上面；同理，在关系分类中，由于在句子中每个词对于关系的贡献大小不同，因此使用注意力机制，加强关注句子中对于关系分类更重要的词。

本文中，输入句子S＝{w₁,w₂,w₃...w_n}，首先计算句子中每个词向量与bag的关系向量的相关性，公式如下：

M是在训练过程中学到的权重矩阵，r是关系向量，w_i为句子中的词向量，b是偏差，i表示索引，表示为句子中的第i个词，接下来通过softmax函数进行归一化，得到每个词向量权重，公式如下：

进而得到attention矩阵A，A＝diag(α₁，α₂，α₃.....α₄)，最终句子中的词向量可以表示为S和A的乘积：Q＝SA；

3)PCNN层

PCNN是CNN的一个改进，全称为Piecewise Convolutional Neural Networks，主要的变化是对卷积之后的输出结果进行分段池化，目的是为了更加充分捕获句子信息，

当输入bag中一个句子时，Q＝{q₁,q₂,q₃...q_s}，q_i表示经过Word level attention之后的词向量，下标i代表第i个词，Q表示一个句子。

接下来进行卷积操作，公式如下：

c_j＝wq_j-ω+1：j

将卷积的输出结果进行分段池化，根据图2，以实体1，实体2为分界点，分成三段{c_i1,c_i2,c_i3}，第一段为句子开头到第一个实体之间的部分，第二段为第一个实体与第二个实体之间的部分，第三段为第二个实体到句子末尾部分，通过利用最大池化操作，对每一段进行池化，公式如下：

p_ij＝max(c_ij)1≤i≤n,1≤j≤3

得到池化输出后，将三段池化结果进行拼接：p_i＝{p_i1,p_i2,p_i3}，得到一个卷积核对应的池化结果，将所有的池化结果进行拼接，得到最终的句子特征：p_1:n，n代表n个卷积核；

将p_1:n传入tanh()激活函数，进行激活，公式如下：

g＝tanh(p_1:n)

g的维数为3n，得到PCNN层最终的输出。

4)sentence level attention

bag中的每个句子对于语义关系信息表达有不同贡献，因此给每个句子分配不同的权重，对语义关系信息表达贡献越大分配的权重越大，用B表示拥有n个句子的bag，B＝{s₁,s₁,...,s_n}，s_i表示经过PCNN输出的句子向量，i为索引，表示bag中第i个句子，经过attention之后，bag的向量表示形式为：

e_i表示句子向量与关系向量的相关度，计算公式如下：

e_i＝s_iAr

5)SoftMax层

最终定义归一化概率函数：

r代表关系向量r，n_r代表关系类型总数，b代表bag向量，θ代表模型的所有参数，o是神经网络的最终输出，为列向量，其中每一项代表相应关系的预测分数，例如：o_r表示关系类型r对应的分数，o的计算方式如下：

o＝Rb+q

q为偏差向量，维数为n_r，R为关系表示矩阵，b为bag向量。模型训练通过最大化对数似然函数，公式如下：

N表示bag总数，θ表示模型的所有参数，r_i表示bag的标签关系向量，b_i表示bag向量。

(2)训练关系分类模型的参数

将步骤1中得到的数据update_bag作为模型的输入，然后采用Adam(自适应矩估计)训练该模型的参数，当模型产生的损失值满足设定要求或者达到最大迭代次数N，则终止该模型的训练；

(二)预测阶段

如图4所示，在预测过程中，对每个关系分别执行下面操作：

(2)通过PCNN依次提取bag中所有句子特征；

(5)通过softmax函数计算最大关系类别对应的概率，即为对应关系r的预测概率；

遍历完所有的关系类型之后，得到每个关系对应的概率，选取概率最大的即为预测的关系。

以上所述仅为本发明较佳的实施例，本发明的保护范围并非仅限于此，任何不经过创造性劳动的变化和替换，均应涵盖在本发明的保护范围之类，因此，本发明的保护范围应以权利要求所限定的范围为准。

Claims

1.一种基于PCNN和多层注意力的远程监督关系分类方法，其特征在于：包括两个阶段，训练关系分类模型阶段和预测阶段；

其中，训练关系分类模型阶段又包括：

1)对关系分类模型的训练语料进行预处理；

2)建立基于脉冲耦合神经网络PCNN和多层注意力Multi-level attention的关系分类模型，并训练模型参数；

3)训练模型，优化模型参数；

4)将训练好的关系分类模型保存；

预测阶段为使用训练好的关系分类模型，对待预测的数据进行关系类别预测；

所述训练关系分类模型阶段的步骤1)包括以下步骤：

(1)将原始语料数据OrgData转换为字符级的语料数据NewData；

(3)将每个包bag中的实体、关系、句子通过CharID进行转换，得到以ID形式表示的bag；

(5)得到每个bag的关系标签label，label以列表的形式表示；

(6)更新bag，为了方便后续运算，规定了句子长度为length，对于bag中句子长度不满足length长度的用0填充，同理对于positions 和masks列表也进行填充；

(7)将训练语料分为批Batch大小个bag，依次输入网络进行训练；

所述训练关系分类模型阶段的步骤2)包括以下步骤：

(1)建立基于PCNN和Multi-level attention的关系分类模型；

(2)训练关系分类模型的参数；

步骤(1)中的关系分类模型包括Embedding层、word level attention、PCNN层、sentence level attention、SoftMax层；

所述Embedding层包括Word Embeddings和Position Embeddings；

所述预测阶段包括以下操作：

(1)计算句子中每个Word Embeddings与关系类别的注意力权重，得到句子的加权表示；

(2)通过PCNN依次提取bag中所有句子特征；

(3)计算bag中所有句子与关系类别的注意力权重，得到bag的加权表示；

2.根据权利要求1所述的方法，其特征在于：所述word level attention中，首先计算句子中每个词向量与bag的关系向量的相关性，公式如下：

进而得到注意力矩阵A，

A＝diag(α₁，α₂，α₃，…， α₄)，

最终句子向量表示为S和A的乘积：Q＝SA。

3.根据权利要求1所述的方法，其特征在于：所述PCNN层中，进行卷积操作，公式如下：

C_j＝wq_j-ω+1:j

W为卷积核W∈R^m， m ＝ω *d ，j的范围为1到s+ω-1，s为句子中词向量个数，q_j-ω+1：j为卷积核所经过的第j-ω+1到j个词向量；

将卷积的输出结果进行分段池化，公式如下：

p_ij＝max(c_ij) 1≤i≤n,1≤j≤3

得到池化输出后，将所有的池化结果进行拼接，得到最终的句子特征：p_1:n，接下来使用激活函数进行激活，公式如下：

g＝tanh(p₁:n)

n代表n个卷积核，g的维数为3n，得到PCNN层最终的输出。

4.根据权利要求1所述的方法，其特征在于：所述sentence level attention中，经过注意力之后，bag的向量表示形式为：

e_i表示句子向量与关系向量的相关度，计算公式如下：

e_i＝s_iAr

A为权重对角矩阵，通过学习过程中获得；s_i为句子向量，r为关系向量。

5.根据权利要求1所述的方法，其特征在于：所述SoftMax层最终定义为归一化概率函数：

n_r代表关系类型总数，θ代表模型的所有参数，o是神经网络的最终输出，o为列向量，其中每一项代表相应关系的预测分数，模型通过最大化对数似然函数进行训练，公式如下：