CN111881687B

CN111881687B - 一种基于上下文编码和多层感知机的关系抽取方法及装置

Info

Publication number: CN111881687B
Application number: CN202010765659.1A
Authority: CN
Inventors: 王功明; 谢超; 张娴; 周庆勇; 孙思清
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2024-02-20
Anticipated expiration: 2040-08-03
Also published as: CN111881687A

Abstract

本发明明提供一种基于上下文编码和多层感知机的关系抽取方法及装置，属于关系抽取技术领域，本发明包括以下步骤：S1：提取实体对的上下文编码信息；S2：生成实体关系的编码信息；S3：训练基于多层感知机的关系分类模型；S4：使用模型抽取待处理文本的关系。本发明的理论基础是两个实体之间的关系类型依赖于实体所在的上下文环境，尤其是实体两侧近邻要素的语义特征，如果能够提取实体对所在上下文环境的语义特征，可以提高关系(尤其是多义关系)抽取的准确性。相比其它关系抽取方法，本发明能够更好地描述实体对的上下文环境信息，提高关系抽取的准确率。

Description

一种基于上下文编码和多层感知机的关系抽取方法及装置

技术领域

本发明涉及命名实体识别、关系抽取、上下文编码、多层感知机等技术，尤其涉及一种基于上下文编码和多层感知机的关系抽取方法及装置。

背景技术

关系是描述实体对之间语义联系的三元组，其形式是(A，ɑ，B)，其中A、B是实体，ɑ是实体间的语义联系。关系大量存在于自然文本中，例如：句子“M国总统A来到C国”中包含关系(M国，总统，A)和(A，来到，C国)。关系抽取是信息抽取领域的重要研究内容，可以建立不同实体间的依赖类型，将非结构化文本转化为结构化或半结构化知识，形成由知识构成的关系网络，用于智能问答、语义搜索、社团发现等智能型服务。

目前，常用的关系抽取方法包括下述三种：

(1)规则模板法

通过分析句式特点，设计若干模板(正则表达式)，使用模板在文本中匹配出关系三元组。这种方法需要构建庞大的模板库，早期由专家手工写出模板，人力耗费极大；近年来开始采用自动化方式生成模板，最常用的是Bootstrapping算法，根据最初几个实例从文本中提取种子模板，然后将进一步应用于文本，获得新的实例，重复上述过程，获得更多的模板。Bootstrapping算法的基础是多次重复抽样，如果初始实例质量不佳，提取出的种子模板适用面窄，在后继迭代(重复抽样)中容易陷入局部收敛，缺乏扩展性和普适性；此外，在模板扩增的过程中，会产生适用面窄、不正确或彼此冲突(对于同一句话的相同实体，得到彼此矛盾的关系)的新模板，影响关系抽取的准确性。

(2)依存分析法

对文本进行句法或语法分析，根据关系三元组各个元素在句中的依存关系(如主谓、动宾、动补、定中、介宾等)，确定对应的抽取规范。该方法与规则模板法类似，但处理对象是文本的句法或语法分析结果，要综合多条规则进行抽取，而不是使用模板直接匹配。该方法在句法或语法层进行处理，抽取结果能够更准确揭示实体间的语义联系。但是，依存关系种类有限，导致可用的抽取规则数量不多；此外，不同树库(或相同树库的不同版本)的依存关系定义和符号均有差异，更换树库类型或版本后，原有的关系抽取规则会失去效果；上述问题，影响该方法的普适性。

(3)机器学习法

该方法把关系抽取任务当作分类训练问题。首先，对句子进行词法和句法分析，得到每个实体的平面特征和句法特征；然后，综合平面特征和句法特征，以及语义角色标注特征，生成完整的关系特征；最后，根据关系特征和已标注的特征标签，采用合适的方法(LR、SVM、CRF等)进行训练，从而得到不同关系的生成模型。该方法具有自学习能力，不受模板库范围、种子模板质量、句法库规模、依存关系定义符号等限制，可以解决规则模板法和依存分析法存在的问题。但是，两个实体之间的关系类型依赖于实体所在的上下文环境，尤其是实体两侧近邻要素的语义特征，对于两个相同的实体，在不同的语境中会存在不同的关系类型。例如：“苹果公司是M国高科技企业的代表”中实体“苹果”和“M国”的关系是“企业”，而“苹果是M国对外出口的重要农产品”中实体“苹果”和“M国”的关系是“农产品”。常用的平面特征、句法特征和语义角色标注特征仅是实体本身的特征，不能很好地反映实体所在上下文环境的特征，会影响关系(尤其是多义关系)抽取的准确性。

发明内容

为了解决以上技术问题，本发明提供了一种基于上下文编码和多层感知机的关系抽取方法。

本发明的技术方案是：

一种基于上下文编码和多层感知机的关系抽取方法，包括以下步骤：

S1：提取实体对的上下文编码信息；

S2：生成实体关系的编码信息；

S3：训练基于多层感知机的关系分类模型；

S4：使用模型抽取待处理文本的关系。

进一步的，

所述步骤S1中，实体对的上下文建模如下：

用(W_A,W_B)表示句子S中任意两个实体W_A和W_B构成实体对，这两个实体将句子S划分为三部分：W_A和W_B之间的子句S_{AB_In}、W_A外侧的子句S_{A_Out}、W_B外侧的子句S_{B_Out}，W_A两侧的词汇是W_{A_Pre}和W_{A_Aft}，词性表示为S_{A_Pre}和S_{A_Aft}，W_B两侧的词汇是W_{B_Pre}和W_{B_Aft}，词性表示为S_{B_Pre}和S_{B_Aft}，W_A和W_B的实体标签分别为L_A和L_B，上述描述构成实体对(W_A,W_B)的上下文。

所述步骤S1具体包括：

S11：生成词汇的向量化编码；所述步骤S11具体包括：

S111：计算词汇W_{A_Pre}、W_A、W_{A_Aft}、W_{B_Pre}、W_B、W_{B_Aft}的词嵌入E_{WA_Pre}、E_WA、E_{WA_Aft}、E_{WB_Pre}、E_WB、E_{WB_Aft}；

S112：拼接词嵌入结果，得到词汇的向量化编码E_W＝[E_{WA_Pre},E_WA,E_{WA_Aft},E_{WB_Pre},E_WB,E_{WB_Aft}]。

S12：生成词性的向量化编码；所述步骤S12具体包括：

S121：计算词性S_{A_Pre}、S_{A_Aft}、S_{B_Pre}和S_{B_Aft}的词性嵌入E_{SA_Pre}、E_{SA_Aft}、E_{SB_Pre}、E_{SB_Aft}；

S122：拼接词性嵌入结果，得到词性的向量化编码E_S＝[E_{SA_Pre},E_{SA_Aft},E_{SB_Pre},E_{SB_Aft}]。

S13：生成实体标签的向量化编码；所述步骤S13具体包括：

S131：计算实体标签L_A和L_B的标签嵌入E_LA和E_LB；

S132：拼接标签嵌入结果，得到实体标签的向量化编码E_L＝[E_LA,E_LB]。

S14：合成上下文的向量化编码。

进一步的，

所述步骤S2中，实体关系的编码信息是采用One-Hot编码表示实体之间的关系类型，即用长度为k的向量RVec_i表示关系R_i，i∈[1,k]，在RVec_i中，除了第i位是1外，其它位均为0。

进一步的，

所述步骤S3具体包括：

S31：初始化多层感知机参数；

S32：将所有实体对的上下文编码信息送入多层感知机输入层；

S33：将所有实体对的关系编码信息送入多层感知机输出层；

S34：根据收敛条件训练多层感知机模型；

S35：返回多层感知机模型权重。

进一步的，

用E₁、E₂、……、E_n表示待处理文本中的实体，所述步骤S4具体包括：

S41：初始化i＝1，j＝2；

S42：读取实体E_i和E_j；

S43：计算实体对(E_i,E_j)的上下文编码信息E_WSL；

S44：将上下文编码信息E_WSL送入多层感知机的输入层；

S45：运行多层感知机，获取输出层信息；

S46：根据输出层结果确定关系类型；

S47：j＝j+1；

S48：如果j>n，那么转S4A，否则转S49；

S49：读取实体E_j，转S43；

S4A：i＝i+1，j＝i+1；

S4B：如果i>＝n，转S4C，否则转S42；

S4C：返回待处理文本的关系。

此外，本发明还提供了一种基于上下文编码和多层感知机的关系抽取装置，包括：

实体对上下文编码部件M1，用于获取实体对的上下文编码信息；

实体关系编码部件M2，用于采用One-Hot编码表示实体之间的关系类型；

关系分类模型训练部件M3，用于训练基于多层感知机的关系分类模型；

关系分类模型应用部件M4，用于使用模型提取待处理文本中实体之间的关系类型。

进一步的，

所述实体对上下文编码部件M1，具体包括：

词汇向量化编码部件M11，用于生成实体对上下文中各个词汇的向量化编码信息；

词性向量化编码部件M12，用于生成实体两侧词汇词性的向量化编码信息；

实体标签向量化编码部件M13，用于生成实体标签的向量化编码信息；

实体对上下文编码合成部件M14，用于根据词汇/词性/实体标签向量化编码信息生成实体对的上下文编码信息。

进一步的，

所述关系分类模型训练部件M3，具体包括：

参数初始化部件M31，用于设置多层感知机模型的初始化参数；

输入层设置部件M32，用于将所有实体对的上下文编码信息送入多层感知机输入层；

输出层设置部件M33，用于将所有实体对的关系编码信息送入多层感知机输出层；

训练收敛部件M34，根据收敛条件训练多层感知机模型。

本发明的有益效果是

根据实体对所在上下文环境进行向量化编码，可以更好地描述实体对的上下文环境信息，提高关系抽取的准确率。从词汇、词性、实体标签三个方面对实体对上下文环境进行向量化编码，融合成实体对的上下文编码，采用多层感知机训练关系类型判定模型；相比其它关系抽取方法，本发明根据实体对上下文环境的语义特征进行编码，能够提高关系抽取模型在歧义环境下的适用性。

附图说明

图1是本发明方法的步骤流程图；

图2是实体对(W_A,W_B)的上下文示意图；

图3是步骤S1的具体步骤流程图；

图4是步骤S3的具体步骤流程图；

图5是步骤S4的具体步骤流程图；

图6是本发明装置的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

两个实体之间的关系类型依赖于实体所在的上下文环境，尤其是实体两侧近邻要素的语义特征，如果能够提取实体对所在上下文环境的语义特征，可以提高关系(尤其是多义关系)抽取的准确性。

本发明通过以下方案实现：一种基于上下文编码和多层感知机的关系抽取方法，如图1所示，包括以下步骤：

S1：提取实体对的上下文编码信息；

用(W_A,W_B)表示句子S中任意两个实体W_A和W_B构成实体对，这两个实体将句子S划分为三部分：W_A和W_B之间的子句S_{AB_In}、W_A外侧的子句S_{A_Out}、W_B外侧的子句S_{B_Out}，W_A两侧的词汇是W_{A_Pre}和W_{A_Aft}，词性表示为S_{A_Pre}和S_{A_Aft}，W_B两侧的词汇是W_{B_Pre}和W_{B_Aft}，词性表示为S_{B_Pre}和S_{B_Aft}，W_A和W_B的实体标签分别为L_A和L_B，上述描述构成实体对(W_A,W_B)的上下文，如图2所示。

本步骤对实体对(W_A,W_B)上下文的词汇、词性、实体标签进行向量化，形成对应的上下文编码信息。进一步，如图3所示，所述步骤S1具体包括：

S11：生成词汇的向量化编码；

本步骤对实体对(W_A,W_B)上下文中各个词汇进行向量化，然后进行拼接，得到词汇的向量化编码。进一步，所述步骤S11具体包括：

S12：生成词性的向量化编码；

本步骤对实体W_A和W_B两侧词汇的词性进行向量化，然后进行拼接，得到词性的向量化编码。进一步，所述步骤S12具体包括：

S13：生成实体标签的向量化编码；

本步骤对实体W_A和W_B的实体标签进行向量化，然后进行拼接，得到标签的向量化编码。进一步，所述步骤S13具体包括：

S131：计算实体标签L_A和L_B的标签嵌入E_LA和E_LB；

S14：合成上下文的向量化编码。

本步骤拼接词汇、词性、实体标签的向量化编码，得到上下文的向量化编码E_WSL＝[E_W,E_S,E_L]。

S2：生成实体关系的编码信息；

用R_i表示实体W_A和W_B之间的关系，i∈[1,k]。本步骤采用One-Hot编码表示实体之间的关系类型，即用长度为k的向量RVec_i表示关系R_i，i∈[1,k]，在RVec_i中，除了第i位是1外，其它位均为0。

S3：训练基于多层感知机的关系分类模型；

本步骤将每个实体对的上下文编码信息和关系编码信息送入多层感知机，通过训练得到关系分类模型。进一步，如图4所示，所述步骤S3具体包括：

S31：初始化多层感知机参数；

S33：将所有实体对的关系编码信息送入多层感知机输出层；

S34：根据收敛条件训练多层感知机模型；

S35：返回多层感知机模型权重。

S4：使用模型抽取待处理文本的关系。

用E₁、E₂、……、E_n表示待处理文本中的实体，进一步，如图5所示，所述步骤S4具体包括：

S41：初始化i＝1，j＝2；

S42：读取实体E_i和E_j；

S43：计算实体对(E_i,E_j)的上下文编码信息E_WSL；

S44：将上下文编码信息E_WSL送入多层感知机的输入层；

S45：运行多层感知机，获取输出层信息；

S46：根据输出层结果确定关系类型；

S47：j＝j+1；

S48：如果j>n，那么转S4A，否则转S49；

S49：读取实体E_j，转S43；

S4A：i＝i+1，j＝i+1；

S4B：如果i>＝n，转S4C，否则转S42；

S4C：返回待处理文本的关系。

例如:

用LabeledSet表示关系已知的数据集，UnLabeledSet表示关系未知的数据集，使用本发明中的方法处理LabeledSet，得到关系分类模型，用于提取UnLabeledSet中存在的关系。

在数据集中，每行表示句子中实体对之间的一种关系，如果句子中存在多个关系，那么就用多行表示，格式如下：

实体1实体2关系句子。

例如：ZS FY亲戚-家庭出生演艺世家的ZF，父亲为某综艺大哥ZS，叔叔是FY，姑姑是FZ。

上述示例表示实体“ZS”和“FY”之间的关系类型是“亲戚”。

数据集中存在12种关系：情侣、夫妻、父母、兄弟姐妹、祖孙、亲戚、师生、同门、好友、上下级、合作、其它。

数据集中仅包括实体和关系，缺少分词和词性信息，所以在使用本发明的方法之前，需要对数据集进行预处理。首先去除空格，然后根据停用词表剔除停用词，并使用Stanford NLP进行分词和词性标注。

执行S111：采用静态的预训练模型GloVe获取实体上下文中词汇W_{A_Pre}、W_A、W_{A_Aft}、W_{B_Pre}、W_B、W_{B_Aft}的词嵌入E_{WA_Pre}、E_WA、E_{WA_Aft}、E_{WB_Pre}、E_WB、E_{WB_Aft}，所得词嵌入的维度是100；

执行S112：通过拼接词嵌入结果，得到词汇的向量化编码E_W，维度是600。

执行S121：采用动态的预训练模型ELMo，将句子中所有分词的词性输入神经网络模型，通过上下文推算不同词性对应的向量，从中提取词性S_{A_Pre}、S_{A_Aft}、S_{B_Pre}和S_{B_Aft}的词性嵌入E_{SA_Pre}、E_{SA_Aft}、E_{SB_Pre}、E_{SB_Aft}，所得词性嵌入的维度是100；

执行S122：通过拼接词性嵌入结果，得到词性的向量化编码E_S，维度是400。

执行S131：采用动态的预训练模型ELMo，将句子中所有实体的标签输入神经网络模型，通过上下文推算不同标签对应的向量，从中提取实体标签L_A和L_B的标签嵌入E_LA和E_LB，所得标签嵌入的维度是100；

执行S132：通过拼接标签嵌入结果，得到实体标签的向量化编码E_L，维度是200。

执行S14：通过拼接词汇、词性、实体标签的向量化编码，得到上下文的向量化编码E_WSL，维度是1200。

执行S2：对12种关系类型进行ID编码，如下(括号内的数字是对应的ID编码)：

情侣(0)、夫妻(1)、父母(2)、兄弟姐妹(3)、祖孙(4)、亲戚(5)、师生(6)、同门(7)、好友(8)、上下级(9)、合作(10)、其它(11)。

采用One-Hot编码将ID编码向量化，每个ID编码对应向量的维度是12，编码所对应位的分量值是1，其余位的分量值均为0。

例如：关系“兄弟姐妹”的ID编码是3，其对应向量是[0,0,0,1,0,0,0,0,0,0,0,0]。

执行S3：多层感知机的输入层结点个数为1200，输出层结点个数为12，分别表示12种关系类型，设置4个隐含层，每层结点个数均相同。

采用公式来确定隐含层结点个数，其中，d、b、u分别是隐含层、输入层、输出层的结点个数，f是处于1到10之间的常数。对于本实施例而言，b＝1200、u＝12，所以d的范围是[35.8，44.8]，选择中间值的整数部分40作为隐含层结点数。

在Python环境中，采用sklearn.neural_network的MLPClassifier函数来训练基于多层感知机的案情描述判定模型，主要参数设置如下：

隐含层结点数：hidden_layer_sizes＝(40,40,40,40)，4个隐含层都是40个结点；

激活函数：activation＝'logistic'；

权重优化的求解器：solver＝'sgd'；

L2惩罚(正则化项)参数：alpha＝'1e-4'；

初始学习率：learning_rate_init＝0.002；

根据上述参数创建MLPClassifier对象RelationClf，如下：

RelationClf＝MLPClassifier(hidden_layer_sizes＝(40,40,40,40),activation＝'logistic',solver＝'sgd',alpha＝'1e-4',learning_rate_init＝0.002)；

分别用FeatureSet_Labeled和TargetSet_Labeled表示LabeledSet中实体对上下文的向量化编码集合和关系类型编码集合，使用MLPClassifier对象的fit函数训练模型，如下：

RelationClf.fit(FeatureSet_Labeled,TargetSet_Labeled)；

执行S4：用FeatureSet_UnLabeled表示UnLabeledSet中实体对上下文的向量化编码集合，使用MLPClassifier对象的predict函数预测判定结果，如下：

TargetSet_UnLabeled＝RelationClf.predict(FeatureSet_UnLabeled)；

所得到的TargetSet_UnLabeled是UnLabeledSet中实体对关系类型编码集合，其格式为One-Hot编码，分量值为1的维度编号是关系类型的ID编码，根据该编码可以确定对应的关系类型。

本发明还提供了一种基于上下文编码和多层感知机的关系抽取装置，如图6所示,包括：

实体对上下文编码部件M1，用于获取实体对的上下文编码信息，所述实体对上下文编码部件M1包括：

关系分类模型训练部件M3，用于训练基于多层感知机的关系分类模型，所述关系分类模型训练部件M3包括：

训练收敛部件M34，根据收敛条件训练多层感知机模型。

本发明从词汇、词性、实体标签三个方面对实体对上下文环境进行向量化编码，融合成实体对的上下文编码，采用多层感知机训练关系类型判定模型；相比常规基于机器学习的关系抽取方法，本发明能够更好地描述实体对的上下文环境信息，提高关系抽取的准确率。

以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于上下文编码和多层感知机的关系抽取方法，其特征在于，

包括以下步骤：

S1：提取实体对的上下文编码信息；

S2：生成实体关系的编码信息；

S3：训练基于多层感知机的关系分类模型；

S4：使用模型抽取待处理文本的关系；

所述步骤S1中，实体对的上下文建模如下：

用(W_A,W_B)表示句子S中任意两个实体W_A和W_B构成实体对，这两个实体将句子S划分为三部分：W_A和W_B之间的子句S_{AB_In}、W_A外侧的子句S_{A_Out}、W_B外侧的子句S_{B_Out}，W_A两侧的词汇是W_{A_Pre}和W_{A_Aft}，词性表示为S_{A_Pre}和S_{A_Aft}，W_B两侧的词汇是W_{B_Pre}和W_{B_Aft}，词性表示为S_{B_Pre}和S_{B_Aft}，W_A和W_B的实体标签分别为L_A和L_B，上述描述构成实体对(W_A,W_B)的上下文；

所述步骤S1包括：

S11：生成词汇的向量化编码；具体包括：

S112：拼接词嵌入结果，得到词汇的向量化编码E_W＝[E_{WA_Pre},E_WA,E_{WA_Aft},E_{WB_Pre},E_WB,E_{WB_Aft}]；

S12：生成词性的向量化编码；具体包括：

S122：拼接词性嵌入结果，得到词性的向量化编码E_S＝[E_{SA_Pre},E_{SA_Aft},E_{SB_Pre},E_{SB_Aft}]；

S13：生成实体标签的向量化编码；具体包括：

S131：计算实体标签L_A和L_B的标签嵌入E_LA和E_LB；

S132：拼接标签嵌入结果，得到实体标签的向量化编码E_L＝[E_LA,E_LB]；

S14：合成上下文的向量化编码。

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求1所述的方法，其特征在于，

所述步骤S3包括：

S31：初始化多层感知机参数；

S33：将所有实体对的关系编码信息送入多层感知机输出层；

S34：根据收敛条件训练多层感知机模型；

S35：返回多层感知机模型权重。

4.根据权利要求1所述的方法，其特征在于，

用E₁、E₂、……、E_n表示待处理文本中的实体，所述步骤S4包括：

S41：初始化i＝1，j＝2；

S42：读取实体E_i和E_j；

S43：计算实体对(E_i,E_j)的上下文编码信息E_WSL；

S44：将上下文编码信息E_WSL送入多层感知机的输入层；

S45：运行多层感知机，获取输出层信息；

S46：根据输出层结果确定关系类型；

S47：j＝j+1；

S48：如果j>n，那么转S4A，否则转S49；

S49：读取实体E_j，转S43；

S4A：i＝i+1，j＝i+1；

S4B：如果i>＝n，转S4C，否则转S42；

S4C：返回待处理文本的关系。

5.一种基于上下文编码和多层感知机的关系抽取装置，其特征在于，

包括：

关系分类模型应用部件M4，用于使用模型提取待处理文本中实体之间的关系类型；

所述实体对上下文编码部件M1，具体包括：

6.根据权利要求5所述的装置，其特征在于，

所述关系分类模型训练部件M3，具体包括：

训练收敛部件M34，根据收敛条件训练多层感知机模型。