CN111581387B

CN111581387B - 一种基于损失优化的实体关系联合抽取方法

Info

Publication number: CN111581387B
Application number: CN202010385529.5A
Authority: CN
Inventors: 甘涛; 甘云强; 何艳敏
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-05-09
Filing date: 2020-05-09
Publication date: 2022-10-11
Anticipated expiration: 2040-05-09
Also published as: CN111581387A

Abstract

本发明属于自然语言处理技术领域，具体提供一种基于损失优化的实体关系联合抽取方法，该方法针对实体和非实体的数目不平衡、实体标注存在噪声两个问题，对传统方法的损失计算部分进行优化；一方面，在损失函数中引入敏感因子，忽略训练中已经学习良好的成分，从而降低非实体损失在总体损失中的比例，让模型更加“关注”实体类的损失，以缓解实体和非实体数目不平衡问题，提高了实体识别的精度；另一方面，在损失函数中引入衰减因子，按非实体数目所占实体和非实体总数目的比例对损失函数中的非实体成分损失进行衰减，从而降低了由于标注噪声带来的损失计算误差，进一步提高了实体关系总体识别精度。

Description

一种基于损失优化的实体关系联合抽取方法

技术领域

本发明属于自然语言处理技术领域，具体涉及一种基于损失优化的实体关系联合抽取方法。

背景技术

当前，由大数据驱动的智能化浪潮给金融业的发展带来了新的创新机遇，金融领域每天都会产生大量不同形式的互联网文本数据；如何准确、高效地挖掘这些金融文本中的重要信息，以提升金融服务效率是金融智能化面临的一个关键问题。在金融信息挖掘中，实体关系抽取是核心任务，其目标是从文本数据中识别出金融实体，并判断出实体间存在的语义关系。

根据抽取流程的不同，实体关系抽取方法可分为管道式方法和联合式方法两类。管道式方法将实体关系抽取任务划分为实体识别和关系抽取两个独立的子任务，对于一段输入文本，它先用实体识别模型识别文本中出现的有效实体，然后再用关系模型判断实体间的语义关系；管道式方法简单，但是存在错误传播问题，即实体模型造成的错误会直接影响下游的关系抽取的效果；另外，管道式建模方式也忽略了实体识别和关系抽取两个子任务之间的依赖关系。相比之下，联合式抽取方法对实体识别和关系抽取进行统一建模，从而克服了管道式方法的缺点。

然而由于一些客观因素的存在，现有联合式抽取方法在提高识别精度方面面临困难；一方面，由于一个句子的实体数目通常远少于非实体数目，即实体和非实体的数目客观上存在不平衡的现象，而传统方法将实体与非实体等同对待，往往导致训练的模型倾向于“关注”不重要的非实体类样本，忽略重要的实体类样本，给实体的识别精度带来负面的影响；另一方面，人工标注数据可能会引入噪声，比如部分实体被人工错误地标注为非实体，标注噪声导致模型训练错误，识别精度下降。

发明内容

本发明的目的在于针对上述现有技术的不足，提供了一种基于损失优化的实体关系联合抽取方法，采用新的损失函数计算方法，有效地提升了实体关系的识别精度。

为了达到上述目的，本发明采用的技术方案为：

一种基于损失优化的实体关系联合抽取方法，包括以下步骤：

步骤1、数据预处理；

步骤1.1、读取实体标签数据：

步骤1.1.1、对文本T，从标签文件中读取分词信息，将T分割成不同的词t_i(1≤i≤N_w)，N_w为文本T中词的总个数，其中标点符号视为一个词；

步骤1.1.2、对文本T中的每一个词t_i，从标签文件中读取实体类型信息，生成t_i的实体类型编号l_i：若t_i被标注为某实体、则令l_i为该实体的实体类别编号，否则、令l_i＝N_e+1，N_e为实体类型的总数；

步骤1.1.3、对文本T中的每一个词t_i，将其实体类型编号l_i进行独热(one-hot)编码，得到实体标签向量y_i；

步骤1.2、读取关系标签数据：

步骤1.2.1、将文本T中的任意两个不同的词t_i和t_j(1≤i,j≤N_w,i≠j)组成词对(t_i,t_j)，从标签文件中读取词对(t_i,t_j)的关系类型信息，生成词对(t_i,t_j)所对应的关系类型编号m_i,j：若词对(t_i,t_j)被标注为某关系、则令m_i,j为该关系的关系类别编号，否则、令m_i,j＝N_r+1，N_r为关系类别总数；

步骤1.2.2、对每一个词对(t_i,t_j)(1≤i,j≤N_w,i≠j)，将其关系类型编号m_i,j进行独热编码，得到关系标签向量z_i,j；

步骤2、构建及训练联合分类模型；

步骤2.1、构建联合分类模型，包括：输入层、隐藏层及输出层；

所述输入层采用word2vec词嵌入结构、并设置其输出矢量的维数为d_w；将文本T中的每一个词t_i(1≤i≤N_w)输入到输入层进行词嵌入，得到维数为d_w的词向量w_i；

所述隐藏层采用双向LSTM结构、并设置其输出矢量的维数为d_c；其中，前向LSTM编码：将每一个词t_i所对应的词向量w_i输入到隐藏层进行前向LSTM编码得到维数为d_c的前向编码向量

后向LSTM编码：将每一个词t_i所对应的词向量w_i输入到隐藏层进行后向LSTM编码得到维数为d_c的后向编码向量

将每一个词t_i所对应的前向编码向量

和后向编码向量

进行拼接，得到维数为2×d_c双向编码向量h_i：

所述输出层采用softmax与sigmoid分类器的联合结构；其中：

所述softmax分类器进行实体类型预测，将每一个双向编码向量h_i(1≤i≤N_w)输入到softmax分类器，得到维数为N_e+1的实体类型预测向量

该向量的第q个元素对应于将词t_i的实体类型预测为第q种实体类型的概率；

所述sigmoid分类器进行关系类型预测，将每一个词对(t_i,t_j)中t_i和t_j所对应的双向编码向量h_i和h_j输入到sigmoid分类器，得到维数为N_r+1的关系类型预测向量

该向量的第k个元素对应于将词对(t_i,t_j)的关系类型预测为第k种关系类型的概率；

步骤2.2、训练联合分类模型：设置训练集的文本总条数为N_train、训练总迭代次数为N_t以及损失函数，采用反向传播算法对联合分类模型参数进行更新，训练结束得到联合分类模型；

所述损失函数为：

其中，

为实体损失：

δ_i为词t_i的敏感因子：

为实体标签向量y_i的第l_i(1≤l_i≤N_e+1)个元素、表示t_i属于第l_i种实体类型的概率，

为实体类型预测向量

的第l_i个元素、表示t_i被预测为第l_i种实体类型的概率，λ为预设敏感阈值，sgn(·)为符号函数：

β_i为词t_i(1≤i≤N_w)的衰减因子：

N_O表示文本T中非实体类型的词的个数；

为关系损失：

步骤3、实体关系联合抽取；

步骤3.1、采用中文分词工具对待处理文本T'进行分词处理，将T'分割成不同的词t'_i'(1≤i'≤N'_w)、N'_w为T'中词的总个数，并形成词对(t'_i',t'_j')(1≤i',j'≤N'_w,i'≠j')，输入至训练得到的联合分类模型，得到每一个词t'_i'的实体类型预测向量

以及词对(t'_i',t'_j')的关系类型预测向量

其中，实体类型预测向量

中最大值对应的位置编号作为词t'_i'的实体类型预测编号

关系类型预测向量

中最大值所对应的位置编号作为词对(t'_i',t'_j')的关系类型预测编号

步骤3.2、输出实体关系三元组：对每个词对(t'_i',t'_j')(1≤i',j'≤N'_w,i'≠j')进行判断：若该词对对应的实体类型预测编号

和

均不等于N_e+1，且其关系类型预测编号

不等于N_r+1，则形成实体关系三元组(t'_i',R_i',j',t'_j')并输出，其中，R_i',j'为关系类型预测编号

所对应的关系名称。

进一步的，所述敏感阈值λ的取值范围：0.7≤λ≤0.9。

本发明的有益效果在于：

本发明提供一种基于损失优化的实体关系联合抽取方法，该方法针对实体和非实体的数目不平衡、实体标注存在噪声两个问题，对传统方法的损失计算部分进行优化；一方面，在损失函数中引入敏感因子，忽略训练中已经学习良好的成分，从而降低非实体损失在总体损失中的比例，让模型更加“关注”实体类的损失，以缓解实体和非实体数目不平衡问题，提高了实体识别的精度；另一方面，在损失函数中引入衰减因子，按非实体数目所占实体和非实体总数目的比例对损失函数中的非实体成分损失进行衰减，从而降低了由于标注噪声带来的损失计算误差，进一步提高了实体关系总体识别精度。

附图说明：

图1为本发明基于损失优化的实体关系联合抽取方法的流程示意图，包含训练和识别两个阶段。

具体实施方式

下面结合附图和实施例对本发明做进一步详细说明。

本实施例提供一种基于损失优化的实体关系联合抽取方法，其流程如图1所示，包含训练和识别两个阶段；数据集共包含5500条金融文本，其中前4500条为训练文本，后1000条为测试文本。具体步骤如下：

●训练阶段：

S1.读取训练数据：

S11.设参与训练的文本总条数为N_train，设置训练的总迭代次数为N_t，设置初始值为0的迭代计数器a_t；

在本实施例中，训练的文本总条数N_train＝5500，训练的总迭代次数N_t＝120；

S12.设置初始值为0的文本条数计数器a_n；

S13.从训练文本中读取一行文本T并更新文本条数计数器为a_n+1；

在本实施例中，以处理训练文本“华为技术有限公司是一家民营通信科技公司，主要创始人任正非，总部位于深圳。”为例进行说明；

S14.读取实体标签数据：

S141.对文本T，从标签文件中读取分词信息，将T分割成不同的词，设T中词的总个数为N_w，其中标点符号视为一个词；

在本实施例中，标签文件中的分词信息为“华为技术有限公司|是|一家|民营|通信科技公司|，|主要|创始人|任正非|，|总部|位于|深圳|。”，其中符号|为各个词的分隔符；根据该分词信息，将T分割成N_w＝14个不同的词；

S142.设实体的种类有N_e种，对T中的每一个词t_i(1≤i≤14)，从标签文件中读取实体类型信息，生成t_i所对应的实体类型编号l_i：若t_i被标注为某实体，则令l_i为该实体的实体类别编号，否则，令l_i＝N_e+1(N_e+1表示非实体类型的编号)；

在本实施例中，实体的种类有N_e＝5种，分别是“企业”、“人物”、“日期”、“地点”、“数字”，则实体类型共有6种，包括前5种为实体种类和第6种为非实体类型；标签文件中的实体类型信息为：第1个词“华为技术有限公司”的实体类型为“企业”，第2个词“是”的实体类型为“非实体”，第3个词“一家”的实体类型为“非实体”，…，第9个词“任正非”的实体类型为“人物”，…，第14个词“。”的实体类型为“非实体”；这里以第1个词“华为技术有限公司”和第9个词“任正非”为例，对t₁＝“华为技术有限公司”，其实体类型编号l₁＝1，对t₉＝“任正非”，其实体类型编号l₉＝2；

S143.对T中的每一个词t_i(1≤i≤14)，将其实体类型编号l_i进行独热(one-hot)编码，得到实体标签向量y_i，该向量的第k(1≤k≤6)个元素y_i,k为：

在本实施例中，对t₁，其实体标签向量y₁＝[1,0,0,...,0]，其中y_1,1＝1；对t₉，其实体标签向量y₉＝[0,1,0,...,0]，其中y_9,2＝1；

S15.读取关系标签数据：

S151.设关系的种类有N_r种，将文本T中的任意两个不同的词t_i和t_j(1≤i,j≤14,i≠j)组成词对(t_i,t_j)，从标签文件中读取关系类型信息，生成词对(t_i,t_j)所对应的关系类型编号m_i,j：若词对(t_i,t_j)被标注为某关系，则令m_i,j为该关系的关系类别编号，否则，令m_i,j＝N_r+1(N_r+1表示非关系类型的编号)；

在本实施例中，关系的种类有N_r＝8种，分别是“创始人”、“董事长”、“投资”、“收购”、“合作”、“成立日期”、“注册资本”、“总部地点”，则关系类型共有9种，包括前8种为关系种类和第9种为无关系类型；标签文件中的关系类型信息为：第1个词“华为技术有限公司”和第2个词“是”的关系类型为“无关系”，第1个词“华为技术有限公司”和第3个词“一家”的关系类型为“无关系”，…，第1个词“华为技术有限公司”和第9个词“任正非”的关系类型为“创始人”，…，第1个词“华为技术有限公司”和第14个词“。”的关系类型为“无关系”，…，第14个词“。”与第13个词“深圳”的关系类型为“无关系”；这里以第1个词“华为技术有限公司”和第9个词“任正非”为例，则词对(t₁,t₉)的关系为“创始人”，其关系类型编号m_1,9＝1；

S152.对每一个词对(t_i,t_j)(1≤i,j≤14,i≠j)，将其关系类型编号m_i,j进行独热编码，得到关系标签向量z_i,j，则该向量的第k(1≤k≤9)个元素z_i,j,k为：

在本实施例中，对词对(t₁,t₉)，其关系标签向量z_1,9＝[1,0,0,...,0]，其中，z_1,9,1＝1；

S2.生成词向量：

S21.将公开的word2vec词嵌入结构作为神经网络的输入层，初始化该层的网络参数为一组高斯分布的随机采样，并设置其输出矢量的维数为d_w；

在本实施例中，输入层的输出矢量维数d_w＝300；

S22.将文本T中的每一个词t_i(1≤i≤14)输入到输入层进行词嵌入，得到维数为d_w＝300的词向量w_i；

在本实施例中，对最后一次迭代，即第120次迭代，迭代计数器a_t＝119时，词t₁和词t₉经过词嵌入后，分别得到词向量w₁＝[-0.0539,-0.0381,0.1626,...,-0.1476]，w₉＝[-0.1287,-0.0914,0.0102,...,-0.0208]；

S3.双向LSTM编码：

S31.将标准双向LSTM结构作为神经网络的第二层，初始化该层的参数为一组高斯分布的随机采样，并设置其输出矢量的维数为d_c；

在本实施例中，第二层输出矢量的维数d_c＝300；

S32.前向LSTM编码：将每一个词t_i(1≤i≤14)所对应的词向量w_i输入到第二层进行前向LSTM编码，得到维数为d_c＝300的前向编码向量

在本实施例中，对第120次迭代，即迭代计数器a_t＝119时，词向量w₁和w₉经过前向LSTM编码后，分别得到前向编码向量

S33.后向LSTM编码：将每一个词t_i(1≤i≤14)所对应的词向量w_i输入到第二层进行后向LSTM编码，得到维数为d_c＝300的后向编码向量

在本实施例中，对第120次迭代，即迭代计数器a_t＝119时，词向量w₁和w₉经过后向LSTM编码后，分别得到后向编码向量

S34.将每一个词t_i(1≤i≤14)所对应的前向编码向量

和后向编码向量

进行拼接，得到维数为2×d_c＝600双向编码向量h_i：

其中，

和

分别为前向编码向量

和后向编码向量

的转置；

在本实施例中，对第120次迭代，即迭代计数器a_t＝119时，

和

经过拼接操作后，得到双向编码向量h₁＝[0.0261,0.3392,...,-0.4417,-0.0645,0.3033,...,-0.3772]，

和

经过拼接操作后，得到双向编码向量h₉＝[-0.0307,0.1263,...,-0.3732,-0.5803,0.4353,...,-0.4323]；

S4.预测实体关系：

S41.将标准softmax与sigmoid分类器的联合结构作为神经网络的输出层，初始化该层的网络参数为一组高斯分布的随机采样；

S42.预测实体类型：将每一个双向编码向量h_i(1≤i≤14)输入到softmax分类器进行实体类型预测，得到维数为N_e+1＝6的实体类型预测向量

该向量的第q个元素对应于将t_i预测为第q种实体类型的概率；

在本实施例中，对120次迭代，即迭代计数器a_t＝119时，双向编码向量h₁和h₉经过实体类型预测操作后，分别得到实体类型预测向量

其中

的第1个元素对应于将t₁＝“华为技术有限公司”预测为第1种实体类型“企业”的概率为0.8603，

的第2个元素对应于将t₉＝“任正非”预测为第2种实体类型“人物”的概率为0.8940；

S43.预测关系类型：对每一个词对(t_i,t_j)(1≤i,j≤14,i≠j)，将t_i和t_j所对应的双向编码向量h_i和h_j输入到sigmoid分类器进行关系类型预测，得到维数为N_r+1＝9的关系类型预测向量

在本实施例中，对第120次迭代，即迭代计数器a_t＝119时，双向编码向量h₁和h₉经过关系类型预测操作后，分别得到关系类型预测向量

其中

的第1个元素对应于将词对(t₁,t₉)＝(华为技术有限公司，任正非)预测为第1种关系类型“创始人”的概率为0.8022；

S5.计算实体关系损失：

S51.计算实体损失

S511.对每一个词t_i(1≤i≤14)，计算敏感因子δ_i：

其中，

为实体标签向量y_i的第l_i(1≤l_i≤N_e+1)个元素，表示t_i属于第l_i种实体类型的概率；

为实体类型预测向量

的第l_i个元素，表示t_i被预测为第l_i种实体类型的概率；λ为预设的敏感阈值，sgn(·)为符号函数，定义为：

在本实施例中，敏感阈值λ的取值范围为0.7≤λ≤0.9，这里λ的取值为0.8；对第120次迭代，即迭代计数器a_t＝119时，词t₁的实体类型编号l₁＝1，则实体标签向量y₁的第1个元素y_1,1＝1为t₁属于第1种实体类型的概率，实体类型预测向量

中的第1个元素

为t₁被预测为第1种实体类型的概率，即t₁＝“华为技术有限公司”属于第1种实体类型“企业”的概率为1，而当前预测出的概率为0.8603，通过公式(4)计算得到t₁所对应的敏感因子δ₁＝0；词t₉的实体类型编号l₉＝2，则实体标签向量y₉的第2个元素y_9,2＝1为t₉属于第2种实体类型的概率，实体类型预测向量

中的第2个元素

为t₉被预测为第2种实体类型的概率，即t₉＝“任正非”属于第2种实体类型“人物”的概率为1，而当前预测出的概率为0.8940，通过公式(4)计算得到t₉所对应的敏感因子δ₉＝0；

S512.对每一个词t_i(1≤i≤14)，计算衰减因子β_i：

其中，N_O表示文本T中非实体类型的词的个数；

在本实施例中，对第120次迭代，即迭代计数器a_t＝119时，非实体类型的词的个数N_O＝11，词t₁的实体类型编号l₁＝1，词t₉的实体类型编号l₉＝2，故通过公式(6)分别计算得到t₁所对应的衰减因子β₁＝1，t₉所对应的衰减因子β₉＝1；对t₂＝“是”，实体类型编号l₂＝6，计算得到的对应的衰减因子β₂＝0.7857；

S513.计算实体损失

在本实施例中，对第120次迭代，即迭代计数器a_t＝119时，通过公式(7)计算得到实体损失

S52.计算关系损失

在本实施例中，对第120次迭代，即迭代计数器a_t＝119时，通过公式(8)计算得到关系损失

S53.计算实体关系损失

在本实施例中，对第120次迭代，即迭代计数器a_t＝119时，通过公式(9)计算得到实体关系损失

S6.更新联合分类模型：使用标准反向传播算法将实体关系损失

进行反向传播，并对神经网络模型参数进行更新；

S7.判定是否读取完所有训练文本：若当前条数计数器a_n小于训练文本总条数N_train，则转到步骤S13继续读取下一条文本，否则，更新迭代计数器为a_t+1；

S8.判定迭代训练是否终止：若当前迭代计数器a_t小于模型训练的总迭代次数N_t，则转到步骤S12继续下一次迭代训练；否则，结束训练，将当前的联合分类模型输出；

●识别阶段：

下面以处理测试文本“同时，招商银行还将作为战略投资者投资滴滴。”为例进行说明；

S1.读取测试文本：读取一行测试文本T'；

S2.加载联合分类模型：读取训练得到的联合分类模型各层网络参数并将其作为当前神经网络各层的网络参数；

S3.生成词向量：

S31.使用标准中文分词工具对测试文本T'进行分词处理，将T'分割成不同的词，设T'中词的总个数为N'_w，其中标点符号视为一个词；

在本实施例中，T'经过分词处理后的分词信息为“同时|，|招商银行|还|将|作为|战略|投资者|投资|滴滴|。”，其中符号|为各个词的分隔符。根据该分词信息，将T'分割成N'_w＝11个不同的词；

S32.对测试文本T'中的每一个词t'_i'(1≤i'≤11)，按训练阶段步骤S22进行词嵌入操作，得到词向量w'_i'；

在本实施例中，以T'的第3个词“招商银行”和第10个词“滴滴”为例，则t'₃＝“招商银行”，t'₁₀＝“滴滴”，词t'₃和t'₁₀经过词嵌入操作后，分别得到词向量w'₃＝[-0.0934,0.0117,0.0731,...,-0.2821]，w'₁₀＝[-0.2307,0.1463,0.0519,...,-0.1347]；

S4.双向LSTM编码：对每一个词向量w'_i'(1≤i'≤11)，按训练阶段步骤S3进行双向LSTM编码，得到双向编码向量h'_i'；

在本实施例中，词向量w'₃和w'₁₀经过双向LSTM编码后，分别得到双向编码向量h'₃＝[-0.0533,0.3059,-0.1171,...,-0.2999]，h'₁₀＝[-0.6217,0.0441,-0.0834,...,0.0074]；

S5.实体关系分类：

S51.实体分类：

S511.对每一个双向编码向量h'_i'(1≤i'≤11)，按训练阶段步骤S42进行实体类型预测，得到实体类型预测向量

在本实施例中，双向编码向量h'₃和h'₁₀在经过实体类型预测操作后，分别得到实体类型预测向量

S512.对每一个实体类型预测向量

寻找其所有元素中的最大值，并将最大值所对应的位置编号作为词t'_i'的实体类型预测编号

在本实施例中，实体类型预测向量

所有元素中的最大值0.9371所对应的位置编号为1，故词t'₃的实体类型预测编号

即将t'₃＝“招商银行”预测为“企业”实体类型；实体类型预测向量

所有元素中的最大值0.9103所对应的位置编号为1，故词t'₁₀的实体类型预测编号

即将t'₁₀＝“滴滴”也预测为“企业”实体类型；

S52.关系分类：

S521.对测试文本T'中的每个词对(t'_i',t'_j')(1≤i',j'≤11,i'≠j')，按训练阶段步骤S43进行关系类型预测，得到词对(t'_i',t'_j')的关系类型预测向量

在本实施例中，对词对(t'₃,t'₁₀)，其关系类型预测向量

S522.对每一个关系类型预测向量

寻找其所有元素中的最大值，并将最大值所对应的位置编号作为词对(t'_i',t'_j')的关系类型预测编号

在本实施例中，对词对(t'₃,t'₁₀)，其关系类型预测向量

所有元素中的最大值0.8746所对应的位置编号为3，故词对(t'₃,t'₁₀)的关系类型预测编号

即将词对(招商银行，滴滴)的关系预测为“投资”关系类型；

S6.输出实体关系三元组：对每个词对(t'_i',t'_j')(1≤i',j'≤11,i'≠j')进行判断：若该词对对应的实体类型预测编号

和

均不等于N_e+1＝6，且其关系类型预测编号

不等于N_r+1＝9，则形成实体关系三元组(t'_i',R_i',j',t'_j')并输出，其中，R_i,j为关系类型预测编号

所对应的关系名称；

在本实施例中，对词对(t'₃,t'₁₀)，由于

所对应的关系名称R_3,10为“投资”，故最终输出实体关系三元组(招商银行，投资，滴滴)。

下面将本发明方法的性能与传统方法进行比较；其中，传统方法采用传统的损失计算函数，测试中两种方法采用相同的数据集。本发明方法的程序基于谷歌公司Tensorflow框架，采用Python语言编写。

表1性能比较

可以看到，相对于传统方法，本发明方法具有较为明显的优势，在实体关系识别的各项指标上都有所提升。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基于损失优化的实体关系联合抽取方法，包括以下步骤：

步骤1、数据预处理；

步骤1.1、读取实体标签数据：

步骤1.1.1、对文本T，从标签文件中读取分词信息，将T分割成不同的词t_i，1≤i≤N_w、N_w为文本T中词的总个数，其中标点符号视为一个词；

步骤1.1.2、对文本T中的每一个词t_i，从标签文件中读取实体类型信息，生成t_i的实体类型编号l_i：若t_i被标注为某实体、则令l_i为该实体的实体类别编号，否则、令l_i＝N_e+1，N_e为实体类别总数；

步骤1.2、读取关系标签数据：

步骤1.2.1、将文本T中的任意两个不同的词t_i和t_j组成词对(t_i,t_j)，1≤i,j≤N_w,i≠j；从标签文件中读取词对(t_i,t_j)的关系类型信息，生成词对(t_i,t_j)所对应的关系类型编号m_i,j：若词对(t_i,t_j)被标注为某关系、则令m_i,j为该关系的关系类别编号，否则、令m_i,j＝N_r+1，N_r为关系类别总数；

步骤1.2.2、对每一个词对(t_i,t_j)，将其关系类型编号m_i,j进行独热编码，得到关系标签向量z_i,j；

步骤2、构建及训练联合分类模型；

所述输入层采用word2vec词嵌入结构、并设置其输出矢量的维数为d_w；将文本T中的每一个词t_i输入到输入层进行词嵌入，得到维数为d_w的词向量w_i；