CN107832400A

CN107832400A - 一种基于位置的lstm和cnn联合模型进行关系分类的方法

Info

Publication number: CN107832400A
Application number: CN201711058847.5A
Authority: CN
Inventors: 李玉军; 王玥
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2017-11-01
Filing date: 2017-11-01
Publication date: 2018-03-23
Anticipated expiration: 2037-11-01
Also published as: CN107832400B

Abstract

本发明涉及一种基于位置的LSTM和CNN联合模型进行关系分类的方法，包括：(1)数据预处理；(2)训练词向量；(3)抽取位置向量；获取训练集中的每一个词的位置向量特征，及其高维位置特征向量，将的每一个词的词向量与高维位置特征向量级联，得到联合特征；(4)针对具体任务建模；利用双向LSTM编码实体的上下文信息和语义信息；输出标记实体对应位置的向量，将输出输入至CNN，输出两个实体名词及其上下文信息、关系词信息，输入至分类器中进行分类；(5)采用损失函数训练模型。本发明不需要人工抽取任何特征，联合模型也不需要借助另外的自然语言处理工具对数据做预处理，算法简单明了，效果达到了目前最好。

Description

一种基于位置的LSTM和CNN联合模型进行关系分类的方法

技术领域

本发明涉及一种基于位置的LSTM和CNN联合模型进行关系分类的方法，属于自然语言处理技术领域。

背景技术

随着智能时代的到来，对大数据的处理方法向着自动化、智能化的方向发展，各种工作也逐渐由智能机器所代替，人类社会与智能机器的交叉越来越多，在这样的时代背景下，智能、方便的人机交互变得越来越重要。因此，问答系统、知识库的自动构建技术在工业界和学术界都得到很大关注并取得了一些成果。而这些成果的背后离不开自然语言处理等基础理论的支持，其中，关系抽取就起到了重要作用。

随着机器学习的发展，很多自然语言处理任务得到了很好的解决，尤其是支持向量机的提出使很多NLP任务的结果得到了很大的提升，这种方法的核心思想是认为抽取很多适合自然语言处理任务的特征，根据这些特征构造核函数，再利用数据训练分类器，但是抽取特征是一件很复杂的任务，需要研究人员对相应领域有很深入的研究和理解才能找到合适的特征，而且需要花费大量的精力构建提取特征的模型，如果选择的特征不适合，对模型的结果不会有改善，往往会做很多无用功。

最近随着深度学习的发展，以卷积神经网络和循环神经网络为代表的深度神经网络模型在图像识别、计算机视觉和语音识别领域取得了巨大成功，在自然语言处理领域也取得了很大进展，之前的研究成果表明长短时记忆神经网络对处理具有时序特征的自然语言有天然的优势，也有很多研究者将长短时记忆神经网络用于关系分类任务中。这种方法无需人为提取特征，是研究人员可以将精力集中到方法本身而不是研究如何抽取特征，但是利用长短时记忆神经网络需要依赖一些语法信息或外部词典信息才能取得较好的结果。还有研究者利用卷积神经网络做关系分类任务，在句子长度不长时表现比循环神经网络要好，但这种方法只能获得局部上下文信息，存在信息丢失的缺点。

中国专利文献CN 107169035A公开了一种混合长短期记忆网络和卷积神经网络的文本分类方法，通过充分结合双向长短期记忆网络在学习文本的上下文信息方面的优势以及卷积神经网络在学习文本局部特征方面的优势，利用双向长短期记忆网络学习词的上下文信息后，再通过卷积神经网络进一步学习提取上下文信息的词向量的局部特征，接着再利用双向长短期记忆网络学习这些局部特征的上下文，形成固定维度的输出，最后通过一个多层感知器进行分类输出。但是，该专利采用了多层神经网络，模型深度对于文本分类任务来说很深，这就需要有大量的标记数据来训练模型，而大量的标记数据往往很难获取，该模型难以训练。

中国专利文献CN 106599933A公开了一种基于联合深度学习模型的文本情感分类方法，本发明涉及文本情感分类方法。本发明为了解决现有SVM等浅层分类方法，会带来维数灾难和数据稀疏等问题。步骤为：一：对文本数据中每一个词进行处理，采用word2vec工具对处理后的文本数据中每一个词进行训练，得到词向量字典；二：得到每个句子的矩阵M，LSTM层将矩阵M进行训练转化为固定维度的向量对输入层进行改进，生成d维h个具有上下文语义关系的词向量；三、采用CNN作为一个可训练的特征检测器从d维h个具有上下文语义关系的词向量中抽取特征；四：将抽取的特征依次连接，输出得到每个类别的概率，概率值最大的类别为所预测的类别。但是，该专利分类是一个三分类模型，且情感分类的类别特征很明显，利用神经网络来抽取特征比较容易，而对于关系抽取来说，关系的界定本身是比较主观的，关系之间的语义特征也不是很明显。

中国专利文献CN 107229684A公开了一种语句分类方法、系统、电子设备、冰箱及存储介质，所述语句分类方法包括：获取目标语句中各词语对应的词语向量，其中，所述词语向量中包括词义向量和词性向量；将所述目标语句中各词语对应的词语向量输入长短时记忆LSTM模型中，得到目标语句的状态矩阵，其中，所述状态矩阵中包括与所述目标语句对应的初始语义信息及语序信息；将所述状态矩阵输入卷积神经网络CNN模型中，获取所述目标语句对应的特征量；以及，根据所述目标语句的特征量对该目标语句进行分类。但是，该专利将状态矩阵输入到卷积神经网络CNN中容易造成信息冗余从而引入干扰信息。

发明内容

针对现有技术的不足，本发明提供了一种基于位置的LSTM(长短时记忆网络)和CNN(卷积神经网络)联合模型进行关系分类的方法；

上述联合模型首先利用双向LSTM编码整个句子，捕获实体的上下文信息和语义信息，再利用卷积神将网络捕获实体之间的关系信息，将得到的实体向量和关系信息输入到分类器中进行关系分类，取得了目前最好的效果。

该模型完全不用人工处理数据，不需要借助其他的自然语言处理工具，也不需要引入另外的信息，实现了对解决这类问题模型的最大程度的精简，算法简单明了，效果达到了目前最好。该模型详细的解释了各个网络的作用，并充分利用了数据本身提供的信息，利用模型去除冗余信息，保留并利用有用信息，实现了信息利用率的最大化。该模型提出的损失函数弥补了之前交叉熵函数的缺点，并且这个损失函数具有普适性，可以用于任何分类任务中。

本发明的技术方案为：

一种基于位置的LSTM和CNN联合模型进行关系分类的方法，包括：

(1)数据预处理；本申请采用公开的数据集进行结果评测，而公开的数据集是原始数据，不符合模型的输入要求，需要进行预处理。先采用one-hot形式来表示数据集中的实体词，例如，将数据集中的实体均表示成1.0，其它表示成0.0；再根据数据集中的文本类别对数据进行类别标定；数据集中的文本共分为19类，采用一个19维的one-hot向量表示每一类的类别，one-hot向量中1对应的位置就是该类别的索引位置,将这个19维的向量与文本中的句子放在同一行，用“/”分开，读取数据时将样本与标签一起读进内存中，就获得了每一个句子的标签。将数据集分为训练集和测试集；

(2)训练词向量；将文本数据转换成数学数据，即获取训练集中的每一个词相应的词向量；

(3)抽取位置向量；获取训练集中的每一个词的位置向量特征，位置向量特征包括句子中的每个词到实体词的相对距离组成，根据步骤(1)得到的每个实体词在句子中的位置，以实体位置为原点，得到句子中的每个词相对实体词的位置，每个词对两个实体的相对位置组成该词的位置向量特征；例如，句子为：阿里巴巴公司位于中国杭州，该句子中有两个实体为：公司、杭州，第一个词相对于两个实体的位置为(-1，-,4)，“阿里巴巴”到“公司”的距离是-1，到“杭州”的距离是-5；第二个词到两个实体的距离是(0，-3)，“公司”到“公司”的距离是0，到“杭州”的距离是-3；并获取每个位置向量特征的高维位置特征向量，将步骤(2)获取的每一个词的词向量与该词的高维位置特征向量级联，得到每个词的联合特征；

(4)针对具体任务建模；利用双向LSTM编码实体词的上下文信息和语义信息；

单向LSTM可以按照人类的阅读顺序从一句话的第一个字记忆到最后一个字，这种LSTM结构只能捕捉到上文信息，无法捕捉到下文信息，而双向LSTM由两个方向不同的LSTM组成，一个LSTM按照句子中词的顺序从前往后读取数据，另一个LSTM从后往前按照句子词序的反方向读取数据，这样第一个LSTM获得上文信息，另一个LSTM获得下文信息，两个LSTM的联合说出就是整个句子的上下文信息，而上下文信息是由整个句子提供的，自然包含比较抽象的语义信息(句子的意思)，这种方法的优点是充分利用了LSTM对具有时序特点的序列数据的处理优势，而且由于我们输入了位置特征，其经过双向LSTM编码后可以抽取出位置特征中包含的实体方向信息，其他的方法就没有这样的优点。

双向LSTM编码后，隐藏层只输出标记实体词对应位置的向量，标记实体词对应位置的向量是指一个句子中给出的两个实体词对应的双向LSTM神经元的隐藏层的输出；

经过双向LSTM编码后在双向LSTM神经元的隐藏层只输出标记实体对应位置的向量而不是把整个句子的编码向量全部输出，这样做的优点有：(1)可以去掉冗余信息对关系分类的干扰，只保留最关键的信息；(2)因为关系词只有两个，这样就解决了在输入到卷积神经网络是实体-关系序列不等长的问题，不需要采用补零等手段做信息填充。

将双向LSTM编码后的输出输入至CNN，输出两个实体词及其上下文信息、关系词信息，上下文信息是指当前词前面的词和后面的词；关系词信息是指两个实体词之间的词；将两个实体词及其上下文信息、关系词信息输入至分类器中进行分类；

(5)采用损失函数训练模型。

根据本发明优选的，所述步骤(4)，利用双向LSTM编码实体词的上下文信息和语义信息，式(1)用于求取t时刻LSTM单元中的输入门的值，式(2)用于求取t时刻LSTM单元中的遗忘门的值，式(3)用于求取t时刻LSTM单元中的输出门的值，式(4)用于求t时刻LSTM单元的输入状态，式(5)用于求t时刻的LSTM单元的细胞状态，式(6)用于求t时刻LSTM单元的隐藏层状态，式(1)-式(6)如下所示：

c_t＝i_t⊙g_t+f_t⊙c_t-1 (5)

h_t＝o_t⊙tanh(c_t) (6)

Wⁱ，W^f，W^o，W^g，Uⁱ，U^f，U^o代表需要学习的权重矩阵，bⁱ，b^f，b^o，b^g代表偏置向量，σ表示sigmoid激活函数，⊙表示点乘运算，tanh表示双曲正切函数用作激活函数。

根据本发明优选的，所述步骤(4)，将双向LSTM编码后的输出输入至卷积层，输出两个实体词及其上下文信息、关系词信息，计算公式如式(7)所示：

r_x＝max(tanh(W_ch_5i+b_c))i∈[1，num] (7)

式(7)中，r_x是指卷积层的输出，W_c是需要学习的权重矩阵，d^c是卷积层神经元数目，d^h是双向LSTM的隐藏层节点数，h_ei表示双向LSTM编码后的输出(也称作双向LSTM的隐藏层输出)，i表示双向LSTM输出的第i个，i＝1或i＝2，b_c是偏置向量，卷积层的激活函数选择双曲正切函数，num是编码层输出的实体词数；

LSTM和CNN联合模型包括双向LSTM层、卷积层，这两个名称是网络的代号，实际上是一种网络结构，在具体模型中称为层是为了使模型结构清楚，是两个地位等同的结构，隐藏层是双向LSTM层的内部的层，代表双向LSTM的输出；

根据本发明优选的，所述步骤(4)，将两个实体词及其上下文信息、关系词信息输入至分类器中进行分类，分类器的计算公式及对类别的评分函数分别如式(8)、(9)所示：

score(x)＝W_sr_x+b_s (8)

s_c＝[W_sr_x+b_s]_c (9)

式(8)、(9)中，W_s是要学习的权重矩阵，r_x是卷积层的输出，b_s是偏置向量，c是正确类别符号，score(x)是样本x的类别的概率分布，s_c是样本x对应的正确类别的概率。

根据本发明优选的，所述步骤(5)，采用损失函数训练模型，以弥补交叉熵函数的不足。交叉熵做损失函数只是捕获了当前网络状态下正确类别的信息量，而没有捕获到当前网络状态下对样本最适宜的类别判断与真实的类别之间的差距。本专利通过对max-margin函数做变种实现了将样本的正确类别与当前网络状态下样本的决策类别的差距都捕获到并通过对这种差距的修正使网络向着决策正确的方向训练。分类器得到的样本的概率分布中最大的概率值s′_c(概率分布是一个19维的向量，每个维度有一个值，s′_c表示最大的值)的计算公式如式(10)所示，损失函数的计算公式如式(11)所示：

s′_c＝max(W_sr_x+b_s) (10)

式(11)中，-∑_xp_xlogq_x是指交叉熵函数，x是要判断的样本，p_x是样本类别的标准分布，q_x是样本类别的预测分布；∑_xmax[0,m-λ·σ(s_c)+λ·σ(s′_c)]是指变种max-margin函数，用于弥补交叉熵函数的不足，m和λ是人为选择的超参数，σ是sigmoid函数。

根据本发明优选的，所述步骤(2)，训练词向量，包括：

A、下载维基百科2011年11月6日全天的英文数据作为初始训练数据，并对这些初始训练数据进行清洗，去掉没有意义的特殊字符和格式，将HTML格式的数据处理成TXT格式的数据；

B、将步骤A处理后的数据喂入Word2vec进行训练，训练时，采用skip-gram模型，窗口大小设为3-8，迭代周期设为2-15，设定词向量的维度是200-400维，训练结束后，得到一个词向量映射表；

C、根据步骤B得到的词向量映射表，获取训练集的每一个词对应的词向量。为了加快训练速度，本专利将该词典中的词与数据集中出现的词一一对应，对多余的词向量舍弃。

根据本发明优选的，所述步骤(3)，抽取位置向量，包括：

a、获取训练集中的每一个词的位置向量特征，所述位置向量特征的计算公式如式(12)所示：

d^le＝W^led^T (12)

式(12)中，W^le是需要学习的权重矩阵，；^T是初始位置向量，d^le表示位置向量，l是位置向量的第一个字母，e是嵌入编码的第一个字母；

b、将步骤a获取的每一个词的位置向量特征通过线性变换映射到高维空间，设定高维空间的维度为50-90维，得到每个位置向量特征的高维位置特征向量；

c、将步骤(2)获取的每一个词的词向量与该词的高维位置特征向量级联，得到每个词的联合特征。词向量是400维，该词的高维位置特征向量是60-90维，将位置特征向量放到词向量的后面就变成了400+60＝460维的向量，这就是级联，得到的460维的新向量就是联合特征。

本发明的有益效果为：

1、本发明不需要人工抽取任何特征，极大地减少了研究人员的工作，而且，本发明LSTM和CNN联合模型也不需要借助另外的自然语言处理工具对数据做预处理，也不需要引入另外的信息，避免了因这些工具产生的错误积累造成的对整体模型的干扰，以及其它模型需要借助额外信息才能提高表现的问题，实现了对解决这类问题模型的最大程度的精简，算法简单明了，效果达到了目前最好。

2、位置特征对关系分类来说是一个重要的特征，本发明加入该特征后，模型在没有任何外部信息的情况下实现了最好的结果。

3、本发明提出了一种新的LSTM和CNN的连接方式，LSTM用于编码关系分类中实体的上下文信息，只输出实体词对应的编码信息而不是全部编码信息以减少噪音干扰，并用CNN对编码过得实体关系进行分类。

4、本发明LSTM和CNN联合模型详细的解释了各个网络的作用，并充分利用了数据本身提供的信息，利用模型去除冗余信息，保留并利用有用信息，实现了信息利用率的最大化。

5、本发明LSTM和CNN联合模型提出的损失函数弥补了之前交叉熵函数的缺点，并且这个损失函数具有普适性，可以用于任何分类任务中。

6、本发明仅用两层神经网络就达到了很好的效果，且不需要大量的数据来训练模型。

7、本发明利用实体的位置信息解决了关系语义特征不明显的问题。

8、本发明通过对双向LSTM的输出的处理，通过只输出实体对应位置的编码信息来解决信息冗余引入干扰的问题，同时这种方法减少了网络参数，使神经网络更容易训练。

附图说明

图1为本发明LSTM和CNN联合模型的结构框图；

图2为本发明卷积层结构示意图；

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例

一种基于位置的LSTM和CNN联合模型进行关系分类的方法，图1为LSTM和CNN联合模型的结构框图；输入层是整个模型的输入，第二层是位置特征向量层，第三层是词向量层，第四层是连接层，将前面输入的词向量和位置向量连接起来，第五层是编码层，这一层使用的网络结构是双向LSTM神经网络，编码层的输出结果是he1和he2，第六层是卷积层，这一层使用的网络结构是卷积神经网络，将第五层的输出结果作为第六层(卷积层)的输入，进行更精细的特征提取，第七层是分类器，将卷积层输出的高维度向量用这一层转变成19维的分类概率分布，进行分类并输出。包括：

(2)训练词向量；将文本数据转换成数学数据，即获取训练集中的每一个词相应的词向量；包括：

B、将步骤A处理后的数据喂入Word2vec进行训练，训练时，采用skip-gram模型，窗口大小设为8，迭代周期设为15，设定词向量的维度是400维，训练结束后，得到一个词向量映射表；

(3)抽取位置向量；获取训练集中的每一个词的位置向量特征，位置向量特征包括句子中的每个词到实体词的相对距离组成，根据步骤(1)得到的每个实体词在句子中的位置，以实体位置为原点，得到句子中的每个词相对实体词的位置，每个词对两个实体的相对位置组成该词的位置向量特征；包括：

d^le＝W^led^T (12)

式(12)中，W^le是需要学习的权重矩阵，d^T是初始位置向量，d^le表示位置向量，l是位置向量的第一个字母，e是嵌入编码的第一个字母；

b、将步骤a获取的每一个词的位置向量特征通过线性变换映射到高维空间，设定高维空间的维度为60维，得到每个位置向量特征的高维位置特征向量；

c、将步骤(2)获取的每一个词的词向量与该词的高维位置特征向量级联，得到每个词的联合特征。词向量是400维，该词的高维位置特征向量是60维(或60-90维)，将位置特征向量放到词向量的后面就变成了400+60＝460维的向量，这就是级联，得到的460维的新向量就是联合特征；例如，句子为：阿里巴巴公司位于中国杭州，该句子中有两个实体为：公司、杭州，第一个词相对于两个实体的位置为(-1，-,4)，“阿里巴巴”到“公司”的距离是-1，到“杭州”的距离是-5；第二个词到两个实体的距离是(0，-3)，“公司”到“公司”的距离是0，到“杭州”的距离是-3；

并获取每个位置向量特征的高维位置特征向量，将步骤(2)获取的每一个词的词向量与该词的高维位置特征向量级联，得到每个词的联合特征；

(4)针对具体任务建模；利用双向LSTM编码实体词的上下文信息和语义信息；式(1)用于求取t时刻LSTM单元中的输入门的值，式(2)用于求取t时刻LSTM单元中的遗忘门的值，式(3)用于求取t时刻LSTM单元中的输出门的值，式(4)用于求t时刻LSTM单元的输入状态，式(5)用于求t时刻的LSTM单元的细胞状态，式(6)用于求t时刻LSTM单元的隐藏层状态，式(1)-式(6)如下所示：

c_t＝i_t⊙g_t+f_t⊙c_t-1 (5)

h_t＝o_t⊙tanh(c_t) (6)

双向LSTM编码后，隐藏层只输出标记实体词对应位置的向量，标记实体词对应位置的向量是指一个句子中给出的两个实体词对应的双向LSTM神经元的隐藏层的输出，具体见图1中编码层的输出，计算公式如式(7)所示：

r_x＝max(tanh(W_ch_si+b_c))i∈[1，num] (7)

式(7)中，r_x是指卷积层的输出，W_c是需要学习的权重矩阵，d^c是卷积层神经元数目，d^h是双向LSTM的隐藏层节点数，hei表示双向LSTM编码后的输出(也称作双向LSTM的隐藏层输出)，i表示双向LSTM输出的第i个，i＝1和i＝2，图1中有对应的结构，h_e1和h_e2，b_c是偏置向量，卷积层的激活函数选择双曲正切函数，num是编码层(图1中编码层包括双向LSTM层和双向LSTM层的输出)输出的实体词数；

将双向LSTM编码后的输出输入至CNN，输出两个实体词及其上下文信息、关系词信息，上下文信息是指当前词前面的词和后面的词；关系词信息是指两个实体词之间的词；将两个实体词及其上下文信息、关系词信息输入至分类器中进行分类；如图2所示，箭头表示将上一层的输出作为当前层的输入，卷积核用于捕获he1和he2中的关系信息，第三部分是每个卷积核的输出，第四部分是最大化池，选取卷积核输出元素中最大的一个值作为特征代表，然后将最大化池输出的每一个元素连接起来做成一个向量作为关系词特征(每一个最大化池输出一个值，如果有500个最大化池就输出500个值。将这500个值组成一个500维的向量作为关系词特征)。

分类器的计算公式及对类别的评分函数分别如式(8)、(9)所示：

score(x)＝W_sr_x+b_s (8)

s_c＝[W_sr_x+b_s]_c (9)

(5)采用损失函数训练模型。以弥补交叉熵函数的不足。交叉熵做损失函数只是捕获了当前网络状态下正确类别的信息量，而没有捕获到当前网络状态下对样本最适宜的类别判断与真实的类别之间的差距。本专利通过对max-margin函数做变种实现了将样本的正确类别与当前网络状态下样本的决策类别的差距都捕获到并通过对这种差距的修正使网络向着决策正确的方向训练。分类器得到的样本的概率分布中最大的概率值s′_c(概率分布是一个19维的向量，每个维度有一个值，s′_c表示最大的值)的计算公式如式(10)所示，损失函数的计算公式如式(11)所示：

s′_c＝max(W_sr_x+b_s) (10)

式(11)中，-∑_xp_xlogq_x是指交叉熵函数，x是要判断的样本，2_x是样本类别的标准分布，q_x是样本类别的预测分布；∑_xmax[0,m-λ·σ(s_c)+λ·σ(s′_c)]是指变种max-margin函数，用于弥补交叉熵函数的不足，m和λ是人为选择的超参数，σ是sigmoid函数。

表1是本发明模型结果及与其他方法的比较；

表1

表1中，Word embedding是指词向量，POS是指词性标注，NER是指命名实体识别，Wordnet＝词性网，Grammar是指语法，dependency parsing是指依存句法分析，positionembedding是指位置向量，location embedding是指位置向量，表1第一行是现在出现的模型名称，第二行是这些模型中使用的特征，本发明在只使用词向量作为输入特征就取得了比较好的结果，加入了位置特征向量后到了最好的结果，比其他的方法提高了0.3％的F1值。本发明模型结构简单且效果突出，没有使用任何人工特征，大大减少了工作人员的工作，模型结构简单只需要很少的数据就可以训练完成。

Claims

1.一种基于位置的LSTM和CNN联合模型进行关系分类的方法，其特征在于，包括：

(1)数据预处理；先采用one-hot形式来表示数据集中的实体词，再根据数据集中的文本类别对数据进行类别标定；将数据集分为训练集和测试集；

(3)抽取位置向量；获取训练集中的每一个词的位置向量特征，位置向量特征包括句子中的每个词到实体词的相对距离组成，根据步骤(1)得到的每个实体词在句子中的位置，以实体位置为原点，得到句子中的每个词相对实体词的位置，每个词对两个实体的相对位置组成该词的位置向量特征；并获取每个位置向量特征的高维位置特征向量，将步骤(2)获取的每一个词的词向量与该词的高维位置特征向量级联，得到每个词的联合特征；

(5)采用损失函数训练模型。

2.根据权利要求1所述的一种基于位置的LSTM和CNN联合模型进行关系分类的方法，其特征在于，所述步骤(4)，利用双向LSTM编码实体词的上下文信息和语义信息，式(1)用于求取t时刻LSTM单元中的输入门的值，式(2)用于求取t时刻LSTM单元中的遗忘门的值，式(3)用于求取t时刻LSTM单元中的输出门的值，式(4)用于求t时刻LSTM单元的输入状态，式(5)用于求t时刻的LSTM单元的细胞状态，式(6)用于求t时刻LSTM单元的隐藏层状态，式(1)-式(6)如下所示：

<mrow> <msub> <mi>i</mi> <mi>t</mi> </msub> <mo>=</mo> <mi>&sigma;</mi> <mrow> <mo>(</mo> <msup> <mi>W</mi> <mi>i</mi> </msup> <mo>(</mo> <mrow> <msub> <mi>w</mi> <mi>t</mi> </msub> <mo>;</mo> <msubsup> <mi>d</mi> <mi>t</mi> <mrow> <mi>l</mi> <mi>e</mi> </mrow> </msubsup> </mrow> <mo>)</mo> <mo>+</mo> <msup> <mi>U</mi> <mi>i</mi> </msup> <msub> <mi>h</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>+</mo> <msup> <mi>b</mi> <mi>i</mi> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>f</mi> <mi>t</mi> </msub> <mo>=</mo> <mi>&sigma;</mi> <mrow> <mo>(</mo> <msup> <mi>W</mi> <mi>f</mi> </msup> <mo>(</mo> <mrow> <msub> <mi>w</mi> <mi>t</mi> </msub> <mo>;</mo> <msubsup> <mi>d</mi> <mi>t</mi> <mrow> <mi>l</mi> <mi>e</mi> </mrow> </msubsup> </mrow> <mo>)</mo> <mo>+</mo> <msup> <mi>U</mi> <mi>f</mi> </msup> <msub> <mi>h</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>+</mo> <msup> <mi>b</mi> <mi>f</mi> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>o</mi> <mi>t</mi> </msub> <mo>=</mo> <mi>&sigma;</mi> <mrow> <mo>(</mo> <msup> <mi>W</mi> <mi>o</mi> </msup> <mo>(</mo> <mrow> <msub> <mi>w</mi> <mi>t</mi> </msub> <mo>;</mo> <msubsup> <mi>d</mi> <mi>t</mi> <mrow> <mi>l</mi> <mi>e</mi> </mrow> </msubsup> </mrow> <mo>)</mo> <mo>+</mo> <msup> <mi>U</mi> <mi>o</mi> </msup> <msub> <mi>h</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>+</mo> <msup> <mi>b</mi> <mi>o</mi> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

Wⁱ，W^f，W^o，W^g，Uⁱ，U^f，U^o代表需要学习的权重矩阵，bⁱ，b^f，b^o，b^g代表偏置向量，σ表示sigmoid激活函数，表示点乘运算，tanh表示双曲正切函数用作激活函数。

3.根据权利要求1所述的一种基于位置的LSTM和CNN联合模型进行关系分类的方法，其特征在于，所述步骤(4)，将双向LSTM编码后的输出输入至卷积层，输出两个实体词及其上下文信息、关系词信息，计算公式如式(7)所示：

r_x＝max(tanh(W_ch_ei+b_c)) (7)

式(7)中，r_x是指卷积层的输出，W_c是需要学习的权重矩阵，d^c是卷积层神经元数目，d^h是双向LSTM的隐藏层节点数，h_ei表示双向LSTM编码后的输出，i表示双向LSTM输出的第i个，i∈[1，num]，i＝1或i＝2，b_c是偏置向量，卷积层的激活函数选择双曲正切函数，num是编码层输出的实体词数；

LSTM和CNN联合模型包括双向LSTM层、卷积层，隐藏层是双向LSTM层的内部的层，代表双向LSTM的输出。

4.根据权利要求1所述的一种基于位置的LSTM和CNN联合模型进行关系分类的方法，其特征在于，所述步骤(4)，将两个实体词及其上下文信息、关系词信息输入至分类器中进行分类，分类器的计算公式及对类别的评分函数分别如式(8)、(9)所示：

score(x)＝W_sr_x+b_s (8)

s_c＝[W_sr_x+b_s]_c (9)

5.根据权利要求1所述的一种基于位置的LSTM和CNN联合模型进行关系分类的方法，其特征在于，所述步骤(5)，采用损失函数训练模型，分类器得到的样本的概率分布中最大的概率值s′_c的计算公式如式(10)所示，损失函数的计算公式如式(11)所示：

s′_c＝max(W_sr_x+b_s) (10)

式(11)中，-∑_xp_xlog q_x是指交叉熵函数，x是要判断的样本，p_x是样本类别的标准分布，q_x是样本类别的预测分布；∑_xmax[0,m-λ·σ(s_c)+λ·σ(s′_c)]是指变种max-margin函数，用于弥补交叉熵函数的不足，m和λ是人为选择的超参数，σ是sigmoid函数。

6.根据权利要求1所述的一种基于位置的LSTM和CNN联合模型进行关系分类的方法，其特征在于，所述步骤(2)，训练词向量，包括：

C、根据步骤B得到的词向量映射表，获取训练集的每一个词对应的词向量。

7.根据权利要求1-6任一所述的一种基于位置的LSTM和CNN联合模型进行关系分类的方法，其特征在于，所述步骤(3)，抽取位置向量，包括：

d^le＝W^led^T (12)

c、将步骤(2)获取的每一个词的词向量与该词的高维位置特征向量级联，得到每个词的联合特征。