CN110532395B

CN110532395B - 一种基于语义嵌入的词向量改进模型的建立方法

Info

Publication number: CN110532395B
Application number: CN201910395662.6A
Authority: CN
Inventors: 张雷; 唐思雨; 潘元元; 路千惠; 谢俊元
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2021-09-28
Anticipated expiration: 2039-05-13
Also published as: CN110532395A

Abstract

本发明公开了一种基于语义嵌入的词向量改进模型的建立方法，包含如下步骤：1)双向长短期记忆网络训练阶段；2)上下文向量计算阶段：将句子和目标单词t输入步骤1训练好的双向长短期记忆网络中，求得上下文向量；3)上下文向量语义聚类阶段：a使用余弦相似度计算当前的上下文向量和单词t每个语义簇中心相似度；b使用贝叶斯非参数统计模型计算当前上下文向量归属为的类簇的概率P；c最大化P值并求出该值对应的类簇；c对当前上下文向量归属的类簇中心进行偏移；4)语义向量计算阶段。本发明利用神经网络和贝叶斯非参数统计方法为解决了当前词向量模型无法解决单词存在的一词多义问题。

Description

一种基于语义嵌入的词向量改进模型的建立方法

技术领域

本发明涉及一种改进的词向量模型的建立方法，该方法建立的模型解决了当前使用的词向量模型无法表示出多义词的多个语义问题。

背景技术

当下，互联网已经成为人们获取信息和发布信息的重要方式。网络平台上的信息往往蕴含着巨大的价值，怎样中海量的文本信息中提取出有价值的内容是计算机学科关注的重点问题之一。深度学习技术的发展提高了计算机对数据的处理能力也促进了自然语言学习领域的发展。而使用深度学习进行自然语言处理时，一个不可或缺的过程就是词的向量化表示。在单词表示上，应用最广泛的是word2vec词向量模型。该模型有Skip-Gram和CBOW两种结构，通过神经网络对单词和上下文之间的联系进行建模，每个单词唯一对应于词向量空间中的一个向量。

目前使用较广泛的词向量模型都是使用词语和向量一一对应的方式，及假设词语只有一个固定的语义。但是在自然语言中，多义词的比重达到42％。人在阅读时对于多义词语义的判断依赖于自身的知识储备和推理能力，但是对于机器来说，很难分辨多义词在具体语境下代表的含义。

词向量在表示多义词方面表示不足限制影响了其在一些NLP应用中的准确度。在语境中，词的语义表达会受到上下文、语法结构、词序等因素影响。为了克服这个问题，语义向量发展而来。按照词的多义性，词向量空间中的单词可以对应到多个语义空间向量中。

发明内容

发明目的：考虑到传统词向量表示方法对于多义词表示的欠缺，本发明提供一种基于语义嵌入的词向量改进模型的建立方法，本发明结合双向长短期神经网络、神经张量网络、贝叶斯非参数构造的过程，构建了一个完整的多义词语义归纳、语义表示和语义消歧模型。首先通过大规模语料库训练双向长短期神经网络参数，然后将目标单词的所有上下文送入神经网络求出对应的上下文词向量，并根据上下文向量之间的余弦相似度构造贝叶斯非参数聚类，聚类的类簇代表单词不同的语义，对每个类簇使用单隐层神经网络训练对应的语义向量。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于语义嵌入的词向量改进模型的建立方法，包括如下步骤：

步骤1，双向长短期记忆网络训练阶段：获取维基百科数据集，抽取数据集中网页的文本内容作为训练使用的语料库；删除语料库中长度小于10个单词或者大于60个单词的语句；对抽取出来的语句统计各个单词，建立统计词表；使用自然语言处理包NLTK删除句子中停用词；根据统计词表删除出现较少的罕见词，将预处理好的句子和目标单词送入神经网络模型biLSTM中进行训练；

步骤2，上下文向量计算阶段：对于单词w_t，抽取在语料库中所有含有w_t的句子C＝{c₁,c₂,…,c_N}；N表示在语料库中所有含有w_t的句子数，将所有含有w_t的句子送入训练好的神经网络模型biLSTM中计算上下文向量和全局词向量，上下文向量为{v_c(w_t,1),v_c(w_t,2),…,v_c(w_t,i),…,v_c(w_t,N)}，i＝1至N，全局词向量为v_g(w_t)；对于每个上下文向量v_c(w_t,i)先计算v_c(w_t,i)和每个已有类簇中心的余弦相似度；根据余弦相似度使用贝叶斯非参数模型PYP-CRP计算v_c(w_t,i)所属的类簇k；

其中，s₁,s₂,…,s_i-1为已有的每个实例语义分配类别，计算方法是令t分别为当前的各个类簇t＝{1,2,…K}，

为s_i和s_t的余弦相似度，

为s_i属于s_t的概率，取其中能得到最大概率的k值表示所属类簇，s_i表示第i个上下文向量归属的类簇，d表示中国餐馆过程(Chinese Restaurant Process，CRP)中的参数，θ表示中国餐馆过程中的参数，G₀表示狄利克雷过程，K表示当前的类簇数目，n_t表示第t个类簇中已有的实例数目；

步骤3，语义归纳阶段：对每个上下文向量v_c(w_t,i)，进行以下的计算：先计算v_c(w_t,i)和每个已有类簇中心的余弦相似度，之后使用贝叶斯非参数模型PYP-CRP计算v_c(w_t,i)归属于的每个类簇的概率{p(v_i,1),p(v_i,2),…,p(v_i,K)}以及v_c(w_t,i)对应于新的语义簇的概率p(v_i,K+1)，K表示当前已有类簇数量；取其中的最大值对应的类簇k作为v_c(w_t,i)归属的语义簇；如果k大于当前已有类簇数量K，需要增加类簇，并使用v_c(w_t,k)初始化该类簇中心，使用v_g(w_t)初始化该类簇对应语义向量v_s(w_t,i)；如果k小于K，则对第k个类簇中心进行偏移；

步骤4，语义向量训练阶段：当前选择的类簇k对应的语义向量为v_s(w_t,i)，将v_s(w_t,i)和上下文单词{v_g(c₁),v_g(c₂),…,v_g(c_N)}输入单隐层神经网络，通过误差反向传播方法和负采样调节神经网络权重，完成模型的建立。

优选的：步骤1中神经网络模型biLSTM的建立过程如下：

步骤1a)，将句子单词{w₁,w₂,…,w_N}转化为One-hot表示，One-hot含义为词的离散表示，该算法将每个词表示为一个长度固定的向量，长度为词典的大小，是一种稀疏向量。该向量只有一个维度为1，对应位置为词在词典中的索引；

步骤1b)，对于每个句子，当目标单词为w_t时，输入目标单词位置t和w_t所在语句的向量化表示{w₁,w₂,…,w_N}，使用{w₁,w₂,…,w_t-1}和{w_t+1,w_t+2,…,w_N}作为目标单词的上文特征和下文特征输入双向长短期记忆网络，w_t作为目标输入；

步骤1c)，神经网络模型biLSTM为两条反方向的LSTM神经网络，LSTM中的转换过程表示为：

f_t＝σ(W_f·X+b_f)

i_t＝σ(W_i·X+b_i)

o_t＝σ(W_o·X+b_o)

c_t＝f_t⊙c_t-1+i_r⊙tanh(W_c·X+b_c)

h_t＝o_t⊙tanh(c_i)

其中，X表示当前输入序列，h_t-1表示上一时刻输出值，x_t表示当前时刻值，f_t表示遗忘门，σ表示sigmoid激活函数，W_f表示遗忘门权重矩阵，b_f表示遗忘门偏移量，i_t表示输入门，W_i表示输入门权重矩阵，b_i表示输入门偏移量，o_t表示输出门，W_o表示输出门权重矩阵，b_o表示输出门偏移量，c_t表示细胞状态，⊙表示矩阵乘法，tanh()表示激活函数。

步骤1d)、双向长短期网络的输出分别为lLS和rLS；lLS和rLS分别表示目标单词的上文特征和下文特征，通过神经张量网络将上文特征和下文特征进行结合，神经张量网络算法过程如下：

其中，lLS和rLS为双向长短期记忆网络的输出，T为神经张量网络权重矩阵，v表示神经张量网络输出，W表示权重矩阵，b表示偏移量；

在训练神经网络时需要使用负采样方法，损失函数为：

其中，E表示损失函数，σ表示激活函数，

为目标单词，

为目标单词所在上下文，

为词表中的非目标单词；

负采样本着单词出现频率越高采样概率越大的原则，使用的算法是：

其中，P(w)表示单词w被采样的概率，counter表示单词w出现的次数，w表示被抽样的单词，α表示需设置的参数，u表示目标文档中的单词，D表示目标文档，α＝0.75；

使用自适应时刻估计算法更新权重，输出已经训练好的biLSTM神经网络结构参数用于后续上下文向量的计算；

优选的：步骤1a)中One-hot处理过程为：

l←E([w₁,w₂,...w_i-1])

r←E([w_i+1,w₂,...w_n])

其中，l表示上文，E([w₁,w₂,...w_i-1])表示使用One-hot编码单词序列[w₁,w₂,...w_i-1]，←表示赋值，r表示下文，表示One-hot编码单词序列[w_i+1,w₂,...w_n]，

表示目标值，E(w_i)表示使用One-hot编码w_i。

优选的：步骤2中余弦相似度公式为：

其中，sim(x,y)表示x和y的余弦相似度，m表示向量维度数目，x_i表示x在第i个维度的值，y_i表示y在第i个维度的值。

步骤2中所述的贝叶斯非参数模PYP-CRP计算过程如下：

其中，P表示第i个实例属于第k个类簇的概率，s_i表示第i个实例所属类簇，S_-i表示实例中去除第i个以外的其它实例，d表示中国餐馆过程(CRP)的参数，θ表示中国餐馆过程中的参数，i表示第i个实例，C_k表示第k个类簇中已有的实例数目，K表示已有的类簇总数目，δ_k为上下文向量和类簇中心的余弦相似度；计算出实例i属于每个类簇的概率，选择概率最大的类簇k；此时分为两种情况：第一种为k＜K，需要对选中类簇k进行偏移；第二种为k＝K+1，需要添加一个类簇并使用v_c(w_t,k)初始化该类簇中心，使用v_g(w_t)初始化该类簇对应语义向量v_s(w_t,i)，对于单词w_t的所有上下文向量{v_c(w_t,1),v_c(w_t,2),…,v_c(w_t,N)}，都要由该公式计算该上下文向量应归属的类簇；

PYP-CRP为使用中国餐馆过程构建的双参数狄利克雷过程分布，中国餐馆过程描述为如果分布G服从狄利克雷过程分布，序列g₁,g₂,…是G生成的独立同分布序列，在已知g₁,g₂,…,g_n-1的情况下，第n个样本采样的过程称为中国餐馆过程：

其中，其中，λ表示中国餐馆过程中的参数，H表示服从狄利克雷过程，

表示第i个值属于第k个类簇的倾向。

采样过程相当于在一家中餐馆，餐桌数量为无限多，对于每位来餐厅的顾客g_i，用φ_k表示供选择的餐桌，对于每一位刚进入餐馆的顾客来说，选择餐桌φ_k的概率正比于该餐桌上的顾客m_k，或者是以正比于λ的概率选择一张新餐桌因此称为中国餐馆过程。

优选的：步骤4中所述的单隐层神经网络训练的具体过程如下：

步骤4a)，输入当前选择的类簇k对应的语义向量为v_s(w_t,i)以及v_s(w_t,i)的上下文单词{v_g(c₁),v_g(c₂),…,v_g(c_N)}，v_g(c_i)表示上下文单词i的全局向量，目标函数为：

其中，J表示目标函数，P表示概率值，C_i表示上下文，c表示上下文中的单词，D表示目标文档，vec(c)表示向量化上下文中的单词，w_i表示目标单词，-C_i表示不在目标文档中，c′表示采样的单词。

步骤4b)，进行负采样，采样概率计算公式为：

其中，P(w_i)表示w被采样的概率，V表示词表大小，α表示需要设置的参数；

步骤4c)通过误差反向传播方法调节神经网络权重。

优选的：步骤4b)的具体过程如下：语义向量为v_s(w_t,s_t)，单词c出现在w_t表示的语义为s_t的概率表示为：

单词c不出现在w_t表示的语义为s_t的概率表示为：

P(D＝0|v_s(w_t,s_t),v_g(c))＝1-P(D＝1|v_s(w_t,s_t),v_g(c))

其中，P(D＝0|v_s(w_t,s_t),v_g(c))表示单词c出现在w_t表示的语义为s_t的概率，P(D＝0|v_s(w_t,s_t),v_g(c))表示单词c不出现在w_t表示的语义为s_t的概率。

优选的：α为0.75。

本发明相比现有技术，具有以下有益效果：

本发明通过使用双向长短期记忆神经网络和神经张量网络对目标单词上下文特征进行提取，相比于当前训练方法能更好地捕捉到上下文的单词顺序特征，并且拥有距离目标单词越近所占特征比重越大的特点。此外，使用贝叶斯非参数构造聚类过程，可以不用事先指定每个单词的语义数目，类簇数目会根据词语复杂性进行调整。该发明主要分成两个部分，第一部分是用于获取上下文特征的biLSTM结构，经过语料库训练可以得到上下文向量和词向量。得到的上下文向量用于语义归纳中对语义簇进行初始化及更新，词向量则用于语义表示的计算。在biLSTM结构中，为了更好地连接上下文特征，本文加入了神经张量网络对biLSTM结构进行优化。第二部分的功能是语义归纳和语义表示。语义归纳在计算时使用贝叶斯非参数构造方法。该发明不仅能更好地获取到单词的上下文特征信息，还能根据单词语义复杂度对单词语义数目进行调整，在语义表示和语义归纳上都相比于现有模型有更好的效果。

附图说明

图1是发明的整体流程图

图2是上下文词向量训练流程图

图3是上下文词向量训练模型图

图4是语义归纳过程图示

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种基于语义嵌入的词向量改进模型的建立方法，如图1-4所示，该方法主要包括三个阶段，分别是：上下文向量训练阶段，语义归纳阶段和语义表示阶段。具体包括以下步骤包括如下步骤：

1)上下文向量训练阶段，(图1中1-3步骤)：如图2、3所示，

1)-a处理大规模语料库，提取文本内容，删除长度小于10或者大于60的语句。

1)-b构建语料库词表，去除语句中的停用词和罕见词，停用词使用自然语言处理包NLTK3.0直接去除，罕见词使用UNK代替；

1)-c对于语料库中的每个句子，将句子单词{w₁,w₂,…,w_N}转化为One-hot表示。当目标单词为w_t时，输入目标单词位置t,将w_t所在句子的{w₁,w₂,…,w_t-1}和{w_t+1,w_t+2,…,w_N}分别作为双向长短期记忆网络的两个方向作为输入，w_t作为目标输入；

其中1)-c中神经网络的训练过程具体如下：

将两个方向的输入分别表示为l和r，那么经过One-hot处理可以表示为：

l←E([w₁,w₂,…w_i-1])

r←E([w_i+1,w₂,...w_n])

其中，E()表示将单词使用One-hot表示。

在长短期记忆网络中的转化可以表示为：

f_t＝σ(W_f·X+b_f)

i_t＝σ(W_i·X+b_i)

o_t＝σ(W_o·X+b_o)

c_t＝f_t⊙c_t-1+i_r⊙tanh(W_c·X+b_c)

h_t＝o_t⊙tanh(c_i)

其中d是上下文向量维数，d_w是输入向量维数。设置该发明中的d和d_w维度为300。

双向长短期网络的输出分别为iLS和rLS。iLS和rLS分别表示目标单词的上文特征和下文特征，需要通过神经张量网络进行特征的融合。

其中在神经张量网络部分使用的计算为：

其中lLS和rLS为双向长短期神经网络的两个方向输出，神经张量网络中的参数T，W，b需要通过训练得到。

在训练神经网络时需要使用负采样方法，损失函数为：

其中为

目标单词，

为目标单词所在上下文，

为词表中的非目标单词。

其中α＝0.75；

1)-d使用自适应时刻估计(Adaptive Moment Estimation)算法更新权重。

1)-e输出已经训练好的biLSTM神经网络结构参数用于后续上下文向量的计算

1)-f结束；

2)语义归纳阶段，(图1中5-10步骤)，如图4所示：

2)-a对于单词w_t，抽取在语料库中所有含有w_t的句子C＝{c₁,c₂,…,c_N}；

2)-b将所有含有w_t的句子C＝{c₁,c₂,…,c_N}送入训练好的biLSTM中计算上下文向量和全局词向量，上下文向量为{v_c(w_t,1),v_c(w_t,2),…,v_c(w_t,N)}，全局词向量为v_g(w_t)；

2)-c对于每个上下文向量v_c(w_t,i)先计算v_c(w_t,i)和每个已有类簇中心的余弦相似度；

其中2)-c中，计算余弦相似度的方法是：

2)-d之后使用贝叶斯非参数模型PYP-CRP计算v_c(w_t,i)所属的类簇k；

其中s₁,s₂,...,s_i-1为已有的每个实例语义分配类别。计算方法是令t分别为当前的各个类簇即t＝{1,2,…K}，

为s_i和s_t的余弦相似度，

为s_i属于s_t的概率。取其中能得到最大概率的k值表示所属类簇。

PYP-CRP为使用中国餐馆过程(Chinese Restaurant Process，CRP)构建的双参数狄利克雷过程分布(Pitman-Yor Process，PYP)，是一种非参数贝叶斯模型。该方法可以用于上下文向量的聚类。中国餐馆过程可以描述为如果分布G服从狄利克雷过程分布，序列g₁,g₂,…是G生成的独立同分布序列。在已知g₁,g₂,…,g_i-1的情况下，第i个样本采样的过程称为中国餐馆过程：

过程相当于在一家中餐馆，餐桌数量为无限多。对于每位来餐厅的顾客g_i，用φ_k表示供选择的餐桌，对于每一位刚进入餐馆的顾客来说，选择餐桌φ_k的概率正比于该餐桌上的顾客m_k，或者是以正比于λ的概率选择一张新餐桌。

步骤2)-e根据得到的k值更新对应类簇的中心向量和语义向量；

步骤2)-e-1)如果k大于当前已有类簇数量K，需要增加类簇，并使用v_c(w_t,k)初始化该类簇中心，使用v_g(w_t)初始化该类簇对应语义向量v_s(w_t,i)；

步骤2)-e-2)如果k小于K，则对第k个类簇中心进行偏移。

步骤2)-e-3)的偏移方法为c(w_t，i)为选中的类簇，v_context为上下文向量，那么有

c(w_t,i)＝c(w_t,i)+v_context

3)语义向量计算阶段，(图1中11-13步骤)：

3)-a当前选择的类簇k对应的语义向量为v_s(w_t,i)，将v_s(w_t,i)和上下文单词{v_g(c₁),v_g(c₂),…,v_g(c_N)}输入单隐层神经网络；

3)-b进行负采样，采样概率计算公式为：

设置其中的α为0.75；

步骤3)-b的具体过程如下：语义向量为v_s(w_t,s_t)，单词c出现在w_t表示的语义为s_t的概率可以表示为：

单词c不出现在w_t表示的语义为s_t的概率可以表示为：

P(D＝0|v_s(w_t,s_t),v_g(c))＝1-P(D＝1|v_s(w_t,s_t),v_g(c))

3)-c通过误差反向传播方法调节神经网络权重。

3)-d结束。

本发明采用了双向长短期记忆网络和神经张量网络提取每个词汇在语料库中所有上下文特征，并利用贝叶斯非参数构造聚类过程对上下文特征聚类得到不同的语义簇，使用单隐层神经网络训练每个语义簇的语义向量表示作为每个单词的语义向量。该发明解决了当下的词向量不能有效表示多义词问题。本发明通过对多义词建立词汇和语义一对多关系将当前的词向量细化为语义向量，将义词的每个语义映射为向量空间中对应的一个向量。这种方法相比于现有算法有利于消除句子中单词的歧义有助于对句子语义的理解。在具体使用时，需要选择多义词对应的向量中概率最大的语义向量作为对应的语义向量值。这种方法对于解决自然语言理解问题中多义词带来的困难有很好的效果。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于语义嵌入的词向量改进模型的建立方法，其特征在于，包括如下步骤：

步骤1，双向长短期记忆网络训练阶段：获取维基百科数据集，抽取数据集中网页的文本内容作为训练使用的语料库；删除语料库中长度小于10个单词或者大于60个单词的语句；对抽取出来的语句统计各个单词，建立统计词表；使用自然语言处理包NLTK删除句子中停用词；根据统计词表删除出现的罕见词，将预处理好的句子和目标单词送入神经网络模型biLSTM中进行训练；

其中，s₁,s₂,...,s_i-1为已有的每个实例语义分配类别，计算方法是令t分别为当前的各个类簇t＝{1,2,…K}，

为s_i和s_t的余弦相似度，

为s_i属于s_t的概率，取其中能得到最大概率的k值表示所属类簇，s_i表示第i个上下文向量归属的类簇，d表示中国餐馆过程中的参数，θ表示中国餐馆过程中的参数，G₀表示狄利克雷过程，K表示当前的类簇数目，n_t表示第t个类簇中已有的实例数目；

所述的贝叶斯非参数模PYP-CRP计算过程如下：

其中，P表示第i个实例属于第k个类簇的概率，s_i表示第i个实例所属类簇，S_-i表示实例中去除第i个以外的其它实例，d表示中国餐馆过程的参数，θ表示中国餐馆过程中的参数，i表示第i个实例，C_k表示第k个类簇中已有的实例数目，K表示已有的类簇总数目，δ_k为上下文向量和类簇中心的余弦相似度；计算出实例i属于每个类簇的概率，选择概率最大的类簇k；此时分为两种情况：第一种为k＜K，需要对选中类簇k进行偏移；第二种为k＝K+1，需要添加一个类簇并使用v_c(w_t,k)初始化该类簇中心，使用v_g(w_t)初始化该类簇对应语义向量v_s(w_t,i)，对于单词w_t的所有上下文向量{v_c(w_t,1),v_c(w_t,2),…,v_c(w_t,N)}，都要由该公式计算该上下文向量应归属的类簇；

其中，λ表示中国餐馆过程中的参数，H表示服从狄利克雷过程，

表示第i个值属于第k个类簇的倾向；

步骤3，语义归纳阶段：如果k大于当前已有类簇数量K，需要增加类簇，并使用v_c(w_t,k)初始化该类簇中心，使用v_g(w_t)初始化该类簇对应语义向量v_s(w_t,i)；如果k小于K，则对第k个类簇中心进行偏移；

步骤4，语义向量训练阶段：当前选择的类簇k对应的语义向量为v_s(w_t,i)，将v_s(w_t,i)和上下文单词{v_g(c₁),v_g(c₂),…,v_g(c_N)}输入单隐层神经网络，通过误差反向传播方法和负采样调节神经网络权重，完成模型的建立；

所述的单隐层神经网络训练的具体过程如下：

其中，J表示目标函数，P表示概率值，C_i表示上下文，c表示上下文中的单词，D表示目标文档，vec(c)表示向量化上下文中的单词，w_i表示目标单词，-C_i表示不在目标文档中，c′表示采样的单词；

步骤4b)，进行负采样，采样概率计算公式为：

步骤4b)的具体过程如下：语义向量为v_s(w_t,s_t)，单词c出现在w_t表示的语义为s_t的概率表示为：

单词c不出现在w_t表示的语义为s_t的概率表示为：

P(D＝0|v_s(w_t,s_t),v_g(c))＝1-P(D＝1|v_s(w_t,s_t),v_g(c))

其中，P(D＝0|v_s(w_t,s_t),v_g(c))表示单词c出现在w_t表示的语义为s_t的概率，P(D＝0|v_s(w_t,s_t),v_g(c))表示单词c不出现在w_t表示的语义为s_t的概率；

步骤4c)通过误差反向传播方法调节神经网络权重。

2.根据权利要求1所述基于语义嵌入的词向量改进模型的建立方法，其特征在于：步骤1中神经网络模型biLSTM的建立过程如下：

步骤1a)，将句子单词{w₁,w₂,…,w_N}转化为One-hot表示，One-hot为词的离散表示，

f_t＝σ(W_f·X+b_f)

i_t＝σ(W_i·X+b_i)

o_t＝σ(W_o·X+b_o)

c_t＝f_t⊙c_t-1+i_t⊙tanh(W_c·X+b_c)

h_t＝o_t⊙tanh(c_t)

其中，X表示当前输入序列，h_t-1表示上一时刻输出值，x_t表示当前时刻值，f_t表示遗忘门，σ表示sigmoid激活函数，W_f表示遗忘门权重矩阵，b_f表示遗忘门偏移量，i_t表示输入门，W_i表示输入门权重矩阵，b_i表示输入门偏移量，o_t表示输出门，W_o表示输出门权重矩阵，b_o表示输出门偏移量，c_t表示细胞状态，⊙表示矩阵乘法，tanh()表示激活函数；