CN109101584A

CN109101584A - 一种将深度学习与数学分析相结合的句子分类改进方法

Info

Publication number: CN109101584A
Application number: CN201810812774.2A
Authority: CN
Inventors: 全哲; 王静; 刘彦; 林轩; 李传莹
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2018-07-23
Filing date: 2018-07-23
Publication date: 2018-12-28
Anticipated expiration: 2038-07-23
Also published as: CN109101584B

Abstract

本发明提供了一种将深度学习与数学分析相结合的句子分类改进方法，该方法结合了深度学习和数学分析在处理句子问题中的优势，即长短时记忆网络(LSTM)能将句子中词的词序信息和上下文信息都考虑进去，反词频权重(AWF)能突出词在语料库中的统计特征，通过数学方法将原始向量表示S0减去S0在第一主成成分V1上的投影，得到改进后的句子特征向量表示S1，将S1作为softmax层的输入得到句子分类结果。将这些优势结合在一起，取长补短，有助于句子建模的可靠性得到更好的句子语义特征表示，从而提高句子分类的精度。同样也可用于文本(多个句子)建模的基础，有助于获得更好的文本(多个句子)分类方法。

Description

一种将深度学习与数学分析相结合的句子分类改进方法

技术领域

本发明属于短文本分类领域，涉及一种将深度学习与数学分析相结合的句子分类改进方法。

背景技术

对句子分类是自然语言领域最基础的任务之一。对句子分类最大的难点在于句子特征的提取。现有特征提取的方法大概分为三种。第一，传统的句子分类方法，主要先人工提取句子的特征，再用机器学习方法比如支持向量机，朴素贝叶斯等算法进行监督训练然后得到分类器；第二，将句子的每个词用词向量表示，再对句子中的每个词向量的每个维度上进行求和平均建模成句子向量的表示方法，再用一层简单的softmax层进行分类；三是利用深度学习方法通过神经网络自动学习特征将句子建模成句子特征向量再加入softmax层进行分类。第一种人工提取特征会耗费大量的时间和精力，并且提取的特征不一定有用；第二种直接将词向量进行求和平均计算成句子向量的方法使得在与语义无关的方向上具有巨大的分量，并且有些特征会随着求和平均变得不怎么明显，而且忽略了句子的词序问题，从而使得分类效果不佳；第三种方法就忽略了一个句子中所有词在文本的数值特征问题(比如在大语料库上出现的频率，将词向量组成矩阵进行次分量分析(MCA))，并且这种方法也存在着与句子语义无关的巨大分量，导致分类效果不好。

名词解释：

sigmoid操作:即sigmoid函数，被用作神经网络的阈值函数，将变量映射到0,1之间。

LSTM网络：长短期记忆网络，由长短时记忆网络单元组成，通过“门”(gate)来控制丢弃或者增加信息，从而实现遗忘或记忆的功能。“门”是一种使信息选择性通过的结构，由一个sigmoid函数和一个点乘操作组成。sigmoid函数的输出值在[0,1]区间，0代表完全丢弃，1代表完全通过。

AWF权重：是本发明中通过一个公式将词频表示而成的给予特征向量的权重，称之为AWF权重。

Softmax：一个深度学习中的常用函数，softmax函数的其输入是一个向量，而其输出也是一个向量，向量中的每个元素都是介于0和1之间的概率值。

发明内容

本发明提供了一种利用深度学习与数学分析方法相结合的句子分类改进方法，该方法结合了深度学习和数学分析在处理句子问题中的优势，即长短时记忆网络(LSTM)能将句子中词的词序信息和上下文信息都考虑进去，反词频权重(AWF)能突出词在语料库中的统计特征，通过数学方法将原始向量表示S0减去S0在第一主成成分V1上的投影，得到改进后的句子向量表示特征S1，将S1作为softmax层的输入得到句子分类结果。将这些优势结合在一起，取长补短，有助于句子建模的可靠性得到更好的句子语义特征表示，从而提高句子分类的精度。同样也可用于文本(多个句子)建模的基础，有助于获得更好的文本(多个句子)分类方法。

为实现上述目的，本发明的技术方案如下：

一种将深度学习与数学分析相结合的句子分类改进方法，包括以下步骤：

步骤一、获取句子分类数据集，划分训练集和测试集；

步骤二、将维基百科语料库和整个数据集结合在一起进行词向量训练，形成原始词向量表；统计整个维基百科语料库和句子分类数据集中每个词的词频，利用词频生成AWF权重表，以改进词向量表；

步骤三、构建句子分类模型，具体模型图如图4所示。分类模型包含AWF词向量表示层、LSTM网络层、句子特征表示层和softmax层。一个待分类句子，根据句子中的每个词查询AWF词向量表得到改进后的词向量，该模型会将这些词向量输入LSTM网络中，然后利用AWF权重表中的权重和数学分析方法将LSTM网络层的输出进行分析和改进，得到改进后的句子特征表示，然后将句子特征表示输入到softmax层进行分类，得到分类结果；

步骤四、将训练数据集输入句子分类模型进行训练，得到分类结果，根据预测分类的概率分布和实际分类的概率分布得到损失函数，使用梯度下降法最小化损失函数，利用反向传播算法优化整个模型，继续训练；

步骤五：设置迭代次数，经过多次训练迭代，得到最终的分类模型；

步骤六：将预进行分类的句子数据集输入最终分类模型，得到分类结果。

进一步的改进，所述步骤一中的测试集用于检测最终分类模型的分类效果。

进一步的改进，所述步骤一包括如下步骤：

1.1对于获取的句子分类数据集，人工做好分类标签，或者直接下载有标签的公用数据集；

1.2采取均匀分布的方式随机选取数据集的70％作为训练集，30％作为测试集。

进一步的改进，所述步骤二包括如下步骤：

2.1使用word2vec方法或GloVe方法对整个维基百科语料库和句子分类数据集进行词向量训练，将维基百科语料库和句子分类数据集中的每个词映射到300维语义向量空间，生成词向量维度为300维的原始词向量表；

2.2对整个维基百科语料库和句子分类数据集中的每个词进行词频统计，每个词对应一个词频p(w)，利用公式(1)将每个词频表示成一个0-1之间的权重，称之为AWF权重，将所有AWF权重存放在AWF权重表中。其中p(w)是表示词频，a为超参数，据经验可得，设置范围可为[10^-3，10^-5]；AWF_Weight表示AWF权重；在超参数a一定的情况下，p(w)越大，即词出现的次数越多，AWF权重越小；p(w)越小，即词出现的次数越少，AWF权重越大；

2.3将原始词向量与对应词的AWF权重相乘，得到利用词频信息改进后的词向量表，称之为AWF词向量表，即改进后的词向量表。利用AWF权重改进词向量表的意义在于：一个词在语料库中出现次数越多，就越不具有代表性，从而就显得越不重要，就应给与该词较小的AWF权重，出现次数越少就说明该词在当前句子中越具有特征性，则应给予该词较大的AWF权重。

进一步的改进，所述步骤三包括如下步骤：

3.1查询AWF词向量表，将句子中的每个词用改进后的AWF词向

量表示，如图4中的AWF Weight Word Representation层；

3.2将一个句子中的每个词对应的AWF词向量作为该句子的原始特征，作为LSTM层的输入，编码重要的特征，如图4中的LSTM Layer层；LSTM层包括多个前后相连的LSTM神经网络单元，上一个LSTM单元的输出信息会影响下一个LSTM单元，当词向量Xt进入LSTM神经网络单元后，会经过“门”来控制丢弃或增加信息，实现遗忘或记忆的功能，LSTM单元的关键是单元状态C_t，即图5中LSTM单元上方从左贯穿到右的水平线，它可以将信息从上一个LSTM单元传递到下一个LSTM单元。并且一个LSTM单元有三个门，分别为遗忘门、输入门、输出门：

3.2.1遗忘门f_t：通过训练学习上一LSTM单元状态即t-1时刻的单元状态C_t-1，遗忘门f_t为C_t-1的每一项产生一个在[0，1]的值，来控制C_t-1被遗忘的程度，具体实现公式如公式(2)中的ft。其中t表是t时刻，Xt是t时刻输入的AWF词向量，h_t-1是上一个LSTM单元的输出，σ表示sigmoid操作，输出在[0，1]区间，1代表完全记得，0代表完全遗忘，W_f和b_f是要学习的参数；

f_t＝σ(W_f·[h_t-1，x_t]+b_f) (2)

3.2.2输入门i_t：输入门i_t和一个tanh激活函数配合控制有哪些新信息被加入。利用输入Xt和上一输出h_t-1通过tanh激活函数产生一个新的候选向量具体实现如公式(3)，输入门i_t的操作如公式(4)。遗忘门的输出f_t，用来控制上一单元C_t-1被遗忘的程度，输入门i_t为中的每一项产生一个在[0,1]内的值，控制新信息被加入的多少，从而可以更新的新的单元状态C_t。实现操作如公式(5)。其中W_c，b_c，W_i，b_i是需要学习的参数；

i_t＝σ(W_i·[h_t-1，x_t]+b_i) (4)

3.2.3输出门O_t：输出门O_t用来控制更新后的单元状态C_t过滤程度，如输出门O_t操作公式(6)和(7)。先将单元状态Ct用tanh函数激活，输出门O_t为其中每一项产生一个在[0,1]内的值(公式(6))，控制单元状态Ct被过滤的程度，如公式(7)，ht即当前LSTM单元的输出，C_t和ht同时也会流向下一个LSTM单元继续如上同样的操作。其中O_t是对上一LSTM神经元的输出h_t-1和当前神经元的输入向量Xt进行sigmoid操作得到的，W_o和b_o是需要学习的参数。

o_t＝σ(W_o[h_t-1，x_t]+b_o) (6)

h_t＝o_t*tanh(C_t) (7)

3.3每个AWF词向量进入LSTM Layer层会得到对应的输出，即对应一个特征向量，如图4中的Ht Vector层；

3.4接下来对Ht Vector层进行两方面操作，这两个操作是平行的，即没有依赖操作：

3.4.1对Ht Vector层的每个特征向量进行AWF加权求和得到原始句子特征表示S0,如图4中的Sentence Representation S0；

3.4.2将Ht Vector层的每个特征向量组合成一个矩阵，求出该矩阵的第一主成成分V1；

3.5将3.4中得到的S0减去S0在矩阵第一主成成分V1上的投影，得到最后的句子特征表示S1，如图4中的Sentence Representation S1。去掉第一主成成分上分量得到次分量，次分量中含有更细微的特征，这有利于提高句子分类精度；

3.6在3.5中得到了利用深度学习和数学分析得到的句子特征表示S1，将S1输入softmax层，以得到句子在每个可能分类上的概率，softmax层的操作如公式(8)，y是预测的概率分布，概率最大的那个类别即它的分类结果。

y＝softmax(W_mx+b_m) (8)

进一步的改进，所述步骤四包括如下步骤：

4.1根据模型得出的分类结果和实际类别计算损失函数交叉熵，N为训练样本数，y′_i表示第i个样本的实际概率分布，y_i表示第i个样本的预测概率分布，-y′_ilogy_i表示第i个样本的损失熵，表示的是整个训练样本的损失熵，则：

其中loss表示损失函数交叉熵；

4.2使用梯度下降法最小化损失函数交叉熵，利用反向传播算法优化整个模型，即更新公式(2)(3)(4)(6)(8)中的W_f，b_f，W_c，b_c，W_i，b_i，W_o，b_o，W_m和b_m参数。

进一步的改进，所述步骤五中用训练数据集多次训练迭代，得到最终模型的步骤如下：

5.1设置迭代次数，每一次迭代从训练集中随机抽取128batch size大小的样本，输入模型进行训练，得到训练结果后，使用梯度下降法优化损失函数，利用反向传播算法优化整个模型不断更新公式(2)(3)(4)(6)中的W_f，b_f，W_c，b_c，W_i，b_i，W_o，b_o，W_m和b_m参数。

5.2达到以下任意一个条件，训练停止：

5.2.1达到对整个数据集的迭代次数，比如10000次；

5.2.2损失函数小于指定的值，比如0.005；

5.3最终的模型是一个句子多分类模型，保存参数及模型。

附图说明

图1为步骤1的步骤示意图；

图2、图3为步骤2的步骤示意图；

图4为步骤3的示意图，即句子分类的具体设计模型；

图5为LSTM神经单元的内部示意图。

具体实施方式

下面将结合附图和实例对本发明做进一步的说明。

步骤一、获取句子分类数据集，划分训练集和测试集；

具体包括如下步骤：

3.1查询AWF词向量表，将句子中的每个词用改进后的AWF词向量表示，如图4中的AWF Weight Word Representation层；

f_t＝σ(W_f·[h_t-1，x_t]+b_f) (2)

3.2.2输入门i_t：输入门i_t和一个tanh激活函数配合控制有哪些新信息被加入。利用输入Xt和上一输出h_t-1通过tanh激活函数产生一个新的候选向量具体实现如公式(3)，输入门i_t的操作如公式(4)。遗忘门的输出ft，用来控制上一单元C_t-1被遗忘的程度，输入门i_t为中的每一项产生一个在[0,1]内的值，控制新信息被加入的多少，从而可以更新的新的单元状态C_t。实现操作如公式(5)。其中W_c，b_c，W_i，b_i是需要学习的参数；

i_t＝σ(W_i·[h_t-1，x_t]+b_i) (4)

o_t＝σ(W_o[h_t-1，x_t]+b_o) (6)

h_t＝o_t*tanh(C_t) (7)

3.4接下来对Ht Vector层进行两方面操作，这两个操作是平行的，即没有前后依赖操作：

y＝softmax(W_mx+b_m) (8)

步骤四、将训练数据集输入句子分类模型进行训练，得到分类结果，根据分类结果和实际分类得到损失函数，优化损失函数，继续训练；具体包括如下步骤：

4.1根据模型得出的分类结果和真实类别计算损失函数交叉熵，N为训练样本数，y′_i表示第i个样本的实际概率分布，y_i表示第i个样本的预测概率分布，-y′_ilogy_i表示第i个样本的损失熵，表示的是整个训练样本的损失熵，则：

其中loss表示损失函数交叉熵；

4.2使用梯度下降法最小化损失函数交叉熵，利用反向传播算法优化整个模型，即更新公式(2)(3)(4)(6)(8)中的W_f，b_f，W_c，b_c，W_i，b_i，W_o，b_o，W_m和b_m等参数。

步骤五：设置迭代次数，经过多次训练迭代，得到最终的分类模型；步骤如下：5.1设置迭代次数，每一次迭代从训练集中随机抽取128batch size大小的样本，输入模型进行训练，得到训练结果后，使用梯度下降法优化损失函数，利用反向传播算法优化整个模型，不断更新公式(2)(3)(4)(6)中的W_f，b_f，W_c，b_c，W_i，b_i，W_o，b_o，W_m和b_m等参数。

5.2达到以下任意一个条件，训练停止：

5.2.1达到对整个数据集的迭代次数，比如10000次；

5.2.2损失函数小于指定的值，比如0.005；

5.3最终的模型是一个句子多分类模型，保存参数及模型。

其中，步骤一中的测试集用于检测最终分类模型的分类效果。实验结果：

1.本专利实验所用的4个数据集来源于公共数据集，分别为：

MR:电影评论数据集，通过对评论的分析判断为积极和消极进行二分类；

Subi：主观性数据集，将每个句子分类成主观还是客观，二分类；

CR：客户评论数据集，对每个客户评论进行分类，类别为正面或负面，二分类；

TREC：问题分类数据集，包含6种不同类型的分类；

表一中包括该4个数据集以及对应的统计值。N表示该数据集的句子个数，v代表词汇量，l_av代表每个数据集的句子平均长度，最后是该数据集的类别个数。

表1数据集统计特征表

2.表2是本专利模型与其他5种方法对相同数据集的实验结果比较。为保证实验结果比较的有效性，数据预处理的方法相同，分类精度衡量标准一致。从表2中实验结果来看本专利的模型比朴素贝叶斯支持向量机、段落向量方法、卷积神经网络、循环神经网络和长短时记忆网络(NBSVM、(PV)Paragraph Vector、CNN、RNN和LSTM)等5种方法分类的精度更高，证明本专利利用深度学习与数学分析相结合的句子分类方法是有效果的。

表2实验结果表

尽管本发明的实施方案已公开如上，但并不仅仅限于说明书和实施方案中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里所示出与描述的图例。

Claims

1.一种将深度学习与数学分析相结合的句子分类改进方法，其特征在于，包括以下步骤：

步骤一、获取句子分类数据集，划分训练集和测试集；

步骤二、将维基百科语料库和整个数据集结合在一起进行词向量训练，形成原始词向量表；统计整个维基百科语料库和句子分类数据集中每个词的词频，利用词频生成AWF权重表，以改进词向量表，改进后的词向量表称为AWF词向量表；

步骤三、构建句子分类模型。分类模型包含AWF词向量表示层、LSTM网络层、句子特征表示层和softmax层。一个待分类句子，根据句子中的每个词查询AWF词向量表得到改进后的词向量，该模型会将这些词向量输入LSTM网络中，然后利用AWF权重表中的权重和数学分析方法将LSTM网络层的输出进行分析和改进，得到改进后的句子特征表示，然后将句子特征表示输入到softmax层进行分类，得到分类结果；

步骤四、将训练数据集输入句子分类模型进行训练，得到分类结果，根据预测分类的概率分布和实际分类的概率分布得到损失函数交叉熵，使用梯度下降法最小化损失函数，利用反向传播算法优化整个模型，继续训练；

2.如权利要求1所述的将深度学习与数学分析相结合的句子分类改进方法，其特征在于，所述步骤一中的测试集用于检测最终分类模型的分类效果。

3.如权利要求1所述的将深度学习与数学分析相结合的句子分类改进方法，其特征在于，所述步骤一包括如下步骤：

4.如权利要求1所述的将深度学习与数学分析相结合的句子分类改进方法，其特征在于，所述步骤二包括如下步骤：

2.2对整个维基百科语料库和句子分类数据集中的每个词进行词频统计，每个词对应一个词频p(w)，利用公式(1)将每个词频表示成一个0-1之间的权重，称之为AWF权重，将所有AWF权重存放在AWF权重表中；其中p(w)是表示词频，a为超参数，据经验可得，设置范围为[10^-3，10^-5]；AWF_Weight表示AWF权重；在超参数a一定的情况下，p(w)越大，即词出现的次数越多，AWF权重越小；p(w)越小，即词出现的次数越少，AWF权重越大；

2.3将原始词向量与对应词的AWF权重相乘，得到利用词频信息改进后的词向量表，称之为AWF词向量表，即改进后的词向量表。

5.如权利要求1所述的将深度学习与数学分析相结合的句子分类改进方法，其特征在于，所述步骤三包括如下步骤：

3.1查询AWF词向量表，将句子中的每个词用改进后的AWF词向量表示，形成该模型的AWF词向量表示层；

3.2将一个句子中的每个词对应的AWF词向量作为该句子的原始特征并作为LSTM层的输入；LSTM层包括多个前后相连的LSTM神经网络单元，上一个LSTM单元的输出信息会影响下一个LSTM单元，当词向量Xt进入LSTM神经网络单元后，经过“门”来控制丢弃或增加信息；LSTM单元的关键是单元状态C_t，将信息从上一个LSTM单元传递到下一个LSTM单元：

3.2.1遗忘门f_t：通过训练学习上一LSTM单元状态即t-1时刻的单元状态C_t-1，遗忘门f_t为C_t-1的每一项产生一个在[0，1]的值，来控制C_t-1被遗忘的程度，具体实现公式如公式(2)中的ft，其中t表是t时刻，Xt是t时刻输入的AWF词向量，h_t-1是上一个LSTM单元的输出，σ表示sigmoid操作，输出在[0，1]区间，1代表完全记得，0代表完全遗忘，W_f和b_f是要学习的参数；

f_t＝σ(W_f·[h_t-1，x_t]+b_f) (2)

3.2.2输入门i_t：输入门i_t和一个tanh激活函数配合控制有哪些新信息被加入；利用输入Xt和上一输出h_t-1通过tanh激活函数产生一个新的候选向量具体实现如公式(3)，输入门i_t的操作如公式(4)；遗忘门的输出ft，用来控制上一单元C_t-1被遗忘的程度，输入门i_t为中的每一项产生一个在[0,1]内的值，控制新信息被加入的多少，从而可以更新的新的单元状态C_t；实现操作如公式(5)；其中W_c，b_c，W_i，b_i是需要学习的参数；

i_t＝σ(W_i·[h_t-1，x_t]+b_i) (4)

3.2.3输出门O_t：输出门O_t用来控制更新后的单元状态C_t过滤程度，如输出门O_t操作公式(6)和(7)；先将单元状态Ct用tanh函数激活，输出门O_t为其中每一项产生一个在[0,1]内的值，如公式(6)，控制单元状态Ct被过滤的程度，如公式(7)，ht即当前LSTM单元的输出，C_t和ht同时也会流向下一个LSTM单元继续如上同样的操作。其中O_t是对上一LSTM神经元的输出h_t-1和当前神经元的输入向量Xt进行sigmoid操作得到的，W_o和b_o是需要学习的参数：

o_t＝σ(W_o[h_t-1，x_t]+b_o) (6)

h_t＝o_t*tanh(C_t) (7)

3.3每个AWF词向量进入LSTM Layer层会得到对应的输出，即对应一个特征向量，所有的输出形成Ht Vector层；

3.4.1对Ht Vector层的每个特征向量进行AWF加权求和得到原始句子特征向量表示S0；

3.5将3.4中得到的句子特征向量表示S0减去S0在矩阵第一主成成分V1上的投影，得到最后的句子特征表示S1。去掉第一主成成分方向上的分量得到次分量，次分量中含有更细微的特征，这有利于提高句子分类精度；

y＝softmax(W_mx+b_m) (8)

6.如权利要求1所述的将深度学习与数学分析相结合的句子分类改进方法，其特征在于，所述步骤四包括如下步骤：

其中loss表示损失函数交叉熵；

4.2利用梯度下降法最小化损失函数交叉熵，利用反向传播算法优化整个模型，即更新公式(2)(3)(4)(6)(8)中的W_f，b_f，W_c，b_c，W_i，b_i，W_o，b_o，W_m和b_m参数。

7.如权利要求1所述的将深度学习与数学分析相结合的句子分类改进方法，其特征在于，所述步骤五中用训练数据集多次训练迭代，得到最终模型的步骤如下：

5.1设置迭代次数，每一次迭代从训练集中随机抽取128batchsize大小的样本，输入模型进行训练，得到训练结果后，使用梯度下降法优化损失函数，利用反向传播算法优化整个模型，不断更新公式(2)(3)(4)(6)(8)中的W_f，b_f，W_c，b_c，W_i，b_i，W_o，b_o，W_m和b_m参数。

5.2达到以下任意一个条件，训练停止：

5.2.1达到对整个数据集的迭代次数，比如10000次；

5.2.2损失函数小于指定的值，比如0.005；

5.3最终的模型是一个句子多分类模型，保存参数及模型。

8.如权利要求7所述的将深度学习与数学分析相结合的句子分类改进方法，其特征在于，步骤5.2.1中的迭代次数为10000次；

步骤5.2.2损失函数的指定的值为0.005。