CN108920586A

CN108920586A - 一种基于深度神经映射支持向量机的短文本分类方法

Info

Publication number: CN108920586A
Application number: CN201810665752.8A
Authority: CN
Inventors: 李玉鑑; 阚海鹏; 张婷; 刘兆英
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-06-26
Filing date: 2018-06-26
Publication date: 2018-11-30

Abstract

本发明公开了一种基于深度神经映射支持向量机的短文本分类方法，属于文本分类与深度学习领域。采用Softmax作为卷积神经网络的分类器导致泛化能力不足，而直接使用支持向量机分类需要进行特征提取和核函数的学习，往往难以达到最优解，于是提出了一种结合卷积神经网络和支持向量机(DNMSVM，深度神经映射支持向量机)的短文本分类算法，从而提高短文本的分类效果。本发明无需对文本进行复杂的预处理，不仅准确率较高，且在可靠性和鲁棒性上有提升。

Description

一种基于深度神经映射支持向量机的短文本分类方法

技术领域

本发明属于文本分类和深度学习领域，涉及一种基于深度神经映射支持向量机的短文本分类方法，可用于电影评价、商品评价等短文本分类或者情感分类。

背景技术

近年来，随着计算机技术、互联网以及移动互联网的飞速发展，网民数量呈现出了爆发式的增长，海量的活跃用户每天在各种信息交互平台产生大量的短文本(ShortText)，并且这些短文本涉及到人们日常生活的各个领域，比如商品评论(ProductReview)、电影评论(Movie Review)以及网页信息检索(Web Information Retrival)等。海量的文本中蕴含大量的信息有待挖掘，这是近年来机器学习领域火热的研究课题，诸多学者做了广泛的相关研究。文本分类技术(Text Classification)是数据挖掘领域的研究热点与技术核心，具有重要的研究意义。目前成熟的文本分类技术主要是针对长文本分类任务，而短文本具有长度短、特征稀疏等特点，致使传统的长文本分类方法不再适用。众多国内外学者开始将研究目标转向短文本分类技术(Short Text Classification)，同时短文本分类研究也逐渐成为了自然语言处理(NLP,Natural Language Processing)领域的一大研究热点，是一项具有实用价值的关键技术。现如今，多种统计学习理论和机器学习方法被应用于文本分类任务，在经过人工标注的语料库上采用统计学习或机器学习的方法进行训练得到分类器，随后对待分类数据进行分类。其中比较流行的机器学习方法有朴素贝叶斯、支持向量机、决策树、神经网络、Rocchio、KNN。然而因为短文本关键词少、存在语义歧义，所以大多数在长文本分类领域取得成功的算法并不适用于短文本分类。因此，研究者提出了很多针对短文本分类的算法。

Mikolov等人提出了一种非常高效的词向量表示模型，该模型在词相似度任务上的准确率大幅提高，并且计算量大大减少。该模型的提出可以将每个词表示成一个几十到几百维的词向量，因此，可以说该模型的提出在很大程度上缓解了短文本特征向量稀疏的问题，后续的分类算法大多是以此为基础开展研究的。近来，由于深度学习模型在计算机视觉领域取得了瞩目的成绩，于是许多学者致力于在自然语言处理中引入深度学习模型。Kim将一种简单的卷积神经网络模型应用于短文本分类，该模型包含词嵌入层、卷积层、池化层，其中词嵌入层将句子通过填充的方法变成固定的长度n，对于句子中的每个单词都用长度为d的词向量表示，因此神经网络的输入是二维矩阵：(n,d)，在卷积层使用k个卷积核，卷积核的大小为(f,d)，卷积操作后的k个特征图(Feature Map)，在池化层采取最大池化操作，每个特征图得到一个最大值，最终得到k个值组成最后的特征向量，进行分类。该模型在MR(Movie Review)等数据集上取得了很好的效果。文本分类任务中的关键一步就是特征表示，传统的特征表示方法大部分是基于词袋模型，而这些方法经常忽略了文本的上下文信息或者词在文本中出现的顺序。Lai等人据此提出了采用循环卷积神经网络(RCNN,Recurrent Convolutional Neural Network)模型来解决这些问题，首先采用双向循环结构，相对于传统方法，这种结构产生很少的噪声，并且能够最大限度的获得上下文信息。其次，该模型在学习词向量的过程中，还能在更大的范围内保留词序。此外，在最大池化过程中会自动选择更有利于分类的特征。最大池化和循环结构的结合使得该模型同时兼具了循环神经网络模型和卷积神经网络模型的优点。该模型在中英文数据集上测试准确率都有一定的提升。在自然语言处理领域，文本分类任务可以是以单个语句为基本分类单元，同时也能以多个语句为基本分类单元，后者我们称之为文档分类。语句由单词组成，而文档又由语句组成。在这种固有的结构下，并不是文档中所有的语句都是平等的，需要判断哪一部分更重要，于是提出了分层注意力网络。该网络有两种重要的特点，首先的网络的层次结构反映了文档的组成结构，其次该模型加入了两层的注意力机制，分别用在单词级别和语句级别，这使得模型在不同的级别上捕捉重要信息。对于语句中的每个单词，都将其映射到词向量空间，使用双向的GRU对语句编码，更好的捕捉上下文信息。同一个单词在不同语句中的重要程度是不一样的，所以需要注意力机制。

发明内容

本发明的目的在于一种基于深度神经映射支持向量机(DNMSVM，Deep NeuralMapping Support Vector Machines)的短文本分类算法，神经网络使用词向量矩阵作为输入，采用这种方法可充分提取短文本的特征，克服短文本特征稀疏的不足，之后采用支持向量机作为分类器，增强模型的泛化能力。DNMSVM模型包含一个输入层，一个卷积层，一个池化层和支持向量机输出层。

为实现上述目的，本发明采用的技术方案为一种基于深度神经映射支持向量机的短文本分类算法，该方法包括以下步骤：

步骤一：采用语料库均为英文，将短文本表示为词向量矩阵，实现词向量矩阵的数据降维，将短文文本变成类似图像的连续稠密数据，通过使用word2vec工具包和随机生成两种方式，产生语料库中单词的词向量，然后对词向量矩阵进行卷积操作，卷积核的长度设置为词向量的长度，这样能在卷积过程中保证单词的完整性。卷积后得到卷积层特征图。

步骤二：卷积操作后，对卷积特征图进行池化操作，得到池化层特征矩阵，然后对该池化层特征矩阵进行非线性变换，得到池化层特征图。

步骤三：将步骤二得到的池化层特征图作为支持向量机的输入，这里的支持向量机是作为整个模型中的一层，定义一个损失函数，进行整体优化。

与现有的技术相比，本发明具有以下有益效果。

采用支持向量机(SVM，Support Vector Machines)来取代卷积神经网络的全连接softmax层，增强了整个模型的鲁棒性，提高了分类的准确性，在一定程度上解决了卷积神经网络过拟合的问题，采用卷积神经网络提取特征，可以避免人工特征选择带来的损失，此外通过最大池化方法进行特征选择，将得到的高层抽象结构特征送入svm层进行分类。本方法较之于传统的支持向量机方法，无需对文本进行预处理，可以直接提取特征，并且在训练分类器的同时，优化卷积神经网络，即保证提取的特征是最有利于分类的，同时最大值池化也解决了文本长度可变的问题。由此可见基于深度神经映射支持向量机也可有效的提高文本分类的准确率。

附图说明

图1是本发明采用的word2vec词向量模型中的skim-gram图。

图2是深度神经映射支持向量机的结构图。

图3是本发明与其他分析方法的对比图。

图4是根据词向量的获得方式的不同分别进行对比分析图1。

图5是根据词向量的获得方式的不同分别进行对比分析图2。

具体实施方式

为了使发明的目的、技术方案和特点更加清楚明白，以下结合具体实施例子，并参照附图，对本发明进行进一步的细化说明。本发明采用深度神经映射支持向量机来完成文本分类任务，采用整体优化的方法，而不是将模型分为特征提取器和分类器两个部分分开训练。这样的训练方法，增强了模型整体分类的鲁棒性，防止模型过拟合，同时也增强了模型的泛化能力。其次，采用卷积神经网络，非常适合提取更丰富的高阶特征。本发明的改进之处可以归纳为以下几个方面，1)使用词向量代替传统的特征表示方法，不仅大大的减少了特征的维度，而且解决了数据稀疏问题，2)采用联合训练的方法，对整个模型的参数进行调优，使得提取到的特征更加的有利于分类，3)使用支持向量机来作为分类器，可以有效的提高模型的泛化能力，防止模型的过拟合，提高分类的准确性。实验证明本发明所提出的方法在一些公开数据集上取得的分类效果，与其他方法相比有明显的提高。

图1为本发明采用的word2vec词向量模型中的skim-gram，图2深度神经映射支持向量机的结构，对预训练的词向量，首先将语料库中的短文本构造成词向量矩阵，然后进行二维卷积和最大池化运算，将得到特征值连接成特征向量，作为svm的输入。具体训练过程如下：

步骤一：对于语料库d，首先将其中的每个单词用长度为k的向量表示，词向量的生成方法采用均匀分布生成或者word2vec，k取50到300；

步骤二：在得到词向量后，用x表示语料库d中的一段短文本，则x_i代表短文本x中第i个词语的词向量，一个长度为n的句子表示成如下形式：

x_1：n＝x₁⊕x₂⊕x₃⊕···⊕x_n，

n不超过200，⊕为向量拼接操作，n为训练语料库d中最长的句子的长度，对于长度不足n的短文本用占位符<PAD>补全，使用(-0.25，0.25)之间的均匀分布生成的向量表示占位符<PAD>。每篇文本x均以n*k的二维矩阵表示；

步骤三：对输入层进行卷积操作，令x_i：i+h-1表示词向量序列x_i，x_i+1，…，x_i+h-1，使用卷积核W∈R^h*k作用于词向量序列x_i：i+h-1上得到特征C_i，

C_i＝f(W·x_i：i+h-1+b)

h为卷积核在词语窗口上的尺寸，h取2-7；b是一个偏置项，b取0.1；f为非线性激活函数，f为sigmoid或者relu；卷积核W作用于整个词向量序列{x_1：h，x_2：h+1，…，x_n-h+1：n}上，来生成卷积特征图C_conv∈R^n-h+1：

C_conv＝{C_conv,1：h，C_conv,2：h+1，…，C_{conv,n-h+1：n}}，

为充分提取特征，设置m个不同跨度的卷积核，m取60-300；用{W₁，W₂，…，W_m}表示，每个卷积核设置{n_w1，n_w2，…，n_wm}个，这样会产生t(t＝n_w1+n_w2+…+n_wm)个特征图，之后便使用最大池化操作作用于单个特征图C_conv之上，来得到特征图中最重要的特征C_pool-i：

C_pool-i＝max[C_conv,1：h，C_conv,2：h+1，…，C_{conv,n-h+1：n}]，

步骤三：步骤二将会产生t个池化层特征，C_pool-1，C_pool-2，…，C_pool-t，将其拼接起来得到池化层特征C_pool∈R^t：

C_pool＝{C_pool-1，C_pool-2，…，C_pool-t}，

步骤四：在步骤三得到的池化层特征C_pool后，接入svm分类层，进行训练，训练时定义的目标函数如下：

其中W^r+1为DNMSVM模型svm层的权重，C为惩罚因子表示离群点对目标函数的影响程度，是一个可调节的超参数，θ’代表整个模型的所有参数，θ代表除svm层参数外的所有参数，x^l和y^l分别对应输入数据和标签，表示将x^l表示为特征向量这一过程，然后通过随机梯度下降算法更新参数优化整个模型。

实验设备和所需环境

win7，64位操作系统，intel处理器，CPU主频3.3GHz，内存8G。实验代码采用python语言，深度学习框架为开源的tensorflow框架

实验结果与说明。

实验中采用两种方式获取词向量，第一种方式是由word2vec中的skim-gram训练得到，第二种方式是随机生成，训练词向量的语料均采用各数据集自身训练得到。两种词向量的维度均设置为300维，卷积神经网络中过滤器的尺寸分别为3，4，5，每种过滤器均设置128个。由于预处理方式和词向量语料与方法选择的差异，导致不用作者的实验结果在相同数据集上存在一定的偏差。本文为验证DNMSVM的分类性能，需要在相同的预处理机制上自行实现多种分类模型与本文的分类方法进行比较实验。

本发明分别与朴素贝叶斯(NB)、和Kim提出的CNN-rand(随机生成词向量)和CNN-static(word2vec生成词向量)进行对比。

首先，根据词向量的获得方式的不同分别进行对比分析，由图4和图5可见，本发明所提出的方法在在一些数据集的准确率上相比于其他方法有所提高，在随机获取词向量的情况下，相比于CNN和NB方法，本文所提出的方法的准确率在大部分数据集上是最高的，在CR数据集上相对于NB方法提升了10.1％，相对于CNN方法提升了2.8％，在TREC数据集上相对于NB方法提升了19.5％，相对于CNN方法提升了6.6％，可以看出基于传统的机器学习的朴素贝叶斯方法取得效果相对于深度学习方法有明显的差距。在通过word2vec获取词向量的情况下，在CR数据集上DNMSVM方法相对于NB方法提升了6.9％，相对于CNN方法提升了4.2％，在TREC数据集上DNMSVM方法相对于NB方法提升了20.5％，相对于CNN方法提升了5.4％。另外在其他数据集上DNMSVM方法的准确率相对于其他两种方法均有小幅度的提升，实验结果证明了本发明方法的有效性。

Claims

1.一种基于深度神经映射支持向量机的短文本分类方法，其特征在于：该方法包括以下步骤，

步骤一：采用语料库均为英文，将短文本表示为词向量矩阵，实现词向量矩阵的数据降维，将短文文本变成类似图像的连续稠密数据，通过使用word2vec工具包和随机生成两种方式，产生语料库中单词的词向量，然后对词向量矩阵进行卷积操作，卷积核的长度设置为词向量的长度，这样能在卷积过程中保证单词的完整性；卷积后得到卷积层特征图；

步骤二：卷积操作后，对卷积特征图进行池化操作，得到池化层特征矩阵，然后对该池化层特征矩阵进行非线性变换，得到池化层特征图；

2.根据权利要求1所述的一种基于深度神经映射支持向量机的短文本分类方法，其特征在于：首先将语料库中的短文本构造成词向量矩阵，然后进行二维卷积和最大池化运算，将得到特征值连接成特征向量，作为svm的输入；具体训练过程如下：

x_1：n＝x₁⊕x₂⊕x₃⊕···⊕x_n，

n不超过200，⊕为向量拼接操作，n为训练语料库d中最长的句子的长度，对于长度不足n的短文本用占位符<PAD>补全，使用(-0.25，0.25)之间的均匀分布生成的向量表示占位符<PAD>；每篇文本x均以n*k的二维矩阵表示；

C_i＝f(W·x_i：i+h-1+b)

C_conv＝{C_conv,1：h，C_conv,2：h+1，…，C_{conv,n-h+1：n}}，

C_pool-i＝max[C_conv,1：h，C_conv,2：h+1，…，C_{conv,n-h+1：n}]，

C_pool＝{C_pool-1，C_pool-2，…，C_pool-t}，