CN109783645A

CN109783645A - 一种基于变分自编码的文本分类方法

Info

Publication number: CN109783645A
Application number: CN201910062185.1A
Authority: CN
Inventors: 刘耿耿; 谢麟; 连鸿飞
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2019-05-21

Abstract

本发明涉及一种基于变分自编码的文本分类方法，首先，将非结构化的文本数据转化为结构化的向量表示，从而使得文本数据能够被计算机所处理；其次，对得到的文本向量，使用变分自编码器来对其进行降维；最后，通过十则交叉验证来对分类器进行训练，得到最后的分类精度。本发明利用变分自编码器来对文本数据进行降维，而后再对降维的数据进行分类，能够有效的提升文本分类精度。

Description

一种基于变分自编码的文本分类方法

技术领域

本发明涉及深度学习技术领域，特别是一种基于变分自编码的文本分类方法。

背景技术

随着信息技术的发展，互联网中存在着文本、声音、图片、视频等各种类型的数据，其中文本数据占据了互联网数据的一半以上。因此，如何从不断增长的庞大数据中快速而准确的找到需要的信息是现在的研究热点。文本分类技术是其中一种有效的解决方案，该技术能够得出给定的文本(句子、文档等)的标签或标签集合。然而文本都是半结构化或者结构化的数据，这不仅会影响分类算法的运行效率,而且会从文档中提取不准确的信息，最终导致分类性能不佳。因此，对文本向量进行降维进而提取到低维的特征向量是提高文本分类准确率的关键因素。

降维是文本分类过程中最重要的步骤之一。它主要是将数据从高维降低到一个远小于的维数。降维技术不仅可以降低文本分类的时间复杂度和空间复杂度，去除无关特征或噪声特征，而且可以更好地数据对数据进行解释。降维技术可以分为线性降维和非线性降维两大类。在线性降维中，主成分分析方法(Principle Component Analysis，简称PCA)和线性判别分析(Linear Discriminant Analysis，简称LDA)是两大主要的方法。PCA对原始数据进行线性变换，新生成的数据是原始数据的线性组合。LDA则是对数据进行投影，它使得投影后的数据在相同类别上距离更近而不同类别上的数据距离更远。显然，PCA是属于无监督学习，LDA则是有监督学习。

非线性降维可分为保留局部特征和保留全局特征。保留局部特征的降维方法也有很多种，有基于重建权值的方法以及基于领接图等方法。局部线性嵌入(Locally LinearEmbedding，简称LLE)关注于降维时保持样本局部的线性特征，它通过重建权值来放弃所有样本全局最优的降维，保证了局部最优来降维。拉普拉斯特征映射(Laplacian Eigenmaps，简称LE)看问题的角度和LLE有些相似，也是用局部的角度去构建数据之间的关系。它的直观思想是希望相互间有关系的点(在领接图中相连的点)在降维后的空间中尽可能的靠近。LE可以反映出数据内在的流形结构。在保持全局特征的方法中，有多维尺度变换(Multidimensional Scaling，简称MDS)、等距特征映射(Isometric feature mapping，简称Isomap)、神经网络等降维方法。其中，MDS和Isomap在降维后均保持样本间距离不变。

多层神经网络比浅层神经网络具有更好的特征学习能力，最著名的深度学习模型包括受限玻尔兹曼机(Restricted Boltzmann Machine,简称RBM)和自动编码器(Auto-Encoder,简称AE)。RBM是一种随机神经网络模型，只包括可见层和隐藏层，和普通前馈神经网络一样，同层神经元之间无连接，相邻层神经元之间全连接，其中隐藏层通常看作特征提取层。AE主要包括编码阶段和解码阶段，且结构是对称的，即如果有多个隐层时，编码阶段的隐层数量与解码阶段相同。解码器能够重构出经过编码器编码后的数据。所以训练得到的自编码器，提取编码器得到的隐层数据就可以作为一种降维。自编码器在这几年得到了快速的发展，通过增加了对隐含层的约束，使隐含层表达与输入层不同，如果此时模型还能重构输入数据，说明隐含层数据足以表示输入数据，进而发展出了各种各样的基于自编码器的改进模型。而隐含层数据相当于自动从模型中学习到的有效特征。变分自编码(Variational Auto-Encoder，简称VAE)由Kingma在2014年提出的一种基于自编码器的改进模型(D.P.Kingma and M.Welling,“Auto-encoding variational bayes,”inConference Proceedings:Papers Accepted To the International Conference onLearning Representations,2014.)，它是一种生成模型。变分自编码器利用一组数据对模型进行训练，然后单独的解码器就可以自动生成与训练数据类似的输出。由于隐层可以自动生成生成与训练数据类似的输出，所以其隐层也可以认为是一种数据的降维方式。

发明内容

有鉴于此，本发明的目的是提出一种基于变分自编码的文本分类方法，利用变分自编码器来对文本数据进行降维，而后再对降维的数据进行分类，能够有效的提升文本分类精度。

本发明采用以下方案实现：一种基于变分自编码的文本分类方法，首先，将非结构化的文本数据转化为结构化的向量表示，从而使得文本数据能够被计算机所处理，能够得到维数远小于最先得到的文本向量；其次，对得到的文本向量，使用变分自编码器来对其进行降维；最后，通过十则交叉验证来对分类器进行训练，得到最后的分类精度。

进一步地，所述将非结构化的文本数据转化为结构化的向量表示具体为：采用词频-逆文本频率(TermFrequency-Inverse Document Frequency，简称TF-IDF)将非结构化的文本数据转化为结构化的向量表示。

进一步地，所述将非结构化的文本数据转化为结构化的向量表示具体包括以下步骤：

步骤S11：在一个给定的文件中，计算词频(Term Frequency，简称TF)；其中TF指的是某一个给定的词语在该文件中出现的频率；

步骤S12：计算反文档频率IDF(Inverse Document Frequency，简称IDF)，IDF是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到；

步骤S13：采用下式计算词语i在文档j中的TF-IDF值：

(TF-IDF)_i,j＝TF_i,j×IDF_i；

式中，TF_i,j表示词i在文档j中的出现频率，IDF_i,j表示词语i的反文档频率。

其中，词频的计算采用下式：

式中，TF_i,j表示词j在文档i中的出现频率，n_i,j表示词j在文档i中出现的次数。

其中，反文档频率IDF的计算采用下式：

式中，IDF_i表示词语i的反文档频率；|D|表示预料库中的文件总数；|{j∶i∈d_j}|表示出现词语i的文档总数，+1则是为了防止没有出现时分母为0的情况。

进一步地，所述对得到的文本向量，使用变分自编码器来对其进行降维具体为：引入变分自编码器，将所有得到的文本向量输入到变分自编码器网络中进行训练，训练得到编码器网络后，再将文本向量输入到编码器网络中得到隐藏层的输出，并将其作为降维后的文本特征。

进一步地，所述通分类器采用K近邻算法(K-Nearest Neighbor，简称K-NN)。K-NN算法就是将离测试点x最近距离的K个点中类别总数最多的类别作为测试点x的标签输出。

进一步地，所述通过十则交叉验证来对分类器进行训练，得到最后的分类精度具体为：将数据均分成10份，每次选取数据中的1份作为测试集，其余9份作为训练集，如此循环10次取平均值得到最后的分类精度。

进一步地，采用下式计算所述分类精度ACC：

式中，P为正样本数量；N为负样本数量；TP为正确分类为正样本数量；TN为正确分类负样本数量；在多分类问题中，P+N表示为测试集样本总数，TP+TN表示为最后被正确分类的测试集样本总数。

与现有技术相比，本发明有以下有益效果：本发明采用了变分自编码进行降维，在数据样本比较少的情况上相较于其他方法有十分大的提升。同时，相比于PCA,LDA等传统特征提取方法，本方法能更好的提取文本特征，从而使得分类结果更加准确。

附图说明

图1为本发明实施例的流程示意图。

图2为本发明实施例的自编码器模型。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供了一种基于变分自编码的文本分类方法，首先，将非结构化的文本数据转化为结构化的向量表示，从而使得文本数据能够被计算机所处理，能够得到维数远小于最先得到的文本向量；其次，对得到的文本向量，使用变分自编码器来对其进行降维；最后，通过十则交叉验证来对分类器进行训练，得到最后的分类精度。

在本实施例中，所述将非结构化的文本数据转化为结构化的向量表示具体为：采用词频-逆文本频率(Term Frequency-Inverse Document Frequency，简称TF-IDF)将非结构化的文本数据转化为结构化的向量表示。

在本实施例中，所述将非结构化的文本数据转化为结构化的向量表示具体包括以下步骤：

步骤S11：在一个给定的文件中，计算词频TF；其中词频(term frequency，简称TF)指的是某一个给定的词语在该文件中出现的频率；

步骤S13：采用下式计算词语i在文档j中的TF-IDF值：

(TF-IDF)_i,j＝TF_i,j×IDF_i；

其中，词频的计算采用下式：

其中，反文档频率IDF的计算采用下式：

在本实施例中，所述对得到的文本向量，使用变分自编码器来对其进行降维具体为：引入变分自编码器，将所有得到的文本向量输入到变分自编码器网络中进行训练，训练得到编码器网络后，再将文本向量输入到编码器网络中得到隐藏层的输出，并将其作为降维后的文本特征。

在本实施例中，所述通分类器采用K近邻算法(K-Nearest Neighbor，简称K-NN)。K-NN算法就是将离测试点x最近距离的K个点中类别总数最多的类别作为测试点x的标签输出。

在本实施例中，所述通过十则交叉验证来对分类器进行训练，得到最后的分类精度具体为：将数据均分成10份，每次选取数据中的1份作为测试集，其余9份作为训练集，如此循环10次取平均值得到最后的分类精度。

在本实施例中，采用下式计算所述分类精度ACC：

较佳的，本实施例对实验中将要用到的数据集DBWorld、Basehock做个简要介绍。

DBWorld数据集中包括了64封邮件，见文献(X.Zhou,H.Yue,and G.Li,“Textcategorization based on clustering feature selection,”Procedia ComputerScience,vol.31,no.31,pp.398–405,2014.)，针对这64封电子邮件的文本数据，数据集作者采用二进制词袋表示生成文本特征向量，包含了3721个特征向量。

Basehock是一个二进制文本数据集，每一行代表一个文本向量。数据集中包含了1993个数据，每个数据中有4862个特征向量。

较佳的，本实施例采用变分自编码器对文本向量进行降维的具体方案为：

变分自编码器对隐层作了限制，如图2所示，它假定了隐层从属于一个正态分布，它的所有隐变量z都是从这个正态分布中采样得来的。并通过这些采样得到的隐变量能够重构出初始数据x。假设有一组函数p_θ(x|z)用于由z产生x，每个函数由θ唯一确定。变分自编码器的目标就是通过优化θ，使得在采样为的前提下，最大化x最后产生的概率p(x)。根据贝叶斯公式，p(x)可表示为：

p(x)＝∫p_θ(x|z)p_θ(z)dz

变分自编码器为了采样得到p_θ(z)，则引入了编码器网络p_θ(z|x)。显然，由于真实的p_θ(z|x)分布是很难得到的，变分自编码器引入了分布来逼近，要使得两个分布相似，则通过KL散度(Kullback-Leibler divergence，简称KL散度)来得到，公式如下：

可得到：

由于非负，可以得到变分自编码的损失函数为：

的第一项为正则化项，第二项为重构误差。

其中，由于p_θ(z)服从高斯分布N(O；I)，服从高斯分布N(μ；σ²)，可得正则化项：

J为z的维数。

采用蒙卡罗特评估来求解重构误差(L取值为1)：

使用重参化技巧，对z进行重参化。令z＝μ+ε·σ，其中ε～p(ε)，p(ε)＝N(O，I)。重参化将对z的采样转变成了对的采样，将对z的求导转化为对μ和σ的求导，从而可得：

变分自编码器通过使用python中的TensorFlow来进行实现，如图2构建了一个完整的变分自编码器网络结构，输入数据为文本向量对输入层和输出层的神经元个数设置均为m(m为x_i的维数)。隐层前两层视为编码器网络，隐层后两层视为解码器网络，中间层则是隐变量z。隐变量z的神经元个数设置为100(意思为将文本向量维数降低到100维)。变分自编码器的损失函数为：

设定学习速率为γ，训练次数为T，minibatch为M。而后采用随机梯度下降法来训练得到最后的VAE模型。最后，本实施例再将数据X输入训练好的VAE模型中，提取出其隐层z的输出作为X的低维特征表示。

特别的，表1为本实施例采用了VAE降维的文本分类精度与其他降维方法的文本分类精度比较，其中Baseline为不经降维直接分类所得到的分类精度。

表1

由上表可知，采用了变分自编码进行降维，在数据样本比较少的情况上相较于其他方法有十分大的提升。基于变分自编码的文本分类算法，在小样本情况下能够得到最好的效果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于变分自编码的文本分类方法，其特征在于：首先，将非结构化的文本数据转化为结构化的向量表示，从而使得文本数据能够被计算机所处理；其次，对得到的文本向量，使用变分自编码器来对其进行降维；最后，通过十则交叉验证来对分类器进行训练，得到最后的分类精度。

2.根据权利要求1所述的一种基于变分自编码的文本分类方法，其特征在于：所述将非结构化的文本数据转化为结构化的向量表示具体为：采用词频-逆文本频率TF-IDF将非结构化的文本数据转化为结构化的向量表示。

3.根据权利要求2所述的一种基于变分自编码的文本分类方法，其特征在于：所述将非结构化的文本数据转化为结构化的向量表示具体包括以下步骤：

步骤S11：在一个给定的文件中，计算词频TF；

步骤S12：计算反文档频率IDF；

步骤S13：采用下式计算词语i在文档j中的TF-IDF值：

(TF-IDF)_i,j＝TF_i,j×IDF_i；

4.根据权利要求1所述的一种基于变分自编码的文本分类方法，其特征在于：所述对得到的文本向量，使用变分自编码器来对其进行降维具体为：引入变分自编码器，将所有得到的文本向量输入到变分自编码器网络中进行训练，训练得到编码器网络后，再将文本向量输入到编码器网络中得到隐藏层的输出，并将其作为降维后的文本特征。

5.根据权利要求1所述的一种基于变分自编码的文本分类方法，其特征在于：所述通分类器采用K近邻算法。

6.根据权利要求1所述的一种基于变分自编码的文本分类方法，其特征在于：所述通过十则交叉验证来对分类器进行训练，得到最后的分类精度具体为：将数据均分成10份，每次选取数据中的1份作为测试集，其余9份作为训练集，如此循环10次取平均值得到最后的分类精度。

7.根据权利要求6所述的一种基于变分自编码的文本分类方法，其特征在于：采用下式计算所述分类精度ACC：