CN105389379B

CN105389379B - 一种基于文本分布式特征表示的垃圾稿件分类方法

Info

Publication number: CN105389379B
Application number: CN201510809492.3A
Authority: CN
Inventors: 唐贤伦; 周家林; 胡志强; 陈瑛洁; 郭飞; 张毅; 张�浩
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2015-11-20
Filing date: 2015-11-20
Publication date: 2018-12-04
Anticipated expiration: 2035-11-20
Also published as: CN105389379A

Abstract

本发明提出一种基于文本分布式特征表示的垃圾稿件分类方法，该方法采用基于词典和统计策略的中文分词算法对稿件文本进行分词处理，利用word2vec中基于Negative‑Sampling算法的Skip‑Gram模型，选取线性核的支持向量机，对稿件的文本向量进行训练，得到SVM的稿件分类模型，明显提高了稿件类别判别的正确率，使稿件类别判别的精确度得到较大改善与提高。

Description

一种基于文本分布式特征表示的垃圾稿件分类方法

技术领域

本发明涉及一种垃圾稿件文本分类方法，尤其涉及一种基于文本分布式特征表示的垃圾稿件分类方法。

背景技术

文本分类方法已广泛应用于文本数据挖掘，自然语言处理，信息检索等领域。目前基于文本分类问题的方法很多，主要有朴素贝叶斯，K最近邻，支持向量机等。其中由于支持向量机克服了样本分布、冗余特征以及过拟合等因素的影响，具有很好的泛化能力，相比其他方法，具有更好的效果和稳定性。

稿件文本词向量的表示，目前有两种表示方法，即One-hot Representation和Distributed Representation，第一种方法最大的问题是无法捕捉词与词之间的相似度，就算是近义词也无法从词向量中看出任何关系，此外这种方法还容易发生维数灾难。Distributed Representation方法则很好地克服了这些缺点，而word2vec使用的就是这种方法。在word2vec中，基于负采样(Negative Sampling)的CBOW模型有两个主要的缺点：它在训练时失去了这些词的排序，忽略了词之间的语义关系。基于Negative Sampling的Skip-gram模型，相比于Hierarchical Softmax模型，训练速度得到了提高，词向量的质量得到了改善，因而性能得到大幅度提高。词袋模型在文本分类时，没有考虑词的顺序，因此不同的句子可能会有相同的表示，从而导致在进行垃圾稿件分类时有较高误判率的问题。

发明内容

本发明所要解决的技术问题是，针对词袋模型在文本分类时，没有考虑词的顺序，因此不同的句子可能会有相同的表示，从而导致在进行垃圾稿件分类时有较高误判率的问题。本发明在词向量模型的基础上，引入稿件文本向量的分布式特征表示，针对分好词的语料，利用word2vec模型对稿件文本进行训练，训练完后即得到词向量模型。文本向量是通过文本中各词的词向量相加后再除以词的个数的方式得到的平均向量。由稿件文本生成的文本向量就是稿件文本的特征向量，然后选取支持向量机(SVM)分类方法，对特征向量进行分类，从而识别出稿件是垃圾稿件还是有效稿件。

本发明提出一种基于文本分布式特征表示的垃圾稿件分类方法，核心是选取稿件文本的分布式特征表示及算法模型构建词袋模型算法，优化文本分类相关参数，提高文本分类训练模型的精确度，使得垃圾稿件判别更加精确。具体包括如下步骤：

搜集稿件文本数据集，对稿件文本进行分词处理，对分词后的稿件文本数据进行训练获得稿件的词向量模型，将稿件文本中每个词向量进行连接，获得稿件文本的分布式特征；根据稿件类别和稿件样本数据的分布式特征向量表示构成一个特征空间上的稿件文本训练数据集；选取线性核的支持向量机对稿件的文本训练数据集进行分类模型训练，建立支持向量机的稿件分类模型，对新输入稿件的文本向量进行判别。

具体可为，获取稿件的文本数据；采用基于词典和统计结合的中文分词算法对稿件文本数据进行分词处理，词与词之间以空格隔开；调用基于负采样(Negative-Sampling)算法的跳元(Skip-Gram)模型，根据预定的词的向量维数、频率阈值，对分词后的稿件文本数据进行训练，(即词出现的次数低于频率阈值的都被过滤掉)。训练完成后获得每个词的向量表示，即词向量模型；

针对每份稿件，根据词向量模型，将稿件中每个词的向量相连接，取其平均值以获得稿件文本的分布式特征表示，即稿件的文本向量模型；

选取支持向量机的核函数，构建线性核的支持向量机，对稿件的文本向量进行训练，将文本向量标记为有效稿件和无效稿件两种类别，训练后得到支持向量机SVM的稿件二分类模型。

构建基于负采样的Skip-gram模型的目标函数：对分词后的稿件文本数据进行训练，获得词向量模型，其中，context(x)表示词条x的上下文，NEG(x)表示处理词x～时生成的负样本子集，C表示语料库，θ^u∈Rⁿ表示词u对应的一个辅助向量，L^x(u)表示词u的标签，表示词对应的向量，σ是一个逻辑回归函数，表示词的标签。

本发明的其中一个实施例进一步包括，取词向量的平均值作为稿件文本的分布式特征。

本发明的其中一个实施例进一步包括，根据稿件类别和稿件样本数据的分布式特征向量表示构成一个特征空间上的稿件文本训练数据集T，T＝{(X₁,y₁),(X₂,y₂),…,(X_j,y_j),…,(X_N,y_N)},其中：X_j∈X,y_j∈y＝{-1,1}，X表示所有垃圾稿件的集合，y表示标签类别集合，X_j为第j份稿件文本的特征向量，y_j为X_j的类标记。

本发明的其中一个实施例进一步包括，根据公式：对迭代过程中词u的向量v^u进行更新，根据公式对词的向量进行了更新，使得向量对词的表达能力加强。

本发明的其中一个实施例进一步包括，当垃圾稿件数据集线性可分时，根据公式w^*·X+b^*＝0构建分离超平面，将垃圾稿件和有效稿件样本分开，其中，X是输入的稿件的文本向量，w*为权向量，b^*为偏置值。当垃圾稿件分类为非线性时，最优超平面中的核函数设计为线性核函数，把输入空间Rⁿ映射到m维的特征空间，在高维空间中构造分界超平面：将垃圾稿件和有效稿件样本分开，式中w_j ^*是连接特征空间至输出空间的线性权，b^*为偏置值，为线性函数。

当文本向量模型和文本分类模型训练完成后，由此构建稿件审核系统，包括：分词模块、文本向量表示模块和分类模块。

当向稿件审核系统新输入一个稿件，并需要判断该稿件的类别时，首先对稿件进行分词，然后基于分词语料按上述方法训练获得稿件的文本向量表示，再将文本向量输入SVM分类模型，SVM分类模型对输入的稿件进行分类，输出正常稿件和垃圾稿件两类。

采用基于分布式特征表示的方法，使得稿件文本具有易于分类的特征，在进行稿件文本分类时，采用基于监督学习的线性核SVM分类方法，使得分类器的分类性能得到较好的改善。本方法在获得文本的分布式特征表示的基础上，用支持向量机对垃圾稿件文本进行分类，该方法相比基于词袋模型的分类方法，其分类效果有了明显提升。

附图说明

图1一种基于文本分布式特征表示的垃圾稿件分类方法流程图。

具体实施方式

下面结合附图对本发明进行进一步的说明。

搜集稿件文本数据集(包含垃圾稿件和有效稿件)，标记稿件的类别，如垃圾稿件记为类：y＝-1，有效稿件记为类：y＝1，支持向量机基于上述类别训练文本分类模型。

将稿件文本语料进行分词，本实施例使用的分词方法是基于词典逆向最大匹配算法和统计分词策略相结合的中文分词算法。

先对待分词的稿件文本进行预处理，对文本中的非汉字信息进行归一化处理。可采用分隔符(如空格“”)替代稿件文本中的标点、英文字母等非汉字信息。

分级构造分词词典，由核心词典和临时词典两部分构成分词词典集合。统计出权威性的词条语料，采用二级哈希结构存储构造核心词典。

选取学习阶段的预处理后待分词稿件文本作为临时词典加载的语料，将经过预处理的结果中所有不包含在核心词典中的相邻二字、三字、四字组合添加到临时词典文本文件中(可按照汉字的GB2312码建立哈希函数或其他常规的编码方式)。

分词系统进入自学习阶段具体为，当对新稿件文本进行分词时，若临时词典中有新统计的词组，该词的词频信息加一，

否则将该新词条重新加入临时词典。累计词频后判断词频是否满足设定阈值，若满足则移到核心词典中，并在临时词典中清空该词条。统计记录学习稿件文本的数量，若大于预定值，则清空临时词典。

采用更新后的核心词典中的词条作为分词依据，实践证明逆向最大扫描的正确率要略高于正向最大扫描，本实施例采用逆向最大匹配算法进行稿件文本的分词。逆向最大匹配算法的步骤如下：

1)将稿件分成句子(可通过标点符号断句)；

2)循环读入每一个句子S；

3)设置一个最大词的长度，即我们要截取的词的最大长度L；

4)从句子中取N-L到N的这段字符串(subword)，在字典中查找是否有待查询词。如果有待查询词记住subword，把N-L赋值给N，继续执行查找，直到N＝0(其中，N为句子中的字数)；否则将L减去1(即L-1)，继续从句子中取N-L到N的这段字符串在字典中查找是否有待查询词。

分完词后，每个稿件是由以空格隔开的单词组成的文本语料。也可以采用隐马尔科夫模型或者条件随机场的模型，但是会降低响应时间，对垃圾词汇的识别率并不高。

采用word2vec中基于负采样(Negative-Sampling)算法的跳元(Skip-Gram)模型，对分词后的稿件文本数据进行训练，从而获得词的向量模型。

提取文本中的词条作为叶子结点，词条在语料中出现的次数当作权值，构造相应的哈弗曼(Huffman)树来对每一个词进行Huffman编码。构建基于Negative Sampling的Skip-gram模型的目标函数：

然后，在训练过程中对这个目标函数进行优化，从而求得最优的词的向量表示。式中context(x)表示词条x的上下文，NEG(x)表示处理词时生成的负样本子集，C表示语料库，θ^u∈Rⁿ表示词u对应的一个辅助向量，L^x(u)表示词u的标签，表示词对应的向量，σ是一个逻辑回归函数，表示词的标签。即：

其中，context(x)的构成为：事先设置一个窗口阈值参数window(默认值为5)，每次构造context(x)时，首先生成区间[1,window]上的一个随机(整)数x前后各取个词就构成了context(x)。上述各个词的关系为：x是当前给定词，是词x的向下文context(x)中的一个词，而u是集合中的一个词。

利用随机梯度上升法对上式的目标函数进行优化，得到迭代过程中词u 的向量θ^u的更新公式为：的更新公式为：在迭代过程中词u的向量θ^u和词的向量都在原来的基础上进行了更新，使得向量对词的表达能力更强，向量随着更新而不断进化，向量的表示质量也随着提升。

预先设置一个初始的学习率η₀(如默认值为0.025)自适应学习率为：其中word_count_actual表示当前已处理过的词语，是为了防止分母为零，其中η＜η_min＝10^-4·η₀，η_min表示学习率的最小阈值。

对分词后的稿件数据进行词向量训练后得到稿件文本的词向量模型，每篇稿件文本中的每个词的词向量都可以表示为：x_i＝(x⁽¹⁾,x⁽²⁾,…,x⁽ⁿ⁾)，其中x_i表示该篇稿件中第i个词的词向量，n表示向量维数，x⁽ⁿ⁾为词向量中的第n维向量。

对稿件文本数据进行分布式特征表示，在获得稿件文本数据的词向量模型基础上，将稿件文本中每个词向量进行连接，并取其平均值，则每篇稿件文本的向量可以表示为：L表示该篇稿件文本有L个词向量，X_j表示第j份稿件的文本向量，此处通过文本向量来表示文本的分布式特征。

根据稿件类别和稿件样本数据的分布式特征向量表示构成一个特征空间上的稿件文本训练数据集T。可以表示为：T＝{(X₁,y₁),(X₂,y₂),…,(X_j,y_j),…,(X_N,y_N)}，其中：X_j∈X,y_j∈y＝{-1,1}；X表示所有垃圾稿件的集合，y表示标签类别集合。X_i为第i份稿件文本的特征向量，y_j为X_j的类标记，(X_i，y_i)。

采用基于监督学习的线性核SVM分类方法对稿件样本数据集T进行分类模型的训练。

在垃圾稿件数据集是线性可分的情况下，通过间隔最大化法和等价转化求解相应的凸二次规划得到的一个分离超平面，根据公式w^*·X+b^*＝0构建超平面，根据超平面把垃圾稿件和有效稿件样本分开，相应的分类决策函数为：f(x)＝sign(w^*·X+b^*)，其中，约束条件为：y_i(w·x_i+b)-1≥0,i＝1,2,…,N。式中X是输入的稿件的文本向量，x_i为第i个文本向量，y_i为文本向量x_i所对应的类别，w为可调的权值向量，b为偏置值。w*和b^*为w和b所对应的在最优超平面的参数。

对于垃圾稿件分类为非线性情况下，可以引入线性函数把输入空间Rⁿ映射到m维的特征空间，然后在高维空间中构造一个分界超平面，该超平面可以定义如下：式中w_j ^*是连接特征空间至输出空间的线性权，b^*为偏置值b所对应的在最优超平面的参数。

为了获得最优超平面，权向量和偏置值应最小化，而且满足约束条件：y_i(wx_i+b)≥1-ξ_i,i＝1,2,…,m，式中，ξ_i是正松弛变量，增加松弛变量的可容错性。根据结构风险最小化原理，这时最小化目标函数为：式中C是惩罚参数，依据拉格朗日定理，引入拉格朗日乘子α_i，核函数可转化成求解下述目标函数最小值：

(2)式满足约束条件：

最优超平面可以表示为：分类决策函数可表示为：本方法中我们选择线性核函数对文本向量进行空间变换。训练完成后，保存文本分类模型。

综上，对于一份新输入的文本数据，首先利用基于词典逆向最大匹配法和统计分词策略相结合的中文分词算法，对该稿件文本进行分词处理，得到以空格隔开的稿件文本数据，再采用word2vec中基于Negative-Sampling算法的Skip-Gram模型，对分词后的稿件文本数据进行训练，从而获得稿件文本词的向量模型。在词向量模型的基础上，通过将稿件中每个词的向量相连接，获得稿件文本的分布式特征表示，即稿件的文本向量模型。利用经过对稿件文本向量进行训练所得的垃圾稿件文本分类模型对该新输入的稿件文本向量进行判别，判别该稿件为垃圾稿件，或为有效稿件。

采用基于词典逆向最大匹配和统计分词策略相结合的中文分词算法，采用混合分词的算法，综合这两种不同算法的优点，明显提高了分词效率与分词效果。在进行词向量训练时，采用word2vec中的基于Negative Sampling的Skip-gram模型对稿件文本进行词向量训练，训练速度得到了较大提高，质量也得到了很大改善。引入稿件文本的分布式特征表示，使得稿件文本具有更易于区分的类别特征，选取线性核的支持向量机，对稿件的文本向量进行训练，得到SVM的稿件分类模型，在使用支持向量机进行垃圾稿件分类时，明显提高了稿件类别判别的正确率。

Claims

1.一种基于文本分布式特征表示的垃圾稿件分类方法，其特征在于，包括步骤：搜集稿件文本数据集，对稿件文本进行分词处理，对分词后的稿件文本数据进行训练获得稿件的词向量模型，将稿件文本中每个词向量进行连接，获得稿件文本的分布式特征；根据稿件类别和稿件样本数据的分布式特征向量表示构成一个特征空间上的稿件文本训练数据集；选取线性核的支持向量机对稿件的文本训练数据集进行分类模型训练，建立支持向量机的稿件分类模型，对新输入稿件的文本向量进行判别；

获得稿件的词向量模型进一步包括，提取文本中的词条作为叶子结点，词条在语料中出现的次数当作权值，构造相应的哈弗曼树对每一个词进行哈弗曼编码构建基于负采样Skip-gram算法的跳元模型：

对分词后的稿件文本数据进行训练，获得词向量模型，其中，context(x)表示词条x的上下文，NEG(x)表示处理词x～时生成的负样本子集，C表示语料库，θ^u∈Rⁿ表示词u对应的一个辅助向量，L^x(u)表示词u的标签，表示词对应的向量，σ是一个逻辑回归函数，表示词的标签。

2.根据权利要求1所述的分类方法，其特征在于，取词向量的平均值作为稿件文本的分布式特征。

3.根据权利要求1所述的分类方法，其特征在于，根据稿件类别和稿件样本数据的分布式特征向量表示构成一个特征空间上的稿件文本训练数据集T，T＝{(X₁,y₁),(X₂,y₂),…,(X_j,y_j),…,(X_N,y_N)},其中：X_j∈X,y_j∈y＝{-1,1}，X表示所有垃圾稿件的集合，y表示标签类别集合，X_j为第j份稿件文本的特征向量，y_j为X_j的类标记。

4.根据权利要求1所述的分类方法，其特征在于，根据公式：对迭代过程中词u的向量v^u进行更新，根据公式对词的向量进行了更新，使得向量对词的表达能力加强。

5.根据权利要求1所述的分类方法，其特征在于，当垃圾稿件数据集线性可分时，根据公式w^*·X+b^*＝0构建分离超平面，将垃圾稿件和有效稿件样本分开，其中，X是输入的稿件的文本向量，w*为权向量，b^*为偏置值。

6.根据权利要求1所述的分类方法，其特征在于，当垃圾稿件分类为非线性时，最优超平面中的核函数设计为线性核函数，把输入空间Rⁿ映射到m维的特征空间，在高维空间中构造分界超平面：将垃圾稿件和有效稿件样本分开，式中w_j ^*是连接特征空间至输出空间的线性权，b^*为偏置值，φ(x)为线性函数。

7.根据权利要求2所述的分类方法，其特征在于，所述context(x)的构成为：事先设置一个窗口阈值参数window，生成区间[1,window]上的一个随机数c～，在当前给定词x前后各取c～个词构成context(x)。