CN110321427A

CN110321427A - 面向不平衡数据集的基于bagging算法的文本分类方法及装置

Info

Publication number: CN110321427A
Application number: CN201810264745.7A
Authority: CN
Inventors: 张郭强; 余虎; 陈一鸣; 林伟亮
Original assignee: Guangdong Eshore Technology Co Ltd
Current assignee: Guangdong Eshore Technology Co Ltd
Priority date: 2018-03-28
Filing date: 2018-03-28
Publication date: 2019-10-11

Abstract

本发明涉及一种面向不平衡数据集的基于bagging算法的文本分类方法及装置，其中所述方法包括：获取文本数据集；将所述文本数据集进行降采用得到文本训练集；将所述文本数据集通过Word2Vec算法转换成文本词向量；根据所述文本训练集以及文本词向量通过支持向量机算法训练出文本分类器从而得到文本分类结果；通过基于bagging的集成学习算法将所有文本分类器进行集成得到最终的文本分类结果。本发明提出的文本分类方法通过将降采样有效的解决了样本的均衡性问题，通过训练多个分类器以集成算法bagging为基础有效的解决了样本中的噪声数据问题。

Description

面向不平衡数据集的基于bagging算法的文本分类方法及装置

技术领域

本发明涉及文本分类技术领域，尤其涉及一种面向不平衡数据集的基于bagging算法的文本分类方法及装置。

背景技术

随着互联网技术的发展，每天都会有包含各个领域的海量数据产生，获取文本数据的类别信息在众多应用中都具有重要作用，因此对于文本分类的研究一直是学术界和工业界研究的热点问题。目前大量的技术理论中都是假设数据是均衡样本，认为正负例样本相对平衡并且存在较少的噪声数据，然而在很多实际场景中的数据信息并不满足于这样的假设条件，因此实际应用中的效果并不能达到较高的期望值。

在类别不均衡问题中主要的处理手段是针对数据集较少的类别做过采样或者针对数据集较多的类别做降采样，通过这两种方法使得数据集的类别相对平衡从而进行分类器训练。其中，过采样的目的是通过增加数据集较少类别的样本，主要的方法有两种：一种是对已有的样本进行重复采样，另外一种是通过插值算法在类别叫少的样本之间生成若干其他样本数据从而达到一种数据集类别的相对平衡。需要注意的是不能简单的对样本进行重复采样因为这样会导致严重的过拟合问题，因此在过采样中采用插值算法一般会有较好的应用效果，其代表算法是SMOTE。针对不均衡数据集做SMOTE插值生成部分数据使得样本处于一个均衡的比例，然后通过神经网络算法对数据进行学习，将数据类别之间的关联性隐含在训练好的神经网络连接权重中，最后通过集成算法bagging为基础提升分类器的泛化性能。但是，SMOTE不适用于文本数据：对于数值型或者离散型数据，通过相关算法可以在类别较少的数据集周围插值生成相关的数据以此达到数据的平衡，但是对于文本类型的数据不能用插值的方法处理不平衡数据。降采样的目的是去除一些数据集较多类别的样本使得样本类别相对平衡，这种做法的缺点是可能会丢失一些重要的信息。

基于集成的学习机制是通过构建多个学习器来完成相关的学习任务，即通过产生一组“个体学习器”，然后根据一定的策略将若干个体学习器结合起来。个体学习器可以根据相关的应用需求选取相同结构的学习算法，也可以选择不同结构的学习算法，从相关的理论基础可以知道将多个学习器结合可以获得比单一学习器更为优秀的性能，这种效果在弱学习器上尤为显著。基于集成的学习机制根据学习器之间的关系可以分为两种：Bagging和Boosting。基于Bagging的学习器之间不存在相互依赖关系，可以采用并行化的方式；而Boosting中的学习器之间具有强依赖关系，必须通过串行生成的序列化方法集成。

现有技术中，以KNN为基分类器对训练数据集进行学习，对数据样本赋予一定的权重，利用集成学习机制中代表性算法Adaboost将各个基分类器结合起来最终确定出样本的类别。该方案中在初始化时会赋予每一个样本一个权重系数并且∑iwi＝1，同时一个基分类器最终分类结果的误差率可以用分错样本的权重除以样本权重总和得到。根据Adaboost算法，利用该错误率进行更新样本的权重使得正确样本的权重系数减小而错误样本的权重系数增大，从而使得下一个分类器对于错分的样本重点关注，同时可以得出该分类器在整体分类器中的权重系数。最后将每一个分类器的分类结果与对应分类器的权重系数相乘并相加得出测试样本的类别结果。

但是，这种分类器训练算法复杂度高：该技术方案中利用Adaboost进行分类器的集成，从算法应用上看只能应用于二分类数据集，当然可以通过将多分类问题拆分成一对一(OVO)或者一对其余(OVA)的技术手段进行扩展，从而实现数据集的多分类，但是这种实现多分类的算法复杂度高。其次，时间复杂度高：由于该技术方案中涉及到两个迭代过程：Adaboost的迭代过程以及在做特征提取时BPSO的迭代过程，因而这种实现方案的时间复杂度过高，不适用于文本分类的应用。

有鉴于此，有必要提出对目前的文本分类技术进行进一步的改进。

发明内容

为解决上述至少一技术问题，本发明的主要目的是提供一种面向不平衡数据集的基于bagging算法的文本分类方法。

为实现上述目的，本发明采用的一个技术方案为：提供一种面向不平衡数据集的基于bagging算法的文本分类方法，面向不平衡数据集的基于bagging算法的文本分类方法包括：

S10、获取文本数据集；

S20、将所述文本数据集进行降采用得到文本训练集；

S30、将所述文本数据集通过Word2Vec算法转换成文本词向量；

S40、根据所述文本训练集以及文本词向量通过支持向量机算法训练出文本分类器从而得到文本分类结果；

S50、通过基于bagging的集成学习算法将所有文本分类器进行集成得到最终的文本分类结果。

其中，所述步骤S20具体包括按顺序如下步骤：

S201、将所述文本数据集中样本量较多的类别进行随机采样并将采样数据放入文本训练集中；

S203、将采样过的数据在放回到文本数据集中；

S205、重复步骤S201，直到所述文本训练集的数据比例达到平衡。

其中，所述步骤S203之前，还包括：

S202、将采样过的数据进行标记；

所述步骤S203之后，还包括：

S204、将所述文本数据集中样本量较多的类别进行随机采样并根据所述标记判断是否重新采样该数据。

其中，所述步骤S30具体包括：

S301、将文本数据集进行分词并去除停用词；

S302、通过基于CBOW模型的Word2Vec算法，将文本数据集中的分词转换成文本词向量。

其中，所述步骤S40具体包括：

S401、通过设置参数确定支持向量机分类器的模型以及模型的特征数量；

S402、支持向量机分类器将文本数据以2元组为基础进行划分；

S403、通过卡方统计方法以及优先队列进行特征选择，并根据模型的特征数量选择出特征词；

S404、根据Word2Vec训练好的文本词向量进行构建文本的特征向量，利用支持向量机算法训练出文本分类器从而得到文本分类结果。

为实现上述目的，本发明采用的另一个技术方案为：提供一种面向不平衡数据集的基于bagging算法的文本分类装置，所述面向不平衡数据集的基于bagging算法的文本分类装置包括：

获取模块，用于获取文本数据集；

降采样模块，用于将所述文本数据集进行降采用得到文本训练集；

文本词向量转换模块，用于将所述文本数据集通过Word2Vec算法转换成文本词向量；

文本分类器训练模块，用于根据所述文本训练集以及文本词向量通过支持向量机算法训练出文本分类器从而得到文本分类结果；

集成模块，用于通过基于bagging的集成学习算法将所有文本分类器进行集成得到最终的文本分类结果。

其中，所述降采样模块具体用于：

将所述文本数据集中样本量较多的类别进行随机采样并将采样数据放入文本训练集中；

将采样过的数据在放回到文本数据集中；

重复步骤随机采样步骤，直到所述文本训练集的数据比例达到平衡。

其中，所述降采样模块具体还用于：

将采样过的数据进行标记；

将所述文本数据集中样本量较多的类别进行随机采样并根据所述标记判断是否重新采样该数据。

其中，所述文本词向量转换模块具体包括：

前处理模块，用于将文本数据集进行分词并去除停用词；

转换模块，用于通过基于CBOW模型的Word2Vec算法，将文本数据集中的分词转换成文本词向量。

其中，所述文本分类器训练模块具体包括：

预设模块，用于通过设置参数确定支持向量机分类器的模型以及模型的特征数量；

划分模块，用于支持向量机分类器将文本数据以2元组为基础进行划分；

选择模块，用于通过卡方统计方法以及优先队列进行特征选择，并根据模型的特征数量选择出特征词；

训练模块，用于根据Word2Vec训练好的文本词向量进行构建文本的特征向量，利用支持向量机算法训练出文本分类器从而得到文本分类结果。

本发明提出了的一种面向不平衡数据集的基于bagging算法的文本分类方法，针对存在于数据集中的样本不均衡问题和噪声数据问题，通过改进处理不均衡数据的方法，同时与集成算法相结合提出了一种针对不平衡数据的基于集成算法的文本分类方法。本发明提出的文本分类方法通过将降采样有效的解决了样本的均衡性问题，通过训练多个分类器以集成算法bagging为基础有效的解决了样本中的噪声数据问题。从整体来看对于每一个分类器都进行了降采样避免了噪声数据对于分类器的影响，但从全局来看却不会丢失重要信息，因此在实际应用中具有较好的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明一实施例的一种面向不平衡数据集的基于bagging算法的文本分类方法的方法流程图；

图2为本发明另一实施例的一种面向不平衡数据集的基于bagging算法的文本分类方法的方法流程图；

图3为本发明另一实施例的一种面向不平衡数据集的基于bagging算法的文本分类方法中步骤S30的方法流程图；

图4为本发明另一实施例的一种面向不平衡数据集的基于bagging算法的文本分类方法中的CBOW模型结构图；

图5为本发明一实施例的一种面向不平衡数据集的基于bagging算法的文本分类装置的模块方框图；

图6为本发明另一实施例的一种面向不平衡数据集的基于bagging算法的文本分类装置中文本词向量转换模块的模块方框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

请参照图1，在本发明实施例中，提供了一种面向不平衡数据集的基于bagging算法的文本分类方法，面向不平衡数据集的基于bagging算法的文本分类方法包括：

S10、获取文本数据集；

S20、将所述文本数据集进行降采用得到文本训练集；

S30、将所述文本数据集通过Word2Vec算法转换成文本词向量；

具体地，参照图2，首先假设数据集中类别较少的数据为正例，较多的为负例。针对上述现有技术方案中存在的缺点，采用降采样对数据进行平衡性处理，根据word2vec得到数据集中文本的词向量表示，由词向量构建出文本的特征并通过支持向量机算法训练出基础分类器从而得到分类结果，最后利用集成学习算法Bagging将所有分类器集成起来以此提高分类器的泛化能力。

在一具体实施例中，所述步骤S20具体包括按顺序如下步骤：

S203、将采样过的数据在放回到文本数据集中；

本实施例中，具体是采用又放回的将采样，即在样本量较多的类别中进行随机采样数据并且将采样过的数据再放回数据集中，重复进行该过程，使得训练集的正负例比例相对平衡。

在另一具体实施例中，所述步骤S203之前，还包括：

S202、将采样过的数据进行标记；

所述步骤S203之后，还包括：

本实施例在上述实施例的基础上，对采样过的数据通过标记的方式表明已被使用过，在同一个基础分类器中数据可以重复被采样，但是对于不同的分类器只能从未标记的数据中进行采样数据，确保最终所有的样本都被使用。通过降采样对于单独的分类器来讲会丢失一部分信息，但是通过集成的学习机制来看并没有丢失，之所以不采用过采样的方法是因为对于文本类型的数据插值不太适用而通过简单重复正例样本会导致严重的过拟合，因此选择降采样方法。

综上，本实施例中的面向不平衡数据集的基于bagging算法的文本分类方法，针对存在于数据集中的样本不均衡问题和噪声数据问题，通过改进处理不均衡数据的方法，同时与集成算法相结合提出了一种针对不平衡数据的基于集成算法的文本分类方法。本发明提出的文本分类方法通过将降采样和简单标记的方式有效的解决了样本的均衡性问题，通过训练多个分类器以集成算法bagging为基础有效的解决了样本中的噪声数据问题。从整体来看对于每一个分类器都进行了降采样避免了噪声数据对于分类器的影响，但从全局来看却不会丢失重要信息，因此在实际应用中具有较好的效果。

参考图3，在一具体实施例中，所述步骤S30具体包括：

S301、将文本数据集进行分词并去除停用词；

具体地，首先对于所有数据集进行分词并去除停用词，文本类型的数据不同于普通离散型或数值型的数据，无法直接应用于分类器。因此首先需要将文本切分成一个个的词语，同时将一些停用词进行过滤。为了将文本类型的数据转换成为数值型，通过实验发现Word2Vec算法中CBOW模型具有较好的效果。

参考图4，CBOW的原理是基于层级softmax的模型，主要用于计算在已知语境条件下后续可能出现的最大概率词语。CBOW模型由三层(输入层、投影层、输出层)构成，对于输入层，我们在初始化的时候会对每个词语进行随机初始化进而得到每个词语的低维稠密表示；在投影层做的工作仅仅是对于语境环境下出现的词语向量进行累加；输出层对应了一棵Huffman编码树，其构造原理是训练文本中出现的所有词语作为叶子节点，而词频作为权重构造总编码长度最短的Huffman编码树，此外对于非叶子节点都有一个与X相同维度的向量θi。

因此对于求解在语境的前提下下一个词出现的概率，我们可以得到从根节点到叶子节点路径，那么在这条路径上会存在(l-1)个分支，即到左孩子节点或者右孩子节点。而这个过程类似于二分类的过程，每一次的分类都有一个概率值，利用LogisticalRegression可以求得，最终可以得到该过程的数学表达：

对于上式通过梯度上升算法不断更新参数θi和每个词向量w，即取log函数后分别对θi和Xw求偏导，再利用学习率对参数和词向量不断更新直到最后收敛得到最终的每个词语的向量表达。

本实施例中，较好的表达了文本的特征向量。我们经常用到的文本词向量表达方式包括了词袋模型的one-hotrepresentation，词权重的TF-IDF和基于词典的表示，这些方法虽然能够在一定意义上表示出词语，但是不能很好的表示出上下文相关的信息。Word2Vec用于表示词的向量表达，其主要是利用语料中上下文关系进行训练，得到语境环境下在词空间中对于词的向量化表达，使得语境环境下相似的词语在词空间中也具有很大的相似性。

在一具体实施例中，所述步骤S40具体包括：

具体地，这里选择的基础分类器是支持向量机在多分类中的推广，通过设置参数确定SVM分类器的模型是线性文本分类器模型还是非线性的2-gram模型。由于文本是一种非线性的数据类型，所以在这里非线性的2-gram模型比线性分类器模型要好，其次对于模型的特征数量设定为3000。SVM分类器将文档以2元组为基础进行划分，通过卡方统计方法以及优先队列进行特征选择，根据模型设定的特征数量选择出特征词。特征词选择之后根据之前Word2Vec训练好的词向量进行构建文本的特征向量，利用SVM算法进行训练数据并得到分类器。最后将多个分类器的分类结果根据投票的方式选择出票数最多的文本类别作为最终结果。

本实施例中，降低了噪声数据的影响以及分类器的过拟合问题。通过集成的学习机制克服了单个分类器对于训练数据学习的片面性，而数据的降采样也使得噪声数据不会影响到所有分类器。通过训练多个分类器以集成算法为基础利用投票法得出文本的类别信息有效的解决了样本中的噪声数据问题，从整体来看对于每一个分类器都进行了降采样避免了噪声数据对于分类器的影响，但从全局来看却不会丢失重要信息，因此在实际应用中具有较好的效果。

参考图5，本实施例提供了一种面向不平衡数据集的基于bagging算法的文本分类装置，所述面向不平衡数据集的基于bagging算法的文本分类装置包括：

获取模块10，用于获取文本数据集；

降采样模块20，用于将所述文本数据集进行降采用得到文本训练集；

文本词向量转换模块30，用于将所述文本数据集通过Word2Vec算法转换成文本词向量；

文本分类器训练模块40，用于根据所述文本训练集以及文本词向量通过支持向量机算法训练出文本分类器从而得到文本分类结果；

集成模块50，用于通过基于bagging的集成学习算法将所有文本分类器进行集成得到最终的文本分类结果。

在一具体实施例中，所述降采样模块20具体用于：

将采样过的数据在放回到文本数据集中；

具体的实施例说明参见上述方法中相应实施例的说明。

在一具体实施例中，所述降采样模块20具体还用于：

将采样过的数据进行标记；

具体的实施例说明参见上述方法中相应实施例的说明。

综上，本实施例中的面向不平衡数据集的基于bagging算法的文本分类装置，针对存在于数据集中的样本不均衡问题和噪声数据问题，通过改进处理不均衡数据的方法，同时与集成算法相结合提出了一种针对不平衡数据的基于集成算法的文本分类装置。本发明提出的文本分类装置通过将降采样和简单标记的方式有效的解决了样本的均衡性问题，通过训练多个分类器以集成算法bagging为基础有效的解决了样本中的噪声数据问题。从整体来看对于每一个分类器都进行了降采样避免了噪声数据对于分类器的影响，但从全局来看却不会丢失重要信息，因此在实际应用中具有较好的效果。

参考图6，所述文本词向量转换模块30具体包括：

前处理模块301，用于将文本数据集进行分词并去除停用词；

转换模块302，用于通过基于CBOW模型的Word2Vec算法，将文本数据集中的分词转换成文本词向量。

在一实施例中，所述文本分类器训练模块40具体包括：

预设模块401，用于通过设置参数确定支持向量机分类器的模型以及模型的特征数量；

划分模块402，用于支持向量机分类器将文本数据以2元组为基础进行划分；

选择模块403，用于通过卡方统计方法以及优先队列进行特征选择，并根据模型的特征数量选择出特征词；

训练模块404，用于根据Word2Vec训练好的文本词向量进行构建文本的特征向量，利用支持向量机算法训练出文本分类器从而得到文本分类结果。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种面向不平衡数据集的基于bagging算法的文本分类方法，其特征在于，面向不平衡数据集的基于bagging算法的文本分类方法包括：

S10、获取文本数据集；

S20、将所述文本数据集进行降采用得到文本训练集；

S30、将所述文本数据集通过Word2Vec算法转换成文本词向量；

2.如权利要求1所述的面向不平衡数据集的基于bagging算法的文本分类方法，其特征在于，所述步骤S20具体包括按顺序如下步骤：

S203、将采样过的数据在放回到文本数据集中；

3.如权利要求2所述的面向不平衡数据集的基于bagging算法的文本分类方法，其特征在于，所述步骤S203之前，还包括：

S202、将采样过的数据进行标记；

所述步骤S203之后，还包括：

4.如权利要求3所述的面向不平衡数据集的基于bagging算法的文本分类方法，其特征在于，所述步骤S30具体包括：

S301、将文本数据集进行分词并去除停用词；

5.如权利要求4所述的面向不平衡数据集的基于bagging算法的文本分类方法，其特征在于，所述步骤S40具体包括：

6.一种面向不平衡数据集的基于bagging算法的文本分类装置，其特征在于，所述面向不平衡数据集的基于bagging算法的文本分类装置包括：

获取模块，用于获取文本数据集；

7.如权利要求6所述的面向不平衡数据集的基于bagging算法的文本分类装置，其特征在于，所述降采样模块具体用于：

将采样过的数据在放回到文本数据集中；

8.如权利要求7所述的面向不平衡数据集的基于bagging算法的文本分类装置，其特征在于，所述降采样模块具体还用于：

将采样过的数据进行标记；

9.如权利要求8所述的面向不平衡数据集的基于bagging算法的文本分类装置，其特征在于，所述文本词向量转换模块具体包括：

前处理模块，用于将文本数据集进行分词并去除停用词；

10.如权利要求9所述的面向不平衡数据集的基于bagging算法的文本分类装置，其特征在于，所述文本分类器训练模块具体包括：