CN110019654A

CN110019654A - 一种不平衡网络文本分类优化系统

Info

Publication number: CN110019654A
Application number: CN201710596521.1A
Authority: CN
Inventors: 陈清明; 王定波; 张亚琴
Original assignee: CSG Media Co Ltd
Current assignee: CSG Media Co Ltd
Priority date: 2017-07-20
Filing date: 2017-07-20
Publication date: 2019-07-16

Abstract

本发明公开了一种不平衡网络文本分类优化系统及方法。涉及计算机数据挖掘技术领域，其特征在于，所述系统包括：数据输入单元，用于输入文本语料：TX＝{t₁，t₂，t₃，...，t_n}；输入投票级别：N；输入最小特征数：min；输入最大特征数：max；中文分词处理单元，用于对TX进行中文分词，去掉没有意义的连词、介词和感叹词，得到CX＝{c₁，c₂，c₃，...，c_n}；特征提取单元，用于进行特征提取；模型分类单元，用于采用训练好的SVM分类器、朴素贝叶斯分类器和KNN分类器对特征提取的结果进行分类；根据投票级别：N，对分类后的结果进行判别；结果输出单元，用于得到每条文本语料的分类结果TC＝{m₁，m₂，m₃，...，m_n}。可优化不平衡网络文本小类的表示效果，提高小类的识别率；同时，通过优化集成学习的投票策略，提高小类的召回率。

Description

一种不平衡网络文本分类优化系统

技术领域

本发明涉及计算机数据挖掘领域，具体而言，涉及一种不平衡网络文本分类优化系统。

背景技术

网络文本是从海量互联网信息中过滤有效信息，互联网每天会产生大量数据信息，文本挖掘装置一天采集互联网信息达5000万条，而有用的信息相对而言是非常少，通常比例会达到1000：1以上。这种分类情况属于典型的不均衡数据集的分类，传统的关键字法、分类算法等文本挖掘方式在这种情况下效果很差。

在对不平衡的分类数据集进行建模时，传统算法可能并不稳定，其预测结果甚至可能是有偏的，而预测精度此时也变得带有误导性。在不平衡的数据中，任一算法都没法从样本量少的类中获取足够的信息来进行精确预测。因此，机器学习算法常常被要求应用在平衡数据集上。

发明内容

本发明的目的在于提供一种不平衡网络文本分类优化系统，可优化不平衡网络文本小类的表示效果，提高小类的识别率；同时，通过优化集成学习的投票策略，提高小类的召回率。

本发明的另一目的在于提供一种不平衡网络文本分类优化方法，具有相应效果。

为了实现上述目的，本发明实施例采用的技术方案如下：

一种不平衡网络文本分类优化系统，其特征在于，所述系统包括：。

数据输入单元，用于输入文本语料：TX＝{t₁,t₂,t₃,…,t_n}；输入投票级别：N；输入最小特征数：min；输入最大特征数：max；

中文分词处理单元，用于对TX进行中文分词，去掉没有意义的连词、介词和感叹词，得到CX＝{c₁,c₂,c₃,…,c_n}；

特征提取单元，用于进行特征提取；

模型分类单元，用于采用训练好的SVM分类器、朴素贝叶斯分类器和KNN分类器对特征提取的结果进行分类；根据投票级别：N，对分类后的结果进行判别；

结果输出单元，用于得到每条文本语料的分类结果TC＝m₁,m₂,m₃,…,m_n}。

进一步的，所述特征提取单元包括：

不均衡文本统计单元，用于对CX＝{c₁,c₂,c₃,…,c_n}中所有分词进行不均衡文本统计，得到每个分词统计后的对应的不均衡文本统计量：X_n1、X_n2、Y_n1和Y_n2；

特征概率处理单元，用于计算每个分词对应的特征概率值；

分类训练单元，用于从min值开始，获取前N个特征词，对文本语料进行N个特征词向量表示进行分类训练；

比较判断单元，用于对所有语料进行交叉验证，得出平均召回率，判断N值大小，直到N值大于max值，将结果发送给特征输出单元；

特征输出单元，比较所有分类效果，选择召回率最大时对应的N值作为结果进行输出。

进一步的，所述分类训练单元包含：

特征词提取单元，用于从min值开始，获取前N个特征词；

SVM分类器，用于对特征词进行SVM分类；

朴素贝叶斯分类器，用于对特征词进行朴素贝叶斯分类；

KNN分类器，用于对特征词进行KNN分类。

进一步的，所述比较判断单元包括：

交叉验证单元，用于对所有文本语料进行交叉验证，得到平均召回率；

判断单元，用于判断N值释放后大于max值。

一种不平衡网络文本分类优化方法，其特征在于，所述方法包括：

步骤S1：输入文本语料：TX＝{t₁,t₂,t₃,…,t_n}；输入投票级别：N；输入最小特征数：min；输入最大特征数：max；

步骤S2：对TX进行中文分词，去掉没有意义的连词、介词和感叹词，得到CX＝{c₁,c₂,c₃,…,c_n}；

步骤S3：进行特征提取；

步骤S4：采用训练好的SVM分类器、朴素贝叶斯分类器和KNN分类器对特征提取的结果进行分类；

步骤S5：根据投票级别：N，对分类后的结果进行判别；

步骤S6：得到每条文本语料的分类结果TC＝{m₁,m₂,m₃,…,m_n}。

进一步的，所述步骤S3中进行特征提取的方法包括：

步骤S3.1：对CX＝{c₁,c₂,c₃,…,c_n}中所有分词进行不均衡文本统计，得到每个分词统计后的对应的不均衡文本统计量：X_n1、X_n2、Y_n1和Y_n2；

步骤S3.2：按照如下公式，计算每个分词对应的特征概率值为：

步骤S3.3：从min值开始，获取前N个特征词；

步骤S3.4：对文本语料进行N个特征词向量表示进行分类训练；

步骤S3.5：对所有语料进行交叉验证，得出平均召回率；

步骤S3.6：重复执行步骤S3.2-步骤S3.5，直到N值大于max值；

步骤S3.7：比较所有分类效果，选择召回率最大时对应的N值作为结果。

本发明实施例提供的一种不平衡网络文本分类优化系统，采用特征选择、集成学习方法，克服单个文本分类器的不足，采用分类器组合的方式进行分类效果增强，采用SVM、朴素贝叶斯、K近邻算法进行分类器组合，并对分类效果进行评判，对实现算法能进行逐步调优。

另一方面，本发明实施例提供的一种不平衡网络文本分类优化方法，具有相应的效果。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例提供的不平衡网络文本分类优化系统的结构示意图。

图2示出了本发明实施例提供的不平衡网络文本分类优化系统中特征提取单元的结构示意图。

图3示出了本发明实施例提供的不平衡网络文本分类优化方法的流程示意图。

其中，100-数据输入单元，200-中文分词处理单元，300-特征提取单元，400-模型分类单元，500-结果输出单元，201-不均衡文本统计单元，202-特征概率处理单元，203-分类训练单元，204-比较判断单元，205-特征输出单元，601-步骤S1，602-步骤S2，603-步骤S3，604-步骤S4，605-步骤S5，606-步骤S6。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

第一实施例

本发明第一实施例提供了一种不平衡网络文本分类优化系统，其特征在于，所述系统包括：

特征提取单元，用于进行特征提取；

进一步的，所述特征提取单元包括：

特征概率处理单元，用于计算每个分词对应的特征概率值；

具体的，特征概率处理单元，计算每个分词对应的特征概率值的方法为：按照如下公式，计算每个分词对应的特征概率值为：

具体的，不均衡文本统计单元统计的X_n1代表含有某关键字的相关文本；X_n2代表含有某关键字的不相关文本；Y_n1代表不含有某关键字的相关文本；Y_n2代表不含有某关键字的不相关文本。

进一步的，所述分类训练单元包含：

特征词提取单元，用于从min值开始，获取前N个特征词；

SVM分类器，用于对特征词进行SVM分类；

朴素贝叶斯分类器，用于对特征词进行朴素贝叶斯分类；

KNN分类器，用于对特征词进行KNN分类。

具体的，训练三个元分类器来对所有的基本学习器的输出进行处理，对文本语料分别进行SVM、朴素贝叶斯和KNN分类，SVM分类器、朴素贝叶斯分类器和KNN分类器三个分类器从原理上不一样，并且三个分类器在文本分类方面效果较好，所以对于同一舆情再现问题的概率很小，然后用仲裁法从所有基本分类器的输出中选择合理的结果作为输出。

进一步的，所述比较判断单元包括：

判断单元，用于判断N值释放后大于max值。

第二实施例

本发明第二实施例提供了一种不平衡网络文本分类优化方法，其特征在于，所述方法包括：

步骤S3：进行特征提取；

步骤S5：根据投票级别：N，对分类后的结果进行判别；

进一步的，所述步骤S3中进行特征提取的方法包括：

步骤S3.3：从min值开始，获取前N个特征词；

步骤S3.5：对所有语料进行交叉验证，得出平均召回率；

步骤S3.6：重复执行步骤S3.2-步骤S3.5，直到N值大于max值；

具体的，具体的，不均衡文本统计单元统计的X_n1代表含有某关键字的相关文本；X_n2代表含有某关键字的不相关文本；Y_n1代表不含有某关键字的相关文本；Y_n2代表不含有某关键字的不相关文本。

第三实施例

本发明实施例3一方面提供了一种不平衡网络文本分类优化系统，其特征在于，所述系统包括：

特征提取单元，用于进行特征提取；

进一步的，所述特征提取单元包括：

特征概率处理单元，用于计算每个分词对应的特征概率值；

进一步的，所述分类训练单元包含：

特征词提取单元，用于从min值开始，获取前N个特征词；

SVM分类器，用于对特征词进行SVM分类；

朴素贝叶斯分类器，用于对特征词进行朴素贝叶斯分类；

KNN分类器，用于对特征词进行KNN分类。

进一步的，所述比较判断单元包括：

判断单元，用于判断N值释放后大于max值。

本发明实施例3另一方面提供了一种不平衡网络文本分类优化方法，其特征在于，所述方法包括：

步骤S3：进行特征提取；

步骤S5：根据投票级别：N，对分类后的结果进行判别；

进一步的，所述步骤S3中进行特征提取的方法包括：

步骤S3.3：从min值开始，获取前N个特征词；

步骤S3.5：对所有语料进行交叉验证，得出平均召回率；

步骤S3.6：重复执行步骤S3.2-步骤S3.5，直到N值大于max值；

综上所述，采用传统的特征表示方式，最终文本语料的平均召回率72.8％，通过本发明的文本分类优化系统，分类召回率84.4％，提高了11.6个百分点。在12个大的数据集上，表现很稳定，数据总样本达到200多万，说明特征优选后，效果非常明显。本发明采用特征选择、集成学习方法，克服单个文本分类器的不足，采用分类器组合的方式进行分类效果增强，采用SVM、朴素贝叶斯、K近邻算法进行分类器组合，并对分类效果进行评判，对实现算法能进行逐步调优。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个单元、程序段或代码的一部分，所述单元、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能单元可以集成在一起形成一个独立的部分，也可以是各个单元单独存在，也可以两个或两个以上单元集成形成一个独立的部分。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Onl8Memor8)、随机存取存储器(RAM，RandomAccess Memor8)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

Claims

1.一种不平衡网络文本分类优化系统，其特征在于，所述系统包括：。

特征提取单元，用于进行特征提取；

结果输出单元，用于得到每条文本语料的分类结果TC＝{m₁,m₂,m₃,…,m_n}。

2.如权利要求1所述的不平衡网络文本分类优化系统，其特征在于，所述特征提取单元包括：

特征概率处理单元，用于计算每个分词对应的特征概率值；

3.如权利要求2所述的不平衡网络文本分类优化系统，其特征在于，所述分类训练单元包含：

特征词提取单元，用于从min值开始，获取前N个特征词；

SVM分类器，用于对特征词进行SVM分类；

朴素贝叶斯分类器，用于对特征词进行朴素贝叶斯分类；

KNN分类器，用于对特征词进行KNN分类。

4.如权利要求3所述的不平衡网络文本分类优化系统，其特征在于，所述比较判断单元包括：

判断单元，用于判断N值释放后大于max值。

5.一种不平衡网络文本分类优化方法，其特征在于，所述方法包括：

步骤S3：进行特征提取；

步骤S5：根据投票级别：N，对分类后的结果进行判别；

6.如权利要求5所述的不平衡网络文本分类优化方法，其特征在于，所述步骤S3中进行特征提取的方法包括：

步骤S3.3：从min值开始，获取前N个特征词；

步骤S3.5：对所有语料进行交叉验证，得出平均召回率；

步骤S3.6：重复执行步骤S3.2-步骤S3.5，直到N值大于max值；