CN104361010A

CN104361010A - 一种纠正新闻分类的自动分类方法

Info

Publication number: CN104361010A
Application number: CN201410536020.0A
Authority: CN
Inventors: 冯晓燕
Original assignee: Beijing Zhongsou Network Technology Co ltd
Current assignee: Beijing Zhongsou Network Technology Co ltd
Priority date: 2014-10-11
Filing date: 2014-10-11
Publication date: 2015-02-18

Abstract

本发明涉及一种纠正新闻分类的自动分类方法，所述方法包括(1)设置配置项；(2)标注样本；(3)建立词典；(4)训练模型；(5)模型测试；(6)分类纠错预测。本发明是用于对新闻资讯分类的自动分类纠错。可以对完全依靠入口源标注的新闻资讯分类进行再次确认，过滤掉分类标签不一致的分类信息，使呈现给用户正确的分类。本发明模型训练和预测是相互独立的过程，便于模型训练提升准确度，之后可以直接更新所有的模型即可。本发明可以独立优化特征值，不影响当前的预测和模型。本发明新增分类方便快捷，在配置文件里追加新闻资讯分类的配置项即可。

Description

一种纠正新闻分类的自动分类方法

技术领域

本发明涉及一种自动分类方法，具体讲涉及一种纠正新闻分类的自动分类方法。

背景技术

新闻资讯分类是指对海量的新闻资讯数据进行归类定位。随着互联网的迅猛发展，网络资源已成为人们普遍关注的方向。新闻资讯是互联资源的一个重要呈现形式。大量的新闻资讯不断涌向用户，用户难以从海量的信息中找到自己想要关注的方向。因此，需要一个分类器对新闻资讯进行归类总结，以方便用户根据喜好阅读浏览。目前的新闻资讯的分类方法，有入口源标注法和自动分类法。

入口源标注法，是指对URL进行人工标注归类。该类方法依靠URL的分类，即某一个分类的URL的所有数据都认为是该分类的数据。

自动分类，是通过计算机系统代替人工对资源进行分类，是基于内容的，不需要人工干预的分类技术。目前应用较广泛的分类技术是机器学习方法中的支持向量机技术。支持向量机将向量映射到一个更高维的空间，再在这个空间建立一个有最大间隔的超平面。在分开数据的超平面两边建有两个互相平行的超平面。建立方向合适的分隔超平面以使两个与之平行的超平面间的距离最大化。其假定为，平行超平面间的距离或差距越大，分类器的总误差越小。

入口源标注法的缺点有两点：首先该方法的分类质量完全依赖于入口源的分类数据。当入口源分类错误时，无法进行单个纠正。另外，该方法需要大量的人力资源进行入口源分类标注。当原网站的分类发生变化时，需要人工再次标注。

支持向量机法的缺点是，存在一定的分错误率。一条数据只能给一个分类标签。对于同一条数据，仁者见仁，智者见智，不同的人对于同一条数据所确认的分类因此有可能是不同的。因此给出的标签可能不是大多数用户想要的。

发明内容

针对现有技术的不足，本发明提成一种纠正新闻分类的自动分类方法，采用基于本发明的资讯新闻分类的自动分类纠错，分类快速，效果显著。在决策模型一定的前提下，快速给出一条新闻资讯的最优的两个分类标签。便于过滤掉原分类标签与预测出的两个分类标签都不同的分类标签。在容许交叉分类的前提下，最大限度的过滤掉错误分类。

本发明的目的是采用下述技术方案实现的：

一种纠正新闻分类的自动分类方法，其改进之处在于，所述方法包括

(1)设置配置项；

(2)标注样本；

(3)建立词典；

(4)训练模型；

(5)模型测试；

(6)分类纠错预测。

优选的，所述步骤(1)包括设置配置文件，其包括分类个数、分类名字和分类标签编号。

优选的，所述步骤(2)包括明确分类的定位以及分类间的交叉定位，根据分类定位进行样本数据的标注。

优选的，所述步骤(3)包括根据样本数据，均匀取各分类190标注样本，通过分词和过滤，建立词典。

优选的，所述步骤(3)包括

(3.1)按分类加载各分类的样本数据；

(3.2)对加载数据进行切词；

(3.3)统计词的idf，降序排列；

(3.4)去除停用词、单字词和名字词；

(3.5)降序输出，生成词典。

优选的，所述步骤(4)包括均匀取各分类150条样本，进行模型训练。

进一步地，所述步骤(4)包括

(4.1)加载配置文件，获得分类信息；

(4.2)加载词典；

(4.3)加载各分类的标注样本数据，编号从0.txt-149.txt，共150条数据，并对样本数据进行切词；

(4.4)样本数据向量化，向量化的顺序依据词典的顺序；

(4.5)将向量化的样本数据推入训练器进行训练；

(4.6)输出训练模型，最优训练模型mdf和13个次优训练模型mdf_Second[13]。

优选的，所述步骤(5)包括取剩下的40条数据做测试。

进一步地，所述步骤(5)包括

(5.1)加载配置文件，获得分类信息；

(5.2)加载词典；

(5.3)加载决策模型，共14个模型；

(5.4)加载各分类的标注样本数据，编号从150.txt-189.txt，共40条数据，并对样本数据进行切词；

(5.5)样本数据向量化，向量化的顺序依据词典的顺序；

(5.6)将向量化的样本数据推入模型，进行预测；

(5.7)统计预测准确性；

(5.8)通过验证。

优选的，所述步骤(6)包括对已有标签的数据进行分类预测。

进一步地，所述步骤(6)包括

(6.1)加载配置文件和词典；

(6.2)加载决策模型，共14个决策模型；

(6.3)对输入的数据进行向量映射；

(6.4)将一组向量推入最优模型mdf，预测标签为iLabel1，将该组向量推入次优模型mdf_Second[iLabel1]，预测标签为iLabel2；

(6.5)根据加载的配置文件，将标签iLabel1和iLabel2分别转换为对应分类名字，输出。

与现有技术比，本发明的有益效果为：

本发明是用于对新闻资讯分类的自动分类纠错。可以对完全依靠入口源标注的新闻资讯分类进行再次确认，过滤掉分类标签不一致的分类信息，使呈现给用户正确的分类。

本发明模型训练和预测是相互独立的过程，便于模型训练提升准确度，之后可以直接更新所有的模型即可。

本发明打破传统的支持向量机给出一个分类标签，这里给出两个最优标签。

本发明可以独立优化特征值，不影响当前的预测和模型。

本发明新增分类方便快捷，在配置文件里追加新闻资讯分类的配置项即可。

附图说明

图1为本发明提供的一种纠正新闻分类的自动分类方法流程图。

图2为本发明提供的一种纠正新闻分类的自动分类方法训练模型流程图。

图3为本发明提供的一种纠正新闻分类的自动分类方法预测流程图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的详细说明。

本发明是对新闻资讯的入口源分类进行确认和纠错。建立自动分类分为六个模块。模块1：设置分类配置项；模块2：定位分类，标注定位的分类样本；模块3：均匀取各分类190标注样本，通过分词、过滤，建立词典；模块4：均匀取各分类150(190条数据中150条)条样本，进行模型训练；模块5：取剩下的40条数据做测试；模块6：对已有标签的数据进行分类预测。如图2所示，为本发明训练模型流程，如图3所示，为本发明预测流程。具体的实施步骤如下：

1、设置配置项

该模块的主要工作设置配置文件，包括分类个数和各分类名字和分类标签编号。这样做，一方面，便于后期模型训练对样本进行分类编号和在预测分类时做标签名和标签号匹配。另一方面，便于改变分类个数做实验。

2、标注样本

该模块的主要工作是明确各分类的定位，以及各分类间的交叉定位。根据分类定位进行样本数据的标注。本发明中13分类的样本数分别是190条。每个分类的样本都处理成单个的文件，并进行顺序编号，方便对数据的操作。

3、建立词典

该模块的主要工作是根据样本数据建立词典。数据格式为：词idf。具体步骤如下。

1.加载各分类的样本数据，按分类加载。

2.对所有的数据加载数据进行切词。

3.统计词的idf，降序排列。

4.去除停用词、单字词、名字词。

5.降序输出，生成词典。

4、训练模型

该模块的功能是根据词典和分类信息训练决策模型，输出决策模型。这里的训练模型包括14个模型：1个最优训练模型(13个分类，各150条样本数据)和13个次优模型(即缺一模型，每个模型分别缺少一个分类，每个模型用12个分类的样本进行训练，每个分类同样150条样本数据)。

传统的支持向量机是只有一个总的决策模型。决策模型会给出最适合的分类标签，忽略了交叉分类的存在。本发明在总决策模型的前提下，又做了次优模型训练。每个数据给出两个最优标签。具体过程如下：

1.加载配置文件，获得分类信息。

2.加载词典。

3.加载各分类的标注样本数据，编号从0.txt-149.txt，共150条数据，并对样本数据进行切词，采用建立词典过程中相同的切词方法。

4.样本数据向量化，向量化的顺序依据词典的顺序，一个词的向量值＝该词在词典中权重*该词在样本中以独立词出现的次数。

5.将向量化的样本数据推入训练器进行训练。这里需要注意的是，在训练最优训练模型的时候，推入训练器的是13个分类的编号从0.txt-149.txt的样本数据。在训练次优模型的时候，推入训练器的是12个分类的编号从0.txt-149.txt的样本数据。

6.输出训练模型，最优训练模型mdf和13个次优训练模型mdf_Second[13]。

注：mdf_Second[i]为缺少分类编号为i+1的分类模型。

5、模型测试

该模块的功能是为了测试训练模型的准确性。从两方面测试，一方面测试一级预测准确性，即：最优模型预测准确；一方面测试二级预测准确性，即：最优模型或次优模型预测准确率。

1.加载配置文件，获得分类信息。

2.加载词典。

3.加载决策模型，共14个模型。

4加载各分类的标注样本数据，编号从150.txt-189.txt，共40条数据，并对样本数据进行切词，采用建立词典过程中相同的切词方法。

5.样本数据向量化，向量化的顺序依据词典的顺序，一个词的向量值＝该词在词典中权重*该词在样本中以独立词出现的次数。

6.将向量化的样本数据推入模型，进行预测。先推入最优模型mdf，如果预测标签iLabel1和标注标签iLabel相同则iRightNum1+1，iRightNum2+1；否则，将向量化的样本数据推入mdf_Second[iLabel1]，如果预测标签iLabel2和标注标签iLabel相同，则iRightNum+1。依次循环，直到预测完所有的编号从150.txt-189.txt的样本。

7.统计预测准确性。

一级准确性＝iRightNum1/13*40；

二级准确性＝iRightNum2/13*40

8.通过验证，一级预测和标注标签不同，二级预测和标注标签相同的样本为交叉分类，即分在两个分类都是正确的。

6、分类纠错预测

该模块的主要功能是对给定的数据，进行分类预测。

1.加载配置文件和词典。

2.加载决策模型，共14个决策模型。

3.对输入的数据进行向量映射。

4.将一组向量先推入最优模型mdf，预测标签为iLabel1，再将该组向量推入次优模型mdf_Second[iLabel1]，预测标签为iLabel2。

根据加载的配置文件，将标签iLabel1和iLabel2分别转换为对应分类名字，输出。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种纠正新闻分类的自动分类方法，其特征在于，所述方法包括

(1)设置配置项；

(2)标注样本；

(3)建立词典；

(4)训练模型；

(5)模型测试；

(6)分类纠错预测。

2.如权利要求1所述的一种纠正新闻分类的自动分类方法，其特征在于，所述步骤(1)包括设置配置文件，其包括分类个数、分类名字和分类标签编号。

3.如权利要求1所述的一种纠正新闻分类的自动分类方法，其特征在于，所述步骤(2)包括明确分类的定位以及分类间的交叉定位，根据分类定位进行样本数据的标注。

4.如权利要求1所述的一种纠正新闻分类的自动分类方法，其特征在于，所述步骤(3)包括根据样本数据，均匀取各分类190标注样本，通过分词和过滤，建立词典。

5.如权利要求1所述的一种纠正新闻分类的自动分类方法，其特征在于，所述步骤(3)包括

(3.1)按分类加载各分类的样本数据；

(3.2)对加载数据进行切词；

(3.3)统计词的idf，降序排列；

(3.4)去除停用词、单字词和名字词；

(3.5)降序输出，生成词典。

6.如权利要求1所述的一种纠正新闻分类的自动分类方法，其特征在于，所述步骤(4)包括均匀取各分类150条样本，进行模型训练。

7.如权利要求6所述的一种纠正新闻分类的自动分类方法，其特征在于，所述步骤(4)包括

(4.1)加载配置文件，获得分类信息；

(4.2)加载词典；

(4.4)样本数据向量化，向量化的顺序依据词典的顺序；

(4.5)将向量化的样本数据推入训练器进行训练；

8.如权利要求1所述的一种纠正新闻分类的自动分类方法，其特征在于，所述步骤(5)包括取剩下的40条数据做测试。

9.如权利要求8所述的一种纠正新闻分类的自动分类方法，其特征在于，所述步骤(5)包括

(5.1)加载配置文件，获得分类信息；

(5.2)加载词典；

(5.3)加载决策模型，共14个模型；

(5.5)样本数据向量化，向量化的顺序依据词典的顺序；

(5.6)将向量化的样本数据推入模型，进行预测；

(5.7)统计预测准确性；

(5.8)通过验证。

10.如权利要求1所述的一种纠正新闻分类的自动分类方法，其特征在于，所述步骤(6)包括对已有标签的数据进行分类预测。

11.如权利要求10所述的一种纠正新闻分类的自动分类方法，其特征在于，所述步骤(6)包括

(6.1)加载配置文件和词典；

(6.2)加载决策模型，共14个决策模型；

(6.3)对输入的数据进行向量映射；