CN102799666A

CN102799666A - 一种基于频繁词集的网络新闻自动文本分类的方法

Info

Publication number: CN102799666A
Application number: CN2012102445585A
Authority: CN
Inventors: 袁满; 欧阳元新; 赵海; 熊璋
Original assignee: Beihang University
Current assignee: Beijing Rock Technology Co., Ltd.
Priority date: 2012-07-13
Filing date: 2012-07-13
Publication date: 2012-11-28
Anticipated expiration: 2032-07-13
Also published as: CN102799666B

Abstract

本发明公开了一种基于频繁词集的网络新闻自动文本分类的方法，该方法具体为：步骤（1）数据预处理和特征选择；步骤（2）提取频繁词集；步骤（3）基于频繁词集的文本表示；步骤（4）训练分类器并对文本进行分类。本发明能够利用频繁词集的新的约束参数AD-Sup，使频繁特征具有更好的类别区分能力。并且针对频繁特征上的数据稀疏性问题，提出了基于特征相似度的权重计算方法，有效的降低了文档在新增频繁词特征上的数据稀疏性。

Description

一种基于频繁词集的网络新闻自动文本分类的方法

技术领域

本发明涉及信息检索、信息过滤、搜索引擎、推荐系统等技术领域，特别涉及一种基于频繁词集的网络新闻自动文本分类的方法。

背景技术

随着互联网的发展，海量的网络数据使得有效的检索和管理变得越来越重要。由于绝大多数信息仍以文本形式呈现，基于文本内容的信息检索和数据挖掘成为备受关注的研究领域。文本分类（Text categorization）是文本挖掘中的重要内容之一，是在预先标注的类别集合上，对未标注的文本（文档）根据内容判定其类别。作为一种有效的信息组织和管理方法，文本分类便于用户和信息系统准确定位所需信息，在信息检索、信息过滤、搜索引擎、推荐系统等领域有着广泛的应用。目前文本分类的常用方法主要是基于机器学习的，典型的包括朴素贝叶斯、决策树、k-NN、Rocchio和SVM等。在这些方法中，文本的表示是基于向量空间模型（VSM）的。在VSM中，文本内容被视为“Bag of words”（BOW），BOW的处理方法忽略了词条之间的关联性，不能保留文本的上下文和语法信息，而这种关联性却在自然语言中对文本内容所包含的具体含义有着重要的影响。

频繁项目集是数据挖掘中的基本概念，指共同出现次数即支持度高于一定阈值的一组项目集合。频繁项目集隐含了其中各项之间的关联性，当其中的项目是文本中的词条，频繁项目集也就包含了更多的上下文信息。

发明内容

本发明要解决的技术问题为：克服现有技术的不足，提供一种基于频繁词集的文本分类方法，该方法考虑文本上下文和语法信息，提出了一种新的文本表示策略，通过初始单词和频繁词集共同构建特征空间，并提高了文本分类的准确性。

本发明解决上述技术问题的技术方案为：一种基于频繁词集的网络新闻自动文本分类的方法，该方法具体步骤如下：

步骤(1)、数据预处理和特征选取：利用词干提取和停等词去除来进行文本数据预处理，利用信息增益来对文本数据进行特征选取，利用基于特征相似度的权重计算方法，对包含部分频繁词集的特征进行权重预测，有效的降低了文档在新增频繁词特征上的数据稀疏性。

步骤(2)、频繁词集抽取：从步骤(1)生成的候选词集中发现支持度高于最低支持度的词集。频繁词集抽取的过程利用Apriori算法，通过宽度优先的策略逐级生成各项频繁项目集；通过AD-Sup对提起的频繁集进行了优化

步骤(3)、文本表示：把频繁词集和初始单词作为一个整体，特征空间同时包含单词和频繁词集，并且利用基于相似度的权重的计算方法解决频繁集特征的数据稀释问题；

步骤(4)、文本分类：在训练集上构建分类器，并且在测试集上进行分类。利用的分类器是SVM。

所述步骤（2）中对候选词集的频繁词抽取，具体如下：

步骤①、采用新的文本分类的频繁集生成约束参数：均偏差支持率。假定文档集合包含n个类别{class₁,…class_i,…class_n}，令FS表示词集，t为词集FS中的词条，则AD-Sup的表达式为公式（1），而在公式（2）中，Sup(FS)_i指的是词集FS在类别i中的支持数，在公式（3）中，df(t)指的是词条t的文档频率：

AD - Sup (FS) = \frac{\sqrt{Σ_{i = 1}^{n} {Sup {(FS)}_{i} - Ave (Sup (FS))}^{2}}}{Ave (Sup (FS))} - - - (1)

Ave (Sup (FS)) = \frac{Σ_{i = 1}^{n} Sup {(FS)}_{i}}{n} - - - (2)

Sup(FS)_i＝min{df(t)₁...df(t)_m} (3)

步骤②、利用步骤①产生的新的约束参数，对候选词集进行频繁词抽取，抽取的过程利用了Apriori算法，通过宽度优先的策略逐级生成各项频繁项目集，通过AD-Sup对提起的频繁集进行了优化；

所述步骤（3）中的文本的表示方法，具体如下：

步骤A、把在步骤（2）中得到的频繁词集和初始单词作为一个整体考虑，初始单词视为只包含一个频繁项的单元词集。因此全局特征空间就包含了项目数从1到n的各级词集；

步骤B、采用一种基于特征相似度的权重计算方法来解决数据稀疏性的问题。当一个文档包含某词集的一部分时，该部分词集即为原词集特征的一个相似特征。相似特征的权重可以通过原词集和部分词集之间的相似度来获得。若FS'为相似特征，FS为原特征，W为特征权重，则二者的相似度可以通过公式（4）来计算：

FeatureSimilarity ({FS}^{'}, FS) = \frac{Σ_{i = 1}^{n} W_{i}^{'} \times W_{i}}{\sqrt{Σ_{i = 1}^{n} {(W_{i}^{'})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(W_{i})}^{2}}} - - - (4)

步骤C、最终，FS'的权重为FS'中的词频均值乘以FS＇和FS的相似度：

W ({FS}^{'}) = \frac{(Σ_{i = 1}^{n} {TF}_{i}^{'})}{n} \times FeatureSimilarity ({FS}^{'}, FS) - - - (5)

本发明与现有技术相比的优点在于：

本发明提出了新的约束参数，提取适用于分类的频繁词集特征，用频繁词集作为补充特征来表示文本，更多的保留了单词的上下文信息；针对数据稀疏性问题，提出了基于特征相似度的权重计算方法，对包含部分频繁词集的特征进行权重预测，有效的降低了文档在新增频繁词特征上的数据稀疏性，提高了分类效果。

附图说明

图1为本发明的概要工作流程图；

图2为本发明的详细工作流程图；

图3为Reuters-21578数据集上的分类结果；

图4为WebKB数据集上的分类结果。

具体实施方式

现结合附图说明本发明的实施例。

如图2所示，本发明包括四个主要步骤：

步骤(2)、频繁词集抽取：从步骤(1)生成的候选词集中发现支持度高于最低支持度的词集。频繁词集抽取的过程利用Apriori算法，通过宽度优先的策略逐级生成各项频繁项目集；

AD - Sup (FS) = \frac{\sqrt{Σ_{i = 1}^{n} {Sup {(FS)}_{i} - Ave (Sup (FS))}^{2}}}{Ave (Sup (FS))} - - - (1)

Ave (Sup (FS)) = \frac{Σ_{i = 1}^{n} Sup {(FS)}_{i}}{n} - - - (2)

Sup(FS)_i＝min{df(t)₁...df(t)_m} (3)

步骤②、利用步骤①产生的新的约束参数，对候选词集进行频繁词抽取，抽取的过程利用了Apriori算法，通过宽度优先的策略逐级生成各项频繁项目集；

步骤(3)、文本表示：把频繁词集和初始单词作为一个整体，特征空间同时包含单词和频繁词集并且利用基于相似度的权重的计算方法解决数据稀释的问题；

步骤A、我们把在步骤（2）中得到的频繁词集和初始单词作为一个整体考虑，初始单词视为只包含一个频繁项的单元词集。因此全局特征空间就包含了项目数从1到n的各级词集；

步骤B、采用一种基于特征相似度的权重计算方法来解决数据稀疏性的问题。当一个文档包含某词集的一部分时，该部分词集即为原词集特征的一个相似特征。相似特征的权重可以通过原词集和部分词集之间的相似度来获得。若FS＇为相似特征，FS为原特征，W为特征权重，则二者的相似度可以通过公式（4）来计算：

FeatureSimilarity ({FS}^{'}, FS) = \frac{Σ_{i = 1}^{n} W_{i}^{'} \times W_{i}}{\sqrt{Σ_{i = 1}^{n} {(W_{i}^{'})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(W_{i})}^{2}}} - - - (4)

W ({FS}^{'}) = \frac{(Σ_{i = 1}^{n} {TF}_{i}^{'})}{n} \times FeatureSimilarity ({FS}^{'}, FS) - - - (5)

步骤(4)、文本分类：在训练集上构建分类器，并且在测试集上进行分类。利用的分类器是SVM；

本发明提出了一种基于频繁词集的网络新闻自动文本分类的方法，还可以应用于其他领域，如邮件过滤，文本检索，信息管理等，在频繁词集的选取中，我们引入了一个新的约束参数AD-Sup，充分考虑了频繁词集在各类别中的分布差异性，使所选取的频繁词集特征具有更好的类别区分能力。针对数据稀疏性问题，我们提出了基于特征相似度的权重计算方法，对包含部分频繁词集的特征进行权重预测，有效的降低了文档在新增频繁词特征上的数据稀疏性。在Reuters-21578和WebKB数据集上，训练SVM进行文本分类，通过与单特征训练下的SVM对比分类结果验证了特征组合策略的有效性，并对比了不同权重计算方法下的分类结果。结果表明，通过AD-Sup选取的频繁词集和特征组合策略可以有效提高SVM的分类结果。结果如图3，图4所示。

本发明未详细阐述的部分属于本领域公知技术。

以上实施例仅用以说明本发明的技术方案而非限制在具体实施方式的范围内，对本技术领域的普通技术人员来讲，只要各种变化在权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于频繁词集的网络新闻自动文本分类的方法，其特征在于：该方法具体步骤如下：

步骤(1)、数据预处理和特征选取：利用词干提取和停等词去除来进行文本数据预处理，利用信息增益来对文本数据进行特征选取；

步骤(2)、频繁词集抽取：从步骤(1)生成的候选词集中发现支持度高于最低支持度的词集；频繁词集抽取的过程利用Apriori算法，通过宽度优先的策略逐级生成各项频繁项目集；

步骤(3)、文本表示：把频繁词集和初始单词作为一个整体，初始单词视为只包含一个频繁项的单元词集；当频繁词集数量为0，特征空间就是由传统的bag of words组成，而当初始单词数量为0，那么特征空间就仅包含有频繁词集；并且利用基于相似度的权重的计算方法解决数据稀释的问题；

步骤(4)、文本分类：在训练集上构建分类器，并且在测试集上进行分类，利用的分类器是SVM。

2.根据权利要求1所述的一种基于频繁词集的网络新闻自动文本分类的方法，其特征在于：所述步骤（2）中对候选词集的频繁词抽取，具体如下：

步骤①、采用新的文本分类的频繁集生成约束参数：均偏差支持率；假定文档集合包含n个类别{class₁,…class_i,…,class_n}，令FS表示词集，t为词集FS中的词条，则AD-Sup的表达式为公式（1），而在公式（2）中，Sup(FS)_i指的是词集FS在类别i中的支持数，在公式（3）中，df(t)指的是词条t的文档频率：

AD - Sup (FS) = \frac{\sqrt{Σ_{i = 1}^{n} {Sup {(FS)}_{i} - Ave (Sup (FS))}^{2}}}{Ave (Sup (FS))} - - - (1)

Ave (Sup (FS)) = \frac{Σ_{i = 1}^{n} Sup {(FS)}_{i}}{n} - - - (2)

Sup(FS)_i＝min{df(t)₁...df(t)_m} (3)

步骤②、利用步骤①产生的新的约束参数，对候选词集进行频繁词抽取，抽取的过程利用了Apriori算法，通过宽度优先的策略逐级生成各项频繁项目集；频繁集的提取是先用传统的支持度min-sup作提取，然后用提出的新的约束参数，对提取后的频繁集进行优化，并不是只用新约束参数提取一次。

3.根据权利要求1或2所述的一种基于频繁词集的网络新闻自动文本分类的方法，其特征在于：所述步骤（3）中的文本的表示方法，具体如下：

步骤A、把在步骤（2）中得到的频繁词集和初始单词作为一个整体考虑，初始单词视为只包含一个频繁项的单元词集；因此全局特征空间就包含了项目数从1到n的各级词集；

步骤B、采用一种基于特征相似度的权重计算方法来解决数据稀疏性的问题；当一个文档包含某词集的一部分时，该部分词集即为原词集特征的一个相似特征；相似特征的权重可以通过原词集和部分词集之间的相似度来获得；若FS＇为相似特征，FS为原特征，W为特征权重，则二者的相似度可以通过公式（4）来计算：

FeatureSimilarity ({FS}^{'}, FS) = \frac{Σ_{i = 1}^{n} W_{i}^{'} \times W_{i}}{\sqrt{Σ_{i = 1}^{n} {(W_{i}^{'})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(W_{i})}^{2}}} - - - (4)

W ({FS}^{'}) = \frac{(Σ_{i = 1}^{n} {TF}_{i}^{'})}{n} \times FeatureSimilarity ({FS}^{'}, FS) - - - (5) .