CN106126690A

CN106126690A - 一种基于文本内容的网页信息过滤方法

Info

Publication number: CN106126690A
Application number: CN201610499618.6A
Authority: CN
Inventors: 董雄飞
Original assignee: Hefei Minzhongyixing Software Development Co Ltd
Current assignee: Hefei Minzhongyixing Software Development Co Ltd
Priority date: 2016-06-29
Filing date: 2016-06-29
Publication date: 2016-11-16

Abstract

本发明公开了一种基于文本内容的网页信息过滤方法，采用X²统计和改进的DBSCAN聚类算法，对文档特征进行2次选择，提高了各特征之间的相对独立性，提出采用构建词索引矩阵和词共现矩阵的方法。最后提出了基于特征簇的向量空间模型，在有效提高特征独立性的同时，减低了特征维数，为下一步分类器计算提供了方便。对于最终各特征簇的权值计算，采TF‑IDF算法，分3步走，把文档表示成特征簇向量空间模型。

Description

一种基于文本内容的网页信息过滤方法

技术领域

本发明属于网页方法领域，更具体地说，本发明涉及一种基于文本内容的网页信息过滤方法。

背景技术

网页所携带的信息大致可分为图像、声音、文字，对于图像和声音的内容，大多数情况下会有文字进行概括说明。对于一个网页文字信息的提取和解读可以判定该网页是否为不良信息的载体，基于文本内容的网页过滤就是首先把网页中的文字信息进行提取，然后表示成计算机能运算处理的形式，通过分类算法对网页进行过滤分类。网页文本分类是的最小单元是词，把那些能代表文章意图的词选定出来，经过聚类把词提升为概念。由于基于词的分类是运用统计学的方法同时综合机器学习的理论，把待分类文本表示成向量，然后使用合适算法进行运算分类。这种方法简单直接，对于大量网页信息的过滤可操作性强。

发明内容

本发明所要解决的问题是提供一种基于文本内容的网页信息过滤方法。

为了实现上述目的，本发明采取的技术方案为：

一种基于文本内容的网页信息过滤方法，包括如下步骤：

(1)文本预处理

首先把网页中的文字信息提取出来，接着进行去除噪音、词干还原和标签加权处理，生成带有标记的词序流；

(2)特征选择

采用基于密度聚类算(DBSCAN)法对预处理文本的特征进行选取，接着构建文本特征，把一些经常同时出现的词进行统计，通过聚类生成簇；

(3)特征加权

采用基于特征簇的TF-IDF算法求聚类生成簇的权值；

(4)分类器运算

利用统计学和数学的方法，首先对分类器进行训练，计算各向量的距离，找到分类的映射法则，然后对待测文本进行分类过滤，最终把网页信息区分为规定的两类，得到结果；

(5)自学习更新

引入自学习更新模块，把词库中没有的词记录下来，对结果进行更新检查，得到输出结果；

(6)性能评估

对输出结果计算其各性能指标，通过结果对设定参数进行微调，反复实验不同待测样本的过滤效果，找到相对合适的参数设定。

优选的，所述步骤(2)中特征选择的方法为X²统计。

优选的，所述步骤(2)中构建文本特征的步骤为：

1)X²统计特征选择：采用X²公式特征词和类别之间的相关程度；

2)生成文本索引矩阵；

3)特征词共现矩阵；

4)简化的DBSCAN算法特征聚类选择；

5)文本特征表示。

优选的，所述X²公式为

优选的，所述简化的DBSCAN算法的步骤为：

①读入词共现矩阵，求出所有点对之间的距离；

②提取现有点的集合C1，计算每一个点，在给定半径的范围内，含有点的数量，把每个点含有点的数量进行降序排列，找出排序第一名的核心点群集合c2；

③判断排序第一名的点，是否为核心点(含有点数超过Minpts)如果不是将剩余集合中所有点按序号加入簇，并从C1中删除这些点，如果是核心点，计算每个核心点到其内部的点的距离之和s；

④按照距离之和s对c2集合中点降序排列，找到距离之和最小的核心点jw和其邻域内的点集；

⑤取点jw和在其邻域内，在索引矩阵中词频最高的前3名，以jw为簇心建立一个簇，同时把这4个点从C1集合中删除；

⑥重复步骤②到⑥直到C1没有点；

⑦输出簇群。

优选的，所述步骤(3)中TF-IDF算法的公式为

w_{i} = \frac{{tf}_{i} \times l o g (N / n_{i})}{\sqrt{\underset{t_{i} &Element; D_{j}}{Σ} {[{tf}_{i} \times l o g (N / n_{i})]}^{2}}} + α

有益效果：本发明提供了一种基于文本内容的网页信息过滤方法，采用X²统计和改进的DBSCAN聚类算法，对文档特征进行2次选择，提高了各特征之间的相对独立性，提出采用构建词索引矩阵和词共现矩阵的方法。最后提出了基于特征簇的向量空间模型，在有效提高特征独立性的同时，减低了特征维数，为下一步分类器计算提供了方便。对于最终各特征簇的权值计算，采TF-IDF算法，分3步走，把文档表示成特征簇向量空间模型。

具体实施方式

一种基于文本内容的网页信息过滤方法，包括如下步骤：

(1)文本预处理

(2)特征选择

采用基于密度聚类算(DBSCAN)法对预处理文本的特征进行选取，接着构建文本特征，把一些经常同时出现的词进行统计，通过聚类生成簇，所述特征选择的方法为X²统计，所述X²公式为

所述构建文本特征的步骤为：

2)生成文本索引矩阵；

3)特征词共现矩阵；

4)简化的DBSCAN算法特征聚类选择；

5)文本特征表示，

所述简化的DBSCAN算法的步骤为：

①读入词共现矩阵，求出所有点对之间的距离；

⑥重复步骤②到⑥直到C1没有点；

⑦输出簇群；

(3)特征加权

采用基于特征簇的TF-IDF算法求聚类生成簇的权值，所述TF-IDF算法的公式为

(4)分类器运算

(5)自学习更新

(6)性能评估

本发明提供了一种基于文本内容的网页信息过滤方法，采用X²统计和改进的DBSCAN聚类算法，对文档特征进行2次选择，提高了各特征之间的相对独立性，提出采用构建词索引矩阵和词共现矩阵的方法。最后提出了基于特征簇的向量空间模型，在有效提高特征独立性的同时，减低了特征维数，为下一步分类器计算提供了方便。对于最终各特征簇的权值计算，采TF-IDF算法，分3步走，把文档表示成特征簇向量空间模型。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于文本内容的网页信息过滤方法，其特征在于，包括如下步骤：

(1)文本预处理

(2)特征选择

(3)特征加权

采用基于特征簇的TF-IDF算法求聚类生成簇的权值；

(4)分类器运算

(5)自学习更新

(6)性能评估

2.按照权利要求1所述的一种基于文本内容的网页信息过滤方法，其特征在于：所述步骤(2)中特征选择的方法为X²统计。

3.按照权利要求1所述的一种基于文本内容的网页信息过滤方法，其特征在于：所述步骤(2)中构建文本特征的步骤为：

2)生成文本索引矩阵；

3)特征词共现矩阵；

4)简化的DBSCAN算法特征聚类选择；

5)文本特征表示。

4.按照权利要求3所述的一种基于复杂网络的灰度图像识别方法，其特征在于：所述X²公式为

5.按照权利要求3所述的一种基于文本内容的网页信息过滤方法，其特征在于：所述简化的DBSCAN算法的步骤为：

①读入词共现矩阵，求出所有点对之间的距离；

⑥重复步骤②到⑥直到C1没有点；

⑦输出簇群。

6.按照权利要求1所述的一种基于文本内容的网页信息过滤方法，其特征在于：所述步骤(3)中TF-IDF算法的公式为