CN101794311B

CN101794311B - 基于模糊数据挖掘的中文网页自动分类方法

Info

Publication number: CN101794311B
Application number: CN2010101185007A
Authority: CN
Inventors: 孙雁飞; 姚蓓丽; 张顺颐; 王攀
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2010-03-05
Filing date: 2010-03-05
Publication date: 2012-06-13
Anticipated expiration: 2030-03-05
Also published as: CN101794311A

Abstract

本发明公布了一种基于模糊数据挖掘的中文网页自动分类方法，该方法由分类词语描述库构建部分、新网页预处理部分、模糊分类匹配器部分以及分类结果模糊评判部分组成。通过应用模糊综合评判的方法，将构建分类词语描述库时所生产的训练集特征词向量模糊矩阵和新网页预处理部分所生产的网页特征词模糊向量进行模糊分类运算，再通过分类结果模糊评判，从而得到该中文网页的模糊分类。该方法能有效提高分类效率，解决分类模糊性问题，具有良好的可扩展性，操作简单方便，易于推广。

Description

基于模糊数据挖掘的中文网页自动分类方法

技术领域

本发明是针对模糊数据挖掘和基于模糊数据挖掘的中文网页自动分类方法的研究，主要研究如何通过技术手段对中文网页的内容进行过滤提取、分词和特征选择以及文本表示，并研究了如何利用模糊数据挖掘的知识，对网页进行模糊分类的方法，涉及到网页自动获取、中文网页预处理、中文分词及关键词频度分析、中文网页模糊分类等技术领域。

背景技术

随着Internet技术和Web技术的高速发展，Internet上网页的数量正在不断的增加。网络的日益普及以及网民数量的爆炸性增长，使得网络用户行为呈现出复杂性和多样性，如何对网络用户行为进行恰当的分析、管理和告警是急需解决的问题。面对互联网海量信息，如何在这些信息中过滤掉用户反感的信息，并将用户感兴趣的信息提取出来，实现信息的主动推送，同时保证人们在信息选择方面的个人权利，逐渐成为大家所关注的研究点。同时，中文网页种类繁多，通常包含很多的“噪音”信息，一个网页甚至会包含多个主题。获取网页中的有效文本内容，并对网页的海量数据进行自动分类，是组织和管理网络资源的关键。传统的人工分类的方法存在很多诸如效率低下、费用高的弊端。网页自动分类可以在较大程度上解决目前网上信息纷繁杂乱的现象，并方便用户准确地定位所需的信息。因此，网页自动分类便成了快速且有效地组织网络上海量信息的重要手段，具有较大的实用价值。而在现实生活中，很多实际分类问题往往不好精确地确定某个对象属于某个类，只能给出某个对象属于某个类的可能性有多大，这时，文本类别的识别就带有一定的模糊性，对这些具有模糊性的模式借助于模糊理论来刻画显得很自然，这就引出了模糊分类的概念。

针对中文网页进行网页模糊自动分类有一定的难度，主要体现在：

1)中文网页使用中文进行编辑，不像英文单词之间存在空格，需要对中文进行分词处理，分词的效果直接影响到关键词的分析和网页分类的结果。

2)中文网页包含大量的“噪音”，很多网页的编写没有规范，包含很多的广告、注释以及其他信息，需要对网页进行预处理，进化网页内容，提取用户感兴趣的信息。

3)现今大部分对中文网页分类的研究集中在通过对中文网页进行特征选取和向量表示，利用KNN(k-Nearest Neighbor algorithm)分类算法，对网页进行分类，该方法实现网页分类时间代价和复杂性高。应用模糊数据挖掘的理论，对中文网页进行模糊分类的研究并不多见。

发明内容

技术问题：

本发明的目的是建立一种基于模糊数据挖掘的中文网页自动分类方法，并设计其分类模型和算法，通过对中文网页进行预处理，提取出网页中的中文信息，建立分类词语描述库，得到训练集特征词向量模糊矩阵；对待分类的新网页进行网页预处理及特征词模糊化，利用模糊分类匹配器，依照模糊评判原则，快速分析中文网页的模糊分类问题，便于分析网页的核心内容，快速掌握网页的关键信息及其所属类别，从而有利于高效的组织网络上海量的信息。

技术方案：

本发明基于模糊数据挖掘的中文网页自动分类方法，其特征在于该方法的步骤为：

1)根据用户所输入待分类网页P的网址URL，进行待分类网页P的预处理，预处理过程包括提取网页的HTML源码、对网页源码中的广告、注释等内容过滤去噪以及提取出网页中的中文文本内容；

2)利用分词器对所提取出的中文文本内容进行分词操作，得到中文网页的分词后文本；

3)通过关键词频度分析器，对能体现该待分类网页P的主题和关键内容的的关键词进行提取，并按照关键词权重对关键词进行排序，提取出待分类网页P的特征词集合T；

4)初始化数据表D：该数据表D是用于存储构建分类词语描述库时所生产的总特征词集合Z的总特征词向量模糊矩阵R；总特征词是通过文本预处理、训练集总特征词选择以及总特征词集合模糊化的模块得到的；

5)按照数据表D中总特征词的顺序对待分类网页P的特征词集合T进行特征词频度分析；

6)判断总特征词集合Z中的特征词是否存在于待分类网页P中；如果待分类网页P存在该特征词t，则转入步骤7)；如果不存在该特征词t，则转到步骤5)；

7)统计总特征词集合Z中的特征词在待分类网页P中出现的频度；

8)构造隶属函数，将待分类网页P进行模糊化处理，得到待分类网页P的特征词向量模糊矩阵B；

9)将待分类网页P的特征词向量模糊矩阵B和总特征词向量模糊矩阵R进行模糊分类匹配，得到待分类网页P的分类结果模糊向量C＝{c₁，c₂，...，c_m}；

10)对待分类网页P的分类结果模糊向量C＝{c₁，c₂，...，c_m}进行“归一化”处理，得到归一化后的向量记为C′，C′＝(c₁/S，c₂/S，...，c_m/S)，其中，

S = Σ_{i = 1}^{m} c_{i};

比较模糊向量C′中的各个元素的值，从中挑选出最大的隶属度值c_k，1≤k≤m；

11)分类结果模糊评判，判断最大隶属度值c_k与判别阈值α之间的关系，在归一化后的模糊向量C′中，若有且仅有一个元素的值c_k≥α，则判断新网页是归于第k类的；若每一个元素的值c_k≤α，则判断新网页是不属于本系统分类体系中的任一类别；若不止一个元素c_k≥α，则判断新网页是属于所有元素值大于α所对应的类别，由此得出分类并输出分类结果。判别阈值α的确定需要经过反复实验，综合所有类别的情况，使得各个分类的准确度保持在一个均衡的水平；

12)分类成功，结束；

其中，m是训练集网页的类别数目。

步骤1)所述的提取出网页中的中文文本内容的方法是通过阈值对比对网页的类型进行判断，利用正则表达式过滤器对噪音信息进行过滤，并提取出网页的中文，该方法的步骤为：

a)依照所获得的网页源码得到该网页的标签树；

b)通过和标准网页的相关阈值对比，确定步骤(a)所述网页的类型，网页类型包括主题型、链接型和图片型三种；

c)判断网页是否为主题型网页，如果是主题型网页则转到步骤d)；如果不是主题型网页，则转到步骤e)；

d)根据主题型网页主题的相关度计算，提取出网页主题内容块；

e)利用基于标记的正则表达式过滤器对网页的噪音信息进行过滤；

f)提取网页的中文文本；

g)结束。

有益效果：

通过基于模糊数据挖掘的中文网页分类的方法，我们能够实现：

1)运用模糊集理论及相关算法，根据训练样本网页库，建立分类词语描述库，得到特征词向量模糊矩阵；

2)对新网页进行相关预处理，包括对原始流量数据的清洗，待分类网页的预处理，得到新网页特征词模糊向量。

3)对相应中文网页内容进行分词，按照相关算法提取出关键词，并将中文网页关键词按权重排名；

4)构建模糊分类器，依照模糊分类匹配的方法，实现对中文网页的模糊分类，降低传统分类的人工费用，提高分类的效率。

基于模糊数据挖掘的中文网页自动分类方法具有广泛的意义和应用价值。主要可以应用在：

1.互联网用户兴趣度分析；

2.搜索引擎目录更新；

3.Web内容挖掘；

4.在线文档管理；

5.数字图书馆建设。

附图说明

图1基于模糊数据挖掘的中文网页自动分类的架构图。图中给出了系统的三个层面及其所包含的功能。

图2是基于内容规则的网页中文提取方法流程图。图中给出了网页中文提取的各个部分的处理过程。

图3是基于模糊数据挖掘的中文网页自动分类方法流程图。图中给出了中文网页模糊自动分类的各个部分的处理过程。

具体实施方式

下面结合附图对发明的技术方案进行详细说明：

本发明提出了一种基于模糊数据挖掘的中文网页自动分类技术框架，并详细设计了网页模糊分类算法，如附图3所示。从图中可以看出，系统总共分为三个层面，从下往上依次是：数据采集层、业务逻辑层以及表示层。

数据采集层所涉及到的方法为基于内容规则的网页中文提取方法。通过首先获取到网页的HTML源码，对网页进行预处理。通过测试和分析，发现网页中易于包括各种标签、脚本语言代码、广告及图片链接、设计人员注释、函数声明以及版权信息等冗余的信息。与主题无关的噪音信息会对网页正文内容的提取的速度和精度造成很大影响，有必要进行去除。在提取出网页的标签树以后，我们通过阈值对比的方法判断出网页的类型，当是主题型网页的时候我们采用一种基于标记的正则表达式匹配过滤器来过滤掉网页中的非主题信息。通过几层的过滤器过滤之后，再提取出网页中的中文信息。

本文的关键方法基于模糊数据挖掘的中文网页自动分类方法主要包含四个部分，分别是分类词语描述库构建部分、新网页预处理部分、模糊分类匹配器部分以及分类结果模糊评判部分。

以下详细介绍该设计的各个层面及网页中文提取方法和中文网页分类方法，如附图1所示。

1.数据采集层

功能：该层面提供根据数据清洗后得到的URL获取中文网页的HTML源码，对所获取的源码进行过滤和去噪，以及提取该网页中的中文字符的技术。目的是实现对各类编码的中文网页进行预处理，并提取相应的中文文本。

2.业务逻辑层

功能：该层面提供对中文文本的分词，根据分词结果进行关键词分析以及网页模糊分类匹配的工作。目的是对中文网页的中文文本内容进行分词，并依照相应算法对分词结果进行关键词频度的分析，并对该网页的关键词和分类词语描述库中的特征词进行模糊匹配，通过模糊评判规则，得到中文网页的模糊分类匹配。

3.表示层：该层面主要提供用户的输入和各个部分结果的反馈。

基于内容规则的网页中文提取方法。该方法的处理过程如附图2所示：

a)依照所获得的网页源码得到该网页的标签树；

f)提取网页的中文文本；

g)结束。

基于模糊数据挖掘的中文网页自动分类方法，该方法处理过程如附图3所示：1)1)根据用户所输入待分类网页P的网址URL，进行待分类网页P的预处理，预处理过程包括提取网页的HTML源码、对网页源码中的广告、注释等内容过滤去噪以及提取出网页中的中文文本内容；

6)判断总特征词集合Z中的特征词是否存在于待分类网页P中；如果待分类网页P存在该特征词t，则转入步骤7)；如果不存在该特征词t，则转到步骤5)

S = Σ_{i = 1}^{m} c_{i} .

12)分类成功，结束。

其中，m是训练集网页的类别数目。

分类词语描述库构建部分，主要通过对一系列有代表性的网页进行人工分类，得到按类整理好的训练文本集合。然后分别经过训练集合的文本预处理、训练集特征词选择以及总特征词集合模糊化的模块，得到总体的特征词向量模糊矩阵R，为后面的新网页分类的工作打下基础。

新网页预处理部分，主要基于校园网用户访问网络的URL信息数据，从中提取出有效的，较具有代表性的用户访问网页进行网页净化、网页中文文本提取以及中文分词，通过对新网页的关键词进行分析，提取出新网页中文文本的特征词向量，最后形成新网页文本的特征词模糊向量B，作为模糊分类匹配模块的基础。

模糊分类匹配器部分的主要工作是利用模糊数学中的模糊运算法则，通过对前面所求得的新文本的特征词模糊向量B和训练集特征词向量模糊矩阵R进行模糊分类计算，应用模糊综合评判的方法，从论域中选择出最优的对象从而得到新网页文本的模糊决断向量集合C。

分类结果模糊评判这一部分就是要通过模糊分类匹配模块所得到的新网页分类结果的模糊向量值，依照最大隶属度的原则，通过对判别阈值α的判断，来对新网页的类别归属问题进行分析。

根据本方法设计的关键词频度分析中文网页分类系统在项目中得到了具体的验证。系统使用VS2005进行了前台的开发，SQL Server2005数据库进行后台协作，利用C#语言实现各项功能。用户在系统首页面输入相应网址的URL，按步骤操作即可分别得到该网页的HTML源码，所提取的网页中文文本，该网页的关键词按频度排序结果以及该网页的模糊分类结果。系统选择了六个类别的中文网页文本来构建分类词语描述库，作为本系统的分类体系。它们分别是环境类、计算机类、教育类、新闻类、体育类和艺术类。每一类都都选择了200篇网页作为训练网页，六个类共计1200篇网页。这些网页都来自于新华网、新浪网、搜狐网、网易、人民网等各个网站的分类栏目。在系统的测试网页达到800篇的时候，模糊分类的第一维分类准确率封闭测试为78.4％，具有实际的应用价值。

Claims

1.一种基于模糊数据挖掘的中文网页自动分类方法，其特征在于该方法的步骤为：

1)根据用户所输入待分类网页P的网址URL，进行待分类网页P的预处理，预处理过程包括提取网页的HTML源码、对网页源码中的广告、注释内容过滤去噪以及提取出网页中的中文文本内容；

11)分类结果模糊评判，判断最大隶属度值c_k与判别阈值α之间的关系，在归一化后的模糊向量C′中，若有且仅有一个元素的值c_k≥α，则判断新网页是归于第k类的；若每一个元素的值c_k≤α，则判断新网页是不属于本系统分类体系中的任一类别；若不止一个元素c_k≥α，则判断新网页是属于所有元素值大于α所对应的类别，由此得出分类并输出分类结果；判别阈值α的确定需要经过反复实验，综合所有类别的情况，使得各个分类的准确度保持在一个均衡的水平；

12)分类成功，结束；

其中，m是训练集网页的类别数目。

2.根据权利要求1所述的基于模糊数据挖掘的中文网页自动分类方法，其特征在于步骤1)所述的提取出网页中的中文文本内容的方法是通过阈值对比对网页的类型进行判断，利用正则表达式过滤器对噪音信息进行过滤，并提取出网页的中文，该方法的步骤为：

a)依照所获得的网页源码得到该网页的标签树；

f)提取网页的中文文本；

g)结束。