CN102184262A

CN102184262A - 基于web的文本分类挖掘系统及方法

Info

Publication number: CN102184262A
Application number: CN201110160465XA
Authority: CN
Inventors: 张�杰; 刘奎飞
Original assignee: Yoyi Beijing Advertising Co ltd
Current assignee: Yoyi Beijing Advertising Co ltd
Priority date: 2011-06-15
Filing date: 2011-06-15
Publication date: 2011-09-14

Abstract

本发明公开了一种基于web的文本分类挖掘系统及方法，其主要包括文本预处理模块、分词处理模块和分类算法模块；其中，文本预处理模块，用于从待测试文本中自动筛选和预处理特定的信息，过滤掉无关的信息，以有效地表示文本；分词处理模块，用于将所述文本进行分词，找到每个文本具有的属性/属性词，为特征词的选择做准备；分类算法模块，用于进行特征选择，得到最优的特征子集，或按照训练结果的文件提供的数据，找到相应的概率，比较得到最大概率所属的类别，得出结论，最后将结果存储在文件中。该系统通过利用HTML标记权重改善朴素的贝叶斯算法的条件独立假设的不足，对分类器进行了改进，能够提高数据挖掘的查全率和查准率。

Description

基于web的文本分类挖掘系统及方法

技术领域

本发明涉及信息检索及数据挖掘技术，尤其涉及一种基于web的文本分类挖掘系统及方法。

背景技术

当今世界计算机的广泛发展，数据库技术的成熟，使得人类积累的数据量越来越庞大，形成了数据丰富但知识匮乏的局面。各个领域的人们都期待有一种方法能高效率地从大量的数据中发现有用信息即知识，在这种背景下，知识发现和数据挖掘的研究成为热点。

数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程，这些模型和关系可以用来做出预测。数据挖掘涉及数据库、人工智能、机器学习和统计分析等多个领域的理论和技术。数据挖掘技术能从大型数据库或数据仓库中自动分析数据，进行归纳性推理，从中发掘出潜在的模式；或者产生联想，建立新的业务模型，帮助决策者调整市场策略，做出正确的决策。伴随计算能力的增长，算法及大规模数据存储技术的成熟，数据挖掘逐渐走出实验室，在生产领域发挥着积极的作用。

随着上世纪90年代以来互联网的迅速发展，海量信息的管理和利用问题，向传统的数据挖掘提出了新的技术要求：如何从这些众多的信息资源中快速的发现自己所需要的知识。因此迫切需要一种高效快速的信息资源分析工具，以帮助用户快速浏览网络，并能从这些大量的信息中找出隐含的知识，减少用户的负担。

面对这种需求，Web挖掘成为近几年来新兴的研究领域。它从数据挖掘发展而来，又面临很多前所未有的问题：如，数据量不断膨胀，处在动态变化中难以控制，数据安全难以保证，数据形式不一致难以统一处理等。

由于Web在当今社会扮演越来越重要的角色，有关Web内容挖掘、Web日志挖掘和与Web有关的数据挖掘服务，成为数据挖掘中一个重要和逐渐繁荣的领域。为了能够准确、快速、合理的利用Web上不断增长的信息，Web挖掘的研究显得更加重要了。利用Web的特性，应用和改进原有的数据挖掘技术在Web文档中发现和分析有用信息逐渐成为知识发现研究的重要方向。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于web的文本分类挖掘系统及方法，利用HTML标记权重改善朴素的贝叶斯算法的条件独立假设的不足，对分类器进行了改进，以提高数据挖掘的查全率和查准率。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于web的文本分类挖掘系统，该系统主要包括文本预处理模块、分词处理模块和分类算法模块；其中，

文本预处理模块，用于从待测试文本中自动筛选和预处理特定的信息，过滤掉无关的信息，以有效地表示文本；

分词处理模块，用于将所述文本进行分词，找到每个文本具有的属性/属性词，为特征词的选择做准备；

分类算法模块，用于进行特征选择，得到最优的特征子集，或按照训练结果的文件提供的数据，找到相应的概率，比较得到最大概率所属的类别，得出结论，最后将结果存储在文件中。

其中，所述待测试文本，包括含有多媒体信息和非结构化信息的网页。

一种基于web的文本分类挖掘方法，该方法包括：

A、文本集训练的步骤：包括：扫描待训练的文本；对文本进行分词，为特征选择做准备；进行特征选择，得到最优的特征子集；利用有效的权值进行计算，再次优化特征子集；最后利用一定的条件进行计算，将结果存储在文件中；

B、文本特征库分类的步骤：包括：扫描训练文本；对文本进行分词，找到每个文本具有的属性/词；按照训练结果的文件提供的数据，找到相应的概率；比较得到最大的概率所属的类别，得出结论。

其中，所述利用一定的条件进行计算，该条件具体为通过类别的先验概率和词的分布来计算未知文本属于某一类别的概率：

P (C_{j} | X) = \frac{P (C_{j}) P (X | C_{j})}{P (X)};

其中，P(C_j|X)为样本X属于类C_j的概率，P(X|C_j)为类C_j中含有样本X的概率；在所有P(C_j|X)(j＝1，2，...，m)中，若P(C_K|X)值最大，则文本X归为C_K类，P(X)是常数。

假设文本中词/属性的分布是条件独立的，则P(C_j|X)＝P(C_j)P(X|C_j)；

其中，

本发明所提供的基于web的文本分类挖掘系统及方法，具有以下优点：

通过文本预处理模块，对网页中含有大量多媒体信息和非结构化信息进行筛选和过滤，通过合理利用，则可以有助于提高分类精度。利用HTML标记权重改善朴素的贝叶斯算法的条件独立假设的不足，对分类器进行了改进，以提高数据挖掘的查全率和查准率。

附图说明

图1为现有web挖掘的分类示意图；

图2为现有web挖掘过程示意图；

图3为本发明的标识符内容提取流程图；

图4A、图4B为本发明提取加权信息界面和结合朴素贝叶斯算法进行分类的界面示意图；

图5为本发明基于web文本的分类挖掘系统的组成示意图；

图6为本发明基于web文本的分类挖掘方法流程示意图。

具体实施方式

下面结合附图及本发明的实施例对本发明的系统及方法作进一步详细的说明。

数据挖掘的任务主要是从大量的、不完全的、有噪声的、模糊的、随机的数据中发现隐含的、潜在的、可能的数据模式、内在联系、规律、发展趋势等有用的信息，而这些数据经常是以结构化的静态数据库(数据仓库)的形式存储的，还包括一些其他形式的数据集合。鉴于数据、数据挖掘任务和数据挖掘方法的多样性，数据挖掘要面对许多挑战性的新课题。数据挖掘语言的设计，高效而有用的数据挖掘方法和系统的开发，交互和集成的数据挖掘环境的建立，以及应用数据挖掘技术解决大型实际应用问题，都是目前数据挖掘研究人员、系统和应用开发人员所面临的主要问题。

数据挖掘研究的对象很广泛，包括数据库、文本、Web上的信息、图像、视频等。以Web信息为研究对象的数据挖掘，称为Web数据挖掘，简称Web挖掘。Web数据资源的大量、异质、分布等特点导致传统数据挖掘算法的效率、有效性受到了影响，Web数据挖掘的研究尝试弥补这种影响。

Web挖掘是一项综合技术，是根据面向Internet的分布式信息资源的特点的一种模式抽取过程，它不仅能查找到分布式信息资源中已存在的信息，还能识别出大量存在于数据中的隐含的、有效的规律。从一般的角度出发，Web挖掘是指从大量Web文档的集合C中发现隐含的模式

，如果将C看作输入，将

看作输出，那么Web挖掘的过程就是从输入到输出的一个映射ξ：

Web挖掘就是Web上的知识发现，即Web挖掘的对象是Web文档。而以Web作为中间件的挖掘，比如通过Web对数据库进行挖掘，对Web服务器上的日志、用户信息等相关数据的挖掘，都属于传统的数据挖掘的范畴，而非Web挖掘。

Web挖掘是从数据挖掘发展而来，但是它同传统的数据挖掘相比又有许多独特之处。比如，Web挖掘的研究对象Web文档就有以下特点：

首先，Web文档的数据量庞大。计算Web文档的数据量早就以几百兆字节计算，并且它时刻有可能增长，一些研究者致力于存储Web上的数据的研究，因为传统的数据仓库不能满足这样不断膨胀的巨大的数据量的存储。

其次，Web文档十分复杂，具体表现在数据的异构，信息来源动态更新。

Web文档上数据的最大特点是就是半结构化或无结构：数据没有严格的结构模式、含有不同格式的数据(文本数据、音频数据、视频数据、图形图像数据等各种非结构化的数据，)、面向显示的超文本标记语言(HTML)文本无法区分数据类型等。而传统的数据库都有一定的数据模型，可以根据模型来具体描述特定的数据。显然，面向Web的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。Web上每一站点的数据都各自独立设计，并且数据本身具有自述性，数据来源具有动态可变性。

Web上的每一个站点就是一个数据源，每个数据源都是异构的，因而每一站点之间的信息和组织都不一样，这就构成了一个巨大的异构数据库环境。这些庞大的数据源分布在不同的站点，并且时刻可能增加新的信息。这就面临对数据如何有效的存储等困难，并且无法进一步对数据进行分析、集成、处理。

再次，Web在逻辑上是一个由文档集合超链接构成的图，因此，Web文本挖掘所得到的模式可能是关于Web内容的，也可能是关于Web结构的。由于Web文本是一个半结构化或无结构化的，且缺乏机器所能理解的语义，从而使有些数据挖掘技术并不适用于Web挖掘。因而，开发新的Web挖掘技术以及对Web文本进行预处理，以提取该文本的特征，便成为Web挖掘研究的重点。

再就是由于互联网的接入廉价而普及，Web文档的分布很广泛，用户群多样，需求的信息多样而模糊。基于Web的数据挖掘用户往往只对要挖掘的主题有一个粗浅的认识，提不出很明确的目标来，经常得不到期望的知识，或者由于付出的时间太长而放弃等待有用的知识被挖掘出来。这就需要数据挖掘系统具有一定的智能性和学习机制，不断地跟踪用户的兴趣，清晰明白地阐述挖掘结果。Web上的信息只有很小的一部分是相关的或有用的。据统计，99％的Web信息对于99％的用户是无用的，这些无用的信息会淹没用户所希望得到的结果。

如图1所示，由于Web挖掘对象包含三方面的内容：Web上的文档内容，Web结构数据，用户浏览Web页面的记录数据；对应地，根据对Web挖掘对象的感兴趣程度不同，Web挖掘一般可以分为三类：Web内容挖掘(Web Content Mining)、Web结构挖掘(Web Structure Mining)、Web使用挖掘(Web Usage Mining)。

Web挖掘主要的处理过程是对Web文档集合的内容进行分词处理、特征提取、结构分析、文本摘要、文本分类、文本聚类、关联分析等。Web挖掘过程一般可分成以下四个阶段，如图2所示：

(1)数据采集：主要是采集Web网页，即检索所需的网络文档。Web使用记录挖掘通过挖掘Web日志记录，这些数据包括：网络服务器访问记录、代理服务器日志记录、浏览器日志记录、用户简介、注册信息、用户对话或交易信息、用户提问式等等。直接对Web Server的日志文件或日志行为进行统计分析处理，包括了几乎所有的LOG属性项，如client host、remote user、request time、server name/server ip、time length、byte received、bytes ended、status、request、URL，这些属性项之间可以单独进行统计分析，也可以适当以一定的逻辑关系组合起来进行统计分析。

(2)信息筛选和预处理：从获取的网页中自动筛选和预处理特定的信息。预处理过程是Web挖掘过程中最关键的一环，处理的质量关系到后面挖掘过程和模式分析过程的质量。Web产生的日志数据细节程度非常高，它们太过详细，既不能用于分析也不能装入数据库。要使之能够进入数据库，必须对日志数据进行读取和提炼。如下图所示，Web日志数据在进入数据仓库环境之前，必须经过一个“粒度管理器“的处理。粒度管理器对数据进行编辑、过滤、汇总、转换和重组之后，进入数据仓库。

(3)模式发现：通过实施算法挖掘，例如关联规则挖掘算法，序列模式挖掘算法和分类、聚类算法，发现存在于单个网站或跨越多个网站的潜在的、有用的模式。

(4)分析：对所挖掘的模式进行评估和解释。主要是利用一些方法和工具对挖掘出来的模式、规则进行分析，找出我们感兴趣的模式和规则。可以采用可视化的信息导航机制、Web路径图，OLAP技术例如数据立方和类SQL语言机制来可视化，解释挖掘出来的规则和模式。发现用户访问模型、提供网站描述性统计、网络用户聚类、页面聚类、频繁访问路径发现以及基于其上的网络用户个性化推荐服务。

Web内容挖掘常用的方法有：页面内容摘要、分类、聚类以及关联规则发现等。

Web使用挖掘常用的方法有：路径分析、分类、聚类、关联规则和序列模式发现等。

Web结构挖掘常用的方法有：Page-rank方法和HITS方法等。

将数据挖掘的技术应用到文本处理的领域进行文本挖掘是一个重要的研究课题，目前受到关注的问题如下：

(1)基于关键字的关联分析

基于关键字的关联分析的目标是找出经常一起出现的关键字或词汇之间的关联或相互关系。一组经常连续出现或紧密相关的关键字可以形成一个词或词组，关联挖掘可以找出复合关联，即领域相关的词或词组。利用这种词和词组的识别，可以进行更高层次的关联分析，找出词或关键字间的关联。

(2)文档分类分析

自动文档分类是一种重要的文本挖掘工作，由于现在存在大量的联机文档，自动对其分类组织以便于对文档的检索和分析，是至关重要的。文本文档的分类与关系数据的分类存在本质区别：关系数据是结构化的，每个元组定义为一组属性值对。而文档则不是结构化的，它没有属性值对的结构，与一组文档相关的关键字并不能用一组属性或维化。因此通常面对关系数据的分类方法并不适用于对文档的分类。

Web内容挖掘研究主要集中在基于文本内容的检索、信息过滤的提炼、重复数据消除、数据模式抽取、中间形式表示、异构集成、文本分类和聚类、文档总结和结构提取、数据仓库及OLAP等几个方面，尤其是基于XML的上述专题研究。

Web结构挖掘主要的研究集中在网络虚拟视图生成与网络导航、信息分类与索引结构重组、文本分类、文本重要性确定等几个方面。

文本分类为识别来自于蕴藏在电子形式中的大量的文本的类别，是进一步进行文本挖掘的准备。随着互联网及其信息服务的飞速发展，网络信息资源的获取更加棘手，而基于Web的文本分类挖掘的发展及应用对于解决这一问题将会起到至关重要的作用。

Web的数据挖掘要考虑Web的特征因素。首先，Web上的网页数量巨大。第二，网页的格式非常灵活，有html、asp、xml等多种格式并存；而且由于任何人、任何单位都可以把自己制作的网页发布到互联网上，因此网页的写作风格、网页的内容变化很大。第三，一个网页内的内容并不单一，通常包含了许多与主题无关的内容，如版权信息、欢迎信息、广告信息等，这些对网页分类来说都构成了噪声。最后，网页的结构信息、万维网上的链接信息以及日益丰富的一些其他网络资源如查询日志又为Web的数据挖掘提供了有利的信息。

1、Web文本的预处理

在数据挖掘中，数据的预处理包括数据集成，数据清洗，数据变换，数据简化。

对于普通文本，预处理的过程为首先排除出现频率高但是含义虚泛的词语，例如英文中的a，the，each，for，汉语中的“地、得、的、这、虽然”等；然后排除那些在文档集合中出现频率很低的单字；在英文中还可以去除前缀、后缀等，找到词根，如walker，walking，walked都可以是同一个词walk。

而Web文本的预处理则要考虑到它自身的结构特点等，比如为了去除噪声数据和无关数据要进行标记的过滤等。

1)Web文本数据采集

如图2所示，Web挖掘首先要进行数据采集，也就是从网络收集数据的过程。它是进行后续挖掘处理的基础。如何快速、准确地获取所需要的信息，是数据采集研究的主要内容。在大规模内容计算中，信息获取分为主动获取和被动获取。被动获取通常是将设备介入网络的特定部位进行获取。而主动获取主要是指基于Web的信息采集，即直接从Web上采集或下载信息。下面介绍几种Web信息采集技术。

WEB信息采集技术可以分成：基于整个Web的信息采集(Scalable WC)，增量式Web信息采集(Incremental WC)，基于主题的Web信息采集(FocusedWC)，基于用户个性化的Web信息采集(Customized WC)，基于Agent的信息采集(Agent-based WC)，迁移的信息采集(Relocatable WC)等等。实际的系统往往是以上几个采集技术的组合。

采集系统主要研究的是：如何高效稳定地以较小的代价获取最相关的信息。为了提高采集速度，大规模的采集系统往往采用并行采集结构。为了降低采集的空间代价，更新策略是研究的重点之一。最理想的是采集系统能够自动学到每个网站或站点的更新规律，从而能够指导采集器的刷新策略，尽量做到没有变化的网页不采集，只采集那些更新的网页。

2)文本分词

中文文本(text，HTML)挖掘技术成败的关键在于文本中词汇切分的成功与否。由于汉语语言的特殊性和复杂性，使中文词汇的切分成为一个很伤脑筋的问题。而如果不进行分词，中文信息处理的其它很多研究就无法进行。

中文与英文不同，句子中各词条之间没有固定的分隔符(空格)，进行中文文本的词频统计前，首先需要对中文文本进行分词处理。中文文本的分词就是在中文文本的各词条间加入分隔符，将中文文本的连续字流形式转化为离散的词流形式。

分词技术中基于词库的算法目前使用较广，也较为成熟，如最佳匹配法、最大匹配法、逆向最大匹配法、联想-回溯法。这类算法分词的正确性很大程度上取决于所建的词库。一个词库应具有完备性和完全性两个方面，建立一个同时满足这两个要求的词库具有很大的难度。所以，对于中文文本挖掘来说，基于词库的分词技术可能会使某些具有重要意义的词汇被疏漏，从而导致挖掘的内容不是十分准确。

最大匹配法(Maximum Matching method，MM法)：选取包含6～8个汉字的符号串作为最大符号串，把最大符号串与词典中的单词条目相匹配，如果不能匹配，就削掉一个汉字继续匹配，直到在词典中找到相应的单词为止。匹配的方向是从右向左。

逆向最大匹配法(Reverse Maximum method，RMM法)：匹配方向与MM法相反，是从左向右。实验表明：对于汉语来说，逆向最大匹配法比最大匹配法更有效。双向匹配法(Bi-direction Matching method，BM法)：比较MM法与RMM法的分词结果，从而决定正确的分词。

最佳匹配法(Optimum Matching method，OM法)：将词典中的单词按它们在文本中的出现频度的大小排列，高频度的单词排在前，频度低的单词排在后，从而提高匹配的速度。

联想-回溯法(Association-Backtracking method，AB法)：采用联想和回溯的机制来进行匹配。

3)文本特征库

文档特征是指关于文本的元数据，分为描述性特征(如文本的名称、日期、大小、类型等)和语义性特征(如文件的作者、机构、标题、内容等)。描述性特征较易获取，语义性特征获取较难。W3C(互联网联合组织)制定的XML(eXtendable Markup Language)，RDF(Resource Description Framework)等规范提供了对Web文档资源进行描述的语言和框架。

一种现有的特征抽取方法是：用网页内的文本来表示网页(纯本文，网页内不同域中的文本)，用网页内图像、音频、视频的信息来表示网页，用网页中存在的模式来表示网页，用网页间的链接信息来表示网页，用网页的URL信息来表示网页，用网页的布局来表示网页，用网页的摘要来表示网页。

2、文本分类

文本分类是指按照预先定义的主体类别，为每个文档确定一个类别。文本分类是一种典型的有教师的机器学习，一般分为训练和分类两个阶段，具体过程如下：

(1)定义阶段

定义类别集合C＝{c₁，Λc_i，Λc_m}，这些类别可以是层次式的，也可以是平行式的；

给出训练文档集合S＝{s₁，Λ，s_i，Λ，s_n}，每个训练文档si被标上所属的类别属性c_i；

统计S中所有文件的特征矢量V(s_i)，确定代表C中每个类别的特征矢量V(c_i)；该步是训练阶段的一个关键。

(2)分类阶段

对于测试文件集合I＝{d₁，Λ，d_k，Λ，d_t}中的每个尚待分类的文件d_k，计算其特征矢量V(d_k)与每个V(c_j)(c_j∈C)之间的相似度Sim(d_k，c_j)

选取相似度最大的一个类别c_t＝max sim(d_k，c_j)(c_t，c_j∈C)作为的类别。在计算Sim(d_k，c_j)时有多种方法，最简单的方法就是进考虑两个特征是两种所包含词条的重叠程度，最常用的方法是考虑两个特征矢量间的夹角余弦。

1)常用的文本分类方法

在Web挖掘出现之前，人们已经研究过许多普通文本分类的方法，例如朴素贝叶斯(Naive Bayes，简称NB)，k最近邻(k-Nearest Neighbor，简称KNN)，线性最小方差匹配(Linear Least Squares Fit，简称LLSF)、神经网络(Neural Network，简称NN)、支持向量机(Support Vector Machine，简称SVM)等，形成了各种文本自动分类技术。

(1)支持向量机(Support Vector Machines，SVM)

由Vapnik在1995年提出，用于解决二分类模式识别问题。Joachims最早将SVM方法用于文本分类。支持向量机将文本分类问题变为一系列二分类问题。支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的，根据有限样本信息在模型的复杂性(即对特定训练样本的学习精度，Accuracy)和学习能力(即无错误的识别任意样本的能力)之间寻求最佳折中，以期获得最好的推广能力(Generalization Ability)。

从几何上说，支持向量机就是要在r维空间中寻找最佳决策面，该决策面能最好的区分正例和反例，使正例和反例之间的分类间隔最大。SVM的基本思想可用正例和反例线性可分的情况来说明，对于非线性问题，可以通过非线性变换转化为某个高维空间中的线性问题，在变换空间中寻找最优分类面。

SVM方法具有很坚实的理论基础，SVM训练的本质是解决一个二次规划(QP)问题，得到全局最优解，这使它有着其他统计学习技术难以比拟的优越性。SVM分类器的文本分类效果很好，是最好的分类器之一。其缺点是其核函数的选择缺乏指导，难以针对具体的问题选择最佳的核函数；另外SVM训练速度极大的受到训练集规模的影响，计算开销比较大。

(2)朴素贝叶斯算法(Naive Bayes，NB)

它是一种基于概率模型进行网页分类的算法。该算法首先提出一些关于待分类网页产生方式的假设，然后建立一个能体现这些假设的随机模型，再根据训练集估计这个随机模型的参数，最后把待分类网页按贝叶斯规则标记为最有可能产生这个网页的类。朴素贝叶斯算法是所有贝叶斯算法中最简单一种，它基于“朴素贝叶斯”假设，也就是“表示网页的各个特征分量之间是相互独立的”。朴素贝叶斯算法主要包括以下两个计算步骤：

第一步，计算特征词属于每个类别的几率向量。

第二步，在新Web网页到达时，根据特征词分词，然后按公式计算该文本di属于类cj的几率。

(3)K近邻分类器(KNN)

KNN是目前广泛应用的统计方法，是与LLSF、决策树、神经网络同级的分类算法。其过程如下：给定一个测试文本，系统在训练文本集中找到K个最近邻，用K个近邻分配权重，每个近邻文本与测试文本的近似程度作为权重，如果几个近邻是一类，则每个权重相加，总和作为与测试文本的近似度。为了方便，使用余弦值来表示向量间的相似度，也可以使用欧式距离作为相似度的测量。此方法的缺点是K值定义比较困难，一般采用不同的K值进行一系列试验才能决定哪个取值较好。

文档d属于C类文档的概率为：

P (c / d) = \frac{Σ_{i = 1}^{K} sim (d, d_{i}) p (c / d_{i})}{Σ_{j} Σ_{i = 1}^{K} sim (d / d_{i}) p (c_{j} / d_{i})}

sim(d，di)表示文档d与di的相似度。di为与d最邻接的K个文档之一，它可属于同一类别文档，也可属于不同类别文档。

2)文本分类方法的比较

(1)KNN是没有学习过程，只是存放所有的训练例，直到接到未知文本的时候才建立分类。KNN的训练过程较快，而且可以随时添加或更新训练例来调整。但它分类的开销会很大，因为需要很大的空间来保存训练例，而且分类效率很差。有看法认为在小数据集上KNN的表现优异。

(2)支持向量机(SVM)是公认的分类效果最好的算法之一，但在大数据集上训练速度比较慢；朴素贝叶斯法(NB)的训练速度和分类速度都很快，是很多研究中常用的分类算法之一。

(3)NB对于有较大噪音和非均匀的超文本集难以稳定和最有利的发挥性能。从理论上讲，贝叶斯分类的出错率最小，就试验结果来看，朴素贝叶斯在大型的数据集上表现出来难得的速度和准确度。并且如果特征选取做的好，减少了无关或不重要的特征值，会使得朴素贝叶斯算法在计算时减少很多运算量。可见，朴素贝叶斯算法是一个简单易实现的算法，因此很多研究围绕着怎样改进朴素贝叶斯算法的条件独立性假设来进行。鉴于它在大数据集上的准确性，它也很适合于Web文本挖掘。

3)Web文本分类的特点

Web上的文本分类的特点：包括：

(1)巨大的数据资源：结合HTML的特点来看，基于Web的文本分类具有优势在于，您所感兴趣的数据通常可以用HTML树中深度嵌套的单个或标记隔离开来。这使得分类过程可以专门在文档的一小部分内执行。但是，HTML中有很多格式编排，并且由于要动态添加标题以及编写其它服务器端脚本，所以文档结构可能在每次连接到页面时都需要进行更改，所以使分类问题变得更为复杂，其结果是现在的Web浏览器在进行HTML语法分析时非常不严谨。

(2)半结构化的数据结构：Web的文本分类最根本的特点在于它所处理的对象是网页中的文本。网页的特征直接影响了文本分类的性能。多数的网页是用HTML表示，因此导致了网页自身成为半结构化的数据，并且网页间的关系也由于链接的存在而清晰，可以利用这些特点改进文本分类算法，提高分类性能。

(3)动态的信息源：Web上的信息每时每刻都有可能被更新，信息源的静止是相对的，变化是绝对的。这就在速度和准确率上给Web挖掘算法提出了更高的要求。只有效率高的挖掘才能更好的适应动态的信息源。

(4)重要的文本预处理：由于Web的大量，复杂等特点，文本预处理更为重要，过滤掉无关的信息，有效的表示文本，为后面的工作节约运算时间。其中，特征提取也起到相当重要的作用，可以有效降低运算次数。

4)分类性能评价方法

通常采用以下五种标准在不同的方面来评价一个分类器：

(1)精度(precision)，分类器在一个类别中做出的正确分类与分类器在该类上做出的所有分类的百分比，精度越高表明分类器在该类上出错的概率越小；

(2)查全率(recall)，分类器在一个类别中做出的正确分类与该类实际应有分类数目的百分比，查全率越高表明分类器在该类上可能漏掉的分类越少；

(3)F1标准综合了精度和查全率，将两者赋予同样的重要性来考虑，

F 1 = (r, p) = \frac{2 rp}{r + p},

其中r代表查全率，p代表精度。

这三个标准都只用于分类器在单个类别上分类准确度的评价。

(4)宏观平均值(macro-averaged score)，用于评价分类器的整体表现。将precision，recall及F标准在单个类别上的数值进行平均则分别得到它们的宏观平均值。宏观平均值更多的受到稀有类别(包含实例较少，出现概率较小的类别)的影响。

(5)微观平均值(micro-averaged score)，也用于评价分类器的整体表现，它是分类器在整个测试集上做出的分类中正确的比率，即在整体上来平均。

3、下面对朴素的贝叶斯分类方法进行说明：

1)贝叶斯分类是一种统计学分类方法，它基于贝叶斯定理，可以用来预测类成员关系的可能性，给出文本属于某特定类别的概率。分类时根据预测结果将该样本分到概率最高的类别中去。

在一个具有许多属性的事例中，计算P(X|C_i)的开销会非常大，为了降低这种开销而引出了称为类条件独立的朴素假定：假定文档的一个属性对于分类的影响独立于其他属性，即文档的属性之间是不相关的。即为NB(Naive Bayes)朴素贝叶斯算法。

朴素贝叶斯算法主要包括以下两个计算步骤：

第一步，计算特征词属于每个类别的几率向量。

具体就是利用下列公式通过类别的先验概率和词的分布来计算未知文本属于某一类别的概率：

(公式1)

(公式2)

(公式3)

虽然这种条件独立的假设在许多应用领域未必能很好满足，但这种朴素贝叶斯分类器在许多实际应用中还是得到了较好的分类精度。其有计算简单的优点，并且在大量的数据集上分类也能取得不错的效果，因此是一种实用选择。

2)问题的提出

Web包含了丰富的信息，合理有效的利用这些信息可以帮助分类，相反则会降低分类的效果。网页信息特点：

(1)由文本和Tag串组成。对于客户端接受到的信息中，除去视频信息、音频信息等等二进制数据外，剩余的文本信息可以分为两部分：一部分是起控制作用的标识符，属于HTML语法的一部分，称为Tag串，他们的特点是由“<”、“>”以及它们中间的字串组成，如<TITLE>，<BR>等等；另一部分就是文本串，也就是浏览网页时真正看到的文字信息，这些文字信息才是网页的真正内容。

(2)大多数语句都是间断的。在大多数的网页中，文本信息并不是很多，再加上控制标识符的分割，因此真正完整的句子很少，由此导致语义上的跳跃性比较大，给文本的分析造成了一定难度。

(3)文本属性信息较为丰富。与纯文本不同，网页中的文本可以具有丰富的属性，如颜色、字体、是否加粗等等。在进行分类处理时，这些属性信息具有一定的参考价值。

(4)结构信息明显。对于普通的文本文档，识别标题、小标题、段首句等结构信息是一项十分困难的工作，然而在HTML中，由于有控制标识符标明这些结构信息，识别他们就变得比较简单，在分类的过程中可以参考这些信息。

对于在HTML文档中出现的各种控制符号，我们不可能，也没有必要把所有的都考虑进去，在实际训练的过程中，为了简化分析处理过程，仅考虑下面的控制符：

①TITLE：标题。

②META：置标。

③HREF：链接。

网页分类比文本分类在难度上要高很多。这主要是因为网页中含有大量多媒体信息和非结构化信息，如图像、声音、超链接等。在增加复杂性的同时，这些信息也提供了额外的信息，如果能合理利用，则可以有助于提高分类精度。目前网页分类方法通常以文本分类技术为主，并结合一些结构分析和链接分析技术。

条件独立性假设在一定程度上限制了朴素贝叶斯模型的分类性能。在HTML语法分析阶段以及完成样本的训练过程之后，对在这些控制符号控制下的词汇给予比普通文本高一些的权值，加重他们在分类过程中的作用。

在提出的网页分类方法中，利用了网页源代码中的一些信息。尝试利用HTML语言本身的标记为属性加权来改善真实的类别的非独立问题。如<HEAD><TITLE><META><<MARQUEE>等。

3)具体的解决方法，即标识符内容提取过程，如图3所示，其具体包括：

首先，由使用者选取加权的标记，用seleinfile.exe来提取标记中的内容，收集与文本分类有关的信息。选择或输入标记的开始符和结束符，程序会提取这两者之间的文字，经过加权处理，为文本分类做准备。可以大批量的从网页或纯文本文件中提取。

其中，提取加权信息界面，如图4A所示；结合朴素贝叶斯算法进行分类，其界面如图4B所示。

该方法包括文本集训练的过程(步骤)及文本特征库分类的步骤(过程)，其中：

一、文本集训练的过程包括：

步骤1：扫描待训练的文本。

步骤2：对文本进行分词，为特征选择做准备。

步骤3：进行特征选择，得到最优的特征子集。

步骤4：利用seleinfile.exe中得到的有效的权值进行计算，再次优化特征子集。

步骤5：利用一定的条件(如上述公式2和公式3的条件)进行计算，并将结果存储在文件中。

二、文本特征库分类的过程包括：

步骤1：扫描训练文本。

步骤2：对文本进行分词，找到每个文本具有的属性(词)X。

步骤3：按照训练结果的文件提供的数据，找到相应的概率。

步骤4：比较得到最大的概率所属的类别，得出结论。

可见，朴素贝叶斯算法中假设每个属性对于分类都是独立的，通过加权来改善这种独立性，更准确的说是加强了更加有用的属性的作用。

4、实验结果(如表1所示)

表1：

从表1的分类结果上看，分类的结果较为准确。各类文本的分类状况大致相同，没有哪个类别因为加权的属性而得到较为突出的结果。即，利用HTML标记加权的属性也没能为明显的改善朴素贝叶斯分类的条件独立性假设。

应用方向介绍：在国外，文本自动分类的研究已经在邮件分类、电子会议、信息过滤等方面取得了较为广泛的应用，其中较为成功的系统有麻省理工学院(MIT)为白宫开发的邮件分类系统、卡内基集团为路透社开发的Construe系统、日本的国际十进制分类法数字自动组合系统等。同时，也出现了大量针对文本分类的技术的研究论文和实验系统。如：Apte用决策树技术来获取分类器，Yang构造了一种近邻算法进行分类，Lewis采用了一个线性分类器，Robert E Schapire研究的Rocchio方法，Cohen设计了一种建立在权值更新基础上休眠专家算法，Lin Shian-Hua通过采掘词语关联来抽取网上文档的分类知识，该方法是一种语义方法、CMU大学的McCallum教授的研究组研发的基于Linux的Rainbow文本分类系统实现了Naive Bayes、KNN方法、支持向量机、最大熵算法、EM算法、TF-IDF算法等等。

国内对于文本自动分类的研究起步较晚，但也有很多学者从事这方面的探讨研究，如：北大王爱华的基于Boost的文本分类器模型，清华张义忠的基于内容的中文网页自动分类的研究，李星的基于序列的文本自动分类算法研究，东北大学姚天顺教授的基于特征相关性的汉语文本自动分类模型、基于FIFA算法的文本分类，中科院史忠植教授的基于支持向量机与无监督聚类相结合的中文网页分类器，中科院庞剑锋的基于向量空间模型的中文文本自动分类系统等。由于中英文之间存在着较大差异而无法直接照搬国外的研究成果，但是，随着中文信息处理技术特别是中文白动分词技术的日渐成熟，以此为基础的中文文本分类技术的研究得到了快速发展。

在Web信息大量增长的情况下，Web文本分类挖掘是一个极具潜力的研究方向，而Web文本分类系统的开发对其研究也必将起到很大的推进作用。这一方面国外的研究比较多，但都是基于英文环境的。同时还有比较成熟的Web文本挖掘工具及产品提供，例如：IBM公司推出的Web文本挖掘工具Intelligent Miner for Text，它是IBM公司开发的Intelligent Miner家族的成员之一，主要包括三个部分：高级搜索引擎TextMiner，Web访问工具和文本分析工具。该工具提供了高效的文本信息挖掘功能，可以实现全文检索、文本分析、Web文档查询和检索等。美Megaputer公司开发的一系列Web文本挖掘产品TextAnalyst，Textractor等，可以为用户提供文本分类、聚类、信息抽取等各种功能。

图5为本发明的Web文本分类挖掘系统的组成示意图，图6为图5所示的web文本分类挖掘系统进行处理的过程示意图；如图所示，该系统主要包括文本预处理模块、分词处理模块和分类算法模块；其中，

文本预处理模块，用于从待测试文本中自动筛选和预处理特定的信息，过滤掉无关的信息，以有效地表示文本。例如，对网页进行处理时，需要筛选掉大量的多媒体信息和非结构化信息，如声音、图像、超链接等。

分词处理模块，用于将所述文本进行分词，找到每个文本具有的属性/属性词，为特征词的选择做准备。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种基于web的文本分类挖掘系统，其特征在于，该系统主要包括文本预处理模块、分词处理模块和分类算法模块；其中，

2.根据权利要求1所述的基于web的文本分类挖掘系统，其特征在于，所述待测试文本，包括含有多媒体信息和非结构化信息的网页。

3.一种基于web的文本分类挖掘方法，其特征在于，该方法包括：

4.根据权利要求3所述的基于web的文本分类挖掘方法，其特征在于，所述利用一定的条件进行计算，该条件具体为通过类别的先验概率和词的分布来计算未知文本属于某一类别的概率：

P (C_{j} | X) = \frac{P (C_{j}) P (X | C_{j})}{P (X)};

5.根据权利要求4所述的基于web的文本分类挖掘方法，其特征在于，假设文本中词/属性的分布是条件独立的，则P(C_j|X)＝P(C_j)P(X|C_j)；

其中，