CN102426585A

CN102426585A - 一种基于贝叶斯网络的网页自动分类方法

Info

Publication number: CN102426585A
Application number: CN2011103252778A
Authority: CN
Inventors: 张晓丹; 乔晓东; 朱礼军
Original assignee: INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Current assignee: INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Priority date: 2011-08-09
Filing date: 2011-10-24
Publication date: 2012-04-25

Abstract

本发明公开了一种基于贝叶斯网络的网页自动分类方法，属于数据挖掘领域，包括下列步骤：网页信息抽取，抽取网页上的有价值的信息；信息预处理，根据不同的信息采取不同的信息预处理方式，获得融合模型可以处理的信息格式；信息的初分类，将预处理后的信息采用不同的分类算法进行初分类；最终的分类：初分类结果输入到融合模型的融合中心，进行最终的融合分类。对比已有技术，本发明方法的有益效果在于，能够解决网页自动分类过程中的不确定性问题，提高网页自动分类准确率，具有较好的分类效果。

Description

一种基于贝叶斯网络的网页自动分类方法

技术领域

本发明属于数据挖掘技术领域，涉及一种网页自动分类的方法。

背景技术

网页自动分类过程中的不确定性表现在很多方面：训练样本的不确定性、网页信息的不确定性、类边界的模糊性等。传统的网页自动分类方法如KNN、SVM等只是针对网页上的文本信息进行确定性的分类，没有考虑到网页自动分类过程中存在的诸多不确定性因素。同时，网页上具有可能分类信息的多种信息包括多种媒体信息越来越多[见Elisabetta Fersini，Enza Messina and FrancescoArchetti，Web Page Classification：A Probabilistic Model with RelationalUncertainty。Computer Science，2010，Volume 6178/2010，109-118，DOI：10.1007/978-3-642-14049-5_12]，如何充分利用网页上有价值的多种信息(包括网页标签、媒体关键字、多媒体信息等)，以解决网页分类过程中的不确定性问题，是本发明要解决的问题。

发明内容

本发明是为了克服已有技术的缺陷，解决网页自动分类中的不确定性问题，提出一种网页自动分类融合的方法。

本发明方法是通过下述技术方案实现的：

一种基于贝叶斯网络的网页自动分类的方法，其基本实施过程如下：

网页信息抽取，抽取网页上的有价值的信息；信息预处理，根据不同的信息采取不同的信息预处理方式，获得融合模型可以处理的信息格式；信息的初分类，将预处理后的信息采用不同的分类算法进行初分类；最终的分类：初分类结果输入到融合模型的融合中心，进行最终的融合分类。

对比已有技术，本发明方法的有益效果在于，能够解决网页自动分类过程中的不确定性问题，提高网页自动分类准确率，具有较好的分类效果。

附图说明

图1为本发明实施方式的解决不确定性问题的网页自动分类模型图；

图2为本发明所述基于贝叶斯网络的网页自动分类方法示意图；

图3为初始化隶属度函数示意图。

具体实施方式

下面结合附图对本发明进行详细的描述。

一种基于贝叶斯网络的不确定性问题的网页自动分类方法，见附图1，其具体步骤包括：

步骤一、信息抽取。

将网页中的广告等无用信息过滤，并抽取出网页上可能携带分类特征的信息，包括标签信息、多媒体信息、关键字信息。

步骤二、数据预处理。

对经步骤一抽取到的不同信息以相应的预处理方式进行预处理，对多媒体信息进行的预处理包括除噪、降维、特征提取；对标签信息进行的预处理包括除噪、特征提取；对关键字信息的预处理包括除噪、特征提取；得到预处理后的数据，即最终通过特征提取获得特征向量，特征向量的元素包括逻辑变量、多分类变量和实数量；

具体来说，对标签信息的预处理见文献[范春晓，基于标签的信息抽取预处理算法[J]，数字技术与应用，2009]，对多媒体信息的预处理包括特征提取、权重向量等见文献[鹿文鹏，面向WEB的多媒体语义信息提取方法研究与实现[J]，山东师范大学，2005]，对关键字信息的预处理见文献[吐尔地·托合提，基于Web的民文信息检索中维、哈、柯文关键词的预处理[C]，中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集，2007年]。

步骤三、参数的离散化。

由于不同种类的信息经过步骤二处理后获得的数据形式不同，而贝叶斯网络方法的表示要求是离散化后的数据。所以要对步骤二所获得的数据进行离散化处理。并且要对步骤二获得的不同类型的数据采用不同的离散化取值方式，通常分为如下三种情况来确定：

对逻辑变量：“是”取1，“否”取0；

对多分类变量：取值为0和1组合，只用在参数取值多于两个的情况；(比如四类用00，01，10，11来表示)

对实数量：当预处理后的特征元素为实数时，且当实数量为连续的情况下，要对其进行离散化处理。本发明采用的方法为对连续函数进行模糊化，把连续的实数值信息转化为分区间的区域信息：很低、低、中、高、很高。采用的隶属函数为可能性估计(见文献邢清华，直觉模糊集隶属度与非隶属度函数的确定方法，《控制与决策》，2009年024卷003期，393-397)。这样就可以按照多分类变量的取值方式直接映射即可。这种方式的优势在于量纲的统一，信息可以直观有序，便于识别，并减少了贝叶斯网络处理的信息量。

模糊化之后，进行如下步骤完成离散化：

a.归一化处理，相应的公式如下所示：

x’＝(x-a)/σ

其中a为所有实数量的均值，σ为所有实数量的标准差(现有公式)；归一化处理后的数据，均值为0，标准差为1，可以避免度量单位等的影响；

b.参照图3，查出连续变量离散化对应的值。(如果有重复的以大的值为准)

图3中，U(x)代表离散化后的数值，x代表被离散化的数据。

当实数量为非连续的情况下，采用分段表示，具体方法如下：在每个区间段采用上述a，b所属步骤进行离散化，再通过映射得到离散化的值；

步骤四、用于解决网页自动分类中的不确定性问题的贝叶斯网络的表示。在网页自动分类的贝叶斯网络表示中，网络的节点代表网页上的多种信息及分类过程的状态，边表示了各个节点之间的因果关系。在网页自动分类的贝叶斯网络设计实现中，主要是确定网络节点和有向边的含义。

对于网络节点，可以代表两种情况：所述状态包括系统输入状态、中间状态及输出状态。

如附图2中，S₁₁、S₁₂、S₁₃分别代表标签参数、多媒体参数和关键字参数，S₂、S₃，S_i表示中间状态其余表示输出状态，也就是类别；

对于网络中的有向边，则根据所连接节点的不同分为以下四种关系：

参数-参数，表示了前后两个参数值之间的影响，如图2中的S₁₁、S₁₂、S₁₃之间的关系；

参数-状态，表示参数值对系统状态的影响。如图2中S₁₁、S₁₂、S₁₃与S₂、S₃、S₄的关系；状态-参数，表示当前状态决定了参数取值，如图2中S₂、S₃、S₄。。。和S₁₁、S₁₂、S₁₃的关系；

状态-状态，表示了状态之间的转换关系，如图2中S₂、S₃、S₄、S_i的关系。

如图2所示，该图是用于解决网页自动分类中不确定性问题的贝叶斯网络，可以将网页分类过程看作是一个贝叶斯网络的概率推理过程，因而可以用贝叶斯网络作为网页分类中不确定问题的表示和求解方法。

在网页分类的贝叶斯网络表示方法中，网络的节点变量可以分为输入节点、中间状态节点及类别节点。其中输入节点表示贝叶斯网络的输入，代表标签信息、多媒体信息及关键字信息等，是获得贝叶斯网络信息的主要渠道。边表示节点之间的相互关联，如参数引起状态的改变，状态对参数的影响等。条件概率(CPT)则是表示相连节点之间的关联强度。

当网页分类的贝叶斯网络结构及各节点的条件概率确定了以后，就可以根据贝叶斯网络进行相应的分类推理，得出网页的类别节点。

其中，S11，是贝叶斯网络的输入节点，是由步骤2种获得的数据。S2，…，Si是中间状态节点，是由S1推理得出的贝叶斯网络的中间状态值

步骤五、在步骤四的基础上，采用模拟退火算法进行贝叶斯网络结构学习，建立贝叶斯网络结构；

步骤六、在步骤五的基础上，采用最大似然估计算法进行贝叶斯网络的参数学习，获得贝叶斯网络各个节点的参数信息，从而得到用于分类的贝叶斯网络；

步骤七、在步骤五和步骤六的基础上，将步骤三获得的离散化数据输入步骤六所获得的贝叶斯网络，采用如下贝叶斯网络推理算法进行贝叶斯网络推理，从而获得分类结果。具体方法如下：

本发明所述的基于网页自动分类的贝叶斯网络推理算法是在利用网页上的多种信息数据的基础上，首先估计步骤二抽取到的当前多个信息的每个特征向量的条件概率密度p(x₁，x₂，…，x_k|w_i)，根据步骤一抽取到的当前多信息的特征矢量值向量(x₁，x₂，…，x_k)，以公式(1)所示的贝叶斯网络路径分类方法逐步地对当前态势路径进行分类判断。考虑当目标判定节点S_T由n个可能的判定目标组成时，即目标判定节点集表示为S_T＝{S_T1，S_T2，…，S_Tn}的情况，在各特征属性即分类的原则相互独立的情况下，构造路径分类的节点深度值L_ij(X)如1式所示。

L_{ij} (X) = \frac{p (x_{1}, x_{2}, \cdot \cdot \cdot, x_{k} | S_{Ti})}{p (x_{1}, x_{2}, \cdot \cdot \cdot, x_{k} | S_{Tj})} = \frac{Π_{i = 1}^{k} p (x_{i} | S_{Ti})}{Π_{i = 1}^{l} p (x_{i} | S_{Tj})} - - - (1)

设网络分类的初始节点为S₀，预先设定的搜索阈值为N，系统的类别状态节点集也就是目标判定节点集记为S_T，预先设定的贝叶斯网络分类器的取样容量数k，l为特征向量的元素个数。算法中设定已判定节点集为D₁，待判定节点集为D₂。具体的网页自动分类推理算法的步骤如下：

步骤1将初始节点S₀放入已判定节点表D₁(算法实现时，D₁以堆栈来实现)中，若S₀属于目标类别状态节点集S_T，则分类结果为S₀状态，完成分类，结束所有操作；

步骤2如果已判定节点表D₁为空，分类完成，结束所有操作。否则继续进行步骤3；

步骤3在D₁表中选中堆栈中最靠外的一节点S_i并弹出，作为当前分类节点，将其移至待判定节点表D₂中；

步骤4在步骤3的基础上，如果S_i属于目标类别状态节点集S_T，则认为推理成功，其分类结果为S_i，转至步骤6，否则进行步骤5；

步骤5如果S_i不属于目标类别节点集S_T，且S_i的当前节点深度大于预先设定的搜索阈值N，则转步骤2；

步骤6在步骤4的基础上，根据所述贝叶斯网络结构得到的下一个节点S_j，生成S_i的所有子节点；若S_i无子节点，则置S_i于D₂中，转步骤2；删去与D₁表中已完成判定的节点相同的节点，并将其依次放入D₂中；

步骤7在步骤6的基础上，对当前路径进行特征抽取和分类判断。若当前特征向量元素的数目l小于贝叶斯网络分类器的取样容量数k，则转步骤2；否则，调用贝叶斯判决公式(1)来判定特征向量(x₁，x₂，…，x_k)是否属于类别目标节点集S_T，若判决结果表明该特征向量属于目标类别状态节点集S_T，则完成分类，结束所有操作，否则再次执行步骤1至步骤7。若再次执行后得到分类结果则输出分类结果成功返回，则转步骤4；否则将当前节点S_i置于待判定表D2中，转步骤2。

步骤七得到了网页自动分类的分类结果，也就是通过贝叶斯网络推理得到了类别的概率数。自此，就通过贝叶斯网络解决了网页自动分类中的不确定性问题，完成了分类。

下面结合实施例说明本技术方案，本实例采用了JAVA语言、MYSQL数据库对中信所网上科技资源进行了实现，以下为网页自动分类贝叶斯网络融合模型及算法实现的具体步骤。执行的是对NSTL网上资源的进行分类。其功能主要包括热点科技信息发现、科技发展趋势分析及展示等。主要实现气候变换和能源方向的分类。分类体系包括政策、工业、新能源、低碳经济、气候变换及污染。

数据集：共17910个文件平均每个文件占1～10KB，共约2500万字[]，可以说是十分翔实丰富的，基本代表了一个完整覆盖面广的语料环境。为了实验方便，选择政策、工业、新能源、低碳经济、气候变换及污染五大类为预定义类别，共8900个文件作为语料，其中，训练和测试语料的比例为2∶1。在选择的这些类别中，政策、工业、新能源等具有类边界模糊的现象，因此适合于对本融合模型的验证。

在设计中首先构建信息提取、预处理等融合模型的基本要素，然后是构建贝叶斯网络，以贝叶斯网络推理算法实现对待分网页类别的评估。

步骤一信息抽取

将网页中的广告等无用信息过滤，并抽取出有价值的多种信息(包括标签信息、多媒体信息、关键字等)，该部分以软件形式实现。

步骤二数据的预处理

对抽取到的多种信息以不同的处理和预处理方式进行处理，便于输入到贝叶斯网络中。以软件的形式完成此功能。

步骤三参数的离散化

由于不同种类的信息的数据不同，而贝叶斯网络方法的表示要求是离散化后的数据。所以在数据输入系统之前要对其进行离散化处理。要对不同类型的参数采用不同的取值方式。

多分类变量：同逻辑变量类似，只是在参数取值多于两个的情况。

实数量：当实数量为连续的情况下，要对其进行离散化处理。本文采用的方法为对连续函数进行模糊化，把连续的实数值信息转化为分区间的区域信息。采用的隶属函数为可能性估计。这样就可以按照多分类变量的取值方式直接映射即可。这种方式的优势在于量纲的统一，信息可以直观有序，便于识别，并减少了系统处理的信息量。

实数的离散化步骤为：

a.归一化处理。相应的公式如下所示：

b.参照图3，查出连续变量离散化对应的值。

步骤四-步骤七贝叶斯网络的实现

在网页自动分类的贝叶斯网络表示中，网络的节点代表网页上的多种信息及分类过程的状态，边表示了各个节点之间的因果关系。在网页自动分类的贝叶斯网络设计实现中，主要是确定网络节点和有向边的含义。

对于网络节点，可以分为两种情况：系统中的各种媒体信息参数和系统所处的状态。对于网络中的有向边，则根据所连接节点的不同分为以下四种关系：

参数-参数，表示了前后两个参数值之间的影响；

参数-状态，表示参数值对系统状态的影响；

状态-参数，表示当前状态决定了参数取值；

状态-状态，表示了状态之间的转换关系。

网页自动分类的贝叶斯网络结构学习和参数学习分别采用模拟退火算法和最大似然估计算法来实现，推理算法采用上文提到的改进的贝叶斯网络推理算法来实现。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于贝叶斯网络的网页自动分类方法，其特征在于，包括下列步骤：

步骤一、信息抽取

将网页中的广告等无用信息过滤，并抽取出网页上可能携带分类特征的信息，包括标签信息、多媒体信息、关键字信息；

步骤二、数据预处理

步骤三、参数的离散化

由于不同种类的信息经过步骤二处理后获得的数据形式不同，而贝叶斯网络方法的表示要求是离散化后的数据。所以要对步骤二所获得的数据进行离散化处理；

模糊化之后，进行如下步骤完成离散化：

a.归一化处理，相应的公式如下所示：

x’＝(x-a)/σ

其中a为所有实数量的均值，σ为所有实数量的标准差；

b.查出连续变量离散化对应的值，如果有重复的以大的值为准；

步骤四、贝叶斯网络表示

对于网络节点，可以代表两种情况：所述状态包括系统输入状态、中间状态及输出状态；

参数-参数，表示了前后两个参数值之间的影响；

参数-状态，表示参数值对系统状态的影响；

状态-参数，表示当前状态决定了参数取值；

状态-状态，表示了状态之间的转换关系；

步骤七、在步骤五和步骤六的基础上，将步骤三获得的离散化数据输入步骤六所获得的贝叶斯网络，采用如下贝叶斯网络推理算法进行贝叶斯网络推理，从而获得分类结果；具体方法如下：

首先估计步骤二抽取到的当前多个信息的每个特征向量的条件概率密度p(x₁，x₂，…，x_k|w_i)，根据步骤一抽取到的当前多信息的特征矢量值向量(x₁，x₂，…，x_k)，以公式(1)所示的贝叶斯网络路径分类方法逐步地对当前态势路径进行分类判断；考虑当目标判定节点S_T由n个可能的判定目标组成时，即目标判定节点集表示为S_T＝{S_T1，S_T2，…，S_Tn}的情况，在各特征属性即分类的原则相互独立的情况下，构造路径分类的节点深度值L_ij(X)如1式所示。

L_{ij} (X) = \frac{p (x_{1}, x_{2}, \cdot \cdot \cdot, x_{k} | S_{Ti})}{p (x_{1}, x_{2}, \cdot \cdot \cdot, x_{k} | S_{Tj})} = \frac{Π_{i = 1}^{k} p (x_{i} | S_{Ti})}{Π_{i = 1}^{l} p (x_{i} | S_{Tj})} - - - (1)

设网络分类的初始节点为S₀，预先设定的搜索阈值为N，系统的类别状态节点集也就是目标判定节点集记为S_T，预先设定的贝叶斯网络分类器的取样容量数k，l为特征向量的元素个数；算法中设定已判定节点集为D₁，待判定节点集为D₂；具体的网页自动分类推理算法的步骤如下：

步骤1将初始节点S₀放入已判定节点表D₁中；算法实现时，D₁以堆栈来实现；若S₀属于目标类别状态节点集S_T，则分类结果为S₀状态，完成分类，结束所有操作；

步骤2如果已判定节点表D₁为空，分类完成，结束所有操作；否则继续进行步骤3；

步骤6在步骤4的基础上，根据所述贝叶斯网络结构得到的下一个节点S_i，生成S_i的所有子节点；若S_i无子节点，则置S_i于D₂中，转步骤2；删去与D₁表中已完成判定的节点相同的节点，并将其依次放入D₂中；

2.根据权利要求1所述的基于贝叶斯网络的网页自动分类方法，其特征在于，步骤三中，对步骤二获得的不同类型的数据采用不同的离散化取值方式，通常分为如下三种情况来确定：

对逻辑变量：“是”取1，“否”取0；

对多分类变量：取值为0和1组合，只用在参数取值多于两个的情况；

对实数量：当预处理后的特征元素为实数时，且当实数量为连续的情况下，采用的方法为对连续函数进行模糊化，把连续的实数值信息转化为分区间的区域信息：很低、低、中、高、很高；采用的隶属函数为可能性估计。