CN101763404B

CN101763404B - 基于模糊聚类的网络文本数据检测方法

Info

Publication number: CN101763404B
Application number: CN2009102194392A
Authority: CN
Inventors: 赵安军; 王磊; 王礼; 杨宗良
Original assignee: SHAANXI DEVTEK TECHNOLOGIES DEVELOPMENT Co Ltd
Current assignee: SHAANXI DEVTEK TECHNOLOGIES DEVELOPMENT Co Ltd
Priority date: 2009-12-10
Filing date: 2009-12-10
Publication date: 2012-03-21
Anticipated expiration: 2029-12-10
Also published as: CN101763404A

Abstract

本发明公开了一种基于模糊聚类的网络文本数据检测方法，先对提取的网络内容进行预处理；对需要聚类的预处理后网络内容进行特征提取后对网络内容进行聚类，设定初始聚类数。在聚类过程中，一个聚类数对应一个隶属度矩阵，每个隶属度矩阵都有一个平均信息熵值，平均信息熵基于密度函数选择初始聚类中心，算法迭代过程中修改聚类数，当平均信息熵达到最小值时，所对应的聚类数为最佳聚类数。最后将聚类结果返回给用户。本发明具有高效的智能聚类效果，并且可以根据应用的不同，调整聚类的精度，兼顾聚类的速度。

Description

基于模糊聚类的网络文本数据检测方法

技术领域

本发明涉及一种数据检测方法，尤其是一种网络文本数据的检测方法。

背景技术

网络内容中有80％左右的信息是文本形式，所以对文本数据挖掘技术的研究成为数据挖掘中的一个日益流行且十分重要的研究课题。网络内容聚类是将网络内容中相似的文本分为一组的全自动处理过程，它是一个无监督学习过程。聚类的目的是将物理或抽象的对象，按对象间的相似性进行区分和分类。聚类方法按对数据划分的形式可分为：划分时有明确的边界称为硬划分，即将数据划分到一个确定的类；没有明确的边界的划分称为模糊划分，即将给定数据以隶属度的形式表示属于哪几个类。

我国文本智能分类的研究起始于20世纪80年代，大体经历了可行性探讨、辅助分类系统、自动分类系统三个阶段。中文文本分类还处于在试验研究阶段，正确分类率约为70％-90％，正在逐渐向商业化的软件应用靠拢，并已经尝试开发了一批自动分类系统，例如清华大学吴军研制的自动分类系统、山西大学刘正瑛等人开发的金融自动分类系统、上海交大的西风文本自动分类系统。如何找到合理的应用并且在实践中逐步改善算法，提高性能成为文本分类算法的当务之急。通过文献检索发现，目前国内外常用的文本分类方法大多数是基于文本内容的相似度对文本进行分类。诸如基于概念的文档分类算法、K-最近邻接参照分类算法(K-NN)、贝叶斯分类算法、基于语义网络的概念推理网分类算法以及决策树和支持向量机(SVM)等方法。基于这些方法的网络内容分类系统大都是基于平面的分类，即多采用基于词或词串信息的动态聚类方法和基于特征属性的分类技术来实现，挖掘的深度不够，执行速度慢，聚类的准确度较低。

发明内容

为了克服现有技术挖掘的深度不够、执行速度慢、聚类的准确度较低等不足，本发明提供一种基于模糊聚类的网络文本数据检测方法，能够有效提高网络安全审计中对于文本分类的精度与可靠性，从而改善网络内容中目标文本的获取效率，实现网络内容的智能检索。

本发明解决其技术问题所采用的技术方案是：首先对提取的网络内容进行预处理；其次，对需要聚类的预处理后网络内容进行特征提取；然后，对网络内容进行聚类，设定初始聚类数。在聚类过程中，一个聚类数对应一个隶属度矩阵，每个隶属度矩阵都有一个平均信息熵值，平均信息熵基于密度函数选择初始聚类中心，算法迭代过程中修改聚类数，当平均信息熵达到最小值时，所对应的聚类数为最佳聚类数。最后，将聚类结果返回给用户。

本发明具体包括以下步骤：

(1)网络内容预处理：如果以原始的网络内容作为特征向量提取的对象，那么，网络内容的特征向量维数会相当大，因此，必须进行降维的处理。降维的方法采用特征抽取方式，首先对原始的网络文本进行分词，然后，计算每个词出现的频率，删除所有出现频率超过10的功能词，从而降低网络内容特征提取时所获取特征向量的维度。由于特征向量维数降低，不但能加快聚类算法计算的速度，而且还能提高分类结果的精度和避免重复匹配问题。

(2)网络内容特征提取：应用向量空间模型作为网络内容特征的表示方法。在该模型中，网络内容空间被看作是由一组正交词条向量所组成的向量空间。所述的词条向量是指将每次捕获到网络流的网络内容作为一篇网络内容文档，经过步骤(1)的网络内容预处理后，将网络内容文档中的词条项在整个网络文档中出现的频次作为该词条项的权重，将所有的词条项以及词条项所占的权重作为网络内容空间的一个特征向量。词条向量表示为V(d)＝(t_i，w_i(d)；i＝1，2，...，n)，其中，n表示降维和分词后整个网络文档的词条数目，d表示此网络文档，t_i为词条项，w_i(d)为词条在此网络内容文档中所占的权重，被定义为t_i在d中出现的频率。

(3)模糊聚类：现有技术的模糊聚类方法存在对孤立点数据比较敏感，须预先指定聚类数目和模糊加权指数的缺陷。为降低孤立点对聚类结果的影响，本发明对数据对象的隶属度增加一个权值，使隶属度的值高的数据对象对聚类中心位置的影响增大，隶属度小的数据对象降低它们对聚类中心的影响。模糊聚类的具体步骤如下：

步骤1，设定初始聚类数为c，初始聚类数大于等于2即可，一般选取2；将迭代次数b设置为零，并且选择指数权重m和迭代停止阈值ε，指数权重m的选择范围在1.5到2.5之间，在此方法中，选择指数权重m为1.9，迭代停止阈值ε的选择范围在0.1到0.001之间，在这里考虑到算法的执行速度和聚类的精度，ε选择0.01。

步骤2，由于聚类结果受到初始聚类数目和初始聚类中心的影响，本发明采用基于密度函数选择初始聚类中心的方法。对于网络内容空间中具有n个样本的数据集合X＝{x_l，l＝1，2，...，n}，在x_l处的密度函数定义为：

D_{l}^{(0)} = Σ_{k = 1}^{n} \frac{1}{1 + f_{d} \cdot {| | x_{l} - x_{k} | |}^{2}},

其中，f_d＝1/r_d ²，r_d为类密度有效邻域半径，

α与样本集合分布特性有关，取值范围为[0，1]，在邻域半径r_d之外的数据点对x_l的密度的计算影响很小。密度函数越大，表示在点x_l的周围聚集的样本点越多，说明点x_l处的密度越大，从而D_l ⁽⁰⁾的值越高。令

D_{1}^{*} = \max {D_{l}^{0}; l = 1,2, . . ., n},

x_l ^*是对应D₁ ^*的样本点，并且取为第一个聚类中心。设

D_{k}^{*} = \max (D_{l}^{k - 1}; l = 1,2, . . ., n),

x_k ^*是对应D_k ^*的样本点，k＝1，2，...，c-1，

D_{l}^{k} = D_{l}^{k - 1} - D_{k}^{*} \frac{1}{f_{d} \cdot | | x_{l} - x_{k}^{*} | |},

x_k ^*作为第k个初始聚类中心。

步骤3，计算隶属度。通过公式

u_{ij}^{b} = 1 / Σ_{k = 1}^{c} {(\frac{d_{ij}^{b}}{d_{kj}^{b}})}^{\frac{2}{m - 1}}

计算隶属度。其中，u_ij ^b为在第b次迭代中样本j属于类i的隶属度，b为迭代次数，m为指数权重，c为聚类数，d_ij表示第j个元素到第i个聚类中心的欧式距离。为降低孤立点对聚类结果的影响，对计算获取隶属度增加一个权值，形成新的隶属度，使隶属度值高的数据对象对聚类中心位置的影响增大，对于隶属度小的数据对象则降低它们对聚类中心的影响。隶属度的改进公式为：改进后的隶属度

U_{ij} = {λu}_{ij} + (1 - λ) u_{ij}^{2},

λ的取值为[0，1]，λ取值与聚类精度和算法执行速度有关，使用时可以根据聚类的精度和聚类时间进行调整。当λ＝1时，U_ij＝u_ij，当u_ij＝0，U_ij＝0，当u_ij＝1，U_ij＝1。在[0，1]区间的隶属度在改进后有一定程度的减少。在算法迭代过程中，隶属度值越小，改进后隶属度相应减少地越明显，隶属度小的数据对象对聚类中心的影响降低了；隶属度越大，改进后的隶属度相应减少的较小，这样就相对的提高隶属度值高的数据对象对于聚类的中心位置的影响。

步骤4，更新聚类中心。根据上述计算的隶属度u_ij以及通过权值形成的改进后隶属度U_ij对聚类中心进行更新，更新公式为：

C_{i}^{b + 1} = \frac{Σ_{j = 1}^{n} {(U_{ij}^{b + 1})}^{m} \cdot x_{j}}{Σ_{j = 1}^{n} {(U_{ij}^{b + 1})}^{m}},

i＝1，2，...，c，C_i ^b+1为更新后的聚类中心，m为权重指数。并且通过

| | C_{i}^{b} - C_{i}^{b + 1} | | < ϵ

判定迭代停止阈值的条件是否满足，如果满足，输出隶属度矩阵和形成的聚类中心，否则令b＝b+1，并转向步骤3。

步骤5，本发明以隶属度的平均信息熵作为评判聚类数目的标准，平均信息熵的定义为

H = Σ_{i = 1}^{C} Σ_{j = 1}^{n} {[u_{ij} \times Ib (u_{ij}) + (1 - u_{ij}) \times Ib (1 - u_{ij})] / n},

其中，C为设定的初始聚类数目，n为聚类的样本数目，b为迭代次数，u_ij为样本j属于类i的隶属度，I表示熵的计算。当平均信息熵达到最小值时，所对应的聚类数即为最佳聚类数。以步骤4的输出为输入，按照上述的最佳聚类数的评判标准判定是否满足，如果满足聚类数评判标准，聚类过程结束，保存最终聚类数目c以及聚类中心C_i，i＝1，2...c，。否则，令c＝c+1并转向步骤2。

(4)聚类结果输出。将聚类结果返回给用户，聚类结果包括聚类中心的数目以及聚类中心。

本发明的有益效果是：本发明是在性能良好的网络内容特征提取技术、基于密度函数获取初始聚类中心技术、优化的隶属度计算技术以及聚类数的评判标准确定技术的基础上研发的。与已有的相应技术相比，该技术具有高效的智能聚类效果，并且可以根据应用的不同，调整聚类的精度，兼顾聚类的速度。

下面结合实施例对本发明进一步说明。

具体实施方式

本发明具有网络内容预处理、网络内容特征提取、模糊聚类以及聚类结果输出四个部分的功能。其中网络内容预处理完成对多维的网络内容文档特征向量进行降维处理，进行特征抽取；网络内容特征提取完成对所捕获网络流中网络内容的处理，包括网络内容文档的建立，文档的特征向量表示；模糊聚类是本发明的核心，采用基于密度函数选择初始聚类中心，平均信息熵作为评判聚类数目的标准，设定初始聚类数，在算法的迭代过程修改聚类数，当平均信息熵达到最小值时的聚类数即为最佳聚类数，完成对网络内容文档的聚类。聚类结果输出将聚类结果返回给用户，包括聚类中心的数目以及类别信息。

基于本发明开发了原型系统，该系统执行包括以下步骤：网络内容预处理、网络内容特征提取、设定初始聚类参数、选择初始聚类中心、隶属度计算、聚类中心更新、聚类结果评价以及聚类结果输出。

本发明具体包括以下步骤：

第一步，将待聚类的网络内容分割成1000篇文本，对每篇文档进行标点分析，把它们分成单句；并删除出现频率超过10次的功能词，对每个单句利用文本分析工具PatCount对其中每个词进行词法分析，对每个单句利用n-gram方法得到所有由三个以内词组成的词条短语，在这里n-gram方法所述的n为3。

第二步，应用向量空间模型作为网络内容特征的表示方法，将网络内容文档中的词条项在整个网络文档中出现的频次作为该词条项的权重，将所有的词条项以及词条项所占的权重作为网络内容空间的一个特征向量。统计所获取的词条短语数目以及各词条短语在网络文本中出现的频次，将1000篇经过第一步处理过的网络文本表示成文本向量，由此组成维数为3768的网络文本特征向量V(d)＝(t_i，w_i(d)；i＝1，2，...，3768)，d表示1000篇网络文档集合，t_i为集合当中的一个词条项，w_i(d)为此词条在此网络内容文档中所占的权重，被定义为t_i在d中出现频率。

第三步包含以下步骤：

步骤1：设定初始的聚类数为2，将迭代次数设置为0，并且选择指数权重为1.9和迭代停止阈值为0.01；

步骤2：根据上述设定的初始聚类数，以3768维的网络文本特征向量为输入计算2个初始的聚类中心。对于网络内容空间中具有3768个样本的数据集合X＝{x_l，l＝1，2，..，3768}，在x_l处的密度函数定义为：

D_{l}^{(0)} = Σ_{k = 1}^{3768} \frac{1}{1 + f_{d} \cdot {| | x_{l} - x_{k} | |}^{2}},

其中，f_d＝1/r_d ²，r_d为类密度有效邻域半径，

α与样本集合分布特性有关，在这里取为0.9。令

D_{1}^{*} = \max {D_{l}^{0}; l = 1,2, . . ., 3768},

x₁ ^*是对应D₁ ^*的样本点，并且取为第一个聚类中心。设

D_{2}^{*} = \max (D_{l}^{1}; l = 1,2, . . ., 3768),

x₂ ^*是对应D₂ ^*的样本点，

D_{l}^{1} = D_{l}^{0} - D_{1}^{*} \frac{1}{f_{d} \cdot | | x_{l} - x_{1}^{*} | |},

x₂ ^*作为第2个初始聚类中心。

步骤3：，计算隶属度，通过公式

u_{ij}^{b} = 1 / Σ_{k = 1}^{c} {(\frac{d_{ij}^{b}}{d_{kj}^{b}})}^{\frac{2}{1 \cdot 9 - 1}}

计算隶属度。其中，u_ij ^b为在第b次迭代中样本j属于类i的隶属度，b为迭代次数，c为聚类数，d_ij表示第j个元素到第i个聚类中心的欧式距离。为降低孤立点对聚类结果的影响，对计算获取的数据对象的隶属度增加一个权值，形成新的隶属度，使隶属度值高的数据对象对聚类中心位置的影响增大，对于隶属度小的数据对象则降低它们对聚类中心的影响，改进隶属度公式为：

U_{ij} = {λu}_{ij} + (1 - λ) u_{ij}^{2},

这里λ取值0.8。

步骤4：根据上述计算的隶属度以及通过权值形成的新的隶属度对聚类中心进行更新，判断本次更新的聚类中心和上一次聚类中心的差是否小于迭代停止阈值，如果满足，输出隶属度矩阵和形成的聚类中心，否则，迭代次数加1，跳转到步骤3重新计算隶属度，循环上述过程。本次试验中的上述循环过程执行3次，执行时间1分钟；

步骤5：以步骤4的输出为输入，计算平均信息熵是否最小，如果最小，此时获得的聚类数目为当前的聚类数减1，聚类过程结束，保存最终聚类数目c以及聚类中心C_i，i＝1，2...，c。否则转向步骤2，并且给当前的聚类数加1，重新计算初始的聚类中心，循环上述过程，本次试验的上述循环过程执行4次，执行时间为4分钟。

第四步，将聚类结果返回给用户，包括聚类中心的数目以及各个聚类中心。本实施例获取的聚类数为5，各个聚类中心类别分别是计算机、金融、交通、体育以及军事五大类。

本方法经过原型系统的具体实施，效果较好。采用基于密度函数选择初始聚类中心，平均信息熵作为评判聚类数目的标准，在算法的迭代过程修改聚类数，当平均信息熵达到最小值时的聚类数即为最佳聚类数，完成对网络内容文档的聚类。这些方法的使用使得分类的准确性有了较大的提高，并且在执行的速度方面也有一定的改善。

Claims

1.基于模糊聚类的网络文本数据检测方法，其特征在于包括下述步骤：

(1)首先对原始的网络文本进行分词，然后计算每个词出现的频率，删除所有出现频率超过10的功能词；

(2)应用向量空间模型作为网络内容特征的表示方法，将网络内容文档中的词条项在整个网络内容文档中出现的频次作为该词条项的权重，将所有的词条项以及词条项所占的权重作为网络内容空间的一个特征向量，将网络内容空间作为一组正交词条向量所组成的向量空间；词条向量V(d)＝(t_i，w_i(d)；i＝1，2，...，n)，其中，n表示降维和分词后整个网络内容文档的词条数目，d表示此网络内容文档，t_i为词条项，w_i(d)为词条在此网络内容文档中所占的权重；

(3)对网络内容进行模糊聚类，具体步骤如下：

步骤1，设定初始聚类数c，c≥2；将迭代次数b设置为零，并且选择指数权重m和迭代停止阈值ε，m在1.5到2.5之间，ε在0.1到0.001之间；

步骤2，对于网络内容空间中具有n个样本的数据集合