CN101814086A - 一种基于模糊遗传算法的中文web信息过滤方法 - Google Patents

一种基于模糊遗传算法的中文web信息过滤方法 Download PDF

Info

Publication number
CN101814086A
CN101814086A CN201010106201A CN201010106201A CN101814086A CN 101814086 A CN101814086 A CN 101814086A CN 201010106201 A CN201010106201 A CN 201010106201A CN 201010106201 A CN201010106201 A CN 201010106201A CN 101814086 A CN101814086 A CN 101814086A
Authority
CN
China
Prior art keywords
document
information
weight
fitness
filtering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201010106201A
Other languages
English (en)
Inventor
刘培玉
朱振方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN201010106201A priority Critical patent/CN101814086A/zh
Publication of CN101814086A publication Critical patent/CN101814086A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明公开了一种基于模糊遗传算法的中文WEB信息过滤方法,其步骤如下:利用文本训练集,采用模糊遗传算法简历过滤模版;截获WEB数据包并解析,从中提取有效的文本信息;在获取的有效信息中提取网址信息、关键词信息以及中文域名信息,应用三层过滤机制进行初步过滤,返回过滤结果;将没有过滤掉的文本信息进行切词、去除停用词处理,并进行层次聚类,形成基于概念的逻辑段落,并计算特征项权重;将处理结果同过滤模版进行相似度匹配,返回匹配结果;综合过滤结果以及匹配结果,确定所获取的文本信息是否被过滤,将被过滤的网页信息直接屏蔽;利用反馈方法、结合用户反馈信息对过滤结果进行反馈,更新过滤模板。

Description

一种基于模糊遗传算法的中文WEB信息过滤方法
技术领域
本发明涉及一种基于模糊遗传算法的中文WEB信息过滤方法,属于信息技术领域。
背景技术
WEB信息过滤是文本过滤的重要组成部分,TREC-9给出了文本过滤的任务定义:根据给定的用户需求,建立一个能从文本流中自动选择最相关文本的过滤模板,随着文本流的逐渐进入,过滤系统自动地接受或拒绝文本,并得到文本相关与否的反馈信息,根据反馈信息自适应地修正过滤模板。
基于内容的过滤是当前WEB信息过滤研究的主要方向,而在基于内容的信息过滤中,最重要的是应用学习算法构建过滤模板。当前常用的算法包括贝叶斯、支持向量机以及KNN等,这些分类和学习算法在一定程度上解决了模板生成过程中的学习问题,但是同时也存在一些问题。例如,贝叶斯分类系统无法在没有先验知识的情况下加以判断和学习,KNN存在当数据量较大时分类精度和最近的样本点数量取值依赖较大、实施起来复杂度仍然相对较大、单分类器分类精度较低等问题,支持向量机存在训练速度慢、时间空间复杂度大的问题等问题。
遗传算法是一种能在全局范围内产生最优解的搜索算法,它具有自组织、自适应、自学习的特性,而且不受搜索空间限制、不需要其他辅助信息,因此被广泛应用于解决优化问题。而文本分类和信息过滤中模板的生成过程就是一个不断寻找能够代表相关类别的特征集的过程。
发明内容
本发明的目的就是为了解决上述问题,把遗传算法引入到WEB信息过滤系统中用于训练分类器,进行WEB信息过滤,建立基于遗传算法的WEB信息过滤模型,并针对模型中存在的问题提出了一系列改进措施。
为实现上述目的,本发明采用了如下技术方案:
一种基于模糊遗传算法的中文WEB信息过滤方法,所述过滤方法包括如下步骤:
Step1:利用文本训练集,采用模糊遗传算法简历过滤模版;
Step3:截获WEB数据包并解析,从中提取有效的文本信息;
Step3:在获取的有效信息中提取网址信息、关键词信息以及中文域名信息,应用URL过滤、关键词过滤以及内容过滤的三层过滤机制进行初步过滤,返回过滤结果;
Step4:将Step3中没有过滤掉的文本信息进行切词、去除停用词处理,并进行层次聚类,形成基于概念的逻辑段落,并计算特征项权重;
Step5:将Step4中的处理结果同过滤模版进行相似度匹配,返回匹配结果;
Step6:综合Step3的过滤结果以及Step5中的匹配结果,确定所获取的文本信息是否被过滤,并将为被过滤的信息重组为网页提交给用户,将被过滤的网页信息直接屏蔽;
Step7:利用反馈方法、结合用户反馈信息对过滤结果进行反馈,更新Step5中的过滤模板。
所述Step1中的模糊遗传算法主要分为种群、交叉率和变异率的模糊调整三部分:
(1)使用下面的公式计算个体寿命:
Figure GSA00000038313400021
其中
Figure GSA00000038313400022
lifetime[i]为第i个个体的寿命,fitness[i],avg_fitness,best_fitness和wrost_fitness分别为第t代中第i个个体的适应度值、种群的平均适应度值、种群中最好适应度值和种群中最差适应度值,max_lifetime,min_lifetime分别为在允许空间内预先设置的最大寿命、最小寿命;
(2)使用下面的公式动态计算交叉率:
temp=max_pc×2(-t/max_gen)
Figure GSA00000038313400023
其中temp是中间计算变量,max_gen是预设的最大进化代数,max_pc,min_pc分别是预设的最大交叉率、最小交叉率,t是当前进化代数;
(3)使用下面的公式计算变异率:
X = - | max _ fitness - fitness [ i ] max _ fitness |
temp = e X × 1 1 + t max _ gen × max _ pm ,
Figure GSA00000038313400026
其中X,temp是中间计算变量,max_fitness,fitnes[i]及max_gen分别是当前代中最大适应度值、待变异个体的适应度值及预设的最大代数,max_pm、min_pm分别是预设的最大变异率和最小变异率,t为当前进化代数,pm为当前代中个体的变异率。
所述Step4中的层次聚类,应用如下方法计算:
设文本T具有n个自然段,K个层次,用H表示文本层次,P表示自然段,则有如下组成关系:
H 1 H 2 . . . H k = ( P i 1 . . . P i 2 - 1 ) ( P i 2 . . . P i 3 - 1 ) , . . . ( P i k . . . P i k + 1 - 1 ) , 其中i1=1<=i2<=...ik<=ik+1-1=n;
设文本T的特征向量为(c1,c2,...,cm)则设P1=(ωi1,ωi2...ωim)为第i段的特征向量,其中ωij是概念c在第i段中概念密度;
将n个段落划分为K个层次,则所有可能的分法共有Cn-1 K-1种,设S(n,K)是任一种分法,其中:S(n,K)={i1=1,i1+1,...,i2-1},...,{ij,ij+1,...,ij+1-1},...,{iK,iK+1,...,n};
有序聚类就是寻找一种分法使K个层次内差异尽可能小,而层次间的差异尽可能大;设D(ij,ij+1-1)表示第j层内的差异量,则误差函数为:
E ( S ( n , K ) ) = Σ j = 1 K ( i j , i j + 1 - 1 ) ;
为了使上述总体误差函数达到最小,寻求最优的K分法,相当于把n个段落分成两个部分,将前一部分进行最优K-1分法,然后再考虑后一部分的误差,由此寻找到最优K分法;
设S(n,K,cK)是使总体误差函数达到最小的分法,其中cK是上述最佳分法的分割点ik,则有如下递推公式:
E(S0(n,K,cK))=min{E(S0(iK-1,K-1,cK-1)+D(iK,n))};
文本层数的确定关系到文本逻辑结构的建立,它可以通过给定阈值l,当|E(S(n,K+1)-E(S(n,K))|<=l时,则最优层数为K。
所述Step4中计算特征项权重,采用了综合文档权重、段落权重以及特征项自身权重的综合计算方法,该权重计算方法由如下公式计算:
KW i = w i * Σ s t i * δ i Σ s t i * WT * WS + Die ;
在上述计算公式中:WT表示段落权重,且WTi是该文档包含的第i个特征项的权重,N是指特征项在文档中的分布密度,即密集程度;WS表示句子权重,且
Figure GSA00000038313400041
KWi是该句子或段落中包含的第i个特征项的权重,TFi是该特征项在这篇文档中出现的频率,IDFi是该特征项在文档中出现的逆频率,D是指特征项在句子或段落中的分布密度;其中在
Figure GSA00000038313400042
中,设特征项i的位置权重为δi,由于该权重计算基础为经过聚类的逻辑段落,因此去掉相关网页附加信息,设文档D所有段落权重和其中0表示标题文本,wi表示单个权重,
Figure GSA00000038313400044
表示所有段落权重之和。
所述Step5中相似度匹配过程采用余弦方法:
sim ( C , D ) = cos θ = C . D | | C | | . | D | | = Σ i = 1 n U i W i Σ i = 1 n U i 2 Σ i = 1 n W i 2
设定过滤阀值l当sim(C,D)≥l其D所对应的内容符合用户兴趣,应该提交到结果文档数据库,否则,不予提交;在上述计算公式中,C和D表示两个向量,sim(C,D)表示两个向量C和向量D之间的相似度,Ui和Wi分别表示向量C和向量D的一个分量。
所述Step5形成的向量同模板向量进行相似度比较,如果超过阈值,则将其过滤掉,如果不超过阈值,则将其放过,并还原成网页在前台显示。而在网页数据的获取和还原中,采用了基于的SPI技术的处理方式,实现对数据包的截获,对数据包进行协议分析,并根据HTTP协议特点,重组HTML。
所述Step7中的反馈方法,应用一种利用反馈文档动态修改类别模板方法,实现过滤模板的动态调整,该方法主要过程如下:
设某一个初始类别模板为P(p1,p2,p3,...,pn),反馈集为Ft,文档相似度的前m篇文档集观察窗口w,每次学习都从观察窗w中正例文档中发现新特征词;
A.先设置一个初始反馈过滤阈值
Figure GSA00000038313400046
在系统使用过程中,将所有大于该阈值的文档和相应的相似度值保存到相应的反馈类别文件夹下;
B.当使用一段时间后,就进行反馈,把反馈类别文件夹下的所有的文档,按照相似度大小排序,取前m篇文档作为反馈的文档,计算这m篇文档的中心向量D(d1,d2,d3,...,dn),再求出此中心向量和类别向量的差S(s1,s2,s3,...,sn),其中,si=di-pi,根据下面公式修改模板相应特征项的权重:
pi new=pi old+I*si
式中,pi new是修改后的第i特征项的权重,pi old为类别模板中修改前的第i特征项的权重,α为修改因子,I是一个线性临界值函数,定义如下:
I = 1 if | s i | &GreaterEqual; &phi; , 0 if | s i | < &phi; . ,
式中,φ是定义特征项在原类别特征权重上上下波动的阈值;
C.从观察窗口中统计新出现的特征词,作为候选特征词,并计算其权重,按从大到小的顺序排序,抽取适量的特征词来扩展模板,新特征词数量用下面公式来计算,然后将观察窗口中所有的非伪正例文档标记为伪正例文档:
N = 0 ifn = m , 2 * lg ( n + 1 ) ifn < m .
式中,N是增加特征词的数量,n是特征窗口中,正例文档的数量,m为观察窗口中文档的数量;
D.将观察窗口之外所有的文档都删除掉,然后将反馈过滤阈值提高为第m篇文档的相似度值,然后将这些文档重新再与模板比较一下,修改相似度值,本次反馈结束。
其中,Step5形成的向量同模板向量进行相似度比较,如果超过阈值,则将其过滤掉,如果不超过阈值,则将其放过,并还原成网页在前台显示。而在网页数据的获取和还原中,采用了基于的SPI技术的处理方式,实现对数据包的截获,对数据包进行协议分析,并根据HTTP协议特点,重组HTML。
协议解析模块首先需要对封包的协议类型进行判断,如果是HTTP协议,则根据封包的HTTP协议格式对网络封包进行处理,从中提取出所需要的信息。HTTP协议在socket中是流传输,理论上按照顺序接受数据包就可以。但是还有考虑是哪个socket的TCP流。通过在recv函数中存储建立的socket,对每个socket的数据流进行存储就可以得到组合到整个html文件。具体处理流程如图3所示
本发明的有益效果是:能够有效改进传统文本信息过滤效果,提高过滤的准确率,是一种有效地方法,系统设计已经加以应用,具有良好的应用价值。提出了应用模糊遗传算法构建过滤模板,在概念词典之上,考虑不同的段落对于文本主题表示的贡献程度引入基于概念的逻辑段落划分方法提高匹配效果,提出了一种利用反馈文档动态修改类别模板方法更新过滤模板。基于上述策略的Web信息过滤方法较之同领域其他方法在准确率和召回率上都有较大的提高。
从经济效益来看,基于该模型开发设计的系统本项目开发的系统能够为广大的网络用户提供一个安全可靠的使用环境,有效避免内部信息泄露和外部入侵,本发明研究开发的″Web信息过滤系统″先后经多家公司推广应用,产生了巨大的经济效益,自2006年至今已产生直接经济效益达1719万元,产业化规模效益显著。
就社会效益来讲,对于目前最广大的学校网络用户来讲,Web信息分类和垃圾信息过滤软件系统的使用,可使学生有一个″净化″的网络使用环境和学习环境,避免或减少有害信息对于广大的大中小学生思想的侵蚀,从而为培养建设有中国特色社会主义国家的人才起到重要作用,在这一方面,它所起到的教育作用是远远超过它的经济效益的。对于企业用户来讲,一个高效的Web信息软件系统能够有效避免垃圾信息以及有害信息的对于正常工作的干扰,提高广大企业网络用户的工作效率,这在很大程度生也为经济和社会发展做出一定的贡献。
说明书附图
图1为本发明模糊遗传算法流程图;
图2为本发明的系统框架图;
图3为本发明的HTML文本内容重组流程;
图4为本发明所述方法同传统方法比较效果图。
具体实施方式
根据上述发明内容,下面对实施方案做进一步的说明,此处从基本遗传算法过滤模型、遗传过滤模型改进、WEB信息过滤系统实现以及实验结果分析四个方面进行说明。
1.基本遗传算法过滤模型
遗传算法过滤模型的构造就是将提取的文本信息,根据遗传算法特性构建基于遗传算法的特征子集优化方案的过程,该过程可以用图1进行表达。在图1中,包含以下步骤:
(1)编码
由于遗传算法不能直接处理解空间数据,因此在进行搜索之前,必须先通过编码把解空间变量表示成遗传空间的基因型串数据。
经过切词、特征选择后,文本di转换成一系列特征词组成的向量c1c2c3...ck...cn,,把每一篇有待于学习的文章转换成一个向量,在这个向量中包含了这个类别一定数量的特征词,如果在某个文本中出现了该词,则在形成编码时将对应的位置标为1,否则标为0。则将相应的文本向量转化成了二进制序列——也就是要处理的基因串,如:10101...011010...01。
(2)计算个体适应度
遗传算法在搜索进化过程中一般不需要其它外部信息,仅用适应度函数值来评估个体或解的优劣。适应度函数表明个体对环境适应能力的强弱,对于不同的问题,适应度函数的定义方式也不同。本发明中把个体之间的相似度作为适应度函数:
fitness ( in div idual [ i ] ) = &Sigma; j = 1 group _ size cos < weight [ i ] , weight [ j ] > ( group _ size - 1 ) , j &NotEqual; i - - - ( 1 )
其中:weight[i]与weight[k]分别为两个编码串individual[i]和individual[k]权值向量,且cos<individual[i],individual[k]>=cos<weight[i],weight[k]>。
(3)几个常见遗传算子
针对于遗传算法中常用的交叉、变异以及选择算子问题,本发明在遗传过滤模型改进中进行表述。
(4)终止条件的选择
遗传操作是一个反复迭代的过程,每次迭代都要执行相关的适应度计算、选择、交叉、变异等操作,直到满足设定的条件,而具体在何时终止则需要根据具体情况而定。本发明中根据遗传算法的特点结合WEB信息过滤实际应用,设置了如下三个中止条件:
①最大迭代次数N
具体数量需要根据种群特点以及其运算速度设定,而在本发明实验过程中,经过系统测试初步设定为400为最大代数,一旦遗传算法迭代次数达到了这个代数,则终止遗传操作,输出遗传训练当前最优解。
②最小偏差δ
在遗传训练当中,最开始的时候遗传操作比较明显,因此前后两代的适应度偏差较大,随着遗传训练的继续,这种偏差越来越小,最后趋向于平稳甚至不再发生变化。在文本分类的训练中应用前后两代的适应度差值来衡量,即δ=|max_fitness-pre_max_fitness|,如果δ小于设定值,则停止遗传操作。
③当遗传操作遇到外界给出的中止信息时
为了实现在保证WEB信息过滤实时性的同时对训练模型进行改进,本发明设计实现了中断遗传操作,即当外界需要遗传训练中止时,系统就向遗传操作发出中断命令,遗传操作暂时中止,直到收到继续训练的信号。
2.融合模糊思想的过滤方法改进
遗传算法参数的动态调整是指遗传算法中引入模糊控制理论,通过模糊调整遗传算法相关参数使遗传算法在进化过程中更接近最优解。
(1)种群规模的动态调整
本发明结合模糊理论,针对种群的动态调整问题,引入了个体寿命的概念,根据个体的寿命来控制遗传种群规模的大小。
由于个体寿命不是固定不变的,需要在每一代中都需要计算个体寿命,以保证个体的多样性及优良性,使得充分的优秀基因遗传给后代,保证遗传进程搜索到全局最优解。其中第i个个体在第t代中的寿命为:
Figure GSA00000038313400081
其中
Figure GSA00000038313400082
lifetime[i]为第i个个体的寿命,fitness[i],avg_fitness,best_fitness和wrost_fitness分别为第t代中第i个个体的适应度值、种群的平均适应度值、种群中最好适应度值和种群中最差适应度值,max_lifetime,min_lifetime分别为在允许空间内预先设置的最大寿命、最小寿命。
同时,为避免大量个体的急剧减少,保证种群优良性,本发明中涉及的方法在遗传个体寿命小于进化代数的条件下,在删除个体的同时将种群中适应度最好的个体重新加入到原种群中,填补被删除的个体。使得当种群中某些遗传个体的寿命极小时,仍能能够利用公式2进行计算。
(2)交叉概率模糊动态调整
本发明针对传统遗传算法交叉率是预先设置的固定值,不随进化过程的变化而相应变化的缺点,引入交叉率动态调整方案:
temp=max_pc×2(-t/max_gen)    (3)
Figure GSA00000038313400083
其中temp是中间计算变量,max_gen是预设的最大进化代数,max_pc,min_pc分别是预设的最大交叉率、最小交叉率,t是当前进化代数。
(3)变异率模糊动态调整
本发明另一个融合模糊思想的方法是将变异操作采用如下动态调整策略:
X = - | max _ fitness - fitness [ i ] max _ fitness | - - - ( 5 )
temp = e X &times; 1 1 + t max _ gen &times; max _ pm
Figure GSA00000038313400086
其中X,temp是中间计算变量,max_fitness,fitness[i]及max_gen分别是当前代中最大适应度值、待变异个体的适应度值及预设的最大代数,max_pm和min_pm分别是预设的最大变异率和最小变异率,t为当前进化代数,pm为当前代中个体的变异率。
(4)改进方案实现
其主要步骤在图1的基础上调整如下:
(1)初始化种群。对种群个体采用二进制编码方式,随机生成初始种群;
(2)计算初始种群个体适应度值,根据寿命计算公式(2)计算个体寿命;
(3)判断个体寿命与个体进化年龄,对种群规模进行调整,即删除种群中个体进化年龄大于其寿命的个体;
(4)计算出某代种群中适应度最好的个体,根据删除种群个体情况,将适应度最好的个体加入到该代种群中,继续进行下一代遗传;
(5)根据调整后的交叉操作,计算调整后的交叉率,对下一代种群进行交叉操作,根据调整后的变异因子,进行变异操作,产生下一代种群,使种群进化年龄逐一增加;
(6)判断是否满足算法终止条件,若是,则输出最终结果,否则转向步骤(2)。
3.基于模糊遗传算法的WEB信息过滤系统
本发明应用改进的模糊遗传过滤方法,设计实现了一个具有较高过滤性能的中文WEB信息过滤系统。
(1)过滤系统框架
本发明设计实现的系统,在充分考虑国内相关研究的基础上,进行了较大的改进,如图2所示。从图2中可以看出,本发明设计实现的WEB信息过滤系统主要分为四个模块:
WEB信息分析模块:从WEB信息流中获取网页信息,使用本发明设计的网页分析和重组模型对其进行处理分析,生成信息的特征表示;
遗传算法训练模块:根据给出的训练文档,通过特征选择、遗传算法训练,生成用户模板文件;
匹配模块:将WEB信息分析模块获取的网页信息和遗传算法训练模块产生过滤模板进行相似性比较,以确定是否将信息提交给用户,并将处理后的网页重组提交给用户;
反馈更新模块:根据用户的兴趣变化以及用户对结果集的评价,适时更新用户模板文件。
(2)系统运行实例
在试验过程中,算法实施和测试涉及部分参数,其中主要包括遗传模板训练参数、匹配函数、逻辑段落划分参数等。
①遗传训练参数
预设种群规模大小为200,染色体数目为100,最大遗传代数为1000,变异率和交叉率分别预先设置为0.6和0.015,此后,种群规模以及变异率交叉率按照本发明方法动态调整。
②逻辑段落聚类参数
在逻辑段落生成过程中,主要应用层次聚合算法从众多特征项开始向上逐层聚类,为防止文档过度聚合,此处选择将新类控制在4个时即停止聚类操作。
③训练集
训练文档采用了复旦大学计算机信息与技术系国际数据库中心自然语言处理小组李荣陆提供的测试语料,共9804篇文档,分为20个类别。其中文学、教育等11个类别文档数不超过100篇,计算机、环境、农业、经济、政治以及体育等六个类别文档数超过1000。由于算法最终要应用于信息过滤,因此项目组又自行收集了暴力、色情两个类别分别276和192篇文档,共计8个类别7947篇文档用于训练。训练文档分布如表1所示:
  类别   暴力   色情   计算机   环境
  文档数   276   192   1358   1218
  类别   农业   经济   政治   体育
  文档数   1022   1601   1026   1254
表1训练文档分布
④测试集
测试集则主要来自两个方面:
A.将复旦大学计算机信息与技术系国际数据库中心自然语言处理小组李荣陆提供的测试语料中不超过100篇文档的11个类别共计502篇文档与从训练集每个类别随机抽取的50篇文档组成训练集共计902篇测试文档。
B.谭松波整理的中文文本分类语料库-TanCorpV1.0语料库,该语料库分为两个层次,收集文本14150篇,第一个层次为12个类别,本文即从第一层次中与训练文档相关的财经、电脑、体育共3个类别中每个类别随机选取200篇混合组成测试文档。
⑤运行环境
相关实验在一台方正PC上进行,处理器为Intel(R)Core(TM)Duo CPU E7200@2.53HZ,内存为1G,开发环境为Visual Studio2005,开发语言为C#。
⑥考查参数
目前信息过滤和文本分类中普遍使用的性能评估指标为准确率(Precision,简记为p)、召回率(Recall,简记为r)。对于文档类中的每一个类别,使用列联表(Contingency Table)来计算召回率和准确率。
  属于该类的文档数   不属于该类的文档数
  判断为该类文档数   a   b
  判断不属该类文档数   c   d
表2单类列联表(Contingency Table)
此时,准确率(Precision)、召回率(Recall)定义如下:
p = a a + b r = a a + c - - - ( 6 )
上述列联表只能对单个类别分类效果进行评估,如果要对分类性能做一个全面评价,通常引入宏平均概念,其计算方式为现对每个类计算p和r值,然后对所有类求其平均值,即:
r &OverBar; = &Sigma; 1 | c | r c | c | p &OverBar; = &Sigma; 1 | c | p c | c | - - - ( 7 )
4.实验结果分析
本发明主要从文本分类和信息过滤两个方面进行比较。
  财经   电脑   体育   暴力
  79.969   74.364   75.211   96.053
  环境   经济   计算机   色情
  83.345   91.585   87.468   98.446
表3在测试数据1上的各类准确率(%)
上述实验数据中,暴力、色情、经济以及环境取得了较好的准确率,而农业、政治类相对较差,分析发现,上述两种类别中,其测试和训练文档中文章存在一些相似之处,例如政治类别往往包含到经济、环境、农业等因素,因此造成其准确率较低,因此,实际应用过程中,需要对训练数据进一步细化分类,使分类效果在这些类别上有所提高。
由于上述实验数据中存在较大差别,因此,为考察该方法分类效果,应用了上述测试方法中的宏平均评价方式,经计算,上述数据平均准确率为p=85.810,将该数据同近年来在Reuters-21578上的几种基本方法进行了比较,其比较数据如图4所示。图4中,IM代表文中所叙述方法Improve method,NB表示Naive Bayes方法,DT表示Decision Tree方法,KNN表示最近邻分类方法,而SVM为支持向量机,上述几组数据系近年来报道的在Reuters-21578语料的最好分类效果。
上述实验数据中,该改进的计算方法能够取得较好的效果,但是,不能排除上述实验结果是在数据1的基础上得到的,因此,必然存在一定的过度拟合问题,因此设计了应用上述第二组测试数据进行了进一步测试,其分析数据如下:
  体育   财经   电脑
  准确率   46.154   90.697   84.314
  查全率   79.969   75.000   82.690
表4在测试数据2上的准确率比较(%)
上述实验数据中,就准确率来讲,其中电脑财经类与封闭测试虽然略有下降,但是相差不大,而体育类则具有较大差距,究其原因,分析训练文档和测试文档即可发现,原训练文档中有关体育类中均属于体育理论研究,而测试文档则来源于网络,因此二者具有较大差距。
鉴于本发明目的在于应用到基于内容的WEB信息过滤中,因此设计该试验将上述分类器应用于WEB信息过滤的测试实验。试验中将实验室测试数据1划分成了两个大类,即合法文档和非法文档,其中的非法文档由测试数据1中的色情和暴力文档组成,而合法文档则由其他六个类别随机选取组成,实验数据构成以及测试结果如下:
  文档数   有效过滤   准确率(%)
  色情   300   293   97.67
  合法   300   257   85.67
表5过滤效果测试统计数据
从上表可以看出,本发明设计的方法表现了较好的过滤效果,同时,从表中也可以看出,非法文档等具有鲜明特色的类别具有更好的分类效果,而最终要过滤的就是该类不良信息。
本发明涉及的方法和系统,能够有效改进传统文本信息过滤效果,提高过滤的准确率,是一种有效地方法,系统设计已经加以应用,具有良好的应用价值。

Claims (6)

1.一种基于模糊遗传算法的中文WEB信息过滤方法,其特征在于:所述过滤方法包括如下步骤:
Step1:利用文本训练集,采用模糊遗传算法简历过滤模版;
Step2:截获WEB数据包并解析,从中提取有效的文本信息;
Step3:在获取的有效信息中提取网址信息、关键词信息以及中文域名信息,应用URL过滤、关键词过滤以及内容过滤的三层过滤机制进行初步过滤,返回过滤结果;
Step4:将Step3中没有过滤掉的文本信息进行切词、去除停用词处理,并进行层次聚类,形成基于概念的逻辑段落,并计算特征项权重;
Step5:将Step4中的处理结果同过滤模版进行相似度匹配,返回匹配结果;
Step6:综合Step3的过滤结果以及Step5中的匹配结果,确定所获取的文本信息是否被过滤,并将为被过滤的信息重组为网页提交给用户,将被过滤的网页信息直接屏蔽;
Step7:利用反馈方法、结合用户反馈信息对过滤结果进行反馈,更新Step5中的过滤模板。
2.一种基于模糊遗传算法的中文WEB信息过滤方法,其特征在于:所述Step1中的模糊遗传算法主要分为种群、交叉率和变异率的模糊调整三部分:
(1)使用下面的公式计算个体寿命:
Figure FSA00000038313300011
其中lifetime[i]为第i个个体的寿命,fitness[i],avg_fitness,best_fitness和wrost_fitness分别为第t代中第i个个体的适应度值、种群的平均适应度值、种群中最好适应度值和种群中最差适应度值,max_lifetime,min_lifetime分别为在允许空间内预先设置的最大寿命、最小寿命;
(2)使用下面的公式动态计算交叉率:
temp=max_pc×2(-t/max gen)
其中temp是中间计算变量,max_gen是预设的最大进化代数,max_pc,min_pc分别是预设的最大交叉率、最小交叉率,t是当前进化代数;
(3)使用下面的公式计算变异率:
X = - | max _ fitness - fitness [ i ] max _ fitness |
temp = e X &times; 1 1 + t max _ gen &times; max _ pm
Figure FSA00000038313300023
其中X,temp是中间计算变量,max_fitness,fitness[i]及max_gen分别是当前代中最大适应度值、待变异个体的适应度值及预设的最大代数,max_pm、min_pm分别是预设的最大变异率和最小变异率,t为当前进化代数,pm为当前代中个体的变异率。
3.一种基于模糊遗传算法的中文WEB信息过滤方法,其特征在于:所述Step4中的层次聚类,应用如下方法计算:
设文本T具有n个自然段,K个层次,用H表示文本层次,P表示自然段,则有如下组成关系:
H 1 H 2 . . . H k = ( P i 1 . . . P i 2 - 1 ) ( P i 2 . . . P i 3 - 1 ) , . . . ( P i k . . . P i k + 1 - 1 ) , 其中i1=1<=i2<=...ik<=ik+1-1=n;
设文本T的特征向量为(c1,c2,...,cm)则设P1=(ωi1,ωi2…ωim)为第i段的特征向量,其中ωij是概念c在第i段中概念密度;
将n个段落划分为K个层次,则所有可能的分法共有Cn-1 K-1种,设S(n,K)是任一种分法,其中:S(n,K)={i1=1,i1+1,...,i2-1},...,{ij,ij+1,...ij+1-1},...,{iK,iK+1,...,n};
有序聚类就是寻找一种分法使K个层次内差异尽可能小,而层次间的差异尽可能大;设D(ij,ij+1-1)表示第j层内的差异量,则误差函数为:
E ( S ( n , K ) ) = &Sigma; j = 1 K ( i j , i j + 1 - 1 ) ;
为了使上述总体误差函数达到最小,寻求最优的K分法,相当于把n个段落分成两个部分,将前一部分进行最优K-1分法,然后再考虑后一部分的误差,由此寻找到最优K分法;
设S(n,K,cK)是使总体误差函数达到最小的分法,其中cK是上述最佳分法的分割点ik,则有如下递推公式:
E(S0(n,K,cK))=min{E(S0(iK-1,K-1,cK-1)+D(iK,n))};
文本层数的确定关系到文本逻辑结构的建立,它可以通过给定阈值l,当|E(S(n,K+1)-E(S(n,K))|<=l时,则最优层数为K。
4.一种基于模糊遗传算法的中文WEB信息过滤方法,其特征在于:所述Step4中计算特征项权重,采用了综合文档权重、段落权重以及特征项自身权重的综合计算方法,该权重计算方法由如下公式计算:
KW i = w i * &Sigma; s t i * &delta; i &Sigma; s t i * WT * WS + Die ;
在上述计算公式中:WT表示段落权重,且WTi是该文档包含的第i个特征项的权重,N是指特征项在文档中的分布密度,即密集程度;WS表示句子权重,且KWi是该句子或段落中包含的第i个特征项的权重,TFi是该特征项在这篇文档中出现的频率,IDFi是该特征项在文档中出现的逆频率,D是指特征项在句子或段落中的分布密度;其中在
Figure FSA00000038313300034
中,设特征项i的位置权重为δi,由于该权重计算基础为经过聚类的逻辑段落,因此去掉相关网页附加信息,设文档D所有段落权重和
Figure FSA00000038313300035
其中0表示标题文本,wi表示单个权重,
Figure FSA00000038313300036
表示所有段落权重之和。
5.一种基于模糊遗传算法的中文WEB信息过滤方法,其特征在于:所述Step5中相似度匹配过程采用余弦方法:
sim ( C , D ) = cos &theta; = C . D | | C | | . | | D | | = &Sigma; i = 1 n U i W i &Sigma; i = 1 n U i 2 &Sigma; i = 1 n W i 2
设定过滤阀值l当sim(C,D)≥l其D所对应的内容符合用户兴趣,应该提交到结果文档数据库,否则,不予提交;在上述计算公式中,C和D表示两个向量,sim(C,D)表示两个向量C和向量D之间的相似度,Ui和Wi分别表示向量C和向量D的一个分量。
6.一种基于模糊遗传算法的中文WEB信息过滤方法,其特征在于:所述Step7中的反馈方法,应用一种利用反馈文档动态修改类别模板方法,实现过滤模板的动态调整,该方法主要过程如下:
设某一个初始类别模板为P(p1,p2,p3,...,pn),反馈集为Fi,文档相似度的前m篇文档集观察窗口w,每次学习都从观察窗w中正例文档中发现新特征词;
A.先设置一个初始反馈过滤阈值
Figure FSA00000038313300041
,在系统使用过程中,将所有大于该阈值的文档和相应的相似度值保存到相应的反馈类别文件夹下;
B.当使用一段时间后,就进行反馈,把反馈类别文件夹下的所有的文档,按照相似度大小排序,取前m篇文档作为我们反馈的文档,计算这m篇文档的中心向量D(d1,d2,d3,...,dn),再求出此中心向量和类别向量的差S(s1,s2,s3,...,sn),其中,si=di-pi,根据下面公式修改模板相应特征项的权重:
p i new = p i old + I * s i ,
式中,pi new是修改后的第i特征项的权重,pi old为类别模板中修改前的第i特征项的权重,α为修改因子,I是一个线性临界值函数,定义如下:
I = 1 if | s i | &GreaterEqual; &phi; , 0 if | s i | < &phi; . ,
式中,φ是定义特征项在原类别特征权重上上下波动的阈值;
C.从观察窗口中统计新出现的特征词,作为候选特征词,并计算其权重,按从大到小的顺序排序,抽取适量的特征词来扩展模板,新特征词数量用下面公式来计算,然后将观察窗口中所有的非伪正例文档标记为伪正例文档:
N = 0 if n = m , 2 * lg ( n + 1 ) if n < m .
式中,N是我们增加特征词的数量,n是特征窗口中,正例文档的数量,m为观察窗口中文档的数量;
D.将观察窗口之外所有的文档都删除掉,然后将反馈过滤阈值提高为第m篇文档的相似度值,然后将这些文档重新再与模板比较一下,修改相似度值,本次反馈结束。
CN201010106201A 2010-02-05 2010-02-05 一种基于模糊遗传算法的中文web信息过滤方法 Pending CN101814086A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010106201A CN101814086A (zh) 2010-02-05 2010-02-05 一种基于模糊遗传算法的中文web信息过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010106201A CN101814086A (zh) 2010-02-05 2010-02-05 一种基于模糊遗传算法的中文web信息过滤方法

Publications (1)

Publication Number Publication Date
CN101814086A true CN101814086A (zh) 2010-08-25

Family

ID=42621341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010106201A Pending CN101814086A (zh) 2010-02-05 2010-02-05 一种基于模糊遗传算法的中文web信息过滤方法

Country Status (1)

Country Link
CN (1) CN101814086A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101976253A (zh) * 2010-10-27 2011-02-16 重庆邮电大学 一种中文变异文本匹配识别方法
CN102426599A (zh) * 2011-11-09 2012-04-25 中国人民解放军信息工程大学 基于d-s证据理论的敏感信息检测方法
CN103150371A (zh) * 2013-03-08 2013-06-12 北京理工大学 正反向训练去混淆文本检索方法
CN103258000A (zh) * 2013-03-29 2013-08-21 北界创想(北京)软件有限公司 对网页中高频关键词进行聚类的方法及装置
CN103838710A (zh) * 2012-11-22 2014-06-04 中国移动通信集团公司 基于关键词权值的文本过滤方法与系统
CN104202444A (zh) * 2014-09-26 2014-12-10 上海斐讯数据通信技术有限公司 一种外部访问控制方法、网关及dns服务器
CN105069560A (zh) * 2015-07-30 2015-11-18 中国科学院软件研究所 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法
CN105610909A (zh) * 2015-12-21 2016-05-25 北京大学 一种基于云-端协同的移动浏览器资源加载优化方法
CN105787088A (zh) * 2016-03-14 2016-07-20 南京理工大学 一种基于分段编码遗传算法的文本信息分类方法
CN103838710B (zh) * 2012-11-22 2016-11-30 中国移动通信集团公司 基于关键词权值的文本过滤方法与系统
CN103853720B (zh) * 2012-11-28 2017-04-26 苏州信颐系统集成有限公司 基于用户关注度的网络敏感信息监控系统及方法
US9755616B2 (en) 2014-06-30 2017-09-05 Huawei Technologies Co., Ltd. Method and apparatus for data filtering, and method and apparatus for constructing data filter
CN107193868A (zh) * 2017-04-07 2017-09-22 广东精点数据科技股份有限公司 一种数据质量问题报告系统
CN108121693A (zh) * 2016-11-29 2018-06-05 珠海金山办公软件有限公司 一种幻灯片美化方法及装置
CN109977227A (zh) * 2019-03-19 2019-07-05 中国科学院自动化研究所 基于特征编码的文本特征提取方法、系统、装置
CN110110195A (zh) * 2019-05-07 2019-08-09 宜人恒业科技发展(北京)有限公司 一种杂质清除方法及装置
CN113704480A (zh) * 2021-11-01 2021-11-26 成都我行我数科技有限公司 一种智能最小库存量单位匹配方法

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101976253B (zh) * 2010-10-27 2013-03-06 重庆邮电大学 一种中文变异文本匹配识别方法
CN101976253A (zh) * 2010-10-27 2011-02-16 重庆邮电大学 一种中文变异文本匹配识别方法
CN102426599A (zh) * 2011-11-09 2012-04-25 中国人民解放军信息工程大学 基于d-s证据理论的敏感信息检测方法
CN103838710B (zh) * 2012-11-22 2016-11-30 中国移动通信集团公司 基于关键词权值的文本过滤方法与系统
CN103838710A (zh) * 2012-11-22 2014-06-04 中国移动通信集团公司 基于关键词权值的文本过滤方法与系统
CN103853720B (zh) * 2012-11-28 2017-04-26 苏州信颐系统集成有限公司 基于用户关注度的网络敏感信息监控系统及方法
CN103150371A (zh) * 2013-03-08 2013-06-12 北京理工大学 正反向训练去混淆文本检索方法
CN103150371B (zh) * 2013-03-08 2016-06-29 北京理工大学 正反向训练去混淆文本检索方法
CN103258000A (zh) * 2013-03-29 2013-08-21 北界创想(北京)软件有限公司 对网页中高频关键词进行聚类的方法及装置
US9755616B2 (en) 2014-06-30 2017-09-05 Huawei Technologies Co., Ltd. Method and apparatus for data filtering, and method and apparatus for constructing data filter
CN104202444A (zh) * 2014-09-26 2014-12-10 上海斐讯数据通信技术有限公司 一种外部访问控制方法、网关及dns服务器
CN104202444B (zh) * 2014-09-26 2017-11-28 上海斐讯数据通信技术有限公司 一种外部访问控制方法、网关及dns服务器
CN105069560B (zh) * 2015-07-30 2018-05-01 中国科学院软件研究所 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法
CN105069560A (zh) * 2015-07-30 2015-11-18 中国科学院软件研究所 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法
WO2017107568A1 (zh) * 2015-12-21 2017-06-29 北京大学 一种基于云-端协同的移动浏览器资源加载优化方法
CN105610909A (zh) * 2015-12-21 2016-05-25 北京大学 一种基于云-端协同的移动浏览器资源加载优化方法
CN105610909B (zh) * 2015-12-21 2019-01-18 北京大学 一种基于云-端协同的移动浏览器资源加载优化方法
CN105787088A (zh) * 2016-03-14 2016-07-20 南京理工大学 一种基于分段编码遗传算法的文本信息分类方法
CN105787088B (zh) * 2016-03-14 2018-12-07 南京理工大学 一种基于分段编码遗传算法的文本信息分类方法
CN108121693A (zh) * 2016-11-29 2018-06-05 珠海金山办公软件有限公司 一种幻灯片美化方法及装置
CN107193868A (zh) * 2017-04-07 2017-09-22 广东精点数据科技股份有限公司 一种数据质量问题报告系统
CN107193868B (zh) * 2017-04-07 2021-04-20 广东精点数据科技股份有限公司 一种数据质量问题报告系统
CN109977227A (zh) * 2019-03-19 2019-07-05 中国科学院自动化研究所 基于特征编码的文本特征提取方法、系统、装置
CN110110195A (zh) * 2019-05-07 2019-08-09 宜人恒业科技发展(北京)有限公司 一种杂质清除方法及装置
CN113704480A (zh) * 2021-11-01 2021-11-26 成都我行我数科技有限公司 一种智能最小库存量单位匹配方法

Similar Documents

Publication Publication Date Title
CN101814086A (zh) 一种基于模糊遗传算法的中文web信息过滤方法
CN102622373B (zh) 一种基于tf*idf算法的统计学文本分类系统及方法
CN104951548A (zh) 一种负面舆情指数的计算方法及系统
Jin et al. Patent maintenance recommendation with patent information network model
CN101763431A (zh) 基于海量网络舆情信息的pl聚类处理方法
CN110516074A (zh) 一种基于深度学习的网站主题分类方法及装置
CN112199508A (zh) 一种基于远程监督的参数自适应农业知识图谱推荐方法
Kim et al. Collaborative filtering with a user-item matrix reduction technique
Kawamura et al. A hybrid approach for optimal feature subset selection with evolutionary algorithms
Boughanem et al. On using genetic algorithms for multimodal relevance optimization in information retrieval
Jin et al. Heterformer: Transformer-based deep node representation learning on heterogeneous text-rich networks
CN113742396A (zh) 一种对象学习行为模式的挖掘方法及装置
Xu et al. A deep neural information fusion architecture for textual network embeddings
Cummins et al. Evolving general term-weighting schemes for information retrieval: Tests on larger collections
Pourhabibi et al. Feature selection on Persian fonts: a comparative analysis on GAA, GESA and GA
Cahya et al. Deep Feature weighting based on genetic algorithm and naïve bayes for twitter sentiment analysis
Liu et al. A hybrid algorithm for text classification problem
Pita et al. Strategies for short text representation in the word vector space
Ma The Research of Stock Predictive Model based on the Combination of CART and DBSCAN
Afif et al. Genetic algorithm rule based categorization method for textual data mining
Ma et al. Efficient opinion summarization on comments with online-LDA
Kaur et al. Blog response volume prediction using adaptive neuro fuzzy inference system
Chen A novel page clipping search engine based on page discussion topics
Devi et al. Extended correlated principal component analysis with SVM-PUK in opinion mining
Vishwakarma et al. Text Classification Using FP-Growth Association Rule and Updating the Term Weight

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20100825