CN102982154A

CN102982154A - 一种中文网页语义过滤方法

Info

Publication number: CN102982154A
Application number: CN2012105016539A
Authority: CN
Inventors: 刘杰; 吴敏华; 骆力明; 李冬乐; 顾卓蓉
Original assignee: Capital Normal University
Current assignee: Capital Normal University
Priority date: 2012-11-30
Filing date: 2012-11-30
Publication date: 2013-03-20

Abstract

鉴于各种不良网页对互联网用户的影响以及现今流行的多种网页过滤软件在自然语言的多义性和同义性以及语义的约束性方面有着一定的局限性，本发明提出了一种中文网页语义过滤方法，该方法首先根据正反例领域网页计算领域特征词的权重，建立领域特征词库并制作领域本体，根据正例文本得到本体元素权重库；然后利用修改后的代理服务器抓取网页并使用贝叶斯分类算法得到候选网页；最后根据领域本体对候选网页进行语义相关度计算并进行网页过滤。该方法可以区分同领域网页中的正反例网页并可兼顾网页过滤的实时性。通过大量游戏领域网页的测试，该方法正确识别率在98％以上，效果令人满意，满足用户的使用需求。

Description

一种中文网页语义过滤方法

技术领域

本发明涉及一种中文网页语义过滤方法，属人工智能领域。

背景技术

随着互联网的飞速发展，网络在成为人们获取信息源泉的同时，网页上的不良信息随之泛滥，如何进行信息的监控和过滤成为了新的研究课题。现今流行的过滤软件多采用网址数据库匹配和网页内容关键词统计等实时过滤技术。这些方法虽然简单有效，但是由于仅基于文本的简单匹配而忽略了中文自然语言词语的多义性和语义约束，无法有效识别网页的语义倾向性信息，有时会出现误判和漏判，降低了过滤的准确率。对此，本发明提出了一种基于文本语义的网页过滤技术，使用贝叶斯分类算法分析网页特征，并对拦截的领域网页结合领域本体进一步计算语义相关度并决定是否屏蔽该网页。贝叶斯分类算法改进了文本的匹配方式，原理简单，健壮性强，算法速度快。本体作为领域的知识库，可以有效表示领域的语义信息，并进行文本语义相似度计算。

发明内容

本发明提出并实现了一种中文网页语义过滤方法，该方法能有效并高速地过滤不良网页，满足用户的使用需求。

本发明通过下述技术方案完成：

(1)利用代理服务器机制，为浏览器配置改进后的代理服务器，实现网页的抓取。

(2)根据正例网页和反例网页计算特征词的权重，建立领域特征词库并制作领域本体。

(3)根据正例文本计算本体元素在网页各部分的权重，得到本体元素权重库。

(4)从网络应用层截取网页，根据贝叶斯分类算法确定候选网页

(5)对候选网页进行语义相关度计算并进行网页过滤，获得过滤后的网页。

所述步骤(1)代理服务器的配置具体配置过程为：

在windows操作系统中，打开浏览器，选择工具->选项->网络连接->代理服务器设置->设置本地代理服务器的ip和端口如本例(127.0.0.1∶808)。那么浏览器程序就会在提交请求时，将请求发送到本地的808端口，在本地启动一个监听808端口的代理服务器程序，将所有的处理写在代理服务器程序中，这样就能顺利的截获到本地所请求的Internet页面，并且传送给自然语言处理模块分析处理。

脚本代理的具体内容如下：

function FindProxyForURL(url，host)

{

url＝url.toLowerCase()；

host＝host.toLowerCase()；

if(shExpMatch(url，“*.css*”)){return“DIRECT”；}

if(shExpMatch(url，“*.jpg*”)){return“DIRECT”；}

if(shExpMatch(url，“*.gif*”)){return“DIRECT”；}

if(shExpMatch(url，“*.js*”)){return“DIRECT”；}

if(shExpMatch(url，“*.png*”)){return“DIRECT”；}

if(shExpMatch(url，“*.swf*”)){return“DIRECT”；}

if(shExpMatch(url，“*.ico*”)){return“DIRECT”；}

if(shExpMatch(url，“*.flv*”)){return“DIRECT”；}

return“PROXY localhost：808”；

}

其要表达的意思是：如果网页中URL中存在”.css”“.jpg”“.gif“.js”“.png”“.swf”“.ico”等字样，则直接让浏览器访问internet，而其他的url就会将请求发送到localhost：808。因为对于用户来说，希望得到一个流畅的网页浏览速度以及高效的网页过滤效果，以上代理服务器的修改能够让如css，jpg，js，script等与自然语言过滤无关的http请求直接访问internet，而相关的页面的请求，需要浏览器发送到代理服务器，经由代理服务器，向internet请求，并且这部分的内容会被过滤系统检查，并返回给用户。在理想状态下，系统给每一个网页都只会分配线程，这个线程就是浏览器向代理服务器提出的访问web page的请求，由于其他的请求都经由配置文件设定，由浏览器直接从internet处获得，所以只需要再从代理服务器端获得webpage，就可正常显示这个页面。

这种改进不仅降低了代理服务器端的工作压力，而且有效缩短了用户的页面等待时间，保证网页浏览的流畅性，不会造成用户页面需要显示的元素丢失的情况。

所述步骤(2)特征词权重的计算和领域本体的建立过程具体如下：

1.领域特征词提取

A.网页爬虫

采用htmlCleaner为分析工具，根据用户输入的初始搜索页面进行链接的提取和页面的搜索。

B.网页正文信息提取

根据爬虫所获得的网页的URL，对网页进行解析。提取出该网页的编码格式，并以此为依据，分析出其网页其他标签，如MetaDescription，MetaKeyWord，title，image...等等信息，剔除网页的无用信息，提取出网页的正文内容。

C.文本信息进行预处理

在文本中，词是最小的能够独立活动的有意义的词语成分。在领域词汇提取过程中，利用中科院ICTCLAS系统对领域文本集进行分词及词性标注，接着去除停用词，例如“是”、“的”、“与”这些无用的高频词。最后去除数量词并进行单字合并，合并后的新词作为候选的领域术语。

2.计算候选词语的C-value值和TF-IDF值确定候选词并建立领域特征词库

A.C-value值计算：

通过单字合并法得到大量的领域的候选词仍旧包含与领域无关的词语，甚至还包含了一些没有任何意义的词语，通过计算每个候选术语的C-value值的方法，对候选术语的C-value值进行排序，设定阈值对候选术语进行过滤，选出有实际汉语意思的词。C-value的定义为：

①如果词a没有任何可能在文档中与其他单字或词组成新的合并词，那么它的C-value值的计算公式如下公式(1)：

C-value(a)＝log2g(a)×f(a) (1)

②如果词a在文档中与其他单字或词有可能组成新的合并词，那么它的C-value值计算公式如公式(2)：

C-value(a)＝log2g(a)×(f(a)-1/p(Ta)×∑b∈Taf(b)) (2)

其中，a为词；g(a)为词a所包含的单字个数；f(a)为候选术语a在文本语料中出现的次数；Ta为包含词a的更长的合并词；p(Ta)为那些由词a和单字组成的新的合并词的个数；∑b∈Taf(b)为那些由词a和单字组成的新的合并词出现的总次数。

一个候选词语的C-value值越大，那么它成为一个词的可能性越大。

B.TF-IDF值计算：

由于C-value本身只能对词的正确性进行一定的筛选，缺乏对词是否是领域类别信息的处理，无法将与领域无关的词排除在语料库外，对于这些无关词，本发明使用TF-IDF算法进行排除。计算方法如下公式(3)：

TF-IDF＝∑tf_ij×log(n/df_i) (3)

其中，df_i表示第i个词在n篇文档中出现的次数，tf_ij表示第i个词在第j篇文档中出现的次数。

通过TF-IDF的乘积计算，可以提取那些真正代表专业领域特性，使得那些常用的普通词受到抑制，建立起领域特征词库。

3.领域本体的建立

以游戏领域为例，构建的领域本体包括两个部分，一部分是过滤部分，即符合这部分本体语义关系的网页是需要过滤的网页；另一部分是非过滤部分，即符合这部分本体语义关系的网页是提交给用户的网页。

所述步骤(3)本体元素权重的计算具体过程为：

设正例网页类别使用C₁表示，反例网页类别用C₂表示。考虑词频和特征项在网页类别中的分布情况，特征项t_i在C₁中的权重计算方法如下：

w_{i 1} = \frac{\ln (Σ_{i = 1}^{m} h_{i} \cdot f_{i} + 1.05) \cdot {tf}_{i 1} \cdot {df}_{i 1} \cdot {idf}_{i 2}}{\sqrt{Σ_{k = 1}^{n} \ln {(Σ_{i = 1}^{m} h_{i} \cdot f_{i} + 1.05)}^{2} \cdot ({tf}_{k 1}^{2}) \cdot ({df}_{k 1}^{2}) \cdot ({idf}_{i 2}^{2})}} - - - (4)

式中，m为网页标签类别数，n为特征项总数，分母起归一化作用。h_i表示相应页面标签对应的权重值，如出现在网页title中的特征项，附加的权重值为6；f_i表示t_i在页面标签中出现的次数。

t_i1表示特征项t_i出现在网页类别C₁中的次数，term S₁表示C₁中的特征项总数；

n_i1表示类别C₁中包括t_i的网页总数；S₁表示类别C₁中的网页总数。

该公式中参数的解释与上类同。为了避免对数取值为0或无效的情况，加入了调节因子1.05。

所述步骤(4)利用Bayes的候选网页获取具体过程为：

在领域网页过滤中，网页仅分为两类，即正例网页和反例网页，正例网页为待过滤的领域网页，反例网页为其他领域的网页。Bayes分类器常用于文本分类，假设网页中词的分布相互独立，使用Bayes分类器获取候选网页的步骤如下：

1.在新网页到达时，根据特征项分词，然后根据贝叶斯分类算法计算该网页属于类别C_i(正例网页)的概率。

贝叶斯分类器的数学形式如下：

p (C_{i} | D_{j}) = \frac{p (C_{i}) p (D_{j} | C_{i})}{p (D_{j})} - - - (5)

在公式(5)中，C_i表示某一类别，D_j表示未知类别的网页。在具体的网页分类中，类别只有两类，即正例网页和反例网页，用j＝1，2分别表示。在计算p(C₁|D_j)时，分子中的p(C₁)是固定值，对权重的比较没有影响，可以忽略。因此在计算新网页属于正例网页的概率时，公式(5)可以转化为：

P (C_{1} | w_{1}, w_{2}, w_{3}, . . ., w_{n}) = \frac{Π_{i = 1}^{n} p (C_{1} | w_{i})}{Π_{i = 1}^{n} p (C_{1} | w_{i}) + Π_{i = 1}^{n} (1 - p (C_{1} | w_{i}))} - - - (6)

式中，w₁，w₂，w₃，...，w_n为D_j的特征项。

2.根据公式(6)和阈值，对新网页分类，得到候选网页。

所述步骤(5)候选网页语义过滤具体过程为：

以游戏网页为例，候选网页可能是介绍游戏的网页，也可能是批驳游戏的网页，也可能是不相关网页，这些可能性通过基于本体的语义相关度计算确定。

领域本体分过滤本体和非过滤本体，分别按照这两部分本体对候选网页进行语义相关度计算。首先抽取网页的本体元素，然后按照本体元素在网页标签赋予相应的权重，文中用到的网页标签包括：网页在一个网站中的相对路径文本，主题文本，关键词文本，正文文本，链接文本，按照其重要性分别赋予其权重为α₁，α₂，α₃，α₄，α₅，满足

详尽的句法语义分析能提高语义计算的准确率，但是为了保证网页浏览的实时性，本发明不对网页文本进行详尽的语义分析，仅以句子和每个链接为单位统计本体各元素是否在句子中存在，统计的本体元素包括本体的非分类关系R，概念C，实例I，属性P。

基于语义的过滤步骤如下：

1.以句子和链接为单位，分别抽取过滤本体和非过滤本体的R，C，I，P数量，R按自由搭配的原则统计，由于汉语句子表达的灵活性，只要存在非分类关系的三元组(AB C)中的(B，C)，即视为一个非分类关系；

2.按公式(7)分别计算T_filtering和t_{non-filtering}；

T = Σ_{j = 1}^{5} Σ_{i = 1}^{n} α_{j} (Σ (w_{R} \cdot h_{w_{R}} + w_{C} \cdot h_{w_{C}} + w_{I} \cdot h_{w_{I}} + w_{P} \cdot h_{w_{P}})) / N_{terms} - - - (7)

式中N_terms表示解析的总词数，w_R，w_C，w_I，w_P分别表示本体中每个的非分类关系R，概念C，实例I，属性P；

分别表示领域特征词库中本体元素的权重，

按三元组(A B C)中A和B的权重之和计算。

3.如果T_filtering＞T_{non-filtering}＞δ，屏蔽该网页；否则提交给用户。公式中的δ为判断该网页是否游戏相关网页的阈值。

附图说明

图1是本发明的代理服务器图解。

图2是本发明的部分游戏本体。

图3是本发明的流程图

具体实施方式

针对提出的以上方法，我们在游戏领域进行了实验验证，主要步骤如下：

步骤1：配置代理服务器：打开浏览器，选择工具->选项->网络连接->代理服务器设置，设置本地代理服务器的ip和端口为127.0.0.1∶808。启动一个监听808端口的代理服务器程序，将所有处理写在代理服务器程序中。配置脚本代理：打开浏览器->工具->选项->连接选择脚本代理，注明脚本代理的路径。脚本代理的具体内容如下：

function FindProxyForURL(url，host)

{

url＝url.toLowerCase()；

host＝host.toLowerCase()；

if(shExpMatch(url，“*.css*”)){return“DIRECT”；}

if(shExpMatch(url，“*.jpg*”)){return“DIRECT”；}

if(shExpMatch(url，“*.gif*”)){return“DIRECT”；}

if(shExpMatch(url，“*.js*”)){return“DIRECT”；}

if(shExpMatch(url，“*.png*”)){return“DIRECT”；}

if(shExpMatch(url，“*.swf*”)){return“DIRECT”；}

if(shExpMatch(url，“*.ico*”)){return“DIRECT”；}

if(shExpMatch(url，“*.flv*”)){return“DIRECT”；}

return“PROXY localhost：808”；

}

步骤2：采用htmlCleaner为分析工具，根据用户输入的初始搜索页面进行连接提取和页面的搜索。提取获得网页的URL以及该网页的编码格式，并以此为依据，分析出其网页标签，MetaDescription，MetaKeyWord，title，image…等信息，剔除网页无用信息，提取出网页的正文内容并对其进行分词和词性标注，加载停用词词典，根据词性标注的结果，进行数词和量词的过滤。使用单字合并法对散串进行适当处理，判断文本中的单字能否进行合并组成词，并把合并后的新词作为候选的领域术语。例如：”冰/n法/j菜刀/n恶梦/n操作/v好/a意识/n强/a玩/v近/a站/n玩/v”，则将会提取出的候选词条为：冰法、强玩近站玩、玩近站玩、近站玩、玩近站、玩近、近站、站玩…计算候选词语的C-value值和TF-IDF值得到领域特征词。

步骤3：构建网页实例集，包含12192篇网页，其中游戏类网页1771篇，反例网页10421篇，涉及财经，军事，娱乐，教育，体育，社会，股票，医学等十个领域。利用这些网页以及步骤2中得到的领域特征词构建游戏领域特征词库并构建游戏领域本体。构建的游戏领域特征词库包括352个词。

步骤4：对游戏领域本体进行编辑、构建。试验中，对游戏本体构建了Assignment、Construction、Equipment、Experience、Hero、Inhesion等18个类，及equipment_increase、hero_has、hero_kill、hero_learn、skill_kill等10多个领域对象属性，以及近百个类实例。

本体中主要的类、属性、关系等如下表。

表1本体结构中的类

英文标识	中文标识
		Assignment	任务
Construction	建筑
		Equipment	装备
Experience	经验
		Game	游戏
Grade	等级
		Hero	英雄
Inhesion	天赋

Locus	地点
		Money	金钱
Monsters	怪兽
		Profession	职业
Property	属性
		Race	种族
Skill	技能

表2部分对象属性列表

表3数据属性列表

数据属性	DOMAIN	RANGE
			moneyValue	Money	String
gradeValue	Grade	int
			game_active_des_value	game_active_des	String
game_negtive_des_value	game_negtive_des	String
			experienceValue	experience	int

步骤5：针对游戏领域，对网页语义过滤方法进行实验，获得过滤后的网页。

考虑到门户网站较多的链接以及实时性问题，本发明约定：在100到200之间的连接以及大于200的链接，分别间隔取其1/3，1/5的链接文本。另外，考虑到“百度知道”之类的网页正文文字较多，约定：大于1千字的正文，大于2千字的正文，大于1万字的正文，除首尾段外，分别间隔取其1/10，1/20，1/100的句子。

以句子和链接为单位，分别抽取过滤本体和非过滤本体的R，C，I，P数量，R按自由搭配的原则统计，由于汉语句子表达的灵活性，只要存在非分类关系的三元组(A B C)中的(B，C)，即视为一个非分类关系；

按公式(1)分别计算T_filtering和T_{nom-filtering}；

T = Σ_{j = 1}^{5} Σ_{i = 1}^{n} α_{j} (Σ (w_{R} \cdot h_{w_{R}} + w_{C} \cdot h_{w_{C}} + w_{I} \cdot h_{w_{I}} + w_{P} \cdot h_{w_{P}})) / N_{terms} - - - (1)

式中N_terms表示解析的总词数，w_R，w_C，w_l，w_P分别表示本体中每个的非分类关系R，概念C，实例I，属性P；

分别表示领域特征词库中本体元素的权重，

按三元组(A B C)中A和B的权重之和计算。

最后根据过滤阈值，如果T_filtering＞T_{non-filtering}＞δ，屏蔽该网页；否则提交给用户。公式中的δ取0.5。

针对游戏领域的网页测试：在对4606个网页的阶段测试中，其中有关游戏页面1468个，介绍游戏的网页1316个，反对网络游戏的网页152个，非游戏领域测试预设页面为2238个。通过实验，设定α₁＝0.35，α₂＝0.2，α₃＝0.2，α₄＝0.1，α₅＝0.15时效果最好。实验结果如表4所示。

表4游戏领域网页过滤测试结果

	准确率	召回率
			非游戏网页	98.57％	98.64％
游戏有关网页	99.05％	98.04％
			反对游戏的网页	98.02％	98.68％

以上数据可以看出，利用本发明的网页过滤方法对网页进行过滤达到了很高的准确率，试验中各类网页正确识别率均在98％以上。以上数据说明提出的网页语义过滤方法对于网页的识别率很高，在网页过滤方面有着很好的效果，该发明提出的方法可广泛应用于各领域的网页，可广泛用于家庭、局域网服务器等的信息过滤，有较好的应用价值。

Claims

1.一种中文网页语义过滤方法的实现步骤：

(1)利用代理服务器机制，为浏览器配置改进后的代理服务器，实现网页的抓取；

(2)根据正例网页和反例网页计算特征词的权重，建立领域特征词库并制作领域本体；

(3)根据正例文本计算本体元素在网页各部分的权重，得到本体元素权重库；

(4)从网络应用层截取网页，根据贝叶斯分类算法确定候选网页；

2.根据权利要求1的方法，其特征在于，步骤(1)中利用现有的代理服务器机制，配置代理，对代理服务器进行改进，降低了代理服务器端的工作压力，保证了用户浏览网页的速度，有效实现了网页的抓取，为之后的分析过滤打下基础。

3.根据权利要求1的方法，其特征在于，步骤(2)中对从网页中处理得到的候选领域特征词进行计算，根据计算所得的C-value值和TF-IDF值进行领域特征词的确定并建立领域特征词库，其中，C-value值用来判断该候选词语是否为一个有意义的词，TF-IDF值即特征词的权重，用来确定该词是否为真正能够代表领域特征的特征词汇。

4.根据权利要求1的方法，其特征在于，步骤(2)中领域本体设计为过滤部分和非过滤部分，符合过滤部分本体语义关系的网页是需要过滤的网页，需对其进行语义过滤；符合非过滤部分本体语义关系的网页可直接提交给用户，不进行过滤。

5.根据权利要求1的方法，其特征在于，步骤(3)中本体元素权重计算公式：

w_{i 1} = \frac{\ln (Σ_{i = 1}^{m} h_{i} \cdot f_{i} + 1.05) \cdot {tf}_{i 1} \cdot {df}_{i 1} \cdot {idf}_{i 2}}{\sqrt{Σ_{k = 1}^{n} \ln {(Σ_{i = 1}^{m} h_{i} \cdot f_{i} + 1.05)}^{2} \cdot ({tf}_{k 1}^{2}) \cdot ({df}_{k 1}^{2}) \cdot ({idf}_{i 2}^{2})}}

式中，m为网页标签类别数，n为特征项总数，分母起归一化作用，h_i表示相应页面标签对应的权重值，例如出现在网页title中的特征项，附加的权重值为6；f_i表示t_i在页面标签中出现的次数，t_il表示特征项t_i出现在网页类别C₁中的次数，term S₁表示C₁中的特征项总数；

n_i1表示类别C₁中包括t_i的网页总数；S₁表示类别C₁中的网页总数；

该公式中参数的解释与上类同，为了避免对数取值为0或无效的情况，加入了调节因子1.05。

6.根据权利要求1的方法，其特征在于，步骤(4)利用步骤(1)中改进的代理服务器对网页进行抓取，利用贝叶斯分类算法以及事先确定的阈值对新网页进行分类，得到候选网页。

7.根据权利要求6的方法，其特征在于，根据实际应用需求，将贝叶斯分类器公式

p (C_{i} | D_{j}) = \frac{p (C_{i}) p (D_{j} | C_{i})}{p (D_{j})}

转化为

P (C_{1} | w_{1}, w_{2}, w_{3}, . . ., w_{n}) = \frac{Π_{i = 1}^{n} p (C_{1} | w_{i})}{Π_{i = 1}^{n} p (C_{1} | w_{i}) + Π_{i = 1}^{n} (1 - p (C_{1} | w_{i}))},

这是因为在原公式中C_i表示某一类别，D_j表示未知类别的网页，由于在具体的网页分类中，类别只有正例网页和反例网页两类，故而用j＝1，2分别表示；在计算p(C₁|D_j)时，分子中的p(C₁)是固定值，对权重的比较没有影响，可以忽略，因此可以将原公式转化为新公式：

P (C_{1} | w_{1}, w_{2}, w_{3}, . . ., w_{n}) = \frac{Π_{i = 1}^{n} p (C_{1} | w_{i})}{Π_{i = 1}^{n} p (C_{1} | w_{i}) + Π_{i = 1}^{n} (1 - p (C_{1} | w_{i}))}

其中，w₁，w₂，w₃，...，w_n为D_j的特征项。

8.根据权利要求1的方法，其特征在于，步骤(5)利用构建完成的领域本体对候选网页进行语义分析并进行过滤。

9.根据权利要求8的方法，其特征在于，在语义分析过程中，首先对候选网页中的本体元素进行抽取，并对网页在一个网站中的相对路径文本，主题文本，关键词文本，正文文本，链接文本，按照其重要性分别赋予其权重为α₁，α₂，α₃，α₄，α₅，满足

利用公式

T = Σ_{j = 1}^{5} Σ_{i = 1}^{n} α_{j} (Σ (w_{R} \cdot h_{w_{R}} +

w_{C} \cdot h_{w_{C}} + w_{I} \cdot h_{w_{I}} + w_{P} \cdot h_{w_{P}})) / N_{terms}

计算获得T_filtering和T_{non-filtering}，依次对网页进行过滤，如果T_filtering＞T_{non-filtering}＞δ，屏蔽该网页；否则提交给用户；式中N_terms表示解析的总词数，w_R，w_C，w_I，w_P分别表示本体中每个的非分类关系R，概念C，实例I，属性P；

分别表示特征词库中本体元素的权重，

按三元组(A B C)中A和B的权重之和计算，δ为判断该网页是否游戏相关网页的阈值。