CN101901245A

CN101901245A - 一种基于云语义库的网页审计方法

Info

Publication number: CN101901245A
Application number: CN2010100004964A
Authority: CN
Inventors: 尹志超
Original assignee: LYX Solutions Inc
Current assignee: LYX Solutions Inc
Priority date: 2010-01-15
Filing date: 2010-01-15
Publication date: 2010-12-01

Abstract

该发明是一种基于云语义库的网页审计方法，主要应用于上网信息安全以及上网行为管理等领域。发明运用云技术以及语义分析技术构建云语义库，将上网行为管理系统截获的用户上网的网页内容进行语义分析及词频统计并与云语义库相匹配得出网页分类，并可根据反馈的审计结果对云语义库加以修正。

Description

一种基于云语义库的网页审计方法

技术领域

本发明属于网络安全领域中的重要应用——上网行为管理中的网页审计方法

背景技术

随着网络的普及，学校，企业等各行各业对上网行为管理的需求越来越大，对网络审计提出了更高的要求，传统网页审计方法依靠url分类，但其存在明显的局限性：

1.正确性，网页数量巨大，不可能将所有的url都进行分类，这就不能保证网页审计的正确性。

2.即时性，网页数量增长过快，而url分类库不可能时时更新，因而保证不了网页审计的即时性。本发明基于云技术以及文本聚类技术，通过网页内容对网页进行分类审计，有效的解决了上述问题。

发明内容

传统的网页审计基于url分类库，将从网上获取的url按照预定义的分类标准进行分类并添加到数据库中，通过获取用户浏览的网址与url分类库进行比较得出网页分类。伴随着着网络的普及，信息的泛滥，每天产生数以万计的新网页，传统的网页审计方法受到了极大的挑战，一方面，将所有的网页都一网打尽是一项不可能完成的任务，当用户浏览url分类库中不存在的网页时，就得不到有效的审计结果，另一方面创建及完善url分类库将耗费大量的人力及硬件资源，同时检索庞大的数据库耗时也会增加，势必会对审计设备的效率造成影响。该发明有效的解决了这一问题，提出了一种新的思路，构建了语义库，并借助了现有的新技术--云技术，形成了云语义库，并将其运用在网络审计中，使网络审计只关注网页的内容，而不关心是否是新的url，同时提高了检索的效率。具体内容如下：

1.搭建云平台。

2.应用网络爬虫技术，不断获取网页。

3.在云平台建立分类语义库，每一类别都分为核心词库、非核心词库、停用词库以及出错词库，出错词库用来存放审计结果与实际记过不相符的网页数据。人工初始化核心词库和停用词库，将爬虫爬取的网页进行语义分析，只保留名词和动词并去除停用词，做词频统计，当与某个类别的核心词库的匹配词频(即计算分类语义库中的词在收到的处理数据中出现的频率)之和最大时，将核心词之外的单词按词频排序，取前某特定比例(如前10％)的词语添加到该类别的非核心词库，统计非核心词的计数，以网页为单位，在一个网页出现过，其计数累加1，以此类推，当某一类非核心词库的某个词出现次数达到某最大限定限定次数时，将其添加到核心词库，并定期对出现次数小于最小限定次数的词语进行删除，同时对核心词库进行人工维护，可将出现的新词语添加到所属类别核心词库并且把错误的核心词移动到停用词库。

4.在网页审计时，审计系统将截获用户浏览的网页内容，并对其进行语义分析，并将这些处理数据发送到云平台，在云平台下遍历分类语义库，并和收到的处理数据做匹配词频统计，该网页的分类即为匹配词频统计之和最大的分类语义库所对应的分类，并分类记录审计过的网页数。

5.审计人员可对审计结果进行校验，当审计结果与实际结果不相符时，审计人员可将审计出错的url及类型发送到云端，云端重新获取该网页内容并进行语义分析及词频统计。将词频在前取前某特定比例的词及词频放入对应的出错词库中，每一类都建立出错计数，出错时该类出错计数加1，并计算出错率(该类出错计数与审计过该类的网页总数的比值)，当出错率达到某限定值时，系统可出现报警提示某类语义库异常，技术人员收到报警后处理处理出错词库，将出错词库中词频累加较高的词加入到该类的停用词库中并移除核心词库中与之相同的词。该方法具有以下优势：

1.正确性高，不受网页数量限制

2.即时性高，不管据是否是新网页，只根据内容判断分类

3.效率高

4.有效节省了电脑硬件资源

附图说明

图1为该发明的流程图

图2提炼语义库的流程图

图3审计流程图

具体实施

本发明重点是一种的审计方法，并且基于云技术，以上网行为管理系统为例：

1.搭建云平台，初始化爬虫任务，并同一管理

2.按照需求初始化分类语义库，并按内容3所述算法不断更新语义库

3.给分布各地的上网行为管理系统用户提供云接口，通过该系统截获用户上网浏览网页内容并对内容进行语义分析，并进行词频统计，取出现频率在前50％的词语，将这些词语以及对应的词频发送到云平台，与云端的数据库进行匹配，并将匹配成功的词的词频累加，其累加之和最大的语义库所对应的分类即为该网页的分类。

4.审计人员反馈审计结果。

Claims

1.本发明是一种基于云技术的网页审计方法，主要用于网络信息安全领域。发明运用云技术，通过审计设备获取用户浏览网页并与云语义库匹配得出网页分类信息。其特征如下：

在云平台下计算并存储

提炼语义库

网页内容与语义库相匹配得出网页分类

审计人员反馈审计结果并根据审计结果更新云语义库

2.根据权利要求以所述的一种基于云技术的网页审计方法，其特征在于提炼分类语义库，步骤如下：

(1)按照需求分类，且每一类建立核心词库、非核心词库、停用词库以及出错词库，并人工初始化核心词库和停用词库

(2)将爬虫获得的网页进行语义分析，保留动词和名词并去除停用词，与核心词库进行匹配词频统计，取统计之和最大的分类，按词频将除核心词库和停用词库之外的词排序，取特定比例(如前10％)的词放入对应分类中的非核心词库

(3)统计非核心词的计数，以网页为单位，在一个网页出现过，其级数累加1，以此类推，当某个非核心词库的计数超过某限定值时，加入到相应类别的核心词库，并对计数低于某限定值的词定期删除

(4)对出现的新词语可人工添加到相应的核心词库中，并将错误的核心词添加到停用词库，不断更新的核心词库即为语义库

3.根据权力要求1所述的一种基于云技术的网页审计方法，其特征在于：

在审计过程是在云平台下进行

4.根据权力要求1所述的一种基于云技术的网页审计方法，起特征在于：

在审计过程中将网页内容与分类语义库进行匹配得出网页分类，步骤如下：

(1)获取用户浏览网页内容并进行语义分析及词频统计

(2)取出词频在前特定比例的词语与语义库进行匹配，匹配成功则该词对应的词频累加，累加之和最大的语义库对应的分类即为该网页分类

5.根据权力要求1所述的一种据以云技术的网页审计方法，其特征在于：

对审计结果进行人工校验，并根据审计结果更新云语义库，其步骤如下：

(1)审计人员校验审计结果，并将处理后的出错网页的数据发送到出错词库中。

(2)云端的反馈处理程序处理网页内容并统计出错率，当出错率超过限定值时，系统报警提示某类语义库异常，技术人员处理该类出错词库，将出错词库中词频较高的词放入该类的停用词库并去除核心词库中。