CN101901245A - 一种基于云语义库的网页审计方法 - Google Patents
一种基于云语义库的网页审计方法 Download PDFInfo
- Publication number
- CN101901245A CN101901245A CN2010100004964A CN201010000496A CN101901245A CN 101901245 A CN101901245 A CN 101901245A CN 2010100004964 A CN2010100004964 A CN 2010100004964A CN 201010000496 A CN201010000496 A CN 201010000496A CN 101901245 A CN101901245 A CN 101901245A
- Authority
- CN
- China
- Prior art keywords
- cloud
- webpage
- dictionary
- auditing
- core
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
该发明是一种基于云语义库的网页审计方法,主要应用于上网信息安全以及上网行为管理等领域。发明运用云技术以及语义分析技术构建云语义库,将上网行为管理系统截获的用户上网的网页内容进行语义分析及词频统计并与云语义库相匹配得出网页分类,并可根据反馈的审计结果对云语义库加以修正。
Description
技术领域
本发明属于网络安全领域中的重要应用——上网行为管理中的网页审计方法
背景技术
随着网络的普及,学校,企业等各行各业对上网行为管理的需求越来越大,对网络审计提出了更高的要求,传统网页审计方法依靠url分类,但其存在明显的局限性:
1.正确性,网页数量巨大,不可能将所有的url都进行分类,这就不能保证网页审计的正确性。
2.即时性,网页数量增长过快,而url分类库不可能时时更新,因而保证不了网页审计的即时性。本发明基于云技术以及文本聚类技术,通过网页内容对网页进行分类审计,有效的解决了上述问题。
发明内容
传统的网页审计基于url分类库,将从网上获取的url按照预定义的分类标准进行分类并添加到数据库中,通过获取用户浏览的网址与url分类库进行比较得出网页分类。伴随着着网络的普及,信息的泛滥,每天产生数以万计的新网页,传统的网页审计方法受到了极大的挑战,一方面,将所有的网页都一网打尽是一项不可能完成的任务,当用户浏览url分类库中不存在的网页时,就得不到有效的审计结果,另一方面创建及完善url分类库将耗费大量的人力及硬件资源,同时检索庞大的数据库耗时也会增加,势必会对审计设备的效率造成影响。该发明有效的解决了这一问题,提出了一种新的思路,构建了语义库,并借助了现有的新技术--云技术,形成了云语义库,并将其运用在网络审计中,使网络审计只关注网页的内容,而不关心是否是新的url,同时提高了检索的效率。具体内容如下:
1.搭建云平台。
2.应用网络爬虫技术,不断获取网页。
3.在云平台建立分类语义库,每一类别都分为核心词库、非核心词库、停用词库以及出错词库,出错词库用来存放审计结果与实际记过不相符的网页数据。人工初始化核心词库和停用词库,将爬虫爬取的网页进行语义分析,只保留名词和动词并去除停用词,做词频统计,当与某个类别的核心词库的匹配词频(即计算分类语义库中的词在收到的处理数据中出现的频率)之和最大时,将核心词之外的单词按词频排序,取前某特定比例(如前10%)的词语添加到该类别的非核心词库,统计非核心词的计数,以网页为单位,在一个网页出现过,其计数累加1,以此类推,当某一类非核心词库的某个词出现次数达到某最大限定限定次数时,将其添加到核心词库,并定期对出现次数小于最小限定次数的词语进行删除,同时对核心词库进行人工维护,可将出现的新词语添加到所属类别核心词库并且把错误的核心词移动到停用词库。
4.在网页审计时,审计系统将截获用户浏览的网页内容,并对其进行语义分析,并将这些处理数据发送到云平台,在云平台下遍历分类语义库,并和收到的处理数据做匹配词频统计,该网页的分类即为匹配词频统计之和最大的分类语义库所对应的分类,并分类记录审计过的网页数。
5.审计人员可对审计结果进行校验,当审计结果与实际结果不相符时,审计人员可将审计出错的url及类型发送到云端,云端重新获取该网页内容并进行语义分析及词频统计。将词频在前取前某特定比例的词及词频放入对应的出错词库中,每一类都建立出错计数,出错时该类出错计数加1,并计算出错率(该类出错计数与审计过该类的网页总数的比值),当出错率达到某限定值时,系统可出现报警提示某类语义库异常,技术人员收到报警后处理处理出错词库,将出错词库中词频累加较高的词加入到该类的停用词库中并移除核心词库中与之相同的词。该方法具有以下优势:
1.正确性高,不受网页数量限制
2.即时性高,不管据是否是新网页,只根据内容判断分类
3.效率高
4.有效节省了电脑硬件资源
附图说明
图1为该发明的流程图
图2提炼语义库的流程图
图3审计流程图
具体实施
本发明重点是一种的审计方法,并且基于云技术,以上网行为管理系统为例:
1.搭建云平台,初始化爬虫任务,并同一管理
2.按照需求初始化分类语义库,并按内容3所述算法不断更新语义库
3.给分布各地的上网行为管理系统用户提供云接口,通过该系统截获用户上网浏览网页内容并对内容进行语义分析,并进行词频统计,取出现频率在前50%的词语,将这些词语以及对应的词频发送到云平台,与云端的数据库进行匹配,并将匹配成功的词的词频累加,其累加之和最大的语义库所对应的分类即为该网页的分类。
4.审计人员反馈审计结果。
Claims (5)
1.本发明是一种基于云技术的网页审计方法,主要用于网络信息安全领域。发明运用云技术,通过审计设备获取用户浏览网页并与云语义库匹配得出网页分类信息。其特征如下:
在云平台下计算并存储
提炼语义库
网页内容与语义库相匹配得出网页分类
审计人员反馈审计结果并根据审计结果更新云语义库
2.根据权利要求以所述的一种基于云技术的网页审计方法,其特征在于提炼分类语义库,步骤如下:
(1)按照需求分类,且每一类建立核心词库、非核心词库、停用词库以及出错词库,并人工初始化核心词库和停用词库
(2)将爬虫获得的网页进行语义分析,保留动词和名词并去除停用词,与核心词库进行匹配词频统计,取统计之和最大的分类,按词频将除核心词库和停用词库之外的词排序,取特定比例(如前10%)的词放入对应分类中的非核心词库
(3)统计非核心词的计数,以网页为单位,在一个网页出现过,其级数累加1,以此类推,当某个非核心词库的计数超过某限定值时,加入到相应类别的核心词库,并对计数低于某限定值的词定期删除
(4)对出现的新词语可人工添加到相应的核心词库中,并将错误的核心词添加到停用词库,不断更新的核心词库即为语义库
3.根据权力要求1所述的一种基于云技术的网页审计方法,其特征在于:
在审计过程是在云平台下进行
4.根据权力要求1所述的一种基于云技术的网页审计方法,起特征在于:
在审计过程中将网页内容与分类语义库进行匹配得出网页分类,步骤如下:
(1)获取用户浏览网页内容并进行语义分析及词频统计
(2)取出词频在前特定比例的词语与语义库进行匹配,匹配成功则该词对应的词频累加,累加之和最大的语义库对应的分类即为该网页分类
5.根据权力要求1所述的一种据以云技术的网页审计方法,其特征在于:
对审计结果进行人工校验,并根据审计结果更新云语义库,其步骤如下:
(1)审计人员校验审计结果,并将处理后的出错网页的数据发送到出错词库中。
(2)云端的反馈处理程序处理网页内容并统计出错率,当出错率超过限定值时,系统报警提示某类语义库异常,技术人员处理该类出错词库,将出错词库中词频较高的词放入该类的停用词库并去除核心词库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010100004964A CN101901245A (zh) | 2010-01-15 | 2010-01-15 | 一种基于云语义库的网页审计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010100004964A CN101901245A (zh) | 2010-01-15 | 2010-01-15 | 一种基于云语义库的网页审计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101901245A true CN101901245A (zh) | 2010-12-01 |
Family
ID=43226780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010100004964A Pending CN101901245A (zh) | 2010-01-15 | 2010-01-15 | 一种基于云语义库的网页审计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101901245A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077210A (zh) * | 2012-12-28 | 2013-05-01 | Tcl集团股份有限公司 | 一种基于云计算的数据获取方法及系统 |
CN104980409A (zh) * | 2014-04-11 | 2015-10-14 | 中兴通讯股份有限公司 | 一种上网行为管理方法及装置 |
US9589275B2 (en) | 2012-04-28 | 2017-03-07 | Huawei Technologies Co., Ltd. | User behavior analysis method, and related device and method |
CN103678371B (zh) * | 2012-09-14 | 2017-10-10 | 富士通株式会社 | 词库更新装置、数据整合装置和方法以及电子设备 |
CN108228555A (zh) * | 2016-12-14 | 2018-06-29 | 北京国双科技有限公司 | 基于栏目主题的文章处理方法和装置 |
-
2010
- 2010-01-15 CN CN2010100004964A patent/CN101901245A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9589275B2 (en) | 2012-04-28 | 2017-03-07 | Huawei Technologies Co., Ltd. | User behavior analysis method, and related device and method |
CN103678371B (zh) * | 2012-09-14 | 2017-10-10 | 富士通株式会社 | 词库更新装置、数据整合装置和方法以及电子设备 |
CN103077210A (zh) * | 2012-12-28 | 2013-05-01 | Tcl集团股份有限公司 | 一种基于云计算的数据获取方法及系统 |
CN103077210B (zh) * | 2012-12-28 | 2017-04-19 | Tcl集团股份有限公司 | 一种基于云计算的数据获取方法及系统 |
CN104980409A (zh) * | 2014-04-11 | 2015-10-14 | 中兴通讯股份有限公司 | 一种上网行为管理方法及装置 |
CN108228555A (zh) * | 2016-12-14 | 2018-06-29 | 北京国双科技有限公司 | 基于栏目主题的文章处理方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765337B (zh) | 一种基于互联网大数据的服务提供方法 | |
Tixier et al. | A graph degeneracy-based approach to keyword extraction | |
US20180150562A1 (en) | System and Method for Automatically Extracting and Analyzing Data | |
US8849798B2 (en) | Sampling analysis of search queries | |
CN104951539A (zh) | 互联网数据中心有害信息监测系统 | |
CN105049247A (zh) | 一种网络安全日志模板抽取方法及装置 | |
CN101593200A (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN106155817A (zh) | 业务信息处理方法、服务器及系统 | |
CN101901245A (zh) | 一种基于云语义库的网页审计方法 | |
CN108021582B (zh) | 互联网舆情监控方法及装置 | |
CN107368592B (zh) | 一种用于网络安全报告的文本特征模型建模方法及装置 | |
CN112364003A (zh) | 一种用于不同行业的大数据治理方法、装置、设备和介质 | |
JP5474704B2 (ja) | 意味的に類似している事態対を二項関係に分類する二項関係分類プログラム、方法及び装置 | |
CN112291261A (zh) | 一种知识图谱驱动的网络安全日志审计分析方法 | |
CN105653548A (zh) | 一种电子文档页面类型识别方法和系统 | |
CN102779119A (zh) | 一种抽取关键词的方法及装置 | |
Kucher et al. | Analysis of VINCI 2009-2017 proceedings | |
CN111026940A (zh) | 一种面向电网电磁环境的网络舆情及风险信息监测系统、电子设备 | |
CN107329956B (zh) | 一种项目信息标准化方法及装置 | |
CN110069516B (zh) | 一种基于标准文献的服务内容智能管理技术实现方法 | |
CN105512270A (zh) | 一种确定相关对象的方法和装置 | |
CN107491530B (zh) | 一种基于文件自动标记信息的社会关系挖掘分析方法 | |
CN109902230A (zh) | 一种新闻数据的处理方法及装置 | |
Makinist et al. | Preparation of improved Turkish dataset for sentiment analysis in social media | |
CN112991131A (zh) | 一种适用于电子政务平台的政务数据处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20101201 |