CN105550182A - 一种基于云端的网页分类控制装置及方法 - Google Patents

一种基于云端的网页分类控制装置及方法 Download PDF

Info

Publication number
CN105550182A
CN105550182A CN201410601159.9A CN201410601159A CN105550182A CN 105550182 A CN105550182 A CN 105550182A CN 201410601159 A CN201410601159 A CN 201410601159A CN 105550182 A CN105550182 A CN 105550182A
Authority
CN
China
Prior art keywords
web page
webpage
preset
feature
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410601159.9A
Other languages
English (en)
Inventor
蒋斐
汪亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Wei Dun Network Technology Co Ltd
Original Assignee
Jiangsu Wei Dun Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Wei Dun Network Technology Co Ltd filed Critical Jiangsu Wei Dun Network Technology Co Ltd
Priority to CN201410601159.9A priority Critical patent/CN105550182A/zh
Publication of CN105550182A publication Critical patent/CN105550182A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于云端的网页分类控制装置及方法,其特征在于,包括分类模块与准入模块,所述方法包括如下步骤:终端设备在内网出口并接入外网与云端保持联通;根据进入网关的网页的特征对网页分类;根据所述网页的类别以及预置的网页准入权限,控制所述网页的准入。本发明提供的一种基于云端的网页分类控制装置及方法,将网页文本特征与网页内容特征相结合,可以很好的互补,使分类效果稳定;可对网页实现分类控制,并进一步地实现网页的审计监控。

Description

一种基于云端的网页分类控制装置及方法
技术领域
本发明涉及一种基于云端的网页分类控制装置及方法。
背景技术
随着互联网的发展,网页的数量和种类剧增,人们愈来愈趋于通过网络观看视频、浏览信息。现有内网的通讯架构中内网的客户端通过网关从互联网上下载各种网页信息,其中隐藏的问题是对于企业来说,有些网页是不被允许的,如员工上班时间观看网页视频,导致公司带宽被大量占用而使公司正常业务无法正常运行,再如一些不良网络信息在网络上肆意传播对社会造成不良影响。面对这些问题,最简单的做法就是禁止任何网页。但实际工作有些网页是与工作密切相关的如行业新闻和业务方面的,所以这种方法并不能总是有效。因此需要一种有效的方法和机制来对网页进行分类,有针对性的对某类网页进行控制。遗憾的是,当前并没有一种完整的方法来解决这个问题。
发明内容
本发明为了解决现有技术的不足,提供一种基于云端的网页分类控制装置及方法,可对欲进入内网的网页进行分类控制,有效控制网页的准入。
为解决上述技术问题,本发明提供的一种基于云端的网页分类控制装置及方法,采用如下技术方案:
一种基于云端的网页分类控制装置,其特征在于,包括分类模块与准入模块,分类模块,用于根据进入网关的网页的特征对网页分类;
准入模块,用于根据所述网页的类别以及预置的网页准入权限,控制所述网页的准入。
具体地,还包括有审计模块,用于根据预置的网页审计策略审计所述网页。
具体地,所述分类模块包括如下:
第一提取单元,用于提取所述网页的网页文本特征和网页内容特征;
文本分类单元,用于根据预置的分类器对所述网页文件特征分类,产生有效文本特征;
耦合单元,用于耦合所述有效文本特征与所述网页内容特征,得到网页特征向量;
网页分类单元,用于将所述网页特征向量输入预置的网页分类器,得到所述网页的分类结果;
智能训练单元,用于训练产生与网页类别相同数量的预置分类器和网页分类器。
具体地,所述准入模块包括如下:
第二提取单元,用于提取所述网页的网页文本特征;
识别单元,用于根据所述网页文本特征和预置的匹配规则识别所述网页的类别。
一种基于云端的网页分类控制方法,其特征在于,包括如下步骤:
S1:终端设备在内网出口并接入外网与云端保持联通;
S2:根据进入网关的网页的特征对网页分类;
S3:根据所述网页的类别以及预置的网页准入权限,控制所述网页的准入。
具体地,所述根据进入网关的网页的特征对网页分类包括:提取所述网页的网页文本特征和内容特征;根据预置的分类器对所述网页文件特征分类,产生有效文本特征;耦合所述有效文本特征与所述网页内容特征,得到网页特征向量;将所述网页特征向量输入预置的网页分类器,得到所述网页的分类结果。
具体地,在执行所述控制网页的准入之后,还包括:根据预置的网页审计策略审计所述网页。
具体地,在执行所述根据预置的分类器对网页文件特征分类之前,还包括:产生与网页类别相同数量分类器。
具体地,所述根据进入内网的网页的特征对网页分类包括:提取所述网页的网页文本特征;根据所述网页文本特征和预置的匹配规则识别所述网页的类别。
本发明提供的一种基于云端的网页分类控制装置及方法,将网页文本特征与网页内容特征相结合,可以很好的互补,使分类效果稳定;可对网页实现分类控制,并进一步地实现网页的审计监控。
附图说明
图1为本发明实施例所述的一种基于云端的网页分类控制装置的结构示意图。
图2为本发明实施例所述的一种基于云端的网页分类控制方法的步骤示意图。
具体实施方式
下面结合附图对本发明实施例提供给的基于云端的网页分类控制装置及方法进行详细描述。
如图1、2所示,本发明实施例提供的一种基于云端的网页分类控制装置,其特征在于,包括分类模块与准入模块,
分类模块,用于根据进入网关的网页的特征对网页分类;
准入模块,用于根据所述网页的类别以及预置的网页准入权限,控制所述网页的准入。
具体地,还包括有审计模块,用于根据预置的网页审计策略审计所述网页。
具体地,所述分类模块包括如下:
第一提取单元,用于提取所述网页的网页文本特征和网页内容特征;
文本分类单元,用于根据预置的分类器对所述网页文件特征分类,产生有效文本特征;
耦合单元,用于耦合所述有效文本特征与所述网页内容特征,得到网页特征向量;
网页分类单元,用于将所述网页特征向量输入预置的网页分类器,得到所述网页的分类结果;
智能训练单元,用于训练产生与网页类别相同数量的预置分类器和网页分类器。
具体地,所述准入模块包括如下:
第二提取单元,用于提取所述网页的网页文本特征;
识别单元,用于根据所述网页文本特征和预置的匹配规则识别所述网页的类别。
一种基于云端的网页分类控制方法,其特征在于,包括如下步骤:
S1:终端设备在内网出口并接入外网与云端保持联通;
S2:根据进入网关的网页的特征对网页分类;
S3:根据所述网页的类别以及预置的网页准入权限,控制所述网页的准入。
具体地,所述根据进入网关的网页的特征对网页分类包括:提取所述网页的网页文本特征和内容特征;根据预置的分类器对所述网页文件特征分类,产生有效文本特征;耦合所述有效文本特征与所述网页内容特征,得到网页特征向量;将所述网页特征向量输入预置的网页分类器,得到所述网页的分类结果。
具体地,在执行所述控制网页的准入之后,还包括:根据预置的网页审计策略审计所述网页。
具体地,在执行所述根据预置的分类器对网页文件特征分类之前,还包括:产生与网页类别相同数量分类器。
具体地,所述根据进入内网的网页的特征对网页分类包括:提取所述网页的网页文本特征;根据所述网页文本特征和预置的匹配规则识别所述网页的类别。
本发明提供的一种基于云端的网页分类控制装置及方法,将网页文本特征与网页内容特征相结合,可以很好的互补,使分类效果稳定;可对网页实现分类控制,并进一步地实现网页的审计监控。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (9)

1.一种基于云端的网页分类控制装置,其特征在于,包括分类模块与准入模块,
分类模块,用于根据进入网关的网页的特征对网页分类;
准入模块,用于根据所述网页的类别以及预置的网页准入权限,控制所述网页的准入。
2.根据权利要求1所述的基于云端的网页分类控制装置,其特征在于,还包括有审计模块,用于根据预置的网页审计策略审计所述网页。
3.根据权利要求1所述的基于云端的网页分类控制装置,其特征在于,所述分类模块包括如下:
第一提取单元,用于提取所述网页的网页文本特征和网页内容特征;
文本分类单元,用于根据预置的分类器对所述网页文件特征分类,产生有效文本特征;
耦合单元,用于耦合所述有效文本特征与所述网页内容特征,得到网页特征向量;
网页分类单元,用于将所述网页特征向量输入预置的网页分类器,得到所述网页的分类结果;
智能训练单元,用于训练产生与网页类别相同数量的预置分类器和网页分类器。
4.根据权利要求1所述的基于云端的网页分类控制装置,其特征在于,所述准入模块包括如下:
第二提取单元,用于提取所述网页的网页文本特征;
识别单元,用于根据所述网页文本特征和预置的匹配规则识别所述网页的类别。
5.一种基于云端的网页分类控制方法,其特征在于,包括如下步骤:
S1:终端设备在内网出口并接入外网与云端保持联通;
S2:根据进入网关的网页的特征对网页分类;
S3:根据所述网页的类别以及预置的网页准入权限,控制所述网页的准入。
6.根据权利要求5所述的基于云端的网页分类控制方法,其特征在于,所述根据进入网关的网页的特征对网页分类包括:提取所述网页的网页文本特征和内容特征;根据预置的分类器对所述网页文件特征分类,产生有效文本特征;耦合所述有效文本特征与所述网页内容特征,得到网页特征向量;将所述网页特征向量输入预置的网页分类器,得到所述网页的分类结果。
7.根据权利要求5所述的基于云端的网页分类控制方法,其特征在于,在执行所述控制网页的准入之后,还包括:根据预置的网页审计策略审计所述网页。
8.根据权利要求5所述的基于云端的网页分类控制方法,其特征在于,在执行所述根据预置的分类器对网页文件特征分类之前,还包括:产生与网页类别相同数量分类器。
9.根据权利要求5所述的基于云端的网页分类控制方法,其特征在于,所述根据进入内网的网页的特征对网页分类包括:提取所述网页的网页文本特征;根据所述网页文本特征和预置的匹配规则识别所述网页的类别。
CN201410601159.9A 2014-11-01 2014-11-01 一种基于云端的网页分类控制装置及方法 Pending CN105550182A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410601159.9A CN105550182A (zh) 2014-11-01 2014-11-01 一种基于云端的网页分类控制装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410601159.9A CN105550182A (zh) 2014-11-01 2014-11-01 一种基于云端的网页分类控制装置及方法

Publications (1)

Publication Number Publication Date
CN105550182A true CN105550182A (zh) 2016-05-04

Family

ID=55829371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410601159.9A Pending CN105550182A (zh) 2014-11-01 2014-11-01 一种基于云端的网页分类控制装置及方法

Country Status (1)

Country Link
CN (1) CN105550182A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281521A (zh) * 2007-04-05 2008-10-08 中国科学院自动化研究所 一种基于多分类器融合的敏感网页过滤方法及系统
EP2107472A1 (en) * 2008-03-31 2009-10-07 British Telecommunications Public Limited Company Electronic resource annotation
CN102567512A (zh) * 2011-12-27 2012-07-11 深信服网络科技(深圳)有限公司 网页视频分类控制的方法和装置
CN104035999A (zh) * 2014-06-13 2014-09-10 南京理工大学 基于家长个性化推荐管控的安全网络浏览系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281521A (zh) * 2007-04-05 2008-10-08 中国科学院自动化研究所 一种基于多分类器融合的敏感网页过滤方法及系统
EP2107472A1 (en) * 2008-03-31 2009-10-07 British Telecommunications Public Limited Company Electronic resource annotation
CN102567512A (zh) * 2011-12-27 2012-07-11 深信服网络科技(深圳)有限公司 网页视频分类控制的方法和装置
CN104035999A (zh) * 2014-06-13 2014-09-10 南京理工大学 基于家长个性化推荐管控的安全网络浏览系统

Similar Documents

Publication Publication Date Title
EP3413212A1 (en) Random forest model training method, electronic apparatus and storage medium
CN105117484A (zh) 一种互联网舆情监测方法和系统
RU2013128608A (ru) Методика для электронной агрегации информации
EP2738690A1 (en) Document merging method
CN102567512B (zh) 网页视频分类控制的方法和装置
CN100527132C (zh) 分类样本集的优化方法和内容相关广告服务器
CN106649578A (zh) 一种基于社交网络平台的舆情分析方法及系统
WO2012070913A3 (ko) 증빙자료의 분류 방법과 이를 이용한 재무현황 분석 방법 및 이들을 구현하는 프로그램이 저장된 컴퓨터로 판독 가능한 기록매체
CN104063390A (zh) 一种微博数据处理方法及系统
CN106780248A (zh) 基于大数据技术的城市物联网设备运营控制系统及方法
CN106302849A (zh) 一种通过运营商数据进行移固融合的方法
CN105408894A (zh) 一种用户身份类别确定方法以及装置
CN104732968B (zh) 语音操控系统的评价系统及方法
CN102693236A (zh) 基于内容理解的不良信息过滤方法
CN102662962B (zh) 一种基于网页元素的动态展示方法
CN104133912A (zh) 一种梳理政府开放数据集的方法
CN105279533A (zh) 一种车辆用户标签管理方法及系统
CN105550182A (zh) 一种基于云端的网页分类控制装置及方法
CN104602142A (zh) 基于神经网络学习的业务分类方法
CN106844495A (zh) 一种网站操作日志的获取方法及装置
JP7499946B2 (ja) インテリジェント推奨用のソートモデルトレーニング方法及び装置、インテリジェント推奨方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
CN109492655B (zh) 一种特征提取方法、装置及终端
CN102129575A (zh) 一种基于颜色空间肤色模型的色情图像分析系统
CN115331048A (zh) 图像分类方法、装置、设备以及存储介质
CN107592214B (zh) 一种识别互联网应用系统登录用户名的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160504

WD01 Invention patent application deemed withdrawn after publication