CN103414735A - 一种网站内容涉密检查系统 - Google Patents
一种网站内容涉密检查系统 Download PDFInfo
- Publication number
- CN103414735A CN103414735A CN201210384728XA CN201210384728A CN103414735A CN 103414735 A CN103414735 A CN 103414735A CN 201210384728X A CN201210384728X A CN 201210384728XA CN 201210384728 A CN201210384728 A CN 201210384728A CN 103414735 A CN103414735 A CN 103414735A
- Authority
- CN
- China
- Prior art keywords
- content
- concerning security
- security matters
- analysis
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种网站内容涉密检查系统,其特征在于,包括WEB服务器、网站内容分析服务器,所述WEB服务器上安装有用户请求监控模块,用于对所有WEB服务请求实时监控,所述内容分析服务器上安装有数据采集与分析模块,用于实时监控所述WEB服务器上的网站内容,报警服务器端,用于接收所述数据采集与分析模块发送的报警信息,配置管理端,用于配置对网站内容进行涉密分析的关键字策略、发现有涉密嫌疑后的处理策略。本发明实现对WEB服务器网站发布内容的监控,自动分析其涉密性,当系统发现网站内容有涉密嫌疑时,立即向网站管理员报警,同时自动用备份网页替代涉密网页对外发布,确保敏感内容不被访问,运行稳定,安装操作简单。
Description
技术领域
本发明涉及一种网站内容涉密检查系统。
背景技术
随着信息技术的发展和普及,网站已成为政府政策宣传和企业营销推广的重要渠道。互联网时代的“网络”是公权力单位和民众沟通的桥梁,法规、政令、文件、规范及办事规范等文件通过网络向公众公示,公众随时通过网络来访问这些政府文件,传播面广,一旦有涉密行为发生,其传播速度快、传播面广,带来很不好的影响。
近年来,通过门户网站泄密的事件不断发生,反映了在信息公开中的保密工作面临着严峻形势。在网络时代,信息传递速度越来越快是不变的趋势,有的一两天前还是秘密甚至绝密的东西,过一两天后很快地可以在互联网上、新闻媒体中看到,如果对这些信息还依靠老方法来管理肯定行不通,必须实行动态管理,因此,如何在保密的基础上保证信息时效性,是摆在各级保密单位面前的一道难题。
涉密信息系统管理是一种动态的全程管理,贯穿网络建设、应用的始终,其工作量之重,工作难度之大可想而知。这就要求涉密单位除了加强信息审核、保密教育外,必须加快发展保密技术,尽快改变保密技术手段落后的状况,采用专业的信息监管设备来监管门户网站的信息公开工作,一方面取代一大部分繁重的人工工作,另一方面在第一时间阻止用户通过互联网访问涉密信息,将可能发生的泄密事件影响降到最低。市场亟需一种能及时发现涉密内容并对其进行实时处理,避免涉密内容外泄的系统,提高保密部门的管理水平,加强涉密文件处理监管工作的工具。
发明内容
本发明目的是为了克服现有技术的不足,提供了一种网站内容涉密检查系统,实现对WEB服务器中的静态网页、动态网页、图形文件、多媒体文件及文档类文件发布对象进行涉密检查,自动分析其涉密性,及时发现涉密内容,当发现网站内容有涉密嫌疑时,立即向管理员报警,同时自动用备份网页替代涉密网页对外发布,确保敏感内容不被访问。
本发明的技术方案如下所述:
一种网站内容涉密检查系统,其特征在于,包括WEB服务器、网站内容分析服务器,
所述WEB服务器上安装有用户请求监控模块,用于对所有WEB服务请求实时监控;
所述内容分析服务器上安装有数据采集与分析模块、报警服务器端、以及配置管理端,所述数据采集与分析模块,用于实时监控所述WEB服务器上的网站内容,所述报警服务器端,用于接收所述数据采集与分析模块发送的报警信息,所述配置管理端,用于配置对网站内容进行涉密分析的关键字策略、发现有涉密嫌疑后的处理策略。
实现本发明的技术方案进一步包括,所述WEB服务器通过防火墙与所述网站内容分析服务器连接。
实现本发明的技术方案进一步包括,所述用户请求监控模块采用动态表管理技术,初始即对网站的每个URL页面的内容访问一遍,并对每个页面进行涉密分析,并将结果分为不涉密、有可能涉密、确认涉密三种,同时将每页内容以HASH算法计算出内容文摘值,所述动态表存储URL域名、该域名的内容文摘值、该网页的涉密分析结果。
实现本发明的技术方案进一步包括,当收到WEB服务向用户返回网页请求内容时,用户请求监控模块首先自动计算出该网页的内容文摘值,然后检查该请求URL域名是否在动态表中存在,如果域名在表中,则查询其内容文摘值,与服务器返回的内容文摘值进行比较。
实现本发明的技术方案进一步包括,所述数据采集与分析模块采用爬虫技术,对用户指定的网站进行内容爬取,并对每个页面内容进行分析,同时将每页内容以HASH算法计算出内容文摘值,当对网页内容分析完成后,把URL域名、该域名的内容文摘值、该网页的涉密分析结果写入保存在所述用户请求监控模块的动态表中。
实现本发明的技术方案进一步包括,通过监控网站内容的变化,及时发现涉密内容,当发现发布内容有涉密嫌疑,自动使用备份网页替代涉密发布内容,并向报警服务器端报警。
本发明有如下功能:
1、网站内容实时监测
采用任务式管理模式,利用先进的数据采集引擎,可同时对一个或者一个以上网站内容进行实时监测。无论是静态网页还是动态网页,都能准确、实时地抓取网站的发布内容。
2、能有效地发现涉密内容,并能及时阻止涉密内容扩散
对网页中搜索到的内容采用关键词比对技术,通过专门设计的搜索引擎对抓取的网页采用内容匹配、文本解析、附件处理、连接跟踪等方法进行涉密分析,能准确地处理网页、图片、文档、图像视屏的文件。一旦发现涉密信息,系统能够有效的屏蔽涉密网页对外发布,并向管理员发出报警信息。
3、预警汇报
通过邮件和手机短信提醒,及时反馈网站的监测结果,提醒管理员对涉密内容及时处理,并以数字统计和趋势图的形式,生成网页或者PDF文件发送至用户邮箱。对于高级别涉密内容通过手机短信及时反馈,同时,根据用户自定义的形式,创建日、周、月报向上级领导汇报。
4、统计报表
通过动态的趋势分析报表,及时了解网站的违规内容:危险、严重、警告、一般、轻微各项指标。并具备按日、昨日、周、半月、月的周期,法定节假日或者自定义周期进行量化分析。
5、自定义敏感词组
根据客户需要自定义敏感词组,即由单一字词组成,或者一个以上字词组成的字词组合,便于进行语义层面的文本分析。
6、违规信息审计
审计内容包括敏感词、涉密等级、网页标题、网页链接,并提供网页快照供分析取证。对历史记录,并审计网页消失时间。
7、智能的站内搜索
对网站内部链接进行关键字智能搜索,并把有关键字内容的网页链接记录下来,同时向管理员发出报警信息,方便管理员及时处理站内链接信息。
本发明实现对WEB服务器中的静态网页、动态网页、图形文件、多媒体文件及文档类文件发布对象进行涉密检查,自动分析其涉密性,及时发现涉密内容,当系统发现网站内容有涉密嫌疑时,立即向管理员报警,同时自动用备份网页替代涉密网页对外发布,确保敏感内容不被访问。运行稳定,安装操作简单,提供了良好的控制和审计功能,能主动有效的保护用户的敏感信息,可广泛应用于政府、军工、教育、能源、运营商、以及各大中型企事业单位。
附图说明
图1为本发明的结构示意图。
图2为本发明URL链接内容分析结果表。
具体实施方式
下面结合附图以及实施方式对本发明进行进一步的描述:
如图1所示,一种网站内容涉密检查系统,其特征在于,包括WEB服务器、网站内容分析服务器,
所述WEB服务器上安装有用户请求监控模块,用于对所有WEB服务请求实时监控;
所述内容分析服务器上安装有数据采集与分析模块、报警服务器端、以及配置管理端,所述数据采集与分析模块,用于实时监控所述WEB服务器上的网站内容,所述报警服务器端,用于接收所述数据采集与分析模块发送的报警信息,所述配置管理端,用于配置对网站内容进行涉密分析的关键字策略、发现有涉密嫌疑后的处理策略。
所述WEB服务器通过防火墙与所述网站内容分析服务器连接。
所述用户请求监控模块采用动态表管理技术,初始即对网站上的每个URL页面内容进行访问,并进行涉密分析,并将结果分为不涉密、有可能涉密、确认涉密三种,同时将每页内容以HASH算法计算出内容文摘值,所述动态表存储URL域名、该域名的内容文摘值、该网页的涉密分析结果。
当收到WEB服务向用户返回网页请求内容时,用户请求监控模块首先自动计算出该网页的内容文摘值,然后检查该请求URL域名是否在动态表中存在,如果域名在表中,则查询其内容文摘值,与服务器返回的内容文摘值进行比较。
实现本发明的技术方案进一步包括,所述数据采集与分析模块采用爬虫技 术,对用户指定的网站进行内容爬取,并对每个页面内容进行分析,同时将每页内容以HASH算法计算出内容文摘值,当对网页内容分析完成后,把URL域名、该域名的内容文摘值、该网页的涉密分析结果写入保存在所述用户请求监控模块的动态表中。
所述数据采集与分析模块采用爬虫技术,对用户指定的网站进行内容爬取,并对每个页面内容进行分析,同时将每页内容以HASH算法计算出内容文摘值,当对网页内容分析完成后,把URL域名、该域名的内容文摘值、该网页的涉密分析结果写入保存在所述用户请求监控模块的动态表中。
通过监控网站内容的变化,及时发现涉密内容,当发现发布内容有涉密嫌疑,自动使用备份网页替代涉密发布内容,并向报警服务器端报警。
所述报警服务器端采用B/S架构设计,管理员在网络中任选一台客户端登录所述报警服务器端查看报警情况,同时对报警内容进行审核。当确认涉嫌涉密的网页无涉密内容,将该部分网页自动在所述WEB服务器上发布。
所述配置管理端也采用B/S架构设计,管理员在网络中任选一台客户端登录所述配置管理端进行配置。所述数据采集与分析模块以配置策略对网站内容进行分析及处理。
本发明通过采用关键词比对技术,将设定的关键词与网站内容的文字进行匹配。当网站内容中出现关键词,则匹配成功,确定该网站涉密。基于文本的特征,本发明还支持精确匹配、同音字匹配以及模糊匹配,采用多种匹配方式弥补关键词单一的缺陷,尽可能的扩大关键词所覆盖的范围。
本发明首先利用所述数据采集与分析模块对WEB服务器上指定的网站进行内容爬取并对每个网页进行涉密分析,同时将每页内容以特殊的HASH算法计算出内容文摘值,该内容文摘值对应唯一的URL链接,当网站内容更改时,网 页的内容文摘值也会更改,所以内容文摘值能够准确的反应网站内容的任何修改。当对网站内容分析完成后,把URL域名、该域名的内容文摘值、该网页的涉密分析结果写入WEB服务器的动态表中,方便所述用户请求监控模块调用分析结果。
所述数据采集与分析模块爬取内容包括:网页类、图片类、附件类及文档类信息,分析结果为不涉密、有可能涉密、确认涉密三种结果。当该网页涉密,则立即向管理员发出报警信息,请管理员及时处理。所述数据采集与分析模块对网站内容的爬取频率设置成定时爬取或者当发现网站内容有更新时再爬取。
如图2所示,本发明通过用户请求监控模块实时监控用户WEB服务请求信息。当收到所述WEB服务器向用户返回网页请求内容时,所述用户请求监控模块首先自动计算出该网页的内容文摘值,然后检查该请求URL域名是否在动态表中存在,当域名在表中,则查询其内容文摘值,与存放在动态表中所述WEB服务器返回的内容文摘值进行比较,比较结果分为三种情况:
1.域名在表中,该网页对应内容文摘值与所述WEB服务器返回的内容文摘值形同,说明该网站内容没有改变,用动态表的分析结果直接处理,即如果没有涉密或者有涉密嫌疑,直接将所述WEB服务器返回的内容回传给发出HTTP请求的客户;当确定是涉密的网页,则用备份网页替代涉密网页回传给客户,并向所述报警服务器端报警,通知管理员尽快处理。
2.域名在表中,该网页对应文摘值与所述WEB服务器返回的内容文摘值不同,说明该网站内容已经改变,则对返回的内容重新进行涉密分析。当没有涉密或者仅有涉密嫌疑时,则直接将所述WEB服务器返回的内容回传给发出HTTP请求的客户;当确定是涉密的网页,则用备份网页替代涉密网页回传给客户,并向所述报警服务器端报警,通知管理员尽快处理。用户请求监控模块同时计 算出页面的内容文摘值,对动态表进行更新,将分析结果写入动态表中。
3.域名不在表中,说明该页面没有被分析,重复步骤2的分析过程。
对于互联网用户的HTTP请求,网站内容一般并不是处于频换更改中,对于内容没有更改的访问请求,由于采用了动态表管理技术,监控模块只是简单计算一下网站内容的HASH值即回传给请求用户,与正常请求相比几乎不存在延迟,即使对于内容发生了改变的网页,也只是增加了涉密分析这一环节,访问延迟在5%以内,并且用户下次再访问该网页时,就不需要再次做涉密分析了。因此总的来说,增加监控模块对用户的WEB服务请求几乎没有影响。
本发明所述用户请求监控模块支持系统包括:Windows、Linux/FreeBSD、Unix(Solaris、HP-UX、AIX);支持WEB服务器包括:工IS、Apache、SunONE、Weblogic、WebSphere、resin;支持后台数据库包括SQL Server、Oracle、MySQL、Access。
本发明所述内容分析服务器端支持CPU:Intel PIII或Intel PIII以上;支持内存:256M或256M以上;支持硬盘:100G或者100G以上;支持操作系统包括:WINDOWS、LINUX。
本发明实现对WEB服务器中的静态网页、动态网页、图形文件、多媒体文件及文档类文件发布对象进行涉密检查,自动分析其涉密性,及时发现涉密内容,当系统发现网站内容有涉密嫌疑时,立即向网站管理员报警,同时自动用备份网页替代涉密网页对外发布,确保敏感内容不被访问。运行稳定,安装操作简单,提供了良好的控制和审计功能,能主动有效的保护用户的敏感信息,可广泛应用于政府、军工、教育、能源、运营商、以及各大中型企事业单位。
Claims (6)
1.一种网站内容涉密检查系统,其特征在于,包括WEB服务器、网站内容分析服务器,
所述WEB服务器上安装有用户请求监控模块,用于对所有WEB服务请求实时监控;
所述网站内容分析服务器上安装有数据采集与分析模块、报警服务器端、以及配置管理端,所述数据采集与分析模块,用于实时监控所述WEB服务器上的网站内容,所述报警服务器端,用于接收所述数据采集与分析模块发送的报警信息,所述配置管理端,用于配置对网站内容进行涉密分析的关键字策略、发现有涉密嫌疑后的处理策略。
2.根据权利要求1所述的一种网站内容涉密检查系统,其特征在于,所述WEB服务器通过防火墙与所述网站内容分析服务器连接。
3.根据权利要求1所述的一种网站内容涉密检查系统,其特征在于,所述用户请求监控模块采用动态表管理技术,初始即对网站的每个URL页面的内容访问一遍,并对每个页面进行涉密分析,并将结果分为不涉密、有可能涉密、确认涉密三种,同时将每页内容以HASH算法计算出内容文摘值,所述动态表存储URL域名、该域名的内容文摘值、该网页的涉密分析结果。
4.根据权利要求1所述的一种网站内容涉密检查系统,其特征在于,当收到WEB服务向用户返回网页请求内容时,用户请求监控模块首先自动计算出该网页的内容文摘值,然后检查该请求URL域名是否在动态表中存在,如果域名在表中,则查询其内容文摘值,与服务器返回的内容文摘值进行比较。
5.根据权利要求1所述的一种网站内容涉密检查系统,其特征在于,所述数据采集与分析模块采用爬虫技术,对用户指定的网站进行内容爬取,并对每个页面内容进行分析,同时将每页内容以HASH算法计算出内容文摘值,当对网页内容分析完成后,把URL域名、该域名的内容文摘值、该网页的涉密分析结果写入保存在所述用户请求监控模块的动态表中。
6.根据权利要求1所述的一种网站内容涉密检查系统,其特征在于,通过监控网站内容的变化,及时发现涉密内容,当发现发布内容有涉密嫌疑,自动使用备份网页替代涉密发布内容,并向所述报警服务器端报警。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210384728.XA CN103414735B (zh) | 2012-10-12 | 2012-10-12 | 一种网站内容涉密检查系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210384728.XA CN103414735B (zh) | 2012-10-12 | 2012-10-12 | 一种网站内容涉密检查系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103414735A true CN103414735A (zh) | 2013-11-27 |
CN103414735B CN103414735B (zh) | 2016-08-03 |
Family
ID=49607721
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210384728.XA Active CN103414735B (zh) | 2012-10-12 | 2012-10-12 | 一种网站内容涉密检查系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103414735B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104992113A (zh) * | 2015-05-29 | 2015-10-21 | 北京奇虎科技有限公司 | 检测网站隐私内容是否暴露的方法、装置和云监控系统 |
CN105049301A (zh) * | 2015-08-31 | 2015-11-11 | 北京奇虎科技有限公司 | 一种提供网站综合评价服务的方法和装置 |
CN106022843A (zh) * | 2016-06-06 | 2016-10-12 | 上海荷格信息科技有限公司 | 一种基于中文互联网环境程序化投放广告的验证平台和方法 |
CN108123933A (zh) * | 2017-12-05 | 2018-06-05 | 南京南邮信息产业技术研究院有限公司 | 基于互联网大数据的信息泄露自动监测方法和系统 |
CN116155617A (zh) * | 2023-04-04 | 2023-05-23 | 天津市职业大学 | 一种网页操作安全管理监控系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060020714A1 (en) * | 2004-07-22 | 2006-01-26 | International Business Machines Corporation | System, apparatus and method of displaying images based on image content |
CN101018117A (zh) * | 2006-02-11 | 2007-08-15 | 鸿富锦精密工业(深圳)有限公司 | 网页日志加密系统及方法 |
CN102111267A (zh) * | 2009-12-28 | 2011-06-29 | 北京安码科技有限公司 | 一种基于数字签名的网站安全保护方法及系统 |
-
2012
- 2012-10-12 CN CN201210384728.XA patent/CN103414735B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060020714A1 (en) * | 2004-07-22 | 2006-01-26 | International Business Machines Corporation | System, apparatus and method of displaying images based on image content |
CN101018117A (zh) * | 2006-02-11 | 2007-08-15 | 鸿富锦精密工业(深圳)有限公司 | 网页日志加密系统及方法 |
CN102111267A (zh) * | 2009-12-28 | 2011-06-29 | 北京安码科技有限公司 | 一种基于数字签名的网站安全保护方法及系统 |
Non-Patent Citations (5)
Title |
---|
IT168: "《TIPTOP网站涉密检测平台护航政务公开》", 《腾讯-大楚网,HTTP://HB.QQ.COM/A/20120808/001137.HTM》 * |
IT168: "《TIPTOP门户网站信息检查系统政务公开》", 《21CN网:HTTP://IT.21CN.COM/PRNEWS/A/2012/0808/12/12609795.SHTML》 * |
巫明会: "《TIPTOP网站涉密检测平台护航政务公开》", 《IT168,HTTP://NET.IT168.COM/A2012/0808/1382/000001382294.SHTML 》 * |
王利鑫 等: "《基于自然语言处理的文本泄密自动检测技术》", 《计算机工程与设计》 * |
陈祥潘 等: "《涉密文档违规处理系统在保密部门的应用》", 《信息安全与技术》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104992113A (zh) * | 2015-05-29 | 2015-10-21 | 北京奇虎科技有限公司 | 检测网站隐私内容是否暴露的方法、装置和云监控系统 |
CN105049301A (zh) * | 2015-08-31 | 2015-11-11 | 北京奇虎科技有限公司 | 一种提供网站综合评价服务的方法和装置 |
CN106022843A (zh) * | 2016-06-06 | 2016-10-12 | 上海荷格信息科技有限公司 | 一种基于中文互联网环境程序化投放广告的验证平台和方法 |
CN108123933A (zh) * | 2017-12-05 | 2018-06-05 | 南京南邮信息产业技术研究院有限公司 | 基于互联网大数据的信息泄露自动监测方法和系统 |
CN108123933B (zh) * | 2017-12-05 | 2020-12-08 | 南京南邮信息产业技术研究院有限公司 | 基于互联网大数据的信息泄露自动监测方法和系统 |
CN116155617A (zh) * | 2023-04-04 | 2023-05-23 | 天津市职业大学 | 一种网页操作安全管理监控系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103414735B (zh) | 2016-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180145888A1 (en) | Forensic software investigation | |
US20160261640A1 (en) | Security threat information analysis | |
RU2702269C1 (ru) | Система интеллектуального управления киберугрозами | |
AU2017203008A1 (en) | Unstructured security threat information analysis | |
CN102045319B (zh) | Sql注入攻击检测方法及其装置 | |
CN106487775A (zh) | 一种基于云平台的业务数据的处理方法和装置 | |
CN108039959A (zh) | 一种数据的态势感知方法、系统及相关装置 | |
US20120290544A1 (en) | Data compliance management | |
US20210256120A1 (en) | Utilization of deceptive decoy elements to identify data leakage processes invoked by suspicious entities | |
CN103414735B (zh) | 一种网站内容涉密检查系统 | |
KR20100002592A (ko) | 정보보안 감사방법, 이를 수행하기 위한 프로그램이 저장된컴퓨터가 판독가능한 기록매체 및 이를 수행하기 위한시스템 | |
US8484217B1 (en) | Knowledge discovery appliance | |
US11416631B2 (en) | Dynamic monitoring of movement of data | |
US20220229657A1 (en) | Extensible resource compliance management | |
CN112000992B (zh) | 数据防泄漏保护方法、装置、计算机可读介质及电子设备 | |
CN108234392B (zh) | 一种网站的监控方法及装置 | |
CN112822210B (zh) | 一种基于网络资产的漏洞管理系统 | |
US20240089177A1 (en) | Heterogeneous Graph Clustering Using a Pointwise Mutual Information Criterion | |
CN113904828B (zh) | 接口的敏感信息检测方法、装置、设备、介质和程序产品 | |
US20160063512A1 (en) | Identifying a cloud service using network traffic and other data | |
Mogull | Understanding and selecting a database activity monitoring solution | |
WO2022011102A1 (en) | Systems and methods for software security analysis | |
WO2021211853A1 (en) | Systems and methods for a governance engine | |
Takahashi et al. | Data model for android package information and its application to risk analysis system | |
US8495368B1 (en) | Method to create a content management recommendation based on presence of confidential information in content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |