CN102902703A - 一种面向网络敏感信息的截图取证与锁定回访的方法 - Google Patents

一种面向网络敏感信息的截图取证与锁定回访的方法 Download PDF

Info

Publication number
CN102902703A
CN102902703A CN2012102502094A CN201210250209A CN102902703A CN 102902703 A CN102902703 A CN 102902703A CN 2012102502094 A CN2012102502094 A CN 2012102502094A CN 201210250209 A CN201210250209 A CN 201210250209A CN 102902703 A CN102902703 A CN 102902703A
Authority
CN
China
Prior art keywords
sensitive information
sectional drawing
webpage
return visit
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012102502094A
Other languages
English (en)
Inventor
李芳芳
葛斌
汤大权
肖卫东
殷风景
贺明科
封孝生
谭文堂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN2012102502094A priority Critical patent/CN102902703A/zh
Publication of CN102902703A publication Critical patent/CN102902703A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向网络敏感信息的截图取证与锁定回访方法,该方法包括:对所监测网站的网页数据进行采集;对网页数据进行规范化处理、基于正则表达式抽取网页标题和链接、基于网页标题和链接进行敏感信息的匹配;对敏感信息进行外页和内页截图;对敏感信息锁定回访以防止其“死灰复燃”;对敏感信息截图结果进行存储与查询。对于网络上的敏感信息,本发明能够在最短时间内发现并对其截图保存,防止此类网页日后被更新或删除,便于相关处置机构存档取证和及时处置,以及对屡次发布敏感信息的网站进行处理。此外,本发明的方法还能够有效解决对网络敏感信息的监控和处置需求,适用于网络舆情分析系统的实施。

Description

一种面向网络敏感信息的截图取证与锁定回访的方法
技术领域
本发明涉及互联网信息管理领域,特别是一种面向网络敏感信息的截图取证与锁定回访的方法。
背景技术
近年来,互联网在我国快速发展、迅速普及,日益成为人民群众关注社会事务和表达意见的重要渠道。随着我国信息化建设加快推进,互联网在为信息交流带来方便、文化建设注入生机的同时,也使网络敏感信息“插上了翅膀”。敏感信息一般包括三大类:政治类、色情类和其他,其一经出现就会引起网民的格外关注,进而产生巨大的舆论压力。借助现代信息技术,网络敏感信息的传播方式、传播速度、影响范围呈几何级数增长,危害巨大。加强此类信息的有效监管,对确保我国构建和谐社会、创造良好的网络文化环境具有重要意义。
然而由于网络上信息量巨大,传统依靠人工的内容监管手段,在敏感信息的及时发现、有效处置方面日益暴露出应对能力有限、处置效率低下的问题。因此,研究面向网络敏感信息的截图取证与锁定回访系统具有重要的现实意义。对包含敏感信息的网页第一时间截图取证,可以防止此类网页日后被更新或删除,方便相关处置机构存档取证以及对屡次发布敏感信息的网站进行处理。此外,此类网页经处置后一段时间可能会再次出现,需对其进行锁定回访避免“死灰复燃”。
目前国内市场主要的舆情系统具有的功能有:
1、舆情信息采集:根据用户设定的目标关键词和目标网站,通过网站页面之间的链接关系,从网上自动采集页面信息,并通过链接不断向整个网络范围扩展,最终完成定制范围的信息采集任务。
2、舆情分析功能:主要包括:(1)热点发现和热点追踪:利用话题发现与追踪技术把网民不关注的信息过滤掉,发现与追踪网民关注的热点和焦点;(2)话题倾向性分析:对于发现的热点话题,根据网民对其发表的观点、倾向性进行统计分析,得出该话题的倾向性;(3)网页自动分类:用户可以单独使用关键字分类系统或自然语义智能分类系统,将采集的原始网页自动分为多个类别;(4)统计分析:统计数据以柱状、饼状、曲线等图形直观表现,并支持以word,excel等文件形式导出;(5)舆情简报:根据用户自定义的简报格式,将用户关注的舆情信息自动添加到简报中,辅助用户生成各种类型的舆情简报。
3、舆情检索功能:对采集到的网页信息进行多方位检索,如按关键词、发布网站、转载网站、发布时间、发布作者等信息进行检索。
综上,现有的网络舆情系统主要针对采集到的所有网页进行热点话题的挖掘,并没有一种较为有效地针对敏感舆情进行分析的方法,因此存在这样一种技术需求,即,需要一种快速可靠的方法或系统来及时发现和监控网络敏感舆情。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种面向网络敏感信息的截图取证与锁定回访的方法,及时、准确地发现并取证网页中的敏感信息,为网络敏感信息监管部门监管模式的转变和手段创新、创造良好网络文化环境提供技术平台保障。
为解决上述技术问题,本发明所采用的技术方案是:一种面向网络敏感信息的截图取证与锁定回访的方法,包括面向网络敏感信息的截图取证与锁定回访系统,面向网络敏感信息的截图取证与锁定回访的系统包括计算中心和数据库服务器,计算中心与数据库服务器通信,该方法的具体步骤为:
1)利用网络爬虫采集网页数据;
2)对采集的数据进行预处理,然后利用正则表达式抽取网页中的信息,并利用这些信息进行敏感信息匹配;
3)对包含敏感信息的网页进行截图;
4)对包含敏感信息的网页进行锁定回访;
5)存储截图结果。
网页数据采集:首先设置监测网站的网址,可以设置一个或多个监测网站;然后设置采集参数,如采集线程数、采集深度、网页保存位置等;最后进行网页数据采集,采集工具使用互联网上免费提供的LoalaSam网络爬虫。
敏感信息匹配:首先对采集的网页数据进行预处理,主要是对网页源代码进行规范化处理;然后基于正则表达式抽取网页中的标题、链接等有用信息;最后进行敏感信息的匹配。
网页截图:对包含敏感信息的网页进行截图取证,截取的图片包括网页内页和外页,其中内页是指该敏感信息的正文内容所在页面,外页是指该敏感信息的标题所在的导航页面,用于引导用户点击进入其内页,网页截图采用webbrowser控件。
目标网页锁定回访:包含敏感信息的网页经相关部门处置后可能会在该网站同一位置或其它位置再次出现,为防止其“死灰复燃”,将该网页网址设置为锁定状态并加入系统回访网址库,系统将按照一定的时间周期对其再次回访探测。
截图结果存储与查询:截图后的图片可采用数据库或文件两种方式进行存储。本发明中图片的属性及其存储路径采用数据库存储,图片内容本身以文件方式存储在本地硬盘中,本发明用到的数据库版本为oracle 10g。
本发明相对于现有技术的有益效果如下:(1)通过对网页标题进行关键词匹配,可以在第一时间及时、快速的发现敏感信息,为遏制敏感信息的进一步扩散赢得宝贵时间;(2)通过对敏感信息进行截图,将其以直观的图片形式保存下来,一方面可以防止敏感信息日后被更新或删除,方便日后浏览查看;另一方面方便相关处置机构存档取证,以及对屡次发布敏感信息的网站进行处理;(3)包含敏感信息的网页经相关部门处置或删除一段时间后,经常会在该网站同一位置或其它位置重新出现,这种“死灰复燃”现象在很大程度上增加了网络敏感信息处置的难度和工作量。通过对敏感信息进行锁定回访,一旦该敏感信息再次出现,系统将自动加强对其的探测周期且在必要时进行预警,并再次发送给处置部门加强对其处置的力度,直至其彻底消亡。本发明的方法能及时、准确地发现并取证网页中的敏感信息,为网络敏感信息监管部门监管模式的转变和手段创新、创造良好网络文化环境提供了技术平台保障。
附图说明
图1为本发明一实施例面向网络敏感信息的截图取证与锁定回访系统结构示意图;
图2为本发明一实施例网页敏感信息匹配流程图;
图3为四种主流截图插件对比分析图;
图4为本发明一实施例网页锁定回访流程图;
图5为本发明一实施例截图配置表;
图6为本发明一实施例截图信息表;
图7为本发明一实施例敏感关键词及监测网站设置示意图;
图8为本发明一实施例用户所设置的任务列表;
图9为本发明一实施例截图结果显示界面示意图;
图10为本发明一实施例面向网络敏感信息的截图取证与锁定回访方法流程图。
具体实施方式
    下面结合附图详细说明本发明的具体实施方式。
如图1所示,本发明的面向网络敏感信息的截图取证与锁定回访的系统包括计算中心和数据库服务器,计算中心与数据库服务器通信。
如图10所示,本发明的方法步骤如下:
(一)网页数据采集
网页数据的采集是网络敏感信息截图取证的数据基础,本发明利用名为LoalaSam的网络爬虫(蜘蛛)进行采集。LoalaSam是一个由VC6.0开发,运行在Windows平台上的网络爬虫,它可以高效地从互联网上获取海量资源,这些资源包括网页文本信息、图片、音频、视频以及其他类型的文件资源。可在http://code.google.com/p/loalasam/下载最新的LoalaSam版本。
LoalaSam具有以下特点:
(1)高效的互联网爬行及资源下载;
(2)广泛的目标资源及可配置性;
(3)多线程下载及异步请求机制;
(4)深度优先爬行算法;
(5)可选择性的遍历单个域名、多个域名、网站或者整个互联网;
(6)LoalaSam能够达到网络环境支持的最大下载速度,例如用户网络限速为8兆比特每秒,则LoalaSam能达到的最大下载速度是1兆字节每秒。
(7)该软件是绿色免费软件,无须安装任何插件,只需将压缩包解压即可直接运行。
爬虫配置时输入需要监控的网站网址、线程数、抓取深度(起始网页深度为0,在起始网页中的所有链接深度为1,在这些链接指向的页面中的链接深度为2,以此类推)、保存位置、保存网页类型。抓取的网页最终以HTML格式保存在本地硬盘中。
(二)网页敏感信息匹配算法
利用LoalaSam爬虫将所监控的网站数据采集下来之后,首先需对采集的原始数据进行预处理,主要是对网页进行规范化处理;然后基于正则表达式抽取网页中的标题、链接信息;最后利用这些信息进行敏感信息的匹配。
    1、网页源码规范化处理
网页是一种半结构化的文本,HTML是网页应用最多的文件格式。而HTML更多地关注于使用大量标签来展现内容的视觉效果(字体、大小、颜色、位置等),忽略了内容的组织结构,使得爬虫采集下来的原始网页中存在许多不规范的地方,这对后续的抽取工作带来极大的不便,因此首先需对原始网页进行规范化处理。主要的规范化要求如下:
(1)统一网页编码格式。将编码为GBK、GB2312、UTF-8等等的网页统一转换成UTF-8字符集编码形式。
(2)保证网页有一个根元素。默认以<html>为网页的根元素。
 (3)替换可能存在的错误字符。除了标记中的字符以外,对于文本中出现的“<”、“>”、“&”、“'”、“"”这5种错误字符将引起HTML解析错误。
(4)匹配起始标记和结束标记。每个起始标记<xxx>都必须对应一个结束标记</xxx>。
(5)保证标记的大小写一致。例如:<table>和<Table>是两个完全不同的标记,本发明将所有标记字符统一为小写字母。
(6)保证标记的嵌套正确。例如:<a>…<b>…</a>…</b>是不正确的嵌套,正确嵌套形式是<a>…<b>…</b>…</a>。
(7)保证标记的属性值放在引号中。例如:<a href="www.w3c.org">。
经过上面的处理,现在已将原始网页由不规范的HTML文件转换成了格式规范的文件。
2、基于正则表达式的网页信息抽取
在对网页源码进行规范化处理后,接下来利用正则表达式抽取该网页的有用信息。本发明抽取的信息主要有:超链接和标题。获取网页包含的所有超链接通过调用Visual Studio 2008环境下的Regex类中的matches函数实现。具体如下:
Regex.Matches(strHtml,"(?is)(<a[^>]*>.*?</a>)",RegexOptions.IgnoreCase);
其中,StrHtml为网页的HTML源码字符串,(?is)(<a[^>]*>.*?</a>)为提取网页超链接的正则表达式,RegexOptions.IgnoreCase为matches函数的忽略大小写选项。凡是与该正则表达式匹配上的字符串即为网页包含的超链接。
获取该网页包含的所有超链接后,接下来通过各超链接找到其各自对应的标题。由于标题存放于标签<title> </title>对中,因此,根据各超链接获取其对应的网页源码,然后匹配网页源码中的<title>和</title>标签之间的字符,即可得到各超链接对应的标题,具体实现代码如下:
int startIndex = strHtml.IndexOf("<title>");
int endIndex = strHtml.IndexOf("</title>");
if (endIndex - startIndex > 0)
title = strHtml.Substring(startIndex + 7, endIndex - startIndex - 7);
3、敏感信息的匹配
获取网页包含的超链接及各超链接对应的标题后,接下来利用这些信息对该网页进行敏感信息匹配。本发明所提及的匹配主要通过关键词匹配进行实现。
首先用户预先设置好监测的敏感关键词:可以设置一个或多个关键词,多个关键词之间用“+”表示“与”的关系,用“|”表示“或”的关系。接下来进行敏感信息匹配,匹配方式为标题匹配:
(1)遍历网页包含的第一个超链接,获取该超链接对应的标题,对其标题进行分词。本发明使用了海量分词免费版开发接口,该软件是目前应用较为广泛的一种中文分词系统。由中国科学院计算技术研究所研制的基于多层隐马尔可夫模型的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),不仅有较高的分词准确率,分词效率也较好。
(2)将用户设定的关键词逐一与标题分词结果进行匹配,判断该标题是否包含设定的关键词。若用户用“+”设定多个关键词,需判断是否同时包含这些关键词;若用户用“|”设定多个关键词,需判断是否至少包含一个这些关键词。
(3)若匹配成功,对该网页进行标记,用于后续外页截图。同时标记该超链接,用于后续内页截图。
(4)若匹配未成功,返回(1)继续遍历下一个超链接。
网页敏感信息匹配流程图见图2。
(三)网页截图取证方法
敏感信息发布后,可能经过一段时间就会被更新或删除。对包含敏感信息的网页截图可以永久地将其以直观的图片形式保存下来,一方面方便日后查看,另一方面方便相关处置机构存档取证,以及对屡次发布敏感信息的网站进行处理。本发明首先比较了目前主流的四款网页截图插件:Fireshot、Pearl Crescent Page Saver、Screen Capture和Webbrowser,比较结果见图3。
从图3中可以发现:这四种插件都可以捕捉超长页面,且所截图像的格式、大小、分辨率都没有太大差别。但是在截图复杂性方面,Fireshot、Pearl Crescent Page Saver和Screen Capture都需要对所截到的图像进行编辑,即使不编辑,每次还需设定图像的存储格式及存储路径。这将给本系统可能涉及的大量截图操作带来不便。相比之下,Webbrowser插件可以直接将图像的存储格式及存储路径写在代码里,而且还可以统一规范,便于管理维护。因此,在所截图像的格式、大小、分辨率没有太大差别的情况下,本发明选取截图复杂性低、操作简捷的Webbrowser插件作为截图插件。
Webbrowser插件是一种网页显示插件,其主要利用插件中的Navigate及DrawToBitmap方法来实现网页截图:
(1)将用户所需截图的网页链接URL传递给Navigate方法;
(2)Navigate方法将使指定URL处的文档加载到WebBrowser插件中,同时为防止网页加载时间过长甚至无法加载成功,Navigate方法设定了时间参数来确保文档加载时间;
(3)通过属性Width和Height得到WebBrowser插件所加载文档的宽度和高度,并封装成位图;
(4)调用DrawToBitmap方法实现文档的截图并将截图保存至指定路径。
对包含敏感信息的网页,系统首先将该网页URL传递给Webbrowser插件截取外页,然后将标记的超链接传递给Webbrowser插件截取内页。需要说明的是,每条敏感信息均以外页和内页成对方式截图,若某个网页包含多条敏感信息,该网页(外页)可能会被截图多次。
(四)网页锁定回访方法
包含敏感信息的网页经相关部门处置或删除一段时间后,经常会在同一位置或该网站其它位置重新出现,这种“死灰复燃”的现象在很大程度上增加了网络敏感信息控制的难度和工作量。针对这种情况,本发明设计了网页锁定回访功能:
(1)目标网页的锁定:包含敏感信息的网页经处置后,该页面网址进入系统回访库,同时将该网址设置为被系统锁定的状态;
(2)定期回访:处于锁定状态的网址将由系统按照一定的周期进行回访,本发明中定义初始周期为12小时;
(3)若回访该网址发现“死灰复燃”现象,系统将该网址再次发送给相关处置部门,同时系统认为该页面为高风险页面,将其回访周期缩短为当前周期的一半,加强回访与探测;
(4)若回访该网址未发现“死灰复燃”现象,系统认为该页面暂时安全,将其回访周期延长为当前周期的两倍。
(5)若被锁定的页面回访周期小于1.5小时,系统认为该页面为高危页面,向相关处置部门发出预警,由处置部门决定是否对该页面采取强制措施;若被锁定的页面回访周期大于96小时,系统认为该页面已安全,解除对其的锁定并将其网址从系统回访库中删除。
若该网页包含的敏感信息并不是在同一位置以同一网址出现,而是在该网站的其它位置出现,则由网络爬虫对该网站进行周期性的采集并再次利用关键词匹配判断其为新的敏感页面,重复上述流程。
锁定回访的具体流程见图4。
(五)截图结果存储与查询
对包含敏感信息的网页进行截图后,为方便用户日后浏览和查询,系统还设置了截图结果存储与查询功能。本发明采用Oracle 10g数据库来存储截图结果,共建有两张表:截图配置表(图5)和截图信息表(图6)。
用户在启动截图功能时,首先配置监测的网站名、监测的网站URL、监测的敏感关键词。截图配置任务编号、任务添加时间由系统自动添加。此外,用户还需设置所截图片外页和内页的本地存放地址,如图6所示。
设置好上述参数后,系统开始运行,匹配成功的网页以图片形式(.gif格式)保存到指定的本地路径,截图的其它相关信息会自动存储到数据库表中,方便用户进行查询和维护。
截图后的图片可采用数据库或文件两种方式进行存储:
(1)数据库存储形式:可以在数据库中添加图片的字段,并将图片以BLOB数据类型存储到数据库中,便于直接在数据库里查找图片并与其图片信息关联;
(2)文件存储形式:可以将所截图片直接保存在本地文件夹里,也可以将所截图片保存到FTP文件服务器里。
本发明采用数据库保存图片文件的属性及存储路径,图片文件本身以文件方式存储在本地硬盘中。用户可以依据监测网站、监测关键词、截图时间进行截图结果查询。
以政治类敏感关键词“黄岩岛”为例,共选择了10个热门网站:南方网、北方网、人民网、光明网、新华网、新浪网、中国网、中国新闻网、长城网、中华网,用户设置界面如图7所示;完成上述设置以后,系统会自动生成用户设置的监测任务,如图8所示;可对监测任务进行增加、删除、编辑等操作;截图结果显示界面如图9所示。单击外页截图或内页截图里的链接,则弹出该记录对应的本地存放的截图结果。单击标题或网站里的链接,则进入该记录对应的在线网页和网站。
对于实验结果,本发明采用截准率和截全率两个指标进行评价:
                                                            
Figure 990490DEST_PATH_IMAGE001
                   (式1)
           
Figure 804862DEST_PATH_IMAGE002
                (式2)
对“人民网”首页中标题含有“黄岩岛”的网页截取结果进行分析,实际截取网页总数190个,其中内页和外页各95个,理论应截取的网页总数206个(通过关键词查找首页中含有“黄岩岛”的标题个数),其中内页和外页各103个。内页截取成功数81个、外页截取成功数95个。依据式1和式2可得外页的截准率为100%、截全率为92.23%,内页的截准率为85.26%、截全率为92.23%。
从以上结果可以看出,外页的截准率很高且都能截取成功,截取下来的外页图片与其对应的网页内容基本一致。内页的截准率稍低,不一定都能将内页内容完整截取下来。此外,外页和内页实际截取的总数均小于理论应截取数,即截全率均小于100%。
主要原因有以下几个方面:
(1)外页一般为导航页,其加载速度比较稳定,一般打开即能很快被截取,所以外页截准率很高。而内页为正文页,各内页间加载内容和加载速度各异,且个别内页往往无法访问或已被删除,导致内页截准率稍低。
(2)部分截到的内页图片打开后显示是错误信息,或者相应链接不存在。一方面可能是链接本身的问题,有的内页在线打开显示的是一段文字如:“很抱歉,您访问页面时出错,5秒后将自动带您进入主页”,此页面可能已被管理删除,所以无法截取图片。另一方面,系统截图程序为防止页面长时间无法打开而程序一直停留在此等待截图,而设置了截取时间上限,若该网页打开速度比较慢,则有可能超过该上限而截不到图片。
(3)有的内页截图并未截取完整而缺失了部分内页信息,这是因为内页中有部分内容是动态变化的,例如FLASH动画或者需要从数据库中生成的表格,可能在截图时该动态内容还没有生成,因此未将图片信息捕获完整。这一点也是几乎所有截图插件都存在的问题。
(4)网页结构本身的问题。网站中个别网页结构不规范或过于复杂,以至于利用正则表达式无法解析出网页的所有链接信息,进而会丢失个别链接所对应的标题,因此外页和内页实际截取的总数均小于理论应截取数。
此外,系统在运行过程中还发现,若使用的浏览器版本较低,如IE6.0,截取的图片有可能是白板,若将浏览器升级为IE8.0则能顺利截图。

Claims (10)

1.一种面向网络敏感信息的截图取证与锁定回访的方法,包括面向网络敏感信息的截图取证与锁定回访系统,面向网络敏感信息的截图取证与锁定回访的系统包括计算中心和数据库服务器,计算中心与数据库服务器通信,其特征在于,该方法的具体步骤为:
1)利用网络爬虫采集网页数据;
2)对采集的数据进行预处理,然后利用正则表达式抽取网页中的信息,并利用这些信息进行敏感信息匹配;
3)对包含敏感信息的网页进行截图;
4)对包含敏感信息的网页进行锁定回访;
5)存储截图结果。
2.根据权利要求1所述的面向网络敏感信息的截图取证与锁定回访的方法,其特征在于,所述步骤1)中,网络爬虫为LoalaSam。
3.根据权利要求1所述的面向网络敏感信息的截图取证与锁定回访的方法,其特征在于,所述步骤2)中,预处理是指对网页进行规范化处理。
4.根据权利要求1所述的面向网络敏感信息的截图取证与锁定回访的方法,其特征在于,所述步骤2)中,利用正则表达式抽取网页中的标题、超链接信息。
5.根据权利要求1所述的面向网络敏感信息的截图取证与锁定回访的方法,其特征在于,所述步骤2)中,敏感信息匹配为标题匹配,其实现过程如下:
1)遍历网页包含的第一个超链接,获取该超链接对应的标题,对其标题进行分词;
2)将用户设定的关键词逐一与标题分词结果进行匹配,判断该标题是否包含设定的关键词;
3)若匹配成功,对该网页进行标记,用于后续外页截图;同时标记该超链接,用于后续内页截图;
4)若匹配未成功,返回1)继续遍历下一个超链接。
6.根据权利要求1所述的面向网络敏感信息的截图取证与锁定回访的方法,其特征在于,所述步骤3)中,利用Webbrowser插件中的Navigate及DrawToBitmap方法实现网页截图,其实现过程如下:
1)将用户所需截图的网页链接URL传递给Navigate方法;
2)Navigate方法将指定URL处的文档加载到WebBrowser插件中,同时为防止网页加载时间过长甚至无法加载成功,Navigate方法设定了时间参数来确保文档加载时间;
3)通过属性Width和Height得到WebBrowser插件所加载文档的宽度和高度,并封装成位图;
4)调用DrawToBitmap方法实现文档的截图并将截图保存至指定路径。
7.根据权利要求1所述的面向网络敏感信息的截图取证与锁定回访的方法,其特征在于,所述步骤4)中,对包含敏感信息的网页进行锁定回访的步骤为:
1)将包含敏感信息网页的网址加入回访库,锁定该网址;
2)对该网址进行定期回访;
3)若回访该网址发现“死灰复燃”现象,则将该网址再次发送给相关处置部门,将该网址的网页认定为高风险页面,同时将对该网址的回访周期缩短为当前周期的一半,加强回访与探测;若回访该网址未发现“死灰复燃”现象,则认为该网址暂时安全,将其回访周期延长为当前周期的两倍;所述“死灰复燃”现象是指包含敏感信息的网页经相关部门处置或删除一段时间后,在同一位置或该网站其它位置重新出现;
4)若被锁定的页面回访周期小于1.5小时,系统认为该页面为高危页面,向相关处置部门发出预警,由处置部门决定是否对该页面采取强制措施;若被锁定的页面回访周期大于96小时,则认为该页面已安全,解除对其的锁定并将其网址从回访库中删除;
5)若该网页包含的敏感信息并不是在同一位置以同一网址出现,而是在该网站的其它位置出现,则由网络爬虫对该网站进行周期性的采集并再次利用关键词匹配判断其为新的敏感页面,重复步骤1)~4)。
8.根据权利要求1所述的面向网络敏感信息的截图取证与锁定回访的方法,其特征在于,所述步骤5)中,利用Oracle 10g数据库来存储截图结果。
9.根据权利要求5所述的面向网络敏感信息的截图取证与锁定回访的方法,其特征在于,所述步骤1)中,利用基于多层隐马尔可夫模型的汉语词法分析系统ICTCLAS进行分词。
10.根据权利要求7所述的面向网络敏感信息的截图取证与锁定回访的方法,其特征在于,所述步骤2)中,定期回访的初始周期为12小时。
CN2012102502094A 2012-07-19 2012-07-19 一种面向网络敏感信息的截图取证与锁定回访的方法 Pending CN102902703A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012102502094A CN102902703A (zh) 2012-07-19 2012-07-19 一种面向网络敏感信息的截图取证与锁定回访的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012102502094A CN102902703A (zh) 2012-07-19 2012-07-19 一种面向网络敏感信息的截图取证与锁定回访的方法

Publications (1)

Publication Number Publication Date
CN102902703A true CN102902703A (zh) 2013-01-30

Family

ID=47574938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012102502094A Pending CN102902703A (zh) 2012-07-19 2012-07-19 一种面向网络敏感信息的截图取证与锁定回访的方法

Country Status (1)

Country Link
CN (1) CN102902703A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955449A (zh) * 2014-04-21 2014-07-30 安一恒通(北京)科技有限公司 定位目标样本的方法和装置
CN103997438A (zh) * 2014-06-03 2014-08-20 浪潮集团有限公司 一种云计算中自动监控分布式网络爬虫的方法
CN104123370A (zh) * 2014-07-24 2014-10-29 杭州安恒信息技术有限公司 数据库敏感信息探测方法及系统
CN104156490A (zh) * 2014-09-01 2014-11-19 北京奇虎科技有限公司 基于文字识别检测可疑钓鱼网页的方法及装置
CN104199962A (zh) * 2014-09-19 2014-12-10 合肥工业大学 一种基于三层可信网页取证模型的可信网页取证系统及其取证方法
CN104391636A (zh) * 2014-12-03 2015-03-04 成都中科创达软件有限公司 一种截屏方法及装置
CN104503674A (zh) * 2014-12-10 2015-04-08 深圳市金立通信设备有限公司 一种截屏图片生成方法
CN104571851A (zh) * 2014-12-10 2015-04-29 深圳市金立通信设备有限公司 一种终端
WO2015074301A1 (zh) * 2013-11-19 2015-05-28 孙燕群 一种通过网址记录网页内容和式样的方法
CN104881416A (zh) * 2014-02-28 2015-09-02 深圳市网安计算机安全检测技术有限公司 舆情的证据获取方法及系统
CN104954372A (zh) * 2015-06-12 2015-09-30 中国科学院信息工程研究所 一种钓鱼网站的取证与验证方法及系统
WO2016058484A1 (zh) * 2014-10-14 2016-04-21 阿里巴巴集团控股有限公司 一种屏幕敏感信息处理方法及装置
CN105825138A (zh) * 2015-01-04 2016-08-03 北京神州泰岳软件股份有限公司 一种敏感数据识别的方法和装置
CN105930142A (zh) * 2016-04-06 2016-09-07 广东欧珀移动通信有限公司 一种截屏处理方法、装置及智能终端
CN106294697A (zh) * 2016-08-08 2017-01-04 深圳市网安计算机安全检测技术有限公司 一种可定制裁减的网络舆情证据保全方法
CN106446215A (zh) * 2016-09-30 2017-02-22 广州特道信息科技有限公司 互联网大数据取证系统
CN107273497A (zh) * 2017-06-16 2017-10-20 郑州云海信息技术有限公司 一种漏洞信息采集方法和装置
CN109241391A (zh) * 2018-09-20 2019-01-18 四川长虹电器股份有限公司 一种解决字体反爬的爬虫方法
CN109784960A (zh) * 2017-11-10 2019-05-21 北京奇虎科技有限公司 一种创意自动化审核方法、装置和设备
CN112698894A (zh) * 2020-12-24 2021-04-23 维沃移动通信(杭州)有限公司 截屏方法、装置及电子设备
WO2022048141A1 (zh) * 2020-09-01 2022-03-10 北京沃东天骏信息技术有限公司 一种图像处理方法及装置、计算机可读存储介质
CN115459946A (zh) * 2022-08-02 2022-12-09 广州市玄武无线科技股份有限公司 一种异常网页的识别方法、装置、设备和计算机存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591992A (zh) * 2012-02-15 2012-07-18 苏州亚新丰信息技术有限公司 基于垂直搜索和聚焦爬虫技术的网页分类识别系统及方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591992A (zh) * 2012-02-15 2012-07-18 苏州亚新丰信息技术有限公司 基于垂直搜索和聚焦爬虫技术的网页分类识别系统及方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
MAGIC.Z: "《http://www.cnblogs.com/snowdream/archive/2011/05/16/get-webpage-snapshot-by-webbrowser-control.html》", 16 May 2011 *
俞鸿魁等: "《基于层叠隐马尔可夫模型的中文命名实体识别》", 《通信学报》 *
李霞等: "《基于DOM树及行文本统计去噪的网页文本抽取技术》", 《山东大学学报(理学版)》 *
杨秋平: "《网络舆情智能检测与分析系统的设计》", 《电脑知识与技术》 *
许鑫等: "《互联网侨情信息采集系统设计与实现》", 《现代图书情报技术》 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015074301A1 (zh) * 2013-11-19 2015-05-28 孙燕群 一种通过网址记录网页内容和式样的方法
CN104881416A (zh) * 2014-02-28 2015-09-02 深圳市网安计算机安全检测技术有限公司 舆情的证据获取方法及系统
CN103955449A (zh) * 2014-04-21 2014-07-30 安一恒通(北京)科技有限公司 定位目标样本的方法和装置
CN103997438A (zh) * 2014-06-03 2014-08-20 浪潮集团有限公司 一种云计算中自动监控分布式网络爬虫的方法
CN104123370A (zh) * 2014-07-24 2014-10-29 杭州安恒信息技术有限公司 数据库敏感信息探测方法及系统
CN104123370B (zh) * 2014-07-24 2017-11-24 杭州安恒信息技术有限公司 数据库敏感信息探测方法及系统
CN104156490A (zh) * 2014-09-01 2014-11-19 北京奇虎科技有限公司 基于文字识别检测可疑钓鱼网页的方法及装置
CN104199962A (zh) * 2014-09-19 2014-12-10 合肥工业大学 一种基于三层可信网页取证模型的可信网页取证系统及其取证方法
CN104199962B (zh) * 2014-09-19 2017-09-22 合肥工业大学 一种基于三层可信网页取证模型的可信网页取证系统及其取证方法
KR102084833B1 (ko) 2014-10-14 2020-03-04 알리바바 그룹 홀딩 리미티드 스크린 민감 정보를 처리하는 방법 및 장치
WO2016058484A1 (zh) * 2014-10-14 2016-04-21 阿里巴巴集团控股有限公司 一种屏幕敏感信息处理方法及装置
US10424094B2 (en) 2014-10-14 2019-09-24 Alibaba Group Holding Limited Processing screen sensitive information
KR20170070044A (ko) * 2014-10-14 2017-06-21 알리바바 그룹 홀딩 리미티드 스크린 민감 정보를 처리하는 방법 및 장치
CN104391636A (zh) * 2014-12-03 2015-03-04 成都中科创达软件有限公司 一种截屏方法及装置
CN104391636B (zh) * 2014-12-03 2018-03-20 成都中科创达软件有限公司 一种截屏方法及装置
CN104571851A (zh) * 2014-12-10 2015-04-29 深圳市金立通信设备有限公司 一种终端
CN104503674A (zh) * 2014-12-10 2015-04-08 深圳市金立通信设备有限公司 一种截屏图片生成方法
CN105825138A (zh) * 2015-01-04 2016-08-03 北京神州泰岳软件股份有限公司 一种敏感数据识别的方法和装置
CN105825138B (zh) * 2015-01-04 2019-02-15 北京神州泰岳软件股份有限公司 一种敏感数据识别的方法和装置
CN104954372B (zh) * 2015-06-12 2018-07-24 中国科学院信息工程研究所 一种钓鱼网站的取证与验证方法及系统
CN104954372A (zh) * 2015-06-12 2015-09-30 中国科学院信息工程研究所 一种钓鱼网站的取证与验证方法及系统
CN105930142A (zh) * 2016-04-06 2016-09-07 广东欧珀移动通信有限公司 一种截屏处理方法、装置及智能终端
CN106294697A (zh) * 2016-08-08 2017-01-04 深圳市网安计算机安全检测技术有限公司 一种可定制裁减的网络舆情证据保全方法
CN106446215A (zh) * 2016-09-30 2017-02-22 广州特道信息科技有限公司 互联网大数据取证系统
CN107273497A (zh) * 2017-06-16 2017-10-20 郑州云海信息技术有限公司 一种漏洞信息采集方法和装置
CN109784960A (zh) * 2017-11-10 2019-05-21 北京奇虎科技有限公司 一种创意自动化审核方法、装置和设备
CN109784960B (zh) * 2017-11-10 2024-05-14 北京奇虎科技有限公司 一种创意自动化审核方法、装置和设备
CN109241391A (zh) * 2018-09-20 2019-01-18 四川长虹电器股份有限公司 一种解决字体反爬的爬虫方法
WO2022048141A1 (zh) * 2020-09-01 2022-03-10 北京沃东天骏信息技术有限公司 一种图像处理方法及装置、计算机可读存储介质
CN112698894A (zh) * 2020-12-24 2021-04-23 维沃移动通信(杭州)有限公司 截屏方法、装置及电子设备
CN115459946A (zh) * 2022-08-02 2022-12-09 广州市玄武无线科技股份有限公司 一种异常网页的识别方法、装置、设备和计算机存储介质

Similar Documents

Publication Publication Date Title
CN102902703A (zh) 一种面向网络敏感信息的截图取证与锁定回访的方法
US7370061B2 (en) Method for querying XML documents using a weighted navigational index
US20220138404A1 (en) Browsing images via mined hyperlinked text snippets
Cai et al. iRobot: An intelligent crawler for Web forums
CN102270331B (zh) 基于可视化搜索的网络购物导航方法
CN102622443A (zh) 一种面向微博的定制化筛选系统及方法
US20140114942A1 (en) Dynamic Pruning of a Search Index Based on Search Results
CN104951539A (zh) 互联网数据中心有害信息监测系统
CN101751458A (zh) 一种网络舆情监控系统及方法
CN102622453A (zh) 基于本体的食品安全事件语义检索系统
CN102779169A (zh) 一种基于html标签的网页正文提取方法及装置
CN110309386B (zh) 一种网页爬取的方法和装置
CN114443928B (zh) 一种网络文本数据爬虫方法与系统
CN114117242A (zh) 数据查询方法和装置、计算机设备、存储介质
CN113849718A (zh) 互联网烟草科技情报信息自动采集装置、方法与存储介质
CN104077353B (zh) 一种黑链检测的方法及装置
CN104156458A (zh) 一种信息的提取方法及装置
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统
US20130311449A1 (en) Identifying Referred Documents Based on a Search Result
YesuRaju et al. A language independent web data extraction using vision based page segmentation algorithm
KR101910191B1 (ko) 통합 검색 서비스 제공 시스템
CN113407678A (zh) 知识图谱构建方法、装置和设备
Lv Design and implementation of domestic news collection system based on Python
Singh et al. User specific context construction for personalized multimedia retrieval
JP2002297601A (ja) 構造化文書管理方法および構造化文書管理装置およびプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130130