CN104036189A - 页面篡改检测方法及黑链数据库生成方法 - Google Patents

页面篡改检测方法及黑链数据库生成方法 Download PDF

Info

Publication number
CN104036189A
CN104036189A CN201410208997.XA CN201410208997A CN104036189A CN 104036189 A CN104036189 A CN 104036189A CN 201410208997 A CN201410208997 A CN 201410208997A CN 104036189 A CN104036189 A CN 104036189A
Authority
CN
China
Prior art keywords
page
black chain
characteristic
feature
described black
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410208997.XA
Other languages
English (en)
Inventor
刘起
郭峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410208997.XA priority Critical patent/CN104036189A/zh
Publication of CN104036189A publication Critical patent/CN104036189A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action

Abstract

本申请提供了一种检测页面篡改的方法及装置,其中,所述方法包括:生成黑链特征数据库,并在多台服务器中部署所述黑链特征数据库,所述黑链特征数据库中包括黑链特征数据;获取当前检测页面的特征信息;依据所述页面的特征信息确定对应的目标服务器;采用所述目标服务器中的黑链特征数据库与当前检测页面进行匹配,判断当前检测页面中是否包含所述黑链特征数据库中的黑链特征数据,若是,则判定当前页面为被篡改页面。本申请可以在尽可能减少人工干预的前提下,提高检测页面篡改的效率和准确率,尤其是在需检测页面数量众多,并且,所需匹配的黑链特征数据较多的情况下,提高检测页面篡改的效率和准确率。

Description

页面篡改检测方法及黑链数据库生成方法
本发明专利申请是申请日为2011年12月30日、申请号为201110457654.3、名称为“一种检测页面篡改的方法及装置”的中国发明专利申请的分案申请。
技术领域
本申请涉及计算机安全的技术领域,特别是涉及一种检测页面篡改的方法,以及一种检测页面篡改的装置。
背景技术
万维网成为大量信息的载体,为有效地提取并利用这些信息,搜索引擎(Search Engine)作为一个辅助人们检索信息的工具,成为用户访问万维网的入口和指南。
SEO(Search Engine Optimization,搜索引擎优化),是较为流行的网络营销方式,主要目的是增加特定关键字的曝光率以增加网站的能见度,使其提高搜索引擎排名,从而提高网站访问量,最终提升网站的销售能力或宣传能力。网站SEO数据表示本网站的内容在其它搜索引擎中被收录的数量,收录得越多就更容易被用户搜索到。
对于搜索引擎的这种特性,目前有些工具提供了黑链技术,黑链是SEO黑帽手法中相当普遍的一种手段,笼统地说,它就是指一些人用非正常的手段获取的其它网站的反向链接,最常见的黑链就是通过各种网站程序漏洞获取搜索引擎权重或者PR(PageRank,网页级别),较高的网站的WEBSHELL(匿名用户(入侵者)通过网站端口对网站服务器的某种程度上操作的权限),进而在被黑网站上链接自己的网站。
黑链主要针对搜索引擎,例如,对搜索引擎搜索出来的排名最靠前的几个网站进行简单的分析,查看其网站架构,关键词分布,以及外链等等,有可能发现一些网站排名非常好,而且关键词网页相关数都达到几百万,但网站架构一般,关键词密度不是很合适,最主要的是有些网站没有任何导出的链接,通过查看其反向链接才发现,绝大数外链都来自于黑链。SEO主要是靠高质量的外链来决定排名,按照百分比来讲,应超过50%,因此在权重较高的网站上做黑链有利于网站排名的。此外黑链一般以隐藏链接的模式,所以在网站的常规检查中管理员很难发现网站被做了黑链。目前,黑链一般用于暴利的黑(灰)色产业,例如私服,医疗,冷门高利润行业等等。黑链也已形成产业化。在实际应用中,如果用户没有做好安全防护工作,那么打开被黑链篡改的页面就会容易就会感染网站上的病毒。
现有技术中,对于黑链的检测通常是由人工,比如网站的站长,通过大量人工收集的篡改关键词,如hack、hacked by,六合彩、性经历、外挂,私服等匹配网页中的HTML正文,以判断其是否被黑链篡改。例如,被黑链篡改网页常见的特征分为黑客炫耀的特征如:然而,这种人工检测的方式严重依赖于人工收集的篡改关键词和人工的定期检测,效率十分低下。
再者,对于在所需检测页面数量众多,并且,所需匹配的黑链特征数据(如篡改关键词)较多的情况下,人工的方式显然完全无法应对。
因此,目前需要本领域技术人员解决的一个技术问题就是,提供一种检测页面篡改的机制,用以在尽可能减少人工干预的前提下,提高检测页面篡改的效率和准确率,尤其是在需检测页面数量众多,并且,所需匹配的黑链特征数据较多的情况下,提高检测页面篡改的效率和准确率。
发明内容
本申请提供一种检测页面篡改的方法,用以在尽可能减少人工干预的前提下,提高检测页面篡改的效率和准确率,尤其是在需检测页面数量众多,并且,所需匹配的黑链特征数据较多的情况下,提高检测页面篡改的效率和准确率。
本申请还提供了一种检测页面篡改的装置,用以保证上述方法在实际中的应用及实现。
为了解决上述问题,本申请公开了一种检测页面篡改的方法,包括:
生成黑链特征数据库,并在多台服务器中部署所述黑链特征数据库,所述黑链特征数据库中包括黑链特征数据;
获取当前检测页面的特征信息;
依据所述页面的特征信息确定对应的目标服务器;
采用所述目标服务器中的黑链特征数据库与当前检测页面进行匹配,判断当前检测页面中是否包含所述黑链特征数据库中的黑链特征数据,若是,则判定当前页面为被篡改页面。
优选的,所述服务器具有服务器标识,所述特征信息包括页面分类信息,所述依据页面的特征信息确定对应的目标服务器的步骤包括:
按照预置的页面分类信息与服务器标识的对应关系,提取当前页面分类信息对应的服务器标识;
将所述服务器标识对应的服务器确定为目标服务器。
优选的,所述特征信息包括页面的URL,所述服务器具有数值标识,所述依据页面的特征信息确定对应的服务器标识的步骤包括:
采用预设算法将当前检测页面的URL转换为数值;
按所述数值提取对应数值标识的服务器为目标服务器。
优选的,所述页面分类信息包括页面的内容分类信息,页面的类型分类信息,页面的属性分类信息。
优选的,所述生成黑链特征数据库的步骤包括:
采用已有的黑链特征数据搜索包含所述黑链特征数据的页面为特征页面;
分析所述黑链特征数据在特征页面中的布局,当发现布局异常时,从该特征页面中提取包含所述黑链特征数据的页面元素;
根据所述页面元素生成黑链规则,采用所述黑链规则在其它特征页面中进行匹配,并在匹配的特征页面中提取新的黑链特征数据;
保存所述黑链特征数据形成黑链特征数据库。
优选的,所述黑链特征数据包括篡改关键词和黑链URL。
优选的,所述分析所述黑链特征数据在特征页面中的布局的步骤包括:
判断所述黑链特征数据的页面元素位置是否在预设阈值范围内,若是,则判定所述黑链特征数据在特征页面中的布局异常;
和/或,
判断所述黑链特征数据的页面元素属性是否为不可见属性,若是,则判定所述黑链特征数据在特征页面中的布局异常;
和/或,
判断所述黑链特征数据的页面元素属性是否为对浏览器隐藏的属性,若是,则判定所述黑链特征数据在特征页面中的布局异常。
优选的,所述根据页面元素生成黑链规则的步骤为:
从包含所述篡改关键词和/或黑链URL的页面元素中,抽象出正则表达式作为黑链规则。
优选的,所述的方法,还包括:
按预设时间间隔更新所述黑链特征数据库。
本申请还公开了一种检测页面篡改的装置,包括:
数据库生成模块,用于生成黑链特征数据库,所述黑链特征数据库中包括黑链特征数据;
数据库部署模块,用于在多台服务器中部署所述黑链特征数据库;
特征信息获取模块,用于获取当前检测页面的特征信息;
目标服务器确定模块,用于依据所述页面的特征信息确定对应的目标服务器;
篡改检测模块,用于采用所述目标服务器中的黑链特征数据库与当前检测页面进行匹配,判断当前检测页面中是否包含所述黑链特征数据库中的黑链特征数据,若是,则判定当前页面为被篡改页面。
优选的,所述服务器具有服务器标识,所述特征信息包括页面分类信息,所述目标服务器确定模块包括:
标识提取子模块,用于按照预置的页面分类信息与服务器标识的对应关系,提取当前页面分类信息对应的服务器标识;
标识定位子模块,用于将所述服务器标识对应的服务器确定为目标服务器。
优选的,所述特征信息包括页面的URL,所述服务器具有数值标识,所述目标服务器确定模块包括:
URL转换子模块,用于采用预设算法将当前检测页面的URL转换为数值;
标识对应子模块,用于按所述数值提取对应数值标识的服务器为目标服务器。
优选的,所述数据库生成模块包括:
特征页面搜索子模块,用于采用已有的黑链特征数据搜索包含所述黑链特征数据的页面为特征页面;
布局分析子模块,用于分析所述黑链特征数据在特征页面中的布局;
页面元素提取子模块,用于在发现布局异常时,从该特征页面中提取包含所述黑链特征数据的页面元素;
黑链规则生成子模块,用于根据所述页面元素生成黑链规则;
黑链特征数据提取子模块,用于采用所述黑链规则在其它特征页面中进行匹配,并在匹配的特征页面中提取新的黑链特征数据,保存所述黑链特征数据形成黑链特征数据库。
优选的,所述布局分析子模块进一步包括:
第一判断单元,用于判断所述黑链特征数据的页面元素位置是否在预设阈值范围内,若是,则判定所述黑链特征数据在特征页面中的布局异常;
和/或,
第二判断单元,用于判断所述黑链特征数据的页面元素属性是否为不可见属性,若是,则判定所述黑链特征数据在特征页面中的布局异常;
和/或,
第三判断单元,用于判断所述黑链特征数据的页面元素属性是否为对浏览器隐藏的属性,若是,则判定所述黑链特征数据在特征页面中的布局异常。
优选的,所述黑链特征数据包括篡改关键词和黑链URL,所述黑链规则生成子模块包括:
正则表达式抽取单元,用于从包含所述篡改关键词和/或黑链URL的页面元素中,抽象出正则表达式作为黑链规则。
优选的,所述的装置,还包括:
数据库更新模块,用于按预设时间间隔更新所述黑链特征数据库。
与现有技术相比,本申请具有以下优点:
本申请通过将生成的黑链特征数据库在多台服务器中进行部署以分散单独服务器或客户端处理的压力,当接收到并发的多个页面篡改检测请求时,依据所请求检测页面的特征信息确定处理当前检测的服务器,由该服务器进行具体的篡改检测处理,从而能在需检测页面数量众多,并且,所需匹配的黑链特征数据较多的情况下,有效提高检测页面篡改的效率和准确率。
再者,本申请根据黑链特征数据库,判断当前检测页面中是否包含黑链特征数据,将包含黑链特征数据的页面确定为被篡改页面。在本申请实施例中,黑链特征数据库中的黑链特征可以不全部由人工收集,可以采用以下方式自动收集:通过已知的黑链特征数据结合搜索引擎技术,使用网络爬虫抓取包含此黑链特征数据的页面作为特征页面,通过分析此黑链特征数据在这些特征页面中的布局,若布局异常则从该异常的特征页面中提取包含所述黑链特征数据的页面元素,形成一套通用的正则表达式作为黑链规则,将该黑链规则在其它特征页面中进行匹配,并在匹配的特征页面中提取新的黑链特征数据。这样收集黑链特征数据不需人工干预,非常快速,并且,所收集的黑链特征数据的准确率也非常高,从而用在页面篡改检测时,能有效提高检测的效率和准确率。
并且,本申请实施例根据黑链特征数据,结合搜索引擎技术,使用网络爬虫抓取包含此黑链特征数据的页面,然后分析包含此黑链特征数据页面的布局,从而判定页面是否被篡改,并提取所述被篡改页面中包含所述黑链特征数据的页面元素,最终形成一套通用的正则表达式作为黑链规则。本申请无需人工干预,无需额外设置系统,采用正则表达式作为黑链规则在页面中进行匹配,以提取更多的黑链特征数据,训练更多黑链规则的方式,能更好地适用于当前黑链产业化的情形,不仅能降低成本,还能更快更多地发现被篡改的页面,有效提高检测页面篡改的效率。并且,基于网络爬虫技术和浏览器内核隔离沙箱技术的实现,也有效保证了检测页面篡改的安全性、可信度和准确度。
附图说明
图1是本申请的一种检测页面篡改的方法实施例的流程图;
图2是本申请的一种检测页面篡改的装置实施例的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
黑链,又被称作“网络牛皮癣”。公知的是,搜索引擎有一个排名系统,搜索引擎认为好的网站,在搜索结果的排名中就会靠前,相应地,网站的点击率就会越高。搜索引擎衡量一个网站的好坏有多方面的指标,其中非常重要的一点就是网站的外部链接。如果一个网站的外部链接都很不错,那么这个网站在搜索引擎中的排名就会相应地提高。
例如,某新开的网站在搜索引擎中的排名很靠后,之后某个权利高(排名好,质量高)的网站和这个新开的网站做了链接,那么搜索引擎就会认为这个新开的网站既然可以和这样权重高的网站做上链接,那么它的权重也不会低,所以这个网站在搜索引擎中的排名就会提升。如果有多个权重高的网站也都和这个网站做了链接,那么它的排名将会上升得非常快。
反之,如果一个新开的网站,没有任何背景,没有任何关系,它的权重不会很高,所以搜索引擎不会给它很高的排名,其在搜索结果中的排名就会比较靠后。对于搜索引擎的这种特性,目前有些工具提供了黑链技术,即通过入侵一些权重高的网站,入侵成功后将网站的链接插入到被入侵网站的页面中,从而实现链接的效果,并且通过隐藏网站链接,使别人在被入侵网站的页面上是看不到任何链接。
然而,目前采用黑链技术来实现搜索排名提升的,相当一部分是游戏私服网站、盗号木马网站、钓鱼网站和广告网站等不安全网站。对于这些不安全网站,搜索引擎不会给它们很高的排名,但通过“黑链”,它们的排名就会很靠前,在这种情况下,当使用搜索引擎的时候,点击打开这些网站的概率就会很高,如果用户没有做好安全防护工作,那么就会容易就会感染网站上的病毒。
正是本专利发明人发现这一问题的严重性,提出本申请实施例的核心构思之一在于,本申请通过将生成的黑链特征数据库在多台服务器中进行部署以分散单独服务器或客户端处理的压力,当接收到并发的多个页面篡改检测请求时,依据所请求检测页面的特征信息确定处理当前检测的服务器,由该服务器进行具体的篡改检测处理,从而能在需检测页面数量众多,所需匹配的黑链特征数据较多的情况下,有效提高检测页面篡改的效率和准确率。并且,在本申请实施例中,黑链特征数据库中的黑链特征可以不全部由人工收集,可以采用以下方式自动收集:通过已知的黑链特征数据结合搜索引擎技术,使用网络爬虫抓取包含此黑链特征数据的页面作为特征页面,通过分析此黑链特征数据在这些特征页面中的布局,若布局异常则从该异常的特征页面中提取包含所述黑链特征数据的页面元素,形成一套通用的正则表达式作为黑链规则,将该黑链规则在其它特征页面中进行匹配,并在匹配的特征页面中提取新的黑链特征数据。这样收集黑链特征数据不需人工干预,非常快速,并且,所收集的黑链特征数据的准确率也非常高,从而用在页面篡改检测时,能有效提高检测的效率和准确率。
参照图1,示出了本申请的一种检测页面篡改的方法实施例的步骤流程图,具体可以包括如下步骤:
步骤11、生成黑链特征数据库,并在多台服务器中部署所述黑链特征数据库,所述黑链特征数据库中包括黑链特征数据;
在具体实现中,所述黑链特征数据可以包括篡改关键词和黑链URL。如篡改关键词“传奇私服发布”,黑链URL“http://www.45u.com”等。
在本申请的一种优选实施例中,可以通过以下子步骤生成黑链特征数据库:
子步骤111、采用已有的黑链特征数据搜索包含所述黑链特征数据的页面为特征页面;
子步骤112、分析所述黑链特征数据在特征页面中的布局,当发现布局异常时,从该特征页面中提取包含所述黑链特征数据的页面元素;
子步骤113、根据所述页面元素生成黑链规则,采用所述黑链规则在其它特征页面中进行匹配,并在匹配的特征页面中提取新的黑链特征数据;
子步骤114、保存所述黑链特征数据形成黑链特征数据库;
在具体实现中,所述已有的黑链特征数据可以包括篡改关键词和黑链URL。根据所述已有的黑链特征数据,利用网络爬虫抓取包含所述黑链特征数据的页面,并将这些页面作为特征页面。
公知的是,搜索引擎从万维网上自动提取网页的功能是通过网络爬虫实现的。网络爬虫又称为网络蜘蛛,即Web Spider,网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
目前的网络爬虫可以分为通用爬虫和聚焦爬虫。通用爬虫是基于广度优先搜索的思想,从一个或若干个初始网页的URL(Uniform ResourceLocator,统一资源定位符)开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。而聚焦爬虫是一个自动下载网页的程序,用于定向抓取相关页面资源。它根据既定的抓取目标,有选择地访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫不同,聚焦爬虫并不追求大的覆盖,而是将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。
现有的黑链技术中,隐藏链接有一些固定技巧,例如搜索引擎对javascript的识别不是很好,通过javascript来输出隐藏的div。这样的话,人工直接通过页面无法看到这些链接,而搜索引擎确认为这些链接是有效的。代码为:首先通过javascript写前面的div,设置display为none。然后输出一个table,table中包含了要挂的黑链。最后再通过javascript输出后半部分div。
采用浏览器内核的隔离沙箱技术可以快速、有效地察觉出页面被篡改。具体而言,浏览器内核的隔离沙箱技术为浏览器内核,比如IE或firefox,构建了一个安全的虚拟执行环境。用户通过浏览器所作的任何写磁盘操作,都将重定向到一个特定的临时文件夹中。这样,即使网页中包含病毒,木马,广告等恶意程序,被强行安装后,也只是安装到了临时文件夹中,不会对用户设备造成危害。浏览器内核负责对网页语法的解释(如HTML、JavaScript)并渲染(显示)网页。所以,通常所谓的浏览器内核也就是对页面进行下载、解析、执行、渲染的引擎,该引擎决定了浏览器如何显示网页的内容以及页面的格式信息。
根据浏览器内核的上述操作特性,采用隔离沙箱技术,可以安全地分析黑链特征数据在特征页面中的布局是否发生异常,具体而言,可以通过分析所述黑链特征数据的页面元素位置和属性,来判定黑链特征数据在特征页面中的布局是否异常,例如,判断所述黑链特征数据的页面元素的位置是否不在预设阈值范围内,所述黑链特征数据的页面元素是否具有不可见的属性,和/或,所述黑链特征数据的页面元素是否具有对浏览器隐藏的属性,若是,则判定黑链特征数据在特征页面中的布局异常。例如,若检测到某个页面的超链接是不可见的,或者,页面中某个html标签元素的长宽高是负值,则可判定该页面的布局异常,是被篡改的页面。
当发现布局异常时,从该布局异常的特征页面中提取包含所述所述篡改关键词和/或黑链URL的页面元素;然后从包含所述篡改关键词和/或黑链URL的页面元素中,抽象出正则表达式作为黑链规则。
公知的是,正则表达式是用于进行文本匹配的工具,通常由一些普通字符和一些元字符(metacharacters)组成。普通字符包括大小写的字母和数字,而元字符则具有特殊的含义。正则表达式的匹配可以理解为,在给定的字符串中,寻找与给定的正则表达式相匹配的部分。有可能字符串里有不止一个部分满足给定的正则表达式,这时每一个这样的部分被称为一个匹配。匹配在本文里可以包括三种含义:一种是形容词性的,比如说一个字符串匹配一个表达式;一种是动词性的,比如说在字符串里匹配正则表达式;还有一种是名词性的,就是刚刚说到的“字符串中满足给定的正则表达式的一部分”。
以下通过举例对正则表达式的生成规则进行说明。
假设要查找hi,则可以使用正则表达式hi。这个正则表达式可以精确匹配这样的字符串:由两个字符组成,前一个字符是h,后一个是i。在实际中,正则表达式是可以忽略大小写的。如果很多单词里都包含hi这两个连续的字符,比如him,history,high等等。用hi来查找的话,这此单词里面的hi也会被找出来。如果要精确地查找hi这个单词的话,则应该使用\bhi\b。其中,\b是正则表达式的一个元字符,它代表着单词的开头或结尾,也就是单词的分界处。虽然通常英文的单词是由空格或标点符号或换行来分隔的,但是\b并不匹配这些单词分隔符中的任何一个,它只匹配一个位置。假如要找的是hi后面不远处跟着一个Lucy,则应该用\bhi\b.*\bLucy\b。其中,.是另一个元字符,匹配除了换行符以外的任意字符。*同样是元字符,它代表的是数量——即指定*前边的内容可以连续重复出现任意次以使整个表达式得到匹配。现在\bhi\b.*\bLucy\b的意思就很明显了:先是一个单词hi,然后是任意个任意字符(但不能是换行),最后是Lucy这个单词。
例如,在页面布局异常的A页面的html片段里,提取包含黑链特征数据的页面元素如下:
<script>document.write('<d'+'iv st'+'yle'+'="po'+'si'+'tio'+'n:a'+'bso'+'lu'+'te;l'+'ef'+'t:'+'-'+'10'+'00'+'0'+'p'+'x;'+'"'+'>')>××××<script>document.write('<'+'/d'+'i'+'v>');</script>
根据上述页面元素生成作为黑链规则的正则表达式为:
<script.*?>document\.write.*?\(.*?\+.*?\+.*?\+.*?\+.*?\+.*?\).*?</script>([\S\s]+?)</div>
或如,在页面布局异常的B页面的html片段里,提取包含黑链特征数据的页面元素如下:
<a href=“http://www.45u.com”style=”margin-left:-83791;”>;
根据上述页面元素生成作为黑链规则的正则表达式为:
<a\s*href\s*=["\'].+?["\']\s*style=["\'][\w+\-]+:-[0-9]+.*?["\'].*?>.*?</a>。
当然,上述生成黑链规则的方法仅仅用作示例,本领域技术人员根据实际情况采用任一种黑链规则的生成方式都是可行的,本申请对此无需加以限制。
采用黑链规则在其它特征页面中进行匹配,可以提取更多的黑链特征数据,训练更多黑链规则,最终可形成针对全网黑链的黑链特征数据库。
由于挂黑链如今已形成一个产业链,所以相同的篡改关键词和/或黑链URL会大量出现在其它被篡改的页面中。采用正则表达式作为黑链规则在页面中进行匹配,以提取更多的黑链特征数据,训练更多黑链规则,更适用于当前黑链产业化的情形,能更快更多地发现被篡改的页面,有效提高检测页面篡改的效率。
为适用所需检测页面数量众多,并且,所需匹配的黑链特征数据较多的情形,在本申请实施例中,需要将所生成的黑链特征数据库部署到多台服务器中,如部署到后台的10台服务器中,每台服务器中所部署的黑链特征数据库内容相同。
在具体实现中,由于黑链特征数据具有一定的时效性,可以按预设时间间隔发起对所述黑链特征数据库的更新,具体可以通过重复上述子步骤S111—S114完成黑链特征数据库的更新。
步骤12、获取当前检测页面的特征信息;
步骤13、依据所述页面的特征信息确定对应的目标服务器;
在具体实现中,对于黑链特征库所部署的服务器,可以分别设置服务器标识,所述标识可以采用任一种规则和形式设置,比如,数字排序,字符排序等,本申请对此不作限制。
作为本申请实施例具体应用的一种示例,所述特征信息可以包括页面分类信息,在这种情况下,所述步骤103具体可以包括如下子步骤:
子步骤S311、按照预置的页面分类信息与服务器标识的对应关系,提取当前页面分类信息对应的服务器标识;
子步骤S312、将所述服务器标识对应的服务器确定为目标服务器。
在具体实现中,所述页面分类信息可以为页面的内容分类信息,例如,根据页面内容将页面分为游戏类、电影类、小说类、视频类、音乐类、购物类、邮箱类、生活类、银行类、旅游类等;预置上述各类页面内容分别与服务器标识的对应如下表所示:
参照上表,若获取到当前检测页面的内容分类为游戏类,则确定目标服务器为aaa标识的服务器,若获取到当前检测页面的内容分类为旅游类,则确定目标服务器为kkk标识的服务器。
在具体应用中,所述页面分类信息还可以是页面类型的分类信息,例如,根据页面类型将页面分成:HTML型首页、Flash型首页、导入首页、HTML型一级页面、HTML型页面中块对应的二级页面、HTML型页面中块内容对应的三级页面、通用一级页面、通用二级页面、列表一级页面、列表二级页面;预置上述各类页面类型分别与服务器标识的对应如下表所示:
参照上表,若获取到当前检测页面的类型为通用一级页面,则确定目标服务器为777标识的服务器,若获取到当前检测页面的类型为HTML型首页,则确定目标服务器为111标识的服务器。
在实际中,本领域技术人员采用任一种页面分类信息均是可行的,例如,还可以采用页面的属性分类信息,页面的标签分类信息等,本申请实施例对此无需加以任何限制。
在本申请的另一种优选实施例中,所述特征信息可以包括页面的URL,所述服务器具有数值标识,在这种情况下,所述步骤103具体可以包括如下子步骤:
子步骤S321、采用预设算法将当前检测页面的URL转换为数值;
子步骤S322、按所述数值提取对应数值标识的服务器为目标服务器。
例如,假设当前黑链数据库部署于n台服务器上,在获取到当前检测页面的URL(统一资源定位符,网页地址)时,将该URL作为输入,调用随机算法,如MD5算法,获得某一字符串(如32字节的字符串),然后将字符串采用某种映射规则映射到一数值,将该数值作为对应的服务器n的值,如获得的数值为2,即获得将要保存的服务器标识为2,即可确定目标服务器为标识2的服务器。
当然,上述依据页面的特征信息确定对应的目标服务器的方法仅仅用作示例,本领域技术人员可以根据实际情况采用任一种方法,比如采用将页面的标签字符串转换为固定值的方法等,本申请对此无需加以限制。
步骤14、采用所述目标服务器中的黑链特征数据库与当前检测页面进行匹配,判断当前检测页面中是否包含所述黑链特征数据库中的黑链特征数据,若是,则判定当前页面为被篡改页面。
在实际中,若当前检测页面中未包含所述黑链特征数据库中的黑链特征数据,则可判定当前页面未被篡改。
本发明实施例通过采用对黑链特征数据库进行分布式处理和应用的架构,当存在多个页面的并发检测请求时,能有效分散服务器的检测压力,从而有效节省系统资源。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
参考图2,其示出了本申请的一种检测页面篡改的装置实施例的结构框图,具体可以包括以下模块:
数据库生成模块21,用于生成黑链特征数据库,所述黑链特征数据库中包括黑链特征数据;
数据库部署模块22,用于在多台服务器中部署所述黑链特征数据库;
特征信息获取模块23,用于获取当前检测页面的特征信息;
目标服务器确定模块24,用于依据所述页面的特征信息确定对应的目标服务器;
篡改检测模块25,用于采用所述目标服务器中的黑链特征数据库与当前检测页面进行匹配,判断当前检测页面中是否包含所述黑链特征数据库中的黑链特征数据,若是,则判定当前页面为被篡改页面。
在本申请的一种优选实施例中,所述服务器具有服务器标识,所述特征信息包括页面分类信息,在这种情况下,所述目标服务器确定模块24可以包括以下子模块:
标识提取子模块,用于按照预置的页面分类信息与服务器标识的对应关系,提取当前页面分类信息对应的服务器标识;
标识定位子模块,用于将所述服务器标识对应的服务器确定为目标服务器。
在本申请的另一种优选实施例中,所述特征信息包括页面的URL,所述服务器具有数值标识,在这种情况下,所述目标服务器确定模块24可以包括以下子模块:
URL转换子模块,用于采用预设算法将当前检测页面的URL转换为数值;
标识对应子模块,用于按所述数值提取对应数值标识的服务器为目标服务器。
在具体实现中,本申请实施例还可以包括数据库更新模块,用于按预设时间间隔更新所述黑链特征数据库。
在本申请的一种优选实施例中,所述数据库生成模块21可以包括如下子模块:
特征页面搜索子模块,用于采用已有的黑链特征数据搜索包含所述黑链特征数据的页面为特征页面;
布局分析模块,用于分析所述黑链特征数据在特征页面中的布局;
页面元素提取模块,用于在发现布局异常时,从该特征页面中提取包含所述黑链特征数据的页面元素;
黑链规则生成模块,用于根据所述页面元素生成黑链规则;
黑链特征数据提取模块,用于采用所述黑链规则在其它特征页面中进行匹配,并在匹配的特征页面中提取新的黑链特征数据,保存所述黑链特征数据形成黑链特征数据库。
在具体实现中,所述黑链特征数据可以包括篡改关键词和黑链URL。
作为本申请实施例具体应用的一种示例,所述布局分析子模块可以包括如下单元:
第一判断单元,用于判断所述黑链特征数据的页面元素位置是否在预设阈值范围内,若是,则判定所述黑链特征数据在特征页面中的布局异常;
和/或,
第二判断单元,用于判断所述黑链特征数据的页面元素属性是否为不可见属性,若是,则判定所述黑链特征数据在特征页面中的布局异常;
和/或,
第三判断单元,用于判断所述黑链特征数据的页面元素属性是否为对浏览器隐藏的属性,若是,则判定所述黑链特征数据在特征页面中的布局异常。
在具体应用中,所述黑链规则生成子模块可以包括如下单元:
正则表达式抽取单元,用于从包含所述篡改关键词和/或黑链URL的页面元素中,抽象出正则表达式作为黑链规则。
由于所述装置实施例基本相应于前述图1所示的方法实施例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此就不赘述了。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种检测页面篡改的方法,以及,一种检测页面篡改的装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (22)

1.一种页面篡改检测方法,其包括:
获取当前检测页面的特征信息;
依据所获取的特征信息确定对应的目标服务器;
采用所述目标服务器中的黑链特征数据库与当前检测页面进行匹配以判断当前检测页面中是否包含所述黑链特征数据库中的黑链特征数据;
如果包含,则判定当前页面为被篡改页面。
2.如权利要求1所述的方法,其中,所述黑链特征数据库部署在多台服务器上。
3.如权利要求1或2所述的方法,其中,所述服务器具有服务器标识,所述特征信息包括页面分类信息,所述依据页面的特征信息确定对应的目标服务器的步骤包括:
按照预置的页面分类信息与服务器标识的对应关系,提取当前页面分类信息对应的服务器标识;
将所述服务器标识对应的服务器确定为目标服务器。
4.如权利要求3所述的方法,其中,所述页面分类信息包括页面的内容分类信息、页面的类型分类信息、页面的标签分类信息和/或页面的属性分类信息。
5.如权利要求1或2所述的方法,其中,所述特征信息包括页面的URL,所述服务器具有数值标识,所述依据页面的特征信息确定对应的服务器标识的步骤包括:
采用预设算法将当前检测页面的URL转换为数值;
按所述数值提取对应数值标识的服务器并将其作为目标服务器。
6.如权利要求1至5中任一项所述的方法,其中,所述黑链特征数据库按照下面步骤生成:
采用已有的黑链特征数据搜索包含所述黑链特征数据的页面为特征页面;
分析所述黑链特征数据在特征页面中的布局,当发现布局异常时,从该特征页面中提取包含所述黑链特征数据的页面元素;
根据所述页面元素生成黑链规则,采用所述黑链规则在其它特征页面中进行匹配,并在匹配的特征页面中提取新的黑链特征数据;
保存所述黑链特征数据形成黑链特征数据库。
7.如权利要求6所述的方法,其中,所述黑链特征数据包括篡改关键词和黑链URL。
8.如权利要求6所述的方法,其中,所述分析所述黑链特征数据在特征页面中的布局进一步包括:
判断所述黑链特征数据的页面元素位置是否在预设阈值范围内,若是,则判定所述黑链特征数据在特征页面中的布局异常;
和/或,
判断所述黑链特征数据的页面元素属性是否为不可见属性,若是,则判定所述黑链特征数据在特征页面中的布局异常;
和/或,
判断所述黑链特征数据的页面元素属性是否为对浏览器隐藏的属性,若是,则判定所述黑链特征数据在特征页面中的布局异常。
9.如权利要求7所述的方法,其中,所述根据页面元素生成黑链规则的步骤为:
从包含所述篡改关键词和/或黑链URL的页面元素中,抽象出正则表达式作为黑链规则。
10.如权利要求7所述的方法,其中,还包括:
按预设时间间隔更新所述黑链特征数据库。
11.一种黑链数据库生成方法,其包括:
采用已有的黑链特征数据搜索包含所述黑链特征数据的页面为特征页面;
分析所述黑链特征数据在特征页面中的布局,当发现布局异常时,从该特征页面中提取包含所述黑链特征数据的页面元素;
根据所述页面元素生成黑链规则,采用所述黑链规则在其它特征页面中进行匹配,并在匹配的特征页面中提取新的黑链特征数据;
保存所述黑链特征数据形成黑链特征数据库。
12.如权利要求11所述的方法,其中,所述黑链特征数据包括篡改关键词和黑链URL。
13.如权利要求12所述的方法,其中,所述分析所述黑链特征数据在特征页面中的布局进一步包括:
判断所述黑链特征数据的页面元素位置是否在预设阈值范围内,若是,则判定所述黑链特征数据在特征页面中的布局异常;
和/或,
判断所述黑链特征数据的页面元素属性是否为不可见属性,若是,则判定所述黑链特征数据在特征页面中的布局异常;
和/或,
判断所述黑链特征数据的页面元素属性是否为对浏览器隐藏的属性,若是,则判定所述黑链特征数据在特征页面中的布局异常。
14.如权利要求13所述的方法,其中,所述根据页面元素生成黑链规则的步骤为:
从包含所述篡改关键词和/或黑链URL的页面元素中,抽象出正则表达式作为黑链规则。
15.如权利要求11至14中任一项所述的方法,其中,还包括:
按预设时间间隔更新所述黑链特征数据库。
16.一种页面篡改检测方法,其包括:
获取当前检测页面的URL;
采用预设算法将当前检测页面的URL转换为数值;
按所述数值提取具有对应数值标识的服务器并将其作为目标服务器;
采用所述目标服务器中的黑链特征数据库与当前检测页面进行匹配以判断当前检测页面中是否包含所述黑链特征数据库中的黑链特征数据;
如果包含,则判定当前页面为被篡改页面。
17.如权利要求16所述的方法,其中,所述黑链特征数据库部署在多台服务器上。
18.如权利要求16或17所述的方法,其中,所述黑链特征数据库按照下面步骤生成:
采用已有的黑链特征数据搜索包含所述黑链特征数据的页面为特征页面;
分析所述黑链特征数据在特征页面中的布局,当发现布局异常时,从该特征页面中提取包含所述黑链特征数据的页面元素;
根据所述页面元素生成黑链规则,采用所述黑链规则在其它特征页面中进行匹配,并在匹配的特征页面中提取新的黑链特征数据;
保存所述黑链特征数据形成黑链特征数据库。
19.如权利要求18所述的方法,其中,所述黑链特征数据包括篡改关键词和黑链URL。
20.如权利要求18所述的方法,其中,所述分析所述黑链特征数据在特征页面中的布局进一步包括:
判断所述黑链特征数据的页面元素位置是否在预设阈值范围内,若是,则判定所述黑链特征数据在特征页面中的布局异常;
和/或,
判断所述黑链特征数据的页面元素属性是否为不可见属性,若是,则判定所述黑链特征数据在特征页面中的布局异常;
和/或,
判断所述黑链特征数据的页面元素属性是否为对浏览器隐藏的属性,若是,则判定所述黑链特征数据在特征页面中的布局异常。
21.如权利要求18所述的方法,其中,所述根据页面元素生成黑链规则的步骤为:
从包含所述篡改关键词和/或黑链URL的页面元素中,抽象出正则表达式作为黑链规则。
22.如权利要求16至21中任一项所述的方法,还包括:
按预设时间间隔更新所述黑链特征数据库。
CN201410208997.XA 2014-05-16 2014-05-16 页面篡改检测方法及黑链数据库生成方法 Pending CN104036189A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410208997.XA CN104036189A (zh) 2014-05-16 2014-05-16 页面篡改检测方法及黑链数据库生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410208997.XA CN104036189A (zh) 2014-05-16 2014-05-16 页面篡改检测方法及黑链数据库生成方法

Publications (1)

Publication Number Publication Date
CN104036189A true CN104036189A (zh) 2014-09-10

Family

ID=51466957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410208997.XA Pending CN104036189A (zh) 2014-05-16 2014-05-16 页面篡改检测方法及黑链数据库生成方法

Country Status (1)

Country Link
CN (1) CN104036189A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302851A (zh) * 2015-09-10 2016-02-03 国家计算机网络与信息安全管理中心 一种基于文件序列化的自动机远程分发和初始化方法
CN105488402A (zh) * 2014-12-23 2016-04-13 哈尔滨安天科技股份有限公司 一种暗链的检测方法及系统
CN106355087A (zh) * 2015-07-17 2017-01-25 腾讯科技(深圳)有限公司 一种病毒检测结果的监控方法及装置
CN108600247A (zh) * 2018-05-02 2018-09-28 尚谷科技(天津)有限公司 一种网站钓鱼伪装识别方法
CN111031024A (zh) * 2019-12-07 2020-04-17 杭州安恒信息技术股份有限公司 一种暗链验证平台及其暗链验证方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488402A (zh) * 2014-12-23 2016-04-13 哈尔滨安天科技股份有限公司 一种暗链的检测方法及系统
CN106355087A (zh) * 2015-07-17 2017-01-25 腾讯科技(深圳)有限公司 一种病毒检测结果的监控方法及装置
CN105302851A (zh) * 2015-09-10 2016-02-03 国家计算机网络与信息安全管理中心 一种基于文件序列化的自动机远程分发和初始化方法
CN105302851B (zh) * 2015-09-10 2018-12-21 国家计算机网络与信息安全管理中心 一种基于文件序列化的自动机远程分发和初始化方法
CN108600247A (zh) * 2018-05-02 2018-09-28 尚谷科技(天津)有限公司 一种网站钓鱼伪装识别方法
CN111031024A (zh) * 2019-12-07 2020-04-17 杭州安恒信息技术股份有限公司 一种暗链验证平台及其暗链验证方法
CN111031024B (zh) * 2019-12-07 2022-02-11 杭州安恒信息技术股份有限公司 一种暗链验证平台及其暗链验证方法

Similar Documents

Publication Publication Date Title
CN102446255B (zh) 一种检测页面篡改的方法及装置
CN102436563B (zh) 一种检测页面篡改的方法及装置
Vishwakarma et al. Detection and veracity analysis of fake news via scrapping and authenticating the web search
CN102591965B (zh) 一种黑链检测的方法及装置
CN110537180B (zh) 用于直接浏览器内标记因特网内容中的元素的系统和方法
WO2019218514A1 (zh) 网页目标信息的提取方法、装置及存储介质
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
US11907644B2 (en) Detecting compatible layouts for content-based native ads
CN104036190A (zh) 一种检测页面篡改的方法及装置
CN104156490A (zh) 基于文字识别检测可疑钓鱼网页的方法及装置
CN105824822A (zh) 一种由钓鱼网页聚类定位目标网页的方法
CN104036189A (zh) 页面篡改检测方法及黑链数据库生成方法
CN107786537A (zh) 一种基于互联网交叉搜索的孤页植入攻击检测方法
CN109146625B (zh) 一种基于内容的多版本App更新评价方法及系统
CN103679053A (zh) 一种网页篡改的检测方法及装置
CN105868290A (zh) 一种展现搜索结果的方法及装置
CN103593615A (zh) 一种网页篡改的检测方法及装置
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN104077353B (zh) 一种黑链检测的方法及装置
CN114117299A (zh) 一种网站入侵篡改检测方法、装置、设备及存储介质
CN117473512A (zh) 基于网络测绘的漏洞风险评估方法
WO2015074455A1 (zh) 一种计算关联网页URL模式pattern的方法和装置
CN104063491A (zh) 一种检测页面篡改的方法及装置
CN104063494A (zh) 页面篡改检测方法及黑链数据库生成方法
Carpineto et al. Automatic assessment of website compliance to the European cookie law with CooLCheck

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140910