CN102436563A - 一种检测页面篡改的方法及装置 - Google Patents

一种检测页面篡改的方法及装置 Download PDF

Info

Publication number
CN102436563A
CN102436563A CN2011104561321A CN201110456132A CN102436563A CN 102436563 A CN102436563 A CN 102436563A CN 2011104561321 A CN2011104561321 A CN 2011104561321A CN 201110456132 A CN201110456132 A CN 201110456132A CN 102436563 A CN102436563 A CN 102436563A
Authority
CN
China
Prior art keywords
page
black chain
characteristic
black
layout
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011104561321A
Other languages
English (en)
Other versions
CN102436563B (zh
Inventor
刘起
郭峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
360 Digital Security Technology Group Co Ltd
Original Assignee
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qizhi Software Beijing Co Ltd filed Critical Qizhi Software Beijing Co Ltd
Priority to CN201110456132.1A priority Critical patent/CN102436563B/zh
Publication of CN102436563A publication Critical patent/CN102436563A/zh
Application granted granted Critical
Publication of CN102436563B publication Critical patent/CN102436563B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请提供了一种检测页面篡改的方法和装置,其中,所述的方法包括:生成黑链特征数据库,所述黑链特征数据库中包括黑链特征数据;判断当前检测页面中是否包含所述黑链特征数据,若是,则判定当前页面为被篡改页面。本申请能够在尽可能减少人工干预的前提下,提高检测页面篡改的效率和准确率。

Description

一种检测页面篡改的方法及装置
技术领域
本申请涉及计算机安全的技术领域,特别是涉及一种检测页面篡改的方法,以及一种检测页面篡改的装置。
背景技术
万维网成为大量信息的载体,为有效地提取并利用这些信息,搜索引擎(Search Engine)作为一个辅助人们检索信息的工具,成为用户访问万维网的入口和指南。
SEO(Search Engine Optimization,搜索引擎优化),是较为流行的网络营销方式,主要目的是增加特定关键字的曝光率以增加网站的能见度,使其提高搜索引擎排名,从而提高网站访问量,最终提升网站的销售能力或宣传能力。网站SEO数据表示本网站的内容在其它搜索引擎中被收录的数量,收录得越多就更容易被用户搜索到。
对于搜索引擎的这种特性,目前有些工具提供了黑链技术,黑链是SEO黑帽手法中相当普遍的一种手段,笼统地说,它就是指一些人用非正常的手段获取的其它网站的反向链接,最常见的黑链就是通过各种网站程序漏洞获取搜索引擎权重或者PR(PageRank,网页级别),较高的网站的WEBSHELL(匿名用户(入侵者)通过网站端口对网站服务器的某种程度上操作的权限),进而在被黑网站上链接自己的网站。
黑链主要针对搜索引擎,例如,对搜索引擎搜索出来的排名最靠前的几个网站进行简单的分析,查看其网站架构,关键词分布,以及外链等等,有可能发现一些网站排名非常好,而且关键词网页相关数都达到几百万,但网站架构一般,关键词密度不是很合适,最主要的是有些网站没有任何导出的链接,通过查看其反向链接才发现,绝大数外链都来自于黑链。SEO主要是靠高质量的外链来决定排名,按照百分比来讲,应超过50%,因此在权重较高的网站上做黑链有利于网站排名的。此外黑链一般以隐藏链接的模式,所以在网站的常规检查中管理员很难发现网站被做了黑链。目前,黑链一般用于暴利的黑(灰)色产业,例如私服,医疗,冷门高利润行业等等。黑链也已形成产业化。在实际应用中,如果用户没有做好安全防护工作,那么打开被黑链篡改的页面就会容易就会感染网站上的病毒。
现有技术中,对于黑链的检测通常是由人工,比如网站的站长,通过大量人工收集的篡改关键词,如hack、hacked by,六合彩、性经历、外挂,私服等匹配网页中的HTML正文,以判断其是否被黑链篡改。例如,被黑链篡改网页常见的特征分为黑客炫耀的特征如:然而,这种人工检测的方式严重依赖于人工收集的篡改关键词和人工的定期检测,效率十分低下。
因此,目前需要本领域技术人员解决的一个技术问题就是,提供一种检测页面篡改的机制,用以在尽可能减少人工干预的前提下,提高检测页面篡改的效率和准确率。
发明内容
本申请提供一种检测页面篡改的方法,用以在尽可能减少人工干预的前提下,提高检测页面篡改的效率和准确率。
本申请还提供了一种检测页面篡改的装置,用以保证上述方法在实际中的应用及实现。
为了解决上述问题,本申请公开了一种检测页面篡改的方法,具体可以包括:
生成黑链特征数据库,所述黑链特征数据库中包括黑链特征数据;
判断当前检测页面中是否包含所述黑链特征数据,若是,则判定当前页面为被篡改页面。
优选的是,所述生成黑链特征数据库的步骤可以包括:
采用已有的黑链特征数据搜索包含所述黑链特征数据的页面为特征页面;
分析所述黑链特征数据在特征页面中的布局,当发现布局异常时,从该特征页面中提取包含所述黑链特征数据的页面元素;
根据所述页面元素生成黑链规则,采用所述黑链规则在其它特征页面中进行匹配,并在匹配的特征页面中提取新的黑链特征数据;
保存所述黑链特征数据形成黑链特征数据库。
优选的是,所述黑链特征数据可以包括篡改关键词和黑链URL。
优选的是,所述分析所述黑链特征数据在特征页面中的布局的步骤可以包括:
判断所述黑链特征数据的页面元素位置是否在预设阈值范围内,若是,则判定所述黑链特征数据在特征页面中的布局异常;
和/或,
判断所述黑链特征数据的页面元素属性是否为不可见属性,若是,则判定所述黑链特征数据在特征页面中的布局异常;
和/或,
判断所述黑链特征数据的页面元素属性是否为对浏览器隐藏的属性,若是,则判定所述黑链特征数据在特征页面中的布局异常。
优选的是,所述根据页面元素生成黑链规则的步骤可以为:
从包含所述篡改关键词和/或黑链URL的页面元素中,抽象出正则表达式作为黑链规则。
本申请同时公开了一种检测页面篡改的装置,具体可以包括:
数据库生成模块,用于生成黑链特征数据库,所述黑链特征数据库中包括黑链特征数据;
页面检测模块,用于判断当前检测页面中是否包含所述黑链特征数据,若是,则判定当前页面为被篡改页面。
优选的是,所述数据库生成模块可以包括:
特征页面搜索子模块,用于采用已有的黑链特征数据搜索包含所述黑链特征数据的页面为特征页面;
布局分析子模块,用于分析所述黑链特征数据在特征页面中的布局;
页面元素提取子模块,用于在发现布局异常时,从该特征页面中提取包含所述黑链特征数据的页面元素;
黑链规则生成子模块,用于根据所述页面元素生成黑链规则;
黑链特征数据提取子模块,用于采用所述黑链规则在其它特征页面中进行匹配,并在匹配的特征页面中提取新的黑链特征数据,保存所述黑链特征数据形成黑链特征数据库。
优选的是,所述黑链特征数据可以包括篡改关键词和黑链URL。
优选的是,所述布局分析子模块可以包括:
第一判断单元,用于判断所述黑链特征数据的页面元素位置是否在预设阈值范围内,若是,则判定所述黑链特征数据在特征页面中的布局异常;
和/或,
第二判断单元,用于判断所述黑链特征数据的页面元素属性是否为不可见属性,若是,则判定所述黑链特征数据在特征页面中的布局异常;
和/或,
第三判断单元,用于判断所述黑链特征数据的页面元素属性是否为对浏览器隐藏的属性,若是,则判定所述黑链特征数据在特征页面中的布局异常。
优选的是,所述黑链规则生成子模块可以包括:
正则表达式抽取单元,用于从包含所述篡改关键词和/或黑链URL的页面元素中,抽象出正则表达式作为黑链规则。
与现有技术相比,本申请具有以下优点:
根据黑链特征数据库,判断当前检测页面中是否包含黑链特征数据,将包含黑链特征数据的页面确定为被篡改页面。在本申请实施例中,黑链特征数据库中的黑链特征可以不全部由人工收集,可以采用以下方式自动收集:通过已知的黑链特征数据结合搜索引擎技术,使用网络爬虫抓取包含此黑链特征数据的页面作为特征页面,通过分析此黑链特征数据在这些特征页面中的布局,若布局异常则从该异常的特征页面中提取包含所述黑链特征数据的页面元素,形成一套通用的正则表达式作为黑链规则,将该黑链规则在其它特征页面中进行匹配,并在匹配的特征页面中提取新的黑链特征数据。这样收集黑链特征数据不需人工干预,非常快速,并且,所收集的黑链特征数据的准确率也非常高,从而用在页面篡改检测时,能有效提高检测的效率和准确率。
再者,本申请实施例根据黑链特征数据,结合搜索引擎技术,使用网络爬虫抓取包含此黑链特征数据的页面,然后分析包含此黑链特征数据页面的布局,从而判定页面是否被篡改,并提取所述被篡改页面中包含所述黑链特征数据的页面元素,最终形成一套通用的正则表达式作为黑链规则。本申请无需人工干预,无需额外设置系统,采用正则表达式作为黑链规则在页面中进行匹配,以提取更多的黑链特征数据,训练更多黑链规则的方式,能更好地适用于当前黑链产业化的情形,不仅能降低成本,还能更快更多地发现被篡改的页面,有效提高检测页面篡改的效率。并且,基于网络爬虫技术和浏览器内核隔离沙箱技术的实现,也有效保证了检测页面篡改的安全性、可信度和准确度。
附图说明
图1是本申请的一种检测页面篡改的方法实施例1的流程图;
图2是本申请的一种检测页面篡改的方法实施例2的流程图;
图3是本申请的一种检测页面篡改的装置实施例的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
黑链,又被称作“网络牛皮癣”。公知的是,搜索引擎有一个排名系统,搜索引擎认为好的网站,在搜索结果的排名中就会靠前,相应地,网站的点击率就会越高。搜索引擎衡量一个网站的好坏有多方面的指标,其中非常重要的一点就是网站的外部链接。如果一个网站的外部链接都很不错,那么这个网站在搜索引擎中的排名就会相应地提高。
例如,某新开的网站在搜索引擎中的排名很靠后,之后某个权利高(排名好,质量高)的网站和这个新开的网站做了链接,那么搜索引擎就会认为这个新开的网站既然可以和这样权重高的网站做上链接,那么它的权重也不会低,所以这个网站在搜索引擎中的排名就会提升。如果有多个权重高的网站也都和这个网站做了链接,那么它的排名将会上升得非常快。
反之,如果一个新开的网站,没有任何背景,没有任何关系,它的权重不会很高,所以搜索引擎不会给它很高的排名,其在搜索结果中的排名就会比较靠后。对于搜索引擎的这种特性,目前有些工具提供了黑链技术,即通过入侵一些权重高的网站,入侵成功后将网站的链接插入到被入侵网站的页面中,从而实现链接的效果,并且通过隐藏网站链接,使别人在被入侵网站的页面上是看不到任何链接。
然而,目前采用黑链技术来实现搜索排名提升的,相当一部分是游戏私服网站、盗号木马网站、钓鱼网站和广告网站等不安全网站。对于这些不安全网站,搜索引擎不会给它们很高的排名,但通过“黑链”,它们的排名就会很靠前,在这种情况下,当使用搜索引擎的时候,点击打开这些网站的概率就会很高,如果用户没有做好安全防护工作,那么就会容易就会感染网站上的病毒。
正是本专利发明人发现这一问题的严重性,提出本申请实施例的核心构思之一在于,根据黑链特征数据库,判断当前检测页面中是否包含黑链特征数据,将包含黑链特征数据的页面确定为被篡改页面。在本申请实施例中,黑链特征数据库中的黑链特征可以不全部由人工收集,可以采用以下方式自动收集:通过已知的黑链特征数据结合搜索引擎技术,使用网络爬虫抓取包含此黑链特征数据的页面作为特征页面,通过分析此黑链特征数据在这些特征页面中的布局,若布局异常则从该异常的特征页面中提取包含所述黑链特征数据的页面元素,形成一套通用的正则表达式作为黑链规则,将该黑链规则在其它特征页面中进行匹配,并在匹配的特征页面中提取新的黑链特征数据。这样收集黑链特征数据不需人工干预,非常快速,并且,所收集的黑链特征数据的准确率也非常高,从而用在页面篡改检测时,能有效提高检测的效率和准确率。
参照图1,示出了本申请的一种检测页面篡改的方法实施例1的步骤流程图,具体可以包括如下步骤:
步骤101、生成黑链特征数据库,所述黑链特征数据库中包括黑链特征数据;
步骤102、判断当前检测页面中是否包含所述黑链特征数据,若是,则执行步骤103;若否,则执行步骤104;
步骤103、判定当前页面为被篡改页面;
步骤104、判定当前页面为正常页面。
在具体实现中,所述黑链特征数据可以包括篡改关键词和黑链URL。如篡改关键词“传奇私服发布”,黑链URL“http://www.45u.com”等。采用所述黑链特征数据,匹配网页中的HTML正文,若存在与黑链特征数据匹配的内容,则可判定该页面已被黑链篡改。
参照图2,示出了本申请的一种检测页面篡改的方法实施例2的步骤流程图,具体可以包括如下步骤:
步骤201、采用已有的黑链特征数据搜索包含所述黑链特征数据的页面为特征页面;
步骤202、分析所述黑链特征数据在特征页面中的布局,当发现布局异常时,从该特征页面中提取包含所述黑链特征数据的页面元素;
步骤203、根据所述页面元素生成黑链规则,采用所述黑链规则在其它特征页面中进行匹配,并在匹配的特征页面中提取新的黑链特征数据;
步骤204、保存所述黑链特征数据形成黑链特征数据库;
步骤205、判断当前检测页面中是否包含所述黑链特征数据,若是,则执行步骤206;若否,则执行步骤207;
步骤206、判定当前页面为被篡改页面;
步骤207、判定当前页面为正常页面。
在具体实现中,所述已有的黑链特征数据可以包括篡改关键词和黑链URL。根据所述已有的黑链特征数据,利用网络爬虫抓取包含所述黑链特征数据的页面,并将这些页面作为特征页面。
公知的是,搜索引擎从万维网上自动提取网页的功能是通过网络爬虫实现的。网络爬虫又称为网络蜘蛛,即Web Spider,网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
目前的网络爬虫可以分为通用爬虫和聚焦爬虫。通用爬虫是基于广度优先搜索的思想,从一个或若干个初始网页的URL(Uniform ResourceLocator,统一资源定位符)开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。而聚焦爬虫是一个自动下载网页的程序,用于定向抓取相关页面资源。它根据既定的抓取目标,有选择地访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫不同,聚焦爬虫并不追求大的覆盖,而是将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。
现有的黑链技术中,隐藏链接有一些固定技巧,例如搜索引擎对javascript的识别不是很好,通过javascript来输出隐藏的div。这样的话,人工直接通过页面无法看到这些链接,而搜索引擎确认为这些链接是有效的。代码为:首先通过javascript写前面的div,设置display为none。然后输出一个table,table中包含了要挂的黑链。最后再通过javascript输出后半部分div。
采用浏览器内核的隔离沙箱技术可以快速、有效地察觉出页面被篡改。具体而言,浏览器内核的隔离沙箱技术为浏览器内核,比如IE或firefox,构建了一个安全的虚拟执行环境。用户通过浏览器所作的任何写磁盘操作,都将重定向到一个特定的临时文件夹中。这样,即使网页中包含病毒,木马,广告等恶意程序,被强行安装后,也只是安装到了临时文件夹中,不会对用户设备造成危害。浏览器内核负责对网页语法的解释(如HTML、JavaScript)并渲染(显示)网页。所以,通常所谓的浏览器内核也就是对页面进行下载、解析、执行、渲染的引擎,该引擎决定了浏览器如何显示网页的内容以及页面的格式信息。
根据浏览器内核的上述操作特性,采用隔离沙箱技术,可以安全地分析黑链特征数据在特征页面中的布局是否发生异常,具体而言,可以通过分析所述黑链特征数据的页面元素位置和属性,来判定黑链特征数据在特征页面中的布局是否异常,例如,判断所述黑链特征数据的页面元素的位置是否不在预设阈值范围内,所述黑链特征数据的页面元素是否具有不可见的属性,和/或,所述黑链特征数据的页面元素是否具有对浏览器隐藏的属性,若是,则判定黑链特征数据在特征页面中的布局异常。例如,若检测到某个页面的超链接是不可见的,或者,页面中某个html标签元素的长宽高是负值,则可判定该页面的布局异常,是被篡改的页面。
当发现布局异常时,从该布局异常的特征页面中提取包含所述所述篡改关键词和/或黑链URL的页面元素;然后从包含所述篡改关键词和/或黑链URL的页面元素中,抽象出正则表达式作为黑链规则。
公知的是,正则表达式是用于进行文本匹配的工具,通常由一些普通字符和一些元字符(metacharacters)组成。普通字符包括大小写的字母和数字,而元字符则具有特殊的含义。正则表达式的匹配可以理解为,在给定的字符串中,寻找与给定的正则表达式相匹配的部分。有可能字符串里有不止一个部分满足给定的正则表达式,这时每一个这样的部分被称为一个匹配。匹配在本文里可以包括三种含义:一种是形容词性的,比如说一个字符串匹配一个表达式;一种是动词性的,比如说在字符串里匹配正则表达式;还有一种是名词性的,就是刚刚说到的“字符串中满足给定的正则表达式的一部分”。
以下通过举例对正则表达式的生成规则进行说明。
假设要查找hi,则可以使用正则表达式hi。这个正则表达式可以精确匹配这样的字符串:由两个字符组成,前一个字符是h,后一个是i。在实际中,正则表达式是可以忽略大小写的。如果很多单词里都包含hi这两个连续的字符,比如him,history,high等等。用hi来查找的话,这此单词里面的hi也会被找出来。如果要精确地查找hi这个单词的话,则应该使用\bhi\b。其中,\b是正则表达式的一个元字符,它代表着单词的开头或结尾,也就是单词的分界处。虽然通常英文的单词是由空格或标点符号或换行来分隔的,但是\b并不匹配这些单词分隔符中的任何一个,它只匹配一个位置。假如要找的是hi后面不远处跟着一个Lucy,则应该用\bhi\b.*\bLucy\b。其中,.是另一个元字符,匹配除了换行符以外的任意字符。*同样是元字符,它代表的是数量——即指定*前边的内容可以连续重复出现任意次以使整个表达式得到匹配。现在\bhi\b.*\bLucy\b的意思就很明显了:先是一个单词hi,然后是任意个任意字符(但不能是换行),最后是Lucy这个单词。
例如,在页面布局异常的A页面的html片段里,提取包含黑链特征数据的页面元素如下:
<script>document.write(′<d′+′iv st′+′yle′+′=″po′+′si′+′tio′+′n:a′+′bso′+′lu′+′te;l′+′ef′+′t:′+′-′+′10′+′00′+′0′+′p′+′x;′+″″+′>′)>××××<script>document.write(′<′+′/d′+′i′+′v>′);</script>
根据上述页面元素生成作为黑链规则的正则表达式为:
<script.*?>document\.write.*?\(.*?\+.*?\+.*?\+.*?\+.*?\+.*?\).*?</script>([\S\s]+?)</div>
或如,在页面布局异常的B页面的html片段里,提取包含黑链特征数据的页面元素如下:
<a href=“http://www.45u.com”style=”margin-left:-83791;”>;
根据上述页面元素生成作为黑链规则的正则表达式为:
<a\s*href\s*=[″\′].+?[″\′]\s*style=[″\′][\w+\-]+:-[0-9]+.*?[″\′].*?>.*?</a>。
当然,上述生成黑链规则的方法仅仅用作示例,本领域技术人员根据实际情况采用任一种黑链规则的生成方式都是可行的,本申请对此无需加以限制。
采用黑链规则在其它特征页面中进行匹配,可以提取更多的黑链特征数据,训练更多黑链规则,最终可形成针对全网黑链的黑链特征数据库。
由于挂黑链如今已形成一个产业链,所以相同的篡改关键词和/或黑链URL会大量出现在其它被篡改的页面中。采用正则表达式作为黑链规则在页面中进行匹配,以提取更多的黑链特征数据,训练更多黑链规则,更适用于当前黑链产业化的情形,能更快更多地发现被篡改的页面,有效提高检测页面篡改的效率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
参考图3,其示出了本申请的一种检测页面篡改的装置实施例的结构框图,具体可以包括以下模块:
数据库生成模块31,用于生成黑链特征数据库,所述黑链特征数据库中包括黑链特征数据;
页面检测模块32,用于判断当前检测页面中是否包含所述黑链特征数据,若是,则判定当前页面为被篡改页面。
在本申请的一种优选实施例中,所述数据库生成模块31可以包括如下子模块:
特征页面搜索子模块311,用于采用已有的黑链特征数据搜索包含所述黑链特征数据的页面为特征页面;
布局分析子模块312,用于分析所述黑链特征数据在特征页面中的布局;
页面元素提取子模块313,用于在发现布局异常时,从该特征页面中提取包含所述黑链特征数据的页面元素;
黑链规则生成子模块314,用于根据所述页面元素生成黑链规则;
黑链特征数据提取子模块315,用于采用所述黑链规则在其它特征页面中进行匹配,并在匹配的特征页面中提取新的黑链特征数据,保存所述黑链特征数据形成黑链特征数据库。
在具体实现中,所述黑链特征数据可以包括篡改关键词和黑链URL。
作为本申请实施例具体应用的一种示例,所述布局分析子模块可以包括如下单元:
第一判断单元,用于判断所述黑链特征数据的页面元素位置是否在预设阈值范围内,若是,则判定所述黑链特征数据在特征页面中的布局异常;
和/或,
第二判断单元,用于判断所述黑链特征数据的页面元素属性是否为不可见属性,若是,则判定所述黑链特征数据在特征页面中的布局异常;
和/或,
第三判断单元,用于判断所述黑链特征数据的页面元素属性是否为对浏览器隐藏的属性,若是,则判定所述黑链特征数据在特征页面中的布局异常。
在具体应用中,所述黑链规则生成子模块可以包括如下单元:
正则表达式抽取单元,用于从包含所述篡改关键词和/或黑链URL的页面元素中,抽象出正则表达式作为黑链规则。
由于所述装置实施例基本相应于前述图1和图2所示的方法实施例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此就不赘述了。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种检测页面篡改的方法,以及,一种检测页面篡改的装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种检测页面篡改的方法,其特征在于,包括:
生成黑链特征数据库,所述黑链特征数据库中包括黑链特征数据;
判断当前检测页面中是否包含所述黑链特征数据,若是,则判定当前页面为被篡改页面。
2.如权利要求1所述的方法,其特征在于,所述生成黑链特征数据库的步骤包括:
采用已有的黑链特征数据搜索包含所述黑链特征数据的页面为特征页面;
分析所述黑链特征数据在特征页面中的布局,当发现布局异常时,从该特征页面中提取包含所述黑链特征数据的页面元素;
根据所述页面元素生成黑链规则,采用所述黑链规则在其它特征页面中进行匹配,并在匹配的特征页面中提取新的黑链特征数据;
保存所述黑链特征数据形成黑链特征数据库。
3.如权利要求1或2所述的方法,其特征在于,所述黑链特征数据包括篡改关键词和黑链URL。
4.如权利要求3所述的方法,其特征在于,所述分析所述黑链特征数据在特征页面中的布局的步骤包括:
判断所述黑链特征数据的页面元素位置是否在预设阈值范围内,若是,则判定所述黑链特征数据在特征页面中的布局异常;
和/或,
判断所述黑链特征数据的页面元素属性是否为不可见属性,若是,则判定所述黑链特征数据在特征页面中的布局异常;
和/或,
判断所述黑链特征数据的页面元素属性是否为对浏览器隐藏的属性,若是,则判定所述黑链特征数据在特征页面中的布局异常。
5.如权利要求4所述的方法,其特征在于,所述根据页面元素生成黑链规则的步骤为:
从包含所述篡改关键词和/或黑链URL的页面元素中,抽象出正则表达式作为黑链规则。
6.一种检测页面篡改的装置,其特征在于,包括:
数据库生成模块,用于生成黑链特征数据库,所述黑链特征数据库中包括黑链特征数据;
页面检测模块,用于判断当前检测页面中是否包含所述黑链特征数据,若是,则判定当前页面为被篡改页面。
7.如权利要求6所述的装置,其特征在于,所述数据库生成模块包括:
特征页面搜索子模块,用于采用已有的黑链特征数据搜索包含所述黑链特征数据的页面为特征页面;
布局分析子模块,用于分析所述黑链特征数据在特征页面中的布局;
页面元素提取子模块,用于在发现布局异常时,从该特征页面中提取包含所述黑链特征数据的页面元素;
黑链规则生成子模块,用于根据所述页面元素生成黑链规则;
黑链特征数据提取子模块,用于采用所述黑链规则在其它特征页面中进行匹配,并在匹配的特征页面中提取新的黑链特征数据,保存所述黑链特征数据形成黑链特征数据库。
8.如权利要求6或7所述的装置,其特征在于,所述黑链特征数据包括篡改关键词和黑链URL。
9.如权利要求8所述的装置,其特征在于,所述布局分析子模块进一步包括:
第一判断单元,用于判断所述黑链特征数据的页面元素位置是否在预设阈值范围内,若是,则判定所述黑链特征数据在特征页面中的布局异常;
和/或,
第二判断单元,用于判断所述黑链特征数据的页面元素属性是否为不可见属性,若是,则判定所述黑链特征数据在特征页面中的布局异常;
和/或,
第三判断单元,用于判断所述黑链特征数据的页面元素属性是否为对浏览器隐藏的属性,若是,则判定所述黑链特征数据在特征页面中的布局异常。
10.如权利要求9所述的装置,其特征在于,所述黑链规则生成子模块包括:
正则表达式抽取单元,用于从包含所述篡改关键词和/或黑链URL的页面元素中,抽象出正则表达式作为黑链规则。
CN201110456132.1A 2011-12-30 2011-12-30 一种检测页面篡改的方法及装置 Active CN102436563B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110456132.1A CN102436563B (zh) 2011-12-30 2011-12-30 一种检测页面篡改的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110456132.1A CN102436563B (zh) 2011-12-30 2011-12-30 一种检测页面篡改的方法及装置

Publications (2)

Publication Number Publication Date
CN102436563A true CN102436563A (zh) 2012-05-02
CN102436563B CN102436563B (zh) 2014-07-09

Family

ID=45984621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110456132.1A Active CN102436563B (zh) 2011-12-30 2011-12-30 一种检测页面篡改的方法及装置

Country Status (1)

Country Link
CN (1) CN102436563B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593615A (zh) * 2013-11-29 2014-02-19 北京奇虎科技有限公司 一种网页篡改的检测方法及装置
CN103605925A (zh) * 2013-11-29 2014-02-26 北京奇虎科技有限公司 一种网页篡改的检测方法及装置
CN103605926A (zh) * 2013-11-29 2014-02-26 北京奇虎科技有限公司 一种网页篡改的检测方法及装置
CN103685158A (zh) * 2012-09-04 2014-03-26 珠海市君天电子科技有限公司 基于钓鱼网站传播的精确收集方法及系统
CN103679053A (zh) * 2013-11-29 2014-03-26 北京奇虎科技有限公司 一种网页篡改的检测方法及装置
CN103810181A (zh) * 2012-11-07 2014-05-21 江苏仕德伟网络科技股份有限公司 判断网页是否包含黑链的方法
CN104160404A (zh) * 2012-09-27 2014-11-19 英特尔公司 基于沙箱使用来检测、执行和控制访问权限
CN108600247A (zh) * 2018-05-02 2018-09-28 尚谷科技(天津)有限公司 一种网站钓鱼伪装识别方法
CN109104421A (zh) * 2018-08-01 2018-12-28 深信服科技股份有限公司 一种网站内容篡改检测方法、装置、设备及可读存储介质
CN109214181A (zh) * 2017-07-01 2019-01-15 武汉斗鱼网络科技有限公司 识别网络爬虫的方法、存储介质、电子设备及系统
CN109522494A (zh) * 2018-11-08 2019-03-26 杭州安恒信息技术股份有限公司 一种暗链检测方法、装置、设备及计算机可读存储介质
CN109981604A (zh) * 2019-03-07 2019-07-05 北京华安普特网络科技有限公司 一种快速检测网页黑链的方法
CN110071912A (zh) * 2019-03-26 2019-07-30 阿里巴巴集团控股有限公司 数据检验方法、装置以及系统
CN110851299A (zh) * 2019-11-15 2020-02-28 深圳前海微众银行股份有限公司 自动化流程的异常排除方法、装置、设备及存储介质
CN111190756A (zh) * 2019-11-18 2020-05-22 中山大学 一种基于调用链数据的根因定位算法
CN111488621A (zh) * 2019-01-25 2020-08-04 深信服科技股份有限公司 一种篡改网页检测方法、系统及电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1859398A (zh) * 2006-01-05 2006-11-08 珠海金山软件股份有限公司 一种反网络钓鱼的系统和方法
CN101534306A (zh) * 2009-04-14 2009-09-16 深圳市腾讯计算机系统有限公司 一种钓鱼网站的检测方法及装置
CN101820366A (zh) * 2010-01-27 2010-09-01 南京邮电大学 一种基于预取的钓鱼网页检测方法
CN102082792A (zh) * 2010-12-31 2011-06-01 成都市华为赛门铁克科技有限公司 钓鱼网页检测方法及设备
CN102222187A (zh) * 2011-06-02 2011-10-19 国家计算机病毒应急处理中心 基于域名构造特征的挂马网页检测方法
CN102279875A (zh) * 2011-06-24 2011-12-14 成都市华为赛门铁克科技有限公司 钓鱼网站的识别方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1859398A (zh) * 2006-01-05 2006-11-08 珠海金山软件股份有限公司 一种反网络钓鱼的系统和方法
CN101534306A (zh) * 2009-04-14 2009-09-16 深圳市腾讯计算机系统有限公司 一种钓鱼网站的检测方法及装置
CN101820366A (zh) * 2010-01-27 2010-09-01 南京邮电大学 一种基于预取的钓鱼网页检测方法
CN102082792A (zh) * 2010-12-31 2011-06-01 成都市华为赛门铁克科技有限公司 钓鱼网页检测方法及设备
CN102222187A (zh) * 2011-06-02 2011-10-19 国家计算机病毒应急处理中心 基于域名构造特征的挂马网页检测方法
CN102279875A (zh) * 2011-06-24 2011-12-14 成都市华为赛门铁克科技有限公司 钓鱼网站的识别方法和装置

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103685158A (zh) * 2012-09-04 2014-03-26 珠海市君天电子科技有限公司 基于钓鱼网站传播的精确收集方法及系统
CN104160404A (zh) * 2012-09-27 2014-11-19 英特尔公司 基于沙箱使用来检测、执行和控制访问权限
CN104160404B (zh) * 2012-09-27 2017-03-15 英特尔公司 基于沙箱使用来检测、执行和控制访问权限
CN103810181A (zh) * 2012-11-07 2014-05-21 江苏仕德伟网络科技股份有限公司 判断网页是否包含黑链的方法
CN103605925A (zh) * 2013-11-29 2014-02-26 北京奇虎科技有限公司 一种网页篡改的检测方法及装置
CN103605926A (zh) * 2013-11-29 2014-02-26 北京奇虎科技有限公司 一种网页篡改的检测方法及装置
CN103679053A (zh) * 2013-11-29 2014-03-26 北京奇虎科技有限公司 一种网页篡改的检测方法及装置
CN103593615B (zh) * 2013-11-29 2016-08-31 北京奇虎科技有限公司 一种网页篡改的检测方法及装置
CN103679053B (zh) * 2013-11-29 2017-03-15 北京奇安信科技有限公司 一种网页篡改的检测方法及装置
CN103593615A (zh) * 2013-11-29 2014-02-19 北京奇虎科技有限公司 一种网页篡改的检测方法及装置
CN109214181A (zh) * 2017-07-01 2019-01-15 武汉斗鱼网络科技有限公司 识别网络爬虫的方法、存储介质、电子设备及系统
CN108600247A (zh) * 2018-05-02 2018-09-28 尚谷科技(天津)有限公司 一种网站钓鱼伪装识别方法
CN109104421A (zh) * 2018-08-01 2018-12-28 深信服科技股份有限公司 一种网站内容篡改检测方法、装置、设备及可读存储介质
CN109104421B (zh) * 2018-08-01 2021-09-17 深信服科技股份有限公司 一种网站内容篡改检测方法、装置、设备及可读存储介质
CN109522494A (zh) * 2018-11-08 2019-03-26 杭州安恒信息技术股份有限公司 一种暗链检测方法、装置、设备及计算机可读存储介质
CN109522494B (zh) * 2018-11-08 2020-09-15 杭州安恒信息技术股份有限公司 一种暗链检测方法、装置、设备及计算机可读存储介质
CN111488621A (zh) * 2019-01-25 2020-08-04 深信服科技股份有限公司 一种篡改网页检测方法、系统及电子设备和存储介质
CN109981604A (zh) * 2019-03-07 2019-07-05 北京华安普特网络科技有限公司 一种快速检测网页黑链的方法
CN110071912A (zh) * 2019-03-26 2019-07-30 阿里巴巴集团控股有限公司 数据检验方法、装置以及系统
CN110071912B (zh) * 2019-03-26 2021-05-04 创新先进技术有限公司 数据检验方法、装置以及系统
CN110851299A (zh) * 2019-11-15 2020-02-28 深圳前海微众银行股份有限公司 自动化流程的异常排除方法、装置、设备及存储介质
CN111190756A (zh) * 2019-11-18 2020-05-22 中山大学 一种基于调用链数据的根因定位算法
CN111190756B (zh) * 2019-11-18 2023-04-28 中山大学 一种基于调用链数据的根因定位算法

Also Published As

Publication number Publication date
CN102436563B (zh) 2014-07-09

Similar Documents

Publication Publication Date Title
CN102436563B (zh) 一种检测页面篡改的方法及装置
CN102446255B (zh) 一种检测页面篡改的方法及装置
CN102591965B (zh) 一种黑链检测的方法及装置
CN104881608B (zh) 一种基于模拟浏览器行为的xss漏洞检测方法
Komiya et al. Classification of malicious web code by machine learning
CN108038173B (zh) 一种网页分类方法、系统及一种网页分类设备
CN103678528B (zh) 基于段落抄袭检测的电子作业反抄袭系统和方法
CN104036190A (zh) 一种检测页面篡改的方法及装置
CN102750390A (zh) 新闻网页要素自动提取方法
CN106230835B (zh) 基于Nginx日志分析和IPTABLES转发的反恶意访问的方法
CN106022132A (zh) 一种基于动态内容分析的网页木马实时检测方法
CN103617213A (zh) 识别新闻网页属性特征的方法和系统
Yang et al. Scalable detection of promotional website defacements in black hat {SEO} campaigns
US20230342410A1 (en) Inferring information about a webpage based upon a uniform resource locator of the webpage
CN103399872A (zh) 对网页抓取进行优化的方法和装置
CN104036189A (zh) 页面篡改检测方法及黑链数据库生成方法
CN104077353B (zh) 一种黑链检测的方法及装置
CN110532784A (zh) 一种暗链检测方法、装置、设备及计算机可读存储介质
CN111079042B (zh) 一种基于文本主题的网页暗链检测方法和装置
WO2015074455A1 (zh) 一种计算关联网页URL模式pattern的方法和装置
CN111125704B (zh) 一种网页挂马识别方法及系统
CN113742785A (zh) 一种网页分类方法、装置、电子设备及存储介质
CN111488622A (zh) 一种网页篡改行为的检测方法、装置及相关组件
CN104063494B (zh) 页面篡改检测方法及黑链数据库生成方法
CN104063491B (zh) 一种检测页面篡改的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 100015 rooms 301-306, 2 / F and 3 / F, block B, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing

Patentee after: Beijing Qizhi Business Consulting Co.,Ltd.

Address before: 100016 East unit, 4th floor, Zhaowei building, 14 Jiuxianqiao Road, Chaoyang District, Beijing

Patentee before: Qizhi software (Beijing) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220208

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100015 rooms 301-306, 2 / F and 3 / F, block B, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing

Patentee before: Beijing Qizhi Business Consulting Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220318

Address after: 100016 1773, 15 / F, 17 / F, building 3, No.10, Jiuxianqiao Road, Chaoyang District, Beijing

Patentee after: Sanliu0 Digital Security Technology Group Co.,Ltd.

Address before: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.