CN103679053A

CN103679053A - 一种网页篡改的检测方法及装置

Info

Publication number: CN103679053A
Application number: CN201310629752.XA
Authority: CN
Inventors: 何振科; 赵武
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Qianxin Technology Group Co Ltd; Secworld Information Technology Beijing Co Ltd
Priority date: 2013-11-29
Filing date: 2013-11-29
Publication date: 2014-03-26
Anticipated expiration: 2033-11-29
Also published as: CN103679053B

Abstract

本发明公开了一种网页篡改的检测方法及其装置。该方法包括：根据篡改特征库检测网页中的篡改内容，提取所述篡改内容中的恶意链接；若所提取恶意链接的出现频率高于第一预定阈值，则将其存入恶意链接库；若根据篡改特征库未检测出网页中的篡改内容，则根据恶意链接库检测网页中的篡改内容，对命中的恶意链接进行标记；根据恶意链接库中标记的恶意链接生成新的篡改特征规则，并加入篡改特征库中。本发明的方案通过自主学习的方式不断扩充篡改特征规则，并根据确定的恶意链接对网页进行检测，能够及时捕获变种的恶意链接，极大地提高了网页篡改的检测准确率。

Description

一种网页篡改的检测方法及装置

技术领域

本发明涉及计算机网站安全领域，特别是涉及一种网页篡改的检测方法及装置。

背景技术

随着互联网的快速发展，互联网上网站数量也越来越多。许多网站都是实体机构及组织在互联网中的形象展示。而一些具有不良企图的组织或个人通过扫描服务器的弱口令、漏洞，然后攻击网站并对其进行恶意篡改。

虽然目前已有防火墙、入侵检测等安全防范手段，但现代操作系统的复杂性和多样性导致系统漏洞层出不穷，防不胜防。黑客入侵和篡改页面的事件时有发生。针对此，网页防篡改系统应运而生。例如，给网页挂恶意链接，如黑链、挂马链接等，这些是网页篡改的主要表现形式。

目前的网页防篡改系统对恶意链接的检测方法过于简单，而且恶意链接嵌入网页的方法层出不穷，日益变化。很多恶意链接都能绕过检测系统。目前，国内外主要采用以下两类恶意链接检测技术：

(1)静态特征匹配方式：

即通过特征串(即大量人工收集的关键字)匹配网页中的HTML正文，以判断其是否被加入恶意链接。

(2)在网页发布系统中增加网页内容审核和校验机制：

即在网页发布系统中构建一个网页内容实时检测系统，所有网页发布的内容都经过该系统，经过确认后才能发布，同时还建立了网页内容指纹库，篡改检测系统通过定期扫描网页内容和指纹库内容对比来发现网页是否被黑链篡改。

上述两种检测技术均仅仅依赖于篡改特征库，而篡改特征库一般是固定不变的。但是恶意链接嵌入网页的方式日益变化，层出不穷。这样很多恶意链接可以成功绕过固有的篡改特征库，以致即使网页被黑客篡改了，检测程序依然无法检测出来恶意篡改。

因此需要一种新的检测网页篡改的方法，提供一种恶意链接的获取机制，用以在尽可能低成本、高效率获取最新的恶意链接特征，并根据新获取的恶意链接特征对网站进行检测，以提高检测页面被恶意篡改的准确率。

发明内容

为解决现有技术中存在的上述技术问题，本发明提供了一种网页篡改的检测方法及其装置，能够低成本、高效率获取最新的恶意链接特征，并根据新获取的恶意链接特征对网站进行检测，以提高检测页面被恶意篡改的准确率。

根据本发明的一方面，其提供了一种网页篡改的检测方法，包括：

根据篡改特征库检测网页中的篡改内容，提取所述篡改内容中的恶意链接；

若所提取恶意链接的出现频率高于第一预定阈值，则将其存入恶意链接库；

若根据篡改特征库未检测出网页中的篡改内容，则根据恶意链接库检测网页中的篡改内容，对命中的恶意链接进行标记；

根据恶意链接库中标记的恶意链接生成新的篡改特征规则，并加入篡改特征库中。

其中，在提取所述篡改内容中的恶意链接的同时还提取出与其对应的篡改关键词。

其中，根据恶意链接库中标记的恶意链接生成新的篡改特征规则步骤中包括：利用所述恶意链接和／或与其对应的篡改关键词生成新的篡改特征规则。

其中，所述篡改特征库包含篡改关键词和／或恶意链接的正则表达式。

其中，在根据恶意链接库检测网页中的篡改内容时，如果所述网页的内容命中所述恶意链接库中的恶意链接，则标记所述恶意链接的命中权重加1。

其中，根据恶意链接库中标记的恶意链接生成新的篡改特征规则的步骤中包括：根据标记的命中权重高于第二预定阈值的恶意链接生成新的篡改特征规则。

其中，所述恶意链接包括黑链、挂马链接。

根据本发明的另一方面，其提供了一种网页篡改的检测装置，其包括：

第一检测模块，其根据篡改特征库检测网页中的篡改内容，提取所述篡改内容中的恶意链接；

写入模块，若所提取恶意链接的出现频率高于第一预定阈值，其将该所述恶意链接存入恶意链接库；

第二检测模块，若根据篡改特征库未检测出网页中的篡改内容，其根据恶意链接库检测网页中的篡改内容，并对命中的恶意链接进行标记；

规则生成模块，其根据恶意链接库中标记的恶意链接生成新的篡改特征规则，并加入篡改特征库中。

其中，所述第一检测模块在提取所述篡改内容中的恶意链接的同时还提取出与其对应的篡改关键词。

其中，所述规则生成模块利用所述恶意链接和／或与其对应的篡改关键词生成新的篡改特征规则。

其中，第二检测模块在所述网页的内容命中所述恶意链接库中的恶意链接时，标记所述恶意链接的命中权重加1。

其中，所述规则生成模块根据标记的命中权重高于第二预定阈值的恶意链接生成新的篡改特征规则。

其中，所述恶意链接包括黑链、挂马链接。

本发明提出的上述方案根据已有的篡改特征库，结合搜索引擎技术，对网站上的网页进行检测，并根据匹配频率较高的恶意链接进一步对无法使用现有的篡改特征库中的篡改特征检测出篡改内容的网页进行检测，并对能够命中所述网页中的篡改内容的恶意链接进行标记，并根据所标记的命中权重高于一定阈值的恶意链接生成新的篡改特征规则，将其加入篡改特征库中，以便后续的网页检测。本发明通过自主学习的方式不断扩充篡改特征库，并根据确定的恶意链接对网页进行检测，能够及时捕获变种了的恶意链接，极大地提高了网页篡改的检测准确率。

为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式详细说明。

附图说明

图1是本发明提出的一种网页篡改的检测方法的流程图；

图2是本发明提出的一种网页篡改的检测装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

图1示出了本发明提出的一种网页篡改的检测方法的流程图。如图1所示，该方法包括：

步骤101：根据篡改特征库检测网页中的篡改内容，提取所述篡改内容中的恶意链接；

步骤102：若所提取恶意链接的出现频率高于第一预定阈值，则将其存入恶意链接库；

步骤103：若根据篡改特征库未检测出网页中的篡改内容，则根据恶意链接库检测网页中的篡改内容，对命中的恶意链接进行标记；

步骤104：根据恶意链接库中标记的恶意链接生成新的篡改特征规则，并加入篡改特征库中。

下面根据具体的实施例对本发明提出上述网页篡改的检测方法的各个步骤进行详细说明。

步骤101中，根据篡改特征库检测网页中的篡改内容，提取所述篡改内容中的恶意链接。

所谓网页篡改就是一些具有不良企图的组织或个人通过扫描服务器的弱口令、漏洞，获得网站的账户权限后，对网站的网页源码进行恶意修改。最典型的一种修改方式就是在网页源码中插入恶意链接，如挂马链接和黑链等。

所谓挂马，就是黑客通过各种手段，包括SQL注入，网站敏感文件扫描，服务器漏洞，网站程序0day等各种方法获得网站管理员账号，然后登陆网站后台，通过国数据库备份／恢复或者上传漏洞获得一个webshell，利用所获得的webshell修改网站页面的内容，向网页中加入恶意转向代码，即挂马链接。当用户访问被加入挂马链接的页面时，自动的访问被转向的地址或者下载木马病毒。如果进入了被挂马的网站，则会感染木马病毒，并丢失大量的宝贵文件资料和账户密码，其危害极大。

挂马链接主要目的是散播木马病毒或骗取流量和点击率等。挂马链接的插入方式多种多样，如通过iframe框架进行挂马链接的插入：

<iframesrc=http：／／www.xxx.com／example.htmlwidth=0height=0><iframe>

上述插入在网页源码中的语句表示在打开某一网站“www.xxx.com”的同时，打开另一个网页“example.html”，而“example.html”网页极有可能包含大量的木马病毒，也可能仅仅是为了骗取流量或点击率。挂马方式多种多样，上面仅为举例说明，本领域技术人员应当理解本发明中涉及的挂马方式不限于此。

而插入黑链的主要目标就是提升自己在搜索引擎中的排名。万维网成为大量信息的载体，为有效地提取并利用这些信息，搜索引擎(SearchEngine)作为一个辅助人们检索信息的工具，成为用户访问万维网的入口和指南。

例如，某新开的网站在搜索引擎中的排名很靠后，之后某个权利高(排名好，质量高)的网站和这个新开的网站做了链接，那么搜索引擎就会认为这个新开的网站既然可以和这样权重高的网站做上链接，那么它的权重也不会低，所以这个网站在搜索引擎中的排名就会提升。如果有多个权重高的网站也都和这个网站做了链接，那么它的排名将会上升得非常快。

反之，一个新网站的权重不会很高，所以搜索引擎不会给它很高的排名，其在搜索结果中的排名就会比较靠后。对于搜索引擎的这种特性，目前有些工具提供了黑链技术，即通过入侵一些权重高的网站，入侵成功后将网站的链接插入到被入侵网站的页面中，从而实现链接的效果，并且通过隐藏网站链接，使别人在被入侵网站的页面上是看不到任何链接。

然而，目前采用黑链技术来实现搜索排名提升的，相当一部分是游戏私服网站、盗号木马网站、钓鱼网站和广告网站等不安全网站。对于这些不安全网站，搜索引擎不会给它们很高的排名，但通过“黑链”，它们的排名就会很靠前，在这种情况下，当使用搜索引擎的时候，点击打开这些网站的概率就会很高，如果用户没有做好安全防护工作，那么就会容易就会感染网站上的病毒。

现有的黑链技术中，隐藏链接有一些固定技巧，例如搜索引擎对javascript的识别不是很好，通过javascript来输出隐藏的div。这样的话，人工直接通过页面无法看到这些链接，而搜索引擎确认为这些链接是有效的。代码为：首先通过javascript写前面的div，设置display为none。然后输出一个table，table中包含了要挂的黑链。最后再通过javascript输出后半部分div。

例如，黑客通过在网页的源码插入下面语句，在目标网页中插入黑链：

<a href=“http：／／www.45u.com”style=”margin-left：-83791；”>传奇私服发布<／a>

其中，通过设置style=”margin-left：-83791；”，使得该黑链在网页中不可见。

为检测网页中含有的恶意链接，目前很多安全工具、搜索引擎甚至浏览器本身都配备了一些检测网页是否被篡改的工具或插件等。而这些工具和／或插件的检测方式也各有不同，最常用的方式就是通过一定的方式遍历网页源码中是否存在一些异常的链接和／或关键词等。

本发明实施例中，通过篡改特征库检测网页中的篡改内容。所述篡改特征库是由多个篡改关键词和／或恶意链接的正则表达式所组成。对于待检测网页，首先获取其源码，然后利用现有的篡改特征库中的正则表达式匹配所述源码，以获取与正则表达式相一致的内容。如果通过篡改特征库中的正则表达式命中待检测网页中的内容，则说明该待检测网页中存在篡改内容。

正则表达式是用于进行文本匹配的工具，通常由一些普通字符和一些元字符(metacharacters)组成。普通字符包括大小写的字母和数字，而元字符则具有特殊的含义。正则表达式的匹配可以理解为，在给定的字符串中，寻找与给定的正则表达式相匹配的部分。有可能字符串里有不止一个部分满足给定的正则表达式，这时每一个这样的部分被称为一个匹配。匹配在本文里可以包括三种含义：一种是形容词性的，比如说一个字符串匹配一个表达式；一种是动词性的，比如说在字符串里匹配正则表达式；还有一种是名词性的，就是刚刚说到的“字符串中满足给定的正则表达式的一部分”。

以下通过举例对正则表达式的生成规则进行说明。

假设要查找hi，则可以使用正则表达式hi。这个正则表达式可以精确匹配这样的字符串：由两个字符组成，前一个字符是h，后一个是i。在实际中，正则表达式是可以忽略大小写的。如果很多单词里都包含hi这两个连续的字符，比如him，history，high等等。用hi来查找的话，这此单词里面的hi也会被找出来。如果要精确地查找hi这个单词的话，则应该使用\bhi\b。其中，\b是正则表达式的一个元字符，它代表着单词的开头或结尾，也就是单词的分界处。虽然通常英文的单词是由空格或标点符号或换行来分隔的，但是\b并不匹配这些单词分隔符中的任何一个，它只匹配一个位置。假如要找的是hi后面不远处跟着一个Lucy，则应该用\bhi\b.*\bLucy\b。其中，.是另一个元字符，匹配除了换行符以外的任意字符。*同样是元字符，它代表的是数量——即指定*前边的内容可以连续重复出现任意次以使整个表达式得到匹配。现在\bhi\b.*\bLucy\b的意思就很明显了：先是一个单词hi，然后是任意个任意字符(但不能是换行)，最后是Lucy这个单词。

例如，篡改特征库中篡改特征规则对应的正则表达式如下所示：

则该正则表达式在网页中匹配命中的网页元素可以为：

可见，篡改特征规则对应的正则表达式用于匹配网页中具有特定格式的网页内容，如具有“<script>document.write”和“<script>document.write(′<′+′／d′+′i′+′v>′)；<／script>”元素的内容等。

或如，另一篡改特征规则对应的正则表达式如下所示：

<a\s*href\s*=[″\′].+?[″\′]\s*style=[″\′][\w+\-]+：-[0-9]+.*?[″\′].*?>.*?<／a>。

通过该篡改特征规则能够命中的页面元素可以为：

<a href=“http：／／www.45u.com”style=”margin-left：-83791；”>；

该正则表达式用于匹配网页中出现“<a href=”且其后面跟随的篡改关键词“style”的值中存在负值(负值表示其不在显示区域中显示)的网页内容。

当然，上述正则表达式的表示方式仅仅用作示例，本领域技术人员根据实际情况采用任一种正则表达式的表示方式都是可行的，本申请对此无需加以限制。

本发明实施例中，可以通过所述正则表达式匹配分析所述待检测网页中的页面元素位置和显示方式，来判定其是否为被篡改的内容。例如，判断黑链篡改时，可以通过正则表达式匹配判断所述待检测网页中的页面元素的位置是否不在预设阈值范围内，或者所述页面元素是否具有不可见的属性，和／或，所述页面元素是否对浏览器隐藏等，若是，则判定所述待检测页面中的所述页面元素为被篡改内容。例如，若检测到某个页面的超链接是不可见的，或者，页面中某个html标签元素的长宽高是负值，则可判定该页面被篡改的内容。

本发明实施例中，还可以通过正则表达式匹配所述待检测网页中是否存在已确定的恶意链接和／或其对应的篡改关键词。

本发明中，根据篡改特征库检测出网页中存在篡改内容后，从所述篡改内容中提取恶意链接。现有的网页检测方法中，通常都是篡改特征库中的篡改特征对待检测网页的源码进行匹配，若命中则认为网页被篡改，若没有命中，则认为待检测网页是安全的，将其显示给用户。但是目前恶意链接的插入方式层出不穷，日益变化。而使用固定的篡改特征库或者利用人工手动更新篡改特征库显然是跟不上步伐的。

基于此，本发明在检测出网页被篡改后，还从篡改内容中提取恶意链接，以便之后根据该恶意链接对其它网页进一步进行检测。

一般情况下，在被篡改的网页内容中，恶意链接都会对应特定的篡改关键词，在提取恶意链接的同时还需要提取与其对应的篡改关键词，并将所述恶意链接与篡改关键词对应存储在数据库中，以便进一步利用。

例如：下面的恶意链接：

<a href=“http：／／www.45u.com”style=”display：none；”>传奇私服发布<／a>。

同时提取出的篡改关键词可以为“display：none”，其表示该连接的显示属性为不可见。

步骤102中，若所提取恶意链接的出现频率高于第一预定阈值，则将其存入恶意链接库。上一步骤中，每提取一个恶意链接，都将其存储于数据存储服务器中。

本发明的方案中，为了提高检测的准确率，专门设置了恶意链接库。所述恶意链接库中用于存储频繁出现的恶意链接。本发明实施例中，在将所提取恶意链接存储在数据存储服务器的同时，还统计其出现的次数，如果统计某个恶意链接的出现次数超过第一预定阈值，则将该恶意链接存储至恶意链接库中。

可选地，还可以将数据存储服务器中的恶意链接根据其出现频率进行排名，并在一段时间内排名靠前的恶意链接存储至恶意链接库中。

例如，检测到黑链http：／／www.45u.com出现次数超过预定阈值(如100次)，则将其存入恶意链接库中。

步骤103中，若根据篡改特征库未检测出网页中的篡改内容，则根据恶意链接库检测网页中的篡改内容，对命中的恶意链接进行标记。

为提高检测的准确率，本发明不仅仅利用篡改特征库检测网页的篡改内容，其还利用恶意链接库中的恶意链接对网页进行检测。由于篡改特征库相对稳定且更新不及时，因此对于很多新出现的恶意链接插入方式，利用篡改特征库无法检测出篡改内容。因此，本发明的方案中，对无法根据所述篡改规则库检测到篡改内容的网页，还根据所述恶意链接库中的恶意链接进行检测。

本发明实施例中，利用恶意链接库中的恶意链接匹配所述网页源码中的内容，若网页源码中存在与所述恶意链接库中的恶意链接相匹配的内容，则认为该网页被篡改，并将该匹配的恶意链接进行标记。标记的目的是为了统计恶意链接库中的恶意链接的命中次数。如果恶意链接库中的恶意链接命中次数高，说明该恶意链接比较活跃，其在网页中出现的概率相对较大；而对于命中次数低的恶意链接，其活跃度较低，其可能仅在极少数的网页中才会出现。

本发明实施例中，可以通过为恶意链接库中的每个恶意链接设置一命中权重来标记其命中次数。若使用恶意链接库中的恶意链接命中检测网页中的篡改内容，则将该恶意链接的命中权重加1。

本发明其它实施例中，还可以通过恶意链接的命中次数进行排名来标记其命中次数，即将恶意链接库中的恶意链接根据其命中此处进行排名。

例如，恶意链接<a href=“http：／／www.45u.com”style=”display：none；”>传奇私服发布<／a>的一个变种：<a href=“http：／／www.45u.com”style=“margin-left：-83791；”>传奇私服发布<／a>出现，原有的篡改特征不能识别出此变种，但恶意链接库中的http：／／www.45u.com的权重会不断提高。

步骤104中，根据恶意链接库中标记的恶意链接生成新的篡改特征规则，并加入篡改特征库中。

本发明的方案中，为提高检测准确率和检测效率，还根据恶意链接库中命中次数较高的恶意链接生成新的篡改特征规则，并将其加入到篡改特征库中。例如，利用恶意链接库对网页的检测过程中，某个恶意链接经常出现在待检测网页中，即其命中次数较高，则说明该恶意链接出现在其他网页中的概率也会比较高。因此，根据命中次数高的恶意链接生成篡改特征规则，并将其加入篡改特征规则库显然能提高检测效率及准确率。

本发明实施例中，预先设定一阈值，当恶意链接库中的恶意链接的命中次数高于该预定阈值时，则自动生成对应于该恶意链接的篡改特征规则，并将其存储于篡改特征库中，以便在检测新的网页时，还可以利用该新生成的篡改特征规则对新的网页进行检测。

本发明其它实施例中，对于根据命中次数进行排名的恶意链接库，预先设置一阈值，对于排名次数大于该预设阈值的恶意链接，自动生成与其对应的篡改特征规则，并将该篡改特征加入到篡改特征规则库中，以便在检测新的网页时，还可以利用该新生成的篡改特征规则对新的网页进行检测。

可选地，所述篡改规则特征可以是包含恶意链接和／或篡改关键词的正则表达式。本发明的方案中，从网页中提取恶意链接的同时还提取与其对应的篡改关键词，并且篡改关键词与所述恶意链接对应存储。对于符合条件的恶意链接，可以根据恶意链接和／或篡改关键词来生成相应的篡改特征规则。

如前所述，正则表达式通常是根据普通字符和元字符来生成。普通字符包括大小写的字母和数字，而元字符则具有特殊含义。正则表达式的匹配可以理解为，在给定的字符串中，寻找与给定的正则表达式相匹配的部分。有可能字符串里有不止一个部分满足给定的正则表达式，这时每一个这样的部分被称为一个匹配。对于一个给定的恶意链接和／或篡改关键词，其中的字母和／或数字作为正则表达式中的普通字符，而用于匹配恶意链接和／或篡改关键词的一些规则则用元字符来表示。

例如，对于恶意链接：

<a href=“http：／／www.45u.com”style=“margin-left：-83791；”>；

其对应的正则表达式可以为：

<a\s*href\s*=[″\′].+?[″\′]\s*style=[″\′][\w+\-]+：-[0-9]+.*?[″\′].*?>.*?<／a>；

例如，对于恶意链接：

<a href=“http：／／www.45u.com”style=“display：none；”>；

其对应的正则表达式可以为：

<a\s*href\s*=[″\′].+?[″\′]\s*style=[″\′]display：none[″\′]<／a>。

本领域技术人员应当理解，上面仅示例性的介绍了本发明所提出的网页篡改的检测方法的一部分具体实施方式，其中仅涵盖了使用正则表达式对篡改特征规则的表达，以及使用黑链和挂马链接介绍了恶意链接，而其他对能够匹配网页内容的规则表达式以及其它恶意链接均可沿用上述方法，对其进行扩展或变形，只要是通过提取检测出篡改后的网页中的恶意链接，并利用恶意链接自动生成篡改特征规则的方式均涵盖在本发明的保护范围之内。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

图2示出了本发明提出的一种网页篡改的检测装置的结构示意图。如图2所示，该装置包括：

第一检测模块201，其根据篡改特征库检测网页中的篡改内容，提取所述篡改内容中的恶意链接；

写入模块202，若所提取恶意链接的出现频率高于第一预定阈值，其将该所述恶意链接存入恶意链接库；

第二检测模块203，若根据篡改特征库未检测出网页中的篡改内容，其根据恶意链接库检测网页中的篡改内容，并对命中的恶意链接进行标记；

规则生成模块204，其根据恶意链接库中标记的恶意链接生成新的篡改特征规则，并加入篡改特征库中。

下面根据具体的实施例对本发明提出上述网页篡改的检测装置的各个模块进行详细说明。

第一检测模块201中，其根据篡改特征库检测网页中的篡改内容，提取所述篡改内容中的恶意链接。

<iframesrc=http：／／www.xxx.com／example.html width=0height=0><iframe>

其中，通过设置“style=′display：none；′”，使得该黑链在网页中不可见。

以下通过举例对正则表达式的生成规则进行说明。

则该正则表达式在网页中匹配命中的网页元素可以为：

或如，另一篡改特征规则对应的正则表达式如下所示：

通过该篡改特征规则能够命中的页面元素可以为：

<a href=“http：／／www.45u.com”style=”margin-left：-83791；”>；

例如：下面的恶意链接：

写入模块202中，若所提取恶意链接的出现频率高于第一预定阈值，其将所述恶意链接存入恶意链接库。上一步骤中，每提取一个恶意链接，都将其存储于数据存储服务器中。

第二检测模块203中，若根据篡改特征库未检测出网页中的篡改内容，则其根据恶意链接库检测网页中的篡改内容，对命中的恶意链接进行标记。

规则生成模块204中，其根据恶意链接库中标记的恶意链接生成新的篡改特征规则，并加入篡改特征库中。

例如，对于恶意链接：

<a href=“http：／／www.45u.com”style=“margin-left：-83791；”>；

其对应的正则表达式可以为：

例如，对于恶意链接：

<a href=“http：／／www.45u.com”style=“display：none；”>；

其对应的正则表达式可以为：

本领域技术人员应当理解，上面仅示例性的介绍了本发明所提出的网页篡改的检测装置的一部分具体实施方式，其中仅涵盖了使用正则表达式对篡改特征规则的表达，以及使用黑链和挂马链接介绍了恶意链接，而其他对能够匹配网页内容的规则表达式以及其它恶意链接均可沿用上述装置实现的功能，对其进行扩展或变形，只要是通过提取检测出篡改后的网页中的恶意链接，并利用恶意链接自动生成篡改特征规则的方式均涵盖在本发明的保护范围之内。

由于所述装置实施例基本相应于前述图1所示的方法实施例，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此就不赘述了。

A1、一种网页篡改的检测方法，包括：

A2、如权利要求1所述的网页篡改的检测方法，其中，在提取所述篡改内容中的恶意链接的同时还提取出与其对应的篡改关键词。

A3、如权利要求2所述的网页篡改的检测方法，其中，根据恶意链接库中标记的恶意链接生成新的篡改特征规则步骤中包括：利用所述恶意链接和／或与其对应的篡改关键词生成新的篡改特征规则。

A4、如权利要求1-3任一项所述的网页篡改的检测方法，其中，所述篡改特征库包含篡改关键词和／或恶意链接的正则表达式。

A5、如权利要求1所述的网页篡改的检测方法，其中，在根据恶意链接库检测网页中的篡改内容时，如果所述网页的内容命中所述恶意链接库中的恶意链接，则标记所述恶意链接的命中权重加1。

A6、如权利要求5所述的网页篡改的检测方法，其中，根据恶意链接库中标记的恶意链接生成新的篡改特征规则的步骤中包括：根据标记的命中权重高于第二预定阈值的恶意链接生成新的篡改特征规则。

A7、如权利要求1-3、5-6任一项所述的网页篡改的检测方法，其中，所述恶意链接包括黑链、挂马链接。

A8、一种网页篡改的检测装置，其包括：

A9、如权利要求8所述的网页篡改的检测装置，其中，所述第一检测模块在提取所述篡改内容中的恶意链接的同时还提取出与其对应的篡改关键词。

A10、如权利要求9所述的网页篡改的检测装置，其中，所述规则生成模块利用所述恶意链接和／或与其对应的篡改关键词生成新的篡改特征规则。

A11、如权利要求8-10任一项所述的网页篡改的检测装置，其中，所述篡改特征库包含篡改关键词和／或恶意链接的正则表达式。

A12、如权利要求8所述的网页篡改的检测装置，其中，第二检测模块在所述网页的内容命中所述恶意链接库中的恶意链接时，标记所述恶意链接的命中权重加1。

A13、如权利要求12所述的网页篡改的检测装置，其中，所述规则生成模块根据标记的命中权重高于第二预定阈值的恶意链接生成新的篡改特征规则。

A14、如权利要求8-10、12-13任一项所述的网页篡改的检测装置，其中，所述恶意链接包括黑链、挂马链接。

本发明提出的上述方案可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网页篡改的检测方法，包括：

2.如权利要求1所述的网页篡改的检测方法，其中，在提取所述篡改内容中的恶意链接的同时还提取出与其对应的篡改关键词。

3.如权利要求2所述的网页篡改的检测方法，其中，根据恶意链接库中标记的恶意链接生成新的篡改特征规则步骤中包括：利用所述恶意链接和／或与其对应的篡改关键词生成新的篡改特征规则。

4.如权利要求1-3任一项所述的网页篡改的检测方法，其中，所述篡改特征库包含篡改关键词和／或恶意链接的正则表达式。

5.如权利要求1所述的网页篡改的检测方法，其中，在根据恶意链接库检测网页中的篡改内容时，如果所述网页的内容命中所述恶意链接库中的恶意链接，则标记所述恶意链接的命中权重加1。

6.如权利要求5所述的网页篡改的检测方法，其中，根据恶意链接库中标记的恶意链接生成新的篡改特征规则的步骤中包括：根据标记的命中权重高于第二预定阈值的恶意链接生成新的篡改特征规则。

7.如权利要求1-3、5-6任一项所述的网页篡改的检测方法，其中，所述恶意链接包括黑链、挂马链接。

8.一种网页篡改的检测装置，其包括：

9.如权利要求8所述的网页篡改的检测装置，其中，所述第一检测模块在提取所述篡改内容中的恶意链接的同时还提取出与其对应的篡改关键词。

10.如权利要求9所述的网页篡改的检测装置，其中，所述规则生成模块利用所述恶意链接和／或与其对应的篡改关键词生成新的篡改特征规则。