CN109104421B

CN109104421B - 一种网站内容篡改检测方法、装置、设备及可读存储介质

Info

Publication number: CN109104421B
Application number: CN201810866015.4A
Authority: CN
Inventors: 庞思铭
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2021-09-17
Anticipated expiration: 2038-08-01
Also published as: CN109104421A

Abstract

本发明公开了一种网站内容篡改检测方法，包括：接收待检测的目标网站域名；利用浏览器测试框架驱动搜索引擎对目标网站域名进行搜索，获得与目标网站域名对应的待检测页面；利用篡改页面检测技术对待检测页面的页面内容进行检测，识别被篡改的页面。可见，在本方案中，通过利用浏览器测试框架驱动搜索引擎对目标网站域名进行搜索，可以模拟真实用户操作浏览器完成搜索行为，从而避免被搜索引擎误以为是恶意搜索行为而被禁止；并且本方案利用搜索引擎的全网视角搜索能力，实现从全网视角对目标网站资源的篡改监测，提高了召回率，从而大幅降低漏判；本发明还公开了一种网站内容篡改检测装置、设备及可读存储介质，同样能实现上述技术效果。

Description

一种网站内容篡改检测方法、装置、设备及可读存储介质

技术领域

本发明涉及网页篡改技术领域，更具体地说，涉及一种网站内容篡改检测方法、装置、设备及可读存储介质。

背景技术

目前，搜索引擎是网络用户查找网络信息，发现网络资源，寻找待购买的网络服务的重要入口。有研究指出搜索引擎引入的网络流量超过整个互联网通信流量的60％。于是基于搜索引擎实现广告投递就成为大多数网络服务销售推广的重要手段。通过搜索引擎进行广告推广通常有(1)向搜索服务商购买关键词；(2)白帽SEO(Search EngineOptimization，搜索引擎优化)；(3)黑帽SEO；三种手段。其中，黑帽SEO是一种非法的网络营销手段，但因为利益驱使，中国的地下产业链常常利用黑客手段批量获取大量网络主机的控制权，其中不乏具有高PR值的网站主机，通过将高PR(Page Rank，页面等级)值的网站主机沦为SEO僵尸网络成员，通过批量篡改高PR值网站内容，实现黑帽SEO，从而为地下网络服务提供搜索引擎商业推广，为其客户快速赢得访问流量，谋取暴力。

因此，目前在部署上存在以下两种方案获取页面，以实现对篡改页面的检测。第一种是在待测网站主机上部署检测系统，定时或实时利用页面检测技术监测网站资源，称为本地检测方案；另一种是依托于爬虫技术，远程爬取网站页面资源进行检测，称为远程检测方案；其中，在使用爬虫技术进行远程检测方案中，是基于目标网站视角的，通过针对目标网站的爬虫获得目标站点链接结构的数据。然而由于被嵌入的篡改页面并未在目标网站合法页面的链接结构中，所以传统的基于目标网站视角的爬虫无法发现这些篡改页面，局限在自身网页层级结构，无法站在全网视角进行监测，召回率偏低，易发生漏判。

因此，如何解决传统方案中对目标网站资源进行篡改检测时，召回率低且易发生漏判的问题，是本领域技术人员需要解决的。

发明内容

本发明的目的在于提供一种网站内容篡改检测方法、装置、设备及可读存储介质，以实现对目标网站资源进行篡改检测时，解决召回率低且易发生漏判的问题。

为实现上述目的，本发明实施例提供了如下技术方案：

一种网站内容篡改检测方法，包括：

接收待检测的目标网站域名；

利用浏览器测试框架驱动搜索引擎对所述目标网站域名进行搜索，获得与所述目标网站域名对应的待检测页面；

利用篡改页面检测技术对所述待检测页面的页面内容进行检测，识别被篡改的页面。

其中，利用浏览器测试框架驱动搜索引擎对所述目标网站域名进行搜索，获得与所述目标网站域名对应的待检测页面，包括：

对所述目标网站域名进行拆分；

将拆分的目标网站域名与操作符、黑词库中的优选黑词进行组合，生成多个字符串组合；

利用浏览器测试框架驱动搜索引擎对每个字符串组合进行搜索，对搜索结果进行筛选后，获取与每个字符串组合对应的待检测页面。

其中，所述对搜索结果进行筛选后，获取与每个字符串组合对应的待检测页面，包括：

去除所述搜索结果中搜索结果域名与所述目标网站域名无关、搜索结果标题或摘要中不包括优选黑词，得到筛选后的搜索结果；

确定与每个筛选后的搜索结果对应的原始页面地址；

对搜索参数进行动态组合变化，利用变化后的搜索参数访问所述原始页面地址，得到搜索后的页面地址；

将所述原始页面地址，以及与所述原始页面地址不同的搜索后的页面地址作为最终的页面地址，下载与最终的页面地址对应的待检测页面。

其中，所述利用篡改页面检测技术对所述待检测页面的页面内容进行检测，识别被篡改的页面，包括：

获取待检测页面内的页面内容；

利用预先构建的黑词库检测所述页面内容中的黑词，并统计每个黑词在所述页面内容中出现的次数；

根据所述黑词库，确定每个黑词的词频差；所述词频差为黑词在黑样本中存在的概率与黑词在白样本中存在的概率之差；

利用每个黑词的词频差以及每个黑词在所述页面内容中出现的次数，确定所述待检测页面的篡改判定值，若所述篡改判定值大于预先设定的篡改阈值，则判定所述待检测页面为篡改页面。

其中，所述利用每个黑词的词频差以及每个黑词在所述页面内容中出现的次数，确定所述待检测页面的篡改判定值之前，还包括：

检测所述页面内容中黑域名的数量；

则所述利用每个黑词的词频差以及每个黑词在所述页面内容中出现的次数，确定所述待检测页面的篡改判定值，包括：

利用每个黑词的词频差、每个黑词在所述页面内容中出现的次数、所述页面内容中黑域名的数量、以及黑域名篡改权值，确定所述待检测页面的篡改判定值。

其中，所述利用每个黑词的词频差、每个黑词在所述页面内容中出现的次数、所述页面内容中黑域名的数量、以及黑域名篡改权值，确定所述待检测页面的篡改判定值，包括：

利用篡改判定值确定规则，计算篡改判定值G；

所述篡改判定值确定规则为：

其中，R为所述页面内容中黑域名的数量，L为黑域名篡改权值，M为黑词的总数量，D_i为第i个黑词的词频差，C_i为第i个黑词在所述页面内容中出现的次数。

一种网站内容篡改检测装置，包括：

接收模块，用于接收待检测的目标网站域名；

待检测页面获取模块，用于利用浏览器测试框架驱动搜索引擎对所述目标网站域名进行搜索，获得与所述目标网站域名对应的待检测页面；

检测模块，用于利用篡改页面检测技术对所述待检测页面的页面内容进行检测，识别被篡改的页面。

其中，所述待检测页面获取模块，包括：

域名拆分单元，用于对所述目标网站域名进行拆分；

组合单元，用于将拆分的目标网站域名与操作符、黑词库中的优选黑词进行组合，生成多个字符串组合；

搜索单元，用于利用浏览器测试框架驱动搜索引擎对每个字符串组合进行搜索；

页面获取单元，用于对搜索结果进行筛选后，获取与每个字符串组合对应的待检测页面。

其中，所述页面获取单元，包括：

筛选子单元，用于去除所述搜索结果中搜索结果域名与所述目标网站域名无关、搜索结果标题或摘要中不包括优选黑词，得到筛选后的搜索结果；

原始页面地址确定子单元，用于确定与每个筛选后的搜索结果对应的原始页面地址；

原始页面地址访问子单元，用于对搜索参数进行动态组合变化，利用变化后的搜索参数访问所述原始页面地址，得到搜索后的页面地址；

待检测页面下载子单元，用于将所述原始页面地址，以及与所述原始页面地址不同的搜索后的页面地址作为最终的页面地址，下载与最终的页面地址对应的待检测页面。

其中，所述检测模块包括：

页面内容获取单元，用于获取待检测页面内的页面内容；

黑词检测单元，用于利用预先构建的黑词库检测所述页面内容中的黑词；

次数统计单元，用于统计每个黑词在所述页面内容中出现的次数；

词频差确定单元，用于根据所述黑词库，确定每个黑词的词频差；所述词频差为黑词在黑样本中存在的概率与黑词在白样本中存在的概率之差；

篡改页面判定单元，用于利用每个黑词的词频差以及每个黑词在所述页面内容中出现的次数，确定所述待检测页面的篡改判定值，若所述篡改判定值大于预先设定的篡改阈值，则判定所述待检测页面为篡改页面。

其中，所述检测模块还包括：

黑域名检测单元，用于检测所述页面内容中黑域名的数量；

则所述篡改页面判定单元具体用于：

其中，所述篡改页面判定单元具体利用篡改判定值确定规则，计算篡改判定值G；

所述篡改判定值确定规则为：

一种网站内容篡改检测设备，包括：

存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述网站内容篡改检测方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述网站内容篡改检测方法的步骤。

通过以上方案可知，本发明实施例提供的一种网站内容篡改检测方法，包括：接收待检测的目标网站域名；利用浏览器测试框架驱动搜索引擎对所述目标网站域名进行搜索，获得与所述目标网站域名对应的待检测页面；利用篡改页面检测技术对所述待检测页面的页面内容进行检测，识别被篡改的页面。可见，在本方案中，通过利用浏览器测试框架驱动搜索引擎对目标网站域名进行搜索，可以模拟真实用户操作浏览器完成搜索行为，从而避免被搜索引擎误以为是恶意搜索行为而被禁止；并且本方案利用搜索引擎的全网视角搜索能力，实现从全网视角对目标网站资源的篡改监测，提高了召回率，从而大幅降低漏判；本发明还公开了一种网站内容篡改检测装置、设备及可读存储介质，同样能实现上述技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种网站内容篡改检测方法流程示意图；

图2为本发明实施例公开的一种具体的网站内容篡改检测方法；

图3为本发明实施例公开的黑词收集示意图；

图4为本发明实施例公开的黑词库生成结构示意图；

图5为本发明实施例公开的搜索结果示意图；

图6为本发明实施例公开的另一种具体的网站内容篡改检测方法；

图7为本发明实施例公开的另一种具体的网站内容篡改检测方法；

图8为本发明实施例公开的一种网站内容篡改检测装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种网站内容篡改检测方法、装置、设备及可读存储介质，以实现对目标网站资源进行篡改检测时，解决召回率低且易发生漏判的问题。

参见图1，本发明实施例提供的一种网站内容篡改检测方法，包括：

S101、接收待检测的目标网站域名；

具体的，对网站内容进行篡改检测时，需要获取待检测的目标网站域名，在本实施例中，将目标网站域名表示为：www.example.com，也就是检测该地址下是否有被篡改的网站内容。

S102、利用浏览器测试框架驱动搜索引擎对所述目标网站域名进行搜索，获得与所述目标网站域名对应的待检测页面；

在本方案中，主要通过浏览器模拟的方式，模拟真实用户操作浏览器完成搜索的行为，从而避免被搜索引擎误以为是恶意搜索行为而被禁止。在进行搜索时，通过集成主流搜索引擎进行SearchHacking，并具备解析对应搜索引擎搜索结果的功能。其中，SearchHacking是一种依托于搜索引擎对网络资源关键字建立的丰富索引，利用搜索引擎支持的特殊操作符的搜索技巧，实现针对特定网络资源类型或内容的搜索，从而采集信息的过程。因此，本方案在对目标网站域名进行搜索以获取待检测页面时，通过浏览器测试框架驱动搜索引擎对目标网站域名进行搜索，从而利用搜索引擎通过爬虫建立的面向全网表网资源的内容索引，搜索到全网的内容，从而能检测到现有技术中通过爬虫方式爬取不到的更多的篡改页面，大幅度降低漏判。

具体来说，目前主流浏览器都提供自动测试驱动模块，通过相应的浏览器测试框架调用浏览器完成Web应用的自动测试。本实施例中的浏览器测试框架包含且不限于Selenium。以Selenium为例，Selenium是一个用于Web应用程序测试的工具，Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE(7,8,9,10,11)，Mozilla Firefox，Safari，Google Chrome，Opera等。

浏览器测试框架驱动搜索引擎对目标网站域名进行搜索时，可以根据需要，设定或变换UserAgent、Referrer以及代理服务器IP地址等，避免被搜索引擎误以为是恶意搜索行为而被禁止，启动驱动浏览器，打开搜索引擎的主页，在此搜索引擎包括且不限于baidu.com、bing.com、sogou.com、so.com、google.com等；并且，在搜索时，可对搜索结果执行翻页的功能，从而获取更丰富的搜索结果。

S103、利用篡改页面检测技术对所述待检测页面的页面内容进行检测，识别被篡改的页面。

具体的，待检测页面为与页面地址对应的页面，待检测页面的页面内容具体是指待检测页面中需要检测的内容，例如：图片内容、文本内容等信息。在本实施例中，在对页面内容进行篡改检测时，允许动态加载多种内容检测插件，以实现对多种内容篡改的检测。篡改页面检测技术包括：文本篡改检测技术、图片篡改检测技术、恶意JS检测技术(如网马、挖矿脚本等)、病毒文件检测技术等。其中，文本篡改检测可以采用基于深度学习的检测模型，也可采用黑词检测算法。也就是说，本方案可以通过以上任意一种篡改页面检测技术对页面内容进行检测，在此并不具体限定。

综上可以看出，本方案通过利用浏览器测试框架驱动搜索引擎对目标网站域名进行搜索，可以模拟真实用户操作浏览器完成搜索行为，从而避免被搜索引擎误以为是恶意搜索行为而被禁止；并且本方案利用搜索引擎的全网视角搜索能力，实现从全网视角对目标网站资源的篡改监测，提高了召回率，从而大幅降低漏判。

参见图2，本发明实施例提供的一种具体的网站内容篡改检测方法，该方法包括如下步骤：

S201、接收待检测的目标网站域名；

S202、对所述目标网站域名进行拆分；将拆分的目标网站域名与操作符、黑词库中的优选黑词进行组合，生成多个字符串组合；

S203、利用浏览器测试框架驱动搜索引擎对每个字符串组合进行搜索，对搜索结果进行筛选后，获取与每个字符串组合对应的待检测页面。

S204、利用篡改页面检测技术对所述待检测页面的页面内容进行检测，识别被篡改的页面。

具体的，本实施例中的S201与S204与上一实施例中的S101和S103相对应，在此便不具体赘述。

需要说明的是，在模拟用户的搜索操作时，需要对目标网站域名进行拆分，与黑词库中的优选黑词进行整合，并传入搜索引擎的搜索框完成自动搜索，即SearchHacking；并且，在搜索时，具备识别搜索引擎禁止页面的功能，在被搜索引擎禁止时，将再次变换参数UserAgent、Referrer以及代理服务器IP地址等重试。

在SearchHacking时，选用的SearchHacking操作符包含且不限于“inurl:”、“site:”、“intext:”、“intitle:”等。其中，inurl:为把搜索范围限定在url链接中，site:为把搜索范围限定在站点域名中，intext:为把搜索范围限定在正文中，intitle:为把搜索范围限定在网页标题中。对目标网站域名进行拆分时，如果目标网站域名为www.example.com，则对待检测篡改的目标网站域名的拆分方式包括但不限于如下几种：“example.com”及“example”等。

进一步的，本方案在对目标网站域名进行搜索时，搜索关键词来源于目标网站域名的一部分结合黑词库中优选黑词完成search hacking，通过结合优选黑词进行searchhacking，可以检索到更多的篡改页面，提高检索准确度。

需要说明的是，由于黑词库规模较大，所以本实施例所述的优选黑词可以是通过黑词优选算法从黑词库中选取的具有代表性的黑词。具体来说，黑词优选算法可以从黑词库中选取使用频率较高的黑词、优先级较高的黑词，或者选取在黑词文本中出现频率较高的黑词等。

在本实施例中，提供一种黑词库构建方法，可以针对地下网络服务提供者黑帽SEO(Search Engine Optimization，搜索引擎优化)不断新创黑词或短语时，实现自动快速扩充黑词，因此通过从该方法构建的黑词库中选取的黑词，可包括最新出现的黑词，扩大了检索范围。

本实施例提供的黑词库的构建方法，具体包括两个步骤，第一个步骤为黑词的收集，第二个步骤为黑词的审核及扩充：

在第一个步骤中，本实施例提供两种方式，包括：(1)自动收集，(2)人工收集。在自动收集时，需要满足如下两个预设条件或假定：

第1假定：当一个样本词汇量足够大时，其中黑词在黑样本(或称为篡改页面样本)中出现的概率高于在白样本(正常页面样本)中出现的概率；

第2假定：黑词常常出现在黑域名、黑IP或已定义的黑词附近；做出此假定的原因基于对大量黑样本(篡改页面样本)中黑词出现位置的经验判断。

基于上述两个假定，自动收集黑词的方法有两种：

方法1、检测黑样本中的目标分词在所述黑样本中出现的概率与所述目标分词在白样本中出现的概率之差，是否大于预定差异阈值；若是，则将所述目标分词添加至待审核黑词库；

具体的，本实施例中的黑样本为篡改页面样本，白样本为正常页面样本，这两个样本中均包含了大量的词汇，在本方法中，需要从黑样本中筛选黑词，以便对原始的黑词库进行更新补充。由于黑词在黑样本中出现的概率高于黑词在白样本中出现的概率，因此，本方案在黑样本进行分词处理后，需要检测黑样本中的每个分词在黑样本中出现的概率与在白样本中出现的概率之差是否大于预定差异阈值，如果超过差异阈值，则存入tempLib1中。

方法2、确定黑样本中的黑域名、黑IP及原始黑词；其中，所述原始黑词为待审核黑词库中的黑词，和/或，原始黑词库中的黑词；

将距离所述黑域名、黑IP及原始黑词的预定词距内的词语加入所述待审核黑词库。

需要说明的是，方法1和方法2可以单独执行其中任意一个方法，也可以两个方法均执行。如果只执行方法2，则方法2中的原始黑词便是原始黑词库中的黑词，如果两个方法均执行，那么原始黑词可以是原始黑词库中的黑词，可以是方法1中添加至tempLib1中的黑词，同样也可以是两者均是。本方案中的黑域名、黑IP及原始黑词库中的黑词均来源于持续安全运营过程中以及从威胁情报中搜集的历史数据。

通过对黑域名、黑IP或原始黑词周围的短语进行收集进一步获得潜在新的黑词；由于一个黑词可能在白样本及黑样本中同时存在，然而在黑样本中，该词往往和其他词构成一个在地下黑产特定场景中的短语，例如：“赛车”这个词，在白样本、黑样本中都存在，而假如其存在于短语“pk北京赛车”中，就基本可以判定是一个黑产在篡改页面中用到的黑词。本实施例所述的黑词库构建方法的目的就是基于概率异常的词发现此类黑产短语。

在本方案中，与黑域名、黑IP或原始黑词的预定距离D为可调参数；方法2自动收集黑词的过程如下：

Step1：筛查黑样本文本中符合域名、IP正则规则的文本，并与黑域名、黑IP库进行比对，从而确定其中黑域名或黑IP的位置；

Step2：对黑样本文本进行分词处理，并与原始黑词进行比对，从而确定其中黑词位置；

Step3：在黑样本文本中，对于距离黑域名、黑IP或原始黑词的词距为D以内的短语，检查其是否在原始黑词库中，如果不在原始黑词库中，则添加进入tempLib1；

参见图3，为本实施例提供的黑词收集示意图；从图3中可以看出，本方案中的预定词距D设置为3，在黑样本全文中发现了黑域名

www.black_url_example.com，则将与此域名前后距离为3的单词都放入tempLib1；对于与黑词距离为D的短语的处理方式与此相同。

参见图4，为本实施例提供的黑词库生成结构示意图；其中的自动收集便是通过上述方法1和/或方法2对黑词进行收集，并加入tempLib1中。需要说明的是，为了避免自动收集的黑词存在误加入或者明显不属于黑词的情况，可以对加入tempLib1中的词进行人工审核，审核后加入缓存库tempLib2。进一步，本方案在自动收集黑词的基础上，添加人工收集的词语，本方案中人工收集过程，主要来源于专家对钓鱼站点、SEO站点、赌博、色情站点进行的人工识别收集；并将放入缓存库tempLib2，这时缓存库tempLib2中便存在通过两种方式获取的黑词，为了避免黑词重复，可以对缓存库tempLib2中进行去重处理。

在第二个步骤对黑词的审核及扩充时，具体包括如下步骤：

计算所述待审核黑词库中每个待审核黑词在白样本中存在的概率M1，以及待审核黑词在黑样本中存在的概率M2，并根据审核值计算规则计算待审核黑词的审核值；

判断待审核黑词的审核值是否大于审核阈值；若是，则将待审核黑词加入原始黑词库

其中，所述审核值计算规则为：

需要说明的是，本实施例中的待审核黑词库为上述去重后的缓存库tempLib2。对tempLib2中的词逐个进行下述自动审核，对于审核后通过的黑词，则放入黑词库BlackWordList，设定这个样本词为blk_sample。

Step1：检查原始黑词库中是否已经有这个词blk_sample，如果已经存在则丢弃；

Step2：自动词频分析，计算blk_sample在白样本中存在的概率，设定为M1；

Step3：通过词频分析，计算blk_sample在黑样本中存在的概率，设定为M2；

Step4：计算blk_sample的篡改权值差值M＝|M1-M2|；注：计算这个差值M的目的在于，在人工黑词收集过程中，难免会误操作加入一些在黑、白样本都有出现，且出现概率都比较大的词，如果没有求差的过程，可能因为一个误输入的黑词样本，导致误判的陡增。

Step5：基于已经设定的审核阈值Gate，当2M/(M1+M2)＞Gate时，将blk_sample放入黑词库；否则将blk_sample丢弃。注：对于2M/(M1+M2)≤Gate的情况代表blk_sample在白样本和黑样本中存在概率过于接近，不适于放入黑词库。

表1

通过上述方法，可实现对黑词库的构建。参见表1，本实施例所述的黑词库中的每一条记录，都有三部分：黑词BlackWord、这个黑词在黑样本(即篡改页面样本)中存在的概率BlackStats、这个黑词在黑样本和白样本中统计的概率之差的绝对值Diff，当该黑词在白样本中从未出现时，Diff＝＝BlackStats。即黑词库中有三列数据：BlackWord|BlackStats|Diff，并且为了方便选取黑词，黑词库在每次更新完后，都需要进行自动整理阶段，按照所有黑词的Diff值从大到小的顺序，对黑词库中的黑词进行重新排序。

基于上述构建的黑词库，本实施例中的黑词优选算法，就是根据检测需求获得Diff值最大的前N个黑词的过程。其中，篡改监测的SLA(Service-Level Agreement，服务质量协议)将明确为客户提供的网站篡改检测深度及敏感词检测规模，在敏感词检测规模中，将定义特定客户站点通过SearchHacking方式发现篡改嫌疑所采用的优选黑词数量N，或根据性能要求或限制自动选择优选黑词数量N。对应地，进行黑词优选时，即在黑词库整理得到当前按照Diff从大到小排列的前N个黑词。

在本实施例中，假定该域名SLA定义的黑词优选规模是2，假定黑词库经过整理后Diff值最高的两个黑词分别为“六合彩”，“香港赛马会”，则调用浏览器模拟进行SearchHacking的字符串包含且不限于如表2所示的几种，生产环境中为提升性能，可能会只选择其中一部分组合进行SearchHacking，但将记录选择的字符串组合：

表2

接下来，利用浏览器测试框架驱动搜索引擎对每个字符串组合进行搜索，对搜索结果进行筛选后，获取与每个字符串组合对应的待检测页面。

基于上述任意方法实施例，在本实施例中，对搜索结果进行筛选后，获取与每个字符串组合对应的待检测页面，具体包括：

确定与每个筛选后的搜索结果对应的原始页面地址；

参见图5，为本实施例提供的搜索结果示意图，该搜索结果为对字符串：“inurl:com六合彩”进行搜索后得到的其中一个搜索结果，也就是说，利用浏览器测试框架驱动搜索引擎对每个字符串组合进行搜索，得到的搜索结果为包括多个如图5所述的搜索结果。在该搜索结果中，包括搜索结果标题、风险提示、搜索结果摘要、搜索结果对应的原始页面地址等；该搜索结果对应的原始页面地址即为搜索结果域名。参见图5，图中“香港六合彩-welcoming北京赛车PK10”即“搜索结果标题”，对应截图中编号1；截图中编号2对应的文本“风险”标签即搜索引擎提供的“风险提示”，也将作为判定篡改的依据之一；截图中编号3对应的文本“能源|电力...”即“搜索结果摘要”。

由于每个字符串对应的搜索结果有很多，因此，本方案需要去除搜索结果中搜索结果域名与目标网站域名无关、搜索结果标题或摘要中不包括优选黑词，得到筛选后的搜索结果。具体来说，本方案对搜索结果页面中的搜索结果进行筛选时，具体包括如下步骤：

Step1：过滤掉和目标网站域名无关的搜索结果；如果某搜索结果的搜索结果域名包含目标网站域名字符串，但主域名不同，则认为是潜在的钓鱼页面，将予以保留；

例如，发现某潜在的篡改页面域名是www.bjbank.com.cn.example.com，则该站点很可能是www.bjbank.com.cn的仿冒站点。

Step2：检查剩余的搜索结果是否包含风险提示；如果包含，则剩余所有搜索结果对应的原始页面地址均予以保留；但是，由于搜索引擎的风险提示不准，大量篡改站点并没有风险提示，因此，Step2可作为一个可选的筛选条件，根据具体的应用场景来决定是否执行Step2。

Step3：检查剩余搜索结果标题和摘要是否包含N个优选黑词中的一个或多个，保留包含优选黑词的原始页面地址。

Step4：如果前述步骤完成后，无剩余原始页面地址，则检查是否有未执行SearchHacking的剩余字符串组合，重新执行SearchHacking，如此循环多次，直到每个字符串均被搜索。

也就是说，执行完上述操作后，便可以得到筛选后的每个搜索结果对应的搜索结果域名，该搜索结果域名即为与每个搜索结果对应的原始页面地址；接下来对搜索参数进行动态组合变化，即动态组合Referrer、UserAgent并动态变化代理服务器IP地址，通过对搜索参数进行动态变化后，利用变化后的搜索参数访问该原始页面地址，得到搜索后的页面地址。在获取搜索后的页面地址时，具体通过模拟如下三种场景，确定与页面地址对应的待检测页面：

1、用户从搜索引擎搜索结果页面点击跳转后进入目标网站页面的情景；

2、用户直接输入网站地址进入网站页面的场景；

3、搜索引擎爬虫爬取网站页面的场景。

进而，在性能允许条件下，还将调用浏览器模拟功能模拟进入该页面；通过上述任意一种场景进入与原始页面地址对应的页面后，检测搜索后的页面地址与原始页面地址是否相同，即检测跳转后页面域名与原始页面域名是否相同，如果相同，则原始页面地址是最终的页面地址，如果不同，则原始页面地址和搜索后的页面地址均是最终的页面地址，并下载与最终的页面地址对应的待检测页面，以便后续进行篡改内容的检测。如果通过上述任意一种方法，均没有下载到页面，则检查是否有未执行SearchHacking的剩余字符串组合，重新执行SearchHacking，如此循环多次，从而得到待检测页面。

参见图6，本发明实施例提供的一种具体的网站内容篡改检测方法，在该方法中，对待检测页面进行篡改检测时，利用上述实施例中创建的黑词库对待检测页面进行检测，该检测方法具体包括如下步骤：

S301、接收待检测的目标网站域名；

S302、利用浏览器测试框架驱动搜索引擎对所述目标网站域名进行搜索，获得与所述目标网站域名对应的待检测页面；

S303、获取待检测页面内的页面内容；

具体的，本实施例中的页面内容具体是指待检测页面中需要检测的内容，例如：图片内容、文本内容等信息。由于本方案是通过黑词库中的黑词对待检测页面进行篡改检测，所以如果页面内容是图片内容，则需要通过文字识别技术识别图片内容中的文字内容。

S304、利用预先构建的黑词库检测所述页面内容中的黑词，并统计每个黑词在所述页面内容中出现的次数；

具体的，本实施例中黑词库中的黑词，为对已经确认为不法内容的黑样本分词处理后，根据分词的词频等信息提取的。本方案首先需要对页面内容进行分词处理，得到每个分词在该页面内容中出现的次数，例如表3所示，为对页面内容进行分词处理后得到的分词：Word1、Word2、Word3等，以及与每个分词相对应的在页面内容中出现的次数：N1、N2、N3等，将该列表记为TBL1。

表3

Word1	N1
		Word2	N2
Word3	N3
		Word4	N4
...	...

进一步，需要利用黑词库中的黑词对页面内容中的分词进行对比，从而识别所述页面内容中的黑词，并统计每个黑词在所述页面内容中出现的次数。在本实施例中，黑词出现的次数用C标识，如果黑词的数量为N，那么从表3中查询每个黑词在文本中出现的次数分别为：C₁,C₂,...C_N。

需要说明的是，在将页面内容中的黑词与黑词库中的黑词进行对比时，由于黑词库中的黑词数量较多，这时可以选取一定数量的黑词与页面内容中的分词进行对比，从而减少时间的消耗。具体来说，在从黑词库中选取黑词时，可以按照一定的规则进行选取。例如：选取使用频率较高的黑词，选取优先级较高的黑词，或者选取在黑词文本中出现频率较高的黑词等。

需要说明的是，本实施例所述的黑词库和白词库中的每一条记录，都有三部分：(1)词；(2)该词在对应大样本中出现的统计概率；(3)该词在白样本和黑样本中统计概率之差的绝对值；且黑词库中的所有黑词都按照Diff值从大到小的顺序进行排序。因此在本方案中，选取一定数量的黑词识别页面内容中的黑词时，可以按照黑词库中Diff值的从大到小的顺序，选取黑词库排名前H个的黑词与页面内容中的分词进行求交集操作，从而得到页面内容中存在的黑词集合，也就是页面内容中存在的全部黑词的一个子集，子集中的黑词数量为N，黑词集合为：Blk_Word₁,Blk_Word₂,...Blk_Word_N。

S305、根据所述黑词库，确定每个黑词的词频差；所述词频差为黑词在黑样本中存在的概率与黑词在白样本中存在的概率之差；

本实施例中的词频差即为黑词Diff，即该词在白样本和黑样本中统计概率之差的绝对值。由于黑词库本身便记载了每个黑词的Diff值，即每个黑词的词频差，因此在S304中确定页面内容中的黑词后，便可从黑词库中直接确定每个黑词的词频差，由于词频差是与每个黑词相对应的，因此便会确定N个词频差，即：D₁,D₂,...D_N。

S306、利用每个黑词的词频差以及每个黑词在所述页面内容中出现的次数，确定所述待检测页面的篡改判定值，若所述篡改判定值大于预先设定的篡改阈值，则判定所述待检测页面为篡改页面。

在对待检测页面进行篡改判定时，需要依据上述获得的N个黑词的出现次数C₁,C₂,...C_N，N个黑词的词频差D₁,D₂,...D_N进行确定。具体来说，在本实施例中可以通过如下篡改判定值确定规则来计算：

设定判定篡改所需的阈值为G₀，因此计算出篡改判定值G后，若篡改判定值G与篡改阈值G₀之间满足G＞G₀时，则判定待检测页面为篡改页面。

需要说明的是，目前利用黑词对篡改页面进行判别时，仅仅将出现黑词的页面判定为篡改页面，会带来较高的误判；而通过本实施提供的检测方式，在对篡改页面进行检测时，不仅仅依靠页面中是否存在黑词来判断该页面是否为篡改页面，还需要利用页面中黑词在黑样本中存在的概率与黑词在白样本中存在的概率之差来确定篡改判定值，只有当篡改判定值大于预先设定的篡改阈值时，才将页面判定为篡改页面，从而减少了误判率。

参见图7，在上一实施例的基础上，本实施例提供的另一种具体的网站内容篡改检测方法，该检测方法具体包括如下步骤：

S401、接收待检测的目标网站域名；

S402、利用浏览器测试框架驱动搜索引擎对所述目标网站域名进行搜索，获得与所述目标网站域名对应的待检测页面；

S403、获取待检测页面内的页面内容；

S404、利用预先构建的黑词库检测所述页面内容中的黑词，并统计每个黑词在所述页面内容中出现的次数；

S405、根据所述黑词库，确定每个黑词的词频差；所述词频差为黑词在黑样本中存在的概率与黑词在白样本中存在的概率之差；

S406、检测所述页面内容中黑域名的数量；

S407、利用每个黑词的词频差、每个黑词在所述页面内容中出现的次数、所述页面内容中黑域名的数量、以及黑域名篡改权值，确定所述待检测页面的篡改判定值，若所述篡改判定值大于预先设定的篡改阈值，则判定所述待检测页面为篡改页面。

需要说明的是，本方案中S404-S406的执行顺序并不局限于本实施例所示的执行顺序，其他能实现本方案的执行顺序均可，例如：执行S406后再执行S404-S405，以及S407。

具体的，在本实施例中，判定待检测页面是否被篡改时，不仅仅考虑到黑词，还考虑到页面内容中存在的黑域名。如果该页面内容中存在黑域名，则说明待检测页面存在被篡改的风险，因为正常的页面中不能将黑域名添加在页面内容中，会带来访问黑域名的隐患。因此本方案在计算篡改判定值时，还需要检测页面内容中存在黑域名的数量R，并获取与黑域名对应的篡改权值L。所以本方案利用每个黑词的词频差、每个黑词在所述页面内容中出现的次数、所述页面内容中黑域名的数量、以及黑域名篡改权值，确定所述待检测页面的篡改判定值时，具体包括：

利用篡改判定值确定规则，计算篡改判定值G；

所述篡改判定值确定规则为：

需要说明的是，篡改判定值确定规则中的黑词的总数量M的取值范围为：0＜M≤N，也就是说，检测出页面内容中的N个黑词后，在判定待检测页面是否为篡改页面时，可以根据实际应用情况从N个黑词中选取M个黑词进行判定，从而在保证降低误判率的基础上，减小计算工作量，缩短检测时间。

可以理解的是，本方案中的各项参数，例如：黑域名篡改权值L、篡改阈值G₀等，均可以正在生产环境中根据需要进行灵活的调整。且由于白词库中每个词的记录包括该词在白样本中的概率，因此上文中获取黑词在白样本中的概率时，可以直接从白词库中获取。可见，在本实施例中，判定待检测页面是否被篡改时，不仅仅考虑到黑词的词频差，还需要考虑页面中存在的黑域名，通过两者综合来确定篡改判定值，当篡改判定值大于预先设定的篡改阈值时，才将页面判定为篡改页面，从而实现了对篡改页面的多角度检测，减少了误判率。

下面对本发明实施例提供的网站内容篡改检测装置进行介绍，下文描述的网站内容篡改检测装置与上文描述的网站内容篡改检测方法可以相互参照。

参见图8，本发明实施例提供的一种网站内容篡改检测装置，包括：

接收模块100，用于接收待检测的目标网站域名；

待检测页面获取模块200，用于利用浏览器测试框架驱动搜索引擎对所述目标网站域名进行搜索，获得与所述目标网站域名对应的待检测页面；

检测模块300，用于利用篡改页面检测技术对所述待检测页面的页面内容进行检测，识别被篡改的页面。

其中，所述待检测页面获取模块，包括：

域名拆分单元，用于对所述目标网站域名进行拆分；

其中，所述页面获取单元，包括：

待检测页面下载子单元，用于将所述原始页面地址以及与所述原始页面地址不同的搜索后的页面地址作为最终的页面地址，下载与最终的页面地址对应的待检测页面。

其中，所述检测模块包括：

页面内容获取单元，用于获取待检测页面内的页面内容；

其中，所述检测模块还包括：

黑域名检测单元，用于检测所述页面内容中黑域名的数量；

则所述篡改页面判定单元具体用于：

所述篡改判定值确定规则为：

其中，所述网站内容篡改检测装置还包括黑词库构建模块；所述黑词库构建模块包括：

第一待审核黑词库确定单元，用于检测黑样本中的目标分词在所述黑样本中出现的概率与所述目标分词在白样本中出现的概率之差，是否大于预定差异阈值；并将概率之差大于预定差异阈值的目标分词添加至待审核黑词库；

计算单元，用于计算所述待审核黑词库中每个待审核黑词在白样本中存在的概率M1，以及待审核黑词在黑样本中存在的概率M2，并根据审核值计算规则计算待审核黑词的审核值；其中，所述审核值计算规则为：

判断单元，用于判断待审核黑词的审核值是否大于审核阈值；

黑词添加单元，用于将审核值大于审核阈值的待审核黑词，加入原始黑词库。

其中，所述黑词库构建模块还包括第二待审核黑词库确定单元；

所述第二待审核黑词库确定单元，用于确定黑样本中的黑域名、黑IP及原始黑词；其中，所述原始黑词为待审核黑词库中的黑词，和/或，原始黑词库中的黑词；将距离所述黑域名、黑IP及原始黑词的预定词距内的词语加入所述待审核黑词库。

本发明实施例还提供一种网站内容篡改检测设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述任意方法实施例所述的网站内容篡改检测方法的步骤。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例所述的网站内容篡改检测方法的步骤。

其中，该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。