CN110417718A

CN110417718A - 处理网站中的风险数据的方法、装置、设备及存储介质

Info

Publication number: CN110417718A
Application number: CN201811609679.9A
Authority: CN
Inventors: 侯晨光
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2019-11-05
Anticipated expiration: 2038-12-27
Also published as: CN110417718B

Abstract

本申请是关于一种处理网站中的风险数据的方法，该方法包括：获取第一数据快照和第二数据快照，第一数据快照是网站的各个数据快照中记录时间最近的数据快照；第二数据快照是网站的数据快照中的指定数据快照；将第一数据快照与第二数据快照进行比对获得第一数据快照中的差异数据；检测差异数据中是否包含风险数据；根据对差异数据进行检测的检测结果展示提醒信息。由于本申请所示的方案只对网站对应的数据中的差异数据进行检测，不需要对全部数据或者日志进行检测，不会将网站的数据中未发生改变的数据误识别为恶意数据，从而减少了误检测的可能性，提高对恶意数据处理的准确性。

Description

处理网站中的风险数据的方法、装置、设备及存储介质

技术领域

本申请涉及信息安全技术领域，特别涉及一种处理网站中的风险数据的方法、装置、计算机设备及存储介质。

背景技术

随着基于全球广域网(World Wide Web，WWW)环境的互联网应用越来越广泛，保证网站的数据安全的重要性也越来越高。

在相关技术中，为了保证网站的数据安全性，可以通过恶意脚本查杀工具定期对网站的网页数据进行统计分析，比如，对网页数据或者网页数据的访问日志进行静态检测、对网页数据中的脚本进行动态检测、以及对网页数据进行统计分析等，以确定网页数据中是否被插入恶意脚本等恶意数据。

然而上述处理恶意数据的方案有可能将网页数据中的非恶意数据误识别为恶意数据，影响对恶意数据进行处理的准确性。

发明内容

本申请实施例提供了一种处理网站中的风险数据的方法、装置、计算机设备及存储介质，可以降低网页数据中的恶意数据的误检测，从而提高对恶意数据处理的准确性，该技术方案如下：

一方面，提供了一种处理网站中的风险数据的方法，所述方法包括：

获取第一数据快照和获取第二数据快照；所述第一数据快照是网站的各个数据快照中，对应的记录时间最近的一个数据快照，所述第二数据快照是所述网站的各个数据快照中的指定数据快照，且所述第二数据快照的记录时间在所述第一数据快照的记录时间之前；

将所述第一数据快照与所述第二数据快照进行比对，获得所述第一数据快照中的差异数据；

检测所述差异数据中是否包含风险数据，所述风险数据包括恶意数据和可疑数据中的至少一种；

根据对所述差异数据进行检测的检测结果，对所述风险数据进行处理。

另一方面，提供了一种处理网站中的风险数据的装置，所述装置包括：

快照获取模块，用于获取第一数据快照和获取第二数据快照；所述第一数据快照是网站的各个数据快照中，对应的记录时间最近的一个数据快照，所述第二数据快照是所述网站的各个数据快照中的指定数据快照，且所述第二数据快照的记录时间在所述第一数据快照的记录时间之前；

快照比对模块，用于将所述第一数据快照与所述第二数据快照进行比对，获得所述第一数据快照中的差异数据；

检测模块，用于检测所述差异数据中是否包含风险数据，所述风险数据包括恶意数据和可疑数据中的至少一种；

处理模块，用于根据对所述差异数据进行检测的检测结果，对所述风险数据进行处理。

可选的，所述检测模块，具体用于，

当所述数据快照包括所述网站的网页快照时，获取所述差异数据对应文件的差异类型，所述差异类型为新增文件或者修改文件；根据所述差异数据对应文件的差异类型，检测所述差异数据中是否包含风险数据。

可选的，在根据所述差异数据对应文件的差异类型，检测所述差异数据中是否包含风险数据时，所述检测模块，具体用于，

当所述差异类型为新增文件时，获取所述差异数据对应文件的文件特征，所述文件特征包括文本特征和文件名特征中的至少一种；当所述文件特征满足预设的恶意脚本特征时，确定所述差异数据中包含所述恶意数据。

可选的，在根据所述差异数据对应文件的文件类型，检测所述差异数据中是否包含风险数据时，所述检测模块，具体用于，

当所述文件特征不满足预设的恶意脚本特征，且所述差异数据对应文件为脚本类型文件时，确定所述差异数据中包含所述可疑数据。

当所述差异类型为修改文件时，且所述差异数据对应文件为脚本类型文件时，确定所述差异数据中包含所述可疑数据。

可选的，所述检测模块，具体用于当所述数据快照包括所述网站的数据库快照时，查询所述差异数据中的指定函数，所述指定函数包括与恶意脚本相关的函数；当查询到所述差异数据中存在所述指定函数时，确定所述差异数据中包含所述可疑数据。

可选的，所述检测模块，具体用于当所述数据快照包括所述网站的数据库快照时，查询所述差异数据中的指定标签，所述指定标签是指向链接的标签；当查询到所述指定标签时，获取所述指定标签指向的链接的第一域名；当所述第一域名与所述网站的第二域名不匹配时，确定所述差异数据中包含所述可疑数据。

可选的，在获取第二数据快照时，所述快照获取模块，具体用于将所述网站的各个数据快照中，记录时间处于所述第一数据快照的记录时间之前，且距离所述第一数据快照的记录时间最近的数据快照获取为所述第二数据快照。

可选的，在获取第二数据快照时，所述快照获取模块，具体用于将所述网站的各个数据快照中，记录时间为指定时间的数据快照获取为所述第二数据快照，所述指定时间处于所述第一数据快照的记录时间之前。

可选的，所述处理模块，具体用于，

当所述差异数据中的风险数据包括所述恶意数据时，向管理终端发送第一提醒信息，所述第一提醒信息用于提示删除所述恶意数据；

当所述差异数据中的风险数据包括所述可疑数据时，向所述管理终端发送第二提醒信息，所述第二提醒信息用于提示人工检查所述可疑数据。

可选的，所述处理模块，具体用于，

当所述差异数据中的风险数据包括所述恶意数据时，将所述恶意数据对应的文件删除；

当所述差异数据中的风险数据包括所述可疑数据时，将所述可疑数据对应的文件隔离。

另一方面，提供了一种计算机设备，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的处理网站中的风险数据的方法。

又一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述的处理网站中的风险数据的方法。

本申请提供的技术方案可以包括以下有益效果：

数据处理设备将网站对应的记录时间最近的数据快照与该网站历史记录的指定数据快照进行比对，对最近的数据快照中的差异数据进行恶意数据检测，并根据检测结果进行处理。由于本申请所示的方案只对网站对应的数据中的差异数据进行检测，不需要对全部数据或者日志进行检测，不会将网站的数据中未发生改变的数据误识别为恶意数据，从而减少了误检测的可能性，提高对恶意数据处理的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种网页服务系统的结构示意图；

图2是根据一示例性实施例示出的一种处理网站中的风险数据的方法的流程图；

图3是根据一示例性实施例示出的一种处理网站中的风险数据的方法的流程图；

图4是图3所示实施例涉及的一种快照记录的时序图；

图5是图3所示实施例涉及的另一种快照记录的时序图；

图6是根据一示例性实施例示出的一种处理网站中的风险数据的方法的流程图；

图7是根据一示例性实施例示出的一种数据处理流程的示意图；

图8是图7所示实施例涉及的快照对比分析实现流程示意图；

图9是根据一示例性实施例示出的处理网站中的风险数据的装置的结构方框图；

图10是根据一示例性实施例示出的一种计算机设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在对本申请所示的各个实施例进行说明之前，首先对本申请涉及到的几个概念进行介绍：

1)数据快照

数据快照是某个数据集在某一特定时刻的镜像，也称为即时拷贝，其是这个数据集的一个完整可用的副本。

2)恶意数据

在本申请实施例中，恶意数据是指以制造危害(比如盗窃用户信息、引导访问钓鱼网站以及非法占用系统资源等)或者损坏系统功能为目的而在软件系统中增加或者修改的数据。恶意数据可以包括恶意脚本以及恶意链接(比如钓鱼网站链接)等。

恶意脚本不同于传统的病毒，其具有变形简单的特点，通过多样化的混淆机制隐藏自己，它还能动态创建内嵌链接，并编码链接内容。典型的针对网站的恶意脚本包括即Webshell、js挖矿脚本以及网页挂马等。

其中，Webshell是以动态服务器页面(Active Server Pages，asp)、超文本预处理器(Hypertext Preprocessor，php)、java服务器页面(Java Server Pages，jsp)或者公共网关接口(Common Gateway Interface，cgi)等网页文件形式存在的一种命令执行环境，也可以将其称做为一种网页后门。黑客在入侵了一个网站后，通常会将asp或php后门文件与网站服务器Web目录下正常的网页文件混在一起，然后就可以使用浏览器来访问asp或者php后门，得到一个命令执行环境，以达到控制网站服务器的目的。

图1是根据一示例性实施例示出的一种网页服务系统的结构示意图。该系统包括：服务器120以及若干个用户终端140。

服务器120是一台服务器，或者由若干台服务器，或者是一个虚拟化平台，或者是一个云计算服务中心。其中，该服务器120是网站对应的服务器。

用户终端140可以是具有网站访问功能(比如安装有浏览器)的终端设备，比如，用户终端140可以是手机、平板电脑、电子书阅读器、智能眼镜、智能手表、膝上型便携计算机和台式计算机等等。

用户终端140与服务器120之间通过通信网络相连。可选的，通信网络是有线网络或无线网络。

在本申请实施例中，用户终端140可以访问服务器120，获取服务器120对应的网站的网页数据，并根据获取到的网页数据进行网页展示。

服务器120对应连接有数据库122，该数据库122用于存储服务器120对应的资源数据，比如，用于存储网站的网页展示时所需的资源数据等。

上述系统还包括数据处理设备160，其中，数据处理设备160与服务器120之间通过通信网络相连。

在本申请实施例中，数据处理设备160可以定期或者不定期的对服务器120对应的网页数据和/或数据库122中存储的数据库数据进行恶意数据检测，并根据检测结果对网页数据和/或数据库数据进行处理。

在一种可能的实现方式中，上述服务器120和数据处理设备160分别设置在不同的实体设备中。比如，一个数据处理设备对应多个网站，该数据处理设备与对应的多个网站的服务器分开设置，且该数据处理设备与对应的多个网站的服务器分别通过通信网络相连。

或者，在另一种可能的实现方式中，上述服务器120和数据处理设备160属于同一个实体设备；比如，每个数据处理设备对应单个网站，且该数据处理设备与对应的网站的服务器集中设置，即上述数据处理设备160属于服务器120的一部分。

可选的，上述系统还包括管理终端180，管理处理设备160与管理终端180之间通过网络通信相连。

可选的，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet ProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

随着基于Web环境的互联网应用越来越广泛，企业信息化的过程中各种应用都架设在Web平台上，Web业务的迅速发展也引起黑客们的强烈关注，黑客可以利用网站操作系统的漏洞和Web服务程序的漏洞等获得Web服务器的控制权限，轻则篡改网页内容，重则窃取重要内部数据，更为严重的则是在网页中植入恶意代码，使得网站访问者受到侵害。网站被入侵以后，除了及时修补漏洞，另外一项重要的工作就是如何快速检测恶意脚本等恶意数据。

相关技术中，对恶意数据的检测方案通常有如下几种：

1)静态检测

静态特征检测是指对脚本文件中所使用的关键词、高危函数、文件修改的时间、文件权限、文件的所有者以及和其它文件的关联性等多个维度的特征进行检测，即先建立一个恶意字符串特征库，同时对web文件修改时间，文件权限以及文件所有者等进行确认。通常情况下web文件不会包含上述特征或者特征异常，静态检测可以通过将网页数据的特征与特征库进行比对检索出高危脚本文件等恶意数据。

2)动态检测

动态检测是指通过对脚本运行时使用的系统命令或者网络流量及状态的异常来判断动作的威胁程度。恶意脚本通常会被加密从而避免静态特征的检测，某些恶意脚本运行时会向系统发送系统命令来达到控制系统或者操作数据库的目的，而动态检测可以通过检测系统调用来监测甚至拦截系统命令被执行，从行为模式上深度检测脚本文件的安全性。

3)日志分析

使用恶意脚本一般不会在系统日志中留下记录，但是如果恶意脚本被访问则会在web日志中留下访问记录。日志分析检测技术可以通过大量的日志文件建立请求模型从网页数据中检测出异常文件。

4)统计学分析

统计学分析是在恶意脚本后门检测中被广泛使用的一种方法，统计学分析可以使用以下几种统计方法在脚本文件中搜索潜在的被混淆或被编码的恶意代码。

1、信息熵(Entropy):通过美国信息交换标准代码(American Standard Code forInformation Interchange，ASCIIA)码表来衡量文件的不确定性；

2、最长单词(Longest Word):最长的字符串也许潜在的被编码或被混淆；

3、重合指数(Index of Coincidence):低重合指数预示文件代码潜在的被加密或被混效过；

4、特征(Signature):在文件中搜索已知的恶意代码字符串片段；

5、压缩(Compression):对比文件的压缩比。

上述四种技术方案都有各自的优缺点：

静态检测的优点是可以比较快速的进行检测和定位，但是容易误报，无法对加密或者经过特殊处理的恶意脚本文件进行检测。

动态检测的优点是可用于网站集群，对新型变种脚本有一定的检测能力，但是针对特定用途的后门较难检测，实施难度较大。

日志分析的优点是采用了一定数据分析的方式，网站的访问量达到一定量级时这种检测方法的结果具有较大参考价值，但是存在一定误报，对于大量的访问日志，检测工具的处理能力和效率会比较低，并且如果后门未被访问过则无法检测到。

统计学的检测方法也存在明显的弱点，其检测重心在于识别混淆代码，常常在识别模糊代码或者混淆编排的木马方面表现良好。而未经模糊处理的代码对于统计学的检测机制较为透明。如果代码整合于系统中的其它脚本之上，这种“正常”的文件极可能无法被统计学识别出来。

上述各种方案都是针对网站的全部网页数据或者日志进行检测分析，有可能会出现误识别或者漏检测，比如，将非恶意数据误识别为恶意数据，或者，未能识别出恶意数据。此外，由于上述方案每次检测都要针对全部网页数据或者日志进行检测分析，导致每次检测需要消耗较长的检测时间，影响单次检测效率。

本申请实施例提供的方案，可以定期或者不定期的检测网站对应的数据中新增或者被修改的部分，并对新增或者被修改的部分进行恶意数据检测，并基于检测结果提醒对恶意数据进行处理，从而减少误检测的情况，提高对恶意数据处理的准确性，同时提高恶意数据检测的效率。

图2是根据一示例性实施例示出的一种处理网站中的风险数据的方法的流程图，该处理网站中的风险数据的方法可以用于如图1所示的网页服务系统中，由图1中的数据处理设备160执行。如图2所示，该处理网站中的风险数据的方法可以包括如下步骤：

步骤21，获取第一数据快照，该第一数据快照是网站的各个数据快照中，对应的记录时间最近的一个数据快照。

在本申请实施例中，网站的数据快照是网站的网页数据和/或数据库数据在对应的记录时间处的完整可用副本。网站的数据快照可以通过定期或者不定期的记录或，其中，第一数据快照是该网站已记录的数据快照中最新记录的数据快照。

步骤22，获取第二数据快照，该第二数据快照是该网站的各个数据快照中的指定数据快照，且该第二数据快照的记录时间在第一数据快照的记录时间之前。

其中，第二数据快照是在第一数据快照之前记录的，该网站的一个数据快照。

比如，假设网站的数据快照包括在三个不同时间点上记录的三个数据快照，按照记录时间从近到远的顺序排列分别为数据快照1、数据快照2和数据快照3，在获取第一数据快照和第二数据快照时，数据处理设备将数据快照1获取为第一数据快照，并将数据快照2和数据快照3中被指定的一个数据快照获取为第二数据快照。

本申请实施例不限制上述步骤21和步骤22的执行顺序。比如，数据处理设备可以先执行步骤21，再执行步骤22；或者，数据处理设备可以先执行步骤22，再执行步骤21；或者，数据处理设备也可以同时执行步骤21和步骤22。

其中，上述指定数据快照可以是在该第一数据快照的记录时间之前记录的，该网站的数据快照中，确定无风险数据的快照。比如，上述指定数据快照可以是网站首次创建时记录的数据快照，或者，上述指定数据快照也可以是经过人工确认无风险数据的数据快照。

步骤23，将该第一数据快照与该第二数据快照进行比对，获得该第一数据快照中的差异数据。

步骤24，检测该差异数据中是否包含风险数据，该风险数据包括恶意数据和可疑数据中的至少一种。

在本申请实施例中，恶意数据可以是包括恶意脚本和/或恶意链接的数据，而可疑数据可以是具有包括恶意脚本和/或恶意链接的可能性的数据。

步骤25，根据对该差异数据进行检测的检测结果，对所述风险数据进行处理。

在本申请实施例中，数据处理设备对风险数据进行处理，可以是数据处理设备对风险数据进行直接处理，比如，直接将风险数据中的恶意数据删除，或者直接将风险数据中的可疑数据隔离等。

或者，上述数据处理设备对风险数据进行处理，也可以是指提醒管理人员对风险数据进行人工处理。

在本申请实施例中，网站的数据处理设备可以将网站对应的记录时间最近的数据快照与该网站历史记录的指定数据快照进行比对，对最近的数据快照中的差异数据进行恶意数据检测，并根据检测结果，对风险数据进行处理，以便管理人员能够在服务器检测出差异数据中包含恶意数据或者疑似恶意数据时，对恶意数据及时进行处理。由于本申请所示的方案只对网站对应的数据中的差异数据进行检测，一方面不需要对全部数据或者日志进行检测，不会将网站的数据中未发生改变的数据误识别为恶意数据，从而减少了误检测的可能性，提高对恶意数据处理的准确性，另一方面能够减少检测的数据量，降低单次检测所需的时长，提高恶意数据的检测处理效率。

在本申请实施例中，网站的数据处理设备在对网站的数据进行检测时，除了检测网站对应的网页数据中是否包含恶意数据之外，还可以对网站的数据库中包含的数据进行检测，也就是说，上述网站的数据快照可以包括网站的网页快照以及该网站的数据库快照中的至少一种。在对差异数据进行检测时，数据处理设备可以按照不同的检测方法对网页快照中的差异数据和数据库快照中的差异数据进行检测，本申请后续实施例将分别以数据快照包括网页快照或者数据库快照为例进行说明。

图3是根据一示例性实施例示出的一种处理网站中的风险数据的方法的流程图，该处理网站中的风险数据的方法可以用于如图1所示的网页服务系统中。以网站的数据快照包括网页快照为例，如图3所示，该处理网站中的风险数据的方法可以包括如下步骤：

步骤301，获取第一数据快照，该第一数据快照是网站的各个数据快照中，对应的记录时间最近的一个数据快照。

在本申请实施例中，管理人员可以预先配置快照记录相关的设置参数，网站的服务器或者数据处理设备根据管理人员配置的参数定期或者不定期的获取服务器对应的最新数据快照(即上述第一数据快照)。

可选的，管理人员可以预先通过设置界面输入需要记录快照的网站的站点路径以及数据库连接字符串，可选的，管理人员还可以通过该设置界面设置记录快照的时间，比如，以按照固定周期记录数据快照为例，管理人员可以在上述设置界面中输入/设置记录数据快照的时间间隔。在管理人员完成快照记录相关的参数设置之后，数据处理设备按照配置的时间间隔，定期记录网站的最新数据快照。

步骤302，获取第二数据快照，该第二数据快照是该网站的各个数据快照中的指定数据快照，且第二数据快照的记录时间在第一数据快照的记录时间之前。

可选的，在获取第二数据快照时，数据处理设备可以将网站的各个数据快照中，记录时间处于第一数据快照的记录时间之前，且距离该第一数据快照的记录时间最近的数据快照获取为该第二数据快照。

在本申请实施例中，数据处理设备获取用于与最新数据快照进行比对的第二数据快照时，可以按照不同的方式获取指定数据快照。比如，在一种可能的实现方式中，上述指定数据快照可以是最新数据快照的前一个数据快照。

例如，请参考图4，其示出了本申请实施例涉及的一种快照记录的时序图。如图4所示，数据处理设备按照预先配置的参数定期记录数据快照，按照记录时间由远到近排列，数据处理设备定期记录的数据快照为t1时刻记录的数据快照1、t2时刻记录的数据快照2、t3时刻记录的数据快照3等等。数据处理设备在t1时或者t1之后进行恶意数据检测，将最新的数据快照(即数据快照1)获取为第一数据快照，并将数据快照2获取为第二数据快照。

可选的，在获取第二数据快照时，数据处理设备可以将该网站的各个数据快照中，记录时间为指定时间的数据快照获取为该第二数据快照，该指定时间处于第一数据快照的记录时间之前。

在另一种可能的实现方式中，上述指定数据快照也可以是在某一个历史指定时间点上记录的数据快照。

其中，上述指定时间可以是该网站的各个数据快照中，确定不包含风险数据的数据快照对应的记录时间。换句话说，上述指定数据快照是确定不包含风险数据的数据快照。

其中，上述确定不包含风险数据的数据快照，可以是该网站的各个数据快照中，经过管理人员人工确定不包含风险数据的数据快照，也可以是该网站的各个数据快照中，某个特殊时间(比如网站初次创建的时间)上记录的数据快照。

例如，请参考图5，其示出了本申请实施例涉及的一种快照记录的时序图。如图5所示，数据处理设备按照预先配置的参数定期记录数据快照，同时，还按照管理人员的指令不定期的记录数据快照。比如，在图5中，按照记录时间由远到近排列，数据处理设备定期记录的数据快照为t1时刻记录的数据快照1、t2时刻记录的数据快照2、t3时刻记录的数据快照3等等，此外，管理人员在某一个时间点t4(如图5所示，t4位于t2和t3之间)时，主动控制数据处理设备记录数据快照4，数据处理设备将t4获取为指定时间，并将数据快照4获取为指定数据快照。数据处理设备在t1时或者t1之后进行恶意数据检测，将最新的数据快照(即数据快照1)获取为第一数据快照，并将数据快照4获取为第二数据快照。

其中，上述图5所示的方案中，上述指定数据快照是管理人员不定期控制数据处理设备记录的数据快照，在又一种可能的实现方式中，上述指定数据快照也可以是管理人员从数据处理设备定期记录的数据快照中指定的一个数据快照，比如，在图5中，管理人员也可以指定数据快照3为指定数据快照，在这种情况下，后续数据处理设备在t1时或者t1之后进行恶意数据检测，将最新的数据快照(即数据快照1)获取为第一数据快照，并将数据快照3获取为第二数据快照。

其中，本申请实施例不限制上述步骤301和步骤302的执行顺序。比如，数据处理设备可以先执行步骤301，再执行步骤302；或者，数据处理设备可以先执行步骤302，再执行步骤301；或者，数据处理设备也可以同时执行步骤301和步骤302。

步骤303，将该第一数据快照与该第二数据快照进行比对，获得该第一数据快照中的差异数据。

在本申请实施例中，上述第一数据快照和第二数据快照分别包括网站的网页快照。数据处理设备获取到第一数据快照以及第二数据快照之后，将第一数据快照与第二数据快照进行比对，以确定第一数据快照中哪些数据与第二数据快照中的数据不一致，并将确定不一致的部分的数据获取为差异数据。其中，上述差异数据可以是在第二数据快照的基础上增加的数据，也可以是在第二数据快照的基础上修改的数据。

可选的，上述将第一数据快照与第二数据快照进行比对，获得第一数据快照中的差异数据的过程，可以分为如下几个步骤：

步骤303a，获取第一数据快照的文件列表以及第二数据快照的文件列表，上述文件列表包括对应的数据快照包含的各个文件的文件标识。

其中，上述文件标识是在当前数据快照中唯一表示一个文件的信息。比如，该文件标识可以是文件名或者文件编号等。

步骤303b，将第一数据快照的文件列表以及第二数据快照的文件列表进行比对，确定第一数据快照的文件列表中的第一文件标识和/或第二文件标识。

其中，第一文件标识存在于第一数据快照的文件列表，且不存在于第一数据快照的文件列表；第二文件标识同时存在于第一数据快照的文件列表以及第一数据快照的文件列表。

可选的，在本公开实施例中，对于第一数据快照的文件列表中的目标标识(该目标标识是第一数据快照的文件列表中的任一文件标识)，数据处理设备可以将该目标标识与第二数据快照的文件列表中的各个文件标识进行比对，若第二数据快照的文件列表中不存在该目标标识，则将该目标标识确定为第一文件标识；若该第二数据快照的文件列表中存在该目标标识，则将该目标标识确定为第二文件标识。

步骤303c，将该第一文件标识对应在第一数据快照中的文件获取为新增文件。

当第二数据快照的文件列表中不存在上述目标标识，则说明该第一数据快照中与该目标标识对应的文件是在第二数据快照的基础上新增加的文件，此时，数据处理设备可以将目标标识对应在第一数据快照中的文件获取为新增文件。也就是说，上述第一文件标识对应的文件的差异类型为新增文件。

比如，假设第一数据快照中包含文件1、文件2、文件3、文件4和文件5，而第二数据快照中包含文件1、文件2、文件3和文件4，则数据处理设备通过比对两个数据快照的文件列表可以确定，文件5是在第二数据快照的基础上新增的文件，此时，数据处理设备可以将文件5确定为新增文件。

步骤303d，当第二文件标识对应在第一数据快照中的文件的数据，与第二文件标识对应在第二数据快照中的文件的数据存在区别时，将第二文件标识对应在第一数据快照中的文件获取为修改文件。

当第二数据快照的文件列表中存在上述目标标识，则说明该第一数据快照中与该目标标识对应的文件在第二数据快照中也同样存在，此时，数据处理设备可以进一步检测该目标标识对应在两个数据快照中的文件的数据是否一致，该目标标识对应在两个数据快照中的文件的数据不一致，则将说明该目标标识对应的文件已经被修改，此时可以将目标标识对应的文件获取为修改文件。也就是说，上述第二文件标识对应的文件的差异类型为修改文件。

比如，假设第一数据快照中包含文件1、文件2、文件3、文件4和文件5，而第二数据快照中包含文件1、文件2、文件3和文件4，则数据处理设备通过比对两个数据快照的文件列表可以确定，第一数据快照中的文件1至文件4是第二数据快照中原有的文件，此时，数据处理设备可以将第一数据快照中包含文件1、文件2、文件3、文件4分别与第二数据快照中的文件1、文件2、文件3、文件4进行数据比对，当其中某一个文件(比如文件2)在两个数据快照中的数据有区别时，则将第一数据快照中包含的该文件获取为修改文件。

可选的，数据处理设备检测目标标识对应在两个数据快照中的文件的数据是否一致时，可以直接比对目标标识对应在两个数据快照中的文件在相同位置处的数据，当目标标识对应在两个数据快照中的文件在某一位置处的数据不同时，即可以确认目标标识对应在两个数据快照中的文件的数据不一致；当目标标识对应在两个数据快照中的文件在所有位置处的数据都相同时，即可以确认目标标识对应在两个数据快照中的文件的数据一致。

或者，数据处理设备检测目标标识对应在两个数据快照中的文件的数据是否一致时，也可以对目标标识对应在两个数据快照中的文件的数据分别做哈希计算，获得目标标识对应在两个数据快照中的文件各自的哈希值，并比对两个哈希值，当这两个哈希值相同时，可以确定该目标标识对应在两个数据快照中的文件的数据一致，否则，认为这两个文件不一致。

步骤303e，将上述新增文件的文件数据和/或修改文件的文件数据获取为差异数据。

在本申请实施例中，当第一数据快照相对于第二数据快照存在新增文件时，数据处理设备将该新增文件的文件数据添加入差异数据；相应的，当第一数据快照相对于第二数据快照存在修改文件时，数据处理设备将该修改文件的文件数据添加入差异数据。

比如，假设第一数据快照中包含文件1、文件2、文件3、文件4和文件5，而第二数据快照中包含文件1、文件2、文件3和文件4，其中，第一数据快照中的文件2和第二数据快照中的文件2的数据存在区别，此时，数据处理设备可以将文件2和文件5各自对应在第一数据快照中的文件数据获取为差异数据。

步骤304，获取该差异数据对应文件的差异类型，该差异类型为新增文件或者修改文件。

在本申请实施例中，基于差异数据对应文件的差异类型的不同，数据处理设备可以按照不同的处理方法对差异数据进行处理，也就是说，数据处理设备可以根据该差异数据对应文件的差异类型，对该差异数据进行检测，以确定该差异数据中是否包含风险数据。

其中，数据处理设备按照差异数据对应文件的差异类型进行检测的过程请见后续步骤305至步骤308。

步骤305，当该差异类型为新增文件时，获取该差异数据对应文件的文件特征，该文件特征包括文本特征和文件名特征中的至少一种。

在本申请实施例中，对于差异数据中的新增文件，数据处理设备可以提取该新增文件中，可能与恶意数据相关的文件特征，比如文本特征和文件名特征。

其中，上述文本特征可以包括文件的关键词、函数、文件修改的时间、文件权限、文件的所有者以及和其它文件的关联性等多个维度的特征；上述文件名特征可以包括差异数据对应文件的文件名，以及差异数据对应文件所在的文件夹的文件名等。

在获取到差异数据对应文件的文件特征后，数据处理设备可以根据文件特征是否满足恶意脚本特征，来确定差异数据中是否包含恶意数据和/或可疑数据。

步骤306，当该文件特征满足预设的恶意脚本特征时，确定该差异数据中包含恶意数据。

对于上述文件特征中的文本特征，数据处理设备可以获取一个预先建立的恶意字符串特征库，例如：“组专用大马|提权|木马|PHP\s？反弹提权cmd执行”，“WScript.Shell、Shell.Application、Eval()、Excute()、Set Server、Run()、Exec()、ShellExcute()”等等，同时对文件修改时间，文件权限以及文件所有者等进行确认。通常情况下，正常文件不会包含上述特征或者特征异常，数据处理设备可以通过将获取到的新增文件的文本特征与特征库进行比对，以检索出差异数据中的高危脚本文件等恶意数据。

对于上述文件特征中的文件名特征，数据处理设备可以检测上述文件名特征是否满足畸形文件名，如果存在畸形文件夹名或者畸形文件名，形如：test.asp、test.aspx、test.cer等带点目录，或者存在asp；jpg、asp；.jpg等畸形文件名的文件，则判定新增文件为恶意脚本目录或恶意脚本，确定该差异数据中包含恶意数据。

步骤307，当该文件特征不满足预设的恶意脚本特征，且该差异数据对应文件为脚本类型文件时，确定该差异数据中包含可疑数据。

在本申请实施例中，当上述新增文件是脚本类型文件，但是文件特征不满足恶意脚本特征时，比如，当上述差异数据中的新增文件为脚本类型后缀的文件，如.asp、.aspx、.php、.asa、.cer、.cdx、.cre、.asax、.ashx、.asmx、.jsp、.axd、.jspx等文件(该脚本类型后缀可以由管理人员自定义添加)时，确定该新增文件是可疑的文件，即确定该差异数据中包含可疑数据。

可选的，对于差异数据中的新增文件，如果新增文件为脚本类型文件之外的其他类型文件，如doc、jpg、png等不可执行或者不可编译的文件，网站不会作为脚本来解析这些文件，若数据处理设备确定其文本特征不满足恶意脚本特征，则可以不将其作为恶意数据或者可疑数据。

步骤308，当该差异类型为修改文件，且该差异数据对应文件为脚本类型文件时，确定该差异数据中包含可疑数据。

在一种可能的实现方式中，当上述差异数据对应的文件是在第二数据快照中的文件的基础上修改获得的文件，则数据处理设备不需要检测该修改文件的文件特征是否满足恶意脚本特征，也不需要确定该修改文件是否为脚本类型文件，可以直接将该修改文件作为可疑文件，即确定该差异数据中包含可疑数据。

在另一种可能的实现方式中，数据处理设备也可以对修改文件的文件特征进行检测，确定是否满足恶意脚本特征，当该修改文件的文件特征满足恶意脚本特征时，确定该差异数据中包含恶意数据，当该修改文件的文件特征步满足恶意脚本特征时，确定该差异数据中包含可疑数据。

步骤309，根据对该差异数据进行检测的检测结果对风险数据进行处理。

在本申请实施例中，数据处理设备在获得检测结果之后，可以根据检测结果自动对差异数据进行处理，比如，当差异数据中的风险数据包括恶意数据时，将恶意数据对应的文件删除，当差异数据中的风险数据包括可疑数据时，将可疑数据对应的文件隔离。

可选的，数据处理设备在将恶意数据对应的文件删除，和/或，将可疑数据对应的文件隔离之后，可以向管理终端发送处理通知，以通知管理终端已经对风险数据进行了处理，以便管理人员根据该处理通知确定是否需要恢复被处理的风险数据，以及时纠正因误处理而导致的网站数据出错。

在另一种可能的实现方式中，为了避免误检测时对差异数据直接处理导致数据出错，在本申请实施例中，数据处理设备可以根据对该差异数据进行检测的检测结果展示提醒信息，该提醒信息用于提示对该差异数据进行处理。比如，当该差异数据中的风险数据包括恶意数据时，数据处理设备向管理终端发送第一提醒信息，该第一提醒信息用于提示删除该恶意数据；当该差异数据中的风险数据包括可疑数据时，数据处理设备向该管理终端发送第二提醒信息，该第二提醒信息用于提示人工检查该可疑数据。

在本申请实施例中，数据处理设备检测出第一数据快照中的差异数据包含恶意数据或者可疑数据时，可以向管理终端发送提醒信息，由管理人员根据该提醒信息进行处理，比如，管理人员可以基于提醒信息对差异数据进行修改、删除等操作，以及，修改黑白名单操作，比如，在恶意脚本库中增加或者删除恶意脚本特征等。一方面可以避免误检测时对差异数据直接处理导致数据出错，另一方面，可以方便管理人员及时检查处理，能够及时分辨出新型或经过特殊处理的恶意脚本。

可选的，上述恶意脚本特征(比如上述恶意字符串特征库)，以及脚本类型文件名，可以存储在云端，由不同的管理人员进行修改维护，以便及时实现对新型恶意数据的识别检测。

可选的，数据处理设备除了向管理终端发送提醒信息之外，还可以将第一数据快照和第二数据快照之间的比对结果发送给管理终端，以便管理终端展示该比对结果。其中，管理终端展示上述比对结果时，可以通过可视化形式展示差异数据，比如，以红色背景展示存在于第二数据库快照，但是在第一数据库快照中被删除的数据，以绿色背景展示不存在于第二数据库快照，但是在第一数据库快照中新增的数据，而在第一数据快照和第二数据快照中都存在的数据则不做特殊处理。

综上所述，本申请实施例所示的方案，网站的数据处理设备将网站对应的记录时间最近的网页数据快照与该网站历史记录的指定数据快照进行比对，对最近的网页数据快照中的差异数据进行恶意数据检测，并根据检测结果进行处理，一方面不需要对全部数据或者日志进行检测，不会将网站的数据中未发生改变的数据误识别为恶意数据，从而减少了误检测的可能性，提高对恶意数据处理的准确性，另一方面能够减少检测的数据量，降低单次检测所需的时长，提高恶意数据的检测处理效率。

相关技术中的恶意数据检测方法以对网页数据的检测为主，通常不会对数据库中的数据进行检测，而目前出现多种可以存在于数据库的恶意数据，比如JS挖矿脚本和黑链等，相关技术中的检测方法缺乏对此类恶意数据的检测能力。而本申请所示的方案，还可以检测数据库中的恶意数据，从而能够发现由于存储型跨站脚本攻击(Cross SiteScripting，XSS)漏洞以及结构化查询语言(Structured Query Language，sql)注入等漏洞所导致的恶意脚本、链接的插入。

图6是根据一示例性实施例示出的一种处理网站中的风险数据的方法的流程图，该处理网站中的风险数据的方法可以用于如图1所示的网页服务系统中的数据处理设备160。以网站的数据快照包括数据库快照为例，如图6所示，该处理网站中的风险数据的方法可以包括如下步骤：

步骤601，获取第一数据快照，该第一数据快照是网站的各个数据快照中，对应的记录时间最近的一个数据快照。

步骤602，获取第二数据快照，该第二数据快照是该网站的各个数据快照中的指定数据快照，且第二数据快照的记录时间在第一数据快照的记录时间之前。

步骤603，将该第一数据快照与该第二数据快照进行比对，获得该第一数据快照中的差异数据。

上述步骤601至步骤603的执行过程请参考图3所示实施例中的步骤301至步骤303下的描述，此处不再赘述。与图3所示实施例不同之处在于，本申请实施例中的数据快照包含数据库快照。

步骤604，查询该差异数据中的指定函数；当查询到该差异数据中存在该指定函数时，确定该差异数据中包含可疑数据。

在本申请实施例中，指定函数包括与恶意脚本相关的函数，比如，指定函数可以包括用于获取系统环境信息的函数(例如“phpinfo()”函数)，以及用于进行系统安全配置的函数(例如“xp_cmdshell()”函数)等。

在本申请实施例中，数据处理设备可以获取一个指定函数列表，该指定函数列表可以预先存储在数据处理设备中，也可以由数据处理设备从云端获取。该指定函数列表中包含可能被用于恶意脚本的各个函数。当获取的数据快照是数据库快照时，数据处理设备将差异数据中的各个函数与指定函数列表中的函数进行比对，以查询该差异数据中是否存在指定函数，当上述差异数据中存在指定函数时，说明差异数据中可能存在恶意脚本，可以确定该差异数据中包含可疑数据。

其中，在查询差异数据中的指定函数时，数据处理设备可以使用正则方式来匹配文本，比如，当差异数据的文本中存在“phpinfo()”、“xp_cmdshell()”等特殊函数时，可以确定该差异数据中包含可疑数据。

步骤605，查询该差异数据中的指定标签；当查询到该指定标签时，获取该指定标签指向的链接的第一域名。

其中，上述指定标签可以是指向链接的标签。比如，该指定标签可以包括<script>、<a>、<img>、<iframe>等常用的xss标签中的至少一种。

在本申请实施例中，数据处理设备还可以获取一个指定标签列表，该指定标签列表可以预先存储在数据处理设备中，也可以由数据处理设备从云端获取。该指定标签列表中包含可以指向链接的各个标签。当获取的数据快照是数据库快照时，数据处理设备将差异数据中的各个标签与指定标签列表中的标签进行比对，以查询该差异数据中是否存在指定标签，当上述差异数据中存在指定标签时，说明差异数据可能会指向站外链接，此时，可以进一步获取差异数据中的指定标签指向的链接的第一域名。

步骤606，当第一域名与该网站的第二域名不匹配时，确定该差异数据中包含可疑数据。

比如，当前站点的域名为“a.com”，差异数据中的script标签为"<script src＝"http://b.com/fish.js"></script>"，该标签内的域名为“b.com”，与当前站点的域名不匹配，此时可以确定该script标签指向站外的域名，可以确定该差异数据中包含可疑数据。

步骤607，数据处理设备根据对该差异数据进行检测的检测结果对风险数据进行处理。

该步骤的执行过程与图3所示实施例中的步骤309的执行过程类似，此处不再赘述。

综上所述，本申请实施例所示的方案，数据处理设备将网站对应的记录时间最近的数据库快照与该网站历史记录的指定数据快照进行比对，对最近的数据库数据快照中的差异数据进行恶意数据检测，并根据检测结果对风险数据进行处理，一方面不需要对全部数据进行检测，不会将未发生改变的数据误识别为恶意数据，从而减少了误检测的可能性，提高对恶意数据处理的准确性，另一方面能够减少检测的数据量，降低单次检测所需的时长，提高恶意数据的检测处理效率。

此外，本申请实施例所示的方案，对数据库中的数据进行检测处理，能够检测通过XSS漏洞以及sql注入等漏洞插入数据库的恶意脚本或链接，提高了恶意数据检测的适用场景。

Webshell等恶意脚本以及黑链的查杀一直是困扰各个网站服务商的难题，检测出所有的恶意脚本才会让网站不存在被持续控制的风险，本申请上述实施例所示的方案提供的检测方法能够监控到所有网站的网页数据以及数据库数据代码的改变，及时发现代码的变化并发出告警，从而快速定位到恶意脚本，以提高网站的安全性，并且相对于相关技术中的恶意数据检测方法而言，本申请各个实施例所示的方案可以识别出以存储型XSS漏洞或者sql注入漏洞插入的恶意脚本和恶意链接，配合云端的使用，能够最快速的识别各种新型恶意脚本，提高检测速率。

请参考图7，其是根据一示例性实施例示出的一种数据处理流程的示意图。如图7所示，本申请上述实施例的技术实现流程可以分为以下五个步骤:

步骤71，接收数据快照记录的配置参数。

管理人员可通过配置界面进行数据快照记录方面的配置，输入必要的参数，如站点路径、数据库信息以及域名信息等。

步骤72，定时记录站点的数据快照。

步骤73，后台进行快照对比分析，快照对比分析可结合本地分析与云分析。

步骤74，根据分析结果确定是否包含恶意数据和可疑数据。

分析结果以各种方式推送给管理员，如邮件提醒，即时通信提醒等。

步骤75，当确定存在恶意数据时，给予警告并提醒管理人员删除。

步骤76，当存在可疑数据时，向管理人员反馈分析结果详情以及告警，以便管理人员进行处理。

比如，当分析确定存在可疑脚本时，可以给出详细对比内容及风险点，以供管理人员参靠并进行处理，比如，提醒管理人员处理可疑文件，删除，修改或添加白名单等。

步骤77，若不存在恶意数据和可疑数据，则不进行处理。

请参考图8，其示出了本申请实施例涉及的快照对比分析实现流程示意图。如图8所示，该快照对比分析流程如下：

数据处理设备获取到第一数据快照和第二数据快照之后，对比快照差异，并对差异的增改量进行分析(S81)。

对于差异数据中属于网页数据的新增文件，通过过滤器1对属于网页数据的新增文件进行检测过滤(S82)，确定是否包含恶意数据或者可疑数据，其中，过滤器1对新增文件进行检测过滤的过程可以参考上述图3所示实施例中的步骤305至步骤307下的描述，此处不再赘述。若确定存在恶意数据，则提醒管理人员删除(S83)，若确定存在可疑数据，则提醒管理人员存在可疑数据(S84)，若不存在恶意数据或者可疑数据，则不作处理(S85)。

对于差异数据中属于网页数据的修改文件，通过过滤器2对属于网页数据的修改文件进行检测过滤(S86)，确定是否包含可疑数据。其中，过滤器2对修改文件进行检测过滤的过程可以参考上述图3所示实施例中的步骤308下的描述，此处不再赘述。若确定存在可疑数据，则提醒管理人员正常文件被修改(S87)，若不存在可疑数据，则不作处理(S85)。

对于差异数据中属于数据库的数据，通过过滤器3对差异数据中属于数据库的数据进行检测过滤(S88)，以确定数据库数据中是否存在可疑数据。其中，过滤器3对数据库数据进行检测过滤的过程可以参考上述图6所示实施例中的步骤604至步骤606下的描述，此处不再赘述。若确定存在可疑数据，则提醒管理人员数据库中存在可疑数据(S89)，若不存在可疑数据，则不作处理(S85)。

本申请上述方案提出以计划任务方式为站点创建数据快照，快照内容包括站点的网页数据及站点的数据库数据，快照之间可以对比，对比出文件差异，即增删改的文件，通过对增改的文件内容进行本地及云分析，快速对恶意脚本进行处理并给予管理员告警信息，及时发现网站是否被入侵，提高站点安全性。

图9是根据一示例性实施例示出的一种处理网站中的风险数据的装置的结构方框图。该处理网站中的风险数据的装置用于对网站对应的网页数据或者数据库数据进行恶意数据检测和处理，比如，该处理网站中的风险数据的装置可以用于如图1所示系统中的数据处理设备160中，以执行图2、图3或图6所示实施例提供的方法中的全部或者部分步骤。该处理网站中的风险数据的装置可以包括：

快照获取模块901，用于获取第一数据快照，并获取第二数据快照；第一数据快照是网站的各个数据快照中，对应的记录时间最近的一个数据快照，第二数据快照是网站的各个数据快照中的指定数据快照，且第二数据快照的记录时间在第一数据快照的记录时间之前；

快照比对模块902，用于将该第一数据快照与该第二数据快照进行比对，获得该第一数据快照中的差异数据；

检测模块903，用于对该差异数据进行检测，以确定该差异数据中是否包含风险数据，该风险数据包括恶意数据和可疑数据中的至少一种；

处理模块904，用于根据对该差异数据进行检测的检测结果，对风险数据进行处理。

可选的，该检测模块903，具体用于，

当该数据快照包括该网站的网页快照时，获取该差异数据对应文件的差异类型，该差异类型为新增文件或者修改文件；根据该差异数据对应文件的差异类型，检测该差异数据中是否包含风险数据。

可选的，在根据该差异数据对应文件的差异类型，检测该差异数据中是否包含风险数据时，该检测模块903，具体用于，

当该差异类型为新增文件时，获取该差异数据对应文件的文件特征，该文件特征包括文本特征和文件名特征中的至少一种；当该文件特征满足预设的恶意脚本特征时，确定该差异数据中包含恶意数据。

可选的，在根据该差异数据对应文件的文件类型，检测该差异数据中是否包含风险数据时，该检测模块903，具体用于，

当该文件特征不满足预设的恶意脚本特征，且该差异数据对应文件为脚本类型文件时，确定该差异数据中包含可疑数据。

当该差异类型为修改文件时，且该差异数据对应文件为脚本类型文件时，确定该差异数据中包含可疑数据。

可选的，该检测模块903，具体用于当该数据快照包括该网站的数据库快照时，查询该差异数据中的指定函数，该指定函数包括与恶意脚本相关的函数；当查询到该差异数据中存在该指定函数时，确定该差异数据中包含可疑数据。

可选的，该检测模块903，具体用于当该数据快照包括该网站的数据库快照时，查询该差异数据中的指定标签，该指定标签是指向链接的标签；当查询到该指定标签时，获取该指定标签指向的链接的第一域名；当第一域名与该网站的第二域名不匹配时，确定该差异数据中包含可疑数据。

可选的，在获取第二数据快照时，该快照获取模块901，具体用于将该网站的各个数据快照中，记录时间处于该第一数据快照的记录时间之前，且距离该第一数据快照的记录时间最近的数据快照获取为该第二数据快照。

可选的，在获取第二数据快照时，该快照获取模块901，具体用于将该网站的各个数据快照中，记录时间为指定时间的数据快照获取为该第二数据快照，所述指定时间处于第一数据快照的记录时间之前。

可选的，该处理模块904，具体用于，

当该差异数据中的风险数据包括恶意数据时，向管理终端发送第一提醒信息，该第一提醒信息用于提示删除该恶意数据；

当该差异数据中的风险数据包括可疑数据时，向该管理终端发送第二提醒信息，该第二提醒信息用于提示人工检查该可疑数据。

图10是根据一示例性实施例示出的一种计算机设备的结构示意图。所述计算机设备1000包括中央处理单元(CPU)1001、包括随机存取存储器(RAM)1002和只读存储器(ROM)1003的系统存储器1004，以及连接系统存储器1004和中央处理单元1001的系统总线1005。所述计算机设备1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1006，和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。

所述基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中所述显示器1008和输入设备1009都通过连接到系统总线1005的输入输出控制器1010连接到中央处理单元1001。所述基本输入/输出系统1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。所述大容量存储设备1007及其相关联的计算机可读介质为计算机设备1000提供非易失性存储。也就是说，所述大容量存储设备1007可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。

计算机设备1000可以通过连接在所述系统总线1005上的网络接口单元1011连接到互联网或者其它网络设备。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器1001通过执行该一个或一个以上程序来实现图2、3或图6所示的方法的全部或者部分步骤。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括计算机程序(指令)的存储器，上述程序(指令)可由计算机设备的处理器执行以完成本申请各个实施例所示的方法中，由数据处理设备执行的方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种处理网站中的风险数据的方法，其特征在于，所述方法包括：

获取第一数据快照和获取第二数据快照；所述第一数据快照是网站的各个数据快照中的记录时间最近的数据快照；所述第二数据快照是所述网站的各个数据快照中的指定数据快照，且所述第二数据快照的记录时间在所述第一数据快照的记录时间之前；

2.根据权利要求1所述的方法，其特征在于，所述数据快照包括所述网站的网页快照；

所述检测所述差异数据中是否包含风险数据，包括：

获取所述差异数据对应文件的差异类型，所述差异类型为新增文件或者修改文件；

根据所述差异数据对应文件的差异类型，检测所述差异数据中是否包含风险数据。

3.根据权利要求2所述的方法，其特征在于，所述根据所述差异数据对应文件的差异类型，检测所述差异数据中是否包含风险数据，包括：

当所述差异类型为新增文件时，获取所述差异数据对应文件的文件特征，所述文件特征包括文本特征和文件名特征中的至少一种；

当所述文件特征满足预设的恶意脚本特征时，确定所述差异数据中包含所述恶意数据。

4.根据权利要求3所述的方法，其特征在于，所述根据所述差异数据对应文件的文件类型，检测所述差异数据中是否包含风险数据，还包括：

5.根据权利要求2所述的方法，其特征在于，所述根据所述差异数据对应文件的差异类型，检测所述差异数据中是否包含风险数据，包括：

当所述差异类型为修改文件，且所述差异数据对应文件为脚本类型文件时，确定所述差异数据中包含所述可疑数据。

6.根据权利要求1所述的方法，其特征在于，所述数据快照包括所述网站的数据库快照；

所述检测所述差异数据中是否包含风险数据，包括：

查询所述差异数据中的指定函数，所述指定函数包括与恶意脚本相关的函数；

当查询到所述差异数据中存在所述指定函数时，确定所述差异数据中包含所述可疑数据。

7.根据权利要求1所述的方法，其特征在于，所述数据快照包括所述网站的数据库快照；

所述检测所述差异数据中是否包含风险数据，包括：

查询所述差异数据中的指定标签，所述指定标签是指向链接的标签；

当查询到所述指定标签时，获取所述指定标签指向的链接的第一域名；

当所述第一域名与所述网站的第二域名不匹配时，确定所述差异数据中包含所述可疑数据。

8.根据权利要求1至7任一所述的方法，其特征在于，所述获取第二数据快照，包括：

将所述网站的各个数据快照中，记录时间处于所述第一数据快照的记录时间之前，且距离所述第一数据快照的记录时间最近的数据快照获取为所述第二数据快照。

9.根据权利要求1至7任一所述的方法，其特征在于，所述获取第二数据快照，包括：

将所述网站的各个数据快照中，记录时间为指定时间的数据快照获取为所述第二数据快照，所述指定时间处于所述第一数据快照的记录时间之前。

10.根据权利要求1至7任一所述的方法，其特征在于，所述根据对所述差异数据进行检测的检测结果，对所述风险数据进行处理，包括：

11.根据权利要求1至7任一所述的方法，其特征在于，所述根据对所述差异数据进行检测的检测结果，对所述风险数据进行处理，包括：

12.一种处理网站中的风险数据的装置，其特征在于，所述装置包括：

13.根据权利要求12所述的装置，其特征在于，

所述检测模块，具体用于当所述数据快照包括所述网站的数据库快照时，查询所述差异数据中的指定函数，所述指定函数包括与恶意脚本相关的函数；当查询到所述差异数据中存在所述指定函数时，确定所述差异数据中包含所述可疑数据。

14.一种计算机设备，其特征在于，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至11任一所述的处理网站中的风险数据的方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至11任一所述的处理网站中的风险数据的方法。