CN113067796A

CN113067796A - 一种隐藏页面检测方法、装置、设备及存储介质

Info

Publication number: CN113067796A
Application number: CN202010003048.3A
Authority: CN
Inventors: 王大伟; 杨荣海
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2020-01-02
Filing date: 2020-01-02
Publication date: 2021-07-02

Abstract

本申请公开了一种隐藏页面检测方法，应用于安全防护设备，该方法包括以下步骤：接收客户端对目标网站的目标页面的目标访问请求；根据目标页面的访问统计信息，确定目标页面是否为可疑页面；如果是，则将目标页面的访问统计信息发送给云端，以使云端对目标页面进行检测；根据接收到的云端返回的检测结果，确定目标页面是否为隐藏页面。应用本申请实施例所提供的技术方案，通过目标网站的安全防护设备与云端的联合检测，可以准确确定出目标页面是否为隐藏页面，实现对目标网站进行安全防护，提高目标网站的安全性。本申请还公开了一种应用于云端的隐藏页面检测方法，及与上述方法相对应的隐藏页面检测装置、设备及存储介质，具有相应技术效果。

Description

一种隐藏页面检测方法、装置、设备及存储介质

技术领域

本申请涉及计算机应用技术领域，特别是涉及一种隐藏页面检测方法、装置、设备及存储介质。

背景技术

在互联网时代，人们利用网络可以访问各种网站，使用网站提供的资源。网站给人们的生活和工作带来了便利，但同时，网站也受到了越来越多的攻击。有攻击就会有防护，随着攻防对抗的日趋激烈，攻击者开始采用一些绕过技术来逃避检测。其中一种较为广泛使用的绕过技术是上传隐藏页面。隐藏页面是恶意的孤立页面，比如WebShell后门、篡改页面等。攻击者在上传隐藏页面至网站服务器后，该网站服务器下没有本地链接指向这些隐藏页面。由于这些隐藏页面只有攻击者或者攻击目标才能够访问到，因此更具隐蔽性，容易绕过检测，从而给网站带来安全隐患。

在现有技术中，可以利用爬虫，爬取网站的所有页面，进行隐藏页面的检测。利用爬虫爬取网站的所有页面后，遍历网站服务器的文件，进行对比，分析是否存在隐藏页面。

这种方法存在一定的缺点，有些孤立页面，即网站服务器无本地链接指向的页面，如系统自动生成的临时文件等，并不一定是恶意的，但是通过这种方法会将这样的孤立页面确定为隐藏页面上报，误报率较高，容易影响网站的正常运行。

发明内容

本申请的目的是提供一种隐藏页面检测方法、装置、设备及存储介质，以提高隐藏页面检测的准确率，提高网站的安全性，避免影响网站的正常运行。

为解决上述技术问题，本申请提供如下技术方案：

一种隐藏页面检测方法，应用于目标网站的安全防护设备，所述方法包括：

接收客户端对所述目标网站的目标页面的目标访问请求；

根据所述目标页面的访问统计信息，确定所述目标页面是否为可疑页面；

如果确定所述目标页面为可疑页面，则将所述目标页面的访问统计信息发送给云端，以使所述云端对所述目标页面进行检测；

根据接收到的所述云端返回的检测结果，确定所述目标页面是否为隐藏页面。

在本申请的一种具体实施方式中，在所述接收客户端对所述目标网站的目标页面的目标访问请求之后、所述根据所述目标页面的访问统计信息，确定所述目标页面是否为可疑页面之前，还包括：

在数据库中查找所述目标页面的链接地址；

如果未查找到，则执行所述根据所述目标页面的访问统计信息，确定所述目标页面是否为可疑页面的步骤。

在本申请的一种具体实施方式中，还包括：

如果在所述数据库中查找到所述目标页面的链接地址，则根据所述数据库中记录的所述目标页面的检测结果信息，确定所述目标页面为隐藏页面还是正常页面。

在本申请的一种具体实施方式中，还包括：

根据接收到的所述云端返回的检测结果，在所述数据库中记录所述目标页面的链接地址及所述目标页面的检测结果信息。

在本申请的一种具体实施方式中，所述根据所述目标页面的访问统计信息，确定所述目标页面是否为可疑页面，包括：

将所述目标页面的访问统计信息与预设的可疑判定规则进行匹配，获得匹配结果；

基于所述匹配结果，确定所述目标页面是否为可疑页面。

根据所述目标页面的访问统计信息，确定在设定时间段内所述目标页面对应的外部链接个数和本地链接个数；

如果所述目标页面对应的外部链接个数与本地链接个数的比值大于预设比例阈值，和/或所述目标页面对应的外部链接个数与本地链接个数的差值大于预设差值阈值，则确定所述目标页面为可疑页面。

在本申请的一种具体实施方式中，在所述接收客户端对所述目标网站的目标页面的目标访问请求之后、所述确定在设定时间段内所述目标页面对应的外部链接个数和本地链接个数之前，还包括：

基于所述目标访问请求中携带的链接信息，更新所述目标页面对应的外部链接个数和本地链接个数；

确定针对所述目标页面的访问请求的次数是否大于预设访问次数阈值；

如果是，则执行所述确定在设定时间段内所述目标页面对应的外部链接个数和本地链接个数的步骤。

在本申请的一种具体实施方式中，还包括：

如果确定所述目标页面为隐藏页面，则拦截所述目标访问请求。

在本申请的一种具体实施方式中，还包括：

如果确定所述目标页面为正常页面，则将所述目标访问请求发送给所述目标网站。

一种隐藏页面检测方法，应用于云端，所述方法包括：

接收目标页面的访问统计信息，所述目标页面的访问统计信息为：安全防护设备在接收到客户端对目标网站的所述目标页面的目标访问请求，确定所述目标页面为可疑页面时发送的；

利用搜索引擎对所述目标页面进行检测，得到第一结果；

利用训练获得的检测模型对所述目标页面进行检测，得到第二结果；

基于所述第一结果和/或所述第二结果，确定所述目标页面是否为隐藏页面的检测结果；

向所述安全防护设备返回所述检测结果，以使所述安全防护设备基于所述检测结果确定所述目标页面是否为隐藏页面。

在本申请的一种具体实施方式中，所述利用训练获得的检测模型对所述目标页面进行检测，得到第二结果，包括：

爬取所述目标页面，获得所述目标页面的响应信息；

基于所述目标页面的访问统计信息和所述目标页面的响应信息，利用训练获得的检测模型，获得所述目标页面是否为隐藏页面的第二结果。

在本申请的一种具体实施方式中，通过以下步骤训练获得所述检测模型：

获得正样本训练数据和负样本训练数据，所述正样本训练数据包括多个正常页面的访问统计信息和每个正常页面的响应信息，所述负样本训练数据包括多个隐藏页面的访问统计信息和每个隐藏页面的响应信息；

基于所述正样本训练数据和所述负样本训练数据，训练获得所述检测模型。

在本申请的一种具体实施方式中，所述利用搜索引擎对所述目标页面进行检测，得到第一结果，包括：

调用搜索引擎对所述目标页面进行搜索操作；

根据当前检测目标及搜索结果，获得所述目标页面是否为隐藏页面的第一结果。

在本申请的一种具体实施方式中，还包括：

如果确定检测结果为：所述目标页面为隐藏页面，则执行所述向所述安全防护设备返回所述检测结果的步骤。

在本申请的一种具体实施方式中，所述根据当前检测目标及搜索结果，获得所述目标页面是否为隐藏页面的第一结果，包括：

如果当前检测目标为后门类页面，且所述搜索引擎未搜索到所述目标页面，则获得第一结果为：所述目标页面为隐藏页面；

如果当前检测目标为篡改类页面，且所述搜索引擎搜索到所述目标页面，且搜索结果中含有恶意文本，则获得第一结果为：所述目标页面为隐藏页面。

一种隐藏页面检测装置，应用于目标网站的安全防护设备，所述装置包括：

请求接收模块，用于接收客户端对所述目标网站的目标页面的目标访问请求；

可疑判断模块，用于根据所述目标页面的访问统计信息，确定所述目标页面是否为可疑页面；如果确定所述目标页面为可疑页面，则触发信息发送模块；

所述信息发送模块，用于将所述目标页面的访问统计信息发送给云端，以使所述云端对所述目标页面进行检测；

结果确定模块，用于根据接收到的所述云端返回的检测结果，确定所述目标页面是否为隐藏页面。

一种隐藏页面检测装置，应用于云端，所述装置包括：

信息接收模块，用于接收目标页面的访问统计信息，所述目标页面的访问统计信息为：安全防护设备在接收到客户端对目标网站的所述目标页面的目标访问请求，确定所述目标页面为可疑页面时发送的；

第一结果获得模块，用于利用搜索引擎对所述目标页面进行检测，得到第一结果；

第二结果获得模块，用于利用训练获得的检测模型对所述目标页面进行检测，得到第二结果；

检测结果确定模块，用于基于所述第一结果和/或所述第二结果，确定所述目标页面是否为隐藏页面的检测结果；

结果返回模块，用于向所述安全防护设备返回所述检测结果，以使所述安全防护设备基于所述检测结果确定所述目标页面是否为隐藏页面。

一种隐藏页面检测设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述任一项所述隐藏页面检测方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述隐藏页面检测方法的步骤。

应用本申请实施例所提供的技术方案，目标网站的安全防护设备在接收到客户端对目标网站的目标页面的目标访问请求时，可以根据目标页面的访问统计信息，确定目标页面是否为可疑页面，如果确定目标页面为可疑页面，则可以将目标页面的访问统计信息发送给云端，由云端对目标页面进行检测，并向安全防护设备返回检测结果，安全防护设备根据检测结果，可以确定目标页面是否为隐藏页面。通过目标网站的安全防护设备与云端的联合检测，可以准确确定出目标页面是否为隐藏页面，进而使得安全防护设备可以采取相应措施，对目标网站进行安全防护，提高目标网站的安全性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中一种隐藏页面检测系统的架构示意图；

图2为本申请实施例中隐藏页面检测方法的一种实施流程图；

图3为本申请实施例中隐藏页面检测方法的另一种实施流程图；

图4为本申请实施例中与图2对应的隐藏页面检测装置的结构示意图；

图5为本申请实施例中与图3对应的隐藏页面检测装置的结构示意图；

图6为本申请实施例中一种隐藏页面检测设备的结构示意图。

具体实施方式

本申请的核心是提供一种隐藏页面检测方法。目标网站的安全防护设备在接收到客户端对目标网站的目标页面的目标访问请求时，可以根据目标页面的访问统计信息，确定目标页面是否为可疑页面，如果确定目标页面为可疑页面，则可以将目标页面的访问统计信息发送给云端，由云端对目标页面进行检测，并向安全防护设备返回检测结果，安全防护设备根据检测结果，可以确定目标页面是否为隐藏页面。通过目标网站的安全防护设备与云端的联合检测，可以准确确定出目标页面是否为隐藏页面，进而使得安全防护设备可以采取相应措施，对目标网站进行安全防护，提高目标网站的安全性。

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，为本申请实施例中隐藏页面检测系统的架构示意图，该隐藏页面检测系统可以包括云端110和目标网站的安全防护设备120(图1中是以防火墙为例)。安全防护设备120是一种存在于网络边界的边界网络设备，如防火墙等，用于防止外界网络入侵。云端110可以与多个安全防护设备120连接(图1中仅示例性地示出一个)，接收每个安全防护设备120发送的对于可疑页面的访问统计信息，对可疑页面进行检测。

客户端可以向目标网站发送针对目标页面的目标访问请求，该目标访问请求将会先到达目标网站的安全防护设备120。客户端可以是手机、平板电脑、笔记本电脑、台式机等终端中安装的可进行网络访问的应用，如浏览器等。

安全防护设备120接收到客户端的目标访问请求后，可以根据目标页面的访问统计信息，确定目标页面是否为可疑页面，如果确定目标页面为可疑页面，则可以将目标页面的访问统计信息发送给云端110，借助云端110强大的运算、处理能力，由云端110对目标页面进行检测，将检测结果返回给安全防护设备120。安全防护设备120根据接收到的云端110返回的检测结果，确定目标页面为隐藏页面还是正常页面。如果目标页面为正常页面，则将目标访问请求发送给目标网络，实现客户端与目标网络的访问。如果目标页面为隐藏页面，则拦截目标访问请求(图1中未示出)。

本申请实施例主要是通过网站的安全防护设备对访问请求所针对的页面进行轻量化检测，过滤出可疑页面，将相关页面信息上报给云端，云端通过重量级更高但更准确的技术，如机器学习、搜索引擎搜索及行为分析等，确定可疑页面是否为隐藏页面。可以提高检测准确率，减少安全防护设备的性能开销。

本申请实施例可以应用于识别WebShell后门、网页孤链、网页篡改的检测等场景中。WebShell是一种以网页文件形式存在的命令执行程序，也可称为后门文件，是黑客入侵网站采用的重要手段，通常以asp、php、jsp或者cgi等网页文件形式存在。网页篡改是指黑客入侵合法网站，在该网站中插入非法文本、图像及恶意链接等行为。网页篡改是搜索引擎优化的一项重要技术，能够提升目的网站在搜索引擎中的排名，从而增加访问量。同时网页篡改也会被用来宣扬黑客的主张或者炫耀黑客的技术。孤链是一种特殊的网页篡改形式。黑客上传篡改网页后，在该网站服务器A无本地链接指向此篡改页面。同时，黑客在其控制的另一台服务器B上增加链接来指向该篡改页面。针对网站服务器A的普通爬虫无法爬取到该孤链页面，而只有拥有全网爬取能力的爬虫，如搜索引擎才能够通过服务器B爬取到该孤链页面。

上面对隐藏页面检测系统的各组成进行了整体介绍，下面对隐藏页面检测系统进行隐藏页面检测的过程进行详细说明。

参见图2所示，为本申请实施例中一种隐藏页面检测方法的实施流程图，该方法可以应用于目标网站的安全防护设备，该方法可以包括以下步骤：

S210：接收客户端对目标网站的目标页面的目标访问请求。

如前所描述的，客户端可以向目标网站发送针对目标页面的目标访问请求，该目标访问请求将会先到达目标网站的安全防护设备，安全防护设备接收到客户端的目标访问请求后，可以继续执行步骤S220的操作。

S220：根据目标页面的访问统计信息，确定目标页面是否为可疑页面。

安全防护设备在接收到客户端对目标网站的目标页面的目标访问请求后，可以获得目标页面的访问统计信息。目标页面的访问统计信息可以包括但不限于以下信息：目标页面的链接地址、目标页面的被访问次数、被访问时段、访问的IP个数、访问的IP是否可信、是否存在跳转行为等。

安全防护设备根据目标页面的访问统计信息，可以对目标页面进行检测，确定目标页面是否为可疑页面。比如，对于WebShell后门，由于其链接地址只有攻击者知道，因此该页面的可疑特征较为明显，比如只有少量IP访问，访问时间段比较集中，访问频次较低，Referer字段不是目标网站的本地链接等。通过这些可疑特征，可以确定目标页面为可疑页面。

安全防护设备对于目标页面的检测，可以得到如下几个结果：目标页面为可疑页面、目标页面为隐藏页面、目标页面为正常页面。

如果确定目标页面为可疑页面，则可以执行步骤S230的操作。如果确定目标页面为隐藏页面，则可以拦截该目标访问请求。如果确定目标页面为正常页面，则可以将该目标访问请求发送给目标网站，以使客户端能够对目标网站进行访问。

S230：如果确定目标页面为可疑页面，则将目标页面的访问统计信息发送给云端，以使云端对目标页面进行检测。

在实际应用中，为了不影响客户业务的可用性，安全防护设备通常无法采用准确度高但性能开销大的检测技术，一般会选择性能较好但准确度不佳的方案，导致本地检测误报率较高。

以对WebShell后门检测为例，由于WebShell通常会执行代码，返回的页面包含了代码的执行结果，同时该页面也常常包含文件操作、数据库操作等关键词，这些信息可以提升检测的准确性，但安全防护设备在本地检测时出于性能考虑，往往会丢弃这部分数据，所以会带来较高的误报率。因此，为了进一步提升检测准确性，本申请实施例在云端对安全防护设备上报的可疑页面进行进一步的检测。

在本申请实施例中，安全防护设备根据目标页面的访问统计信息，如果确定目标页面为可疑页面，则表明当前安全防护设备无法确定目标页面是隐藏页面或者正常页面。在这种情况下，可以将目标页面的访问统计信息发送给云端，以使云端基于目标页面的访问统计信息对目标页面进行检测。

云端的处理、计算能力更强，基于目标页面的访问统计信息，可以结合多方面的数据，如历史数据、专家数据等，准确确定出目标页面是否为隐藏页面。

云端对目标页面进行检测后，可以向安全防护设备返回检测结果。该检测结果可以表明目标页面是隐藏页面还是正常页面。

S240：根据接收到的云端返回的检测结果，确定目标页面是否为隐藏页面。

安全防护设备接收到云端返回的检测结果，可以确定目标页面是否为隐藏页面。具体的，如果云端返回的检测结果为：目标页面为隐藏页面，则安全防护设备可以确定目标页面为隐藏页面，进而可以对目标访问请求进行拦截，实现对目标网站的安全防护。如果云端返回的检测结果为：目标页面为正常页面，则安全防护设备可以确定目标页面为正常页面，进而可以将目标访问请求发送给目标网站，实现客户端对目标页面的访问。

应用本申请实施例所提供的方法，目标网站的安全防护设备在接收到客户端对目标网站的目标页面的目标访问请求时，可以根据目标页面的访问统计信息，确定目标页面是否为可疑页面，如果确定目标页面为可疑页面，则可以将目标页面的访问统计信息发送给云端，由云端对目标页面进行检测，并向安全防护设备返回检测结果，安全防护设备根据检测结果，可以确定目标页面是否为隐藏页面。通过目标网站的安全防护设备与云端的联合检测，可以准确确定出目标页面是否为隐藏页面，进而使得安全防护设备可以采取相应措施，对目标网站进行安全防护，提高目标网站的安全性。

在本申请的一个实施例中，在步骤S210接收客户端对目标网站的目标页面的目标访问请求之后、步骤S220根据目标页面的访问统计信息，确定目标页面是否为可疑页面之前，该方法还可以包括以下步骤：

在数据库中查找目标页面的链接地址；如果未查找到，则可以执行步骤S220的操作。

在本申请实施例中，安全防护设备可以维护一个数据库，该数据库中记录有通过检测已确定为隐藏页面或者正常页面的页面的链接地址等信息。数据库中记录的这些信息可以是人为确定录入的，还可以是安全防护设备确定后记录的，还可以是云端确定后返回给安全防护设备之后记录的。

安全防护设备在接收到客户端对目标网站的目标页面的目标访问请求时，可以在目标访问请求中提取到目标页面的链接地址。在数据库中查找目标页面的链接地址。

如果在数据库中查找到目标页面的链接地址，则表明目标页面之前已经被确定为隐藏页面或者正常页面，在这种情况下，可以根据数据库中记录的目标页面的检测结果信息，直接确定目标页面为隐藏页面还是正常页面。

如果在数据库中未查找到目标页面的链接地址，则表明目标页面之前并未被检测过，可以进一步根据目标页面的访问统计信息，确定目标页面是否为可疑页面。

先基于数据库中记录的信息确定目标页面是否为隐藏页面或者正常页面，可以减轻安全防护设备的压力，提高检测效率。

在本申请的一种具体实施方式中，步骤S220可以包括以下步骤：

步骤一：将目标页面的访问统计信息与预设的可疑判定规则进行匹配，获得匹配结果；

步骤二：基于匹配结果，确定目标页面是否为可疑页面。

为便于描述，将上述两个步骤结合起来进行说明。

在本申请实施例中，可以将目标页面的访问统计信息与预设的可疑判定规则进行匹配，获得匹配结果。该可疑判定规则可根据实际情况进行设定和调整。如对于一个页面而言，在该页面满足以下至少两个条件时，可以认为该页面是可疑的：该页面的被访问次数小于设定次数阈值，该页面的被访问时段在设定时段范围内，该页面的访问的IP个数小于设定个数阈值，该页面的访问的IP中存在至少N个不可信IP，N为正整数。

举例而言，目标页面的访问统计信息为：目标页面的被访问次数为10次，目标页面的被访问时段均为凌晨1:00-2:00，目标页面的访问的IP个数为3个。在可疑判定规则中，页面的被访问次数对应的次数阈值为50，页面的被访问时段对应的时段范围为凌晨1:00-3:00，页面的访问的IP个数对应的个数阈值为10。可以看出，目标页面的访问统计信息与可疑判定规则中的三个条件匹配。

基于目标页面的访问统计信息与可疑判定规则的匹配结果，可以确定目标页面是否为可疑页面。

在本申请的一个实施例中，安全防护设备在接收到客户端对目标网站的目标页面的目标访问请求，确定在数据库中是否查找到目标页面的链接地址，如果未查找到，则根据目标页面的访问统计信息，确定目标页面为可疑页面后，将目标页面的访问统计信息发送给云端，云端对目标页面进行检测，并返回检测结果。安全防护设备根据接收到的云端返回的检测结果，可以在数据库中记录目标页面的链接地址及目标页面的检测结果信息。

这样当再次接收到客户端对目标网站的目标页面的访问请求时，通过数据库可以直接确定目标页面为隐藏页面还是正常页面，可以及时对该访问请求进行拦截或者放行等操作，提高检测效率，也可以节省安全防护设备及云端的处理资源。

在实际应用中，安全防护设备确定目标页面为可疑页面，将目标页面的访问统计信息发送给云端，云端返回检测结果后，如果检测结果表明目标页面为正常页面，则表明安全防护设备对于可疑页面存在误报情况，可以记录该误报信息，并基于记录的误报信息，对可疑判定规则进行调整优化，以提高检测准确性。

在本申请的一个实施例中，步骤S220可以包括以下步骤：

步骤一：根据目标页面的访问统计信息，确定在设定时间段内目标页面对应的外部链接个数和本地链接个数；

步骤二：如果目标页面对应的外部链接个数与本地链接个数的比值大于预设比例阈值，和/或目标页面对应的外部链接个数与本地链接个数的差值大于预设差值阈值，则确定目标页面为可疑页面。

为便于描述，将上述两个步骤结合起来进行说明。

安全防护设备在接收到客户端对目标网站的目标页面的目标访问请求时，可以获得目标页面的访问统计信息。根据目标页面的访问统计信息，可以确定在设定时间段内目标页面对应的外部链接个数和本地链接个数。该设定时间段可以是安全防护设备投入运行以来至当前时刻的时间段，还可以是当前时刻之前的某一个时间段，如一个月等。

可以理解的是，隐藏页面是一种恶意的孤立页面，只有攻击者或者攻击目标才能够访问，一般是攻击者利用安全漏洞上传的恶意网页。在网站中，隐藏页面不存在本地链接。

如果在设定时间段内目标页面对应的外部链接个数与本地链接个数的比值大于预设比例阈值，和/或目标页面对应的外部链接个数与本地链接个数的差值大于预设差值阈值，则表明在该设定时间段内，目标页面对应的外部链接较多，可以认为目标页面为可疑页面。如果目标页面只有外部链接，而没有本地链接，则可疑性更大。

如果在设定时间段内目标页面对应的外部链接个数与本地链接个数的比值不大于预设比例阈值，则表明目标页面非可疑页面，可以将目标访问请求发送给目标网站，实现客户端对目标页面的访问。

该比例阈值、差值阈值可以根据实际情况进行设定和调整，本申请实施例对此不做限制。

在本申请的一个实施例中，在接收客户端对目标网站的目标页面的目标访问请求之后、确定在设定时间段内目标页面对应的外部链接个数和本地链接个数之前，可以先基于目标访问请求中携带的链接信息，更新目标页面对应的外部链接个数和本地链接个数，然后确定针对目标页面的访问请求的次数是否大于预设访问次数阈值，如果是，则执行确定在设定时段内目标页面对应的外部链接个数和本地链接个数的步骤。

在本申请实施例中，安全防护设备可以维护关联关系表，该关联关系表中记录有多个页面及每个页面对应的外部链接个数和本地链接个数，可以表征各个页面之间的访问关系。

安全防护设备在接收到客户端对目标网站的目标页面的目标访问请求之后，可以在目标访问请求中获得其携带的链接信息，该链接信息可以包括目标页面的链接地址和来源链接，来源链接可以通过参考字段即Referer字段进行确定。Referer字段是HTTP(HyperText Transfer Protocol，超文本传输协议)头(HTTP Header)的一部分。通过来源链接，可以知晓当前目标访问请求是从哪个页面跳转到目标页面的。如通过目标访问请求，确定目标页面的链接地址为URL A及参考字段，参考字段中存储有另一个链接URL B，表明此次请求是从URL B跳转到URL A的，可以理解为URL B对应的网页中存在URL A的链接。来源链接可能是外部链接或本地链接。

基于目标访问请求中携带的链接信息，可以更新目标页面对应的外部链接个数和本地链接个数。

确定针对目标页面的访问请求的次数是否大于预设访问次数阈值。如果不大于，则表明当前的几次对于目标页面的统计不足以确定目标页面是否为可疑页面，可以认为目标页面为正常页面，将目标访问请求发送给目标网站。如果大于，则可以进一步确定在设定时间段内目标页面对应的外部链接个数和本地链接个数，进而基于外部链接个数与本地链接个数的比值，确定目标页面是否为可疑页面。

需要说明的是，安全防护设备对于目标页面是否为可疑页面的检测并不限于上述提到的几种方案，还可以利用机器学习、深度学习等进行，或者通过上述多种方案进行综合判断，以得到更为准确的检测结果。

客户端与目标网站服务器的通信行为是双向的，既有从客户端到目标网站的请求流量数据，也有目标网站发往客户端的响应流量数据，性能允许的情况下，安全防护设备可以通过上述方案检测双向的流量数据。提高网络安全性。

参见图3所示，为本申请实施例所提供的一种隐藏页面检测方法的实施流程图，该方法可以应用于云端，包括以下步骤：

S310：接收目标页面的访问统计信息。

目标页面的访问统计信息为：安全防护设备在接收到客户端对目标网站的目标页面的目标访问请求，确定目标页面为可疑页面时发送的。

在本申请实施例中，目标网站的安全防护设备在接收到客户端对目标网站的目标页面的目标访问请求时，可以根据目标页面的访问统计信息，确定目标页面是否为可疑页面，如果确定目标页面为可疑页面，则可以将目标页面的访问统计信息发送给云端。

云端接收到目标页面的访问统计信息后，可以继续执行步骤S320或者步骤S330的操作。

S320：利用搜索引擎对目标页面进行检测，得到第一结果。

在本申请实施例中，云端接收到目标页面的访问统计信息后，可以利用搜索引擎对目标页面进行检测，得到第一结果。

具体的，可以调用搜索引擎对目标页面进行搜索操作，根据当前检测目标及搜索结果，获得目标页面是否为隐藏页面的第一结果。

在本申请实施例中，云端在接收到目标页面的访问统计信息后，确定要对目标页面进行检测。可以先调用搜索引擎对目标页面进行搜索操作。

隐藏页面可以是后门类页面，如WebShell后门，还可以是篡改类页面，如孤链等。可以根据当前检测目标及搜索结果，获得目标页面是否为隐藏页面的第一结果。

可以理解的是，如果目标页面为后门类页面，只有攻击者知道访问地址，搜索引擎将无法搜索到目标页面，相反，如果目标页面属于正常业务，则通常会出现在搜索引擎的搜索结果中。如果目标页面为篡改类页面，其常常会针对于搜索引擎，提升黑词在搜索引擎中的可见度，搜索结果中会含有恶意文本。

基于此，在本申请实施例中，如果当前检测目标为后门类页面，且搜索引擎未搜索到目标页面，则获得第一结果为：目标页面为隐藏页面；如果当前检测目标为篡改类页面，且搜索引擎搜索到目标页面，且搜索结果中含有恶意文本，则获得第一结果为：目标页面为隐藏页面。

S330：利用训练获得的检测模型对目标页面进行检测，得到第二结果。

在本申请实施例中，云端接收到目标页面的访问统计信息后，可以利用训练获得的检测模型对目标页面进行检测，得到第二结果。

具体的，可以爬取目标页面，获得目标页面的响应信息，基于目标页面的访问统计信息和目标页面的响应信息，利用训练获得的检测模型，获得目标页面是否为隐藏页面的第二结果。

目标页面的访问统计信息可以包括但不限于以下信息：目标页面的链接地址、目标页面的被访问次数、被访问时段、访问的IP个数、访问的IP是否可信等。

云端接收到目标页面的访问统计信息后，可以基于目标页面的链接地址，爬取目标页面，获得目标页面的响应信息。对于目标页面的爬取可以采用现有的爬虫技术，本申请不再赘述。目标页面的响应信息可以包括目标页面的内容信息和响应头信息等。

云端可以预先训练获得检测模型，该检测模型可以基于历史页面信息进行训练获得。

云端在接收到目标页面的访问统计信息，并获得目标页面的响应信息后，可以利用训练获得的检测模型，确定目标页面为隐藏页面的概率，从而获得目标页面是否为隐藏页面的第二结果。

S340：基于第一结果和/或第二结果，确定目标页面是否为隐藏页面的检测结果。

在本申请实施例中，云端接收到目标页面的访问统计信息，利用搜索引擎对目标页面进行检测，得到第一结果，利用训练获得的检测模型对目标页面进行检测，得到第二结果之后，可以单纯基于第一结果，或者单纯基于第二结果，或者结合第一结果和第二结果，确定目标页面是否为隐藏页面的检测结果。如在第一结果和第二结果一致时，将第一结果或第二结果确定为最终的检测结果，或者，在第一结果和第二结果中有至少一个结果表明目标页面为隐藏页面时，确定最终的检测结果为：目标页面为隐藏页面。

S350：向安全防护设备返回检测结果，以使安全防护设备基于检测结果确定目标页面是否为隐藏页面。

云端获得目标页面为隐藏页面的检测结果后，可以向安全防护设备返回检测结果，这样安全防护设备可以基于检测结果确定目标页面是否为隐藏页面，从而可以确定对目标访问请求采取的措施。

应用本申请实施例所提供的方法，目标网站的安全防护设备在接收到客户端对目标网站的目标页面的目标访问请求时，如果确定目标页面为可疑页面，则可以将目标页面的访问统计信息发送给云端，云端接收到目标页面的访问统计信息后，利用搜索引擎对目标页面进行检测得到第一结果，利用训练获得的检测模型对目标页面进行检测得到第二结果，基于第一结果和/或第二结果可以获得目标页面是否为隐藏页面的检测结果，并将检测结果返回给安全防护设备，安全防护设备根据检测结果，可以确定目标页面是否为隐藏页面。通过目标网站的安全防护设备与云端的联合检测，可以准确确定出目标页面是隐藏页面还是正常页面，进而使得安全防护设备可以采取相应措施，对目标网站进行安全防护，提高目标网站的安全性。

在本申请的一个实施例中，可以通过以下步骤训练获得检测模型：

步骤一：获得正样本训练数据和负样本训练数据，正样本训练数据包括多个正常页面的访问统计信息和每个正常页面的响应信息，负样本训练数据包括多个隐藏页面的访问统计信息和每个隐藏页面的响应信息；

步骤二：基于正样本训练数据和负样本训练数据，训练获得检测模型。

为便于描述，将上述两个步骤结合起来进行说明。

在本申请实施例中，可以先获得正样本训练数据和负样本训练数据，正样本训练数据包括多个正常页面的访问统计信息和每个正常页面的响应信息，负样本训练数据包括多个隐藏页面的访问统计信息和每个隐藏页面的响应信息。

然后基于正样本训练数据和负样本训练数据，训练获得检测模型。具体的，可以预先构建一个初始模型。利用正样本训练数据和负样本训练数据对该初始模型进行训练，基于输出结果与预期结果的误差，对初始模型中的参数进行调整，直至误差率小于预设阈值时，获得检测模型。

在实际应用中，可以分别基于正样本训练数据和负样本训练数据，训练得到两个检测模型，利用两个检测模型，分别得到对于目标页面为隐藏页面的概率，然后综合确定目标页面是否为隐藏页面。

需要说明的是，云端对于目标页面是否为隐藏页面的检测并不限于上述提到的几种方案，还可以利用语法分析、模式识别、机器学习、深度学习等进行，或者通过上述多种方案进行综合判断，以得到更为准确的检测结果。

为便于理解，以检测网页篡改中的孤链场景为例，对本申请实施例进行说明。

安全防护设备接收到客户端对目标网站的目标页面的目标访问请求，分析访问信息。由于孤链的流量特征明显，因此安全防护设备可以在本地过滤可疑流量。孤链流量特征包括但不限于以下几个方面：a)孤链只能被特定目标，如搜索引擎、爬虫等察觉并访问，因此页面的被访问次数少；b)孤链只能从外部网站跳转过来，因此可以通过Referer字段判断本次请求是否来自本网站；c)孤链针对的目标相对固定，因此可以通过用户-代理(User-Agent)字段判断是否为可疑目标的访问行为。

通过与以上孤链流量特征的匹配，可以确定目标页面为孤链的概率，如果概率超过预设的阈值，则可以将目标页面确定为可疑页面，上报云端。

在云端对安全防护设备上报的目标页面进行检测，进一步判断目标页面是否为孤立链接。具体的，可以借助搜索引擎的全网资源，挖掘孤链篡改。首先，可以搜索目标页面的链接地址URL，可选地，也可以搜索对应站点及特定黑词。黑词是指恶意或非法的关键词或关键词短语。因为孤链常常是针对搜索引擎，以提升黑词在搜索引擎中的可见度。因此，如果搜索结果中含有恶意信息，如搜索引擎的风险提示，或者是其标题(title)或者摘要含有恶意文本，则可以认为目标页面为一个孤链篡改。当然，也可以使用机器学习、自然语言处理等技术，对安全防护设备上报的可疑页面进行分析。还可以使用几种技术的组合，进行综合判断。

相应于上面图2所示的方法实施例，本申请实施例还提供了一种隐藏页面检测装置，应用于目标网站的安全防护设备，下文描述的一种隐藏页面检测装置与上文描述的一种隐藏页面检测方法可相互对应参照。

参见图4所示，该装置可以包括以下模块：

请求接收模块410，用于接收客户端对目标网站的目标页面的目标访问请求；

可疑判断模块420，用于根据目标页面的访问统计信息，确定目标页面是否为可疑页面；如果确定目标页面为可疑页面，则触发信息发送模块430；

信息发送模块430，用于将目标页面的访问统计信息发送给云端，以使云端对目标页面进行检测；

结果确定模块440，用于根据接收到的云端返回的检测结果，确定目标页面是否为隐藏页面。

应用本申请实施例所提供的装置，目标网站的安全防护设备在接收到客户端对目标网站的目标页面的目标访问请求时，可以根据目标页面的访问统计信息，确定目标页面是否为可疑页面，如果确定目标页面为可疑页面，则可以将目标页面的访问统计信息发送给云端，由云端对目标页面进行检测，并向安全防护设备返回检测结果，安全防护设备根据检测结果，可以确定目标页面是否为隐藏页面。通过目标网站的安全防护设备与云端的联合检测，可以准确确定出目标页面是否为隐藏页面，进而使得安全防护设备可以采取相应措施，对目标网站进行安全防护，提高目标网站的安全性。

在本申请的一种具体实施方式中，还包括查找模块，用于：

在接收客户端对目标网站的目标页面的目标访问请求之后、根据目标页面的访问统计信息，确定目标页面是否为可疑页面之前，在数据库中查找目标页面的链接地址；

如果未查找到，则触发可疑判断模块420执行根据目标页面的访问统计信息，确定目标页面是否为可疑页面的步骤。

在本申请的一种具体实施方式中，结果确定模块440，还用于：

如果在数据库中查找到目标页面的链接地址，则根据数据库中记录的目标页面的检测结果信息，确定目标页面为隐藏页面还是正常页面。

在本申请的一种具体实施方式中，还包括记录模块，用于：

根据接收到的云端返回的检测结果，在数据库中记录目标页面的链接地址及目标页面的检测结果信息。

在本申请的一种具体实施方式中，可疑判断模块420，用于：

将目标页面的访问统计信息与预设的可疑判定规则进行匹配，获得匹配结果；

基于匹配结果，确定目标页面是否为可疑页面。

在本申请的一种具体实施方式中，可疑判断模块420，用于：

根据目标页面的访问统计信息，确定在设定时间段内目标页面对应的外部链接个数和本地链接个数；

如果目标页面对应的外部链接个数与本地链接个数的比值大于预设比例阈值，和/或目标页面对应的外部链接个数与本地链接个数的差值大于预设差值阈值，则确定目标页面为可疑页面。

在本申请的一种具体实施方式中，可疑判断模块420，还用于：

在接收客户端对目标网站的目标页面的目标访问请求之后、确定在设定时间段内目标页面对应的外部链接个数和本地链接个数之前，基于目标访问请求中携带的链接信息，更新目标页面对应的外部链接个数和本地链接个数；

确定针对目标页面的访问请求的次数是否大于预设访问次数阈值；

如果是，则执行确定在设定时间段内目标页面对应的外部链接个数和本地链接个数的步骤。

在本申请的一种具体实施方式中，还包括请求拦截模块，用于：

如果确定目标页面为隐藏页面，则拦截目标访问请求。

在本申请的一种具体实施方式中，还包括请求发送模块，用于：

如果确定目标页面为正常页面，则将目标访问请求发送给目标网站。

相应于上面图3所示的方法实施例，本申请实施例还提供了一种隐藏页面检测装置，应用于云端，下文描述的一种隐藏页面检测装置与上文描述的一种隐藏页面检测方法可相互对应参照。

参见图5所示，该装置可以包括以下模块：

信息接收模块510，用于接收目标页面的访问统计信息，目标页面的访问统计信息为：安全防护设备在接收到客户端对目标网站的目标页面的目标访问请求，确定目标页面为可疑页面时发送的；

第一结果获得模块520，用于利用搜索引擎对目标页面进行检测，得到第一结果；

第二结果获得模块530，用于利用训练获得的检测模型对目标页面进行检测，得到第二结果；

检测结果确定模块540，用于基于第一结果和/或第二结果，确定目标页面是否为隐藏页面的检测结果；

结果返回模块550，用于向安全防护设备返回检测结果，以使安全防护设备基于检测结果确定目标页面是否为隐藏页面。

应用本申请实施例所提供的装置，目标网站的安全防护设备在接收到客户端对目标网站的目标页面的目标访问请求时，如果确定目标页面为可疑页面，则可以将目标页面的访问统计信息发送给云端，云端接收到目标页面的访问统计信息后，利用搜索引擎对目标页面进行检测得到第一结果，利用训练获得的检测模型对目标页面进行检测得到第二结果，基于第一结果和/或第二结果可以获得目标页面是否为隐藏页面的检测结果，并将检测结果返回给安全防护设备，安全防护设备根据检测结果，可以确定目标页面是否为隐藏页面。通过目标网站的安全防护设备与云端的联合检测，可以准确确定出目标页面是隐藏页面还是正常页面，进而使得安全防护设备可以采取相应措施，对目标网站进行安全防护，提高目标网站的安全性。

在本申请的一种具体实施方式中，第二结果获得模块530，用于：

爬取目标页面，获得目标页面的响应信息；

基于目标页面的访问统计信息和目标页面的响应信息，利用训练获得的检测模型，获得目标页面是否为隐藏页面的第二结果。

在本申请的一种具体实施方式中，还包括模型训练模块，用于通过以下步骤训练获得检测模型：

获得正样本训练数据和负样本训练数据，正样本训练数据包括多个正常页面的访问统计信息和每个正常页面的响应信息，负样本训练数据包括多个隐藏页面的访问统计信息和每个隐藏页面的响应信息；

基于正样本训练数据和负样本训练数据，训练获得检测模型。

在本申请的一种具体实施方式中，第一结果获得模块520，用于：

调用搜索引擎对目标页面进行搜索操作；

根据当前检测目标及搜索结果，获得目标页面是否为隐藏页面的第一结果。

如果当前检测目标为后门类页面，且搜索引擎未搜索到目标页面，则获得第一结果为：目标页面为隐藏页面；

如果当前检测目标为篡改类页面，且搜索引擎搜索到目标页面，且搜索结果中含有恶意文本，则获得第一结果为：目标页面为隐藏页面。

相应于上面的方法实施例，本申请实施例还提供了一种隐藏页面检测设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现上述图2和/或图3所示隐藏页面检测方法的步骤。

如图6所示，为隐藏页面检测设备的组成结构示意图，隐藏页面检测设备可以包括：处理器10、存储器11、通信接口12和通信总线13。处理器10、存储器11、通信接口12均通过通信总线13完成相互间的通信。

在本申请实施例中，处理器10可以为中央处理器(Central Processing Unit，CPU)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。

处理器10可以调用存储器11中存储的程序，具体的，处理器10可以执行隐藏页面检测方法的实施例中的操作。

存储器11中用于存放一个或者一个以上程序，程序可以包括程序代码，程序代码包括计算机操作指令，在本申请实施例中，存储器11中至少存储有用于实现以下功能的程序：

接收客户端对目标网站的目标页面的目标访问请求；

根据目标页面的访问统计信息，确定目标页面是否为可疑页面；

如果确定目标页面为可疑页面，则将目标页面的访问统计信息发送给云端，以使云端对目标页面进行检测；

根据接收到的云端返回的检测结果，确定目标页面是否为隐藏页面；

和/或

接收目标页面的访问统计信息，目标页面的访问统计信息为：安全防护设备在接收到客户端对目标网站的目标页面的目标访问请求，确定目标页面为可疑页面时发送的；

利用搜索引擎对目标页面进行检测，得到第一结果；

利用训练获得的检测模型对目标页面进行检测，得到第二结果；

基于第一结果和/或第二结果，确定目标页面是否为隐藏页面的检测结果；

向安全防护设备返回检测结果，以使安全防护设备基于检测结果确定目标页面是否为隐藏页面。

在一种可能的实现方式中，存储器11可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及至少一个功能(比如声音播放功能、图像播放功能)所需的应用程序等；存储数据区可存储使用过程中所创建的数据，如信息数据、结果数据等。

此外，存储器11可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。

通信接口13可以为通信模块的接口，用于与其他设备或者系统连接。

当然，需要说明的是，图6所示的结构并不构成对本申请实施例中隐藏页面检测设备的限定，在实际应用中隐藏页面检测设备可以包括比图6所示的更多或更少的部件，或者组合某些部件。

相应于上面的方法实施例，本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述隐藏页面检测方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的技术方案及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种隐藏页面检测方法，其特征在于，应用于目标网站的安全防护设备，所述方法包括：

接收客户端对所述目标网站的目标页面的目标访问请求；

2.根据权利要求1所述的方法，其特征在于，在所述接收客户端对所述目标网站的目标页面的目标访问请求之后、所述根据所述目标页面的访问统计信息，确定所述目标页面是否为可疑页面之前，还包括：

在数据库中查找所述目标页面的链接地址；

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利要求2所述的方法，其特征在于，还包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述目标页面的访问统计信息，确定所述目标页面是否为可疑页面，包括：

基于所述匹配结果，确定所述目标页面是否为可疑页面。

6.根据权利要求1所述的方法，其特征在于，所述根据所述目标页面的访问统计信息，确定所述目标页面是否为可疑页面，包括：

7.根据权利要求6所述的方法，其特征在于，在所述接收客户端对所述目标网站的目标页面的目标访问请求之后、所述确定在设定时间段内所述目标页面对应的外部链接个数和本地链接个数之前，还包括：

8.根据权利要求1至7之中任一项所述的方法，其特征在于，还包括：

9.根据权利要求1至7之中任一项所述的方法，其特征在于，还包括：

10.一种隐藏页面检测方法，其特征在于，应用于云端，所述方法包括：

利用搜索引擎对所述目标页面进行检测，得到第一结果；

11.根据权利要求10所述的方法，其特征在于，所述利用训练获得的检测模型对所述目标页面进行检测，得到第二结果，包括：

爬取所述目标页面，获得所述目标页面的响应信息；

12.根据权利要求10或11所述的方法，其特征在于，通过以下步骤训练获得所述检测模型：

13.根据权利要求10所述的方法，其特征在于，所述利用搜索引擎对所述目标页面进行检测，得到第一结果，包括：

调用搜索引擎对所述目标页面进行搜索操作；

14.根据权利要求13所述的方法，其特征在于，所述根据当前检测目标及搜索结果，获得所述目标页面是否为隐藏页面的第一结果，包括：

15.一种隐藏页面检测装置，其特征在于，应用于目标网站的安全防护设备，所述装置包括：

16.一种隐藏页面检测装置，其特征在于，应用于云端，所述装置包括：

17.一种隐藏页面检测设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至9，和/或权利要求10至14任一项所述隐藏页面检测方法的步骤。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9，和/或权利要求10至14任一项所述隐藏页面检测方法的步骤。