CN116912669B

CN116912669B - 一种网页劫持监测方法、系统、电子设备和存储介质

Info

Publication number: CN116912669B
Application number: CN202311160778.4A
Authority: CN
Inventors: 冯宾; 吴彻; 牛理华
Original assignee: ARTICLE NUMBERING CENTER OF CHINA
Current assignee: ARTICLE NUMBERING CENTER OF CHINA
Priority date: 2023-09-11
Filing date: 2023-09-11
Publication date: 2023-11-28
Anticipated expiration: 2043-09-11
Also published as: CN116912669A

Abstract

本发明公开了一种网页劫持监测方法、系统、电子设备和存储介质。根据客户端类型占比，设置多个虚拟客户端；将每个虚拟客户端按照预设的访问策略对目标网页进行访问，得到每次访问对应的访问图像；将每个访问图像分别输入压缩编码模型，分别得到对应的访问图像压缩编码；分别确定每个访问图像压缩编码和其他访问图像压缩编码的重复度，当任一访问图像压缩编码重复度低于第一阈值时，判定目标网页遭到劫持。能够对目标网页遭到劫持进行准确判断，能够对任何方式的网页劫持进行监测，包括但不限于未知的网页劫持方式，极大地增强了目标网页的安全监测能力，当网页发生劫持时，能第一时间作出判定，便于及时采取应对措施，比人工监测更加及时准确。

Description

一种网页劫持监测方法、系统、电子设备和存储介质

技术领域

本发明涉及计算机技术领域，特别涉及一种网页劫持监测方法、系统、电子设备和存储介质。

背景技术

随着网络通信的发展，网络安全愈加重要。网页劫持是指通过篡改访问请求等方式，将网页访问者引导向其他网页，是一种常见的影响网络安全的恶意行为。目前对网页劫持进行监测的技术包括，基于对浏览器执行代码进行判断，或对客户端网络数据进行监测，但是上述技术方案相当于一种白盒测试，监测方基于自己认识范围内可能的网页劫持方式，设置相应的监测方案，因而对未知的网页劫持方式缺乏监测能力，往往需要人工监测。

发明内容

为了解决上述问题，发明人做出本发明，通过具体实施方式，提供一种网页劫持监测方法、系统、电子设备和存储介质。

第一方面，本发明实施例提供一种网页劫持监测方法，包括以下步骤：

根据客户端类型占比，设置多个虚拟客户端；

将每个虚拟客户端按照预设的访问策略对目标网页进行访问，得到每次访问对应的访问图像；

将每个访问图像分别输入压缩编码模型，分别得到对应的访问图像压缩编码；

分别确定每个访问图像压缩编码和其他访问图像压缩编码的重复度，当任一访问图像压缩编码的重复度低于第一阈值时，判定目标网页遭到劫持。

具体的，确定客户端类型占比，包括以下步骤：

将用户按照安全要求级别进行分类，并确定每类用户占比；

收集每类用户不同网页客户端类型使用比例；

将每类用户占比分别乘以对应的安全系数，得到每类用户安全权重；

根据每类用户安全权重和每类用户不同网页客户端类型的使用比例，确定每种网页客户端类型监测权重；

根据每种网页客户端类型监测权重，确定客户端类型占比。

具体的，根据客户端类型占比，设置多个虚拟客户端，包括以下步骤：

根据每种客户端类型，分别设置多种虚拟客户端；

按照客户端类型占比，设置每种虚拟客户端的数量。

具体的，确定访问策略，包括以下步骤：

将自然日分成多个时段，按照目标网页历史访问记录中的访问次数比例，设置每个时段的访问次数，虚拟客户端按照每个时段的访问次数进行访问；

根据网页劫持历史数据，确定危险时段和安全时段，增加危险时段的访问次数，减少安全时段的访问次数；

设置访问时间间隔阈值，当访问目标网页超过预设时长未收到网页文件时，虚拟客户端暂停按照每个时段的访问次数进行访问，每隔访问时间间隔阈值，进行一次访问，当连续访问达预设次数条件且未收到网页文件时，判定目标网页遭到劫持。

具体的，确定每个访问图像压缩编码和其他访问图像压缩编码的重复度，包括以下步骤：

确定每个访问图像压缩编码的长度，对比每个访问图像压缩编码和其他每个访问图像压缩编码的长度，当存在长度不同的访问图像压缩编码时，将每个访问图像压缩编码和其他每个访问图像压缩编码长度差的最大值的倒数，确定为对应访问图像压缩编码的第一对比值；

确定每个访问图像压缩编码和其他每个访问图像压缩编码的相同部分的长度，将相同部分最小长度占对应访问图像压缩编码长度的比值，确定为对应访问图像压缩编码的第二对比值；

将每个访问图像压缩编码第一、第二对比值中的较小值，确定为对应访问图像压缩编码的重复度。

具体的，对比每个访问图像压缩编码和其他每个访问图像压缩编码的长度，包括以下步骤：

将每两个访问图像压缩编码进行组合；

确定每个组合中两个访问图像压缩编码的长度；

当任一组合中两个访问图像压缩编码的长度不同时，确定存在长度不同的访问图像压缩编码。

具体的，确定每个访问图像压缩编码和其他每个访问图像压缩编码的相同部分的长度，包括以下步骤：

将每两个访问图像压缩编码进行组合；

将第一访问图像压缩编码的每一位分别和第二访问图像压缩编码的第一位对应，每次对应后，逐位对比对应位，直到第一访问图像压缩编码的最后一位对比完成，其中第二访问图像压缩编码没有对应位的，设为对比不同，记录第一访问图像压缩编码的每一位对应的连续相同最大位数；

并且，将第二访问图像压缩编码的每一位分别和第一访问图像压缩编码的第一位对应，每次对应后，逐位对比对应位，直到第二访问图像压缩编码的最后一位对比完成，其中第一访问图像压缩编码没有对应位的，设为对比不同，记录第二访问图像压缩编码的每一位对应的连续相同最大位数；

分别将每个组合中的连续相同最大位数的最大值，确定为对应的两个访问图像压缩编码相同部分的长度。

第二方面，本发明实施例提供一种网页劫持监测系统，包括：

虚拟客户端设置模块，用于根据客户端类型占比，设置多个虚拟客户端；

访问图像生成模块，用于将每个虚拟客户端按照预设的访问策略对目标网页进行访问，得到每次访问对应的访问图像；

网页劫持判定模块，用于将每个访问图像分别输入压缩编码模型，分别得到对应的访问图像压缩编码；分别确定每个访问图像压缩编码和其他访问图像压缩编码的重复度，当任一访问图像压缩编码的重复度低于第一阈值时，判定目标网页遭到劫持。

基于同一发明构思，本发明实施例还提供一种电子设备，包括：存储器、处理器及存储于存储器上并在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述的网页劫持监测方法。

基于同一发明构思，本发明实施例还提供一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令执行时实现前述的网页劫持监测方法。

本发明实施例提供的上述技术方案的有益效果至少包括：

通过对比虚拟客户端的访问图像，能够对目标网页遭到劫持进行准确判断，能够对任何方式的网页劫持进行监测，包括但不限于未知的网页劫持方式，极大地增强了目标网页的安全监测能力，当网页发生劫持时，能第一时间作出判定，便于及时采取应对措施，比人工监测更加及时准确。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种网页劫持监测方法流程图；

图2为本发明实施例中一种网页劫持监测系统框图；

图3为本发明实施例中一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了解决现有技术中存在的问题，本发明实施例提供一种网页劫持监测方法、系统、电子设备和存储介质。

本发明实施例提供一种网页劫持监测方法，其流程如图1所示，包括如下步骤：

步骤S1：根据客户端类型占比，设置多个虚拟客户端。

在一些具体的实施例中，确定客户端类型占比，包括以下步骤：

将用户按照安全要求级别进行分类，并确定每类用户占比。例如按照用户的安全需求，将用户安全要求级别分为X1、X2、X3三个级别，对应的，将用户分为X1、X2、X3类。本发明的实施中，并不限于三个安全级别和三类用户，可以为｛X1，X2，X3，…，Xn｝任意多类。

收集每类用户不同网页客户端类型使用比例。例如，如表1所示，网页客户端类型有A、B、C三种，X1用户中网页客户端A的使用比例为20%，B占30%，C占50%，X2用户中网页客户端使用比例为A占30%，B占60%，C占10%，X3用户中网页客户端使用比例为A占20%，B占30%，C占50%。本发明的实施中，不限于三种网页客户端类型，根据实际情况可以有更多，如X1用户每种网页客户端类型对应的使用比例为｛AX1，BX1，CX1，…，N1X1｝，X2用户每种网页客户端类型对应的使用比例为｛AX2，BX2，CX2，…，N2X2｝，X3用户每种网页客户端类型对应的使用比例为｛AX3，BX3，CX3，…，N3X3｝。

表 1 用户和客户端比例表

根据表1可得，所有用户中使用网页客户端A的用户占比为（30×20%+60×30%+10×60%）= 30%，所有用户中使用网页客户端B的用户占比为（30×30%+60×60%+10×20%）=47%，所有用户中使用网页客户端C的用户占比为（30×50%+60×10%+10×20%）= 23%。

将每类用户占比分别乘以对应的安全系数，得到每类用户安全权重。对安全要求高的用户，需要生成更多的虚拟客户端，以增加对目标网页访问的监测能力，因此将用户占比用安全系数修正，得到每类用户的权重。例如，X1、X2、X3类用户占比分别为30%、60%和10%，X1用户安全需求最低，将其安全系数设为1，X2用户安全需求高于X1用户且低于X3用户，将X2用户安全系数设为2，X3用户安全需求最高，将其安全系数设为3，则X1、X2、X3类用户安全权重分别为30%×1=30%，60%×2=120%，10%×3=30%，其比例也就是1：4：1。

根据每类用户安全权重和每类用户不同网页客户端类型的使用比例，确定每种网页客户端类型监测权重。如表2所示，X1、X2、X3类用户安全权重分别为30%、120%和30%，将每类用户安全权重分别乘以同类用户每种网页客户端类型的使用比例，将同种网页客户端使用比例和用户安全权重的乘积求和，得到每种网页客户端类型监测权重，也就是，网页客户端A监测权重为（30×20%+120×30%+30×60%）= 60%，所有用户中使用网页客户端B的用户占比为（30×30%+120×60%+30×20%）= 87%，所有用户中使用网页客户端C的用户占比为（30×50%+120×10%+10×20%）= 29%

表 2 用户安全权重和客户端比例表

根据每种网页客户端类型监测权重，确定客户端类型占比。通过使用每种网页客户端类型监测权重，确定客户端类型占比，比直接采用每种网页客户端用户占比，确定客户端类型占比，能综合反映用户比例和安全需求，比单纯采用每种网页客户端用户占比确定客户端类型占比，更加合理，有利于后续监测资源的合理调度。

在一些具体的实施例中，根据客户端类型占比，设置多个虚拟客户端，包括以下步骤：

根据每种客户端类型，分别设置多种虚拟客户端；按照客户端类型占比，设置每种虚拟客户端的数量。根据客户端类型占比，设置虚拟客户端的种类和数量，能够对监测资源进行更合理的调度，有利于增强监测能力。根据网络和服务器情况，可设置虚拟客户端数量上限，以平衡资源配置，避免网页安全监测占用过多资源，影响正常访问。

步骤S2：将每个虚拟客户端按照预设的访问策略对目标网页进行访问，得到每次访问对应的访问图像。例如，在每个虚拟客户端中，设定访问图像模型，自动读取需要爬取的url，用shell（计算机壳层）启动浏览器，把url作为参数传入，判断页面加载完毕，读取屏幕像素，剪切成需要的大小，保存成图像。

在一些具体的实施例中，确定访问策略，包括以下步骤：

根据网页劫持历史数据，确定危险时段和安全时段，增加危险时段的访问次数，减少安全时段的访问次数；但是每个时段的访问次数至少为1。同时，也可以根据网络情况，设置每个时段的访问次数的上限，对不同时段分别设置0至1之间的系数，通过系数乘以访问次数上限，然后取整，确定对应时段的访问次数，取整后本时段访问次数为0的，改为本时段访问次数为1。

设置访问时间间隔阈值，当访问目标网页超过预设时长未收到网页文件时，虚拟客户端暂停按照每个时段的访问次数进行访问，每隔访问时间间隔阈值，进行一次访问，当连续访问达预设次数条件且未收到网页文件时，判定目标网页遭到劫持。例如，当超过2000ms未收到网页文件时，停止按预设的访问次数进行访问，改为间隔访问，每间隔10000ms访问一次，若连续三次间隔访问都为在2000ms内未收到反馈的网页文件，则判定目标网页遭到劫持。

步骤S3：将每个访问图像分别输入压缩编码模型，分别得到对应的访问图像压缩编码。将每个访问图像通过截取、平移、伸缩、旋转、对准等方式整理为相同分辨率，尺寸比例相同的图像，分别输入同一压缩编码模型，相同图像的压缩编码完全相同，图像差异越大，压缩编码的差异越大。

可选用的图像压缩算法有多种，例如多层感知机（Multi-Layer Perceptron，MLP）和生成对抗网络（GAN）等，对图像进行压缩编码，可更加用户安全需求、服务器和网络情况确定相应的图像压缩算法，用户安全需求越高，图像压缩率越低，图像压缩后和原图的差别越小。其中，GAN是一种神经网络结构，通过两个神经网络相互竞争来生成更精确的分析和预测。基于GAN的压缩算法使用并行化处理来实现实时压缩，其主要原理是基于最相关的特征来压缩图片。在解码过程中，算法根据这些特征来重建图像。与基于传统CNN算法相比，基于GAN的压缩算法通过消除对抗损失可以生成更高质量的图像。这种算法在文件压缩比方面表现出色，超过了其他常见方法（如JPEG、WebP等）的2.5倍。

步骤S4：分别确定每个访问图像压缩编码和其他访问图像压缩编码的重复度，当任一访问图像压缩编码的重复度低于第一阈值时，判定目标网页遭到劫持。因为目标网页的内容固定，所以多种虚拟客户端访问图像应该一致，客户端类型不同而造成的访问图像差异仅占整个图像的一小部分，又因为图像差异越大，压缩编码的差异越大，所以通过确定访问图像压缩编码的重复度，就能对访问图像的差异情况进行判断。因此，当有任一访问图像和其他访问图像重复度较小，也就是差异较大时，该访问图像或其他访问图像对应的客户端必然是访问了被劫持后的内容，也就可以确定发生了网页劫持。

在一些具体的实施例中，确定每个访问图像压缩编码和其他访问图像压缩编码的重复度，包括以下步骤：

确定每个访问图像压缩编码的长度，对比每个访问图像压缩编码和其他每个访问图像压缩编码的长度，当存在长度不同的访问图像压缩编码时，将每个访问图像压缩编码和其他每个访问图像压缩编码长度差的最大值的倒数，确定为对应访问图像压缩编码的第一对比值；例如a、b、c三个访问图像压缩编码，长度分别为3089、3090、3100，两两组合，分为ab、ac、bc三组，ab组中a和b的长度差为1，ac组中a和c的长度差为11，11是a分别和b、c的长度差的最大值，因此a的第一对比值为1/11。

确定每个访问图像压缩编码和其他每个访问图像压缩编码的相同部分的长度，将相同部分最小长度占对应访问图像压缩编码长度的比值，确定为对应访问图像压缩编码的第二对比值；例如访问图像压缩编码a和b的相同部分长度为3010，a和c的相同部分长度为3020，因此，3010/3089是a和其他访问图像压缩编码的相同部分最小长度，将3010/3089确定为访问图像压缩编码a的第二对比值。

将每个访问图像压缩编码第一、第二对比值中的较小值，确定为对应访问图像压缩编码的重复度。例如，a的第一对比值1/11，小于访问图像压缩编码a的第二对比值3010/3089，因此，将第一对比值1/11确定为访问图像压缩编码a的重复度。

在一些具体的实施例中，对比每个访问图像压缩编码和其他每个访问图像压缩编码的长度，包括以下步骤：

将每两个访问图像压缩编码进行组合；

确定每个组合中两个访问图像压缩编码的长度；

在一些具体的实施例中，确定每个访问图像压缩编码和其他每个访问图像压缩编码的相同部分的长度，包括以下步骤：

将每两个访问图像压缩编码进行组合；

例如，从访问图像压缩编码a的第一位开始，逐位对比访问图像压缩编码b的每一位，直到访问图像压缩编码a的最后一位对比完成，记录从访问图像压缩编码a第一位开始对比的连续相同的最大位数，

从访问图像压缩编码a的第二位开始，逐位对比访问图像压缩编码b的每一位，直到访问图像压缩编码a的最后一位对比完成，记录从访问图像压缩编码a第二位开始对比的连续相同的最大位数，

从访问图像压缩编码a的第三位开始，再进行上述对比，直到进行完从访问图像压缩编码a的最后一位开始的对比。但是为了节省算力资源，通常只进行访问图像压缩编码的前三分之一或二分之一位数开始的对比即可，例如访问图像压缩编码c有3100位，只进行从第1位到第1550位开始的对比。

分别将每个组合中的连续相同最大位数的最大值，确定为对应的两个访问图像压缩编码相同部分的长度。例如，以a为第一访问图像压缩编码开始对比，组合a和b的连续相同最大位数为3010，以b为第一访问图像压缩编码开始对比，组合a和b的连续相同最大位数为3009，3010是连续相同最大位数的最大值，那么3010就是访问图像压缩编码a和b相同部分的长度。为了方便说明，假设访问图像编码仅有3位，访问图像压缩编码M为RST，访问图像压缩编码N为STR，如果M为第一访问图像压缩编码开始对比，从M第1位开始的对比，如表3所示，M第一位R对比N第一位S，M第二位S对比N第二位T，M第三位T对比N第三位R，都不同，所以连续相同位数为0。

表 3 M为第一访问图像压缩编码从第一位开始对比

如果M为第一访问图像压缩编码开始对比，从M第2位开始的对比，如表4所示，此时，连续相同位数为2。

表 4 M为第一访问图像压缩编码从第二位开始对比

如果M为第一访问图像压缩编码开始对比，从M第3位开始的对比，如表5所示，此时，连续相同位数为0。

表 5 M为第一访问图像压缩编码从第三位开始对比

综上，如果M为第一访问图像压缩编码开始对比，M和N的连续相同最大位数为2。

如果N为第一访问图像压缩编码开始对比，从N第1位开始的对比，如表6所示，N第一位S对比M第一位R，N第2位T对比M第2位S，N第三位R对比M第三位T，都不同，所以连续相同位数为0。

表 6 N为第一访问图像压缩编码从第一位开始对比

如果N为第一访问图像压缩编码开始对比，从N第2位开始的对比，如表7所示，此时，连续相同位数为0。

表 7 N为第一访问图像压缩编码从第二位开始对比

如果N为第一访问图像压缩编码开始对比，从N第3位开始的对比，如表8所示，此时，连续相同位数为0。

表 8 N为第一访问图像压缩编码从第三位开始对比

综上，如果N为第一访问图像压缩编码开始对比，M和N的连续相同最大位数为0。

所以组合M和N中的连续相同最大位数的最大值为2，访问图像压缩编码组合M和N相同部分的长度确定为2。

本实施例的上述方法中，通过对比虚拟客户端的访问图像，能够对目标网页遭到劫持进行准确判断，能够对任何方式的网页劫持进行监测，包括但不限于未知的网页劫持方式，极大地增强了目标网页的安全监测能力，当网页发生劫持时，能第一时间作出判定，便于及时采取应对措施，比人工监测更加及时准确。

本领域技术人员能够对上述顺序进行变换而并不离开本公开的保护范围。

本发明另一实施例提供一种网页劫持监测系统，其结构如图2所示，包括：

关于上述实施例中的系统，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本实施例中，通过对比虚拟客户端的访问图像，能够对目标网页遭到劫持进行准确判断，能够对任何方式的网页劫持进行监测，包括但不限于未知的网页劫持方式，极大地增强了目标网页的安全监测能力，当网页发生劫持时，能第一时间作出判定，便于及时采取应对措施，比人工监测更加及时准确。

基于同一发明构思，本发明实施例还提供一种电子设备，其结构如图3所示，包括：存储器、处理器及存储于存储器上并在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述的网页劫持监测方法。

基于同一发明构思，本发明实施例还提供一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现前述的网页劫持监测方法。

凡在本发明的原则范围内做的任何修改、补充和等同替换等，均应仍归属于本发明的专利涵盖范围内。

Claims

1.一种网页劫持监测方法，其特征在于，包括以下步骤：

根据客户端类型占比，设置多个虚拟客户端；

将每个访问图像压缩编码第一、第二对比值中的较小值，确定为对应访问图像压缩编码的重复度，当任一访问图像压缩编码的重复度低于第一阈值时，判定目标网页遭到劫持。

2.如权利要求1所述的方法，其特征在于，确定客户端类型占比，包括以下步骤：

将用户按照安全要求级别进行分类，并确定每类用户占比；

收集每类用户不同网页客户端类型使用比例；

根据每种网页客户端类型监测权重，确定客户端类型占比。

3.如权利要求1所述的方法，其特征在于，根据客户端类型占比，设置多个虚拟客户端，包括以下步骤：

根据每种客户端类型，分别设置多种虚拟客户端；

按照客户端类型占比，设置每种虚拟客户端的数量。

4.如权利要求1所述的方法，其特征在于，确定访问策略，包括以下步骤：

5.如权利要求1所述的方法，其特征在于，对比每个访问图像压缩编码和其他每个访问图像压缩编码的长度，包括以下步骤：

将每两个访问图像压缩编码进行组合；

确定每个组合中两个访问图像压缩编码的长度；

6.如权利要求1所述的方法，其特征在于，确定每个访问图像压缩编码和其他每个访问图像压缩编码的相同部分的长度，包括以下步骤：

将每两个访问图像压缩编码进行组合；

7.一种网页劫持监测系统，其特征在于，包括：

网页劫持判定模块，用于将每个访问图像分别输入压缩编码模型，分别得到对应的访问图像压缩编码；确定每个访问图像压缩编码的长度，对比每个访问图像压缩编码和其他每个访问图像压缩编码的长度，当存在长度不同的访问图像压缩编码时，将每个访问图像压缩编码和其他每个访问图像压缩编码长度差的最大值的倒数，确定为对应访问图像压缩编码的第一对比值；确定每个访问图像压缩编码和其他每个访问图像压缩编码的相同部分的长度，将相同部分最小长度占对应访问图像压缩编码长度的比值，确定为对应访问图像压缩编码的第二对比值；将每个访问图像压缩编码第一、第二对比值中的较小值，确定为对应访问图像压缩编码的重复度，当任一访问图像压缩编码的重复度低于第一阈值时，判定目标网页遭到劫持。

8.一种电子设备，其特征在于，包括：存储器、处理器及存储于存储器上并在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至6任一所述的网页劫持监测方法。

9.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令执行时实现权利要求1至6任一所述的网页劫持监测方法。