CN113055890A

CN113055890A - 一种面向移动恶意网页的多设备组合优化的实时检测系统

Info

Publication number: CN113055890A
Application number: CN202110249547.5A
Authority: CN
Inventors: 宋军; 杨帆; 郭耀威; 徐衡
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2021-06-29
Anticipated expiration: 2041-03-08
Also published as: CN113055890B

Abstract

本发明提出了一种面向移动恶意网页的多设备组合优化的实时检测系统，该系统由移动端检测、边缘节点检测、服务器端检测组成；本方案用收集到的实验数据集URL作为输入；首先在移动终端上检测URL，并将检测结果与URL链接一起发送到边缘节点；当URL到达边缘节点时，根据移动端检测结果和URL的数量，选择相对应的检测策略，使用更多的计算资源来检测更多可疑URL；在边缘节点和服务器端分别构建了基于CNN‑LSTM的分类模型，通过对原始的输入进行自动提取和特征学习，更准确地对恶意URL进行分类；最后根据深度神经网络预测出的URL良性或恶意的概率p进行判别。本方案在效率和准确性方面均具有较明显的优势。

Description

一种面向移动恶意网页的多设备组合优化的实时检测系统

技术领域

本发明涉及数据安全领域，尤其涉及一种面向移动恶意网页的多设备组合优化的实时检测系统。

背景技术

移动社交网络在丰富人们生活的同时，也带来了许多安全问题。恶意URL是攻击者发起移动社交网络攻击的最常用方法之一。攻击者通过伪装成知名帐户、商品折扣广告或用户好友，骗取用户的信任。诱导用户点击恶意URL链接，打开包含恶意URL的图片，扫描带有恶意URL的二维码。通过这种方式，攻击者对受害者进行钓鱼诈骗，或者将恶意软件嵌入到受害者的计算机，以控制目标主机或执行APT攻击，这将给个人、企业以及政府机构造成巨大损失。如何有效识别移动恶意URL已成为近年来网络安全领域研究和应用的一个热点。

现有的恶意网页检测技术主要存在以下几类问题：首先，现有恶意网页检测方法大多是在服务器端实现，在网络质量不理想的条件下，数据传输延时、检测效率低或传输失效问题严重，例如安一恒通(北京)科技有限公司的工作(CN201510033799.9)；其次，PC端和移动端浏览器在系统内核、事件处理、平台兼容性、使用场景、输入输出方式、网络环境等方面也存在明显差异，上述差异导致传统常见基于PC端的恶意网页检测方法，例如天津大学的工作(CN201510502698.1)，直接迁移到移动端在检测效率和能力方面呈现出明显不足；最后，传统的恶意URL检测方法通常依赖于基于专家输入或使用机器学习技术提取的特征，例如中国科学院信息工程研究所的工作(CN201310507897.2)，这些方法需要构建大量特征集，在实践中可能具有较高的误报率并有许多限制，如网站数量的显著增加和网络流量的变化使得检测恶意URL的过程变得十分复杂。

发明内容

有鉴于此，为了解决现有技术中的不足，本发明提出一种面向移动恶意网页的多设备组合优化的实时检测系统，。

本发明提供的一种面向移动恶意网页的多设备组合优化的实时检测系统，具体包括：

移动端、边缘节点和服务器端；

所述移动端处理实时性大于预设的第一时间阈值T1和荷载量小于预设的第一荷载阈值L1的恶意网页检测任务；

所述边缘节点处理实时性小于或者等于预设的第一阈值T1和荷载量大于或者等于第一荷载阈值L1的恶意网页检测任务；

所述服务器端处理实时性小于预设的第二阈值T2和荷载量大于预设的第二荷载阈值L2的恶意网页检测任务；其中，T2<T1，L1<L2。

进一步地，所述移动端、边缘节点和服务器端组合形成恶意网页检测方法，方法具体包括以下步骤：

S101：获取实验数据集URL链接；

S102：将所述URL链接输入至移动端检测，得到第一检测结果；

S103：将第一检测结果与所述URL链接发送至边缘节点，所述边缘节点根据第一检测结果和URL链接数目，输出检测策略，分配计算资源检测超出移动端荷载量以外的URL连接，并获得第二检测结果；

S104：服务器端接收来自移动端的第一检测结果和边缘节点的第二检测结果，并通过服务器端CNN-LSTM分类模型，对第一检测结果和第二检测结果进行分类，最终输出所有URL链接为恶意的概率p。

进一步地，步骤S103中，所述边缘节点根据URL链接数量和所述第一检测结果，输出检测策略，分配计算资源检测超出移动端荷载量以外的URL连接，具体采用一种弹性检测队列法，如下：

如果在Arr_t_i+T_det时间内，U_i尚未被服务器端检测系统检测到，检测系统将根据待测链接的当前标签从检测队列中删除标记为N的链接，标记为M的链接仍留在队列中继续等待；

其中U_i表示URL链接i，N表示非恶意链接，M表示恶意链接，Arr_t_i表示到达时间，T_det表示不影响用户体验的最大延迟时间。

进一步地，步骤S102中，所述第一检测结果，将输入的URL链接标记为良性URL或者恶意URL。

进一步地，步骤S103中，将第一检测结果与所述URL链接发送至边缘节点，具体为：将标记为恶意的URL链接和超出移动端荷载量的URL链接发送至边缘节点。

进一步地，所述边缘节点也包括CNN-LSTM分类模型，输出对恶意URL的概率p。

进一步地，步骤S103中，所述第二检测结果，包括恶意URL的概率p和超出边缘节点荷载量的URL链接。

步骤S104中，服务器端CNN-LSTM分类模型，对第一检测结果和第二检测结果进行分类，具体为：

S201：将URL链接字符进行one-hot规格化编码，并输入至CNN-LSTM的分类模型；规格化编码如下：

X＝(x₁，x₂，…，x_L)

其中，X为输入至CNN-LSTM的分类模型的向量；

S202：将向量X中的每个one-hot向量投影到d维连续向量空间，得到URL链接字符的嵌入矩阵E如下：

E＝WX＝(w₁，w₂，...，w_d)^T×(x₁，x₂，...，x_L)；

其中W为d维连续向量空间的参数矩阵，W∈R^d×m为一个输入为m个、输出为d个神经元的全连接神经网络。

S203：设置卷积核滑动步长为1，采用relu激活函数，则CNN-LSTM分类模型池化层进行最大池化操作后池化序列矩阵H_p如下所示；

H_p＝{p₁，p₂，...，p_N}

其中，p为池化窗口，p^f为池化窗口向量如下所示：

其中

表示取整；L为URL链接字符串序列的长度；k为字符嵌入向量的窗口大小；

S204：将池化序列矩阵H_p作为LSTM神经网络的输入，其中p_i对应第i个时刻LSTM网络的输入，最终LSTM的输出隐藏状态序列H如下式所示：

H＝{h_i，h₂，...，h_N}；

S205：将输出隐藏状态序列H的最后隐藏状态h_N作为分类层的输入，最后分类层激活函数为sigmoid的softmax回归单元，预测概率p如下式：

其中j＝0表示良性URL，j＝1表示恶意URL；q表示激活函数层的参数量，w_i和b_i分别为激活函数层的权重值与偏置值。

本发明提供的有益效果是：通过探索深度学习模型特征的自动提取，引入边缘计算的思想，同时提出了一种多设备协调优化策略，包括检测队列的调度以及良性标记部分删除机制，实现了一种移动恶意网页实时检测方案。提出的一种基于边缘计算和多设备优化的移动端恶意网页实时检测方案，可达到98.9％的平均准确率，具有较高的计算资源利用率，较传统的单一服务器检测架构检测效率更高，能够降低检测耗时，在检测的准确性方面有较明显优势。

附图说明

图1为本发明实时检测系统框架图；

图2为本发明实时检测系统形成的检测方法的流程图；

图3为弹性检测队列图；

图4为本发明多设备协调并发机制图；

图5为CNN-LSTM分类模型图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

一种面向移动恶意网页的多设备组合优化的实时检测系统，包括以下：

移动端、边缘节点和服务器端；

优选的，移动端的主要是处理实时和荷载较低的任务；边缘节点主要处理实时性要求较低和荷载中等的任务；云端服务器重点处理非实时任务和荷载较高的任务；

移动端、边缘节点和服务器端三者之间的关系请参考图1。基于边缘计算原理，利用边缘设备来分担服务器的计算压力，本发明提出了一种基于边缘计算和多设备优化的移动端恶意网页实时检测框架，分别在移动终端、边缘节点和服务器上部署检测系统，当移动端访问URL链接时，移动端检测系统将对URL进行初步检测并标记，然后将标记结果发送到边缘节点，进而实施更精确的检测。当边缘节点计算资源受限时，服务器将与边缘节点并发进行检测。服务器负责对移动端和边缘节点的检测模型进行训练和更新。

请参考图2，所述移动端、边缘节点和服务器端组合形成恶意网页检测方法，方法具体包括以下步骤：

S101：获取实验数据集URL链接；

S102：将所述URL链接输入至移动端检测，得到第一检测结果；

本发明中，移动端网页检测实验数据集主要来自于PhishTank、joewein以及Alexa全球访问排行榜中的移动版网页，包含25031个移动恶意URL样本和200,000良性移动URL样本。

所述第一检测结果，将输入的URL链接标记为良性URL或者恶意URL；

S103：将第一检测结果与所述URL链接发送至边缘节点，所述边缘节点根据第一检测结果和URL链接数目，输出检测策略，分配计算资源检测超出移动端荷载量以外的URL连接，并获得第二检测结果；所述第二检测结果，包括恶意URL的概率p和超出边缘节点荷载量的URL链接。

所述边缘节点根据URL链接数量和所述第一检测结果，输出检测策略，分配计算资源检测超出移动端荷载量以外的URL连接，具体采用一种弹性检测队列法。

请参考图3，在移动恶意网页实时检测框架中，移动端的主要是处理实时和荷载较低的任务；并将处理实时性要求较低和荷载中等的任务，放到边缘节点上；云端服务器重点处理非实时任务和荷载较高的任务。基于此，本发明提出了一种弹性检测队列的方法，对上述设备进行组合优化，以达到检测性能最优的目的。用U_i代表URL链接i，队列中的每个消息都有一个标签，该标签由移动端检测系统标记，并加入到达边缘节点的时间戳。其中，M表示恶意链接，N表示非恶意链接，Arr_t表示到达时间。有7个待测消息在同一时间到达Arr_t₁：U₁、U₂、U₃、U₄、U₅、U₆、U₇。根据每个消息的标签对这些链接进行排序，并将标记M标签的链接放在队列前端，即优先被检测到。为了提高实时检测能力，本方法中定义T_det变量作为不影响用户体验的最大延迟时间，即待测链接可以在边缘节点上等待检测的时间。待测链接到达边缘节点后即进入计时。例如，三个待测链接在Arr_t₂时间到达服务器，它们的计时器时间将是Arr_t₂+T_det。如果在Arr_t₂+T_det时间内，U₈、U₉、U₁₀尚未被服务器端检测系统检测到，检测系统将根据待测链接的当前标签从检测队列中删除标记为N的U₉、U₁₀，标记为M的U₈仍留在队列中继续等待。

弹性检测伪代码如下：

S104：服务器端接收来自移动端的第一检测结果和边缘节点的第二检测结果，并通过服务器端CNN-LSTM分类模型，对第一检测结果和第二检测结果进行分类，最终输出所有URL链接为恶意的概率p；

步骤S104具体为：

S201：将URL链接字符进行one-hot规格化编码，并输入至CNN-LSTM的分类模型；假定每个URL字符序列长度为L，ASCCI码表作为URL字符映射表，则URL转换为向量X公式如下式所示：

X＝(x₁，x₂，...，x_L)

其中，X为输入至CNN-LSTM的分类模型的向量；

E＝WX＝(w₁，w₂，...，w_d)^T×(x₁，x₂，...，x_L)；

由于one-hot编码的向量X含有很多0，这将会带来稀疏编码且维度过高的问题。因此，将向量X中的每个one-hot向量投影到d维连续向量空间R^d。对应神经网络中的嵌入层，可视为一个输入为m个、输出为d个神经元的全连接神经网络，其参数矩阵为W∈R^d×m；

CNN中卷积层对URL字符嵌入矩阵E进行卷积操作，卷积层设置多个卷积核S，每个卷积核都对窗口大小为k的字符嵌入向量进行卷积从而产生新特征。对于第f个卷积核，其在第i个滑动窗口处的字符向量矩阵E_i如下式所示：

E_i＝{e₁,e₂,...,e_i+k-1}

则卷积核f在第i个滑动窗口处产生的新特征h_i ^f如下式所示：

其中σ为卷积层非线性激活函数，W_f为卷积核权重，b_f为偏置项

H_p＝{p₁，p₂，...，p_N}

其中，p为池化窗口，p^f为池化窗口向量如下所示：

其中

S204：将池化序列矩阵H_p作为LSTM神经网络的输入，其中pi对应第i个时刻LSTM网络的输入，最终LSTM的输出隐藏状态序列H如下式所示：

H＝(h₁，h₂，...，h_N}；

其中j＝0表示良性URL，j＝1表示恶意URL；q表示激活函数层参数量，w_i和b_i分别为激活函数层的权重值与偏置值。

为了描述本发明提出的多设备协调并发策略，请参考图4，并定义以下变量：

Te：移动端和边缘节点完成数据传输所花费的平均时间。

Ts：移动端和服务器完成数据传输所花费的平均时间。

T_tol：用户可以忍受的最大数据传输延迟，可作为一个检测时间窗。

T_Edet：在边缘节点中等待待测URL链接的时间。对于每一个链接，从发送到接收需要两个Te。因此，T_Edet＝T_tol-2*Te。在Te为0条件下，可以得出边缘节点的最大数据传输延迟。

T_Sdet：在服务器中等待检测URL链接的时间。对于每一个链接，从发送到接收需要两个Ts。因此，T_Sdet＝T_tol-2*Ts。在Ts为0条件下，可以得出服务器的最大数据传输延迟。

Num：同时到达边缘节点的URL链接数量，包括Num_m个URL链接和Num_n个URL链接。前者表示移动端检标记为恶意URL链接数量，后者表示由移动终端检测系统标记为非恶意URL链接的数量。

Num_Edet：服务器在T_Edet时段可检测的URL链接数量。

Num_Sdet：服务器在T_Sdet可检测的URL链接数量。

Num_Em：边缘节点检测在T_Edet时段检测到的恶意URL数量。

Num_Sm：服务器端检测在T_Sdet时段检测到的恶意URL数量。

Sum_ES：描述边缘节点和服务器检测能力的数值。

P：根据服务器和边缘节点的算力预估的检测分配比例系数。

为了合理刻画边缘节点和服务器的检测能力，定义Sum_ES：

Sum_ES＝Num_Edet+Num_Sdet (1)

为了合理分配检测队列于边缘节点和服务器端，定义P：

当有Num条URL链接同时到达边缘节点时，其中包括数量为Num_m的恶意URL链接和数量为Num_n的非恶意URL链接。大多数已有检测系统通常都按照URL链接到达服务器的时间顺序检测恶意链接。根据同时到达检测器的URL链接数量，如图4所示，存在以下三种情况：

情况1：当Sum_ES>Num，此时计算资源充足，所有URL链接都将在T_tol时间内完成检测。

情况2：当Num_m<Sum_ES<Num，此时计算资源较充足，边缘节点检测和服务器端检测将并行检测URL链接。(P/(P+1))*Num数量的URL将部署在边缘节点进行检测，(1/(P+1))*Num数量的URL将部署在服务器端进行检测。检测队列可以动态进行调整。例如，Num_m数量标记为恶意的URL和(Sum_Es-Num_m)数量标记为良性的URL将在T_tol时间内完成检测。由于标记为恶意的URL排在检测队列的前面，在检测时间不足的情形下，剩余(Num-Sum_ES)数量标记为良性的URL将可以从检测队列中删除。

情况3：当Sum_ES<Num，表示计算资源不足，边缘节点检测和服务器端检测将并行检测URL链接。其中，(P/(P+1))*Num数量的URL将部署在边缘节点进行检测，(1/(P+1))*Num数量的URL将部署在服务器端进行检测。Sum_ES数量标记为恶意的URL将先进行检测，Num_m-Sum_ES数量的URL将会保留在队列中下一个T_tol时间窗检测。在计算资源不足条件下，Num_n数量标记为良性的URL将会从检测队列中删除。

请参考图5，本发明在边缘节点和服务器分别构建了基于CNN-LSTM的分类模型。卷积神经网络CNN能通过卷积层抽取局部关联性特征，通过池化层降低网络模型复杂度；长短期记忆网络LSTM克服传统循环神经网络RNN中“梯度弥散”的问题，能检测序列中的语义和长程依赖关系。利用两者之间的优势，设计高精度检测模型。

本发明提供的有益效果是：首先引入了边缘计算的思想，然后利用深度学习模型特征的自动提取，代替了以前的手工特征提取。同时提出了一种多设备协调优化策略，包括检测队列的调度以及良性标记部分删除机制，实现了一种移动恶意网页实时检测方案。本方案可达到98.9％的平均准确率，具有较高的计算资源利用率，较传统的单一服务器检测架构检测效率更高，能够降低检测耗时，在检测的准确性方面有较明显优势。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向移动恶意网页的多设备组合优化的实时检测系统，其特征在于：具体包括：移动端、边缘节点和服务器端；

2.如权利要求1所述的一种面向移动恶意网页的多设备组合优化的实时检测系统，其特征在于：所述移动端、边缘节点和服务器端组合形成恶意网页检测方法，方法具体包括以下步骤：

S101：获取实验数据集URL链接；

S102：将所述URL链接输入至移动端检测，得到第一检测结果；

3.如权利要求2所述的一种面向移动恶意网页的多设备组合优化的实时检测系统，其特征在于：步骤S103中，所述边缘节点根据URL链接数量和所述第一检测结果，输出检测策略，分配计算资源检测超出移动端荷载量以外的URL连接，具体采用一种弹性检测队列法，条件如下：

4.如权利要求2所述的一种面向移动恶意网页的多设备组合优化的实时检测系统，其特征在于：步骤S102中，所述第一检测结果，将输入的URL链接标记为良性URL或者恶意URL。

5.如权利要求4所述的一种面向移动恶意网页的多设备组合优化的实时检测系统，其特征在于：步骤S103中，将第一检测结果与所述URL链接发送至边缘节点，具体为：将标记为恶意的URL链接和超出移动端荷载量的URL链接发送至边缘节点。

6.如权利要求4所述的一种面向移动恶意网页的多设备组合优化的实时检测系统，其特征在于：所述边缘节点也包括CNN-LSTM分类模型，输出对恶意URL的概率p。

7.如权利要求6所述的一种面向移动恶意网页的多设备组合优化的实时检测系统，其特征在于：步骤S103中，所述第二检测结果，包括恶意URL的概率p和超出边缘节点荷载量的URL链接。

8.如权利要求5所述的一种面向移动恶意网页的多设备组合优化的实时检测系统，其特征在于：步骤S104中，服务器端CNN-LSTM分类模型，对第一检测结果和第二检测结果进行分类，具体为：

X＝(x₁，x₂，...，x_L)

其中，X为输入至CNN-LSTM的分类模型的向量；

E＝WX＝(w₁，w₂，...，w_d)^T×(x₁，x₂，...，x_L)；

H_p＝{p₁，p₂，...，p_N}

其中，p为池化窗口，p^f为池化窗口向量如下所示：

其中

H＝{h₁，h₂，...，h_N}；