CN110766165B

CN110766165B - 用于恶意url检测的在线主动机器学习方法

Info

Publication number: CN110766165B
Application number: CN201911010913.0A
Authority: CN
Inventors: 王子涵; 翟婷婷
Original assignee: Yangzhou University
Current assignee: Yangzhou University
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2023-08-08
Anticipated expiration: 2039-10-23
Also published as: CN110766165A

Abstract

本发明公开了机器学习和网络信息安全技术领域内的一种用于恶意URL检测的在线主动机器学习方法，包括以下步骤：步骤1）当互联网用户要访问一个URL时，利用自动特征提取器，对该URL进行特征提取，构成该URL的特征向量；步骤2）使用分类器对特征向量进行在线预测，判断是否为恶意；步骤3）在线预测结束后，进入标记决策阶段，判断是否对当前的URL进行标记，得到决策变量；步骤4）获得完整的URL数据信息后，利用在线模型更新程序修正当前的分类器，得到最新的分类器；步骤5）回到步骤1），等待用户浏览器发出新一轮URL请求，本发明在同等的标记选择比率下，能取得更高的在线检测准确率。

Description

用于恶意URL检测的在线主动机器学习方法

技术领域

本发明涉及一种在线主动机器学习方法，特别涉及用于恶意URL检测的在线主动机器学习方法，属于机器学习和网络信息安全技术领域。

背景技术

21世纪，互联网信息技术的飞速发展不仅为全球商业带来巨大的盈利机会，也为犯罪分子们创造了新的商机。互联网上每天产生的大量网站中很多是恶意网站，例如欺诈网站贩卖假冒伪劣产品，钓鱼网站试图骗取用户的特定敏感信息以谋取利益，流氓网站在用户的操作系统中安装恶意软件等。尽管犯罪形式多种多样，但是这些犯罪活动有一个共同点，就是通过一个URL(统一资源定位符)将用户带到恶意网站进而实施犯罪活动。事实上到目前为止，恶意网站已经给大量的用户带来了巨额的财产损失，因此有效识别或检测恶意网站是一个重要的互联网安全问题。

目前在浏览器和网页过滤器中广泛应用的恶意URL检测技术是黑名单方法，该方法维护一个已知的恶意URLs列表，通过查询一个URL是否在黑名单中来判断该URL是否是恶意的。由于查询的开销小，黑名单方法非常高效。但是互联网上每天都会生成大量新的URL，而黑名单很难做到实时更新，因此黑名单不能检测到互联网上新生成的恶意URL，容易使用户曝露在新的威胁中。

为解决上述问题，研究人员开始应用机器学习技术进行恶意URLs检测。一类方法将URLs检测建模为全监督的离线分类问题：搜集大量的URLs数据，进行标记、特征提取，构造一个训练数据集，然后基于该数据集训练一个二分类器来识别URL是否是恶意的。这类方法的缺点是：1)可拓展性差，难以处理海量的URLs数据；2)恶意URLs的特征会随着时间发生变化，而以离线方式训练得到的分类器由于是在旧的URLs数据集上训练得到的，不能适应最新的数据变化，其性能会逐渐退化。

另一类方法将URLs检测建模为全监督的在线分类问题，以数据流的形式增量处理每个URLs数据：在访问一个新的URL前，运用当前分类器对该URL特征提取后得到的特征向量进行在线预测，以识别该URL是否是恶意的，当获得该URLs的真实类标签(恶意或正常)后，对当前分类器进行增量更新，以提高其未来的预测性能。在线方法不需要对已经处理过的URLs数据进行存储和再处理，因此是内存高效的方法，可扩展性好。同时，由于不断利用最新的数据在线更新预测模型，在线方法能适应URLs数据的变化。

上述的离线方法和在线方法都是全监督的，都需要依赖大量已标记的正常和恶意URLs数据才能构建一个好的分类模型，而对URLs进行可靠标记经常需要花费大量的人力资源，尤其是有时需要网络安全专家的介入，导致数据标记的代价太大。

为减少标记的代价，研究人员最近开始探索如何使用少量标记的URLs数据来构建一个好的分类模型，即在线主动机器学习方法。该方法与全监督的在线学习方法的差别在于：在主动学习的设置中，在线预测结束后，算法需要做出决定是否对当前的URL进行标记。如果决定标记，就可以利用该URL的完整信息更新预测模型；否则，不更新预测模型。

现有的在线主动机器学习方法存在的缺点是：选择是否对一个URL进行标记时，仅考虑对该URL预测的不确定程度或置信度，没有考虑该URLs的特征向量本身包含的特征的辨别能力。事实上，最近的研究已经表明，不频繁出现的特征往往更具有信息量和识别能力，有助于提高预测性能，因此包含很多不频繁出现的特征的URL在标记策略中应当予以更多的关注。

发明内容

本发明的目的是提供一种用于恶意URL检测的在线主动机器学习方法，该方法能综合利用预测的不确定性和URLs特征的辨别能力来指导URLs标记选择，使得即使利用少量标记过的关键数据，方法仍能够取得好的检测性能。

本发明的目的是这样实现的：一种用于恶意URL检测的在线主动机器学习方法，包括以下步骤：

步骤1)第t轮，t＝1,2,…∞，当互联网用户要访问一个URL时，首先利用自动特征提取器，对该URL进行分析，提取出词汇特征、基于主机的特征和DNS特征，将所有的特征连接在一起，构成该URL的特征向量x_t；

步骤2)使用最新的分类器w_t对x_t进行在线预测：其中sgn是符号函数；如果/>则预测该URL是恶意的，向用户发出警告；否则，预测该URL是正常的；

步骤3)在线预测结束后，进入标记决策阶段，判断是否对当前的URL进行标记；记Z_t表示标记决策变量；如果Z_t＝1，则请网络安全专家进行标记，从而得到该URL的真实类标记y_t∈{+1,-1}；如果Z_t＝0，则决定不标记，不更新在线分类器，然后进入到步骤(5)；

步骤4)获得完整的URL数据信息(x_t,y_t)后，利用在线模型更新程序修正当前的分类器w_t，得到最新的分类器w_t+1；

步骤5)回到步骤(1)，等待用户浏览器发出第t+1轮的URL请求。

自动特征抽取程序负责从用户请求的URL中提取关键特征，转化为URL对应的特征向量；本发明可以采用任意现存的URL自动特征抽取技术，抽取3种类型的特征：a)基于URL字符串提取出的词汇特征，如主机名、顶级域名、主域名、主机名长度等；b)利用网页自动爬虫工具获得的URL对应的网站所在的主机特征，如域名注册人、主机地理位置、IP地址前缀等、网站连接速度等；c)与DNS有关的特征，如生存周期值TTL等。所抽取的特征不限于上述类型，主要依赖于使用的特征抽取方法。通过将不同类型的特征组合在一起，得到当前URL的特征表示向量x_t。

作为本发明的进一步限定，步骤3)中标记决策程序具体步骤如下：

3-1)接收到当前URL的特征向量x_t；

3-2)计算其中w_t是当前的预测模型，矩阵H_t-1是自适应次梯度算法中所维护的对角矩阵，存储当前特征的频度信息以衡量特征的辨别能力；

3-3)令_t＝p_t-v_t；

3-4)如果γ_t＞0，则从参数为δ/δ+γ_t)的伯努利分布中提取一个随机量Z_t∈{0,1}；如果γ_t≤0，则Z_t＝1；其中δ＞0是采样参数；

步骤3-2)中，p_t表示当前x_t被预测的置信度，p_t的值越小，表明预测的置信度越小；v_t则表示当前x_t中特征的辨别能力，v_t的值越小，意味着x_t中的非零特征出现的频率越高，表明x_t中特征的辨别能力越弱；当x_t被预测的置信度p_t较小，同时x_t包含的特征辨别能力v_t较大时，根据步骤3-4)的采样规则，x_t被标记的概率就越大，特别地，当v_t很大时，即v_t＞p_t时，则直接决定对x_t进行标记。

标记决策程序旨在选择关键的URL进行标记，使得方法即便使用少量已标记的URL数据信息仍能学习到一个好的分类模型；绝大部分现有的方法基于不确定性采样来进行标记选择：利用当前URL的特征向量x_t到当前预测模型w_t的距离，即来衡量预测的不确定性程度，然后从参数为δ/(δ+p_t)的伯努利分布中提取一个随机量Z_t∈{0,1}，其中δ＞0是一个用户预定义的采样参数，用于控制标记查询比例；观察到，此种标记选择策略仅仅关注当前预测置信度不高的URLs。

作为本发明的进一步限定，步骤4)的具体步骤如下：

4-1)接收到完整的URL数据信息(x_t,y_t)；

4-2)计算得到损失函数f_t(w)在当前w_t处的次梯度其中f_t(w)＝max{0,1-y_tw^Tx_t}是铰链损失，衡量对(x_t,y_t)预测的不准确程度；

4-3)将t＝1时刻到当前时刻所获得的所有次梯度信息g_t都存储在矩阵G_1:t＝[g₁g₂ … g_t]中，根据该矩阵计算每个特征i的频度信息s_t,i＝||G_1:,i||₂，其中G_1:t,i表示矩阵G_1:t的第i个行向量，s_t,i是向量s_t的第i个元素；

4-4)将特征频度信息存储在对角矩阵H_t＝αI+diag(s_t)中，其中diag(s_t)表示将向量s_t的每个元素依次放在对角矩阵的主对角线上，α是一个预定义常数，I是单位阵；

4-5)设置函数ψ_t(w)＝(1/2)w^TH_tw，选择如下一种更新规则对预测模型进行在线更新：

(a)ARDA更新规则：

(b)ACMD更新规则：

其中η是学习步长；函数是正则化函数，用于控制模型w的复杂度，参数λ是一个预定义的常数；/>表示截止到t时刻邀请专家进行标记的次数，k为迭代变量；/>是w和w_t之间关于函数ψ_t的Bregman距离，定义如下：

其中表示函数ψ_t在w_t处的梯度。

在线模型更新程序旨在利用最新获得的完整URL数据信息来改进当前的预测模型，使得方法能适应最新的URL数据特征的变化；本发明改进Duchi等人提出的两个自适应次梯度算法作为在线模型更新程序，两个算法分别是自适应正则化对偶平均算法(Adaptive Regularized Dual Averaging，简称ARDA)和自适应组合镜像下降算法(Adaptive Composite Mirror Descent，简称ACMD)，属于全监督的算法，都能收敛到假设空间中的最优预测模型；将ARDA和ACMD算法分别拓展到URL标记信息受限的主动学习设置中。

作为本发明的进一步限定，在运行前需要对在线预测模型和频度信息矩阵进行初始化，包括两种初始化方法：一种是没有任何先验知识的情况下，直接令w₁＝0和H₀＝αI，此时方法从零开始学习；另一种是利用用户黑名单列表中的信息构建一个同时包含恶意和正常URLs的训练集，基于该训练集利用全监督的自适应次梯度算法得到初始预测模型w₁和H₀。

与现有技术相比，本发明的有益效果在于，标记决策程序选择标记的URL更关键，能显著提高在线分类器的性能，从而使得在同等的URL标记比率下，取得比现有的在线主动学习方法更高的在线检测准确率；此外本发明方法使用极少的URL标记信息取得的在线预测准确率可比于全监督的自适应次梯度方法使用所有的URL标记信息取得的在线预测准确率。

附图说明

图1为本发明工作流程图。

图2为本发明的方法与先进的APA(Active Passive Aggressive learning)和SOAL(Second-order Online Active Learning)算法在url_day0数据集上在不同的标记选择比率下的在线预测准确率的对比图。

图3为本发明方法与全监督的自适应次梯度算法和基于不确定采样的自适应次梯度算法在url_day0数据集上在4个标记选择比率下的在线预测准确率及其标准差的对比表。

具体实施方式

下面结合具体实施例对本发明做进一步说明。

如图1所示的一个基于在线主动机器学习的恶意URL检测方法，具体的实施步骤如下。

1.设置方法运行所需要的超参数：α＝1，η＝0.01，λ＝1e-5，δ＝2^(-2)；超参数的合适取值因URLs数据特征而异，改变参数δ的取值能够调节本方法的标记选择比例。

2.初始化操作：w₁＝0，H₀＝αI，N₀＝0，u₀＝0，对于i＝1,2…d，令s_0,i＝0。

3.对于第t次URL请求，其中t＝1,2,…∞，按照如下步骤处理：

3.1.分析当前URL，进行自动特征提取，得到该URL对应的特征向量x_t；

3.2.在线预测：令预测类标其中sgn是符号函数。如果则预测当前URL是恶意的，否则预测当前URL是正常的；

3.3.标记决策：令 γ_t＝p_t-v_t；如果γ_t＞0，则从参数为δ/(δ+γ_t)的伯努利分布中提取一个随机量Z_t∈{0,1}；如果γ_t≤0，则Z_t＝1；

3.4.如果Z_t＝1，则邀请专家对x_t进行标记，从而获得x_t的真实类标y_t∈{+1,-1}，然后对预测模型进行在线更新：

3.4.1.计算瞬时损失函数f_t(w)在w_t处的次梯度：

3.4.2.对于每个特征维度i＝1,2…d，计算这等价于令G_1:t＝[g₁ g₂ … g_t]，s_t,i＝||G_1:,i||₂；

3.4.3.令H_t＝αI+diag(s_t)，ψ_t(w)＝(1/2)w^TH_tw；

3.4.4.令N_t＝N_t-1+Z_t，u_t＝u_t-1+Z_tg_t，这等价于令其中，u_t是一个中间变量；

3.4.5.使用ARDA或ACMD更新规则来更新在线预测模型：

(a)ARDA更新规则：

上述最小化问题的闭式解如下：

w_t+1＝-η(ληN_tI+H_t)^-1u_t

(b)ACMD更新规则：

同样可以得到该问题的闭式解如下：

w_t+1＝(ληI+H_t)^-1(H_tw_t-ηg_t)

3.5.如果Z_t＝0，则不对x_t进行标记，令g_t＝0，w_t+1＝w_t，保持预测模型不变。

3.6.等待下一轮的URL请求，回到步骤3.1。

当参数δ的取值趋于正无穷时，本方法的标记选择策略以概率1总是决定对当前的URL进行标记，此时本方法就变成全监督的自适应次梯度方法。

实验部分选用Url_day0数据集来验证所提方法的有效性。Url_day0数据集中，每一个行向量均是对一个URL进行特征提取之后得到的特征向量。选择先进的APA(ActivePassive Aggressive learning)和SOAL(Second-order Online Active Learning)作为对比方法，主要比较在相同的标记选择比例ratio下，每个方法所能取得的在线预测准确率acc：

其中T是在线预测的总次数；1[]是一个指示函数，如果则指示函数值为1，表示第t次的在线预测正确，否则为0，表示预测错误；N_T的值表示邀请专家进行标记的次数。为表明本发明方法即便使用少量的标记信息也能取得好的分类性能，也与全监督的自适应次梯度算法和基于不确定采样的自适应次梯度算法进行对比。所有对比实验均执行20次，每次执行时随机打乱Url_day0数据集中数据的顺序，以消除方法对数据顺序的影响，最后，20次运行的平均预测准确率及其标准差被记录。

图2为本发明的方法与APA和SOAL算法在url_day0数据集上在不同的标记选择比率下的在线预测准确率对比图；从该图可观察到，在相同的标记选择比例下，使用ARDA更新或ACMD更新的本发明方法均比APA和SOAL算法能取得更高的在线预测准确率。

图3为本发明的方法与全监督的自适应次梯度算法和基于不确定采样的自适应次梯度算法在url_day0数据集上在4个标记选择比率下的在线预测准确率对比表。从该图中可以看到，本发明方法在给定的标记选择比例下，均比基于不确定采样的自适应次梯度算法表现更好，而且本发明方法使用极少的URL标记信息取得的在线预测准确率可比于全监督的自适应次梯度方法使用所有的URL标记信息取得的在线预测准确率。

本发明并不局限于上述实施例，在本发明公开的技术方案的基础上，本领域的技术人员根据所公开的技术内容，不需要创造性的劳动就可以对其中的一些技术特征作出一些替换和变形，这些替换和变形均在本发明的保护范围内。

Claims

1.一种用于恶意URL检测的在线主动机器学习方法，其特征在于，包括以下步骤：

步骤1)第t轮，t＝1，2，...∞，当互联网用户要访问一个URL时，首先利用自动特征提取器，对该URL进行分析，提取出词汇特征、基于主机的特征和DNS特征，将所有的特征连接在一起，构成该URL的特征向量x_t；

步骤3)在线预测结束后，进入标记决策阶段，判断是否对当前的URL进行标记；记Z_t表示标记决策变量；如果Z_t＝1，则请网络安全专家进行标记，从而得到该URL的真实类标记y_t∈{+1，-1}；如果Z_t＝0，则决定不标记，不更新在线分类器，然后进入到步骤5)，标记决策程序具体步骤如下：

3-1)接收到当前URL的特征向量x_t；

3-2)计算η是学习步长参数，其中w_t是当前的预测模型，矩阵H_t-1是自适应次梯度算法中所维护的对角矩阵，存储当前特征的频度信息以衡量特征的辨别能力；

3-3)令γ_t＝p_t-v_t；

3-4)如果γ_t＞0，则从参数为δ/(δ+γ_t)的伯努利分布中提取一个随机量Z_t∈{0，1}；如果γ_t≤0，则Z_t＝1；其中δ＞0是采样参数；

步骤3-2)中，p_t表示当前x_t被预测的置信度，p_t的值越小，表明预测的置信度越小；v_t则表示当前x_t中特征的辨别能力，v_t的值越小，意味着x_t中的非零特征出现的频率越高，表明x_t中特征的辨别能力越弱；

步骤4)获得完整的URL数据信息(x_t，y_t)后，利用在线模型更新程序修正当前的分类器w_t，得到最新的分类器w_t+1，具体步骤如下：

4-1)接收到完整的URL数据信息(x_t，y_t)；

4-2)计算得到损失函数f_t(w)在当前w_t处的次梯度其中/> 是铰链损失，衡量对(x_t，y_t)预测的不准确程度；

4-3)将t＝1时刻到当前时刻所获得的所有次梯度信息g_t都存储在矩阵G_1：t＝[g₁ g₂ …g_t]中，根据该矩阵计算每个特征i的频度信息s_t，i＝||G_1：t，i||₂，其中G_1：t，i表示矩阵G_1：t的第i个行向量，s_t，i是向量s_t的第i个元素；

4-5)设置函数选择如下一种更新规则对预测模型进行在线更新：

(a)ARDA更新规则：

(b)ACMD更新规则：

其中η是学习步长；函数是正则化函数，用于控制模型w的复杂度，参数λ是一个预定义的常数；/>表示截止到t时刻邀请专家进行标记的次数，k为迭代变量；/>是w和w_t之间关于函数ψt的Bregman距离，定义如下：

其中表示函数ψ_t在w_t处的梯度；

步骤5)回到步骤1)，等待用户浏览器发出第t+1轮的URL请求。

2.根据权利要求1所述的用于恶意URL检测的在线主动机器学习方法，其特征在于，在运行前需要对在线预测模型和频度信息矩阵进行初始化，包括两种初始化方法：一种是没有任何先验知识的情况下，直接令w₁＝0和H₀＝αI，此时方法从零开始学习；另一种是利用用户黑名单列表中的信息构建一个同时包含恶意和正常URLs的训练集，基于该训练集利用全监督的自适应次梯度算法得到初始预测模型w₁和H₀。