CN113315766B

CN113315766B - 一种基于强化学习的恶意网址识别方法、系统和介质

Info

Publication number: CN113315766B
Application number: CN202110575900.9A
Authority: CN
Inventors: 万晓玥; 崔现东; 杜伟; 王玉环; 董亚萍
Original assignee: China Academy of Information and Communications Technology CAICT
Current assignee: China Academy of Information and Communications Technology CAICT
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2022-03-29
Anticipated expiration: 2041-05-26
Also published as: CN113315766A

Abstract

本公开涉及一种基于强化学习的恶意网址识别方法、系统和介质。所述方法包括：步骤S1、接收第k个网址，利用域名黑名单研判所述第k个网址，所述第k个网址为待研判网址，其中k为正整数；步骤S2、在所述第k个网址的域名不在所述域名黑名单中的情况下，确定所述第k个网址的优先级，并基于所述优先级确定所述第k个网址的特征向量；步骤S3、基于所述第k个网址的特征向量确定检验统计量Δ，并根据所述检验统计量Δ与所述研判阈值θ^k的比较结果研判所述第k个网址；其中，k为正整数，N为小于k的正整数。

Description

一种基于强化学习的恶意网址识别方法、系统和介质

技术领域

本公开涉及恶意网址识别领域，更具体地，涉及一种基于强化学习的恶意网址识别方法、系统和介质。

背景技术

网络攻击者利用恶意网页，例如钓鱼网页、木马网页、垃圾广告网页等，窃取用户敏感信息、推广恶意软件与垃圾广告，进行非法牟利。恶意网页严重危害用户的信息数据与财产安全，恶意网页的研判识别是亟待解决的互联网安全问题。

恶意网页识别方法主要包括基于黑名单技术的识别方法和基于启发式规则的识别方法以及基于机器学习的识别方法。基于黑名单技术的识别方法主要利用URL黑名单、IP地址黑名单以及DNS黑名单，黑名单技术具有实现简单、使用方便的特点。黑名单仅能识别已发现的恶意网页，存在漏报率较高的问题。针对黑名单技术,将已经发现的钓鱼URL作为先验知识，通过URL分解和相似性计算来识别和发现新的钓鱼网页，扩展了黑名单的使用范围，有助于识别部分未出现的恶意网页。基于启发式规则的恶意网页识别方法依据恶意网页之间存在的相似性设计和实现启发式规则,进而发现和识别恶意网页，克服黑名单机制的漏报缺点。基于网页的词频-逆向文档频率建立启发式规则识别当前的网页是否为恶意网页。基于启发式规则的方法存在虚警率高和规则无法实时更新的缺点。基于机器学习的识别方法可以进一步解决基于启发式规则识别方法的虚警率高和规则更新难的问题，具体分为无监督和有监督方法。无监督识别算法不依赖历史标签数据。以链接关系、关键词排序关系、文本相似性关系、层次相似性关系等作为统计特征，利用无监督学习算法识别恶意网页。有监督识别算法利用历史标记的网页数据、训练识别模型。例如，利用支持向量机的非线性变换和结构风险最小化原则来提高分类器泛化能力具有良好的分类准确率和稳定性，但分类结果对训练集的分布及参数配置的鲁棒性不强。

发明内容

提供了本公开以解决现有技术中存在的上述问题。

公开了一种基于强化学习的恶意网址识别方法方案，该方案能够研判识别互联网中的恶意网页，降低用户在进行网页访问时的数据泄露和财产损失风险，且不依赖于训练集的选择，提高研判过程鲁棒性与准确性。

根据本公开的第一方面，提供了一种基于强化学习的恶意网址识别方法。所述方法包括：

步骤S1、接收第k个网址，利用域名黑名单研判所述第k个网址，所述第k个网址为待研判网址，其中k为正整数。

步骤S2、在所述第k个网址的域名不在所述域名黑名单中的情况下，确定所述第k个网址的优先级，并基于所述优先级确定所述第k个网址的特征向量，具体包括：当所述优先级高于第一优先级时，提取所述第k个网址的网址统计特征，并基于所述网址统计特征构建网址统计特征向量F_k，将所述网址统计特征向量F_k作为所述第k个网址的特征向量；当所述优先级不高于第一优先级时，同时提取所述第k个网址的所述网址统计特征和网页文本特征，并基于所述网址统计特征构建所述网址统计特征向量F_k，以及基于所述网页文本特征构建网页文本特征向量H_k，将所述网址统计特征向量F_k和所述网页文本特征向量H_k共同作为所述第k个网址的特征向量。

步骤S3、基于所述第k个网址的特征向量确定检验统计量Δ，并根据所述检验统计量Δ与所述研判阈值θ^k的比较结果研判所述第k个网址，其中，通过以下方式确定所述研判阈值θ^k：提取所述第k个网址之前的N个已研判网址；计算所述N个已研判网址的虚警率

和漏报率

基于所述虚警率

和漏报率

构建所述第k个网址的状态

以选取满足阈值条件的所述研判阈值θ^k；其中，k为正整数，N为小于k的正整数。

具体地，在所述步骤S1至所述S3之前，所述方法还包括：步骤S0、设置离散化研判阈值θ和研判相关参数，所述研判相关参数包括虚警率权重C_F、漏报率权重C_M、学习因子α、折扣因子γ和初始化的Q值矩阵，其中：所述离散化研判阈值θ∈X＝{∈/X}用于选取满足所述阈值条件的所述研判阈值θ^k，其中0≤∈≤X，∈为整数；所述虚警率权重C_F与所述漏报率权重C_M用于计算研判效益函数u^k，所述Q值矩阵表示为：Q(s,θ),s＝[p_f(θ),p_m(θ)]∈S,θ∈X＝{∈/X}；设置所述初始化的Q值矩阵具体包括：选取研判历史中ρ个网址研判场景，利用每个所述网址研判场景研判K个网址，K为正整数，对所述ρ个网址研判场景的Q值矩阵求平均后得到Q*，基于所述Q*初始化所述Q值矩阵；所述学习因子α和所述折扣因子γ用于更新所述Q值矩阵。

具体地，在所述步骤S2，在所述第k个网址的域名在所述域名黑名单中的情况下，则所述第k个网址直接被研判为所述恶意网址。

具体地，在所述步骤S3，利用如下公式，基于所述第k个网址的特征向量，确定检验统计量Δ：

其中

为参考网址统计特征向量，

为参考网页文本特征向量；与所述研判阈值θ^k的比较结果研判所述第k个网址具体包括：基于欧式距离确定检验统计量Δ，当所述检验统计量Δ大于所述研判阈值θ^k时，将所述第k个网址研判为所述恶意网址并存入黑名单库，当所述检验统计量Δ不大于所述研判阈值θ^k时，将所述第k个网址研判为合法网址。

具体地，在所述步骤S1至所述S3之后，所述方法还包括：步骤S4、基于对所述第k个网址的研判结果，更新第k+1个网址的状态s^k+1和Q值矩阵，并计算所述研判效益函数u^k以更新所述Q值矩阵：

其中Q(s^k,θ^k)表示研判系统在状态s^k下选择θ^k时的Q值。

具体地，当满足条件

时，所述研判阈值θ^k为最优研判阈值。

根据本公开的第二方面，提供了一种基于强化学习的恶意网址识别系统。

所述系统包括：

第一研判模块，被配置为，接收第k个网址，利用域名黑名单研判所述第k个网址，所述第k个网址为待研判网址，其中k为正整数。

特征提取模块，被配置为，在所述第k个网址的域名不在所述域名黑名单中的情况下，确定所述第k个网址的优先级，并基于所述优先级确定所述第k个网址的特征向量，具体包括：当所述优先级高于第一优先级时，提取所述第k个网址的网址统计特征，并基于所述网址统计特征构建网址统计特征向量F_k，将所述网址统计特征向量F_k作为所述第k个网址的特征向量；当所述优先级不高于第一优先级时，同时提取所述第k个网址的所述网址统计特征和网页文本特征，并基于所述网址统计特征构建所述网址统计特征向量F_k，以及基于所述网页文本特征构建网页文本特征向量H_k，将所述网址统计特征向量F_k和所述网页文本特征向量H_k共同作为所述第k个网址的特征向量。

第二研判模块，被配置为，基于所述第k个网址的特征向量确定检验统计量Δ，并根据所述检验统计量Δ与所述研判阈值θ^k的比较结果研判所述第k个网址，其中，通过以下方式确定所述研判阈值θ^k：提取所述第k个网址之前的N个已研判网址；计算所述N个已研判网址的虚警率

和漏报率

基于所述虚警率

和漏报率

构建所述第k个网址的状态

具体地，所述系统还包括：参数设置模块，被配置为，设置离散化研判阈值θ和研判相关参数，所述研判相关参数包括虚警率权重C_F、漏报率权重C_M、学习因子α、折扣因子γ和初始化的Q值矩阵，其中：所述离散化研判阈值θ∈X＝{∈/X}用于选取满足所述阈值条件的所述研判阈值θ^k，其中0≤∈≤X，∈为整数；所述虚警率权重C_F与所述漏报率权重C_M用于计算研判效益函数u^k；所述Q值矩阵表示为：Q(s,θ),s＝[p_f(θ),p_m(θ)]∈S,θ∈X＝{∈/X}；

设置所述初始化的Q值矩阵具体包括：选取研判历史中ρ个网址研判场景，利用每个所述网址研判场景研判K个网址，K为正整数，对所述ρ个网址研判场景的Q值矩阵求平均后得到Q*，基于所述Q*初始化所述Q值矩阵；所述学习因子α和所述折扣因子γ用于更新所述Q值矩阵。

具体地，所述系统还包括：参数更新模块，被配置为，基于对所述第k个网址的研判结果，更新第k+1个网址的状态s^k+1和Q值矩阵，并计算所述研判效益函数u^k以更新所述Q值矩阵：

其中Q(s^k,θ^k)表示研判系统在状态s^k下选择θ^k时的Q值。

具体地，所述第一研判模块还被配置为，在所述第k个网址的域名在所述域名黑名单中的情况下，则所述第k个网址直接被研判为所述恶意网址。

具体地，所述第二研判模块还被配置为：利用如下公式，基于所述第k个网址的特征向量，确定检验统计量Δ：

其中

为参考网址统计特征向量，

具体地，当满足条件

时，所述研判阈值θ^k为最优研判阈值。

根据本公开的第三方面，一种存储有指令的非暂时性计算机可读介质，当所述指令由处理器执行时，执行根据本公开第一方面中任一项所述的一种基于强化学习的恶意网址识别方法中的步骤。

综上，本公开的技术方案能够研判识别互联网中的恶意网页，降低用户在进行网页访问时的数据泄露和财产损失风险，且不依赖于训练集的选择，提高研判过程鲁棒性与准确性。

附图说明

在不一定按比例绘制的附图中，相同的附图标记可以在不同的视图中描述相似的部件。具有字母后缀或不同字母后缀的相同附图标记可以表示相似部件的不同实例。附图大体上通过举例而不是限制的方式示出各种实施例，并且与说明书以及权利要求书一起用于对所公开的实施例进行说明。在适当的时候，在所有附图中使用相同的附图标记指代同一或相似的部分。这样的实施例是例证性的，而并非旨在作为本装置或方法的穷尽或排他实施例。

图1示出了根据本公开实施例的一种基于强化学习的恶意网址识别方法的流程图；以及

图2示出了根据本公开实施例的一种基于强化学习的恶意网址识别系统的结构图。

具体实施方式

为使本领域技术人员更好的理解本公开的技术方案，下面结合附图和具体实施方式对本公开作详细说明。下面结合附图和具体实施例对本公开的实施例作进一步详细描述，但不作为对本公开的限定。本文中所描述的各个步骤，如果彼此之间没有前后关系的必要性，则本文中作为示例对其进行描述的次序不应视为限制，本领域技术人员应知道可以对其进行顺序调整，只要不破坏其彼此之间的逻辑性导致整个流程无法实现即可。

下面将结合附图详细说明根据本公开实施例的一种基于强化学习的恶意网址识别方法方案。

图1示出了根据本公开实施例的一种基于强化学习的恶意网址识别方法方法的流程图；如图1所示，所述方法包括：步骤S1、接收第k个网址，利用域名黑名单研判所述第k个网址，所述第k个网址为待研判网址，其中k为正整数；步骤S2、在所述第k个网址的域名不在所述域名黑名单中的情况下，确定所述第k个网址的优先级，并基于所述优先级确定所述第k个网址的特征向量；步骤S3、基于所述第k个网址的特征向量确定检验统计量Δ，并根据所述检验统计量Δ与所述研判阈值θ^k的比较结果研判所述第k个网址，其中，通过以下方式确定所述研判阈值θ^k。

在所述步骤S1至所述S3之前，所述方法还包括：步骤S0、设置离散化研判阈值θ和研判相关参数，所述研判相关参数包括虚警率权重C_F、漏报率权重C_M、学习因子α、折扣因子γ和初始化的Q值矩阵。

所述离散化研判阈值θ∈X＝{∈/X}用于选取满足所述阈值条件的所述研判阈值θ^k，其中0≤∈≤X，∈为整数。所述虚警率权重C_F与漏报率权重C_M用于计算研判系统的效益函数u^k。所述Q值矩阵具体指，动作效益函数矩阵，即Q值矩阵为二维矩阵，Q(s,θ),s＝[p_f(θ),p_m(θ)]∈S,θ∈X＝{∈/X}。所述初始化的Q值矩阵的具体方法是，选取研判历史中ρ个类似的网址研判场景，每个研判场景研判K个网址，对ρ个场景的Q值矩阵求平均后得到Q值矩阵Q*，用于初始化研判系统的Q值矩阵，所述所述学习因子α和所述折扣因子γ用于更新Q值矩阵。

具体地，设置离散化研判阈值θ作为研判阈值θ^k的初始值，并设置研判相关参数。其中，离散化研判阈值θ∈X＝{∈/X}_0≤∈≤X，X为离散化研判阈值量化等级，并且∈为整数，X为包含各个∈/X值的集合。设置研判初始化学习因子α、折扣因子γ、任意离散化研判阈值θ作为研判阈值θ^k的初始值(即θ⁰)；选取研判历史中ρ＝10个类似的网址研判场景，每个研判场景研判K＝100个网址，对ρ＝10个场景的Q值矩阵求平均后得到Q值矩阵Q*，初始化用于研判的Q值矩阵。

在步骤S1，接收第k个网址，利用域名黑名单研判所述第k个网址，所述第k个网址为待研判网址，其中k为正整数。

在步骤S2，在所述第k个网址的域名在所述域名黑名单中的情况下，则所述第k个网址直接被研判为所述恶意网址。具体地，提取涉诈网址k的域名，若涉诈网址的域名存在于涉诈域名的黑名单库，则研判网址为恶意网址。

在步骤S2，在所述第k个网址的域名不在所述域名黑名单中的情况下，确定所述第k个网址的优先级，并基于所述优先级确定所述第k个网址的特征向量。当所述优先级高于第一优先级时，提取所述第k个网址的网址统计特征，并基于所述网址统计特征构建网址统计特征向量F_k，将所述网址统计特征向量F_k作为所述第k个网址的特征向量。当所述优先级不高于第一优先级时，同时提取所述第k个网址的所述网址统计特征和网页文本特征，并基于所述网址统计特征构建所述网址统计特征向量F_k，以及基于所述网页文本特征构建网页文本特征向量H_k，将所述网址统计特征向量F_k和所述网页文本特征向量H_k共同作为所述第k个网址的特征向量。

具体地，网址统计特征包括：

统计网址长度(URL_len)

网址中点的数目(URL_n_dot)

域名长度(Domain_len)

域名中是否包含IP地址(IP):包含特征值为1，不包含特征值为0

域名中是否包含端口号(Port)：包含特征值为1、不包含特征值为0

域名中令牌的数目(n_token)

域名中连字符的数目(n_hyphen)

域名中最长字符的字符数目(max_len)

网址目录的长度(Directory_len)

子目录的令牌数(n_subdir_token)

子目录最长令牌的长度(subdir_max_len)

文件名长度(filename_len)

文件名中点的数目(n_filename_dot)

构建网址特征向量F_k＝{URL_len,URL_n_dot,Domain_len,IP,Port,n_hyphen,n_token,max_len,Directory_len,n_subdir_token,subdir_max_len,filename_len,n_filename_dot}。

具体地，利用网页爬取技术提取研判网址的网页文本。计算关键词库W每个特定关键词w∈W的TF-IDF值，构建网页文本特征向量H_k。计算公式如下：

TF-IDF(w)＝TF(w)*IDF(w)

其中n(w)是给定的关键词w在网页指定文本出现的次数，n_max是网页出现次数最多的词的出现次数，N₀代表语料库中文本的总数，而N(w)代表语料库中包含词w的网页总数。

在步骤S3，基于所述第k个网址的特征向量确定检验统计量Δ，并根据所述检验统计量Δ与所述研判阈值θ^k的比较结果研判所述第k个网址。其中，通过以下方式确定所述研判阈值θ^k：提取所述第k个网址之前的N个已研判网址；计算所述N个已研判网址的虚警率

和漏报率

基于所述虚警率

和漏报率

构建所述第k个网址的状态

具体地，对第k-1个至k-N-1的N个研判网址进行统计汇总，计算出虚警率

和漏报率

构建研判系统在当前时刻的状态

以0.9的概率选择具有最大Q值的所述研判阈值θ^k，以0.1/X的概率随机选择其他满足阈值条件的所述研判阈值θ^k。

利用如下公式，基于所述网址统计特征向量F_k和所述网页文本特征向量H_k，确定检验统计量Δ：

其中

为参考网址统计特征向量，

为参考网页文本特征向量。

与所述研判阈值θ^k的比较结果研判所述第k个网址具体包括：基于欧式距离确定检验统计量Δ，当所述检验统计量Δ大于所述研判阈值θ^k时，将所述第k个网址研判为所述恶意网址并存入黑名单库，当所述检验统计量Δ不大于所述研判阈值θ^k时，将所述第k个网址研判为合法网址，将所述网址统计特征向量F_k更新为参考网址统计特征向量

将所述网页文本特征向量H_k更新为参考网页文本特征向量

以用于研判第k+1个网址

具体地，若检验统计量Δ大于研判系统设定的阈值，则认定当前的网址为恶意网址，将恶意网址存入黑名单库，否则进行人工研判；若通过人工研判判定属于合法网址。

在所述步骤S1至所述S3之后，所述方法还包括：步骤S4、基于对所述第k个网址的研判结果，更新第k+1个网址的状态s^k+1和Q值矩阵，并计算所述研判效益函数u^k以更新所述Q值矩阵：

其中Q(s^k,θ^k)表示研判系统在状态s^k下选择θ^k时的Q值。当满足条件

时，所述研判阈值θ^k为最优研判阈值。

具体地，对第k个至k-N的N个研判网址进行统计汇总，构建下一个研判网址的状态

评估本次网址研判的效益函数u^k，计算公式如下:

更新Q值矩阵，计算公式如下：

到第k次更新阈值后，满足：

时，阈值θ^k收敛，θ^k为最优研判阈值，利用该值进行网址研判。

在一些实施例中，设置X＝10,X＝{0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1}；设置α＝0.7,δ＝0.5，θ⁰＝0.2；设置虚警率P_f(θ)和漏报率P_m(θ)均为离散化的值,P_f(θ)∈[0:0.01:1],P_m(θ)＝[0.10:0.05:1]。

具体示例

首先，设置离散化研判阈值，设置参数。

(1)设置离散化研判阈值，阈值被量化为11个等级(X＝10)，即研判阈值的取值范围为θ∈{0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1}，设置虚警率/漏报率的权重系数C_F＝0.5/C_M＝1，学习因子α＝0.7，折扣因子γ＝0.5。

(2)选取研判历史中ρ＝10个类似的网址研判场景，每个研判场景研判K＝100个网址，对ρ＝10个场景的Q值矩阵求平均后得到Q值矩阵Q*，初始化用于研判的Q值矩阵。

其次，利用域名黑名单研判网址。

收到待研判网址k，提取涉诈网址k的域名，若涉诈网址的域名存在于涉诈域名的黑名单库，则研判网址为恶意网址。

设置认证模式，分析网址的统计特征与网页文本特征，分别构建网址特征向量与网页文本特征向量。

研判网址的域名不在黑名单内，分析提取研判网址k的网址统计特征：

统计网址长度(URL_len)

网址中点的数目(URL_n_dot)

域名长度(Domain_len)

域名中是否包含IP地址(IP):包含特征值为1、不包含特征值为0

域名中是否包含端口号(Port):包含特征值为1、不包含特征值为0

域名中令牌的数目(n_token)

域名中连字符的数目(n_hyphen)

域名中最长字符的字符数目(max_len)

网址目录的长度(Directory_len)

子目录的令牌数(n_subdir_token)

子目录最长令牌的长度(subdir_max_len)

文件名长度(filename_len)，文件名中点的数目(n_filename_dot)

例如，网址“www.naturenilai.com/form2/paypal/webscr.php？cmd＝login”

URL＝www.naturenilai.com/form2/paypal/webscr.php？cmd＝login

Domain＝www.naturenilai.com

Directory＝/form2/paypal/

Filename＝webscr.php

则F_k＝{54,3,19,0,0,3,0,11,14,2,6,10,1}。

选取研判模式x₀∈[1,2],如果x₀＝2，利用网页爬取技术提取研判网址的网页文本。计算关键词库w∈W每个特定关键词w的TF-IDF值，构建网页文本特征向量H_k。计算公式如下：

TF-IDF(w)＝TF(w)*IDF(w)

n(w)是给定的关键词w在网页指定文本出现的次数，n_max是网页出现次数最多的词的出现次数，N₀代表语料库中文本的总数，而N(w)代表语料库中包含词w的网页总数。

例如，关键词W＝{代刷、秒赞、代挂、刷单、搭建分站、棋牌、电子、赚钱、兼职、招聘、日结}。

再次，设置N＝1000，对第k-1个至k-N-1的N个研判网址进行统计汇总，计算出虚警率

和漏报率

构建在当前时刻的状态

计算检验统计量Δ，计算公式如下：

检验统计量Δ与设定的研判阈值θ^k进行比较；若检验统计量Δ大于设定的阈值，则认定当前的网址为恶意网址，将恶意网址存入黑名单库，否则进行人工研判；若通过人工研判判定属于合法网址。

最后，对第k个至k-N的N个研判网址进行统计汇总，构建下一个研判网址的状态

观察本次网址研判的效益函数u^k，计算公式如下:

更新Q值矩阵，计算公式如下：

第k次更新阈值后，当满足

时，阈值θ^k收敛，θ^k为研判系统的最优阈值。

根据本公开的第二方面，提供了一种基于强化学习的恶意网址识别系统。图2示出了根据本公开实施例的一种基于强化学习的恶意网址识别系统的结构图，如图2所示，所述系统200包括：

第一研判模块201，被配置为，接收第k个网址，利用域名黑名单研判所述第k个网址，所述第k个网址为待研判网址，其中k为正整数。

特征提取模块202，被配置为，在所述第k个网址的域名不在所述域名黑名单中的情况下，确定所述第k个网址的优先级，并基于所述优先级确定所述第k个网址的特征向量，具体包括：当所述优先级高于第一优先级时，提取所述第k个网址的网址统计特征，并基于所述网址统计特征构建网址统计特征向量F_k，将所述网址统计特征向量F_k作为所述第k个网址的特征向量；当所述优先级不高于第一优先级时，同时提取所述第k个网址的所述网址统计特征和网页文本特征，并基于所述网址统计特征构建所述网址统计特征向量F_k，以及基于所述网页文本特征构建网页文本特征向量H_k，将所述网址统计特征向量F_k和所述网页文本特征向量H_k共同作为所述第k个网址的特征向量。

第二研判模块203，被配置为，基于所述第k个网址的特征向量确定检验统计量Δ，并根据所述检验统计量Δ与所述研判阈值θ^k的比较结果研判所述第k个网址，其中，通过以下方式确定所述研判阈值θ^k：提取所述第k个网址之前的N个已研判网址；计算所述N个已研判网址的虚警率

和漏报率

基于所述虚警率

和漏报率

构建所述第k个网址的状态

具体地，所述系统还包括：参数设置模块204，被配置为，设置离散化研判阈值θ和研判相关参数，所述研判相关参数包括虚警率权重C_F、漏报率权重C_M、学习因子α、折扣因子γ和初始化的Q值矩阵，其中：所述离散化研判阈值θ∈X＝{∈/X}用于选取满足所述阈值条件的所述研判阈值θ^k，其中0≤∈≤X，∈为整数；所述虚警率权重C_F与所述漏报率权重C_M用于计算研判效益函数u^k；所述Q值矩阵表示为：Q(s,θ),s＝[p_f(θ),p_m(θ)]∈S,θ∈X＝{∈/X}；设置所述初始化的Q值矩阵具体包括：选取研判历史中ρ个网址研判场景，利用每个所述网址研判场景研判K个网址，K为正整数，对所述ρ个网址研判场景的Q值矩阵求平均后得到Q*，基于所述Q*初始化所述Q值矩阵；所述学习因子α和所述折扣因子γ用于更新所述Q值矩阵。

具体地，所述系统还包括：参数更新模块205，被配置为，基于对所述第k个网址的研判结果，更新第k+1个网址的状态s^k+1和Q值矩阵，并计算所述研判效益函数u^k以更新所述Q值矩阵：

其中Q(s^k,θ^k)表示研判系统在状态s^k下选择θ^k时的Q值。

具体地，所述第一研判模块201还被配置为，在所述第k个网址的域名在所述域名黑名单中的情况下，则所述第k个网址直接被研判为所述恶意网址。

具体地，所述第二研判模块203还被配置为：利用如下公式，基于所述第k个网址的特征向量，确定检验统计量Δ：

其中

为参考网址统计特征向量，

具体地，当满足条件

时，所述研判阈值θ^k为最优研判阈值。

注意，根据本公开的各个实施例中的各个模块，可以实现为存储在存储器上的计算机可执行指令，由处理器执行时可以实现相应的步骤；也可以实现为具有相应逻辑计算能力的硬件；也可以实现为软件和硬件的组合(固件)。在一些实施例中，处理器可以实现为FPGA、ASIC、DSP芯片、SOC(片上系统)、MPU(例如但不限于Cortex)、等中的任何一种。处理器可以通信地耦合到存储器并且被配置为执行存储在其中的计算机可执行指令。存储器可以包括只读存储器(ROM)、闪存、随机存取存储器(RAM)、诸如同步DRAM(SDRAM)或Rambus DRAM的动态随机存取存储器(DRAM)、静态存储器(例如，闪存、静态随机存取存储器)等，其上以任何格式存储计算机可执行指令。计算机可执行指令可以被处理器访问，从ROM或者任何其他合适的存储位置读取，并加载到RAM中供处理器执行，以实现根据本公开中的各个实施例。

此外，尽管已经在本文中描述了示例性实施例，其范围包括任何和所有基于本公开的具有等同元件、修改、省略、组合(例如，各种实施例交叉的方案)、改编或改变的实施例。权利要求书中的元件将被基于权利要求中采用的语言宽泛地解释，并不限于在本说明书中或本申请的实施期间所描述的示例，其示例将被解释为非排他性的。因此，本说明书和示例旨在仅被认为是示例，真正的范围和精神由以下权利要求以及其等同物的全部范围所指示。

以上描述旨在是说明性的而不是限制性的。例如，上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外，在上述具体实施方式中，各种特征可以被分组在一起以简单化本公开。这不应解释为一种不要求保护的公开的特征对于任一权利要求是必要的意图。相反，本发明的主题可以少于特定的公开的实施例的全部特征。从而，以下权利要求书作为示例或实施例在此并入具体实施方式中，其中每个权利要求独立地作为单独的实施例，并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。

Claims

1.一种基于强化学习的恶意网址识别方法，其特征在于，所述方法包括：

步骤S1、接收第k个网址，利用域名黑名单研判所述第k个网址，所述第k个网址为待研判网址，其中k为正整数；

步骤S2、在所述第k个网址的域名不在所述域名黑名单中的情况下，确定所述第k个网址的优先级，并基于所述优先级确定所述第k个网址的特征向量，具体包括：

当所述优先级高于第一优先级时，提取所述第k个网址的网址统计特征，并基于所述网址统计特征构建网址统计特征向量F_k，将所述网址统计特征向量F_k作为所述第k个网址的特征向量；

当所述优先级不高于第一优先级时，同时提取所述第k个网址的所述网址统计特征和网页文本特征，并基于所述网址统计特征构建所述网址统计特征向量F_k，以及基于所述网页文本特征构建网页文本特征向量H_k，将所述网址统计特征向量F_k和所述网页文本特征向量H_k共同作为所述第k个网址的特征向量；

步骤S3、利用如下公式，基于所述第k个网址的特征向量，确定检验统计量Δ：

其中

为参考网址统计特征向量，

为参考网页文本特征向量，x₀为研判模式且x₀∈[1，2]，x₀为2时，表示利用网页爬取技术提取研判网址的网页文本，x₀为1时，表示不利用网页爬取技术提取研判网址的网页文本；

并根据所述检验统计量Δ与所述研判阈值θ^k的比较结果研判所述第k个网址，其中，通过以下方式确定所述研判阈值θ^k：

提取所述第k个网址之前的N个已研判网址；

计算所述N个已研判网址的虚警率

和漏报率

基于所述虚警率

和漏报率

构建所述第k个网址的状态

以选取满足阈值条件的所述研判阈值θ^k，其中，k为正整数，N为小于k的正整数；

根据所述检验统计量Δ与所述研判阈值θ^k的比较结果研判所述第k个网址具体包括：

基于欧式距离确定检验统计量Δ，

当所述检验统计量Δ大于所述研判阈值θ^k时，将所述第k个网址研判为所述恶意网址并存入黑名单库，

当所述检验统计量Δ不大于所述研判阈值θ^k时，将所述第k个网址研判为合法网址。

2.根据权利要求1所述的一种基于强化学习的恶意网址识别方法，其特征在于，在所述步骤S1至所述S3之前，所述方法还包括：

步骤S0、设置离散化研判阈值θ作为研判阈值θ^k的初始值，并设置研判相关参数，所述研判相关参数包括虚警率权重C_F、漏报率权重C_M、学习因子α、折扣因子γ和初始化的Q值矩阵，其中：

所述离散化研判阈值θ∈X＝{∈/X}用于从中选取满足所述阈值条件的所述研判阈值θ^k的初始值，其中，X为离散化研判阈值量化等级，0≤∈≤X，∈为整数，X为由各个∈/X值组成的集合；

所述虚警率权重C_F与所述漏报率权重C_M用于计算研判效益函数u^k，

所述Q值矩阵表示为：

Q(s，θ)，s＝[p_f(θ)，p_m(θ)]∈S，θ∈X＝{∈/X}，

设置所述初始化的Q值矩阵具体包括：选取研判历史中ρ个网址研判场景，其中，ρ为研判历史中具有相似网址研判场景的个数，利用每个所述网址研判场景研判K个网址，K为正整数，对所述ρ个网址研判场景的Q值矩阵求平均后得到Q*，基于所述Q*初始化所述Q值矩阵；

所述学习因子α和所述折扣因子γ用于更新所述Q值矩阵。

3.根据权利要求2所述的一种基于强化学习的恶意网址识别方法，其特征在于，在所述步骤S2，在所述第k个网址的域名在所述域名黑名单中的情况下，则所述第k个网址直接被研判为所述恶意网址。

4.根据权利要求1所述的一种基于强化学习的恶意网址识别方法，其特征在于，在所述步骤S1至所述S3之后，所述方法还包括：

步骤S4、基于对所述第k个网址的研判结果，更新第k+1个网址的状态s^k+1和Q值矩阵，并计算所述研判效益函数u^k以更新所述Q值矩阵：

其中Q(s^k，θ^k)表示研判系统在状态s^k下选择θ^k时的Q值。

5.根据权利要求1所述的一种基于强化学习的恶意网址识别方法，其特征在于，当满足条件

时，所述研判阈值θ^k为最优研判阈值。

6.一种基于强化学习的恶意网址识别系统，其特征在于，所述系统包括：

第一研判模块，被配置为，接收第k个网址，利用域名黑名单研判所述第k个网址，所述第k个网址为待研判网址，其中k为正整数；

特征提取模块，被配置为，在所述第k个网址的域名不在所述域名黑名单中的情况下，确定所述第k个网址的优先级，并基于所述优先级确定所述第k个网址的特征向量，具体包括：

第二研判模块，被配置为，

利用如下公式，基于所述第k个网址的特征向量，确定检验统计量Δ：

其中

为参考网址统计特征向量，

提取所述第k个网址之前的N个已研判网址；

计算所述N个已研判网址的虚警率

和漏报率

基于所述虚警率

和漏报率

构建所述第k个网址的状态

基于欧式距离确定检验统计量Δ，

7.根据权利要求6所述的一种基于强化学习的恶意网址识别系统，其特征在于，所述系统还包括：

参数设置模块，被配置为，设置离散化研判阈值θ作为研判阈值θ^k的初始值，并设置研判相关参数，所述研判相关参数包括虚警率权重C_F、漏报率权重C_M、学习因子α、折扣因子γ和初始化的Q值矩阵，其中：

所述Q值矩阵表示为：

Q(s，θ)，s＝[p_f(θ)，p_m(θ)]∈S，θ∈X＝{∈/X}，

所述学习因子α和所述折扣因子γ用于更新所述Q值矩阵；

参数更新模块，被配置为，基于对所述第k个网址的研判结果，更新第k+1个网址的状态s^k+1和Q值矩阵，并计算所述研判效益函数u^k以更新所述Q值矩阵：

其中Q(s^k，θ^k)表示研判系统在状态s^k下选择θ^k时的Q值。

8.一种存储有指令的非暂时性计算机可读介质，其特征在于，当所述指令由处理器执行时，执行根据权利要求1-5中任一项所述的一种基于强化学习的恶意网址识别方法中的步骤。