CN113315766B - 一种基于强化学习的恶意网址识别方法、系统和介质 - Google Patents

一种基于强化学习的恶意网址识别方法、系统和介质 Download PDF

Info

Publication number
CN113315766B
CN113315766B CN202110575900.9A CN202110575900A CN113315766B CN 113315766 B CN113315766 B CN 113315766B CN 202110575900 A CN202110575900 A CN 202110575900A CN 113315766 B CN113315766 B CN 113315766B
Authority
CN
China
Prior art keywords
website
judging
kth
theta
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110575900.9A
Other languages
English (en)
Other versions
CN113315766A (zh
Inventor
万晓玥
崔现东
杜伟
王玉环
董亚萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Information and Communications Technology CAICT
Original Assignee
China Academy of Information and Communications Technology CAICT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academy of Information and Communications Technology CAICT filed Critical China Academy of Information and Communications Technology CAICT
Priority to CN202110575900.9A priority Critical patent/CN113315766B/zh
Publication of CN113315766A publication Critical patent/CN113315766A/zh
Application granted granted Critical
Publication of CN113315766B publication Critical patent/CN113315766B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/101Access control lists [ACL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种基于强化学习的恶意网址识别方法、系统和介质。所述方法包括:步骤S1、接收第k个网址,利用域名黑名单研判所述第k个网址,所述第k个网址为待研判网址,其中k为正整数;步骤S2、在所述第k个网址的域名不在所述域名黑名单中的情况下,确定所述第k个网址的优先级,并基于所述优先级确定所述第k个网址的特征向量;步骤S3、基于所述第k个网址的特征向量确定检验统计量Δ,并根据所述检验统计量Δ与所述研判阈值θk的比较结果研判所述第k个网址;其中,k为正整数,N为小于k的正整数。

Description

一种基于强化学习的恶意网址识别方法、系统和介质
技术领域
本公开涉及恶意网址识别领域,更具体地,涉及一种基于强化学习的恶意网址识别方法、系统和介质。
背景技术
网络攻击者利用恶意网页,例如钓鱼网页、木马网页、垃圾广告网页等,窃取用户敏感信息、推广恶意软件与垃圾广告,进行非法牟利。恶意网页严重危害用户的信息数据与财产安全,恶意网页的研判识别是亟待解决的互联网安全问题。
恶意网页识别方法主要包括基于黑名单技术的识别方法和基于启发式规则的识别方法以及基于机器学习的识别方法。基于黑名单技术的识别方法主要利用URL黑名单、IP地址黑名单以及DNS黑名单,黑名单技术具有实现简单、使用方便的特点。黑名单仅能识别已发现的恶意网页,存在漏报率较高的问题。针对黑名单技术,将已经发现的钓鱼URL作为先验知识,通过URL分解和相似性计算来识别和发现新的钓鱼网页,扩展了黑名单的使用范围,有助于识别部分未出现的恶意网页。基于启发式规则的恶意网页识别方法依据恶意网页之间存在的相似性设计和实现启发式规则,进而发现和识别恶意网页,克服黑名单机制的漏报缺点。基于网页的词频-逆向文档频率建立启发式规则识别当前的网页是否为恶意网页。基于启发式规则的方法存在虚警率高和规则无法实时更新的缺点。基于机器学习的识别方法可以进一步解决基于启发式规则识别方法的虚警率高和规则更新难的问题,具体分为无监督和有监督方法。无监督识别算法不依赖历史标签数据。以链接关系、关键词排序关系、文本相似性关系、层次相似性关系等作为统计特征,利用无监督学习算法识别恶意网页。有监督识别算法利用历史标记的网页数据、训练识别模型。例如,利用支持向量机的非线性变换和结构风险最小化原则来提高分类器泛化能力具有良好的分类准确率和稳定性,但分类结果对训练集的分布及参数配置的鲁棒性不强。
发明内容
提供了本公开以解决现有技术中存在的上述问题。
公开了一种基于强化学习的恶意网址识别方法方案,该方案能够研判识别互联网中的恶意网页,降低用户在进行网页访问时的数据泄露和财产损失风险,且不依赖于训练集的选择,提高研判过程鲁棒性与准确性。
根据本公开的第一方面,提供了一种基于强化学习的恶意网址识别方法。所述方法包括:
步骤S1、接收第k个网址,利用域名黑名单研判所述第k个网址,所述第k个网址为待研判网址,其中k为正整数。
步骤S2、在所述第k个网址的域名不在所述域名黑名单中的情况下,确定所述第k个网址的优先级,并基于所述优先级确定所述第k个网址的特征向量,具体包括:当所述优先级高于第一优先级时,提取所述第k个网址的网址统计特征,并基于所述网址统计特征构建网址统计特征向量Fk,将所述网址统计特征向量Fk作为所述第k个网址的特征向量;当所述优先级不高于第一优先级时,同时提取所述第k个网址的所述网址统计特征和网页文本特征,并基于所述网址统计特征构建所述网址统计特征向量Fk,以及基于所述网页文本特征构建网页文本特征向量Hk,将所述网址统计特征向量Fk和所述网页文本特征向量Hk共同作为所述第k个网址的特征向量。
步骤S3、基于所述第k个网址的特征向量确定检验统计量Δ,并根据所述检验统计量Δ与所述研判阈值θk的比较结果研判所述第k个网址,其中,通过以下方式确定所述研判阈值θk:提取所述第k个网址之前的N个已研判网址;计算所述N个已研判网址的虚警率
Figure GDA0003502253130000031
和漏报率
Figure GDA0003502253130000032
基于所述虚警率
Figure GDA0003502253130000033
和漏报率
Figure GDA0003502253130000034
构建所述第k个网址的状态
Figure GDA0003502253130000035
以选取满足阈值条件的所述研判阈值θk;其中,k为正整数,N为小于k的正整数。
具体地,在所述步骤S1至所述S3之前,所述方法还包括:步骤S0、设置离散化研判阈值θ和研判相关参数,所述研判相关参数包括虚警率权重CF、漏报率权重CM、学习因子α、折扣因子γ和初始化的Q值矩阵,其中:所述离散化研判阈值θ∈X={∈/X}用于选取满足所述阈值条件的所述研判阈值θk,其中0≤∈≤X,∈为整数;所述虚警率权重CF与所述漏报率权重CM用于计算研判效益函数uk,所述Q值矩阵表示为:Q(s,θ),s=[pf(θ),pm(θ)]∈S,θ∈X={∈/X};设置所述初始化的Q值矩阵具体包括:选取研判历史中ρ个网址研判场景,利用每个所述网址研判场景研判K个网址,K为正整数,对所述ρ个网址研判场景的Q值矩阵求平均后得到Q*,基于所述Q*初始化所述Q值矩阵;所述学习因子α和所述折扣因子γ用于更新所述Q值矩阵。
具体地,在所述步骤S2,在所述第k个网址的域名在所述域名黑名单中的情况下,则所述第k个网址直接被研判为所述恶意网址。
具体地,在所述步骤S3,利用如下公式,基于所述第k个网址的特征向量,确定检验统计量Δ:
Figure GDA0003502253130000036
其中
Figure GDA0003502253130000037
为参考网址统计特征向量,
Figure GDA0003502253130000038
为参考网页文本特征向量;与所述研判阈值θk的比较结果研判所述第k个网址具体包括:基于欧式距离确定检验统计量Δ,当所述检验统计量Δ大于所述研判阈值θk时,将所述第k个网址研判为所述恶意网址并存入黑名单库,当所述检验统计量Δ不大于所述研判阈值θk时,将所述第k个网址研判为合法网址。
具体地,在所述步骤S1至所述S3之后,所述方法还包括:步骤S4、基于对所述第k个网址的研判结果,更新第k+1个网址的状态sk+1和Q值矩阵,并计算所述研判效益函数uk以更新所述Q值矩阵:
Figure GDA0003502253130000041
Figure GDA0003502253130000042
其中Q(skk)表示研判系统在状态sk下选择θk时的Q值。
具体地,当满足条件
Figure GDA0003502253130000043
时,所述研判阈值θk为最优研判阈值。
根据本公开的第二方面,提供了一种基于强化学习的恶意网址识别系统。
所述系统包括:
第一研判模块,被配置为,接收第k个网址,利用域名黑名单研判所述第k个网址,所述第k个网址为待研判网址,其中k为正整数。
特征提取模块,被配置为,在所述第k个网址的域名不在所述域名黑名单中的情况下,确定所述第k个网址的优先级,并基于所述优先级确定所述第k个网址的特征向量,具体包括:当所述优先级高于第一优先级时,提取所述第k个网址的网址统计特征,并基于所述网址统计特征构建网址统计特征向量Fk,将所述网址统计特征向量Fk作为所述第k个网址的特征向量;当所述优先级不高于第一优先级时,同时提取所述第k个网址的所述网址统计特征和网页文本特征,并基于所述网址统计特征构建所述网址统计特征向量Fk,以及基于所述网页文本特征构建网页文本特征向量Hk,将所述网址统计特征向量Fk和所述网页文本特征向量Hk共同作为所述第k个网址的特征向量。
第二研判模块,被配置为,基于所述第k个网址的特征向量确定检验统计量Δ,并根据所述检验统计量Δ与所述研判阈值θk的比较结果研判所述第k个网址,其中,通过以下方式确定所述研判阈值θk:提取所述第k个网址之前的N个已研判网址;计算所述N个已研判网址的虚警率
Figure GDA0003502253130000051
和漏报率
Figure GDA0003502253130000052
基于所述虚警率
Figure GDA0003502253130000053
和漏报率
Figure GDA0003502253130000054
构建所述第k个网址的状态
Figure GDA0003502253130000055
以选取满足阈值条件的所述研判阈值θk;其中,k为正整数,N为小于k的正整数。
具体地,所述系统还包括:参数设置模块,被配置为,设置离散化研判阈值θ和研判相关参数,所述研判相关参数包括虚警率权重CF、漏报率权重CM、学习因子α、折扣因子γ和初始化的Q值矩阵,其中:所述离散化研判阈值θ∈X={∈/X}用于选取满足所述阈值条件的所述研判阈值θk,其中0≤∈≤X,∈为整数;所述虚警率权重CF与所述漏报率权重CM用于计算研判效益函数uk;所述Q值矩阵表示为:Q(s,θ),s=[pf(θ),pm(θ)]∈S,θ∈X={∈/X};
设置所述初始化的Q值矩阵具体包括:选取研判历史中ρ个网址研判场景,利用每个所述网址研判场景研判K个网址,K为正整数,对所述ρ个网址研判场景的Q值矩阵求平均后得到Q*,基于所述Q*初始化所述Q值矩阵;所述学习因子α和所述折扣因子γ用于更新所述Q值矩阵。
具体地,所述系统还包括:参数更新模块,被配置为,基于对所述第k个网址的研判结果,更新第k+1个网址的状态sk+1和Q值矩阵,并计算所述研判效益函数uk以更新所述Q值矩阵:
Figure GDA0003502253130000056
Figure GDA0003502253130000057
其中Q(skk)表示研判系统在状态sk下选择θk时的Q值。
具体地,所述第一研判模块还被配置为,在所述第k个网址的域名在所述域名黑名单中的情况下,则所述第k个网址直接被研判为所述恶意网址。
具体地,所述第二研判模块还被配置为:利用如下公式,基于所述第k个网址的特征向量,确定检验统计量Δ:
Figure GDA0003502253130000061
其中
Figure GDA0003502253130000062
为参考网址统计特征向量,
Figure GDA0003502253130000063
为参考网页文本特征向量;与所述研判阈值θk的比较结果研判所述第k个网址具体包括:基于欧式距离确定检验统计量Δ,当所述检验统计量Δ大于所述研判阈值θk时,将所述第k个网址研判为所述恶意网址并存入黑名单库,当所述检验统计量Δ不大于所述研判阈值θk时,将所述第k个网址研判为合法网址。
具体地,当满足条件
Figure GDA0003502253130000064
时,所述研判阈值θk为最优研判阈值。
根据本公开的第三方面,一种存储有指令的非暂时性计算机可读介质,当所述指令由处理器执行时,执行根据本公开第一方面中任一项所述的一种基于强化学习的恶意网址识别方法中的步骤。
综上,本公开的技术方案能够研判识别互联网中的恶意网页,降低用户在进行网页访问时的数据泄露和财产损失风险,且不依赖于训练集的选择,提高研判过程鲁棒性与准确性。
附图说明
在不一定按比例绘制的附图中,相同的附图标记可以在不同的视图中描述相似的部件。具有字母后缀或不同字母后缀的相同附图标记可以表示相似部件的不同实例。附图大体上通过举例而不是限制的方式示出各种实施例,并且与说明书以及权利要求书一起用于对所公开的实施例进行说明。在适当的时候,在所有附图中使用相同的附图标记指代同一或相似的部分。这样的实施例是例证性的,而并非旨在作为本装置或方法的穷尽或排他实施例。
图1示出了根据本公开实施例的一种基于强化学习的恶意网址识别方法的流程图;以及
图2示出了根据本公开实施例的一种基于强化学习的恶意网址识别系统的结构图。
具体实施方式
为使本领域技术人员更好的理解本公开的技术方案,下面结合附图和具体实施方式对本公开作详细说明。下面结合附图和具体实施例对本公开的实施例作进一步详细描述,但不作为对本公开的限定。本文中所描述的各个步骤,如果彼此之间没有前后关系的必要性,则本文中作为示例对其进行描述的次序不应视为限制,本领域技术人员应知道可以对其进行顺序调整,只要不破坏其彼此之间的逻辑性导致整个流程无法实现即可。
下面将结合附图详细说明根据本公开实施例的一种基于强化学习的恶意网址识别方法方案。
图1示出了根据本公开实施例的一种基于强化学习的恶意网址识别方法方法的流程图;如图1所示,所述方法包括:步骤S1、接收第k个网址,利用域名黑名单研判所述第k个网址,所述第k个网址为待研判网址,其中k为正整数;步骤S2、在所述第k个网址的域名不在所述域名黑名单中的情况下,确定所述第k个网址的优先级,并基于所述优先级确定所述第k个网址的特征向量;步骤S3、基于所述第k个网址的特征向量确定检验统计量Δ,并根据所述检验统计量Δ与所述研判阈值θk的比较结果研判所述第k个网址,其中,通过以下方式确定所述研判阈值θk
在所述步骤S1至所述S3之前,所述方法还包括:步骤S0、设置离散化研判阈值θ和研判相关参数,所述研判相关参数包括虚警率权重CF、漏报率权重CM、学习因子α、折扣因子γ和初始化的Q值矩阵。
所述离散化研判阈值θ∈X={∈/X}用于选取满足所述阈值条件的所述研判阈值θk,其中0≤∈≤X,∈为整数。所述虚警率权重CF与漏报率权重CM用于计算研判系统的效益函数uk。所述Q值矩阵具体指,动作效益函数矩阵,即Q值矩阵为二维矩阵,Q(s,θ),s=[pf(θ),pm(θ)]∈S,θ∈X={∈/X}。所述初始化的Q值矩阵的具体方法是,选取研判历史中ρ个类似的网址研判场景,每个研判场景研判K个网址,对ρ个场景的Q值矩阵求平均后得到Q值矩阵Q*,用于初始化研判系统的Q值矩阵,所述所述学习因子α和所述折扣因子γ用于更新Q值矩阵。
具体地,设置离散化研判阈值θ作为研判阈值θk的初始值,并设置研判相关参数。其中,离散化研判阈值θ∈X={∈/X}0≤∈≤X,X为离散化研判阈值量化等级,并且∈为整数,X为包含各个∈/X值的集合。设置研判初始化学习因子α、折扣因子γ、任意离散化研判阈值θ作为研判阈值θk的初始值(即θ0);选取研判历史中ρ=10个类似的网址研判场景,每个研判场景研判K=100个网址,对ρ=10个场景的Q值矩阵求平均后得到Q值矩阵Q*,初始化用于研判的Q值矩阵。
在步骤S1,接收第k个网址,利用域名黑名单研判所述第k个网址,所述第k个网址为待研判网址,其中k为正整数。
在步骤S2,在所述第k个网址的域名在所述域名黑名单中的情况下,则所述第k个网址直接被研判为所述恶意网址。具体地,提取涉诈网址k的域名,若涉诈网址的域名存在于涉诈域名的黑名单库,则研判网址为恶意网址。
在步骤S2,在所述第k个网址的域名不在所述域名黑名单中的情况下,确定所述第k个网址的优先级,并基于所述优先级确定所述第k个网址的特征向量。当所述优先级高于第一优先级时,提取所述第k个网址的网址统计特征,并基于所述网址统计特征构建网址统计特征向量Fk,将所述网址统计特征向量Fk作为所述第k个网址的特征向量。当所述优先级不高于第一优先级时,同时提取所述第k个网址的所述网址统计特征和网页文本特征,并基于所述网址统计特征构建所述网址统计特征向量Fk,以及基于所述网页文本特征构建网页文本特征向量Hk,将所述网址统计特征向量Fk和所述网页文本特征向量Hk共同作为所述第k个网址的特征向量。
具体地,网址统计特征包括:
统计网址长度(URL_len)
网址中点的数目(URL_n_dot)
域名长度(Domain_len)
域名中是否包含IP地址(IP):包含特征值为1,不包含特征值为0
域名中是否包含端口号(Port):包含特征值为1、不包含特征值为0
域名中令牌的数目(n_token)
域名中连字符的数目(n_hyphen)
域名中最长字符的字符数目(max_len)
网址目录的长度(Directory_len)
子目录的令牌数(n_subdir_token)
子目录最长令牌的长度(subdir_max_len)
文件名长度(filename_len)
文件名中点的数目(n_filename_dot)
构建网址特征向量Fk={URL_len,URL_n_dot,Domain_len,IP,Port,n_hyphen,n_token,max_len,Directory_len,n_subdir_token,subdir_max_len,filename_len,n_filename_dot}。
具体地,利用网页爬取技术提取研判网址的网页文本。计算关键词库W每个特定关键词w∈W的TF-IDF值,构建网页文本特征向量Hk。计算公式如下:
Figure GDA0003502253130000101
Figure GDA0003502253130000102
TF-IDF(w)=TF(w)*IDF(w)
其中n(w)是给定的关键词w在网页指定文本出现的次数,nmax是网页出现次数最多的词的出现次数,N0代表语料库中文本的总数,而N(w)代表语料库中包含词w的网页总数。
在步骤S3,基于所述第k个网址的特征向量确定检验统计量Δ,并根据所述检验统计量Δ与所述研判阈值θk的比较结果研判所述第k个网址。其中,通过以下方式确定所述研判阈值θk:提取所述第k个网址之前的N个已研判网址;计算所述N个已研判网址的虚警率
Figure GDA0003502253130000103
和漏报率
Figure GDA0003502253130000104
基于所述虚警率
Figure GDA0003502253130000105
和漏报率
Figure GDA0003502253130000106
构建所述第k个网址的状态
Figure GDA0003502253130000107
以选取满足阈值条件的所述研判阈值θk;其中,k为正整数,N为小于k的正整数。
具体地,对第k-1个至k-N-1的N个研判网址进行统计汇总,计算出虚警率
Figure GDA0003502253130000108
和漏报率
Figure GDA0003502253130000109
构建研判系统在当前时刻的状态
Figure GDA00035022531300001010
以0.9的概率选择具有最大Q值的所述研判阈值θk,以0.1/X的概率随机选择其他满足阈值条件的所述研判阈值θk
利用如下公式,基于所述网址统计特征向量Fk和所述网页文本特征向量Hk,确定检验统计量Δ:
Figure GDA0003502253130000111
其中
Figure GDA0003502253130000112
为参考网址统计特征向量,
Figure GDA0003502253130000113
为参考网页文本特征向量。
与所述研判阈值θk的比较结果研判所述第k个网址具体包括:基于欧式距离确定检验统计量Δ,当所述检验统计量Δ大于所述研判阈值θk时,将所述第k个网址研判为所述恶意网址并存入黑名单库,当所述检验统计量Δ不大于所述研判阈值θk时,将所述第k个网址研判为合法网址,将所述网址统计特征向量Fk更新为参考网址统计特征向量
Figure GDA0003502253130000114
将所述网页文本特征向量Hk更新为参考网页文本特征向量
Figure GDA0003502253130000115
以用于研判第k+1个网址
具体地,若检验统计量Δ大于研判系统设定的阈值,则认定当前的网址为恶意网址,将恶意网址存入黑名单库,否则进行人工研判;若通过人工研判判定属于合法网址。
在所述步骤S1至所述S3之后,所述方法还包括:步骤S4、基于对所述第k个网址的研判结果,更新第k+1个网址的状态sk+1和Q值矩阵,并计算所述研判效益函数uk以更新所述Q值矩阵:
Figure GDA0003502253130000116
Figure GDA0003502253130000117
其中Q(skk)表示研判系统在状态sk下选择θk时的Q值。当满足条件
Figure GDA0003502253130000118
时,所述研判阈值θk为最优研判阈值。
具体地,对第k个至k-N的N个研判网址进行统计汇总,构建下一个研判网址的状态
Figure GDA0003502253130000119
评估本次网址研判的效益函数uk,计算公式如下:
Figure GDA00035022531300001110
更新Q值矩阵,计算公式如下:
Figure GDA0003502253130000121
到第k次更新阈值后,满足:
Figure GDA0003502253130000122
时,阈值θk收敛,θk为最优研判阈值,利用该值进行网址研判。
在一些实施例中,设置X=10,X={0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1};设置α=0.7,δ=0.5,θ0=0.2;设置虚警率Pf(θ)和漏报率Pm(θ)均为离散化的值,Pf(θ)∈[0:0.01:1],Pm(θ)=[0.10:0.05:1]。
具体示例
首先,设置离散化研判阈值,设置参数。
(1)设置离散化研判阈值,阈值被量化为11个等级(X=10),即研判阈值的取值范围为θ∈{0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1},设置虚警率/漏报率的权重系数CF=0.5/CM=1,学习因子α=0.7,折扣因子γ=0.5。
(2)选取研判历史中ρ=10个类似的网址研判场景,每个研判场景研判K=100个网址,对ρ=10个场景的Q值矩阵求平均后得到Q值矩阵Q*,初始化用于研判的Q值矩阵。
其次,利用域名黑名单研判网址。
收到待研判网址k,提取涉诈网址k的域名,若涉诈网址的域名存在于涉诈域名的黑名单库,则研判网址为恶意网址。
设置认证模式,分析网址的统计特征与网页文本特征,分别构建网址特征向量与网页文本特征向量。
研判网址的域名不在黑名单内,分析提取研判网址k的网址统计特征:
统计网址长度(URL_len)
网址中点的数目(URL_n_dot)
域名长度(Domain_len)
域名中是否包含IP地址(IP):包含特征值为1、不包含特征值为0
域名中是否包含端口号(Port):包含特征值为1、不包含特征值为0
域名中令牌的数目(n_token)
域名中连字符的数目(n_hyphen)
域名中最长字符的字符数目(max_len)
网址目录的长度(Directory_len)
子目录的令牌数(n_subdir_token)
子目录最长令牌的长度(subdir_max_len)
文件名长度(filename_len),文件名中点的数目(n_filename_dot)
构建网址特征向量Fk={URL_len,URL_n_dot,Domain_len,IP,Port,n_hyphen,n_token,max_len,Directory_len,n_subdir_token,subdir_max_len,filename_len,n_filename_dot}。
例如,网址“www.naturenilai.com/form2/paypal/webscr.php?cmd=login”
URL=www.naturenilai.com/form2/paypal/webscr.php?cmd=login
Domain=www.naturenilai.com
Directory=/form2/paypal/
Filename=webscr.php
则Fk={54,3,19,0,0,3,0,11,14,2,6,10,1}。
选取研判模式x0∈[1,2],如果x0=2,利用网页爬取技术提取研判网址的网页文本。计算关键词库w∈W每个特定关键词w的TF-IDF值,构建网页文本特征向量Hk。计算公式如下:
Figure GDA0003502253130000131
Figure GDA0003502253130000141
TF-IDF(w)=TF(w)*IDF(w)
n(w)是给定的关键词w在网页指定文本出现的次数,nmax是网页出现次数最多的词的出现次数,N0代表语料库中文本的总数,而N(w)代表语料库中包含词w的网页总数。
例如,关键词W={代刷、秒赞、代挂、刷单、搭建分站、棋牌、电子、赚钱、兼职、招聘、日结}。
再次,设置N=1000,对第k-1个至k-N-1的N个研判网址进行统计汇总,计算出虚警率
Figure GDA0003502253130000142
和漏报率
Figure GDA0003502253130000143
构建在当前时刻的状态
Figure GDA0003502253130000144
以0.9的概率选择具有最大Q值的所述研判阈值θk,以0.1/X的概率随机选择其他满足阈值条件的所述研判阈值θk
计算检验统计量Δ,计算公式如下:
Figure GDA0003502253130000145
检验统计量Δ与设定的研判阈值θk进行比较;若检验统计量Δ大于设定的阈值,则认定当前的网址为恶意网址,将恶意网址存入黑名单库,否则进行人工研判;若通过人工研判判定属于合法网址。
最后,对第k个至k-N的N个研判网址进行统计汇总,构建下一个研判网址的状态
Figure GDA0003502253130000146
观察本次网址研判的效益函数uk,计算公式如下:
Figure GDA0003502253130000147
更新Q值矩阵,计算公式如下:
Figure GDA0003502253130000148
第k次更新阈值后,当满足
Figure GDA0003502253130000151
时,阈值θk收敛,θk为研判系统的最优阈值。
根据本公开的第二方面,提供了一种基于强化学习的恶意网址识别系统。图2示出了根据本公开实施例的一种基于强化学习的恶意网址识别系统的结构图,如图2所示,所述系统200包括:
第一研判模块201,被配置为,接收第k个网址,利用域名黑名单研判所述第k个网址,所述第k个网址为待研判网址,其中k为正整数。
特征提取模块202,被配置为,在所述第k个网址的域名不在所述域名黑名单中的情况下,确定所述第k个网址的优先级,并基于所述优先级确定所述第k个网址的特征向量,具体包括:当所述优先级高于第一优先级时,提取所述第k个网址的网址统计特征,并基于所述网址统计特征构建网址统计特征向量Fk,将所述网址统计特征向量Fk作为所述第k个网址的特征向量;当所述优先级不高于第一优先级时,同时提取所述第k个网址的所述网址统计特征和网页文本特征,并基于所述网址统计特征构建所述网址统计特征向量Fk,以及基于所述网页文本特征构建网页文本特征向量Hk,将所述网址统计特征向量Fk和所述网页文本特征向量Hk共同作为所述第k个网址的特征向量。
第二研判模块203,被配置为,基于所述第k个网址的特征向量确定检验统计量Δ,并根据所述检验统计量Δ与所述研判阈值θk的比较结果研判所述第k个网址,其中,通过以下方式确定所述研判阈值θk:提取所述第k个网址之前的N个已研判网址;计算所述N个已研判网址的虚警率
Figure GDA0003502253130000161
和漏报率
Figure GDA0003502253130000162
基于所述虚警率
Figure GDA0003502253130000163
和漏报率
Figure GDA0003502253130000164
构建所述第k个网址的状态
Figure GDA0003502253130000165
以选取满足阈值条件的所述研判阈值θk;其中,k为正整数,N为小于k的正整数。
具体地,所述系统还包括:参数设置模块204,被配置为,设置离散化研判阈值θ和研判相关参数,所述研判相关参数包括虚警率权重CF、漏报率权重CM、学习因子α、折扣因子γ和初始化的Q值矩阵,其中:所述离散化研判阈值θ∈X={∈/X}用于选取满足所述阈值条件的所述研判阈值θk,其中0≤∈≤X,∈为整数;所述虚警率权重CF与所述漏报率权重CM用于计算研判效益函数uk;所述Q值矩阵表示为:Q(s,θ),s=[pf(θ),pm(θ)]∈S,θ∈X={∈/X};设置所述初始化的Q值矩阵具体包括:选取研判历史中ρ个网址研判场景,利用每个所述网址研判场景研判K个网址,K为正整数,对所述ρ个网址研判场景的Q值矩阵求平均后得到Q*,基于所述Q*初始化所述Q值矩阵;所述学习因子α和所述折扣因子γ用于更新所述Q值矩阵。
具体地,所述系统还包括:参数更新模块205,被配置为,基于对所述第k个网址的研判结果,更新第k+1个网址的状态sk+1和Q值矩阵,并计算所述研判效益函数uk以更新所述Q值矩阵:
Figure GDA0003502253130000166
Figure GDA0003502253130000167
其中Q(skk)表示研判系统在状态sk下选择θk时的Q值。
具体地,所述第一研判模块201还被配置为,在所述第k个网址的域名在所述域名黑名单中的情况下,则所述第k个网址直接被研判为所述恶意网址。
具体地,所述第二研判模块203还被配置为:利用如下公式,基于所述第k个网址的特征向量,确定检验统计量Δ:
Figure GDA0003502253130000171
其中
Figure GDA0003502253130000172
为参考网址统计特征向量,
Figure GDA0003502253130000173
为参考网页文本特征向量;与所述研判阈值θk的比较结果研判所述第k个网址具体包括:基于欧式距离确定检验统计量Δ,当所述检验统计量Δ大于所述研判阈值θk时,将所述第k个网址研判为所述恶意网址并存入黑名单库,当所述检验统计量Δ不大于所述研判阈值θk时,将所述第k个网址研判为合法网址。
具体地,当满足条件
Figure GDA0003502253130000174
时,所述研判阈值θk为最优研判阈值。
根据本公开的第三方面,一种存储有指令的非暂时性计算机可读介质,当所述指令由处理器执行时,执行根据本公开第一方面中任一项所述的一种基于强化学习的恶意网址识别方法中的步骤。
综上,本公开的技术方案能够研判识别互联网中的恶意网页,降低用户在进行网页访问时的数据泄露和财产损失风险,且不依赖于训练集的选择,提高研判过程鲁棒性与准确性。
注意,根据本公开的各个实施例中的各个模块,可以实现为存储在存储器上的计算机可执行指令,由处理器执行时可以实现相应的步骤;也可以实现为具有相应逻辑计算能力的硬件;也可以实现为软件和硬件的组合(固件)。在一些实施例中,处理器可以实现为FPGA、ASIC、DSP芯片、SOC(片上系统)、MPU(例如但不限于Cortex)、等中的任何一种。处理器可以通信地耦合到存储器并且被配置为执行存储在其中的计算机可执行指令。存储器可以包括只读存储器(ROM)、闪存、随机存取存储器(RAM)、诸如同步DRAM(SDRAM)或Rambus DRAM的动态随机存取存储器(DRAM)、静态存储器(例如,闪存、静态随机存取存储器)等,其上以任何格式存储计算机可执行指令。计算机可执行指令可以被处理器访问,从ROM或者任何其他合适的存储位置读取,并加载到RAM中供处理器执行,以实现根据本公开中的各个实施例。
此外,尽管已经在本文中描述了示例性实施例,其范围包括任何和所有基于本公开的具有等同元件、修改、省略、组合(例如,各种实施例交叉的方案)、改编或改变的实施例。权利要求书中的元件将被基于权利要求中采用的语言宽泛地解释,并不限于在本说明书中或本申请的实施期间所描述的示例,其示例将被解释为非排他性的。因此,本说明书和示例旨在仅被认为是示例,真正的范围和精神由以下权利要求以及其等同物的全部范围所指示。
以上描述旨在是说明性的而不是限制性的。例如,上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外,在上述具体实施方式中,各种特征可以被分组在一起以简单化本公开。这不应解释为一种不要求保护的公开的特征对于任一权利要求是必要的意图。相反,本发明的主题可以少于特定的公开的实施例的全部特征。从而,以下权利要求书作为示例或实施例在此并入具体实施方式中,其中每个权利要求独立地作为单独的实施例,并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。

Claims (8)

1.一种基于强化学习的恶意网址识别方法,其特征在于,所述方法包括:
步骤S1、接收第k个网址,利用域名黑名单研判所述第k个网址,所述第k个网址为待研判网址,其中k为正整数;
步骤S2、在所述第k个网址的域名不在所述域名黑名单中的情况下,确定所述第k个网址的优先级,并基于所述优先级确定所述第k个网址的特征向量,具体包括:
当所述优先级高于第一优先级时,提取所述第k个网址的网址统计特征,并基于所述网址统计特征构建网址统计特征向量Fk,将所述网址统计特征向量Fk作为所述第k个网址的特征向量;
当所述优先级不高于第一优先级时,同时提取所述第k个网址的所述网址统计特征和网页文本特征,并基于所述网址统计特征构建所述网址统计特征向量Fk,以及基于所述网页文本特征构建网页文本特征向量Hk,将所述网址统计特征向量Fk和所述网页文本特征向量Hk共同作为所述第k个网址的特征向量;
步骤S3、利用如下公式,基于所述第k个网址的特征向量,确定检验统计量Δ:
Figure FDA0003502253120000011
其中
Figure FDA0003502253120000012
为参考网址统计特征向量,
Figure FDA0003502253120000013
为参考网页文本特征向量,x0为研判模式且x0∈[1,2],x0为2时,表示利用网页爬取技术提取研判网址的网页文本,x0为1时,表示不利用网页爬取技术提取研判网址的网页文本;
并根据所述检验统计量Δ与所述研判阈值θk的比较结果研判所述第k个网址,其中,通过以下方式确定所述研判阈值θk
提取所述第k个网址之前的N个已研判网址;
计算所述N个已研判网址的虚警率
Figure FDA0003502253120000014
和漏报率
Figure FDA0003502253120000015
基于所述虚警率
Figure FDA0003502253120000021
和漏报率
Figure FDA0003502253120000022
构建所述第k个网址的状态
Figure FDA0003502253120000023
以选取满足阈值条件的所述研判阈值θk,其中,k为正整数,N为小于k的正整数;
根据所述检验统计量Δ与所述研判阈值θk的比较结果研判所述第k个网址具体包括:
基于欧式距离确定检验统计量Δ,
当所述检验统计量Δ大于所述研判阈值θk时,将所述第k个网址研判为所述恶意网址并存入黑名单库,
当所述检验统计量Δ不大于所述研判阈值θk时,将所述第k个网址研判为合法网址。
2.根据权利要求1所述的一种基于强化学习的恶意网址识别方法,其特征在于,在所述步骤S1至所述S3之前,所述方法还包括:
步骤S0、设置离散化研判阈值θ作为研判阈值θk的初始值,并设置研判相关参数,所述研判相关参数包括虚警率权重CF、漏报率权重CM、学习因子α、折扣因子γ和初始化的Q值矩阵,其中:
所述离散化研判阈值θ∈X={∈/X}用于从中选取满足所述阈值条件的所述研判阈值θk的初始值,其中,X为离散化研判阈值量化等级,0≤∈≤X,∈为整数,X为由各个∈/X值组成的集合;
所述虚警率权重CF与所述漏报率权重CM用于计算研判效益函数uk
所述Q值矩阵表示为:
Q(s,θ),s=[pf(θ),pm(θ)]∈S,θ∈X={∈/X},
设置所述初始化的Q值矩阵具体包括:选取研判历史中ρ个网址研判场景,其中,ρ为研判历史中具有相似网址研判场景的个数,利用每个所述网址研判场景研判K个网址,K为正整数,对所述ρ个网址研判场景的Q值矩阵求平均后得到Q*,基于所述Q*初始化所述Q值矩阵;
所述学习因子α和所述折扣因子γ用于更新所述Q值矩阵。
3.根据权利要求2所述的一种基于强化学习的恶意网址识别方法,其特征在于,在所述步骤S2,在所述第k个网址的域名在所述域名黑名单中的情况下,则所述第k个网址直接被研判为所述恶意网址。
4.根据权利要求1所述的一种基于强化学习的恶意网址识别方法,其特征在于,在所述步骤S1至所述S3之后,所述方法还包括:
步骤S4、基于对所述第k个网址的研判结果,更新第k+1个网址的状态sk+1和Q值矩阵,并计算所述研判效益函数uk以更新所述Q值矩阵:
Figure FDA0003502253120000031
Figure FDA0003502253120000032
其中Q(sk,θk)表示研判系统在状态sk下选择θk时的Q值。
5.根据权利要求1所述的一种基于强化学习的恶意网址识别方法,其特征在于,当满足条件
Figure FDA0003502253120000033
时,所述研判阈值θk为最优研判阈值。
6.一种基于强化学习的恶意网址识别系统,其特征在于,所述系统包括:
第一研判模块,被配置为,接收第k个网址,利用域名黑名单研判所述第k个网址,所述第k个网址为待研判网址,其中k为正整数;
特征提取模块,被配置为,在所述第k个网址的域名不在所述域名黑名单中的情况下,确定所述第k个网址的优先级,并基于所述优先级确定所述第k个网址的特征向量,具体包括:
当所述优先级高于第一优先级时,提取所述第k个网址的网址统计特征,并基于所述网址统计特征构建网址统计特征向量Fk,将所述网址统计特征向量Fk作为所述第k个网址的特征向量;
当所述优先级不高于第一优先级时,同时提取所述第k个网址的所述网址统计特征和网页文本特征,并基于所述网址统计特征构建所述网址统计特征向量Fk,以及基于所述网页文本特征构建网页文本特征向量Hk,将所述网址统计特征向量Fk和所述网页文本特征向量Hk共同作为所述第k个网址的特征向量;
第二研判模块,被配置为,
利用如下公式,基于所述第k个网址的特征向量,确定检验统计量Δ:
Figure FDA0003502253120000041
其中
Figure FDA0003502253120000042
为参考网址统计特征向量,
Figure FDA0003502253120000043
为参考网页文本特征向量,x0为研判模式且x0∈[1,2],x0为2时,表示利用网页爬取技术提取研判网址的网页文本,x0为1时,表示不利用网页爬取技术提取研判网址的网页文本;
并根据所述检验统计量Δ与所述研判阈值θk的比较结果研判所述第k个网址,其中,通过以下方式确定所述研判阈值θk
提取所述第k个网址之前的N个已研判网址;
计算所述N个已研判网址的虚警率
Figure FDA0003502253120000044
和漏报率
Figure FDA0003502253120000045
基于所述虚警率
Figure FDA0003502253120000046
和漏报率
Figure FDA0003502253120000047
构建所述第k个网址的状态
Figure FDA0003502253120000048
以选取满足阈值条件的所述研判阈值θk,其中,k为正整数,N为小于k的正整数;
根据所述检验统计量Δ与所述研判阈值θk的比较结果研判所述第k个网址具体包括:
基于欧式距离确定检验统计量Δ,
当所述检验统计量Δ大于所述研判阈值θk时,将所述第k个网址研判为所述恶意网址并存入黑名单库,
当所述检验统计量Δ不大于所述研判阈值θk时,将所述第k个网址研判为合法网址。
7.根据权利要求6所述的一种基于强化学习的恶意网址识别系统,其特征在于,所述系统还包括:
参数设置模块,被配置为,设置离散化研判阈值θ作为研判阈值θk的初始值,并设置研判相关参数,所述研判相关参数包括虚警率权重CF、漏报率权重CM、学习因子α、折扣因子γ和初始化的Q值矩阵,其中:
所述离散化研判阈值θ∈X={∈/X}用于从中选取满足所述阈值条件的所述研判阈值θk的初始值,其中,X为离散化研判阈值量化等级,0≤∈≤X,∈为整数,X为由各个∈/X值组成的集合;
所述虚警率权重CF与所述漏报率权重CM用于计算研判效益函数uk
所述Q值矩阵表示为:
Q(s,θ),s=[pf(θ),pm(θ)]∈S,θ∈X={∈/X},
设置所述初始化的Q值矩阵具体包括:选取研判历史中ρ个网址研判场景,其中,ρ为研判历史中具有相似网址研判场景的个数,利用每个所述网址研判场景研判K个网址,K为正整数,对所述ρ个网址研判场景的Q值矩阵求平均后得到Q*,基于所述Q*初始化所述Q值矩阵;
所述学习因子α和所述折扣因子γ用于更新所述Q值矩阵;
参数更新模块,被配置为,基于对所述第k个网址的研判结果,更新第k+1个网址的状态sk+1和Q值矩阵,并计算所述研判效益函数uk以更新所述Q值矩阵:
Figure FDA0003502253120000051
Figure FDA0003502253120000061
其中Q(sk,θk)表示研判系统在状态sk下选择θk时的Q值。
8.一种存储有指令的非暂时性计算机可读介质,其特征在于,当所述指令由处理器执行时,执行根据权利要求1-5中任一项所述的一种基于强化学习的恶意网址识别方法中的步骤。
CN202110575900.9A 2021-05-26 2021-05-26 一种基于强化学习的恶意网址识别方法、系统和介质 Active CN113315766B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110575900.9A CN113315766B (zh) 2021-05-26 2021-05-26 一种基于强化学习的恶意网址识别方法、系统和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110575900.9A CN113315766B (zh) 2021-05-26 2021-05-26 一种基于强化学习的恶意网址识别方法、系统和介质

Publications (2)

Publication Number Publication Date
CN113315766A CN113315766A (zh) 2021-08-27
CN113315766B true CN113315766B (zh) 2022-03-29

Family

ID=77374850

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110575900.9A Active CN113315766B (zh) 2021-05-26 2021-05-26 一种基于强化学习的恶意网址识别方法、系统和介质

Country Status (1)

Country Link
CN (1) CN113315766B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530562A (zh) * 2013-10-23 2014-01-22 腾讯科技(深圳)有限公司 一种恶意网站的识别方法和装置
CN105635126B (zh) * 2015-12-24 2018-10-09 北京奇虎科技有限公司 恶意网址访问防护方法、客户端、安全服务器及系统
CN106095781A (zh) * 2016-05-26 2016-11-09 北京小米移动软件有限公司 恶意网站识别方法及装置
CN109756467B (zh) * 2017-11-07 2021-04-27 中国移动通信集团广东有限公司 一种钓鱼网站的识别方法及装置
CN111222031A (zh) * 2019-11-22 2020-06-02 成都市映潮科技股份有限公司 一种网站判别方法及系统

Also Published As

Publication number Publication date
CN113315766A (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN108965245B (zh) 基于自适应异构多分类模型的钓鱼网站检测方法和系统
TWI673625B (zh) 統一資源定位符(url)攻擊檢測方法、裝置以及電子設備
US20190019058A1 (en) System and method for detecting homoglyph attacks with a siamese convolutional neural network
CN110602113B (zh) 一种基于深度学习的层次化钓鱼网站检测方法
EP3703329B1 (en) Webpage request identification
CN111818198B (zh) 域名检测方法、域名检测装置和设备以及介质
CN108038173B (zh) 一种网页分类方法、系统及一种网页分类设备
CN109840413B (zh) 一种钓鱼网站检测方法及装置
CN113269228B (zh) 一种图网络分类模型的训练方法、装置、系统及电子设备
CN110572359A (zh) 基于机器学习的钓鱼网页检测方法
CN112884204B (zh) 网络安全风险事件预测方法及装置
CN113132410A (zh) 一种用于检测钓鱼网址的方法
CN110958244A (zh) 一种基于深度学习的仿冒域名检测方法及装置
CN110855716B (zh) 一种面向仿冒域名的自适应安全威胁分析方法及系统
CN111967503A (zh) 多类型异常网页分类模型的构建方法、异常网页检测方法
CN114372267B (zh) 一种基于静态域的恶意网页识别检测方法、计算机及存储介质
US20220377107A1 (en) System and method for detecting phishing-domains in a set of domain name system (dns) records
CN112948725A (zh) 基于机器学习的钓鱼网站url检测方法及系统
He et al. Malicious domain detection via domain relationship and graph models
CN111654504A (zh) 一种dga域名检测方法及装置
CN113904834B (zh) 基于机器学习的xss攻击检测方法
CN113315766B (zh) 一种基于强化学习的恶意网址识别方法、系统和介质
Valiyaveedu et al. Survey and analysis on AI based phishing detection techniques
CN117614644A (zh) 恶意网址识别方法、电子设备及存储介质
CN115001763B (zh) 钓鱼网站攻击检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant