CN110766165A - 用于恶意url检测的在线主动机器学习方法 - Google Patents

用于恶意url检测的在线主动机器学习方法 Download PDF

Info

Publication number
CN110766165A
CN110766165A CN201911010913.0A CN201911010913A CN110766165A CN 110766165 A CN110766165 A CN 110766165A CN 201911010913 A CN201911010913 A CN 201911010913A CN 110766165 A CN110766165 A CN 110766165A
Authority
CN
China
Prior art keywords
url
online
malicious
current
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911010913.0A
Other languages
English (en)
Other versions
CN110766165B (zh
Inventor
王子涵
翟婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangzhou University
Original Assignee
Yangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangzhou University filed Critical Yangzhou University
Priority to CN201911010913.0A priority Critical patent/CN110766165B/zh
Publication of CN110766165A publication Critical patent/CN110766165A/zh
Application granted granted Critical
Publication of CN110766165B publication Critical patent/CN110766165B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了机器学习和网络信息安全技术领域内的一种用于恶意URL检测的在线主动机器学习方法,包括以下步骤:步骤1)当互联网用户要访问一个URL时,利用自动特征提取器,对该URL进行特征提取,构成该URL的特征向量;步骤2)使用分类器对特征向量进行在线预测,判断是否为恶意;步骤3)在线预测结束后,进入标记决策阶段,判断是否对当前的URL进行标记,得到决策变量;步骤4)获得完整的URL数据信息后,利用在线模型更新程序修正当前的分类器,得到最新的分类器;步骤5)回到步骤1),等待用户浏览器发出新一轮URL请求,本发明在同等的标记选择比率下,能取得更高的在线检测准确率。

Description

用于恶意URL检测的在线主动机器学习方法
技术领域
本发明涉及一种在线主动机器学习方法,特别涉及用于恶意URL检测的在线主动机器学习方法,属于机器学习和网络信息安全技术领域。
背景技术
21世纪,互联网信息技术的飞速发展不仅为全球商业带来巨大的盈利机会,也为犯罪分子们创造了新的商机。互联网上每天产生的大量网站中很多是恶意网站,例如欺诈网站贩卖假冒伪劣产品,钓鱼网站试图骗取用户的特定敏感信息以谋取利益,流氓网站在用户的操作系统中安装恶意软件等。尽管犯罪形式多种多样,但是这些犯罪活动有一个共同点,就是通过一个URL(统一资源定位符)将用户带到恶意网站进而实施犯罪活动。事实上到目前为止,恶意网站已经给大量的用户带来了巨额的财产损失,因此有效识别或检测恶意网站是一个重要的互联网安全问题。
目前在浏览器和网页过滤器中广泛应用的恶意URL检测技术是黑名单方法,该方法维护一个已知的恶意URLs列表,通过查询一个URL是否在黑名单中来判断该URL是否是恶意的。由于查询的开销小,黑名单方法非常高效。但是互联网上每天都会生成大量新的URL,而黑名单很难做到实时更新,因此黑名单不能检测到互联网上新生成的恶意URL,容易使用户曝露在新的威胁中。
为解决上述问题,研究人员开始应用机器学习技术进行恶意URLs检测。一类方法将URLs检测建模为全监督的离线分类问题:搜集大量的URLs数据,进行标记、特征提取,构造一个训练数据集,然后基于该数据集训练一个二分类器来识别URL是否是恶意的。这类方法的缺点是:1)可拓展性差,难以处理海量的URLs数据;2)恶意URLs的特征会随着时间发生变化,而以离线方式训练得到的分类器由于是在旧的URLs数据集上训练得到的,不能适应最新的数据变化,其性能会逐渐退化。
另一类方法将URLs检测建模为全监督的在线分类问题,以数据流的形式增量处理每个URLs数据:在访问一个新的URL前,运用当前分类器对该URL特征提取后得到的特征向量进行在线预测,以识别该URL是否是恶意的,当获得该URLs的真实类标签(恶意或正常)后,对当前分类器进行增量更新,以提高其未来的预测性能。在线方法不需要对已经处理过的URLs数据进行存储和再处理,因此是内存高效的方法,可扩展性好。同时,由于不断利用最新的数据在线更新预测模型,在线方法能适应URLs数据的变化。
上述的离线方法和在线方法都是全监督的,都需要依赖大量已标记的正常和恶意URLs数据才能构建一个好的分类模型,而对URLs进行可靠标记经常需要花费大量的人力资源,尤其是有时需要网络安全专家的介入,导致数据标记的代价太大。
为减少标记的代价,研究人员最近开始探索如何使用少量标记的URLs数据来构建一个好的分类模型,即在线主动机器学习方法。该方法与全监督的在线学习方法的差别在于:在主动学习的设置中,在线预测结束后,算法需要做出决定是否对当前的URL进行标记。如果决定标记,就可以利用该URL的完整信息更新预测模型;否则,不更新预测模型。
现有的在线主动机器学习方法存在的缺点是:选择是否对一个URL进行标记时,仅考虑对该URL预测的不确定程度或置信度,没有考虑该URLs的特征向量本身包含的特征的辨别能力。事实上,最近的研究已经表明,不频繁出现的特征往往更具有信息量和识别能力,有助于提高预测性能,因此包含很多不频繁出现的特征的URL在标记策略中应当予以更多的关注。
发明内容
本发明的目的是提供一种用于恶意URL检测的在线主动机器学习方法,该方法能综合利用预测的不确定性和URLs特征的辨别能力来指导URLs标记选择,使得即使利用少量标记过的关键数据,方法仍能够取得好的检测性能。
本发明的目的是这样实现的:一种用于恶意URL检测的在线主动机器学习方法,包括以下步骤:
步骤1)第t轮,t=1,2,…∞,当互联网用户要访问一个URL时,首先利用自动特征提取器,对该URL进行分析,提取出词汇特征、基于主机的特征和DNS特征,将所有的特征连接在一起,构成该URL的特征向量xt
步骤2)使用最新的分类器wt对xt进行在线预测:其中sgn是符号函数;如果
Figure BDA0002244180710000032
则预测该URL是恶意的,向用户发出警告;否则,预测该URL是正常的;
步骤3)在线预测结束后,进入标记决策阶段,判断是否对当前的URL进行标记;记Zt表示标记决策变量;如果Zt=1,则请网络安全专家进行标记,从而得到该URL的真实类标记yt∈{+1,-1};如果Zt=0,则决定不标记,不更新在线分类器,然后进入到步骤(5);
步骤4)获得完整的URL数据信息(xt,yt)后,利用在线模型更新程序修正当前的分类器wt,得到最新的分类器wt+1
步骤5)回到步骤(1),等待用户浏览器发出第t+1轮的URL请求。
自动特征抽取程序负责从用户请求的URL中提取关键特征,转化为URL对应的特征向量;本发明可以采用任意现存的URL自动特征抽取技术,抽取3种类型的特征:a)基于URL字符串提取出的词汇特征,如主机名、顶级域名、主域名、主机名长度等;b)利用网页自动爬虫工具获得的URL对应的网站所在的主机特征,如域名注册人、主机地理位置、IP地址前缀等、网站连接速度等;c)与DNS有关的特征,如生存周期值TTL等。所抽取的特征不限于上述类型,主要依赖于使用的特征抽取方法。通过将不同类型的特征组合在一起,得到当前URL的特征表示向量xt
作为本发明的进一步限定,步骤3)中标记决策程序具体步骤如下:
3-1)接收到当前URL的特征向量xt
3-2)计算
Figure BDA0002244180710000041
其中wt是当前的预测模型,矩阵Ht-1是自适应次梯度算法中所维护的对角矩阵,存储当前特征的频度信息以衡量特征的辨别能力;
3-3)令t=pt-vt
3-4)如果γt>0,则从参数为δ/δ+γt)的伯努利分布中提取一个随机量Zt∈{0,1};如果γt≤0,则Zt=1;其中δ>0是采样参数;
步骤3-2)中,pt表示当前xt被预测的置信度,pt的值越小,表明预测的置信度越小;vt则表示当前xt中特征的辨别能力,vt的值越小,意味着xt中的非零特征出现的频率越高,表明xt中特征的辨别能力越弱;当xt被预测的置信度pt较小,同时xt包含的特征辨别能力vt较大时,根据步骤3-4)的采样规则,xt被标记的概率就越大,特别地,当vt很大时,即vt>pt时,则直接决定对xt进行标记。
标记决策程序旨在选择关键的URL进行标记,使得方法即便使用少量已标记的URL数据信息仍能学习到一个好的分类模型;绝大部分现有的方法基于不确定性采样来进行标记选择:利用当前URL的特征向量xt到当前预测模型wt的距离,即
Figure BDA0002244180710000051
来衡量预测的不确定性程度,然后从参数为δ/(δ+pt)的伯努利分布中提取一个随机量Zt∈{0,1},其中δ>0是一个用户预定义的采样参数,用于控制标记查询比例;观察到,此种标记选择策略仅仅关注当前预测置信度不高的URLs。
作为本发明的进一步限定,步骤4)的具体步骤如下:
4-1)接收到完整的URL数据信息(xt,yt);
4-2)计算得到损失函数ft(w)在当前wt处的次梯度其中ft(w)=max{0,1-ytwTxt}是铰链损失,衡量对(xt,yt)预测的不准确程度;
4-3)将t=1时刻到当前时刻所获得的所有次梯度信息gt都存储在矩阵G1:t=[g1g2 … gt]中,根据该矩阵计算每个特征i的频度信息st,i=||G1:,i||2,其中G1:t,i表示矩阵G1:t的第i个行向量,st,i是向量st的第i个元素;
4-4)将特征频度信息存储在对角矩阵Ht=αI+diag(st)中,其中diag(st)表示将向量st的每个元素依次放在对角矩阵的主对角线上,α是一个预定义常数,I是单位阵;
4-5)设置函数ψt(w)=(1/2)wTHtw,选择如下一种更新规则对预测模型进行在线更新:
(a)ARDA更新规则:
Figure BDA0002244180710000053
(b)ACMD更新规则:
Figure BDA0002244180710000054
其中η是学习步长;函数
Figure BDA0002244180710000061
是正则化函数,用于控制模型w的复杂度,参数λ是一个预定义的常数;
Figure BDA0002244180710000062
表示截止到t时刻邀请专家进行标记的次数,k为迭代变量;
Figure BDA0002244180710000063
是w和wt之间关于函数ψt的Bregman距离,定义如下:
其中
Figure BDA0002244180710000065
表示函数ψt在wt处的梯度。
在线模型更新程序旨在利用最新获得的完整URL数据信息来改进当前的预测模型,使得方法能适应最新的URL数据特征的变化;本发明改进Duchi等人提出的两个自适应次梯度算法作为在线模型更新程序,两个算法分别是自适应正则化对偶平均算法(Adaptive Regularized Dual Averaging,简称ARDA)和自适应组合镜像下降算法(Adaptive Composite Mirror Descent,简称ACMD),属于全监督的算法,都能收敛到假设空间中的最优预测模型;将ARDA和ACMD算法分别拓展到URL标记信息受限的主动学习设置中。
作为本发明的进一步限定,在运行前需要对在线预测模型和频度信息矩阵进行初始化,包括两种初始化方法:一种是没有任何先验知识的情况下,直接令w1=0和H0=αI,此时方法从零开始学习;另一种是利用用户黑名单列表中的信息构建一个同时包含恶意和正常URLs的训练集,基于该训练集利用全监督的自适应次梯度算法得到初始预测模型w1和H0
与现有技术相比,本发明的有益效果在于,标记决策程序选择标记的URL更关键,能显著提高在线分类器的性能,从而使得在同等的URL标记比率下,取得比现有的在线主动学习方法更高的在线检测准确率;此外本发明方法使用极少的URL标记信息取得的在线预测准确率可比于全监督的自适应次梯度方法使用所有的URL标记信息取得的在线预测准确率。
附图说明
图1为本发明工作流程图。
图2为本发明的方法与先进的APA(Active Passive Aggressive learning)和SOAL(Second-order Online Active Learning)算法在url_day0数据集上在不同的标记选择比率下的在线预测准确率的对比图。
图3为本发明方法与全监督的自适应次梯度算法和基于不确定采样的自适应次梯度算法在url_day0数据集上在4个标记选择比率下的在线预测准确率及其标准差的对比表。
具体实施方式
下面结合具体实施例对本发明做进一步说明。
如图1所示的一个基于在线主动机器学习的恶意URL检测方法,具体的实施步骤如下。
1.设置方法运行所需要的超参数:α=1,η=0.01,λ=1e-5,δ=2^(-2);超参数的合适取值因URLs数据特征而异,改变参数δ的取值能够调节本方法的标记选择比例。
2.初始化操作:w1=0,H0=αI,N0=0,u0=0,对于i=1,2…d,令s0,i=0。
3.对于第t次URL请求,其中t=1,2,…∞,按照如下步骤处理:
3.1.分析当前URL,进行自动特征提取,得到该URL对应的特征向量xt
3.2.在线预测:令预测类标
Figure BDA0002244180710000071
其中sgn是符号函数。如果则预测当前URL是恶意的,否则预测当前URL是正常的;
3.3.标记决策:令
Figure BDA0002244180710000073
Figure BDA0002244180710000074
γt=pt-vt;如果γt>0,则从参数为δ/(δ+γt)的伯努利分布中提取一个随机量Zt∈{0,1};如果γt≤0,则Zt=1;
3.4.如果Zt=1,则邀请专家对xt进行标记,从而获得xt的真实类标yt∈{+1,-1},然后对预测模型进行在线更新:
3.4.1.计算瞬时损失函数ft(w)在wt处的次梯度:
Figure BDA0002244180710000081
3.4.2.对于每个特征维度i=1,2…d,计算
Figure BDA0002244180710000082
这等价于令G1:t=[g1 g2 … gt],st,i=||G1:,i||2
3.4.3.令Ht=αI+diag(st),ψt(w)=(1/2)wTHtw;
3.4.4.令Nt=Nt-1+Zt,ut=ut-1+Ztgt,这等价于令
Figure BDA0002244180710000083
Figure BDA0002244180710000084
其中,ut是一个中间变量;
3.4.5.使用ARDA或ACMD更新规则来更新在线预测模型:
(a)ARDA更新规则:
Figure BDA0002244180710000085
上述最小化问题的闭式解如下:
wt+1=-η(ληNtI+Ht)-1ut
(b)ACMD更新规则:
Figure BDA0002244180710000086
同样可以得到该问题的闭式解如下:
wt+1=(ληI+Ht)-1(Htwt-ηgt)
3.5.如果Zt=0,则不对xt进行标记,令gt=0,wt+1=wt,保持预测模型不变。
3.6.等待下一轮的URL请求,回到步骤3.1。
当参数δ的取值趋于正无穷时,本方法的标记选择策略以概率1总是决定对当前的URL进行标记,此时本方法就变成全监督的自适应次梯度方法。
实验部分选用Url_day0数据集来验证所提方法的有效性。Url_day0数据集中,每一个行向量均是对一个URL进行特征提取之后得到的特征向量。选择先进的APA(ActivePassive Aggressive learning)和SOAL(Second-order Online Active Learning)作为对比方法,主要比较在相同的标记选择比例ratio下,每个方法所能取得的在线预测准确率acc:
Figure BDA0002244180710000091
其中T是在线预测的总次数;1[]是一个指示函数,如果
Figure BDA0002244180710000092
则指示函数值为1,表示第t次的在线预测正确,否则为0,表示预测错误;NT的值表示邀请专家进行标记的次数。为表明本发明方法即便使用少量的标记信息也能取得好的分类性能,也与全监督的自适应次梯度算法和基于不确定采样的自适应次梯度算法进行对比。所有对比实验均执行20次,每次执行时随机打乱Url_day0数据集中数据的顺序,以消除方法对数据顺序的影响,最后,20次运行的平均预测准确率及其标准差被记录。
图2为本发明的方法与APA和SOAL算法在url_day0数据集上在不同的标记选择比率下的在线预测准确率对比图;从该图可观察到,在相同的标记选择比例下,使用ARDA更新或ACMD更新的本发明方法均比APA和SOAL算法能取得更高的在线预测准确率。
图3为本发明的方法与全监督的自适应次梯度算法和基于不确定采样的自适应次梯度算法在url_day0数据集上在4个标记选择比率下的在线预测准确率对比表。从该图中可以看到,本发明方法在给定的标记选择比例下,均比基于不确定采样的自适应次梯度算法表现更好,而且本发明方法使用极少的URL标记信息取得的在线预测准确率可比于全监督的自适应次梯度方法使用所有的URL标记信息取得的在线预测准确率。
本发明并不局限于上述实施例,在本发明公开的技术方案的基础上,本领域的技术人员根据所公开的技术内容,不需要创造性的劳动就可以对其中的一些技术特征作出一些替换和变形,这些替换和变形均在本发明的保护范围内。

Claims (4)

1.一种用于恶意URL检测的在线主动机器学习方法,其特征在于,包括以下步骤:
步骤1)第t轮,t=1,2,...∞,当互联网用户要访问一个URL时,首先利用自动特征提取器,对该URL进行分析,提取出词汇特征、基于主机的特征和DNS特征,将所有的特征连接在一起,构成该URL的特征向量xt
步骤2)使用最新的分类器wt对xt进行在线预测:其中sgn是符号函数;如果
Figure FDA0002244180700000012
则预测该URL是恶意的,向用户发出警告;否则,预测该URL是正常的;
步骤3)在线预测结束后,进入标记决策阶段,判断是否对当前的URL进行标记;记Zt表示标记决策变量;如果Zt=1,则请网络安全专家进行标记,从而得到该URL的真实类标记yt∈{+1,-1};如果Zt=0,则决定不标记,不更新在线分类器,然后进入到步骤(5);
步骤4)获得完整的URL数据信息(xt,yt)后,利用在线模型更新程序修正当前的分类器wt,得到最新的分类器wt+1
步骤5)回到步骤(1),等待用户浏览器发出第t+1轮的URL请求。
2.根据权利要求1所述的用于恶意URL检测的在线主动机器学习方法,其特征在于,步骤3)中标记决策程序具体步骤如下:
3-1)接收到当前URL的特征向量xt
3-2)计算
Figure FDA0002244180700000013
其中wt是当前的预测模型,矩阵Ht-1是自适应次梯度算法中所维护的对角矩阵,存储当前特征的频度信息以衡量特征的辨别能力;
3-3)令γt=pt-vt
3-4)如果γt>0,则从参数为δ/(δ+γt)的伯努利分布中提取一个随机量Zt∈{0,1};如果γt≤0,则Zt=1;其中δ>0是采样参数;
步骤3-2)中,pt表示当前xt被预测的置信度,pt的值越小,表明预测的置信度越小;vt则表示当前xt中特征的辨别能力,vt的值越小,意味着xt中的非零特征出现的频率越高,表明xt中特征的辨别能力越弱;当xt被预测的置信度pt较小,同时xt包含的特征辨别能力vt较大时,根据步骤3-4)的采样规则,xt被标记的概率就越大,特别地,当vt很大时,即vt>pt时,则直接决定对xt进行标记。
3.根据权利要求1或2所述的用于恶意URL检测的在线主动机器学习方法,其特征在于,步骤4)的具体步骤如下:
4-1)接收到完整的URL数据信息(xt,yt);
4-2)计算得到损失函数ft(w)在当前wt处的次梯度其中
Figure FDA0002244180700000022
是铰链损失,衡量对(xt,yt)预测的不准确程度;
4-3)将t=1时刻到当前时刻所获得的所有次梯度信息gt都存储在矩阵G1:t=[g1g2…gt]中,根据该矩阵计算每个特征i的频度信息st,i=||G1:t,i||2,其中G1:t,i表示矩阵G1:t的第i个行向量,st,i是向量st的第i个元素;
4-4)将特征频度信息存储在对角矩阵Ht=αI+diag(st)中,其中diag(st)表示将向量st的每个元素依次放在对角矩阵的主对角线上,α是一个预定义常数,I是单位阵;
4-5)设置函数
Figure FDA0002244180700000023
选择如下一种更新规则对预测模型进行在线更新:
(a)ARDA更新规则:
Figure FDA0002244180700000031
(b)ACMD更新规则:
Figure FDA0002244180700000032
其中η是学习步长;函数是正则化函数,用于控制模型w的复杂度,参数λ是一个预定义的常数;
Figure FDA0002244180700000034
表示截止到t时刻邀请专家进行标记的次数,k为迭代变量;
Figure FDA0002244180700000035
是w和wt之间关于函数ψt的Bregman距离,定义如下:
Figure FDA0002244180700000036
其中表示函数ψt在wt处的梯度。
4.根据权利要求3所述的用于恶意URL检测的在线主动机器学习方法,其特征在于,在运行前需要对在线预测模型和频度信息矩阵进行初始化,包括两种初始化方法:一种是没有任何先验知识的情况下,直接令w1=0和H0=αI,此时方法从零开始学习;另一种是利用用户黑名单列表中的信息构建一个同时包含恶意和正常URLs的训练集,基于该训练集利用全监督的自适应次梯度算法得到初始预测模型w1和H0
CN201911010913.0A 2019-10-23 2019-10-23 用于恶意url检测的在线主动机器学习方法 Active CN110766165B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911010913.0A CN110766165B (zh) 2019-10-23 2019-10-23 用于恶意url检测的在线主动机器学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911010913.0A CN110766165B (zh) 2019-10-23 2019-10-23 用于恶意url检测的在线主动机器学习方法

Publications (2)

Publication Number Publication Date
CN110766165A true CN110766165A (zh) 2020-02-07
CN110766165B CN110766165B (zh) 2023-08-08

Family

ID=69332974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911010913.0A Active CN110766165B (zh) 2019-10-23 2019-10-23 用于恶意url检测的在线主动机器学习方法

Country Status (1)

Country Link
CN (1) CN110766165B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949794A (zh) * 2020-08-14 2020-11-17 扬州大学 一种用于文本多分类任务的在线主动机器学习方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106789888A (zh) * 2016-11-18 2017-05-31 重庆邮电大学 一种多特征融合的钓鱼网页检测方法
CN108718291A (zh) * 2018-02-28 2018-10-30 北京微智信业科技有限公司 一种基于大数据的恶意url检测方法
CN108965245A (zh) * 2018-05-31 2018-12-07 国家计算机网络与信息安全管理中心 基于自适应异构多分类模型的钓鱼网站检测方法和系统
CN109005145A (zh) * 2018-06-04 2018-12-14 上海交通大学 一种基于自动特征抽取的恶意url检测系统及其方法
CN109831460A (zh) * 2019-03-27 2019-05-31 杭州师范大学 一种基于协同训练的Web攻击检测方法
CN110362989A (zh) * 2019-04-22 2019-10-22 浙江师范大学 基于记忆减退型在线序列极限学习机的恶意网页检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106789888A (zh) * 2016-11-18 2017-05-31 重庆邮电大学 一种多特征融合的钓鱼网页检测方法
CN108718291A (zh) * 2018-02-28 2018-10-30 北京微智信业科技有限公司 一种基于大数据的恶意url检测方法
CN108965245A (zh) * 2018-05-31 2018-12-07 国家计算机网络与信息安全管理中心 基于自适应异构多分类模型的钓鱼网站检测方法和系统
CN109005145A (zh) * 2018-06-04 2018-12-14 上海交通大学 一种基于自动特征抽取的恶意url检测系统及其方法
CN109831460A (zh) * 2019-03-27 2019-05-31 杭州师范大学 一种基于协同训练的Web攻击检测方法
CN110362989A (zh) * 2019-04-22 2019-10-22 浙江师范大学 基于记忆减退型在线序列极限学习机的恶意网页检测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949794A (zh) * 2020-08-14 2020-11-17 扬州大学 一种用于文本多分类任务的在线主动机器学习方法

Also Published As

Publication number Publication date
CN110766165B (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
US11716347B2 (en) Malicious site detection for a cyber threat response system
CN108965245B (zh) 基于自适应异构多分类模型的钓鱼网站检测方法和系统
US8775416B2 (en) Adapting a context-independent relevance function for identifying relevant search results
CN107330731B (zh) 一种识别广告位点击异常的方法和装置
CN111078978B (zh) 一种基于网站文本内容的网贷网站实体识别方法及系统
CN112541476B (zh) 一种基于语义特征提取的恶意网页识别方法
EP3703329A1 (en) Webpage request identification
CN109150817B (zh) 一种网页请求识别方法及装置
CN111526136A (zh) 基于云waf的恶意攻击检测方法、系统、设备和介质
CN110602030A (zh) 网络入侵阻断方法、服务器及计算机可读介质
CN107291774B (zh) 错误样本识别方法和装置
CN114363019A (zh) 钓鱼网站检测模型的训练方法、装置、设备及存储介质
CN110958244A (zh) 一种基于深度学习的仿冒域名检测方法及装置
CN111464510A (zh) 一种基于快速梯度提升树模型的网络实时入侵检测方法
Gulghane et al. A survey on intrusion detection system using machine learning algorithms
CN110766165B (zh) 用于恶意url检测的在线主动机器学习方法
CN110855635B (zh) Url识别方法、装置及数据处理设备
Thao et al. Hunting brand domain forgery: a scalable classification for homograph attack
CN111291078B (zh) 一种域名匹配检测方法及装置
CN113037709A (zh) 一种针对匿名网络的多标签浏览的网页指纹监控方法
CN116827656A (zh) 网络信息安全防护系统及其方法
CN116318974A (zh) 站点风险识别方法、装置、计算机可读介质及电子设备
CN114866246B (zh) 基于大数据的计算机网络安全入侵检测方法
CN112929369B (zh) 一种分布式实时DDoS攻击检测方法
CN114722954A (zh) 一种针对评价信息的内容异常处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant