CN112711723B - 一种恶意网址检测方法、装置及电子设备 - Google Patents

一种恶意网址检测方法、装置及电子设备 Download PDF

Info

Publication number
CN112711723B
CN112711723B CN201911022809.3A CN201911022809A CN112711723B CN 112711723 B CN112711723 B CN 112711723B CN 201911022809 A CN201911022809 A CN 201911022809A CN 112711723 B CN112711723 B CN 112711723B
Authority
CN
China
Prior art keywords
url
target
original
acquiring
characteristic value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911022809.3A
Other languages
English (en)
Other versions
CN112711723A (zh
Inventor
宋紫嫣
范金松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201911022809.3A priority Critical patent/CN112711723B/zh
Publication of CN112711723A publication Critical patent/CN112711723A/zh
Application granted granted Critical
Publication of CN112711723B publication Critical patent/CN112711723B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0236Filtering by address, protocol, port number or service, e.g. IP-address or URL
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种恶意网址检测方法、装置及电子设备,该方法包括:在接收到网页打开指令时,获取所述网页打开指令对应的目标URL;获取所述目标URL的URL特征值,所述URL特征值与服务端的机器学习模型的输入参数相对应;获取服务端训练完成后的机器学习模型的预测函数的权重参数;基于所述权重参数、所述URL特征值以及所述客户端预存的预测函数,在客户端计算获得预测值;判断所述预测值是否在预设范围内;若所述预测值不在所述预设范围内,判定所述目标URL为恶意网址。通过上述方案,在客户端实现了恶意网址的预测,无需进行黑名单网址库的比对,也无需在客户端部署机器学习模型,避免了模型的导出、加载、启动等操作,减少了恶意网址防护时间。

Description

一种恶意网址检测方法、装置及电子设备
技术领域
本发明涉及软件技术领域,特别涉及一种恶意网址检测方法、装置及电子设备。
背景技术
随着互联网技术的发展,浏览器给用户的生活带来了诸多便利,通过浏览器用户可坐在家中浏览世界,但同时也给用户带来了一些困扰,如恶意网址的防护不当不仅会浪费用户的时间,甚至会导致病毒入侵给用户造成隐私泄露、财产损失等。
现有技术中,恶意网页的网址即恶意网址防护技术多为黑名单库查询,例如:针对网址“soxx678.com”,要判断它是否为恶意网址,需要拿“soxx5678.com”和黑名单网址库里的名单匹配,这个黑名单网址库可能在云端,也可能下载到了本地。黑名单网址库往往更新有滞后性、无法检测未收录的恶意网址,通常新的恶意网址出来之后,黑名单库在1~3天甚至长达一个礼拜都无法检测出来。若黑名单网址库在云端通过云端查询,本地端需要和云端进行网络交互,耗时较长。若将黑名单库下载到本地,黑名单网址库会占用大量的本地存储空间,并且本地查询耗时会随着黑名单库的增大而增加。为此,亟需一种新的恶意网址检测方法来减少恶意网址防护时间。
发明内容
本发明实施例提供一种恶意网址检测方法、装置及电子设备,用于实现客户端的快速恶意网址检测,减少恶意网址防护时间。
第二方面,本发明实施例提供一种恶意网址检测方法,应用于客户端,所述客户端预存机器学习模型的预测函数,所述机器学习模型设置在服务端并由所述服务端训练完成,所述方法包括:
在接收到网页打开指令时,获取所述网页打开指令对应的目标URL;
获取所述目标URL的URL特征值,所述URL特征值与所述机器学习模型的输入参数相对应;
获取训练完成后的机器学习模型的预测函数的权重参数;
基于所述权重参数、所述URL特征值以及所述客户端预存的预测函数计算获得预测值;
判断所述预测值是否在预设范围内;
若所述预测值不在所述预设范围内,判定所述目标URL为恶意网址。
可选的,所述获取所述网页打开指令对应的目标URL,包括:
获取所述网页打开指令对应的原始URL并打开所述原始URL;
在打开所述原始URL的过程中,监测是否发生URL跳转;
若发生了URL跳转,获取跳转后的URL,并将所述跳转后的URL和所述原始URL作为所述目标URL;或者,
若未发生URL跳转,将所述原始URL作为所述目标URL。
可选的,所述获取所述目标URL的URL特征值,包括:
获取所述目标URL中所述网页打开指令对应的原始URL;
获取所述原始URL的URL总长度、URL的路径长度、URL的参数长度以及URL主域名中数字占比作为所述URL特征值。
可选的,若所述目标URL中包含所述原始URL跳转后的URL,在获取所述原始URL的URL总长度、URL的路径长度、URL的参数长度以及URL主域名中数字占比作为所述URL特征值之后,所述方法还包括:
获取所述原始URL与所述跳转后的URL之间的字符编辑距离;
获取所述跳转后的URL的URL总长度、URL的路径长度、URL的参数长度以及URL主域名中数字占比作为所述URL特征值。
可选的,所述方法还包括:
接收所述服务端下发的权重参数更新信息;
基于所述权重参数更新信息,更新所述客户端保存的权重参数。
可选的,所述方法还包括:
在判定所述目标URL为恶意网址之后,中止加载所述网页打开指令对应的目标网页,并输出用于提示用户所述目标URL可能为恶意网址的提示信息;和/或,
在判定所述目标URL为恶意网址之后,将所述目标URL上传至云端,以使所述云端更新恶意网址库。
第二方面,本实施例还提供一种恶意网址检测系统,所述系统包括:
服务端,用于保存并训练能够进行恶意网址检测的机器学习模型;
客户端,用于预存与所述机器学习模型的预测函数;以及在进行恶意网址检测时,执行如下步骤:
在接收到网页打开指令时,获取所述网页打开指令对应的目标URL;
获取所述目标URL的URL特征值,所述URL特征值与所述机器学习模型的输入参数相互对应;
获取训练完成后的机器学习模型的模型输出函数的权重参数;
基于所述权重参数、所述URL特征值以及所述客户端预存的预测函数计算获得预测值;
判断所述预测值是否在预设范围内;
若所述预测值不在所述预设范围内,判定所述目标URL为恶意网址。
第三方面,本申请实施例还提供一种恶意网址检测装置,所述装置预存机器学习模型的预测函数,所述机器学习模型设置在服务端并由所述服务端训练完成,所述装置包括:
第一获取单元,用于在接收到网页打开指令时,获取所述网页打开指令对应的目标URL;获取所述目标URL的URL特征值,所述URL特征值与所述机器学习模型的输入参数相对应;
第二获取单元,用于获取训练完成后的机器学习模型的预测函数的权重参数;
计算单元,用于基于所述权重参数、所述URL特征值以及所述客户端预存的预测函数计算获得预测值;
判断单元,用于判断所述预测值是否在预设范围内;若所述预测值不在所述预设范围内,判定所述目标URL为恶意网址。
可选的,所述第一获取单元用于:
获取所述网页打开指令对应的原始URL并打开所述原始URL;
在打开所述原始URL的过程中,监测是否发生URL跳转;
若发生了URL跳转,获取跳转后的URL,并将所述跳转后的URL和所述原始URL作为所述目标URL;或者,
若未发生URL跳转,将所述原始URL作为所述目标URL。
可选的,所述第一获取单元还用于:
获取所述目标URL中所述网页打开指令对应的原始URL;
获取所述原始URL的URL总长度、URL的路径长度、URL的参数长度以及URL主域名中数字占比作为所述URL特征值。
可选的,若所述目标URL中包含所述原始URL跳转后的URL,所述第一获取单元还用于:
在获取所述原始URL的URL总长度、URL的路径长度、URL的参数长度以及URL主域名中数字占比作为所述URL特征值之后,获取所述原始URL与所述跳转后的URL之间的字符编辑距离;
获取所述跳转后的URL的URL总长度、URL的路径长度、URL的参数长度以及URL主域名中数字占比作为所述URL特征值。
可选的,所述装置还包括:
接收单元,用于接收所述服务端下发的权重参数更新信息;
更新单元,用于基于所述权重参数更新信息,更新所述客户端保存的权重参数。
可选的,所述装置还包括:
输出单元,用于在判定所述目标URL为恶意网址之后,中止加载所述网页打开指令对应的目标网页,并输出用于提示用户所述目标URL可能为恶意网址的提示信息;和/或
发送单元,用于在判定所述目标URL为恶意网址之后,将所述目标URL上传至云端,以使所述云端更新恶意网址库。
第四方面,本申请实施例提供一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上的程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上的程序所包含的用于进行如第一方面所述方法对应的操作指令。
第五方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,可选的,该程序被处理器执行时实现如第一方面所述方法的步骤。
本申请实施例中的上述一个或多个技术方案,至少具有如下技术效果:
本申请实施例提供一种恶意网址检测方法,应用于客户端,在客户端预存机器学习模型的预测函数,而机器学习模型的存储和训练在服务端完成,客户端在执行该方法时包括:在接收到网页打开指令时,获取网页打开指令对应的目标URL;获取目标URL的URL特征值,该URL特征值与机器学习模型的输入参数相对应;获取训练完成后的机器学习模型的预测函数的权重参数;基于权重参数、URL特征值以及预测函数,对目标URL进行恶意网址预测获得预测值;判断预测值是否在预设范围内;若预测值不在预设范围内判定目标URL为恶意网址。在上述技术方案中,通过预测函数、URL特征值以及机器学习模型的模型输出参数来实现对恶意网页的模型预测,无需进行黑名单网址库的比对,也无需在客户端部署机器学习模型,避免了模型的导出、加载、启动等操作,实现了客户端的快速恶意网址检测,减少了恶意网址防护时间。
附图说明
图1为本申请实施例提供的一种恶意网址检测系统的示意图;
图2为本申请实施例提供的一种恶意网址检测方法的流程示意图;
图3为本申请实施例提供的一种恶意网址检测装置的方框图;
图4为本申请实施例提供的一种电子设备的结构示意图;
图5为本申请实施例提供的一种服务器的结构示意图。
具体实施方式
在本申请实施例提供的技术方案中,提供一种恶意网址检测方法,通过获取服务端训练好的机器学习模型的预测函数的权重参数,在客户端本地实现恶意网址的模型预测,无需进行黑名单网址库的比对,也无需在客户端部署机器学习模型,避免了模型的导出、加载、启动等操作,实现了客户端的快速恶意网址检测,减少了恶意网址防护时间。
下面结合附图对本申请实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。
实施例
请参考图1,本实施例提供一种恶意网址检测系统,该系统包括:服务端10和客户端20,服务端10用于保存并训练能够进行恶意网址检测的机器学习模型;客户端10用于预存所述机器学习模型的预测函数,以及根据服务端10训练好的机器学习模型的模型输出函数的权重参数和预存的预测函数,在客户端20本地进行恶意网址检测。
具体的,服务端10用于进行模型训练、参数下发以及信息收集。在进行模型训练时,可以将恶意网页的网址和/或正常网页的网址作为训练样本进行机器学习模型训练,训练获得能够识别网址是否为恶意网页的机器学习模型,具体训练方法可以采用现有训练方法。其中,服务端10使用的器学习模型可以为任一能够进行恶意网址检测的机器学习模型,如逻辑回归、决策树、随机森林、神经网络或卷积神经网络等。服务端10在完成机器学习模型训练后进行参数下发,将训练好的机器学习模型的模型输出函数的权重参数下发至客户端20。例如:对于线性机器学习模型,其模型输出函数即预测函数为f(x)=W1*X1+W2*X2+……+Wn*Xn+b,W1、W2、W3……Wn为权重参数,将训练好后的W1、W2、W3……Wn下发至客户端20。
进一步的,服务端10还进行信息收集,收集客户端20发送的恶意网址,并将接收到的恶意网址更新到黑名单网址库中,用于更新机器学习模型。在每次更新完机器学习模型后,将更新后的权重参数下发至客户端20,以更新客户端20的权重参数。
客户端20可以是浏览器,也可以是需要进行网页加载的其他APP。客户端20执行本实施例提供的一种恶意网址检测方法,进行URL(Uniform Resource Locator,统一资源定位符)特征提取、恶意网址预测值计算以及恶意网址判定。进一步的,客户端20还执行恶意网址上报和恶意网址拦截,以完善黑名单网址库、更新机器学习模型,避免恶意网页对用户造成不利影响。
请参考图2,本实施例提供的一种恶意网址检测方法,应用于客户端20包括:
S202、在接收到网页打开指令时,获取所述网页打开指令对应的目标URL;
S204、获取所述目标URL的URL特征值,所述URL特征值与所述机器学习模型的输入参数相互对应;
S206、获取训练完成后的机器学习模型的模型输出函数的权重参数;
S208、基于所述权重参数、所述URL特征值以及所述客户端预存的预测函数计算获得预测值;
S210、判断所述预测值是否在预设范围内;
S212、若所述预测值不在所述预设范围内,判定所述目标URL为恶意网址。
在具体实施过程中,客户端20响应网页打开指令打开网页时会出现两种情况,一种是加载网页打开指令对应的原始URL对应的网页,另一种是根据原始URL的进行URL跳转,加载跳转后的URL对应的网页。相应的,S202获取网页打开指令对应的目标URL时,首先获取网页打开指令对应的原始URL并打开该原始URL;紧接着,在打开原始URL的过程中,监测是否发生URL跳转;若发生了URL跳转,获取跳转后的URL,并将跳转后的URL和原始URL作为目标URL;或者,若未发生URL跳转,将原始URL作为目标URL。当然,S202也可以只获取原始URL作为目标URL,无需关系是否发生URL跳转。相较于,只获取原始URL,获取原始URL和跳转后的URL作为目标URL,在进行URL特征值提取时,能够获得更多的特征值,能够提高恶意网址检测的准确性。
在S202获得目标URL之后,执行S204获取目标URL的URL特征值。URL特征值的提取按照服务端机器学习模型进行预测时所需的输入参数进行提取。例如:假设服务端机器学习模型进行预测时需要的输入参数包括:URL的主域名、URL中数字占比及URL的路径长度,那么S204在获取URL特征值时,相应的获取目标URL的主域名、数字占比及路径长度,即获取的URL特征值与机器学习模型的输入参数相对应。
在执行S202和S204的过程中、之前或之后,执行S206获取预测函数的权重参数。具体的,S206可以向服务端请求获取最新的权重参数,也可以从本地获取存储的权重参数。通常情况下,服务端机器学习模型的训练更新频率相对较低,权重参数的更新频率也不高,若每次预测都向服务端请求会浪费大量的网络资料、增加预测耗时。本实施例优选每隔一定时间段向服务端请求获取最新的权重参数信息或者在待服务端更新权重参数后,接收服务端下发的权重参数更新信息,基于获得的权重参数更新信息,更新客户端保存的权重参数,执行S206时从本地获取该权重参数,以减少时间成本。
在获得权重参数和目标URL的URL特征值之后,继续S208基于权重参数、URL特征值以及客户端预存的预测函数计算获得预测值。具体的,在本地将获得的权重参数和URL特征值对应代入预测函数进行计算即可获得预测值,快速完成对目标URL的恶意网址预测。例如,假设客户端预存的预测函数为f(x)=W1*X1+W2*X2+……+Wn*Xn+b,将从目标URL中获取的URL特征值作为输入参数X1、X2……Xn,将从服务器中获取的权重参数更新W1、W2、W3……Wn,然后进行f(x)函数计算获得计算结果即为预测值。
在获得预测值之后,执行S210和S212进行恶意网址判断:判断预测值是否在预设范围内,假设机器学习模型的预测阈值为T,预设范围为小于或等于T。若预测值在预设范围内,即预测值大于预测阈值T,判定目标URL为恶意网址。在判定目标URL为恶意网址之后,为了避免恶意网址给用户带来不利影响,中止加载网页打开指令对应的目标网页,并输出用于提示用户目标URL可能为恶意网址的提示信息。进一步的,在判定目标URL为恶意网址之后,还可以将目标URL上传至云端,以使云端更新恶意网址库。若预测值在预设范围内,确定目标URL为正常URL,继续加载并显示对应的网页。
在上述方案中,通过服务端训练模型、客户端实现预测计算,客户端和服务端只存在定期的参数交互的这种运行模式,不仅不需要下载黑名单网址库到本地,也不需要客户端导出、加载模型,减少了存储空间的占有、模型加载、启动等不必要开销,从而减少了恶意网址的预测时间。进一步的,通过恶意网址的检测来拦截恶意网页,无需下载页面,无需对页面内容进行分析,减少了流量带宽的消耗、恶意网页防护的计算量,提高了恶意网页防护效率。
在具体实施过程中,本实施例还提供一种新的模型训练方法,包括:
步骤1、将黑名单地址库中大量恶意网址作为训练样本,其中恶意网址包括跳转前的URL和跳转后的URL,若未发生跳转对应跳转后的URL则为空、跳转前的URL则为原始URL。
步骤2、从每个恶意网址中提取URL特征值,包括:获取URL跳转前后的URL总长度、URL的路径长度、URL的参数长度以及URL主域名中数字占比作为URL特征值,以及获取跳转前后URL之间的字符编辑距离(Levenshtein distance)作为URL特征值。其中,URL总长度是指URL包含的总字符数,URL的路径长度是指URL中path部分的字符数,URL的参数长度是指URL中query字符数。跳转前后URL之间的字符编辑距离可以依据从跳转前的URL字符串变成跳转后的URL字符串最少需要的编辑步数(添加、删除、插入等)来计算,也可以依据本实施例优化后的方法来计算:
跳转前后URL的主域名之间的字符编辑距离/max(跳转前URL主域名长度,跳转后URL主域名长度)
该URL字符编辑距离的计算方法根据URL跳转的情况进行了优化,在实施过程中发现网页调整前后主域名发生变化那么恶意网址的可能性更大,选用主域名的字符编辑距离与主域名长度来计算编辑距离更快捷有效。
步骤3、将每个恶意网址的URL特征值作为模型输入参数、标记模型输出结果大于预测阈值T进行机器学习模型训练,获得训练完成的机器学习模型。其中,输出结果大于预测阈值T表征预测结果为恶意网址,机器学习模型可以为逻辑回归、随机森林等模型。
针对服务端训练的机器学习模型,客户端在本地执行S204获取目标URL的URL特征值时,先获取目标URL中网页打开指令对应的原始URL,以及获取原始URL的URL总长度、URL的路径长度、URL的参数长度以及URL主域名中数字占比;若目标URL中包含原始URL跳转后的URL,进一步获取原始URL与跳转后的URL之间的字符编辑距离,其中URL之间的字符编辑距离的计算方法选用:主域名之间的字符编辑距离/max(跳转前URL主域名长度,跳转后URL主域名长度);以及获取跳转后的URL的URL总长度、URL的路径长度、URL的参数长度以及URL主域名中数字占比,以使S208~S212根据上述URL特征值进行预测值计算及恶意网址判定。
上述URL特征的提取,主要包括主域名中数字的占比(国内恶意网址中数字是很常见的,并且占比不少)、跳转前后主域名字符编辑距离(比如从sogou.com跳转到m.sogou.com,这样的字符编辑距离很短,它是安全的可能性更大,但是如果从sogou.com跳转到evil.com,从当前网址跳转到了另一个域名不同的网址,字符编辑距离会更大,它是恶意的可能性更高。另外对URL之间的字符编辑距离的计算做优化,选取的是:主域名之间的字符编辑距离/max(跳转前URL主域名长度,跳转后URL主域名长度)作为一个URL特征指标。通过上述URL特征的提取,简化了恶意网页特征提取的复杂度,相应的预测能够在常数时间内完成,大大降低了客户端检测恶意网址的时间成本,提高了检测效率。
综上,本实施例通过权重参数、轻量级URL特征提取及预测函数在客户端实现恶意网址的检测,具有快速、实时、稳定、开销少、易部署等优点,能够轻松应对大规模、大用户量、高并发的场景的网页浏览。
针对上述实施例提供一种恶意网址检查方法,本实施例还对应提供一种恶意网址检测系统,该系统包括:
服务端,用于保存并训练能够进行恶意网址检测的机器学习模型;
客户端,用于预存与所述机器学习模型的预测函数;以及在进行恶意网址检测时,执行如下步骤:
在接收到网页打开指令时,获取所述网页打开指令对应的目标URL;
获取所述目标URL的URL特征值,所述URL特征值与所述机器学习模型的输入参数相互对应;
获取训练完成后的机器学习模型的模型输出函数的权重参数;
基于所述权重参数、所述URL特征值以及所述客户端预存的预测函数计算获得预测值;
判断所述预测值是否在预设范围内;
若所述预测值不在所述预设范围内,判定所述目标URL为恶意网址。
服务端和客户端的的具体方式已经在有关该方法实施例中进行了详细描述,此处将不做详细阐述说明。
针对上述实施例提供一种恶意网址检查方法,本申请实施例还对应提供一种恶意网址检测装置,所述装置预存机器学习模型的预测函数,所述机器学习模型设置在服务端并由所述服务端训练完成,请参考图3,该装置包括:
第一获取单元31,用于在接收到网页打开指令时,获取所述网页打开指令对应的目标URL;获取所述目标URL的URL特征值,所述URL特征值与所述机器学习模型的输入参数相对应;
第二获取单元32,用于获取训练完成后的机器学习模型的预测函数的权重参数;
计算单元33,用于基于所述权重参数、所述URL特征值以及所述客户端预存的预测函数计算获得预测值;
判断单元34,用于判断所述预测值是否在预设范围内;若所述预测值不在所述预设范围内,判定所述目标URL为恶意网址。
作为一种可选的实施方式,所述第一获取单元31在获取目标URL时,可以获取所述网页打开指令对应的原始URL并打开所述原始URL;在打开所述原始URL的过程中,监测是否发生URL跳转;若发生了URL跳转,获取跳转后的URL,并将所述跳转后的URL和所述原始URL作为所述目标URL;或者,若未发生URL跳转,将所述原始URL作为所述目标URL。
作为一种可选的实施方式,所述第一获取单元31在获取URL特征值时,可以获取所述目标URL中所述网页打开指令对应的原始URL;获取所述原始URL的URL总长度、URL的路径长度、URL的参数长度以及URL主域名中数字占比作为所述URL特征值。若所述目标URL中包含所述原始URL跳转后的URL,所述第一获取单元31还在获取所述原始URL的URL总长度、URL的路径长度、URL的参数长度以及URL主域名中数字占比作为所述URL特征值之后,获取所述原始URL与所述跳转后的URL之间的字符编辑距离;获取所述跳转后的URL的URL总长度、URL的路径长度、URL的参数长度以及URL主域名中数字占比作为所述URL特征值。
具体实施过程中,所述装置还可以包括:接收单元35和更新单元36。接收单元35,用于接收所述服务端下发的权重参数更新信息;更新单元36,用于基于所述权重参数更新信息,更新所述客户端保存的权重参数。进一步的,所述装置还可以包括:输出单元37和/或发送单元38。输出单元37用于在判定所述目标URL为恶意网址之后,中止加载所述网页打开指令对应的目标网页,并输出用于提示用户所述目标URL可能为恶意网址的提示信息;发送单元38用于在判定所述目标URL为恶意网址之后,将所述目标URL上传至云端,以使所述云端更新恶意网址库。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图4是根据一示例性实施例示出的一种用于实现恶意网址检查方法的电子设备800的框图。例如,电子设备800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图4,电子设备800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/展现(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制电子设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为电子设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述电子设备800和用户之间的提供一个展现接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为展现和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当电子设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于展现音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为电子设备800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为电子设备800的显示器和小键盘,传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变,用户与电子设备800接触的存在或不存在,电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由电子设备800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种恶意网址检测方法方法,所述方法包括:在接收到网页打开指令时,获取所述网页打开指令对应的目标URL;获取所述目标URL的URL特征值,所述URL特征值与所述机器学习模型的输入参数相对应;获取训练完成后的机器学习模型的预测函数的权重参数;基于所述权重参数、所述URL特征值以及所述客户端预存的预测函数计算获得预测值;判断所述预测值是否在预设范围内;若所述预测值不在所述预设范围内,判定所述目标URL为恶意网址。
图5是本发明实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入展现接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种恶意网址检测方法,应用于客户端,其特征在于,所述客户端预存机器学习模型的预测函数,所述机器学习模型设置在服务端并由所述服务端训练完成,所述方法包括:
在接收到网页打开指令时,获取所述网页打开指令对应的目标URL,所述目标URL包括原始URL,或者所述目标URL包括所述原始URL和跳转后的URL;
获取所述目标URL的URL特征值,所述URL特征值与所述机器学习模型的输入参数相对应;所述URL特征值包括URL总长度、URL的路径长度、URL的参数长度以及URL主域名中数字占比;
获取训练完成后的机器学习模型的预测函数的权重参数;
基于所述权重参数、所述URL特征值以及所述客户端预存的预测函数计算获得预测值;
判断所述预测值是否在预设范围内;
若所述预测值不在所述预设范围内,判定所述目标URL为恶意网址。
2.如权利要求1所述的方法,其特征在于,所述获取所述网页打开指令对应的目标URL,包括:
获取所述网页打开指令对应的原始URL并打开所述原始URL;
在打开所述原始URL的过程中,监测是否发生URL跳转;
若发生了URL跳转,获取跳转后的URL,并将所述跳转后的URL和所述原始URL作为所述目标URL;或者,
若未发生URL跳转,将所述原始URL作为所述目标URL。
3.如权利要求1所述的方法,其特征在于,所述获取所述目标URL的URL特征值,包括:
获取所述目标URL中所述网页打开指令对应的原始URL;
获取所述原始URL的URL总长度、URL的路径长度、URL的参数长度以及URL主域名中数字占比作为所述URL特征值。
4.如权利要求3所述的方法,其特征在于,若所述目标URL中包含所述原始URL跳转后的URL,在获取所述原始URL的URL总长度、URL的路径长度、URL的参数长度以及URL主域名中数字占比作为所述URL特征值之后,所述方法还包括:
获取所述原始URL与所述跳转后的URL之间的字符编辑距离;
获取所述跳转后的URL的URL总长度、URL的路径长度、URL的参数长度以及URL主域名中数字占比作为所述URL特征值。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
接收所述服务端下发的权重参数更新信息;
基于所述权重参数更新信息,更新所述客户端保存的权重参数。
6.如权利要求1~5任一所述方法,其特征在于,所述方法还包括:
在判定所述目标URL为恶意网址之后,中止加载所述网页打开指令对应的目标网页,并输出用于提示用户所述目标URL可能为恶意网址的提示信息;和/或,
在判定所述目标URL为恶意网址之后,将所述目标URL上传至云端,以使所述云端更新恶意网址库。
7.一种恶意网址检测系统,其特征在于,所述系统包括:
服务端,用于保存并训练能够进行恶意网址检测的机器学习模型;
客户端,用于预存与所述机器学习模型的预测函数;以及在进行恶意网址检测时,执行如下步骤:
在接收到网页打开指令时,获取所述网页打开指令对应的目标URL,所述目标URL包括原始URL,或者所述目标URL包括所述原始URL和跳转后的URL;
获取所述目标URL的URL特征值,所述URL特征值与所述机器学习模型的输入参数相互对应;所述URL特征值包括URL总长度、URL的路径长度、URL的参数长度以及URL主域名中数字占比;
获取训练完成后的机器学习模型的模型输出函数的权重参数;
基于所述权重参数、所述URL特征值以及所述客户端预存的预测函数计算获得预测值;
判断所述预测值是否在预设范围内;
若所述预测值不在所述预设范围内,判定所述目标URL为恶意网址。
8.一种恶意网址检测装置,其特征在于,所述装置预存机器学习模型的预测函数,所述机器学习模型设置在服务端并由所述服务端训练完成,所述装置包括:
第一获取单元,用于在接收到网页打开指令时,获取所述网页打开指令对应的目标URL;获取所述目标URL的URL特征值,所述URL特征值与所述机器学习模型的输入参数相对应;所述目标URL包括原始URL,或者所述目标URL包括所述原始URL和跳转后的URL;所述URL特征值包括URL总长度、URL的路径长度、URL的参数长度以及URL主域名中数字占比;
第二获取单元,用于获取训练完成后的机器学习模型的预测函数的权重参数;
计算单元,用于基于所述权重参数、所述URL特征值以及客户端预存的预测函数计算获得预测值;
判断单元,用于判断所述预测值是否在预设范围内;若所述预测值不在所述预设范围内,判定所述目标URL为恶意网址。
9.如权利要求8所述的装置,其特征在于,所述第一获取单元用于:
获取所述网页打开指令对应的原始URL并打开所述原始URL;
在打开所述原始URL的过程中,监测是否发生URL跳转;
若发生了URL跳转,获取跳转后的URL,并将所述跳转后的URL和所述原始URL作为所述目标URL;或者,
若未发生URL跳转,将所述原始URL作为所述目标URL。
10.如权利要求8所述的装置,其特征在于,所述第一获取单元还用于:
获取所述目标URL中所述网页打开指令对应的原始URL;
获取所述原始URL的URL总长度、URL的路径长度、URL的参数长度以及URL主域名中数字占比作为所述URL特征值。
11.如权利要求10所述的装置,其特征在于,若所述目标URL中包含所述原始URL跳转后的URL,所述第一获取单元还用于:
在获取所述原始URL的URL总长度、URL的路径长度、URL的参数长度以及URL主域名中数字占比作为所述URL特征值之后,获取所述原始URL与所述跳转后的URL之间的字符编辑距离;
获取所述跳转后的URL的URL总长度、URL的路径长度、URL的参数长度以及URL主域名中数字占比作为所述URL特征值。
12.如权利要求8所述的装置,其特征在于,所述装置还包括:
接收单元,用于接收所述服务端下发的权重参数更新信息;
更新单元,用于基于所述权重参数更新信息,更新所述客户端保存的权重参数。
13.如权利要求8~12任一所述装置,其特征在于,所述装置还包括:
输出单元,用于在判定所述目标URL为恶意网址之后,中止加载所述网页打开指令对应的目标网页,并输出用于提示用户所述目标URL可能为恶意网址的提示信息;和/或
发送单元,用于在判定所述目标URL为恶意网址之后,将所述目标URL上传至云端,以使所述云端更新恶意网址库。
14.一种电子设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上的程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上的程序所包含的用于进行如权利要求1~6任一所述方法对应的操作指令。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~6任一所述方法的步骤。
CN201911022809.3A 2019-10-25 2019-10-25 一种恶意网址检测方法、装置及电子设备 Active CN112711723B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911022809.3A CN112711723B (zh) 2019-10-25 2019-10-25 一种恶意网址检测方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911022809.3A CN112711723B (zh) 2019-10-25 2019-10-25 一种恶意网址检测方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN112711723A CN112711723A (zh) 2021-04-27
CN112711723B true CN112711723B (zh) 2024-04-30

Family

ID=75540922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911022809.3A Active CN112711723B (zh) 2019-10-25 2019-10-25 一种恶意网址检测方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112711723B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632424B (zh) * 2021-03-10 2021-06-04 深圳市智信新信息技术有限公司 页面打开的方法及电子设备
CN113434792B (zh) * 2021-07-20 2023-07-18 北京百度网讯科技有限公司 网络地址匹配模型的训练方法和网络地址匹配方法
CN114553486B (zh) * 2022-01-20 2023-07-21 北京百度网讯科技有限公司 非法数据的处理方法、装置、电子设备及存储介质
CN114553555B (zh) * 2022-02-24 2023-11-07 抖音视界有限公司 恶意网址识别方法、装置、存储介质及电子设备

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106330861A (zh) * 2016-08-09 2017-01-11 中国信息安全测评中心 一种网址检测方法及装置
CN107463844A (zh) * 2016-06-06 2017-12-12 国家计算机网络与信息安全管理中心 Web木马检测方法及系统
CN107633172A (zh) * 2016-07-18 2018-01-26 北京搜狗科技发展有限公司 一种恶意网页监测方法及电子设备
CN108573146A (zh) * 2017-03-07 2018-09-25 华为技术有限公司 一种恶意url检测方法及装置
CN108683666A (zh) * 2018-05-16 2018-10-19 新华三信息安全技术有限公司 一种网页识别方法及装置
CN109005145A (zh) * 2018-06-04 2018-12-14 上海交通大学 一种基于自动特征抽取的恶意url检测系统及其方法
CN109194635A (zh) * 2018-08-22 2019-01-11 杭州安恒信息技术股份有限公司 基于自然语言处理与深度学习的恶意url识别方法及装置
CN109561084A (zh) * 2018-11-20 2019-04-02 四川长虹电器股份有限公司 基于lstm自编码网络的url参数异常值检测方法
CN109657470A (zh) * 2018-12-27 2019-04-19 北京天融信网络安全技术有限公司 恶意网页检测模型训练方法、恶意网页检测方法及系统
CN109922052A (zh) * 2019-02-22 2019-06-21 中南大学 一种结合多重特征的恶意url检测方法
KR20190102451A (ko) * 2018-02-26 2019-09-04 한국인터넷진흥원 악성 어플리케이션 탐지 방법 및 그 장치
CN110362995A (zh) * 2019-05-31 2019-10-22 电子科技大学成都学院 一种基于逆向与机器学习的恶意软件检测及分析系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8521667B2 (en) * 2010-12-15 2013-08-27 Microsoft Corporation Detection and categorization of malicious URLs

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463844A (zh) * 2016-06-06 2017-12-12 国家计算机网络与信息安全管理中心 Web木马检测方法及系统
CN107633172A (zh) * 2016-07-18 2018-01-26 北京搜狗科技发展有限公司 一种恶意网页监测方法及电子设备
CN106330861A (zh) * 2016-08-09 2017-01-11 中国信息安全测评中心 一种网址检测方法及装置
CN108573146A (zh) * 2017-03-07 2018-09-25 华为技术有限公司 一种恶意url检测方法及装置
KR20190102451A (ko) * 2018-02-26 2019-09-04 한국인터넷진흥원 악성 어플리케이션 탐지 방법 및 그 장치
CN108683666A (zh) * 2018-05-16 2018-10-19 新华三信息安全技术有限公司 一种网页识别方法及装置
CN109005145A (zh) * 2018-06-04 2018-12-14 上海交通大学 一种基于自动特征抽取的恶意url检测系统及其方法
CN109194635A (zh) * 2018-08-22 2019-01-11 杭州安恒信息技术股份有限公司 基于自然语言处理与深度学习的恶意url识别方法及装置
CN109561084A (zh) * 2018-11-20 2019-04-02 四川长虹电器股份有限公司 基于lstm自编码网络的url参数异常值检测方法
CN109657470A (zh) * 2018-12-27 2019-04-19 北京天融信网络安全技术有限公司 恶意网页检测模型训练方法、恶意网页检测方法及系统
CN109922052A (zh) * 2019-02-22 2019-06-21 中南大学 一种结合多重特征的恶意url检测方法
CN110362995A (zh) * 2019-05-31 2019-10-22 电子科技大学成都学院 一种基于逆向与机器学习的恶意软件检测及分析系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Finding effective classifier for malicious URL detection;Chunlin LIu 等;ACM;第240–244页 *
基于动态行为分析的网页木马检测方法;张卫丰;刘蕊成;许蕾;;软件学报(05);第1410-1421页 *
基于深度学习的恶意URL识别;陈康;付华峥;向勇;;计算机系统应用(06);第27-33页 *
恶意URL多层过滤检测模型的设计与实现;刘健;赵刚;郑运鹏;;信息网络安全;20160110(01);第75-80页 *

Also Published As

Publication number Publication date
CN112711723A (zh) 2021-04-27

Similar Documents

Publication Publication Date Title
CN112711723B (zh) 一种恶意网址检测方法、装置及电子设备
CN105912693B (zh) 网络请求处理方法、网络数据获取方法、装置及服务器
JP6062608B2 (ja) ウェブページアクセス方法、装置、サーバ、端末、プログラム、及び記録媒体
RU2604420C2 (ru) Способ, устройство и терминал для обновления облегченных приложений в офлайновом режиме
US9672026B2 (en) Light app offline updating method, device and terminal
CN106896991B (zh) 一种更新信息的方法及装置
CN107633172B (zh) 一种恶意网页监测方法及电子设备
CN117390330A (zh) 网页访问方法及装置
WO2017185567A1 (zh) 资源搜索方法及装置
KR101777035B1 (ko) 주소 필터링 방법, 장치, 프로그램 및 기록매체
CN107402767B (zh) 显示推送消息的方法和装置
CN112131466A (zh) 群组展示方法、装置、系统和存储介质
US20160006787A1 (en) Methods and devices for visiting a webpage
CN111046040A (zh) 确定索引的方法、装置、电子设备及存储介质
CN112784151B (zh) 一种确定推荐信息的方法及相关装置
CN110213062B (zh) 处理消息的方法及装置
CN111314426A (zh) 网页资源获取方法、装置、电子设备及存储介质
CN113268179B (zh) 会话消息处理方法、装置、设备及存储介质
CN112667852B (zh) 基于视频的搜索方法、装置、电子设备及存储介质
CN111522448B (zh) 一种提供输入候选项的方法、装置和设备
CN109766501B (zh) 爬虫协议管理方法及装置、爬虫系统
CN108804181B (zh) 控件内容获取方法、装置及存储介质
CN113420205A (zh) 分享来源帐号的确定方法、装置、终端设备及服务器
CN107257384B (zh) 服务状态监控方法及装置
US20160119259A1 (en) Method, terminal device and server for pushing message through light application

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant