CN114978624B - 钓鱼网页检测方法、装置、设备及存储介质 - Google Patents

钓鱼网页检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114978624B
CN114978624B CN202210498890.8A CN202210498890A CN114978624B CN 114978624 B CN114978624 B CN 114978624B CN 202210498890 A CN202210498890 A CN 202210498890A CN 114978624 B CN114978624 B CN 114978624B
Authority
CN
China
Prior art keywords
webpage
phishing
detected
confidence coefficient
prediction result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210498890.8A
Other languages
English (en)
Other versions
CN114978624A (zh
Inventor
闫巧
郑发安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN202210498890.8A priority Critical patent/CN114978624B/zh
Publication of CN114978624A publication Critical patent/CN114978624A/zh
Application granted granted Critical
Publication of CN114978624B publication Critical patent/CN114978624B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Abstract

本公开实施例提供一种钓鱼网页检测方法及设备,该方法包括:获取待检测页面的页面图像和页面描述文本;通过对象检测模型,对页面图像进行目标检测,得到对象检测结果,对象检测结果包括待检测网页中的待识别标识;通过标识识别模型和待识别标识,确定待检测网页是否属于钓鱼网页的第一预测结果和待检测网页属于钓鱼网页的第一置信度;通过文本分析模型和页面描述文本,确定待检测网页属于钓鱼网页的第二预测结果和待检测网页属于钓鱼网页的第二置信度;根据第一预测结果、第二预测结果、第一置信度和第二置信度,确定待检测网页的钓鱼网页检测结果。从而通过丰富钓鱼网页检测所依赖的数据和结合多个模型,提高钓鱼网页检测准确性。

Description

钓鱼网页检测方法、装置、设备及存储介质
技术领域
本公开实施例涉及计算机技术领域,尤其涉及一种钓鱼网页检测方法、装置、设备及存储介质。
背景技术
网站钓鱼是指攻击者通过欺骗手段窃取个人敏感信息的方式,个人敏感信息例如用于身份认证的口令、密码等。在最典型的网络钓鱼攻击中,攻击者预先建立与知名网站近似的虚拟网站,即钓鱼网站,使用欺骗性的电子邮件或者指向在线站点的链接,诱导受害者访问钓鱼网页,受害者容易误判钓鱼网页为真实网页并在钓鱼网页上提供个人敏感信息。因此,反钓鱼攻击的解决方案需要精准检测出钓鱼网页并识别出钓鱼网页所仿冒的真实网页。
相关技术中,基于网页的统一资源定位系统(uniform resource locator,URL)地址和页面快照,检测出属于钓鱼网页并识别出钓鱼网页所仿冒的真实网页。该模型深度依赖于对网页标识的检测和识别,钓鱼结果的认定也较为粗糙,如果网页包含多个品牌的标识,或者攻击者采取对抗性技术对网页标识进行修改,则该模型的网页标识的识别率将显著降低。
因此,如何提高钓鱼网页的检测准确性是目前亟需解决的问题。
发明内容
本公开实施例提供一种钓鱼网页检测方法、装置、设备及存储介质,以克服钓鱼网页的检测准确性不足的问题。
第一方面,本公开实施例提供一种钓鱼网页检测方法,包括:
获取待检测网页的页面图像和页面描述文本;
通过对象检测模型,对所述页面图像进行目标检测,得到对象检测结果,所述对象检测结果包括所述待检测网页中的待识别标识;
通过标识识别模型和所述待识别标识,确定所述待检测网页是否属于钓鱼网页的第一预测结果和所述待检测网页属于钓鱼网页的第一置信度;
通过文本分析模型和所述页面描述文本,确定所述待检测网页是否属于钓鱼网页的第二预测结果和所述待检测网页属于钓鱼网页的第二置信度;
根据所述第一预测结果、所述第二预测结果、所述第一置信度和所述第二置信度,确定所述待检测网页的钓鱼网页检测结果,所述钓鱼网页检测结果包括所述待检测网页是否属于钓鱼网页。
第二方面,本公开实施例提供一种钓鱼网页检测装置,包括:
数据获取单元,用于获取待检测网页的页面图像和页面描述文本;
目标检测单元,用于通过对象检测模型,对所述页面图像进行目标检测,得到对象检测结果,所述对象检测结果包括所述待检测网页中的待识别标识;
标识识别单元,用于通过标识识别模型和所述待识别标识,确定所述待检测网页是否属于钓鱼网页的第一预测结果和所述待检测网页属于钓鱼网页的第一置信度;
文本处理单元,用于通过文本分析模型和所述页面描述文本,确定所述待检测网页是否属于钓鱼网页的第二预测结果和所述待检测网页属于钓鱼网页的第二置信度;
确定单元,用于根据所述第一预测结果、所述第二预测结果、所述第一置信度和所述第二置信度,确定所述待检测网页的钓鱼网页检测结果,所述钓鱼网页检测结果包括所述待检测网页是否属于钓鱼网页。
第三方面,本公开实施例提供一种电子设备,包括:至少一个处理器和存储器;所述存储器存储计算机执行指令;所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面或第一方面各种可能的设计所述的钓鱼网页检测方法。
第四方面,本公开实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面或第一方面各种可能的设计所述的钓鱼网页检测方法。
第五方面,本公开实施例提供了一种计算机程序产品,所述计算机程序产品包含计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面或第一方面各种可能的设计所述的钓鱼网页检测方法。
本实施例提供的钓鱼网页检测方法、装置、设备及存储介质,一方面,基于待检测网页的页面图像和页面描述文本,对待检测网页是否属于钓鱼网页进行检测,提高了钓鱼网页检测所依赖的数据的丰富性,克服钓鱼网页检测容易被对抗技术绕过的缺点。另一方面,通过对象检测模型对待检测网页的页面图像进行目标检测;通过标识识别模型和对象检测模型检测到的待识别标识,确定待检测网页是否属于钓鱼网页的第一预测结果和待检测网页属于钓鱼网页的第一置信度;通过文本分析模型和待检测网页的页面描述文本,确定待检测网页是否属于钓鱼网页的第二预测结果和待检测网页属于钓鱼网页的第二置信度;基于第一预测结果、第二预测结果、第一置信度和第二置信度,确定钓鱼网页检测结果;如此,通过多模型结合的方式,避免钓鱼网站检测对单一模型的检测结果过于依赖,能够在一定克服钓鱼网页检测容易被对抗技术绕过的缺点。因此,本实施例提高了钓鱼网页检测的准确性。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的一种应用场景的示例图;
图2为本公开实施例提供的钓鱼网页检测方法流程示意图一;
图3为本公开实施例提供的钓鱼网页检测方法的流程示意图二;
图4为本公开实施例提供的钓鱼网页检测方法的流程示意图三;
图5为可信任网站与钓鱼网站中链接数量的数据特征箱形图;
图6为可信任网站与钓鱼网站中的资源分布折线图;
图7为本公开实施例提供的钓鱼网页检测装置的结构框图;
图8为本公开实施例提供的电子设备的硬件结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
相关技术中,作为钓鱼网页检测模型的Phishpedia检测模型,可利用网页的统一资源定位系统(uniform resource locator,URL)地址和页面快照,检测出仿冒真实网页的钓鱼网页。该模型在检测钓鱼网页的用户界面(User Interface,UI)组件和识别出网络钓鱼目标(即钓鱼网页所仿冒的可信网站的品牌,比如钓鱼网页仿冒电商平台的登录页面,带有该电商平台的logo标识,实际登录操作指向钓鱼网页的服务器)上有着出色的效果,但是钓鱼结果的认定较为粗糙,而且过于依赖组件的检测和识别。攻击者考虑到组件提取和相似度阈值对模型识别钓鱼网页的影响,通常会在网页中提供多种品牌的标识,还可能采取对抗攻击技术对网页上的logo标识进行修改,使得模型识别准确性下降,进而导致钓鱼网页判定结果不准确。
为解决上述问题,本公开实施例提供了一种钓鱼网页检测方法、装置、设备及存储介质。在本公开实施例中,获取待检测网页的页面图像和页面描述文本,以结合图像数据和文本数据实现钓鱼网页检测,降低钓鱼网页检测的数据来源单一的问题,能够在一定程度上防御对网页标识进行修改的对抗攻击技术;之后,通过对象检测模型对页面图像进行目标检测,通过标识识别模型和对象检测模型在页面图像上检测出的待识别标识,确定待检测网页是否属于钓鱼网页的第一预测结果和待检测网页属于钓鱼网页的第一置信度,通过文本分析模型和页面描述文本,确定待检测网页是否属于钓鱼网页的第二预测结果和待检测网页属于钓鱼网页的第二置信度;最后结合第一预测结果、第二预测结果、第一置信度和第二置信度,确定待检测网页的钓鱼网页检测结果。如此,通过多模型结合的方式,避免钓鱼结果的认定对单一模型的判断结果过于依赖,能够在一定程度上防御对单一模型的对抗攻击技术。因此,本公开实施例有效地提高了钓鱼网页检测的准确性。
参考图1,图1为本公开实施例提供的一种应用场景的示例图。
如图1所示,应用场景涉及的设备包括钓鱼网页检测装置101,钓鱼网页检测装置101上部署有钓鱼网页检测模型,钓鱼网页检测模型包括对象检测模型、标识识别模型以及文本分析模型。钓鱼网页检测装置101在获得待检测网页的页面图像和页面描述文本后,通过这些钓鱼网页检测模型确定待检测网页是属于钓鱼网页还是属于可信网页。
可选的,应用场景涉及的设备还包括终端102,终端102响应于用户对待检测网页的访问操作,获取待检测网页的URL,将待检测网页的URL发送至钓鱼网页检测装置101中,便于钓鱼网页检测装置101基于待检测网页的URL获得待检测网页的页面图像和页面描述文本。
可选的,应用场景还设备预设存储空间103,在预设存储空间103中存储着可信任网站集,可信任网站集中包括可信任网站的图形标识,因此,可信任网站集可用于辅助钓鱼网站检测模型对待检测网页的检测。
其中,钓鱼网页检测装置101可以为任意配置了处理器与存储器的电子设备,或者电子设备的集合。例如:服务器等。
其中,终端102可以是个人数字处理(personal digital assistant,简称PDA)设备、具有无线通信功能的手持设备(例如智能手机、平板电脑)、计算设备(例如个人电脑(personal computer,简称PC))、车载设备、可穿戴设备(例如智能手表、智能手环)、智能家居设备(例如智能显示设备)等。
其中,预设存储空间104可以为任意具备数据存储功能的存储空间,例如:钓鱼网页检测装置101的本地存储空间、服务器上的远程存储空间等,本公开实施例不做具体限定。
参考图2,图2为本公开实施例提供的钓鱼网页检测方法流程示意图一。如图2所示,该钓鱼网页检测方法包括:
S201、获取待检测网页的页面图像和页面描述文本。
其中,待检测网页可包括一个或多个网页,网页是指构成网站的页面,例如浏览器所显示的Web页面。待检测网页的页面图像可包括待检测网页的页面快照。待检测网页的页面描述文本可包括用于实现待检测页面的代码文本,进一步的,待检测网页的页面描述文本可包括待检测网页的超文本标记语言(Hyper Text Markup Language,HTML)文本,HTML文本中通过HTML命令描述了待检测网页的各种内容,如文字,图形、动画、链接等。
本实施例中,可从数据库中获取待检测网页的页面图像和页面描述文本;或者,可接收来自终端的或者用户输入的待检测网页的页面图像和页面描述文本;或者,可接收来自终端的待检测网页的URL,基于待检测网页的URL,获取待检测网页的页面图像和页面描述文本。
可选的,响应于终端对网页的访问请求,确定终端所访问的网页为待检测网页,从访问请求中获得待检测网页的URL,基于待检测网页的URL,获取待检测网页的页面图像和页面描述文本。从而,在用户与自身访问的网页进行交互(比如输入敏感信息)之前,利用网页的页面图像和页面描述文本对网页是否属于钓鱼网页进行检测,提高用户访问网页的安全性。
例如,用户在终端的浏览器上访问网页时,可以在网页地址的输入框中输入所访问的网页的URL,终端获得用户输入的网页的URL后,可将该网页的URL发送至钓鱼网页检测装置,以检测该网页是否属于钓鱼网页。
S202、通过对象检测模型,对页面图像进行目标检测,得到对象检测结果,对象检测结果包括待检测网页中的待识别标识。
其中,对象检测模型(又可称为目标检测模型)用于对页面图像进行目标检测,对象检测模型可采用深度学习模型,因此,对象检测模型又可成为深度目标检测模型(DeepObject Detection Model)。
本实施例中,可将页面图像输入至对象检测模型中,或者,将页面图像经过预处理操作(比如去躁、剪裁等,在此对预处理操作不做限制)后输入至对象检测模型中,在对象检测模型中,对页面图像进行目标检测,其中包括对页面图像上的图形标识进行检测。最终,得到对象检测模型输出的对象检测结果,对象检测结果包括待检测网页中的图形标识,为了便于区分,将在待检测网页中检测得到的图形标识称为待识别标识。
其中,对于网页而言,网页上的图形标识可体现网页所属的品牌,钓鱼网页上的图形标识可以体现钓鱼网页所仿冒的可信任网页的品牌。
可选的,图形标识可为logo标识,比如商标图案。
S203、通过标识识别模型和待识别标识,确定待检测网页是否属于钓鱼网页的第一预测结果和待检测网页属于钓鱼网页的第一置信度。
其中,标识识别模型用于识别待识别标识与可信任网站的图形标识的相似度。标识识别模型可采用深度学习模型。因此,标识识别模型又可以称为深度相似度模型(DeepSiamese Model)。
本实施例中,可通过标识识别模型中,识别待识别标识与可信任网站的图形标识的相似度。由于待识别标识与可信任网站的图形标识的相似度,可反映出待检测网页是否仿冒可信任网站以及待检测网页仿冒哪个可信任网站,所以,可根据待识别标识与可信任网站的图形标识的相似度,得到待检测网页是否属于钓鱼网页的预测结果,进一步确定待检测网页为钓鱼网页的置信度,为便于区分,将该预测结果称为第一预测结果,将该置信度称为第一置信度。
S204、通过文本分析模型和页面描述文本,确定待检测网页是否属于钓鱼网页的第二预测结果和待检测网页属于钓鱼网页的第二置信度。
本实施例中,页面描述文本体现网页的文字、链接等内容,钓鱼网页的页面描述文件与可信任网页的页面描述文件有明显区别,所以可通过文本分析模型对待检测网页的页面描述文本进行文本分析处理,得到待检测网页是否属于钓鱼网页的预测结果,进一步确定待检测网页为钓鱼网页的置信度,为便于区分,将该预测结果称为第二预测结果,将该置信度称为第二置信度。
需要说明的是,标识识别和文本分析可以同时进行,也可以先后进行,换句话说,可以同时执行S203和S204,以减少钓鱼网页的检测所消耗的时间,提高钓鱼网页检测效率,也可以先执行S203后执行S204,或者先执行S204后执行S203。
S205、根据第一预测结果、第二预测结果、第一置信度和第二置信度,确定待检测网页的钓鱼网页检测结果,钓鱼网页检测结果包括待检测网页是否属于钓鱼网页。
本实施例中,在获得第一预测结果、第二预测结果、第一置信度和第二置信度后,可综合第一预测结果、第二预测结果、第一置信度和第二置信度,判断待检测网页是否属于钓鱼网页,得到待检测网页的钓鱼网页检测结果。一种方式中,可在第一预测结果、第二预测结果、第一置信度和第二置信度满足预设条件的情况下,确定待检测网页属于钓鱼网页,否则确定待检测网页不属于钓鱼网页。从而结合多个模型判断待检测网页是否为钓鱼网页,降低钓鱼网页检测对单一模型的依赖,提高钓鱼网页检测的准确性。
本公开实施例中,结合待检测网页的图像数据和文本数据实现钓鱼网页检测,降低钓鱼网页检测的数据来源单一的问题,以防御对网页标识进行修改的对抗攻击技术。通过对象检测模型对页面图像进行目标检测,通过标识识别模型对页面图像上的待识别标识进行识别,得到第一预测结果和第一置信度,通过文本分析模型对页面描述文本进行文本分析处理,得到第二预测结果和第二置信度,结合第一预测结果、第二预测结果、第一置信度和第二置信度,确定待检测网页的钓鱼网页检测结果。从而,通过多模型结合的方式,避免钓鱼结果的认定对单一模型的判断结果过于依赖,防御对单一模型的对抗攻击技术。因此,提高了钓鱼网页检测的准确性。
在一些实施例中,对象检测结果还包括待检测网页中的输入控件,钓鱼网页检测结果包括待检测网页中的输入控件。此时,S202的一种可能的实现方式包括:通过对象检测模型,对页面图像进行图形标识的检测和输入控件,得到对象检测结果,对象检测结果包括待检测图形中的待识别标识和输入控件。其中,输入控件例如文本输入框、语音输入按键等。
在实际应用场景中,攻击者构建出伪装成可信任网站的钓鱼网页,并在钓鱼网页上提供输入控件。比如,攻击者将伪装成电商平台的登录网页,该登录网页具有输入框,输入框允许用户输入凭据信息(例如,用户名、密码、银行卡等私密信息);攻击者通过电子邮件,社交网络等途径将伪装后的钓鱼网页的URL地址或链接二维码发送给用户的终端,用户在终端上成功访问该钓鱼网页后,可能通过输入框向攻击者提供与可信任网站相对应的账户敏感信息。因此,在本实施例中,考虑到钓鱼网页通常向用户提供输入个人敏感信息的输入控件,通过检测待检测网页上的输入控件,生成更具体的更详细的钓鱼网页检测结果,进一步了解待检测网页需要用户输入的信息。
在一些实施例中,钓鱼网页检测结果还包括待检测网页对应的钓鱼分数。此时,S204的一种可能的实现方式包括:根据第一预测结果、第二预测结果、第一置信度和第二置信度,确定待检测网页是否为钓鱼网页,根据第一置信度和第二置信度,确定待检测网页对应的钓鱼分数。其中,待检测网页对应的钓鱼分数反映待检测网页属于钓鱼网站的概率,钓鱼分数越高,则待检测网页属于钓鱼网站的概率越高。从而,通过多模型结合的方式,提高判断待检测网页是否属于钓鱼网站的准确性,提高钓鱼分数的准确性。
本实施例中,第一置信度和第二置信度均可反应待检测网页属于钓鱼网站的概率,相较于通过第一置信度来表示待检测网页属于钓鱼网页的概率或者通过第二置信度来表示待检测网页属于钓鱼网页的概率,通过结合第一置信度和第二置信度,得到待检测网页对应的钓鱼分数,通过钓鱼分数可更准确地反映待检测网页属于钓鱼网页的概率。其中,可通过对第一置信度和第二置信度进行加权、求和、求平均等方式,得到钓鱼分数。
优选的,预先设置标识识别模型对应的第一权重和文本分析模型对应的第二权重,通过第一权重和第二权重,对第一置信度和第二置信度进行加权,得到钓鱼分数。从而,考虑到不同模型可能的识别差异,分配不同的权重来平衡不同模型对钓鱼网页检测性能的影响,提高钓鱼分数点准确性。
进一步的,钓鱼分数的运算公式可表示为:
PhishScore=w1×siamese_conf+w2×stacking_conf
其中,PhishScore表示钓鱼分数,siamese_conf表示第一置信度,stacking_conf表示第二置信度,w1表示第一权重,w2表示第二权重。
在一些实施例中,钓鱼网页检测结果还包括才从待检测网页中检测出的待识别标识和/或与待识别标识相似的可信任网站的图形标识。从而,基于钓鱼网页检测结果向用户直观地反映待检测网页可能仿冒的网站、品牌。
综上,钓鱼网页检测结果可相当于钓鱼网页检测报告,在钓鱼网页检测报告中可包括待检测网页是否为钓鱼网页、待检测网页对应的钓鱼分数、待检测网页中检测出的待识别标识、待检测网页可能仿冒的可信任网站的图像标识以及待检测网页中的输入控件。从而,通过钓鱼网页检测报告,向用户提供详细的、可靠的、准确的钓鱼网页检测结果。
参考图3,图3为本公开实施例提供的钓鱼网页检测方法的流程示意图二。如图3所示,钓鱼网页检测方法包括:
S301、获取待检测网页的页面图像和页面描述文本。
S302、通过对象检测模型,对页面图像进行目标检测,得到对象检测结果,对象检测结果包括待检测网页中的待识别标识。
其中,S301~S302的实现原理和技术效果可参照前述实施例,不再赘述。
S303、在标识识别模型中,将可信任网站集中的图形标识与待识别标识匹配,得到可信任网站集中的图形标识与待识别标识的相似度。
其中,预先构建可信任网站集,可信任网站集可表现为品牌列表的方式,在可信任网站集中包括可信任网站的图形标识,图形标识体现了可信任网站的品牌。由于可信任网站的品牌可能有多种logo标识,在可信任网站集中一个可信任网站可对应多个图形标识,以提高对待识别标识进行识别的准确性。
本实施例中,可将待识别标识和可信任网站集中的图形标识输入至标识识别模型中,在标识识别模型中,对待识别标识和可信任网站集中的图形标识进行图像匹配,得到可信任网站集中的图像标识与待识别标识的相似度。
在一种可能的实现方式中,对象检测模型检测待检测网页的页面图像后,可在待检测网页的页面图像中标记出待识别标识的位置和大小,之后可将待识别标识的位置和大小、待检测网页的页面图像以及可信任网站集中的图形标识输入至标识识别模型中,以对待识别标识进行识别。
S304、根据可信任网站集中的图形标识与待识别标识的相似度,确定第一预测结果和第一置信度。
其中,第一预测结果和第一置信度可参照前述实施例,不再赘述。
本实施例中,在得到可信任网站集中的图形标识与待识别标识的相似度后,可基于这些相似度,确定第一预测结果,可基于这些相似度,在可信任网站集中确定与待识别标识匹配成功的图形标识,基于与待识别标识匹配成功的图形标识与待识别标识的相似度,确定第一置信度。
在一种可能的实现方式中,如果可信任网站集中存在至少一个图形标识与待识别标识的相似度大于第一阈值,则确定与待识别标识匹配成功的目标标识为可信任网站集中与待识别标识的相似度最大的图形标识;根据目标标识与待识别标识的相似度,确定第一预测结果和第一置信度。从而,通过相似度阈值比较的方式,提高第一预测结果和第一置信度的准确性。
本实现方式中,有如下两种可选方式:
一种方式可为:在可信任网站集中存在与待识别标识的相似度大于第一阈值的目标标识的情况下,确定第一预测结果为待检测网站属于钓鱼网站,确定第一置信度为待检测网站与钓鱼网站的相似度;在可信任网站集中不存在与待识别标识的相似度大于第一阈值的目标标识的情况下,确定第一预测结果不属于钓鱼网站,确定第一置信度为零。
另一种方式可为:可信度网站集还包括可信任网站的域名,在目标标识所属的可信任网站的域名与待检测网页的域名不一致的情况下,确定第一预测结果为待检测网页属于钓鱼网页,确定第一置信度为待识别标识与图形标识的相似度;在目标标识所属的可信任网站与待检测网页的域名一致的情况下,确定第二预测结果为待检测网页不属于钓鱼网页,确定第一置信度为零。从而,结合可信任网站的图形标识和域名,提高钓鱼网页检测的准确性。
在又一种可能的实现方式,标识识别模型的输出数据包括可信任网站集中与待识别标识的相似度最高的图形标识、以及该图形标识与待识别标识的相似度。此时,有如下两种可选方式:
一种方式可为:如果该图形标识与待识别标识的相似度大于第一阈值,则确定与待识别标识匹配成功的目标标识为该图形标识、第一预测结果为待检测网页属于钓鱼网页以及第一置信度为目标标识与待识别标识的相似度;否则,确定第一预测结果为待检测网页不属于钓鱼网页以及第一置信度为零。
另一种方式可为:可信度网站集还包括可信任网站的域名,如果标识识别模型输出的图形标识与待识别标识的相似度大于第一阈值,则确定与待识别标识匹配成功的目标标识为该图形标识,判断目标标识所属的可信任网站的域名与待检测网页的域名是否一致,若一致,则确定第一预测结果为待检测网页属于钓鱼网页以及第一置信度为目标标识与待识别网页的相似度。否则(即标识模型输出的图形标识与待识别标识的相似度小于或等于第一阈值,或者,目标标识所属的可信任网站的域名与待识别网页的域名一致的情况下),确定第一预测结果为待检测网页不属于钓鱼网页,确定第一置信度为零。从而,结合可信任网站的图形标识和域名,提高钓鱼网页检测的准确性。
作为示例的,第一预测结果和第一置信度可表示为:
其中,siamese_conf表示第一置信度,siamese confidence表示待识别标识与目标标识的相似度,phish_category_si表示第一预测结果,第一预测结果为0时,第一预测结果指示待检测网页不属于钓鱼网页,第一预测结果为1时,第一预测结果指示待检测网页属于钓鱼网页。
S305、通过文本分析模型和页面描述文本,确定待检测网页是否属于钓鱼网页的第二预测结果和待检测网页属于钓鱼网页的第二置信度。
S306、根据第一预测结果、第二预测结果、第一置信度和第二置信度,确定待检测网页的钓鱼网页检测结果,钓鱼网页检测结果包括待检测网页是否属于钓鱼网页。
其中,S305~S306的实现原理和技术效果可参照前述实施例,不再赘述。
本公开实施例中,结合待检测网页的图像数据和文本数据实现钓鱼网页检测,降低钓鱼网页检测的数据来源单一的问题,以防御对网页标识进行修改的对抗攻击技术。通过对象检测模型、标识识别模型和文本分析模型,确定待检测网页的钓鱼网页检测结果,避免钓鱼结果的认定对单一模型的判断结果过于依赖,防御对单一模型的对抗攻击技术。在标识识别模型中,基于可信任网站集实现待检测网页中的图形标识的识别,提高图形标识识别的准确性,进而提高钓鱼网页检测的准确性。因此,本公开实施例有效地提高了钓鱼网页检测的准确性,为用户访问网页提供更安全的保障。
参考图4,图4为本公开实施例提供的钓鱼网页检测方法的流程示意图三。如图4所示,钓鱼网页检测方法包括:
S401、获取待检测网页的页面图像和页面描述文本。
S402、通过对象检测模型,对页面图像进行目标检测,得到对象检测结果,对象检测结果包括待检测网页中的待识别标识。
S403、通过标识识别模型和待识别标识,确定待检测网页是否属于钓鱼网页的第一预测结果和待检测网页属于钓鱼网页的第一置信度。
其中,S401~S403的实现原理和技术效果可参照前述实施例,不再赘述。
S404、从页面描述文本中提取出文本特征。
其中,从待检测网页的页面描述文本中提取出的文本特征包括如下至少一种:链接数量、资源数量、登录表单、页面弹窗。链接可指网页链接或者其他资源链接,资源是指待检测网页显示所需要加载的资源,比如图片、适配、层叠样式表(Cascading Style Sheets,CSS)文件、脚本等;登录表单是指用于用户填写敏感信息的登录窗口、表单等;页面弹窗是指通过弹窗方式显示页面,在钓鱼网页中,可能通过页面弹窗方式要求用户提供敏感信息。
本实施例中,可信任网站的网页和钓鱼网站的网页在文本特征上存在较大差异,包括链接数量上的差异、资源数量上的差异、登录表单的差异、页面弹窗的差异。利用该特点,可从页面描述文本中提取出文本特征,包括从页面文本中提取出链接数量、资源数量、登录表单、页面弹窗中的至少一种文本特征。进而,基于这些文本特征判断待检测网页是否属于钓鱼网页。
在一种可能的实现方式中,文本特征包括链接数量的情况下,可基于网页的预定义链接规则,对待检测网页的页面描述文本进行分析,得到待检测网页的页面描述文本中的链接数量,以提高链接数量提取的准确性。
可选的,在待检测网页的网页描述文本为待检测网页的代码文本的情况下,网页的预定义链接规则是指代码文本的链接规则,进一步的,代码文本为HTML文本的情况下,网页的预定义链接规则是指HTML代码的链接规则。
可选的,链接数量包括如下至少一种:本地链接数量、外部链接数量、空链接数量。可信任网站的网页和钓鱼网站的网页在本地链接数量、外部链接数量和空链接数量上均存在差异,通过将链接数量这一特征细化为本地链接数量、外部链接数量、空链接数量,有利于提高钓鱼网页检测的准确性。
其中,本地链接是指是待检测网页的页面描述文本中(在待检测网页的页面描述文本为代码文本的情况下,是指在待检测网页的网页代码中,进一步的,在待检测网页的页面描述文本为HTML文本的情况下,是指在待检测网页的HTML代码中)与待检测网页的URL具有相同域名的链接,这些链接所对应的网页与待检测网页部署在同一服务器上。本地链接数量是指待检测网页的页面描述文本中本地链接的数量。
其中,外部链接是指待检测网页的页面描述文本中与待检测网页的URL不具有相同域名的链接,这些链接所对应的网页部署在外部服务器上,换句话说,外部链接所指向的网页与待检测网页未部署在同一服务器上。外部链接用于丰富待检测网页的页面内容。同样的,外部链接数量是指待检测网页的页面描述文本中外部链接的数量。
其中,空链接是指待检测网页的页面描述文本中链接地址为空的超链接符号。在钓鱼网页中,通常使用空链接来填充超链接位置,以此迷惑用户。比如,在钓鱼网页的HTML代码中,常用的空链接标签有<a href=""></a>和<a href="#"></a>等形式,所以可通过检测待检测网页的HTML代码中的空链接标签,得到待检测网页的空链接数量。
可信任网站的页面描述文本中本地链接数量、外部链接数量、空链接数量的数据分布与钓鱼网站的页面描述文本中本地链接数量、外部链接数量、空链接数量的数据分布不同。如图5所示(图5为可信任网站与钓鱼网站中链接数量的数据特征箱形图),(a)图为可信任网站中链接数量的数据特征,(b)图为钓鱼网站中链接数量的数据特征,可以看出:50%的可信任网站的内部链接位于箱盒范围0~50中,且箱形图下限与下四分位数基本重叠,而钓鱼网站的箱盒范围分布区间更窄,箱盒范围为0-10,这意味钓鱼网站的本地链接数量更少;相反地,在外部链接数量和空链接数量的统计中,钓鱼网站的箱盒范围比可信任网站要更宽,即相较于可信任网站的网页,钓鱼网页会存在更多外部链接和空链接,反映了钓鱼网页往往引用大量的外部链接和空链接来填充页面以降低钓鱼网页制作成本的现象。
在一种可能的实现方式中,文本特征包括资源数量的情况下,可基于网页的资源标签,对待检测网页的资源引用情况进行分析,得到待检测网页的页面描述文本引用的资源数量,以提高资源数量的准确性。
可选的,在待检测网页的网页描述文本为待检测网页的代码文本的情况下,网页的资源标签是指代码文本的资源标签,进一步的,代码文本为HTML文本的情况下,网页的资源标签是指HTML代码的资源标签(又可称为HTML标签)。作为示例的,HTML标签中,<img>属性标签表示图片的来源,<link>属性标签表示资源引用地址,<script>属性标签表示脚本加载。
可选的,资源数量包括如下本地资源数量和/或外部资源数量。可信任网站的网页和钓鱼网站的网页在本地资源数量、外部资源数量上均存在差异,通过将资源数量这一特征细化为本地资源数量、外部资源数量,丰富钓鱼网站检测所依赖的文本特征的丰富性,提高钓鱼网页检测的准确性。
其中,本地资源是指部署待检测网页的服务器上的资源,外部资源是指部署在外部服务器上的资源。钓鱼网站往往通过加载外部资源来丰富页面,以达到降低成本的目的。所以,通常的,钓鱼网站所引用的本地资源少于可信任网站所引用的本地资源,钓鱼网站所引用的外部资源多于可信任网站所引用的本地资源,可以将本地资源数量、外部资源数量作为钓鱼网页检测的文本特征,以提高钓鱼网页检测的准确性。
作为示例的,在图6中(图6为可信任网站与钓鱼网站中的资源分布折线图),示出了可信任网站和钓鱼网站的外部资源数量分布的折线图,其中,横轴表示外部资源的数量,纵轴表示网页数量,可以看出:可信任网站中网页的外部资源数量集中分布在1~10之间,钓鱼网页的本地资源数量集中分布在0~20之间,可信任网站中网页引用的外部资源明显少于钓鱼网页。
S405、在文本分析模型中,基于文本特征对待检测网页是否属于钓鱼网页进行预测,得到第二预测结果和第二置信度。
本实施例中,在获得待检测网页的文本特征后,可将待检测网页的文本特征输入至文本分析模型中,文本分析模型基于文本特征,对待检测网页进行分类,得到分类预测结果,分类预测结果包括待检测网页所属的类别(即钓鱼网页或者可信任网页)以及待检测网页属于该所属的类别的分数(或者概率、置信度)。基于分类预测结果,可得到第二预测结果和第二置信度。具体的,文本分析模型预测待检测网页属于钓鱼网页时,确定第二预测结果为待检测网页属于钓鱼网页,确定第二置信度为文本分析模型输出的待检测网页属于钓鱼网页的分数;文本分析模型预测待检测网页属于可信任网页时,确定第二预测结果为待检测网页不属于钓鱼网页,基于文本分析模型输出的待检测网页属于可信任网页的分数,确定第二置信度。
在一种可能的实现方式中,文本分析模型为堆叠(Stacking)模型,文本分析模型包含至少两级分类器,此时,S405包括:通过堆叠模型中的至少两级分类器,基于文本特征对待检测网页是否属于钓鱼网页进行预测,得到第二预测结果和第二置信度。其中,堆叠模型是多级模型(又可称为多层模型),每级可以包括一个或多个模型,即每级分类器可以包括一个或多个元分类器,上一级分类器的输出可以用作下一级分类器的输入。如此,通过多级分类器形成的堆叠模型,提高预测待检测网页是否属于钓鱼网页的准确性。
本实现方式中,可将包含待检测网页的文本特征的特征向量输入至文本分析模型中,经过第一级分类器,得到第一级分类器的输出数据,将特征向量与第一级分类器的输出数据输入至下一级分类器中,如此,经过多级分类器,得到文本分析模型最终的输出数据。之后,基于文本分析模型最终的输出数据,得到第二预测结果和第二置信度。
进一步可选的,文本分析模型包括第一级分类器和第二级分类器,第二级分类器为第一级分类器的下一级分类器。此时,S405可包括:在第一级分类器中,基于文本特征对待检测网页是否属于钓鱼网页进行预测,得到初始预测标签;在第二级分类器中,基于文本特征和初始预测标签,对待检测网页是否属于钓鱼网页进行预测,得到最终预测标签和中间置信度;确定第二预测结果为最终预测标签,如果最终预测标签为钓鱼网页,则确定第二置信度为中间置信度,否则确定第二置信度为置信度满分与中间置信度的差值。从而,通过两级分类器,提高通过文本分析模型预测待检测网页是否属于钓鱼网页的准确性。
本可选方式中,可将待检测网页的文本特征输入至第一级分类器,在第一级分类器中,基于文本特征对待检测网页是否属于钓鱼网页进行预测,得到初始预测标签,初始预测标签为钓鱼网页时,表示第一级分类器预测待检测网页属于钓鱼网页,初始预测标签为可信任网页时,表示第一级分类器预测待检测网页属于可信任网页;之后,可将文本特征和初始预测标签输入至第二分类器中,在第二级分类器中,基于文本特征和初始预测标签,对待检测网页是否属于钓鱼网页进行预测,得到最终预测标签和中间置信度,中间置信度表示待检测网页属于最终预测标签(钓鱼网页或者可信任网页)的概率;接着,确定第二预测结果为最终预测标签,如果最终预测标签为钓鱼网页,则确定第二置信度为中间置信度,如果最终预测标签为可信任网页,则中间置信度为待检测网页属于可信任网页的概率,因此可确定第二置信度为置信度满分与中间置信度的差值(例如1减去中间置信度得到的差值)。
作为示例的,第二预测结果和第二置信度可表示为:
其中,Stacking_conf表示第二置信度,Stacking confidence表示中间置信度,phish_category_st表示最终预测标签,也表示第二预测结果,第二预测结果为0时指示待检测网页不属于钓鱼网页(即属于可信任网页),第二预测结果为1时指示待检测网页属于钓鱼网页。
可选的,第一级分类器中包括多个元分类器,进一步的,第一级分类器中的多个元分类器包括随机森林(Random Forest)、极限树(ExtraTrees)、XGBoost中的至少两种,第二级分类器中的元分类器可包括极限树。从而,通过多种元分类器,提高文本分析模型的钓鱼网页检测的准确性。
可选的,预先训练第一分类器和第二分类器,以提高第一分类器和第二分类器的分类准确性。其中,第一分类器和第二分类器的训练过程如下:
步骤1,可将训练数据集拆分为K份数据子集,K大于1。
其中,可通过对用于训练的网页的页面描述文本进行文本特征提取的方式,得到训练数据集。训练数据集中包括n(n大于1)个网页的文本特征和用于标记网页是否属于钓鱼网页的标签,比如,标签为0时表示网页属于钓鱼网页,标签为1时表示网页不属于钓鱼网页。所以,训练数据集可表示为:xi表示第i个网页的文本特征,yi表示第i个网页的标签。
其中,K份数据子集用于K轮训练,在每轮训练中,使用K-1份数据子集作为训练数据,将剩下的1份数据作为测试数据。
步骤2,基于K份数据子集,训练第一级分类器,并基于第一级分类器的输出数据,构建第二级分类器的训练数据。
其中,第一级分类器又可称为基分类器,可表示为hkm,其中,k表示第k轮训练,m表示第一级分类器中元分类器的数量。
本步骤中,使用K-1份数据子集,训练第一级分类器hkm,得到第一级分类器的输出数据hkm(xi),构建得到第二级分类器的训练数据{xi′,yi}。其中,x′i={hk1(xi)、hk2(xi)、......、hkm(xi)}。如此,对第一级分类器进行多轮训练,并在每轮训练中构建第二分类器的训练数据。
步骤3,基于第二级分类器的训练数据,训练第二级分类器。
之后,循环执行步骤2~步骤3,最终得到训练好的第一级分类器和第二级分类器,有效提高了第一级分类器与第二级分类器的分类准确性。
S406、根据第一预测结果、第二预测结果、第一置信度和第二置信度,确定待检测网页的钓鱼网页检测结果,钓鱼网页检测结果包括待检测网页是否属于钓鱼网页。
其中,S406的实现原理和技术效果可参照前述实施例,不再赘述。
在一种可能都实现方式中,S406包括:在第一预测结果和第二预测结果均为待检测网页属于钓鱼网页的情况下,如果第一置信度大于或等于第二阈值且第二置信度大于或等于第三阈值,则确定钓鱼网页检测结果中待检测网页属于钓鱼网页。因此,在标识识别模型和文本分析模型都预测待检测网页属于钓鱼网页,且经标识识别模型确定的第一置信度和经文本分析模型确定的第二置信度均满足阈值要求时,才将待检测网页归类为钓鱼网页。否则,可确定待检测网页不属于钓鱼网页。从而,提高钓鱼网页检测的准确性。
可选的,第二阈值大于或等于第三阈值,即第二阈值为上界,第三阈值为下届,在第一置信度高于上界且第二置信度不低于下界的情况下,确定待检测网页属于钓鱼网页。
可选的,在基于第一权重和第二权重,对第一置信度和第二置信度进行加权,得到钓鱼分数的情况下,第二阈值和第三阈值的取值,与第一权重和第二权重的取值相关,即权重变化时阈值也会相应发生变化。从而,通过权重和阈值的灵活变化,提高钓鱼网页检测的准确性。
对应于上文实施例的钓鱼网页检测方法,图7为本公开实施例提供的钓鱼网页检测装置的结构框图。为了便于说明,仅示出了与本公开实施例相关的部分。参照图7,钓鱼网页检测装置包括:数据获取单元701、目标检测单元702、标识识别单元703、文本处理单元704和确定单元705。
数据获取单元701,用于获取待检测网页的页面图像和页面描述文本;
目标检测单元702,用于通过对象检测模型,对页面图像进行目标检测,得到对象检测结果,对象检测结果包括待检测网页中的待识别标识;
标识识别单元703,用于通过标识识别模型和待识别标识,确定待检测网页是否属于钓鱼网页的第一预测结果和待检测网页属于钓鱼网页的第一置信度;
文本处理单元704,用于通过文本分析模型和页面描述文本,确定待检测网页是否属于钓鱼网页的第二预测结果和待检测网页属于钓鱼网页的第二置信度;
确定单元705,用于根据第一预测结果、第二预测结果、第一置信度和第二置信度,确定待检测网页的钓鱼网页检测结果,钓鱼网页检测结果包括待检测网页是否属于钓鱼网页。
在一些实施例中,预先构建可信任网站集,可信任网站集包含可信任网站的图形标识,标识识别单元703具体用于:在标识识别模型中,将可信任网站集中的图形标识与待识别标识匹配,得到可信任网站集中的图形标识与待识别标识的相似度;根据可信任网站集中的图形标识与待识别标识的相似度,确定第一预测结果和第一置信度。
在一些实施例中,可信任网站集还包含可信任网站的域名,在根据可信任网站集中的图形标识与待识别标识的相似度,确定第一预测结果和第一置信度的过程中,标识识别单元703具体用于:如果可信任网站集中存在至少一个图形标识与待识别标识的相似度大于第一阈值,则确定与待识别标识匹配成功的目标标识为可信任网站集中与待识别标识的相似度最大的图形标识;在目标标识所属的可信任网站的域名与待检测网页的域名不一致的情况下,确定第一预测结果为待检测网页属于钓鱼网页且第一置信度为待识别标识与图形标识的相似度。
在一些实施例中,文本处理单元704具体用于:从页面描述文本中提取出文本特征,其中,文本特征包括如下至少一种:链接数量、资源数量、登录表单、页面弹窗,链接数量包括如下至少一种:本地链接数量、外部链接数量、空链接数量,资源数量包括如下本地资源数量和/或外部资源数量;在文本分析模型中,基于文本特征对待检测网页是否属于钓鱼网页进行预测,得到第二预测结果和第二置信度。
在一些实施例中,文本分析模型为堆叠模型,文本分析模型包含至少两级分类器,在文本分析模型中,基于文本特征对待检测网页是否属于钓鱼网页进行预测,得到第二预测结果和第二置信度的过程中,文本处理单元704具体用于:通过至少两级分类器,基于文本特征对待检测网页是否属于钓鱼网页进行预测,得到第二预测结果和第二置信度。
在一些实施例中,文本分析模型包括第一级分类器和第二级分类器,通过至少两级分类器,在基于文本特征对待检测网页是否属于钓鱼网页进行预测,得到第二预测结果和第二置信度的过程中,文本处理单元704具体用于:在第一级分类器中,基于文本特征对待检测网页是否属于钓鱼网页进行预测,得到初始预测标签;在第二级分类器中,基于文本特征和初始预测标签,对待检测网页是否属于钓鱼网页进行预测,得到最终预测标签和中间置信度;确定第二预测结果为最终预测标签,如果最终预测标签为钓鱼网页,则确定第二置信度为中间置信度,否则确定第二置信度为置信度满分与中间置信度的差值。
在一些实施例中,确定单元705具体用于:在第一预测结果和第二预测结果均为待检测网页属于钓鱼网页的情况下,如果第一置信度大于或等于第二阈值且第二置信度大于或等于第三阈值,则确定钓鱼网页检测结果中待检测网页属于钓鱼网页。
本实施例提供的钓鱼网页检测装置,可用于执行上述钓鱼网页检测方法的实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
参考图8,其示出了适于用来实现本公开实施例的电子设备800的结构示意图,该电子设备800可以为终端设备或服务器。其中,终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(Personal Digital Assistant,简称PDA)、平板电脑(Portable Android Device,简称PAD)、便携式多媒体播放器(Portable MediaPlayer,简称PMP)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图8示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,电子设备800可以包括处理装置(例如中央处理器、图形处理器等)801,其可以根据存储在只读存储器(Read Only Memory,简称ROM)802中的程序或者从存储装置808加载到随机访问存储器(Random Access Memory,简称RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有电子设备800操作所需的各种程序和数据。处理装置801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
通常,以下装置可以连接至I/O接口805:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置806;包括例如液晶显示器(Liquid CrystalDisplay,简称LCD)、扬声器、振动器等的输出装置807;包括例如磁带、硬盘等的存储装置808;以及通信装置809。通信装置809可以允许电子设备800与其他设备进行无线或有线通信以交换数据。虽然图8示出了具有各种装置的电子设备800,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置809从网络上被下载和安装,或者从存储装置808被安装,或者从ROM802被安装。在该计算机程序被处理装置801执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network,简称LAN)或广域网(Wide Area Network,简称WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取待检测网页的页面图像和页面描述文本的单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (5)

1.一种钓鱼网页检测方法,其特征在于,包括:
获取待检测网页的页面图像和页面描述文本;
通过对象检测模型,对所述页面图像进行目标检测,得到对象检测结果,所述对象检测结果包括所述待检测网页中的待识别标识;
通过标识识别模型和所述待识别标识,确定所述待检测网页是否属于钓鱼网页的第一预测结果和所述待检测网页属于钓鱼网页的第一置信度,包括:
预先构建可信任网站集,所述可信任网站集包含可信任网站的图形标识和域名;在所述标识识别模型中,将所述可信任网站集中的图形标识与所述待识别标识匹配,得到所述可信任网站集中的图形标识与所述待识别标识的相似度;如果所述可信任网站集中存在至少一个图形标识与所述待识别标识的相似度大于第一阈值,则确定与所述待识别标识匹配成功的目标标识为所述可信任网站集中与所述待识别标识的相似度最大的图形标识;在所述目标标识所属的可信任网站的域名与所述待检测网页的域名不一致的情况下,确定所述第一预测结果为所述待检测网页属于钓鱼网页且所述第一置信度为所述待识别标识与所述图形标识的相似度;
通过文本分析模型和所述页面描述文本,确定所述待检测网页是否属于钓鱼网页的第二预测结果和所述待检测网页属于钓鱼网页的第二置信度,包括:
从所述页面描述文本中提取出文本特征;在所述文本分析模型中,基于所述文本特征对所述待检测网页是否属于钓鱼网页进行预测,得到所述第二预测结果和所述第二置信度,其中,所述文本分析模型为堆叠模型,所述文本分析模型包括第一级分类器和第二级分类器;
根据所述第一预测结果、所述第二预测结果、所述第一置信度和所述第二置信度,确定所述待检测网页的钓鱼网页检测结果,所述钓鱼网页检测结果包括所述待检测网页是否属于钓鱼网页,包括:
在所述第一预测结果和所述第二预测结果均为所述待检测网页属于钓鱼网页的情况下,如果所述第一置信度大于或等于第二阈值且所述第二置信度大于或等于第三阈值,则确定所述钓鱼网页检测结果中所述待检测网页属于钓鱼网页;
其中,所述基于所述文本特征对所述待检测网页是否属于钓鱼网页进行预测,得到所述第二预测结果和所述第二置信度,包括:
在所述第一级分类器中,基于所述文本特征对所述待检测网页是否属于钓鱼网页进行预测,得到初始预测标签;
在所述第二级分类器中,基于所述文本特征和所述初始预测标签,对所述待检测网页是否属于钓鱼网页进行预测,得到最终预测标签和中间置信度;
确定所述第二预测结果为所述最终预测标签,如果所述最终预测标签为钓鱼网页,则确定所述第二置信度为所述中间置信度,否则确定所述第二置信度为置信度满分与所述中间置信度的差值。
2.根据权利要求1所述的钓鱼网页检测方法,其特征在于,所述文本特征包括如下至少一种:链接数量、资源数量、登录表单、页面弹窗,所述链接数量包括如下至少一种:本地链接数量、外部链接数量、空链接数量,所述资源数量包括如下本地资源数量和/或外部资源数量。
3.一种钓鱼网页检测装置,其特征在于,包括:
数据获取单元,用于获取待检测网页的页面图像和页面描述文本;
目标检测单元,用于通过对象检测模型,对所述页面图像进行目标检测,得到对象检测结果,所述对象检测结果包括所述待检测网页中的待识别标识;
标识识别单元,用于通过标识识别模型和所述待识别标识,确定所述待检测网页是否属于钓鱼网页的第一预测结果和所述待检测网页属于钓鱼网页的第一置信度,其中,所述通过标识识别模型和所述待识别标识,确定所述待检测网页是否属于钓鱼网页的第一预测结果和所述待检测网页属于钓鱼网页的第一置信度,包括:
预先构建可信任网站集,所述可信任网站集包含可信任网站的图形标识和域名;在所述标识识别模型中,将所述可信任网站集中的图形标识与所述待识别标识匹配,得到所述可信任网站集中的图形标识与所述待识别标识的相似度;如果所述可信任网站集中存在至少一个图形标识与所述待识别标识的相似度大于第一阈值,则确定与所述待识别标识匹配成功的目标标识为所述可信任网站集中与所述待识别标识的相似度最大的图形标识;在所述目标标识所属的可信任网站的域名与所述待检测网页的域名不一致的情况下,确定所述第一预测结果为所述待检测网页属于钓鱼网页且所述第一置信度为所述待识别标识与所述图形标识的相似度;
文本处理单元,用于通过文本分析模型和所述页面描述文本,确定所述待检测网页是否属于钓鱼网页的第二预测结果和所述待检测网页属于钓鱼网页的第二置信度,其中,所述通过文本分析模型和所述页面描述文本,确定所述待检测网页是否属于钓鱼网页的第二预测结果和所述待检测网页属于钓鱼网页的第二置信度,包括:
从所述页面描述文本中提取出文本特征;在所述文本分析模型中,基于所述文本特征对所述待检测网页是否属于钓鱼网页进行预测,得到所述第二预测结果和所述第二置信度,其中,所述文本分析模型为堆叠模型,所述文本分析模型包括第一级分类器和第二级分类器,所述基于所述文本特征对所述待检测网页是否属于钓鱼网页进行预测,得到所述第二预测结果和所述第二置信度,包括:
在所述第一级分类器中,基于所述文本特征对所述待检测网页是否属于钓鱼网页进行预测,得到初始预测标签;在所述第二级分类器中,基于所述文本特征和所述初始预测标签,对所述待检测网页是否属于钓鱼网页进行预测,得到最终预测标签和中间置信度;确定所述第二预测结果为所述最终预测标签,如果所述最终预测标签为钓鱼网页,则确定所述第二置信度为所述中间置信度,否则确定所述第二置信度为置信度满分与所述中间置信度的差值;
确定单元,用于根据所述第一预测结果、所述第二预测结果、所述第一置信度和所述第二置信度,确定所述待检测网页的钓鱼网页检测结果,所述钓鱼网页检测结果包括所述待检测网页是否属于钓鱼网页,其中,所述根据所述第一预测结果、所述第二预测结果、所述第一置信度和所述第二置信度,确定所述待检测网页的钓鱼网页检测结果,所述钓鱼网页检测结果包括所述待检测网页是否属于钓鱼网页,包括:
在所述第一预测结果和所述第二预测结果均为所述待检测网页属于钓鱼网页的情况下,如果所述第一置信度大于或等于第二阈值且所述第二置信度大于或等于第三阈值,则确定所述钓鱼网页检测结果中所述待检测网页属于钓鱼网页。
4.一种电子设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至2任一项所述的钓鱼网页检测方法。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至2任一项所述的钓鱼网页检测方法。
CN202210498890.8A 2022-05-09 2022-05-09 钓鱼网页检测方法、装置、设备及存储介质 Active CN114978624B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210498890.8A CN114978624B (zh) 2022-05-09 2022-05-09 钓鱼网页检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210498890.8A CN114978624B (zh) 2022-05-09 2022-05-09 钓鱼网页检测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114978624A CN114978624A (zh) 2022-08-30
CN114978624B true CN114978624B (zh) 2023-11-03

Family

ID=82982226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210498890.8A Active CN114978624B (zh) 2022-05-09 2022-05-09 钓鱼网页检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114978624B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115796145B (zh) * 2022-11-16 2023-09-08 珠海横琴指数动力科技有限公司 一种网页文本的采集方法、系统、服务器及可读存储介质
CN116501915B (zh) * 2023-06-29 2023-10-20 长江三峡集团实业发展(北京)有限公司 一种能量管理端语音页面检索方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102523202A (zh) * 2011-12-01 2012-06-27 华北电力大学 钓鱼网页的深度学习智能检测方法
CN108777674A (zh) * 2018-04-24 2018-11-09 东南大学 一种基于多特征融合的钓鱼网站检测方法
CN110532874A (zh) * 2019-07-23 2019-12-03 深圳大学 一种物体属性识别模型的生成方法、存储介质及电子设备
CN110784462A (zh) * 2019-10-23 2020-02-11 北京邮电大学 基于混合方法的三层钓鱼网站检测系统
CN111181922A (zh) * 2019-12-06 2020-05-19 北京中睿天下信息技术有限公司 一种钓鱼链接检测方法及系统
CN113347177A (zh) * 2021-05-31 2021-09-03 中国工商银行股份有限公司 钓鱼网站检测方法、检测系统、电子设备及可读存储介质
CN114448664A (zh) * 2021-12-22 2022-05-06 深信服科技股份有限公司 钓鱼网页的识别方法、装置、计算机设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014018630A1 (en) * 2012-07-24 2014-01-30 Webroot Inc. System and method to provide automatic classification of phishing sites
US10805346B2 (en) * 2017-10-01 2020-10-13 Fireeye, Inc. Phishing attack detection
US20210099484A1 (en) * 2019-09-26 2021-04-01 Fortinet, Inc. Phishing website detection

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102523202A (zh) * 2011-12-01 2012-06-27 华北电力大学 钓鱼网页的深度学习智能检测方法
CN108777674A (zh) * 2018-04-24 2018-11-09 东南大学 一种基于多特征融合的钓鱼网站检测方法
CN110532874A (zh) * 2019-07-23 2019-12-03 深圳大学 一种物体属性识别模型的生成方法、存储介质及电子设备
CN110784462A (zh) * 2019-10-23 2020-02-11 北京邮电大学 基于混合方法的三层钓鱼网站检测系统
CN111181922A (zh) * 2019-12-06 2020-05-19 北京中睿天下信息技术有限公司 一种钓鱼链接检测方法及系统
CN113347177A (zh) * 2021-05-31 2021-09-03 中国工商银行股份有限公司 钓鱼网站检测方法、检测系统、电子设备及可读存储介质
CN114448664A (zh) * 2021-12-22 2022-05-06 深信服科技股份有限公司 钓鱼网页的识别方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于分类置信度和网站特征的钓鱼检测系统;陈旭;黎宇坤;袁华平;刘文印;;信息网络安全(第09期);全文 *

Also Published As

Publication number Publication date
CN114978624A (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
US11689561B2 (en) Detecting unknown malicious content in computer systems
CN110808968B (zh) 网络攻击检测方法、装置、电子设备和可读存储介质
CN114978624B (zh) 钓鱼网页检测方法、装置、设备及存储介质
CN111107048B (zh) 一种钓鱼网站检测方法、装置和存储介质
CN108566399B (zh) 钓鱼网站识别方法及系统
CN108134784B (zh) 网页分类方法及装置、存储介质及电子设备
CN109145219A (zh) 基于互联网文本挖掘的兴趣点有效性判断方法和装置
CN107273416B (zh) 网页暗链检测方法、装置及计算机可读存储介质
CN104077396A (zh) 一种钓鱼网站检测方法及装置
CN113347177A (zh) 钓鱼网站检测方法、检测系统、电子设备及可读存储介质
CN109711160B (zh) 应用程序检测方法、装置及神经网络系统
CN114495128B (zh) 字幕信息检测方法、装置、设备以及存储介质
CN111444905B (zh) 基于人工智能的图像识别方法和相关装置
CN113609493A (zh) 钓鱼网站的识别方法、装置、设备及介质
CN112231696A (zh) 恶意样本的识别方法、装置、计算设备以及介质
CN113537207A (zh) 视频处理方法、模型的训练方法、装置以及电子设备
CN111191238A (zh) 一种webshell检测方法、终端设备及存储介质
CN114448664B (zh) 钓鱼网页的识别方法、装置、计算机设备及存储介质
US20220321598A1 (en) Method of processing security information, device and storage medium
CN113888760B (zh) 基于软件应用的违规信息监控方法、装置、设备及介质
CN114301713A (zh) 风险访问检测模型的训练方法、风险访问检测方法及装置
KR20210084641A (ko) 정보를 송신하는 방법 및 장치
CN113177609A (zh) 数据类别不均衡的处理方法及设备、系统、存储介质
CN113127858A (zh) 异常检测模型训练方法、异常检测方法及装置
CN112364649A (zh) 命名实体的识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant