CN115600040A - 一种钓鱼网站识别方法及装置 - Google Patents

一种钓鱼网站识别方法及装置 Download PDF

Info

Publication number
CN115600040A
CN115600040A CN202211487579.XA CN202211487579A CN115600040A CN 115600040 A CN115600040 A CN 115600040A CN 202211487579 A CN202211487579 A CN 202211487579A CN 115600040 A CN115600040 A CN 115600040A
Authority
CN
China
Prior art keywords
word
url
html
website
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211487579.XA
Other languages
English (en)
Other versions
CN115600040B (zh
Inventor
王继龙
于帅聪
安常青
喻涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202211487579.XA priority Critical patent/CN115600040B/zh
Publication of CN115600040A publication Critical patent/CN115600040A/zh
Application granted granted Critical
Publication of CN115600040B publication Critical patent/CN115600040B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种钓鱼网站识别方法及装置,可用于网络安全技术领域或其他技术领域。所述方法包括:获取目标网站数据;根据目标网站数据获得自定义特征、文本特征和图像特征;根据自定义特征、文本特征和图像特征获得对应的自定义特征向量、文本特征向量和图像特征向量;将根据自定义特征向量、文本特征向量和图像特征向量进行拼接得到的拼接特征向量输入预先建立的深度神经网络,得到综合特征向量;将综合特征向量输入预先建立的分类神经网络,得到目标网站属于各个分类的概率。能够充分利用多特征互补的特点,解决了现有技术自适应能力差和针对反钓鱼技术的抵抗性弱的问题,具有较强的钓鱼网站检测能力。

Description

一种钓鱼网站识别方法及装置
技术领域
本申请涉及网络安全技术领域,尤其涉及一种钓鱼网站识别方法及装置。
背景技术
随着互联网的发展,网络信息指数级增长,对信息的识别侦测能力不足等问题也随之产生。网络中存在许多恶意网络攻击,钓鱼网站就是一种常见的恶意网络攻击手段。钓鱼网站通过引诱受害者通过超链接访问攻击者伪造的网站,向受害者计算机内植入恶意软件,或盗取受害者隐私信息,从而间接获利,造成受害者隐私泄露或财产损失。且钓鱼网站增长迅速、复制成本低、生命周期短等特点,为网络空间安全带来了极大的威胁。
当前,各种钓鱼网站检测技术蓬勃发展,但大多存在低分类准确性、弱时效性或弱适应性等一个或多个缺陷。现有技术中,主要包括以下几种识别钓鱼网站的方法:
黑白名单机制、通过计算网页布局视觉相似度或URL相似度识别钓鱼网站和利用机器学习或深度学习识别钓鱼网站,但黑白名单机制存在后效性,即钓鱼网站的发现往往在受害者出现以后,已经难以适应当前钓鱼网站低成本、数量激增的发展趋势。
通过计算网页布局视觉相似度或URL相似度识别钓鱼网站的方法,例如专利申请号为:201110112428.1,申请国家为中国的专利,适应性差、独立性和防御能力较弱。
利用机器学习或深度学习识别钓鱼网站的方法,但这种方法往往基于单一特征,针对深度学习模型攻击的抵御能力较差。
发明内容
针对现有技术中的问题,本申请提供一种钓鱼网站识别方法及装置,能够至少部分地解决现有技术中存在的问题。
第一方面,本申请提供一种钓鱼网站识别方法,包括:
获取目标网站数据,所述目标网站数据包括:网站URL、网站HTML文档和网站截图;
根据所述目标网站数据获得自定义特征、文本特征和图像特征;
根据所述自定义特征、所述文本特征和所述图像特征获得对应的自定义特征向量、文本特征向量和图像特征向量;
将根据所述自定义特征向量、文本特征向量和图像特征向量进行拼接得到的拼接特征向量输入预先建立的深度神经网络,得到综合特征向量;
将所述综合特征向量输入预先建立的分类神经网络,得到所述目标网站属于各个分类的概率,所述分类神经网络使用Softmax作为输出层的激活函数。
其中,所述根据所述目标网站数据获得自定义特征、文本特征和图像特征包括:
根据所述网站URL、网站HTML文档和网站截图获得所述自定义特征,所述自定义特征包括URL自定义特征、HTML自定义特征和图像自定义特征;
根据所述网站URL和所述网站HTML文档获得文本特征,所述文本特征包括URL文本特征和HTML文本特征;
根据所述网站截图获得图像特征。
其中,所述根据所述网站URL、网站HTML文档和网站截图获得所述自定义特征包括:
根据所述网站URL获得所述URL自定义特征,所述URL自定义特征包括:URL长度、URL路径深度、域名所含点数、域名是否为IP地址、URL特殊符号个数、URL是否含关键字;
根据所述网站HTML文档获得所述HTML自定义特征,所述HTML自定义特征包括:HTML是否含关键字、异域超链接比例、超链接总数量、HTML长度,其中,所述异域超链接比例为所述网站HTML文档中异域超链接的数量占所述超链接总数量的比例;
根据所述网站截图获得所述图像自定义特征,所述图像自定义特征为近似白色的像素点的数量占所述网站截图中的像素点总数的比例。
其中,所述根据所述网站URL和所述网站HTML文档获得文本特征包括:
采用标点符号分词的方式对所述网站URL和所述网站HTML文档进行分词,得到URL词序列和HTML词序列,所述HTML词序列为所述网站HTML文档中包含的标签;
查找所述URL词序列中的词在预设的URL词频排序字典中对应的词频排序和所述HTML词序列中的词在预设的HTML词频排序字典中对应的词频排序,若一词在词频排序字典中不存在,则将所述词的词频排序记为0,得到URL词频排序列表和HTML词频排序列表;
将所述URL词频排序列表和所述HTML词频排序列表的长度转化为标准长度,若所述URL词频排序列表的长度小于预设的URL词频排序列表标准长度和/或所述HTML词频排序列表的长度小于预设的HTML词频排序列表标准长度,则用0值补齐;若所述URL词频排序列表的长度小于所述URL词频排序列表标准长度和/或所述HTML词频排序列表的长度小于所述HTML词频排序列表标准长度,则只截取对应标准长度内的词频排序列表,标准长度的URL词频排序列表和HTML词频排序列表即为提取到的文本特征。
其中,所述根据所述网站截图获得图像特征包括:
将所述网站截图转化为灰度图片,并进行二值化处理,得到第一图片;
对所述第一图片进行反相处理,得到第二图片;
对所述第一图片和所述第二图片进行滤波,以分别融合所述第一图片和所述第二图片中相邻图像的边界;
分别对所述第一图片和所述第二图片进行形态学分析,提取所述第一图片和所述第二图片中各图像融合后的边界,并获取各边界的外切矩形;
将所述外切矩形与原始的网站截图进行耦合;
提取所述外切矩形框住的区域,每一区域为一图像特征;
筛选掉所述区域中规格不在预设范围内的区域;
将剩余的区域压缩或伸展为预设的标准大小,压缩或伸展过程中保持长宽比不变,不足区域用黑色补齐。
其中,所述根据所述将所述网站截图转化为灰度图片,并进行二值化处理,得到第一图片,包括:
将所述网站截图转化为灰度图片;
根据所述灰度图片中各像素的像素值计算分类阈值,所述分类阈值使分类后的类间方差最大;
将像素值小于所述分类的像素设置为黑色,将像素值大于所述分类阈值的像素设置为白色,得到所述第一图片。
其中,所述对所述第一图片和所述第二图片进行滤波,包括:
遍历所述第一图片和所述第二图片中的像素点,生成两张对应的新图片,若一像素点为黑色,则将所述新图片中以所述像素点的对应点为中心的九宫格中的像素点置为黑色;
遍历所述两张对应的新图片中的像素点,若以一像素点为中心的九宫格内存在白色的像素点和/或所述像素点周围的像素点不足以构成九宫格,则将所述像素点置为白色。
其中,所述根据所述自定义特征、所述文本特征和所述图像特征获得自定义特征向量、文本特征向量和图像特征向量包括:
将所述自定义特征进行归一化处理,并输入深度神经网络获得自定义特征向量,所述深度神经网络的激活函数为ReLU;
将所述文本特征分别输入词级embedding层和字级embedding层,得到词级文本编码向量和字级文本编码向量,所述词级文本编码向量和所述字级文本编码向量组成文本编码向量;将所述文本编码向量输入LSTM网络,得到文本特征向量,所述文本特征向量包括URL文本特征向量和HTML文本特征向量;
随机选取固定数量的图像特征输入卷积神经网络,得到图像特征向量,所述卷积神经网络包括卷积层、ReLU激活层、CBAM注意力层和最大池化层。
其中,所述将所述文本特征分别输入词级embedding层和字级embedding层,得到词级文本编码向量和字级文本编码向量包括:
将所述URL文本特征分别输入URL词级embedding层和URL字级embedding层,得到词级URL文本编码向量和字级URL文本编码向量,所述词级URL文本编码向量和字级URL文本编码向量组成URL文本编码向量;
将所述HTML文本特征向量分别输入HTML词级embedding层和HTML字级embedding层,得到词级HTML文本编码向量和字级HTML文本编码向量,所述词级HTML文本编码向量和字级HTML文本编码向量组成HTML文本编码向量。
其中,所述将所述文本编码向量输入LSTM网络,得到文本特征向量包括:
将所述词级URL文本编码向量输入第一LSTM网络,所述字级URL文本编码向量输入第二LSTM网络,得到词级URL文本特征向量和字级URL文本特征向量,所述词级URL文本特征向量和所述字级URL文本特征向量组成所述URL文本特征向量;
将所述词级HTML文本编码向量输入第三LSTM网络,所述字级HTML文本编码向量输入第四LSTM网络,得到词级HTML文本特征向量和字级HTML文本特征向量,所述词级HTML文本特征向量和所述字级HTML文本特征向量组成所述HTML文本特征向量。
其中,所述查找所述URL词序列中的词在预设的URL词频排序字典中对应的词频排序和所述HTML词序列中的词在预设的HTML词频排序字典中对应的词频排序前,还包括:
获取不同网站的网站URL和网站HTML文档,得到网站URL集和网站HTML文档集,所述网站包括钓鱼网站和非钓鱼网站;
对所述网站URL集中的URL和网站HTML文档集中的HTML文档进行标点符号分词,得到URL词集和HTML词集;
统计所述URL词集和所述HTML词集中不同的词出现的频率,按照所述频率从高至低的顺序分别对所述URL词集和所述HTML词集中的词进行排序,将所述URL词集和所述HTML词集中的词和其对应的频率作为键值对存入字典,得到URL词频排序字典和HTML词频排序字典,保留所述URL词频排序字典中频率最高的X个词,保留所述HTML词频排序字典中频率最高的Y个词,X、Y为正整数。
其中,还包括:
以带权交叉熵作为损失函数,使用Adam训练优化器对所述分类神经网络进行训练优化。
第二方面,本申请提供一种钓鱼网站识别装置, 包括:
数据获取单元,用于获取目标网站数据,所述目标网站数据包括:网站URL、网站HTML文档和网站截图;
特征提取单元,用于根据所述目标网站数据获得自定义特征、文本特征和图像特征;
特征向量生成单元,用于根据所述自定义特征、所述文本特征和所述图像特征获得对应的自定义特征向量、文本特征向量和图像特征向量;
特征向量整合单元,用于将根据所述自定义特征向量、文本特征向量和图像特征向量进行拼接得到的拼接特征向量输入预先建立的深度神经网络,得到综合特征向量;
分类单元,用于将所述综合特征向量输入预先建立的分类神经网络,得到所述目标网站属于各个分类的概率,所述分类神经网络使用Softmax作为输出层的激活函数。
第三方面,本申请提供一种计算机电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时上述任一实施例所述的方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的方法。
第五方面,本申请提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的方法。
针对现有技术中的问题,本申请提供的钓鱼网站识别方法及装置,能够获取目标网站数据,根据目标网站数据获得自定义特征、文本特征和图像特征,从而进一步获得对应的自定义特征向量、文本特征向量和图像特征向量,并进行拼接得到拼接特征向量,将拼接特征向量输入预先建立的深度神经网络,得到综合特征向量,并输入预先建立的分类神经网络,得到目标网站属于各个分类的概率,能够充分利用多特征互补的特点,提高了模型的自适应能力以及针对反钓鱼技术的抵抗性,具有较强的钓鱼网站检测能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的钓鱼网站识别方法及装置使用的识别模型的示意图方法的流程图;
图2是本申请一实施例提供的钓鱼网站识别方法的流程图;
图3是本申请一实施例提供的钓鱼网站识别方法的流程图;
图4是本申请一实施例提供的钓鱼网站识别方法的流程图;
图5是本申请一实施例提供的钓鱼网站识别方法的流程图;
图6是本申请一实施例提供的钓鱼网站识别方法的流程图;
图7是本申请一实施例提供的钓鱼网站识别方法的流程图;
图8是本申请一实施例提供的钓鱼网站识别方法的流程图;
图9是本申请一实施例提供的钓鱼网站识别方法的流程图;
图10是本申请一实施例提供的卷积神经网络的示意图;
图11是本申请一实施例提供的钓鱼网站识别方法的流程图;
图12是本申请一实施例提供的钓鱼网站识别方法的流程图;
图13是本申请一实施例提供的钓鱼网站识别方法的流程图;
图14是本申请一实施例提供的钓鱼网站识别方法的流程图;
图15是本申请一实施例提供的钓鱼网站识别装置的结构示意图;
图16是本申请一实施例提供的钓鱼网站识别装置的结构示意图;
图17是本申请一实施例提供的钓鱼网站识别装置的结构示意图;
图18是本申请一实施例提供的钓鱼网站识别装置的结构示意图;
图19是本申请一实施例提供的钓鱼网站识别装置的结构示意图;
图20是本申请一实施例提供的钓鱼网站识别装置的结构示意图;
图21是本申请一实施例提供的钓鱼网站识别装置的结构示意图;
图22是本申请一实施例提供的钓鱼网站识别装置的结构示意图;
图23是本申请一实施例提供的钓鱼网站识别装置的结构示意图;
图24是本申请一实施例提供的钓鱼网站识别装置的结构示意图;
图25是本申请一实施例提供的钓鱼网站识别装置的结构示意图;
图26是本申请一实施例提供的钓鱼网站识别装置的结构示意图;
图27是本申请第一实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发申请施例的目的、技术方案和优点更加清楚明白,下面结合附图对本申请实施例做进一步详细说明。在此,本申请的示意性实施例及其说明用于解释本申请,但并不作为对本申请的限定。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
图1是本申请一实施例提供的钓鱼网站识别方法及装置使用的识别模型的示意图,如图1所示,本申请实施例提供的识别模型包括数据获取部分、特征预处理部分和神经网络部分,通过获取目标网站数据,对目标网站数据进行预处理提取多种特征,并将提取的多种特征输入神经网络中,实现对目标网站的分类,从而判断目标网站是否为钓鱼网站。
下面以服务器作为执行主体为例,对本申请实施例提供的代码同步的冲突处理方法的具体实现过程进行说明。
图2是本申请一实施例提供的钓鱼网站识别方法的流程图,如图2所示,本申请实施例提供的钓鱼网站识别方法,包括:
S201:获取目标网站数据,目标网站数据包括:网站URL、网站HTML文档和网站截图;
具体地,由于浏览器设置的不同,通过不同浏览器获得的目标网站数据也会有所不同,应选取与统一的浏览器作为驱动,以消除无关因素的影响。输入目标网站的URL,并设置语言和窗口大小,服务器使用爬虫对目标网站进行爬取,获得目标网站数据,目标网站数据包括:网站URL、网站HTML文档和网站截图。具体使用何种浏览器可以根据需要进行选择,本申请对此不做限制,例如, chrome、foxfire、IE等。
S202:根据目标网站数据获得自定义特征、文本特征和图像特征;
具体地,服务器根据获得的目标网站数据分别提取自定义特征、文本特征和图像特征。
S203:根据自定义特征、文本特征和图像特征获得对应的自定义特征向量、文本特征向量和图像特征向量;
具体地,服务器将自定义特征、文本特征和图像特征分别输入不同的神经网络模型,以对特征进行提取,获得对应的自定义特征向量、文本特征向量和图像特征向量。
S204:将根据自定义特征向量、文本特征向量和图像特征向量进行拼接得到的拼接特征向量输入预先建立的深度神经网络,得到综合特征向量;
具体地,服务器对自定义特征向量、文本特征向量和图像特征向量进行拼接,得到拼接特征向量,将拼接特征向量输入预先训练好的深度神经网络中,以对不同特征进行融合,得到综合特征向量,综合特征向量为一个二维向量。
S205:将综合特征向量输入预先建立的分类神经网络,得到目标网站属于各个分类的概率,分类神经网络使用Softmax作为输出层的激活函数。
具体地,服务器将综合特征向量输入预先建立的分类神经网络,分类神经网络使用ReLU作为隐藏层的激活函数,使用Softmax作为输出层的激活函数,输出的结果为一个一维向量,该向量的长度与网站的分类数相等,向量中的各个值代表目标网站属于对应分类的置信度,选取置信度最大的分类作为目标网站的分类,若网站属于钓鱼网站分类,则可以判断网站为钓鱼网站。
本申请提供的钓鱼网站识别方法,能够获取目标网站数据,根据目标网站数据获得自定义特征、文本特征和图像特征,从而进一步获得对应的自定义特征向量、文本特征向量和图像特征向量,并进行拼接得到拼接特征向量,将拼接特征向量输入预先建立的深度神经网络,得到综合特征向量,并输入预先建立的分类神经网络,得到目标网站属于各个分类的概率,能够充分利用多特征互补的特点,提高了模型的自适应能力以及针对反钓鱼技术的抵抗性,具有较强的钓鱼网站检测能力。
图3是本申请一实施例提供的钓鱼网站识别方法的流程图,如图3所示,在上述各实施例的基础上,进一步地,本申请实施例提供的钓鱼网站识别方法中,根据目标网站数据获得自定义特征、文本特征和图像特征包括:
S301:根据网站URL、网站HTML文档和网站截图获得自定义特征,自定义特征包括URL自定义特征、HTML自定义特征和图像自定义特征;
具体地,服务器根据网站URL获得URL自定义特征,根据网站HTML文档获得HTML自定义特征,并根据网站截图获得图像自定义特征。
S302:根据网站URL和网站HTML文档获得文本特征,文本特征包括URL文本特征和HTML文本特征;
具体地,服务器根据图像自定义特征获得URL文本特征,根据网站HTML文档获得HTML文本特征。
S303:根据网站截图获得图像特征。
具体地,服务器根据网站截图中各像素点的像素值,获得图像特征。
本申请提供的钓鱼网站识别方法,能够根据网站URL、网站HTML文档和网站截图获得自定义特征,根据网站URL和网站HTML文档获得文本特征,根据网站截图获得图像特征,能够充分利用多特征互补的特点,提高了模型的自适应能力以及针对反钓鱼技术的抵抗性,具有较强的钓鱼网站检测能力。
图4是本申请一实施例提供的钓鱼网站识别方法的流程图,如图4所示,在上述各实施例的基础上,进一步地,本申请实施例提供的钓鱼网站识别方法中,根据网站URL、网站HTML文档和网站截图获得自定义特征包括:
S401:根据网站URL获得URL自定义特征,URL自定义特征包括:URL长度、URL路径深度、域名所含点数、域名是否为IP地址、URL特殊符号个数、URL是否含关键字;
具体地,服务器根据网站URL获得URL自定义特征,URL长度即为网站URL中所含字符的数量,URL路径深度为标准格式的网站URL中所含“/”的数量减一,域名所含点数及为网站URL中“.”的数量,并判断域名是否为纯IPV4或IPV6地址,URL特殊符号个数为网站URL中非英文字母的字符数量,并判断网站URL是否含关键字,关键字可以根据实际情况进行设置,本申请实施例中设置为“login”、“password”等与登录相关的词。
例如,一网站URL为:“http://a.b.com/c1/d/f/22/”,则该URL长度为25,路径深度为4,所含点数为2,域名不为IP地址,特殊符号个数为10,URL中不含关键字,因此,提取到的URL自定义特征为[25,4,2,0,10,0]。
S402:根据网站HTML文档获得HTML自定义特征,HTML自定义特征包括:HTML是否含关键字、异域超链接比例、超链接总数量、HTML长度,其中,异域超链接比例为网站HTML文档中异域超链接的数量占超链接总数量的比例;
具体地,服务器根据网站HTML文档获得HTML自定义特征,判断网站HTML是否含关键字,异域超链接比例为网站HTML文档中异域超链接的数量占超链接总数量的比例,异域超链接是指与目标网站URL的域名不同的超链接,超链接总数量即为网站HTML文档中所含超链接的数量,HTML长度为网站HTML文档中所含字符的数量,同样的,关键字可以根据实际情况进行设置,本申请实施例中设置为“login”、“password”等与登录相关的词。
S403:根据网站截图获得图像自定义特征,图像自定义特征为近似白色的像素点的数量占网站截图中的像素点总数的比例。
具体地,服务器根据网站截图获得图像自定义特征,图像自定义特征为近似白色的像素点的数量占网站截图中的像素点总数的比例,可以设置一个阈值,认为RGB三个颜色通道中的像素值的均值大于该阈值的像素点为近似白色的像素点。
例如,设置阈值为253,一像素点的像素值为[254,255,253],则该像素点三个颜色通道中的像素值的均值为254,由于254大于253,因此认为该像素点为近似白色的像素点。
本申请提供的钓鱼网站识别方法,能够根据网站URL获得URL自定义特征,根据网站HTML文档获得HTML自定义特征,根据网站截图获得图像自定义特征,能够充分利用多特征互补的特点,提高了模型的自适应能力以及针对反钓鱼技术的抵抗性,具有较强的钓鱼网站检测能力。
图5是本申请一实施例提供的钓鱼网站识别方法的流程图,如图5所示,在上述各实施例的基础上,进一步地,本申请实施例提供的钓鱼网站识别方法中,根据网站URL和网站HTML文档获得文本特征包括:
S501:采用标点符号分词的方式对网站URL和网站HTML文档进行分词,得到URL词序列和HTML词序列,HTML词序列为网站HTML文档中包含的标签;
具体地,服务器采用标点符号分词的方式对网站URL和网站HTML文档进行分词,并去除HTML标签间的其他文本信息,提取网站HTML文档中包含的标签,得到HTML词序列,以提高有效信息的密度。
例如一网站URL为:“http://a.a.com/c1/a/f/c1/”,则分词得到的结果为[http,a,a,com,c1,a,f,c1]。
S502:查找URL词序列中的词在预设的URL词频排序字典中对应的词频排序和HTML词序列中的词在预设的HTML词频排序字典中对应的词频排序,若一词在词频排序字典中不存在,则将该词的词频排序记为0,得到URL词频排序列表和HTML词频排序列表;
具体地,服务器查找URL词序列中的词在预设的URL词频排序字典中对应的词频排序和HTML词序列中的词在预设的HTML词频排序字典中对应的词频排序,若一词在词频排序字典中不存在,则将该词的词频排序记为0,得到URL词频排序列表和HTML词频排序列表。
例如,一网站URL为:http://a.a.com/c1/a/f/c1/,分词得到的URL词序列为[http,a, a,com,c1,a,f,c1],则分别查找“http”、“a”、“com”、“c1”、“f”在预设的URL词频排序字典中对应的词频,若URL词频排序中“http”对应的词频排序为1,“a”对应的词频排序为26,“com”对应的词频排序为2, “c1”在URL词频排序字典中不存在,“f”的词频排序为78,则得到的URL词频排序列表为[1,26,26,2,0,26,78,0],URL词频列表中词频排序的顺序即为词频排序对应的词在URL中出现的先后顺序。
S503:将URL词频排序列表和HTML词频排序列表的长度转化为标准长度,若URL词频排序列表的长度小于预设的URL词频排序列表标准长度和/或HTML词频排序列表的长度小于预设的HTML词频排序列表标准长度,则用0值补齐;若URL词频排序列表的长度小于URL词频排序列表标准长度和/或HTML词频排序列表的长度小于HTML词频排序列表标准长度,则只截取对应标准长度内的词频排序列表,标准长度的URL词频排序列表和HTML词频排序列表即为提取到的文本特征。
具体的,服务器将URL词频排序列表和HTML词频排序列表的长度转化为标准长度,若URL词频排序列表的长度小于URL词频排序列表标准长度和/或HTML词频排序列表的长度小于HTML词频排序列表标准长度,则用0值补齐;若URL词频排序列表的长度小于URL词频排序列表标准长度和/或HTML词频排序列表的长度小于HTML词频排序列表标准长度,则只截取对应标准长度内的词频排序列表,标准长度的URL词频排序列表和HTML词频排序列表即为提取到的文本特征。
例如,URL词频排序列表的标准长度为10,上述例子中得到的URL词频排序列表为[1,26,26,2,0,26,78,0],因此对该URL词频排序列表进行补齐,得到标准长度的URL词频列表[1,26,26,2,0,78,0,0,0,0];若一URL词频列表为[1,28,3,2,212,66,114,128,197,14,35,56],则截取该词频列表中前十位后得到的标准长度的URL词频列表为[1,28,3,2,212,66,114,128,197,14]。
本申请提供的钓鱼网站识别方法,能够采用标点符号分词的方式对网站URL和网站HTML文档进行分词,得到URL词序列和HTML词序列,查找URL词序列中不同的词在预设的URL词频排序字典中对应的词频排序和HTML词序列中不同的词在预设的HTML词频排序字典中对应的词频排序,若一词在词频排序字典中不存在,则将该词的词频排序记为0,得到URL词频排序列表和HTML词频排序列表,并将其转化为标准长度,能够去除不必要的信息,提高了有效信息的密度,并充分利用多特征互补的特点,提高了模型的自适应能力以及针对反钓鱼技术的抵抗性,具有较强的钓鱼网站检测能力。
图6是本申请一实施例提供的钓鱼网站识别方法的流程图,如图6所示,在上述各实施例的基础上,进一步地,本申请实施例提供的钓鱼网站识别方法中,根据网站截图获得图像特征包括:
S601:将网站截图转化为灰度图片,并进行二值化处理,得到第一图片;
具体地,服务器将彩色的网站截图转化为灰度图片,并进行二值化处理,得到第一图片,第一图片为一张二值图片,可以根据具体情况选择合适的方式将网站截图转化为灰度图片,本申请对此不做限制。
例如,可以取每个像素点的RGB三个颜色通道中像素值的平均值作为灰度图片的灰度值,也可以取每个像素点的RGB三个颜色通道中像素值的最大值和最小值的平均值作为灰度图片的灰度值。
S602:对第一图片进行反相处理,得到第二图片;
具体地,服务器对第一图片进行反相处理,将第一图片中黑色的像素变为白色,白色的像素变为黑色,得到第二图片。
S603:对第一图片和第二图片进行滤波,以分别融合第一图片和第二图片中相邻图像的边界;
具体地,服务器对第一图片和第二图片进行滤波,以分别融合第一图片和第二图片中相邻图像的边界,例如有一行文字“钓鱼网站识别方法”,在进行融合前,字与字的边界并不相连,有多个不同的区域,进行融合后,由于字与字之间十分靠近,这行文字的边界融合成一个相连的边界,只含有一个区域。
S604:分别对第一图片和第二图片进行形态学分析,提取第一图片和第二图片中各图像融合后的边界,并获取各边界的外切矩形;
具体地,服务器分别对第一图片和第二图片进行形态学分析,扫描图片中的像素点,若扫描到一个像素点值为1,即该像素点为白色,且该像素点左侧相邻的像素点值为0,即该相邻像素点为黑色,则将该像素点标记为边界的起始点。从起始点右侧的像素点开始,顺时针地在与起始点相邻的像素点中查找像素值为1的像素点,将查找到的第一个像素点作为当前边界点,并从当前边界点依次逆时针查找其余边界点,并将每次新查找到的边界点标记为当前边界点,最终提取得到完整的边界。根据完整的边界获得该边界的外切矩形,可以根据实际情况选取合适的函数获得边界的外切矩形,本申请对此不做限制,例如可以通过Matlab中的Regionprops函数、Python中opencv中的 minAreaRect函数等。
S605:将外切矩形与原始的网站截图进行耦合;
具体地,服务器将得到的外切矩形与原始的彩色的网站截图进行耦合,将外切矩形框添加到原始的网站截图中。
S606:提取外切矩形框住的区域,每一区域为一图像特征;
具体地,服务器提取外切矩形框住的区域作为图像特征图片,由于网站截图中存在许多图像,因此经过处理后可以获得不止一个外切矩形框,进而获得提取到不止一张图像特征图片,即每一区域为一图像特征,这种方法去除了大量的无效信息,提高了有效信息的密度。
S607:筛选掉区域中规格不在预设范围内的区域;
具体地,服务器筛选掉区域中长宽不在预设范围内的区域,例如可以筛选掉长或宽小于20像素,或总面积大于400×400的区域,从而进一步去除无效信息。
S608:将剩余的区域压缩或伸展为预设的标准大小,压缩或伸展过程中保持长宽比不变,不足区域用黑色补齐。
具体地,由于神经网络的结构是固定的,因此需要将剩余的区域压缩或伸展为预设的标准大小,压缩或伸展过程中保持长宽比不变,例如将每个区域标准化为224×224的大小,但由于大多数区域的长宽比并不是1:1,因此在保持长宽比不变时,将区域的长边拉伸或压缩至244像素后,图片的规格仍不是标准大小,需要将不足区域用黑色补齐。
本申请提供的钓鱼网站识别方法,能够将网站截图转化为灰度图片,并进行二值化处理,得到第一图片,对第一图片进行反相处理,得到第二图片,对第一图片和第二图片进行滤波和形态学分析,以分别融合第一图片和第二图片中相邻图像的边界并获取各融合后的边界的外切矩形,提取外切矩形框住的区域并筛选掉规格不在预设范围内的区域,将剩余的区域压缩或伸展为预设的标准大小,压缩或伸展过程中保持长宽比不变,不足区域用黑色补齐,提高了有效信息的密度,能够充分利用多特征互补的特点,提高了模型的自适应能力以及针对反钓鱼技术的抵抗性,具有较强的钓鱼网站检测能力。
图7是本申请一实施例提供的钓鱼网站识别方法的流程图,如图7所示,在上述各实施例的基础上,进一步地,本申请实施例提供的钓鱼网站识别方法中,根据将网站截图转化为灰度图片,并进行二值化处理,包括:
S701:将网站截图转化为灰度图片;
具体地,服务器将网站截图由彩色图片转化为灰度图片,可以根据具体情况选择合适的方式将网站截图转化为灰度图片,本申请对此不做限制。
例如,可以取每个像素点的RGB三个颜色通道中像素值的平均值作为灰度图片的灰度值,也可以取每个像素点的RGB三个颜色通道中像素值的最大值和最小值的平均值作为灰度图片的灰度值。
S702:根据网站截图中各像素的像素值计算分类阈值,分类阈值使分类后的类间方差最大;
具体地,对于分割阈值
Figure 915659DEST_PATH_IMAGE001
,将所有像素分为小于
Figure 974882DEST_PATH_IMAGE001
和大于
Figure 875842DEST_PATH_IMAGE001
的两类,计算两类 的均值与全局均值分别为
Figure 687809DEST_PATH_IMAGE002
Figure 891388DEST_PATH_IMAGE003
Figure 31383DEST_PATH_IMAGE004
,像素被分为两类的概率分别为
Figure 362132DEST_PATH_IMAGE005
Figure 903972DEST_PATH_IMAGE006
,则有
Figure 278453DEST_PATH_IMAGE007
则类间方差
Figure 171322DEST_PATH_IMAGE008
可以通过下列公式表示:
Figure 273139DEST_PATH_IMAGE009
服务器根据该公式计算出使类间方差
Figure 669486DEST_PATH_IMAGE008
最大的
Figure 214867DEST_PATH_IMAGE001
的值作为分割阈值。
S703:将像素值小于分类的像素设置为黑色,将像素值大于分类阈值的像素设置为白色,得到第一图片。
具体地,服务器将像素值小于分类的像素的像素值置为0,即设置为黑色,将像素值大于分类阈值的像素的像素值置为1,即设置为白色。
本申请提供的钓鱼网站识别方法,能够根据网站截图中各像素的像素值计算分类阈值,分类阈值使分类后的类间方差最大,将像素值小于分类的像素设置为黑色,将像素值大于分类阈值的像素设置为白色,能够充分利用多特征互补的特点,提高了模型的自适应能力以及针对反钓鱼技术的抵抗性,具有较强的钓鱼网站检测能力。
图8是本申请一实施例提供的钓鱼网站识别方法的流程图,如图8所示,在上述各实施例的基础上,进一步地,本申请实施例提供的钓鱼网站识别方法中,对第一图片和第二图片进行滤波,包括:
S801:遍历第一图片和第二图片中的像素点,生成两张对应的新图片,若一像素点为黑色,则将新图片中以像素点的对应点为中心的九宫格中的像素点置为黑色;
具体地,服务器遍历第一图片和第二图片中的像素点,生成两张对应的新图片,若第一图片或第二图片中一像素点为黑色,即该像素点的像素值为0,则将新图片中以该像素点的对应点为中心的九宫格中的像素点的像素值置为0;
S802:遍历两张对应的新图片中的像素点,若以一像素点为中心的九宫格内存在白色的像素点和/或像素点周围的像素点不足以构成九宫格,则将像素点置为白色。
具体地,服务器遍历两张对应的新图片中的像素点,若以一像素点为中心的九宫格内存在白色的像素点和/或像素点周围的像素点不足以构成九宫格,则将该像素点的像素值置1,即将该像素点设置为白色。
本申请提供的钓鱼网站识别方法,能够遍历第一图片和第二图片中的像素点,生成两张对应的新图片,若一像素点为黑色,则将新图片中以像素点的对应点为中心的九宫格中的像素点置为黑色,遍历两张对应的新图片中的像素点,若以一像素点为中心的九宫格内存在白色的像素点和/或像素点周围的像素点不足以构成九宫格,则将像素点置为白色,能够充分利用多特征互补的特点,提高了模型的自适应能力以及针对反钓鱼技术的抵抗性,具有较强的钓鱼网站检测能力。
图9是本申请一实施例提供的钓鱼网站识别方法的流程图,如图9所示,在上述各实施例的基础上,进一步地,本申请实施例提供的钓鱼网站识别方法中,根据自定义特征、文本特征和图像特征获得自定义特征向量、文本特征向量和图像特征向量包括:
S901:将自定义特征进行归一化处理,并输入深度神经网络获得自定义特征向量,深度神经网络的激活函数为ReLU;
具体地,服务器将自定义特征进行归一化处理,并输入深度神经网络获得自定义特征向量,深度神经网络的激活函数为ReLU,可以根据需要选取合适的归一化方法对自定义特征进行归一化,例如Min-max归一化、Z-score归一化等,本申请对此不做限制。
S902:将文本特征分别输入词级embedding层和字级embedding层,得到词级文本编码向量和字级文本编码向量;
具体地,服务器将文本特征分别输入词级embedding层和字级embedding层,文本特征在词级embedding层和字级embedding层中与不同的矩阵相乘,得到词级文本编码向量和字级文本编码向量,组成最终的文本编码向量。
S903:将文本编码向量输入LSTM网络,得到文本特征向量,文本特征向量包括URL文本特征向量和HTML文本特征向量;
具体地,服务器将文本编码向量输入LSTM网络,得到文本特征向量,文本特征向量包括URL文本特征向量和HTML文本特征向量。
S904:随机选取固定数量的图像特征输入卷积神经网络,得到图像特征向量,卷积神经网络包括卷积层、ReLU激活层、CBAM注意力层和最大池化层。
具体地,图10是本申请一实施例提供的卷积神经网络的示意图,如图10所示,服务器随机选取固定数量的图像特征输入卷积神经网络,得到图像特征向量,卷积神经网络包括卷积层、ReLU激活层、CBAM注意力层和最大池化层,例如随机选取5张图像特征图片输入卷积神经网络,但由于有些网站截图中提取到的区域较少,可能达不到规定的数量,此时可以用黑色图像进行补全。在输出图像特征向量前,经由Flatten层将多维的图像特征向量进行压平,得到一维的图像特征向量,并经由全连接层(FC)进行整合,得到最终的图像特征向量。
本申请提供的钓鱼网站识别方法,能够将自定义特征进行归一化处理,并输入深度神经网络获得自定义特征向量,将文本特征分别输入词级embedding层和字级embedding层,得到文本编码向量从输入LSTM网络,得到文本特征向量,随机选取固定数量的图像特征输入卷积神经网络,得到图像特征向量,能够充分利用多特征互补的特点,提高了模型的自适应能力以及针对反钓鱼技术的抵抗性,具有较强的钓鱼网站检测能力。
图11是本申请一实施例提供的钓鱼网站识别方法的流程图,如图11所示,在上述各实施例的基础上,进一步地,本申请实施例提供的钓鱼网站识别方法中,将文本特征分别输入词级embedding层和字级embedding层,得到词级文本编码向量和字级文本编码向量包括:
S1101:将URL文本特征分别输入URL词级embedding层和URL字级embedding层,得到词级URL文本编码向量和字级URL文本编码向量;
具体地,服务器将URL文本特征分别输入URL词级embedding层和URL字级embedding层,URL文本特征在词级embedding层和字级embedding层中与不同的矩阵相乘,得到词级URL文本编码向量和字级URL文本编码向量,组成最终的URL文本编码向量。
S1102:将HTML文本特征向量分别输入HTML词级embedding层和HTML字级embedding层,得到词级HTML文本编码向量和字级HTML文本编码向量。
具体地,服务器将HTML文本特征分别输入HTML词级embedding层和HTML字级embedding层,HTML文本特征在词级embedding层和字级embedding层中与不同的矩阵相乘,得到词级HTML文本编码向量和字级HTML文本编码向量,组成最终的HTML文本编码向量。
本申请提供的钓鱼网站识别方法,能够将URL文本特征分别输入URL词级embedding层和URL字级embedding层,得到URL文本编码向量,将HTML文本特征向量分别输入HTML词级embedding层和HTML字级embedding层,得到HTML文本编码向量,能够充分利用多特征互补的特点,提高了模型的自适应能力以及针对反钓鱼技术的抵抗性,具有较强的钓鱼网站检测能力。
图12是本申请一实施例提供的钓鱼网站识别方法的流程图,如图12所示,在上述各实施例的基础上,进一步地,本申请实施例提供的钓鱼网站识别方法中,将文本编码向量输入LSTM网络,得到文本特征向量包括:
S1201:将词级URL文本编码向量输入第一LSTM网络,字级URL文本编码向量输入第二LSTM网络,得到词级URL文本特征向量和字级URL文本特征向量;
具体地,服务器将词级URL文本编码向量输入第一LSTM网络,字级URL文本编码向量输入第二LSTM网络,得到词级URL文本特征向量和字级URL文本特征向量,词级URL文本特征向量和字级URL文本特征向量组成URL文本特征向量。
S1202:将词级HTML文本编码向量输入第三LSTM网络,字级HTML文本编码向量输入第四LSTM网络,得到词级HTML文本特征向量和字级HTML文本特征向量。
具体地,服务器将词级HTML文本编码向量输入第三LSTM网络,字级HTML文本编码向量输入第四LSTM网络,得到词级HTML文本特征向量和字级HTML文本特征向量,词级HTML文本特征向量和字级HTML文本特征向量组成HTML文本特征向量。
本申请提供的钓鱼网站识别方法,能够将词级URL文本编码向量输入第一LSTM网络,字级URL文本编码向量输入第二LSTM网络,得到词级URL文本特征向量和字级URL文本特征向量,将词级HTML文本编码向量输入第三LSTM网络,字级HTML文本编码向量输入第四LSTM网络,得到词级HTML文本特征向量和字级HTML文本特征向量,能够充分利用多特征互补的特点,提高了模型的自适应能力以及针对反钓鱼技术的抵抗性,具有较强的钓鱼网站检测能力。
图13是本申请一实施例提供的钓鱼网站识别方法的流程图,如图13所示,在上述各实施例的基础上,进一步地,本申请实施例提供的钓鱼网站识别方法中,查找URL词序列中不同的词在预设的URL词频排序字典中对应的词频排序和HTML词序列中不同的词在预设的HTML词频排序字典中对应的词频排序前,还包括:
S1301:获取不同网站的网站URL和网站HTML文档,得到网站URL集和网站HTML文档集,网站包括钓鱼网站和非钓鱼网站;
具体地,服务器使用爬虫爬取多个网站的网站URL和网站HTML文档,得到网站URL集和网站HTML文档集,由于本申请提供的方法用于检测目标网站是否为钓鱼网站,因此,爬取的网站应包括钓鱼网站和非钓鱼网站。
S1302:对网站URL集中的URL和网站HTML文档集中的HTML文档进行标点符号分词,得到URL词集和HTML词集;
具体的,服务器对网站URL集中的URL和网站HTML文档集中的HTML文档进行标点符号分词,得到URL词集和HTML词集。
例如,一网站URL为:“http://a.a.com/c1/a/f/c1/”,则分词得到的结果为“http,a, a,com,c1,a,f,c1”,URL词集中包括网站URL集中所有网站URL分词后得到的词。
S1303:统计URL词集和HTML词集中不同的词出现的频率,按照频率从高至低的顺序分别对URL词集和HTML词集中的词进行排序,将所URL词集和HTML词集中的词和其对应的频率作为键值对存入字典,得到URL词频排序字典和HTML词频排序字典,保留URL词频排序字典中频率最高的X个词,保留HTML词频排序字典中频率最高的Y个词,X、Y为正整数。
具体地,服务器统计URL词集和HTML词集中不同的词出现的频率,按照频率从高至低的顺序分别对URL词集和HTML词集中的词进行排序,将URL词集和HTML词集中的词和其对应的频率作为键值对存入字典,得到URL词频排序字典和HTML词频排序字典,保留URL词频排序字典中频率最高的X个词,保留HTML词频排序字典中频率最高的Y个词。
例如,网站URL集中有100条不同的网站URL,对网站URL集中的网站URL分词得到的URL词集进行词频统计,词频统计的结果降序排序后为{“http”:100,“c1”:98, “b”:43,“a”:25, “d”:4, “f”:2, “e2”:1},将URL词集和其对应的频率作为键值对存入字典,得到URL词频排序字典{“http”:1,“c1”:2, “b”:3, “a”:4, “d”:5, “f”:6, “e2”:7},若X设置为4,则取前四项得到最终的URL词频字典{“http”:1,“c1”:2, “b”:3, “a”:4}。
本申请提供的钓鱼网站识别方法,能够获取不同网站的网站URL和网站HTML文档,并进行标点符号分词,得到URL词集和HTML词集,统计URL词集和HTML词集中不同的词出现的频率,按照频率从高至低的顺序分别对URL词集和HTML词集中的词进行排序,将所URL词集和HTML词集中的词和其对应的频率作为键值对存入字典,得到URL词频排序字典和HTML词频排序字典,提高了有效信息的密度,能够充分利用多特征互补的特点,提高了模型的自适应能力以及针对反钓鱼技术的抵抗性,具有较强的钓鱼网站检测能力。
在上述各实施例的基础上,进一步地,本申请实施例提供的钓鱼网站识别方法,还包括:以带权交叉熵作为损失函数,使用Adam训练优化器对分类神经网络进行训练优化。
具体地,服务器以带权交叉熵作为损失函数,使用Adam训练优化器对图1所示的钓鱼网站识别模型进行优化,从而优化分类神经网络的权重参数,同时也完成了对钓鱼网站识别模型中其他神经网络参数的优化。带权交叉熵可以通过如下公式进行表示:
Figure 329454DEST_PATH_IMAGE010
其中,
Figure 733497DEST_PATH_IMAGE011
是分类的类别数,
Figure 249929DEST_PATH_IMAGE012
Figure 966212DEST_PATH_IMAGE013
分别是目标网站实际属于某一分类的置信度与 目标网站预测属于某一分类的置信度,
Figure 568095DEST_PATH_IMAGE014
是对应类别的权重,
Figure 542873DEST_PATH_IMAGE015
表示总样本数,
Figure 648232DEST_PATH_IMAGE016
表示某类 样本中样本的数量。由于用于训练分类神经网络的数据,目标网站属于何种分类是确定的, 因此目标网站实际属于某一分类的置信度
Figure 800996DEST_PATH_IMAGE012
只能为0或1。
本申请提供的钓鱼网站识别方法,能够以带权交叉熵作为损失函数,使用Adam训练优化器对分类神经网络进行训练优化,能够充分利用多特征互补的特点,提高了模型的自适应能力以及针对反钓鱼技术的抵抗性,具有较强的钓鱼网站检测能力。
为使本申请提供的钓鱼网站识别方法更加易于理解,下面举一个具体的例子对本申请提供的钓鱼网站识别方法进行说明。
图14是本申请一实施例提供的钓鱼网站识别方法的流程图,如14所示,在上述各实施例的基础上,进一步地,本申请实施例提供的钓鱼网站识别方法包括:
S1401:获取目标网站数据,目标网站数据包括:网站URL、网站HTML文档和网站截图;
具体地,输入目标网站的URL为 “/a.a.com/c1/a/f/c1/”,并设置语言为英语(en_US),窗口大小为1920×1080,服务器使用爬虫对目标网站进行爬取,获得目标网站数据,进行爬取时,使用chrome驱动。
S1402:根据网站URL获得URL自定义特征,URL自定义特征包括:URL长度、URL路径深度、域名所含点数、域名是否为IP地址、URL特殊符号个数、URL是否含关键字;
具体地,服务器根据网站网站URL:“http://a.b.com/c1/d/f/22/”,获得URL自定义特征,则该URL长度为25,路径深度为4,所含点数为2,域名不为IP地址,特殊符号个数为10,关键字为“login”、“password”等与登录相关的词,URL中不含关键字,因此,提取到的URL自定义特征为[25,4,2,0,10,0]。
S1403:根据网站HTML文档获得HTML自定义特征,HTML自定义特征包括:HTML是否含关键字、异域超链接比例、超链接总数量、HTML长度,其中,异域超链接比例为网站HTML文档中异域超链接的数量占超链接总数量的比例;
具体地,服务器根据网站HTML文档获得HTML自定义特征,判断网站HTML是否含关键字,异域超链接比例为网站HTML文档中异域超链接的数量占超链接总数量的比例,异域超链接是指与目标网站URL的域名不同的超链接,超链接总数量即为网站HTML文档中所含超链接的数量,HTML长度为网站HTML文档中所含字符的数量,关键字为“login”、“password”等与登录相关的词。
S1404:根据网站截图获得图像自定义特征,图像自定义特征为近似白色的像素点的数量占网站截图中的像素点总数的比例;
具体地,服务器设置阈值为253,认为RGB三个颜色通道中的像素值的均值大于该阈值的像素点为近似白色的像素点,例如,一像素点的像素值为[254,255,253],则该像素点三个颜色通道中的像素值的均值为254,由于254大于253,因此认为该像素点为近似白色的像素点。
S1405:采用标点符号分词的方式对网站URL和网站HTML文档进行分词,得到URL词序列和HTML词序列,HTML词序列为网站HTML文档中包含的标签;
具体地,服务器采用标点符号分词的方式对网站URL “http://a.a.com/c1/a/f/c1/”进行分词,分词得到的结果为[http,a, a,com,c1,a,f,c1]。
S1406:查找URL词序列中的词在预设的URL词频排序字典中对应的词频排序和HTML词序列中的词在预设的HTML词频排序字典中对应的词频排序,若一词在词频排序字典中不存在,则将该词的词频排序记为0,得到URL词频排序列表和HTML词频排序列表;
具体地,服务器查找URL词序列中的词在预设的URL词频排序字典中对应的词频排序和HTML词序列中的词在预设的HTML词频排序字典中对应的词频排序,若一词在词频排序字典中不存在,则将该词的词频排序记为0,对网站URL:http://a.a.com/c1/a/f/c1/,分词得到的URL词序列为[http,a, a,com,c1,a,f,c1],分别查找“http”、“a”、“com”、“c1”、“f”在预设的URL词频排序字典中对应的词频,若URL词频排序中“http”对应的词频排序为1,“a”的词频排序为26,“com”的词频排序为2,“c1”在URL词频排序字典中不存在,“f”的词频排序为78,则得到的URL词频排序列表为[1,26,26,2,0,26,78,0]。
S1407:将URL词频排序列表和HTML词频排序列表的长度转化为标准长度,标准长度的URL词频排序列表和HTML词频排序列表即为提取到的文本特征;
具体的,服务器将URL词频排序列表和HTML词频排序列表的长度转化为标准长度,若URL词频排序列表的长度小于URL词频排序列表标准长度和/或HTML词频排序列表的长度小于HTML词频排序列表标准长度,则用0值补齐;若URL词频排序列表的长度小于URL词频排序列表标准长度和/或HTML词频排序列表的长度小于HTML词频排序列表标准长度,则只截取对应标准长度内的词频排序列表,URL词频排序列表的标准长度为10,网站URL:http://a.a.com/c1/a/f/c1/的URL词频排序列表为[1,26,26,2,0,26,78,0],因此对该URL词频排序列表进行补齐,得到标准长度的URL词频列表[1,26,26,2,0,26,78,0,0,0]。
S1408:将网站截图转化为灰度图片;
具体地,服务器取每个像素点的RGB三个颜色通道中像素值的平均值作为灰度图片的灰度值,将所述网站截图由彩色图片转化为灰度图片。
S1409:根据网站截图中各像素的像素值计算分类阈值,分类阈值使分类后的类间方差最大;
具体地,对于分割阈值
Figure 624596DEST_PATH_IMAGE001
,将所有像素分为小于
Figure 638950DEST_PATH_IMAGE001
和大于
Figure 864395DEST_PATH_IMAGE001
的两类,计算两类 的均值与全局均值分别为
Figure 922481DEST_PATH_IMAGE002
Figure 498956DEST_PATH_IMAGE003
Figure 549958DEST_PATH_IMAGE004
,像素被分为两类的概率分别为
Figure 629909DEST_PATH_IMAGE005
Figure 124475DEST_PATH_IMAGE006
,则有
Figure 922667DEST_PATH_IMAGE017
则类间方差
Figure 541474DEST_PATH_IMAGE008
可以通过下列公式表示:
Figure 351298DEST_PATH_IMAGE018
服务器根据该公式计算出使类间方差
Figure 406979DEST_PATH_IMAGE008
最大的
Figure 817100DEST_PATH_IMAGE001
的值作为分割阈值。
S1410:将像素值小于分类的像素设置为黑色,将像素值大于分类阈值的像素设置为白色,得到第一图片;
具体地,服务器将像素值小于分类的像素的像素值置为0,即设置为黑色,将像素值大于分类阈值的像素的像素值置为1,即设置为白色。
S1411:对第一图片进行反相处理,得到第二图片;
具体地,服务器对第一图片进行反相处理,将第一图片中黑色的像素变为白色,白色的像素变为黑色,得到第二图片。
S1412:遍历第一图片和第二图片中的像素点,生成两张对应的新图片,若一像素点为黑色,则将新图片中以像素点的对应点为中心的九宫格中的像素点置为黑色;
具体地,服务器遍历第一图片和第二图片中的像素点,生成两张对应的新图片,若一像素点的像素值为0,则将新图片中以该像素点的对应点为中心的九宫格中的像素点的像素值均置为0;
S1413:遍历两张对应的新图片中的像素点,若以一像素点为中心的九宫格内存在白色的像素点和/或像素点周围的像素点不足以构成九宫格,则将像素点置为白色;
具体地,服务器遍历两张对应的新图片中的像素点,若以一像素点为中心的九宫格内存在白色的像素点和/或像素点周围的像素点不足以构成九宫格,则将该像素点的像素值置1,即将该像素点设置为白色。
S1414:分别对第一图片和第二图片进行形态学分析,提取第一图片和第二图片中各图像融合后的边界,并获取各边界的外切矩形;
具体地,服务器分别对第一图片和第二图片进行形态学分析,扫描图片中的像素点,若扫描到一个像素点值为1,且该像素点左侧相邻的像素点值为0,则将该像素点标记为边界的起始点。从起始点右侧的像素点开始,顺时针地在与起始点相邻的像素点中查找像素值为1的像素点,将查找到的第一个像素点标记为当前边界点,并从当前边界点依次逆时针查找其余边界点,将每次新查找到的边界点标记为当前边界点,最终提取得到完整的边界。使用opencv中的 minAreaRect函数获取提取到的边界的外切矩形。
S1415:将外切矩形与原始的网站截图进行耦合;
具体地,服务器将得到的外切矩形与原始的彩色的网站截图进行耦合,将外切矩形框添加到原始的网站截图中。
S1416:提取外切矩形框住的区域,每一区域为一图像特征;
具体地,服务器提取每个外切矩形框住的区域作为一个图像特征,生成一张图片。
S1417:筛选掉区域中规格不在预设范围内的区域;
具体地,服务器筛选掉长或宽小于20像素的区域,和总面积大于400×400的区域。
S1418:将剩余的区域压缩或伸展为预设的标准大小,压缩或伸展过程中保持长宽比不变,不足区域用黑色补齐;
具体地,服务器将将每个区域标准化为224×224的大小,例如有一96×112的图片,保持该图片长宽比不变,对该图片进行拉伸,拉伸后得到一192×224的图片,并填补一32×224的黑色区域,从而将该区域标准化为224×224的大小。
S1419:将自定义特征进行归一化处理,并输入深度神经网络获得自定义特征向量,深度神经网络的激活函数为ReLU;
具体地,服务器对自定义特征进行Min-max归一化,并输入深度神经网络获得自定义特征向量,深度神经网络的激活函数为ReLU。
S1420:将URL文本特征分别输入URL词级embedding层和URL字级embedding层,得到词级URL文本编码向量和字级URL文本编码向量;
具体地,服务器将URL文本特征分别输入URL词级embedding层和URL字级embedding层,URL文本特征在词级embedding层和字级embedding层中与不同的矩阵相乘,得到词级URL文本编码向量和字级URL文本编码向量,组成最终的URL文本编码向量。
S1421:将HTML文本特征向量分别输入HTML词级embedding层和HTML字级embedding层,得到词级HTML文本编码向量和字级HTML文本编码向量;
具体地,服务器将HTML文本特征分别输入HTML词级embedding层和HTML字级embedding层,HTML文本特征在词级embedding层和字级embedding层中与不同的矩阵相乘,得到词级HTML文本编码向量和字级HTML文本编码向量,组成最终的HTML文本编码向量。
S1422:将词级URL文本编码向量输入第一LSTM网络,字级URL文本编码向量输入第二LSTM网络,得到词级URL文本特征向量和字级URL文本特征向量;
具体地,服务器将词级URL文本编码向量输入第一LSTM网络,字级URL文本编码向量输入第二LSTM网络,得到词级URL文本特征向量和字级URL文本特征向量,词级URL文本特征向量和字级URL文本特征向量组成URL文本特征向量。
S1423:将词级HTML文本编码向量输入第三LSTM网络,字级HTML文本编码向量输入第四LSTM网络,得到词级HTML文本特征向量和字级HTML文本特征向量;
具体地,服务器将词级HTML文本编码向量输入第三LSTM网络,字级HTML文本编码向量输入第四LSTM网络,得到词级HTML文本特征向量和字级HTML文本特征向量,词级HTML文本特征向量和字级HTML文本特征向量组成HTML文本特征向量。
S1424:随机选取固定数量的图像特征输入卷积神经网络,得到图像特征向量,卷积神经网络包括卷积层、ReLU激活层、CBAM注意力层和最大池化层;
具体地,服务器随机选取5张图像特征图片输入卷积神经网络,得到图像特征向量。
S1425:将根据自定义特征向量、文本特征向量和图像特征向量进行拼接得到的拼接特征向量输入预先建立的深度神经网络,得到综合特征向量;
具体地,服务器对自定义特征向量、URL文本特征向量、HTML文本特征向量和图像特征向量进行拼接,得到拼接特征向量,将拼接特征向量输入预先训练好的深度神经网络中,以对不同特征进行融合,得到综合特征向量,综合特征向量为一个二维向量。
S1426:将综合特征向量输入预先建立的分类神经网络,得到目标网站属于各个分类的概率,分类神经网络使用Softmax作为输出层的激活函数;
具体地,服务器将综合特征向量输入预先建立的分类神经网络,输出的向量为[0.1,0.7,0.2],其中,目标网站属于第二个分类的置信度最大,为0.7,因此认为目标网络属于第二个分类,且第二个分类为钓鱼网站,因此识别到目标网站为钓鱼网站。
本申请提供的钓鱼网站识别方法,能够获取目标网站数据,根据目标网站数据获得自定义特征、文本特征和图像特征,从而进一步获得对应的自定义特征向量、文本特征向量和图像特征向量,并进行拼接得到拼接特征向量,将拼接特征向量输入预先建立的深度神经网络,得到综合特征向量,并输入预先建立的分类神经网络,得到该网站属于各个分类的概率,能够充分利用多特征互补的特点,提高了模型的自适应能力以及针对反钓鱼技术的抵抗性,具有较强的钓鱼网站检测能力。
在本申请一实施例中,利用从PhishTank、OpenPhish、PhishStats获取的钓鱼数据和Alexa Top Sites获取的合法网站数据,构建了总数为6000的正负例1:1的数据集。基于多特征深度学习的钓鱼检测器及其他机器学习方法在数据集的分类效果如表1所示。
表1
Figure 85271DEST_PATH_IMAGE019
可见,通过本申请提供的钓鱼网站识别方法对钓鱼网站进行识别,无论是准确率、精确率、召回率还是F1值都较其他方法有明显提高,说明本申请提供的钓鱼网站识别方法能够更好的对钓鱼网站进行识别。
基于同一发明构思,本申请实施例还提供了一种钓鱼网站识别装置,可以用于实现上述实施例所描述的方法,如下面的实施例。由于钓鱼网站识别装置解决问题的原理与钓鱼网站识别方法相似,因此钓鱼网站识别装置的实施可以参见基于软件性能基准确定方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图15是本申请一实施例提供的钓鱼网站识别装置的结构示意图,如图15,本申请实施例提供的钓鱼网站识别装置包括:
数据获取单元1510,用于获取目标网站数据,目标网站数据包括:网站URL、网站HTML文档和网站截图;
具体地,数据获取单元1510用于执行图1中数据获取部分的操作,由于浏览器设置的不同,通过不同浏览器获得的目标网站数据也会有所不同,应选取与统一的浏览器作为驱动,以消除无关因素的影响。输入目标网站的URL,并设置语言和窗口大小,数据获取单元1510使用爬虫对目标网站进行爬取,获得目标网站数据,目标网站数据包括:网站URL、网站HTML文档和网站截图。具体使用何种浏览器可以根据需要进行选择,本申请对此不做限制,例如, chrome、foxfire、IE等。
特征提取单元1520,用于根据目标网站数据获得自定义特征、文本特征和图像特征;
具体地,特征提取单元1520用于执行图1中特征预处理部分的操作,根据获得的目标网站数据分别提取自定义特征、文本特征和图像特征。
特征向量生成单元1530,用于根据自定义特征、文本特征和图像特征获得对应的自定义特征向量、文本特征向量和图像特征向量;
具体地,特征向量生成单元1530用于执行图1神经网络部分中向量提取的操作,将自定义特征、文本特征和图像特征分别输入不同的神经网络模型,以对特征进行提取,获得对应的自定义特征向量、文本特征向量和图像特征向量。
特征向量整合单元1540,用于将根据自定义特征向量、文本特征向量和图像特征向量进行拼接得到的拼接特征向量输入预先建立的深度神经网络,得到综合特征向量;
具体地,特征向量整合单元1540用于执行图1神经网络部分中特征融合的操作,对自定义特征向量、文本特征向量和图像特征向量进行拼接,得到拼接特征向量,将拼接特征向量输入预先训练好的深度神经网络中,以对不同特征进行融合,得到综合特征向量,综合特征向量为一个二维向量。
分类单元1550,用于将综合特征向量输入预先建立的分类神经网络,得到目标网站属于各个分类的概率,分类神经网络使用Softmax作为输出层的激活函数。
具体地,分类单元1550用于执行图1神经网络中分类网络的操作,将综合特征向量输入预先建立的分类神经网络,分类神经网络使用ReLU作为隐藏层的激活函数,使用Softmax作为输出层的激活函数,输出的结果为一个一维向量,该向量的长度与网站的分类数相等,向量中的各个值代表目标网站属于对应分类的置信度,选取置信度最大的分类作为目标网站的分类,若网站属于钓鱼网站分类,则可以判断网站为钓鱼网站。
本申请提供的钓鱼网站识别装置,包括:数据获取单元1510、特征提取单元1520、特征向量生成单元1530、特征向量整合单元1540和分类单元1550,能够充分利用多特征互补的特点,提高了模型的自适应能力以及针对反钓鱼技术的抵抗性,具有较强的钓鱼网站检测能力。
图16是本申请一实施例提供的钓鱼网站识别装置的结构示意图,如图16所示,在上述各实施例的基础上,进一步地,特征提取单元1520包括:
自定义特征提取模块1521,用于根据网站URL、网站HTML文档和网站截图获得自定义特征,自定义特征包括URL自定义特征、HTML自定义特征和图像自定义特征;
文本特征提取模块1522,用于根据网站URL和网站HTML文档获得文本特征,文本特征包括URL文本特征和HTML文本特征;
图像特征提取模块1523,用于根据网站截图获得图像特征。
本申请提供的钓鱼网站识别装置,特征提取单元1520包括:自定义特征提取模块1521、文本特征提取模块1522和图像特征提取模块1523,能够充分利用多特征互补的特点,提高了模型的自适应能力以及针对反钓鱼技术的抵抗性,具有较强的钓鱼网站检测能力。
图17是本申请一实施例提供的钓鱼网站识别装置的结构示意图,如图17所示,在上述各实施例的基础上,进一步地,自定义特征提取模块1521包括:
URL自定义特征提取子模块1521.1,用于根据网站URL获得URL自定义特征,URL自定义特征包括:URL长度、URL路径深度、域名所含点数、域名是否为IP地址、URL特殊符号个数、URL是否含关键字;
HTML自定义特征提取子模块1521.2,用于根据网站HTML文档获得HTML自定义特征,HTML自定义特征包括:HTML是否含关键字、异域超链接比例、超链接总数量、HTML长度,其中,异域超链接比例为网站HTML文档中异域超链接的数量占超链接总数量的比例;
图像自定义特征提取子模块1521.3,用于根据网站截图获得图像自定义特征,图像自定义特征为近似白色的像素点的数量占网站截图中的像素点总数的比例。
本申请提供的钓鱼网站识别装置,自定义特征提取模块1521包括:URL自定义特征提取子模块1521.1、HTML自定义特征提取子模块1521.2和图像自定义特征提取子模块1521.3,能够充分利用多特征互补的特点,提高了模型的自适应能力以及针对反钓鱼技术的抵抗性,具有较强的钓鱼网站检测能力。
图18是本申请一实施例提供的钓鱼网站识别装置的结构示意图,如图18所示,在上述各实施例的基础上,进一步地,文本特征提取模块1522包括:
文本分词子模1522.1,用于采用标点符号分词的方式对网站URL和网站HTML文档进行分词,得到URL词序列和HTML词序列,HTML词序列为网站HTML文档中包含的标签;
词频排序查找子模块1522.2,用于查找URL词序列中的词在预设的URL词频排序字典中对应的词频排序和HTML词序列中的词在预设的HTML词频排序字典中对应的词频排序,若一词在词频排序字典中不存在,则将词的词频排序记为0,得到URL词频排序列表和HTML词频排序列表;
文本特征生成子模块1522.3,用于将URL词频排序列表和HTML词频排序列表的长度转化为标准长度,若URL词频排序列表的长度小于URL词频排序列表标准长度和/或HTML词频排序列表的长度小于HTML词频排序列表标准长度,则用0值补齐;若URL词频排序列表的长度小于URL词频排序列表标准长度和/或HTML词频排序列表的长度小于HTML词频排序列表标准长度,则只截取对应标准长度内的词频排序列表,标准长度的URL词频排序列表和HTML词频排序列表即为提取到的文本特征。
本申请提供的钓鱼网站识别装置,文本特征提取模块1522包括:文本分词子模1522.1、词频查找子模块1522.2和文本特征生成子模块1522.3,能够充分利用多特征互补的特点,提高了模型的自适应能力以及针对反钓鱼技术的抵抗性,具有较强的钓鱼网站检测能力。
图19是本申请一实施例提供的钓鱼网站识别装置的结构示意图,如图19所示,在上述各实施例的基础上,进一步地,图像特征提取模块1523包括:
图片二值化子模块1523.1,用于将网站截图转化为灰度图片,并进行二值化处理,得到第一图片;
图片反相子模块1523.2,用于对第一图片进行反相处理,得到第二图片;
滤波子模块1523.3,用于对第一图片和第二图片进行滤波,以分别融合第一图片和第二图片中相邻图像的边界;
边界提取子模块1523.4,用于分别对第一图片和第二图片进行形态学分析,提取第一图片和第二图片中各图像融合后的边界,并获取各边界的外切矩形;
耦合子模块1523.5,用于将外切矩形与原始的网站截图进行耦合;
图像特征提取子模块1523.6,用于提取外切矩形框住的区域,每一区域为一图像特征;
特征筛选子模块1523.7,用于筛选掉区域中规格不在预设范围内的区域;
特征标准化子模块1523.8,用于将剩余的区域压缩或伸展为预设的标准大小,压缩或伸展过程中保持长宽比不变,不足区域用黑色补齐。
本申请提供的钓鱼网站识别装置,图像特征提取模块1523包括:图片二值化子模块1523.1、图片反相子模块1523.2、滤波子模块1523.3、边界提取子模块1523.4、图像特征提取子模块1523.5、特征筛选子模块1523.6和特征标准化子模块1523.7,能够充分利用多特征互补的特点,提高了模型的自适应能力以及针对反钓鱼技术的抵抗性,具有较强的钓鱼网站检测能力。
图20是本申请一实施例提供的钓鱼网站识别装置的结构示意图,如图20所示,在上述各实施例的基础上,进一步地,图片二值化子模块1523.1包括:
灰色图片转化模块1523.1a,用于将网站截图转化为灰度图片;
分类阈值计算模块1523.1b,用于根据灰度图片中各像素的像素值计算分类阈值,分类阈值使分类后的类间方差最大;
分类转化模块1523.1c,用于将像素值小于分类的像素设置为黑色,将像素值大于分类阈值的像素设置为白色,得到第一图片。
本申请提供的钓鱼网站识别装置,图片二值化子模块1523.1包括:灰色图片转化模块1523.1a、分类阈值计算模块1523.1b和分类转化模块1523.1c,能够充分利用多特征互补的特点,提高了模型的自适应能力以及针对反钓鱼技术的抵抗性,具有较强的钓鱼网站检测能力。
图21是本申请一实施例提供的钓鱼网站识别装置的结构示意图,如图21所示,在上述各实施例的基础上,进一步地,滤波子模块1523.3包括:
图像膨胀模块1523.3a,用于遍历第一图片和第二图片中的像素点,生成两张对应的新图片,若一像素点为黑色,则将新图片中以像素点的对应点为中心的九宫格中的像素点置为黑色;
图像腐蚀模块1523.3b,用于遍历两张对应的新图片中的像素点,若以一像素点为中心的九宫格内存在白色的像素点和/或像素点周围的像素点不足以构成九宫格,则将像素点置为白色。
本申请提供的钓鱼网站识别装置,滤波子模块1523.3包括:图像膨胀模块1523.3a和图像腐蚀模块1523.3b,能够充分利用多特征互补的特点,提高了模型的自适应能力以及针对反钓鱼技术的抵抗性,具有较强的钓鱼网站检测能力。
图22是本申请一实施例提供的钓鱼网站识别装置的结构示意图,如图22所示,在上述各实施例的基础上,进一步地,特征向量生成单元1530包括:
自定义特征向量生成模块1531,用于将自定义特征进行归一化处理,并输入深度神经网络获得自定义特征向量,深度神经网络的激活函数为ReLU;
文本特征向量生成模块1532,用于将文本特征分别输入词级embedding层和字级embedding层,得到词级文本编码向量和字级文本编码向量,词级文本编码向量和字级文本编码向量组成文本编码向量;将文本编码向量输入LSTM网络,得到文本特征向量,文本特征向量包括URL文本特征向量和HTML文本特征向量;
图像特征向量生成模块1533,用于随机选取固定数量的图像特征输入卷积神经网络,得到图像特征向量,卷积神经网络包括卷积层、ReLU激活层、CBAM注意力层和最大池化层。
本申请提供的钓鱼网站识别装置,特征向量生成单元1530包括:自定义特征向量生成模块1531、文本特征向量生成模块1532和图像特征向量生成模块1533,能够充分利用多特征互补的特点,提高了模型的自适应能力以及针对反钓鱼技术的抵抗性,具有较强的钓鱼网站检测能力。
图23是本申请一实施例提供的钓鱼网站识别装置的结构示意图,如图23所示,在上述各实施例的基础上,进一步地,文本特征向量生成模块1532包括:
URL编码子模块1532.1,用于将URL文本特征分别输入URL词级embedding层和URL字级embedding层,得到词级URL文本编码向量和字级URL文本编码向量,词级URL文本编码向量和字级URL文本编码向量组成URL文本编码向量;
HTML编码子模块1532.2,用于将HTML文本特征向量分别输入HTML词级embedding层和HTML字级embedding层,得到词级HTML文本编码向量和字级HTML文本编码向量,词级HTML文本编码向量和字级HTML文本编码向量组成HTML文本编码向量。
本申请提供的钓鱼网站识别装置,文本特征向量生成模块1532包括:URL编码子模块1532.1和HTML编码子模块1532.2,能够充分利用多特征互补的特点,提高了模型的自适应能力以及针对反钓鱼技术的抵抗性,具有较强的钓鱼网站检测能力。
图24是本申请一实施例提供的钓鱼网站识别装置的结构示意图,如图24所示,在上述各实施例的基础上,进一步地,文本特征向量生成模块1532还包括:
URL文本特征向量生成子模块1532.3,用于将词级URL文本编码向量输入第一LSTM网络,字级URL文本编码向量输入第二LSTM网络,得到词级URL文本特征向量和字级URL文本特征向量,词级URL文本特征向量和字级URL文本特征向量组成URL文本特征向量;
HTML文本特征向量生成子模块1532.4,用于将词级HTML文本编码向量输入第三LSTM网络,字级HTML文本编码向量输入第四LSTM网络,得到词级HTML文本特征向量和字级HTML文本特征向量,词级HTML文本特征向量和字级HTML文本特征向量组成HTML文本特征向量。
本申请提供的钓鱼网站识别装置,文本特征向量生成模块1532包括:URL文本特征向量生成子模块1532.3和HTML文本特征向量生成子模块1532.4,能够充分利用多特征互补的特点,提高了模型的自适应能力以及针对反钓鱼技术的抵抗性,具有较强的钓鱼网站检测能力。
图25是本申请一实施例提供的钓鱼网站识别装置的结构示意图,如图25所示,在上述各实施例的基础上,进一步地,本申请提供的钓鱼网站识别装置中,文本特征提取模块1522还包括:
历史数据收集子模块1522.4,用于获取不同网站的网站URL和网站HTML文档,得到网站URL集和网站HTML文档集,网站包括钓鱼网站和非钓鱼网站;
历史数据分词子模块1522.5,用于对网站URL集中的URL和网站HTML文档集中的HTML文档进行标点符号分词,得到URL词集和HTML词集;
词频排序字典生成子模块1522.6,用于统计URL词集和HTML词集中不同的词出现的频率,按照频率从高至低的顺序分别对URL词集和HTML词集中的词进行排序,将URL词集和HTML词集中的词和其对应的频率作为键值对存入字典,得到URL词频排序字典和HTML词频排序字典,保留URL词频排序字典中频率最高的X个词,保留HTML词频排序字典中频率最高的Y个词,X、Y为正整数。
本申请提供的钓鱼网站识别装置,文本特征提取模块1522还包括:历史数据收集子模块1522.4、历史数据分词子模块1522.5和词频排序字典生成子模块1522.6,能够充分利用多特征互补的特点,提高了模型的自适应能力以及针对反钓鱼技术的抵抗性,具有较强的钓鱼网站检测能力。
图26是本申请一实施例提供的钓鱼网站识别装置的结构示意图,如图26所示,在上述各实施例的基础上,进一步地,本申请提供的钓鱼网站识别装置还包括:
神经网络训练单元2610,用于以带权交叉熵作为损失函数,使用Adam训练优化器对所述分类神经网络进行训练优化。
本申请提供的钓鱼网站识别装置,还包括:神经网络训练单元2610,能够充分利用多特征互补的特点,提高了模型的自适应能力以及针对反钓鱼技术的抵抗性,具有较强的钓鱼网站检测能力。
本发明实施例提供的装置的实施例具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
图27是本申请第一实施例提供的电子设备的实体结构示意图,如图27所示,该电子设备可以包括:处理器(processor)2701、通信接口(Communications Interface)2702、存储器(memory)2703和通信总线2704,其中,处理器2701,通信接口2702,存储器2703通过通信总线2704完成相互间的通信。处理器2701可以调用存储器2703中的逻辑指令,以执行如下方法:获取目标网站数据,目标网站数据包括:网站URL、网站HTML文档和网站截图;根据目标网站数据获得自定义特征、文本特征和图像特征;根据自定义特征、文本特征和图像特征获得对应的自定义特征向量、文本特征向量和图像特征向量;将根据自定义特征向量、文本特征向量和图像特征向量进行拼接得到的拼接特征向量输入预先建立的深度神经网络,得到综合特征向量;将综合特征向量输入预先建立的分类神经网络,得到该网站属于各个分类的概率,分类神经网络使用Softmax作为输出层的激活函数。
此外,上述的存储器2703中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取目标网站数据,目标网站数据包括:网站URL、网站HTML文档和网站截图;根据目标网站数据获得自定义特征、文本特征和图像特征;根据自定义特征、文本特征和图像特征获得对应的自定义特征向量、文本特征向量和图像特征向量;将根据自定义特征向量、文本特征向量和图像特征向量进行拼接得到的拼接特征向量输入预先建立的深度神经网络,得到综合特征向量;将综合特征向量输入预先建立的分类神经网络,得到该网站属于各个分类的概率,分类神经网络使用Softmax作为输出层的激活函数。
本实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取目标网站数据,目标网站数据包括:网站URL、网站HTML文档和网站截图;根据目标网站数据获得自定义特征、文本特征和图像特征;根据自定义特征、文本特征和图像特征获得对应的自定义特征向量、文本特征向量和图像特征向量;将根据自定义特征向量、文本特征向量和图像特征向量进行拼接得到的拼接特征向量输入预先建立的深度神经网络,得到综合特征向量;将综合特征向量输入预先建立的分类神经网络,得到该网站属于各个分类的概率,分类神经网络使用Softmax作为输出层的激活函数。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述的具体实施例,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施例而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (27)

1.一种钓鱼网站识别方法,其特征在于,包括:
获取目标网站数据,所述目标网站数据包括:网站URL、网站HTML文档和网站截图;
根据所述目标网站数据获得自定义特征、文本特征和图像特征;
根据所述自定义特征、所述文本特征和所述图像特征获得对应的自定义特征向量、文本特征向量和图像特征向量;
将根据所述自定义特征向量、文本特征向量和图像特征向量进行拼接得到的拼接特征向量输入预先建立的深度神经网络,得到综合特征向量;
将所述综合特征向量输入预先建立的分类神经网络,得到所述目标网站属于各个分类的概率,所述分类神经网络使用Softmax作为输出层的激活函数。
2.根据权利要求1所述的钓鱼网站识别方法,其特征在于,所述根据所述目标网站数据获得自定义特征、文本特征和图像特征包括:
根据所述网站URL、网站HTML文档和网站截图获得所述自定义特征,所述自定义特征包括URL自定义特征、HTML自定义特征和图像自定义特征;
根据所述网站URL和所述网站HTML文档获得文本特征,所述文本特征包括URL文本特征和HTML文本特征;
根据所述网站截图获得图像特征。
3.根据权利要求2所述的钓鱼网站识别方法,其特征在于,所述根据所述网站URL、网站HTML文档和网站截图获得所述自定义特征包括:
根据所述网站URL获得所述URL自定义特征,所述URL自定义特征包括:URL长度、URL路径深度、域名所含点数、域名是否为IP地址、URL特殊符号个数、URL是否含关键字;
根据所述网站HTML文档获得所述HTML自定义特征,所述HTML自定义特征包括:HTML是否含关键字、异域超链接比例、超链接总数量、HTML长度,其中,所述异域超链接比例为所述网站HTML文档中异域超链接的数量占所述超链接总数量的比例;
根据所述网站截图获得所述图像自定义特征,所述图像自定义特征为近似白色的像素点的数量占所述网站截图中的像素点总数的比例。
4.根据权利要求2所述的钓鱼网站识别方法,其特征在于,所述根据所述网站URL和所述网站HTML文档获得文本特征包括:
采用标点符号分词的方式对所述网站URL和所述网站HTML文档进行分词,得到URL词序列和HTML词序列,所述HTML词序列为所述网站HTML文档中包含的标签;
查找所述URL词序列中的词在预设的URL词频排序字典中对应的词频排序和所述HTML词序列中的词在预设的HTML词频排序字典中对应的词频排序,若一词在词频排序字典中不存在,则将所述词的词频排序记为0,得到URL词频排序列表和HTML词频排序列表;
将所述URL词频排序列表和所述HTML词频排序列表的长度转化为标准长度,若所述URL词频排序列表的长度小于预设的URL词频排序列表标准长度和/或所述HTML词频排序列表的长度小于预设的HTML词频排序列表标准长度,则用0值补齐;若所述URL词频排序列表的长度小于所述URL词频排序列表标准长度和/或所述HTML词频排序列表的长度小于所述HTML词频排序列表标准长度,则只截取对应标准长度内的词频排序列表,标准长度的URL词频排序列表和HTML词频排序列表即为提取到的文本特征。
5.根据权利要求2所述的钓鱼网站识别方法,其特征在于,所述根据所述网站截图获得图像特征包括:
将所述网站截图转化为灰度图片,并进行二值化处理,得到第一图片;
对所述第一图片进行反相处理,得到第二图片;
对所述第一图片和所述第二图片进行滤波,以分别融合所述第一图片和所述第二图片中相邻图像的边界;
分别对所述第一图片和所述第二图片进行形态学分析,提取所述第一图片和所述第二图片中各图像融合后的边界,并获取各边界的外切矩形;
将所述外切矩形与原始的网站截图进行耦合;
提取所述外切矩形框住的区域,每一区域为一图像特征;
筛选掉所述区域中规格不在预设范围内的区域;
将剩余的区域压缩或伸展为预设的标准大小,压缩或伸展过程中保持长宽比不变,不足区域用黑色补齐。
6.根据权利要求5所述的钓鱼网站识别方法,其特征在于,所述根据所述将所述网站截图转化为灰度图片,并进行二值化处理,得到第一图片,包括:
将所述网站截图转化为灰度图片;
根据所述灰度图片中各像素的像素值计算分类阈值,所述分类阈值使分类后的类间方差最大;
将像素值小于所述分类的像素设置为黑色,将像素值大于所述分类阈值的像素设置为白色,得到所述第一图片。
7.根据权利要求5所述的钓鱼网站识别方法,其特征在于,所述对所述第一图片和所述第二图片进行滤波,包括:
遍历所述第一图片和所述第二图片中的像素点,生成两张对应的新图片,若一像素点为黑色,则将所述新图片中以所述像素点的对应点为中心的九宫格中的像素点置为黑色;
遍历所述两张对应的新图片中的像素点,若以一像素点为中心的九宫格内存在白色的像素点和/或所述像素点周围的像素点不足以构成九宫格,则将所述像素点置为白色。
8.根据权利要求1所述的钓鱼网站识别方法,其特征在于,所述根据所述自定义特征、所述文本特征和所述图像特征获得自定义特征向量、文本特征向量和图像特征向量包括:
将所述自定义特征进行归一化处理,并输入深度神经网络获得自定义特征向量,所述深度神经网络的激活函数为ReLU;
将所述文本特征分别输入词级embedding层和字级embedding层,得到词级文本编码向量和字级文本编码向量,所述词级文本编码向量和所述字级文本编码向量组成文本编码向量;将所述文本编码向量输入LSTM网络,得到文本特征向量,所述文本特征向量包括URL文本特征向量和HTML文本特征向量;
随机选取固定数量的图像特征输入卷积神经网络,得到图像特征向量,所述卷积神经网络包括卷积层、ReLU激活层、CBAM注意力层和最大池化层。
9.根据权利要求8所述的钓鱼网站识别方法,其特征在于,所述将所述文本特征分别输入词级embedding层和字级embedding层,得到词级文本编码向量和字级文本编码向量包括:
将所述URL文本特征分别输入URL词级embedding层和URL字级embedding层,得到词级URL文本编码向量和字级URL文本编码向量,所述词级URL文本编码向量和字级URL文本编码向量组成URL文本编码向量;
将所述HTML文本特征向量分别输入HTML词级embedding层和HTML字级embedding层,得到词级HTML文本编码向量和字级HTML文本编码向量,所述词级HTML文本编码向量和字级HTML文本编码向量组成HTML文本编码向量。
10.根据权利要求9所述的钓鱼网站识别方法,其特征在于,所述将所述文本编码向量输入LSTM网络,得到文本特征向量包括:
将所述词级URL文本编码向量输入第一LSTM网络,所述字级URL文本编码向量输入第二LSTM网络,得到词级URL文本特征向量和字级URL文本特征向量,所述词级URL文本特征向量和所述字级URL文本特征向量组成所述URL文本特征向量;
将所述词级HTML文本编码向量输入第三LSTM网络,所述字级HTML文本编码向量输入第四LSTM网络,得到词级HTML文本特征向量和字级HTML文本特征向量,所述词级HTML文本特征向量和所述字级HTML文本特征向量组成所述HTML文本特征向量。
11.根据权利要求4所述的钓鱼网站识别方法,其特征在于,所述查找所述URL词序列中的词在预设的URL词频排序字典中对应的词频排序和所述HTML词序列中的词在预设的HTML词频排序字典中对应的词频排序前,还包括:
获取不同网站的网站URL和网站HTML文档,得到网站URL集和网站HTML文档集,所述网站包括钓鱼网站和非钓鱼网站;
对所述网站URL集中的URL和网站HTML文档集中的HTML文档进行标点符号分词,得到URL词集和HTML词集;
统计所述URL词集和所述HTML词集中不同的词出现的频率,按照所述频率从高至低的顺序分别对所述URL词集和所述HTML词集中的词进行排序,将所述URL词集和所述HTML词集中的词和其对应的频率作为键值对存入字典,得到URL词频排序字典和HTML词频排序字典,保留所述URL词频排序字典中频率最高的X个词,保留所述HTML词频排序字典中频率最高的Y个词,X、Y为正整数。
12.根据权利要求1所述的钓鱼网站识别方法,其特征在于,还包括:
以带权交叉熵作为损失函数,使用Adam训练优化器对所述分类神经网络进行训练优化。
13.一种钓鱼网站识别装置,其特征在于,包括:
数据获取单元,用于获取目标网站数据,所述目标网站数据包括:网站URL、网站HTML文档和网站截图;
特征提取单元,用于根据所述目标网站数据获得自定义特征、文本特征和图像特征;
特征向量生成单元,用于根据所述自定义特征、所述文本特征和所述图像特征获得对应的自定义特征向量、文本特征向量和图像特征向量;
特征向量整合单元,用于将根据所述自定义特征向量、文本特征向量和图像特征向量进行拼接得到的拼接特征向量输入预先建立的深度神经网络,得到综合特征向量;
分类单元,用于将所述综合特征向量输入预先建立的分类神经网络,得到所述目标网站属于各个分类的概率,所述分类神经网络使用Softmax作为输出层的激活函数。
14.根据权利要求13所述的钓鱼网站识别装置,其特征在于,所述特征提取单元包括:
自定义特征提取模块,用于根据所述网站URL、网站HTML文档和网站截图获得所述自定义特征,所述自定义特征包括URL自定义特征、HTML自定义特征和图像自定义特征;
文本特征提取模块,用于根据所述网站URL和所述网站HTML文档获得文本特征,所述文本特征包括URL文本特征和HTML文本特征;
图像特征提取模块,用于根据所述网站截图获得图像特征。
15.根据权利要求14所述的钓鱼网站识别装置,其特征在于,所述自定义特征提取模块包括:
URL自定义特征提取子模块,用于根据所述网站URL获得所述URL自定义特征,所述URL自定义特征包括:URL长度、URL路径深度、域名所含点数、域名是否为IP地址、URL特殊符号个数、URL是否含关键字;
HTML自定义特征提取子模块,用于根据所述网站HTML文档获得所述HTML自定义特征,所述HTML自定义特征包括:HTML是否含关键字、异域超链接比例、超链接总数量、HTML长度,其中,所述异域超链接比例为所述网站HTML文档中异域超链接的数量占所述超链接总数量的比例;
图像自定义特征提取子模块,用于根据所述网站截图获得所述图像自定义特征,所述图像自定义特征为近似白色的像素点的数量占所述网站截图中的像素点总数的比例。
16.根据权利要求14所述的钓鱼网站识别装置,其特征在于,所述文本特征提取模块包括:
文本分词子模块,用于采用标点符号分词的方式对所述网站URL和所述网站HTML文档进行分词,得到URL词序列和HTML词序列,所述HTML词序列为所述网站HTML文档中包含的标签;
词频排序查找子模块,用于查找所述URL词序列中的词在预设的URL词频排序字典中对应的词频排序和所述HTML词序列中的词在预设的HTML词频排序字典中对应的词频排序,若一词在词频排序字典中不存在,则将所述词的词频排序记为0,得到URL词频排序列表和HTML词频排序列表;
文本特征生成子模块,用于将所述URL词频排序列表和所述HTML词频排序列表的长度转化为标准长度,若所述URL词频排序列表的长度小于预设的URL词频排序列表标准长度和/或所述HTML词频排序列表的长度小于预设的HTML词频排序列表标准长度,则用0值补齐;若所述URL词频排序列表的长度小于所述URL词频排序列表标准长度和/或所述HTML词频排序列表的长度小于所述HTML词频排序列表标准长度,则只截取对应标准长度内的词频排序列表,标准长度的URL词频排序列表和HTML词频排序列表即为提取到的文本特征。
17.根据权利要求14所述的钓鱼网站识别装置,其特征在于,所述图像特征提取模块包括:
图片二值化子模块,用于将所述网站截图转化为灰度图片,并进行二值化处理,得到第一图片;
图片反相子模块,用于对所述第一图片进行反相处理,得到第二图片;
滤波子模块,用于对所述第一图片和所述第二图片进行滤波,以分别融合所述第一图片和所述第二图片中相邻图像的边界;
边界提取子模块,用于分别对所述第一图片和所述第二图片进行形态学分析,提取所述第一图片和所述第二图片中各图像融合后的边界,并获取各边界的外切矩形;
耦合子模块,用于将所述外切矩形与原始的网站截图进行耦合;
图像特征提取子模块,用于提取所述外切矩形框住的区域,每一区域为一图像特征;
特征筛选子模块,用于筛选掉所述区域中规格不在预设范围内的区域;
特征标准化子模块,用于将剩余的区域压缩或伸展为预设的标准大小,压缩或伸展过程中保持长宽比不变,不足区域用黑色补齐。
18.根据权利要求17所述的钓鱼网站识别装置,其特征在于,所述图片二值化子模块包括:
灰色图片转化模块,用于将所述网站截图转化为灰度图片;
分类阈值计算模块,用于根据所述灰度图片中各像素的像素值计算分类阈值,所述分类阈值使分类后的类间方差最大;
分类转化模块,用于将像素值小于所述分类的像素设置为黑色,将像素值大于所述分类阈值的像素设置为白色,得到所述第一图片。
19.根据权利要求17所述的钓鱼网站识别装置,其特征在于,所述滤波子模块包括:
图像膨胀模块,用于遍历所述第一图片和所述第二图片中的像素点,生成两张对应的新图片,若一像素点为黑色,则将所述新图片中以所述像素点的对应点为中心的九宫格中的像素点置为黑色;
图像腐蚀模块,用于遍历所述两张对应的新图片中的像素点,若以一像素点为中心的九宫格内存在白色的像素点和/或所述像素点周围的像素点不足以构成九宫格,则将所述像素点置为白色。
20.根据权利要求13所述的钓鱼网站识别装置,其特征在于,所述特征向量生成单元包括:
自定义特征向量生成模块,用于将所述自定义特征进行归一化处理,并输入深度神经网络获得自定义特征向量,所述深度神经网络的激活函数为ReLU;
文本特征向量生成模块,用于将所述文本特征分别输入词级embedding层和字级embedding层,得到词级文本编码向量和字级文本编码向量,所述词级文本编码向量和所述字级文本编码向量组成文本编码向量;将所述文本编码向量输入LSTM网络,得到文本特征向量,所述文本特征向量包括URL文本特征向量和HTML文本特征向量;
图像特征向量生成模块,用于随机选取固定数量的图像特征输入卷积神经网络,得到图像特征向量,所述卷积神经网络包括卷积层、ReLU激活层、CBAM注意力层和最大池化层。
21.根据权利要求20所述的钓鱼网站识别装置,其特征在于,所述文本特征向量生成模块包括:
URL编码子模块,用于将所述URL文本特征分别输入URL词级embedding层和URL字级embedding层,得到词级URL文本编码向量和字级URL文本编码向量,所述词级URL文本编码向量和字级URL文本编码向量组成URL文本编码向量;
HTML编码子模块,用于将所述HTML文本特征向量分别输入HTML词级embedding层和HTML字级embedding层,得到词级HTML文本编码向量和字级HTML文本编码向量,所述词级HTML文本编码向量和字级HTML文本编码向量组成HTML文本编码向量。
22.根据权利要求21所述的钓鱼网站识别装置,其特征在于,所述文本特征向量生成模块还包括:
URL文本特征向量生成子模块,用于将所述词级URL文本编码向量输入第一LSTM网络,所述字级URL文本编码向量输入第二LSTM网络,得到词级URL文本特征向量和字级URL文本特征向量,所述词级URL文本特征向量和所述字级URL文本特征向量组成所述URL文本特征向量;
HTML文本特征向量生成子模块,用于将所述词级HTML文本编码向量输入第三LSTM网络,所述字级HTML文本编码向量输入第四LSTM网络,得到词级HTML文本特征向量和字级HTML文本特征向量,所述词级HTML文本特征向量和所述字级HTML文本特征向量组成所述HTML文本特征向量。
23.根据权利要求16所述的钓鱼网站识别装置,其特征在于,所述文本特征提取模块还包括:
历史数据收集子模块,用于获取不同网站的网站URL和网站HTML文档,得到网站URL集和网站HTML文档集,所述网站包括钓鱼网站和非钓鱼网站;
历史数据分词子模块,用于对所述网站URL集中的URL和网站HTML文档集中的HTML文档进行标点符号分词,得到URL词集和HTML词集;
词频排序字典生成子模块,用于统计所述URL词集和所述HTML词集中不同的词出现的频率,按照所述频率从高至低的顺序分别对所述URL词集和所述HTML词集中的词进行排序,将所述URL词集和所述HTML词集中的词和其对应的频率作为键值对存入字典,得到URL词频排序字典和HTML词频排序字典,保留所述URL词频排序字典中频率最高的X个词,保留所述HTML词频排序字典中频率最高的Y个词,X、Y为正整数。
24.根据权利要求13所述的钓鱼网站识别装置,其特征在于,还包括:
神经网络训练单元,用于以带权交叉熵作为损失函数,使用Adam训练优化器对所述分类神经网络进行训练优化。
25.一种计算机电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12任一项所述的方法。
26.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至12任一项所述的方法。
27.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至12任一项所述的方法。
CN202211487579.XA 2022-11-25 2022-11-25 一种钓鱼网站识别方法及装置 Active CN115600040B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211487579.XA CN115600040B (zh) 2022-11-25 2022-11-25 一种钓鱼网站识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211487579.XA CN115600040B (zh) 2022-11-25 2022-11-25 一种钓鱼网站识别方法及装置

Publications (2)

Publication Number Publication Date
CN115600040A true CN115600040A (zh) 2023-01-13
CN115600040B CN115600040B (zh) 2023-05-26

Family

ID=84853194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211487579.XA Active CN115600040B (zh) 2022-11-25 2022-11-25 一种钓鱼网站识别方法及装置

Country Status (1)

Country Link
CN (1) CN115600040B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116722992A (zh) * 2023-02-22 2023-09-08 浙江警察学院 一种基于多模态融合的诈骗网站识别方法及装置
CN117938458A (zh) * 2023-12-26 2024-04-26 杰创智能科技股份有限公司 诈骗网站智能联合识别方法及装置
CN118523969A (zh) * 2024-07-24 2024-08-20 浙江鹏信信息科技股份有限公司 基于dpi的校园网络诈骗预警方法及系统、可读介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530367A (zh) * 2013-10-12 2014-01-22 深圳先进技术研究院 一种钓鱼网站鉴别系统和方法
US20190104154A1 (en) * 2017-10-01 2019-04-04 Fireeye, Inc. Phishing attack detection
CN112565250A (zh) * 2020-12-04 2021-03-26 中国移动通信集团内蒙古有限公司 一种网站识别方法、装置、设备及存储介质
CN113051500A (zh) * 2021-03-25 2021-06-29 武汉大学 一种融合多源数据的钓鱼网站识别方法及系统
CN114650176A (zh) * 2022-03-22 2022-06-21 深圳壹账通智能科技有限公司 钓鱼网站的检测方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530367A (zh) * 2013-10-12 2014-01-22 深圳先进技术研究院 一种钓鱼网站鉴别系统和方法
US20190104154A1 (en) * 2017-10-01 2019-04-04 Fireeye, Inc. Phishing attack detection
CN112565250A (zh) * 2020-12-04 2021-03-26 中国移动通信集团内蒙古有限公司 一种网站识别方法、装置、设备及存储介质
CN113051500A (zh) * 2021-03-25 2021-06-29 武汉大学 一种融合多源数据的钓鱼网站识别方法及系统
CN114650176A (zh) * 2022-03-22 2022-06-21 深圳壹账通智能科技有限公司 钓鱼网站的检测方法、装置、计算机设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116722992A (zh) * 2023-02-22 2023-09-08 浙江警察学院 一种基于多模态融合的诈骗网站识别方法及装置
CN117938458A (zh) * 2023-12-26 2024-04-26 杰创智能科技股份有限公司 诈骗网站智能联合识别方法及装置
CN118523969A (zh) * 2024-07-24 2024-08-20 浙江鹏信信息科技股份有限公司 基于dpi的校园网络诈骗预警方法及系统、可读介质
CN118523969B (zh) * 2024-07-24 2024-10-29 浙江鹏信信息科技股份有限公司 基于dpi的校园网络诈骗预警方法及系统、可读介质

Also Published As

Publication number Publication date
CN115600040B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN115600040B (zh) 一种钓鱼网站识别方法及装置
CN111462126B (zh) 一种基于边缘增强的语义图像分割方法及系统
US10936897B2 (en) Method and system for information extraction from document images using conversational interface and database querying
CN110602113B (zh) 一种基于深度学习的层次化钓鱼网站检测方法
Naiemi et al. An efficient character recognition method using enhanced HOG for spam image detection
CN108830855A (zh) 一种基于多尺度低层特征融合的全卷积网络语义分割方法
CN112966691A (zh) 基于语义分割的多尺度文本检测方法、装置及电子设备
CN109933975A (zh) 一种基于深度学习的验证码识别方法及系统
CN109005145A (zh) 一种基于自动特征抽取的恶意url检测系统及其方法
CN109360179B (zh) 一种图像融合方法、装置及可读存储介质
CN108319888B (zh) 视频类型的识别方法及装置、计算机终端
CN108520215B (zh) 基于多尺度联合特征编码器的单样本人脸识别方法
CN105306296A (zh) 一种基于lte信令的数据过滤处理方法
CN116486273B (zh) 一种小样本遥感图像水体信息提取方法
CN105975497A (zh) 微博话题自动推荐方法及装置
Tabone et al. Pornographic content classification using deep-learning
CN101594314B (zh) 一种基于高阶自相关特征的垃圾邮件图像识别方法
Rana et al. MSRD-CNN: Multi-scale residual deep CNN for general-purpose image manipulation detection
CN110222234B (zh) 一种视频分类方法和装置
CN113822828A (zh) 一种多聚焦图像融合方法
KR101635738B1 (ko) 퍼지 에너지 매트릭스에 기반하여 문서 구조를 분석하기 위한 방법, 장치 및 컴퓨터 프로그램
CN110717412A (zh) 一种检测恶意pdf文档的方法及系统
CN111985487A (zh) 一种遥感影像目标提取方法、电子设备及存储介质
Chen et al. Massive figure extraction and classification in electronic component datasheets for accelerating PCB design preparation
Gummadi et al. Deep residual learning based discriminator for identifying deepfakes with cut-out regularization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant