CN114465780A - 一种基于特征提取的钓鱼邮件检测方法及系统 - Google Patents
一种基于特征提取的钓鱼邮件检测方法及系统 Download PDFInfo
- Publication number
- CN114465780A CN114465780A CN202210046781.2A CN202210046781A CN114465780A CN 114465780 A CN114465780 A CN 114465780A CN 202210046781 A CN202210046781 A CN 202210046781A CN 114465780 A CN114465780 A CN 114465780A
- Authority
- CN
- China
- Prior art keywords
- url
- source code
- feature
- landing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 94
- 238000001514 detection method Methods 0.000 title claims abstract description 91
- 239000013598 vector Substances 0.000 claims abstract description 94
- 238000012549 training Methods 0.000 claims description 50
- 230000011218 segmentation Effects 0.000 claims description 37
- 239000011159 matrix material Substances 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 23
- 238000000034 method Methods 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000000007 visual effect Effects 0.000 claims description 5
- 230000009191 jumping Effects 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000013585 weight reducing agent Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1483—Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种基于特征提取的钓鱼邮件检测方法及系统,包括:当检测到电子邮件中含有URL链接时,将URL链接传输至爬虫系统,并接收爬虫系统反馈的落地URL、网页截图和页面源代码;根据预设的特征提取算法,分别对落地URL、网页截图和页面源代码进行特征提取,获得URL特征、页面图像特征和源代码特征;提取电子邮件的邮件内容特征,并结合URL特征、页面图像特征和源代码特征,生成电子邮件对应的一个特征向量;将特征向量输入至预设的检测模型中,输出电子邮件的钓鱼邮件检测结果。本发明通过对URL链接和电子邮件内容进行多方面的特征提取,得到多类型的特征,并结合多类型特征输出钓鱼邮件检测结果,提高检测的准确性。
Description
技术领域
本发明涉及网络安全领域,尤其涉及一种基于特征提取的钓鱼邮件检测方法及系统。
背景技术
电子邮件是现代社会最常用的通讯方式之一,也是全球范围受到认可的电子取证材料。电子邮件服务具有必要性、广泛性等特性,往往被黑产组织视作常规攻击目标。特别是近年来,电子邮件往往被作为APT等新型攻击手段的第一站,以电子邮件为载体的诈骗行为同样层出不穷。在手法较为高明的钓鱼邮件中,有很大一部分的邮件都包含了钓鱼网站的URL链接,或者是被挂载了木马、后门的正常网站的URL链接。
然而,对于如何识别一个网站是否是钓鱼网站,学术界已经有较多的研究,主要分为三种类型:基于URL链接字符特征的检测、基于HTML页面的图像识别以及针对网页源代码进行的恶意网站检测。首先,基于URL链接字符特征的检测这一类型的方法,虽然不需要实际访问URL,并且较好地保护部署检测程序的机器,但是涉及到网络通信的特征,如AlexaRank、DNS查询返回response个数、域名whois查询结果等,一旦处于离线环境,则无法完成特征提取工作;并且在特征工程阶段使用特征较少,没有利用更多层面信息。其次,现有的基于HTML页面的图像识别方法,为了得到较为出色的模型,通常需要较深的网络结构,会增加特征处理环节的用时,并且对于仿造门户网站、伪装成正牌网站的钓鱼网站,会因为其在视觉上同门户网站差别很小或者甚至没有差别而难以正确区分出此类钓鱼网站。最后,现有的针对网页源代码进行的恶意网站检测方法,对页面结构特征、JS代码特征和Web会话特征进行的分别处理,但是单个环节使用特征较少,且跟踪Web会话活动需要付出较大的成本,不容易实际部署。
发明内容
本发明提供了一种基于特征提取的钓鱼邮件检测方法及系统,降低误判和漏判风险,提高检测准确性。
为了解决上述技术问题,本发明实施例提供了一种基于特征提取的钓鱼邮件检测方法,包括:
当检测到电子邮件中含有URL链接时,将所述URL链接传输至爬虫系统,并接收所述爬虫系统反馈的落地URL、网页截图和页面源代码;
根据预设的特征提取算法,分别对所述落地URL、所述网页截图和所述页面源代码进行特征提取,获得URL特征、页面图像特征和源代码特征;
提取所述电子邮件的邮件内容特征,并结合所述URL特征、所述页面图像特征和所述源代码特征,生成所述电子邮件对应的一个特征向量;
将所述特征向量输入至预设的检测模型中,输出所述电子邮件的钓鱼邮件检测结果。
进一步地,所述根据预设的特征提取算法,分别对所述落地URL、所述网页截图和所述页面源代码进行特征提取,获得URL特征、页面图像特征和源代码特征,具体为:
采用特征工程,对所述落地URL进行特征提取,输出所述URL特征;其中,所述URL特征包括域名特征、所述落地URL的直观特征、3-gram特征和词向量特征;
对所述网页截图进行解码,获得对应的第一图像,并对所述第一图像进行尺寸调整、格式转换、归一化的预处理,然后输入至预设的图像特征提取模型,输出所述页面图像特征;其中,所述图像特征提取模型是利用第一训练集对预设的初始图像特征提取模型进行训练而获得的,所述第一训练集包括多个完成尺寸调整、格式转换、归一化的预处理的所述第一图像;
对所述页面源代码进行分词处理,获得对应的若干个代码分词,并对所有所述代码分词进行编码和转换,获得一个源代码矩阵,并将所述源代码矩阵输入预设的代码特征提取模型,输出所述源代码特征。
进一步地,所述采用特征工程,对所述落地URL进行特征提取,输出所述URL特征,其中,所述URL特征包括域名特征、所述落地URL的直观特征、3-gram特征和词向量特征,具体为:
采用特征工程,提取所述落地URL对应的所述域名特征和所述直观特征;
对所述落地URL进行3-gram处理,计算3-gram元组在所述落地URL中的平均得分,作为所述3-gram特征;
对所述落地URL进行分词处理,得到若干个文本分词,并利用预设的词向量模型判断每一个所述文本分词是否包含词向量,若有则输出当前所述词向量,若没有则输出零向量,并将所述词向量模型的所有输出作为所述词向量特征。
进一步地,所述对所述页面源代码进行分词处理,得到对应的若干个代码分词,并对所有所述代码分词进行编码和转换,得到一个源代码矩阵,并将所述源代码矩阵输入预设的代码特征提取模型,输出所述源代码特征,具体为:
对所述页面源代码进行分词处理,得到对应的若干个代码分词,并对所有所述代码分词进行编码,获得一个分词集合;
通过预设的词嵌入模型,对所述分词集合进行转换,获得对应的所述源代码矩阵;
将所述源代码矩阵输入预设的TextCNN网络模型,输出所述源代码特征。
进一步地,所述将所述特征向量输入至预设的检测模型中,输出所述电子邮件的钓鱼邮件检测结果,具体为:
将预存的第二训练集输入预设的初始检测模型中,对所述初始检测模型进行训练,得到所述检测模型;其中,所述第二训练集包括多个正常电子邮件、多个所述正常电子邮件对应的所述特征向量、多个钓鱼邮件和多个所述钓鱼邮件对应的所述特征向量;
将所述特征向量输入至所述检测模型中,输出所述电子邮件的钓鱼邮件检测结果。
进一步地,所述当检测到电子邮件中含有URL链接时,将所述URL链接传输至爬虫系统,并接收所述爬虫系统反馈的落地URL、网页截图和页面源代码,具体为:
当检测到电子邮件中含有URL链接时,将所述URL链接传输至爬虫系统;
对所述URL链接进行模拟访问,当访问成功时,则跳转得到对应的落地页面,然后将所述落地页面对应的URL作为所述落地URL,并对所述落地页面进行截图,得到第二图像,对所述第二图像进行编码,得到所述网页截图,并提取所述落地页面的源代码,作为所述页面源代码;
当访问失败时,则将所述URL链接作为所述落地URL,并将预设的第一空字符串作为所述网页截图,将预设的第二空字符串作为所述页面源代码。
为了解决相同的技术问题,本发明还提供了一种基于特征提取的钓鱼邮件检测系统,包括:
信息获取模块,用于当检测到电子邮件中含有URL链接时,将所述URL链接传输至爬虫系统,并接收所述爬虫系统反馈的落地URL、网页截图和页面源代码;
特征提取模块,用于根据预设的特征提取算法,分别对所述落地URL、所述网页截图和所述页面源代码进行特征提取,获得URL特征、页面图像特征和源代码特征;
提取汇总模块,用于提取所述电子邮件的邮件内容特征,并结合所述URL特征、所述页面图像特征和所述源代码特征,生成所述电子邮件对应的一个特征向量;
结果输出模块,用于将所述特征向量输入至预设的检测模型中,输出所述电子邮件的钓鱼邮件检测结果。
进一步地,所述特征提取模块,还包括:
第一特征提取单元,用于采用特征工程,对所述落地URL进行特征提取,输出所述URL特征;其中,所述URL特征包括域名特征、所述落地URL的直观特征、3-gram特征和词向量特征;所述3-gram特征是通过对所述落地URL进行3-gram处理,计算3-gram元组在所述落地URL中的平均得分,作为所述3-gram特征而获得的;所述词向量特征是通过对所述落地URL进行分词处理,得到若干个文本分词,并利用预设的词向量模型判断每一个所述文本分词是否包含词向量,若有则输出当前所述词向量,若没有则输出零向量,并将所述词向量模型的所有输出作为所述词向量特征而获得的;
第二特征提取单元,用于对所述网页截图进行解码,获得对应的第一图像,并对所述第一图像进行尺寸调整、格式转换、归一化的预处理,然后输入至预设的图像特征提取模型,输出所述页面图像特征;其中,所述图像特征提取模型是利用第二训练集对预设的初始图像特征提取模型进行训练而获得的,所述第二训练集包括多个完成尺寸调整、格式转换、归一化的预处理的所述第一图像;
第三特征提取单元,用于对所述页面源代码进行分词处理,获得对应的若干个代码分词,并对所有所述代码分词进行编码,获得一个分词集合,然后通过预设的词嵌入模型,对所述分词集合进行转换,获得对应的所述源代码矩阵,并将所述源代码矩阵输入预设的TextCNN网络模型,输出所述源代码特征。
进一步地,所述结果输出模块,还包括:
模型训练单元,用于将预存的第一训练集输入预设的初始检测模型中,对所述初始检测模型进行训练,得到所述检测模型;其中,所述第一训练集包括多个正常电子邮件、多个所述正常电子邮件对应的所述特征向量、多个钓鱼邮件和多个所述钓鱼邮件对应的所述特征向量;
结果输出单元,用于将所述特征向量输入至所述检测模型中,输出所述电子邮件的钓鱼邮件检测结果。
进一步地,所述信息获取模块,还包括:
信息传输单元,用于当检测到电子邮件中含有URL链接时,将所述URL链接传输至爬虫系统;
第一信息获取单元,用于对所述URL链接进行模拟访问,当访问成功时,则跳转得到对应的落地页面,然后将所述落地页面对应的URL作为所述落地URL,并对所述落地页面进行截图,得到第二图像,对所述第二图像进行编码,得到所述网页截图,并提取所述落地页面的源代码,作为所述页面源代码;
第二信息获取单元,用于当访问失败时,则将所述URL链接作为所述落地URL,并将预设的第一空字符串作为所述网页截图,将预设的第二空字符串作为所述页面源代码。
相比于现有技术,本发明实施例具有如下有益效果:
本发明提供了一种基于特征提取的钓鱼邮件检测方法及系统,通过对电子邮件中检测得到的URL链接和电子邮件的内容进行多方面的特征提取,包括落地URL中的URL特征、页面图像特征、源代码特征和邮件内容特征,丰富提取特征的类型,降低误判和漏判风险;然后根据URL特征、页面图像特征、源代码特征和邮件内容特征构成的特征向量,判断该特征向量对应的电子邮件是否为钓鱼邮件,结合多类型的特征输出钓鱼邮件检测结果,提高检测的准确性。
进一步地,本发明通过特征工程提取落地URL中的URL特征,并未涉及网络通信的特征,因此能够在离线环境下完成对落地URL的特征提取。此外,本发明还对落地URL的文本分词进行是否包含词向量的判断,以区分具有规范名称的域名和随机生成的域名,提升钓鱼邮件检测结果的准确性。同时,利用预存的训练集分别对初始图像特征提取模型和初始检测模型进行预训练,以增强模型的性能。
附图说明
图1:为本发明提供的一种基于特征提取的钓鱼邮件检测方法的一种实施例的流程示意图;
图2:为本发明提供的一种基于特征提取的钓鱼邮件检测方法的另一种实施例的流程示意图;
图3:为本发明提供的一种基于特征提取的钓鱼邮件检测系统的结构示意图;
图4:为本发明提供的一种基于特征提取的钓鱼邮件检测系统的特征提取模块的结构示意图;
图5:为本发明提供的一种基于特征提取的钓鱼邮件检测系统的结果输出模块的结构示意图;
图6:为本发明提供的一种基于特征提取的钓鱼邮件检测系统的信息获取模块的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
请参照图1,为本发明实施例提供的一种基于特征提取的钓鱼邮件检测方法,该方法包括步骤S1至步骤S4,各步骤具体如下:
步骤S1:当检测到电子邮件中含有URL链接时,将URL链接传输至爬虫系统,并接收爬虫系统反馈的落地URL、网页截图和页面源代码。
进一步地,步骤S1具体包括步骤S11至步骤S13,各步骤具体如下:
步骤S11:当检测到电子邮件中含有URL链接时,将URL链接传输至爬虫系统。
在本实施例中,利用邮件系统的正则表达式判断电子邮件中是否包含有URL链接,检测范围包括电子邮件的正文内容和二维码图片附件。其中,对于正文内容,直接使用正则表达式进行URL链接匹配即可;对于二维码图片附件,则是调用二维码解析库对二维码图片进行二维码解析,在解析结果包含的字符串中使用同一正则表达式匹配URL链接。
步骤S12:对URL链接进行模拟访问,当访问成功时,则跳转得到对应的落地页面,然后将落地页面对应的URL作为落地URL,并对落地页面进行截图,得到第二图像,对第二图像进行编码,得到网页截图,并提取落地页面的源代码,作为页面源代码。
在本实施例中,当URL链接传输至爬虫系统时,将接收到的URL链接记录为传入URL,并通过网络爬虫的方式模拟浏览器访问传入URL。若访问成功,则经过一定的跳转后得到对应的URL落地页面,将此时的URL落地页面实际显示的URL作为落地URL,并对URL落地页面进行截图,得到第二图像,并通过base64将第二图像编码为字符串,以作为网页截图,提取落地页面的源代码作为页面源代码。
步骤S13:当访问失败时,则将URL链接作为落地URL,并将预设的第一空字符串作为网页截图,将预设的第二空字符串作为页面源代码。
在本实施例中,若访问失败,则将URL链接作为落地URL,而返回空字符串作为网页截图和页面源代码。
步骤S2:根据预设的特征提取算法,分别对落地URL、网页截图和页面源代码进行特征提取,获得URL特征、页面图像特征和源代码特征。
进一步地,步骤S2具体包括步骤S21至步骤S23,各步骤具体如下:
步骤S21:采用特征工程,对落地URL进行特征提取,输出URL特征;其中,URL特征包括域名特征、落地URL的直观特征、3-gram特征和词向量特征。
进一步地,步骤S21具体包括步骤S211至步骤S213,各步骤具体如下:
步骤S211:采用特征工程,提取落地URL对应的域名特征和直观特征。
在本实施例中,通过特征工程提取的落地URL对应的域名特征和直观特征,包括但不限于以下内容:
域名是否包含IP地址;
落地URL包含“@”符号;
落地URL进行过重定向;
传入URL是否使用了短网址;
落地URL的长度;
落地URL的深度;
落地URL的path部分命中钓鱼词汇表的个数;
落地URL包含唯一字符、特殊字符、数字字符的数目;
域名部分元音字母数量、辅音字母数量、元音字母之间最大间隔长度;
域名部分的长度;
域名部分的FQDN个数和最长的FQDN元素的长度;
域名、落地URL字符的信息熵。
在本实施例中,利用特征工程完成特征提取工作,摆脱了对网络查询的依赖,不会受到whois查询不稳定以及多次DNS查询结果不一致等因素的干扰,进而能在离线环境下完成全部特征提取工作。
步骤S212:对落地URL进行3-gram处理,计算3-gram元组在落地URL中的平均得分,作为3-gram特征。
在本实施例中,请参照图2,利用出现频次达到下线阈值的元组(Ngram x),统计元组在正常URL样本和钓鱼URL样本中出现的概率,利用对数运算的性质使得在正常URL出现概率较高的元组能够得到一个正值得分,而反之得到一个负值得分将该得分作为3-gram特征。
步骤S213:对落地URL进行分词处理,得到若干个文本分词,并利用预设的词向量模型判断每一个文本分词是否包含词向量,若有则输出当前词向量,若没有则输出零向量,并将词向量模型的所有输出作为词向量特征。
在本实施例中,对落地URL进行分词处理,分词的标准为标准的英文标点符号,从而得到若干个token(文本分词),然后采用开源的Twitter预训练glove模型作为词向量模型,判断每一个文本分词是否包含词向量,若有则输出当前词向量,若没有则输出零向量,并将模型的所有输出作为词向量特征。举例来说,常见的google、cat等token具有词向量,而sahdhoasd这类随机生成的token不具有词向量。
步骤S22:对网页截图进行解码,获得对应的第一图像,并对第一图像进行尺寸调整、格式转换、归一化的预处理,然后输入至预设的图像特征提取模型,输出页面图像特征;其中,图像特征提取模型是利用第一训练集对预设的初始图像特征提取模型进行训练而获得的,第一训练集包括多个完成尺寸调整、格式转换、归一化的预处理的第一图像。
在本实施例中,利用imagenet数据集作为第一训练集对预设的VGG16网络进行训练,然后通过base64对网页截图进行解码,获得对应的第一图像,并对第一图像进行尺寸调整、RGB/BGR格式转换、归一化的预处理,然后将经过预处理的第一图像输入完成训练的VGG16网络,并在完成训练的VGG16网络的卷积层输出页面图像特征,无需使用全连接层。
步骤S23:对页面源代码进行分词处理,获得对应的若干个代码分词,并对所有代码分词进行编码和转换,获得一个源代码矩阵,并将源代码矩阵输入预设的代码特征提取模型,输出源代码特征。
在本实施例中,对于源代码特征的提取,仅将页面源代码视为文本,不考虑对页面的JS代码、PHP代码等元素进行解析,则实际应用中不需要利用Java虚拟机等模块进行JS/PHP抽象语法树提取工作,达到了一定程度上的轻量化。
进一步地,步骤S23具体包括步骤S231至步骤S233,各步骤具体如下:
步骤S231:对页面源代码进行分词处理,得到对应的若干个代码分词,并对所有代码分词进行编码,获得一个分词集合。
在本实施例中,使用分词器对页面源代码进行分词,其中,参照表达式“!#¥%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n”对页面源代码文本进行切割得到若干个代码分词,然后使用Hash Trick的方式将每个代码分词都编码为一个整型数字,所有整型数字组合得到一个分词集合。
步骤S232:通过预设的词嵌入模型,对分词集合进行转换,获得对应的源代码矩阵。
在本实施例中,利用深度学习框架Keras训练Embedding模型作为词嵌入模型,将分词集合变为源代码矩阵,其中,源代码矩阵的大小为指定序列最大长度x Embedding维度。
步骤S233:将源代码矩阵输入预设的TextCNN网络模型,输出源代码特征。
在本实施例中,使用去除全连接层的TextCNN网络提取源代码矩阵中的源代码特征。
步骤S3:提取电子邮件的邮件内容特征,并结合URL特征、页面图像特征和源代码特征,生成电子邮件对应的一个特征向量。
在本实施例中,将电子邮件的正文内容输入经过微调(fine-tuning)的中文预训练BERT模型,并输出邮件内容特征。其中,对中文预训练BERT模型的内部参数进行微调使得预训练模型能够更加适应实际业务的需要。
在本实施例中,将URL特征、页面图像特征、源代码特征和邮件内容特征按照指定顺序拼接为一个特征向量。
步骤S4:将特征向量输入至预设的检测模型中,输出电子邮件的钓鱼邮件检测结果。
进一步地,步骤S4具体为:
步骤S41:将预存的第二训练集输入预设的初始检测模型中,对初始检测模型进行训练,得到检测模型;其中,第二训练集包括多个正常电子邮件、多个正常电子邮件对应的特征向量、多个钓鱼邮件和多个钓鱼邮件对应的特征向量。
在本实施例中,使用LightGBM算法构成初始检测模型,并利用大量样本数据对初始检测模型进行训练,验证和提升模型的检测能力。
其中,LightGBM算法作为决策树类算法中训练速度快、分类准确率较高的一种算法,有较强的抗噪能力,能够处理URL爬虫访问失败的场景。
步骤S42:将特征向量输入至检测模型中,输出电子邮件的钓鱼邮件检测结果。
实施例二:
请参照图3,为了解决相同的技术问题,本发明还提供了一种基于特征提取的钓鱼邮件检测系统,包括:
信息获取模块1,用于当检测到电子邮件中含有URL链接时,将URL链接传输至爬虫系统,并接收爬虫系统反馈的落地URL、网页截图和页面源代码;
特征提取模块2,用于根据预设的特征提取算法,分别对落地URL、网页截图和页面源代码进行特征提取,获得URL特征、页面图像特征和源代码特征;
提取汇总模块3,用于提取电子邮件的邮件内容特征,并结合URL特征、页面图像特征和源代码特征,生成电子邮件对应的一个特征向量;
结果输出模块4,用于将特征向量输入至预设的检测模型中,输出电子邮件的钓鱼邮件检测结果。
进一步地,请参照图4,特征提取模块2,还包括:
第一特征提取单元,用于采用特征工程,对落地URL进行特征提取,输出URL特征;其中,URL特征包括域名特征、落地URL的直观特征、3-gram特征和词向量特征;3-gram特征是通过对落地URL进行3-gram处理,计算3-gram元组在落地URL中的平均得分,作为3-gram特征而获得的;词向量特征是通过对落地URL进行分词处理,得到若干个文本分词,并利用预设的词向量模型判断每一个文本分词是否包含词向量,若有则输出当前词向量,若没有则输出零向量,并将词向量模型的所有输出作为词向量特征而获得的;
第二特征提取单元,用于对网页截图进行解码,获得对应的第一图像,并对第一图像进行尺寸调整、格式转换、归一化的预处理,然后输入至预设的图像特征提取模型,输出页面图像特征;其中,图像特征提取模型是利用第二训练集对预设的初始图像特征提取模型进行训练而获得的,第二训练集包括多个完成尺寸调整、格式转换、归一化的预处理的第一图像;
第三特征提取单元,用于对页面源代码进行分词处理,获得对应的若干个代码分词,并对所有代码分词进行编码,获得一个分词集合,然后通过预设的词嵌入模型,对分词集合进行转换,获得对应的源代码矩阵,并将源代码矩阵输入预设的TextCNN网络模型,输出源代码特征。
进一步地,请参照图5,结果输出模块4,还包括:
模型训练单元,用于将预存的第一训练集输入预设的初始检测模型中,对初始检测模型进行训练,得到检测模型;其中,第一训练集包括多个正常电子邮件、多个正常电子邮件对应的特征向量、多个钓鱼邮件和多个钓鱼邮件对应的特征向量;
结果输出单元,用于将特征向量输入至检测模型中,输出电子邮件的钓鱼邮件检测结果。
进一步地,请参照图6,信息获取模块1,还包括:
信息传输单元,用于当检测到电子邮件中含有URL链接时,将URL链接传输至爬虫系统;
第一信息获取单元,用于对URL链接进行模拟访问,当访问成功时,则跳转得到对应的落地页面,然后将落地页面对应的URL作为落地URL,并对落地页面进行截图,得到第二图像,对第二图像进行编码,得到网页截图,并提取落地页面的源代码,作为页面源代码;
第二信息获取单元,用于当访问失败时,则将URL链接作为落地URL,并将预设的第一空字符串作为网页截图,将预设的第二空字符串作为页面源代码。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
相比于现有技术,本发明实施例具有如下有益效果:
本发明提供了一种基于特征提取的钓鱼邮件检测方法及系统,通过对电子邮件中检测得到的URL链接和电子邮件的内容进行多方面的特征提取,包括落地URL中的URL特征、页面图像特征、源代码特征和邮件内容特征,丰富提取特征的类型,降低误判和漏判风险;然后根据URL特征、页面图像特征、源代码特征和邮件内容特征构成的特征向量,判断该特征向量对应的电子邮件是否为钓鱼邮件,结合多类型的特征输出钓鱼邮件检测结果,提高检测的准确性。
进一步地,本发明通过特征工程提取落地URL中的URL特征,并未涉及网络通信的特征,因此能够在离线环境下完成对落地URL的特征提取。此外,本发明还对落地URL的文本分词进行是否包含词向量的判断,以区分具有规范名称的域名和随机生成的域名,提升钓鱼邮件检测结果的准确性。同时,利用预存的训练集分别对初始图像特征提取模型和初始检测模型进行预训练,以增强模型的性能。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于特征提取的钓鱼邮件检测方法,其特征在于,包括:
当检测到电子邮件中含有URL链接时,将所述URL链接传输至爬虫系统,并接收所述爬虫系统反馈的落地URL、网页截图和页面源代码;
根据预设的特征提取算法,分别对所述落地URL、所述网页截图和所述页面源代码进行特征提取,获得URL特征、页面图像特征和源代码特征;
提取所述电子邮件的邮件内容特征,并结合所述URL特征、所述页面图像特征和所述源代码特征,生成所述电子邮件对应的一个特征向量;
将所述特征向量输入至预设的检测模型中,输出所述电子邮件的钓鱼邮件检测结果。
2.如权利要求1所述的一种基于特征提取的钓鱼邮件检测方法,其特征在于,所述根据预设的特征提取算法,分别对所述落地URL、所述网页截图和所述页面源代码进行特征提取,获得URL特征、页面图像特征和源代码特征,具体为:
采用特征工程,对所述落地URL进行特征提取,输出所述URL特征;其中,所述URL特征包括域名特征、所述落地URL的直观特征、3-gram特征和词向量特征;
对所述网页截图进行解码,获得对应的第一图像,并对所述第一图像进行尺寸调整、格式转换、归一化的预处理,然后输入至预设的图像特征提取模型,输出所述页面图像特征;其中,所述图像特征提取模型是利用第一训练集对预设的初始图像特征提取模型进行训练而获得的,所述第一训练集包括多个完成尺寸调整、格式转换、归一化的预处理的所述第一图像;
对所述页面源代码进行分词处理,获得对应的若干个代码分词,并对所有所述代码分词进行编码和转换,获得一个源代码矩阵,并将所述源代码矩阵输入预设的代码特征提取模型,输出所述源代码特征。
3.如权利要求2所述的一种基于特征提取的钓鱼邮件检测方法,其特征在于,所述采用特征工程,对所述落地URL进行特征提取,输出所述URL特征,其中,所述URL特征包括域名特征、所述落地URL的直观特征、3-gram特征和词向量特征,具体为:
采用特征工程,提取所述落地URL对应的所述域名特征和所述直观特征;
对所述落地URL进行3-gram处理,计算3-gram元组在所述落地URL中的平均得分,作为所述3-gram特征;
对所述落地URL进行分词处理,得到若干个文本分词,并利用预设的词向量模型判断每一个所述文本分词是否包含词向量,若有则输出当前所述词向量,若没有则输出零向量,并将所述词向量模型的所有输出作为所述词向量特征。
4.如权利要求2所述的一种基于特征提取的钓鱼邮件检测方法,其特征在于,所述对所述页面源代码进行分词处理,得到对应的若干个代码分词,并对所有所述代码分词进行编码和转换,得到一个源代码矩阵,并将所述源代码矩阵输入预设的代码特征提取模型,输出所述源代码特征,具体为:
对所述页面源代码进行分词处理,得到对应的若干个代码分词,并对所有所述代码分词进行编码,获得一个分词集合;
通过预设的词嵌入模型,对所述分词集合进行转换,获得对应的所述源代码矩阵;
将所述源代码矩阵输入预设的TextCNN网络模型,输出所述源代码特征。
5.如权利要求1所述的一种基于特征提取的钓鱼邮件检测方法,其特征在于,所述将所述特征向量输入至预设的检测模型中,输出所述电子邮件的钓鱼邮件检测结果,具体为:
将预存的第二训练集输入预设的初始检测模型中,对所述初始检测模型进行训练,得到所述检测模型;其中,所述第二训练集包括多个正常电子邮件、多个所述正常电子邮件对应的所述特征向量、多个钓鱼邮件和多个所述钓鱼邮件对应的所述特征向量;
将所述特征向量输入至所述检测模型中,输出所述电子邮件的钓鱼邮件检测结果。
6.如权利要求1所述的一种基于特征提取的钓鱼邮件检测方法,其特征在于,所述当检测到电子邮件中含有URL链接时,将所述URL链接传输至爬虫系统,并接收所述爬虫系统反馈的落地URL、网页截图和页面源代码,具体为:
当检测到电子邮件中含有URL链接时,将所述URL链接传输至爬虫系统;
对所述URL链接进行模拟访问,当访问成功时,则跳转得到对应的落地页面,然后将所述落地页面对应的URL作为所述落地URL,并对所述落地页面进行截图,得到第二图像,对所述第二图像进行编码,得到所述网页截图,并提取所述落地页面的源代码,作为所述页面源代码;
当访问失败时,则将所述URL链接作为所述落地URL,并将预设的第一空字符串作为所述网页截图,将预设的第二空字符串作为所述页面源代码。
7.一种基于特征提取的钓鱼邮件检测系统,其特征在于,包括:
信息获取模块,用于当检测到电子邮件中含有URL链接时,将所述URL链接传输至爬虫系统,并接收所述爬虫系统反馈的落地URL、网页截图和页面源代码;
特征提取模块,用于根据预设的特征提取算法,分别对所述落地URL、所述网页截图和所述页面源代码进行特征提取,获得URL特征、页面图像特征和源代码特征;
提取汇总模块,用于提取所述电子邮件的邮件内容特征,并结合所述URL特征、所述页面图像特征和所述源代码特征,生成所述电子邮件对应的一个特征向量;
结果输出模块,用于将所述特征向量输入至预设的检测模型中,输出所述电子邮件的钓鱼邮件检测结果。
8.如权利要求7所述的一种基于特征提取的钓鱼邮件检测系统,其特征在于,所述特征提取模块,还包括:
第一特征提取单元,用于采用特征工程,对所述落地URL进行特征提取,输出所述URL特征;其中,所述URL特征包括域名特征、所述落地URL的直观特征、3-gram特征和词向量特征;所述3-gram特征是通过对所述落地URL进行3-gram处理,计算3-gram元组在所述落地URL中的平均得分,作为所述3-gram特征而获得的;所述词向量特征是通过对所述落地URL进行分词处理,得到若干个文本分词,并利用预设的词向量模型判断每一个所述文本分词是否包含词向量,若有则输出当前所述词向量,若没有则输出零向量,并将所述词向量模型的所有输出作为所述词向量特征而获得的;
第二特征提取单元,用于对所述网页截图进行解码,获得对应的第一图像,并对所述第一图像进行尺寸调整、格式转换、归一化的预处理,然后输入至预设的图像特征提取模型,输出所述页面图像特征;其中,所述图像特征提取模型是利用第二训练集对预设的初始图像特征提取模型进行训练而获得的,所述第二训练集包括多个完成尺寸调整、格式转换、归一化的预处理的所述第一图像;
第三特征提取单元,用于对所述页面源代码进行分词处理,获得对应的若干个代码分词,并对所有所述代码分词进行编码,获得一个分词集合,然后通过预设的词嵌入模型,对所述分词集合进行转换,获得对应的所述源代码矩阵,并将所述源代码矩阵输入预设的TextCNN网络模型,输出所述源代码特征。
9.如权利要求7所述的一种基于特征提取的钓鱼邮件检测系统,其特征在于,所述结果输出模块,还包括:
模型训练单元,用于将预存的第一训练集输入预设的初始检测模型中,对所述初始检测模型进行训练,得到所述检测模型;其中,所述第一训练集包括多个正常电子邮件、多个所述正常电子邮件对应的所述特征向量、多个钓鱼邮件和多个所述钓鱼邮件对应的所述特征向量;
结果输出单元,用于将所述特征向量输入至所述检测模型中,输出所述电子邮件的钓鱼邮件检测结果。
10.如权利要求7所述的一种基于特征提取的钓鱼邮件检测系统,其特征在于,所述信息获取模块,还包括:
信息传输单元,用于当检测到电子邮件中含有URL链接时,将所述URL链接传输至爬虫系统;
第一信息获取单元,用于对所述URL链接进行模拟访问,当访问成功时,则跳转得到对应的落地页面,然后将所述落地页面对应的URL作为所述落地URL,并对所述落地页面进行截图,得到第二图像,对所述第二图像进行编码,得到所述网页截图,并提取所述落地页面的源代码,作为所述页面源代码;
第二信息获取单元,用于当访问失败时,则将所述URL链接作为所述落地URL,并将预设的第一空字符串作为所述网页截图,将预设的第二空字符串作为所述页面源代码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210046781.2A CN114465780A (zh) | 2022-01-14 | 2022-01-14 | 一种基于特征提取的钓鱼邮件检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210046781.2A CN114465780A (zh) | 2022-01-14 | 2022-01-14 | 一种基于特征提取的钓鱼邮件检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114465780A true CN114465780A (zh) | 2022-05-10 |
Family
ID=81409443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210046781.2A Pending CN114465780A (zh) | 2022-01-14 | 2022-01-14 | 一种基于特征提取的钓鱼邮件检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114465780A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114900492A (zh) * | 2022-07-15 | 2022-08-12 | 北京六方云信息技术有限公司 | 异常邮件检测方法、装置、系统与计算机可读存储介质 |
CN115396184A (zh) * | 2022-08-23 | 2022-11-25 | 北京时代亿信科技股份有限公司 | 邮件的检测方法及装置、非易失性存储介质 |
CN115424278A (zh) * | 2022-08-12 | 2022-12-02 | 中国电信股份有限公司 | 邮件检测方法及装置、电子设备 |
CN116389158A (zh) * | 2023-05-09 | 2023-07-04 | 北京灵云数科信息技术有限公司 | 一种基于隔离技术实现账密钓鱼防护的方法 |
CN116846668A (zh) * | 2023-07-28 | 2023-10-03 | 北京中睿天下信息技术有限公司 | 一种有害url检测方法、系统、设备及存储介质 |
CN117201208A (zh) * | 2023-11-08 | 2023-12-08 | 新华三网络信息安全软件有限公司 | 恶意邮件识别方法、装置、电子设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101145902A (zh) * | 2007-08-17 | 2008-03-19 | 东南大学 | 基于图像处理的钓鱼网页检测方法 |
CN106453351A (zh) * | 2016-10-31 | 2017-02-22 | 重庆邮电大学 | 基于Web页面特征的金融类钓鱼网页检测方法 |
US20190104154A1 (en) * | 2017-10-01 | 2019-04-04 | Fireeye, Inc. | Phishing attack detection |
CN111107048A (zh) * | 2018-10-29 | 2020-05-05 | 中移(苏州)软件技术有限公司 | 一种钓鱼网站检测方法、装置和存储介质 |
CN111181922A (zh) * | 2019-12-06 | 2020-05-19 | 北京中睿天下信息技术有限公司 | 一种钓鱼链接检测方法及系统 |
US20210203692A1 (en) * | 2019-12-27 | 2021-07-01 | Paypal, Inc. | Phishing detection using uniform resource locators |
CN113098887A (zh) * | 2021-04-14 | 2021-07-09 | 西安工业大学 | 一种基于网站联合特征的钓鱼网站检测方法 |
-
2022
- 2022-01-14 CN CN202210046781.2A patent/CN114465780A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101145902A (zh) * | 2007-08-17 | 2008-03-19 | 东南大学 | 基于图像处理的钓鱼网页检测方法 |
CN106453351A (zh) * | 2016-10-31 | 2017-02-22 | 重庆邮电大学 | 基于Web页面特征的金融类钓鱼网页检测方法 |
US20190104154A1 (en) * | 2017-10-01 | 2019-04-04 | Fireeye, Inc. | Phishing attack detection |
CN111107048A (zh) * | 2018-10-29 | 2020-05-05 | 中移(苏州)软件技术有限公司 | 一种钓鱼网站检测方法、装置和存储介质 |
CN111181922A (zh) * | 2019-12-06 | 2020-05-19 | 北京中睿天下信息技术有限公司 | 一种钓鱼链接检测方法及系统 |
US20210203692A1 (en) * | 2019-12-27 | 2021-07-01 | Paypal, Inc. | Phishing detection using uniform resource locators |
CN113098887A (zh) * | 2021-04-14 | 2021-07-09 | 西安工业大学 | 一种基于网站联合特征的钓鱼网站检测方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114900492A (zh) * | 2022-07-15 | 2022-08-12 | 北京六方云信息技术有限公司 | 异常邮件检测方法、装置、系统与计算机可读存储介质 |
CN114900492B (zh) * | 2022-07-15 | 2022-10-18 | 北京六方云信息技术有限公司 | 异常邮件检测方法、装置、系统与计算机可读存储介质 |
CN115424278A (zh) * | 2022-08-12 | 2022-12-02 | 中国电信股份有限公司 | 邮件检测方法及装置、电子设备 |
CN115424278B (zh) * | 2022-08-12 | 2024-05-03 | 中国电信股份有限公司 | 邮件检测方法及装置、电子设备 |
CN115396184A (zh) * | 2022-08-23 | 2022-11-25 | 北京时代亿信科技股份有限公司 | 邮件的检测方法及装置、非易失性存储介质 |
CN116389158A (zh) * | 2023-05-09 | 2023-07-04 | 北京灵云数科信息技术有限公司 | 一种基于隔离技术实现账密钓鱼防护的方法 |
CN116846668A (zh) * | 2023-07-28 | 2023-10-03 | 北京中睿天下信息技术有限公司 | 一种有害url检测方法、系统、设备及存储介质 |
CN117201208A (zh) * | 2023-11-08 | 2023-12-08 | 新华三网络信息安全软件有限公司 | 恶意邮件识别方法、装置、电子设备和存储介质 |
CN117201208B (zh) * | 2023-11-08 | 2024-02-23 | 新华三网络信息安全软件有限公司 | 恶意邮件识别方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114465780A (zh) | 一种基于特征提取的钓鱼邮件检测方法及系统 | |
Opara et al. | HTMLPhish: Enabling phishing web page detection by applying deep learning techniques on HTML analysis | |
CN109005145B (zh) | 一种基于自动特征抽取的恶意url检测系统及其方法 | |
CN103336766B (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN112468501B (zh) | 一种面向url的钓鱼网站检测方法 | |
CN110191096B (zh) | 一种基于语义分析的词向量网页入侵检测方法 | |
CN111538929B (zh) | 网络链接识别方法、装置、存储介质及电子设备 | |
CN112541476B (zh) | 一种基于语义特征提取的恶意网页识别方法 | |
CN106383862B (zh) | 一种违规短信检测方法及系统 | |
CN109800304A (zh) | 案件笔录的处理方法、装置、设备及介质 | |
CN107463844B (zh) | Web木马检测方法及系统 | |
WO2017173093A1 (en) | Method and device for identifying spam mail | |
CN107341399A (zh) | 评估代码文件安全性的方法及装置 | |
CN107273465A (zh) | Sql注入检测方法 | |
CN111866004A (zh) | 安全评估方法、装置、计算机系统和介质 | |
CN112948725A (zh) | 基于机器学习的钓鱼网站url检测方法及系统 | |
CN115757991A (zh) | 一种网页识别方法、装置、电子设备和存储介质 | |
CN114422271B (zh) | 数据处理方法、装置、设备及可读存储介质 | |
CN113177409B (zh) | 一种智能敏感字词识别系统 | |
CN114448664A (zh) | 钓鱼网页的识别方法、装置、计算机设备及存储介质 | |
CN118013518A (zh) | 网站类别的识别方法及装置、设备、存储介质 | |
CN117614644A (zh) | 恶意网址识别方法、电子设备及存储介质 | |
KR102483004B1 (ko) | 유해 url 탐지 방법 | |
CN116702143A (zh) | 基于api特征的恶意软件智能检测方法 | |
CN114169432B (zh) | 一种基于深度学习的跨站脚本攻击识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |