CN114465780A

CN114465780A - 一种基于特征提取的钓鱼邮件检测方法及系统

Info

Publication number: CN114465780A
Application number: CN202210046781.2A
Authority: CN
Inventors: 林延中; 左自清
Original assignee: Guangdong Yingshi Computer Technology Co ltd
Current assignee: Guangdong Yingshi Computer Technology Co ltd
Priority date: 2022-01-14
Filing date: 2022-01-14
Publication date: 2022-05-10

Abstract

本发明公开了一种基于特征提取的钓鱼邮件检测方法及系统，包括：当检测到电子邮件中含有URL链接时，将URL链接传输至爬虫系统，并接收爬虫系统反馈的落地URL、网页截图和页面源代码；根据预设的特征提取算法，分别对落地URL、网页截图和页面源代码进行特征提取，获得URL特征、页面图像特征和源代码特征；提取电子邮件的邮件内容特征，并结合URL特征、页面图像特征和源代码特征，生成电子邮件对应的一个特征向量；将特征向量输入至预设的检测模型中，输出电子邮件的钓鱼邮件检测结果。本发明通过对URL链接和电子邮件内容进行多方面的特征提取，得到多类型的特征，并结合多类型特征输出钓鱼邮件检测结果，提高检测的准确性。

Description

一种基于特征提取的钓鱼邮件检测方法及系统

技术领域

本发明涉及网络安全领域，尤其涉及一种基于特征提取的钓鱼邮件检测方法及系统。

背景技术

电子邮件是现代社会最常用的通讯方式之一，也是全球范围受到认可的电子取证材料。电子邮件服务具有必要性、广泛性等特性，往往被黑产组织视作常规攻击目标。特别是近年来，电子邮件往往被作为APT等新型攻击手段的第一站，以电子邮件为载体的诈骗行为同样层出不穷。在手法较为高明的钓鱼邮件中，有很大一部分的邮件都包含了钓鱼网站的URL链接，或者是被挂载了木马、后门的正常网站的URL链接。

然而，对于如何识别一个网站是否是钓鱼网站，学术界已经有较多的研究，主要分为三种类型：基于URL链接字符特征的检测、基于HTML页面的图像识别以及针对网页源代码进行的恶意网站检测。首先，基于URL链接字符特征的检测这一类型的方法，虽然不需要实际访问URL，并且较好地保护部署检测程序的机器，但是涉及到网络通信的特征，如AlexaRank、DNS查询返回response个数、域名whois查询结果等，一旦处于离线环境，则无法完成特征提取工作；并且在特征工程阶段使用特征较少，没有利用更多层面信息。其次，现有的基于HTML页面的图像识别方法，为了得到较为出色的模型，通常需要较深的网络结构，会增加特征处理环节的用时，并且对于仿造门户网站、伪装成正牌网站的钓鱼网站，会因为其在视觉上同门户网站差别很小或者甚至没有差别而难以正确区分出此类钓鱼网站。最后，现有的针对网页源代码进行的恶意网站检测方法，对页面结构特征、JS代码特征和Web会话特征进行的分别处理，但是单个环节使用特征较少，且跟踪Web会话活动需要付出较大的成本，不容易实际部署。

发明内容

本发明提供了一种基于特征提取的钓鱼邮件检测方法及系统，降低误判和漏判风险，提高检测准确性。

为了解决上述技术问题，本发明实施例提供了一种基于特征提取的钓鱼邮件检测方法，包括：

当检测到电子邮件中含有URL链接时，将所述URL链接传输至爬虫系统，并接收所述爬虫系统反馈的落地URL、网页截图和页面源代码；

根据预设的特征提取算法，分别对所述落地URL、所述网页截图和所述页面源代码进行特征提取，获得URL特征、页面图像特征和源代码特征；

提取所述电子邮件的邮件内容特征，并结合所述URL特征、所述页面图像特征和所述源代码特征，生成所述电子邮件对应的一个特征向量；

将所述特征向量输入至预设的检测模型中，输出所述电子邮件的钓鱼邮件检测结果。

进一步地，所述根据预设的特征提取算法，分别对所述落地URL、所述网页截图和所述页面源代码进行特征提取，获得URL特征、页面图像特征和源代码特征，具体为：

采用特征工程，对所述落地URL进行特征提取，输出所述URL特征；其中，所述URL特征包括域名特征、所述落地URL的直观特征、3-gram特征和词向量特征；

对所述网页截图进行解码，获得对应的第一图像，并对所述第一图像进行尺寸调整、格式转换、归一化的预处理，然后输入至预设的图像特征提取模型，输出所述页面图像特征；其中，所述图像特征提取模型是利用第一训练集对预设的初始图像特征提取模型进行训练而获得的，所述第一训练集包括多个完成尺寸调整、格式转换、归一化的预处理的所述第一图像；

对所述页面源代码进行分词处理，获得对应的若干个代码分词，并对所有所述代码分词进行编码和转换，获得一个源代码矩阵，并将所述源代码矩阵输入预设的代码特征提取模型，输出所述源代码特征。

进一步地，所述采用特征工程，对所述落地URL进行特征提取，输出所述URL特征，其中，所述URL特征包括域名特征、所述落地URL的直观特征、3-gram特征和词向量特征，具体为：

采用特征工程，提取所述落地URL对应的所述域名特征和所述直观特征；

对所述落地URL进行3-gram处理，计算3-gram元组在所述落地URL中的平均得分，作为所述3-gram特征；

对所述落地URL进行分词处理，得到若干个文本分词，并利用预设的词向量模型判断每一个所述文本分词是否包含词向量，若有则输出当前所述词向量，若没有则输出零向量，并将所述词向量模型的所有输出作为所述词向量特征。

进一步地，所述对所述页面源代码进行分词处理，得到对应的若干个代码分词，并对所有所述代码分词进行编码和转换，得到一个源代码矩阵，并将所述源代码矩阵输入预设的代码特征提取模型，输出所述源代码特征，具体为：

对所述页面源代码进行分词处理，得到对应的若干个代码分词，并对所有所述代码分词进行编码，获得一个分词集合；

通过预设的词嵌入模型，对所述分词集合进行转换，获得对应的所述源代码矩阵；

将所述源代码矩阵输入预设的TextCNN网络模型，输出所述源代码特征。

进一步地，所述将所述特征向量输入至预设的检测模型中，输出所述电子邮件的钓鱼邮件检测结果，具体为：

将预存的第二训练集输入预设的初始检测模型中，对所述初始检测模型进行训练，得到所述检测模型；其中，所述第二训练集包括多个正常电子邮件、多个所述正常电子邮件对应的所述特征向量、多个钓鱼邮件和多个所述钓鱼邮件对应的所述特征向量；

将所述特征向量输入至所述检测模型中，输出所述电子邮件的钓鱼邮件检测结果。

进一步地，所述当检测到电子邮件中含有URL链接时，将所述URL链接传输至爬虫系统，并接收所述爬虫系统反馈的落地URL、网页截图和页面源代码，具体为：

当检测到电子邮件中含有URL链接时，将所述URL链接传输至爬虫系统；

对所述URL链接进行模拟访问，当访问成功时，则跳转得到对应的落地页面，然后将所述落地页面对应的URL作为所述落地URL，并对所述落地页面进行截图，得到第二图像，对所述第二图像进行编码，得到所述网页截图，并提取所述落地页面的源代码，作为所述页面源代码；

当访问失败时，则将所述URL链接作为所述落地URL，并将预设的第一空字符串作为所述网页截图，将预设的第二空字符串作为所述页面源代码。

为了解决相同的技术问题，本发明还提供了一种基于特征提取的钓鱼邮件检测系统，包括：

信息获取模块，用于当检测到电子邮件中含有URL链接时，将所述URL链接传输至爬虫系统，并接收所述爬虫系统反馈的落地URL、网页截图和页面源代码；

特征提取模块，用于根据预设的特征提取算法，分别对所述落地URL、所述网页截图和所述页面源代码进行特征提取，获得URL特征、页面图像特征和源代码特征；

提取汇总模块，用于提取所述电子邮件的邮件内容特征，并结合所述URL特征、所述页面图像特征和所述源代码特征，生成所述电子邮件对应的一个特征向量；

结果输出模块，用于将所述特征向量输入至预设的检测模型中，输出所述电子邮件的钓鱼邮件检测结果。

进一步地，所述特征提取模块，还包括：

第一特征提取单元，用于采用特征工程，对所述落地URL进行特征提取，输出所述URL特征；其中，所述URL特征包括域名特征、所述落地URL的直观特征、3-gram特征和词向量特征；所述3-gram特征是通过对所述落地URL进行3-gram处理，计算3-gram元组在所述落地URL中的平均得分，作为所述3-gram特征而获得的；所述词向量特征是通过对所述落地URL进行分词处理，得到若干个文本分词，并利用预设的词向量模型判断每一个所述文本分词是否包含词向量，若有则输出当前所述词向量，若没有则输出零向量，并将所述词向量模型的所有输出作为所述词向量特征而获得的；

第二特征提取单元，用于对所述网页截图进行解码，获得对应的第一图像，并对所述第一图像进行尺寸调整、格式转换、归一化的预处理，然后输入至预设的图像特征提取模型，输出所述页面图像特征；其中，所述图像特征提取模型是利用第二训练集对预设的初始图像特征提取模型进行训练而获得的，所述第二训练集包括多个完成尺寸调整、格式转换、归一化的预处理的所述第一图像；

第三特征提取单元，用于对所述页面源代码进行分词处理，获得对应的若干个代码分词，并对所有所述代码分词进行编码，获得一个分词集合，然后通过预设的词嵌入模型，对所述分词集合进行转换，获得对应的所述源代码矩阵，并将所述源代码矩阵输入预设的TextCNN网络模型，输出所述源代码特征。

进一步地，所述结果输出模块，还包括：

模型训练单元，用于将预存的第一训练集输入预设的初始检测模型中，对所述初始检测模型进行训练，得到所述检测模型；其中，所述第一训练集包括多个正常电子邮件、多个所述正常电子邮件对应的所述特征向量、多个钓鱼邮件和多个所述钓鱼邮件对应的所述特征向量；

结果输出单元，用于将所述特征向量输入至所述检测模型中，输出所述电子邮件的钓鱼邮件检测结果。

进一步地，所述信息获取模块，还包括：

信息传输单元，用于当检测到电子邮件中含有URL链接时，将所述URL链接传输至爬虫系统；

第一信息获取单元，用于对所述URL链接进行模拟访问，当访问成功时，则跳转得到对应的落地页面，然后将所述落地页面对应的URL作为所述落地URL，并对所述落地页面进行截图，得到第二图像，对所述第二图像进行编码，得到所述网页截图，并提取所述落地页面的源代码，作为所述页面源代码；

第二信息获取单元，用于当访问失败时，则将所述URL链接作为所述落地URL，并将预设的第一空字符串作为所述网页截图，将预设的第二空字符串作为所述页面源代码。

相比于现有技术，本发明实施例具有如下有益效果：

本发明提供了一种基于特征提取的钓鱼邮件检测方法及系统，通过对电子邮件中检测得到的URL链接和电子邮件的内容进行多方面的特征提取，包括落地URL中的URL特征、页面图像特征、源代码特征和邮件内容特征，丰富提取特征的类型，降低误判和漏判风险；然后根据URL特征、页面图像特征、源代码特征和邮件内容特征构成的特征向量，判断该特征向量对应的电子邮件是否为钓鱼邮件，结合多类型的特征输出钓鱼邮件检测结果，提高检测的准确性。

进一步地，本发明通过特征工程提取落地URL中的URL特征，并未涉及网络通信的特征，因此能够在离线环境下完成对落地URL的特征提取。此外，本发明还对落地URL的文本分词进行是否包含词向量的判断，以区分具有规范名称的域名和随机生成的域名，提升钓鱼邮件检测结果的准确性。同时，利用预存的训练集分别对初始图像特征提取模型和初始检测模型进行预训练，以增强模型的性能。

附图说明

图1：为本发明提供的一种基于特征提取的钓鱼邮件检测方法的一种实施例的流程示意图；

图2：为本发明提供的一种基于特征提取的钓鱼邮件检测方法的另一种实施例的流程示意图；

图3：为本发明提供的一种基于特征提取的钓鱼邮件检测系统的结构示意图；

图4：为本发明提供的一种基于特征提取的钓鱼邮件检测系统的特征提取模块的结构示意图；

图5：为本发明提供的一种基于特征提取的钓鱼邮件检测系统的结果输出模块的结构示意图；

图6：为本发明提供的一种基于特征提取的钓鱼邮件检测系统的信息获取模块的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

请参照图1，为本发明实施例提供的一种基于特征提取的钓鱼邮件检测方法，该方法包括步骤S1至步骤S4，各步骤具体如下：

步骤S1：当检测到电子邮件中含有URL链接时，将URL链接传输至爬虫系统，并接收爬虫系统反馈的落地URL、网页截图和页面源代码。

进一步地，步骤S1具体包括步骤S11至步骤S13，各步骤具体如下：

步骤S11：当检测到电子邮件中含有URL链接时，将URL链接传输至爬虫系统。

在本实施例中，利用邮件系统的正则表达式判断电子邮件中是否包含有URL链接，检测范围包括电子邮件的正文内容和二维码图片附件。其中，对于正文内容，直接使用正则表达式进行URL链接匹配即可；对于二维码图片附件，则是调用二维码解析库对二维码图片进行二维码解析，在解析结果包含的字符串中使用同一正则表达式匹配URL链接。

步骤S12：对URL链接进行模拟访问，当访问成功时，则跳转得到对应的落地页面，然后将落地页面对应的URL作为落地URL，并对落地页面进行截图，得到第二图像，对第二图像进行编码，得到网页截图，并提取落地页面的源代码，作为页面源代码。

在本实施例中，当URL链接传输至爬虫系统时，将接收到的URL链接记录为传入URL，并通过网络爬虫的方式模拟浏览器访问传入URL。若访问成功，则经过一定的跳转后得到对应的URL落地页面，将此时的URL落地页面实际显示的URL作为落地URL，并对URL落地页面进行截图，得到第二图像，并通过base64将第二图像编码为字符串，以作为网页截图，提取落地页面的源代码作为页面源代码。

步骤S13：当访问失败时，则将URL链接作为落地URL，并将预设的第一空字符串作为网页截图，将预设的第二空字符串作为页面源代码。

在本实施例中，若访问失败，则将URL链接作为落地URL，而返回空字符串作为网页截图和页面源代码。

步骤S2：根据预设的特征提取算法，分别对落地URL、网页截图和页面源代码进行特征提取，获得URL特征、页面图像特征和源代码特征。

进一步地，步骤S2具体包括步骤S21至步骤S23，各步骤具体如下：

步骤S21：采用特征工程，对落地URL进行特征提取，输出URL特征；其中，URL特征包括域名特征、落地URL的直观特征、3-gram特征和词向量特征。

进一步地，步骤S21具体包括步骤S211至步骤S213，各步骤具体如下：

步骤S211：采用特征工程，提取落地URL对应的域名特征和直观特征。

在本实施例中，通过特征工程提取的落地URL对应的域名特征和直观特征，包括但不限于以下内容：

域名是否包含IP地址；

落地URL包含“＠”符号；

落地URL进行过重定向；

传入URL是否使用了短网址；

落地URL的长度；

落地URL的深度；

落地URL的path部分命中钓鱼词汇表的个数；

落地URL包含唯一字符、特殊字符、数字字符的数目；

域名部分元音字母数量、辅音字母数量、元音字母之间最大间隔长度；

域名部分的长度；

域名部分的FQDN个数和最长的FQDN元素的长度；

域名、落地URL字符的信息熵。

在本实施例中，利用特征工程完成特征提取工作，摆脱了对网络查询的依赖，不会受到whois查询不稳定以及多次DNS查询结果不一致等因素的干扰，进而能在离线环境下完成全部特征提取工作。

步骤S212：对落地URL进行3-gram处理，计算3-gram元组在落地URL中的平均得分，作为3-gram特征。

在本实施例中，请参照图2，利用出现频次达到下线阈值的元组(Ngram x)，统计元组在正常URL样本和钓鱼URL样本中出现的概率，利用对数运算的性质使得在正常URL出现概率较高的元组能够得到一个正值得分，而反之得到一个负值得分将该得分作为3-gram特征。

步骤S213：对落地URL进行分词处理，得到若干个文本分词，并利用预设的词向量模型判断每一个文本分词是否包含词向量，若有则输出当前词向量，若没有则输出零向量，并将词向量模型的所有输出作为词向量特征。

在本实施例中，对落地URL进行分词处理，分词的标准为标准的英文标点符号，从而得到若干个token(文本分词)，然后采用开源的Twitter预训练glove模型作为词向量模型，判断每一个文本分词是否包含词向量，若有则输出当前词向量，若没有则输出零向量，并将模型的所有输出作为词向量特征。举例来说，常见的google、cat等token具有词向量，而sahdhoasd这类随机生成的token不具有词向量。

步骤S22：对网页截图进行解码，获得对应的第一图像，并对第一图像进行尺寸调整、格式转换、归一化的预处理，然后输入至预设的图像特征提取模型，输出页面图像特征；其中，图像特征提取模型是利用第一训练集对预设的初始图像特征提取模型进行训练而获得的，第一训练集包括多个完成尺寸调整、格式转换、归一化的预处理的第一图像。

在本实施例中，利用imagenet数据集作为第一训练集对预设的VGG16网络进行训练，然后通过base64对网页截图进行解码，获得对应的第一图像，并对第一图像进行尺寸调整、RGB/BGR格式转换、归一化的预处理，然后将经过预处理的第一图像输入完成训练的VGG16网络，并在完成训练的VGG16网络的卷积层输出页面图像特征，无需使用全连接层。

步骤S23：对页面源代码进行分词处理，获得对应的若干个代码分词，并对所有代码分词进行编码和转换，获得一个源代码矩阵，并将源代码矩阵输入预设的代码特征提取模型，输出源代码特征。

在本实施例中，对于源代码特征的提取，仅将页面源代码视为文本，不考虑对页面的JS代码、PHP代码等元素进行解析，则实际应用中不需要利用Java虚拟机等模块进行JS/PHP抽象语法树提取工作，达到了一定程度上的轻量化。

进一步地，步骤S23具体包括步骤S231至步骤S233，各步骤具体如下：

步骤S231：对页面源代码进行分词处理，得到对应的若干个代码分词，并对所有代码分词进行编码，获得一个分词集合。

在本实施例中，使用分词器对页面源代码进行分词，其中，参照表达式“！#￥％&()＊+，-./：；＜＝＞？＠[\\]＾＿｀{|}～\t\n”对页面源代码文本进行切割得到若干个代码分词，然后使用Hash Trick的方式将每个代码分词都编码为一个整型数字，所有整型数字组合得到一个分词集合。

步骤S232：通过预设的词嵌入模型，对分词集合进行转换，获得对应的源代码矩阵。

在本实施例中，利用深度学习框架Keras训练Embedding模型作为词嵌入模型，将分词集合变为源代码矩阵，其中，源代码矩阵的大小为指定序列最大长度x Embedding维度。

步骤S233：将源代码矩阵输入预设的TextCNN网络模型，输出源代码特征。

在本实施例中，使用去除全连接层的TextCNN网络提取源代码矩阵中的源代码特征。

步骤S3：提取电子邮件的邮件内容特征，并结合URL特征、页面图像特征和源代码特征，生成电子邮件对应的一个特征向量。

在本实施例中，将电子邮件的正文内容输入经过微调(fine-tuning)的中文预训练BERT模型，并输出邮件内容特征。其中，对中文预训练BERT模型的内部参数进行微调使得预训练模型能够更加适应实际业务的需要。

在本实施例中，将URL特征、页面图像特征、源代码特征和邮件内容特征按照指定顺序拼接为一个特征向量。

步骤S4：将特征向量输入至预设的检测模型中，输出电子邮件的钓鱼邮件检测结果。

进一步地，步骤S4具体为：

步骤S41：将预存的第二训练集输入预设的初始检测模型中，对初始检测模型进行训练，得到检测模型；其中，第二训练集包括多个正常电子邮件、多个正常电子邮件对应的特征向量、多个钓鱼邮件和多个钓鱼邮件对应的特征向量。

在本实施例中，使用LightGBM算法构成初始检测模型，并利用大量样本数据对初始检测模型进行训练，验证和提升模型的检测能力。

其中，LightGBM算法作为决策树类算法中训练速度快、分类准确率较高的一种算法，有较强的抗噪能力，能够处理URL爬虫访问失败的场景。

步骤S42：将特征向量输入至检测模型中，输出电子邮件的钓鱼邮件检测结果。

实施例二：

请参照图3，为了解决相同的技术问题，本发明还提供了一种基于特征提取的钓鱼邮件检测系统，包括：

信息获取模块1，用于当检测到电子邮件中含有URL链接时，将URL链接传输至爬虫系统，并接收爬虫系统反馈的落地URL、网页截图和页面源代码；

特征提取模块2，用于根据预设的特征提取算法，分别对落地URL、网页截图和页面源代码进行特征提取，获得URL特征、页面图像特征和源代码特征；

提取汇总模块3，用于提取电子邮件的邮件内容特征，并结合URL特征、页面图像特征和源代码特征，生成电子邮件对应的一个特征向量；

结果输出模块4，用于将特征向量输入至预设的检测模型中，输出电子邮件的钓鱼邮件检测结果。

进一步地，请参照图4，特征提取模块2，还包括：

第一特征提取单元，用于采用特征工程，对落地URL进行特征提取，输出URL特征；其中，URL特征包括域名特征、落地URL的直观特征、3-gram特征和词向量特征；3-gram特征是通过对落地URL进行3-gram处理，计算3-gram元组在落地URL中的平均得分，作为3-gram特征而获得的；词向量特征是通过对落地URL进行分词处理，得到若干个文本分词，并利用预设的词向量模型判断每一个文本分词是否包含词向量，若有则输出当前词向量，若没有则输出零向量，并将词向量模型的所有输出作为词向量特征而获得的；

第二特征提取单元，用于对网页截图进行解码，获得对应的第一图像，并对第一图像进行尺寸调整、格式转换、归一化的预处理，然后输入至预设的图像特征提取模型，输出页面图像特征；其中，图像特征提取模型是利用第二训练集对预设的初始图像特征提取模型进行训练而获得的，第二训练集包括多个完成尺寸调整、格式转换、归一化的预处理的第一图像；

第三特征提取单元，用于对页面源代码进行分词处理，获得对应的若干个代码分词，并对所有代码分词进行编码，获得一个分词集合，然后通过预设的词嵌入模型，对分词集合进行转换，获得对应的源代码矩阵，并将源代码矩阵输入预设的TextCNN网络模型，输出源代码特征。

进一步地，请参照图5，结果输出模块4，还包括：

模型训练单元，用于将预存的第一训练集输入预设的初始检测模型中，对初始检测模型进行训练，得到检测模型；其中，第一训练集包括多个正常电子邮件、多个正常电子邮件对应的特征向量、多个钓鱼邮件和多个钓鱼邮件对应的特征向量；

结果输出单元，用于将特征向量输入至检测模型中，输出电子邮件的钓鱼邮件检测结果。

进一步地，请参照图6，信息获取模块1，还包括：

信息传输单元，用于当检测到电子邮件中含有URL链接时，将URL链接传输至爬虫系统；

第一信息获取单元，用于对URL链接进行模拟访问，当访问成功时，则跳转得到对应的落地页面，然后将落地页面对应的URL作为落地URL，并对落地页面进行截图，得到第二图像，对第二图像进行编码，得到网页截图，并提取落地页面的源代码，作为页面源代码；

第二信息获取单元，用于当访问失败时，则将URL链接作为落地URL，并将预设的第一空字符串作为网页截图，将预设的第二空字符串作为页面源代码。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

相比于现有技术，本发明实施例具有如下有益效果：

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于特征提取的钓鱼邮件检测方法，其特征在于，包括：

2.如权利要求1所述的一种基于特征提取的钓鱼邮件检测方法，其特征在于，所述根据预设的特征提取算法，分别对所述落地URL、所述网页截图和所述页面源代码进行特征提取，获得URL特征、页面图像特征和源代码特征，具体为：

采用特征工程，对所述落地URL进行特征提取，输出所述URL特征；其中，所述URL特征包括域名特征、所述落地URL的直观特征、3－gram特征和词向量特征；

3.如权利要求2所述的一种基于特征提取的钓鱼邮件检测方法，其特征在于，所述采用特征工程，对所述落地URL进行特征提取，输出所述URL特征，其中，所述URL特征包括域名特征、所述落地URL的直观特征、3－gram特征和词向量特征，具体为：

对所述落地URL进行3－gram处理，计算3－gram元组在所述落地URL中的平均得分，作为所述3－gram特征；

4.如权利要求2所述的一种基于特征提取的钓鱼邮件检测方法，其特征在于，所述对所述页面源代码进行分词处理，得到对应的若干个代码分词，并对所有所述代码分词进行编码和转换，得到一个源代码矩阵，并将所述源代码矩阵输入预设的代码特征提取模型，输出所述源代码特征，具体为：

5.如权利要求1所述的一种基于特征提取的钓鱼邮件检测方法，其特征在于，所述将所述特征向量输入至预设的检测模型中，输出所述电子邮件的钓鱼邮件检测结果，具体为：

6.如权利要求1所述的一种基于特征提取的钓鱼邮件检测方法，其特征在于，所述当检测到电子邮件中含有URL链接时，将所述URL链接传输至爬虫系统，并接收所述爬虫系统反馈的落地URL、网页截图和页面源代码，具体为：

7.一种基于特征提取的钓鱼邮件检测系统，其特征在于，包括：

8.如权利要求7所述的一种基于特征提取的钓鱼邮件检测系统，其特征在于，所述特征提取模块，还包括：

第一特征提取单元，用于采用特征工程，对所述落地URL进行特征提取，输出所述URL特征；其中，所述URL特征包括域名特征、所述落地URL的直观特征、3－gram特征和词向量特征；所述3－gram特征是通过对所述落地URL进行3－gram处理，计算3－gram元组在所述落地URL中的平均得分，作为所述3－gram特征而获得的；所述词向量特征是通过对所述落地URL进行分词处理，得到若干个文本分词，并利用预设的词向量模型判断每一个所述文本分词是否包含词向量，若有则输出当前所述词向量，若没有则输出零向量，并将所述词向量模型的所有输出作为所述词向量特征而获得的；

9.如权利要求7所述的一种基于特征提取的钓鱼邮件检测系统，其特征在于，所述结果输出模块，还包括：

10.如权利要求7所述的一种基于特征提取的钓鱼邮件检测系统，其特征在于，所述信息获取模块，还包括：