CN110300054A

CN110300054A - 恶意钓鱼邮件的识别方法及装置

Info

Publication number: CN110300054A
Application number: CN201910598350.5A
Authority: CN
Inventors: 陈磊华; 朱南皓; 杨芸
Original assignee: On Keke Science And Technology (guangzhou) Co Ltd
Current assignee: On Keke Science And Technology (guangzhou) Co Ltd
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2019-10-01

Abstract

本申请公开了一种恶意钓鱼邮件的识别方法及装置，包括：获取邮件，从邮件中提取多个第一特征信息集；根据信息增益算法，分别从各第一特征信息集中获取若干第一特征信息，将若干第一特征信息输入分类器，以使分类器根据若干第一特征信息，对邮件进行分类；当邮件的分类结果为恶意邮件类时，判定邮件为恶意钓鱼邮件。与现有技术相比，本申请实现了对现网的恶意钓鱼邮件以社会工程学形式进行入侵的行为检测和识别，提高了应对新型恶意邮件进行入侵的安全防护能力。

Description

恶意钓鱼邮件的识别方法及装置

技术领域

本申请涉及信息安全技术领域，尤其涉及一种恶意钓鱼邮件的识别方法及装置。

背景技术

伴随着互联网的诞生和发展，电子邮件在互联网世界的使用程度已是相当的普及，成为了信息时代人们进行网络通信与社交使用得最为频繁的技术手段之一，同时电子邮件也具备强关联的电子ID身份标识力。电子邮件账户在互联网中所处的核心位置，导致其一直是网络攻击的首要目标。

现有针对电子邮件的安全防护手段，如黑白名单、指纹技术、内容识别、贝叶斯过滤等方式，虽然在技术层面上已能够较好的应对传统电子邮件所面临的恶意钓鱼、垃圾过滤等问题，但当前针对电子邮件新的安全威胁更多的呈现出基于社会工程学的攻击态势，该社会工程学侧重于网络社会工程学，属于社会工程学的一种分支主要是通过非传统信息安全领域维度利用“人性弱点”实施的入侵攻击，而传统针对电子邮件的安全防护手段并未考虑基于社会工程学的恶意钓鱼和入侵防范，因此面对这种基于社会工程学的恶意钓鱼电子邮件，现有的安全防护手段起到较好的安全防护作用。

发明内容

本申请实施例所要解决的技术问题在于，提供一种恶意钓鱼邮件的识别方法及装置，提高应对新型恶意邮件进行入侵的安全防护能力。

为解决上述问题，本申请实施例提供一种恶意钓鱼邮件的识别方法，适于在计算设备中执行，至少包括如下步骤：

获取邮件，从所述邮件中提取多个第一特征信息集；其中，所述第一特征信息集包括邮件的头部特征信息集、链接特征信息集、脚本特征信息集和心理情绪特征信息集；

根据信息增益算法，分别从各所述第一特征信息集中获取若干第一特征信息，将若干所述第一特征信息输入分类器，以使所述分类器根据若干所述第一特征信息，对所述邮件进行分类；

当所述邮件的分类结果为恶意邮件类时，判定所述邮件为恶意钓鱼邮件。

进一步的，还包括：

将所述邮件标记为训练样本，在所述分类器进行更新时，根据所述训练样本，训练所述分类器。

进一步的，在获取邮件之前，还包括：

获取多个恶意钓鱼邮件样本和多个正常邮件样本进行比对，确定所述恶意钓鱼邮件样本的多个第二特征信息集；

从所述恶意钓鱼邮件样本中提取多个所述第二特征信息集，根据信息增益算法，分别从各所述第二特征信息集中获取若干第二特征信息；其中，所述第二特征信息集包括恶意钓鱼邮件的头部特征信息集、链接特征信息集、脚本特征信息集和心理情绪特征信息集；

根据若干所述第二特征信息对随机森林分类器进行训练，获取所述分类器。

进一步的，所述根据若干所述第二特征信息对随机森林分类器进行训练，获取所述分类器，包括：

根据若干所述第二特征信息对随机森林分类器进行训练，获取分类器模型后，根据所述分类器模型对测试数据样本进行分类测试，并当测试结果与预设结果相同时，将所述分类器模型作为所述分类器；其中，所述测试数据样本为正常邮件测试样本或钓鱼邮件测试样本。

进一步的，所述恶意钓鱼邮件样本和所述正常邮件数据样本均为中文邮件样本。

进一步的，所述邮件为中文邮件。

进一步的，本申请实施例还提供一种恶意钓鱼邮件的识别装置，包括：

特征提取模块，用于获取邮件，从所述邮件中提取多个第一特征信息集；其中，所述第一特征信息集包括邮件的头部特征信息集、链接特征信息集、脚本特征信息集和心理情绪特征信息集；

邮件分类模块，用于根据信息增益算法，分别从各所述第一特征信息集中获取若干第一特征信息，将若干所述第一特征信息输入分类器，以使所述分类器根据若干所述第一特征信息，对所述邮件进行分类；

邮件识别模块，用于当所述邮件的分类结果为恶意邮件类时，判定所述邮件为恶意钓鱼邮件。

进一步的，还包括：

分类器更新模块，用于将所述邮件标记为训练样本，在所述分类器进行更新时，根据所述训练样本，训练所述分类器。

进一步的，还包括机器学习模块，用于：

实施本申请实施例，具有如下有益效果：

本申请实施例提供的一种恶意钓鱼邮件的识别方法及装置，获取邮件，从邮件中提取多个第一特征信息集；根据信息增益算法，分别从各第一特征信息集中获取若干第一特征信息，将若干第一特征信息输入分类器，以使分类器根据若干第一特征信息，对邮件进行分类；当邮件的分类结果为恶意邮件类时，判定邮件为恶意钓鱼邮件。与现有技术相比，本申请实现了对现网的恶意钓鱼邮件以社会工程学形式进行入侵的行为检测和识别，提高了应对新型恶意邮件进行入侵的安全防护能力。

附图说明

图1是本申请的一个实施例提供的恶意钓鱼邮件的识别方法的流程示意图；

图2是本申请的又一个实施例提供的恶意钓鱼邮件的识别方法的流程示意图；

图3是本申请的再一个实施例提供的恶意钓鱼邮件的识别方法的流程示意图；

图4是本申请的一个实施例提供的恶意钓鱼邮件的识别装置的结构示意图；

图5是本申请的又一个实施例提供的恶意钓鱼邮件的识别装置的结构示意图；

图6是本申请的再一个实施例提供的恶意钓鱼邮件的识别装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，是本申请的一个实施例提供的恶意钓鱼邮件的识别方法的流程示意图，如图1所示，该任务处理方法包括步骤S11至步骤S13。各步骤具体如下：

步骤S11，获取邮件，从邮件中提取多个第一特征信息集。

其中，第一特征信息集包括邮件的头部特征信息集、链接特征信息集、脚本特征信息集和心理情绪特征信息集。

需要说明的是，在本实施例中，所述邮件为中文邮件。

在本实施例中，邮件的头部特征信息集包括多维度信息，有发件人地址、回信地址、发件时间、发件人Message-ID，主题和格式等。根据头部特征信息集中发件人身份标识信息，获取发件人的发信数量信息，再结合头部特征信息集中其他维度的信息，可进行发信人信誉值的特征信息提取。

头部特征信息集的获取方法有：判断邮件格式是否为html格式(大部分钓鱼入侵类邮件属于html格式)，是则标识为1，不是标识0；判断邮件标题是否含有一些敏感字，如账户、银行、验证、密码、管理员等，有则标识为1，无则标识为0；判断发件人域名是否与回信地址一样，一样标识为1，不一样标识为0；判断发件人域名是否为静态域名，是标识为1，不是标识为0；判断发件人域名与Message-Id中的域名是否相同，是标识为1，不是标识为0。其中，当标识为1时，则将其作为头部特征信息。

在本实施例中，链接特征信息集包括邮件本体文本中的链接、邮件中<html>标签内的链接、邮件中的域名、邮件中的附件等。

链接特征信息集的获取方法有：获取邮件本体文本中链接数量，以其计数值作为链接特征信息；获取<html>标签内的链接数量，以其实际计数值作为链接特征信息；获取域名数量，以其计数值作为链接特征信息；判断链接是否为短链接，是标识为1，将其作为链接特征信息，不是标识为0；获取链接为IP地址的数量，以其实际计数值作为链接特征信息；获取链接中端口数量，以其实际计数值作为链接特征信息；获取链接中“@”符号的数量，以其实际计数值作为链接特征信息；获取链接中“％”符号数量，以其实际计数值作为链接特征信息；获取链接中“.”符号数量，以其实际计数值作为链接特征信息；获取含链接图片的数量，以其实际计数值作为链接特征信息；判断显示链接和实际链接指向不同的情况，相同为1，将其作为链接特征信息，不同为0；判断邮件是否含有附件，有为1，将其作为链接特征信息，无为0；判断附件文件类型与真实文本头(不同的文件类型具有不同的标识字段，如常见的JPEG图像文件其文件头标识字段为FFD8FF)标识是否一致，一致为1，将其作为链接特征信息，不一致为0。

在本实施例中，脚本特征信息集包括Javascript代码等。

脚本特征信息集的获取方法有，判断链接中是否含有Javascript代码，有标识为1，无标识为0；Javascript代码是否改变浏览器状态栏，有隐藏链接地址再状态栏的显示行为则标识为1，没有隐藏行为则标识为0；Javascript代码是否导致弹窗事件，有则标识为1，无则标识为0。其中，当标识为1时，则将其作为头部特征信息。

在本实施例中，心理情绪特征信息集包括在内容文本上涉及社会工程学上影响心理情绪的词语，包含的心理情绪特征有积极情绪、负面情绪、否定/肯定情绪、焦虑情绪、生气情绪、伤心情绪、犹豫情绪、思考情绪、压抑情绪、同意情绪等。

其中，否定的心理情绪，特征词语主要有：不、没有、不能等。

肯定的心理情绪，特征词语主要有：可以、确定、可行、能够等。

积极的心理情绪，特征词语主要有：不错、好的、没问题、愿意、认同等。

消极的心理情绪，特征词语主要有：不行、差、不想、不好等。

伤心的心理情绪，特征词语主要有：悲伤、哭泣、痛苦等。

焦虑的心理情绪，特征词语主要有：紧张、害怕、恐怕等。

压抑的心理情绪，特征词语主要有：烦躁、抑郁、心累等。

犹豫的心理情绪，特征词语主要有：也许、可能、大概等。

思考的心理情绪，特征词语主要有：希望、认为、考虑、知道等。

步骤S12，根据信息增益算法，分别从各第一特征信息集中获取若干第一特征信息，将若干第一特征信息输入分类器，以使分类器根据若干第一特征信息，对邮件进行分类。

作为本实施例的一个优选举例，根据信息增益算法，对头部特征信息集中每个头部特征信息就是否为钓鱼恶意类邮件进行重要性计算，并根据计算结果进行排序后，基于重要性排序结果，选取头部特征信息集中重要性得分最高的1个头部特征信息，并根据上述方法，分别从链接特征信息集中选取重要性最高的1个链接特征信息，从脚本特征信息集中选取重要性最高的1个脚本特征信息，以及从心理情绪特征信息集中选取重要性最高的2个心理情绪特征信息。将总共5个特征信息输入分类器，以使分类器根据上述5个特征信息，对邮件进行分类。

步骤S13，当邮件的分类结果为恶意邮件类时，判定邮件为恶意钓鱼邮件。

本实施例提供一种恶意钓鱼邮件的识别方法，通过提取邮件的头部特征信息、链接特征信息和脚本特征信息，以及从社会工程学视角辨别和提取邮件的特征信息，并通过信息增益算法计算特征信息的重要性进行有效降维后，使用机器学习方法，对邮件进行分类，实现了对现网的恶意钓鱼邮件以社会工程学形式进行入侵的行为检测和识别，进一步提升了应对新型恶意邮件进行入侵的安全防护能力和预警机制。

除此之外，本实施例通过针对中文的恶意钓鱼入侵进行检测识别，更具备在国内实际应用中的实操性。

进一步的，如图2所示，是本申请的又一个实施例提供的恶意钓鱼邮件的识别方法的流程示意图。除图1所示步骤外，还包括：

步骤S14，将邮件标记为训练样本，在分类器进行更新时，根据训练样本，训练分类器。

在本实施例中，完成邮件的识别后，将该邮件按照识别结果作为对应的训练样本，存储到数据库中，如识别结果为合法邮件，则作为合法邮件样本存储，反之，则作为恶意钓鱼邮件样本存储。在分类器模型进行更新时，直接从更新后的数据库抽取部分最新样本，并分别提取特征信息进一步训练分类器，实现分类器模型的优化更新。

进一步的，参见图3，是本申请的再一个实施例提供的恶意钓鱼邮件的识别方法的流程示意图。除图1所示步骤外，还包括：

步骤S08，获取多个恶意钓鱼邮件样本和多个正常邮件样本进行比对，确定恶意钓鱼邮件样本的多个第二特征信息集。

在本实施例中，使用邮件收发系统、邮件反恶意反垃圾系统、蜜罐技术等获取到多个恶意钓鱼邮件样本以及多个正常邮件样本，建立当前围绕社会工程学进行恶意钓鱼入侵的邮件行为的数据集，作为基于社会工程学反恶意钓鱼分类器模型的样本基础后，从上述获取的样本数据中中筛选出从社会工程学角度进行恶意钓鱼入侵的数据样本，并通过多个恶意钓鱼邮件样本和多个正常邮件样本的比对，分析整理出恶意钓鱼类邮件在邮件头部信息、邮件内容文本、邮件心理情绪上的特征信息，以供后续进行分类器训练。

步骤S09，从恶意钓鱼邮件样本中提取多个第二特征信息集，根据信息增益算法，分别从各第二特征信息集中获取若干第二特征信息。

其中，第二特征信息集包括恶意钓鱼邮件的头部特征信息集、链接特征信息集、脚本特征信息集和心理情绪特征信息集。

在本实施例中，根据信息增益算法，对恶意钓鱼邮件的头部特征信息集中每个头部特征信息进行重要性计算，并根据上述方法，对恶意钓鱼邮件的链接特征信息集中每个链接特征信息、恶意钓鱼邮件的脚本特征信息集中每个脚本特征信息以及恶意钓鱼邮件的心理情绪特征信息集中每个心理情绪特征信息，进行重要性计算，从而选取邮件头部重要性得分最高的1个特征信息、邮件本体中链接重要性最高的1个特征信息、邮件本体中脚本重要性最高的1个特征信息，以及邮件本体中社会工程学心理情绪重要性最高的2个特征信息，总共5个特征信息供后续训练分类器。

步骤S10，根据若干第二特征信息对随机森林分类器进行训练，获取分类器。

具体的，根据若干第二特征信息对随机森林分类器进行训练，获取分类器模型后，根据分类器模型对测试数据样本进行分类测试，并当测试结果与预设结果相同时，将分类器模型作为分类器。

其中，测试数据样本为正常邮件测试样本或钓鱼邮件测试样本。恶意钓鱼邮件样本和正常邮件数据样本均为中文邮件样本。

在本实施例中，通过随机森林算法分类计算5个特征信息，建立分类器模型，并用分类器模型分类计算测试数据样本，得到的类别与真实数据进行对比，获得测试数据样本的准确率、误报率和漏报率，并根据准确率、误报率和漏报率，调整随机森林算法，以使测试数据样本的准确率、误报率和漏报率达到预设目标后，将分类器模型作为分类器。

本申请实施例提供一种恶意钓鱼邮件的识别方法，通过从社会工程学视角辨别和提取恶意钓鱼邮件的特征信息，通过信息增益算法计算特征信息的重要性进行有效降维后，使用机器学习方法，对恶意钓鱼邮件样本数据进行分类训练，从而使得到的分类器可对现网的恶意钓鱼邮件以社会工程学形式进行入侵的行为进行检测和识别，提升了应对新型恶意邮件进行入侵的安全防护能力和预警机制。

除此之外，本实施例利用中文的正常邮件测试样本或钓鱼邮件测试样本进行训练，使得训练得到的分类器更具备在国内实际应用中的实操性。

参见图4，是本申请的一个实施例提供的恶意钓鱼邮件的识别装置的结构示意图。包括：

特征提取模块101，用于获取邮件，从邮件中提取多个第一特征信息集。

需要说明的是，在本实施例中，所述邮件为中文邮件。

邮件分类模块102，用于根据信息增益算法，分别从各第一特征信息集中获取若干第一特征信息，将若干第一特征信息输入分类器，以使分类器根据若干第一特征信息，对邮件进行分类。

邮件识别模块103，用于当邮件的分类结果为恶意邮件类时，判定邮件为恶意钓鱼邮件。

本实施例提供一种恶意钓鱼邮件的识别装置，通过提取邮件的头部特征信息、链接特征信息和脚本特征信息，以及从社会工程学视角辨别和提取邮件的特征信息，并通过信息增益算法计算特征信息的重要性进行有效降维后，使用机器学习方法，对邮件进行分类，实现了对现网的恶意钓鱼邮件以社会工程学形式进行入侵的行为检测和识别，进一步提升了应对新型恶意邮件进行入侵的安全防护能力和预警机制。

进一步的，参见图5，是本申请的又一个实施例提供的恶意钓鱼邮件的识别装置的结构示意图。除图4所示结构外，还包括：

分类器更新模块104，用于将邮件标记为训练样本，在分类器进行更新时，根据训练样本，训练分类器。

进一步的，参见图6，是本申请的又一个实施例提供的恶意钓鱼邮件的识别装置的结构示意图。除图4所示结构外，还包括机器学习模块100，用于：

获取多个恶意钓鱼邮件样本和多个正常邮件样本进行比对，确定恶意钓鱼邮件样本的多个第二特征信息集。

从恶意钓鱼邮件样本中提取多个第二特征信息集，根据信息增益算法，分别从各第二特征信息集中获取若干第二特征信息。

根据若干第二特征信息对随机森林分类器进行训练，获取分类器。

本申请实施例提供一种恶意钓鱼邮件的识别装置，通过从社会工程学视角辨别和提取恶意钓鱼邮件的特征信息，通过信息增益算法计算特征信息的重要性进行有效降维后，使用机器学习方法，对恶意钓鱼邮件样本数据进行分类训练，从而使得到的分类器可对现网的恶意钓鱼邮件以社会工程学形式进行入侵的行为进行检测和识别，提升了应对新型恶意邮件进行入侵的安全防护能力和预警机制。

以上所述是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本申请的保护范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

Claims

1.一种恶意钓鱼邮件的识别方法，其特征在于，至少包括如下步骤：

2.根据权利要求1所述的恶意钓鱼邮件的识别方法，其特征在于，还包括：

3.根据权利要求1所述的恶意钓鱼邮件的识别方法，其特征在于，在获取邮件之前，还包括：

4.根据权利要求3所述的恶意钓鱼邮件的识别方法，其特征在于，所述根据若干所述第二特征信息对随机森林分类器进行训练，获取所述分类器，包括：

5.根据权利要求3所述的恶意钓鱼邮件的识别方法，其特征在于，所述恶意钓鱼邮件样本和所述正常邮件数据样本均为中文邮件样本。

6.根据权利要求1所述的恶意钓鱼邮件的识别方法，其特征在于，所述邮件为中文邮件。

7.一种恶意钓鱼邮件的识别装置，其特征在于，包括：

8.根据权利要求7所述的恶意钓鱼邮件的识别装置，其特征在于，还包括：

9.根据权利要求7所述的恶意钓鱼邮件的识别装置，其特征在于，还包括机器学习模块，用于：