CN110300054A - 恶意钓鱼邮件的识别方法及装置 - Google Patents

恶意钓鱼邮件的识别方法及装置 Download PDF

Info

Publication number
CN110300054A
CN110300054A CN201910598350.5A CN201910598350A CN110300054A CN 110300054 A CN110300054 A CN 110300054A CN 201910598350 A CN201910598350 A CN 201910598350A CN 110300054 A CN110300054 A CN 110300054A
Authority
CN
China
Prior art keywords
mail
feature information
information collection
malice
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910598350.5A
Other languages
English (en)
Inventor
陈磊华
朱南皓
杨芸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
On Keke Science And Technology (guangzhou) Co Ltd
Original Assignee
On Keke Science And Technology (guangzhou) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by On Keke Science And Technology (guangzhou) Co Ltd filed Critical On Keke Science And Technology (guangzhou) Co Ltd
Priority to CN201910598350.5A priority Critical patent/CN110300054A/zh
Publication of CN110300054A publication Critical patent/CN110300054A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/42Mailbox-related aspects, e.g. synchronisation of mailboxes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种恶意钓鱼邮件的识别方法及装置,包括:获取邮件,从邮件中提取多个第一特征信息集;根据信息增益算法,分别从各第一特征信息集中获取若干第一特征信息,将若干第一特征信息输入分类器,以使分类器根据若干第一特征信息,对邮件进行分类;当邮件的分类结果为恶意邮件类时,判定邮件为恶意钓鱼邮件。与现有技术相比,本申请实现了对现网的恶意钓鱼邮件以社会工程学形式进行入侵的行为检测和识别,提高了应对新型恶意邮件进行入侵的安全防护能力。

Description

恶意钓鱼邮件的识别方法及装置
技术领域
本申请涉及信息安全技术领域,尤其涉及一种恶意钓鱼邮件的识别方法及装置。
背景技术
伴随着互联网的诞生和发展,电子邮件在互联网世界的使用程度已是相当的普及,成为了信息时代人们进行网络通信与社交使用得最为频繁的技术手段之一,同时电子邮件也具备强关联的电子ID身份标识力。电子邮件账户在互联网中所处的核心位置,导致其一直是网络攻击的首要目标。
现有针对电子邮件的安全防护手段,如黑白名单、指纹技术、内容识别、贝叶斯过滤等方式,虽然在技术层面上已能够较好的应对传统电子邮件所面临的恶意钓鱼、垃圾过滤等问题,但当前针对电子邮件新的安全威胁更多的呈现出基于社会工程学的攻击态势,该社会工程学侧重于网络社会工程学,属于社会工程学的一种分支主要是通过非传统信息安全领域维度利用“人性弱点”实施的入侵攻击,而传统针对电子邮件的安全防护手段并未考虑基于社会工程学的恶意钓鱼和入侵防范,因此面对这种基于社会工程学的恶意钓鱼电子邮件,现有的安全防护手段起到较好的安全防护作用。
发明内容
本申请实施例所要解决的技术问题在于,提供一种恶意钓鱼邮件的识别方法及装置,提高应对新型恶意邮件进行入侵的安全防护能力。
为解决上述问题,本申请实施例提供一种恶意钓鱼邮件的识别方法,适于在计算设备中执行,至少包括如下步骤:
获取邮件,从所述邮件中提取多个第一特征信息集;其中,所述第一特征信息集包括邮件的头部特征信息集、链接特征信息集、脚本特征信息集和心理情绪特征信息集;
根据信息增益算法,分别从各所述第一特征信息集中获取若干第一特征信息,将若干所述第一特征信息输入分类器,以使所述分类器根据若干所述第一特征信息,对所述邮件进行分类;
当所述邮件的分类结果为恶意邮件类时,判定所述邮件为恶意钓鱼邮件。
进一步的,还包括:
将所述邮件标记为训练样本,在所述分类器进行更新时,根据所述训练样本,训练所述分类器。
进一步的,在获取邮件之前,还包括:
获取多个恶意钓鱼邮件样本和多个正常邮件样本进行比对,确定所述恶意钓鱼邮件样本的多个第二特征信息集;
从所述恶意钓鱼邮件样本中提取多个所述第二特征信息集,根据信息增益算法,分别从各所述第二特征信息集中获取若干第二特征信息;其中,所述第二特征信息集包括恶意钓鱼邮件的头部特征信息集、链接特征信息集、脚本特征信息集和心理情绪特征信息集;
根据若干所述第二特征信息对随机森林分类器进行训练,获取所述分类器。
进一步的,所述根据若干所述第二特征信息对随机森林分类器进行训练,获取所述分类器,包括:
根据若干所述第二特征信息对随机森林分类器进行训练,获取分类器模型后,根据所述分类器模型对测试数据样本进行分类测试,并当测试结果与预设结果相同时,将所述分类器模型作为所述分类器;其中,所述测试数据样本为正常邮件测试样本或钓鱼邮件测试样本。
进一步的,所述恶意钓鱼邮件样本和所述正常邮件数据样本均为中文邮件样本。
进一步的,所述邮件为中文邮件。
进一步的,本申请实施例还提供一种恶意钓鱼邮件的识别装置,包括:
特征提取模块,用于获取邮件,从所述邮件中提取多个第一特征信息集;其中,所述第一特征信息集包括邮件的头部特征信息集、链接特征信息集、脚本特征信息集和心理情绪特征信息集;
邮件分类模块,用于根据信息增益算法,分别从各所述第一特征信息集中获取若干第一特征信息,将若干所述第一特征信息输入分类器,以使所述分类器根据若干所述第一特征信息,对所述邮件进行分类;
邮件识别模块,用于当所述邮件的分类结果为恶意邮件类时,判定所述邮件为恶意钓鱼邮件。
进一步的,还包括:
分类器更新模块,用于将所述邮件标记为训练样本,在所述分类器进行更新时,根据所述训练样本,训练所述分类器。
进一步的,还包括机器学习模块,用于:
获取多个恶意钓鱼邮件样本和多个正常邮件样本进行比对,确定所述恶意钓鱼邮件样本的多个第二特征信息集;
从所述恶意钓鱼邮件样本中提取多个所述第二特征信息集,根据信息增益算法,分别从各所述第二特征信息集中获取若干第二特征信息;其中,所述第二特征信息集包括恶意钓鱼邮件的头部特征信息集、链接特征信息集、脚本特征信息集和心理情绪特征信息集;
根据若干所述第二特征信息对随机森林分类器进行训练,获取所述分类器。
实施本申请实施例,具有如下有益效果:
本申请实施例提供的一种恶意钓鱼邮件的识别方法及装置,获取邮件,从邮件中提取多个第一特征信息集;根据信息增益算法,分别从各第一特征信息集中获取若干第一特征信息,将若干第一特征信息输入分类器,以使分类器根据若干第一特征信息,对邮件进行分类;当邮件的分类结果为恶意邮件类时,判定邮件为恶意钓鱼邮件。与现有技术相比,本申请实现了对现网的恶意钓鱼邮件以社会工程学形式进行入侵的行为检测和识别,提高了应对新型恶意邮件进行入侵的安全防护能力。
附图说明
图1是本申请的一个实施例提供的恶意钓鱼邮件的识别方法的流程示意图;
图2是本申请的又一个实施例提供的恶意钓鱼邮件的识别方法的流程示意图;
图3是本申请的再一个实施例提供的恶意钓鱼邮件的识别方法的流程示意图;
图4是本申请的一个实施例提供的恶意钓鱼邮件的识别装置的结构示意图;
图5是本申请的又一个实施例提供的恶意钓鱼邮件的识别装置的结构示意图;
图6是本申请的再一个实施例提供的恶意钓鱼邮件的识别装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,是本申请的一个实施例提供的恶意钓鱼邮件的识别方法的流程示意图,如图1所示,该任务处理方法包括步骤S11至步骤S13。各步骤具体如下:
步骤S11,获取邮件,从邮件中提取多个第一特征信息集。
其中,第一特征信息集包括邮件的头部特征信息集、链接特征信息集、脚本特征信息集和心理情绪特征信息集。
需要说明的是,在本实施例中,所述邮件为中文邮件。
在本实施例中,邮件的头部特征信息集包括多维度信息,有发件人地址、回信地址、发件时间、发件人Message-ID,主题和格式等。根据头部特征信息集中发件人身份标识信息,获取发件人的发信数量信息,再结合头部特征信息集中其他维度的信息,可进行发信人信誉值的特征信息提取。
头部特征信息集的获取方法有:判断邮件格式是否为html格式(大部分钓鱼入侵类邮件属于html格式),是则标识为1,不是标识0;判断邮件标题是否含有一些敏感字,如账户、银行、验证、密码、管理员等,有则标识为1,无则标识为0;判断发件人域名是否与回信地址一样,一样标识为1,不一样标识为0;判断发件人域名是否为静态域名,是标识为1,不是标识为0;判断发件人域名与Message-Id中的域名是否相同,是标识为1,不是标识为0。其中,当标识为1时,则将其作为头部特征信息。
在本实施例中,链接特征信息集包括邮件本体文本中的链接、邮件中<html>标签内的链接、邮件中的域名、邮件中的附件等。
链接特征信息集的获取方法有:获取邮件本体文本中链接数量,以其计数值作为链接特征信息;获取<html>标签内的链接数量,以其实际计数值作为链接特征信息;获取域名数量,以其计数值作为链接特征信息;判断链接是否为短链接,是标识为1,将其作为链接特征信息,不是标识为0;获取链接为IP地址的数量,以其实际计数值作为链接特征信息;获取链接中端口数量,以其实际计数值作为链接特征信息;获取链接中“@”符号的数量,以其实际计数值作为链接特征信息;获取链接中“%”符号数量,以其实际计数值作为链接特征信息;获取链接中“.”符号数量,以其实际计数值作为链接特征信息;获取含链接图片的数量,以其实际计数值作为链接特征信息;判断显示链接和实际链接指向不同的情况,相同为1,将其作为链接特征信息,不同为0;判断邮件是否含有附件,有为1,将其作为链接特征信息,无为0;判断附件文件类型与真实文本头(不同的文件类型具有不同的标识字段,如常见的JPEG图像文件其文件头标识字段为FFD8FF)标识是否一致,一致为1,将其作为链接特征信息,不一致为0。
在本实施例中,脚本特征信息集包括Javascript代码等。
脚本特征信息集的获取方法有,判断链接中是否含有Javascript代码,有标识为1,无标识为0;Javascript代码是否改变浏览器状态栏,有隐藏链接地址再状态栏的显示行为则标识为1,没有隐藏行为则标识为0;Javascript代码是否导致弹窗事件,有则标识为1,无则标识为0。其中,当标识为1时,则将其作为头部特征信息。
在本实施例中,心理情绪特征信息集包括在内容文本上涉及社会工程学上影响心理情绪的词语,包含的心理情绪特征有积极情绪、负面情绪、否定/肯定情绪、焦虑情绪、生气情绪、伤心情绪、犹豫情绪、思考情绪、压抑情绪、同意情绪等。
其中,否定的心理情绪,特征词语主要有:不、没有、不能等。
肯定的心理情绪,特征词语主要有:可以、确定、可行、能够等。
积极的心理情绪,特征词语主要有:不错、好的、没问题、愿意、认同等。
消极的心理情绪,特征词语主要有:不行、差、不想、不好等。
伤心的心理情绪,特征词语主要有:悲伤、哭泣、痛苦等。
焦虑的心理情绪,特征词语主要有:紧张、害怕、恐怕等。
压抑的心理情绪,特征词语主要有:烦躁、抑郁、心累等。
犹豫的心理情绪,特征词语主要有:也许、可能、大概等。
思考的心理情绪,特征词语主要有:希望、认为、考虑、知道等。
步骤S12,根据信息增益算法,分别从各第一特征信息集中获取若干第一特征信息,将若干第一特征信息输入分类器,以使分类器根据若干第一特征信息,对邮件进行分类。
作为本实施例的一个优选举例,根据信息增益算法,对头部特征信息集中每个头部特征信息就是否为钓鱼恶意类邮件进行重要性计算,并根据计算结果进行排序后,基于重要性排序结果,选取头部特征信息集中重要性得分最高的1个头部特征信息,并根据上述方法,分别从链接特征信息集中选取重要性最高的1个链接特征信息,从脚本特征信息集中选取重要性最高的1个脚本特征信息,以及从心理情绪特征信息集中选取重要性最高的2个心理情绪特征信息。将总共5个特征信息输入分类器,以使分类器根据上述5个特征信息,对邮件进行分类。
步骤S13,当邮件的分类结果为恶意邮件类时,判定邮件为恶意钓鱼邮件。
本实施例提供一种恶意钓鱼邮件的识别方法,通过提取邮件的头部特征信息、链接特征信息和脚本特征信息,以及从社会工程学视角辨别和提取邮件的特征信息,并通过信息增益算法计算特征信息的重要性进行有效降维后,使用机器学习方法,对邮件进行分类,实现了对现网的恶意钓鱼邮件以社会工程学形式进行入侵的行为检测和识别,进一步提升了应对新型恶意邮件进行入侵的安全防护能力和预警机制。
除此之外,本实施例通过针对中文的恶意钓鱼入侵进行检测识别,更具备在国内实际应用中的实操性。
进一步的,如图2所示,是本申请的又一个实施例提供的恶意钓鱼邮件的识别方法的流程示意图。除图1所示步骤外,还包括:
步骤S14,将邮件标记为训练样本,在分类器进行更新时,根据训练样本,训练分类器。
在本实施例中,完成邮件的识别后,将该邮件按照识别结果作为对应的训练样本,存储到数据库中,如识别结果为合法邮件,则作为合法邮件样本存储,反之,则作为恶意钓鱼邮件样本存储。在分类器模型进行更新时,直接从更新后的数据库抽取部分最新样本,并分别提取特征信息进一步训练分类器,实现分类器模型的优化更新。
进一步的,参见图3,是本申请的再一个实施例提供的恶意钓鱼邮件的识别方法的流程示意图。除图1所示步骤外,还包括:
步骤S08,获取多个恶意钓鱼邮件样本和多个正常邮件样本进行比对,确定恶意钓鱼邮件样本的多个第二特征信息集。
在本实施例中,使用邮件收发系统、邮件反恶意反垃圾系统、蜜罐技术等获取到多个恶意钓鱼邮件样本以及多个正常邮件样本,建立当前围绕社会工程学进行恶意钓鱼入侵的邮件行为的数据集,作为基于社会工程学反恶意钓鱼分类器模型的样本基础后,从上述获取的样本数据中中筛选出从社会工程学角度进行恶意钓鱼入侵的数据样本,并通过多个恶意钓鱼邮件样本和多个正常邮件样本的比对,分析整理出恶意钓鱼类邮件在邮件头部信息、邮件内容文本、邮件心理情绪上的特征信息,以供后续进行分类器训练。
步骤S09,从恶意钓鱼邮件样本中提取多个第二特征信息集,根据信息增益算法,分别从各第二特征信息集中获取若干第二特征信息。
其中,第二特征信息集包括恶意钓鱼邮件的头部特征信息集、链接特征信息集、脚本特征信息集和心理情绪特征信息集。
在本实施例中,根据信息增益算法,对恶意钓鱼邮件的头部特征信息集中每个头部特征信息进行重要性计算,并根据上述方法,对恶意钓鱼邮件的链接特征信息集中每个链接特征信息、恶意钓鱼邮件的脚本特征信息集中每个脚本特征信息以及恶意钓鱼邮件的心理情绪特征信息集中每个心理情绪特征信息,进行重要性计算,从而选取邮件头部重要性得分最高的1个特征信息、邮件本体中链接重要性最高的1个特征信息、邮件本体中脚本重要性最高的1个特征信息,以及邮件本体中社会工程学心理情绪重要性最高的2个特征信息,总共5个特征信息供后续训练分类器。
步骤S10,根据若干第二特征信息对随机森林分类器进行训练,获取分类器。
具体的,根据若干第二特征信息对随机森林分类器进行训练,获取分类器模型后,根据分类器模型对测试数据样本进行分类测试,并当测试结果与预设结果相同时,将分类器模型作为分类器。
其中,测试数据样本为正常邮件测试样本或钓鱼邮件测试样本。恶意钓鱼邮件样本和正常邮件数据样本均为中文邮件样本。
在本实施例中,通过随机森林算法分类计算5个特征信息,建立分类器模型,并用分类器模型分类计算测试数据样本,得到的类别与真实数据进行对比,获得测试数据样本的准确率、误报率和漏报率,并根据准确率、误报率和漏报率,调整随机森林算法,以使测试数据样本的准确率、误报率和漏报率达到预设目标后,将分类器模型作为分类器。
本申请实施例提供一种恶意钓鱼邮件的识别方法,通过从社会工程学视角辨别和提取恶意钓鱼邮件的特征信息,通过信息增益算法计算特征信息的重要性进行有效降维后,使用机器学习方法,对恶意钓鱼邮件样本数据进行分类训练,从而使得到的分类器可对现网的恶意钓鱼邮件以社会工程学形式进行入侵的行为进行检测和识别,提升了应对新型恶意邮件进行入侵的安全防护能力和预警机制。
除此之外,本实施例利用中文的正常邮件测试样本或钓鱼邮件测试样本进行训练,使得训练得到的分类器更具备在国内实际应用中的实操性。
参见图4,是本申请的一个实施例提供的恶意钓鱼邮件的识别装置的结构示意图。包括:
特征提取模块101,用于获取邮件,从邮件中提取多个第一特征信息集。
其中,第一特征信息集包括邮件的头部特征信息集、链接特征信息集、脚本特征信息集和心理情绪特征信息集。
需要说明的是,在本实施例中,所述邮件为中文邮件。
邮件分类模块102,用于根据信息增益算法,分别从各第一特征信息集中获取若干第一特征信息,将若干第一特征信息输入分类器,以使分类器根据若干第一特征信息,对邮件进行分类。
邮件识别模块103,用于当邮件的分类结果为恶意邮件类时,判定邮件为恶意钓鱼邮件。
本实施例提供一种恶意钓鱼邮件的识别装置,通过提取邮件的头部特征信息、链接特征信息和脚本特征信息,以及从社会工程学视角辨别和提取邮件的特征信息,并通过信息增益算法计算特征信息的重要性进行有效降维后,使用机器学习方法,对邮件进行分类,实现了对现网的恶意钓鱼邮件以社会工程学形式进行入侵的行为检测和识别,进一步提升了应对新型恶意邮件进行入侵的安全防护能力和预警机制。
除此之外,本实施例通过针对中文的恶意钓鱼入侵进行检测识别,更具备在国内实际应用中的实操性。
进一步的,参见图5,是本申请的又一个实施例提供的恶意钓鱼邮件的识别装置的结构示意图。除图4所示结构外,还包括:
分类器更新模块104,用于将邮件标记为训练样本,在分类器进行更新时,根据训练样本,训练分类器。
在本实施例中,完成邮件的识别后,将该邮件按照识别结果作为对应的训练样本,存储到数据库中,如识别结果为合法邮件,则作为合法邮件样本存储,反之,则作为恶意钓鱼邮件样本存储。在分类器模型进行更新时,直接从更新后的数据库抽取部分最新样本,并分别提取特征信息进一步训练分类器,实现分类器模型的优化更新。
进一步的,参见图6,是本申请的又一个实施例提供的恶意钓鱼邮件的识别装置的结构示意图。除图4所示结构外,还包括机器学习模块100,用于:
获取多个恶意钓鱼邮件样本和多个正常邮件样本进行比对,确定恶意钓鱼邮件样本的多个第二特征信息集。
从恶意钓鱼邮件样本中提取多个第二特征信息集,根据信息增益算法,分别从各第二特征信息集中获取若干第二特征信息。
其中,第二特征信息集包括恶意钓鱼邮件的头部特征信息集、链接特征信息集、脚本特征信息集和心理情绪特征信息集。
根据若干第二特征信息对随机森林分类器进行训练,获取分类器。
本申请实施例提供一种恶意钓鱼邮件的识别装置,通过从社会工程学视角辨别和提取恶意钓鱼邮件的特征信息,通过信息增益算法计算特征信息的重要性进行有效降维后,使用机器学习方法,对恶意钓鱼邮件样本数据进行分类训练,从而使得到的分类器可对现网的恶意钓鱼邮件以社会工程学形式进行入侵的行为进行检测和识别,提升了应对新型恶意邮件进行入侵的安全防护能力和预警机制。
以上所述是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本申请的保护范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。

Claims (9)

1.一种恶意钓鱼邮件的识别方法,其特征在于,至少包括如下步骤:
获取邮件,从所述邮件中提取多个第一特征信息集;其中,所述第一特征信息集包括邮件的头部特征信息集、链接特征信息集、脚本特征信息集和心理情绪特征信息集;
根据信息增益算法,分别从各所述第一特征信息集中获取若干第一特征信息,将若干所述第一特征信息输入分类器,以使所述分类器根据若干所述第一特征信息,对所述邮件进行分类;
当所述邮件的分类结果为恶意邮件类时,判定所述邮件为恶意钓鱼邮件。
2.根据权利要求1所述的恶意钓鱼邮件的识别方法,其特征在于,还包括:
将所述邮件标记为训练样本,在所述分类器进行更新时,根据所述训练样本,训练所述分类器。
3.根据权利要求1所述的恶意钓鱼邮件的识别方法,其特征在于,在获取邮件之前,还包括:
获取多个恶意钓鱼邮件样本和多个正常邮件样本进行比对,确定所述恶意钓鱼邮件样本的多个第二特征信息集;
从所述恶意钓鱼邮件样本中提取多个所述第二特征信息集,根据信息增益算法,分别从各所述第二特征信息集中获取若干第二特征信息;其中,所述第二特征信息集包括恶意钓鱼邮件的头部特征信息集、链接特征信息集、脚本特征信息集和心理情绪特征信息集;
根据若干所述第二特征信息对随机森林分类器进行训练,获取所述分类器。
4.根据权利要求3所述的恶意钓鱼邮件的识别方法,其特征在于,所述根据若干所述第二特征信息对随机森林分类器进行训练,获取所述分类器,包括:
根据若干所述第二特征信息对随机森林分类器进行训练,获取分类器模型后,根据所述分类器模型对测试数据样本进行分类测试,并当测试结果与预设结果相同时,将所述分类器模型作为所述分类器;其中,所述测试数据样本为正常邮件测试样本或钓鱼邮件测试样本。
5.根据权利要求3所述的恶意钓鱼邮件的识别方法,其特征在于,所述恶意钓鱼邮件样本和所述正常邮件数据样本均为中文邮件样本。
6.根据权利要求1所述的恶意钓鱼邮件的识别方法,其特征在于,所述邮件为中文邮件。
7.一种恶意钓鱼邮件的识别装置,其特征在于,包括:
特征提取模块,用于获取邮件,从所述邮件中提取多个第一特征信息集;其中,所述第一特征信息集包括邮件的头部特征信息集、链接特征信息集、脚本特征信息集和心理情绪特征信息集;
邮件分类模块,用于根据信息增益算法,分别从各所述第一特征信息集中获取若干第一特征信息,将若干所述第一特征信息输入分类器,以使所述分类器根据若干所述第一特征信息,对所述邮件进行分类;
邮件识别模块,用于当所述邮件的分类结果为恶意邮件类时,判定所述邮件为恶意钓鱼邮件。
8.根据权利要求7所述的恶意钓鱼邮件的识别装置,其特征在于,还包括:
分类器更新模块,用于将所述邮件标记为训练样本,在所述分类器进行更新时,根据所述训练样本,训练所述分类器。
9.根据权利要求7所述的恶意钓鱼邮件的识别装置,其特征在于,还包括机器学习模块,用于:
获取多个恶意钓鱼邮件样本和多个正常邮件样本进行比对,确定所述恶意钓鱼邮件样本的多个第二特征信息集;
从所述恶意钓鱼邮件样本中提取多个所述第二特征信息集,根据信息增益算法,分别从各所述第二特征信息集中获取若干第二特征信息;其中,所述第二特征信息集包括恶意钓鱼邮件的头部特征信息集、链接特征信息集、脚本特征信息集和心理情绪特征信息集;
根据若干所述第二特征信息对随机森林分类器进行训练,获取所述分类器。
CN201910598350.5A 2019-07-03 2019-07-03 恶意钓鱼邮件的识别方法及装置 Pending CN110300054A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910598350.5A CN110300054A (zh) 2019-07-03 2019-07-03 恶意钓鱼邮件的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910598350.5A CN110300054A (zh) 2019-07-03 2019-07-03 恶意钓鱼邮件的识别方法及装置

Publications (1)

Publication Number Publication Date
CN110300054A true CN110300054A (zh) 2019-10-01

Family

ID=68030222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910598350.5A Pending CN110300054A (zh) 2019-07-03 2019-07-03 恶意钓鱼邮件的识别方法及装置

Country Status (1)

Country Link
CN (1) CN110300054A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111049733A (zh) * 2019-12-10 2020-04-21 公安部第三研究所 一种钓鱼邮件攻击的蔽性标识方法
CN111221970A (zh) * 2019-12-31 2020-06-02 论客科技(广州)有限公司 基于行为结构和语义内容联合分析的邮件分类方法及装置
CN111770086A (zh) * 2020-06-28 2020-10-13 深圳前海微众银行股份有限公司 钓鱼用户模拟收集方法、装置、系统与计算机可读存储介质
CN111859374A (zh) * 2020-07-20 2020-10-30 恒安嘉新(北京)科技股份公司 社会工程学攻击事件的检测方法、装置以及系统
CN112039874A (zh) * 2020-08-28 2020-12-04 绿盟科技集团股份有限公司 一种恶意邮件的识别方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102098235A (zh) * 2011-01-18 2011-06-15 南京邮电大学 一种基于文本特征分析的钓鱼邮件检测方法
CN104038391A (zh) * 2014-07-02 2014-09-10 网易(杭州)网络有限公司 一种垃圾邮件检测的方法和设备
CN107086952A (zh) * 2017-04-19 2017-08-22 中国石油大学(华东) 一种基于tf‑idf中文分词的贝叶斯垃圾邮件过滤方法
CN108183888A (zh) * 2017-12-15 2018-06-19 恒安嘉新(北京)科技股份公司 一种基于随机森林算法的社会工程学入侵攻击路径检测方法
CN108259415A (zh) * 2016-12-28 2018-07-06 北京奇虎科技有限公司 一种邮件检测的方法及装置
US20180359199A1 (en) * 2017-06-12 2018-12-13 Microsoft Technology Licensing, Llc Automatic action responses

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102098235A (zh) * 2011-01-18 2011-06-15 南京邮电大学 一种基于文本特征分析的钓鱼邮件检测方法
CN104038391A (zh) * 2014-07-02 2014-09-10 网易(杭州)网络有限公司 一种垃圾邮件检测的方法和设备
CN108259415A (zh) * 2016-12-28 2018-07-06 北京奇虎科技有限公司 一种邮件检测的方法及装置
CN107086952A (zh) * 2017-04-19 2017-08-22 中国石油大学(华东) 一种基于tf‑idf中文分词的贝叶斯垃圾邮件过滤方法
US20180359199A1 (en) * 2017-06-12 2018-12-13 Microsoft Technology Licensing, Llc Automatic action responses
CN108183888A (zh) * 2017-12-15 2018-06-19 恒安嘉新(北京)科技股份公司 一种基于随机森林算法的社会工程学入侵攻击路径检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谭浩文: "钓鱼邮件检测技术研究与实现", 《中国优秀硕士学位论文全文数据库》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111049733A (zh) * 2019-12-10 2020-04-21 公安部第三研究所 一种钓鱼邮件攻击的蔽性标识方法
CN111221970A (zh) * 2019-12-31 2020-06-02 论客科技(广州)有限公司 基于行为结构和语义内容联合分析的邮件分类方法及装置
WO2021136315A1 (zh) * 2019-12-31 2021-07-08 论客科技(广州)有限公司 基于行为结构和语义内容联合分析的邮件分类方法及装置
CN111770086A (zh) * 2020-06-28 2020-10-13 深圳前海微众银行股份有限公司 钓鱼用户模拟收集方法、装置、系统与计算机可读存储介质
CN111770086B (zh) * 2020-06-28 2023-10-10 深圳前海微众银行股份有限公司 钓鱼用户模拟收集方法、装置、系统与计算机可读存储介质
CN111859374A (zh) * 2020-07-20 2020-10-30 恒安嘉新(北京)科技股份公司 社会工程学攻击事件的检测方法、装置以及系统
CN111859374B (zh) * 2020-07-20 2024-03-19 恒安嘉新(北京)科技股份公司 社会工程学攻击事件的检测方法、装置以及系统
CN112039874A (zh) * 2020-08-28 2020-12-04 绿盟科技集团股份有限公司 一种恶意邮件的识别方法及装置
CN112039874B (zh) * 2020-08-28 2023-03-24 绿盟科技集团股份有限公司 一种恶意邮件的识别方法及装置

Similar Documents

Publication Publication Date Title
CN110300054A (zh) 恶意钓鱼邮件的识别方法及装置
Zhang et al. Phishing detection using neural network
CN102098235B (zh) 一种基于文本特征分析的钓鱼邮件检测方法
CN108399194A (zh) 一种网络威胁情报生成方法及系统
CN108200054A (zh) 一种基于dns解析的恶意域名检测方法及装置
CN110351244A (zh) 一种基于多卷积神经网络融合的网络入侵检测方法及系统
Magdy et al. Efficient spam and phishing emails filtering based on deep learning
CN107872436A (zh) 一种账号识别方法、装置及系统
CN104217160A (zh) 一种中文钓鱼网站检测方法及系统
CN102932348A (zh) 一种钓鱼网站的实时检测方法及系统
CN107889111A (zh) 基于深层类神经网络的骚扰电话识别方法和装置
CN108337153A (zh) 一种邮件的监控方法、系统与装置
CN103037339A (zh) 一种基于“用户信誉度和短信垃圾度”的短信息过滤方法
CN107256357A (zh) 基于深度学习的安卓恶意应用的检测和分析方法
CN107544961A (zh) 一种社交媒体评论的情感分析方法、设备及其存储设备
CN110457601B (zh) 社交账号的识别方法和装置、存储介质及电子装置
Vuković et al. An intelligent automatic hoax detection system
CN111835622A (zh) 信息拦截方法、装置、计算机设备和存储介质
CN108683649A (zh) 一种基于文本特征的恶意域名检测方法
Rayan Analysis of e-mail spam detection using a novel machine learning-based hybrid bagging technique
CN107196942A (zh) 一种基于用户语言特征的内部威胁检测方法
CN106973051A (zh) 建立检测网络威胁模型的方法、装置、存储介质和处理器
CN109478219A (zh) 用于显示网络分析的用户界面
Airoldi et al. Data mining challenges for electronic safety: The case of fraudulent intent detection in e-mails
Xiao et al. Malicious mail filtering and tracing system based on KNN and improved LSTM algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191001

RJ01 Rejection of invention patent application after publication