CN108347421B - 一种基于内容的恶意邮件检测方法及系统 - Google Patents
一种基于内容的恶意邮件检测方法及系统 Download PDFInfo
- Publication number
- CN108347421B CN108347421B CN201710205242.8A CN201710205242A CN108347421B CN 108347421 B CN108347421 B CN 108347421B CN 201710205242 A CN201710205242 A CN 201710205242A CN 108347421 B CN108347421 B CN 108347421B
- Authority
- CN
- China
- Prior art keywords
- frequency
- tested
- social
- appearing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/30—Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information
- H04L63/308—Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information retaining data, e.g. retaining successful, unsuccessful communication attempts, internet access, or e-mail, internet telephony, intercept related information or call content
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/212—Monitoring or handling of messages using filtering or selective blocking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Technology Law (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种基于内容的恶意邮件检测方法及系统,包括:收集针对预设岗位的已知社工邮件,并进行分词操作,获取该岗位相关的高频词汇并形成高频词列表;计算每封社工邮件的可疑值,所述可疑值与出现在该社工邮件中的每个高频词汇出现在所有邮件中的频率和出现在当前邮件中的次数有关;计算预设岗位的所有社工邮件的平均可疑值;对待测邮件进行分词操作,获取出现在所述高频词列表中的高频词汇;计算待测邮件的可疑值,将待测邮件可疑值与该岗位的平均可疑值进行比较,并判定待测邮件是否是恶意邮件。本发明所述技术方案能够根据不同岗位调整检测方案,不仅能够更加准确地检出恶意邮件,而且可根据用户需求调整筛选的细粒度。
Description
技术领域
本发明涉及网络安全技术领域,尤其涉及一种基于内容的恶意邮件检测方法及系统。
背景技术
电子邮件由于目标明显,攻击成本低,回报高,一直深受黑客的青睐。而团体内部若遭受垃圾邮件侵害,可能会造成重大的安全问题。
目前市场上有针对邮件产生的动静态检测技术。而基于内容的检测均是较为固定的方式方法,难以灵活调节过滤门槛,并且针对不同的岗位无法根据需要选择合适的过滤模式。
发明内容
针对上述技术问题,本发明所述的技术方案通过收集企业或者机构内部人员不同岗位接收到的已知社工邮件,并针对岗位不同进行分词操作并形成高频词列表,最终计算出该岗位对应的平均可疑值,进而通过对比待测邮件的可疑值与该岗位的平均可疑值判定是否是恶意邮件。本发明不仅能够准确识别有针对性的社工邮件,并且能够进行检测细粒度和门槛值的调整,使得检测更加准确和灵活。
本发明采用如下方法来实现:一种基于内容的恶意邮件检测方法,包括:
收集针对预设岗位的已知社工邮件,并进行分词操作,获取高频词汇并形成高频词列表;
计算每封社工邮件的可疑值其中,m为每封社工邮件中出现高频词列表中的高频词汇数量,Pi为当前社工邮件中第i个高频词汇出现在所有邮件中的总频率,Ci为当前社工邮件中第i个高频词汇出现在当前社工邮件中的次数;
对待测邮件进行分词操作,获取出现在所述高频词列表中的高频词汇;
进一步地,在所述对待测邮件进行分词操作之前,还包括:将所述待测邮件与历史社工邮件黑名单进行匹配,若匹配成功,则判定为恶意邮件,否则对待测邮件进行分词操作。
更进一步地,所述历史社工邮件黑名单中记录了历史社工邮件的发送邮箱地址。
本发明可以采用如下系统来实现:一种基于内容的恶意邮件检测系统,包括:
社工邮件处理模块,用于收集针对预设岗位的已知社工邮件,并进行分词操作,获取高频词汇并形成高频词列表;
社工邮件可疑值计算模块,用于计算每封社工邮件的可疑值其中,m为每封社工邮件中出现高频词列表中的高频词汇数量,Pi为当前社工邮件中第i个高频词汇出现在所有邮件中的总频率,Ci为当前社工邮件中第i个高频词汇出现在当前社工邮件中的次数;
待测邮件处理模块,用于对待测邮件进行分词操作,获取出现在所述高频词列表中的高频词汇;
待测邮件可疑值计算模块,用于计算待测邮件的可疑值其中,m为待测邮件中出现高频词列表中的高频词汇数量;qi为待测邮件中第i个高频词汇出现在待测邮件中的频率,ni为待测邮件中第i个高频词汇出现在待测邮件中的次数;
进一步地,还包括:黑名单匹配模块,用于在将待测邮件发送至待测邮件处理模块之前,将所述待测邮件与历史社工邮件黑名单进行匹配,若匹配成功,则判定为恶意邮件,否则将待测邮件发送至待测邮件处理模块。
更进一步地,所述历史社工邮件黑名单中记录了历史社工邮件的发送邮箱地址。
上述系统中,所述比较判定模块,具体用于:
综上,本发明给出一种基于内容的恶意邮件检测方法及系统,通过针对预设岗位的不同收集相关的已知社工邮件,并通过分词处理获取当前预设岗位相关的高频词列表,随后计算所有该岗位社工邮件的可疑值,所述可疑值与社工邮件中出现的高频词汇的频率和次数有关;得到所有社工邮件的可疑值后计算该岗位的平均可疑值;获取待测邮件并基于同样的分词方法进行处理,获取命中高频词列表的所有高频词汇,并进一步计算待测邮件的可疑值;最后将待测邮件的可疑值与本岗位相关的平均可疑值对比进而判定是否是恶意邮件。本发明所公开的技术方案不仅能够有效识别恶意社工邮件,而且由于其针对不同岗位定制高频词列表,进而提升了检测的准确性,并且能够根据不同时期,不同细粒度要求适当调节检测门槛,更具灵活性。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于内容的恶意邮件检测方法实施例流程图;
图2为本发明提供的一种基于内容的恶意邮件检测系统实施例结构图。
具体实施方式
本发明给出了一种基于内容的恶意邮件检测方法及系统实施例,为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明中技术方案作进一步详细的说明:
本发明首先提供了一种基于内容的恶意邮件检测方法实施例,如图1所示,包括:
S101:收集针对预设岗位的已知社工邮件,并进行分词操作,获取高频词汇并形成高频词列表;攻击者针对不同岗位的社工邮件会编辑有针对性的内容并使用该岗位相关的词汇,因此针对不同岗位收集社工邮件并形成高频词列表,能够使得最终的检测更加准确。
S102:计算每封社工邮件的可疑值其中,m为每封社工邮件中出现高频词列表中的高频词汇数量,Pi为当前社工邮件中第i个高频词汇出现在所有邮件中的总频率,Ci为当前社工邮件中第i个高频词汇出现在当前社工邮件中的次数。
例如:存在一封社工邮件,包括:A、B、C、D四个出现在高频词列表中的高频词汇,则此时m为4,该社工邮件的可疑值Q=PA*CA+PB*CB+PC*CC+PD*CD。PA、PB、PC、PD为高频词汇A、B、C、D出现在所有该岗位的社工邮件中的次数与所有社工邮件总的分词数的比值。CA、CB、CC、CD为高频词汇A、B、C、D出现在当前社工邮件中的次数。
S104:将待测邮件与历史社工邮件黑名单进行匹配,若匹配成功,则判定为恶意邮件,否则执行S105;其中,所述历史社工邮件黑名单中记录了历史社工邮件的发送邮箱地址。本步骤可以预先过滤掉在黑名单中的已知社工邮件。
S105:对待测邮件进行分词操作,获取出现在所述高频词列表中的高频词汇。所述分词操作的具体实施手段存在很多现有技术手段可选,在此不做赘述。
若则判定待测邮件是正常邮件;其中,所述0≤ε<1,且ε根据用户需要选择。用户可以根据ε的取值调整来控制检测的细粒度和门槛,当ε值越小,则恶意邮件的判定条件就越苛刻,粒度细;当ε值越大,则恶意邮件的判定条件就越粗狂,粒度粗。
其中,对于判定为恶意邮件的待测邮件,提取其来源信息,并更新至社工邮件黑名单中。
本发明其次提供了一种基于内容的恶意邮件检测系统实施例,如图2所示,包括:
社工邮件处理模块201,用于收集针对预设岗位的已知社工邮件,并进行分词操作,获取高频词汇并形成高频词列表;
社工邮件可疑值计算模块202,用于计算每封社工邮件的可疑值其中,m为每封社工邮件中出现高频词列表中的高频词汇数量,Pi为当前社工邮件中第i个高频词汇出现在所有邮件中的总频率,Ci为当前社工邮件中第i个高频词汇出现在当前社工邮件中的次数;
待测邮件处理模块204,用于对待测邮件进行分词操作,获取出现在所述高频词列表中的高频词汇;
待测邮件可疑值计算模块205,用于计算待测邮件的可疑值其中,m为待测邮件中出现高频词列表中的高频词汇数量;qi为待测邮件中第i个高频词汇出现在待测邮件中的频率,ni为待测邮件中第i个高频词汇出现在待测邮件中的次数;
优选地,还包括:黑名单匹配模块,用于在将待测邮件发送至待测邮件处理模块之前,将所述待测邮件与历史社工邮件黑名单进行匹配,若匹配成功,则判定为恶意邮件,否则将待测邮件发送至待测邮件处理模块。
更优选地,所述历史社工邮件黑名单中记录了历史社工邮件的发送邮箱地址。
上述系统实施例中,所述比较判定模块,具体用于:
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
如上所述,上述实施例给出了一种基于内容的恶意邮件检测方法及系统实施例,通过针对预设岗位收集已知社工邮件,并进行处理获取高频词列表,基于高频词列表计算各社工邮件的可疑值,最终得到该预设岗位的平均可疑值;当发现可疑邮件,则计算该可疑邮件的可疑值,并与该预设岗位的平均可疑值比较最终判定是否是恶意邮件。本发明所提供的上述实施例随着收集到的已知社工邮件的增多,词频统计的效果也更加明显和准确,随之而来检出效果也随之提高。并且上述实施例可以根据用户的需要去调节检出的细粒度,使得检测更加灵活可配置。
以上实施例用以说明而非限制本发明的技术方案。不脱离本发明精神和范围的任何修改或局部替换,均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.一种基于内容的恶意邮件检测方法,其特征在于,包括:
收集针对预设岗位的已知社工邮件,并进行分词操作,获取高频词汇并形成高频词列表;
计算每封社工邮件的可疑值其中,m为每封社工邮件中出现高频词列表中的高频词汇数量,Pi为当前社工邮件中第i个高频词汇出现在所有邮件中的总频率,Ci为当前社工邮件中第i个高频词汇出现在当前社工邮件中的次数;
对待测邮件进行分词操作,获取出现在所述高频词列表中的高频词汇;
2.如权利要求1所述的方法,其特征在于,在所述对待测邮件进行分词操作之前,还包括:将所述待测邮件与历史社工邮件黑名单进行匹配,若匹配成功,则判定为恶意邮件,否则对待测邮件进行分词操作。
3.如权利要求2所述的方法,其特征在于,所述历史社工邮件黑名单中记录了历史社工邮件的发送邮箱地址。
5.一种基于内容的恶意邮件检测系统,其特征在于,包括:
社工邮件处理模块,用于收集针对预设岗位的已知社工邮件,并进行分词操作,获取高频词汇并形成高频词列表;
社工邮件可疑值计算模块,用于计算每封社工邮件的可疑值其中,m为每封社工邮件中出现高频词列表中的高频词汇数量,Pi为当前社工邮件中第i个高频词汇出现在所有邮件中的总频率,Ci为当前社工邮件中第i个高频词汇出现在当前社工邮件中的次数;
待测邮件处理模块,用于对待测邮件进行分词操作,获取出现在所述高频词列表中的高频词汇;
待测邮件可疑值计算模块,用于计算待测邮件的可疑值其中,m为待测邮件中出现高频词列表中的高频词汇数量;qi为待测邮件中第i个高频词汇出现在待测邮件中的频率,ni为待测邮件中第i个高频词汇出现在待测邮件中的次数;
6.如权利要求5所述的系统,其特征在于,还包括:黑名单匹配模块,用于在将待测邮件发送至待测邮件处理模块之前,将所述待测邮件与历史社工邮件黑名单进行匹配,若匹配成功,则判定为恶意邮件,否则将待测邮件发送至待测邮件处理模块。
7.如权利要求6所述的系统,其特征在于,所述历史社工邮件黑名单中记录了历史社工邮件的发送邮箱地址。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710205242.8A CN108347421B (zh) | 2017-03-31 | 2017-03-31 | 一种基于内容的恶意邮件检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710205242.8A CN108347421B (zh) | 2017-03-31 | 2017-03-31 | 一种基于内容的恶意邮件检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108347421A CN108347421A (zh) | 2018-07-31 |
CN108347421B true CN108347421B (zh) | 2020-06-19 |
Family
ID=62962078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710205242.8A Active CN108347421B (zh) | 2017-03-31 | 2017-03-31 | 一种基于内容的恶意邮件检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108347421B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110474837A (zh) * | 2019-08-19 | 2019-11-19 | 赛尔网络有限公司 | 一种垃圾邮件处理方法、装置、电子设备及存储介质 |
JP7310648B2 (ja) | 2020-02-27 | 2023-07-19 | 株式会社ナカヨ | メール端末、不審メール検出システム、プログラム、および不審メールの検出方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101764765A (zh) * | 2009-12-21 | 2010-06-30 | 北京大学 | 基于用户兴趣的垃圾邮件过滤方法 |
CN102842078A (zh) * | 2012-07-18 | 2012-12-26 | 南京邮电大学 | 一种基于社群特征分析的电子邮件取证分析方法 |
EP2665230A1 (en) * | 2012-05-14 | 2013-11-20 | Deutsche Telekom AG | Method and system for email spam detection, using aggregated historical data set |
-
2017
- 2017-03-31 CN CN201710205242.8A patent/CN108347421B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101764765A (zh) * | 2009-12-21 | 2010-06-30 | 北京大学 | 基于用户兴趣的垃圾邮件过滤方法 |
EP2665230A1 (en) * | 2012-05-14 | 2013-11-20 | Deutsche Telekom AG | Method and system for email spam detection, using aggregated historical data set |
CN102842078A (zh) * | 2012-07-18 | 2012-12-26 | 南京邮电大学 | 一种基于社群特征分析的电子邮件取证分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108347421A (zh) | 2018-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107154950B (zh) | 一种日志流异常检测的方法及系统 | |
US10044656B2 (en) | Statistical message classifier | |
US8370930B2 (en) | Detecting spam from metafeatures of an email message | |
US10212114B2 (en) | Systems and methods for spam detection using frequency spectra of character strings | |
JP5990284B2 (ja) | キャラクター・ヒストグラムを用いるスパム検出のシステムおよび方法 | |
CN110874674B (zh) | 一种异常检测方法、装置及设备 | |
CN105721416A (zh) | 一种apt事件攻击组织同源性分析方法及装置 | |
CN109063969B (zh) | 一种账户风险评估的方法及装置 | |
WO2012154657A3 (en) | Robust anomaly detection and regularized domain adaptation of classifiers with application to internet packet-flows | |
Ranganayakulu et al. | Detecting malicious urls in e-mail–an implementation | |
EP1746768A3 (en) | Method and apparatus for data network sampling | |
CA2977807C (en) | Technique for detecting suspicious electronic messages | |
TW200949570A (en) | Method for filtering e-mail and mail filtering system thereof | |
CN109802915B (zh) | 一种电信诈骗检测处理方法及装置 | |
CN108347421B (zh) | 一种基于内容的恶意邮件检测方法及系统 | |
CN109660517B (zh) | 异常行为检测方法、装置及设备 | |
CN107743087B (zh) | 一种邮件攻击的检测方法及系统 | |
US8356076B1 (en) | Apparatus and method for performing spam detection and filtering using an image history table | |
CN111178347B (zh) | 证件图像的模糊度检测方法、装置、设备及存储介质 | |
CN103001848B (zh) | 垃圾邮件过滤方法及装置 | |
CN106897619A (zh) | 移动终端恶意软件感知方法及装置 | |
KR101792203B1 (ko) | 보이스 피싱 위험 단어의 거리 계산을 통한 보이스 피싱 판단 장치 및 방법 | |
CN107786524B (zh) | 高级持续性威胁的检测方法和装置 | |
CN113810329B (zh) | 一种邮箱账号异常的检测方法及检测系统 | |
CN114070644B (zh) | 一种垃圾邮件拦截方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |