CN113556347B - 一种钓鱼邮件的检测方法、装置、设备及存储介质 - Google Patents
一种钓鱼邮件的检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113556347B CN113556347B CN202110832587.2A CN202110832587A CN113556347B CN 113556347 B CN113556347 B CN 113556347B CN 202110832587 A CN202110832587 A CN 202110832587A CN 113556347 B CN113556347 B CN 113556347B
- Authority
- CN
- China
- Prior art keywords
- domain name
- error correction
- spelling
- target
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 47
- 238000012937 correction Methods 0.000 claims abstract description 98
- 238000000034 method Methods 0.000 claims abstract description 60
- 230000008569 process Effects 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 9
- 238000004590 computer program Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1483—Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/45—Network directories; Name-to-address mapping
- H04L61/4505—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
- H04L61/4511—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L2101/00—Indexing scheme associated with group H04L61/00
- H04L2101/30—Types of network names
- H04L2101/37—E-mail addresses
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请公开了一种钓鱼邮件的检测方法、装置、电子设备及计算机可读存储介质,该方法包括:提取邮件数据中与域名有关的各目标字段构成字段集合;提取字段集合中的各目标域名构成域名集合,目标域名包括一级域名和/或子域域名;调用域名拼写纠错模型对域名集合中的目标域名进行处理;域名拼写纠错模型基于拼写纠错算法而预先训练生成,用于在输入了拼写错误的域名后输出对应的拼写正确的域名;将令域名拼写纠错模型输出不为空的目标域名所对应的邮件判定为钓鱼邮件。本申请利用预先训练的域名拼写纠错模型,可以有效识别采用非拼接混淆类手段进行伪装的钓鱼邮件,有效防止用户账号受此类钓鱼邮件的侵害,极大提高了邮件使用的安全性。
Description
技术领域
本申请涉及网络安全检测技术领域,特别涉及一种钓鱼邮件的检测方法、装置、电子设备及计算机可读存储介质。
背景技术
随着网络信息技术的发展,网络安全问题也层出不穷。不少非法人员通过向用户发送恶意邮件来实施其网络犯罪活动,例如盗取用户的信息,控制用户的电脑等。
其中,钓鱼邮件对用户的危害很大,其经常使用的一种钓鱼手法,是通过模仿知名域名来欺骗用户进行登陆、转账、下载恶意附件等危险操作。所以,对钓鱼邮件进行有效检测、避免相应损失是非常重要的。
当前检测钓鱼邮件的方法主要是基于拼接混淆检测;该方案可以检测出知名域名与其他字符串进行拼接后的结果,例如google-id.com,baidu-app.com等。但是,针对一些非拼接类的钓鱼邮件,该方案则无能为力。例如,对于使用如sf-expresss.com(故意与某正常公知域名sf-express.com相接近而容易令人混淆)等这类恶意域名的钓鱼邮件,该方案则无法检测。
鉴于此,提供一种解决上述技术问题的方案,已经是本领域技术人员所亟需关注的。
发明内容
本申请的目的在于提供一种钓鱼邮件的检测方法、装置、电子设备及计算机可读存储介质,以便对利用非拼接混淆类伪装手段的钓鱼邮件进行有效检测,提高邮件安全保障。
为解决上述技术问题,一方面,本申请公开了一种钓鱼邮件的检测方法,包括:
提取邮件数据中与域名有关的各目标字段构成字段集合;
提取所述字段集合中的各目标域名构成域名集合,所述目标域名包括一级域名和/或子域域名;
调用域名拼写纠错模型对所述域名集合中的目标域名进行处理;所述域名拼写纠错模型基于拼写纠错算法而预先训练生成,用于在输入了拼写错误的域名后输出对应的拼写正确的域名;
将令所述域名拼写纠错模型输出不为空的目标域名所对应的邮件判定为钓鱼邮件。
可选地,所述提取邮件数据中与域名有关的各目标字段构成字段集合,包括:
提取所述邮件数据中的mailfrom字段、from字段、helo字段和url字段中的至少之一,以构成所述字段集合。
可选地,所述提取所述邮件数据中的mailfrom字段、from字段、helo字段和url字段中的至少之一,包括:
基于字段标识从所述邮件数据中提取mailfrom字段、from字段、helo字段中的至少之一;
和/或,基于预设正则表达式从所述邮件数据中提取邮件正文中的url字段。
可选地,在所述调用域名拼写纠错模型对所述域名集合中的目标域名进行处理之前,还包括:
基于域名白名单对所述域名集合中的目标域名进行检测,所述域名白名单中记录有拼写正确的常见域名;
将被所述域名白名单命中的目标域名从所述域名集合中剔除;
所述调用域名拼写纠错模型对所述域名集合中的目标域名进行处理,包括:
调用域名拼写纠错模型对经过剔除更新后的所述域名集合中的目标域名进行处理。
可选地,所述调用域名拼写纠错模型对所述域名集合中的目标域名进行处理,具体包括:
调用域名拼写纠错模型对所述域名集合中的目标域名进行纠删查改,以便在所述目标域名拼写错误时输出对应的预设数量个拼写正确的域名。
可选地,所述在所述目标域名拼写错误时输出对应的预设数量个拼写正确的域名,包括:
将与所述目标域名对应的各个拼写正确的域名按照用户使用频次从高到低进行排名;
输出排名靠前的预设数量个拼写正确的域名。
又一方面,本申请还公开了一种钓鱼邮件的检测装置,包括:
提取模块,用于提取邮件数据中与域名有关的各目标字段构成字段集合;提取所述字段集合中的各目标域名构成域名集合,所述目标域名包括一级域名和/或子域域名;
调用模块,用于调用域名拼写纠错模型对所述域名集合中的目标域名进行处理;所述域名拼写纠错模型基于拼写纠错算法而预先训练生成,用于在输入了拼写错误的第一域名后输出对应的拼写正确的第二域名;
判定模块,用于将令所述域名拼写纠错模型输出不为空的目标域名所对应的邮件判定为钓鱼邮件。
可选地,还包括:
检测模块,用于在调用模块调用域名拼写纠错模型对所述域名集合中的目标域名进行处理之前,基于域名白名单对所述域名集合中的目标域名进行检测,并将被所述域名白名单命中的目标域名从所述域名集合中剔除;所述域名白名单中记录有拼写正确的常见域名。
又一方面,本申请还公开了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如上所述的任一种钓鱼邮件的检测方法的步骤。
又一方面,本申请还公开了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用以实现如上所述的任一种钓鱼邮件的检测方法的步骤。
本申请所提供的钓鱼邮件的检测方法、装置、电子设备及计算机可读存储介质所具有的有益效果是:本申请利用预先训练的域名拼写纠错模型,可以有效识别采用非拼接混淆类手段进行伪装的钓鱼邮件,有效防止用户账号受此类钓鱼邮件的侵害,极大提高了邮件使用的安全性。
附图说明
为了更清楚地说明现有技术和本申请实施例中的技术方案,下面将对现有技术和本申请实施例描述中需要使用的附图作简要的介绍。当然,下面有关本申请实施例的附图描述的仅仅是本申请中的一部分实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图,所获得的其他附图也属于本申请的保护范围。
图1为本申请实施例公开的一种钓鱼邮件的检测方法的流程图;
图2为本申请实施例公开的又一种钓鱼邮件的检测方法的流程图;
图3为本申请实施例公开的一种钓鱼邮件的检测装置的结构框图;
图4为本申请实施例公开的一种电子设备的结构框图。
具体实施方式
本申请的核心在于提供一种钓鱼邮件的检测方法、装置、电子设备及计算机可读存储介质,以便对利用非拼接混淆类伪装手段的钓鱼邮件进行有效检测,提高邮件安全保障。
为了对本申请实施例中的技术方案进行更加清楚、完整地描述,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行介绍。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
钓鱼邮件一般利用伪装的电邮,欺骗收件人将账号、口令等信息回复给指定的接收者;或者引导收件人连接到特制的网页,而这些网页则通常会被伪装成和真实网站看似相同的样子,例如银行或理财的网页,从而令登录者信以为真,输入信用卡或银行卡号码、账户名称及密码等,导致用户重要信息被盗取,产生重大财产损失。
针对当前利用非拼接手段进行伪装的钓鱼邮件的检测空白问题,本申请提供了一种钓鱼邮件的检测方案,可有效解决上述问题。
参见图1所示,本申请实施例公开了一种钓鱼邮件的检测方法,主要包括:
S101:提取邮件数据中与域名有关的各目标字段构成字段集合。
S102:提取字段集合中的各目标域名构成域名集合,目标域名包括一级域名和/或子域域名。
S103:调用域名拼写纠错模型对所述域名集合中的目标域名进行处理;所述域名拼写纠错模型基于拼写纠错算法而预先训练生成,用于在输入了拼写错误的域名后输出对应的拼写正确的域名。
S104:将令域名拼写纠错模型输出不为空的目标域名所对应的邮件判定为钓鱼邮件。
具体地,利用非拼接类手段进行伪装的钓鱼邮件,常常采用的是一些与其他正常网络域名相差若干(一般为一个)字符的假域名,从而达到伪装自己、混淆真假域名的目的。例如,某个恶意域名为sf-expresss.com,其具体是通过将某个正常域名sf-express.com中多添加一个字符s的方式来进行自我伪装。
针对于此,本申请提出了一种基于域名拼写纠错的钓鱼邮件检测方案。具体地,本申请预先训练生成了一个域名拼写纠错模型,该模型的工作原理与单词的拼写自动纠错相类似,当输入了一个拼写错误的域名时,本申请所提供的域名拼写纠错模型将自动输出对应的拼写正确的域名。而当输入了一个拼写正确的域名时,则域名拼写纠错模型因无需拼写纠错而输出为空。例如,当输入了拼写错误的域名sf-expresss.com时,该模型将输出对应的拼写正确的域名sf-express.com。
具体地,域名拼写纠错模型基于拼写纠错算法而实现。可预先获取海量的拼写正确的域名构成域名库,并与域名拼写纠错模型建立关联。当域名拼写纠错模型被输入了一个第一域名后,便基于拼写纠错算法进行纠删查改。所谓纠删查改,即基于第一域名通过替换、删除、增添若干字符的方式得到第二域名,将第二域名在域名库中进行查找。若第二域名是被域名库命中(即拼写正确)的域名,说明输入的第一域名是一个企图通过拼写错误而与第二域名产生混淆的恶意域名,此时域名拼写纠错模型将输出该第二域名。如果得到的第二域名不是被域名库命中的域名,则第一域名默认是一个拼写正确的域名,则此时域名拼写纠错模型输出为空。如此,本申请便可以利用该域名拼写纠错模型来检测这些采用非拼接手段进行伪装的钓鱼邮件。在进行检测时,本申请可首先将一般邮件中有可能涉及到域名的各种字段确定为目标字段;在获取了用户的邮件数据后,可将这些邮件数据中的各个目标字段提取出来,构成字段集合;然后将该字段集合中的各个字段所包含的各个目标域名提取出来构成域名集合,并利用域名拼写纠错模型对这些目标域名进行拼写纠错检测。
其中,邮件数据可具体从与邮件相关的日志文件中获取。目标字段即邮件数据中可能会出现域名的字段。还需要说明的是,域名按层级分类,一般包括顶级域名、一级域名、二级域名、三级域名……。其中,二级域名及以上域名统称为子域域名。本申请中需要从目标字段中提取的目标域名,具体可以是一级域名,也可以是二级域名、三级域名等子域域名,也可以是两者中的任意组合。
其中,顶级域名为域名中位于“.”最右边的部分,常用于区分国家和地区(例如,中国使用.cn,美国使用.us),或者区分组织机构性质(例如,工商企业使用.com,非营利性机构使用.org)。一级域名则在顶级域名的基础上加了域名主体,例如*.com等形式;域名主体中可具体使用英文字母、数字和连字符,例如baidu.com就是一个一级域名。二级域名是在一级域名的基础上又增加了一级,而三级域名则是二级域名的子域名。例如,*.com是一级域名,*.*.com是二级域名,*.*.*.com就是三级域名。容易理解的是,如果受检测的目标域名被域名拼写纠错模型处理后有输出的话,则可说明该目标域名为错误拼写的域名,对应于该目标域名的邮件便可被判定为钓鱼邮件。相反地,考虑到提取自同一邮件的目标字段可能为多个,对应得到的目标域名也可能为多个,因此,如果对应于同一邮件的所有目标域名在被域名拼写纠错模型检测时的输出均为空,则可判定该邮件为正常邮件。
可见,本申请所提供的钓鱼邮件的检测方法,利用预先训练的域名拼写纠错模型,可以有效识别采用非拼接混淆类手段进行伪装的钓鱼邮件,有效防止用户账号受此类钓鱼邮件的侵害,极大提高了邮件使用的安全性。
作为一种具体实施例,本申请实施例所提供的钓鱼邮件的检测方法在上述内容的基础上,提取邮件数据中与域名有关的各目标字段构成字段集合,包括:
提取邮件数据中的mailfrom字段、from字段、helo字段和url字段中的至少之一,以构成字段集合。
一般地,邮件中会涉及到域名的字段有mailfrom字段、from字段、helo字段、url字段这几种,因此,本申请中的目标字段可具体为mailfrom字段、from字段、helo字段、url字段。具体地:
mailfrom用于表征邮件的发件人地址;
from用于显示在收件人信箱中以指示发件人地址;
helo用于向对方标识自己的身份,例如,helo mail.alpha.com.cn即意为"嗨,我是mail.alpha.com.cn"。
Url即(统一资源标识符),有些邮件正文中常常会附带上一些url,而这些url中通常均包含域名,例如http://example.com/xxxx.html等。
作为一种具体实施例,本申请实施例所提供的钓鱼邮件的检测方法在上述内容的基础上,提取邮件数据中的mailfrom字段、from字段、helo字段和url字段中的至少之一,包括:
基于字段标识从邮件数据中提取mailfrom字段、from字段、helo字段中的至少之一;
和/或,基于预设正则表达式从邮件数据中提取邮件正文中的url字段。
具体地,mailfrom字段、from字段、helo字段均分别以字符mailfrom、from、helo开头,因此可以这些字符为标识进行字段提取。url则可基于相匹配的正则表达式进行提取。
参见图2,图2为本申请实施例提供的又一种钓鱼邮件的检测方法的流程图,主要包括:
S201:提取邮件数据中的mailfrom字段、from字段、helo字段和url字段构成字段集合。
S202:提取字段集合中的各目标域名构成域名集合。
S203:基于域名白名单对域名集合中的目标域名进行检测;域名白名单中记录有拼写正确的常见域名。
S204:将被域名白名单命中的目标域名从域名集合中剔除。
S205:调用域名拼写纠错模型对经过剔除更新后的域名集合中的目标域名进行处理;域名拼写纠错模型基于拼写纠错算法而预先训练生成,用于在输入了拼写错误的域名后输出对应的拼写正确的域名。
S206:将令域名拼写纠错模型输出不为空的目标域名所对应的邮件判定为钓鱼邮件。
如图2所示,作为一种具体实施例,本申请实施例所提供的钓鱼邮件的检测方法在上述内容的基础上,在调用域名拼写纠错模型对域名集合中的目标域名进行处理之前,还包括:
基于域名白名单对域名集合中的目标域名进行检测;域名白名单中记录有拼写正确的常见域名;
将被域名白名单命中的目标域名从域名集合中剔除。
具体地,本实施例中还进一步设置有域名白名单,该域名白名单中记录有大量拼写正确的常见域名,例如为公众所常用的知名域名:baidu.com、bing.com等。先将域名集合中的目标域名在该白名单中进行匹配检测,域名集合中凡是出现在该白名单中的目标域名,均可判定为正常域名。若来自同一邮件的目标域名均被检中在白名单中,那么该邮件为正常邮件。
所有被白名单命中的目标域名,构成了白名单命中集合,可将其从域名集合中剔除,剔除更新后的域名集合则是初始时的域名集合与白名单命中集合的差集。也就是说,该差集是对于没有出现在白名单中的一级目标域名的集合,可大大减少域名拼写纠错模型的处理量。如此,本申请将基于白名单更新后的域名集合输入至域名拼写纠错模型进行检测,可有效提高检测效率。
作为一种具体实施例,本申请实施例所提供的钓鱼邮件的检测方法在上述内容的基础上,调用域名拼写纠错模型对域名集合中的目标域名进行处理,具体包括:
调用域名拼写纠错模型对域名集合中的目标域名进行纠删查改,以便在所述目标域名拼写错误时输出与对应的预设数量个拼写正确的域名。
具体地,考虑到某些伪装后的恶意域名,有可能基于多个正常域名进行字符变换均可以得到,因此,本实施例中的域名拼写纠错模型具体可以将该目标域名有可能对应的多个拼写正确的正常域名均列举出来。
作为一种具体实施例,本申请实施例所提供的钓鱼邮件的检测方法在上述内容的基础上,在目标域名拼写错误时输出对应的预设数量个拼写正确的域名,包括:
对与目标域名对应的各个拼写正确的域名按照用户使用频次从高到低进行排名;
输出排名靠前的预设数量个拼写正确的域名。
具体地,本实施例中的域名拼写纠错模型在输出多个有可能对应的正常域名时,具体可以按照用户使用频次由高到低的顺序,或者说是知名度从高到低的顺序,输出预设数量个对应的正常域名。
当然,该预设数量也可具体为1个。因为利用钓鱼邮件时,伪造越知名的网站越容易达到欺诈的目的。因此,可具体选择输出概率最高的一个正常域名,用公式表示,即为:
argmax p(c|w),c∈candidates;
其中,argmax表示选择各个备选的正常域名中概率最高的;c表示某个正常域名;w表示某个输入的域名;candidates表示由各个可能的正常域名构成的备选集;p(c|w)表示当域名输入为w时,其所模仿的正常域名是c的概率值。
参见图3所示,本申请实施例公开了一种钓鱼邮件的检测装置,主要包括:
提取模块301,用于提取邮件数据中与域名有关的各目标字段构成字段集合;提取字段集合中的各域名构成域名集合;
调用模块302,用于调用域名拼写纠错模型对域名集合中的域名进行处理;域名拼写纠错模型基于拼写纠错算法而预先训练生成,用于输出与拼写错误的域名所对应的正确的域名;
判定模块303,用于将令域名拼写纠错模型输出不为空的域名所对应的邮件判定为钓鱼邮件。
可见,本申请实施例所公开的钓鱼邮件的检测装置,利用预先训练的域名拼写纠错模型,可以有效识别采用非拼接混淆类手段进行伪装的钓鱼邮件,有效防止用户账号受此类钓鱼邮件的侵害,极大提高了邮件使用的安全性。
关于上述钓鱼邮件的检测装置的具体内容,可参考前述关于钓鱼邮件的检测方法的详细介绍,这里就不再赘述。
作为一种具体实施例,本申请实施例所公开的钓鱼邮件的检测装置在上述内容的基础上,提取模块301在提取邮件数据中与域名有关的各目标字段构成字段集合时,具体用于:
提取邮件数据中的mailfrom字段、from字段、helo字段和url字段,以构成字段集合。
作为一种具体实施例,本申请实施例所公开的钓鱼邮件的检测装置在上述内容的基础上,提取模块301在提取邮件数据中与域名有关的各目标字段构成字段集合时,具体用于:
基于字段标识从邮件数据中提取mailfrom字段、from字段、helo字段;
基于预设正则表达式从邮件数据中提取邮件正文中的url字段。
作为一种具体实施例,本申请实施例所公开的钓鱼邮件的检测装置在上述内容的基础上,还包括:
检测模块,用于在调用模块调用域名拼写纠错模型对域名集合中的域名进行处理之前,基于域名白名单对域名集合中的域名进行检测,并将被域名白名单命中的域名从域名集合中剔除;域名白名单中记录有正确的域名。
作为一种具体实施例,本申请实施例所公开的钓鱼邮件的检测装置在上述内容的基础上,调用模块302在调用域名拼写纠错模型对域名集合中的域名进行处理时,具体用于:
调用域名拼写纠错模型对域名集合中的域名进行处理,以获取与域名对应的预设数量个正确的域名。
作为一种具体实施例,本申请实施例所公开的钓鱼邮件的检测装置在上述内容的基础上,调用模块302在调用域名拼写纠错模型对域名集合中的域名进行处理时,具体用于:
对与域名对应的各个正确的域名按照用户使用频次进行排名;
获取排名靠前的预设数量个正确的域名。
参见图4所示,本申请实施例公开了一种电子设备,包括:
存储器401,用于存储计算机程序;
处理器402,用于执行所述计算机程序以实现如上所述的任一种钓鱼邮件的检测方法的步骤。
进一步地,本申请实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用以实现如上所述的任一种钓鱼邮件的检测方法的步骤。
关于上述电子设备和计算机可读存储介质的具体内容,可参考前述关于钓鱼邮件的检测方法的详细介绍,这里就不再赘述。
本申请中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的设备而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需说明的是,在本申请文件中,诸如“第一”和“第二”之类的关系术语,仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。此外,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的技术方案进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请的保护范围内。
Claims (10)
1.一种钓鱼邮件的检测方法,其特征在于,包括:
提取邮件数据中与域名有关的各目标字段构成字段集合;
提取所述字段集合中的各目标域名构成域名集合,所述目标域名包括一级域名和/或子域域名;
调用域名拼写纠错模型对所述域名集合中的目标域名进行处理;所述域名拼写纠错模型基于拼写纠错算法而预先训练生成,用于在输入了拼写错误的域名后输出对应的拼写正确的域名;具体的,当所述域名拼写纠错模型被输入一个第一域名后,基于拼写纠错算法进行纠删查改;所述纠删查改,为基于第所述一域名通过替换、删除、增添若干字符的方式得到第二域名,将所述第二域名在拼写正确的域名构成的域名库中进行查找;若所述第二域名是被所述域名库命中的域名,说明所述第一域名为一个企图通过拼写错误而与所述第二域名产生混淆的恶意域名,此时所述域名拼写纠错模型将输出所述第二域名;如果得到的所述第二域名不是被所述域名库命中的域名,则所述第一域名为一个拼写正确的域名,则所述域名拼写纠错模型输出为空;
将令所述域名拼写纠错模型输出不为空的目标域名所对应的邮件判定为钓鱼邮件。
2.根据权利要求1所述的检测方法,其特征在于,所述提取邮件数据中与域名有关的各目标字段构成字段集合,包括:
提取所述邮件数据中的mailfrom字段、from字段、helo字段和url字段中的至少之一,以构成所述字段集合。
3.根据权利要求2所述的检测方法,其特征在于,所述提取所述邮件数据中的mailfrom字段、from字段、helo字段和url字段中的至少之一,包括:
基于字段标识从所述邮件数据中提取mailfrom字段、from字段、helo字段中的至少之一;
和/或,基于预设正则表达式从所述邮件数据中提取邮件正文中的url字段。
4.根据权利要求3所述的检测方法,其特征在于,在所述调用域名拼写纠错模型对所述域名集合中的目标域名进行处理之前,还包括:
基于域名白名单对所述域名集合中的目标域名进行检测,所述域名白名单中记录有拼写正确的常见域名;
将被所述域名白名单命中的目标域名从所述域名集合中剔除;
所述调用域名拼写纠错模型对所述域名集合中的目标域名进行处理,包括:
调用域名拼写纠错模型对经过剔除更新后的所述域名集合中的目标域名进行处理。
5.根据权利要求4所述的检测方法,其特征在于,所述调用域名拼写纠错模型对所述域名集合中的目标域名进行处理,具体包括:
调用域名拼写纠错模型对所述域名集合中的目标域名进行纠删查改,以便在所述目标域名拼写错误时输出对应的预设数量个拼写正确的域名。
6.根据权利要求5所述的检测方法,其特征在于,所述在所述目标域名拼写错误时输出对应的预设数量个拼写正确的域名,包括:
将与所述目标域名对应的各个拼写正确的域名按照用户使用频次从高到低进行排名;
输出排名靠前的预设数量个拼写正确的域名。
7.一种钓鱼邮件的检测装置,其特征在于,包括:
提取模块,用于提取邮件数据中与域名有关的各目标字段构成字段集合;提取所述字段集合中的各目标域名构成域名集合,所述目标域名包括一级域名和/或子域域名;
调用模块,用于调用域名拼写纠错模型对所述域名集合中的目标域名进行处理;所述域名拼写纠错模型基于拼写纠错算法而预先训练生成,用于在输入了拼写错误的第一域名后输出对应的拼写正确的第二域名;具体的,当所述域名拼写纠错模型被输入一个所述第一域名后,基于拼写纠错算法进行纠删查改;所述纠删查改,为基于第所述一域名通过替换、删除、增添若干字符的方式得到所述第二域名,将所述第二域名在拼写正确的域名构成的域名库中进行查找;若所述第二域名是被所述域名库命中的域名,说明所述第一域名为一个企图通过拼写错误而与所述第二域名产生混淆的恶意域名,此时所述域名拼写纠错模型将输出所述第二域名;如果得到的所述第二域名不是被所述域名库命中的域名,则所述第一域名为一个拼写正确的域名,则所述域名拼写纠错模型输出为空;
判定模块,用于将令所述域名拼写纠错模型输出不为空的目标域名所对应的邮件判定为钓鱼邮件。
8.根据权利要求7所述的检测装置,其特征在于,还包括:
检测模块,用于在调用模块调用域名拼写纠错模型对所述域名集合中的目标域名进行处理之前,基于域名白名单对所述域名集合中的目标域名进行检测,并将被所述域名白名单命中的目标域名从所述域名集合中剔除;所述域名白名单中记录有拼写正确的常见域名。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至6任一项所述的钓鱼邮件的检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用以实现如权利要求1至6任一项所述的钓鱼邮件的检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110832587.2A CN113556347B (zh) | 2021-07-22 | 2021-07-22 | 一种钓鱼邮件的检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110832587.2A CN113556347B (zh) | 2021-07-22 | 2021-07-22 | 一种钓鱼邮件的检测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113556347A CN113556347A (zh) | 2021-10-26 |
CN113556347B true CN113556347B (zh) | 2023-04-07 |
Family
ID=78104088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110832587.2A Active CN113556347B (zh) | 2021-07-22 | 2021-07-22 | 一种钓鱼邮件的检测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113556347B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114095252B (zh) * | 2021-11-22 | 2023-09-05 | 安天科技集团股份有限公司 | Fqdn域名检测方法、装置、计算设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2522789A1 (en) * | 2004-10-20 | 2006-04-20 | Yaron Mayer | System and method for improving the efficiency, comfort, and/or reliability in operating systems, such as for example windows |
CN101477540A (zh) * | 2009-01-21 | 2009-07-08 | 佛朗索瓦·卢克·科利侬 | 一种用于url重写的方法和设备 |
CN108540490A (zh) * | 2018-04-26 | 2018-09-14 | 四川长虹电器股份有限公司 | 一种钓鱼网站的检测和域名备案存储方法 |
CN111460794A (zh) * | 2020-03-11 | 2020-07-28 | 云知声智能科技股份有限公司 | 一种增加拼写纠错功能的语法纠错方法 |
CN111639489A (zh) * | 2020-05-15 | 2020-09-08 | 民生科技有限责任公司 | 中文文本纠错系统、方法、装置及计算机可读存储介质 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7668921B2 (en) * | 2006-05-30 | 2010-02-23 | Xerox Corporation | Method and system for phishing detection |
US8578481B2 (en) * | 2006-10-16 | 2013-11-05 | Red Hat, Inc. | Method and system for determining a probability of entry of a counterfeit domain in a browser |
US20080172738A1 (en) * | 2007-01-11 | 2008-07-17 | Cary Lee Bates | Method for Detecting and Remediating Misleading Hyperlinks |
US20090182818A1 (en) * | 2008-01-11 | 2009-07-16 | Fortinet, Inc. A Delaware Corporation | Heuristic detection of probable misspelled addresses in electronic communications |
US9083733B2 (en) * | 2011-08-01 | 2015-07-14 | Visicom Media Inc. | Anti-phishing domain advisor and method thereof |
CN106973532A (zh) * | 2017-04-10 | 2017-07-21 | 长沙准光里电子科技有限公司 | 新型域名纠错系统 |
US10599836B2 (en) * | 2017-08-11 | 2020-03-24 | Verisign, Inc. | Identification of visual international domain name collisions |
CN107800686B (zh) * | 2017-09-25 | 2020-06-12 | 中国互联网络信息中心 | 一种钓鱼网站识别方法和装置 |
CN107786575B (zh) * | 2017-11-11 | 2020-07-10 | 北京信息科技大学 | 一种基于dns流量的自适应恶意域名检测方法 |
US10785260B2 (en) * | 2018-08-09 | 2020-09-22 | Morgan Stanley Services Group Inc. | Optically analyzing domain names |
CN109039875B (zh) * | 2018-09-17 | 2021-06-22 | 杭州安恒信息技术股份有限公司 | 一种基于链接特征分析的钓鱼邮件检测方法及系统 |
CN110677384B (zh) * | 2019-08-26 | 2023-01-06 | 奇安信科技集团股份有限公司 | 钓鱼网站的检测方法及装置、存储介质、电子装置 |
CN110781876B (zh) * | 2019-10-15 | 2023-11-24 | 北京工业大学 | 一种基于视觉特征的仿冒域名轻量级检测方法及系统 |
CN112615861A (zh) * | 2020-12-17 | 2021-04-06 | 赛尔网络有限公司 | 恶意域名识别方法、装置、电子设备及存储介质 |
-
2021
- 2021-07-22 CN CN202110832587.2A patent/CN113556347B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2522789A1 (en) * | 2004-10-20 | 2006-04-20 | Yaron Mayer | System and method for improving the efficiency, comfort, and/or reliability in operating systems, such as for example windows |
CN101477540A (zh) * | 2009-01-21 | 2009-07-08 | 佛朗索瓦·卢克·科利侬 | 一种用于url重写的方法和设备 |
CN108540490A (zh) * | 2018-04-26 | 2018-09-14 | 四川长虹电器股份有限公司 | 一种钓鱼网站的检测和域名备案存储方法 |
CN111460794A (zh) * | 2020-03-11 | 2020-07-28 | 云知声智能科技股份有限公司 | 一种增加拼写纠错功能的语法纠错方法 |
CN111639489A (zh) * | 2020-05-15 | 2020-09-08 | 民生科技有限责任公司 | 中文文本纠错系统、方法、装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113556347A (zh) | 2021-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tan et al. | PhishWHO: Phishing webpage detection via identity keywords extraction and target domain name finder | |
US20200042696A1 (en) | Dynamic page similarity measurement | |
Fette et al. | Learning to detect phishing emails | |
US9191411B2 (en) | Protecting against suspect social entities | |
US8056128B1 (en) | Systems and methods for detecting potential communications fraud | |
US20090089859A1 (en) | Method and apparatus for detecting phishing attempts solicited by electronic mail | |
US20150067833A1 (en) | Automatic phishing email detection based on natural language processing techniques | |
US20090328208A1 (en) | Method and apparatus for preventing phishing attacks | |
CN108092963B (zh) | 网页识别方法、装置、计算机设备及存储介质 | |
CN102957664B (zh) | 一种识别钓鱼网站的方法及装置 | |
Kang et al. | Advanced white list approach for preventing access to phishing sites | |
US11722597B2 (en) | Dynamically providing safe phone numbers for responding to inbound communications | |
CN110909384B (zh) | 确定泄露用户信息的业务方的方法及装置 | |
Ramesh et al. | Identification of phishing webpages and its target domains by analyzing the feign relationship | |
CN112948725A (zh) | 基于机器学习的钓鱼网站url检测方法及系统 | |
Liu et al. | Fighting unicode-obfuscated spam | |
CN113556347B (zh) | 一种钓鱼邮件的检测方法、装置、设备及存储介质 | |
Nakamura et al. | Proactive phishing sites detection | |
GB2550657A (en) | A method of protecting a user from messages with links to malicious websites | |
KR20090014507A (ko) | 웹사이트 주소 검증 시스템 및 주소 검증 방법 | |
US20230104884A1 (en) | Method for detecting webpage spoofing attacks | |
CN115603924A (zh) | 一种钓鱼邮件的检测方法、装置、电子设备及存储介质 | |
CN113746814B (zh) | 邮件处理方法、装置、电子设备及存储介质 | |
US11240266B1 (en) | System, device and method for detecting social engineering attacks in digital communications | |
Park | Text-based phishing detection using a simulation model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A method, device, device, and storage medium for detecting phishing emails Effective date of registration: 20231212 Granted publication date: 20230407 Pledgee: Shenzhen Branch of China Merchants Bank Co.,Ltd. Pledgor: SANGFOR TECHNOLOGIES Inc. Registration number: Y2023980070863 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |