CN101667979B - 基于链接域名和用户反馈的反钓鱼邮件系统及方法 - Google Patents

基于链接域名和用户反馈的反钓鱼邮件系统及方法 Download PDF

Info

Publication number
CN101667979B
CN101667979B CN2009100730465A CN200910073046A CN101667979B CN 101667979 B CN101667979 B CN 101667979B CN 2009100730465 A CN2009100730465 A CN 2009100730465A CN 200910073046 A CN200910073046 A CN 200910073046A CN 101667979 B CN101667979 B CN 101667979B
Authority
CN
China
Prior art keywords
mail
link
domain name
information
feedback
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009100730465A
Other languages
English (en)
Other versions
CN101667979A (zh
Inventor
杨武
王巍
苘大鹏
朱文龙
玄世昌
邱文真
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN2009100730465A priority Critical patent/CN101667979B/zh
Publication of CN101667979A publication Critical patent/CN101667979A/zh
Application granted granted Critical
Publication of CN101667979B publication Critical patent/CN101667979B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供的是一种基于链接域名和用户反馈的反钓鱼邮件系统及方法。本发明所述的系统包括网络邮件接收装置、邮件预处理装置、邮件性质判定装置、输出装置、反馈处理装置。所述的方法为通过分析邮件中链接的域名的特征,并结合受控网用户反馈策略,实现钓鱼邮件以及疑似钓鱼邮件的识别。本发明的优点在于:识别效率高、低资源消耗、无误判率,可部署到要求高实时性的邮件服务器、网关服务器等,保护受控网用户免受钓鱼邮件的欺骗,可抵抗受控网内恶意用户的干扰,可广泛应用于网络邮件过滤管理、防网络钓鱼攻击等应用领域。

Description

基于链接域名和用户反馈的反钓鱼邮件系统及方法
(一)技术领域
本发明涉及的是一种网络电子邮件过滤评估技术,特别是涉及一种针对钓鱼邮件的过滤技术。
(二)背景技术
随着人们越来越依靠互联网来处理商业、金融等问题,钓鱼邮件的数量也急剧增加,而且形式呈多样化。钓鱼邮件指利用伪装的电邮,欺骗收件人将账号、口令等信息回复给指定的接收者或引导收件人连接到特制的网页,这些网页通常会伪装成和真实网站一样,令登录者信以为真,输入信用卡或银行卡号码、账户名称及密码等而被盗取。邮件中都会以某管理机构的身份,内容通常涉及到中奖、账号和密码等信息。特别是淘宝、拍拍、易趣、飞信、银行等站点等被大量钓鱼网站克隆,用各种手段伪装虚假的身份,欺骗用户登录其网站且骗取用户信息,这些钓鱼网站通常被嵌在邮件中发送给收件人。如果用户在毫无警惕的情况下,点击了邮件正文中的超级链接,就会打开一个冒充的页面,由于仿冒得很像,用户往往认为自己进入的真正网站,其实用户所造访的不过是一个假冒网站而已。
根据赛门铁克7月垃圾邮件现状报告[R].2009,钓鱼攻击链接可以由钓鱼软件制作,这种软件可以自动建立一个假冒的网页,这为成功的实现网络钓鱼攻击提供了方便。目前越来越多的钓鱼攻击者正在自身的虚假网站上滥用合法SSL证书,由于这些网站上显示熟悉的SSL挂锁图标,这就给用户造成了一种虚假的安全感。另一方面,免费主机服务一直是钓鱼攻击活跃的大本营,因为它几乎不需要任何成本和技术就能制作一个网站。
目前对钓鱼邮件的治理还是集中在依靠钓鱼攻击防御、识别技术,主要分为基于钓鱼链接地址的识别和基于钓鱼页面的识别两类。基于钓鱼链接地址的识别机制主要是利用链接地址的黑白名单或自定义规则的相似度等技术,该类识别技术识别速度快,但是识别技术过于单一、识别效果较差,而且不能正常识别经过伪装的链接地址,该类识别技术也没有考虑用户的需求,往往会导致误判率较高。基于钓鱼页面的识别机制主要是通过链接地址来获取链接站点的页面布局,利用钓鱼网站的页面存在的共性及与合法页面的不同,从页面中提取钓鱼网站的敏感特征,利用页面检测算法或算法的改进,对页面进行分类,从而识别钓鱼网站。如网络钓鱼Web页面检测算法[J].2008,34(20),分析Phishing页面敏感特征,提出了一种基于敏感特征异常检测的Phishing页面检测算法,通过分析Web页面的文档对象模型来提取Phishing敏感特征,使用BP神经网络检测页面异常程度,利用线性分类器判断该页面是否为Phishing页面;如专利文件(中国专利,公开号101145902,公开日期2008-03-19)基于图像处理的钓鱼网页检测方法,采用逐一计算可疑钓鱼网页与各个受保护网页之间的相似度,将可疑网页与受保护网页之间的相似度小于预先设定的值的可疑网页判为针对该受保护网页的钓鱼网页,直接分析用户所访问的网页图像,不易被网页设计技巧所欺骗;通过对网页图片进行分割可以进行部分匹配,防止由于部分相似而引起的网络钓鱼;又如AContent-based Approach to DetectingPhishing Web Sites[C]2007,639-648页,阐述的也是基于钓鱼页面的分析。该类方法的缺点在于识别速度较慢,要对邮件中的链接做DNS解析才能得到该链接所在的页面信息,而DNS解析过程又增加了处理时间,且敏感特征提取等预处理过程需要较多的输入做参考,需要大量的系统资源来完成页面分类器的构造,识别要耗费较多的时间。
(三)发明内容
本发明的目的在于提供一种资源开销少,可靠性高、实时性强的基于链接域名和用户反馈的反钓鱼邮件系统及方法。
本发明的目的是这样实现的:
本发明的基于链接域名和用户反馈的反钓鱼邮件系统的构成包括:网络邮件接收装置、邮件预处理装置、邮件性质判定装置、输出装置、反馈处理装置;
网络邮件接收装置:通过实现SMTP协议交互过程,接收进出受控网络的电子邮件,并存储邮件全部信息;
邮件预处理装置:根据邮件的编码类型、字符集、消息类型提取并解码邮件中的正文信息,形成不同类型的邮件正文结构体,在已解析的邮件正文中提取链接地址;
邮件性质判定装置:当链接地址经过恶意的编码伪装,则将链接去除伪装,还原为真实的链接地址,提取该链接的域名信息,根据邮件属于纯文本类型还是超文本类型,进行链接域名的特征分析处理,以此判定该邮件性质;
输出装置:根据邮件性质判定装置得到的邮件性质,按该邮件性质的不同进行邮件去向处理;
反馈处理装置:收集用户的反馈信息,提供受控网内用户反馈信息的自动处理机制,及时更新个性化特征库,且保证各受控网内用户间互不干扰。
本发明的基于链接域名和用户反馈的反钓鱼邮件系统的构成还可以包括:
1、所述的邮件预处理装置包括邮件正文解析单元、链接提取单元;邮件正文解析单元在邮件中定位并提取邮件正文、邮件字符集类型和传输编码信息,判断邮件类型后,再根据该邮件的字符集和传输编码类型,解析邮件正文信息,并存入正文结构体链表;链接提取单元用于在邮件正文解析单元所得的正文信息中提取链接地址,若邮件类型为纯文本,则在正文中查找“http://或www”字段,若邮件类型为超文本,则在HTML类型的正文中查找“<AHERF=……>……</A>”字段,以此定位链接地址。
2、所述的邮件性质判定装置包括链接去伪装单元、个性化特征库过滤单元、快速钓鱼特征库匹配单元、链接特征分析单元和相似度比较单元;链接去伪装单元判断待分析的链接地址是否经过恶意的编码,若存在恶意的编码,则将其解码还原为真实的链接地址;个性化特征库过滤单元利用匹配域名的正则表达式,从链接去伪装单元所得的链接地址中提取出域名信息,结合该邮件的收件人邮箱地址,形成待检测信息,利用字符串匹配自动机,判断待检测信息是否存在于个性化特征库中;快速钓鱼特征库匹配单元根据个性化特征库过滤单元中获得的链接的域名信息,采用ELFhash字符串散列函数处理后,在钓鱼特征库的哈希表中匹配该信息,且用链地址法处理所构造的钓鱼特征库哈希表冲突问题;链接特征分析单元分析该链接是否具备钓鱼链接的特征,通过识别该链接地址是否存在链接的跳转特征、链接的域名是否包含点分十进制IP地址;相似度比较单元将个性化特征库过滤单元中获得的链接的域名与金融站点特征库,采用自然语言处理(NLP)里的Levenshtein Distance算法,依次计算两者相似度,并判断相似度是否超过设定的阈值。
3、所述的输出装置将根据邮件判定性质装置判断的邮件性质,分别采取不同的输出策略;当邮件威胁度为高时,则该邮件属于钓鱼邮件,本发明将拦截该邮件,将邮件存入隔离区,禁止该邮件转发;当邮件威胁度为中时,则该邮件属于疑似钓鱼邮件,在邮件中添加提醒信息,提醒受控网用户该邮件极有可能为钓鱼邮件,通知用户登录本发明的监控区域查看邮件,并且提供给受控网用户反馈接口;当邮件威胁度为低时,则该邮件属于正常邮件,将正常转发该邮件到收件人信箱中,受控网用户能正常接收。
4、所述的反馈处理装置包括:1)反馈处理装置接收反馈信息后,自动判断信息的类型是否正确,并提取反馈信息的域名信息;2)在反馈信息的域名与反馈者的邮箱地址中添加标志位″[per]″,形成个性化特征信息;3)完成字符串匹配自动机的更新,使该个性化特征信息添加到个性化特征库,完成个性化特征库的更新。
本发明的所述的反钓鱼邮件方法分析新邮件的工作过程包括以下步骤:
邮件预处理步骤,解析邮件正文信息,提取邮件正文中的链接地址;
链接预处理步骤,解码还原经恶意编码的链接地址;
个性化特征库的过滤步骤,提取该链接地址的域名信息,结合该邮件的收件人邮箱地址,形成待检测信息,利用字符串匹配自动机查找待检测信息是否存在于个性化特征库中,若查找到,则分析过程结束,且邮件威胁等级为高,否则进行下一步骤;
快速钓鱼特征库的匹配步骤,将待检测信息经ELFhash字符串散列处理后,在所构造的钓鱼特征库的哈希表中查找该待检测信息,若查找到,则分析过程结束,邮件威胁等级为高,否则进行下一步骤;
链接的特征分析步骤,判断该链接地址是否存在链接跳转、链接的域名信息包含点分十进制IP地址等特征,若存在,则邮件威胁等级为中,否则进行下一步骤;
相似度比较步骤,采用Levenshtein Distance算法,依次计算链接的域名信息与金融站点特征库中信息的相似度,若两者相似度超过阈值,则邮件威胁等级为中,否则邮件威胁等级为低;
所述的反钓鱼邮件方法将依次分析邮件中的每个链接地址,结束该分析过程的充要条件是邮件威胁等级为高或者邮件中所有链接均已分析完毕,且邮件性质是取决于分析每个链接所得的邮件威胁等级的最高值。
针对以上情况,本发明根据钓鱼链接的特征,从邮件中提取链接地址的域名,分析链接域名的特征,并结合了用户反馈的策略,提出了基于链接域名和用户反馈的反钓鱼邮件系统及方法。
本发明的有益效果在于:通过本发明可以在网关或邮件服务器处对钓鱼邮件进行拦截,对疑似钓鱼邮件添加处理信息和提醒信息,提高受控网用户警惕性,将邮件投递到本发明提供的邮件监控区域,通知受控网用户登录该区域查看邮件,故不会对邮件的误拦截,从而给受控网用户造成损失。本发明较钓鱼页面检测方法有较快的邮件处理速度,只需邮件中的链接地址,大大减少了资源的开销,具有可靠性高、实时性高。本发明采用了邮件正文信息全部解析,故可以识别邮件中的图片链接和隐藏的链接,同时提供给受控网用户的反馈接口,充分考虑用户的因素,同时保证受控网内用户间互不干扰,这样有效的抵抗受控网内恶意用户的干扰,可保护受控网的电子邮件用户免受网络钓鱼的欺骗。
本发明可以部署到要求高实时性的邮件服务器、网关服务器中,可广泛的应用于网络邮件过滤管理、防网络钓鱼攻击等应用领域。
(四)附图说明
图1本发明所述的系统的结构框图;
图2本发明所述的邮件性质判定装置的结构图;
图3用户反馈分析模型的处理流程图;
图4实施本发明的典型应用环境;
图5纯文本类型邮件处理的工作原理流程图;
图6超文本类型邮件处理的工作原理流程图;
(五)具体实施方式
下面结合附图举例对本发明做更详细地描述:
图1所示为基于链接域名和用户反馈的反钓鱼邮件系统的结构框图,包括:
网络邮件接收装置:通过实现SMTP协议交互过程,接收进出受控网络的电子邮件,并存储邮件全部信息;
邮件预处理装置:根据邮件的编码类型、字符集、消息类型提取并解码邮件中的正文信息,形成不同类型的邮件正文结构体,在已解析的邮件正文中提取链接地址;
邮件性质判定装置:当链接地址经过恶意的编码伪装,则将链接去除伪装,还原为真实的链接地址,提取该链接的域名信息,根据邮件属于纯文本类型还是超文本类型,进行链接域名的特征分析处理,以此判定该邮件性质;
输出装置:根据邮件性质判定装置得到的邮件性质,按该邮件性质的不同进行邮件去向处理;
反馈处理装置:收集用户的反馈信息,提供受控网内用户反馈信息的自动处理机制,及时更新个性化特征库,且保证各受控网内用户间互不干扰。
图2给出了邮件性质判定装置的各个单元的结构图,包括:
链接去伪装单元:用于判断待分析的链接地址是否经过恶意编码,若存在恶意编码,则将其解码还原为真实的链接地址;
个性化特征库过滤单元:利用匹配域名的正则表达式,从链接去伪装单元所获得的链接地址中提取出域名信息,结合该邮件的收件人邮箱地址,形成待检测信息,利用字符串匹配自动机,判断待检测信息是否存在于受控网用户个性化特征库中;
快速钓鱼特征库匹配单元:根据个性化特征库过滤单元中获得的链接的域名信息,采用ELFhash字符串散列函数处理后,在钓鱼特征库的哈希表中快速匹配该信息,且用链地址法处理所构造的钓鱼特征库的哈希表冲突问题;
链接的特征分析单元:分析该链接是否具备钓鱼链接的特征,通过识别该链接地址是否存在链接的跳转特征、链接的域名是否包含点分十进制IP地址;
相似度比较单元:将个性化特征库过滤单元中获得的链接的域名与金融站点特征库,采用自然语言处理(NLP)里的Levenshtein Distance算法,依次计算两者相似度,并比较相似度是否超过给定的阈值,阈值可取0.75-0.95之间。
所述的个性化特征库,可以是用于存储从经过处理后的受控网用户反馈信息;所述的钓鱼特征库,可以是用于存储权威机构提供的站点的域名信息;所述的金融站点的特征库,可以是用于存储涉及电子商务、电子金融站点的域名信息。
图3给出了用户反馈分析模型的处理流程图,包括:
反馈信息处理装置接收反馈信息后,自动判断信息的类型是否正确;提取反馈信息的域名信息与反馈者的邮箱地址;在反馈信息的域名与反馈者的邮箱地址中添加标志位″[per]″,即″[per]反馈者的邮箱地址[per]反馈信息的域名[per]″类型,形成个性化特征信息,这样是为了防止出现误匹配现象;同时完成自动机更新,释放旧的自动机,建立新的自动机,使该个性化特征信息添加到个性化特征库,更新个性化特征库。
此反馈分析模型的建立,实现了个性化特征库的实时更新,通过用户的不断反馈报告,使得本发明在原有的基础上不断地提高识别能力,提高分析性能。
所述的反馈信息处理装置接收反馈信息是依托于本发明提供的受控网用户反馈界面,为了安全性考虑,该反馈界面处于本发明所在的服务器上,并非处于受控网用户的客户端。
图4展现了实施本发明的典型应用环境。
在图示的应用环境下,本发明部署在高性能服务器网关中,保护受控网内所有邮件服务器及用户免受网络钓鱼邮件的攻击,其中邮件发送者C处于外部网络,用户A、B为受控网中两类用户的代表,即用户A为正常用户,用户B为恶意用户;用户A、B反馈时,本发明会分别处理反馈信息,恶意用户B反馈的信息,只对用户B本身有效,对用户A无效,这样避免恶意用户B通过反馈错误的信息,而影响整个受控网,有效的抵抗受控网内恶意用户的干扰。
外部邮件发送者C发送正常邮件时,本发明将投递该邮件到相应收件人的邮箱中;发送钓鱼邮件时,本发明将拦截该邮件存入隔离区;对于本发明识别为疑似钓鱼邮件,为了避免误判给用户造成损失,还考虑到邮件可能带有网络钓鱼攻击,故本发明添加了处理信息及提醒信息,提高受控网用户的警惕性,防止用户在不知情的情况下受到网络钓鱼的攻击。
实施例一、本发明对纯文本类型的邮件分析
图5给出了实施例一的原理流程图。
实施例二、本发明对超文本类型的邮件分析
图6给出了实施例二的原理流程图。
下面通过基于链接域名和用户反馈的反钓鱼邮件系统对具体类型的钓鱼邮件识别过程,结合上述两个实施例进一步介绍本发明的技术方案。
1、网络电子邮件的接收
实现SMTP协议交互过程,接收发往受控网络或从受控网络发出的电子邮件,并存储邮件全文;
2、网络电子邮件的解析
通过对邮件类型的分析,获得该邮件为纯文本还是超文本类型,在邮件中提取正文信息、邮件字符集类型和传输编码等头信息;若邮件类型为纯文本,则根据字符集类型和传输编码将邮件的正文解析为纯文本类型,并存入正文结构体链表;若邮件类型为超文本,则邮件正文解析为HTML类型,存入正文结构体链表。
3、正文中链接的提取
若邮件类型为纯文本,则在正文中查找“http://或www”字段;若邮件类型为超文本,则提取出解析为HTML类型的正文结构体,并在其中查找“<AHERF=……>......</A>”字段,特别的当邮件类型为超文本类型时,链接地址包括了链接的显式地址和隐式地址(如在“<A HERF=X>Y</A>”中,X代表链接的隐式地址,Y代表链接的显式地址,从X中提取的域名信息为隐式域名,从Y中提取的链接的域名信息为显式域名);根据查找上述字段来定位链接地址,依次并提取链接地址。
4、链接地址的解码
在链接地址中查找‘%’,来判断是否经过URL的恶意编码,若存在恶意的编码,则进行URL字符解码,将两位16进制的ASCII码还原为字符,完成链接地址的还原。
5、链接分析
利用匹配域名的正则表达式从解码后的链接地址中匹配该链接地址的域名,作为待分析信息;
判断上述待分析信息是否存在于受控网用户个性化特征库中,若存在,则该邮件为钓鱼邮件,邮件威胁等级达到高,结束链接分析过程;否则进行下一步处理;
将待分析信息经过ELFhash字符串散列函数处理后,在钓鱼特征库的哈希表中查找,若查找到,则该邮件为钓鱼邮件,邮件威胁等级达到高,结束链接分析过程;若未查找到,根据邮件类型,分别进行如下处理;
1)当邮件为纯文本类型时,直接通过匹配IP的正则表达式从待分析信息中匹配点分十进制IP地址;
如果匹配到IP地址,则邮件暂判为疑似钓鱼邮件,且邮件威胁等级达到中,该链接的分析过程结束;
如果未匹配IP地址,将待分析信息与金融站点特征库逐一进行相似度比较;先判断待分析信息是否存在于金融站点特征库中,若存在于金融站点特征库中,则说明待分析信息为正常,邮件威胁等级为低,该链接的分析过程结束;
若待分析信息不存在于特征库中,则根据相似度计算策略将待分析信息的与金融站点特征库逐一进行相似度比较,所述的相似度计算策略为俄国科学家Levenshtein提出的自然语言处理(NLP)里的Levenshtein Distance算法,即计算从待分析信息s转换到特征库中某一特征信息t所需要的最少的插入,删除和替换的数目,通过构造矩阵,矩阵中的值d[n,m]表示待分析信息s与特征信息t的距离,且d[i,j]=min(d[i-1,j]+1,d[i,j-1]+1,d[i-1,j-1]+k)(其中n、m分别为待分析信息s、特征信息t的长度,i,j分别介于1到n、1到m,若s[i]=t[j]成立,k取0,否者k取1),得到待分析信息s与特征信息t的距离,即可得st相似度=(1-st距离/max(n,m));
当某次比较相似度结果超过阈值,阈值一般取(0.75-0.95)较为合适,则结束相似度比较,且邮件威胁等级为中,该链接的分析过程结束;
当待分析信息s与特征库中的特征信息逐一比较结果均未超过阈值,则为待分析的信息为正常,则邮件威胁度为低,该链接的分析过程结束。
2)当邮件类型为超文本类型时,提取链接的显式域名与链接的隐式域名;
若链接的显式域名与链接的隐式域名均存在且不一致,则邮件威胁等级为中,该链接的分析过程结束;
若链接的显式域名与链接的隐式域名一致或链接的显式域名不存在,则通过匹配IP的正则表达式在链接的隐式域名中匹配点分十进制IP地址;
如果匹配到点分十进制IP地址,则邮件威胁等级为中,该链接的分析过程结束;
如果未匹配到点分十进制IP地址,则按照上述相似度比较策略分析链接的隐式域名与金融站点的特征库相似度,以此判断邮件威胁等级。
本发明从邮件中的每个链接地址中提取链接的域名信息,作为待分析信息集,依次提取每个待分析信息经过上述链接分析过程,结束邮件性质判定过程的充要条件为邮件威胁等级到达高或所有待分析信息均已分析完毕,而邮件的性质是取决于每个链接分析过程所得的邮件威胁等级的最高值。
6.邮件输出处理
当邮件威胁度为高时,则该邮件属于钓鱼邮件,本发明将邮件存入隔离区;
当邮件威胁度为中时,则该邮件属于疑似钓鱼邮件,在邮件中添加警告信息,提醒受控网用户该邮件极有可能为钓鱼邮件;
当邮件威胁度为低时,则该邮件属于正常邮件,本发明将正常转发该邮件。
综上,本发明在执行效率、资源开销等方面具有较好的性能,能够满足实时钓鱼邮件过滤的需求,可防止受控网内恶意用户的干扰,可保护受控网的电子邮件用户免受网络钓鱼的攻击,本发明适合部署在要求高实时性的邮件服务器、网关服务器中,可广泛的应用于网络邮件过滤管理、防网络钓鱼攻击等应用领域。

Claims (6)

1.一种基于链接域名和用户反馈的反钓鱼邮件系统,其构成包括网络邮件接收装置、邮件预处理装置、邮件性质判定装置、输出装置和反馈处理装置;其特征是:
网络邮件接收装置:通过实现SMTP协议交互过程,接收进出受控网络的电子邮件,并存储邮件全部信息;
邮件预处理装置:根据邮件的编码类型、字符集、消息类型提取并解码邮件中的正文信息,形成不同类型的邮件正文结构体,在已解析的邮件正文中提取链接地址;
邮件性质判定装置:当链接地址经过恶意的编码伪装,则将链接去除伪装,还原为真实的链接地址,提取该链接的域名信息,根据邮件属于纯文本类型还是超文本类型,进行链接域名的特征分析处理,以此判定该邮件性质;
输出装置:根据邮件性质判定装置得到的邮件性质,按该邮件性质的不同进行邮件去向处理;
反馈处理装置:收集用户的反馈信息,提供受控网内用户反馈信息的自动处理机制,及时更新个性化特征库,且保证各受控网内用户间互不干扰,所述个性化特征库用于存储经过处理后的受控网用户反馈信息;
所述的邮件性质判定装置包括链接去伪装单元、个性化特征库过滤单元、快速钓鱼特征库匹配单元、链接特征分析单元和相似度比较单元;
链接去伪装单元判断待分析的链接地址是否经过恶意的编码,若存在恶意的编码,则将其解码还原为真实的链接地址,然后调用个性化特征库过滤单元;
个性化特征库过滤单元利用匹配域名的正则表达式,从链接去伪装单元所得的链接地址中提取出域名信息,结合该邮件的收件人邮箱地址,形成待检测信息,利用字符串匹配自动机,判断待检测信息是否存在于个性化特征库中,若在,邮件威胁等级为高,否则调用快速钓鱼特征库匹配单元;
快速钓鱼特征库匹配单元根据个性化特征库过滤单元中获得的链接的域名信息,采用ELFhash字符串散列函数处理后,在钓鱼特征库的哈希表中匹配该信息,且用链地址法处理所构造的钓鱼特征库哈希表冲突问题,若匹配到,邮件威胁等级为高,否则调用链接特征分析单元;
链接特征分析单元,当邮件为纯文本类型时,直接通过匹配IP的正则表达式从待分析信息中匹配点分十进制IP地址,如果匹配到IP地址,邮件威胁等级为中,否则调用相似度比较单元;当邮件为超文本类型时,提取链接的显式域名与链接的隐式域名,若链接的显式域名与链接的隐式域名均存在且不一致,则邮件威胁等级为中,若链接的显式域名与链接的隐式域名一致或链接的显式域名不存在,则通过匹配IP的正则表达式在链接的隐式域名中匹配点分十进制IP地址,如果匹配到,则邮件威胁等级为中,如果未匹配到,则调用相似度比较单元;
相似度比较单元将个性化特征库过滤单元中获得的链接的域名与金融站点特征库,采用自然语言处理NLP里的Levenshtein Distance算法,依次计算两者相似度,并判断相似度是否超过给定的阈值,若两者相似度超过阈值,则邮件威胁等级为中,否则邮件威胁等级为低。
2.根据权利要求1所述的基于链接域名和用户反馈的反钓鱼邮件系统,其特征是:所述的邮件预处理装置包括邮件正文解析单元、链接提取单元;邮件正文解析单元在邮件中定位并提取邮件正文、邮件字符集类型和传输编码信息,判断邮件类型后,再根据该邮件的字符集和传输编码类型,解析邮件正文信息,并存入正文结构体链表;链接提取单元用于在邮件正文解析单元所得的正文信息中提取链接地址,若邮件类型为纯文本,则在正文中查找“http://”或“www”字段,若邮件类型为超文本,则在HTML类型的正文中查找“<A HERF=……>……</A>”字段,以此定位链接地址。
3.根据权利要求2所述的基于链接域名和用户反馈的反钓鱼邮件系统,其特征是:所述的输出装置将根据邮件判定性质装置判断得到的邮件性质,分别采取不同的输出策略;当邮件威胁度为高时,则该邮件属于钓鱼邮件,拦截该邮件,将邮件存入隔离区;当邮件威胁度为中时,则该邮件属于疑似钓鱼邮件,添加提醒信息,用于提醒受控网的用户,将邮件投递到邮件监控区域,通知用户登录该区域查看邮件,并提供用户反馈接口;当邮件威胁度为低时,则该邮件属于正常邮件,将正常转发邮件。
4.根据权利要求3所述的基于链接域名和用户反馈的反钓鱼邮件系统,其特征是:所述的反馈处理装置包括:1)反馈处理装置接收反馈信息后,自动判断信息的类型是否正确,并提取反馈信息的域名;2)在反馈信息的域名与反馈者的邮箱地址中添加标志位″[per]″,形成个性化特征信息;3)完成字符串匹配自动机的更新,使该个性化特征信息添加到个性化特征库,完成个性化特征库的更新。
5.基于链接域名和用户反馈的反钓鱼邮件方法,其特征是包括以下步骤:
邮件预处理步骤,解析邮件正文信息,提取邮件正文中的链接地址;
链接预处理步骤,解码还原经恶意编码的链接地址;
个性化特征库的过滤步骤,提取该链接地址的域名信息,结合该邮件的收件人邮箱地址,形成待检测信息,利用字符串匹配自动机查找待检测信息是否存在于个性化特征库中,若查找到,则分析过程结束,且邮件威胁等级为高,否则进行下一步骤,所述个性化特征库用于存储经过处理后的受控网用户反馈信息;
快速钓鱼特征库的匹配步骤,将待检测信息经ELFhash字符串散列处理后,在所构造的钓鱼特征库的哈希表中查找该待检测信息,若查找到,则分析过程结束,邮件威胁等级为高,否则进行下一步骤;
链接的特征分析步骤,当邮件为纯文本类型时,直接通过匹配IP的正则表达式从待分析信息中匹配点分十进制IP地址,如果匹配到IP地址,则分析过程结束,邮件威胁等级为中,否则进行下一步;当邮件为超文本类型时,提取链接的显式域名与链接的隐式域名,若链接的显式域名与链接的隐式域名存在且不一致,则邮件威胁等级为中,分析过程结束,若链接的显式域名与链接的隐式域名一致或链接的显式域名不存在,则通过匹配IP的正则表达式在链接的隐式域名中匹配点分十进制IP地址,如果匹配到,邮件威胁等级为中,分析过程结束,如果未匹配到,进行下一步骤;
相似度比较步骤,采用Levenshtein Distance算法,依次计算链接的域名信息与金融站点特征库中信息的相似度,若两者相似度超过阈值,则邮件威胁等级为中,否则邮件威胁等级为低。
6.根据权利要求5所述的基于链接域名和用户反馈的反钓鱼邮件方法,其特征是:所述的反钓鱼邮件方法将依次分析邮件中的每个链接地址,结束该分析过程的充要条件是邮件威胁等级为高或邮件中所有链接均已分析完毕,且邮件性质是取决于分析每个链接所得的邮件威胁等级的最高值。
CN2009100730465A 2009-10-12 2009-10-12 基于链接域名和用户反馈的反钓鱼邮件系统及方法 Expired - Fee Related CN101667979B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100730465A CN101667979B (zh) 2009-10-12 2009-10-12 基于链接域名和用户反馈的反钓鱼邮件系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100730465A CN101667979B (zh) 2009-10-12 2009-10-12 基于链接域名和用户反馈的反钓鱼邮件系统及方法

Publications (2)

Publication Number Publication Date
CN101667979A CN101667979A (zh) 2010-03-10
CN101667979B true CN101667979B (zh) 2012-06-06

Family

ID=41804424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100730465A Expired - Fee Related CN101667979B (zh) 2009-10-12 2009-10-12 基于链接域名和用户反馈的反钓鱼邮件系统及方法

Country Status (1)

Country Link
CN (1) CN101667979B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10291646B2 (en) 2016-10-03 2019-05-14 Telepathy Labs, Inc. System and method for audio fingerprinting for attack detection

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102098235B (zh) * 2011-01-18 2013-08-07 南京邮电大学 一种基于文本特征分析的钓鱼邮件检测方法
CN102223316A (zh) * 2011-06-15 2011-10-19 成都市华为赛门铁克科技有限公司 电子邮件处理方法及装置
CN102902917A (zh) 2011-07-29 2013-01-30 国际商业机器公司 用于预防钓鱼式攻击的方法和系统
CN102801709B (zh) * 2012-06-28 2015-03-04 北京奇虎科技有限公司 一种钓鱼网站识别系统及方法
CN104580254B (zh) * 2012-06-28 2017-10-31 北京奇虎科技有限公司 一种钓鱼网站识别系统及方法
CN103793398B (zh) * 2012-10-30 2018-09-04 腾讯科技(深圳)有限公司 检测垃圾数据的方法和装置
CN103092922B (zh) * 2012-12-28 2018-04-10 国家计算机网络与信息安全管理中心 一种针对含特殊字符的url编码后的自动解码方法
CN103209177B (zh) * 2013-03-13 2016-08-03 深信服网络科技(深圳)有限公司 网络钓鱼攻击的检测方法和装置
CN104102879B (zh) 2013-04-15 2016-08-17 腾讯科技(深圳)有限公司 一种消息格式的提取方法和装置
CN104852996B (zh) * 2014-02-13 2019-06-14 腾讯科技(深圳)有限公司 网络信息处理方法及装置
CN104994008B (zh) * 2015-07-14 2019-02-05 中国互联网络信息中心 一种电子邮件的反钓鱼系统及方法
CN105337993B (zh) * 2015-11-27 2018-09-07 厦门安胜网络科技有限公司 一种基于动静结合的邮件安全检测装置及方法
US20170237753A1 (en) * 2016-02-15 2017-08-17 Microsoft Technology Licensing, Llc Phishing attack detection and mitigation
CN105824927B (zh) * 2016-03-16 2019-06-14 中国互联网络信息中心 一种基于树状自动机的域名匹配方法
CN105843851A (zh) * 2016-03-16 2016-08-10 新浪网技术(中国)有限公司 欺诈邮件分析与提取方法和装置
CN107402936A (zh) * 2016-05-20 2017-11-28 阿里巴巴集团控股有限公司 信息识别方法及装置
CN105897752B (zh) * 2016-06-03 2019-08-02 北京奇虎科技有限公司 未知域名的安全检测方法及装置
CN105897751B (zh) * 2016-06-03 2019-08-02 北京奇虎科技有限公司 威胁情报的生成方法及装置
CN106055981B (zh) * 2016-06-03 2019-08-20 北京奇虎科技有限公司 威胁情报的生成方法及装置
CN106027378A (zh) * 2016-07-04 2016-10-12 乐视控股(北京)有限公司 一种邮件检测方法及装置
CN106453423B (zh) * 2016-12-08 2019-10-01 黑龙江大学 一种基于用户个性化设置的垃圾邮件的过滤系统及方法
CN106685803A (zh) * 2016-12-29 2017-05-17 北京安天网络安全技术有限公司 一种基于钓鱼邮件溯源apt攻击事件的方法及系统
CN107171950A (zh) * 2017-07-20 2017-09-15 国网上海市电力公司 一种电子邮件正文威胁行为的识别方法
CN109510815B (zh) * 2018-10-19 2022-01-25 杭州安恒信息技术股份有限公司 一种基于有监督学习的多级钓鱼网站检测方法及检测系统
CN111107048B (zh) * 2018-10-29 2021-11-30 中移(苏州)软件技术有限公司 一种钓鱼网站检测方法、装置和存储介质
CN110868379B (zh) * 2018-12-19 2021-09-21 北京安天网络安全技术有限公司 基于dns解析报文的入侵威胁指标拓展方法、装置及电子设备
CN110348822B (zh) * 2019-07-18 2023-05-19 张统刚 一种有助于垃圾邮件防范的智能邮件地址方法
CN110933067A (zh) * 2019-11-26 2020-03-27 北京知道创宇信息技术股份有限公司 恶意邮件识别方法、装置、电子设备及存储介质
CN111163078A (zh) * 2019-12-26 2020-05-15 珠海格力电器股份有限公司 一种网络链接拦截方法、装置、设备及介质
CN113468589A (zh) * 2020-03-30 2021-10-01 微软技术许可有限责任公司 检测数据收集正当性
CN112019506B (zh) * 2020-07-28 2023-04-18 杭州安恒信息技术股份有限公司 基于行为识别的钓鱼邮件检测方法、电子装置及介质
CN112039874B (zh) * 2020-08-28 2023-03-24 绿盟科技集团股份有限公司 一种恶意邮件的识别方法及装置
CN117811835B (zh) * 2024-02-28 2024-05-03 环球数科集团有限公司 一种基于人工智能的涉诈网址检测系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1728655A (zh) * 2004-11-25 2006-02-01 刘文印 一种检测鉴别假冒网页的方法及系统
CN101145902A (zh) * 2007-08-17 2008-03-19 东南大学 基于图像处理的钓鱼网页检测方法
US7516488B1 (en) * 2005-02-23 2009-04-07 Symantec Corporation Preventing data from being submitted to a remote system in response to a malicious e-mail

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1728655A (zh) * 2004-11-25 2006-02-01 刘文印 一种检测鉴别假冒网页的方法及系统
US7516488B1 (en) * 2005-02-23 2009-04-07 Symantec Corporation Preventing data from being submitted to a remote system in response to a malicious e-mail
CN101145902A (zh) * 2007-08-17 2008-03-19 东南大学 基于图像处理的钓鱼网页检测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10291646B2 (en) 2016-10-03 2019-05-14 Telepathy Labs, Inc. System and method for audio fingerprinting for attack detection

Also Published As

Publication number Publication date
CN101667979A (zh) 2010-03-10

Similar Documents

Publication Publication Date Title
CN101667979B (zh) 基于链接域名和用户反馈的反钓鱼邮件系统及方法
Chen et al. Online detection and prevention of phishing attacks
EP1863240B1 (en) Method and system for phishing detection
EP3125147B1 (en) System and method for identifying a phishing website
US8984289B2 (en) Classifying a message based on fraud indicators
US8578480B2 (en) Systems and methods for identifying potentially malicious messages
US8769695B2 (en) Phish probability scoring model
US20090089859A1 (en) Method and apparatus for detecting phishing attempts solicited by electronic mail
Ranganayakulu et al. Detecting malicious urls in e-mail–an implementation
Azeez et al. CyberProtector: identifying compromised URLs in electronic mails with Bayesian classification
Kang et al. Advanced white list approach for preventing access to phishing sites
CN111147489B (zh) 一种面向链接伪装的鱼叉攻击邮件发现方法及装置
Naresh et al. Intelligent phishing website detection and prevention system by using link guard algorithm
Li et al. Detection method of phishing email based on persuasion principle
Chawla et al. A survey of phishing attack techniques
Aravindhan et al. Certain investigation on web application security: Phishing detection and phishing target discovery
Singh et al. Investigating the effect of feature selection and dimensionality reduction on phishing website classification problem
Khade et al. Detection of phishing websites using data mining techniques
WO2017162997A1 (en) A method of protecting a user from messages with links to malicious websites containing homograph attacks
Roopak et al. On effectiveness of source code and SSL based features for phishing website detection
Issac et al. Analysis of phishing attacks and countermeasures
Philomina et al. A comparitative study of machine learning models for the detection of Phishing Websites
Glăvan et al. Detection of phishing attacks using the anti-phishing framework
Swarnalatha et al. Real-time threat intelligence-block phising attacks
Wardman et al. New tackle to catch a phisher

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Yang Hui

Inventor before: Yang Wu

Inventor before: Wang Wei

Inventor before: Qing Dapeng

Inventor before: Zhu Wenlong

Inventor before: Xuan Shichang

Inventor before: Qiu Wenzhen

TR01 Transfer of patent right

Effective date of registration: 20171101

Address after: 100029 room 27, building 607, Yu Zhong Li, Beijing, Xicheng District

Patentee after: Yang Hui

Address before: 150001 Heilongjiang, Nangang District, Nantong street, building No. 145, Harbin Engineering University, Intellectual Property Office

Patentee before: Harbin Engineering Univ.

TR01 Transfer of patent right
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20100310

Assignee: Harbin talent Information Technology Co., Ltd.

Assignor: Yang Hui

Contract record no.: 2017230000065

Denomination of invention: System and method for anti-phishing emails based on link domain name and user feedback

Granted publication date: 20120606

License type: Exclusive License

Record date: 20171221

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120606

Termination date: 20201012