CN102098235A - 一种基于文本特征分析的钓鱼邮件检测方法 - Google Patents

一种基于文本特征分析的钓鱼邮件检测方法 Download PDF

Info

Publication number
CN102098235A
CN102098235A CN2011100208966A CN201110020896A CN102098235A CN 102098235 A CN102098235 A CN 102098235A CN 2011100208966 A CN2011100208966 A CN 2011100208966A CN 201110020896 A CN201110020896 A CN 201110020896A CN 102098235 A CN102098235 A CN 102098235A
Authority
CN
China
Prior art keywords
mail
text
fishing
link
mails
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100208966A
Other languages
English (en)
Other versions
CN102098235B (zh
Inventor
张卫丰
彭寅
张迎周
周国强
陆柳敏
许碧欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN 201110020896 priority Critical patent/CN102098235B/zh
Publication of CN102098235A publication Critical patent/CN102098235A/zh
Application granted granted Critical
Publication of CN102098235B publication Critical patent/CN102098235B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

基于文本特征分析的钓鱼邮件检测方法,去除掉邮件中的非文本内容;利用了邮件解析器对邮件进行解析;利用了正则表达式算法提取了邮件中的网站链接;再次利用正则表达式算法提取了链接中的相关特征;利用域名注册检索引擎,得到了网站注册时间特征。运用这些所提取的文本特征,组成邮件的特征向量。通过实验,证明能够提高钓鱼邮件的精度和召回率,并节省程序运行的时间和开销。本发明从以往的这些文本特征中进行了筛选,将效果比较好的几个特征挑选出来,并结合钓鱼邮件的特点和现有的研究基础提出几种新的针对钓鱼邮件检测的文本特征。使用本发明对可疑邮件进行检测。

Description

一种基于文本特征分析的钓鱼邮件检测方法
技术领域
本发明涉及一种钓鱼邮件检测的方法,主要从邮件文本特征分析的角度对钓鱼邮件进行判断和识别,属于信息安全领域。
背景技术
随着网络普及和在线交易的增加,“网络钓鱼”行为变得异常猖獗。“钓鱼网站”是指犯罪分子做出的诈骗网站,通常与银行网站或其他知名网站几乎完全相同,从而引诱网站使用者在“钓鱼网站”上提交出敏感信息(如:用户名、口令、帐号或信用卡详细信息等)[1]。而电子邮件就成为这些犯罪分子散布这些“钓鱼网站”的最佳途径,这就导致了钓鱼邮件数量急剧膨胀。
网络钓鱼结构体系如图1所示,攻击的过程:首先向用户发送一封类似来自正规网站的钓鱼邮件,并引诱用户点击邮件中所含有的链接(通常使用如用户网银账号异常需要验证账号密码或者购物网站有特大优惠等理由),从而将用户骗到一个通过精心设计与目标组织的网站非常相似的钓鱼网站上来,然后获取用户在该钓鱼网站上输入的个人敏感信息,例如银行帐号、银行密码等。通常在整个攻击过程,受害者不会有任何被骗的感觉。这些敏感信息对钓鱼网站持有者具有非常大的吸引力,通过使用窃取到的个人信息,他们可以将受害人的网银账号中的资金全部转走,或者假冒受害人进行金融欺诈,从而获得巨大的经济利益。这将使受害者们遭受到巨大的经济损失。因此,从“网络钓鱼”的源头——“钓鱼邮件”的检测着手,防范网络钓鱼,愈发的显示出其重要性和必要性。
当前的钓鱼邮件判别主要靠计算机自动识别和人工标记识别两种方式,人工标记识别,准确性可以得到保证,但是速度显然太慢了,也不适用于大量的数据处理工作[2]。计算机自动识别目前主要基于对邮件的文本特征和图片特征检测来判定是否为钓鱼邮件,计算机主要通过提取邮件的文本、图片特征,对这些特征进行分析或进行机器学习,从而判断是否为钓鱼邮件。
Fette针对邮件正文中的链接有提出10个特征,然后用随机树、支持向量机和决策树等多种分类器等进行训练和测试[3]。发现随机树分类器可以单独使用,也可以结合现有的垃圾邮件过滤器使用,后者效果更佳。Bergholz在Fette的基础上,除了一些基本的邮件特征外,还提出由训练的马尔可夫链和新的潜在的主题等级模型产生的邮件特征,然后用分类器进行分类[5]。就基本特征而言,Bergholz没有Fette的性能好,但加上两个基于模型的特征后发现误判数减少了三分之二。
也有很多采用分类器分类的方法,比如Abu-Nimeh从钓鱼网页传播的角度提出了一种针对钓鱼邮件的特征提取[4]。该方法主要对邮件提取了若干特征,比较了六种机器学习方法在邮件特征分类上的效果。该方法拓展了钓鱼网页的特征研究的思路,在一定程度上进一步提高了钓鱼网页检测的精度,但是这种方法在抽取钓鱼网页特征时仍然只是采用了单个网页的信息,因而容易被钓鱼网页制作者欺骗。
Zhang在2007年提出了一种新颖的基于内容的检测钓鱼网页的方法——CANTINA[7]。该方法通过借助第三方的工具(比如搜索引擎)来检测钓鱼网页,它首先统计网页中的词频-反文档词频算法(TF-IDF)词条,把排序靠前的几个词条利用搜索引擎检索,如果该网页不出现在搜索结果的前面30个结果中,则认为是钓鱼网页。该方法具有较高的精率度和较小的误判率。
[1]L.Cranor,S.Egelman,J.Hong,and Y.Zhang.Phishing phish:An evaluation ofanti-phishing toolbars.Technical report,Carnegie Mellon University,Nov.2006
[2]Collin Jackson,Daniel R.Simon,Desney S.Tan,and Adam Barth.An Evaluation ofExtended Validation and Picture-in-Picture Phishing Attacks.Proceedings ofUsable Security(USEC′07),February 2007..
[3]Fette,I.,N.Sadeh,and A.Tomasic.Learning to Detect Phishing Emails.ISRITechnical  Report.CMU-ISRI-06-112,2006.http://reports-archive.adm.cs.cmu.edu/anon/isri2006/abstracts/06-112.html
[4]S.Abu-Nimeh,D.Nappa,X.Wang,and S.Nair.A Comparison of MachineLearning Techniques for Phishing Detection.Proceedings of the eCrimeResearchers Summit,2007.
[5]A.Bergholz,J.-H.Chang,G.Paaβ,F.Reichartz,and S.Strobel.Improved PhishingDetection Using Model-based Features.Proceedings of the Con-ference on Emailand Anti-Spam(CEAS),2008.
[6]A.Bergholz,G.Paaβ,F.Reichartz,S.Strobel,M.-F.Moens,and B.Witten.Detecting Known and New Salting Tricks in Unwanted Emails.ProceedingsConference on Email an AntiSpam CEAS 2008.
[7]Zhang,Y.,Hong,J.,Cranor,L.CANTINA:A Content-Based Approach toDe-tecting Phishing Web Sites.Proceedings of the 16th international conferenceonWorld Wide Web,2007.
发明内容
技术问题:本发明的目的是提供一种基于文本特征分析的钓鱼邮件检测及方法。以往钓鱼邮件的检测主要通过对文本特征的分析,但是选取的文本特征的效果好坏参差不齐,导致误判率比较高,从而无法达到实际使用的要求。本发明从以往的这些文本特征中进行了筛选,将效果比较好的几个特征挑选出来,并结合钓鱼邮件的特点和现有的研究基础提出几种新的针对钓鱼邮件检测的文本特征。使用本发明对可疑邮件进行检测,大大提高了命中精度和召回率。
技术方案:钓鱼攻击发起者一般会将邮件中的钓鱼网站链接经过处理,伪装成跟合法网站的链接相似的摸样,然后引诱用户点击这类链接。本发明主要对可疑邮件进行链接特征提取,经过统计分析找到这些网站链接中普遍被认为是符合钓鱼邮件的特点文本特征,从而达到钓鱼邮件检测的目的。
与此同时,钓鱼邮件通常会含有一些网络脚本语言,邮件的格式一般不为纯文本格式,并且经常被垃圾邮件过滤器识别为是垃圾邮件。
本发明的基于文本特征分析的钓鱼邮件检测方法主要分为以下步骤:
一、对样本集进行特征提取
步骤1).利用邮件解析器对邮件进行解析,将邮件中所含的图片、动画、附件等非文本部分去掉,得到所需要的邮件数据;
步骤2).对于邮件的头部部分,所需提取的特征为邮件正文的格式和邮件的发送时间,一般邮件都是纯文本格式、html格式或者两者兼而有之;
步骤3).对于文本内容的处理,主要利用正则表达式匹配算法编写相应的代码,将邮件中所有的网站链接部分都提取出来;
步骤4).基于正则表达式算法在处理匹配文本中相应字符上的优势,在提取以下特征时,依然采用正则表达式算法:邮件中是否含有基于IP地址型的网页链接;链接中是否含有@符号;链接中是否含有“-”符号;邮件中所含的链接个数;链接中域名的个数;链接中点号分隔符的个数;链接中%分隔符的个数;链接中使用http协议的次数;
步骤5).判定邮件是否含有脚本语言的时候,先将文本内容全都转化为英文小写,然后遍历邮件文本内容,看是否有相应的脚本标记;
步骤6).在检测网页链接所导向的网站的注册时间时,利用了WHOIS域名检索引擎,利用该检索引擎,检测相关域名的注册信息,其中包括域名的注册时间,结合从邮件头部中提取的邮件发送时间,得到该两者的间隔时间,从而判断是否过短;
步骤7).把这些特征统计好后,得到了每一封邮件的多维特征向量;
二、利用训练集训练分类器模型
步骤21).对于训练集中的每一封邮件进行标记,设定标签位,普通邮件标记为“0”,钓鱼邮件标记为“1”;
步骤22).在提取好的多维文本特征向量中加入标签位,组成该邮件的特征向量;
步骤23).选择合适的分类器对训练集邮件进行分类,在此过程中,经过对比使用支持向量机分类器,然后利用训练集对该分类器进行训练,从而得到所需要的支持向量机分类模型;
三、利用分类模型检测可疑邮件
步骤31).对可疑邮件进行文本特征提取,整个提取过程与特征提取部分的步骤1)-步骤7)一致,完成提取工作以后,得到该可疑邮件的特征向量;
步骤32)将步骤31)所得结果,送入支持向量机模型中进行钓鱼邮件和普通邮件的分类。
有益效果:由于基于邮件的文本特征分析手段,本发明具有以下一些优点和有益成果:
高准确率:机器学习主要的评价指标为精度和召回率。在钓鱼邮件的检测识别中,精度表示机器判断为钓鱼邮件的邮件中,确实属于钓鱼邮件所占的比例;召回率表示所有钓鱼邮件中被机器判定识别为钓鱼邮件所占的比例。因此精度和召回率越高则效果越好。经过实验,证明本发明提出的文本型特征模型在机器学习模型进行机器学习以后,检测钓鱼邮件精度和召回率都很高,该结果与目前最好的几种钓鱼邮件自动检测技术基本处于同一档次。
应用广泛:由于本发明实际提出了一种基于邮件文本型特征分析检测方案,所以在邮件的特征检测上用途广泛。
附图说明
图1是通过钓鱼邮件攻击的网络钓鱼结构体系。
图2是基于文本特征分析的钓鱼邮件检测过程。
具体实施方式
实现的步骤如下:
1)利用相关工具,把整个邮件包含中的图片、动画、附件等信息剔除掉,然后利用邮件解析器将整个邮件解析,得到邮件头部和正文部分的相关信息;
2)分别针对邮件的头部和正文部提取检测所需要的文本特征,组成该邮件的特征向量;
3)用机器学习方法进行训练,获得分类器模型和阈值;
4)选定好分类器和阈值以后,对可疑邮件进行分类预测。
本发明技术方案主要分为三大部分:
1、特征提取部分:完成对邮件文本特征的提取
钓鱼攻击发起者一般会将邮件中的钓鱼网站链接经过处理,伪装成跟合法网站的链接相似的摸样,然后引诱用户点击这类链接。因此,钓鱼邮件中所包含的网站链接一定包含很多特征,将这些特征进行提取,并将这些特征分为真假型特征和计数型特征两类。
真假型特征:主要指的是邮件是否含有这些特征,如果包含则特征值为1,否则为0。这类特征主要有:邮件正文是否为纯文本格式、是否含有脚本语句、是否含有基于IP地址型的网页链接、邮件发送者的邮箱域名与邮件链接中的一级域名是否一致、网站的注册时间与邮件发送日期间隔是否达到设定值、链接中是否含有@符号、链接中是否含有“-”符号。
计数型特征:主要是用于该种特征在邮件出现的次数。该种特征主要有:邮件含有的网页链接的个数、链接中域名的个数、链接中点号的个数、链接中%符号的个数、链接中http协议使用的次数。
具体步骤如下:
步骤1)利用邮件解析器对邮件进行解析,同时将邮件中所含的图片、动画、附件等非文本部分去掉,得到所需要的邮件数据;
步骤2)对于邮件的头部部分,本发明所需提取的特征为邮件正文的格式和邮件的发送时间。一般邮件都是纯文本格式、html格式或者两者兼而有之;
步骤3)对于文本内容的处理,主要利用正则表达式匹配算法编写相应的代码,将邮件中所有的网站链接部分都提取出来;
步骤4)基于正则表达式算法在处理匹配文本中相应字符上的优势,本发明在提取以下特征时,依然采用正则表达式算法:邮件中是否含有基于IP地址型的网页链接;链接中是否含有@符号;链接中是否含有“-”符号;邮件中所含的链接个数;链接中域名的个数;链接中点号分隔符的个数;链接中%分隔符的个数;链接中使用http协议的次数;
步骤5)判定邮件是否含有脚本语言的时候,先将文本内容全都转化为英文小写,然后遍历邮件文本内容,看是否有相应的脚本标记;
步骤6)在检测网页链接所导向的网站的注册时间时,本发明利用了域名检索引擎。利用相应的域名检索引擎,可以检测相关域名的注册信息,其中包括了域名的注册时间。结合从邮件头部中提取的邮件发送时间,得到该两者的间隔时间,从而判断是否过短;
步骤7)把这些特征统计好后,得到了邮件的一组多维特征向量。
2、训练阶段部分:对训练数据集中的邮件进行标记,然后用标记好的邮件训练出
本发明所需要的分类模型
步骤21)对于训练集中的邮件进行标记,设定标签位,普通邮件标记为“0”,钓鱼邮件标记为“1”。
步骤22)在提取得到的多维文本特征向量中加入标签位,组成该邮件的特征向量。
步骤23)选择合适的分类器对训练集邮件进行分类。在此过程中,经过对比本发明使用支持向量机分类器,然后利用训练集对该分类器进行训练,从而得到所需要的支持向量机分类模型。
3、检测阶段部分:使用训练好的支持向量机分类模型对可疑邮件进行检测
步骤31)对可疑邮件进行文本特征提取,整个提取过程与特征提取部分的步骤1)-步骤7)一致,完成提取工作以后,得到该可疑邮件的特征向量。
步骤32)将步骤31)所得结果,送入支持向量机模型中进行钓鱼邮件和普通邮件的分类。

Claims (1)

1.一种基于文本特征分析的钓鱼邮件检测方法,其特征在于该方法主要分为以下步骤:
一、对样本集进行特征提取
步骤1).利用邮件解析器对邮件进行解析,将邮件中所含的图片、动画、附件等非文本部分去掉,得到所需要的邮件数据;
步骤2).对于邮件的头部部分,所需提取的特征为邮件正文的格式和邮件的发送时间,一般邮件都是纯文本格式、html格式或者两者兼而有之;
步骤3).对于文本内容的处理,主要利用正则表达式匹配算法编写相应的代码,将邮件中所有的网站链接部分都提取出来;
步骤4).基于正则表达式算法在处理匹配文本中相应字符上的优势,在提取以下特征时,依然采用正则表达式算法:邮件中是否含有基于IP地址型的网页链接;链接中是否含有@符号;链接中是否含有“-”符号;邮件中所含的链接个数;链接中域名的个数;链接中点号分隔符的个数;链接中%分隔符的个数;链接中使用http协议的次数;
步骤5).判定邮件是否含有脚本语言的时候,先将文本内容全都转化为英文小写,然后遍历邮件文本内容,看是否有相应的脚本标记;
步骤6).在检测网页链接所导向的网站的注册时间时,利用了WHOIS域名检索引擎,利用该检索引擎,检测相关域名的注册信息,其中包括域名的注册时间,结合从邮件头部中提取的邮件发送时间,得到该两者的间隔时间,从而判断是否过短;
步骤7).把这些特征统计好后,得到了每一封邮件的多维特征向量;
二、利用训练集训练分类器模型
步骤21).对于训练集中的每一封邮件进行标记,设定标签位,普通邮件标记为“0”,钓鱼邮件标记为“1”;
步骤22).在提取好的多维文本特征向量中加入标签位,组成该邮件的特征向量;
步骤23).选择合适的分类器对训练集邮件进行分类,在此过程中,经过对比使用支持向量机分类器,然后利用训练集对该分类器进行训练,从而得到所需要的支持向量机分类模型;
三、利用分类模型检测可疑邮件
步骤31).对可疑邮件进行文本特征提取,整个提取过程与特征提取部分的步骤1)-步骤7)一致,完成提取工作以后,得到该可疑邮件的特征向量;
步骤32)将步骤31)所得结果,送入支持向量机模型中进行钓鱼邮件和普通邮件的分类。
CN 201110020896 2011-01-18 2011-01-18 一种基于文本特征分析的钓鱼邮件检测方法 Expired - Fee Related CN102098235B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110020896 CN102098235B (zh) 2011-01-18 2011-01-18 一种基于文本特征分析的钓鱼邮件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110020896 CN102098235B (zh) 2011-01-18 2011-01-18 一种基于文本特征分析的钓鱼邮件检测方法

Publications (2)

Publication Number Publication Date
CN102098235A true CN102098235A (zh) 2011-06-15
CN102098235B CN102098235B (zh) 2013-08-07

Family

ID=44131106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110020896 Expired - Fee Related CN102098235B (zh) 2011-01-18 2011-01-18 一种基于文本特征分析的钓鱼邮件检测方法

Country Status (1)

Country Link
CN (1) CN102098235B (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629261A (zh) * 2012-03-01 2012-08-08 南京邮电大学 由钓鱼网页查找目标网页的方法
CN102663291A (zh) * 2012-03-23 2012-09-12 奇智软件(北京)有限公司 邮件的信息提示方法及装置
CN102663060A (zh) * 2012-03-30 2012-09-12 奇智软件(北京)有限公司 一种识别被篡改网页的方法及装置
CN102999638A (zh) * 2013-01-05 2013-03-27 南京邮电大学 基于网络群挖掘的钓鱼网站检测方法
CN103049484A (zh) * 2012-11-30 2013-04-17 北京奇虎科技有限公司 一种网页危险性的识别方法和装置
CN103577406A (zh) * 2012-07-19 2014-02-12 深圳中兴网信科技有限公司 一种管理非结构化数据的方法及装置
CN103577755A (zh) * 2013-11-01 2014-02-12 浙江工业大学 一种基于支持向量机的恶意脚本静态检测方法
CN104038391A (zh) * 2014-07-02 2014-09-10 网易(杭州)网络有限公司 一种垃圾邮件检测的方法和设备
CN104580254A (zh) * 2012-06-28 2015-04-29 北京奇虎科技有限公司 一种钓鱼网站识别系统及方法
CN105337993A (zh) * 2015-11-27 2016-02-17 厦门安胜网络科技有限公司 一种基于动静结合的邮件安全检测装置及方法
CN105915555A (zh) * 2016-06-29 2016-08-31 北京奇虎科技有限公司 网络异常行为的检测方法及系统
CN107918674A (zh) * 2017-12-12 2018-04-17 携程旅游网络技术(上海)有限公司 网页数据的采集方法及其系统、存储介质、电子设备
CN108259415A (zh) * 2016-12-28 2018-07-06 北京奇虎科技有限公司 一种邮件检测的方法及装置
CN108418777A (zh) * 2017-02-09 2018-08-17 中国移动通信有限公司研究院 一种钓鱼邮件检测方法、装置及系统
CN108476222A (zh) * 2016-02-15 2018-08-31 微软技术许可有限责任公司 钓鱼攻击的检测和减轻
CN108519965A (zh) * 2018-03-15 2018-09-11 链家网(北京)科技有限公司 数据解析方法及装置
CN108712403A (zh) * 2018-05-04 2018-10-26 哈尔滨工业大学(威海) 基于域名构造相似性的非法域名挖掘方法
CN108833258A (zh) * 2018-06-12 2018-11-16 广东睿江云计算股份有限公司 一种邮件服务主动发现异常的方法
CN109039875A (zh) * 2018-09-17 2018-12-18 杭州安恒信息技术股份有限公司 一种基于链接特征分析的钓鱼邮件检测方法及系统
CN109039874A (zh) * 2018-09-17 2018-12-18 杭州安恒信息技术股份有限公司 一种基于行为分析的邮件审计方法及装置
CN110213152A (zh) * 2018-05-02 2019-09-06 腾讯科技(深圳)有限公司 识别垃圾邮件的方法、装置、服务器及存储介质
CN110300054A (zh) * 2019-07-03 2019-10-01 论客科技(广州)有限公司 恶意钓鱼邮件的识别方法及装置
CN111614543A (zh) * 2020-04-10 2020-09-01 中国科学院信息工程研究所 一种基于url的鱼叉式钓鱼邮件检测方法及系统
CN114928501A (zh) * 2022-07-04 2022-08-19 南开大学 一种基于个性化联邦学习的网络钓鱼邮件检测方法
CN115134147A (zh) * 2022-06-29 2022-09-30 中国工商银行股份有限公司 电子邮件检测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060184632A1 (en) * 2005-02-15 2006-08-17 Spam Cube, Inc. Apparatus and method for analyzing and filtering email and for providing web related services
US20070112774A1 (en) * 2005-11-12 2007-05-17 Cheshire Stuart D Methods and systems for providing improved security when using a uniform resource locator (URL) or other address or identifier
CN101667979A (zh) * 2009-10-12 2010-03-10 哈尔滨工程大学 基于链接域名和用户反馈的反钓鱼邮件系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060184632A1 (en) * 2005-02-15 2006-08-17 Spam Cube, Inc. Apparatus and method for analyzing and filtering email and for providing web related services
US20070112774A1 (en) * 2005-11-12 2007-05-17 Cheshire Stuart D Methods and systems for providing improved security when using a uniform resource locator (URL) or other address or identifier
CN101667979A (zh) * 2009-10-12 2010-03-10 哈尔滨工程大学 基于链接域名和用户反馈的反钓鱼邮件系统及方法

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629261A (zh) * 2012-03-01 2012-08-08 南京邮电大学 由钓鱼网页查找目标网页的方法
CN102629261B (zh) * 2012-03-01 2014-07-16 南京邮电大学 由钓鱼网页查找目标网页的方法
WO2013139223A1 (zh) * 2012-03-23 2013-09-26 北京奇虎科技有限公司 邮件的信息提示方法及装置
CN102663291A (zh) * 2012-03-23 2012-09-12 奇智软件(北京)有限公司 邮件的信息提示方法及装置
CN102663060B (zh) * 2012-03-30 2014-11-19 北京奇虎科技有限公司 一种识别被篡改网页的方法及装置
CN102663060A (zh) * 2012-03-30 2012-09-12 奇智软件(北京)有限公司 一种识别被篡改网页的方法及装置
CN104580254A (zh) * 2012-06-28 2015-04-29 北京奇虎科技有限公司 一种钓鱼网站识别系统及方法
CN104580254B (zh) * 2012-06-28 2017-10-31 北京奇虎科技有限公司 一种钓鱼网站识别系统及方法
CN103577406A (zh) * 2012-07-19 2014-02-12 深圳中兴网信科技有限公司 一种管理非结构化数据的方法及装置
CN103577406B (zh) * 2012-07-19 2019-04-16 深圳中兴网信科技有限公司 一种管理非结构化数据的方法及装置
CN103049484A (zh) * 2012-11-30 2013-04-17 北京奇虎科技有限公司 一种网页危险性的识别方法和装置
CN102999638A (zh) * 2013-01-05 2013-03-27 南京邮电大学 基于网络群挖掘的钓鱼网站检测方法
CN103577755A (zh) * 2013-11-01 2014-02-12 浙江工业大学 一种基于支持向量机的恶意脚本静态检测方法
CN104038391A (zh) * 2014-07-02 2014-09-10 网易(杭州)网络有限公司 一种垃圾邮件检测的方法和设备
CN104038391B (zh) * 2014-07-02 2017-11-17 网易(杭州)网络有限公司 一种垃圾邮件检测的方法和设备
CN105337993A (zh) * 2015-11-27 2016-02-17 厦门安胜网络科技有限公司 一种基于动静结合的邮件安全检测装置及方法
CN108476222A (zh) * 2016-02-15 2018-08-31 微软技术许可有限责任公司 钓鱼攻击的检测和减轻
CN105915555A (zh) * 2016-06-29 2016-08-31 北京奇虎科技有限公司 网络异常行为的检测方法及系统
CN105915555B (zh) * 2016-06-29 2020-02-18 北京奇虎科技有限公司 网络异常行为的检测方法及系统
CN108259415A (zh) * 2016-12-28 2018-07-06 北京奇虎科技有限公司 一种邮件检测的方法及装置
CN108418777A (zh) * 2017-02-09 2018-08-17 中国移动通信有限公司研究院 一种钓鱼邮件检测方法、装置及系统
CN107918674A (zh) * 2017-12-12 2018-04-17 携程旅游网络技术(上海)有限公司 网页数据的采集方法及其系统、存储介质、电子设备
CN108519965A (zh) * 2018-03-15 2018-09-11 链家网(北京)科技有限公司 数据解析方法及装置
CN110213152A (zh) * 2018-05-02 2019-09-06 腾讯科技(深圳)有限公司 识别垃圾邮件的方法、装置、服务器及存储介质
CN108712403A (zh) * 2018-05-04 2018-10-26 哈尔滨工业大学(威海) 基于域名构造相似性的非法域名挖掘方法
CN108712403B (zh) * 2018-05-04 2020-08-04 哈尔滨工业大学(威海) 基于域名构造相似性的非法域名挖掘方法
CN108833258A (zh) * 2018-06-12 2018-11-16 广东睿江云计算股份有限公司 一种邮件服务主动发现异常的方法
CN109039874A (zh) * 2018-09-17 2018-12-18 杭州安恒信息技术股份有限公司 一种基于行为分析的邮件审计方法及装置
CN109039875A (zh) * 2018-09-17 2018-12-18 杭州安恒信息技术股份有限公司 一种基于链接特征分析的钓鱼邮件检测方法及系统
CN109039875B (zh) * 2018-09-17 2021-06-22 杭州安恒信息技术股份有限公司 一种基于链接特征分析的钓鱼邮件检测方法及系统
CN109039874B (zh) * 2018-09-17 2021-08-20 杭州安恒信息技术股份有限公司 一种基于行为分析的邮件审计方法及装置
CN110300054A (zh) * 2019-07-03 2019-10-01 论客科技(广州)有限公司 恶意钓鱼邮件的识别方法及装置
CN111614543A (zh) * 2020-04-10 2020-09-01 中国科学院信息工程研究所 一种基于url的鱼叉式钓鱼邮件检测方法及系统
CN115134147A (zh) * 2022-06-29 2022-09-30 中国工商银行股份有限公司 电子邮件检测方法及装置
CN114928501A (zh) * 2022-07-04 2022-08-19 南开大学 一种基于个性化联邦学习的网络钓鱼邮件检测方法

Also Published As

Publication number Publication date
CN102098235B (zh) 2013-08-07

Similar Documents

Publication Publication Date Title
CN102098235B (zh) 一种基于文本特征分析的钓鱼邮件检测方法
Blum et al. Lexical feature based phishing URL detection using online learning
CN109510815B (zh) 一种基于有监督学习的多级钓鱼网站检测方法及检测系统
Mahajan et al. Phishing website detection using machine learning algorithms
CN104067567B (zh) 用于使用字符直方图进行垃圾邮件检测的系统和方法
CN104982011B (zh) 使用多尺度文本指纹的文档分类
CN108259415B (zh) 一种邮件检测的方法及装置
Hamid et al. Using feature selection and classification scheme for automating phishing email detection
CN104077396A (zh) 一种钓鱼网站检测方法及装置
Zhang et al. Phishing detection using neural network
CN104040963A (zh) 用于使用字符串的频谱进行垃圾邮件检测的系统和方法
CN103577755A (zh) 一种基于支持向量机的恶意脚本静态检测方法
CN103458042A (zh) 一种微博广告用户检测方法
CN104951542A (zh) 识别社交短文本类别的方法、分类模型训练方法及装置
Gabriel et al. Detecting malicious URLs: A semi-supervised machine learning system approach
CN112333185B (zh) 一种基于dns解析的域名阴影检测方法和装置
Basnet et al. Classifying phishing emails using confidence-weighted linear classifiers
Abunadi et al. Feature extraction process: A phishing detection approach
CN108683649A (zh) 一种基于文本特征的恶意域名检测方法
Sonowal et al. Masphid: a model to assist screen reader users for detecting phishing sites using aural and visual similarity measures
Ketari et al. A study of image spam filtering techniques
Alnajjar et al. TrustQR: A new technique for the detection of phishing attacks on QR code
Gao et al. Poster: online spam filtering in social networks
Yazhmozhi et al. Natural language processing and Machine learning based phishing website detection system
US20200099718A1 (en) Fuzzy inclusion based impersonation detection

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20110615

Assignee: Jiangsu Nanyou IOT Technology Park Ltd.

Assignor: Nanjing Post & Telecommunication Univ.

Contract record no.: 2016320000207

Denomination of invention: Fishing mail inspection method based on text characteristic analysis

Granted publication date: 20130807

License type: Common License

Record date: 20161109

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
EC01 Cancellation of recordation of patent licensing contract
EC01 Cancellation of recordation of patent licensing contract

Assignee: Jiangsu Nanyou IOT Technology Park Ltd.

Assignor: Nanjing Post & Telecommunication Univ.

Contract record no.: 2016320000207

Date of cancellation: 20180116

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130807

Termination date: 20190118