CN105138921B - 基于页面特征匹配的钓鱼网站目标域名识别方法 - Google Patents

基于页面特征匹配的钓鱼网站目标域名识别方法 Download PDF

Info

Publication number
CN105138921B
CN105138921B CN201510505960.8A CN201510505960A CN105138921B CN 105138921 B CN105138921 B CN 105138921B CN 201510505960 A CN201510505960 A CN 201510505960A CN 105138921 B CN105138921 B CN 105138921B
Authority
CN
China
Prior art keywords
domain name
website
feature
page
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510505960.8A
Other languages
English (en)
Other versions
CN105138921A (zh
Inventor
王伟平
张兵
钟萍
王建新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201510505960.8A priority Critical patent/CN105138921B/zh
Publication of CN105138921A publication Critical patent/CN105138921A/zh
Application granted granted Critical
Publication of CN105138921B publication Critical patent/CN105138921B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2119Authenticating web pages, e.g. with suspicious links

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于页面特征匹配的钓鱼网站目标域名识别方法,包括以下步骤:步骤1:获取一个待识别的钓鱼网站的URL,将该URL地址中嵌套的域名、页面源代码中超链接所包含的域名、搜索引擎搜索结果中的域名和常用的被钓鱼目标域名都加入到目标域名识别范围;步骤2:从目标域名识别范围去除CDN缓存加速服务器的域名;步骤3:目标识别算法的特征相似性计算;步骤4:将目标域名识别范围D中的每个域名的特征相似性S按照从大到小的顺序进行排列,选取相似度最大的域名作为最终的钓鱼网站目标域名,目标检测结束。该基于页面特征匹配的钓鱼网站目标域名识别方法具有识别准确率高的优点。

Description

基于页面特征匹配的钓鱼网站目标域名识别方法
技术领域
本发明属于网络安全领域,涉及一种基于页面特征匹配的钓鱼网站目标域名识别方法。
背景技术
钓鱼网站的大量涌现,不仅给互联网用户的财产安全带来威胁,而且会影响被钓鱼攻击的公司的名誉并削弱其可信度。就商业而言,商标是每个公司最重要的资产,公司需要几年甚至更长的时间才可以建立起让消费者信任的商标。钓鱼攻击的受害者将会发现很难与那些似乎不能保护其资产和私密安全性的公司进行交易合作。客户的信任是一种难以估量的资产,但失去它对任何公司来说都是一个坏消息。在这样的网络钓鱼环境中,如何有效识别钓鱼网站的目标域名将有着重大意义,这将为各大商业公司提前做好防御通知工作。
近几年,在钓鱼网站目标识别方面,从识别方法来看,一般分为两步,先确定钓鱼目标的范围,然后依据相关特征的相似性作为钓鱼网站与目标之间的相似性的定量指标,从中确定相似性最大的目标。
国内外很多研究学者针对钓鱼网站的检测方法进行了大量实验,但是在识别钓鱼网站目标方面仍有不足:首先是方法本身大都只考虑从钓鱼网站的链接地址出发,根据钓鱼网站和目标网站之间的单向链接关系来寻找目标网站,当钓鱼网站和目标网站之间的链接关系不是那么明显的时候就会识别不正确;其次是目标范围选取上没有考虑URL地址中的嵌套域名;第三是现有方法大部分采用页面上超链接所占比重来进行域名识别,但如果钓鱼网站的目标网站使用了CDN缓存加速服务,则对该钓鱼网站进行识别时,页面链接中所有对目标网站静态资源的链接地址都将自动转换成CDN缓存加速服务器的域名,这在一定程度上会影响识别方法的准确率;第四是现有钓鱼网站已经开始利用希腊字母与拉丁字母之间的相似性来逃避检测程序的检测。
因此,针对上述问题,有必要设计一种基于页面特征匹配的钓鱼网站目标域名识别方法。
发明内容
本发明所要解决的技术问题是提供一种基于页面特征匹配的钓鱼网站目标域名识别方法,该基于页面特征匹配的钓鱼网站目标域名识别方法具有识别准确率高的优点。
发明的技术解决方案如下:
一种基于页面特征匹配的钓鱼网站目标域名识别方法,包括以下步骤:
步骤1:获取一个待识别的钓鱼网站的URL,URL是网络资源统一定位符;将该URL地址中嵌套的域名、页面源代码中超链接所包含的域名、搜索引擎搜索结果【按页面关键词搜索得到的域名】中的域名和常用的被钓鱼目标域名都加入到目标域名识别范围;
步骤2:从目标域名识别范围去除CDN缓存加速服务器的域名,形成可疑目标范围集合D;CDN为内容分发网络;
步骤3:目标识别算法的特征相似性计算:
对可疑目标范围集合D中的每个域名dj∈D(j=1,2,...,N)计算基于URL地址特征、搜索特征和页面内容特征的六种特征值Mi(i=1,...,6),并计算每种特征的权重Wi,然后计算其特征相似性S:
N为可疑目标范围集合D中的域名总数;
步骤4:将目标域名识别范围D中的每个域名的特征相似性S按照从大到小的顺序进行排列,选取相似度最大的域名作为最终的钓鱼网站目标域名,目标检测结束。
所述的步骤1中,在获取钓鱼网站页面代码的时候增加预处理操作,参考希腊字母简表,将代码中所有的希腊字母转换成拉丁字母。
在步骤2中,计算PR值,PR为网页排名,将PR值为0的域名从目标范围中删除,以去除CDN缓存加速服务器对检测方法的干扰。
在步骤3中,URL地址中嵌套的域名、页面源代码中超链接所包含的域名、搜索引擎搜索结果这三个方面提取出以下六种特征,(1)URL地址是否包含可疑目标网站顶级域名、(2)URL地址是否包含可疑目标网站二级域名、(3)网页标题是否包含可疑目标网站二级域名、(4)页面超链接包含可疑目标网站顶级域名的次数、(5)提取的页面7个关键词是否包含可疑目标网站二级域名和(6)搜索结果中包含可疑目标网站顶级域名的次数;
对于i=1,2,3,5,Mi=0表示特征匹配不成功,或者Mi=1表示特征匹配成功;另外,M4和M6为第4个和第6个特征匹配成功的次数。
在步骤3中,权值W1和W2采用训练样本统计的方式获得,选取Phishtank上K个钓鱼网站样例作为特征权值计算样本;对于特征1,假设样本中URL嵌套可疑目标网站顶级域名的数目共有K1个,嵌套的域名是真实目标网站的样本数为X1,则W1=X1/K1;对于特征2,假设样本中URL嵌套可疑目标网站二级域名的数目共有K2个,嵌套的域名是真实目标网站的样本数为X2,则W2=X2/K2。K取值要求大于等于300。
在步骤3中,权值W3和W5采用训练样本统计的方式获得,选取Phishtank上K个钓鱼网站样例作为特征权值计算样本。对于特征3,假设样本中网页标题包含真实目标网页的二级域名的有X3个,则W3=X3/K。同样,对于特征5,假设样本中页面关键词包含真实目标网站二级域名的数目是X5,则W5=X5/K。
在步骤3的流程执行过程中,权值W4和W6的计算加入链接中域名匹配的次数因子k4和k6,其步骤为:同样选取Phishtank上K个钓鱼网站样例作为特征权值计算样本,对于特征4,假设样本集中第i个样本的页面超链接包含真实目标网站顶级域名的次数为y4i,则次数因子对于特征6,假设样本集中第i个样本依据页面关键词搜索结果中包含真实目标网站顶级域名的次数为y6i,则次数因子(即样本平均包含次数)
特征4和特征6的权值计算公式分别为w4=X4/(K·k4)和w6=X6/(K·k6),其中,X4为样本集(即样本集合)中页面超链接包含真实目标网站顶级域名的样本数,X6为样本集中依据页面关键词搜索结果中包含真实目标网站顶级域名的样本数。
步骤1中,将常用的被钓鱼目标域名加入到目标域名识别范围,常用的被钓鱼目标域名从Phishtank网站获取,获取的方法是:
在phishtank上采样600个钓鱼网站样本,对其伪造目标域名进行统计,将被伪造频率最高的前12个域名添加到目标域名范围中。
目标域名是钓鱼网站的伪造对象域名。例如某个钓鱼网站企图伪造支付宝页面,该钓鱼网站的目标域名就是支付宝页面的域名。目标识别是指当给定某钓鱼网站的页面域名,能够自动识别出该钓鱼页面所伪造的页面的域名。
对本发明的一些名词作说明:
CDN:Content Delivery/Distribution Network,中文称为内容分发网络;
PR:PageRank,中文称为网页排名。
本发明的特点有:
(1)在获取钓鱼网站页面代码的时候增加预处理,将代码中所有的希腊字母转换成拉丁字母。
(2)解决CDN缓存加速服务器所带来的影响
因为单从域名上无法直接识别域名是否属于CDN缓存加速服务器,但通过实验发现CDN缓存加速服务器域名的PR值为0。因此为了解决CDN缓存加速服务器所带来的影响,将PR值为0的域名从目标范围中去除。
(3)目标识别算法的特征相似性计算
从URL地址特征、搜索特征和页面内容特征三方面提取六种特征,特征包括:URL地址是否包含可疑目标网站顶级域名、URL地址是否包含可疑目标网站二级域名、网页标题是否包含可疑目标网站二级域名、页面超链接包含可疑目标网站顶级域名的次数、提取页面7个关键词是否包含可疑目标网站二级域名和搜索结果中包含可疑目标网站顶级域名的次数。
由于钓鱼网页的链接和搜索引擎搜索结果中出现次数越多的域名就越有可能是真实的目标域名,同时由于特征4和特征6为满足特征的次数,为了避免覆盖掉其它特征的重要程度,因此对特征4和特征6的满足次数进行统计,并在设定W4和W6权值时加入链接中域名匹配的次数因子。
最后,域名的相似性等于六种特征值和权值的乘积之和。
有益效果:
本发明在确定目标范围时,除了提取直链域名和非直链域名,加入URL地址中的嵌套域名纳入目标识别范围,可以精准目标范围。
如果钓鱼网站的目标网站使用了CDN缓存加速服务,则对该钓鱼网站进行识别时,页面链接中所有对目标网站静态资源的链接地址都将自动转换成CDN缓存加速服务器的域名。因此采用去除CDN缓存加速服务器的域名,可以提高准确率。
为了避免钓鱼网站利用希腊字母与拉丁字母之间的相似性来逃避检测程序的检测,增加在获取钓鱼网站页面代码的时候预处理,将页面代码中的希腊字母转换成对应的拉丁字母,提高关键词提取的正确率。
目标域名识别方法不仅考虑钓鱼网站和目标网站之间的链接关系,而且还考虑了钓鱼网站的URL地址、页面标题、页面超链接、页面关键词分别与目标网站域名之间的关联关系,当钓鱼网站与目标网站之间的链接关系不是那么明显的时候,本发明的方法也能够进行识别。
总之,本发明的基于页面特征匹配的钓鱼网站目标域名识别方法,考虑URL地址中嵌套的域名、页面源代码中超链接所包含的域名和搜索引擎搜索结果中的域名,以及将常用的被钓鱼目标域名加入到钓鱼目标范围,并从目标范围去除CDN缓存加速服务器的域名,形成目标域名识别范围。同时在获取钓鱼网站页面代码增加预处理操作。并且提出了一种基于页面特征匹配的目标域名识别算法。该算法从URL地址、页面内容和搜索引擎搜索结果这三个方面总结出六种页面特征,并为每种特征设置相应的权重,然后对目标范围中的每个域名进行特征相似度匹配,最后选取相似度最大的域名作为目标域名。本发明具有准确率高的特点。
附图说明
图1为目标范围确定方法图;
图2为目标域名识别方法流程示意图。
具体实施方式
以下将结合附图和具体实施例对本发明做进一步详细说明:
实施例1:
图1是本发明的目标范围确定方法图,步骤如下:
将钓鱼网站URL地址中嵌套的域名、页面源代码中超链接所包含的域名和搜索引擎搜索结果中的域名都加入到可能的目标范围中来。同时,将常用的被钓鱼目标域名也加入到目标范围中,以此扩大目标范围。
常用的被钓鱼目标是指经常被钓鱼网站模仿的合法网站。Phishtank是基于社区的反钓鱼式攻击服务,可以提供存活的钓鱼网站。在Phishtank上采样600个样本钓鱼网站样本,统计其伪造的目标域名,将被伪造频率最高的前12个目标域名(paypal.com、apple.com、google.com、ebay.com等)添加到目标域名范围中。
另一方面为了解决CDN缓存加速服务器所带来的影响,将PR值(网页的排名)为0的域名从目标范围中去除。这是因为通过实验发现所有的CDN缓存加速服务器域名的PR值都为0。
图2是本发明的目标域名识别方法流程示意图,步骤如下:
在确定目标范围之后,进行特征加权和计算。本发明关注的特征包含三个方面,即URL地址特征、页面内容特征和搜索引擎搜索结果特征,从这三个方面提取出六种特征,然后对可疑目标域名范围中的每个域名进行特征相似性匹配,有针对性的查找目标域名。提取的六种特征如表1所示。
表1 用于识别目标域名的6种特征
附注a:本文中的所有顶级域名均指二级域名加域名后缀,如apple.com。
附注b:页面超链接不仅考虑a标签的href属性,还考虑了script标签的src属性、link标签的href属性和img标签的src属性。
在此,Mi表示第i个特征的特征值,对于i=1,2,3,5,Mi=0表示特征匹配不成功,Mi=1表示特征匹配成功;另外,M4和M6为第4个和第6个特征匹配成功的次数。例如http://camilleblock.com/images/www.apple.uk/www.apple.com这个钓鱼网页,其URL地址中就包含了苹果公司的顶级域名,在与可疑目标www.apple.com相似性匹配时,M1=1。同时在进行特征4匹配时,发现该钓鱼网页的所有超链接地址中共出现了10次apple.com的域名,则M4=10。
选取Phishtank上K个钓鱼网站样例作为特征权值计算样本,对特征权值计算样本进行统计,并根据统计结果对每个特征设置相应的权值。对于特征1,假设样本中存在可疑域名嵌套的样本共有K1个,嵌套的域名是真实目标网站的样本数为X1,则权值W1的计算公式如式(1)。
同理可计算出W2。对于特征3,如果钓鱼网页的标题中包含真实目标网页的二级域名有X3个,则W3的计算公式如式(2)。
同理可计算出W5。由于特征4和特征6为满足特征的次数,为了不会覆盖掉其它特征的重要程度,对特征4和特征6的满足次数进行统计时加入链接中域名匹配的次数因子。假设样本集合中第i个样本的页面超链接包含真实目标网站顶级域名的次数为y4i,则特征4的平均满足次数见式(3)。
同理,对于特征6,样本集中第i个样本依据页面关键词搜索结果中包含真实目标网站顶级域名的次数为y6i,则样本平均包含次数见式(4)。
因此特征4和特征6的权值计算公式分别为w4=X4/(K·k4)和w6=X6/(K·k6),其中X4为样本集中页面超链接包含真实目标网站顶级域名的样本数,X6为样本集中依据页面关键词搜索结果中包含真实目标网站顶级域名的样本数。所有特征权值计算方式如表2所示。
表2 特征权值计算结果
对可疑目标范围集合D中的每个域名dj∈D(j=1,2,...,N),根据六种特征值Mi(i=1,...,6)和其特征的权重Wi,计算其特征相似性Sj如下所示。
然后将每个域名的特征相似性按照从大到小的顺序排列,将特征相似性最大的域名作为最终的目标域名T。
假设
sj=max(s1,s2,...,sn) (6)
T=dj (7)
采用本发明进行钓鱼网站目标域名识别,将钓鱼网页URL地址中的嵌套域名和出现频率较高的钓鱼目标域名纳入到可疑目标域名集合中,有效扩大可疑目标范围。利用网页PR值排除了CDN缓存加速服务器所带来的影响,对页面代码进行预处理,解决了检测程序不能识别希腊字母的问题。总结六种用于识别钓鱼网页目标域名的关键特征,并设置相应特征权值,选取最大的相似性为目标网站。该发明方法,不仅考虑钓鱼网站和目标网站之间的链接关系,而且还考虑了钓鱼网站的URL地址、页面标题、页面超链接、页面关键词分别与目标网站域名之间的关联关系,具有目标网站识别准确率高的特点。
实施例2:
从Phishtank上抓取了大量现存的钓鱼网站样本,对本发明的方法进行实验测试。测试数据全部采自Phishtank上已被确认的最新的钓鱼网站,从中抓取600个钓鱼网站样本,并人工检查其对应的真实目标域名,作为目标识别准确与否的依据。
所有样本对应的目标域名共有29个,将被伪造频率最高的前12个目标域名添加到可疑目标范围,其中目标域名为paypal.com的钓鱼网页数量最多,占样本数的44.5%。从600个钓鱼网站样本中随机选择10组样本集合,每个集合都包含300个钓鱼网站样本,利用这10组样本集合进行权值计算。同时固定选取后300个样例作为测试样本进行测试,在10组权值样本得到的不同权值情况下的测试结果如表3所示。
表3 10组不同权值进行目标识别的结果
本发明方法自动构造目标域名集合,有针对性的查找目标域名,利用Phishtank上已经被确认的钓鱼网站进行测试,测试结果表明该方法能够达到很好的识别效果,正确率在97%以上。

Claims (7)

1.一种基于页面特征匹配的钓鱼网站目标域名识别方法,其特征在于,包括以下步骤:
步骤1:获取一个待识别的钓鱼网站的URL,URL是网络资源统一定位符;将该URL地址中嵌套的域名、页面源代码中超链接所包含的域名、搜索引擎搜索结果中的域名和常用的被钓鱼目标域名都加入到目标域名识别范围;
步骤2:从目标域名识别范围去除CDN缓存加速服务器的域名,形成可疑目标范围集合D;CDN为内容分发网络;
步骤3:目标识别算法的特征相似性计算:
对可疑目标范围集合D中的每个域名dj∈D计算基于URL地址特征、搜索特征和页面内容特征的六种特征值Mi,其中j=1,2,...,N,i=1,...,6,并计算每种特征的权重Wi,然后计算其特征相似性S:
<mrow> <mi>S</mi> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>6</mn> </munderover> <msub> <mi>W</mi> <mi>i</mi> </msub> <mo>&amp;CenterDot;</mo> <msub> <mi>M</mi> <mi>i</mi> </msub> </mrow>
N为可疑目标范围集合D中的域名总数;
步骤4:将目标域名识别范围D中的每个域名的特征相似性S按照从大到小的顺序进行排列,选取相似度最大的域名作为最终的钓鱼网站目标域名,目标检测结束;
在步骤3中,URL地址中嵌套的域名、页面源代码中超链接所包含的域名、搜索引擎搜索结果这三个方面提取出以下六种特征,(1)URL地址是否包含可疑目标网站顶级域名、(2)URL地址是否包含可疑目标网站二级域名、(3)网页标题是否包含可疑目标网站二级域名、(4)页面超链接包含可疑目标网站顶级域名的次数、(5)提取的页面7个关键词是否包含可疑目标网站二级域名和(6)搜索结果中包含可疑目标网站顶级域名的次数;
对于i=1,2,3,5,Mi=0表示特征匹配不成功,或者Mi=1表示特征匹配成功;另外,M4和M6为第4个和第6个特征匹配成功的次数。
2.根据权利要求1所述的基于页面特征匹配的钓鱼网站目标域名识别方法,其特征在于,所述的步骤1中,在获取钓鱼网站页面代码的时候增加预处理操作,参考希腊字母简表,将代码中所有的希腊字母转换成拉丁字母。
3.根据权利要求1所述的基于页面特征匹配的钓鱼网站目标域名识别方法,其特征在于,在步骤2中,计算PR值,PR为网页排名,将PR值为0的域名从目标范围中删除,以去除CDN缓存加速服务器对检测方法的干扰。
4.根据权利要求1所述的基于页面特征匹配的钓鱼网站目标域名识别方法,其特征在于,在步骤3中,权值W1和W2采用训练样本统计的方式获得,选取Phishtank上K个钓鱼网站样例作为特征权值计算样本;对于特征1,假设样本中URL嵌套可疑目标网站顶级域名的数目共有K1个,嵌套的域名是真实目标网站的样本数为X1,则W1=X1/K1;对于特征2,假设样本中URL嵌套可疑目标网站二级域名的数目共有K2个,嵌套的域名是真实目标网站的样本数为X2,则W2=X2/K2;K取值要求大于等于300。
5.根据权利要求1所述的基于页面特征匹配的钓鱼网站目标域名识别方法,其特征在于,在步骤3中,权值W3和W5采用训练样本统计的方式获得,选取Phishtank上K个钓鱼网站样例作为特征权值计算样本;对于特征3,假设样本中网页标题包含真实目标网页的二级域名的有X3个,则W3=X3/K;同样,对于特征5,假设样本中页面关键词包含真实目标网站二级域名的数目是X5,则W5=X5/K;K取值要求大于等于300。
6.根据权利要求1所述的基于页面特征匹配的钓鱼网站目标域名识别方法,其特征在于,在步骤3的流程执行过程中,权值W4和W6的计算加入链接中域名匹配的次数因子k4和k6,其步骤为:同样选取Phishtank上K个钓鱼网站样例作为特征权值计算样本,对于特征4,假设样本集中第i个样本的页面超链接包含真实目标网站顶级域名的次数为y4i,则次数因子对于特征6,假设样本集中第i个样本依据页面关键词搜索结果中包含真实目标网站顶级域名的次数为y6i,则次数因子K取值要求大于等于300;
特征4和特征6的权值计算公式分别为w4=X4/(K·k4)和w6=X6/(K·k6),其中,X4为样本集中页面超链接包含真实目标网站顶级域名的样本数,X6为样本集中依据页面关键词搜索结果中包含真实目标网站顶级域名的样本数。
7.根据权利要求4-6任一项所述的基于页面特征匹配的钓鱼网站目标域名识别方法,其特征在于,步骤1中,将常用的被钓鱼目标域名加入到目标域名识别范围,常用的被钓鱼目标域名从Phishtank网站获取,获取的方法是:
在phishtank上采样600个钓鱼网站样本,对其伪造目标域名进行统计,将被伪造频率最高的前12个域名添加到目标域名范围中。
CN201510505960.8A 2015-08-18 2015-08-18 基于页面特征匹配的钓鱼网站目标域名识别方法 Active CN105138921B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510505960.8A CN105138921B (zh) 2015-08-18 2015-08-18 基于页面特征匹配的钓鱼网站目标域名识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510505960.8A CN105138921B (zh) 2015-08-18 2015-08-18 基于页面特征匹配的钓鱼网站目标域名识别方法

Publications (2)

Publication Number Publication Date
CN105138921A CN105138921A (zh) 2015-12-09
CN105138921B true CN105138921B (zh) 2018-02-09

Family

ID=54724266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510505960.8A Active CN105138921B (zh) 2015-08-18 2015-08-18 基于页面特征匹配的钓鱼网站目标域名识别方法

Country Status (1)

Country Link
CN (1) CN105138921B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919835B (zh) * 2015-12-24 2020-11-24 中国电信股份有限公司 用于处理恶意网站的方法和装置
CN108768982B (zh) * 2018-05-17 2021-04-27 江苏通付盾信息安全技术有限公司 钓鱼网站的检测方法、装置、计算设备及计算机存储介质
CN110650108A (zh) * 2018-06-26 2020-01-03 深信服科技股份有限公司 一种基于icon图标的钓鱼页面识别方法及相关设备
CN109246074A (zh) * 2018-07-23 2019-01-18 北京奇虎科技有限公司 识别可疑域名的方法、装置、服务器及可读存储介质
CN112202643B (zh) * 2020-10-12 2022-03-29 成都知道创宇信息技术有限公司 网络检测方法、装置、测试主机及存储介质
CN113688905A (zh) * 2021-08-25 2021-11-23 中国互联网络信息中心 一种有害域名核验方法及装置
CN114095278B (zh) * 2022-01-19 2022-05-24 南京明博互联网安全创新研究院有限公司 一种基于混合特征选择框架的钓鱼网站检测方法
CN114879217B (zh) * 2022-07-12 2022-10-21 中国工程物理研究院应用电子学研究所 一种目标位姿的判断方法及系统
CN116633684B (zh) * 2023-07-19 2023-10-13 中移(苏州)软件技术有限公司 网络钓鱼检测方法、系统、电子设备和可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102647422A (zh) * 2012-04-10 2012-08-22 中国科学院计算机网络信息中心 钓鱼网站检测方法及设备
CN102882889A (zh) * 2012-10-18 2013-01-16 珠海市君天电子科技有限公司 基于钓鱼网站ip集中性的收集与鉴定的方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102647422A (zh) * 2012-04-10 2012-08-22 中国科学院计算机网络信息中心 钓鱼网站检测方法及设备
CN102882889A (zh) * 2012-10-18 2013-01-16 珠海市君天电子科技有限公司 基于钓鱼网站ip集中性的收集与鉴定的方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《反钓鱼技术综述》;王惟;《山东广播电视大学学报》;20110630(第3期);第45-49页 *
《支持页面特征伪造识别的钓鱼网页检测方法》;王伟平等;《山东大学学报(理学版)》;20140930;第49卷(第9期);第90-95页 *

Also Published As

Publication number Publication date
CN105138921A (zh) 2015-12-09

Similar Documents

Publication Publication Date Title
CN105138921B (zh) 基于页面特征匹配的钓鱼网站目标域名识别方法
Verma et al. What's in a url: Fast feature extraction and malicious url detection
James et al. Detection of phishing URLs using machine learning techniques
Ramesh et al. An efficacious method for detecting phishing webpages through target domain identification
Nguyen et al. A novel approach for phishing detection using URL-based heuristic
Basnet et al. Rule-based phishing attack detection
US9276956B2 (en) Method for detecting phishing website without depending on samples
Xiang et al. Cantina+ a feature-rich machine learning framework for detecting phishing web sites
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
Olivo et al. Obtaining the threat model for e-mail phishing
CN105119909B (zh) 一种基于页面视觉相似性的仿冒网站检测方法和系统
Machado et al. Phishing sites detection based on C4. 5 decision tree algorithm
WO2016201938A1 (zh) 一种多阶段钓鱼网站检测方法与系统
CN108023868B (zh) 恶意资源地址检测方法和装置
CN102790762A (zh) 基于url分类的钓鱼网站检测方法
Wardman et al. High-performance content-based phishing attack detection
Marchal et al. PhishScore: Hacking phishers' minds
CN107798080B (zh) 一种面向钓鱼url检测的相似样本集构造方法
GB2555801A (en) Identifying fraudulent and malicious websites, domain and subdomain names
CN110572359A (zh) 基于机器学习的钓鱼网页检测方法
Geng et al. Favicon-a clue to phishing sites detection
Sorio et al. Detection of hidden fraudulent urls within trusted sites using lexical features
Sanglerdsinlapachai et al. Web phishing detection using classifier ensemble
Zhu et al. An effective neural network phishing detection model based on optimal feature selection
Lee et al. Poster: Proactive blacklist update for anti-phishing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant