CN106790102A - 一种基于url特征的qr码网络钓鱼识别方法及系统 - Google Patents

一种基于url特征的qr码网络钓鱼识别方法及系统 Download PDF

Info

Publication number
CN106790102A
CN106790102A CN201611217721.3A CN201611217721A CN106790102A CN 106790102 A CN106790102 A CN 106790102A CN 201611217721 A CN201611217721 A CN 201611217721A CN 106790102 A CN106790102 A CN 106790102A
Authority
CN
China
Prior art keywords
yards
url
fishing website
data
url data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611217721.3A
Other languages
English (en)
Inventor
黄华军
庞爽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University of Forestry and Technology
Original Assignee
Central South University of Forestry and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University of Forestry and Technology filed Critical Central South University of Forestry and Technology
Priority to CN201611217721.3A priority Critical patent/CN106790102A/zh
Publication of CN106790102A publication Critical patent/CN106790102A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0236Filtering by address, protocol, port number or service, e.g. IP-address or URL
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing

Abstract

本发明公开了一种基于URL特征的QR码网络钓鱼识别方法及系统,该方法包括获取钓鱼网站URL数据;获取合法网站URL数据;从所述钓鱼网站URL数据和所述合法网站URL数据中提取URL特征向量;获取QR码,并获取所述QR码中的URL数据;根据所述URL特征向量和所述QR码中的URL数据,判断所述QR码中的URL数据对应的网站是否为钓鱼网站。该安全识别方法及系统提高了移动智能终端通过QR码访问网页的安全性,避免个人信息和财产信息的丢失,为移动智能终端提供有利的安全保障。

Description

一种基于URL特征的QR码网络钓鱼识别方法及系统
技术领域
本发明涉及网络通信安全识别技术领域,特别是涉及一种基于URL特征的QR码网络钓鱼识别方法及系统。
背景技术
QR(Quick Response)码是二维条码的一种,一般是以黑白格子花纹图案表示信息的矩阵形式的二维码。这种二维码能够快速读取,与之前的条形码相比,QR码能存储更丰富的信息,包括对文字、URL(Uniform Resource Locator)地址和其他类型的数据加密。
钓鱼网站通常指伪装成银行及电子商务,窃取用户提交的银行帐号、密码等私密信息的网站。现有技术中是从互联网的网址中检测钓鱼网站,针对已有钓鱼网站URL的特征数量有上百万个,但是移动网络环境下移动智能终端的计算能力有限,采用现有的上百万个钓鱼网站URL的特征来识别钓鱼网站必然会给移动智能终端的计算能力带来强大负担,影响移动智能终端运行速度,识别速度慢。而且移动智能终端中往往存储着大量个人信息和银行账号信息等涉及人身安全和财产安全的信息,因此,如何从移动智能终端中准确的识别出QR码是否为钓鱼网站成为本领域技术人员亟需解决的问题。
发明内容
本发明的目的是提供一种基于URL特征的QR码网络钓鱼识别方法及系统,以通过少数量URL特征准确识别移动智能终端中QR码是否为钓鱼网站。
为实现上述目的,本发明提供了一种基于URL特征的QR码网络钓鱼识别方法,包括:
获取钓鱼网站URL数据;
获取合法网站URL数据;
从所述钓鱼网站URL数据和所述合法网站URL数据中提取URL特征向量;
获取QR码,并获取所述QR码中的URL数据;
根据所述URL特征向量和所述QR码中的URL数据,判断所述QR码中的URL数据对应的网站是否为钓鱼网站。
可选的,所述URL特征向量包括5个结构特征、8个词汇特征、10个商标名特征和3个移动页面特征;所述结构特征包括含有IP地址、域名长度大于或等于22个字符、“.”的个数大于2、含有特殊字符或出现多个http;所述词汇特征包括“secure”、“webscr”,“account”、“login”、“ebayisapi”、“signin”、“banking”或“confirm”;所述商标名特征包括“ebay”、“paypal”、“yahoo”、“facebook”、“qq”、“santander”、“mastercard”、“taobao”、“visa”或“sina”;所述移动页面特征包括“.apk”、“mobile”或“webapp”。
可选的,在所述根据所述URL特征向量和所述QR码中的URL数据,判断所述QR码是否为钓鱼网站之前,还包括:
将所述QR码中的URL数据与所述钓鱼网站URL数据对比;
若所述QR码中的URL数据为钓鱼网站URL数据,则判定所述QR码为钓鱼网站;
否则,将所述QR码中的URL数据与所述合法网站URL数据对比,若所述QR码中的URL数据为合法网站URL数据,则判定所述QR码为合法网站。
可选的,所述根据所述URL特征向量和所述QR码中的URL数据,判断所述QR码是否为钓鱼网站,具体包括:
利用所述URL特征向量,生成训练样本;
利用所述训练样本进行训练,得到SVM分类器;
提取所述QR码中的URL数据中的URL特征向量,输入所述SVM分类器进行分类识别,得到判定结果;
当判别结果为1,确定所述QR码为钓鱼网站;
当判别结果为0,确定所述QR码为合法网站。
可选的,所述根据所述URL特征向量和所述QR码中的URL数据,判断所述QR码是否为钓鱼网站,具体包括:
判断所述QR码中的URL数据是否包含所述URL特征向量;
若是,确定所述QR码为钓鱼网站;
若否,确定所述QR码为合法网站。
可选的,所述获取QR码,具体包括:
获取摄像头拍摄的图像信息;
识别所述图像信息中包含的QR码。
可选的,所述判断所述QR码是否为钓鱼网站后,还包括:
当判断结果表示所述QR码为钓鱼网站,关闭访问程序;所述访问程序为利用所述摄像头拍摄所述图像信息的程序。
可选的,所述获取QR码,具体包括:获取网页中的QR码。
可选的,所述判断所述QR码是否为钓鱼网站后,还包括:
当判断结果表示所述QR码为钓鱼网站,
直接关闭所述QR码网络连接;
或,弹出是否继续进入所述QR码网页的警告页供用户自行选择是否继续访问所述QR码的网页。
本发明还提供了一种基于URL特征的QR码网络钓鱼识别系统,包括:
钓鱼网站数据获取单元,用于获取钓鱼网站URL数据;
合法网站数据获取单元,用于获取合法网站URL数据;
特征向量提取单元,用于从所述钓鱼网站URL数据和所述合法网站URL数据中提取URL特征向量;
QR码获取单元,用于获取QR码,并获取所述QR码中的URL数据;
识别单元,用于根据所述URL特征向量和所述QR码中的URL数据,判断所述QR码是否为钓鱼网站。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供的基于URL特征的QR码网络钓鱼识别方法是应用于移动智能终端中的二维码的安全识别方法,提高了移动智能终端通过QR码访问网页的安全性,避免个人信息和财产信息的丢失,为移动智能终端提供有利的安全保障。同时本QR码安全识别方法能够满足移动智能终端的计算能力,能够快速、准确、有效地识别移动智能终端中的二维码是否为钓鱼网站。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的基于URL特征的QR码网络钓鱼识别方法的流程图;
图2为图1中步骤流程图;
图3为QR码的URL数据种类分布比例图;
图4为数据集P1中URL域名长度分布图;
图5为数据集P3中URL域名长度分布图
图6为数据集P1、P2特征比率对比图;
图7为QR码中提取的URL特征对比图;
图8为Web URL与QR码嵌入URL的特征比率曲线对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于URL特征的QR码网络钓鱼识别方法及系统,以通过少数量URL特征准确识别移动智能终端中QR码是否为钓鱼网站。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本基于URL特征的QR码网络钓鱼识别方法包括:
步骤101:获取钓鱼网站URL数据;
步骤102:获取合法网站URL数据;
步骤103:从钓鱼网站URL数据和合法网站URL数据中提取URL特征向量;
步骤104:获取QR码,并获取QR码中的URL数据;
步骤105:根据URL特征向量和QR码中的URL数据,判断QR码中的URL数据对应的网站是否为钓鱼网站。
其中,从钓鱼网站URL数据和合法网站URL数据中提取URL特征向量的具体过程如下:
基于URL特征的QR码网络钓鱼识别方法中URL特征向量的提取对于QR码嵌入地址的安全判别具有重要影响,因此特征向量的选择和确定是该识别方法好坏的一个关键。WEB页面的URL和QR码嵌入的URL都含有可用于区分网址良性或者恶性的特征,本文以此两个部分为研究对象,从中提取特征向量。
关于特征向量的提取国内外许多学者做了很多实验,现有技术中有提取18个特征向量来分析钓鱼网页的URL结构;也有提取URL结构特征和词汇特征共12个特征进行分析的。为保证特征向量提取的全面性,本文在结合前人研究的基础上,结合QR码的URL特征,选取了钓鱼网站URL地址的5个结构特征、8个词汇特征和10个商标名特征,3个移动页面特征作为26个特征向量。
26个特征向量的数据集为:
FV=<F1,F2,F3,F4,F5,F6,F7,F8,F9,F10,F11,F12,F13,F14,F15,F16,F17,F18,F19,F20,F21,F22,F23,F24,F25,F26>,其中:
F1:URL特征为IP地址。
用户对于域名比较敏感,但一般较少关注域名对应的IP地址;钓鱼攻击者以此为切入点在网页URL中使用IP地址来表示。可以通过检查URL中是否含有IP地址来判断是否为钓鱼网站。
F2:URL的域名长度大于或等于22个字符。
经根据已知的钓鱼网站和合法网站分析,钓鱼网站URL域名均长约为22个字符或大于22个字符,而合法网站URL域名的均长约为15个字符等,因此URL的域名长度可以作为一个特征来区分。
F3:URL中“.”的个数大于2个。
通过网页的URL欺骗的一种常见方式是通过二级域名进行,由于用户的常见习惯只是对前面的几个字符串比较留意,不太关注后面的字符串,攻击者将二级域名改为某个知名网站,使得这样的URL有较高的迷惑性。一般这类形式的URL中“.”的个数多于2个。
F4:URL中含有特殊字符,特殊字符包括@、-、#、¥等。
恶意攻击者通过特殊字符@等构造一个假的域名。例如http://www.taobao.com@221.4.178.23,浏览器在加载时会自动忽略@前面的内容,实际上合法的网址URL很少含有@等特殊字符。
F5:URL中有多个http字符。
HTTP协议是互联网应用最为广泛的一种网络协议,所有的www文件都必须遵守这个协议,这也是我们看到的网址http://www.baidu.com,但是除了开头的协议标识,在URL中还出现http或者https,这是是一种重定向的标志,将此作为一个特征,可有效防止被重定向。例如:http://www.citibank.com.my.tommaior.com/profile/https//www.citibank.com.my/2a 8116d08e3471ce4d7c5431f2c45e4e/是一个典型重定向钓鱼网站。
F6-F13:URL中存在“secure”、“webscr”,“account”、“login”、“ebayisapi”、“signin”、“banking”或“confirm”;
这些词汇主要是与登录文本和信息安全相关的词汇,这也正是恶意攻击者的目标方向。
F14-F23:URL中存在“ebay”、“paypal”、“yahoo”、“facebook”、“qq”、“santander”、“mastercard”、“taobao”、“visa”或“sina”;
商标特征,结合当前互联网发展趋势以及恶意攻击者频繁攻击的知名网站,对此类网站进行重点关注和保护。目前Paypal是支付相关类钓鱼攻击者的首要攻击品牌,广受欢迎的还有ebay,yahoo,facebook等知名网站。根据《2015年6月钓鱼网站处理简报》,举报钓鱼网站涉及行业前三位的分别是支付交易类、金融证券类、电子邮箱类,约占处理总量的99.99%。其中,支付交易类钓鱼网站数量占处理总量最高,约占处理总量的70.18%。涉及淘宝网、银行网站的钓鱼网站总量约占处理总量的90%,其中仿冒淘宝网的钓鱼网站处于钓鱼网站仿冒对象的第一位。因此,这些商标特征也是检测钓鱼网站的关键特征。
F24-F26:URL中存在“.apk”、“mobile”或“webapp”;
针对QR码中嵌入的URL进行分析,抓取针对移动设备和移动页面的特征词汇。QR码已经被攻击者用来散布恶意软件或者引诱受害者到恶意网站,其中超过16%的QR码被用来直接下载Android的.apk文件。
特征F1到F5是钓鱼网站URL的结构特征,表1给出了几种常见的URL结构特征示例。特征F6到F13是钓鱼网站URL的词汇特征,表2列出了8个词汇特征在白名单和黑名单中出现的比例。F14到F23是商标特征,根据《2014年6月钓鱼网站处理简报》,选出主要被攻击的几大知名品牌,表3给出了10大商标在实验数据黑白名单中出现的比例。特征F24到F26是移动页面特征,表4是钓鱼网址在移动页面上典型表现形式。
表1 钓鱼网站URL结构特征
表2 钓鱼网站URL词汇特征
词汇特征 白名单中出现的比例 黑名单中出现的比例
F6<secure> 0.16 9.88
F7<webscr> 0.32 14.2
F8<account> 1.5 4.9
F9<login> 2.61 21.53
F10<ebayisapi> 1.5 13.9
F11<signin> 0.92 23.29
F12<banking> 0.87 7.95
F13<confirm> 0.23 4.25
表3 钓鱼网站URL商标特征
词汇特征 白名单中出现的比例 黑名单中出现的比例
F14<ebay> 2.1 8.72
F15<paypal> 1.82 7.63
F16<yahoo> 1.6 4.5
F17<facebook> 3.24 7.54
F18<qq> 0.19 8.27
F19<santander> 0.97 5.3
F20<mastercard> 0.71 3.66
F21<taobao> 6.87 33.22
F22<visa> 2.55 7.41
F23<sina> 2.3 6.2
表4 钓鱼网站URL移动页面特征
对于QR码的来源一般有两种,一种是通过移动智能终端的摄像头拍摄而得;另一种是网页中自带的QR码。
其中,通过移动智能终端的摄像头获取QR码的具体步骤包括:
获取摄像头拍摄的图像信息;
识别图像信息中包含的QR码。
获取QR码后,接着,获取QR码中的URL数据;在执行步骤105。
当判断结果表示QR码为钓鱼网站,关闭访问程序;访问程序为利用摄像头拍摄图像信息的程序。例如通过“微信”中的软件开启摄像头,拍摄QR码图像时,如果通过本识别方法判别该QR码为钓鱼网站,则可直接关闭“微信”程序,以避免钓鱼网站通过该程序窃取用户的个人信息及财产,保证了用户使用安全。
另一种QR码的获取方式是:获取网页中的QR码。
获取QR码后,接着,获取QR码中的URL数据;在执行步骤105。
当判断结果表示QR码为钓鱼网站,直接关闭QR码网络连接;
或,弹出是否继续进入QR码网页的警告页供用户自行选择是否继续访问QR码的网页。
例如,网页中出现的QR码往往获取后会出现需要下载某.apk软件程序,这时可以控制弹出是否继续进入QR码网页的警告页供用户自行选择,通过用户自身的防护意识避免被钓鱼网站钓鱼的情况发生。当然也可以通过本识别方法直接关闭网络,以避免钓鱼网站通过网络自动获取用户个人信息和财产账户信息等,完全切断被钓鱼的可能,更具安全性。
由于现有技术中已经存在一些已经验证好的钓鱼网站和合法网站,因此,对于一个QR码来说可以先判定是否是已有的钓鱼网站或合法网站,如果都不是的情况下再进行进一步识别更节省时间,能够提高识别的效率。
那么基于该思想,一种可选的实施方式为:在上述实施例中,在步骤105::根据URL特征向量和QR码中的URL数据,判断QR码是否为钓鱼网站之前,还可以包括:
将QR码中的URL数据与钓鱼网站URL数据对比;
若QR码中的URL数据为钓鱼网站URL数据,则判定QR码为钓鱼网站;
否则,将QR码中的URL数据与合法网站URL数据对比,若QR码中的URL数据为合法网站URL数据,则判定QR码为合法网站;否则执行步骤105。
这样通过已有的存有钓鱼网站的黑名单数据库,和存有合法网站的白名单数据库先筛选是否为钓鱼网站或合法网站,不仅提高了识别效率,而且通过逐层筛选和识别更能提高QR码是否为钓鱼网站的准确性,进而提高了移动智能终端的访问QR码网页的安全性。
对于步骤105:根据URL特征向量和QR码中的URL数据,判断QR码是否为钓鱼网站的具体步骤可以包括:
步骤201:利用URL特征向量,生成训练样本;
步骤202:利用训练样本进行训练,得到SVM分类器;
步骤203:提取QR码中的URL数据中的URL特征向量,输入SVM分类器进行分类识别,得到判定结果;
步骤204:当判别结果为1,确定QR码为钓鱼网站;
步骤205:当判别结果为0,确定QR码为合法网站。
本实施方式是基于SVM分类器技术对未知的QR码进行分类识别,首先利用已知的训练数据(钓鱼网站URL数据和合法网站URL数据)的特征值(URL特征向量)训练出能够用于对钓鱼网站和合法网站进行分类的SVM分类器,再利用该SVM分类器对未知的QR码的URL数据进行分类,以得到分类结果。该分类方法简单、快捷、有效。
在该方法中,需要对URL特征向量赋值,赋值为“1”表示该QR码为钓鱼网站,赋值为“0”表示该QR码为合法网站。将这些特征向量表示成函数形式,具体如下:
对于钓鱼网站URL的词汇特征,采用公式Fi统一表示:
w∈{secure,webscr,account,login,ebayisapi,signin,banking,confirm}
对于钓鱼网站URL的商标特征,采用公式Fj统一表示:
z∈{ebay,paypal,yahoo,facebook,qq,santander,mastercard,taobao,visa,sina}
对于钓鱼网站URL移动页面特征,采用公式Fk统一表示:
s∈{mobile,webapp,.apk}
作为另一种实施方式,以上述实施方式不同的是:对于步骤105:根据URL特征向量和QR码中的URL数据,判断QR码是否为钓鱼网站的具体步骤可以包括:
判断QR码中的URL数据是否包含URL特征向量;
若是,确定QR码为钓鱼网站;
若否,确定QR码为合法网站。
通过该判别方法也能够识别出QR码是否为钓鱼网站,但是相比上述实施例中的SVM分类器的识别方法,本方法的识别能力可能会稍逊色。但仍能满足一般用户的需求。
网络钓鱼是一种以技术为基础的欺骗行为,传播速度快,受害者损失大,不仅仅给用户带来了经济上的损失,深层次的制约和阻碍了电子商务的发展。本发明主要从移动网络钓鱼攻击的防御方法入手,提出一个基于URL特征的安全识别方法,可以根据该识别方法设计并实现一款可应用在Android或IOS等系统的智能终端上的QR码网络钓鱼监测软件,实现在移动智能终端上防御网络钓鱼,保护用户信息和财产安全。
本发明的另一目的在于提供一种基于URL特征的QR码网络钓鱼识别系统,该识别系统包括:
钓鱼网站数据获取单元,用于获取钓鱼网站URL数据;
合法网站数据获取单元,用于获取合法网站URL数据;
特征向量提取单元,用于从钓鱼网站URL数据和合法网站URL数据中提取URL特征向量;
QR码获取单元,用于获取QR码,并获取QR码中的URL数据;
识别单元,用于根据URL特征向量和QR码中的URL数据,判断QR码是否为钓鱼网站。
还可以包括执行单元,用于阻止钓鱼网站的继续访问。以实现用户信息和财产的保护。
下面结合具体的数据对本发明提出的基于URL特征的QR码网络钓鱼识别方法进行验证
1、实验数据集
实验所用的数据是由知名网站PhishTank提供并已确认的钓鱼网站URL。2015年4月4日下载的1034条在线钓鱼网站URL数据集,记为P1;2015年4月19日网页上下载的1582个QR码并提取的嵌入URL地址数据集,记为Q1;2015年6月10日下载的988条在线钓鱼网站URL数据集,记为P2;2014年5月至2015年10月生活中收集的455个QR码并提取的嵌入URL地址数据集,记为Q2;2015年7月10日收集的合法网站URL数据集,记为P3。特征提取算法采用JAVA程序实现,训练决策使用JAVA版本的Libsvm工具包实现。
2实验结果
先将收集到的QR码进行分类,在不同来源上收集到的QR码进行安全判定,根据黑名单和白名单进行QR码的安全性质判定。Q1数据集1582个QR码中存在于黑名单中的危险QR码102个,存在于白名单中的安全QR码24个;Q2数据集455个QR码中存在于黑名单中的危险QR码15个,存在于白名单中的安全QR码12个,在实验数据中危险的QR码共117个,占所有数据的5.74%,安全的QR码共36个,占所有数据的1.76%。
表4 QR码的URL数据种类分布比例
数据集 数据量 恶意QR码 安全的QR码
Q1 1582 102(6.45%) 24(1.51%)
Q2 455 15(3.29%) 12(2.64%)
然后验证了特征选择的有效性,首先对URL长度这一特征进行分析。分别是对于数据集P1和P3,分析钓鱼网站和合法网站的URL地址长度,图4是数据集P1的URL地址域名长度图,计算得知URL地址的平均长度为22个字符。图5是数据集P3的URL地址域名长度图,计算得知URL地址的平均长度为15个字符。从图中分析可知,URL地址的长度能作为特征之一区分钓鱼网站和正常网站。
接着,我们测试了选取的26个特征在P2数据集和P3数据集的比率。对于数据集P2和P3,计算每个特征值的比率。下表6是数据P2中,26个特征比率。从下表可以看出,选取的异常特征均是钓鱼网站URL所包含的特征之一。图6是数据集P2和P3特征比率对比图。从这些数据可以得出,我们选取的异常特征能较好的对钓鱼网站和非钓鱼网站进行分类。为验证特征对于研究内容QR码的可用性,对于安全的QR码和危险的QR码,测试每个特征值为“1”的比率。图7是QR码中提取的URL特征对比图。为直观的对比所选取的特征在WEB页面URL和QR码嵌入URL中的特征比率,图8是WEB页面URL特征比率与QR码嵌入URL特征比率的曲线对比图。
表6 P2数据集特征比率
特征 比率(%) 特征 比率(%) 特征 比率(%)
F1 3.32% F10 1.65% F19 0.30%
F2 40.21% F11 1.75% F20 0.34%
F3 19.82% F12 0.36% F21 7.35%
F4 3.59% F13 1.35% F22 0.37%
F5 7.86% F14 1.88% F23 2.08%
F6 2.88% F15 6.89% F24 2.55%
F7 4.33% F16 1.32% F25 2.55%
F8 4.69% F17 1.58% F26 2.55%
F9 13.42% F18 8.80%
接着,我们验证检测算法在训练和分类阶段的性能。随机选取数据集P1中365条数据和P2中285条数据,选取数据集P3中405条数据,共同组成1055个实验样本作为测试数据,分类的正确率为99.5%。
随机选取P2数据集中567个样本,验证了检测方法的漏报率(false negative,FN),随机选取P3数据中832个样本,验证检测方法的虚警率(falsepositive,FP)。下表7给出了实验结果。数据集Pl、P2、P3共3214条URL的检测准确率为99.1%。
表7 P2,P3漏报率、虚警率
验证Q1数据集和Q2数据集中危险的117个QR码嵌入URL,安全的36个QR码嵌入URL,共同组成153个实验样本,分类的正确率为99.7%。验证此检测算法的漏报率、虚警率。将收集的1582个网络抓取的QR码URL与455个生活中抓取的QR码URL,组成2037个实验样本中,危险的QR码117个,安全的QR码36个,下表8是实验结果。
表8 QR码实验漏报率、虚警率
数据集 样本数量 验证量 漏报率/虚警率
危险码 117 115 1.70%
安全码 36 36 0
由上述实验结果可知,本发明提供的基于URL特征的QR码网络钓鱼识别方法对QR码的识别准确率高、识别效果好。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于URL特征的QR码网络钓鱼识别方法,其特征在于,所述识别方法包括:
获取钓鱼网站URL数据;
获取合法网站URL数据;
从所述钓鱼网站URL数据和所述合法网站URL数据中提取URL特征向量;
获取QR码,并获取所述QR码中的URL数据;
根据所述URL特征向量和所述QR码中的URL数据,判断所述QR码中的URL数据对应的网站是否为钓鱼网站。
2.根据权利要求1所述的基于URL特征的QR码网络钓鱼识别方法,其特征在于,所述URL特征向量包括5个结构特征、8个词汇特征、10个商标名特征和3个移动页面特征;所述结构特征包括含有IP地址、域名长度大于或等于22个字符、“.”的个数大于2、含有特殊字符或出现多个http;所述词汇特征包括“secure”、“webscr”,“account”、“login”、“ebayisapi”、“signin”、“banking”或“confirm”;所述商标名特征包括“ebay”、“paypal”、“yahoo”、“facebook”、“qq”、“santander”、“mastercard”、“taobao”、“visa”或“sina”;所述移动页面特征包括“.apk”、“mobile”或“webapp”。
3.根据权利要求1所述的基于URL特征的QR码网络钓鱼识别方法,其特征在于,在所述根据所述URL特征向量和所述QR码中的URL数据,判断所述QR码是否为钓鱼网站之前,还包括:
将所述QR码中的URL数据与所述钓鱼网站URL数据对比;
若所述QR码中的URL数据为钓鱼网站URL数据,则判定所述QR码为钓鱼网站;
否则,将所述QR码中的URL数据与所述合法网站URL数据对比,若所述QR码中的URL数据为合法网站URL数据,则判定所述QR码为合法网站。
4.根据权利要求1所述的基于URL特征的QR码网络钓鱼识别方法,其特征在于,所述根据所述URL特征向量和所述QR码中的URL数据,判断所述QR码是否为钓鱼网站,具体包括:
利用所述URL特征向量,生成训练样本;
利用所述训练样本进行训练,得到SVM分类器;
提取所述QR码中的URL数据中的URL特征向量,输入所述SVM分类器进行分类识别,得到判定结果;
当判别结果为1,确定所述QR码为钓鱼网站;
当判别结果为0,确定所述QR码为合法网站。
5.根据权利要求1所述的基于URL特征的QR码网络钓鱼识别方法,其特征在于,所述根据所述URL特征向量和所述QR码中的URL数据,判断所述QR码是否为钓鱼网站,具体包括:
判断所述QR码中的URL数据是否包含所述URL特征向量;
若是,确定所述QR码为钓鱼网站;
若否,确定所述QR码为合法网站。
6.根据权利要求1所述的基于URL特征的QR码网络钓鱼识别方法,其特征在于,所述获取QR码,具体包括:
获取摄像头拍摄的图像信息;
识别所述图像信息中包含的QR码。
7.根据权利要求6所述的基于URL特征的QR码网络钓鱼识别方法,其特征在于,所述判断所述QR码是否为钓鱼网站后,还包括:
当判断结果表示所述QR码为钓鱼网站,关闭访问程序;所述访问程序为利用所述摄像头拍摄所述图像信息的程序。
8.根据权利要求1所述的基于URL特征的QR码网络钓鱼识别方法,其特征在于,所述获取QR码,具体包括:获取网页中的QR码。
9.根据权利要求8所述的基于URL特征的QR码网络钓鱼识别方法,其特征在于,所述判断所述QR码是否为钓鱼网站后,还包括:
当判断结果表示所述QR码为钓鱼网站,
直接关闭所述QR码网络连接;
或,弹出是否继续进入所述QR码网页的警告页供用户自行选择是否继续访问所述QR码的网页。
10.一种基于URL特征的QR码网络钓鱼识别系统,其特征在于,所述识别系统包括:
钓鱼网站数据获取单元,用于获取钓鱼网站URL数据;
合法网站数据获取单元,用于获取合法网站URL数据;
特征向量提取单元,用于从所述钓鱼网站URL数据和所述合法网站URL数据中提取URL特征向量;
QR码获取单元,用于获取QR码,并获取所述QR码中的URL数据;
识别单元,用于根据所述URL特征向量和所述QR码中的URL数据,判断所述QR码是否为钓鱼网站。
CN201611217721.3A 2016-12-26 2016-12-26 一种基于url特征的qr码网络钓鱼识别方法及系统 Pending CN106790102A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611217721.3A CN106790102A (zh) 2016-12-26 2016-12-26 一种基于url特征的qr码网络钓鱼识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611217721.3A CN106790102A (zh) 2016-12-26 2016-12-26 一种基于url特征的qr码网络钓鱼识别方法及系统

Publications (1)

Publication Number Publication Date
CN106790102A true CN106790102A (zh) 2017-05-31

Family

ID=58925968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611217721.3A Pending CN106790102A (zh) 2016-12-26 2016-12-26 一种基于url特征的qr码网络钓鱼识别方法及系统

Country Status (1)

Country Link
CN (1) CN106790102A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299346A (zh) * 2018-10-31 2019-02-01 长春理工大学 一种无效地址网页的识别方法及系统
CN110175278A (zh) * 2019-05-24 2019-08-27 新华三信息安全技术有限公司 网络爬虫的检测方法及装置
CN110827041A (zh) * 2019-11-04 2020-02-21 广州布珞科技有限公司 一种防伪溯源方法、系统、介质及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102739679A (zh) * 2012-06-29 2012-10-17 东南大学 一种基于url分类的钓鱼网站检测方法
US20150089642A1 (en) * 2013-09-24 2015-03-26 International Business Machines Corporation Detecting Phishing of a Matrix Barcode
CN105530251A (zh) * 2015-12-14 2016-04-27 深圳市深信服电子科技有限公司 识别钓鱼网站的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102739679A (zh) * 2012-06-29 2012-10-17 东南大学 一种基于url分类的钓鱼网站检测方法
US20150089642A1 (en) * 2013-09-24 2015-03-26 International Business Machines Corporation Detecting Phishing of a Matrix Barcode
CN105530251A (zh) * 2015-12-14 2016-04-27 深圳市深信服电子科技有限公司 识别钓鱼网站的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王耀钧: "融合半脆弱水印和URL检测的网络钓鱼主动防御机制", 《中国优秀硕士学位论文全文数据库(电子期刊) 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299346A (zh) * 2018-10-31 2019-02-01 长春理工大学 一种无效地址网页的识别方法及系统
CN109299346B (zh) * 2018-10-31 2020-12-08 长春理工大学 一种无效地址网页的识别方法及系统
CN110175278A (zh) * 2019-05-24 2019-08-27 新华三信息安全技术有限公司 网络爬虫的检测方法及装置
CN110827041A (zh) * 2019-11-04 2020-02-21 广州布珞科技有限公司 一种防伪溯源方法、系统、介质及设备

Similar Documents

Publication Publication Date Title
Chiew et al. Utilisation of website logo for phishing detection
Pan et al. Anomaly based web phishing page detection
CN109922065B (zh) 恶意网站快速识别方法
CN107688743B (zh) 一种恶意程序的检测分析方法及系统
CN106549980B (zh) 一种恶意c&amp;c服务器确定方法及装置
CN103532944B (zh) 一种捕获未知攻击的方法和装置
Kim et al. Detecting fake anti-virus software distribution webpages
Huang et al. Mitigate web phishing using site signatures
CN111385270A (zh) 基于waf的网络攻击检测方法及装置
Rajalingam et al. Prevention of phishing attacks based on discriminative key point features of webpages
CN109327451A (zh) 一种防御文件上传验证绕过的方法、系统、装置及介质
Jain et al. Detection of phishing attacks in financial and e-banking websites using link and visual similarity relation
Ramesh et al. Identification of phishing webpages and its target domains by analyzing the feign relationship
CN110443031A (zh) 一种二维码风险识别方法和系统
Vargas et al. Knowing your enemies: Leveraging data analysis to expose phishing patterns against a major US financial institution
CN106790102A (zh) 一种基于url特征的qr码网络钓鱼识别方法及系统
Wang et al. Verilogo: Proactive phishing detection via logo recognition
Jeeva et al. Phishing URL detection-based feature selection to classifiers
Lam et al. Counteracting phishing page polymorphism: An image layout analysis approach
CN105653941A (zh) 一种启发式检测钓鱼网站的方法及系统
CN116366338B (zh) 一种风险网站识别方法、装置、计算机设备及存储介质
CN116932381A (zh) 小程序安全风险自动化评估方法及相关设备
Alnajjar et al. TrustQR: A new technique for the detection of phishing attacks on QR code
Sushma et al. Deep learning for phishing website detection
Grégio et al. An empirical analysis of malicious internet banking software behavior

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170531

RJ01 Rejection of invention patent application after publication