CN104504335A - 基于页面特征和url特征的钓鱼app检测方法及系统 - Google Patents

基于页面特征和url特征的钓鱼app检测方法及系统 Download PDF

Info

Publication number
CN104504335A
CN104504335A CN201410817371.9A CN201410817371A CN104504335A CN 104504335 A CN104504335 A CN 104504335A CN 201410817371 A CN201410817371 A CN 201410817371A CN 104504335 A CN104504335 A CN 104504335A
Authority
CN
China
Prior art keywords
xml
url
text
app
fishing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410817371.9A
Other languages
English (en)
Other versions
CN104504335B (zh
Inventor
任环
张巍
姜青山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201410817371.9A priority Critical patent/CN104504335B/zh
Publication of CN104504335A publication Critical patent/CN104504335A/zh
Application granted granted Critical
Publication of CN104504335B publication Critical patent/CN104504335B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/563Static detection by source code analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/221Parsing markup language streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/033Test or assess software

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Virology (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于页面特征和URL特征的钓鱼APP检测方法及系统,所述方法包括:S1、对所要检测的APP进行反编译,得到XML文本、XML图像和smali文件;S2、对XML文本进行XML文本特征提取,采用源代码检测器对XML文本特征进行分类检测;S3、对XML图像进行XML图像特征提取,采用页面检测器对XML图像特征进行分类检测;S4、对所有的smali文件进行扫描,提取smali文件中的URL,然后采用URL检测器对URL进行检测。本发明不需要大量的钓鱼APP数据进行匹配,不要求APP的安装,不需要手机用户触发事件,对用户完全没有任何要求,已经将钓鱼APP危害扼杀在摇篮之中。

Description

基于页面特征和URL特征的钓鱼APP检测方法及系统
技术领域
本发明涉及计算机软件安全技术领域,尤其涉及一种基于页面特征和URL特征的钓鱼APP检测方法及系统。
背景技术
近年来,随着手机终端的迅速发展,尤其是安卓系统,手机平台上的钓鱼攻击呈爆炸式的增长,因此,钓鱼式攻击的检测技术的研究变得更加重要。事实上,对比手机上的恶意软件,手机终端的钓鱼式攻击显得更加危险,原因之一是手机终端的某些缺陷,以及手机用户的习惯所导致的,原因之二是现有的台式电脑/笔记本电脑上的钓鱼式攻击检测技术不能应用到手机终端上。
钓鱼式攻击主要目的是盗取用户的隐私信息,比如用户登录名、密码以及用户信用卡信息等。尽管已有很多的研究者提出了许多的反钓鱼技术,但是钓鱼式攻击没有得到一丝缓和。一方面,钓鱼式攻击层出不穷,根据世界反钓鱼工作联盟报告,每一种钓鱼式攻击存活的平均时间大概是4.5天。另一方面,攻击者持续地改进攻击技术,以致能逃脱现有的检测工具。
手机终端上的钓鱼式攻击主要涌现在在线购物、社交网络以及金融机构等。对手机终端发起钓鱼式攻击的趋势在于手机硬件的限制,如屏幕过小、用户输入的不方便、各个手机应用的切换较麻烦,除此之外,手机用户容易被假冒的登录界面所欺骗。
随着经济的发展,为了提升它们的服务以及业绩,很多公司企业都研发了自己的手机应用,如淘宝手机客户端、京东手机客户端等。这为攻击者提供了新的一块钓鱼式攻击的领域:一些攻击者会运用开发出假冒APP,或者向合法APP中注入代码,并将改制后的APP上传到非官方的手机应用市场。对比钓鱼网址,钓鱼APP的检测难度远高于钓鱼网址的检测,之所以这样,是因为没法识别用户的信任证书是发送到了合法的服务器上,还是钓鱼式攻击的服务器上。
现有技术中针对于钓鱼APP目前检测技术还很匮乏,只有少数研究关于此。
坦普尔大学的吴龙飞等提出一种通过监控数据向外传送的各种路径来检测是否是钓鱼APP。具体思想如下:
收集大量可疑钓鱼APP数据,建立一个包含应用程序名称、Uid(应用程序编号)、启动时间和应用程序登陆界面的文本信息的数据库;
在某个APP启动的时候,提取其名称,并在数据库中搜索,如果存在,则证明此APP不是钓鱼的APP;如果存在,则通过光学字符识别技术提取APP登陆界面的文本信息,记录APP的启动时间和获取APP的Uid,然后进入APP的认证阶段,先将APP的Uid与数据库进行比较,若不存在,则证明不是钓鱼APP,反之,同时进行启动时间的比较和登陆界面的文本信息的比较,若启动时间相同,则切断Socket/SMS通信,若文本信息相同,则切断HTTP的连接;
通过以上的通信路径的实时检测,以此达到检测钓鱼APP的目的。
然而上述方法存在以下几个缺陷:
这种技术是建立在大量钓鱼APP数据基础之上的,然而钓鱼式APP攻击刚出现不久,现存的数据量较少,以上技术的成功检测率大大减低;
要求APP安装在手机上,如果APP是钓鱼APP,由于以上的成功检测率的低下,这就导致了隐患的存在;
要求手机用户触发数据传输事件,才能进行检测,如果手机用户没有连接网络,没法进行数据库匹配的话,这样就造成了钓鱼式攻击的形成;
用户的要求过高,要用户时刻引起怀疑才可以成功的阻挡钓鱼式攻击,然而由于用户的习惯和缺乏极强的安全意识,这就会导致这种技术面临着窘境。
因此,针对上述技术问题,有必要提供一种基于页面特征和URL特征的钓鱼APP检测方法及系统,其不需要大量的钓鱼APP数据进行匹配,不要求APP的安装,不需要手机用户触发事件,对用户完全没有任何要求,能够将这种危害扼杀在摇篮之中。
发明内容
有鉴于此,本发明的目的在于提供一种基于页面特征和URL特征的钓鱼APP检测方法及系统。
为了达到上述目的,本发明实施例提供的技术方案如下:
一种基于页面特征和URL特征的钓鱼APP检测方法,所述方法包括:
S1、对所要检测的APP进行反编译,得到XML文本、XML图像和smali文件;
S2、对XML文本进行XML文本特征提取,采用源代码检测器对XML文本特征进行分类检测,若检测结果为钓鱼APP,则提示用户将此APP安装包删除,若否执行步骤S3;
S3、对XML图像进行XML图像特征提取,采用页面检测器对XML图像特征进行分类检测,若检测结果为钓鱼APP,则提示用户将此APP安装包删除,若否执行步骤S4;
S4、对所有的smali文件进行扫描,提取smali文件中的URL,然后采用URL检测器对URL进行检测,若检测到URL是钓鱼的URL,则停止剩余URL的检测,提示用户将此APP安装包删除,若所有的smali文件均未检测到URL是钓鱼的URL,则提示用于该APP为正常APP。
作为本发明的进一步改进,所述步骤S2中“对XML文本进行XML文本特征提取”具体为:
根据标记树模型提取XML文本特征,标记树T=(rt,Vt,Et,λt),其中:
是节点集合,Vt中的节点分为元素节点、属性节点和文本节点,
rt∈Vt是标记树T的根节点,
为边的集合,每条边代表了标记树T中两个节点间的父子关系,
为节点的标记映射函数,∑是节点标签集合;
根据标记树及全路径提取特征方法,将XML文本向量化:
T是XML文本集合,对于其中每一个文本Ti∈T,用文本向量di表示:di={H_pathTvi),表示di可以用全路径表示,且满足条件:
H _ pathTvi = 1 ifH _ pathTviinTi 1 ifH _ pathTvinotinTi ,
式中:i=1,2,...,n,j=1,2,...,m,n表示文本集合中的文本个数,m表示标记树T中出现的所有的全部路径数目。
作为本发明的进一步改进,所述步骤S2中“采用源代码检测器对XML文本特征进行分类检测”具体为:
根据提取出的文本向量,检测全路径信息中含有元素节点中的文本节点,对文本节点出现“invisible”的次数设定一个阈值,若检测到的文本向量中含有“invisible”且对应的出现次数大于阈值,则表示此XML文本是来自钓鱼APP。
作为本发明的进一步改进,所述阈值设置为2。
作为本发明的进一步改进,所述步骤S3中“对XML图像进行XML图像特征提取”具体为:
XML图像特征由向量P〈p1,p2,p3,p4〉表示,设当前处理的XML图像为S,Shash表示图片S指纹的集合,Ssize表示图片S的大小,Shsv(表示图片S的颜色直方图集合,Sgrey表示图片S的灰度直方图集合,则向量P中各分量为:
p1:记数据库D中图片指纹为D(hash),则p1表示在Shash集合所有元素中能够在D(hash)中找到相同记录的元素数量占Shash集合的百分比;
p2:记数据库D中图片大小为D(size),则p2表示在Ssize集合所有元素中能够在D(size)中找到相同记录的元素数量占Ssize集合的百分比;
p3:记数据库D中所有图片的彩色直方图集合为D(hsv),则p3表示Shsv集合的所有元素中能够在D(hsv)中找到和其欧氏距离大于0.9的元素数量占Shsv集合的百分比;
p4:记数据库D中所有图片的彩色直方图集合为D(grey),则p4表示Sgrey集合的所有元素中能够在D(grey)扩中找到和其欧氏距离大于0.9的元素数量占Sgrey集合的百分比。
作为本发明的进一步改进,所述欧氏距离的计算方法为:
向量α=(x1,x2,...,xn)和向量β=(y1,y2,...,yn)的欧氏距离为
作为本发明的进一步改进,所述所述步骤S3中“采用页面检测器对XML图像特征进行分类检测”具体为:
根据XML图像特征提取得到的向量P〈p1,p2,p3,p4〉,与服务器上的钓鱼页面图像模板库进行相似度的对比,若两个图像特征的欧氏距离小于0.5,则认为是近似图像。
作为本发明的进一步改进,所述步骤S4包括:
依次遍历smali文件内容,提取smali文件中的URL;
根据URL域名是否有IP、URL中是否含有16进制、URL域名级数是否超过5级、URL路径是否带点、URL路径中是否有被入侵特征、URL路径中是否含有根域名6个特征作为URL特征检测的特征部分,并将这6个特征部分转换成bool型的特征值;
根据以上特征提取得到向量x=(x1,x2,...,xn)T,且向量中的变量相互独立,计算URL二分分类的概率:
result = P ( y = 1 | x ) = e f ( x ) 1 + e ( f ( x ) ) = 1 1 + e - ( w 0 + Σ i = 1 n w i x i ) ,
其中,条件概率P(y=1|x)=P是钓鱼URL的概率;
通过计算result,进行是否是钓鱼URL的判断。
作为本发明的进一步改进,所述步骤S4还包括:
将result的阈值设定为0.5,若URL的result超过0.5,则认为是钓鱼URL,否则,则认为是正常URL。
相应地,一种基于页面特征和URL特征的钓鱼APP检测系统,所述系统包括:
反编译模块,用于对所要检测的APP进行反编译,得到XML文本、XML图像和smali文件;
检测模块,包括XML文本检测模块、XML图像检测模块和smali文件检测模块,其中:
XML文本检测模块,用于对XML文本进行XML文本特征提取,采用源代码检测器对XML文本特征进行分类检测;
XML图像检测模块,用于对XML图像进行XML图像特征提取,采用页面检测器对XML图像特征进行分类检测;
smali文件检测模块,用于对所有的smali文件进行扫描,提取smali文件中的URL,然后采用URL检测器对URL进行检测。
本发明具有以下有益效果:
将XML文本检测、XML图像检测和smali文件检测综合起来应用到钓鱼APP的检测,不需要大量的钓鱼APP数据进行匹配,不要求APP的安装,不需要手机用户触发事件,对用户完全没有任何要求,已经将钓鱼APP危害扼杀在摇篮之中。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于页面特征和URL特征的钓鱼APP检测方法的流程示意图。
图2为本发明一种基于页面特征和URL特征的钓鱼APP检测系统的模块示意图。
图3为本发明一具体实施方式中标记树的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明公开了一种基于页面特征和URL特征的钓鱼APP检测方法及系统,主要内容是将APP安装包通过android apk-tool工具进行反编译生成源代码的smali(安卓虚拟机指令语言)文件和图片、XML(可扩展标记语言)配置文件、语言资源等文件,然后通过对XML文件和smali文件分别扫描。针对XML文件,第一步:进行XML源码的特征提取,然后根据服务器上已经建立的分类模型进行分类,若是钓鱼APP,则直接提示用户将此APP安装包删除,第二步:如果第一步没能检测出来,则通过对XML页面图像进行特征提取,然后交付给服务器上的检测器进行分类,若是检测为钓鱼APP,则提示用户删除APP安装包。针对smali文件,若XML文件不能检出APP是否为钓鱼APP,则对所有的smali文件进行扫描,提取smali文件中的URL(统一资源定位符),然后对URL进行检测,若检测到URL是钓鱼的URL,则停止剩余URL的检测,直接告知用户将APP安装包删除。若以上的检测都没有检测出APP安装包是钓鱼APP,则告知用户此APP为正常APP。
参图1所示,本发明的一种基于页面特征和URL特征的钓鱼APP检测方法包括:
S1、对所要检测的APP进行反编译,得到XML文本、XML图像和smali文件;
S2、对XML文本进行XML文本特征提取,采用源代码检测器对XML文本特征进行分类检测,若检测结果为钓鱼APP,则提示用户将此APP安装包删除,若否执行步骤S3;
S3、对XML图像进行XML图像特征提取,采用页面检测器对XML图像特征进行分类检测,若检测结果为钓鱼APP,则提示用户将此APP安装包删除,若否执行步骤S4;
S4、对所有的smali文件进行扫描,提取smali文件中的URL,然后采用URL检测器对URL进行检测,若检测到URL是钓鱼的URL,则停止剩余URL的检测,提示用户将此APP安装包删除,若所有的smali文件均未检测到URL是钓鱼的URL,则提示用于该APP为正常APP。
参图2所示,本发明的一种基于页面特征和URL特征的钓鱼APP检测系统包括:
反编译模块10,用于对所要检测的APP进行反编译,得到XML文本、XML图像和smali文件;
检测模块20,包括XML文本检测模块21、XML图像检测模块22和smali文件检测模块23,其中:
XML文本检测模块21,用于对XML文本进行XML文本特征提取,采用源代码检测器对XML文本特征进行分类检测;
XML图像检测模块22,用于对XML图像进行XML图像特征提取,采用页面检测器对XML图像特征进行分类检测;
smali文件检测模块23,用于对所有的smali文件进行扫描,提取smali文件中的URL,然后采用URL检测器对URL进行检测。
本发明一实施方式中的具体方法包括:
运用android apk-tool工具对所要检测的APP进行反编译,得到XML配置文件、smali文件、用于界面显示各类XML文件、图片以及各类语音资料等。本发明将主要针对smali文件和用于界面显示的各类XML文件,XML文件主要是用于界面源码分析和页面的分析,smali文件主要是用于提出文件中隐藏的URL提取。
由反编译得到XML文件,首先,对其进行XML源码的直接特征提取,然后将提取出来的特征传到服务器上,由各种钓鱼APP和正常APP数据训练出来的分类模型进行分类检测,若检测结果为钓鱼APP,则直接提出用户此APP为钓鱼APP,并停止之后的检测;反之,则继续进行以下的各项检测。
由于攻击者会对XML文本进行加壳,通过XML文本进行检测后的APP并不能断定此APP为正常的APP,所以需要进行页面识别的检测。首先,通过Droiddraw工具将XML文件显示出真正的界面,然后对其进行截屏得到页面图片,对其进行特征提取,将提取后的特征传到服务器上,由页面图像检测器进行检测,若检测为钓鱼APP,则此APP为钓鱼APP,并停止之后的检测;反之,则继续进行其他检测。
由于攻击者经常修改正常的APP,比如加入钓鱼网址,但并没有修改其正常界面,通过XML页面图像检测的APP断定为钓鱼APP的概率有较大增长,但不能达到高效检测率,因此,对smali文件进行URL(统一资源定位符)提取,对URL进行检测。
本发明中的检测模块可以细分为三个小模块:XML文本检测模块、XML图像检测模块和smali文件检测模块。以下针对这三个方面分别进行技术方案的详细陈述。
(一)XML文本检测模块
1、XML文本特征提取
根据标记树模型提取XML文本特征,XML文本数据可以表示为一颗标记树,标记树定义为一个四元组,记作T=(rt,Vt,Et,λt),其中:
是节点集合,Vt中的节点分为三类:
-元素节点(Element Node).
-属性节点(Attribute Node).
-文本节点(Text Node).
rt∈Vt是标记树T的根节点。
为边的集合,每条边代表了标记树T中两个节点间的父子关系。
为节点的标记映射函数,Σ是节点标签(标记)集合。
例如,下述XML文本可以表示为图3中的标记树
其中,椭圆形节点对应XML文本中的元素或属性,用其标签(tag)标记,如节点2是一个属性,用标签“android:orientation”标记,节点8是一个元素,用标签“TextView”标记。矩形节点对应文本节点,用其内容标记,如节点12。这种标记树既表达了XML文本中的结构信息,又表达了其内容信息。
根据标记树及全路径提取特征方法,可以将XML文本向量化。设T是XML文本集合,对于其中每一个文本Ti∈T,用文本向量di表示:di={H_pathTvi},表示di可以用全路径表示,且满足如下条件:
H _ pathTvi = 1 ifH _ pathTviinTi 1 ifH _ pathTvinotinTi
式中:i=1,2,...,n,j=1,2,...,m。n表示文本集中文本个数,m表示T中出现的所有的全部路径数目。具体文本向量如表1所示。
表1 XML文本向量
2、XML文本检测方法
根据以上提取出的特征向量,我们检测全路径信息中含有“Button”,“TextView”等元素节点中的文本节点,如上表中的“invisible”,“wrap_parent”,“fill_parent”等。我们对文本节点出现“invisible”的次数设定一个阈值,通常情况下,阈值为2。若检测到的特征向量中含有“invisible”且对应的出现次数大于2,则表示此XML文本是来自钓鱼APP,并提示用户。
(二)XML图像检测模块
1、XML图像特征提取
我们定义XML图像特征由向量P〈p1,p2,p3,p4〉表示。向量P中各分量的计算方法如下:
设:当前处理的XML图像为S,Shash表示S图片指纹的集合,Ssize表示S图片的大小,Shsv表示S图片的颜色直方图集合,Sgrey表示S图片的灰度直方图集合,则:
p1:记数据库D中图片指纹为D(hash),则p1表示在Shash集合所有元素中能够在D(hash)中找到相同记录的元素数量占Shash集合的百分比。
p2:记数据库D中图片大小为D(size),则p2表示在Ssize集合所有元素中能够在D(size)中找到相同记录的元素数量占Ssize集合的百分比。两个图片size相同即两个图片的长和宽分别相等。
p3:根据图片特征提取模型中的方法,一个图片的彩色直方图可用一个72维向量表示。记数据库D中所有图片的彩色直方图集合为D(hsv),则p3表示Shsv集合的所有元素中能够在D(hsv)中找到和其欧氏距离大于0.9的元素数量占Shsv集合的百分比。
其中,两个图片的彩色直方图的相似度可转化为两个向量的欧氏距离进行计算,具体的计算公式如下:
向量α=(x1,x2,...,xn),β=(y1,y2,...,yn),则称为α与β的欧氏距离。
p4:根据图片特征提取模型中的方法,一个图片的灰度直方图可用一个32维向量表示,两个灰度直方图的相似度仍可以按照上述的欧氏距离进行求解。记数据库D中所有图片的彩色直方图集合为D(grey),则p4表示Sgrey集合的所有元素中能够在D(grey)中找到和其欧氏距离大于0.9的元素数量占Sgrey集合的百分比。
经过以上的计算可以得到一个向量P,即为该XML图像的特征向量。
2、XML图像检测方法
根据XML图像特征提取得到的向量P,与服务器上的钓鱼页面图像模板库(以下简称“钓鱼模板库”)进行相似度的对比。这里的相似度是指两个页面向量的欧氏距离。通常情况下,两个页面特征的欧氏距离小于0.5,则认为是近似页面。根据该论述,我们设定该阈值为0.5。即在钓鱼模板库中寻找与目标页面的欧氏距离在0.5以内的模板,作为是否命中模板库的规定。
如果服务器上的钓鱼模板库中的模板数据规模小,可以采取待检测页面图像向量与模板中的向量逐一比对的方式进行查询。
(三)smali文件检测模块
1、URL提取
依次遍历smali文件内容,依据以下正则表达式:
http://|https://)(.*)(\\.com|.cn|\\.net/|\\.org/|\\.cc|\\.us|\\.cl
提取文件中的URL,并存放到已经定义的smali_url[100]的数组中,然后对数组逐个进行URL特征提取并进行检测。
2、URL的特征提取
本实施方式主要是根据URL域名是否有IP、URL中是否含有16进制、URL域名级数是否超过5级、URL路径是否带点、URL路径中是否有被入侵特征、URL路径中是否含有根域名等6个特征作为URL特征检测的特征部分,并将这6个特征部分转换成bool型的特征值,即没有该特征标记为0,存在该特征标记为1,以便进行逻辑回归分类。
上述6个URL特征值生成的URL特征向量将以文件的形式存储,如表2所示,从左到右依次为域名是否为IP格式、URL中是否含有16进制、域名级数是否超过5级、路径中是否带点、路径中是否有被入侵特征和路径中是否含有根域名,并以特征值编号加上特征值的格式进行存储。
表2 URL特征向量格式
表3为文本提取的6个URL特征具体描述的总结,分别属于模糊特征、入侵特征和敏感词特征。由URL特征提取可知,生成的URL特征向量要作为逻辑回归分类器的输入进行是否是钓鱼URL的合理性预测。
表3 URL特征描述
注:“-”表示该URL不具有该特征;表3中“例子”是根据表2中“URL”得到
3、逻辑回归分类检测
根据以上特征提取得到向量x=(x1,x2,...,xn)T,且向量中的变量时相互独立,并假设条件概率P(y=1|x)=P是钓鱼URL的概率,则逻辑回归模型可以表示为:
P ( y = 1 | x ) = π ( x ) = 1 1 + e - g ( x ) - - - ( 1 )
其中g(x)如下式表示:
g(x)=w0+w1x1+...+wnxn  (2)
则该URL为正常的URL的概率为:
P ( y = 0 | x ) = 1 - P y ( y = 1 | x ) = 1 1 + e g ( x ) - - - ( 3 )
那么,事件的发生比odds为
odds = P ( y = 1 | x ) P ( y = 0 | x ) = P 1 - P = e g ( x ) - - - ( 4 )
由于0<P<1,所以odds>0,对(4)取对数将其限定(0,1),则可以得到线性函数:
f(x)=log(odds)=g(x)=w0+w1x1+...+wnxn  (5)
其中,w0,w1,w2,...,wn为特征值的回归系数,即权重。将式(5)带入到式(1)中得到二分分类的概率:
result = P ( y = 1 | x ) = e f ( x ) 1 + e ( f ( x ) ) = 1 1 + e - ( w 0 + Σ i = 1 n w i x i ) - - - ( 6 )
未知URL通过计算其result,进行是否是钓鱼URL的判断。通常情况下,将result的阈值设定为0.5.若某URL的result超过0.5,则认为是钓鱼URL;反之,则认为是正常URL。
综上所述,本发明将XML文本检测、XML图像检测和smali文件检测综合
起来应用到钓鱼APP的检测,不需要大量的钓鱼APP数据进行匹配,不要求APP的安装,不需要手机用户触发事件,对用户完全没有任何要求,已经将钓鱼APP危害扼杀在摇篮之中。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (10)

1.一种基于页面特征和URL特征的钓鱼APP检测方法,其特征在于,所述方法包括:
S1、对所要检测的APP进行反编译,得到XML文本、XML图像和smali文件;
S2、对XML文本进行XML文本特征提取,采用源代码检测器对XML文本特征进行分类检测,若检测结果为钓鱼APP,则提示用户将此APP安装包删除,若否执行步骤S3;
S3、对XML图像进行XML图像特征提取,采用页面检测器对XML图像特征进行分类检测,若检测结果为钓鱼APP,则提示用户将此APP安装包删除,若否执行步骤S4;
S4、对所有的smali文件进行扫描,提取smali文件中的URL,然后采用URL检测器对URL进行检测,若检测到URL是钓鱼的URL,则停止剩余URL的检测,提示用户将此APP安装包删除,若所有的smali文件均未检测到URL是钓鱼的URL,则提示用于该APP为正常APP。
2.根据权利要求1所述的方法,其特征在于,所述步骤S2中“对XML文本进行XML文本特征提取”具体为:
根据标记树模型提取XML文本特征,标记树T=(rt,Vt,Et,λt),其中:
是节点集合,Vt中的节点分为元素节点、属性节点和文本节点,
rt∈Vt是标记树T的根节点,
为边的集合,每条边代表了标记树T中两个节点间的父子关系,
为节点的标记映射函数,∑是节点标签集合;
根据标记树及全路径提取特征方法,将XML文本向量化:
T是XML文本集合,对于其中每一个文本Ti∈T,用文本向量di表示:di={H_pathTvi},表示di可以用全路径表示,且满足条件:
H _ pathTvi = 1 if H _ pathTvi in Ti 1 if H _ pathTvi not in Ti ,
式中:i=1,2,...,n,j=1,2,...,m,n表示文本集合中的文本个数,m表示标记树T中出现的所有的全部路径数目。
3.根据权利要求2所述的方法,其特征在于,所述步骤S2中“采用源代码检测器对XML文本特征进行分类检测”具体为:
根据提取出的文本向量,检测全路径信息中含有元素节点中的文本节点,对文本节点出现“invisible”的次数设定一个阈值,若检测到的文本向量中含有“invisible”且对应的出现次数大于阈值,则表示此XML文本是来自钓鱼APP。
4.根据权利要求3所述的方法,其特征在于,所述阈值设置为2。
5.根据权利要求1所述的方法,其特征在于,所述步骤S3中“对XML图像进行XML图像特征提取”具体为:
XML图像特征由向量P<p1,p2,p3,p4>表示,设当前处理的XML图像为S,Shash表示图片S指纹的集合,Ssize表示图片S的大小,Shsv表示图片S的颜色直方图集合,Sgrey表示图片S的灰度直方图集合,则向量P中各分量为:
p1:记数据库D中图片指纹为D(hash),则p1表示在Shash集合所有元素中能够在D(hash)中找到相同记录的元素数量占Shash集合的百分比;
p2:记数据库D中图片大小为D(size),则p2表示在Ssize集合所有元素中能够在D(size)中找到相同记录的元素数量占Ssize集合的百分比;
p3:记数据库D中所有图片的彩色直方图集合为D(hsv),则p3表示Shsv集合的所有元素中能够在D(hsv)中找到和其欧氏距离大于0.9的元素数量占Shsv集合的百分比;
p4:记数据库D中所有图片的彩色直方图集合为D(grey),则p4表示Sgrey集合的所有元素中能够在D(grey)中找到和其欧氏距离大于0.9的元素数量占Sgrey集合的百分比。
6.根据权利要求5所述的方法,其特征在于,所述欧氏距离的计算方法为:
向量α=(x1,x2,...,xn)和向量β=(y1,y2,...,yn)的欧氏距离为
7.根据权利要求5所述的方法,其特征在于,所述所述步骤S3中“采用页面检测器对XML图像特征进行分类检测”具体为:
根据XML图像特征提取得到的向量P<p1,p2,p3,p4>,与服务器上的钓鱼页面图像模板库进行相似度的对比,若两个图像特征的欧氏距离小于0.5,则认为是近似图像。
8.根据权利要求1所述的方法,其特征在于,所述步骤S4包括:
依次遍历smali文件内容,提取smali文件中的URL;
根据URL域名是否有IP、URL中是否含有16进制、URL域名级数是否超过5级、URL路径是否带点、URL路径中是否有被入侵特征、URL路径中是否含有根域名6个特征作为URL特征检测的特征部分,并将这6个特征部分转换成bool型的特征值;
根据以上特征提取得到向量x=(x1,x2,...,xn)T,且向量中的变量相互独立,计算URL二分分类的概率:
result = P ( y = 1 | x ) = e f ( x ) 1 + e ( f ( x ) ) = 1 1 + e - ( &omega; 0 + &Sigma; i = 1 n &omega; i x i ) ,
其中,条件概率P(y=1|x)=P是钓鱼URL的概率;
通过计算result,进行是否是钓鱼URL的判断。
9.根据权利要求8所述的方法,其特征在于,所述步骤S4还包括:
将result的阈值设定为0.5,若URL的result超过0.5,则认为是钓鱼URL,否则,则认为是正常URL。
10.一种基于页面特征和URL特征的钓鱼APP检测系统,其特征在于,所述系统包括:
反编译模块,用于对所要检测的APP进行反编译,得到XML文本、XML图像和smali文件;
检测模块,包括XML文本检测模块、XML图像检测模块和smali文件检测模块,其中:
XML文本检测模块,用于对XML文本进行XML文本特征提取,采用源代码检测器对XML文本特征进行分类检测;
XML图像检测模块,用于对XML图像进行XML图像特征提取,采用页面检测器对XML图像特征进行分类检测;
smali文件检测模块,用于对所有的smali文件进行扫描,提取smali文件中的URL,然后采用URL检测器对URL进行检测。
CN201410817371.9A 2014-12-24 2014-12-24 基于页面特征和url特征的钓鱼app检测方法及系统 Active CN104504335B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410817371.9A CN104504335B (zh) 2014-12-24 2014-12-24 基于页面特征和url特征的钓鱼app检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410817371.9A CN104504335B (zh) 2014-12-24 2014-12-24 基于页面特征和url特征的钓鱼app检测方法及系统

Publications (2)

Publication Number Publication Date
CN104504335A true CN104504335A (zh) 2015-04-08
CN104504335B CN104504335B (zh) 2017-12-05

Family

ID=52945731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410817371.9A Active CN104504335B (zh) 2014-12-24 2014-12-24 基于页面特征和url特征的钓鱼app检测方法及系统

Country Status (1)

Country Link
CN (1) CN104504335B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105338001A (zh) * 2015-12-04 2016-02-17 北京奇虎科技有限公司 识别钓鱼网站的方法及装置
CN106022127A (zh) * 2016-05-10 2016-10-12 江苏通付盾科技有限公司 Apk文件安全检测方法及装置
CN106446687A (zh) * 2016-10-14 2017-02-22 北京奇虎科技有限公司 恶意样本的检测方法及装置
TWI622932B (zh) * 2016-02-05 2018-05-01 Lac股份有限公司 圖符診斷裝置、圖符診斷方法及程式
CN108173877A (zh) * 2018-02-02 2018-06-15 克洛斯比尔有限公司 用于防止钓鱼网站的方法和设备
CN108376071A (zh) * 2016-11-11 2018-08-07 中移(杭州)信息技术有限公司 一种app识别方法及系统
CN110245273A (zh) * 2019-06-21 2019-09-17 武汉绿色网络信息服务有限责任公司 一种获取app业务特征库的方法及相应的装置
CN110442784A (zh) * 2019-07-08 2019-11-12 中国平安人寿保险股份有限公司 信息推荐方法、装置、计算机设备以及存储介质
CN110650110A (zh) * 2018-06-26 2020-01-03 深信服科技股份有限公司 一种登录页面识别方法及相关设备
CN113076538A (zh) * 2021-04-02 2021-07-06 北京邮电大学 一种移动应用apk文件内嵌隐私政策提取方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033926A (zh) * 2010-12-15 2011-04-27 百度在线网络技术(北京)有限公司 一种页面内容处理方法及装置
CN102779257A (zh) * 2012-06-28 2012-11-14 奇智软件(北京)有限公司 一种Android应用程序的安全检测方法及系统
US20140096246A1 (en) * 2012-10-01 2014-04-03 Google Inc. Protecting users from undesirable content
CN103996007A (zh) * 2014-05-29 2014-08-20 诸葛建伟 Android应用权限泄露漏洞的测试方法及系统
CN104080058A (zh) * 2014-06-16 2014-10-01 百度在线网络技术(北京)有限公司 信息处理方法及装置
CN104217160A (zh) * 2014-09-19 2014-12-17 中国科学院深圳先进技术研究院 一种中文钓鱼网站检测方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033926A (zh) * 2010-12-15 2011-04-27 百度在线网络技术(北京)有限公司 一种页面内容处理方法及装置
CN102779257A (zh) * 2012-06-28 2012-11-14 奇智软件(北京)有限公司 一种Android应用程序的安全检测方法及系统
US20140096246A1 (en) * 2012-10-01 2014-04-03 Google Inc. Protecting users from undesirable content
CN103996007A (zh) * 2014-05-29 2014-08-20 诸葛建伟 Android应用权限泄露漏洞的测试方法及系统
CN104080058A (zh) * 2014-06-16 2014-10-01 百度在线网络技术(北京)有限公司 信息处理方法及装置
CN104217160A (zh) * 2014-09-19 2014-12-17 中国科学院深圳先进技术研究院 一种中文钓鱼网站检测方法及系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105338001A (zh) * 2015-12-04 2016-02-17 北京奇虎科技有限公司 识别钓鱼网站的方法及装置
TWI622932B (zh) * 2016-02-05 2018-05-01 Lac股份有限公司 圖符診斷裝置、圖符診斷方法及程式
CN106022127A (zh) * 2016-05-10 2016-10-12 江苏通付盾科技有限公司 Apk文件安全检测方法及装置
CN106446687B (zh) * 2016-10-14 2020-11-03 北京奇虎科技有限公司 恶意样本的检测方法及装置
CN106446687A (zh) * 2016-10-14 2017-02-22 北京奇虎科技有限公司 恶意样本的检测方法及装置
CN108376071A (zh) * 2016-11-11 2018-08-07 中移(杭州)信息技术有限公司 一种app识别方法及系统
CN108173877A (zh) * 2018-02-02 2018-06-15 克洛斯比尔有限公司 用于防止钓鱼网站的方法和设备
CN110650110A (zh) * 2018-06-26 2020-01-03 深信服科技股份有限公司 一种登录页面识别方法及相关设备
CN110245273A (zh) * 2019-06-21 2019-09-17 武汉绿色网络信息服务有限责任公司 一种获取app业务特征库的方法及相应的装置
CN110245273B (zh) * 2019-06-21 2021-04-30 武汉绿色网络信息服务有限责任公司 一种获取app业务特征库的方法及相应的装置
CN110442784A (zh) * 2019-07-08 2019-11-12 中国平安人寿保险股份有限公司 信息推荐方法、装置、计算机设备以及存储介质
CN113076538A (zh) * 2021-04-02 2021-07-06 北京邮电大学 一种移动应用apk文件内嵌隐私政策提取方法
CN113076538B (zh) * 2021-04-02 2021-12-14 北京邮电大学 一种移动应用apk文件内嵌隐私政策提取方法

Also Published As

Publication number Publication date
CN104504335B (zh) 2017-12-05

Similar Documents

Publication Publication Date Title
CN104504335A (zh) 基于页面特征和url特征的钓鱼app检测方法及系统
Lin et al. Phishpedia: A hybrid deep learning based approach to visually identify phishing webpages
Mao et al. Phishing-alarm: Robust and efficient phishing detection via page component similarity
Corona et al. Deltaphish: Detecting phishing webpages in compromised websites
Chiew et al. Utilisation of website logo for phishing detection
Azeez et al. Identifying phishing attacks in communication networks using URL consistency features
CN104217160A (zh) 一种中文钓鱼网站检测方法及系统
Ceschin et al. The need for speed: An analysis of brazilian malware classifiers
Barlow et al. A novel approach to detect phishing attacks using binary visualisation and machine learning
Liu et al. An efficient multistage phishing website detection model based on the CASE feature framework: Aiming at the real web environment
WO2020110109A1 (en) Phishing protection methods and systems
CN109756467B (zh) 一种钓鱼网站的识别方法及装置
Jain et al. Detection of phishing attacks in financial and e-banking websites using link and visual similarity relation
US12021896B2 (en) Method for detecting webpage spoofing attacks
CN113221032A (zh) 链接风险检测方法、装置以及存储介质
Zeydan et al. Survey of anti-phishing tools with detection capabilities
US9332031B1 (en) Categorizing accounts based on associated images
Pandey et al. Phish-Sight: a new approach for phishing detection using dominant colors on web pages and machine learning
Zeydan et al. Current state of anti-phishing approaches and revealing competencies
US20210216642A1 (en) Sentiment analysis for securing computer code
Chen et al. Fraud analysis and detection for real-time messaging communications on social networks
Noh et al. Phishing Website Detection Using Random Forest and Support Vector Machine: A Comparison
Dudykevych et al. Detecting third-party user trackers with cookie files
Mhaske-Dhamdhere et al. A novel approach for phishing emails real time classification using k-means algorithm
Parekh et al. Spam URL detection and image spam filtering using machine learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant