CN106789888A - 一种多特征融合的钓鱼网页检测方法 - Google Patents

一种多特征融合的钓鱼网页检测方法 Download PDF

Info

Publication number
CN106789888A
CN106789888A CN201611028629.2A CN201611028629A CN106789888A CN 106789888 A CN106789888 A CN 106789888A CN 201611028629 A CN201611028629 A CN 201611028629A CN 106789888 A CN106789888 A CN 106789888A
Authority
CN
China
Prior art keywords
url
fea
fishing
page
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611028629.2A
Other languages
English (en)
Other versions
CN106789888B (zh
Inventor
徐光侠
宋洋洋
高郭威
刘宴兵
刘俊
齐锦
郑爽
王天羿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201611028629.2A priority Critical patent/CN106789888B/zh
Publication of CN106789888A publication Critical patent/CN106789888A/zh
Application granted granted Critical
Publication of CN106789888B publication Critical patent/CN106789888B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明请求保护一种多特征融合的钓鱼网页检测方法,包括训练过程和检测过程两个部分。结合半监督学习tri‑training方法整合了钓鱼网页特点的三个视图,主要解决了现有钓鱼网页检测方法大多需要通过大量的标注数据利用监督学习来进行的分类模型训练的问题。该方法主要结合协同训练算法,从网页URL特征、网页页面信息特征和网页搜索信息特征出发,将多视图,多分类器的思想运用到钓鱼网页检测中,通过不同分类器的协同训练学习,达到减少总体人工标注训练样本数和及时识别钓鱼网页的目的。

Description

一种多特征融合的钓鱼网页检测方法
技术领域
本发明涉及一种钓鱼网页检测的方法,主要从URL、页面和搜索信息三个特征视图结合tri-training半监督学习方法对钓鱼网页进行匹配和识别,属于信息安全与数据挖掘的交叉领域。
背景技术
在网络快速发展的今天,电子商务兴起、互联网支付流行,互联网商务成为越来越多的人生活和工作中不可或缺的一部分。然而,正是在互联网支付发展迅猛的背景下,互联网支付的安全形势也日趋严重。其中网络钓鱼攻击,简称网络钓鱼,是形式繁多的互联网欺诈中危害最严重、成功率最高的一种在线身份伪造式攻击。犯罪分子主要利用视觉效果对特定网页进行模仿,生成难以区分的钓鱼页面,并利用电子邮件或即时通讯信息,伪装成银行、金融机构或者大型商务网站发出的通知,来诱骗用户登录假冒网站,从而获取具有经济价值的用户机密信息和敏感数据(如:口令、密码、邮箱信息或银行卡信息等)。
在现有的钓鱼网页检测领域中,钓鱼网页检测主要有三种检测方式:一是黑名单库来识别,将提交的URL按规定的方式和黑名单库或钓鱼网站知识库进行匹配,如果匹配成功则认为该链接是钓鱼网站链接;二是数据挖掘的方法来识别,根据已有的钓鱼网页对钓鱼网页异常特征进行提取,通过机器学习方法进行模型构建,并利用数据集进行训练,最终依据分类的结果来判别是否为钓鱼网站;三是相似度的方法来识别,通过设定相似度阈值,然后通过对比钓鱼网站与受保护网站的视觉相似性,观察其是否超过设定的阈值从而来判断是否是钓鱼网站。
由于钓鱼网页的生命周期较短,平均存活时间只有62小时,基于“快速通量”方法建立的钓鱼网站平均存活也只有196小时,如何解决钓鱼网页的及时识别问题是电子商务发展过程中亟待解决的问题。现有的钓鱼网页检测技术主要是以黑名单机制和机器学习技术为主,在模型构建中依然存在一些问题:(1)基于黑名单检测机制是当前安全浏览器防护的主要手段,但由黑名单库的建立主要依托启发式学习、人工举报以及人工校验来确定需要耗费一定的人力成本,易受到主观因素的影响,其次黑名单库在更新上也具有一定的滞后性,难以满足大规模钓鱼下及时检测的需求;(2)现有的基于机器学习的钓鱼网页检测方法大多利用监督学习方法来建立分类模型的,监督学习方法只能利用已标记数据进行训练,为了保证学习的泛化性,需要利用大量的标注数据来进行训练,由于钓鱼网站生存周期较短标记数据的获取比较困难且耗时耗力。
发明内容
为了克服上述现有技术中存在的缺陷,本发明结合半监督学习方法提供了一种多特征融合的钓鱼网页检测方法,通过借鉴协同训练方法,将多视图、多分类器的思想和钓鱼网页识别相结合,将钓鱼网页按URL、页面内容以及搜索信息的特征进行分类,提取出三种不同的视图并通过多分类器协同训练学习,达到减少总体人工标注训练样本数和及时识别钓鱼网页的目的。
为了实现上述目的本发明采用如下技术方案:一种多特征融合的钓鱼网页检测方法,包括训练过程和检测过程,其中所述训练过程为:
S1:根据钓鱼网页URL数据集收集特征数据,包括URL特征向量X1、页面信息特征向量X2以及搜索信息特征向量X3,从特征数据中随机抽取少量数据作为标记数据样本反例L1,其余部分作为无标记数据样本反例U1
S2:从非钓鱼网页URL数据集中收集特征数据,通过Alexa获取排名靠前的合法网页的特征数据X,形成标记数据样本正例L2,其余部分作为无标记数据样本正例U2,根据S1和S2得到标记训练数据集L,L=L1+L2,和无标记训练数据集U,U=U1+U2
S3:从L中通过Bootstrap Sampling方法进行重复采样获得三个训练集合B1、B2和B3
S4:从B1、B2和B3中分别提取URL特征向量X1、页面信息特征向量X2以及搜索信息特征向量X3,将所提取的三种特征向量分别训练得到三个初始化分类器h1、h2和h3
S5:针对每一个初始化分类器进行以下操作:在h1、h2和h3中任选择一个初始化分类器作为主分类器(假设为h1),分别将另外2个分类器(h2和h3)作为辅助分类器,分别在无标记训练数据集U进行预测得到标记结果U2和U3
S6:将U2与U3中具有相同结果的数据样本和L组成新的标记训练数据集,用来重新训练主分类器(h1)。
S7:重复S5操作,通过不断迭代更新,直到三个分类器对无标记训练数据集都不再变化为止。
检测过程为:拦截用户请求的URL信息,进行Form表单检测,返回检测结果,如果存在危险,则提取URL特征向量X1、页面信息特征向量X2以及搜索信息特征向量X3,利用h1、h2和h3进行判断。
网页URL特征提取:统一资源定位符URL在钓鱼网页的伪装上有着至关重要的作用,也是基于URL的钓鱼网页检测及分析中使用最多的特征之一。URL主要由<protocol>://<subdomain>.<primarydomain>.<TLD>/<path>这5部分所组成,其中,<protocol>表示协议;<subdomain>表示子域名;<primarydomain>表示主域名;<TLD>代表顶级域名;域名由<primarydomain>和<TLD>两部分组成;<path>为该URL的路径部分。通过对上述这5部分的钓鱼网页URL分析,在一定程度上可以有效的实现对钓鱼网页进行检测。
上述URL特征向量X1为:X1=[URL的路径级数,URL中dot数,URL的编码格式,URL字节数,IP地址,敏感词汇,URL中长词数,TLD的位置和数量]。
(1)URL的路径级数:钓鱼者通常会设置较多的路径级数让来混淆访问者,一般来说合法网页路径级数小于5,而钓鱼网页的URL的路径级数往往超过5或更多。
(2)URL中dot数:检测URL中包含“.”的个数,通常来说非法的网站包括的“.”的数量5个或更多。
(3)URL的编码格式:部分钓鱼网页会利用编码转化,将URL中的内容转化为16进制或8进制,从而达到了躲避用户识别目的。
(4)URL字节数:钓鱼攻击者为了迷惑访问用户一般会在URL中加入一些商标词汇或迷惑性的关键词,从而导致其URL总体长于合法网页的URL,已有的研究表明钓鱼网站的URL总体长度一般会超过50个字节,有的甚至达到两百多个字节,而正常网站的URL一般在20个字节左右。
(5)IP地址:为了逃避URL检测,一些钓鱼攻击者使用IP地址来代替域名,达到躲避检测的目的,但由于合法网页几乎很少出现直接IP访问的形式。
(6)敏感词汇:为了迷惑用户,钓鱼攻击者会在URL中加入一些敏感的词汇,分别是“secure”,“account”,“webscr”,“login”,“ebay”,“sign”,“banking”,“confirm”。
(7)URL中长词数:无意义的长词是钓鱼网页的另一个特点,钓鱼攻击者往往采用随机组合的长字符串或几个相关品牌的单词组合在一起实现对用户的判断干扰。
(8)TLD的位置和数量:为了伪装成合法网址,钓鱼攻击者常常将需要仿冒的域名加入现有的URL中来混淆用户,这也造成了URL中TLD往往会出现多个的现象。
网页页面是钓鱼攻击手段的核心所在,但钓鱼网页生命周期较短,钓鱼攻击者仿冒的钓鱼页面的重心往往偏向于页面视觉相似的上,而忽略了网页内部的细节所在。根据对钓鱼网页的分析研究得出了页面信息特征向量X2为:X2=[可疑的Form表单,可疑的action域,页面的链接信息,页面框架或JS跳转]。
(1)可疑的Form表单:钓鱼网页主要是通过Form表单来获取用户的隐私信息,该网页由于为了收集用户的敏感信息,需要满足三个特点:1.包含一个Form表单;2.表单中具有<input>标签;3.表单中包含如:“password”之类的敏感词汇。
(2)可疑的action域:一般而言,合法的网页为了便于项目代码的开发和维护,通常在action的目的地址中使用绝对路径来表示,而钓鱼网站本着短暂使用的目的其action的目的地址一般会使用相对路径来方法。其次,在钓鱼网页中还存在不少使用Web注入攻击的钓鱼网页挂在页面,其action的目的地址所指向的处理页面的域名和当前所在页的页面不一致。
(3)页面的链接信息:目前,不少钓鱼页面已可以由自动化工具进行创建,大部分钓鱼网页的链接部分只是为了视觉上的展示,其链接本身是毫无意义的,所以会存在大量的死链接或无意义链接(如“#”,“index.html”等)。
(4)页面框架或JS跳转:为了逃避检测部分钓鱼网页想到了框架或JS跳转的手段,其本身页面除跳转页面的地址和必要的html元素以外无其余信息,而正常合法网页这不会出现这种现象。
上述搜索信息特征向量X3为:X3=[域名日期,PageRank值,BackLink值,页面相似检测]。该部分特征信息提取主要是依靠第三方搜索引擎来实现,搜索引擎提供了对许多网站等级评判的信息,如:通过第三方搜索引擎可以查询PageRank、BackLink等相关信息。
(1)域名日期:由于钓鱼网页的生命周期较短,通常钓鱼网页的域名创建时间或更新时间都不会超过6个月。
(2)PageRank:PageRank又称网页排名算法,是Google用它来体现网页的相关性和重要性的一个参数,范围在0-9之间越大表示排名越高。而钓鱼页面由于创建时间较短其PageRank一般都偏低。
(3)BackLink:BackLink又称反向链接,即由其他网站指向该网站的链接,是衡量一个网站受欢迎程度的重要因素之一。由于钓鱼网页存活时间短,且很少会出现在其余网站的链接中,所以BackLink是反应该网站是否为钓鱼网站的一个重要特征。
(4)页面相似检测:该特征主要是为了检测该网页的域名和关键词是否存在有相似页面,通过搜索引擎检索以及编辑距离等手段,该特征可以有效的识别访问的网页域名是否存在有相似域名网站。
所述PageRank值计算过程中通过Min-Max标准化进行归一化处理其中PR表示PageRank的值,PR'表示PR归一化的值;BackLink通过进行归一化处理,BL表示BackLink的值,BL'表示BL归一化的值。
所述页面相似检测的具体检测方法如下:
(1)将待检测页面的URL记为URL_old,获取待检测页面的html,并过滤其中的html标签和JavaScript脚本语言。
(2)将过滤后的html内容,通过TF-IDF算法计算其中关键词。
(3)结合关键词和域名在搜索引擎中检索,并获取检索信息S1,如果搜索引擎有建议搜索内容,则根据建议搜索内容二次搜索,获取检索信息S2,根据S1或S2获取的URL记为URL_new,进入步骤(4);如果检索结果为NULL,则认为不是钓鱼页面记为1。
(4)对URL_old和URL_new进行相似度检测,钓鱼页面则记为0,否则记为1。
上述对URL_old和URL_new进行相似度检测的步骤如下:
1)计算URL_old和URL_new域名中的dot的级数是否相同,相同则fea_dot=1,否则fea_dot=0,fea_dot表示dot特征。
2)取URL_old和URL_new子域名subdomain的编辑距离特征记为fea_subdom(fea_subdom为子域名特征);取URL_old和URL_new主域名primarydomain的编辑距离特征记为fea_pridom(fea_pridom为主域名特征);并对fea_subdom和fea_pridom进行归一化处理,如果fea_subdom和fea_pridom的值为0,则将转化为1存储,否则利用进行归一化处理,x表示fea_subdom或fea_pridom的值,x'表示转换后对应的结果。
3)比较URL_old和URL_new是否具有相同的顶级域名TLD,以及TLD在每个URL中出现的次数是否相同,如果相同则fea_TLD=1,否则fea_TLD=0,fea_TLD表示TLD特征。
4)通过fea_dot、fea_subdom、fea_pridom和fea_TLD值进行线性回归预测,钓鱼页面则记为0,否则记为1。
本发明的优点及有益效果如下:本发明使用一种多特征融合的钓鱼网页检测方法对网页数据进行多方位检测和判定。由于现有的钓鱼网页检测技术在检测的过程,检测的误报率较高,容易给使用者带来较大的经济损失;此外,现有的钓鱼网站机器学习检测方法为了保证学习的泛化性,需要利用大量的标注数据来进行训练,但钓鱼网站生存周期较短,造成标记数据的获取比较困难,同时还需要耗费大量的人力成本。本发明提出了结合半监督学习tri-training的多特征融合钓鱼网页检测的方法。首先,在数据提取阶段基于网络爬虫从网页URL特征、网页页面信息特征和网页搜索信息特征出发收集钓鱼网页的不同特征,并进行数据处理;然后,在模型训练阶段基于半监督学习算法,利用tri-training方法进行模型构建,并将常见的监督学习算法作为弱分类器进行比对,结合误报率进行筛选获取最优分类模型。这种多特征融合检测的机制,有效的降低了钓鱼检测中的误报率和标记数据成本。本发发明采用一种基于tri-training的多特征融合钓鱼网页检测方法,将多视图,多分类器的思想运用到钓鱼网页检测中,通过不同分类器的协同训练学习,达到减少总体人工标注训练样本数、及时识别钓鱼网页以及减少检测误报率的目的。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明的系统结构图;
图2是本发明的一种多特征融合的钓鱼网页检测方法流程图;
图3是本发明的PageRank和BackLink计算流程图;
图4是本发明的页面相似检测方法流程图。
具体实施方式
下面结合附图对本发明的具体实施作进一步的详细阐明。
本发明钓鱼网页检测系统分为三层:用户访问层、钓鱼网页检测层和数据存储层。其中用户访问层包括:接入终端;钓鱼网页检测层包括:信息获取模块、模型训练模块和模型检测模块;数据存储层包括:黑名单库。用户在访问Internet时,访问层将用户请求的URL拦截并传入钓鱼网页检测层。钓鱼网页检测层将接收到的URL和数据层储层的黑名单库进行对比,如果存在则向访问层传递警告消息,从而提醒用户存在的威胁;否则,将URL交由钓鱼网页检测模型进行判断,如果判定为威胁网页,则向访问层传递警告消息,从而提醒用户可能存在的威胁,并将其更新到黑名单库中。
图1是本发明的系统结构图。一种多特征融合的钓鱼网页检测系统主要由训练模块和检测模块两部分组成,训练模块主要负责根据一种多特征融合的钓鱼网页检测方法训练出检测分类器,而检测模块则是系统根据用户提交的网页URL信息进行钓鱼网页检测。具体过程如下:
a.训练模块:
Sa1:对钓鱼网页样本数据集进行预处理筛选,并将其样本数据送往特征提取模块。
Sa2:特征提取模块接收到传送的URL后,特征提取模块分别对URL特征向量X1、页面信息特征向量X2以及搜索信息特征向量X3三组特征向量结合搜索引擎进行提取。
Sa3:针对Sa2所述的三组特征向量结合监督学习方法构造三类弱分类器h1,h2和h3,并利用tri-training半监督协同训练算法对三类分类器进行分类强化训练,具体说明见图2。
Sa4:由Sa3中训练的三个分类器进行组合投票,最终得到钓鱼网页识别分类器模块。
b.检测模块:
Sb1:系统将用户访问的网页URL信息发给Form表单模块进行检测;Form检测模块判断提交的页面是否包含Form表单,有则认为是怀疑对象将其传递给黑名单库检索模块;没有则排除为钓鱼网页的可能,执行Sb5。
Sb2:系统在黑名单库中对传递的URL进行匹配,如果存在则判定为钓鱼网页,执行Sb5;否则认为是怀疑对象将其传递给特征提取模块。
Sb3:接收到传送的URL后,特征提取模块分别对URL特征向量X1、页面信息特征向量X2以及搜索信息特征向量X3三组特征向量结合搜索引擎进行提取。
Sb4:通过钓鱼网页识别分类器对待检测的网页进行投票判断(即h1,h2和h3三个分类器只要有2个以上认为是钓鱼网页即为钓鱼页面)。
Sb5:根据传递的判断结果,如果是钓鱼页面则提醒用户注意并将其更新到黑名单库中,不是则显示安全标志。
图2是本发明的多特征融合钓鱼网页检测方法流程图。tri-training半监督协同训练算法步骤如下:
S21:定义已标记样本集L,无标记样本集U和三个独立分类器h1、h2和h3
S22:对已标记样本集L通过Bootstrap Sampling进行随机抽样,得到L上的三个训练集合B1、B2和B3,并初始化错误率e'i=0.5。
S23:迭代:对于每一个分类器hi,其中i∈{1,2,3},计算每个分类器组成的分类器集合的错误率ei。如果满足ei<e'i且ei|Li|<e'i|L'i|的情况,|L'i|表示标记样本集L'i中的元素个数和|Li|表示标记样本集L'i中的元素个数,从无标记的样本集U中选择满足上述条件(ei<e'i且ei|Li|<e'i|L'i|)的集合进行标记,生成新的集合B'i=Li∪L'i,B'i表示第i个分类器对应训练集合,Li表示第i个分类器对应新一轮的标记样本集,L'i表示第i个分类器对应上一轮的标记样本集;
S24:对每一个分类器用B'i进行重新训练,并更新错误率,当ei=e'i时停止。
S24:当分类器达到稳定时,得到最终的分类器。
S25:最终的分类器采用投票的方式进行判断,对x∈无标记网页数据,分别求出hi(x),hi(x)表示每个分类器对应的分类结果,哪个种类标记数最多,该样本即为该类别。
图3是本发明的PageRank和BackLink计算流程图。在网页搜索信息特征提取中需要计算PageRank和BackLink的值。PageRank是Google用它来体现网页的相关性和重要性的一个参数,范围在0-9之间越大表示排名越高,在这里通过Min-Max标准化进行归一化处理。其中,Min-Max标准化又称离差标准化,对原始的数据进行线性变化,将值映射到[0-1]之间,转换公式如公式(1)所示:
其中,max=9,min=0,得到PageRank的归一化公式(2):
其中,PR表示PageRank的值,PR'表示PR归一化的值。
BackLink是由其他网站指向该网站的链接,用来衡量一个网站受欢迎程度。其归一化转化公式如公式(3)所示:
BL表示BackLink的值,BL'表示BL归一化的值。
如图3,PageRank和BackLink处理流程具体如下:
S31:输入URL,根据搜索引擎和API接口获取BackLink和PageRank的数值BL和PR。
S32:判断BL和PR是否都等于0,如果都是0则直接输出;否则进入S33步计算BL'和PR'值。
S33:根据公式(2)和公式(3)分别计算BL'和PR'的值。
S34:将BL'和PR'的值输出。
图4是本发明的页面相似检测方法流程图。在网页搜索信息特征提取中需要计算检测页面和相似页面的相似程度,具体检测方法如下:
S41:根据研究的URL(记为URL_old)获取待检测页面的html,并过滤其中的html标签、样式表以及JavaScript脚本语言。
S42:将过滤后的内容,通过TF-IDF算法计算网页中关键词。
S43:结合关键词和域名在搜索引擎中检索,并获取检索信息S1,如果搜索引擎有建议搜索内容,则根据建议内容二次搜索,获取检索信息S2。根据S1或S2(没有建议信息用S1,否则用S2)的检索信息获取第一条信息的URL记为URL_new,进入S44;如果检索结果为NULL进入S45,认为不是钓鱼页面记为1。
S44:对URL_old和URL_new进行相似度检测,具体过程如下:
1、计算URL_old和URL_new域名中的dot的级数是否相同,相同则fea_dot=1,否则fea_dot=0(其中,fea_dot表示dot特征)。
2、取URL_old和URL_new子域名subdomain(subdomain表示子域名)的编辑距离特征记为fea_subdom(fea_subdom为子域名特征);取URL_old和URL_new主域名primarydomain(primarydomain表示主域名)的编辑距离特征记为fea_pridom(fea_pridom为主域名特征);并对fea_subdom和fea_pridom进行归一化处理,如果fea_subdom和fea_pridom的值为0,则将转化为1存储,否则利用进行归一化处理(x表示fea_subdom或fea_pridom的值;x'表示转换后对应的结果)。
3、比较URL_old和URL_new是否具有相同的顶级域名(TLD),以及TLD在每个url中出现的次数是否相同,如果相同则fea_TLD=1,否则fea_TLD=0(其中,fea_TLD表示TLD特征)。
4、通过fea_dot、fea_subdom、fea_pridom和fea_TLD值进行线性回归预测(钓鱼页面则记为0,否则记为1)。
S45:根据S43或S44得到相似度值。

Claims (7)

1.一种多特征融合的钓鱼网页检测方法,其特征在于,包括训练过程和检测过程,其中所述训练过程为:
S1:根据钓鱼网页URL数据集收集特征数据,包括URL特征向量X1、页面信息特征向量X2以及搜索信息特征向量X3,从特征数据中随机抽取少量数据作为标记数据样本反例L1,其余部分作为无标记数据样本反例U1
S2:从非钓鱼网页URL数据集中收集特征数据,通过Alexa获取排名靠前的合法网页的特征数据X,形成标记数据样本正例L2,其余部分作为无标记数据样本正例U2,根据S1和S2得到标记训练数据集L,L=L1+L2,和无标记训练数据集U,U=U1+U2
S3:从L中通过Bootstrap Sampling方法进行重复采样获得三个训练集合B1、B2和B3
S4:从B1、B2和B3中分别提取URL特征向量X1、页面信息特征向量X2以及搜索信息特征向量X3,将所提取的三种特征向量分别训练得到三个初始化分类器h1、h2和h3
S5:针对每一个初始化分类器进行以下操作:在h1、h2和h3中任选择一个初始化分类器作为主分类器,分别将另外2个分类器作为辅助分类器,分别在无标记训练数据集U进行预测得到标记结果U2和U3
S6:将U2与U3中具有相同结果的数据样本和L组成新的标记训练数据集,用来重新训练主分类器;
S7:重复S5操作,通过不断迭代更新,直到三个分类器对无标记训练数据集都不再变化为止;
检测过程为:拦截用户请求的URL信息,进行Form表单检测,返回检测结果,如果存在危险,则提取URL特征向量X1、页面信息特征向量X2以及搜索信息特征向量X3,利用h1、h2和h3进行判断。
2.根据权利要求1所述一种多特征融合的钓鱼网页检测方法,其特征在于:所述URL特征向量X1为:X1=[URL的路径级数,URL中dot数,URL的编码格式,URL字节数,IP地址,敏感词汇,URL中长词数,TLD的位置和数量]。
3.根据权利要求1所述一种多特征融合的钓鱼网页检测方法,其特征在于:所述页面信息特征向量X2为:X2=[可疑的Form表单,可疑的action域,页面的链接信息,页面框架或JS跳转]。
4.根据权利要求1所述一种多特征融合的钓鱼网页检测方法,其特征在于:所述搜索信息特征向量X3为:X3=[域名日期,PageRank值,BackLink值,页面相似检测]。
5.根据权利要求4所述一种多特征融合的钓鱼网页检测方法,其特征在于:所述PageRank值计算过程中通过Min-Max标准化进行归一化处理其中PR表示PageRank的值,PR'表示PR归一化的值;BackLink通过进行归一化处理,BL表示BackLink的值,BL'表示BL归一化的值。
6.根据权利要求4所述一种多特征融合的钓鱼网页检测方法,其特征在于:所述页面相似检测的具体检测方法如下:
(1)将待检测页面的URL记为URL_old,获取待检测页面的html,并过滤其中的html标签和JavaScript脚本语言;
(2)将过滤后的html内容,通过TF-IDF算法计算其中关键词;
(3)结合关键词和域名在搜索引擎中检索,并获取检索信息S1,如果搜索引擎有建议搜索内容,则根据建议搜索内容二次搜索,获取检索信息S2,根据S1或S2获取的URL记为URL_new,进入步骤(4);如果检索结果为NULL,则认为不是钓鱼页面记为1;
(4)对URL_old和URL_new进行相似度检测,钓鱼页面则记为0,否则记为1。
7.根据权利要6所述一种多特征融合的钓鱼网页检测方法,其特征在于:所述对URL_old和URL_new进行相似度检测的步骤如下:
1)计算URL_old和URL_new域名中的dot的级数是否相同,相同则fea_dot=1,否则fea_dot=0,fea_dot表示dot特征;
2)取URL_old和URL_new子域名的编辑距离特征记为fea_subdom(;取URL_old和URL_new主域名的编辑距离特征记为fea_pridom;并对fea_subdom和fea_pridom进行归一化处理,如果fea_subdom和fea_pridom的值为0,则将转化为1存储,否则利用进行归一化处理,x表示fea_subdom或fea_pridom的值,x'表示转换后对应的结果;
3)比较URL_old和URL_new是否具有相同的顶级域名TLD,以及TLD在每个URL中出现的次数是否相同,如果相同则fea_TLD=1,否则fea_TLD=0,fea_TLD表示TLD特征;
4)通过fea_dot、fea_subdom、fea_pridom和fea_TLD值进行线性回归预测,钓鱼页面则记为0,否则记为1。
CN201611028629.2A 2016-11-18 2016-11-18 一种多特征融合的钓鱼网页检测方法 Active CN106789888B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611028629.2A CN106789888B (zh) 2016-11-18 2016-11-18 一种多特征融合的钓鱼网页检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611028629.2A CN106789888B (zh) 2016-11-18 2016-11-18 一种多特征融合的钓鱼网页检测方法

Publications (2)

Publication Number Publication Date
CN106789888A true CN106789888A (zh) 2017-05-31
CN106789888B CN106789888B (zh) 2020-08-04

Family

ID=58970301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611028629.2A Active CN106789888B (zh) 2016-11-18 2016-11-18 一种多特征融合的钓鱼网页检测方法

Country Status (1)

Country Link
CN (1) CN106789888B (zh)

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107360200A (zh) * 2017-09-20 2017-11-17 广东工业大学 一种基于分类信心和网站特征的钓鱼检测方法
CN107545179A (zh) * 2017-07-11 2018-01-05 宁波大学 一种垃圾网页识别方法
CN107577945A (zh) * 2017-09-28 2018-01-12 阿里巴巴集团控股有限公司 Url攻击检测方法、装置以及电子设备
CN107818132A (zh) * 2017-09-21 2018-03-20 中国科学院信息工程研究所 一种基于机器学习的网页代理发现方法
CN107948127A (zh) * 2017-09-27 2018-04-20 北京知道未来信息技术有限公司 一种基于回馈和监督学习的waf检测方法及系统
CN108111489A (zh) * 2017-12-07 2018-06-01 阿里巴巴集团控股有限公司 Url攻击检测方法、装置以及电子设备
CN108173814A (zh) * 2017-12-08 2018-06-15 深信服科技股份有限公司 钓鱼网站检测方法、终端设备及存储介质
CN108229156A (zh) * 2017-12-28 2018-06-29 阿里巴巴集团控股有限公司 Url攻击检测方法、装置以及电子设备
CN108304890A (zh) * 2018-03-16 2018-07-20 科大讯飞股份有限公司 一种分类模型的生成方法及装置
CN108337255A (zh) * 2018-01-30 2018-07-27 华中科技大学 一种基于web自动化测试和宽度学习的钓鱼网站检测方法
CN108566399A (zh) * 2018-04-23 2018-09-21 中国互联网络信息中心 钓鱼网站识别方法及系统
CN108898225A (zh) * 2018-05-04 2018-11-27 成都信息工程大学 基于人机协同学习的数据标注方法
CN108965245A (zh) * 2018-05-31 2018-12-07 国家计算机网络与信息安全管理中心 基于自适应异构多分类模型的钓鱼网站检测方法和系统
CN109657179A (zh) * 2018-12-07 2019-04-19 北京奇虎科技有限公司 一种业务处理方法、系统及存储介质
CN109657470A (zh) * 2018-12-27 2019-04-19 北京天融信网络安全技术有限公司 恶意网页检测模型训练方法、恶意网页检测方法及系统
CN110365691A (zh) * 2019-07-22 2019-10-22 云南财经大学 基于深度学习的钓鱼网站判别方法及装置
CN110413924A (zh) * 2019-07-18 2019-11-05 广东石油化工学院 一种半监督多视图学习的网页分类方法
CN110727766A (zh) * 2019-10-18 2020-01-24 上海斗象信息科技有限公司 敏感词的检测方法
CN110766165A (zh) * 2019-10-23 2020-02-07 扬州大学 用于恶意url检测的在线主动机器学习方法
CN111143654A (zh) * 2019-12-25 2020-05-12 支付宝(杭州)信息技术有限公司 辅助识别爬虫的、爬虫识别方法、装置及电子设备
CN111523675A (zh) * 2019-02-01 2020-08-11 阿里巴巴集团控股有限公司 模型训练方法、装置及系统
CN111538929A (zh) * 2020-07-08 2020-08-14 腾讯科技(深圳)有限公司 网络链接识别方法、装置、存储介质及电子设备
CN111669353A (zh) * 2019-03-08 2020-09-15 顺丰科技有限公司 钓鱼网站检测方法及系统
CN112769803A (zh) * 2020-12-31 2021-05-07 北京天融信网络安全技术有限公司 网络威胁的检测方法、装置和电子设备
CN112948725A (zh) * 2021-03-02 2021-06-11 北京六方云信息技术有限公司 基于机器学习的钓鱼网站url检测方法及系统
CN113076109A (zh) * 2021-04-08 2021-07-06 成都安恒信息技术有限公司 一种跨平台的部署脚本语言的方法
CN113098887A (zh) * 2021-04-14 2021-07-09 西安工业大学 一种基于网站联合特征的钓鱼网站检测方法
CN113098874A (zh) * 2021-04-02 2021-07-09 安徽大学 一种基于url字符串随机率特征提取的钓鱼网站检测方法
CN113420239A (zh) * 2021-06-24 2021-09-21 中山大学 一种基于hacker搜索语法的钓鱼站点检测方法
CN113438209A (zh) * 2021-06-04 2021-09-24 中国计量大学 一种基于改进的Stacking策略的钓鱼网站检测方法
CN113449782A (zh) * 2021-06-18 2021-09-28 中电积至(海南)信息技术有限公司 一种基于图半监督分类的cdn托管节点检测方法
CN113612765A (zh) * 2021-07-30 2021-11-05 北京锐安科技有限公司 一种网站检测方法、装置、计算机设备和存储介质
CN114827084A (zh) * 2022-06-06 2022-07-29 刘立坚 基于人工智能网络安全信息防护管理系统
CN115065518A (zh) * 2022-06-09 2022-09-16 中山大学 一种基于异质图特征提取的钓鱼网站检测方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101820366A (zh) * 2010-01-27 2010-09-01 南京邮电大学 一种基于预取的钓鱼网页检测方法
US20110106732A1 (en) * 2009-10-29 2011-05-05 Xerox Corporation Method for categorizing linked documents by co-trained label expansion
CN102571768A (zh) * 2011-12-26 2012-07-11 北京大学 一种钓鱼网站检测方法
CN102739679A (zh) * 2012-06-29 2012-10-17 东南大学 一种基于url分类的钓鱼网站检测方法
US20140298460A1 (en) * 2013-03-26 2014-10-02 Microsoft Corporation Malicious uniform resource locator detection
CN104217160A (zh) * 2014-09-19 2014-12-17 中国科学院深圳先进技术研究院 一种中文钓鱼网站检测方法及系统
CN104794500A (zh) * 2015-05-11 2015-07-22 苏州大学 一种tri-training半监督学习方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110106732A1 (en) * 2009-10-29 2011-05-05 Xerox Corporation Method for categorizing linked documents by co-trained label expansion
CN101820366A (zh) * 2010-01-27 2010-09-01 南京邮电大学 一种基于预取的钓鱼网页检测方法
CN102571768A (zh) * 2011-12-26 2012-07-11 北京大学 一种钓鱼网站检测方法
CN102739679A (zh) * 2012-06-29 2012-10-17 东南大学 一种基于url分类的钓鱼网站检测方法
US20140298460A1 (en) * 2013-03-26 2014-10-02 Microsoft Corporation Malicious uniform resource locator detection
CN104217160A (zh) * 2014-09-19 2014-12-17 中国科学院深圳先进技术研究院 一种中文钓鱼网站检测方法及系统
CN104794500A (zh) * 2015-05-11 2015-07-22 苏州大学 一种tri-training半监督学习方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JI CHENGZHANG ETAL;: "Detecting the spam review using tri-training", 《2015 17TH INTERNATIONAL CONFERENCE ON ADVANCED COMMUNICATION TECHNOLOGY (ICACT)》 *
LI, YUANCHENG ETAL;: "A semi-supervised learning approach for detection of phishing webpages", 《OPTIK》 *
李昭星: "基于半监督的社交网络垃圾用户检测的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》 *
谭琨: "《高光谱遥感影像半监督分类研究》", 31 January 2014 *
路同强: "基于半监督学习的微博谣言检测研究", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》 *

Cited By (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107545179B (zh) * 2017-07-11 2020-06-19 宁波大学 一种垃圾网页识别方法
CN107545179A (zh) * 2017-07-11 2018-01-05 宁波大学 一种垃圾网页识别方法
CN107360200A (zh) * 2017-09-20 2017-11-17 广东工业大学 一种基于分类信心和网站特征的钓鱼检测方法
CN107818132A (zh) * 2017-09-21 2018-03-20 中国科学院信息工程研究所 一种基于机器学习的网页代理发现方法
CN107948127A (zh) * 2017-09-27 2018-04-20 北京知道未来信息技术有限公司 一种基于回馈和监督学习的waf检测方法及系统
CN107577945A (zh) * 2017-09-28 2018-01-12 阿里巴巴集团控股有限公司 Url攻击检测方法、装置以及电子设备
CN108111489A (zh) * 2017-12-07 2018-06-01 阿里巴巴集团控股有限公司 Url攻击检测方法、装置以及电子设备
CN108173814A (zh) * 2017-12-08 2018-06-15 深信服科技股份有限公司 钓鱼网站检测方法、终端设备及存储介质
CN108173814B (zh) * 2017-12-08 2021-02-05 深信服科技股份有限公司 钓鱼网站检测方法、终端设备及存储介质
CN108229156A (zh) * 2017-12-28 2018-06-29 阿里巴巴集团控股有限公司 Url攻击检测方法、装置以及电子设备
US10785241B2 (en) 2017-12-28 2020-09-22 Alibaba Group Holding Limited URL attack detection method and apparatus, and electronic device
CN108337255A (zh) * 2018-01-30 2018-07-27 华中科技大学 一种基于web自动化测试和宽度学习的钓鱼网站检测方法
CN108337255B (zh) * 2018-01-30 2020-08-04 华中科技大学 一种基于web自动化测试和宽度学习的钓鱼网站检测方法
CN108304890A (zh) * 2018-03-16 2018-07-20 科大讯飞股份有限公司 一种分类模型的生成方法及装置
CN108566399A (zh) * 2018-04-23 2018-09-21 中国互联网络信息中心 钓鱼网站识别方法及系统
CN108566399B (zh) * 2018-04-23 2020-11-03 中国互联网络信息中心 钓鱼网站识别方法及系统
CN108898225A (zh) * 2018-05-04 2018-11-27 成都信息工程大学 基于人机协同学习的数据标注方法
CN108898225B (zh) * 2018-05-04 2020-07-17 成都信息工程大学 基于人机协同学习的数据标注方法
CN108965245A (zh) * 2018-05-31 2018-12-07 国家计算机网络与信息安全管理中心 基于自适应异构多分类模型的钓鱼网站检测方法和系统
CN109657179B (zh) * 2018-12-07 2024-04-16 北京奇虎科技有限公司 一种业务处理方法、系统及存储介质
CN109657179A (zh) * 2018-12-07 2019-04-19 北京奇虎科技有限公司 一种业务处理方法、系统及存储介质
CN109657470A (zh) * 2018-12-27 2019-04-19 北京天融信网络安全技术有限公司 恶意网页检测模型训练方法、恶意网页检测方法及系统
CN111523675A (zh) * 2019-02-01 2020-08-11 阿里巴巴集团控股有限公司 模型训练方法、装置及系统
CN111523675B (zh) * 2019-02-01 2023-08-04 创新先进技术有限公司 模型训练方法、装置及系统
CN111669353A (zh) * 2019-03-08 2020-09-15 顺丰科技有限公司 钓鱼网站检测方法及系统
CN110413924A (zh) * 2019-07-18 2019-11-05 广东石油化工学院 一种半监督多视图学习的网页分类方法
CN110413924B (zh) * 2019-07-18 2020-04-17 广东石油化工学院 一种半监督多视图学习的网页分类方法
CN110365691B (zh) * 2019-07-22 2021-12-28 云南财经大学 基于深度学习的钓鱼网站判别方法及装置
CN110365691A (zh) * 2019-07-22 2019-10-22 云南财经大学 基于深度学习的钓鱼网站判别方法及装置
CN110727766A (zh) * 2019-10-18 2020-01-24 上海斗象信息科技有限公司 敏感词的检测方法
CN110727766B (zh) * 2019-10-18 2023-04-28 上海斗象信息科技有限公司 敏感词的检测方法
CN110766165B (zh) * 2019-10-23 2023-08-08 扬州大学 用于恶意url检测的在线主动机器学习方法
CN110766165A (zh) * 2019-10-23 2020-02-07 扬州大学 用于恶意url检测的在线主动机器学习方法
CN111143654A (zh) * 2019-12-25 2020-05-12 支付宝(杭州)信息技术有限公司 辅助识别爬虫的、爬虫识别方法、装置及电子设备
CN111538929A (zh) * 2020-07-08 2020-08-14 腾讯科技(深圳)有限公司 网络链接识别方法、装置、存储介质及电子设备
CN112769803A (zh) * 2020-12-31 2021-05-07 北京天融信网络安全技术有限公司 网络威胁的检测方法、装置和电子设备
CN112948725A (zh) * 2021-03-02 2021-06-11 北京六方云信息技术有限公司 基于机器学习的钓鱼网站url检测方法及系统
CN113098874A (zh) * 2021-04-02 2021-07-09 安徽大学 一种基于url字符串随机率特征提取的钓鱼网站检测方法
CN113076109A (zh) * 2021-04-08 2021-07-06 成都安恒信息技术有限公司 一种跨平台的部署脚本语言的方法
CN113076109B (zh) * 2021-04-08 2023-07-04 成都安恒信息技术有限公司 一种跨平台的部署脚本语言的方法
CN113098887A (zh) * 2021-04-14 2021-07-09 西安工业大学 一种基于网站联合特征的钓鱼网站检测方法
CN113438209A (zh) * 2021-06-04 2021-09-24 中国计量大学 一种基于改进的Stacking策略的钓鱼网站检测方法
CN113449782B (zh) * 2021-06-18 2022-05-24 中电积至(海南)信息技术有限公司 一种基于图半监督分类的cdn托管节点检测方法
CN113449782A (zh) * 2021-06-18 2021-09-28 中电积至(海南)信息技术有限公司 一种基于图半监督分类的cdn托管节点检测方法
CN113420239A (zh) * 2021-06-24 2021-09-21 中山大学 一种基于hacker搜索语法的钓鱼站点检测方法
CN113612765B (zh) * 2021-07-30 2023-06-27 北京锐安科技有限公司 一种网站检测方法、装置、计算机设备和存储介质
CN113612765A (zh) * 2021-07-30 2021-11-05 北京锐安科技有限公司 一种网站检测方法、装置、计算机设备和存储介质
CN114827084A (zh) * 2022-06-06 2022-07-29 刘立坚 基于人工智能网络安全信息防护管理系统
CN115065518B (zh) * 2022-06-09 2023-06-06 中山大学 一种基于异质图特征提取的钓鱼网站检测方法及系统
CN115065518A (zh) * 2022-06-09 2022-09-16 中山大学 一种基于异质图特征提取的钓鱼网站检测方法及系统

Also Published As

Publication number Publication date
CN106789888B (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN106789888A (zh) 一种多特征融合的钓鱼网页检测方法
CN101820366B (zh) 一种基于预取的钓鱼网页检测方法
CN104899508B (zh) 一种多阶段钓鱼网站检测方法与系统
CN103544436B (zh) 一种钓鱼网站鉴别系统和方法
CN108777674B (zh) 一种基于多特征融合的钓鱼网站检测方法
CN104217160B (zh) 一种中文钓鱼网站检测方法及系统
CN104982011B (zh) 使用多尺度文本指纹的文档分类
CN104077396A (zh) 一种钓鱼网站检测方法及装置
CN103530367B (zh) 一种钓鱼网站鉴别系统和方法
CN106776946A (zh) 一种欺诈网站的检测方法
CN105956472A (zh) 识别网页中是否包含恶意内容的方法和系统
CN102571768B (zh) 一种钓鱼网站检测方法
CN102932348A (zh) 一种钓鱼网站的实时检测方法及系统
CN107341399A (zh) 评估代码文件安全性的方法及装置
CN101826105A (zh) 基于匈牙利匹配算法的钓鱼网页检测方法
CN108134784A (zh) 网页分类方法及装置、存储介质及电子设备
CN111259219B (zh) 恶意网页识别模型建立方法、识别方法及系统
CN110830489A (zh) 基于内容抽象表示的对抗式欺诈网站检测方法及系统
CN106779278A (zh) 资产信息的评价系统及其信息的处理方法和装置
CN104158828B (zh) 基于云端内容规则库识别可疑钓鱼网页的方法及系统
CN106713579A (zh) 一种电话号码识别方法及装置
JP7372707B2 (ja) 暗号通貨取引を分析するためのデータ取得方法及び装置
CN107590558A (zh) 一种基于多层集成学习的微博转发预测方法
CN109492219A (zh) 一种基于特征分类和情感语义分析的诈骗网站识别方法
CN110046293A (zh) 一种用户身份关联方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant