CN102739679A - 一种基于url分类的钓鱼网站检测方法 - Google Patents

一种基于url分类的钓鱼网站检测方法 Download PDF

Info

Publication number
CN102739679A
CN102739679A CN2012102235055A CN201210223505A CN102739679A CN 102739679 A CN102739679 A CN 102739679A CN 2012102235055 A CN2012102235055 A CN 2012102235055A CN 201210223505 A CN201210223505 A CN 201210223505A CN 102739679 A CN102739679 A CN 102739679A
Authority
CN
China
Prior art keywords
url
domain name
classification
detection method
fishing website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012102235055A
Other languages
English (en)
Inventor
曹玖新
罗军舟
东方
王田峰
董丹
刘波
杨鹏伟
吴江林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN2012102235055A priority Critical patent/CN102739679A/zh
Publication of CN102739679A publication Critical patent/CN102739679A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于URL分类的钓鱼网站检测方法,包括如下步骤:对钓鱼网站的URL特征进行归纳分析,并将所述URL特征向量化;根据URL特征向量,对原始数据进行训练得到初始分类模型。本发明适用性强、效率高。

Description

一种基于URL分类的钓鱼网站检测方法
技术领域
本发明属于网络安全领域,涉及一种反网络钓鱼的方法,特别涉及一种基于URL(网页地址)分类的钓鱼网站检测方法。
背景技术
网络钓鱼攻击已经成为当前网上交易安全的一个重大威胁,其对电子商务的发展造成了很大阻碍,因而对钓鱼防范的研究成为网络安全领域的热点问题。钓鱼网站的规模逐年成倍递增,从机器学习与模式识别角度讲,大量的钓鱼网站已经呈现出一种有迹可循的模式,这给用模式识别的方法进行学习分类带来了一定的应用空间。
目前存在的基于模式识别的钓鱼网站判别方法主要有:
基于邮件特征的钓鱼邮件检测方法。其主要方法是通过对大量钓鱼邮件的学习训练找出一组普遍存在的现象特征。方案从邮件的语言,布局以及结构入手获取诸如特殊句法,结构布局特点,词汇使用模式,反常语言应用等特征。
基于网页文本特征的钓鱼网页检测方法。该方法借助于TF-IDF算法计算一篇文档中的重要程度较高的词汇,然后以这些词汇为网页特征对网页进行分类,分类过程借鉴了google对网页的评价排名。
基于网页图像相似度得钓鱼网页检测。首先将HTML网页转换为标准图片形式,提取主色调和图片重心位置等属性标示图片特征,然后应用EMD(EarthMover’s Distance)算法计算两图像间的相似度,设定一个阈值判断当前网页是否有模仿现象。
目前钓鱼检测方法存在一定的不足,无论是基于邮件特征还是基于网页特征都要通过对邮件或网页内容进行整体分析,这可能带来以下问题,一是邮件或网页标准不统一,这导致预先设定的检测特征有可能缺失;二是对邮件或网页进行整体分析花费时间较多,从应用角度来讲可能超过用户所能忍受的网络延时;三是受保护机构合法邮件或网页更新时,检测机构没有相应的联动机制。
发明内容
发明目的:针对上述现有技术存在的问题和不足,本发明的目的是提供一种适用性强、效率高的基于URL分类的钓鱼网站检测方法。
技术方案:为实现上述发明目的,本发明采用的技术方案为一种基于URL分类的钓鱼网站检测方法,包括如下步骤:
(1)对钓鱼网站的URL特征进行归纳分析,并将所述URL特征向量化;
(2)根据URL特征向量,对原始数据进行训练得到初始分类模型。
进一步地,还包括步骤(3):检测钓鱼网站的服务器根据在线增量学习策略对当前分类模型进行升级。
进一步地,所述步骤(1)中,钓鱼网站的URL特征包括:
1)URL中存在IP地址。一定比例的钓鱼URL包含有IP地址,而在合法URL中几乎不存在包含IP地址的情况;
2)用“.”来对域名进行混淆。钓鱼网页往往通过用很多“.”来隔开一个正常的字段以达到迷惑用户的目的,如
http://paypal.com.online-update.onlinebanking.service.customer./...而这种URL在合法网站几乎很少见到;
3)URL路径深度异常。即URL中包括“/”的数目,伪造的URL通过加长路径来混淆合法网址;
4)包含特殊字符。如“”“~”“-”在钓鱼URL中经常会出现;
5)存在较多数字、字母相混合的情况。该特征在合法URL与钓鱼URL中都有体现,但在钓鱼URL中更为明显;
6)域名字段长度异常。一般情况下,认为出现在‘http://’与第一个‘/’之间的字符串为域名字段,大部分合法URL的域名长度比较适中,而有一部分钓鱼URL此部分长度显得过长;
7)PageRank排名较低。PageRank是Google对所收录网页按照重要程度进行的排名,在检测中发现,绝大部分钓鱼URL此项数值较低或没有记录。
8)合法域名篡改。钓鱼网站域名往往对合法网站域名进行篡改,如把“paypal”中的字母“l”替换为数字“1”,根据一定方法可以对该现象进行检测。
9)可疑词汇。钓鱼URL中有些词汇出现频率较高,如“login”,“account”等,根据一定方法可以对这些可疑词汇进行统计提取。
对URL特征1)至6)采用正则表达式匹配的方式获取,对URL特征7)通过谷歌获取,对URL特征8)和9)进行特征建模。
进一步地,所述步骤(1)中,域名篡改特征的检测方法为:设从URL提取出的域名字符串U=u1、u2、…、um,受保护域名字符串T=t1、t2、…、tn
计算分别以ui和tj结束的两个域名子字符串的最大相似度值,该最大相似度值用Hi,j表示,那么根据ui与tj相对位置的不同,Hi,j值有以下四种情况:
1)两子字符串到ui与tj结束时长度相同,此时有:
Hi,j=Hi-1,j-1+s(ui,tj)
其中 s ( u i , t j ) = w match , u i = t j - w dismatch , u i ≠ t j , wmatch与wdismatch分别表示ui与tj相同和相异时的权值;
2)以ui结束的子字符串在ui之前存在长度为k的缺失值Wk,此时有:
Hi,j=Hi-k,j-Wk
3)以tj结束的子字符串在tj之前存在长度为l的缺失值Wl,此时有:
Hi,j=Hi,j-l-Wl
4)当i=0或j=0时,定义此时的Hi,j为0,即:
Hi,0=H0,j=0
综合上述四种情况,得到递归公式:
H i , j = max 0 H i - 1 , j - 1 + s ( u i , t j ) max k ≥ 1 ( H i - k , j - W k ) max l ≥ 1 ( H i , j - 1 - W l ) , 1 ≤ i ≤ m , 1 ≤ j ≤ n
利用上述递归公式对两域名进行计算得到一个m*n的矩阵H,两域名的最大相似度值S(U,T)即为矩阵H的最大值h(m,n);根据受保护域名字符串T的长度进行规格化处理,之后得到从URL提取出的域名字符串U的域名相似系数TMU
TM U = h ( m , n ) n * w match
当TMU=1时表示U与目标合法域名完全匹配,对于其它情况,给定一个域名模仿的阈值区间(f1,f2),其中0≤f1<f2≤1;当TMU∈(f1,f2)时表示极有可能为域名模仿现象。
进一步地,所述步骤(1)中,可疑词汇特征的统计步骤为:
步骤1:构造一棵空的广义后缀树GST,设定路径结束符为“$”;
步骤2:将URL字符串产生的后缀依次插入GST,若遇到相同后缀则合并当前节点,若无已存在的相同后缀则分裂当前节点产生新的后缀节点;
步骤3:重复步骤2直至URL集合中的所有URL处理完毕,此时GST构建完成;
步骤4:初始化Map集合δ<P,S>,其中P表示路径集合,S表示P所对应的字符串;
步骤5:遍历GST,对于每个节点所对应的路径e,查询其所属的URL子字符串s,根据s搜索Map集合δ得到s所对应的所有路径集合p’,如果
Figure BDA00001831857100041
则将
路径e和其子字符串s组合成<e,s>加入到Map集合δ中,否则转步骤6;
步骤6:如果e比p’中任一路径都要长,则p’=p’Ue;
步骤7:重复步骤5、6,直到所有路径都遍历完成;
步骤8:遍历集合δ<P,S>,输出s出现次数超过k次的s的集合D,D即为所求。
进一步地,所述步骤(2)中,根据URL特征向量,采用支持向量机算法对所述URL特征向量进行训练得到初始分类模型M,用于对待检测URL进行分类。
进一步地,所述在线增量学习策略包括如下步骤:
步骤1:定义两个空数据集C-SET与B-SET,其中C-SET用于存放分类器训练样本,B-SET用于存放增量过程中的丢弃样本;
步骤2:定义初始样本集为YH,此时有C-SET=YH
步骤3:以YH为训练样本得到初始分类器ΨH,以ΨH检验增量样本集YI,其中违背KKT条件的样本记为YI NK,符合KKT条件的样本记为YI K,若
Figure BDA00001831857100042
则本轮增量结束,否则转步骤4;
步骤4:令C-SET=C-SET∪YI NK,B-SET=B-SET∪YI K;对C-SET进行训练得到增量分类器ΨI
步骤5:利用ΨI对B-SET进行再分类得到YB NK,若
Figure BDA00001831857100043
则ΨI为最终增量分类器,否则令C-SET=C-SET∪YB NK,对C-SET进行再次训练得到修正的最终分类器ΨO
有益效果:本发明所采用的基于URL学习分类的钓鱼检测方法,综合利用了黑白名单匹配检测与钓鱼URL特征检测,对于已有明确记录的URL信息可以达到快速检测的目的,对于数据库中未存储的URL数据可以利用训练生成的SVM分类模型对URL进行预测分类,这种综合检测方法有效弥补了单纯依靠黑白名单检测对未知URL无法处理的情况。同时,本发明在URL特征建模过程中对域名模仿以及关键词特征进行了有效的定义与检测,使得钓鱼URL特征描述更加精确,继而有效提高了SVM分类精度。
附图说明
图1为本发明基于URL分类的钓鱼检测原型系统框架图;
图2为本发明基于URL的钓鱼检测方法流程图;
图3为本发明基于URL的钓鱼检测方法实施过程时序图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明实现了一个基于URL分类的钓鱼检测原型系统,该系统的结构示意图如图1所示。系统包括三个组成部分:浏览器客户端、分析中心服务器以及受保护机构(bank,e-business)即(银行,电子商务)。其中浏览器客户端以浏览器插件的形式存在,负责监控用户输入的网址并将获取的网址送入分析中心服务器分析。分析中心服务器包括URL数据库(URL Database)以及机器学习引擎(MLengine),负责对URL进行综合分析并将结果反馈于浏览器客户端。受保护机构主要为分析中心服务器提供最新的受保护域名信息,并通过邮件等方式告知用户最新的针对该机构的攻击信息。系统在三方协作的基础上力求最大限度地提高用户网上交易的安全性。
图3是系统详细设计中的各模块之间的交互时序图,系统组成模块包括浏览器插件(BrowserPlugin)、Web程序容器(WebContainer)、服务器主程序(URLCheckServlet)、分类模型(ClassifierModel)、特征生成模块(FeatureGenerator)以及数据库管理模块(DataManager)。
结合图2、3所示,基于URL分类的钓鱼网站检测方法的具体实施方式可以描述为:
步骤1:用户在浏览器终端输入网址,浏览器插件对地址栏URL进行监听并将状态转换为URL待发送;
步骤2:用户在浏览器插件界面点击允许发送URL按钮,插件将URL信息传入后台服务器;
步骤3:后台服务器调用主程序(URLCheckServlet),该servlet首先调用数据库管理模块(DataManager)查询黑白名单数据库,若存在黑名单匹配,则直接判定为钓鱼,流程结束,若存在白名单匹配,则直接判定为合法,流程结束。若不存在匹配情况,转入步骤4;
步骤4:URLCheckServlet调用模型分类主程序ClassiferModel进行预测分类,ClassiferModel调用URL特征提取模块FeatureGenertor对URL进行特征提取形成相应的特征向量,在此特征向量基础上利用SVM(支持向量机)分类模型获得分类预测值;
步骤5:将步骤4所得分类预测值映射为相应的钓鱼可能性概率,将该结果反馈给客户端;
基于本发明方法开发了原型系统。从实验效果来看,本发明能在短时间内,较为准确地判断URL地址的合法性,并将结果反馈给用户,对用户的财产信息安全起到了一定的保护效果。

Claims (7)

1.一种基于URL分类的钓鱼网站检测方法,包括如下步骤:
(1)对钓鱼网站的URL特征进行归纳分析,并将所述URL特征向量化;
(2)根据URL特征向量,对原始数据进行训练得到初始分类模型。
2.根据权利要求1所述一种基于URL分类的钓鱼网站检测方法,其特征在于:还包括步骤(3):检测钓鱼网站的服务器根据在线增量学习策略对当前分类模型进行升级。
3.根据权利要求1所述一种基于URL分类的钓鱼网站检测方法,其特征在于:所述步骤(1)中,钓鱼网站的URL特征包括:
1)URL中存在IP地址;
2)用“.”来对域名进行混淆;
3)URL路径深度异常;
4)包含特殊字符;
5)存在较多数字、字母相混合的情况;
6)域名字段长度异常;
7)PageRank排名较低;
8)域名由合法域名篡改而来;
9)存在可疑词汇;
对URL特征1)至6)采用正则表达式匹配的方式获取,对URL特征7)通过谷歌获取,对URL特征8)和9)进行特征建模。
4.根据权利要求3所述一种基于URL分类的钓鱼网站检测方法,其特征在于:所述步骤(1)中,域名篡改特征的检测方法为:设从URL提取出的域名字符串U=u1、u2、…、um,受保护域名字符串T=t1、t2、…、tn
计算分别以ui和tj结束的两个域名子字符串的最大相似度值,该最大相似度值用Hi,j表示,那么根据ui与tj相对位置的不同,Hi,j值有以下四种情况:
1)两子字符串到ui与tj结束时长度相同,此时有:
Hi,j=Hi-1,j-1+s(ui,tj)
其中 s ( u i , t j ) = w match , u i = t j - w dismatch , u i &NotEqual; t j , wmatch与wdismatch分别表示ui与tj相同和相异时的权值;
2)以ui结束的子字符串在ui之前存在长度为k的缺失值Wk,此时有:
Hi,j=Hi-k,j-Wk
3)以tj结束的子字符串在tj之前存在长度为l的缺失值Wl,此时有:
Hi,j=Hi,j-l-Wl
4)当i=0或j=0时,定义此时的Hi,j为0,即:
Hi,0=H0,j=0
综合上述四种情况,得到递归公式:
H i , j = max 0 H i - 1 , j - 1 + s ( u i , t j ) max k &GreaterEqual; 1 ( H i - k , j - W k ) max l &GreaterEqual; 1 ( H i , j - 1 - W l ) , 1 &le; i &le; m , 1 &le; j &le; n
利用上述递归公式对两域名进行计算得到一个m*n的矩阵H,两域名的最大相似度值S(U,T)即为矩阵H的最大值h(m,n);根据受保护域名字符串T的长度进行规格化处理,之后得到从URL提取出的域名字符串U的域名相似系数TMU
TM U = h ( m , n ) n * w match
当TMU=1时表示U与目标合法域名完全匹配,对于其它情况,给定一个域名模仿的阈值区间(f1,f2),其中0≤f1<f2≤1;当TMU∈(f1,f2)时表示极有可能为域名模仿现象。
5.根据权利要求3所述一种基于URL分类的钓鱼网站检测方法,其特征在于:所述步骤(1)中,可疑词汇特征的统计步骤为:
步骤1:构造一棵空的广义后缀树GST,设定路径结束符为“$”;
步骤2:将URL字符串产生的后缀依次插入GST,若遇到相同后缀则合并当前节点,若无已存在的相同后缀则分裂当前节点产生新的后缀节点;
步骤3:重复步骤2直至URL集合中的所有URL处理完毕,此时GST构建完成;
步骤4:初始化Map集合δ<P,S>,其中P表示路径集合,S表示P所对应的字符串;
步骤5:遍历GST,对于每个节点所对应的路径e,查询其所属的URL子字符串s,根据s搜索Map集合δ得到s所对应的所有路径集合p’,如果
Figure FDA00001831857000023
则将路径e和其子字符串s组合成<e,s>加入到Map集合δ中,否则转步骤6;
步骤6:如果e比p’中任一路径都要长,则p’=p’Ue;
步骤7:重复步骤5、6,直到所有路径都遍历完成;
步骤8:遍历集合δ<P,S>,输出s出现次数超过k次的s的集合D,D即为所求。
6.根据权利要求1所述一种基于URL分类的钓鱼网站检测方法,其特征在于:所述步骤(2)中,根据URL特征向量,采用支持向量机算法对所述URL特征向量进行训练得到初始分类模型M,用于对待检测URL进行分类。
7.根据权利要求2所述一种基于URL分类的钓鱼网站检测方法,其特征在于:所述在线增量学习策略包括如下步骤:
步骤1:定义两个空数据集C-SET与B-SET,其中C-SET用于存放分类器训练样本,B-SET用于存放增量过程中的丢弃样本;
步骤2:定义初始样本集为YH,此时有C-SET=YH
步骤3:以YH为训练样本得到初始分类器ΨH,以ΨH检验增量样本集YI,其中违背KKT条件的样本记为YI NK,符合KKT条件的样本记为YI K,若
Figure FDA00001831857000031
则本轮增量结束,否则转步骤4;
步骤4:令C-SET=C-SET∪YI NK,B-SET=B-SET∪YI K;对C-SET进行训练得到增量分类器ΨI
步骤5:利用ΨI对B-SET进行再分类得到YB NK,若
Figure FDA00001831857000032
则ΨI为最终增量分类器,否则令C-SET=C-SET∪YB NK,对C-SET进行再次训练得到修正的最终分类器ΨO
CN2012102235055A 2012-06-29 2012-06-29 一种基于url分类的钓鱼网站检测方法 Pending CN102739679A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012102235055A CN102739679A (zh) 2012-06-29 2012-06-29 一种基于url分类的钓鱼网站检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012102235055A CN102739679A (zh) 2012-06-29 2012-06-29 一种基于url分类的钓鱼网站检测方法

Publications (1)

Publication Number Publication Date
CN102739679A true CN102739679A (zh) 2012-10-17

Family

ID=46994462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012102235055A Pending CN102739679A (zh) 2012-06-29 2012-06-29 一种基于url分类的钓鱼网站检测方法

Country Status (1)

Country Link
CN (1) CN102739679A (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102932348A (zh) * 2012-10-30 2013-02-13 常州大学 一种钓鱼网站的实时检测方法及系统
CN103491101A (zh) * 2013-09-30 2014-01-01 北京金山网络科技有限公司 钓鱼网站检测方法、装置及客户端
CN103581162A (zh) * 2012-12-27 2014-02-12 哈尔滨安天科技股份有限公司 一种基于云的持续更新事件结果与统计信息的系统及方法
CN103905421A (zh) * 2013-12-17 2014-07-02 哈尔滨安天科技股份有限公司 一种基于url异构性的可疑事件检测方法及系统
CN103914479A (zh) * 2013-01-06 2014-07-09 北京金山安全软件有限公司 资源请求的匹配方法和装置
CN104035984A (zh) * 2014-05-29 2014-09-10 北京奇虎科技有限公司 一种浏览器中进行弹窗拦截的方法和一种弹窗拦截的装置
CN104391880A (zh) * 2014-10-31 2015-03-04 北京奇虎科技有限公司 拦截业务对象的方法及客户端
CN104618372A (zh) * 2015-02-02 2015-05-13 同济大学 一种基于web浏览习惯的用户身份认证装置和方法
WO2015139172A1 (zh) * 2014-03-17 2015-09-24 中国工商银行股份有限公司 网络在线服务提供装置及方法
CN105138912A (zh) * 2015-09-25 2015-12-09 北京奇虎科技有限公司 钓鱼网站检测规则的自动生成方法及装置
CN105357221A (zh) * 2015-12-04 2016-02-24 北京奇虎科技有限公司 识别钓鱼网站的方法及装置
CN105871919A (zh) * 2016-06-12 2016-08-17 北京六间房科技有限公司 一种网络应用防火墙系统及其实现方法
CN105897752A (zh) * 2016-06-03 2016-08-24 北京奇虎科技有限公司 未知域名的安全检测方法及装置
CN106603489A (zh) * 2016-11-08 2017-04-26 南京南瑞继保电气有限公司 一种变电站网络安全管控装置
CN106776958A (zh) * 2016-12-05 2017-05-31 公安部第三研究所 基于关键路径的违法网站识别系统及其方法
CN106790102A (zh) * 2016-12-26 2017-05-31 中南林业科技大学 一种基于url特征的qr码网络钓鱼识别方法及系统
CN106789888A (zh) * 2016-11-18 2017-05-31 重庆邮电大学 一种多特征融合的钓鱼网页检测方法
CN106940711A (zh) * 2017-02-27 2017-07-11 北京神州绿盟信息安全科技股份有限公司 一种url检测方法及检测装置
CN107330010A (zh) * 2017-06-14 2017-11-07 北京知道未来信息技术有限公司 一种基于机器学习的后台路径爆破方法
CN107360200A (zh) * 2017-09-20 2017-11-17 广东工业大学 一种基于分类信心和网站特征的钓鱼检测方法
CN107566389A (zh) * 2017-09-19 2018-01-09 济南互信软件有限公司 一种基于c4.5决策树的模仿url链接钓鱼域名识别方法
CN107807987A (zh) * 2017-10-31 2018-03-16 广东工业大学 一种字符串分类方法、系统及一种字符串分类设备
CN107872452A (zh) * 2017-10-25 2018-04-03 东软集团股份有限公司 一种恶意网站的识别方法、装置、存储介质及程序产品
CN107979560A (zh) * 2016-10-21 2018-05-01 北京计算机技术及应用研究所 一种基于多重检测的应用攻击防御方法
WO2018077035A1 (zh) * 2016-10-31 2018-05-03 腾讯科技(深圳)有限公司 恶意资源地址检测方法和装置、存储介质
CN109067723A (zh) * 2018-07-24 2018-12-21 国家计算机网络与信息安全管理中心 钓鱼网站使用者信息的追溯方法、控制器和介质
CN109284465A (zh) * 2018-09-04 2019-01-29 暨南大学 一种基于url的网页分类器构建方法及其分类方法
CN110247916A (zh) * 2019-06-20 2019-09-17 四川长虹电器股份有限公司 恶意域名检测方法
CN110309402A (zh) * 2018-02-27 2019-10-08 阿里巴巴集团控股有限公司 检测网站的方法和系统
CN110516173A (zh) * 2019-08-28 2019-11-29 腾讯科技(深圳)有限公司 一种非法网站识别方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6098069A (en) * 1997-03-17 2000-08-01 Sharp Kabushiki Kaisha Data managing method and data managing device using the same for manipulating data independently from networks
CN101051313A (zh) * 2007-05-09 2007-10-10 崔志明 用于深层网页数据源集成的数据源发现方法
CN101692639A (zh) * 2009-09-15 2010-04-07 西安交通大学 一种基于url的不良网页识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6098069A (en) * 1997-03-17 2000-08-01 Sharp Kabushiki Kaisha Data managing method and data managing device using the same for manipulating data independently from networks
CN101051313A (zh) * 2007-05-09 2007-10-10 崔志明 用于深层网页数据源集成的数据源发现方法
CN101692639A (zh) * 2009-09-15 2010-04-07 西安交通大学 一种基于url的不良网页识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
段华: "《基于Lagrangian支持向量机的增量学习算法》", 《上海交通大学》 *

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102932348A (zh) * 2012-10-30 2013-02-13 常州大学 一种钓鱼网站的实时检测方法及系统
CN103581162A (zh) * 2012-12-27 2014-02-12 哈尔滨安天科技股份有限公司 一种基于云的持续更新事件结果与统计信息的系统及方法
CN103914479A (zh) * 2013-01-06 2014-07-09 北京金山安全软件有限公司 资源请求的匹配方法和装置
CN103914479B (zh) * 2013-01-06 2017-12-01 北京金山安全软件有限公司 资源请求的匹配方法和装置
CN103491101A (zh) * 2013-09-30 2014-01-01 北京金山网络科技有限公司 钓鱼网站检测方法、装置及客户端
CN103905421A (zh) * 2013-12-17 2014-07-02 哈尔滨安天科技股份有限公司 一种基于url异构性的可疑事件检测方法及系统
WO2015139172A1 (zh) * 2014-03-17 2015-09-24 中国工商银行股份有限公司 网络在线服务提供装置及方法
CN104035984B (zh) * 2014-05-29 2017-05-10 北京奇虎科技有限公司 一种浏览器中进行弹窗拦截的方法和一种弹窗拦截的装置
CN104035984A (zh) * 2014-05-29 2014-09-10 北京奇虎科技有限公司 一种浏览器中进行弹窗拦截的方法和一种弹窗拦截的装置
CN104391880A (zh) * 2014-10-31 2015-03-04 北京奇虎科技有限公司 拦截业务对象的方法及客户端
CN104618372A (zh) * 2015-02-02 2015-05-13 同济大学 一种基于web浏览习惯的用户身份认证装置和方法
CN104618372B (zh) * 2015-02-02 2017-12-15 同济大学 一种基于web浏览习惯的用户身份认证装置和方法
CN105138912A (zh) * 2015-09-25 2015-12-09 北京奇虎科技有限公司 钓鱼网站检测规则的自动生成方法及装置
CN105357221A (zh) * 2015-12-04 2016-02-24 北京奇虎科技有限公司 识别钓鱼网站的方法及装置
CN105897752A (zh) * 2016-06-03 2016-08-24 北京奇虎科技有限公司 未知域名的安全检测方法及装置
CN105871919A (zh) * 2016-06-12 2016-08-17 北京六间房科技有限公司 一种网络应用防火墙系统及其实现方法
CN107979560A (zh) * 2016-10-21 2018-05-01 北京计算机技术及应用研究所 一种基于多重检测的应用攻击防御方法
CN108023868A (zh) * 2016-10-31 2018-05-11 腾讯科技(深圳)有限公司 恶意资源地址检测方法和装置
WO2018077035A1 (zh) * 2016-10-31 2018-05-03 腾讯科技(深圳)有限公司 恶意资源地址检测方法和装置、存储介质
CN108023868B (zh) * 2016-10-31 2021-02-02 腾讯科技(深圳)有限公司 恶意资源地址检测方法和装置
CN106603489A (zh) * 2016-11-08 2017-04-26 南京南瑞继保电气有限公司 一种变电站网络安全管控装置
CN106789888A (zh) * 2016-11-18 2017-05-31 重庆邮电大学 一种多特征融合的钓鱼网页检测方法
CN106789888B (zh) * 2016-11-18 2020-08-04 重庆邮电大学 一种多特征融合的钓鱼网页检测方法
CN106776958A (zh) * 2016-12-05 2017-05-31 公安部第三研究所 基于关键路径的违法网站识别系统及其方法
CN106790102A (zh) * 2016-12-26 2017-05-31 中南林业科技大学 一种基于url特征的qr码网络钓鱼识别方法及系统
CN106940711A (zh) * 2017-02-27 2017-07-11 北京神州绿盟信息安全科技股份有限公司 一种url检测方法及检测装置
CN106940711B (zh) * 2017-02-27 2020-02-07 北京神州绿盟信息安全科技股份有限公司 一种url检测方法及检测装置
CN107330010B (zh) * 2017-06-14 2020-10-16 北京知道未来信息技术有限公司 一种基于机器学习的后台路径爆破方法
CN107330010A (zh) * 2017-06-14 2017-11-07 北京知道未来信息技术有限公司 一种基于机器学习的后台路径爆破方法
CN107566389A (zh) * 2017-09-19 2018-01-09 济南互信软件有限公司 一种基于c4.5决策树的模仿url链接钓鱼域名识别方法
CN107360200A (zh) * 2017-09-20 2017-11-17 广东工业大学 一种基于分类信心和网站特征的钓鱼检测方法
CN107872452A (zh) * 2017-10-25 2018-04-03 东软集团股份有限公司 一种恶意网站的识别方法、装置、存储介质及程序产品
CN107807987A (zh) * 2017-10-31 2018-03-16 广东工业大学 一种字符串分类方法、系统及一种字符串分类设备
CN107807987B (zh) * 2017-10-31 2021-07-02 广东工业大学 一种字符串分类方法、系统及一种字符串分类设备
US11463476B2 (en) 2017-10-31 2022-10-04 Guangdong University Of Technology Character string classification method and system, and character string classification device
CN110309402A (zh) * 2018-02-27 2019-10-08 阿里巴巴集团控股有限公司 检测网站的方法和系统
CN109067723A (zh) * 2018-07-24 2018-12-21 国家计算机网络与信息安全管理中心 钓鱼网站使用者信息的追溯方法、控制器和介质
CN109067723B (zh) * 2018-07-24 2021-03-02 国家计算机网络与信息安全管理中心 钓鱼网站使用者信息的追溯方法、控制器和介质
CN109284465A (zh) * 2018-09-04 2019-01-29 暨南大学 一种基于url的网页分类器构建方法及其分类方法
CN110247916A (zh) * 2019-06-20 2019-09-17 四川长虹电器股份有限公司 恶意域名检测方法
CN110247916B (zh) * 2019-06-20 2021-07-27 四川长虹电器股份有限公司 恶意域名检测方法
CN110516173A (zh) * 2019-08-28 2019-11-29 腾讯科技(深圳)有限公司 一种非法网站识别方法、装置、设备及介质
CN110516173B (zh) * 2019-08-28 2024-04-26 腾讯科技(深圳)有限公司 一种非法网站识别方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN102739679A (zh) 一种基于url分类的钓鱼网站检测方法
CN102790762A (zh) 基于url分类的钓鱼网站检测方法
Rao et al. Jail-Phish: An improved search engine based phishing detection system
Lakshmi et al. Efficient prediction of phishing websites using supervised learning algorithms
CN101883024B (zh) 一种跨站点伪造请求的动态检测方法
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
TWI437452B (zh) 使用查詢相關性資料的垃圾網頁分類
CN108737423B (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及系统
CN103544436B (zh) 一种钓鱼网站鉴别系统和方法
CN109274632B (zh) 一种网站的识别方法及装置
CN107341183B (zh) 一种基于暗网网站综合特征的网站分类方法
CN105718577B (zh) 一种针对新增域名自动检测网络钓鱼的方法与系统
CN104077396A (zh) 一种钓鱼网站检测方法及装置
CN102082792A (zh) 钓鱼网页检测方法及设备
CN106776567B (zh) 一种互联网大数据分析提取方法及系统
JP2010501096A (ja) ラッパー生成およびテンプレート検出の協同最適化
CN108337255B (zh) 一种基于web自动化测试和宽度学习的钓鱼网站检测方法
CN102571768B (zh) 一种钓鱼网站检测方法
CN108038173B (zh) 一种网页分类方法、系统及一种网页分类设备
CN105138921A (zh) 基于页面特征匹配的钓鱼网站目标域名识别方法
CN102622553A (zh) 检测网页安全的方法及装置
CN104536956A (zh) 一种基于微博平台的事件可视化方法及系统
CN103324745A (zh) 基于贝叶斯模型的文本垃圾识别方法和系统
CN102647408A (zh) 一种基于内容分析的判断钓鱼网站的方法
CN103927297A (zh) 基于证据理论的中文微博可信度评估方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20121017