CN102932348A - 一种钓鱼网站的实时检测方法及系统 - Google Patents

一种钓鱼网站的实时检测方法及系统 Download PDF

Info

Publication number
CN102932348A
CN102932348A CN2012104243446A CN201210424344A CN102932348A CN 102932348 A CN102932348 A CN 102932348A CN 2012104243446 A CN2012104243446 A CN 2012104243446A CN 201210424344 A CN201210424344 A CN 201210424344A CN 102932348 A CN102932348 A CN 102932348A
Authority
CN
China
Prior art keywords
website
url
module
fishing
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012104243446A
Other languages
English (en)
Inventor
倪彤光
顾晓清
丁辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou University
Original Assignee
Changzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou University filed Critical Changzhou University
Priority to CN2012104243446A priority Critical patent/CN102932348A/zh
Publication of CN102932348A publication Critical patent/CN102932348A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种钓鱼网站的实时检测方法及系统。所述方法包括如下步骤:获取当前网站的URL地址;利用白名单和黑名单对网站的URL地址进行检测;对于不在白/黑名单内的网站URL提取其URL特征,并进行预处理;采用贝叶斯方法对预处理后的URL特征进行检测,判断其是否为钓鱼网站,若不能明确确定,则将其定为可疑网站;对可疑网站进行web页面内容的提取,并进行预处理;采用最小二乘支持向量机方法对预处理后的页面特征进行检测,判断其是否为钓鱼网站。所述系统由系统服务器端和系统客户端组成,系统服务器端包括白名单和黑名单模块等,系统客户端包括URL指纹列表等。本发明方法和系统相对于现有技术来说提高了检测率和准确率。

Description

一种钓鱼网站的实时检测方法及系统
技术领域
本发明是属于互联网技术和网络安全技术领域,尤其涉及一种钓鱼网站的实时检测方法及系统。
背景技术
近年来,互联网在中国得到了蓬勃的发展,但越来越严重的安全问题日益引起了人们的注意,其中,钓鱼网站是网络欺诈的代表。钓鱼网站是一种在线身份伪造的欺诈方式,它往往伪装成正规网站,使用社会工程学和技术伪装等手段骗取用户的信任,窃取用户的个人身份数据和金融账号等敏感信息。钓鱼网站的检测已成为网络安全领域最热门的话题之一。
目前,相关的研究有:Justin MK、Basnet SM等提出采用对统一资源定位符(UniformResource Locator,简称URL)在线识别的检测方法,通过已知特征等先验知识进行学习,对URL进行分类检测,但是这类方法的误判率和漏判率较高。PanYing等提出通过对Web页面的异常特征分析识别来进行钓鱼网站的检测,但其速度和效率都不高。PhishTank通过用户举报和人工审核的方式,建立了可信度高的钓鱼网站的URL的黑名单,但无法检测不在黑名单内的钓鱼网站,且更新黑名单需要人工核对,有一定的滞后性。一些互联网厂商推出了一系列浏览器辅助工具,例如:eBay提供了相应的浏览器插件;Google推出了可以鉴别欺诈性网页的通用插件,但是这些辅助插件对各种钓鱼网站的检测效果也不尽人意。
发明内容
基于现有技术中的问题,本发明的目的是提供一种钓鱼网站的实时检测方法及系统。首先对用户提交的网站URL进行白/黑名单的检测,若该URL在白/黑名单内,可快速识别该网站是否为钓鱼网站。对不在白/黑名单内的网站URL,则提取该URL的特征,并采用贝叶斯方法对其进行检测,检测该网站是否为钓鱼网站,对贝叶斯方法无法确定的可疑网站,再提取该网站的页面特征,采用最小二乘支持向量机方法对其进行检测,确定该网站是否为钓鱼网站。
为了达到上述目的,本发明提供了一种钓鱼网站的实时检测方法,其包括如下步骤:
步骤1获取当前网站的URL地址;
步骤2利用白名单和黑名单对网站的URL地址进行检测;
步骤3对于不在白/黑名单内的网站URL提取其URL特征,并进行预处理;
步骤4采用贝叶斯方法对预处理后的URL特征进行检测,判断其是否为钓鱼网站,若不能明确确定,则将其定为可疑网站;
步骤5对可疑网站进行web页面内容的提取,并进行预处理;
步骤6采用最小二乘支持向量机方法对预处理后的页面特征进行检测,判断其是否为钓鱼网站。
所述步骤2中的白名单里保存的是审核过的可信网站的URL信息;黑名单里保存的是审核过的钓鱼网站的URL信息。网站的URL地址首先进入白名单比对,若属于白名单则直接放行;否则,进入黑名单比对,若属于黑名单,则判断当前网站是钓鱼网站;若不属于黑名单,则进入步骤3。
所述步骤3中的URL特征包括:URL中是否含有IP地址;URL中是否含有“@”等异常字符;URL中二级域名的检测;URL端口;URL的长度。预处理是指对提取的特征属性进行离散化处理。
所述步骤4中的贝叶斯方法的计算公式是: p ( Ci | X ) = p ( Ci ) × p ( X | Ci ) p ( X ) ( 1 ≤ i ≤ 2 ) , X是网站URL的特征属性,设C1为可信网站,C2是钓鱼网站。当
Figure BDA00002328777600022
时,该网站被判定为可信网站;当时,该网站被判定为钓鱼网站;当
Figure BDA00002328777600024
时,需进一步明确该网站属于哪个类,暂被判定为可疑网站,则进入步骤5。
所述步骤5中的提取网站页面的特征,包括:标题标签中提取的关键字;Meta标签中提取的关键字;页面中包含的链接URL地址;图片的链接URL地址;页面所有可见字符串集合;Script脚本中的字符串。预处理是指对提取的特征值进行归一化处理。
所述步骤6中的最小二乘支持向量机的决策模型形式如下:
f ( x ) = ∑ i = 1 n α i K ( x , x i ) + b
其中,K(x,xi)为RBF核函数,形式为
Figure BDA00002328777600026
xi,x为步骤5中得到的可疑网站页面样本的特征向量。α和b可由求解下列方程组得出:
0 1 . . . 1 1 K ( x 1 , x 1 ) + 1 / γ . . . K ( x 1 , x n ) . . . . . . . . . . . . 1 K ( x n , x 1 ) . . . K ( x n , x n ) + 1 / γ b α 1 . . . α n = 0 y 1 . . . y n
其中,xi和yi(i=1,…,n)分别表示已知类标签的网站页面样本的特征向量和分类标签。如果最终分类决策函数f(x)=1,判定该网站是可信网站;f(x)=-1,判定该网站是钓鱼网站。
为了达到上述目的,本发明提供了一种钓鱼网站的实时检测系统,用于帮助用户验证网站的真伪,有效识别钓鱼网站,包括:安装在服务器端的系统服务器端和安装在用户端的系统客户端,其中,
所述系统服务器端包括:
白名单和黑名单模块,所述白名单模块用来保存可信网站的URL;所述黑名单模块用来保存钓鱼网站的URL;
页面特征模块,用于保存所述白名单和黑名单模块中可信网站和钓鱼网站的web页面特征;
数据预处理模块,用于提取所述白名单和黑名单模块中的网站URL特征,进行离散处理,得到特征属性,形成可信URL矩阵和钓鱼URL矩阵。此外,还提取所述页面特征模块中的web页面特征,进行归一化处理,得到特征向量,形成可信页面数据集和钓鱼页面数据集;
特征提取模块,用于根据待检测网站的URL地址进行URL特征提取和web页面特征提取;
贝叶斯模块,用于根据所述数据预处理模块中的可信URL矩阵和钓鱼URL矩阵训练得到贝叶斯分类器,并根据所述特征提取模块中得到的待检测网站的URL特征进行钓鱼网站的判断。
支持向量机模块,用于根据所述数据预处理模块中的可信页面数据集和钓鱼页面数据集训练得到最小二乘支持向量机分类器,并根据所述特征提取模块中得到的待检测网站的web页面特征进行钓鱼网站的判断。
通信模块1,用于接收所述系统客户端传输来的URL地址和向所述系统客户端传输网站性质的判定结果。
所述系统客户端包括:
URL指纹列表,用于保存加密后的所述系统服务器上白/黑名单中的数据,URL指纹可以通过使用MD5或SHA1哈希算法获得;
URL提取模块,用于实时采集用户在待检测网站的URL地址信息;
通信模块2,用于向所述系统服务器端传输URL地址和接收所述系统客户端传输来的当前网站性质的判定结果;
报警模块,用于根据所述URL指纹列表和所述通信模块2的返回结果对当前访问网站的性质进行判断,若是可信网站,则允许用户继续访问当前访问网站。若是钓鱼网站,则向用户报警,让用户选择是否继续访问,如果用户选择是,则允许用户继续访问;如果用户选择否,则关闭当前访问的网站。
作为优化方案,所述特征提取模块包括:
URL处理模块,用于根据所述URL提取模块提取的URL地址对网站的URL特征进行提取;
页面处理模块,用于根据URL提取模块提取的网站URL地址进行网站的web页面特征的提取。
作为又一优化方案,所述贝叶斯模块包括:
贝叶斯训练模块,根据所述数据预处理模块中的可信URL矩阵和钓鱼URL矩阵进行训练,得到可信URL和钓鱼URL的先验概率并得到贝叶斯分类器;
贝叶斯分类模块,根据所述贝叶斯训练模块中得到的贝叶斯分类器,从所述URL处理模块接收URL特征属性,计算其分别在可信URL和钓鱼URL下的概率,判断其是否为钓鱼网站,若能明确判断,则把结果保存在所述数据预处理模块中并把判断结果发送至所述通信模块1;若无法明确确定,则将其定为可疑网站,并通过所述页面处理模块提取该网站的web页面特征。
作为再一优化方案,所述支持向量机模块包括:
支持向量机训练模块,根据所述数据预处理模块中的可信页面数据集和钓鱼页面数据集进行训练,以确定最小二乘支持向量机的决策函数的形式,最后通过训练得到一个用于对web页面特征判断的最小二乘支持向量机分类器;
支持向量机分类模块,根据所述支持向量机训练模块中得到的最小二乘支持向量机分类器模型,从所述页面处理模块接收待检测网站的web页面特征,判断其是否是钓鱼网站,然后将结果保存在所述数据预处理模块中,并传递给所述通信模块1。
进一步的,若待检测网站的URL地址在所述URL指纹列表的白名单中时,所述报警模块就直接放行,允许用户继续访问;若当前访问网站的URL地址在所述黑名单中时,所述报警模块就阻断当前的访问并进行报警,让用户选择是否继续访问,如果用户选择是,则允许用户继续访问;如果用户选择否,则关闭当前访问的网站;若当前访问网站的URL地址不属于白名单和黑名单,则采集待检测网站的URL地址,经由所述通信模块2提交至所述系统服务器端。
进一步的,所述白名单和黑名单模块中最初可根据PhishTank数据库创建,PhishTank数据库可以从因特网上下载得到;其后可根据所述数据预处理模块保存的对网站判断的结果实时自动更新。白名单不存在失效期;黑名单存在失效期,一段时间内该网站不再是钓鱼网站的话可自动从黑名单中去除,操作员亦可根据实际情况维护黑名单。
进一步的,所述贝叶斯训练模块和所述支持向量机训练模块需根据所述数据预处理模块的保存的对网站判断的结果定期重新训练,可提高贝叶斯分类器和最小二乘支持向量机分类器的准确性。
进一步的,所述URL指纹列表需要定期向所述系统服务器端提交更新要求,所述服务器端则向所述系统客户端返回更新后的URL指纹列表。
与现有技术,本发明的有益效果是:1)采用多种特征表达方式,既包括网站URL特征,又包括Web页面特征,最大限度地表现钓鱼网站的特征;2)网站的URL特征提取相对简单,利用贝叶斯方法速度快的特点对网站的URL特征进行检测,满足了快速分类的要求,提高了检测的效率;3)利用SVM方法准确率较高的特点进一步对网站的页面特征进行检测,满足了精度高的要求,提高了检测的准确率。4)贝叶斯方法和SVM方法相结合,使得本发明方法具有较好的自适应性和较高的智能化水平。
附图说明
图1是本发明一种钓鱼网站的实时检测方法实施例一的流程图;
图2是本发明一种钓鱼网站的实时检测方法实施例二的流程图;
图3是本发明一种钓鱼网站的实时检测方法实施例三的流程图;
图4是本发明一种钓鱼网站的实时检测系统的结构示意图;
图5是本发明钓鱼网站的实时检测系统中特征处理模块结构示意图;
图6是本发明钓鱼网站的实时检测系统中贝叶斯模块结构示意图;
图7是本发明钓鱼网站的实时检测系统中最小二乘支持向量机模块结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
图1是本发明一种钓鱼网站的实时检测方法实施例一的流程图。具体地,如图1所示,本实施例检测的方法可包括如下步骤:
步骤101获取当前网站的URL地址;
步骤102利用白名单和黑名单对网站的URL地址进行检测。
白名单里保存的是审核过的可信网站的URL信息;黑名单里保存的是审核过的钓鱼网站的URL信息。当前网站的URL地址首先与白名单进行比对,若属于白名单则直接放行;否则,与黑名单进行比对,若属于黑名单,就阻断当前的访问,并提示让用户选择是否继续访问,如果用户选择是,则允许用户继续访问;如果用户选择否,则关闭当前访问的网站。
图2是本发明一种钓鱼网站的实时检测方法实施例二的流程图。在上述图1所示实施例技术方案的基础上,本实施例中通过贝叶斯方法对网站的URL特征进行检测,对待检测网站是否为钓鱼网站进行判断,具体地,如图2所示,本实施例包括以下步骤:
步骤201获取当前网站的URL地址;
步骤202利用白名单和黑名单对网站的URL地址进行检测,若该URL不在白名单和黑名单内,则进入步骤203;
步骤203提取该网站的URL特征,并进行预处理;
若经过白名单和黑名单的比对后,网站URL地址既不属于白名单也不属于黑名单,则提取网站的URL特征。提取网站的URL特征有:1)URL中是否含有IP地址。2)URL中是否含有“@”等异常字符。3)URL中n(n≥2)级域名的检测。部分钓鱼网站通过多级域名的使用来迷惑用户。4)URL端口。有些钓鱼网站使用了非80端口。因此,从URL中所获取的网站端口号也是作为识别钓鱼网站的一个重要依据。5)URL的长度。一般可信网站的URL的长度小于23,这里的长度是指URL地址中包含字符的个数。预处理是指对提取的特征属性离散化处理,对于特征3和5连续型属性,按照划分等宽区间的方法进行离散化,利用公式(max(Ai)-min(Ai))/m,其中max(Ai)表示连续属性Ai的最大值,min(Ai)表示连续属性Ai的最小值,m表示类别属性取值的个数。
步骤204采用贝叶斯方法对待检查网站的URL特征进行检测,判断其是否为钓鱼网站。
使用贝叶斯方法计算网站URL的特征值X属于C1和C2(设C1为可信网站,C2是钓鱼网站)的概率p(C1|X)和p(C2|X)。p(C1|X)的计算公式是:
Figure BDA00002328777600062
其中,p(X)对于所有类都为常数,p(C1)是C1的训练样本数在所有训练样本数中所占的比例,p(Xi|C1)是在属性Ai上具有值Xi的训练样本数在所有C1训练样本数中所占的比例。p(C2|X)的计算方法与p(C1|X)相同。当
Figure BDA00002328777600063
时,该网站被判定为可信网站;当
Figure BDA00002328777600064
时,该网站被判定为钓鱼网站;当
Figure BDA00002328777600065
时,不能明确该网站属于哪个类,需进一步进行检测,暂时被判定为可疑网站。其中,α和β的值根据实际环境预先设定,α和β的值可以相同也可以不同。
可以看出,本发明实施例中,通过提取不在根据白名单和黑名单内的URL地址的特征,使用贝叶斯方法进行检测,并可将检测结果通知相关处理系统或相关人员,具有较高的检测效率和检测结果,同时贝叶斯方法还具有较快的响应时间,可实时地检测出钓鱼网站。
图3是本发明一种钓鱼网站的实时检测方法实施例三的流程图。在上述图2所示实施例技术方案的基础上,本实施例中可通过最小二乘支持向量机方法对网站的web页面的特征进行处理,对待检测网站是否为钓鱼网站进行判断,具体地,如图3所示,本实施例包括以下步骤:
步骤301获取当前网站的URL地址;
步骤302利用白名单和黑名单对网站的URL地址进行检测,若该URL不在白名单和黑名单内,则进入步骤303;
步骤303提取网站的URL特征,并进行预处理;
步骤304采用贝叶斯方法对待检查网站的URL进行检测,若无法确定,则将其定为可疑网站,进入步骤305;
步骤305提取该网站的web页面特征,并进行预处理;
若当前网站被贝叶斯方法划分成可疑网站,则进行页面特征的提取,提取的页面的特征有:1)标题标签中提取的关键字。2)Meta标签中提取的关键字。3)页面中包含的链接URL地址。4)图片的链接URL地址。5)页面所有可见字符串集合。6)Script脚本中的字符串。预处理是指对提取的web页面特征进行归一化处理,使用的公式是X′=(X-min(X))/(max(X)-min(X)),其中X为归一化前的特征值,X'表示归一化后的特征值,min(X)表示数据变量的最小值,max(X)表示数据变量的最大值。
步骤306采用最小二乘支持向量机方法对预处理后的页面特征进行检测,判断其是否为钓鱼网站。
使用的最小二乘支持向量机的决策模型形式如下:
Figure BDA00002328777600071
其中,K(x,xi)为RBF核函数,形式为
Figure BDA00002328777600072
xi,x为步骤5中得到的可疑网站页面样本的特征向量。α和b由求解下式方程组得出:
0 1 . . . 1 1 K ( x 1 , x 1 ) + 1 / γ . . . K ( x 1 , x n ) . . . . . . . . . . . . 1 K ( x n , x 1 ) . . . K ( x n , x n ) + 1 / γ b α 1 . . . α n = 0 y 1 . . . y n
其中,xi和yi(i=1,…,n)分别表示已知类标签的网站页面样本的特征向量和分类标签。如果最终分类决策函数f(x)=1,判定该网站是可信网站;如果f(x)=-1,判定该网站是钓鱼网站。
可以看出,本发明实施例中,通过提取可疑网站的页面特征,并使用最小二乘支持向量机方法进行检测,可精确地检测出其是否为钓鱼网站,并可将检测结果通知相关处理系统或相关人员。最小二乘支持向量机方法将钓鱼网站的检测转化成二元分类问题,具有较高的准确性和快捷性。
本发明还提供了一种钓鱼网站的实时检测系统。图4是本发明一种钓鱼网站的实时检测系统的结构示意图,具体地,如图4所示,本发明系统包括:安装在服务器端的系统服务器端和安装在用户端的系统客户端。
其中,系统服务器端包括白名单和黑名单模块、页面特征模块、数据预处理模块、特征提取模块、贝叶斯模块、支持向量机模块和通信模块1。
白名单和黑名单模块的白名单模块用来保存已审核的可信网站的URL,黑名单模块用来保存已审核的钓鱼网站的URL。白名单和黑名单最初可根据PhishTank数据库创建,PhishTank数据库可从因特网上下载得到,并根据数据预处理模块的保存结果添加审核过的网站的URL。白名单和黑名单模块实行自动实时更新的策略,白名单不存在失效期;黑名单存在失效期,一段时间内该网站不再是钓鱼网站的话可自动从黑名单中去除,操作员亦可根据实际情况维护黑名单。
页面特征模块,用于保存白名单和黑名单模块中可信网站和钓鱼网站的web页面特征;
数据预处理模块,用于提取白名单和黑名单模块中的网站URL特征,进行离散化处理,得到特征属性,形成可信URL矩阵和钓鱼URL矩阵。此外,还提取页面特征模块中的web页面特征,进行归一化处理,得到特征向量,形成可信页面数据集和钓鱼页面数据集;
特征处理模块,用于根据待检测网站的URL地址进行URL特征提取和web页面特征提取;
贝叶斯模块,用于根据数据预处理模块中的可信URL矩阵和钓鱼URL矩阵训练得到贝叶斯分类器,并对特征处理模块中得到的待检测网站的URL特征进行钓鱼网站的判断;
支持向量机模块,用于根据数据预处理模块中的可信页面数据集和钓鱼页面数据集训练得到最小二乘支持向量机分类器,并对特征处理模块中得到的待检测网站的web页面特征进行钓鱼网站的判断;
通信模块1,用于接收系统客户端传输来的URL地址和向系统客户端发送待检测网站的性质的判定结果。
如图5所示,特征提取模块包括:
URL处理模块,用于根据URL提取模块提取的URL地址对网站的URL特征进行提取;
页面处理模块,用于根据URL提取模块提取的网站URL地址进行网站的web页面特征的提取。
如图6所示,贝叶斯模块包括:
贝叶斯训练模块,根据数据预处理模块中的可信URL矩阵和钓鱼URL矩阵进行训练,得到可信URL和钓鱼URL的先验概率并得到贝叶斯分类器;并根据数据预处理模块的保存的对网站判断的结果定期重新训练,可提高贝叶斯分类器的准确性;
贝叶斯分类模块,用于根据URL特征进行贝叶斯方法的实现,根据得到的贝叶斯分类器,计算其分别在可信URL和钓鱼URL下的概率并判断网站的性质。若判定为可信网站或钓鱼网站,并将检测结果传递给通信模块1,同时把URL特征和检测结果保存至数据预处理模块;若无法明确确定是否为钓鱼网站,则判定为可疑网站,此时页面处理模块提取该网站的web页面特征,并提交至支持向量机分类模块。
如图7所示,支持向量机模块包括:
支持向量机训练模块,根据数据预处理模块中的可信页面数据集和钓鱼页面数据集进行训练,为训练集中的每条数据都给出其类别信息,以确定最小二乘支持向量机的决策函数的形式,最后通过训练得到一个用于对页面特征判断的最小二乘支持向量机分类器;并根据数据预处理模块的保存的对网站判断的结果定期重新训练,可提高最小二乘支持向量机分类器的准确性;
支持向量机分类模块,根据最小二乘支持向量机分类器确定的模型,对待检测网站的web页面特征进行决策判断,判断其是否是钓鱼网站,并把web页面特征和检测结果保存在数据预处理模块中,同时将检测结果传递给通信模块1。
其中,系统客户端包括URL指纹列表、URL提取模块、通信模块2和报警模块。
URL指纹列表,用于保存加密后的所述系统服务器上黑/白名单中的数据。URL指纹可以使用MD5或SHA1哈希算法获得,URL指纹列表需要定期向系统服务器端提交更新要求;若待检测网站的URL地址在白名单中,就直接放行,允许用户继续访问该网站;若待检测网站的URL地址在黑名单中,报警模块就阻断当前的访问并进行报警,让用户选择是否继续访问,如果用户选择是,则允许用户继续访问;如果用户选择否,则关闭当前访问的网站;若待检测网站的URL地址不属于白名单和黑名单,则需采集该网站的URL地址。
URL提取模块,用于实时采集用户在待检测网站的URL地址信息。
通信模块2,用于向系统客户端传递待检测网站的URL地址;接收从系统客户端传输来的待检测网站的性质的检测结果,并把检测结果返回至报警模块。
报警模块,用于根据URL指纹列表和通信模块2的返回结果对待检测网站的性质,分别采取不同的策略:若是可信网站,则允许用户继续访问当前访问网站,若是钓鱼网站,则向用户报警,让用户选择是否继续访问,如果用户选择是,则允许用户继续访问;如果用户选择否,则关闭当前访问的网站。
本发明实施例中系统的系统客户端或系统服务器端的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器、磁盘或光盘等。
以上所述的仅是本发明的优选实施方式,本发明不限于以上实施例。可以理解,本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化,均应认为包含在本发明的保护范围之内。

Claims (6)

1.一种钓鱼网站的实时检测方法,其包括如下步骤:
步骤1获取当前网站的URL地址;
步骤2利用白名单和黑名单对网站的URL地址进行检测;
步骤3对于不在白/黑名单内的网站URL提取其URL特征,并进行预处理;
步骤4采用贝叶斯方法对预处理后的URL特征进行检测,判断其是否为钓鱼网站,若不能明确确定,则将其定为可疑网站;
步骤5对可疑网站进行web页面内容的提取,并进行预处理;
步骤6采用最小二乘支持向量机方法对预处理后的页面特征进行检测,判断其是否为钓鱼网站。
2.根据权利要求1所述的钓鱼网站的实时检测方法,其特征在于:所述步骤2中的白名单里保存的是审核过的可信网站的URL信息;黑名单里保存的是审核过的钓鱼网站的URL信息;网站的URL地址首先进入白名单比对,若属于白名单则直接放行;否则,进入黑名单比对,若属于黑名单,则判断当前网站是钓鱼网站;若不属于黑名单,则进入步骤3;
所述步骤3中的URL特征包括:URL中是否含有IP地址;URL中是否含有异常字符;URL中二级域名的检测;URL端口;URL的长度,预处理是指对提取的特征属性进行离散化处理;
所述步骤4中的贝叶斯方法的计算公式是: p ( Ci | X ) = p ( Ci ) × p ( X | Ci ) p ( X ) ( 1 ≤ i ≤ 2 ) , X是网站URL的特征属性,设C1为可信网站,C2是钓鱼网站;当时,该网站被判定为可信网站;当
Figure FDA00002328777500013
时,该网站被判定为钓鱼网站;当
Figure FDA00002328777500014
时,需进一步明确该网站属于哪个类,暂被判定为可疑网站,则进入步骤5;
所述步骤5中的提取网站页面的特征,包括:标题标签中提取的关键字;Meta标签中提取的关键字;页面中包含的链接URL地址;图片的链接URL地址;页面所有可见字符串集合;Script脚本中的字符串;预处理是指对提取的特征值进行归一化处理;
所述步骤6中的最小二乘支持向量机的决策模型形式如下:
f ( x ) = ∑ i = 1 n α i K ( x , x i ) + b
其中,K(x,xi)为RBF核函数,形式为
Figure FDA00002328777500016
xi,x为步骤5中得到的可疑网站页面样本的特征向量;α和b可由求解下列方程组得出:
0 1 . . . 1 1 K ( x 1 , x 1 ) + 1 / γ . . . K ( x 1 , x n ) . . . . . . . . . . . . 1 K ( x n , x 1 ) . . . K ( x n , x n ) + 1 / γ b α 1 . . . α n = 0 y 1 . . . y n
其中,xi和yi(i=1,…,n)分别表示已知类标签的网站页面样本的特征向量和分类标签;如果最终分类决策函数f(x)=1,判定该网站是可信网站;f(x)=-1,判定该网站是钓鱼网站。
3.一种钓鱼网站的实时检测系统,包括:安装在服务器端的系统服务器端和安装在用户端的系统客户端,其中,
所述系统服务器端包括:
白名单和黑名单模块,所述白名单模块用来保存可信网站的URL;所述黑名单模块用来保存钓鱼网站的URL;
页面特征模块,用于保存所述白名单和黑名单模块中可信网站和钓鱼网站的web页面特征;
数据预处理模块,用于提取所述白名单和黑名单模块中的网站URL特征,进行离散处理,得到特征属性,形成可信URL矩阵和钓鱼URL矩阵;此外,还提取所述页面特征模块中的web页面特征,进行归一化处理,得到特征向量,形成可信页面数据集和钓鱼页面数据集;
特征提取模块,用于根据待检测网站的URL地址进行URL特征提取和web页面特征提取;
贝叶斯模块,用于根据所述数据预处理模块中的可信URL矩阵和钓鱼URL矩阵训练得到贝叶斯分类器,并根据所述特征提取模块中得到的待检测网站的URL特征进行钓鱼网站的判断;
支持向量机模块,用于根据所述数据预处理模块中的可信页面数据集和钓鱼页面数据集训练得到最小二乘支持向量机分类器,并根据所述特征提取模块中得到的待检测网站的web页面特征进行钓鱼网站的判断;
通信模块1,用于接收所述系统客户端传输来的URL地址和向所述系统客户端传输网站性质的判定结果;
所述系统客户端包括:
URL指纹列表,用于保存加密后的所述系统服务器上白/黑名单中的数据;
URL提取模块,用于实时采集用户在待检测网站的URL地址信息;
通信模块2,用于向所述系统服务器端传输URL地址和接收所述系统客户端传输来的当前网站性质的判定结果;
报警模块,用于根据所述URL指纹列表和所述通信模块2的返回结果对当前访问网站的性质进行判断,若是可信网站,则允许用户继续访问当前访问网站;若是钓鱼网站,则向用户报警,让用户选择是否继续访问,如果用户选择是,则允许用户继续访问;如果用户选择否,则关闭当前访问的网站。
4.根据权利要求3所述的实时检测系统,其特征在于,所述特征提取模块包括:
URL处理模块,用于根据所述URL提取模块提取的URL地址对网站的URL特征进行提取;
页面处理模块,用于根据URL提取模块提取的网站URL地址进行网站的web页面特征的提取。
5.根据权利要求3所述的实时检测系统,其特征在于,所述贝叶斯模块包括:
贝叶斯训练模块,根据所述数据预处理模块中的可信URL矩阵和钓鱼URL矩阵进行训练,得到可信URL和钓鱼URL的先验概率并得到贝叶斯分类器;
贝叶斯分类模块,根据所述贝叶斯训练模块中得到的贝叶斯分类器,从所述URL处理模块接收URL特征属性,计算其分别在可信URL和钓鱼URL下的概率,判断其是否为钓鱼网站,若能明确判断,则把结果保存在所述数据预处理模块中并把判断结果发送至所述通信模块1;若无法明确确定,则将其定为可疑网站,并通过所述页面处理模块提取该网站的web页面特征。
6.根据权利要求3所述的实时检测系统,其特征在于,所述支持向量机模块包括:
支持向量机训练模块,根据所述数据预处理模块中的可信页面数据集和钓鱼页面数据集进行训练,以确定最小二乘支持向量机的决策函数的形式,最后通过训练得到一个用于对web页面特征判断的最小二乘支持向量机分类器;
支持向量机分类模块,根据所述支持向量机训练模块中得到的最小二乘支持向量机分类器模型,从所述页面处理模块接收待检测网站的web页面特征,判断其是否是钓鱼网站,然后将结果保存在所述数据预处理模块中,并传递给所述通信模块1。
CN2012104243446A 2012-10-30 2012-10-30 一种钓鱼网站的实时检测方法及系统 Pending CN102932348A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012104243446A CN102932348A (zh) 2012-10-30 2012-10-30 一种钓鱼网站的实时检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012104243446A CN102932348A (zh) 2012-10-30 2012-10-30 一种钓鱼网站的实时检测方法及系统

Publications (1)

Publication Number Publication Date
CN102932348A true CN102932348A (zh) 2013-02-13

Family

ID=47647050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012104243446A Pending CN102932348A (zh) 2012-10-30 2012-10-30 一种钓鱼网站的实时检测方法及系统

Country Status (1)

Country Link
CN (1) CN102932348A (zh)

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336786A (zh) * 2013-06-05 2013-10-02 腾讯科技(深圳)有限公司 一种数据处理的方法及装置
CN103442016A (zh) * 2013-09-05 2013-12-11 星云融创(北京)信息技术有限公司 基于网站指纹推送白名单的方法及系统
CN103544436A (zh) * 2013-10-12 2014-01-29 深圳先进技术研究院 一种钓鱼网站鉴别系统和方法
CN103577755A (zh) * 2013-11-01 2014-02-12 浙江工业大学 一种基于支持向量机的恶意脚本静态检测方法
CN103902476A (zh) * 2013-12-27 2014-07-02 哈尔滨安天科技股份有限公司 一种基于非授信的网页后门检测方法及系统
CN104052722A (zh) * 2013-03-15 2014-09-17 腾讯科技(深圳)有限公司 网址安全性检测的方法、装置及系统
CN104077396A (zh) * 2014-07-01 2014-10-01 清华大学深圳研究生院 一种钓鱼网站检测方法及装置
CN104219200A (zh) * 2013-05-30 2014-12-17 杭州迪普科技有限公司 一种防范dns缓存攻击的装置和方法
CN104394158A (zh) * 2014-12-01 2015-03-04 浪潮电子信息产业股份有限公司 一种信息安全过滤方法
WO2015039553A1 (en) * 2013-09-23 2015-03-26 Tencent Technology (Shenzhen) Company Limited Method and system for identifying fraudulent websites priority claim and related application
WO2015058616A1 (zh) * 2013-10-23 2015-04-30 腾讯科技(深圳)有限公司 恶意网站的识别方法和装置
WO2015066860A1 (zh) * 2013-11-06 2015-05-14 华为终端有限公司 页面操作处理方法、装置及终端
WO2015096528A1 (zh) * 2013-12-26 2015-07-02 北京奇虎科技有限公司 网络购物环境安全性检测方法及装置
WO2016034048A1 (zh) * 2014-09-03 2016-03-10 飞天诚信科技股份有限公司 一种实现网络防钓鱼的方法
CN105787373A (zh) * 2016-05-17 2016-07-20 武汉大学 一种移动办公系统中Android终端数据防泄漏方法
CN105871919A (zh) * 2016-06-12 2016-08-17 北京六间房科技有限公司 一种网络应用防火墙系统及其实现方法
CN106850500A (zh) * 2015-12-03 2017-06-13 中国移动通信集团公司 钓鱼网站处理方法及装置
CN106888220A (zh) * 2017-04-12 2017-06-23 恒安嘉新(北京)科技股份公司 一种钓鱼网站检测方法及设备
CN107818132A (zh) * 2017-09-21 2018-03-20 中国科学院信息工程研究所 一种基于机器学习的网页代理发现方法
CN107852412A (zh) * 2015-08-05 2018-03-27 迈克菲有限责任公司 用于网络钓鱼和品牌保护的系统和方法
CN107862180A (zh) * 2017-10-11 2018-03-30 北京金山安全管理系统技术有限公司 软件禁用处理方法和装置
CN107872452A (zh) * 2017-10-25 2018-04-03 东软集团股份有限公司 一种恶意网站的识别方法、装置、存储介质及程序产品
CN108023868A (zh) * 2016-10-31 2018-05-11 腾讯科技(深圳)有限公司 恶意资源地址检测方法和装置
CN108156165A (zh) * 2017-12-28 2018-06-12 北京奇虎科技有限公司 一种误报检测的方法以及系统
CN108200068A (zh) * 2018-01-08 2018-06-22 平安科技(深圳)有限公司 端口监控方法、装置、计算机设备及存储介质
CN108683666A (zh) * 2018-05-16 2018-10-19 新华三信息安全技术有限公司 一种网页识别方法及装置
CN108734011A (zh) * 2017-04-17 2018-11-02 中国移动通信有限公司研究院 软件链接检测方法及装置
CN109299346A (zh) * 2018-10-31 2019-02-01 长春理工大学 一种无效地址网页的识别方法及系统
CN109347786A (zh) * 2018-08-14 2019-02-15 国家计算机网络与信息安全管理中心 钓鱼网站检测方法
CN109510815A (zh) * 2018-10-19 2019-03-22 杭州安恒信息技术股份有限公司 一种基于有监督学习的多级钓鱼网站检测方法及检测系统
CN109672678A (zh) * 2018-12-24 2019-04-23 亚信科技(中国)有限公司 一种钓鱼网站识别方法及装置
US10313352B2 (en) 2016-10-26 2019-06-04 International Business Machines Corporation Phishing detection with machine learning
CN109840413A (zh) * 2017-11-28 2019-06-04 中国移动通信集团浙江有限公司 一种钓鱼网站检测方法及装置
CN110247916A (zh) * 2019-06-20 2019-09-17 四川长虹电器股份有限公司 恶意域名检测方法
CN113099441A (zh) * 2021-03-29 2021-07-09 Oppo广东移动通信有限公司 网址管理方法、网址管理平台、电子设备及介质
CN113163234A (zh) * 2021-04-02 2021-07-23 中国科学院信息工程研究所 一种基于第三方服务的盗版视频网站检测方法及系统
CN113852474A (zh) * 2021-09-23 2021-12-28 京东方科技集团股份有限公司 任务处理方法及网关、计算机可读存储介质、电子设备
US20220247782A1 (en) * 2018-08-22 2022-08-04 NuRD LLC Phishing website detection by checking form differences followed by false credentials submission

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102170447A (zh) * 2011-04-29 2011-08-31 南京邮电大学 一种基于最近邻及相似度测量检测钓鱼网页的方法
CN102739679A (zh) * 2012-06-29 2012-10-17 东南大学 一种基于url分类的钓鱼网站检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102170447A (zh) * 2011-04-29 2011-08-31 南京邮电大学 一种基于最近邻及相似度测量检测钓鱼网页的方法
CN102739679A (zh) * 2012-06-29 2012-10-17 东南大学 一种基于url分类的钓鱼网站检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张兢 等: ""基于朴素贝叶斯和支持向量机的短信智能分析系统设计"", 《重庆理工大学学报(自然科学)》, vol. 24, no. 1, 31 October 2010 (2010-10-31) *
樊中华 等: ""基于最小二乘支持向量机的网页主题语义分类的研究"", 《计算机应用与软件》, vol. 26, no. 12, 31 December 2009 (2009-12-31) *

Cited By (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104052722A (zh) * 2013-03-15 2014-09-17 腾讯科技(深圳)有限公司 网址安全性检测的方法、装置及系统
CN104219200B (zh) * 2013-05-30 2017-10-17 杭州迪普科技股份有限公司 一种防范dns缓存攻击的装置和方法
CN104219200A (zh) * 2013-05-30 2014-12-17 杭州迪普科技有限公司 一种防范dns缓存攻击的装置和方法
CN103336786A (zh) * 2013-06-05 2013-10-02 腾讯科技(深圳)有限公司 一种数据处理的方法及装置
CN103336786B (zh) * 2013-06-05 2017-05-24 腾讯科技(深圳)有限公司 一种数据处理的方法及装置
CN103442016A (zh) * 2013-09-05 2013-12-11 星云融创(北京)信息技术有限公司 基于网站指纹推送白名单的方法及系统
CN103442016B (zh) * 2013-09-05 2016-08-24 星云融创(北京)科技有限公司 基于网站指纹推送白名单的方法及系统
WO2015039553A1 (en) * 2013-09-23 2015-03-26 Tencent Technology (Shenzhen) Company Limited Method and system for identifying fraudulent websites priority claim and related application
CN103544436B (zh) * 2013-10-12 2017-04-12 深圳先进技术研究院 一种钓鱼网站鉴别系统和方法
CN103544436A (zh) * 2013-10-12 2014-01-29 深圳先进技术研究院 一种钓鱼网站鉴别系统和方法
WO2015058616A1 (zh) * 2013-10-23 2015-04-30 腾讯科技(深圳)有限公司 恶意网站的识别方法和装置
CN103577755A (zh) * 2013-11-01 2014-02-12 浙江工业大学 一种基于支持向量机的恶意脚本静态检测方法
CN105122760B (zh) * 2013-11-06 2019-04-26 华为终端(东莞)有限公司 页面操作处理方法、装置及终端
WO2015066860A1 (zh) * 2013-11-06 2015-05-14 华为终端有限公司 页面操作处理方法、装置及终端
CN105122760A (zh) * 2013-11-06 2015-12-02 华为终端有限公司 页面操作处理方法、装置及终端
WO2015096528A1 (zh) * 2013-12-26 2015-07-02 北京奇虎科技有限公司 网络购物环境安全性检测方法及装置
CN103902476B (zh) * 2013-12-27 2017-03-29 哈尔滨安天科技股份有限公司 一种基于非授信的网页后门检测方法及系统
CN103902476A (zh) * 2013-12-27 2014-07-02 哈尔滨安天科技股份有限公司 一种基于非授信的网页后门检测方法及系统
CN104077396A (zh) * 2014-07-01 2014-10-01 清华大学深圳研究生院 一种钓鱼网站检测方法及装置
WO2016034048A1 (zh) * 2014-09-03 2016-03-10 飞天诚信科技股份有限公司 一种实现网络防钓鱼的方法
CN104394158A (zh) * 2014-12-01 2015-03-04 浪潮电子信息产业股份有限公司 一种信息安全过滤方法
US10778704B2 (en) 2015-08-05 2020-09-15 Mcafee, Llc Systems and methods for phishing and brand protection
CN107852412A (zh) * 2015-08-05 2018-03-27 迈克菲有限责任公司 用于网络钓鱼和品牌保护的系统和方法
CN106850500A (zh) * 2015-12-03 2017-06-13 中国移动通信集团公司 钓鱼网站处理方法及装置
CN105787373A (zh) * 2016-05-17 2016-07-20 武汉大学 一种移动办公系统中Android终端数据防泄漏方法
CN105787373B (zh) * 2016-05-17 2018-08-21 武汉大学 一种移动办公系统中Android终端数据防泄漏方法
CN105871919A (zh) * 2016-06-12 2016-08-17 北京六间房科技有限公司 一种网络应用防火墙系统及其实现方法
US10313352B2 (en) 2016-10-26 2019-06-04 International Business Machines Corporation Phishing detection with machine learning
CN108023868A (zh) * 2016-10-31 2018-05-11 腾讯科技(深圳)有限公司 恶意资源地址检测方法和装置
CN108023868B (zh) * 2016-10-31 2021-02-02 腾讯科技(深圳)有限公司 恶意资源地址检测方法和装置
CN106888220A (zh) * 2017-04-12 2017-06-23 恒安嘉新(北京)科技股份公司 一种钓鱼网站检测方法及设备
CN108734011A (zh) * 2017-04-17 2018-11-02 中国移动通信有限公司研究院 软件链接检测方法及装置
CN107818132A (zh) * 2017-09-21 2018-03-20 中国科学院信息工程研究所 一种基于机器学习的网页代理发现方法
CN107862180A (zh) * 2017-10-11 2018-03-30 北京金山安全管理系统技术有限公司 软件禁用处理方法和装置
CN107872452A (zh) * 2017-10-25 2018-04-03 东软集团股份有限公司 一种恶意网站的识别方法、装置、存储介质及程序产品
CN109840413B (zh) * 2017-11-28 2020-12-22 中国移动通信集团浙江有限公司 一种钓鱼网站检测方法及装置
CN109840413A (zh) * 2017-11-28 2019-06-04 中国移动通信集团浙江有限公司 一种钓鱼网站检测方法及装置
CN108156165A (zh) * 2017-12-28 2018-06-12 北京奇虎科技有限公司 一种误报检测的方法以及系统
CN108200068B (zh) * 2018-01-08 2020-07-14 平安科技(深圳)有限公司 端口监控方法、装置、计算机设备及存储介质
CN108200068A (zh) * 2018-01-08 2018-06-22 平安科技(深圳)有限公司 端口监控方法、装置、计算机设备及存储介质
CN108683666B (zh) * 2018-05-16 2021-04-16 新华三信息安全技术有限公司 一种网页识别方法及装置
CN108683666A (zh) * 2018-05-16 2018-10-19 新华三信息安全技术有限公司 一种网页识别方法及装置
CN109347786A (zh) * 2018-08-14 2019-02-15 国家计算机网络与信息安全管理中心 钓鱼网站检测方法
US20220247782A1 (en) * 2018-08-22 2022-08-04 NuRD LLC Phishing website detection by checking form differences followed by false credentials submission
CN109510815A (zh) * 2018-10-19 2019-03-22 杭州安恒信息技术股份有限公司 一种基于有监督学习的多级钓鱼网站检测方法及检测系统
CN109510815B (zh) * 2018-10-19 2022-01-25 杭州安恒信息技术股份有限公司 一种基于有监督学习的多级钓鱼网站检测方法及检测系统
CN109299346B (zh) * 2018-10-31 2020-12-08 长春理工大学 一种无效地址网页的识别方法及系统
CN109299346A (zh) * 2018-10-31 2019-02-01 长春理工大学 一种无效地址网页的识别方法及系统
CN109672678A (zh) * 2018-12-24 2019-04-23 亚信科技(中国)有限公司 一种钓鱼网站识别方法及装置
CN110247916A (zh) * 2019-06-20 2019-09-17 四川长虹电器股份有限公司 恶意域名检测方法
CN110247916B (zh) * 2019-06-20 2021-07-27 四川长虹电器股份有限公司 恶意域名检测方法
CN113099441A (zh) * 2021-03-29 2021-07-09 Oppo广东移动通信有限公司 网址管理方法、网址管理平台、电子设备及介质
CN113163234A (zh) * 2021-04-02 2021-07-23 中国科学院信息工程研究所 一种基于第三方服务的盗版视频网站检测方法及系统
CN113163234B (zh) * 2021-04-02 2022-10-14 中国科学院信息工程研究所 一种基于第三方服务的盗版视频网站检测方法及系统
CN113852474A (zh) * 2021-09-23 2021-12-28 京东方科技集团股份有限公司 任务处理方法及网关、计算机可读存储介质、电子设备
CN113852474B (zh) * 2021-09-23 2024-04-05 京东方科技集团股份有限公司 任务处理方法及网关、计算机可读存储介质、电子设备

Similar Documents

Publication Publication Date Title
CN102932348A (zh) 一种钓鱼网站的实时检测方法及系统
CN110808968B (zh) 网络攻击检测方法、装置、电子设备和可读存储介质
CN106790256B (zh) 用于危险主机监测的主动机器学习系统
CN103530367B (zh) 一种钓鱼网站鉴别系统和方法
CN105718577B (zh) 一种针对新增域名自动检测网络钓鱼的方法与系统
TW201926106A (zh) 統一資源定位符(url)攻擊檢測方法、裝置以及電子設備
CN104217160A (zh) 一种中文钓鱼网站检测方法及系统
CN109922065B (zh) 恶意网站快速识别方法
CN111259219B (zh) 恶意网页识别模型建立方法、识别方法及系统
US9563770B2 (en) Spammer group extraction apparatus and method
CN104077396A (zh) 一种钓鱼网站检测方法及装置
CN103577755A (zh) 一种基于支持向量机的恶意脚本静态检测方法
CN108023868B (zh) 恶意资源地址检测方法和装置
CN110830489B (zh) 基于内容抽象表示的对抗式欺诈网站检测方法及系统
CN110784462B (zh) 基于混合方法的三层钓鱼网站检测系统
Upendran et al. Optimization based classification technique for intrusion detection system
CN117081858B (zh) 一种基于多决策树入侵行为检测方法、系统、设备及介质
CN111614616A (zh) 一种xss攻击自动检测方法
CN110855716B (zh) 一种面向仿冒域名的自适应安全威胁分析方法及系统
Gong et al. Model uncertainty based annotation error fixing for web attack detection
CN116015703A (zh) 模型训练方法、攻击检测方法及相关装置
Mythreya et al. Prediction and prevention of malicious URL using ML and LR techniques for network security: machine learning
Korkmaz et al. A hybrid phishing detection system using deep learning-based URL and content analysis
Shahin et al. Implementation of a novel fully convolutional network approach to detect and classify cyber-attacks on IoT devices in smart manufacturing systems
Paturi et al. Detection of phishing attacks using visual similarity model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130213