CN103544436A - 一种钓鱼网站鉴别系统和方法 - Google Patents

一种钓鱼网站鉴别系统和方法 Download PDF

Info

Publication number
CN103544436A
CN103544436A CN201310477276.4A CN201310477276A CN103544436A CN 103544436 A CN103544436 A CN 103544436A CN 201310477276 A CN201310477276 A CN 201310477276A CN 103544436 A CN103544436 A CN 103544436A
Authority
CN
China
Prior art keywords
website
module
page
feature words
fishing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310477276.4A
Other languages
English (en)
Other versions
CN103544436B (zh
Inventor
张巍
姜青山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201310477276.4A priority Critical patent/CN103544436B/zh
Publication of CN103544436A publication Critical patent/CN103544436A/zh
Application granted granted Critical
Publication of CN103544436B publication Critical patent/CN103544436B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种钓鱼网站鉴别系统,包括页面爬取模块、特征提取模块、网页关系建模模块、决策树分类模块及鉴别模块;页面爬取模块爬取网站的页面源代码,并提取网站的中文文本及网站的内/外链接数量;特征提取模块提取网站的页面特征词、内/外链接数量之比及排名信息;网页关系建模模块根据所述页面特征词获取所述网站和黑/白名单的关系;决策树分类模块使用决策树进行训练,构建决策树分类模型;鉴别模块保存决策树分类模型,并利用决策树分类模型对未知网站进行鉴别,判断是否为钓鱼网站。可有效提高分类鉴别的准确性,且可克服基于黑名单的检测技术只能识别在黑名单中的钓鱼网站的局限性。另外提供钓鱼网站鉴别方法。

Description

一种钓鱼网站鉴别系统和方法
技术领域
本发明涉及网络安全技术领域,尤其涉及一种钓鱼网站鉴别系统和方法。
背景技术
随着互联网的迅速发展和信息化进程的深入,人们的工作、学习和生活方式与互联网的结合已变得越来越紧密,即时通信、电子邮件、电子商务、网络游戏、网上办公等与人们的日常生活息息相关。但是,紧随信息化发展而来的信息安全问题也已日渐凸出,网络犯罪层出不穷。网络钓鱼是最为严重的互联网犯罪形式之一,在近几年频繁出现。所谓“钓鱼网站”,是指不法分子利用各种手段,仿冒真实网站的地址以及页面内容,或者利用真实网站服务器程序上的漏洞,在站点的某些网页中插入危险的HTML代码,以此来骗取用户银行或信用卡账号、密码等私人资料。在巨大经济利益的诱惑下,钓鱼网站已逐步显现出较为完整的“产业链”。在这个产业链中,建设钓鱼网站轻而易举,只要申请一个域名,很快就能建一个伪装成银行网站或电子购物网站的钓鱼网站,一般二、三百元就可以做一个。与此同时,钓鱼网站具有相当强的欺骗性,以假淘宝举例介绍说,不仅用假网站骗买家,更有骗卖家的。比如,给客服发个假链接,一旦打开,卖家的支付宝账号、密码即有可能被窃。网络钓鱼的日渐猖撅,已严重影响到在线金融服务和电子商务的发展,也时刻危害公众利益。
在中国互联网络中,中文钓鱼网站的数量也逐渐频繁地增加出现,严重损害了电子商务以及金融在线服务的发展,为公共利益带来了严重的危害,打击了公众互联网用户对网络应用上的信心与支持。由于互联网的基本特性,中文钓鱼网站的来源以及带来的危害已经超越国界,逐渐成为了一个让全球互联网用户关注并担忧的问题。
目前,钓鱼网站的防御与识别方法主要包括人工举报、基于黑名单技术及基于网站的启发式识别等,其中:
(1)人工举报与识别
在反钓鱼技术大面积应用前的早期阶段,由于钓鱼网站的数量、种类比较少,反釣鱼也基本是借助人工进行识别。随着技术的更新,举报方式的反釣鱼模式逐渐变为辅助手段。但是,对于一些特殊钓鱼站点的识别,人工方式还是有其独特的作用。对于钓鱼网站URL的举报与校验,一些开源举报组织已做的非常完善,同一条记录由多个志愿者共同识别后。识别率以及准确度都可达到相当高的水平。
(2)基于黑名单的检测技术
基于黑名单的检测技术采用URL地址黑名单对比的方式来进行钓鱼网站的检测拦截,当用户每次进行互联网网页访问的时候,钓鱼检测系统就将访问的URL与黑名单数据库中的URL地址进行匹配对比,如果匹配成功之后就会向用户显示钓鱼网站的警告,同时拦截用户对该页面的访问。黑名单匹配的方法存在的一个缺陷就是:它仅仅可以检测识别已知的有害网站及其发布者,对新的钓鱼攻击威胁则无能为力,这直接导致这种传统检测拦截方法的成功率较低。
(3)基于启发式的识别技术
基于启发式的识别技术是一种利用机器学习算法对页面进行识别分类的方法,通过对大量的钓鱼网站样本进行分析处理,从中提取出最能够表现钓鱼网站页面的各种特征,然后利用统计机器学习方法,模式识别与数据挖掘等技术,对待判定的未知网站进行分类,判别其是否为钓鱼网站。由于钓鱼站点的URL与合法站点的URL具有许多明显的差异,如主机域名或者某些特定的敏感词,因此可以使用URL的域名、URL类型包含字段以及PageRank进行建模。提取站点页面的特征是也是比较常用的一种方法,这些特征包括页面的内容文字、DOM结、HTML中链接的属性等。钓鱼网站的页面中此类特征与合法站点的页面因为具有较为明显的区别,因此也可以用于钓鱼网站的分类鉴别。
然而,目前检测钓鱼网站的研究方法与技术仍存在着一些问题:1)人工举报与识别需要借助个人的经验,并且效率比较低;2)基于黑名单的检测技术只能识别在黑名单中的钓鱼网站,而对于层出不穷的新钓鱼网站则无法准确识别;3)基于启发式的识别技术误报率较高,因为需要准确提取出能够代表网站信息的特征,而现有方法还不完善。另外,当前反钓鱼研究基本都集中在对英文钓鱼网站的识别,对中文钓鱼网站检测研究较少,因此需要对中文钓鱼网站进行全面研究,提取出适合中文钓鱼网站的特征表征与特征提取方法,进而对中文钓鱼网站进行分析,采取合理的分类方法进行鉴别,提高检测的准确率。
发明内容
针对上述问题,本发明的目的是提供一种可解决上述技术问题的钓钓鱼网站鉴别系统和方法。
一种钓鱼网站鉴别系统,其包括:
页面爬取模块,用于爬取网站的页面源代码,并提取网站的中文文本及网站的内/外链接数量;
特征提取模块,其和所述页面爬取模块相连接,用于提取所述网站的页面特征词、内/外链接数量之比及排名信息;
网页关系建模模块,其和所述特征提取模块相连接,用于根据所述页面特征词获取所述网站和黑/白名单的关系;
决策树分类模块,其和所述网页关系建模模块相连接,用于将已知网站和黑/白名单的关系、已知网站的内/外链接数量之比及已知网站的排名信息作为特征向量,并使用决策树进行训练,构建决策树分类模型;及
鉴别模块,其和所述决策树训练模块及所述网页关系建模模块分别相连接,用于保存所述决策树分类模型,并利用所述决策树分类模型对未知网站和黑/白名单的关系、未知网站的内/外链接数量之比及未知网站的排名信息进行鉴别,判断所述未知网站是否为钓鱼网站。
本发明一较佳实施例中,所述网站包括所述已知网站和所述未知网站。
本发明一较佳实施例中,所述页面爬取模块使用网络爬虫技术爬取所述网站的页面的所有内容,获取网站源代码。
本发明一较佳实施例中,所述特征提取模块包括特征词提取子模块、特征词频率计算子模块、链接特征提取子模块及网站排名特征提取子模块;所述特征词提取子模块对所述页面爬取模块提取出的中文文字进行分词;所述特征词频率计算子模块根据所述特征词提取子模块获取的特征词向量,计算网页出现所述特征词向量中每一个特征词的频率;所述链接特征提取子模块从所述页面爬取模块获取的网站源代码中,计算内/外链接数量之比;所述网站排名特征提取子模块将网站的排名信息作为网页的一个特征向量。
本发明一较佳实施例中,所述网页关系建模模块根据所述特征词提取子模块提取的特征词分别与白名单和黑名单的共有词之间的关系来获取所述网站和和黑/白名单的关系。
本发明一较佳实施例中,所述决策树分类模块采用C4.5决策树算法。
本发明一较佳实施例中,所述特征提取模块和所述页面爬取模块之间、所述网页关系建模模块和所述特征提取模块之间、所述决策树分类模块和所述网页关系建模模块之间、所述鉴别模块和所述决策树训练模块之间以及所述鉴别模块和所述网页关系建模模块之间为电性连接、数据连接或通信连接。
本发明另外提供一种钓鱼网站鉴别方法,其包括如下步骤:
S11、利用页面爬取模块爬取网站的页面源代码,并提取网站的中文文本及网站的内/外链接数量;
S13、利用特征提取模块提取所述网站的页面特征词、内/外链接数量之比及排名信息;
S15、利用网页关系建模模块根据所述页面特征词获取所述网站和黑/白名单的关系;
S17、利用决策树分类模块将已知网站和黑/白名单的关系、已知网站的内/外链接数量之比及已知网站的排名信息作为特征向量,并使用决策树进行训练,构建决策树分类模型;及
S19、利用鉴别模块保存所述决策树分类模型,并利用所述决策树分类模型对未知网站和黑/白名单的关系、未知网站的内/外链接数量之比及未知网站的排名信息进行鉴别,判断所述未知网站是否为钓鱼网站。
本发明一较佳实施例中,步骤S11中,所述网站包括所述已知网站和所述未知网站。
相对于现有技术,所述钓鱼网站鉴别系统和所述钓鱼网站鉴别方法具有如下优点:其一、将已知网站和黑/白名单的关系、已知网站的内/外链接数量之比及已知网站的排名信息作为特征向量,并使用决策树进行训练,构建决策树分类模型,对未知网站和黑/白名单的关系、未知网站的内/外链接数量之比及未知网站的排名信息进行鉴别,可以有效提高分类鉴别的准确性,且可克服基于黑名单的检测技术只能识别在黑名单中的钓鱼网站的局限性。其二、对网页的文本进行分词、特征词提取后,建立与黑、白名单的关系,并将与黑、白名单的关系作为特征向量之一,进行训练,减少了训练数据的维度,可有效地提高训练效率。其三、所述钓鱼网站鉴别系统和所述钓鱼网站鉴别方法利用所述页面爬取模块提取网站的中文文本,并利用所述特征提取模块提取页面特征词,进而可以对中文钓鱼网站进行分析,且采取合理的分类方法进行鉴别,可提高中文网站的鉴别检测的准确率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举实施例,并配合附图,详细说明如下。
附图说明
图1为本发明第一实施例提供的钓鱼网站鉴别系统的组成示意图;
图2为图1所示钓鱼网站鉴别系统的工作示意图;
图3为本发明第二实施例提供的钓鱼网站鉴别方法的流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细的说明。
请参阅图1,本发明第一实施例提供一种钓鱼网站鉴别系统100,其包括页面爬取模块10、特征提取模块20、网页关系建模模块30、决策树分类模块40及鉴别模块50;所述页面爬取模块10用于爬取网站的页面源代码,并提取网站的中文文本及网站的内/外链接数量;所述特征提取模块20和所述页面爬取模块10相连接,用于提取所述网站的页面特征词、内/外链接数量之比及排名信息;所述网页关系建模模块30和所述特征提取模块20相连接,用于根据所述页面特征词获取所述网站和黑/白名单的关系;所述决策树分类模块40和所述网页关系建模模块30相连接,用于将已知网站和黑/白名单的关系、已知网站的内/外链接数量之比及已知网站的排名信息作为特征向量,并使用决策树进行训练,构建决策树分类模型;所述鉴别模块50和所述决策树训练模块40及所述网页关系建模模块30分别相连接,用于保存所述决策树分类模型,并利用所述决策树分类模型对未知网站和黑/白名单的关系、未知网站的内/外链接数量之比及未知网站的排名信息进行鉴别,判断所述未知网站是否为钓鱼网站。
可以理解的是,所述网站包括已知网站和未知网站,所述特征向量包括网站和黑/白名单的关系、网站的内/外链接数量之比及网站的排名信息,即本实施例中,所述页面爬取模块10分别针对已知网站和未知网站进行页面源代码爬取、中文文本及内/外链接数量的提取,所述特征提取模块20分别针对已知网站和未知网站进行页面特征词、内/外链接数量之比及排名信息的提取,并分别获得已知网站的特征向量和未知网站的特征向量。
本实施例中,所述页面爬取模块10使用网络爬虫技术爬取所述网站的页面的所有内容,获取网站源代码。具体地,先建立HTTP链接,爬取网站的页面源代码,并提取出中文文字与网页所有链接,包括内、外所有链接。
所述特征提取模块20包括特征词提取子模块21、特征词频率计算子模块23、链接特征提取子模块25及网站排名特征提取子模块27,本实施例中,在训练阶段使用特征词提取子模块21、特征词频率计算子模块23、链接特征提取子模块25及网站排名特征提取子模块27,在测试阶段使用特征词频率计算子模块23、链接特征提取子模块25及网站排名特征提取子模块27。
所述特征词提取子模块21对所述页面爬取模块10提取出的中文文字进行分词,本实施例中,先使用NLPIR汉语分词系统对所述中文文字进行分词,然后使用TF-IDF提取出关键词,其计算公式如下:
TF-IDF(wi)=TF(wi)*IDF(wi)=TFj(wi)*log(N/DF(wi))    (1)
其中,TF(wi)是指当前中文词在页面j中出现的频率,N表示所有训练的网页个数,DF(wi)表示网页集合中有多少网页中出现了当前词项wi。本实施例中,将词项按照TF-IDF值的大小进行排列,获取TF-IDF值较大的前40个词项,得到一个特征词向量,记为FW={w1,w2,…,wN},N=40。
所述特征词频率计算子模块23根据所述特征词提取子模块21获取的特征词向量,计算网页出现所述特征词向量中每一个特征词的频率。
所述链接特征提取子模块25从所述页面爬取模块10获取的网站源代码中,计算内/外链接数量之比,记为Nlk,本实施例中,如果Nlk小于0.2,则记为-1,如果Nlk大于等于0.2,则记为1。
所述网站排名特征提取子模块27将网站的排名信息作为网页的一个特征向量,本实施例中,使用http://alexa.chinaz.com/来查询网站的排名信息pg,并将排名信息Npg表示为{-1,1},其中,1表示能够通过http://alexa.chinaz.com/查询到网站的排名信息,-1表示不能通过http://alexa.chinaz.com/查询到网站的排名信息。可以理解的是,网站的排名信息的查询并不局限于本实施例,也可以采用其他方式来查询,只要能获取网站的排名信息即可。
所述网页关系建模模块30根据所述特征词提取子模块21提取的特征词分别与白名单和黑名单的共有词关系来获取所述网站和和黑/白名单的关系。具体地,所述网页关系建模模块30根据所述特征词提取子模块21提取的特征词,计算每一个网址wpi分别与白名单Rwp1,Rwp2,....RwpN、黑名单Fwp1,Fwp2,....FwpN的共有词个数RNCi1,RNCi2,...RNCiN,FNCi1,FNCi2,...FNCiN,并将所有RNCij>3的个数之和记为Nr,将所有FNCij>3的个数之和记为Nf,由此,即构建出每一个网址和黑/白名单之间的关系模型,亦即获取所述网站和黑/白名单的关系。
所述决策树分类模块40将网页特征记为FT(Nf,Nr,Npg,Nlk),并对白名单、黑名单及其对应的类标号,记为D,叶节点的类标号为C1(是钓鱼网站)和C2(不是钓鱼网站),本实施例中,所述决策树分类模块40采用C4.5决策树算法获得决策树结构,算法的基本原理如下:
(a)将所述网页特征FT(Nf,Nr,Npg,Nlk)作为候选属性集。
(b)创建一个节点N,计算数据分区D划分前的期望信息:
Info ( D ) = - Σ i = 1 2 p i lo g 2 ( p i ) - - - ( 2 )
其中,pi表示数据分区D中属于Ci类的概率。
(c)将Nf作为节点N进行测试输出,并将Nf是否大于5作为判定标准,本实施例中,Nf>5为“Yes”,Nf<=5为“No”,由此,属性Nf就将数据分区D划分为2个分区,记为D1(Nf>5)与D2(Nf<=5)。
计算数据分区D由Nf划分后的期望信息:
Info N f ( D ) = &Sigma; j = 1 2 | D j | | D | * Info ( D j ) - - - ( 3 )
如果Dj为空,则加一个树叶到节点N,标记D中的多数类。
(d)计算其信息增益率,计算公式如下:
Gain ( N f ) = Info ( D ) - Inf o N f ( D ) - - - ( 4 )
(e)计算信息增益率,计算公式如下:
GainRatio ( N f ) = Gain ( N f ) - &Sigma; j = 1 v | D j | | D | * log 2 ( | D j | | D | ) - - - ( 5 )
重复进行步骤(b)、(c)、(d)、(e)计算Nr,Npg,Nlk的信息增益。
(f)比较Nf,Nr,Npg,Nlk的增益率,将增益率最大的作为节点N的测试输出,并将其从候选属性集中删除。
(g)重复进行(c)、(d)、(e)、(f),直到候选属性集为空。
可以理解的是,本实施例中,所述决策树分类模块40基于已知网站和黑/白名单的关系、已知网站的内/外链接数量之比及已知网站的排名信息,进行决策树训练,并构建决策树分类模型。
所述鉴别模块50保存所述决策树分类模块40获得的决策树结构。
可以理解的是,所述特征提取模块20和所述页面爬取模块10之间、所述网页关系建模模块30和所述特征提取模块20之间、所述决策树分类模块40和所述网页关系建模模块30之间、所述鉴别模块50和所述决策树训练模块40之间以及所述鉴别模块50和所述网页关系建模模块30之间为电性连接、数据连接或通信连接(包括无线连接和有线连接)。
请参阅图2,对于待鉴别的一个未知网站,利用所述钓鱼网站鉴别系统100时,先利用所述页面爬取模块10爬取所述未知网站的页面源代码,并提取所述未知网站的中文文本及所述未知网站的内/外链接数量;其后利用所述特征提取模块20提取所述未知网站的页面特征词、内/外链接数量之比及排名信息,并获得特征向量;然后利用所述网页关系建模模块30获取所述未知网站和黑/白名单的关系,并构建关系模型;再利用所述决策树分类模型对所述未知网站和黑/白名单的关系、所述未知网站的内/外链接数量之比及所述未知网站的排名信息进行鉴别,判断所述未知网站是否为钓鱼网站,即鉴别出所述未知网站是正常网站还是钓鱼网站。
请参阅图3,本发明第二实施例提供一种钓鱼网站鉴别方法,其包括如下步骤:
S11、利用所述页面爬取模块10爬取网站的页面源代码,并提取网站的中文文本及网站的内/外链接数量。
可以理解的是,所述网站包括已知网站和未知网站,所述特征向量包括网站和黑/白名单的关系、网站的内/外链接数量之比及网站的排名信息,即本实施例中,所述页面爬取模块10分别针对已知网站和未知网站进行页面源代码爬取、中文文本及内/外链接数量的提取,所述特征提取模块20分别针对已知网站和未知网站进行页面特征词、内/外链接数量之比及排名信息的提取,并分别获得已知网站的特征向量和未知网站的特征向量。
本实施例中,所述页面爬取模块10使用网络爬虫技术爬取所述网站的页面的所有内容,获取网站源代码。具体地,先建立HTTP链接,爬取网站的页面源代码,并提取出中文文字与网页所有链接,包括内、外所有链接。
S13、利用特征提取模块20提取所述网站的页面特征词、内/外链接数量之比及排名信息,并获得特征向量。
所述特征提取模块20包括特征词提取子模块21、特征词频率计算子模块23、链接特征提取子模块25及网站排名特征提取子模块27,本实施例中,在训练阶段使用特征词提取子模块21、特征词频率计算子模块23、链接特征提取子模块25及网站排名特征提取子模块27,在测试阶段使用特征词频率计算子模块23、链接特征提取子模块25及网站排名特征提取子模块27,具体请参阅前述第一实施例,此处不再赘述。
S15、利用所述网页关系建模模块30获取所述网站和黑/白名单的关系,并构建关系模型。
本实施例中,所述网页关系建模模块30根据所述特征词提取子模块21提取的特征词分别与白名单和黑名单的共有词关系来获取所述网站和和黑/白名单的关系,具体请参阅前述第一实施例,此处不再赘述。
S17、利用所述决策树分类模块40将已知网站和黑/白名单的关系、已知网站的内/外链接数量之比及已知网站的排名信息作为特征向量,并使用决策树进行训练,构建决策树分类模型。
所述决策树分类模块40将网页特征记为FT(Nf,Nr,Npg,Nlk),并对白名单、黑名单及其对应的类标号,记为D,叶节点的类标号为C1(是钓鱼网站)和C2(不是钓鱼网站),本实施例中,所述决策树分类模块40采用C4.5决策树算法获得决策树结构,具体请参阅前述第一实施例,此处不再赘述。
S19、利用所述鉴别模块50保存所述决策树分类模型,并利用所述决策树分类模型对未知网站和黑/白名单的关系、未知网站的内/外链接数量之比及未知网站的排名信息进行鉴别,判断所述未知网站是否为钓鱼网站。
可以理解的是,所述特征提取模块20和所述页面爬取模块10之间、所述网页关系建模模块30和所述特征提取模块20之间、所述决策树分类模块40和所述网页关系建模模块30之间、所述鉴别模块50和所述决策树训练模块40之间以及所述鉴别模块50和所述网页关系建模模块30之间为电性连接、数据连接或通信连接(包括无线连接和有线连接)。
相对于现有技术,所述钓鱼网站鉴别系统100和所述钓鱼网站鉴别方法具有如下优点:其一、将已知网站和黑/白名单的关系、已知网站的内/外链接数量之比及已知网站的排名信息作为特征向量,并使用决策树进行训练,构建决策树分类模型,对未知网站和黑/白名单的关系、未知网站的内/外链接数量之比及未知网站的排名信息进行鉴别,可以有效提高分类鉴别的准确性。其二、对网页的文本进行分词、特征词提取后,建立与黑、白名单的关系模型,并将与黑、白名单的关系作为特征向量之一,进行训练,减少了训练数据的维度,可有效地提高训练效率。其三、所述钓鱼网站鉴别系统100和所述钓鱼网站鉴别方法利用所述页面爬取模块10提取网站的中文文本,并利用所述特征提取模块20提取页面特征词,进而可以对中文钓鱼网站进行分析,且采取合理的分类方法进行鉴别,可提高中文网站的鉴别检测的准确率。
以上所述,仅是本发明的实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (9)

1.一种钓鱼网站鉴别系统,其特征在于,包括:
页面爬取模块,用于爬取网站的页面源代码,并提取网站的中文文本及网站的内/外链接数量;
特征提取模块,其和所述页面爬取模块相连接,用于提取所述网站的页面特征词、内/外链接数量之比及排名信息;
网页关系建模模块,其和所述特征提取模块相连接,用于根据所述页面特征词获取所述网站和黑/白名单的关系;
决策树分类模块,其和所述网页关系建模模块相连接,用于将已知网站和黑/白名单的关系、已知网站的内/外链接数量之比及已知网站的排名信息作为特征向量,并使用决策树进行训练,构建决策树分类模型;及
鉴别模块,其和所述决策树训练模块及所述网页关系建模模块分别相连接,用于保存所述决策树分类模型,并利用所述决策树分类模型对未知网站和黑/白名单的关系、未知网站的内/外链接数量之比及未知网站的排名信息进行鉴别,判断所述未知网站是否为钓鱼网站。
2.如权利要求1所述的钓鱼网站鉴别方法,其特征在于,所述网站包括所述已知网站和所述未知网站。
3.如权利要求1所述的钓鱼网站鉴别系统,其特征在于,所述页面爬取模块使用网络爬虫技术爬取所述网站的页面的所有内容,获取网站源代码。
4.如权利要求1所述的钓鱼网站鉴别系统,其特征在于,所述特征提取模块包括特征词提取子模块、特征词频率计算子模块、链接特征提取子模块及网站排名特征提取子模块;所述特征词提取子模块对所述页面爬取模块提取出的中文文字进行分词;所述特征词频率计算子模块根据所述特征词提取子模块获取的特征词向量,计算网页出现所述特征词向量中每一个特征词的频率;所述链接特征提取子模块从所述页面爬取模块获取的网站源代码中,计算内/外链接数量之比;所述网站排名特征提取子模块将网站的排名信息作为网页的一个特征向量。
5.如权利要求4所述的钓鱼网站鉴别系统,其特征在于,所述网页关系建模模块根据所述特征词提取子模块提取的特征词分别与白名单和黑名单的共有词之间的关系来获取所述网站和和黑/白名单的关系。
6.如权利要求1所述的钓鱼网站鉴别系统,其特征在于,所述决策树分类模块采用C4.5决策树算法。
7.如权利要求1所述的钓鱼网站鉴别系统,其特征在于,所述特征提取模块和所述页面爬取模块之间、所述网页关系建模模块和所述特征提取模块之间、所述决策树分类模块和所述网页关系建模模块之间、所述鉴别模块和所述决策树训练模块之间以及所述鉴别模块和所述网页关系建模模块之间为电性连接、数据连接或通信连接。
8.一种钓鱼网站鉴别方法,其特征在于,包括如下步骤:
S11、利用页面爬取模块爬取网站的页面源代码,并提取网站的中文文本及网站的内/外链接数量;
S13、利用特征提取模块提取所述网站的页面特征词、内/外链接数量之比及排名信息;
S15、利用网页关系建模模块根据所述页面特征词获取所述网站和黑/白名单的关系;
S17、利用决策树分类模块将已知网站和黑/白名单的关系、已知网站的内/外链接数量之比及已知网站的排名信息作为特征向量,并使用决策树进行训练,构建决策树分类模型;及
S19、利用鉴别模块保存所述决策树分类模型,并利用所述决策树分类模型对未知网站和黑/白名单的关系、未知网站的内/外链接数量之比及未知网站的排名信息进行鉴别,判断所述未知网站是否为钓鱼网站。
9.如权利要求8所述的钓鱼网站鉴别方法,其特征在于,步骤S11中,所述网站包括所述已知网站和所述未知网站。
CN201310477276.4A 2013-10-12 2013-10-12 一种钓鱼网站鉴别系统和方法 Active CN103544436B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310477276.4A CN103544436B (zh) 2013-10-12 2013-10-12 一种钓鱼网站鉴别系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310477276.4A CN103544436B (zh) 2013-10-12 2013-10-12 一种钓鱼网站鉴别系统和方法

Publications (2)

Publication Number Publication Date
CN103544436A true CN103544436A (zh) 2014-01-29
CN103544436B CN103544436B (zh) 2017-04-12

Family

ID=49967876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310477276.4A Active CN103544436B (zh) 2013-10-12 2013-10-12 一种钓鱼网站鉴别系统和方法

Country Status (1)

Country Link
CN (1) CN103544436B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217160A (zh) * 2014-09-19 2014-12-17 中国科学院深圳先进技术研究院 一种中文钓鱼网站检测方法及系统
CN104239582A (zh) * 2014-10-14 2014-12-24 北京奇虎科技有限公司 基于特征向量模型识别钓鱼网页的方法及装置
CN105338001A (zh) * 2015-12-04 2016-02-17 北京奇虎科技有限公司 识别钓鱼网站的方法及装置
CN105653563A (zh) * 2014-12-02 2016-06-08 阿里巴巴集团控股有限公司 对网页抓取的控制方法、动态更新黑名单和白名单的方法及相关装置
CN105704099A (zh) * 2014-11-26 2016-06-22 国家电网公司 一种检测隐藏在网站脚本中非法链接的方法
WO2016201938A1 (zh) * 2015-06-17 2016-12-22 中国互联网络信息中心 一种多阶段钓鱼网站检测方法与系统
CN106776958A (zh) * 2016-12-05 2017-05-31 公安部第三研究所 基于关键路径的违法网站识别系统及其方法
CN107612893A (zh) * 2017-09-01 2018-01-19 北京百悟科技有限公司 短信的审核系统和方法以及构建短信审核模型方法
CN107800686A (zh) * 2017-09-25 2018-03-13 中国互联网络信息中心 一种钓鱼网站识别方法和装置
CN107948168A (zh) * 2017-11-29 2018-04-20 四川无声信息技术有限公司 网页检测方法及装置
TWI636371B (zh) * 2017-07-31 2018-09-21 中華電信股份有限公司 Associated sentiment cluster method
CN108777674A (zh) * 2018-04-24 2018-11-09 东南大学 一种基于多特征融合的钓鱼网站检测方法
CN109450853A (zh) * 2018-10-11 2019-03-08 深圳市腾讯计算机系统有限公司 恶意网站判定方法、装置、终端及服务器
CN109617864A (zh) * 2018-11-27 2019-04-12 烟台中科网络技术研究所 一种网站识别方法及网站识别系统
WO2019177880A1 (en) * 2018-03-14 2019-09-19 Chicago Mercantile Exchange Inc. Decision tree data structure based processing system
CN110472416A (zh) * 2019-08-19 2019-11-19 杭州安恒信息技术股份有限公司 一种网页恶意代码检测方法及相关装置
CN112968875A (zh) * 2021-01-29 2021-06-15 上海安恒时代信息技术有限公司 网络关系构建方法及系统
CN113315790A (zh) * 2021-07-29 2021-08-27 湖南华菱电子商务有限公司 入侵流量检测方法、电子设备及存储介质
CN114095278A (zh) * 2022-01-19 2022-02-25 南京明博互联网安全创新研究院有限公司 一种基于混合特征选择框架的钓鱼网站检测方法
CN114499932A (zh) * 2021-12-16 2022-05-13 山东星维九州安全技术有限公司 一种钓鱼邮件测试服务支撑方法、系统及终端
CN114978695A (zh) * 2022-05-23 2022-08-30 西安闻泰信息技术有限公司 非法网站识别方法、装置、电子设备及存储介质
CN115065518A (zh) * 2022-06-09 2022-09-16 中山大学 一种基于异质图特征提取的钓鱼网站检测方法及系统
CN115801466A (zh) * 2023-02-08 2023-03-14 北京升鑫网络科技有限公司 基于流量的挖矿脚本检测方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004764A (zh) * 2010-11-04 2011-04-06 中国科学院计算机网络信息中心 互联网不良信息检测方法以及系统
CN102932348A (zh) * 2012-10-30 2013-02-13 常州大学 一种钓鱼网站的实时检测方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004764A (zh) * 2010-11-04 2011-04-06 中国科学院计算机网络信息中心 互联网不良信息检测方法以及系统
CN102932348A (zh) * 2012-10-30 2013-02-13 常州大学 一种钓鱼网站的实时检测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王婷: ""基于RFE-SVM的钓鱼网页识别技术的研究"", 《万方数据库》, 25 December 2012 (2012-12-25), pages 3 - 50 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217160B (zh) * 2014-09-19 2017-11-28 中国科学院深圳先进技术研究院 一种中文钓鱼网站检测方法及系统
CN104217160A (zh) * 2014-09-19 2014-12-17 中国科学院深圳先进技术研究院 一种中文钓鱼网站检测方法及系统
CN104239582A (zh) * 2014-10-14 2014-12-24 北京奇虎科技有限公司 基于特征向量模型识别钓鱼网页的方法及装置
CN105704099A (zh) * 2014-11-26 2016-06-22 国家电网公司 一种检测隐藏在网站脚本中非法链接的方法
CN105704099B (zh) * 2014-11-26 2019-03-22 国家电网公司 一种检测隐藏在网站脚本中非法链接的方法
CN105653563A (zh) * 2014-12-02 2016-06-08 阿里巴巴集团控股有限公司 对网页抓取的控制方法、动态更新黑名单和白名单的方法及相关装置
CN105653563B (zh) * 2014-12-02 2019-08-02 阿里巴巴集团控股有限公司 对网页抓取的控制方法、动态更新黑名单和白名单的方法及相关装置
WO2016201938A1 (zh) * 2015-06-17 2016-12-22 中国互联网络信息中心 一种多阶段钓鱼网站检测方法与系统
CN105338001A (zh) * 2015-12-04 2016-02-17 北京奇虎科技有限公司 识别钓鱼网站的方法及装置
CN106776958A (zh) * 2016-12-05 2017-05-31 公安部第三研究所 基于关键路径的违法网站识别系统及其方法
TWI636371B (zh) * 2017-07-31 2018-09-21 中華電信股份有限公司 Associated sentiment cluster method
CN107612893A (zh) * 2017-09-01 2018-01-19 北京百悟科技有限公司 短信的审核系统和方法以及构建短信审核模型方法
CN107612893B (zh) * 2017-09-01 2020-06-02 北京百悟科技有限公司 短信的审核系统和方法以及构建短信审核模型方法
CN107800686A (zh) * 2017-09-25 2018-03-13 中国互联网络信息中心 一种钓鱼网站识别方法和装置
CN107800686B (zh) * 2017-09-25 2020-06-12 中国互联网络信息中心 一种钓鱼网站识别方法和装置
CN107948168A (zh) * 2017-11-29 2018-04-20 四川无声信息技术有限公司 网页检测方法及装置
US11983771B2 (en) 2018-03-14 2024-05-14 Chicago Mercantile Exchange Inc. Decision tree data structure based processing system
WO2019177880A1 (en) * 2018-03-14 2019-09-19 Chicago Mercantile Exchange Inc. Decision tree data structure based processing system
US11030691B2 (en) 2018-03-14 2021-06-08 Chicago Mercantile Exchange Inc. Decision tree data structure based processing system
CN108777674A (zh) * 2018-04-24 2018-11-09 东南大学 一种基于多特征融合的钓鱼网站检测方法
CN108777674B (zh) * 2018-04-24 2021-02-26 东南大学 一种基于多特征融合的钓鱼网站检测方法
CN109450853A (zh) * 2018-10-11 2019-03-08 深圳市腾讯计算机系统有限公司 恶意网站判定方法、装置、终端及服务器
CN109617864B (zh) * 2018-11-27 2021-04-16 烟台中科网络技术研究所 一种网站识别方法及网站识别系统
CN109617864A (zh) * 2018-11-27 2019-04-12 烟台中科网络技术研究所 一种网站识别方法及网站识别系统
CN110472416A (zh) * 2019-08-19 2019-11-19 杭州安恒信息技术股份有限公司 一种网页恶意代码检测方法及相关装置
CN112968875A (zh) * 2021-01-29 2021-06-15 上海安恒时代信息技术有限公司 网络关系构建方法及系统
CN113315790A (zh) * 2021-07-29 2021-08-27 湖南华菱电子商务有限公司 入侵流量检测方法、电子设备及存储介质
CN114499932A (zh) * 2021-12-16 2022-05-13 山东星维九州安全技术有限公司 一种钓鱼邮件测试服务支撑方法、系统及终端
CN114095278A (zh) * 2022-01-19 2022-02-25 南京明博互联网安全创新研究院有限公司 一种基于混合特征选择框架的钓鱼网站检测方法
CN114095278B (zh) * 2022-01-19 2022-05-24 南京明博互联网安全创新研究院有限公司 一种基于混合特征选择框架的钓鱼网站检测方法
CN114978695A (zh) * 2022-05-23 2022-08-30 西安闻泰信息技术有限公司 非法网站识别方法、装置、电子设备及存储介质
CN115065518A (zh) * 2022-06-09 2022-09-16 中山大学 一种基于异质图特征提取的钓鱼网站检测方法及系统
CN115065518B (zh) * 2022-06-09 2023-06-06 中山大学 一种基于异质图特征提取的钓鱼网站检测方法及系统
CN115801466A (zh) * 2023-02-08 2023-03-14 北京升鑫网络科技有限公司 基于流量的挖矿脚本检测方法和装置
CN115801466B (zh) * 2023-02-08 2023-05-02 北京升鑫网络科技有限公司 基于流量的挖矿脚本检测方法和装置

Also Published As

Publication number Publication date
CN103544436B (zh) 2017-04-12

Similar Documents

Publication Publication Date Title
CN103544436A (zh) 一种钓鱼网站鉴别系统和方法
US9990356B2 (en) Device and method for analyzing reputation for objects by data mining
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
CN108777674B (zh) 一种基于多特征融合的钓鱼网站检测方法
CN104899508B (zh) 一种多阶段钓鱼网站检测方法与系统
CN102663025B (zh) 一种违规在线商品检测方法
CN107437038B (zh) 一种网页篡改的检测方法及装置
CN110781308B (zh) 一种基于大数据构建知识图谱的反欺诈系统
CN104077396A (zh) 一种钓鱼网站检测方法及装置
CN104156490A (zh) 基于文字识别检测可疑钓鱼网页的方法及装置
CN111259219B (zh) 恶意网页识别模型建立方法、识别方法及系统
CN107886240B (zh) 一种基于规则的跨境电商商品质量风险识别方法
CN112464666B (zh) 一种基于暗网数据的未知网络威胁自动发现方法
CN104158828B (zh) 基于云端内容规则库识别可疑钓鱼网页的方法及系统
CN102170447A (zh) 一种基于最近邻及相似度测量检测钓鱼网页的方法
Liu et al. An efficient multistage phishing website detection model based on the CASE feature framework: Aiming at the real web environment
CN114692593B (zh) 一种网络信息安全监测预警方法
CN102446255A (zh) 一种检测页面篡改的方法及装置
Der et al. Knock it off: profiling the online storefronts of counterfeit merchandise
CN114915468B (zh) 基于知识图谱的网络犯罪智能分析检测方法
CN110427628A (zh) 基于神经网络算法的web资产分类检测方法及装置
Weng et al. Cats: cross-platform e-commerce fraud detection
CN111460803B (zh) 基于工业物联网设备Web管理页面的设备识别方法
CN104036190A (zh) 一种检测页面篡改的方法及装置
CN106446124A (zh) 一种基于网络关系图的网站分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant