CN103577449B - 钓鱼网站特性自学习挖掘方法及系统 - Google Patents

钓鱼网站特性自学习挖掘方法及系统 Download PDF

Info

Publication number
CN103577449B
CN103577449B CN201210269274.1A CN201210269274A CN103577449B CN 103577449 B CN103577449 B CN 103577449B CN 201210269274 A CN201210269274 A CN 201210269274A CN 103577449 B CN103577449 B CN 103577449B
Authority
CN
China
Prior art keywords
website
probability
word
data base
security
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210269274.1A
Other languages
English (en)
Other versions
CN103577449A (zh
Inventor
彭仁诚
潘建波
徐鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Baoqu Technology Co Ltd
Original Assignee
Beijing Kingsoft Internet Security Software Co Ltd
Shell Internet Beijing Security Technology Co Ltd
Zhuhai Juntian Electronic Technology Co Ltd
Beijing Kingsoft Internet Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Internet Security Software Co Ltd, Shell Internet Beijing Security Technology Co Ltd, Zhuhai Juntian Electronic Technology Co Ltd, Beijing Kingsoft Internet Science and Technology Co Ltd filed Critical Beijing Kingsoft Internet Security Software Co Ltd
Priority to CN201210269274.1A priority Critical patent/CN103577449B/zh
Publication of CN103577449A publication Critical patent/CN103577449A/zh
Application granted granted Critical
Publication of CN103577449B publication Critical patent/CN103577449B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于计算机防御技术领域,具体公开了一种钓鱼网站特性自学习挖掘方法及系统。该方法以下步骤:根据已有的钓鱼网站数据库和安全网站数据库中存储的URL,获取各个网站的页面内容;将每个网站的网页内容拆分为多个单词;根据公式计算出各个单词在钓鱼网站数据库和安全网站数据库中出现的概率;若第一单词在钓鱼网站数据库中出现的概率大于预设的第一概率且在安全网站数据库中出现的概率小于预设的第二概率,则将该单词添加进一黑词数据库中。该系统包括与方法对应的网页内容获取模块、网页内容拆分模块、概率计算模块、以及黑词数据添加模块。通过本发明,可以更佳准确找出钓鱼网站的用词特征,进一步提高钓鱼网站的检测准确率,保障了用户的使用安全。

Description

钓鱼网站特性自学习挖掘方法及系统
技术领域
本发明属于计算机防御技术领域,具体涉及一种钓鱼网站特性自学习挖掘方法及系统。
背景技术
钓鱼网站是一种网络欺诈行为,指不法分子利用各种手段,仿冒真实网站的URL地址以及页面内容,或者利用真实网站服务器程序上的漏洞在站点的某些网页中插入危险的HTML代码,以此来骗取用户银行或信用卡账号、密码等私人资料或者让消费者直接以支付的方式将钱汇入骗子的银行账户中,严重地影响了在线金融服务、电子商务的发展,危害公众利益,影响公众应用互联网的信心。
为了预防钓鱼网站的危害,现有技术建立了钓鱼网站数据库和安全网站数据库,用于判断网站的安全性质,所述的钓鱼网站数据库中存储有已经确认的钓鱼网站的网址URL,所述的安全网站数据库中存储有已经确认的安全网站的网址URL。
上述防范方法其核心在于钓鱼网站数据库和安全网站数据库的及时更新,其关键在于钓鱼网站的判断和收集,现有的判断方法主要还通过人为判断和特征过滤的方式,特征过滤法主要关键是建立钓鱼网站的特征数据库,现有的钓鱼网站特征数据库的建立通常是通过数学建模的方式,其方式复杂而且其钓鱼网站检出率不一定高。
发明内容
为了解决上述问题,本发明的目的在于提供一种钓鱼网站特性自学习挖掘方法及系统,以更佳准确找出钓鱼网站的用词特征。
为了实现上述发明目的,本发明采用的技术方案如下:
一种钓鱼网站特性自学习挖掘方法,包括以下步骤:
根据已有的钓鱼网站数据库和安全网站数据库中存储的URL,获取各个网站的页面内容;
将每个网站的网页内容拆分为多个单词;
根据以下公式计算出各个单词在钓鱼网站数据库和安全网站数据库中出现的概率:
P1=X/M、P2=Y/N,
其中,P1为单词在钓鱼网站数据库中出现的概率,
其中,P2为单词在安全网站数据库中出现的概率,
其中,X为包含有该单词的钓鱼网站数目,
其中,M为钓鱼网站数据库中包含的钓鱼网站数目,
其中,Y为包含有该单词的安全网站数目,
其中,N为安全网站数据库中包含的安全网站数目;
若第一单词在钓鱼网站数据库中出现的概率大于预设的第一概率且在安全网站数据库中出现的概率小于预设的第二概率,则将该单词添加进一黑词数据库中。
进一步的,所述预设的第一概率为80%,所述预设的第二概率为10%。
一种钓鱼网站特性自学习挖掘系统,包括:
网页内容获取模块,用于根据已有的钓鱼网站数据库和安全网站数据库中存储的URL,获取各个网站的页面内容;
网页内容拆分模块,用于将每个网站的网页内容拆分为多个单词;
概率计算模块,用于根据以下公式计算出各个单词在钓鱼网站数据库和安全网站数据库中出现的概率:P1=X/M、P2=Y/N,
其中,P1为单词在钓鱼网站数据库中出现的概率,
其中,P2为单词在安全网站数据库中出现的概率,
其中,X为包含有该单词的钓鱼网站数目,
其中,M为钓鱼网站数据库中包含的钓鱼网站数目,
其中,Y为包含有该单词的安全网站数目,
其中,N为安全网站数据库中包含的安全网站数目;
黑词数据添加模块,若第一单词在钓鱼网站数据库中出现的概率大于预设的概率且在安全网站数据库中出现的概率小于预设的概率,则将该单词添加进一黑词数据库中。
进一步的,所述预设的第一概率为80%,所述预设的第二概率为10%。
URL,英语Uniform/Universal Resource Locator的缩写,翻译为统一资源定位符,也被称为网页地址,是因特网上标准的资源的地址(Address)。
本发明根据已有的钓鱼网站数据库和安全网站数据库,获取各个单词在钓鱼网站数据库和安全网站数据库中出现的概率,然后根据该单词在网站中出现的概率来判定该词是否为黑词,所谓的黑词即是钓鱼网站通常会出现的词语,也即是钓鱼网站的特征之一。
由于本发明最后得到的黑词数据库,是在现有钓鱼网站数据库和安全网站数据库基础上学习发掘出来的,此特征将能够更准确判断一个网站是否为钓鱼网站,进一步提高钓鱼网站的检测准确率,保障了用户的使用安全。
附图说明
此附图说明所提供的图片用来辅助对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的不当限定,在附图中:
图1是本发明方法对应的流程图;
图2是本发明系统对应的框图。
具体实施方式
如图1所示,本实施例公开了一种钓鱼网站特性自学习挖掘方法,包括以下步骤:
Step1:根据已有的钓鱼网站数据库和安全网站数据库中存储的URL,获取各个网站的页面内容;所谓的钓鱼网站数据库,是其中存储有已经确认的钓鱼网站的网址URL的数据库;所述的安全网站数据库,是其中存储有已经确认的安全网站的网址URL的数据库;URL就是网址,通过网址获取网页内容的常规方法很多,比如通过浏览器在互联网上下载网页内容;
Step2:将每个网站的网页内容拆分为多个单词,具体可以将网页内容保存为文本文档的格式,然后根据已有的汉语数据库和汉语规则将其进行拆分;
Step3:根据以下公式计算出各个单词在钓鱼网站数据库和安全网站数据库中出现的概率:
P1=X/M、P2=Y/N,
其中,P1为单词在钓鱼网站数据库中出现的概率,
其中,P2为单词在安全网站数据库中出现的概率,
其中,X为包含有该单词的钓鱼网站数目,
其中,M为钓鱼网站数据库中包含的钓鱼网站数目,
其中,Y为包含有该单词的安全网站数目,
其中,N为安全网站数据库中包含的安全网站数目;
Step4:若第一单词在钓鱼网站数据库中出现的概率大于预设的第一概率且在安全网站数据库中出现的概率小于预设的第二概率,则将该单词添加进一黑词数据库中;所述预设的第一概率为80%,所述预设的第二概率为10%。
按照上述方法,如果一个词在钓鱼网站数据库中出现的概率远大于在安全网站数据库中出现的概率,说明该词语很可能经常被钓鱼网站使用,那么该词语可以作为判断钓鱼网站的特征之一,将其添加到黑词数据库中,以供判断调用。
如图2所示,本实施例还公开了一种钓鱼网站特性自学习挖掘系统,包括:
网页内容获取模块1,用于根据已有的钓鱼网站数据库和安全网站数据库中存储的URL,获取各个网站的页面内容;
网页内容拆分模块2,用于将每个网站的网页内容拆分为多个单词;
概率计算模块3,用于根据以下公式计算出各个单词在钓鱼网站数据库和安全网站数据库中出现的概率:P1=X/M、P2=Y/N,
其中,P1为单词在钓鱼网站数据库中出现的概率,
其中,P2为单词在安全网站数据库中出现的概率,
其中,X为包含有该单词的钓鱼网站数目,
其中,M为钓鱼网站数据库中包含的钓鱼网站数目,
其中,Y为包含有该单词的安全网站数目,
其中,N为安全网站数据库中包含的安全网站数目;
黑词数据添加模块4,若第一单词在钓鱼网站数据库中出现的概率大于预设的概率且在安全网站数据库中出现的概率小于预设的概率,则将该单词添加进一黑词数据库中;所述预设的第一概率为80%,所述预设的第二概率为10%。
需要说明的是,上述第一概率和第二概率的具体数字是通过一个优选数值,并不代表对本发明的限定。
通过上述方法或者系统,从已有钓鱼网站数据库和安全数据库中学习和挖掘出了钓鱼网站的重要特征。
以上详细描述了本发明的较佳具体实施例,应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明构思在现有技术基础上通过逻辑分析、推理或者根据有限的实验可以得到的技术方案,均应该在由本权利要求书所确定的保护范围之中。

Claims (4)

1.一种钓鱼网站特性自学习挖掘方法,其特征在于包括以下步骤:
根据已有的钓鱼网站数据库和安全网站数据库中存储的URL,获取各个网站的页面内容;
将每个网站的网页内容拆分为多个单词;
根据以下公式计算出各个单词在钓鱼网站数据库和安全网站数据库中出现的概率:
P1=X/M、P2=Y/N,
其中,P1为单词在钓鱼网站数据库中出现的概率,
其中,P2为单词在安全网站数据库中出现的概率,
其中,X为包含有该单词的钓鱼网站数目,
其中,M为钓鱼网站数据库中包含的钓鱼网站数目,
其中,Y为包含有该单词的安全网站数目,
其中,N为安全网站数据库中包含的安全网站数目;
若第一单词在钓鱼网站数据库中出现的概率大于预设的第一概率且在安全网站数据库中出现的概率小于预设的第二概率,则将该单词添加进一黑词数据库中。
2.根据权利要求1所述的方法,其特征在于:
所述预设的第一概率为80%,所述预设的第二概率为10%。
3.一种钓鱼网站特性自学习挖掘系统,其特征在于包括:
网页内容获取模块,用于根据已有的钓鱼网站数据库和安全网站数据库中存储的URL,获取各个网站的页面内容;
网页内容拆分模块,用于将每个网站的网页内容拆分为多个单词;
概率计算模块,用于根据以下公式计算出各个单词在钓鱼网站数据库和安全网站数据库中出现的概率:P1=X/M、P2=Y/N,
其中,P1为单词在钓鱼网站数据库中出现的概率,
其中,P2为单词在安全网站数据库中出现的概率,
其中,X为包含有该单词的钓鱼网站数目,
其中,M为钓鱼网站数据库中包含的钓鱼网站数目,
其中,Y为包含有该单词的安全网站数目,
其中,N为安全网站数据库中包含的安全网站数目;
黑词数据添加模块,若第一单词在钓鱼网站数据库中出现的概率大于预设的第一概率且在安全网站数据库中出现的概率小于预设的第二概率,则将该单词添加进一黑词数据库中。
4.根据权利要求3所述的系统,其特征在于:
所述预设的第一概率为80%,所述预设的第二概率为10%。
CN201210269274.1A 2012-07-30 2012-07-30 钓鱼网站特性自学习挖掘方法及系统 Active CN103577449B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210269274.1A CN103577449B (zh) 2012-07-30 2012-07-30 钓鱼网站特性自学习挖掘方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210269274.1A CN103577449B (zh) 2012-07-30 2012-07-30 钓鱼网站特性自学习挖掘方法及系统

Publications (2)

Publication Number Publication Date
CN103577449A CN103577449A (zh) 2014-02-12
CN103577449B true CN103577449B (zh) 2017-05-10

Family

ID=50049253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210269274.1A Active CN103577449B (zh) 2012-07-30 2012-07-30 钓鱼网站特性自学习挖掘方法及系统

Country Status (1)

Country Link
CN (1) CN103577449B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845232B (zh) * 2016-12-30 2019-10-18 北京瑞星网安技术股份有限公司 恶意代码库建立方法和系统
CN108540490A (zh) * 2018-04-26 2018-09-14 四川长虹电器股份有限公司 一种钓鱼网站的检测和域名备案存储方法
CN113098874B (zh) * 2021-04-02 2022-04-26 安徽大学 一种基于url字符串随机率特征提取的钓鱼网站检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101147138A (zh) * 2005-02-18 2008-03-19 Duaxes株式会社 通信控制装置及通信控制系统
CN101826105A (zh) * 2010-04-02 2010-09-08 南京邮电大学 基于匈牙利匹配算法的钓鱼网页检测方法
CN102591965A (zh) * 2011-12-30 2012-07-18 奇智软件(北京)有限公司 一种黑链检测的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080172738A1 (en) * 2007-01-11 2008-07-17 Cary Lee Bates Method for Detecting and Remediating Misleading Hyperlinks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101147138A (zh) * 2005-02-18 2008-03-19 Duaxes株式会社 通信控制装置及通信控制系统
CN101826105A (zh) * 2010-04-02 2010-09-08 南京邮电大学 基于匈牙利匹配算法的钓鱼网页检测方法
CN102591965A (zh) * 2011-12-30 2012-07-18 奇智软件(北京)有限公司 一种黑链检测的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于异常特征的钓鱼网站URL检测技术;黄华军 等;《中国科技论文在线》;20120131(第01期);第23-25、67页 *

Also Published As

Publication number Publication date
CN103577449A (zh) 2014-02-12

Similar Documents

Publication Publication Date Title
CN102769632A (zh) 钓鱼网站分级检测和提示的方法及系统
RU2607229C2 (ru) Системы и способы динамического агрегирования показателей для обнаружения сетевого мошенничества
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
US9531751B2 (en) System and method for identifying phishing website
CN108021692B (zh) 一种监控网页的方法、服务器及计算机可读存储介质
CN104954372A (zh) 一种钓鱼网站的取证与验证方法及系统
CN106789939A (zh) 一种钓鱼网站检测方法和装置
CN104079559B (zh) 一种网址安全性检测方法、装置及服务器
CN103491543A (zh) 通过无线终端检测恶意网址的方法、无线终端
CN102999723B (zh) 主动防御xss攻击的数据防御组件生成方法及其装置
CN103685289B (zh) 一种检测钓鱼网站的方法及装置
CN113364753B (zh) 反爬虫方法、装置、电子设备及计算机可读存储介质
CN104158828B (zh) 基于云端内容规则库识别可疑钓鱼网页的方法及系统
CN103856442A (zh) 一种黑链检测方法、装置和系统
CN104753730A (zh) 一种漏洞检测的方法及装置
CN108111526A (zh) 一种基于异常whois信息的非法网站挖掘方法
CN105337776B (zh) 一种生成网站指纹的方法、装置及电子设备
CN103577449B (zh) 钓鱼网站特性自学习挖掘方法及系统
CN108270754B (zh) 一种钓鱼网站的检测方法及装置
CN109858735A (zh) 用户风险评分评定方法、装置、计算机设备及存储介质
CN110532784A (zh) 一种暗链检测方法、装置、设备及计算机可读存储介质
CN107784107A (zh) 基于逃逸行为分析的暗链检测方法及装置
CN102902686A (zh) 一种网页检测的方法及系统
CN105306462A (zh) 网页链接检测方法及装置
CN116319089B (zh) 一种动态弱密码检测方法、装置、计算机设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 519070, six level 601F, 10 main building, science and technology road, Tangjia Bay Town, Zhuhai, Guangdong.

Co-patentee after: BEIJING KINGSOFT INTERNET SECURITY SOFTWARE Co.,Ltd.

Patentee after: ZHUHAI JUNTIAN ELECTRONIC TECHNOLOGY Co.,Ltd.

Co-patentee after: Beijing Cheetah Mobile Technology Co.,Ltd.

Co-patentee after: Beijing Cheetah Network Technology Co.,Ltd.

Address before: 519015 8 Lanshan lane, Jida Jingshan Hill Road, Zhuhai, Guangdong

Co-patentee before: BEIJING KINGSOFT INTERNET SECURITY SOFTWARE Co.,Ltd.

Patentee before: Zhuhai Juntian Electronic Technology Co.,Ltd.

Co-patentee before: SHELL INTERNET (BEIJING) SECURITY TECHNOLOGY Co.,Ltd.

Co-patentee before: BEIJING KINGSOFT NETWORK TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20191125

Address after: Room 105-53811, No. 6 Baohua Road, Hengqin New District, Zhuhai City, Guangdong Province

Patentee after: Zhuhai Leopard Technology Co.,Ltd.

Address before: 519070, No. 10, main building, No. six, science Road, Harbour Road, Tang Wan Town, Guangdong, Zhuhai, 601F

Co-patentee before: BEIJING KINGSOFT INTERNET SECURITY SOFTWARE Co.,Ltd.

Patentee before: Zhuhai Juntian Electronic Technology Co.,Ltd.

Co-patentee before: Beijing Cheetah Mobile Technology Co.,Ltd.

Co-patentee before: Beijing Cheetah Network Technology Co.,Ltd.