CN108777674A - 一种基于多特征融合的钓鱼网站检测方法 - Google Patents
一种基于多特征融合的钓鱼网站检测方法 Download PDFInfo
- Publication number
- CN108777674A CN108777674A CN201810373630.1A CN201810373630A CN108777674A CN 108777674 A CN108777674 A CN 108777674A CN 201810373630 A CN201810373630 A CN 201810373630A CN 108777674 A CN108777674 A CN 108777674A
- Authority
- CN
- China
- Prior art keywords
- url
- features
- html
- logistic
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1483—Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/147—Network analysis or design for predicting network behaviour
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多特征融合的钓鱼网站检测方法,该方法能够实时检测互联网上的钓鱼网站。本发明首先根据网页的URL提取URL特征、HTML特征和基于TF‑IDF的文本向量;然后利用Logistic回归(Logistic regression)对文本向量进行分类,构建Logistic回归特征,并与网页URL特征和HTML特征进行多特征融合;最后训练XGBoost(eXtreme gradient boosting)模型,对待测钓鱼网站进行分类预测。本发明在网站的URL基础上,从多个维度全方位提取多关键特征,采用Logistic回归特征融合方法,有效解决文本向量特征维度过高问题,比现有特征融合方法能大幅提高运行效率,而且XGBoost分类模型比传统分类模型,更能提高钓鱼网站检测准确率,减少钓鱼网站检测漏报率。
Description
技术领域
本发明涉及一种基于多特征融合的钓鱼网站检测方法,该方法从多个维度全方位提取钓鱼网站的特征,利用机器学习方法分类提高分类准确率,能实时检测互联网上的钓鱼网站,属于网络空间安全技术领域。
背景技术
近年来,随着互联网的飞速发展,互联网体系结构在安全方面所存在不足日渐显露,网络钓鱼、网络犯罪、隐私泄露等各类安全问题越来越突出。没有网络安全就没有国家安全,网络空间安全已经成为世界各国必须共同面对和解决的难题。在各类网络安全问题中,网络钓鱼是一种通过社会工程学或其它复杂技术手段窃取网站用户个人信息的犯罪行为,目前网络钓鱼呈逐年上升趋势。
当前钓鱼网站的检测方法主要包括黑白名单过滤技术、启发式检测、相似性检测和基于机器学习的检测。其中,钓鱼黑名单过滤是应用最广的检测方法,被众多商业检测系统所使用,但是,采用黑名单方式检测钓鱼网站,存在较高的漏报率。基于启发式的方法虽可以实时检测出未被黑名单收录的钓鱼网站,并且具有一定的准确性,但是模型的自进化和自适应能力较差。相似性检测方法的效率较低,只适用于特定领域,同时很多钓鱼网站并未模仿某一类知名网站,导致特征库的提取存在困难。基于机器学习方法的URL检测技术是利用URL提取特征,并结合机器学习分类算法对网页进行分类,但当前基于机器学习的钓鱼检测方法,普遍存在训练效率低、特征维度过高和准确率不足等问题。
针对当前日益增多的钓鱼网站问题和已有钓鱼检测方法训练效率较低、钓鱼鱼网站检出率较低的问题,本发明提出一种基于多特征融合的钓鱼网站检测方法,利用Logistic回归训练基于TF-IDF的网页文本特征,将训练结果作为最终的网页文本特征,与网页的URL特征和HTML特征进行融合,大大降低特征维度,并通过XGBoost算法对钓鱼网页进行分类,提高检测分类的准确率。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供一种基于多特征融合的钓鱼网站检测方法,该方法能实时检测互联网的钓鱼网站,相比传统方法,不仅能够大幅度减少特征维度,减少训练时间和提高运行效率,而且能够有效改善传统钓鱼网站检测方法普遍存在的准确率不足问题。
技术方案:一种基于多特征融合的钓鱼网站检测方法,该方法涵盖钓鱼网站检测的全过程。该方法主要包括特征提取、特征融合和分类预测等过程,能够从多个维度全方位提取钓鱼网站的特征,有效解决文本向量特征维度过高的问题,并且将XGBoost分类模型拓展应用于钓鱼网站检测,提高检测准确率和减少检测漏报率。该方法主要包括三个步骤,具体如下:
步骤1,积累样本数据集。首先从PhishTank官网(PhishTank.com)搜集钓鱼网站,并从开放式网站分类目录DMOZ(dmoztools.net)搜集正常网站的样本 URL,去掉其中不可访问URL和重复URL等无效URL。
步骤2,多特征分类模型训练。对数据集中每一个有效的URL,首先提取 URL特征,然后爬取网页源码,接着抽取HTML特征和文本特征,构建Logistic 回归特征融合向量矩阵,最后训练XGBoost分类器。
步骤3,对待测网站进行分类预测。对于待测网站,首先提取该网站主页的 URL特征、HTML特征和文本特征,接着构建Logistic回归融合特征F,最后利用训练好的XGBoost分类器检测待测网站是否为钓鱼网站。
有益效果:
1.该方法采用基于Logistic回归的多特征融合方法,能够有效改善现有特征融合方法因为维度过高而导致的训练时间长、准确率低等问题。
2.该方法将XGBoost分类模型拓展应用于钓鱼网站检测,与传统分类模型相比,分类检测结果具有更高的准确率、精确率和召回率。
附图说明
图1为本发明算法流程图,图中本发明从训练到预测的全过程。
图2为基于Logistic回归的多特征融合方法流程图,包括特征提取、特征融合和分类预测。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本方法具体实施步骤如下:
步骤1,积累样本数据集。本发明首先从PhishTank(PhishTank.com)提供的黑名单中收集20000条有效钓鱼URL,并且从开放式网站分类目录DMOZ (dmoztools.net)中下载获取20000条有效正常URL,它们共同构成URL样本数据集D。由于钓鱼网站一般选择银行、游戏和电子商务类网站作为钓鱼目标,因此本发明需要从DMOZ收集20000条有效的正常网站URL,并保证银行、游戏和电子商务类网站的占比较大。
步骤2,多特征分类模型训练。对搜集的数据集D中的每个样本URL urlx,提取urlx的URL特征、HTML特征和文本特征,构建Logistic回归特征融合矩阵,并训练XGBoost分类器。该步骤实施过程分为6个子步骤:
子步骤2-1,提取每一个urlx的URL特征FURL。针对URL以及域名信息,抽取URL相关特征FURL主要包括URL中是否有IP地址、是否有可疑字符、是否有敏感词汇、是否是https链接,以及URL总长度、URL中最长数字串长度等,如表1所示。其中,本发明设置的敏感词汇包括:account、admin、administrator、 auth、bank、client、confirm、email、host、password、pay、private、safe、secure、 security、sign、user、validation、verification。
表1 URL特征
子步骤2-2,爬取每一个urlx对应的网页源码。利用当前的URL爬取网页源码,由于很多网站都属于动态网站(如基于Ajax技术实现的网站),网页爬取的HTML源码和网页文本与从浏览器看到的内容差异较大,所以本发明基于selenium和PhantomJS爬取网页源码。
子步骤2-3,提取每一个urlx的HTML特征FHTML。根据爬取到的网页源码提取HTML特征,记为FHTML,主要包括从HTML和JavaScript中提取的特征,如html总长度和div、embed、iframe、applet等标签数量,以及JavaScript中的 get、post、pop等方法数量和html外链占比等。外链表示网页html中指向其它域名的链接,由于很多钓鱼网站直接仿照正常网站,导致钓鱼网站的文本、图片和视频链接直接指向正常网站,因此钓鱼网站外链比例一般较高,因此html中外链占比是一个重要指标。本发明使用如公式(1)所示的外链接与链接总数的比例来定义html中外链占比:
其中:CountexternalLinks是外链数量,Count是链接总数。
本发明提取了24个HTML特征,如表2所示。
表2 HTML特征
子步骤2-4,提取每一个urlx的文本向量FTFIDF。根据网页源码生成对应的网页文本,先通过去掉HTML源码中多余的标签提取出网页的有效文本,再根据TF-IDF方法提取TF-IDF特征,记为FTFIDF。主要思想是,对于一个文本,如果一个单词出现频率越高,而在其它文本中出现频率越低,则该单词对该文本就越重要。TF-IDF的计算公式如下:
TF-IDF(i,Wj)=TF(i,Wj)*IDF(Wj) (4)
其中,TF(i,Wj)表示文档i中单词Wj的词频,文档i中单词Wj出现的次数由 Count(i,Wj)表示,Count(i)表示文档i的单词总数;IDF(Wj)表示单词Wj的逆向频率,|D|表示文档总数,CountFiles(Wj)表示包含单词Wj的文档总数。
子步骤2-5,基于Logistic回归进行多特征融合。利用FTFIDF训练Logistic 回归模型,如公式(5)所示,用预测概率代表Logistic特征,记为Flogistic,保存 Logistic回归模型参数,然后利用公式(6)将三方面的特征进行融合。
F=FURL∪FHTML∪Flogistic (6)
公式(5)中,x∈Rn表示输入特征向量FTFIDF,Y∈{0,1}表示判断类型,w 为Logistic回归权重向量,w∈Rn,w·x为向量w和x的内积,Rn为n维连续向量空间。
子步骤2-6,训练XGBoost分类器。首先对步骤2提取的特征F进行标准化处理,如公式(7)所示;然后将标准化后的特征向量Fs用于训练XGBoost分类器。XGBoost对损失函数进行了二阶泰勒展开,充分利用了一阶和二阶导数,并在损失函数之外对正则项求得最优解,此外XGBoost能自动利用CPU的多线程进行计算,节省大量运行时间,同时提高了算法精度。
其中x为原始特征,为原始数据的均值,σ为原始数据的标准差。
步骤3,对待测网站进行分类预测。利用步骤2中训练的Logistic回归和 XGBoost模型参数,对于待测网站URL,提取URL特征、HTML特征和文本特征,构建Logistic回归融合特征F,最后通过XGBoost检测待测网站是否为钓鱼网站。
Claims (5)
1.一种基于多特征融合的钓鱼网站检测方法,其特征在于,包括如下步骤:
步骤1,积累样本数据集;首先从PhishTank官网搜集钓鱼网站,并从开放式网站分类目录DMOZ搜集正常网站的样本URL,去掉无效URL;
步骤2,多特征分类模型训练;对数据集中每一个有效的URL,首先提取URL特征,然后爬取网页源码,接着抽取HTML特征和文本特征,构建Logistic回归特征融合向量矩阵,最后训练XGBoost分类器;
步骤3,对待测网站进行分类预测;对于待测网站,首先提取该网站主页的URL特征、HTML特征和文本特征,接着构建Logistic回归融合特征F,最后利用训练好的XGBoost分类器检测待测网站是否为钓鱼网站。
2.如权利要求1所述的基于多特征融合的钓鱼网站检测方法,其特征在于,步骤2中,对搜集的数据集中的每个样本URL urlx,提取urlx的URL特征、HTML特征和文本特征,构建Logistic回归特征融合矩阵,并训练XGBoost分类器;该步骤实施过程分为6个子步骤:
子步骤2-1,提取每一个urlx的URL特征FURL;针对URL以及域名信息,抽取URL相关特征FURL主要包括URL中是否有IP地址、是否有可疑字符、是否有敏感词汇、是否是https链接,以及URL总长度、URL中最长数字串长度;
子步骤2-2,爬取每一个urlx对应的网页源码;利用当前的URL基于selenium和PhantomJS爬取网页源码。
子步骤2-3,提取每一个urlx的HTML特征FHTML;根据爬取到的网页源码提取HTML特征,记为FHTML,包括从HTML和JavaScript中提取的:html总长度和div、embed、iframe、applet标签数量,以及JavaScript中的get、post、pop等方法数量和html外链占比特征;
子步骤2-4,提取每一个urlx的文本向量FTFIDF;根据网页源码生成对应的网页文本,先通过去掉HTML源码中多余的标签提取出网页的有效文本,再根据TF-IDF方法提取TF-IDF特征,记为FTFIDF;
子步骤2-5,基于Logistic回归进行多特征融合;利用FTFIDF训练Logistic回归模型;
子步骤2-6,训练XGBoost分类器;利用数据集生成的特征向量F训练XGBoost模型。
3.如权利要求2所述的基于多特征融合的钓鱼网站检测方法,其特征在于,使用如公式(1)所示的外链接与链接总数的比例来定义html中外链占比:
其中:CountexternalLinks是外链数量,Count是链接总数。
4.如权利要求2所述的基于多特征融合的钓鱼网站检测方法,其特征在于,TF-IDF的计算公式如下:
TF-IDF(i,Wj)=TF(i,Wj)*IDF(Wj) (4)
其中,TF(i,Wj)表示文档i中单词Wj的词频,文档i中单词Wj出现的次数由Count(i,Wj)表示,Count(i)表示文档i的单词总数;IDF(Wj)表示单词Wj的逆向频率,|D|表示文档总数,CountFiles(Wj)表示包含单词Wj的文档总数。
5.如权利要求2所述的基于多特征融合的钓鱼网站检测方法,其特征在于,利用FTFIDF训练Logistic回归模型,如公式(5)所示,用预测概率P(Y=1|x)代表Logistic特征,记为Flogistic,保存Logistic回归模型参数,然后利用公式(6)将三方面的特征进行融合;
F=FURL∪FHTML∪Flogistic (6)
公式(5)中,x∈Rn表示输入特征向量FTFIDF,Y∈{0,1}表示判断类型,w为Logistic回归权重向量,w∈Rn,w·x为向量w和x的内积,Rn为n维连续向量空间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810373630.1A CN108777674B (zh) | 2018-04-24 | 2018-04-24 | 一种基于多特征融合的钓鱼网站检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810373630.1A CN108777674B (zh) | 2018-04-24 | 2018-04-24 | 一种基于多特征融合的钓鱼网站检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108777674A true CN108777674A (zh) | 2018-11-09 |
CN108777674B CN108777674B (zh) | 2021-02-26 |
Family
ID=64026660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810373630.1A Active CN108777674B (zh) | 2018-04-24 | 2018-04-24 | 一种基于多特征融合的钓鱼网站检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108777674B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109558547A (zh) * | 2018-11-20 | 2019-04-02 | 北京锐安科技有限公司 | 一种数据的过滤方法、装置、电子设备及存储介质 |
CN110266675A (zh) * | 2019-06-12 | 2019-09-20 | 成都积微物联集团股份有限公司 | 一种基于深度学习的xss攻击自动化检测方法 |
CN110516710A (zh) * | 2019-07-25 | 2019-11-29 | 湖南星汉数智科技有限公司 | 网页分类方法、装置、计算机装置及计算机可读存储介质 |
CN110619363A (zh) * | 2019-09-17 | 2019-12-27 | 陕西优百信息技术有限公司 | 物料数据长描述对应小类名称分类方法 |
CN110825998A (zh) * | 2019-08-09 | 2020-02-21 | 国家计算机网络与信息安全管理中心 | 一种网站识别方法及可读存储介质 |
CN110912910A (zh) * | 2019-11-29 | 2020-03-24 | 北京工业大学 | 一种dns网络数据过滤方法及装置 |
CN111181922A (zh) * | 2019-12-06 | 2020-05-19 | 北京中睿天下信息技术有限公司 | 一种钓鱼链接检测方法及系统 |
CN111177084A (zh) * | 2019-12-20 | 2020-05-19 | 平安信托有限责任公司 | 一种文件分类方法、装置、计算机设备及存储介质 |
CN111245820A (zh) * | 2020-01-08 | 2020-06-05 | 北京工业大学 | 基于深度学习的钓鱼网站检测方法 |
CN111669353A (zh) * | 2019-03-08 | 2020-09-15 | 顺丰科技有限公司 | 钓鱼网站检测方法及系统 |
CN111754338A (zh) * | 2020-06-30 | 2020-10-09 | 上海观安信息技术股份有限公司 | 一种套路贷网站团伙识别方法及系统 |
CN112468501A (zh) * | 2020-11-27 | 2021-03-09 | 安徽大学 | 一种面向url的钓鱼网站检测方法 |
CN114978624A (zh) * | 2022-05-09 | 2022-08-30 | 深圳大学 | 钓鱼网页检测方法、装置、设备及存储介质 |
WO2023280316A1 (zh) * | 2021-07-09 | 2023-01-12 | 杨光 | 一种基于改进型XGBoost类方法的数据分析方法、定价方法以及相关设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102004764A (zh) * | 2010-11-04 | 2011-04-06 | 中国科学院计算机网络信息中心 | 互联网不良信息检测方法以及系统 |
CN103544436A (zh) * | 2013-10-12 | 2014-01-29 | 深圳先进技术研究院 | 一种钓鱼网站鉴别系统和方法 |
CN106296422A (zh) * | 2016-07-29 | 2017-01-04 | 重庆邮电大学 | 一种融合多算法的社交网络垃圾用户检测方法 |
CN107360200A (zh) * | 2017-09-20 | 2017-11-17 | 广东工业大学 | 一种基于分类信心和网站特征的钓鱼检测方法 |
-
2018
- 2018-04-24 CN CN201810373630.1A patent/CN108777674B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102004764A (zh) * | 2010-11-04 | 2011-04-06 | 中国科学院计算机网络信息中心 | 互联网不良信息检测方法以及系统 |
CN103544436A (zh) * | 2013-10-12 | 2014-01-29 | 深圳先进技术研究院 | 一种钓鱼网站鉴别系统和方法 |
CN106296422A (zh) * | 2016-07-29 | 2017-01-04 | 重庆邮电大学 | 一种融合多算法的社交网络垃圾用户检测方法 |
CN107360200A (zh) * | 2017-09-20 | 2017-11-17 | 广东工业大学 | 一种基于分类信心和网站特征的钓鱼检测方法 |
Non-Patent Citations (2)
Title |
---|
VENKATESH RAMANATHAN等: "Phishing Website Detection Using Latent Dirichlet Allocation and AdaBoost", 《2012 IEEE INTERNATIONAL CONFERENCE ON INTELLIGENCE AND SECURITY INFORMATICS》 * |
ZUOCHAO DOU等: "Systematization of Knowledge (SoK): A Systematic Review of Software-Based Web Phishing Detection", 《IEEE COMMUNICATIONS SURVEYS & TUTORIALS ( VOLUME: 19 , ISSUE: 4 , FOURTHQUARTER 2017 )》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109558547A (zh) * | 2018-11-20 | 2019-04-02 | 北京锐安科技有限公司 | 一种数据的过滤方法、装置、电子设备及存储介质 |
CN111669353A (zh) * | 2019-03-08 | 2020-09-15 | 顺丰科技有限公司 | 钓鱼网站检测方法及系统 |
CN110266675A (zh) * | 2019-06-12 | 2019-09-20 | 成都积微物联集团股份有限公司 | 一种基于深度学习的xss攻击自动化检测方法 |
CN110516710A (zh) * | 2019-07-25 | 2019-11-29 | 湖南星汉数智科技有限公司 | 网页分类方法、装置、计算机装置及计算机可读存储介质 |
CN110825998A (zh) * | 2019-08-09 | 2020-02-21 | 国家计算机网络与信息安全管理中心 | 一种网站识别方法及可读存储介质 |
CN110619363A (zh) * | 2019-09-17 | 2019-12-27 | 陕西优百信息技术有限公司 | 物料数据长描述对应小类名称分类方法 |
CN110912910A (zh) * | 2019-11-29 | 2020-03-24 | 北京工业大学 | 一种dns网络数据过滤方法及装置 |
CN111181922A (zh) * | 2019-12-06 | 2020-05-19 | 北京中睿天下信息技术有限公司 | 一种钓鱼链接检测方法及系统 |
CN111177084A (zh) * | 2019-12-20 | 2020-05-19 | 平安信托有限责任公司 | 一种文件分类方法、装置、计算机设备及存储介质 |
CN111245820A (zh) * | 2020-01-08 | 2020-06-05 | 北京工业大学 | 基于深度学习的钓鱼网站检测方法 |
CN111754338A (zh) * | 2020-06-30 | 2020-10-09 | 上海观安信息技术股份有限公司 | 一种套路贷网站团伙识别方法及系统 |
CN111754338B (zh) * | 2020-06-30 | 2024-02-23 | 上海观安信息技术股份有限公司 | 一种套路贷网站团伙识别方法及系统 |
CN112468501A (zh) * | 2020-11-27 | 2021-03-09 | 安徽大学 | 一种面向url的钓鱼网站检测方法 |
WO2023280316A1 (zh) * | 2021-07-09 | 2023-01-12 | 杨光 | 一种基于改进型XGBoost类方法的数据分析方法、定价方法以及相关设备 |
CN114978624A (zh) * | 2022-05-09 | 2022-08-30 | 深圳大学 | 钓鱼网页检测方法、装置、设备及存储介质 |
CN114978624B (zh) * | 2022-05-09 | 2023-11-03 | 深圳大学 | 钓鱼网页检测方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108777674B (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108777674A (zh) | 一种基于多特征融合的钓鱼网站检测方法 | |
Pacheco et al. | Uncovering coordinated networks on social media: methods and case studies | |
Wang et al. | PDRCNN: Precise phishing detection with recurrent convolutional neural networks | |
CN108965245B (zh) | 基于自适应异构多分类模型的钓鱼网站检测方法和系统 | |
CN104899508B (zh) | 一种多阶段钓鱼网站检测方法与系统 | |
Meel et al. | HAN, image captioning, and forensics ensemble multimodal fake news detection | |
CN104077396B (zh) | 一种钓鱼网站检测方法及装置 | |
Boididou et al. | Challenges of computational verification in social multimedia | |
CN104679825B (zh) | 基于网络文本的地震宏观异常信息获取与筛选方法 | |
CN103559235B (zh) | 一种在线社交网络恶意网页检测识别方法 | |
CN103544436B (zh) | 一种钓鱼网站鉴别系统和方法 | |
Mao et al. | BaitAlarm: detecting phishing sites using similarity in fundamental visual features | |
CN106789888A (zh) | 一种多特征融合的钓鱼网页检测方法 | |
CN102004764A (zh) | 互联网不良信息检测方法以及系统 | |
Bannur et al. | Judging a site by its content: learning the textual, structural, and visual features of malicious web pages | |
CN108038173A (zh) | 一种网页分类方法、系统及一种网页分类设备 | |
Liu et al. | An efficient multistage phishing website detection model based on the CASE feature framework: Aiming at the real web environment | |
CN107566391A (zh) | 域识别加主题识别构建机器学习模型检测网页暗链的方法 | |
Chen et al. | Ai@ ntiphish—machine learning mechanisms for cyber-phishing attack | |
CN107341399A (zh) | 评估代码文件安全性的方法及装置 | |
CN107463844A (zh) | Web木马检测方法及系统 | |
Yang et al. | Scalable detection of promotional website defacements in black hat {SEO} campaigns | |
Lago et al. | Visual and textual analysis for image trustworthiness assessment within online news | |
Liu et al. | Multi-scale semantic deep fusion models for phishing website detection | |
Chang et al. | Expectation-regulated neural model for event mention extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |