CN114070653A - 混合钓鱼网站检测方法及装置、电子设备、存储介质 - Google Patents
混合钓鱼网站检测方法及装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN114070653A CN114070653A CN202210043787.4A CN202210043787A CN114070653A CN 114070653 A CN114070653 A CN 114070653A CN 202210043787 A CN202210043787 A CN 202210043787A CN 114070653 A CN114070653 A CN 114070653A
- Authority
- CN
- China
- Prior art keywords
- brand
- website
- icon
- target
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 48
- 238000013145 classification model Methods 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000010801 machine learning Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims description 34
- 238000012360 testing method Methods 0.000 claims description 21
- 238000012795 verification Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000003062 neural network model Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- BUGBHKTXTAQXES-UHFFFAOYSA-N Selenium Chemical compound [Se] BUGBHKTXTAQXES-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 229910052711 selenium Inorganic materials 0.000 description 1
- 239000011669 selenium Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1483—Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种混合钓鱼网站检测方法及装置、电子设备、存储介质,涉及Web和机器学习领域,包括以下步骤:构建受保护品牌网站数据库;接收待检测的目标网站;根据所述目标网站,得到网页特征信息、品牌信息特征和icon图标;根据网页特征信息和品牌信息特征,利用训练好的特征分类模型,对待检测的目标网站进行分类,得到分类结果;利用训练好的图片相似度匹配模型,对所述icon图标进行识别,得到所述icon图标所属的目标品牌;根据所述分类结果和所述icon图标所属的目标品牌,得到最终检测结果。本发明能够高效地识别出钓鱼网站,保证了实时性和应用性。
Description
技术领域
本申请涉及网络防御技术领域,尤其涉及一种混合钓鱼网站检测方法及装置、电子设备、存储介质。
背景技术
“钓鱼网站”是随着网络普及和在线交易增加而变得异常猖獗的网络诈骗行为。通常与银行网站或其他知名网站几乎完全相同,从而引诱用户提交敏感信息。钓鱼者通过窃取到的个人信息,可仿冒受害者进行欺诈金融交易,甚至利用个人信息进行其他非法活动。所以想要避免产生更多的损失,保护用户安全上网、净化网络空间,就必须研究更加高效、可靠的钓鱼网站检测技术。
目前检测钓鱼网站的方法基本上分为3类:基于规则的检测方法、基于网站特征的检测方法和基于视觉相似度的检测方法。基于规则的检测方法主要是利用钓鱼网站与品牌网站在域名或其他特征之间的差异,预先设计好检查规则,从而判断是否是钓鱼网站。基于网站特征的检测方法,侧重分析和挖掘钓鱼网站和非钓鱼网站在URL链接、HTML代码、Whois数据、DNS记录等信息上的差异,基于这些差异检测出钓鱼网站。基于视觉相似度的检测方法,将网页布局特征,网页标志图像、网页截图等数据作为依据,通过相似度比较算法,识别目标网页在这些数据方面是否与品牌网页相似,若相似则判断目标是钓鱼网页。
在实现本发明的过程中,发明人发现现有技术中至少存在如下问题:
基于规则的检测方法拓展性差,钓鱼网站很容易绕过既定规则,难以检测新上线的钓鱼网站;基于网站特征的检测方法依赖训练的数据集,准确率不高,易将非钓鱼网站判断为钓鱼网站,且大多不能解释钓鱼网站仿冒的品牌;基于视觉相似度的检测方法,因为钓鱼网站数量远远少于非钓鱼网站,现有相似度检测方法难以在海量网站中准确检测出少量的钓鱼网站,存在识别不准确情况。
发明内容
本申请实施例的目的是提供一种混合钓鱼网站检测方法及装置、电子设备、存储介质,解决相关技术中存在的钓鱼网站检测拓展性差、准确率不高、识别不准确的问题。
根据本申请实施例的第一方面,提供一种混合钓鱼网站检测方法,其特征在于,包括:
构建受保护品牌网站数据库;
接收待检测的目标网站;
根据所述目标网站,得到网页特征信息、品牌信息特征和icon图标;
根据网页特征信息和品牌信息特征,利用训练好的特征分类模型,对待检测的目标网站进行分类,得到分类结果;
利用训练好的图片相似度匹配模型,对所述icon图标进行识别,得到所述icon图标所属的目标品牌;
根据所述分类结果和所述icon图标所属的目标品牌,得到最终检测结果。
进一步地,根据所述目标网站,得到网页特征信息、品牌信息特征和icon图标,包括:
根据所述目标网站的URL,访问并收集该网站的全局数据、icon图标;
从所述全局数据中提取网页特征信息、品牌信息特征。
进一步地,在根据所述目标网站的URL,访问并收集该网站的全局数据、icon图标之后、从所述全局数据中提取网页特征信息、品牌信息特征之前,还包括:
过滤掉包含在受保护品牌网站数据库中的目标网站。
进一步地,根据网页特征信息和品牌信息特征,利用训练好的特征分类模型,对待检测的目标网站进行分类,得到分类结果,包括:
利用训练好的特征分类模型对目标网站的网页特征信息进行检测分类;
结合检测分类结果和目标网站的品牌信息特征加权判断,得到最终的分类结果。
进一步地,训练好的特征分类模型的训练过程如下:
收集钓鱼网站、非钓鱼网站特征数据,得到训练集、验证集、测试集;
利用所述训练集、验证集,训练、优化多个机器学习分类模型;
将所述多个机器学习分类模型组成特征分类模型,并利用所述机器学习分类模型分别对测试集进行预测;
将每个机器学习分类模型的预测结果进行汇总,以少数服从多数原则进行投票,将投票结果作为特征分类模型的预测结果。
进一步地,利用训练好的图片相似度匹配模型,对所述icon图标进行识别,得到所述icon图标所属的目标品牌,包括:
利用训练好的图片相似度匹配模型,将目标网站icon图标与品牌网站icon图标进行相似度匹配,识别出目标网站icon图标所属的目标品牌。
进一步地,训练好的图片相似度匹配模型的训练过程如下:
收集不同网站的icon图标数据,对所述icon图标数据进行扩增,得到训练集、测试集;
利用所述训练集、测试集,训练、优化并得到图片相似度匹配模型。
根据本申请实施例的第二方面,提供一种混合钓鱼网站检测装置,包括:
构建模块,用于构建受保护品牌网站数据库;
接收模块,用于接收待检测的目标网站;
获得模块,用于根据所述目标网站,得到网页特征信息、品牌信息特征和icon图标;
分类模块,用于根据网页特征信息和品牌信息特征,利用训练好的特征分类模型,对待检测的目标网站进行分类,得到分类结果;
识别模块,用于利用训练好的图片相似度匹配模型,对所述icon图标进行识别,得到所述icon图标所属的目标品牌;
结果输出模块,用于根据所述分类结果和所述icon图标所属的目标品牌,得到最终检测结果。
根据本申请实施例的第三方面,提供一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法。
根据本申请实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如第一方面所述方法的步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:
由上述实施例可知,本申请因为采用特征分类模型和品牌信息特征相结合检测钓鱼网站的技术,利用了品牌信息特征识别度高的特点,所以克服了传统基于网站特征检测方法准确率不高、不能解释钓鱼网站仿冒品牌的问题,进而达到了特征分类模型准确分类出钓鱼网站并解释其仿冒品牌的效果;
因为采用图片相似度模型识别网站icon图标的技术,基于高准确率的图片相似度模型和品牌网站icon图标的唯一性,所以克服了传统基于视觉相似度的检测方法识别不准确的问题,进而实现了基于网站icon图标迅速准确识别icon所属品牌、并通过icon解释钓鱼网站仿冒品牌的效果;
因为采用构建受保护品牌网站数据库的技术,可以很方便地在数据库中添加新的品牌网站,并检测仿冒这些品牌的钓鱼网站,所以克服了基于规则的检测方法拓展性差的问题,进而达到了动态拓展受保护品牌、自适应检测不同品牌钓鱼网站的效果。
因为采用目标网站分类结果和目标网站icon品牌识别结果综合判断最终结果的技术,所以克服了单一检测方法覆盖面局限、结果置信度偏低的问题,进而扩大了钓鱼网站的检测覆盖面,提高了本申请最终结果的置信度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是根据一示例性实施例示出的一种混合钓鱼网站检测方法的流程图。
图2是根据一示例性实施例示出的一种步骤S13的流程图。
图3是根据一示例性实施例示出的另一种步骤S13的流程图。
图4是根据一示例性实施例示出的步骤S14的流程图。
图5是根据一示例性实施例示出的一种混合钓鱼网站检测装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
图1是根据一示例性实施例示出的混合钓鱼网站检测方法流程图,如图1所示,该方法应用于终端中,可以包括以下步骤:
步骤S11,构建受保护品牌网站数据库。
具体地,汇总钓鱼网站仿冒的品牌和客户希望保护的品牌,以此构建受保护的品牌网站列表,收集这些品牌网站的数据,包括但不限于网站品牌icon图标、品牌关联关键词、网站品牌域名及其下属品牌的域名、品牌所属版权信息等;基于这些信息组成具有明显特异性的品牌网站信息特征画像,比较目标网站与品牌网站在这些特异性信息上的异同,将能够帮助本发明快速、准确地判断出目标网站是否是钓鱼网站,并说明仿冒了品牌网站哪些信息特征。
步骤S12,接收待检测的目标网站;
具体地,向用户提供一个可供访问的网页,用户通过所述网页向检测装置提交希望检测的目标网站的URL。
步骤S13,根据所述目标网站,得到网页特征信息、品牌信息特征和icon图标;参考图2,步骤S13可以包括以下子步骤:
步骤S131,根据所述目标网站的URL,访问并收集该网站的全局数据、icon图标;
具体地,接收到用户提交的所述目标网站URL后,本发明利用Selenium控制Chrome浏览器等方法,访问该URL,加载并收集所述目标网站的网站全局数据和icon图标。因为所述访问URL的方法,更接近于真实的用户访问网站,所以可以大大降低被目标网站识别为爬虫的风险,即使发生目标网页重定向到新网页情况时,浏览器也能够及时跳转到最终转向的页面,获取到目标网站对应最新的URL和网页数据。
步骤S133,从所述全局数据中提取网页特征信息、品牌信息特征。
具体地,通过数据读取、定位查找、统计计算等方法,从获取的所述目标网页全局数据中提取网页特征信息(包括URL、HTML相关特征)、品牌信息特征。利用所述网页特征信息作为后续步骤S15中特征分类模型的输入,由特征分类模型对所述目标网页进行分类;利用所述品牌信息特征证明目标网站属于或仿冒了哪个品牌网站。
参考图3,在步骤S131和步骤S133之间,还可包括步骤S132,过滤掉包含在受保护品牌网站数据库中的目标网站。
具体地,获得目标网站数据后,若目标网站发生了重定向,即URL和网页发生了变化,则将变化后的URL作为目标网站的URL;提取所述URL中的域名,比较并判断所述域名是否为受保护的品牌域名;若是,则表明目标网站重定向至品牌网站,且不是非钓鱼网站,因此可以过滤掉该目标网站,无需进一步检测该目标网站;若不是,则进一步检测。通过此步骤,能够快速有效地过滤重定向到品牌网站的目标网站,避免重复检测品牌网站,提高本发明检测钓鱼网站的效率。
其中,URL特征包括但不限于:URL的字符长度、是否有特殊字符、是否使用https协议、是否包含品牌关键词等;HTML特征主要包括但不限于:网页总字符数、是否有登录框、是否包含品牌网站版权信息、是否大量链接指向品牌网站等。
其中,品牌信息特征可以包括但不限于:(1)URL文本中除了主域名以外的其他部分,是否包含受保护的品牌域名关键词,若包含则设置特征值为1,记录该品牌域名关键词,否则设置特征值为0;(2)网页HTML数据中是否仿冒哪个受保护的品牌网站版权信息,若仿冒则设置特征值为1,记录该品牌域名关键词,否则设置特征值为0;(3)网页标题中是否存在受保护的品牌关键词,若存在则设置特征值为1,记录该品牌域名关键词,否则设置特征值为0;(4)检索出HTML的所有链接中出现次数最多的域名,该域名是否为受保护的品牌域名,且当前网页是否不属于该品牌,若两项条件都为是,则设置特征值为1,记录该品牌域名关键词,否则设置特征值为0。
步骤S14,根据网页特征信息和品牌信息特征,利用训练好的特征分类模型,对待检测的目标网站进行分类,得到分类结果;参考图4,步骤S14可以包括以下子步骤:
步骤S141,利用训练好的特征分类模型对目标网站的网页特征信息进行检测分类;
具体地,将目标网站的网页特征信息输入到所述特征分类模型中,特征分类模型对目标进行检测分类,若检测分类结果为钓鱼网站,则将该结果标记为1,否则为非钓鱼网站,标记为0。
步骤S142,结合检测分类结果和目标网站的品牌信息特征加权判断,得到最终的分类结果。
具体地,将所述检测分类结果和品牌信息特征进行加权求和,得到加权分数S;将得分S与预设值S1进行比较,如果S>S1,则将结果分类为钓鱼网站,并基于品牌信息特征中优先级高的品牌信息B1确定目标网站仿冒了品牌B1,同时当前步骤报告最终的分类结果R1:目标网站为钓鱼网站,仿冒了所述品牌B1;否则所述结果R1报告为空。
S的参考计算方式如下:
其中,C为所述特征分类模型检测分类结果(1或0),为检测分类结果的加权系
数;为所述品牌信息特征(1或0),为品牌信息特征的加权系数,n为品牌信息特征的个
数,以步骤S133为例,设置4个品牌信息特征,则n=4;对于所有系数,参考设置各值权重。
其中训练好的特征分类模型的训练流程如下:
(A1)收集钓鱼网站、非钓鱼网站特征数据,得到训练集、验证集、测试集;
具体地,收集钓鱼网站方面,从各种公布钓鱼网站的数据源(如PhishTank、OpenPhish等)中获取到大量钓鱼网站的URL,通过步骤S131获取到这些URL对应的最新数据,并通过有效方法选择出其中仍然是钓鱼网站的样本,作为钓鱼网站数据集,类型标记为1;收集非钓鱼网站方面,从正规网址导航、网站排名(如Amazon发布的域名排名)中收集大量非钓鱼网站URL,通过步骤S131获取这些非钓鱼网站的样本,作为非钓鱼网站数据集,类型标记为0;选取70%的钓鱼网站数据、非钓鱼网站数据组成训练集,选取10%的钓鱼网站数据、非钓鱼网站数据组成验证集,选取20%的钓鱼网站数据、非钓鱼网站数据组成测试集,用于训练特征分类模型。通过收集整理得到钓鱼网站、非钓鱼网站数据,能够最大程度反映出两类网站的真实情况,使用所述数据集训练模型,能够使模型在现实环境下具有良好的分类能力和泛化能力。
(A2)利用所述训练集、验证集,训练、优化多个机器学习分类模型;
具体地,选取XGBoost、GBDT、LightGBM、RF四种机器学习分类模型,使用所述训练集分别对这些模型进行训练,并使用验证集对每个模型的参数进行测试优化;这样能使不同的模型学习到钓鱼网站、非钓鱼网站数据集的特点,提升模型性能。
(A3)将所述多个机器学习分类模型组成特征分类模型,并利用所述机器学习分类模型分别对测试集进行预测;
具体地,将所述每个机器学习分类模型分别对测试集进行预测,得到不同模型预测结果,由所述全部机器学习模型组成所述特征分类模型。
(A4)将每个机器学习分类模型的预测结果进行汇总,以少数服从多数原则进行投票,将投票结果作为特征分类模型的预测结果。
具体地,汇总所述每个模型对测试集的预测结果,以少数服从多数原则进行投票(半数票可视为少数),得到对测试集预测的投票结果,将该投票结果作为特征分类模型的预测结果;通过利用不同模型分类的优势,从不同决策方法上对目标进行分类,尽可能避免单一模型分类出现巨大误差的风险。
步骤S15,利用训练好的图片相似度匹配模型,对所述icon图标进行识别,得到所述icon图标所属的目标品牌;
具体地,利用训练好的图片相似度匹配模型,将目标网站icon图标与品牌网站icon图标进行相似度匹配,识别出目标网站icon图标所属的目标品牌。
具体地,基于受保护品牌网站数据库中的品牌icon图标,利用训练好的图片相似度匹配模型(如孪生神经网络模型,或其他准确率较高的结构相似性算法、Hash算法等),逐一计算目标网站的icon与每个品牌网站icon的相似值,得到最大相似值M;将相似值M与预设值M1进行比较,如果M>M1,且目标网站域名不是品牌域名,则系统报告icon目标识别结果R2:目标网站为钓鱼网站,仿冒了对应品牌icon所属的品牌B2。因为不同品牌网站的icon图标不同,具有品牌唯一性,所以当结果M大于M1,则说明目标网站的icon与品牌网站B2的icon非常相似,可以认定两个icon属于同一个品牌;同时钓鱼网站为了仿冒品牌网站,通常会冒用品牌网站icon,因此可以利用icon图标来识别钓鱼网站。
其中训练好的图片相似度匹配模型(以孪生神经网络模型为例)的训练过程如下:
(B1)收集不同网站的icon图标数据,对所述icon图标数据进行扩增,得到训练集、测试集;
具体地,收集n个不同品牌的icon图标,组成原始icon数据集;对每个品牌的icon图标进行预处理:将每一个icon统一转成相同的颜色模式(RGB或RGBA),以每个品牌icon为基础,进行图片变换(添加噪点、平移、添加边框、调整亮暗程度、裁剪、放大、缩小、调整图像基础色彩等),将一个icon图标变换扩增成多个新品牌icon图标;混合所有扩增后的icon图标,随机选取icon图标两两配对形成训练样本,两个icon为同一品牌时标签为0,不同品牌标签为1,组成新的数据集;随机选取数据集中90%的样本作为训练集,10%的样本作为测试集,用于训练图片相似度匹配模型。因为单个品牌网站通常只有1个icon图标,数据集偏少,所以通过icon图标扩增的方法,扩大数据集规模,便于下一步更好地训练图片相似度匹配模型。
(B2)利用所述训练集、测试集,训练、优化并得到图片相似度匹配模型。
具体地,以孪生神经网络模型作为关键图片相似度匹配模型,设置VGG16为孪生神经网络的主干网络(或Yolov4网络等)和对比损失函数(或Triplet三元损失等),使用训练集训练该孪生神经网络模型,使用测试集优化所述孪生神经网络模型;训练过程中,设定孪生神经网络模型的阈值,调用训练好的孪生神经网络模型,检测测试集每一对icon样本,若一对测试样本的相似度大于阈值,则认为两个icon相似,否则认为不相似;当测试集准确率大于97%或训练损失低于0.001时,则认为模型训练完成。
步骤S16,根据所述分类结果和所述icon图标所属的目标品牌,得到最终检测结果。
具体地,汇总步骤S142和步骤S15报告的结果R1和R2;若R1、R2为空,则最终报告目标网站为非钓鱼网站;若R1、R2有一个不为空,则最终报告不为空的结果;若R1、R2都不为空,则将R1报告的品牌B1与R2报告的品牌B2比较,如果B1=B2,系统最终报告目标网站仿冒品牌B1,否则根据步骤S142的得分S和步骤S15的icon图标相似得分M,参考步骤S142方式分别赋予权重得到新的得分S’和M’并进行比较,系统选择报告其中得分更大的结果。可以理解的是,系统报告后,安全检测人员可以结合网页截图进行进一步确定目标网站是否为钓鱼网站,同时系统最终报告的策略可以根据实际情况调整。
由上述实施例可知,本申请在检测钓鱼网站时利用了网站信息特征、品牌信息特征和品牌icon图标几类能够显示网站身份的重要要素,采用混合方法对钓鱼网站进行检测:通过对网站特征信息、品牌信息特征进行分类,实现了快速精准检测钓鱼网站,揭示钓鱼网站仿冒的品牌;通过对网站icon图标进行识别,进一步确认了钓鱼网站仿冒的品牌。解决了以往方法检测效率和准确率不高、不能解释钓鱼网站仿冒品牌的问题,实现了对品牌网站的针对性保护,具有较高的识别准确率和更低运行开销,优于其他反钓鱼方法,且能够对网站样本提供可解释的注释,解释钓鱼网站结果,便于安全分析人员根据注释,快速核对钓鱼网站情况。
本发明具有较高的准确率和较快的处理速度,并能对结果进行解释,可以在云服务、路由等节点中部署,能够高效地识别出钓鱼网站,保证了实时性和应用性。
与前述的混合钓鱼网站检测方法的实施例相对应,本申请还提供了混合钓鱼网站检测装置的实施例。
图5是根据一示例性实施例示出的一种混合钓鱼网站检测装置框图。参照图5,该装置包括:
构建模块21,用于构建受保护品牌网站数据库;
接收模块22,用于接收待检测的目标网站;
获得模块23,用于根据所述目标网站,得到网页特征信息、品牌信息特征和icon图标;
分类模块24,用于根据网页特征信息和品牌信息特征,利用训练好的特征分类模型,对待检测的目标网站进行分类,得到分类结果;
识别模块25,用于利用训练好的图片相似度匹配模型,对所述icon图标进行识别,得到所述icon图标所属的目标品牌;
结果输出模块26,用于根据所述分类结果和所述icon图标所属的目标品牌,得到最终检测结果。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
相应的,本申请还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的混合钓鱼网站检测方法。
相应的,本申请还提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如上述的混合钓鱼网站检测方法。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (10)
1.一种混合钓鱼网站检测方法,其特征在于,包括:
构建受保护品牌网站数据库;
接收待检测的目标网站;
根据所述目标网站,得到网页特征信息、品牌信息特征和icon图标;
根据网页特征信息和品牌信息特征,利用训练好的特征分类模型,对待检测的目标网站进行分类,得到分类结果;
利用训练好的图片相似度匹配模型,对所述icon图标进行识别,得到所述icon图标所属的目标品牌;
根据所述分类结果和所述icon图标所属的目标品牌,得到最终检测结果。
2.根据权利要求1所述的方法,其特征在于,根据所述目标网站,得到网页特征信息、品牌信息特征和icon图标,包括:
根据所述目标网站的URL,访问并收集该网站的全局数据、icon图标;
从所述全局数据中提取网页特征信息、品牌信息特征。
3.根据权利要求2所述的方法,其特征在于,在根据所述目标网站的URL,访问并收集该网站的全局数据、icon图标之后、从所述全局数据中提取网页特征信息、品牌信息特征之前,还包括:
过滤掉包含在受保护品牌网站数据库中的目标网站。
4.根据权利要求1所述的方法,其特征在于,根据网页特征信息和品牌信息特征,利用训练好的特征分类模型,对待检测的目标网站进行分类,得到分类结果,包括:
利用训练好的特征分类模型对目标网站的网页特征信息进行检测分类;
结合检测分类结果和目标网站的品牌信息特征加权判断,得到最终的分类结果。
5.根据权利要求1所述的方法,其特征在于,训练好的特征分类模型的训练过程如下:
收集钓鱼网站、非钓鱼网站特征数据,得到训练集、验证集、测试集;
利用所述训练集、验证集,训练、优化多个机器学习分类模型;
将所述多个机器学习分类模型组成特征分类模型,并利用所述机器学习分类模型分别对测试集进行预测;
将每个机器学习分类模型的预测结果进行汇总,以少数服从多数原则进行投票,将投票结果作为特征分类模型的预测结果。
6.根据权利要求1所述的方法,其特征在于,利用训练好的图片相似度匹配模型,对所述icon图标进行识别,得到所述icon图标所属的目标品牌,包括:
利用训练好的图片相似度匹配模型,将目标网站icon图标与品牌网站icon图标进行相似度匹配,识别出目标网站icon图标所属的目标品牌。
7.根据权利要求1所述的方法,其特征在于,训练好的图片相似度匹配模型的训练过程如下:
收集不同网站的icon图标数据,对所述icon图标数据进行扩增,得到训练集、测试集;
利用所述训练集、测试集,训练、优化并得到图片相似度匹配模型。
8.一种混合钓鱼网站检测装置,其特征在于,包括:
构建模块,用于构建受保护品牌网站数据库;
接收模块,用于接收待检测的目标网站;
获得模块,用于根据所述目标网站,得到网页特征信息、品牌信息特征和icon图标;
分类模块,用于根据网页特征信息和品牌信息特征,利用训练好的特征分类模型,对待检测的目标网站进行分类,得到分类结果;
识别模块,用于利用训练好的图片相似度匹配模型,对所述icon图标进行识别,得到所述icon图标所属的目标品牌;
结果输出模块,用于根据所述分类结果和所述icon图标所属的目标品牌,得到最终检测结果。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210043787.4A CN114070653B (zh) | 2022-01-14 | 2022-01-14 | 混合钓鱼网站检测方法及装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210043787.4A CN114070653B (zh) | 2022-01-14 | 2022-01-14 | 混合钓鱼网站检测方法及装置、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114070653A true CN114070653A (zh) | 2022-02-18 |
CN114070653B CN114070653B (zh) | 2022-06-24 |
Family
ID=80231115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210043787.4A Expired - Fee Related CN114070653B (zh) | 2022-01-14 | 2022-01-14 | 混合钓鱼网站检测方法及装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114070653B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104077396A (zh) * | 2014-07-01 | 2014-10-01 | 清华大学深圳研究生院 | 一种钓鱼网站检测方法及装置 |
CN104217160A (zh) * | 2014-09-19 | 2014-12-17 | 中国科学院深圳先进技术研究院 | 一种中文钓鱼网站检测方法及系统 |
CN104899508A (zh) * | 2015-06-17 | 2015-09-09 | 中国互联网络信息中心 | 一种多阶段钓鱼网站检测方法与系统 |
CN105324786A (zh) * | 2013-04-11 | 2016-02-10 | 布兰德席德有限公司 | 对品牌名称和域名进行保护的设备、系统以及方法 |
CN108566399A (zh) * | 2018-04-23 | 2018-09-21 | 中国互联网络信息中心 | 钓鱼网站识别方法及系统 |
CN108965245A (zh) * | 2018-05-31 | 2018-12-07 | 国家计算机网络与信息安全管理中心 | 基于自适应异构多分类模型的钓鱼网站检测方法和系统 |
CN110474889A (zh) * | 2019-07-26 | 2019-11-19 | 湖北乾智科技有限公司 | 一种基于网站图标的钓鱼网站识别方法及装置 |
CN110784462A (zh) * | 2019-10-23 | 2020-02-11 | 北京邮电大学 | 基于混合方法的三层钓鱼网站检测系统 |
CN111107048A (zh) * | 2018-10-29 | 2020-05-05 | 中移(苏州)软件技术有限公司 | 一种钓鱼网站检测方法、装置和存储介质 |
CN111181922A (zh) * | 2019-12-06 | 2020-05-19 | 北京中睿天下信息技术有限公司 | 一种钓鱼链接检测方法及系统 |
US20210344693A1 (en) * | 2019-12-18 | 2021-11-04 | Zscaler, Inc. | URL risk analysis using heuristics and scanning |
US20210377301A1 (en) * | 2020-06-02 | 2021-12-02 | Zscaler, Inc. | Phishing detection of uncategorized URLs using heuristics and scanning |
-
2022
- 2022-01-14 CN CN202210043787.4A patent/CN114070653B/zh not_active Expired - Fee Related
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105324786A (zh) * | 2013-04-11 | 2016-02-10 | 布兰德席德有限公司 | 对品牌名称和域名进行保护的设备、系统以及方法 |
CN104077396A (zh) * | 2014-07-01 | 2014-10-01 | 清华大学深圳研究生院 | 一种钓鱼网站检测方法及装置 |
CN104217160A (zh) * | 2014-09-19 | 2014-12-17 | 中国科学院深圳先进技术研究院 | 一种中文钓鱼网站检测方法及系统 |
CN104899508A (zh) * | 2015-06-17 | 2015-09-09 | 中国互联网络信息中心 | 一种多阶段钓鱼网站检测方法与系统 |
CN108566399A (zh) * | 2018-04-23 | 2018-09-21 | 中国互联网络信息中心 | 钓鱼网站识别方法及系统 |
CN108965245A (zh) * | 2018-05-31 | 2018-12-07 | 国家计算机网络与信息安全管理中心 | 基于自适应异构多分类模型的钓鱼网站检测方法和系统 |
CN111107048A (zh) * | 2018-10-29 | 2020-05-05 | 中移(苏州)软件技术有限公司 | 一种钓鱼网站检测方法、装置和存储介质 |
CN110474889A (zh) * | 2019-07-26 | 2019-11-19 | 湖北乾智科技有限公司 | 一种基于网站图标的钓鱼网站识别方法及装置 |
CN110784462A (zh) * | 2019-10-23 | 2020-02-11 | 北京邮电大学 | 基于混合方法的三层钓鱼网站检测系统 |
CN111181922A (zh) * | 2019-12-06 | 2020-05-19 | 北京中睿天下信息技术有限公司 | 一种钓鱼链接检测方法及系统 |
US20210344693A1 (en) * | 2019-12-18 | 2021-11-04 | Zscaler, Inc. | URL risk analysis using heuristics and scanning |
US20210377301A1 (en) * | 2020-06-02 | 2021-12-02 | Zscaler, Inc. | Phishing detection of uncategorized URLs using heuristics and scanning |
Also Published As
Publication number | Publication date |
---|---|
CN114070653B (zh) | 2022-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108965245B (zh) | 基于自适应异构多分类模型的钓鱼网站检测方法和系统 | |
CN104077396B (zh) | 一种钓鱼网站检测方法及装置 | |
CN111259219B (zh) | 恶意网页识别模型建立方法、识别方法及系统 | |
CN101826105A (zh) | 基于匈牙利匹配算法的钓鱼网页检测方法 | |
CN102932348A (zh) | 一种钓鱼网站的实时检测方法及系统 | |
CN109922065B (zh) | 恶意网站快速识别方法 | |
CN108023868B (zh) | 恶意资源地址检测方法和装置 | |
CN102170447A (zh) | 一种基于最近邻及相似度测量检测钓鱼网页的方法 | |
CN104899508A (zh) | 一种多阶段钓鱼网站检测方法与系统 | |
CN110781876B (zh) | 一种基于视觉特征的仿冒域名轻量级检测方法及系统 | |
CN107888606B (zh) | 一种域名信誉度评估方法及系统 | |
CN104202291A (zh) | 基于多因素综合评定方法的反钓鱼方法 | |
CN109525551A (zh) | 一种基于统计机器学习的cc攻击防护的方法 | |
CN113098887A (zh) | 一种基于网站联合特征的钓鱼网站检测方法 | |
CN113032525A (zh) | 虚假新闻检测方法、装置、电子设备以及存储介质 | |
CN117614742B (zh) | 一种蜜点感知增强的恶意流量检测方法 | |
CN111967503A (zh) | 多类型异常网页分类模型的构建方法、异常网页检测方法 | |
El-Rashidy | A smart model for web phishing detection based on new proposed feature selection technique | |
Vaishnavi et al. | A comparative analysis of machine learning algorithms on malicious URL prediction | |
CN103684896A (zh) | 基于域名解析特征的网站作弊检测方法 | |
Zaman et al. | Phishing website detection using effective classifiers and feature selection techniques | |
CN114070653B (zh) | 混合钓鱼网站检测方法及装置、电子设备、存储介质 | |
CN107689960B (zh) | 一种针对无组织恶意攻击的攻击检测方法 | |
Imani et al. | Phishing Website Detection Using Weighted Feature Line Embedding. | |
Vo et al. | Adremover: the improved machine learning approach for blocking ads |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220624 |
|
CF01 | Termination of patent right due to non-payment of annual fee |