CN114363019A - 钓鱼网站检测模型的训练方法、装置、设备及存储介质 - Google Patents
钓鱼网站检测模型的训练方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114363019A CN114363019A CN202111566872.0A CN202111566872A CN114363019A CN 114363019 A CN114363019 A CN 114363019A CN 202111566872 A CN202111566872 A CN 202111566872A CN 114363019 A CN114363019 A CN 114363019A
- Authority
- CN
- China
- Prior art keywords
- website
- phishing website
- phishing
- characteristic
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 96
- 238000012549 training Methods 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 17
- 230000002159 abnormal effect Effects 0.000 claims abstract description 15
- 238000013515 script Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims description 29
- 238000007637 random forest analysis Methods 0.000 claims description 25
- 238000011156 evaluation Methods 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 10
- 238000004140 cleaning Methods 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 230000009193 crawling Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 14
- 230000000875 corresponding effect Effects 0.000 description 31
- 238000012706 support-vector machine Methods 0.000 description 18
- 238000004590 computer program Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开的实施例提供了一种钓鱼网站检测模型的训练方法、装置、设备及存储介质。该方法包括:获取网站数据集,网站数据集包括钓鱼网站样本集和非钓鱼网站样本集,钓鱼网站样本集和非钓鱼网站样本集中的样本的特征包括URL特征、异常操作特征、脚本特征和域名特征;对网站数据集中的样本进行特征预处理;对特征预处理后的样本进行特征提取;采用特征提取后的样本对钓鱼网站分类器进行训练,得到钓鱼网站检测模型。以此方式,可以采用经过数据加工的样本来快速训练钓鱼网站分类器,得到检测能力较强的钓鱼网站检测模型,进而基于该模型快速精确地检测待检测网站是否是钓鱼网站,提高检测效果。
Description
技术领域
本公开涉及机器学习领域,尤其涉及一种钓鱼网站检测模型的训练方法、装置、设备及存储介质。
背景技术
目前,在电子商务、网络购物、网上支付技术丰富我们生活的同时,不法分子趁虚而入,他们会向用户发送包含钓鱼网站链接的短信、邮件和聊天信息,当用户访问或进行操作时,会获取大量的用户隐私数据,对网络的安全环境造成巨大威胁。
传统钓鱼网站检测方法通常是基于关键字段匹配、特征库、网页排名等规则方法,识别钓鱼网站,但是其普遍存在检测效果较差的问题。因此,如何提高钓鱼网站的检测效果就成为了目前亟待解决的技术问题。
发明内容
本公开提供了一种钓鱼网站检测模型的训练方法、装置、设备及存储介质,能够提高钓鱼网站检测效果。
第一方面,本公开实施例提供了一种钓鱼网站检测模型的训练方法,该方法包括:
获取网站数据集,其中,网站数据集包括钓鱼网站样本集和非钓鱼网站样本集,钓鱼网站样本集和非钓鱼网站样本集中的样本的特征包括URL特征、异常操作特征、脚本特征和域名特征;
对网站数据集中的样本进行特征预处理;
对特征预处理后的样本进行特征提取;
采用特征提取后的样本对钓鱼网站分类器进行训练,得到钓鱼网站检测模型。
在第一方面的一些可实现方式中,获取网站数据集,包括:
分别获取钓鱼网站和非钓鱼网站的URL并提取钓鱼网站和非钓鱼网站的URL特征;
分别爬取钓鱼网站和非钓鱼网站的URL对应的网页代码;
根据钓鱼网站和非钓鱼网站的网页代码,分别提取钓鱼网站和非钓鱼网站的异常操作特征、脚本特征和域名特征;
分别对钓鱼网站和非钓鱼网站进行标注,得到钓鱼网站和非钓鱼网站的标签。
在第一方面的一些可实现方式中,对网站数据集中的样本进行特征预处理,包括:
对网站数据集中的样本对应的特征列进行数据清洗;
对数据清洗后的特征列进行归一化处理。
在第一方面的一些可实现方式中,对特征预处理后的样本进行特征提取,包括:
计算特征预处理后的样本对应的多个特征列与特征预处理后的样本对应的标签列的相关系数;
按照相关系数从小到大的顺序对特征预处理后的样本对应的多个特征列进行排序;
将排序后的多个特征列划分为M-N+1个特征组,其中,第i个特征组包括前i+N-1个特征列,i∈[1,M-N+1],M表示特征预处理后的样本对应的特征列的个数,N≤M且为正整数;
采用每个特征组中的特征列与标签列训练基线模型,得到每个特征组对应的评估指标;
保留特征预处理后的样本对应的多个特征列中在评估指标最高的特征组中存在的特征列。
在第一方面的一些可实现方式中,网站分类器包括SVM和随机森林;
采用特征提取后的样本对钓鱼网站分类器进行训练,得到钓鱼网站检测模型,包括:
将特征提取后的样本按照预设比例划分为训练集和测试集;
采用训练集中的样本分别对SVM和随机森林进行训练,得到目标SVM和目标随机森林;
采用测试集中的样本分别对目标SVM和目标随机森林进行测试,得到目标SVM和目标随机森林的评估指标;
选择评估指标最高的一方为钓鱼网站检测模型。
第二方面,本公开实施例提供了一种钓鱼网站检测方法,该方法包括:
获取待检测网站的特征;
基于钓鱼网站检测模型对特征进行检测,确定待检测网站是否为钓鱼网站,其中,钓鱼网站检测模型基于如以上所述的钓鱼网站检测模型的训练方法得到。
第三方面,本公开实施例提供了一种钓鱼网站检测模型的训练装置,该装置包括:
获取模块,用于获取网站数据集,其中,网站数据集包括钓鱼网站样本集和非钓鱼网站样本集,钓鱼网站样本集和非钓鱼网站样本集中的样本的特征包括URL特征、异常操作特征、脚本特征和域名特征;
预处理模块,用于对网站数据集中的样本进行特征预处理;
提取模块,用于对特征预处理后的样本进行特征提取;
训练模块,用于采用特征提取后的样本对钓鱼网站分类器进行训练,得到钓鱼网站检测模型。
第四方面,本公开实施例提供了一种钓鱼网站检测装置,该装置包括:
获取模块,用于获取待检测网站的特征;
检测模块,用于基于钓鱼网站检测模型对特征进行检测,确定待检测网站是否为钓鱼网站,其中,钓鱼网站检测模型基于如以上所述的钓鱼网站检测模型的训练方法得到。
第五方面,本公开实施例提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如以上所述的方法。
第六方面,本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如以上所述的方法。
第七方面,本公开实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序,计算机程序在被处理器执行时实现如以上所述的方法。
在本公开中,可以采用经过数据加工的泛化性较强的样本来快速训练钓鱼网站分类器,得到检测能力较强的钓鱼网站检测模型,进而基于该模型快速精确地检测待检测网站是否是钓鱼网站,提高检测效果。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。附图用于更好地理解本方案,不构成对本公开的限定在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示出了一种能够在其中实现本公开的实施例的示例性运行环境的示意图;
图2示出了本公开实施例提供的一种钓鱼网站检测模型的训练方法的流程图;
图3示出了本公开实施例提供的一种钓鱼网站检测方法的流程图;
图4示出了本公开实施例提供的一种钓鱼网站检测模型的训练装置的结构图;
图5示出了本公开实施例提供的一种钓鱼网站检测装置的结构图;
图6示出了一种能够实施本公开的实施例的示例性电子设备的结构图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
针对背景技术中出现的问题,本公开实施例提供了一种钓鱼网站检测模型的训练方法、装置、设备及存储介质。具体地,可以获取网站数据集,网站数据集包括钓鱼网站样本集和非钓鱼网站样本集,钓鱼网站样本集和非钓鱼网站样本集中的样本的特征包括URL特征、异常操作特征、脚本特征和域名特征,对网站数据集中的样本进行特征预处理,对特征预处理后的样本进行特征提取,采用特征提取后的样本对钓鱼网站分类器进行训练,得到检测能力较强的钓鱼网站检测模型,进而可以基于该模型快速精确地检测待检测网站是否是钓鱼网站,提高检测效果。
下面结合附图,通过具体的实施例对本公开实施例提供的钓鱼网站检测模型的训练方法、装置、设备及存储介质进行详细地说明。
图1示出了一种能够在其中实现本公开的实施例的示例性运行环境100的示意图,如图1所示,运行环境100中可以包括电子设备110和服务器120,其中,电子设备110可以通过有线网络或无线网络与服务器120通信连接。
电子设备110可以是移动电子设备,也可以是非移动电子设备。例如,移动电子设备可以是手机、平板电脑、笔记本电脑、掌上电脑或者超级移动个人计算机(Ultra-MobilePersonal Computer,UMPC)等,非移动电子设备可以是个人计算机(Personal Computer,PC)、电视(Television,TV)或者服务器等。
服务器120可以是开源数据平台,其中存储有网站数据集,示例性地,其可以是单个服务器、服务器集群或者云服务器等。
作为一个示例,电子设备110可以从服务器120中获取网站数据集,其中,网站数据集包括钓鱼网站样本集和非钓鱼网站样本集,且钓鱼网站样本集和非钓鱼网站样本集中的样本也即钓鱼网站样本和非钓鱼网站样本的特征包括URL特征、异常操作特征、脚本特征和域名特征。然后对网站数据集中的样本进行特征预处理,并对特征预处理后的样本进行特征提取,进而采用特征提取后的样本对钓鱼网站分类器进行训练,得到钓鱼网站检测模型。
在需要检测网站是否是钓鱼网站时,可以获取待检测网站的特征,基于钓鱼网站检测模型对该特征进行检测,进而确定待检测网站是否是钓鱼网站。
以此方式,可以采用经过数据加工的泛化性较强的样本来快速训练钓鱼网站分类器,得到检测能力较强的钓鱼网站检测模型,进而基于该模型快速精确地检测待检测网站是否是钓鱼网站,提高检测效果。
下面将详细介绍本公开实施例提供的钓鱼网站检测模型的训练方法,其中,该训练方法的执行主体可以是图1所示的电子设备110。
图2示出了本公开实施例提供的一种钓鱼网站检测模型的训练方法200的流程图,如图2所示,训练方法200可以包括以下步骤:
S210,获取网站数据集。
其中,网站数据集包括钓鱼网站样本集和非钓鱼网站样本集,钓鱼网站样本集和非钓鱼网站样本集中的样本的特征包括URL特征、异常操作特征、脚本特征和域名特征。
需要注意的是,网站的网页是由URL和网页代码也即HTML解析而来。URL的一般结构为:协议+域名+文件路径+查询参数。常见的钓鱼网站URL可划分为如下四种类型:包含多层子域名、域名长度较长、URL中包含IP地址、使用URL压缩服务。HTML使用标签标记页面的显示内容,HTML是具有层次结构的标签节点集合,主要包括文档节点、元素节点、文本节点和属性节点,并且某些脚本也嵌入其中,例如:JavaScript。
示例性地,可以分别获取钓鱼网站和非钓鱼网站的URL,从钓鱼网站和非钓鱼网站的URL中提取钓鱼网站和非钓鱼网站的URL特征。
其中,URL特征可以包括URL是否包含IP地址、URL长度、URL文件路径长度、URL查询参数长度、URL是否启用压缩服务、URL包含“~”、“%”、“@”、“//”、“-”、“&”、“_”、“.”、hash及数字字符等符号的数量、出现位置等。
同时,可以分别爬取钓鱼网站和非钓鱼网站的URL对应的网页代码,例如,可以利用爬虫工具分别爬取钓鱼网站和非钓鱼网站的URL对应的网页代码。然后根据钓鱼网站和非钓鱼网站的网页代码,分别提取钓鱼网站和非钓鱼网站的异常操作特征、脚本特征和域名特征。
其中,异常操作特征主要是统计针对表单、资源等的异常操作数量,可以包括各类请求的链接数、超链接标签个数和是否包含敏感信息/敏感信息提交至邮件。脚本特征是从HTML和JavaScript源码中获取的,可以包括网页的重定向编号和标签元素。比如,钓鱼常采用禁止右键操作,避免目标用户查看源码。或者将“iframe”标签设为不可见状态,又或者使用弹出窗口等方式。域名特征是基于域名的特征,包括判断关键域名是否在子域名中出现,关键域名是否在文件路径中隐藏,子域名的级别等。
此外,可以分别对钓鱼网站和非钓鱼网站进行标注,得到钓鱼网站和非钓鱼网站的标签。
以此方式,可以快速获取网站数据集,并且网站数据集中的样本均是泛化性较强的样本。
可选地,样本的特征还可以包括其他附加特征,例如频繁域名不匹配、假链接在地址栏中、浮动框架/嵌入框架、有无HTTPS、HTTPS在主机名中等,在此不做限制。
S220,对网站数据集中的样本进行特征预处理。
具体地,可以对网站数据集中的样本对应的特征列进行数据清洗,其中,特征列是由网站数据集中的样本的同一类特征组成的列,其数量为特征的类别数量,然后对数据清洗后的特征列进行归一化处理。如此一来,可以便于后续模型训练以及提高模型的准确率。
示例性地,数据清洗可以包括:
判断特征列是否需要进行字符类型转换,例如查看各特征列的特征值类别,发现除特征列PctExtHyperlinks、PctExtResourceUrls和PctNullSelfRedirectHyperlinks为float64类型外,其他特征列均为int64类型,且所有特征值均为数值型,无需进行字符转换。
若不需要进行字符类型转换,则判断特征列是否需要进行缺失值处理,例如查看各特征列是否存在缺失值,显示无缺失值,故不用进行缺失值处理。
若不需要进行缺失值处理,则接收用户输入的删除指令,删除多个特征列中与删除指令对应的特征列。例如,多个特征列中具有唯一性的特征列“id”,其除了标记样本的序号外无其他实际作用,故需要去除具有唯一性的特征列“id”。
归一化处理用于将特征列的特征值进行数据缩放,统一到相同量纲,可以包括:
采用min-max归一化算法或标准差归一化算法对数据清洗后的特征列进行归一化处理。其中,前者是将特征值范围变更到[0,1]之间,后者的特征值满足均值为0,方差为1的分布,但右边界不能严格控制小于等于1。
为了更好地进行归一化,可以优先选用min-max归一化算法对数据清洗后的特征列进行归一化处理,将特征值范围严格控制在[0,1]范围内。
此外,由于标签列的值为数字型0和1,且作为样本类别标识不必做处理,因此在特征预处理期间,可以将标签列移除,并在特征列处理后再将标签列拼接,重构完整的网站数据集,其中,标签列是由网站数据集中的样本的标签组成的列。
S230,对特征预处理后的样本进行特征提取。
在一些实施例中,可以计算特征预处理后的样本对应的多个特征列与特征预处理后的样本对应的标签列的相关系数例如Pearson相关系数。相关系数用于表示特征列与标签列的相关性。
例如,特征列“InscureForms”、“PctNullSelfRedirectHyperlinks”和“FrequentDomainNameMismatch”均对于标签列具有正相关。而特征列“NumDash”对于标签列具有负相关,说明破折号较少则可能是钓鱼网站。特征列“SubmitInfoToEmail”对于标签列具有负相关,表明用户将其详细信息提交到邮件中涉及的网站,则可能为钓鱼网站。另外,特征列“PctExtNullSelfRedirectHyperlinksRT”负相关,即出现次数越多,钓鱼网站概率越大。
然后按照相关系数从小到大的顺序对特征预处理后的样本对应的多个特征列进行排序,将排序后的多个特征列划分为M-N+1个特征组,其中,第i个特征组包括前i+N-1个特征列,i∈[1,M-N+1],M表示特征预处理后的样本对应的特征列的个数,N≤M且为正整数。假设M为49,则可以设N为20。
接着采用每个特征组中的特征列与标签列训练基线模型例如逻辑回归,得到每个特征组对应的评估指标例如准确率(accuacy)、检测率(precision)、召回率(recall)和f1-score,进而保留特征预处理后的样本对应的多个特征列中在评估指标最高的特征组中存在的特征列。
以此方式,可以从特征预处理后的样本对应的多个特征列中,选择训练效果较优的多个特征列,用于后续的模型训练,提高模型训练效果。
S240,采用特征提取后的样本对钓鱼网站分类器进行训练,得到钓鱼网站检测模型。
在一些实施例中,网站分类器可以包括支持向量机(Support Vector Machine,SVM)和随机森林。其中,SVM在二分类的应用场景下表现良好,钓鱼网站检测亦为二分类,故可选用。随机森林能够处理具有高维特征的输入样本,而且不需要降维,还可保障模型的准确率,是个“多方面”模型,故可选用。各个模型无人为初始设置,仅默认参数。
可以将特征提取后的样本按照预设比例例如8:2划分为训练集和测试集,然后采用训练集中的样本分别对SVM和随机森林进行训练,得到目标SVM和目标随机森林,并采用测试集中的样本分别对目标SVM和目标随机森林进行测试,得到目标SVM和目标随机森林的评估指标例如准确率、检测率、召回率、f1-score,进而选择评估指标最高的一方为钓鱼网站检测模型,保证钓鱼网站检测模型的检测性能。
示例性地,在训练随机森林训练过程中,可以根据特征提取后的特征列的数量,设定随机森林的最大深度,确定最大迭代次数,采用控制变量法进行调参优化,并可以根据准确率、检测率、召回率、f1-score调整模型的超参数,使模型达到较优的检测性能。
可选地,随机森林在未人工设置参数的情况下,若样本数量较少,则可能出现过拟合问题。此时,可采用训练特征数/测试特征数与误差、训练特征数/测试特征数与分数联合分析,确定是否过拟合。若过拟合,则采取相应措施例如修改随机森林的最大深度和最大迭代次数,避免过拟合。
根据本公开的实施例,可以采用经过数据加工的泛化性较强的样本来快速训练钓鱼网站分类器,得到检测能力较强的钓鱼网站检测模型,进而基于该模型快速精确地检测待检测网站是否是钓鱼网站,提高检测效果。
基于本公开实施例提供的钓鱼网站检测模型的训练方法200,本公开实施例还提供了一种钓鱼网站检测方法300,如图3所示,该钓鱼网站检测方法300可以应用于图1所示的电子设备110,包括以下步骤:
S310,获取待检测网站的特征。
S320,基于钓鱼网站检测模型对特征进行检测,确定待检测网站是否为钓鱼网站,其中,钓鱼网站检测模型基于如以上所述的钓鱼网站检测模型的训练方法得到。
具体地,可以将特征输入钓鱼网站检测模型,由钓鱼网站检测模型对该特征进行分析计算,确定待检测网站是否为钓鱼网站。
根据本公开的实施例,可以基于钓鱼网站检测模型快速精确地检测待检测网站是否为钓鱼网站,有效提高钓鱼网站检测效果,维护用户的网络安全。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本公开所必须的。
以上是关于方法实施例的介绍,以下通过装置实施例,对本公开所述方案进行进一步说明。
图4示出了根据本公开的实施例提供的一种钓鱼网站检测模型的训练装置400的结构图,如图4所示,训练装置400可以包括:
获取模块410,用于获取网站数据集,其中,网站数据集包括钓鱼网站样本集和非钓鱼网站样本集,钓鱼网站样本集和非钓鱼网站样本集中的样本的特征包括URL特征、异常操作特征、脚本特征和域名特征。
预处理模块420,用于对网站数据集中的样本进行特征预处理。
提取模块430,用于对特征预处理后的样本进行特征提取。
训练模块440,用于采用特征提取后的样本对钓鱼网站分类器进行训练,得到钓鱼网站检测模型。
在一些实施例中,获取模块410具体用于:
分别获取钓鱼网站和非钓鱼网站的URL并提取钓鱼网站和非钓鱼网站的URL特征。
分别爬取钓鱼网站和非钓鱼网站的URL对应的网页代码。
根据钓鱼网站和非钓鱼网站的网页代码,分别提取钓鱼网站和非钓鱼网站的异常操作特征、脚本特征和域名特征。
分别对钓鱼网站和非钓鱼网站进行标注,得到钓鱼网站和非钓鱼网站的标签。
在一些实施例中,预处理模块420具体用于:
对网站数据集中的样本对应的特征列进行数据清洗。
对数据清洗后的特征列进行归一化处理。
在一些实施例中,提取模块430具体用于:
计算特征预处理后的样本对应的多个特征列与特征预处理后的样本对应的标签列的相关系数。
按照相关系数从小到大的顺序对特征预处理后的样本对应的多个特征列进行排序。
将排序后的多个特征列划分为M-N+1个特征组,其中,第i个特征组包括前i+N-1个特征列,i∈[1,M-N+1],M表示特征预处理后的样本对应的特征列的个数,N≤M且为正整数。
采用每个特征组中的特征列与标签列训练基线模型,得到每个特征组对应的评估指标。
保留特征预处理后的样本对应的多个特征列中在评估指标最高的特征组中存在的特征列。
在一些实施例中,网站分类器包括SVM和随机森林。
训练模块440具体用于:
将特征提取后的样本按照预设比例划分为训练集和测试集。
采用训练集中的样本分别对SVM和随机森林进行训练,得到目标SVM和目标随机森林。
采用测试集中的样本分别对目标SVM和目标随机森林进行测试,得到目标SVM和目标随机森林的评估指标。
选择评估指标最高的一方为钓鱼网站检测模型。
可以理解的是,图4所示训练装置400中的各个模块/单元具有实现本公开实施例提供的训练方法200中的各个步骤的功能,并能达到其相应的技术效果,为了简洁,在此不再赘述。
图5示出了根据本公开的实施例提供的一种钓鱼网站检测装置500的结构图,如图5所示,钓鱼网站检测装置500可以包括:
获取模块510,用于获取待检测网站的特征。
检测模块520,用于基于钓鱼网站检测模型对特征进行检测,确定待检测网站是否为钓鱼网站,其中,钓鱼网站检测模型基于如以上所述的钓鱼网站检测模型的训练方法得到。
可以理解的是,图5所示钓鱼网站检测装置500中的各个模块/单元具有实现本公开实施例提供的钓鱼网站检测方法300中的各个步骤的功能,并能达到其相应的技术效果,为了简洁,在此不再赘述。
图6示出了一种可以用来实施本公开的实施例的电子设备600的结构图。电子设备600旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备600还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,电子设备600可以包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM603中,还可存储电子设备600操作所需的各种程序和数据。计算单元601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
电子设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如方法200或方法300。例如,在一些实施例中,方法200或方法300可被实现为计算机程序产品,包括计算机程序,其被有形地包含于计算机可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM603并由计算单元601执行时,可以执行上文描述的方法200或方法300的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法200或方法300。
本文中以上描述的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,计算机可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。计算机可读介质可以是计算机可读信号介质或计算机可读储存介质。计算机可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。计算机可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
需要注意的是,本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行方法200或方法300,并达到本公开实施例执行其方法达到的相应技术效果,为简洁描述,在此不再赘述。
另外,本公开还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,计算机程序在被处理器执行时实现方法200或方法300。
为了提供与用户的交互,可以在计算机上实施以上描述的实施例,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将以上描述的实施例实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (10)
1.一种钓鱼网站检测模型的训练方法,其特征在于,所述方法包括:
获取网站数据集,其中,所述网站数据集包括钓鱼网站样本集和非钓鱼网站样本集,所述钓鱼网站样本集和所述非钓鱼网站样本集中的样本的特征包括URL特征、异常操作特征、脚本特征和域名特征;
对所述网站数据集中的样本进行特征预处理;
对特征预处理后的样本进行特征提取;
采用特征提取后的样本对钓鱼网站分类器进行训练,得到钓鱼网站检测模型。
2.根据权利要求1所述的方法,其特征在于,所述获取网站数据集,包括:
分别获取钓鱼网站和非钓鱼网站的URL并提取所述钓鱼网站和所述非钓鱼网站的URL特征;
分别爬取所述钓鱼网站和所述非钓鱼网站的URL对应的网页代码;
根据所述钓鱼网站和所述非钓鱼网站的网页代码,分别提取所述钓鱼网站和所述非钓鱼网站的异常操作特征、脚本特征和域名特征;
分别对所述钓鱼网站和所述非钓鱼网站进行标注,得到所述钓鱼网站和所述非钓鱼网站的标签。
3.根据权利要求1所述的方法,其特征在于,所述对所述网站数据集中的样本进行特征预处理,包括:
对所述网站数据集中的样本对应的特征列进行数据清洗;
对数据清洗后的特征列进行归一化处理。
4.根据权利要求1所述的方法,其特征在于,所述对特征预处理后的样本进行特征提取,包括:
计算特征预处理后的样本对应的多个特征列与特征预处理后的样本对应的标签列的相关系数;
按照相关系数从小到大的顺序对特征预处理后的样本对应的多个特征列进行排序;
将排序后的多个特征列划分为M-N+1个特征组,其中,第i个特征组包括前i+N-1个特征列,i∈[1,M-N+1],M表示特征预处理后的样本对应的特征列的个数,N≤M且为正整数;
采用每个特征组中的特征列与所述标签列训练基线模型,得到每个特征组对应的评估指标;
保留特征预处理后的样本对应的多个特征列中在评估指标最高的特征组中存在的特征列。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述网站分类器包括SVM和随机森林;
所述采用特征提取后的样本对钓鱼网站分类器进行训练,得到钓鱼网站检测模型,包括:
将所述特征提取后的样本按照预设比例划分为训练集和测试集;
采用训练集中的样本分别对SVM和随机森林进行训练,得到目标SVM和目标随机森林;
采用测试集中的样本分别对目标SVM和目标随机森林进行测试,得到目标SVM和目标随机森林的评估指标;
选择评估指标最高的一方为钓鱼网站检测模型。
6.一种钓鱼网站检测方法,其特征在于,所述方法包括:
获取待检测网站的特征;
基于钓鱼网站检测模型对所述特征进行检测,确定所述待检测网站是否为钓鱼网站,其中,所述钓鱼网站检测模型基于权利要求1-5中任一项所述的钓鱼网站检测模型的训练方法得到。
7.一种钓鱼网站检测模型的训练装置,其特征在于,所述装置包括:
获取模块,用于获取网站数据集,其中,所述网站数据集包括钓鱼网站样本集和非钓鱼网站样本集,所述钓鱼网站样本集和所述非钓鱼网站样本集中的样本的特征包括URL特征、异常操作特征、脚本特征和域名特征;
预处理模块,用于对所述网站数据集中的样本进行特征预处理;
提取模块,用于对特征预处理后的样本进行特征提取;
训练模块,用于采用特征提取后的样本对钓鱼网站分类器进行训练,得到钓鱼网站检测模型。
8.一种钓鱼网站检测装置,其特征在于,所述装置包括:
获取模块,用于获取待检测网站的特征;
检测模块,用于基于钓鱼网站检测模型对所述特征进行检测,确定所述待检测网站是否为钓鱼网站,其中,所述钓鱼网站检测模型基于权利要求1-5中任一项所述的钓鱼网站检测模型的训练方法得到。
9.一种电子设备,其特征在于,所述设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-6中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使计算机执行权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111566872.0A CN114363019B (zh) | 2021-12-20 | 2021-12-20 | 钓鱼网站检测模型的训练方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111566872.0A CN114363019B (zh) | 2021-12-20 | 2021-12-20 | 钓鱼网站检测模型的训练方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114363019A true CN114363019A (zh) | 2022-04-15 |
CN114363019B CN114363019B (zh) | 2024-04-16 |
Family
ID=81100903
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111566872.0A Active CN114363019B (zh) | 2021-12-20 | 2021-12-20 | 钓鱼网站检测模型的训练方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114363019B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115001763A (zh) * | 2022-05-20 | 2022-09-02 | 北京天融信网络安全技术有限公司 | 钓鱼网站攻击检测方法、装置、电子设备及存储介质 |
US20220353292A1 (en) * | 2021-04-29 | 2022-11-03 | Microsoft Technology Licensing, Llc | Webpage phishing detection using deep reinforcement learning |
CN116108880A (zh) * | 2023-04-12 | 2023-05-12 | 北京华云安信息技术有限公司 | 随机森林模型的训练方法、恶意网站检测方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292097A (zh) * | 2017-06-14 | 2017-10-24 | 华东理工大学 | 基于特征组的特征选择方法、及中医主症选择方法 |
CN108965245A (zh) * | 2018-05-31 | 2018-12-07 | 国家计算机网络与信息安全管理中心 | 基于自适应异构多分类模型的钓鱼网站检测方法和系统 |
CN109840413A (zh) * | 2017-11-28 | 2019-06-04 | 中国移动通信集团浙江有限公司 | 一种钓鱼网站检测方法及装置 |
CN112468285A (zh) * | 2021-02-01 | 2021-03-09 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护的数据处理方法、装置和服务器 |
CN113098887A (zh) * | 2021-04-14 | 2021-07-09 | 西安工业大学 | 一种基于网站联合特征的钓鱼网站检测方法 |
CN113347177A (zh) * | 2021-05-31 | 2021-09-03 | 中国工商银行股份有限公司 | 钓鱼网站检测方法、检测系统、电子设备及可读存储介质 |
-
2021
- 2021-12-20 CN CN202111566872.0A patent/CN114363019B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292097A (zh) * | 2017-06-14 | 2017-10-24 | 华东理工大学 | 基于特征组的特征选择方法、及中医主症选择方法 |
CN109840413A (zh) * | 2017-11-28 | 2019-06-04 | 中国移动通信集团浙江有限公司 | 一种钓鱼网站检测方法及装置 |
CN108965245A (zh) * | 2018-05-31 | 2018-12-07 | 国家计算机网络与信息安全管理中心 | 基于自适应异构多分类模型的钓鱼网站检测方法和系统 |
CN112468285A (zh) * | 2021-02-01 | 2021-03-09 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护的数据处理方法、装置和服务器 |
CN113098887A (zh) * | 2021-04-14 | 2021-07-09 | 西安工业大学 | 一种基于网站联合特征的钓鱼网站检测方法 |
CN113347177A (zh) * | 2021-05-31 | 2021-09-03 | 中国工商银行股份有限公司 | 钓鱼网站检测方法、检测系统、电子设备及可读存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220353292A1 (en) * | 2021-04-29 | 2022-11-03 | Microsoft Technology Licensing, Llc | Webpage phishing detection using deep reinforcement learning |
US11595438B2 (en) * | 2021-04-29 | 2023-02-28 | Microsoft Technology Licensing, Llc | Webpage phishing detection using deep reinforcement learning |
CN115001763A (zh) * | 2022-05-20 | 2022-09-02 | 北京天融信网络安全技术有限公司 | 钓鱼网站攻击检测方法、装置、电子设备及存储介质 |
CN115001763B (zh) * | 2022-05-20 | 2024-03-19 | 北京天融信网络安全技术有限公司 | 钓鱼网站攻击检测方法、装置、电子设备及存储介质 |
CN116108880A (zh) * | 2023-04-12 | 2023-05-12 | 北京华云安信息技术有限公司 | 随机森林模型的训练方法、恶意网站检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114363019B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11062089B2 (en) | Method and apparatus for generating information | |
CN114363019B (zh) | 钓鱼网站检测模型的训练方法、装置、设备及存储介质 | |
JP2013502000A (ja) | ウェブページコンテンツフィルタリングのための方法およびシステム | |
CN111147431B (zh) | 用于生成信息的方法和装置 | |
CN107944032B (zh) | 用于生成信息的方法和装置 | |
CN110750707A (zh) | 关键词推荐方法、装置和电子设备 | |
CN113806660B (zh) | 数据评估方法、训练方法、装置、电子设备以及存储介质 | |
CN110751354B (zh) | 一种异常用户的检测方法和装置 | |
CN113535813A (zh) | 一种数据挖掘方法、装置、电子设备以及存储介质 | |
CN113190746A (zh) | 推荐模型的评估方法、装置及电子设备 | |
US20230085684A1 (en) | Method of recommending data, electronic device, and medium | |
CN116597443A (zh) | 素材标签处理方法、装置、电子设备及介质 | |
CN116108880A (zh) | 随机森林模型的训练方法、恶意网站检测方法及装置 | |
CN113536087B (zh) | 作弊站点的识别方法、装置、设备、存储介质及程序产品 | |
CN114254650A (zh) | 一种信息处理方法、装置、设备及介质 | |
CN113239273A (zh) | 用于生成文本的方法、装置、设备以及存储介质 | |
CN114048315A (zh) | 确定文档标签的方法、装置、电子设备和存储介质 | |
CN113032251A (zh) | 应用程序服务质量的确定方法、设备和存储介质 | |
CN112528644A (zh) | 实体挂载的方法、装置、设备以及存储介质 | |
CN107679030B (zh) | 基于用户操作行为数据提取同义词的方法和装置 | |
CN113342969A (zh) | 数据处理方法和装置 | |
CN113327145A (zh) | 一种物品推荐方法和装置 | |
CN113868660B (zh) | 恶意软件检测模型的训练方法、装置以及设备 | |
CN114637921B (zh) | 基于建模偶然不确定性的物品推荐方法、装置和设备 | |
CN110532540B (zh) | 确定用户偏好的方法、系统、计算机系统和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |