CN113098887A

CN113098887A - 一种基于网站联合特征的钓鱼网站检测方法

Info

Publication number: CN113098887A
Application number: CN202110400150.1A
Authority: CN
Inventors: 容晓峰; 折宇超; 贾雪鹏
Original assignee: Xian Technological University
Current assignee: Xian Technological University
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2021-07-09

Abstract

本发明涉及Web安全以及人工智能领域，具体涉及一种基于网站联合特征的钓鱼网站检测方法，该方法是基于网站URL特征、网站内容、网站第三方服务特征信息以及网站被访问时内部的状态转移变化矩阵的联合特征的钓鱼网站检测方法，该方法通过预先建立黑、白数据集并分配标签，对其中每个网站进行格式、内容、WHOI S信息以及被访问时内部的状态转移变化矩阵进行特征提取，经过数据整理后形成网站联合特征向量，在利用不同机器学习分类算法结合联合特征进行训练，经过数据训练和测试后得到最优钓鱼网站检测分类器模型。本发明的优点是网站特征概括性强，利用URL特征、网站内容、网站第三方服务特征信息以及网站被访问时内部的状态转移变化矩阵的联合特征使网站描述更加准确。

Description

一种基于网站联合特征的钓鱼网站检测方法

技术领域

本发明属于Web安全以及人工智能技术领域，具体涉及一种基于网站联合特征的钓鱼网站检测方法。

背景技术

现如今，互联网使人们的生活更加方便快捷，其功能也从单一的信息共享逐步演变成为大众化的信息交流。在电子商务、网络购物、网上支付技术丰富我们生活的同时，不法分子趁虚而入，他们利用网络钓鱼技术(如钓鱼网站) 诱骗用户信息，从中牟取暴利。

钓鱼网站不仅使个人财产遭受损失，同时对国家网络安全构成巨大威胁。因此防止网络钓鱼攻击成为网络安全领域研究的重点。据《中国互联网发展状况与安全报告》统计，仅在2015年，我国钓鱼网站数量已经远超2014年的9.3 万个，同比增长49.4％。而据中国电子商务协会数据显示，截至目前，我国因网络钓鱼受骗网民数量已达6000多万，年经济损失超过300亿元。对此，国内外学术研究机构和科技企业从未间断过对钓鱼网站的检测研究。然而由于钓鱼网站存活期短、数量庞大，威胁性强，一直以来人们都无法对钓鱼网站做到完全识别和检测，从根本上防御钓鱼网站。

目前，预测网络钓鱼的策略分为三大类别：自动消除钓鱼威胁、警告用户存在威胁和训练用户识别威胁。自动消除钓鱼威胁旨在保护用户而不需要用户做出任何意识或行动，当钓鱼网页被拦截则用户受到保护，然后将此钓鱼网页添加到黑名单中。一些网络安全厂商和电子邮件供应商使用黑名单、垃圾邮件过滤器、机器学习技术来识别钓鱼网页和钓鱼邮件；也有一些工具通过警告用户的方式通知此网页访问很可能是钓鱼网页，例如，主流的网络浏览器现在试图警告访问钓鱼网页的用户。然而这些方法有明显的缺陷，特别是这些浏览器插件工具需要最终用户参与，因此如果用户对此功能不理解，此方法存在失效的可能。然而互联网发展迅速，使用互联网的人群专业素质不等，同时高成本的训练代价也无法对大批量的用户进行专业训练。

发明内容

本发明的目的是提供一种基于稠密边界时空网络的时序行为检测方法，主要解决了基于机器学习技术进行进行钓鱼网站检测的问题。

为了达到上述目的，本发明的技术方案是：

一种基于网站联合特征的钓鱼网站检测方法，具体包括如下步骤：

步骤1、用网站爬虫技术从网站资源库分别获取钓鱼网站和合法网站URL特征、网站内容信息和第三方服务特征信息并为钓鱼网站和合法网站分配不同的标签，钓鱼网站标签为1，合法网站标签为0；

步骤2、使用有限状态自动机模型分别获取钓鱼网站和正常网站被访问时内部的状态转移变化矩阵的信息；

步骤3、对步骤1和步骤2所得信息进行特征提取；

步骤4、对步骤3提取到的特征进行数字向量化处理，并以特征矩阵的形式表示；

步骤5、对步骤4的特征矩阵进行过滤式特征选择，保留对模型影响较大的特征，组成网站联合特征向量；

步骤6、建立基于联合特征的钓鱼网站检测算法模型，利用钓鱼网站检测算法模型训练出钓鱼网站分类器，对可疑网站是否为钓鱼网站做出判断。

进一步的，步骤1中：

分别获取每个钓鱼网站URL对应的HTML-Dom、每个合法网站URL的HTML-Dom 以及每个钓鱼网站URL对应的网站内容、每个合法网站URL对应的网站内容；

获取第三方服务服务特征信息，包括WHIOIS信息和Alexa网页排名信息；

将获取的钓鱼网站和合法网站分配标签进行区别。

进一步的，步骤2中：

获取网站被访问时内部的状态转移信息，模拟用户访问钓鱼网站和合法网站会进行的操作并记录状态，遍历用户所有可能访问的状态，并记录。

进一步的，步骤3中：

提取网站URL特征包括：URL长度值分布、URL分割规律特征、IP地址特征、标点符号特征、敏感词汇特征、位置异常特征；

提取网站内容特征包括：HTML-Dom的文本特征、HTML-Dom的标签特征、网站的内容和结构特征、网站的内部链接特征、网站的PageRank特征、备案号信息；

提取网站第三方服务信息包括：WHIOIS信息中域名注册时间信息、Alexa 网页排名信息。

进一步的，步骤4中：

所述数字向量化处理方法包括：数字特征、文本特征、布尔特征的转化以及归一化、矩阵化处理，最终形成特征矩阵形式表示的特征向量。

进一步的，步骤5中：

所述过滤式特征选择的方法包括卡方检验。

进一步的，步骤6的具体步骤如下：

步骤601、将所有网站联合特征向量和标签数字特征矩阵和标签分为二组；第一组用于训练模型，第二组用于测试模型；

步骤602、对第一组网站联合特征向量和标签数字特征和分类的标签输入分类器中进行分类，分类器包括：逻辑回归、支持向量机、随机森林、神经网络，对模型的输出结果进行测评，调节模型参数评估并修正模型；

步骤603、将第二组网站联合特征向量和标签数字特征和分类的标签输入到成熟模型中，对模型的输出结果进行测评，得到实际测量值，即可以判定每一个URL是否为钓鱼网站。

与现有技术相比，本发明的有益效果如下：

本发明通过增加基于网站URL、网站内容、网站第三方服务特征信息以及网站被访问时内部的状态转移变化矩阵的联合特征来提高使用人工智能分类方法进行钓鱼网站判定的准确度。

本发明通过把经过整理后的特征向量作为机器学习算法的输入，利用选择逻辑回归(Logistic Regression)、支持向量机(Support Vector Machine)、随机森林(RandomForest)、神经网络(NeuralNetwork)等不同机器学习分类算法结合联合特征进行训练，经过数据训练和测试后得到最优钓鱼网站检测分类器模型作为本次的分类器。

附图说明

图1为获取钓鱼网站和合法网站的URL、HTML-Dom、第三方服务信息、网站被访问时内部的状态转移变化矩阵，构建数据集的流程图；

图2为特征提取的流程图；

图3为特征向量化的流程图；

图4为机器学习分类算法训练和网站测试流程图；

图5为本发明方法的总体流程图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合实施例对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。详细步骤如下所述：

图5为本发明方法的总体流程图，具体包括如下步骤：

步骤1、用网站爬虫技术从网站资源库分别获取钓鱼网站和合法网站URL、网站内容信息和第三方服务特征信息并为钓鱼网站和合法网站分配不同的标签，钓鱼网站标签为1，合法网站标签为0；

步骤2、分别获取钓鱼网站和正常网站被访问时内部的状态转移变化矩阵的信息；

步骤3、对步骤1和步骤2所得信息进行特征提取；

步骤5、对步骤4的特征矩阵进行过滤式特征选择，保留对模型影响较大的特征，组成联合特征；

实施例：

图1为搭建数据库流程图，包括如下步骤：

步骤一：获取网站的URL；分别获取钓鱼网站的URL和正常网站的URL。

步骤1.1：获取钓鱼网站的URL；利用网站爬虫技术从www.PhishTank.com 等网站上获取一段时间内容的钓鱼网站的URL并为其分配标签1。(PhishTank 是一个反钓鱼网站的免费社区性网站，任何人都能提交、验证、追踪和分享钓鱼网站信息)

步骤1.2：获取正常网站的URL；利用网站爬虫技术从www.DOMZ.com等网站上获取不同分类的网站的URL，再随机提取出正常网站的URL数据并为其分配标签0。(DMOZ网站是一个开放式分类目录，它是由来自世界各地的志愿者共同维护与建设的最大的全球目录社区)

步骤1.3：将获取到的钓鱼网站的URL、标签和正常网站的URL、标签存入 MySQL数据表中，字段名称为URL。

步骤二：获取网站URL相对应的HTML-Dom；分别获取每个钓鱼网站URL对应的HTML-Dom和每个正常网站URL的HTML-Dom。

步骤2.1：利用Python的urllib模块对每个URL的网站内容进行在线抓取。

步骤2.2：将获取的HTML-Dom存入数据表，与每个URL一一对应，字段名称为HTML。

步骤三：获取网站对应的第三方服务信息特征，包括WHOIS信息中的域名注册日期等以及该网页在Alexa网页排名中信息等特征。

步骤四：获取网站被访问时内部的状态转移信息。模拟用户访问该网页会进行的操作并记录状态，遍历用户所有可能访问的状态，并记录。

步骤五：根据以获取的URL、标签、HTML-Dom、第三方服务信息特征、网站被访问时内部的状态转移的信息数据，将数据表分为两部分：一部分作为训练数据集，另一部分作为测试数据集。

步骤3.1：根据4：1的比例数据分成训练集和测试集。

步骤3.2：训练集和测试集中的钓鱼网站数据和正常网站数据比例均为2：1。

步骤六：给训练数据集添加标签字段；根据钓鱼网站和正常网站的不同，用“0”表示正常网站，用“1”表示钓鱼网站。

图2为特征提取流程图，具体包括：

步骤一：提取网站URL特征；每提取一个特征，将特征值存储在数据表中。

步骤1.1：计算URL的长度值分布，利用切比雪夫不等式计算异常值，用数字特征表示。

步骤1.2：提取域名的分割规律特征；通常，URL由主机名、路径、请求等组成。本步骤包括统计URL各个组成部分的长度或组成方式，用数字特征表示。

步骤1.3：提取域名的IP地址特征；一般情况下，为了使用户方便使用和记忆，域名中通常不出来IP地址，否则可能是钓鱼网站，这个特征可以用布尔特征来表示：“0”代表域名中无IP地址，“1”代表域名中存在IP地址。

步骤1.4：提取域名中的标点符号特征；包括“.”，“—”，“@”等，用数字表示其出现的次数。

通常情况下，域名中出现“@”表示：一切在“@”左边出现的本域名区别内的属于无效内容，域名在被网络访问时不考虑这些内容，而“@”右边的内容才是URL被网络识别的；而“—”通常与不会作为正常的内容出现在URL中，因此这些符号可以作为判断是否是钓鱼网站的有意义特征。

步骤1.5：提取域名中的敏感词汇特征；例如：“taobao”，“login”等。

URL中出现的敏感词汇通常包括知名公司名或人们熟知的内容，钓鱼网站的 URL种可能会出现这些高频词汇的变体，如“taoboo”。我们通后收集合法URL 中出现的高频词汇，钓鱼网站的URL若是模仿这些合法的词汇，则通过词向量相似的方法，提取出这一特征。

其中，word2vec主要是将文本语料库转换成词向量。它会先从训练文本数据中构建一个词汇，然后获取向量表示词，由此产生的词向量可以和待测词组向量内积空间的夹角的余弦值来度量它们之间的相似性，即余弦距离，公式如下：

规定一个阈值，若余弦距离超出阈值或为1，用“0”表示不存在模仿词汇，否则用“1”表示存在模仿词汇。

步骤1.6：提取域名中位置异常特征；包括域名出现在理论上不可能出现的位置，如“.com”出现在域名的中间位置而非顶级域名的位置。用布尔特征表示特定在域名关键字是否出现在正确的域名位置中，用“0”表示出现在正确位置，“1”表示出现在异常位置。

步骤二：提取网站内容(HTML-Dom)特征；每提取一个特征，将特征值存储在数据表中。

步骤2.1：提取HTML-Dom的文本特征；统计网站中出现频率较高的词汇，这些词汇的出现并非偶然现象，而代表了普遍钓鱼网站中出现的词汇。

步骤2.2：提取HTML-Dom的标签特征；用BeautifulSoup工具解析HTML-Dom，统计特殊标签的个数，包括<input>、<password>等输入框、密码框、验证码的出现次数，用数字表示其出现的次数。

通常，钓鱼网站是为了通过模仿合法网站盗取用户的关键信息，因此，一个钓鱼网站肯定包括输入框等必要的组件，这些组件是攻击者获取信息的必要途径。

步骤2.3：提取网站的内容和结构特征；包括版权信息的位置和表示类型以及公司或主机名。用特定的版权符号，例如：“Inc.”来表示；此外，版权内容通常与网站域名信息包含相同的信息，这些信息都用数字特征来表示。

步骤2.4：提取网站的内部链接特征；搜索网站中的出现的URL，统计它们是否是外部链接、自身链接或是相同链接。用数字特征表示。

步骤2.5：提取网站的PageRank特征；

步骤2.6：提取网站是否具有备案号信息。

步骤三：获取网站第三方服务信息特征，包括WHIOIS信息中域名注册时间等信息和Alexa网页排名等信息。

步骤四：获取网站被访问时内部的状态转移变化矩阵。模拟用户访问该网页会进行的操

作并记录状态，遍历用户所有可能访问的状态，使用有限状态自动机模型建立网站的内部状态转移矩阵，形成数字特征。

图3为特征向量化流程图，具体包括：

步骤一：将特征提取部分得到的各种特征做特征排列；记录特征提取部分提取的每个特征的顺序，用a1,a2,…,aN表示每个特征的编号。

确定所用特征依次排列的顺序，这个顺序就是之后特征向量中的特征元素排列顺序。保证提取的每个特征在特征向量中有固定的位置，是特征向量化的基础。

步骤二：将排列好的特征做数字化处理；机器学习算法的输入特征必须满足：特征为数字特征。

步骤2.1：数字特征的转化；数字特征无需转化，直接使用即可。

步骤2.2：文本特征的转化；文本特征需经过如距离计算、频率计算等操作转化为数字特征。

步骤2.3：布尔特征的转化；布尔型的特征包括“0”和“1”值，它们即数字特征。

步骤三：将数字化后的特征做归一化处理；

数据标准化(归一化)处理是数据挖掘的一项基础工作，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。

步骤3.1：使用离差标准化方法，标准化除布尔特征外的特征。离差标准化是对原始数据的线性变换，使结果值映射到[0-1]之间。公式如下所示：

其中max为样本数据的最大值，min为样本数据的最小值。

步骤3.2：由于标准化的值映射是[0-1]之间，因此保持布尔特征的数值不变。

步骤四：将归一化后的特征矩阵化；将所有特征转化到要求的格式后，将训练集的24000个样本的的所有特征矩阵化，得到矩阵M，如式所示：

第四部分：过滤式特征选择,本实施例包括：

步骤一：将卡方检验作为特征选择方法，选择并过滤出前N项的特征数据。

卡方检验属于特征过滤法，它是按照发散性或者相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，选择特征。

步骤二：卡方检验是检验定性自变量对定性因变量的相关性。假设自变量有N种取值，因变量有M种取值，考虑自变量等于i且因变量等于j的样本频数的观察值与期望的差距，构建统计量：

这个统计量的含义简而言之就是自变量对因变量的相关性。

步骤三：用feature_selection库的SelectKBest类结合卡方检验进行选择特征。

图4为机器学习算法模块流程图，具体包括：

步骤一：选择合适的机器学习算法。

本专利选择逻辑回归(Logistic Regression)、支持向量机(Support VectorMachine)、随机森林(Random Forest)、神经网络(Netural Network)等机器学习算法作为主要的分类算法。

步骤二：将训练集的特征矩阵作为机器学习算法的输入，输入到算法模型中；将特征提取实施例中得到的特征矩阵输入步骤一选择的算法模型，开始进行模型的训练过程。

步骤三：调整每个算法的相关参数，记录每次训练的参数搭配。

逻辑回归使用L1、L2正则项来解决优化问题，如下两公式分别表示L1正则项和L2正则项的算法公式：

其中，需要调试的参数是C。

支持向量机中，选择核函数是关键，本方法使用线性核函数：<x,x’>和指数核函数：

exp(-γ|x-x′|²)

其中，需要调试的参数是γ，且γ>0。

随机森林算法需要调试的参数包括森林中的树的数量n_estimators和树的最大深度max_depth。

步骤四：调整线性模型的迭代次数；迭代是算法线性模型最优化的数学方法，控制算法迭代次数是控制时间和准确度的权衡。

步骤五：对于线性模型进行交叉验证。将训练集平均分为4部分：将其中3 部分作为交叉验证集，剩余的1部分作为交叉测试集，进行4次训练，取4次训练参数的平均值作为模型的参数。

步骤六：将交叉验证后得到的模型用在测试集上，找到最优模型；

步骤6.1：将测试集数据经过特征向量化实施例后，输入步骤五的模型中。

步骤6.2：计算模型的得分情况，共0—100分，100分表示检测出的网站全为钓鱼网站。

设模型得分为F＝5PR/(3P+2R)100，其中，设定准确率为P，召回率为R，公式如下所示：

P＝系统检索到的钓鱼网站/系统所检索到的网站总数；

R＝系统检索到的钓鱼网站/系统所有的钓鱼网站数。

步骤6.3：重复步骤三、四，直到模型的得分收敛在F+(-)0.05，停止循环，输出这个最优模型。

步骤七：将未知网站输入系统，检测其是否为钓鱼网站；

在本发明中，输入的未知网站也要经过特征提取，特征向量化等过程，输入到最优分类器中后，可得到最终的判断结果。若被判断为正常网站，则允许用户继续访问；否则进行拦截警告。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。任何熟悉该技术的人在本发明所揭露的技术范围内的局部修改或替换，都应涵盖在本发明的包含范围之内。

Claims

1.一种基于网站联合特征的钓鱼网站检测方法，其特征在于，具体包括如下步骤：

步骤3、对步骤1和步骤2所得信息进行特征提取；

2.根据权利要求1所述基于网站联合特征的钓鱼网站检测方法，其特征在于，步骤1中：

分别获取每个钓鱼网站URL对应的HTML-Dom、每个合法网站URL的HTML-Dom以及每个钓鱼网站URL对应的网站内容、每个合法网站URL对应的网站内容；

将获取的钓鱼网站和合法网站分配标签进行区别。

3.根据权利要求1所述基于网站联合特征的钓鱼网站检测方法，其特征在于，步骤2中：

4.根据权利要求1所述基于网站联合特征的钓鱼网站检测方法，其特征在于，步骤3中：

提取网站第三方服务信息包括：WHIOIS信息中域名注册时间信息、Alexa网页排名信息。

5.根据权利要求1所述基于网站联合特征的钓鱼网站检测方法，其特征在于，步骤4中：

6.根据权利要求1所述基于网站联合特征的钓鱼网站检测方法，其特征在于，步骤5中：

所述过滤式特征选择的方法包括卡方检验。

7.根据权利要求1所述基于网站联合特征的钓鱼网站检测方法，其特征在于，步骤6的具体步骤如下：