CN113051500B

CN113051500B - 一种融合多源数据的钓鱼网站识别方法及系统

Info

Publication number: CN113051500B
Application number: CN202110321608.4A
Authority: CN
Inventors: 胡忠义; 吴江; 张硕果
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2022-08-16
Anticipated expiration: 2041-03-25
Also published as: CN113051500A

Abstract

本发明提供一种融合多源数据的钓鱼网站识别方法及系统，包括：确定钓鱼网站和合法网站样本；基于网站URL采集各个网站的多源特征数据；并对URL多源特征数据处理后得到网站URL多源特征的高维特征向量；对网站URL进行分词、分字操作，将词向量矩阵和字符级向量矩阵进行拼接，得到网站URL的高维特征向量；将网站URL多源特征的高维特征向量和网站URL的高维特征向量拼接，得到各个网站的特征向量；将特征向量和各个网站的标签组合形成样本数据集，将样本数据集输入到分类模型进行训练，将训练好的分类模型作为钓鱼网站识别模型；基于钓鱼网站识别模型对待识别网站进行识别，判断其是否为钓鱼网站。本发明提供一种高精度的钓鱼网站识别方案。

Description

一种融合多源数据的钓鱼网站识别方法及系统

技术领域

本发明属于钓鱼网站识别技术领域，更具体地，涉及一种融合多源数据的钓鱼网站识别方法及系统。

背景技术

“钓鱼网站”是一种网络欺诈行为，指不法分子利用各种手段，仿冒真实网站的统一资源定位系统(uniform resource locator；URL)地址以及页面内容，或者利用真实网站服务器程序上的漏洞在站点的某些网页中插入危险的HTML代码，以此来骗取用户银行或信用卡账号、密码等私人资料。

现有技术可以通过两次模型的训练得到最终的判别结果以高效地实现钓鱼网站的识别。但是该技术对于特征的选择相对简单，没有考虑到更丰富的特征。另外，现有技术还可以融合字符级特征和单词级特征，以进行钓鱼网站识别，该技术存在问题是：一方面，其对于单词级特征的提取相对简单，不能够提取单词之间的序列特征，也难以应对新词的输入；另一方面，该技术也难以克服分词的不准确性。此外，现有技术可以融合URL字符级特征和部分多源特征，以进行钓鱼网站识别，然而，该技术融合的输入特征有限，缺乏对URL单词级特征以及更多多源特征的提取和融合，进而影响模型性能。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种融合多源数据的钓鱼网站识别方法及系统，旨在解决现有钓鱼网站识别选择的特征相对简单，识别性能低的问题。

为实现上述目的，第一方面，本发明提供了一种融合多源数据的钓鱼网站识别方法，包括如下步骤：

确定钓鱼网站和合法网站两类训练样本，为两类样本分别打上两种不同的标签；

基于每个网站的URL采集各个网站的多源特征数据；并按照预设标准对采集到的URL多源特征数据选择处理后得到每个网站URL多源特征的高维特征向量；

对每个网站URL进行分词操作，得到每个网站URL的词向量矩阵，并对每个网站URL进行分字操作，得到每个网站URL的字符级向量矩阵，将所述词向量矩阵和字符级向量矩阵进行拼接，并输入到神经模型训练和降维，得到每个网站URL的高维特征向量；

将各个网站URL多源特征的高维特征向量和各个网站URL的高维特征向量拼接，得到各个网站的特征向量；

将所述各个网站的特征向量和各个网站的标签组合形成样本数据集，将样本数据集输入到分类模型进行训练，将训练好的分类模型作为钓鱼网站识别模型；所述分类模型用于将接收到的网站分为钓鱼网站和合法网站，以识别其中的钓鱼网站；

结合采集的待识别网站的特征向量，基于所述钓鱼网站识别模型对所述待识别网站进行识别，判断其是否属于钓鱼网站。

在一个可选的示例中，所述各个网站URL的多源特征数据，包括：URL序列特征、网站内容特征、网站代码特征、搜索引擎优化SEO网站对该网站的评价数据以及社交网站对该网站的转发热度。

在一个可选的示例中，所述按照预设标准对采集到的URL多源特征数据选择处理后得到每个网站URL多源特征的高维特征向量，具体为：

基于Boruta方法对采集到的网站URL多源特征进行特征选择，其中强相关的特征向量纳入第一特征向量集合，其余特征向量纳入第二特征向量集合；基于LightGBM技术使用第二特征向量集合进行钓鱼网站识别模型训练，得到识别结果概率集合；将第一特征向量集合和识别结果概率集合进行拼接形成网站URL多源特征的高维特征向量集合。

在一个可选的示例中，对每个网站URL进行分词操作和对每个网站URL进行分字操作，具体为：

利用BERT技术对网站URL中的每个词进行向量化表示，获取URL单词级的语义特征，并构建URL的单词级特征矩阵；

统计网站URL中包含的字符并构成字符集合；基于所述字符集合对URL进行独热编码，并进行padding操作形成同构独热矩阵；将独热矩阵放入词嵌入层进行训练，抽取低维的稠密特征矩阵，该特征矩阵形状与URL的单词级特征矩阵的形状一致。

在一个可选的示例中，所述神经模型为CNN-LSTM模型。

第二方面，本发明提供了一种融合多源数据的钓鱼网站识别系统，包括：

样本确定单元，用于确定钓鱼网站和合法网站两类训练样本，为两类样本分别打上两种不同的标签；

多源特征采集单元，用于基于每个网站的统一资源定位符URL采集各个网站的多源特征数据；并按照预设标准对采集到的URL多源特征数据选择处理后得到每个网站URL多源特征的高维特征向量；

分词分字特征采集单元，用于对每个网站URL进行分词操作，得到每个网站URL的词向量矩阵，并对每个网站URL进行分字操作，得到每个网站URL的字符级向量矩阵，将所述词向量矩阵和字符级向量矩阵进行拼接，并输入到神经模型训练和降维，得到每个网站URL的高维特征向量；

向量拼接单元，用于将各个网站URL多源特征的高维特征向量和各个网站URL的高维特征向量拼接，得到各个网站的特征向量；

识别模型训练单元，用于将所述各个网站的特征向量和各个网站的标签组合形成样本数据集，将样本数据集输入到分类模型进行训练，将训练好的分类模型作为钓鱼网站识别模型；所述分类模型用于将接收到的网站分为钓鱼网站和合法网站，以识别其中的钓鱼网站；

钓鱼网站识别单元，用于结合采集的待识别网站的特征向量，基于所述钓鱼网站识别模型对所述待识别网站进行识别，判断其是否属于钓鱼网站。

在一个可选的示例中，所述多源特征采集单元采集的各个网站URL的多源特征数据，包括：URL序列特征、网站内容特征、网站代码特征、搜索引擎优化SEO网站对该网站的评价数据以及社交网站对该网站的转发热度。

在一个可选的示例中，所述多源特征采集单元，基于Boruta方法对采集到的网站URL多源特征进行特征选择，其中强相关的特征向量纳入第一特征向量集合，其余特征向量纳入第二特征向量集合；基于LightGBM技术使用第二特征向量集合进行钓鱼网站识别模型训练，得到识别结果概率集合；将第一特征向量集合和识别结果概率集合进行拼接形成网站URL多源特征的高维特征向量集合。

在一个可选的示例中，所述分词分字特征采集单元，利用BERT技术对网站URL中的每个词进行向量化表示，获取URL单词级的语义特征，并构建URL的单词级特征矩阵；统计网站URL中包含的字符并构成字符集合；基于所述字符集合对URL进行独热编码，并进行padding操作形成同构独热矩阵；将独热矩阵放入词嵌入层进行训练，抽取低维的稠密特征矩阵，该特征矩阵形状与URL的单词级特征矩阵的形状一致。

在一个可选的示例中，所述神经模型为CNN-LSTM模型。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明提供了一种融合多源数据的钓鱼网站识别方法及系统，全面地融合了多方源特征、URL单词级特征以及URL字符级特征作为识别模型的输入特征，基于传统机器学习与深度学习的钓鱼网站识别模型的准确率很大程度上取决于模型的输入特征。以往的研究一般较单一的选用某一类(或者少数几类)数据特征。然而，不同来源的特征具有片面性，难以全面的刻画URL特征，进而影响对不同变化的钓鱼网站的识别。本发明全面融合不同来源的具有互补性和冗余性的网站信息，基于深度学习技术解决多维异构数据的融合问题，以此来增强钓鱼网站识别模型的准确性。

本发明提供了一种融合多源数据的钓鱼网站识别方法及系统，在URL单词级特征提取的过程中使用到了近期广为关注的BERT技术，填补了钓鱼网站识别问题中BERT应用的空白，以往的模型构建中，在URL单词级特征提取过程中存在一系列的问题，一方面因为URL无空格或分隔符等特点，难以保证URL的分词准确率，所以形成的词向量质量不高；另一方面，以往的研究较少高效地考虑URL的词序关系，缺乏对URL词序特征。而使用BERT进行URL特征提取则可以很好的解决上述问题，因为BERT是基于transformer进行特征提取的，可以有效的解决分词不准确带来的影响，还能充分考虑了词序关系，可以更加充分地提炼到到URL的深层特征。

附图说明

图1为本发明实施例提供的融合多源数据的钓鱼网站识别方法流程图；

图2为本发明实施例一提供的钓鱼网站识别方法的技术框架图；

图3为本发明实施例一提供的钓鱼网站识别方法中URL收集与处理流程图；

图4为本发明实施例一提供的钓鱼网站识别方法中URL多源特征处理图；

图5为本发明实施例一提供的钓鱼网站识别方法中URL字符级编码处理图；

图6为本发明实施例二提供的钓鱼网站识别装置示意图；

图7为本发明实施例二提供的钓鱼网站识别装置中训练模块示意图；

图8为本发明实施例二提供的钓鱼网站识别装置中识别模块示意图；

图9为本发明实施例提供的融合多源数据的钓鱼网站识别系统架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供了构建基于多源数据特征和URL特征的钓鱼网站识别方法以及装置，涉及网络安全中的钓鱼网站识别的技术领域。该方法包括：收集合法网站URL和钓鱼网站URL用来提取训练模型的数据；分别提取各个URL的多源特征数据，包括多方源数据、字符级编码数据以及单词级编码数据；然后分别处理多源数据特征、字符级数据特征以及单词级数据特征进行特征筛选和降维，其中对于多维数据特征进行数据标准化处理、特征选择、筛掉特征训练结果整合与拼接最终形成特征向量，对于字符级编码通过词嵌入方式进行编码，单词级编码通过BERT(Bidirectional Encoder Representations fromTransformers)技术进行训练编码，将二者形成的编码进行拼接，输入CNN(ConvolutionalNeural Network)与LSTM(Long Short-Term Memory)模型中进行训练和降维，最终得到一个特征向量；接着将多源特征与URL层的编码进行拼接形成一个高维特征向量，以此作为输入使用lightGBM技术进行模型训练，以最终的输出概率作为识别依据。本发明全面地融合了多方来源特征、URL字符级和单词级特征作为输入特征，填补了领域内未考虑全输入特征的情况；同时将高效的BERT技术与领域问题结合起来，以解决在URL单词编码的时候出现的分词不准确和词序考虑效果不好的问题，填补了BERT技术在钓鱼网站识别应用的空白。

图1为本发明实施例提供的融合多源数据的钓鱼网站识别方法流程图；如图1所示，包括如下步骤：

S101，确定钓鱼网站和合法网站两类训练样本，为两类样本分别打上两种不同的标签；

S102，基于每个网站的URL采集各个网站的多源特征数据；并按照预设标准对采集到的URL多源特征数据选择处理后得到每个网站URL多源特征的高维特征向量；

S103，对每个网站URL进行分词操作，得到每个网站URL的词向量矩阵，并对每个网站URL进行分字操作，得到每个网站URL的字符级向量矩阵，将所述词向量矩阵和字符级向量矩阵进行拼接，并输入到神经模型训练和降维，得到每个网站URL的高维特征向量；

S104，将各个网站URL多源特征的高维特征向量和各个网站URL的高维特征向量拼接，得到各个网站的特征向量；

S105，将所述各个网站的特征向量和各个网站的标签组合形成样本数据集，将样本数据集输入到分类模型进行训练，将训练好的分类模型作为钓鱼网站识别模型；所述分类模型用于将接收到的网站分为钓鱼网站和合法网站，以识别其中的钓鱼网站；

S106，结合采集的待识别网站的特征向量，基于所述钓鱼网站识别模型对所述待识别网站进行识别，判断其是否属于钓鱼网站。

具体各个步骤的详细流程，可参见下述实施例中的介绍。

本发明实施例一提供一种钓鱼网站识别方法。图2为本发明实施例一提供的融合多源特征、URL字符层与单词层编码特征作的基于深度学习的钓鱼网站识别方法的流程图。具体的，所发明的方法包括：

(1)收集钓鱼网站和合法网站URL数据集并进行标记和处理。

参见图3所示，收集钓鱼网站样本和合法网站样本；将采集的钓鱼网站样本和合法网站样本分别采用0和1建立标签，组成含标签的样本数据集合；采用随机划分的方式，将样本数据集划分成训练数据集和测试数据集。

(2)获取每个URL多源特征数据并进行数据预处理。

参见图4所示，采用自动网络爬虫的方式，从MOZ、twitter等平台，对样本数据集中的每个URL采集多源特征数据，包括URL序列特征(如是否包含域名、是否包含特殊字符、单词数量等等)、网站内容特征(如网站内容是否含有弹出窗口、是否含有登录程序、是否含有特殊图片等等)、网站代码特征(如代码是否含有多次重定向、是否含有大量空链接等等)、SEO：Search Engine Optimization搜索引擎优化网站评价数据(alexa评价指标、moz评价指标等等)、社交网站转发热度(twitter转发热度、ins转发热度等等)；接着对这些特征数据进行数据预处理，包括缺失值与异常值处理、归一化处理、结构化处理等等，将其转化为高维特征向量。

(3)对数据预处理后的数据进行特征选择和处理，形成特征向量集合。

将(2)操作得到的初步特征向量集合进行特征选择，基于Boruta方法进行特征选择，选取相关性较大的特征向量集合放入特征向量集合A中，为被选定特征向量组成未入参的特征向量集合B；考虑到未入参特征集合B也具有一定的信息，因此基于lightGBM技术使用特征向量集合B进行识别模型训练，得到识别结果概率集合C；将A和C进行拼接形成多源特征的高维特征向量集合D。

具体地，Boruta是一种基于随机森林的特征选择技术，其在进行特征选择的时候会计算相关特征的重要性程度，并选择比较重要的特征，过滤掉不太重要的特征。

(4)对每个URL进行分词操作，利用BERT技术提取URL的单词级特征。

对每个URL进行分词操作；利用BERT对URL中的每个词进行向量化表示，获取URL单词级的语义特征，并构建URL的单词级特征矩阵。

(5)对每个URL按照字符进行分字操作，利用词嵌入模型提取URL的字符级特征，并得到URL的字符级特征。

参见图5所示，对每个URL进行字符级分词操作；统计所有的URL中包含的字符并构成字符集合；对URL进行独热编码，并进行padding操作形成同构独热矩阵；将独热矩阵放入词嵌入层进行训练，抽取低维的稠密特征矩阵，该特征矩阵形状与(4)中BERT输出的单词级特征矩阵形状一致。

(6)将词向量矩阵和字符级向量矩阵进行拼接，将其输入CNN-LSTM模型进行训练，输出高维向量特征集合。

将(4)和(5)输出的特征矩阵进行拼接，并输入CNN-LSTM模型中进行训练和降维，最终形成一个融合了URL单词级与字符级特征的URL特征向量集合。

(7)将多源特征与URL特征进行拼接，拼接后投入集成分类模型训练，得到最终的识别模型。

将(3)和(6)输出的高维特征向量进行拼接，形成更高维的特征向量，将其投入集成模型进行训练。考虑到lightGBM低消耗、高速度和处理大量数据的良好特性，本发明采用lightGBM方法，得到最终的识别模型。

本发明实施例二提供一种钓鱼网站识别装置。图6为本发明实施例二提供的钓鱼网站识别装置的结构框图。具体的，可以包括：

(1)训练模块，用于钓鱼网站识别模型的训练，包括收集钓鱼网站样本和合法网站样本、数据的预处理、特征的选择以及模型的训练，最终得到一个可以用于网站识别的模型。

(2)识别模块，用于根据网站的URL来识别网站是否为钓鱼网站。

本实施例中的钓鱼网站识别装置，可以用于实现实施例一所述的钓鱼网站识别模型方法，其训练模块的实现与实施例一类似，在这里就不再赘述，而识别模块则是对识别模块训练好的模型的应用，用来识别给定URL的网站是否为钓鱼网站。

本实施例提供的钓鱼网站识别装置，通过收集合法网站和钓鱼网站样本数据集作为模型训练的样本，再通过实施例一所提到的技术框架进行数据预处理和特征提取，分别提取出多源特征、单词级特征以及字符级特征作为最终识别模型的训练样本，最终将得到的特征矩阵输入lightGBM进行训练，得到钓鱼网站的识别模型。利用训练好的模型可以进行网站的识别，根据需要识别网站的URL收集其多源特征、单词级特征以及字符级特征，输入识别模型进行识别，能够及时、准确地识别出网站是否为钓鱼网站，帮助用户对网站有个判断，防止其遭受信息丢失的危害。

进一步地，所述训练模块如图7所示，具体为：

(1)获取模块，用于收集合法网站和钓鱼网站样本集，作为模型训练的训练样本。

(2)数据预处理模块，在进行特征提取前进行数据预处理操作，包括缺失值与异常值处理、归一化处理以及结构化处理等等。

(3)特征提取模块，按照实施例1中的技术框架提取多源特征、单词级特征以及字符级特征用以模型的训练。

(4)识别模型训练模块，将上述特征输入lightGBM中进行识别模型的训练，得到最终的钓鱼网站识别模型。

进一步地，所述识别模块如图8所示，具体为：

(1)数据预处理模块，对需要识别的URL进行训练模块一致的数据预处理。

(2)特征提取模块，对其进行训练模块中一致的特征提取。

(3)网站识别模块，利用训练模块中的模型进行网站识别，判断其是否为钓鱼网站。

图9为本发明实施例提供的融合多源数据的钓鱼网站识别系统架构图，如图9所示，包括：

样本确定单元910，用于确定钓鱼网站和合法网站两类训练样本，为两类样本分别打上两种不同的标签；

多源特征采集单元920，用于基于每个网站的统一资源定位符URL采集各个网站的多源特征数据；并按照预设标准对采集到的URL多源特征数据选择处理后得到每个网站URL多源特征的高维特征向量；

分词分字特征采集单元930，用于对每个网站URL进行分词操作，得到每个网站URL的词向量矩阵，并对每个网站URL进行分字操作，得到每个网站URL的字符级向量矩阵，将所述词向量矩阵和字符级向量矩阵进行拼接，并输入到神经模型训练和降维，得到每个网站URL的高维特征向量；

向量拼接单元940，用于将各个网站URL多源特征的高维特征向量和各个网站URL的高维特征向量拼接，得到各个网站的特征向量；

识别模型训练单元950，用于将所述各个网站的特征向量和各个网站的标签组合形成样本数据集，将样本数据集输入到分类模型进行训练，将训练好的分类模型作为钓鱼网站识别模型；所述分类模型用于将接收到的网站分为钓鱼网站和合法网站，以识别其中的钓鱼网站；

钓鱼网站识别单元960，用于结合采集的待识别网站的特征向量，基于所述钓鱼网站识别模型对所述待识别网站进行识别，判断其是否属于钓鱼网站。

具体地，图9中各个单元的功能可参见前述方法实施例中的详细介绍，在此不做赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合多源数据的钓鱼网站识别方法，其特征在于，包括如下步骤：

基于每个网站的统一资源定位符URL采集各个网站的多源特征数据；并按照预设标准对采集到的URL多源特征数据选择处理后得到每个网站URL多源特征的高维特征向量；

对每个网站URL进行分词操作，得到每个网站URL的词向量矩阵，并对每个网站URL进行分字操作，得到每个网站URL的字符级向量矩阵，将所述词向量矩阵和字符级向量矩阵进行拼接，并输入到神经模型训练和降维，得到每个网站URL的高维特征向量；对每个网站URL进行分词操作和对每个网站URL进行分字操作，具体为：利用BERT技术对网站URL中的每个词进行向量化表示，获取URL单词级的语义特征，并构建URL的单词级特征矩阵；统计网站URL中包含的字符并构成字符集合；基于所述字符集合对URL进行独热编码，并进行padding操作形成同构独热矩阵；将独热矩阵放入词嵌入层进行训练，抽取低维的稠密特征矩阵，该特征矩阵形状与URL的单词级特征矩阵的形状一致；

2.根据权利要求1所述的钓鱼网站识别方法，其特征在于，所述各个网站URL的多源特征数据，包括：URL序列特征、网站内容特征、网站代码特征、搜索引擎优化SEO网站对该网站的评价数据以及社交网站对该网站的转发热度。

3.根据权利要求1所述的钓鱼网站识别方法，其特征在于，所述按照预设标准对采集到的URL多源特征数据选择处理后得到每个网站URL多源特征的高维特征向量，具体为：

4.根据权利要求1所述的钓鱼网站识别方法，其特征在于，所述神经模型为CNN-LSTM模型。

5.一种融合多源数据的钓鱼网站识别系统，其特征在于，包括：

分词分字特征采集单元，用于对每个网站URL进行分词操作，得到每个网站URL的词向量矩阵，并对每个网站URL进行分字操作，得到每个网站URL的字符级向量矩阵，将所述词向量矩阵和字符级向量矩阵进行拼接，并输入到神经模型训练和降维，得到每个网站URL的高维特征向量；所述分词分字特征采集单元，利用BERT技术对网站URL中的每个词进行向量化表示，获取URL单词级的语义特征，并构建URL的单词级特征矩阵；统计网站URL中包含的字符并构成字符集合；基于所述字符集合对URL进行独热编码，并进行padding操作形成同构独热矩阵；将独热矩阵放入词嵌入层进行训练，抽取低维的稠密特征矩阵，该特征矩阵形状与URL的单词级特征矩阵的形状一致；

6.根据权利要求5所述的钓鱼网站识别系统，其特征在于，所述多源特征采集单元采集的各个网站URL的多源特征数据，包括：URL序列特征、网站内容特征、网站代码特征、搜索引擎优化SEO网站对该网站的评价数据以及社交网站对该网站的转发热度。

7.根据权利要求5所述的钓鱼网站识别系统，其特征在于，所述多源特征采集单元，基于Boruta方法对采集到的网站URL多源特征进行特征选择，其中强相关的特征向量纳入第一特征向量集合，其余特征向量纳入第二特征向量集合；基于LightGBM技术使用第二特征向量集合进行钓鱼网站识别模型训练，得到识别结果概率集合；将第一特征向量集合和识别结果概率集合进行拼接形成网站URL多源特征的高维特征向量集合。

8.根据权利要求5所述的钓鱼网站识别系统，其特征在于，所述神经模型为CNN-LSTM模型。