CN115051817B

CN115051817B - 一种基于多模态融合特征的网络钓鱼检测方法和系统

Info

Publication number: CN115051817B
Application number: CN202210006075.5A
Authority: CN
Inventors: 张思睿; 尉迟学彪; 延志伟; 董科军; 李洪涛
Original assignee: China Internet Network Information Center
Current assignee: China Internet Network Information Center
Priority date: 2022-01-05
Filing date: 2022-01-05
Publication date: 2023-11-24
Anticipated expiration: 2042-01-05
Also published as: CN115051817A

Abstract

本发明涉及一种基于多模态融合特征的网络钓鱼检测方法和系统。该方法包括：对域名做前缀扩展生成网址集合；对网页内容提取关键词，利用词向量模型得到向量矩阵；计算网页的向量矩阵与目标矩阵的相似度，召回疑似钓鱼网站作为候选集，并生成网页内容特征；根据候选集的网页图片与被仿冒对象的网站logo的相似度构建图像匹配向量；根据候选集中的网页源码提取网页特征；将网页内容特征、图像匹配向量和网页特征进行融合，并自标注样本集；训练分类模型得到钓鱼检测模型；利用钓鱼检测模型判断待测域名是否是钓鱼网站。本发明将网页文本、网页结构及网页图片信息进行多模态融合，能够灵活且有效地提高钓鱼网站检测量，并且检测准确率达到预期。

Description

一种基于多模态融合特征的网络钓鱼检测方法和系统

技术领域

本发明属于信息技术、网络安全技术领域，具体涉及一种基于多模态融合特征的网络钓鱼检测方法和系统。

背景技术

互联网作为不可或缺的基础设施，给人类社会带来了极大便利，与此同时也带来了一些不可避免的安全问题，这些安全问题对用户信息安全和经济安全造成威胁，网络钓鱼就是其中一种，现已严重威胁网民的财产和隐私安全，已成为当前互联网最大的安全隐患之一。网络钓鱼攻击往往是向用户发送貌似来自合法的企业或机构的欺骗性电子邮件、手机短信等，引诱用户回复个人敏感信息或者点击里面的链接访问伪造的网站，进而泄露账号信息或下载恶意软件，因此，针对钓鱼网站的检测是保护民生安全的必要手段。

目前，黑名单技术被广泛应用于钓鱼网站检测，Google提供一份持续更新的恶意网站黑名单，用户可通过Google Safe Browsing APIs检测网站安全性，主流的浏览器通过融合黑名单和白名单来防止用户被钓鱼攻击。基于黑名单的钓鱼检测具有易实现、检测速度快和假阳率低的特点，但存在不可避免的缺点：无法及时检测新出现的钓鱼网站。除此之外，深度学习相关技术常被应用于基于网页内容的钓鱼检测，这种方式能更有效地检测新出现的钓鱼网站，但是检测范围与训练样本强相关，不能实时扩展检测目标，并且样本制作耗费大量人力成本。

总体而言，现有的网络钓鱼检测方法普遍存在以下问题：(1)检测时效性不够，无法及时检测出存活时间短的钓鱼网站；(2)检测的钓鱼网站类型较为固定，不便实时扩充；(3) 人力成本高，稳定的钓鱼检测模型需要大量的标注数据，导致人力成本过高。

发明内容

针对上述问题，本发明提出一种基于多模态融合特征的网络钓鱼检测方法和系统，该方法将网页文本、网页结构及网页图片信息进行多模态融合，同时结合无监督和有监督学习两种方式，降低人工标注成本，达到检测目标可扩展且检测及时的目的。在实际应用中，该方法灵活且有效地提高了钓鱼网站检测量，并且检测准确率达到预期。

本发明采用的技术方案如下：

一种基于多模态融合特征的网络钓鱼检测模型训练方法，包括以下步骤：

对域名做前缀扩展，生成网址集合；

获取网址集合中的网页内容并对网页内容提取关键词，利用词向量模型得到网页的各关键词的词向量，形成向量矩阵；

生成被仿冒对象集合的向量矩阵，作为目标矩阵；

计算每个网页的向量矩阵与目标矩阵的相似度，根据相似度阈值和词数阈值召回疑似钓鱼网站作为候选集，并根据相似度计算结果生成网页内容特征；

计算候选集的网页图片与被仿冒对象的网站logo之间的相似度，根据相似度构建图像匹配向量；

根据候选集中的网页源码提取网页特征；

将候选集的网页内容特征、图像匹配向量和网页特征进行融合，并自标注样本集；

基于自标注的样本集，利用融合后的特征训练分类模型，得到最终的钓鱼检测模型。

进一步地，所述词向量模型采用以下方式获得：加载预训练的嵌入模型，引入被仿冒对象的官方网站文本数据，增量训练出最终的词向量模型，该词向量模型生成的词向量为k维。

进一步地，所述根据词向量模型得到网页的各关键词的词向量，形成向量矩阵，包括：将单个网页的m个关键词的词向量形成m×k矩阵，即向量矩阵；如果关键词不存在于词向量模型中，则对该关键词的所有单字向量加权平均，作为该关键词的词向量。

进一步地，所述根据相似度阈值和词数阈值召回疑似钓鱼网站作为候选集，包括：当且仅当网页的向量矩阵与目标矩阵的相似度超过阈值且关键词个数不少于词数阈值时，该网页才会被召回。

进一步地，所述网页内容特征包括但不限于：相似度计算结果中满足相似度阈值的词数、满足相似度阈值的词向量；所述网页特征包括但不限于：网页是否存在表单、网页字数、网页图片数、网页是否有标题。

进一步地，所述自标注样本集，包括：将候选集中相似度远大于阈值的样本作为钓鱼网站，标记为正样本；将相似度远小于阈值的样本标记为负样本。

一种基于多模态融合特征的网络钓鱼检测方法，其特征在于，

将待测域名进行前缀扩展，生成网址集合；

抓取该网址集合的网页内容，生成网页的关键词的向量矩阵，将其与目标矩阵进行相似度匹配；

如果网页中有不小于相似度阈值的词，则对网页生成网页内容特征、图像匹配向量和网页特征，进而采用训练好的钓鱼检测模型判断是否是钓鱼网站；

如果网页中没有不小于相似度阈值的词，且网页文字数大于阈值n(经验值，一般为500) 则判断该网页不是钓鱼网站。

进一步地，若钓鱼检测模型判断网页是钓鱼网站，则对网页进行标记，并将网页数据及其特征扩充入训练过程中的样本数据中，从而利用检测结果自动扩充数据集。

一种基于多模态融合特征的网络钓鱼检测系统，其包括：

模型训练模块，用于采用上述方法训练钓鱼检测模型；

钓鱼检测模块，用于利用训练好的钓鱼检测模型，采用上述方法判断待测域名是否是钓鱼网站。

本发明可应用于有害域名检测领域，基于多模态信息的特征融合能够有效对互联网中的钓鱼网站进行检测，具有检测时效性强、人工标注成本低和被仿冒对象可扩展等优势。相比现有方法，本发明的主要优点是：

(1)可随时扩充被仿冒对象集合，使得检测的钓鱼网站类型灵活多变；

(2)训练过程中的无监督学习模型决定了本发明提出的方法可以对无差别召回与被仿冒对象相似的网站内容，同时该方法可随时运行检测，因此检测时效性高，可以及时检测出新出现的存活时间短的钓鱼网站；

(3)耗费人力成本低，本发明中所述方法结合无监督学习结果实现了自标注样本，同时检测结果也会扩充样本集，达到持续学习的效果，耗费人力成本低。

此外，本发明可利用无监督学习方式的优势对数据自标注，只需利用少量的人工审核成本即可生成样本集，进行模型训练，训练完毕的模型可满足每日数十万域名的钓鱼检测任务，并且该方案可扩展性强，将目标模板调整为不同领域信息时，即可实现对应领域的有害域名的检测。

附图说明

图1是本发明方法的钓鱼决策模型训练过程的流程图。

图2是本发明方法的词向量模型训练过程的流程图。

具体实施方式

下面通过具体实施例和附图，对本发明做进一步详细说明。

本发明提出了一种基于多模态融合特征的网络钓鱼检测方法，且不对以下步骤中采用的算法作限定，例如提取网页关键词算法、文本相似度量方法、图片相似度量方法及分类模型。本发明提到的方法主要分为模型训练过程和钓鱼检测过程。所述训练过程可以单独作为一种基于多模态融合特征的网络钓鱼检测模型训练方法，如图1所示，步骤如下：

1)对域名做前缀扩展，生成网址集合U。

2)获取并解析网页，即抓取网址集合U中的所有网页源码和网页图片，作为数据集；

3)加载预训练的embedding(嵌入)模型，如图2所示，引入被仿冒对象的官方网站文本数据，增量训练出最终的词向量模型D，该模型生成的词向量为k维。其中增量训练是指在预训练模型的基础上，将被仿冒对象的官方网站的文本数据作为语料，继续微调模型。

4)对网页内容作关键词提取，如果采用多种方式进行关键词提取，将多种方式产生的结果取交集或并集，所产生的结果作为网页最终的关键词。根据词向量模型D将关键词和网页标题转为稠密向量，将单个网页的m个关键词的词向量形成m×k矩阵，即向量矩阵M。如果关键词不存在于词向量模型D中，则对该关键词的所有单字向量加权平均，作为该关键词的词向量。

5)自定义配置被仿冒对象的关键词和网站logo，根据步骤4)中的方法生成被仿冒对象集合的向量矩阵，作为目标矩阵T；

6)计算每个网页的向量矩阵M和目标矩阵T之间的相似性度量，根据相似度的经验阈值和词数阈值召回疑似钓鱼网站作为候选集，其中相似度不小于阈值表示该网页内容与被仿冒对象有一定相似度，并将该网站加入候选集。其中，词数是指相似度满足经验阈值的关键词个数，经过实验，词数阈值与关键词个数和网页文本字数有关(不限制具体关系表达)。当且仅当网页的向量矩阵M与目标矩阵T的相似度不小于经验阈值且关键词个数不少于词数阈值时，该网页才会被召回。根据网页文本的相似度匹配结果生成网页内容特征。网页内容特征包括但不限于相似度匹配结果中满足相似度阈值的词数、满足相似度阈值的词向量等。

7)计算候选集的网页图片与被仿冒对象的网站logo(标志)之间的相似性度量，相似性满足阈值(即不小于阈值)为1，否则为0，构建图像匹配向量。设被仿冒对象的网站logo个数为n，则图像匹配向量为n维0-1向量。例如，候选集中某网页logo与被仿冒对象网站logo集中第1,3,4张图片相似度高于阈值，则该网页的图像匹配向量为[1,0,1,1,0,…,0]。

8)根据候选集中的网页源码提取网页特征。网页特征包括但不限于：网页是否存在表单、网页字数、网页图片数、网页是否有标题等特征。

9)将候选集的网页内容特征、图像匹配向量、网页特征等多模态的信息进行融合，并自标注样本集，以大大缩减人力标注成本。自标注样本集的主要方法为：将候选集中相似度大于阈值的样本作为钓鱼网站，标记为正样本；反之，将相似度小于阈值的样本标记为负样本。基于自标注的样本集，根据选定的特征(即多模态的信息进行融合后的特征)训练分类模型，得到最终的钓鱼决策模型(或称钓鱼检测模型)。

其中，融合是指采用特征拼接或加权拼接或采用相关算法进行特征融合，本发明不限制特征融合的方法。

所述检测过程的输入是待测域名，输出是疑似钓鱼域名，主要步骤如下：

1)将待测域名前缀扩展后生成网址集合，抓取该网址集合的网页内容；

2)根据训练过程中步骤4)，得到网页的关键词的向量矩阵，与目标矩阵T进行相似度匹配；

3)如果检测过程中步骤2)里相似度匹配后有不小于阈值的词，对网页做特征工程，进而用训练好的分类模型判断是否是钓鱼网站，若是钓鱼网站则标记，并将该网页数据及特征扩充入训练过程步骤7)中的样本数据中。其中，特征工程是指训练过程中生成网页特征、网页内容特征、图像匹配向量的工作，简单来说就是将原始数据转化为可用的特征的过程。

4)如果检测过程的步骤2)中相似度匹配后没有满足阈值(不小于阈值)的词，且网页文字数大于阈值n(经验值，一般为500)，表示该网页与被仿冒对象无相似性，大概率不是钓鱼网站，即判断该网页不是钓鱼网站，故跳过。

本发明提供了一种基于多模态融合特征的网络钓鱼检测方法，包括以下关键点：

(1)对网页文本信息(网页内容特征)、图片信息(图像匹配向量)和网页结构信息(网页特征)进行特征融合，达到检测目的；

(2)采用无监督学习先行召回疑似网站候选集，提高了检测速度；

(3)利用无监督学习的召回结果，自标注数据集，同时利用在实际应用中的检测结果自动扩充数据集，达到持续学习的目的，减少人力标注成本；

(4)可灵活配置被仿冒对象集合，根据配置内容检测指定钓鱼网站。

本发明一个实施例的一种基于多模态融合特征的网络钓鱼检测方法中有两个需要训练的模型，其一是词向量模型，用于将文本转为向量，方便后续运算；其二是分类模型，根据选定的特征对候选域名作最终决策。本实施例的核心部分流程图如图1所示，主要分为训练过程和钓鱼检测过程。

所述训练过程步骤如下：

1)对域名做前缀扩展，包括但不限于https://、http://、https://www.、http:// www.等，生成网址集合U；

2)抓取网址集合U中的所有网页源码和网页图片，作为数据集；

3)加载预训练的word2vec模型，引入网页文本数据，增量训练出最终的词向量模型D，该模型生成的词向量为k维；

4)对网页内容基于统计、词图和词聚类的方式作关键词提取，取三种方式的交集作为网页最终的关键词，根据词向量模型D将关键词和网页标题转为词向量，将单个网页的m个关键词的词向量形成m×k矩阵M；如果关键词不存在于词向量模型D中，则对该关键词的所有单字向量加权平均；

5)根据4)中的方法生成被仿冒对象集合的目标矩阵T；

6)计算每个网页的矩阵M和目标矩阵T之间的相似性度量，根据经验阈值和词数召回疑似钓鱼网站作为候选集；

7)计算候选集的网页图片与被仿冒对象的网站logo之间的相似性度量，满足阈值为1 否则为0，构建图像匹配向量；假设被仿冒对象有10个网站logo，则图像匹配向量为10维向量，每个位置上的0或1表示是否与候选网页图片达到指定相似度；

8)对候选集的网页进行特征工程，包括并不限于以下特征：网页关键词、网页有无标题、页面字数、有无表单、满足阈值的词、满足阈值的词数、网页文本相似度数值、图像匹配向量等，根据以上特征训练XGBoost二分类模型，得到最终的决策模型。

1)将待测域名前缀扩张后生成网址集合，抓取该网址集合的网页内容；

2)根据训练过程中步骤4)，得到网页的关键词矩阵，与目标矩阵T相似度匹配；

3)如果检测过程步骤2)中相似度匹配后有满足阈值的词，表示该网页内容与被仿冒对象有一定相似度，因此对网页做特征工程，进而用训练好的XGB模型判断是否是钓鱼网站，若是钓鱼网站则标记，并将该网页数据及特征扩充入训练过程步骤7)中的数据集中；

4)如果检测过程步骤2)中相似度匹配后没有满足阈值的词，表示该网页与被仿冒对象无相似性，大概率不是钓鱼网站，故跳过。

本发明的上述实施例中提到的多模态信息融合是针对特征进行融合，其他实施例中也可以对不同类型的特征独立训练模型，最后将各个模型的训练结果融合。

基于同一发明构思，本发明的另一实施例一种基于多模态融合特征的网络钓鱼检测系统，其包括：

模型训练模块，用于采用本发明方法训练钓鱼检测模型；

钓鱼检测模块，用于利用训练好的钓鱼检测模型，采用本发明方法判断待测域名是否是钓鱼网站。

基于同一发明构思，本发明的另一实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上公开的本发明的具体实施例，其目的在于帮助理解本发明的内容并据以实施，本领域的普通技术人员可以理解，在不脱离本发明的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例所公开的内容，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种基于多模态融合特征的网络钓鱼检测模型训练方法，其特征在于，包括以下步骤：

对域名做前缀扩展，生成网址集合；

生成被仿冒对象集合的向量矩阵，作为目标矩阵；

根据候选集中的网页源码提取网页特征；

基于自标注的样本集，利用融合后的特征训练分类模型，得到最终的钓鱼检测模型；

所述根据相似度阈值和词数阈值召回疑似钓鱼网站作为候选集，当且仅当网页的向量矩阵与目标矩阵的相似度超过阈值且关键词个数不少于词数阈值时，该网页才会被召回；

所述自标注样本集，包括：将候选集中相似度远大于阈值的样本作为钓鱼网站，标记为正样本；将相似度远小于阈值的样本标记为负样本。

2.根据权利要求1所述的方法，其特征在于，所述词向量模型采用以下方式获得：加载预训练的嵌入模型，引入被仿冒对象的官方网站文本数据，增量训练出最终的词向量模型，该词向量模型生成的词向量为k维。

3.根据权利要求2所述的方法，其特征在于，所述利用词向量模型得到网页的各关键词的词向量，形成向量矩阵，包括：将单个网页的m个关键词的词向量形成m×k矩阵，即向量矩阵；如果关键词不存在于词向量模型中，则对该关键词的所有单字向量加权平均，作为该关键词的词向量。

4.根据权利要求1所述的方法，其特征在于，所述网页内容特征包括：相似度计算结果中满足相似度阈值的词数、满足相似度阈值的词向量；所述网页特征包括：网页是否存在表单、网页字数、网页图片数、网页是否有标题。

5.一种基于多模态融合特征的网络钓鱼检测方法，其特征在于，

将待测域名进行前缀扩展，生成网址集合；

如果网页中有不小于相似度阈值的词，则对网页生成网页内容特征、图像匹配向量和网页特征，进而采用权利要求1～4中任一权利要求所述方法训练好的钓鱼检测模型判断是否是钓鱼网站；

如果网页中没有不小于相似度阈值的词，且网页文字数大于设定的阈值n，则判断该网页不是钓鱼网站。

6.根据权利要求5所述的方法，其特征在于，若钓鱼检测模型判断网页是钓鱼网站，则对网页进行标记，并将网页数据及其特征扩充入训练过程中的样本数据中，从而利用检测结果自动扩充数据集。

7.一种基于多模态融合特征的网络钓鱼检测系统，其特征在于，包括：

模型训练模块，用于采用权利要求1～4中任一权利要求所述方法训练钓鱼检测模型；

钓鱼检测模块，用于利用训练好的钓鱼检测模型，采用权利要求5或6所述方法判断待测域名是否是钓鱼网站。

8.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～6中任一权利要求所述方法的指令。