CN109005145B

CN109005145B - 一种基于自动特征抽取的恶意url检测系统及其方法

Info

Publication number: CN109005145B
Application number: CN201810563850.0A
Authority: CN
Inventors: 邹福泰; 沈展; 沈倩颖; 马诗慧; 吴越; 齐开悦
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2018-06-04
Filing date: 2018-06-04
Publication date: 2021-01-01
Anticipated expiration: 2038-06-04
Also published as: CN109005145A

Abstract

本发明公开了一种基于自动特征抽取的恶意URL检测系统及其方法，涉及恶意URL检测领域，所述恶意URL检测系统包括：预处理模块，并行学习模块以及检测分类模块。所述预处理模块将网页URL作为输入，将预处理提取的URL结构化特征、网页文本内容和结构特征、以及图像特征分别转化成三个包含特征向量的数字矩阵；所述并行学习模块使用了三种独立的不同算法的深度学习网络，对三个所述数字矩阵进行处理，得到三个概率矩阵。所述检测分类模块通过将上述的三个概率矩阵输入到一个全连接网络进一步处理，给出最终的分类结果。本发明将文本和图像的深度学习模型与恶意URL检测相结合，综合提取了网页的各种信息，提高了该检测方法的适用范围和准确性。

Description

一种基于自动特征抽取的恶意URL检测系统及其方法

技术领域

本发明涉及恶意URL检测领域，尤其涉及一种基于自动特征抽取的恶意URL检测系统及其方法。

背景技术

随着互联网的迅速发展以及网络业务的不断扩大，互联网的网页规模呈现“基数大、增长快、更新频繁”的发展趋势。以中国为例，如《中国互联网站发展状况及其安全报告(2017)》指出，截至2016年12月，中国网站数量为482万个，年增长14.1％。丰富的互联网服务，一方面极大改善了人们的日常生活；另一方面，也给一些网络攻击行为(包括钓鱼网页、网页木马等)提供了广阔的发展空间。这些网络攻击行为常常围绕网页展开，或者设计陷阱或者挖掘漏洞，利用各种攻击技术对人们的网络安全构成严重威胁。尤其是在近年来，互联网支付技术不断普及的背景下，会主动窃取用户信息的恶意网站所造成经济损失就更加巨大，带来的社会影响也更为严重。卡巴斯基实验室的产品在2016年间识别出2.62亿恶意URL链接，全球的在线攻击数量达到7.58亿次，其中有三分之一(29％)的攻击源自美国，17％源自荷兰。当前，随着互联网的蓬勃发展，网络攻击不断增多，恶意URL规模持续扩大，网络安全形势日益严峻。

目前，检测恶意URL最常见方法是黑名单技术。黑名单技术的核心是一个已被证实的恶意URL数据库。由于技术原理简单，查询开销很低，黑名单技术容易实现且速度很快。此外，这种技术具有非常低的假阳性率。然而，攻击者可使用多种手段来避开黑名单。该技术还有一个致命的弱点，即无法很好地应对新生成的恶意URL。同时由于URL资源众多、URL数据集不均匀、恶意URL逃逸技术升级等均会使URL的检测效果大打折扣。如今，传统方法日益暴露出准确率不高、内存占用过大、数据集适应性差等缺陷。一些PC端的浏览器和各种主动防御软件都会提供恶意URL检测和拦截功能，但它们本质上基本还是依靠黑名单技术等。深度学习新技术虽然已经被广泛研究，但还是没有普及到实际的URL检测软件中去。

因此，本领域的技术人员致力于开发一种更加准确并且可以应对新生成的恶意URL的检测技术。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是如何通过准确检测出恶意URL，能够给出分类，并能适用于新生成的网页。

为实现上述目的，本发明提供了一种基于自动特征抽取的恶意URL检测系统，包括预处理模块、并行学习模块和检测分类模块；

其中，所述预处理模块包括URL结构信息预处理、文本信息预处理、图像信息预处理，是将网页URL作为输入，经过预处理之后，将预处理提取的URL结构化特征、网页文本内容和结构特征、以及图像特征分别转化成三个包含特征向量的数字矩阵，并输出给所述并行学习模块；

所述并行学习模块包括三种不同的深度卷积网络，分别为n-gram卷积网络、TextCNN和图像卷积网络，所述n-gram卷积网络对包含所述URL结构化特征的数字矩阵进行处理，所述TextCNN对包含所述网页文本内容和结构特征的数字矩阵进行处理，所述图像卷积网络对包含所述图像特征的数字矩阵进行处理；处理结束之后，分别得到三个概率矩阵，并把所述三个概率矩阵输出给所述检测分类模块；

所述检测分类模块包括一个全连接神经网络，所述输入的三个概率矩阵经过所述全连接神经网络的进一步综合处理，给出最终的分类结果以及评估报告。

进一步地，所述URL结构信息预处理、所述文本信息预处理和所述图像信息预处理三者之间保持相互独立。

进一步地，所述n-gram卷积网络、所述TextCNN和所述图像卷积网络是三种独立的不同算法的深度学习网络。

进一步地，所述综合处理是所述输入的三个概率矩阵经过所述全连接神经网络进行集中的学习。

进一步地，在所述全连接神经网络的进一步综合处理过程中，还要整合URL的Whois信息。

进一步地，在所述全连接神经网络的进一步综合处理过程中，是通过softmax层对结果进行输出，将选取的三种特征(所述URL结构化特征、所述网页文本内容和结构特征、以及所述图像特征)之间的信息关联达到最大化，而且更少的人工介入也可以使特征提取的误差进一步地降低。

本发明还提供了一种基于自动特征抽取的恶意URL检测方法，所述方法包括以下步骤：

步骤1、通过输入的所述网页URL获取URL结构信息、文本信息和图像信息，对获得的所述URL结构信息、所述文本信息和所述图像信息进行预处理，从中分别提取所述URL结构化特征、所述网页文本内容和结构特征、以及所述图像特征；

步骤2、将提取的所述URL结构化特征、所述网页文本内容和结构特征、以及所述图像特征分别转化成所述三个包含特征向量的数字矩阵，并输出给所述并行学习模块；

步骤3、在所述并行学习模块中，使用所述三种不同的深度卷积网络，分别为n-gram卷积网络、TextCNN和图像卷积网络，对所述三个数字矩阵进行处理，输出三个相应的概率矩阵；所述n-gram卷积网络对包含所述URL结构化特征的数字矩阵进行处理，所述TextCNN对包含所述网页文本内容和结构特征的数字矩阵进行处理，所述图像卷积网络对包含所述图像特征的数字矩阵进行处理；处理结束之后，所述并行学习模块把所述三个概率矩阵输出给所述检测分类模块；

步骤4、在所述检测分类模块，所述输入的三个概率矩阵经过所述全连接神经网络的进一步综合处理，给出最终的网页分类结果以及评估报告。

进一步地，所述步骤1还包括：

步骤1.1、通过输入的所述网页URL访问网页，获得网页源码，从中获得所述文本信息；

步骤1.2、对所述网页源码进行解析，获得所述网页的图片信息；

步骤1.3、对所述文本信息进行字符串过滤，把所述图片信息裁剪成合适的大小，提取所述URL结构化特征、所述网页文本内容和结构特征、以及所述图像特征。

进一步地，所述步骤2还包括：

步骤2.1、使用词向量转化技术，将所述URL结构化特征以字符为单位转化成字符向量；

步骤2.2、使用分词技术，将所述网页文本内容和结构特征以词为单位划分成分；

步骤2.3、再使用所述词向量转化技术，将所述网页文本内容和结构特征以词为单位转化为词向量；

步骤2.4、以R、G、B矩阵将所述图像特征转化为特征向量，从而将所述URL结构化特征、所述网页文本内容和结构特征、以及所述图像特征都转化成所述三个包含特征向量的数字矩阵，并输出给所述并行学习模块。

进一步地，所述步骤3中的所述n-gram卷积网络，分别以3、4、5大小的卷积窗口，对包含所述URL结构化特征的数字矩阵进行处理，获得URL字符结构的特征；所述TextCNN对包含所述网页文本内容和结构特征的数字矩阵进行处理，以获取词和句子之间的联系；所述图像卷积网络对包含所述图像特征的数字矩阵进行处理，获取图像局部和整体的联系；处理结束之后，所述并行学习模块把所述三个概率矩阵输出给所述检测分类模块。

本发明中所述URL三方面的自动特征抽取意为计算机自动完成特征抽取，不需人工干预，因此相比于人工特征抽取，更充分地利用了深度学习能够挖掘深层特征关联的优点。同时，得到的结果为抽象特征(Featureless)，可以适应更大范围以及更多不同特性的输入。

基于自动特征抽取的恶意URL检测系统及其方法，是一种基于深度学习网络的高精度、可持续性学习、反应迅速的恶意URL检测系统。在系统架构方面采用服务器端-浏览器端的架构，以网页URL作为输入，分类结果作为输出，利用三个模块在服务器端进行处理数据，训练模型，计算分类，最终在浏览器端展示检测的具体结果。

本发明将文本和图像的深度学习模型与恶意URL检测相结合，综合地提取了网页的各种信息，提高了该检测方法的适用范围和准确性。

相比于现有发明，本发明的基于自动特征抽取的恶意URL检测系统及其方法，将各类不同的卷积神经网络进行并行和串接，并采用自动特征抽取的框架，避免了引入人工误差的风险，同时又降低了系统的使用难度，提升了系统对于不同层面的使用者和不同数据集的适应能力。进一步地，我们的系统针对检测出的恶意URL还能给出具体的分类，在实际应用中有助于用户获得更加完整的信息，对于恶意URL的危害程度得到更加准确的了解，有一定的实际意义。

本发明的基于自动特征抽取的恶意URL检测系统及其方法因此具有无人工特征提取提取、低误差全特征提取等优越性。它除了准确、高效之外，还不依赖于任何的专家经验，能够适应不同的数据集，普适性很强。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例的结构示意图；

图2是本发明的一个较佳实施例的字符串到多维向量的转化示意图；

图3是本发明的一个较佳实施例的扇形窗口对多维向量卷积示意图；

图4是本发明的一个较佳实施例的文本特征提取框架示意图；

图5是本发明的一个较佳实施例的URL分类结果示意图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

图1示出了本发明的一个实施例中的基于自动特征抽取的恶意URL检测系统的结构示意图。本实施例提供了一种基于自动特征抽取的恶意URL检测系统，该系统由预处理模块、并行学习模块以及检测分类模块组成，对于输入的URL，该系统将判定其是否为恶意URL并给出其类别。在本发明中，预处理模块将字符串、网页文本、网页图像这种不同类别的数据源转化为携带URL结构化特征、文本特征和图像特征的三种数字矩阵。针对这三种数字矩阵的不同特性，在本发明的并行学习模块中，利用n-gram卷积网络、TextCNN、图像卷积网络三种不同的深度学习网络分别对特征进行学习。在本发明的检测分类模块中，将并行学习模块中的三部分的学习成果综合利用，得出最终的检测结果，返回给客户端。这种完全由计算机自动特取特征并整合三种特征得出结论的做法是本发明的核心创新点之一。本发明中对URL结构化特征、网页文本特征和网页图像特征的处理和学习过程如下：

URL结构化特征：传统的URL结构特征提取依赖于人工经验，而本发明受word2vec将文本转换成词向量并计算其关联的处理方式之启发，抛弃了人工提取URL结构化特征的方式。图2展示了本发明实施例中的基于自动特征抽取的恶意URL检测系统的字符串到多维向量的转化过程：URL字符串中的一个字符即对应一个多维向量，这样一个URL字符串就被转换成了数字矩阵。相似的字符在多维空间中的距离较近，反之则距离较远。在本发明的实施例中，实验结果表明符号被系统认为是相近的一类字符，小写字母被认为是相近的一类字符，大写字母也被认为是相近的一类字符。字符串转化为多维向量后的下一步工作是用神经网络对特征进行学习。图3展示了扇形窗口对多维向量卷积过程。在本发明的实施例中，使用了3、4、5大小的卷积窗口分别对字符向量进行卷积。卷积网络首先从已标注的大量URL字符矩阵输入中自动归纳出模式特征。随后当有一个新的URL输入时，神经网络可以通过卷积对其进行模式匹配。这里的模式匹配可以通过如下例子理解，如果神经网络发现一个大写字母后面跟了一个数字，或是控制字符时，它就自动与模式特征集进行比对，看是否符合某一个已有的模式。模式匹配得出的就是URL结构化特征方面的学习成果。

网页文本特征：传统意义上，卷积神经网络是用于图像处理的，也表现出了良好的性能。直观上看，卷积神经网络从左往右，自上而下的扫描特性的确与我们处理图像的方式很相像。但是，这并不意味着它不可以被用于文本处理。文本卷积神经网络(TextCNN)的基本算法与上述的卷积神经网络一致，不同点在于，在自然语言处理中，我们需要选取与输入矩阵等宽的特征提取窗口，窗口的高度是可选的，其典型值为2-5。在实际操作时，我们选取了宽度为3、4、5的三种窗口，每种窗口的个数设为128，这样可以提取到更加全面的特征，有助于提高最终结果的精度。总体来说，我们对文本特征的提取可以分为两大部分：word2vec词向量转化部分和TextCNN词向量处理部分。当输入一个网页正文段之后，word2vec将文本中的每个词语都转化成一个词向量，这样，对整个文本而言，我们就得到了一个数字化矩阵。将这个数字化矩阵作为TextCNN的输入，我们就可以得到一个关于文本的概率矩阵，这个概率矩阵包含了文本的分类特征。整个文本提取过程的实施框架可以由图4表示。

网页图像特征：本项目的图像特征数据源为恶意URL所对应网页的网页图像信息，对网页进行剪裁、过滤等预处理后，适应于深度图像卷积神经网络所需的输入要求。之后利用深度图像卷积神经网络对图像特征进行学习。

为了充分地利用URL所提供的信息，减少人工误差，并使得所选取的三种特征(URL结构特征、网页文本特征、网页图像特征)更加紧密地关联，在单层的训练模型之后再加上一层将三个模型进行全连接的Softmax模型。这样，三者之间的信息关联达到一个最大化，多方面的信息的利用率达到了最大化，同时由于更少的人工介入，也可以使特征提取的误差进一步地降低。全连接层的学习结果就是最终系统对URL的判定结果。我们将URL分成7类，正常URL为一类，恶意URL细分为6类系统。最终系统将针对输入的URL给出一个分类报告，具体的分类如图5所示。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于自动特征抽取的恶意URL检测系统，其特征在于，包括预处理模块、并行学习模块和检测分类模块；

其中，所述预处理模块包括URL结构信息预处理、文本信息预处理和图像信息预处理，是将网页URL作为输入，经过预处理之后，将预处理提取的URL结构化特征、网页文本内容和结构特征以及图像特征分别转化成三个包含特征向量的数字矩阵，并输出给所述并行学习模块；

所述并行学习模块包括三种不同的深度卷积网络，分别为n-gram卷积网络、文本卷积神经网络TextCNN和图像卷积网络，所述n-gram卷积网络对包含所述URL结构化特征的数字矩阵进行处理，所述文本卷积神经网络TextCNN对包含所述网页文本内容和结构特征的数字矩阵进行处理，所述图像卷积网络对包含所述图像特征的数字矩阵进行处理；处理结束之后，分别得到三个概率矩阵，并把所述三个概率矩阵输出给所述检测分类模块；

所述检测分类模块包括一个全连接神经网络，输入的所述三个概率矩阵经过所述全连接神经网络的进一步综合处理，给出最终的分类结果以及评估报告；

所述综合处理是输入的所述三个概率矩阵经过所述全连接神经网络进行集中的学习。

2.如权利要求1所述的基于自动特征抽取的恶意URL检测系统，其特征在于，所述URL结构信息预处理、所述文本信息预处理和所述图像信息预处理三者之间保持相互独立。

3.如权利要求1所述的基于自动特征抽取的恶意URL检测系统，其特征在于，所述n-gram卷积网络、所述TextCNN和所述图像卷积网络是三种独立的不同算法的深度学习网络。

4.如权利要求1所述的基于自动特征抽取的恶意URL检测系统，其特征在于，在所述全连接神经网络的进一步综合处理过程中，还要整合URL的Whois信息。

5.如权利要求1所述的基于自动特征抽取的恶意URL检测系统，其特征在于，在所述全连接神经网络的进一步综合处理过程中，是通过softmax层对结果进行输出。

6.一种基于自动特征抽取的恶意URL检测方法，其特征在于，所述方法包括以下步骤：

步骤1、通过输入的网页URL获取URL结构信息、网页文本信息和网页图像信息，对获得的所述URL结构信息、所述网页文本信息和所述网页图像信息进行预处理，从中分别提取URL结构化特征、网页文本内容和结构特征以及图像特征；

步骤2、将提取的所述URL结构化特征、所述网页文本内容和结构特征以及所述图像特征分别转化成三个包含特征向量的数字矩阵，并输出给并行学习模块；

步骤3、在所述并行学习模块中，使用三种不同的深度卷积网络，分别为n-gram卷积网络、文本卷积神经网络TextCNN和图像卷积网络，对所述三个包含特征向量的数字矩阵进行处理，输出三个相应的概率矩阵；所述n-gram卷积网络对包含所述URL结构化特征的数字矩阵进行处理，所述文本卷积神经网络TextCNN对包含所述网页文本内容和结构特征的数字矩阵进行处理，所述图像卷积网络对包含所述图像特征的数字矩阵进行处理；处理结束之后，所述并行学习模块把所述三个相应的概率矩阵输出给检测分类模块；

步骤4、在所述检测分类模块，输入的所述三个相应的概率矩阵经过全连接神经网络的进一步综合处理，给出最终的网页分类结果以及评估报告；

所述综合处理是输入的所述三个相应的概率矩阵经过所述全连接神经网络进行集中的学习。

7.如权利要求6所述的基于自动特征抽取的恶意URL检测方法，其特征在于，所述步骤1还包括：

步骤1.3、对所述文本信息进行字符串过滤，把所述图片信息裁剪成合适的大小，提取所述URL结构化特征、所述网页文本内容和结构特征以及所述图像特征。

8.如权利要求6所述的基于自动特征抽取的恶意URL检测方法，其特征在于，所述步骤2还包括：

步骤2.2、使用分词技术，将所述网页文本内容和结构特征以词为单位划分；

步骤2.4、以R、G、B矩阵将所述图像特征转化为特征向量，从而将所述URL结构化特征、所述网页文本内容和结构特征以及所述图像特征都转化成所述三个包含特征向量的数字矩阵，并输出给所述并行学习模块。

9.如权利要求6所述的基于自动特征抽取的恶意URL检测方法，其特征在于，所述步骤3中的所述n-gram卷积网络，分别以3、4和5大小的卷积窗口，对包含所述URL结构化特征的数字矩阵进行处理，获得URL字符结构的特征；所述TextCNN对包含所述网页文本内容和结构特征的数字矩阵进行处理，以获取词和句子之间的联系；所述图像卷积网络对包含所述图像特征的数字矩阵进行处理，获取图像局部和整体的联系；处理结束之后，所述并行学习模块把所述三个概率矩阵输出给所述检测分类模块。