CN115098806A

CN115098806A - 检测有害url的方法、系统、电子设备及存储介质

Info

Publication number: CN115098806A
Application number: CN202210687729.5A
Authority: CN
Inventors: 刘立峰; 姚鹏; 王文重; 张建军
Original assignee: Zhuhai Comleader Information Technology Co Ltd
Current assignee: Zhuhai Comleader Information Technology Co Ltd
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2022-09-23

Abstract

本发明技术方案提供了一种检测有害URL的方法、系统、电子设备及存储介质，该方法包括：获取URL数据，其中，URL数据包含有害URL数据和正常URL数据；根据URL数据创建词特征，其中，词特征用于归纳URL数据所具有的特征；根据URL数据创建训练集和测试集，统计训练集中URL数据的词特征；根据训练集中URL数据的词特征构建决策树并生成随机森林模型；根据随机森林模型对测试集进行有害URL数据的识别。采用此技术方案可以提高URL检测的效率和准确度，并减少计算机的算力资源消耗。

Description

检测有害URL的方法、系统、电子设备及存储介质

技术领域

本发明涉及网络处理技术领域，特别涉及一种检测有害URL的方法、系统、电子设备及存储介质。

背景技术

有害统一资源定位符(URL)的检测技术通常可以分为黑名单启发式技术和机器学习技术。黑名单检测技术和启发式技术是将已经确认的有害URL加入黑名单，然后根据需要识别的URL是否包含在黑名单中或者是否具备人为提取出的黑名单URL所具有的相似性规则去判断有害URL。机器学习技术是利用现有的机器学习分类技术对URL字符串本身或者与其相关联的网页内容、网络活动等进行分析从而获得URL是否有害的识别结果。

然而，传统的黑名单技术和启发式技术主要用于检测已经被发现的有害URL或者与现有有害URL相似的URL，当攻击者使用URL自动生成技术时该发现技术难以进行有效识别。而基于对网页内容或者网络活动对URL进行有害性检测的方法又非常消耗计算机的算力资源且耗时较长。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供了一种检测有害URL的方法、系统、电子设备及存储介质，能够提高URL检测的效率和准确度，并减少计算机的算力资源消耗。

第一方面，本发明实施例提供了一种检测有害URL的方法，包括：

获取URL数据，其中，所述URL数据包含有害URL数据和正常URL数据；

根据所述URL数据创建词特征，其中，所述词特征用于归纳所述URL数据所具有的特征；

根据所述URL数据创建训练集和测试集，统计所述训练集中所述URL数据具有的所述词特征；

根据所述训练集中所述URL数据的所述词特征构建决策树并生成随机森林模型；

根据所述随机森林模型对所述测试集中的所述URL数据进行是否为有害URL的检测。

第二方面，本发明实施例提供了一种检测有害URL的系统，包括：

第一处理模块，用于获取URL数据，其中，所述URL数据包含有害URL数据和正常URL数据；

第二处理模块，用于根据所述URL数据创建词特征，其中，所述词特征用于归纳所述URL数据所具有的特征；

第三处理模块，用于根据所述URL数据创建训练集和测试集，统计所述训练集中所述URL数据具有的所述词特征；

第四处理模块，用于根据所述训练集中所述URL数据的所述词特征构建决策树并生成随机森林模型；

第五处理模块，用于根据所述随机森林模型对所述测试集中的所述URL数据进行是否为有害URL的检测。

第三方面，本发明实施例提供了一种电子设备，所述电子设备包括处理器、存储器，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序被处理器执行实现上述第一方面的检测有害URL的的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其特征在于，存储有处理器可运行的程序指令，所述程序指令用于执行实现上述第一方面的检测有害URL的的方法。

本发明实施例至少包括以下有益效果：通过采用URL具有的词特征来代替传统的网页内容作为检测URL是否有害的属性，能够减少构建并训练检测模型的时间，由于使用URL词特征进行训练所需要运算的数据量大幅减小，从而可以减少训练的时间；通过将URL数据的词特征作为决策树模型的节点参数，相对于深度神经网络的参数无法知道而言，决策树模型的参数可以人工选择进行调优，能够提高检测模型的可视化程度，更容易进行模型分析优化；由于只需要对URL数据的词特征进行运算，还可以在检测过程中降低数据处理量，提高检测速度；相对于现有的直接通过URL进行处理的技术，通过URL的词特征对URL进行层层归类，能够使检测结果具有更高的实时性和准确性；且面对新的个性化小样本任务，由于采用的原始数据仅有URL，不涉及对原有网页的访问，不用担心安全性和算力问题，能够使训练出的检测模型有更好的适应性，提高了系统的实用价值。

附图说明

图1为本发明实施例中一种检测有害URL的方法流程图。

图2为本发明实施例中的决策树示例图。

图3为本发明实施例中的算法图例。

图4为本发明实施例中一种检测有害URL的系统示意图。

图5为本发明实施例中一种电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要理解的是，如果在说明书和权利要求书及上述附图中涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

需要说明的是，至少一个的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述道第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

术语解释：

决策树(Decision Tree)：决策树是一类常见的机器学习算法，它是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。

随机森林(Random Forest)：随机森林是机器学习模型中集成学习的一种，它以决策树模型为基础，通过利用随机抽取样本以及随机选择属性的方式生成多个决策树，最后通过多个决策树进行投票选举获得最终决策结果。

URL(Uniform Resource Locator，统一资源定位符)：统一资源定位符是因特网的万维网服务程序上用于指定信息位置的表示方法。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。统一资源定位符由协议标识符和资源名两部分组成。

参照图1，为本发明实施例提供的一种检测有害URL的方法流程图，包括但不限于以下步骤：

步骤S100：获取URL数据，其中，URL数据包含有害URL数据和正常URL数据。

具体的，本实施例采用WEBSPAM-UK2007数据集作为有害URL数据，其中，有害URL数据也指恶意URL数据即恶意网址，是指恶意种植木马、病毒等恶意程序在网站内，通过伪装的网站服务内容诱导用户访问该网站的URL网址；另外，本实施例从网站Alexa top websites获取去重后的URL作为正常URL数据；

步骤S200：根据URL数据创建词特征，其中，词特征用于归纳URL数据所具有的特征。

具体的，本实施例通过分析URL数据,归纳出这些URL数据普遍具有的词特征，基于这些词特征对训练集中的URL进行分类，并训练出随机森林模型以检测测试集中的有害URL。

在一些实施例中，如下表1所示，步骤S200中的词特征可以包括但不限于：

表1

其中，URL中的域名信息熵可以通过公式

获得，p(x_i)表示符号x_i在域名中出现的频率；字符连续率具体指将URL中的字符分为字母、数字和符号三类，这三类的最大连续长度之和与URL长度的比率。

需要说明的是，本实施例通过归纳URL普遍具有的词特征来作为分类属性，在预处理阶段，只需要对训练集中的每条URL数据进行词特征的统计，一方面，相比于通过抓取网页内容来训练识别模型的方式，所消耗的计算资源大大减少，因为通过网页内容进行识别需要对整个网页的数据进行计算处理，相对而言，对URL的词特征进行计算处理的运算量要小得多；另一方面，相比于直接通过URL进行处理的技术，通过URL的词特征进行识别有更高的实时性和准确性；另一方面，相比于通过网络活动对有害URL进行识别的方式，提取URL的词特征不需要对URL对应的网站进行访问，因此更加安全。

步骤S300：根据URL数据创建训练集和测试集，统计训练集中URL数据具有的词特征。

具体的，本实施例将上述步骤获取的URL数据中的三分之二作为训练集数据，剩余的三分之一作为测试集数据。其中，训练集包括URL数据和每条URL所具有的词特征，由于本实施例采用的是有监督的机器学习算法，此类算法需要大量的已标注正常或有害的URL网页地址作为训练集,因此需要对训练集中的每条URL数据进行词特征的提取,并且针对每一项词特征，统计出具有该特征的URL数据。

步骤S400：根据训练集中URL数据的词特征构建决策树并生成随机森林模型。

具体的，通过上述步骤可以提取出训练集中每条URL所具有的词特征，接着，可以利用这些用于训练的URL的词特征作为分类属性，一层一层地对URL进行筛选分类，最终训练出能够具有区别有害和正常URL能力的决策树,从而可以利用训练好的由若干决策树组成的随机森林模型对测试集中的URL进行分类和判定。

进一步的，步骤S400可以包括但不限于以下步骤：

步骤S410：基于训练集利用放回随机抽样的机制创建n个新训练集，其中，n为大于零的整数。

其中，基于原始训练集生成n个新训练集是为了训练出n个决策树，以构建随机森林模型，本实施例采用的放回随机抽样的机制来创建这n个新训练集，以保证数据的随机性和最后训练出的模型的广泛性。

步骤S420：根据n个新训练集中URL数据的词特征构建n个决策树，并生成包括n个决策树的随机森林模型。

进一步的，步骤S420可以包括但不限于以下步骤：

步骤S421：计算新训练集的信息熵和新训练集中词特征的信息熵。

步骤S422：根据新训练集的信息熵和词特征的信息熵，计算得到词特征的信息增益。

步骤S423：根据词特征的信息增益构建决策树。

进一步的，步骤S423可以包括但不限于以下步骤：

步骤S4231：选取信息增益最大的词特征存储于分支节点，分支节点用于作为划分属性对URL数据进行归类。

步骤S4232：根据URL数据的归类结果，确定叶子节点所代表的决策类别。

具体的，通过机器学习的方法将每个新训练集中的URL数据进行学习和训练，得到训练好的决策树模型，本实施例中生成了n个新训练集，相对应得需要由这n个新训练集中URL数据训练得到n个决策树。针对每个新训练集均可以执行上述步骤S421至步骤S423来构建决策树：首先根据信息熵计算公式计算新训练集的信息熵，信息熵计算公式为

其中，H(X)为训练集X的信息熵，P(x_i)为训练集X中第i类URL数据所占的比例，在本实施例中，URL数据分为有害URL和正常URL，因此URL数据的类别为二元，即n＝2，由此，i有两个取值分别代表有害类URL和正常类URL，针对每一类，统计属于该类的URL数据数量，继而可以计算得到训练集中该类URL数据所占的比例；接着，对于新训练集中URL数据所具备的每个词特征，计算各个词特征的信息熵，首先统计其中某个词特征的可能离值，继而对训练集X进行划分，划分得到的子集由具有相同词特征的URL数据组成，继而计算出用该词特征划分后所获得的所述离值个数子集的信息熵；接着，根据新训练集的信息熵和每个词特征的信息熵，计算得到每个词特征的信息增益，由于决策树构建的关键在于如何选择最优的划分属性，对于二元分类而言，就是尽量使划分的样本属于同一类别，即纯度最高的属性，一般而言，信息增益越大，则表示使用具有该信息增益值的词特征对新训练集划分所获得的“纯度提升”越大，所以信息增益可以用于决策树划分属性的选择，也就是选择信息增益最大的词特征作为划分属性，对于构建决策树而言，根节点处的划分属性为对所有词特征进行筛选后得到的具有最大信息增益的词特征，以本实施例中的词特征“URL中数字比例”为例，至于如何对新训练集中的URL数据基于该词特征进行分类，需要制定分支规则，例如，指定分类的数值区间：0，(0,0.3],(0.3,0.7]和(0.7,1.0],将落入同一数值区间的URL数据划分为一类，也就是划分为根节点的一个分支，继而以此类推，继续对每个分支节点递归地进行划分直到满足结束条件，在本实施例中，结束条件可以为1、当前节点包含的样本全属于同一类别，无需划分；2、当前词特征的集合为空，或是所有样本在所有词特征上取值相同，无法划分；3、当前节点包含的样本集为空，不能划分。在结束划分后即可并将当前节点标记为有害或正常叶节点，即确定了该叶子节点所代表的决策类别，最后递归返回。

步骤S500：根据随机森林模型对测试集中的URL数据进行是否为有害URL的检测。

其中，随机森林模型由上述步骤中生成的n个决策树组成，多个决策树作为一个整体即为随机森林模型。通过基于词特征的分类属性对URL数据层层筛选划分，直到划分后得到的子集全部为单一类别的URL数据，构建决策树和随机森林模型，在具备对新训练集中有害URL进行识别的能力后，利用测试集对随机森林模型的识别能力做验证。

进一步的，步骤S500可以包括但不限于以下步骤：

步骤S510：提取测试集中URL数据具有的词特征。

步骤S520：根据词特征和随机森林模型对测试集中的URL数据进行是否为有害URL的检测。

进一步的，步骤S520可以包括但不限于以下步骤：

步骤S521：利用随机森林模型中的每一个决策树，根据URL数据的词特征，对URL数据进行检测。

步骤S522：基于简单投票法汇总每个决策树的分类结果，确定URL数据是否为有害URL。

具体的，首先，将测试集中每条URL数据所具有的词特征提取出来，作为利用随机森林模型识别时的分类属性，接着，由于随机森林模型由n个决策树组成，因此需要利用n个决策树作为检测模型，分别单独地对测试集中的URL数据进行n次有害URL的检测，并得到n个决策结果，最后，基于简单投票法简单投票法汇总每个决策树的决策结果获得最终检测结果，简单投票法即让随机森林中的每一个决策树对URL是否有害进行检测，将最多的检测结果作为最终检测结果。

参照图2，为本实施例中构建的一种决策树示例，根节点处的词特征为URL中数字比例，意味着在采用此决策树对测试集检测时，先根据URL中数字比例的数值对URL数据进行分类，分类标准如分支路径上的分类区间所示，划分出四个子集，每个子集中的URL数据所具有的URL中数字比例均相同，接着，逐步对各个子集中的URL数据进行归类，以URL中数字比例为零的子集为例，由于该节点处作为分类属性的词特征为域名长度和总长度比例，并且该节点的分支上以区间[0,0.5)和(0.5,1.0]为分类标准，因此，将该子集中域名长度和总长度比例落入区间[0,0.5)的URL数据划分为一类作为一个新节点，将域名长度和总长度比例落入区间(0.5,1.0]的URL数据划分为另一类作为前一个节点的兄弟节点，由于经过上述划分后达到了决策树最下方的决策节点，因此可以根据决策节点的标签，判定落入区间[0,0.5)和(0.5,1.0]的URL数据分别为有害URL和正常URL，由此获得利用该决策树对测试集中URL数据进行检测的结果。

参照图3，为本实施例中的一种算法图例，由上至下分别为初始化：获取URL数据和创建词特征；预处理：创建训练集，对训练集里的每条URL数据进行词特征的提取；放回随机取样：基于训练集利用放回随机取样的方式创建了n个新训练集；生成决策树：根据n个新训练集中URL数据的每种词特征，训练出n个相对应的决策树模型；生成随机森林：随机森林模型即由n个决策树模型组成；简单投票决策：采用简单投票法对随机森林模型中每个决策树所做的决策进行投票，得到测试集中有害URL数据的最终检测结果。

本发明实施例至少包括以下有益效果：通过采用URL具有的词特征来代替传统的网页内容作为检测URL是否有害的属性，能够减少构建并训练检测模型的时间，由于使用URL词特征进行训练所需要运算的数据量大幅减小，从而减少训练的时间；通过将URL数据的词特征作为决策树模型的节点参数，相对于深度神经网络的参数无法知道而言，决策树模型的参数可以人工选择进行调优，能够提高检测模型的可视化程度，更容易进行模型分析优化；由于只需要对URL数据的词特征进行运算，还可以在检测过程中降低数据处理量，提高检测速度；相对于现有的直接通过URL进行处理的技术，通过URL的词特征对URL进行层层归类，能够使检测结果具有更高的实时性和准确性；且面对新的个性化小样本任务，由于采用的原始数据仅有URL，不涉及对原有网页的访问，不用担心安全性和算力问题，能够使训练出的检测模型有更好的适应性，提高了系统的实用价值。

参照图4，本发明实施例提供了一种检测有害URL的系统示意图，包括但不限于：

第一处理模块401，用于获取URL数据，其中，URL数据包含有害URL数据和正常URL数据；

第二处理模块402，用于根据URL数据创建词特征，其中，词特征用于归纳URL数据所具有的特征；

第三处理模块403，用于根据URL数据创建训练集和测试集，统计训练集中URL数据具有的词特征；

第四处理模块404，用于根据训练集中URL数据的词特征构建决策树并生成随机森林模型；

第五处理模块405，用于根据随机森林模型对测试集中的URL数据进行是否为有害URL的检测。

本发明实施例提供了一种电子设备，如图5所示，该电子设备包括存储器501和处理器502；存储器501，用于存放一个或多个计算机程序；处理器502，用于执行存储器501上所存放的程序时，实现本发明实施例提供的检测有害URL的方法。

本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行本发明实施例提供的检测有害URL的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字调节人员线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于电子设备和计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种检测有害URL的方法，其特征在于，包括：

2.根据权利要求1所述的检测有害URL的方法，其特征在于，所述词特征包括：所述URL数据中的域名信息熵、字符连续率、请求参数和路径的长度比例、请求参数长度和所述URL数据总长度的比例、请求参数的长度和域名长度的比例、域名长度和所述URL数据总长度的比例、路径长度和所述URL数据总长度的比例、路径长度和域名长度的比例、域名中标点符号的数量、访问请求部分的数字数量、域名标记的数量、域名中的顶级域名数量、域名中的数字比例、目录名中的数字比例、文件名中的数字比例、所述URL数据中的数字比例、路径中的数字比例、所述URL数据总长度、域名长度、文件名长度、请求参数中最长单词的长度、最长路径标记的长度、路径的平均长度、所述URL数据中字母数字字母格式的子字符串的个数、所述URL数据中特殊符号的数量。

3.根据权利要求1所述的检测有害URL的方法，其特征在于，所述根据所述训练集中所述URL数据的所述词特征构建决策树并生成随机森林模型，包括：

基于所述训练集利用放回随机抽样的机制创建n个新训练集，其中，n为大于零的整数；

根据n个所述新训练集中所述URL数据的所述词特征构建n个所述决策树，并生成包括所述n个决策树的随机森林模型。

4.根据权利要求3所述的检测有害URL的方法，其特征在于，所述根据n个所述新训练集中所述URL数据的所述词特征构建n个所述决策树，包括：

计算所述新训练集的信息熵和所述新训练集中所述词特征的信息熵；

根据所述新训练集的信息熵和所述词特征的信息熵，计算得到所述词特征的信息增益；

根据所述词特征的信息增益构建所述决策树。

5.根据权利要求4所述的检测有害URL的方法，其特征在于，所述根据所述词特征的信息增益构建所述决策树，包括：

选取信息增益最大的所述词特征存储于分支节点，所述分支节点用于作为划分属性对所述URL数据进行归类；

根据所述URL数据的归类结果，确定叶子节点所代表的决策类别。

6.根据权利要求1所述的检测有害URL的方法，其特征在于，所述根据所述随机森林模型对所述测试集中的所述URL数据进行是否为有害URL的检测，包括：

提取所述测试集中所述URL数据具有的所述词特征；

根据所述词特征和所述随机森林模型对所述测试集中的所述URL数据进行是否为有害URL的检测。

7.根据权利要求6所述的检测有害URL的方法，其特征在于，所述根据所述词特征和所述随机森林模型对所述测试集中的所述URL数据进行是否为有害URL的检测，包括：

利用所述随机森林模型中的每一个所述决策树，根据所述URL数据的所述词特征，对所述URL数据进行检测；

基于简单投票法汇总每个所述决策树的分类结果，确定所述URL数据是否为所述有害URL。

8.一种检测有害URL的系统，其特征在于，包括：

9.一种电子设备，所述电子设备包括处理器、存储器，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求1-7中任一所述的检测有害URL的方法。

10.一种计算机可读存储介质，其特征在于，存储有处理器可运行的程序指令，所述程序指令用于执行如权利要求1-7中任一所述的检测有害URL的方法。