CN113361597B

CN113361597B - 一种url检测模型的训练方法、装置、电子设备和存储介质

Info

Publication number: CN113361597B
Application number: CN202110624113.9A
Authority: CN
Inventors: 刘盈; 谢鹏程
Original assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Current assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2023-07-21
Anticipated expiration: 2041-06-04
Also published as: CN113361597A

Abstract

本公开涉及一种URL检测模型的训练方法、装置、电子设备和存储介质，其中，方法包括：获取多个URL样本，提取每个URL样本中的参数样本；每个参数样本包括检测结果标签；对每个参数样本进行统计特征提取，获取每个参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵，N‑Gram熵、大写字母的比例和字符频率、以及对应的检测结果标签生成训练向量矩阵；将训练向量矩阵基于机器学习进行分类器训练，获取URL检测模型。由此，通过训练获取的URL检测模型进行URL检测，提高URL检测的准确性。

Description

一种URL检测模型的训练方法、装置、电子设备和存储介质

技术领域

本公开涉及信息技术领域，尤其涉及一种一种URL检测模型的训练方法、装置、电子设备和存储介质。

背景技术

在当今世界，技术日新月异。随着技术的进步，互联网也发展迅速。互联网的发展扩大了网络范围活动的范围，越来越多的攻击者进行网络攻击，政府、行业和个人都是受害者。预测未来的威胁及其性质是一项艰巨的任务，并且几乎是无法解决的。因此，恶意软件或恶意网站成为网络安全的主要威胁之一，尤其是恶意URL(uniform resource locator，统一资源定位符)成为严重的网络安全威胁，恶意网址托管内容异常，例如垃圾邮件，网络钓鱼攻击，利用用户等，每年在全球造成数十亿美元的巨额金钱损失。因此，检测此类攻击并采取相应措施非常重要。

相关技术中。恶意URL识别最传统的方法是黑名单方法，即将已知的恶意URL建立黑名单，并通过多种手段进行维护，从而根据黑名单直接判断待检测URL是否为恶意。该方法简单直接，查准率高，但只能识别已有的恶意URL，查全率低，时效性差。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种URL检测模型的训练方法、装置、电子设备和存储介质。

本公开提供了一种URL检测模型的训练方法，包括：

获取多个URL样本，并提取每个所述URL样本中的参数样本；其中，每个所述参数样本包括检测结果标签；

对每个所述参数样本进行统计特征提取，获取每个所述参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵，N-Gram熵、大写字母的比例和字符频率；

根据每个所述参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵，基于N-Gram熵、大写字母的比例和字符频率，以及对应的检测结果标签生成训练向量矩阵；

将所述训练向量矩阵基于机器学习进行分类器训练，获取URL检测模型。

在本公开一个可选的实施例中，对所述参数样本进行统计特征提取，获取所述参数个数包括：

通过第一标识符对所述参数样本进行第一切分，获取切分个数为所述参数个数。

在本公开一个可选的实施例中，对所述参数样本进行统计特征提取，获取所述参数名的平均长度和所述参数名的平均熵，包括：

通过第二标识符对进行所述第一切分后的参数样本进行第二切分，获取所述第二标识符前面的字符作为参数名，并统计所述参数名的平均长度；

计算每个所述参数名的字符串熵值，根据所述字符串熵值和所述参数名的个数计算每个所述参数名的平均熵；其中，计算公式为：

其中，n为所述参数名的个数，x为参数名字符串中的一个字符，P(x)为x的频率。

在本公开一个可选的实施例中，对所述参数样本进行统计特征提取，获取所述参数值的平均长度和所述参数值的平均熵，包括：

通过第二标识符对进行所述第一切分后的参数样本进行第二切分，获取所述第二标识符后面的字符作为参数值，并统计所述参数值的平均长度；

计算每个所述参数值的字符串熵值，根据所述字符串熵值和所述参数值的个数计算每个所述参数值的平均熵。

在本公开一个可选的实施例中，对所述参数样本进行统计特征提取，对所述参数样本进行统计特征提取，获取N-Gram熵，包括：

基于N-Gram模型，统计所述参数样本的字符串熵；其中，所述参数样本的N-Gram的值为N，所有不同的N-Gram片段的个数分别记为f1，f2，…，fN，所有不同N-Gram片段个数的总和记为T，所述参数样本的N-Gram熵计算为：

在本公开一个可选的实施例中，对所述参数样本进行统计特征提取，获取大写字母的比例和字符频率，包括：

计算所述参数样本中，出现大写字母的个数，除以整个所述参数样本的长度，获取所述大写字母的比例；

统计所述参数样本中每个可打印字符出现的次数，除以所述参数样本的长度，获取所有可打印字符的频率；

根据所述所有可打印字符的频率和个数计算所述所有可打印字符的平均字符频率；

根据所述平均字符频率与预设频率阈值确定目标可打印字符，获取所述目标可打印字符的平均字符频率作为所述字符频率。

在本公开一个可选的实施例中，所述的URL检测模型的训练方法，还包括：

获取待检测URL；

提取所述待检测URL的参数，并对所述参数进行统计特征提取，获取所述参数对应的特征向量；其中，所述特征向量包括参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵，N-Gram熵、大写字母的比例和字符频率；

将所述特征向量输入所述URL检测模型进行处理，获取检测结果，根据所述检测结果确定所述待检测URL是否正常。

本公开提供了一种URL检测模型的训练装置，包括：

获取模块，用于获取多个URL样本，并提取每个所述URL样本中的参数样本；其中，每个所述参数样本包括检测结果标签；

提取模块，用于对每个所述参数样本进行统计特征提取，获取每个所述参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵，N-Gram熵、大写字母的比例和字符频率；

生成模块，用于根据每个所述参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵，基于N-Gram熵、大写字母的比例和字符频率，以及对应的检测结果标签生成训练向量矩阵；

训练获取模块，用于将所述训练向量矩阵基于机器学习进行分类器训练，获取URL检测模型。

本公开提供了一种电子设备，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行前述实施例所述URL检测模型的训练方法。

本公开提供了一种计算机可读存储介质，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行前述实施例所述URL检测模型的训练方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：

获取多个URL样本，并提取每个URL样本中的参数样本；其中，每个参数样本包括检测结果标签，对每个参数样本进行统计特征提取，获取每个参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵，N-Gram熵、大写字母的比例和字符频率，根据每个参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵，基于N-Gram熵、大写字母的比例和字符频率，以及对应的检测结果标签生成训练向量矩阵，将训练向量矩阵基于机器学习进行分类器训练，获取URL检测模型。由此，通过训练获取的URL检测模型进行URL检测，提高URL检测的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例所述一种URL检测模型的训练方法的流程示例图；

图2为本公开实施例所述一种URL检测模型的训练方法的流程示例图；

图3为本公开实施例所述一种URL检测模型的训练装置的结构示例图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

在实际应用中，恶意URL在广义上是指用户非自愿访问的网站地址，这些网站内通常被植入了木马、病毒、广告等恶意代码，这些恶意代码通过伪装成正常服务来诱导用户进行访问。一旦进入这些恶意URL，用户通常会遭受广告弹窗、强制安装软件或信息被盗等危害。

本公开针对攻击者利用URL的参数部分，进行恶意代码或恶意命令的传输，提出一种URL检测模型的训练方法，不需要从互联网上获取URL的基于主机的特征以及情报特征，同时不需要查询现有的威胁情报库。直接根据URL的参数部分，进行特征提取，利用机器学习分类算法得到URL检测模型进行处理，获取检测结果，也就是说，获取URL数据集，在进行预处理后，对URL的参数部分进行特征提取，基于提取的特征集合，使用机器学习分类算法进行训练，得到分类器即URL检测模型，当收到新的URL时，对其进行同样的特征提取，作为分类器的输入，根据输出结果判断是否为恶意URL。

图1为本公开实施例所述一种URL检测模型的训练方法的流程示例图。

步骤101，获取多个URL样本，并提取每个URL样本中的参数样本；其中，每个参数样本包括检测结果标签。

在本公开实施例中，每个URL包括参数部分，因此，可以提取每个URL样本中的参数样本，作为一种示例，一个URL样本，使用“？”进行切分，问号后面的即为参数部分，即参数样本。

在本公开实施例中，每个URL样本是已经确定其为恶意URL还是正常URL，因此，每个参数样本包括检测结果标签，可以通过检测结果标签1表示恶意URL，检测结果标签0表示正常URL，具体根据应用场景需要选择设置。

步骤102，对每个参数样本进行统计特征提取，获取每个参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵，N-Gram熵、大写字母的比例和字符频率。

在本公开实施例中，通过第一标识符对参数样本进行第一切分，获取切分个数为参数个数，作为一种示例，对于参数部分，使用第一标识符“&”切分后，切分的个数即为参数的个数。

在本公开实施例中，通过第二标识符对进行第一切分后的参数样本进行第二切分，获取第二标识符前面的字符作为参数名，并统计参数名的平均长度。

在本公开实施例中，计算每个参数名的字符串熵值，根据字符串熵值和参数名的个数计算每个参数名的平均熵；其中，计算公式为：

其中，n为参数名的个数，x为参数名字符串中的一个字符，P(x)为x的频率。

作为一种示例，第一标识符“&”切分后，使用第二标识符“＝”切分，等号前面的即为参数名，统计参数名的平均长度，以及对每个参数名，计算其字符串熵值，然后得到参数名的平均熵。

在本公开实施例中，通过第二标识符对进行第一切分后的参数样本进行第二切分，获取第二标识符后面的字符作为参数值，并统计参数值的平均长度。

在本公开实施例中，计算每个参数值的字符串熵值，根据字符串熵值和参数值的个数计算每个参数值的平均熵。

作为一种示例，第一标识符“&”切分后，使用第二标识符“＝”切分，等号后面的即为参数值，统计参数值的平均长度，以及对每个参数样本的参数值，计算其字符串熵值，然后得到参数值的平均熵。

在本公开实施例中，基于N-Gram模型，统计参数样本的字符串熵；其中，参数样本的N-Gram的值为N，所有不同的N-Gram片段的个数分别记为f1，f2，…，fN，所有不同N-Gram片段个数的总和记为T，参数样本的N-Gram熵计算为：

在本公开实施例中，计算参数样本中，出现大写字母的个数，除以整个参数样本的长度，获取大写字母的比例。

在本公开实施例中，统计参数样本中每个可打印字符出现的次数，除以参数样本的长度，获取所有可打印字符的频率，根据所有可打印字符的频率和个数计算所有可打印字符的平均字符频率，根据平均字符频率与预设频率阈值确定目标可打印字符，获取目标可打印字符的平均字符频率作为字符频率。

也就是说，计算参数部分中，出现大写字母的个数，除以整个参数部分的长度，统计每个参数部分中每个可打印字符出现的次数，除以该参数部分的长度，其中，忽略大小写，然后求出所有可打印字符的平均字符频率，最后与设置的频率阈值相比较，如果大于该频率阈值，则将该字符作为一个特征；如果小于则舍弃，使用过滤后的可打印字符，计算在每个参数部分中的字符频率，作为特征集合的一部分。

需要说明的是，若问号后面只是一个字符串，没有使用等号进行连接参数名和参数值，则此时认为该字符串即为参数名，参数值为空。

步骤103，根据每个参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵，基于N-Gram熵、大写字母的比例和字符频率，以及对应的检测结果标签生成训练向量矩阵。

步骤104，将训练向量矩阵基于机器学习进行分类器训练，获取URL检测模型。

在本公开实施例中，多个URL样本以及器对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵，N-Gram熵、大写字母的比例和字符频率等多个特征，以及检测结果标签组合成训练向量矩阵，并通过随机森林、逻辑回归和支持向量机等机器学习进行训练，获取URL检测模型。

其中，机器学习方法包括随机森林、逻辑回归和支持向量机等，具体根据需要选择。

在本公开一个可能实现方式中，如图2所示，包括：

步骤201，获取待检测URL。

步骤202，提取待检测URL的参数，并对参数进行统计特征提取，获取参数对应的特征向量；其中，特征向量包括参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵，N-Gram熵、大写字母的比例和字符频率。

步骤203，将特征向量输入URL检测模型进行处理，获取检测结果，根据检测结果确定待检测URL是否正常。

在本公开实施例中，待检测URL包括参数部分，因此，可以提取待检测URL中的参数，作为一种示例，一个待检测URL，使用“？”进行切分，问号后面的即为参数部分，即参数。

在本公开实施例中，通过第一标识符对参数进行第一切分，获取切分个数为参数个数，作为一种示例，对于参数部分，使用第一标识符“&”切分后，切分的个数即为参数的个数。

在本公开实施例中，通过第二标识符对进行第一切分后的参数进行第二切分，获取第二标识符前面的字符作为参数名，并统计参数名的平均长度。

在本公开实施例中，计算每个参数名的字符串熵值，根据字符串熵值和参数名的个数计算每个参数名的平均熵。

作为一种示例，第一标识符“&”切分后，使用第二标识符“＝”切分，等号前面的即为参数名，统计参数名的平均长度，以及对每个参数名，计算其字符串熵值，然后得到参数名的平均熵

在本公开实施例中，通过第二标识符对进行第一切分后的参数进行第二切分，获取第二标识符后面的字符作为参数值，并统计参数值的平均长度。

在本公开实施例中，基于N-Gram模型，统计参数的字符串熵；其中，参数的N-Gram的值为N，所有不同的N-Gram片段的个数分别记为f1，f2，…，fN，所有不同N-Gram片段个数的总和记为T，参数的N-Gram熵计算为：

在本公开实施例中，计算参数中，出现大写字母的个数，除以整个参数的长度，获取大写字母的比例。

在本公开实施例中，统计参数中每个可打印字符出现的次数，除以参数的长度，获取所有可打印字符的频率，根据所有可打印字符的频率和个数计算所有可打印字符的平均字符频率，根据平均字符频率与预设频率阈值确定目标可打印字符，获取目标可打印字符的平均字符频率作为字符频率。

由此，不需要从互联网上获取大量的基于主机的特征以及情报特征，同时不需要查询现有的威胁情报库，直接对URL的参数部分进行特征提取，使用机器学习分类算法对统计特征进行训练，得到分类器即URL检测模型。

本公开的URL检测模型的训练方法，通过获取多个URL样本，并提取每个URL样本中的参数样本；其中，每个参数样本包括检测结果标签，对每个参数样本进行统计特征提取，获取每个参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵，N-Gram熵、大写字母的比例和字符频率，根据每个参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵，基于N-Gram熵、大写字母的比例和字符频率，以及对应的检测结果标签生成训练向量矩阵，将训练向量矩阵基于机器学习进行分类器训练，获取URL检测模型。由此，通过训练获取的URL检测模型进行URL检测，提高URL检测的准确性。

与上述图1至图2实施例提供方法相对应，本公开还提供一种装置，由于本公开实施例提供的装置与上述图1至图2实施例提供的方法相对应，因此在方法的实施方式也适用于本公开实施例提供的装置，在本公开实施例中不再详细描述。

图3为本公开实施例所述的URL检测模型的训练装置的结构示意图。

如图3所示，该URL检测模型的训练装置，包括：获取模块301、提取模块302、生成模块303和训练获取模块304。

其中，获取模块301，用于获取多个URL样本，并提取每个所述URL样本中的参数样本；其中，每个所述参数样本包括检测结果标签。

提取模块302，用于对每个所述参数样本进行统计特征提取，获取每个所述参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵，N-Gram熵、大写字母的比例和字符频率。

生成模块303，用于根据每个所述参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵，基于N-Gram熵、大写字母的比例和字符频率，以及对应的检测结果标签生成训练向量矩阵。

训练获取模块304，用于将所述训练向量矩阵基于机器学习进行分类器训练，获取URL检测模型。

本公开的URL检测模型的训练装置，通过获取多个URL样本，并提取每个URL样本中的参数样本；其中，每个参数样本包括检测结果标签，对每个参数样本进行统计特征提取，获取每个参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵，N-Gram熵、大写字母的比例和字符频率，根据每个参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵，基于N-Gram熵、大写字母的比例和字符频率，以及对应的检测结果标签生成训练向量矩阵，将训练向量矩阵基于机器学习进行分类器训练，获取URL检测模型。由此，通过训练获取的URL检测模型进行URL检测，提高URL检测的准确性。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种URL检测模型的训练方法，其特征在于，包括：

获取多个统一资源定位符URL样本，并提取每个所述URL样本中的参数样本；其中，每个所述参数样本包括检测结果标签；

将所述训练向量矩阵基于机器学习进行分类器训练，获取URL检测模型；

其中，对所述参数样本进行统计特征提取，获取所述参数个数包括：通过第一标识符对所述参数样本进行第一切分，获取切分个数为所述参数个数；

对所述参数样本进行统计特征提取，获取所述字符频率包括：统计所述参数样本中每个可打印字符出现的次数，除以所述参数样本的长度，获取所有可打印字符的频率；根据所述所有可打印字符的频率和个数计算所述所有可打印字符的平均字符频率；根据所述平均字符频率与预设频率阈值确定目标可打印字符，获取所述目标可打印字符的平均字符频率作为所述字符频率；

其中，所述参数名为通过第二标识符对进行所述第一切分后的参数样本进行第二切分，获取的所述第二标识符前面的字符；所述参数值为通过所述第二标识符对进行所述第一切分后的参数样本进行所述第二切分，获取的所述第二标识符后面的字符。

2.根据权利要求1所述的URL检测模型的训练方法，其特征在于，对所述参数样本进行统计特征提取，获取所述参数名的平均长度和所述参数名的平均熵，包括：

3.根据权利要求1所述的URL检测模型的训练方法，其特征在于，对所述参数样本进行统计特征提取，获取所述参数值的平均长度和所述参数值的平均熵，包括：

4.根据权利要求1所述的URL检测模型的训练方法，其特征在于，对所述参数样本进行统计特征提取，对所述参数样本进行统计特征提取，获取N-Gram熵，包括：

5.根据权利要求1所述的URL检测模型的训练方法，其特征在于，对所述参数样本进行统计特征提取，获取大写字母的比例，包括：

计算所述参数样本中，出现大写字母的个数，除以整个所述参数样本的长度，获取所述大写字母的比例。

6.根据权利要求1所述的URL检测模型的训练方法，其特征在于，还包括：

获取待检测URL；

7.一种URL检测模型的训练装置，其特征在于，包括：

训练获取模块，用于将所述训练向量矩阵基于机器学习进行分类器训练，获取URL检测模型；

8.一种电子设备，其特征在于，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如权利要求1至6任一项所述方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至6任一项所述方法的步骤。