CN113361597B - 一种url检测模型的训练方法、装置、电子设备和存储介质 - Google Patents

一种url检测模型的训练方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113361597B
CN113361597B CN202110624113.9A CN202110624113A CN113361597B CN 113361597 B CN113361597 B CN 113361597B CN 202110624113 A CN202110624113 A CN 202110624113A CN 113361597 B CN113361597 B CN 113361597B
Authority
CN
China
Prior art keywords
parameter
average
entropy
sample
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110624113.9A
Other languages
English (en)
Other versions
CN113361597A (zh
Inventor
刘盈
谢鹏程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Topsec Technology Co Ltd, Beijing Topsec Network Security Technology Co Ltd, Beijing Topsec Software Co Ltd filed Critical Beijing Topsec Technology Co Ltd
Priority to CN202110624113.9A priority Critical patent/CN113361597B/zh
Publication of CN113361597A publication Critical patent/CN113361597A/zh
Application granted granted Critical
Publication of CN113361597B publication Critical patent/CN113361597B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种URL检测模型的训练方法、装置、电子设备和存储介质,其中,方法包括:获取多个URL样本,提取每个URL样本中的参数样本;每个参数样本包括检测结果标签;对每个参数样本进行统计特征提取,获取每个参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵,N‑Gram熵、大写字母的比例和字符频率、以及对应的检测结果标签生成训练向量矩阵;将训练向量矩阵基于机器学习进行分类器训练,获取URL检测模型。由此,通过训练获取的URL检测模型进行URL检测,提高URL检测的准确性。

Description

一种URL检测模型的训练方法、装置、电子设备和存储介质
技术领域
本公开涉及信息技术领域,尤其涉及一种一种URL检测模型的训练方法、装置、电子设备和存储介质。
背景技术
在当今世界,技术日新月异。随着技术的进步,互联网也发展迅速。互联网的发展扩大了网络范围活动的范围,越来越多的攻击者进行网络攻击,政府、行业和个人都是受害者。预测未来的威胁及其性质是一项艰巨的任务,并且几乎是无法解决的。因此,恶意软件或恶意网站成为网络安全的主要威胁之一,尤其是恶意URL(uniform resource locator,统一资源定位符)成为严重的网络安全威胁,恶意网址托管内容异常,例如垃圾邮件,网络钓鱼攻击,利用用户等,每年在全球造成数十亿美元的巨额金钱损失。因此,检测此类攻击并采取相应措施非常重要。
相关技术中。恶意URL识别最传统的方法是黑名单方法,即将已知的恶意URL建立黑名单,并通过多种手段进行维护,从而根据黑名单直接判断待检测URL是否为恶意。该方法简单直接,查准率高,但只能识别已有的恶意URL,查全率低,时效性差。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种URL检测模型的训练方法、装置、电子设备和存储介质。
本公开提供了一种URL检测模型的训练方法,包括:
获取多个URL样本,并提取每个所述URL样本中的参数样本;其中,每个所述参数样本包括检测结果标签;
对每个所述参数样本进行统计特征提取,获取每个所述参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵,N-Gram熵、大写字母的比例和字符频率;
根据每个所述参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵,基于N-Gram熵、大写字母的比例和字符频率,以及对应的检测结果标签生成训练向量矩阵;
将所述训练向量矩阵基于机器学习进行分类器训练,获取URL检测模型。
在本公开一个可选的实施例中,对所述参数样本进行统计特征提取,获取所述参数个数包括:
通过第一标识符对所述参数样本进行第一切分,获取切分个数为所述参数个数。
在本公开一个可选的实施例中,对所述参数样本进行统计特征提取,获取所述参数名的平均长度和所述参数名的平均熵,包括:
通过第二标识符对进行所述第一切分后的参数样本进行第二切分,获取所述第二标识符前面的字符作为参数名,并统计所述参数名的平均长度;
计算每个所述参数名的字符串熵值,根据所述字符串熵值和所述参数名的个数计算每个所述参数名的平均熵;其中,计算公式为:
其中,n为所述参数名的个数,x为参数名字符串中的一个字符,P(x)为x的频率。
在本公开一个可选的实施例中,对所述参数样本进行统计特征提取,获取所述参数值的平均长度和所述参数值的平均熵,包括:
通过第二标识符对进行所述第一切分后的参数样本进行第二切分,获取所述第二标识符后面的字符作为参数值,并统计所述参数值的平均长度;
计算每个所述参数值的字符串熵值,根据所述字符串熵值和所述参数值的个数计算每个所述参数值的平均熵。
在本公开一个可选的实施例中,对所述参数样本进行统计特征提取,对所述参数样本进行统计特征提取,获取N-Gram熵,包括:
基于N-Gram模型,统计所述参数样本的字符串熵;其中,所述参数样本的N-Gram的值为N,所有不同的N-Gram片段的个数分别记为f1,f2,…,fN,所有不同N-Gram片段个数的总和记为T,所述参数样本的N-Gram熵计算为:
在本公开一个可选的实施例中,对所述参数样本进行统计特征提取,获取大写字母的比例和字符频率,包括:
计算所述参数样本中,出现大写字母的个数,除以整个所述参数样本的长度,获取所述大写字母的比例;
统计所述参数样本中每个可打印字符出现的次数,除以所述参数样本的长度,获取所有可打印字符的频率;
根据所述所有可打印字符的频率和个数计算所述所有可打印字符的平均字符频率;
根据所述平均字符频率与预设频率阈值确定目标可打印字符,获取所述目标可打印字符的平均字符频率作为所述字符频率。
在本公开一个可选的实施例中,所述的URL检测模型的训练方法,还包括:
获取待检测URL;
提取所述待检测URL的参数,并对所述参数进行统计特征提取,获取所述参数对应的特征向量;其中,所述特征向量包括参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵,N-Gram熵、大写字母的比例和字符频率;
将所述特征向量输入所述URL检测模型进行处理,获取检测结果,根据所述检测结果确定所述待检测URL是否正常。
本公开提供了一种URL检测模型的训练装置,包括:
获取模块,用于获取多个URL样本,并提取每个所述URL样本中的参数样本;其中,每个所述参数样本包括检测结果标签;
提取模块,用于对每个所述参数样本进行统计特征提取,获取每个所述参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵,N-Gram熵、大写字母的比例和字符频率;
生成模块,用于根据每个所述参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵,基于N-Gram熵、大写字母的比例和字符频率,以及对应的检测结果标签生成训练向量矩阵;
训练获取模块,用于将所述训练向量矩阵基于机器学习进行分类器训练,获取URL检测模型。
本公开提供了一种电子设备,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行前述实施例所述URL检测模型的训练方法。
本公开提供了一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行前述实施例所述URL检测模型的训练方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
获取多个URL样本,并提取每个URL样本中的参数样本;其中,每个参数样本包括检测结果标签,对每个参数样本进行统计特征提取,获取每个参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵,N-Gram熵、大写字母的比例和字符频率,根据每个参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵,基于N-Gram熵、大写字母的比例和字符频率,以及对应的检测结果标签生成训练向量矩阵,将训练向量矩阵基于机器学习进行分类器训练,获取URL检测模型。由此,通过训练获取的URL检测模型进行URL检测,提高URL检测的准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例所述一种URL检测模型的训练方法的流程示例图;
图2为本公开实施例所述一种URL检测模型的训练方法的流程示例图;
图3为本公开实施例所述一种URL检测模型的训练装置的结构示例图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
在实际应用中,恶意URL在广义上是指用户非自愿访问的网站地址,这些网站内通常被植入了木马、病毒、广告等恶意代码,这些恶意代码通过伪装成正常服务来诱导用户进行访问。一旦进入这些恶意URL,用户通常会遭受广告弹窗、强制安装软件或信息被盗等危害。
本公开针对攻击者利用URL的参数部分,进行恶意代码或恶意命令的传输,提出一种URL检测模型的训练方法,不需要从互联网上获取URL的基于主机的特征以及情报特征,同时不需要查询现有的威胁情报库。直接根据URL的参数部分,进行特征提取,利用机器学习分类算法得到URL检测模型进行处理,获取检测结果,也就是说,获取URL数据集,在进行预处理后,对URL的参数部分进行特征提取,基于提取的特征集合,使用机器学习分类算法进行训练,得到分类器即URL检测模型,当收到新的URL时,对其进行同样的特征提取,作为分类器的输入,根据输出结果判断是否为恶意URL。
图1为本公开实施例所述一种URL检测模型的训练方法的流程示例图。
步骤101,获取多个URL样本,并提取每个URL样本中的参数样本;其中,每个参数样本包括检测结果标签。
在本公开实施例中,每个URL包括参数部分,因此,可以提取每个URL样本中的参数样本,作为一种示例,一个URL样本,使用“?”进行切分,问号后面的即为参数部分,即参数样本。
在本公开实施例中,每个URL样本是已经确定其为恶意URL还是正常URL,因此,每个参数样本包括检测结果标签,可以通过检测结果标签1表示恶意URL,检测结果标签0表示正常URL,具体根据应用场景需要选择设置。
步骤102,对每个参数样本进行统计特征提取,获取每个参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵,N-Gram熵、大写字母的比例和字符频率。
在本公开实施例中,通过第一标识符对参数样本进行第一切分,获取切分个数为参数个数,作为一种示例,对于参数部分,使用第一标识符“&”切分后,切分的个数即为参数的个数。
在本公开实施例中,通过第二标识符对进行第一切分后的参数样本进行第二切分,获取第二标识符前面的字符作为参数名,并统计参数名的平均长度。
在本公开实施例中,计算每个参数名的字符串熵值,根据字符串熵值和参数名的个数计算每个参数名的平均熵;其中,计算公式为:
其中,n为参数名的个数,x为参数名字符串中的一个字符,P(x)为x的频率。
作为一种示例,第一标识符“&”切分后,使用第二标识符“=”切分,等号前面的即为参数名,统计参数名的平均长度,以及对每个参数名,计算其字符串熵值,然后得到参数名的平均熵。
在本公开实施例中,通过第二标识符对进行第一切分后的参数样本进行第二切分,获取第二标识符后面的字符作为参数值,并统计参数值的平均长度。
在本公开实施例中,计算每个参数值的字符串熵值,根据字符串熵值和参数值的个数计算每个参数值的平均熵。
作为一种示例,第一标识符“&”切分后,使用第二标识符“=”切分,等号后面的即为参数值,统计参数值的平均长度,以及对每个参数样本的参数值,计算其字符串熵值,然后得到参数值的平均熵。
在本公开实施例中,基于N-Gram模型,统计参数样本的字符串熵;其中,参数样本的N-Gram的值为N,所有不同的N-Gram片段的个数分别记为f1,f2,…,fN,所有不同N-Gram片段个数的总和记为T,参数样本的N-Gram熵计算为:
在本公开实施例中,计算参数样本中,出现大写字母的个数,除以整个参数样本的长度,获取大写字母的比例。
在本公开实施例中,统计参数样本中每个可打印字符出现的次数,除以参数样本的长度,获取所有可打印字符的频率,根据所有可打印字符的频率和个数计算所有可打印字符的平均字符频率,根据平均字符频率与预设频率阈值确定目标可打印字符,获取目标可打印字符的平均字符频率作为字符频率。
也就是说,计算参数部分中,出现大写字母的个数,除以整个参数部分的长度,统计每个参数部分中每个可打印字符出现的次数,除以该参数部分的长度,其中,忽略大小写,然后求出所有可打印字符的平均字符频率,最后与设置的频率阈值相比较,如果大于该频率阈值,则将该字符作为一个特征;如果小于则舍弃,使用过滤后的可打印字符,计算在每个参数部分中的字符频率,作为特征集合的一部分。
需要说明的是,若问号后面只是一个字符串,没有使用等号进行连接参数名和参数值,则此时认为该字符串即为参数名,参数值为空。
步骤103,根据每个参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵,基于N-Gram熵、大写字母的比例和字符频率,以及对应的检测结果标签生成训练向量矩阵。
步骤104,将训练向量矩阵基于机器学习进行分类器训练,获取URL检测模型。
在本公开实施例中,多个URL样本以及器对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵,N-Gram熵、大写字母的比例和字符频率等多个特征,以及检测结果标签组合成训练向量矩阵,并通过随机森林、逻辑回归和支持向量机等机器学习进行训练,获取URL检测模型。
其中,机器学习方法包括随机森林、逻辑回归和支持向量机等,具体根据需要选择。
在本公开一个可能实现方式中,如图2所示,包括:
步骤201,获取待检测URL。
步骤202,提取待检测URL的参数,并对参数进行统计特征提取,获取参数对应的特征向量;其中,特征向量包括参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵,N-Gram熵、大写字母的比例和字符频率。
步骤203,将特征向量输入URL检测模型进行处理,获取检测结果,根据检测结果确定待检测URL是否正常。
在本公开实施例中,待检测URL包括参数部分,因此,可以提取待检测URL中的参数,作为一种示例,一个待检测URL,使用“?”进行切分,问号后面的即为参数部分,即参数。
在本公开实施例中,通过第一标识符对参数进行第一切分,获取切分个数为参数个数,作为一种示例,对于参数部分,使用第一标识符“&”切分后,切分的个数即为参数的个数。
在本公开实施例中,通过第二标识符对进行第一切分后的参数进行第二切分,获取第二标识符前面的字符作为参数名,并统计参数名的平均长度。
在本公开实施例中,计算每个参数名的字符串熵值,根据字符串熵值和参数名的个数计算每个参数名的平均熵。
作为一种示例,第一标识符“&”切分后,使用第二标识符“=”切分,等号前面的即为参数名,统计参数名的平均长度,以及对每个参数名,计算其字符串熵值,然后得到参数名的平均熵
在本公开实施例中,通过第二标识符对进行第一切分后的参数进行第二切分,获取第二标识符后面的字符作为参数值,并统计参数值的平均长度。
在本公开实施例中,计算每个参数值的字符串熵值,根据字符串熵值和参数值的个数计算每个参数值的平均熵。
作为一种示例,第一标识符“&”切分后,使用第二标识符“=”切分,等号后面的即为参数值,统计参数值的平均长度,以及对每个参数样本的参数值,计算其字符串熵值,然后得到参数值的平均熵。
在本公开实施例中,基于N-Gram模型,统计参数的字符串熵;其中,参数的N-Gram的值为N,所有不同的N-Gram片段的个数分别记为f1,f2,…,fN,所有不同N-Gram片段个数的总和记为T,参数的N-Gram熵计算为:
在本公开实施例中,计算参数中,出现大写字母的个数,除以整个参数的长度,获取大写字母的比例。
在本公开实施例中,统计参数中每个可打印字符出现的次数,除以参数的长度,获取所有可打印字符的频率,根据所有可打印字符的频率和个数计算所有可打印字符的平均字符频率,根据平均字符频率与预设频率阈值确定目标可打印字符,获取目标可打印字符的平均字符频率作为字符频率。
由此,不需要从互联网上获取大量的基于主机的特征以及情报特征,同时不需要查询现有的威胁情报库,直接对URL的参数部分进行特征提取,使用机器学习分类算法对统计特征进行训练,得到分类器即URL检测模型。
本公开的URL检测模型的训练方法,通过获取多个URL样本,并提取每个URL样本中的参数样本;其中,每个参数样本包括检测结果标签,对每个参数样本进行统计特征提取,获取每个参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵,N-Gram熵、大写字母的比例和字符频率,根据每个参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵,基于N-Gram熵、大写字母的比例和字符频率,以及对应的检测结果标签生成训练向量矩阵,将训练向量矩阵基于机器学习进行分类器训练,获取URL检测模型。由此,通过训练获取的URL检测模型进行URL检测,提高URL检测的准确性。
与上述图1至图2实施例提供方法相对应,本公开还提供一种装置,由于本公开实施例提供的装置与上述图1至图2实施例提供的方法相对应,因此在方法的实施方式也适用于本公开实施例提供的装置,在本公开实施例中不再详细描述。
图3为本公开实施例所述的URL检测模型的训练装置的结构示意图。
如图3所示,该URL检测模型的训练装置,包括:获取模块301、提取模块302、生成模块303和训练获取模块304。
其中,获取模块301,用于获取多个URL样本,并提取每个所述URL样本中的参数样本;其中,每个所述参数样本包括检测结果标签。
提取模块302,用于对每个所述参数样本进行统计特征提取,获取每个所述参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵,N-Gram熵、大写字母的比例和字符频率。
生成模块303,用于根据每个所述参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵,基于N-Gram熵、大写字母的比例和字符频率,以及对应的检测结果标签生成训练向量矩阵。
训练获取模块304,用于将所述训练向量矩阵基于机器学习进行分类器训练,获取URL检测模型。
本公开的URL检测模型的训练装置,通过获取多个URL样本,并提取每个URL样本中的参数样本;其中,每个参数样本包括检测结果标签,对每个参数样本进行统计特征提取,获取每个参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵,N-Gram熵、大写字母的比例和字符频率,根据每个参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵,基于N-Gram熵、大写字母的比例和字符频率,以及对应的检测结果标签生成训练向量矩阵,将训练向量矩阵基于机器学习进行分类器训练,获取URL检测模型。由此,通过训练获取的URL检测模型进行URL检测,提高URL检测的准确性。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种URL检测模型的训练方法,其特征在于,包括:
获取多个统一资源定位符URL样本,并提取每个所述URL样本中的参数样本;其中,每个所述参数样本包括检测结果标签;
对每个所述参数样本进行统计特征提取,获取每个所述参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵,N-Gram熵、大写字母的比例和字符频率;
根据每个所述参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵,基于N-Gram熵、大写字母的比例和字符频率,以及对应的检测结果标签生成训练向量矩阵;
将所述训练向量矩阵基于机器学习进行分类器训练,获取URL检测模型;
其中,对所述参数样本进行统计特征提取,获取所述参数个数包括:通过第一标识符对所述参数样本进行第一切分,获取切分个数为所述参数个数;
对所述参数样本进行统计特征提取,获取所述字符频率包括:统计所述参数样本中每个可打印字符出现的次数,除以所述参数样本的长度,获取所有可打印字符的频率;根据所述所有可打印字符的频率和个数计算所述所有可打印字符的平均字符频率;根据所述平均字符频率与预设频率阈值确定目标可打印字符,获取所述目标可打印字符的平均字符频率作为所述字符频率;
其中,所述参数名为通过第二标识符对进行所述第一切分后的参数样本进行第二切分,获取的所述第二标识符前面的字符;所述参数值为通过所述第二标识符对进行所述第一切分后的参数样本进行所述第二切分,获取的所述第二标识符后面的字符。
2.根据权利要求1所述的URL检测模型的训练方法,其特征在于,对所述参数样本进行统计特征提取,获取所述参数名的平均长度和所述参数名的平均熵,包括:
通过第二标识符对进行所述第一切分后的参数样本进行第二切分,获取所述第二标识符前面的字符作为参数名,并统计所述参数名的平均长度;
计算每个所述参数名的字符串熵值,根据所述字符串熵值和所述参数名的个数计算每个所述参数名的平均熵;其中,计算公式为:
其中,n为所述参数名的个数,x为参数名字符串中的一个字符,P(x)为x的频率。
3.根据权利要求1所述的URL检测模型的训练方法,其特征在于,对所述参数样本进行统计特征提取,获取所述参数值的平均长度和所述参数值的平均熵,包括:
通过第二标识符对进行所述第一切分后的参数样本进行第二切分,获取所述第二标识符后面的字符作为参数值,并统计所述参数值的平均长度;
计算每个所述参数值的字符串熵值,根据所述字符串熵值和所述参数值的个数计算每个所述参数值的平均熵。
4.根据权利要求1所述的URL检测模型的训练方法,其特征在于,对所述参数样本进行统计特征提取,对所述参数样本进行统计特征提取,获取N-Gram熵,包括:
基于N-Gram模型,统计所述参数样本的字符串熵;其中,所述参数样本的N-Gram的值为N,所有不同的N-Gram片段的个数分别记为f1,f2,…,fN,所有不同N-Gram片段个数的总和记为T,所述参数样本的N-Gram熵计算为:
5.根据权利要求1所述的URL检测模型的训练方法,其特征在于,对所述参数样本进行统计特征提取,获取大写字母的比例,包括:
计算所述参数样本中,出现大写字母的个数,除以整个所述参数样本的长度,获取所述大写字母的比例。
6.根据权利要求1所述的URL检测模型的训练方法,其特征在于,还包括:
获取待检测URL;
提取所述待检测URL的参数,并对所述参数进行统计特征提取,获取所述参数对应的特征向量;其中,所述特征向量包括参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵,N-Gram熵、大写字母的比例和字符频率;
将所述特征向量输入所述URL检测模型进行处理,获取检测结果,根据所述检测结果确定所述待检测URL是否正常。
7.一种URL检测模型的训练装置,其特征在于,包括:
获取模块,用于获取多个URL样本,并提取每个所述URL样本中的参数样本;其中,每个所述参数样本包括检测结果标签;
提取模块,用于对每个所述参数样本进行统计特征提取,获取每个所述参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵,N-Gram熵、大写字母的比例和字符频率;
生成模块,用于根据每个所述参数样本对应的参数长度、参数个数、参数名的平均长度、参数值的平均长度、参数名的平均熵、参数值的平均熵,基于N-Gram熵、大写字母的比例和字符频率,以及对应的检测结果标签生成训练向量矩阵;
训练获取模块,用于将所述训练向量矩阵基于机器学习进行分类器训练,获取URL检测模型;
其中,对所述参数样本进行统计特征提取,获取所述参数个数包括:通过第一标识符对所述参数样本进行第一切分,获取切分个数为所述参数个数;
对所述参数样本进行统计特征提取,获取所述字符频率包括:统计所述参数样本中每个可打印字符出现的次数,除以所述参数样本的长度,获取所有可打印字符的频率;根据所述所有可打印字符的频率和个数计算所述所有可打印字符的平均字符频率;根据所述平均字符频率与预设频率阈值确定目标可打印字符,获取所述目标可打印字符的平均字符频率作为所述字符频率;
其中,所述参数名为通过第二标识符对进行所述第一切分后的参数样本进行第二切分,获取的所述第二标识符前面的字符;所述参数值为通过所述第二标识符对进行所述第一切分后的参数样本进行所述第二切分,获取的所述第二标识符后面的字符。
8.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至6任一项所述方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至6任一项所述方法的步骤。
CN202110624113.9A 2021-06-04 2021-06-04 一种url检测模型的训练方法、装置、电子设备和存储介质 Active CN113361597B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110624113.9A CN113361597B (zh) 2021-06-04 2021-06-04 一种url检测模型的训练方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110624113.9A CN113361597B (zh) 2021-06-04 2021-06-04 一种url检测模型的训练方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN113361597A CN113361597A (zh) 2021-09-07
CN113361597B true CN113361597B (zh) 2023-07-21

Family

ID=77532194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110624113.9A Active CN113361597B (zh) 2021-06-04 2021-06-04 一种url检测模型的训练方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113361597B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117201194B (zh) * 2023-11-06 2024-01-05 华中科技大学 一种基于字符串相似性计算的url分类方法、装置及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107294993A (zh) * 2017-07-05 2017-10-24 重庆邮电大学 一种基于集成学习的web异常流量监测方法
US10104113B1 (en) * 2016-05-26 2018-10-16 Area 1 Security, Inc. Using machine learning for classification of benign and malicious webpages
CN109922052A (zh) * 2019-02-22 2019-06-21 中南大学 一种结合多重特征的恶意url检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229156A (zh) * 2017-12-28 2018-06-29 阿里巴巴集团控股有限公司 Url攻击检测方法、装置以及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10104113B1 (en) * 2016-05-26 2018-10-16 Area 1 Security, Inc. Using machine learning for classification of benign and malicious webpages
CN107294993A (zh) * 2017-07-05 2017-10-24 重庆邮电大学 一种基于集成学习的web异常流量监测方法
CN109922052A (zh) * 2019-02-22 2019-06-21 中南大学 一种结合多重特征的恶意url检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于改进的n-gram模型的URL分类算法研究;骆聪;周城;;计算机技术与发展(第09期);38-41 *

Also Published As

Publication number Publication date
CN113361597A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
US10148681B2 (en) Automated identification of phishing, phony and malicious web sites
WO2019067993A1 (en) DETECTION OF STRIKING ATTACK
US20160063541A1 (en) Method for detecting brand counterfeit websites based on webpage icon matching
CN109922065B (zh) 恶意网站快速识别方法
CN107888606B (zh) 一种域名信誉度评估方法及系统
Tan et al. Phishing website detection using URL-assisted brand name weighting system
CN110572359A (zh) 基于机器学习的钓鱼网页检测方法
CN112769803B (zh) 网络威胁的检测方法、装置和电子设备
EP3888335A1 (en) Phishing protection methods and systems
CN111723371A (zh) 构建恶意文件的检测模型以及检测恶意文件的方法
CN106992967A (zh) 恶意网站识别方法和系统
Geng et al. RRPhish: Anti-phishing via mining brand resources request
CN112948725A (zh) 基于机器学习的钓鱼网站url检测方法及系统
CN110855716B (zh) 一种面向仿冒域名的自适应安全威胁分析方法及系统
CN113361597B (zh) 一种url检测模型的训练方法、装置、电子设备和存储介质
Zhang et al. A real-time automatic detection of phishing URLs
Raja et al. Mudhr: Malicious URL detection using heuristic rules based approach
Pradeepa et al. Lightweight approach for malicious domain detection using machine learning
Sampat et al. Detection of phishing website using machine learning
Khan et al. A dynamic method of detecting malicious scripts using classifiers
Khalid et al. Automatic yara rule generation
Kasim Automatic detection of phishing pages with event-based request processing, deep-hybrid feature extraction and light gradient boosted machine model
CN111914257A (zh) 文档检测的方法、装置、设备、及计算机存储介质
CN116633672A (zh) 告警信息检测方法、装置、电子设备及存储介质
Noh et al. Phishing Website Detection Using Random Forest and Support Vector Machine: A Comparison

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant