CN113051496B - 训练用于分类统一资源定位符的分类器的方法及系统 - Google Patents
训练用于分类统一资源定位符的分类器的方法及系统 Download PDFInfo
- Publication number
- CN113051496B CN113051496B CN201911370882.XA CN201911370882A CN113051496B CN 113051496 B CN113051496 B CN 113051496B CN 201911370882 A CN201911370882 A CN 201911370882A CN 113051496 B CN113051496 B CN 113051496B
- Authority
- CN
- China
- Prior art keywords
- feature vector
- url data
- url
- long
- collected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000012549 training Methods 0.000 title claims abstract description 20
- 239000013598 vector Substances 0.000 claims abstract description 128
- 230000015654 memory Effects 0.000 claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 35
- 238000007781 pre-processing Methods 0.000 claims description 15
- 230000000873 masking effect Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 4
- 230000007787 long-term memory Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000012935 Averaging Methods 0.000 abstract description 6
- 239000002609 medium Substances 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012120 mounting media Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Computer And Data Communications (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本公开涉及训练用于分类统一资源定位符的分类器的方法及系统。提供了一种训练用于分类统一资源定位符URL的分类器的方法,包括:收集包括恶意URL数据和正常URL数据的URL数据,获取与每个URL数据对应的特征向量,使用过采样长短记忆单元对特征向量进行处理,所述过采样长短记忆单元将每个特征向量随机化得到与该特征向量对应的包括多个随机化的特征向量的一组序列,对所述一组序列中的每个随机化的特征向量进行长短记忆处理,将长短记忆处理后的随机化的多个特征向量求平均得到最终特征向量,以及使用最终特征向量训练分类器。
Description
技术领域
本公开涉及统一资源定位符URL的分类,并且具体地涉及基于机器学习对统一资源定位符URL进行。
背景技术
我们每天都会浏览各种网站来获取信息资源,但潜在的威胁是,我们极有可能受各种挂马网站、色情网站、暴力网站、诈骗网站等的影响。为了应对这种网络安全威胁,检测恶意URL非常有必要。
发明内容
根据本公开的一个实施例,提供了一种训练用于分类统一资源定位符URL的分类器的方法,包括:收集包括恶意URL数据和正常URL数据的URL数据,获取与每个URL数据对应的特征向量,使用过采样长短记忆单元对特征向量进行处理,所述过采样长短记忆单元将每个特征向量随机化得到与该特征向量对应的包括多个随机化的特征向量的一组序列,对所述一组序列中的每个随机化的特征向量进行长短记忆处理,将长短记忆处理后的随机化的多个特征向量求平均得到最终特征向量,以及使用最终特征向量训练分类器。
提供上述方案概述仅为了提供对本文所描述的主题的各方面的基本理解。因此,上述方案中的技术特征仅是示例并且不应被解释为以任何方式限制本文所描述的主题的范围或精神。本文所描述的主题的其他特征、方面和优点将从以下结合附图描述的具体实施方式而变得明晰。
附图说明
当结合附图考虑实施例的以下具体描述时,可以获得对本公开内容更好的理解。在各附图中使用了相同或相似的附图标记来表示相同或相似的部件和操作。其中:
图1示出了根据本发明的一个实施例的训练用于分类统一资源定位符URL的分类器的流程图。
图2示出了根据本发明的一个实施例的使用经训练的分类器分类统一资源定位符URL的示意图。
具体实施方式
以下描述根据本公开的方法和系统等各方面的具体示例。描述这些例子仅是为了增加上下文并帮助理解所描述的实施例。因此,对本领域技术人员而言明晰的是,以下所描述的实施例可以在没有具体细节当中的一些或全部的情况下被实施。在其他情况下,众所周知的操作没有详细描述,以避免不必要地模糊所描述的实施例。其他应用也是可能的,本公开的方案并不限制于这些具体示例。
本公开提出了一种基于机器学习的统一资源定位符URL的检测方法和系统。通过使用机器学习,能够批量进行对统一资源定位符URL的检测。使用正常统一资源定位符URL和恶意统一资源定位符URL对模型进行训练。使用经训练的模型能够判断输入至该模型的统一资源定位符URL是否为恶意统一资源定位符URL。因此,能够自动地对攻击的URL进行判断,检测出恶意的URL攻击。本公开所提供的技术方案能够克服传统方法缺乏发现新型恶意URL的能力。同时较基于特征工程的方法有更高的准确率。
根据本公开的一个实施例,提供了一种训练用于分类统一资源定位符URL的分类器的方法,包括:收集包括恶意URL数据和正常URL数据的URL数据,获取与每个URL数据对应的特征向量,使用过采样长短记忆单元对特征向量进行处理,所述过采样长短记忆单元将每个特征向量随机化得到与该特征向量对应的包括多个随机化的特征向量的一组序列,对所述一组序列中的每个随机化的特征向量进行长短记忆处理,将长短记忆处理后的随机化的多个特征向量求平均得到最终特征向量,以及使用最终特征向量训练分类器。
图1示出了根据本发明的一个实施例的训练用于分类统一资源定位符URL的分类器的流程图。
在步骤101中,收集包括恶意URL数据和正常URL数据的URL数据。例如,收集大量的恶意URL数据作为负样本,同时需要收集大量的正常URL作为正样本,这样就得到了用于训练模型的数据样本。
根据本公开的一个实施例,收集包括恶意URL数据和正常URL数据的URL数据包括使得所收集的恶意URL数据与所收集的正常URL数据的量大致相等。
在实际过程中,正常URL的数量会远大于恶意URL的数量,但是在分类任务中,正负样本均衡是很重要的条件,所以这步尽量准备正负样本大致均衡的数据。
在步骤102中,获取与每个URL数据对应的特征向量。
在步骤103中,使用过采样长短记忆单元对特征向量进行处理。其中,所述过采样长短记忆单元将每个特征向量随机化得到与该特征向量对应的包括多个随机化的特征向量的一组序列,对所述一组序列中的每个随机化的特征向量进行长短记忆处理,将长短记忆处理后的随机化的多个特征向量求平均得到最终特征向量。
根据本发明的一个实施例,其中根据如下公式对特征向量进行处理:
X′是最终特征向量,Xk是第k个随机化特征向量,n为对每个特征向量随机化得到的随机化向量的个数,LSTM为长短期记忆处理。
本领域的技术人员将理解,长短期记忆处理是一种时间循环神经网络,适合于处理和预测时间序列中间隔和延迟非常长的重要事件。
在检测恶意URL的任务中,需要使用能够分类正常URL和恶意URL的分类器。为了训练该分类器,本申请采用了O-LSTM(过采样长短记忆单元,Oversampling-LSTM)模型。该模型基于URL的文本内容较少的特点,通过对特征序列进行随机打乱得到一组序列,然后对一组序列中的每个特征向量分别通过LSTM得到挖掘后的特征,把通过LSTM得到的特征向量求平均得到最终特征向量。
如公式1所示,Xk是第k种打乱的序列,总共得到n个值,取平均值得到最终特征向量。
在步骤104中,使用最终特征向量训练分类器。
本公开的技术方案利用深度学习方法提供了恶意URL检测任务的端到端解决方案,在数据量充足的情况下极大地提高了检测准确度。
本公开的技术方案设计了O-LSTM模型,该模型对于短文本的特征挖掘进行了加强,提高了检测准确率,对相似任务的解决提供了很好的借鉴。
根据本发明的一个实施例,训练用于分类统一资源定位符URL的分类器的方法还包括对所收集的URL数据进行预处理。
如图1所示,在步骤105中示出了对所收集的URL数据进行预处理。
在根据本发明的一个实施例中,对所收集的URL数据进行预处理包括对数据进行降噪处理。在根据本发明的一个实施例中,对所收集的URL数据进行预处理包括去除URL数据中的协议头。例如,URL中的协议头部分是不包含恶意特征信息的,但是协议头部分在URL文本中也占一定比例,对整个URL进行语义挖掘时,协议头会引入一些噪声细信息,所以在预处理步骤中对协议头进行去除以对数据进行降噪。
在根据本发明的一个实施例中,对所收集的URL数据进行预处理包括使得所收集的URL数据对齐。例如,所收集的URL数据的长度通常并不一致,为了更好地处理数据及挖掘特征,通常使用相同的长度使URL数据对齐。例如,对齐长度通常为512。本领域的技术人员可以理解,可以选用任何合适的对齐长度。
在根据本发明的一个实施例中,训练用于分类统一资源定位符URL的分类器的方法还包括在使用过采样长短记忆单元对特征向量进行处理之前对特征向量进行掩模处理,所述掩模处理加强URL数据中的特殊字符对特征向量的贡献。
如图1所示,在步骤102-1中示出了对特征向量进行掩模处理。
本公开提出了在检测恶意URL的任务中存在的URL数据是半结构化数据的特点,并且在URL数据中存在具有特殊含义而需要区别对待的字符。例如,根据本发明的一个实施例,特殊字符包括“/”,“&”,“?”以及“.”中的一个或多个。本领域的技术人员将理解,可以根据收集的数据而选用其他类型的特殊字符。
根据本发明的一个实施例,其中对特征向量进行掩模处理基于如下公式:
X=XeM, 公式2
其中Xe是所获取的预处理后的URL数据的特征向量,M是表示特殊字符对特征向量的贡献的向量,X是处理后得到的向量。
在根据本发明的一个实施例中,训练用于分类统一资源定位符URL的分类器的方法还包括在使用过采样长短记忆单元对特征向量进行处理之前对特征向量进行尺度变换处理,所述尺度变换处理调整URL数据中的字符对特征向量的贡献。
如图1所示,在步骤102-2中示出了对特征向量进行尺度变换处理。
本公开提出了在检测恶意URL的任务中存在的URL的篇幅较小且一些不常见的字符特征值会很小的特点。针对该特点,本公开的一个实施例提出了通过尺度变换参数来调整特征值数值大小对结果的影响的技术方案。
根据本发明的一个实施例,其中根据如下公式对特征向量进行处理:
其中Xe是所获取的预处理后的URL数据的特征向量,M是表示特殊字符对特征向量的贡献的向量,s是尺度变换参数,n表示包含特定字符的样本的个数,σ是调节参数,X是处理后得到的向量。
在根据本公开的实施例中,通过对URL的特征向量进行掩模处理和尺度变换处理,使得对URL特征的提取非常有效。如上所述,掩模处理和尺度变换处理符合URL数据物理意义的解释,例如利用了URL数据呈现结构化、具有特殊字符、长度较短及包含特征值很小的字符的特点。
例如,可以根据本发明的技术方案如下设计具体的神经网络。选用128维的EMBEDDING层获取特征向量,在预处理URL数据时选用512的对齐长度,对特征向量进行掩模处理时使用“/”、“&”、“?”、“.”四种特殊字符,得到一个512*256的MASK层。两部分相乘得到128*256维度的输出特征向量。然后选用合适的尺度因子进行缩放。
对处理后的特征向量进行16种随机打乱得到128*256*16的向量,选用隐层维度256的LSTM模块进行并行训练的到128*256*16的向量,在第三个维度上进行平均,得到128*256的最终特征向量。可以使用该最终特征向量训练分类器,以得到能够检测恶意URL数据的分类器。
根据本发明的一个实施例,提供了一种检测统一资源定位符URL的方法,包括:将需要检测的URL输入根据前述训练的分类器,以及从所述分类器得到该URL是否为恶意的结果。
图2示出了根据本发明的一个实施例的使用经训练的分类器分类统一资源定位符URL的示意图。如上所述,使用所收集、预处理、处理之后的URL数据训练了分类器之后,可以使用该经训练的分类器自动检测任意URL数据是否为恶意。如图2所示,在分类器的输入端输入待检测的URL,就会在分类器的输出端得到该URL是否恶意的结果。
根据本发明的一个实施例,提供了一种用于检测统一资源定位符URL的系统,包括处理器及存储器,所述存储器具有程序指令存储其上,当由处理器执行所述程序指令时执行如上所述的方法。
在一些实施例中,存储器可以包括安装介质(例如CD-ROM、软盘或磁带设备)、随机存取存储器(诸如DRAM、DDR RAM、SRAM、EDO RAM、Rambus RAM等)、非易失性存储器(诸如闪存、磁介质或光学存储装置)、寄存器或其他类似类型的存储器元件等。存储器1102还可以包括其他类型的存储器或其组合。
处理器可以是可用于处理信息的任何处理器,诸如微处理器、数字信号处理器、微控制器、多核处理器、专用处理器、用于网络通信的接口等等。处理器可以运行存储设备中所存储的各种软件部件(如根据本公开实施例的可能的软件部件),以执行系统的各种功能。
本公开的各方面可以呈现完全硬件实施例、完全软件实施例(包括固件、常驻软件、微代码等)或组合软件和硬件方面的实施例的形式,所有前述的各项在本文中都可以一般性地称为“电路”、“模块”或“系统”。可以使用一个或多个计算机可读存储介质的任何组合。计算机可读存储介质可以是计算机可读信号介质或计算机可读存储介质。
计算机可读存储介质可以是例如但不限于电子的、磁性的、光学的、电磁的、红外的或半导体系统、装置或设备,或前述的各项的任何适当的组合。计算机可读存储介质的更具体的实例(非穷举列表)将包括以下内容:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光存储设备、磁存储设备或前述的各项的任何适当组合。在本文档的上下文中,计算机可读存储介质可以是任何包含或存储由指令执行系统、装置或设备使用或与其结合使用的程序的有形介质。
本公开在各种实施例、配置和方面中包括基本上如本文描绘和描述的组件、方法、过程、系统和/或装置,包括各种实施例,子组合和其子集。本领域技术人员将理解在理解本公开之后如何制造和使用本文公开的系统和方法。在各种实施例、配置和方面中,本公开包括提供不存在本文未描绘和/或描述的项目的装置和过程,或在本文的各种实施例、配置或方面中,包括不存在可能已经在以前的装置或过程中使用的项目,例如用于提高性能、实现简易性和/或降低实现成本。
另外,本公开的实施方式还可以包括以下示例:
项目1.一种训练用于分类统一资源定位符URL的分类器的方法,包括:收集包括恶意URL数据和正常URL数据的URL数据,获取与每个URL数据对应的特征向量,使用过采样长短记忆单元对特征向量进行处理,所述过采样长短记忆单元将每个特征向量随机化得到与该特征向量对应的包括多个随机化的特征向量的一组序列,对所述一组序列中的每个随机化的特征向量进行长短记忆处理,将长短记忆处理后的随机化的多个特征向量求平均得到最终特征向量,以及使用最终特征向量训练分类器。
项目2.如项目1所述的方法,还包括对所收集的URL数据进行预处理。
项目3.如项目1所述的方法,还包括在使用过采样长短记忆单元对特征向量进行处理之前对特征向量进行掩模处理,所述掩模处理加强URL数据中的特殊字符对特征向量的贡献。
项目4.如项目1所述的方法,还包括在使用过采样长短记忆单元对特征向量进行处理之前对特征向量进行尺度变换处理,所述尺度变换处理调整URL数据中的字符对特征向量的贡献。
项目5.如项目1所述的方法,其中收集包括恶意URL数据和正常URL数据的URL数据包括使得所收集的恶意URL数据与所收集的正常URL数据的量大致相等。
项目6.如项目2所述的方法,其中对所收集的URL数据进行预处理包括对数据进行降噪处理。
项目7.如项目2所述的方法,其中对所收集的URL数据进行预处理包括去除URL数据中的协议头。
项目8.如项目2所述的方法,其中对所收集的URL数据进行预处理包括使得所收集的URL数据对齐。
项目9.如项目3所述的方法,其中对特征向量进行掩模处理基于如下公式:X=XeM,其中Xe是所获取的预处理后的URL数据的特征向量,M是表示特殊字符对特征向量的贡献的向量,X是处理后得到的向量。
项目10.如项目4所述的方法,其中根据如下公式对特征向量进行处理:其中Xe是所获取的预处理后的URL数据的特征向量,M是表示特殊字符对特征向量的贡献的向量,s是尺度变换参数,n表示包含特定字符的样本的个数,σ是调节参数,X是处理后得到的向量。
项目11.如项目9或10所述的方法,其中所述特殊字符包括“/”,“&”,“?”以及“.”中的一个或多个。
项目12.如项目1所述的方法,其中根据如下公式对特征向量进行处理:
是最终特征向量,Xk是随机化特征向量,n为对每个特征向量随机化得到的随机化向量的个数。
项目13.一种检测统一资源定位符URL的方法,包括:将需要检测的URL输入根据前述任一项目训练的分类器,以及从所述分类器得到该URL是否为恶意的结果。
项目14.一种用于检测统一资源定位符URL的系统,包括处理器及存储器,所述存储器具有程序指令存储其上,当由处理器执行所述程序指令时执行如项目1-13中任一项所述的方法。
此外,虽然对本公开的描述已经包括了对一个或多个实施例、配置或方面的描述,但是某些变型和修改、其他变型、组合和修改也在本公开的范围内,例如,在本领域技术人员理解了本公开之后,这可能在他们的技术和知识范围内。本公开旨在获得权利,该权利应当包括在允许范围内的替代实施例、配置或方面,包括与所要求保护的那些结构、功能、范围或步骤的替代的、可互换的和/或等效的结构、功能、范围或步骤,无论这些替代的、可互换的和/或等效的结构、功能、范围或步骤是否在本文中具体说明。本文不旨在公开地贡献任何可取得专利的技术方案。
Claims (13)
1.一种训练用于分类统一资源定位符URL的分类器的方法,包括:
收集包括恶意URL数据和正常URL数据的URL数据,
获取与每个URL数据对应的特征向量,
使用过采样长短记忆单元对特征向量进行处理,所述过采样长短记忆单元将每个特征向量随机化得到与该特征向量对应的包括多个随机化的特征向量的一组序列,对所述一组序列中的每个随机化的特征向量进行长短记忆处理,将长短记忆处理后的随机化的多个特征向量求平均得到最终特征向量,以及
使用最终特征向量训练分类器;
其中,所述方法还包括:
在使用过采样长短记忆单元对特征向量进行处理之前对特征向量进行掩模处理,所述掩模处理加强URL数据中的特殊字符对特征向量的贡献。
2.如权利要求1所述的方法,还包括对所收集的URL数据进行预处理。
3.如权利要求1所述的方法,还包括在使用过采样长短记忆单元对特征向量进行处理之前对特征向量进行尺度变换处理,所述尺度变换处理调整URL数据中的字符对特征向量的贡献。
4.如权利要求1所述的方法,其中收集包括恶意URL数据和正常URL数据的URL数据包括使得所收集的恶意URL数据与所收集的正常URL数据的量大致相等。
5.如权利要求2所述的方法,其中对所收集的URL数据进行预处理包括对数据进行降噪处理。
6.如权利要求2所述的方法,其中对所收集的URL数据进行预处理包括去除URL数据中的协议头。
7.如权利要求2所述的方法,其中对所收集的URL数据进行预处理包括使得所收集的URL数据对齐。
8.如权利要求1所述的方法,其中对特征向量进行掩模处理基于如下公式:
X=XeM,
其中Xe是所获取的预处理后的URL数据的特征向量,M是表示特殊字符对特征向量的贡献的向量,X是处理后得到的向量。
9.如权利要求3所述的方法,其中根据如下公式对特征向量进行处理:
其中Xe是所获取的预处理后的URL数据的特征向量,M是表示特殊字符对特征向量的贡献的向量,s是尺度变换参数,n表示包含特定字符的样本的个数,σ是调节参数,X是处理后得到的向量。
10.如权利要求8或9所述的方法,其中所述特殊字符包括“/”,“&”,“?”以及“.”中的一个或多个。
11.如权利要求1所述的方法,其中根据如下公式对特征向量进行处理:
X′是最终特征向量,Xk是第k个随机化特征向量,n为对每个特征向量随机化得到的随机化向量的个数,LSTM为长短期记忆处理。
12.一种检测统一资源定位符URL的方法,包括:
将需要检测的URL输入根据前述任一权利要求训练的分类器,以及
从所述分类器得到该URL是否为恶意的结果。
13.一种用于检测统一资源定位符URL的系统,包括处理器及存储器,所述存储器具有程序指令存储其上,当由处理器执行所述程序指令时执行如权利要求1-12中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911370882.XA CN113051496B (zh) | 2019-12-27 | 2019-12-27 | 训练用于分类统一资源定位符的分类器的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911370882.XA CN113051496B (zh) | 2019-12-27 | 2019-12-27 | 训练用于分类统一资源定位符的分类器的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113051496A CN113051496A (zh) | 2021-06-29 |
CN113051496B true CN113051496B (zh) | 2024-01-26 |
Family
ID=76505817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911370882.XA Active CN113051496B (zh) | 2019-12-27 | 2019-12-27 | 训练用于分类统一资源定位符的分类器的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113051496B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109194635A (zh) * | 2018-08-22 | 2019-01-11 | 杭州安恒信息技术股份有限公司 | 基于自然语言处理与深度学习的恶意url识别方法及装置 |
CN109344615A (zh) * | 2018-07-27 | 2019-02-15 | 北京奇虎科技有限公司 | 一种检测恶意命令的方法及装置 |
CN109617909A (zh) * | 2019-01-07 | 2019-04-12 | 福州大学 | 一种基于smote和bi-lstm网络的恶意域名检测方法 |
CN109922052A (zh) * | 2019-02-22 | 2019-06-21 | 中南大学 | 一种结合多重特征的恶意url检测方法 |
CN110020024A (zh) * | 2019-03-15 | 2019-07-16 | 叶宇铭 | 一种科技文献中链接资源的分类方法、系统、设备 |
WO2019244803A1 (ja) * | 2018-06-18 | 2019-12-26 | 日本電信電話株式会社 | 回答学習装置、回答学習方法、回答生成装置、回答生成方法、及びプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7030853B2 (ja) * | 2017-07-28 | 2022-03-07 | グーグル エルエルシー | 電子健康記録から医療イベントを予測して要約するためのシステムおよび方法 |
-
2019
- 2019-12-27 CN CN201911370882.XA patent/CN113051496B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019244803A1 (ja) * | 2018-06-18 | 2019-12-26 | 日本電信電話株式会社 | 回答学習装置、回答学習方法、回答生成装置、回答生成方法、及びプログラム |
CN109344615A (zh) * | 2018-07-27 | 2019-02-15 | 北京奇虎科技有限公司 | 一种检测恶意命令的方法及装置 |
CN109194635A (zh) * | 2018-08-22 | 2019-01-11 | 杭州安恒信息技术股份有限公司 | 基于自然语言处理与深度学习的恶意url识别方法及装置 |
CN109617909A (zh) * | 2019-01-07 | 2019-04-12 | 福州大学 | 一种基于smote和bi-lstm网络的恶意域名检测方法 |
CN109922052A (zh) * | 2019-02-22 | 2019-06-21 | 中南大学 | 一种结合多重特征的恶意url检测方法 |
CN110020024A (zh) * | 2019-03-15 | 2019-07-16 | 叶宇铭 | 一种科技文献中链接资源的分类方法、系统、设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113051496A (zh) | 2021-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107707545B (zh) | 一种异常网页访问片段检测方法、装置、设备及存储介质 | |
CN107204960B (zh) | 网页识别方法及装置、服务器 | |
CN110266675B (zh) | 一种基于深度学习的xss攻击自动化检测方法 | |
CN112866023B (zh) | 网络检测、模型训练方法、装置、设备及存储介质 | |
CN111614599B (zh) | 基于人工智能的webshell检测方法和装置 | |
Khonji et al. | Lexical URL analysis for discriminating phishing and legitimate websites | |
CN107463844B (zh) | Web木马检测方法及系统 | |
WO2015081789A1 (zh) | 网址净化方法及装置 | |
Wu et al. | Residual convolution network based steganalysis with adaptive content suppression | |
US11528285B2 (en) | Label guided unsupervised learning based network-level application signature generation | |
JP2016091549A (ja) | マルウェアイベントとバックグラウンドイベントとを分離するためのシステム、デバイス、および方法 | |
CN112968872B (zh) | 基于自然语言处理的恶意流量检测方法、系统、终端 | |
CN112769803B (zh) | 网络威胁的检测方法、装置和电子设备 | |
EP2977928B1 (en) | Malicious code detection | |
CN113051496B (zh) | 训练用于分类统一资源定位符的分类器的方法及系统 | |
CN109977328A (zh) | 一种url分类方法及装置 | |
CN111125704B (zh) | 一种网页挂马识别方法及系统 | |
Khan et al. | A dynamic method of detecting malicious scripts using classifiers | |
CN116738369A (zh) | 一种流量数据的分类方法、装置、设备及存储介质 | |
CN111447169B (zh) | 一种在网关上的实时恶意网页识别方法及系统 | |
CN109992960B (zh) | 一种伪造参数检测方法、装置、电子设备及存储介质 | |
Lee et al. | Users' behavioral prediction for phishing detection | |
CN105025017A (zh) | 基于防火墙的防挂马的方法及防火墙 | |
EP3361405B1 (en) | Enhancement of intrusion detection systems | |
CN112580027A (zh) | 恶意样本的确定方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |