CN107798235B - 基于one-hot编码机制的无监督异常访问检测方法及装置 - Google Patents

基于one-hot编码机制的无监督异常访问检测方法及装置 Download PDF

Info

Publication number
CN107798235B
CN107798235B CN201711032284.2A CN201711032284A CN107798235B CN 107798235 B CN107798235 B CN 107798235B CN 201711032284 A CN201711032284 A CN 201711032284A CN 107798235 B CN107798235 B CN 107798235B
Authority
CN
China
Prior art keywords
url
sample
test
test url
url sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711032284.2A
Other languages
English (en)
Other versions
CN107798235A (zh
Inventor
徐恪
赵乙
谭崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201711032284.2A priority Critical patent/CN107798235B/zh
Publication of CN107798235A publication Critical patent/CN107798235A/zh
Priority to PCT/CN2018/107342 priority patent/WO2019085691A1/zh
Priority to US16/463,310 priority patent/US11055567B2/en
Application granted granted Critical
Publication of CN107798235B publication Critical patent/CN107798235B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/51Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems at application loading time, e.g. accepting, rejecting, starting or inhibiting executable software based on integrity or source reliability
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2115Selection of the most significant subset of features by evaluating different subsets according to an optimisation criterion, e.g. class separability, forward selection or backward elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0236Filtering by address, protocol, port number or service, e.g. IP-address or URL
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/16Implementing security features at a particular protocol layer
    • H04L63/168Implementing security features at a particular protocol layer above the transport layer

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于one‑hot编码机制的无监督异常访问检测方法及装置,其中,该方法能够在异常URL的特征未知的前提下,利用二元语法模型、one‑hot编码机制以及深度自编码网络,准确检测出异常URL,从而避免异常访问,规避恶意访问所带来的危害。此外,解决了固定规则难以准确检测异常URL的问题,具有检测精度高、鲁棒性强的特点,可以大规模应用于异常访问检测、异常流量检测等下一代互联网网络安全技术领域。通过无监督学习,能够在异常URL特征不明确并且异常样本非常少的情况下,准确识别异常URL。并且,深度自编码网络的训练阶段可以离线完成,在深度自编码网络建立完成之后,检测速度非常快,大大提高了异常访问的检测效率。

Description

基于one-hot编码机制的无监督异常访问检测方法及装置
技术领域
本发明涉及下一代互联网网络安全技术领域,尤其涉及基于one-hot编码机制的无监督异常访问检测方法及装置。
背景技术
随着网络技术的不断普及,网络为人类提供的服务数量呈现指数型增长。面对下一代互联网提供的各式各样的网络服务与链接,如何保证用户访问正常网址有着极其重要的意义。传统的异常URL(Uniform Resource Locator,统一资源定位符)检测,主要是基于固定的规则进行的。但是,面对大量的、呈指数形式增长的URL,由于异常URL各具特色,固定的规则所显露出的局限性十分明显,只能识别已知的异常URL。但是,大多数异常URL的特征是未知的,固定的规则却难以准确检测特征未知的异常URL,从而增加了用户对互联网的访问风险。
通过对互联网中的大量URL进行分析,可以发现:尽管URL数量巨大,并且异常URL的特点难以确定,但是已有的URL中绝大多数为正常URL,并且它们存在类似的特征。考虑到机器学习能够高效获得数据内部的一些特征,目前已经有一些利用机器学习的方法来进行异常URL访问检测的方法。比如,基于统计学的方法,通过URL的被用户访问的频率、URL自身的字符长度等统计特性,对异常访问进行检测。或者,还有一些基于自然语言处理原理的方法,通过对URL进行解析来检测异常访问。
因此,如何更准确地区分正常URL和异常URL成为亟待解决的技术问题。
发明内容
本发明的目的旨在至少在一定程度上解决上述的技术问题之一。
为此,本发明的第一个目的在于提出的基于one-hot编码机制的无监督异常访问检测方法,该方法能够在异常URL的特征未知的前提下,利用二元语法模型、one-hot编码机制、深度自编码网络以及聚类分析,准确检测出异常URL,从而避免异常访问,规避恶意访问所带来的危害。此外,解决了固定规则难以准确检测异常URL的问题,具有检测精度高、鲁棒性强的特点,可以大规模应用于异常访问检测、异常流量检测等下一代互联网网络安全技术领域。通过无监督学习,能够在异常URL特征不明确并且异常样本非常少的情况下,准确识别异常URL。并且,深度自编码网络的训练阶段可以离线完成,在深度自编码网络建立完成之后,检测速度非常快,大大提高了异常访问的检测效率。
为此,本发明的第二个目的在于提出的基于one-hot编码机制的无监督异常访问检测装置。
为了实现上述目的,本发明第一方面实施例的基于one-hot编码机制的无监督异常访问检测方法,包括:
利用one-hot编码机制对测试URL样本集中的每一测试URL样本进行编码,以获取每一测试URL样本对应的高维向量,其中,所述测试URL样本集包括至少一个测试URL样本;
将每一测试URL样本对应的高维向量输入到预先构建的深度自编码网络中进行压缩降维处理,以获取每一测试URL样本对应的二维向量;
利用二维坐标系对每一测试URL样本对应的二维向量进行可视化操作以获取可视化的测试URL样本;
利用K-means算法对全部的可视化的测试URL样本进行聚类分析,以将测试URL样本集分成第一类URL集和第二类URL集;
比较第一类URL集和所述第二类URL集的样本量的大小,将样本量大的URL集确定为正常URL集,将样本量小的URL集确定为异常URL集。
如上所述的方法,所述利用one-hot编码机制对测试URL样本集中的每一测试URL样本进行编码,以获取每一测试URL样本对应的高维向量,包括:
利用二元语法模型对测试URL样本集进行预处理,获取每一测试URL样本对应的序列;
利用one-hot编码机制对测试URL样本集中的每一测试URL样本对应的序列进行编码,以获取每一测试URL样本对应的高维向量。
如上所述的方法,所述利用K-means算法对全部的可视化的测试URL样本进行聚类分析,以将测试URL样本集分成第一类URL集和第二类URL集,包括:
在全部的可视化的测试URL样本中选取两个可视化的测试URL样本,将选取的其中一个可视化的测试URL样本作为第一质心和将选取的另一个可视化的测试URL样本作为第二质心;
对未选取的每一可视化的测试URL样本,计算该可视化的测试URL样本与第一质心之间的第一距离及该可视化的测试URL样本与第二质心之间的第二距离;
比较第一距离和第二距离的大小,将距离小的对应的质心所属类别确定为该可视化的测试URL样本所属类别;
将对应与第一质心所属类别的各个可视化的测试URL样本划入第一类URL集,将对应与第二质心所属类别的各个可视化的测试URL样本划入第二类URL集。
如上所述的方法,所述在全部的可视化的测试URL样本中选取两个可视化的测试URL样本以及将选取的其中一个作为第一质心和将选取的另一个作为第二质心,包括:
进行至少一轮在全部的可视化的测试URL样本中选取两个可视化的测试URL样本以及将选取的其中一个作为第一质心和将选取的另一个作为第二质心;
所述对未选取的每一可视化的测试URL样本,计算该可视化的测试URL样本与第一质心之间的第一距离及该可视化的测试URL样本与第二质心之间的第二距离,包括:
针对本轮,获取上一轮的第一质心和第二质心;
判断本轮的第一质心与上一轮的第一质心的类别是否相同以及判断本轮的第二质心与上一轮的第二质心的类别是否相同;
若均不相同,对本轮中未选取的每一可视化的测试URL样本,计算该可视化的测试URL样本与本轮的第一质心之间的本轮的第一距离及该可视化的测试URL样本与本轮的第二质心之间的本轮的第二距离。
如上所述的方法,在利用one-hot编码机制对测试URL样本集中的每一测试URL样本进行编码,以获取每一测试URL样本对应的高维向量之前,还包括:
利用二元语法模型对训练URL样本集进行预处理,获取每一训练URL样本对应的序列,其中,所述训练URL样本集包括至少一个训练URL样本;
利用one-hot编码机制对训练URL样本集中的每一训练URL样本对应的序列进行编码,以获取每一训练URL样本对应的高维向量;
基于预设算法对各个训练URL样本对应的高维向量进行训练,构建深度自编码网络。
如上所述的方法,所述深度自编码网络包括:
输入层、输出层和至少一层的隐层;
其中,第hi个隐层的神经元表示为:
yhi=f(WX+B)
其中,X∈Rm*1为前一层的输出向量,m为其神经元数量;W∈Rn*m为权重矩阵,n为第hi个隐层的神经元数量;B∈Rn*1为偏置;yhi为第hi个隐层的输出;f为Rectified LinearUnits激活函数。
如上所述的方法,所述预设算法为最小化损失函数。
为了实现上述目的,本发明第二方面实施例的基于one-hot编码机制的无监督异常访问检测装置,包括:
第一获取模块,用于利用one-hot编码机制对测试URL样本集中的每一测试URL样本进行编码,以获取每一测试URL样本对应的高维向量,其中,所述测试URL样本集包括至少一个测试URL样本;
第二获取模块,用于将每一测试URL样本对应的高维向量输入到预先构建的深度自编码网络中进行压缩降维处理,以获取每一测试URL样本对应的二维向量;
第三获取模块,用于利用二维坐标系对每一测试URL样本对应的二维向量进行可视化操作以获取可视化的测试URL样本;
聚类模块,用于利用K-means算法对全部的可视化的测试URL样本进行聚类分析,以将测试URL样本集分成第一类URL集和第二类URL集;
确定模块,用于比较第一类URL集和所述第二类URL集的样本量的大小,将样本量大的URL集确定为正常URL集,将样本量小的URL集确定为异常URL集。
如上所述的装置,所述第一获取模块包括第一单元和第二单元;
所述第一单元,用于利用二元语法模型对测试URL样本集进行预处理,获取每一测试URL样本对应的二元序列;
所述第二单元,用于利用one-hot编码机制对测试URL样本集中的每一测试URL样本对应的二元序列进行编码,以获取每一测试URL样本对应的高维向量。
如上所述的装置,所述第一获取模块,还用于利用二元语法模型对训练URL样本集进行预处理,获取每一训练URL样本对应的序列,其中,所述训练URL样本集包括至少一个训练URL样本;利用one-hot编码机制对训练URL样本集中的每一训练URL样本对应的序列进行编码,以获取每一训练URL样本对应的高维向量;
所述装置还包括:
构建模块,用于基于预设算法对各个训练URL样本对应的高维向量进行训练,构建深度自编码网络。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,
图1为本发明一实施例的基于one-hot编码机制的无监督异常访问检测方法的流程示意图;
图2为本发明又一实施例的基于one-hot编码机制的无监督异常访问检测方法的流程示意图;
图3为本发明另一实施例的基于one-hot编码机制的无监督异常访问检测方法的流程示意图;
图4为本发明一实施例的基于one-hot编码机制的无监督异常访问检测装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于one-hot编码机制的无监督异常访问检测方法及装置。
图1为本发明一实施例的基于one-hot编码机制的无监督异常访问检测方法的流程示意图。
如图1所示,本实施例提供的基于one-hot编码机制的无监督异常访问检测方法,包括以下步骤:
S101、利用one-hot编码机制对测试URL样本集中的每一测试URL样本进行编码,以获取每一测试URL样本对应的高维向量,其中,所述测试URL样本集包括至少一个测试URL样本。
具体地,本实施例中测试URL样本可以理解为待访问的URL,测试URL样本集既可能包括正常的URL,也可能包括异常的URL,因此,需要对测试URL样本集即多个待访问的URL进行区分,准确检测出异常的URL,从而避免异常访问,规避恶意访问所带来的危害。
本实施例利用one-hot编码(独热编码,又称一位有效编码)机制对每一测试URL样本进行编码,将每一测试URL样本进行向量化,这样就可以将测试URL样本输入到深度自编码网络进行分析处理,便于后续准确地检测出异常的URL。
在一种可能的实现方式中,步骤S101具体的实现方式为:
S11、利用二元语法模型对测试URL样本集进行预处理,获取每一测试URL样本对应的序列。
具体地,二元语法模型是自然语言处理中用来确定词与词之间相关程度的模型,这里使用二元语法模型的基本概念,即以2个字符为一组,以1为步长组成序列。以URL为“http://www.baidu.com”为例,经过二元语法模型预处理之后,其对应的序列如下:
{ht tt tp p::////w ww ww w..b ba ai id du u..c co om}。
举例来说,对以2个字符为一组的二元组合,由于每一位都有256中可能(包括ASCII表中的128种字符和ASCII扩展表中的128种字符),所以可能的组合有256*256=65536种二元组合,列举部分的二元组合如下:
Figure BDA0001449532480000051
S12、利用one-hot编码机制对测试URL样本集中的每一测试URL样本对应的序列进行编码,以获取每一测试URL样本对应的高维向量。
具体地,上述二元组合中的元素如果在测试URL样本经过步骤S11的二元语法模型预处理得到的序列中出现过,则在经过one-hot编码机制编码后,对应位置为1。比如,ba和.b在“http://www.baidu.com”经过二元语法模型预处理得到的序列{ht tt tp p::////www ww w..b ba ai id du u..c co om}中出现过,则将其对应的位置为1。对于在序列中没有出现过的元素,在经过one-hot编码机制编码后,对应位置为0。比如,00,01,a.,a/,bb,b.,b/等在“http://www.baidu.com”经过二元语法模型预处理得到的序列{ht tt tpp::////w ww ww w..b ba ai id du u..c co om}中没有出现过元素,在经过one-hot编码机制后,对应位都置为0。最终,得到了如下的由0和1组成的长度为65536的二值向量,显然,所得到的二值向量为高维向量。
Figure BDA0001449532480000061
S102、将每一测试URL样本对应的高维向量输入到预先构建的深度自编码网络中进行压缩降维处理,以获取每一测试URL样本对应的二维向量。
在本实施例中,预先构建的深度自编码网络是深度学习中的一种无监督生成模型,其组成元素由输入层、输出层和多层隐层构成,按作用可将其结构分为编码网络和解码网络。编码网络用于数据降维,将高维数据压缩为低维数据;解码网络用于重建,从压缩的低维数据中重建高维数据。
具体地,经过one-hot编码机制编码处理得到的向量化的测试URL样本输入到深度自编码网络中,使用其中的编码网络对向量化的测试URL样本进行压缩降维处理,得到测试URL样本的二维向量。
S103、利用二维坐标系对每一测试URL样本对应的二维向量进行可视化操作以获取可视化的测试URL样本。
具体地,本实施例中的测试URL样本的二维向量可以理解为测试URL样本的两个神经元,分别以这两个神经元为x坐标轴和y坐标轴的值,进行可视化。其中,二维坐标系由x坐标轴和y坐标轴组成。
S104、利用K-means算法对全部的可视化的测试URL样本进行聚类分析,以将测试URL样本集分成第一类URL集和第二类URL集。
S105、比较第一类URL集和所述第二类URL集的样本量的大小,将样本量大的URL集确定为正常URL集,将样本量小的URL集确定为异常URL集。
在本实施例中,K-means算法(K均值算法)是一种自下而上的聚类算法,也是无监督学习,通过K-means算法将测试URL样本集分成第一类URL集和第二类URL集,由于测试URL样本集中大部分为正常URL,且正常的URL的特点大多类似;而异常的URL较少,且各有各的不同,所以聚类后,样本大而密集的聚类为正常URL,反之,样本量小而分散的聚类为异常URL。在本实施例中,测试URL样本经检测为正常的URL都纳入正常URL集中,测试URL样本经检测为异常的URL都纳入异常URL集中,进而实现了待访问的URL进行区分,准确检测出异常的URL,从而避免异常访问,规避恶意访问所带来的危害。
本实施例提供的基于one-hot编码机制的无监督异常访问检测方法,包括:利用one-hot编码机制对测试URL样本集中的每一测试URL样本进行编码,以获取每一测试URL样本对应的高维向量,其中,所述测试URL样本集包括至少一个测试URL样本;将每一测试URL样本对应的高维向量输入到预先构建的深度自编码网络中进行压缩降维处理,以获取每一测试URL样本对应的二维向量;利用二维坐标系对每一测试URL样本对应的二维向量进行可视化操作以获取可视化的测试URL样本;利用K-means算法对全部的可视化的测试URL样本进行聚类分析,以将测试URL样本集分成第一类URL集和第二类URL集;比较第一类URL集和所述第二类URL集的样本量的大小,将样本量大的URL集确定为正常URL集,将样本量小的URL集确定为异常URL集。该方法能够在异常URL的特征未知的前提下,利用二元语法模型、one-hot编码机制以及深度自编码网络,准确检测出异常URL,从而避免异常访问,规避恶意访问所带来的危害。此外,解决了固定规则难以准确检测异常URL的问题,具有检测精度高、鲁棒性强的特点,可以大规模应用于异常访问检测、异常流量检测等下一代互联网网络安全技术领域。通过无监督学习,能够在异常URL特征不明确并且异常样本非常少的情况下,准确识别异常URL。并且,深度自编码网络的训练阶段可以离线完成,在深度自编码网络建立完成之后,检测速度非常快,大大提高了异常访问的检测效率。
图2为本发明又一实施例的基于one-hot编码机制的无监督异常访问检测方法的流程示意图。本实施例主要是对上述实施例中的“利用K-means算法对全部的可视化的测试URL样本进行聚类分析,以将测试URL样本集分成第一类URL集和第二类URL集”进行优化。
如图2所示,本实施例提供的基于one-hot编码机制的无监督异常访问检测方法,包括以下步骤:
S201、在全部的可视化的测试URL样本中选取两个可视化的测试URL样本,将选取的其中一个可视化的测试URL样本作为第一质心和将选取的另一个可视化的测试URL样本作为第二质心。
举例来说,全部的可视化的测试URL样本的数量为500个,在500个中选出两个可视化的测试URL样本,将选出的其中一个作为第一质心,将选出的另一个作为第二质心,这里可以将第一质心和第二质心理解成两种类别的测试URL样本。
S202、对未选取的每一可视化的测试URL样本,计算该可视化的测试URL样本与第一质心之间的第一距离及该可视化的测试URL样本与第二质心之间的第二距离。
S203、比较第一距离和第二距离的大小,将距离小的对应的质心所属类别确定为该可视化的测试URL样本所属类别。
举例来说,在选出第一质心和第二质心后,接着对剩下的498个测试URL样本进行聚类分析,也就是,确定剩下的498个测试URL样本哪些可以归为第一质心所属类别,哪些可以归为第二质心所属类别。
在本实施例中,每个测试URL样本都在二维坐标系中进行了坐标可视化,这样,“剩下的498个测试URL样本进行聚类分析”变成了在坐标系中计算两个点之间的距离。即对498个测试URL样本中的每一个测试URL样本,不难计算每一个测试URL样本与第一质心之间的第一距离,也不难计算每一个测试URL样本与第二质心之间的第二距离。
具体地,根据如下公式计算第一距离和第二距离:
Figure BDA0001449532480000081
其中,x(i)为第i个测试URL样本;μj为第j个质心,j为1或2;k(i)为第i个样本所属的类别,计算方法为取测试URL样本与质心之间距离最小的类别为当前测试URL样本所属类别。
S204、将对应与第一质心所属类别的各个可视化的测试URL样本划入第一类URL集,将对应与第二质心所属类别的各个可视化的测试URL样本划入第二类URL集。
举例来说,若498个测试URL样本中的某个测试URL样本,其与第一质心的第一距离小于其与第二质心的第二距离,这时,确定该测试URL样本所属的类别同第一质心所属的类别;反之,确定该测试URL样本所属的类别同第二质心所属的类别。这样,就可以将498个测试URL样本分为测试URL样本所属的类别同第一质心所属的类别和测试URL样本所属的类别同第二质心所属的类别两个类,实现了对全部的测试URL样本的聚类分析,即全部的测试URL样本被划分为第一类URL集和第二类URL集两大类。
本实施例提供的基于one-hot编码机制的无监督异常访问检测方法,通过比较测试URL样本分别与第一质心、第二质心的距离大小,确定各个测试URL样本所属的类别是同第一质心所属的类别和还是同第二质心所属的类别,进而实现了对全部的测试URL样本进行聚类分析,该方法成本低、准确性高、鲁棒性强,能够高效识别特征未知的多种多样的异常URL,避免异常访问的发生。
进一步地,本实施例是对上述实施例中的“利用K-means算法对全部的可视化的测试URL样本进行聚类分析,以将测试URL样本集分成第一类URL集和第二类URL集”进行进一步地优化。具体地,“多次选取第一质心和第二质心以多次对全部的测试URL样本进行聚类分析”的具体的实现方式,包括以下步骤:
S21、进行至少一轮在全部的可视化的测试URL样本中选取两个可视化的测试URL样本以及将选取的其中一个作为第一质心和将选取的另一个作为第二质心,执行步骤S22。
S22、针对本轮,获取上一轮的第一质心和第二质心;判断本轮的第一质心与上一轮的第一质心的类别是否相同以及判断本轮的第二质心与上一轮的第二质心的类别是否相同,执行步骤S23或执行步骤S28。
S23、若均不相同,对本轮中未选取的每一可视化的测试URL样本,计算该可视化的测试URL样本与本轮的第一质心之间的本轮的第一距离及该可视化的测试URL样本与本轮的第二质心之间的本轮的第二距离,执行步骤S24。
S24、比较本轮的第一距离和本轮的第二距离的大小,将距离小的对应的质心所属类别确定为本轮中该可视化的测试URL样本所属类别,执行步骤S25;
S25、将对应与本轮的第一质心所属类别的各个可视化的测试URL样本划入本轮的第一类URL集,将对应与本轮的第二质心所属类别的各个可视化的测试URL样本划入本轮的第二类URL集,执行步骤S26。
S26、比较本轮的第一距离和本轮的第二距离的大小,将距离小的对应的质心所属类别确定为本轮中该可视化的测试URL样本所属类别,执行步骤S27。
S27、将对应与本轮的第一质心所属类别的各个可视化的测试URL样本划入本轮的第一类URL集,将对应与本轮的第二质心所属类别的各个可视化的测试URL样本划入本轮的第二类URL集。
S28、若均相同,将上一轮的第一类URL集确定为最终的第一类URL集,将上一轮的第二类URL集确定为最终的第二类URL集。
具体地,在本实施例中,在当步骤S22中判断本轮的第一质心与上一轮的第一质心的类别不相同以及判断本轮的第二质心与上一轮的第二质心的类别不相同时,步骤S23至步骤S27对应的是进行再一次的对全部的测试URL样本进行聚类分析。在当步骤S22判断本轮的第一质心与上一轮的第一质心的类别相同以及判断本轮的第二质心与上一轮的第二质心的类别相同时,则终止进行再一次的对全部的测试URL样本进行聚类分析,这时,将上一轮的第一类URL集确定为最终的第一类URL集,将上一轮的第二类URL集确定为最终的第二类URL集。
在本实施例中,多次选取第一质心和第二质心,以及多次对全部的测试URL样本进行聚类分析,直至所选取的第一质心和第二质心不再变化,该方法能够更加高效识别特征未知的多种多样的异常URL,更好地避免异常访问的发生。
图3为本发明另一实施例的基于one-hot编码机制的无监督异常访问检测方法的流程示意图。在上述实施例的基础上,本实施例对如何构建深度自编码网络进行优化。
如图3所示,本实施例提供的基于one-hot编码机制的无监督异常访问检测方法,包括以下步骤:
S301、利用二元语法模型对训练URL样本集进行预处理,获取每一训练URL样本对应的序列,其中,所述训练URL样本集包括至少一个训练URL样本。
S302、利用one-hot编码机制对训练URL样本集中的每一训练URL样本对应的序列进行编码,以获取每一训练URL样本对应的高维向量。
本实施例中的步骤S301、步骤S302的具体实现方式可以参见上述实施例中的步骤S101的实现方式,在此不再赘述。
S303、基于预设算法对各个训练URL样本对应的高维向量进行训练,构建深度自编码网络。
具体地,深度自编码网络是深度学习中的一种无监督生成模型,其组成元素由输入层、输出层和多层隐层构成,按作用可将其结构分为编码网络和解码网络。编码网络用于数据降维,将高维数据压缩为低维数据;解码网络用于重建,从压缩的低维数据中重建高维数据。
本实施例中深度自编码网络科可包括:输入层、输出层和至少一层的隐层。
将训练URL样本的二值向量作为深度自编码网络的输入向量,使用整个深度自编码网络的生成作用重建输入,由于深度自编码网络是基于全连接的结构搭建的,所以深度自编码第hi个隐层的神经元可以表示为:
yhi=f(WX+B)
其中,
Figure BDA0001449532480000101
为前一层的输出向量,m为其神经元数量;
Figure BDA0001449532480000102
为权重矩阵,n为第hi个隐层的神经元数量;为偏置;yhi为第hi个隐层的输出;f为Rectified LinearUnits激活函数。可选地,f定义为:f=max(0,x)。需要指出的是,当hi=1时,X为输入向量,即步骤S302中各个训练URL样本对应的高维向量。
优选地,预设算法为最小化损失函数,其定义为输入向量与通过深度自编码得到的重建之间的误差,其定义为:
Figure BDA0001449532480000104
其中,N为输入向量对应的样本量,yi为输入向量,yi'为深度自编码网络的重建,最小损失函数为二者的均方误差。需要指出的是,yi为输入向量可以理解为步骤S302中各个训练URL样本对应的高维向量,举例来说,训练URL样本集的样本量为100个,则N为100。
本实施例提供的基于one-hot编码机制的无监督异常访问检测方法,利用二元语法模型对训练URL样本集进行预处理,获取每一训练URL样本对应的序列,其中,所述训练URL样本集包括至少一个训练URL样本。利用one-hot编码机制对训练URL样本集中的每一训练URL样本对应的序列进行编码,以获取每一训练URL样本对应的高维向量。基于预设算法对各个训练URL样本对应的高维向量进行训练,构建深度自编码网络。该方法可以提前训练好深度自编码网络,这样,当后续对异常URL检测时,只需要根据训练好的深度自编码网络的编码部分对预处理后的高维向量进行压缩,然后通过坐标系可视化进行聚类分析,识别异常URL。该方法计算开销小、准确性高、鲁棒性强,能够高效识别特征未知的多种多样的异常URL,避免异常访问的发生。
图4为本发明一实施例的基于one-hot编码机制的无监督异常访问检测装置的结构示意图。
如图4所示,本实施例提供的基于one-hot编码机制的无监督异常访问检测装置,包括:
第一获取模块1,用于利用one-hot编码机制对测试URL样本集中的每一测试URL样本进行编码,以获取每一测试URL样本对应的高维向量,其中,所述测试URL样本集包括至少一个测试URL样本;
第二获取模块2,用于将每一测试URL样本对应的高维向量输入到预先构建的深度自编码网络中进行压缩降维处理,以获取每一测试URL样本对应的二维向量;
第三获取模块3,用于利用二维坐标系对每一测试URL样本对应的二维向量进行可视化操作以获取可视化的测试URL样本;
聚类模块4,用于利用K-means算法对全部的可视化的测试URL样本进行聚类分析,以将测试URL样本集分成第一类URL集和第二类URL集;
确定模块5,用于比较第一类URL集和所述第二类URL集的样本量的大小,将样本量大的URL集确定为正常URL集,将样本量小的URL集确定为异常URL集。
进一步地,所述第一获取模块1包括第一单元和第二单元;
所述第一单元,用于利用二元语法模型对测试URL样本集进行预处理,获取每一测试URL样本对应的二元序列;
所述第二单元,用于利用one-hot编码机制对测试URL样本集中的每一测试URL样本对应的二元序列进行编码,以获取每一测试URL样本对应的高维向量。
进一步地,所述第一获取模块1,还用于利用二元语法模型对训练URL样本集进行预处理,获取每一训练URL样本对应的序列,其中,所述训练URL样本集包括至少一个训练URL样本;利用one-hot编码机制对训练URL样本集中的每一训练URL样本对应的序列进行编码,以获取每一训练URL样本对应的高维向量;
所述装置还包括:
构建模块,用于基于预设算法对各个训练URL样本对应的高维向量进行训练,构建深度自编码网络。
关于本实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本实施例提供的基于one-hot编码机制的无监督异常访问检测装置,通过利用one-hot编码机制对测试URL样本集中的每一测试URL样本进行编码,以获取每一测试URL样本对应的高维向量,其中,所述测试URL样本集包括至少一个测试URL样本;将每一测试URL样本对应的高维向量输入到预先构建的深度自编码网络中进行压缩降维处理,以获取每一测试URL样本对应的二维向量;利用二维坐标系对每一测试URL样本对应的二维向量进行可视化操作以获取可视化的测试URL样本;利用K-means算法对全部的可视化的测试URL样本进行聚类分析,以将测试URL样本集分成第一类URL集和第二类URL集;比较第一类URL集和所述第二类URL集的样本量的大小,将样本量大的URL集确定为正常URL集,将样本量小的URL集确定为异常URL集。该装置能够在异常URL的特征未知的前提下,利用二元语法模型、one-hot编码机制以及深度自编码网络,准确检测出异常URL,从而避免异常访问,规避恶意访问所带来的危害。此外,解决了固定规则难以准确检测异常URL的问题,具有检测精度高、鲁棒性强的特点,可以大规模应用于异常访问检测、异常流量检测等下一代互联网网络安全技术领域。通过无监督学习,能够在异常URL特征不明确并且异常样本非常少的情况下,准确识别异常URL。并且,深度自编码网络的训练阶段可以离线完成,在深度自编码网络建立完成之后,检测速度非常快,大大提高了异常访问的检测效率。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于one-hot编码机制的无监督异常访问检测方法,其特征在于,包括:
利用one-hot编码机制对测试URL样本集中的每一测试URL样本进行编码,以获取每一测试URL样本对应的高维向量,其中,所述测试URL样本集包括至少一个测试URL样本;
将每一测试URL样本对应的高维向量输入到预先构建的深度自编码网络中进行压缩降维处理,以获取每一测试URL样本对应的二维向量;
利用二维坐标系对每一测试URL样本对应的二维向量进行可视化操作以获取可视化的测试URL样本;
利用K-means算法对全部的可视化的测试URL样本进行聚类分析,以将测试URL样本集分成第一类URL集和第二类URL集;
比较第一类URL集和所述第二类URL集的样本量的大小,将样本量大的URL集确定为正常URL集,将样本量小的URL集确定为异常URL集。
2.如权利要求1所述的方法,其特征在于,所述利用one-hot编码机制对测试URL样本集中的每一测试URL样本进行编码,以获取每一测试URL样本对应的高维向量,包括:
利用二元语法模型对测试URL样本集进行预处理,获取每一测试URL样本对应的序列;
利用one-hot编码机制对测试URL样本集中的每一测试URL样本对应的序列进行编码,以获取每一测试URL样本对应的高维向量。
3.如权利要求1所述的方法,其特征在于,所述利用K-means算法对全部的可视化的测试URL样本进行聚类分析,以将测试URL样本集分成第一类URL集和第二类URL集,包括:
在全部的可视化的测试URL样本中选取两个可视化的测试URL样本,将选取的其中一个可视化的测试URL样本作为第一质心和将选取的另一个可视化的测试URL样本作为第二质心;
对未选取的每一可视化的测试URL样本,计算该可视化的测试URL样本与第一质心之间的第一距离及该可视化的测试URL样本与第二质心之间的第二距离;
比较第一距离和第二距离的大小,将距离小的对应的质心所属类别确定为该可视化的测试URL样本所属类别;
将对应与第一质心所属类别的各个可视化的测试URL样本划入第一类URL集,将对应与第二质心所属类别的各个可视化的测试URL样本划入第二类URL集。
4.如权利要求3所述的方法,其特征在于,
所述在全部的可视化的测试URL样本中选取两个可视化的测试URL样本以及将选取的其中一个作为第一质心和将选取的另一个作为第二质心,包括:
进行至少一轮在全部的可视化的测试URL样本中选取两个可视化的测试URL样本以及将选取的其中一个作为第一质心和将选取的另一个作为第二质心;
所述对未选取的每一可视化的测试URL样本,计算该可视化的测试URL样本与第一质心之间的第一距离及该可视化的测试URL样本与第二质心之间的第二距离,包括:
针对本轮,获取上一轮的第一质心和第二质心;
判断本轮的第一质心与上一轮的第一质心的类别是否相同以及判断本轮的第二质心与上一轮的第二质心的类别是否相同;
若均不相同,对本轮中未选取的每一可视化的测试URL样本,计算该可视化的测试URL样本与本轮的第一质心之间的本轮的第一距离及该可视化的测试URL样本与本轮的第二质心之间的本轮的第二距离。
5.如权利要求1所述的方法,其特征在于,在利用one-hot编码机制对测试URL样本集中的每一测试URL样本进行编码,以获取每一测试URL样本对应的高维向量之前,还包括:
利用二元语法模型对训练URL样本集进行预处理,获取每一训练URL样本对应的序列,其中,所述训练URL样本集包括至少一个训练URL样本;
利用one-hot编码机制对训练URL样本集中的每一训练URL样本对应的序列进行编码,以获取每一训练URL样本对应的高维向量;
基于预设算法对各个训练URL样本对应的高维向量进行训练,构建深度自编码网络。
6.如权利要求5所述的方法,其特征在于,所述深度自编码网络包括:
输入层、输出层和至少一层的隐层;
其中,第hi个隐层的神经元表示为:
yhi=f(WX+B)
其中,X∈Rm*1为前一层的输出向量;m为其神经元数量;W∈Rn*m为权重矩阵,n为第hi个隐层的神经元数量;B∈Rn*1为偏置;yhi为第hi个隐层的输出;f为Rectified Linear Units激活函数。
7.如权利要求5所述的方法,其特征在于,所述预设算法为最小化损失函数。
8.一种基于one-hot编码机制的无监督异常访问检测装置,其特征在于,包括:
第一获取模块,用于利用one-hot编码机制对测试URL样本集中的每一测试URL样本进行编码,以获取每一测试URL样本对应的高维向量,其中,所述测试URL样本集包括至少一个测试URL样本;
第二获取模块,用于将每一测试URL样本对应的高维向量输入到预先构建的深度自编码网络中进行压缩降维处理,以获取每一测试URL样本对应的二维向量;
第三获取模块,用于利用二维坐标系对每一测试URL样本对应的二维向量进行可视化操作以获取可视化的测试URL样本;
聚类模块,用于利用K-means算法对全部的可视化的测试URL样本进行聚类分析,以将测试URL样本集分成第一类URL集和第二类URL集;
确定模块,用于比较第一类URL集和所述第二类URL集的样本量的大小,将样本量大的URL集确定为正常URL集,将样本量小的URL集确定为异常URL集。
9.如权利要求8所述的装置,其特征在于,所述第一获取模块包括第一单元和第二单元;
所述第一单元,用于利用二元语法模型对测试URL样本集进行预处理,获取每一测试URL样本对应的二元序列;
所述第二单元,用于利用one-hot编码机制对测试URL样本集中的每一测试URL样本对应的二元序列进行编码,以获取每一测试URL样本对应的高维向量。
10.如权利要求9所述的装置,其特征在于,
所述第一获取模块,还用于利用二元语法模型对训练URL样本集进行预处理,获取每一训练URL样本对应的序列,其中,所述训练URL样本集包括至少一个训练URL样本;利用one-hot编码机制对训练URL样本集中的每一训练URL样本对应的序列进行编码,以获取每一训练URL样本对应的高维向量;
所述装置还包括:
构建模块,用于基于预设算法对各个训练URL样本对应的高维向量进行训练,构建深度自编码网络。
CN201711032284.2A 2017-10-30 2017-10-30 基于one-hot编码机制的无监督异常访问检测方法及装置 Active CN107798235B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201711032284.2A CN107798235B (zh) 2017-10-30 2017-10-30 基于one-hot编码机制的无监督异常访问检测方法及装置
PCT/CN2018/107342 WO2019085691A1 (zh) 2017-10-30 2018-09-25 基于one-hot编码机制的无监督异常访问检测方法及装置
US16/463,310 US11055567B2 (en) 2017-10-30 2018-09-25 Unsupervised exception access detection method and apparatus based on one-hot encoding mechanism

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711032284.2A CN107798235B (zh) 2017-10-30 2017-10-30 基于one-hot编码机制的无监督异常访问检测方法及装置

Publications (2)

Publication Number Publication Date
CN107798235A CN107798235A (zh) 2018-03-13
CN107798235B true CN107798235B (zh) 2020-01-10

Family

ID=61548168

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711032284.2A Active CN107798235B (zh) 2017-10-30 2017-10-30 基于one-hot编码机制的无监督异常访问检测方法及装置

Country Status (3)

Country Link
US (1) US11055567B2 (zh)
CN (1) CN107798235B (zh)
WO (1) WO2019085691A1 (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107798235B (zh) 2017-10-30 2020-01-10 清华大学 基于one-hot编码机制的无监督异常访问检测方法及装置
CN108647730B (zh) * 2018-05-14 2020-11-24 中国科学院计算技术研究所 一种基于历史行为共现的数据划分方法及系统
JP7014054B2 (ja) * 2018-06-13 2022-02-01 日本電信電話株式会社 検知装置及び検知方法
CN109194635A (zh) * 2018-08-22 2019-01-11 杭州安恒信息技术股份有限公司 基于自然语言处理与深度学习的恶意url识别方法及装置
CN109522461B (zh) * 2018-10-08 2021-02-05 厦门快商通信息技术有限公司 基于正则表达式的url清洗方法及系统
CN110457626A (zh) * 2019-07-03 2019-11-15 微梦创科网络科技(中国)有限公司 一种异常访问请求筛选方法及装置
US11645539B2 (en) * 2019-07-22 2023-05-09 Vmware, Inc. Machine learning-based techniques for representing computing processes as vectors
CN110855635B (zh) * 2019-10-25 2022-02-11 新华三信息安全技术有限公司 Url识别方法、装置及数据处理设备
CN111783442A (zh) * 2019-12-19 2020-10-16 国网江西省电力有限公司电力科学研究院 入侵检测方法、设备和服务器、存储介质
CN111400126A (zh) * 2020-02-19 2020-07-10 中国平安人寿保险股份有限公司 网络服务异常数据检测方法、装置、设备和介质
CN112529109A (zh) * 2020-12-29 2021-03-19 四川长虹电器股份有限公司 一种基于无监督多模型的异常检测方法及系统
CN112966819B (zh) * 2021-03-04 2024-04-09 南方科技大学 分布外数据检测方法、装置、服务器及存储介质
CN113052219B (zh) * 2021-03-16 2022-05-31 浙江大学 一种异常轨迹检测方法及装置、电子设备
CN113449304B (zh) * 2021-07-06 2024-03-22 北京科技大学 一种基于策略梯度降维的恶意软件检测方法及装置
US11928466B2 (en) 2021-07-14 2024-03-12 VMware LLC Distributed representations of computing processes and events
CN113988205B (zh) * 2021-11-08 2022-09-20 福建龙净环保股份有限公司 一种电除尘工况的判定方法及系统
CN114429648B (zh) * 2022-01-27 2023-11-28 西安交通大学 一种基于对比特征的行人重识别方法及系统
CN115171905B (zh) * 2022-06-20 2023-04-07 复旦大学 一种基于独热编码无监督聚类的肿瘤患者相似性计算方法
CN115564577B (zh) * 2022-12-02 2023-04-07 成都新希望金融信息有限公司 一种异常用户识别方法、装置、电子设备及存储介质
CN117577116B (zh) * 2024-01-17 2024-03-19 清华大学 连续学习语音鉴别模型的训练方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229945A (zh) * 2017-05-05 2017-10-03 中山大学 一种基于竞争学习的深度聚类方法
CN107276805A (zh) * 2017-06-19 2017-10-20 北京邮电大学 一种基于入侵检测模型的样本预测方法、装置及电子设备

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7921068B2 (en) * 1998-05-01 2011-04-05 Health Discovery Corporation Data mining platform for knowledge discovery from heterogeneous data types and/or heterogeneous data sources
US8463998B1 (en) * 2002-12-13 2013-06-11 Open Text S.A. System and method for managing page variations in a page delivery cache
US9247900B2 (en) * 2004-07-13 2016-02-02 Dexcom, Inc. Analyte sensor
US7574692B2 (en) * 2004-11-19 2009-08-11 Adrian Herscu Method for building component-software for execution in a standards-compliant programming environment
CN101609450A (zh) * 2009-04-10 2009-12-23 南京邮电大学 基于训练集的网页分类方法
CN103051617B (zh) * 2012-12-18 2015-09-02 北京奇虎科技有限公司 识别程序的网络行为的方法、装置及系统
GB201403505D0 (en) * 2014-02-27 2014-04-16 Aistemos Ltd Database update and analytics system
US9202178B2 (en) * 2014-03-11 2015-12-01 Sas Institute Inc. Computerized cluster analysis framework for decorrelated cluster identification in datasets
JP6295801B2 (ja) * 2014-04-18 2018-03-20 富士通株式会社 分析方法、分析装置、及び分析プログラム
KR101547999B1 (ko) * 2014-09-02 2015-08-27 한국전자통신연구원 악성링크 자동 탐지 장치 및 방법
KR101686181B1 (ko) * 2015-01-12 2016-12-28 주식회사 엔터플 미리 지정된 url을 이용한 보안 통신 방법 및 장치
CN104935605B (zh) * 2015-06-30 2018-05-04 北京奇虎科技有限公司 钓鱼网站的检测方法、装置及系统
CN105022824B (zh) * 2015-07-21 2018-07-03 北京神州绿盟信息安全科技股份有限公司 无效链接的识别方法和装置
US10185761B2 (en) * 2015-08-07 2019-01-22 Cisco Technology, Inc. Domain classification based on domain name system (DNS) traffic
WO2017074401A1 (en) * 2015-10-29 2017-05-04 Hewlett Packard Enterprise Development Lp User interaction logic classification
US10324973B2 (en) * 2016-06-12 2019-06-18 Apple Inc. Knowledge graph metadata network based on notable moments
GB2555192B (en) * 2016-08-02 2021-11-24 Invincea Inc Methods and apparatus for detecting and identifying malware by mapping feature data into a semantic space
US10075463B2 (en) * 2016-09-09 2018-09-11 Ca, Inc. Bot detection system based on deep learning
CN107798235B (zh) * 2017-10-30 2020-01-10 清华大学 基于one-hot编码机制的无监督异常访问检测方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229945A (zh) * 2017-05-05 2017-10-03 中山大学 一种基于竞争学习的深度聚类方法
CN107276805A (zh) * 2017-06-19 2017-10-20 北京邮电大学 一种基于入侵检测模型的样本预测方法、装置及电子设备

Also Published As

Publication number Publication date
CN107798235A (zh) 2018-03-13
US11055567B2 (en) 2021-07-06
US20200065616A1 (en) 2020-02-27
WO2019085691A1 (zh) 2019-05-09

Similar Documents

Publication Publication Date Title
CN107798235B (zh) 基于one-hot编码机制的无监督异常访问检测方法及装置
US11899669B2 (en) Searching of data structures in pre-processing data for a machine learning classifier
CN108509411A (zh) 语义分析方法和装置
US10311635B2 (en) Method and apparatus for detecting repetitive structures in 3D mesh models
CN113868006B (zh) 时间序列的检测方法、装置、电子设备及计算机存储介质
CN108197087A (zh) 字符编码识别方法及装置
CN114283888A (zh) 基于分层自注意力机制的差异表达基因预测系统
CN115269357A (zh) 一种基于调用链的微服务异常检测方法
CN112164426A (zh) 基于TextCNN的药物小分子靶点活性预测方法和装置
CN113259216A (zh) 一种can总线信号解析方法及系统
CN115965058B (zh) 神经网络训练方法、实体信息分类方法、装置及存储介质
CN110261080A (zh) 基于多模态数据的异构旋转型机械异常检测方法及系统
CN114722091A (zh) 数据处理方法、装置、存储介质以及处理器
CN114332500A (zh) 图像处理模型训练方法、装置、计算机设备和存储介质
Kaupp et al. Outlier detection in temporal spatial log data using autoencoder for industry 4.0
CN108562853A (zh) 基于纠错输出编码支持向量机的电机故障诊断方法和系统
CN113807396B (zh) 一种物联网高维数据异常检测方法、系统、装置及介质
CN114418189A (zh) 水质等级预测方法、系统、终端设备及存储介质
CN112164428B (zh) 基于深度学习的药物小分子性质预测方法和装置
CN116467141A (zh) 日志识别模型训练、日志聚类方法和相关系统、设备
CN114218487B (zh) 一种视频推荐方法、系统、装置及存储介质
CN114861753A (zh) 一种基于大规模网络的数据分类方法和装置
Cyrus et al. Meta-interpretive Learning from Fractal Images
CN114064905A (zh) 网络攻击检测方法、装置、终端设备、芯片及存储介质
WO2018151619A1 (en) Network analysis tool testing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant