CN107798235B

CN107798235B - 基于one-hot编码机制的无监督异常访问检测方法及装置

Info

Publication number: CN107798235B
Application number: CN201711032284.2A
Authority: CN
Inventors: 徐恪; 赵乙; 谭崎
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-10-30
Filing date: 2017-10-30
Publication date: 2020-01-10
Anticipated expiration: 2037-10-30
Also published as: CN107798235A; US11055567B2; US20200065616A1; WO2019085691A1

Abstract

本发明公开了一种基于one‑hot编码机制的无监督异常访问检测方法及装置，其中，该方法能够在异常URL的特征未知的前提下，利用二元语法模型、one‑hot编码机制以及深度自编码网络，准确检测出异常URL，从而避免异常访问，规避恶意访问所带来的危害。此外，解决了固定规则难以准确检测异常URL的问题，具有检测精度高、鲁棒性强的特点，可以大规模应用于异常访问检测、异常流量检测等下一代互联网网络安全技术领域。通过无监督学习，能够在异常URL特征不明确并且异常样本非常少的情况下，准确识别异常URL。并且，深度自编码网络的训练阶段可以离线完成，在深度自编码网络建立完成之后，检测速度非常快，大大提高了异常访问的检测效率。

Description

基于one-hot编码机制的无监督异常访问检测方法及装置

技术领域

本发明涉及下一代互联网网络安全技术领域，尤其涉及基于one-hot编码机制的无监督异常访问检测方法及装置。

背景技术

随着网络技术的不断普及，网络为人类提供的服务数量呈现指数型增长。面对下一代互联网提供的各式各样的网络服务与链接，如何保证用户访问正常网址有着极其重要的意义。传统的异常URL(Uniform Resource Locator，统一资源定位符)检测，主要是基于固定的规则进行的。但是，面对大量的、呈指数形式增长的URL，由于异常URL各具特色，固定的规则所显露出的局限性十分明显，只能识别已知的异常URL。但是，大多数异常URL的特征是未知的，固定的规则却难以准确检测特征未知的异常URL，从而增加了用户对互联网的访问风险。

通过对互联网中的大量URL进行分析，可以发现：尽管URL数量巨大，并且异常URL的特点难以确定，但是已有的URL中绝大多数为正常URL，并且它们存在类似的特征。考虑到机器学习能够高效获得数据内部的一些特征，目前已经有一些利用机器学习的方法来进行异常URL访问检测的方法。比如，基于统计学的方法，通过URL的被用户访问的频率、URL自身的字符长度等统计特性，对异常访问进行检测。或者，还有一些基于自然语言处理原理的方法，通过对URL进行解析来检测异常访问。

因此，如何更准确地区分正常URL和异常URL成为亟待解决的技术问题。

发明内容

本发明的目的旨在至少在一定程度上解决上述的技术问题之一。

为此，本发明的第一个目的在于提出的基于one-hot编码机制的无监督异常访问检测方法，该方法能够在异常URL的特征未知的前提下，利用二元语法模型、one-hot编码机制、深度自编码网络以及聚类分析，准确检测出异常URL，从而避免异常访问，规避恶意访问所带来的危害。此外，解决了固定规则难以准确检测异常URL的问题，具有检测精度高、鲁棒性强的特点，可以大规模应用于异常访问检测、异常流量检测等下一代互联网网络安全技术领域。通过无监督学习，能够在异常URL特征不明确并且异常样本非常少的情况下，准确识别异常URL。并且，深度自编码网络的训练阶段可以离线完成，在深度自编码网络建立完成之后，检测速度非常快，大大提高了异常访问的检测效率。

为此，本发明的第二个目的在于提出的基于one-hot编码机制的无监督异常访问检测装置。

为了实现上述目的，本发明第一方面实施例的基于one-hot编码机制的无监督异常访问检测方法，包括：

利用one-hot编码机制对测试URL样本集中的每一测试URL样本进行编码，以获取每一测试URL样本对应的高维向量，其中，所述测试URL样本集包括至少一个测试URL样本；

将每一测试URL样本对应的高维向量输入到预先构建的深度自编码网络中进行压缩降维处理，以获取每一测试URL样本对应的二维向量；

利用二维坐标系对每一测试URL样本对应的二维向量进行可视化操作以获取可视化的测试URL样本；

利用K-means算法对全部的可视化的测试URL样本进行聚类分析，以将测试URL样本集分成第一类URL集和第二类URL集；

比较第一类URL集和所述第二类URL集的样本量的大小，将样本量大的URL集确定为正常URL集，将样本量小的URL集确定为异常URL集。

如上所述的方法，所述利用one-hot编码机制对测试URL样本集中的每一测试URL样本进行编码，以获取每一测试URL样本对应的高维向量，包括：

利用二元语法模型对测试URL样本集进行预处理，获取每一测试URL样本对应的序列；

利用one-hot编码机制对测试URL样本集中的每一测试URL样本对应的序列进行编码，以获取每一测试URL样本对应的高维向量。

如上所述的方法，所述利用K-means算法对全部的可视化的测试URL样本进行聚类分析，以将测试URL样本集分成第一类URL集和第二类URL集，包括：

在全部的可视化的测试URL样本中选取两个可视化的测试URL样本，将选取的其中一个可视化的测试URL样本作为第一质心和将选取的另一个可视化的测试URL样本作为第二质心；

对未选取的每一可视化的测试URL样本，计算该可视化的测试URL样本与第一质心之间的第一距离及该可视化的测试URL样本与第二质心之间的第二距离；

比较第一距离和第二距离的大小，将距离小的对应的质心所属类别确定为该可视化的测试URL样本所属类别；

将对应与第一质心所属类别的各个可视化的测试URL样本划入第一类URL集，将对应与第二质心所属类别的各个可视化的测试URL样本划入第二类URL集。

如上所述的方法，所述在全部的可视化的测试URL样本中选取两个可视化的测试URL样本以及将选取的其中一个作为第一质心和将选取的另一个作为第二质心，包括：

进行至少一轮在全部的可视化的测试URL样本中选取两个可视化的测试URL样本以及将选取的其中一个作为第一质心和将选取的另一个作为第二质心；

所述对未选取的每一可视化的测试URL样本，计算该可视化的测试URL样本与第一质心之间的第一距离及该可视化的测试URL样本与第二质心之间的第二距离，包括：

针对本轮，获取上一轮的第一质心和第二质心；

判断本轮的第一质心与上一轮的第一质心的类别是否相同以及判断本轮的第二质心与上一轮的第二质心的类别是否相同；

若均不相同，对本轮中未选取的每一可视化的测试URL样本，计算该可视化的测试URL样本与本轮的第一质心之间的本轮的第一距离及该可视化的测试URL样本与本轮的第二质心之间的本轮的第二距离。

如上所述的方法，在利用one-hot编码机制对测试URL样本集中的每一测试URL样本进行编码，以获取每一测试URL样本对应的高维向量之前，还包括：

利用二元语法模型对训练URL样本集进行预处理，获取每一训练URL样本对应的序列，其中，所述训练URL样本集包括至少一个训练URL样本；

利用one-hot编码机制对训练URL样本集中的每一训练URL样本对应的序列进行编码，以获取每一训练URL样本对应的高维向量；

基于预设算法对各个训练URL样本对应的高维向量进行训练，构建深度自编码网络。

如上所述的方法，所述深度自编码网络包括：

输入层、输出层和至少一层的隐层；

其中，第hi个隐层的神经元表示为：

y_hi＝f(WX+B)

其中，X∈R^m*1为前一层的输出向量，m为其神经元数量；W∈R^n*m为权重矩阵，n为第hi个隐层的神经元数量；B∈R^n*1为偏置；y_hi为第hi个隐层的输出；f为Rectified LinearUnits激活函数。

如上所述的方法，所述预设算法为最小化损失函数。

为了实现上述目的，本发明第二方面实施例的基于one-hot编码机制的无监督异常访问检测装置，包括：

第一获取模块，用于利用one-hot编码机制对测试URL样本集中的每一测试URL样本进行编码，以获取每一测试URL样本对应的高维向量，其中，所述测试URL样本集包括至少一个测试URL样本；

第二获取模块，用于将每一测试URL样本对应的高维向量输入到预先构建的深度自编码网络中进行压缩降维处理，以获取每一测试URL样本对应的二维向量；

第三获取模块，用于利用二维坐标系对每一测试URL样本对应的二维向量进行可视化操作以获取可视化的测试URL样本；

聚类模块，用于利用K-means算法对全部的可视化的测试URL样本进行聚类分析，以将测试URL样本集分成第一类URL集和第二类URL集；

确定模块，用于比较第一类URL集和所述第二类URL集的样本量的大小，将样本量大的URL集确定为正常URL集，将样本量小的URL集确定为异常URL集。

如上所述的装置，所述第一获取模块包括第一单元和第二单元；

所述第一单元，用于利用二元语法模型对测试URL样本集进行预处理，获取每一测试URL样本对应的二元序列；

所述第二单元，用于利用one-hot编码机制对测试URL样本集中的每一测试URL样本对应的二元序列进行编码，以获取每一测试URL样本对应的高维向量。

如上所述的装置，所述第一获取模块，还用于利用二元语法模型对训练URL样本集进行预处理，获取每一训练URL样本对应的序列，其中，所述训练URL样本集包括至少一个训练URL样本；利用one-hot编码机制对训练URL样本集中的每一训练URL样本对应的序列进行编码，以获取每一训练URL样本对应的高维向量；

所述装置还包括：

构建模块，用于基于预设算法对各个训练URL样本对应的高维向量进行训练，构建深度自编码网络。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中，

图1为本发明一实施例的基于one-hot编码机制的无监督异常访问检测方法的流程示意图；

图2为本发明又一实施例的基于one-hot编码机制的无监督异常访问检测方法的流程示意图；

图3为本发明另一实施例的基于one-hot编码机制的无监督异常访问检测方法的流程示意图；

图4为本发明一实施例的基于one-hot编码机制的无监督异常访问检测装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于one-hot编码机制的无监督异常访问检测方法及装置。

图1为本发明一实施例的基于one-hot编码机制的无监督异常访问检测方法的流程示意图。

如图1所示，本实施例提供的基于one-hot编码机制的无监督异常访问检测方法，包括以下步骤：

S101、利用one-hot编码机制对测试URL样本集中的每一测试URL样本进行编码，以获取每一测试URL样本对应的高维向量，其中，所述测试URL样本集包括至少一个测试URL样本。

具体地，本实施例中测试URL样本可以理解为待访问的URL，测试URL样本集既可能包括正常的URL，也可能包括异常的URL，因此，需要对测试URL样本集即多个待访问的URL进行区分，准确检测出异常的URL，从而避免异常访问，规避恶意访问所带来的危害。

本实施例利用one-hot编码(独热编码，又称一位有效编码)机制对每一测试URL样本进行编码，将每一测试URL样本进行向量化，这样就可以将测试URL样本输入到深度自编码网络进行分析处理，便于后续准确地检测出异常的URL。

在一种可能的实现方式中，步骤S101具体的实现方式为：

S11、利用二元语法模型对测试URL样本集进行预处理，获取每一测试URL样本对应的序列。

具体地，二元语法模型是自然语言处理中用来确定词与词之间相关程度的模型，这里使用二元语法模型的基本概念，即以2个字符为一组，以1为步长组成序列。以URL为“http://www.baidu.com”为例，经过二元语法模型预处理之后，其对应的序列如下：

{ht tt tp p::////w ww ww w..b ba ai id du u..c co om}。

举例来说，对以2个字符为一组的二元组合，由于每一位都有256中可能(包括ASCII表中的128种字符和ASCII扩展表中的128种字符)，所以可能的组合有256*256＝65536种二元组合，列举部分的二元组合如下：

S12、利用one-hot编码机制对测试URL样本集中的每一测试URL样本对应的序列进行编码，以获取每一测试URL样本对应的高维向量。

具体地，上述二元组合中的元素如果在测试URL样本经过步骤S11的二元语法模型预处理得到的序列中出现过，则在经过one-hot编码机制编码后，对应位置为1。比如，ba和.b在“http://www.baidu.com”经过二元语法模型预处理得到的序列{ht tt tp p::////www ww w..b ba ai id du u..c co om}中出现过，则将其对应的位置为1。对于在序列中没有出现过的元素，在经过one-hot编码机制编码后，对应位置为0。比如，00，01，a.，a/，bb，b.，b/等在“http://www.baidu.com”经过二元语法模型预处理得到的序列{ht tt tpp::////w ww ww w..b ba ai id du u..c co om}中没有出现过元素，在经过one-hot编码机制后，对应位都置为0。最终，得到了如下的由0和1组成的长度为65536的二值向量，显然，所得到的二值向量为高维向量。

S102、将每一测试URL样本对应的高维向量输入到预先构建的深度自编码网络中进行压缩降维处理，以获取每一测试URL样本对应的二维向量。

在本实施例中，预先构建的深度自编码网络是深度学习中的一种无监督生成模型，其组成元素由输入层、输出层和多层隐层构成，按作用可将其结构分为编码网络和解码网络。编码网络用于数据降维，将高维数据压缩为低维数据；解码网络用于重建，从压缩的低维数据中重建高维数据。

具体地，经过one-hot编码机制编码处理得到的向量化的测试URL样本输入到深度自编码网络中，使用其中的编码网络对向量化的测试URL样本进行压缩降维处理，得到测试URL样本的二维向量。

S103、利用二维坐标系对每一测试URL样本对应的二维向量进行可视化操作以获取可视化的测试URL样本。

具体地，本实施例中的测试URL样本的二维向量可以理解为测试URL样本的两个神经元，分别以这两个神经元为x坐标轴和y坐标轴的值，进行可视化。其中，二维坐标系由x坐标轴和y坐标轴组成。

S104、利用K-means算法对全部的可视化的测试URL样本进行聚类分析，以将测试URL样本集分成第一类URL集和第二类URL集。

S105、比较第一类URL集和所述第二类URL集的样本量的大小，将样本量大的URL集确定为正常URL集，将样本量小的URL集确定为异常URL集。

在本实施例中，K-means算法(K均值算法)是一种自下而上的聚类算法，也是无监督学习，通过K-means算法将测试URL样本集分成第一类URL集和第二类URL集，由于测试URL样本集中大部分为正常URL，且正常的URL的特点大多类似；而异常的URL较少，且各有各的不同，所以聚类后，样本大而密集的聚类为正常URL，反之，样本量小而分散的聚类为异常URL。在本实施例中，测试URL样本经检测为正常的URL都纳入正常URL集中，测试URL样本经检测为异常的URL都纳入异常URL集中，进而实现了待访问的URL进行区分，准确检测出异常的URL，从而避免异常访问，规避恶意访问所带来的危害。

本实施例提供的基于one-hot编码机制的无监督异常访问检测方法，包括：利用one-hot编码机制对测试URL样本集中的每一测试URL样本进行编码，以获取每一测试URL样本对应的高维向量，其中，所述测试URL样本集包括至少一个测试URL样本；将每一测试URL样本对应的高维向量输入到预先构建的深度自编码网络中进行压缩降维处理，以获取每一测试URL样本对应的二维向量；利用二维坐标系对每一测试URL样本对应的二维向量进行可视化操作以获取可视化的测试URL样本；利用K-means算法对全部的可视化的测试URL样本进行聚类分析，以将测试URL样本集分成第一类URL集和第二类URL集；比较第一类URL集和所述第二类URL集的样本量的大小，将样本量大的URL集确定为正常URL集，将样本量小的URL集确定为异常URL集。该方法能够在异常URL的特征未知的前提下，利用二元语法模型、one-hot编码机制以及深度自编码网络，准确检测出异常URL，从而避免异常访问，规避恶意访问所带来的危害。此外，解决了固定规则难以准确检测异常URL的问题，具有检测精度高、鲁棒性强的特点，可以大规模应用于异常访问检测、异常流量检测等下一代互联网网络安全技术领域。通过无监督学习，能够在异常URL特征不明确并且异常样本非常少的情况下，准确识别异常URL。并且，深度自编码网络的训练阶段可以离线完成，在深度自编码网络建立完成之后，检测速度非常快，大大提高了异常访问的检测效率。

图2为本发明又一实施例的基于one-hot编码机制的无监督异常访问检测方法的流程示意图。本实施例主要是对上述实施例中的“利用K-means算法对全部的可视化的测试URL样本进行聚类分析，以将测试URL样本集分成第一类URL集和第二类URL集”进行优化。

如图2所示，本实施例提供的基于one-hot编码机制的无监督异常访问检测方法，包括以下步骤：

S201、在全部的可视化的测试URL样本中选取两个可视化的测试URL样本，将选取的其中一个可视化的测试URL样本作为第一质心和将选取的另一个可视化的测试URL样本作为第二质心。

举例来说，全部的可视化的测试URL样本的数量为500个，在500个中选出两个可视化的测试URL样本，将选出的其中一个作为第一质心，将选出的另一个作为第二质心，这里可以将第一质心和第二质心理解成两种类别的测试URL样本。

S202、对未选取的每一可视化的测试URL样本，计算该可视化的测试URL样本与第一质心之间的第一距离及该可视化的测试URL样本与第二质心之间的第二距离。

S203、比较第一距离和第二距离的大小，将距离小的对应的质心所属类别确定为该可视化的测试URL样本所属类别。

举例来说，在选出第一质心和第二质心后，接着对剩下的498个测试URL样本进行聚类分析，也就是，确定剩下的498个测试URL样本哪些可以归为第一质心所属类别，哪些可以归为第二质心所属类别。

在本实施例中，每个测试URL样本都在二维坐标系中进行了坐标可视化，这样，“剩下的498个测试URL样本进行聚类分析”变成了在坐标系中计算两个点之间的距离。即对498个测试URL样本中的每一个测试URL样本，不难计算每一个测试URL样本与第一质心之间的第一距离，也不难计算每一个测试URL样本与第二质心之间的第二距离。

具体地，根据如下公式计算第一距离和第二距离：

其中，x⁽ⁱ⁾为第i个测试URL样本；μ_j为第j个质心，j为1或2；k⁽ⁱ⁾为第i个样本所属的类别，计算方法为取测试URL样本与质心之间距离最小的类别为当前测试URL样本所属类别。

S204、将对应与第一质心所属类别的各个可视化的测试URL样本划入第一类URL集，将对应与第二质心所属类别的各个可视化的测试URL样本划入第二类URL集。

举例来说，若498个测试URL样本中的某个测试URL样本，其与第一质心的第一距离小于其与第二质心的第二距离，这时，确定该测试URL样本所属的类别同第一质心所属的类别；反之，确定该测试URL样本所属的类别同第二质心所属的类别。这样，就可以将498个测试URL样本分为测试URL样本所属的类别同第一质心所属的类别和测试URL样本所属的类别同第二质心所属的类别两个类，实现了对全部的测试URL样本的聚类分析，即全部的测试URL样本被划分为第一类URL集和第二类URL集两大类。

本实施例提供的基于one-hot编码机制的无监督异常访问检测方法，通过比较测试URL样本分别与第一质心、第二质心的距离大小，确定各个测试URL样本所属的类别是同第一质心所属的类别和还是同第二质心所属的类别，进而实现了对全部的测试URL样本进行聚类分析，该方法成本低、准确性高、鲁棒性强，能够高效识别特征未知的多种多样的异常URL，避免异常访问的发生。

进一步地，本实施例是对上述实施例中的“利用K-means算法对全部的可视化的测试URL样本进行聚类分析，以将测试URL样本集分成第一类URL集和第二类URL集”进行进一步地优化。具体地，“多次选取第一质心和第二质心以多次对全部的测试URL样本进行聚类分析”的具体的实现方式，包括以下步骤：

S21、进行至少一轮在全部的可视化的测试URL样本中选取两个可视化的测试URL样本以及将选取的其中一个作为第一质心和将选取的另一个作为第二质心，执行步骤S22。

S22、针对本轮，获取上一轮的第一质心和第二质心；判断本轮的第一质心与上一轮的第一质心的类别是否相同以及判断本轮的第二质心与上一轮的第二质心的类别是否相同，执行步骤S23或执行步骤S28。

S23、若均不相同，对本轮中未选取的每一可视化的测试URL样本，计算该可视化的测试URL样本与本轮的第一质心之间的本轮的第一距离及该可视化的测试URL样本与本轮的第二质心之间的本轮的第二距离，执行步骤S24。

S24、比较本轮的第一距离和本轮的第二距离的大小，将距离小的对应的质心所属类别确定为本轮中该可视化的测试URL样本所属类别，执行步骤S25；

S25、将对应与本轮的第一质心所属类别的各个可视化的测试URL样本划入本轮的第一类URL集，将对应与本轮的第二质心所属类别的各个可视化的测试URL样本划入本轮的第二类URL集，执行步骤S26。

S26、比较本轮的第一距离和本轮的第二距离的大小，将距离小的对应的质心所属类别确定为本轮中该可视化的测试URL样本所属类别，执行步骤S27。

S27、将对应与本轮的第一质心所属类别的各个可视化的测试URL样本划入本轮的第一类URL集，将对应与本轮的第二质心所属类别的各个可视化的测试URL样本划入本轮的第二类URL集。

S28、若均相同，将上一轮的第一类URL集确定为最终的第一类URL集，将上一轮的第二类URL集确定为最终的第二类URL集。

具体地，在本实施例中，在当步骤S22中判断本轮的第一质心与上一轮的第一质心的类别不相同以及判断本轮的第二质心与上一轮的第二质心的类别不相同时，步骤S23至步骤S27对应的是进行再一次的对全部的测试URL样本进行聚类分析。在当步骤S22判断本轮的第一质心与上一轮的第一质心的类别相同以及判断本轮的第二质心与上一轮的第二质心的类别相同时，则终止进行再一次的对全部的测试URL样本进行聚类分析，这时，将上一轮的第一类URL集确定为最终的第一类URL集，将上一轮的第二类URL集确定为最终的第二类URL集。

在本实施例中，多次选取第一质心和第二质心，以及多次对全部的测试URL样本进行聚类分析，直至所选取的第一质心和第二质心不再变化，该方法能够更加高效识别特征未知的多种多样的异常URL，更好地避免异常访问的发生。

图3为本发明另一实施例的基于one-hot编码机制的无监督异常访问检测方法的流程示意图。在上述实施例的基础上，本实施例对如何构建深度自编码网络进行优化。

如图3所示，本实施例提供的基于one-hot编码机制的无监督异常访问检测方法，包括以下步骤：

S301、利用二元语法模型对训练URL样本集进行预处理，获取每一训练URL样本对应的序列，其中，所述训练URL样本集包括至少一个训练URL样本。

S302、利用one-hot编码机制对训练URL样本集中的每一训练URL样本对应的序列进行编码，以获取每一训练URL样本对应的高维向量。

本实施例中的步骤S301、步骤S302的具体实现方式可以参见上述实施例中的步骤S101的实现方式，在此不再赘述。

S303、基于预设算法对各个训练URL样本对应的高维向量进行训练，构建深度自编码网络。

具体地，深度自编码网络是深度学习中的一种无监督生成模型，其组成元素由输入层、输出层和多层隐层构成，按作用可将其结构分为编码网络和解码网络。编码网络用于数据降维，将高维数据压缩为低维数据；解码网络用于重建，从压缩的低维数据中重建高维数据。

本实施例中深度自编码网络科可包括：输入层、输出层和至少一层的隐层。

将训练URL样本的二值向量作为深度自编码网络的输入向量，使用整个深度自编码网络的生成作用重建输入，由于深度自编码网络是基于全连接的结构搭建的，所以深度自编码第hi个隐层的神经元可以表示为：

y_hi＝f(WX+B)

其中，

为前一层的输出向量，m为其神经元数量；

为权重矩阵，n为第hi个隐层的神经元数量；为偏置；y_hi为第hi个隐层的输出；f为Rectified LinearUnits激活函数。可选地，f定义为：f＝max(0，x)。需要指出的是，当hi＝1时，X为输入向量，即步骤S302中各个训练URL样本对应的高维向量。

优选地，预设算法为最小化损失函数，其定义为输入向量与通过深度自编码得到的重建之间的误差，其定义为：

其中，N为输入向量对应的样本量，y_i为输入向量，y_i'为深度自编码网络的重建，最小损失函数为二者的均方误差。需要指出的是，y_i为输入向量可以理解为步骤S302中各个训练URL样本对应的高维向量，举例来说，训练URL样本集的样本量为100个，则N为100。

本实施例提供的基于one-hot编码机制的无监督异常访问检测方法，利用二元语法模型对训练URL样本集进行预处理，获取每一训练URL样本对应的序列，其中，所述训练URL样本集包括至少一个训练URL样本。利用one-hot编码机制对训练URL样本集中的每一训练URL样本对应的序列进行编码，以获取每一训练URL样本对应的高维向量。基于预设算法对各个训练URL样本对应的高维向量进行训练，构建深度自编码网络。该方法可以提前训练好深度自编码网络，这样，当后续对异常URL检测时，只需要根据训练好的深度自编码网络的编码部分对预处理后的高维向量进行压缩，然后通过坐标系可视化进行聚类分析，识别异常URL。该方法计算开销小、准确性高、鲁棒性强，能够高效识别特征未知的多种多样的异常URL，避免异常访问的发生。

如图4所示，本实施例提供的基于one-hot编码机制的无监督异常访问检测装置，包括：

第一获取模块1，用于利用one-hot编码机制对测试URL样本集中的每一测试URL样本进行编码，以获取每一测试URL样本对应的高维向量，其中，所述测试URL样本集包括至少一个测试URL样本；

第二获取模块2，用于将每一测试URL样本对应的高维向量输入到预先构建的深度自编码网络中进行压缩降维处理，以获取每一测试URL样本对应的二维向量；

第三获取模块3，用于利用二维坐标系对每一测试URL样本对应的二维向量进行可视化操作以获取可视化的测试URL样本；

聚类模块4，用于利用K-means算法对全部的可视化的测试URL样本进行聚类分析，以将测试URL样本集分成第一类URL集和第二类URL集；

确定模块5，用于比较第一类URL集和所述第二类URL集的样本量的大小，将样本量大的URL集确定为正常URL集，将样本量小的URL集确定为异常URL集。

进一步地，所述第一获取模块1包括第一单元和第二单元；

进一步地，所述第一获取模块1，还用于利用二元语法模型对训练URL样本集进行预处理，获取每一训练URL样本对应的序列，其中，所述训练URL样本集包括至少一个训练URL样本；利用one-hot编码机制对训练URL样本集中的每一训练URL样本对应的序列进行编码，以获取每一训练URL样本对应的高维向量；

所述装置还包括：

关于本实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本实施例提供的基于one-hot编码机制的无监督异常访问检测装置，通过利用one-hot编码机制对测试URL样本集中的每一测试URL样本进行编码，以获取每一测试URL样本对应的高维向量，其中，所述测试URL样本集包括至少一个测试URL样本；将每一测试URL样本对应的高维向量输入到预先构建的深度自编码网络中进行压缩降维处理，以获取每一测试URL样本对应的二维向量；利用二维坐标系对每一测试URL样本对应的二维向量进行可视化操作以获取可视化的测试URL样本；利用K-means算法对全部的可视化的测试URL样本进行聚类分析，以将测试URL样本集分成第一类URL集和第二类URL集；比较第一类URL集和所述第二类URL集的样本量的大小，将样本量大的URL集确定为正常URL集，将样本量小的URL集确定为异常URL集。该装置能够在异常URL的特征未知的前提下，利用二元语法模型、one-hot编码机制以及深度自编码网络，准确检测出异常URL，从而避免异常访问，规避恶意访问所带来的危害。此外，解决了固定规则难以准确检测异常URL的问题，具有检测精度高、鲁棒性强的特点，可以大规模应用于异常访问检测、异常流量检测等下一代互联网网络安全技术领域。通过无监督学习，能够在异常URL特征不明确并且异常样本非常少的情况下，准确识别异常URL。并且，深度自编码网络的训练阶段可以离线完成，在深度自编码网络建立完成之后，检测速度非常快，大大提高了异常访问的检测效率。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于one-hot编码机制的无监督异常访问检测方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述利用one-hot编码机制对测试URL样本集中的每一测试URL样本进行编码，以获取每一测试URL样本对应的高维向量，包括：

3.如权利要求1所述的方法，其特征在于，所述利用K-means算法对全部的可视化的测试URL样本进行聚类分析，以将测试URL样本集分成第一类URL集和第二类URL集，包括：

4.如权利要求3所述的方法，其特征在于，

所述在全部的可视化的测试URL样本中选取两个可视化的测试URL样本以及将选取的其中一个作为第一质心和将选取的另一个作为第二质心，包括：

针对本轮，获取上一轮的第一质心和第二质心；

5.如权利要求1所述的方法，其特征在于，在利用one-hot编码机制对测试URL样本集中的每一测试URL样本进行编码，以获取每一测试URL样本对应的高维向量之前，还包括：

6.如权利要求5所述的方法，其特征在于，所述深度自编码网络包括：

输入层、输出层和至少一层的隐层；

其中，第hi个隐层的神经元表示为：

y_hi＝f(WX+B)

其中，X∈R^m*1为前一层的输出向量；m为其神经元数量；W∈R^n*m为权重矩阵，n为第hi个隐层的神经元数量；B∈R^n*1为偏置；y_hi为第hi个隐层的输出；f为Rectified Linear Units激活函数。

7.如权利要求5所述的方法，其特征在于，所述预设算法为最小化损失函数。

8.一种基于one-hot编码机制的无监督异常访问检测装置，其特征在于，包括：

9.如权利要求8所述的装置，其特征在于，所述第一获取模块包括第一单元和第二单元；

10.如权利要求9所述的装置，其特征在于，

所述第一获取模块，还用于利用二元语法模型对训练URL样本集进行预处理，获取每一训练URL样本对应的序列，其中，所述训练URL样本集包括至少一个训练URL样本；利用one-hot编码机制对训练URL样本集中的每一训练URL样本对应的序列进行编码，以获取每一训练URL样本对应的高维向量；

所述装置还包括：