CN111277603B

CN111277603B - 无监督异常检测系统和方法

Info

Publication number: CN111277603B
Application number: CN202010079208.2A
Authority: CN
Inventors: 韩科; 谭天
Original assignee: Hangzhou DPTech Technologies Co Ltd
Current assignee: Hangzhou DPTech Technologies Co Ltd
Priority date: 2020-02-03
Filing date: 2020-02-03
Publication date: 2021-11-19
Anticipated expiration: 2040-02-03
Also published as: CN111277603A

Abstract

本公开提供一种无监督异常检测系统和方法。该系统具有第一操作模式和第二操作模式并且包括http请求日志数据库、http请求接收装置、参数值异常检测模块、参数序列异常检测模块、常请求参数记录数据库以及报警装置，其中所述http请求日志数据库存在web服务器的过往正常HTTP请求日志；其中在所述第一种操作模式下，所述http请求接收装置获取特定Web服务器的过往正常HTTP请求日志，所述参数值异常检测模块基于带存储模块的变分自编码器进行训练，而所述参数序列异常检测模块对用户请求包含的输入参数类型与请求时间间隔的序列进行泛化表示，然后通过LSTM进行训练，以便用来进行识别异常http请求。

Description

无监督异常检测系统和方法

技术领域

本公开涉及无监督异常检测系统和方法，尤其涉及采用端到端的深度学习方式来进行无监督异常检测的系统和方法。

背景技术

在Web攻击中，用户的输入成为攻击者突破的载体，而对于不同的应用，正常用户输入往往相同，异常请求则与正常请求存在模式上的差别。同时由于标签数据的匮乏，有监督等分类算法难以在实践中应用，因此采取无监督深度学习，尽可能地通过端到端的方式来解决用户输入的HTTP参数异常的问题。

一些方法采取人工构造特征加上机器学习的方式来进行HTTP参数异常检测，包括使用one-class SVM、iforest、KNN等算法。例如，方勇、刘亮等人的文献“一种基于机器学习的Web入侵检测技术”，卢康、刘亮等人的文献“Web攻击检测方法及装置”，方勇、黄诚等人的文献“一种基于语义分析的 Web威胁感知系统”就是采用这样的检测技术。这种十分依赖于人工的特征工程，如果构造的特征不够好的话，相当于损失了较多的原始信息。

也有一些方案使用变分自编码器或隐马尔科夫链根据重构概率来进行网络流量异常检测，如A.拉马尔、M.汉泽尔曼等人的文献“用于识别通信网络的数据流中的异常的方法和设备”，邹福泰、张庆儒等人的文献“一种基于机器学习的WEB恶意请求深度检测系统及方法”。在这种技术中，隐马尔科夫链由于结构特征导致其只能捕捉相邻参数字符之间的依赖，无法捕捉整体上字符之间的关系。同时，隐马尔科夫链和变分自编码器没有针对降低异常样本的重构概率采取措施。尽管理论上生成模型学习正常序列后，对异常样本的平均重构概率与随机字符串接近，都低于正常序列的重构概率，实际中，生成模型有时会由于过度“泛化”导致其对异常样本也有较高的重构概率，使得正常样本和异常样本难以区分。

上述两种技术方案都是基于单个请求来进行异常检测。还有一些方案将用户的一定时间内的输入当做序列，并联合多个请求特征来进行HTTP参数异常检测，如陈继安、文立乾等人的文献“一种基于大数据日志分析的网站入侵检测方法”。在这种技术中，只是简单的根据日志中的HTTP请求的IP相关的特征通过人工规则进行分类，不具有自适应学习的特征，难以应对复杂多变的网络环境。

因此，需要一种采用端到端的深度学习方式来进行无监督异常检测的技术方案，它不仅从单个请求的角度来对用户的异常输入进行分析，同时结合用户输入的多个请求的参数序列，对可能存在的行为模式异常进行检测。

发明内容

本公开就是解决上述技术问题的方案，它采用端到端的深度学习方式来进行无监督异常检测，既能从单个请求的角度来对用户的异常输入进行分析，又能结合用户输入的多个请求的参数序列，对可能存在的行为模式异常进行检测。

根据本公开的一个方面，提供一种无监督异常检测系统，其具有自动或手动切换的第一操作模式和第二操作模式，所述系统包括http请求日志数据库、http请求接收装置、参数值异常检测模块、参数序列异常检测模块、常请求参数记录数据库以及报警装置，其中所述http请求日志数据库存在web 服务器的过往正常HTTP请求日志；其中在所述第一种操作模式下，所述http 请求接收装置获取特定Web服务器的过往正常HTTP请求日志，所述参数值异常检测模块基于带存储模块的变分自编码器进行训练，而所述参数序列异常检测模块对用户请求包含的输入参数类型与请求时间间隔的序列进行泛化表示，然后通过LSTM进行训练，以便用来进行识别异常http请求，并且其中在所述第二种操作模式下，所述http请求接收装置将接收到的每个当前 HTTP请求先转发给所述参数值异常检测模块以便检测当前HTTP请求的参数值是否正常，并且若检测到所述http请求为异常请求，则为发送该http请求的用户创建一个缓存块，用以储存可能到来的后续http请求，如果该用户存在后续http请求，则对特定时间内不超过一定数量的后续请求进行预处理，而如果后续http请求中，异常http请求超过一定比例，则直接通过所述报警装置发出告警；否则，将http请求的序列进行预处理，转送到所述参数序列异常检测模块中，如果其检测结果为异常，则通过所述报警装置发出告警，并且其中在没有后续http请求或是所述参数序列异常检测模块检测结果为正常的情况下，将该参数异常值保存在所述常请求参数记录数据库中，以便后续进一步分析。

根据本公开的一个实施例，所述参数值异常检测模块包括：字符串泛化/ 向量嵌入预处理部分，用于接收http请求的字符串，对该字符串中可能发生参数异常的字符进行提取，对每一个字符进行泛化处理，将经过字符串泛化/ 向量嵌入预处理部分的字符串形成一维向量，并进行三维或两维的词嵌入来生成向量化字符串；变分自编码器，用于利用该向量化字符串来进行http请求重构；隐变量矩阵保存与稀疏部分，用于基于可训练的N*c维矩阵形式的隐变量来重构带约束隐变量，以增加异常变量的重构难度；解码器，用于将带约束隐变量映射成为L*13的向量，其中13个维度表明当前字符位置重构为泛化后的13个字符类型的概率；以及重构概率计算与判断部分，用于将解码器所输出的概率作为重构概率，通过交叉熵损失函数来计算整个序列的重构损失，并根据重构损失来判断参数值是否出现异常。

根据本公开的一个实施例，所述字符串泛化/向量嵌入预处理部分包括：字符串泛化部分，用于接收每个字符串并根据预定泛化规则对接收到的每一个字符进行泛化处理，以减少输入的维度；以及向量嵌入预处理部分，将经过字符串泛化部分处理后的字符串中的每个字符映射成长度为L的一个一维向量，并对所得到的一维向量进行三维或两维的词嵌入来生成向量化字符串，以便后续神经网络优化。

根据本公开的一个实施例，所述变分自编码器采用分组卷积的浅层神经网络以便高效地提取特征，并将所接收到的向量化字符串映射成两个c维隐变量，这两个c维隐变量分别代表向量化字符串的方差σ和均值u，其中所述隐变量根据标准的重采样方法从标准正态分布中采样并生成。

根据本公开的一个实施例，所述隐变量矩阵保存与稀疏部分用于增加异常变量的重构难度，所述隐变量矩阵保存与稀疏部分包括：矩阵存储单元，用于每一个隐变量作为一个行向量、以可训练的N*c维矩阵的形式保存隐变量，其中N为预设值，c为隐变量的维数；隐变量稀疏器，用于对该N*c维矩阵中的每一个行向量Ci，i＝1，2，……，N计算其与隐变量的余弦相似度 Di，根据公式

来计算N*c维矩阵中的每个行向量在重构新的隐变量时的权重来得到权重向量，并将权重向量中小于一定阈值的值设置0以得到稀疏的权重向量；以及 L1范数归一化器，用于对稀疏权重向量通过L1范数归一化处理，并与未处理N*c维矩阵进行矩阵乘法来重构带约束隐变量。

根据本公开的一个实施例，当所述参数值异常检测模块检测到参数值出现异常时，所述参数值异常检测模块从该异常请求开始，在后续一段时间内，收集并存储来自同一用户的其他请求，直到请求数目达到设定上限L，或是超出指定时间间隔T，若所收集的http请求中判别为异常的请求数目超过设定的百分比阈值时，则由报警装置直接进行告警。

根据本公开的一个实施例，若所收集的http请求中判别为异常的请求数目不超过设定的百分比阈值，所述参数序列异常检测模块计算LSTM对应的重构概率，并根据该概率判断参数序列是否异常，若判断参数序列正常则直接结束进程，而若判断参数序列出现异常则发出告警后结束进程。

根据本公开的另一方面，提供一种无监督异常检测模型的训练方法，包括以下步骤：读取特定Web应用服务器过往的正常HTTP请求日志以获取http 请求的字符串，来分别通过LSTM训练参数值异常检测模型和参数序列异常检测模型；将http请求的字符串输入参数值异常检测模型，以便对该字符串中可能发生参数异常的字符进行提取；对所接收到的每一个字符串按照预定泛化规则进行泛化处理，以减少输入的维度；将经过字符串泛化处理后的字符串中的每个字符映射成长度为L的一个一维向量，并对所得到的一维向量进行三维或两维的词嵌入来生成向量化字符串，以便后续神经网络优化；采用分组卷积的浅层神经网络提取向量化字符串的特征，并将向量化字符串映射成两个c维隐变量，这两个c维隐变量分别代表向量化字符串的方差σ和均值u；以可训练的N*c维矩阵的形式保存隐变量，其中N为预设值，c为隐变量的维数，每一个隐变量作为可训练的N*c维矩阵的一个行向量；对该 N*c维矩阵中的每一个行向量Ci，i＝1，2，……，N，计算其与隐变量的余弦相似度Di；根据下面公式

来计算所接收到的N*c维矩阵中的每个行向量在重构新的隐变量时的权重，得到权重向量；将权重向量中小于一定阈值的值设置成0，以得到稀疏的权重向量；对所得到的稀疏权重向量通过L1范数归一化处理，并与所保存的未处理N*c维矩阵进行矩阵乘法来重构生成带约束隐变量并以N*c维矩阵形式保存带约束隐变量备用；利用逆卷积网络或全连接网络将带约束隐变量映射成为L*13的向量，其中13个维度表明当前字符位置重构为泛化后的13个字符类型的概率；将该概率作为重构概率，通过交叉熵损失函数来计算整个序列的重构损失，并根据重构损失来判断参数值是否正常；当判断为参数值正常时进程结束处理，而当判断为参数值出现异常时，收集并存储从该异常请求开始，在后续一段时间内来自同一用户的其他请求，直到请求数目达到设定上限L，或是超出指定时间间隔T，如果所收集的一系列请求中判别为异常的请求数目超过设定的百分比阈值，则直接进行告警；若所收集的一系列请求中判别为异常的请求数目不超过设定的百分比阈值，则对用户请求包含的输入参数类型与请求时间间隔的序列进行泛化表示，然后通过LSTM对参数序列异常检测模型进行训练。

根据本公开的一个实施例，通过LSTM对参数序列异常检测模型进行训练的步骤包括：利用参数序列异常检测模型将来源于同一用户登录系统的http 请求进行比较，记录下与其前一个值相比发生变化的参数值所对应的参数ID 来形成参数序列，然后引入请求时间间隔并将所生成的序列进行泛化，然后训练LSTM使其根据第0至L-1个元素重构第1-L个元素的概率尽可能大。

根据本公开的再一个方面，提供一种无监督异常检测方法，该方法包括以下步骤：获取特定Web应用服务器的http请求的字符串；将http请求的字符串输入参数值异常检测模型，以便对该字符串中可能发生参数异常的字符进行提取；对所接收到的每一个字符串按照预定泛化规则进行泛化处理，以减少输入的维度；将经过字符串泛化处理后的字符串中的每个字符映射成长度为L的一个一维向量，并对所得到的一维向量进行三维或两维的词嵌入来生成向量化字符串以便后续神经网络优化；采用分组卷积的浅层神经网络提取向量化字符串的特征，并将向量化字符串映射成两个c维隐变量，这两个c 维隐变量分别代表向量化字符串的方差σ和均值u；以N*c维矩阵的形式保存隐变量，其中N为预设值，c为隐变量的维数，每一个隐变量作为N*c维矩阵的一个行向量；对该N*c维矩阵中的每一个行向量Ci，i＝1，2，……， N，计算其与隐变量的余弦相似度Di；根据下面公式

来计算所接收到的N*c维矩阵中的每个行向量在重构新的隐变量时的权重，得到权重向量；对于权重向量中小于一定阈值(通常设为2/N)的值将其置0，得到稀疏的权重向量；对所得到的稀疏权重向量通过L1范数归一化处理，并与所保存的未处理N*c维矩阵进行矩阵乘法来重构生成带约束隐变量并以 N*c维矩阵形式保存带约束隐变量备用；利用逆卷积网络或全连接网络将带约束隐变量映射成为L*13的向量，其中13个维度表明当前字符位置重构为泛化后的13个字符类型的概率；将该概率作为重构概率，通过交叉熵损失函数来计算整个序列的重构损失，并根据重构损失来判断参数值是否出现异常；当没有检测到参数值异常时结束进程，而当检测到参数值出现异常时，收集并存储从该异常请求开始，在后续一段时间内，直到请求数目达到设定上限 L，或是超出指定时间间隔T，来自同一用户的其他请求，并判断收集到的一系列请求中被判别为异常的请求数目是否超过设定的百分比阈值，若超过了则直接发出告警；收集到的一系列请求中被判别为异常的请求数目不超过设定的百分比阈值，则利用训练好的参数序列异常检测模型计算LSTM对应的重构概率，然后根据该概率判断参数序列是否异常，若判断参数序列正常则直接结束进程，而若判断参数序列出现异常则发出告警后结束进程。

本公开的无监督异常检测系统和方法基于无监督学习算法，不需要人工进行数据标注，只需要过往的HTTP日志数据即可，由于两个检测模块的核心神经网络本身对不平衡样本中多样样本的偏好，即使过往日志中混有少量攻击或是异常请求也不会太影响模型性能。同时基于端到端的学习方式，不需要专家设计特征，也能够更好的从原始数据获得完整的信息，提高检测准确率和普适性。同时本公开从参数值和参数序列两个方面对HTTP请求参数进行检测，避免单一模型的误报率和漏报率高的问题。

附图说明

通过结合附图对于本公开的示例性实施例进行描述，可以更好地理解本公开，在附图中：

图1是根据本公开的采用端到端的深度学习方式来进行无监督异常检测的系统的框图；

图2是根据本公开的采用端到端的深度学习方式来进行无监督异常检测的系统中的参数值异常检测模块的框图；

图3是根据本公开的一个实施例的字符串泛化/向量嵌入预处理部分的一个示例；

图4是示出图2所示的隐变量矩阵保存与稀疏部分的详细框图；

图5是根据本公开的采用端到端的深度学习方式的无监督异常检测模型的训练方法的流程图；

图6图示了根据本公开的一个实施例的训练参数值异常检测模型的方法的流程图；

图7是根据本公开的采用端到端的深度学习方式的无监督异常检测方法的流程图；以及

图8图示了根据本公开的一个实施例的利用训练好的参数值异常检测模型检测参数值异常的方法的流程图。

具体实施方式

以下将描述本公开的具体实施方式，需要指出的是，在这些实施方式的具体描述过程中，为了进行简明扼要的描述，本说明书不可能对实际的实施方式的所有特征均作详尽的描述。应当可以理解的是，在任意一种实施方式的实际实施过程中，正如在任意一个工程项目或者设计项目的过程中，为了实现开发者的具体目标，为了满足系统相关的或者商业相关的限制，常常会做出各种各样的具体决策，而这也会从一种实施方式到另一种实施方式之间发生改变。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本公开公开的内容相关的本领域的普通技术人员而言，在本公开揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本公开的内容不充分。

除非另作定义，权利要求书和说明书中使用的技术术语或者科学术语应当为本公开所属技术领域内具有一般技能的人士所理解的通常意义。本公开专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“一个”或者“一”等类似词语并不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的元件或者物件及其等同元件，并不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，也不限于是直接的还是间接的连接。

图1是根据本公开的采用端到端的深度学习方式来进行无监督异常检测的系统100的框图。该系统100包括http请求接收装置110、http请求日志数据库120、参数值异常检测模块130、参数序列异常检测模块140、常请求参数记录数据库150、报警装置160。

该系统100有以下两种操作模式，该系统100可以在这两种操作模式下自动或手动切换。在系统100的第一种操作模式下，http请求接收装置110 从http请求日志数据库120中读取特定Web应用服务器(未示出)过往的正常HTTP请求日志，而在第二种操作模式下获取特定Web应用服务器(未示出)的当前HTTP请求。

在系统100的第一种操作模式下，参数值异常检测模块130基于带存储模块的变分自编码器进行训练，而参数序列异常检测模块140对用户请求包含的输入参数类型与请求时间间隔的序列进行泛化表示，然后通过LSTM进行训练。

通过学习正常http请求日志(模式)来进行识别异常http请求。同时，两个检测模块都可以隔一段时间在http请求日志数据库120上重新进行训练，以应对可能发生变化的Web应用业务。

在系统100的第二种操作模式下，http请求接收装置110将接收到的每个当前HTTP请求先转发给参数值异常检测模块130以便检测当前HTTP请求的参数值是否正常。如果该参数值异常检测模块130检测到http请求为异常请求，则为发送该请求的用户创建一个缓存块，用以储存可能到来的后续请求。如果该用户存在后续请求，对特定时间内不超过一定数量的后续请求进行预处理，如果后续请求中，经过参数值异常检测模块130的异常请求超过一定比例，则直接通过报警装置160发出告警；否则，将请求的序列进行预处理，转送到参数序列异常检测模块140中，如果检测结果为异常，则通过报警装置160发出告警。在没有后续请求或是参数序列异常检测模块140 检测结果为正常的情况下，将该参数异常值保存在常请求参数记录数据库 150，以便后续进一步分析。

图2是根据本公开的采用端到端的深度学习方式来进行无监督异常检测的系统100中的参数值异常检测模块130的框图。如图所示，该参数值异常检测模块130包括字符串泛化/向量嵌入预处理部分210、变分自编码器220、隐变量矩阵保存与稀疏部分230、解码器240以及重构概率计算与判断部分 250。

如图2所示，字符串泛化/向量嵌入预处理部分210接收http请求的字符串，对该字符串中可能发生参数异常的字符进行提取，这些可能发生参数异常的字符包括但不限于url请求中的参数、HTTP头、Cookies等中的字符。然后，字符串泛化/向量嵌入预处理部分210对每一个字符进行泛化处理。

图3是根据本公开的一个实施例的字符串泛化/向量嵌入预处理部分210 的一个示例。如图3所示，该字符串泛化/向量嵌入预处理部分210包括字符串泛化部分310以及向量嵌入预处理部分320。

如图3所示，字符串泛化部分310接收每个字符串并根据预定泛化规则对接收到的每一个字符进行泛化处理，以减少输入的维度。具体来说，字符串泛化部分310按照表格1给出的泛化规则，对所接收到的每个字符串进行泛化处理。

表1

向量嵌入预处理部分320将经过字符串泛化部分310处理后的字符串中的每个字符映射成长度为L的一个一维向量，并对所得到的一维向量进行三维或两维的词嵌入(以下称为这样所得的向量为向量化字符串)以便后续神经网络优化。

再参考图2，变分自编码器220接收来自字符串泛化/向量嵌入预处理部分210的向量化字符串，以便进行http请求重构。该变分自编码器220采用分组卷积的浅层神经网络以便高效地提取特征，并将所接收到的向量化字符串映射成两个c维变量(以下将其每一个称为一个隐变量)，这两个c维隐变量分别代表向量化字符串的方差σ和均值u，其中所述隐变量可以由该变分自编码器220根据标准的重采样方法从标准正态分布中采样并生成。

图4是示出图2所示的隐变量矩阵保存与稀疏部分230的详细框图。如图4所示，该隐变量矩阵保存与稀疏部分230用于增加异常变量的重构难度，其包含矩阵存储单元410、隐变量稀疏器420以及L1范数归一化器430。

矩阵存储单元410用于以可训练的N*c维矩阵的形式保存隐变量，其中 N为预设值，c为隐变量的维数。具体来说，矩阵存储单元410以每一个隐变量作为一个行向量、以可训练的N*c维矩阵的形式来保存来自变分自编码器 220的隐变量。

隐变量稀疏器420从矩阵存储单元410中接收可训练的N*c维矩阵，并对该N*c维矩阵中的每一个行向量Ci，i＝1，2，……，N，计算其与隐变量的余弦相似度Di。然后，隐变量稀疏器420还根据下面公式

来计算所接收到的N*c维矩阵中的每个行向量在重构新的隐变量时的权重，得到权重向量。隐变量稀疏器420进一步对于权重向量中小于一定阈值(通常设为2/N)的值将其置0，得到稀疏的权重向量。从而得到一个稀疏矩阵。

L1范数归一化器430用于对隐变量稀疏器420所得到的稀疏权重向量通过L1范数归一化处理，并与保存在矩阵存储单元410中的未处理N*c维矩阵进行矩阵乘法来重构生成新的隐变量(以下称为带约束隐变量)并保存在矩阵存储单元410备用。

再参考图2，解码器240将带约束隐变量映射成为L*13的向量，该解码器可以选择逆卷积网络或是全连接网络。这里，13个维度表明当前字符位置重构为泛化后的13个字符类型的概率。然后，重构概率计算与判断部分250 将解码器240所输出的概率作为重构概率，通过交叉熵损失函数来计算整个序列的重构损失，并根据重构损失来判断参数值是否出现异常。

再回到图1中，当参数值异常检测模块130检测到参数值出现异常时，从该异常请求开始，在后续一段时间内，收集并存储来自同一用户的其他请求，直到请求数目达到设定上限L，或是超出指定时间间隔T。对于这一系列请求，如果它们经过参数值异常检测模块130时，被判别为异常的请求数目超过设定的百分比阈值(如10％)，则由报警装置160直接进行告警。否则，参数序列异常检测模块140对该序列进行如下操作(为了更好的阐述，以一个简单的例子来说明)：

假设收集到的序列来源于一个用户登录系统

Time1(00:00:00)Username＝xxxxx1&password＝yyyyyy1

Time2(00:06:00)Username＝xxxxx1&password＝yyyyyy2

Time3(00:06:04)Username＝xxxxx2&password＝yyyyyy3

参数序列异常检测模块140对每一条请求进行如下操作：

1)如果某个参数值与前一个相比发生变化，则记录该参数值对应的参数 ID,并形成序列，例如对上述例子，生成的序列为username,password,password, username,password；

2)引入请求时间间隔并将所生成的序列进行泛化，例如对上述例子，一种可能的泛化对应于表2：

表2

上述序列根据表2可以泛化为0，1，5，0，1，其中在该表2中间隔T1、T2、 T3根据网站的具体应用决定，且不局限为表2中所限定的值，而参数key则是特定web应用所有可能的参数key值。

值得注意，在训练阶段，参数序列异常检测模块140从数据集中抽取用户的参数访问序列进行1)和2)款的预处理，并训练LSTM使其根据第0 至L-1个元素重构第1-L个元素的概率尽可能大。而在检测阶段，参数序列异常检测模块140计算LSTM对应的重构概率即可判断序列是否异常。

图5是根据本公开的采用端到端的深度学习方式的无监督异常检测模型的训练方法的流程图。如图5所示，该方法在步骤S510中，读取特定Web 应用服务器(未示出)过往的正常HTTP请求日志以获取http请求的字符串，来分别通过LSTM训练参数值异常检测模型和参数序列异常检测模型。

接下来，在步骤S520中，根据所获取http请求的字符串训练参数值异常检测模型来检测参数值异常的http请求。

图6图示了根据本公开的一个实施例的步骤S520的流程图。如图6所示，在步骤S610中，将http请求的字符串输入参数值异常检测模型，以便对该字符串中可能发生参数异常的字符进行提取，这些可能发生参数异常的字符包括但不限于url请求中的参数、HTTP头、Cookies等中的字符。

在步骤S615中，对所接收到的每一个字符串按照表1给出的泛化规则进行泛化处理，以减少输入的维度。

在步骤S620中，将经过字符串泛化处理后的字符串中的每个字符映射成长度为L的一个一维向量，并对所得到的一维向量进行三维或两维的词嵌入 (以下称为这样所得的向量为向量化字符串)以便后续神经网络优化。

在步骤S625中，采用分组卷积的浅层神经网络提取向量化字符串的特征，并将向量化字符串映射成两个c维变量(以下将其每一个称为一个隐变量)，这两个c维隐变量分别代表向量化字符串的方差σ和均值u。

在步骤S630中，以可训练的N*c维矩阵的形式保存隐变量，其中N为预设值，c为隐变量的维数，每一个隐变量作为可训练的N*c维矩阵的一个行向量。

在步骤S635中，对该N*c维矩阵中的每一个行向量Ci，i＝1，2，……， N，计算其与隐变量的余弦相似度Di。

在步骤S640中，根据下面公式

来计算所接收到的N*c维矩阵中的每个行向量在重构新的隐变量时的权重，得到权重向量。

在步骤S645中，对于权重向量中小于一定阈值(通常设为2/N)的值将其置0，得到稀疏的权重向量。

在步骤S650中，对所得到的稀疏权重向量通过L1范数归一化处理，并与所保存的未处理N*c维矩阵进行矩阵乘法来重构生成新的隐变量(以下称为带约束隐变量)并以N*c维矩阵形式保存带约束隐变量备用。

在步骤S655中，利用逆卷积网络或全连接网络将带约束隐变量映射成为 L*13的向量，其中13个维度表明当前字符位置重构为泛化后的13个字符类型的概率。

在步骤S660中，将该概率作为重构概率，通过交叉熵损失函数来计算整个序列的重构损失，并根据重构损失来判断参数值是否正常。当在步骤S660 中检测到参数值正常时进程结束处理。而当在步骤S660中检测到参数值出现异常时，在步骤S665中，从该异常请求开始，在后续一段时间内，收集并存储来自同一用户的其他请求，直到请求数目达到设定上限L，或是超出指定时间间隔T。对于所得到的这一系列请求，如果参数值异常检测模型将它们判别为异常的请求数目超过设定的百分比阈值(如10％)，则在步骤S670中直接进行告警。否则，进程转到图5的步骤S530，对用户请求包含的输入参数类型与请求时间间隔的序列进行泛化表示，然后通过LSTM对参数序列异常检测模型进行训练。具体来说，参数序列异常检测模型将来源于同一用户登录系统的http请求进行比较，记录下与其前一个值相比发生变化的参数值所对应的参数ID来形成参数序列，然后引入请求时间间隔并将所生成的序列进行泛化，然后训练LSTM使其根据第0至L-1个元素重构第1-L个元素的概率尽可能大。

图7是根据本公开的采用端到端的深度学习方式的无监督异常检测方法的流程图。如图7所示，该方法在步骤S710中，获取特定Web应用服务器的http请求的字符串。

接下来，在步骤S720中，根据训练好的参数值异常检测模型来检测所获取http请求的字符串中参数值异常的http请求。

图8图示了根据本公开的一个实施例的步骤S720的流程图。如图8所示，在步骤S810中，将http请求的字符串输入参数值异常检测模型，以便对该字符串中可能发生参数异常的字符进行提取，这些可能发生参数异常的字符包括但不限于url请求中的参数、HTTP头、Cookies等中的字符。

在步骤S815中，对所接收到的每一个字符串按照表1给出的泛化规则进行泛化处理，以减少输入的维度。

在步骤S820中，将经过字符串泛化处理后的字符串中的每个字符映射成长度为L的一个一维向量，并对所得到的一维向量进行三维或两维的词嵌入 (以下称为这样所得的向量为向量化字符串)以便后续神经网络优化。

在步骤S825中，采用分组卷积的浅层神经网络提取向量化字符串的特征，并将向量化字符串映射成两个c维变量(以下将其每一个称为一个隐变量)，这两个c维隐变量分别代表向量化字符串的方差σ和均值u。

在步骤S830中，以N*c维矩阵的形式保存隐变量，其中N为预设值，c 为隐变量的维数，每一个隐变量作为N*c维矩阵的一个行向量。

在步骤S835中，对该N*c维矩阵中的每一个行向量Ci，i＝1，2，……， N，计算其与隐变量的余弦相似度Di。

在步骤S840中，根据下面公式

在步骤S845中，对于权重向量中小于一定阈值(通常设为2/N)的值将其置0，得到稀疏的权重向量。

在步骤S850中，对所得到的稀疏权重向量通过L1范数归一化处理，并与所保存的未处理N*c维矩阵进行矩阵乘法来重构生成新的隐变量(以下称为带约束隐变量)并以N*c维矩阵形式保存带约束隐变量备用。

在步骤S855中，利用逆卷积网络或全连接网络将带约束隐变量映射成为 L*13的向量，其中13个维度表明当前字符位置重构为泛化后的13个字符类型的概率。

在步骤S860中，将该概率作为重构概率，通过交叉熵损失函数来计算整个序列的重构损失，并根据重构损失来判断参数值是否出现异常。当在步骤 S860中没有检测到参数值异常时，结束进程。而当在步骤S860中检测到参数值出现异常时，从该异常请求开始，在后续一段时间内，收集并存储来自同一用户的其他请求，直到请求数目达到设定上限L，或是超出指定时间间隔T，并判断这一系列请求中被判别为异常的请求数目是否超过设定的百分比阈值(如10％)，若超过了则直接发出告警。否则，进程进行到图7的步骤 S730，利用训练好的参数序列异常检测模型计算LSTM对应的重构概率，然后根据该概率判断参数序列是否异常。若判断参数序列正常则直接结束进程，而若判断参数序列出现异常则发出告警后结束进程。

综上所述，本公开的无监督异常检测系统和方法基于无监督学习算法，不需要人工进行数据标注，只需要过往的HTTP日志数据即可，由于两个检测模块的核心神经网络本身对不平衡样本中多样样本的偏好，即使过往日志中混有少量攻击或是异常请求也不会太影响模型性能。同时基于端到端的学习方式，不需要专家设计特征，也能够更好的从原始数据获得完整的信息，提高检测准确率和普适性。同时本公开从参数值和参数序列两个方面对HTTP 请求参数进行检测，避免单一模型的误报率和漏报率高的问题。

以上结合具体实施例描述了本公开的基本原理，但是需要指出的是，对本领域的普通技术人员而言，能够理解本公开的方法和系统的全部或者任何步骤或者部件，可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本公开的说明的情况下运用他们的基本编程技能就能实现的。

因此，本公开的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本公开的目的也可以仅仅通过提供包含实现所述方法或者系统的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本公开，并且存储有这样的程序产品的存储介质也构成本公开。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

还需要指出的是，在本公开的系统和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种无监督异常检测模型的训练方法，包括以下步骤：

读取特定Web应用服务器过往的正常HTTP请求日志以获取http请求的字符串，来分别通过训练参数值异常检测模型和参数序列异常检测模型；

将http请求的字符串输入参数值异常检测模型，以便对该字符串中可能发生参数异常的字符进行提取；

对所接收到的每一个字符串按照预定泛化规则进行泛化处理，以减少输入的维度；

将经过字符串泛化处理后的字符串中的每个字符映射成长度为L的一个一维向量，并对所得到的一维向量进行三维或两维的词嵌入来生成向量化字符串，以便后续神经网络优化；

采用分组卷积的浅层神经网络提取向量化字符串的特征，并将向量化字符串映射成两个c维隐变量，这两个c维隐变量分别代表向量化字符串的方差σ和均值u；

以可训练的N*c维矩阵的形式保存隐变量，其中N为预设值，c为隐变量的维数，每一个隐变量作为可训练的N*c维矩阵的一个行向量；

对该N*c维矩阵中的每一个行向量Ci，i=1，2，……，N，计算其与隐变量的余弦相似度Di；

根据下面公式

来计算所接收到的N*c维矩阵中的每个行向量在重构新的隐变量时的权重，得到权重向量；

将权重向量中小于一定阈值的值设置成0，以得到稀疏的权重向量；

对所得到的稀疏权重向量通过L1范数归一化处理，并与所保存的未处理N*c维矩阵进行矩阵乘法来重构生成带约束隐变量并以N*c维矩阵形式保存带约束隐变量备用；

利用逆卷积网络或全连接网络将带约束隐变量映射成为L*13的向量，其中13个维度表明当前字符位置重构为泛化后的13个字符类型的概率；

将该概率作为重构概率，通过交叉熵损失函数来计算整个序列的重构损失，并根据重构损失来判断参数值是否正常；

当判断为参数值正常时进程结束处理，而当判断为参数值出现异常时，收集并存储从该异常请求开始，在后续一段时间内来自同一用户的其他请求，直到请求数目达到设定上限L，或是超出指定时间间隔T，如果所收集的一系列请求中判别为异常的请求数目超过设定的百分比阈值，则直接进行告警；以及

若所收集的一系列请求中判别为异常的请求数目不超过设定的百分比阈值，则对用户请求包含的输入参数类型与请求时间间隔的序列进行泛化表示，然后通过LSTM对参数序列异常检测模型进行训练。

2.根据权利要求1的所述训练方法，其中通过LSTM对参数序列异常检测模型进行训练的步骤包括：利用参数序列异常检测模型将来源于同一用户登录系统的http请求进行比较，记录下与其前一个值相比发生变化的参数值所对应的参数ID来形成参数序列，然后引入请求时间间隔并将所生成的序列进行泛化，然后训练LSTM使其根据第0至L-1个元素重构第1-L个元素的概率尽可能大。

3.一种无监督异常检测方法，该方法包括以下步骤：

获取特定Web应用服务器的http请求的字符串；

将经过字符串泛化处理后的字符串中的每个字符映射成长度为L的一个一维向量，并对所得到的一维向量进行三维或两维的词嵌入来生成向量化字符串以便后续神经网络优化；

以N*c维矩阵的形式保存隐变量，其中N为预设值，c为隐变量的维数，每一个隐变量作为N*c维矩阵的一个行向量；

根据下面公式

对于权重向量中小于一定阈值（通常设为2/N）的值将其置0，得到稀疏的权重向量；

将该概率作为重构概率，通过交叉熵损失函数来计算整个序列的重构损失，并根据重构损失来判断参数值是否出现异常；

当没有检测到参数值异常时结束进程，而当检测到参数值出现异常时，收集并存储从该异常请求开始，在后续一段时间内，直到请求数目达到设定上限L，或是超出指定时间间隔T，来自同一用户的其他请求，并判断收集到的一系列请求中被判别为异常的请求数目是否超过设定的百分比阈值，若超过了则直接发出告警；以及

收集到的一系列请求中被判别为异常的请求数目不超过设定的百分比阈值，则利用训练好的参数序列异常检测模型计算LSTM对应的重构概率，然后根据该概率判断参数序列是否异常，若判断参数序列正常则直接结束进程，而若判断参数序列出现异常则发出告警后结束进程。