CN113141373B

CN113141373B - 检测异常入侵的方法、装置、设备和存储介质

Info

Publication number: CN113141373B
Application number: CN202110485744.7A
Authority: CN
Inventors: 宿嘉颖
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2023-02-07
Anticipated expiration: 2041-04-30
Also published as: CN113141373A

Abstract

本申请涉及大数据领域，揭示了检测异常入侵的方法，包括：获取请求端发出的HTTP请求文本；将HTTP请求文本进行序列化得到对应的文本序列；将文本序列转化为第一向量序列；将第一向量序列输入编码器，得到特征向量；计算所述HTTP请求文本对应的特征向量，与历史数据中的异常入侵的HTTP异常特征之间的标准差和协方差，并根据标准差和协方差的商得到异常相关度；判断异常相关度是否大于异常预设阈值；大于则返回为异常入侵，若不大于则计算第一向量序列对应的重建误差，检测HTTP请求文本的异常性，实现端到端的智能检测异常入侵，可识别到新型的异常入侵。

Description

检测异常入侵的方法、装置、设备和存储介质

技术领域

本申请涉及大数据领域，特别是涉及到检测异常入侵的方法、装置、设备和存储介质。

背景技术

当前网络连接中的异常入侵检测，依然依赖于应用程序防火墙(WAF)，试图基于检测规则引擎等类似方式检测攻击，检测手段不灵活，无法灵敏地检测到新型攻击。面对日益复杂的网络环境和攻击手法，基于检测规则引擎等检测攻击方式已不能满足信息安全的需求。

网络安全界也尝试深度学习的方法进行入侵检测，比如基于CNN进行入侵检测、基于RNN进行入侵检测。但实验证明基于CNN进行入侵检测时，池化操作时候会舍弃一些至关重要的入侵数据信息影响检测结果的精准度。而使用RNN方法做入侵检测时，由于网络地址数据特征之间不存在特定的先后顺序关联性，处理时序关系序列时会融入多余的不必要信息，导致特征工程复杂，数据维护成本高且难以预知发现未知攻击，即现有检测攻击方式均不能实现端到端的智能检测异常入侵，不能较好的检测到新型攻击，不能满足信息安全的需求。

发明内容

本申请的主要目的为提供检测异常入侵的方法，旨在解决现有不能实现端到端的智能检测异常入侵，不能较好的检测到新型攻击的技术问题。

本申请提出一种检测异常入侵的方法，包括：

获取请求端发出的HTTP请求文本；

将所述HTTP请求文本通过预设方式进行序列化，得到所述HTTP请求文本对应的文本序列；

将所述HTTP请求文本对应的文本序列转化为第一向量序列；

将所述第一向量序列输入编码器，得到所述HTTP请求文本对应的特征向量；

计算所述HTTP请求文本对应的特征向量，与历史数据中的异常入侵的HTTP异常特征之间的标准差和协方差，并根据标准差和协方差的商得到异常相关度；

判断所述异常相关度是否大于异常预设阈值；

若所述异常相关度大于异常预设阈值，则返回所述HTTP请求文本为异常入侵发出的请求文本，若所述异常相关度不大于异常预设阈值，则计算所述第一向量序列对应的重建误差，根据所述重建误差检测所述HTTP请求文本的异常性。

优选地，所述计算所述第一向量序列对应的重建误差，根据所述重建误差检测所述HTTP请求文本的异常性的步骤，包括：

将所述HTTP请求文本对应的特征向量输入解码器进行向量重建，得到重建后的第二向量序列；

计算所述第二向量序列和第一向量序列的重建误差；

判断所述重建误差是否大于预设阈值；

若是，则判定所述HTTP请求文本为异常入侵发出的请求文本。

优选地，所述将所述HTTP请求文本通过预设方式进行序列化，得到所述HTTP请求文本对应的文本序列的步骤，包括：

将所述HTTP请求文本按照头部字符至结尾字符的顺序，从头至尾依次依据指定长度切分成多个字符段；

在相邻的两个所述字符段上插入间隔符，形成字符序列；

将所述字符序列作为所述HTTP请求文本对应的文本序列。

优选地，将所述HTTP请求文本对应的文本序列转化为第一向量序列的步骤，包括：

将第一字符段中的各字符按照预设映射表进行数字映射，得到所述第一字符段对应的向量序列，其中，所述第一字符段为所述字符序列中的任意一字符段；

判断所述第一字符段对应的向量序列中的数字位数是否满足指定长度；

若否，则在所述第一字符段对应的向量序列的末尾处添加指定数字符号，至所述第一字符段对应的向量序列中的数字位数满足所述指定长度；

根据所述第一字符段的向量化过程，将所述字符序列中各字符段依次分别进行向量化，得到所述第一向量序列。

优选地，所述解码器后设置自注意层，所述判定所述HTTP请求文本为异常入侵发出的请求文本的步骤之后，包括：

获取所述自注意层分配到所述第一向量序列中各序列段上的注意力权重；

根据各序列段分别对应的注意力权重，定位所述第一向量序列中异常序列段；

根据所述第一向量序列中异常序列段，确定所述HTTP请求文本中的对应异常字符串。

优选地，所述根据所述第一向量序列中异常序列段，确定所述HTTP请求文本中的对应异常字符串的步骤之后，包括：

标记所述异常字符串，得到标记后的HTTP请求文本；

将所述标记后的HTTP请求文本，输入防御策略匹配模块进行匹配；

获取所述标记后的HTTP请求文本对应的防御策略。

优选地，所述计算所述第二向量序列和第一向量序列的重建误差的步骤，包括：

通过第一计算公式计算指定序列段对应的评分概率，作为所述指定序列段对应的自注意力权重，其中，所述指定序列段为所述第一向量序列中的任意序列段；

根据所述指定序列段对应的自注意力权重的计算方式，计算所述第一向量序列中各序列段分别对应的自注意力权重；

将所述第一向量序列中各序列段分别对应的自注意力权重，代入第二计算公式计算所述第二向量序列和第一向量序列的重建误差。

本申请还提供了一种检测异常入侵的装置，包括：

获取模块，用于获取请求端发出的HTTP请求文本；

序列化模块，用于将所述HTTP请求文本通过预设方式进行序列化，得到所述HTTP请求文本对应的文本序列；

转化模块，用于将所述HTTP请求文本对应的文本序列转化为第一向量序列；

输入模块，用于将所述第一向量序列输入编码器，得到所述HTTP请求文本对应的特征向量；

第一计算模块，用于计算所述HTTP请求文本对应的特征向量，与历史数据中的异常入侵的HTTP异常特征之间的标准差和协方差，并根据标准差和协方差的商得到异常相关度；

判断模块，用于判断所述异常相关度是否大于异常预设阈值；

第二计算模块，用于若所述异常相关度大于异常预设阈值，则返回所述HTTP请求文本为异常入侵发出的请求文本，若所述异常相关度不大于异常预设阈值，则计算所述第一向量序列对应的重建误差，根据所述重建误差检测所述HTTP请求文本的异常性。

本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

本申请通过将入侵检测的HTTP抽象成文本分类检测，计算在编码解码中的重建误差，并根据重建误差的大小区分良性请求和异常攻击，实现端到端的智能检测异常入侵，可识别到新型的异常入侵。

附图说明

图1本申请一实施例的检测异常入侵的方法流程示意图；

图2本申请一实施例的检测异常入侵的系统流程示意图；

图3本申请一实施例的计算机设备内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例的检测异常入侵的方法，包括：

S1：获取请求端发出的HTTP请求文本；

S2：将所述HTTP请求文本通过预设方式进行序列化，得到所述HTTP请求文本对应的文本序列；

S3：将所述HTTP请求文本对应的文本序列转化为第一向量序列；

S4：将所述第一向量序列输入编码器，得到所述HTTP请求文本对应的特征向量；

S5：计算所述HTTP请求文本对应的特征向量与历史数据中的异常入侵的HTTP异常特征之间的标准差和协方差，并根据标准差和协方差的商计算异常相关度；

S6：判断所述异常相关度是否大于异常预设阈值；

S7：若所述异常相关度大于异常预设阈值，则返回所述HTTP请求文本为异常入侵发出的请求文本，若所述异常相关度不大于异常预设阈值，则计算所述第一向量序列对应的重建误差，根据所述重建误差检测所述HTTP请求文本的异常性。

本申请实施例的检测异常入侵的过程部署于端到端之间，即请求端发起的访问请求先经过异常入侵检测后，才将通过检测的正常访问发送至服务器端进行访问。本申请的异常入侵检测基于Encoder-Decoder结构中的重建过程，通过计算重建误差分析HTTP请求文本是否异常。

步骤S2中预设方式包括：通过将HTTP请求文本按照固定字符段长度进行切分，并将切分的每个字符段作为一个序列段，实现HTTP请求文本的序列化；或者通过HTTP请求文本中携带的层级分隔符进行初步分割，然后在将初步分割后的各段字符串分别按照固定字符段长度进行切分，形成序列段。

步骤S3中通过预设映射表转换的方式，实现字符段序列的向量化。上述预设映射表包括各字符分别对应的数字映射关系。举例地，字符"\f"映射为数字“3”；"<END>"映射为“2”；""映射为“4”；"$"映射为“5”；"("映射为“6”；","映射为“7”；"0"映射为“9”；"4"映射为“8”；"<GO>"映射为“1”；"8"映射为“10”；"<"映射为“11”；"@"映射为“12”；"}"映射为“13”，等等。

步骤S4中，通过编码器识别向量序列中的特征，并提取对应的向量特征。编码器将输入的向量序列映射到固定维度矢量上，得到向量和高维矢量之间的映射关系，并将该映射关系作为该向量序列的向量特征。

步骤S5和S6中，优先根据历史数据中的HTTP异常特征的向量计算相关度，实现快速检测异常入侵。上述HTTP异常特征的向量通过将历史数据中收集的异常入侵HTTP文本转换为向量得到，通过标准差和协方差的商快速比对相关性，实现异常入侵的快速判断和拦截，提高安全性。，标准差和协方差的商的计算公式为

x为HTTP请求文本对应的特征向量，y为所述HTTP异常特征的向量，r表示异常相关度,n为(x,y)的成对数量，x、y分别为正数，n为大于1的自然数。

步骤S7中，将通过第一公式判断的HTTP请求文本，经过重建误差进行二次筛选，以确保新型的异常入侵被及时检测出，且通过两级异常检测，提高排查异常入侵的高可靠性，进一步提高安全性。

本申请通过将非自然语言的HTTP请求文本进行序列化、向量化，先通过异常相关度快速确定与历史数据中的异常特征相关的异常入侵，再通过异常相关度检测后，使HTTP请求文本可基于编码器和解码器的学习思维，通过重建误差对新类型的HTTP请求文本进行推理分类，区分正常访问和新类型的异常入侵，可更好的预防异常攻击，满足信息安全实时防控的需求。

进一步地，所述计算所述第一向量序列对应的重建误差，根据所述重建误差检测所述HTTP请求文本的异常性的步骤S7，包括：

S71：将所述HTTP请求文本对应的特征向量输入解码器进行向量重建，得到重建后的第二向量序列；

S72：计算所述第二向量序列和第一向量序列的重建误差；

S73：判断所述重建误差是否大于预设阈值；

S74：若是，则判定所述HTTP请求文本为异常入侵发出的请求文本。

步骤S71和S72中，解码器利用编码器的输出对目标矢量进行解码，以重新构建出矢量对应的数据原型，通过解码器构建出的数据原型和原输入编码器的向量序列之间的差异计算重建误差。由于本申请实施例的解码器和编码器通过大量正常访问的HTTP请求文本训练后，可通过较小的重建误差实现编码过程和解码过程，并固定训练后的解码器和编码器的参量。在通过正常访问的HTTP请求文本训练后，当编码器和解码器遇到未处理过的异常样本时，会凸显较高的重建误差，本申请通过计算当前请求访问的请求端的HTTP请求文本的重建误差，区分当前请求访问的HTTP请求文本是否异常入侵发出的请求文本。

进一步地，所述将所述HTTP请求文本通过预设方式进行序列化，得到所述HTTP请求文本对应的文本序列的步骤S2，包括：

S21：将所述HTTP请求文本按照头部字符至结尾字符的顺序，从头至尾依次依据指定长度切分成多个字符段；

S22：在相邻的两个所述字符段上插入间隔符，形成字符序列；

S23：将所述字符序列作为所述HTTP请求文本对应的文本序列。

步骤S21中的头部字符为HTTP请求文本正常字符排列次序下开始位置处的字符，结尾字符为HTTP请求文本正常字符排列次序下结束位置处的字符。指定长度为指定数量的字符串的长度，比如每10个字符为一个序列段，则指定长度为10个字符串的长度。通过从头至尾依次依据指定长度将HTTP请求文本切分成多个字符段，就得到了由多个依次排布的序列段组成的HTTP请求文本。

步骤S22中通过在两个相邻的字符段之间添加间隔符以便识别各序列段，间隔符为不常用于HTTP请求文本中的字符，比如为字符<O>或字符<E>，从而实现将HTTP请求文本进行序列化，且不影响HTTP请求文本的原始内容。

进一步地，将所述HTTP请求文本对应的文本序列转化为第一向量序列的步骤S3，包括：

S31：将第一字符段中的各字符按照预设映射表进行数字映射，得到所述第一字符段对应的向量序列，其中，所述第一字符段为所述字符序列中的任意一字符段；

S32：判断所述第一字符段对应的向量序列中的数字位数是否满足所述指定长度；

S33：若否，则在所述第一字符段对应的向量序列的末尾处添加指定数字符号，至所述第一字符段对应的向量序列中的数字位数满足所述指定长度；

S34：根据所述第一字符段的向量化过程，将所述字符序列中各字符段依次分别进行向量化，得到所述第一向量序列。

步骤S31中通过预设映射表实现HTTP请求文本对应的文本序列，转化为向量序列，预设映射表中包括HTTP请求文本中常见字符列以及映射数字列，通过常见字符列和映射数字列的对应关系实现数字映射，得到数字序列组成的向量序列。

步骤S32和S33中每个向量序列中的数字位数均相同，不足位数的可通过在该向量序列末尾位置处填充指定数字符号，以补齐位数。上述指定数字符号比如为“0”缺少几位就在末尾处填补几个“0”，以实现向量对齐，以固定向量维度，提高高维矢量映射的精准性。

进一步地，所述解码器后设置自注意层，所述判定所述HTTP请求文本为异常入侵发出的请求文本的步骤S8之后，包括：

S81：获取所述自注意层分配到所述第一向量序列中各序列段上的注意力权重；

S82：根据各序列段分别对应的注意力权重，定位所述第一向量序列中异常序列段；

S83：根据所述第一向量序列中异常序列段，确定所述HTTP请求文本中的对应异常字符串。

本申请实施例中，解码器的输出端设置自注意力层，以输出各序列段分别对应的注意力权重，以及根据各序列段分别对应的注意力权重得到的输出重建误差loss。重建误差loss的值越大越说明当前的HTTP请求文本为异常入侵，且通过各序列段分别对应的注意力权重定位异常序列段。注意力权重小代表异常入侵的HTTP请求文本中该序列段的异常概率小。通过识别异常入侵的HTTP请求文本中注意力权重大的异常序列段，并将异常序列段对应的字符串作为异常字符串。

进一步地，所述根据所述第一向量序列中异常序列段，确定所述HTTP请求文本中的对应异常字符串的步骤S83之后，包括：

S84：标记所述异常字符串，得到标记后的HTTP请求文本；

S85：将所述标记后的HTTP请求文本，输入防御策略匹配模块进行匹配；

S86：获取所述标记后的HTTP请求文本对应的防御策略。

步骤S84中，通过将异常字符串对应的整体区域标注高亮颜色，或将异常字符串的字体颜色变更为高亮颜色，或将异常字符串的字体进行加粗、斜体等异样显示，以明示异常字符串，得到标记后的HTTP请求文本，以便相关人员重点排查并给出防御异常入侵的方案。

步骤S85通过在防御策略匹配模块中通过接口预先注入防御工具并匹配防御策略进行主动防御。

进一步地，计算所述第二向量序列和第一向量序列的重建误差的步骤S72，包括：

S721：通过第一计算公式计算指定序列段对应的评分概率，作为所述指定序列段对应的自注意力权重，其中，所述指定序列段为所述第一向量序列中的任意序列段；

S722：根据所述指定序列段对应的自注意力权重的计算方式，计算所述第一向量序列中各序列段分别对应的自注意力权重；

S723：将所述第一向量序列中各序列段分别对应的自注意力权重，代入第二计算公式计算所述第二向量序列和第一向量序列的重建误差。

本申请的模型结构如下图所示，通过堆叠编码器Encoder和解码器Decoder形成。编码器和解码器的结构相同，编码器和解码器中均设置自注意力层，解码器的输出端设置自注意力层。编码器和解码器中均设置BatchNormolizition层即BN层，用于权重归一化处理，以防止权重数量级相差较大，防止过拟合。

步骤S721中的第一计算公式的表达式为

其中Z表示指定序列段对应的评分概率，softmax()表示激活函数，Q、K、V表示从每个编码器对指定序列段创建的三个向量，dk表示K的方差。

步骤S723中通过第二计算公式对各各序列段分别对应的自注意力权重进行加权统计，得到将第一向量序列输入编码器编码后输入解码器进行解码得到第二向量序列的过程中的重建误差，上述第二计算公式的表达式为

其中，L表示重建误差，N表示第一向量序列中包括的序列段的数量，yi表示序列段i的标签，正常访问的序列段标签为1，异常访问的序列段标签为0，pi表示序列段i预测为正常访问的评分概率。

参照图2，本申请一实施例的检测异常入侵的装置，包括：

获取模块1，用于获取请求端发出的HTTP请求文本；

序列化模块2，用于将所述HTTP请求文本通过预设方式进行序列化，得到所述HTTP请求文本对应的文本序列；

转化模块3，用于将所述HTTP请求文本对应的文本序列转化为第一向量序列；

输入模块4，用于将所述第一向量序列输入编码器，得到所述HTTP请求文本对应的特征向量；

第一计算模块5，用于计算所述HTTP请求文本对应的特征向量，与历史数据中的异常入侵的HTTP异常特征之间的标准差和协方差，并根据标准差和协方差的商得到异常相关度；

判断模块6，用于判断所述异常相关度是否大于异常预设阈值；

第二计算模块7，用于若所述异常相关度大于异常预设阈值，则返回所述HTTP请求文本为异常入侵发出的请求文本，若所述异常相关度不大于异常预设阈值，则计算所述第一向量序列对应的重建误差，根据所述重建误差检测所述HTTP请求文本的异常性。

本申请实施例的相关解释，适用方法对应部分的解释，不赘述。

进一步地，第二计算模块7，包括：

第一输入单元，用于将所述HTTP请求文本对应的特征向量输入解码器进行向量重建，得到重建后的第二向量序列；

计算单元，用于计算所述第二向量序列和第一向量序列的重建误差；

第一判断单元，用于判断所述重建误差是否大于预设阈值；

判定单元，用于若大于预设阈值，则判定所述HTTP请求文本为异常入侵发出的请求文本。

进一步地，序列化模块2，包括：

切分单元，用于将所述HTTP请求文本按照头部字符至结尾字符的顺序，从头至尾依次依据指定长度切分成多个字符段；

形成单元，用于在相邻的两个所述字符段上插入间隔符，形成字符序列；

作为单元，用于将所述字符序列作为所述HTTP请求文本对应的文本序列。

进一步地，转化模块3，包括：

映射单元，用于将第一字符段中的各字符按照预设映射表进行数字映射，得到所述第一字符段对应的向量序列，其中，所述第一字符段为所述字符序列中的任意一字符段；

第二判断单元，用于判断所述第一字符段对应的向量序列中的数字位数是否满足指定长度；

添加单元，用于若不满足指定长度，则在所述第一字符段对应的向量序列的末尾处添加指定数字符号，至所述第一字符段对应的向量序列中的数字位数满足所述指定长度；

向量化单元，用于根据所述第一字符段的向量化过程，将所述字符序列中各字符段依次分别进行向量化，得到所述第一向量序列。

进一步地，所述解码器后设置自注意层，第二计算模块7，包括：

第一获取单元，用于获取所述自注意层分配到所述第一向量序列中各序列段上的注意力权重；

定位单元，用于根据各序列段分别对应的注意力权重，定位所述第一向量序列中异常序列段；

确定单元，用于根据所述第一向量序列中异常序列段，确定所述HTTP请求文本中的对应异常字符串。

进一步地，第二计算模块7，包括：

标记单元，用于标记所述异常字符串，得到标记后的HTTP请求文本；

第二输入单元，用于将所述标记后的HTTP请求文本，输入防御策略匹配模块进行匹配；

第二获取单元，用于获取所述标记后的HTTP请求文本对应的防御策略。

进一步地，计算单元，包括：

第一计算子单元，用于通过第一计算公式计算指定序列段对应的评分概率，作为所述指定序列段对应的自注意力权重，其中，所述指定序列段为所述第一向量序列中的任意序列段；

第二计算子单元，用于根据所述指定序列段对应的自注意力权重的计算方式，计算所述第一向量序列中各序列段分别对应的自注意力权重；

第三计算子单元，用于将所述第一向量序列中各序列段分别对应的自注意力权重，代入第二计算公式计算所述第二向量序列和第一向量序列的重建误差。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储检测异常入侵的过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现检测异常入侵的方法。

上述处理器执行上述检测异常入侵的方法，包括：获取请求端发出的HTTP请求文本；将所述HTTP请求文本通过预设方式进行序列化，得到所述HTTP请求文本对应的文本序列；将所述HTTP请求文本对应的文本序列转化为第一向量序列；将所述第一向量序列输入编码器，得到所述HTTP请求文本对应的特征向量；计算所述HTTP请求文本对应的特征向量，与历史数据中的异常入侵的HTTP异常特征之间的标准差和协方差，并根据标准差和协方差的商得到异常相关度；判断所述异常相关度是否大于异常预设阈值；若所述异常相关度大于异常预设阈值，则返回所述HTTP请求文本为异常入侵发出的请求文本，若所述异常相关度不大于异常预设阈值，则计算所述第一向量序列对应的重建误差，根据所述重建误差检测所述HTTP请求文本的异常性。

上述计算机设备，通过将入侵检测的HTTP抽象成文本分类检测，计算在编码解码中的重建误差，并根据重建误差的大小区分良性请求和异常攻击，实现端到端的智能检测异常入侵，可识别到新型的异常入侵。

在一个实施例中，上述处理器计算所述第一向量序列对应的重建误差，根据所述重建误差检测所述HTTP请求文本的异常性的步骤，包括：将所述HTTP请求文本对应的特征向量输入解码器进行向量重建，得到重建后的第二向量序列；计算所述第二向量序列和第一向量序列的重建误差；判断所述重建误差是否大于预设阈值；若是，则判定所述HTTP请求文本为异常入侵发出的请求文本。

在一个实施例中，上述处理器将所述HTTP请求文本通过预设方式进行序列化，得到所述HTTP请求文本对应的文本序列的步骤，包括：将所述HTTP请求文本按照头部字符至结尾字符的顺序，从头至尾依次依据指定长度切分成多个字符段；在相邻的两个所述字符段上插入间隔符，形成字符序列；将所述字符序列作为所述HTTP请求文本对应的文本序列。

在一个实施例中，上述处理器将所述HTTP请求文本对应的文本序列转化为第一向量序列的步骤，包括：将第一字符段中的各字符按照预设映射表进行数字映射，得到所述第一字符段对应的向量序列，其中，所述第一字符段为所述字符序列中的任意一字符段；判断所述第一字符段对应的向量序列中的数字位数是否满足指定长度；若否，则在所述第一字符段对应的向量序列的末尾处添加指定数字符号，至所述第一字符段对应的向量序列中的数字位数满足所述指定长度；根据所述第一字符段的向量化过程，将所述字符序列中各字符段依次分别进行向量化，得到所述第一向量序列。

在一个实施例中，所述解码器后设置自注意层，上述处理器判定所述HTTP请求文本为异常入侵发出的请求文本的步骤之后，包括：获取所述自注意层分配到所述第一向量序列中各序列段上的注意力权重；根据各序列段分别对应的注意力权重，定位所述第一向量序列中异常序列段；根据所述第一向量序列中异常序列段，确定所述HTTP请求文本中的对应异常字符串。

在一个实施例中，上述处理器根据所述第一向量序列中异常序列段，确定所述HTTP请求文本中的对应异常字符串的步骤之后，包括：标记所述异常字符串，得到标记后的HTTP请求文本；将所述标记后的HTTP请求文本，输入防御策略匹配模块进行匹配；获取所述标记后的HTTP请求文本对应的防御策略。

在一个实施例中，上述处理器计算所述第二向量序列和第一向量序列的重建误差的步骤，包括：通过第一计算公式计算指定序列段对应的评分概率，作为所述指定序列段对应的自注意力权重，其中，所述指定序列段为所述第一向量序列中的任意序列段；根据所述指定序列段对应的自注意力权重的计算方式，计算所述第一向量序列中各序列段分别对应的自注意力权重；将所述第一向量序列中各序列段分别对应的自注意力权重，代入第二计算公式计算所述第二向量序列和第一向量序列的重建误差。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现检测异常入侵的方法，包括：获取请求端发出的HTTP请求文本；将所述HTTP请求文本通过预设方式进行序列化，得到所述HTTP请求文本对应的文本序列；将所述HTTP请求文本对应的文本序列转化为第一向量序列；将所述第一向量序列输入编码器，得到所述HTTP请求文本对应的特征向量；计算所述HTTP请求文本对应的特征向量，与历史数据中的异常入侵的HTTP异常特征之间的标准差和协方差，并根据标准差和协方差的商得到异常相关度；判断所述异常相关度是否大于异常预设阈值；若所述异常相关度大于异常预设阈值，则返回所述HTTP请求文本为异常入侵发出的请求文本，若所述异常相关度不大于异常预设阈值，则计算所述第一向量序列对应的重建误差，根据所述重建误差检测所述HTTP请求文本的异常性。

上述计算机可读存储介质，通过将入侵检测的HTTP抽象成文本分类检测，计算在编码解码中的重建误差，并根据重建误差的大小区分良性请求和异常攻击，实现端到端的智能检测异常入侵，可识别到新型的异常入侵。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种检测异常入侵的方法，其特征在于，包括：

获取请求端发出的HTTP请求文本；

将所述HTTP请求文本对应的文本序列转化为第一向量序列；

判断所述异常相关度是否大于异常预设阈值；

若所述异常相关度大于异常预设阈值，则返回所述HTTP请求文本为异常入侵发出的请求文本，若所述异常相关度不大于异常预设阈值，则计算所述第一向量序列对应的重建误差，根据所述重建误差检测所述HTTP请求文本的异常性；

所述计算所述第一向量序列对应的重建误差，根据所述重建误差检测所述HTTP请求文本的异常性的步骤，包括：

计算所述第二向量序列和第一向量序列的重建误差；

判断所述重建误差是否大于预设阈值；

若是，则判定所述HTTP请求文本为异常入侵发出的请求文本。

2.根据权利要求1所述的检测异常入侵的方法，其特征在于，所述将所述HTTP请求文本通过预设方式进行序列化，得到所述HTTP请求文本对应的文本序列的步骤，包括：

在相邻的两个所述字符段上插入间隔符，形成字符序列；

将所述字符序列作为所述HTTP请求文本对应的文本序列。

3.根据权利要求2所述的检测异常入侵的方法，其特征在于，将所述HTTP请求文本对应的文本序列转化为第一向量序列的步骤，包括：

4.根据权利要求1所述的检测异常入侵的方法，其特征在于，所述解码器后设置自注意层，所述判定所述HTTP请求文本为异常入侵发出的请求文本的步骤之后，包括：

5.根据权利要求4所述的检测异常入侵的方法，其特征在于，所述根据所述第一向量序列中异常序列段，确定所述HTTP请求文本中的对应异常字符串的步骤之后，包括：

标记所述异常字符串，得到标记后的HTTP请求文本；

获取所述标记后的HTTP请求文本对应的防御策略。

6.根据权利要求1所述的检测异常入侵的方法，其特征在于，所述计算所述第二向量序列和第一向量序列的重建误差的步骤，包括：

7.一种检测异常入侵的装置，其特征在于，包括：

获取模块，用于获取请求端发出的HTTP请求文本；

第二计算模块，用于若所述异常相关度大于异常预设阈值，则返回所述HTTP请求文本为异常入侵发出的请求文本，若所述异常相关度不大于异常预设阈值，则计算所述第一向量序列对应的重建误差，根据所述重建误差检测所述HTTP请求文本的异常性；

第三计算模块，用于所述计算所述第一向量序列对应的重建误差，根据所述重建误差检测所述HTTP请求文本的异常性的步骤，包括：

重建模块，用于将所述HTTP请求文本对应的特征向量输入解码器进行向量重建，得到重建后的第二向量序列；

第三计算模块，用于计算所述第二向量序列和第一向量序列的重建误差；

判断所述重建误差是否大于预设阈值；

第二判断模块，用于若是，则判定所述HTTP请求文本为异常入侵发出的请求文本。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。