CN117332411A

CN117332411A - 一种基于Transformer模型的异常登录检测方法

Info

Publication number: CN117332411A
Application number: CN202311632637.8A
Authority: CN
Inventors: 王晨飞; 徐李阳; 李慧芹; 张郁颀; 郝景昌; 李永刚
Original assignee: State Grid Co ltd Customer Service Center
Current assignee: State Grid Co ltd Customer Service Center
Priority date: 2023-12-01
Filing date: 2023-12-01
Publication date: 2024-01-02
Anticipated expiration: 2043-12-01
Also published as: CN117332411B

Abstract

本发明涉及一种基于Transformer模型的异常登录检测方法，属于网络安全领域。检测方法包括：模型训练；具体包括：采集目标系统的用户历史认证日志；将日志文档处理为可输入到BERT模型中的条目式语句；根据历史日志标记结果对应语句标签；基于BERT模型的嵌入层构建；结合BERT的Transformer模型联合训练；得到训练好的Transformer模型；将经过处理的分布式输入得到的Transformer模型；判断尝试登录用户的登录行为是否存在异常，不存在异常则运行登录，否则拒绝登录。本发明通过引入位置信息弥补了自注意力机制无法感知句子中时序信息的问题，具有更强的感知能力。

Description

一种基于Transformer模型的异常登录检测方法

技术领域

本发明涉及一种基于Transformer模型的异常登录检测方法，属于网络安全领域。

背景技术

随着计算机网络的不断发展，互联网已与人类社会深度融合，成为人类社会不可缺少的基础设施。然而在互联网在人类社会中的应用不断深入的同时，针对计算机网络的攻击也层出不穷。高级可持续威胁攻击是最常见的网络攻击之一，高级可持续威胁攻击是不法分子对计算机网络展开的持续有效的网络攻击活动。这种攻击活动具有极强的隐蔽性和针对性，成为了不法分子盗取用户信息，非法牟利的主要途径之一，而针对计算机网络的非授权登录，是高级可持续威胁攻击中的关键一环。

异常登录检测方法利用记录用户和主机之间交互行为的日志文件对登录行为进行建模，从而检测异常登录行为。现有的异常登录检测方法大多基于传统深度学习网络和机器学习技术，挖掘日志条目与异常登录行为之间的潜在联系，从而对异常登录行为进行检测。目前的异常登录检测方法还存在着以下问题：因事件日志内容的繁杂冗余，对登录行为的建模只考虑了日志中的部分可用信息，但随着网络日志中用户与操作信息的不断增加，现有方法在异常登录检测方面的特征提取能力不断下降；事件日志作为用户操作行为的记录，其本身具有丰富的时序信息，现有的异常登录检测方法仅从单一的日志条目出发，未能充分考虑日志文件的时序性特点。

Transformer模型是由谷歌公司提出的一种基于自注意力机制的神经网络模型，用于处理序列数据。相比于传统的循环神经网络模型，Transformer模型具有更好的并行性能和更短的训练时间，因此在自然语言处理领域中得到了广泛应用。

BERT是一种语言表示模型，BERT代表来自Transformer的双向编码器表示（Bidirectional Encoder Representations from Transformers）。BERT旨在通过联合调节所有层中的左右上下文来预训练深度双向表示。因此，只需要一个额外的输出层，就可以对预训练的BERT表示进行微调，从而为广泛的任务（比如回答问题和语言推断任务）创建最先进的模型，而无需对特定于任务进行大量模型结构的修改。

发明内容

为解决上述现有技术中存在的问题，本发明提供了一种基于Transformer模型的异常登录检测方法。具体技术方案如下。

一种基于Transformer模型的异常登录检测方法，包括以下步骤。

步骤1：模型训练；具体包括：

步骤1.1：采集目标系统的用户历史认证日志，包括以下字段信息：登录日期、登录时间、登录类型、登录源和目的地址、所用登录协议类型、日志校验码；所述登录类型分为本地登录和网络登录；

步骤1.2：对用户认证日志进行格式化处理，将日志文档处理为可输入到BERT模型中的条目式语句；根据历史日志标记结果对应语句标签；

步骤1.3：基于BERT模型的嵌入层构建；具体包括：

步骤1.3.1：利用WordPiece方法处理预处理的日志语句形成token，完成初始词嵌入；

步骤1.3.2：混合位置嵌入并送入BERT模型中，得到包含上下文语义的分布式表示作为下一层Transformer模型输入；

步骤1.4：结合BERT的Transformer模型联合训练；具体包括：将BERT所输出的用户认证日志分布式表达输入Transformer模型，再将Transformer模型输出的结果输入Transformer模型后堆叠的Softmax层，计算Softmax层输出与语句标签之间的损失函数；判断损失函数是否满足停止迭代条件，若满足则停止训练，若不满足则依梯度下降算法更新所有参数并迭代步骤1.3；

步骤1.5：得到训练好的Transformer模型；

步骤2：异常登录检测；具体包括：

步骤2.1：采集当前尝试登录用户的认证日志；

步骤2.2：对用户认证日志进行格式化处理，将日志文档处理为可输入到BERT模型中的条目式语句；根据历史日志标记结果对应语句标签；

步骤2.3：基于BERT模型的嵌入层构建；具体包括：

步骤2.3.1：利用WordPiece方法处理预处理的日志语句形成token，完成初始词嵌入；

步骤2.3.2：混合位置嵌入并送入BERT模型中，得到包含上下文语义的分布式表示作为下一层Transformer模型输入；

步骤2.4：将经过步骤2.3处理的分布式输入步骤1.5得到的Transformer模型；

步骤2.5：判断尝试登录用户的登录行为是否存在异常，不存在异常则运行登录，否则拒绝登录。

针对目标系统的用户认证日志的特征提取问题，本发明创造性地利用BERT模型来实现对特征的有效提取。由于用户认证日志中具有大量的上下文关系，同时存在专业名词缺乏单一表达的问题，凭借BERT模型易获得丰富语义表达、方便使用等多种优点，本发明应用BERT模型来获得用户认证日志中富含上下文信息的语义特征。BERT模型通过堆叠神经网络捕捉文本内各个字或者词之间的关系从而获得每个字词关于上下文的动态词向量表示，相比于无法应对一词多义问题的传统方法，具有更好的用户认证日志提取效果。值得指出的是，BERT模型实现了预训练与微调的分离，省去了预训练的繁琐步骤，极大缩短了训练时间。这一优势在本发明中得到了充分挖掘。鉴于用户认证日志中存在大量时序信息，本发明有效利用了Transformer模型的优势。Transformer模型中引入了位置编码，模型具备更强的感知语句中时序信息的能力。由于绝对位置信息编码具有使用方便、效果显著、易于计算的优势，本发明在Transformer模型中采用绝对位置信息编码辅助自注意力机制提取用户认证日志中的特征信息，能够有效应对大量用户访问时可能出现的用户访问拥塞问题。较存在灾难性遗忘问题的传统方法，本发明通过引入位置信息弥补了自注意力机制无法感知句子中时序信息的问题，具有更强的感知能力。

附图说明

图1是一种基于Transformer模型的异常登录检测方法流程示意图。

图2是包含上下文语义的分布式生成示意图。

图3是 Transformer模型示意图。

具体实施方式

下面将详细描述本发明各步骤的具体实施方式。下面的描述涵盖了许多具体细节，以便提供对本发明的全面理解。此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

图1为一种基于Transformer模型的异常登录检测方法示意图，具体可以包括以下步骤：

步骤1：模型训练；具体包括：

步骤1.2：对用户认证日志进行格式化处理，具体包括语句归并、无意义字符剔除、特殊标记嵌入等操作，将日志文档处理为可输入到BERT模型中的条目式语句；根据历史日志标记结果对应语句标签；

在采集到目标系统的用户认证日志后，对不规范的用户认证日志做格式化处理，具体操作为将同属一个事件，但分散在不同行不同段落的日志条目合并为连续的语句条目；剔除日志中无意义或会在后续异常登录行为建模过程中导致偏见的符号、单词或字段，例如“，”、“-”、“/”、“*”以及源用户字段、源主机和目标主机字段等；为日志条目添加特殊标记[CLS]来标识日志条目的起始，添加特殊标记[SEP]来标记不同日志条目的间隔；

步骤1.3：基于BERT模型的嵌入层构建；具体包括：

步骤1.3.1：利用WordPiece方法处理预处理的日志语句形成token，完成初始词嵌入；具体步骤如下：

步骤a1：初始化词表，词表中包含训练日志条目中出现的所有字符；

步骤a2：两两拼接字符，依下述公式计算拼接字符对加入词表后对BERT模型的似然值的提升程度，

，

其中，，/>为相邻位置的两个字符，/>为两个拼接后得到的拼接字符对，/>表示拼接字符对出现的概率，/>表示/>出现的概率，/>表示/>出现的概率；

步骤a3：选择提升BERT模型似然值最大的一组字符加入词表中；

步骤a4：反复步骤a2和步骤a3，直到词表大小达到指定大小；

步骤a5：将词表中的字符送入Token Embedding层，编码为token 向量，完成初始词嵌入；

为完成初始词嵌入的tokens嵌入位置信息，token的位置信息为一个m×n的矩阵查找表，其中，m为一条日志语句中token的数量，n为token向量的维度；

步骤1.3.2：将嵌入位置信息的tokens送入BERT模型，得到包含上下文语义的分布式表达，分布式生成示意图如附图2所示，混合位置嵌入并送入BERT模型中，通过BERT中堆叠的Transformer模型捕捉每个token和其余所有token之间的关联，得到包含上下文语义的分布式表示作为下一层Transformer模型输入；Transformer模型示意图如附图3所示；由于用户认证日志中不同token在不同日志中具有不同含义，本发明利用BERT模型提取每个token在具体日志中的具体含义，形成具有语境意的上下文语义的分布式表达；

步骤1.4：结合BERT的Transformer模型联合训练；具体包括：将BERT所输出的用户认证日志分布式表达输入Transformer模型，再将Transformer模型输出的结果输入Transformer模型后堆叠的Softmax层，计算Softmax层输出与语句标签之间的损失函数；判断损失函数是否满足停止迭代条件，若满足则停止训练，若不满足则依梯度下降算法更新所有参数并迭代步骤1.3；包括如下过程：

步骤b1：Transformer将输入分布式首先进行三种矩阵的线性变换，为自注意力机制提供所需的Q、K、V矩阵，l为一次输入Transformer的tokens数量，也即一条日志语句的长度，/>为输入语句中每个token的特征维度；该过程由下述公式表示；

，

式中，为进行线性变换的三个投影矩阵，为矩阵线性变换后的每个行向量的维度，H为输入数据的矩阵表示，多头自注意力机制中使用了多空间映射，/>为多空间映射线性变化中得到的第i个空间的查询矩阵，/>为多空间映射线性变化中得到的第i个空间的生成矩阵，/>为多空间映射线性变化中得到的第i个空间的值矩阵；

步骤b2：计算每个头的注意力值，并对每个语义空间求得的注意力值进行拼接，获得多头自注意力机制的计算结果；计算公式如下：

，

式中，，/>表示每个头的注意力值，Concat表示将向量进行拼接，N是Transformer使用的多头自注意力机制中“头”的数量，也即语义空间的数量，满足，/>为实现维度变换功能的矩阵；

步骤b3：将多头注意力机制输出送入前馈神经网络层，捕捉日志语句中复杂的非线性关系；前馈神经网络层计算公式如下：

，

式中，x是前馈神经网络的输入，，，其中/>以及/>均为权重矩阵，/>以及/>均为偏置矩阵，/>是一个超参数，表示神经元的数目；

步骤b4：将Transformer中前馈神经网络层的输出送入模型后堆叠的Softmax层，得到日志语句表征登录行为异常的概率，并于语句标签计算损失函数，损失函数为交叉熵损失，计算公式如下：

，

其中，为第i个日志语句的标签，正常为1，异常为0，/>为第i个日志语句预测为正常的概率，/>为第i个日志语句的交叉熵，L为所有日志语句的加权交叉熵；

步骤1.5：得到训练好的Transformer模型；

判断损失函数是否小于预设值，若损失函数的值不符合迭代停止条件，则通过使用反向传播算法更新Transformer和BERT的参数，其中BERT的学习率和Transformer需要分别设置为与/>，此为本发明经过多次用户日志认证任务测试所得最优经验值，特在此处予以公布。若损失函数的值符合迭代停止条件，则停止训练，得到可用于实时监测用户登录行为的离线模型；

步骤2：异常登录检测；具体包括：

步骤2.1：采集当前尝试登录用户的认证日志；

步骤2.3：基于BERT模型的嵌入层构建；具体包括：

步骤2.3.1：利用WordPiece方法处理预处理的日志语句形成token，完成初始词嵌入；具体过程与步骤1.3.1基本相同；

步骤2.3.2：混合位置嵌入1并送入BERT模型中，得到包含上下文语义的分布式表示作为下一层Transformer模型输入；具体过程与步骤1.3.2基本相同；利用WordPiece方法处理预处理的日志语句形成token，完成初始词嵌入；

Claims

1.一种基于Transformer模型的异常登录检测方法，其特征在于，包括以下步骤：

步骤1：模型训练；具体包括：

步骤1.3：基于BERT模型的嵌入层构建；具体包括：

步骤1.5：得到训练好的Transformer模型；

步骤2：异常登录检测；具体包括：

步骤2.1：采集当前尝试登录用户的认证日志；

步骤2.3：基于BERT模型的嵌入层构建；具体包括：

2.根据权利要求1所述一种基于Transformer模型的异常登录检测方法，其特征在于，所述步骤1.2、步骤2.2中，对日志进行格式化处理，具体包括语句归并、无意义字符剔除、特殊标记嵌入操作。

3.根据权利要求1所述一种基于Transformer模型的异常登录检测方法，其特征在于，所述步骤1.3.1、步骤2.3.1中的具体过程如下：

步骤a2：两两拼接字符，依下述公式计算拼接字符对加入词表后对BERT模型的似然值的提升程度；

，

步骤a4：反复步骤a2和步骤a3，直到词表大小达到指定大小；

步骤a5：将词表中的字符送入Token Embedding层，编码为token 向量，完成初始词嵌入。

4.根据权利要求1所述一种基于Transformer模型的异常登录检测方法，其特征在于，所述步骤1.4中，包括如下过程：

步骤b1：Transformer将输入分布式首先进行三种矩阵的线性变换，为自注意力机制提供所需的Q、K、V矩阵，l为一次输入Transformer的tokens数量，也即一条日志语句的长度，/>为输入语句中每个token的特征维度；该过程由下述公式表示：

，

式中，为进行线性变换的三个投影矩阵，/>为矩阵线性变换后的每个行向量的维度，H为输入数据的矩阵表示，多头自注意力机制中使用了多空间映射，/>为多空间映射线性变化中得到的第i个空间的查询矩阵，/>为多空间映射线性变化中得到的第i个空间的生成矩阵，/>为多空间映射线性变化中得到的第i个空间的值矩阵；

，

式中，x是前馈神经网络的输入，

，/>，其中/>以及/>均为权重矩阵，以及/>均为偏置矩阵，/>是一个超参数，表示神经元的数目；

，

其中，为第i个日志语句的标签，正常为1，异常为0，/>为第i个日志语句预测为正常的概率，/>为第i个日志语句的交叉熵，L为所有日志语句的加权交叉熵。

5.根据权利要求1所述一种基于Transformer模型的异常登录检测方法，其特征在于，所述步骤1.4中，判断损失函数是否小于预设值，若损失函数的值不符合迭代停止条件，则通过使用反向传播算法更新Transformer和BERT的参数，其中BERT的学习率和Transformer需要分别设置为与/>。