CN117332411A - 一种基于Transformer模型的异常登录检测方法 - Google Patents
一种基于Transformer模型的异常登录检测方法 Download PDFInfo
- Publication number
- CN117332411A CN117332411A CN202311632637.8A CN202311632637A CN117332411A CN 117332411 A CN117332411 A CN 117332411A CN 202311632637 A CN202311632637 A CN 202311632637A CN 117332411 A CN117332411 A CN 117332411A
- Authority
- CN
- China
- Prior art keywords
- log
- login
- model
- bert
- transducer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 30
- 238000001514 detection method Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 14
- 230000007246 mechanism Effects 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 17
- 230000006399 behavior Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 5
- 230000006872 improvement Effects 0.000 claims description 2
- 210000002569 neuron Anatomy 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 claims 1
- 230000001537 neural effect Effects 0.000 claims 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims 1
- 230000008901 benefit Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/552—Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computer Security & Cryptography (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Hardware Design (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Debugging And Monitoring (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于Transformer模型的异常登录检测方法,属于网络安全领域。检测方法包括:模型训练;具体包括:采集目标系统的用户历史认证日志;将日志文档处理为可输入到BERT模型中的条目式语句;根据历史日志标记结果对应语句标签;基于BERT模型的嵌入层构建;结合BERT的Transformer模型联合训练;得到训练好的Transformer模型;将经过处理的分布式输入得到的Transformer模型;判断尝试登录用户的登录行为是否存在异常,不存在异常则运行登录,否则拒绝登录。本发明通过引入位置信息弥补了自注意力机制无法感知句子中时序信息的问题,具有更强的感知能力。
Description
技术领域
本发明涉及一种基于Transformer模型的异常登录检测方法,属于网络安全领域。
背景技术
随着计算机网络的不断发展,互联网已与人类社会深度融合,成为人类社会不可缺少的基础设施。然而在互联网在人类社会中的应用不断深入的同时,针对计算机网络的攻击也层出不穷。高级可持续威胁攻击是最常见的网络攻击之一,高级可持续威胁攻击是不法分子对计算机网络展开的持续有效的网络攻击活动。这种攻击活动具有极强的隐蔽性和针对性,成为了不法分子盗取用户信息,非法牟利的主要途径之一,而针对计算机网络的非授权登录,是高级可持续威胁攻击中的关键一环。
异常登录检测方法利用记录用户和主机之间交互行为的日志文件对登录行为进行建模,从而检测异常登录行为。现有的异常登录检测方法大多基于传统深度学习网络和机器学习技术,挖掘日志条目与异常登录行为之间的潜在联系,从而对异常登录行为进行检测。目前的异常登录检测方法还存在着以下问题:因事件日志内容的繁杂冗余,对登录行为的建模只考虑了日志中的部分可用信息,但随着网络日志中用户与操作信息的不断增加,现有方法在异常登录检测方面的特征提取能力不断下降;事件日志作为用户操作行为的记录,其本身具有丰富的时序信息,现有的异常登录检测方法仅从单一的日志条目出发,未能充分考虑日志文件的时序性特点。
Transformer模型是由谷歌公司提出的一种基于自注意力机制的神经网络模型,用于处理序列数据。相比于传统的循环神经网络模型,Transformer模型具有更好的并行性能和更短的训练时间,因此在自然语言处理领域中得到了广泛应用。
BERT是一种语言表示模型,BERT代表来自Transformer的双向编码器表示(Bidirectional Encoder Representations from Transformers)。BERT旨在通过联合调节所有层中的左右上下文来预训练深度双向表示。因此,只需要一个额外的输出层,就可以对预训练的BERT表示进行微调,从而为广泛的任务(比如回答问题和语言推断任务)创建最先进的模型,而无需对特定于任务进行大量模型结构的修改。
发明内容
为解决上述现有技术中存在的问题,本发明提供了一种基于Transformer模型的异常登录检测方法。具体技术方案如下。
一种基于Transformer模型的异常登录检测方法,包括以下步骤。
步骤1:模型训练;具体包括:
步骤1.1:采集目标系统的用户历史认证日志,包括以下字段信息:登录日期、登录时间、登录类型、登录源和目的地址、所用登录协议类型、日志校验码;所述登录类型分为本地登录和网络登录;
步骤1.2:对用户认证日志进行格式化处理,将日志文档处理为可输入到BERT模型中的条目式语句;根据历史日志标记结果对应语句标签;
步骤1.3:基于BERT模型的嵌入层构建;具体包括:
步骤1.3.1:利用WordPiece方法处理预处理的日志语句形成token,完成初始词嵌入;
步骤1.3.2:混合位置嵌入并送入BERT模型中,得到包含上下文语义的分布式表示作为下一层Transformer模型输入;
步骤1.4:结合BERT的Transformer模型联合训练;具体包括:将BERT所输出的用户认证日志分布式表达输入Transformer模型,再将Transformer模型输出的结果输入Transformer模型后堆叠的Softmax层,计算Softmax层输出与语句标签之间的损失函数;判断损失函数是否满足停止迭代条件,若满足则停止训练,若不满足则依梯度下降算法更新所有参数并迭代步骤1.3;
步骤1.5:得到训练好的Transformer模型;
步骤2:异常登录检测;具体包括:
步骤2.1:采集当前尝试登录用户的认证日志;
步骤2.2:对用户认证日志进行格式化处理,将日志文档处理为可输入到BERT模型中的条目式语句;根据历史日志标记结果对应语句标签;
步骤2.3:基于BERT模型的嵌入层构建;具体包括:
步骤2.3.1:利用WordPiece方法处理预处理的日志语句形成token,完成初始词嵌入;
步骤2.3.2:混合位置嵌入并送入BERT模型中,得到包含上下文语义的分布式表示作为下一层Transformer模型输入;
步骤2.4:将经过步骤2.3处理的分布式输入步骤1.5得到的Transformer模型;
步骤2.5:判断尝试登录用户的登录行为是否存在异常,不存在异常则运行登录,否则拒绝登录。
针对目标系统的用户认证日志的特征提取问题,本发明创造性地利用BERT模型来实现对特征的有效提取。由于用户认证日志中具有大量的上下文关系,同时存在专业名词缺乏单一表达的问题,凭借BERT模型易获得丰富语义表达、方便使用等多种优点,本发明应用BERT模型来获得用户认证日志中富含上下文信息的语义特征。BERT模型通过堆叠神经网络捕捉文本内各个字或者词之间的关系从而获得每个字词关于上下文的动态词向量表示,相比于无法应对一词多义问题的传统方法,具有更好的用户认证日志提取效果。值得指出的是,BERT模型实现了预训练与微调的分离,省去了预训练的繁琐步骤,极大缩短了训练时间。这一优势在本发明中得到了充分挖掘。鉴于用户认证日志中存在大量时序信息,本发明有效利用了Transformer模型的优势。Transformer模型中引入了位置编码,模型具备更强的感知语句中时序信息的能力。由于绝对位置信息编码具有使用方便、效果显著、易于计算的优势,本发明在Transformer模型中采用绝对位置信息编码辅助自注意力机制提取用户认证日志中的特征信息,能够有效应对大量用户访问时可能出现的用户访问拥塞问题。较存在灾难性遗忘问题的传统方法,本发明通过引入位置信息弥补了自注意力机制无法感知句子中时序信息的问题,具有更强的感知能力。
附图说明
图1是一种基于Transformer模型的异常登录检测方法流程示意图。
图2是包含上下文语义的分布式生成示意图。
图3是 Transformer模型示意图。
具体实施方式
下面将详细描述本发明各步骤的具体实施方式。下面的描述涵盖了许多具体细节,以便提供对本发明的全面理解。此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
图1为一种基于Transformer模型的异常登录检测方法示意图,具体可以包括以下步骤:
步骤1:模型训练;具体包括:
步骤1.1:采集目标系统的用户历史认证日志,包括以下字段信息:登录日期、登录时间、登录类型、登录源和目的地址、所用登录协议类型、日志校验码;所述登录类型分为本地登录和网络登录;
步骤1.2:对用户认证日志进行格式化处理,具体包括语句归并、无意义字符剔除、特殊标记嵌入等操作,将日志文档处理为可输入到BERT模型中的条目式语句;根据历史日志标记结果对应语句标签;
在采集到目标系统的用户认证日志后,对不规范的用户认证日志做格式化处理,具体操作为将同属一个事件,但分散在不同行不同段落的日志条目合并为连续的语句条目;剔除日志中无意义或会在后续异常登录行为建模过程中导致偏见的符号、单词或字段,例如“,”、“-”、“/”、“*”以及源用户字段、源主机和目标主机字段等;为日志条目添加特殊标记[CLS]来标识日志条目的起始,添加特殊标记[SEP]来标记不同日志条目的间隔;
步骤1.3:基于BERT模型的嵌入层构建;具体包括:
步骤1.3.1:利用WordPiece方法处理预处理的日志语句形成token,完成初始词嵌入;具体步骤如下:
步骤a1:初始化词表,词表中包含训练日志条目中出现的所有字符;
步骤a2:两两拼接字符,依下述公式计算拼接字符对加入词表后对BERT模型的似然值的提升程度,
,
其中,,/>为相邻位置的两个字符,/>为两个拼接后得到的拼接字符对,/>表示拼接字符对出现的概率,/>表示/>出现的概率,/>表示/>出现的概率;
步骤a3:选择提升BERT模型似然值最大的一组字符加入词表中;
步骤a4:反复步骤a2和步骤a3,直到词表大小达到指定大小;
步骤a5:将词表中的字符送入Token Embedding层,编码为token 向量,完成初始词嵌入;
为完成初始词嵌入的tokens嵌入位置信息,token的位置信息为一个m×n的矩阵查找表,其中,m为一条日志语句中token的数量,n为token向量的维度;
步骤1.3.2:将嵌入位置信息的tokens送入BERT模型,得到包含上下文语义的分布式表达,分布式生成示意图如附图2所示,混合位置嵌入并送入BERT模型中,通过BERT中堆叠的Transformer模型捕捉每个token和其余所有token之间的关联,得到包含上下文语义的分布式表示作为下一层Transformer模型输入;Transformer模型示意图如附图3所示;由于用户认证日志中不同token在不同日志中具有不同含义,本发明利用BERT模型提取每个token在具体日志中的具体含义,形成具有语境意的上下文语义的分布式表达;
步骤1.4:结合BERT的Transformer模型联合训练;具体包括:将BERT所输出的用户认证日志分布式表达输入Transformer模型,再将Transformer模型输出的结果输入Transformer模型后堆叠的Softmax层,计算Softmax层输出与语句标签之间的损失函数;判断损失函数是否满足停止迭代条件,若满足则停止训练,若不满足则依梯度下降算法更新所有参数并迭代步骤1.3;包括如下过程:
步骤b1:Transformer将输入分布式首先进行三种矩阵的线性变换,为自注意力机制提供所需的Q、K、V矩阵,l为一次输入Transformer的tokens数量,也即一条日志语句的长度,/>为输入语句中每个token的特征维度;该过程由下述公式表示;
,
式中,为进行线性变换的三个投影矩阵,为矩阵线性变换后的每个行向量的维度,H为输入数据的矩阵表示,多头自注意力机制中使用了多空间映射,/>为多空间映射线性变化中得到的第i个空间的查询矩阵,/>为多空间映射线性变化中得到的第i个空间的生成矩阵,/>为多空间映射线性变化中得到的第i个空间的值矩阵;
步骤b2:计算每个头的注意力值,并对每个语义空间求得的注意力值进行拼接,获得多头自注意力机制的计算结果;计算公式如下:
,
,
式中,,/>表示每个头的注意力值,Concat表示将向量进行拼接,N是Transformer使用的多头自注意力机制中“头”的数量,也即语义空间的数量,满足,/>为实现维度变换功能的矩阵;
步骤b3:将多头注意力机制输出送入前馈神经网络层,捕捉日志语句中复杂的非线性关系;前馈神经网络层计算公式如下:
,
式中,x是前馈神经网络的输入,,,其中/>以及/>均为权重矩阵,/>以及/>均为偏置矩阵,/>是一个超参数,表示神经元的数目;
步骤b4:将Transformer中前馈神经网络层的输出送入模型后堆叠的Softmax层,得到日志语句表征登录行为异常的概率,并于语句标签计算损失函数,损失函数为交叉熵损失,计算公式如下:
,
其中,为第i个日志语句的标签,正常为1,异常为0,/>为第i个日志语句预测为正常的概率,/>为第i个日志语句的交叉熵,L为所有日志语句的加权交叉熵;
步骤1.5:得到训练好的Transformer模型;
判断损失函数是否小于预设值,若损失函数的值不符合迭代停止条件,则通过使用反向传播算法更新Transformer和BERT的参数,其中BERT的学习率和Transformer需要分别设置为与/>,此为本发明经过多次用户日志认证任务测试所得最优经验值,特在此处予以公布。若损失函数的值符合迭代停止条件,则停止训练,得到可用于实时监测用户登录行为的离线模型;
步骤2:异常登录检测;具体包括:
步骤2.1:采集当前尝试登录用户的认证日志;
步骤2.2:对用户认证日志进行格式化处理,将日志文档处理为可输入到BERT模型中的条目式语句;根据历史日志标记结果对应语句标签;
步骤2.3:基于BERT模型的嵌入层构建;具体包括:
步骤2.3.1:利用WordPiece方法处理预处理的日志语句形成token,完成初始词嵌入;具体过程与步骤1.3.1基本相同;
步骤2.3.2:混合位置嵌入1并送入BERT模型中,得到包含上下文语义的分布式表示作为下一层Transformer模型输入;具体过程与步骤1.3.2基本相同;利用WordPiece方法处理预处理的日志语句形成token,完成初始词嵌入;
步骤2.4:将经过步骤2.3处理的分布式输入步骤1.5得到的Transformer模型;
步骤2.5:判断尝试登录用户的登录行为是否存在异常,不存在异常则运行登录,否则拒绝登录。
Claims (5)
1.一种基于Transformer模型的异常登录检测方法,其特征在于,包括以下步骤:
步骤1:模型训练;具体包括:
步骤1.1:采集目标系统的用户历史认证日志,包括以下字段信息:登录日期、登录时间、登录类型、登录源和目的地址、所用登录协议类型、日志校验码;所述登录类型分为本地登录和网络登录;
步骤1.2:对用户认证日志进行格式化处理,将日志文档处理为可输入到BERT模型中的条目式语句;根据历史日志标记结果对应语句标签;
步骤1.3:基于BERT模型的嵌入层构建;具体包括:
步骤1.3.1:利用WordPiece方法处理预处理的日志语句形成token,完成初始词嵌入;
步骤1.3.2:混合位置嵌入并送入BERT模型中,得到包含上下文语义的分布式表示作为下一层Transformer模型输入;
步骤1.4:结合BERT的Transformer模型联合训练;具体包括:将BERT所输出的用户认证日志分布式表达输入Transformer模型,再将Transformer模型输出的结果输入Transformer模型后堆叠的Softmax层,计算Softmax层输出与语句标签之间的损失函数;判断损失函数是否满足停止迭代条件,若满足则停止训练,若不满足则依梯度下降算法更新所有参数并迭代步骤1.3;
步骤1.5:得到训练好的Transformer模型;
步骤2:异常登录检测;具体包括:
步骤2.1:采集当前尝试登录用户的认证日志;
步骤2.2:对用户认证日志进行格式化处理,将日志文档处理为可输入到BERT模型中的条目式语句;根据历史日志标记结果对应语句标签;
步骤2.3:基于BERT模型的嵌入层构建;具体包括:
步骤2.3.1:利用WordPiece方法处理预处理的日志语句形成token,完成初始词嵌入;
步骤2.3.2:混合位置嵌入并送入BERT模型中,得到包含上下文语义的分布式表示作为下一层Transformer模型输入;
步骤2.4:将经过步骤2.3处理的分布式输入步骤1.5得到的Transformer模型;
步骤2.5:判断尝试登录用户的登录行为是否存在异常,不存在异常则运行登录,否则拒绝登录。
2.根据权利要求1所述一种基于Transformer模型的异常登录检测方法,其特征在于,所述步骤1.2、步骤2.2中,对日志进行格式化处理,具体包括语句归并、无意义字符剔除、特殊标记嵌入操作。
3.根据权利要求1所述一种基于Transformer模型的异常登录检测方法,其特征在于,所述步骤1.3.1、步骤2.3.1中的具体过程如下:
步骤a1:初始化词表,词表中包含训练日志条目中出现的所有字符;
步骤a2:两两拼接字符,依下述公式计算拼接字符对加入词表后对BERT模型的似然值的提升程度;
,
其中,,/>为相邻位置的两个字符,/>为两个拼接后得到的拼接字符对,/>表示拼接字符对出现的概率,/>表示/>出现的概率,/>表示/>出现的概率;
步骤a3:选择提升BERT模型似然值最大的一组字符加入词表中;
步骤a4:反复步骤a2和步骤a3,直到词表大小达到指定大小;
步骤a5:将词表中的字符送入Token Embedding层,编码为token 向量,完成初始词嵌入。
4.根据权利要求1所述一种基于Transformer模型的异常登录检测方法,其特征在于,所述步骤1.4中,包括如下过程:
步骤b1:Transformer将输入分布式首先进行三种矩阵的线性变换,为自注意力机制提供所需的Q、K、V矩阵,l为一次输入Transformer的tokens数量,也即一条日志语句的长度,/>为输入语句中每个token的特征维度;该过程由下述公式表示:
,
式中,为进行线性变换的三个投影矩阵,/>为矩阵线性变换后的每个行向量的维度,H为输入数据的矩阵表示,多头自注意力机制中使用了多空间映射,/>为多空间映射线性变化中得到的第i个空间的查询矩阵,/>为多空间映射线性变化中得到的第i个空间的生成矩阵,/>为多空间映射线性变化中得到的第i个空间的值矩阵;
步骤b2:计算每个头的注意力值,并对每个语义空间求得的注意力值进行拼接,获得多头自注意力机制的计算结果;计算公式如下:
,
,
式中,,/>表示每个头的注意力值,Concat表示将向量进行拼接,N是Transformer使用的多头自注意力机制中“头”的数量,也即语义空间的数量,满足,/>为实现维度变换功能的矩阵;
步骤b3:将多头注意力机制输出送入前馈神经网络层,捕捉日志语句中复杂的非线性关系;前馈神经网络层计算公式如下:
,
式中,x是前馈神经网络的输入,
,/>,其中/>以及/>均为权重矩阵,以及/>均为偏置矩阵,/>是一个超参数,表示神经元的数目;
步骤b4:将Transformer中前馈神经网络层的输出送入模型后堆叠的Softmax层,得到日志语句表征登录行为异常的概率,并于语句标签计算损失函数,损失函数为交叉熵损失,计算公式如下:
,
其中,为第i个日志语句的标签,正常为1,异常为0,/>为第i个日志语句预测为正常的概率,/>为第i个日志语句的交叉熵,L为所有日志语句的加权交叉熵。
5.根据权利要求1所述一种基于Transformer模型的异常登录检测方法,其特征在于,所述步骤1.4中,判断损失函数是否小于预设值,若损失函数的值不符合迭代停止条件,则通过使用反向传播算法更新Transformer和BERT的参数,其中BERT的学习率和Transformer需要分别设置为与/>。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311632637.8A CN117332411B (zh) | 2023-12-01 | 2023-12-01 | 一种基于Transformer模型的异常登录检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311632637.8A CN117332411B (zh) | 2023-12-01 | 2023-12-01 | 一种基于Transformer模型的异常登录检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117332411A true CN117332411A (zh) | 2024-01-02 |
CN117332411B CN117332411B (zh) | 2024-03-19 |
Family
ID=89283458
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311632637.8A Active CN117332411B (zh) | 2023-12-01 | 2023-12-01 | 一种基于Transformer模型的异常登录检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117332411B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117687890A (zh) * | 2024-02-02 | 2024-03-12 | 山东大学 | 基于操作日志的异常操作识别方法、系统、介质及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114357190A (zh) * | 2021-12-30 | 2022-04-15 | 绿盟科技集团股份有限公司 | 一种数据检测方法、装置、电子设备及存储介质 |
CN115099832A (zh) * | 2022-06-29 | 2022-09-23 | 广州华多网络科技有限公司 | 异常用户检测方法及其装置、设备、介质、产品 |
CN115269834A (zh) * | 2022-06-28 | 2022-11-01 | 国家计算机网络与信息安全管理中心 | 一种基于bert的高精度文本分类方法及装置 |
CN116340039A (zh) * | 2023-03-03 | 2023-06-27 | 同济大学 | 基于预训练BERT句向量与Informer-encoder的日志异常检测方法 |
-
2023
- 2023-12-01 CN CN202311632637.8A patent/CN117332411B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114357190A (zh) * | 2021-12-30 | 2022-04-15 | 绿盟科技集团股份有限公司 | 一种数据检测方法、装置、电子设备及存储介质 |
CN115269834A (zh) * | 2022-06-28 | 2022-11-01 | 国家计算机网络与信息安全管理中心 | 一种基于bert的高精度文本分类方法及装置 |
CN115099832A (zh) * | 2022-06-29 | 2022-09-23 | 广州华多网络科技有限公司 | 异常用户检测方法及其装置、设备、介质、产品 |
CN116340039A (zh) * | 2023-03-03 | 2023-06-27 | 同济大学 | 基于预训练BERT句向量与Informer-encoder的日志异常检测方法 |
Non-Patent Citations (1)
Title |
---|
朱思文等: "知识增强的审计新闻生成式摘要模型", 《哈尔滨理工大学学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117687890A (zh) * | 2024-02-02 | 2024-03-12 | 山东大学 | 基于操作日志的异常操作识别方法、系统、介质及设备 |
CN117687890B (zh) * | 2024-02-02 | 2024-05-03 | 山东大学 | 基于操作日志的异常操作识别方法、系统、介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN117332411B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110414219B (zh) | 基于门控循环单元与注意力机制的注入攻击检测方法 | |
Yang et al. | Automatically generate steganographic text based on markov model and huffman coding | |
CN110933105B (zh) | 一种Web攻击检测方法、系统、介质和设备 | |
CN117332411B (zh) | 一种基于Transformer模型的异常登录检测方法 | |
CN111506702A (zh) | 基于知识蒸馏的语言模型训练方法、文本分类方法及装置 | |
CN111797409B (zh) | 一种大数据中文文本无载体信息隐藏方法 | |
Yang et al. | TS-CNN: Text steganalysis from semantic space based on convolutional neural network | |
Cao et al. | Generative steganography based on long readable text generation | |
CN115794480A (zh) | 一种基于日志语义编码器的系统异常日志检测方法及系统 | |
CN111866004A (zh) | 安全评估方法、装置、计算机系统和介质 | |
CN116402630B (zh) | 一种基于表征学习的财务风险预测方法及系统 | |
Yu et al. | Detecting malicious web requests using an enhanced textcnn | |
Lu et al. | Black-box attacks against log anomaly detection with adversarial examples | |
CN116192537B (zh) | 一种apt攻击报告事件抽取方法、系统和存储介质 | |
Lu et al. | A GAN-based method for generating SQL injection attack samples | |
CN113918936A (zh) | Sql注入攻击检测的方法以及装置 | |
CN115618085B (zh) | 一种基于动态标签的接口数据暴露探测方法 | |
Gogoi et al. | Phishing and Fraudulent Email Detection through Transfer Learning using pretrained transformer models | |
CN111538893A (zh) | 一种从非结构化数据中提取网络安全新词的方法 | |
CN110704611A (zh) | 基于特征解交织的非法文本识别方法及装置 | |
CN107239693B (zh) | 一种基于口令编码规则的分析方法及系统 | |
CN109508544A (zh) | 一种基于mlp的入侵检测方法 | |
Rahim et al. | Hyper-Tuned Convolutional Neural Networks for Authorship Verification in Digital Forensic Investigations. | |
CN114338058A (zh) | 一种信息处理方法、装置和存储介质 | |
Dai et al. | Balancing Robustness and Covertness in NLP Model Watermarking: A Multi-Task Learning Approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |