CN117692261A - 一种基于行为子图表征的恶意Bot识别方法 - Google Patents
一种基于行为子图表征的恶意Bot识别方法 Download PDFInfo
- Publication number
- CN117692261A CN117692261A CN202410157739.7A CN202410157739A CN117692261A CN 117692261 A CN117692261 A CN 117692261A CN 202410157739 A CN202410157739 A CN 202410157739A CN 117692261 A CN117692261 A CN 117692261A
- Authority
- CN
- China
- Prior art keywords
- information
- user
- behavior
- representing
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012512 characterization method Methods 0.000 title claims abstract description 18
- 239000011159 matrix material Substances 0.000 claims abstract description 32
- 238000004220 aggregation Methods 0.000 claims abstract description 16
- 230000002776 aggregation Effects 0.000 claims abstract description 14
- 238000013507 mapping Methods 0.000 claims abstract description 7
- 230000006399 behavior Effects 0.000 claims description 91
- 238000004364 calculation method Methods 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 239000003795 chemical substances by application Substances 0.000 claims description 7
- 230000003542 behavioural effect Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 4
- 238000005096 rolling process Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000003860 storage Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 235000014510 cooky Nutrition 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/1396—Protocols specially adapted for monitoring users' activity
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/535—Tracking the activity of the user
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer And Data Communications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种基于行为子图表征的恶意Bot识别方法,通过数据缓冲区从访问请求数据流和行为数据流中获取用户会话数据;对行为信息进行映射,得到行为特征表示;基于用户信息和行为特征表示构建用户‑行为对;基于用户信息和请求数据中的访问目标信息构建用户‑访问目标对;从用户信息中分离出用户偏移信息;基于用户信息、用户偏移信息、行为信息、访问目标信息设计节点;基于用户‑行为对和用户‑访问目标对之间的连接关系,得到关联矩阵;以归一化后的关联矩阵作为权重边;基于节点和权重边构建会话子图;将会话子图输入至基于LSTM聚合的图网络分类器,得到最终节点的信息表示;基于最终节点的信息表示得到恶意Bot识别结果。
Description
技术领域
本申请涉及恶意Bot识别技术领域,特别是涉及一种基于行为子图表征的恶意Bot识别方法。
背景技术
恶意Bot识别是一种在网络和计算机系统中用于检测和区分正常人类用户和自动化程序(机器人、bots)之间行为的技术。
目前,在实际的Web服务中使用图神经网络还存在以下几个问题:
1、传统的会话数据的处理一般是针对于基础的统计特征分析,一般集中在处理显性可观测的突出特征中,这种统计特征无法还原用户的行为,正常用户的统计特征较为丰富,误判概率较大;其次,统计特征在交叉计算的过程中,容易引入噪声,会对模型学习产生负面影响。
2、以往的图建模一般是以单类型信息(文本或其他信息)作为节点表示,由于会话数据的复杂性,单类型节点不满足当前节点表示的条件。
3、目前图神经网络的边设计主要依赖于自然边的形成,自然边无法捕获用户行为和访问目标之间的高阶信息,也无法反映用户的行为或访问的频率。
4、以网络的图网络分类器一般采用卷积和注意力机制进行信息的融合计算,这两种方式对于序列信息的变化过程不能很好的表示和聚合,会存在一定的交叉影响。
发明内容
基于此,有必要提供一种基于行为子图表征的恶意Bot识别方法。
本发明提供了一种基于行为子图表征的恶意Bot识别方法,该方法包括:
S1:收集访问请求数据流和行为数据流;
S2:设置一数据缓冲区,通过所述数据缓冲区从访问请求数据流和行为数据流中获取用户会话数据;
所述用户会话数据包括用户信息、请求数据和行为信息;
S3:对所述行为信息进行映射,得到行为特征表示;
基于所述用户信息和所述行为特征表示构建用户-行为对;
基于所述用户信息和所述请求数据中的访问目标信息构建用户-访问目标对;
S4:从所述用户信息中分离出用户偏移信息;
基于所述用户信息、用户偏移信息、行为信息、访问目标信息设计节点;
基于所述用户-行为对和所述用户-访问目标对之间的连接关系,得到关联矩阵;以归一化后的关联矩阵作为权重边;
基于所述节点和所述权重边构建会话子图;
S5:将所述会话子图输入至基于LSTM聚合的图网络分类器,得到最终节点的信息表示;基于最终节点的信息表示得到恶意Bot识别结果。
本发明提供的这种方法具有以下有益效果:
1、该方法摒弃了直接通过统计特征进行恶意Bot行为识别的方法,而是通过采用对行为信息进行映射等方式,只提取重要信息,可以减少交叉计算时的噪声干扰;并且通过形成节点和权重边进行图建模,最大程度的还原用户的行为特征,对识别结果有较大提升;
2、以用户信息、用户偏移信息、行为信息、访问目标信息设计节点,提高了对用户行为和访问目的的表达,进而可以更准确的检测到恶意Bot的异常行为倾向,提高了模型的泛化性以及准确性;
3、会话子图既能准确融合用户的行为信息,又能捕获行为发生之后的访问信息,获取用户行为和访问结构之间的高阶信息;其次,会话子图中的边为权重边,以反映用户的行为或访问的频率,从而增加模型检测时的信息量,对于模型的精度有很大提升;
4、采用LSTM聚合的图网络分类器,对用户信息在图运算的基础上进行序列聚合,能够在图网络的高阶信息的基础上捕捉用户偏移信息相对于用户信息的变化和偏移效果,挖掘会话子图结构的序列相关性,提高模型精度;
5、该方法能够在恶意Bot识别任务中取得较好的效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的基于行为子图表征的恶意Bot识别方法的流程图。
图2为本申请实施例的数据缓冲区的处理流程图。
图3为本申请实施例的得到恶意Bot识别结果的流程图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似改进,因此本申请不受下面公开的具体实施例的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
如图1所示,本实施例提供了一种基于行为子图表征的恶意Bot识别方法,该方法包括:
S1:收集访问请求数据流和行为数据流。
S2:设置一数据缓冲区,通过所述数据缓冲区从访问请求数据流和行为数据流中获取用户会话数据;
所述用户会话数据包括用户信息、请求数据和行为信息。
具体的,如图2所示,数据缓冲区的处理流程包括:
步骤1:在持续产生的所述访问请求数据流和所述行为数据流中,记录会话ID以及产生所述会话ID的初始时间;
步骤2:从当前的所述会话ID对应的所述访问请求数据流以及所述行为数据流中提取出所述用户会话数据,并记录发生时间;
步骤3:当会话ID对应的所述初始时间与所述发生时间之间的间隔大于设定时间间隔时,判定会话过期,以所述会话ID对应的所述用户会话数据进行S3;
否则,判定会话未过期,重复执行步骤2,直至未产生所述访问请求数据流和所述行为数据流。
传统的数据缓冲区的设置方式有很多,而且应用比较成熟,例如内存缓存、数据库存储、文件系统存储等。考虑到服务器面临着大量并发访问的需求,数据缓冲区的设置应当支持这种高负载的要求,在本实施例中使用数据库存储的方式进行数据缓冲区的设置,通过服务器标记的同一会话ID统计和整合同一个用户的会话数据,考虑到正常用户的行为响应和会话序列模式,将所述设定时间间隔为5分钟,这样可以得到在过去5分钟内某个用户的所有会话数据。
通过该数据缓冲区从数据流中获取用户会话数据,有利于模拟用户的行为,统计用户的操作方式,提高检测的效果;其次,记录发生时间有利于获取时间差信息,进而通过设置边权重将时间特征融合到模型中,提高模型的检测精度。
S3:对所述行为信息进行映射,得到行为特征表示;
基于所述用户信息和所述行为特征表示构建用户-行为对。
具体的,构建用户-行为对的过程包括:
步骤1:所述行为信息为前端事件行为的数据,其包括但不限于鼠标活动和键盘活动;
采用d维特征对所述行为信息进行映射,d维特征的前段、中段和后段分别表示鼠标坐标位置、键盘输入的键、鼠标滚动的方向;
步骤2:对所述鼠标坐标位置、所述键盘输入的键、所述鼠标滚动的方向分别进行映射,得到三种不同的正态分布;
步骤3:拼接三种不同的所述正态分布,得到所述行为特征表示,计算公式为:
;
其中,N a 表示行为特征表示;Norm(pos)表示鼠标坐标位置的正态分布;Norm(loc)表示键盘输入的键的正态分布;Norm(direct)表示鼠标滚动的方向的正态分布;表示d维实数域;
步骤4:提取当前的所述用户会话数据中用户的用户代理、请求头,以所述用户的用户代理、请求头以及所述用户会话数据对应的会话ID作为用户信息,并记录第二发生时间;
步骤5:根据所述用户信息、所述行为特征表示以及所述第二发生时间,构建所述用户-行为对;所述用户-行为对记为:,其中,N u 表示用户信息,T 2表示第二发生时间。
基于所述用户信息和所述请求数据中的访问目标信息构建用户-访问目标对。
具体的,构建用户-访问目标对的过程包括:
提取当前的所述用户会话数据中所述请求数据中的访问目标信息,并记录第三发生时间;
所述访问目标信息包括URL、响应码、请求方法;
根据所述用户信息、所述访问目标信息以及所述第三发生时间,构建所述用户-访问目标对;所述用户-访问目标对记为:,其中,N u 表示用户信息,N t 表示访问目标信息,T 3表示第三发生时间。
进一步的,S3步骤还包括:过期会话对应的所述用户会话数据中的所有所述请求数据、所述行为信息,经过S3,得到多个所述用户-行为对以及多个所述用户-访问目标对。
传统的会话数据的处理一般是针对于基础的统计特征分析,一般集中在处理显性可观测的突出特征中,例如:会话中URL重复比、URL种类、Cookie重复比等字段的统计值,以及行为统计特征如鼠标点击次数等;但是,这种统计特征无法还原用户的行为,正常用户的统计特征较为丰富,误判概率较大;其次,统计特征在交叉计算的过程中,容易引入噪声,会对模型学习产生负面影响。因此,本实施例通过构建用户-行为对、用户-访问目标对,最大程度的还原用户的行为特征,并且,依赖于图神经网络的学习,本实施例仅提取代表节点的重点信息,防止噪声干扰。
相比较于传统的会话数据的处理方式,本实施例的构建过程只提取重要信息,可以减少交叉计算时的噪声干扰;其次,行为特征表示可以形成图节点,基于构建的用户-行为对、用户-访问目标对可以得到权重边,通过图建模还原用户的行为特征,对预测恶意Bot识别结果有较大的提升。
S4:从所述用户信息中分离出用户偏移信息。
具体的,所述从所述用户信息中分离出用户偏移信息包括:
在所有所述用户信息中,判断是否存在与当前所述用户信息中所述用户的用户代理、所述请求头以及所述用户会话数据对应的会话ID均一致的所述用户信息,若不存在则将当前所述用户信息作为所述用户偏移信息,否则对当前所述用户信息不做任何处理。
目前现有的分类技术主要是基于特征提取并使用机器学习模型如聚类分析进行分类,或者采用分类模型例如马尔科夫链、GRU模型等等,这样往往是根据时序特征或者统计特征表示进行分类;由于用户会话结构的复杂性和多样性,这种方式不能考虑用户操作行为和访问行为之间存在的关联,获取不到隐藏的高阶信息,而在恶意Bot识别任务中,这种用户行为和访问之间存在的高阶信息也是影响分类精度的关键特征,由于图神经网络可以融合和提取节点之间的高阶表示,因此,本实施例使用图神经网络的方法对点与点之间的关联进行表示更为准确。
基于所述用户信息、用户偏移信息、行为信息、访问目标信息设计节点。
具体的,所述基于所述用户信息、用户偏移信息、行为信息、访问目标信息设计节点包括:
步骤1:采用字符分词的形式分别对所述用户信息、所述用户偏移信息、所述访问目标信息进行分词;
步骤2:采用随机词嵌入的方式对分词结果进行词嵌入表示,得到信息集合;计算公式为:
;
其中,V N 表示信息集合,;embedding()表示词向量映射;set()表示集合生成;N u 表示用户信息;N' u 表示用户偏移信息;N t 表示访问目标信息;/>表示d维实数域;
步骤3:将所述行为特征表示与所述信息集合拼接,得到所有的节点;计算公式为:
V=V N ||N a ;
其中,V表示所有的节点,;n表示节点的数量;N a 表示行为特征表示。
基于所述用户-行为对和所述用户-访问目标对之间的连接关系,得到关联矩阵;以归一化后的关联矩阵作为权重边。
目前图神经网络的边设计主要依赖于自然边的形成,例如:上述过程中已经形成的用户-行为对、用户-访问目标对,然而这种自然边在恶意Bot任务上仍然存在着两个缺陷,一是无法捕获用户行为和访问目标之间的高阶信息,行为的发生可能会触发一定的访问目标,这两者之间有着隐藏关联;二是无法反映用户的行为或访问的频率,访问和行为的时间对检测恶意Bot有极为重要的影响。因此,在边设计中增加用户-偏移用户对加入会话子图中,可以捕获用户行为和访问目标之间的高阶信息,同时,根据节点与节点之间时间差值将边信息设置为时序权重边。
具体的,得到权重边的过程包括:
步骤1:设计一初始关联矩阵表示边的连接关系,并将所述初始关联矩阵初始化为0;n表示节点的数量;
步骤2:基于初始化的所述初始关联矩阵,按照发生时间的顺序读取所有的所述用户-行为对与所有所述用户-访问目标对之间的连接关系,得到所述关联矩阵;计算公式为:
;
其中,A ij 表示第i个节点与第j个节点之间的边的权重值;T i 表示第i个节点对应的发生时间;T j 表示第j个节点对应的发生时间;N u 表示用户信息;N a 表示行为特征表示;N t 表示访问目标信息;S表示所有用户信息构成的集合;
对步骤2中的公式进行说明,当此时的用户信息对应的节点i与某个节点j相关时,边的权重为A ij =T j ;同时将用户信息加入到所有用户信息构成的集合中,对比用户信息的集合中是否存在与当前用户信息中所述用户的用户代理、所述请求头以及所述用户会话数据对应的会话ID均一致的所述用户信息对应的节点,若不存在则记录当前的用户偏移信息对应的节点i,并构建用户-偏移用户信息对,则用户-偏移用户信息对这条边的权重为A (i-1)i =T i ,并将用户偏移信息加入到用户信息的集合中。
步骤3:对所述关联矩阵进行归一化,并以归一化后的关联矩阵作为所述权重边。由于时间差作为权重无法进行直接计算,而且对计算结果偏向有很大影响,因此对其进行归一化,时间间隔越小,权重值越大,采用5分钟对其规约到0-1之间,归一化计算公式为:
;
其中,A表示归一化后的关联矩阵;A 2表示关联矩阵。
相比于自然边来设计边,通过增加用户-偏移用户对加入会话子图中,既能准确融合用户的行为信息,又能捕获行为发生之后的访问信息,获取用户行为和访问结构之间的高阶信息,其次,根据节点与节点之间时间差值将边信息设置为时序权重边,能够反映用户的行为或访问的频率,从而增加模型检测时的信息量,对于模型的精度有很大提升。
基于所述节点和所述权重边构建会话子图。
S5:将所述会话子图输入至基于LSTM聚合的图网络分类器,得到最终节点的信息表示;基于最终节点的信息表示得到恶意Bot识别结果。
具体的,如图3所示,得到恶意Bot识别结果的过程包括:
步骤1:在基于LSTM聚合的图网络分类器的第k层中,输入的节点的信息表示及其对应的所述权重边通过LSTM聚合的图网络分类器中的LSTM聚合计算模块进行计算,得到邻接节点的信息表示;计算公式为:
;
其中,表示LSTM聚合的图网络分类器第k层中第i个邻接节点的信息表示;表示第i个节点的邻居集合;A ji 表示第j个节点与第i个节点之间的边的权重值;
对所有的节点的信息表示及其对应的所述权重边进行计算,得到所有的邻接节点的信息表示,所有的邻接节点的信息表示记为:;n表示节点的数量;d表示d维实数域;
步骤2:所有的邻接节点的信息表示通过LSTM聚合的图网络分类器中的源节点更新模块进行计算,得到更新后的节点的信息表示;计算公式为:
;
其中,h k 表示更新后的节点的信息表示;σ(·)表示非线性激活函数;W 1表示第一可训练矩阵,;W 2表示第二可训练矩阵,/>;
步骤3:以LSTM聚合的图网络分类器的层数为终止条件,重复执行步骤1-2,得到最终节点的信息表示;
步骤4:基于所述最终节点的信息表示计算得到所述恶意Bot识别结果;对最终节点的信息表示去平均值,此时输出信息的维度为d,然后经过一个全连接层将维度降为2,计算公式为:
;
其中,y表示恶意Bot识别结果,所述恶意Bot识别结果为二分类结果,其包括恶意Bot或正常用户;h L 表示最终节点的信息表示,L为LSTM聚合的图网络分类器的层数;Mean(·)表示平均值函数;W 0表示全连接层中的第三可训练矩阵;b 0表示全连接层中的第四可训练矩阵。
以往的图网络分类器一般采用卷积和注意力机制进行信息的融合计算,这两种方式对于离散节点有很好的效果,但是,对于序列信息的变化过程不能很好地表示,为了更好的捕捉用户偏移信息相对于用户信息的变化和偏移效果,采用基于LSTM聚合的图网络分类器,对用户信息的序列在图运算的基础上进行序列聚合,能够在图网络的高阶信息的基础上捕捉用户偏移信息相对于用户信息的变化和偏移效果,挖掘会话子图结构的序列相关性,提高模型精度。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于行为子图表征的恶意Bot识别方法,其特征在于,包括:
S1:收集访问请求数据流和行为数据流;
S2:设置一数据缓冲区,通过所述数据缓冲区从访问请求数据流和行为数据流中获取用户会话数据;
所述用户会话数据包括用户信息、请求数据和行为信息;
S3:对所述行为信息进行映射,得到行为特征表示;
基于所述用户信息和所述行为特征表示构建用户-行为对;
基于所述用户信息和所述请求数据中的访问目标信息构建用户-访问目标对;
S4:从所述用户信息中分离出用户偏移信息;
基于所述用户信息、用户偏移信息、行为信息、访问目标信息设计节点;
基于所述用户-行为对和所述用户-访问目标对之间的连接关系,得到关联矩阵;以归一化后的关联矩阵作为权重边;
基于所述节点和所述权重边构建会话子图;
S5:将所述会话子图输入至基于LSTM聚合的图网络分类器,得到最终节点的信息表示;基于最终节点的信息表示得到恶意Bot识别结果。
2.根据权利要求1所述的基于行为子图表征的恶意Bot识别方法,其特征在于,S2中,数据缓冲区的处理流程包括:
步骤1:在持续产生的所述访问请求数据流和所述行为数据流中,记录会话ID以及产生所述会话ID的初始时间;
步骤2:从当前的所述会话ID对应的所述访问请求数据流以及所述行为数据流中提取出所述用户会话数据,并记录发生时间;
步骤3:当会话ID对应的所述初始时间与所述发生时间之间的间隔大于设定时间间隔时,判定会话过期,以所述会话ID对应的所述用户会话数据进行S3;
否则,判定会话未过期,重复执行步骤2,直至未产生所述访问请求数据流和所述行为数据流。
3.根据权利要求2所述的基于行为子图表征的恶意Bot识别方法,其特征在于,所述设定时间间隔为5分钟。
4.根据权利要求2所述的基于行为子图表征的恶意Bot识别方法,其特征在于,S3中,构建用户-行为对的过程包括:
步骤1:所述行为信息为前端事件行为的数据,其包括鼠标活动和键盘活动;
采用d维特征对所述行为信息进行映射,d维特征的前段、中段和后段分别表示鼠标坐标位置、键盘输入的键、鼠标滚动的方向;
步骤2:对所述鼠标坐标位置、所述键盘输入的键、所述鼠标滚动的方向分别进行映射,得到三种不同的正态分布;
步骤3:拼接三种不同的所述正态分布,得到所述行为特征表示,计算公式为:
;
其中,N a 表示行为特征表示;Norm(pos)表示鼠标坐标位置的正态分布;Norm(loc)表示键盘输入的键的正态分布;Norm(direct)表示鼠标滚动的方向的正态分布;表示d维实数域;
步骤4:提取当前的所述用户会话数据中用户的用户代理、请求头,以所述用户的用户代理、请求头以及所述用户会话数据对应的会话ID作为用户信息,并记录第二发生时间;
步骤5:根据所述用户信息、所述行为特征表示以及所述第二发生时间,构建所述用户-行为对;所述用户-行为对记为:,其中,N u 表示用户信息,T 2表示第二发生时间。
5.根据权利要求4所述的基于行为子图表征的恶意Bot识别方法,其特征在于,S3中,所述基于所述用户信息和所述请求数据中的访问目标信息构建用户-访问目标对包括:
提取当前的所述用户会话数据中所述请求数据中的访问目标信息,并记录第三发生时间;
所述访问目标信息包括URL、响应码、请求方法;
根据所述用户信息、所述访问目标信息以及所述第三发生时间,构建所述用户-访问目标对;所述用户-访问目标对记为:,其中,N u 表示用户信息,N t 表示访问目标信息,T 3表示第三发生时间。
6.根据权利要求2所述的基于行为子图表征的恶意Bot识别方法,其特征在于,S3中,还包括:过期会话对应的所述用户会话数据中的所有所述请求数据、所述行为信息,经过S3,得到多个所述用户-行为对以及多个所述用户-访问目标对。
7.根据权利要求4所述的基于行为子图表征的恶意Bot识别方法,其特征在于,S4中,所述从所述用户信息中分离出用户偏移信息包括:
在所有所述用户信息中,判断是否存在与当前所述用户信息中所述用户的用户代理、所述请求头以及所述用户会话数据对应的会话ID均一致的所述用户信息,若不存在则将当前所述用户信息作为所述用户偏移信息,否则对当前所述用户信息不做任何处理。
8.根据权利要求4所述的基于行为子图表征的恶意Bot识别方法,其特征在于,S4中,所述基于所述用户信息、用户偏移信息、行为信息、访问目标信息设计节点包括:
步骤1:采用字符分词的形式分别对所述用户信息、所述用户偏移信息、所述访问目标信息进行分词;
步骤2:采用随机词嵌入的方式对分词结果进行词嵌入表示,得到信息集合;计算公式为:
;
其中,V N 表示信息集合,;embedding()表示词向量映射;set()表示集合生成;N u 表示用户信息;N' u 表示用户偏移信息;N t 表示访问目标信息;/>表示d维实数域;
步骤3:将所述行为特征表示与所述信息集合拼接,得到所有的节点;计算公式为:
V=V N ||N a ;
其中,V表示所有的节点,;n表示节点的数量;N a 表示行为特征表示。
9.根据权利要求6所述的基于行为子图表征的恶意Bot识别方法,其特征在于,S4中,得到权重边的过程包括:
步骤1:设计一初始关联矩阵表示边的连接关系,并将所述初始关联矩阵初始化为0;n表示节点的数量;
步骤2:基于初始化的所述初始关联矩阵,按照发生时间的顺序读取所有的所述用户-行为对与所有所述用户-访问目标对之间的连接关系,得到所述关联矩阵;计算公式为:
;
其中,A ij 表示第i个节点与第j个节点之间的边的权重值;T i 表示第i个节点对应的发生时间;T j 表示第j个节点对应的发生时间;N u 表示用户信息;N a 表示行为特征表示;N t 表示访问目标信息;S表示所有用户信息构成的集合;
步骤3:对所述关联矩阵进行归一化,并以归一化后的关联矩阵作为所述权重边;归一化计算公式为:
;
其中,A表示归一化后的关联矩阵;A 2表示关联矩阵。
10.根据权利要求1所述的基于行为子图表征的恶意Bot识别方法,其特征在于,S5中,得到恶意Bot识别结果的过程包括:
步骤1:输入的节点的信息表示及其对应的所述权重边通过LSTM聚合的图网络分类器中的LSTM聚合计算模块进行计算,得到邻接节点的信息表示;计算公式为:
;
其中,表示LSTM聚合的图网络分类器第k层中第i个邻接节点的信息表示;/>表示第i个节点的邻居集合;A ji 表示第j个节点与第i个节点之间的边的权重值;
对所有的节点的信息表示及其对应的所述权重边进行计算,得到所有的邻接节点的信息表示,所有的邻接节点的信息表示记为:;n表示节点的数量;d表示d维实数域;
步骤2:所有的邻接节点的信息表示通过LSTM聚合的图网络分类器中的源节点更新模块进行计算,得到更新后的节点的信息表示;计算公式为:
;
其中,h k 表示更新后的节点的信息表示;σ(·)表示非线性激活函数;W 1表示第一可训练矩阵,;W 2表示第二可训练矩阵,/>;
步骤3:以LSTM聚合的图网络分类器的层数为终止条件,重复执行步骤1-2,得到最终节点的信息表示;
步骤4:基于所述最终节点的信息表示计算得到所述恶意Bot识别结果;计算公式为:
;
其中,y表示恶意Bot识别结果,所述恶意Bot识别结果为二分类结果,其包括恶意Bot或正常用户;h L 表示最终节点的信息表示,L为LSTM聚合的图网络分类器的层数;Mean(·)表示平均值函数;W 0表示全连接层中的第三可训练矩阵;b 0表示全连接层中的第四可训练矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410157739.7A CN117692261B (zh) | 2024-02-04 | 2024-02-04 | 一种基于行为子图表征的恶意Bot识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410157739.7A CN117692261B (zh) | 2024-02-04 | 2024-02-04 | 一种基于行为子图表征的恶意Bot识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117692261A true CN117692261A (zh) | 2024-03-12 |
CN117692261B CN117692261B (zh) | 2024-04-05 |
Family
ID=90137603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410157739.7A Active CN117692261B (zh) | 2024-02-04 | 2024-02-04 | 一种基于行为子图表征的恶意Bot识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117692261B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3223458A1 (en) * | 2016-03-24 | 2017-09-27 | Cisco Technology, Inc. | Mechanisms to prevent anomaly detectors from learning anomalous patterns |
CN109858244A (zh) * | 2019-01-16 | 2019-06-07 | 四川大学 | 一种容器内进程异常行为检测方法与系统 |
US20210034737A1 (en) * | 2019-07-30 | 2021-02-04 | Sakif Hossain Khan | Detection of adverserial attacks on graphs and graph subsets |
US20210075805A1 (en) * | 2019-09-06 | 2021-03-11 | Paypal, Inc. | Anomaly behavior detection in interactive networks |
CN113961922A (zh) * | 2021-10-27 | 2022-01-21 | 浙江网安信创电子技术有限公司 | 一种基于深度学习的恶意软件行为检测与分类系统 |
CN113992349A (zh) * | 2021-09-23 | 2022-01-28 | 云南财经大学 | 恶意流量识别方法、装置、设备和存储介质 |
CN114422211A (zh) * | 2021-12-30 | 2022-04-29 | 中国人民解放军战略支援部队信息工程大学 | 基于图注意力网络的http恶意流量检测方法及装置 |
WO2022088972A1 (zh) * | 2020-10-30 | 2022-05-05 | 广州大学 | 面向带权异质图的恶意行为识别方法、系统和存储介质 |
CN115758355A (zh) * | 2022-11-21 | 2023-03-07 | 中国科学院信息工程研究所 | 一种基于细粒度访问控制的勒索软件防御方法及系统 |
CN117014182A (zh) * | 2023-06-28 | 2023-11-07 | 中国人民解放军火箭军工程大学 | 一种基于lstm的恶意流量检测方法及装置 |
-
2024
- 2024-02-04 CN CN202410157739.7A patent/CN117692261B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3223458A1 (en) * | 2016-03-24 | 2017-09-27 | Cisco Technology, Inc. | Mechanisms to prevent anomaly detectors from learning anomalous patterns |
CN109858244A (zh) * | 2019-01-16 | 2019-06-07 | 四川大学 | 一种容器内进程异常行为检测方法与系统 |
US20210034737A1 (en) * | 2019-07-30 | 2021-02-04 | Sakif Hossain Khan | Detection of adverserial attacks on graphs and graph subsets |
US20210075805A1 (en) * | 2019-09-06 | 2021-03-11 | Paypal, Inc. | Anomaly behavior detection in interactive networks |
WO2022088972A1 (zh) * | 2020-10-30 | 2022-05-05 | 广州大学 | 面向带权异质图的恶意行为识别方法、系统和存储介质 |
CN113992349A (zh) * | 2021-09-23 | 2022-01-28 | 云南财经大学 | 恶意流量识别方法、装置、设备和存储介质 |
CN113961922A (zh) * | 2021-10-27 | 2022-01-21 | 浙江网安信创电子技术有限公司 | 一种基于深度学习的恶意软件行为检测与分类系统 |
CN114422211A (zh) * | 2021-12-30 | 2022-04-29 | 中国人民解放军战略支援部队信息工程大学 | 基于图注意力网络的http恶意流量检测方法及装置 |
CN115758355A (zh) * | 2022-11-21 | 2023-03-07 | 中国科学院信息工程研究所 | 一种基于细粒度访问控制的勒索软件防御方法及系统 |
CN117014182A (zh) * | 2023-06-28 | 2023-11-07 | 中国人民解放军火箭军工程大学 | 一种基于lstm的恶意流量检测方法及装置 |
Non-Patent Citations (4)
Title |
---|
刘蓉;陈波;于泠;刘亚尚;陈思远;: "恶意社交机器人检测技术研究", 通信学报, no. 2, 30 November 2017 (2017-11-30) * |
王传栋;叶青;姚橹;刘尚东;季一木;王汝传;: "基于大数据的网络恶意行为及特征关联分析", 太原理工大学学报, no. 02, 15 March 2018 (2018-03-15) * |
穆荣;: "网络域名用户异常访问行为信息精准识别仿真", 计算机仿真, no. 07, 15 July 2018 (2018-07-15) * |
肖达;刘博寒;崔宝江;王晓晨;张索星;: "基于程序基因的恶意程序预测技术.", 网络与信息安全学报, no. 08, 15 August 2018 (2018-08-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN117692261B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108737406B (zh) | 一种异常流量数据的检测方法及系统 | |
CN111476315B (zh) | 一种基于统计相关性与图卷积技术的图像多标签识别方法 | |
CN113468227B (zh) | 基于图神经网络的信息推荐方法、系统、设备和存储介质 | |
CN113127705B (zh) | 一种异构双向生成对抗网络模型及时间序列异常检测方法 | |
CN109829721B (zh) | 基于异质网络表征学习的线上交易多主体行为建模方法 | |
Nie et al. | Implicit weight learning for multi-view clustering | |
CN109033845B (zh) | 基于文件访问记录时空分析的伪装者检测方法及系统 | |
Hewapathirana | Change detection in dynamic attributed networks | |
Rahman et al. | New biostatistics features for detecting web bot activity on web applications | |
CN114707571A (zh) | 基于增强隔离森林的信用数据异常检测方法 | |
Xue et al. | An anomaly detection framework for time-evolving attributed networks | |
Zhu et al. | Anomaly detection with deep graph autoencoders on attributed networks | |
Qin et al. | Finger-vein quality assessment based on deep features from grayscale and binary images | |
CN115391670A (zh) | 一种基于知识图谱的互联网行为分析方法与系统 | |
CN110347669A (zh) | 基于流式大数据分析的风险防范方法 | |
Kang et al. | Self-paced principal component analysis | |
Basterrech et al. | A Continual Learning System with Self Domain Shift Adaptation for Fake News Detection | |
CN111612531B (zh) | 一种点击欺诈的检测方法及系统 | |
CN117692261B (zh) | 一种基于行为子图表征的恶意Bot识别方法 | |
CN117009613A (zh) | 一种图数据分类方法、系统、装置及介质 | |
CN114912109B (zh) | 一种基于图嵌入的异常行为序列识别方法及系统 | |
Kwok et al. | Dataset Difficulty and the Role of Inductive Bias | |
İş et al. | A Profile Analysis of User Interaction in Social Media Using Deep Learning. | |
CN114519605A (zh) | 广告点击欺诈检测方法、系统、服务器和存储介质 | |
Chauhan et al. | Bertops: Studying bert representations under a topological lens |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |