CN117539918A - 用户异常行为分析方法及系统 - Google Patents

用户异常行为分析方法及系统 Download PDF

Info

Publication number
CN117539918A
CN117539918A CN202311490838.9A CN202311490838A CN117539918A CN 117539918 A CN117539918 A CN 117539918A CN 202311490838 A CN202311490838 A CN 202311490838A CN 117539918 A CN117539918 A CN 117539918A
Authority
CN
China
Prior art keywords
behavior
user
data
abnormal
carrying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311490838.9A
Other languages
English (en)
Inventor
王阳
刘丽哲
周黄鑫
蔡祥睿
徐思涵
袁晓洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
CETC 54 Research Institute
Original Assignee
Nankai University
CETC 54 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University, CETC 54 Research Institute filed Critical Nankai University
Priority to CN202311490838.9A priority Critical patent/CN117539918A/zh
Publication of CN117539918A publication Critical patent/CN117539918A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • G06F18/15Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据处理技术领域,公开了一种用户异常行为分析方法及系统,用于提高用户异常行为分析的准确率。方法包括:从预置的数据库中采集用户历史行为数据,并对所述用户历史行为数据进行编码映射,得到行为编码集合;对所述行为编码集合进行用户意图向量转换,得到用户行为意图向量集合;对所述用户行为意图向量集合进行数据增强处理,得到增强向量集合;将所述增强向量集合输入预置的用户行为检测模型进行用户行为预测,得到预测用户行为;对所述预测用户行为进行异常分值计算,得到目标异常分值,并通过所述目标异常分值进行行为分析,得到行为分析结果,其中,所述行为分析结果为异常或正常。

Description

用户异常行为分析方法及系统
技术领域
本发明涉及数据处理技术领域,尤其涉及一种用户异常行为分析方法及系统。
背景技术
随着信息与智能技术的发展,新兴技术与业务创新不断打破组织机构的安全边界,为组织机构信息安全带来了前所未有的挑战。一方面,用户和实体的多样性增加,比如用户从雇员、外包人员,发展到合作伙伴、顾客等;设备从台式机、个人电脑,发展到手机、平板等各种移动设备。此外,同一用户可能使用多台设备登录和访问,这些都增加了用户和设备管理的难度。同时,大规模组织、机构办公地点遍布全国,甚至全世界,地理位置的分散性进一步增加了身份管理的复杂性,其数据资产也面临着日益严峻的安全威胁。一般情况下,用户访问主机的操作行为会以日志形式进行记录,因此,基于用户行为的异常检测方法常从系统日志中挖掘用户的行为数据,并对行为数据加以分析进行异常检测。
用户在组织机构内的操作可以汇总为一系列行为序列,例如“登录”、“打开文件”、“连接U盘”、“登出”等。由于恶意或异常行为总是不同于正常行为,现有的异常行为检测研究主要依赖于利用异常检测或分类的方法来检测异常用户或异常时间窗口,只有一项研究将注意力转向了行为级别的用户异常行为检测,遗憾的是,它采用的是事后分析的方式。然而,实时的行为级别用户异常行为检测任务更加重要。事后检测一般来说是定期收集特定时间段内的用户行为,在获得该时间段的所有信息后进行数据分析,检测该时间段内是否存在用户异常行为。相比之下,实时的行为级别用户异常行为检测侧重于在运行时监视信息系统,并检测用户当前的行为是否构成威胁。它使企业和组织能够在用户异常行为发生后立即识别,并能够迅速做出响应,从而有效减少用户异常行为的负面影响。要实现这一点是相当不容易的,因为将数据粒度精细到行为级别,检测难度更大,需要能够识别出细小差异导致的异常,同时粒度更小意味着需要检测的样本越多,正负样本不平衡的问题也变的极其严重,假阳性问题不可忽略,最后,由于实时性的要求,只能观察到该行为发生之前的上下文,如何提高检测准确性是至关重要的。
发明内容
有鉴于此,本发明实施例提供了一种用户异常行为分析方法及系统,用于提高用户异常行为分析的准确率。
本发明提供了一种用户异常行为分析方法,包括:从预置的数据库中采集用户历史行为数据,并对所述用户历史行为数据进行编码映射,得到行为编码集合;对所述行为编码集合进行用户意图向量转换,得到用户行为意图向量集合;对所述用户行为意图向量集合进行数据增强处理,得到增强向量集合;将所述增强向量集合输入预置的用户行为检测模型进行用户行为预测,得到预测用户行为;对所述预测用户行为进行异常分值计算,得到目标异常分值,并通过所述目标异常分值进行行为分析,得到行为分析结果,其中,所述行为分析结果为异常或正常。
在本发明中,所述从预置的数据库中采集用户历史行为数据,并对所述用户历史行为数据进行编码映射,得到行为编码集合步骤,包括:对所述用户历史行为数据进行关键字段提取,得到关键字段数据;对所述关键字段数据进行用户ID分析,得到至少一个用户ID数据;基于至少一个所述用户ID数据,对所述用户历史行为数据进行数据排序,得到至少一个用户行为列表;基于至少一个用户行为列表,对所述用户历史行为数据进行编码映射,得到行为编码集合。
在本发明中,所述基于至少一个用户行为列表,对所述用户历史行为数据进行编码映射,得到行为编码集合步骤,包括:基于至少一个用户行为列表,对所述用户历史行为数据进行用户行为提取,得到多个用户行为;对每个所述用户行为进行行为类型进行分析,得到每个所述用户行为的行为类型;基于每个所述用户行为的行为类型,对所述用户历史行为数据进行编码映射,得到行为编码集合。
在本发明中,所述对所述行为编码集合进行用户意图向量转换,得到用户行为意图向量集合步骤,包括:将所述行为编码集合投影预置的嵌入空间,得到多个嵌入向量特征;基于多个所述嵌入向量特征进行嵌入序列生成,得到行为嵌入序列;对所述行为嵌入序列进行时序关系分析,得到对应的时序关系;基于所述时序关系提取时间步集合,并对所述时间步集合进行隐藏状态向量生成,得到多个隐藏状态向量;基于多个所述隐藏状态向量,对所述行为嵌入序列进行多头注意力池化处理,得到所述用户行为意图向量集合。
在本发明中,所述基于多个所述隐藏状态向量,对所述行为嵌入序列进行多头注意力池化处理,得到所述用户行为意图向量集合步骤,包括:对多个所述隐藏状态向量进行注意力分数计算,得到注意力分数集合;对所述注意力分数集合进行归一化处理,得到归一化分数数据;通过所述归一化分数数据,对所述行为嵌入序列进行多头注意力池化处理,得到所述用户行为意图向量集合。
在本发明中,所述对所述用户行为意图向量集合进行数据增强处理,得到增强向量集合步骤,包括:通过所述用户行为意图向量进行意图向量池构建,得到目标意图向量池;对所述用户历史行为数据进行用户会话提取,得到多个用户会话数据;对每个所述用户会话数据进行数据分割,得到每个所述用户会话数据对应的多个子会话序列;基于每个所述用户会话数据对应的多个子会话序列,通过近似最近邻搜索算法对所述目标意图向量池进行向量检索,得到每个所述用户会话数据对应的相关意图向量;通过每个所述用户会话数据对应的相关意图向量对所述用户行为意图向量集合进行数据增强处理,得到增强向量集合。
在本发明中,所述对所述预测用户行为进行异常分值计算,得到目标异常分值,并通过所述目标异常分值进行行为分析,得到行为分析结果,其中,所述行为分析结果为异常或正常步骤,包括:获取预置的行为异常标签数据,并通过所述行为异常标签数据创建软标签分布;通过所述软标签分布对所述预测用户行为数据进行异常行为预测概率计算,得到初始预测概率数据;对所述初始预测概率数据进行预测损失计算,得到对应的预测损失数据;通过所述预测损失数据对所述初始预测概率数据进行数据修正,得到对应的目标预测概率数据;通过所述目标预测概率数据对所述预测用户行为进行异常分值计算,得到目标异常分值,并通过所述目标异常分值进行行为分析,得到行为分析结果,其中,所述行为分析结果为异常或正常。
本发明还提供了一种用户异常行为分析系统,包括:
映射模块,用于从预置的数据库中采集用户历史行为数据,并对所述用户历史行为数据进行编码映射,得到行为编码集合;
转换模块,用于对所述行为编码集合进行用户意图向量转换,得到用户行为意图向量集合;
处理模块,用于对所述用户行为意图向量集合进行数据增强处理,得到增强向量集合;
预测模块,用于将所述增强向量集合输入预置的用户行为检测模型进行用户行为预测,得到预测用户行为;
计算模块,用于对所述预测用户行为进行异常分值计算,得到目标异常分值,并通过所述目标异常分值进行行为分析,得到行为分析结果,其中,所述行为分析结果为异常或正常.
本发明提供的技术方案中,对用户行为历史记录进行数据预处理操作,并利用一个序列编码器生成反映该用户历史行为语义的意图隐藏向量;自动挖掘用户行为之间关系,学习出一个用户行为关系图,利用该行为关系图增强当前用户的意图向量;将历史的用户异常行为看作下一个行为预测任务的难负样本,利用作为正样本的绝大多数正常行为和占比极小的难负样本共同训练异常检测模型,预测用户行为的异常得分。本发明提出的行为级别用户异常行为检测方法能够自动完成适合于特定系统的用户行为关系图的构建以建模用户近期行为与系统中其他历史行为之间的关系,而无需特定于系统的手工建图规则,更加灵活,更具扩展性,同时可以应用于实时检测场景,并显著提升了检测效果。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种用户异常行为分析方法的流程图。
图2为本发明实施例中对用户历史行为数据进行编码映射的流程图。
图3为本发明实施例中一种用户异常行为分析系统的示意图。
附图标记:
301、映射模块;302、转换模块;303、处理模块;304、预测模块;305、计算模块。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,图1是本发明实施例的一种用户异常行为分析方法的流程图,如图1所示,包括以下步骤:
S101、从预置的数据库中采集用户历史行为数据,并对用户历史行为数据进行编码映射,得到行为编码集合;
S102、对行为编码集合进行用户意图向量转换,得到用户行为意图向量集合;
S103、对用户行为意图向量集合进行数据增强处理,得到增强向量集合;
S104、将增强向量集合输入预置的用户行为检测模型进行用户行为预测,得到预测用户行为;
S105、对预测用户行为进行异常分值计算,得到目标异常分值,并通过目标异常分值进行行为分析,得到行为分析结果,其中,行为分析结果为异常或正常。
需要说明的是,从企业或组织机构的日志中获得用户历史行为数据,并对用户历史行为数据等信息进行数据抽取与标准化处理,作用是将异构的用户行为映射成机器可以处理的形式,根据用户的行为类型和发生的时间为每个用户行为分配一个数字编码ID唯一地代表该行为。
在得到的用户行为编码ID后,使用序列编码器基于用户先前的行为生成反映用户意图的表示。具体而言,首先使用一个嵌入层将用户行为编码ID投影到嵌入空间中。然后采用序列建模方法(如LSTM)对行为嵌入序列进行编码,并相应生成一系列隐藏状态。为了提取行为序列的意图,采用多头注意力池化来聚合过去隐藏状态的上下文信息,使模型能够在捕捉历史用户行为数据之间的各种依赖关系的同时关注不同方面的过去隐藏状态。为了表示当前时间步的用户意图,使用最后一个位置的隐藏状态作为查询,并将全部隐藏状态作为键和值计算多头注意力分数,并将它们用作权重来聚合所有历史隐藏状态,然后,获得一个意图向量,它聚合了来自行为序列的上下文信息,表示了当前用户的意图。
将意图提取模块应用于以会话为单位的系统中所有用户的行为嵌入序列,并生成意图向量池。为了在每个时间步都能获得意图向量,进一步将每个会话分割成若干子序列,用于实时用户异常行为检测。给定用户的一个预设长度的会话,提取多个子序列,其中第i个子序列包括第i个行为及其前导行为,通过将意图提取模块应用于这些子序列,可以获得每个用户在每个时间步的一组用户意图向量,并将这组意图向量称为意图向量池,同时为意图向量池建立索引,便于后续检索。随后,使用当前用户的意图向量利用近似最近邻搜索算法检索意图向量池,以获得前k个最相关的意图向量,将意图向量和这k个最相关的意图向量作为用于增强意图的行为关系图的候选节点。然后,意图向量和这k个最相关的意图向量使用图结构学习组件学习一个函数,将任意两个节点之间的连接关系映射到一个实数值上,以构建一个增强意图的行为关系图。最后,利用图神经网络(GNN)以意图增强图作为输入应用消息传递机制捕获节点之间的依赖关系进而增强当前用户的意图表示。
在实际业务系统中,异常行为非常有限且难以识别,导致正常行为和异常行为之间的样本数量极度不平衡。为了缓解这一现象,本发明专门设计了一种新颖的混合预测损失将监督学习和自监督学习有效结合。具体而言,将异常行为检测建模为下一个行为预测的形式,使用用户的历史行为预测用户下一个行为发生的概率,如果某个行为的发生概率非常小,那么它被视为异常,这样有效利用了自监督信号,使模型能够在没有任何标签的情况下学习正常行为模式,但同时也引入了噪声,一些异常的行为被当作用户的下一个行为一同参与了模型的训练,然而,异常行为指用户不应该进行的行为,应当作为负反馈在预测行为发生概率时抑制这种行为的发生。为此,通过在Softmax约束下增加其他行为的发生概率来间接实现这个目标,从而降低异常行为的发生概率。
通过执行上述步骤,对用户行为历史记录进行数据预处理操作,并利用一个序列编码器生成反映该用户历史行为语义的意图隐藏向量;自动挖掘用户行为之间关系,学习出一个用户行为关系图,利用该行为关系图增强当前用户的意图向量;将历史的用户异常行为看作下一个行为预测任务的难负样本,利用作为正样本的绝大多数正常行为和占比极小的难负样本共同训练异常检测模型,预测用户行为的异常得分。本发明提出的行为级别用户异常行为检测方法能够自动完成适合于特定系统的用户行为关系图的构建以建模用户近期行为与系统中其他历史行为之间的关系,而无需特定于系统的手工建图规则,更加灵活,更具扩展性,同时可以应用于实时检测场景,并显著提升了检测效果。
在一具体实施例中,执行步骤S101的过程可以具体包括如下步骤:
(1)对用户历史行为数据进行关键字段提取,得到关键字段数据;
(2)对关键字段数据进行用户ID分析,得到至少一个用户ID数据;
(3)基于至少一个用户ID数据,对用户历史行为数据进行数据排序,得到至少一个用户行为列表;
(4)基于至少一个用户行为列表,对用户历史行为数据进行编码映射,得到行为编码集合。
具体的,从应用日志、主机日志、数据库日志等数据来源中提取用户的各种异构行为日志,随后从各行为类型日志中抽取出用户ID、行为类型、时间等字段,并将相同用户ID的用户行为记录归类到对应的用户ID下,然后合并不同行为类型日志中相同用户ID的异构行为记录列表,此时得到了一个全局的由用户ID维护的用户行为列表,将每个用户的行为列表按时间先后顺序重新排序,并按照用户的登录、注销操作将该行为列表切分为会话,并分配相应的会话ID,以后,用户每产生一个新的行为就将该行为归类到该用户对应的会话中。以会话为单位,将会话中用户当前行为之前的行为作为用户短期历史行为,辅助预测用户当前行为是否异常。
为了区分每个用户动作,时间是要考虑的重要特征,设计了一个行为编码层,用于将异构用户的行为映射成机器可以处理的形式,它根据用户的行为类型和发生的时间为每个用户行为分配一个数字ID唯一地代表该行为,其中行为类型可以是“打开文件”,“连接设备”,“登录”等等,而时间则被离散成一天24个时间间隔的形式,每个行为的发生时间映射到0到23之间的整数。
在一具体实施例中,如图2所示,执行对用户历史行为数据进行编码映射步骤过程可以具体包括如下步骤:
S201、基于至少一个用户行为列表,对用户历史行为数据进行用户行为提取,得到多个用户行为;
S202、对每个用户行为进行行为类型进行分析,得到每个用户行为的行为类型;
S203、基于每个用户行为的行为类型,对用户历史行为数据进行编码映射,得到行为编码集合。
在一具体实施例中,执行步骤S102的过程可以具体包括如下步骤:
(1)将行为编码集合投影预置的嵌入空间,得到多个嵌入向量特征;
(2)基于多个嵌入向量特征进行嵌入序列生成,得到行为嵌入序列;
(3)对行为嵌入序列进行时序关系分析,得到对应的时序关系;
(4)基于时序关系提取时间步集合,并对时间步集合进行隐藏状态向量生成,得到多个隐藏状态向量;
(5)基于多个隐藏状态向量,对行为嵌入序列进行多头注意力池化处理,得到用户行为意图向量集合。
在一具体实施例中,执行对行为嵌入序列进行多头注意力池化处理步骤的过程可以具体包括如下步骤:
(1)对多个隐藏状态向量进行注意力分数计算,得到注意力分数集合;
(2)对注意力分数集合进行归一化处理,得到归一化分数数据;
(3)通过归一化分数数据,对行为嵌入序列进行多头注意力池化处理,得到用户行为意图向量集合。
在一具体实施例中,执行步骤S103步骤的过程可以具体包括如下步骤:
(1)通过用户行为意图向量进行意图向量池构建,得到目标意图向量池;
(2)对用户历史行为数据进行用户会话提取,得到多个用户会话数据;
(3)对每个用户会话数据进行数据分割,得到每个用户会话数据对应的多个子会话序列;
(4)基于每个用户会话数据对应的多个子会话序列,通过近似最近邻搜索算法对目标意图向量池进行向量检索,得到每个用户会话数据对应的相关意图向量;
(5)通过每个用户会话数据对应的相关意图向量对用户行为意图向量集合进行数据增强处理,得到增强向量集合。
需要说明的是,将系统中的所有用户历史行为数据应用第一步的数据预处理的步骤产生所有用户产生的会话,之后,将意图提取模块应用于这些会话,获得一组意图向量以生成意图向量池。为了在每个时间步都能获得意图向量,本发明还进一步将每个会话分割成若干子序列,用于实时用户异常行为检测。
在一具体实施例中,执行步骤S105的过程可以具体包括如下步骤:
(1)获取预置的行为异常标签数据,并通过行为异常标签数据创建软标签分布;
(2)通过软标签分布对预测用户行为数据进行异常行为预测概率计算,得到初始预测概率数据;
(3)对初始预测概率数据进行预测损失计算,得到对应的预测损失数据;
(4)通过预测损失数据对初始预测概率数据进行数据修正,得到对应的目标预测概率数据;
(5)通过目标预测概率数据对预测用户行为进行异常分值计算,得到目标异常分值,并通过目标异常分值进行行为分析,得到行为分析结果,其中,行为分析结果为异常或正常。
需要说明的是,在一个真实的企业系统中,异常行为非常有限且难以识别,导致正常行为和异常行为之间样本数量极不平衡。考虑到极端类别不平衡的限制,将用户异常行为检测问题建模为二元分类任务并不合适,因为异常标签不足。本发明通过利用有限的异常行为标签的监督来减轻数据不平衡的影响,将异常行为检测建模为下一个行为的预测形式,利用历史行为来预测下一个行为。这种范式包括了自监督信号,使模型能够学习正常行为模式而无需任何标签,如果一个行为的发生概率非常低,那么它被视为异常。然而,如果将异常行为视为正常行为,以这种自监督方式训练模型会引入噪声。因此,为了提高异常行为检测的性能,提出了一种新颖的混合预测损失,结合了监督学习和自监督学习,使自监督模型能够了解异常行为的标签。
本发明实施例还提供了一种用户异常行为分析系统,如图3所示,该一种用户异常行为分析系统具体包括:
映射模块301,用于从预置的数据库中采集用户历史行为数据,并对所述用户历史行为数据进行编码映射,得到行为编码集合;
转换模块302,用于对所述行为编码集合进行用户意图向量转换,得到用户行为意图向量集合;
处理模块303,用于对所述用户行为意图向量集合进行数据增强处理,得到增强向量集合;
预测模块304,用于将所述增强向量集合输入预置的用户行为检测模型进行用户行为预测,得到预测用户行为;
计算模块305,用于对所述预测用户行为进行异常分值计算,得到目标异常分值,并通过所述目标异常分值进行行为分析,得到行为分析结果,其中,所述行为分析结果为异常或正常。
通过上述各个模块的协同工作,对用户行为历史记录进行数据预处理操作,并利用一个序列编码器生成反映该用户历史行为语义的意图隐藏向量;自动挖掘用户行为之间关系,学习出一个用户行为关系图,利用该行为关系图增强当前用户的意图向量;将历史的用户异常行为看作下一个行为预测任务的难负样本,利用作为正样本的绝大多数正常行为和占比极小的难负样本共同训练异常检测模型,预测用户行为的异常得分。本发明提出的行为级别用户异常行为检测方法能够自动完成适合于特定系统的用户行为关系图的构建以建模用户近期行为与系统中其他历史行为之间的关系,而无需特定于系统的手工建图规则,更加灵活,更具扩展性,同时可以应用于实时检测场景,并显著提升了检测效果。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种用户异常行为分析方法,其特征在于,包括:
从预置的数据库中采集用户历史行为数据,并对所述用户历史行为数据进行编码映射,得到行为编码集合;
对所述行为编码集合进行用户意图向量转换,得到用户行为意图向量集合;
对所述用户行为意图向量集合进行数据增强处理,得到增强向量集合;
将所述增强向量集合输入预置的用户行为检测模型进行用户行为预测,得到预测用户行为;
对所述预测用户行为进行异常分值计算,得到目标异常分值,并通过所述目标异常分值进行行为分析,得到行为分析结果,其中,所述行为分析结果为异常或正常。
2.根据权利要求1所述的用户异常行为分析方法,其特征在于,所述从预置的数据库中采集用户历史行为数据,并对所述用户历史行为数据进行编码映射,得到行为编码集合步骤,包括:
对所述用户历史行为数据进行关键字段提取,得到关键字段数据;
对所述关键字段数据进行用户ID分析,得到至少一个用户ID数据;
基于至少一个所述用户ID数据,对所述用户历史行为数据进行数据排序,得到至少一个用户行为列表;
基于至少一个用户行为列表,对所述用户历史行为数据进行编码映射,得到行为编码集合。
3.根据权利要求2所述的用户异常行为分析方法,其特征在于,所述基于至少一个用户行为列表,对所述用户历史行为数据进行编码映射,得到行为编码集合步骤,包括:
基于至少一个用户行为列表,对所述用户历史行为数据进行用户行为提取,得到多个用户行为;
对每个所述用户行为进行行为类型进行分析,得到每个所述用户行为的行为类型;
基于每个所述用户行为的行为类型,对所述用户历史行为数据进行编码映射,得到行为编码集合。
4.根据权利要求1所述的用户异常行为分析方法,其特征在于,所述对所述行为编码集合进行用户意图向量转换,得到用户行为意图向量集合步骤,包括:
将所述行为编码集合投影预置的嵌入空间,得到多个嵌入向量特征;
基于多个所述嵌入向量特征进行嵌入序列生成,得到行为嵌入序列;
对所述行为嵌入序列进行时序关系分析,得到对应的时序关系;
基于所述时序关系提取时间步集合,并对所述时间步集合进行隐藏状态向量生成,得到多个隐藏状态向量;
基于多个所述隐藏状态向量,对所述行为嵌入序列进行多头注意力池化处理,得到所述用户行为意图向量集合。
5.根据权利要求4所述的用户异常行为分析方法,其特征在于,所述基于多个所述隐藏状态向量,对所述行为嵌入序列进行多头注意力池化处理,得到所述用户行为意图向量集合步骤,包括:
对多个所述隐藏状态向量进行注意力分数计算,得到注意力分数集合;
对所述注意力分数集合进行归一化处理,得到归一化分数数据;
通过所述归一化分数数据,对所述行为嵌入序列进行多头注意力池化处理,得到所述用户行为意图向量集合。
6.根据权利要求1所述的用户异常行为分析方法,其特征在于,所述对所述用户行为意图向量集合进行数据增强处理,得到增强向量集合步骤,包括:
通过所述用户行为意图向量进行意图向量池构建,得到目标意图向量池;
对所述用户历史行为数据进行用户会话提取,得到多个用户会话数据;
对每个所述用户会话数据进行数据分割,得到每个所述用户会话数据对应的多个子会话序列;
基于每个所述用户会话数据对应的多个子会话序列,通过近似最近邻搜索算法对所述目标意图向量池进行向量检索,得到每个所述用户会话数据对应的相关意图向量;
通过每个所述用户会话数据对应的相关意图向量对所述用户行为意图向量集合进行数据增强处理,得到增强向量集合。
7.根据权利要求1所述的用户异常行为分析方法,其特征在于,所述对所述预测用户行为进行异常分值计算,得到目标异常分值,并通过所述目标异常分值进行行为分析,得到行为分析结果,其中,所述行为分析结果为异常或正常步骤,包括:
获取预置的行为异常标签数据,并通过所述行为异常标签数据创建软标签分布;
通过所述软标签分布对所述预测用户行为数据进行异常行为预测概率计算,得到初始预测概率数据;
对所述初始预测概率数据进行预测损失计算,得到对应的预测损失数据;
通过所述预测损失数据对所述初始预测概率数据进行数据修正,得到对应的目标预测概率数据;
通过所述目标预测概率数据对所述预测用户行为进行异常分值计算,得到目标异常分值,并通过所述目标异常分值进行行为分析,得到行为分析结果,其中,所述行为分析结果为异常或正常。
8.一种用户异常行为分析系统,用以执行如权利要求1至7任一项所述的用户异常行为分析方法,其特征在于,包括:
映射模块,用于从预置的数据库中采集用户历史行为数据,并对所述用户历史行为数据进行编码映射,得到行为编码集合;
转换模块,用于对所述行为编码集合进行用户意图向量转换,得到用户行为意图向量集合;
处理模块,用于对所述用户行为意图向量集合进行数据增强处理,得到增强向量集合;
预测模块,用于将所述增强向量集合输入预置的用户行为检测模型进行用户行为预测,得到预测用户行为;
计算模块,用于对所述预测用户行为进行异常分值计算,得到目标异常分值,并通过所述目标异常分值进行行为分析,得到行为分析结果,其中,所述行为分析结果为异常或正常。
CN202311490838.9A 2023-11-10 2023-11-10 用户异常行为分析方法及系统 Pending CN117539918A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311490838.9A CN117539918A (zh) 2023-11-10 2023-11-10 用户异常行为分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311490838.9A CN117539918A (zh) 2023-11-10 2023-11-10 用户异常行为分析方法及系统

Publications (1)

Publication Number Publication Date
CN117539918A true CN117539918A (zh) 2024-02-09

Family

ID=89783387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311490838.9A Pending CN117539918A (zh) 2023-11-10 2023-11-10 用户异常行为分析方法及系统

Country Status (1)

Country Link
CN (1) CN117539918A (zh)

Similar Documents

Publication Publication Date Title
Yang et al. Semi-supervised log-based anomaly detection via probabilistic label estimation
Wu et al. Developing an unsupervised real-time anomaly detection scheme for time series with multi-seasonality
CN112491796B (zh) 一种基于卷积神经网络的入侵检测及语义决策树量化解释方法
CN113312447B (zh) 基于概率标签估计的半监督日志异常检测方法
US11106801B1 (en) Utilizing orchestration and augmented vulnerability triage for software security testing
CN111709765A (zh) 一种用户画像评分方法、装置和存储介质
CN117220978B (zh) 一种网络安全运营模型量化评估系统及评估方法
CN114124460B (zh) 工控系统入侵检测方法、装置、计算机设备及存储介质
Cheng et al. Blocking bug prediction based on XGBoost with enhanced features
WO2022269387A1 (en) Anomaly detection over high-dimensional space
You et al. sBiLSAN: Stacked bidirectional self-attention lstm network for anomaly detection and diagnosis from system logs
Xu et al. TLS-WGAN-GP: A generative adversarial network model for data-driven fault root cause location
CN114416479A (zh) 一种基于流外正则化的日志序列异常检测方法
CN117608889A (zh) 基于日志语义的异常检测方法以及相关设备
CN117234844A (zh) 云服务器异常管理方法、装置、计算机设备及存储介质
Chen et al. Unsupervised Anomaly Detection Based on System Logs.
CN117539918A (zh) 用户异常行为分析方法及系统
CN115344563A (zh) 数据去重方法及装置、存储介质、电子设备
CN113076217A (zh) 基于国产平台的磁盘故障预测方法
Wang et al. Network behavior abnormal detection for electricity management system based on long short-term memory
ALI et al. A Novel Leader Election Algorithm for Honeycomb Mesh Networks
CN113778733B (zh) 一种基于多尺度mass的日志序列异常检测方法
Zeng et al. A new anomaly detection method based on rough set reduction and HMM
CN117725597B (zh) 一种基于时空记忆网络的漏洞威胁预测方法
CN111598159B (zh) 机器学习模型的训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination