CN114531252A - 账号日志的安全审计方法和安全审计装置 - Google Patents

账号日志的安全审计方法和安全审计装置 Download PDF

Info

Publication number
CN114531252A
CN114531252A CN202011194912.9A CN202011194912A CN114531252A CN 114531252 A CN114531252 A CN 114531252A CN 202011194912 A CN202011194912 A CN 202011194912A CN 114531252 A CN114531252 A CN 114531252A
Authority
CN
China
Prior art keywords
account
data
log
time slice
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011194912.9A
Other languages
English (en)
Other versions
CN114531252B (zh
Inventor
刘东鑫
汪来富
史国水
金华敏
邓博仁
王渭清
于文良
蒋春元
肖宇峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202011194912.9A priority Critical patent/CN114531252B/zh
Publication of CN114531252A publication Critical patent/CN114531252A/zh
Application granted granted Critical
Publication of CN114531252B publication Critical patent/CN114531252B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本公开提供了一种账号日志的安全审计方法和安全审计装置。该方法包括:从数据源采集帐号日志的数据,对数据进行解析并提取关键字段信息;根据关键字段信息对帐号日志的每个时间分片的数据分别进行特征抽取以获得帐号日志的多个维度的特征向量;将帐号日志的多个维度的特征向量与帐号的多个维度的集合模型进行集合运算以获得帐号日志的数值向量数据;根据帐号日志的数值向量数据和预先获得的帐号的数值向量模型计算帐号日志的向量空间的各个维度的距离值,其中,帐号日志的各个维度的距离值为帐号日志的各个维度的风险值;以及根据帐号日志的各个维度的风险值计算得到帐号日志的总风险值。本公开实现了对账号日志的高精度审计。

Description

账号日志的安全审计方法和安全审计装置
技术领域
本公开涉及网络安全领域,特别涉及一种账号日志的安全审计方法和安全审计装置。
背景技术
当前对账号的安全管理及审计,主要功能聚焦在“事前”的账号管理、身份认证和操作授权,而对“事后”的审计能力较弱,难以满足网络安全的纵深防御体系需要。传统的账号审计结果比较简单,对每个账号的审计结果通常只有“告警”和“正常”,难以精细地衡量账号的风险情况,大量的告警往往容易给安全管理人员带来沉重的认知负担,难以快速做安全决策。
发明内容
本公开解决的一个技术问题是:提供一种账号日志的安全审计方法,以实现对账号日志的高精度、可精细化区分风险的安全审计。
根据本公开的一个方面,提供了一种账号日志的安全审计方法,包括:从数据源采集帐号日志的数据,对所述数据进行解析并提取关键字段信息;根据所述关键字段信息对所述帐号日志的每个时间分片的数据分别进行特征抽取以获得所述帐号日志的多个维度的特征向量;将所述帐号日志的多个维度的特征向量与所述帐号的多个维度的集合模型进行集合运算以获得所述帐号日志的数值向量数据;根据所述帐号日志的数值向量数据和预先获得的所述帐号的数值向量模型计算所述帐号日志的向量空间的各个维度的距离值,其中,所述帐号日志的各个维度的距离值为所述帐号日志的各个维度的风险值;以及根据所述帐号日志的各个维度的风险值计算得到所述帐号日志的总风险值。
在一些实施例中,所述关键字段信息包括:时间戳、账号标识、会话标识、源互联网协议IP地址、目标IP地址、目标端口、操作命令和执行结果;所述多个维度的特征向量包括:操作时间特征向量、操作序列特征向量、源IP地址变化特征向量和操作对象变化特征向量。
在一些实施例中,所述操作时间特征向量包括:所述帐号日志的在所述时间分片内的每个会话标识的登陆时间段集合和在所述时间分片内的每个会话标识的登陆时间长度均值tm;所述操作序列特征向量包括:所述帐号日志的在所述时间分片内的最频繁使用的前A1个的操作命令集合和所述帐号日志的在所述时间分片内的每个会话标识的操作频率均值sm,其中,A1为正整数;所述源IP地址变化特征向量包括:所述帐号日志的在所述时间分片内的每个会话标识使用过的源IP地址集合和所述帐号日志的在所述时间分片内的源IP地址的物理归属地的变更速率最大值vm;以及所述操作对象变化特征向量包括:所述帐号日志的在所述时间分片内的每个会话标识访问过的对象资源集合和所述帐号日志的在所述时间分片内的操作对象的访问成功率均值om
在一些实施例中,将所述帐号日志的多个维度的特征向量与所述帐号的多个维度的集合模型进行集合运算步骤包括:将所述帐号日志的多个维度的特征向量与所述帐号的多个维度的集合模型分别取交集并计算各个维度的交集中的元素的个数;和根据所述帐号日志的在所述时间分片内的每个会话标识的登陆时间长度均值tm、所述帐号日志的在所述时间分片内的每个会话标识的操作频率均值sm、所述帐号日志的在所述时间分片内的源IP地址的物理归属地的变更速率最大值vm、所述帐号日志的在所述时间分片内的操作对象的访问成功率均值om以及所述各个维度的交集中的元素的个数获得所述帐号日志的数值向量数据。
在一些实施例中,所述帐号的多个维度的集合模型包括:操作时间维度集合,包括:通过历史数据获得的所述帐号的最频繁出现的前A2个登陆时间段的集合和通过历史数据获得的所述帐号的在所述时间分片内的每个会话标识的登陆时间长度均值T,其中A2为正整数;操作序列维度集合,包括:通过历史数据获得的所述帐号的最频繁使用的前A1个操作命令的集合和通过历史数据获得的所述帐号的在所述时间分片内的每个会话标识的操作频率均值S;源IP地址变化维度集合,包括:通过历史数据获得的所述帐号的最频繁使用的前A3个源IP地址的集合和通过历史数据获得的所述帐号的在所述时间分片内的源IP地址的物理归属地的变更速率最大值V,其中A3为正整数;以及操作对象变化维度集合,包括:通过历史数据获得的所述帐号的最频繁访问的前A4个对象资源集合和通过历史数据获得的所述帐号的在所述时间分片内的操作对象的访问成功率均值O,其中A4为正整数。
在一些实施例中,所述数值向量数据包括多个数据结构<n1m,tm>、<n2m,sm>、<n3m,vm>和<n4m,om>,其中,n1m为所述帐号日志的在所述时间分片内的每个会话标识的登陆时间段集合与通过历史数据获得的所述帐号的最频繁出现的前A2个登陆时间段的集合的交集的元素的个数,n2m为所述帐号日志的在所述时间分片内的最频繁使用的前A1个的操作命令集合与通过历史数据获得的所述帐号的最频繁使用的前A1个操作命令的集合的交集的元素的个数,n3m为所述帐号日志的在所述时间分片内的每个会话标识使用过的源IP地址集合与通过历史数据获得的所述帐号的最频繁使用的前A3个源IP地址的集合的交集的元素的个数,n4m为所述帐号日志的在所述时间分片内的每个会话标识访问过的对象资源集合与通过历史数据获得的所述帐号的最频繁访问的前A4个对象资源集合的交集的元素的个数。
在一些实施例中,所述帐号日志的数值向量模型包括多个数据结构<N1Mean,T>、<N2Mean,S>、<N3Mean,V>和<N4Mean,O>,其中,N1Mean为通过历史数据获得的所述帐号的每个会话标识的登陆时间段集合与最频繁出现的前A2个登陆时间段的集合的交集的元素的个数的平均值,N2Mean为通过历史数据获得的所述帐号的操作序列特征向量中的最频繁使用的前A1个的操作命令集合与操作序列维度集合中的最频繁使用的前A1个操作命令的集合的交集的元素的个数的平均值,N3Mean为通过历史数据获得的所述帐号的每个会话标识使用过的源IP地址集合与最频繁使用的前A3个源IP地址的集合的交集的元素的个数的平均值,N4Mean为通过历史数据获得的所述帐号的每个会话标识访问过的对象资源集合与最频繁访问的前A4个对象资源集合的交集的元素的个数的平均值。
在一些实施例中,所述各个维度的距离值包括:操作时间维度距离值d1、操作序列维度距离值d2、源IP地址变化维度距离值d3和操作对象变化维度距离值d4,其中,
Figure BDA0002753750790000041
Figure BDA0002753750790000042
Figure BDA0002753750790000043
Figure BDA0002753750790000044
在一些实施例中,计算所述帐号日志的总风险值R的关系式为:R=d1+d2+d3+d4。
在一些实施例中,所述安全审计方法还包括:基于所述帐号的历史数据获得所述帐号的多个维度的集合模型;将所述帐号的历史日志的多个维度的特征向量与所述帐号的多个维度的集合模型分别取交集并计算各个维度的交集中的元素的个数;在所述帐号下,根据多个历史日志计算各个维度的交集中的元素的个数的平均值;以及根据各个维度的交集中的元素的个数的平均值获得所述帐号的数值向量模型。
在一些实施例中,所述安全审计方法还包括:在对所述帐号日志的每个时间分片的数据分别进行特征抽取之前,对从数据源采集的数据按照相同的帐号标识进行第一数据聚合以得到每个帐号的数据集合;以及对每个帐号的数据集合中的数据按照相同的源IP地址进行第二数据聚合以得到每个帐号的数据集合中的子集合;其中,在对所述帐号日志的每个时间分片的数据分别进行特征抽取的过程中,基于所述帐号的数据集合中的子集合进行特征抽取。
根据本公开的另一个方面,提供了一种账号日志的安全审计装置,包括:数据采集单元,用于从数据源采集帐号日志的数据,对所述数据进行解析并提取关键字段信息;特征抽取单元,用于根据所述关键字段信息对所述帐号日志的每个时间分片的数据分别进行特征抽取以获得所述帐号日志的多个维度的特征向量;以及运算单元,用于将所述帐号日志的多个维度的特征向量与所述帐号的多个维度的集合模型进行集合运算以获得所述帐号日志的数值向量数据,根据所述帐号日志的数值向量数据和预先获得的所述帐号的数值向量模型计算所述帐号日志的向量空间的各个维度的距离值,其中,所述帐号日志的各个维度的距离值为所述帐号日志的各个维度的风险值,以及根据所述帐号日志的各个维度的风险值计算得到所述帐号日志的总风险值。
在一些实施例中,所述关键字段信息包括:时间戳、账号标识、会话标识、源互联网协议IP地址、目标IP地址、目标端口、操作命令和执行结果;所述多个维度的特征向量包括:操作时间特征向量、操作序列特征向量、源IP地址变化特征向量和操作对象变化特征向量。
在一些实施例中,所述操作时间特征向量包括:所述帐号日志的在所述时间分片内的每个会话标识的登陆时间段集合和在所述时间分片内的每个会话标识的登陆时间长度均值tm;所述操作序列特征向量包括:所述帐号日志的在所述时间分片内的最频繁使用的前A1个的操作命令集合和所述帐号日志的在所述时间分片内的每个会话标识的操作频率均值sm,其中,A1为正整数;所述源IP地址变化特征向量包括:所述帐号日志的在所述时间分片内的每个会话标识使用过的源IP地址集合和所述帐号日志的在所述时间分片内的源IP地址的物理归属地的变更速率最大值vm;以及所述操作对象变化特征向量包括:所述帐号日志的在所述时间分片内的每个会话标识访问过的对象资源集合和所述帐号日志的在所述时间分片内的操作对象的访问成功率均值om
在一些实施例中,所述运算单元用于将所述帐号日志的多个维度的特征向量与所述帐号的多个维度的集合模型分别取交集并计算各个维度的交集中的元素的个数,以及根据所述帐号日志的在所述时间分片内的每个会话标识的登陆时间长度均值tm、所述帐号日志的在所述时间分片内的每个会话标识的操作频率均值sm、所述帐号日志的在所述时间分片内的源IP地址的物理归属地的变更速率最大值vm、所述帐号日志的在所述时间分片内的操作对象的访问成功率均值om以及所述各个维度的交集中的元素的个数获得所述帐号日志的数值向量数据。
在一些实施例中,所述帐号的多个维度的集合模型包括:操作时间维度集合,包括:通过历史数据获得的所述帐号的最频繁出现的前A2个登陆时间段的集合和通过历史数据获得的所述帐号的在所述时间分片内的每个会话标识的登陆时间长度均值T,其中A2为正整数;操作序列维度集合,包括:通过历史数据获得的所述帐号的最频繁使用的前A1个操作命令的集合和通过历史数据获得的所述帐号的在所述时间分片内的每个会话标识的操作频率均值S;源IP地址变化维度集合,包括:通过历史数据获得的所述帐号的最频繁使用的前A3个源IP地址的集合和通过历史数据获得的所述帐号的在所述时间分片内的源IP地址的物理归属地的变更速率最大值V,其中A3为正整数;以及操作对象变化维度集合,包括:通过历史数据获得的所述帐号的最频繁访问的前A4个对象资源集合和通过历史数据获得的所述帐号的在所述时间分片内的操作对象的访问成功率均值O,其中A4为正整数。
在一些实施例中,所述数值向量数据包括多个数据结构<n1m,tm>、<n2m,sm>、<n3m,vm>和<n4m,om>,其中,n1m为所述帐号日志的在所述时间分片内的每个会话标识的登陆时间段集合与通过历史数据获得的所述帐号的最频繁出现的前A2个登陆时间段的集合的交集的元素的个数,n2m为所述帐号日志的在所述时间分片内的最频繁使用的前A1个的操作命令集合与通过历史数据获得的所述帐号的最频繁使用的前A1个操作命令的集合的交集的元素的个数,n3m为所述帐号日志的在所述时间分片内的每个会话标识使用过的源IP地址集合与通过历史数据获得的所述帐号的最频繁使用的前A3个源IP地址的集合的交集的元素的个数,n4m为所述帐号日志的在所述时间分片内的每个会话标识访问过的对象资源集合与通过历史数据获得的所述帐号的最频繁访问的前A4个对象资源集合的交集的元素的个数。
在一些实施例中,所述帐号日志的数值向量模型包括多个数据结构<N1Mean,T>、<N2Mean,S>、<N3Mean,V>和<N4Mean,O>,其中,N1Mean为通过历史数据获得的所述帐号的每个会话标识的登陆时间段集合与最频繁出现的前A2个登陆时间段的集合的交集的元素的个数的平均值,N2Mean为通过历史数据获得的所述帐号的操作序列特征向量中的最频繁使用的前A1个的操作命令集合与操作序列维度集合中的最频繁使用的前A1个操作命令的集合的交集的元素的个数的平均值,N3Mean为通过历史数据获得的所述帐号的每个会话标识使用过的源IP地址集合与最频繁使用的前A3个源IP地址的集合的交集的元素的个数的平均值,N4Mean为通过历史数据获得的所述帐号的每个会话标识访问过的对象资源集合与最频繁访问的前A4个对象资源集合的交集的元素的个数的平均值。
在一些实施例中,所述各个维度的距离值包括:操作时间维度距离值d1、操作序列维度距离值d2、源IP地址变化维度距离值d3和操作对象变化维度距离值d4,其中,
Figure BDA0002753750790000071
Figure BDA0002753750790000072
Figure BDA0002753750790000073
Figure BDA0002753750790000074
在一些实施例中,所述运算单元计算所述帐号日志的总风险值R的关系式为:R=d1+d2+d3+d4。
在一些实施例中,所述运算单元还用于基于所述帐号的历史数据获得所述帐号的多个维度的集合模型,将所述帐号的历史日志的多个维度的特征向量与所述帐号的多个维度的集合模型分别取交集并计算各个维度的交集中的元素的个数,在所述帐号下,根据多个历史日志计算各个维度的交集中的元素的个数的平均值,以及根据各个维度的交集中的元素的个数的平均值获得所述帐号的数值向量模型。
在一些实施例中,所述安全审计装置还包括:数据聚合单元,用于在对所述帐号日志的每个时间分片的数据分别进行特征抽取之前,对从数据源采集的数据按照相同的帐号标识进行第一数据聚合以得到每个帐号的数据集合,以及对每个帐号的数据集合中的数据按照相同的源IP地址进行第二数据聚合以得到每个帐号的数据集合中的子集合;其中,所述特征抽取单元用于在对所述帐号日志的每个时间分片的数据分别进行特征抽取的过程中,基于所述帐号的数据集合中的子集合进行特征抽取。
根据本公开的另一个方面,提供了一种账号日志的安全审计装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令执行如前所述的方法。
根据本公开的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现如前所述的方法。
在上述安全审计方法中,从数据源采集帐号日志的数据,对数据进行解析并提取关键字段信息;根据关键字段信息对帐号日志的每个时间分片的数据分别进行特征抽取以获得该帐号日志的多个维度的特征向量;将该帐号日志的多个维度的特征向量与该帐号日志的多个维度的集合模型进行集合运算以获得该帐号日志的数值向量数据;根据该帐号日志的数值向量数据和预先获得的该帐号日志的数值向量模型计算该帐号日志的向量空间的各个维度的距离值,其中,该帐号日志的各个维度的距离值为该帐号日志的各个维度的风险值;以及根据该帐号日志的各个维度的风险值计算得到该帐号日志的总风险值。这样实现了对账号日志的高精度、可精细化区分风险的安全审计。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1是示出根据本公开一些实施例的账号日志的安全审计方法的流程图;
图2是示出根据本公开另一些实施例的安全基线模型的离线训练方法的流程图;
图3是示出根据本公开一些实施例的账号日志的安全审计装置的结构示意图;
图4是示出根据本公开另一些实施例的账号日志的安全审计装置的结构示意图;
图5是示出根据本公开另一些实施例的账号日志的安全审计装置的结构示意图;
图6是示出根据本公开另一些实施例的账号日志的安全审计装置的结构示意图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1是示出根据本公开一些实施例的账号日志的安全审计方法的流程图。如图1所示,该方法包括步骤S102至S110。
在步骤S102,从数据源采集帐号日志的数据,对数据进行解析并提取关键字段信息。
在一些实施例中,可以以固定时间窗口(例如0.5小时)从数据源采集数据,并解析提取关键字段信息。例如,关键字段信息可以包括:时间戳、账号标识、会话标识(SessionID)、源IP(Internet Protocol,互联网协议)地址、目标IP地址、目标端口、操作命令和执行结果。
在步骤S104,根据关键字段信息对帐号日志的每个时间分片的数据分别进行特征抽取以获得该帐号日志的多个维度的特征向量。
在一些实施例中,所述多个维度的特征向量包括:操作时间特征向量、操作序列特征向量、源IP地址变化特征向量和操作对象变化特征向量。
操作时间特征向量包括:该帐号日志的在时间分片内的每个会话标识的登陆时间段集合和在该时间分片内的每个会话标识的登陆时间长度均值tm
操作序列特征向量包括:该帐号日志的在该时间分片内的最频繁使用的前A1个(例如前50个)的操作命令集合和该帐号日志的在该时间分片内的每个会话标识的操作频率均值sm,其中,A1为正整数。
源IP地址变化特征向量包括:该帐号日志的在该时间分片内的每个会话标识使用过的源IP地址集合和该帐号日志的在该时间分片内的源IP地址的物理归属地的变更速率最大值vm
操作对象变化特征向量包括:该帐号日志的在该时间分片内的每个会话标识访问过的对象资源集合和该帐号日志的在该时间分片内的操作对象的访问成功率均值om
这里,可以采用目标IP地址和目标端口表示操作对象。在一些实施例中,在存在协议号的情况下,还可以采用目标IP地址、目标端口和协议号表示操作对象。在另一些实施例中,可以以URL(Uniform Resource Locator,统一资源定位器)表示操作对象。
需要说明的是,虽然上面描述了四个维度的特征向量,但是本领域技术人员应该理解,所述多个维度的特征向量可以包括上述四个维度的特征向量中的至少两个。
在步骤S106,将该帐号日志的多个维度的特征向量与该帐号的多个维度的集合模型进行集合运算以获得所述帐号日志的数值向量数据。
在一些实施例中,该帐号的多个维度的集合模型包括:操作时间维度集合、操作序列维度集合、源IP地址变化维度集合和操作对象变化维度集合。
操作时间维度集合包括:通过历史数据(例如,历史日志数据)获得的该帐号的最频繁出现的前A2个(例如,前5个)登陆时间段的集合和通过历史数据获得的该帐号的在该时间分片内的每个会话标识的登陆时间长度均值T。这里,A2为正整数。
操作序列维度集合包括:通过历史数据获得的该帐号的最频繁使用的前A1个(例如,前50个)操作命令的集合和通过历史数据获得的该帐号的在该时间分片内的每个会话标识的操作频率均值S。
源IP地址变化维度集合包括:通过历史数据获得的该帐号的最频繁使用的前A3个(例如,前10个)源IP地址的集合和通过历史数据获得的该帐号的在该时间分片内的源IP地址的物理归属地的变更速率最大值V。这里,A3为正整数。
操作对象变化维度集合包括:通过历史数据获得的该帐号的最频繁访问的前A4个(例如,前10个)对象资源集合和通过历史数据获得的该帐号的在该时间分片内的操作对象的访问成功率均值O。这里,A4为正整数。
对当前需要审计的账号日志,该帐号日志的多个维度的特征向量与该帐号日志所属的账号的多个维度的集合模型例如如下表1所示:
表1
Figure BDA0002753750790000121
Figure BDA0002753750790000131
在一些实施例中,将该帐号日志的多个维度的特征向量与该帐号的多个维度的集合模型进行集合运算步骤包括:将该帐号日志的多个维度的特征向量与该帐号的多个维度的集合模型分别取交集并计算各个维度的交集中的元素的个数;和根据该帐号日志的在该时间分片内的每个会话标识的登陆时间长度均值tm、该帐号日志的在该时间分片内的每个会话标识的操作频率均值sm、该帐号日志的在该时间分片内的源IP地址的物理归属地的变更速率最大值vm、该帐号日志的在该时间分片内的操作对象的访问成功率均值om以及各个维度的交集中的元素的个数获得该帐号日志的数值向量数据。
例如,操作时间维度:以“该帐号日志的在时间分片内的每个Session ID的登陆时间段集合”和“通过历史数据获得的最频繁出现的前A2个(例如,前5个)登陆时间段的集合”取交集,并计算交集中的元素个数n1m。即,n1m为帐号日志的在时间分片内的每个会话标识的登陆时间段集合与通过历史数据获得的该帐号的最频繁出现的前A2个登陆时间段的集合的交集的元素的个数。
例如,操作序列维度:以“该帐号日志的在该时间分片内的最频繁使用的前A1个(例如前50个)的操作命令集合”和“通过历史数据获得的最频繁使用的前A1个(例如,前50个)操作命令的集合”取交集,并计算交集中的元素个数n2m。即,n2m为该帐号日志的在所述时间分片内的最频繁使用的前A1个的操作命令集合与通过历史数据获得的该帐号的最频繁使用的前A1个操作命令的集合的交集的元素的个数。
例如,源IP变化维度:以“该帐号日志的在该时间分片内的每个Session ID用过的源IP集合”和“通过历史数据获得的最频繁使用的前A3个(例如,前10个)源IP地址的集合”取交集,并计算交集中的元素个数n3m。即,n3m为该帐号日志的在该时间分片内的每个会话标识使用过的源IP地址集合与通过历史数据获得的该帐号的最频繁使用的前A3个源IP地址的集合的交集的元素的个数。
例如,操作对象变化维度:以“该帐号日志的在该时间分片内的每个Session ID访问过的对象资源集合”和“通过历史数据获得的最频繁访问的前A4个(例如,前10个)对象资源集合”取交集,并计算交集中的元素个数n4m。即,n4m为该帐号日志的在该时间分片内的每个会话标识访问过的对象资源集合与通过历史数据获得的该帐号的最频繁访问的前A4个对象资源集合的交集的元素的个数。
在一些实施例中,数值向量数据包括多个数据结构<n1m,tm>、<n2m,sm>、<n3m,vm>和<n4m,om>。
在步骤S108,根据该帐号日志的数值向量数据和预先获得的该帐号的数值向量模型计算该帐号日志的向量空间的各个维度的距离值,其中,该帐号日志的各个维度的距离值为该帐号日志的各个维度的风险值。
在一些实施例中,帐号日志的数值向量模型包括多个数据结构<N1Mean,T>、<N2Mean,S>、<N3Mean,V>和<N4Mean,O>。这里,N1Mean为通过历史数据获得的该帐号的每个会话标识的登陆时间段集合与最频繁出现的前A2个登陆时间段的集合的交集的元素的个数的平均值,N2Mean为通过历史数据获得的该帐号的操作序列特征向量中的最频繁使用的前A1个的操作命令集合与操作序列维度集合中的最频繁使用的前A1个操作命令的集合的交集的元素的个数的平均值,N3Mean为通过历史数据获得的该帐号的每个会话标识使用过的源IP地址集合与最频繁使用的前A3个源IP地址的集合的交集的元素的个数的平均值,N4Mean为通过历史数据获得的该帐号的每个会话标识访问过的对象资源集合与最频繁访问的前A4个对象资源集合的交集的元素的个数的平均值。
在一些实施例中,各个维度的距离值包括:操作时间维度距离值d1、操作序列维度距离值d2、源IP地址变化维度距离值d3和操作对象变化维度距离值d4,其中,
Figure BDA0002753750790000151
Figure BDA0002753750790000152
Figure BDA0002753750790000153
Figure BDA0002753750790000154
这里,该帐号日志的各个维度的距离值可以作为该帐号日志的各个维度的风险值。因此,距离值越大,安全风险越高。
在步骤S110,根据该帐号日志的各个维度的风险值计算得到该帐号日志的总风险值。
在一些实施例中,计算该帐号日志的总风险值R的关系式为:
R=d1+d2+d3+d4。 (5)
至此,提供了根据本公开一些实施例的账号日志的安全审计方法。该方法包括:从数据源采集帐号日志的数据,对数据进行解析并提取关键字段信息;根据关键字段信息对帐号日志的每个时间分片的数据分别进行特征抽取以获得该帐号日志的多个维度的特征向量;将该帐号日志的多个维度的特征向量与该帐号日志的多个维度的集合模型进行集合运算以获得该帐号日志的数值向量数据;根据该帐号日志的数值向量数据和预先获得的该帐号日志的数值向量模型计算该帐号日志的向量空间的各个维度的距离值,其中,该帐号日志的各个维度的距离值为该帐号日志的各个维度的风险值;以及根据该帐号日志的各个维度的风险值计算得到该帐号日志的总风险值。这样实现了对账号日志的高精度、可精细化区分风险的安全审计。
本公开的发明人发现,现有技术中的账号审计方法通常聚焦在暴力破解行为发现的审计规则方面,对于账号泄露等高危安全风险难以发现,而且通常以高危的操作命令作为审计规则,聚焦在账号权限变更、文件删除等命令规则,但是对已经越过访问权限控制的账号操作缺乏检测能力。而本公开实施例的基于安全基线的账号日志安全审计方法,解决了现有的难以精细化衡量账号行为风险、无法检测账号泄露等问题,实现了对账号日志的高精度、安全风险可量化区分的安全审计,提升了对账号安全的深度检测能力。
需要说明的是,本公开提到的“审计”可以理解为验证账号日志是否异常。
在一些实施例中,上述安全审计方法还可以包括:基于上述帐号的历史数据获得该帐号的多个维度的集合模型。这样获得了集合模型。
在一些实施例中,上述安全审计方法还可以包括:将上述帐号的历史日志的多个维度的特征向量与该帐号的多个维度的集合模型分别取交集并计算各个维度的交集中的元素的个数;在该帐号下,根据多个历史日志计算各个维度的交集中的元素的个数的平均值;以及根据各个维度的交集中的元素的个数的平均值获得该帐号的数值向量模型。这样获得了数值向量模型。
在一些实施例中,所述安全审计方法还可以包括:在对帐号日志的每个时间分片的数据分别进行特征抽取之前,对从数据源采集的数据按照相同的帐号标识进行第一数据聚合以得到每个帐号的数据集合;以及对每个帐号的数据集合中的数据按照相同的源IP地址进行第二数据聚合以得到每个帐号的数据集合中的子集合;其中,在对帐号日志的每个时间分片的数据分别进行特征抽取的过程中,基于该帐号的数据集合中的子集合进行特征抽取。通过两次数据聚合,可以方便后续的数据处理过程的执行,从而提高运算速度。
图2是示出根据本公开另一些实施例的安全基线模型的离线训练方法的流程图。如图2所示,该方法包括步骤S202至S206。
在步骤S202,数据预处理。以固定时间窗口(例如,24小时)从数据源采集数据,解析提取关键字段信息。例如,关键字段信息可以包括:时间戳、账号标识、会话标识、源IP地址、目标IP地址、目标端口、操作命令和执行结果。
然后,对从数据源采集的数据按照相同的帐号标识进行第一数据聚合以得到每个帐号的数据集合,然后对每个帐号的数据集合中的数据按照相同的源IP地址进行第二数据聚合以得到每个帐号的数据集合中的子集合。
在步骤S204,多维特征抽取。该步骤与前面审计过程的多维特征抽取过程类似。
对每个日志分别进行特征抽取以得到四个独立维度的特征向量,包括:操作时间特征向量、操作序列特征向量、源IP地址变化特征和操作对象变化特征向量。
(1)操作时间特征向量:<每个Session ID的登陆时间段集合、每个Session ID的登陆时间长度均值>。
“每个Session ID的登陆时间段集合”的生成方法如下:首先,将固定时间窗口(例如24小时)均匀切分为多个时间段(例如24个时间段,例如0~1,1~2……共24个时段标签);然后,在同一个账号ID下,根据Session ID的时间戳,匹配相应的时段标签;最终生成“每个Session ID的登陆时间段集合”。
“每个Session ID的登陆时间长度均值”计算方法如下:首先,在同一个账号ID下,找到所有Session ID的初始时间戳和最后一个时间戳;然后,以最后一个时间戳减去初始时间戳,得到每个Session ID的登陆时间长度;计算所有登陆时间长度的和,然后通过所有登陆时间长度的和除以Session ID的个数来得到“每个Session ID的登陆时间长度均值”。
(2)操作序列特征向量:<最频繁使用的前A1个(例如前50个)操作命令集合、每个Session ID的操作频率均值>。
“最频繁使用的Top 50操作命令集合”的生成方法如下:首先,在同一个账号ID下,统计在该时间分片内所出现过的所有操作命令,及对应的使用次数;其次,按照使用次数从高到低排序,选前A1个的操作命令,并生成“最频繁使用的前A1个操作命令集合”。
“每个Session ID的操作频率均值”计算方法如下:首先,在同一个账号ID下,统计每个Session ID的登陆时间长度、所有操作命令;然后,在每个Session ID下,以所有操作命令的个数除以登陆时间长度,得到该Session ID的操作频率值;计算所有Session ID的操作频率值的和,然后通过所有Session ID的操作频率值的和除以所有Session ID的个数来得到“每个Session ID的操作频率均值”。
(3)源IP地址变化特征:<每个Session ID用过的源IP地址集合、该时间分片内源IP地址物理归属地的变更速率最大值>。
“每个Session ID用过的源IP集合”的生成方法如下:在同一个账号ID下,统计在该时间分片内所有Session ID用过的所有源IP地址,并生成“每个Session ID用过的源IP集合”。
“该时间分片内源IP地址物理归属地的变更速率最大值”计算方法如下:
首先,获取上一个时间分片中,最后一次账号登陆的源IP地址及其时间戳,连同本时间分片内的账号使用过的所有源IP地址及其最后一个时间戳,构建了按时间排序的源IP地址及其时间戳列表。
接下来,通过公开的IP地理位置库查询源IP地址列表中的每个IP地址的经度和纬度。
接下来,对源IP地址及其时间戳列表,从前往后遍历,逐步计算每两个不同源IP地址的物理距离d。计算方法如下:
a=π*地球半径*(两点的经度之差的绝对值)/180, (6)
b=π*地球半径*(两点的纬度之差的绝对值)/180, (7)
Figure BDA0002753750790000181
接下来,分别计算在当前时间分片内,源IP地址物理归属地变更的速率值v:
v=d/两次相邻Session ID的时间差。 (9)
接下来,通过比较所有的速率值v,得出这个时间分片内最大的速率值,作为“该时间分片内源IP地址物理归属地的变更速率最大值”。
(4)操作对象变化特征向量:<每个Session ID访问过的对象资源集合、操作对象的访问成功率均值>。
“每个Session ID访问过的对象资源集合”计算方法如下:在同一个账号ID下,统计在该时间分片内所有Session ID用过的所有操作对象,以目标IP地址及目标端口号为操作对象的唯一标志,并生成“每个Session ID访问过的对象资源集合”。
“操作对象的访问成功率均值”计算方法如下:首先,在同一个账号ID下,统计在该时间分片内所有Session ID用过的所有操作结果个数M;然后,统计操作结果为“成功”的个数m;最后,计算m与M的比值(即m/M),即为“操作对象的访问成功率均值”。
在步骤S206:账号安全基线模型计算。该步骤S206包括两个子步骤。
第一子步骤(a):以Top n为主要方法,生成四个维度的集合模型。
操作时间维度集合:<通过历史数据(例如,历史日志数据)获得的该帐号的最频繁出现的前A2个(例如,前5个)登陆时间段的集合、通过历史数据获得的该帐号的在该时间分片内的每个会话标识的登陆时间长度均值T>。
操作序列维度集合:<通过历史数据获得的该帐号的最频繁使用的前A1个(例如,前50个)操作命令的集合、通过历史数据获得的该帐号的在该时间分片内的每个会话标识的操作频率均值S>。
源IP地址变化维度集合:<通过历史数据获得的该帐号的最频繁使用的前A3个(例如,前10个)源IP地址的集合、通过历史数据获得的该帐号的在该时间分片内的源IP地址的物理归属地的变更速率最大值V>。
操作对象变化维度集合:<通过历史数据获得的该帐号的最频繁访问的前A4个(例如,前10个)对象资源集合、通过历史数据获得的该帐号的在该时间分片内的操作对象的访问成功率均值O>。
以上Top n集合的生成方法为,根据步骤S204的统计结果,以Key:Value(关键字:值)的形式统计各元素的出现频率,随后对Value从高到低排序,选择相应数量的Key值,最终构建不同维度的Top n集合。
数值型的均值的计算方法为:根据步骤S204的统计结果,对所有相应维度的数值求和后取平均。数值型的最大值的计算方法为:对所有相应维度的数值所有的数值比较后,取最大值。
通过上面的步骤,得到四个维度安全基线的集合模型。
第二子步骤(b):计算四个维度安全基线的数值向量模型。
按固定时间周期切分的白名单样本日志,经过步骤S204的特征抽取,已经得到了相应的特征向量。经过这个子步骤,生成表示白名单样本中各账号ID的数值向量基线。
对于每一份被切分的白名单样本日志,分别与第一子步骤(a)所得到的集合模型做运算,得到四个维度数值向量(如表2所示):
表2
Figure BDA0002753750790000201
Figure BDA0002753750790000211
操作时间维度:以“该帐号日志的在时间分片内的每个Session ID的登陆时间段集合”和“通过历史数据获得的最频繁出现的前A2个(例如,前5个)登陆时间段的集合”取交集,并计算交集中的元素个数N1。
操作序列维度:以“该帐号日志的在该时间分片内的最频繁使用的前A1个(例如前50个)的操作命令集合”和“通过历史数据获得的最频繁使用的前A1个(例如,前50个)操作命令的集合”取交集,并计算交集中的元素个数N2。
源IP变化维度:以“该帐号日志的在该时间分片内的每个Session ID用过的源IP地址集合”和“通过历史数据获得的最频繁使用的前A3个(例如,前10个)源IP地址的集合”取交集,并计算交集中的元素个数N3。
操作对象变化维度:以“该帐号日志的在该时间分片内的每个Session ID访问过的对象资源集合”和“通过历史数据获得的最频繁访问的前A4个(例如,前10个)对象资源集合”取交集,并计算交集中的元素个数N4。
同一个账号ID_n下,对于该账号的多个样本日志,可以得到多组<N1,N2,N3,N4>,分别从四个维度取均值,结合各维度中已得到的统计数值,则可以得到ID_n的数值向量基线模型为:
<<N1Mean,T>、<N2Mean,S>、<N3Mean,V>和<N4Mean,O>>。
至此,提供了根据本公开一些实施例的安全基线模型的离线训练方法。在上述方法中,以操作时间、操作序列、源IP地址变化和操作对象变化四个维度定义了账号安全审计的框架,为后续的账号日志的安全审计提供了模型基础。
本公开的安全审计方法创新地定义了四个维度的账号行为特征抽取方法,以集合运算、IP地址归属地距离计算、数值向量计算等方法,实现了账号安全基线的分析和计算;综合了四个维度的账号安全审计结果,而且可以融合访问频率、URL语法检测和HTTP(HyperText Transfer Protocol,超文本传输协议)响应状态序列异常检测等关键特征,实现了对Web中间件日志的高精度、低误报、可精细化区分风险的安全审计,可发现如账号泄露、共享账号等高级风险,更符合构建网络安全纵深防御体系的需求。
图3是示出根据本公开一些实施例的账号日志的安全审计装置的结构示意图。如图3所示,该安全审计装置包括数据采集单元302、特征抽取单元304和运算单元306。
数据采集单元302用于从数据源采集帐号日志的数据,对数据进行解析并提取关键字段信息。
特征抽取单元304用于根据关键字段信息对帐号日志的每个时间分片的数据分别进行特征抽取以获得该帐号日志的多个维度的特征向量。
运算单元306用于将该帐号日志的多个维度的特征向量与该帐号的多个维度的集合模型进行集合运算以获得该帐号日志的数值向量数据,根据该帐号日志的数值向量数据和预先获得的该帐号的数值向量模型计算该帐号日志的向量空间的各个维度的距离值,其中,该帐号日志的各个维度的距离值为该帐号日志的各个维度的风险值,以及根据该帐号日志的各个维度的风险值计算得到该帐号日志的总风险值。
至此,提供了根据本公开一些实施例的安全审计装置。安全审计装置实现了对账号日志的高精度、可精细化区分风险的安全审计。
在一些实施例中,关键字段信息包括:时间戳、账号标识、会话标识、源IP地址、目标IP地址、目标端口、操作命令和执行结果。
在一些实施例中,多个维度的特征向量包括:操作时间特征向量、操作序列特征向量、源IP地址变化特征向量和操作对象变化特征向量。
操作时间特征向量包括:上述帐号日志的在时间分片内的每个会话标识的登陆时间段集合和在该时间分片内的每个会话标识的登陆时间长度均值tm
操作序列特征向量包括:该帐号日志的在该时间分片内的最频繁使用的前A1个的操作命令集合和该帐号日志的在该时间分片内的每个会话标识的操作频率均值sm,其中,A1为正整数。
源IP地址变化特征向量包括:该帐号日志的在该时间分片内的每个会话标识使用过的源IP地址集合和该帐号日志的在该时间分片内的源IP地址的物理归属地的变更速率最大值vm
操作对象变化特征向量包括:该帐号日志的在该时间分片内的每个会话标识访问过的对象资源集合和该帐号日志的在该时间分片内的操作对象的访问成功率均值om
在一些实施例中,运算单元306可以用于将所述帐号日志的多个维度的特征向量与所述帐号的多个维度的集合模型分别取交集并计算各个维度的交集中的元素的个数,以及根据所述帐号日志的在所述时间分片内的每个会话标识的登陆时间长度均值tm、所述帐号日志的在所述时间分片内的每个会话标识的操作频率均值sm、所述帐号日志的在所述时间分片内的源IP地址的物理归属地的变更速率最大值vm、所述帐号日志的在所述时间分片内的操作对象的访问成功率均值om以及所述各个维度的交集中的元素的个数获得所述帐号日志的数值向量数据。
在一些实施例中,所述帐号的多个维度的集合模型包括:操作时间维度集合、操作序列维度集合、源IP地址变化维度集合和操作对象变化维度集合。
操作时间维度集合包括:通过历史数据获得的所述帐号的最频繁出现的前A2个登陆时间段的集合和通过历史数据获得的所述帐号的在所述时间分片内的每个会话标识的登陆时间长度均值T,其中A2为正整数。
操作序列维度集合包括:通过历史数据获得的所述帐号的最频繁使用的前A1个操作命令的集合和通过历史数据获得的所述帐号的在所述时间分片内的每个会话标识的操作频率均值S。
源IP地址变化维度集合包括:通过历史数据获得的所述帐号的最频繁使用的前A3个源IP地址的集合和通过历史数据获得的所述帐号的在所述时间分片内的源IP地址的物理归属地的变更速率最大值V,其中A3为正整数。
操作对象变化维度集合包括:通过历史数据获得的所述帐号的最频繁访问的前A4个对象资源集合和通过历史数据获得的所述帐号的在所述时间分片内的操作对象的访问成功率均值O,其中A4为正整数。
在一些实施例中,数值向量数据包括多个数据结构<n1m,tm>、<n2m,sm>、<n3m,vm>和<n4m,om>,其中,n1m为所述帐号日志的在所述时间分片内的每个会话标识的登陆时间段集合与通过历史数据获得的所述帐号的最频繁出现的前A2个登陆时间段的集合的交集的元素的个数,n2m为所述帐号日志的在所述时间分片内的最频繁使用的前A1个的操作命令集合与通过历史数据获得的所述帐号的最频繁使用的前A1个操作命令的集合的交集的元素的个数,n3m为所述帐号日志的在所述时间分片内的每个会话标识使用过的源IP地址集合与通过历史数据获得的所述帐号的最频繁使用的前A3个源IP地址的集合的交集的元素的个数,n4m为所述帐号日志的在所述时间分片内的每个会话标识访问过的对象资源集合与通过历史数据获得的所述帐号的最频繁访问的前A4个对象资源集合的交集的元素的个数。
在一些实施例中,帐号日志的数值向量模型包括多个数据结构<N1Mean,T>、<N2Mean,S>、<N3Mean,V>和<N4Mean,O>,其中,N1Mean为通过历史数据获得的所述帐号的每个会话标识的登陆时间段集合与最频繁出现的前A2个登陆时间段的集合的交集的元素的个数的平均值,N2Mean为通过历史数据获得的所述帐号的操作序列特征向量中的最频繁使用的前A1个的操作命令集合与操作序列维度集合中的最频繁使用的前A1个操作命令的集合的交集的元素的个数的平均值,N3Mean为通过历史数据获得的所述帐号的每个会话标识使用过的源IP地址集合与最频繁使用的前A3个源IP地址的集合的交集的元素的个数的平均值,N4Mean为通过历史数据获得的所述帐号的每个会话标识访问过的对象资源集合与最频繁访问的前A4个对象资源集合的交集的元素的个数的平均值。
在一些实施例中,各个维度的距离值包括:操作时间维度距离值d1、操作序列维度距离值d2、源IP地址变化维度距离值d3和操作对象变化维度距离值d4,其中,
Figure BDA0002753750790000251
Figure BDA0002753750790000252
Figure BDA0002753750790000253
Figure BDA0002753750790000261
在一些实施例中,运算单元306计算所述帐号日志的总风险值R的关系式为:R=d1+d2+d3+d4。
在一些实施例中,运算单元306还可以用于基于所述帐号的历史数据获得所述帐号的多个维度的集合模型,将所述帐号的历史日志的多个维度的特征向量与所述帐号的多个维度的集合模型分别取交集并计算各个维度的交集中的元素的个数,在所述帐号下,根据多个历史日志计算各个维度的交集中的元素的个数的平均值,以及根据各个维度的交集中的元素的个数的平均值获得所述帐号的数值向量模型。
图4是示出根据本公开另一些实施例的账号日志的安全审计装置的结构示意图。如图4所示,该安全审计装置包括数据采集单元302、特征抽取单元304和运算单元306。
在一些实施例中,安全审计装置还可以包括数据聚合单元408。数据聚合单元408用于在对所述帐号日志的每个时间分片的数据分别进行特征抽取之前,对从数据源采集的数据按照相同的帐号标识进行第一数据聚合以得到每个帐号的数据集合,以及对每个帐号的数据集合中的数据按照相同的源IP地址进行第二数据聚合以得到每个帐号的数据集合中的子集合。特征抽取单元304用于在对所述帐号日志的每个时间分片的数据分别进行特征抽取的过程中,基于所述帐号的数据集合中的子集合进行特征抽取。
图5是示出根据本公开另一些实施例的账号日志的安全审计装置的结构示意图。该安全审计装置包括存储器510和处理器520。其中:
存储器510可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储图1和/或图2所对应实施例中的指令。
处理器520耦接至存储器510,可以作为一个或多个集成电路来实施,例如微处理器或微控制器。该处理器520用于执行存储器中存储的指令,实现了对账号日志的高精度、可精细化区分风险的安全审计。
在一些实施例中,还可以如图6所示,该安全审计装置600包括存储器610和处理器620。处理器620通过BUS总线630耦合至存储器610。该安全审计装置600还可以通过存储接口640连接至外部存储装置650以便调用外部数据,还可以通过网络接口660连接至网络或者另外一台计算机系统(未标出),此处不再进行详细介绍。
在该实施例中,通过存储器存储数据指令,再通过处理器处理上述指令,实现了对账号日志的高精度、可精细化区分风险的安全审计。
在另一些实施例中,本公开还提供了一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现图1和/或图2所对应实施例中的方法的步骤。本领域内的技术人员应明白,本公开的实施例可提供为方法、装置、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
至此,已经详细描述了本公开。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims (24)

1.一种账号日志的安全审计方法,包括:
从数据源采集帐号日志的数据,对所述数据进行解析并提取关键字段信息;
根据所述关键字段信息对所述帐号日志的每个时间分片的数据分别进行特征抽取以获得所述帐号日志的多个维度的特征向量;
将所述帐号日志的多个维度的特征向量与所述帐号的多个维度的集合模型进行集合运算以获得所述帐号日志的数值向量数据;
根据所述帐号日志的数值向量数据和预先获得的所述帐号的数值向量模型计算所述帐号日志的向量空间的各个维度的距离值,其中,所述帐号日志的各个维度的距离值为所述帐号日志的各个维度的风险值;以及
根据所述帐号日志的各个维度的风险值计算得到所述帐号日志的总风险值。
2.根据权利要求1所述的安全审计方法,其中,
所述关键字段信息包括:时间戳、账号标识、会话标识、源互联网协议IP地址、目标IP地址、目标端口、操作命令和执行结果;
所述多个维度的特征向量包括:操作时间特征向量、操作序列特征向量、源IP地址变化特征向量和操作对象变化特征向量。
3.根据权利要求2所述的安全审计方法,其中,
所述操作时间特征向量包括:所述帐号日志的在所述时间分片内的每个会话标识的登陆时间段集合和在所述时间分片内的每个会话标识的登陆时间长度均值tm
所述操作序列特征向量包括:所述帐号日志的在所述时间分片内的最频繁使用的前A1个的操作命令集合和所述帐号日志的在所述时间分片内的每个会话标识的操作频率均值sm,其中,A1为正整数;
所述源IP地址变化特征向量包括:所述帐号日志的在所述时间分片内的每个会话标识使用过的源IP地址集合和所述帐号日志的在所述时间分片内的源IP地址的物理归属地的变更速率最大值vm;以及
所述操作对象变化特征向量包括:所述帐号日志的在所述时间分片内的每个会话标识访问过的对象资源集合和所述帐号日志的在所述时间分片内的操作对象的访问成功率均值om
4.根据权利要求3所述的安全审计方法,其中,将所述帐号日志的多个维度的特征向量与所述帐号的多个维度的集合模型进行集合运算步骤包括:
将所述帐号日志的多个维度的特征向量与所述帐号的多个维度的集合模型分别取交集并计算各个维度的交集中的元素的个数;和
根据所述帐号日志的在所述时间分片内的每个会话标识的登陆时间长度均值tm、所述帐号日志的在所述时间分片内的每个会话标识的操作频率均值sm、所述帐号日志的在所述时间分片内的源IP地址的物理归属地的变更速率最大值vm、所述帐号日志的在所述时间分片内的操作对象的访问成功率均值om以及所述各个维度的交集中的元素的个数获得所述帐号日志的数值向量数据。
5.根据权利要求4所述的安全审计方法,其中,所述帐号的多个维度的集合模型包括:
操作时间维度集合,包括:通过历史数据获得的所述帐号的最频繁出现的前A2个登陆时间段的集合和通过历史数据获得的所述帐号的在所述时间分片内的每个会话标识的登陆时间长度均值T,其中A2为正整数;
操作序列维度集合,包括:通过历史数据获得的所述帐号的最频繁使用的前A1个操作命令的集合和通过历史数据获得的所述帐号的在所述时间分片内的每个会话标识的操作频率均值S;
源IP地址变化维度集合,包括:通过历史数据获得的所述帐号的最频繁使用的前A3个源IP地址的集合和通过历史数据获得的所述帐号的在所述时间分片内的源IP地址的物理归属地的变更速率最大值V,其中A3为正整数;以及
操作对象变化维度集合,包括:通过历史数据获得的所述帐号的最频繁访问的前A4个对象资源集合和通过历史数据获得的所述帐号的在所述时间分片内的操作对象的访问成功率均值O,其中A4为正整数。
6.根据权利要求5所述的安全审计方法,其中,所述数值向量数据包括多个数据结构<n1m,tm>、<n2m,sm>、<n3m,vm>和<n4m,om>,
其中,n1m为所述帐号日志的在所述时间分片内的每个会话标识的登陆时间段集合与通过历史数据获得的所述帐号的最频繁出现的前A2个登陆时间段的集合的交集的元素的个数,n2m为所述帐号日志的在所述时间分片内的最频繁使用的前A1个的操作命令集合与通过历史数据获得的所述帐号的最频繁使用的前A1个操作命令的集合的交集的元素的个数,n3m为所述帐号日志的在所述时间分片内的每个会话标识使用过的源IP地址集合与通过历史数据获得的所述帐号的最频繁使用的前A3个源IP地址的集合的交集的元素的个数,n4m为所述帐号日志的在所述时间分片内的每个会话标识访问过的对象资源集合与通过历史数据获得的所述帐号的最频繁访问的前A4个对象资源集合的交集的元素的个数。
7.根据权利要求6所述的安全审计方法,其中,
所述帐号日志的数值向量模型包括多个数据结构<N1Mean,T>、<N2Mean,S>、<N3Mean,V>和<N4Mean,O>,
其中,N1Mean为通过历史数据获得的所述帐号的每个会话标识的登陆时间段集合与最频繁出现的前A2个登陆时间段的集合的交集的元素的个数的平均值,N2Mean为通过历史数据获得的所述帐号的操作序列特征向量中的最频繁使用的前A1个的操作命令集合与操作序列维度集合中的最频繁使用的前A1个操作命令的集合的交集的元素的个数的平均值,N3Mean为通过历史数据获得的所述帐号的每个会话标识使用过的源IP地址集合与最频繁使用的前A3个源IP地址的集合的交集的元素的个数的平均值,N4Mean为通过历史数据获得的所述帐号的每个会话标识访问过的对象资源集合与最频繁访问的前A4个对象资源集合的交集的元素的个数的平均值。
8.根据权利要求7所述的安全审计方法,其中,所述各个维度的距离值包括:操作时间维度距离值d1、操作序列维度距离值d2、源IP地址变化维度距离值d3和操作对象变化维度距离值d4,其中,
Figure FDA0002753750780000041
Figure FDA0002753750780000042
Figure FDA0002753750780000043
Figure FDA0002753750780000044
9.根据权利要求8所述的安全审计方法,其中,计算所述帐号日志的总风险值R的关系式为:
R=d1+d2+d3+d4。
10.根据权利要求1所述的安全审计方法,还包括:
基于所述帐号的历史数据获得所述帐号的多个维度的集合模型;
将所述帐号的历史日志的多个维度的特征向量与所述帐号的多个维度的集合模型分别取交集并计算各个维度的交集中的元素的个数;
在所述帐号下,根据多个历史日志计算各个维度的交集中的元素的个数的平均值;以及
根据各个维度的交集中的元素的个数的平均值获得所述帐号的数值向量模型。
11.根据权利要求1所述的安全审计方法,还包括:
在对所述帐号日志的每个时间分片的数据分别进行特征抽取之前,对从数据源采集的数据按照相同的帐号标识进行第一数据聚合以得到每个帐号的数据集合;以及
对每个帐号的数据集合中的数据按照相同的源IP地址进行第二数据聚合以得到每个帐号的数据集合中的子集合;
其中,在对所述帐号日志的每个时间分片的数据分别进行特征抽取的过程中,基于所述帐号的数据集合中的子集合进行特征抽取。
12.一种账号日志的安全审计装置,包括:
数据采集单元,用于从数据源采集帐号日志的数据,对所述数据进行解析并提取关键字段信息;
特征抽取单元,用于根据所述关键字段信息对所述帐号日志的每个时间分片的数据分别进行特征抽取以获得所述帐号日志的多个维度的特征向量;以及
运算单元,用于将所述帐号日志的多个维度的特征向量与所述帐号的多个维度的集合模型进行集合运算以获得所述帐号日志的数值向量数据,根据所述帐号日志的数值向量数据和预先获得的所述帐号的数值向量模型计算所述帐号日志的向量空间的各个维度的距离值,其中,所述帐号日志的各个维度的距离值为所述帐号日志的各个维度的风险值,以及根据所述帐号日志的各个维度的风险值计算得到所述帐号日志的总风险值。
13.根据权利要求12所述的安全审计装置,其中,
所述关键字段信息包括:时间戳、账号标识、会话标识、源互联网协议IP地址、目标IP地址、目标端口、操作命令和执行结果;
所述多个维度的特征向量包括:操作时间特征向量、操作序列特征向量、源IP地址变化特征向量和操作对象变化特征向量。
14.根据权利要求13所述的安全审计装置,其中,
所述操作时间特征向量包括:所述帐号日志的在所述时间分片内的每个会话标识的登陆时间段集合和在所述时间分片内的每个会话标识的登陆时间长度均值tm
所述操作序列特征向量包括:所述帐号日志的在所述时间分片内的最频繁使用的前A1个的操作命令集合和所述帐号日志的在所述时间分片内的每个会话标识的操作频率均值sm,其中,A1为正整数;
所述源IP地址变化特征向量包括:所述帐号日志的在所述时间分片内的每个会话标识使用过的源IP地址集合和所述帐号日志的在所述时间分片内的源IP地址的物理归属地的变更速率最大值vm;以及
所述操作对象变化特征向量包括:所述帐号日志的在所述时间分片内的每个会话标识访问过的对象资源集合和所述帐号日志的在所述时间分片内的操作对象的访问成功率均值om
15.根据权利要求14所述的安全审计装置,其中,
所述运算单元用于将所述帐号日志的多个维度的特征向量与所述帐号的多个维度的集合模型分别取交集并计算各个维度的交集中的元素的个数,以及根据所述帐号日志的在所述时间分片内的每个会话标识的登陆时间长度均值tm、所述帐号日志的在所述时间分片内的每个会话标识的操作频率均值sm、所述帐号日志的在所述时间分片内的源IP地址的物理归属地的变更速率最大值vm、所述帐号日志的在所述时间分片内的操作对象的访问成功率均值om以及所述各个维度的交集中的元素的个数获得所述帐号日志的数值向量数据。
16.根据权利要求15所述的安全审计装置,其中,所述帐号的多个维度的集合模型包括:
操作时间维度集合,包括:通过历史数据获得的所述帐号的最频繁出现的前A2个登陆时间段的集合和通过历史数据获得的所述帐号的在所述时间分片内的每个会话标识的登陆时间长度均值T,其中A2为正整数;
操作序列维度集合,包括:通过历史数据获得的所述帐号的最频繁使用的前A1个操作命令的集合和通过历史数据获得的所述帐号的在所述时间分片内的每个会话标识的操作频率均值S;
源IP地址变化维度集合,包括:通过历史数据获得的所述帐号的最频繁使用的前A3个源IP地址的集合和通过历史数据获得的所述帐号的在所述时间分片内的源IP地址的物理归属地的变更速率最大值V,其中A3为正整数;以及
操作对象变化维度集合,包括:通过历史数据获得的所述帐号的最频繁访问的前A4个对象资源集合和通过历史数据获得的所述帐号的在所述时间分片内的操作对象的访问成功率均值O,其中A4为正整数。
17.根据权利要求16所述的安全审计装置,其中,所述数值向量数据包括多个数据结构<n1m,tm>、<n2m,sm>、<n3m,vm>和<n4m,om>,
其中,n1m为所述帐号日志的在所述时间分片内的每个会话标识的登陆时间段集合与通过历史数据获得的所述帐号的最频繁出现的前A2个登陆时间段的集合的交集的元素的个数,n2m为所述帐号日志的在所述时间分片内的最频繁使用的前A1个的操作命令集合与通过历史数据获得的所述帐号的最频繁使用的前A1个操作命令的集合的交集的元素的个数,n3m为所述帐号日志的在所述时间分片内的每个会话标识使用过的源IP地址集合与通过历史数据获得的所述帐号的最频繁使用的前A3个源IP地址的集合的交集的元素的个数,n4m为所述帐号日志的在所述时间分片内的每个会话标识访问过的对象资源集合与通过历史数据获得的所述帐号的最频繁访问的前A4个对象资源集合的交集的元素的个数。
18.根据权利要求17所述的安全审计装置,其中,
所述帐号日志的数值向量模型包括多个数据结构<N1Mean,T>、<N2Mean,S>、<N3Mean,V>和<N4Mean,O>,
其中,N1Mean为通过历史数据获得的所述帐号的每个会话标识的登陆时间段集合与最频繁出现的前A2个登陆时间段的集合的交集的元素的个数的平均值,N2Mean为通过历史数据获得的所述帐号的操作序列特征向量中的最频繁使用的前A1个的操作命令集合与操作序列维度集合中的最频繁使用的前A1个操作命令的集合的交集的元素的个数的平均值,N3Mean为通过历史数据获得的所述帐号的每个会话标识使用过的源IP地址集合与最频繁使用的前A3个源IP地址的集合的交集的元素的个数的平均值,N4Mean为通过历史数据获得的所述帐号的每个会话标识访问过的对象资源集合与最频繁访问的前A4个对象资源集合的交集的元素的个数的平均值。
19.根据权利要求18所述的安全审计装置,其中,所述各个维度的距离值包括:操作时间维度距离值d1、操作序列维度距离值d2、源IP地址变化维度距离值d3和操作对象变化维度距离值d4,其中,
Figure FDA0002753750780000081
Figure FDA0002753750780000082
Figure FDA0002753750780000083
Figure FDA0002753750780000084
20.根据权利要求19所述的安全审计装置,其中,所述运算单元计算所述帐号日志的总风险值R的关系式为:
R=d1+d2+d3+d4。
21.根据权利要求12所述的安全审计装置,其中,
所述运算单元还用于基于所述帐号的历史数据获得所述帐号的多个维度的集合模型,将所述帐号的历史日志的多个维度的特征向量与所述帐号的多个维度的集合模型分别取交集并计算各个维度的交集中的元素的个数,在所述帐号下,根据多个历史日志计算各个维度的交集中的元素的个数的平均值,以及根据各个维度的交集中的元素的个数的平均值获得所述帐号的数值向量模型。
22.根据权利要求12所述的安全审计装置,还包括:
数据聚合单元,用于在对所述帐号日志的每个时间分片的数据分别进行特征抽取之前,对从数据源采集的数据按照相同的帐号标识进行第一数据聚合以得到每个帐号的数据集合,以及对每个帐号的数据集合中的数据按照相同的源IP地址进行第二数据聚合以得到每个帐号的数据集合中的子集合;
其中,所述特征抽取单元用于在对所述帐号日志的每个时间分片的数据分别进行特征抽取的过程中,基于所述帐号的数据集合中的子集合进行特征抽取。
23.一种账号日志的安全审计装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至11任意一项所述的方法。
24.一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现如权利要求1至11任意一项所述的方法。
CN202011194912.9A 2020-10-30 2020-10-30 账号日志的安全审计方法和安全审计装置 Active CN114531252B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011194912.9A CN114531252B (zh) 2020-10-30 2020-10-30 账号日志的安全审计方法和安全审计装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011194912.9A CN114531252B (zh) 2020-10-30 2020-10-30 账号日志的安全审计方法和安全审计装置

Publications (2)

Publication Number Publication Date
CN114531252A true CN114531252A (zh) 2022-05-24
CN114531252B CN114531252B (zh) 2024-05-10

Family

ID=81619261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011194912.9A Active CN114531252B (zh) 2020-10-30 2020-10-30 账号日志的安全审计方法和安全审计装置

Country Status (1)

Country Link
CN (1) CN114531252B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001155085A (ja) * 2000-10-17 2001-06-08 Asahi Bank Ltd 会計処理システム
CN107872436A (zh) * 2016-09-27 2018-04-03 阿里巴巴集团控股有限公司 一种账号识别方法、装置及系统
CN110611635A (zh) * 2018-06-14 2019-12-24 蓝盾信息安全技术股份有限公司 一种基于多维度失陷账号的检测方法
CN110765087A (zh) * 2019-10-14 2020-02-07 西安交通大学 一种基于网络安全设备日志数据的用户账户滥用审计方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001155085A (ja) * 2000-10-17 2001-06-08 Asahi Bank Ltd 会計処理システム
CN107872436A (zh) * 2016-09-27 2018-04-03 阿里巴巴集团控股有限公司 一种账号识别方法、装置及系统
CN110611635A (zh) * 2018-06-14 2019-12-24 蓝盾信息安全技术股份有限公司 一种基于多维度失陷账号的检测方法
CN110765087A (zh) * 2019-10-14 2020-02-07 西安交通大学 一种基于网络安全设备日志数据的用户账户滥用审计方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王阳: "面向Web应用的用户账号风险识别模型的研究与实现", 中国优秀硕士学位论文全文数据库信息科技辑》, 1 June 2019 (2019-06-01) *

Also Published As

Publication number Publication date
CN114531252B (zh) 2024-05-10

Similar Documents

Publication Publication Date Title
CN105550583B (zh) 基于随机森林分类方法的Android平台恶意应用检测方法
EP3343869B1 (en) A method for modeling attack patterns in honeypots
Li Application of CART decision tree combined with PCA algorithm in intrusion detection
US20060100969A1 (en) Learning-based method for estimating cost and statistics of complex operators in continuous queries
CN111294233A (zh) 网络告警统计分析方法、系统及计算机可读存储介质
CN112491779B (zh) 一种异常行为检测方法及装置、电子设备
CN112463553B (zh) 一种基于普通告警关联分析智能告警的系统与方法
CN108268886B (zh) 用于识别外挂操作的方法及系统
CN113645232A (zh) 一种面向工业互联网的智能化流量监测方法、系统及存储介质
CN104902292B (zh) 一种基于电视报道的舆情分析方法和系统
CN107911232B (zh) 一种确定业务操作规则的方法及装置
CN108334758A (zh) 一种用户越权行为的检测方法、装置及设备
CN115146271B (zh) 一种基于因果分析的apt溯源研判方法
US11888874B2 (en) Label guided unsupervised learning based network-level application signature generation
CN114915479A (zh) 一种基于Web日志的Web攻击阶段分析方法及系统
CN112347501A (zh) 数据处理方法、装置、设备及存储介质
CN105512210A (zh) 关联事件类型的检测方法及装置
CN103577514A (zh) 用于自动数据探索的方法和装置
CN111866196A (zh) 一种域名流量特征提取方法、装置、设备及可读存储介质
Juvonen et al. Adaptive framework for network traffic classification using dimensionality reduction and clustering
CN110225009B (zh) 一种基于通信行为画像的代理使用者检测方法
Egri et al. Cross-correlation based clustering and dimension reduction of multivariate time series
CN111064719A (zh) 文件异常下载行为的检测方法及装置
CN110751354A (zh) 一种异常用户的检测方法和装置
CN114531252A (zh) 账号日志的安全审计方法和安全审计装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant