CN116980162A - 云审计的数据检测方法、装置、设备、介质及程序产品 - Google Patents
云审计的数据检测方法、装置、设备、介质及程序产品 Download PDFInfo
- Publication number
- CN116980162A CN116980162A CN202211478305.4A CN202211478305A CN116980162A CN 116980162 A CN116980162 A CN 116980162A CN 202211478305 A CN202211478305 A CN 202211478305A CN 116980162 A CN116980162 A CN 116980162A
- Authority
- CN
- China
- Prior art keywords
- log data
- association
- data
- detection model
- cloud audit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012550 audit Methods 0.000 title claims abstract description 245
- 238000001514 detection method Methods 0.000 title claims abstract description 227
- 230000002159 abnormal effect Effects 0.000 claims abstract description 50
- 238000012545 processing Methods 0.000 claims abstract description 49
- 238000000034 method Methods 0.000 claims abstract description 41
- 238000012098 association analyses Methods 0.000 claims abstract description 33
- 230000006399 behavior Effects 0.000 claims description 131
- 238000004422 calculation algorithm Methods 0.000 claims description 54
- 239000013598 vector Substances 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 28
- 238000010801 machine learning Methods 0.000 claims description 28
- 238000007418 data mining Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 18
- 238000003860 storage Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 10
- 238000010219 correlation analysis Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 16
- 206010000117 Abnormal behaviour Diseases 0.000 description 22
- 238000005516 engineering process Methods 0.000 description 19
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000005065 mining Methods 0.000 description 5
- 238000007637 random forest analysis Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000013102 re-test Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种云审计的数据检测方法、装置、设备、介质及程序产品,涉及人工智能、云审计、地图等领域,应用场景包括但不限于云审计的日志数据的异常检测场景。该方法包括:获取云审计的历史日志数据;对历史日志数据进行场景关联分析处理,以确定历史日志数据与预设场景类型之间的关联关系及对应的关联规则;其中,场景类型为正常业务类型、异常业务类型中的至少一项;通过关联规则得到训练后的云审计检测模型,并基于训练后的云审计检测模型对云审计的实时日志数据进行检测,确定实时日志数据和场景类型之间构成关联关系的第一概率;提高了对日志数据检测的准确度和效率,尤其提高了对异常业务类型的日志数据检测的准确度和效率。
Description
技术领域
本申请涉及计算机技术领域,具体而言,本申请涉及一种云审计的数据检测方法、装置、设备、介质及程序产品。
背景技术
随着越来越多个人和公司需求,存在大量业务上公有云;云租户和云上服务之间的交互方式包括:通过AKSK(Access Key ID/Secret Access Key,访问密钥)调用云API(Application Programming Interface,应用程序编程接口)实现公有云的服务使用和资源操作;其中,AKSK为调用者的身份验证凭据。若AKSK已经泄露,则可能导致入侵行为、攻击行为、异常行为等异常业务场景的出现。云审计是一项支持对云账号进行监管、合规性检查、操作审核和风险审核的服务,通过云审计可以记录日志,也可以持续检测并保留与整个云基础设施中操作相关的账号活动;但是,对云审计提供的日志数据(例如云API的日志数据)进行检测,往往难以准确检测出异常业务场景,而且还会耗费大量人工,从而导致对日志数据检测的准确度和效率都较低。
发明内容
本申请针对现有的方式的缺点,提出一种云审计的数据检测方法、装置、设备、计算机可读存储介质及计算机程序产品,用于解决如何提高日志数据检测的准确度和效率的问题。
第一方面,本申请提供了一种云审计的数据检测方法,包括:
获取云审计的历史日志数据;
对历史日志数据进行场景关联分析处理,以确定历史日志数据与预设场景类型之间的关联关系及对应的关联规则;其中,场景类型为正常业务类型、异常业务类型中的至少一项;
通过关联规则得到训练后的云审计检测模型,并基于训练后的云审计检测模型对云审计的实时日志数据进行检测,确定实时日志数据和场景类型之间构成关联关系的第一概率。
在一个实施例中,对历史日志数据进行场景关联分析处理,包括以下至少一项:
通过预定的关联规则方式,对历史日志数据进行与预设的场景类型之间的关联关系的关联分析,确定历史日志数据对应的关联规则;
通过数据挖掘方式,对历史日志数据进行与预设的场景类型之间的关联关系的关联分析,确定历史日志数据对应的关联规则。
在一个实施例中,通过预定的关联规则方式,对历史日志数据进行与预设的场景类型之间的关联关系的关联分析,确定历史日志数据对应的关联规则,包括:
将历史日志数据进行特征提取,得到历史日志数据对应的日志信息、历史日志数据对应的时序特征和历史日志数据对应的行为特征,日志信息包括基本数据特征;
基于日志信息、时序特征和行为特征,通过预定的关联规则方式确定历史日志数据与预设的场景类型之间的关联关系。
在一个实施例中,基于日志信息、时序特征和行为特征,通过预定的关联规则方式确定历史日志数据与预设的场景类型之间的关联关系,包括以下至少一项:
若日志信息、时序特征和行为特征归属于预定的关联规则方式中正常业务类型的关联行为列表,则确定历史日志数据与正常业务类型之间存在关联关系;
若日志信息、时序特征和行为特征归属于预定的关联规则方式中异常业务类型的关联行为列表,则确定历史日志数据与异常业务类型之间存在关联关系。
在一个实施例中,通过数据挖掘方式,对历史日志数据进行与预设的场景类型之间的关联关系的关联分析,确定历史日志数据对应的关联规则,包括:
将历史日志数据进行特征提取,得到历史日志数据对应的日志信息、历史日志数据对应的时序特征和历史日志数据对应的行为特征,日志信息包括基本数据特征;
基于日志信息、时序特征和行为特征,通过数据挖掘算法,确定历史日志数据对应的频繁项集;
基于频繁项集,确定历史日志数据对应的关联规则。
在一个实施例中,基于日志信息、时序特征和行为特征,通过数据挖掘算法,确定历史日志数据对应的频繁项集,包括:
将日志信息、时序特征和行为特征进行统计分类,得到数据集;
对数据集进行扫描,删除数据集中支持度小于预设阈值的项集,并构建频繁模式树;
基于频繁模式树,确定历史日志数据对应的频繁项集,频繁项集的支持度大于或等于预设阈值。
在一个实施例中,基于频繁项集,确定历史日志数据对应的关联规则,包括:
基于频繁项集,从历史日志数据中确定与场景类型存在关联关系的接口;
基于接口和场景类型之间的关联关系,确定历史日志数据对应的关联规则。
在一个实施例中,通过关联规则得到训练后的云审计检测模型,包括:
将历史日志数据进行特征提取,得到历史日志数据对应的基本数据特征、历史日志数据对应的时序特征和历史日志数据对应的行为特征;
将基本数据特征、时序特征和行为特征通过特征工程处理,得到训练样本,训练样本为第一特征向量;
将第一特征向量输入至预构建的云审计检测模型,基于关联规则,对云审计检测模型进行训练,得到训练后的云审计检测模型。
在一个实施例中,将第一特征向量输入至云审计检测模型,基于关联规则,对云审计检测模型进行训练,得到训练后的云审计检测模型,包括:
将第一特征向量输入至云审计检测模型,通过机器学习算法,确定历史日志数据和场景类型之间构成关联关系的第二概率;
基于关联规则和第二概率,确定云审计检测模型的损失函数的值;
若云审计检测模型的损失函数的值大于损失阈值,则对云审计检测模型进行训练,更新云审计检测模型的网络参数;
重复执行将第一特征向量输入至云审计检测模型,通过机器学习算法,确定历史日志数据和场景类型之间构成关联关系的第二概率、基于关联规则和第二概率,确定云审计检测模型的损失函数的值、以及若云审计检测模型的损失函数的值大于损失阈值,则对云审计检测模型进行训练,更新云审计检测模型的网络参数,直至当云审计检测模型的损失函数的值等于损失阈值,得到训练后的云审计检测模型。
在一个实施例中,基于训练后的云审计检测模型,对云审计的实时日志数据进行检测,确定实时日志数据和场景类型之间构成关联关系的第一概率,包括:
将实时日志数据进行特征提取,得到实时日志数据对应的基本数据特征、实时日志数据对应的时序特征和实时日志数据对应的行为特征;
将基本数据特征、时序特征和行为特征通过特征工程处理,得到第二特征向量;
将第二特征向量输入至训练后的云审计检测模型,通过机器学习算法,确定实时日志数据和场景类型之间构成关联关系的第一概率,第一概率包括实时日志数据和正常业务类型之间构成关联关系的概率,以及实时日志数据和异常业务类型之间构成关联关系的概率。
第二方面,本申请提供了一种云审计的数据检测装置,包括:
第一处理模块,用于获取云审计的历史日志数据;
第二处理模块,用于对历史日志数据进行场景关联分析处理,以确定历史日志数据与预设场景类型之间的关联关系及对应的关联规则;其中,场景类型为正常业务类型、异常业务类型中的至少一项;
第三处理模块,用于通过关联规则得到训练后的云审计检测模型,并基于训练后的云审计检测模型对云审计的实时日志数据进行检测,确定实时日志数据和场景类型之间构成关联关系的第一概率。
第三方面,本申请提供了一种电子设备,包括:处理器、存储器和总线;
总线,用于连接处理器和存储器;
存储器,用于存储操作指令;
处理器,用于通过调用操作指令,执行本申请第一方面的云审计的数据检测方法。
第四方面,本申请提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被用于执行本申请第一方面的云审计的数据检测方法。
第五方面,本申请提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现本申请第一方面中云审计的数据检测方法的步骤。
本申请实施例提供的技术方案,至少具有如下有益效果:
获取云审计的历史日志数据;对历史日志数据进行场景关联分析处理,以确定历史日志数据与预设场景类型之间的关联关系及对应的关联规则;其中,场景类型为正常业务类型、异常业务类型中的至少一项;通过关联规则得到训练后的云审计检测模型,并基于训练后的云审计检测模型对云审计的实时日志数据进行检测,确定实时日志数据和场景类型之间构成关联关系的第一概率;如此,基于关联分析得到的关联规则具备较高的准确度,通过关联规则确定训练后的云审计检测模型,训练后的云审计检测模型对实时日志数据和场景类型之间构成关联关系的判断也相应的具备较高的准确度,通过训练后的云审计检测模型对云审计的实时日志数据进行检测,提高了对日志数据检测的准确度和效率,尤其提高了对异常业务类型的日志数据检测的准确度和效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的云审计的数据检测系统的架构示意图;
图2为本申请实施例提供的一种云审计的数据检测方法的流程示意图;
图3为本申请实施例提供的一种云审计的数据检测方法的流程示意图;
图4为本申请实施例提供的一种云审计的数据检测方法的流程示意图;
图5为本申请实施例提供的一种云审计的数据检测装置的结构示意图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“A和/或B”指示实现为“A”,或者实现为“B”,或者实现为“A和B”。
可以理解的是,在本申请的具体实施方式中,涉及到云审计的数据检测相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请实施例是云审计的数据检测系统提供的一种云审计的数据检测方法,该云审计的数据检测方法涉及人工智能、云审计、地图等领域。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
智能交通系统(Intelligent Traffic System,ITS)又称智能运输系统(Intelligent Transportation System),是将先进的科学技术(信息技术、计算机技术、数据通信技术、传感器技术、电子控制技术、自动控制理论、运筹学、人工智能等)有效地综合运用于交通运输、服务控制和车辆制造,加强车辆、道路、使用者三者之间的联系,从而形成一种保障安全、提高效率、改善环境、节约能源的综合运输系统。
为了更好的理解及说明本申请实施例的方案,下面对本申请实施例中所涉及到的一些技术用语进行简单说明。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随机森林算法:在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。
长短记忆神经网络算法:长短期记忆网络(LSTM,Long Short-Term Memory)是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。
Apriori算法:Apriori算法是关联规则挖掘算法,Apriori算法利用逐层搜索的迭代方法找出数据库中项集的关系,以形成规则,其过程由连接(类矩阵运算)与剪枝(去掉那些没必要的中间结果)组成;Apriori算法中项集的概念即为项的集合;Apriori算法中包含K个项的集合为k项集;项集出现的频率是包含项集的事务数,称为项集的频率;如果某项集满足最小支持度,则称该项集为频繁项集。
FP-tree(Frequent Pattern tree,频繁模式树)是满足下列条件的一个树结构:该树结构由一个根节点(值为null)、项前缀子树(作为子女)和一个频繁项头表组成。
特征工程:特征工程包括数据预处理(Data Preprocessing)、特征抽取(FeatureExtraction)、特征构造(Feature Construction)、特征选择(Feature Selection)等步骤;在机器学习中,特征工程是数据准备的一项中心任务,特征工程从给定特征中构建合适的特征,从而提升预测的性能。
关联分析:当发生入侵行为时,每个人或业务都一定的操作逻辑,例如调用接口的类型、域名等都是和入侵行为存在强相关性(关联关系);但是在AKSK泄露发生时,这种关联行为(关联关系)开始不会有较强的逻辑性,只有在获取某些信息或权限后,才会有入侵行为方面的强相关性;因此,可以根据调用接口的类型和入侵行为进行关联行为的分析;当判断周期时间里面是否出现入侵行为时,进行具体检测。
零样本学习:零样本学习是人工智能识别方法,零样本学习就是识别从未见过的数据类别,即训练的分类器不仅仅能够识别出训练集中已有的数据类别,还可以对于来自未见过的类别的数据进行区分。
本申请实施例提供的方案涉及人工智能技术,下面以具体的实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
为了更好的理解本申请实施例提供的方案,下面结合具体的一个应用场景对该方案进行说明。
在一个实施例中,图1中示出了本申请实施例所适用的一种云审计的数据检测系统的架构示意图,可以理解的是,本申请实施例所提供的云审计的数据检测方法可以适用于但不限于应用于如图1所示的应用场景中。
本示例中,如图1所示,该示例中的云审计的数据检测系统的架构可以包括但不限于服务器10、终端20和数据库30。服务器10、终端20和数据库30之间可以通过网络40进行交互。
服务器10获取云审计的历史日志数据;服务器10对历史日志数据进行场景关联分析处理,以确定历史日志数据与预设场景类型之间的关联关系及对应的关联规则;其中,场景类型为正常业务类型、异常业务类型中的至少一项;服务器10通过关联规则得到训练后的云审计检测模型,并基于训练后的云审计检测模型对云审计的实时日志数据进行检测,确定实时日志数据和场景类型之间构成关联关系的第一概率。服务器10将实时日志数据和场景类型之间构成关联关系的第一概率发送给终端20,服务器10将实时日志数据和场景类型之间构成关联关系的第一概率发送给数据库30,通过数据库30将实时日志数据和场景类型之间构成关联关系的第一概率进行存储。
可理解,上述仅为一种示例,本实施例在此不作限定。
其中,终端包括但不限于智能手机(如Android手机、iOS手机等)、手机模拟器、平板电脑、笔记本电脑、数字广播接收器、MID(Mobile Internet Devices,移动互联网设备)、PDA(个人数字助理)、智能语音交互设备、智能家电、车载终端等。
服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。
云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。
按照逻辑功能划分,在IaaS(Infrastructure as a Service,基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层,PaaS层之上再部署SaaS(Software as a Service,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,SaaS和PaaS相对于IaaS是上层。
所谓人工智能云服务,一般也被称作是AIaaS(AI as a Service,中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。
上述网络可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、Wi-Fi及其他实现无线通信的网络。具体也可基于实际应用场景需求确定,在此不作限定。
参见图2,图2示出了本申请实施例提供的一种云审计的数据检测方法的流程示意图,其中,该方法可以由任一电子设备执行,如可以是服务器等;作为一可选实施方式,该方法可以由服务器执行,为了描述方便,在下文的一些可选实施例的描述中,将以服务器作为该方法执行主体为例进行说明。如图2所示,本申请实施例提供的云审计的数据检测方法包括如下步骤:
S201,获取云审计的历史日志数据。
具体地,云审计的历史日志数据是云审计提供的日志数据,日志数据可以是账号、AKSK、调用接口、IP(Internet Protocol,网际互连协议)、IP类型、接口类型、服务域名、端口等。
S202,对历史日志数据进行场景关联分析处理,以确定历史日志数据与预设场景类型之间的关联关系及对应的关联规则;其中,场景类型为正常业务类型、异常业务类型中的至少一项。
具体地,预设场景类型包括正常业务类型和异常业务类型,异常业务类型包括入侵行为、攻击行为、异常行为等。关联规则用于表征历史日志数据与预设的场景类型之间的关联关系。例如,历史日志数据为接口类型、IP、IP区域地址、接口类型、服务域名等,这些历史日志数据和入侵行为之间具有关联关系;其中,接口类型包括信息收集、凭据获取、边界突破、权限维持、权限提升等,这些接口类型和入侵行为之间具有强相关的关联关系。
S203,通过关联规则得到训练后的云审计检测模型,并基于训练后的云审计检测模型对云审计的实时日志数据进行检测,确定实时日志数据和场景类型之间构成关联关系的第一概率。
具体地,通过关联规则,采用机器学习算法,对云审计检测模型进行训练,得到训练后的云审计检测模型。机器学习算法可以是随机森林算法、长短记忆神经网络算法等。训练后的云审计检测模型对云审计的实时日志数据进行检测,输出实时日志数据和各场景类型之间构成关联关系的第一概率;例如,实时日志数据和正常业务类型之间构成关联关系的第一概率为1%,实时日志数据和入侵行为之间构成关联关系的第一概率为2%,实时日志数据和攻击行为之间构成关联关系的第一概率为3%,实时日志数据和异常行为之间构成关联关系的第一概率为94%。
本申请实施例中,获取云审计的历史日志数据;对历史日志数据进行场景关联分析处理,以确定历史日志数据与预设场景类型之间的关联关系及对应的关联规则;其中,场景类型为正常业务类型、异常业务类型中的至少一项;通过关联规则得到训练后的云审计检测模型,并基于训练后的云审计检测模型对云审计的实时日志数据进行检测,确定实时日志数据和场景类型之间构成关联关系的第一概率;如此,基于关联分析得到的关联规则具备较高的准确度,通过关联规则确定训练后的云审计检测模型,训练后的云审计检测模型对实时日志数据和场景类型之间构成关联关系的判断也相应的具备较高的准确度,通过训练后的云审计检测模型对云审计的实时日志数据进行检测,提高了对日志数据检测的准确度和效率,尤其提高了对异常业务类型的日志数据检测的准确度和效率。
在一个实施例中,对历史日志数据进行场景关联分析处理,包括以下至少一项:
通过预定的关联规则方式,对历史日志数据进行与预设的场景类型之间的关联关系的关联分析,确定历史日志数据对应的关联规则;
通过数据挖掘方式,对历史日志数据进行与预设的场景类型之间的关联关系的关联分析,确定历史日志数据对应的关联规则。
具体地,根据日志存储,索引得到需要检测的历史日志数据,预定历史日志数据的检测方向是正常业务类型、入侵行为、攻击行为、异常行为等。预定的关联规则方式包括:(1)若检测方向是业务正常操作行为,即正常业务类型,则根据历史日志数据来统计正常业务在时间周期内操作的敏感接口、接口操作类型、登录区域等,从而得到每一个账号下所访问的业务域名、接口操作类型、接口操作的顺序和接口数量、登录的区域等,即得到正常业务类型的关联行为列表;其中,敏感接口用于日志数据的读写、认证和修改;(2)若检测方向是入侵行为或攻击行为,则预定入侵时调用接口、操作的频率、接口类型、调用业务域名的种类等特征,上述特征与正常业务调用接口的数量、接口顺序、接口类型、IP区域地址、业务域名等之间存在差异;同时也可以预先设置接口调用的顺序,且接口调用频率高,接口例如信息收集、凭据认证、突破边界等类型接口;(3)若检测方向是异常行为,则异常行为和正常业务之间会存在较大差异性的业务域名、调用频率等。
具体地,数据挖掘方式中的数据挖掘算法可以是频繁项集挖掘算法,例如Apriori算法和FP-Tree算法。
在一个实施例中,通过预定的关联规则方式,对历史日志数据进行与预设的场景类型之间的关联关系的关联分析,确定历史日志数据对应的关联规则,包括:
将历史日志数据进行特征提取,得到历史日志数据对应的日志信息、历史日志数据对应的时序特征和历史日志数据对应的行为特征,日志信息包括基本数据特征;
基于日志信息、时序特征和行为特征,通过预定的关联规则方式确定历史日志数据与预设的场景类型之间的关联关系。
在一个实施例中,基于日志信息、时序特征和行为特征,通过预定的关联规则方式确定历史日志数据与预设的场景类型之间的关联关系,包括以下至少一项:
若日志信息、时序特征和行为特征归属于预定的关联规则方式中正常业务类型的关联行为列表,则确定历史日志数据与正常业务类型之间存在关联关系;
若日志信息、时序特征和行为特征归属于预定的关联规则方式中异常业务类型的关联行为列表,则确定历史日志数据与异常业务类型之间存在关联关系。
具体地,时序特征包括根据时间发生每分钟或每秒钟同一AKSK的调用行为、接口类型、源IP区域、目标区域等,时序特征还包括建立连接消耗时间、每分钟相同接口的调用次数、接口类型的种类数等。行为特征为检测时间段内接口出现次数、接口调用速率、同一AKSK接口调用的接口类型等一系列的统计信息。基本数据特征包括日志数据中提供的IP、域名、接口名、时间等。
例如,将账号、AKSK、调用接口、IP、IP类型、接口类型、服务域名、端口等与场景类型(正常业务类型、入侵行为、攻击行为或异常行为)之间进行关联分析,可以筛选出与正常业务类型之间具备关联关系的接口行为、与入侵行为之间具备关联关系的接口调用逻辑、与正常业务类型之间具备关联关系的AKSK在时间维度上调用正常业务等。
在一个实施例中,通过数据挖掘方式,对历史日志数据进行与预设的场景类型之间的关联关系的关联分析,确定历史日志数据对应的关联规则,包括:
将历史日志数据进行特征提取,得到历史日志数据对应的日志信息、历史日志数据对应的时序特征和历史日志数据对应的行为特征,日志信息包括基本数据特征;
基于日志信息、时序特征和行为特征,通过数据挖掘算法,确定历史日志数据对应的频繁项集;
基于频繁项集,确定历史日志数据对应的关联规则。
在一个实施例中,基于日志信息、时序特征和行为特征,通过数据挖掘算法,确定历史日志数据对应的频繁项集,包括:
将日志信息、时序特征和行为特征进行统计分类,得到数据集;
对数据集进行扫描,删除数据集中支持度小于预设阈值的项集,并构建频繁模式树;
基于频繁模式树,确定历史日志数据对应的频繁项集,频繁项集的支持度大于或等于预设阈值。
在一个实施例中,基于频繁项集,确定历史日志数据对应的关联规则,包括:
基于频繁项集,从历史日志数据中确定与场景类型存在关联关系的接口;
基于接口和场景类型之间的关联关系,确定历史日志数据对应的关联规则。
具体地,时序特征包括根据时间发生每分钟或每秒钟同一AKSK的调用行为、接口类型、源IP区域、目标区域等,时序特征还包括建立连接消耗时间、每分钟相同接口的调用次数、接口类型的种类数等。行为特征包括检测时间段内接口出现次数、接口调用速率、同一AKSK接口调用的接口类型等一系列的统计信息。基本数据特征包括日志数据中提供的IP、域名、接口名、时间等。数据挖掘算法可以是频繁项集挖掘算法,例如Apriori算法和FP-Tree算法。
例如,FP-Tree算法,包括步骤A1-A7:
步骤A1,将多种类型的接口中每种类型的接口进行统计分类,得到数据集。
步骤A2,第一次对该数据集进行扫描,得到所有频繁1-项集的计数;然后删除支持度小于阈值(例如最小支持度(Min Support)阈值)的项,将频繁1-项集放入项头表,并按照支持度降序排列。
步骤A3,第二次对该数据集进行扫描,对该数据集中每条数据剔除非频繁1-项集,并按照支持度降序排列,得到排序后的数据集。
步骤A4,开始时FP-Tree没有数据,建立FP-Tree时逐条地读入排序后的数据集,并将其插入FP-Tree;插入时按照排序后的顺序,插入FP-Tree中,排序靠前的节点是祖先节点,而靠后的是子孙节点;如果有共用的祖先,则对应的公用祖先节点计数加1;插入后,如果有新节点出现,则项头表对应的节点会通过节点链表链接上新节点;直到所有的数据都插入到FP-Tree后,FP-Tree的建立完成。
步骤A5,从项头表的底部项依次向上找到项头表项对应的条件模式基;从条件模式基递归挖掘得到项头表项的频繁项集;其中,条件模式基是指以要挖掘的结点作为叶子结点所对应的FP子树,频繁项集就是支持度大于或等于阈值的项集。
步骤A6,若不限制频繁项集的项数,则返回步骤A5所有的频繁项集;若限制频繁项集的项数,则只返回满足项数要求的频繁项集。
步骤A7,基于频繁项集,可以分析出多种类型的接口中某些类型的接口与场景类型(正常业务类型、入侵行为、攻击行为或异常行为)具有很强的相关性(关联关系),如此,基于关联关系,确定相应的关联规则。
在一个实施例中,通过关联规则得到训练后的云审计检测模型,包括:
将历史日志数据进行特征提取,得到历史日志数据对应的基本数据特征、历史日志数据对应的时序特征和历史日志数据对应的行为特征;
将基本数据特征、时序特征和行为特征通过特征工程处理,得到训练样本,训练样本为第一特征向量;
将第一特征向量输入至预构建的云审计检测模型,基于关联规则,对云审计检测模型进行训练,得到训练后的云审计检测模型。
具体地,对历史日志数据进行数据分析,从历史日志数据中提取基本数据特征、时序特征和行为特征;可以将基本数据特征、时序特征和行为特征确定为训练集、测试集等。将基本数据特征、时序特征和行为特征通过特征工程处理,得到可以进行模型训练的特征向量,即第一特征向量。将第一特征向量输入至云审计检测模型,基于关联规则,通过机器学习算法(例如随机森林算法、长短记忆神经网络算法等)对云审计检测模型进行训练,得到训练后的云审计检测模型。
将待检测日志数据通过训练后的云审计检测模型进行检测,确定待检测日志数据对应的场景类型(正常业务类型、入侵行为、攻击行为或异常行为);将入侵行为、攻击行为或异常行为对应的日志数据进行汇总,并存储在数据库。
可以根据新数据(例如实时日志数据)进行在线更新或周期性训练云审计检测模型,得到训练后的云审计检测模型;通过训练后的云审计检测模型重新进行测试和评估,若训练后的云审计检测模型的检测效果比云审计检测模型更好或泛化能力更强,则对云审计检测模型的参数进行更新。
需要说明的是,可以通过人工分析、规则分析、规则挖掘等方式,使训练集、测试集中数据更全面;如此,使云审计检测模型的泛化能力会更强,同时在线或周期性更新云审计检测模型,从而使云审计检测模型适合各个期间的检测要求。
在一个实施例中,将第一特征向量输入至云审计检测模型,基于关联规则,对云审计检测模型进行训练,得到训练后的云审计检测模型,包括:
将第一特征向量输入至云审计检测模型,通过机器学习算法,确定历史日志数据和场景类型之间构成关联关系的第二概率;
基于关联规则和第二概率,确定云审计检测模型的损失函数的值;
若云审计检测模型的损失函数的值大于损失阈值,则对云审计检测模型进行训练,更新云审计检测模型的网络参数;
重复执行将第一特征向量输入至云审计检测模型,通过机器学习算法,确定历史日志数据和场景类型之间构成关联关系的第二概率、基于关联规则和第二概率,确定云审计检测模型的损失函数的值、以及若云审计检测模型的损失函数的值大于损失阈值,则对云审计检测模型进行训练,更新云审计检测模型的网络参数,直至当云审计检测模型的损失函数的值等于损失阈值,得到训练后的云审计检测模型。
具体地,一方面,根据业务场景(场景类型)对历史日志数据进行统计分析,得到历史日志数据的分布情况,并根据业务场景进行关联规则的生成,从而实现异常业务行为的检测;另一方面,根据数据挖掘算法进行关联规则的挖掘。通过上述两方面的分析方式,可以检测正常业务行为(正常业务类型)和预定的异常业务行为(异常业务类型),可以根据数据挖掘算法从历史日志数据中挖掘出正常业务行为对应的正常业务数据和异常业务行为对应的异常业务数据。使用机器学习的方式结合时序进行云审计检测模型的训练,进而得到智能化的云审计检测模型;根据训练集、测试集中数据的不断更新,进行云审计检测模型的自动化迭代,从而解决人工维护、规则库效率低等情况。
在一个实施例中,基于训练后的云审计检测模型,对云审计的实时日志数据进行检测,确定实时日志数据和场景类型之间构成关联关系的第一概率,包括:
将实时日志数据进行特征提取,得到实时日志数据对应的基本数据特征、实时日志数据对应的时序特征和实时日志数据对应的行为特征;
将基本数据特征、时序特征和行为特征通过特征工程处理,得到第二特征向量;
将第二特征向量输入至训练后的云审计检测模型,通过机器学习算法,确定实时日志数据和场景类型之间构成关联关系的第一概率,第一概率包括实时日志数据和正常业务类型之间构成关联关系的概率,以及实时日志数据和异常业务类型之间构成关联关系的概率。
具体地,训练后的云审计检测模型对云审计的实时日志数据进行检测,输出实时日志数据和各场景类型之间构成关联关系的第一概率。例如,实时日志数据和正常业务类型之间构成关联关系的第一概率为1%,实时日志数据和入侵行为之间构成关联关系的第一概率为95%,实时日志数据和攻击行为之间构成关联关系的第一概率为2%,实时日志数据和异常行为之间构成关联关系的第一概率为2%;当出现AKSK泄露时,可以确定实时日志数据和入侵行为之间构成了关联关系,攻击者进行了信息收集、凭据认证、突破边界进入到内部业务中进行一系列的威胁操作或数据泄露威胁等。
应用本申请实施例,至少具有如下有益效果:
基于关联分析得到的关联规则具备较高的准确度,通过关联规则确定训练后的云审计检测模型,训练后的云审计检测模型对实时日志数据和场景类型之间构成关联关系的判断也相应的具备较高的准确度,通过训练后的云审计检测模型对云审计的实时日志数据进行检测,提高了对日志数据检测的准确度和效率,尤其提高了对异常业务类型的日志数据检测的准确度和效率。
为了更好的理解本申请实施例所提供的方法,下面结合具体应用场景的示例对本申请实施例的方案进行进一步说明。
在一个具体应用场景实施例中,例如云审计的日志数据的异常检测场景,参见图3,示出了一种云审计的数据检测方法的处理流程,如图3所示,本申请实施例提供的云审计的数据检测方法的处理流程包括如下步骤:
S301,服务器对云审计的历史日志数据进行预处理,得到历史日志数据对应的基本数据特征、历史日志数据对应的时序特征和历史日志数据对应的行为特征。
具体地,预处理包括数据统计、特征提取等。时序特征包括根据时间发生每分钟或每秒钟同一AKSK的调用行为、接口类型、源IP区域、目标区域等,时序特征还包括建立连接消耗时间、每分钟相同接口的调用次数、接口类型的种类数等。行为特征包括检测时间段内接口出现次数、接口调用速率、同一AKSK接口调用的接口类型等一系列的统计信息。基本数据特征包括日志数据中提供的IP、域名、接口名、时间等。
S302,服务器定义场景类型,其中,场景类型包括正常业务类型、入侵行为、攻击行为、异常行为等。
S303,服务器基于基本数据特征、时序特征和行为特征,通过预定的关联规则方式确定历史日志数据与场景类型之间的关联关系,即第一关联关系。
具体地,例如,将账号、AKSK、调用接口、IP、IP类型、接口类型、服务域名、端口等与场景类型(正常业务类型、入侵行为、攻击行为或异常行为)之间进行关联分析,可以筛选出与正常业务类型之间具备关联关系的接口行为、与入侵行为之间具备关联关系的接口调用逻辑、与正常业务类型之间具备关联关系的AKSK在时间维度上调用正常业务等。
S304,服务器基于基本数据特征、时序特征和行为特征,通过数据挖掘算法,确定历史日志数据对应的频繁项集;并基于频繁项集,确定历史日志数据对应的关联规则;历史日志数据对应的关联规则用以表征历史日志数据与场景类型之间的关联关系,即第二关联关系。
S305,服务器确定历史日志数据对应第一关联关系的第一概率和该历史日志数据对应第二关联关系的第二概率。
具体地,例如,历史日志数据和正常业务类型之间存在关联关系(第一关联关系)的概率(第一概率)为5%,该历史日志数据和异常行为之间存在关联关系(第二关联关系)的概率(第二概率)为95%。
S306,服务器基于历史日志数据对应的第一概率和第二概率,确定该历史日志数据对应的风险等级。
具体地,例如,若历史日志数据和正常业务类型之间存在关联关系(第一关联关系)的概率(第一概率)为5%,且该历史日志数据和异常行为之间存在关联关系(第二关联关系)的概率(第二概率)为95%,则可以确定存在异常行为的风险,此时风险等级较高;可以通过告警方式通知用户。
例如,若历史日志数据和正常业务类型之间存在关联关系(第一关联关系)的概率(第一概率)为98%,且该历史日志数据和异常行为之间存在关联关系(第二关联关系)的概率(第二概率)为2%,则可以确定不存在异常行为的风险,此时风险等级较低。
在一个具体应用场景实施例中,例如云审计的日志数据的异常检测场景,参见图4,示出了一种云审计的数据检测方法的处理流程,如图4所示,本申请实施例提供的云审计的数据检测方法的处理流程包括如下步骤:
S401,服务器对云审计的历史日志数据进行预处理,得到历史日志数据对应的基本数据特征、历史日志数据对应的时序特征和历史日志数据对应的行为特征。
S402,服务器基于基本历史日志数据对应的基本数据特征、历史日志数据对应的时序特征和历史日志数据对应的行为特征,通过预定的关联规则方式和数据挖掘方式,确定历史日志数据对应的关联规则。
S403,服务器更新样本数据集。
具体地,样本数据集包括历史日志数据;服务器更新样本数据集,通过样本数据集中数据的不断更新,使云审计检测模型的泛化能力会更强。
S404,服务器对样本数据集进行特征提取。
具体地,对历史日志数据进行数据分析,从历史日志数据中提取基本数据特征、时序特征和行为特征。
S405,服务器将基本数据特征、时序特征和行为特征通过特征工程处理,得到特征向量。
具体地,将基本数据特征、时序特征和行为特征通过特征工程处理,得到可以进行模型训练的特征向量,即第一特征向量。
S406,服务器确定云审计检测模型训练中使用的算法。
具体地,服务器选择机器学习算法,例如随机森林算法、长短记忆神经网络算法等;服务器也可以选择零样本学习。
S407,服务器对云审计检测模型进行训练,更新云审计检测模型的网络参数,得到训练后的云审计检测模型。
具体地,将第一特征向量输入至云审计检测模型,通过机器学习算法,确定历史日志数据和场景类型之间构成关联关系的第二概率;基于关联规则和第二概率,确定云审计检测模型的损失函数的值;若云审计检测模型的损失函数的值大于损失阈值,则对云审计检测模型进行训练,更新云审计检测模型的网络参数;重复执行将第一特征向量输入至云审计检测模型,通过机器学习算法,确定历史日志数据和场景类型之间构成关联关系的第二概率、基于关联规则和第二概率,确定云审计检测模型的损失函数的值、以及若云审计检测模型的损失函数的值大于损失阈值,则对云审计检测模型进行训练,更新云审计检测模型的网络参数,直至当云审计检测模型的损失函数的值等于损失阈值,得到训练后的云审计检测模型。
S408,服务器将待检测日志数据通过训练后的云审计检测模型进行检测,确定待检测日志数据和场景类型之间构成关联关系的概率。
具体地,场景类型例如正常业务类型、入侵行为、攻击行为、异常行为等,待检测日志数据例如实时日志数据。将实时日志数据进行特征提取,得到实时日志数据对应的基本数据特征、实时日志数据对应的时序特征和实时日志数据对应的行为特征;将基本数据特征、时序特征和行为特征通过特征工程处理,得到特征向量,即第二特征向量;将第二特征向量输入至训练后的云审计检测模型,通过机器学习算法,确定实时日志数据和场景类型之间构成关联关系的概率,即第一概率,第一概率包括实时日志数据和正常业务类型之间构成关联关系的概率,以及实时日志数据和异常业务类型之间构成关联关系的概率。
S409,服务器基于待检测日志数据和场景类型之间构成关联关系的概率,确定待检测日志数据对应的风险等级。
具体地,例如,若待检测日志数据和正常业务类型之间存在关联关系的概率为1%,且该待检测日志数据和入侵行为之间存在关联关系的概率为99%,则可以确定存在入侵行为的风险,此时风险等级较高。
例如,若待检测日志数据和正常业务类型之间存在关联关系的概率为97%,且该待检测日志数据和攻击行为行为之间存在关联关系的概率为3%,则可以确定不存在攻击行为的风险,此时风险等级较低。
S410,服务器基于待检测日志数据对应的风险等级,判断待检测日志数据是否对应异常业务类型;若确定待检测日志数据是对应异常业务类型,则转到步骤S411处理;若确定待检测日志数据不是对应异常业务类型,则转到步骤S403处理。
具体地,异常业务类型包括入侵行为、攻击行为、异常行为等。例如,风险等级包括一级风险和二级风险;其中,一级风险表示待检测日志数据和异常业务类型之间存在关联关系的概率大于或等于90%,二级风险表示待检测日志数据和异常业务类型之间存在关联关系的概率小于10%;若待检测日志数据对应的风险等级为一级风险,则确定待检测日志数据是对应异常业务类型;若待检测日志数据对应的风险等级为二级风险,则确定待检测日志数据不是对应异常业务类型。
需要说明的是,使用机器学习的方式结合时序进行云审计检测模型的训练,进而得到智能化的云审计检测模型;通过样本数据集中数据的不断更新,使云审计检测模型的泛化能力会更强,同时在线或周期性更新云审计检测模型,即进行云审计检测模型的自动化迭代,从而解决人工维护、规则库效率低等情况,并使云审计检测模型适合各个期间的检测要求。
S411,服务器向终端发送告警信号。
具体地,例如,若历史日志数据和正常业务类型之间存在关联关系(第一关联关系)的概率(第一概率)为5%,且该历史日志数据和异常行为之间存在关联关系(第二关联关系)的概率(第二概率)为95%,则可以确定存在异常行为的风险,此时风险等级较高;可以通过告警方式通知用户,即服务器向终端发送告警信号。
应用本申请实施例,至少具有如下有益效果:
基于关联分析得到的关联规则具备较高的准确度,通过关联规则确定训练后的云审计检测模型,训练后的云审计检测模型对实时日志数据和场景类型之间构成关联关系的判断也相应的具备较高的准确度,通过训练后的云审计检测模型对云审计的实时日志数据进行检测,提高了对日志数据检测的准确度和效率,尤其提高了对异常业务类型的日志数据检测的准确度和效率。
本申请实施例还提供了一种云审计的数据检测装置,该云审计的数据检测装置的结构示意图如图5所示,云审计的数据检测装置50,包括第一处理模块501、第二处理模块502、第三处理模块503。
第一处理模块501,用于获取云审计的历史日志数据;
第二处理模块502,用于对历史日志数据进行场景关联分析处理,以确定历史日志数据与预设场景类型之间的关联关系及对应的关联规则;其中,场景类型为正常业务类型、异常业务类型中的至少一项;
第三处理模块503,用于通过关联规则得到训练后的云审计检测模型,并基于训练后的云审计检测模型对云审计的实时日志数据进行检测,确定实时日志数据和场景类型之间构成关联关系的第一概率。
在一个实施例中,第二处理模块502,具体用于执行以下至少一项:
通过预定的关联规则方式,对历史日志数据进行与预设的场景类型之间的关联关系的关联分析,确定历史日志数据对应的关联规则;
通过数据挖掘方式,对历史日志数据进行与预设的场景类型之间的关联关系的关联分析,确定历史日志数据对应的关联规则。
在一个实施例中,第二处理模块502,具体用于:
将历史日志数据进行特征提取,得到历史日志数据对应的日志信息、历史日志数据对应的时序特征和历史日志数据对应的行为特征,日志信息包括基本数据特征;
基于日志信息、时序特征和行为特征,通过预定的关联规则方式确定历史日志数据与预设的场景类型之间的关联关系。
在一个实施例中,第二处理模块502,具体用于执行以下至少一项:
若日志信息、时序特征和行为特征归属于预定的关联规则方式中正常业务类型的关联行为列表,则确定历史日志数据与正常业务类型之间存在关联关系;
若日志信息、时序特征和行为特征归属于预定的关联规则方式中异常业务类型的关联行为列表,则确定历史日志数据与异常业务类型之间存在关联关系。
在一个实施例中,第二处理模块502,具体用于:
将历史日志数据进行特征提取,得到历史日志数据对应的日志信息、历史日志数据对应的时序特征和历史日志数据对应的行为特征,日志信息包括基本数据特征;
基于日志信息、时序特征和行为特征,通过数据挖掘算法,确定历史日志数据对应的频繁项集;
基于频繁项集,确定历史日志数据对应的关联规则。
在一个实施例中,第二处理模块502,具体用于:
将日志信息、时序特征和行为特征进行统计分类,得到数据集;
对数据集进行扫描,删除数据集中支持度小于预设阈值的项集,并构建频繁模式树;
基于频繁模式树,确定历史日志数据对应的频繁项集,频繁项集的支持度大于或等于预设阈值。
在一个实施例中,第二处理模块502,具体用于:
基于频繁项集,从历史日志数据中确定与场景类型存在关联关系的接口;
基于接口和场景类型之间的关联关系,确定历史日志数据对应的关联规则。
在一个实施例中,第三处理模块503,具体用于:
将历史日志数据进行特征提取,得到历史日志数据对应的基本数据特征、历史日志数据对应的时序特征和历史日志数据对应的行为特征;
将基本数据特征、时序特征和行为特征通过特征工程处理,得到训练样本,训练样本为第一特征向量;
将第一特征向量输入至预构建的云审计检测模型,基于关联规则,对云审计检测模型进行训练,得到训练后的云审计检测模型。
在一个实施例中,第三处理模块503,具体用于:
将第一特征向量输入至云审计检测模型,通过机器学习算法,确定历史日志数据和场景类型之间构成关联关系的第二概率;
基于关联规则和第二概率,确定云审计检测模型的损失函数的值;
若云审计检测模型的损失函数的值大于损失阈值,则对云审计检测模型进行训练,更新云审计检测模型的网络参数;
重复执行将第一特征向量输入至云审计检测模型,通过机器学习算法,确定历史日志数据和场景类型之间构成关联关系的第二概率、基于关联规则和第二概率,确定云审计检测模型的损失函数的值、以及若云审计检测模型的损失函数的值大于损失阈值,则对云审计检测模型进行训练,更新云审计检测模型的网络参数,直至当云审计检测模型的损失函数的值等于损失阈值,得到训练后的云审计检测模型。
在一个实施例中,第三处理模块503,具体用于:
将实时日志数据进行特征提取,得到实时日志数据对应的基本数据特征、实时日志数据对应的时序特征和实时日志数据对应的行为特征;
将基本数据特征、时序特征和行为特征通过特征工程处理,得到第二特征向量;
将第二特征向量输入至训练后的云审计检测模型,通过机器学习算法,确定实时日志数据和场景类型之间构成关联关系的第一概率,第一概率包括实时日志数据和正常业务类型之间构成关联关系的概率,以及实时日志数据和异常业务类型之间构成关联关系的概率。
应用本申请实施例,至少具有如下有益效果:
获取云审计的历史日志数据;对历史日志数据进行场景关联分析处理,以确定历史日志数据与预设场景类型之间的关联关系及对应的关联规则;其中,场景类型为正常业务类型、异常业务类型中的至少一项;通过关联规则得到训练后的云审计检测模型,并基于训练后的云审计检测模型对云审计的实时日志数据进行检测,确定实时日志数据和场景类型之间构成关联关系的第一概率;如此,基于关联分析得到的关联规则具备较高的准确度,通过关联规则确定训练后的云审计检测模型,训练后的云审计检测模型对实时日志数据和场景类型之间构成关联关系的判断也相应的具备较高的准确度,通过训练后的云审计检测模型对云审计的实时日志数据进行检测,提高了对日志数据检测的准确度和效率,尤其提高了对异常业务类型的日志数据检测的准确度和效率。
本申请实施例还提供了一种电子设备,该电子设备的结构示意图如图6所示,图6所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
存储器4003用于存储执行本申请实施例的计算机程序,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序,以实现前述方法实施例所示的步骤。
其中,电子设备包括但不限于:服务器等。
应用本申请实施例,至少具有如下有益效果:
获取云审计的历史日志数据;对历史日志数据进行场景关联分析处理,以确定历史日志数据与预设场景类型之间的关联关系及对应的关联规则;其中,场景类型为正常业务类型、异常业务类型中的至少一项;通过关联规则得到训练后的云审计检测模型,并基于训练后的云审计检测模型对云审计的实时日志数据进行检测,确定实时日志数据和场景类型之间构成关联关系的第一概率;如此,基于关联分析得到的关联规则具备较高的准确度,通过关联规则确定训练后的云审计检测模型,训练后的云审计检测模型对实时日志数据和场景类型之间构成关联关系的判断也相应的具备较高的准确度,通过训练后的云审计检测模型对云审计的实时日志数据进行检测,提高了对日志数据检测的准确度和效率,尤其提高了对异常业务类型的日志数据检测的准确度和效率。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本申请实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
基于与本申请实施例提供的方法相同的原理,本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述本申请任一可选实施例中提供的方法。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。
Claims (14)
1.一种云审计的数据检测方法,其特征在于,包括:
获取云审计的历史日志数据;
对所述历史日志数据进行场景关联分析处理,以确定所述历史日志数据与预设场景类型之间的关联关系及对应的关联规则;其中,所述场景类型为正常业务类型、异常业务类型中的至少一项;
通过所述关联规则得到训练后的云审计检测模型,并基于所述训练后的云审计检测模型对所述云审计的实时日志数据进行检测,确定所述实时日志数据和所述场景类型之间构成关联关系的第一概率。
2.根据权利要求1所述的方法,其特征在于,所述对所述历史日志数据进行场景关联分析处理,包括以下至少一项:
通过预定的关联规则方式,对所述历史日志数据进行与预设的场景类型之间的关联关系的关联分析,确定所述历史日志数据对应的关联规则;
通过数据挖掘方式,对所述历史日志数据进行与预设的场景类型之间的关联关系的关联分析,确定所述历史日志数据对应的关联规则。
3.根据权利要求2所述的方法,其特征在于,所述通过预定的关联规则方式,对所述历史日志数据进行与预设的场景类型之间的关联关系的关联分析,确定所述历史日志数据对应的关联规则,包括:
将所述历史日志数据进行特征提取,得到所述历史日志数据对应的日志信息、所述历史日志数据对应的时序特征和所述历史日志数据对应的行为特征,所述日志信息包括基本数据特征;
基于所述日志信息、所述时序特征和所述行为特征,通过预定的关联规则方式确定所述历史日志数据与预设的场景类型之间的关联关系。
4.根据权利要求3所述的方法,其特征在于,所述基于所述日志信息、所述时序特征和所述行为特征,通过预定的关联规则方式确定所述历史日志数据与预设的场景类型之间的关联关系,包括以下至少一项:
若所述日志信息、所述时序特征和所述行为特征归属于预定的关联规则方式中所述正常业务类型的关联行为列表,则确定所述历史日志数据与所述正常业务类型之间存在关联关系;
若所述日志信息、所述时序特征和所述行为特征归属于所述预定的关联规则方式中所述异常业务类型的关联行为列表,则确定所述历史日志数据与所述异常业务类型之间存在关联关系。
5.根据权利要求2所述的方法,其特征在于,所述通过数据挖掘方式,对所述历史日志数据进行与预设的场景类型之间的关联关系的关联分析,确定所述历史日志数据对应的关联规则,包括:
将所述历史日志数据进行特征提取,得到所述历史日志数据对应的日志信息、所述历史日志数据对应的时序特征和所述历史日志数据对应的行为特征,所述日志信息包括基本数据特征;
基于所述日志信息、所述时序特征和所述行为特征,通过数据挖掘算法,确定所述历史日志数据对应的频繁项集;
基于所述频繁项集,确定所述历史日志数据对应的关联规则。
6.根据权利要求5所述的方法,其特征在于,所述基于所述日志信息、所述时序特征和所述行为特征,通过数据挖掘算法,确定所述历史日志数据对应的频繁项集,包括:
将所述日志信息、所述时序特征和所述行为特征进行统计分类,得到数据集;
对所述数据集进行扫描,删除所述数据集中支持度小于预设阈值的项集,并构建频繁模式树;
基于所述频繁模式树,确定所述历史日志数据对应的频繁项集,所述频繁项集的支持度大于或等于所述预设阈值。
7.根据权利要求5所述的方法,其特征在于,所述基于所述频繁项集,确定所述历史日志数据对应的关联规则,包括:
基于所述频繁项集,从所述历史日志数据中确定与所述场景类型存在关联关系的接口;
基于所述接口和所述场景类型之间的关联关系,确定所述历史日志数据对应的关联规则。
8.根据权利要求1所述的方法,其特征在于,所述通过所述关联规则得到训练后的云审计检测模型,包括:
将所述历史日志数据进行特征提取,得到所述历史日志数据对应的基本数据特征、所述历史日志数据对应的时序特征和所述历史日志数据对应的行为特征;
将所述基本数据特征、所述时序特征和所述行为特征通过特征工程处理,得到训练样本,所述训练样本为第一特征向量;
将所述第一特征向量输入至预构建的云审计检测模型,基于所述关联规则,对所述云审计检测模型进行训练,得到所述训练后的云审计检测模型。
9.根据权利要求8所述的方法,其特征在于,所述将所述第一特征向量输入至所述云审计检测模型,基于所述关联规则,对所述云审计检测模型进行训练,得到所述训练后的云审计检测模型,包括:
将所述第一特征向量输入至所述云审计检测模型,通过机器学习算法,确定所述历史日志数据和所述场景类型之间构成关联关系的第二概率;
基于所述关联规则和所述第二概率,确定所述云审计检测模型的损失函数的值;
若所述云审计检测模型的损失函数的值大于损失阈值,则对所述云审计检测模型进行训练,更新所述云审计检测模型的网络参数;
重复执行所述将所述第一特征向量输入至所述云审计检测模型,通过机器学习算法,确定所述历史日志数据和所述场景类型之间构成关联关系的第二概率、所述基于所述关联规则和所述第二概率,确定所述云审计检测模型的损失函数的值、以及所述若所述云审计检测模型的损失函数的值大于损失阈值,则对所述云审计检测模型进行训练,更新所述云审计检测模型的网络参数,直至当所述云审计检测模型的损失函数的值等于损失阈值,得到训练后的云审计检测模型。
10.根据权利要求1所述的方法,其特征在于,所述基于所述训练后的云审计检测模型,对所述云审计的实时日志数据进行检测,确定所述实时日志数据和所述场景类型之间构成关联关系的第一概率,包括:
将所述实时日志数据进行特征提取,得到所述实时日志数据对应的基本数据特征、所述实时日志数据对应的时序特征和所述实时日志数据对应的行为特征;
将所述基本数据特征、所述时序特征和所述行为特征通过特征工程处理,得到第二特征向量;
将所述第二特征向量输入至所述训练后的云审计检测模型,通过机器学习算法,确定所述实时日志数据和所述场景类型之间构成关联关系的第一概率,所述第一概率包括所述实时日志数据和所述正常业务类型之间构成关联关系的概率,以及所述实时日志数据和所述异常业务类型之间构成关联关系的概率。
11.一种云审计的数据检测装置,其特征在于,包括:
第一处理模块,用于获取云审计的历史日志数据;
第二处理模块,用于对所述历史日志数据进行场景关联分析处理,以确定所述历史日志数据与预设场景类型之间的关联关系及对应的关联规则;其中,所述场景类型为正常业务类型、异常业务类型中的至少一项;
第三处理模块,用于通过所述关联规则得到训练后的云审计检测模型,并基于所述训练后的云审计检测模型对所述云审计的实时日志数据进行检测,确定所述实时日志数据和所述场景类型之间构成关联关系的第一概率。
12.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-10中任一项所述方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-10中任一项所述方法的步骤。
14.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-10中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211478305.4A CN116980162A (zh) | 2022-11-23 | 2022-11-23 | 云审计的数据检测方法、装置、设备、介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211478305.4A CN116980162A (zh) | 2022-11-23 | 2022-11-23 | 云审计的数据检测方法、装置、设备、介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116980162A true CN116980162A (zh) | 2023-10-31 |
Family
ID=88483736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211478305.4A Pending CN116980162A (zh) | 2022-11-23 | 2022-11-23 | 云审计的数据检测方法、装置、设备、介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116980162A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117850714A (zh) * | 2024-03-04 | 2024-04-09 | 珠海芯烨电子科技有限公司 | 一种云打印机数据审计方法以及相关装置 |
CN117873408A (zh) * | 2024-03-11 | 2024-04-12 | 珠海芯烨电子科技有限公司 | 一种云打印机数据恢复方法以及相关装置 |
-
2022
- 2022-11-23 CN CN202211478305.4A patent/CN116980162A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117850714A (zh) * | 2024-03-04 | 2024-04-09 | 珠海芯烨电子科技有限公司 | 一种云打印机数据审计方法以及相关装置 |
CN117850714B (zh) * | 2024-03-04 | 2024-05-07 | 珠海芯烨电子科技有限公司 | 一种云打印机数据审计方法以及相关装置 |
CN117873408A (zh) * | 2024-03-11 | 2024-04-12 | 珠海芯烨电子科技有限公司 | 一种云打印机数据恢复方法以及相关装置 |
CN117873408B (zh) * | 2024-03-11 | 2024-05-31 | 珠海芯烨电子科技有限公司 | 一种云打印机数据恢复方法以及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109816397B (zh) | 一种欺诈判别方法、装置及存储介质 | |
US9071636B2 (en) | Predictive scoring management system for application behavior | |
CN110177108A (zh) | 一种异常行为检测方法、装置及验证系统 | |
CN116980162A (zh) | 云审计的数据检测方法、装置、设备、介质及程序产品 | |
CN107209832A (zh) | 基于相似装置中的恶意代码检测来确定装置上的模型保护等级 | |
CN108491720B (zh) | 一种应用识别方法、系统以及相关设备 | |
CN106845240A (zh) | 一种基于随机森林的Android恶意软件静态检测方法 | |
CN105825129B (zh) | 一种融合通信中恶意软件鉴别方法和系统 | |
CN103593609A (zh) | 一种可信行为识别的方法和装置 | |
CN109831459B (zh) | 安全访问的方法、装置、存储介质和终端设备 | |
CN103500307A (zh) | 一种基于行为模型的移动互联网恶意应用软件检测方法 | |
CN103617393A (zh) | 一种基于支持向量机的移动互联网恶意应用软件检测方法 | |
CN107169499A (zh) | 一种风险识别方法及装置 | |
CN113965389B (zh) | 一种基于防火墙日志的网络安全管理方法、设备及介质 | |
WO2021216163A2 (en) | Ai-driven defensive cybersecurity strategy analysis and recommendation system | |
CN109684837B (zh) | 一种面向电力企业的移动应用恶意软件检测方法及系统 | |
CN111949992B (zh) | Web应用程序的自动化安全监测方法及系统 | |
CN109450880A (zh) | 基于决策树的钓鱼网站检测方法、装置及计算机设备 | |
CN111324893B (zh) | 基于敏感模式的安卓恶意软件的检测方法及后台系统 | |
Ryu et al. | Study on Trends and predictions of convergence in Cybersecurity Technology using machine learning | |
CN115827379A (zh) | 异常进程检测方法、装置、设备和介质 | |
CN113032774B (zh) | 异常检测模型的训练方法、装置、设备及计算机存储介质 | |
CN110348450A (zh) | 用于图像验证码的安全评估方法、装置和计算机系统 | |
CN113852641B (zh) | 一种基于图数据库的网络攻击溯源系统、方法及设备 | |
CN111465021B (zh) | 基于图的骚扰电话识别模型构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |