CN111639497B - 一种基于大数据机器学习的异常行为发现方法 - Google Patents

一种基于大数据机器学习的异常行为发现方法 Download PDF

Info

Publication number
CN111639497B
CN111639497B CN202010461115.6A CN202010461115A CN111639497B CN 111639497 B CN111639497 B CN 111639497B CN 202010461115 A CN202010461115 A CN 202010461115A CN 111639497 B CN111639497 B CN 111639497B
Authority
CN
China
Prior art keywords
data
behavior
knowledge base
abnormal
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010461115.6A
Other languages
English (en)
Other versions
CN111639497A (zh
Inventor
张春林
李利军
李春青
常江波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tongtech Co Ltd
Original Assignee
Beijing Tongtech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tongtech Co Ltd filed Critical Beijing Tongtech Co Ltd
Priority to CN202010461115.6A priority Critical patent/CN111639497B/zh
Publication of CN111639497A publication Critical patent/CN111639497A/zh
Application granted granted Critical
Publication of CN111639497B publication Critical patent/CN111639497B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据机器学习的异常行为发现方法,包括以下步骤:创建工作环境:建立学习单元、知识库单元、执行单元和反馈单元,学习单元分别与知识库单元和执行单连接,执行单元与反馈单元连接,反馈单元与知识库单元连接;数据预处理:通过学习单元统计一个周期内的原始日志数据。本基于大数据机器学习的异常行为发现方法,通过数值型数据库和字符型数据库分类对不同的类型的数据建立知识库,存储异常行为数据和正常行为数据,能够有针对的对数据进分类判定,提高判定的准确性,另外阈值分为数值型正常行为阈值、数值型异常行为阈值、字符型正常行为阈值和字符型异常行为阈值,将阈值范围缩小,减小需要人为判定的异常行为。

Description

一种基于大数据机器学习的异常行为发现方法
技术领域
本发明涉及数据安全技术领域,特别涉及一种基于大数据机器学习的异常行为发现方法。
背景技术
传统网络安全、数据安全技术,如各类软、硬件防火墙,普遍采用“栅栏式”防护策略,给网络和应用系统人为添加了很多限制,任何数据访问动作都需要经过所有预设规则的过滤,不仅影响系统的用户体验,也增加系统运行负担。此外,现有安全软件中,生成一条内置规则,一般需要漏洞发现、攻击模拟、报文分析、特征提取和规则生成等多个阶段。随着攻击手段不断更新,这样的规则生成过程也需要不断重复,耗费大量人力成本。更重要的是,传统防护无法应对大数据。基于此,现提供一种基于大数据机器学习的异常行为发现方法,变被动防御为主动审查,放宽用户准入而加强行为监测,由机器代替人工。
现有技术存在以下缺点:
(1)数据源单一,只针对日志进行分析处理。
(2)无法实时判定异常行为及用户。
(3)全部依赖于人工统计分析,成本较高且容易出现对行为的错误判定。
中国专利CN106778259B公开了一种基于大数据机器学习的异常行为发现方法及系统,该方法包括:对原始安全日志数据进行预处理;从经过预处理的结果中提取特征数据;对所述特征数据进行聚类,确定异常行为库和正常行为库;获取新的安全日中数据中的新行为样本数据,通过与所述正常行为库、异常行为库进行比较,确定其为正常行为或异常行为,用该新行为样本数据更新所述正常行为库或异常行为库;重复前一步骤,当所述正常行为库和异常行为库具有足够的正常行为和异常行为样本数据时,用所述正常行为库和异常行为库中的样本数据训练随机森林模型,利用经过训练得到的所述随机森林模型进行异常行为判定。通过该发明的方案,解决了初期含标签样本数量过少的问题,提高了判定准确率,有效防止误判情况的发生。
该申请虽然在一定程度上解决了背景技术中的问题,但是该申请中在对所有的异常行为均需要人工判定,在对原始数据向量化处理式时,可以缩小异常数据的范围,从而确定某些常识性异常行为,缩小人工判定范围,且在更新知识库时,只通过一种算法确定数据训练随机森林模型,随着后续新的行为数据的录入,判定模型的准确性可能会出现误差。
发明内容
本发明的目的在于提供一种基于大数据机器学习的异常行为发现方法,通过数值型知识库和字符型知识库分类对不同的类型的数据建立知识库,存储异常行为数据和正常行为数据,能够有针对的对数据进分类判定,提高判定的准确性,另外范围值分为数值型正常行为范围值、数值型异常行为范围值、字符型正常行为范围值和字符型异常行为范围值,将范围值范围缩小,减小需要人为判定的异常行为,缩小人为工作量,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于大数据机器学习的异常行为发现方法,包括以下步骤:
S1:创建工作环境:建立学习单元、知识库单元、执行单元和反馈单元,学习单元分别与知识库单元和执行单连接,执行单元与反馈单元连接,反馈单元与知识库单元连接;
S2:数据预处理:通过学习单元统计一个周期内的原始日志数据,并利用机器学习通过离线方式对原始日志数据进行特征处理,提取原始日志数据的特征数据,并将所述特征数据进行聚类;
S3:填充知识库:根据数据中的键值区分数据属于数值型还是字符型,根据数据类型,分别建立数值型知识库和字符型知识库:
S4:行为异常判定:学习单元接收新的安全日志中的新行为样本数据,并对新行为样本数据进行特征处理,执行单元比较数值型知识库或者字符型知识库,判定该行为样本数据为正常行为、异常行为或者待处理行为。
S5:更新知识库:反馈单元用正常行为知识库和异常行为知识库中的样本数据训练分类模型,利用经过训练得到的分类模型分别部署在实时处理模块和离线处理模块,以对后续的新行为样本数据进行异常行为判定;
S6:人工研判:人为通过反馈单元判断待处理行为样本数据是否为符合正常行为,如若是,则存入至正常知识库,如若为否,则进入异常知识库;
S7:新行为样本判定:对后续新行为样本数据进行异常行为判定,跳转进入至S4。
进一步S4还可以使用以下步骤进行实现:
步骤A1,通过以下公式构建新行为样本数据的数据集:
Figure DEST_PATH_IMAGE001
其中
Figure 269238DEST_PATH_IMAGE002
Figure 451957DEST_PATH_IMAGE003
Figure 434957DEST_PATH_IMAGE004
代表不同的新行为样本的数据,
Figure 95745DEST_PATH_IMAGE005
代表新行为样本的数据为正常 行为,
Figure 113380DEST_PATH_IMAGE006
代表新行为样本的数据为异常行为,
Figure 201422DEST_PATH_IMAGE007
代表新行为样本的数据为待处理行为,并 且,j=1,2,3,
Figure 671717DEST_PATH_IMAGE008
代表新行为样本的数据的数量;
步骤A2,通过以下公式确定新行为样本数据间的距离:
Figure 136197DEST_PATH_IMAGE009
其中,
Figure 11267DEST_PATH_IMAGE010
代表距离,
Figure 270210DEST_PATH_IMAGE011
Figure 227802DEST_PATH_IMAGE012
代表新行为样本的数据在维度空间上的坐标值,n代表 新行为样本的数据属于几维空间;
步骤A3:确定新行为样本的数据的类别:
根据计算得到的新行为样本的数据的坐标值离总新行为样本的数据的坐标值之间的d距离,选取离新行为样本的数据最近的k个已知类别的新行为样本的数据,根据已知类别的新行为样本的数据的类别以此衡量新行为样本数据的类别。
进一步地,S3包括如下步骤:
建立数值型知识库:对属于数值型的数据进行周期性行为计算,通过机器学习算法建模,建立数值正常行为知识库和数值异常行为知识库,并将对应的数值型数据存入相应的知识库;
建立字符型知识库:对属于字符型的数据进行分词处理判断字符熵,并通过机器学习算法建模,计算离群点从而区分异常数据,同时建立字符正常行为知识库和字符异常行为知识库,并将对应的字符型数据存入相应的知识库;
S4包括如下步骤:
正常行为处理办法:将正常行为样本数据存入至正常行为知识库中,丰富正常行为知识库;
异常行为处理办法:报告行为异常,将判定为异常行为样本数据存入至异常行为知识库,更新异常行为知识库;
待处理行为处理办法:当遇到无法根据样本知识库进行判定正常行为或者异常行为的新行为样本数据,将其转送至反馈单元,跳转进入S6。
进一步地,所述学习单元包括接收模块、特征提取模块和聚类模块,数据预处理包括以下过程:
S201:接收模块通过通用的接口接入原始日志数据;
S202:特征提取模块将对原始日志数据样本进行特征提取、标准化处理和向量化处理;
S203:聚类模块对特征向量进行集聚,构成特征向量集合,特征向量集合中每一个特征向量对应一个样本信息,每一个特征向量包含各类特征数据。
进一步地,所述S203包括以下过程:
S2031:聚类模块预将数据分为K组,则随机选取K个对象作为初始的聚类中心;
S2032:计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心,聚类中心以及分配给它们的对象就代表一个聚类,每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算;
S2033:将聚类后含实例少于某个阈值或实例明显少于其它类的类标记为异常类,类中的实例标记为异常行为,将聚类后含实例明显集中或实例明显多于异常类的为正常类,其中的实例标记为正常行为。
进一步地,所述执行单元包括规则库模块和行为判定模块,行为判定模块确定机器学习执行分析任务所需的配置信息和元数据,行为判定模块在规则库模块的指导下,并比较知识库样本数据对新入日志数据进行判定。
进一步地,建立数值型知识库中,通过对数值型数据进行特征增维,在特征增维后,通过傅里叶变换计算其周期性,并且进行周期检测,如果存在周期性,根据周期性预测数据时序性,如果所述数值型数据的实际值与预测值在正常行为范围值内,则判定为数值正常行为,同样的,所述数值型数据的实际值与预测值在异常范围值内,则判定为数值异常行为,如果不存在周期性,对数据进行线性相关预测,并将预测值与实际值分别与范围值进行比较,判定数值是否异常。
进一步地,范围值分为数值型正常行为范围值、数值型异常行为范围值、字符型正常行为范围值和字符型异常行为范围值。
进一步地,建立字符型知识库时属于字符型的数据采用n-gram分词器进行分词,并进行熵计算,再根据熵的值判断字符串存在的规律,然后进行聚类计算离群点,从而识别异常数据。
进一步地,S5更新知识库步骤中,将训练样本集的特征向量集合多次输入多种机器学习分类算法中,构建集成学习分类模型,一次输入过程记为一轮训练过程,每轮训练过程中多种机器学习分类算法采用不同核函数组合和不同权重组合。
进一步地,每轮训练过程具体如下:
S501:将训练样本集的特征向量集合分别输入多种机器学习分类算法中,通过不同的机器学习分类算法得出不同的类结果;
S502:对不同种类机器学习分类算法的分类结果进行整合处理,得到训练样本集中每个训练样本的最终分类结果,分类结果为正常行为或异常行为;
S503:将所有训练样本的分类结果与对应样本标签一一进行对比,获取本轮分类结果的准确率,根据每轮分类训练的准确率,选用最佳权重组合和最佳核函数组合构建分类模型。
与现有技术相比,本发明的有益效果是:本基于大数据机器学习的异常行为发现方法,通过数值型知识库和字符型知识库分类对不同的类型的数据建立知识库,存储异常行为数据和正常行为数据,能够有针对的对数据进分类判定,提高判定的准确性,另外范围值分为数值型正常行为范围值、数值型异常行为范围值、字符型正常行为范围值和字符型异常行为范围值,将范围值范围缩小,减小需要人为判定的异常行为,缩小人为工作量,且通过多种机器学习分类算法进行训练分类,能够选择准确率最高的分类模型,在后期判定中,能够跟随数据的不断更新而自动更新分类模型,以适应数据的变化,适应性更强。
附图说明
图1为本发明的步骤流程图;
图2为本发明的模块图;
图3为本发明的数据预处理流程;
图4为本发明的聚类模块工作流程;
图5为本发明的知识库结构图;
图6为本发明的异常行为判定结构图;
图7为本发明的更新知识库的流程图;
图8为本发明的学习单元工作原理图;
图9为本发明的执行单元工作原理图;
图10为本发明的实施例二原理图;
图11为本发明的实施例三原理图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
请参阅图1-9,一种基于大数据机器学习的异常行为发现方法,包括以下步骤:
S1:创建工作环境:建立学习单元、知识库单元、执行单元和反馈单元,学习单元分别与知识库单元和执行单连接,执行单元与反馈单元连接,反馈单元与知识库单元连接,执行单元包括规则库模块和行为判定模块,行为判定模块确定机器学习执行分析任务所需的配置信息和元数据,行为判定模块在规则库模块的指导下,并比较知识库样本数据对新入日志数据进行判定,学习单元包括接收模块、特征提取模块和聚类模块;
S2:数据预处理:通过学习单元统计一个周期内的原始日志数据,并利用机器学习通过离线方式对原始日志数据进行特征处理,提取原始日志数据的特征数据,并将所述特征数据进行聚类,具体过程如下:
S201:接收模块通过通用的接口接入原始日志数据;
S202:特征提取模块将对原始日志数据样本进行特征提取、标准化处理和向量化处理;
S203:聚类模块对特征向量进行集聚,构成特征向量集合,特征向量集合中每一个特征向量对应一个样本信息,每一个特征向量包含各类特征数据,具体过程如下:
S2031:聚类模块预将数据分为K组,则随机选取K个对象作为初始的聚类中心;
S2032:计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心,聚类中心以及分配给它们的对象就代表一个聚类,每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算;
S2033:将聚类后含实例少于某个阈值或实例明显少于其它类的类标记为异常类,类中的实例标记为异常行为,将聚类后含实例明显集中或实例明显多于异常类的为正常类,其中的实例标记为正常行为,范围值分为数值型正常行为范围值和数值型异常行为范围值,将范围值范围缩小,减小需要人为判定的异常行为,缩小人为工作量;
S3:填充知识库:根据数据中的键值区分数据属于数值型还是字符型,根据数据类型,分别建立数值型知识库和字符型知识库:
建立数值型知识库:通过对数值型数据进行特征增维,在特征增维后,通过傅里叶变换计算其周期性,并且进行周期检测,如果存在周期性,根据周期性预测数据时序性,如果所述数值型数据的实际值与预测值在正常行为范围值内,则判定为数值正常行为,同样的,所述数值型数据的实际值与预测值在异常范围值内,则判定为数值异常行为,如果不存在周期性,对数据进行线性相关预测,并将预测值与实际值分别与范围值进行比较,判定数值是否异常;
建立字符型知识库:对属于字符型的数据进行分词处理判断字符熵,并通过机器学习算法建模,计算离群点从而区分异常数据,同时建立字符正常行为知识库和字符异常行为知识库,并将对应的字符型数据存入相应的知识库,属于字符型的数据采用n-gram分词器进行分词,并进行熵计算,再根据熵的值判断字符串存在的规律,然后进行聚类计算离群点,从而识别异常数据;
S4:行为异常判定:学习单元接收新的安全日志中的新行为样本数据,并对新行为样本数据进行特征处理,执行单元比较数值型知识库或者字符型知识库,判定该行为样本数据为正常行为、异常行为或者待处理行为;
正常行为处理办法:将正常行为样本数据存入至正常行为知识库中,丰富正常行为知识库;
异常行为处理办法:报告行为异常,将判定为异常行为样本数据存入至异常行为知识库,更新异常行为知识库;
待处理行为处理办法:当遇到无法根据样本知识库进行判定正常行为或者异常行为的新行为样本数据,将其转送至反馈单元,跳转进入S6;
S5:更新知识库:反馈单元用正常行为知识库和异常行为知识库中的样本数据训练分类模型,利用经过训练得到的分类模型分别部署在实时处理模块和离线处理模块,以对后续的新行为样本数据进行异常行为判定;
更新知识库步骤中,将训练样本集的特征向量集合多次输入多种机器学习分类算法中,构建集成学习分类模型,一次输入过程记为一轮训练过程,每轮训练过程中多种机器学习分类算法采用不同核函数组合和不同权重组合,每轮训练过程具体如下:
S501:将训练样本集的特征向量集合分别输入多种机器学习分类算法中,通过不同的机器学习分类算法得出不同的类结果;
S502:对不同种类机器学习分类算法的分类结果进行整合处理,得到训练样本集中每个训练样本的最终分类结果,分类结果为正常行为或异常行为;
S503:将所有训练样本的分类结果与对应样本标签一一进行对比,获取本轮分类结果的准确率,根据每轮分类训练的准确率,选用最佳权重组合和最佳核函数组合构建分类模型;
通过多种机器学习分类算法进行训练分类,能够选择准确率最高的分类模型,在后期判定中,能够跟随数据的不断更新而自动更新分类模型,以适应数据的变化,适应性更强。
S6:人工研判:人为通过反馈单元判断待处理行为样本数据是否为符合正常行为,如若是,则存入至正常知识库,如若为否,则进入异常知识库;
S7:新行为样本判定:对后续新行为样本数据进行异常行为判定,跳转进入至S4,继续接收新的安装日志行为。
实施例二:
请参阅图10,一种基于大数据机器学习的异常行为发现方法,包括以下步骤:
S1:创建工作环境:建立学习单元、知识库单元、执行单元和反馈单元,学习单元分别与知识库单元和执行单连接,执行单元与反馈单元连接,反馈单元与知识库单元连接,执行单元包括规则库模块和行为判定模块,行为判定模块确定机器学习执行分析任务所需的配置信息和元数据,行为判定模块在规则库模块的指导下,并比较知识库样本数据对新入日志数据进行判定,学习单元包括接收模块、特征提取模块和聚类模块;
S2:数据预处理:通过学习单元统计一个周期内的原始日志数据,并利用机器学习通过离线方式对原始日志数据进行特征处理,提取原始日志数据的特征数据,并将所述特征数据进行聚类,具体过程如下:
S201:接收模块通过通用的接口接入原始日志数据;
S202:特征提取模块将对原始日志数据样本进行特征提取、标准化处理和向量化处理;
S203:聚类模块对特征向量进行集聚,构成特征向量集合,特征向量集合中每一个特征向量对应一个样本信息,每一个特征向量包含各类特征数据,具体过程如下:
S2031:聚类模块预将数据分为K组,则随机选取K个对象作为初始的聚类中心;
S2032:计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心,聚类中心以及分配给它们的对象就代表一个聚类,每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算;
S2033:将聚类后含实例少于某个阈值或实例明显少于其它类的类标记为异常类,类中的实例标记为异常行为,将聚类后含实例明显集中或实例明显多于异常类的为正常类,其中的实例标记为正常行为,范围值分为数值型正常行为范围值和数值型异常行为范围值,减小需要人为判定的异常行为,缩小人为工作量;
S3:填充知识库:建立数值型知识库,通过对数值型数据进行特征增维,在特征增维后,通过傅里叶变换计算其周期性,并且进行周期检测,如果存在周期性,根据周期性预测数据时序性,如果所述数值型数据的实际值与预测值在正常行为范围值内,则判定为数值正常行为,同样的,所述数值型数据的实际值与预测值在异常范围值内,则判定为数值异常行为,如果不存在周期性,对数据进行线性相关预测,并将预测值与实际值分别与范围值进行比较,判定数值是否异常;
S4:行为异常判定:学习单元接收新的安全日志中的新行为样本数据,并对新行为样本数据进行特征处理,执行单元比较数值型知识库,判定该行为样本数据为正常行为、异常行为或者待处理行为;
正常行为处理办法:将正常行为样本数据存入至正常行为知识库中,丰富正常行为知识库;
异常行为处理办法:报告行为异常,将判定为异常行为样本数据存入至异常行为知识库,更新异常行为知识库;
待处理行为处理办法:当遇到无法根据样本知识库进行判定正常行为或者异常行为的新行为样本数据,将其转送至反馈单元,跳转进入S6;
S4:还可以使用以下步骤进行实现:
步骤A1,通过以下公式构建新行为样本数据的数据集:
Figure 230393DEST_PATH_IMAGE013
其中
Figure 957041DEST_PATH_IMAGE002
Figure 855727DEST_PATH_IMAGE003
Figure 362931DEST_PATH_IMAGE004
代表不同的新行为样本的数据,
Figure 841317DEST_PATH_IMAGE005
代表新行为样本的数据为正 常行为,
Figure 750367DEST_PATH_IMAGE006
代表新行为样本的数据为异常行为,
Figure 288796DEST_PATH_IMAGE007
代表新行为样本的数据为待处理行为, 并且,j=1,2,3,
Figure 283297DEST_PATH_IMAGE008
代表新行为样本的数据的数量;
步骤A2,通过以下公式确定新行为样本数据间的距离:
Figure 565374DEST_PATH_IMAGE014
其中,
Figure 328930DEST_PATH_IMAGE010
代表距离,
Figure 303840DEST_PATH_IMAGE011
Figure 520057DEST_PATH_IMAGE012
代表新行为样本的数据的坐标值,n代表新行为样本的数 据属于几维空间;
步骤A3:确定新行为样本的数据的类别:
根据计算得到的新行为样本的数据的坐标值离总新行为样本的数据的坐标值之间的d距离,选取离新行为样本的数据最近的k个已知类别的新行为样本的数据,根据已知类别的新行为样本的数据的类别以此衡量新行为样本数据的类别。
有益效果:以上算法采用了机器学习技术,通过计算用户选择k值和距离d衡量新行为样本数据类别,以此达到高效率,高精确率的识别新行为样本数据属于哪个类别,达到了算法计算与本专利的融合,为后期分类后的新行为样本数据处理做了基础。
S5:更新知识库:反馈单元用正常行为知识库和异常行为知识库中的样本数据训练分类模型,利用经过训练得到的分类模型分别部署在实时处理模块和离线处理模块,以对后续的新行为样本数据进行异常行为判定;
更新知识库步骤中,将训练样本集的特征向量集合多次输入多种机器学习分类算法中,构建集成学习分类模型,一次输入过程记为一轮训练过程,每轮训练过程中多种机器学习分类算法采用不同核函数组合和不同权重组合,每轮训练过程具体如下:
S501:将训练样本集的特征向量集合分别输入多种机器学习分类算法中,通过不同的机器学习分类算法得出不同的类结果;
S502:对不同种类机器学习分类算法的分类结果进行整合处理,得到训练样本集中每个训练样本的最终分类结果,分类结果为正常行为或异常行为;
S503:将所有训练样本的分类结果与对应样本标签一一进行对比,获取本轮分类结果的准确率,根据每轮分类训练的准确率,选用最佳权重组合和最佳核函数组合构建分类模型;
通过多种机器学习分类算法进行训练分类,能够选择准确率最高的分类模型,在后期判定中,能够跟随数据的不断更新而自动更新分类模型,以适应数据的变化,适应性更强。
S6:人工研判:人为通过反馈单元判断待处理行为样本数据是否为符合正常行为,如若是,则存入至正常知识库,如若为否,则进入异常知识库;
S7:新行为样本判定:对后续新行为样本数据进行异常行为判定,跳转进入至S4,继续接收新的安装日志行为。
本实施例中只设有数值型知识库,适用于数值型日志样本判定,相比与实施例一,本实施例中只对数值型数据进行判定,针对性更高。
实施例三:
请参阅图11,一种基于大数据机器学习的异常行为发现方法,包括以下步骤:
S1:创建工作环境:建立学习单元、知识库单元、执行单元和反馈单元,学习单元分别与知识库单元和执行单连接,执行单元与反馈单元连接,反馈单元与知识库单元连接,执行单元包括规则库模块和行为判定模块,行为判定模块确定机器学习执行分析任务所需的配置信息和元数据,行为判定模块在规则库模块的指导下,并比较知识库样本数据对新入日志数据进行判定,学习单元包括接收模块、特征提取模块和聚类模块;
S2:数据预处理:通过学习单元统计一个周期内的原始日志数据,并利用机器学习通过离线方式对原始日志数据进行特征处理,提取原始日志数据的特征数据;
S3:填充知识库:建立字符型知识库,对属于字符型的数据进行分词处理判断字符熵,并通过机器学习算法建模,计算离群点从而区分异常数据,同时建立字符正常行为知识库和字符异常行为知识库,并将对应的字符型数据存入相应的知识库,属于字符型的数据采用n-gram分词器进行分词,并进行熵计算,再根据熵的值判断字符串存在的规律,然后进行聚类计算离群点,从而识别异常数据;
S4:行为异常判定:学习单元接收新的安全日志中的新行为样本数据,并对新行为样本数据进行特征处理,执行单元比较字符型知识库,判定该行为样本数据为正常行为、异常行为或者待处理行为;
正常行为处理办法:将正常行为样本数据存入至正常行为知识库中,丰富正常行为知识库;
异常行为处理办法:报告行为异常,将判定为异常行为样本数据存入至异常行为知识库,更新异常行为知识库;
待处理行为处理办法:当遇到无法根据样本知识库进行判定正常行为或者异常行为的新行为样本数据,将其转送至反馈单元,跳转进入S6;
S5:更新知识库:反馈单元用正常行为知识库和异常行为知识库中的样本数据训练分类模型,利用经过训练得到的分类模型分别部署在实时处理模块和离线处理模块,以对后续的新行为样本数据进行异常行为判定;
更新知识库步骤中,将训练样本集的特征向量集合多次输入多种机器学习分类算法中,构建集成学习分类模型,一次输入过程记为一轮训练过程,每轮训练过程中多种机器学习分类算法采用不同核函数组合和不同权重组合,每轮训练过程具体如下:
S501:将训练样本集的特征向量集合分别输入多种机器学习分类算法中,通过不同的机器学习分类算法得出不同的类结果;
S502:对不同种类机器学习分类算法的分类结果进行整合处理,得到训练样本集中每个训练样本的最终分类结果,分类结果为正常行为或异常行为;
S503:将所有训练样本的分类结果与对应样本标签一一进行对比,获取本轮分类结果的准确率,根据每轮分类训练的准确率,选用最佳权重组合和最佳核函数组合构建分类模型;
通过多种机器学习分类算法进行训练分类,能够选择准确率最高的分类模型,在后期判定中,能够跟随数据的不断更新而自动更新分类模型,以适应数据的变化,适应性更强。
S6:人工研判:人为通过反馈单元判断待处理行为样本数据是否为符合正常行为,如若是,则存入至正常知识库,如若为否,则进入异常知识库;
S7:新行为样本判定:对后续新行为样本数据进行异常行为判定,跳转进入至S4,继续接收新的安装日志行为。
本实施例中,通过本实施例中只设有字符型知识库,适用于数值型日志样本判定,相比与实施例二,本实施例中只对字符型数据进行判定,针对性更高。
综上所述:本基于大数据机器学习的异常行为发现方法,通过数值型知识库和字符型知识库分类对不同的类型的数据建立知识库,存储异常行为数据和正常行为数据,能够有针对的对数据进分类判定,提高判定的准确性,另外范围值分为数值型正常行为范围值、数值型异常行为范围值、字符型正常行为范围值和字符型异常行为范围值,将范围值范围缩小,减小需要人为判定的异常行为,缩小人为工作量,且通过多种机器学习分类算法进行训练分类,能够选择准确率最高的分类模型,在后期判定中,能够跟随数据的不断更新而自动更新分类模型,以适应数据的变化,适应性更强。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (5)

1.一种基于大数据机器学习的异常行为发现方法,其特征在于,包括以下步骤:
S1:创建工作环境:建立学习单元、知识库单元、执行单元和反馈单元,学习单元分别与知识库单元和执行单元连接,执行单元与反馈单元连接,反馈单元与知识库单元连接;
S2:数据预处理:通过学习单元统计一个周期内的原始日志数据,并利用机器学习通过离线方式对原始日志数据进行特征处理,提取原始日志数据的特征数据,并将所述特征数据进行聚类,具体过程如下:
S201:接收模块通过通用的接口接入原始日志数据;
S202:利用特征提取模块对原始日志数据样本进行特征提取、标准化处理和向量化处理;
S203:聚类模块对特征向量进行集聚,构成特征向量集合,特征向量集合中每一个特征向量对应一个样本信息,每一个特征向量包含各类特征数据;
所述S203具体过程如下:
S2031:聚类模块预将数据分为K组,则随机选取K个对象作为初始的种子聚类中心;
S2032:计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心,聚类中心以及分配给它们的对象就代表一个聚类,每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算;
S2033:将聚类后含实例少于某个阈值或实例明显少于其它类的类标记为异常类,类中的实例标记为异常行为,将聚类后含实例明显集中或实例明显多于异常类的标记为正常类,其中的实例标记为正常行为,范围值分为数值型正常行为范围值和数值型异常行为范围值;
S3:填充知识库:根据特征数据中的键值区分数据属于数值型还是字符型,根据数据类型,分别建立数值型知识库和字符型知识库;
建立数值型知识库中,通过对数值型数据进行特征增维,在特征增维后,通过傅里叶变换计算其周期性,并且进行周期检测,如果存在周期性,根据周期性预测数据时序性,如果所述数值型数据的实际值与预测值在正常行为范围值内,则判定为数值正常行为,同样的,所述数值型数据的实际值与预测值在异常范围值内,则判定为数值异常行为,如果不存在周期性,对数据进行线性相关预测,并将预测值与实际值分别与范围值进行比较,判定数值是否异常;
建立字符型知识库时,对属于字符型的数据采用n-gram分词器进行分词,并进行熵计算,再根据熵的值判断字符串存在的规律,然后进行聚类计算离群点,从而识别异常数据;
S4:行为异常判定:学习单元接收新的安全日志中的新行为样本数据,并对新行为样本数据进行特征处理,执行单元比较数值型知识库或者字符型知识库,判定该行为样本数据为正常行为、异常行为或者待处理行为;
正常行为处理办法:将正常行为样本数据存入至正常行为知识库中,丰富正常行为知识库;
异常行为处理办法:报告行为异常,将判定为异常行为样本数据存入至异常行为知识库,更新异常行为知识库;
待处理行为处理办法:当遇到无法根据样本知识库进行判定正常行为或者异常行为的新行为样本数据,将其转送至反馈单元,跳转进入S6;
S5:更新知识库:反馈单元用正常行为知识库和异常行为知识库中的样本数据训练分类模型,利用经过训练得到的分类模型分别部署在实时处理模块和离线处理模块,以对后续的新行为样本数据进行异常行为判定;
S6:人工研判:人为通过反馈单元判断待处理行为样本数据是否为符合正常行为,如若是,则存入至正常知识库,如若为否,则进入异常知识库;
S7:新行为样本判定:对后续新行为样本数据进行异常行为判定,跳转进入至S4。
2.如权利要求1所述的一种基于大数据机器学习的异常行为发现方法,其特征在于:S3包括如下步骤:
建立数值型知识库:对属于数值型的数据进行周期性行为计算,通过机器学习算法建模,建立数值正常行为知识库和数值异常行为知识库,并将对应的数值型数据存入相应的知识库;
建立字符型知识库:对属于字符型的数据进行分词处理判断字符熵,并通过机器学习算法建模,计算离群点从而区分异常数据,同时建立字符正常行为知识库和字符异常行为知识库,并将对应的字符型数据存入相应的知识库。
3.如权利要求1所述的一种基于大数据机器学习的异常行为发现方法,其特征在于:所述执行单元包括规则库模块和行为判定模块,其中,
所述规则库模块,用于指导行为判定模块将配置信息和元数据与知识库样本数据进行比较;
行为判定模块,用于确定机器学习执行分析任务所需的配置信息和元数据,行为判定模块在规则库模块的指导下,比较知识库样本数据对新入日志数据进行判定。
4.如权利要求1所述的一种基于大数据机器学习的异常行为发现方法,其特征在于:S5更新知识库步骤中,将训练样本集的特征向量集合多次输入多种机器学习分类算法中,构建集成学习分类模型,一次输入过程记为一轮训练过程,每轮训练过程中多种机器学习分类算法采用不同核函数组合和不同权重组合。
5.如权利要求4所述的一种基于大数据机器学习的异常行为发现方法,其特征在于:每轮训练过程具体如下:
S501:将训练样本集的特征向量集合分别输入多种机器学习分类算法中,通过不同的机器学习分类算法得出不同的分类结果;
S502:对不同种类机器学习分类算法的分类结果进行整合处理,得到训练样本集中每个训练样本的最终分类结果,分类结果为正常行为或异常行为;
S503:将所有训练样本的分类结果与对应样本标签一一进行对比,获取本轮分类结果的准确率,根据每轮分类训练的准确率,选用最佳权重组合和最佳核函数组合构建分类模型。
CN202010461115.6A 2020-05-27 2020-05-27 一种基于大数据机器学习的异常行为发现方法 Active CN111639497B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010461115.6A CN111639497B (zh) 2020-05-27 2020-05-27 一种基于大数据机器学习的异常行为发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010461115.6A CN111639497B (zh) 2020-05-27 2020-05-27 一种基于大数据机器学习的异常行为发现方法

Publications (2)

Publication Number Publication Date
CN111639497A CN111639497A (zh) 2020-09-08
CN111639497B true CN111639497B (zh) 2021-01-15

Family

ID=72332902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010461115.6A Active CN111639497B (zh) 2020-05-27 2020-05-27 一种基于大数据机器学习的异常行为发现方法

Country Status (1)

Country Link
CN (1) CN111639497B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112068981B (zh) * 2020-09-24 2022-06-21 中国人民解放军国防科技大学 Linux操作系统中基于知识库的故障扫描恢复方法及系统
CN112311803B (zh) * 2020-11-06 2023-02-24 杭州安恒信息技术股份有限公司 一种规则库更新方法、装置、电子设备及可读存储介质
CN113032949B (zh) * 2020-11-11 2022-02-18 上海市软件评测中心有限公司 一种基于大数据的测试方法
CN112650830B (zh) * 2020-11-17 2021-11-26 北京字跳网络技术有限公司 关键词提取方法、装置、电子设备和存储介质
CN112488226B (zh) * 2020-12-10 2022-11-01 中国电子科技集团公司第三十研究所 一种基于机器学习算法的终端异常行为识别方法
CN112348202B (zh) * 2021-01-05 2021-03-30 博智安全科技股份有限公司 一种机器学习中规则模型的建立方法
CN112882898B (zh) * 2021-02-24 2022-07-19 上海浦东发展银行股份有限公司 基于大数据日志分析的异常检测方法、系统、设备及介质
CN113868646B (zh) * 2021-08-06 2024-04-26 华北电力科学研究院有限责任公司 基于主机的入侵检测方法及装置
CN113723093B (zh) * 2021-08-31 2024-01-19 平安科技(深圳)有限公司 人员管理策略推荐方法、装置、计算机设备及存储介质
CN114912678A (zh) * 2022-05-10 2022-08-16 国网江苏省电力有限公司苏州供电分公司 电网调控异常操作在线自动检测预警方法及系统
CN117035456B (zh) * 2023-08-14 2024-02-27 武汉集远数字科技有限公司 一种智慧工地监控管理方法及系统
CN117576623A (zh) * 2023-11-13 2024-02-20 济宁济化公用工程服务有限公司 一种智慧园区实时监控系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101467707B1 (ko) * 2013-12-23 2014-12-02 포항공과대학교 산학협력단 지식 베이스의 개체 매칭 방법 및 이를 위한 장치
CN106209817A (zh) * 2016-07-01 2016-12-07 何钟柱 基于大数据和可信计算的信息网络安全自防御系统
USRE46652E1 (en) * 2013-05-14 2017-12-26 Kara Partners Llc Technologies for enhancing computer security
CN107786575A (zh) * 2017-11-11 2018-03-09 北京信息科技大学 一种基于dns流量的自适应恶意域名检测方法
CN108446720A (zh) * 2018-02-27 2018-08-24 华青融天(北京)技术股份有限公司 异常数据检测方法和系统
CN110958136A (zh) * 2019-11-11 2020-04-03 国网山东省电力公司信息通信公司 一种基于深度学习的日志分析预警方法
CN111190876A (zh) * 2019-12-31 2020-05-22 天津浪淘科技股份有限公司 日志管理系统及其运行方法
CN111191720A (zh) * 2019-12-30 2020-05-22 中国建设银行股份有限公司 一种业务场景的识别方法、装置及电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776635A (zh) * 2015-11-24 2017-05-31 北京国双科技有限公司 知识库数据的更新方法及装置
CN109343995A (zh) * 2018-10-25 2019-02-15 金税信息技术服务股份有限公司 基于多源异构数据融合、机器学习及客服机器人的智能运维分析系统
CN110086829B (zh) * 2019-05-14 2021-06-22 四川长虹电器股份有限公司 一种基于机器学习技术进行物联网异常行为检测的方法
CN110798488B (zh) * 2020-01-03 2020-04-14 北京东方通科技股份有限公司 Web应用攻击检测方法
CN110933116B (zh) * 2020-02-10 2020-06-26 北京东方通科技股份有限公司 一种面向物联网Web服务的交互安全处理系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE46652E1 (en) * 2013-05-14 2017-12-26 Kara Partners Llc Technologies for enhancing computer security
KR101467707B1 (ko) * 2013-12-23 2014-12-02 포항공과대학교 산학협력단 지식 베이스의 개체 매칭 방법 및 이를 위한 장치
CN106209817A (zh) * 2016-07-01 2016-12-07 何钟柱 基于大数据和可信计算的信息网络安全自防御系统
CN107786575A (zh) * 2017-11-11 2018-03-09 北京信息科技大学 一种基于dns流量的自适应恶意域名检测方法
CN108446720A (zh) * 2018-02-27 2018-08-24 华青融天(北京)技术股份有限公司 异常数据检测方法和系统
CN110958136A (zh) * 2019-11-11 2020-04-03 国网山东省电力公司信息通信公司 一种基于深度学习的日志分析预警方法
CN111191720A (zh) * 2019-12-30 2020-05-22 中国建设银行股份有限公司 一种业务场景的识别方法、装置及电子设备
CN111190876A (zh) * 2019-12-31 2020-05-22 天津浪淘科技股份有限公司 日志管理系统及其运行方法

Also Published As

Publication number Publication date
CN111639497A (zh) 2020-09-08

Similar Documents

Publication Publication Date Title
CN111639497B (zh) 一种基于大数据机器学习的异常行为发现方法
CN106778259B (zh) 一种基于大数据机器学习的异常行为发现方法及系统
CN111460167A (zh) 基于知识图谱定位排污对象的方法及相关设备
CN105677791B (zh) 用于分析风力发电机组的运行数据的方法和系统
CN107992746A (zh) 恶意行为挖掘方法及装置
CN110287292B (zh) 一种裁判量刑偏离度预测方法及装置
CN111047173B (zh) 基于改进d-s证据理论的社团可信度评估方法
CN112685459A (zh) 一种基于K-means集群算法的攻击源特征识别方法
CN113221960B (zh) 一种高质量漏洞数据收集模型的构建方法及收集方法
CN113918367A (zh) 一种基于注意力机制的大规模系统日志异常检测方法
CN107368526A (zh) 一种数据处理方法及装置
CN115357764A (zh) 一种异常数据检测方法及装置
CN115277180A (zh) 一种区块链日志异常检测与溯源系统
CN110011990A (zh) 内网安全威胁智能分析方法
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN112532652A (zh) 一种基于多源数据的攻击行为画像装置及方法
CN114448657B (zh) 一种配电通信网络安全态势感知与异常入侵检测方法
CN116668039A (zh) 基于人工智能的计算机远程登录识别系统及方法
CN116186759A (zh) 一种面向隐私计算的敏感数据识别与脱敏方法
CN112202718A (zh) 一种基于XGBoost算法的操作系统识别方法、存储介质及设备
CN111488501A (zh) 一种基于云平台的电商统计系统
CN117370548A (zh) 用户行为风险识别方法、装置、电子设备及介质
CN115455407A (zh) 一种基于机器学习的GitHub敏感信息泄露监控方法
CN108647497A (zh) 一种基于特征提取的api密钥自动识别系统
CN111221704B (zh) 一种确定办公管理应用系统运行状态的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant