CN111639497B

CN111639497B - 一种基于大数据机器学习的异常行为发现方法

Info

Publication number: CN111639497B
Application number: CN202010461115.6A
Authority: CN
Inventors: 张春林; 李利军; 李春青; 常江波
Original assignee: Beijing Tongtech Co Ltd
Current assignee: Beijing Tongtech Co Ltd
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2021-01-15
Anticipated expiration: 2040-05-27
Also published as: CN111639497A

Abstract

本发明公开了一种基于大数据机器学习的异常行为发现方法，包括以下步骤：创建工作环境：建立学习单元、知识库单元、执行单元和反馈单元，学习单元分别与知识库单元和执行单连接，执行单元与反馈单元连接，反馈单元与知识库单元连接；数据预处理：通过学习单元统计一个周期内的原始日志数据。本基于大数据机器学习的异常行为发现方法，通过数值型数据库和字符型数据库分类对不同的类型的数据建立知识库，存储异常行为数据和正常行为数据，能够有针对的对数据进分类判定，提高判定的准确性，另外阈值分为数值型正常行为阈值、数值型异常行为阈值、字符型正常行为阈值和字符型异常行为阈值，将阈值范围缩小，减小需要人为判定的异常行为。

Description

一种基于大数据机器学习的异常行为发现方法

技术领域

本发明涉及数据安全技术领域，特别涉及一种基于大数据机器学习的异常行为发现方法。

背景技术

传统网络安全、数据安全技术，如各类软、硬件防火墙，普遍采用“栅栏式”防护策略，给网络和应用系统人为添加了很多限制，任何数据访问动作都需要经过所有预设规则的过滤，不仅影响系统的用户体验，也增加系统运行负担。此外，现有安全软件中，生成一条内置规则，一般需要漏洞发现、攻击模拟、报文分析、特征提取和规则生成等多个阶段。随着攻击手段不断更新，这样的规则生成过程也需要不断重复，耗费大量人力成本。更重要的是，传统防护无法应对大数据。基于此，现提供一种基于大数据机器学习的异常行为发现方法，变被动防御为主动审查，放宽用户准入而加强行为监测，由机器代替人工。

现有技术存在以下缺点：

(1)数据源单一，只针对日志进行分析处理。

(2)无法实时判定异常行为及用户。

(3)全部依赖于人工统计分析，成本较高且容易出现对行为的错误判定。

中国专利CN106778259B公开了一种基于大数据机器学习的异常行为发现方法及系统，该方法包括：对原始安全日志数据进行预处理；从经过预处理的结果中提取特征数据；对所述特征数据进行聚类，确定异常行为库和正常行为库；获取新的安全日中数据中的新行为样本数据，通过与所述正常行为库、异常行为库进行比较，确定其为正常行为或异常行为，用该新行为样本数据更新所述正常行为库或异常行为库；重复前一步骤，当所述正常行为库和异常行为库具有足够的正常行为和异常行为样本数据时，用所述正常行为库和异常行为库中的样本数据训练随机森林模型，利用经过训练得到的所述随机森林模型进行异常行为判定。通过该发明的方案，解决了初期含标签样本数量过少的问题,提高了判定准确率，有效防止误判情况的发生。

该申请虽然在一定程度上解决了背景技术中的问题，但是该申请中在对所有的异常行为均需要人工判定，在对原始数据向量化处理式时，可以缩小异常数据的范围，从而确定某些常识性异常行为，缩小人工判定范围，且在更新知识库时，只通过一种算法确定数据训练随机森林模型，随着后续新的行为数据的录入，判定模型的准确性可能会出现误差。

发明内容

本发明的目的在于提供一种基于大数据机器学习的异常行为发现方法，通过数值型知识库和字符型知识库分类对不同的类型的数据建立知识库，存储异常行为数据和正常行为数据，能够有针对的对数据进分类判定，提高判定的准确性，另外范围值分为数值型正常行为范围值、数值型异常行为范围值、字符型正常行为范围值和字符型异常行为范围值，将范围值范围缩小，减小需要人为判定的异常行为，缩小人为工作量，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于大数据机器学习的异常行为发现方法，包括以下步骤：

S1：创建工作环境：建立学习单元、知识库单元、执行单元和反馈单元，学习单元分别与知识库单元和执行单连接，执行单元与反馈单元连接，反馈单元与知识库单元连接；

S2：数据预处理：通过学习单元统计一个周期内的原始日志数据，并利用机器学习通过离线方式对原始日志数据进行特征处理，提取原始日志数据的特征数据，并将所述特征数据进行聚类；

S3：填充知识库：根据数据中的键值区分数据属于数值型还是字符型，根据数据类型，分别建立数值型知识库和字符型知识库：

S4：行为异常判定：学习单元接收新的安全日志中的新行为样本数据，并对新行为样本数据进行特征处理，执行单元比较数值型知识库或者字符型知识库，判定该行为样本数据为正常行为、异常行为或者待处理行为。

S5：更新知识库：反馈单元用正常行为知识库和异常行为知识库中的样本数据训练分类模型，利用经过训练得到的分类模型分别部署在实时处理模块和离线处理模块，以对后续的新行为样本数据进行异常行为判定；

S6：人工研判：人为通过反馈单元判断待处理行为样本数据是否为符合正常行为，如若是，则存入至正常知识库，如若为否，则进入异常知识库；

S7：新行为样本判定：对后续新行为样本数据进行异常行为判定，跳转进入至S4。

进一步S4还可以使用以下步骤进行实现：

步骤A1，通过以下公式构建新行为样本数据的数据集：

其中

，

，

代表不同的新行为样本的数据，

代表新行为样本的数据为正常行为，

代表新行为样本的数据为异常行为，

代表新行为样本的数据为待处理行为，并且，j=1，2，3，

代表新行为样本的数据的数量；

步骤A2，通过以下公式确定新行为样本数据间的距离：

其中，

代表距离，

，

代表新行为样本的数据在维度空间上的坐标值，n代表新行为样本的数据属于几维空间；

步骤A3：确定新行为样本的数据的类别：

根据计算得到的新行为样本的数据的坐标值离总新行为样本的数据的坐标值之间的d距离，选取离新行为样本的数据最近的k个已知类别的新行为样本的数据，根据已知类别的新行为样本的数据的类别以此衡量新行为样本数据的类别。

进一步地，S3包括如下步骤：

建立数值型知识库：对属于数值型的数据进行周期性行为计算，通过机器学习算法建模，建立数值正常行为知识库和数值异常行为知识库，并将对应的数值型数据存入相应的知识库；

建立字符型知识库：对属于字符型的数据进行分词处理判断字符熵，并通过机器学习算法建模，计算离群点从而区分异常数据，同时建立字符正常行为知识库和字符异常行为知识库，并将对应的字符型数据存入相应的知识库；

S4包括如下步骤：

正常行为处理办法：将正常行为样本数据存入至正常行为知识库中，丰富正常行为知识库；

异常行为处理办法：报告行为异常，将判定为异常行为样本数据存入至异常行为知识库，更新异常行为知识库；

待处理行为处理办法：当遇到无法根据样本知识库进行判定正常行为或者异常行为的新行为样本数据，将其转送至反馈单元，跳转进入S6。

进一步地，所述学习单元包括接收模块、特征提取模块和聚类模块，数据预处理包括以下过程：

S201：接收模块通过通用的接口接入原始日志数据；

S202：特征提取模块将对原始日志数据样本进行特征提取、标准化处理和向量化处理；

S203：聚类模块对特征向量进行集聚，构成特征向量集合，特征向量集合中每一个特征向量对应一个样本信息，每一个特征向量包含各类特征数据。

进一步地，所述S203包括以下过程：

S2031：聚类模块预将数据分为K组，则随机选取K个对象作为初始的聚类中心；

S2032：计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心，聚类中心以及分配给它们的对象就代表一个聚类，每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算；

S2033：将聚类后含实例少于某个阈值或实例明显少于其它类的类标记为异常类，类中的实例标记为异常行为，将聚类后含实例明显集中或实例明显多于异常类的为正常类，其中的实例标记为正常行为。

进一步地，所述执行单元包括规则库模块和行为判定模块，行为判定模块确定机器学习执行分析任务所需的配置信息和元数据，行为判定模块在规则库模块的指导下，并比较知识库样本数据对新入日志数据进行判定。

进一步地，建立数值型知识库中，通过对数值型数据进行特征增维，在特征增维后，通过傅里叶变换计算其周期性，并且进行周期检测，如果存在周期性，根据周期性预测数据时序性，如果所述数值型数据的实际值与预测值在正常行为范围值内，则判定为数值正常行为，同样的，所述数值型数据的实际值与预测值在异常范围值内，则判定为数值异常行为，如果不存在周期性，对数据进行线性相关预测，并将预测值与实际值分别与范围值进行比较，判定数值是否异常。

进一步地，范围值分为数值型正常行为范围值、数值型异常行为范围值、字符型正常行为范围值和字符型异常行为范围值。

进一步地，建立字符型知识库时属于字符型的数据采用n-gram分词器进行分词，并进行熵计算，再根据熵的值判断字符串存在的规律，然后进行聚类计算离群点，从而识别异常数据。

进一步地，S5更新知识库步骤中，将训练样本集的特征向量集合多次输入多种机器学习分类算法中，构建集成学习分类模型，一次输入过程记为一轮训练过程，每轮训练过程中多种机器学习分类算法采用不同核函数组合和不同权重组合。

进一步地，每轮训练过程具体如下：

S501：将训练样本集的特征向量集合分别输入多种机器学习分类算法中，通过不同的机器学习分类算法得出不同的类结果；

S502：对不同种类机器学习分类算法的分类结果进行整合处理，得到训练样本集中每个训练样本的最终分类结果，分类结果为正常行为或异常行为；

S503：将所有训练样本的分类结果与对应样本标签一一进行对比，获取本轮分类结果的准确率，根据每轮分类训练的准确率，选用最佳权重组合和最佳核函数组合构建分类模型。

与现有技术相比，本发明的有益效果是：本基于大数据机器学习的异常行为发现方法，通过数值型知识库和字符型知识库分类对不同的类型的数据建立知识库，存储异常行为数据和正常行为数据，能够有针对的对数据进分类判定，提高判定的准确性，另外范围值分为数值型正常行为范围值、数值型异常行为范围值、字符型正常行为范围值和字符型异常行为范围值，将范围值范围缩小，减小需要人为判定的异常行为，缩小人为工作量，且通过多种机器学习分类算法进行训练分类，能够选择准确率最高的分类模型，在后期判定中，能够跟随数据的不断更新而自动更新分类模型，以适应数据的变化，适应性更强。

附图说明

图1为本发明的步骤流程图；

图2为本发明的模块图；

图3为本发明的数据预处理流程；

图4为本发明的聚类模块工作流程；

图5为本发明的知识库结构图；

图6为本发明的异常行为判定结构图；

图7为本发明的更新知识库的流程图；

图8为本发明的学习单元工作原理图；

图9为本发明的执行单元工作原理图；

图10为本发明的实施例二原理图；

图11为本发明的实施例三原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

请参阅图1-9，一种基于大数据机器学习的异常行为发现方法，包括以下步骤：

S1：创建工作环境：建立学习单元、知识库单元、执行单元和反馈单元，学习单元分别与知识库单元和执行单连接，执行单元与反馈单元连接，反馈单元与知识库单元连接，执行单元包括规则库模块和行为判定模块，行为判定模块确定机器学习执行分析任务所需的配置信息和元数据，行为判定模块在规则库模块的指导下，并比较知识库样本数据对新入日志数据进行判定，学习单元包括接收模块、特征提取模块和聚类模块；

S2：数据预处理：通过学习单元统计一个周期内的原始日志数据，并利用机器学习通过离线方式对原始日志数据进行特征处理，提取原始日志数据的特征数据，并将所述特征数据进行聚类，具体过程如下：

S201：接收模块通过通用的接口接入原始日志数据；

S203：聚类模块对特征向量进行集聚，构成特征向量集合，特征向量集合中每一个特征向量对应一个样本信息，每一个特征向量包含各类特征数据，具体过程如下：

S2033：将聚类后含实例少于某个阈值或实例明显少于其它类的类标记为异常类，类中的实例标记为异常行为，将聚类后含实例明显集中或实例明显多于异常类的为正常类，其中的实例标记为正常行为，范围值分为数值型正常行为范围值和数值型异常行为范围值，将范围值范围缩小，减小需要人为判定的异常行为，缩小人为工作量；

建立数值型知识库：通过对数值型数据进行特征增维，在特征增维后，通过傅里叶变换计算其周期性，并且进行周期检测，如果存在周期性，根据周期性预测数据时序性，如果所述数值型数据的实际值与预测值在正常行为范围值内，则判定为数值正常行为，同样的，所述数值型数据的实际值与预测值在异常范围值内，则判定为数值异常行为，如果不存在周期性，对数据进行线性相关预测，并将预测值与实际值分别与范围值进行比较，判定数值是否异常；

建立字符型知识库：对属于字符型的数据进行分词处理判断字符熵，并通过机器学习算法建模，计算离群点从而区分异常数据，同时建立字符正常行为知识库和字符异常行为知识库，并将对应的字符型数据存入相应的知识库，属于字符型的数据采用n-gram分词器进行分词，并进行熵计算，再根据熵的值判断字符串存在的规律，然后进行聚类计算离群点，从而识别异常数据；

S4：行为异常判定：学习单元接收新的安全日志中的新行为样本数据，并对新行为样本数据进行特征处理，执行单元比较数值型知识库或者字符型知识库，判定该行为样本数据为正常行为、异常行为或者待处理行为；

待处理行为处理办法：当遇到无法根据样本知识库进行判定正常行为或者异常行为的新行为样本数据，将其转送至反馈单元，跳转进入S6；

更新知识库步骤中，将训练样本集的特征向量集合多次输入多种机器学习分类算法中，构建集成学习分类模型，一次输入过程记为一轮训练过程，每轮训练过程中多种机器学习分类算法采用不同核函数组合和不同权重组合，每轮训练过程具体如下：

S503：将所有训练样本的分类结果与对应样本标签一一进行对比，获取本轮分类结果的准确率，根据每轮分类训练的准确率，选用最佳权重组合和最佳核函数组合构建分类模型；

通过多种机器学习分类算法进行训练分类，能够选择准确率最高的分类模型，在后期判定中，能够跟随数据的不断更新而自动更新分类模型，以适应数据的变化，适应性更强。

S7：新行为样本判定：对后续新行为样本数据进行异常行为判定，跳转进入至S4，继续接收新的安装日志行为。

实施例二：

请参阅图10，一种基于大数据机器学习的异常行为发现方法，包括以下步骤：

S201：接收模块通过通用的接口接入原始日志数据；

S2033：将聚类后含实例少于某个阈值或实例明显少于其它类的类标记为异常类，类中的实例标记为异常行为，将聚类后含实例明显集中或实例明显多于异常类的为正常类，其中的实例标记为正常行为，范围值分为数值型正常行为范围值和数值型异常行为范围值，减小需要人为判定的异常行为，缩小人为工作量；

S3：填充知识库：建立数值型知识库，通过对数值型数据进行特征增维，在特征增维后，通过傅里叶变换计算其周期性，并且进行周期检测，如果存在周期性，根据周期性预测数据时序性，如果所述数值型数据的实际值与预测值在正常行为范围值内，则判定为数值正常行为，同样的，所述数值型数据的实际值与预测值在异常范围值内，则判定为数值异常行为，如果不存在周期性，对数据进行线性相关预测，并将预测值与实际值分别与范围值进行比较，判定数值是否异常；

S4：行为异常判定：学习单元接收新的安全日志中的新行为样本数据，并对新行为样本数据进行特征处理，执行单元比较数值型知识库，判定该行为样本数据为正常行为、异常行为或者待处理行为；

S4：还可以使用以下步骤进行实现：

步骤A1，通过以下公式构建新行为样本数据的数据集：

其中

，

，

代表不同的新行为样本的数据，

代表新行为样本的数据为正常行为，

代表新行为样本的数据为异常行为，

代表新行为样本的数据为待处理行为，并且，j=1，2，3，

代表新行为样本的数据的数量；

步骤A2，通过以下公式确定新行为样本数据间的距离：

其中，

代表距离，

，

代表新行为样本的数据的坐标值，n代表新行为样本的数据属于几维空间；

步骤A3：确定新行为样本的数据的类别：

有益效果：以上算法采用了机器学习技术，通过计算用户选择k值和距离d衡量新行为样本数据类别，以此达到高效率，高精确率的识别新行为样本数据属于哪个类别，达到了算法计算与本专利的融合，为后期分类后的新行为样本数据处理做了基础。

本实施例中只设有数值型知识库，适用于数值型日志样本判定，相比与实施例一，本实施例中只对数值型数据进行判定，针对性更高。

实施例三：

请参阅图11，一种基于大数据机器学习的异常行为发现方法，包括以下步骤：

S2：数据预处理：通过学习单元统计一个周期内的原始日志数据，并利用机器学习通过离线方式对原始日志数据进行特征处理，提取原始日志数据的特征数据；

S3：填充知识库：建立字符型知识库，对属于字符型的数据进行分词处理判断字符熵，并通过机器学习算法建模，计算离群点从而区分异常数据，同时建立字符正常行为知识库和字符异常行为知识库，并将对应的字符型数据存入相应的知识库，属于字符型的数据采用n-gram分词器进行分词，并进行熵计算，再根据熵的值判断字符串存在的规律，然后进行聚类计算离群点，从而识别异常数据；

S4：行为异常判定：学习单元接收新的安全日志中的新行为样本数据，并对新行为样本数据进行特征处理，执行单元比较字符型知识库，判定该行为样本数据为正常行为、异常行为或者待处理行为；

本实施例中，通过本实施例中只设有字符型知识库，适用于数值型日志样本判定，相比与实施例二，本实施例中只对字符型数据进行判定，针对性更高。

综上所述：本基于大数据机器学习的异常行为发现方法，通过数值型知识库和字符型知识库分类对不同的类型的数据建立知识库，存储异常行为数据和正常行为数据，能够有针对的对数据进分类判定，提高判定的准确性，另外范围值分为数值型正常行为范围值、数值型异常行为范围值、字符型正常行为范围值和字符型异常行为范围值，将范围值范围缩小，减小需要人为判定的异常行为，缩小人为工作量，且通过多种机器学习分类算法进行训练分类，能够选择准确率最高的分类模型，在后期判定中，能够跟随数据的不断更新而自动更新分类模型，以适应数据的变化，适应性更强。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于大数据机器学习的异常行为发现方法，其特征在于，包括以下步骤：

S1：创建工作环境：建立学习单元、知识库单元、执行单元和反馈单元，学习单元分别与知识库单元和执行单元连接，执行单元与反馈单元连接，反馈单元与知识库单元连接；

S201：接收模块通过通用的接口接入原始日志数据；

S202：利用特征提取模块对原始日志数据样本进行特征提取、标准化处理和向量化处理；

S203：聚类模块对特征向量进行集聚，构成特征向量集合，特征向量集合中每一个特征向量对应一个样本信息，每一个特征向量包含各类特征数据；

所述S203具体过程如下：

S2031：聚类模块预将数据分为K组，则随机选取K个对象作为初始的种子聚类中心；

S2033：将聚类后含实例少于某个阈值或实例明显少于其它类的类标记为异常类，类中的实例标记为异常行为，将聚类后含实例明显集中或实例明显多于异常类的标记为正常类，其中的实例标记为正常行为，范围值分为数值型正常行为范围值和数值型异常行为范围值；

S3：填充知识库：根据特征数据中的键值区分数据属于数值型还是字符型，根据数据类型，分别建立数值型知识库和字符型知识库；

建立数值型知识库中，通过对数值型数据进行特征增维，在特征增维后，通过傅里叶变换计算其周期性，并且进行周期检测，如果存在周期性，根据周期性预测数据时序性，如果所述数值型数据的实际值与预测值在正常行为范围值内，则判定为数值正常行为，同样的，所述数值型数据的实际值与预测值在异常范围值内，则判定为数值异常行为，如果不存在周期性，对数据进行线性相关预测，并将预测值与实际值分别与范围值进行比较，判定数值是否异常；

建立字符型知识库时，对属于字符型的数据采用n-gram分词器进行分词，并进行熵计算，再根据熵的值判断字符串存在的规律，然后进行聚类计算离群点，从而识别异常数据；

2.如权利要求1所述的一种基于大数据机器学习的异常行为发现方法，其特征在于：S3包括如下步骤：

建立字符型知识库：对属于字符型的数据进行分词处理判断字符熵，并通过机器学习算法建模，计算离群点从而区分异常数据，同时建立字符正常行为知识库和字符异常行为知识库，并将对应的字符型数据存入相应的知识库。

3.如权利要求1所述的一种基于大数据机器学习的异常行为发现方法，其特征在于：所述执行单元包括规则库模块和行为判定模块，其中，

所述规则库模块，用于指导行为判定模块将配置信息和元数据与知识库样本数据进行比较；

行为判定模块，用于确定机器学习执行分析任务所需的配置信息和元数据，行为判定模块在规则库模块的指导下，比较知识库样本数据对新入日志数据进行判定。

4.如权利要求1所述的一种基于大数据机器学习的异常行为发现方法，其特征在于：S5更新知识库步骤中，将训练样本集的特征向量集合多次输入多种机器学习分类算法中，构建集成学习分类模型，一次输入过程记为一轮训练过程，每轮训练过程中多种机器学习分类算法采用不同核函数组合和不同权重组合。

5.如权利要求4所述的一种基于大数据机器学习的异常行为发现方法，其特征在于：每轮训练过程具体如下：

S501：将训练样本集的特征向量集合分别输入多种机器学习分类算法中，通过不同的机器学习分类算法得出不同的分类结果；