CN109995756B

CN109995756B - 用于信息系统入侵检测的在线单分类主动机器学习方法

Info

Publication number: CN109995756B
Application number: CN201910142435.2A
Authority: CN
Inventors: 李光夏; 刘佳; 沈玉龙; 党永超
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-02-26
Filing date: 2019-02-26
Publication date: 2022-02-01
Anticipated expiration: 2039-02-26
Also published as: CN109995756A

Abstract

本发明属于机器学习技术领域，公开了一种用于信息系统入侵检测的在线单分类主动机器学习方法；包括：使用信息系统中较易获得且数量最多的一类数据对分类器进行初始化，得到初始分类器模型；对于信息系统中实时数据，根据所得初始分类器模型，对实时数据的类型根据一定策略给出预测，同时，若满足某种条件，请求专家给出专业判定，并对分类器模型做出更新。本发明使用在线单分类主动机器学习方法检测信息系统中的网络入侵行为；使用单分类算法学习正常数据的特征并以此判定数据类型；选出分类器所给出的预测结果中最值得被专家分析的数据，由专家判定并针对性地更新分类器，更好地利用专家资源提升分类器性能，实现对信息系统入侵行为的有效识别。

Description

用于信息系统入侵检测的在线单分类主动机器学习方法

技术领域

本发明属于机器学习技术领域，尤其涉及一种用于信息系统入侵检测的在线单分类主动机器学习方法。

背景技术

目前，业内常用的现有技术是这样的：信息系统入侵检测任务经常面临数据种类分布不平衡的问题，即待分类的数据中一种类型的数据数量显著多于另一种类型(例如，正常网络通信数据的数量远多于入侵数据)。在某些情况下，少数类数据由于数量稀少、采集困难甚至根本无法获得。对于这样的数据类分布不平衡的问题，普通的机器学习方法如决策树、支持向量机、朴素贝叶斯等的预测结果往往不理想，其中原因包括这些算法要求输入数据不同类型间的数量差异不可过大。

信息系统入侵检测任务的另一个难点在于待处理数据多以数据流形式源源不断产生，对系统实时响应及不间断运行能力要求高。当今信息系统在所处行业体系中的关键作用，其受攻击的后果严重，对作为入侵检测系统核心的分类算法提出了更高要求：除了高效准确外，还需易于通过反复训练快速进行迭代更新，适应外部威胁的变化。而现有入侵检测技术通常是使用基于规则的入侵检测如语义分析技术、特征检测和行为检测等方法存在只能检测已知攻击、系统临界状态简单，且对规则的制定有很高要求。基于批处理的机器学习方法需要一次性学习数据集中所有数据以得到模型，而且其通常不会根据当前情况实时更新模型，而在线学习的机器学习方法实时地针对每一条数据给出预测结果，并对模型进行更新。后者快速判定、实时更新、可扩展性好、支持连续实时数据的特性更适合于对实时的行为反馈要求极高的入侵检测系统。此外，当前的机器学习方法及系统很少有相关领域的专家的参与，通常都是由算法直接给出预测结果，然而，对于不断发展变化的入侵行为的识别上，人类专家的相关领域知识可能会给出更专业的判定。

综上所述，现有技术存在的问题是：现有的机器学习方法通过一次性地学习一定规模的训练样本来构建预测模型费时耗力，减慢了模型的更新速度，并不能很好地适用于信息系统的入侵检测任务。此外，缺乏领域专家参与或无法最大化利用专家资源。

解决上述技术问题的难度：信息系统中类别平衡数据获取难，数据间边界的划分不准确可能导致异常数据被漏报，导致极大的安全性危机。专家资源的有限性导致选择何种数据请求专家判定会给结果带来极大的影响。

解决上述技术问题的意义：能够解决信息系统中类别不平衡下的网络入侵行为的识别，提供在线、高效、实时的检测方法，有效利用专家资源，给出价值最大、更值得被专家判定的数据更加专业性的判定标签。

发明内容

针对现有技术存在的问题，本发明提供了一种用于信息系统入侵检测的在线单分类主动机器学习方法。

本发明是这样实现的，一种用于信息系统入侵检测的在线单分类主动机器学习方法，所述用于信息系统入侵检测的在线单分类主动机器学习方法包括：

第一步，使用信息系统中较易获得且数量最多的一类数据对分类器进行初始化，得到初始分类器模型；

第二步，对于信息系统中实时数据，根据所得初始分类器模型，对实时数据的属性类型根据一定策略给出预测，同时，若满足某种条件，对分类器模型做出更新；

第三步，更新分类器模型。

进一步，所述第一步使用信息系统中较易获得且数量最多的一类数据对分类器进行初始化包括：

(1)输入数据共有n个，每个为1×d维向量，对于所有输入数据构成的n×d维矩阵X，使用随机种子产生X的乱序排列X′；设初始模型w为1×d维向量，赋其初值为1×d维随机数；

(2)依次判断输入数据X′中每一个实例，即1×d维向量x，判断其是否为多数类数据：若是，则执行步骤三；否则执行(2)；

(3)判断当前数据样本集中所有的样本是否已全部被处理完毕，即判断数据样本X′是否全部经过上述计算步骤；若是，则执行步骤二；若否，则执行(2)。

进一步，所述第二步对于信息系统中实时数据，根据所得初始分类器模型，对实时数据的属性类型根据一定策略给出预测，同时，若满足某种条件，对分类器模型做出更新具体包括：在时刻t，对于信息系统中实时数据x_t，根据所得初始分类器模型w，对x_t的属性类型根据一定策略给出预测；同时，若满足某种条件，对分类器模型w做出更新；设置未标记池为一个容量为N的队列，用于存储最多N个在不同时刻t的数据x_t；初始化未标记池为空。

进一步包括：

(1)在时刻t，对于信息系统中实时数据x_t，根据所得初始分类器模型w，计算临时值f_t＝||w-x_t||，并判断若f_t＞epsilon，则给出实时数据x_t的预测标签为1，即该数据为异常数据；其中，epsilon为用户设定的参数，为大于零的实数，表示包括多数类数据的超球体的半径；

(2)若当前未标记池小于其最大容量且当前预测值正确时，将实时数据x_t及临时值f_t的组合存入未标记池中；

(3)每隔一定时刻t′，取出未标记池中最大的f_t及其对应的x_t，请求相关领域专家判断x_t的数据类型是否为异常类型，其中，f_t的值越大，代表分类器将此条数据视为异常类型的置信度更高，是更有价值、更值得请专家进行判定的数据；此时，若专家给出与分类器相反的结论，则执行第三步更新分类器模型；第三步结束后继续执行(1)。

进一步，所述第三步的分类器模型的更新方式为：

(1)根据以下公式(1)计算临时值l，若l＞0，则执行(2)，否则结束；

l＝||w-x||-epsilon (1)

其中，||w-x||为(w-x)的二范数；

(2)根据以下公式(2)更新初始模型w；

本发明的另一目的在于提供一种应用所述用于信息系统入侵检测的在线单分类主动机器学习方法的机器学习平台。

综上所述，本发明的优点及积极效果为：本发明使用在线单分类主动机器学习方法检测信息系统中的网络入侵行为；针对信息系统中整体训练数据难以同时获得且异常数据含量少的特点，使用单分类算法最大化学习正常数据的特征并以此区分正常数据与异常数据；针对专家资源有限的问题，选出分类器所给出的预测结果中最值得被专家分析的数据，交由专家给出判定并针对性地更新分类器，以此更好地利用专家资源提升分类器性能，实现对信息系统入侵行为的有效识别。

附图说明

图1是本发明实施例提供的用于信息系统入侵检测的在线单分类主动机器学习方法流程图。

图2是本发明实施例提供的用于信息系统入侵检测的在线单分类主动机器学习方法实现流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明为了解决信息系统入侵检测任务中面临的外部威胁状态实时变化，训练数据获取困难，以及数据类偏态分布的问题，提供了一种用于信息系统入侵检测的在线单分类主动机器学习方法，可用于极端类不平衡条件下的在线主动学习。人类专家的相关领域知识在入侵检测方法中会对异常数据给出更专业的判定，为最大化利用人类相关领域专家的专业资源，将主动学习引入异常检测和单分类算法中。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的用于信息系统入侵检测的在线单分类主动机器学习方法包括以下步骤：

S101：使用信息系统中较易获得且数量最多的一类数据对分类器进行初始化，得到初始分类器模型；

S102：对于信息系统中实时数据，根据所得初始分类器模型，对实时数据的属性类型根据一定策略给出预测，同时，若满足某种条件，对分类器模型做出更新；

S103：更新分类器模型。

下面结合附图对本发明的应用原理作进一步的描述。

如图2所示，本发明实施例提供的用于信息系统入侵检测的在线单分类主动机器学习方法具体包括以下步骤：

步骤一，初始化分类器。本发明首先使用信息系统中较易获得且数量最多的一类数据对分类器进行初始化。此处所谓“较易获得的数据”是指诸如信息系统中的正常网络流量数据、正常运行状态数据、正常系统日志数据等，它们通常容易获得且在数量上远大于异常数据。初始化分类器的作用是由正常数据产生初始分类模型，用于后续的训练。其中，本发明将较易获得且数量相较另一类数据更多的那类数据称为“多数类数据”(majorityclass)，也称“正常数据”，规定其标签为“-1”，反之为“少数类数据”(minority class)，也称“异常数据”，规定其标签为“1”；

(1)假设输入数据共有n个，每个为1×d维向量。对于所有输入数据构成的n×d维矩阵X，使用随机种子产生X的乱序排列X′。设初始模型w为1×d维向量，赋其初值为1×d维随机数；

(3)判断当前数据样本集中所有的样本是否已全部被处理完毕，即判断数据样本X′是否全部经过上述计算步骤。若是，则执行步骤二；若否，则执行(2)；

步骤二，在时刻t，对于信息系统中实时数据x_t，根据步骤一所得初始分类器模型w，对x_t的属性类型根据一定策略给出预测，同时，若满足某种条件，对分类器模型w做出更新；设置未标记池(unlabeled pool)为一个容量为N的队列，用于存储最多N个在不同时刻t的数据x_t；初始化未标记池为空；

具体包括如下步骤：

(1)在时刻t，对于信息系统中实时数据x_t，根据步骤一所得初始分类器模型w，计算临时值f_t＝||w-x_t||，并判断若f_t＞epsilon，则给出实时数据x_t的预测标签为1，即该数据为异常数据；其中，epsilon为用户设定的参数，为大于零的实数，表示包括多数类数据的超球体的半径；

(3)每隔一定时刻t′，取出未标记池中最大的f_t及其对应的x_t，请求相关领域专家(即外部判别系统，通常为人工)判断x_t的数据类型是否为异常类型，其中，f_t的值越大，代表分类器将此条数据视为异常类型的置信度更高，是更有价值、更值得请专家进行判定的数据；此时，若专家给出与分类器相反的结论，则执行步骤三更新分类器模型；步骤三结束后继续执行(1)；

步骤三，分类器模型的更新方式如下：

(1)根据以下公式(1)计算临时值l，若l＞0，则执行(2)，否则结束本步骤；

l＝||w-x||-epsilon (1)

其中，||w-x||为(w-x)的二范数；

(2)根据以下公式(2)更新初始模型w；

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于信息系统入侵检测的在线单分类主动机器学习方法，其特征在于，所述用于信息系统入侵检测的在线单分类主动机器学习方法包括：

第一步，使用信息系统中较易获得且数量最多的一类数据对分类器进行初始化；

第二步，对于信息系统中实时数据，根据所得初始分类器模型，对实时数据的属性类型根据一定策略给出预测，同时，若满足某种条件，请求专家给出专业判定，并对分类器模型做出更新；对于信息系统中实时数据，根据所得初始分类器模型，对实时数据的属性类型根据一定策略给出预测，同时，若满足某种条件，对分类器模型做出更新；具体包括：在时刻t，对于信息系统中实时数据x_t，根据所得初始分类器模型w，对x_t的属性类型根据一定策略给出预测；同时，若满足某种条件，对分类器模型w做出更新；设置未标记池为一个容量为N的队列，用于存储最多N个在不同时刻t的数据x_t；初始化未标记池为空；

进一步包括：

(3)每隔一定时刻t′，取出未标记池中最大的f_t及其对应的x_t，请求相关领域专家判断x_t的数据类型是否为异常类型，其中，f_t的值越大，代表分类器将此条数据视为异常类型的置信度更高，是更有价值、更值得请专家进行判定的数据；此时，若专家给出与分类器相反的结论，则执行第三步更新分类器模型；第三步结束后继续执行(1)；

第三步，更新分类器模型。

2.如权利要求1所述的用于信息系统入侵检测的在线单分类主动机器学习方法，其特征在于，所述第一步使用信息系统中较易获得且数量最多的一类数据对分类器进行初始化包括：

(2)依次判断输入数据X′中每一个实例，即1×d维向量x，判断其是否为多数类数据：若是，则执行第三步；否则执行(2)；

(3)判断当前数据样本集中所有的样本是否已全部被处理完毕，即判断数据样本X′是否全部经过上述计算步骤；若是，则执行第二步；若否，则执行(2)。

3.如权利要求1所述的用于信息系统入侵检测的在线单分类主动机器学习方法，其特征在于，所述第三步的分类器模型的更新方式为：

l＝||w-x||-epsilon (1)

其中，||w-x||为(w-x)的二范数；

(2)根据以下公式(2)更新初始模型w；

4.一种应用权利要求1～3任意一项所述用于信息系统入侵检测的在线单分类主动机器学习方法的机器学习平台。