CN109995756B - 用于信息系统入侵检测的在线单分类主动机器学习方法 - Google Patents

用于信息系统入侵检测的在线单分类主动机器学习方法 Download PDF

Info

Publication number
CN109995756B
CN109995756B CN201910142435.2A CN201910142435A CN109995756B CN 109995756 B CN109995756 B CN 109995756B CN 201910142435 A CN201910142435 A CN 201910142435A CN 109995756 B CN109995756 B CN 109995756B
Authority
CN
China
Prior art keywords
data
information system
classifier
real
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910142435.2A
Other languages
English (en)
Other versions
CN109995756A (zh
Inventor
李光夏
刘佳
沈玉龙
党永超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201910142435.2A priority Critical patent/CN109995756B/zh
Publication of CN109995756A publication Critical patent/CN109995756A/zh
Application granted granted Critical
Publication of CN109995756B publication Critical patent/CN109995756B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于机器学习技术领域,公开了一种用于信息系统入侵检测的在线单分类主动机器学习方法;包括:使用信息系统中较易获得且数量最多的一类数据对分类器进行初始化,得到初始分类器模型;对于信息系统中实时数据,根据所得初始分类器模型,对实时数据的类型根据一定策略给出预测,同时,若满足某种条件,请求专家给出专业判定,并对分类器模型做出更新。本发明使用在线单分类主动机器学习方法检测信息系统中的网络入侵行为;使用单分类算法学习正常数据的特征并以此判定数据类型;选出分类器所给出的预测结果中最值得被专家分析的数据,由专家判定并针对性地更新分类器,更好地利用专家资源提升分类器性能,实现对信息系统入侵行为的有效识别。

Description

用于信息系统入侵检测的在线单分类主动机器学习方法
技术领域
本发明属于机器学习技术领域,尤其涉及一种用于信息系统入侵检测的在线单分类主动机器学习方法。
背景技术
目前,业内常用的现有技术是这样的:信息系统入侵检测任务经常面临数据种类分布不平衡的问题,即待分类的数据中一种类型的数据数量显著多于另一种类型(例如,正常网络通信数据的数量远多于入侵数据)。在某些情况下,少数类数据由于数量稀少、采集困难甚至根本无法获得。对于这样的数据类分布不平衡的问题,普通的机器学习方法如决策树、支持向量机、朴素贝叶斯等的预测结果往往不理想,其中原因包括这些算法要求输入数据不同类型间的数量差异不可过大。
信息系统入侵检测任务的另一个难点在于待处理数据多以数据流形式源源不断产生,对系统实时响应及不间断运行能力要求高。当今信息系统在所处行业体系中的关键作用,其受攻击的后果严重,对作为入侵检测系统核心的分类算法提出了更高要求:除了高效准确外,还需易于通过反复训练快速进行迭代更新,适应外部威胁的变化。而现有入侵检测技术通常是使用基于规则的入侵检测如语义分析技术、特征检测和行为检测等方法存在只能检测已知攻击、系统临界状态简单,且对规则的制定有很高要求。基于批处理的机器学习方法需要一次性学习数据集中所有数据以得到模型,而且其通常不会根据当前情况实时更新模型,而在线学习的机器学习方法实时地针对每一条数据给出预测结果,并对模型进行更新。后者快速判定、实时更新、可扩展性好、支持连续实时数据的特性更适合于对实时的行为反馈要求极高的入侵检测系统。此外,当前的机器学习方法及系统很少有相关领域的专家的参与,通常都是由算法直接给出预测结果,然而,对于不断发展变化的入侵行为的识别上,人类专家的相关领域知识可能会给出更专业的判定。
综上所述,现有技术存在的问题是:现有的机器学习方法通过一次性地学习一定规模的训练样本来构建预测模型费时耗力,减慢了模型的更新速度,并不能很好地适用于信息系统的入侵检测任务。此外,缺乏领域专家参与或无法最大化利用专家资源。
解决上述技术问题的难度:信息系统中类别平衡数据获取难,数据间边界的划分不准确可能导致异常数据被漏报,导致极大的安全性危机。专家资源的有限性导致选择何种数据请求专家判定会给结果带来极大的影响。
解决上述技术问题的意义:能够解决信息系统中类别不平衡下的网络入侵行为的识别,提供在线、高效、实时的检测方法,有效利用专家资源,给出价值最大、更值得被专家判定的数据更加专业性的判定标签。
发明内容
针对现有技术存在的问题,本发明提供了一种用于信息系统入侵检测的在线单分类主动机器学习方法。
本发明是这样实现的,一种用于信息系统入侵检测的在线单分类主动机器学习方法,所述用于信息系统入侵检测的在线单分类主动机器学习方法包括:
第一步,使用信息系统中较易获得且数量最多的一类数据对分类器进行初始化,得到初始分类器模型;
第二步,对于信息系统中实时数据,根据所得初始分类器模型,对实时数据的属性类型根据一定策略给出预测,同时,若满足某种条件,对分类器模型做出更新;
第三步,更新分类器模型。
进一步,所述第一步使用信息系统中较易获得且数量最多的一类数据对分类器进行初始化包括:
(1)输入数据共有n个,每个为1×d维向量,对于所有输入数据构成的n×d维矩阵X,使用随机种子产生X的乱序排列X′;设初始模型w为1×d维向量,赋其初值为1×d维随机数;
(2)依次判断输入数据X′中每一个实例,即1×d维向量x,判断其是否为多数类数据:若是,则执行步骤三;否则执行(2);
(3)判断当前数据样本集中所有的样本是否已全部被处理完毕,即判断数据样本X′是否全部经过上述计算步骤;若是,则执行步骤二;若否,则执行(2)。
进一步,所述第二步对于信息系统中实时数据,根据所得初始分类器模型,对实时数据的属性类型根据一定策略给出预测,同时,若满足某种条件,对分类器模型做出更新具体包括:在时刻t,对于信息系统中实时数据xt,根据所得初始分类器模型w,对xt的属性类型根据一定策略给出预测;同时,若满足某种条件,对分类器模型w做出更新;设置未标记池为一个容量为N的队列,用于存储最多N个在不同时刻t的数据xt;初始化未标记池为空。
进一步包括:
(1)在时刻t,对于信息系统中实时数据xt,根据所得初始分类器模型w,计算临时值ft=||w-xt||,并判断若ft>epsilon,则给出实时数据xt的预测标签为1,即该数据为异常数据;其中,epsilon为用户设定的参数,为大于零的实数,表示包括多数类数据的超球体的半径;
(2)若当前未标记池小于其最大容量且当前预测值正确时,将实时数据xt及临时值ft的组合存入未标记池中;
(3)每隔一定时刻t′,取出未标记池中最大的ft及其对应的xt,请求相关领域专家判断xt的数据类型是否为异常类型,其中,ft的值越大,代表分类器将此条数据视为异常类型的置信度更高,是更有价值、更值得请专家进行判定的数据;此时,若专家给出与分类器相反的结论,则执行第三步更新分类器模型;第三步结束后继续执行(1)。
进一步,所述第三步的分类器模型的更新方式为:
(1)根据以下公式(1)计算临时值l,若l>0,则执行(2),否则结束;
l=||w-x||-epsilon (1)
其中,||w-x||为(w-x)的二范数;
(2)根据以下公式(2)更新初始模型w;
Figure BDA0001978972430000041
本发明的另一目的在于提供一种应用所述用于信息系统入侵检测的在线单分类主动机器学习方法的机器学习平台。
综上所述,本发明的优点及积极效果为:本发明使用在线单分类主动机器学习方法检测信息系统中的网络入侵行为;针对信息系统中整体训练数据难以同时获得且异常数据含量少的特点,使用单分类算法最大化学习正常数据的特征并以此区分正常数据与异常数据;针对专家资源有限的问题,选出分类器所给出的预测结果中最值得被专家分析的数据,交由专家给出判定并针对性地更新分类器,以此更好地利用专家资源提升分类器性能,实现对信息系统入侵行为的有效识别。
附图说明
图1是本发明实施例提供的用于信息系统入侵检测的在线单分类主动机器学习方法流程图。
图2是本发明实施例提供的用于信息系统入侵检测的在线单分类主动机器学习方法实现流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明为了解决信息系统入侵检测任务中面临的外部威胁状态实时变化,训练数据获取困难,以及数据类偏态分布的问题,提供了一种用于信息系统入侵检测的在线单分类主动机器学习方法,可用于极端类不平衡条件下的在线主动学习。人类专家的相关领域知识在入侵检测方法中会对异常数据给出更专业的判定,为最大化利用人类相关领域专家的专业资源,将主动学习引入异常检测和单分类算法中。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的用于信息系统入侵检测的在线单分类主动机器学习方法包括以下步骤:
S101:使用信息系统中较易获得且数量最多的一类数据对分类器进行初始化,得到初始分类器模型;
S102:对于信息系统中实时数据,根据所得初始分类器模型,对实时数据的属性类型根据一定策略给出预测,同时,若满足某种条件,对分类器模型做出更新;
S103:更新分类器模型。
下面结合附图对本发明的应用原理作进一步的描述。
如图2所示,本发明实施例提供的用于信息系统入侵检测的在线单分类主动机器学习方法具体包括以下步骤:
步骤一,初始化分类器。本发明首先使用信息系统中较易获得且数量最多的一类数据对分类器进行初始化。此处所谓“较易获得的数据”是指诸如信息系统中的正常网络流量数据、正常运行状态数据、正常系统日志数据等,它们通常容易获得且在数量上远大于异常数据。初始化分类器的作用是由正常数据产生初始分类模型,用于后续的训练。其中,本发明将较易获得且数量相较另一类数据更多的那类数据称为“多数类数据”(majorityclass),也称“正常数据”,规定其标签为“-1”,反之为“少数类数据”(minority class),也称“异常数据”,规定其标签为“1”;
(1)假设输入数据共有n个,每个为1×d维向量。对于所有输入数据构成的n×d维矩阵X,使用随机种子产生X的乱序排列X′。设初始模型w为1×d维向量,赋其初值为1×d维随机数;
(2)依次判断输入数据X′中每一个实例,即1×d维向量x,判断其是否为多数类数据:若是,则执行步骤三;否则执行(2);
(3)判断当前数据样本集中所有的样本是否已全部被处理完毕,即判断数据样本X′是否全部经过上述计算步骤。若是,则执行步骤二;若否,则执行(2);
步骤二,在时刻t,对于信息系统中实时数据xt,根据步骤一所得初始分类器模型w,对xt的属性类型根据一定策略给出预测,同时,若满足某种条件,对分类器模型w做出更新;设置未标记池(unlabeled pool)为一个容量为N的队列,用于存储最多N个在不同时刻t的数据xt;初始化未标记池为空;
具体包括如下步骤:
(1)在时刻t,对于信息系统中实时数据xt,根据步骤一所得初始分类器模型w,计算临时值ft=||w-xt||,并判断若ft>epsilon,则给出实时数据xt的预测标签为1,即该数据为异常数据;其中,epsilon为用户设定的参数,为大于零的实数,表示包括多数类数据的超球体的半径;
(2)若当前未标记池小于其最大容量且当前预测值正确时,将实时数据xt及临时值ft的组合存入未标记池中;
(3)每隔一定时刻t′,取出未标记池中最大的ft及其对应的xt,请求相关领域专家(即外部判别系统,通常为人工)判断xt的数据类型是否为异常类型,其中,ft的值越大,代表分类器将此条数据视为异常类型的置信度更高,是更有价值、更值得请专家进行判定的数据;此时,若专家给出与分类器相反的结论,则执行步骤三更新分类器模型;步骤三结束后继续执行(1);
步骤三,分类器模型的更新方式如下:
(1)根据以下公式(1)计算临时值l,若l>0,则执行(2),否则结束本步骤;
l=||w-x||-epsilon (1)
其中,||w-x||为(w-x)的二范数;
(2)根据以下公式(2)更新初始模型w;
Figure BDA0001978972430000071
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种用于信息系统入侵检测的在线单分类主动机器学习方法,其特征在于,所述用于信息系统入侵检测的在线单分类主动机器学习方法包括:
第一步,使用信息系统中较易获得且数量最多的一类数据对分类器进行初始化;
第二步,对于信息系统中实时数据,根据所得初始分类器模型,对实时数据的属性类型根据一定策略给出预测,同时,若满足某种条件,请求专家给出专业判定,并对分类器模型做出更新;对于信息系统中实时数据,根据所得初始分类器模型,对实时数据的属性类型根据一定策略给出预测,同时,若满足某种条件,对分类器模型做出更新;具体包括:在时刻t,对于信息系统中实时数据xt,根据所得初始分类器模型w,对xt的属性类型根据一定策略给出预测;同时,若满足某种条件,对分类器模型w做出更新;设置未标记池为一个容量为N的队列,用于存储最多N个在不同时刻t的数据xt;初始化未标记池为空;
进一步包括:
(1)在时刻t,对于信息系统中实时数据xt,根据所得初始分类器模型w,计算临时值ft=||w-xt||,并判断若ft>epsilon,则给出实时数据xt的预测标签为1,即该数据为异常数据;其中,epsilon为用户设定的参数,为大于零的实数,表示包括多数类数据的超球体的半径;
(2)若当前未标记池小于其最大容量且当前预测值正确时,将实时数据xt及临时值ft的组合存入未标记池中;
(3)每隔一定时刻t′,取出未标记池中最大的ft及其对应的xt,请求相关领域专家判断xt的数据类型是否为异常类型,其中,ft的值越大,代表分类器将此条数据视为异常类型的置信度更高,是更有价值、更值得请专家进行判定的数据;此时,若专家给出与分类器相反的结论,则执行第三步更新分类器模型;第三步结束后继续执行(1);
第三步,更新分类器模型。
2.如权利要求1所述的用于信息系统入侵检测的在线单分类主动机器学习方法,其特征在于,所述第一步使用信息系统中较易获得且数量最多的一类数据对分类器进行初始化包括:
(1)输入数据共有n个,每个为1×d维向量,对于所有输入数据构成的n×d维矩阵X,使用随机种子产生X的乱序排列X′;设初始模型w为1×d维向量,赋其初值为1×d维随机数;
(2)依次判断输入数据X′中每一个实例,即1×d维向量x,判断其是否为多数类数据:若是,则执行第三步;否则执行(2);
(3)判断当前数据样本集中所有的样本是否已全部被处理完毕,即判断数据样本X′是否全部经过上述计算步骤;若是,则执行第二步;若否,则执行(2)。
3.如权利要求1所述的用于信息系统入侵检测的在线单分类主动机器学习方法,其特征在于,所述第三步的分类器模型的更新方式为:
(1)根据以下公式(1)计算临时值l,若l>0,则执行(2),否则结束;
l=||w-x||-epsilon (1)
其中,||w-x||为(w-x)的二范数;
(2)根据以下公式(2)更新初始模型w;
Figure FDA0003386856880000021
4.一种应用权利要求1~3任意一项所述用于信息系统入侵检测的在线单分类主动机器学习方法的机器学习平台。
CN201910142435.2A 2019-02-26 2019-02-26 用于信息系统入侵检测的在线单分类主动机器学习方法 Active CN109995756B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910142435.2A CN109995756B (zh) 2019-02-26 2019-02-26 用于信息系统入侵检测的在线单分类主动机器学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910142435.2A CN109995756B (zh) 2019-02-26 2019-02-26 用于信息系统入侵检测的在线单分类主动机器学习方法

Publications (2)

Publication Number Publication Date
CN109995756A CN109995756A (zh) 2019-07-09
CN109995756B true CN109995756B (zh) 2022-02-01

Family

ID=67130001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910142435.2A Active CN109995756B (zh) 2019-02-26 2019-02-26 用于信息系统入侵检测的在线单分类主动机器学习方法

Country Status (1)

Country Link
CN (1) CN109995756B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101493888A (zh) * 2009-03-03 2009-07-29 中国石化集团胜利石油管理局地质录井公司 Pdc岩屑数字图像录井方法
CN106844530A (zh) * 2016-12-29 2017-06-13 北京奇虎科技有限公司 一种问答对分类模型的训练方法和装置
CN107085729A (zh) * 2017-03-13 2017-08-22 西安电子科技大学 一种基于贝叶斯推断的人员检测结果修正方法
CN108921001A (zh) * 2018-04-18 2018-11-30 特斯联(北京)科技有限公司 一种采用人工智能预测追踪的视频监视云台及其追踪方法
CN109218223A (zh) * 2018-08-08 2019-01-15 西安交通大学 一种基于主动学习的鲁棒性网络流量分类方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10698876B2 (en) * 2017-08-11 2020-06-30 Micro Focus Llc Distinguish phrases in displayed content

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101493888A (zh) * 2009-03-03 2009-07-29 中国石化集团胜利石油管理局地质录井公司 Pdc岩屑数字图像录井方法
CN106844530A (zh) * 2016-12-29 2017-06-13 北京奇虎科技有限公司 一种问答对分类模型的训练方法和装置
CN107085729A (zh) * 2017-03-13 2017-08-22 西安电子科技大学 一种基于贝叶斯推断的人员检测结果修正方法
CN108921001A (zh) * 2018-04-18 2018-11-30 特斯联(北京)科技有限公司 一种采用人工智能预测追踪的视频监视云台及其追踪方法
CN109218223A (zh) * 2018-08-08 2019-01-15 西安交通大学 一种基于主动学习的鲁棒性网络流量分类方法及系统

Also Published As

Publication number Publication date
CN109995756A (zh) 2019-07-09

Similar Documents

Publication Publication Date Title
US11444876B2 (en) Method and apparatus for detecting abnormal traffic pattern
CN111327608B (zh) 基于级联深度神经网络的应用层恶意请求检测方法及系统
CN111416797B (zh) 改进天牛群算法优化正则化极限学习机的入侵检测方法
CN108629358B (zh) 对象类别的预测方法及装置
CN111507470A (zh) 一种异常账户的识别方法及装置
CN104618304B (zh) 数据处理方法及数据处理系统
CN113158554B (zh) 模型优化方法、装置、计算机设备及存储介质
CN110995652B (zh) 一种基于深度迁移学习的大数据平台未知威胁检测方法
CN110321430B (zh) 域名识别和域名识别模型生成方法、装置及存储介质
CN110768971A (zh) 适用于人工智能系统的对抗样本快速预警方法及系统
Sahu et al. Dynamic routing using inter capsule routing protocol between capsules
CN110097120B (zh) 网络流量数据分类方法、设备及计算机存储介质
CN118035448A (zh) 基于伪标签去偏的引文网络中论文领域分类方法、装置及介质
CN109995756B (zh) 用于信息系统入侵检测的在线单分类主动机器学习方法
CN108427773B (zh) 一种分布式知识图谱嵌入方法
CN116541792A (zh) 一种基于图神经网络节点分类进行团伙识别的方法
KR102540396B1 (ko) 이미지 검색에 사용되는 신경망 훈련 방법, 장치 및 전자기기
CN116305103A (zh) 一种基于置信度差异的神经网络模型后门检测方法
CN115757935A (zh) 应用计算机智能的大数据推送方法及系统
CN114861739A (zh) 一种特征通道可选择的多组件系统退化预测方法及系统
CN109271295A (zh) 一种云集群环境下的异常作业预测方法
CN114610758A (zh) 基于数据仓库的数据处理方法、装置、可读介质及设备
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
Cheng et al. GSLAC: A general scalable and low-overhead alert correlation method
Hou et al. A Densely Stacked Attention Method for Cyberattack Detection.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant