CN106790256B

CN106790256B - 用于危险主机监测的主动机器学习系统

Info

Publication number: CN106790256B
Application number: CN201710059582.4A
Authority: CN
Inventors: 冯望烟; 吴淑宁; 张立钢
Original assignee: Zhejiang Air Core Technology Co Ltd
Current assignee: Zhejiang air core technology Co., Ltd.
Priority date: 2017-01-24
Filing date: 2017-01-24
Publication date: 2018-12-21
Anticipated expiration: 2037-01-24
Also published as: CN106790256A

Abstract

本发明公开了一种用于危险主机监测的主动机器学习系统。所述主动机器学习系统利用SIEM警报信息、各种安全日志和分析师的调查笔记来标记受破坏可能性高的主机。该系统包括数据收集、特征工程、标签产生、机器学习、主动学习分析师见解的反馈算法和实时报警等部分；采用自然语言处理、文本挖掘和基于图形的方法，为机器学习生成目标和创建特征；机器学习单元采用深度信念网络、多层深度神经网络、随机森林、支持向量机和Logistic回归等机器学习机制。通过本系统可以准确检测网络中的危险主机，大幅降低虚警率，兼顾了主机安全检测需求与SOC实际审查能力，使得重要的安全事件得到及时处理，在提高网络安全监测能力的同时，降低了人力成本。

Description

用于危险主机监测的主动机器学习系统

技术领域

本发明属于网络安全和机器学习技术领域，具体涉及一种用于危险主机检测的主动机器学习系统。

背景技术

随着计算机网络特别是因特网的普及应用，网络已经成为人们生产和生活所依赖的重要基础设施。如此同时，网络安全的重要性也日益凸显，现如今网络安全已经成为决定网络应用范围能否极大拓展和网络应用价值能否极大地发挥的关键。

网络安全事件，特别是数据泄露，将对企业造成重大的财务和声誉影响。2015年，IBM和Ponemon研究所针对62家公司开展了数据泄露给公司造成损失的研究工作，结果显示，数据泄露给62家公司造成的平均损失是650万美元。为了检测恶意行为，企业和/或政府都建立了SIEM(Security Information and Event Management，安全信息和事件管理)系统。SIEM系统对于从端点、防火墙、入侵检测系统、DNS、DHCP、Windows事件日志、VPN日志等途径获取的事件日志信息进行标准化处理和关联分析，安全操作中心(Securityoperation center，SOC)团队根据分析师的经验以一个预先确定的严重性程度来开发安全事件用例。安全事件用例通常是基于规则的，这些规则涉及一到两个指标。这些规则可以是基于网络/主机或基于时间/频率。以下是一些规则示例：

●检测到多个恶意软件感染，并且端点保护软件不能清除这些恶意软件；

●对相同的PCI资产登录尝试失败超过一定数量；

●检测到进出已知恶意软件网站的流量；

●在预先指定的时间窗口内，来自PCI服务器的拒绝防火墙事件达到一定数量。

如果任何事件触发一个或多个安全事件用例，SIEM将及时报警。然后SOC团队的分析师将调查报警信息，以决定报警涉及的主机是危险的(真阳性)或不危险(假阳性)。然而，SIEM通常产生大量的警报，但有很高的假阳性率，即产生很多虚警。每天警报的数量能达到几十万条，远远超过SOC的调查能力，以至于SOC根本无力对这些警报进行全面调查。正因为如此，SOC往往只调查高严重性的警报或抑制相同类型的警报。这样可能会错过一些严重的攻击。因此，需要更加智能化、自动化的系统来识别风险主机。

机器学习模型已应用于异常检测和入侵检测。有文献对九种分类器(贝叶斯网络，logistic回归，随机森林等)在恶意流量检测中的性能进行了比较。有文献引入模糊聚类以降低误报率。有文献将k- 均值聚类用于可扩展的无监督入侵检测。有一类入侵行为是通过用户正常使用的数据来构建用户仿形(或称特征)，进而利用该用户仿形对系统实施入侵，有文献报导可以采用如隐马尔科夫(Hidden Markov)模型之类的动态行为模型来检测这类入侵行为。

李等人提出了一种基于决策树的在线支持向量机，利用这种在线支持向量机，能够基于网络流量行为对主机角色进行分类。昌德等人将SVM与其他九种机器学习模型结合使用，以便在入侵检测方面获得更好的性能。有的文献提出了一种整合SVM、决策树和朴素贝叶斯方法的混合模型。有文献提出了用于网络异常检测的增强型支持向量机。孟在文献中，对不同的机器学习模型，包括人工神经网络、SVM 和决策树在用于网络异常入侵检测时的性能进行了比较。席尔瓦等人利用神经网络和SVM自动检测和过滤那些传播网络垃圾的主机。

更复杂的模型，如深度神经网络(DNN)和深度信念网络(DBN) 已被应用于识别恶意入侵。祝民等人已将深度神经网络用于检测车载网络中的入侵行为。有文献报导，DBN应用于入侵检测时的性能优于SVM。刘等人应用极限学习机训练DBN过程以改进机器学习模型在网络入侵检测方面的性能。

目前的研究主要是基于一些历史的仿真或实验数据，而不是基于真实的行业数据开展。很少有研究将警报信息与机器的安全状态联系起来，并基于报警信息分析机器的安全状态。据我们所知，本发明是首次基于行业数据利用DBN机器学习模型分析主机的安全状态。

深度信念网络与深度神经网络有两个主要区别：

●网络拓扑结构：深度神经网络是一个具有多个隐藏层的前馈网络。每个隐藏的神经元通常使用l ogi st ic/s igmoid激活函数。与此相反，深度信念网络有堆叠的限制玻尔兹曼机组成的隐藏层之间的无向连接。

●网络训练：深度神经网络在整个反向传播训练过程中需要带标记的数据以便调整其权重。与此相反，深度信念网络使用无监督的对比散度算法预训练和后续的反向传播微调权重。

深度神经网络一般需要大量的平衡标记数据，但大多数行业数据缺乏标签。深度信念网络是一种无监督的概率生成模型，主要通过堆叠受限玻尔兹曼机(RBM)来构造。堆叠受限玻尔兹曼机的参数是通过对比散度(CD)算法进行训练。由于CD是无监督学习，因而在这个阶段是不需要带标记数据的。在第二阶段，训练后的网络将由监督模型如SoftMax/Logistic回归或具有梯度下降学习过程的线性分类器予以调整。然而，DBN的参数在CD之后几乎是固定的，在第二阶段也只是微调模型参数。因此，深度信念网络需要更少的带标记数据。

发明内容

为了克服现有的安全信息和事件管理系统存在报警量大、虚警率高，导致无法及时处理报警和可能遗漏处理重要报警信息等问题，本发明提供一种用于危险主机监测的主动机器学习系统。所述机器学习系统该系统利用警报信息、各种安全日志信息，主动学习分析师的调查结果，以标识受害可能性高的主机。所述机器学习系统能够自动地以增量的方式纳入安全分析师新的调查见解，并在此基础上更新机器学习模型，因而具有很强的自学习和自优化能力，即具有很强的主动学习能力。通过该系统不仅可以全面监测网络中的各类安全信息和事件，并且能够准确标记和报警异常主机，大幅度降低报警数量和虚警率，在显著提升企业网络安全监测能力的同时，有效降低检测人力成本。

为实现上述目标，本发明采用以下技术方案：

一种用于危险主机监测的主动机器学习系统，利用SIEM警报信息、各种安全日志和分析师的调查笔记来标记受破坏可能性高的主机。该系统包括数据收集、特征工程、标签产生、机器学习、主动学习分析师见解的反馈算法和实时报警等部分。所述六个部分顺次衔接，所述数据收集部分收集并整合企业网络中各类与安全相关的信息之后，传递给所述特征工程部分，所述特征工程部分对数据进行标准化处理和特征提取处理后，将提取的特征向量传递给所述机器学习部分作为输入数据，所述标签产生通过对安全分析师的调查笔记进行分析挖掘，提取主机的安全状态标签，传送给所述机器学习部分作为学习目标，所述机器学习部分通过运用包括深度信念网络在内的多种机器学习模型，从输入特征种学习得到主机的安全状态信息并对处于风险状态的主机进行标记；所述主动学习分析师见解的反馈算法能够自动地以增量的方式纳入安全分析师新的调查见解，并在此基础上更新机器学习模型；所述实时报警部分根据预先确定的报警策略，对达到报警要求的异常主机和进行报警，供安全处理中心进行安全审计。

1、数据收集

原始数据有三类：1、SIEM系统的报警信息；2、分析师的调查笔记；3、来自于不同安全防范技术的日志和源数据，这些安全防范技术包括以下至少一种：防火墙、入侵检测/防御系统，HTTP/FTP/ DNS流量，DHCP，漏洞扫描，Windows安全事件、VPN等。这些日志系统每天有TB字节的数据。其中，SIEM系统的报警信息具有如表1所列的关键要素：

表1 SIEM警报数据元素

分析师的调查“笔记”或注释通常以自由文本的形式存储。分析师的调查笔记包含说明每个报警是真阳性还是假阳性的信息，我们利用这类信息来为机器学习的数据集创建标签。

2、特征工程

原始数据中的字段不适于作为机器学习模型的输入。即使有一些机器学习算法，如DNN或DBN能够在隐藏层产生特征，我们也必须从原始数据中为输入层生成特征。下面介绍特征工程的执行步骤：

参见附图1，特征工程包括两个部分，一部分是从SIEM报警信息和各类日志信息中提取特征，主要包括数据标准化处理和特征提取两个步骤；另一部分是从安全分析师的分析笔记中提取主机安全状态标记，主要包括对调查笔记实施自然语言处理、文本挖掘和主机安全标记生成等步骤。

我们的主要目标是预测主机的风险，所以这些特征是基于单个主机层级来创建的。这些特征可分为以下四类：

总结性特征：这些特征可以从统计汇总信息中生成。例如，在过去24小时内发生“恶意软件感染无法修复”的事件数，或者在过去的7天里发生严重事件的数量(严重程度在7以上)。

·指标特征：这些特征是以二进制(0或1)的形式表示，例如，周末是否发生了“恶意软件无法修复”的事件。

·时间特征：这些功能包括时间信息，例如，安全事件到达率，考虑两个连续事件之间的时间间隔。

关系特征：这些特征来自社会图分析，例如，主机加权的PageRank 值由主机事件图计算而得。节点是主机或事件，主机和它的事件之间的关系用图中的边表示，边的权重是发生在该主机上的某个特定事件的数目。

3、标签生成

标签是通过对安全分析师的调查笔记进行数据挖掘而得到的，包括但不限于以下内容：

·初始背景：事件触发的原因；

·内部研究：来自于不同内部系统日志的支持信息；

·外部研究：来自于外部资源的支持信息，如IP地址的地理定位和声誉；

·调查结果：事件是否是非恶意的、假阳性的，或者是逐步升级的。

需要利用文本挖掘技术，如关键字/主题提取和情感分析技术等，来提取主机的实际状态。以下是一些文本挖掘的例子：

·主题1：“无法收集此警告的支持证据”，则从文本挖掘中得到的主机状态为“正常”。

·主题2：“主机与恶意域名的连接”，则从文本挖掘中得到的主机状态为“风险”。

·主题3：“检测到这个主机被高级恶意软件感染”，则从文本挖掘中得到的主机状态为“风险”。

最后，我们把从文本挖掘中得到的标签作为我们的机器学习模型的目标。最后的分析数据集将如表2所示：

表2最后的建模数据集的例子

主机ID	总结性特征1	指标特征2	时间特征3	关系特征4	…	标签
							主机1	13	1	0.65	5.17	…	1(风险)
主机2	25	0	2.74	9.34	…	1(风险)
							主机3	4	0	1.33	3.52	…	0(正常)

4、机器学习单元

机器学习单元，使用所输入的特征和学习所得的模型对事件进行评分、警报，并为分析师提供潜在的高风险主机列表，以便他们调查主机是否受到损害。机器学习单元使用一个或多个分类器用于学习，这些分类器包括但不限于以下所列：深度信念网络，深度神经网络，随机森林，boosted树，支持向量机和一般线性模型。

5、主动学习分析师见解的反馈算法

所述主动机器学习系统通过主动学习分析师见解的反馈算法，能够自动地以增量的方式纳入安全分析师新的调查见解，并在此基础上更新机器学习模型，这样就能够保证学习模型能够及时吸收新的数据模式，提高主机状态标注的准确性。

6、实时报警

所述主动机器学习系统通过实时报警部分，根据预先确定的报警策略，对达到报警要求的异常主机和进行报警，供安全处理中心进行安全审计。

参见附图2，一种用于危险主机监测的主动机器学习系统，其执行步骤如下：

1)初始化：利用历史的警报数据、日志数据和安全分析师的调查笔记，实施特征工程、标签生成和建立机器学习模型，开始对主机评分并标注风险主机，然后安全分析师们开始对这些被机器学习模型标记为危险状态的主机进行调查研究；

2)正常运行：系统完成初始化后，新的来自于SIEM系统的报警和日志数据就会连续不断地被传送到评分单元，以评估主机的风险，如果认为该主机具有足够高的风险，则对其进行风险标注。安全分析师在调查后会产生新的调查笔记。

3)主动学习和系统更新：在系统正常运行期间，新增加的警报数据、日志数据和安全分析笔记被连续发送到数据收集单元，在数据收集单元，这些新增的数据将与历史数据实现融合，然后利用这些融合后的数据，实施特征、标签更新，以及对机器学习模型实施更新优化。

4)循环运行：利用更新后的特征、标签和学习模型，执行步骤 2)所述过程，实现危险主机的准确检测。

功能和标签可以批量更新，也可以实时更新。优选的，机器学习模型与功能和标签保持相同的更新频率，并将更新后的模型及时部署到评分引擎，以确保能够捕获数据之中的最新模式。在这之后，风险评分实时生成，所以当有新的警报触发时，SOC分析师就可以立即对高风险的主机采取行动。

这样，通过上述执行步骤，包括从数据集成到分数生成，以及主动学习分析师调查产生的新见解的整个过程都已经实现了自动的流水化作业。

本发明的优点和有益效果为：与现有的技术相比，本发明基于现实的行业数据，通过数据收集整合、特征工程、标签生成、机器学习、反馈算法、实时报警等环节，实现对危险主机的检测、标注和报警。通过引入自然语言处理、文本挖掘技术，使得系统能够从安全分析师的调查笔记中及时学习新的见解；通过反馈更新算法，系统能够不断更新特征、标签，优化机器学习模型，保证机器学习系统能够及时吸纳新的学习见解和新的数据模式，并及时将新的学习成果用于危险主机检测，因而使系统具有很强的自适应性和学习主动性，随着系统运行时间的增加，对危险主机的检测准确性也会不断提高。通过本系统可以准确检测网络中的危险主机，大幅降低虚警率，兼顾了主机安全检测需求与SOC实际审查能力，使得重要的安全事件得到及时处理，在提高网络安全监测能力的同时，降低了人力成本。

附图说明

附图1是本发明所述的数据工程流程。

附图2是本发明所述的用于风险主机检测的主动机器学习系统工作流程图。

具体实施方式

下面结合实施例对本发明作进一步说明。

实施例

1、数据收集

原始数据有三类：1、SIEM系统的报警信息；2、分析师的调查笔记；3、来自于不同安全防范技术的日志和源数据，包括：防火墙、入侵检测/防御系统，HTTP/FTP/DNS流量，DHCP，漏洞扫描， Windows安全事件、VPN等。SIEM系统的报警信息具有如表1所列的关键要素。

2、特征工程

特征是基于单个主机层级来创建的。这些特征可分为以下四类：总结性特征、指标特征、时间特征和关系特征。

3、标签生成

·初始背景：事件触发的原因；

·内部研究：来自于不同内部系统日志的支持信息；

利用文本挖掘技术，如关键字/主题提取和情感分析技术等，来提取主机的实际状态。最后，我们把从文本挖掘中得到的标签作为我们的机器学习模型的目标。最后的分析数据集将如表2所示。

4、机器学习单元

机器学习单元，使用所输入的特征和学习所得的模型对事件进行评分、警报，并为分析师提供潜在的高风险主机列表，以便他们调查主机是否受到损害。机器学习单元使用深度信念网络、boosted树、支持向量机和一般线性模型。

5、主动学习分析师见解的反馈算法

自动地以增量的方式纳入安全分析师新的调查见解，并在此基础上更新机器学习模型，这样就能够保证学习模型能够及时吸收新的数据模式，提高主机状态标注的准确性。

6、实时报警

功能和标签均实时更新。机器学习模型与功能和标签保持相同的更新频率，并将更新后的模型及时部署到评分引擎，以确保能够捕获数据之中的最新模式。在这之后，风险评分实时生成，所以当有新的警报触发时，SOC分析师就可以立即对高风险的主机采取行动。

最后应说明的是：显然，上述实施例仅仅是为清楚地说明本发明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明的保护范围之中。

Claims

1.一种用于危险主机监测的主动机器学习系统，其特征在于：所述机器学习系统利用SIEM警报信息、各种安全日志和分析师的调查笔记来标记受破坏可能性高的主机；该系统包括数据收集、特征工程、标签产生、机器学习、主动学习分析师见解的反馈算法和实时报警六个部分；所述六个部分顺次衔接，所述数据收集部分收集并整合企业网络中各类与安全相关的信息之后，传递给所述特征工程部分，所述特征工程部分对数据进行标准化处理和特征提取处理后，将提取的特征向量传递给所述机器学习部分作为输入数据，所述标签产生部分通过对安全分析师的调查笔记进行分析挖掘，提取主机的安全状态标签，传送给所述机器学习部分作为学习目标，所述机器学习部分通过运用包括深度信念网络在内的多种机器学习模型，从输入特征中学习得到主机的安全状态信息并对处于风险状态的主机进行标记；所述主动学习分析师见解的反馈算法能够自动地以增量的方式纳入安全分析师新的调查见解，并在此基础上更新机器学习模型；所述实时报警部分根据预先确定的报警策略，对达到报警要求的异常主机和进行报警，供安全处理中心进行安全审计；

数据收集：原始数据有三类：1）、SIEM系统的报警信息；2）、分析师的调查笔记；3）、来自于不同安全防范技术的日志和源数据，安全防范技术包括以下至少一种：防火墙、入侵检测/防御系统，HTTP / FTP / DNS流量、DHCP、漏洞扫描、Windows安全事件、VPN；日志系统每天有TB字节的数据，其中，SIEM系统的报警信息具有下列的关键要素：描述主机ID的主机名称；事件-ID的安全事件；事件的时间戳；事件的严重程度；分析师的调查笔记以自由文本的形式存储；分析师的调查笔记包含说明每个报警是真阳性还是假阳性的信息，利用这类信息来为机器学习的数据集创建标签；

特征工程：特征工程包括两个部分，一部分是从SIEM报警信息和各类日志信息中提取特征，包括数据标准化处理和特征提取两个步骤；另一部分是从安全分析师的分析笔记中提取主机安全状态标记，包括对调查笔记实施自然语言处理、文本挖掘和主机安全标记生成步骤；

这些特征分为以下四类：

总结性特征：这些特征可以从统计汇总信息中生成；

指标特征：这些特征是以二进制0或1的形式表示；

时间特征：这些特征包括时间信息；

关系特征：这些特征来自社会图分析；

标签生成：所述标签生成部分采用自然语言处理和文本挖掘的方法，从自由文本格式的安全分析师调查笔记中生成主机标签；标签是通过对安全分析师的调查笔记进行数据挖掘而得到的，包括但不限于以下内容：

初始背景：事件触发的原因；

内部研究：来自于不同内部系统日志的支持信息；

外部研究：来自于外部资源的IP地址的地理定位和声誉支持信息；

调查结果：事件是否是非恶意的、假阳性的，或者是逐步升级的；

需要利用文本挖掘关键字/主题提取和情感分析技术，来提取主机的实际状态；

机器学习单元：机器学习单元，使用所输入的特征和学习所得的模型对事件进行评分、警报，并为分析师提供潜在的高危险主机列表，以便他们调查主机是否受到损害；机器学习单元使用一个或多个分类器用于学习，这些分类器包括但不限于以下所列：深度信念网络，深度神经网络，随机森林，boosted树，支持向量机和一般线性模型；

主动学习分析师见解的反馈算法：所述主动机器学习系统通过主动学习分析师见解的反馈算法，能够自动地以增量的方式纳入安全分析师新的调查见解，并在此基础上更新机器学习单元，保证机器学习单元能够及时吸收新的数据模式，提高主机状态标注的准确性；

实时报警：所述主动机器学习系统通过实时报警部分，根据预先确定的报警策略，对达到报警要求的异常主机和进行报警，供安全处理中心进行安全审计。

2.根据权利要求1 所述的一种用于危险主机监测的主动机器学习系统，其特征在于：在产生关系特征的方法中采用了主机和事件的加权PageRank图。

3.根据权利要求2所述的一种用于危险主机监测的主动机器学习系统，其特征在于：评分和模型刷新均实时或批量的方式完成，采取相同的更新频率，或采取不同的更新频率。

4.根据权利要求3所述的一种用于危险主机监测的主动机器学习系统，其特征在于，所述系统包括以下步骤：

1）初始化：利用历史的警报数据、日志数据和安全分析师的调查笔记，实施特征工程、标签生成和建立机器学习模型，开始对主机评分并标注危险主机，然后安全分析师们开始对这些被机器学习模型标记为危险主机进行调查研究；

2）正常运行：系统完成初始化后，新的来自于SIEM系统的报警和日志数据就会连续不断地被传送到评分单元，以评估主机的风险，如果认为该主机具有足够高的风险，则对其进行风险标注，安全分析师在调查后会产生新的调查笔记；

3）主动学习和系统更新：在系统正常运行期间，新增加的警报数据、日志数据和安全分析笔记被连续发送到数据收集单元，在数据收集单元，这些新增的数据将与历史数据实现融合，然后利用这些融合后的数据，实施特征、标签更新，以及对机器学习模型实施更新优化；

4）循环运行：利用更新后的特征、标签和学习模型，执行步骤2），实现危险主机的准确检测。