CN108920956B

CN108920956B - 基于情景感知的机器学习方法及系统

Info

Publication number: CN108920956B
Application number: CN201810718320.9A
Authority: CN
Inventors: 母志武; 徐业礼; 梁宇
Original assignee: Asiainfo Technologies (chengdu) Inc
Current assignee: Asiainfo Technologies (chengdu) Inc
Priority date: 2018-07-03
Filing date: 2018-07-03
Publication date: 2021-05-14
Anticipated expiration: 2038-07-03
Also published as: CN108920956A

Abstract

本发明的实施例提供一种基于情景感知的机器学习方法及系统，涉及信息安全技术领域，用于解决现有技术中采用机器学习模型检测未知威胁误报率较高的问题，该方法包括：获取文件的文件统计信息，根据文件统计信息确定用于进行机器学习检测的待检测文件；上述文件至少包括：静态文件以及进程文件；获取待检测文件的上下文情景信息以及待检测文件用于进行机器学习检测的机器学习模型文件特征；根据上下文情景信息确定用于检测待检测文件的机器学习模型，将机器学习模型文件特征输入机器学习模型以检测待检测文件是否存在未知威胁。本发明能够降低采用机器学习模型检测未知威胁的误报率，提升针对未知威胁的侦测率。

Description

基于情景感知的机器学习方法及系统

技术领域

本发明涉及信息安全技术领域，尤其涉及一种基于情景感知的机器学习方法及系统。

背景技术

随着数字科技的快速发展，网络安全威胁也随之快速增长，尤其是越来越多的病毒利用0-day漏洞(已经发现还未公开的漏洞)快速传播，使得病毒的变种速度以及数量与日骤增，如何应对网络安全威胁中的未知威胁面临严峻挑战。

目前，针对网络安全威胁的病毒检测可以基于特征码匹配或者采用机器学习模型检测来实现。实际情况中，基于特征码匹配的病毒检测是根据病毒样本提取特征码，并通过特征码匹配来检测已知病毒，虽然具有很低的误判率，但是无法应对利用0-day漏洞传播的未知病毒以及快速演变的病毒变种；机器学习模型是通过机器学习大量样本数据以对样本数据的特征达到泛化和推广，因此通过机器学习训练所得的机器学习模型用于病毒检测可以检测出未知威胁和病毒变种，但是由于受限于样本数据的范围规模和更新速度，机器学习模型用于病毒检测通常具有较高的误判率，这又使得机器学习模型可以检测未知威胁和病毒变种的能力受限，严重影响用户体验。

由此可见，如何降低机器学习模型检测未知威胁的误判率以应对日益增长的未知病毒变种速度以及数量，成为当今数字安全行业亟待解决的问题。

发明内容

本发明提供了一种基于情景感知的机器学习方法及系统，用于解决现有技术中采用机器学习模型检测未知威胁误报率较高的问题。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，提供一种基于情景感知的机器学习方法，包括：获取文件的文件统计信息，根据文件统计信息确定用于进行机器学习检测的待检测文件；其中，上述文件至少包括：静态文件以及进程文件；

获取待检测文件的上下文情景信息以及获取待检测文件用于进行机器学习检测的机器学习模型文件特征；

根据上下文情景信息确定用于检测待检测文件的机器学习模型，将机器学习模型文件特征输入上述机器学习模型以检测待检测文件是否存在未知威胁。

在本发明提供的基于情景感知的机器学习方法中，能够首先根据文件统计信息确定用于进行机器学习检测的待检测文件，然后根据获取到的待检测文件的上下文情景信息，选择适用于检测上述待检测文件的机器学习模型，并将获取到的待检测文件的机器学习模型文件特征输入上述机器学习模型以检测该待检测文件是否存在未知威胁。本发明能够根据待检测文件的上下文情景信息为对待检测文件选择在检测上更具针对性的机器学习模型，从而使利用机器学习模型检测待检测样本的检测过程更具针对性，有效降低了采用机器学习模型检测未知威胁误报率，同时提升了针对未知威胁的侦测率。

可选地，上下文情景信息至少包括：文件类型信息、文件时间信息、文件生成路径信息、以及文件特征信息。

可选地，文件时间信息至少包括根据文件统计信息确定的文件成熟度以及文件流行度。

可选地，获取文件的文件统计信息，根据文件统计信息确定用于进行机器学习检测的待检测文件具体为：

获取文件的文件摘要SHA1值以及文件日期信息，根据文件摘要SHA1值以及文件日期信息获取文件统计信息；

判断文件统计信息是否在预设阈值范围内，若是，则确定文件为用于进行机器学习检测的待检测文件。

可选地，根据上下文情景信息确定用于检测待检测文件的机器学习模型具体为：

预先在上下文情景信息与机器学习模型之间建立威胁检测映射表；

根据上下文情景信息以及威胁检测映射表确定用于检测待检测文件的机器学习模型。

可选地，方法还包括：

根据上下文情景信息调整威胁检测映射表，以调整上下文情景信息与机器学习模型之间的映射关系。

可选地，将机器学习模型文件特征输入机器学习模型以检测待检测文件是否存在未知威胁之后，方法还包括：

根据检测结果处理待检测文件；其中，当检测结果为待检测文件存在未知威胁时，对待检测文件进行以下各项当中的至少一种处理：阻止文件下载、删除文件附件和终止进程。

第二方面，提供一种基于情景感知的机器学习系统，包括：

文件确定模块，用于获取文件的文件统计信息，根据文件统计信息确定用于进行机器学习检测的待检测文件；其中，文件至少包括：静态文件以及进程文件；

获取模块，用于获取待检测文件的上下文情景信息以及获取待检测文件用于进行机器学习检测的机器学习模型文件特征；

模型确定模块，用于根据上下文情景信息确定用于检测待检测文件的机器学习模型；

检测模块，用于将机器学习模型文件特征输入机器学习模型以检测待检测文件是否存在未知威胁。

可选地，文件确定模块具体用于：

获取文件的文件摘要SHA1值以及文件日期信息；

根据文件摘要SHA1值以及文件日期信息获取文件统计信息；

可选地，模型确定模块具体用于：

可选地，机器学习系统还包括：

调整模块，用于根据上下文情景信息调整威胁检测映射表，以调整上下文件情景信息与机器学习模型之间的映射关系。

可选地，机器学习系统还包括：

处理模块，用于根据检测结果处理待检测文件；其中，当检测结果为待检测文件存在未知威胁时，对待检测文件进行以下各项当中的至少一种处理：阻止文件下载、删除文件附件、和终止进程。

可以理解地，本发明提供的基于情景感知的机器学习系统均用于执行上文所提供的第一方面对应的方法，因此，其所能达到的有益效果可参考上文第一方面的方法以及下文具体实施方式中对应的方案的有益效果，此处不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。

图1为本发明实施例提供的一种基于情景感知的机器学习方法的步骤流程图；

图2为本发明实施例提供的一种获取文件统计信息数据交互图；

图3为本发明实施例提供的另一种基于情景感知的机器学习方法的步骤流程图；

图4为本发明实施例提供的一种基于情景感知的机器学习系统的示意性结构图；

图5为本发明实施例提供的另一种基于情景感知的机器学习系统的示意性结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。术语“第一”和“第二”等的使用不表示任何顺序，可将上述术语解释为所描述对象的名称。在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。此外，在本申请实施例的描述中，除非另有说明，“多个”的含义是指两个或两个以上。

图1为本发明实施例提供的一种基于情景感知的机器学习方法的步骤流程图。如图1所示，该方法包括：

步骤S110：获取文件的文件统计信息，根据文件统计信息确定用于进行机器学习检测的待检测文件；其中，上述文件至少包括：静态文件以及进程文件。

具体地，静态文件可以是在客户端系统执行文件操作时生成或者获取的对应文件，例如从网站下载的网页文件、从邮件下载的邮件附件、Word或PDF的生成文件、或者手动扫描生成的扫描文件等等；进程文件可以是根据监测到的客户端系统中已启动的进程获取的对应的进程文件。

在获取文件统计信息时，优选从云端大数据系统获取文件统计信息，以通过不断更新云端大数据系统的数据库使查询文件统计信息具有较高的命中率和准确性。具体地，如图2所示，云端大数据系统数据库可以从第三方文件信息收集平台上收集文件信息，并通过云端文件数据处理中心对上述收集的文件信息进行分析和统计，以生成对应的分析统计数据。用户终端可以通过云端大数据系统数据库获取上述云端文件数据处理中心中对应的分析统计数据作为文件统计信息。其中，文件统计信息可以为在一定程度上可以表示文件的安全程度的文件大数据信息，例如文件信誉值、文件首次报告时间(能够代表文件成熟度，文件成熟度可以使用文件首次报告时间与当前系统时间之间的时间差来表示)、以及文件报告次数(代表文件流行度)等信息。其中，文件信誉值的高低可以反映文件的安全性，文件的文件信誉值越高，表明文件的安全性越高；文件信誉值越低，表明文件的安全性越低，越接近恶意文件。同样地，文件的文件成熟度以及文件流行度越高，文件的安全性越高，反之则越低，越接近恶意文件。

另外，文件统计信息中的部分信息还可以作为文件的上下文件情景信息(参见步骤S120中的对应介绍)以在后续步骤(对应步骤S130)中选择机器学习模型时使用。例如，文件统计信息中的文件首次报告时间可以代表文件成熟度以作为文件的上下文件情景信息，文件统计信息中的文件报告次数可以代表文件流行度以作为文件的上下文件情景信息等。当然，可以理解的是，上述所列举的文件统计信息仅仅是示例性的，具体实施中，文件统计信息包括但不限于上述所列举的信息。

由于文件统计信息在一定程度上可以表示文件的安全程度，因此可以用于初步判断文件的安全性，以筛选出安全性较低的可以用于进行机器学习检测的待检测文件。具体实施中，可以设置预设条件以对文件的文件统计信息的安全性进行判断，若文件统计信息不满足预设条件，则说明文件统计信息的安全性较低，则将该文件统计信息对应的文件确定为用于进行机器学习检测的待检测文件；反之，则说明文件统计信息的安全性较高，则不将该文件统计信息对应的文件确定为待检测文件。

其中，上述预设条件可以由本领域技术人员根据实际情况进行设置，本发明对上述预设条件不作限定。例如可以设置预设阈值以判断文件统计信息是否大于预设阈值或者是否在预设阈值范围内，若是，则判断文件统计信息满足预设条件，等等。

步骤S120：获取待检测文件的上下文情景信息以及获取待检测文件用于进行机器学习检测的机器学习模型文件特征。

文件的上下文情景信息具体可以为与文件的生成、使用以及文件自身属性相关的信息。具体实施中，文件的上下文情景信息至少可以包括文件类型信息、文件时间信息、文件生成路径信息、以及文件特征信息等等。

其中，文件类型信息可以包括文件的用户类型、以及文件签名等与文件类型或者文件标识相关的信息；文件时间信息可以包括文件流行度、以及文件成熟度等与文件产生时间相关的信息；文件生成路径信息可以包括表示文件生成相关路径的信息，例如若为网页文件，则文件生成路径信息可以为网页文件的生成路径；若为Word文件，则文件生成路径信息可以为Word文件的生成路径，等等；文件特征信息可以包括文件大小、文件修改时间、文件属性等与静态文件的文件特征相关的信息。

机器学习模型文件特征具体用于进行机器学习检测，针对静态文件，机器学习模型文件特征可以包括静态文件的文件大小信息、文件头信息(例如PE(PortableExecutable，可移植的可执行的文件)文件头中的字段信息)、分区表信息、输入输出函数信息，静态字符串、汇编指令信息、16进制编号字节统计数据等可以用来作为机器学习模型的特征输入以判断静态文件是否为恶意文件的机器学习模型文件特征。

针对进程文件对应的进程，可以监测并获取预设时间间隔内进程文件对应的进程的行为特征信息以作为进程的机器学习模型文件特征，其中，上述预设时间间隔可以由本领域技术人员根据实际情况进行设置，例如监测30s内进程的行为特征信息，本发明对预设时间间隔大小不作限定。上述行为特征信息具体可以包括：进程的注册表、进程的文件系统的访问数据、进程对系统API函数调用接口的访问数据，进程的网络使用数据等可以用来作为机器学习模型的特征输入以判定进程中是否存在恶意信息的行为特征信息。

步骤S130：根据上下文情景信息确定用于检测待检测文件的机器学习模型，将机器学习模型文件特征输入上述机器学习模型以检测待检测文件是否存在未知威胁。

具体地，由于上下文情景信息中可以包含如文件类型信息、文件时间信息、文件生成路径信息、文件特征信息等多种不同类型的上下文情景信息，而每种类型的上下文情景信息下的不同信息相互组合又可以形成多种信息组合，因此，根据上述每种信息组合中的上下文情景信息的特点，可以预先设置与上述每种信息组合对应的机器学习模型。如表1所示，当文件的生成路径为Word或者PDF生成的文件，可以根据表1中的对应关系采用比较激进的PE_Model-aggressive机器学习模型；针对Web下载的待检测文件，可以根据文件特征信息以及文件时间信息的不同分别采用PE_Model-conservative机器学习模型和PE_Model-aggressive机器学习模型，对PE文件和JS-Script文件分别采用不同的机器学习模型，对企业用户和个人用户可以通过定义不同的文件流行度和文件成熟度并采用相应的机器学习模型等。其中，表1中的流行度及本发明中提到的文件流行度；表1中的成熟度即本发明中提到的文件成熟度。

表1

具体实施中，设置与每种信息组合对应的机器学习模型的设置方式可以由本领域技术人员根据实际情况进行设置，例如可以预先根据上述每种信息组合的特点在上下文情景信息与机器学习模型之间建立威胁检测映射表，以根据上下文情景信息以及威胁检测映射表确定用于检测待检测文件的机器学习模型，本发明对设置与每种信息组合对应的机器学习模型的设置方式不作限定。

在本步骤中，根据步骤S120中获取的上下文情景信息，确定与该上下文情景信息下的信息组合对应的机器学习模型，并将待检测文件的机器学习模型文件特征输入上述机器学习模型以检测待检测文件是否存在未知威胁。

另外，在本步骤中，在待检测文件生成路径信息、文件特征信息以及文件类型信息无法改变的情况下，还可以通过调整文件统计信息来灵活调整待检测文使用的机器学习模型，例如将表1中待检测文件1的上下文情景信息中的文件时间信息中的成熟度由成熟度<7days调整为成熟度<30days，其它信息不变，则在根据表1确定待检测文件1对应的模型时，待检测文件1所对应的模型由PE_Model-conservative调整为PE_Model-aggressive。

由此可见，在本发明提供的基于情景感知的机器学习方法中，能够首先根据文件统计信息确定用于进行机器学习检测的待检测文件，然后根据获取到的待检测文件的上下文情景信息，选择适用于检测上述待检测文件的机器学习模型，并将获取到的待检测文件的机器学习模型文件特征输入上述机器学习模型以检测该待检测文件是否存在未知威胁。本发明能够根据待检测文件的上下文情景信息为对待检测文件选择在检测上更具针对性的机器学习模型，从而使利用机器学习模型检测待检测样本的检测过程更具针对性，有效降低了采用机器学习模型检测未知威胁误报率，同时提升了针对未知威胁的侦测率。

图3为示出了本发明提供的另一种基于情景感知的机器学习方法的步骤流程图。如图3所示，该方法包括：

步骤S310：获取文件的文件摘要SHA1值以及文件日期信息，根据文件摘要SHA1值以及文件日期信息获取文件统计信息。

具体地，本实施例中的文件包括静态文件以及进程文件，针对静态文件、进程文件以及文件统计信息的介绍具体可以参照步骤S110中的对应描述，此处不再赘述。其中，在本步骤中，可以在用户终端获得用户许可后获取文件的文件摘要SHA1值以及文件日期信息(例如文件的修改日期)，并将上述SHA1值以及文件日期信息发送给云端大数据系统数据库，以获取云端大数据系统数据库反馈的文件统计信息，文件统计信息中可以包括表示文件的安全程度的文件信誉值、文件流行度以及文件成熟度等相关信息。

其中，可选地，针对静态文件，在执行本步骤之前，还可以首先通过特征码扫描静态文件以初步判断静态文件是否感染病毒，若判断结果为静态文件感染病毒，则可以直接对该静态文件采取处理措施，例如阻止文件下载或者删除文件附件等等；否则进一步判断静态文件是否为进行机器学习检测的感兴趣的文件类型，若是，则获取文件的统计信息；否则结束流程。其中，进行机器学习检测的感兴趣的文件类型可以为PE文件、JS-Script文件等等。具体实施中，上述感兴趣的文件类型可以由本领域技术人员根据实际情况进行设置，本发明对此不作限定。针对进程文件，在监测到进程文件启动之后，可以首先获取进程文件的文件签名、生成时间等关于进程文件的文件特征的信息，并判断上述信息是否满足预设的信息条件，例如文件签名是否合法，生成时间是否满足预设时间要求等等，若判断结果为是，则获取进程文件的文件统计信息；否则结束流程。

具体地，表2示出了根据SHA1值以及文件日期信息从云端大数据系统数据库中获取的文件报告时间信息以及文件报告次数，文件报告时间信息中的文件首次报告时间代表了文件的成熟度(文件成熟度可以使用文件首次报告时间与当前系统时间之间的时间差来表示)，文件报告次数代表了文件的流行度。

表2

步骤S320：判断文件统计信息是否在预设阈值范围内，若是，则确定文件为用于进行机器学习检测的待检测文件。

具体地，可以仅针对文件统计信息中的一种信息进行判断，也可以针对文件统计信息中的多种信息同时进行判断。例如可以仅判断文件统计信息中的文件信誉值是否在文件信誉值的文件信誉值预设阈值范围内，若是，则确定该文件为用于进行机器学习检测的待检测文件；否则终止流程。或者也可以同时判断文件统计信息中的文件信誉值、文件流行度、以及文件成熟度等信息是否在与该文件统计信息对应的文件统计信息预设阈值范围内，若是，则确定该文件为用于进行机器学习检测的待检测文件；否则结束流程。

步骤S330：获取待检测文件的上下文情景信息以及获取待检测文件用于进行机器学习检测的机器学习模型文件特征。

本步骤的执行过程与步骤S120相同，具体可以参见步骤S120中的对应描述，此处不再赘述。

步骤S340：根据上下文情景信息确定用于检测待检测文件的机器学习模型，将机器学习模型文件特征输入机器学习模型以检测待检测文件是否存在未知威胁。

在本步骤中，可以预先根据上下文情景信息在上下文情景信息与机器学习模型之间建立威胁检测映射表，并根据步骤S330中获取的上下文情景信息，在威胁检测映射表上查找与上述获取的上下文情景信息对应的机器学习模型，将该机器学习模型作为待检测文件对应的机器学习模型，并将该待检测文件对应的机器学习模型文件特征输入该待检测文件对应的机器学习模型以检测待检测文件是否存在未知威胁。

步骤S350：根据检测结果处理待检测文件。

其中，若步骤S340检测结果为待检测文件存在未知威胁，则对该待检测文件进行相应的处理措施，否则结束流程。其中，对于静态文件采取的相应的处理措施可以包括阻止文件下载、删除文件附件等处理措施；对于进程文件采取的相应的处理措施可以包括终止进程等处理措施。可以理解的是，上述处理措施仅仅是示例性的，本发明中的处理措施包含不限于上述所列举的各项处理措施。

步骤S360：根据上下文情景信息调整威胁检测映射表，以调整上下文情景信息与机器学习模型之间的映射关系。

具体地，根据实际情况调整上下情景信息与机器学习模型在威胁检测映射表中的映射关系，以更加方便地对机器学习模型进行调优而不需要重新训练机器学习模型，使采用机器学习模型针对未知威胁检测的优化过程更为简便高效。

由此可见，在本发明提供的基于情景感知的机器学习方法中，能够首先根据文件统计信息确定用于进行机器学习检测的待检测文件，然后根据获取到的待检测文件的上下文情景信息，选择适用于检测上述待检测文件的机器学习模型，并将获取到的待检测文件的机器学习模型文件特征输入上述机器学习模型以检测该待检测文件是否存在未知威胁，以根据待检测文件的上下文情景信息为对待检测文件选择在检测上更具针对性的机器学习模型，从而使利用机器学习模型检测待检测样本的检测过程更具针对性，有效降低了采用机器学习模型检测未知威胁误报率，同时提升了针对未知威胁的侦测率。同时，本发明实施例还能够在检测结果为待检测文件存在未知威胁时及时对待检测文件执行相应的处理措施，以保护用户终端系统安全，另外，本发明还能够进一步调整上下文情景信息与机器学习模型之间的映射关系，以更加方便地对机器学习模型进行调优而不需要重新训练机器学习模型，使采用机器学习模型针对未知威胁检测的优化过程更为简便高效。

图4为示出了本发明提供的一种基于情景感知的机器学习系统的结构框图。如图4所示，该机器学习系统包括：

文件确定模块41用于获取文件的文件统计信息，根据文件统计信息确定用于进行机器学习检测的待检测文件；其中，文件至少包括：静态文件以及进程文件。文件确定模块41具体可以用于：

获取文件的文件摘要SHA1值以及文件日期信息；

根据文件摘要SHA1值以及文件日期信息获取文件统计信息；

获取模块42用于获取待检测文件的上下文情景信息以及获取待检测文件用于进行机器学习检测的机器学习模型文件特征。

其中，上下文情景信息至少包括：文件类型信息、文件时间信息、文件生成路径信息、以及文件特征信息。文件时间信息至少包括根据文件统计信息确定的文件成熟度以及文件流行度。

模型确定模块43用于根据上下文情景信息确定用于检测待检测文件的机器学习模型。模型确定模块43具体可以用于：

检测模块44用于将机器学习模型文件特征输入机器学习模型以检测待检测文件是否存在未知威胁。

可选地，基于情景感知的机器学习系统还包括：调整模块45以及处理模块46。

其中，调整模块45用于根据文件统计信息调整威胁检测映射表，以调整上下文件情景信息与机器学习模型之间的映射关系。

处理模块46用于根据检测结果处理待检测文件；其中，当检测结果为待检测文件存在未知威胁时，对待检测文件进行以下各项当中的至少一种处理：阻止文件下载、删除文件附件、和终止进程。

上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，其所能达到的有益效果可参考上文方法实施例的有益效果，其作用在此不再赘述。

在采用集成的模块的情况下，基于情景感知的机器学习系统包括：存储单元、处理单元以及接口单元。处理单元用于对基于情景感知的机器学习系统的动作进行控制管理，例如，处理单元用于支持基于情景感知的机器学习系统执行图1、3中的过程的各个步骤。接口单元用于支持基于情景感知的机器学习系统与其他装置的交互，例如与云端大数据系统数据库；存储单元，用于存储基于情景感知的机器学习系统程序代码和数据。

其中，以处理单元为处理器，存储单元为存储器，接口单元为通信接口为例。其中，基于情景感知的机器学习系统参照图5中所示，包括通信接口501、处理器502、存储器503和总线504，通信接口501、处理器502通过总线504与存储器503相连。

处理器502可以是一个通用中央处理器(Central Processing Unit，CPU)，微处理器，特定应用集成电路(Application-Specific IntegratedCircuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。

存储器503可以是只读存储器(Read-Only Memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(Random Access Memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器503用于存储执行本申请方案的应用程序代码，并由处理器502来控制执行。通讯接口501用于支持基于情景感知的机器学习系统与其他装置的交互，例如与云端大数据系统数据库。处理器502用于执行存储器503中存储的应用程序代码，从而实现本申请实施例中所述的方法。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者系统设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种基于情景感知的机器学习方法，其特征在于，包括：

获取文件的文件统计信息，根据所述文件统计信息确定用于进行机器学习检测的待检测文件；其中，所述文件至少包括：静态文件以及进程文件，所述文件统计信息至少包括：文件信誉度、文件首次报告时间以及文件报告次数；

获取所述待检测文件的上下文情景信息以及获取所述待检测文件用于进行机器学习检测的机器学习模型文件特征；

根据所述上下文情景信息确定用于检测所述待检测文件的机器学习模型，将所述机器学习模型文件特征输入所述机器学习模型以检测所述待检测文件是否存在未知威胁；

所述获取文件的文件统计信息，根据所述文件统计信息确定用于进行机器学习检测的待检测文件具体为：

获取所述文件的文件摘要SHA1值以及文件日期信息；

根据所述文件摘要SHA1值以及文件日期信息获取所述文件统计信息；

判断所述文件统计信息是否在预设阈值范围内，若是，则确定所述文件为用于进行机器学习检测的待检测文件；

所述上下文情景信息至少包括：文件类型信息、文件时间信息、文件生成路径信息、以及文件特征信息，其中，所述文件类型信息至少包括文件的用户类型和文件签名，所述文件时间信息至少包括文件流行度和文件成熟度，所述文件生成路径信息至少包括文件生成相关路径，所述文件特征信息至少包括文件大小、文件修改时间以及文件属性；

所述文件时间信息至少包括根据所述文件统计信息确定的文件成熟度以及文件流行度，其中，所述文件成熟度为所述文件首次报告时间与当前系统时间之间的时间差，所述文件流行度为所述文件报告次数。

2.根据权利要求1所述的基于情景感知的机器学习方法，其特征在于，所述根据所述上下文情景信息确定用于检测所述待检测文件的机器学习模型具体为：

预先在所述上下文情景信息与所述机器学习模型之间建立威胁检测映射表；

根据所述上下文情景信息以及所述威胁检测映射表确定用于检测所述待检测文件的机器学习模型。

3.根据权利要求2所述的基于情景感知的机器学习方法，其特征在于，所述方法还包括：

根据所述文件统计信息调整所述威胁检测映射表，以调整所述上下文情景信息与所述机器学习模型之间的映射关系。

4.根据权利要求1所述的基于情景感知的机器学习方法，其特征在于，所述将所述机器学习模型文件特征输入所述机器学习模型以检测所述待检测文件是否存在未知威胁之后，所述方法还包括：

根据检测结果处理所述待检测文件；其中，当检测结果为所述待检测文件存在未知威胁时，对所述待检测文件进行以下各项当中的至少一种处理：阻止文件下载、删除文件附件和终止进程。

5.一种基于情景感知的机器学习系统，其特征在于，包括：

文件确定模块，用于获取文件的文件统计信息，根据所述文件统计信息确定用于进行机器学习检测的待检测文件；其中，所述文件至少包括：静态文件以及进程文件，所述文件统计信息至少包括：文件信誉度、文件首次报告时间以及文件报告次数；

获取模块，用于获取所述待检测文件的上下文情景信息以及获取所述待检测文件用于进行机器学习检测的机器学习模型文件特征；

模型确定模块，用于根据所述上下文情景信息确定用于检测所述待检测文件的机器学习模型；

检测模块，用于将所述机器学习模型文件特征输入所述机器学习模型以检测所述待检测文件是否存在未知威胁；

所述文件确定模块具体用于：

获取所述文件的文件摘要SHA1值以及文件日期信息；

6.根据权利要求5所述的基于情景感知的机器学习系统，其特征在于，所述模型确定模块具体用于：

7.根据权利要求6所述的基于情景感知的机器学习系统，其特征在于，所述机器学习系统还包括：

调整模块，用于根据所述文件统计信息调整所述威胁检测映射表，以调整所述上下文情景信息与所述机器学习模型之间的映射关系。

8.根据权利要求5所述的基于情景感知的机器学习系统，其特征在于，所述机器学习系统还包括：

处理模块，用于根据检测结果处理所述待检测文件；其中，当检测结果为所述待检测文件存在未知威胁时，对所述待检测文件进行以下各项当中的至少一种处理：阻止文件下载、删除文件附件、和终止进程。