CN112507331A

CN112507331A - 一种模型训练方法、文件识别方法及电子装置

Info

Publication number: CN112507331A
Application number: CN202011410990.8A
Authority: CN
Inventors: 鲁玮克
Original assignee: Beijing ThreatBook Technology Co Ltd
Current assignee: Beijing ThreatBook Technology Co Ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2021-03-16

Abstract

本发明提供一种模型训练方法、文件识别方法及电子装置，所述模型训练方法包括：确定负样本及正样本，所述负样本由多个恶意文件形成，所述正样本由多个非恶意文件形成；确定所述负样本及正样本在分别经由沙箱运行过程中生成的动态行为签名，所述动态行为签名包括所述负样本或正样本被签名的动态行为信息；至少基于部分所述动态行为签名记载的信息以及所述负样本和负样本的原始数据确定训练数据；建立目标模型架构；基于所述训练数据训练所述目标模型架构，以形成用于识别文件为恶意文件或非恶意文件的文件识别模型。基于本发明提供的模型训练方法使得训练出的模型能够自动进行文件识别，判断文件是否为恶意文件，提升了识别效率及准确率。

Description

一种模型训练方法、文件识别方法及电子装置

技术领域

本发明实施例涉及计算机安全领域，特别涉及一种模型训练方法、文件识别方法及电子装置。

背景技术

沙箱是一种安全机制，为运行中的程序提供隔离环境，通常是作为一些来源不可信、具破坏力或无法判定程序意图的程序提供实验之用。

当待识别的文件被投递到沙箱后，文件将会被沙箱自动执行，与此同时，沙箱将记录及显示文件在虚拟环境中执行行为的日志，于是分析人员能够对上述行为日志进行分析，最终识别该文件是否属于恶意文件。使用机器学习模型，能够模拟分析人员对行为日志的分析过程，进而代替人工，实现恶意文件的自动识别。

恶意文件和非恶意文件在沙箱中的行为存在较为明显的区别：恶意文件一般会在系统执行多种敏感行为，如通过注册表、系统服务、计划任务等建立自启动项，实现驻留，又如通过注入系统其他进程的方式躲避检测等；而非恶意文件一般不存在类似的敏感行为。

当前，基于沙箱行为识别恶意文件多采用规则过滤的方式，如对指定的行为进行签名，并根据文件触发签名的次数或级别编写相关的规则，若符合该规则，则直接判定文件为恶意，该方式在国内外已有广泛应用。其过程包括：沙箱分析-行为签名收集-规则过滤-样本判定。

但是当前对于网络签名，大部分采用触发规则个数或等级来设置相关阈值，此方法虽然具有一定的通用性，但存在以下两个缺陷：

(1)相关阈值设置过高时，导致部分木马及恶意木马无法被检测，即漏报。

(2)相关阈值设置过低时，导致大批非恶意文件被识别为恶意文件，即误报。

(3)动态行为签名类型非常丰富，理论上难以通过人工编写出较为完备的规则，导致在迭代多轮的情况下，仍然只能覆盖一部分甚至一小部分实际场景，产出的规则可用性不强。

发明内容

为了解决上述技术问题，本发明实施例提供了一种模型训练方法，包括：

确定负样本及正样本，所述负样本由多个恶意文件形成，所述正样本由多个非恶意文件形成；

确定所述负样本及正样本在分别经由沙箱运行过程中生成的动态行为签名，所述动态行为签名包括所述负样本或正样本被签名的动态行为信息；

至少基于部分所述动态行为签名记载的信息以及所述负样本和负样本的原始数据确定训练数据；

建立目标模型架构；

基于所述训练数据训练所述目标模型架构，以形成用于识别文件为恶意文件或非恶意文件的文件识别模型。

作为优选，所述确定负样本及正样本，包括：

基于包含经沙箱进行分析处理并确定了文件识别结果的历史数据中获得第一数量的恶意文件以及第二数量的非恶意文件；

标注所述恶意文件为所述负样本；

标注所述非恶意文件为正样本。

作为优选，所述确定所述负样本及正样本在分别经由沙箱运行过程中生成的动态行为签名，包括：

确定所述负样本及正样本中各文件的原始数据及文件识别结果；

确定所述负样本及正样本在分别经由沙箱运行、分析所述原始数据过程中生成的动态行为签名；

基于所述原始数据、文件识别结果以及动态行为签名确定命中的所述动态行为签名及其记录的动态行为信息。

作为优选，所述至少基于部分所述动态行为签名记载的信息以及所述负样本和负样本的原始数据确定训练数据，包括：

基于特征工程至少对部分原始数据以及命中的所述动态行为签名中记录的动态行为信息进行特征提取及转化，以得到能够表征对应的动态行为恶意行为的特征数据；

至少基于所述特征数据以及与所述特征数据对应的文件的识别结果确定所述训练数据。

作为优选，所述建立目标模型架构，包括：

建立随机森林模型架构。

作为优选，所述基于所述训练数据训练所述目标模型架构，包括：

基于随机森林算法以及所述训练数据训练所述目标模型架构。

本发明同时提供一种文件识别方法，包括：

沙箱接收并处理目标文件；

文件识别模型接收所述沙箱的处理结果，并基于所述处理结果对所述目标文件进行文件识别，输出文件识别结果。

作为优选，所述沙箱接收并处理目标文件，包括：

接收所述目标文件；

运行并分析所述目标文件；

至少记录运行过程中被签名的动态行为信息；

基于特征工程处理所述被签名的动态行为信息，生成用于传输至所述文件识别模型中，并能够被所述文件识别模型识别的信息。

本发明还提供一种电子装置，包括：

处理模块，用于确定负样本及正样本，所述负样本由多个恶意文件形成，所述正样本由多个非恶意文件形成；确定所述负样本及正样本在分别经由沙箱运行过程中生成的动态行为签名，所述动态行为签名包括所述负样本或正样本被签名的动态行为信息；至少基于部分所述动态行为签名记载的信息以及所述负样本和负样本的原始数据确定训练数据；建立目标模型架构；基于所述训练数据训练所述目标模型架构，以形成用于识别文件为恶意文件或非恶意文件的文件识别模型。

本发明还提供一种电子装置，包括：

沙箱，用于接收并处理目标文件；

文件识别模型，用于接收所述沙箱的处理结果，并基于所述处理结果对所述目标文件进行文件识别，输出文件识别结果。

基于上述实施例的公开可以获知，本发明实施例具备的有益效果包括通过基于多个不同的样本数据以及在基于沙箱处理该样本数据时生成的动态行为签名构造训练数据，以基于该训练数据训练模型架构，得到能够快速准确地进行文件识别的模型，通过该模型能够实现对未知文件是否为恶意的自动化识别，不仅解决了传统的过滤方法中无法规避的漏报和误报情报，同时解决了人工编写不同签名规则时因覆盖度不够而致使漏报和误报的问题，大幅降低工作人员的操作量。另一方面，使用机器学习进行判定，模拟了人工判定的过程，显著提升了恶意文件的识别准确率以及识别效率。

附图说明

图1为本发明实施例中的模型训练方法的流程图。

图2为本发明实施例中的行为签名示意图。

图3为本发明实施例中的特征记录图。

图4为本发明实施例中的文件识别方法的流程图。

图5为本发明实施例中的文件识别方法的实际应用流程图。

图6为本发明实施例中的电子装置的结构框图。

图7为本发明另一实施例中的电子装置的结构框图。

具体实施方式

下面，结合附图对本发明的具体实施例进行详细的描述，但不作为本发明的限定。

应理解的是，可以对此处公开的实施例做出各种修改。因此，下述说明书不应该视为限制，而仅是作为实施例的范例。本领域的技术人员将想到在本公开的范围和精神内的其他修改。

包含在说明书中并构成说明书的一部分的附图示出了本公开的实施例，并且与上面给出的对本公开的大致描述以及下面给出的对实施例的详细描述一起用于解释本公开的原理。

通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述，本发明的这些和其它特性将会变得显而易见。

还应当理解，尽管已经参照一些具体实例对本发明进行了描述，但本领域技术人员能够确定地实现本发明的很多其它等效形式，它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。

当结合附图时，鉴于以下详细说明，本公开的上述和其他方面、特征和优势将变得更为显而易见。

此后参照附图描述本公开的具体实施例；然而，应当理解，所公开的实施例仅仅是本公开的实例，其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本公开模糊不清。因此，本文所公开的具体的结构性和功能性细节并非意在限定，而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本公开。

本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本公开的相同或不同实施例中的一个或多个。

下面，结合附图详细的说明本发明实施例。

如图1所示，本发明提供一种模型训练方法，包括：

确定负样本及正样本，负样本由多个恶意文件形成，正样本由多个非恶意文件形成；

确定负样本及正样本在分别经由沙箱运行过程中生成的动态行为签名，动态行为签名包括负样本或正样本被签名的动态行为信息；

至少基于部分动态行为签名记载的信息以及负样本和负样本的原始数据确定训练数据；

建立目标模型架构；

基于训练数据训练目标模型架构，以形成用于识别文件为恶意文件或非恶意文件的文件识别模型。

本实施例公开的上述技术方案具备的有益效果包括通过基于多个不同的样本数据以及在基于沙箱处理该样本数据时生成的动态行为签名构造训练数据，以基于该训练数据训练模型架构，得到能够快速准确地进行文件识别的模型，通过该模型能够实现对未知文件是否为恶意的自动化识别，不仅解决了传统的过滤方法中无法规避的漏报和误报情报，同时解决了人工编写不同签名规则时因覆盖度不够而致使漏报和误报的问题，大幅降低工作人员的操作量。另一方面，使用机器学习进行判定，模拟了人工判定的过程，显著提升了恶意文件的识别准确率以及识别效率。

具体地，本实施例中在确定负样本及正样本，包括：

标注恶意文件为负样本；

标注非恶意文件为正样本。

例如，可以在对基于包含经沙箱进行分析处理并确定了文件识别结果的历史数据进行数据收集及清洗的过程中，通过已确定文件识别结果为恶意/恶性的恶意文件进行积累，建立恶意文件库，然后将其余的非恶意文件汇总，也可建立一非恶意文件库，以方便后期训练数据的形成。接着，用户可以分别自恶意文件库及非恶意文件库中提取出例如2.5万个恶意文件和2.5万个非恶意文件(当然具体数量不唯一，上述的第一数量和第二数量可相同也可不同)，然后为了后续准确构建训练数据，需要对每个恶意文件及非恶意文件进行标注，例如对每个恶意文件标注为负样本，对每个非恶意文件标注为正样本。

进一步地，本实施例中在确定负样本及正样本在分别经由沙箱运行过程中生成的动态行为签名，包括：

确定负样本及正样本中各文件的原始数据及文件识别结果；

确定负样本及正样本在分别经由沙箱运行、分析原始数据过程中生成的动态行为签名；

基于原始数据、文件识别结果以及动态行为签名确定命中的动态行为签名及其记录的动态行为信息。

具体地，例如，首先确定出每个负样本及正样本的原始数据及文件识别结果，即恶意或非恶意。然后确定出每个样本分别经由沙箱运行、分析原始数据过程中生成的动态行为签名，并对其进行单独处理，以收集分别能够表征恶意行为的特征。最终使系统能够根据原始数据、文件识别结果以及动态行为签名确定命中的动态行为签名及其记录的动态行为信息，也即是，确定出被沙箱签名的动态行为确实为恶意行为的签名以及该签名记录的信息，具体可参见图2，基于该记录的信息能够确定该动态行为的具体名称以及在原始数据中的具体内容。

进一步地，本实施例中在至少基于部分动态行为签名记载的信息以及负样本和负样本的原始数据确定训练数据，包括：

基于特征工程至少对部分原始数据以及命中的动态行为签名中记录的动态行为信息进行特征提取及转化，以得到能够表征对应的动态行为恶意行为的特征数据；

至少基于特征数据以及与特征数据对应的文件的识别结果确定训练数据。

例如，在模型训练的准备阶段，可以使用特征工程技术，将对于模型的文件识别训练有帮助的数据进行提取和转化，作为数据集特征，例如可对各个样本的原始数据以及上述命中的动态行为签名中记录的动态行为信息进行特征提取，如提取出均能够表征对应的动态行为为恶意行为的特征数据，然后对该数据进行转化，形成如“是否建立隐藏进程”，“是否使用注册表进行开机自启动”，“是否删除自身”等字段，并将is_malicious(怀有恶意的)字段作为该提取出的各个特征的标签，提取完成后使用表格记录下来，具体可参考图3所示的表格。上述经特征工程提取及转化的特征可分割出一部分，例如10％，即5000个作为测试数据，该测试数据不会参与模型训练，仅用于后期模型训练完成的测试阶段及模型性能评估阶段使用。

优选地，本实施例中建立目标模型架构，包括：

建立随机森林模型架构。

基于训练数据训练目标模型架构，包括：

基于随机森林算法以及训练数据训练目标模型架构。

当然也可以采用其他分类模型架构及其他适用于分类模型的算法，例如贝叶斯、K近邻、支持向量机、基于关联规则、集成学习法等等。具体地，本实施例中选用的是经典的随机森林算法来基于训练数据对模型进行训练。其中，随机森林指的是利用多棵树对样本进行训练并预测的一种分类器，随机森林对于多种类型数据都能够产生高准确度的分类器，并且在处理大规模数据上也有良好的表现。其在具体实施过程中，能够随机生成多个分类器/模型，各自独立地学习和作出预测。这些预测最后通过投票的方式结合成单预测，即形成最终模型输出的预测结果。

进一步地，在文件识别模型训练完成后，可使用上述的测试数据来对训练后的模型进行评估及测试，经上述实施例所述方法训练后的模型，其准确率为89.64％，召回率为89.64％，故基于测试结果可确定该模型在实际场景中使用时可以达到预设要求，实现本实施例中要求快速准确地判别文件类型的技术效果。

如图4所示，本发明另一实施例同时提供一种文件识别方法，包括：

沙箱接收并处理目标文件；

文件识别模型接收沙箱的处理结果，并基于处理结果对目标文件进行文件识别，输出文件识别结果。

其中，沙箱接收并处理目标文件，包括：

接收目标文件；

运行并分析目标文件；

至少记录运行过程中被签名的动态行为信息；

基于特征工程处理被签名的动态行为信息，生成用于传输至文件识别模型中，并能够被文件识别模型识别的信息。

例如，如图5所示，对于新进入识别场景的文件，即新文件，首先可以将其投递到沙箱，使基于沙箱运行、分析该文件，并记录其动态行为，形成动态行为日志。待新文件运行完毕后，将生成的动态行为日志中的记录的信息进行如上文所述的一系列数据处理，使转化成后续文件识别模型所需要且能够识别的特征。之后将转化后的特征输入至文件识别模型中，使用模型对特征进行判定，即进行文件识别，最终生成识别结果。其中，结果的输出可简化为1或0，例如若识别结果为1，则为恶意文件，反之若为0，则为正常文件，即非恶意文件。

通过上述方法，本发明实施例可以将沙箱和文件识别模型进行结合使用，通过该模型可实现对未知文件是否为恶意的自动化识别，不仅解决了传统的过滤方法中无法规避的漏报和误报情报，同时解决了人工编写不同签名规则时因覆盖度不够而致使漏报和误报的问题，大幅降低工作人员的操作量。另一方面，使用机器学习进行判定，模拟了人工判定的过程，显著提升了恶意文件的识别准确率以及识别效率。

进一步地，如图6所示，本发明的另一实施例还提供一种电子装置，包括：

处理模块，用于确定负样本及正样本，负样本由多个恶意文件形成，正样本由多个非恶意文件形成；确定负样本及正样本在分别经由沙箱运行过程中生成的动态行为签名，动态行为签名包括负样本或正样本被签名的动态行为信息；至少基于部分动态行为签名记载的信息以及负样本和负样本的原始数据确定训练数据；建立目标模型架构；基于训练数据训练目标模型架构，以形成用于识别文件为恶意文件或非恶意文件的文件识别模型。

本发明实施例通过基于多个不同的样本数据以及在基于沙箱处理该样本数据时生成的动态行为签名构造训练数据，以基于该训练数据训练模型架构，得到能够快速准确地进行文件识别的模型，通过该模型能够实现对未知文件是否为恶意的自动化识别，不仅解决了传统的过滤方法中无法规避的漏报和误报情报，同时解决了人工编写不同签名规则时因覆盖度不够而致使漏报和误报的问题，大幅降低工作人员的操作量。另一方面，使用机器学习进行判定，模拟了人工判定的过程，显著提升了恶意文件的识别准确率以及识别效率。

作为优选地，确定负样本及正样本，包括：

标注文件识别结果为恶意的恶意文件为负样本；

标注文件识别结果为非恶意的非恶意文件为正样本。

作为优选地，确定负样本及正样本在分别经由沙箱运行过程中生成的动态行为签名，包括：

确定负样本及正样本中各文件的原始数据及文件识别结果；

作为优选地，至少基于部分动态行为签名记载的信息以及负样本和负样本的原始数据确定训练数据，包括：

作为优选地，建立目标模型架构，包括：

建立随机森林模型架构。

作为优选地，基于训练数据训练目标模型架构，包括：

基于随机森林算法以及训练数据训练目标模型架构。

进一步地，如图7所示，本发明的另一实施例还提供一种电子装置，包括：

沙箱，用于接收并处理目标文件；

文件识别模型，用于接收沙箱的处理结果，并基于处理结果对目标文件进行文件识别，输出文件识别结果。

其中，沙箱接收并处理目标文件，包括：

接收目标文件；

运行并分析目标文件；

至少记录运行过程中被签名的动态行为信息；

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种模型训练方法，包括：

建立目标模型架构；

2.根据权利要求1所述的方法，其中，所述确定负样本及正样本，包括：

标注文件识别结果为恶意的所述恶意文件为所述负样本；

标注文件识别结果为非恶意的所述非恶意文件为正样本。

3.根据权利要求1所述的方法，其中，所述确定所述负样本及正样本在分别经由沙箱运行过程中生成的动态行为签名，包括：

4.根据权利要求3所述的方法，其中，所述至少基于部分所述动态行为签名记载的信息以及所述负样本和负样本的原始数据确定训练数据，包括：

5.根据权利要求1所述的方法，其中，所述建立目标模型架构，包括：

建立随机森林模型架构。

6.根据权利要求1或5所述的方法，其中，所述基于所述训练数据训练所述目标模型架构，包括：

7.一种文件识别方法，包括：

沙箱接收并处理目标文件；

8.根据权利要求7所述的方法，其中，所述沙箱接收并处理目标文件，包括：

接收所述目标文件；

运行并分析所述目标文件；

至少记录运行过程中被签名的动态行为信息；

9.一种电子装置，包括：

10.一种电子装置，包括：

沙箱，用于接收并处理目标文件；