CN107577943A

CN107577943A - 基于机器学习的样本预测方法、装置及服务器

Info

Publication number: CN107577943A
Application number: CN201710806714.5A
Authority: CN
Inventors: 华元彬; 陈宇龙
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: 360 Technology Group Co Ltd
Priority date: 2017-09-08
Filing date: 2017-09-08
Publication date: 2018-01-12
Anticipated expiration: 2037-09-08
Also published as: CN107577943B

Abstract

本发明公开了一种基于机器学习的样本预测方法、装置、服务器及计算机存储介质，其中，该方法包括：针对待预测样本库中的每一个待预测样本，提取该待预测样本的特征，得到待预测样本的特征向量；存储所述待预测样本库中每一个待预测样本的特征向量；获取经训练得到的训练模型，利用所述训练模型扫描已存储的每一个待预测样本的特征向量，得到待预测样本的预测结果。根据本发明提供的方案，通过提取待预测样本的特征向量，并且每一次预测时都只需要利用训练模型去扫描已经提取的特征向量，而无需根据新的训练模型去扫描待预测样本全文，并且再次提取特征向量，因此本方案可以极大地提高扫描预测的速度。

Description

基于机器学习的样本预测方法、装置及服务器

技术领域

本发明涉及计算机技术领域，具体涉及一种基于机器学习的样本预测方法、装置、服务器及计算机存储介质。

背景技术

恶意程序通常是指带有攻击意图的一段程序，是编制者在计算机程序中插入破坏计算机功能或者破坏数据，影响计算机使用并且能够自我复制的一组计算机指令或者程序代码。

现有技术中，对于恶意程序的识别常用的手段是在程序文件的特定位置提取待识别程序的特征添加到病毒库中，并利用该病毒库进行识别，而由于对应不同的病毒库其所需提取的特征位置是不同的，因此，现有技术必须在每一次获取到新的病毒库之后，对程序文件重新扫描。但是，随着待识别样本数量增多，每次重新获取待识别样本全文，并进行扫描的过程将会耗时很长，该扫描方式受限制于待识别样本大小以及病毒库的大小，因而会极大降低从大量待识别样本中识别出恶意程序的速度，导致因识别不及时而对计算机功能或数据造成破坏的问题。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于机器学习的样本预测方法、装置、服务器及计算机存储介质。

根据本发明的一个方面，提供了一种基于机器学习的样本预测方法，该方法包括：

针对待预测样本库中的每一个待预测样本，提取该待预测样本的特征，得到待预测样本的特征向量；

存储待预测样本库中每一个待预测样本的特征向量；

获取经训练得到的训练模型，利用训练模型扫描已存储的每一个待预测样本的特征向量，得到待预测样本的预测结果。

可选地，提取该待预测样本的特征，得到待预测样本的特征向量进一步包括：

提取该待预测样本的至少一个特征；

对待预测样本的至少一个特征进行降维运算，得到待预测样本的特征向量。

可选地，待预测样本的特征包括：类行为特征、编译器特征和/或加壳特征。

可选地，存储待预测样本库中每一个待预测样本的特征向量具体为：将待预测样本库中所有待预测样本的特征向量分布存储到分布式集群中的数个节点中。

可选地，在利用训练模型扫描已存储的每一个待预测样本的特征向量之前，方法还包括：将训练模型置入分布式集群中的数个节点中；

利用训练模型扫描已存储的每一个待预测样本的特征向量具体为：数个节点并行地利用训练模型对节点中已存储的每一个待预测样本的特征向量进行扫描。

可选地，针对待预测样本库中的每一个待预测样本，提取该待预测样本的特征，得到待预测样本的特征向量具体为：针对待预测样本库中的每一个待预测样本，利用n种特征提取算法提取该待预测样本的n种特征，得到待预测样本的n组特征向量，其中一种特征对应一组特征向量；

获取经训练得到的训练模型，利用训练模型扫描已存储的每一个待预测样本的特征向量，得到待预测样本的预测结果进一步包括：

获取经训练得到的n个训练模型，其中一个训练模型对应一种特征；

利用n个训练模型分别扫描已存储的每一个待预测样本的对应的n组特征向量，得到待预测样本的n个预测结果；

将待预测样本的n个预测结果取并集，得到待预测样本的整体预测结果。

根据本发明的另一方面，提供了一种基于机器学习的样本预测装置，该装置包括：

提取模块，适于针对待预测样本库中的每一个待预测样本，提取该待预测样本的特征，得到待预测样本的特征向量；

存储模块，适于存储待预测样本库中每一个待预测样本的特征向量；

预测模块，适于获取经训练得到的训练模型，利用训练模型扫描已存储的每一个待预测样本的特征向量，得到待预测样本的预测结果。

可选地，提取模块进一步适于：

提取该待预测样本的至少一个特征；

可选地，存储模块进一步适于：将待预测样本库中所有待预测样本的特征向量分布存储到分布式集群中的数个节点中。

可选地，装置还包括：置入模块，适于将训练模型置入分布式集群中的数个节点中；

预测模块进一步适于：数个节点并行地利用训练模型对节点中已存储的每一个待预测样本的特征向量进行扫描。

可选地，提取模块进一步适于：针对待预测样本库中的每一个待预测样本，利用n种特征提取算法提取该待预测样本的n种特征，得到待预测样本的n组特征向量，其中一种特征对应一组特征向量；

预测模块进一步适于：

根据本发明的又一方面，提供了一种服务器，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；

存储器用于存放至少一可执行指令，可执行指令使处理器执行上述基于机器学习的样本预测方法对应的操作。

根据本发明的再一方面，提供了一种计算机存储介质，存储介质中存储有至少一可执行指令，可执行指令使处理器执行如上述基于机器学习的样本预测方法对应的操作。

根据本发明的基于机器学习的样本预测方法、装置、服务器及计算机存储介质，考虑到特征向量具有稳定性，通过提取待预测样本的特征向量，并且每一次预测时都只需要利用训练模型去扫描已经提取的特征向量就能预测出待预测样本库中的每一个待预测样本是否为恶意程序；而无需根据每次训练出的新的训练模型去扫描待预测样本全文，并且根据新的训练模型再次提取特征向量以进行待预测样本的扫描预测。即利用本方案，在待预测样本的特征向量的提取算法确定之后，特征向量只需要被计算一次就能够完成多次预测，并且特征向量的提取非常耗时，因此本方案可以极大的提高扫描预测的速度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的基于机器学习的样本预测方法的流程图；

图2示出了根据本发明另一个实施例的基于机器学习的样本预测方法的流程图；

图3示出了根据本发明又一个实施例的基于机器学习的样本预测方法的流程图；

图4示出了根据本发明一个实施例的基于机器学习的样本预测装置的功能框图；

图5示出了根据本发明另一个实施例的基于机器学习的样本预测装置的功能框图；

图6示出了根据本发明的一种服务器的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明方案中，只需要针对待预测样本库中的每一个待预测样本提取一次待预测样本的特征向量，由于提取的待预测样本的特征向量已包含足够多的待预测样本的特征信息，即使训练模型发生改变，仍然可以用已提取的待预测样本的特征向量进行预测，而不需要根据训练模型重新提取待预测样本的特征向量，因此就能利用一次提取的特征向量完成对同一待预测样本库中的待预测样本的多次预测，提高扫描预测的速度；并且，本发明方案中对待预测样本的特征向量进行扫描，而非对待预测样本全文进行扫描的方式也能够提高预测速度，实践证明，单机扫描样本全文较快的速度为100个每秒，而单机扫描特征向量较快的速度为1万个每秒，相当于扫描特征向量的速度为扫描样本全文的速度的100倍。

图1示出了根据本发明一个实施例的基于机器学习的样本预测方法的流程图。如图1，该方法包括以下步骤：

步骤S101，针对待预测样本库中的每一个待预测样本，提取该待预测样本的特征，得到待预测样本的特征向量。

在只是获取到一个数量较大的待预测样本库，而并不明确该待预测样本库中的每一个待预测样本是否为恶意程序时，或者在训练模型更新后，不确定该待预测样本库中的每一个待预测样本是否为更新后的训练模型所命中时，需要对每一个待预测样本进行重新扫描预测，可以说，随着训练模型的不断更新，对待预测样本库中的待预测样本进行扫描预测是一个持续的过程。本实施例中，只需在第一次获取训练样本经训练得到的训练模型之前，提取一次待预测样本的特征向量即可完成持续的预测。

具体地，分析每一个待预测样本的程序文件，从程序文件中提取能够表示该程序文件的足够多的信息的特征，例如表示待预测样本的行为功能的特征，并根据所提取的特征生成特征向量。

步骤S102，存储待预测样本库中每一个待预测样本的特征向量。

存储待预测样本库中的所有待预测样本的特征向量，以供后续扫描预测时能够直接获取。

步骤S103，获取经训练得到的训练模型，利用训练模型扫描已存储的每一个待预测样本的特征向量，得到待预测样本的预测结果。

具体地，训练模型的训练过程可以为：分析每一个训练样本的可执行程序文件，提取程序文件的特征，根据所提取的特征生成每一个训练样本的特征向量，将所有训练样本的特征向量和黑白属性使用对应的决策机进行训练，训练的方式可以选择使用支持向量机的决策机进行训练，或使用决策树的决策机进行训练，经过训练得到用于对待预测样本进行扫描预测的训练模型，其中，训练模型可以为带编码的训练模型、或压缩的训练模型。

在得到经训练得到的训练模型之后，利用训练模型去扫描每一个待预测样本的特征向量，对特征向量进行匹配识别，得到对应特征向量的待预测样本的预测结果。

本实施例中，在对训练样本进行更新之后，需要重新提取特征向量，再次根据所有训练样本的特征向量和黑白属性进行训练，得到用于对待预测样本进行扫描预测的新的训练模型，利用该新的训练模型去扫描第一次预测前提取的每一个待预测样本的特征向量，对特征向量进行重新匹配识别，可以得到对应特征向量的待预测样本的新的预测结果。

本实施例提供的基于机器学习的样本预测方法，通过一次提取待预测样本库中每一个待预测样本的特征，其中，该特征包含了待预测样本足够多的特征信息，根据提取的特征生成每一个待预测样本的特征向量，这样就使得每一个特征向量能够表示对应待预测样本的较完整的特征信息；并将提取的待预测样本的特征向量进行存储，便于持续扫描预测过程中能够直接获取特征向量；每一次扫描预测时都利用经训练得到的训练模型对已存储的每一个待预测样本的特征向量进行扫描，而不必根据训练得到的训练模型去扫描待预测样本全文并重新提取每一个待预测样本的特征向量，即整个持续预测的过程中，只需要进行一次待预测样本的特征向量的提取计算，而又由于扫描待预测样本全文以及提取特征向量是一个非常耗时的过程，因而本方案能够缩减提取特征向量的时间，极大的提高扫描预测的速度。

图2示出了根据本发明另一个实施例的基于机器学习的样本预测方法的流程图。如图2，该方法包括以下步骤：

步骤S201，针对待预测样本库中的每一个待预测样本，提取该待预测样本的特征，得到待预测样本的特征向量。

本实施例中，提取的待预测样本的特征能够表示待预测样本的足够多的特征信息。具体地，提取该待预测样本的至少一个特征，对待预测样本的至少一个特征进行降维运算，得到待预测样本的特征向量。实际中，提取的待预测样本的程序文件的特征往往是高维数据，高维数据带来的最大问题就是占用存储空间、运行速度慢，从而导致对高维数据的存储或处理的效率低下，因此，对提取到的特征进行降维处理，不仅可以节省储存空间，还能够提高扫描预测的速度。在本发明的一个具体实施例中，降维运算的算法具体为：PCA算法、LDA算法或LLE算法。

本实施例中，提取的样本的特征能够表示样本的足够多的特征信息，从而保证在循环查找关联样本的过程中，只需进行一次特征向量的计算，以达到提高查找速度的目的。在本发明的一个具体实施例中，待预测样本的特征包括：类行为特征、编译器特征和/或加壳特征。

其中，类行为特征可以从整体上分为导入表库特征和导入表API(ApplicationProgramming Interface，应用程序编程接口)特征。具体地，对于导入表库特征和导入表API特征描述如下：

1、导入表库特征

导入表导入的动态库通常具有特别的功能，能表示程序本身可能达到的功能。例如，导入表库WS2_32.DLL的程序一般表示需要进行联网操作。因此，通过检查导入表的导入库名，可以预先选择常见恶意程序使用的动态库若干。具体的，可以为这些动态库建立HASH(哈希)表，即把所选择动态库特征字符串归一后，计算一个HASH值，并根据所计算的HASH值建立HASH表，后续对于输入的未知程序可以在提取其导入表后，查找该HASH表来确定导入表特征，以达到确定其是否为恶意程序的目的。

举例来说，该导入表库类特征可以进一步细分为如下特征类型：

1)网络类特征(包括RPC)，示例如下：

DNSAPI.DLL

MSWSOCK.DLL

NDIS.SYS

NETAPI32.DLL

WININET.DLL

WSOCK32.DLL

WS2_32.DLL

MPR.DLL

RPCRT4.DLL

URLMON.DLL

2)高级Win32应用程序接口类特征，示例如下：

ADVAPI32.DLL

3)系统内核类特征，示例如下：

KERNEL32.DLL

NTDLL.DLL

NTOSKRNL.EXE

4)Windows用户界面相关应用程序接口类特征，示例如下：

USER32.DLL

5)Windows应用程序公用GUI图形用户界面模块类特征，示例如下：

COMCTL32.DLL

GDI32.DLL

GDIPLUS.DLL

6)Windows硬件提取层模块类特征，示例如下：

HAL.DLL

7)Microsoft MCF Library类特征，示例如下：

MFC42.DLL

8)微软Microsoft Visual Basic虚拟机相关模块类特征，示例如下：

MSVBVM60.DLL

9)标准的C运行库程序类特征，示例如下：

MSVCP60.DLL

MSVCR71.DLL

MSVCRT.DLL

10)对象链接和嵌入相关模块类特征，示例如下：

OLE32.DLL

OLEAUT32.DLL

11)Windows系统进程状态支持模块类特征，示例如下：

PSAPI.DLL

12)Windows的32位外壳动态链接库文件类特征，示例如下：

SHELL32.DLL

13)UNC和URL地址动态链接库文件类特征，用于注册键值和色彩设置，示例如下：

SHLWAPI.DLL

2、导入表API特征

导入表API特征为从所述导入表库中选取的函数特征，这些函数可以进一步说明程序的行为功能。具体归一格式如下：

DLLNAME！APINAME

DLLNAME统一转成大写，如ADVAPI32.DLL！AddAccessAllowedAce

对于高级Win32应用程序接口类特征ADVAPI32.DLL，可以进一步选取其函数特征示例如下：

ADVAPI32.DLL！AddAccessAllowedAce

ADVAPI32.DLL！AddAce

ADVAPI32.DLL！AdjustTokenPrivileges

ADVAPI32.DLL！AllocateAndInitializeSid

ADVAPI32.DLL！ChangeServiceConfig2A

ADVAPI32.DLL！ChangeServiceConfig2W

ADVAPI32.DLL！CheckTokenMembership

ADVAPI32.DLL！CloseServiceHandle

ADVAPI32.DLL！ControlService

ADVAPI32.DLL！ConvertSidToStringSidW

又例如，对于Windows应用程序公用GUI图形用户界面模块类特征COMCTL32.DLL，可以进一步选取其函数特征示例如下：

COMCTL32.DLL！13

COMCTL32.DLL！14

COMCTL32.DLL！17

COMCTL32.DLL！CreatePropertySheetPageA

COMCTL32.DLL！DestroyPropertySheetPage

COMCTL32.DLL！FlatSB_GetScrollInfo

COMCTL32.DLL！FlatSB_SetScrollInfo

COMCTL32.DLL！FlatSB_SetScrollPos

COMCTL32.DLL！ImageList_Add

COMCTL32.DLL！ImageList_AddMasked

上述仅是示例性的描述，对于每种具体的导入表库特征对应的函数特征不再一一赘述。

编译器特征具体包括：VC4、VC5、VC6、VC7、VC8、Delphi以及BC。

加壳特征具体包括：UPX、NSPack、ASPack、UPack以及PECompact。

步骤S202，将待预测样本库中所有待预测样本的特征向量分布存储到分布式集群中的数个节点中。

由于待预测样本库中的待预测样本的数量可能会非常大，可能出现单机根本就无法存储的情况，并且若在扫描预测时，对待预测样本的特征向量一个接一个串行的进行预测识别，那么将会非常耗时，会导致预测不及时，本实施例中，利用分布式集群能够通过各个存储节点分担存储压力，并能够对其存储的各个节点的数据进行并行处理的优势，将待预测样本库中所有待预测样本的特征向量分布存储到分布式集群中的数个节点中，例如HBase或Hadoop分布式系统。

具体地，将所有待预测样本的特征向量存储在分布式集群的数个节点中，保证每个节点中存储的特征向量的数量均衡，并且具体存储到多少节点中还要考虑到对扫描预测速度的要求；在扫描预测时，可以让分布式集群的各个节点同时进行预测。这样就既能满足存储的需求，又能满足预测速度的要求。

步骤S203，获取经训练得到的训练模型，将训练模型置入分布式集群中的数个节点中。

为了便于预测时对特征向量的预测识别，并且考虑到待预测样本的数量较大，本实施例中，选择将得到的训练模型置入分布式集群中存储有待预测样本的特征向量的节点中进行预测识别，而不是将待预测样本的特征向量从存储系统中取出来进行预测识别。

步骤S204，数个节点并行地利用训练模型对节点中已存储的每一个待预测样本的特征向量进行扫描。

分布式集群中的每一个存储有待预测样本的特征向量的节点并行的利用训练模型进行特征预测识别，预测出对应特征向量的待预测样本的黑白属性。

本实施例中，在对训练样本进行更新之后，需要重新提取特征向量，再次根据所有训练样本的特征向量和黑白属性进行训练，得到用于对待预测样本进行扫描预测的新的训练模型，将该新的训练模型置入分布式集群中的数个节点中，利用该新的训练模型去扫描存储在分布式集群中的每一个待预测样本的特征向量，对特征向量进行预测识别，得到对应特征向量的待预测样本的新的预测结果，例如对应新的病毒库时，待预测样本的黑白属性。

本实施例提供的基于机器学习的样本预测方法，通过一次提取待预测样本库中每一个待预测样本的特征，其中，该特征包含了待预测样本足够多的特征信息，利用降维算法对特征进行降维处理，在节省存储空间的同时提高了扫描预测的速度，根据经降维处理后的特征生成每一个待预测样本的特征向量，这样就使得每一个特征向量能够表示对应待预测样本的较完整的特征信息；并将提取的待预测样本的特征向量存储在分布式集群中的数个节点中，这样不仅能够满足存储的需求，还能够实现对数个节点中的特征向量进行并行扫描预测，因而能够提高预测的速度；将训练模型置入分布式集群中的数个节点中，这样的方式比将特征向量从存储系统中取出来进行处理更方便以及更节省时间；每一次扫描预测时都利用经训练得到的训练模型对数个节点中的待预测样本的特征向量进行扫描，而不必根据训练得到的训练模型去扫描待预测样本全文并重新提取每一个待预测样本的特征向量，即整个持续预测的过程中，只需要进行一次待预测样本的特征向量的提取计算，而又由于扫描待预测样本全文以及提取特征向量是一个非常耗时的过程，因而本方案能够缩减提取特征向量的时间，极大的提高扫描预测的速度，实践证明，其扫描预测速度，在分布式集群有1600个节点的情况下，可以达到1.2小时扫描100亿个样本的特征向量。

图3示出了根据本发明又一个实施例的基于机器学习的样本预测方法的流程图。本实施例主要是针对采用多种特征提取算法提取待预测样本的特征，并对每种方式提取出的特征均进行预测的方案。如图3所示，该方法包括以下步骤：

步骤S301，针对待预测样本库中的每一个待预测样本，利用n种特征提取算法提取该待预测样本的n种特征，得到待预测样本的n组特征向量，其中一种特征对应一组特征向量。

分析每一个待预测样本的程序文件，从程序文件中提取能够表示该程序文件的足够多的信息的特征，并根据所提取的特征生成特征向量。

本实施例中，为使预测更为精确，采用n种特征提取算法，一种特征提取算法能够提取出一种特征，对应n种特征提取算法提取每一个待预测样本n种特征，其中，一种特征包含至少一子类特征，对每一种特征都进行降维处理，处理后得到每一个待预测样本的n组特征向量，其中一种特征对应一组特征向量。

步骤S302，将待预测样本库中所有待预测样本的特征向量分布存储到分布式集群中的数个节点中。

将m个待预测样本的m*n组特征向量均存储到分布式集群中的数个节点中。可选地，按照存储需求以及预测速度的需求，将同一种特征的特征向量存储在相同的节点中；同时，为了便于训练模型的置入以及扫描，将由不同种特征提取算法得到的特征向量放在不同的节点中。以待预测样本库中有1000个待预测样本，并且采用3种特征提取算法提取到3种特征为例，假设分布式集群中有30个节点，则一种优选的存储方式是在第1至10个节点中存储由第一种特征提取方式提取的1000个待预测样本的特征对应的特征向量，在第11至20个节点中存储由第二种特征提取方式提取的1000个待预测样本的特征对应的特征向量，在第21至30个节点中存储由第三种特征提取方式提取的1000个待预测样本的特征对应的特征向量，并且每个节点中存储100个特征向量。

步骤S303，获取经训练得到的n个训练模型，其中一个训练模型对应一种特征。

具体地，分析每一个训练样本的可执行程序文件，采用与提取待预测样本的特征对应的提取算法提取每一个训练样本的特征，即需要采用n种特征提取算法提取每一个训练样本的n种特征，其中，每一种特征包含能够表示训练样本的较完善的特征信息的至少一子类特征；根据所提取的特征以及特征的子类别生成每一个训练样本的特征向量，则对应一种特征生成每一个训练样本的一组特征向量，将所有训练样本由同一种特征提取算法得到的特征向量和黑白属性使用对应的决策机进行训练，经过训练得到用于对待预测样本进行扫描预测的训练模型，即将不同特征提取算法得到程序文件的特征向量和特征向量的黑白属性使用不同的决策机进行训练，得到相应的训练模型，则n种特征提取算法对应有n个训练模型。

步骤S304，将n个训练模型置入分布式集群中的数个节点中。

本步骤中，将训练模型置入分布式集群中存储有待预测样本的特征向量的节点中的方式可以包括：将n个训练模型置入所有存储有待预测样本的特征向量的节点中，或者将n个训练模型分别置入存储有对应的特征提取算法获得的特征向量的节点中。

以3个训练模型为例，其中，第1个训练模型为第一种特征提取算法提取的特征经训练得到的训练模型，第2个训练模型为第二种特征提取算法提取的特征经训练得到的训练模型，第3个训练模型为第三种特征提取算法提取的特征经训练得到的训练模型，并结合1000个待预测样本的例子，则将3个训练模型均置入第1至30个节点中，或者将第1个训练模型置入第1至10个节点中，第2个训练模型置入第11至20个节点中，第3个训练模型置入第21至30个节点中。显然，前者能够简化置入的过程，只需将所有的训练模型置入所有存储有特征向量的节点中即可；而后者则更有利于扫描预测，只需用节点中唯一的训练模型去扫描预测即可。

步骤S305，利用n个训练模型分别扫描已存储的每一个待预测样本的对应的n组特征向量，得到待预测样本的n个预测结果。

具体地，利用每一个训练模型去扫描对应该训练模型的每一个待预测样本的特征向量，对于一个待预测样本而言，n个训练模型一一对应该待预测样本的n组特征向量进行扫描，则可以得到该待预测样本的n个预测结果。

步骤S306，将待预测样本的n个预测结果取并集，得到待预测样本的整体预测结果。

通过一个待预测样本的n个预测结果确定该待预测样本的黑白属性。具体地，由于某些程序表现为恶意程序的特征集中在某一种或几种特征上，只要这一种或几种特征对应的特征向量预测出为黑属性，则可以确定该待预测样本的属性为黑，因此，可以将待预测样本的n个预测结果直接取并集，或者依据各种特征对属性的影响大小确定一个权重，将每个预测结果赋予对应的权重，再由n个预测结果取并集。上述两种方式，均将并集的结果作为对应的待预测样本的预测结果，即待预测样本的黑白属性。

本实施例提供的基于机器学习的样本预测方法，通过n种不同的特征提取算法一次提取待预测样本库中每一个待预测样本的n组特征，其中，该特征包含了待预测样本足够多的特征信息，利用降维算法对特征进行降维处理，在节省存储空间的同时提高了扫描预测的速度，根据经降维处理后的特征生成每一个待预测样本的特征向量，这样就使得每一个特征向量能够表示对应待预测样本的较完整的特征信息；并将提取的待预测样本的特征向量存储在分布式集群中的数个节点中，这样不仅能够满足存储的需求，还能够实现对数个节点中的特征向量进行并行扫描预测，因而能够提高预测的速度；将训练模型置入分布式集群中的数个节点中，这样的方式比将特征向量从存储系统中取出来进行处理更方便以及更节省时间；利用n个训练模型分别扫描已存储的每一个待预测样本的对应的n组特征向量，得到待预测样本的n个预测结果，将待预测样本的n个预测结果取并集，得到待预测样本的整体预测结果，这种通过n种特征的预测结果来确定待预测样本的属性的方式能够提高预测的精确性；并且本方案也只需针对不同的提取算法进行一次特征向量的提取计算，无需在每次扫描时扫描待预测样本全文，并重新提取特征向量，因而本方案能够缩减提取特征向量的时间，极大的提高扫描预测的速度。

图4示出了根据本发明一个实施例的基于机器学习的样本预测装置的功能框图。如图4所示，该装置包括：提取模块401，存储模块402以及预测模块403。

提取模块401，适于针对待预测样本库中的每一个待预测样本，提取该待预测样本的特征，得到待预测样本的特征向量。

存储模块402，适于存储待预测样本库中每一个待预测样本的特征向量。

预测模块403，适于获取经训练得到的训练模型，利用训练模型扫描已存储的每一个待预测样本的特征向量，得到待预测样本的预测结果。

根据本发明的基于机器学习的样本预测装置，考虑到特征向量具有稳定性，通过提取待预测样本的特征向量，并且每一次预测时都只需要利用训练模型去扫描已经提取的特征向量就能预测出待预测样本库中的每一个待预测样本是否为恶意程序；而无需根据每次训练出的新的训练模型去扫描待预测样本全文，并且根据新的训练模型再次提取特征向量以进行待预测样本的扫描预测。即利用本方案，在待预测样本的特征向量的提取算法确定之后，特征向量只需要被计算一次就能够完成多次预测，并且特征向量的提取非常耗时，因此本方案可以极大的提高扫描预测的速度。

图5示出了根据本发明另一个实施例的基于机器学习的样本预测装置的功能框图。如图5所示，该装置在图4所示的装置的基础上，还包括置入模块501。

置入模块501，适于将训练模型置入分布式集群中的数个节点中。

提取模块401进一步适于：提取该待预测样本的至少一个特征；

其中，待预测样本的特征包括：类行为特征、编译器特征和/或加壳特征。

存储模块402进一步适于：将待预测样本库中所有待预测样本的特征向量分布存储到分布式集群中的数个节点中。

预测模块403进一步适于：数个节点并行地利用训练模型对节点中已存储的每一个待预测样本的特征向量进行扫描。

在本发明另一个实施例中，提取模块401进一步适于：针对待预测样本库中的每一个待预测样本，利用n种特征提取算法提取该待预测样本的n种特征，得到待预测样本的n组特征向量，其中一种特征对应一组特征向量；

预测模块403进一步适于：获取经训练得到的n个训练模型，其中一个训练模型对应一种特征；

本实施例提供的基于机器学习的样本预测装置，通过一次提取待预测样本库中每一个待预测样本的特征，其中，该特征包含了待预测样本足够多的特征信息，利用降维算法对特征进行降维处理，在节省存储空间的同时提高了扫描预测的速度，根据经降维处理后的特征生成每一个待预测样本的特征向量，这样就使得每一个特征向量能够表示对应待预测样本的较完整的特征信息；并将提取的待预测样本的特征向量存储在分布式集群中的数个节点中，这样不仅能够满足存储的需求，还能够实现对数个节点中的特征向量进行并行扫描预测，因而能够提高预测的速度；将训练模型置入分布式集群中的数个节点中，这样的方式比将特征向量从存储系统中取出来进行处理更方便以及更节省时间；每一次扫描预测时都利用经训练得到的训练模型对数个节点中的待预测样本的特征向量进行扫描，而不必根据训练得到的训练模型去扫描待预测样本全文并重新提取每一个待预测样本的特征向量，即整个持续预测的过程中，只需要进行一次待预测样本的特征向量的提取计算，而又由于扫描待预测样本全文以及提取特征向量是一个非常耗时的过程，因而本方案能够缩减提取特征向量的时间，极大的提高扫描预测的速度。

本申请实施例提供了一种非易失性计算机存储介质，计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的基于机器学习的样本预测方法。

图6示出了根据本发明的一种服务器的结构示意图，本发明具体实施例并不对服务器的具体实现做限定。

如图6所示，该服务器可以包括：处理器(processor)602、通信接口(Communications Interface)604、存储器(memory)606、以及通信总线608。

其中：

处理器602、通信接口604、以及存储器606通过通信总线608完成相互间的通信。

通信接口604，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器602，用于执行程序610，具体可以执行上述基于机器学习的样本预测方法实施例中的相关步骤。

具体地，程序610可以包括程序代码，该程序代码包括计算机操作指令。

处理器602可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。服务器包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器606，用于存放程序610。存储器606可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序610具体可以用于使得处理器602执行以下操作：

存储待预测样本库中每一个待预测样本的特征向量；

程序610具体还可以用于使得处理器602执行以下操作：

提取该待预测样本的至少一个特征；

程序610具体还可以用于使得处理器602执行以下操作：

待预测样本的特征包括：类行为特征、编译器特征和/或加壳特征。

程序610具体还可以用于使得处理器602执行以下操作：

将待预测样本库中所有待预测样本的特征向量分布存储到分布式集群中的数个节点中。

程序610具体还可以用于使得处理器602执行以下操作：

将训练模型置入分布式集群中的数个节点中；

数个节点并行地利用训练模型对节点中已存储的每一个待预测样本的特征向量进行扫描。

程序610具体还可以用于使得处理器602执行以下操作：

针对待预测样本库中的每一个待预测样本，利用n种特征提取算法提取该待预测样本的n种特征，得到待预测样本的n组特征向量，其中一种特征对应一组特征向量；

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于机器学习的样本预测装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了：A1.一种基于机器学习的样本预测方法，包括：

存储所述待预测样本库中每一个待预测样本的特征向量；

获取经训练得到的训练模型，利用所述训练模型扫描已存储的每一个待预测样本的特征向量，得到待预测样本的预测结果。

A2.根据A1所述的方法，所述提取该待预测样本的特征，得到待预测样本的特征向量进一步包括：

提取该待预测样本的至少一个特征；

对所述待预测样本的至少一个特征进行降维运算，得到待预测样本的特征向量。

A3.根据A1或A2所述的方法，所述待预测样本的特征包括：类行为特征、编译器特征和/或加壳特征。

A4.根据A1-A3任一项所述的方法，所述存储所述待预测样本库中每一个待预测样本的特征向量具体为：将所述待预测样本库中所有待预测样本的特征向量分布存储到分布式集群中的数个节点中。

A5.根据A4所述的方法，在所述利用所述训练模型扫描已存储的每一个待预测样本的特征向量之前，所述方法还包括：将训练模型置入分布式集群中的所述数个节点中；

所述利用所述训练模型扫描已存储的每一个待预测样本的特征向量具体为：所述数个节点并行地利用训练模型对节点中已存储的每一个待预测样本的特征向量进行扫描。

A6.根据A1-A5任一项所述的方法，所述针对待预测样本库中的每一个待预测样本，提取该待预测样本的特征，得到待预测样本的特征向量具体为：针对待预测样本库中的每一个待预测样本，利用n种特征提取算法提取该待预测样本的n种特征，得到待预测样本的n组特征向量，其中一种特征对应一组特征向量；

所述获取经训练得到的训练模型，利用所述训练模型扫描已存储的每一个待预测样本的特征向量，得到待预测样本的预测结果进一步包括：

本发明还公开了：B7.一种基于机器学习的样本预测装置，包括：

存储模块，适于存储所述待预测样本库中每一个待预测样本的特征向量；

预测模块，适于获取经训练得到的训练模型，利用所述训练模型扫描已存储的每一个待预测样本的特征向量，得到待预测样本的预测结果。

B8.根据B7所述的装置，所述提取模块进一步适于：

提取该待预测样本的至少一个特征；

B9.根据B7或B8所述的装置，所述待预测样本的特征包括：类行为特征、编译器特征和/或加壳特征。

B10.根据B8-B10任一项所述的装置，所述存储模块进一步适于：将所述待预测样本库中所有待预测样本的特征向量分布存储到分布式集群中的数个节点中。

B11.根据B10所述的装置，所述装置还包括：置入模块，适于将训练模型置入分布式集群中的所述数个节点中；

所述预测模块进一步适于：所述数个节点并行地利用训练模型对节点中已存储的每一个待预测样本的特征向量进行扫描。

B12.根据B7-B11任一项所述的装置，所述提取模块进一步适于：针对待预测样本库中的每一个待预测样本，利用n种特征提取算法提取该待预测样本的n种特征，得到待预测样本的n组特征向量，其中一种特征对应一组特征向量；

所述预测模块进一步适于：

本发明还公开了：C13.一种服务器，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如A1-A6中任一项所述的基于机器学习的样本预测方法对应的操作。

本发明还公开了：D14.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如A1-A6中任一项所述的基于机器学习的样本预测方法对应的操作。

Claims

1.一种基于机器学习的样本预测方法，包括：

存储所述待预测样本库中每一个待预测样本的特征向量；

2.根据权利要求1所述的方法，所述提取该待预测样本的特征，得到待预测样本的特征向量进一步包括：

提取该待预测样本的至少一个特征；

3.根据权利要求1或2所述的方法，所述待预测样本的特征包括：类行为特征、编译器特征和/或加壳特征。

4.根据权利要求1-3任一项所述的方法，所述存储所述待预测样本库中每一个待预测样本的特征向量具体为：将所述待预测样本库中所有待预测样本的特征向量分布存储到分布式集群中的数个节点中。

5.根据权利要求4所述的方法，在所述利用所述训练模型扫描已存储的每一个待预测样本的特征向量之前，所述方法还包括：将训练模型置入分布式集群中的所述数个节点中；

6.根据权利要求1-5任一项所述的方法，所述针对待预测样本库中的每一个待预测样本，提取该待预测样本的特征，得到待预测样本的特征向量具体为：针对待预测样本库中的每一个待预测样本，利用n种特征提取算法提取该待预测样本的n种特征，得到待预测样本的n组特征向量，其中一种特征对应一组特征向量；

7.一种基于机器学习的样本预测装置，包括：

8.根据权利要求7所述的装置，所述提取模块进一步适于：

提取该待预测样本的至少一个特征；

9.一种服务器，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-6中任一项所述的基于机器学习的样本预测方法对应的操作。

10.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-6中任一项所述的基于机器学习的样本预测方法对应的操作。