CN110472410B

CN110472410B - 识别数据的方法、设备和数据处理方法

Info

Publication number: CN110472410B
Application number: CN201810453316.4A
Authority: CN
Inventors: 万朝新
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-05-11
Filing date: 2018-05-11
Publication date: 2023-02-28
Anticipated expiration: 2038-05-11
Also published as: CN110472410A

Abstract

本发明公开了一种识别数据的方法、设备和数据处理方法。其中，该方法包括：根据提取的进程样本获取训练样本以及训练样本的特征；依据训练样本和训练样本的特征生成分析模型；依据分析模型对线上采集的数据进行识别。本发明解决了由于现有技术在对攻击数据的识别过程中效果差，导致无法有效识别僵尸网络后门进程的技术问题。

Description

识别数据的方法、设备和数据处理方法

技术领域

本发明涉及互联网技术应用领域，具体而言，涉及一种识别数据的方法、设备和数据处理方法。

背景技术

云平台管控需要知道当前客户云服务器(Elastic Compute Service，简称ECS)被入侵量，从而感知当前整个云平台的安全态势。通过发现主机的后门进程，定位云平台被僵尸网络控制的恶意主机，是一条重要的入侵发现手段。其中，僵尸网络Botnet是指采用一种或多种传播手段，将大量主机感染bot程序(僵尸程序)病毒，从而在控制者和被感染主机之间所形成的一个可一对多控制的网络。

针对后门进程检测，现有技术包括：静态分析提取特征码、沙箱分析提取行为特征，或通过深度学习来识别恶意样本。

例如，静态分析人工工作量较大，而沙箱分析后门运行时间较短，可能恶意行为不会充分暴露，而通过深度学习对恶意样本检测对于加壳情况效果不佳。

除此之外，通过基于蜜罐采集的僵尸网络攻击流量导致的反向散射包，通过对反向散射数据包聚类识别僵尸网络所属家族。但是该技术的缺点在于，要求大量部署蜜罐保证对反向散射包的采集，并且反向散射包的聚类特征对僵尸网络的家族识别可能并不精准。

针对上述由于现有技术在对攻击数据的识别过程中效果差，导致无法有效识别僵尸网络后门进程的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种识别数据的方法、设备和数据处理方法，以至少解决由于现有技术在对攻击数据的识别过程中效果差，导致无法有效识别僵尸网络后门进程的技术问题。

根据本发明实施例的一个方面，提供了一种识别数据的方法，包括：根据提取的进程样本获取训练样本以及训练样本的特征；依据训练样本和训练样本的特征生成分析模型；依据分析模型对线上采集的数据进行识别。

可选的，根据提取的进程样本获取训练样本以及训练样本的特征包括：提取主机上的进程样本；解析进程样本得到训练样本；依据训练样本进行特征采集，得到训练样本的特征。

进一步地，可选的，解析进程样本得到训练样本包括：对进程样本通过手动/自动化方式进行分析打标，识别得到僵尸网络后门进程，并将属于僵尸网络后门进程的进程样本为训练样本。

可选的，依据训练样本进行特征采集，得到训练样本的特征包括：采集训练样本在主机上的文件特征、网络特征和进程特征。

进一步地，可选的，采集训练样本在主机上的文件特征、网络特征和进程特征包括：通过主机上的代理装置采集训练样本在主机上的文件特征、网络特征和进程特征。

可选的，在采集训练样本在主机上的文件特征、网络特征和进程特征之后，该方法还包括：通过预设条件对文件特征、网络特征和进程特征向量化。

进一步地，可选的，通过预设条件对文件特征、网络特征和进程特征向量化包括：在通过主机上的代理装置采集训练样本在主机上的文件特征的情况下，计算进程文件名的香农熵和进程文件名中数字使用比例，以及基于预设文本模型评估进程文件名是否符合人类拼写习惯的文件名。

可选的，通过预设条件对文件特征、网络特征和进程特征向量化包括：在通过主机上的代理装置采集训练样本在主机上的网络特征的情况下，采集的网络特征包括：高危端口连接频率、正常端口连接频率、高危端口独热码统计、正常端口独热码统计、握手请求量和创建连接量中的至少一种或至少两种的组合。

进一步地，可选的，采集高危端口连接频率包括：通过统计恶意进程连接频率，得到高危端口名单，并通过统计每个恶意进程对高危端口的连接频率，得到高危端口连接频率。

可选的，采集正常端口连接频率包括：通过统计正常进程连接频率，得到正常端口名单，并通过统计每个正常进程对正常端口的连接频率，得到正常端口连接频率。

可选的，采集高危端口独热码统计包括：统计高危端口名单中预设排名范围内的端口，建立独热码向量，并将恶意进程映射到独热码向量。

可选的，采集正常端口独热码统计包括：统计正常端口名单中预设排名范围内的端口，建立独热码向量，并将正常进程映射到独热码向量。

可选的，采集握手请求量包括：统计所有进程发出的握手请求量。

可选的，采集创建连接量包括：统计所有进程成功建立连接的创建连接量。

可选的，通过预设条件对文件特征、网络特征和进程特征向量化包括：在通过主机上的代理装置采集训练样本在主机上的进程特征的情况下，通过统计已知后门进程的进程调用关系，建立独热码向量，将每个进程的调用关系映射到独热码向量，得到后门进程的进程调用链风险；并通过统计所有进程的执行用户名，建立独热码向量，将所有进程的执行用户映射到独热码向量，得到进程执行用户。

根据本发明实施例的另一方面，还提供了一种识别数据的方法，包括：通过在主机设置的代理装置提取主机上的进程样本；通过代理装置根据进程样本识别得到僵尸网络后门进程，得到训练样本以及训练样本对应的特征；依据训练样本和训练样本对应的特征生成分析模型；依据分析模型对线上采集的数据进行识别。

根据本发明实施例的又一方面，还提供了一种识别数据的设备，包括：代理装置、处理器和存储器，其中，代理装置，用于提取主机上的进程样本，并根据进程样本识别得到僵尸网络后门进程，得到训练样本以及训练样本对应的特征；处理器，用于运行依据训练样本和训练样本对应的特征生成分析模型的程序；存储器，用于存储分析模型，以及存储分析模型用于对线上采集的数据进行识别的程序。

根据本发明实施例的再一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行：根据预先提取的进程样本获取训练样本以及训练样本对应的特征；依据训练样本和训练样本对应的特征生成分析模型；依据分析模型对线上采集的数据进行识别。

根据本发明实施例的再一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行：根据预先提取的进程样本获取训练样本以及训练样本对应的特征；依据训练样本和训练样本对应的特征生成分析模型；依据分析模型对线上采集的数据进行识别。

根据本发明另一实施例的一方面，还提供了一种数据处理方法，包括：采集进程一个或多个生命周期的特征；计算进程的特征的信息熵；根据信息熵，判定进程是否为预设类型。

可选的，所述预设类型包括：后门进程。

在本发明实施例中，采用训练样本的方式在线识别僵尸网络后门进程的方式，通过根据提取的进程样本获取训练样本以及训练样本的特征；依据训练样本和训练样本的特征生成分析模型；依据分析模型对线上采集的数据进行识别，达到了有效识别僵尸网络后门进程准确率的目的，从而实现了提升识别僵尸网络后门进程准确率的技术效果，进而解决了由于现有技术在对攻击数据的识别过程中效果差，导致无法有效识别僵尸网络后门进程的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种识别数据的方法的计算机终端的硬件结构框图；

图2是根据本发明实施例一的一种识别数据的方法的流程图；

图3是根据本发明实施例一的另一种识别数据的方法的流程图；

图4是根据本发明实施例一的一种识别数据的方法中网络特征的采集逻辑的示意图；

图5是根据本发明实施例二的一种识别数据的方法的流程图；

图6是根据本发明实施例三的一种识别数据的装置的示意图；

图7是根据本发明实施例六的一种数据处理方法的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请涉及的技术名词：

HMM：Hidden Markov Modle，隐马尔可夫。

实施例1

根据本发明实施例，还提供了一种识别数据的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图1是本发明实施例的一种识别数据的方法的计算机终端的硬件结构框图。如图1所示，计算机终端10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的识别数据的方法对应的程序指令/模块，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的识别数据的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

在上述运行环境下，本申请提供了如图2所示的识别数据的方法。图2是根据本发明实施例一的一种识别数据的方法的流程图。

步骤S202，根据提取的进程样本获取训练样本以及训练样本的特征；

本申请上述步骤S202中，本申请提供的识别数据的方法可以适用于识别僵尸网络后门进程，其中，在步骤S202中提取的进程样本就是为了在主机运行的所有进程中获取僵尸网络后门进程的特征，因此，通过提取主机上的进程样本进行分析，识别僵尸网络后门进程，并以属于僵尸网络后门进程的进程样本作为训练样本；

并且为了有效识别僵尸网络后门进程，将在提取训练样本的同时获取该训练样本的特征，以此在后续在线识别过程中有效的进行匹配识别。

步骤S204，依据训练样本和训练样本的特征生成分析模型；

本申请上述步骤S204中，基于步骤S202中提取到的训练样本和训练样本的特征，将训练样本和训练样本的特征通过分类算法进行训练，得到分类模型，并将该分类模型作为分析模型用于在线识别僵尸网络后门进程。

步骤S206，依据分析模型对线上采集的数据进行识别。

本申请上述步骤S206中，基于步骤S204中得到的分析模型，在线对主机采集到的信息进行识别，判断该信息所对应的进程是否为僵尸网络后门进程。

综上，结合步骤S202至步骤S206所记载的方案，如图3所示，图3是根据本发明实施例一的另一种识别数据的方法的流程图。本申请提供的识别数据的方法具体如下：

在服务器中：

S1，通过提取主机(即，服务器)上的进程样本，以手动/自动化方式分析，识别僵尸网络后门进程，并将识别得到的僵尸网络后门进程的进程样本作为训练样本；

同时采集该训练样本在主机上文件特征、网络特征和进程特征，通过特征工程将这些特征(例如文件名的熵、进程的调用关系、网络连接特征等)向量化(即，本申请上述步骤S202)。

S2，结合得到的训练样本，针对采集的训练样本特征通过分类算法训练分类模型，得到分析模型(即，本申请上述步骤S204)；

S3，利用训练的分析模型对线上采集的信息进行识别(即，本申请上述步骤S206)。

例如，为保障僵尸网络后门进程的准确识别，在服务器(即，主机)上获取训练样本，其中，获取训练样本的过程中，首先需要提取运行在主机上的进程，通过从该进程中获取进程样本，根据已有的僵尸网络后门进程的特征对进程样本进行人工/自动的打标，即，对该进程样本添加标识，以使得与正常的进程进行区分，最后将添加标识的进程样本作为后续分析模型的训练样本；

在生成分析模型的过程中，基于训练样本获取该训练样本的文件特征、网络特征和进程特征，基于训练样本和上述训练样本的特征生成分析模型，最后，在服务器运行的过程中，通过实时采集的信息通过分析模型进行识别，判断该服务器当前运行的进程中是否存在僵尸网络后门进程。

需要说明的是，结合步骤S202至步骤S206所记载的方案，在本申请提供的识别数据的方法中，提取的进程样本获取训练样本以及训练样本的特征的过程是持续采集的，以此能够在后续生成分析模型的过程中能够持续更新数据模型，即，令分析模型不断完善，以使得在后续识别僵尸网络后门进程更加准确。

可选的，步骤S202中根据提取的进程样本获取训练样本以及训练样本的特征包括：

步骤S2021，提取主机上的进程样本；

步骤S2022，解析进程样本得到训练样本；

步骤S2023，依据训练样本进行特征采集，得到训练样本的特征。

具体的，为了识别僵尸网络后门进程，需要获取到以往服务器获取到的僵尸网络后门进程的特征，而提取以往服务器获取到的进程的过程中，提取的进程可以作为进程样本进行解析，并将解析得到的属于僵尸网络后门进程的进程样本，作为训练样本；最后基于训练样本进行特征采集，得到训练样本的特征，即，得到僵尸网络后门进程的特征。

其中，步骤S2021中的主机可以包括服务器，或运行有安全客户端的终端设备。

进一步地，可选的，步骤S2022中解析进程样本得到训练样本包括：

步骤S20221，对进程样本通过手动/自动化方式进行分析打标，识别得到僵尸网络后门进程，并将属于僵尸网络后门进程的进程样本作为训练样本。

具体的，对进程样本通过手动/自动化方式进行分析打标，即，通过人工或自动的方式依据已获取的僵尸网络后门进程的特征对得到的进程样本添加识别标识，该打标过程可以包括：

方式一：对非僵尸网络后门进程的进程样本进行标记，以使得与僵尸网络后门进程进行区分；

方式二：对属于僵尸网络后门进程的进程样本进行标记，以使得与非僵尸网络后门进程的进程样本进行区分。

最后通过打标后的结果，将属于僵尸网络后门进程的进程样本作为训练样本。

其中，依据已获取的僵尸网络后门进程的特征对得到的进程样本添加识别标识的过程，可以根据设置“黑名单”或“白名单”的方式，对僵尸网络后门进程进行识别。

可选的，步骤S2023中依据训练样本进行特征采集，得到训练样本的特征包括：

步骤S20231，采集训练样本在主机上的文件特征、网络特征和进程特征。

进一步地，可选的，步骤S20231中采集训练样本在主机上的文件特征、网络特征和进程特征包括：

步骤S202311，通过主机上的代理装置采集训练样本在主机上的文件特征、网络特征和进程特征。

具体的，通过主机上的代理装置采集训练样本在主机上的文件特征、网络特征和进程特征具体如下：

可选的，在步骤S20231中采集训练样本在主机上的文件特征、网络特征和进程特征之后，本申请提供的识别数据的方法还包括：

步骤S203，通过预设条件对文件特征、网络特征和进程特征向量化。

1、在主机上通过代理装置采集文件特征如下：

进一步地，可选的，步骤S203中通过预设条件对文件特征、网络特征和进程特征向量化包括：

步骤S2031，在通过主机上的代理装置采集训练样本在主机上的文件特征的情况下，计算进程文件名的香农熵和进程文件名中数字使用比例，以及基于预设文本模型评估进程文件名是否符合人类拼写习惯的文件名。

具体的，关于文件特征：

针对常见的后门进程路径及文件名如下：

/tmp/.1z1516696407

/tmp/tmpnam-fdHehB

提取的特征可以包括：

文件名随机性：计算进程文件名的香农熵；

文件名数字比例：计算进程文件名中数字使用比例；

文件名可读性：基于隐马尔可夫(Hidden Markov Modle，简称HMM)训练的正常文本模型评估该文件名是否符合人类拼写习惯的文件名。

2、在主机上通过代理装置采集网络特征如下：

可选的，步骤S203中通过预设条件对文件特征、网络特征和进程特征向量化包括：

步骤S2031’，在通过主机上的代理装置采集训练样本在主机上的网络特征的情况下，采集的网络特征包括：高危端口连接频率、正常端口连接频率、高危端口独热码统计、正常端口独热码统计、握手请求量和创建连接量中的至少一种或至少两种的组合。

具体的，关于网络特征，如图4所示，图4是根据本发明实施例一的一种识别数据的方法中网络特征的采集逻辑的示意图。

可选的，采集高危端口连接频率包括：通过统计恶意进程连接频率，得到高危端口名单，并通过统计每个恶意进程对高危端口的连接频率，得到高危端口连接频率。

其中，本申请提供的预设排名范围内的端口可以top100为例进行说明；独热码向量可以记作one-hot向量。

其中，本申请提供的握手请求量可以记作握手SYN(synchronous，简称SYN)请求量。

这里创建连接量可以记作establish连接量。

3、在主机上通过代理装置采集进程特征如下：

步骤S2031”，在通过主机上的代理装置采集训练样本在主机上的进程特征的情况下，通过统计已知后门进程的进程调用关系，建立独热码向量，将每个进程的调用关系映射到独热码向量，得到后门进程的进程调用链风险；并通过统计所有进程的执行用户名，建立独热码向量，将所有进程的执行用户映射到独热码向量，得到进程执行用户。

具体的，关于采集进程特征可以包括：

后门进程的进程调用链风险：统计已知后门进程的进程调用关系，建立one-hot向量，将每个进程的调用关系映射到one-hot向量；

进程执行用户：统计所有进程的执行用户名，简历one-hot向量，将进程的执行用户映射到one-hot向量；

本申请提供的识别数据的方法基于主机安全客户端采集文件、进程、网络特征，由于上述特征信息熵较高，能够精准的判断网络后门，从而发现和识别僵尸网络。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的识别数据的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例的另一方面，还提供了一种识别数据的方法，图5是根据本发明实施例二的一种识别数据的方法的流程图，如图5所示，本申请提供的识别数据的方法包括：

步骤S502，通过在主机设置的代理装置提取主机上的进程样本；

本申请上述步骤S502中，区别于实施例1中的识别数据技术，在本申请实施例中通过在主机上设置代理装置，由代理装置实时持续提取主机上的进程样本，以保障后续分析模型生成过程中能够不断学习更新，提升数据的识别准确率。

步骤S504，通过代理装置根据进程样本识别得到僵尸网络后门进程，得到训练样本以及训练样本对应的特征；

本申请上述步骤S504中，基于步骤S502中代理装置提取的进程样本，对该进程样本进行识别，得到僵尸网络后门进程，并将属于僵尸网络后门进程的进程样本作为训练样本，并提取该训练样本对应的特征。

步骤S506，依据训练样本和训练样本对应的特征生成分析模型；

本申请上述步骤S506中，基于步骤504中提取到的训练样本和训练样本的特征，将训练样本和训练样本的特征通过分类算法进行训练，得到分类模型，并将该分类模型作为分析模型用于在线识别僵尸网络后门进程。

步骤S508，依据分析模型对线上采集的数据进行识别。

本申请上述步骤S508中，基于步骤S506中得到的分析模型，在线对主机采集到的信息进行识别，判断该信息所对应的进程是否为僵尸网络后门进程。

具体的，本申请提供的识别数据的方法利用主机Agent客户端(即，本申请提供的代理装置，该代理装置可以为配置于服务器主机的虚拟程序，也可以为外接采集设备)可以采集文件和进程特征，尤其是可以采集进程全生命周期的网络特征，尤其是进程的网络连接特征(如连接对象、通信端口、SYN包统计、连接频率)对于后门进程的判定有较高的信息熵，能够有效的分类正常进程和僵尸网络后门进程。

并且，针对传统的结合沙箱动静态分析、或者纯网络流量特征分析，通过主机进程全生命周期采集进程的文件特征、进程特征、网络特征能够有效的分类识别僵尸网络后门进程。

在本发明实施例中，采用训练样本的方式在线识别僵尸网络后门进程的方式，通过在主机设置的代理装置提取主机上的进程样本；通过代理装置根据进程样本识别得到僵尸网络后门进程，得到训练样本以及训练样本对应的特征；依据训练样本和训练样本对应的特征生成分析模型；依据分析模型对线上采集的数据进行识别，达到了有效识别僵尸网络后门进程准确率的目的，从而实现了提升识别僵尸网络后门进程准确率的技术效果，进而解决了由于现有技术在对攻击数据的识别过程中效果差，导致无法有效识别僵尸网络后门进程的技术问题。

实施例3

根据本发明实施例的又一方面，还提供了一种识别数据的设备，图6是根据本发明实施例三的一种识别数据的装置的示意图，如图6所示，包括：代理装置62、处理器64和存储器66。

其中，代理装置62，用于提取主机上的进程样本，并根据进程样本识别得到僵尸网络后门进程，得到训练样本以及训练样本对应的特征；处理器64，用于运行依据训练样本和训练样本对应的特征生成分析模型的程序；存储器66，用于存储分析模型，以及存储分析模型用于对线上采集的数据进行识别的程序。

实施例4

实施例5

实施例6

根据本发明另一实施例的一方面，还提供了一种数据处理方法，图7是根据本发明实施例六的一种数据处理方法的示意图，如图7所示，包括：

步骤S702，采集进程一个或多个生命周期的特征；

本申请上述步骤S702中，本申请提供的数据处理方法可以适用于识别僵尸网络后门进程，其中，在步骤S702中采集的进程可以包括：通过提取主机上的进程，以采样的形式获取进程样本，并对进程样本进行分析，识别僵尸网络后门进程，并以属于僵尸网络后门进程的进程样本作为训练样本；

为了有效识别僵尸网络后门进程，将在提取训练样本的同时获取该训练样本的特征，以此在后续在线识别过程中有效的进行匹配识别；

通过获取的训练样本，结合该训练样本的特征，即，进程全生命周期的特征和训练样本通过分类算法进行训练，得到分类模型，并将该分类模型作为分析模型用于在线识别僵尸网络后门进程。

步骤S704，计算进程的特征的信息熵；

步骤S706，根据信息熵，判定进程是否为预设类型。

其中，预设类型包括：后门进程。后门进程包括：僵尸网络后门进程。

本申请上述步骤S704和步骤S706中，基于步骤S702中得到的进程的特征，以及分类模型，在线对主机采集到的信息进行识别，通过该分类模型解析该信息，得到该进程的特征的信息熵，并依据该信息熵判断该进程是否为僵尸网络后门进程。

具体的，本申请提供的数据处理方法具体如下：

首先，通过提取主机(即，服务器)上的进程样本，以手动/自动化方式分析，识别僵尸网络后门进程，并将识别得到的僵尸网络后门进程的进程样本作为训练样本；

同时采集该训练样本在主机上文件特征、网络特征和进程特征，通过特征工程将这些特征(例如文件名的熵、进程的调用关系、网络连接特征等)向量化。

其次，结合得到的训练样本，针对采集的训练样本特征通过分类算法训练分类模型，得到分析模型；

最后，利用训练的分析模型对线上采集的信息进行识别。

在本发明实施例中，采用训练样本的方式在线识别僵尸网络后门进程的方式，通过采集进程全生命周期的网络特征；依据进程的网络连接特征的信息熵判定进程是否为非法进程，其中，非法进程包括僵尸网络后门进程。达到了有效识别僵尸网络后门进程准确率的目的，从而实现了提升识别僵尸网络后门进程准确率的技术效果，进而解决了由于现有技术在对攻击数据的识别过程中效果差，导致无法有效识别僵尸网络后门进程的技术问题。

实施例7

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的识别数据的方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：根据提取的进程样本获取训练样本以及训练样本的特征；依据训练样本和训练样本的特征生成分析模型；依据分析模型对线上采集的数据进行识别。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：根据提取的进程样本获取训练样本以及训练样本的特征包括：提取主机上的进程样本；解析进程样本得到训练样本；依据训练样本进行特征采集，得到训练样本的特征。

进一步地，可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：解析进程样本得到训练样本包括：对进程样本通过手动/自动化方式进行分析打标，识别得到僵尸网络后门进程，并将僵尸网络后门进程作为训练样本。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：依据训练样本进行特征采集，得到训练样本的特征包括：采集训练样本在主机上的文件特征、网络特征和进程特征。

进一步地，可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：采集训练样本在主机上的文件特征、网络特征和进程特征包括：通过主机上的代理装置采集训练样本在主机上的文件特征、网络特征和进程特征。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在采集训练样本在主机上的文件特征、网络特征和进程特征之后，该方法还包括：通过预设条件对文件特征、网络特征和进程特征向量化。

进一步地，可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过预设条件对文件特征、网络特征和进程特征向量化包括：在通过主机上的代理装置采集训练样本在主机上的文件特征的情况下，计算进程文件名的香农熵和进程文件名中数字使用比例，以及基于预设文本模型评估进程文件名是否符合人类拼写习惯的文件名。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过预设条件对文件特征、网络特征和进程特征向量化包括：在通过主机上的代理装置采集训练样本在主机上的网络特征的情况下，采集的网络特征包括：高危端口连接频率、正常端口连接频率、高危端口独热码统计、正常端口独热码统计、握手请求量和创建连接量中的至少一种或至少两种的组合。

进一步地，可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：采集高危端口连接频率包括：通过统计恶意进程连接频率，得到高危端口名单，并通过统计每个恶意进程对高危端口的连接频率，得到高危端口连接频率。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：采集正常端口连接频率包括：通过统计正常进程连接频率，得到正常端口名单，并通过统计每个正常进程对正常端口的连接频率，得到正常端口连接频率。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：采集高危端口独热码统计包括：统计高危端口名单中预设排名范围内的端口，建立独热码向量，并将恶意进程映射到独热码向量。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：采集正常端口独热码统计包括：统计正常端口名单中预设排名范围内的端口，建立独热码向量，并将正常进程映射到独热码向量。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：采集握手请求量包括：统计所有进程发出的握手请求量。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：采集创建连接量包括：统计所有进程成功建立连接的创建连接量。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过预设条件对文件特征、网络特征和进程特征向量化包括：在通过主机上的代理装置采集训练样本在主机上的进程特征的情况下，通过统计已知后门进程的进程调用关系，建立独热码向量，将每个进程的调用关系映射到独热码向量，得到后门进程的进程调用链风险；并通过统计所有进程的执行用户名，建立独热码向量，将所有进程的执行用户映射到独热码向量，得到进程执行用户。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种识别数据的方法，其特征在于，包括：

根据提取的进程样本获取训练样本以及所述训练样本的特征；

依据所述训练样本和所述训练样本的特征生成分析模型；

依据所述分析模型对线上采集的数据进行识别；

其中，所述根据提取的进程样本获取训练样本以及所述训练样本的特征包括：

提取主机上的进程样本；

解析所述进程样本得到所述训练样本；

依据所述训练样本进行特征采集，得到所述训练样本的特征；

所述依据所述训练样本进行特征采集，得到所述训练样本的特征包括：

采集所述训练样本在所述主机上的文件特征、网络特征和进程特征；

在所述采集所述训练样本在所述主机上的文件特征、网络特征和进程特征之后，所述方法还包括：

通过预设条件对所述文件特征、所述网络特征和所述进程特征向量化；

所述通过预设条件对所述文件特征、所述网络特征和所述进程特征向量化包括：

在通过所述主机上的代理装置采集所述训练样本在所述主机上的文件特征的情况下，计算进程文件名的香农熵和进程文件名中的数字使用比例，以及基于预设文本模型评估所述进程文件名是否符合人类拼写习惯的文件名。

2.根据权利要求1所述的方法，其特征在于，所述解析所述进程样本得到所述训练样本包括：

对所述进程样本通过手动/自动化方式进行分析打标，识别得到僵尸网络后门进程，并将属于所述僵尸网络后门进程的进程样本作为训练样本。

3.根据权利要求1所述的方法，其特征在于，所述采集所述训练样本在所述主机上的文件特征、网络特征和进程特征包括：

通过所述主机上的代理装置采集所述训练样本在所述主机上的文件特征、网络特征和进程特征。

4.根据权利要求1所述的方法，其特征在于，所述通过预设条件对所述文件特征、所述网络特征和所述进程特征向量化包括：

在通过所述主机上的代理装置采集所述训练样本在所述主机上的网络特征的情况下，采集的网络特征包括：高危端口连接频率、正常端口连接频率、高危端口独热码统计、正常端口独热码统计、握手请求量和创建连接量中的至少一种或至少两种的组合。

5.根据权利要求4所述的方法，其特征在于，采集所述高危端口连接频率包括：通过统计恶意进程连接频率，得到高危端口名单，并通过统计每个所述恶意进程对高危端口的连接频率，得到所述高危端口连接频率。

6.根据权利要求4所述的方法，其特征在于，采集所述正常端口连接频率包括：通过统计正常进程连接频率，得到正常端口名单，并通过统计每个所述正常进程对正常端口的连接频率，得到所述正常端口连接频率。

7.根据权利要求4所述的方法，其特征在于，采集所述高危端口独热码统计包括：统计高危端口名单中预设排名范围内的端口，建立独热码向量，并将恶意进程映射到所述独热码向量。

8.根据权利要求4所述的方法，其特征在于，采集所述正常端口独热码统计包括：统计正常端口名单中预设排名范围内的端口，建立独热码向量，并将正常进程映射到所述独热码向量。

9.根据权利要求4所述的方法，其特征在于，采集所述握手请求量包括：统计所有进程发出的握手请求量。

10.根据权利要求4所述的方法，其特征在于，采集所述创建连接量包括：统计所有进程成功建立连接的创建连接量。

11.根据权利要求1所述的方法，其特征在于，所述通过预设条件对所述文件特征、所述网络特征和所述进程特征向量化包括：

在通过所述主机上的代理装置采集所述训练样本在所述主机上的进程特征的情况下，通过统计已知后门进程的进程调用关系，建立独热码向量，将每个进程的调用关系映射到所述独热码向量，得到后门进程的进程调用链风险；并通过统计所有进程的执行用户名，建立独热码向量，将所述所有进程的执行用户映射到所述独热码向量，得到进程执行用户。

12.一种识别数据的方法，其特征在于，包括：

通过在主机设置的代理装置提取所述主机上的进程样本；

通过所述代理装置根据所述进程样本识别得到僵尸网络后门进程，得到训练样本以及所述训练样本对应的特征；

依据所述训练样本和所述训练样本对应的特征生成分析模型；

依据所述分析模型对线上采集的数据进行识别；

其中，所述通过所述代理装置根据提取的进程样本获取训练样本以及所述训练样本的特征包括：

提取主机上的进程样本；

解析所述进程样本得到所述训练样本；

13.一种识别数据的设备，其特征在于，包括：代理装置、处理器和存储器，其中，

所述代理装置，用于提取主机上的进程样本，并根据所述进程样本识别得到僵尸网络后门进程，得到训练样本以及所述训练样本对应的特征；

所述处理器，用于运行依据所述训练样本和所述训练样本对应的特征生成分析模型的程序；

所述存储器，用于存储所述分析模型，以及存储所述分析模型用于对线上采集的数据进行识别的程序；

其中，所述代理装置还用于提取主机上的进程样本；

解析所述进程样本得到所述训练样本；

14.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行：根据预先提取的进程样本获取训练样本以及所述训练样本对应的特征；依据所述训练样本和所述训练样本对应的特征生成分析模型；依据所述分析模型对线上采集的数据进行识别；其中，所述根据提取的进程样本获取训练样本以及所述训练样本的特征包括：提取主机上的进程样本；解析所述进程样本得到所述训练样本；依据所述训练样本进行特征采集，得到所述训练样本的特征；所述依据所述训练样本进行特征采集，得到所述训练样本的特征包括：采集所述训练样本在所述主机上的文件特征、网络特征和进程特征；在所述采集所述训练样本在所述主机上的文件特征、网络特征和进程特征之后，所述方法还包括：通过预设条件对所述文件特征、所述网络特征和所述进程特征向量化；所述通过预设条件对所述文件特征、所述网络特征和所述进程特征向量化包括：在通过所述主机上的代理装置采集所述训练样本在所述主机上的文件特征的情况下，计算进程文件名的香农熵和进程文件名中的数字使用比例，以及基于预设文本模型评估所述进程文件名是否符合人类拼写习惯的文件名。

15.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行：根据预先提取的进程样本获取训练样本以及所述训练样本对应的特征；依据所述训练样本和所述训练样本对应的特征生成分析模型；依据所述分析模型对线上采集的数据进行识别；其中，所述根据提取的进程样本获取训练样本以及所述训练样本的特征包括：提取主机上的进程样本；解析所述进程样本得到所述训练样本；依据所述训练样本进行特征采集，得到所述训练样本的特征；所述依据所述训练样本进行特征采集，得到所述训练样本的特征包括：采集所述训练样本在所述主机上的文件特征、网络特征和进程特征；在所述采集所述训练样本在所述主机上的文件特征、网络特征和进程特征之后，所述方法还包括：通过预设条件对所述文件特征、所述网络特征和所述进程特征向量化；所述通过预设条件对所述文件特征、所述网络特征和所述进程特征向量化包括：在通过所述主机上的代理装置采集所述训练样本在所述主机上的文件特征的情况下，计算进程文件名的香农熵和进程文件名中的数字使用比例，以及基于预设文本模型评估所述进程文件名是否符合人类拼写习惯的文件名。

16.一种数据处理方法，其特征在于，包括：

采集进程一个或多个生命周期的特征；

计算所述进程的特征的信息熵；

根据所述信息熵，判定所述进程是否为预设类型；

其中，采集进程一个或多个生命周期的特征还包括：通过提取主机上的进程，以采样的形式获取进程样本，并对进程样本进行分析，识别僵尸网络后门进程，并以属于僵尸网络后门进程的进程样本作为训练样本和所述训练样本的特征；

通过所述训练样本和所述训练样本的特征进行训练，得到分类模型；

计算所述进程的特征的信息熵包括：通过所述分类模型对所述进程的特征进行解析，得到所述进程的特征的信息熵；

所述根据提取的进程样本获取训练样本以及所述训练样本的特征包括：提取主机上的进程样本；解析所述进程样本得到所述训练样本；依据所述训练样本进行特征采集，得到所述训练样本的特征；所述依据所述训练样本进行特征采集，得到所述训练样本的特征包括：采集所述训练样本在所述主机上的文件特征、网络特征和进程特征；在所述采集所述训练样本在所述主机上的文件特征、网络特征和进程特征之后，所述方法还包括：通过预设条件对所述文件特征、所述网络特征和所述进程特征向量化；所述通过预设条件对所述文件特征、所述网络特征和所述进程特征向量化包括：在通过所述主机上的代理装置采集所述训练样本在所述主机上的文件特征的情况下，计算进程文件名的香农熵和进程文件名中的数字使用比例，以及基于预设文本模型评估所述进程文件名是否符合人类拼写习惯的文件名。

17.根据权利要求16所述的方法，其特征在于，所述预设类型包括：后门进程。