CN112580039B

CN112580039B - 病毒特征数据的处理方法、装置及设备

Info

Publication number: CN112580039B
Application number: CN201910943767.0A
Authority: CN
Inventors: 杨龙; 吕群; 齐浩然
Original assignee: Qianxin Technology Group Co Ltd; Qianxin Safety Technology Zhuhai Co Ltd
Current assignee: Qianxin Technology Group Co Ltd; Qianxin Safety Technology Zhuhai Co Ltd
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2022-12-23
Anticipated expiration: 2039-09-30
Also published as: CN112580039A

Abstract

本申请公开了一种病毒特征数据的处理方法、装置及设备，涉及网络安全技术领域，可减少病毒特征数据提取的冗余。其中方法包括：首先根据病毒样本信息的运行行为、和静态扫描所述病毒样本信息所获得的程序信息，对所述病毒样本信息进行分类；然后依据病毒样本信息的特征信息，对分类后的病毒样本信息进行聚类，其中，所述特征信息至少包括文件大小、节表名称及个数、代码入口点指定范围内的字节、代码段大小、可执行文件类型中的一个或多个；最后按照聚类后的病毒样本信息进行多维度的病毒特征数据提取。本申请适用于病毒特征数据的提取处理。

Description

病毒特征数据的处理方法、装置及设备

技术领域

本申请涉及网络安全技术领域，尤其是涉及到一种病毒特征数据的处理方法、装置及设备。

背景技术

随着计算机互联网技术的发展，互联网应用变得越来越丰富，在带来海量信息与功能的同时使得计算机病毒的传播也更加便捷。近些年出现的病毒技术相比互联网早期已经有了很大变化。

为了进行反病毒处理，可利用病毒库中病毒特征进行病毒扫描，从而实现病毒查杀。目前，病毒库中的病毒特征具体可通过反病毒工程师手动添加提取。然而，这种方式提取的病毒特征存在局限性，使得大量的病毒特征只能针对单一个体或者变种病毒查杀，进而会造成病毒特征数据的冗余。

发明内容

有鉴于此，本申请提供了一种病毒特征数据的处理方法、装置及设备，主要目的在于解决目前现有技术中提取的病毒特征存在局限性，造成提取的病毒特征数据存在冗余的技术问题。

根据本申请的一个方面，提供了一种病毒特征数据的处理方法，该方法包括：

根据病毒样本信息的运行行为、和静态扫描所述病毒样本信息所获得的程序信息，对所述病毒样本信息进行分类；

依据病毒样本信息的特征信息，对分类后的病毒样本信息进行聚类，其中，所述特征信息至少包括文件大小、节表名称及个数、代码入口点指定范围内的字节、代码段大小、可执行文件类型中的一个或多个；

按照聚类后的病毒样本信息进行多维度的病毒特征数据提取。

可选的，所述依据病毒样本信息的特征信息，对分类后的病毒样本信息进行聚类，具体包括：

按照文件大小之间差值是否小于预设差值阈值、和/或节表名称及个数是否相同、和/或代码入口点指定范围内的字节相似度是否小于预设相似度阈值、和/或代码段大小之间差值是否小于预定差值阈值、和/或可执行文件类型是否相同，对分类后的病毒样本信息进行聚类。

可选的，所述根据病毒样本信息的运行行为、和静态扫描所述病毒样本信息所获得的程序信息，对所述病毒样本信息进行分类，具体包括：

检测在所述病毒样本信息运行过程中是否存在感染其他样本的行为；及

根据静态扫描所述病毒样本信息所获得的程序信息，检测所述病毒样本信息是否被加壳处理；

按照上述检测结果，将病毒样本信息分类为加壳感染型病毒样本信息、非加壳感染型病毒样本信息、加壳非感染型病毒样本信息、非加壳非感染型病毒样本信息。

可选的，所述按照聚类后的病毒样本信息进行多维度的病毒特征数据提取，具体包括：

提取与聚类后的非加壳非感染型病毒样本信息对应的多维度信息，其中，所述多维度信息至少包括非加壳非感染型病毒样本信息所在存储的字符串、代码区域，文件可执行类型，代码入口点所在节索引，附加数据，导出表与导入表，资源，安全传输层协议TLS，节数据以及可执行区域中的一个或多个；

通过数值类信息计算各自维度信息对应的区域上下限范围数值；及

根据数据类信息计算各自维度信息对应的最大包括的模糊数据块；

统计所述区域上下限范围数值和所述模糊数据块的块种特征，作为所述聚类后的非加壳非感染型病毒样本信息的病毒特征数据。

可选的，所述通过数值类信息计算各自维度信息对应的区域上下限范围数值，具体包括：

获取提取到的第一目标维度信息的数值类信息；

剔除获取到的所述数值类信息中的最大值和最小值，并将得到的次大值和次小值作为所述第一目标维度信息的区域上下限范围数值。

可选的，所述根据数据类信息计算各自维度信息对应的最大包括的模糊数据块，具体包括：

获取提取到的第二目标维度信息的数据类信息；

对比获取到的所述数据类信息中数据块之间的信息，每次计算新选取的数据块之间的模糊哈希值，以及与所述模糊哈希值对应的海明距离值，并将所述海明距离值最小的数据块作为相似块；

从所述相似块中获取最大的相似块，作为所述模糊数据块。

可选的，所述按照聚类后的病毒样本信息进行多维度的病毒特征数据提取，具体还包括：

计算聚类后的非加壳非感染型病毒样本信息对应的片段区域散列值，得到多段散列值信息；

根据所述多段散列值信息，计算单体样本散列值之间的相似度，得到模糊散列值相似度特征，并将所述模糊散列值相似度特征作为所述聚类后的非加壳非感染型病毒样本信息的病毒特征数据。

提取聚类后的加壳非感染型病毒样本信息对应的代码入口点指定范围内的散列值、对应的文件大小、以及对应的可执行文件类型信息，作为所述聚类后的加壳非感染型病毒样本信息的病毒特征数据。

提取聚类后的非加壳感染型病毒样本信息相比与其对应原始文件在代码入口处的特征变化信息，作为所述聚类后的非加壳感染型病毒样本信息的病毒特征数据，其中，所述原始文件为未被加壳且未被感染的正常样本文件。

可选的，将所述特征变化信息作为所述聚类后的非加壳感染型病毒样本信息的病毒特征数据，具体包括：

对所述特征变化信息进行缩略替换处理，并将处理后的所述特征变化信息作为所述聚类后的非加壳感染型病毒样本信息的病毒特征数据。

提取聚类后的加壳感染型病毒样本信息对应的代码入口点指定范围内的散列值、对应的文件大小、以及对应的可执行文件类型信息，作为所述聚类后的加壳感染型病毒样本信息的病毒特征数据。

可选的，在所述按照聚类后的病毒样本信息进行多维度的病毒特征数据提取之后，所述方法还包括：

将提取到的多维度的病毒特征数据，以病毒特征、病毒标识、特征数值进行映射存储。

根据本申请的另一方面，提供了一种病毒特征数据的处理装置，该装置包括：

分类模块，用于根据病毒样本信息的运行行为、和静态扫描所述病毒样本信息所获得的程序信息，对所述病毒样本信息进行分类；

聚类模块，用于依据病毒样本信息的特征信息，对分类后的病毒样本信息进行聚类，其中，所述特征信息至少包括文件大小、节表名称及个数、代码入口点指定范围内的字节、代码段大小、可执行文件类型中的一个或多个；

提取模块，用于按照聚类后的病毒样本信息进行多维度的病毒特征数据提取。

可选的，所述聚类模块，具体用于按照文件大小之间差值是否小于预设差值阈值、和/或节表名称及个数是否相同、和/或代码入口点指定范围内的字节相似度是否小于预设相似度阈值、和/或代码段大小之间差值是否小于预定差值阈值、和/或可执行文件类型是否相同，对分类后的病毒样本信息进行聚类。

可选的，所述分类模块，具体用于检测在所述病毒样本信息运行过程中是否存在感染其他样本的行为；及

可选的，所述提取模块，具体用于提取与聚类后的非加壳非感染型病毒样本信息对应的多维度信息，其中，所述多维度信息至少包括非加壳非感染型病毒样本信息所在存储的字符串、代码区域，文件可执行类型，代码入口点所在节索引，附加数据，导出表与导入表，资源，安全传输层协议TLS，节数据以及可执行区域中的一个或多个；

可选的，所述提取模块，具体还用于获取提取到的第一目标维度信息的数值类信息；

可选的，所述提取模块，具体还用于获取提取到的第二目标维度信息的数据类信息；

从所述相似块中获取最大的相似块，作为所述模糊数据块。

可选的，所述提取模块，具体还用于计算聚类后的非加壳非感染型病毒样本信息对应的片段区域散列值，得到多段散列值信息；

可选的，所述提取模块，具体用于提取聚类后的加壳非感染型病毒样本信息对应的代码入口点指定范围内的散列值、对应的文件大小、以及对应的可执行文件类型信息，作为所述聚类后的加壳非感染型病毒样本信息的病毒特征数据。

可选的，所述提取模块，具体用于提取聚类后的非加壳感染型病毒样本信息相比与其对应原始文件在代码入口处的特征变化信息，作为所述聚类后的非加壳感染型病毒样本信息的病毒特征数据，其中，所述原始文件为未被加壳且未被感染的正常样本文件。

可选的，所述提取模块，具体还用于对所述特征变化信息进行缩略替换处理，并将处理后的所述特征变化信息作为所述聚类后的非加壳感染型病毒样本信息的病毒特征数据。

可选的，所述提取模块，具体用于提取聚类后的加壳感染型病毒样本信息对应的代码入口点指定范围内的散列值、对应的文件大小、以及对应的可执行文件类型信息，作为所述聚类后的加壳感染型病毒样本信息的病毒特征数据。

可选的，所述装置还包括：

存储模块，用于将提取到的多维度的病毒特征数据，以病毒特征、病毒标识、特征数值进行映射存储。

依据本申请又一个方面，提供了一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述病毒特征数据的处理方法。

依据本申请再一个方面，提供了一种病毒特征数据处理的实体设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述病毒特征数据的处理方法。

借由上述技术方案，本申请提供的一种病毒特征数据的处理方法、装置及设备。本申请在根据病毒样本信息的运行行为、和静态扫描病毒样本信息所获得的程序信息，对病毒样本信息进行分类后，可依据病毒样本信息的文件大小、节表名称及个数、代码入口点指定范围内的字节、代码段大小、可执行文件类型等，对分类后的病毒样本信息进行聚类，进而使得病毒样本信息分类更加细化，精度更高，更能满足业务场景的需要。这样按照聚类后的病毒样本信息进行提取的多维度病毒特征数据，可针对每个更精准化的分类进行具有针对性的多维度病毒特征数据提取操作，从而使得后续可针对每个类型的病毒，利用对应类型的多维度病毒特征数据进行查杀处理，与目前现有技术中相比，不会针对单一类型个体或者变种的病毒采用大量其他类型的病毒特征数据进行查杀，可减少病毒特征数据的冗余。并且与通过反病毒工程师手动添加提取病毒特征数据的方式相比，可提高病毒特征数据提取的效率和精准性，无需病毒特征提取人员深度学习病毒特征的理论基础，可节省一定的学习成本。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种病毒特征数据的处理方法的流程示意图；

图2示出了本申请实施例提供的另一种病毒特征数据的处理方法的流程示意图；

图3示出了本申请实施例提供的一种病毒特征数据的处理装置的结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

针对解决目前现有技术中提取的病毒特征存在局限性，造成提取的病毒特征数据存在冗余的技术问题。本实施例提供了一种病毒特征数据的处理方法，如图1所示，该方法包括：

101、根据病毒样本信息的运行行为、和静态扫描病毒样本信息所获得的程序信息，对病毒样本信息进行分类。

对于本实施例的执行主体可为病毒特征数据的提取处理装置或设备，可配置在客户端侧，或者根据实际需求配置在服务器侧。具体可用于代替反病毒工程师手动添加提取病毒特征数据到病毒特征库中。即执行步骤101至103所示的过程。

102、依据病毒样本信息的特征信息，对分类后的病毒样本信息进行聚类。

其中，病毒样本信息的特征信息可至少包括文件大小、节表名称及个数、代码入口点指定范围内的字节、代码段大小、可执行文件类型中的一个或多个。

在本实施例中，在根据病毒样本信息的运行行为、和静态扫描病毒样本信息所获得的程序信息，对病毒样本信息进行分类后，可根据病毒样本信息的文件大小、节表名称及个数、代码入口点指定范围内的字节、代码段大小、可执行文件类型等具体特征进行再聚类，这样使得病毒样本信息分类更加细化，精准度更高，更能满足业务场景的需要。

103、按照聚类后的病毒样本信息进行多维度的病毒特征数据提取。

通过应用上述病毒特征数据的处理方法，可使得病毒样本信息分类更加细化，精度更高，更能满足业务场景的需要。这样按照聚类后的病毒样本信息进行提取的多维度病毒特征数据，可针对每个更精准化的分类进行具有针对性的多维度病毒特征数据提取操作，从而使得后续可针对每个类型的病毒，利用对应类型的多维度病毒特征数据进行查杀处理，与目前现有技术中相比，不会针对单一类型个体或者变种的病毒采用大量其他类型的病毒特征数据进行查杀，可减少病毒特征数据的冗余。并且与通过反病毒工程师手动添加提取病毒特征数据的方式相比，可提高病毒特征数据提取的效率和精准性，无需病毒特征提取人员深度学习病毒特征的理论基础，可节省一定的学习成本。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例的实施过程，提供了另一种病毒特征数据的处理方法，如图2所示，该方法包括：

201、检测在病毒样本信息运行过程中是否存在感染其他样本的行为，以及根据静态扫描病毒样本信息所获得的程序信息，检测病毒样本信息是否被加壳处理。

例如，根据病毒样本的运行行为，如果在病毒样本运行过程中存在感染其他程序的行为则认为是感染型病毒样本，如果不存在这种行为描述的则认为是非感染型病毒样本。静态扫描病毒样本信息对应文件所获得的信息，区分是否被加壳。

202、按照上述检测结果，将病毒样本信息分类为加壳感染型病毒样本信息、非加壳感染型病毒样本信息、加壳非感染型病毒样本信息、非加壳非感染型病毒样本信息。

通过上述的分类方式可划分出目前病毒查杀业务主要关心的几种类型的病毒样本，以便后续在此基础继续进行聚类，得到更加细化，精准度更高，更能满足业务场景需要的病毒样本信息分类结果。其中，具体的聚类过程可执行步骤203所示的过程。

203、按照病毒样本信息的文件大小之间差值是否小于预设差值阈值、和/或节表名称及个数是否相同、和/或代码入口点指定范围内的字节相似度是否小于预设相似度阈值、和/或代码段大小之间差值是否小于预定差值阈值、和/或可执行文件类型是否相同，对分类后的病毒样本信息进行聚类。

其中，预设差值阈值、预设相似度阈值、预定差值阈值可根据实际需求预先配置。

例如，可设置条件如下：

(1)病毒样本信息的文件大小相近，范围变化在±1％左右；

(2)病毒样本信息的节表名称及个数相同；

(3)病毒样本信息的代码入口点指定范围，如(入口点前100与后100合计200字节)计算相似度，该相似度小于一定的阈值；

(4)病毒样本信息的代码段大小相近，范围变化在±0.5％左右；

(5)病毒样本信息的可执行文件类型相同，如EXE、DLL、SYS等。

通过对加壳感染型病毒样本信息、非加壳感染型病毒样本信息、加壳非感染型病毒样本信息、非加壳非感染型病毒样本信息这4类样本，使用上述5种条件或部分条件之间的组合，使得每类的样本再次聚类起来。通过这种方式使得病毒样本信息分类更加细化，精准度更高，更能满足业务场景的需要。

下面具体说明聚类后几种病毒样本信息的多维度病毒特征数据的提取过程。

204a、提取聚类后的加壳感染型病毒样本信息对应的代码入口点指定范围内的散列值、对应的文件大小、以及对应的可执行文件类型信息，作为所述聚类后的加壳感染型病毒样本信息的病毒特征数据。

在本实施例中，对于聚类后的加壳感染型病毒样本信息，相比原始文件(未被加壳且未被感染的正常样本文件)基本不具备相似性，所以针对该类型，会提取入口代码处指定范围内的散列值，同时限定文件大小阈值，文件程序类型以作辅助精准查杀之用。

例如，可提取如下3种信息：

(a)提取病毒样本信息对应的代码入口点指定范围内的散列值；

(b)提取病毒样本信息对应的文件大小；

(c)提取病毒样本信息对应的可执行文件类型信息，如EXE、DLL、SYS等。

其中，(a)为主要用于查杀的病毒特征信息，(b)、(c)为辅助验证的病毒特征信息，用以避免可能引发的误报出现。通过这种方式可实现提取更加全面的多维度病毒特征数据，后续可精准查杀加壳感染型的病毒。

与步骤204a并列的步骤204b、提取聚类后的非加壳感染型病毒样本信息相比与其对应原始文件在代码入口处的特征变化信息，作为聚类后的非加壳感染型病毒样本信息的病毒特征数据。

在本实施例中，对于聚类后的非加壳感染型病毒样本信息，相比原始文件，其入口代码信息发生改变，或导入表发生变化，针对该类型，对已分类的样本，在入口代码处提取特征，但需要跳过常见的编译器特征后进行提取。

可选的，将上述特征变化信息作为聚类后的非加壳感染型病毒样本信息的病毒特征数据，具体可包括：对特征变化信息进行缩略替换处理，并将处理后的特征变化信息作为聚类后的非加壳感染型病毒样本信息的病毒特征数据。

例如，提取如下特征：

“AABBCCDD0011223344”

…

“AABBCC330011223344”

保留相同部分，将不同之处用？代替后得到如下模糊特征：

“AABBCC？？0011223344”

当特征长度超过一定阈值时，如下情况

“AABBCC？？？？？？？？？？？？？？？？？？AABBDD”

可将其表示为如下方式代替，这样可以减少特征存储所需大小

“AABBCC[18]66AABBDD”

其中，AABBCC是特征码；[18]代表？的个数，即表示跳过18个字节长度；66AABBDD表示跳过后需要立即进行匹配的特征码。

与步骤204a、204b并列的步骤204c、提取聚类后的加壳非感染型病毒样本信息对应的代码入口点指定范围内的散列值、对应的文件大小、以及对应的可执行文件类型信息，作为聚类后的加壳非感染型病毒样本信息的病毒特征数据。

在本实施例中，对于加壳非感染型病毒样本信息，相比原始文件基本不具备相似性，所以针对该类型，可按照类似于步骤204a所示的过程处理。

与步骤204a、204b、204c并列的步骤204d、提取与聚类后的非加壳非感染型病毒样本信息对应的多维度信息。

其中，多维度信息可至少包括非加壳非感染型病毒样本信息所在存储的字符串、代码区域，文件可执行类型，代码入口点所在节索引，附加数据，导出表与导入表，资源，安全传输层协议(Transport Layer Security，TLS)，节数据以及可执行区域中的一个或多个。

205d、通过数值类信息计算各自维度信息对应的区域上下限范围数值，以及根据数据类信息计算各自维度信息对应的最大包括的模糊数据块。

可选的，上述通过数值类信息计算各自维度信息对应的区域上下限范围数值，具体可包括：首先获取提取到的第一目标维度信息的数值类信息；然后剔除获取到的所述数值类信息中的最大值和最小值，并将得到的次大值和次小值作为第一目标维度信息的区域上下限范围数值。对于具有数值类信息的各个维度，通过这种可选方式可准确获取这些维度的区域上下限范围数值。

例如，提取某维度的数值信息后，剔除数值的最大、最小数以防止数据干扰，此时得到次大和次小值作为该维度的上下限特征信息。

可选的，上述根据数据类信息计算各自维度信息对应的最大包括的模糊数据块，具体可包括：首先获取提取到的第二目标维度信息的数据类信息；然后对比获取到的数据类信息中数据块之间的信息，每次计算新选取的数据块之间的模糊哈希值，以及与模糊哈希值对应的海明距离值，并将该海明距离值最小的数据块作为相似块；最后从该相似块中获取最大的相似块，作为模糊数据块。对于具有数据类信息的各个维度，通过这种可选方式可准确算出能最大包括该批样本的模糊数据块。

例如，提取某维度的数据类信息后，对比数据块之间的信息，通过不断计算所选取的块之间的模糊hash值(如使用simhash算法)，之后计算该所得一系列hash值的海明距离，当海明距离值最小时可知该块为相似块，同理可获得最大的相似块，通过提取该块种的特征。

206d、统计上述计算得到的区域上下限范围数值和模糊数据块的块种特征，作为聚类后的非加壳非感染型病毒样本信息的病毒特征数据。

通过这种多维度的病毒特征提取方式，可提取更加全面、更加准确的非加壳非感染型病毒样本的病毒特征数据，从而可提高该类病毒安全查杀的准确性。

为了后续进一步的再提高非加壳非感染型病毒的查杀能力，可选的，对于聚类后的非加壳非感染型病毒样本信息的病毒特征数据的提取操作，除了提取上述两种特征以外，还可包括：首先计算聚类后的非加壳非感染型病毒样本信息对应的片段区域散列值，得到多段散列值信息；然后根据得到的多段散列值信息，计算单体样本散列值之间的相似度，得到模糊散列值相似度特征，并将该模糊散列值相似度特征作为聚类后的非加壳非感染型病毒样本信息的病毒特征数据。通过这种可选方式，弥补了上述两类特征的查杀能力的不足，可进一步提高该类病毒安全查杀的准确性。

在得到上述四种病毒样本的特征数据之后，进一步的，本实施例方法还可包括：将提取到的各个类型病毒样本各自所对应的多维度病毒特征数据，以病毒特征、病毒标识、特征数值进行映射存储。这样后续可针对每个类型的病毒，利用对应类型的多维度病毒特征数据进行查杀处理。

通过应用上述本实施例方案，通过在特征分类后使用本实施例方法即多规则特征码提取，不仅可以提高特征码提取的效率，同时能在一定程度上延长特征码的有效周期。与目前现有技术中相比，不会针对单一类型个体或者变种的病毒采用大量其他类型的病毒特征数据进行查杀，可减少病毒特征数据的冗余。并且与通过反病毒工程师手动添加提取病毒特征数据的方式相比，可提高病毒特征数据提取的效率和精准性，无需病毒特征提取人员深度学习病毒特征的理论基础，可节省一定的学习成本。

进一步的，作为图1、图2所示方法的具体实现，本实施例提供了一种病毒特征数据的处理装置，如图3所示，该装置包括：分类模块31、聚类模块32、提取模块33。

分类模块31，可用于根据病毒样本信息的运行行为、和静态扫描所述病毒样本信息所获得的程序信息，对所述病毒样本信息进行分类；

聚类模块32，可用于依据病毒样本信息的特征信息，对分类后的病毒样本信息进行聚类，其中，所述特征信息至少包括文件大小、节表名称及个数、代码入口点指定范围内的字节、代码段大小、可执行文件类型中的一个或多个；

提取模块33，可用于按照聚类后的病毒样本信息进行多维度的病毒特征数据提取。

在具体的应用场景中，所述聚类模块32，具体可用于按照文件大小之间差值是否小于预设差值阈值、和/或节表名称及个数是否相同、和/或代码入口点指定范围内的字节相似度是否小于预设相似度阈值、和/或代码段大小之间差值是否小于预定差值阈值、和/或可执行文件类型是否相同，对分类后的病毒样本信息进行聚类。

在具体的应用场景中，所述分类模块31，具体用于检测在所述病毒样本信息运行过程中是否存在感染其他样本的行为；及根据静态扫描所述病毒样本信息所获得的程序信息，检测所述病毒样本信息是否被加壳处理；

在具体的应用场景中，所述提取模块33，具体可用于提取与聚类后的非加壳非感染型病毒样本信息对应的多维度信息，其中，所述多维度信息至少包括非加壳非感染型病毒样本信息所在存储的字符串、代码区域，文件可执行类型，代码入口点所在节索引，附加数据，导出表与导入表，资源，TLS，节数据以及可执行区域中的一个或多个；通过数值类信息计算各自维度信息对应的区域上下限范围数值；及根据数据类信息计算各自维度信息对应的最大包括的模糊数据块；统计所述区域上下限范围数值和所述模糊数据块的块种特征，作为所述聚类后的非加壳非感染型病毒样本信息的病毒特征数据。

在具体的应用场景中，所述提取模块33，具体还可用于获取提取到的第一目标维度信息的数值类信息；剔除获取到的所述数值类信息中的最大值和最小值，并将得到的次大值和次小值作为所述第一目标维度信息的区域上下限范围数值。

在具体的应用场景中，所述提取模块33，具体还可用于获取提取到的第二目标维度信息的数据类信息；对比获取到的所述数据类信息中数据块之间的信息，每次计算新选取的数据块之间的模糊哈希值，以及与所述模糊哈希值对应的海明距离值，并将所述海明距离值最小的数据块作为相似块；从所述相似块中获取最大的相似块，作为所述模糊数据块。

在具体的应用场景中，所述提取模块，具体还可用于计算聚类后的非加壳非感染型病毒样本信息对应的片段区域散列值，得到多段散列值信息；根据所述多段散列值信息，计算单体样本散列值之间的相似度，得到模糊散列值相似度特征，并将所述模糊散列值相似度特征作为所述聚类后的非加壳非感染型病毒样本信息的病毒特征数据。

在具体的应用场景中，所述提取模块，具体还可用于提取聚类后的加壳非感染型病毒样本信息对应的代码入口点指定范围内的散列值、对应的文件大小、以及对应的可执行文件类型信息，作为所述聚类后的加壳非感染型病毒样本信息的病毒特征数据。

在具体的应用场景中，所述提取模块33，具体还可用于提取聚类后的非加壳感染型病毒样本信息相比与其对应原始文件在代码入口处的特征变化信息，作为所述聚类后的非加壳感染型病毒样本信息的病毒特征数据，其中，所述原始文件为未被加壳且未被感染的正常样本文件。

在具体的应用场景中，所述提取模块33，具体还可用于对所述特征变化信息进行缩略替换处理，并将处理后的所述特征变化信息作为所述聚类后的非加壳感染型病毒样本信息的病毒特征数据。

在具体的应用场景中，所述提取模块33，具体还可用于提取聚类后的加壳感染型病毒样本信息对应的代码入口点指定范围内的散列值、对应的文件大小、以及对应的可执行文件类型信息，作为所述聚类后的加壳感染型病毒样本信息的病毒特征数据。

在具体的应用场景中，本装置还可包括：存储模块；

存储模块，可用于将提取到的多维度的病毒特征数据，以病毒特征、病毒标识、特征数值进行映射存储。

需要说明的是，本实施例提供的一种病毒特征数据的处理装置所涉及各功能单元的其它相应描述，可以参考图1、图2中的对应描述，在此不再赘述。

基于上述如图1、图2所示方法，相应的，本实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1、图2所示的病毒特征数据的处理方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该待识别软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

基于上述如图1、图2所示的方法，以及图3所示的虚拟装置实施例，为了实现上述目的，本实施例还提供了一种病毒特征数据处理的实体设备，具体可以为个人计算机、服务器、智能手机、平板电脑、或者其它网络设备等，该实体设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1、图2所示的方法。

可选的，该实体设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的一种病毒特征数据处理的实体设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述实体设备硬件和待识别软件资源的程序，支持信息处理程序以及其它待识别软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与信息处理实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。通过应用本申请的技术方案，通过在特征分类后使用本实施例方法即多规则特征码提取，不仅可以提高特征码提取的效率，同时能在一定程度上延长特征码的有效周期。与目前现有技术中相比，不会针对单一类型个体或者变种的病毒采用大量其他类型的病毒特征数据进行查杀，可减少病毒特征数据的冗余。并且与通过反病毒工程师手动添加提取病毒特征数据的方式相比，可提高病毒特征数据提取的效率和精准性，无需病毒特征提取人员深度学习病毒特征的理论基础，可节省一定的学习成本。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种病毒特征数据的处理方法，其特征在于，包括：

按照文件大小之间差值是否小于预设差值阈值、和/或节表名称及个数是否相同、和/或代码入口点指定范围内的字节相似度是否小于预设相似度阈值、和/或代码段大小之间差值是否小于预定差值阈值、和/或可执行文件类型是否相同，对分类后的病毒样本信息进行聚类；

2.根据权利要求1所述的方法，其特征在于，所述根据病毒样本信息的运行行为、和静态扫描所述病毒样本信息所获得的程序信息，对所述病毒样本信息进行分类，具体包括：

按照病毒样本信息运行过程中存在感染其他样本的行为的检测结果以及病毒样本信息被加壳处理的检测结果，将病毒样本信息分类为加壳感染型病毒样本信息、非加壳感染型病毒样本信息、加壳非感染型病毒样本信息、非加壳非感染型病毒样本信息。

3.根据权利要求1所述的方法，其特征在于，所述通过数值类信息计算各自维度信息对应的区域上下限范围数值，具体包括：

获取提取到的第一目标维度信息的数值类信息；

4.根据权利要求1所述的方法，其特征在于，所述根据数据类信息计算各自维度信息对应的最大包括的模糊数据块，具体包括：

获取提取到的第二目标维度信息的数据类信息；

从所述相似块中获取最大的相似块，作为所述模糊数据块。

5.根据权利要求1所述的方法，其特征在于，所述按照聚类后的病毒样本信息进行多维度的病毒特征数据提取，具体还包括：

6.根据权利要求2所述的方法，其特征在于，所述按照聚类后的病毒样本信息进行多维度的病毒特征数据提取，具体包括：

7.根据权利要求2所述的方法，其特征在于，所述按照聚类后的病毒样本信息进行多维度的病毒特征数据提取，具体包括：

8.根据权利要求7所述的方法，其特征在于，将所述特征变化信息作为所述聚类后的非加壳感染型病毒样本信息的病毒特征数据，具体包括：

9.根据权利要求2所述的方法，其特征在于，所述按照聚类后的病毒样本信息进行多维度的病毒特征数据提取，具体包括：

10.根据权利要求1至9任一项所述的方法，其特征在于，在所述按照聚类后的病毒样本信息进行多维度的病毒特征数据提取之后，所述方法还包括：

11.一种病毒特征数据的处理装置，其特征在于，包括：

提取模块，用于按照聚类后的病毒样本信息进行多维度的病毒特征数据提取；

所述聚类模块，具体用于按照文件大小之间差值是否小于预设差值阈值、和/或节表名称及个数是否相同、和/或代码入口点指定范围内的字节相似度是否小于预设相似度阈值、和/或代码段大小之间差值是否小于预定差值阈值、和/或可执行文件类型是否相同，对分类后的病毒样本信息进行聚类；

所述提取模块，具体用于：提取与聚类后的非加壳非感染型病毒样本信息对应的多维度信息，其中，所述多维度信息至少包括非加壳非感染型病毒样本信息所在存储的字符串、代码区域，文件可执行类型，代码入口点所在节索引，附加数据，导出表与导入表，资源，安全传输层协议TLS，节数据以及可执行区域中的一个或多个；

12.根据权利要求11所述的装置，其特征在于，

所述分类模块，具体用于检测在所述病毒样本信息运行过程中是否存在感染其他样本的行为；及

13.根据权利要求11所述的装置，其特征在于，

所述提取模块，具体还用于获取提取到的第一目标维度信息的数值类信息；

14.根据权利要求11所述的装置，其特征在于，

所述提取模块，具体还用于获取提取到的第二目标维度信息的数据类信息；

从所述相似块中获取最大的相似块，作为所述模糊数据块。

15.根据权利要求11所述的装置，其特征在于，

所述提取模块，具体还用于计算聚类后的非加壳非感染型病毒样本信息对应的片段区域散列值，得到多段散列值信息；

16.根据权利要求12所述的装置，其特征在于，

所述提取模块，具体用于提取聚类后的加壳非感染型病毒样本信息对应的代码入口点指定范围内的散列值、对应的文件大小、以及对应的可执行文件类型信息，作为所述聚类后的加壳非感染型病毒样本信息的病毒特征数据。

17.根据权利要求12所述的装置，其特征在于，

所述提取模块，具体用于提取聚类后的非加壳感染型病毒样本信息相比与其对应原始文件在代码入口处的特征变化信息，作为所述聚类后的非加壳感染型病毒样本信息的病毒特征数据，其中，所述原始文件为未被加壳且未被感染的正常样本文件。

18.根据权利要求17所述的装置，其特征在于，

所述提取模块，具体还用于对所述特征变化信息进行缩略替换处理，并将处理后的所述特征变化信息作为所述聚类后的非加壳感染型病毒样本信息的病毒特征数据。

19.根据权利要求12所述的装置，其特征在于，

所述提取模块，具体用于提取聚类后的加壳感染型病毒样本信息对应的代码入口点指定范围内的散列值、对应的文件大小、以及对应的可执行文件类型信息，作为所述聚类后的加壳感染型病毒样本信息的病毒特征数据。

20.根据权利要求11至19任一项所述的装置，其特征在于，所述装置还包括：

21.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至10中任一项所述的病毒特征数据的处理方法。

22.一种病毒特征数据的处理设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至10中任一项所述的病毒特征数据的处理方法。