CN105760897B

CN105760897B - 一种使用可信度分类器进行文件分类的方法及装置

Info

Publication number: CN105760897B
Application number: CN201610168128.8A
Authority: CN
Inventors: 张晶
Original assignee: Hefei Synitalent Information Technology Co Ltd
Current assignee: Hefei Synitalent Information Technology Co Ltd
Priority date: 2016-03-21
Filing date: 2016-03-21
Publication date: 2019-08-20
Anticipated expiration: 2036-03-21
Also published as: CN105760897A

Abstract

本发明公开了一种使用可信度分类器进行文件分类的方法，包括如下步骤：识别一组适合于可信度分类器识别干净或恶意计算资源的训练数据；选择基于所述可信度分类器的特定组织的特征的训练数据子集；为使用所述训练数据子集的特定组织训练一个可信度分类器；将训练的可信度分类器应用到一个特定组织的计算资源，以用来区分计算资源是干净资源或恶意资源。本发明还涉及一种实现上述使用可信度分类器进行文件分类的方法的装置。实施本发明的使用可信度分类器进行文件分类的方法及装置，具有以下有益效果：能够提高可信度分类器的分类精度、减少误报率。

Description

一种使用可信度分类器进行文件分类的方法及装置

技术领域

本发明涉及文件分类领域，特别涉及一种使用可信度分类器进行文件分类的方法及装置。

背景技术

可信度分类器常常被用于基于文件特征的文件分类。一个安全软件产品可以将可信度分类器应用到终端用户计算设备的一个文件上。安全软件产品利用可信度分类器比较文件的各种特征(如该文件的名称、路径、大小、存储位置、源、扩展名、格式或创建日期)，通过比较这些特征，安全软件产品能够非常准确地将该文件进行干净文件或恶意文件的分类。

但不幸的是，在某些情况下传统的可信度分类器仍然可能导致误报。例如，一个安全软件厂商可以从一系列的训练数据中生成一个传统的可信度分类器，以上训练数据包括能够向组织或个人用户提供已知的干净或感染的文件。然而，虽然所得的传统可信度分类器可以被广泛地量身定制给供应商的一般客户，但此可信度分类器可能无法解释供应商的客户中特定组织的某些细微差别。其结果是，当传统的可信度分类器应用到某些组织的文件中时，可能会失去它的一些精度，从而降低了分类精度。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述降低分类精度、导致误报的缺陷，提供一种能够提高可信度分类器的分类精度、减少误报率的使用可信度分类器进行文件分类的方法及装置。

本发明解决其技术问题所采用的技术方案是：构造一种使用可信度分类器进行文件分类的方法，包括如下步骤：

A1)识别一组适合于可信度分类器识别干净或恶意计算资源的训练数据；

B1)选择基于所述可信度分类器的特定组织的特征的训练数据子集；

C1)为使用所述训练数据子集的特定组织训练一个可信度分类器；

D1)将训练的可信度分类器应用到一个特定组织的计算资源，以用来区分计算资源是干净资源或恶意资源。

在本发明所述的使用可信度分类器进行文件分类的方法中，所述特定组织的特征包括或代表具体组织的大小、一个特定组织的关系、一个具体组织的行业或者一个具体组织的地理区域。

在本发明所述的使用可信度分类器进行文件分类的方法中，所述训练数据包括从多个不同组织收集的数据和特定于多个不同组织的数据。

在本发明所述的使用可信度分类器进行文件分类的方法中，当对可信度未知的计算资源进行分类时，其步骤如下：

A2)识别适用于训练可信度分类器的训练数据集；

B2)识别至少一个由多个不同组织内的某个组织生成之后的一定时间内可信度未知的计算资源；

C2)收集所述可信度未知的计算资源的信息，并将其信息分类为干净或恶意信息；

D2)训练包含以下内容的可信度分类器：计算资源未知时收集的资源信息；计算资源的分类为干净或恶意资源。

在本发明所述的使用可信度分类器进行文件分类的方法中，所述训练数据子集能识别已知的干净或恶意的计算资源的静态特性。

本发明还涉及一种实现上述使用可信度分类器进行文件分类的方法的装置，包括：

识别模块：用于识别一组适合于可信度分类器分类计算资源的训练数据；

选择模块：用于选择适用于可信度分类器的训练数据子集，所述训练数据子集基于特定组织的至少一个特征；

训练模块：用于为使用所述训练数据子集的特定组织训练一个可信度分类器；

分类模块：用于将所述可信度分类器应用到一个特定组织的计算资源，用于区分所述计算资源是否恶意；

至少一个物理处理器，用于执行所述识别模块、选择模块、训练模块和分类模块。

在本发明所述的装置中，所述特定组织的特征包括或代表具体组织的大小、一个特定组织的关系、一个具体组织的行业或者一个具体组织的地理区域。

在本发明所述的装置中，所述训练数据包括从多个不同组织收集的数据和特定于多个不同组织的数据。

在本发明所述的装置中，当对可信度未知的计算资源进行分类时，进一步包括：

训练数据集识别模块：用于识别适用于训练可信度分类器的训练数据集；

未知计算资源识别模块：用于识别至少一个由多个不同组织内的某个组织生成之后的一定时间内可信度未知的计算资源；

信息收集模块：用于收集所述可信度未知的计算资源的信息，并将其信息分类为干净或恶意信息；

可信度训练模块：用于训练包含以下内容的可信度分类器：计算资源未知时收集的资源信息；计算资源的分类为干净或恶意资源。

在本发明所述的装置中，所述训练数据子集能识别已知的干净或恶意的计算资源的静态特性。

实施本发明的使用可信度分类器进行文件分类的方法及装置，具有以下有益效果：通过挑选基于使用可信度分类器的某些组织特性的训练数据子集，训练一个用于特定组织的可信度分类器，然后将可信度分类器到应用到至少一个由特定组织用于识别干净或恶意资源的计算资源上，与传统可信度分类器比较，通过这种训练方式，本发明能够提高可信度分类器的分类精度、减少误报率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明使用可信度分类器进行文件分类的方法及装置一个实施例中的方法的流程图；

图2为所述实施例中当对可信度未知的计算资源进行分类时的具体流程图；

图3为所述实施例中系统的结构示意图；

图4为所述实施例中训练可信度分类器的示意图；

图5为所述实施例中将可信度分类器分配到训练可信度分类器的组织的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明使用可信度分类器进行文件分类的方法及装置实施例中，其使用可信度分类器进行文件分类的方法的流程图如图1所示。执行该方法的计算设备至少包括一个处理器。图1中，该方法包括如下步骤：

步骤S11识别一组适合于可信度分类器识别干净或恶意计算资源的训练数据：本步骤中，识别一组适合于可信度分类器识别干净或恶意计算资源的训练数据，也就是识别一组训练数据，用于可信度分类器识别干净或恶意的计算资源。上述训练数据包括从多个不同组织收集的数据和特定于多个不同组织的数据。

本实施例中，训练数据可以是训练数据集，在本实施例中，训练数据集可以包括多个训练数据子集。这多个训练数据子集可以具有某些共同或共享的数据。训练数据集可以包括标记为已知的干净、恶意、介于两者之间的或未知的某些计算资源。训练数据集可以标识一个文件具有50％的可信度，这表明文件的可信度是介于绝对干净和绝对恶意两者之间。另外，训练数据集可以包括关于这种已知的文件信息或识别特定特征、特性、属性或已知文件行为的这些信息。训练数据包括但不限于：已标记的文件、文件的静态功能、文件运行时的行为、文件名、文件路径、文件大小、文件的存储位置、文件来源、文件的作者、创建某些文件、文件的可信度分类器、文件扩展名的文件格式、文件的熵、文件扩展名的数量、文件中非数字字符的数量、文件是否签名、文件使用的普遍性、文件的年龄、文件的创建日期、其他标记的计算资源(如标记的因特网协议(IP)地址、标记的统一资源定位器(URL)、标记的雇员个人数据等)，以及关于这些计算资源的其他信息(例如：作为计算资源的静态功能、路径、作者等等)或任何其他适合的训练数据的组合。

本实施例中，可信度分类器通常指任意类型或格式的算法、工具或对计算资源可信度进行分类的模型。可信度分类器可包括或识别多个用于将文件的可信度进行分类的特征。可信度分类器包括但不限于：签名、一般定义、启发式、分类、数据群集、感知器、决策树或任意其它适合的可信度分类器的组合。

步骤S12选择基于可信度分类器的特定组织的特征的训练数据子集：本步骤中，选择基于可信度分类器的特定组织的特征的训练数据子集，训练数据子集的个数可以是一个或多个。安全软件厂商可以分析使用了训练数据的可信度分类器的精度。训练数据包括但不限于：涉及到具体大小的组织、源自或由特定组织生成的训练数据、涉及到特定行业组织的训练数据、与一定的地理区域内组织相关的总部，或任意其它合适的载体的组合。

步骤S13为使用训练数据子集的特定组织训练一个可信度分类器：本步骤中，为使用训练数据子集的特定组织训练一个可信度分类器，也就是该可信度分类器使用了特定组织特性的训练数据子集。

步骤S14将训练的可信度分类器应用到一个特定组织的计算资源，以用来区分计算资源是干净资源或恶意资源：本步骤中，将将训练的可信度分类器应用到一个特定组织的计算资源，也就是将可信度分类器应用到又特定组织用于区分文件类型而生成的文件中，以用来区分计算资源是干净资源或恶意资源。上述步骤S11至步骤S14可通过合适的计算机可执行代码或计算系统来执行。

Claims

1.一种使用可信度分类器进行文件分类的方法，其特征在于，包括如下步骤：

D1)将训练的可信度分类器应用到一个特定组织的计算资源，以用来区分计算资源是干净资源或恶意资源；

当对可信度未知的计算资源进行分类时，其步骤如下：

A2)识别适用于训练可信度分类器的训练数据集；

2.根据权利要求1所述的使用可信度分类器进行文件分类的方法，其特征在于，所述特定组织的特征包括或代表具体组织的大小、一个特定组织的关系、一个具体组织的行业或者一个具体组织的地理区域。

3.根据权利要求1所述的使用可信度分类器进行文件分类的方法，其特征在于，所述训练数据包括从多个不同组织收集的数据和特定于多个不同组织的数据。

4.根据权利要求1所述的使用可信度分类器进行文件分类的方法，其特征在于，所述训练数据子集能识别已知的干净或恶意的计算资源的静态特性。

5.一种实现如权利要求1所述的使用可信度分类器进行文件分类的方法的装置，其特征在于，包括：

至少一个物理处理器，用于执行所述识别模块、选择模块、训练模块和分类模块；

当对可信度未知的计算资源进行分类时，进一步包括：

6.根据权利要求5所述的装置，其特征在于，所述特定组织的特征包括或代表具体组织的大小、一个特定组织的关系、一个具体组织的行业或者一个具体组织的地理区域。

7.根据权利要求5所述的装置，其特征在于，所述训练数据包括从多个不同组织收集的数据和特定于多个不同组织的数据。

8.根据权利要求5所述的装置，其特征在于，所述训练数据子集能识别已知的干净或恶意的计算资源的静态特性。