CN105760897B - 一种使用可信度分类器进行文件分类的方法及装置 - Google Patents

一种使用可信度分类器进行文件分类的方法及装置 Download PDF

Info

Publication number
CN105760897B
CN105760897B CN201610168128.8A CN201610168128A CN105760897B CN 105760897 B CN105760897 B CN 105760897B CN 201610168128 A CN201610168128 A CN 201610168128A CN 105760897 B CN105760897 B CN 105760897B
Authority
CN
China
Prior art keywords
confidence level
level classifier
computing resource
training
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610168128.8A
Other languages
English (en)
Other versions
CN105760897A (zh
Inventor
张晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Synitalent Information Technology Co Ltd
Original Assignee
Hefei Synitalent Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Synitalent Information Technology Co Ltd filed Critical Hefei Synitalent Information Technology Co Ltd
Priority to CN201610168128.8A priority Critical patent/CN105760897B/zh
Publication of CN105760897A publication Critical patent/CN105760897A/zh
Application granted granted Critical
Publication of CN105760897B publication Critical patent/CN105760897B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Abstract

本发明公开了一种使用可信度分类器进行文件分类的方法,包括如下步骤:识别一组适合于可信度分类器识别干净或恶意计算资源的训练数据;选择基于所述可信度分类器的特定组织的特征的训练数据子集;为使用所述训练数据子集的特定组织训练一个可信度分类器;将训练的可信度分类器应用到一个特定组织的计算资源,以用来区分计算资源是干净资源或恶意资源。本发明还涉及一种实现上述使用可信度分类器进行文件分类的方法的装置。实施本发明的使用可信度分类器进行文件分类的方法及装置,具有以下有益效果:能够提高可信度分类器的分类精度、减少误报率。

Description

一种使用可信度分类器进行文件分类的方法及装置
技术领域
本发明涉及文件分类领域,特别涉及一种使用可信度分类器进行文件分类的方法及装置。
背景技术
可信度分类器常常被用于基于文件特征的文件分类。一个安全软件产品可以将可信度分类器应用到终端用户计算设备的一个文件上。安全软件产品利用可信度分类器比较文件的各种特征(如该文件的名称、路径、大小、存储位置、源、扩展名、格式或创建日期),通过比较这些特征,安全软件产品能够非常准确地将该文件进行干净文件或恶意文件的分类。
但不幸的是,在某些情况下传统的可信度分类器仍然可能导致误报。例如,一个安全软件厂商可以从一系列的训练数据中生成一个传统的可信度分类器,以上训练数据包括能够向组织或个人用户提供已知的干净或感染的文件。然而,虽然所得的传统可信度分类器可以被广泛地量身定制给供应商的一般客户,但此可信度分类器可能无法解释供应商的客户中特定组织的某些细微差别。其结果是,当传统的可信度分类器应用到某些组织的文件中时,可能会失去它的一些精度,从而降低了分类精度。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述降低分类精度、导致误报的缺陷,提供一种能够提高可信度分类器的分类精度、减少误报率的使用可信度分类器进行文件分类的方法及装置。
本发明解决其技术问题所采用的技术方案是:构造一种使用可信度分类器进行文件分类的方法,包括如下步骤:
A1)识别一组适合于可信度分类器识别干净或恶意计算资源的训练数据;
B1)选择基于所述可信度分类器的特定组织的特征的训练数据子集;
C1)为使用所述训练数据子集的特定组织训练一个可信度分类器;
D1)将训练的可信度分类器应用到一个特定组织的计算资源,以用来区分计算资源是干净资源或恶意资源。
在本发明所述的使用可信度分类器进行文件分类的方法中,所述特定组织的特征包括或代表具体组织的大小、一个特定组织的关系、一个具体组织的行业或者一个具体组织的地理区域。
在本发明所述的使用可信度分类器进行文件分类的方法中,所述训练数据包括从多个不同组织收集的数据和特定于多个不同组织的数据。
在本发明所述的使用可信度分类器进行文件分类的方法中,当对可信度未知的计算资源进行分类时,其步骤如下:
A2)识别适用于训练可信度分类器的训练数据集;
B2)识别至少一个由多个不同组织内的某个组织生成之后的一定时间内可信度未知的计算资源;
C2)收集所述可信度未知的计算资源的信息,并将其信息分类为干净或恶意信息;
D2)训练包含以下内容的可信度分类器:计算资源未知时收集的资源信息;计算资源的分类为干净或恶意资源。
在本发明所述的使用可信度分类器进行文件分类的方法中,所述训练数据子集能识别已知的干净或恶意的计算资源的静态特性。
本发明还涉及一种实现上述使用可信度分类器进行文件分类的方法的装置,包括:
识别模块:用于识别一组适合于可信度分类器分类计算资源的训练数据;
选择模块:用于选择适用于可信度分类器的训练数据子集,所述训练数据子集基于特定组织的至少一个特征;
训练模块:用于为使用所述训练数据子集的特定组织训练一个可信度分类器;
分类模块:用于将所述可信度分类器应用到一个特定组织的计算资源,用于区分所述计算资源是否恶意;
至少一个物理处理器,用于执行所述识别模块、选择模块、训练模块和分类模块。
在本发明所述的装置中,所述特定组织的特征包括或代表具体组织的大小、一个特定组织的关系、一个具体组织的行业或者一个具体组织的地理区域。
在本发明所述的装置中,所述训练数据包括从多个不同组织收集的数据和特定于多个不同组织的数据。
在本发明所述的装置中,当对可信度未知的计算资源进行分类时,进一步包括:
训练数据集识别模块:用于识别适用于训练可信度分类器的训练数据集;
未知计算资源识别模块:用于识别至少一个由多个不同组织内的某个组织生成之后的一定时间内可信度未知的计算资源;
信息收集模块:用于收集所述可信度未知的计算资源的信息,并将其信息分类为干净或恶意信息;
可信度训练模块:用于训练包含以下内容的可信度分类器:计算资源未知时收集的资源信息;计算资源的分类为干净或恶意资源。
在本发明所述的装置中,所述训练数据子集能识别已知的干净或恶意的计算资源的静态特性。
实施本发明的使用可信度分类器进行文件分类的方法及装置,具有以下有益效果:通过挑选基于使用可信度分类器的某些组织特性的训练数据子集,训练一个用于特定组织的可信度分类器,然后将可信度分类器到应用到至少一个由特定组织用于识别干净或恶意资源的计算资源上,与传统可信度分类器比较,通过这种训练方式,本发明能够提高可信度分类器的分类精度、减少误报率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明使用可信度分类器进行文件分类的方法及装置一个实施例中的方法的流程图;
图2为所述实施例中当对可信度未知的计算资源进行分类时的具体流程图;
图3为所述实施例中系统的结构示意图;
图4为所述实施例中训练可信度分类器的示意图;
图5为所述实施例中将可信度分类器分配到训练可信度分类器的组织的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明使用可信度分类器进行文件分类的方法及装置实施例中,其使用可信度分类器进行文件分类的方法的流程图如图1所示。执行该方法的计算设备至少包括一个处理器。图1中,该方法包括如下步骤:
步骤S11识别一组适合于可信度分类器识别干净或恶意计算资源的训练数据:本步骤中,识别一组适合于可信度分类器识别干净或恶意计算资源的训练数据,也就是识别一组训练数据,用于可信度分类器识别干净或恶意的计算资源。上述训练数据包括从多个不同组织收集的数据和特定于多个不同组织的数据。
本实施例中,训练数据可以是训练数据集,在本实施例中,训练数据集可以包括多个训练数据子集。这多个训练数据子集可以具有某些共同或共享的数据。训练数据集可以包括标记为已知的干净、恶意、介于两者之间的或未知的某些计算资源。训练数据集可以标识一个文件具有50%的可信度,这表明文件的可信度是介于绝对干净和绝对恶意两者之间。另外,训练数据集可以包括关于这种已知的文件信息或识别特定特征、特性、属性或已知文件行为的这些信息。训练数据包括但不限于:已标记的文件、文件的静态功能、文件运行时的行为、文件名、文件路径、文件大小、文件的存储位置、文件来源、文件的作者、创建某些文件、文件的可信度分类器、文件扩展名的文件格式、文件的熵、文件扩展名的数量、文件中非数字字符的数量、文件是否签名、文件使用的普遍性、文件的年龄、文件的创建日期、其他标记的计算资源(如标记的因特网协议(IP)地址、标记的统一资源定位器(URL)、标记的雇员个人数据等),以及关于这些计算资源的其他信息(例如:作为计算资源的静态功能、路径、作者等等)或任何其他适合的训练数据的组合。
本实施例中,可信度分类器通常指任意类型或格式的算法、工具或对计算资源可信度进行分类的模型。可信度分类器可包括或识别多个用于将文件的可信度进行分类的特征。可信度分类器包括但不限于:签名、一般定义、启发式、分类、数据群集、感知器、决策树或任意其它适合的可信度分类器的组合。
步骤S12选择基于可信度分类器的特定组织的特征的训练数据子集:本步骤中,选择基于可信度分类器的特定组织的特征的训练数据子集,训练数据子集的个数可以是一个或多个。安全软件厂商可以分析使用了训练数据的可信度分类器的精度。训练数据包括但不限于:涉及到具体大小的组织、源自或由特定组织生成的训练数据、涉及到特定行业组织的训练数据、与一定的地理区域内组织相关的总部,或任意其它合适的载体的组合。
步骤S13为使用训练数据子集的特定组织训练一个可信度分类器:本步骤中,为使用训练数据子集的特定组织训练一个可信度分类器,也就是该可信度分类器使用了特定组织特性的训练数据子集。
步骤S14将训练的可信度分类器应用到一个特定组织的计算资源,以用来区分计算资源是干净资源或恶意资源:本步骤中,将将训练的可信度分类器应用到一个特定组织的计算资源,也就是将可信度分类器应用到又特定组织用于区分文件类型而生成的文件中,以用来区分计算资源是干净资源或恶意资源。上述步骤S11至步骤S14可通过合适的计算机可执行代码或计算系统来执行。

Claims (8)

1.一种使用可信度分类器进行文件分类的方法,其特征在于,包括如下步骤:
A1)识别一组适合于可信度分类器识别干净或恶意计算资源的训练数据;
B1)选择基于所述可信度分类器的特定组织的特征的训练数据子集;
C1)为使用所述训练数据子集的特定组织训练一个可信度分类器;
D1)将训练的可信度分类器应用到一个特定组织的计算资源,以用来区分计算资源是干净资源或恶意资源;
当对可信度未知的计算资源进行分类时,其步骤如下:
A2)识别适用于训练可信度分类器的训练数据集;
B2)识别至少一个由多个不同组织内的某个组织生成之后的一定时间内可信度未知的计算资源;
C2)收集所述可信度未知的计算资源的信息,并将其信息分类为干净或恶意信息;
D2)训练包含以下内容的可信度分类器:计算资源未知时收集的资源信息;计算资源的分类为干净或恶意资源。
2.根据权利要求1所述的使用可信度分类器进行文件分类的方法,其特征在于,所述特定组织的特征包括或代表具体组织的大小、一个特定组织的关系、一个具体组织的行业或者一个具体组织的地理区域。
3.根据权利要求1所述的使用可信度分类器进行文件分类的方法,其特征在于,所述训练数据包括从多个不同组织收集的数据和特定于多个不同组织的数据。
4.根据权利要求1所述的使用可信度分类器进行文件分类的方法,其特征在于,所述训练数据子集能识别已知的干净或恶意的计算资源的静态特性。
5.一种实现如权利要求1所述的使用可信度分类器进行文件分类的方法的装置,其特征在于,包括:
识别模块:用于识别一组适合于可信度分类器分类计算资源的训练数据;
选择模块:用于选择适用于可信度分类器的训练数据子集,所述训练数据子集基于特定组织的至少一个特征;
训练模块:用于为使用所述训练数据子集的特定组织训练一个可信度分类器;
分类模块:用于将所述可信度分类器应用到一个特定组织的计算资源,用于区分所述计算资源是否恶意;
至少一个物理处理器,用于执行所述识别模块、选择模块、训练模块和分类模块;
当对可信度未知的计算资源进行分类时,进一步包括:
训练数据集识别模块:用于识别适用于训练可信度分类器的训练数据集;
未知计算资源识别模块:用于识别至少一个由多个不同组织内的某个组织生成之后的一定时间内可信度未知的计算资源;
信息收集模块:用于收集所述可信度未知的计算资源的信息,并将其信息分类为干净或恶意信息;
可信度训练模块:用于训练包含以下内容的可信度分类器:计算资源未知时收集的资源信息;计算资源的分类为干净或恶意资源。
6.根据权利要求5所述的装置,其特征在于,所述特定组织的特征包括或代表具体组织的大小、一个特定组织的关系、一个具体组织的行业或者一个具体组织的地理区域。
7.根据权利要求5所述的装置,其特征在于,所述训练数据包括从多个不同组织收集的数据和特定于多个不同组织的数据。
8.根据权利要求5所述的装置,其特征在于,所述训练数据子集能识别已知的干净或恶意的计算资源的静态特性。
CN201610168128.8A 2016-03-21 2016-03-21 一种使用可信度分类器进行文件分类的方法及装置 Active CN105760897B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610168128.8A CN105760897B (zh) 2016-03-21 2016-03-21 一种使用可信度分类器进行文件分类的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610168128.8A CN105760897B (zh) 2016-03-21 2016-03-21 一种使用可信度分类器进行文件分类的方法及装置

Publications (2)

Publication Number Publication Date
CN105760897A CN105760897A (zh) 2016-07-13
CN105760897B true CN105760897B (zh) 2019-08-20

Family

ID=56346276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610168128.8A Active CN105760897B (zh) 2016-03-21 2016-03-21 一种使用可信度分类器进行文件分类的方法及装置

Country Status (1)

Country Link
CN (1) CN105760897B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251896A (zh) * 2008-03-21 2008-08-27 腾讯科技(深圳)有限公司 一种基于多分类器的物体检测系统及方法
CN102034043A (zh) * 2010-12-13 2011-04-27 四川大学 基于文件静态结构属性的恶意软件检测新方法
CN103177215A (zh) * 2013-03-05 2013-06-26 四川电力科学研究院 基于软件控制流特征的计算机恶意软件检测新方法
CN104519031A (zh) * 2013-09-30 2015-04-15 西门子公司 一种用于恶意网络行为检测的方法和装置
US9992211B1 (en) * 2015-08-27 2018-06-05 Symantec Corporation Systems and methods for improving the classification accuracy of trustworthiness classifiers

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8978137B2 (en) * 2012-02-29 2015-03-10 Cisco Technology, Inc. Method and apparatus for retroactively detecting malicious or otherwise undesirable software

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251896A (zh) * 2008-03-21 2008-08-27 腾讯科技(深圳)有限公司 一种基于多分类器的物体检测系统及方法
CN102034043A (zh) * 2010-12-13 2011-04-27 四川大学 基于文件静态结构属性的恶意软件检测新方法
CN103177215A (zh) * 2013-03-05 2013-06-26 四川电力科学研究院 基于软件控制流特征的计算机恶意软件检测新方法
CN104519031A (zh) * 2013-09-30 2015-04-15 西门子公司 一种用于恶意网络行为检测的方法和装置
US9992211B1 (en) * 2015-08-27 2018-06-05 Symantec Corporation Systems and methods for improving the classification accuracy of trustworthiness classifiers

Also Published As

Publication number Publication date
CN105760897A (zh) 2016-07-13

Similar Documents

Publication Publication Date Title
US9781139B2 (en) Identifying malware communications with DGA generated domains by discriminative learning
CN104982011B (zh) 使用多尺度文本指纹的文档分类
Lin et al. Towards online anti-opinion spam: Spotting fake reviews from the review sequence
CN109510737A (zh) 协议接口测试方法、装置、计算机设备和存储介质
CN104067567B (zh) 用于使用字符直方图进行垃圾邮件检测的系统和方法
CN111639284A (zh) 网页标注方法、装置、电子设备及介质
CN109194677A (zh) 一种sql注入攻击检测方法、装置及设备
CN107358075A (zh) 一种基于层次聚类的虚假用户检测方法
Boididou et al. Learning to detect misleading content on twitter
CN103678446B (zh) 基于数据视图和数据库表的改进的模式映射
US20150113651A1 (en) Spammer group extraction apparatus and method
CN104935494A (zh) 信息处理方法和装置
Horridge et al. Extracting justifications from bioportal ontologies
CN104765882B (zh) 一种基于网页特征字符串的互联网网站统计方法
CN108182370A (zh) 基于动静态分离模板的客户端网页篡改检测方法
CN105117434A (zh) 一种网页分类方法和系统
CN104036190A (zh) 一种检测页面篡改的方法及装置
CN117473512B (zh) 基于网络测绘的漏洞风险评估方法
CN112862020B (zh) 一种数据识别方法、装置及存储介质
CN114331698A (zh) 风险画像的生成方法、装置、终端及存储介质
CN105760897B (zh) 一种使用可信度分类器进行文件分类的方法及装置
CN103294686B (zh) 一种网页作弊用户、作弊网页的识别方法及系统
CN107430590A (zh) 数据比较
CN108875060B (zh) 一种网站识别方法及识别系统
CN112084095A (zh) 基于区块链的能源网联监控方法、系统及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant