CN105760897A - 一种使用可信度分类器进行文件分类的方法及装置 - Google Patents
一种使用可信度分类器进行文件分类的方法及装置 Download PDFInfo
- Publication number
- CN105760897A CN105760897A CN201610168128.8A CN201610168128A CN105760897A CN 105760897 A CN105760897 A CN 105760897A CN 201610168128 A CN201610168128 A CN 201610168128A CN 105760897 A CN105760897 A CN 105760897A
- Authority
- CN
- China
- Prior art keywords
- credibility
- grader
- resource
- training
- training data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Abstract
本发明公开了一种使用可信度分类器进行文件分类的方法,包括如下步骤:识别一组适合于可信度分类器识别干净或恶意计算资源的训练数据;选择基于所述可信度分类器的特定组织的特征的训练数据子集;为使用所述训练数据子集的特定组织训练一个可信度分类器;将训练的可信度分类器应用到一个特定组织的计算资源,以用来区分计算资源是干净资源或恶意资源。本发明还涉及一种实现上述使用可信度分类器进行文件分类的方法的装置。实施本发明的使用可信度分类器进行文件分类的方法及装置,具有以下有益效果:能够提高可信度分类器的分类精度、减少误报率。
Description
技术领域
本发明涉及文件分类领域,特别涉及一种使用可信度分类器进行文件分类的方法及装置。
背景技术
可信度分类器常常被用于基于文件特征的文件分类。一个安全软件产品可以将可信度分类器应用到终端用户计算设备的一个文件上。安全软件产品利用可信度分类器比较文件的各种特征(如该文件的名称、路径、大小、存储位置、源、扩展名、格式或创建日期),通过比较这些特征,安全软件产品能够非常准确地将该文件进行干净文件或恶意文件的分类。
但不幸的是,在某些情况下传统的可信度分类器仍然可能导致误报。例如,一个安全软件厂商可以从一系列的训练数据中生成一个传统的可信度分类器,以上训练数据包括能够向组织或个人用户提供已知的干净或感染的文件。然而,虽然所得的传统可信度分类器可以被广泛地量身定制给供应商的一般客户,但此可信度分类器可能无法解释供应商的客户中特定组织的某些细微差别。其结果是,当传统的可信度分类器应用到某些组织的文件中时,可能会失去它的一些精度,从而降低了分类精度。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述降低分类精度、导致误报的缺陷,提供一种能够提高可信度分类器的分类精度、减少误报率的使用可信度分类器进行文件分类的方法及装置。
本发明解决其技术问题所采用的技术方案是:构造一种使用可信度分类器进行文件分类的方法,包括如下步骤:
A1)识别一组适合于可信度分类器识别干净或恶意计算资源的训练数据;
B1)选择基于所述可信度分类器的特定组织的特征的训练数据子集;
C1)为使用所述训练数据子集的特定组织训练一个可信度分类器;
D1)将训练的可信度分类器应用到一个特定组织的计算资源,以用来区分计算资源是干净资源或恶意资源。
在本发明所述的使用可信度分类器进行文件分类的方法中,所述特定组织的特征包括或代表具体组织的大小、一个特定组织的关系、一个具体组织的行业或者一个具体组织的地理区域。
在本发明所述的使用可信度分类器进行文件分类的方法中,所述训练数据包括从多个不同组织收集的数据和特定于多个不同组织的数据。
在本发明所述的使用可信度分类器进行文件分类的方法中,当对可信度未知的计算资源进行分类时,其步骤如下:
A2)识别适用于训练可信度分类器的训练数据集;
B2)识别至少一个由多个不同组织内的某个组织生成之后的一定时间内可信度未知的计算资源;
C2)收集所述可信度未知的计算资源的信息,并将其信息分类为干净或恶意信息;
D2)训练包含以下内容的可信度分类器:计算资源未知时收集的资源信息;计算资源的分类为干净或恶意资源。
在本发明所述的使用可信度分类器进行文件分类的方法中,所述训练数据子集能识别已知的干净或恶意的计算资源的静态特性。
本发明还涉及一种实现上述使用可信度分类器进行文件分类的方法的装置,包括:
识别模块:用于识别一组适合于可信度分类器分类计算资源的训练数据;
选择模块:用于选择适用于可信度分类器的训练数据子集,所述训练数据子集基于特定组织的至少一个特征;
训练模块:用于为使用所述训练数据子集的特定组织训练一个可信度分类器;
分类模块:用于将所述可信度分类器应用到一个特定组织的计算资源,用于区分所述计算资源是否恶意;
至少一个物理处理器,用于执行所述识别模块、选择模块、训练模块和分类模块。
在本发明所述的装置中,所述特定组织的特征包括或代表具体组织的大小、一个特定组织的关系、一个具体组织的行业或者一个具体组织的地理区域。
在本发明所述的装置中,所述训练数据包括从多个不同组织收集的数据和特定于多个不同组织的数据。
在本发明所述的装置中,当对可信度未知的计算资源进行分类时,进一步包括:
训练数据集识别模块:用于识别适用于训练可信度分类器的训练数据集;
未知计算资源识别模块:用于识别至少一个由多个不同组织内的某个组织生成之后的一定时间内可信度未知的计算资源;
信息收集模块:用于收集所述可信度未知的计算资源的信息,并将其信息分类为干净或恶意信息;
可信度训练模块:用于训练包含以下内容的可信度分类器:计算资源未知时收集的资源信息;计算资源的分类为干净或恶意资源。
在本发明所述的装置中,所述训练数据子集能识别已知的干净或恶意的计算资源的静态特性。
实施本发明的使用可信度分类器进行文件分类的方法及装置,具有以下有益效果:通过挑选基于使用可信度分类器的某些组织特性的训练数据子集,训练一个用于特定组织的可信度分类器,然后将可信度分类器到应用到至少一个由特定组织用于识别干净或恶意资源的计算资源上,与传统可信度分类器比较,通过这种训练方式,本发明能够提高可信度分类器的分类精度、减少误报率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明使用可信度分类器进行文件分类的方法及装置一个实施例中的方法的流程图;
图2为所述实施例中当对可信度未知的计算资源进行分类时的具体流程图;
图3为所述实施例中系统的结构示意图;
图4为所述实施例中训练可信度分类器的示意图;
图5为所述实施例中将可信度分类器分配到训练可信度分类器的组织的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明使用可信度分类器进行文件分类的方法及装置实施例中,其使用可信度分类器进行文件分类的方法的流程图如图1所示。执行该方法的计算设备至少包括一个处理器。图1中,该方法包括如下步骤:
步骤S11识别一组适合于可信度分类器识别干净或恶意计算资源的训练数据:本步骤中,识别一组适合于可信度分类器识别干净或恶意计算资源的训练数据,也就是识别一组训练数据,用于可信度分类器识别干净或恶意的计算资源。上述训练数据包括从多个不同组织收集的数据和特定于多个不同组织的数据。
本实施例中,训练数据可以是训练数据集,在本实施例中,训练数据集可以包括多个训练数据子集。这多个训练数据子集可以具有某些共同或共享的数据。训练数据集可以包括标记为已知的干净、恶意、介于两者之间的或未知的某些计算资源。训练数据集可以标识一个文件具有50%的可信度,这表明文件的可信度是介于绝对干净和绝对恶意两者之间。另外,训练数据集可以包括关于这种已知的文件信息或识别特定特征、特性、属性或已知文件行为的这些信息。训练数据包括但不限于:已标记的文件、文件的静态功能、文件运行时的行为、文件名、文件路径、文件大小、文件的存储位置、文件来源、文件的作者、创建某些文件、文件的可信度分类器、文件扩展名的文件格式、文件的熵、文件扩展名的数量、文件中非数字字符的数量、文件是否签名、文件使用的普遍性、文件的年龄、文件的创建日期、其他标记的计算资源(如标记的因特网协议(IP)地址、标记的统一资源定位器(URL)、标记的雇员个人数据等),以及关于这些计算资源的其他信息(例如:作为计算资源的静态功能、路径、作者等等)或任何其他适合的训练数据的组合。
本实施例中,可信度分类器通常指任意类型或格式的算法、工具或对计算资源可信度进行分类的模型。可信度分类器可包括或识别多个用于将文件的可信度进行分类的特征。可信度分类器包括但不限于:签名、一般定义、启发式、分类、数据群集、感知器、决策树或任意其它适合的可信度分类器的组合。
步骤S12选择基于可信度分类器的特定组织的特征的训练数据子集:本步骤中,选择基于可信度分类器的特定组织的特征的训练数据子集,训练数据子集的个数可以是一个或多个。安全软件厂商可以分析使用了训练数据的可信度分类器的精度。训练数据包括但不限于:涉及到具体大小的组织、源自或由特定组织生成的训练数据、涉及到特定行业组织的训练数据、与一定的地理区域内组织相关的总部,或任意其它合适的载体的组合。
步骤S13为使用训练数据子集的特定组织训练一个可信度分类器:本步骤中,为使用训练数据子集的特定组织训练一个可信度分类器,也就是该可信度分类器使用了特定组织特性的训练数据子集。
步骤S14将训练的可信度分类器应用到一个特定组织的计算资源,以用来区分计算资源是干净资源或恶意资源:本步骤中,将将训练的可信度分类器应用到一个特定组织的计算资源,也就是将可信度分类器应用到又特定组织用于区分文件类型而生成的文件中,以用来区分计算资源是干净资源或恶意资源。上述步骤S11至步骤S14可通过合适的计算机可执行代码或计算系统来执行。
Claims (10)
1.一种使用可信度分类器进行文件分类的方法,其特征在于,包括如下步骤:
A1)识别一组适合于可信度分类器识别干净或恶意计算资源的训练数据;
B1)选择基于所述可信度分类器的特定组织的特征的训练数据子集;
C1)为使用所述训练数据子集的特定组织训练一个可信度分类器;
D1)将训练的可信度分类器应用到一个特定组织的计算资源,以用来区分计算资源是干净资源或恶意资源。
2.根据权利要求1所述的使用可信度分类器进行文件分类的方法,其特征在于,所述特定组织的特征包括或代表具体组织的大小、一个特定组织的关系、一个具体组织的行业或者一个具体组织的地理区域。
3.根据权利要求1所述的使用可信度分类器进行文件分类的方法,其特征在于,所述训练数据包括从多个不同组织收集的数据和特定于多个不同组织的数据。
4.根据权利要求1至3任意一项所述的使用可信度分类器进行文件分类的方法,其特征在于,当对可信度未知的计算资源进行分类时,其步骤如下:
A2)识别适用于训练可信度分类器的训练数据集;
B2)识别至少一个由多个不同组织内的某个组织生成之后的一定时间内可信度未知的计算资源;
C2)收集所述可信度未知的计算资源的信息,并将其信息分类为干净或恶意信息;
D2)训练包含以下内容的可信度分类器:计算资源未知时收集的资源信息;计算资源的分类为干净或恶意资源。
5.根据权利要求1所述的使用可信度分类器进行文件分类的方法,其特征在于,所述训练数据子集能识别已知的干净或恶意的计算资源的静态特性。
6.一种实现如权利要求1所述的使用可信度分类器进行文件分类的方法的装置,其特征在于,包括:
识别模块:用于识别一组适合于可信度分类器分类计算资源的训练数据;
选择模块:用于选择适用于可信度分类器的训练数据子集,所述训练数据子集基于特定组织的至少一个特征;
训练模块:用于为使用所述训练数据子集的特定组织训练一个可信度分类器;
分类模块:用于将所述可信度分类器应用到一个特定组织的计算资源,用于区分所述计算资源是否恶意;
至少一个物理处理器,用于执行所述识别模块、选择模块、训练模块和分类模块。
7.根据权利要求6所述的实现如权利要求1所述的使用可信度分类器进行文件分类的方法的装置,其特征在于,所述特定组织的特征包括或代表具体组织的大小、一个特定组织的关系、一个具体组织的行业或者一个具体组织的地理区域。
8.根据权利要求6所述的实现如权利要求1所述的使用可信度分类器进行文件分类的方法的装置,其特征在于,所述训练数据包括从多个不同组织收集的数据和特定于多个不同组织的数据。
9.根据权利要求6至8任意一项所述的实现如权利要求1所述的使用可信度分类器进行文件分类的方法的装置,其特征在于,当对可信度未知的计算资源进行分类时,进一步包括:
训练数据集识别模块:用于识别适用于训练可信度分类器的训练数据集;
未知计算资源识别模块:用于识别至少一个由多个不同组织内的某个组织生成之后的一定时间内可信度未知的计算资源;
信息收集模块:用于收集所述可信度未知的计算资源的信息,并将其信息分类为干净或恶意信息;
可信度训练模块:用于训练包含以下内容的可信度分类器:计算资源未知时收集的资源信息;计算资源的分类为干净或恶意资源。
10.根据权利要求6所述的实现如权利要求1所述的使用可信度分类器进行文件分类的方法的装置,其特征在于,所述训练数据子集能识别已知的干净或恶意的计算资源的静态特性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610168128.8A CN105760897B (zh) | 2016-03-21 | 2016-03-21 | 一种使用可信度分类器进行文件分类的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610168128.8A CN105760897B (zh) | 2016-03-21 | 2016-03-21 | 一种使用可信度分类器进行文件分类的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105760897A true CN105760897A (zh) | 2016-07-13 |
CN105760897B CN105760897B (zh) | 2019-08-20 |
Family
ID=56346276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610168128.8A Active CN105760897B (zh) | 2016-03-21 | 2016-03-21 | 一种使用可信度分类器进行文件分类的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105760897B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101251896A (zh) * | 2008-03-21 | 2008-08-27 | 腾讯科技(深圳)有限公司 | 一种基于多分类器的物体检测系统及方法 |
CN102034043A (zh) * | 2010-12-13 | 2011-04-27 | 四川大学 | 基于文件静态结构属性的恶意软件检测新方法 |
CN103177215A (zh) * | 2013-03-05 | 2013-06-26 | 四川电力科学研究院 | 基于软件控制流特征的计算机恶意软件检测新方法 |
US20130276114A1 (en) * | 2012-02-29 | 2013-10-17 | Sourcefire, Inc. | Method and apparatus for retroactively detecting malicious or otherwise undesirable software |
CN104519031A (zh) * | 2013-09-30 | 2015-04-15 | 西门子公司 | 一种用于恶意网络行为检测的方法和装置 |
US9992211B1 (en) * | 2015-08-27 | 2018-06-05 | Symantec Corporation | Systems and methods for improving the classification accuracy of trustworthiness classifiers |
-
2016
- 2016-03-21 CN CN201610168128.8A patent/CN105760897B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101251896A (zh) * | 2008-03-21 | 2008-08-27 | 腾讯科技(深圳)有限公司 | 一种基于多分类器的物体检测系统及方法 |
CN102034043A (zh) * | 2010-12-13 | 2011-04-27 | 四川大学 | 基于文件静态结构属性的恶意软件检测新方法 |
US20130276114A1 (en) * | 2012-02-29 | 2013-10-17 | Sourcefire, Inc. | Method and apparatus for retroactively detecting malicious or otherwise undesirable software |
CN103177215A (zh) * | 2013-03-05 | 2013-06-26 | 四川电力科学研究院 | 基于软件控制流特征的计算机恶意软件检测新方法 |
CN104519031A (zh) * | 2013-09-30 | 2015-04-15 | 西门子公司 | 一种用于恶意网络行为检测的方法和装置 |
US9992211B1 (en) * | 2015-08-27 | 2018-06-05 | Symantec Corporation | Systems and methods for improving the classification accuracy of trustworthiness classifiers |
Also Published As
Publication number | Publication date |
---|---|
CN105760897B (zh) | 2019-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chiew et al. | A new hybrid ensemble feature selection framework for machine learning-based phishing detection system | |
US10264027B2 (en) | Computer-implemented process and system employing outlier score detection for identifying and detecting scenario-specific data elements from a dynamic data source | |
US9781139B2 (en) | Identifying malware communications with DGA generated domains by discriminative learning | |
CN107735782B (zh) | 图像和文本数据层级分类器 | |
WO2017124942A1 (zh) | 一种异常访问检测方法及设备 | |
US10223616B1 (en) | System and method identification and classification of internet advertising | |
US8453027B2 (en) | Similarity detection for error reports | |
CN106649831B (zh) | 一种数据过滤方法及装置 | |
CN109510737A (zh) | 协议接口测试方法、装置、计算机设备和存储介质 | |
US20070050388A1 (en) | Device and method for text stream mining | |
CN109002443B (zh) | 一种文本信息的分类方法及装置 | |
CN112527994A (zh) | 情绪分析方法、装置、设备及可读存储介质 | |
US8793201B1 (en) | System and method for seeding rule-based machine learning models | |
CN114817968B (zh) | 无特征数据的路径追溯方法、装置、设备及存储介质 | |
CN110602030A (zh) | 网络入侵阻断方法、服务器及计算机可读介质 | |
WO2016188334A1 (zh) | 一种用于处理应用访问数据的方法与设备 | |
WO2023272850A1 (zh) | 基于决策树的产品匹配方法、装置、设备及存储介质 | |
CN104580109B (zh) | 生成点选验证码的方法及装置 | |
CN117473512B (zh) | 基于网络测绘的漏洞风险评估方法 | |
US20150100584A1 (en) | Method, computer program and apparatus for analyzing symbols in a computer system | |
US9443214B2 (en) | News mining for enterprise resource planning | |
CN108875060B (zh) | 一种网站识别方法及识别系统 | |
CN107992538B (zh) | 报文日志生成方法、装置、查询方法及信息处理系统 | |
CN114900492B (zh) | 异常邮件检测方法、装置、系统与计算机可读存储介质 | |
CN105760897A (zh) | 一种使用可信度分类器进行文件分类的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |