CN103632091B - 恶意特征提取方法、装置及存储介质 - Google Patents

恶意特征提取方法、装置及存储介质 Download PDF

Info

Publication number
CN103632091B
CN103632091B CN201210298988.5A CN201210298988A CN103632091B CN 103632091 B CN103632091 B CN 103632091B CN 201210298988 A CN201210298988 A CN 201210298988A CN 103632091 B CN103632091 B CN 103632091B
Authority
CN
China
Prior art keywords
black
dimension
white
vector
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210298988.5A
Other languages
English (en)
Other versions
CN103632091A (zh
Inventor
崔精兵
杨宜
于涛
吴家旭
白子潘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210298988.5A priority Critical patent/CN103632091B/zh
Publication of CN103632091A publication Critical patent/CN103632091A/zh
Application granted granted Critical
Publication of CN103632091B publication Critical patent/CN103632091B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/566Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Virology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开一种恶意特征提取方法、装置及存储介质,其方法包括:选取用来提取特征的黑文件集和与黑文件集数量相当的白文件集;将黑文件集中的黑文件以及白文件集中的白文件转换为多维向量;对黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选,提取恶意特征。本发明通过对已知的黑文件集和白文件集进行向量转换,并对转换的向量进行维度合并和筛选,可自动及时、准确并有效的提取病毒等恶意特征,不仅能省去大量的分析人员,而且极大地降低了人为主观因素的影响,同时在反应速度上有极大的提高。

Description

恶意特征提取方法、装置及存储介质
技术领域
本发明涉及互联网技术领域,特别涉及安全领域,尤其涉及一种恶意特征提取方法、装置及存储介质。
背景技术
随着互联网技术的发展,病毒的传播也在加剧。病毒对用户信息的安全和用户财产造成了极大的危害,因此,开发反应迅速、高效、查毒率且正确率高的杀毒引擎已成为当今互联网信息安全界的重点。
传统的杀毒引擎通常采用的病毒识别技术如下:分析人员分析病毒文件、提取病毒特征、将病毒特征入库、杀毒引擎根据病毒库扫描现有文件,如果遇到能够匹配上的特征则报毒。
现有的提取病毒特征技术完全依靠分析人员的经验,对比同一类的病毒,找出它们共有部分,将这些共有部分中没有出现在所有白文件中的特征保留下来作为病毒的特征。
但是,现有的病毒特征提取技术存在以下弊端:
1、对分析人员的专业技能要求较高,而提取病毒特征的质量决定了误报率和报出率,一方面,对于一个家族的病毒(即行为基本一致的病毒)提取共有特征越多,则误报的可能性越低,但是对于该家族病毒的变种的识别率就越低,即报出率越低;另一方面,一个家族提取的共有特征越少,这些特征与白文件重叠的可能性就越高,也就是误报率越高;从中找出一个平衡点则极大地依赖于分析人员的经验;
2、系统响应慢,分析病毒文件以及提取病毒特征十分耗时,导致一些新的病毒没有得到及时处理;
3、效率低,随着病毒库记录的增多,为了碰撞每一条记录,所需要的时间会成几何倍数增加;
4、对病毒的发现不及时,相对于海量的新的病毒种类,由于分析人员的处理能力有限,对于一些病毒的处理,只有等病毒爆发时才会被发现或重视,继而进行处理,而此时病毒已造成了相当大的危害。
发明内容
本发明的主要目的在于提供一种恶意特征提取方法、装置及存储介质,旨在提高病毒等恶意特征的提取效率。
为了达到上述目的,本发明提出一种恶意特征提取方法,包括:
选取用来提取特征的黑文件集和与黑文件集数量相当的白文件集;
将所述黑文件集中的黑文件以及白文件集中的白文件转换为多维向量;
对所述黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选,提取恶意特征。
本发明还提出一种恶意特征提取装置,包括:
选取模块,用于选取用来提取特征的黑文件集和与黑文件集数量相当且各不相同的白文件集;
转换模块,用于将所述黑文件集中的黑文件以及白文件集中的白文件转换为多维向量;
提取模块,用于对所述黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选,提取恶意特征。
本发明还提出一种计算机可读取的存储介质,在其上存储了使计算机能够运行的程序,在程序装入计算机的存储器内后,选取用来提取特征的黑文件集和与黑文件集数量相当的白文件集;将所述黑文件集中的黑文件以及白文件集中的白文件转换为多维向量;对所述黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选,提取恶意特征。
本发明提出的一种恶意特征提取方法、装置及存储介质,通过对已知的黑文件集和白文件集进行向量转换,并对转换的向量进行维度合并和筛选,可自动及时、准确并有效的提取病毒等恶意特征,不仅能省去大量的分析人员,而且极大地降低了人为主观因素的影响,同时在反应速度上有极大的提高。
附图说明
图1是本发明恶意特征提取方法较佳实施例的流程示意图;
图2是本发明恶意特征提取方法较佳实施例中对黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选,提取恶意特征的流程示意图;
图3是本发明恶意特征提取方法较佳实施例中对黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选,提取恶意特征的一种实例的流程示意图;
图4是本发明恶意特征提取装置较佳实施例的结构示意图;
图5是本发明恶意特征提取装置较佳实施例中提取模块的结构示意图;
图6是本发明恶意特征提取装置较佳实施例中转换模块的结构示意图。
为了使本发明的技术方案更加清楚、明了,下面将结合附图作进一步详述。
具体实施方式
本发明实施例解决方案主要是:自动对已知的黑文件集和白文件集进行向量转换,并对转换的向量进行维度合并和筛选,提高恶意特征的提取效率。
本发明中恶意文件可以为病毒文件或其他恶意的文件,以下实施例以病毒文件举例说明。其中,涉及的技术术语包括:
黑文件:病毒文件
黑向量:病毒文件转化成的向量
白文件:正常的非病毒文件
白向量:正常的非病毒文件转化成的向量
PE文件:windows系统下的一种可执行文件格式
如图1所示,本发明较佳实施例提出一种恶意特征提取方法,包括:
步骤S101,选取用来提取特征的黑文件集和与黑文件集数量相当的白文件集;
以windows系统为例,为了对windows系统下的文件进行查毒,需要提取病毒特征,将病毒特征入库,然后由杀毒引擎根据病毒库扫描现有文件。
本实施例中,用来提取特征的黑文件集和白文件集分别指预先收集的已知的恶意文件集和正常文件集。
以病毒特征为例,为了提取病毒特征,首先选出用来选取特征的同一个家族病毒(即同一种病毒或其变种)的黑文件集和与黑文件集数量相当的白文件集,其中白文件集中的文件各不相同。
步骤S102,将所述黑文件集中的黑文件以及白文件集中的白文件转换为多维向量;
对于一个可执行文件(PE文件)来说,对病毒识别有帮助的特征包括:字符串、指令序列、函数过程、导入导出函数以及各个段的属性等。
本实施例将这些特征key和该特征的值value组成一(key:value)对,一个文件(包括恶意文件和正常文件)则变成了一个(key:value)的集合,如果将每一个key当做一个维度,则一个文件的(key:value)的集合可以看做是一个维数不固定的多维向量。
步骤S103,对所述黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选,提取恶意特征。
对恶意特征的提取即是对所述黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选。
本实施例具体将维度合并和筛选出K维,其中,K维是指从多个维度中根据一定的规则,经过合并和筛选,选出的前K个维度。
具体地,如图2所示,若设定所述黑文件集中所有黑文件的向量为黑向量集,所述白文件集中所有白文件的向量为白向量集,则上述步骤S103对黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选,提取恶意特征的步骤包括:
步骤S10,从所述黑向量集中随机选取两黑向量,提取两黑向量的共有维度,作为黑维度集;从所述白向量集中随机选取两白向量,提取两白向量的共有维度,作为白维度集;
步骤S11,将所述黑维度集中所有出现在所述白维度集中的维度去掉,形成新的黑维度集,对所述白维度集和新的黑维度集中的每一维度赋予权重;
上述步骤S10及步骤S11中,为了将维度合并和筛选出K维,采用以下方式:
将整个黑向量集和白向量集合并和筛选维度的问题,拆分成两黑向量和两白向量的子问题;然后解每一个子问题,将两白向量提取共有维度(取交集),作为子问题白维度集,将两黑向量提取共有维度作为子问题的黑维度集,并且将黑维度集中所有出现在白维度集中的维度去掉,对选出来的每一黑、白维度赋予权重。
步骤S12,将所述白维度集和新的黑维度集根据权重分别进行维度合并,并将合并后权重低于预定权重阀值的维度丢弃;
将所有子问题的解根据维度合并,合并过程中设置一个权重阈值w,如果合并后的维度(合并时维度对应的权重值相加)的权重低于w,则直接丢弃该维度,防止出现维度集无限制增长。
步骤S13,分别判断黑向量集和白向量集中所有的向量是否处理完毕;若是;则进入步骤S14;否则,返回步骤S10;
步骤S14,用合并后的白维度集过滤合并后的黑维度集;
步骤S15,对过滤后的黑维度集按照权重大小排序,取出排名最高的前K维的黑维度作为最终维度。
上述步骤S13-步骤S15中,当黑向量集和白向量集中所有的向量学习完毕,用合并后的白维度集过滤黑维度集(即黑维度集=黑维度集-白维度集),对黑维度集根据权重大小进行排名,取出排名最高的前K维的黑维度作为结果。
下面以具体实例对上述合并和筛选学习集中所有病毒文件和正常文件的向量的过程进行详细阐述。
如图3所示,以FB、FW分别表示黑、白向量总集,以FBL和FWL分别表示黑、白向量的共有维度集,以B1、B2分别表示从黑向量集中随机选取的两黑向量的标记,以W1、W2分别表示从白向量集中随机选取的两白向量的标记,对学习集中所有病毒文件和正常文件的向量进行合并和筛选的过程具体为:
S1,初始化FB、FW,选择黑白向量集;若选择黑向量,则进入步骤S2,若选择白向量,则进入步骤S3;
S2,判断黑向量集中的黑向量是否全部被标记;若是,则进入步骤S4;否则,进入步骤S21;
S21,随机选取两个黑向量B1、B2;
S22,提取共有维度集FBL并对每一维度赋予权重;进入S23;
S3,判断白向量集中的白向量是否全部被标记;若是,则进入步骤S4;否则,进入步骤S31;
S31,随机选取两个白向量W1、W2;
S32,提取共有维度集FWL并对每一维度赋予权重;进入S23;
S23,将FBL和FWL作差集,作为新的FBL;
S24,将新的FBL和FWL分别合并到总集FB、FW中,合并时将权集相加;
S25,将FB和FW中权重小于w-limit(设定的权重阀值)的维度剔除;分别返回步骤S2和S3。
S4,FB和FW作差集作为新的FB;
S5,将FB根据权重排序取出前K维,得到FB最终结果。
本实施例通过对已知的黑文件集和白文件集进行向量转换,并对转换的向量进行维度合并和筛选,可自动及时、准确并有效的提取病毒等恶意特征,不仅能省去大量的分析人员,而且极大地降低了人为主观因素的影响,同时在反应速度上有极大的提高。
如图4所示,本发明较佳实施例提出一种恶意特征提取装置,包括:选取模块401、转换模块402以及提取模块403,其中:
选取模块401,用于选取用来提取特征的黑文件集和与黑文件集数量相当的白文件集;
转换模块402,用于将所述黑文件集中的黑文件以及白文件集中的白文件转换为多维向量;
提取模块403,用于对所述黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选,提取恶意特征。
以windows系统为例,为了对windows系统下的文件进行查毒,需要提取病毒特征,将病毒特征入库,然后由杀毒引擎根据病毒库扫描现有文件。
本实施例中,用来提取特征的黑文件集和白文件集分别指预先收集的已知的恶意文件集和正常文件集。
以病毒特征为例,为了提取病毒特征,首先选取模块401选出用来选取特征的同一个家族病毒(即同一种病毒或其变种)的黑文件集和与黑文件集数量相当的白文件集,其中,白文件集中的文件各不相同。
对于一个可执行文件(PE文件)来说,对病毒识别有帮助的特征包括:字符串、指令序列、函数过程、导入导出函数以及各个段的属性等。
本实施例通过转换模块402将这些特征key和该特征的值value组成一(key:value)对,一个文件(包括恶意文件和正常文件)则变成了一个(key:value)的集合,如果将每一个key当做一个维度,则一个文件的(key:value)的集合可以看做是一个维数不固定的多维向量。
对恶意特征的提取即是对所述黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选。
本实施例提取模块403具体将维度合并和筛选出K维,其中,K维是指从多个维度中根据一定的规则,经过合并和筛选,选出的前K个维度。
具体地,如图5所示,若设定所述黑文件集中所有黑文件的向量为黑向量集,所述白文件集中所有白文件的向量为白向量集,所述提取模块403包括:第一提取单元4031、筛选单元4032、合并单元4033、过滤单元4034以及第二提取单元4035,其中:
第一提取单元4031,用于从所述黑向量集中随机选取两黑向量,提取两黑向量的共有维度,作为黑维度集;从所述白向量集中随机选取两白向量,提取两白向量的共有维度,作为白维度集;
筛选单元4032,用于将所述黑维度集中所有出现在所述白维度集中的维度去掉,形成新的黑维度集,对所述白维度集和新的黑维度集中的每一维度赋予权重;
合并单元4033,用于将所述白维度集和新的黑维度集根据权重分别进行维度合并,并将合并后权重低于预定权重阀值的维度丢弃。
过滤单元4034,用于当所述黑向量集和白向量集中所有的向量处理完毕后,用合并后的白维度集过滤合并后的黑维度集;
第二提取单元4035,用于对过滤后的黑维度集按照权重大小排序,取出排名最高的前K维的黑维度作为最终维度。
在本实施例中,为了将维度合并和筛选出K维,采用以下方式:
将整个黑向量集和白向量集合并和筛选维度的问题,拆分成两黑向量和两白向量的子问题;然后解每一个子问题,将两白向量提取共有维度(取交集),作为子问题白维度集,将两黑向量提取共有维度作为子问题的黑维度集,并且将黑维度集中所有出现在白维度集中的维度去掉,对选出来的每一黑、白维度赋予权重。
然后将所有子问题的解根据维度合并,合并过程中设置一个权重阈值w,如果合并后的维度(合并时维度对应的权重值相加)的权重低于w,则直接丢弃该维度,防止出现维度集无限制增长。
当黑向量集和白向量集中所有的向量学习完毕,用合并后的白维度集过滤黑维度集(即黑维度集=黑维度集-白维度集),对黑维度集根据权重大小进行排名,取出排名最高的前K维的黑维度作为结果。
下面以具体实例对上述合并和筛选学习集中所有病毒文件和正常文件的向量的过程进行详细阐述。
如图3所示,以FB、FW分别表示黑、白向量总集,以FBL和FWL分别表示黑、白向量的共有维度集,以B1、B2分别表示从黑向量集中随机选取的两黑向量的标记,以W1、W2分别表示从白向量集中随机选取的两白向量的标记,对学习集中所有病毒文件和正常文件的向量进行合并和筛选的过程具体为:
S1,初始化FB、FW,选择黑白向量集;若选择黑向量,则进入步骤S2,若选择白向量,则进入步骤S3;
S2,判断黑向量集中的黑向量是否全部被标记;若是,则进入步骤S4;否则,进入步骤S21;
S21,随机选取两个黑向量B1、B2;
S22,提取共有维度集FBL并对每一维度赋予权重;进入S23;
S3,判断白向量集中的白向量是否全部被标记;若是,则进入步骤S4;否则,进入步骤S31;
S31,随机选取两个白向量W1、W2;
S32,提取共有维度集FWL并对每一维度赋予权重;进入S23;
S23,将FBL和FWL作差集,作为新的FBL;
S24,将新的FBL和FWL分别合并到总集FB、FW中,合并时将权集相加;
S25,将FB和FW中权重小于w-limit(设定的权重阀值)的维度剔除;分别返回步骤S2和S3。
S4,FB和FW作差集作为新的FB;
S5,将FB根据权重排序取出前K维,得到FB最终结果。
进一步地,如图6所示,所述转换模块402包括:提取单元4021及转换单元4022,其中:
样本特征提取单元4021,用于从所述黑文件或白文件中提取有效样本特征key;
转换单元4022,用于将所述黑文件或白文件中所有有效样本特征key及其值value组成(key:value)对,将所述黑文件或白文件转换为多维向量。
本实施例通过对已知的黑文件集和白文件集进行向量转换,并对转换的向量进行维度合并和筛选,可自动及时、准确并有效的提取病毒等恶意特征,不仅能省去大量的分析人员,而且极大地降低了人为主观因素的影响,同时在反应速度上有极大的提高。
此外,本发明还提出一种计算机可读取的存储介质,在其上存储了使计算机能够运行的程序,在程序装入计算机的存储器内后,选取用来提取特征的黑文件集和与黑文件集数量相当的白文件集;将所述黑文件集中的黑文件以及白文件集中的白文件转换为多维向量;对所述黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选,提取恶意特征。
相比现有技术本发明具有如下优点:
1、省去了大量人力,由于本发明除了开始阶段需要人参与填写参数值以外,整个过程由机器自动进行,无需人为提取特征,由此省去了大量的人力。
2、高效,整个过程由机器完成,而机器的计算能力相对比人的操作要高效得多,并且可以采用分布式的技术增快速度,因此十分高效。
3、反应迅速,由于计算高效,可在短时间内完成工作,因此反应比较迅速。
4、客观,减少了人的参与,使得人为主观性降低了很多。
需要说明的是,本发明上述实施例均以windows操作系统举例说明,但并不限于windows操作系统,其他操作系统也可以参照采用本发明的上述方案进行恶意文件检测识别,比如mac或者linux系统等,其具体原理在此不再赘述。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种恶意特征提取方法,其特征在于,包括:
选取用来提取特征的黑文件集和与黑文件集数量相当的白文件集;
将所述黑文件集中的黑文件以及白文件集中的白文件转换为多维向量;
对所述黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选,提取恶意特征;
设定所述黑文件集中所有黑文件的向量为黑向量集,所述白文件集中所有白文件的向量为白向量集,所述对黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选,提取恶意特征的步骤包括:
从所述黑向量集中随机选取两黑向量,提取两黑向量的共有维度,作为黑维度集;从所述白向量集中随机选取两白向量,提取两白向量的共有维度,作为白维度集;
将所述黑维度集中所有出现在所述白维度集中的维度去掉,形成新的黑维度集,对所述白维度集和新的黑维度集中的每一维度赋予权重;
将所述白维度集和新的黑维度集根据权重分别进行维度合并,并将合并后权重低于预定权重阀值的维度丢弃;以此循环上述三个步骤,直至所述黑向量集和白向量集中所有的向量处理完毕。
2.根据权利要求1所述的方法,其特征在于,所述对黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选,提取恶意特征的步骤进一步包括:
当所述黑向量集和白向量集中所有的向量处理完毕后,用合并后的白维度集过滤合并后的黑维度集;
对过滤后的黑维度集按照权重大小排序,取出排名最高的前K维的黑维度作为最终维度。
3.根据权利要求1所述的方法,其特征在于,所述将黑文件集中的黑文件以及白文件集中的白文件转换为多维向量的步骤包括:
从所述黑文件或白文件中提取有效样本特征key;
将所述黑文件或白文件中所有有效样本特征key及其值value组成(key:value)对,将所述黑文件或白文件转换为多维向量。
4.根据权利要求3所述的方法,其特征在于,所述有效样本特征key至少包括以下之一:字符串、指令序列、函数过程、导入导出函数以及各个段的属性。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述用来提取特征的黑文件集和白文件集分别指预先收集的已知的恶意文件集和正常文件集;所述黑文件集中包括同类型或其变种的恶意文件。
6.一种恶意特征提取装置,其特征在于,包括:
选取模块,用于选取用来提取特征的黑文件集和与黑文件集数量相当的白文件集;
转换模块,用于将所述黑文件集中的黑文件以及白文件集中的白文件转换为多维向量;
提取模块,用于对所述黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选,提取恶意特征;
设定所述黑文件集中所有黑文件的向量为黑向量集,所述白文件集中所有白文件的向量为白向量集,所述提取模块包括:
第一提取单元,用于从所述黑向量集中随机选取两黑向量,提取两黑向量的共有维度,作为黑维度集;从所述白向量集中随机选取两白向量,提取两白向量的共有维度,作为白维度集;
筛选单元,用于将所述黑维度集中所有出现在所述白维度集中的维度去掉,形成新的黑维度集,对所述白维度集和新的黑维度集中的每一维度赋予权重;
合并单元,用于将所述白维度集和新的黑维度集根据权重分别进行维度合并,并将合并后权重低于预定权重阀值的维度丢弃。
7.根据权利要求6所述的装置,其特征在于,所述提取模块进一步还包括:
过滤单元,用于当所述黑向量集和白向量集中所有的向量处理完毕后,用合并后的白维度集过滤合并后的黑维度集;
第二提取单元,用于对过滤后的黑维度集按照权重大小排序,取出排名最高的前K维的黑维度作为最终维度。
8.根据权利要求6或7中任一项所述的装置,其特征在于,所述转换模块包括:
样本特征提取单元,用于从所述黑文件或白文件中提取有效样本特征key;
转换单元,用于将所述黑文件或白文件中所有有效样本特征key及其值value组成(key:value)对,将所述黑文件或白文件转换为多维向量。
9.一种计算机可读取的存储介质,在其上存储了使计算机能够运行的程序,在程序装入计算机的存储器内后,选取用来提取特征的黑文件集和与黑文件集数量相当的白文件集;将所述黑文件集中的黑文件以及白文件集中的白文件转换为多维向量;对所述黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选,提取恶意特征;
设定所述黑文件集中所有黑文件的向量为黑向量集,所述白文件集中所有白文件的向量为白向量集,所述对黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选,提取恶意特征的步骤包括:
从所述黑向量集中随机选取两黑向量,提取两黑向量的共有维度,作为黑维度集;从所述白向量集中随机选取两白向量,提取两白向量的共有维度,作为白维度集;
将所述黑维度集中所有出现在所述白维度集中的维度去掉,形成新的黑维度集,对所述白维度集和新的黑维度集中的每一维度赋予权重;
将所述白维度集和新的黑维度集根据权重分别进行维度合并,并将合并后权重低于预定权重阀值的维度丢弃;以此循环上述三个步骤,直至所述黑向量集和白向量集中所有的向量处理完毕。
CN201210298988.5A 2012-08-21 2012-08-21 恶意特征提取方法、装置及存储介质 Active CN103632091B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210298988.5A CN103632091B (zh) 2012-08-21 2012-08-21 恶意特征提取方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210298988.5A CN103632091B (zh) 2012-08-21 2012-08-21 恶意特征提取方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN103632091A CN103632091A (zh) 2014-03-12
CN103632091B true CN103632091B (zh) 2017-08-25

Family

ID=50213128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210298988.5A Active CN103632091B (zh) 2012-08-21 2012-08-21 恶意特征提取方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN103632091B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106548069B (zh) * 2016-07-18 2020-04-24 北京安天网络安全技术有限公司 一种基于排序算法的特征提取系统及方法
CN109547393B (zh) * 2017-09-21 2021-04-06 腾讯科技(深圳)有限公司 恶意号码识别方法、装置、设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101604364A (zh) * 2009-07-10 2009-12-16 珠海金山软件股份有限公司 基于文件指令序列的计算机恶意程序分类系统和分类方法
CN101950336A (zh) * 2010-08-18 2011-01-19 奇智软件(北京)有限公司 一种清除恶意程序的方法和装置
CN101976319A (zh) * 2010-11-22 2011-02-16 张平 基于行为特征的BIOS固件Rootkit检测方法
CN102034042A (zh) * 2010-12-13 2011-04-27 四川大学 基于函数调用关系图特征的恶意代码检测新方法
CN102346829A (zh) * 2011-09-22 2012-02-08 重庆大学 基于集成分类的病毒检测方法
CN102479298A (zh) * 2010-11-29 2012-05-30 北京奇虎科技有限公司 基于机器学习的程序识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7593936B2 (en) * 2003-08-11 2009-09-22 Triumfant, Inc. Systems and methods for automated computer support

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101604364A (zh) * 2009-07-10 2009-12-16 珠海金山软件股份有限公司 基于文件指令序列的计算机恶意程序分类系统和分类方法
CN101950336A (zh) * 2010-08-18 2011-01-19 奇智软件(北京)有限公司 一种清除恶意程序的方法和装置
CN101976319A (zh) * 2010-11-22 2011-02-16 张平 基于行为特征的BIOS固件Rootkit检测方法
CN102479298A (zh) * 2010-11-29 2012-05-30 北京奇虎科技有限公司 基于机器学习的程序识别方法及装置
CN102034042A (zh) * 2010-12-13 2011-04-27 四川大学 基于函数调用关系图特征的恶意代码检测新方法
CN102346829A (zh) * 2011-09-22 2012-02-08 重庆大学 基于集成分类的病毒检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于数据挖掘和机器学习的恶意代码检测技术研究;张小康;《中国优秀硕士学位论文全文库》;20100715(第07期);第24-25页第2章第2.4节、第33页第3章第3.3.2节、第37-39页第4章第4.1-4.2节、第42-44页第4章第4.3.7节,图4.1 *

Also Published As

Publication number Publication date
CN103632091A (zh) 2014-03-12

Similar Documents

Publication Publication Date Title
CN102737186B (zh) 恶意文件识别方法、装置及存储介质
CN103177215B (zh) 基于软件控制流特征的计算机恶意软件检测新方法
CN105095223B (zh) 文本分类方法及服务器
CN102779249B (zh) 恶意程序检测方法及扫描引擎
CN102542061B (zh) 一种产品的智能分类方法
CN106960154A (zh) 一种基于决策树模型的恶意程序动态识别方法
CN105975392A (zh) 一种基于抽象语法树的重复代码检测方法及装置
CN106709349B (zh) 一种基于多维度行为特征的恶意代码分类方法
CN107689010A (zh) 批量处理保单任务的方法、装置、计算机设备及存储介质
CN106447300A (zh) 文档分类系统、文档分类方法及文档分类程序
CN102346829A (zh) 基于集成分类的病毒检测方法
CN105930495A (zh) 产品侵权监控系统及其监控方法
CN104781821B (zh) 文件共享网络中的片段匹配
CN103632091B (zh) 恶意特征提取方法、装置及存储介质
CN112836067B (zh) 基于知识图谱的智能搜索方法
CN105989093B (zh) 敏感词的自动发现方法及其装置和应用
CN106027528A (zh) 一种web水平权限自动化识别的方法及装置
CN113543117B (zh) 携号转网用户的预测方法、装置及计算设备
CN102298695B (zh) 用于对钞捆进行检测的视觉分析处理方法
CN105323248B (zh) 一种基于规则的交互式中文垃圾邮件过滤方法
CN107493275A (zh) 异构网络安全日志信息的自适应提取和分析方法及系统
CN102156855A (zh) 基于影像切割的银行凭证数据采集方法
CN109064067A (zh) 基于互联网的金融风险运营主体判定方法及装置
CN105469099A (zh) 基于稀疏表示分类的路面裂缝检测和识别方法
CN106203753A (zh) 软件运营中运营问题的流转方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant