CN105574408A - 用于文件病毒检测的特征获取方法及文件病毒检测的方法 - Google Patents

用于文件病毒检测的特征获取方法及文件病毒检测的方法 Download PDF

Info

Publication number
CN105574408A
CN105574408A CN201410535281.0A CN201410535281A CN105574408A CN 105574408 A CN105574408 A CN 105574408A CN 201410535281 A CN201410535281 A CN 201410535281A CN 105574408 A CN105574408 A CN 105574408A
Authority
CN
China
Prior art keywords
file
identification characteristics
feature
feature storehouse
subcharacter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410535281.0A
Other languages
English (en)
Other versions
CN105574408B (zh
Inventor
曹德强
冯侦探
熊蜀光
王新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Anyi Hengtong Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anyi Hengtong Beijing Technology Co Ltd filed Critical Anyi Hengtong Beijing Technology Co Ltd
Priority to CN201410535281.0A priority Critical patent/CN105574408B/zh
Publication of CN105574408A publication Critical patent/CN105574408A/zh
Application granted granted Critical
Publication of CN105574408B publication Critical patent/CN105574408B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种用于文件病毒检测的特征获取方法及文件病毒检测的方法,用于文件病毒检测的特征获取方法包括:在样本文件的设定位置提取多个第一子特征,所述多个第一子特征形成第一特征向量;根据多个第二子特征的位置信息对所述多个第一子特征进行重新组合,得到第二特征向量;如果在第一特征库中未查询到所述第二特征向量中所包含的子特征,将所述第二特征向量作为所述样本文件的标识特征加入第二特征库。通过文件病毒检测的特征获取方法获取文件特征,若该文件特征不在第一特征库中,则将该文件特征作为文件的标识特征加入第二特征库,实现对第二特征库的不断更新,避免未知文件被误报,降低文件误报率。

Description

用于文件病毒检测的特征获取方法及文件病毒检测的方法
技术领域
本发明涉及网络安全技术领域,尤其涉及一种用于文件病毒检测的特征获取方法及文件病毒检测的方法、装置。
背景技术
随着计算机技术的快速发展和普及,大量的恶意文件(病毒)也随之滋生,从而严重影响了计算机技术的安全应用,造成严重的计算机安全隐患。目前,对恶意文件的检测且减少对非恶意文件的误报,大多采用MD5白名单技术,该技术是通过对每个非恶意文件生成一个MD5值作为标识,通过该标识阻止引擎对白名单中的文件作出恶意文件病毒检测结果,从而达到减少误报的目的。发明人发现,由于MD5白名单是通过将文件与标识进行一对一的比较,并不能通过同一特征来标识一批相似文件,随着文件特征的多元化,MD5白名单臃肿庞大,另外,由于MD5白名单不可能包括所有文件的标识,从而不能避免未知文件被误报。
发明内容
本发明的实施例提供一种用于文件病毒检测的特征获取方法及文件病毒检测的方法、装置,实现在保护已知文件的同时,避免未知文件被误报。
为达到上述目的,本发明的实施例采用如下技术方案:
一种用于文件病毒检测的特征获取方法,该方法包括:
在样本文件的设定位置提取多个第一子特征,所述多个第一子特征形成第一特征向量。
根据多个第二子特征的位置信息对所述多个第一子特征进行重新组合,得到第二特征向量。
如果在第一特征库中未查询到所述第二特征向量中所包含的子特征,将所述第二特征向量作为所述样本文件的标识特征加入第二特征库。
一种文件病毒检测的方法,该方法包括:
获取待测文件的特征信息。
确定所述待测文件的特征信息是否在第二特征库中,所述第二特征库通过上述用于文件病毒检测的特征获取方法获取到。
如果所述待测文件的特征信息不在所述第二特征库中,对所述特征信息进行启发式鉴定。
如果所述待测文件的特征信息在所述第二特征库中,确定所述待测文件为非恶意文件。
一种用于文件病毒检测的特征获取装置,该装置包括:
第一获取模块,用于在样本文件的设定位置提取多个第一子特征,所述多个第一子特征形成第一特征向量。
第二获取模块,用于根据多个第二子特征的位置信息对所述多个第一子特征进行重新组合,得到第二特征向量。
第一更新模块,用于如果在第一特征库中未查询到所述第二特征向量中所包含的子特征,将所述第二特征向量作为所述样本文件的标识特征加入第二特征库。
一种文件病毒检测的装置,该装置包括:
第四获取模块,用于获取待测文件的特征信息;
第一确定模块,用于确定所述待测文件的特征信息是否在第二特征库中,所述第二特征库通过上述技术方案所述的用于文件病毒检测的特征获取装置获取到;
启发式鉴定模块,用于如果所述第一确定模块确定所述待测文件的特征信息不在所述第二特征库中,对所述特征信息进行启发式鉴定;
第二确定模块,用于如果所述第一确定模块确定所述待测文件的特征信息在所述第二特征库中,确定所述待测文件为非恶意文件。
本发明实施例提供的用于文件病毒检测的特征获取方法及文件病毒检测的方法、装置,通过用于文件病毒检测的特征获取方法及装置文件病毒检测获取文件特征,若该文件特征不在第一特征库中,将该文件特征作为文件的标识特征加入第二特征库,实现对第二特征库的不断更新;文件病毒检测的方法及装置文件病毒检测基于所述用于文件病毒检测的特征获取方法文件病毒检测及装置以及其更新的第二特征库,获取待测文件的特征信息,并对待测文件进行检测,从而避免未知文件被误报,降低文件误报率。
附图说明
图1为本发明实施例的用于文件病毒检测的特征获取方法流程图。
图2为本发明实施例的离线标识特征获取方法流程图。
图3为本发明实施例的在线标识特征获取方法流程图。
图4为本发明实施例的文件病毒检测的方法流程图。
图5为本发明一实施例的用于文件病毒检测的特征获取装置的结构示意图。
图6为本发明另一实施例的用于文件病毒检测的特征获取装置的结构示意图。
图7为本发明一实施例的文件病毒检测的装置结构示意图。
图8为本发明实施例的用于文件病毒检测的第二特征库生成过程示意图。
图9为本发明实施例的离线标识特征示例性更新过程示意图。
图10为本发明实施例的在线标识特征示例性更新过程示意图。
图11为本发明实施例的文件病毒检测的示例性鉴定过程示意图。
图12为本发明实施例的文件病毒检测的示例性学习过程示意图。
具体实施方式
下面结合附图对本发明实施例用于文件病毒检测的特征获取方法及文件病毒检测的方法、装置进行详细描述。
图1示出了本发明实施例的用于文件病毒检测的特征获取方法流程图。参照图1,用于文件病毒检测的特征获取方法包括如下步骤:
步骤101,在样本文件的设定位置提取多个第一子特征,该多个第一子特征形成第一特征向量,执行步骤102。
步骤102,根据多个第二子特征的位置信息对步骤101中形成的多个第一子特征进行重新组合,得到第二特征向量,执行步骤103。
例如,可以通过特征优先表记录N个设定位置;在一个实施例中,在一样本文件的N个设定位置上提取N个第一子特征(例如,N个预定位置分别为a1、a2、a3、……、aN,从这N个位置处提取N个第一子特征A1、A2、A3、……、AN),形成第一特征向量,根据优先指针指向特征优先表的位置,从N个第一子特征中选取M个第二子特征(其中,N>=M)进行重新组合,例如,当前优先指针指向特征优先表中的a8、a9、……、a8+M,从该M个位置处获取第二子特征A8、A9、……、A8+M,得到第二特征向量。
步骤103,确定是否能在第一特征库中查找到第二特征向量中所包含的多个子特征,如果否,则执行步骤104,如果是,则执行步骤105。
步骤104,将第二特征向量作为样本文件的标识特征加入第二特征库。
步骤105,重新调整多个第二子特征的位置信息,得到多个第二子特征对应的新的位置信息(例如,移动特征优先表的顺序,得到第二特征向量的对应的特征优先表的位置为a8+M,现在可以将特征优先表移动至位置a9+M处),执行步骤106。
步骤106,根据新的位置信息对多个第一子特征进行重新组合,得到第三特征向量,执行步骤107。
例如,在第一特征库中查找到前述M个第二子特征组合得到的第二特征向量,则移动优先指针指向特征优先表的位置,得到M个第二子特征对应的新的位置信息,根据该新的位置信息对N个第一子特征进行重新组合,得到第三特征向量。
步骤107,确定是否能在第一特征库中查询到第三特征向量中所包含的子特征,如果否,则执行步骤108,如果是,则执行步骤105。
步骤108,将第三特征向量作为样本文件的标识特征加入第二特征库。
在一个实施例中,本发明实施例中的第一特征库的形成过程可以是通过大量的黑样本(病毒文件或恶意文件)提取N个黑特征,将大量的N个黑特征组合形成第一特征库。
此外,可以参照图8所示的本发明实施例的用于文件病毒检测的第二特征库生成过程示意图,从而对本发明实施例的特征获取方法的技术方案进一步地理解。参照图8,本发明实施例以第一特征库为黑特征池、第二特征库为白特征库进行示例性说明,其中,黑特征池表示被测文件为恶意样本的特征,白特征库表示被测文件为非恶意样本的特征;具体地,在一个实施例中,获得一个待提取白文件,提取该白文件的多个第一子特征,移动特征优先表,根据优先指针指向的特征优先表的位置,将多个第一子特征进行重新组合,得到第二特征向量,在第一特征库中查询该第二特征向量;如果没有查询到,则将该第二特征向量添加至第二特征库,同时,该第二特征向量也可以作为标识该白文件的标识特征,如果查询到,则根据优先指针指向的特征优先表的位置,移动特征优先表,重新调整多个第二子特征的位置信息,得到多个第二子特征对应的新的位置信息,根据该新的位置信息对多个第一子特征进行重新组合,获得新的特征向量(例如,第二特征向量)后,再在第一特征库中查询该新的特征向量。如果第二特征向量中的所有的子特征与第一特征库中的特征未冲突,即,该第二特征向量中的所有子特征均不在该第一特征库中,则将该新的特征向量入第二特征库,若冲突,即,第二特征向量中有至少一个子特征在第一特征库中,则移动特征优先表,进一步从第一特征向量中提取新的特征,组成新的特征向量,重复上述过程即可。
根据本发明一实施例,第二特征库的原始数据可以是在离线环境下生成,还可以根据在线环境对第二特征库进行实时更新,具体可以参照图2所示的本发明实施例的离线标识特征获取方法流程示意图和图3所示的本发明实施例的在线标识特征获取方法流程示意图。
参照图2,在离线环境下的特征获取方法包括:
步骤201,获取杀毒引擎的历史误报样本,以及获取杀毒引擎将历史误报样本识别为病毒文件的离线标识特征。
步骤202,获取离线标识特征对应的文件个数以及离线标识特征对应的误报次数。
步骤203,通过文件个数与误报次数获取优质标识特征。
步骤204,通过优质标识特征更新第二特征库。
通过上述步骤,将离线标识特征对应的文件个数较多(可以理解为占所有文件的比例较大,例如,总共10000个文件,离线标识特征A1对应的文件个数为8000),以及离线标识特征对应的被误报的次数较多(例如,离线标识特征A1对应的文件个数为8000,有5000个文件被误报为病毒文件)的标识特征作为优质标识特征,并将其更新到第二特征库中。本领域技术人员可以理解的是,离线标识特征的提取可以采用图1所示的方法进行提取,可以通过设置设定时间段的长短来控制历史误报样本的数量,如果设定时间段足够长,则会有足够多的历史误报样本,进而足够多的历史误报样本对应的离线标识特征组合则形成第二特征库的原始特征。
为更好地理解本发明实施例的技术方案,可以参照图9所示的本发明实施例的离线标识特征的示例性更新过程示意图,基于病毒查杀引擎的误报数据,提取标识特征,并通过文件个数与误报次数的筛选条件,获取优质标识特征,最终将该筛选出的标识特征更新至第二特征库中。
参照图3,在线环境下的特征获取方法包括:
步骤301,根据杀毒引擎的实时误报样本生成在线标识特征,执行步骤302。
步骤302,计算在线标识特征对应的所有文件的误报率,执行步骤303。
步骤303,确定误报率是否大于或等于预定阈值。如果是,执行步骤304,如果否,则执行步骤305。
步骤304,将在线标识特征添加到第二特征库中。
步骤305,对在线标识特征设置在活跃队列中,执行步骤306。
步骤306,对活跃队列中的在线标识特征进行批量检测。
为更好地理解本发明实施例的技术方案,可以参照图10所示的本发明实施例的在线标识特征示例性更新过程示意图,例如图10中所示,根据查杀引擎确定是否将样本文件误报,如果是,提取该样本文件的在线标识特征,计算在线标识特征对应文件误报率,再确定误报率是否大于或等于阈值Ts,如是(例如,误报率为0.6,阈值Ts为0.5),则将该在线标识特征更新至第二特征库,并下发至查杀引擎,如否(例如,误报率为0.45,阈值Ts为0.5),将在线标识特征设置在活跃队列中,进行热度回归,即重新进行批量的误报检测。
根据本发明实施例提供的用于文件病毒检测的特征获取方法,通过标识特征的方式识别是否被检测文件是否为误报文件,因此能够实现将同一特征标识一批相似文件,且通过将样本文件的标识特征加入第二特征库,从而不断更新第二特征库,避免未知文件被误报,降低系统对文件的误报率。
图4示出了本发明实施例的文件病毒检测的方法流程图,参照图4,文件病毒检测的方法包括如下步骤:
步骤401,获取待测文件的特征信息,执行步骤402。
步骤402,确定待测文件的特征信息是否在第二特征库中,若不在,则执行步骤403,若在,则执行步骤404。其中,第二特征库通过图1的方法获取到。
步骤403,对特征信息进行启发式鉴定。例如,通过启发引擎对该特征信息进行鉴定,该过程可以理解为文件病毒检测的学习过程,通过启发引擎确定是否误报该待测文件,如果是,提取该文件特征信息并添加至第二特征库。
步骤404,确定待测文件为非恶意文件。例如,文件A的特征“33C05FE88BE55DC3”在第二特征库中查询到,则可以确定文件A为非恶意文件。
为更理解本发明实施例的技术方案,图12示出了本发明实施例的文件病毒检测的示例性学习过程示意图,参照图12,本发明实施例以第二特征库为白特征库进行示例性说明,文件A的特征“33C05FE88BE55DC3”未在第二特征库中查询到,则启用启发引擎对文件A进一步鉴定,确定是否误报文件A,若是,提取文件A的特征“33C05FE88BE55DC3”,将其添加至第二特征库,从而扩大第二特征库。
文件病毒检测过程可以参考图11示出的本发明实施例的文件病毒检测的示例性鉴定过程示意图。如图中所示,提取文件B的特征信息“33C05FE88BE55DC3”,在第二特征库中查找该特征信息,如果命中,则确定文件B为非恶意样本文件,如果未命中,则对文件B进行启发式鉴定,例如前述图12所示的示例性学习过程。
根据本发明实施例提供的文件病毒检测的方法,通过标识特征的方式识别被检测文件是否为误报文件,因此能够实现将同一特征标识一批相似文件,且通过文件病毒检测的启发式鉴定过程,能够不断更新第二特征库,从而避免未知文件被误报,降低系统对文件的误报率。
图5示出了本发明一实施例的用于文件病毒检测的特征获取装置结构示意图。参照图5,该特征获取装置包括:第一获取模块51、第二获取模块52以及第一更新模块53。
第一获取模块51在样本文件的设定位置提取多个第一子特征,多个第一子特征形成第一特征向量。
第二获取模块52根据多个第二子特征的位置信息对多个第一子特征进行重新组合,得到第二特征向量。
第一更新模块53用于如果在第一特征库中未查询到第二特征向量中所包含的子特征,将第二特征向量作为样本文件的标识特征加入第二特征库。
图6示出了本发明另一实施例的用于文件病毒检测的特征获取装置的结构示意图,该装置应用上述用于文件病毒检测的特征获取装置的方法,参照图6,该特征获取装置包括:
第一获取模块51、第二获取模块52、位置更新模块54、第三获取模块55、第二更新模块56、第二特征库生成模块57、在线标识特征生成模块58、计算模块59以及第三更新模块60。
第一获取模块51在样本文件的设定位置提取多个第一子特征,多个第一子特征形成第一特征向量。
第二获取模块52根据多个第二子特征的位置信息对多个第一子特征进行重新组合,得到第二特征向量。
位置更新模块54用于如果在第一特征库中查询到第二特征向量中所包含的子特征,重新调整多个第二子特征的位置信息,得到多个第二子特征对应的新的位置信息。
第三获取模块55用于根据新的位置信息对多个第一子特征进行重新组合,得到第三特征向量。
第二更新模块56用于如果在第一特征库中未查询到第三特征向量中所包含的子特征,将第三特征向量作为样本文件的标识特征加入第二特征库。
第二特征库生成模块57,用于在离线环境下,通过杀毒引擎的历史误报样本生成第二特征库中的原始特征。其包括:
第一获取单元(图中未示出),用于获取杀毒引擎的历史误报样本,以及获取杀毒引擎将历史误报样本识别为病毒文件的离线标识特征。
第二获取单元(图中未示出),用于获取离线标识特征对应的文件个数以及离线标识特征对应的误报次数。
第三获取单元(图中未示出),用于通过文件个数与误报次数获取优质标识特征。
第一更新单元(图中未示出),用于通过优质标识特征更新第二特征库。
在线标识特征生成模块58,用于在线环境下,根据杀毒引擎的实时误报样本生成在线标识特征。
计算模块59,用于计算在线标识特征对应的所有文件的误报率。
第三更新模块60,用于如果误报率大于或者等于设定阈值,则将在线标识特征添加到第二特征库中。
通过本发明提供的用于文件病毒检测的特征获取装置,通过标识特征的方式识别被检测文件是否为误报文件,因此能够实现将同一特征标识一批相似文件,且通过将样本文件的标识特征加入第二特征库,从而不断更新第二特征库,避免未知文件被误报,降低系统对文件的误报率。
图7示出了本发明一实施例的文件病毒检测的装置结构示意图,该装置应用前述文件病毒检测的方法,参照图7,文件病毒检测的装置包括:第四获取模块71、第一确定模块72、启发式鉴定模块73以及第二确定模块74。
第四获取模块71获取待测文件的特征信息。
第一确定模块72确定待测文件的特征信息是否在第二特征库中。
如果第一确定模块确定待测文件的特征信息不在第二特征库中,启发式鉴定模块73对特征信息进行启发式鉴定。
如果第一确定模块确定待测文件的特征信息在第二特征库中,第二确定模块74确定待测文件为非恶意文件。
根据本发明一实施例,该装置还包括:
第二特征库生成模块(未在图中示出),用于在离线环境下,通过杀毒引擎的历史误报样本生成第二特征库中的原始特征。该第二特征库生成模块包括:
第一获取单元(未在图中示出),用于获取杀毒引擎在设定时间段内的历史误报样本,以及获取杀毒引擎将历史误报样本识别为病毒文件的离线标识特征。
第二获取单元(未在图中示出),用于获取离线标识特征对应的文件个数以及离线标识特征对应的误报次数。
第三获取单元(未在图中示出),用于通过文件个数与误报次数获取优质标识特征。
第一更新单元(未在图中示出),用于通过优质标识特征更新第二特征库。
此外,该装置还包括:
在线标识特征生成模块(未在图中示出),用于在线环境下,根据杀毒引擎的实时误报样本生成在线标识特征。
计算模块(未在图中示出),用于计算在线标识特征对应的所有文件的误报率。
第四更新模块(未在图中示出),用于如果误报率大于或者等于设定阈值,则将在线标识特征添加到第二特征库中。
通过本发明提供的文件病毒检测的装置,通过标识特征的方式识别是否被检测文件是否为误报文件,因此能够实现将同一特征标识一批相似文件,且通过将样本文件的标识特征加入第二特征库,从而不断更新第二特征库,避免未知文件被误报,降低系统对文件的误报率
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (20)

1.一种用于文件病毒检测的特征获取方法,其特征在于,所述方法包括:
在样本文件的设定位置提取多个第一子特征,所述多个第一子特征形成第一特征向量;
根据多个第二子特征的位置信息对所述多个第一子特征进行重新组合,得到第二特征向量;
如果在第一特征库中未查询到所述第二特征向量中所包含的子特征,将所述第二特征向量作为所述样本文件的标识特征加入第二特征库。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果在所述第一特征库中查询到所述第二特征向量中所包含的子特征,重新调整所述多个第二子特征的位置信息,得到所述多个第二子特征对应的新的位置信息;
根据所述新的位置信息对所述多个第一子特征进行重新组合,得到第三特征向量;
如果在所述第一特征库中未查询到所述第三特征向量中所包含的子特征,将所述第三特征向量作为所述样本文件的标识特征加入所述第二特征库。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在离线环境下,通过杀毒引擎的历史误报样本生成所述第二特征库中的原始特征。
4.根据权利要求3所述的方法,其特征在于,所述通过杀毒引擎的历史误报样本生成所述第二特征库中的原始特征的步骤包括:
获取杀毒引擎的历史误报样本,以及获取所述杀毒引擎将所述历史误报样本识别为病毒文件的离线标识特征;
获取所述离线标识特征对应的文件个数以及所述离线标识特征对应的误报次数;
通过所述文件个数与所述误报次数获取优质标识特征;
通过所述优质标识特征更新所述第二特征库。
5.根据权利要求1-4任一所述的方法,其特征在于,所述方法还包括:
在线环境下,根据杀毒引擎的实时误报样本生成在线标识特征;
计算所述在线标识特征对应的所有文件的误报率;
如果所述误报率大于或者等于设定阈值,则将所述在线标识特征添加到所述第二特征库中。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
如果所述误报率小于所述设定阈值,则对所述在线标识特征设置在活跃队列中;
对所述活跃队列中的所述在线标识特征进行批量检测。
7.一种文件病毒检测的方法,其特征在于,所述方法包括:
获取待测文件的特征信息;
确定所述待测文件的特征信息是否在第二特征库中,所述第二特征库通过上述权利要求1所述的方法获取到;
如果所述待测文件的特征信息不在所述第二特征库中,对所述特征信息进行启发式鉴定;
如果所述待测文件的特征信息在所述第二特征库中,确定所述待测文件为非恶意文件。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
在离线环境下,通过杀毒引擎的历史误报样本生成所述第二特征库中的原始特征。
9.根据权利要求8所述的方法,其特征在于,所述通过杀毒引擎的历史误报样本生成所述第二特征库中的原始特征的步骤包括:
获取杀毒引擎在设定时间段内的历史误报样本,以及获取所述杀毒引擎将所述历史误报样本识别为病毒文件的离线标识特征;
获取所述离线标识特征对应的文件个数以及所述离线标识特征对应的误报次数;
通过所述文件个数与所述误报次数获取优质标识特征;
通过所述优质标识特征更新所述第二特征库。
10.根据权利要求7-9任一所述的方法,其特征在于,所述方法还包括:
在线环境下,根据杀毒引擎的实时误报样本生成在线标识特征;
计算所述在线标识特征对应的所有文件的误报率;
如果所述误报率大于或者等于设定阈值,则将所述在线标识特征添加到所述第二特征库中。
11.一种用于文件病毒检测的特征获取装置,其特征在于,所述装置包括:
第一获取模块,用于在样本文件的设定位置提取多个第一子特征,所述多个第一子特征形成第一特征向量;
第二获取模块,用于根据多个第二子特征的位置信息对所述多个第一子特征进行重新组合,得到第二特征向量;
第一更新模块,用于如果在第一特征库中未查询到所述第二特征向量中所包含的子特征,将所述第二特征向量作为所述样本文件的标识特征加入第二特征库。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
位置更新模块,用于如果在所述第一特征库中查询到所述第二特征向量中所包含的子特征,重新调整所述多个第二子特征的位置信息,得到所述多个第二子特征对应的新的位置信息;
第三获取模块,用于根据所述新的位置信息对所述多个第一子特征进行重新组合,得到第三特征向量;
第二更新模块,用于如果在所述第一特征库中未查询到所述第三特征向量中所包含的子特征,将所述第三特征向量作为所述样本文件的标识特征加入所述第二特征库。
13.根据权利要求11所述的装置,其特征在于,所述装置还包括:
第二特征库生成模块,用于在离线环境下,通过杀毒引擎的历史误报样本生成所述第二特征库中的原始特征。
14.根据权利要求13所述的装置,其特征在于,所述第二特征库生成模块包括:
第一获取单元,用于获取杀毒引擎的历史误报样本,以及获取所述杀毒引擎将所述历史误报样本识别为病毒文件的离线标识特征;
第二获取单元,用于获取所述离线标识特征对应的文件个数以及所述离线标识特征对应的误报次数;
第三获取单元,用于通过所述文件个数与所述误报次数获取优质标识特征;
第一更新单元,用于通过所述优质标识特征更新所述第二特征库。
15.根据权利要求11-14任一所述的装置,其特征在于,所述装置还包括:
在线标识特征生成模块,用于在线环境下,根据杀毒引擎的实时误报样本生成在线标识特征;
计算模块,计算所述在线标识特征对应的所有文件的误报率;
第三更新模块,用于如果所述误报率大于或者等于设定阈值,则将所述在线标识特征添加到所述第二特征库中。
16.根据权利要求15所述的装置,其特征在于,所述装置还包括:
第一在线处理模块,用于如果所述误报率小于所述设定阈值,则对所述在线标识特征设置在活跃队列中;
第二在线处理模块,用于对所述活跃队列中的所述在线标识特征进行批量检测。
17.一种文件病毒检测的装置,其特征在于,所述装置包括:
第四获取模块,用于获取待测文件的特征信息;
第一确定模块,用于确定所述待测文件的特征信息是否在第二特征库中,所述第二特征库通过上述权利要求11所述的方法获取到;
启发式鉴定模块,用于如果所述待测文件的特征信息不在所述第二特征库中,对所述特征信息进行启发式鉴定;
第二确定模块,用于如果所述待测文件的特征信息在所述第二特征库中,确定所述待测文件为非恶意文件。
18.根据权利要求17所述的装置,其特征在于,所述装置还包括:
第二特征库生成模块,用于在离线环境下,通过杀毒引擎的历史误报样本生成所述第二特征库中的原始特征。
19.根据权利要求18所述的装置,其特征在于,所述第二特征库生成模块包括:
第一获取单元,用于获取杀毒引擎在设定时间段内的历史误报样本,以及获取所述杀毒引擎将所述历史误报样本识别为病毒文件的离线标识特征;
第二获取单元,用于获取所述离线标识特征对应的文件个数以及所述离线标识特征对应的误报次数;
第三获取单元,用于通过所述文件个数与所述误报次数获取优质标识特征;
第一更新单元,用于通过所述优质标识特征更新所述第二特征库。
20.根据权利要求17-19任一所述的装置,其特征在于,所述装置还包括:
在线标识特征生成模块,用于在线环境下,根据杀毒引擎的实时误报样本生成在线标识特征;
计算模块,用于计算所述在线标识特征对应的所有文件的误报率;
第四更新模块,用于如果所述误报率大于或者等于设定阈值,则将所述在线标识特征添加到所述第二特征库中。
CN201410535281.0A 2014-10-11 2014-10-11 用于文件病毒检测的特征获取方法及文件病毒检测的方法 Active CN105574408B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410535281.0A CN105574408B (zh) 2014-10-11 2014-10-11 用于文件病毒检测的特征获取方法及文件病毒检测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410535281.0A CN105574408B (zh) 2014-10-11 2014-10-11 用于文件病毒检测的特征获取方法及文件病毒检测的方法

Publications (2)

Publication Number Publication Date
CN105574408A true CN105574408A (zh) 2016-05-11
CN105574408B CN105574408B (zh) 2018-04-17

Family

ID=55884527

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410535281.0A Active CN105574408B (zh) 2014-10-11 2014-10-11 用于文件病毒检测的特征获取方法及文件病毒检测的方法

Country Status (1)

Country Link
CN (1) CN105574408B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120210423A1 (en) * 2010-12-01 2012-08-16 Oliver Friedrichs Method and apparatus for detecting malicious software through contextual convictions, generic signatures and machine learning techniques
CN102779249A (zh) * 2012-06-28 2012-11-14 奇智软件(北京)有限公司 恶意程序检测方法及扫描引擎
CN103761481A (zh) * 2014-01-23 2014-04-30 北京奇虎科技有限公司 一种恶意代码样本自动处理的方法及装置
CN103761476A (zh) * 2013-12-30 2014-04-30 北京奇虎科技有限公司 特征提取的方法及装置
CN103942495A (zh) * 2010-12-31 2014-07-23 北京奇虎科技有限公司 基于机器学习的程序识别方法及装置
CN104077524A (zh) * 2013-03-25 2014-10-01 腾讯科技(深圳)有限公司 用于病毒鉴定的训练方法和病毒鉴定方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120210423A1 (en) * 2010-12-01 2012-08-16 Oliver Friedrichs Method and apparatus for detecting malicious software through contextual convictions, generic signatures and machine learning techniques
CN103942495A (zh) * 2010-12-31 2014-07-23 北京奇虎科技有限公司 基于机器学习的程序识别方法及装置
CN102779249A (zh) * 2012-06-28 2012-11-14 奇智软件(北京)有限公司 恶意程序检测方法及扫描引擎
CN104077524A (zh) * 2013-03-25 2014-10-01 腾讯科技(深圳)有限公司 用于病毒鉴定的训练方法和病毒鉴定方法及装置
CN103761476A (zh) * 2013-12-30 2014-04-30 北京奇虎科技有限公司 特征提取的方法及装置
CN103761481A (zh) * 2014-01-23 2014-04-30 北京奇虎科技有限公司 一种恶意代码样本自动处理的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王海峰等: "基于程序行为特征的病毒检测技术与应用", 《计算机系统应用》 *

Also Published As

Publication number Publication date
CN105574408B (zh) 2018-04-17

Similar Documents

Publication Publication Date Title
US9560063B2 (en) Apparatus and method for detecting malicious domain cluster
US9621571B2 (en) Apparatus and method for searching for similar malicious code based on malicious code feature information
EP3258409B1 (en) Device for detecting terminal infected by malware, system for detecting terminal infected by malware, method for detecting terminal infected by malware, and program for detecting terminal infected by malware
US20120159625A1 (en) Malicious code detection and classification system using string comparison and method thereof
US11270001B2 (en) Classification apparatus, classification method, and classification program
CN110414236B (zh) 一种恶意进程的检测方法及装置
CN104700033A (zh) 病毒检测的方法及装置
CN110198303A (zh) 威胁情报的生成方法及装置、存储介质、电子装置
CN105718795B (zh) Linux下基于特征码的恶意代码取证方法及系统
US20170277887A1 (en) Information processing apparatus, information processing method, and computer readable medium
CN109063482B (zh) 宏病毒识别方法、装置、存储介质及处理器
CN112152962A (zh) 一种威胁检测方法及系统
CN103475671A (zh) 恶意程序检测方法
KR20180079434A (ko) 바이러스 데이터베이스 획득 방법 및 기기, 장비, 서버 그리고 시스템
CN107463493B (zh) 一种面向主机防病毒产品的测试系统和测试方法
CN103888480A (zh) 基于云监测的网络信息安全性鉴定方法及云端设备
JP2018077607A (ja) セキュリティルール評価装置およびセキュリティルール評価システム
US10055584B2 (en) Method and device for obtaining virus signatures
CN103745154A (zh) 一种具有自学习能力的入侵检测系统及检测方法
US10075454B1 (en) Using telemetry data to detect false positives
CN105574408A (zh) 用于文件病毒检测的特征获取方法及文件病毒检测的方法
CN108040067B (zh) 一种云平台入侵检测方法、装置及系统
CN113242258B (zh) 一种主机集群的威胁检测方法和装置
EP3514719A1 (en) Identifying suspected malware files and sites based on presence in known malicious environment
CN103325171A (zh) 有价票据分选系统和有价票据分选方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190828

Address after: 100085 Beijing, Haidian District, No. ten on the ground floor, No. 10 Baidu building, layer 2

Patentee after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Address before: 100091 1-01, 1-03, 1-04, C, building, building 8, 4 West Wang Xi Road, Haidian District, Northeast China

Patentee before: Pacify a Heng Tong (Beijing) Science and Technology Ltd.

TR01 Transfer of patent right