CN104268249B - 一种系统文件的识别方法及系统 - Google Patents

一种系统文件的识别方法及系统 Download PDF

Info

Publication number
CN104268249B
CN104268249B CN201410522818.XA CN201410522818A CN104268249B CN 104268249 B CN104268249 B CN 104268249B CN 201410522818 A CN201410522818 A CN 201410522818A CN 104268249 B CN104268249 B CN 104268249B
Authority
CN
China
Prior art keywords
file
feature
destination
matching
file destination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410522818.XA
Other languages
English (en)
Other versions
CN104268249A (zh
Inventor
周杨
刘桂峰
姚辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Seal Interest Technology Co Ltd
Original Assignee
Zhuhai Juntian Electronic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Juntian Electronic Technology Co Ltd filed Critical Zhuhai Juntian Electronic Technology Co Ltd
Priority to CN201410522818.XA priority Critical patent/CN104268249B/zh
Publication of CN104268249A publication Critical patent/CN104268249A/zh
Application granted granted Critical
Publication of CN104268249B publication Critical patent/CN104268249B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements

Abstract

本发明的实施例公开了一种系统文件的识别方法及系统,涉及计算机安全技术领域。为提高对系统文件的识别的准确性而发明。系统文件的识别方法包括:提取待识别的目标文件的文件特征;利用系统文件精确匹配特征库对所述目标文件的文件特征进行精确匹配识别;利用系统文件模糊匹配特征库对所述目标文件的文件特征进行模糊匹配识别;根据所述精确匹配识别和模糊匹配识别,输出识别结果。本发明适用于对系统文件的识别的场合。

Description

一种系统文件的识别方法及系统
技术领域
本发明涉及计算机安全技术领域,尤其涉及一种系统文件的识别方法及系统。
背景技术
安全软件(如毒霸)常常需要监控和扫描系统中的所有可执行(PortableExecute,PE)文件并判定其是否含有恶意代码,扫描这些PE文件需要消耗一定的时间。
误报是安全软件需要解决的重大问题,误报系统文件是最重大的误报,一旦出现可能造成最为严重的后果,尤其是随着微软不断通过Windows Update升级其系统,会不断产生各种各样新的系统文件以及原有系统文件的新版本,为保证不出现误报问题,需要有方法将系统文件进行识别。
但是,传统的方法不对系统文件进行区分,也就是说,对所有文件均扫描特征码或进行云查杀,这种方式导致识别效率极其低,且常常需要消耗大量的时间。
因此,亟需设计一种系统文件的识别方法及系统,以提高系统文件的识别效率并减少误报。
发明内容
有鉴于此,本发明实施例提供一种系统文件的识别方法及系统,能提高对系统文件的识别的准确性。
为达到上述目的,本发明的实施例采用如下技术方案:
一方面,本发明实施例提供了一种系统文件的识别方法,包括:
提取待识别的目标文件的文件特征;
利用系统文件精确匹配特征库对所述目标文件的文件特征进行精确匹配识别;
利用系统文件模糊匹配特征库对所述目标文件的文件特征进行模糊匹配识别;
根据所述精确匹配识别和模糊匹配识别,输出识别结果。
优选的,所述目标文件包括Windows操作系统的系统文件。
优选的,所述文件特征包括所述目标文件的文件外围信息特征、文件头信息特征、文件引用信息特征、文件导出信息特征、文件导入函数信息特征、文件入口信息特征、文件版本信息特征以及文件资源信息特征中的至少一项。
优选的,所述利用系统文件精确匹配特征库对所述目标文件的文件特征进行精确匹配识别包括:
将所述目标文件的文件版本信息特征与预先存储的文件列表库中的相应特征进行对比并判断是否完全一致;
如果完全一致则进入下一特征的对比,或者如果不一致则输出识别不通过的结果。
优选的,所述文件版本信息特征包括所述目标文件的文件名、文件版本中的主系统版本号和子系统版本号、公司名。
优选的,所述利用系统文件精确匹配特征库对所述目标文件的文件特征进行精确匹配识别包括:
将所述目标文件的文件引用信息特征与预先存储的动态链接列表库中的相应特征进行对比,并判断所述目标文件所引用的所有动态链接是否全部包括在所述动态链接列表库里;
如果全部包括在所述动态链接列表库里则进入下一特征的对比,或者如果不是全部包括则输出识别不通过的结果。
优选的,所述利用系统文件精确匹配特征库对所述目标文件的文件特征进行精确匹配识别还包括:
将所述目标文件的文件入口信息特征与预先存储的入口信息特征库中的相应特征进行对比,并判断所述目标文件的文件入口信息特征是否全部包括在所述入口信息特征库里;
如果全部包括在所述入口信息特征库里则进入下一特征的对比,或者如果不是全部包括则输出识别不通过的结果。
优选的,所述利用系统文件模糊匹配特征库对所述目标文件的文件特征进行模糊匹配识别包括:
将所述目标文件的文件头信息特征与预先存储的第一模糊特征库中的文件头信息特征进行模糊匹配并判断匹配程度是否在预设的阈值以上;
如果在预设的阈值以上则进入下一特征的对比,或者如果不在预设的阈值以上则输出识别不通过的结果。
优选的,所述利用系统文件模糊匹配特征库对所述目标文件的文件特征进行模糊匹配识别还包括:
将所述目标文件的文件导入函数信息特征与预先存储的第二模糊特征库中的导入函数特征进行模糊匹配并判断匹配程度是否在预设的阈值以上;
如果在预设的阈值以上则进入下一特征的对比,或者如果不在预设的阈值以上则输出识别不通过的结果。
优选的,所述利用系统文件模糊匹配特征库对所述目标文件的文件特征进行模糊匹配识别还包括:
在所述目标文件的所有信息特征均通过模糊匹配后,将所述目标文件中的所有信息特征加入模糊特征库里并输出识别通过的结果。
本发明实施例提供的一种系统文件的识别方法,通过采用精确匹配识别与模糊匹配识别相结合的方法进行识别系统文件,能够提高对系统文件识别的准确性。
另一方面,本发明实施例提供了一种系统文件的识别系统,包括:特征提取模块,用于提取待识别的目标文件的文件特征;精确匹配模块,用于利用系统文件精确匹配特征库对所述目标文件的文件特征进行精确匹配识别;模糊匹配模块,用于利用系统文件模糊匹配特征库对所述目标文件的文件特征进行模糊匹配识别;结果输出模块,用于根据所述精确匹配识别和模糊匹配识别,输出识别结果。
优选的,所述目标文件包括Windows操作系统的系统文件。
优选的,所述文件特征包括所述目标文件的文件外围信息特征、文件头信息特征、文件引用信息特征、文件导出信息特征、文件导入函数信息特征、文件入口信息特征、文件版本信息特征以及文件资源信息特征中的至少一项。
优选的,所述精确匹配模块包括:第一对比子模块,用于将所述目标文件的文件版本信息特征与预先存储的文件列表库中的相应特征进行对比并判断是否完全一致;跳跃子模块,用于如果所述目标文件的文件版本信息特征与预先存储的文件列表库中的相应特征是完全一致的,则进入下一特征的对比;
其中,所述结果输出模块,还用于如果所述目标文件的文件版本信息特征与预先存储的文件列表库中的相应特征不一致,则输出识别不通过的结果。
优选的,所述文件版本信息特征包括所述目标文件的文件名、文件版本中的主系统版本号和子系统版本号、公司名。
优选的,所述精确匹配模块还包括:第二对比子模块,用于将所述目标文件的文件引用信息特征与预先存储的动态链接列表库中的相应特征进行对比,并判断所述目标文件所引用的所有动态链接是否全部包括在所述动态链接列表库里;其中,所述跳跃子模块,还用于如果所述目标文件所引用的所有动态链接全部包括在所述动态链接列表库里,则进入下一特征的对比;所述结果输出模块,还用于如果所述目标文件所引用的所有动态链接不是全部包括在所述动态链接列表库里,则输出识别不通过的结果。
优选的,所述精确匹配模块还包括:第三对比子模块,用于将所述目标文件的文件入口信息特征与预先存储的入口信息特征库中的相应特征进行对比,并判断所述目标文件的文件入口信息特征是否全部包括在所述入口信息特征库里;其中,所述跳跃子模块,还用于如果所述目标文件的文件入口信息特征全部包括在所述入口信息特征库里,则进入下一特征的对比;所述结果输出模块,还用于如果所述目标文件的文件入口信息特征不是全部包括在所述入口信息特征库里,则输出识别不通过的结果。
优选的,所述模糊匹配模块包括:第四对比子模块,用于将所述目标文件的文件头信息特征与预先存储的第一模糊特征库中的文件头信息特征进行模糊匹配并判断匹配程度是否在预设的阈值以上;其中,所述跳跃子模块,还用于如果匹配程度在预设的阈值以上,则进入下一特征的对比;所述结果输出模块,还用于如果匹配程度不在预设的阈值以上,则输出识别不通过的结果。
优选的,所述模糊匹配模块还包括:第五对比子模块,用于将所述目标文件的文件导入函数信息特征与预先存储的第二模糊特征库中的导入函数特征进行模糊匹配并判断匹配程度是否在预设的阈值以上;其中,所述跳跃子模块,还用于如果匹配程度在预设的阈值以上,则进入下一特征的对比;所述结果输出模块,还用于如果匹配程度不在预设的阈值以上,则输出识别不通过的结果。
优选的,所述模糊匹配模块还包括:样本学习子模块,用于在所述目标文件的所有信息特征均通过模糊匹配后,将所述目标文件中的所有信息特征加入模糊特征库里;其中,所述结果输出模块,还用于输出识别通过的结果。
本发明实施例提供的一种系统文件的识别系统,通过采用精确匹配识别与模糊匹配识别相结合的方法进行识别系统文件,能够提高对系统文件识别的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明一实施方式中系统文件的识别方法的流程图;
图2为本发明一实施方式中图1中步骤S12的具体方法流程图;
图3为本发明一实施方式中图1中步骤S13的具体方法流程图;
图4为本发明一实施方式中系统文件的识别系统的结构示意图;
图5为本发明一实施方式中图4中的精确匹配模块30的结构示意图;
图6为本发明一实施方式中图4中的模糊匹配模块40的结构示意图。
具体实施方式
下面结合附图对本发明实施例一种系统文件的识别方法及系统进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明具体实施例提供了一种系统文件的识别方法,主要包括如下步骤:
S11、提取待识别的目标文件的文件特征;
S12、利用系统文件精确匹配特征库对所述目标文件的文件特征进行精确匹配识别;
S13、利用系统文件模糊匹配特征库对所述目标文件的文件特征进行模糊匹配识别;
S14、根据所述精确匹配识别和模糊匹配识别,输出识别结果。
本发明实施例所提供的一种系统文件的识别方法,通过采用精确匹配识别与模糊匹配识别相结合的方法进行识别系统文件,能够提高对系统文件识别的准确性。此外,由于采用本发明实施例的方案能够提高对系统文件识别的准确性,这样便于安全软件如毒霸等在进行监控和扫描时,可仅针对非系统文件进行监控和扫描时,提高监控和扫描的效率;另外,根据本发明系统文件的识别方法,可通过对匹配条件的严格限定来增加安全性,即使是被感染的系统文件,也能够识别出来,以减少误报。
以下将对本发明实施例所提供的一种系统文件的识别方法进行详细说明。
参看图1,为本发明一实施方式中系统文件的识别方法的流程图。
在步骤S11中,提取待识别的目标文件的文件特征。
在本实施方式中,所述目标文件包括Windows操作系统的系统文件,当然,该目标文件也可以包括其他操作系统的系统文件,在此仅以Windows操作系统作为一个例子进行说明,对其他的操作系统(例如Android操作系统、iOS操作系统、Linux操作系统等等)不做限定,在此就不一一举例。
在本实施方式中,所述文件特征包括所述目标文件的文件外围信息特征、文件头信息特征、文件引用信息特征、文件导出信息特征、文件导入函数信息特征、文件入口信息特征、文件版本信息特征以及文件资源信息特征中的至少一项。在本实施方式中,所述文件特征为按照固定方式进行提取。
在步骤S12中,利用系统文件精确匹配特征库对所述目标文件的文件特征进行精确匹配识别。
在本实施方式中,系统文件精确匹配特征库是在判断之前就已经由运维人员建立好的。
在本实施方式中,利用系统文件精确匹配特征库对所述目标文件的文件特征进行精确匹配识别的步骤S12具体还包括步骤S121-S126,如图2所示。
图2为本发明一实施方式中图1中步骤S12的具体方法流程图。
在步骤S121中,将目标文件的文件版本信息特征与预先存储的文件列表库中的相应特征进行对比并判断是否完全一致。
在本实施方式中,文件列表库是在判断之前就已经建立好的,且已经将该文件列表库预先存储在固定的存储单元里,以便于作为一个样本库进行对比。
在本实施方式中,所述文件版本信息特征包括所述目标文件的文件名、文件版本中的主系统版本号和子系统版本号、公司名。
在步骤S122中,如果步骤S121判断是完全一致则进入下一特征的对比,如果步骤S121判断是不一致则输出识别不通过的结果。在本实施方式中,通过本步骤可以控制匹配的风险。
在本实施方式中,步骤S122中的进入下一特征的对比则表示进入步骤S123中执行。
在步骤S123中,将目标文件的文件引用信息特征与预先存储的动态链接列表库中的相应特征进行对比,并判断目标文件所引用的所有动态链接是否全部包括在所述动态链接列表库里。
在本实施方式中,动态链接列表库是在判断之前就已经建立好的,且已经将该动态链接列表库预先存储在固定的存储单元里,以便于作为一个样本库进行对比。
在步骤S124中,如果步骤S123判断全部包括在所述动态链接列表库里则进入下一特征的对比,或者如果步骤S123判断不是全部包括则输出识别不通过的结果。在本实施方式中,通过本步骤S124可以进一步控制安全风险,防止对被感染系统文件的误判。
在本实施方式中,要求目标文件所引用的动态链接(Dynamic Link Library,DLL)必须全部为已有动态链接列表库中的项目,否则不能通过匹配。在本实施方式中,步骤S124中的进入下一特征的对比则表示进入步骤S125中执行。
在步骤S125中,将目标文件的文件入口信息特征与预先存储的入口信息特征库中的相应特征进行对比,并判断目标文件的文件入口信息特征是否全部包括在入口信息特征库里。
在本实施方式中,入口信息特征库是在判断之前就已经建立好的,且已经将该入口信息特征库预先存储在固定的存储单元里,以便于作为一个样本库进行对比。
在本实施方式中,文件入口信息特征仅仅包括入口点位置及所在节区,本步骤中的这个入口信息匹配并不是对入口点代码进行解析并匹配,而是简单的对于入口点位置及所在节区进行匹配,这样一来达到提高识别效率的目的。
在步骤S126中,如果步骤S125判断全部包括在所述入口信息特征库里则进入下一特征的对比,或者如果步骤S125判断不是全部包括则输出识别不通过的结果。在本实施方式中,通过本步骤S126可以防止对被感染系统文件的误判。
在本实施方式中,只对文件特征中所包括的文件版本信息特征、文件引用信息特征以及文件入口信息特征这三个信息特征进行精确匹配识别,当然在实际操作时,可以根据不同的需求增加其他信息特征来做精确匹配识别,具体方法与之前的三个信息特征的精确匹配识别方法相同,也可以根据不同需求减少信息特征进行精确匹配识别,在此不做限定。
此外,本步骤中,在利用系统文件精确匹配特征库对所述目标文件的文件特征进行精确匹配识别时,如果识别不通过,即特征不匹配,则对此次匹配的结果和不匹配的原因进行记录;目标文件继续进入下一步的模糊匹配过程,一旦之后的模糊匹配通过,这些记录的数据通过反馈机制提交给本系统的管理运营人员,人工分析后可能的结果如下:(1)所述目标文件是被感染或被修改或破解的文件,弃用;(2)是未学习到的系统文件,进行学习。
参看图1,在步骤S13中,利用系统文件模糊匹配特征库对所述目标文件的文件特征进行模糊匹配识别。
在本实施方式中,系统文件模糊匹配特征库为学习获得。在建立系统文件模糊匹配特征库的初始,需要单独的学习流程,学习要求有大量已知的系统文件,这可通过毒霸的文件云系统和监控收集系统来实现。学习时,提取学习源样本的样本素材,即样本特征,按照库格式存储在数据库中即可。文件素材为按照固定方法提取的文件外围信息、文件头信息、版本信息等文件的相关特征。数据库库可以采用本地的SQLite数据库,也可以采用MySQL等关系型数据库。为保证匹配的质量,初始的学习源文件优选在10万以上,且应该尽量涵盖Windows和IE的尽可能多的文件。
在本实施方式中,利用系统文件模糊匹配特征库对所述目标文件的文件特征进行模糊匹配识别的步骤S13具体还包括步骤S131-S135,如图3所示。
图3为本发明一实施方式中图1中步骤S13的具体方法流程图。
在步骤S131中,将目标文件的文件头信息特征与预先存储的第一模糊特征库中的文件头信息特征进行模糊匹配并判断匹配程度是否在预设的阈值以上。
在本实施方式中,在进行了上述的精确匹配识别之后,还要进行以下的几步模糊匹配识别,通过精确匹配识别与模糊匹配识别相结合的方法来进行识别系统文件,进而达到减少误报的目的。
在本实施方式中,第一模糊特征库是在判断之前就已经建立好的,且已经将该第一模糊特征库预先存储在固定的存储单元里,以便于作为一个样本库进行对比。在本实施方式中,第一模糊特征库里存储有多个文件头信息特征。
在本实施方式中,预设的阈值优选为95%。
在步骤S132中,如果步骤S131判断在预设的阈值以上则进入下一特征的对比,或者如果步骤S131判断不在预设的阈值以上则输出识别不通过的结果。
在本实施方式中,步骤S132中的进入下一特征的对比则表示进入步骤S133中执行。
在步骤S133中,将目标文件的文件导入函数信息特征与预先存储的第二模糊特征库中的导入函数特征进行模糊匹配并判断匹配程度是否在预设的阈值以上。
在本实施方式中,第二模糊特征库是在判断之前就已经建立好的,且已经将该第二模糊特征库预先存储在固定的存储单元里,以便于作为一个样本库进行对比。
在本实施方式中,预设的阈值优选为95%。
在步骤S134中,如果在预设的阈值以上则进入下一特征的对比,或者如果不在预设的阈值以上则输出识别不通过的结果。
在本实施方式中,由于只有设置文件头信息特征和文件导入函数信息特征这两个信息特征进行模糊匹配识别,当然在实际操作时,可以根据不同的需求增加其他信息特征来做模糊匹配识别,具体方法与之前的两个信息特征的模糊匹配识别方法相同,也可以根据不同需求减少信息特征进行模糊匹配识别,在此不做限定。
在本实施方式中,如果设置两个或两个以上信息特征进行模糊匹配识别时,需要所有单项匹配的匹配程度均在95%以上通过才能是匹配成功,即才能输出识别通过的结果。
在步骤S135中,在目标文件的所有信息特征均通过模糊匹配后,将目标文件中的所有信息特征加入模糊特征库里并输出识别通过的结果。
在本实施方式中,如果之前步骤S121-S126的精确匹配识别和之前步骤S131-S135的模糊匹配识别均通过后,则将目标文件中的所有信息特征加入相对应的模糊特征库里,以作为样本进行自学习。
本实施方式中,利用系统文件模糊匹配特征库对所述目标文件的文件特征进行模糊匹配识别的步骤,主要是有效利用同名系统文件之间的相似性来匹配未知系统文件,通过自学习功能可以有效支持新出现的系统文件。
参看图1,在步骤S14中,输出识别结果。
在本实施方式中,如果之前步骤S121-S126的精确匹配识别和之前步骤S131-S135的模糊匹配识别均通过后,则输出识别通过的结果,否则就输出识别不通过的结果。
输出识别通过的结果表明所述目标文件为系统文件,输出识别不通过的结果表明所述目标文件是非系统文件。在进行病毒查杀时,不需要对经过识别确认为系统文件的文件进行扫描,而仅对非系统文件进行查杀,由此能够提高查杀效率。
本发明实施例提供的一种系统文件的识别方法,通过采用精确匹配识别与模糊匹配识别相结合的方法进行识别系统文件,能够提高对系统文件识别的准确性。此外,由于采用本发明实施例的方案能够提高对系统文件识别的准确性,这样便于安全软件如毒霸等在进行监控和扫描时,可仅针对非系统文件进行监控和扫描时,提高监控和扫描的效率;另外,根据本发明系统文件的识别方法,通过对匹配条件的严格限定来增加安全性,即使是被感染的系统文件,也能够识别出来,以减少误报。
本发明具体实施例还提供一种系统文件的识别系统10,如图4所示,主要包括:特征提取模块20,用于提取待识别的目标文件的文件特征;精确匹配模块30,用于利用系统文件精确匹配特征库对所述目标文件的文件特征进行精确匹配识别;模糊匹配模块40,用于利用系统文件模糊匹配特征库对所述目标文件的文件特征进行模糊匹配识别;结果输出模块50,用于根据所述精确匹配识别和模糊匹配识别,输出识别结果。
本发明实施例所提供的一种系统文件的识别系统10,通过采用精确匹配识别与模糊匹配识别相结合的方法进行识别系统文件,能够提高对系统文件识别的准确性。此外,由于采用本发明实施例的方案能够提高对系统文件识别的准确性,这样便于安全软件如毒霸等在进行监控和扫描时,可仅针对非系统文件进行监控和扫描时,提高监控和扫描的效率;另外,根据本发明系统文件的识别方法,可通过对匹配条件的严格限定来增加安全性,即使是被感染的系统文件,也能够识别出来,以减少误报。
以下将对本发明实施例所提供的一种系统文件的识别系统10进行详细说明。
参看图4,所示为本发明一实施方式中系统文件的识别系统10的结构示意图。
在本实施方式中,系统文件的识别系统10主要包括特征提取模块20、精确匹配模块30、模糊匹配模块40以及结果输出模块50。
特征提取模块20,用于提取待识别的目标文件的文件特征。
在本实施方式中,所述目标文件包括Windows操作系统的系统文件,当然,该目标文件也可以包括其他操作系统的系统文件,在此仅以Windows操作系统作为一个例子进行说明,对其他的操作系统(例如Android操作系统、iOS操作系统、Linux操作系统等等)不做限定,在此就不一一举例。
在本实施方式中,所述文件特征包括所述目标文件的文件外围信息特征、文件头信息特征、文件引用信息特征、文件导出信息特征、文件导入函数信息特征、文件入口信息特征、文件版本信息特征以及文件资源信息特征中的至少一项。在本实施方式中,所述文件特征为按照固定方式进行提取。
精确匹配模块30,用于利用系统文件精确匹配特征库对所述目标文件的文件特征进行精确匹配识别。
在本实施方式中,精确匹配模块30包括第一对比子模块301、第二对比子模块302、第三对比子模块303以及跳跃子模块304,如图5所示。
参看图5,所示为本发明一实施方式中图4中的精确匹配模块30的结构示意图。
第一对比子模块301,用于将目标文件的文件版本信息特征与预先存储的文件列表库中的相应特征进行对比并判断是否完全一致。
在本实施方式中,文件列表库是在判断之前就已经建立好的,且已经将该文件列表库预先存储在固定的存储单元里,以便于作为一个样本库进行对比。在本实施方式中,所述文件版本信息特征包括所述目标文件的文件名、文件版本中的主系统版本号和子系统版本号、公司名。
跳跃子模块304,用于如果目标文件的文件版本信息特征与预先存储的文件列表库中的相应特征是完全一致的,则进入下一特征的对比。
其中,结果输出模块50,用于如果目标文件的文件版本信息特征与预先存储的文件列表库中的相应特征不一致,则输出识别不通过的结果。
第二对比子模块302,用于将目标文件的文件引用信息特征与预先存储的动态链接列表库中的相应特征进行对比,并判断目标文件所引用的所有动态链接是否全部包括在动态链接列表库里。
在本实施方式中,动态链接列表库是在判断之前就已经建立好的,且已经将该动态链接列表库预先存储在固定的存储单元里,以便于作为一个样本库进行对比。
其中,跳跃子模块304,还用于如果目标文件所引用的所有动态链接全部包括在动态链接列表库里,则进入下一特征的对比。
其中,结果输出模块50,还用于如果目标文件所引用的所有动态链接不是全部包括在动态链接列表库里,则输出识别不通过的结果。在本实施方式中,要求目标文件所引用的动态链接(Dynamic Link Library,DLL)必须全部为已有动态链接列表库中的项目,否则不能通过匹配。
第三对比子模块303,用于将目标文件的文件入口信息特征与预先存储的入口信息特征库中的相应特征进行对比,并判断目标文件的文件入口信息特征是否全部包括在入口信息特征库里。
在本实施方式中,入口信息特征库是在判断之前就已经建立好的,且已经将该入口信息特征库预先存储在固定的存储单元里,以便于作为一个样本库进行对比。
在本实施方式中,文件入口信息特征仅仅包括入口点位置及所在节区,本步骤中的这个入口信息匹配并不是对入口点代码进行解析并匹配,而是简单的对于入口点位置及所在节区进行匹配,这样一来达到提高识别效率的目的。
其中,跳跃子模块304,还用于如果目标文件的文件入口信息特征全部包括在入口信息特征库里,则进入下一特征的对比。
其中,结果输出模块50,还用于如果目标文件的文件入口信息特征不是全部包括在入口信息特征库里,则输出识别不通过的结果。
在本实施方式中,只对文件特征中所包括的文件版本信息特征、文件引用信息特征以及文件入口信息特征这三个信息特征进行精确匹配识别,当然在实际操作时,可以根据不同的需求增加其他信息特征来做精确匹配识别,具体方法与之前的三个信息特征的精确匹配识别方法相同,也可以根据不同需求减少信息特征进行精确匹配识别,在此不做限定。
此外,本实施方式中,在利用系统文件精确匹配特征库对所述目标文件的文件特征进行精确匹配识别时,如果识别不通过,即特征不匹配,则对此次匹配的结果和不匹配的原因进行记录;目标文件继续进入下一步的模糊匹配过程,一旦之后的模糊匹配通过,这些记录的数据通过反馈机制提交给本系统的管理运营人员,人工分析后可能的结果如下:(1)所述目标文件是被感染或被修改或破解的文件,弃用;(2)是未学习到的系统文件,进行学习。
参看图4,模糊匹配模块40,用于利用系统文件模糊匹配特征库对所述目标文件的文件特征进行模糊匹配识别。
在本实施方式中,系统文件模糊匹配特征库为学习获得。在建立系统文件模糊匹配特征库的初始,需要单独的学习流程,学习要求有大量已知的系统文件,这可通过毒霸的文件云系统和监控收集系统来实现。学习时,提取学习源样本的样本素材,即样本特征,按照库格式存储在数据库中即可。文件素材为按照固定方法提取的文件外围信息、文件头信息、版本信息等文件的相关特征。数据库库可以采用本地的SQLite数据库,也可以采用MySQL等关系型数据库。为保证匹配的质量,初始的学习源文件优选在10万以上,且应该尽量涵盖Windows和IE的尽可能多的文件。
在本实施方式中,模糊匹配模块40包括第四对比子模块401、第五对比子模块402以及样本学习子模块403,如图6所示。
参看图6,所示为本发明一实施方式中图4中的模糊匹配模块40的结构示意图。
第四对比子模块401,用于将目标文件的文件头信息特征与预先存储的第一模糊特征库中的文件头信息特征进行模糊匹配并判断匹配程度是否在预设的阈值以上。
在本实施方式中,在进行了上述的精确匹配识别之后,还要进行以下的模糊匹配识别,通过精确匹配识别与模糊匹配识别相结合的方法来进行识别系统文件,进而达到减少误报的目的。
在本实施方式中,第一模糊特征库是在判断之前就已经建立好的,且已经将该第一模糊特征库预先存储在固定的存储单元里,以便于作为一个样本库进行对比。
在本实施方式中,预设的阈值优选为95%。
其中,跳跃子模块304,还用于如果匹配程度在预设的阈值以上,则进入下一特征的对比。
其中,结果输出模块50,还用于如果匹配程度不在预设的阈值以上,则输出识别不通过的结果。
第五对比子模块402,用于将目标文件的文件导入函数信息特征与预先存储的第二模糊特征库中的导入函数特征进行模糊匹配并判断匹配程度是否在预设的阈值以上。
在本实施方式中,第二模糊特征库是在判断之前就已经建立好的,且已经将该第二模糊特征库预先存储在固定的存储单元里,以便于作为一个样本库进行对比。
在本实施方式中,预设的阈值优选为95%。
其中,跳跃子模块304,还用于如果匹配程度在预设的阈值以上,则进入下一特征的对比。
其中,结果输出模块50,还用于如果匹配程度不在预设的阈值以上,则输出识别不通过的结果。
样本学习子模块403,用于在目标文件的所有信息特征均通过模糊匹配后,将目标文件中的所有信息特征加入模糊特征库里。
在本实施方式中,由于只有设置文件头信息特征和文件导入函数信息特征这两个信息特征进行模糊匹配识别,当然在实际操作时,可以根据不同的需求增加其他信息特征来做模糊匹配识别,具体方法与之前的两个信息特征的模糊匹配识别方法相同,也可以根据不同需求减少信息特征进行模糊匹配识别,在此不做限定。
在本实施方式中,如果设置两个或两个以上信息特征进行模糊匹配识别时,需要所有单项匹配的匹配程度均在95%以上通过才能是匹配成功,即才能输出识别通过的结果。
本实施方式中,利用系统文件模糊匹配特征库对所述目标文件的文件特征进行模糊匹配识别的步骤,主要是有效利用同名系统文件之间的相似性来匹配未知系统文件,通过自学习功能可以有效支持新出现的系统文件。
结果输出模块50,还用于输出识别通过的结果。
在本实施方式中,如果之前的精确匹配模块30与模糊匹配模块40均识别通过后,则结果输出模块50输出识别通过的结果,否则结果输出模块50就输出识别不通过的结果。
本发明实施例提供的一种系统文件的识别系统10,通过采用精确匹配识别与模糊匹配识别相结合的方法进行识别系统文件,能够提高对系统文件识别的准确性。此外,由于采用本发明实施例的方案能够提高对系统文件识别的准确性,这样便于安全软件如毒霸等在进行监控和扫描时,可仅针对非系统文件进行监控和扫描时,提高监控和扫描的效率;另外,根据本发明系统文件的识别系统,通过对匹配条件的严格限定来增加安全性,即使是被感染的系统文件,也能够识别出来,以减少误报。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (20)

1.一种系统文件的识别方法,其特征在于,所述识别方法包括:
提取待识别的目标文件的文件特征;
利用系统文件精确匹配特征库对所述目标文件的文件特征进行精确匹配识别,如果识别不通过,对此次匹配的结果和不匹配的原因进行记录,目标文件继续进入下一步的模糊匹配过程,一旦之后的模糊匹配通过,这些记录的数据通过反馈机制提交给本系统的管理运营人员;
利用系统文件模糊匹配特征库对所述目标文件的文件特征进行模糊匹配识别;
根据所述精确匹配识别和模糊匹配识别,输出识别结果;
其中,所述利用系统文件模糊匹配特征库对所述目标文件的文件特征进行模糊匹配识别包括:利用同名系统文件之间的相似性来匹配未知系统文件,以通过自学习支持新出现的系统文件;
所述根据所述精确匹配识别和模糊匹配识别,输出识别结果之后,所述方法还包括:
在进行病毒查杀时,对识别结果为系统文件的文件不进行扫描,对识别结果为非系统文件的文件进行查杀。
2.根据权利要求1所述的系统文件的识别方法,其特征在于,所述目标文件包括Windows操作系统的系统文件。
3.根据权利要求2所述的系统文件的识别方法,其特征在于,所述文件特征包括所述目标文件的文件外围信息特征、文件头信息特征、文件引用信息特征、文件导出信息特征、文件导入函数信息特征、文件入口信息特征、文件版本信息特征以及文件资源信息特征中的至少一项。
4.根据权利要求3所述的系统文件的识别方法,其特征在于,所述利用系统文件精确匹配特征库对所述目标文件的文件特征进行精确匹配识别包括:
将所述目标文件的文件版本信息特征与预先存储的文件列表库中的相应特征进行对比并判断是否完全一致;
如果完全一致则进入下一特征的对比,如果不一致则输出识别不通过的结果。
5.根据权利要求4所述的系统文件的识别方法,其特征在于,所述文件版本信息特征包括所述目标文件的文件名、文件版本中的主系统版本号和子系统版本号、公司名。
6.根据权利要求4所述的系统文件的识别方法,其特征在于,所述利用系统文件精确匹配特征库对所述目标文件的文件特征进行精确匹配识别包括:
将所述目标文件的文件引用信息特征与预先存储的动态链接列表库中的相应特征进行对比,并判断所述目标文件所引用的所有动态链接是否全部包括在所述动态链接列表库里;
如果全部包括在所述动态链接列表库里则进入下一特征的对比,如果不是全部包括则输出识别不通过的结果。
7.根据权利要求6所述的系统文件的识别方法,其特征在于,所述利用系统文件精确匹配特征库对所述目标文件的文件特征进行精确匹配识别还包括:
将所述目标文件的文件入口信息特征与预先存储的入口信息特征库中的相应特征进行对比,并判断所述目标文件的文件入口信息特征是否全部包括在所述入口信息特征库里;
如果全部包括在所述入口信息特征库里则进入下一特征的对比,如果不是全部包括则输出识别不通过的结果。
8.根据权利要求7所述的系统文件的识别方法,其特征在于,所述利用系统文件模糊匹配特征库对所述目标文件的文件特征进行模糊匹配识别包括:
将所述目标文件的文件头信息特征与预先存储的第一模糊特征库中的文件头信息特征进行模糊匹配并判断匹配程度是否在预设的阈值以上;
如果在预设的阈值以上则进入下一特征的对比,或者如果不在预设的阈值以上则输出识别不通过的结果。
9.根据权利要求8所述的系统文件的识别方法,其特征在于,所述利用系统文件模糊匹配特征库对所述目标文件的文件特征进行模糊匹配识别还包括:
将所述目标文件的文件导入函数信息特征与预先存储的第二模糊特征库中的导入函数特征进行模糊匹配并判断匹配程度是否在预设的阈值以上;
如果在预设的阈值以上则进入下一特征的对比,或者如果不在预设的阈值以上则输出识别不通过的结果。
10.根据权利要求9所述的系统文件的识别方法,其特征在于,所述利用系统文件模糊匹配特征库对所述目标文件的文件特征进行模糊匹配识别还包括:
在所述目标文件的所有信息特征均通过模糊匹配后,将所述目标文件的所有信息特征加入模糊特征库里并输出识别通过的结果。
11.一种系统文件的识别系统,其特征在于,所述识别系统包括:
特征提取模块,用于提取待识别的目标文件的文件特征;
精确匹配模块,用于利用系统文件精确匹配特征库对所述目标文件的文件特征进行精确匹配识别,如果识别不通过,对此次匹配的结果和不匹配的原因进行记录,目标文件继续进入下一步的模糊匹配过程,一旦之后的模糊匹配通过,这些记录的数据通过反馈机制提交给本系统的管理运营人员;
模糊匹配模块,用于利用系统文件模糊匹配特征库对所述目标文件的文件特征进行模糊匹配识别;
结果输出模块,用于根据所述精确匹配识别和模糊匹配识别,输出识别结果;
其中,所述模糊匹配模块,具体用于利用同名系统文件之间的相似性来匹配未知系统文件,以通过自学习支持新出现的系统文件;
所述结果输出模块,还用于在进行病毒查杀时,对识别结果为系统文件的文件不进行扫描,对识别结果为非系统文件的文件进行查杀。
12.根据权利要求11所述的系统文件的识别系统,其特征在于,所述目标文件包括Windows操作系统的系统文件。
13.根据权利要求12所述的系统文件的识别系统,其特征在于,所述文件特征包括所述目标文件的文件外围信息特征、文件头信息特征、文件引用信息特征、文件导出信息特征、文件导入函数信息特征、文件入口信息特征、文件版本信息特征以及文件资源信息特征中的至少一项。
14.根据权利要求13所述的系统文件的识别系统,其特征在于,所述精确匹配模块包括:
第一对比子模块,用于将所述目标文件的文件版本信息特征与预先存储的文件列表库中的相应特征进行对比并判断是否完全一致;
跳跃子模块,用于如果所述目标文件的文件版本信息特征与预先存储的文件列表库中的相应特征是完全一致的,则进入下一特征的对比;
其中,所述结果输出模块,还用于如果所述目标文件的文件版本信息特征与预先存储的文件列表库中的相应特征不一致,则输出识别不通过的结果。
15.根据权利要求14所述的系统文件的识别系统,其特征在于,所述文件版本信息特征包括所述目标文件的文件名、文件版本中的主系统版本号和子系统版本号、公司名。
16.根据权利要求14所述的系统文件的识别系统,其特征在于,所述精确匹配模块还包括:
第二对比子模块,用于将所述目标文件的文件引用信息特征与预先存储的动态链接列表库中的相应特征进行对比,并判断所述目标文件所引用的所有动态链接是否全部包括在所述动态链接列表库里;
其中,所述跳跃子模块,还用于如果所述目标文件所引用的所有动态链接全部包括在所述动态链接列表库里,则进入下一特征的对比;
所述结果输出模块,还用于如果所述目标文件所引用的所有动态链接不是全部包括在所述动态链接列表库里,则输出识别不通过的结果。
17.根据权利要求16所述的系统文件的识别系统,其特征在于,所述精确匹配模块还包括:
第三对比子模块,用于将所述目标文件的文件入口信息特征与预先存储的入口信息特征库中的相应特征进行对比,并判断所述目标文件的文件入口信息特征是否全部包括在所述入口信息特征库里;
其中,所述跳跃子模块,还用于如果所述目标文件的文件入口信息特征全部包括在所述入口信息特征库里,则进入下一特征的对比;
所述结果输出模块,还用于如果所述目标文件的文件入口信息特征不是全部包括在所述入口信息特征库里,则输出识别不通过的结果。
18.根据权利要求17所述的系统文件的识别系统,其特征在于,所述模糊匹配模块包括:
第四对比子模块,用于将所述目标文件的文件头信息特征与预先存储的第一模糊特征库中的文件头信息特征进行模糊匹配并判断匹配程度是否在预设的阈值以上;
其中,所述跳跃子模块,还用于如果匹配程度在预设的阈值以上,则进入下一特征的对比;
所述结果输出模块,还用于如果匹配程度不在预设的阈值以上,则输出识别不通过的结果。
19.根据权利要求18所述的系统文件的识别系统,其特征在于,所述模糊匹配模块还包括:
第五对比子模块,用于将所述目标文件的文件导入函数信息特征与预先存储的第二模糊特征库中的导入函数特征进行模糊匹配并判断匹配程度是否在预设的阈值以上;
其中,所述跳跃子模块,还用于如果匹配程度在预设的阈值以上,则进入下一特征的对比;
所述结果输出模块,还用于如果匹配程度不在预设的阈值以上,则输出识别不通过的结果。
20.根据权利要求19所述的系统文件的识别系统,其特征在于,所述模糊匹配模块还包括:
样本学习子模块,用于在所述目标文件的所有信息特征均通过模糊匹配后,将所述目标文件的所有信息特征加入模糊特征库里;
其中,所述结果输出模块,还用于输出识别通过的结果。
CN201410522818.XA 2014-09-30 2014-09-30 一种系统文件的识别方法及系统 Active CN104268249B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410522818.XA CN104268249B (zh) 2014-09-30 2014-09-30 一种系统文件的识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410522818.XA CN104268249B (zh) 2014-09-30 2014-09-30 一种系统文件的识别方法及系统

Publications (2)

Publication Number Publication Date
CN104268249A CN104268249A (zh) 2015-01-07
CN104268249B true CN104268249B (zh) 2018-04-27

Family

ID=52159770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410522818.XA Active CN104268249B (zh) 2014-09-30 2014-09-30 一种系统文件的识别方法及系统

Country Status (1)

Country Link
CN (1) CN104268249B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881495B (zh) * 2015-06-15 2019-03-26 北京金山安全软件有限公司 一种文件夹路径识别及文件夹清理方法及装置
CN106227852A (zh) * 2016-07-28 2016-12-14 中国石油天然气集团公司 地震勘探成果数据文件的识别方法和装置
CN106845231B (zh) * 2016-12-30 2020-05-19 北京瑞星网安技术股份有限公司 基于虚拟化环境下的安全防护方法及装置
CN107608879B (zh) * 2017-08-24 2020-08-21 北京珠穆朗玛移动通信有限公司 一种故障检测方法、装置和存储介质
CN109062635A (zh) * 2018-07-11 2018-12-21 郑州云海信息技术有限公司 一种识别操作系统版本的方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102768717A (zh) * 2012-06-29 2012-11-07 腾讯科技(深圳)有限公司 恶意文件检测的方法及装置
CN102867038A (zh) * 2012-08-30 2013-01-09 北京奇虎科技有限公司 文件类型的确定方法和装置
CN103020230A (zh) * 2012-12-14 2013-04-03 中国科学院声学研究所 一种语义模糊匹配方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110047181A1 (en) * 2009-08-18 2011-02-24 Malnati James R Method and system for identifying commonality among pattern definitions

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102768717A (zh) * 2012-06-29 2012-11-07 腾讯科技(深圳)有限公司 恶意文件检测的方法及装置
CN102867038A (zh) * 2012-08-30 2013-01-09 北京奇虎科技有限公司 文件类型的确定方法和装置
CN103020230A (zh) * 2012-12-14 2013-04-03 中国科学院声学研究所 一种语义模糊匹配方法

Also Published As

Publication number Publication date
CN104268249A (zh) 2015-01-07

Similar Documents

Publication Publication Date Title
CN104268249B (zh) 一种系统文件的识别方法及系统
AU2015210760B2 (en) Static feature extraction from structured files
US9015814B1 (en) System and methods for detecting harmful files of different formats
CN103679031B (zh) 一种文件病毒免疫的方法和装置
US10264009B2 (en) Automated machine learning scheme for software exploit prediction
KR101162051B1 (ko) 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 시스템 및 그 방법
US20170149830A1 (en) Apparatus and method for automatically generating detection rule
CN107667370A (zh) 使用事件日志检测异常账户
CN104036187B (zh) 计算机病毒类型确定方法及其系统
CN107346284B (zh) 一种应用程序的检测方法及检测装置
NL2026909B1 (en) Method and system for determining affiliation of software to software families
KR101582601B1 (ko) 액티비티 문자열 분석에 의한 안드로이드 악성코드 검출 방법
CN101753570A (zh) 用于检测恶意软件的方法和系统
CN103716394B (zh) 下载文件的管理方法及装置
US11526608B2 (en) Method and system for determining affiliation of software to software families
CN103914655A (zh) 一种检测下载文件安全性的方法及装置
CN112528284A (zh) 恶意程序的检测方法及装置、存储介质、电子设备
WO2017197942A1 (zh) 病毒库的获取方法及装置、设备、服务器、系统
CN113486350A (zh) 恶意软件的识别方法、装置、设备及存储介质
CN103646062A (zh) 下载文件的扫描方法与装置
US20210342447A1 (en) Methods and apparatus for unknown sample classification using agglomerative clustering
US20100175133A1 (en) Reordering document content to avoid exploits
US11625366B1 (en) System, method, and computer program for automatic parser creation
CN103093147B (zh) 一种识别信息的方法和电子装置
CN112711432A (zh) 用于网络安全设备的特征库升级方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190108

Address after: 519031 Room 105-53811, No. 6 Baohua Road, Hengqin New District, Zhuhai City, Guangdong Province

Patentee after: Zhuhai Seal Interest Technology Co., Ltd.

Address before: 519070, six level 601F, 10 main building, science and technology road, Tangjia Bay Town, Zhuhai, Guangdong.

Patentee before: Zhuhai Juntian Electronic Technology Co.,Ltd.

TR01 Transfer of patent right