CN112182569A - 一种文件识别方法、装置、设备及存储介质 - Google Patents
一种文件识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112182569A CN112182569A CN201910594025.1A CN201910594025A CN112182569A CN 112182569 A CN112182569 A CN 112182569A CN 201910594025 A CN201910594025 A CN 201910594025A CN 112182569 A CN112182569 A CN 112182569A
- Authority
- CN
- China
- Prior art keywords
- file
- identified
- determining
- preset
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000004458 analytical method Methods 0.000 claims abstract description 21
- 241000700605 Viruses Species 0.000 abstract description 28
- 230000002147 killing effect Effects 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 12
- 238000001514 detection method Methods 0.000 description 11
- 230000003068 static effect Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000002155 anti-virotic effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- ZXQYGBMAQZUVMI-GCMPRSNUSA-N gamma-cyhalothrin Chemical compound CC1(C)[C@@H](\C=C(/Cl)C(F)(F)F)[C@H]1C(=O)O[C@H](C#N)C1=CC=CC(OC=2C=CC=CC=2)=C1 ZXQYGBMAQZUVMI-GCMPRSNUSA-N 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/562—Static detection
- G06F21/563—Static detection by source code analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/57—Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
- G06F21/577—Assessing vulnerabilities and evaluating computer system security
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Virology (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及一种文件识别方法、装置、设备及存储介质,包括:确定待识别文件的类型;利用与所述待识别文件的类型对应的解析方式解析所述待识别文件,得到解析后的待识别文件;获取所述解析后的待识别文件的对象信息;确定所述对象信息中的字符串;当所述字符串中包含预设可疑字符串时,确定所述待识别文件为可疑文件。能够在不影响病毒查杀系统性能的情况下提高对病毒的识别率。
Description
技术领域
本发明涉及文件安全技术领域,具体涉及一种文件识别方法、装置、设备及存储介质。
背景技术
在计算机网络领域,越来越多的病毒会通过文件在网络中传输,严重降低了计算机网络的安全。而病毒一般需要专业人员才能识别出来,因此,为了减少恶意文件在网络中的蔓延,提出了特征码扫描方法来方便识别病毒。
特征码扫描是传统杀毒软件的主要利器,是病毒诊断方法中,扫描法的一种。特征码扫描主要是提取恶意Office文件的特征,其技术核心思想就是从新发现恶意Office样本中,根据病毒特征,人工提取出该病毒的一处或多处二进制码,该二进制码就是该类病毒的“身份”标识,即特征码。然后更新到云库中,便于用户升级。查杀的对象就是对比特征码,然后判断是否为病毒。但是,一旦病毒作者通过变形、加壳、加花、多态等技术对病毒样本进行变形,就可以轻松避过特征码扫描,所以此方法对新变种的样本会失效,需要依赖人工提取新的特征。并且随着特征码的提取,特征码数据库越来越庞大,给查杀效率带来性能的下降。
因此,有待提出一种新的文件识别方法,以在不影响病毒查杀系统性能的情况下提高对病毒的识别率。
发明内容
本发明提出了一种文件识别方法、装置、设备及存储介质,提供了一种新的文件识别方案,能够在不影响病毒查杀系统性能的情况下提高对病毒的识别率。本发明具体是以如下技术方案实现的:
一方面,本发明提供了一种文件识别方法,包括:
确定待识别文件的类型;
利用与所述待识别文件的类型对应的解析方式解析所述待识别文件,得到解析后的待识别文件;
获取所述解析后的待识别文件的对象信息;
确定所述对象信息中的字符串;
当所述字符串中包含预设可疑字符串时,确定所述待识别文件为可疑文件。
另一方面,本发明提供了一种文件识别装置,包括:
第一确定模块,用于确定待识别文件的类型;
解析模块,用于利用与所述待识别文件的类型对应的解析方式解析所述待识别文件,得到解析后的待识别文件;
第一获取模块,用于获取所述解析后的待识别文件的对象信息;
第二确定模块,用于确定所述对象信息中的字符串;
第三确定模块,用于当所述字符串中包含预设可疑字符串时,确定所述待识别文件为可疑文件。
在一些实施例中,所述第一确定模块还包括:
第二获取模块,用于获取所述待识别文件的文件头部中前第一数量字节的数据;
第一判断模块,用于判断所述第一数量字节的数据是否与预设第一字符串相同;
第四确定模块,用于若所述第一数量字节的数据与预设第一字符串相同,则确定所述待识别文件为第一类型。
在一些实施例中,所述第一确定模块还包括:
第三获取模块,用于获取所述待识别文件的文件头部中第二数量字节的数据;
第二判断模块,用于判断所述第二数量字节的数据是否与预设第二字符串相同;
第五确定模块,用于若所述第二数量字节的数据与预设第二字符串相同,则确定所述待识别文件为第二类型。
在一些实施例中,所述第一确定模块还包括:
第三判断模块,用于判断所述待识别文件是否与预设文件格式库中的文件格式相同;
第六确定模块,用于若相同,则确定所述待识别文件为第三类型。
在一些实施例中,所述第三确定模块还包括:
匹配模块,用于将所述IP地址信息和/或域名信息与预设控制反转代码特征信息库中的预设IP地址信息和/或预设域名信息的黑白灰名单进行匹配,得到匹配结果;
第七确定模块,用于当根据所述匹配结果确定所述IP地址信息和/或域名信息为恶意的时,确定所述待识别文件为可疑文件。
在一些实施例中,所述方法还包括:
发送模块,用于向预设目标终端发送包含所述预设可疑字符串的告警通知信息。
另一方面,本发明提供了一种文件识别设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现所述文件识别方法。
另一方面,本发明提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如前所述文件识别方法。
本发明提供了一种文件识别方法、装置/设备及计算机可读介质,根据待识别文件的类型对待识别文件进行解析,再获取解析后的待识别文件中的对象信息,判断对象信息中是否存在可疑字符串,若存在,则确定待识别文件为可疑文件。本发明将解析后的待识别文件中的对象信息中某一必须存在的特征作为分析对象以确定待识别文件是否为可疑文件,该特征无法进行随意变换,存在固定的格式,因此就算病毒作者对该特征出进行变换,本方案还是能有效提取到特征,这样就有效缓解依赖人工提取特征的问题。并且,该特征是通用特征,不存在特征码数据库越来越大的问题,不会影响扫描效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明实施例提供的一种文件识别方法的应用环境示意图;
图2是本发明实施例提供的一种文件识别方法的流程示意图;
图3是本发明实施例提供的一种文件类型确定方法的流程示意图;
图4是本发明实施例提供的另一种文件类型确定方法的流程示意图;
图5是本发明实施例提供的另一种文件类型确定方法的流程示意图;
图6是本发明实施例提供的一种基于IP地址信息和/或域名信息确定可疑文件的方法的流程示意图;
图7是本发明实施例提供的一种威胁感知系统感知到的部分数据示意图;
图8是本发明实施例提供的一种感知模块感知到的一个恶意样本的示意图;
图9是本发明实施例提供的一种如图8中的样本在Virustotal上的扫描结果示意图;
图10是本发明实施例提供的一种管家内部VDC平台则将该样本判定为灰的示意图;
图11是本发明实施例提供的一种识别文件方法的具体执行步骤示意图;
图12是本发明实施例提供的一种文件头部信息的示意图;
图13是本发明实施例提供的另一种文件头部信息的示意图;
图14是本发明实施例提供的一种文件解析结果的示意图;
图15是本发明实施例提供的一种基于字符特征确定可疑文件的结果示意图;
图16是本发明实施例提供的一种管家威胁情报系统的界面示意图;
图17是本发明实施例提供的一种文件识别装置的结构示意图;
图18是本发明实施例提供的一种金融资讯展示的用户界面图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
以下介绍本发明文件识别方法,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
图1是本说明书实施例提供的文件识别方法的应用环境示意图。如图1所示,其也是一种电脑管家威胁感知情报系统,该系统包括:电脑管家01、静态检测服务器02、文件格式库03、病毒库04、威胁库05、控制反转代码特征信息库06以及终端07。
具体的,所述电脑管家01和所述静态检测服务器02可以是独立的服务器,也可以是集成在终端07上的软件。其中,所述服务器可以是分布式服务器,或者由多个服务器组成的服务器集群。
所述文件格式库03、病毒库04、威胁库05、控制反转代码特征信息库06可以是独立的数据库,也可以是集成在所述电脑管家01上的软体,例如应用程序等。
具体的,所述终端07为可以连接无线网络的设备,可以包括:智能手机、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、车载终端等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序等。所述终端07可以是移动用户的移动终端。
所述静态检测服务器02用于对所述电脑管家01抓捕的待识别文件进行静态检测,并将检测结果返回给电脑管家。所述文件格式库03、病毒库04、威胁库05、控制反转代码特征信息库06分别用于存储相应的数据。
整个电脑管家威胁感知情报系统大致流程为:后台定时或实时(根据数据种类及优先级的不同进行配置)对电脑管家收集的样本数据(包括但不限于:管家主动防御日志、进程监控日志、网络监控日志、样本查杀日志)进行数据清洗及智能分析,然后将发现的新型威胁进行入库记录及告警。运营人员看到告警后,对告警设计的病毒样本进行分析确认。
图2是本发明实施例提供的一种文件识别方法的流程示意图,其执行主体为需要进行文件识别的终端,具体可以为终端设备中的电脑管家、杀毒软件等,本说明书对此不作具体限定,如图2所示,所述方法具体包括:
S201:确定待识别文件的类型。
在本说明书实施例中,待识别文件一般是指非PE(Portable Executable)文件,即非可执行文件,例如后缀为exe、dll、vxd、sys、vdm等的文件。本申请的方案可以适用于所有Office文件类型及其包含的所有OLE对象类型,或者Office支持的其他非OLE对象类型。
具体应用中,在步骤201之前需要先获取该待识别文件,一般是通过电脑管家、杀毒软件等软件进行文件定时或实时抓取。
当获取到待识别文件后,由于不同类型文件的解析方式不同,因此,需要确定待识别文件的类型。
S203:利用与所述待识别文件的类型对应的解析方式解析所述待识别文件,得到解析后的待识别文件。
现有技术中的特征码扫描方式是直接提取待识别文件的特征,并不需要对文件进行解析,也就是说特征码扫描是对一种加密后的二进制文件进行直接读取并比对是否存在标识病毒“身份”的特征码。
S205:获取所述解析后的待识别文件的对象信息。
在本说明书实施例中,解析后的待识别文件的对象信息可以为OLE(ObjectLinking and Embedding,对象连接与嵌入)对象。
S207:确定所述对象信息中的字符串。
具体的,可以利用正则表达式获得待识别文件的字符串。
S209:当所述字符串中包含预设可疑字符串时,确定所述待识别文件为可疑文件。
所述预设可疑字符串包括但不限于:基于软件漏洞执行的指令代码、预设可疑命令特征信息、IP地址信息、域名信息。其中,基于软件漏洞执行的指令代码可以是shellcode代码,shellcode是一段用于利用软件漏洞而执行的代码,shellcode为16进制的机器码,因为经常让攻击者获得shell而得名,shellcode常常使用机器语言编写。预设可疑命令特征信息可以包括cmd.exe、mshta、certutil、cscript、powershell等。
S211:向预设目标终端发送包含所述预设可疑字符串的告警通知信息。
具体的,将包含可疑字符串的待识别文件确定为可以文件,并发送给目标终端进行显示,可以便于提醒目标终端用户谨慎读写、转发该文件,或者当目标终端用户为专业系统维护人员等能够辨别文件安全性的人员时,进一步确定文件的安全性。其中,告警通知信息可以以短信、邮件、即时通信消息等方式发送给目标终端,也可以直接在终端的界面显示对话框等提示信息,告警通知信息用于将告警信息通知给安全运营人员或其他终端用户,以便他们进一步确认或避开威胁。
静态检测服务器负责对收集到的非PE样本进行扫描,对发现的可疑样本输出到感知系统的结果存储系统及告警群(多个目标终端)中,从而丰富整个感知系统的感知点。
所述步骤201确定的待识别文件的类型可以是RTF(Rich Text Format,多信息文本格式)类型,则如图3所示,步骤201具体包括:
S301:获取所述待识别文件的文件头部中前第一数量字节的数据。
具体的,经过分析,我们发现RTF格式文件的文件头部4字节都是固定格式,因此,第一数量字节可以为4字节。
S303:判断所述第一数量字节的数据是否与预设第一字符串相同。
该预设第一字符串具体可以为“{rtf”,其为RTF格式文件头部的固定格式。
S305:若所述第一数量字节的数据与预设第一字符串相同,则确定所述待识别文件为第一类型。
确定出待识别文件的类型后,就可以根据该类型对应的解析方式对待识别文件进行解析了。
所述步骤201确定的待识别文件的类型可以是OLE(Object Linking andEmbedding)类型,则如图4所示,步骤201具体包括:
S401:获取所述待识别文件的文件头部中第二数量字节的数据。
具体的,经过分析,我们发现OLE格式文件的文件头部8字节都是固定格式,因此,第二数量字节可以为8字节。
S403:判断所述第二数量字节的数据是否与预设第二字符串相同。
该预设第二字符串具体可以为“D0CF11E0A1B11AE1”,其为OLE格式文件头部的固定格式。
S405:若所述第二数量字节的数据与预设第二字符串相同,则确定所述待识别文件为第二类型。
确定出待识别文件的类型后,就可以根据该类型对应的解析方式对待识别文件进行解析了。
所述步骤201确定的待识别文件的类型可以是Office Open XML或Microsoft2007类型,则如图5所示,步骤201具体包括:
S501:判断所述待识别文件是否与预设文件格式库中的文件格式相同。
其中,预设文件格式库可以是诸如python-magic等面向对象的语言的格式库。
S503:若相同,则确定所述待识别文件为第三类型。
当所述待识别文件与预设文件格式库中的文件格式相同,则确定出待识别文件的类型后,就可以根据该类型对应的解析方式对待识别文件进行解析了。
如图6所示,所述步骤209具体还可以包括:
S601:将所述IP地址信息和/或域名信息与预设控制反转代码特征信息库中的预设IP地址信息和/或预设域名信息的黑白灰名单进行匹配,得到匹配结果。
具体的,设控制反转代码特征信息库中的预设IP地址信息和/或预设域名信息的黑白灰名单可以是由程序员或系统管理员等预先设置的,也可以是根据第三方恶意IP地址或域名管理数据库中的数据获得的。
S603:当根据所述匹配结果确定所述IP地址信息和/或域名信息为恶意的时,确定所述待识别文件为可疑文件。
图7是威胁感知系统感知到的部分数据示意,实际应用中,可以添加、删除或修改具体记录的内容。其中,任务ID为可疑文件的序号,任务内容为可疑文件中需要进一步确认或需要注意的威胁点,任务来源可以记录可以文件来自的终端名、IP地址、物理地址、区域等信息,处理状态可以是等待处理或已经处理等。
图8是本说明书实施例提供的一种感知模块感知到的一个恶意样本的示意图。需要说明的是,图8中的0day并非说这个样本就是一个0day样本,只是检测引擎中对所有未知可疑的样本都判定为0day,供人工确认。其中,Office 0DAY样本:指携带Office漏洞利用代码的Office文件,且该漏洞未被修复。Office NDAY样本:指携带Office漏洞利用代码的Office文件,且该漏洞已修复。
该样本在Virustotal上的扫描结果如图9所示,57个查杀引擎都判定该样本为安全。Virustotal平台:一个国际性的在线病毒检测平台,该平台包含国际上主流的病毒查杀引擎,供用户在线进行病毒检测。
而如图10所示,本申请实施例中的管家内部VDC平台则将该样本判定为灰。VDC(Virtual Data Center,即虚拟数据中心)平台:电脑管家内部的病毒云查杀平台。安全运营人员接到此告警后,根据告警信息,下载目标样本进行分析,最后确认该样本为一个后门木马程序。
由于,样本在Virustotal平台上的扫描结果如图9所示,57个查杀引擎都判定该样本为安全。但下载该样本并打开该文档,却能发现该文档被内嵌了一段恶意脚本,一旦用户认为该文档是安全的就会按照文档内容提示,点击运行该恶意脚本,则会感染后门木马程序。而我们管家内部VDC平台则将该样本判定为灰,从而可以提示安全运营人员进行进一步确定文件的安全性。因此,根据该例子可以知道,本说明书的方法对此类样本能够有效检出,从而弥补了传统引擎的不足之处。
本说明书实施例的识别文件方法的大致执行步骤包括:
1.任务获取:定时获取管家捕获到的最新Office样本。
2.文件类型判断:判断文件类型是否是系统支持的文件类型。
3.静态扫描:根据文件类型不同,用不同方案对样本进行格式解析,获取其中内嵌的对象,扫描对象包含的可疑URL/命令行参数。
4.规则告警:对符合规则的样本进行微信告警。
5.人工运营:人工确认告警信息。
图11是本说明书实施例的识别文件方法的具体执行步骤示意图。
下面将本说明书实施例系统感知到的一个样本作为例子,对整个系统进行进一步说明。
首先是系统的定时任务不断从系统管家的样本库查询新捕获的非PE样本,这里假设系统后台捕获到了11f71f387e87bbb2b97b6c27f78320e4这个样本。进入系统后,首先需要判断该样本的文件类型,因为不同文件类型有不同的检测逻辑。判断文件类型本说明书实施例可以通过检测文件头标识及文件内容进行判断。
下表是主流的Office文件格式,也是网络攻击中常用的诱饵文件格式。
文件格式 | 格式说明 |
RTF | Rich Text Format |
DOC | Microsoft Office Word 2007 |
XLS | Microsoft Excel 2007 |
PPT | Microsoft PowerPoint 2007 |
DOCX | Office Open XML |
XLSX | Office Open XML |
PPTX | Office Open XML |
OLE | Object Linking and Embedding |
以上8种文件格式对应Office不同版本所支持的不同文件格式,本说明书实施例中可以分为4个类别:Rich Text Format、Microsoft 2007、Office Open XML、ObjectLinking and Embedding。
如图12所示,针对RTF(Rich Text Format)格式,本说明书实施例中可以直接判断文件头部4字节的数据是否是“{rtf”即可。
如图13所示,针对OLE(Object Linking and Embedding)格式,本说明书实施例中可以直接判断文件头部是否包含“D0CF11E0A1B11AE1”,该特征为OLE文件头标识。
剩下的Office Open XML和Microsoft 2007类型格式,本说明书实施例中可以依赖文件格式库python-magic进行判别。
得到文件类型后,本说明书实施例进入第二步,对文件类型进行解析。在文件解析过程中,本说明书实施例使用了开源的python-oletool库进行解析。
继续前述RTF的例子,样本MD5:11f71f387e87bbb2b97b6c27f78320e4。用oletool的rtfobj.py模块进行解析,如图14所示,得知该文件包含了一个Equation3的OLE对象。
本说明书实施例将该OLE对象拷贝出来后,通过正则表达式将该文件包含的所有字符串导出,将包含可疑特征(cmd.exe、mshta、certutil、cscript、powershell等)的字符串保存,这里,可发现OLE对象中包含一个mshta命令,经过对该样本进行分析确定,如图15所示,可以判断该样本是一个携带CVE-2017-11882漏洞利用代码的RTF文件,且利用代码就是:“mshta https://zstorage.biz/read.txt”。
除了提取OLE对象包含的特征字符串外,系统还会对OLE对象进行静态扫描,检查OLE文件是否包含shellcode代码特征,具体方法是利用KMP(一种改进的字符串匹配算法)算法对文件进行扫描,查看文件是否存在如下shellcode常用的指令代码:
64:A1 18000000 mov eax,dword ptr fs:[0x18]
64 8B 05 30 00 00 00 mov eax,large fs:30h
64:8B15 30000000 mov eax,dword ptr fs:[0x30]
64 8B 05 30 00 00 00 mov eax,large fs:30h
8B 40 0C mov eax,[eax+0Ch]
另外,如果本说明书实施例提取到的可疑字符串里存在IP、域名等信息,系统会将提取到的IOC信息和管家的IOC库进行比较,如果发现是已经标识为恶意的,同样将该信息保存,作为辅助信息供分析人员确认。其中,IOC库中存储有IP、域名的黑白灰名单信息。
图16是此样本中提取到的域名zstorage.biz在管家威胁情报系统中的状态:从图16中3个威胁情报标签可以知道,该域名已经被标识为恶意。
到这里,对该样本来说,可得到如下信息:
文件MD5:11f71f387e87bbb2b97b6c27f78320e4
文件类型:RTF
文件嵌入的对象类型:Equation3
可疑命令:mshta https://zstorage.biz/read.txt
包含域名及安全属性:zstorage.biz恶意
是否包含shellcode代码:否
对于一个有分析经验的病毒分析人员,本说明书实施例基本上不用分析就可以知道该样本是一个CVE-2017-11882漏洞利用样本,且漏洞样本的IOC就是:https://zstorage.biz/read.txt。
目前系统支持多大108种OLE对象类型,包括:OleLink、File Moniker、Equation3.0、Excel.sheet.8、OLEPackage等。
以上是本系统针对RTF文件类型进行检测的一个基本流程及思路。针对其余3种类型文件的检测思路一致,都是根据文件类型,提取其中内嵌的OLE对象,然后对OLE对象进行检测,从而发现可疑样本。
本说明书的文件识别方法,具体通过静态解析Office文件格式的方法,提取Office文件内嵌的对象,然后从解析到的对象中提取对象包含的URL及命令行信息,在管家的威胁判定系统中对该URL进行判别,如果此URL为非白URL,或者发现可疑命令行信息,则进行告警。告警信息中,根据该样本的恶意情况判定是0DAY样本还是NDAY样本。
本发明实施例还提供了一种文件识别装置,如图17所示,所述装置包括:
第一确定模块1801,用于确定待识别文件的类型;
解析模块1803,用于利用与所述待识别文件的类型对应的解析方式解析所述待识别文件,得到解析后的待识别文件;
第一获取模块1805,用于获取所述解析后的待识别文件的对象信息;
第二确定模块1807,用于确定所述对象信息中的字符串;
第三确定模块1809,用于当所述字符串中包含预设可疑字符串时,确定所述待识别文件为可疑文件。
在一些实施例中,所述第一确定模块还包括:
第二获取模块,用于获取所述待识别文件的文件头部中前第一数量字节的数据;
第一判断模块,用于判断所述第一数量字节的数据是否与预设第一字符串相同;
第四确定模块,用于若所述第一数量字节的数据与预设第一字符串相同,则确定所述待识别文件为第一类型。
在一些实施例中,所述第一确定模块还包括:
第三获取模块,用于获取所述待识别文件的文件头部中第二数量字节的数据;
第二判断模块,用于判断所述第二数量字节的数据是否与预设第二字符串相同;
第五确定模块,用于若所述第二数量字节的数据与预设第二字符串相同,则确定所述待识别文件为第二类型。
在一些实施例中,所述第一确定模块还包括:
第三判断模块,用于判断所述待识别文件是否与预设文件格式库中的文件格式相同;
第六确定模块,用于若相同,则确定所述待识别文件为第三类型。
在一些实施例中,所述第三确定模块还包括:
匹配模块,用于将所述IP地址信息和/或域名信息与预设控制反转代码特征信息库中的预设IP地址信息和/或预设域名信息的黑白灰名单进行匹配,得到匹配结果;
第七确定模块,用于当根据所述匹配结果确定所述IP地址信息和/或域名信息为恶意的时,确定所述待识别文件为可疑文件。
在一些实施例中,所述方法还包括:
发送模块,用于向预设目标终端发送包含所述预设可疑字符串的告警通知信息。
所述的装置实施例中的装置与方法实施例基于同样的发明构思。
进一步地,图18示出了一种用于实现本发明实施例所提供的方法的设备的硬件结构示意图,所述设备可以参与构成或包含本发明实施例所提供的装置。如图18所示,设备10可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图18所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,设备10还可包括比图18中所示更多或者更少的组件,或者具有与图18所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到设备10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中所述的方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的一种基于角色的权限管控方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括设备10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(NetworkInterfaceController,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与设备10(或移动设备)的用户界面进行交互。
本发明还提供了一种文件识别设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如前述的文件识别方法。
本说明书实施例中,所述存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本发明还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如前所述文件识别方法。
由上述本发明提供的文件识别方法、装置及设备的实施例可见,本发明提供了一种文件识别方法、装置/设备及计算机可读介质,根据待识别文件的类型对待识别文件进行解析,再获取解析后的待识别文件中的对象信息,判断对象信息中是否存在可疑字符串,若存在,则确定待识别文件为可疑文件。本发明将解析后的待识别文件中的对象信息中某一必须存在的特征作为分析对象以确定待识别文件是否为可疑文件,该特征无法进行随意变换,存在固定的格式,因此就算病毒作者对该特征出进行变换,本方案还是能有效提取到特征,这样就有效缓解依赖人工提取特征的问题。并且,该特征是通用特征,不存在特征码数据库越来越大的问题,不会影响扫描效率。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、系统和服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种文件识别方法,其特征在于,所述方法包括:
确定待识别文件的类型;
利用与所述待识别文件的类型对应的解析方式解析所述待识别文件,得到解析后的待识别文件;
获取所述解析后的待识别文件的对象信息;
确定所述对象信息中的字符串;
当所述字符串中包含预设可疑字符串时,确定所述待识别文件为可疑文件。
2.根据权利要求1所述的方法,其特征在于,所述确定待识别文件的类型包括:
获取所述待识别文件的文件头部中前第一数量字节的数据;
判断所述第一数量字节的数据是否与预设第一字符串相同;
若所述第一数量字节的数据与预设第一字符串相同,则确定所述待识别文件为第一类型。
3.根据权利要求1所述的方法,其特征在于,所述确定待识别文件的类型包括:
获取所述待识别文件的文件头部中第二数量字节的数据;
判断所述第二数量字节的数据是否与预设第二字符串相同;
若所述第二数量字节的数据与预设第二字符串相同,则确定所述待识别文件为第二类型。
4.根据权利要求1所述的方法,其特征在于,所述确定待识别文件的类型包括:
判断所述待识别文件是否与预设文件格式库中的文件格式相同;
若相同,则确定所述待识别文件为第三类型。
5.根据权利要求1所述的方法,其特征在于,所述预设可疑字符串至少包括下述之一:基于软件漏洞执行的指令代码、预设可疑命令特征信息、IP地址信息、域名信息。
6.根据权利要求1-5任一项所述的方法,其特征在于,当所述字符串中包含IP地址信息和/或域名信息时,所述方法还包括:
将所述IP地址信息和/或域名信息与预设控制反转代码特征信息库中的预设IP地址信息和/或预设域名信息的黑白灰名单进行匹配,得到匹配结果;
当根据所述匹配结果确定所述IP地址信息和/或域名信息为恶意的时,确定所述待识别文件为可疑文件。
7.根据权利要求1-5任一项所述的方法,其特征在于,在所述确定所述待识别文件为可疑文件之后,所述方法还包括:
向预设目标终端发送包含所述预设可疑字符串的告警通知信息。
8.一种文件识别装置,其特征在于,所述装置包括:
第一确定模块,用于确定待识别文件的类型;
解析模块,用于利用与所述待识别文件的类型对应的解析方式解析所述待识别文件,得到解析后的待识别文件;
第一获取模块,用于获取所述解析后的待识别文件的对象信息;
第二确定模块,用于确定所述对象信息中的字符串;
第三确定模块,用于当所述字符串中包含预设可疑字符串时,确定所述待识别文件为可疑文件。
9.一种文件识别设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7中任一权利要求所述的文件识别方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7中任一权利要求所述的文件识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910594025.1A CN112182569A (zh) | 2019-07-03 | 2019-07-03 | 一种文件识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910594025.1A CN112182569A (zh) | 2019-07-03 | 2019-07-03 | 一种文件识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112182569A true CN112182569A (zh) | 2021-01-05 |
Family
ID=73914928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910594025.1A Pending CN112182569A (zh) | 2019-07-03 | 2019-07-03 | 一种文件识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112182569A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220086172A1 (en) * | 2020-09-17 | 2022-03-17 | Mcafee, Llc | System, methods, and media for protecting network devices from malicious rich text format (rtf) files |
CN116992449A (zh) * | 2023-09-27 | 2023-11-03 | 北京安天网络安全技术有限公司 | 一种相似样本文件确定方法及装置、电子设备及存储介质 |
EP4411580A1 (en) | 2023-01-31 | 2024-08-07 | Onekey R&D GmbH | Method for identifying one or more exploitable vulnerabilities in device firmware of an iot device |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102768676A (zh) * | 2012-06-14 | 2012-11-07 | 腾讯科技(深圳)有限公司 | 一种格式未知文件的处理方法和装置 |
CN104239800A (zh) * | 2014-09-28 | 2014-12-24 | 北京奇虎科技有限公司 | Pdf中触发漏洞威胁的检测方法及装置 |
CN106055981A (zh) * | 2016-06-03 | 2016-10-26 | 北京奇虎科技有限公司 | 威胁情报的生成方法及装置 |
CN106650451A (zh) * | 2016-12-30 | 2017-05-10 | 北京启明星辰信息安全技术有限公司 | 一种检测方法和装置 |
CN107368740A (zh) * | 2016-05-12 | 2017-11-21 | 中国科学院软件研究所 | 一种针对数据文件中可执行代码的检测方法及系统 |
CN108804916A (zh) * | 2017-12-19 | 2018-11-13 | 哈尔滨安天科技股份有限公司 | 恶意文件的检测方法、装置、电子设备及存储介质 |
-
2019
- 2019-07-03 CN CN201910594025.1A patent/CN112182569A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102768676A (zh) * | 2012-06-14 | 2012-11-07 | 腾讯科技(深圳)有限公司 | 一种格式未知文件的处理方法和装置 |
US20150113009A1 (en) * | 2012-06-14 | 2015-04-23 | Tencent Technology (Shenzhen) Company Limited | Method and device for processing file having unknown format |
CN104239800A (zh) * | 2014-09-28 | 2014-12-24 | 北京奇虎科技有限公司 | Pdf中触发漏洞威胁的检测方法及装置 |
CN107368740A (zh) * | 2016-05-12 | 2017-11-21 | 中国科学院软件研究所 | 一种针对数据文件中可执行代码的检测方法及系统 |
CN106055981A (zh) * | 2016-06-03 | 2016-10-26 | 北京奇虎科技有限公司 | 威胁情报的生成方法及装置 |
CN106650451A (zh) * | 2016-12-30 | 2017-05-10 | 北京启明星辰信息安全技术有限公司 | 一种检测方法和装置 |
CN108804916A (zh) * | 2017-12-19 | 2018-11-13 | 哈尔滨安天科技股份有限公司 | 恶意文件的检测方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
白鹏: "文档类型0Day漏洞检测技术的研究与实现", 中国优秀硕士学位论文全文数据库信息科技辑, 15 August 2015 (2015-08-15), pages 139 - 223 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220086172A1 (en) * | 2020-09-17 | 2022-03-17 | Mcafee, Llc | System, methods, and media for protecting network devices from malicious rich text format (rtf) files |
US11659000B2 (en) * | 2020-09-17 | 2023-05-23 | Mcafee, Llc | System, methods, and media for protecting network devices from malicious rich text format (RTF) files |
EP4411580A1 (en) | 2023-01-31 | 2024-08-07 | Onekey R&D GmbH | Method for identifying one or more exploitable vulnerabilities in device firmware of an iot device |
CN116992449A (zh) * | 2023-09-27 | 2023-11-03 | 北京安天网络安全技术有限公司 | 一种相似样本文件确定方法及装置、电子设备及存储介质 |
CN116992449B (zh) * | 2023-09-27 | 2024-01-23 | 北京安天网络安全技术有限公司 | 一种相似样本文件确定方法及装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xu et al. | Iccdetector: Icc-based malware detection on android | |
US10176321B2 (en) | Leveraging behavior-based rules for malware family classification | |
US10581879B1 (en) | Enhanced malware detection for generated objects | |
US9781144B1 (en) | Determining duplicate objects for malware analysis using environmental/context information | |
CN103679031B (zh) | 一种文件病毒免疫的方法和装置 | |
US9015814B1 (en) | System and methods for detecting harmful files of different formats | |
CN110177114B (zh) | 网络安全威胁指标识别方法、设备、装置以及计算机可读存储介质 | |
US20130167236A1 (en) | Method and system for automatically generating virus descriptions | |
CN103279710B (zh) | Internet信息系统恶意代码的检测方法和系统 | |
CN103607413B (zh) | 一种网站后门程序检测的方法及装置 | |
CN108664793B (zh) | 一种检测漏洞的方法和装置 | |
CN103839003A (zh) | 恶意文件检测方法及装置 | |
US11019096B2 (en) | Combining apparatus, combining method, and combining program | |
CN112182569A (zh) | 一种文件识别方法、装置、设备及存储介质 | |
JP6708794B2 (ja) | 判定装置、判定方法、および、判定プログラム | |
CN110188538B (zh) | 采用沙箱集群检测数据的方法及装置 | |
CN103559447A (zh) | 一种基于病毒样本特征的检测方法、检测装置及检测系统 | |
US20240054210A1 (en) | Cyber threat information processing apparatus, cyber threat information processing method, and storage medium storing cyber threat information processing program | |
CN108182360B (zh) | 一种风险识别方法及其设备、存储介质、电子设备 | |
JP2013257773A (ja) | 監視装置および監視方法 | |
US10275596B1 (en) | Activating malicious actions within electronic documents | |
CN112148545B (zh) | 嵌入式系统的安全基线检测方法以及安全基线检测系统 | |
US20240054215A1 (en) | Cyber threat information processing apparatus, cyber threat information processing method, and storage medium storing cyber threat information processing program | |
US20210211459A1 (en) | Determination method, determination device and recording medium | |
CN113114609A (zh) | webshell检测取证方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |