CN107292171A - 用于识别压缩文件子类型的方法、病毒检测方法及装置 - Google Patents

用于识别压缩文件子类型的方法、病毒检测方法及装置 Download PDF

Info

Publication number
CN107292171A
CN107292171A CN201610229011.6A CN201610229011A CN107292171A CN 107292171 A CN107292171 A CN 107292171A CN 201610229011 A CN201610229011 A CN 201610229011A CN 107292171 A CN107292171 A CN 107292171A
Authority
CN
China
Prior art keywords
subtype
file
compressed file
identified
zip
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610229011.6A
Other languages
English (en)
Inventor
邱克生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610229011.6A priority Critical patent/CN107292171A/zh
Publication of CN107292171A publication Critical patent/CN107292171A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种用于识别压缩文件子类型的方法及装置,同时公开了一种用于压缩文件的病毒检测方法及装置。所述用于识别压缩文件子类型的方法,包括:获取预设的压缩文件子类型特征串集合;将所述压缩文件子类型特征串集合中的特征串与待识别压缩文件包含的文件路径名进行匹配,并根据匹配结果以及预设的特征串与子类型的对应关系、确定所述待识别压缩文件的子类型。本申请提供的上述方法,可以在不执行解压缩操作的情况下,快速、有效地识别压缩文件的子类型,使得整个识别过程的性能得到大幅提升。特别是应用于反病毒技术领域,能够提高病毒检测过程的整体执行性能。

Description

用于识别压缩文件子类型的方法、病毒检测方法及装置
技术领域
本申请涉及文件类型识别领域,具体涉及一种用于识别压缩文件子类型的方法及装置。本申请同时涉及一种用于压缩文件的病毒检测方法及装置。
背景技术
在很多计算机与互联网应用中,为了执行与文件相关的处理操作,通常需要先识别文件类型。传统的文件类型识别,往往用待识别文件头部的特征串与符合某种文件类型的预设特征串进行匹配,若成功则输出相应的文件类型。比如,Zip压缩格式的特征串为“PK”,当一个文件头部特征串为“PK”时,通常认为该文件是Zip格式的文件,简称Zip文件。
由于许多应用采用压缩格式作为文件的封装容器,因此压缩文件通常还具有相应的子类型。以Zip文件为例,office的docx、xlsx、pptx文件,安卓的apk文件,苹果ios的ipa文件,java程序包jar文件等等,虽然都采用了Zip压缩格式,但他们各自有不同的用途和内部格式,这种内部格式称为子类型,而Zip仅仅是这些子类型的封装容器而已。
在实际应用中,仅仅识别出压缩文件是不够的,有时还需要进一步识别出压缩文件的子类型。例如,在计算机反病毒技术中,为了提高检测效率,需要识别压缩文件的子类型,然后根据识别出的子类型,判断是否需要进行病毒检测、并在需要时调用针对相应子类型的扫描引擎进行病毒检测。
目前为了识别压缩文件子类型,通常需要将压缩文件解压缩,然后再对解压后的文件进行类型识别从而达到识别压缩文件子类型的目的。显然,由于需要执行解压缩操作,而解压缩操作通常比较耗费CPU资源,因此整个识别过程耗时长,性能低下,有时甚至无法满足应用的实时处理需求。
发明内容
本申请实施例提供一种用于识别压缩文件子类型的方法和装置,以解决现有的压缩文件子类型识别方法耗时长、性能低下的问题。本申请实施例还提供一种用于压缩文件的病毒检测方法和装置。
本申请提供一种用于识别压缩文件子类型的方法,包括:
获取预设的压缩文件子类型特征串集合;
将所述压缩文件子类型特征串集合中的特征串与待识别压缩文件包含的文件路径名进行匹配,并根据匹配结果以及预设的特征串与子类型的对应关系、确定所述待识别压缩文件的子类型。
可选的,所述压缩文件子类型特征串集合包括:Zip文件子类型特征串集合;所述待识别压缩文件包括:待识别Zip文件。
可选的,所述将所述压缩文件子类型特征串集合中的特征串与待识别压缩文件包含的文件路径名进行匹配,并根据匹配结果以及预设的特征串与子类型的对应关系、确定所述待识别压缩文件的子类型,包括:
将所述Zip文件子类型特征串集合中的特征串与所述待识别Zip文件包含的文件路径名逐一进行匹配,当其中任一次匹配成功时,将匹配成功的特征串对应的子类型作为所述待识别Zip文件的子类型。
可选的,所述将所述Zip文件子类型特征串集合中的特征串与所述待识别文件包含的文件路径名逐一进行匹配,当其中任一次匹配成功时,将匹配成功的特征串对应的子类型作为所述待识别Zip文件的子类型,包括:
针对所述Zip文件子类型特征串集合中的每个特征串,执行下述操作:
定位到所述待识别Zip文件的首个特定记录;
判断当前定位的特定记录是否符合Zip文件格式定义,若不符合结束所述特征串的匹配操作,否则获取当前定位的特定记录包含的文件路径名,并将获取的文件路径名与所述特征串进行匹配;
若匹配成功,将所述特征串对应的子类型作为所述待识别Zip文件的子类型,并结束本方法的执行;
否则,定位到下一个特定记录,并转到所述判断所述当前特定记录是否符合Zip文件格式定义的步骤执行。
可选的,所述特定记录包括:子文件压缩记录;
所述定位到所述待识别Zip文件的首个特定记录,包括:定位到所述待识别Zip文件的首个子文件压缩记录。
可选的,所述特定记录包括:子文件目录记录;
所述定位到所述待识别Zip文件的首个特定记录,包括:定位到所述待识别Zip文件的首个子文件目录记录。
可选的,所述定位到所述待识别Zip文件的首个子文件目录记录,包括:
查找位于所述待识别Zip文件尾部的目录结束记录;
根据找到的所述目录结束记录包含的子文件目录偏移信息,定位到所述待识别文件的首个子文件目录记录。
可选的,所述判断当前定位的特定记录是否符合Zip文件格式定义,包括:
按照Zip文件格式定义的所述特定记录的头部特征串的长度,从所述当前定位的特定记录的头部读取相应长度的字节序列;
当所述读取的字节序列与Zip文件格式定义的所述特定记录的头部特征串相符时,判定所述当前定位的特定记录符合Zip文件格式定义,否则不符合。
可选的,在所述获取预设的压缩文件子类型特征串集合之后,执行以下预处理操作:
用预先设定的对应于不同应用类别的筛选特征串与所述待识别压缩文件包含的文件路径名逐一进行匹配,当其中任一次匹配成功时,在所述压缩文件子类型特征串集合中仅保留与匹配成功的筛选特征串对应的各特征串,并结束所述预处理操作;
所述将所述压缩文件子类型特征串集合中的特征串与待识别压缩文件包含的文件路径名进行匹配,包括:将执行上述预处理操作后得到的压缩文件子类型特征串集合中的特征串与待识别压缩文件包含的文件路径名进行匹配。
相应的,本申请还提供一种用于识别压缩文件子类型的装置,包括:
压缩文件子类型特征串集合获取单元,用于获取预设的压缩文件子类型特征串集合;
压缩文件子类型识别单元,用于将所述压缩文件子类型特征串集合中的特征串与待识别压缩文件包含的文件路径名进行匹配,并根据匹配结果以及预设的特征串与子类型的对应关系、确定所述待识别压缩文件的子类型。
可选的,所述压缩文件子类型识别单元,具体用于将Zip文件子类型特征串集合中的特征串与待识别Zip文件包含的文件路径名逐一进行匹配,当其中任一次匹配成功时,将匹配成功的特征串对应的子类型作为所述待识别Zip文件的子类型。
可选的,所述压缩文件子类型识别单元,包括:
循环控制子单元,用于针对所述Zip文件子类型特征串集合中的每个特征串,触发以下子单元工作:
首记录定位子单元,用于定位到所述待识别Zip文件的首个特定记录;
格式判断子单元,用于判断当前定位的特定记录是否符合Zip文件格式定义,若不符合结束所述特征串的匹配操作;
文件路径名获取匹配子单元,用于当所述格式判断子单元的输出为是时,获取当前定位的特定记录包含的文件路径名,并将获取的文件路径名与所述特征串进行匹配;
子类型确定子单元,用于当所述文件路径名获取匹配子单元匹配成功时,将所述特征串对应的子类型作为所述待识别Zip文件的子类型,并结束本装置的工作;
下一记录定位子单元,用于当所述文件路径名获取匹配子单元匹配失败时,定位到下一个特定记录,并触发格式判断子单元工作。
可选的,所述首记录定位子单元,具体用于定位到所述待识别Zip文件的首个子文件压缩记录。
可选的,所述首记录定位子单元,具体用于定位到所述待识别Zip文件的首个子文件目录记录。
可选的,所述首记录定位子单元,包括:
目录结束记录查找子单元,用于查找位于所述待识别Zip文件尾部的目录结束记录;
首目录记录定位子单元,用于根据找到的所述目录结束记录包含的子文件目录偏移信息,定位到所述待识别文件的首个子文件目录记录。
可选的,所述格式判断子单元,包括:
字节序列读取子单元,用于按照Zip文件格式定义的所述特定记录的头部特征串的长度,从所述当前定位的特定记录的头部获取相应长度的字节序列;
判断执行子单元,用于当所述读取的字节序列与Zip文件格式定义的所述特定记录的头部特征串相符时,判定所述当前定位的特定记录符合Zip文件格式定义,否则不符合。
可选的,所述装置包括:
预处理单元,用于在所述压缩文件子类型特征串集合获取单元获取所述压缩文件子类型特征串集合后,用预先设定的对应于不同应用类别的筛选特征串与所述待识别压缩文件包含的文件路径名逐一进行匹配,当其中任一次匹配成功时,在所述压缩文件子类型特征串集合中仅保留与匹配成功的筛选特征串对应的各特征串,并结束本单元的工作;
所述压缩文件子类型识别单元,具体用于将所述预处理单元得到的压缩文件子类型特征串集合中的特征串与待识别压缩文件包含的文件路径名进行匹配。
此外,本申请还提供一种用于压缩文件的病毒检测方法,包括:
获取预设的压缩文件子类型特征串集合;
将所述压缩文件子类型特征串集合中的特征串与待处理压缩文件包含的文件路径名进行匹配,并根据匹配结果以及预设的特征串与子类型的对应关系、确定所述待处理压缩文件的子类型;
根据所述待处理压缩文件的子类型,确定是否需要进行病毒检测、并在需要时选择相应的扫描引擎进行病毒检测。
可选的,所述压缩文件子类型特征串集合包括:Zip文件子类型特征串集合;所述待处理压缩文件包括:待处理Zip文件。
可选的,所述将所述压缩文件子类型特征串集合中的特征串与待处理压缩文件包含的文件路径名进行匹配,并根据匹配结果以及预设的特征串与子类型的对应关系、确定所述待处理压缩文件的子类型,包括:
将所述Zip文件子类型特征串集合中的特征串与所述待处理Zip文件包含的文件路径名逐一进行匹配,当其中任一次匹配成功时,将匹配成功的特征串对应的子类型作为所述待处理Zip文件的子类型。
相应的,本申请还提供一种用于压缩文件的病毒检测装置,包括:
压缩文件子类型特征串集合获取单元,用于获取预设的压缩文件子类型特征串集合;
待处理压缩文件子类型识别单元,用于将所述压缩文件子类型特征串集合中的特征串与待处理压缩文件包含的文件路径名进行匹配,并根据匹配结果以及预设的特征串与子类型的对应关系、确定所述待处理压缩文件的子类型;
病毒检测判断执行单元,用于根据所述待处理压缩文件的子类型,确定是否需要进行病毒检测、并在需要时选择相应的扫描引擎进行病毒检测。
与现有技术相比,本申请具有以下优点:
本申请提供的用于识别压缩文件子类型的方法,首先获取预设的压缩文件子类型特征串集合,然后将所述压缩文件子类型特征串集合中的特征串与待识别压缩文件包含的文件路径名进行匹配,并根据匹配结果以及预设的特征串与子类型的对应关系确定所述待识别压缩文件的子类型。本申请提供的上述方法,利用了压缩文件的格式特点,对压缩文件包含的文件路径名进行特征匹配,进而实现识别子类型的目的,从而可以在不执行解压缩操作的情况下,快速、有效地进行子类型识别,使得整个识别过程的性能得到大幅提升。特别是应用于反病毒技术领域,能够提高病毒检测过程的整体执行性能。
附图说明
图1是本申请的一种用于识别压缩文件子类型的方法的实施例的流程图;
图2是本申请实施例提供的针对一个特征串与待识别Zip文件包含的文件路径名进行匹配的处理流程图;
图3是本申请的一种用于识别压缩文件子类型的装置的实施例的示意图;
图4是本申请的一种用于压缩文件的病毒检测方法的实施例的流程图;
图5是本申请的一种用于压缩文件的病毒检测装置的实施例的示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是,本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此,本申请不受下面公开的具体实施的限制。
在本申请中,分别提供了一种用于识别压缩文件子类型的方法及装置,以及一种用于压缩文件的病毒检测方法及装置。在下面的实施例中逐一进行详细说明。在描述具体的实施例之前,先对本申请的技术方案、以及有助于理解本技术方案的相关内容作简要的说明。
现有技术在识别压缩文件的子类型时,通常需要对压缩文件解压缩,然后再对解压后的文件进行类型识别从而达到识别压缩文件子类型的目的,但由于这种方法存在着解压缩的过程,而解压缩过程通常比较耗费CPU资源,因此造成识别压缩文件子类型的过程耗时长、性能低。
本申请的发明人在工作中发现,通常情况下,不同子类型的压缩文件中都有路径固定的被压缩子文件,这些子文件的文件路径名都是没有经过压缩且明文存储在压缩文件中的。在此基础上,发明人针对现有的压缩文件子类型识别方案存在的缺陷,提出一种快速识别压缩文件子类型的新技术方案,其核心在于:充分利用压缩文件的格式特点,将压缩文件包含的文件路径名与用于识别压缩文件子类型的特征串进行匹配,从而达到识别压缩文件子类型的目的。采用该技术方案,可以在不用解压缩的情况下快速、有效地识别出压缩文件的子类型。如果将本技术方案应用于反病毒技术领域,能够提高病毒检测过程的整体执行性能。
其中,所述文件路径名是指,压缩文件中所包含的、用于记录被压缩子文件的路径及文件名的信息,通常位于压缩文件的特定字段中。例如,docx文件是以Zip作为封装容器的压缩文件,其中包含:[Content_Types].xml、document.xml、settings.xml、fontTable.xml等多个被压缩子文件,而这些被压缩子文件的文件路径名分别为:“[Content_Types].xml”、“word/document.xml”、“word/settings.xml”、“word/fontTable.xml”,这些文件路径名信息存储在docx文件的子文件压缩记录以及子文件目录记录的特定字段中(请参见后续对Zip文件格式的说明)。
所述特征串是指,可用于识别压缩文件子类型的信息序列,例如:字符串。仍然以基于Zip作为封装容器的docx文件为例,用于识别该子类型的特征串为“word/document.xml”,如果某一Zip文件包含与该特征串相匹配的文件路径名,则可以识别该Zip文件的子类型为docx。
本申请提供的技术方案并不局限于对Zip文件子类型的识别,也可以用于以其他压缩格式作为封装容器的压缩文件,例如:RAR、CAB文件等,其基本原理及操作步骤都是类似的,即:利用压缩文件包含的文件路径名与预设的压缩文件子类型特征串集合中的特征串进行匹配,并根据匹配结果以及预设的特征串与子类型的对应关系、确定压缩文件的子类型。
为了便于描述,在本申请以下文字中,以识别Zip文件的子类型为例,对本申请技术方案的实施方式进行说明。
为了便于理解,先对Zip文件的格式作简要说明。通常Zip文件主要包括三部分内容:子文件压缩记录、子文件目录记录、子文件目录结束记录,以及其他一些内容。下面对Zip文件总体格式,以及其中各个记录的具体格式进行说明。
(一)Zip文件总体格式
[子文件压缩记录1]
......
[子文件压缩记录n]
[文件解密头](可选的)
[文件备用数据记录]
[子文件目录记录1]
......
[子文件目录记录n]
[zip64压缩子文件目录结束记录](可选的)
[zip64压缩子文件目录定位器](可选的)
[子文件目录结束记录]
(二)子文件压缩记录的格式
[压缩子文件头]
[加密文件头]
[压缩子文件数据]
[数据描述块]
(三)压缩子文件头的格式
表一
其中,压缩子文件头特征串固定为0x04034b50,最低两字节对应英文字符“PK”的ASCII码。Zip规定整数数据存储时是低字节在前,所以用文件编辑器打开Zip文件,总能在文件开头看到“PK”两个字符。
多用途bit位标志共2个字节16位,每一位都代表一个选项。本技术方案主要关注两个选项:1、该压缩子文件是否加密,2、该子文件是否有数据描述块。如果该子文件是加密的,那么在压缩子文件头后面和压缩子文件数据前面存放的是加密文件头;如果有数据描述块,在压缩子文件数据后面存放的是数据描述块。由于以Zip作为封装容器的Zip文件通常不会加密,且不带数据描述块,为了描述方便,在后续实施例中重点描述在Zip文件的子文件压缩记录中没有加密文件头且不带数据描述块的实施方式。
(四)子文件目录记录的格式(省略部分与本技术方案无关的字段)
表二
(五)子文件目录结束记录的格式(省略部分与本技术方案无关的字段)
表三
以上通过(一)至(五),对Zip文件的格式进行了简要描述。遵循上述Zip文件格式,就可以确定每个子文件压缩记录的大小,从而可以从文件头开始向后搜索每个子文件压缩记录,并用子文件压缩记录中的文件路径名进行特征匹匹配,从而可以不用解压缩也能够识别Zip文件的子类型。
此外,通过上述Zip文件格式可以看出,在子文件目录记录中也有“文件路径名”字段,因此也可以利用子文件目录结束记录定位到子文件目录记录头,然后依次向后搜索每个子文件目录记录,并用子文件目录记录中的文件路径名进行特征匹配,同样可以实现本申请的技术方案。
基于上述Zip文件格式,可以利用其中包含的文件路径名进行特征匹配,即,用Zip文件包含的文件路径名与Zip文件子类型特征串集合中的特征串进行匹配,从而识别Zip文件的子类型。其中,所述Zip文件子类型特征串集合通常是预先设置好的,其中包含的特征串是指,可以用于识别Zip文件子类型的信息序列,例如:字符串。下面对Zip文件子类型特征串集合的预先设置过程进行说明。
Zip文件的子类型包括:docx、xlsx、pptx、apk、ipa、或者jar等。不管属于哪一种子类型的Zip文件,其中通常都包含有若干个被压缩子文件,分别用于存储文本信息、多媒体信息、和/或各种配置信息等。以docx文件为例,其中可能包含:[Content_Types].xml、document.xml、settings.xml、fontTable.xml等多个被压缩子文件,而这些被压缩子文件的具体路径和文件名信息,通常存储在对应的子文件压缩记录以及子文件目录记录的文件路径名中,例如,以上列举的各压缩子文件的文件路径名分别为:“[Content_Types].xml”、“word/document.xml”、“word/settings.xml”、“word/fontTable.xml”。
由于文件内容、或者配置的差异性,属于同一子类型的不同Zip文件所包含的文件路径名通常并不完全相同,但是也存在可与其他子类型相区分的共性,例如:以docx子类型为例,属于这一子类型的Zip文件,其包含的各文件路径名中,通常至少有一个文件路径名为“word/document.xml”,而其他子类型的Zip文件则不包含这样的文件路径名,因此,可以将“word/document.xml”作为docx子类型的特征串。
同样的道理,通过对Zip文件包含的文件路径名的分析,也可以针对其他Zip子类型提取出相应的特征串,并预先设定特征串与子类型的对应关系。例如,xlsx子类型对应的特征串为“xl/workbook.xml”,apk子类型对应的特征串为“AndroidManifest.xml”。在采用本申请提供的用于识别压缩文件子类型的方法识别Zip文件子类型之前,可以将对应于各Zip子类型的特征串组合在一起,共同构建Zip文件子类型特征串集合,从而完成预先设置Zip文件子类型特征串集合的操作。
下面对本申请提供的实施例进行详细说明。在以下实施例中,压缩文件子类型特征串集合是指Zip文件子类型特征串集合,待识别压缩文件是指待识别Zip文件。
请参考图1,其为本申请的一种用于识别压缩文件子类型的方法的实施例的流程图。所述方法包括如下步骤:
步骤101、获取预设的压缩文件子类型特征串集合。
Zip文件子类型特征串集合通常是预先设置好的,可以存储在数据文件中,也可以存储在数据库中。在具体实施时,本步骤可以从数据文件或者数据库中读取所述Zip文件子类型特征串集合,并加载在内存中,为后续的匹配做好准备。
优选地,为了提高后续匹配的执行效率,本实施例还提供对Zip文件子类型特征串集合中的特征串进行筛选的优选实施方式。即,可以在获取预设的Zip文件子类型特征串集合后,在执行步骤102的匹配操作之前,执行以下预处理操作:用预先设定的对应于不同应用类别的筛选特征串与待识别Zip文件包含的文件路径名逐一进行匹配,当其中任一次匹配成功时,在所述Zip文件子类型特征串集合中仅保留与匹配成功的筛选特征串对应的各特征串,而将其他的特征串删除,并结束预处理操作。
以Office这一应用类别为例,其包括多种应用程序,例如:Word、Excel、PowerPoint等,这些应用程序通常都采用Zip压缩格式的文件,对应的Zip子类型分别为:docx、xlsx、pptx等,这些子类型的特征串各不相同,但是属于这些子类型的Zip文件中通常都有这样一个文件路径名:“[Content_Types].xml”,因此,可以将“[Content_Types].xml”作为Office这一应用类别的筛选特征串,并且可以预先设置该筛选特征串与上述从属于Office应用类别的各子类型特征串相对应。
在执行步骤102之前,可以先用预先设定的筛选特征串“[Content_Types].xml”与待识别Zip文件包含的文件路径名逐一进行匹配,若其中一次匹配成功,则说明待识别Zip文件属于Office这一应用类别,因此可以在已经获取的Zip文件子类型特征串集合中仅保留与“[Content_Types].xml”对应的各特征串,而将其他的特征串删除,即:在Zip文件子类型特征串集合中仅保留与docx、xlsx、pptx等子类型对应的特征串。
同样的道理,对于其他应用类别如果具有Office的上述特点,也可以预先设定相应的筛选特征串,并设定筛选特征串与相应应用类别下的各Zip子类型特征串的对应关系。在步骤102之前执行预处理操作,通过将不同筛选特征串与待识别Zip文件包含的文件路径名逐一进行匹配,实现对Zip文件子类型特征串集合的筛选,步骤102则可以利用执行预处理操作后得到的Zip文件子类型特征串集合中的特征串进行匹配,可以减少参与匹配的特征串数量,提高执行性能。此外,采用预处理方式,相当于增加了一个需要匹配成功的特征串,有助于提高识别的准确率。
步骤102、将所述压缩文件子类型特征串集合中的特征串与待识别压缩文件包含的文件路径名进行匹配,并根据匹配结果以及预设的特征串与子类型的对应关系、确定所述待识别压缩文件的子类型。
本步骤将Zip文件子类型特征串集合中的特征串与待识别Zip文件包含的路径名进行匹配,例如:可以将Zip文件子类型特征串集合中的特征串分别与待识别Zip文件中的特征串逐一进行匹配,并且在全部匹配完毕后,根据匹配结果确定待识别Zip文件的子类型。在具体实施时,由于预先设定的子类型特征串集合包含的特征串不同等原因,可能出现不同的匹配结果,例如:仅有一个特征串匹配成功,或者有两个或者两个以上的特征串都匹配成功。因此可以根据匹配成功的特征串以及预设的特征串与子类型的对应关系,确定待识别Zip文件的子类型。
优选地,考虑到在实际应用中,如果选取的针对各种Zip子类型的特征串都具有较强的标识能力,即:用一个特征串就可以唯一标识相应的子类型,那么本步骤可以将Zip文件子类型特征串集合中的特征串与所述待识别Zip文件包含的文件路径名逐一进行匹配,并且当其中任一次匹配成功时,即可将匹配成功的特征串对应的子类型作为所述待识别Zip文件的子类型,并结束本方法的执行。采用这种方式,由于不需要将所有的匹配操作都执行完毕,能够减少本步骤的执行时间,提高性能。
在具体实施时,Zip文件子类型特征串集合中的各特征串以及待识别Zip文件都可以加载到内存中,从而可以快捷地实现匹配过程。具体实施匹配过程,可以遍历Zip文件子类型特征串集合中个各个特征串,用每个特征串与待识别Zip文件包含的各文件路径名进行匹配;也可以针对待识别Zip文件包含的各个文件路径名,用每个文件路径名与Zip文件子类型特征串集合中的各特征串进行匹配。
下面以上述第一种方式为例,对本步骤的具体实施方式进行详细说明。本步骤针对Zip文件子类型特征串集合中的每个特征串,执行如图2所示的匹配操作,并且参与匹配的文件路径名是从待识别Zip文件的子文件压缩记录中提取的。下面结合图2,针对一个特征串的匹配过程作进一步说明,其中包含步骤102-1至102-5。
步骤102-1、定位到所述待识别Zip文件的首个特定记录。
定位到所述待识别Zip文件的首个子文件压缩记录。按照Zip文件格式,通常第一个子文件压缩记录位于Zip文件头部,因此本步骤可以定位到待识别Zip文件的起始位置,即:文件偏移为0。
步骤102-2、判断当前定位的特定记录是否符合Zip文件格式定义,若不符合结束所述特征串的匹配操作,否则执行步骤102-3。
本步骤判断当前定位的特定记录是否符合Zip文件格式定义,通常是指,判断当前定位的特定记录的头部特征串是否与Zip文件格式的定义相符。Zip文件格式定义子文件压缩记录的头部特征串的长度为4字节,并且值应该为0x04034b50。因此本步骤可以从当前定位的子文件压缩记录的起始位置读取4字节,并判断是否为0x04034b50。
若是,则认为与Zip文件格式定义相符,当前定位的子文件压缩记录是有效的,可以继续执行步骤102-3。
否则,说明当前定位的子文件压缩记录不是有效的子文件压缩记录,例如:当待识别Zip文件的所有子文件压缩记录处理完毕后,可能出现这种情况,说明所述特征串(参与匹配操作的特征串)已经与待识别Zip文件中各子文件压缩记录包含的文件路径名逐一执行了匹配操作,因此可以结束所述特征串的匹配操作。
步骤102-3、获取当前定位的特定记录包含的文件路径名,并将获取的文件路径名与所述特征串进行匹配;若成功,执行步骤102-4,否则,执行步骤102-5。
按照子文件压缩记录的格式,从当前定位的子文件压缩记录的压缩子文件头中获取文件路径名。具体可以从当前定位的子文件压缩记录的起始位置开始,在偏移26字节处获取子文件压缩记录中所包含的文件路径名的长度(name_length),在偏移30字节处,获取所述长度的文件路径名。
获取文件路径名后,即可以将所述文件路径名与所述特征串进行匹配。例如:所述特征串为“word/document.xml”,如果文件路径名也为“word/document.xml”,则两者匹配成功,这种情况下可以执行步骤102-4;如果匹配不成功则执行步骤102-5。
步骤102-4、将所述特征串对应的子类型作为所述待识别Zip文件的子类型,并结束对待识别Zip文件子类型的识别。
由于所述特征串与当前定位的子文件压缩记录包含的文件路径名匹配成功,因此可以根据预设的特征串与子类型的对应关系,将所述特征串对应的子类型作为待识别Zip文件的子类型,从而完成对待识别Zip文件的子类型识别,并可以结束本方法的执行。例如:所述特征串为“word/document.xml”,并且预先设定与该特征串对应的子类型为docx,那么本步骤即可确定待识别Zip文件的子类型为docx。
步骤102-5、定位到下一个特定记录,并转到步骤102-2执行。
执行到本步骤说明所述特征串与当前定位的子文件压缩记录包含的文件路径名未匹配成功,此时可以定位到下一个子文件压缩记录,为所述特征串与下一个子文件压缩记录包含的文件路径名进行匹配做好准备。
定位下一个子文件压缩记录,可以通过如下方式实现:具体可以从当前定位的子文件压缩记录的起始位置开始,在偏移18字节处获取子文件压缩记录中所包含的压缩后文件大小(data_length),在偏移28字节处,获取备用字段长度(extra_length),然后定位到偏移=30+name_length+extra_length+data_length(单位:字节)的位置,即定位到下一个子文件压缩记录的起始位置。
至此通过步骤102-1至102-5,针对一个特征串的匹配过程进行了说明。在具体实施时,可以针对Zip文件子类型特征串集合中的每个特征串,执行上述步骤102-1至102-5,与待识别Zip文件中的文件路径名逐一进行匹配,在上述过程中,只要有一次匹配成功,则可以将匹配成功的特征串对应的子类型作为所述待识别Zip文件的子类型,并结束本方法的执行。
在上述例子中,待识别Zip文件的子文件压缩记录中没有加密文件头和数据描述块,在具体实施时,如果通过解析压缩子文件头中的多用途bit位标志,获知子文件压缩记录包含加密文件头和数据描述块,那么在步骤102-5为定位到下一个子文件压缩记录计算偏移时,需要加上相应的加密文件头和数据描述块的长度。
此外,需要说明的是,上面步骤102-1至102-5给出了从待识别Zip文件的子文件压缩记录中提取文件路径名进行匹配的实施方式。在实际实施时,也可以采用从子文件目录记录中提取文件路径名进行匹配的实施方式。采用第二种实施方式的处理流程与第一种实施方式是基本相同的,不同之处在于:在步骤102-1中需要定位到待识别Zip文件的首个子文件目录记录,具体实现可以是,查找位于待识别Zip文件尾部的目录结束记录(该记录的头部特征串为0x06054b50),并根据找到的所述目录结束记录包含的子文件目录偏移信息,定位到待识别文件的第一个子文件目录记录;此后,则可以按照子文件目录记录的格式获取文件路径名进行匹配、以及定位后续子文件目录记录等,整体处理流程与步骤102-1至102-5一致,此处不再赘述。
综上所述,本实施例提供的用于识别压缩文件子类型的方法,利用了压缩文件的格式特点,通过对压缩文件包含的文件路径名与子类型特征串集合中的特征串进行匹配,识别压缩文件的子类型,从而可以在不执行解压缩操作的情况下,快速、有效地进行子类型识别,使得整个识别过程的性能得到大幅提升。
在上述的实施例中,提供了一种用于识别压缩文件子类型的方法,与之相对应的,本申请还提供一种用于识别压缩文件子类型的装置。请参看图3,其为本申请的一种用于识别压缩文件子类型的装置的实施例的示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本实施例的一种用于识别压缩文件子类型的装置,包括:压缩文件子类型特征串集合获取单元301,用于获取预设的压缩文件子类型特征串集合;压缩文件子类型识别单元302,用于将所述压缩文件子类型特征串集合中的特征串与待识别压缩文件包含的文件路径名进行匹配,并根据匹配结果以及预设的特征串与子类型的对应关系、确定所述待识别压缩文件的子类型。
可选的,所述压缩文件子类型识别单元,具体用于将Zip文件子类型特征串集合中的特征串与待识别Zip文件包含的文件路径名逐一进行匹配,当其中任一次匹配成功时,将匹配成功的特征串对应的子类型作为所述待识别Zip文件的子类型。
可选的,所述压缩文件子类型识别单元,包括:
循环控制子单元,用于针对所述Zip文件子类型特征串集合中的每个特征串,触发以下子单元工作:
首记录定位子单元,用于定位到所述待识别Zip文件的首个特定记录;
格式判断子单元,用于判断当前定位的特定记录是否符合Zip文件格式定义,若不符合结束所述特征串的匹配操作;
文件路径名获取匹配子单元,用于当所述格式判断子单元的输出为是时,获取当前定位的特定记录包含的文件路径名,并将获取的文件路径名与所述特征串进行匹配;
子类型确定子单元,用于当所述文件路径名获取匹配子单元匹配成功时,将所述特征串对应的子类型作为所述待识别Zip文件的子类型,并结束本装置的工作;
下一记录定位子单元,用于当所述文件路径名获取匹配子单元匹配失败时,定位到下一个特定记录,并触发格式判断子单元工作。
可选的,所述首记录定位子单元,具体用于定位到所述待识别Zip文件的首个子文件压缩记录。
可选的,所述首记录定位子单元,具体用于定位到所述待识别Zip文件的首个子文件目录记录。
可选的,所述首记录定位子单元,包括:
目录结束记录查找子单元,用于查找位于所述待识别Zip文件尾部的目录结束记录;
首目录记录定位子单元,用于根据找到的所述目录结束记录包含的子文件目录偏移信息,定位到所述待识别文件的首个子文件目录记录。
可选的,所述格式判断子单元,包括:
字节序列读取子单元,用于按照Zip文件格式定义的所述特定记录的头部特征串的长度,从所述当前定位的特定记录的头部获取相应长度的字节序列;
判断执行子单元,用于当所述读取的字节序列与Zip文件格式定义的所述特定记录的头部特征串相符时,判定所述当前定位的特定记录符合Zip文件格式定义,否则不符合。
可选的,所述装置包括:
预处理单元,用于在所述压缩文件子类型特征串集合获取单元获取所述压缩文件子类型特征串集合后,用预先设定的对应于不同应用类别的筛选特征串与所述待识别压缩文件包含的文件路径名逐一进行匹配,当其中任一次匹配成功时,在所述压缩文件子类型特征串集合中仅保留与匹配成功的筛选特征串对应的各特征串,并结束本单元的工作;
所述压缩文件子类型识别单元,具体用于将所述预处理单元得到的压缩文件子类型特征串集合中的特征串与待识别压缩文件包含的文件路径名进行匹配。
此外,本申请还提供一种用于压缩文件的病毒检测方法,即:将上述实施例提供的用于识别压缩文件子类型的方法应用于反病毒领域。请参考图4,其为本申请提供的一种用于压缩文件的病毒检测方法的实施例的流程图,本实施例与之前提供的各实施例内容相同的部分不再赘述,下面重点描述不同之处。本申请提供的一种用于压缩文件的病毒检测方法包括:
步骤401、获取预设的压缩文件子类型特征串集合。
步骤402、将所述压缩文件子类型特征串集合中的特征串与待处理压缩文件包含的文件路径名进行匹配,并根据匹配结果以及预设的特征串与子类型的对应关系、确定所述待处理压缩文件的子类型。
以待处理压缩文件为Zip文件为例,本步骤可以将Zip文件子类型特征串集合中的特征串与待处理Zip文件包含的文件路径名逐一进行匹配,当其中任一次匹配成功时,将匹配成功的特征串对应的子类型作为所述待处理Zip文件的子类型。
步骤403、根据所述待处理压缩文件的子类型,确定是否需要进行病毒检测、并在需要时选择相应的扫描引擎进行病毒检测。
病毒检测是判断文件是否感染病毒的一种技术,病毒检测有多种方式,其中比较通用的方式是利用扫描引擎对被检测文件执行基于特征码的扫描,如果在被检测文件中找到对应于某种病毒的特征码,则可以判定该文件感染了病毒。
为了更有针对性地进行检测、提高检测的准确率,通常会针对不同的易感染文件类型,设计不同的扫描引擎。在具体检测时,可以根据待处理文件的具体类型,判断是否需要进行病毒检测、并在需要时选择调用相应的扫描引擎进行病毒检测。基于上述操作流程,现有技术针对压缩文件,通常需要先执行解压缩操作确定其子类型,并进一步根据确定的子类型判断是否需要进行病毒检测。
而在本实施例中,由于在步骤402中,通过特征串匹配过程,已经识别出了待处理压缩文件的子类型,因此本步骤可以直接根据该子类型判断是否需要针对该压缩文件执行病毒检测,并在需要时选择相应的扫描引擎进行病毒检测。
由此可见,采用本实施例提供的方法,由于不需要执行解压缩过程就可以确定压缩文件的子类型,因此对于最终确定为无需进行病毒扫描的压缩文件来说,减少了没有必要的解压缩操作,从而能够提高病毒检测过程的整体执行性能。
在上述的实施例中,提供了一种用于压缩文件的病毒检测方法,与之相对应的,本申请还提供一种用于压缩文件的病毒检测装置。请参看图5,其为本申请的一种用于压缩文件的病毒检测装置实施例的示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本实施例的一种用于压缩文件的病毒检测装置,包括:压缩文件子类型特征串集合获取单元501,用于获取预设的压缩文件子类型特征串集合;待处理压缩文件子类型识别单元502,用于将所述压缩文件子类型特征串集合中的特征串与待处理压缩文件包含的文件路径名进行匹配,并根据匹配结果以及预设的特征串与子类型的对应关系、确定所述待处理压缩文件的子类型;病毒检测判断执行单元503,用于根据所述待处理压缩文件的子类型,确定是否需要进行病毒检测、并在需要时选择相应的扫描引擎进行病毒检测。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (21)

1.一种用于识别压缩文件子类型的方法,其特征在于,包括:
获取预设的压缩文件子类型特征串集合;
将所述压缩文件子类型特征串集合中的特征串与待识别压缩文件包含的文件路径名进行匹配,并根据匹配结果以及预设的特征串与子类型的对应关系、确定所述待识别压缩文件的子类型。
2.根据权利要求1所述的用于识别压缩文件子类型的方法,其特征在于,所述压缩文件子类型特征串集合包括:Zip文件子类型特征串集合;所述待识别压缩文件包括:待识别Zip文件。
3.根据权利要求2所述的用于识别压缩文件子类型的方法,其特征在于,所述将所述压缩文件子类型特征串集合中的特征串与待识别压缩文件包含的文件路径名进行匹配,并根据匹配结果以及预设的特征串与子类型的对应关系、确定所述待识别压缩文件的子类型,包括:
将所述Zip文件子类型特征串集合中的特征串与所述待识别Zip文件包含的文件路径名逐一进行匹配,当其中任一次匹配成功时,将匹配成功的特征串对应的子类型作为所述待识别Zip文件的子类型。
4.根据权利要求3所述的用于识别压缩文件子类型的方法,其特征在于,所述将所述Zip文件子类型特征串集合中的特征串与所述待识别文件包含的文件路径名逐一进行匹配,当其中任一次匹配成功时,将匹配成功的特征串对应的子类型作为所述待识别Zip文件的子类型,包括:
针对所述Zip文件子类型特征串集合中的每个特征串,执行下述操作:
定位到所述待识别Zip文件的首个特定记录;
判断当前定位的特定记录是否符合Zip文件格式定义,若不符合结束所述特征串的匹配操作,否则获取当前定位的特定记录包含的文件路径名,并将获取的文件路径名与所述特征串进行匹配;
若匹配成功,将所述特征串对应的子类型作为所述待识别Zip文件的子类型,并结束本方法的执行;
否则,定位到下一个特定记录,并转到所述判断所述当前特定记录是否符合Zip文件格式定义的步骤执行。
5.根据权利要求4所述的用于识别压缩文件子类型的方法,其特征在于,所述特定记录包括:子文件压缩记录;
所述定位到所述待识别Zip文件的首个特定记录,包括:定位到所述待识别Zip文件的首个子文件压缩记录。
6.根据权利要求4所述的用于识别压缩文件子类型的方法,其特征在于,所述特定记录包括:子文件目录记录;
所述定位到所述待识别Zip文件的首个特定记录,包括:定位到所述待识别Zip文件的首个子文件目录记录。
7.根据权利要求6所述的用于识别压缩文件子类型的方法,其特征在于,所述定位到所述待识别Zip文件的首个子文件目录记录,包括:
查找位于所述待识别Zip文件尾部的目录结束记录;
根据找到的所述目录结束记录包含的子文件目录偏移信息,定位到所述待识别文件的首个子文件目录记录。
8.根据权利要求4所述的用于识别压缩文件子类型的方法,其特征在于,所述判断当前定位的特定记录是否符合Zip文件格式定义,包括:
按照Zip文件格式定义的所述特定记录的头部特征串的长度,从所述当前定位的特定记录的头部读取相应长度的字节序列;
当所述读取的字节序列与Zip文件格式定义的所述特定记录的头部特征串相符时,判定所述当前定位的特定记录符合Zip文件格式定义,否则不符合。
9.根据权利要求1-8任一项所述的用于识别压缩文件子类型的方法,其特征在于,在所述获取预设的压缩文件子类型特征串集合之后,执行以下预处理操作:
用预先设定的对应于不同应用类别的筛选特征串与所述待识别压缩文件包含的文件路径名逐一进行匹配,当其中任一次匹配成功时,在所述压缩文件子类型特征串集合中仅保留与匹配成功的筛选特征串对应的各特征串,并结束所述预处理操作;
所述将所述压缩文件子类型特征串集合中的特征串与待识别压缩文件包含的文件路径名进行匹配,包括:将执行上述预处理操作后得到的压缩文件子类型特征串集合中的特征串与待识别压缩文件包含的文件路径名进行匹配。
10.一种用于识别压缩文件子类型的装置,其特征在于,包括:
压缩文件子类型特征串集合获取单元,用于获取预设的压缩文件子类型特征串集合;
压缩文件子类型识别单元,用于将所述压缩文件子类型特征串集合中的特征串与待识别压缩文件包含的文件路径名进行匹配,并根据匹配结果以及预设的特征串与子类型的对应关系、确定所述待识别压缩文件的子类型。
11.根据权利要求10所述的用于识别压缩文件子类型的装置,其特征在于,所述压缩文件子类型识别单元,具体用于将Zip文件子类型特征串集合中的特征串与待识别Zip文件包含的文件路径名逐一进行匹配,当其中任一次匹配成功时,将匹配成功的特征串对应的子类型作为所述待识别Zip文件的子类型。
12.根据权利要求11所述的用于识别压缩文件子类型的装置,其特征在于,所述压缩文件子类型识别单元,包括:
循环控制子单元,用于针对所述Zip文件子类型特征串集合中的每个特征串,触发以下子单元工作:
首记录定位子单元,用于定位到所述待识别Zip文件的首个特定记录;
格式判断子单元,用于判断当前定位的特定记录是否符合Zip文件格式定义,若不符合结束所述特征串的匹配操作;
文件路径名获取匹配子单元,用于当所述格式判断子单元的输出为是时,获取当前定位的特定记录包含的文件路径名,并将获取的文件路径名与所述特征串进行匹配;
子类型确定子单元,用于当所述文件路径名获取匹配子单元匹配成功时,将所述特征串对应的子类型作为所述待识别Zip文件的子类型,并结束本装置的工作;
下一记录定位子单元,用于当所述文件路径名获取匹配子单元匹配失败时,定位到下一个特定记录,并触发格式判断子单元工作。
13.根据权利要求12所述的用于识别压缩文件子类型的装置,其特征在于,所述首记录定位子单元,具体用于定位到所述待识别Zip文件的首个子文件压缩记录。
14.根据权利要求12所述的用于识别压缩文件子类型的装置,其特征在于,所述首记录定位子单元,具体用于定位到所述待识别Zip文件的首个子文件目录记录。
15.根据权利要求14所述的用于识别压缩文件子类型的装置,其特征在于,所述首记录定位子单元,包括:
目录结束记录查找子单元,用于查找位于所述待识别Zip文件尾部的目录结束记录;
首目录记录定位子单元,用于根据找到的所述目录结束记录包含的子文件目录偏移信息,定位到所述待识别文件的首个子文件目录记录。
16.根据权利要求12所述的用于识别压缩文件子类型的装置,其特征在于,所述格式判断子单元,包括:
字节序列读取子单元,用于按照Zip文件格式定义的所述特定记录的头部特征串的长度,从所述当前定位的特定记录的头部获取相应长度的字节序列;
判断执行子单元,用于当所述读取的字节序列与Zip文件格式定义的所述特定记录的头部特征串相符时,判定所述当前定位的特定记录符合Zip文件格式定义,否则不符合。
17.根据权利要求10-16任一项所述的用于识别压缩文件子类型的装置,其特征在于,包括:
预处理单元,用于在所述压缩文件子类型特征串集合获取单元获取所述压缩文件子类型特征串集合后,用预先设定的对应于不同应用类别的筛选特征串与所述待识别压缩文件包含的文件路径名逐一进行匹配,当其中任一次匹配成功时,在所述压缩文件子类型特征串集合中仅保留与匹配成功的筛选特征串对应的各特征串,并结束本单元的工作;
所述压缩文件子类型识别单元,具体用于将所述预处理单元得到的压缩文件子类型特征串集合中的特征串与待识别压缩文件包含的文件路径名进行匹配。
18.一种用于压缩文件的病毒检测方法,其特征在于,包括:
获取预设的压缩文件子类型特征串集合;
将所述压缩文件子类型特征串集合中的特征串与待处理压缩文件包含的文件路径名进行匹配,并根据匹配结果以及预设的特征串与子类型的对应关系、确定所述待处理压缩文件的子类型;
根据所述待处理压缩文件的子类型,确定是否需要进行病毒检测、并在需要时选择相应的扫描引擎进行病毒检测。
19.根据权利要求18所述的用于压缩文件的病毒检测方法,其特征在于,所述压缩文件子类型特征串集合包括:Zip文件子类型特征串集合;所述待处理压缩文件包括:待处理Zip文件。
20.根据权利要求19所述的用于压缩文件的病毒检测方法,其特征在于,所述将所述压缩文件子类型特征串集合中的特征串与待处理压缩文件包含的文件路径名进行匹配,并根据匹配结果以及预设的特征串与子类型的对应关系、确定所述待处理压缩文件的子类型,包括:
将所述Zip文件子类型特征串集合中的特征串与所述待处理Zip文件包含的文件路径名逐一进行匹配,当其中任一次匹配成功时,将匹配成功的特征串对应的子类型作为所述待处理Zip文件的子类型。
21.一种用于压缩文件的病毒检测装置,其特征在于,包括:
压缩文件子类型特征串集合获取单元,用于获取预设的压缩文件子类型特征串集合;
待处理压缩文件子类型识别单元,用于将所述压缩文件子类型特征串集合中的特征串与待处理压缩文件包含的文件路径名进行匹配,并根据匹配结果以及预设的特征串与子类型的对应关系、确定所述待处理压缩文件的子类型;
病毒检测判断执行单元,用于根据所述待处理压缩文件的子类型,确定是否需要进行病毒检测、并在需要时选择相应的扫描引擎进行病毒检测。
CN201610229011.6A 2016-04-13 2016-04-13 用于识别压缩文件子类型的方法、病毒检测方法及装置 Pending CN107292171A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610229011.6A CN107292171A (zh) 2016-04-13 2016-04-13 用于识别压缩文件子类型的方法、病毒检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610229011.6A CN107292171A (zh) 2016-04-13 2016-04-13 用于识别压缩文件子类型的方法、病毒检测方法及装置

Publications (1)

Publication Number Publication Date
CN107292171A true CN107292171A (zh) 2017-10-24

Family

ID=60093240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610229011.6A Pending CN107292171A (zh) 2016-04-13 2016-04-13 用于识别压缩文件子类型的方法、病毒检测方法及装置

Country Status (1)

Country Link
CN (1) CN107292171A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134644A (zh) * 2019-05-17 2019-08-16 成都卫士通信息产业股份有限公司 文件类型识别方法、装置、电子设备及可读存储介质
CN111352912A (zh) * 2020-03-10 2020-06-30 Oppo广东移动通信有限公司 压缩文件处理方法、装置、存储介质、终端以及服务器
CN111414339A (zh) * 2020-03-13 2020-07-14 浙江大华技术股份有限公司 一种文件的处理方法、系统、装置、设备及介质
CN113590557A (zh) * 2021-07-30 2021-11-02 北京明朝万达科技股份有限公司 文件识别方法、装置、存储介质及处理器

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101707601A (zh) * 2009-11-23 2010-05-12 成都市华为赛门铁克科技有限公司 入侵防御检测方法、装置和网关设备
CN104573514A (zh) * 2013-10-29 2015-04-29 腾讯科技(深圳)有限公司 压缩文件的检测方法及装置
CN104615642A (zh) * 2014-12-17 2015-05-13 吉林大学 基于局部邻域约束的空间验证的错误匹配检测方法
CN105025017A (zh) * 2015-07-03 2015-11-04 汉柏科技有限公司 基于防火墙的防挂马的方法及防火墙
CN105095330A (zh) * 2014-12-01 2015-11-25 哈尔滨安天科技股份有限公司 一种基于压缩包内容的文件格式识别方法及系统
CN105426480A (zh) * 2015-11-19 2016-03-23 中国地质大学(武汉) 一种用于HTML转换为Word文档的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101707601A (zh) * 2009-11-23 2010-05-12 成都市华为赛门铁克科技有限公司 入侵防御检测方法、装置和网关设备
CN104573514A (zh) * 2013-10-29 2015-04-29 腾讯科技(深圳)有限公司 压缩文件的检测方法及装置
CN105095330A (zh) * 2014-12-01 2015-11-25 哈尔滨安天科技股份有限公司 一种基于压缩包内容的文件格式识别方法及系统
CN104615642A (zh) * 2014-12-17 2015-05-13 吉林大学 基于局部邻域约束的空间验证的错误匹配检测方法
CN105025017A (zh) * 2015-07-03 2015-11-04 汉柏科技有限公司 基于防火墙的防挂马的方法及防火墙
CN105426480A (zh) * 2015-11-19 2016-03-23 中国地质大学(武汉) 一种用于HTML转换为Word文档的方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134644A (zh) * 2019-05-17 2019-08-16 成都卫士通信息产业股份有限公司 文件类型识别方法、装置、电子设备及可读存储介质
CN111352912A (zh) * 2020-03-10 2020-06-30 Oppo广东移动通信有限公司 压缩文件处理方法、装置、存储介质、终端以及服务器
CN111352912B (zh) * 2020-03-10 2024-04-12 Oppo广东移动通信有限公司 压缩文件处理方法、装置、存储介质、终端以及服务器
CN111414339A (zh) * 2020-03-13 2020-07-14 浙江大华技术股份有限公司 一种文件的处理方法、系统、装置、设备及介质
CN111414339B (zh) * 2020-03-13 2023-04-25 浙江大华技术股份有限公司 一种文件的处理方法、系统、装置、设备及介质
CN113590557A (zh) * 2021-07-30 2021-11-02 北京明朝万达科技股份有限公司 文件识别方法、装置、存储介质及处理器

Similar Documents

Publication Publication Date Title
US11176317B2 (en) Automated file merging through content classification
CN108628751B (zh) 一种无用依赖项检测方法及装置
RU2420791C1 (ru) Метод отнесения ранее неизвестного файла к коллекции файлов в зависимости от степени схожести
CN107292171A (zh) 用于识别压缩文件子类型的方法、病毒检测方法及装置
CN108427731A (zh) 页面代码的处理方法、装置、终端设备及介质
CN112579623B (zh) 存储数据的方法、装置、存储介质及设备
CN113961768B (zh) 敏感词检测方法、装置、计算机设备和存储介质
CN110287696A (zh) 一种反弹shell进程的检测方法、装置和设备
CN111897828A (zh) 数据批处理实现方法、装置、设备及存储介质
CN111984666B (zh) 数据库访问方法、装置、计算机可读存储介质和计算机设备
CN108133026B (zh) 一种多数据的处理方法、系统及存储介质
CN111290747B (zh) 一种创建函数钩子的方法、系统、设备及介质
EP3108400B1 (en) Virus signature matching method and apparatus
CN110069455A (zh) 一种文件合并方法及装置
CN116820962A (zh) 一种风险代码的检测方法及装置
CN110019295B (zh) 数据库检索方法、装置、系统以及存储介质
US9626371B2 (en) Attribute selectable file operation
CN112507108B (zh) 基于json规则文件的知识抽取方法、系统及规则解析引擎
JP2016045929A (ja) ファイルをスキャンするための方法及び装置
CN112765672A (zh) 一种恶意代码的检测方法、装置和计算机可读介质
CN111444144B (zh) 文件特征提取方法及装置
CN114329495A (zh) 基于内生安全的资产漏洞静态分析方法及装置
JP6934838B2 (ja) 構造化支援システム及び構造化支援方法
CN112181816A (zh) 一种基于场景的接口测试方法、装置、计算机设备及介质
CN111813843A (zh) 一种数据处理方法、装置及平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171024

RJ01 Rejection of invention patent application after publication