CN102053881A

CN102053881A - 一种基于内容的Zip文件雕复方法

Info

Publication number: CN102053881A
Application number: CN 201110002276
Authority: CN
Inventors: 徐�明; 卫英杰; 张海平; 徐建; 郑宁
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2011-01-07
Filing date: 2011-01-07
Publication date: 2011-05-11
Anticipated expiration: 2031-01-07
Also published as: CN102053881B

Abstract

本发明涉及一种基于内容的Zip文件雕复方法。目前的方法文件恢复效果不好。本发明方法首先获取需要恢复的磁盘分区数据，在磁盘分区上搜索Zip文件数据块并保存这些数据块的位置信息；其次排除非Zip数据块，对Zip数据块的关键信息进行存储并定位一个完整的Zip文件；然后对组成一个完整Zip文件的各个部分进行排序；最后输出一个Zip文件，结束雕复过程。本发明方法运行速度快，能在短时间内搜索出组成Zip文件的各个子部分。

Description

一种基于内容的Zip文件雕复方法

技术领域

本发明属于信息安全与计算机应用技术领域，涉及一种Zip文件恢复方法，特别是一种对磁盘中已经删除，相关文件系统元信息遭到破坏时的Zip文件恢复方法。

背景技术

随着计算机和网络技术的不断发展，计算机取证技术渐渐成为打击高科技犯罪的关键技术手段之一。打击计算机犯罪的关键是如何将犯罪者留在计算机中的“痕迹”作为有效的诉讼证据提供给法庭，以便将犯罪者绳之以法。此过程涉及的技术就是计算机取证技术。计算机取证学作为设计计算机、刑事侦查学和法学领域的交叉学科，受到了越来越多的关注。而数据恢复技术则是计算机取证中的核心技术之一。数据恢复技术主要依赖于文件系统元信息和特定的文件头（Header）、尾（Footer）结构技术。基于文件系统元信息和特定文件头尾结构的恢复技术往往只能恢复在磁盘上连续存放的文件。此外，当前数据恢复技术面临反计算机取证技术的考验越来越严峻。文件雕复就是针对这些情况而提出的一种数据恢复技术，它从表面上无结构的二进制数据流（即原始磁盘映像）中试图恢复、重构文件，而不依赖于源磁盘映像的文件系统；也即是说雕复是一个不依赖于文件系统分配信息的从磁盘映像中抽取出文件的过程。

目前，国内外在此领域的研究刚刚起步。国内还没有比较成熟的文件雕复软件，目前比较著名的文件雕复软件均为国外产品如Easy Recovery，Recover My Files等，这些商业软件虽然支持大量的不同种类文件，但是效果都不理想。具体表现为恢复的正确率低，产生大量的假肯定。Zip文件作为最常用的压缩文件之一，其优点主要在于：（1）普及率高，跨平台，不需要安装专门的解压工具就可以读取文件信息，大部分在Internet上共享的都是zip压缩文件。（2）压缩速度快，利于文件打包，不仅可以缩小原有文件体积便于携带，同时可以保证文件的安全性。

目前，zip文件雕复的基本技术依然是利用文件系统和文件类型的特有信息（File type-specific information）来恢复文件。文件类型最基本的特征的是Header和Footer，因此可以把这种基本技术称为Header-Footer Carving。Header指示文件的开始数据快，Footer表示文件的结束数据块，两者之间的数据即是该文件内容。基于Header-Footer的雕复技术,在处理Zip文件雕复问题时，仅能解决在磁盘上连续存放的情况，并且由于Zip文件的文件头和文件尾不容易精确定位，传统的Header-Footer Carving并不能得到很好的结果，目前用于学术研究的一些雕复工具如：Foremost，Scalpel，PhotoRec等在实际磁盘的测试中由于采用了类似的雕复技术，虽然在假肯定率上比商业软件有所降低，但由于只能恢复连续存放的文件，因此仍不能得到让人满意的效果。

发明内容

本发明的目的是在于克服现有技术中的不足，针对Zip文件结构的独特性，提供一种Zip文件雕复方法，特别是一种对磁盘中已经删除，相关文件系统元信息遭到破坏时的Zip文件恢复方法。能面向数据恢复和计算机勘查、侦破、取证工作的需要，对用户计算机中的Zip文件进行恢复，从而可以对Zip文件进行取证分析，寻找犯罪证据。

本发明的方法具体步骤如下：

步骤(1)根据用户输入信息定位到需进行文件雕复操作的磁盘分区，通过使用系统API函数获取磁盘分区的必要信息，所述的必要信息包括磁盘分区的大小、扇区数和簇数目；

步骤(2)利用Zip文件中对应于Zip File Header，Central Directory和End Central Directory的三个魔数特征字符串，对整个磁盘分区进行扫描，查找Zip文件中Zip File Header，Central Directory和End Central Directory在磁盘分区上的位置，并将这三类位置信息分别保存至数组A、数组B和数组C中；

步骤(3)对数组A和数组B中位置信息所对应的数据块进行预处理，具体是：通过每一数据块中文件名字段存放的文件名来排除非Zip数据块，并删除非Zip数据块在数组中的位置信息；

步骤(4)获取数组A中位置信息所对应的每一个数据块的位置信息及内容字段，将位置信息及内容字段作为一个节点插入至链表L _A；获取数组B中位置信息所对应的每一个数据块的位置信息及内容字段，将位置信息及内容字段作为一个节点插入至链表L _B；获取数组C中位置信息所对应的每一个数据块的位置信息及内容字段，将位置信息及内容字段作为一个节点插入至链表L _C；

步骤(5)定位一个完整的Zip文件，具体是：

5-1判断链表L _C是否为空，如果L _C非空，则获取链表L _C首节点信息后删除该节点，创建以该节点为首节点的待恢复Zip文件链表L _Z；如果L _C为空，则雕复过程结束；

5-2判断链表L _B是否为空，如果L _B非空，则在链表L _B中查找满足的Central Directory，如果在链表L _B中没有找到满足条件的Central Directory，则清空链表L _Z并转入步骤5-1；如果在链表L _B中找到满足条件的Central Directory，则将Central Directory插入至链表L _Z尾部，删除该Central Directory在链表L _B中对应的节点；如果L _B为空，则雕复过程结束；其中为对应的数据块在文件中的偏移量，为对应的数据块在磁盘分区中的偏移量，

为磁盘分区簇大小；

5-3判断链表L _A是否为空，如果L _A非空，则设置Zip File Header的标记位M为假，根据Central Directory在链表L _A中查找满足

的Zip File Header，如果L _A为空，则雕复过程结束；如果M为假且在链表L _A中没有找到满足条件的Zip File Header，则清空链表L _Z并转入步骤5-1；如果M为真且在链表L _A中没有找到满足条件的Zip File Header，则转入步骤(6)；如果在链表L _A中找到满足条件的Zip File Header，则将Zip File Header插入至链表L _Z尾部，删除该Zip File Header在链表L _A中对应的节点，设置M标记位为真，并重复执行步骤5-3；

步骤(6)对Zip文件链表L _Z进行排序，具体是将链表L _Z中各节点所对应的数据块在Zip文件中的偏移量大小按从小到大次序进行排序；

步骤(7)遍历链表L _Z，输出一个完整的zip文件，转入步骤(5)。

本发明根据Zip文件结构和内容的特有信息，对用户计算机磁盘进行搜索，尽可能多的恢复Zip文件。本发明从总体上提供了一种新型的Zip文件雕复解决方案，能够快速、高效，精确的恢复Zip文件。具体来说，实现了以下几个目标：

能够将磁盘中已删除，相应的文件系统元信息遭到破坏的Zip文件恢复出来；

能够恢复到目前为止的任意版本的Zip文件，不受各版本文件格式变化限制；

能够恢复部分高度分片的Zip文件；

能够有效的减少假肯定，恢复正确率较高。

具体的实施效果：(1)运行速度快，能在短时间内搜索出组成Zip文件的各个子部分；(2)能够精确匹配出属于同一个Zip文件的所有子部分；(3)程序对硬件要求低，系统资源占用少，使用方便。

附图说明

图1本发明的Zip文件预处理流程图；

图2本发明的Zip文件雕复流程图。

具体实施方式

以下结合附图对本发明作进一步描述。

图1给出的是zip文件雕复预处理流程图。从图中可以看出对zip文件雕复整个过程进行预处理包括以下几个步骤：

步骤(2)利用Zip文件中对应于Zip File Header，Central Directory和End Central Directory的三个魔数特征字符串，其中Zip File Header数据块的魔数特征字符串为“PK0x030x04”，Central Directory数据块的魔数特征字符串为“PK0x010x02”，End Central Directory数据块的魔数特征字符串为“PK0x050x06”，对整个磁盘分区进行扫描，查找Zip文件中Zip File Header，Central Directory和End Central Directory在磁盘分区上的位置，并将这三类位置信息分别保存至数组A、数组B和数组C中；

步骤(3)对数组A和数组B中位置信息所对应的数据块进行预处理，具体是：通过每一数据块中文件名字段存放的文件名来排除非Zip数据块，将文件名以.xml，.rels，/slides，drs/，theme，.class，.java，.jar结尾的数据块排除，并删除这些非Zip数据块在数组中的位置信息；

步骤(4)获取数组A中位置信息所对应的每一个数据块的位置信息及内容字段，将位置信息及内容字段作为一个节点插入至链表L _A，位置信息为Zip File Header在磁盘分区中的起始位置，内容信息包括文件名字段和Zip File Header和Data块的大小；获取数组B中位置信息所对应的每一个数据块的位置信息及内容字段，将位置信息及内容字段作为一个节点插入至链表L _B，位置信息为Central Directory在磁盘分区中的起始位置，内容信息包括文件名字段、对应Zip File Header的数据块大小、对应的Zip File Header的文件中的偏移量和Central Directory的大小；获取数组C中位置信息所对应的每一个数据块的位置信息及内容字段，将位置信息及内容字段作为一个节点插入至链表L _C，位置信息为End Central Directory在磁盘分区中的起始位置，内容信息包括Central Directory中CD File Header的数目、所对应的Central Directory的大小、对应的Central Directory在文件中的偏移量和End Central Directory的大小。

图2给出的是Zip文件雕复流程图。从图中可以看出对Zip文件雕复过程包括以下几个步骤：

步骤(1)定位一个完整的Zip文件，具体是：

1-1判断链表L _C是否为空，如果L _C非空，则获取链表L _C首节点信息后删除该节点，创建以该节点为首节点的待恢复Zip文件链表L _Z；如果L _C为空，则雕复过程结束；

1-2判断链表L _B是否为空，如果L _B非空，则在链表L _B中查找满足

的Central Directory，并验证Central Directory中的CD File Header数目及总大小是否和End Central Directory中存储的信息一致，如果在链表L _B中没有找到满足条件的Central Directory，则清空链表L _Z并转入步骤1-1；如果在链表L _B中找到满足条件的Central Directory，则将Central Directory插入至链表L _Z尾部，删除该Central Directory在链表L _B中对应的节点；如果L _B为空，则雕复过程结束；其中

为对应的数据块在文件中的偏移量，即Central Directory在文件中的偏移量，为对应的数据块在磁盘分区中的偏移量，即Central Directory在磁盘分区中的起始位置，

为磁盘分区簇大小；

1-3判断链表L _A是否为空，如果L _A非空，则设置Zip File Header的标记位M为假，根据Central Directory中的CD File Header在链表L _A中查找满足

的Zip File Header，并验证Zip File Header中的文件名字段是否和CD File Header中的文件名字段相同，如果L _A为空，则雕复过程结束；如果M为假且在链表L _A中没有找到满足条件的Zip File Header，则清空链表L _Z并转入步骤1-1；如果M为真且在链表L _A中没有找到满足条件的Zip File Header，则转入步骤(2)；如果在链表L _A中找到满足条件的Zip File Header，则将Zip File Header插入至链表L _Z尾部，删除该Zip File Header在链表L _A中对应的节点，设置M标记位为真，并重复执行步骤1-3；

步骤(2)对Zip文件链表L _Z进行排序，具体是将链表L _Z中各节点所对应的数据块在Zip文件中的偏移量大小按从小到大次序进行排序，具体是：将所有的Zip File Header移至链表前端，将Central Directory排在Zip File Header后，接着是End Central Directory，对Zip File Header，按其在文件中的偏移量大小从小到大排序；

步骤(3)遍历链表L _Z，根据链表中每一个节点存储的数据块的起始位置及大小信息，在磁盘上提取相应字节，在目标分区输出一个完整的Zip文件，转入步骤(1)。

Claims

1. 一种基于内容的Zip文件雕复方法，其特征在于该方法包括以下步骤：

步骤(5)定位一个完整的Zip文件，具体是：

5-2判断链表L _B是否为空，如果L _B非空，则在链表L _B中查找满足

Figure 201110002276X100001DEST_PATH_IMAGE002

的Central Directory，如果在链表L _B中没有找到满足条件的Central Directory，则清空链表L _Z并转入步骤5-1；如果在链表L _B中找到满足条件的Central Directory，则将Central Directory插入至链表L _Z尾部，删除该Central Directory在链表L _B中对应的节点；如果L _B为空，则雕复过程结束；其中

为对应的数据块在文件中的偏移量，

Figure 201110002276X100001DEST_PATH_IMAGE006

为对应的数据块在磁盘分区中的偏移量，为磁盘分区簇大小；

5-3判断链表L _A是否为空，如果L _A非空，则设置Zip File Header的标记位M为假，根据Central Directory在链表L _A中查找满足的Zip File Header，如果L _A为空，则雕复过程结束；如果M为假且在链表L _A中没有找到满足条件的Zip File Header，则清空链表L _Z并转入步骤5-1；如果M为真且在链表L _A中没有找到满足条件的Zip File Header，则转入步骤(6)；如果在链表L _A中找到满足条件的Zip File Header，则将Zip File Header插入至链表L _Z尾部，删除该Zip File Header在链表L _A中对应的节点，设置M标记位为真，并重复执行步骤5-3；

步骤(7)遍历链表L _Z，输出一个完整的Zip文件，转入步骤(5)。