CN105718334B - 基于特征的多个文件提取方法 - Google Patents

基于特征的多个文件提取方法 Download PDF

Info

Publication number
CN105718334B
CN105718334B CN201610054198.0A CN201610054198A CN105718334B CN 105718334 B CN105718334 B CN 105718334B CN 201610054198 A CN201610054198 A CN 201610054198A CN 105718334 B CN105718334 B CN 105718334B
Authority
CN
China
Prior art keywords
data block
indication character
data
file
belonging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610054198.0A
Other languages
English (en)
Other versions
CN105718334A (zh
Inventor
邓强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Control Technology Co Ltd
Original Assignee
Sichuan Control Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Control Technology Co Ltd filed Critical Sichuan Control Technology Co Ltd
Priority to CN201610054198.0A priority Critical patent/CN105718334B/zh
Publication of CN105718334A publication Critical patent/CN105718334A/zh
Application granted granted Critical
Publication of CN105718334B publication Critical patent/CN105718334B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1435Saving, restoring, recovering or retrying at system level using file system or storage system metadata

Abstract

一种基于特征的多个文件提取方法,包括:在磁盘上定位违法操作遗留的痕迹特征所属的数据块;判断所述痕迹特征所属的数据块的相邻数据块是否属于磁盘空闲区域;在相邻数据块属于磁盘空闲区域时,判断相邻数据块与所述痕迹特征所属的数据块是否关联;在相邻数据块与所述痕迹特征所属的数据块关联时,根据特征标识对相邻数据块和所述痕迹特征所属的数据块进行分类;对属于同一类的数据块进行重组还原。本发明提供的基于特征的多个文件提取方法,不依赖于文件目录节点、文件头特征以及文件尾特征,实现快速、完整地提取记录犯罪分子在终端设备上进行过操作的多个文件。

Description

基于特征的多个文件提取方法
技术领域
本发明涉及终端设备安全技术领域,特别涉及一种基于特征的多个文件提取方法。
背景技术
随着计算机技术的普及与发展,利用终端设备进行违法犯罪的活动也越来越多。犯罪分子在PC、平板、手机以及移动互联设备等终端设备进行违法犯罪活动的同时,会在终端设备中留下大量的操作痕迹,这些操作痕迹都是以文件的形式存在。在终端设备进行违法犯罪活动后,犯罪分子会将记录他们在终端设备上进行过操作的文件删除,以达到掩盖犯罪事实的目的。然而,就算文件从终端设备中的磁盘上面删除,由于磁盘上多个位置存放相同文件内容的文件存储方式以及文件会进行缓存等原因,被删除的文件其目录结构可能已经丢失,但文件内容依然存在。通过提取这些记录犯罪分子在终端设备上进行过操作的文件,有助于执法部门快速破获针对终端设备的犯罪活动。
由于删除的文件其目录结构已经丢失,传统的根据目录节点进行文件提取已经做不到将目录结构丢失的文件恢复出来。现有技术中,还有一种方式是依赖文件头特征或者文件尾特征提取文件。这种方法只能针对文件头特征或者文件尾特征存在的文件,在找到文件头特征或者文件尾特征后进行文件提取。然而,终端设备中绝大多数文件是不存在文件头和文件尾的,例如文本文件。并且,终端设备中的大量文件是采取不连续存储方式,即便能够找到文件头特征和文件尾特征,依旧不能完全恢复文件内容,只能恢复包含文件头和文件尾的部分文件。进一步,采取文件头特征或者文件尾特征提取文件的方法,会提取出大量文件。在终端设备取证过程中,需要从这些提取出的文件中筛选出有用的文件,工作量会非常大。
在某些利用终端设备进行违法犯罪的活动过程中,例如木马操作控制,木马在终端设备上首次运行时,会释放部分文件,即木马不会是针对单个文件操作。在主程序释放的文件中可能包含某些犯罪分子的个人信息,有时在提取到主程序后,还需要对同一时刻释放的多个文件进行提取。上述传统的文件提取方式要么不能提取到完整的文件,要么提取到的文件没有关联性,无法将一组违法犯罪文件提取出来进行文件内容的关联分析。
发明内容
本发明所要解决的问题是提供一种基于特征的多个文件提取方法,通过文件特征进行磁盘中删除的多个文件提取,不依赖于文件目录节点、文件头特征以及文件尾特征,实现快速、完整地提取记录犯罪分子在终端设备上进行过操作的多个文件。
为解决上述问题,本发明提供一种基于特征的多个文件提取方法,包括:在磁盘上定位违法操作遗留的痕迹特征所属的数据块;判断所述痕迹特征所属的数据块的相邻数据块是否属于磁盘空闲区域;在相邻数据块属于磁盘空闲区域时,判断相邻数据块与所述痕迹特征所属的数据块是否关联;在相邻数据块与所述痕迹特征所属的数据块关联时,根据特征标识对相邻数据块和所述痕迹特征所属的数据块进行分类;对属于同一类的数据块进行重组还原。
本发明是基于文件特征进行磁盘中删除的多个文件提取,不同于传统的依赖文件目录节点进行文件提取和传统的依赖文件头特征或者文件尾特征进行文件提取,本发明技术方案是通过在磁盘上定位文件特征,即犯罪分子进行违法操作遗留的痕迹特征,然后以定位到的位置为基点,对相邻的前后数据块进行分析整理,再恢复出完整的文件数据。本发明技术方案解决了文件删除后目录节点不存在导致文件无法恢复的问题,也解决了依赖文件头特征或者文件尾特征扫描恢复文件数据不完整并且需要进行大量筛选工作的问题。
可选的,所述痕迹特征为执法部门提供的对违法操作能够定性的搜索关键字。
可选的,所述痕迹特征包括姓名、账号、地址、IP以及域名中的至少一种。
可选的,所述在磁盘上定位违法操作遗留的痕迹特征所属的数据块包括:对磁盘进行读操作以获得读取数据;对比所述读取数据与所述痕迹特征是否一致;在所述读取数据与所述痕迹特征一致时,所述读取数据所在的数据块即为所述痕迹特征所属的数据块。
可选的,所述判断相邻数据块与所述痕迹特征所属的数据块是否关联包括:判断相邻数据块的数据内容和格式与所述痕迹特征所属的数据块的数据内容和格式是否一致;在相邻数据块的数据内容和格式与所述痕迹特征所属的数据块的数据内容和格式一致时,相邻数据块与所述痕迹特征所属的数据块关联。
与现有技术相比,本发明具有以下优点:
本发明提供的基于特征的多个文件提取方法,在删除的文件其目录节点丢失的情况下,根据文件内容特征进行多个文件恢复提取,能够快速而精准地恢复出包含犯罪分子在终端设备进行违法犯罪操作遗留的痕迹的文件,不依赖文件目录节点、文件头特征以及文件尾特征,实现快速、完整地提取记录犯罪分子在终端设备上进行过操作的多个文件。
附图说明
图1是本发明实施例的基于特征的多个文件提取方法的流程示意图;
图2是本发明实施例的在磁盘上定位违法操作遗留的痕迹特征所属的数据块的流程示意图。
具体实施方式
下面结合实施例及附图,对本发明作进一步地的详细说明,但本发明的实施方式不限于此。
图1是本发明实施例的基于特征的多个文件提取方法的流程示意图,所述基于特征的多个文件提取方法包括:
步骤S11,在磁盘上定位违法操作遗留的痕迹特征所属的数据块。所述痕迹特征为执法部门(例如检察机关或者司法机关)提供的对违法操作能够定性的搜索关键字,可以为违法操作人员遗留的姓名、账号、地址、IP以及域名中的至少一种。例如,在某案件中调查到嫌疑人在某购物网站上购买了大量制作炸药的原材料,在这个过程中嫌疑人会在该购物网站上留下其收货姓名、注册账号、联系电话、收货地址、IP以及域名等信息,根据这些信息就可以在查获的嫌疑人的终端设备上进行搜索。具体地,图2是本发明实施例的在磁盘上定位违法操作遗留的痕迹特征所属的数据块的流程示意图,所述在磁盘上定位违法操作遗留的痕迹特征所属的数据块包括:
步骤S21,对磁盘进行读操作以获得读取数据。
步骤S22,对比所述读取数据与所述痕迹特征是否一致。具体地,将从磁盘读取到的数据进行搜索关键字的一一比对,判断所述读取数据和所述痕迹特征是否相同,若相同则所述读取数据与所述痕迹特征一致,若不同则所述读取数据与所述痕迹特征不一致。
在所述读取数据与所述痕迹特征一致时,执行步骤S23,所述读取数据所在的数据块即为所述痕迹特征所属的数据块。
步骤S12,判断所述痕迹特征所属的数据块的相邻数据块是否属于磁盘空闲区域。具体地,所述痕迹特征所属的数据块的相邻数据块为所述痕迹特征所属的数据块的前后数据块。本领域技术人员知晓,磁盘上的日志文件记录了磁盘各个区域所属文件的信息,因而根据磁盘上的日志文件可以判断所述痕迹特征所属的数据块的相邻数据块是属于磁盘空闲区域还是属于某一个文件。
在相邻数据块属于磁盘空闲区域时,执行步骤S13,判断相邻数据块与所述痕迹特征所属的数据块是否关联。具体地,将属于磁盘空闲区域的相邻数据块提取出来进行关联分析。所述判断相邻数据块与所述痕迹特征所属的数据块是否关联包括:
判断相邻数据块的数据内容和格式与所述痕迹特征所属的数据块的数据内容和格式是否一致。例如,可以判断相邻数据块和所述痕迹特征所属的数据块的数据是否都为可见字符编码,如果是,则可以认定相邻数据块的数据内容和格式与和所述痕迹特征所属的数据块的数据内容和格式一致。
在相邻数据块的数据内容和格式与所述痕迹特征所属的数据块的数据内容和格式一致时,确定相邻数据块与所述痕迹特征所属的数据块关联。
在相邻数据块与所述痕迹特征所属的数据块关联时,执行步骤S14,根据特征标识对相邻数据块和所述痕迹特征所属的数据块进行分类。具体地,本步骤是将特征标识相同的相邻数据块和所述痕迹特征所属的数据块划分为同一类数据块。例如,某一数据块中出现全是“hello nice to...”英文字母和空格,而在其它某数据块中同样发现全是英文字母和空格,这时可以将他们拼接在一起;又如,一张.bmp格式的图片数据,其数据内容和格式也是一样的,在磁盘的编码中基本数据“ff00ff ff00f...”,在下一数据块中同样找到这些数据的时候,可以认定特征标识一致,将其拼接在一起。
步骤S15,对属于同一类的数据块进行重组还原。具体地,重组还原是指将提取到的同一类碎片文件进行相似性整理,即再次进行二次关联分析,然后将同一类碎片文件拼接在一起,恢复出一个完整的文件,最终完成多个文件的提取。本领域技术人员知晓如何对多个数据块进行重组还原,在此不再赘述。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。

Claims (5)

1.一种基于特征的多个文件提取方法,其特征在于,包括:
在磁盘上定位违法操作遗留的痕迹特征所属的数据块;
判断所述痕迹特征所属的数据块的相邻数据块是否属于磁盘空闲区域;
在相邻数据块属于磁盘空闲区域时,判断相邻数据块与所述痕迹特征所属的数据块是否关联;
在相邻数据块与所述痕迹特征所属的数据块关联时,根据特征标识对相邻数据块和所述痕迹特征所属的数据块进行分类;
对属于同一类的数据块进行重组还原;
判断所述痕迹特征所属的数据块的相邻数据块是否属于磁盘空闲区域,具体包括:所述痕迹特征所属的数据块的相邻数据块为所述痕迹特征所属的数据块的前后数据块。
2.根据权利要求1所述的基于特征的多个文件提取方法,其特征在于,所述痕迹特征为执法部门提供的对违法操作能够定性的搜索关键字。
3.根据权利要求2所述的基于特征的多个文件提取方法,其特征在于,所述痕迹特征包括姓名、账号、地址、IP以及域名中的至少一种。
4.根据权利要求1所述的基于特征的多个文件提取方法,其特征在于,所述在磁盘上定位违法操作遗留的痕迹特征所属的数据块包括:
对磁盘进行读操作以获得读取数据;
对比所述读取数据与所述痕迹特征是否一致;
在所述读取数据与所述痕迹特征一致时,所述读取数据所在的数据块即为所述痕迹特征所属的数据块。
5.根据权利要求1所述的基于特征的多个文件提取方法,其特征在于,所述判断相邻数据块与所述痕迹特征所属的数据块是否关联包括:
判断相邻数据块的数据内容和格式与所述痕迹特征所属的数据块的数据内容和格式是否一致;
在相邻数据块的数据内容和格式与所述痕迹特征所属的数据块的数据内容和格式一致时,相邻数据块与所述痕迹特征所属的数据块关联。
CN201610054198.0A 2016-01-27 2016-01-27 基于特征的多个文件提取方法 Active CN105718334B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610054198.0A CN105718334B (zh) 2016-01-27 2016-01-27 基于特征的多个文件提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610054198.0A CN105718334B (zh) 2016-01-27 2016-01-27 基于特征的多个文件提取方法

Publications (2)

Publication Number Publication Date
CN105718334A CN105718334A (zh) 2016-06-29
CN105718334B true CN105718334B (zh) 2019-02-22

Family

ID=56154287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610054198.0A Active CN105718334B (zh) 2016-01-27 2016-01-27 基于特征的多个文件提取方法

Country Status (1)

Country Link
CN (1) CN105718334B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874953A (zh) * 2018-06-06 2018-11-23 中国刑事警察学院 一种Office文件内容增、删、改痕迹提取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7240236B2 (en) * 2004-03-23 2007-07-03 Archivas, Inc. Fixed content distributed data storage using permutation ring encoding
CN102682024A (zh) * 2011-03-11 2012-09-19 中国科学院高能物理研究所 未残缺jpeg文件碎片重组的方法
CN104035839A (zh) * 2014-06-12 2014-09-10 上海交通大学 Android系统隐私数据恢复实现方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7240236B2 (en) * 2004-03-23 2007-07-03 Archivas, Inc. Fixed content distributed data storage using permutation ring encoding
CN102682024A (zh) * 2011-03-11 2012-09-19 中国科学院高能物理研究所 未残缺jpeg文件碎片重组的方法
CN104035839A (zh) * 2014-06-12 2014-09-10 上海交通大学 Android系统隐私数据恢复实现方法

Also Published As

Publication number Publication date
CN105718334A (zh) 2016-06-29

Similar Documents

Publication Publication Date Title
CN104035839B (zh) Android系统隐私数据恢复实现方法
CN105956180B (zh) 一种敏感词过滤方法
CN103064764A (zh) 一种快速恢复安卓手机删除信息的取证方法
CN101763394B (zh) 计算机系统涉密文件搜索方法
KR100932537B1 (ko) 이미지 필터를 이용한 포렌식 증거 분석 시스템 및 방법
CN105740103B (zh) 一种基于日志的ntfs删除文件恢复方法和装置
CN104462433B (zh) 一种恢复fat32分区数据的方法
CN104021217B (zh) 一种提取手机碎片文件和被删除文件的系统和方法
CN113407886A (zh) 网络犯罪平台识别方法、系统、设备和计算机存储介质
CN104298766B (zh) 一种清除SQLite数据库中数据的方法
Du et al. Automated artefact relevancy determination from artefact metadata and associated timeline events
CN103177022A (zh) 一种恶意文件搜索方法及装置
Salamh et al. Asynchronous forensic investigative approach to recover deleted data from instant messaging applications
CN105718334B (zh) 基于特征的多个文件提取方法
Khan et al. Digital forensics and cyber forensics investigation: security challenges, limitations, open issues, and future direction
CN105022677B (zh) 一种usb设备使用记录恢复检查方法
CN106909542A (zh) 在终端设备上进行信息擦除的方法及装置
CN112990308A (zh) 一种对印刷内容进行监测的方法、装置及设备
CN106095808B (zh) 一种mdb文件碎片恢复的方法和装置
CN105718335B (zh) 基于特征的单个文件提取方法
Al-Sharif et al. Carving and clustering files in ram for memory forensics
Phan et al. A hybrid approach for multimedia use verification
CN111291535A (zh) 剧本处理方法、装置、电子设备及计算机可读存储介质
CN106126375B (zh) 一种基于Hash的YAFFS2文件各版本恢复方法
ALJAHDALI et al. Mobile device forensics.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 610000 Chengdu, Wuhou District, Sichuan, Wuhou New Town Management Committee, Golden Road No. 218, 1, 7 floor, 6

Applicant after: Sichuan Control Technology Co., Ltd.

Address before: 610000 Chengdu, Wuhou District, Sichuan, Wuhou New Town Management Committee, Golden Road No. 218, 1, 7 floor, 6

Applicant before: CHENGDU YUBEN TECHNOLOGYCO., LTD.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant