CN102045268A - 一种电子邮件数据恢复方法及装置 - Google Patents

一种电子邮件数据恢复方法及装置 Download PDF

Info

Publication number
CN102045268A
CN102045268A CN2010105567513A CN201010556751A CN102045268A CN 102045268 A CN102045268 A CN 102045268A CN 2010105567513 A CN2010105567513 A CN 2010105567513A CN 201010556751 A CN201010556751 A CN 201010556751A CN 102045268 A CN102045268 A CN 102045268A
Authority
CN
China
Prior art keywords
mail
information
data
coding
email attachment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010105567513A
Other languages
English (en)
Other versions
CN102045268B (zh
Inventor
徐志强
张雪峰
吴世雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN201010556751.3A priority Critical patent/CN102045268B/zh
Publication of CN102045268A publication Critical patent/CN102045268A/zh
Application granted granted Critical
Publication of CN102045268B publication Critical patent/CN102045268B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种电子邮件数据恢复方法,包括:加载邮件关键特征信息库,所述信息库包含了邮件结构体特征信息及邮件附件的文件头部特征信息;根据所述邮件关键特征信息库中的关键特征信息,对磁盘进行匹配扫描;如果在磁盘中发现和所述关键特征信息匹配的信息,记录其在磁盘中的存储位置偏移量;根据所述存储位置偏移量信息,定位到相应磁盘位置的数据,根据邮件结构体特征从所述数据中解析邮件编码后信息,并根据邮件编码特征对所述邮件编码后信息进行碎片重组。根据邮件编码特征对所述邮件编码后信息解码,输出邮件相关信息。

Description

一种电子邮件数据恢复方法及装置
技术领域
本发明涉及计算机取证领域,特别是涉及一种电子邮件数据恢复方法及装置。
背景技术
电子邮件是在20世纪70年代发明的,在80年代才得以兴起。70年代的沉寂主要是由于当时使用Arpanet网络的人太少,网络的速度也仅为目前56Kbps标准速度的二十分之一。受网络速度的限制,那时的用户只能发送些简短的信息,根本别想象现在那样发送大量照片;到80年代中期,个人电脑兴起,电子邮件开始在电脑迷以及大学生中广泛传播开来;从90年代中期起,互联网浏览器诞生,全球网民人数激增,电子邮件被广为使用。它已成为人类日常工作及情感交流的重要通讯工具。
随时互联网的普及,全球邮件服务器日益增多,采用的服务端软件种类繁多,有Sendmail、Qmail、IMail,微软Exchange Server、Lotus Notes等,各种邮件服务器之间通常采用了标准的邮件传输协议SMTP,邮件服务器之间电子邮件数据内容的传输早期采用RFC822报文协议,然而由于其局限性,现在逐步采用了多用途Internet报文扩展,即MIME(Multipurpose Internet Mail Extensions),MIME报文通常使用BASE64、Quoted-Printable来进行邮件内容的编码,以便能将非英文邮件正文及多媒体、图片等类型文件进行传输,通常附件均采用BASE64编码。
电子邮件可能存在于服务器的存储介质,也可能存在于普通用户的计算机中的磁盘。然而一旦电子邮件服务器数据遭受破坏(如服务器的磁盘阵列出现故障)或用户有意或无意地在电子邮件客户端(如Foxmail、Outlook Express)中删除了电子邮件,已删除的电子邮件数据,甚至是邮件正文片段、附件通常没有一种有效的数据恢复方法和工具。
现有电子邮件数据恢复技术主要存在如下不足:
一、针对电子邮件数据恢复的恢复软件缺乏,目前全球多种数据恢复软件(如Easy Recovery、FinalData)均无法恢复出电子邮件正文碎片内容或邮件附件。
二、数据恢复软件的恢复能力有限。在电子邮件结构体相对完整,有些软件(如WinHex、EnCase)可自定义文件签名,如邮件头中的特征关键特征信息“From:”来实现一定程度的邮件数据恢复,然而邮件通常没有相对固定的尾部特征,因此这种方式的邮件恢复只能根据设定的恢复数据的长度进行恢复,通常恢复出来的邮件内容不完整或多了较多其它不相关数据,因此其效果并不令人满意,需要较多的人工后续处理。
三、数据恢复存在一定的缺陷,通常不对不连续的电子邮件碎片数据进行分析处理。电子邮件在磁盘中存储往往不一定是连续存储的,那么这些碎片数据之间可能夹杂其它数据,需要进一步有效地分析和处理,去除不相关的数据。四是目前国内外尚未公开能针对已经残缺了邮件头及邮件正文,仅剩附件的电子邮件碎片数据进行自动智能恢复的方法或工具。
发明内容
本发明公开了一种电子邮件数据恢复方法,包括:
加载邮件关键特征信息库,所述信息库包含了邮件结构体特征信息及邮件附件的文件头部特征信息;
根据所述邮件关键特征信息库中的关键特征信息,对磁盘进行匹配扫描;
如果在磁盘中发现和所述关键特征信息匹配的信息,记录其在磁盘中的存储位置偏移量;
根据所述存储位置偏移量信息,定位到相应磁盘位置的数据,根据邮件结构体特征从所述数据中解析邮件编码后信息,并根据邮件编码特征对所述邮件编码后信息进行重组;
根据邮件编码特征对所述邮件编码后信息解码,输出邮件相关信息。
优选地,所述根据所述存储位置偏移量信息,定位到相应磁盘位置的数据,根据邮件结构体特征从所述数据中解析邮件编码后信息,并根据邮件编码特征对所述邮件编码后信息进行重组中,所述根据邮件结构体特征从所述数据中解析邮件编码后信息,具体为:根据邮件结构体编码特征,判断邮件结构体数据是否存在;如果邮件结构体存在,根据邮件结构体特征定位解析出邮件编码后信息,包括邮件头、邮件正文及附件编码后信息;根据邮件附件特征解析出邮件附件编码后信息。
优选地,如果不存在邮件结构体数据,判断是否存在邮件附件参考信息;如果存在邮件附件参考信息,根据邮件附件参考信息识别出附件类型,解析邮件附件的原始文件名。
优选地,所述如果存在邮件附件参考信息,根据邮件附件参考信息识别出附件类型,解析邮件附件的原始文件名,具体为:通过特征库中的关键特征信息定位文件头,并往后读取数据,搜索邮件关键特征;根据搜索到的关键特征判断出邮件编码方式和邮件附件编码后文件名;对附件文件名称进行解码,解码成可识别文字的文件名。
优选地,如果不存在邮件附件参考信息,查询特征库中邮件附件关键特征信息,直接对附件内容进行解码,根据附件关键特征信息类型定义自动存储为相应文件类型的扩展名。
优选地,所述根据所述存储位置偏移量信息,定位到相应磁盘位置的数据,根据邮件结构体特征从所述数据中解析邮件编码后信息,并根据邮件编码特征对所述邮件编码后信息进行重组中,如果从所述数据中解析邮件编码后信息不连续,还对所述信息进行去杂处理。
本发明还公开了一种电子邮件数据恢复装置,包括:
特征库管理模块,用于管理该装置所需的邮件关键特征库信息;所述
关键特征信息主要包括邮件结构体特征信息及各类型的邮件附件的文件头部特征信息;
扫描处理模块,与所述特征库管理模块相连,主要包括自动扫描单元和位置偏移量存储单元;自动扫描单元用于根据特征库管理模块中的关键特征信息,对存储介质区域进行自动匹配扫描,发现和关键特征信息匹配的信息后,通过所述位置偏移量存储单元记录其在磁盘中的存储位置偏移量信息;
分析处理模块,与所述扫描处理模块相连,用于根据存储位置偏移量,定位到邮件的相应磁盘位置的数据,根据邮件结构体特征从所述数据中解析邮件编码后信息,并根据邮件编码特征对不连续存储的邮件编码后信息进行重组和去杂质处理,形成连续的邮件正文编码后信息;
数据挖掘及编码转化模块,与所述分析处理模块相连,用于根据邮件编码特征对所述分析处理模块生成的邮件编码后信息进行解码,输出邮件内容或邮件附件内容等邮件相关信息。
优选地,所述分析处理模块包括定位解析单元、判断单元、去杂重组单元;
所述判断单元用于根据邮件结构体编码特征,判断邮件结构体数据和邮件附件参考信息是否存在;
所述定位解析单元与所述判断单元相连,用于当判断单元判断到邮件结构体存在时,根据邮件结构体特征定位解析出邮件的数据内容,包括邮件头、邮件正文及附件信息,并根据邮件附件特征解析出邮件附件编码后信息;还用于当判断单元判断到邮件附件参考信息存在时,根据邮件附件参考信息识别出附件类型,解析邮件附件的原始文件名;还用于当判断单元判断到不存在邮件附件参考信息存在时,查询特征库中邮件附件关键特征信息,直接对附件内容进行解码,根据附件关键特征信息类型定义自动存储为相应文件类型的扩展名;
所述去杂重组单元,与定位解析单元相连,用于定位解析单元遇到不连续存储的邮件信息碎片时,对不连续部分进行去杂处理,重组邮件信息碎片成连续的邮件编码后信息。
本发明的有益效果是,由于采用了特征库模块,大大提高了对电子邮件碎片数据的识别能力,最大程度地恢复残缺的电子邮件正文及附件,挖掘出更多的数据。其次分析处理模块根据电子邮件结构及编码的特点,可智能定位到文件残余部分,能有效智能截断尾部,消除了现有技术只能根据设定的大小进行截断导致的邮件内容或附件不完整,或多出大量无效数据的问题。此外,分析处理模块能根据邮件编码(BASE64、Quoted-Printable等编码)的特点进行对不连续存储的邮件附件进行重组,去除冗余或无效数据,然后通过数据挖掘及编码转化模块进行数据的解码并导出,可大大提高导出的邮件内容的有效性,无需进行额外的手工数据处理,大大降低了人力和时间投入。
附图说明
图1为本发明的一种电子邮件数据恢复方法示意图;
图2为本发明的一种电子邮件数据恢复方法中细化流程示意图;
图3为本发明中的附件编码内容前包含邮件的附件的信息存储结构图。
图4为本发明中的不连续的邮件碎片去杂前示意图;
图5为本发明中的不连续的邮件碎片去杂后示意图;
图6为本发明中的邮件关键特征信息库中邮件结构体特征示意图;
图7为本发明的一种电子邮件数据恢复装置结构图;
图8邮件编码(Base64、Quoted-Printable)特征示意图。
具体实施方式
本发明的目的在于克服现有技术之不足,提供一种电子邮件碎片数据恢复方法及装置,采用了自动扫描、自动分析判断、自动数据挖掘及编码解码等技术手段进行数据的恢复,整个恢复过程不依赖于操作人员的技术水平,具有自动化、智能化、简单易用高效等优点。
本发明第一个实施例提供了一种电子邮件碎片数据恢复方法,如图1所示,主要包括如下步骤:
步骤1,加载邮件关键特征信息库,该信息库包含了邮件结构体特征信息(参见图6)及各类型的邮件附件的文件头部特征信息(参见表1)。补充说明:
邮件结构体信息主要是邮件包含的常见关键词有:
●From:
●To:
●Subject:
●Date:
●Content-Type:
●Content-Transfer-Encoding:
●Content-Disposition:
●……
将待取证分析硬盘通过写保护设备(如只读锁或只读设备)与分析计算机相连接,选择要进行数据恢复的磁盘(即通过只读锁连接的带分析硬盘)。这里,采用写保护设备进行数据恢复,目的是为了防止对原有的磁盘造成进一步的数据破坏。
分析计算机把特征库加载到运行系统中。
步骤2,根据特征库中的关键特征信息,对指定磁盘区域进行匹配扫描。
本步骤中,遍历使用所有的关键特征信息(1,2,...n),然后根据用户的设置(全盘、指定分区、指定磁盘区域)对磁盘进行扫描。
步骤3,如果在磁盘发现和关键特征信息匹配的信息后,记录其在磁盘中的存储位置偏移量。
步骤4,根据存储位置偏移量信息,定位到邮件的相应磁盘位置的数据,根据邮件结构体特征(参见图6)从所述数据中解析邮件编码后信息(包含正文和附件),并根据邮件编码(主要包括BASE64、Quoted-Printable等)特征对不连续存储的邮件编码后信息(包含正文和附件)进行重组和去杂质处理,形成连续的邮件编码后信息(包括邮件正文和附件的编码后信息)。
本实施例步骤3处理后的结果即存储位置偏移量信息作为本步骤操作依据,根据该信息,找到邮件存储位置。
根据邮件结构体特征从所述数据中解析邮件编码后信息,具体流程如图2所示,包括如下步骤:
步骤401,根据邮件结构体编码特征,判断邮件结构体数据是否存在。
步骤402,如果邮件结构体存在,根据邮件结构体特征定位出邮件的数据内容,包括邮件头、邮件正文及附件信息。
本步骤中,邮件正文部分内容根据邮件结构体的关键特征信息进行分析,对使用BASE64编码的邮件附件进行去除杂质处理,将非BASE64字符去除,并做完整性校验,通常邮件在存储时每行为76个BASE64范围内的字符,以“=”符号作为结束符。
邮件正文分析及处理具体包括两种情况:
第一种情况,在邮件结构体中的关键特征信息特征定位到后,根据其特征进行分析,直至遇到超过1个扇区的数据(即512字节)中不包含邮件结构体的各个特征关键特征信息后,截断数据。
第二种情况,在缺失邮件结构体信息的情况下,只能定位到的数据起始位置是邮件附件头部,原有的邮件正文部分已经无法获得,那么直接把该位置作为邮件附件起始位置,并进行逐扇区分析,直至不包含连续BASE64字符的扇区,去除非BASE64字符后,并将该扇区作为附件尾部(注:扇区中连续的BASE64字符少于24个字符才认定为附件尾部,该长度为参考值,系统可以根据用户的需求进行设定)
邮件编码(BASE64、Quoted-Printable)特征说明
Base64编码特征:
电子邮件BASE64编码的原理是将数据流转化为用64个字符可表示的信息,64个字符分别为大小字母A-Z,小写字母a-z,数字0-9,还有“+”,“/”符号。因此在处理BASE64编码特征时,只要不在64个字符范围内,那么就不属于BASE64编码。具体表现形式可参见图8中红色框中的编码。
Quoted-Printable编码特征:
如邮件正文中包含中文字符,那么在经过Quoted-Printable编码转化后将可以看到大量以“=”符号起始的,后跟2个十六进制字符,如“=DE=E0=F1=B3”,具体表现形式可参见图8中蓝色框中的编码。
步骤403,根据邮件附件特征解析出邮件附件编码后信息。
步骤404,如果不存在邮件结构体数据,则判断是否存在邮件附件参考信息。
本步骤中,由于邮件数据已经残缺,不完整,因此无法定位到邮件结构体(邮件头,邮件正文),但仍残存邮件附件及部分附件描述信息(邮件附件参考信息)。遇到不连续存储的邮件附件碎片的处理方法,可继续执行步骤404的去杂方法。
信息4件附件特征解析出邮件附件名或文件类型对应的扩展名据的展示
步骤405,如果存在邮件附件参考信息,则根据邮件附件参考信息识别出附件类型,解析邮件附件的原始文件名,遇到不连续存储的邮件附件碎片的处理方法,可继续执行步骤404的去杂方法。
以下以电子邮件碎片附件为例,附件不采用Quoted-Printable编码,而是采用BASE64编码。根据邮件编码特征(参见图8及其补充说明),以及邮件结构体特征(如Content-Type,Content-Transfer-Encoding,Content-Disposition:attachment)对邮件碎片进行分析处理。
附件编码内容前包含邮件的附件参考信息的存储结构如图3所示,本步骤具体包括如下几个步骤:
步骤4051,通过特征库中的关键特征信息定位文件头,并往后读取数据,搜索邮件关键特征。
本步骤中,通过特征库中的关键特征信息定位到文件头(以0M8R4K为例)后,往前读取数行数据,搜索Content-Type(文件类型)、Content-Transfer-Encoding(数据采用的编码方式,通常邮件附件为BASE64)、Content-Disposition:attachment(说明以下编码是邮件的附件内容)等特征。
步骤4052,根据搜索到的关键特征判断出邮件编码方式和邮件附件文件名。
本步骤中,Content-Type、Content-Transfer-Encoding、Content-Disposition:attachment、filename后的内容为附件的名称,名称也采用BASE64编码。
步骤4053,对附件文件名称进行解码,解码成可识别文字。
本步骤中,如图3所示,附件文件名被翻译转化为“真的难吗.doc”。
步骤406、如果不存在邮件附件参考信息,查询特征库中邮件附件关键特征信息,直接对附件内容进行解码(BASE64编码还原),根据附件关键特征信息类型定义自动存储为相应文件类型的扩展名。
步骤407,根据邮件编码特征(BASE64、Quoted-Printable编码)对邮件头、邮件正文及附件编码后信息碎片进行重组和去杂处理。
本步骤中,去杂质处理具体方法为:通常较多软件在存储邮件附件都采用BASE64编码,由于附件较大,在恢复过程中经常碰到夹杂其他非BASE64编码的内容,因此需进行额外的编码去杂质处理,通常每行76个BASE64字符,通过去除杂质后,将两段不完整的BASE64数据进行拼合后,对数据长度进行计算,如果刚好等于76个字符,那么可以认定组合正确,如果出现长度不等于76字符,那么继续撤销拼合,继续后续的编码处理,最后导出数据时,增加一个标识,表明该数据不可能不完整,供分析人员查看。去杂前后的效果分别如图4和图5所示。
本步骤中,附件编码内容前未找到邮件的附件描述信息,则查询特征库中该附件头部特征关键特征信息对应的文件类型,直接根据规则命名文件名,并增加相应的文件扩展名。
因无任何参考信息,无法得知文件具体类型和文件名,所以通过查询特征库中该附件头部特征关键特征信息对应的文件类型,例如JPEG类型,RAR类型,Zip类型,然后直接根据规则命名文件名,并自动增加相应的文件扩展名。
步骤5,将步骤4处理后的结果进行统一处理,根据邮件编码特征对所述邮件正文及附件进行分别解码,输出邮件内容或邮件附件内容等邮件相关信息。相关信息可以导出,导出后的邮件附件可直接在Windows用相应的查看软件进行打开,邮件正文可用Word或写字板等打开。
本发明第二个实施例提供了一种电子邮件数据恢复装置,如图7所示,该装置包括如下几个组成部分:
特征库管理模块1,用于管理该装置所需的邮件关键特征库信息。关键特征信息主要包括邮件结构体特征信息(参见图6,红色划线部分属邮件结构体的特征)及各类型的邮件附件的文件
头部特征信息(参见表1)。该模块由邮件结构体特征信息存储单元和邮件附件文件头部特征信息存储单元构成。邮件附件文件头部特征信息存储单元用于存储邮件结构体特征信息,邮件附件文件头部特征信息存储单元用于存储邮件附件文件头部特征信息,这些信息标识各种邮件附件类型,如JPEG、Word、Excel、PowerPoint、PDF、RAR、Zip等类型的文件头部特征信息,参见表1。
表1邮件关键特征信息库中各类邮件附件类型的特征信息
  附件类型   原始文件头部特征信息   BASE64编码后的文件头部特征信息
  JPEG   \xFF\xD8\xFF\xE0   /9j/4AAQSkZJRgABA
  GIF   GIF87a或GIF89a   R0lGOD
  Zip   PK   UesDB
  DOC/XLS/PPT   略   略
  PDF   略   略
  RAR   略   略
  ……
扫描处理模块2,与特征库管理模块相连,主要包括自动扫描单元和位置偏移量存储单元,用于自动扫描单元用于根据特征库管理模块中的关键特征信息,对存储介质区域进行自动匹配扫描,发现和关键特征信息匹配的信息后,通过位置偏移量存储单元记录其在磁盘中的存储位置偏移量信息;
分析处理模块3,与扫描处理模块2相连,用于根据存储位置偏移量,定位到邮件的相应磁盘位置的数据,根据邮件结构体特征(参见图6)从所述数据中解析邮件编码后信息(包含正文和附件),并根据邮件编码(主要包括BASE64、Quoted-Printable等)特征对不连续存储的邮件编码后信息(包含正文和附件)进行重组和去杂质处理,形成连续的邮件正文编码后信息。
分析处理模块还包括定位解析单元、判断单元、去杂重组单元。判断单元用于根据邮件结构体编码特征,判断邮件结构体数据和邮件附件参考信息是否存在;定位解析单元与所述判断单元相连,用于当判断单元判断到邮件结构体存在时,根据邮件结构体特征定位解析出邮件的数据内容,包括邮件头、邮件正文及附件信息,并根据邮件附件特征解析出邮件附件编码后信息;还用于当判断单元判断到邮件附件参考信息存在时,根据邮件附件参考信息识别出附件类型,解析邮件附件的原始文件名;还用于当判断单元判断到不存在邮件附件参考信息存在时,查询特征库中邮件附件关键特征信息,直接对附件内容进行解码(BASE64编码还原),根据附件关键特征信息类型定义自动存储为相应文件类型的扩展名。
去杂重组单元,与定位解析单元相连,用于定位解析单元遇到不连续存储的邮件信息碎片时,对不连续部分进行去杂处理,重组邮件信息碎片成连续的邮件编码后信息。
数据挖掘及编码转化模块4,该模块与分析处理模块相连,根据邮件编码特征对所述分析处理模块生成的邮件编码后信息进行解码,输出邮件内容或邮件附件内容等邮件相关信息。
数据挖掘及编码转化模块分为解码还原单元和数据输出转化单元,解码还原单元根据邮件结构体特征及邮件编码特征进行解码,最后调用数据输出转化单元输出邮件内容及其附件内容相关信息,也可转化为直接用Office Word或记事本程序可直接查看的格式。
这里,从分析处理模块所提取的邮件正文编码信息,由于存储比较分散,往往是邮件的碎片信息,本模块实现了碎片信息整合,输出相对完整的邮件。
本发明的有益效果是,由于采用了特征库模块,大大提高了对电子邮件碎片数据的识别能力,最大程度地恢复残缺的电子邮件正文及附件,挖掘出更多的数据。其次分析处理模块根据电子邮件结构及编码的特点,可智能定位到文件残余部分,能有效智能截断尾部,消除了现有技术只能根据设定的大小进行截断导致的邮件内容或附件不完整,或多出大量无效数据的问题。此外,分析处理模块能根据邮件编码(BASE64、Quoted-Printable等编码)的特点进行对不连续存储的邮件附件进行重组,去除冗余或无效数据,然后通过数据挖掘及编码转化模块进行数据的解码并导出,可大大提高导出的邮件内容的有效性,无需进行额外的手工数据处理,大大降低了人力和时间投入,提升了数据恢复的效率,同时也降低了进行电子邮件碎片数据恢复的难度。
由于采用了自动扫描、分析、不连续邮件数据重组、自动解码等技术手段来进行数据恢复,使得整个恢复过程简单、易操作,结果不依赖于操作人员的技术水平,具有恢复全面识别有用电子邮件碎片信息的优点。将会大大缩短恢复电子邮件碎片数据的时间、提高恢复效率。
上述实施例仅用来进一步说明本发明的方法及其装置,但本发明并不局限于实施例,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均落入本发明技术方案的保护范围。

Claims (8)

1.一种电子邮件数据恢复方法,其特征在于,包括:
加载邮件关键特征信息库,所述信息库包含了邮件结构体特征信息及邮件附件的文件头部特征信息;
根据所述邮件关键特征信息库中的关键特征信息,对磁盘进行匹配扫描;
如果在磁盘中发现和所述关键特征信息匹配的信息,记录其在磁盘中的存储位置偏移量;
根据所述存储位置偏移量信息,定位到相应磁盘位置的数据,根据邮件结构体特征从所述数据中解析邮件编码后信息,并根据邮件编码特征对所述邮件编码后信息进行重组;
根据邮件编码特征对所述邮件编码后信息解码,输出邮件相关信息。
2.根据权利要求1所述的一种电子邮件数据恢复方法,其特征在于,所述根据所述存储位置偏移量信息,定位到相应磁盘位置的数据,根据邮件结构体特征从所述数据中解析邮件编码后信息,并根据邮件编码特征对所述邮件编码后信息进行碎片重组中,所述根据邮件结构体特征从所述数据中解析邮件编码后信息,具体为:
根据邮件结构体编码特征,判断邮件结构体数据是否存在;
如果邮件结构体存在,根据邮件结构体特征定位解析出邮件编码后信息,包括邮件头、邮件正文及附件编码后信息;
根据邮件附件特征解析出邮件附件编码后信息。
3.根据权利要求2所述的一种电子邮件数据恢复方法,其特征在于,如果不存在邮件结构体数据,判断是否存在邮件附件参考信息;
如果存在邮件附件参考信息,根据邮件附件参考信息识别出附件类型,解析邮件附件的原始文件名。
4.根据权利要求3所述的一种电子邮件数据恢复方法,其特征在于,所述如果存在邮件附件参考信息,根据邮件附件参考信息识别出附件类型,解析邮件附件的原始文件名,具体为:
通过特征库中的邮件结构体特征信息(Content-Disposition:,Content-Type:,Content-Transfer-Encoding:)定位到附件邮件参考信息,读取参考信息中的数据,搜索邮件关键特征;
根据搜索到的关键特征判断出邮件编码方式和邮件附件编码后文件名;
对附件文件名称进行解码,将邮件附件解码为可阅读的原始文件名。
5.根据权利要求3所述的一种电子邮件数据恢复方法,其特征在于,如果不存在邮件附件参考信息,则直接对附件内容进行解码,并查询特征库中各类邮件附件类型的特征信息,根据附件关键特征信息类型定义进行比对,然后将解码后的数据内容自动存储为相应文件类型的扩展名。(因无邮件附件参考信息数据,邮件附件的原始文件名无法恢复)
6.根据权利要求1-5所述的方法,其特征在于,所述根据所述存储位置偏移量信息,定位到相应磁盘位置的数据,根据邮件结构体特征从所述数据中解析邮件编码后信息,并根据邮件编码特征对所述邮件编码后信息进行重组中,如果从所述数据中解析邮件编码后信息不连续,还对所述信息进行去杂处理。
7.一种电子邮件数据恢复装置,其特征在于,包括:
特征库管理模块,用于管理该装置所需的邮件关键特征库信息;所述
关键特征信息主要包括邮件结构体特征信息及各类型的邮件附件的文件头部特征信息;
扫描处理模块,与所述特征库管理模块相连,主要包括自动扫描单元和位置偏移量存储单元;自动扫描单元用于根据特征库管理模块中的关键特征信息,对存储介质区域进行自动匹配扫描,发现和关键特征信息匹配的信息后,通过所述位置偏移量存储单元记录其在磁盘中的存储位置偏移量信息;
分析处理模块,与所述扫描处理模块相连,用于根据存储位置偏移量,定位到邮件的相应磁盘位置的数据,根据邮件结构体特征从所述数据中解析邮件编码后信息,并根据邮件编码特征对不连续存储的邮件编码后信息进行重组和去杂质处理,形成连续的邮件正文编码后信息;
数据挖掘及编码转化模块,与所述分析处理模块相连,用于根据邮件编码特征对所述分析处理模块生成的邮件编码后信息进行解码,输出邮件内容或邮件附件内容等邮件相关信息。
8.根据权利要求7所述的一种电子邮件数据恢复装置,其特征在于,所述分析处理模块包括定位解析单元、判断单元、去杂重组单元;
所述判断单元用于根据邮件结构体编码特征,判断邮件结构体数据和邮件附件参考信息是否存在;
所述定位解析单元与所述判断单元相连,用于当判断单元判断到邮件结构体存在时,根据邮件结构体特征定位解析出邮件的数据内容,包括邮件头、邮件正文及附件信息,并根据邮件附件特征解析出邮件附件编码后信息;还用于当判断单元判断到邮件附件参考信息存在时,根据邮件附件参考信息识别出附件类型,解析邮件附件的原始文件名;还用于当判断单元判断到不存在邮件附件参考信息存在时,查询特征库中邮件附件关键特征信息,直接对附件内容进行解码,根据附件关键特征信息类型定义自动存储为相应文件类型的扩展名;
所述去杂重组单元,与定位解析单元相连,用于定位解析单元遇到不连续存储的邮件信息碎片时,对不连续部分进行去杂处理,重组邮件信息碎片成连续的邮件编码后信息。
CN201010556751.3A 2010-11-18 2010-11-18 一种电子邮件数据恢复方法及装置 Active CN102045268B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010556751.3A CN102045268B (zh) 2010-11-18 2010-11-18 一种电子邮件数据恢复方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010556751.3A CN102045268B (zh) 2010-11-18 2010-11-18 一种电子邮件数据恢复方法及装置

Publications (2)

Publication Number Publication Date
CN102045268A true CN102045268A (zh) 2011-05-04
CN102045268B CN102045268B (zh) 2015-12-16

Family

ID=43911065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010556751.3A Active CN102045268B (zh) 2010-11-18 2010-11-18 一种电子邮件数据恢复方法及装置

Country Status (1)

Country Link
CN (1) CN102045268B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077090A (zh) * 2012-12-28 2013-05-01 盘石软件(上海)有限公司 一种Outlook删除邮件的恢复方法
CN103645974A (zh) * 2013-12-31 2014-03-19 厦门市美亚柏科信息股份有限公司 一种pdf文件恢复方法及装置
CN104537523A (zh) * 2014-12-27 2015-04-22 宁波江东远通计算机有限公司 一种误删除邮件的找回方法、装置及系统
CN104935503A (zh) * 2015-06-17 2015-09-23 世纪龙信息网络有限责任公司 邮件保存方法和系统、邮件显示方法和系统
CN107786419A (zh) * 2016-08-26 2018-03-09 西安交大捷普网络科技有限公司 实现网页邮箱附件的附件还原方法
CN109347819A (zh) * 2018-10-12 2019-02-15 杭州安恒信息技术股份有限公司 一种病毒邮件检测方法、系统及电子设备和存储介质
CN109561131A (zh) * 2018-10-19 2019-04-02 深圳点猫科技有限公司 一种基于编程语言下载excel数据的方法及电子设备
CN115150348A (zh) * 2021-03-30 2022-10-04 奇安信科技集团股份有限公司 邮件附件还原方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04123548A (ja) * 1990-09-13 1992-04-23 Fujitsu Ltd 消去済メッセージの回復方式
KR20030052582A (ko) * 2001-12-21 2003-06-27 주식회사 파이널데이터 전자메일 메세지 복구 방법 및 이를 저장한 컴퓨터가 판독가능한 기록 매체
CN1466342A (zh) * 2002-07-02 2004-01-07 深圳市中兴通讯股份有限公司 一种在网关上还原电子邮件内容的方法
CN101257378A (zh) * 2008-04-09 2008-09-03 南京航空航天大学 防泄密邮件安全卡及其泄密邮件检测方法
CN101369276A (zh) * 2008-09-28 2009-02-18 杭州电子科技大学 一种Web浏览器缓存数据的取证方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04123548A (ja) * 1990-09-13 1992-04-23 Fujitsu Ltd 消去済メッセージの回復方式
KR20030052582A (ko) * 2001-12-21 2003-06-27 주식회사 파이널데이터 전자메일 메세지 복구 방법 및 이를 저장한 컴퓨터가 판독가능한 기록 매체
CN1466342A (zh) * 2002-07-02 2004-01-07 深圳市中兴通讯股份有限公司 一种在网关上还原电子邮件内容的方法
CN101257378A (zh) * 2008-04-09 2008-09-03 南京航空航天大学 防泄密邮件安全卡及其泄密邮件检测方法
CN101369276A (zh) * 2008-09-28 2009-02-18 杭州电子科技大学 一种Web浏览器缓存数据的取证方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘宏涛: "电子证据取证系统的分析与设计", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077090A (zh) * 2012-12-28 2013-05-01 盘石软件(上海)有限公司 一种Outlook删除邮件的恢复方法
CN103077090B (zh) * 2012-12-28 2016-03-23 盘石软件(上海)有限公司 一种Outlook删除邮件的恢复方法
CN103645974A (zh) * 2013-12-31 2014-03-19 厦门市美亚柏科信息股份有限公司 一种pdf文件恢复方法及装置
CN103645974B (zh) * 2013-12-31 2017-02-08 厦门市美亚柏科信息股份有限公司 一种pdf文件恢复方法及装置
CN104537523A (zh) * 2014-12-27 2015-04-22 宁波江东远通计算机有限公司 一种误删除邮件的找回方法、装置及系统
CN104935503A (zh) * 2015-06-17 2015-09-23 世纪龙信息网络有限责任公司 邮件保存方法和系统、邮件显示方法和系统
CN107786419A (zh) * 2016-08-26 2018-03-09 西安交大捷普网络科技有限公司 实现网页邮箱附件的附件还原方法
CN107786419B (zh) * 2016-08-26 2020-05-26 西安交大捷普网络科技有限公司 实现网页邮箱附件的附件还原方法
CN109347819A (zh) * 2018-10-12 2019-02-15 杭州安恒信息技术股份有限公司 一种病毒邮件检测方法、系统及电子设备和存储介质
CN109561131A (zh) * 2018-10-19 2019-04-02 深圳点猫科技有限公司 一种基于编程语言下载excel数据的方法及电子设备
CN115150348A (zh) * 2021-03-30 2022-10-04 奇安信科技集团股份有限公司 邮件附件还原方法及系统
CN115150348B (zh) * 2021-03-30 2024-05-03 奇安信科技集团股份有限公司 邮件附件还原方法及系统

Also Published As

Publication number Publication date
CN102045268B (zh) 2015-12-16

Similar Documents

Publication Publication Date Title
CN102045268B (zh) 一种电子邮件数据恢复方法及装置
GB2496120A (en) Analysis of emails using a hidden Markov model to recognize sections of the email, e.g. header, body, signature block and disclaimer
CN105704685B (zh) 一种短信安全处理方法及装置
CN104021217B (zh) 一种提取手机碎片文件和被删除文件的系统和方法
CN101763394A (zh) 计算机系统涉密文件搜索方法
CN108846098B (zh) 一种信息流摘要生成及展示方法
CN111666575B (zh) 基于词元编码的文本无载体信息隐藏方法
CN114172744B (zh) 一种用于多个服务器间的数据传输系统及数据传输方法
CN103490979A (zh) 电子邮件鉴定方法和系统
CN101572633B (zh) 网络取证方法及系统
CN111027081A (zh) 基于特征映射的文本无载体信息隐藏方法
CN112687272B (zh) 一种会议纪要的记录方法、装置及电子设备
CN113221020A (zh) 一种社交媒体平台虚假信息识别方法
US11755550B2 (en) System and method for fingerprinting-based conversation threading
CN111427917A (zh) 搜索数据处理方法及相关产品
CN108038124B (zh) 一种基于大数据的pdf文档采集处理方法、系统及装置
CN115774762A (zh) 即时通讯信息处理方法、装置、设备及存储介质
Majumder et al. A generalized model of text steganography by summary generation using frequency analysis
CN114003737A (zh) 基于人工智能的双录审查辅助方法、装置、设备及介质
CN107391695A (zh) 一种基于大数据的信息提取方法
CN113472686A (zh) 信息识别方法、装置、设备及存储介质
CN112115236A (zh) 烟草科技文献数据去重模型的构建方法及装置
CN112966282B (zh) 一种部件直方图的文本无载体隐写方法与装置
CN103001849B (zh) 反垃圾邮件处理系统及方法
CN101378336A (zh) 一种业务管理系统中批量文件的处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant