CN103490979A - 电子邮件鉴定方法和系统 - Google Patents

电子邮件鉴定方法和系统 Download PDF

Info

Publication number
CN103490979A
CN103490979A CN201310394469.3A CN201310394469A CN103490979A CN 103490979 A CN103490979 A CN 103490979A CN 201310394469 A CN201310394469 A CN 201310394469A CN 103490979 A CN103490979 A CN 103490979A
Authority
CN
China
Prior art keywords
mail
storage medium
critical field
module
environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310394469.3A
Other languages
English (en)
Other versions
CN103490979B (zh
Inventor
许元进
许林锋
杨泉清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FUJIAN ETIM INFORMATION TECHNOLOGY Co Ltd
Original Assignee
FUJIAN ETIM INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FUJIAN ETIM INFORMATION TECHNOLOGY Co Ltd filed Critical FUJIAN ETIM INFORMATION TECHNOLOGY Co Ltd
Priority to CN201310394469.3A priority Critical patent/CN103490979B/zh
Publication of CN103490979A publication Critical patent/CN103490979A/zh
Application granted granted Critical
Publication of CN103490979B publication Critical patent/CN103490979B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种电子邮件鉴定方法和系统。其中,电子邮件鉴定方法包括如下步骤:在指定存储介质中,获取邮件并进行解析,在解析结果中提取邮件关键字段;将所述邮件的关键字段与学习库中预置的关键字段进行自动比对;基于邮件信息比对结果,获取鉴定结果。本发明实现了电子邮件鉴定的智能化,节省了大量人工提取分析所需的鉴定时间,并提高鉴定鉴定结果的准确性和可靠性。

Description

电子邮件鉴定方法和系统
技术领域
本发明涉及信息安全技术领域,尤其涉及一种电子邮件鉴定方法和系统。
背景技术
目前,计算机取证正处于蓬勃发展时期,但针对电子邮件的取证鉴定技术暂不成熟,尤其是电子邮件真实性鉴定技术更是如此。
例如,目前的取证系统可以提供扫描、查看、检索和分析功能,实现包括聊天记录、网页浏览记录、电子邮件的数据取证。但是,这些取证系统也仅仅能够做到“取证”,而对于取证获取的邮件信息对于邮件的鉴定并未涉及,即取证获得的邮件信息在证据固化前是否被嫌疑人篡改过就不得而知了。
一般而言,在电子邮件鉴定过程中,由于委托单位提交的硬盘中可能包括数量众多的邮件信息,而且每份邮件又存在大量的邮件头信息,如果仅靠人工进行信息提取分析,必须花费大量的时间精力,而且在疲劳状态下,容易遗漏一些关键信息。所以在电子邮件的鉴定过程中,特别希望有一些智能化的设备帮助提取关键字段分析比对,完成邮件鉴定。
发明内容
有鉴于此,本发明旨在提出一种电子邮件鉴定方法和系统,以使电子邮件鉴定实现智能化,节省大量人工提取和分析时间。
第一方面,本发明公开了一种电子邮件鉴定方法,包括如下步骤:邮件信息收集步骤,在指定存储介质中,获取邮件并进行解析,在解析结果中提取邮件关键字段;邮件信息比对步骤,将所述邮件的关键字段与预置的关键字段进行自动比对;鉴定步骤,基于邮件信息比对结果进行鉴定,获取鉴定结果。
进一步地,所述的电子邮件鉴定方法的所述邮件信息比对步骤中,所述预置的关键字段来源于学习库,所述学习库通过机器学习技术对各类邮件头信息进行智能识别,增加预存的邮件类和该类邮件对应的关键字段;所述鉴定步骤中,基于所述邮件信息比对结果和专家系统,获取所述鉴定结果。
进一步地,所述的电子邮件鉴定方法中,所述邮件信息收集步骤之前还设置有:邮件客户端扫描步骤,确定所述存储介质中是否存在客户端,并确定客户端的属性信息、安装信息以及该客户端针对邮件的存储路径。
进一步地,所述的电子邮件鉴定方法中,所述邮件客户端扫描步骤前还设置有:存储介质环境扫描步骤,对所述存储介质的环境进行扫描,提取硬盘环境的关键字段;所述电子邮件鉴定方法还包括:存储介质环境比对步骤,将所述存储介质环境的关键字段与学习库中对应的关键字段进行自动比对,判断所述存储介质是否具备篡改邮件的环境;所述鉴定步骤进一步为,基于邮件信息比对结果、存储介质环境比对结果,获取鉴定结果。
进一步地,所述的电子邮件鉴定方法中,所述存储介质环境扫描步骤之前还设置有:数据恢复步骤,对所述存储介质进行数据恢复,而且,所述的电子邮件鉴定方法中,所述鉴定步骤还包括:逻辑性检查步骤,对每一邮件的自身进行逻辑性的检查,所述的电子邮件鉴定方法中,所述数据恢复步骤中,还包括针对邮件的临时文件所进行的数据恢复。
本发明电子邮件鉴定方法可以自动提取给定存储介质中所有格式的邮件,并解析出邮件信息,并将邮件的关键字段与学习库中预置的关键字段进行自动比对;并基于比对结果获取鉴定结果。本发明实现了电子邮件鉴定的智能化,节省了大量人工提取分析所需的鉴定时间,并提高鉴定鉴定结果的准确性和可靠性。
第二方面,本发明还公开了一种电子邮件鉴定系统,包括:邮件信息收集模块、邮件信息比对模块和鉴定模块。其中,邮件信息收集模块用于在指定的存储介质中,获取邮件并进行解析,在解析结果中提取邮件关键字段;邮件信息比对模块用于将所述邮件的关键字段与学习库中预置的关键字段进行自动比对;鉴定模块用于基于邮件信息比对结果,获取鉴定结果。
进一步地,上述电子邮件鉴定系统的所述邮件信息比对模块中,所述学习库通过机器自动学习各类邮件信息,增加预存的邮件种类和该种类邮件对应的关键字段;所述鉴定模块用于进一步基于所述邮件信息比对结果和专家系统,获取所述鉴定结果。
进一步地,上述电子邮件鉴定系统中,所述邮件信息收集模块还连接有:邮件客户端扫描模块,用于确定所述存储介质中是否存在客户端,并确定客户端的属性信息、安装信息以及该客户端针对邮件的存储路径。
进一步地,上述电子邮件鉴定系统中,所述邮件客户端扫描模块还连接有存储介质环境扫描模块,用于对所述存储介质的环境进行扫描,提取硬盘环境的关键字段;所述电子邮件鉴定系统还包括存储介质环境比对模块,用于将所述存储介质环境的关键字段与学习库中对应的关键字段进行自动比对,判断所述存储介质是否具备篡改邮件的环境;所述鉴定模块进一步用于,基于邮件信息比对结果、存储介质环境比对结果,获取鉴定结果。
进一步地,上述电子邮件鉴定系统中,所述存储介质环境扫描模块还连接有数据恢复模块,用于对所述存储介质进行数据恢复,而且,上述电子邮件鉴定系统中,所述鉴定模块进一步还包括逻辑性检查单元,用于对每一邮件的自身进行逻辑性的检查,上述电子邮件鉴定系统中,所述数据恢复模块中还包括临时文件恢复单元,用于针对邮件的临时文件所进行的数据恢复。
本发明电子邮件鉴定系统可以自动提取给定存储介质中所有格式的邮件,并解析出邮件信息,并将邮件的关键字段与学习库中预置的关键字段进行自动比对;并基于比对结果获取鉴定结果。本发明实现了电子邮件鉴定的智能化,节省了大量人工提取分析所需的鉴定时间,并提高鉴定鉴定结果的准确性和可靠性。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明电子邮件鉴定方法第一实施例的步骤流程图;
图2为本发明电子邮件鉴定方法第二实施例的步骤流程图;
图3为本发明电子邮件鉴定方法第三实施例的步骤流程图;
图4A为本发明电子邮件鉴定系统第一实施例的结构框图;
图4B为本发明电子邮件鉴定系统第二实施例的结构框图;
图5为本发明电子邮件鉴定系统第三实施例的结构框图;
图6为本发明电子邮件鉴定系统第四实施例的结构框图;
图7为本发明电子邮件鉴定系统中,可能涉及的邮件信息收集原理图;
图8为本发明电子邮件鉴定系统中,邮件信息比对模块中,邮件头的基于学习库的的分类示意图;
图9为本发明电子邮件鉴定系统中,鉴定模块的工作原理示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
参照图1,图1为本发明电子邮件鉴定方法第一实施例的步骤流程图,包括如下步骤:
邮件信息收集步骤S110,在指定存储介质中,获取邮件并进行解析,在解析结果中提取邮件关键字段;
邮件信息比对步骤S120,将所述邮件的关键字段与预置的关键字段进行自动比对;
鉴定步骤S130,基于邮件信息比对结果进行鉴定,获取鉴定结果。其中的学习库包括基于经验数据获取的不同类型邮件的关键字段。
优选地,在执行邮件信息收集步骤S110前,可以先执行邮件客户端扫描步骤,确定给定的存储介质(如,计算机硬盘)中是否存在客户端,并确定客户端的属性信息、安装信息以及该客户端针对邮件的存储路径。
换句话说,就是在硬盘中扫描邮件客户端类型(foxmail、outlook等),查询版本信息,安装路径及安装时间,邮件保存路径及时间,附件保存路径及时间等。提取关键字段保存。例如,可以按照如下表1的形式进行保存。
表1
客户端类型 Xxx
安装时间 Xxx
安装路径 Xxx
下面,对邮件信息收集步骤S110作进一步地详细说明。
(1)采集邮件客户端软件的收件箱文件,解析收件箱文件,在解析结构中提取邮件关键字段,以待比对;如果有附件,则提取附件的文件名、创建时间、访问时间等;
(2)采集邮件客户端软件的垃圾箱文件,解析垃圾箱文件,在解析结果中提取邮件关键字段,以待比对;如果有附件,则提取附件的文件名、创建时间、访问时间等;
(3)采集回收站中的相关文件,解析这些文件,在解析结果中提取邮件关键字段,以待比对;如果有附件,则提取附件文件名、创建时间、访问时间等。
(4)数据恢复,结合数据恢复手段,恢复被直接删除的邮件文件(并非通过邮件客户端操作的删除),并解析邮件,在解析结果中提取关键字段,以待比对;如果有附件,则提取附件文件名、创建时间、访问时间等。
基于上述四个方面的解析,可以生成提取的邮件关键字段报表,如表2所示。
表2
Figure BDA0000376439560000061
本实施例电子邮件鉴定方法可以自动提取给定存储介质中所有格式的邮件,并解析出邮件信息,并将邮件的关键字段与学习库中预置的关键字段进行自动比对;并基于比对结果获取鉴定结果。本发明实现了电子邮件鉴定的智能化,节省了大量人工提取分析所需的鉴定时间,并提高鉴定鉴定结果的准确性和可靠性。
邮件头部信息(邮件头)是邮件的关键信息。目前,各种网页邮件(webmail)的应用已经越来越普及。邮件头部信息(邮件头)在点击发送过程中也将由运营商的邮件服务器进行添加。在人工比对邮件头的信息字段时,由于互联网中各邮件传送代理(MTA)信息或发件方的信息(比如:ip字段、邮件域名字段等)并非一成不变。所以在应用比对字段时,无法完全确定来源的准确性和唯一性,即无法形成结论完成确定的鉴定结果,这是鉴定领域的大忌。所以在引用比对信息时需要完全准确的信息来源。
因此,基于图1所示实施例进一步优化的实施方式是,邮件信息比对步骤S120中,学习库通过机器自动学习各类邮件头信息,增加预存的邮件类和该种类邮件对应的关键字段;鉴定步骤中,基于所述邮件信息比对结果和专家系统,获取所述鉴定结果。
下面,对该种实施方式做进一步的说明。
由于每个MTA(邮件传送代理)添加的邮件头部信息不一致,所以要分类提取不同的邮箱服务器的邮件头部信息。通过收集互联网上的各种邮件,收集方式可以是利用全国志愿者或有偿服务收集各类邮件,在电子邮件取证模型的基础上,通过证据数据对不同邮件客户端的软件行为、文件存储格式以及字段生成格式进行分类,结合各种客户端所特有的格式特征、以及个邮件运营商(如sina邮箱)的各种web端发送过程和邮件转发过程所特有的格式特征,提出针对不同邮件客户端、不同发送方式、不同转发方式,以邮件格式为基础的电子邮件自动鉴定方法和系统。
为进一步与邮件的发展技术同步,使得所获取的各种邮件特征不与现实世界脱轨,将电子邮件的取证技术与机器学习文本分类相关领域结合,研究通过机器自动手机学习邮件头部各种信息,并自动分类,归纳,总结。按照定义好的规则将邮件分类,并提取相关关键字段,形成学习库,用于后续比对待鉴定邮件使用。简单地说,学习库中所引用的比对信息来源于实际在互联网上发生的数据,保证了用于引用的数据的实时性和准确性。
其中的专家系统具有如下功能:
(1)定义一些规则,比如某类型的邮件中,如果通过正常手段收发邮件的情况下,不存在特定的编码字符,用来过滤某些非法邮件或垃圾邮件。
(2)定义一些邮件分类规则,定义提取关键字段分类,供邮件分类使用。收集邮箱反向解析结果,ip与邮箱dns匹配库。
(3)定义编码邮件的非法字符。
……
参照图2,图2为本发明电子邮件鉴定方法第二实施例的步骤流程图,包括如下步骤:
存储介质环境扫描步骤S210,对硬盘环境进行扫描,提取硬盘环境的关键字段;
邮件客户端扫描步骤S220,确定硬盘中是否存在客户端软件,并确定客户端的属性信息、安装信息以及该客户端针对邮件的存储路径;
邮件信息收集步骤S230,根据邮件客户端信息,获取邮件并进行解析,在解析结果中提取邮件关键字段;
邮件信息比对步骤S240A,将所述邮件的关键字段与预置的关键字段进行自动比对;
存储介质环境比对步骤S240B,将硬盘环境的关键字段与学习库中对应的关键字段进行自动比对,比对结果用于判断所述存储介质是否具备篡改邮件的环境;
鉴定步骤S250,基于邮件信息比对结果、存储介质环境比对结果,获取鉴定结果。
下面对该实施例中,存储介质环境扫描步骤S210、存储介质环境比对步骤S240B做进一步地说明。
主机系统状态包括(日志、注册表、操作系统等)、硬件参数(硬盘序列号、曾经的网卡Mac地址、网络通讯Ip地址)、软件安装信息等。这些环境参数信息真实反映了当时待检硬盘所处的状态,提高了电子数据客观性证明力,对司法鉴定提供丰富的依据。对硬盘扫描后,提取关键字段保存。如表3所示
表3
对象 字段值 时间
操作系统 Xxx Xxx
安装软件 Xxx Xxx
等等
获取关键字段后,存储介质环境比对步骤S240B,进行比对。
在鉴定步骤S250中,根据比对结果,判断是否安装了反取证软件或邮件篡改程序或二进制修改程序等,是否存在针对邮件进行篡改的临时文件等。例如,检查待检硬盘是否安装有类似UltraEdit-32、EditPlus、Base64等文档编辑修改工具软件,检查是否安装过如Base64编码反编码、Base64加解密等工具软件,以此判断硬盘环境是否具备对电子邮件内容进行解码编辑等篡改环境。通过对硬盘环境的鉴定,进一步提高邮件鉴定的准确性和可靠性。
参照图3,图3为本发明电子邮件鉴定方法第三实施例的步骤流程图
数据恢复步骤S310,对所述存储介质进行数据恢复;
存储介质环境扫描步骤S320,对硬盘环境进行扫描,提取硬盘环境的关键字段;
邮件客户端扫描步骤S330,确定硬盘中是否存在客户端软件,并确定客户端的属性信息、安装信息以及该客户端针对邮件的存储路径;
邮件信息收集步骤S340,根据邮件客户端信息,获取邮件并进行解析,在解析结果中提取邮件关键字段;
邮件信息比对步骤S350A,将所述邮件的关键字段与预置的关键字段进行自动比对;
存储介质环境比对步骤S350B,将硬盘环境的关键字段与学习库中对应的关键字段进行自动比对,比对结果用于判断所述存储介质是否具备篡改邮件的环境;
鉴定步骤S360,基于邮件信息比对结果、存储介质环境比对结果,获取鉴定结果。
相对于上述实施例,本实施例增加了数据恢复步骤S310。
对硬盘等存储介质进行深度数据恢复,将存储介质中一些被人为删除的信息得以还原,使磁盘恢复至一个比较完整的数据环境,可以充分发挥信息检索、分析、以及提取功能,从中获得更多有价值的磁盘操作日志和电子邮件的修改痕迹等信息。
对于上述三个实施例的进一步优化的实施方式是,上述三个实施例的鉴定步骤还可以包括逻辑性检查步骤,该步骤对每一邮件的自身进行逻辑性的检查。具体来说,包括检查时间间隔、检查时区、检查ip正确性,附件检查(如创建时间逻辑性)。例如:
(1)时间错误:通常情况下,一个邮件传递过程不会太长,假如这个邮件传递经过了几天甚至更长时间,那么就可能是被伪造的。再如,发件时间字段比收件的时间字段晚,也是错误的。
(2)时区出错:时区字段-0600(EST),这就是错误的,EST是在-0500
(3)IP地址错误:比如出现XXX.XXX.XXX.0这样的地址。
若出现上述类似的逻辑错误,则对鉴定邮件的真伪是有帮助的。
在上述多个实施例中,邮件信息比对步骤中,邮件头比对可以为:检查ip正确性、检查域名dns记录正确性、检查传输路径的合法性等,received字段等。
例如,可能出现的比对结果是:
(1)IP地址和主机名/域名不相符:通过比对知识库或对邮件服务器的域名进行反向地址查询,得到IP地址信息与域名不相符。在后续的鉴定步骤中,可能会认定为伪造。
(2)邮件处理软件字段错误:比对知识库,特定软件添加的或标识软件信息是否与知识库相应字段一致,如果不一致,系伪造。
更加优选地,在第三实施的数据恢复步骤中,还可以增加针对邮件的临时文件所进行的数据恢复的步骤。
很多情况下,无论通过什么方法对邮件经常篡改,在篡改的时候,都会产生临时文件,虽然在篡改后点击保存后,临时文件可能会被操作系统移除,但是在对整个硬盘进行数据恢复后,最后消失的临时文件还是可以被恢复出来。这一块很多情况下会被鉴定人员忽略,在本专利中专门加入临时文件检查模块,是检查鉴定的结果更接近事实真相。(所谓的临时文件,不一定就存在在邮件的安装目录内,因为我们未知篡改着是使用何种手段对邮件进行篡改,需要对整个待检硬盘的“temp”文件夹进行提取。定义关键字对这些“temp”进行检索,如有必要,进一步需要使用二进制字符对临时文件所在的磁盘区域进行检索。
综上,可以看出,在本发明电子邮件鉴定方法中,可以包括如下步骤:
1、待检存储介质进行全盘数据恢复,使待检硬盘能够为我们展现更多的线索。
2、对硬盘环境进行扫描,提取相关字段,待比对;
3、对邮件存储相关信息进行扫描,提取相关字段,待比对;
4、提取各邮件信息,包括邮件头,邮件附件等各属性,整理提取相关字段,待比对;
5、判读待检硬盘是否具备篡改邮件的环境
6、判断邮件自身包括附件的逻辑性及完整性
7、临时文件检查
8、生成鉴定报告及鉴定结论
其中的步骤1、2、5、6和7为可选。可以根据实际情况进行取舍。
从上述涉及的各个步骤中,可以看出,本发明具有如下特点:
1、邮件鉴定过程中结合临时文件恢复并检查:对邮件的鉴定,不仅仅基于邮件头部,而且基于临时文件。
2、邮件鉴定过程中结合附件的逻辑性检查:
如检查附件的创建时间是否比发件时间晚等,或附件的访问时间比创建的时间早等;
3、使用学习库,收集网络上的各种邮件属性:电子邮件的取证技术与机器学习文本分类相关领域结合,研究通过机器自动手机学习邮件头部各种信息,并自动分类,归纳,总结;
4、邮件鉴定过程中结合数据恢复技术
5、邮件鉴定过程中结合对硬盘环境检查,判断是否具备邮件的篡改环境。
本发明支持分析Foxmail、Outlook Express、Office Outlook等客户端邮件内容,并可恢复Foxmail、Outlook Express等被删除的邮件信息;此外,能自动提取磁盘中所有eml格式的邮件,并解析出邮件内容。相对于现有技术,具有如下优势:
时效性:节省大量人工提取分析时间;
完整性:各个相关属性都被放入系统中比对,防止漏掉对相关属性的比对;以及
有效性:结合数据恢复,环境扫描,临时文件分析,能够实现鉴定结论与事实真相一致。
另一方面,本发明还公开了电子邮件鉴定系统的实施例。
参照图4A,图4A为本发明电子邮件鉴定系统第一实施例的结构框图,包括:
邮件信息收集模块42,用于在指定存储介质中,获取邮件并进行解析,在解析结果中提取邮件关键字段;
邮件信息比对模块44,用于将所述邮件的关键字段与预置的关键字段进行自动比对;
鉴定步骤模块46,用于基于邮件信息比对结果进行鉴定,获取鉴定结果。其中的学习库包括基于经验数据获取的不同类型邮件的关键字段。
优选地,进一步优选的实施例参照图4B所示,在邮件信息收集模块42前,可以连接一个邮件客户端扫描模块40,用于确定给定的存储介质(如,计算机硬盘)中是否存在客户端,并确定客户端的属性信息、安装信息以及该客户端针对邮件的存储路径。
换句话说,这个邮件客户端扫描模块40的作用在于,在硬盘中扫描邮件客户端类型(foxmail、outlook等),查询版本信息,安装路径及安装时间,邮件保存路径及时间,附件保存路径及时间等信息,然后,提取关键字段保存。例如,可以按照如上表1的形式进行保存。
下面,对邮件信息收集模块42的功能作进一步地详细说明。
(1)采集邮件客户端软件的收件箱文件,解析收件箱文件,在解析结构中提取邮件关键字段,以待比对;如果有附件,则提取附件的文件名、创建时间、访问时间等;
(2)采集邮件客户端软件的垃圾箱文件,解析垃圾箱文件,在解析结果中提取邮件关键字段,以待比对;如果有附件,则提取附件的文件名、创建时间、访问时间等;
(3)采集回收站中的相关文件,解析这些文件,在解析结果中提取邮件关键字段,以待比对;如果有附件,则提取附件文件名、创建时间、访问时间等。
(4)数据恢复,结合数据恢复手段,恢复被直接删除的邮件文件(并非通过邮件客户端操作的删除),并解析邮件,在解析结果中提取关键字段,以待比对;如果有附件,则提取附件文件名、创建时间、访问时间等。
基于上述四个方面的解析,可以生成提取的邮件关键字段报表,如表2所示。
本实施例电子邮件鉴定系统可以自动提取给定存储介质中所有格式的邮件,并解析出邮件信息,并将邮件的关键字段与学习库中预置的关键字段进行自动比对;并基于比对结果获取鉴定结果。本发明实现了电子邮件鉴定的智能化,节省了大量人工提取分析所需的鉴定时间,并提高鉴定鉴定结果的准确性和可靠性。
邮件头部信息(邮件头)是邮件的关键信息。目前,各种网页邮件(webmail)的应用已经越来越普及。邮件头部信息(邮件头)在点击发送过程中也将由运营商的邮件服务器进行添加。在人工比对邮件头的信息字段时,由于互联网中各邮件传送代理(MTA)信息或发件方的信息(比如:ip字段、邮件域名字段等)并非一成不变。所以在应用比对字段时,无法完全确定来源的准确性和唯一性,即无法形成结论完成确定的鉴定结果,这是鉴定领域的大忌。所以在引用比对信息时需要完全准确的信息来源。
因此,基于图4A或4B所示实施例进一步优化的实施方式是,邮件信息比对模块中,学习库通过机器自动学习各类邮件头信息,增加预存的邮件类和该种类邮件对应的关键字段;鉴定模块进一步基于所述邮件信息比对结果和专家系统,获取所述鉴定结果。
下面,对该种实施方式做进一步的说明。
由于每个MTA(邮件传送代理)添加的邮件头部信息不一致,所以要分类提取不同的邮箱服务器的邮件头部信息。通过收集互联网上的各种邮件,收集方式可以是利用全国志愿者或有偿服务收集各类邮件,在电子邮件取证模型的基础上,通过证据数据对不同邮件客户端的软件行为、文件存储格式以及字段生成格式进行分类,结合各种客户端所特有的格式特征、以及个邮件运营商(如sina邮箱)的各种web端发送过程和邮件转发过程所特有的格式特征,提出针对不同邮件客户端、不同发送方式、不同转发方式,以邮件格式为基础的电子邮件自动鉴定方法和系统。
为进一步与邮件的发展技术同步,使得所获取的各种邮件特征不与现实世界脱轨,将电子邮件的取证技术与机器学习文本分类相关领域结合,研究通过机器自动手机学习邮件头部各种信息,并自动分类,归纳,总结。按照定义好的规则将邮件分类,并提取相关关键字段,形成学习库,用于后续比对待鉴定邮件使用。简单地说,学习库中所引用的比对信息来源于实际在互联网上发生的数据,保证了用于引用的数据的实时性和准确性。
其中的专家系统具有如下功能:
(1)定义一些规则,比如某类型的邮件中,如果通过正常手段收发邮件的情况下,不存在特定的编码字符,用来过滤某些非法邮件或垃圾邮件。
(2)定义一些邮件分类规则,定义提取关键字段分类,供邮件分类使用。收集邮箱反向解析结果,ip与邮箱dns匹配库。
(3)定义编码邮件的非法字符。等等
参照图5,图5为本发明电子邮件鉴定系统第三实施例的结构框图,包括:
存储介质环境扫描模块51,用于对硬盘环境进行扫描,提取硬盘环境的关键字段;
邮件客户端扫描模块52,用于确定硬盘中是否存在客户端软件,并确定客户端的属性信息、安装信息以及该客户端针对邮件的存储路径;
邮件信息收集模块53,用于根据邮件客户端信息,获取邮件并进行解析,在解析结果中提取邮件关键字段;
邮件信息比对模块54A,用于将所述邮件的关键字段与预置的关键字段进行自动比对;
存储介质环境比对模块54B,用于将硬盘环境的关键字段与学习库中对应的关键字段进行自动比对,比对结果用于判断所述存储介质是否具备篡改邮件的环境;
鉴定模块55,用于基于邮件信息比对结果、存储介质环境比对结果,获取鉴定结果。
下面对该实施例中,存储介质环境扫描模块51、存储介质环境比对模块54B做进一步地说明。
主机系统状态包括(日志、注册表、操作系统等)、硬件参数(硬盘序列号、曾经的网卡Mac地址、网络通讯Ip地址)、软件安装信息等。这些环境参数信息真实反映了当时待检硬盘所处的状态,提高了电子数据客观性证明力,对司法鉴定提供丰富的依据。对硬盘扫描后,提取关键字段保存。如表3所示。
获取关键字段后,通过存储介质环境比对模块54B进行比对。
鉴定模块55中用于根据比对结果,判断是否安装了反取证软件或邮件篡改程序或二进制修改程序等,是否存在针对邮件进行篡改的临时文件等。例如,检查待检硬盘是否安装有类似UltraEdit-32、EditPlus、Base64等文档编辑修改工具软件,检查是否安装过如Base64编码反编码、Base64加解密等工具软件,以此判断硬盘环境是否具备对电子邮件内容进行解码编辑等篡改环境。通过对硬盘环境的鉴定,进一步提高邮件鉴定的准确性和可靠性。
参照图6,图6为本发明电子邮件鉴定系统第四实施例结构框图。该电子邮件鉴定系统包括:
数据恢复模块61,对所述存储介质进行数据恢复;
存储介质环境扫描模块62,对硬盘环境进行扫描,提取硬盘环境的关键字段;
邮件客户端扫描模块63,确定硬盘中是否存在客户端软件,并确定客户端的属性信息、安装信息以及该客户端针对邮件的存储路径;
邮件信息收集模块64,根据邮件客户端信息,获取邮件并进行解析,在解析结果中提取邮件关键字段;
邮件信息比对模块65A,将所述邮件的关键字段与预置的关键字段进行自动比对;
存储介质环境比对模块65B,将硬盘环境的关键字段与学习库中对应的关键字段进行自动比对,比对结果用于判断所述存储介质是否具备篡改邮件的环境;
鉴定模块66,基于邮件信息比对结果、存储介质环境比对结果,获取鉴定结果。
相对于上述实施例,本实施例增加了数据恢复模块61。
加了数据恢复模块61基于如下考虑。对硬盘等存储介质进行深度数据恢复,将存储介质中一些被人为删除的信息得以还原,使磁盘恢复至一个比较完整的数据环境,可以充分发挥信息检索、分析、以及提取功能,从中获得更多有价值的磁盘操作日志和电子邮件的修改痕迹等信息。
对于上述实施例的进一步优化的实施方式是,上述实施例的鉴定模块还可以包括逻辑性检查单元,该单元用于对每一邮件的自身进行逻辑性的检查。具体来说,包括检查时间间隔、检查时区、检查ip正确性,附件检查(如创建时间逻辑性)。例如:
(1)时间错误:通常情况下,一个邮件传递过程不会太长,假如这个邮件传递经过了几天甚至更长时间,那么就可能是被伪造的。再如,发件时间字段比收件的时间字段晚,也是错误的。
(2)时区出错:时区字段-0600(EST),这就是错误的,EST是在-0500
(3)IP地址错误:比如出现XXX.XXX.XXX.0这样的地址。
若出现上述类似的逻辑错误,则对鉴定邮件的真伪是有帮助的。
在上述多个实施例中,邮件信息比对模块中,邮件头比对可以为:检查ip正确性、检查域名dns记录正确性、检查传输路径的合法性等,received字段等。
例如,可能出现的比对结果是:
(1)IP地址和主机名/域名不相符:通过比对知识库或对邮件服务器的域名进行反向地址查询,得到IP地址信息与域名不相符。在后续的鉴定步骤中,可能会认定为伪造。
(2)邮件处理软件字段错误:比对知识库,特定软件添加的或标识软件信息是否与知识库相应字段一致,如果不一致,系伪造。
更加优选地,在上述数据恢复模块中,还可以增加针对邮件的临时文件所进行的数据恢复单元。
针对邮件的临时文件所进行的数据恢复单元具有这样意义:很多情况下,无论通过什么方法对邮件经常篡改,在篡改的时候,都会产生临时文件,虽然在篡改后点击保存后,临时文件可能会被操作系统移除,但是在对整个硬盘进行数据恢复后,最后消失的临时文件还是可以被恢复出来。这一块很多情况下会被鉴定人员忽略,在本专利中专门加入临时文件检查模块,是检查鉴定的结果更接近事实真相。(所谓的临时文件,不一定就存在在邮件的安装目录内,因为我们未知篡改着是使用何种手段对邮件进行篡改,需要对整个待检硬盘的“temp”文件夹进行提取。定义关键字对这些“temp”进行检索,如有必要,进一步需要使用二进制字符对临时文件所在的磁盘区域进行检索。
参照图7、图8和图9。其中,图7为本发明电子邮件鉴定系统中,可能涉及的邮件信息收集原理图;图8为本发明电子邮件鉴定系统中,邮件信息比对模块中,邮件头的基于学习库的分类示意图;图9为本发明电子邮件鉴定系统中,鉴定模块的工作原理示意图。这三个图中所表示的信息在上文已经做了详细地说明。并且,电子邮件鉴定方法也提供了说明,在此不再赘述。
本发明电子邮件鉴定系统支持分析Foxmail、Outlook Express、OfficeOutlook等客户端邮件内容,并可恢复Foxmail、Outlook Express等被删除的邮件信息;此外,能自动提取磁盘中所有eml格式的邮件,并解析出邮件内容。相对于现有技术,具有如下优势:
第一、时效性:节省大量人工提取分析时间;
第二、完整性:各个相关属性都被放入系统中比对,防止漏掉对相关属性的比对;以及
第三、有效性:结合数据恢复,环境扫描,临时文件分析,能够实现鉴定结论与事实真相一致。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种电子邮件鉴定方法,其特征在于,包括如下步骤: 
邮件信息收集步骤,在指定存储介质中,获取邮件并进行解析,在解析结果中提取邮件关键字段; 
邮件信息比对步骤,将所述邮件的关键字段与预置的关键字段进行自动比对; 
鉴定步骤,基于邮件信息比对结果进行鉴定,获取鉴定结果。 
2.根据权利要求1所述的电子邮件鉴定方法,其特征在于, 
所述邮件信息比对步骤中,所述预置的关键字段来源于学习库,所述学习库通过机器学习技术对各类邮件头信息进行智能识别,增加预存的邮件类和该类邮件对应的关键字段; 
所述鉴定步骤中,基于所述邮件信息比对结果和专家系统,获取所述鉴定结果。 
3.根据权利要求2所述的电子邮件鉴定方法,其特征在于,所述邮件信息收集步骤之前还设置有: 
邮件客户端扫描步骤,确定所述存储介质中是否存在客户端,并确定客户端的属性信息、安装信息以及该客户端针对邮件的存储路径。 
4.根据权利要求3所述的电子邮件鉴定方法,其特征在于,所述邮件客户端扫描步骤前还设置有: 
存储介质环境扫描步骤,对所述存储介质的环境进行扫描,提取硬盘环境的关键字段; 
所述电子邮件鉴定方法还包括: 
存储介质环境比对步骤,将所述存储介质环境的关键字段与学习库中对应 的关键字段进行自动比对,比对结果用于判断所述存储介质是否具备篡改邮件的环境; 
所述鉴定步骤进一步为,基于邮件信息比对结果、存储介质环境比对结果,获取鉴定结果。 
5.根据权利要求4所述的电子邮件鉴定方法,其特征在于,所述存储介质环境扫描步骤之前还设置有: 
数据恢复步骤,对所述存储介质进行数据恢复, 
所述鉴定步骤还包括: 
逻辑性检查步骤,对每一邮件的自身进行逻辑性的检查, 
所述数据恢复步骤中,还包括针对邮件的临时文件所进行的数据恢复。 
6.一种电子邮件鉴定系统,其特征在于,包括: 
邮件信息收集模块,用于在指定存储介质中,获取邮件并进行解析,在解析结果中提取邮件关键字段; 
邮件信息比对模块,用于将所述邮件的关键字段与预置的关键字段进行自动比对; 
鉴定模块,用于基于邮件信息比对结果进行鉴定,获取鉴定结果。 
7.根据权利要求6所述的电子邮件鉴定系统,其特征在于, 
邮件信息比对模块中,所述预置的关键字段来源于学习库,所述学习库通过机器学习技术对各类邮件头信息进行智能识别,增加预存的邮件类和该类邮件对应的关键字段; 
所述鉴定模块进一步用于基于所述邮件信息比对结果和专家系统,获取所述鉴定结果。 
8.根据权利要求7所述的电子邮件鉴定系统,其特征在于,所述邮件信息 收集模块还连接有: 
邮件客户端扫描模块,用于确定所述存储介质中是否存在客户端,并确定客户端的属性信息、安装信息以及该客户端针对邮件的存储路径。 
9.根据权利要求8所述的电子邮件鉴定系统,其特征在于,所述邮件客户端扫描模块还连接有: 
存储介质环境扫描模块,用于对所述存储介质的环境进行扫描,提取硬盘环境的关键字段; 
所述电子邮件鉴定系统还包括: 
存储介质环境比对模块,用于将所述存储介质环境的关键字段与学习库中对应的关键字段进行自动比对,判断所述存储介质是否具备篡改邮件的环境; 
所述鉴定模块进一步用于,基于邮件信息比对结果、存储介质环境比对结果,获取鉴定结果。 
10.根据权利要求9所述的电子邮件鉴定系统,其特征在于,所述存储介质环境扫描模块还连接有: 
数据恢复模块,用于对所述存储介质进行数据恢复, 
所述鉴定模块进一步还包括: 
逻辑性检查单元,用于对每一邮件的自身进行逻辑性的检查, 
所述数据恢复模块中还包括: 
临时文件恢复单元,用于针对邮件的临时文件所进行的数据恢复。 
CN201310394469.3A 2013-09-03 2013-09-03 电子邮件鉴定方法和系统 Active CN103490979B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310394469.3A CN103490979B (zh) 2013-09-03 2013-09-03 电子邮件鉴定方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310394469.3A CN103490979B (zh) 2013-09-03 2013-09-03 电子邮件鉴定方法和系统

Publications (2)

Publication Number Publication Date
CN103490979A true CN103490979A (zh) 2014-01-01
CN103490979B CN103490979B (zh) 2016-09-14

Family

ID=49830950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310394469.3A Active CN103490979B (zh) 2013-09-03 2013-09-03 电子邮件鉴定方法和系统

Country Status (1)

Country Link
CN (1) CN103490979B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845913A (zh) * 2015-12-07 2017-06-13 四川效率源信息安全技术股份有限公司 outlook express收发痕迹的提取方法
WO2018102995A1 (zh) * 2016-12-06 2018-06-14 深圳市唯德科创信息有限公司 一种邮件的管理方法及系统
CN108809803A (zh) * 2018-04-18 2018-11-13 北京明朝万达科技股份有限公司 一种文件信息防泄密和溯源追踪的方法及系统
CN109787887A (zh) * 2019-01-25 2019-05-21 中国平安人寿保险股份有限公司 告警信息管理方法、装置、计算机装置及可读存储介质
CN110138723A (zh) * 2019-03-25 2019-08-16 中国科学院信息工程研究所 一种邮件网络中恶意社区的确定方法及系统
CN110837996A (zh) * 2018-08-16 2020-02-25 深圳市唯德科创信息有限公司 一种对邮件进行智能分析管理的方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1941746A (zh) * 2005-09-27 2007-04-04 腾讯科技(深圳)有限公司 一种反垃圾邮件的方法和系统
CN101068217A (zh) * 2006-06-16 2007-11-07 腾讯科技(深圳)有限公司 一种简化电子邮件操作的方法及装置
CN101079851A (zh) * 2007-07-09 2007-11-28 华为技术有限公司 邮件类型判断方法、装置及系统和行为模型建立装置
CN102024045A (zh) * 2010-12-14 2011-04-20 成都市华为赛门铁克科技有限公司 信息分类处理方法、装置和终端
CN103136266A (zh) * 2011-12-01 2013-06-05 中兴通讯股份有限公司 邮件分类的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1941746A (zh) * 2005-09-27 2007-04-04 腾讯科技(深圳)有限公司 一种反垃圾邮件的方法和系统
CN101068217A (zh) * 2006-06-16 2007-11-07 腾讯科技(深圳)有限公司 一种简化电子邮件操作的方法及装置
CN101079851A (zh) * 2007-07-09 2007-11-28 华为技术有限公司 邮件类型判断方法、装置及系统和行为模型建立装置
CN102024045A (zh) * 2010-12-14 2011-04-20 成都市华为赛门铁克科技有限公司 信息分类处理方法、装置和终端
CN103136266A (zh) * 2011-12-01 2013-06-05 中兴通讯股份有限公司 邮件分类的方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845913A (zh) * 2015-12-07 2017-06-13 四川效率源信息安全技术股份有限公司 outlook express收发痕迹的提取方法
WO2018102995A1 (zh) * 2016-12-06 2018-06-14 深圳市唯德科创信息有限公司 一种邮件的管理方法及系统
CN108809803A (zh) * 2018-04-18 2018-11-13 北京明朝万达科技股份有限公司 一种文件信息防泄密和溯源追踪的方法及系统
CN108809803B (zh) * 2018-04-18 2021-01-19 北京明朝万达科技股份有限公司 一种文件信息防泄密和溯源追踪的方法及系统
CN110837996A (zh) * 2018-08-16 2020-02-25 深圳市唯德科创信息有限公司 一种对邮件进行智能分析管理的方法及系统
CN109787887A (zh) * 2019-01-25 2019-05-21 中国平安人寿保险股份有限公司 告警信息管理方法、装置、计算机装置及可读存储介质
CN109787887B (zh) * 2019-01-25 2022-08-16 中国平安人寿保险股份有限公司 告警信息管理方法、装置、计算机装置及可读存储介质
CN110138723A (zh) * 2019-03-25 2019-08-16 中国科学院信息工程研究所 一种邮件网络中恶意社区的确定方法及系统
CN110138723B (zh) * 2019-03-25 2020-05-12 中国科学院信息工程研究所 一种邮件网络中恶意社区的确定方法及系统

Also Published As

Publication number Publication date
CN103490979B (zh) 2016-09-14

Similar Documents

Publication Publication Date Title
US11599400B2 (en) Segmenting machine data into events based on source signatures
CN103490979A (zh) 电子邮件鉴定方法和系统
CN110519150B (zh) 邮件检测方法、装置、设备、系统及计算机可读存储介质
US20060259551A1 (en) Detection of unsolicited electronic messages
US20030041126A1 (en) Parsing of nested internet electronic mail documents
CN104067567A (zh) 用于使用字符直方图进行垃圾邮件检测的系统和方法
CN112506865A (zh) 一种档案数字化管理系统及其方法
CN108600081A (zh) 一种邮件外发存档的方法及装置、邮件网关
CN104040963A (zh) 用于使用字符串的频谱进行垃圾邮件检测的系统和方法
CN112333185B (zh) 一种基于dns解析的域名阴影检测方法和装置
CN102045268A (zh) 一种电子邮件数据恢复方法及装置
CN104021217A (zh) 一种提取手机碎片文件和被删除文件的系统和方法
CN110020161B (zh) 数据处理方法、日志处理方法和终端
CN108683589A (zh) 垃圾邮件的检测方法、装置及电子设备
CN111831817B (zh) 问卷生成分析方法、装置、计算机设备及可读存储介质
CN109474611A (zh) 一种基于多因素的邮箱安全防护检测技术
CN109918638B (zh) 一种网络数据监测方法
CN110706003A (zh) 一种客户反馈工单生成的方法、装置、设备以及存储介质
CN103139043A (zh) 一种电子邮件真实性判断方法
CN105871701A (zh) 一种邮件处理方法和装置
CN112003884A (zh) 一种网络资产的采集和自然语言检索方法
CN114706948A (zh) 新闻处理方法、装置、存储介质以及电子设备
CN113098898A (zh) 一种业务数据监测预警平台及预警方法
CN113239126A (zh) 一种基于bor方法的业务活动信息标准化方案
CN116629804B (zh) 一种信访督查跟踪管理系统及管理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
PP01 Preservation of patent right

Effective date of registration: 20220816

Granted publication date: 20160914

PP01 Preservation of patent right