CN109446299A

CN109446299A - 基于事件识别的搜索电子邮件内容的方法及系统

Info

Publication number: CN109446299A
Application number: CN201810980147.XA
Authority: CN
Inventors: 卢志刚; 李宁; 杨波; 姜波
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2018-08-27
Filing date: 2018-08-27
Publication date: 2019-03-08
Anticipated expiration: 2038-08-27
Also published as: CN109446299B

Abstract

本发明涉及一种基于事件识别的搜索电子邮件内容的方法及系统。该方法包括：1)解析网络数据包，提取并存储所有smtp协议数据包，以msg格式存储每封邮件的内容；2)从存储的邮件内容中读取msg信息，按行输出到mbox格式文件；3)通过预先训练完成的基于卷积神经网络的分类器读取mbox格式文件中的邮件内容，将邮件内容按预定义事件类型进行分类，得到每封邮件中发生的事件。本发能够自动化完成对邮件内容按各事件类型进行标记，给出邮件中是否出现与案件相关事件的标记，方便调查人员快速掌握邮件中的信息，快速筛选出与案件密切相关的邮件，提高自动化程度。

Description

基于事件识别的搜索电子邮件内容的方法及系统

技术领域

本发明属于计算机网络取证领域，涉及一种信息检索技术，特别涉及一种基于事件识别的搜索电子邮件内容的方法及系统。

背景技术

移动通信技术、网络技术、信息技术的相互融合与交织发展，使得电子邮件在工作、生活中替代了传统书信成为了主要的书面通信载体。据统计平均一个企业员工每天四分之一的时间处理与邮件相关的业务，平均每天发信43封。在涉及电子邮件取证调查的案件中，待查的邮件数据规模通常使得调查工作面临资源(计算资源、人力资源)不足的困难，从而造成积压滞后，主要原因包括以下几点：

(1)相关取证工具对于文本内容搜索效率不高。当前工具主要依赖相对简单的哈希及检索算法限制了检查的效率。有限数量的关键词搜索(10-20个关键词)处理时间往往要耗费数天时间，重要证据常常被淹没在大量与案件相关度不高的命中结果中。

(2)调查人员有限的认知处理能力妨碍取证调查的结果。随着案件涉及待检查、待分析的文本数据规模的增加，调查人员无法实现对所有的关键字命中结果完成详细的分析。

(3)从海量数据中筛选信息从而推导得出结论的需求不仅只涉及数字取证研究领域。尽管其它领域已经广泛开展应用数据挖掘以及信息检索技术解决类似的问题，但是目前致力将这些技术应用到数字取证调查中来的研究数量不多，应用到电子邮件的取证调查的数量更少。

事件识别是事件提取的任务的重要组成部分。事件识别(Event Detection)指从文本内容中发现特定事件类型的实例。与每个事件描述相关联的是引发事件的短语、触发词(通常是动词或名词化结构)。因此可以更准确将事件识别任务描述为识别事件的触发词并将其分类到特定的类别。例如，在“The gunman fired three bullets at the police”句子中，事件识别系统需要能够将“fired”归类为攻击事件的触发词。事件识别需要解决两个主要问题：相同的事件可能会被不同的触发词所表示和一个表示在不同语境下代表不同的事件。

目前，事件识别可采用的技术包括以下几个方面：

(1)基于规则的方法。基于规则的系统通常采用正则表达式的形式制定规则，如果输入文本与某一规则匹配，则被归入相应的类。在自然语言处理中，应用基于规则的方法分词(tokenization)、提取词干(stemming)和词性标注(Part-of-Speech tagging)。基于规则的方法需要大量的人工干预，虽然仍具有一定的优势，例如：规则制定开发时间短，不依赖标注好的训练数据，但只适用于小规模新出现的应用领域等。

(2)监督学习。通过已有数据自动提取规则或应用统计方法预测，可采用支持向量机、逻辑回归等。

(3)混合方法。基于规则方法与机器学习方法结合，混合方法在自然语言处理的任务应用广泛，例如机器翻译、语法分析和信息抽取等。

(4)词向量(word embedding)。词向量是通过神经网络模型生成的词的低维实数向量表示，词向量中包含丰富的语义信息，在信息检索、机器翻译、语音识别等自然语言处理任务中发挥关键作用。

取证调查中，邮件中的文本内容是重要的证据来源。调查人员通过搜索邮件内容来寻找与调查事件相关的参与人、发生的事件、发生的时间等线索，需要详细了解邮件内容。目前多数调查通过关键字搜索结合人工处理的方式完成，由于关键字搜索获得大量与调查无关的命中结果所以检查效率不高，根据调查统计关键字搜索的技术水平在数字取证发展的最近三十年时间里没有显著的提高。因此，如何对海量的文本数据进行有效检查、减轻调查人员的工作负担已经成为亟待解决的关键问题。

发明内容

本发明提出一种有效快捷的基于事件识别的搜索电子邮件内容的方法及系统，通过识别邮件中的事件类别，高效搜索邮件内容。

本发明采用的技术方案如下：

一种基于事件识别的搜索电子邮件内容的方法，其步骤包括：

(1)解析网络数据包，提取并存储所有smtp协议数据包，以msg格式存储每封邮件的内容；

(2)从每个存储邮件内容的文件夹中读取msg信息，按行输出到一个mbox格式文件；

(3)通过预先训练完成的基于卷积神经网络的分类器读取mbox格式文件中的邮件内容，并将邮件内容按预定义事件类型进行分类，得到每封邮件中发生的事件。

进一步地，步骤(1)解析网络数据包得到的解析结果包含：邮件发信人、收信人、邮件内容及是否包含附件信息。

进一步地，步骤(1)对邮件内容进行哈希计算生成校验值，以保证邮件内容的完整性。

进一步地，步骤(3)中，所述预定义事件类型给出各事件类型触发词，以协助分类。

进一步地，步骤(3)所述按预定义事件类型进行分类包括：

3.1)设定事件类型触发词查找表；

3.2)将邮件内容的句子中的词与所述事件类型触发词查找表中的触发词进行余弦相似量平均加权计算，得到每个句子的词级特征向量；

3.3)将所述词级特征向量与根据句子抽取的句子级特征向量结合，构造最终的特征向量，用于最终分类。

进一步地，所述事件类型包括：会面事件、行程事件、联络事件、交易事件。

一种基于事件识别的搜索电子邮件内容的系统，其包括：

数据包解析模块，负责解析网络数据包，提取并存储所有smtp协议数据包，以msg格式存储每封邮件的内容；

msg信息读取模块，负责从存储的邮件内容中读取msg信息，按行输出到mbox格式文件；

分类模块，负责通过预先训练完成的基于卷积神经网络的分类器读取mbox格式文件中的邮件内容，将邮件内容按预定义事件类型进行分类，得到每封邮件中发生的事件。

进一步地，还包括分类器训练模块，负责训练所述基于卷积神经网络的分类器。

与现有技术相比，本发明的有益效果如下：

传统的搜索方法是在预先指定的邮件内容执行关键字搜索，关键字设置会出现大量与案件无关信息。本发明提出的方法能够自动化完成对邮件内容按各事件类型进行标记，给出邮件中是否出现与案件相关事件的标记，方便调查人员快速掌握邮件中的信息，快速筛选出与案件密切相关的邮件，提高自动化程度。

附图说明

图1为本发明方法的总体框架图。

图2为基于卷积神经网络的分类器的结构示意图。

图3为邮件提取结果示意图。

图4为邮件解析结果示意图。

图5为邮件内容中特定事件的识别情况示意图。

具体实施方式

下面通过具体实施例和附图，对本发明做进一步详细说明。

本发明的技术方法为，从网络流量解析提取smtp数据，将邮件内容按照msg格式保存，然后预处理邮件内容，提取每条邮件内容作为分类器的输入，输出结果为对每封邮件内容标记事件类别信息。

图1是本发明方法的总体框架图。该方法的步骤如下：

(1)分类器的构建，首先需要训练基于卷积神经网络的分类器的内部参数，以最优化分类结果。通过word2vec算法构造预处理词向量作为邮件内容中各个词的向量，经过后续的训练，逐渐更新词向量使词向量参数适合输出最优分类结果。

(2)根据标记好的语料进行分类训练，得到基于卷积神经网络的分类器的内部参数。该步骤构造卷积神经网络各个层所需的参数，如卷积核维度、权重维度等。

(3)解析网络数据包，提取并存储所有smtp协议数据包，以msg格式存储每封邮件内容。并将邮件内容进行哈希计算输出校验值，以保证数据内容完整性。

(4)从每个存储邮件内容的文件夹中读取msg信息，按行输出到一个mbox格式文件，进行分词、去除噪声等预处理之后，作为事件类型分类器的输入。

(5)通过步骤(1)、(2)得到的训练完成的基于卷积神经网络的分类器读取邮件内容，并将邮件内容按预定义事件类型分类，报告每封邮件中发生的事件。

下面结合Tensorflow实现分类器的构造，并以实例说明本发明方法的实施过程。

Tensorflow是一个开源的机器学习资源库，包括Tensorflow,Tensorboard，Tensorserving等。Tensorflow可以高效地应用python语言实习机器学习算法，基于卷积神经网络分类碎片算法过程分为Preprocess(预处理)、embedding(词向量表示)、convolution(卷积运算)、Maxpooling(池化运算)、output(输出结果)五个阶段。

图2是基于卷积神经网络的分类器的结构示意图。卷积神经网络的实现采用了卷积核与池化技术，其中卷积核中实现了抽取文本内容特征，池化允许用户降维提取的特征。图2中的全连接层作为模型的输出，得到最终结果。

卷积神经网络本身具有提取句子级别特征的机制，卷积神经网络会根据算法对文本内容实现分类功能。

本实施例中，通过对卷积神经网络进行修改，即在模型中加入事件类型触发词查找表，实现在词级别提取特征，与句子级别特征结合以提高分类效果。具体修改内容如下：

(1)根据调查案件类型，设计与案件相关事件类型，如表1所示：

表1.事件类型列表

将调查案件的事件类型分为：会面事件(meet)、行程事件(movement)、联络事件(correspondence)、交易事件(transaction)。并设定相关的事件类型触发词查找表。可以根据案件类型和训练集中的先验数据，如meet类型的met等一些典型词及其变形，来设定事件类型触发词查找表。

(2)将句子中的词与查找表中的触发词进行余弦相似量平均加权计算，得到每个句子的词级事件的特征向量，结果如表2所示，可以达到80％的分类准确率。

其中的余弦相似量平均加权计算，采用的计算公式如下，其中A_i表示句子中的词向量，B_i表示查找表中的触发词向量，n表示向量维度：

表2.结果列表

(3)将词级特征向量与句子抽取的特征向量结合，构造最终的特征向量(即两种向量拼接成一个最终的特征向量向量)，用于最终分类。

为了验证本发明方法的技术效果，本实验使用forensicscontest竞赛中提供的数据包进行验证。

首先，提取网络数据包中数据如图3所示，提取到SMTP数据并存储到相应文件夹。

其次，从所有文件夹中提取对应邮件内容到一个文件如图4所示，方便分类。

最后，实现对邮件内容的搜索以获得相应事件的类别，本实验从数据包中获得一封邮件内容，包括两个句子，将句子按事件类别：会面事件、行程事件、联络事件、交易事件，0、1、2、3类别标记输出。获得邮件内容的中包含会面事件、行程事件，结果如图5所示。

综上所述，传统的搜索方法是在预先指定的邮件内容执行关键字搜索，关键字设置会出现大量与案件无关信息。本实施例中所用方法能够自动化完成对邮件内容按各事件类型进行标记，给出邮件中是否出现与案件相关事件的标记，方便调查人员快速掌握邮件中的信息，快速筛选出与案件密切相关的邮件，提高自动化程度。

本发明另一实施例提供一种基于事件识别的搜索电子邮件内容的系统，其包括：

分类模块，负责通过预先训练完成的基于卷积神经网络的分类器读取mbox格式文件中的邮件内容，将邮件内容按预定义事件类型进行分类，得到每封邮件中发生的事件；

分类器训练模块，负责训练所述基于卷积神经网络的分类器。

本发明未详细阐述部分属于本领域公知技术。

以上所述，仅为本发明部分具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于事件识别的搜索电子邮件内容的方法，其特征在于，包括以下步骤：

1)解析网络数据包，提取并存储所有smtp协议数据包，以msg格式存储每封邮件的内容；

2)从存储的邮件内容中读取msg信息，按行输出到mbox格式文件；

3)通过预先训练完成的基于卷积神经网络的分类器读取mbox格式文件中的邮件内容，将邮件内容按预定义事件类型进行分类，得到每封邮件中发生的事件。

2.根据权利要求1所述的方法，其特征在于，步骤1)解析网络数据包得到的解析结果包含：邮件发信人、收信人、邮件内容及是否包含附件信息。

3.根据权利要求1所述的方法，其特征在于，步骤(1)对邮件内容进行哈希计算生成校验值，以保证邮件内容的完整性。

4.根据权利要求1所述的方法，其特征在于，步骤(2)在按行输出到mbox格式文件后，对msg信息进行预处理，然后作为所述分类器的输入；所述预处理包括分词、去除噪声。

5.根据权利要求1所述的方法，其特征在于，所述基于卷积神经网络的分类器通过word2vec算法构造预处理词向量作为邮件内容中各个词的向量，经过训练，逐渐更新词向量使词向量参数适合输出最优分类结果。

6.根据权利要求1所述的方法，其特征在于，根据标记好的语料进行分类训练，得到所述基于卷积神经网络的分类器的内部参数，所述内部参数包括卷积核维度、权重维度。

7.根据权利要求1所述的方法，其特征在于，步骤(3)所述按预定义事件类型进行分类包括：

3.1)设定事件类型触发词查找表；

8.根据权利要求7所述的方法，其特征在于，所述事件类型包括：会面事件、行程事件、联络事件、交易事件。

9.一种基于事件识别的搜索电子邮件内容的系统，其特征在于，包括：

10.根据权利要求9所述的系统，其特征在于，还包括分类器训练模块，负责训练所述基于卷积神经网络的分类器。