CN108319518A

CN108319518A - 基于循环神经网络的文件碎片分类方法及装置

Info

Publication number: CN108319518A
Application number: CN201711296147.XA
Authority: CN
Inventors: 胡罡; 吴鹏; 连礼泉; 杨欣欣; 蔚鹏志; 王金龙; 刘冲; 白楠; 李慧波
Original assignee: China Electronics Technology Group Corp CETC
Current assignee: China Electronics Technology Group Corp CETC
Priority date: 2017-12-08
Filing date: 2017-12-08
Publication date: 2018-07-24
Anticipated expiration: 2037-12-08
Also published as: CN108319518B

Abstract

本发明公开一种基于循环神经网络的文件碎片分类方法及装置，所述分类方法首先需要提取文件碎片中的文件内容；然后将提取的所述文件内容转换为十六进制的第一字符串序列；将这些字符串序列作为循环神经网络深度学习算法的输入信息；最后将所述第一字符串序列输入到预先构建的已训练的基于循环神经网络算法的分类模型中，利用所述分类模型对所述文件碎片类型进行判断。本发明通过基于循环神经网络分类算法对碎片的特征向量进行自动特征提取的学习过程实现了对文件碎片类别进行归类。

Description

基于循环神经网络的文件碎片分类方法及装置

技术领域

本发明属于计算机取证领域，具体涉及一种基于循环神经网络的文件碎片分类方法及装置。

背景技术

传统的数据恢复方法，主要依赖于文件系统的结构恢复被删除的数据，例如文件分配表内容。大多数文件系统在删除文件的过程不实际删除所在物理位置中的数据，只是标记该区域可以用于存储新的数据。删除结束后文件分配表中的文件条目以及删除文件与簇(即在存储介质中可寻址的最小存储单元)的链接信息依然存在，因此根据文件系统结构信息很容易恢复一个被删除的文件。除了解析处理磁盘上未分配空间的数据，通过访问文件系统结构还可以识别并快速提取所有未被删除的数据。

现有的数据恢复工具主要处理在介质上连续存储的文件数据。如何恢复碎片化的文件数据是目前数据恢复的一个难点。Garfinkel指出与取证案件相关的文件更倾向于以碎片化形式存在，并给出高达58％的Outlook电子邮件客户端数据是碎片化存储的统计数据。造成碎片化的主要原因包括以下几点：

1)磁盘介质长时间使用并随机增加、删除将无法连续存储完整的文件；

2)在现有文件附加数据，如果没有足够的未分配空间，文件系统将数据附加到其它位置；

3)文件系统不支持按某种长度连续存储文件，例如Unix文件系统。

当文件系统结构不存在、损坏以及被人为删除时，以上碎片化存储的文件将无法利用传统方法恢复。现有案例中，由于一些重要文件没有备份只能需要通过恢复技术来获得证据，因此碎片文件数据的恢复有助于案件的取证调查。基于文件雕刻(file carving)的技术是被认为是恢复碎片文件数据的有效解决方案。文件雕刻是一种基于文件内容恢复技术，与传统方法的区别是不依赖于指向文件内容的元数据。

此外文件雕刻技术还可用于恢复硬盘中未分配空间中的文件，未分配空间指的是不再保留任何文件系统结构中所示文件信息(例如文件分配表中的信息)的磁盘空间。在丢失、损坏文件系统结构时整个磁盘空间都是未分配空间，这种情况同样增加了取证调查的难度。

随着研究的深入，许多方法被引入到基于文件雕刻的数据恢复技术中。最早的实现是基于文件头/尾的雕刻方法，该方法根据基于文件签名的数据库识别已知文件类型的起点、终点，然后中间的连续介质存储空间进行恢复处理。该方法的局限性是未考虑文件数据碎片化存储的情况。在此基础上的改进包括：文件头/最大长度雕刻、基于文件结构雕刻、基于语义雕刻、碎片恢复雕刻等。

正确分类文件碎片类型对于成功雕刻文件碎片重要。然而文件碎片分类是复杂的任务，文件类型包含大量不同的类别：从简单的原始类别(primitive type)，例如一段ASCII码的text或JPEG文件；到复杂的包含其它类型文件的容器文件(例如Pdf文件)、存档文件(例如RAR、ZIP件)。分类检查的碎片数据包括：数据块，缺少魔数信息(例如文件签名)、文件扩展名、文件系统元数据、数据包头信息以及其它用于标识该类型文件特征的文件碎片。尽管现有商用软件(例如TrID)及开源工具(例如Unix file)根据签名及其它魔数信息能够有效对不明类型数据正确区分，但是在文件系统元数据信息丢失、损坏或位置不明时分类效果不好。

基于内容的分析方法通常用于元数据信息不可用的情况。主要的分析方法包括以下几种：

1)语义解析，分析方法主要根据自然语言结构、语义的形式表达及数据结构和逻辑顺序。由于这类结构和表示在某些类型的文件和数据流中比较罕见，因此语义解析在文件和数据类型分类中作用有限。

2)非语义解析，分析方法涉及搜索在特定文件和数据类型中比较常见的字符串，例如识别PDF文件类型可以利用搜索“obj/”、“stream”、“endstream”等字符串。非语义解析方法的问题是不是所有文件和数据类型带有典型的字符串，例如TXT文件。

3)机器学习，机器学习方法包括监督学习和非监督学习算法，通常采用基于统计的分类方法，因此可以有效地解决许多文件和数据类型的分类问题。

发明内容

本发明的目的是提供一种基于循环神经网络的文件碎片分类方法及装置，该分类方法能高效、准确的完成对文件碎片进行分类。

依据本发明的一个方面，提供一种基于循环神经网络的文件碎片类型分类方法，包括：

提取文件碎片中的文件内容；

将提取的所述文件内容转换为十六进制的第一字符串序列；

将所述第一字符串序列输入到预先构建的已训练的基于循环神经网络算法的分类模型中，利用所述分类模型对所述文件碎片类型进行判断。

可选地，本发明所述方法中，构建所述基于循环神经网络算法的分类模型，包括：

根据预设条件利用循环神经网络算法建立分类模型；

所述预设条件包括如下条件中的一个或多个：分类模型的配置选项，批量数据大小、训练数据位置、模型输入接口位置信息、输入的文件碎片位置信息、文件碎片大小信息、时序步长和SGD算法选择。

可选地，本发明所述方法中，所述基于循环神经网络算法的分类模型包括至少四层隐藏单元，其中前三层隐藏单元采用全连接神经网络单元。

可选地，本发明所述方法中，所述基于循环神经网络算法的分类模型包括多层隐藏单元，其中一层隐藏单元采用双向循环神经网络。

可选地，本发明所述方法中，所述预先构建的已训练的基于循环神经网络算法的分类模型在首次使用时需要训练分类模型中的各参数，包括：

采用已知文件类型特征的文件碎片对预先构建的基于循环神经网络算法的分类模型进行训练，获得所述分类模型中的各参数。

可选地，本发明所述方法中，所述方法还包括：将提取的所述文件内容转换为二进制的第二字符串序列，分别获取所述第一字符串序列和所述第二字符串序列的哈希校验值，若所述第一字符串序列的哈希校验值和所述第二字符串序列的哈希校验值不相同，重新提取文件碎片中的文件内容。

依据本发明的另一个方面，提供一种基于循环神经网络的文件碎片类型分类装置，包括信息采集模块、预处理模块和分类处理模块，

所述信息采集模块，用于提取文件碎片中的文件内容，

所述预处理模块，用于提取的将所述文件内容转换为十六进制的第一字符串序列；

所述分类处理模块，用于将预处理模块中的所述第一字符串序列输入到预先构建的基于循环神经网络算法的分类模型中，利用所述分类模型对所述文件碎片类型进行判断。

可选地，本发明所述装置还包括：分类模型构建模块，所述分类模型构建模块，用于根据预设条件利用循环神经网络算法建立分类模型；

可选地，本发明所述装置中，所述基于循环神经网络算法的分类模型包括至少四层隐藏单元，其中前三层隐藏单元采用全连接神经网络单元。

可选地，本发明所述装置中，所述预处理模块还包括：将提取的所述文件内容转换为二进制的第二字符串序列，分别获取所述第一字符串序列和所述第二字符串序列的哈希校验值，若所述第一字符串序列的哈希校验值和所述第二字符串序列的哈希校验值不相同，重新提取文件碎片中的文件内容。

与现有技术相比，本发明的有益效果如下：

本发明提供基于循环神经网络的文件碎片分类方法及装置，该分类方法利用预先构建的基于循环神经网络的深度学习算法的分类模型，自动从文件碎片内容中学习特征表示，分析碎片内容特点，将碎片文件归类到某个已知文件类型，实现对文件碎片的分类，减少了错误发生的概率、提高了检查的效率。

而现有的分类方法首先需要提取碎片中合适的特征用于分类算法的输入，通常提取ngram及一些复杂的字节频率测量分析方法；然后对输入特征集进行降维处理；最后根据设计的分类算法完成对碎片文件的分类。因此，相对于现有的分类方法，本发明省略了人工设计、降维特征的步骤，并且准确率更高。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明基于循环神经网络的文件碎片类型分类方法的流程图；

图2是本发明采用六层隐藏单元的框架图；

图3是本发明与其他分类方法相比较的对比图；

图4是本发明基于循环神经网络的文件碎片类型分类装置的原理框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术中的问题，本发明提供一种基于循环神经网络的文件碎片类型分类方法，如图1所示：

步骤S001：提取文件碎片中的文件内容；

步骤S002：将提取的所述文件内容转换为十六进制的第一字符串序列；将这些字符串序列作为循环神经网络深度学习算法的输入信息；

步骤S003：将所述第一字符串序列输入到预先构建的已训练的基于循环神经网络算法的分类模型中，利用所述分类模型对所述文件碎片类型进行判断。

可能地/可选地，本实施例，构建所述基于循环神经网络算法的分类模型，包括：

根据预设条件利用循环神经网络算法建立分类模型。

所述预设条件包括如下条件中的一个或多个：分类模型的配置选项，批量数据大小、训练数据位置、模型输入接口位置信息、输入的文件碎片位置信息、文件碎片大小信息、时序步长和SGD算法选择等。分类模型的配置文件中设置配置选项，所述配置选项包括模型参数，层数，向量维度等数据，以保证所述分类模型能够正常运行，并且能够准确的进行碎片文件的分类。所述批量数据大小包括批量数据每次训练的数量，如果超出设定数量会降低运算的速度。所述训练数据位置包括数据的开始，数据的中间和数据的结束三段。

所述基于循环神经网络算法的分类模型包括输入层、隐藏单元层、输出层，所述输入层是词向量层，将字符串序列的每一个字符与预先形成的字典索引相关联，预定义字典是一个随机初始化而成的低维的实数向量组，每一向量对应一个字符，从预定义字典中引用相应的字符表示，定义字符向量维度为d。在所述基于循环神经网络算法训练过程中将更新关联的字符向量使其具有一定的语义信息。神经网络算法的分类模型的核心是循环神经网络，用于训练学习碎片信息的特征。

可能地/可选地，所述基于循环神经网络算法的分类模型包括至少四层隐藏单元，其中前三层隐藏单元采用全连接神经网络单元，通过该三层隐藏单元有助于分类模型的并行化计算。

可能地/可选地，所述基于循环神经网络算法的分类模型包括多层隐藏单元，其中一层隐藏单元采用双向循环神经网络，是神经网络基本单元。

在本发明的一个可选实施例中，所述提取文件碎片中的文件内容之前，所述方法还包括：采用已知文件类型特征的文件碎片作为训练参数，对预先构建的基于循环神经网络算法的分类模型进行训练，获得所述分类模型中的各参数。所述已知文件类型特征的文件碎片采用已知具有典型的类型特征的文件碎片，根据文件碎片的元数据信息确定该类型特征。以便首次使用时训练分类模型中的各参数。

可能地/可选地，所述方法还包括：将提取的所述文件内容转换为二进制的第二字符串序列，分别获取所述第一字符串序列和所述第二字符串序列的哈希校验值，若所述第一字符串序列的哈希校验值和所述第二字符串序列的哈希校验值不相同，重新提取文件碎片中的文件内容。本实施例采用MD5算法获得第一、第二字符串序列的哈希校验值，通过对文件碎片内容进行解析，验证第一、第二字符串序列对应的文件碎片内容是否相同，若相同，二者的内容一致，实现对转换为十六进制字符串序列的文件内容进行验证，确保文件内容准确无误，从而提高了碎片文件分类的准确率。

本实施例将结合具体应用示例，对本实施例所述方法进行阐述，需要指出的是，本实施例中公开的大量技术细节用于解释本发明实施例，并不用于唯一限定本发明实施例。

本示例提出的基于循环神经网络算法的分类模型由一层输入层、六层隐藏单元、一层输出层构成，所述六层隐藏单元的框架如图2所示，其中第一层隐藏单元表示为h^(l),输入层x对应表示为h⁽⁰⁾。该分类模型中前三层隐藏单元采用全连接神经网络单元，通过引入该三层隐藏单元有助于模型的并行化计算。循环神经网络的深度学习过程与碎片文件的字符序列顺序无关。所述隐藏单元的公式如下所示：

其中h^(l)表示为第l层隐藏单元，h_t ^(l)表示第l层第t时刻的状态，g(z)为非线性激活函数ReLU，w^(l)，b^(l)分别为第l层的加权矩阵和偏置参数；

该分类模型中的第四层隐藏单元为一种双向循环神经网络，所述双向循环神经网络包含两组隐藏单元：其中一组向前循环h^(f)，一组向后循环h^(b)，

表示第t时刻从前向后学习词向量中的特征，表示第t时刻从后向前学习词向量中的特征；

所述隐藏单元的第四层将上述两个单元作为输入：

其中

所述输出层y采用标准的softmax函数，所述softmax函数公式如下：

X表示输入层x的向量，Y表示输出层y的向量，该分类模型结合开源库tensorflow实现分类算法，对分类的碎片文件进行分类预测。所述tensorflow是一个开源的机器学习资源库，包括tensorflow,tensorboard，tensorserving等，tensorboard为tensorflow中的可视化组件。tensorflow可以高效地应用python语言实习机器学习算法，实现本发明基于循环神经网络算法的文件碎片分类，本示例中各参数选取如下，非线性函数选择ReLU；Dropout为0.5，并仅应用dropout在前馈单元。

为了验证本发明方法的技术效果，本实施例使用同一批文件碎片，分别分类成不同大小的文件碎片，64，128，256，512，1024，2048，4096，并与不同的分类方法进行了对比，对比结果如图3所示，采用本发明基于循环神经网络的文件碎片类型分类方法对于不同大小的文件碎片的分类准确度均高于其他分类算法。

本发明通过循环神经网络自动提取文件碎片内容特征、分析碎片内容特点，从而将碎片文件归类到某个已知文件类型。

如图4所示，在本发明第二实施例中，本发明提供一种基于循环神经网络的文件碎片类型分类装置，包括信息采集模块1、预处理模块2和分类处理模块3，

所述信息采集模块1，用于提取文件碎片中的文件内容：

所述预处理模块2，用于提取的将所述文件内容转换为十六进制的第一字符串序列；

所述分类处理模块3，用于将预处理模块中的所述第一字符串序列输入到预先构建的基于循环神经网络算法的分类模型中，利用所述分类模型对所述文件碎片类型进行判断。

可能地/可选地，本发明所述装置还包括：分类模型构建模块，所述分类模型构建模块，用于根据预设条件利用循环神经网络算法建立分类模型。

可能地/可选地，所述所述基于循环神经网络算法的分类模型包括多层隐藏单元，其中一层隐藏单元采用双向循环神经网络。

在本发明的一个可选实施例中，所述预先构建的已训练的基于循环神经网络算法的分类模型在首次使用时需要训练分类模型中的各参数，包括：采用已知文件类型特征的文件碎片对预先构建的基于循环神经网络算法的分类模型进行训练，获得所述分类模型中的各参数。所述已知文件类型特征的文件碎片采用已知具有典型的类型特征的文件碎片，根据文件碎片的元数据信息确定该类型特征。

可能地/可选地，本发明所述装置中，所述预处理模块2还包括：将提取的所述文件内容转换为二进制的第二字符串序列，分别获取所述第一字符串序列和所述第二字符串序列的哈希校验值，若所述第一字符串序列的哈希校验值和所述第二字符串序列的哈希校验值不相同，重新提取文件碎片中的文件内容。实现对转换为十六进制字符串序列的文件内容进行验证，确保文件内容准确无误，从而提高分类的正确率。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于循环神经网络的文件碎片类型分类方法，其特征在于：

提取文件碎片中的文件内容；

将提取的所述文件内容转换为十六进制的第一字符串序列；

2.如权利要求1所述的方法，其特征在于：构建所述基于循环神经网络算法的分类模型，包括：

根据预设条件利用循环神经网络算法建立分类模型；

3.如权利要求1或2所述的方法，其特征在于：所述基于循环神经网络算法的分类模型包括至少四层隐藏单元，其中前三层隐藏单元采用全连接神经网络单元。

4.如权利要求1或2所述的方法，其特征在于：所述基于循环神经网络算法的分类模型包括多层隐藏单元，其中一层隐藏单元采用双向循环神经网络。

5.如权利要求1所述的方法，其特征在于：所述提取文件碎片中的文件内容之前，所述方法还包括：

采用已知文件类型特征的文件碎片作为训练参数，对预先构建的基于循环神经网络算法的分类模型进行训练，获得所述分类模型中的各参数。

6.如权利要求1或2或5所述的方法，其特征在于：所述方法还包括：将提取的所述文件内容转换为二进制的第二字符串序列，分别获取所述第一字符串序列和所述第二字符串序列的哈希校验值，若所述第一字符串序列的哈希校验值和所述第二字符串序列的哈希校验值不相同，重新提取文件碎片中的文件内容。

7.一种基于循环神经网络的文件碎片类型分类装置，其特征在于：包括信息采集模块、预处理模块和分类处理模块，

所述信息采集模块，用于提取文件碎片中的文件内容；

8.如权利要求7所述的装置，其特征在于：所述装置还包括：分类模型构建模块，

所述分类模型构建模块，用于根据预设条件利用循环神经网络算法建立分类模型；

9.如权利要求7或8所述的装置，其特征在于：所述基于循环神经网络算法的分类模型包括至少四层隐藏单元，其中前三层隐藏单元采用全连接神经网络单元。

10.如权利要求7或8所述的装置，其特征在于：所述预处理模块还包括：将提取的所述文件内容转换为二进制的第二字符串序列，分别获取所述第一字符串序列和所述第二字符串序列的哈希校验值，若所述第一字符串序列的哈希校验值和所述第二字符串序列的哈希校验值不相同，重新提取文件碎片中的文件内容。