CN111897668B

CN111897668B - 基于链表的文件并行拷贝方法、装置和计算机设备

Info

Publication number: CN111897668B
Application number: CN202011058761.4A
Authority: CN
Inventors: 丁兆锟; 谢波; 辛林; 田文郁; 史向东; 张静文; 王丹
Original assignee: NANJING TUOJIE INFORMATION TECHNOLOGY CO LTD
Current assignee: NANJING TUOJIE INFORMATION TECHNOLOGY CO LTD
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-08
Anticipated expiration: 2040-09-30
Also published as: CN111897668A

Abstract

本发明公开了一种基于链表的文件并行拷贝方法、装置和计算机设备，该方法包括：在目标存储介质中创建文件对象，在计算机内存中构建第一文件链表和第二文件链表，同时根据拷贝任务对计算机中的文件进行遍历查找；构建第一结构体，放入文件信息；将第一结构体放入第一文件链表中，循环遍历第一文件链表，读取所述文件信息；判断文件大小是否超过阈值，对数据流分块处理；构建第二结构体，将第二结构体和数据流放入第二文件链表中；依次将第二文件链表中文件信息和数据流写入文件对象，并关闭文件对象。本发明通过构建文件链表和结构体持续向取证设备写入数据流，从而减少文件拷贝时创建、关闭文件对象的次数，达到提高小文件批量拷贝速度的效果。

Description

基于链表的文件并行拷贝方法、装置和计算机设备

技术领域

本发明涉及计算机取证领域，尤其涉及一种基于链表的文件并行拷贝方法、装置和计算机设备。

背景技术

文件拷贝是计算机取证常用的方法之一，拷贝原理为：首先对计算机中的文件进行检索，打开文件句柄将数据读取到缓存中，再从缓存写入到取证设备中。

传统的文件拷贝方法在文件拷贝过程中，会使用链表实现不同存储路径文件的拷贝，减少文件复制粘贴的次数。具体做法为：将不同存储路径文件的地址信息记录到链表中，根据链表上的地址信息，将对应的文件同时写入到目标存储介质中，从而实现不同存储路径文件的同时拷贝。但是，这种方法在文件拷贝的过程中需要不断的创建和关闭文件对象，例如对N个文件进行拷贝，则需要创建和关闭N次文件对象，导致文件拷贝的速度很慢。

发明内容

本发明的目的在于提供一种基于链表的文件并行拷贝方法、装置和计算机设备，在计算机取证时，可显著提高大量小文件拷贝的速度。

实现本发明目的的技术方案为：一种基于链表的文件并行拷贝方法，所述方法包括：

步骤1、在目标存储介质中创建文件对象，在计算机内存中构建第一文件链表和第二文件链表，同时根据拷贝任务对计算机中的文件进行遍历查找；

步骤2、构建第一结构体，放入文件信息；

步骤3、将第一结构体放入第一文件链表中，循环遍历第一文件链表，读取所述文件信息；

步骤4、判断文件大小是否超过阈值，若是，执行步骤5；否则转至步骤6；

步骤5、对数据流分块处理；

步骤6、构建第二结构体，包含文件信息、文件分块情况、当前数据块序号、数据块大小、文件总大小；

步骤7、将第二结构体和数据流放入第二文件链表中；

步骤8、依次将第二文件链表中文件信息和数据流写入文件对象，并关闭文件对象。

一种基于链表的文件并行拷贝装置，包括：

文件对象创建模块，用于在取证设备中创建文件对象；

文件链表构建模块，用于在计算机内存中构建第一文件链表和第二文件链表，同时根据拷贝任务对计算机中的文件进行遍历查找；

第一结构体构建模块，用于放入文件信息；构建的第一结构体放入第一链表中，循环遍历第一文件链表，读取所述文件信息；

文件大小判断模块，用于判断文件大小是否超过阈值，若是，对数据流进行分块处理，然后转至第二结构体构建模块；若不超过阈值，则直接转至第二结构体构建模块；

第二结构体构建模块，用于放入文件信息、文件分块情况、当前数据块序号、数据块大小、文件总大小；

文件对象写入模块，依次将第二文件链表中文件信息和数据流写入文件对象，并关闭文件对象。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

与现有技术相比，本发明的有益效果为：（1）通过构建文件链表和结构体函数，持续向取证设备写入数据流，减少了文件拷贝时，创建、关闭文件对象的次数，提高了文件拷贝的效率，非常适用于大批量小文件的拷贝；（2）基于计算机取证的特殊需求，需要在短时间内拷贝大量文件，且优先拷贝敏感文件；本发明将多个小文件合并成一个大文件进行文件拷贝，拷贝效率会提高很多，但拷贝完之后大文件是不能直接查看的，需要释放文件之后才能查看，尽管不符合传统文件拷贝的需求，但在取证领域具有突出的效果；（3）本发明链表中记录了包括文件类型、文件名、文件大小、文件位置、创建时间、修改时间的文件信息；现有技术中链表仅记录文件地址等信息；本发明记录的文件信息用来还原文件的原始属性；（4）判断文件大小是否超过4MB，是为了平衡拷贝速度和拷贝的稳定性，从拷贝速度上来说，文件越大速度越快，但是占用内存越大，程序的运行内存有限，过大会导致程序崩溃。

附图说明

图1为本发明实施例提供的文件并行拷贝流程图。

图2为本发明实施例提供的链表1和链表2的构建和使用示意图。

具体实施方式

下面结合附图对本发明实施例中的技术方案做进一步详细说明。

本发明的一种基于链表的文件并行拷贝方法，包括以下步骤：

步骤2、构建第一结构体，放入文件信息；

步骤3、将第一结构体放入第一链表中，循环遍历第一文件链表，读取所述文件信息；

步骤4、判断文件大小是否超过阈值，若是，执行步骤5；否则执行步骤6；

步骤5、对数据流分块处理，

步骤7、将第二结构体和数据流放入第二链表中；

步骤8、依次将第二链表中文件信息和数据流写入文件对象，并关闭文件对象。

进一步的，所述的循环遍历第一文件链表，读取所述文件信息，具体为：

将待拷贝文件信息放入第一文件链表中，第一文件链表用于区分文件拷贝的优先级，根据不同的文件信息，分别将文件放入first、after和last链表中，然后按照first→after→last的顺序进行遍历，读取文件信息。

进一步的，根据取证的业务场景和用户需求，对不同类型的文件的优先级进行划分，优先级高的文件放到first链表中，然后是after和last链表。

进一步的，所述first、after和last链表为同类型链表。

进一步的，优先级的划分方法为：将计算机文件分类列出，让用户进行选择；用户勾选的文件类型为第一优先级，放入first中；文件夹拷贝是第二优先级放入after中，根据后缀名搜索的到的文件优先级最后，放入last中。

进一步的，所述文件信息包括文件类型、文件名、文件大小、文件位置、创建时间、修改时间。

进一步的，文件分块的大小为3~5MB。文件越小，处理速度越慢，文件越大处理速度越快，但占用内存大，程序容易崩溃。

本实施例中，优选的，根据文件信息判断文件大小是否超过4MB，若超过，则对文件相应的数据流进行分块处理，每块数据流最大长度为4MB。

进一步的，第一文件链表、第二文件链表由若干个节点组成的，通过指针和有效数据构成节点，指针区域用于指向链表的下一个节点从而构成链表。

本发明还提供一种基于流式输出的文件拷贝装置，包括：

文件对象创建模块，用于在取证设备中创建文件对象；

综上所述，本发明通过构建文件链表和结构体函数，在进行多个小文件批量拷贝时，只需创建一次文件对象即可持续不断地向取证设备写入数据，从而提高了小文件批量拷贝的效率。

下面结合实施例和附图对本发明进行详细说明。

实施例

图1为本发明实施例提供的一种文件并行拷贝方法的流程图，本实施例适用于将计算机中的小文件合并为大文件拷贝到目标存储介质，该方法具体包括如下步骤：

在目标存储介质创建文件对象，在计算机内存中创建文件链表1和链表2，链表1中包含first、after、last三个链表。写入的文件信息数量为多个，每个链表也包括多个文件信息，例如first包括文件信息1、文件信息2…文件信息N₁；链表1和链表2的结构如图2所示。对计算机中的文件进行遍历查找，将查找到的文件按照文件类型划分优先级，构建TO_BE_READ_FILE结构体，里面包含文件类型、文件名、文件大小、文件位置、创建时间、修改时间等信息。按照优先级顺序将TO_BE_READ_FILE结构体放入链表first、after、last中。对链表1进行循环遍历，读取文件信息，判断文件大小是否超过4M，如果超过4M则对文件进行分块处理。构建BLOCK_ENTRY结构体，里面包含从链表1中读取的文件信息、文件的分块情况、当前是第几块数据、数据块的大小和文件总大小。将BLOCK_ENTRY和数据流，放入链表2中，依次将链表2中文件信息和数据流写入文件对象，并关闭文件对象，完成多个文件的合并拷贝。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于链表的文件并行拷贝方法，其特征在于，所述方法包括：

步骤2、构建第一结构体，放入文件信息；

步骤3、将第一结构体放入第一文件链表中，循环遍历第一文件链表，读取所述文件信息；具体为：

将待拷贝文件信息放入第一文件链表中，第一文件链表用于区分文件拷贝的优先级，根据不同的文件信息，分别将文件放入first、after和last链表中，然后按照first→after→last的顺序进行遍历，读取文件信息；

步骤5、对数据流分块处理；

步骤7、将第二结构体和数据流放入第二文件链表中；

2.根据权利要求1所述的基于链表的文件并行拷贝方法，其特征在于，根据取证的业务场景和用户需求，对不同类型的文件的优先级进行划分，优先级高的文件放到first链表中，然后是after和last链表。

3.根据权利要求2所述的基于链表的文件并行拷贝方法，其特征在于，所述first、after和last链表为同类型链表。

4.根据权利要求1-3任一项所述的基于链表的文件并行拷贝方法，其特征在于，所述文件信息包括文件类型、文件名、文件大小、文件位置、创建时间、修改时间。

5.根据权利要求1所述的基于链表的文件并行拷贝方法，其特征在于，根据文件信息判断文件大小是否超过4MB，若超过，则对文件相应的数据流进行分块处理，每块数据流最大长度为4MB。

6.根据权利要求1所述的基于链表的文件并行拷贝方法，其特征在于，第一文件链表、第二文件链表由若干节点组成，通过指针和有效数据构成节点，指针区域用于指向链表的下一个节点从而构成链表。

7.一种基于链表的文件并行拷贝装置，其特征在于，包括：

文件对象创建模块，用于在取证设备中创建文件对象；

第一结构体构建模块，用于放入文件信息；构建的第一结构体放入第一文件链表中，循环遍历第一文件链表，读取所述文件信息，具体为：将待拷贝文件信息放入第一文件链表中，第一文件链表用于区分文件拷贝的优先级，根据不同的文件信息，分别将文件放入first、after和last链表中，然后按照first→after→last的顺序进行遍历，读取文件信息；

文件对象写入模块，将第二结构体和数据流放入第二文件链表中，依次将第二文件链表中文件信息和数据流写入文件对象，并关闭文件对象。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。