CN106339473A

CN106339473A - 文件复制方法及装置

Info

Publication number: CN106339473A
Application number: CN201610756070.9A
Authority: CN
Inventors: 石子夜
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-08-29
Filing date: 2016-08-29
Publication date: 2017-01-18

Abstract

本发明提供一种文件复制方法及装置，应用于HDFS中。其所述方法包括：根据待复制的文件的长度、文件的起始位置和块的预设最大长度，生成将文件复制至HDFS中所需的块列表信息，块列表信息中包括将文件复制至HDFS中所需的M个块中各块的标识、各块存储文件时对应的起始偏移位置和各块存储文件的实际长度；根据M个块中各块的标识、各块存储文件时对应的起始偏移位置和各块存储所述文件的实际长度，将文件分块复制至M个块中，得到M个临时目标文件；将M个临时目标文件合并，得到复制后的目标文件。本发明的技术方案，通过对大文件分多个块进行并行复制，充分利用HDFS的I/O资源，提高大文件复制速度、缩短复制时间、提高复制效率。

Description

文件复制方法及装置

【技术领域】

本发明涉及一种文件管理技术领域，尤其涉及一种文件复制方法及装置。

【背景技术】

随着计算机科技的发展，越来越多的文件采用电子的形式存储在计算机的硬件设备中，且随着存储文件的大小以及功能不同，涌现出了各种大小容量的文件存储设备。

例如，对于存储普通几个M大小的文件，通常采用通用的U盘之类的文件存储设备即可满足需求。而对于各种进行大数据处理的云平台中，用于存储大小在T级的大文件的文件存储设备，需要采用类似于Hadoop分布式文件系统(Hadoop Distributed File System；HDFS)的文件存储设备来实现文件存储，因此，HDFS多适用于云平台中。现有技术的HDFS中的文件也可以实现复制，通常采用Hadoop自带的HDFS distcp命令，发起MapReduce任务进行复制。

但是，现有的HDFS中只支持AppendOnly文件，且不能随机写，因此现有的HDFS中进行文件复制时，仅仅能够对整个大文件进行复制，复制速度非常慢，而且复制过程中若出错，还需要重新复制整个大文件，因此现有HDFS中，大文件复制效率非常低。

【发明内容】

本发明提供了一种文件复制方法及装置，用于提高大文件的复制效率。

本发明提供一种文件复制方法，所述方法应用于HDFS中，所述方法包括：

根据待复制的文件的长度、所述文件的起始位置和块的预设最大长度，生成将所述文件复制至所述HDFS中所需的块列表信息，所述块列表信息中包括将所述文件复制至所述HDFS中所需的M个块中各所述块的标识、各所述块存储所述文件时对应的起始偏移位置和各所述块存储所述文件的实际长度；所述M为大于等于1的正整数；

根据所述M个块中各所述块的标识、各所述块存储所述文件时对应的起始偏移位置和各所述块存储所述文件的实际长度，将所述文件分块复制至所述M个块中，得到M个临时目标文件；

将所述M个临时目标文件合并，得到复制后的目标文件。

进一步可选地，如上所述的方法中，根据待复制的文件的长度、所述文件的起始位置和块的预设最大长度，生成将所述文件复制至所述HDFS中所需的块列表信息，具体包括：

根据待复制的所述文件的长度和所述块的预设最大长度，确定将所述文件复制至所述HDFS中所需的所述块的数量所述M；

根据所述文件的长度、所述块的预设最大长度以及所述块的数量M，确定各所述块存储所述文件的实际长度；

根据所述文件的起始位置以及各所述块存储所述文件的实际长度，确定各所述块存储所述文件时对应的起始偏移位置。

进一步可选地，如上所述的方法中，根据待复制的所述文件的长度和所述块的预设最大长度，确定将所述文件复制至所述HDFS中所需的所述块的数量所述M，具体包括：

获取所述文件的长度除以所述块的预设最大长度所得的数中的整数数值；

确定所述文件复制至所述HDFS中所需的所述块的数量所述M等于所述整数数值加1。

进一步可选地，如上所述的方法中，根据所述文件的长度、所述块的预设最大长度以及所述块的数量M，确定各所述块存储所述文件的实际长度，具体包括：

确定所述M个块中前M-1个块存储所述文件的实际长度均为所述块的预设最大长度；

确定所述M个块中最后1个块存储所述文件的实际长度为所述文件的长度减去所述块的预设最大长度乘以(M-1)的差值。

进一步可选地，如上所述的方法中，将所述M个临时目标文件合并，得到复制后的目标文件，具体包括：

调用所述HDFS中的Concat方法，将所述M个临时目标文件合并，得到复制后的所述目标文件。

本发明还提供一种文件复制装置，所述装置应用于HDFS中，所述装置包括：

生成模块，用于根据待复制的文件的长度、所述文件的起始位置和块的预设最大长度，生成将所述文件复制至所述HDFS中所需的块列表信息，所述块列表信息中包括将所述文件复制至所述HDFS中所需的M个块中各所述块的标识、各所述块存储所述文件时对应的起始偏移位置和各所述块存储所述文件的实际长度；所述M为大于等于1的正整数；

分块复制模块，用于根据所述M个块中各所述块的标识、各所述块存储所述文件时对应的起始偏移位置和各所述块存储所述文件的实际长度，将所述文件分块复制至所述M个块中，得到M个临时目标文件；

合并模块，用于将所述M个临时目标文件合并，得到复制后的目标文件。

进一步可选地，如上所述的装置中，所述生成模块，具体包括：

数量确定单元，用于根据待复制的所述文件的长度和所述块的预设最大长度，确定将所述文件复制至所述HDFS中所需的所述块的数量所述M；

长度确定单元，用于根据所述文件的长度、所述块的预设最大长度以及所述块的数量M，确定各所述块存储所述文件的实际长度；

位置确定单元，用于根据所述文件的起始位置以及各所述块存储所述文件的实际长度，确定各所述块存储所述文件时对应的起始偏移位置。

进一步可选地，如上所述的装置中，所述数量确定单元，具体用于：

进一步可选地，如上所述的装置中，所述长度确定单元，具体用于：

进一步可选地，如上所述的装置中，所述合并模块，具体用于调用所述HDFS中的Concat方法，将所述M个临时目标文件合并，得到复制后的所述目标文件。

本发明的文件复制方法及装置，通过采用上述技术方案，可以将待复制的文件分成多个块，复制成多个独立的临时目标文件，最后再将多个独立的临时目标文件合并即可实现大文件的复制；与现有技术中，复制单个大文件相比，本发明的技术方案，可以对大文件的多个块进行并行复制，从而充分利用HDFS的输入/输出(Input/Output；I/O)资源，提高大文件复制速度、缩短大文件复制时间、提高大文件复制效率。

【附图说明】

图1为本发明的文件复制方法实施例的流程图。

图2为本发明的文件复制装置实施例一的结构图。

图3为本发明的文件复制装置实施例二的结构图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

图1为本发明的文件复制方法实施例的流程图。如图1所示，本实施例的文件复制方法应用于HDFS中。如图1所示，本实施例的文件复制方法，具体可以包括如下步骤：

100、根据待复制的文件的长度、文件的起始位置和块的预设最大长度，生成将文件复制至HDFS中所需的块列表信息；

本实施例的块列表信息中包括将文件复制至HDFS中所需的M个块中各块的标识、各块存储文件时对应的起始偏移位置和各块存储文件的实际长度；M为大于等于1的正整数。本实施例中的块也可以称为chunk。

101、根据M个块中各块的标识、各块存储文件时对应的起始偏移位置和各块存储文件的实际长度，将文件分块复制至M个块中，得到M个临时目标文件；

102、将M个临时目标文件合并，得到复制后的目标文件。

由于HDFS中只支持AppendOnly文件，且不能随机写，因此现有的HDFS中进行文件复制时，仅仅能够对整个大文件进行复制，复制速度非常慢，而且复制过程中若出错，还需要重新复制整个大文件，且没有充分利用HDFS的IO资源。为了提高HDFS中的文件复制效率，本实施例中采用分块复制的方法来实现在HDFS中先预设M个块，将待复制文件分成M块，并文件分别复制在HDFS的M个块中，形成M个临时文件。由于HDFS还是支持文件合并的，最后，将M个临时目标文件合并，得到复制后的目标文件。

本实施例的待复制的文件可以为HDFS中的文件，也可以为HDFS之外的文件。由于HDFS多用于云平台中，因此本实施例中的待复制的文件均为非常大的文件，例如几百M甚至上T的文件。本实施例中的块可以为HDFS中的逻辑块。具体地，本实施例中块的预设最大长度可以根据实际需求来设置，例如可以根据待复制的文件的大小来设置，选择一个大小最合适的预设块。例如对于500M大小的文件，可以选择最大长度为50-80M的预设块，当然选择最大长度更小的预设块也可以，具体根据块的数量和每个块的预设最大长度的相互权衡来选取。例如在步骤100之前，还可以包括根据待复制的文件的长度确定块的预设最大长度，这样可以保证块数M数量处于较为理想的范围，不会太多也不会太少。或者本实施例的块的预设最大长度也可以设置为固定不变的值，当待复制的文件较大时，块数M较多；待复制的文件较小时，块数M较少。本实施例中的块的标识可以按照逻辑顺序来标识，例如M1、M2，……以此类推，或者也可以采用其他的具有逻辑顺序的标识来作为块标识。

本实施例的步骤100“根据待复制的文件的长度、文件的起始位置和块的预设最大长度，生成将文件复制至HDFS中所需的块列表信息”，具体可以包括如下步骤：

(a1)根据待复制的文件的长度和块的预设最大长度，确定将文件复制至HDFS中所需的块的数量M；

本实施例中，块的长度可以根据实际需求做调整，例如，在选定块的最大预设长度之后，在对待复制文件进行分块时，优先将文件按照块的最大预设长度分为整数个块，文件的剩下的部分不足以放一个块时，可以将最后一个块的大小进行调整，以使得M个块正好能够覆盖整个待复制文件为宜。

例如，具体可以获取文件的长度除以块的预设最大长度所得的数中的整数数值；确定文件复制至HDFS中所需的块的数量M等于整数数值加1。

(a2)根据文件的长度、块的预设最大长度以及块的数量M，确定各块存储文件的实际长度；

例如，可以先确定M个块中前M-1个块存储文件的实际长度均为块的预设最大长度；然后确定M个块中最后1个块存储文件的实际长度为文件的长度减去块的预设最大长度乘以(M-1)的差值。本实施例的方案为本发明中最优选的方案。实际应用中，M个块的实际长度也可以均互不相同，只要整体能够满足M个块能够完全覆盖待复制文件即可。

(a3)根据文件的起始位置以及各块存储文件的实际长度，确定各块用于存储文件是对应的起始偏移位置。

本实施例中，将文件复制至HDFS中所需的M个块正好能够覆盖待复制的文件，在复制之前，需要确定每一个块对应存储文件的起始偏移位置，该起始偏移位置不是文件的起始偏移位置，而是每一个块存储文件时对应的那一小块的起始偏移位置。在实际应用中，可以按照块的逻辑顺序来设置，例如第一个块存储文件时对应的起始偏移位置可以正好为文件的起始位置，即文件的原始起始偏移位置；那么第二个块存储文件时对应的起始偏移位置，可以等于文件的起始位置加上第一个块存储文件的实际长度，实际应用中，除了最后一个块，其它块存储文件的实际长度等于块的预设最大长度。因此，第二个块存储文件时对应的起始偏移位置可以等于文件的起始位置加上第一个块的预设最大长度；第三个块存储文件时对应的起始偏移位置可以等于文件的起始位置加上第一个块的预设最大长度，再加上第二个块的预设最大长度，以此类推，可以确定各个块存储文件时对应的起始偏移位置。

步骤101中根据M个块中各块的标识、各块存储文件时对应的起始偏移位置和各块存储文件的实际长度，将文件分块复制至M个块中，得到M个临时目标文件，具体复制时，如果M数量不大，如果HDFS系统允许，可以同时对M各块进行复制。如果M的数量较大，可以每次复制N个块，N为小于等于M的正整数。N个块复制完之后，接下来可以判断剩下的块数够不够N个块，如果够N个块，就再复制N个块，如果不足N个块，就复制剩下的块数即可。

经过上述处理，等于将待复制的文件按照对应的每个块的实际长度，将文件分成M个块进行复制。为了保证复制的正确性，根据每个块存储文件时对应的起始偏移位置，将文件中该起始偏移位置与该块对齐，从文件中该起始偏移位置开始向后复制该块的实际长度大小的内容至对应的该块，依次类推，可以实现将文件分块复制至M个块中，得到M个临时目标文件，其中M各临时目标文件，每个文件均为一个独立的文件。这样，在复制时，如果某一个块出错，如第X个块复制出现错误，根据第X个块的存储文件是对应的起始偏移位置，重新从文件中该起始偏移位置开始复制第X个块实际长度大小的内容，到该第X个块中。与现有技术相比，当复制出错时，仅需要对出错的块重新复制即可，出错的块整个文件相比，长度要小的多，因此，可以提高文件的复制速度和复制效率。

进一步可选地，上述实施例中的步骤102“将M个临时目标文件合并，得到复制后的目标文件”，具体可以包括：调用HDFS中的Concat方法，将M个临时目标文件合并，得到复制后的目标文件。

本实施例的文件复制方法，通过采用上述技术方案，可以将待复制的文件分成多个块，复制成多个独立的临时目标文件，最后再将多个独立的临时目标文件合并即可实现大文件的复制；与现有技术中，复制单个大文件相比，本实施例的技术方案可以对大文件的多个块进行并行复制，从而充分利用HDFS的I/O资源，提高大文件复制速度、缩短大文件复制时间、提高大文件复制效率。

图2为本发明的文件复制装置实施例一的结构图。本实施例的文件复制装置应用于HDFS中，如图2所示，本实施例的文件复制装置具体可以包括：生成模块10、分块复制模块11和合并模块12。

其中生成模块10用于根据待复制的文件的长度、文件的起始位置和块的预设最大长度，生成将文件复制至HDFS中所需的块列表信息，块列表信息中包括将文件复制至HDFS中所需的M个块中各块的标识、各块存储文件的起始偏移位置和各块存储文件的实际长度；M为大于等于1的正整数；分块复制模块11用于根据生成模块10生成的块列表信息中的M个块中各块的标识、各块存储文件的起始偏移位置和各块存储文件的实际长度，将文件分块复制至M个块中，得到M个临时目标文件；合并模块12用于将分块复制模块11分块复制得到的M个临时目标文件合并，得到复制后的目标文件。

本实施例的文件复制装置，通过采用上述模块实现文件复制的实现原理以及技术效果与上述相关方法实施例的实现相同，详细可以参考上述相关实施例的记载，在此不再赘述。

图3为本发明的文件复制装置实施例二的结构图。如图3所示，本实施例的文件复制装置在上述图2所示实施例的技术方案的基础上，进一步更加详细地介绍本发明的技术方案。

如图3所示，本实施例的文件复制装置中，生成模块10具体包括：数量确定单元101、长度确定单元102和位置确定单元103。

其中数量确定单元101用于根据待复制的文件的长度和块的预设最大长度，确定将文件复制至HDFS中所需的块的数量M；长度确定单元102用于根据文件的长度、块的预设最大长度以及数量确定单元101确定的块的数量M，确定各块存储文件的实际长度；位置确定单元103用于根据文件的起始位置以及长度确定单元102确定的各块存储文件的实际长度，确定各块存储文件时对应的起始偏移位置。

进一步可选地，本实施例的文件复制装置中，数量确定单元101具体用于获取文件的长度除以块的预设最大长度所得的数中的整数数值；确定文件复制至HDFS中所需的块的数量M等于整数数值加1。

进一步可选地，本实施例的文件复制装置中，长度确定单元102具体用于确定数量确定单元101确定的M个块中前M-1个块存储文件的实际长度均为块的预设最大长度；确定M个块中最后1个块存储文件的实际长度为文件的长度减去块的预设最大长度乘以(M-1)的差值。

此时，对应地，分块复制模块11分别与数量确定单元101、长度确定单元102和位置确定单元103连接，分块复制模块11根据数量确定单元101确定的M个块中各块的标识、位置确定单元103确定的各块存储文件的起始偏移位置和长度确定单元102确定的各块存储文件的实际长度，将文件分块复制至M个块中，得到M个临时目标文件；

进一步可选地，本实施例的文件复制装置中，合并模块12具体用于调用HDFS中的Concat方法，将M个临时目标文件合并，得到复制后的目标文件。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种文件复制方法，所述方法应用于HDFS中，其特征在于，所述方法包括：

将所述M个临时目标文件合并，得到复制后的目标文件。

2.根据权利要求1所述的方法，其特征在于，根据待复制的文件的长度、所述文件的起始位置和块的预设最大长度，生成将所述文件复制至所述HDFS中所需的块列表信息，具体包括：

3.根据权利要求2所述的方法，其特征在于，根据待复制的所述文件的长度和所述块的预设最大长度，确定将所述文件复制至所述HDFS中所需的所述块的数量所述M，具体包括：

4.根据权利要求3所述的方法，其特征在于，根据所述文件的长度、所述块的预设最大长度以及所述块的数量M，确定各所述块存储所述文件的实际长度，具体包括：

5.根据权利要求1-4任一所述的方法，其特征在于，将所述M个临时目标文件合并，得到复制后的目标文件，具体包括：

6.一种文件复制装置，所述装置应用于HDFS中，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述生成模块，具体包括：

8.根据权利要求7所述的装置，其特征在于，所述数量确定单元，具体用于：

9.根据权利要求8所述的装置，其特征在于，所述长度确定单元，具体用于：

10.根据权利要求6-9任一所述的装置，其特征在于，所述合并模块，具体用于调用所述HDFS中的Concat方法，将所述M个临时目标文件合并，得到复制后的所述目标文件。