CN110895520B

CN110895520B - 一种文件迁移方法、相关装置及设备

Info

Publication number: CN110895520B
Application number: CN201811065402.4A
Authority: CN
Inventors: 闫海涛; 张明谦
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-09-12
Filing date: 2018-09-12
Publication date: 2022-04-22
Anticipated expiration: 2038-09-12
Also published as: CN110895520A

Abstract

本申请提供一种文件迁移方法、相关装置及设备，其中，方法包括：根据多个文件中每个文件的迁移时间信息创建至少两个存储区域，所述迁移时间信息用于指示所述文件的访问时间距离当前扫描时刻的时长，在下一次扫描时刻到达时，根据第二存储区域中每个文件的文件信息对应的迁移时间信息，判断第二存储区域中的每个文件信息是否需要迁移至第一存储区域，从而获得第一信息集合；将第一信息集合中的每个文件信息迁移至所述第一存储区域。通过实施上述方法，可以在每次扫描时，对下一次扫描时可能需要迁移的文件进行预测，在下一次扫描时，只需对预测的需要迁移的文件进行扫描即可确定需要迁移的文件，降低了文件迁移时的工作量，提高了迁移效率。

Description

一种文件迁移方法、相关装置及设备

技术领域

本发明涉及数据存储技术领域，尤其涉及一种文件迁移方法、相关装置及设备。

背景技术

数据分级存储是指将数据存放在不同级别的存储介质中，例如根据数据的重要性、访问频率、保留时间等属性，将重要性较高、访问频率较高的数据存储在固态硬盘、磁盘或者磁盘阵列等读写速度快的高性能存储介质中，而将重要性较低、访问频率较低的数据存储到磁带库等读写速度慢的低性能存储介质中，从而能够降低非重要性数据在高性能的存储介质中所占据的空间，合理分配存储资源。

在分级存储管理中，当需要将访问频率较低的数据迁移到读写速度慢的存储介质中时，需要对整个文件系统进行全量扫描，遍历整个文件系统中的所有文件以确定需要迁移的文件，当文件系统中文件数量较多时，对文件系统中的所有文件进行扫描需要消耗大量资源，并且完成扫描并确定需要迁移的文件需要耗时较长，使得文件迁移的效率低下。

发明内容

本申请实施例公开了一种文件迁移方法、相关装置及设备，能够在对文件进行分级存储时，减少获取需要迁移的文件的时间。

第一方面，本申请实施例提供一种文件迁移方法，所述方法应用于存储设备中，包括：

根据多个文件中每个文件的迁移时间信息创建至少两个存储区域，所述迁移时间信息用于指示所述每个文件的访问时间距离当前扫描时刻的时长，其中，所述至少两个存储区域中的第一存储区域用于保存所述多个文件的第一文件集合中每个文件的文件信息，所述至少两个存储区域中的第二存储区域用于保存所述多个文件的第二文件集合中每个文件的文件信息，所述第一文件集合中每个文件的迁移时间信息均大于或等于设定阈值，所述第二文件集合中每个文件的迁移时间信息均小于所述设定阈值；

在下一次扫描时刻到达时，根据所述第二存储区域中每个文件的文件信息对应的迁移时间信息，判断所述第二存储区域中的每个文件信息是否需要迁移至所述第一存储区域，从而获得第一信息集合，所述第一信息集合中的每个文件信息均是在所述当前扫描时刻与所述下一次扫描时刻之间被访问的文件对应的文件信息；

将所述第一信息集合中的每个文件信息迁移至所述第一存储区域。

通过实施本申请实施例，可以在每次扫描时，对下一次扫描时可能需要迁移的文件进行预测，并将下一次扫描时可能需要迁移的文件对应的文件信息存储到预先创建的区域中，进而在下一次扫描时，只需要对预先创建的区域进行扫描，即可确定需要迁移的文件，从而降低了文件迁移时的工作量，提高了文件迁移的效率。

在一种可能的实施例中，在所述下一次扫描时刻到达之前，所述方法还包括：

接收其他文件，所述其他文件具有事务号，所述事务号用于指示所述其他文件是相邻两次扫描时刻之间接收到的文件；

将所述其他文件的文件信息存储至所述第一存储区域中。

在一种可能的实施例中，所述判断所述第二存储区域中的每个文件信息是否需要迁移至所述第一存储区域，包括：

在所述第二存储区域中的文件信息对应的文件被访问的情况下，确定被访问文件的迁移时间信息；

根据所述被访问文件的迁移时间信息，判断所述被访问文件是否需要迁移至所述第一存储区域。

在一种可能的实施例中，所述确定被访问文件的迁移时间信息，包括：

在所述第二存储区域中的文件信息对应的文件被访问的情况下，修改所述被访问文件的访问时间；

根据所述被访问文件修改后的访问时间，确定所述被访问文件的迁移时间信息。

在一种可能的实施例中，所述判断所述第二存储区域中的每个文件信息是否需要迁移至所述第一存储区域，从而获得第一信息集合，包括：

在所述被访问文件的迁移时间信息小于所述设定阈值的情况下，确定所述被访问文件的文件信息需要迁移至所述第一存储区域，从而获得第一信息集合。

在一种可能的实施例中，所述在下一次扫描时刻到达时，所述方法还包括：

根据所述第一存储区域中每个文件信息对应的迁移时间信息，确定所述第一存储区域中每个文件信息对应的文件是否需要迁移至低性能的存储介质，从而获得所述第一文件集合的第一文件子集，所述第一文件子集中的每个文件均为需要迁移至所述低性能存储介质中的文件。

在一种可能的实施例中，所述确定所述第一存储区域中每个文件信息对应的文件是否需要迁移至低性能的存储介质，从而获得所述第一文件集合的第一文件子集，包括：

在所述第一存储区域中的文件信息对应的迁移时间信息大于或等于预设时长的情况下，确定所述文件信息对应的文件需要迁移至所述低性能存储介质中，从而获得所述第一文件集合的第一文件子集。

第二方面，本申请实施例提供一种文件迁移装置，该装置包括：

处理单元，用于根据多个文件中每个文件的迁移时间信息创建至少两个存储区域，所述迁移时间信息用于指示所述文件的访问时间距离当前扫描时刻的时长，其中，所述至少两个存储区域中的第一存储区域用于保存所述多个文件的第一文件集合中每个文件的文件信息，所述至少两个存储区域中的第二存储区域用于保存所述多个文件的第二文件集合中每个文件的文件信息，所述第一文件集合中每个文件的迁移时间信息均大于或等于设定阈值，所述第二文件集合中每个文件的迁移时间信息均小于所述设定阈值；

所述处理单元还用于在下一次扫描时刻到达时，根据所述第二存储区域中每个文件的文件信息对应的迁移时间信息，判断所述第二存储区域中的每个文件信息是否需要迁移至所述第一存储区域，从而获得第一信息集合，所述第一信息集合中的每个文件信息均是在所述当前扫描时刻与所述下一次扫描时刻之间被访问的文件对应的文件信息；

迁移单元，用于将所述第一信息集合中的每个文件信息迁移至所述第一存储区域。

在一可能的实施方式中，接收单元，用于接收其他文件，所述其他文件具有事务号，所述事务号用于指示所述其他文件是相邻两次扫描时刻之间接收到的文件；

所述迁移单元还用于：

将所述其他文件的文件信息存储至所述第一存储区域中。

在一可能的实施例中，所述处理单元具体用于：

在所述第二存储区域中的文件信息对应的文件被访问的情况下，确定被访问文件的迁移时间信息，根据所述被访问文件的迁移时间信息，判断所述被访问文件是否需要迁移至所述第一存储区域。

在一可能的实施例中，所述处理单元具体用于：

在一可能的实施例中，所述处理单元还用于：

在一可能的实施例中，所述处理单元具体用于：

第三方面，本申请实施例提供一种网络设备，包括处理器、输入输出设备以及存储器；所述存储器用于存储指令，所述处理器用于执行所述指令，所述输入输出设备用于在所述处理器的控制下与其他设备进行通信；其中，所述处理器执行所述指令时执行上述第一方面或第一方面的任意可能的实施方式中所描述的方法。

第四方面，本申请实施例提供一种计算机存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如第一方面所述的方法。

本申请实施例公开了一种文件迁移方法，能够在对文件进行迁移时，减少获取需要迁移的文件的时间，提高了文件迁移的效率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可根据这些附图获得其他的附图。

图1是本申请实施例提供的一种文件迁移系统的示意图；

图2是本申请实施例提供的一种文件迁移方法的流程示意图；

图3时本申请实施例提供的另一种文件迁移方法的流程示意图；

图4是本申请实施例提供的一种扫描时刻与存储区域对应关系的示意图；

图5为本申请实施例提供的一种文件迁移装置的结构示意图；

图6为本申请实施例提供的一种网络设备的结构示意图。

具体实施方式

随着每个公司的存储系统需要存储的数据量的不断增加，如果将所有的数据都存储在存取速度较快的高性能存储介质中，例如固态硬盘(solid state drives，SSD)、磁盘或者磁盘阵列等，这样不仅成本较高，而且由于高性能存储介质中部分数据的访问频率并不高，但仍然占据性能较好的存储介质，会导致存储资源的浪费，并且使访问频率较高的数据的存取速度下降。

其实，数据也是有生命周期的，数据在刚生成时访问频率最高，随着时间的推移，访问频率会逐渐降低，数据从产生、存储、利用、归档到最后超过存储期限被删除，数据被访问的频率逐渐下降，数据的存储位置也应该随之改变，将重要的数据和/或访问频率较高的数据存储到磁盘或者磁盘阵列等读写速度快、性能较好的高性能存储介质中，而将非重要性的数据和/或访问频率较低的数据存储到磁带库等读写速度较慢的低性能存储介质中。

数据分级存储的目标就是通过预先设定的数据迁移策略，对存储设备中的数据进行迁移，为不同的数据提供不同的存储介质，将访问频率低的数据迁移到性能较低的存储介质中，将访问频率较高的数据保留在性能较高的存储介质中，以节约高性能存储介质，降低存储成本。

在对数据进行分级存储时，数据的迁移策略通常为根据数据的访问频率将数据从高性能存储介质中迁移到低性能存储介质中，其中，所述高性能存储介质和所述低性能存储介质可以是不同存储设备中的存储介质，也可以是同一个存储阵列中的两种不同的存储介质。在所述高性能存储介质与所述低性能存储介质为不同存储设备中的存储介质的情况下，可以通过服务器将需要迁移的数据从高性能存储介质中迁移到低性能存储介质；在高性能存储介质与低性能存储介质为同一存储设备中的存储介质的情况下，可以通过存储设备中的控制器将需要迁移的数据从高性能存储介质中迁移到低性能存储介质。如图1所示，图1是本申请实施例提供的一种实现文件迁移系统示意图，图1中所述高性能存储介质与所述低性能存储介质为不同存储设备中的存储介质，服务器根据迁移策略，可以每隔扫描周期T1对性能存储介质中的文件进行全量扫描，将超过迁移周期T2没有被访问的文件迁移到低性能存储介质中，举例来讲，服务器可以在t0时刻对文件系统中的文件进行全量扫描，获取每个文件的访问时间 (access time，atime)，并计算每个文件的atime与t0时刻的时间间隔▽t0，在一个文件对应的时间间隔▽t0大于所述迁移周期T2的情况下，将该文件迁移到低速存储介质中，其中，所述atime表示文件最后一次被访问的时间，所述atime承载于每个文件对应的文件信息中。然后在下一个扫描时刻，即t0+T1时刻，再对存储在所述高速存储介质中的文件进行全量扫描，再次获取每个文件的atime，并再次计算每个文件的atime与t0+T1时刻的时间间隔▽t1，在一个文件对应的时间间隔▽t1大于所述迁移周期T2的情况下，将该文件由高速存储介质迁移到低速存储介质。以此类推，每隔扫描周期T1就对所述高速存储设备中的文件进行全量扫描，将满足条件的文件进行迁移，从而实现分级存储。

但是上述实现分级存储的方法中，每一次都必须对高速存储介质中的数据进行全量扫描，获取每个文件的atime，计算每个文件的atime与扫描时刻的时间间隔，并判断时间间隔是否大于迁移周期，这种全量扫描过程以及计算过程必然会消耗大量的资源，使得数据迁移的效率低下。

针对上述问题，本申请实施例提供一种文件迁移的方法，如图2所示，图2是本申请实施例提供的文件迁移方法的流程示意图，如图2所示，该方法包括：

步骤201、根据多个文件中每个文件的迁移时间信息创建至少两个存储区域。

本申请实施例中，所述迁移时间信息包括每个文件的atime距离当前扫描时刻的时长，所述至少两个存储区域中的第一存储区域用于保存所述多个文件的第一文件集合中每个文件的文件信息，所述至少两个存储区域中的第二存储区域用于保存所述多个文件的第二文件集合中每个文件的文件信息，所述第一文件集合中每个文件对应的迁移时间信息均大于或者等于设定阈值，所述第二文件集合中每个文件对应的迁移时间信息均小于所述设定阈值，其中，所述文件信息包括每个文件的大小、文件的创建者、访问时间、修改时间以及文件数据的位置等文件元信息，所述至少两个存储区域可以位于存储设备的存储阵列中，也可以位于上述服务器的缓存或存储阵列控制器的缓存中，本申请实施例不做具体限定。

具体的，上述根据多个文件中每个文件的迁移时间信息创建至少两个存储区域过程如下：首先，在当前扫描时刻(t0时刻)，对高性能存储介质中多个文件中每个文件的文件信息进行扫描，获取每个文件信息中的atime。然后根据每个文件的文件信息中的atime，得到每个文件的atime距离t0时刻的时长，即每个文件的迁移时间信息。最后，根据迁移时间信息创建至少两个存储区域，所述至少两个存储区域中的每个存储区域根据每个文件的迁移时间信息存储不同文件对应的文件信息。

举例来讲，以创建两个存储区域为例，若高性能存储介质中有8个文件，在t0时刻，对高性能存储介质中每个文件的文件信息进行扫描，分别获取这8个文件对应的atime，并根据这8个文件的atime确定每个文件的迁移时间信息，如果当前扫描时刻t0时刻为2018年09 月06日，则当前扫描时刻高性能存储介质中每个文件的文件名称、每个文件的atime以及每个文件的迁移时间信息如下表1所示。

表1存储设备中的文件列表

若所述设定阈值为4天，则将上述8个文件的文件信息存储到两个存储区域中，所述第一存储区域中存储的是File1至File3这三个文件各自的文件信息，所述第二存储区域中存储的是File4至File8这五个文件各自的文件信息。

202、在下一次扫描时刻到达时，根据所述第二存储区域中每个文件的文件信息对应的迁移时间信息，判断所述第二存储区域中每个文件信息是否需要迁移至所述第一存储区域，从而获得第一信息集合。

其中，所述第一信息集合中的每个文件信息均是在所述当前扫描时刻与所述下一次扫描时刻之间被访问或者被修改的文件对应的文件信息，即所述第一信息集合中的每个文件信息均是两次相邻的扫描时刻(间隔时间为T1)之间被访问或者被修改的文件对应的文件信息，其中，T1为扫描周期。

本申请实施例中，上述t0时刻将高性能存储介质中多个文件中的每个文件的文件信息分别存储到至少两个存储区域中之后，所述第二存储区域中每个文件信息对应的文件可能被访问或者被修改，在所述第二存储区域中的一个文件信息对应的一个文件被访问或者被修改的情况下，则该被访问或者被修改的文件的atime会发生改变，该文件对应的迁移时间信息也会发生改变，而每个文件的文件信息是根据迁移时间信息与设定阈值之间的关系进行分区域存储的，因此需要在下一次扫描时刻到达时，对所述第二存储区域中的文件信息进行扫描，获取每个文件信息中的atime，重新确定每个文件信息对应的新的迁移时间信息，在重新确定的一个文件信息对应的新的迁移时间信息小于所述设定阈值的情况下，确定该文件被访问或者被修改过，从所述第二存储区域中获取所有被访问或者被修改过的文件对应的文件信息，从而获得第一信息集合，则所述第二存储区域中没有被访问或者被修改的文件对应的文件信息形成第二信息集合。

具体的，继续以上述步骤201中的8个文件进行举例说明，上述在t0时刻将8个文件的文件信息分别存储在所述两个存储区域中之后，在下一次扫描时刻到达时，即在t0+T1时刻 (2018年09月09日)，对所述第二存储区域中每个文件的文件信息进行扫描，获取每个文件信息的atime，并根据每个文件的atime，确定所述第二存储区域中每个文件信息的迁移时间信息，若在t0+T1时刻，所述第二存储区域中每个文件的文件信息的atime以及每个文件信息的迁移时间信息如表2中所示，由表1以及表2可知，File5、File6以及File8三个文件的atime发生了变化，表明上述三个文件在上一次扫描时刻(t0时刻)之后被访问或者被修改过，根据被修改后的atime信息确定这三个文件的文件信息对应的迁移时间信息小于所述设定阈值，则将这三个文件的文件信息提取出来，从而获得第一信息集合。

表2第二存储区域中的文件信息

步骤203、将所述第一信息集合中的每个文件信息迁移至所述第一存储区域。

可以理解，在根据多个文件中每个文件的迁移时间信息创建至少两个存储区域之前，可以对所述高性能存储介质中的所有文件信息进行全量扫描，根据每个文件的迁移时间信息判断每个文件是否需要从所述高性能存储介质中迁移到所述低性能存储介质中，在一个文件的迁移时间信息大于或者等于预设时长的情况下，需要将该文件迁移到低性能存储介质中，如果一个文件的迁移时间信息小于预设时长，则根据该文件的迁移时间信息与所述设定阈值之间的关系，将该文件的文件信息存储到所述至少两个存储区域中的其中一个存储区域中。举例来讲，若所述预设时长为6天，所述扫描周期T1为3天，在所述t0时刻(2018年09月 06日)对高性能存储介质中每个文件的文件信息进行扫描时，若存在文件File0的atime是 2018年08月30号，则File0的迁移时间信息为7天，大于所述预设时长6天，则将所述File0 迁移到低性能存储介质中，在将所述File0迁移到所述低性能存储介质中之后，将剩余的文件 File1至File8的文件信息存储到两个存储介质中，由上述表1可知，所述第一存储区域中存储的文件信息的迁移时间信息大于或者等于4天，则在t0+T1时刻(2018年09月09日)，若所述第一存储区域中的文件信息对应的文件没有被访问或者被修改，所述第一存储区域存储的文件信息的迁移时间周期均会大于所述预设时长，因此，所述第一存储区域中存储的均是在t0+T1时刻可能被迁移到低性能存储介质中的文件所对应的文件信息，同理，所述第二存储区域中存储的均是在t0+2T1时刻可能被迁移到低性能存储介质中的文件所对应的文件信息。

本申请实施例中，由于在t0时刻，所述第一存储区域中存储的是在t0+T1时刻可能需要被迁移到低性能存储介质中去的文件对应的文件信息，所述第二存储区域存储的是t0+2T1时刻(2018年09月12日)可能需要被迁移到低性能存储介质中去的文件的文件信息。因此，在t0+T1时刻，需要先对所述第一存储区域中的文件信息进行扫描，获取每个文件信息中的 atime，根据每个文件信息的atime，确定所述第一存储区域中每个文件信息的迁移时间信息，若所述第一存储区域中的一个文件信息对应的迁移时间信息大于或者等于所述预设时长，则将该文件信息对应的文件迁移到低性能的存储介质中，若所述第一存储区域中的一个文件信息的迁移时间信息小于所述预设时长，则表明该文件在t0时刻至t0+T1时刻之间被访问或者被修改过，在下一次扫描时刻(t0+2T1)该文件的迁移时间信息不可能大于或者等于预设时长，需要到t0+3T1时刻，该文件的迁移时间信息才可能大于或者等于所述预设时长，因此将该文件信息继续保留在所述第一存储区域中。然后再对所述第二存储区域进行扫描，若所述第二存储区域中一个文件信息对应的文件在t0时刻至t0+T1时刻之间被访问或者被修改过，则在t0+2T1时刻，该文件的迁移时间信息同样不可能大于或者等于所述预设时长，需要到 t0+3T1时刻，该文件的迁移时间信息才可能大于或者等于所述预设时长，因此将该文件的文件信息迁移到所述第一存储区域，即在t0+T1时刻，从所述第二存储区域中获取被访问或者被修改过的文件对应的文件信息，得到第一信息集合，获取没有被访问或者没有被修改过的文件对应的文件信息，得到第二信息集合，将所述第一信息集合中的文件信息迁移到第一存储区域，所述第二信息集合中的文件信息为t0+2T1时刻可能需要迁移到低性能存储介质中的文件对应的文件信息，保留在所述第二存储区域。

在t0+2T1时刻，先对所述第二存储区域中的文件信息进行扫描，若所述第二存储区域中的一个文件信息对应的迁移时间信息大于或者等于所述预设时长，则将该文件信息对应的文件迁移到低性能的存储介质中，若所述第二存储区域中的一个文件信息的迁移时间信息小于所述预设时长，则将该文件保留在所述第二存储区域中。然后再对所述第一存储区域进行扫描，若所述第一存储区域中一个文件信息对应的文件在t0+T1时刻至t0+2T1时刻之间被访问或者被修改过，则将该文件的文件信息迁移到所述第二存储区域。

通过实施本申请实施例，在t0时刻将存储介质中文件的文件信息分别存储到第一存储区域以及第二存储区域，所述第一存储区域中存储的是在t0+T1时刻可能被迁移到低性能存储介质中的文件所对应的文件信息，所述第二存储区域中存储的是在t0+2T1时刻可能被迁移到低性能存储介质中的文件所对应的文件信息，在t0+T1时刻，先对所述第一存储区域中的文件信息进行扫描，根据第一存储区域中文件信息对应的迁移时间信息，将迁移时间信息大于预设时长的文件迁移到低性能的存储介质中，将不需要迁移的文件对应的文件信息继续保留在所述第一存储区域中。再对所述第二存储区域中的文件信息进行扫描，根据第二存储区域中文件信息对应的迁移时间信息，确定第二存储区域中每个文件信息对应的文件是否被访问或者被修改，将被访问或者被修改过的文件对应的文件信息迁移到所述第一存储区域，则在 t0+T1时刻后，所述第一存储区域中存储的均为在t0+3T1时刻可能被迁移到低性能存储介质中的文件所对应的文件信息，所述第二存储区域中存储的均为在t0+2T1时刻可能被迁移到低性能存储介质中的文件所对应的文件信息。因此，通过实施本申请实施例，可以在每次扫描时，对下一次扫描时可能需要迁移的文件进行预测，并将下一次扫描时可能需要迁移的文件的文件信息存储在预先创建的区域中，从而在下一次扫描时，只需要对预先创建的区域进行扫描，即可确定需要迁移的文件，从而降低了文件迁移时的工作量，提高了文件迁移的效率。

在一可能的实施例中，由于每个文件被写入存储设备中时会对应一个事务号，所述事务号为同一时间写入到所述存储设备中的多个文件所对应的唯一标识，即一个事务号可以对应多个文件，因此在对高性能存储介质中的文件进行扫描时，还需要记录所述高性能存储介质中所有文件对应的事务号的最大事务号，在一个事务号所对应的多个文件中任意一个文件被访问或者被修改的情况下，该事务号会在所述高性能存储介质中当前最大事务号的基础上增加1，当存储设备中新写入多个文件时，所述多个文件对应的事务号为当前最大事务号的基础上加1所得到的值。举例来讲，若当前存储介质中的最大事务号为100，当事务号为98的事务号所对应的文件被访问之后，该事务号由98变为101，若在此之后有多个文件被写入到所述存储介质中，则这多个文件所对应的事务号为102。

根据上述原理，在t0时刻对所述高性能存储介质中的多个文件进行扫描时，可以记录下在t0时刻所述高性能存储介质中所有文件对应的事务号的最大事务号tx0，在t0+T1时刻，先对所述第一存储区域中的文件信息进行扫描，将迁移时间信息大于所述预设时长的文件迁移到低性能存储区域中之后，对除所述第一存储区域之外的所述高性能存储介质进行扫描，获取t0+T1扫描时刻所述高性能存储介质中的每个事务号，记录t0+T1时刻所述高性能存储介质中所有事务号的最大值tx1，并将t0+T1时刻每个事务号与t0时刻所述最大事务号tx0 进行比较，若一个事务号大于所述最大事务号tx0，则表明该事务号所对应的多个文件中有至少一个文件在t0时刻之后被访问过或被修改过，或者该事务号对应的多个文件为新写入所述高性能存储介质中的文件；再扫描事务号大于所述最大事务号tx0的每个事务号对应的文件信息，从每个文件信息中获取对应的文件的atime，若一个文件的atime在t0时刻之后，则表明该文件在上一次扫描之后被访问过和/或修改过，或者该文件为新写入的文件，将该文件对应的文件信息迁移至所述第一存储区域。

上述为通过创建两个存储区域对本申请的方案进行的说明，若在所述高性能存储介质中创建n个信息存储区域用于保存每个文件的文件信息，其中，n大于2，则执行本申请的方法步骤如图3所示，该方法包括：

步骤301、对存储设备中的第i个信息存储区域进行扫描以获得迁出索引。

本申请实施例中，在ti时刻，服务器对所述存储设备中的第i个信息存储区域进行扫描，根据所述第i个信息存储区域中的文件信息，得到需要从高性能存储介质迁移到低性能存储介质中的迁出数据所对应的迁出索引。其中，所述存储设备包括数据存储区域以及n个信息存储区域，所述数据存储区域用于存储文件数据，所述n个信息存储区域用于存储所述数据存储区域中每个文件对应的文件信息，所述文件信息包括每个文件的大小、文件的创建者、文件的访问时间、文件的修改时间以及文件数据的位置等文件元信息，所述迁出索引即为所述迁出数据对应的文件信息。

步骤302、根据所述迁出索引查找迁出数据，并将所述迁出数据从第一存储介质迁移到第二存储介质。

根据所述迁出索引中文件的位置信息，在所述数据存储区域查找出迁出数据，并将所述迁出数据从第一存储介质迁移到第二存储介质，所述第一存储介质为所述存储设备的数据存储区域中的高性能存储介质，所述第二存储介质可以为所述存储设备中的低性能存储介质，也可以为其他存储设备中的存储介质，所述第一存储介质的读写速度高于所述第二存储介质。

步骤303、对除所述第i个信息存储区域外的存储区域进行增量扫描以获得迁入索引。

对所述数据存储区域以及除所述第i个信息存储区域之外的n-1个存储区域进行增量扫描，以得到需要迁入到所述第i个信息存储区域中的迁入索引，其中，所述迁入索引为本次扫描周期内，所述数据存储区域中新写入的文件对应的文件信息，或者被访问的文件对应的文件信息，或者新写入的文件对应的文件信息以及被访问的文件对应的文件信息。

步骤304、将所述迁入索引迁入所述第i个信息存储区域。

步骤305、对第i+1个信息存储区域重复上述步骤，直到所述n个信息存储区域都扫描完毕，其中，第i个信息存储区域中的索引对应的数据没有被访问的时间大于第i+1个信息存储区域中的索引对应的数据没有被访问的时间。

本申请实施例中，将上述步骤301以及步骤303中的两次扫描作为对所述高速存储设备的第i次扫描，在所述第i次扫描之后，经过一个扫描周期T1再对所述存储设备中的第i+1 个信息存储区域执行上述步骤301至304，即在ti时刻对所述存储设备进行第i次扫描，在ti+T1 时刻，将上述步骤中的i替换为i+1，然后执行上述步骤301至304，以此类推，每次对一个信息存储区域进行扫描，然后在一个扫描周期T1之后，再对下一个信息存储区域进行扫描，直至对所述n个信息存储区域都执行一次上述步骤，然后再从第一个信息存储区域开始，循环执行上述步骤。

本申请实施例中，在对存储设备中的第i个信息存储区域进行扫描以获得迁出索引之前。首先需要在t0时刻对存储设备中的文件进行全量扫描，获取每个文件对应的文件信息，根据每个文件对应的文件信息中的atime，计算出每个文件的atime与t0时刻的时间间隔，即每个文件对应的迁移时间信息，比较每个文件对应的迁移时间信息与迁移周期T2之间的关系，若一个文件对应的迁移时间信息大于所述迁移周期T2，则根据该文件对应的文件信息中的文件位置信息，在所述存储设备的数据存储区域查找到该文件，并将该文件迁移到低速存储介质中。举例来讲，若所述迁移周期T2为5天，在进行全量扫描时，若一个文件的atime与扫描时刻t0的时间间隔大于5天，则将该文件迁移至低性能存储介质中，例如，若当前扫描时刻 t0是2018年7月22号24时，则只要一个文件的atime在2018年7月18号0时之前，该文件对应的时间间隔即大于5天，若所述存储设备中包括如下表3所示的8个文件：

表3存储设备中的文件列表

文件名称	访问时间(atime)
		File1	2018/07/16
File2	2018/07/18
		File3	2018/07/18
File4	2018/07/19
		File5	2018/07/20
File6	2018/07/20
		File7	2018/07/21
File8	2018/07/22

根据表3中的数据，文件File1的atime与当前扫描时刻t0的时间间隔大于5天，则将 File1迁移到低性能存储介质，剩余的File2至File8为待迁移文件。然后在所述存储设备中划分出n个信息存储区域，其中，每个信息存储区域负责存储一个时间范围内的文件信息，所述时间范围的时长可以与所述扫描周期T1相同，获取所述待迁移文件中每个文件的文件信息，根据所述文件信息中的atime，结合所述n个信息存储区域中每个信息存储区域负责存储的数据的时间范围，将每个待迁移文件对应的文件信息分别存储到所述n个信息存储区域中。继续以表3中的数据为例进行说明，若扫描周期T1为1天，迁移周期T2为5天，则n可以等于5，即在所述存储设备中划分出5个信息存储区域，则5个信息存储区域负责存储的数据的时间范围以及所述待迁移文件对应的文件信息在5个信息存储区域中的分布如表4所示：

表4信息存储区域中存储的相关数据信息

信息存储区域	存储的时间范围	存储的文件信息对应的文件名称
			第1个信息存储区域	2018/07/18	File2、File3
第2个信息存储区域	2018/07/19	File4
			第3个信息存储区域	2018/07/20	File5、File6
第4个信息存储区域	2018/07/21	File7
			第5个信息存储区域	2018/07/22	File8

将所述待迁移文件对应的文件信息存储到上述5个信息存储区域中之后，则这5个信息存储区域对应的扫描时刻如图4所示，图4是本申请实施例提供的一种扫描时刻与信息存储区域对应关系的示意图，图4中，第1个信息存储区域存储的是相对于t0时刻，在t0+(5k+1) T1时刻需要迁移的文件对应的文件信息，第2个信息存储区域存储的是相对于t0时刻，在 t0+(5k+2)T1时刻需要迁移的文件对应的文件信息，以此类推，第5个信息存储区域存储的是相对于t0时刻，在t0+(5k+5)T1时刻需要迁移的文件对应的文件信息，其中，k为自然数，t0时刻为对所述存储设备中的文件进行全量扫描时的时刻。由上表4可知，在当前t0 时刻，第1个信息存储区域中存储的是相对于当前时刻t0(2018年7月22号24时)的下一个时刻t+T1(2018年7月23日24时)时需要迁移的文件对应的文件信息，第2个信息存储区域中存储的是时刻t+2T1时(2018年7月24日24时)需要迁移的文件对应的文件信息，以此类推，第5个信息存储区域中存储的是时刻t+5T1(2018年7月27日24时)时需要迁移的文件对应的文件信息。

在上述对所述存储设备进行全量扫描，将符合迁移策略的文件迁移到低性能存储介质并将剩余待迁移文件对应的文件信息存储至对应的信息存储区域之后，若上述步骤301中i为1，则在下一个t0+T1时刻，只需先对第1个信息存储区域进行扫描，获取第1个信息存储区域中的文件信息，并计算每个文件信息中的atime与t0+T1时刻的时间间隔是否大于迁移周期 T2，根据所述时间间隔确定每个文件在上一次扫描之后是否被访问或者被修改过，若一个文件信息对应的时间间隔大于或者等于所述迁移周期，则确定该文件信息对应的文件在上一次扫描之后没有被访问或者被修改，将该文件信息作为迁出索引，根据该文件信息中的文件位置信息，查找到该文件信息对应的文件并将该文件迁移至低性能存储介质。若根据一个文件信息中的atime确定一个文件在上一次扫描之后被访问或者被修改过，则将该文件继续保留在所述存储设备的数据存储区域中，并将该文件信息继续保留在第1个信息存储区域中。继续以上述表4中的数据为例进行说明，在t0+T1扫描时刻，获取第1个信息存储区域中File2 所对应的文件信息以及File3所对应的文件信息，从File2对应的文件信息中获取File2对应的atime，若File2的的atime与t0+T1时刻的时间间隔大于迁移周期5天，则根据File2对应的文件信息，获取File2在所述存储设备的数据存储区域中的存储位置，将File2迁移到低速存储介质中。若File3对应的atime与t0+T1时刻的时间间隔小于或者等于迁移周期5天，则表明File3在上一次扫描之后被访问过或被修改过，此时将File3继续保留在所述高速存储设备中，并将所述File3对应的文件信息继续保留在第1个信息存储区域中。

在t0+T1时刻对第1个信息存储区域扫描完成之后，再对所述存储设备中除第1个信息存储区域以外的第2个信息存储区域至第5个信息存储区域以及数据存储区域进行增量扫描以获得迁入索引。所述增量扫描的过程为：首先获取上一次扫描时记录的所述存储设备中事务号的最大事务号tx0；然后获取t0+T1扫描时刻所述存储设备中的每个事务号，记录t0+T1 扫描时刻所述存储设备中所有事务号的最大值tx1，并将t0+T1扫描时刻每个事务号与所述最大事务号tx0进行比较，若一个事务号大于所述最大事务号tx0，则表明该事务号发生过变化，即该事务号所对应的多个文件中有至少一个文件在上一次扫描之后被访问过或被修改过，或者该事务号对应的多个文件为新写入所述高速存储设备中的文件；再扫描事务号大于所述最大事务号tx0的每个事务号对应的文件的文件信息，从每个文件信息中获取对应的文件的 atime，若一个文件的atime在上一次扫描时刻t0之后，则表明该文件在上一次扫描之后被访问过和/或修改过，或者该文件为新写入的文件，将该文件对应的文件信息存入第1个信息存储区域。

根据上述相同的方法，在下一个t0+2T1扫描时刻，先对第2个信息存储区域进行扫描，获取所述第2个信息存储区域中File4对应的文件信息，从File4对应的文件信息中获取File4 对应的atime，若File4的atime与t+2T1时刻的时间间隔大于迁移周期5天，则将File4迁移到低速存储介质，若File4的atime与t+2T1时刻的时间间隔小于或者等于迁移周期5天，则将File4保留在所述存储设备中，然后获取t0+2T1扫描时刻所述存储设备中的每个事务号，并将t0+T1扫描时刻每个事务号与所述最大值tx1进行比较，获取本次扫描的迁入索引，并将这些迁入索引迁移至所述第2个信息存储区域。

本申请实施例在第i次扫描时，首先对存储设备中的n个信息存储区域中的第i个信息存储区域进行扫描，以确定所述第i个信息存储区域中的迁出索引，所述迁出索引为本次扫描周期内没有被访问的文件的索引，所述n个信息存储区域为在所述存储设备中划分出的n个存储区域，所述存储设备中每个文件的索引根据最后访问时间存储在所述n个信息存储区域中，其中，所述n个信息存储区域中的第k个信息存储区域存储的是第k次扫描时可能需要迁移至低速存储介质中的文件所对应的索引，所述n个信息存储区域中的第i个信息存储区域中的文件信息对应的文件没有被访问的时长大于第i+1个信息存储区域中的文件对应的数据没有被访问的时长；然后根据所述迁出索引在所述存储设备中查找迁出数据，并将所述迁出数据从读写速度较快的第一存储介质迁移至读写速度较慢的第二存储介质；再对除所述第 i个信息存储区域外的存储区域进行增量扫描，以获取在本次扫描周期内新增的文件以及被访问的文件对应的文件信息，并迁移至所述第i个信息存储区域。在之后的每一次扫描中，均执行上述操作，从而能够在每次扫描之后，对下一次扫描时可能需要迁移的文件进行预测，并将可能迁移的文件的文件信息存储至下一次扫描时会被扫描的存储区域，从而在下一次扫描时，只需对该信息存储区域进行扫描即可获取需要迁移的文件并进行迁移，避免每次扫描时必须对存储设备进行全面扫描才能获取需要迁移的文件，提高了文件迁移时的效率。

在一种可能的实施例中，在每一次对所述高性能存储介质进行扫描之前，需要先暂停对所述高性能存储介质的读写操作，以确保所述高性能存储介质中的文件在扫描前后的一致性，防止文件在被扫描时满足迁移条件，而在被扫描之后，被迁移之前因为被访问或者被修改而导致文件被误迁移。

在一种可能的实施例中，上述atime也可以是修改时间(modify time，mtime)或者状态改变时间(change time，ctime)，其中，所述mtime表示文件内容最后一次被修改的时间，所述ctime表示文件状态发生改变的最后时间，所述文件状态包括文件的权限、大小以及所述的组等，本申请实施例不做具体限定。

在一种可能的实施例中，还可以根据所述高性能存储介质中存储的数据的数据量对所述高性能存储介质中的数据进行扫描，在设置所述高速存储设备的扫描周期T1以及迁移周期 T2的情况下，还可以设置容量阈值，在所述高性能存储介质中存储的数据的数据量大于所述容量阈值的情况下，同样可以触发数据迁移服务器开始扫描，获取被扫描信息存储区域中的文件信息，根据文件信息中的atime，确定所述被扫描信息存储区域中每个文件信息对应的文件在上一次扫描之后是否被访问或者被修改过，若没有，则将该文件信息对应的文件迁移到低性能存储介质中。通过设置容量阈值，能够在存储设备中存储的数据达到一定数据量时，及时将访问频率较低的数据迁移到低速存储介质中，以保证高性能存储介质中始终保持一定的剩余存储空间。

在一种可能的实施例中，若在一个扫描周期内，所述数据迁移服务器至少有两次因为所述高性能存储介质中存储的数据超过容量阈值而触发扫描；或者，在预设的连续多个扫描周期内，至少有两个扫描周期中出现因为所述高性能存储介质中存储的数据量超过容量阈值而触发所述数据迁移服务器扫描，则说明往所述高性能存储介质中写入数据的速率加快，所述数据迁移服务器可以缩短所述扫描周期T1，以提高所述高性能存储介质中访问频率低的数据的迁出频率；或者，所述数据迁移服务器可以缩短所述迁移周期T2，以增加每次扫描之后从所述高性能存储介质中迁出的数据的数据量；或者，所述数据迁移服务器可以在缩短所述扫描周期T1的同时缩短所述迁移周期T2，提高所述高性能存储介质中访问频率低的数据的迁出速率的同时增加每次扫描之后从所述高性能存储介质中迁出的数据的数据量，以保证高性能存储介质中始终保持一定的剩余存储空间。

请参见图5，图5为本申请实施例提供的一种文件迁移装置的结构示意图，如图5所示，所述装置包括300至少包括：处理单元310以及迁移单元320。其中，

处理单元310，用于根据多个文件中每个文件的迁移时间信息创建至少两个存储区域，所述迁移时间信息用于指示所述文件距离当前扫描时刻的时长，其中，所述至少两个存储区域中的第一存储区域用于保存所述多个文件的第一文件集合中每个文件的文件信息，所述至少两个存储区域中的第二存储区域用于保存所述多个文件的第二文件集合中每个文件的文件信息，所述第一文件集合中每个文件的迁移时间信息均大于或等于设定阈值，所述第二文件集合中每个文件的迁移时间信息均小于所述设定阈值；；

处理单元310用于在下一次扫描时刻到达时，根据所述第二存储区域中每个文件的文件信息对应的迁移时间信息，判断所述第二存储区域中的每个文件信息是否需要迁移至所述第一存储区域，从而获得第一信息集合，所述第一信息集合中的每个文件信息均是在所述当前扫描时刻与所述下一次扫描时刻之间被访问的文件对应的文件信息；

所述迁移单元320，用于将所述第一信息集合中的每个文件信息迁移至所述第一存储区域。

所述装置还可以包括接收单元330，用于接收其他文件，所述其他文件具有事务号，所述事务号用于指示所述其他文件是相邻两次扫描时刻之间接收到的文件；

所述迁移单元320还用于：将所述其他文件的文件信息存储至所述第一存储区域中。

具体地，上述装置300执行如图2或者图3中所示的各种操作的具体实现可参照上述方法实施例的具体操作，在此不再赘述。

请参见6，图6为本申请实施例提供的一种网络设备的结构示意图，所述网络设备可以是服务器，也可以是存储设备，在所述网络设备为存储设备的情况下，所述存储设备至少包括控制器、高性能存储介质以及低性能存储介质，所述控制器连接分别连接所述高性能存储介质以及低性能存储介质，其中，所述高性能存储介质可以是SSD，磁盘阵列等，所述低性能存储介质可以是机械硬盘、磁带库等。所述服务器或所述控制器至少包括：处理器410、输入输出设备420以及存储器430，所述处理器410、输入输出设备420以及存储器430通过总线440相互连接，其中，

所述处理器410可以是中央处理器(central processing unit，CPU)，或者CPU和硬件芯片的组合。上述硬件芯片可以是专用集成电路(application-specific integratedcircuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device，CPLD)，现场可编程逻辑门阵列 (field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic,GAL)或其任意组合。

所述存储器430包括但不限于是随机存取存储器(Random Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)或可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory，EPROM或者快闪存储器)，该存储器430用于存储程序代码及数据，并可以将存储的数据传输给处理器410。

所述服务器或所述控制器中的处理器410用于读取存储器430中的相关指令执行以下操作：

根据多个文件中每个文件的迁移时间信息创建至少两个存储区域，所述迁移时间信息用于指示所述文件的访问时间距离当前扫描时刻的时长，其中，所述至少两个存储区域中的第一存储区域用于保存所述多个文件的第一文件集合中每个文件的文件信息，所述至少两个存储区域中的第二存储区域用于保存所述多个文件的第二文件集合中每个文件的文件信息，所述第一文件集合中每个文件的迁移时间信息均大于或等于设定阈值，所述第二文件集合中每个文件的迁移时间信息均小于所述设定阈值；

具体地，上述服务器或者控制器执行如图2或者图3所示的各种操作的具体实现可参照上述方法实施例的具体操作，在此不再赘述。

本发明实施例还提供一种计算机非瞬态存储介质，所述计算机非瞬态存储介质中存储有指令，当其在处理器上运行时，可以实现上述方法实施例中图2或者图3所示的方法步骤，所述计算机非瞬态存储介质的处理器在执行图2或者图3所示的方法步骤的具体实现可参照上述方法实施例的具体操作，在此不再赘述。

在上述实施例中，可以全部或部分地通过软件、硬件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk (SSD))等。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并或删减；本申请实施例装置中的模块可以根据实际需要进行划分、合并或删减。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种文件迁移方法，其特征在于，所述方法应用于存储设备中，包括：

2.根据权利要求1所述的方法，其特征在于，在所述下一次扫描时刻到达之前，所述方法还包括：

将所述其他文件的文件信息存储至所述第一存储区域中。

3.根据权利要求1所述的方法，其特征在于，所述判断所述第二存储区域中的每个文件信息是否需要迁移至所述第一存储区域，包括：

根据所述被访问文件的迁移时间信息，判断所述被访问文件的文件信息是否需要迁移至所述第一存储区域。

4.根据权利要求3所述的方法，其特征在于，所述确定被访问文件的迁移时间信息，包括：

5.根据权利要求3或4所述的方法，其特征在于，所述判断所述第二存储区域中的每个文件信息是否需要迁移至所述第一存储区域，从而获得第一信息集合，包括：

6.根据权利要求1所述的方法，其特征在于，所述在下一次扫描时刻到达时，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述确定所述第一存储区域中每个文件信息对应的文件是否需要迁移至低性能的存储介质，从而获得所述第一文件集合的第一文件子集，包括：

8.一种文件迁移装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

接收单元，用于接收其他文件，所述其他文件具有事务号，所述事务号用于指示所述其他文件是相邻两次扫描时刻之间接收到的文件；

所述迁移单元还用于：将所述其他文件的文件信息存储至所述第一存储区域中。

10.根据权利要求8所述的装置，其特征在于，所述处理单元具体用于：

11.根据权利要求10所述的装置，其特征在于，所述处理单元具体用于：

12.根据权利要求10或11所述的装置，其特征在于，所述处理单元具体用于：

13.根据权利要求8所述的装置，其特征在于，所述处理单元还用于：

14.根据权利要求13所述的装置，其特征在于，所述处理单元具体用于：

15.一种网络设备，其特征在于，包括处理器、输入输出设备以及存储器；所述存储器用于存储指令，所述处理器用于执行所述指令，所述输入输出设备用于在所述处理器的控制下与其他设备进行通信；其中，所述处理器执行所述指令时执行如权利要求1至7任一项所述的方法。

16.一种非瞬态的计算机存储介质，所述计算机存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。