CN114415965A

CN114415965A - 一种数据迁移方法、装置、设备及存储介质

Info

Publication number: CN114415965A
Application number: CN202210087580.7A
Authority: CN
Inventors: 宋成; 王凯; 刘言杰; 张磊; 孙蕾
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2022-04-29
Anticipated expiration: 2042-01-25
Also published as: CN114415965B

Abstract

本发明公开了一种数据迁移方法、装置、设备及存储介质。该方法包括：获取访问信息，以及第一存储区和第二存储区之间的当前数据迁移速率，访问信息包括：当前系统访问信息和历史数据访问信息；将当前系统访问信息和当前数据迁移速率输入自适应控制模型得到迁移控制因子；将历史数据访问信息输入迁移数据分析模型得到待迁移数据信息；迁移数据分析模型的阈值参数由迁移控制因子确定；基于待迁移数据信息，执行第一存储区和第二存储区之间的数据迁移操作。通过本发明的技术方案，能够根据数据访问信息和当前数据迁移速率自适应控制数据迁移，在访问高峰期时降低迁移速率，在访问低峰期时提高迁移速率，从而降低数据迁移对系统服务的影响。

Description

一种数据迁移方法、装置、设备及存储介质

技术领域

本发明实施例涉及大数据技术领域，尤其涉及一种数据迁移方法、装置、设备及存储介质。

背景技术

在大数据时代，传统数据中心向云计算、大数据、人工智能转变，越来越多的应用和企业在使用对象存储服务。当非结构化数据海量增长时，对象存储数据存在热冷数据不分离情况不利于对热点数据的访问。其中，热数据是指访问频率较高的数据，冷数据是指访问频率较低的数据。

针对上述问题，现有技术提出了一种数据分层存储系统，包含数据监控模块、自动分层模块、数据迁移模块，对每一数据层建立样本数据，并分析每一层数据访问命中率，当不符合阈值条件时，触发重建自动分层模型，并根据当前数据命中情况，将各数据迁移至对应分层。但是在在大数据时代数据的访问频率往往在短时间内发生巨大变化，当系统处于交易高峰期时，数据在分层之间大量迁移会对系统产生巨大压力。

发明内容

本发明实施例提供一种数据迁移方法、装置、设备及存储介质，以实现能够根据访问信息和当前数据迁移速率自适应控制数据在第一存储区和第二存储区之间的数据迁移，在访问高峰期时降低迁移速率，在访问低峰期时提高迁移速率，从而降低数据迁移对系统服务的影响。

第一方面，本发明实施例提供了一种数据迁移方法，包括：

获取访问信息，以及第一存储区和第二存储区之间的当前数据迁移速率，所述访问信息包括：当前系统访问信息和历史数据访问信息；

将所述当前系统访问信息和所述当前数据迁移速率输入自适应控制模型得到迁移控制因子；

将所述历史数据访问信息输入迁移数据分析模型得到待迁移数据信息；所述迁移数据分析模型的阈值参数由所述迁移控制因子确定；

基于所述待迁移数据信息，执行所述第一存储区和所述第二存储区之间的数据迁移操作。

进一步的，所述自适应控制模型包括：目标神经网络控制模型和目标自适应校正模型；相应的，将所述当前系统访问信息和所述当前数据迁移速率输入自适应控制模型得到迁移控制因子，包括：

将所述当前系统访问信息输入目标神经网络控制模型得到输出因子，所述目标神经网络控制模型通过历史系统访问信息样本集迭代训练初始神经网络控制模型得到；

通过激励函数对所述输出因子进行压缩处理；

将所述当前数据迁移速率输入目标自适应校正模型得到自适应校正因子，所述目标自适应校正模型通过历史数据迁移速率样本集迭代训练初始自适应校正模型得到；

根据压缩处理后的输出因子和所述自适应校正因子确定迁移控制因子。

进一步的，通过历史系统访问信息训练样本集迭代训练初始神经网络控制模型包括：

建立初始神经网络控制模型；

将所述历史系统访问信息训练样本集输入所述初始神经网络控制模型得到预测输出因子；

通过激励函数对所述预测输出因子进行压缩处理；

根据压缩处理后的预测输出因子和第一预期数值形成的第一目标函数训练所述初始神经网络控制模型的参数。

进一步的，通过历史数据迁移速率训练样本集迭代训练初始自适应校正模型，包括：

建立初始自适应校正模型；

将所述历史数据迁移速率训练集输入所述初始自适应校正模型得到预测自适应校正因子；

根据所述预测自适应校正因子和第二预期数值形成的第二目标函数训练所述初始自适应校正模型的参数。

进一步的，在执行所述第一存储区和所述第二存储区之间的数据迁移操作之后，还包括：

基于信息摘要算法，分别计算执行所述数据迁移操作前所述待迁移数据的第一散列值和执行所述数据迁移操作后所述待迁移数据的第二散列值；所述待迁移数据由所述待迁移数据信息确定；

若所述第一散列值和所述第二散列值不同，则将执行所述迁移操作后的待迁移数据删除，并重新执行所述第一存储区和所述第二存储区之间的数据迁移操作；

若所述第一散列值和所述第二散列值相同，则删除执行所述迁移操作前的待迁移数据。

进一步的，所述待迁移数据信息包括：第一待迁移数据信息和第二待迁移数据信息，所述基于所述待迁移数据信息，执行所述第一存储区和所述第二存储区之间的数据迁移操作，包括：

根据所述第一待迁移数据信息确定第一待迁移数据，将所述第一待迁移数据从所述第一存储区迁移至所述第二存储区；所述第一待迁移数据为第一存储区内存储的预设时间内访问频率大于预设频率的数据；

根据所述第二待迁移数据信息确定第二待迁移数据，将所述第二待迁移数据从所述第二存储区迁移至所述第一存储区；所述第二待迁移数据为第二存储区内存储的在预设时间内访问频率小于或等于预设频率的数据。

进一步的，所述第一存储区为基于列式存储的分布式数据存储区，所述第二存储区为基于对象存储的数据存储区。

第二方面，本发明实施例还提供了一种数据迁移装置，该装置包括：

获取模块，用于获取访问信息，以及第一存储区和第二存储区之间的当前数据迁移速率，所述访问信息包括：当前系统访问信息和历史数据访问信息；

迁移控制因子确定模块，用于将所述当前系统访问信息和所述当前数据迁移速率输入自适应控制模型得到迁移控制因子；

待迁移数据信息确定模块，用于将所述历史数据访问信息输入迁移数据分析模型得到待迁移数据信息；所述迁移数据分析模型的阈值参数由所述迁移控制因子确定；

数据迁移模块，用于基于所述待迁移数据信息，执行所述第一存储区和所述第二存储区之间的数据迁移操作。

第三方面，本发明实施例还提供了一种终端设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明实施例中任一所述的数据迁移方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例中任一所述的数据迁移方法。

本发明实施例通过获取访问信息，以及第一存储区和第二存储区之间的当前数据迁移速率，访问信息包括：当前系统访问信息和历史数据访问信息；将当前系统访问信息和当前数据迁移速率输入自适应控制模型得到迁移控制因子；将历史数据访问信息输入迁移数据分析模型得到待迁移数据信息；迁移数据分析模型的阈值参数由迁移控制因子确定；基于待迁移数据信息，执行第一存储区和第二存储区之间的数据迁移操作，能够根据数据访问信息和当前数据迁移速率自适应控制数据在第一存储区和第二存储区之间的数据迁移，在访问高峰期时降低迁移速率，在访问低峰期时提高迁移速率，从而降低数据迁移对系统服务的影响。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例一中的一种数据迁移方法的流程图；

图2A是本发明实施例二中的一种数据迁移方法的流程图；

图2B是本发明实施例二中的神经网络控制模型的结构示意图；

图2C是本发明实施例二中的另一种数据迁移方法的流程图；

图3是本发明实施例三中的一种数据迁移装置的结构示意图；

图4是本发明实施例四中的一种终端设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

实施例一

图1为本发明实施例一提供的一种数据迁移方法的流程图，本实施例可适用于基于数据访问情况对两个存储区存储的数据进行数据迁移的情况，该方法可以由本发明实施例中的数据迁移装置来执行，该装置可采用软件和/或硬件的方式实现，如图1所示，该方法具体包括如下步骤：

S110，获取访问信息，以及第一存储区和第二存储区之间的当前数据迁移速率，访问信息包括：当前系统访问信息和历史数据访问信息。

其中，访问信息包括：当前系统访问信息和历史数据访问信息，当前系统访问信息用于表示当前访问时刻外部请求对非结构化数据服务系统的实时访问信息，例如可以包括访问用户、访问并发数、访问时间、响应时间或数据索引等信息。当前系统访问信息可以通过日志文件和数据库表记录表等系统文件中获取得到。历史数据访问信息用于表示历史时间段内第一存储区或第二存储区存储的数据的访问信息，例如可以包括数据的访问频率。历史时间段可以以天数、小时为单位进行时间设置。

为了便于热点数据的访问，在数据服务系统中基于数据的访问频率采用分区存储的方式存储数据，数据服务系统中包括两个存储区：第一存储区和第二存储区，其中第一存储区用于存储访问频率大于预设频率的热数据，第一存储区也即热数据存储区；第二存储区用于存储访问频率小于或等于预设频率的冷数据，第二存储区也即冷数据存储区。第一存储区和第二存储区中存储的数据，可以根据访问频率的变化进行数据迁移。可选的，第一存储区为基于列式存储的分布式数据存储区，例如HBase存储区；第二存储区为基于对象存储的数据存储区。

第一存储区和第二存储区之间的当前迁移速率是指当前时刻热数据从第一存储区迁移至第二存储区的速率，或者冷数据从第二存储区第迁移至第一存储区的速率。

具体的，获取当前系统访问信息和当前迁移速率的方式可以为通过数据源采集器实时采集得到，本发明实施例对此不进行限制。历史数据访问信息可以由当前时刻之前预设时间内所采集的数据访问信息构成。

示例性的，历史数据访问信息可以实时更新，更新历史数据访问信息的方法可以为获取当前数据访问信息，对前数据访问信息进行预处理生成特征信息列表，基于特征信息列表更新历史数据访问信息。

S120，将当前系统访问信息和当前数据迁移速率输入自适应控制模型得到迁移控制因子。

其中，自适应控制模型用于确定迁移控制因子，迁移控制因子用于控制迁移数据模型的阈值参数。自适应控制模型可以是基于深度学习的神经网络模型。

具体的，根据历史数据访问信息和历史数据迁移速率进行模型训练得到自适应控制模型，将当前系统访问信息和当前数据迁移速率输入自适应控制模型得到迁移控制因子。该迁移控制因子可以用于实时控制数据迁移速率，在数据访问高峰期时降低迁移速率，在数据访问低峰期时提高迁移速率，从而降低数据迁移对系统服务的影响。

S130，将历史数据访问信息输入迁移数据分析模型得到待迁移数据信息；迁移数据分析模型的阈值参数由迁移控制因子确定。

其中，迁移数据分析模型用于根据历史数据访问信息对历史数据进行数据分类，并确定待迁移数据信息。迁移数据分析模型可以是训练完备的分类神经网络模型。待迁移数据信息包括：待迁移数据索引、待迁移数据量、待迁移数据迁移初始位置和待迁移数据迁移目标位置等。根据当前系统访问信息和当前数据迁移速率所确定的迁移控制因子用于实时控制迁移数据分析模型的阈值参数，该阈值参数用于确定数据迁移的阈值。

具体的，迁移数据分析模型根据阈值参数将数据分类为第一数据和第二数据，其中第一数据可以是访问频率高于预设频率的热数据，第二数据可以是访问频率低于或等于预设频率的冷数据；根据数据的分类和数据的存储位置确定待迁移数据信息。

示例性的，迁移数据模型根据历史数据访问信息和阈值参数确定第一数据，根据存储于第二存储区的第一数据和存储于第一存储区的第二数据确定待迁移数据信息。

S140，基于待迁移数据信息，执行第一存储区和第二存储区之间的数据迁移操作。

具体的，根据待迁移数据信息确定存储于第一存储区的第一待迁移数据，将第一待迁移数据从第一存储区迁移至第二存储区；根据待迁移数据信息确定存储于第二存储区的第二待迁移数据，将第二待迁移数据从第二存储区迁移至第一存储区。

本实施例的技术方案，通过获取访问信息，以及第一存储区和第二存储区之间的当前数据迁移速率，访问信息包括：当前系统访问信息和历史数据访问信息；将当前系统访问信息和当前数据迁移速率输入自适应控制模型得到迁移控制因子；将历史数据访问信息输入迁移数据分析模型得到待迁移数据信息；迁移数据分析模型的阈值参数由迁移控制因子确定；基于待迁移数据信息，执行第一存储区和第二存储区之间的数据迁移操作，能够根据数据访问信息和当前数据迁移速率自适应控制数据在第一存储区和第二存储区之间的数据迁移，在访问高峰期时降低迁移速率，在访问低峰期时提高迁移速率，从而降低数据迁移对系统服务的影响。

实施例二

图2A为本发明实施例二中的一种数据迁移方法的流程图，本实施例以上述实施例为基础进行优化，在本实施例中，自适应控制模型包括：目标神经网络控制模型和目标自适应校正模型；相应的，将当前系统访问信息和当前数据迁移速率输入自适应控制模型得到迁移控制因子，包括：将当前系统访问信息输入目标神经网络控制模型得到输出因子，目标神经网络控制模型通过历史系统访问信息样本集迭代训练初始神经网络控制模型得到；通过激励函数对输出因子进行压缩处理；将当前数据迁移速率输入目标自适应校正模型得到自适应校正因子，目标自适应校正模型通过历史数据迁移速率样本集迭代训练初始自适应校正模型得到；根据压缩处理后的输出因子和自适应校正因子确定迁移控制因子。

如图2A所示，本实施例的方法具体包括如下步骤：

S210，获取访问信息，以及第一存储区和第二存储区之间的当前数据迁移速率，访问信息包括：当前系统访问信息和历史数据访问信息。

S220，将当前系统访问信息输入目标神经网络控制模型得到输出因子，目标神经网络控制模型通过历史系统访问信息样本集迭代训练初始神经网络控制模型得到。

其中，目标神经网络模型是通过历史数据访问信息样本集对初始神经网络模型进行迭代训练得到的训练完备的目标神经网络模型。该目标神经网络模型用于根据当前系统访问信息确定输出因子，输出因子可以影响迁移数据分析模型的阈值参数。

S230，通过激励函数对输出因子进行压缩处理。

其中，神经网络中的每个节点接受输入值，并将输入值传递给下一层，输入节点会将输入属性值直接传递给下一层。在神经网络中，隐藏层和输出层节点的输入和输出之间具有函数关系，这个函数称为激励函数。激励函数用于在神经网络中引入非线性，强化神经网络的学习能力。常见的激励函数包括：线性激励函数、阈值或阶跃激励函数、S形激励函数、双曲正切激励函数和高斯激励函数等。

示例性的，目标神经网络控制模型的输出因子为p，经过激活函数压缩处理后的输出因子为

通过激励函数可以将输出因子的值压缩在(0,1)范围内。

S240，将当前数据迁移速率输入目标自适应校正模型得到自适应校正因子，目标自适应校正模型通过历史数据迁移速率样本集迭代训练初始自适应校正模型得到。

其中，目标自适应校正模型是通过历史数据迁移速率样本集对初始自适应校正模型进行迭代训练得到的训练完备的目标自适应校正模型。该目标自适应校正模型用于根据当前数据迁移速率确定自适应校正因子，自适应校正因子用于根据当前数据迁移速率对输出因子进行自适应调节。

S250，根据压缩处理后的输出因子和自适应校正因子确定迁移控制因子。

具体的，若自适应校正因子为w，压缩处理后的输出因子为a(p)，迁移控制因子为q，则

其中，e是自然常数。迁移控制因子由当前系统访问信息所确定的输出因子，以及当前数据迁移速率所确定的自适应校正因子共同决定。从而实现根据当前系统访问信息和当前数据迁移速率影响迁移数据分析模型的阈值参数，从而影响待迁移数据的数量，控制数据的迁移速率，避免系统服务高峰期时迁移数据过多对系统产生严重影响。

S260，将历史数据访问信息输入迁移数据分析模型得到待迁移数据信息；迁移数据分析模型的阈值参数由迁移控制因子确定。

S270，基于待迁移数据信息，执行第一存储区和第二存储区之间的数据迁移操作。

本实施例的技术方案，通过获取访问信息，以及第一存储区和第二存储区之间的当前数据迁移速率，访问信息包括：当前系统访问信息和历史数据访问信息；将当前系统访问信息和当前数据迁移速率输入自适应控制模型得到迁移控制因子，包括：将当前系统访问信息输入目标神经网络控制模型得到输出因子，目标神经网络控制模型通过历史系统访问信息样本集迭代训练初始神经网络控制模型得到；通过激励函数对输出因子进行压缩处理；将当前数据迁移速率输入目标自适应校正模型得到自适应校正因子，目标自适应校正模型通过历史数据迁移速率样本集迭代训练初始自适应校正模型得到；根据压缩处理后的输出因子和自适应校正因子确定迁移控制因子；将历史数据访问信息输入迁移数据分析模型得到待迁移数据信息；迁移数据分析模型的阈值参数由迁移控制因子确定；基于待迁移数据信息，执行第一存储区和第二存储区之间的数据迁移操作，能够根据数据访问信息和当前数据迁移速率自适应控制数据在第一存储区和第二存储区之间的数据迁移，在访问高峰期时降低迁移速率，在访问低峰期时提高迁移速率，从而降低数据迁移对系统服务的影响。

可选的，通过历史系统访问信息训练样本集迭代训练初始神经网络控制模型包括：

建立初始神经网络控制模型；

将历史系统数据访问信息训练样本集输入初始神经网络控制模型得到预测输出因子；

通过激励函数对预测输出因子进行压缩处理；

其中，图2B为神经网络控制模型的结构示意图，如图2B所示，神经网络控制模型的输入为历史系统访问信息训练样本集，历史系统访问信息训练样本x包含以下信息：实时并发数x₁，平均响应时间x₂，第一存储区或第二存储区的存储量x₃，模型参数为历史系统访问信息训练样本x所包含信息对应的权重系数m，权重系数m包括：实时并发数x₁对应的实时并发数权重系数m₁、平均响应时间x₂对应的平均响应时间权重系数m₂和存储量x₃对应的存储量权重系数m₃。神经网络控制模型的输出为预测输出因子p。

具体的，将历史系统访问信息训练样本输入初始神经网络控制模型得到预测输出因子p₀，经过激活函数压缩处理后的输出因子为

根据压缩处理后的预测输出因子a₀(p₀)和第一预期数值a₁形成第一目标函数Z1＝a₀(p₀)-a₁，训练初始神经网络控制模型的参数，返回执行将历史系统访问信息训练样本输入初始神经网络控制模型的操作，直至确定第一目标函数为最优时对应的目标神经网络控制模型。

可选的，通过历史数据迁移速率训练样本集迭代训练初始自适应校正模型，包括：

建立初始自适应校正模型；

将历史数据迁移速率训练集输入初始自适应校正模型得到预测自适应校正因子；

根据预测自适应校正因子和第二预期数值形成的第二目标函数训练初始自适应校正模型的参数。

具体的，将历史数据迁移速率训练样本输入初始自适应校正模型得到预测自适应校正因子w₀；根据预测自适应校正因子w₀和第二预期数值w₁形成第二目标函数Z₂＝w₀-w₁，训练初始自适应校正模型的参数，返回执行将历史数据迁移速率训练样本输入初始神自适应校正模型的操作，直至确定第二目标函数为最优时对应的目标自适应校正模型。

可选的，在执行第一存储区和第二存储区之间的数据迁移操作之后，还包括：

基于信息摘要算法，分别计算执行数据迁移操作前待迁移数据的第一散列值和执行数据迁移操作后待迁移数据的第二散列值；待迁移数据由待迁移数据信息确定；

若第一散列值和第二散列值不同，则将执行迁移操作后的待迁移数据删除，并重新执行第一存储区和第二存储区之间的数据迁移操作；

若第一散列值和第二散列值相同，则删除执行迁移操作前的待迁移数据。

具体的，在执行第一存储区和第二存储区之间的数据操作时，为了保证数据在迁移过程的一致性，避免发生数据丢失等情况，在执行第一存储区和第二存储区之间的数据迁移操作之后，对数据进行完整性校验。执行数据完成性校验的方式为基于信息摘要算法，分别计算执行数据迁移操作前待迁移数据的第一散列值和执行数据迁移操作后待迁移数据的第二散列值，比较第一散列值和第二散列值是否相同。若第一散列值和第二散列值不同，则表示待迁移数据在迁移过程中发生错误，因此，需要将执行迁移操作后的待迁移数据全部删除，并重新执行第一存储区和第二存储区之间的数据迁移操作。若第一散列值和第二散列值相同，表明数据迁移未发生错误，则删除执行迁移操作前的待迁移数据，从而待迁移数据的迁移操作。

示例性的，待迁移数据信息表明需要将待迁移数据从第一存储区迁移至第二存储区，则计算存储于第一存储区的待迁移数据的第一散列值，将待迁移数据从第一存储区迁移至第二存储区后，计算第二存储区中待迁移数据的第二散列值，若第一散列值和第二散列值不同，则将第二存储区中的待迁移数据删除，此时第一存储区中还存储有待迁移数据，重新执行第一存储区和第二存储区之间的数据迁移操作。若第一散列值和第二散列值相同，则删除执行迁移操作前的待迁移数据，待迁移数据实现从第一存储区迁移至第二存储区。

本发明实施例通过信息摘要算法对数据迁移操作进行监测，保证数据在迁移过程中的完整性。

可选的，基于待迁移数据信息，执行第一存储区和第二存储区之间的数据迁移操作，包括：

根据第一待迁移数据信息确定第一待迁移数据，将第一待迁移数据从所述第一存储区迁移至第二存储区；第一待迁移数据为第一存储区内存储的预设时间内访问频率大于预设频率的数据；

根据第二待迁移数据信息确定第二待迁移数据，将第二待迁移数据从所述第二存储区迁移至第一存储区；第二待迁移数据为第二存储区内存储的在预设时间内访问频率小于或等于预设频率的数据。

其中，待迁移数据信息包括：第一待迁移数据信息和第二待迁移数据信息，第一待迁移数据信息用于表示存储于第一存储区的第一待迁移数据的信息，第一待迁移数据为第一存储区内存储的待迁移数据，即预设时间内访问频率低于或等于预设频率的数据。第二待迁移数据信息用于表示存储于第二存储区的第二待迁移数据的信息。第二待迁移数据为第二存储区内存储的待迁移数据，即预设时间内访问频率高于预设频率的数据。

根据迁移数据分析模型得到的待迁移数据信息，执行待迁移数据在第一存储区和第二存储区之间的数据迁移操作，实现对访问频率较高的热数据和访问频率较低的冷数据自动迁移至对应的存储区存储，提高热数据的访问效率。待迁移数据访问信息和当前数据迁移速率自适应确定，能够在访问高峰期时降低迁移速率，在访问低峰期时提高迁移速率，从而降低数据迁移对系统服务的影响。

如图2C所示，本发明实施例的具体步骤为：通过信息采集单元获取当前系统访问信息、当前数据迁移速率和历史数据访问信息，将当前系统访问信息输入目标神经网络控制模型得到输出因子，将当前数据迁移速率输入目标自适应校正模型得到自适应校正因子，根据激励函数压缩处理后的输出因子和自适应校正因子，确定迁移控制因子，根据迁移控制因子调节迁移数据分析模型的参数，历史数据访问信息输入迁移数据分析模型得到第一待迁移数据信息和第二待迁移数据信息，根据第一待迁移数据信息控制第一待迁移数据从第一存储区迁移至第二存储区，根据第二待迁移数据信息控制第二待迁移数据从第二存储区迁移至第一存储区。

实施例三

图3为本发明实施例三提供的一种数据迁移装置的结构示意图。本实施例可适用于基于数据访问情况对两个存储区存储的数据进行数据迁移的情况，该装置可采用软件和/或硬件的方式实现，该装置可集成在任何提供数据迁移的功能的设备中，如图3所示，所述数据迁移装置具体包括：获取模块310、迁移控制因子确定模块320、待迁移数据信息确定模块330和数据迁移模块340。

其中，获取模块310，用于获取访问信息，以及第一存储区和第二存储区之间的当前数据迁移速率，所述访问信息包括：当前系统访问信息和历史数据访问信息；

迁移控制因子确定模块320，用于将所述当前系统访问信息和所述当前数据迁移速率输入自适应控制模型得到迁移控制因子；

待迁移数据信息确定模块330，用于将所述历史数据访问信息输入迁移数据分析模型得到待迁移数据信息；所述迁移数据分析模型的阈值参数由所述迁移控制因子确定；

数据迁移模块340，用于基于所述待迁移数据信息，执行所述第一存储区和所述第二存储区之间的数据迁移操作。

可选的，所述自适应控制模型包括：目标神经网络控制模型和目标自适应校正模型；相应的，所述迁移控制因子确定模块320，包括：

输出因子确定单元，用于将所述当前系统访问信息输入目标神经网络控制模型得到输出因子，所述目标神经网络控制模型通过历史系统访问信息样本集迭代训练初始神经网络控制模型得到；

压缩处理单元，用于通过激励函数对所述输出因子进行压缩处理；

自适应校正因子确定单元，用于将所述当前数据迁移速率输入目标自适应校正模型得到自适应校正因子，所述目标自适应校正模型通过历史数据迁移速率样本集迭代训练初始自适应校正模型得到；

迁移控制因子单元，用于根据压缩处理后的输出因子和所述自适应校正因子确定迁移控制因子。

可选的，所述输出因子确定单元具体用于：

建立初始神经网络控制模型；

通过激励函数对所述预测输出因子进行压缩处理；

可选的，所述自适应校正因子确定单元，具体用于：

建立初始自适应校正模型；

可选的，还包括：

计算模块，用于在执行所述第一存储区和所述第二存储区之间的数据迁移操作之后，基于信息摘要算法，分别计算执行所述数据迁移操作前所述待迁移数据的第一散列值和执行所述数据迁移操作后所述待迁移数据的第二散列值；所述待迁移数据由所述待迁移数据信息确定；

第一删除模块，用于若所述第一散列值和所述第二散列值不同，则将执行所述迁移操作后的待迁移数据删除，并重新执行所述第一存储区和所述第二存储区之间的数据迁移操作；

第二删除模块，用于若所述第一散列值和所述第二散列值相同，则删除执行所述迁移操作前的待迁移数据。

可选的，所述待迁移数据信息包括：第一待迁移数据信息和第二待迁移数据信息，所述数据迁移模块340，具体用于：

可选的，所述第一存储区为基于列式存储的分布式数据存储区，所述第二存储区为基于对象存储的数据存储区。

上述产品可执行本发明任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4为本发明实施例四提供的一种终端设备的结构框图，如图4所示，该终端设备包括处理器410、存储器420、输入装置430和输出装置440；终端设备中处理器410的数量可以是一个或多个，图4中以一个处理器410为例；终端设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器420作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的数据迁移方法对应的程序指令/模块(例如，数据迁移装置中的获取模块310、迁移控制因子确定模块320、待迁移数据信息确定模块330和数据迁移模块340)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块，从而执行终端设备的各种功能应用以及数据处理，即实现上述的数据迁移方法。

存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器420可进一步包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字或字符信息，以及产生与终端设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。

实施例五

本发明实施例五提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请所有发明实施例提供的数据迁移方法：获取访问信息，以及第一存储区和第二存储区之间的当前数据迁移速率，访问信息包括：当前系统访问信息和历史数据访问信息；将当前系统访问信息和当前数据迁移速率输入自适应控制模型得到迁移控制因子；将历史数据访问信息输入迁移数据分析模型得到待迁移数据信息；迁移数据分析模型的阈值参数由迁移控制因子确定；基于待迁移数据信息，执行第一存储区和第二存储区之间的数据迁移操作。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种数据迁移方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述自适应控制模型包括：目标神经网络控制模型和目标自适应校正模型；相应的，将所述当前系统访问信息和所述当前数据迁移速率输入自适应控制模型得到迁移控制因子，包括：

通过激励函数对所述输出因子进行压缩处理；

3.根据权利要求2所述的方法，其特征在于，通过历史系统访问信息训练样本集迭代训练初始神经网络控制模型包括：

建立初始神经网络控制模型；

通过激励函数对所述预测输出因子进行压缩处理；

4.根据权利要求2所述的方法，其特征在于，通过历史数据迁移速率训练样本集迭代训练初始自适应校正模型，包括：

建立初始自适应校正模型；

5.根据权利要求1所述的方法，其特征在于，在执行所述第一存储区和所述第二存储区之间的数据迁移操作之后，还包括：

6.根据权利要求1所述的方法，其特征在于，所述待迁移数据信息包括：第一待迁移数据信息和第二待迁移数据信息，所述基于所述待迁移数据信息，执行所述第一存储区和所述第二存储区之间的数据迁移操作，包括：

根据所述第一待迁移数据信息确定第一待迁移数据，将所述第一待迁移数据从所述第一存储区迁移至所述第二存储区；所述第一待迁移数据为第一存储区内存储的预设时间内访问频率低于或等于预设频率的数据；

根据所述第二待迁移数据信息确定第二待迁移数据，将所述第二待迁移数据从所述第二存储区迁移至所述第一存储区；所述第二待迁移数据为第二存储区内存储的在预设时间内访问频率高于预设频率的数据。

7.根据权利要求1-6任一所述的方法，其特征在于，所述第一存储区为基于列式存储的分布式数据存储区，所述第二存储区为基于对象存储的数据存储区。

8.一种数据迁移装置，其特征在于，包括：

9.一种终端设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。