CN115098035A

CN115098035A - 基于多端云计算集群的大数据存储方法及系统

Info

Publication number: CN115098035A
Application number: CN202210799241.1A
Authority: CN
Inventors: 曹艳杰
Original assignee: Tianjin Huacheng Dingfeng Technology Co ltd
Current assignee: Sichuan Yinyi Technology Co ltd
Priority date: 2022-07-08
Filing date: 2022-07-08
Publication date: 2022-09-23
Anticipated expiration: 2042-07-08
Also published as: CN115098035B

Abstract

本发明提供一种基于多端云计算集群的大数据存储方法及系统，通过获取目标大数据存储路径对应的第一云集群信息，在预先存储的路径迁移信息数据中检索到所述第一云集群信息的条件下，在所述路径迁移信息数据中获取与所述第一云集群信息设置有关联标识的第一迁移序号，在预先存储的路径迁移关联数据中检索与所述第一迁移序号和所述第一云集群信息关联的一组迁移后集群属性信息，基于所述一组迁移后集群属性信息，对与所述目标大数据存储路径对应的所述第一云集群信息进行更新，基于更新后的目标大数据存储路径对应的第一云集群信息进行数据落盘，从而有效地避免了数据遗失的问题。

Description

基于多端云计算集群的大数据存储方法及系统

技术领域

本发明涉及大数据存储领域，具体而言，涉及一种基于多端云计算集群的大数据存储方法及系统。

背景技术

在大数据存储领域，混合云、多云是未来信息技术基础设施的主流发展方向，但是目前混合云、多云方案落地面临复杂的大数据存储问题，而多云集群的数据管理与控制则是处理该问题的核心之一。多个云集群中若是某些云集群，或者某些节点若是下线或者损坏或者对某区域用户禁用，则可能会引起存储路径发生迁移，导致数据无法进行有效的存储，进而导致数据遗失等问题。

发明内容

本发明的目的在于提供一种基于多端云计算集群的大数据存储方法及系统。

第一方面，本发明实施例提供一种基于多端云计算集群的大数据存储方法，包括：

获取目标大数据存储路径对应的第一云集群信息，其中，所述第一云集群信息是所述目标大数据存储路径指向的第一云集群的集群属性信息；

在预先存储的路径迁移信息数据中检索到所述第一云集群信息的条件下，在所述路径迁移信息数据中获取与所述第一云集群信息设置有关联标识的第一迁移序号，其中，所述路径迁移信息数据中存储了多组设置有关联标识的迁移序号和集群属性信息，所述路径迁移信息数据中的集群属性信息用于表示发生路径迁移的集群信息，所述路径迁移信息数据中的迁移序号是设置有关联标识的集群属性信息所表示的集群发生路径迁移的时间排序，所述第一迁移序号是所述路径迁移信息数据中与所述第一云集群信息设置有关联标识的迁移序号数值最小的迁移序号；

在预先存储的路径迁移关联数据中检索与所述第一迁移序号和所述第一云集群信息关联的一组迁移后集群属性信息，其中，所述路径迁移关联数据中存储了多组设置有关联标识的迁移序号、迁移前集群属性信息以及迁移后集群属性信息，所述路径迁移关联数据中的迁移序号是所述迁移前集群属性信息对应的集群发生路径迁移，确定所述迁移后集群属性信息对应的集群的路径迁移的时间排序；

基于所述一组迁移后集群属性信息，对与所述目标大数据存储路径对应的所述第一云集群信息进行更新；

基于更新后的目标大数据存储路径对应的第一云集群信息进行数据落盘。

第二方面，本发明实施例提供一种大数据存储控制系统，其特征在于，包括处理器和用于存储能够在处理器上运行的计算机程序的存储器，所述处理器用于运行所述计算机程序时，执行本发明第一方面中任意一项所述的基于多端云计算集群的大数据存储方法。

第三方面，本发明实施例提供一种可读存储介质，所述可读存储介质包括计算机程序，所述计算机程序运行时控制所述可读存储介质所在大数据存储控制系统执行本发明第一方面中任意一项所述的基于多端云计算集群的大数据存储方法。

相比现有技术，本发明提供的有益效果包括：通过获取目标大数据存储路径对应的第一云集群信息，并在数据表中检索到对应的迁移序号，再基于第一云集群信息和迁移序号确定第一云集群信息对应的云集群在发生路径迁移后迁移至的新的云集群，将目标大数据存储路径与迁移后的云集群进行关联，达到了对与目标大数据存储路径对应的第一云集群信息进行更新的目的，从而实现了提高大数据存储路径的更新效率以及更新准确率，使得多云集群发生大数据存储路径迁移后能够满足实际需要，进而保证了在大数据存储至多云集群时能够有效的实现数据落盘，避免数据遗失的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定。对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以基于这些附图获得其他相关的附图。

图1为本发明实施例提供的一种基于多端云计算集群的大数据存储方法的步骤流程示意图。

具体实施方式

下面结合附图，对本发明的具体实施方式进行详细说明。

图1是基于一示例性实施例示出的一种基于多端云计算集群的大数据存储方法的流程图，该方法可以应用于多云集群，具体可以应用于多云集群数据管理系统，该多云集群数据管理系统可以包括多个云集群，多个云集群中可以包括作为中央控制集群的一个云集群，应理解的是该中央控制集群可以是该多云集群中的任意一个集群。如图1所示，该方法包括：

S101，获取目标大数据存储路径对应的第一云集群信息，其中，第一云集群信息是目标大数据存储路径指向的第一云集群的集群属性信息。

其中，目标大数据存储路径可以是用户将数据集发送至该多云集群后，初始指定的存储路径，或者，基于下文实施例提供的存储路径确定方式确定的。例如，将数据集存储于云集群A中的节点X中的存储介质的某个分区中的某文件夹。具体地，该集群属性信息可以包括对应的云集群的标识信息，在该多云集群中每一个云集群具备一个唯一标识。

S102，在预先存储的路径迁移信息数据中检索到第一云集群信息的条件下，在路径迁移信息数据中获取与第一云集群信息设置有关联标识的第一迁移序号。

其中，路径迁移信息数据中存储了多组设置有关联标识的迁移序号和集群属性信息，路径迁移信息数据中的集群属性信息用于表示发生路径迁移的集群信息，路径迁移信息数据中的迁移序号是设置有关联标识的集群属性信息所表示的集群发生路径迁移的时间排序，第一迁移序号是路径迁移信息数据中与第一云集群信息设置有关联标识的迁移序号数值最小的迁移序号。

其中，上述路径迁移信息数据以及下文中的路径迁移关联数据，可以是存储于多云集群中的中央控制集群中的一个数据表。可以理解的是，上述关联标识可以是发送路径迁移后，将发生路径迁移的集群信息以及对应的迁移序号关联存储至数据表中时进行标识的，该路径迁移信息数据中的迁移序号可以用于表征集群发生路径迁移的时间顺序。

S103，在预先存储的路径迁移关联数据中确定与第一迁移序号和第一云集群信息关联的一组迁移后集群属性信息。

其中，路径迁移关联数据中存储了多组设置有关联标识的迁移序号、迁移前集群属性信息以及迁移后集群属性信息，路径迁移关联数据中的迁移序号是迁移前的集群发生路径迁移，确定迁移后的集群的路径迁移的时间排序，迁移前集群属性信息用于表示迁移前的云集群，迁移后集群属性信息用于表示迁移后的云集群。

其中，在该路径迁移关联数据中的迁移序号可以用于表征在该路径迁移关联数据中的集群发生路径迁移的时间顺序。

S104，在基于一组迁移后集群属性信息，对与目标大数据存储路径对应的第一云集群信息进行更新。

S105，基于更新后的目标大数据存储路径对应的第一云集群信息进行数据落盘。

其中，本公开对数据集的具体落盘方式不作限定，可以基于不同的云集群提供厂商进行配置，例如可以将数据集进行数据快照后读取其文件目录结构，并将文件进行切分、做多副本、擦除码等操作后，再进行数据落盘。

可以理解的是，更新后的目标大数据存储路径指向的云集群将可能与上述步骤S101中目标大数据存储路径指向的第一云集群不再相同。在数据落盘后，该多云系统还可以生成存储的数据的元大数据存储于该目标大数据存储路径指向的云集群，以便后续的数据查找与使用。

可选地，作为一种可选的实施方式，上述基于多端云计算集群的大数据存储方法包括：

获取目标大数据存储路径对应的第一云集群信息，其中，第一云集群信息是目标大数据存储路径指向的第一云集群的集群属性信息；

在预先存储的路径迁移信息数据中检索到第一云集群信息的条件下，在路径迁移信息数据中获取与第一云集群信息设置有关联标识的第一迁移序号，其中，路径迁移信息数据中存储了多组设置有关联标识的迁移序号和集群属性信息，路径迁移信息数据中的集群属性信息用于表示发生路径迁移的集群信息，路径迁移信息数据中的迁移序号是设置有关联标识的集群属性信息所表示的集群发生路径迁移的时间排序，第一迁移序号是路径迁移信息数据中与第一云集群信息设置有关联标识的迁移序号数值最小的迁移序号；

在预先存储的路径迁移关联数据中确定与第一迁移序号和第一云集群信息关联的一组迁移后集群属性信息，其中，路径迁移关联数据中存储了多组设置有关联标识的迁移序号、迁移前集群属性信息以及迁移后集群属性信息，路径迁移关联数据中的迁移序号是迁移前的集群发生路径迁移，确定迁移后的集群的路径迁移的时间排序，迁移前集群属性信息用于表示迁移前的云集群，迁移后集群属性信息用于表示迁移后的云集群；

基于一组迁移后集群属性信息，对与目标大数据存储路径对应的第一云集群信息进行更新。

可选地，在本实施例中，上述目标大数据存储路径指向的第一云集群可以包括但不限于从目标大数据存储路径的路径信息中确定，路径信息包括指向的云集群，云集群中节点以及具体的落盘位置等等。

可选地，在本实施例中，上述路径迁移信息数据可以包括但不限于在多云集群上保存有多组设置有关联标识的迁移序号和集群属性信息的数据表，其中，多组设置有关联标识的迁移序号和集群属性信息中每组迁移序号和集群属性信息中迁移序号和集群属性信息是一一对应的，也就是说，多组设置有关联标识的迁移序号和集群属性信息中每个集群属性信息对应一个或多个迁移序号，每个迁移序号也至少对应一个集群属性信息，但是，每组数据中只包括一个迁移序号，例如，发生路径迁移的集群信息集群属性信息对应云集群A，迁移序号为10，则可以表征在该路径迁移信息数据开始记录之后，云集群A是第10个发生路径迁移的云集群。

具体而言，上述路径迁移信息数据中的数据可以包括但不限于以键值对的形式存储，其中，值（即value）可以表征集群属性信息，键（即key）表征迁移序号。示例地，若路径迁移信息数据中值是集群属性信息，键是迁移序号，第一行数据可以则表示云集群A发生了路径迁移且迁移序号为1，第二行数据则可以表示云集群B发生了路径迁移且迁移序号为2，第三行数据则可以标识云集群A发生了路径迁移且迁移序号为3。

需要说明的是，上述路径迁移信息数据可以配置为响应式更新的方式，只要多云集群中的任意一个集群发生了路径迁移，则将对应的记录直接添加至路径迁移信息数据中。

可选地，在本实施例中，上述在预先存储的路径迁移信息数据中检索到第一云集群信息可以包括但不限于从上述键值型数据表中，基于第一云集群信息作为检索值，检索对应的一个或多个迁移序号，当存在多个迁移序号时，数值最小的迁移序号即为上述第一迁移序号。

可选地，在本实施例中，上述路径迁移关联数据可以包括但不限于在多云集群中存储的记录有多组设置有关联标识的迁移序号、迁移前集群属性信息以及迁移后集群属性信息的数据表，其中，多组设置有关联标识的迁移序号、迁移前集群属性信息以及迁移后集群属性信息中每组迁移序号、迁移前集群属性信息以及迁移后集群属性信息是一一对应的，也就是说，多组设置有关联标识的迁移序号、迁移前集群属性信息以及迁移后集群属性信息中每个迁移序号对应一个或多个迁移前集群属性信息以及一个或多个迁移后集群属性信息，每个迁移前集群属性信息也对应一个或多个第二迁移序号以及一个或多个迁移后集群属性信息，每个迁移后集群属性信息也对应一个或多个第二迁移序号以及一个或多个迁移前集群属性信息，但是，每一条数据中只包括第二迁移序号、一个迁移前集群属性信息和一个迁移后集群属性信息，例如，迁移前集群属性信息对应云集群A，迁移后集群属性信息对应云集群B，迁移序号为11。

具体而言，上述路径迁移关联数据中的数据可以包括但不限于以键值对的形式存储，其中，值可以是迁移序号和迁移前集群属性信息的组合，键可以是迁移后集群属性信息。示例地，若路径迁移关联数据中值是迁移序号和迁移前集群属性信息的组合，键是迁移后集群属性信息，第一行数据表示云集群A发生了路径迁移，且迁移至云集群C，迁移序号为1，第二行数据表示云集群B发生了路径迁移，且迁移至云集群D，迁移序号为2，第三行数据表示云集群C发生了路径迁移，且路径迁移为集群内路径迁移，迁移序号为3。

需要说明的是，上述路径迁移关联数据可以配置为响应式更新的方式，只要云集群发生了路径迁移，则将对应的记录直接添加至路径迁移关联数据中。

可选地，在本实施例中，上述在预先存储的路径迁移关联数据中确定与第一迁移序号和第一云集群信息关联的一组迁移后集群属性信息可以包括但不限于，基于第一云集群信息和第一迁移序号作为检索值，检索对应的一组迁移后集群属性信息。

具体而言，可以包括但不限于以第一迁移序号和第一云集群信息为初代检索标识，在路径迁移关联数据中执行多回合的游走检索命令，确定一组迁移后集群属性信息，其中，在多回合的游走检索命令中，前一回合的游走检索命令中检索到的迁移后集群属性信息用作后一回合的游走检索命令中的迁移前集群属性信息。

可选地，在本实施例中，上述基于一组迁移后集群属性信息，对与目标大数据存储路径对应的第一云集群信息进行更新可以包括但不限于基于一组迁移后的集群属性信息确定一组迁移后的云集群，获取上述一组迁移后的云集群的路径，将上述一组迁移后的云集群中与目标大数据存储路径匹配的云集群设置为与目标大数据存储路径更新后所指向的云集群，以对目标大数据存储路径对应的第一云集群信息进行更新，将第一云集群信息修改为对应的集群属性信息。

例如，当目标大数据存储路径所指向的第一云集群为云集群B，云集群B迁移至迁移C时，按照相关技术，会按照目标大数据存储路径地理位置最接近的云集群进行大数据存储，由于云集群A相较于云集群C的物理距离云集群B更近，则会将大数据存储路径变更为处于云集群A中的某个存储路径，然而云集群A与上传数据用户之间可能并不存在通信信道，此时，如果以云集群A进行大数据存储，则可能会导致数据无法进行有效地存储，而本申请中，会从路径迁移信息数据中检索云集群B对应的迁移序号，再基于云集群B的集群属性信息和迁移序号从路径迁移关联数据中检索到云集群B在迁移序号的排序迁移至云集群C，此时，会适应性将目标大数据存储路径指向的第一云集群信息对应的云集群B替换为云集群C，以使得将大数据存储至云集群C而不是云集群A，避免出现云集群路径迁移后，大数据存储路径不准确的问题，在云集群发生路径迁移时，提高了能够有效落盘的概率。

通过本实施例，采用获取目标大数据存储路径对应的第一云集群信息，其中，第一云集群信息是目标大数据存储路径指向的第一云集群的集群属性信息，在预先存储的路径迁移信息数据中检索到第一云集群信息的条件下，在路径迁移信息数据中获取与第一云集群信息设置有关联标识的第一迁移序号，其中，路径迁移信息数据中存储了多组设置有关联标识的迁移序号和集群属性信息，路径迁移信息数据中的集群属性信息用于表示发生路径迁移的集群信息，路径迁移信息数据中的迁移序号是设置有关联标识的集群属性信息所表示的集群发生路径迁移的时间排序，第一迁移序号是路径迁移信息数据中与第一云集群信息设置有关联标识的迁移序号数值最小的迁移序号，在预先存储的路径迁移关联数据中确定与第一迁移序号和第一云集群信息关联的一组迁移后集群属性信息，其中，路径迁移关联数据中存储了多组设置有关联标识的迁移序号、迁移前集群属性信息以及迁移后集群属性信息，路径迁移关联数据中的迁移序号是迁移前的集群发生路径迁移，确定迁移后的集群的路径迁移的时间排序，迁移前集群属性信息用于表示迁移前的云集群，迁移后集群属性信息用于表示迁移后的云集群，基于一组迁移后集群属性信息，对与目标大数据存储路径对应的第一云集群信息进行更新的方式，通过获取目标大数据存储路径对应的第一云集群信息，并在数据表中检索到对应的迁移序号，再基于第一云集群信息和迁移序号确定第一云集群信息对应的云集群在发生路径迁移后迁移至的新的云集群，将目标大数据存储路径与迁移后的云集群进行关联，达到了对与目标大数据存储路径对应的第一云集群信息进行更新的目的，从而实现了提高大数据存储路径的更新效率以及更新准确率，使得多云集群发生大数据存储路径迁移后能够满足实际需要，进而保证了在大数据存储至多云集群时能够有效的实现数据落盘，避免数据遗失的问题。

作为一种可选的方案，在预先存储的路径迁移关联数据中确定与第一迁移序号和第一云集群信息关联的一组迁移后集群属性信息，包括：

以第一迁移序号和第一云集群信息为初代检索标识，在路径迁移关联数据中执行多回合的游走检索命令，确定一组迁移后集群属性信息，其中，在多回合的游走检索命令中，前一回合的游走检索命令中检索到的迁移后集群属性信息用作后一回合的游走检索命令中的迁移前集群属性信息。

可选地，在本实施例中，上述以第一迁移序号和第一云集群信息为初代检索标识可以理解为以第一云集群信息在路径迁移信息数据中数值最小的迁移序号开始多回合的游走检索命令，当检索到一组迁移后集群属性信息时，将一组迁移后集群属性信息中每个集群属性信息均用作后一回合的游走检索命令中的迁移前集群属性信息，再从路径迁移信息数据中检索数值大于第一迁移序号的新的迁移序号，再基于新的迁移序号以及前一回合的迁移后的集群属性信息从路径迁移关联数据中继续检索迁移后的集群属性信息，直到多回合的游走检索命令后，在路径迁移信息数据中，无法检索到前一回合的迁移后的集群属性信息所对应的迁移序号。

示例地，若路径迁移信息数据中值是集群属性信息，键是迁移序号，路径迁移关联数据中值是迁移序号和迁移前集群属性信息的组合，键是迁移后集群属性信息，目标大数据存储路径指向的第一云集群是云集群A，基于云集群A的第一云集群信息从路径迁移信息数据中检索到第一迁移序号1，基于第一云集群信息对应的标识信息“云集群A”以及第一迁移序号“1”从路径迁移关联数据中检索到一组迁移后集群属性信息为“云集群C”，以“云集群C”为迁移前集群属性信息，从路径迁移信息数据中检索后一回合的的迁移序号，在检索到后一回合的迁移序号“3”的条件下，以迁移序号为“3”，迁移前集群属性信息为“云集群C”从路径迁移关联数据中查找后一回合的对应的一组迁移后的集群属性信息“云集群E”，由于“云集群E”作为迁移前集群属性信息不再能够从路径迁移信息数据中检索到信息，因此，结束游走检索命令，“云集群E”即为上述一组迁移后的集群属性信息。

作为一种可选的方案，以第一迁移序号和第一云集群信息为初代检索标识，在路径迁移关联数据中执行多回合的游走检索命令，确定一组迁移后集群属性信息，包括：

重复执行游走检索命令，直到达到预先设置的预设终止指标，确定迁移前集群属性信息队列，其中，迁移前集群属性信息队列的初代检索标识为第一云集群信息和第一迁移序号：

在路径迁移关联数据中检索与迁移前集群属性信息队列中的每组设置有关联标识的迁移前集群属性信息和迁移序号对应的迁移后集群属性信息，确定当前迁移后集群属性信息队列；

在当前迁移后集群属性信息队列不为空时，将当前迁移后集群属性信息队列中的迁移后集群属性信息作为后一回合的游走检索命令中的迁移前集群属性信息，在路径迁移信息数据中检索与后一回合的游走检索命令中的迁移前集群属性信息对应的迁移序号，并在检索到与后一回合的游走检索命令中的迁移前集群属性信息对应的迁移序号的条件下，将迁移前集群属性信息队列变更为包括设置有关联标识的后一回合的游走检索命令中的迁移前集群属性信息和迁移序号，在无法检索到与后一回合的游走检索命令中的迁移前集群属性信息对应的迁移序号的条件下，将后一回合的游走检索命令中的迁移前集群属性信息设置为一组迁移后集群属性信息中的迁移后集群属性信息。

可选地，在本实施例中，上述预设终止指标可以配置为上述当前回合的迁移后的集群属性信息在路径迁移信息数据中无法检索到后一回合的相关信息，也即，在路径迁移信息数据中无法以当前回合的迁移后的集群属性信息作为迁移前集群属性信息检索到迁移序号时，停止游走检索，将后一回合的游走检索命令中的迁移前集群属性信息设置为一组迁移后集群属性信息中的迁移后集群属性信息，或者，可以配置为当多回合的游走检索的次数达到预设次数阈值时，终止游走检索，将后一回合的游走检索命令中的迁移前集群属性信息设置为一组迁移后集群属性信息中的迁移后集群属性信息。

可选地，在本实施例中，上述当前迁移后集群属性信息队列不为空可以理解为在路径迁移关联数据中存在迁移前集群属性信息存在对应的当前一组迁移后集群属性信息，也即，当前游走检索命令所使用的迁移前集群属性信息可以在路径迁移关联数据中检索到一组迁移后集群属性信息。

作为一种可选的方案，在路径迁移信息数据中检索与后一回合的游走检索命令中的迁移前集群属性信息对应的迁移序号，包括：

在路径迁移信息数据中检索与后一回合的游走检索命令中的迁移前集群属性信息设置有关联标识的迁移序号；

在检索到与后一回合的游走检索命令中的迁移前集群属性信息设置有关联标识的第二迁移序号、且检索到的第二迁移序号的数值大于当前迁移序号的条件下，将检索到的第二迁移序号设置为与后一回合的游走检索命令中的迁移前集群属性信息设置有关联标识的迁移序号，其中，当前迁移序号是迁移前集群属性信息队列中与后一回合的游走检索命令中的迁移前集群属性信息设置有关联标识的迁移序号；

在检索到与后一回合的游走检索命令中的迁移前集群属性信息设置有关联标识的、且大于当前迁移序号的多个迁移序号的条件下，在多个迁移序号中确定与当前迁移序号数值差距最小的目标迁移序号，并将目标迁移序号设置为与后一回合的游走检索命令中的迁移前集群属性信息设置有关联标识的迁移序号。

可选地，在本实施例中，上述检索到与后一回合的游走检索命令中的迁移前集群属性信息设置有关联标识的第二迁移序号、且检索到的第二迁移序号的数值大于当前迁移序号可以理解为在路径迁移信息数据中，与后一回合的游走检索命令中的迁移前集群属性信息设置有关联标识的第二迁移序号是唯一的，也即，数值大于当前迁移序号，且与后一回合的游走检索命令中的迁移前集群属性信息设置有关联标识的迁移序号是唯一的。

示例地，以当前迁移序号为10为例，当前迁移前标识是云集群A，从路径迁移关联数据中检索到当前迁移后标识是云集群C，以云集群C作为上述后一回合的游走检索命令中的迁移前集群属性信息，确定设置有关联标识的第二迁移序号是11，该迁移序号数值大于10，因此，将检索到的第二迁移序号11设置为与后一回合的游走检索命令中的迁移前集群属性信息设置有关联标识的迁移序号。

可选地，在本实施例中，上述检索到与后一回合的游走检索命令中的迁移前集群属性信息设置有关联标识的、且大于当前迁移序号的多个迁移序号可以理解为与后一回合的游走检索命令中的迁移前集群属性信息设置有关联标识的、且大于当前迁移序号的迁移序号存在多个，此时，将与当前迁移序号数值差距最小的迁移序号设置为目标迁移序号，以和后一回合的游走检索命令中的迁移前集群属性信息匹配，从路径迁移关联数据中确定后一回合的游走检索命令中的一组迁移后集群属性信息。

示例地，以当前迁移序号为10为例，当前迁移前集群属性信息对应云集群A，从路径迁移关联数据中检索到当前迁移后集群属性信息对应云集群C，以云集群C作为上述后一回合的游走检索命令中的迁移前集群属性信息，确定设置有关联标识的多个迁移序号是11和12，上述多个迁移序号均大于10，因此，将与当前迁移序号数值差距最小的目标迁移序号11设置为与后一回合的游走检索命令中的迁移前集群属性信息设置有关联标识的迁移序号，以和后一回合的游走检索命令中的迁移前集群属性信息匹配，从路径迁移关联数据中确定后一回合的游走检索命令中的一组迁移后集群属性信息。

作为一种可选的方案，重复执行游走检索命令，直到达到预先设置的预设终止指标，确定迁移前集群属性信息队列，包括：

在当前迁移后集群属性信息队列为空时，确定出满足预设终止指标，结束多回合的游走检索命令；或者

在确定游走检索命令的执行回合数达到预设次数阈值的条件下，确定出满足预设终止指标，终止执行多回合的游走检索命令，其中，预设次数阈值为大于或等于2的正整数。

可选地，在本实施例中，上述当前迁移后集群属性信息队列为空可以理解为在路径迁移关联数据中无法检索到当前回合迁移前集群属性信息对应的迁移后集群属性信息，也即，在路径迁移信息数据中检索不到当前回合迁移前集群属性信息所对应的迁移序号。

作为一种可选的方案，方法还包括：

在第一云集群在第一迁移序号迁移至第二云集群的条件下，在路径迁移信息数据中加入设置有关联标识的第一迁移序号和第一云集群信息，在路径迁移关联数据中加入设置有关联标识的第一迁移序号、存储为迁移前集群属性信息的第一云集群信息、以及存储为迁移后集群属性信息的第二集群属性信息，其中，第二集群属性信息是第二云集群的集群属性信息；或者

在第一云集群在第一迁移序号迁移至第二云集群和第三云集群的条件下，在路径迁移信息数据中加入设置有关联标识的第一迁移序号和第一云集群信息，在路径迁移关联数据中加入设置有关联标识的第一迁移序号、存储为迁移前集群属性信息的第一云集群信息、以及存储为迁移后集群属性信息的第二集群属性信息，并在路径迁移关联数据中加入设置有关联标识的第一迁移序号、存储为迁移前集群属性信息的第一云集群信息、以及存储为迁移后集群属性信息的第三云集群集群属性信息，其中，第二集群属性信息是第二云集群的集群属性信息，第三云集群集群属性信息是第三云集群的集群属性信息；或者

在第一云集群和第二云集群在第一迁移序号迁移至第三云集群的条件下，在路径迁移信息数据中加入设置有关联标识的第一迁移序号和第一云集群信息以及设置有关联标识的第一迁移序号和第二集群属性信息，在路径迁移关联数据中加入设置有关联标识的第一迁移序号、存储为迁移前集群属性信息的第一云集群信息、以及存储为迁移后集群属性信息的第三云集群集群属性信息，并在路径迁移关联数据中加入设置有关联标识的第一迁移序号、存储为迁移前集群属性信息的第二集群属性信息、以及存储为迁移后集群属性信息的第三云集群集群属性信息。

可选地，在本实施例中，上述第一云集群在第一迁移序号迁移至第二云集群可以包括但不限于云集群A在序号K迁移至云集群B，在路径迁移信息数据中加入设置有关联标识的第一迁移序号K和第一云集群信息“云集群A”，在路径迁移关联数据中加入设置有关联标识的第一迁移序号K、存储为迁移前集群属性信息的第一云集群信息“云集群A”、以及存储为迁移后集群属性信息的第二集群属性信息“云集群B”。

示例地，当云集群A在序号K迁移至云集群B时，则将序号K与云集群A对应的一组云集群路径迁移信息数据添加到路径迁移信息数据中，将序号K、云集群A和云集群B对应的一组云集群路径迁移关联数据添加到路径迁移关联数据中。

可选地，在本实施例中，上述在第一云集群在第一迁移序号迁移至第二云集群和第三云集群可以包括但不限于云集群A在迁移序号K迁移至云集群B和云集群C，在路径迁移信息数据中加入设置有关联标识的第一迁移序号K和第一云集群信息“云集群A”，在路径迁移关联数据中加入设置有关联标识的第一迁移序号K、存储为迁移前集群属性信息的第一云集群信息“云集群A”、以及存储为迁移后集群属性信息的第二集群属性信息“云集群B”，并在路径迁移关联数据中加入设置有关联标识的第一迁移序号K、存储为迁移前集群属性信息的第一云集群信息“云集群A”、以及存储为迁移后集群属性信息的第三云集群集群属性信息“云集群C”。

示例地，当云集群A在迁移序号K迁移至云集群B和云集群C时，则将序号K与云集群A对应的一组云集群路径迁移信息数据添加到路径迁移信息数据中，将序号K、云集群A和云集群B对应的一组云集群路径迁移关联数据添加到路径迁移关联数据中，并将序号K、云集群A和云集群C对应的一组云集群路径迁移关联数据添加到路径迁移关联数据中。其中，上述迁移序号K可以是基于查询路径迁移关联数据中的最大序号的反馈信息确定的。

可选地，在本实施例中，上述在第一云集群和第二云集群在第一迁移序号迁移至第三云集群可以包括但不限于云集群A与云集群B在迁移序号K迁移至云集群C，在路径迁移信息数据中加入设置有关联标识的第一迁移序号K和第一云集群信息“云集群A”以及设置有关联标识的第一迁移序号K和第二集群属性信息“云集群B”，在路径迁移关联数据中加入设置有关联标识的第一迁移序号K、存储为迁移前集群属性信息的第一云集群信息“云集群A”、以及存储为迁移后集群属性信息的第三云集群集群属性信息“云集群C”，并在路径迁移关联数据中加入设置有关联标识的第一迁移序号K、存储为迁移前集群属性信息的第二集群属性信息“云集群B”、以及存储为迁移后集群属性信息的第三云集群集群属性信息中的唯一标识信息“云集群C”。

示例地，当云集群A和云集群B在迁移序号K迁移至云集群C时，则将K与云集群A对应的一组云集群路径迁移信息数据添加到路径迁移信息数据中，并将K与云集群B对应的一组云集群路径迁移信息数据添加到路径迁移信息数据中，将K、云集群A和云集群C对应的一组云集群路径迁移关联数据添加到路径迁移关联数据中，并将K、云集群B和云集群C对应的一组云集群路径迁移关联数据添加到路径迁移关联数据中。

上述仅是一种示例，本实施例不做任何具体的限定。

作为一种可选的方案，方法还包括：

在第一云集群在第一迁移序号迁移至第一云集群和第二云集群的条件下，在路径迁移信息数据中加入设置有关联标识的第一迁移序号和第一云集群信息，在路径迁移关联数据中加入设置有关联标识的第一迁移序号、存储为迁移前集群属性信息的第一云集群信息、以及存储为迁移后集群属性信息的第一云集群信息，并在路径迁移关联数据中加入设置有关联标识的第一迁移序号、存储为迁移前集群属性信息的第一云集群信息、以及存储为迁移后集群属性信息的第二集群属性信息，其中，第二集群属性信息是第二云集群的集群属性信息；或者

在第一云集群和第二云集群在第一迁移序号迁移至第一云集群的条件下，在路径迁移信息数据中加入设置有关联标识的第一迁移序号和第一云集群信息以及设置有关联标识的第一迁移序号和第二集群属性信息，在路径迁移关联数据中加入设置有关联标识的第一迁移序号、存储为迁移前集群属性信息的第一云集群信息、以及存储为迁移后集群属性信息的第一云集群信息，并在路径迁移关联数据中加入设置有关联标识的第一迁移序号、存储为迁移前集群属性信息的第二集群属性信息和存储为迁移后集群属性信息的第一云集群信息。

可选地，在本实施例中，上述在第一云集群在第一迁移序号迁移至第一云集群和第二云集群可以包括但不限于云集群A在迁移序号K迁移至云集群A和云集群B，在路径迁移信息数据中加入设置有关联标识的第一迁移序号K和第一云集群信息“云集群A”，在路径迁移关联数据中加入设置有关联标识的第一迁移序号K、存储为迁移前集群属性信息的第一云集群信息“云集群A”、以及存储为迁移后集群属性信息的第二集群属性信息“云集群A”，并在路径迁移关联数据中加入设置有关联标识的第一迁移序号K、存储为迁移前集群属性信息的第一云集群信息“云集群A”、以及存储为迁移后集群属性信息的第三云集群集群属性信息“云集群B”。

可选地，在本实施例中，上述在第一云集群和第二云集群在第一迁移序号迁移至第一云集群可以包括但不限于云集群A与云集群B在迁移序号K变换为云集群A，在路径迁移信息数据中加入设置有关联标识的第一迁移序号K和第一云集群信息“云集群A”以及设置有关联标识的第一迁移序号K和第二集群属性信息“云集群B”，在路径迁移关联数据中加入设置有关联标识的第一迁移序号K、存储为迁移前集群属性信息的第一云集群信息“云集群A”、以及存储为迁移后集群属性信息的第三云集群集群属性信息“云集群A”，并在路径迁移关联数据中加入设置有关联标识的第一迁移序号K、存储为迁移前集群属性信息的第二集群属性信息“云集群B”、以及存储为迁移后集群属性信息的第三云集群集群属性信息“云集群A”。

需要说明的是，当云集群发生了多回合的迁移时，则执行多回合的游走检索命令，示例地，当云集群A在迁移序号K迁移至云集群B和云集群C时，则将序号K与云集群A对应的一组云集群路径迁移信息数据添加到路径迁移信息数据中，将序号K、云集群A和云集群B对应的一组云集群路径迁移关联数据添加到路径迁移关联数据中，并将K、云集群A和云集群C对应的一组云集群路径迁移关联数据添加到路径迁移关联数据中，当云集群B在迁移序号L迁移至云集群E时，则将序号L与云集群B对应的一组云集群路径迁移信息数据添加到路径迁移信息数据中，将序号L、云集群B和云集群E对应的一组云集群路径迁移关联数据添加到路径迁移关联数据中，将序号L与云集群C对应的一组云集群路径迁移信息数据添加到路径迁移信息数据中，将序号L、云集群C和云集群A对应的一组云集群路径迁移关联数据添加到路径迁移关联数据中，当云集群E和云集群A在迁移序号M迁移至云集群A时，则将序号M与云集群E对应的一组云集群路径迁移信息数据添加到路径迁移信息数据中，将序号M、云集群E和云集群A对应的一组云集群路径迁移关联数据添加到路径迁移关联数据中，将序号M与云集群A对应的一组云集群路径迁移信息数据添加到路径迁移信息数据中，将序号M、云集群A和云集群A对应的一组云集群路径迁移关联数据添加到路径迁移关联数据中。

上述仅是一种示例，本实施例不做任何具体的限定。

作为一种可选的方案，基于一组迁移后集群属性信息，对与目标大数据存储路径对应的第一云集群信息进行更新，包括：

在一组迁移后集群属性信息所对应的一组云集群中，将与目标大数据存储路径最接近的云集群设置为目标云集群；

将目标大数据存储路径对应的集群属性信息从第一云集群信息变更为目标云集群对应的集群属性信息，其中，目标云集群对应的集群属性信息是目标大数据存储路径指向的目标云集群的集群属性信息。

可选地，在本实施例中，在上述一组迁移后集群属性信息包括至少两个的条件下，将上述一组迁移后集群属性信息所对应的一组云集群中与目标大数据存储路径最接近的云集群设置为目标云集群。计算方式具体可以包括但不限于基于预先存储的云集群实际部署的地理位置计算云集群之间的距离，并基于各个云集群之间的距离确定与目标大数据存储路径最接近的云集群。

可选地，在本实施例中，上述将目标大数据存储路径对应的集群属性信息从第一云集群信息变更为目标云集群对应的集群属性信息可以包括但不限于将目标大数据存储路径指向的第一云集群信息替换为目标云集群对应的集群属性信息。

作为一种可选的方案，方法还包括：

在目标云集群上获取与目标大数据存储路径最为接近的目标落盘路径；

将目标大数据存储路径变更为目标落盘路径。

可选地，在本实施例中，当确定目标云集群后，将目标云集群上与目标大数据存储路径最相似的存储路径设置为目标大数据存储路径，换言之，将目标大数据存储路径变更为与目标云集群中与目标大数据存储路径最为接近的目标落盘路径。

下面结合具体的实施例，对本上述方案进行进一步地解释说明：

前述的集群属性信息包括下述的云集群唯一标识。关于多云集群，有两点重要的业务背景：（1）识别云集群对大数据存储至关重要，云集群是大量数据的载体，数据的存储路径必须指向正确的云集群；（2）多云集群的运行情况随时都可能变化更新，具体表现形式有：新增云集群、云集群下线、云集群停机检修、集群内部路径改变等。其中每一类变化都可能对在多云集群中存储数据带来影响。

在多云集群存储系统中，云集群的路径迁移一旦发生，则可能表现为老旧云集群标识或者存储指令指向的路径失效，无法基于云集群标识获取有效的大数据存储路径，导致数据丢失。

在多云集群中央后台数据中，对云集群的路径迁移，一般是在路径迁移发生的时刻存储一条关系数据，例如，可以存储以下的记录：迁移序号1：A至B,C；迁移序号2：B至E；迁移序号3：C,D至A；迁移序号4：E至E；（云集群内部的存储路径发生迁移，例如将云集群E中指向存储介质A的存储路径迁移至存储介质B）迁移序号5：E,A至A；迁移序号6：D至F。

如果存储指令指向路径所对应的云集群的发生了路径迁移，那存储指令指向路径所对应的云集群和存储路径都需要随之变化。例如，如果在序号1发生路径迁移的云集群唯一标识是A，基于迁移关系链可以看到，最终云集群A迁移至了云集群E，A，F，此时，需要从中选择一个云集群作为新的存储目标，并将原始的存储路径更新到该云集群对应的存储路径上。

基于上述实施例，在一些可选地实施例中，获取目标大数据存储路径对应的第一云集群信息之前，该方法可以包括：

获取多云集群中的各个云集群在多个采样时段采样得到的数据流量的流量信息。

其中，数据流量可以为对应的云集群在采样时段发送与接收的数据的总流量，也可以是云集群接收的数据的总流量。

可以理解的是，由于网络原因或者某些云集群临时下线，可能导致数据流量的流量信息无法被采集到，在实施中，可以按照某一周期对多云集群中各云集群的缺省流量信息进行填充，具体的，在对缺省流量信息进行填充时，可以指定对多云集群中的各个云集群在一定时间范围内的多个采样时段缺省的数据流量的流量信息进行填充。

游走各个云集群中任意两个云集群，基于两个云集群在多个采样时段采样得到的数据流量的流量信息，确定两个云集群的匹配指标。

这样，即可得到各个云集群中每两个云集群对应的匹配指标。在实施中，在确定云集群的匹配指标之前，如果第四云集群在第一采样时段内未采集到数据流量的流量信息，则可以先对第四云集群在第一采样时段的数据流量的流量信息进行合理推理，确定第四云集群在第一采样时段的数据流量的推理流量信息。

示例地，若除云集群A外，其余云集群均存在流量信息缺失，那么，可以将除云集群A外的其余流量信息对应的云集群作为第四云集群，并对数据流量的流量信息进行合理推理。

针对得到第四云集群在第一采样时段的数据流量的推理流量信息的方案可以有多种，下面举例进行说明。

方案1：获取第四云集群在第一采样时段之前采集的一个或多个数据流量的流量信息以及在第一采样时段之后采集的一个或多个数据流量的流量信息。确定在第一采样时段之前采集的一个或多个数据流量的流量信息以及在第一采样时段之后采集的一个或多个数据流量的流量信息的算数均值，作为第四云集群在第一采样时段的数据流量的推理流量信息。

其中，第四云集群在第一采样时段之前采样得到的数据流量的一个或多个流量信息可以为在第一采样时段之前，距离该第一采样时段最近的一个或多个采样时段内采样得到的第四云集群的数据流量的流量信息。相应的，第四云集群在第一采样时段之后采样得到的数据流量的一个或多个流量信息可以为在第一采样时段之后，距离该第一采样时段最近的一个或多个采样时段内采集的第四云集群的数据流量的流量信息。例如，一个采样时段预设为20分钟，第一采样时段为9:30到9:50，则在第一采样时段之前，距离该第一采样时段最近的一个采样时段为8:30到8:50，多个采样时段为8:30到8:50、9:30到9:50等等。同理，一个采样时段被设定为20分钟，第一采样时段为9:30到9:50，则在第一采样时段之后，距离该第一采样时段最近的一个采样时段为10:30到10:50，多个采样时段为9:30到9:50、10:30到10:50等等。

此处需要说明的是，具体需要获取几个采样时段的流量信息可以基于实际需求设置。另外，在第一采样时段之前获取的流量信息数量与在第一采样时段之前获取的流量信息数量可以相同，也可以不同。例如，可以在第一采样时段之前和之后同样获取两个采样时段内采集的流量信息，还可以在第一采样时段时间获取两个采样时段的流量信息，而在第一采样时段之后获取一个采样时段的流量信息。

下面通过一示例对该上述方案进行说明：

例如，获取第四云集群在第一采样时段之前距离第一采样时段最近的两个采样时段采样得到的数据流量的流量信息表征该云集群接收的数据总量分别为400G和420G，获取第四云集群在第一采样时段之后距离第一采样时段最近的两个采样时段采样得到的数据流量的流量信息分别为300G和380G。然后，确定上述获取的四个流量信息的算数均值为375G。针对计算得到的算数均值取小数点后预设位数。如，针对375.525可以按照四舍五入取小数点后一位，确定375.5作为上述四个流量信息的算数均值。该算数均值即可以作为第四云集群在第一采样时段的数据流量的推理流量信息。

针对方案1来说，在一种可能的实施方式中，还可以仅获取第一采样时段时间之前采集的一个或多个数据流量的流量信息，或者，仅获取在第一采样时段之后采集的一个或多个数据流量的流量信息。在仅获取一个采样时段采样得到的数据流量的流量信息的条件下，可以直接将这一个采样时段采样得到的数据流量的流量信息作为第四云集群在第一采样时段的数据流量的推理流量信息。

方案2：获取第四云集群的每个同地区云集群在第一采样时段之前采集的一个或多个数据流量的流量信息以及在第一采样时段之后采集的一个或多个数据流量的流量信息。确定各同地区云集群采集的流量信息的算数均值，作为第四云集群在第一采样时段的数据流量的推理流量信息。

其中，一个云集群的同地区云集群可以是与该云集群处于同一城市或者省份的云集群。例如，若云集群A与云集群C均部署在成都，云集群D与云集群E均部署在上海，则针对云集群A，其同地区云集群为云集群C、针对云集群D，其痛不如当云集群为云集群F。或者，还可以将同地区云集群替换为同厂商云集群，本领域技术人员可以基于其实际需求进行设置，本公开对此不作具体限定。

下面通过一示例对上述方案进行说明：

例如，第四云集群的同地区云集群包括云集群A以及云集群B。获取云集群A在第一采样时段之前距离第一采样时段最近的一个采样时段采样得到的数据流量的流量信息表征该云集群接收的数据总量为400G，获取云集群A在第一采样时段之后距离第一采样时段最近的一个采样时段采样得到的数据流量的流量信息表征该云集群接收的数据总量为410G。获取云集群B在第一采样时段之前距离第一采样时段最近的一个采样时段采样得到的数据流量的流量信息表征该云集群接收的数据总量为382G，获取云集群B在第一采样时段之后距离第一采样时段最近的一个采样时段采样得到的数据流量的流量信息表征该云集群接收的数据总量为400G。获取第四云集群在第一采样时段之前距离第一采样时段最近的一个采样时段采样得到的数据流量的流量信息表征该云集群接收的数据总量为350G，获取第四云集群在第一采样时段之后距离第一采样时段最近的一个采样时段采样得到的数据流量的流量信息为378G。然后，确定上述获取的六个流量信息的算数均值为386.666。针对得到的算数均值取小数点后预设位数。如，针对386.666可以按照四舍五入取小数点后一位，确定386.7作为上述六个流量信息的算数均值。该算数均值即可以作为第四云集群在第一采样时段的数据流量的推理流量信息。

方案3：获取第四云集群的多个同地区云集群在第一采样时段采样得到的数据流量的流量信息。确定多个同地区云集群在第一采样时段采样得到的数据流量的流量信息的算数均值，作为第四云集群在第一采样时段的数据流量的推理流量信息。

下面通过一示例对上述方案进行说明：

例如，第四云集群的同地区云集群包括云集群A以及云集群B。获取第五云集群在第一采样时段采样得到的数据流量的流量信息表征该云集群接收的数据总量为400G。获取第六云集群在第一采样时段采样得到的数据流量的流量信息表征该云集群接收的数据总量为382G。获取第四云集群在第一采样时段采样得到的数据流量的流量信息表征该云集群接收的数据总量为350G。然后，确定上述获取的三个流量信息的算数均值为377.333G。针对得到的算数均值按照预设规则取小数点后预设位数针对，确定377.3作为上述三个流量信息的算数均值。该算数均值即可以作为第四云集群在第一采样时段的数据流量的推理流量信息。

可以理解的是，在上述示例中的云集群接收的数据总量可能是远小于上述示例中示出的数值的。

此外，在一种可能的实现方式中，上述示出的上述方案中的任一两个或三个可以进行任意的排列组合后结合使用。

在对各云集群未采集到的数据流量的流量信息进行合理推理后，可以基于每两个云集群在多个采样时段采样得到的数据流量的流量信息和合理推理得到的数据流量的推理流量信息，确定这两个云集群的匹配指标。

其中，匹配指标可以为皮尔逊积矩相关系数或者斯皮尔曼相关系数等。

针对基于每两个云集群的匹配指标，确定每个云集群在数据流量对应的坐标张量中对应的坐标。基于每个云集群在数据流量对应的坐标张量中对应的坐标和每个云集群在多个采样时段采样得到的数据流量的流量信息，生成数据流量对应的坐标张量。

其中，坐标张量由对应的数据流量在不同云集群、不同采样时段的流量信息和缺省坐标组成，可以表征为一个多维度的矩阵。

在实施中，以匹配指标为分析指标，对各个云集群进行群分析，确定多个云集群群组以及每个云集群群组中作为群组核心的中心云集群。其中，该群分析可以是基于聚类算法进行的，例如，群分析可以采用基于密度的空间聚类算法、K均值聚类算法等，在采用聚类算法进行群分析时，该群组核心即可表征为聚类中心。

示例地，针对各云集群进行群分析后，可以得到两个云集群群组，其中，云集群A、云集群B、云集群C、云集群D、云集群E和云集群F为一个云集群群组，云集群G、云集群H、云集群I、云集群J、云集群K和云集群L为另一个云集群群组。

针对每个云集群群组，可以生成对应该云集群群组对应的坐标张量。云集群群组中的每个云集群在该云集群群组对应的坐标张量中的坐标可以基于该云集群与该云集群群组的中心云集群的匹配指标，确定该云集群在该云集群群组对应的坐标张量中对应的坐标。

具体的，针对一个云集群群组，该云集群群组的各云集群与该云集群群组中的中心云集群的匹配指标越大，则表明该云集群与中心云集群的关联程度越高，那么，该云集群在该云集群群组中的坐标则距离中心云集群越近。例如，针对一个云集群群组来说可以以中心云集群采样得到的数据流量的流量信息，作为该云集群群组对应的坐标张量的第一维度元素，然后，按照该云集群群组中的其余各云集群与中心云集群之间的匹配指标由高到低的序列次第向下形成队列，即将该云集群群组中与该中心云集群的匹配指标最大的云集群采集的流量信息作为该云集群群组对应的坐标张量的第二维度元素，以此类推。

例如，针对上述示例中的第一个云集群群组，其中包括云集群A、云集群B、云集群C、云集群D、云集群E和云集群F，若该云集群群组中作为群组核心的中心云集群为云集群C。可以得出，云集群B、云集群C、云集群D、云集群E和云集群F与云集群C的匹配指标值。示例地，云集群A与云集群C的匹配指标值为0.23，云集群B与云集群C的匹配指标值为0.48，云集群D与云集群C的匹配指标值为0.81，云集群E与云集群C的匹配指标值为-0.62，云集群F与云集群C的匹配指标值为1。那么，在该云集群群组对应的坐标张量第一维度元素到第六维度元素可以次第为云集群C的数据流量的流量信息，云集群F的数据流量的流量信息，云集群D的数据流量的流量信息，云集群B的数据流量的流量信息，云集群A的数据流量的流量信息，云集群E的数据流量的流量信息。

此外，在一种可能的实现方式中，还可以将中心云集群采样得到的数据流量的流量信息，作为该云集群群组对应的坐标张量的最低一维度元素。然后，按照该云集群群组中的其余各云集群与中心云集群之间的匹配指标由高到低的序列，对其余各云集群采样得到的数据流量的流量信息次第向上形成队列，其中，若该张量为一矩阵，则该各个维度的元素可以表征为该矩阵不同行中的元素。

在确定出各云集群在对应的坐标张量中的坐标后，针对每个云集群群组，可以该云集群群组中各云集群在该云集群群组对应的坐标张量中对应的坐标和各云集群在多个采样时段采样得到的数据流量的流量信息，生成该云集群群组对应的坐标张量。在该坐标张量中，缺省的流量信息的坐标处可以为空。得到的各云集群群组对应的坐标张量均可以作为流量信息对应的坐标张量。

例如，结合上述示例，云集群A、云集群B、云集群C、云集群D、云集群E和云集群F属于一个云集群群组，该云集群群组中作为群组核心的中心云集群为云集群C。并且，基于每两个云集群的匹配指标，可以确定在该云集群群组对应的坐标张量第一维度元素到第六维度元素可以次第为云集群C的数据流量的流量信息、云集群F的数据流量的流量信息、云集群D的数据流量的流量信息、云集群B的数据流量的流量信息、云集群A的数据流量的流量信息和云集群E的数据流量的流量信息，进而可以得到该云集群群组对应的坐标张量：

在一种可能的实现方式中，在对云集群进行群分析后，还可以只生成一个坐标张量。具体的，可以将上述各坐标张量进行融合，融合后的坐标张量即可以作为数据流量对应的张量。各云集群群组对应的坐标张量在融合后的坐标张量中的坐标可以基于云集群群组的中心云集群的地理位置确定。示例地，可以按照中心云集群的地理位置由东到西的顺序，确定各云集群群组对应的坐标张量在融合后的坐标张量中的坐标。

通过隐向量提取处理，确定坐标张量中缺省坐标对应的缺省流量信息。

其中，隐向量提取处理可以是通过矩阵分解实现的，该矩阵分解可以是低秩分解、三角分解、满秩分解等。在实施中，采用隐向量提取处理对坐标张量进行隐向量提取，可以得到两个子张量。再将提取得到的两个子张量相乘，确定积张量。该积张量的尺寸与坐标张量的尺寸相同。然后，针对坐标张量中的每个坐标，将积张量中与该缺省坐标相同的坐标处的元素，作为该目标坐标对应的缺省流量信息。

基于缺省流量信息和上述各个云集群在多个采样时段采样得到的数据流量的流量信息，确定多云集群的数据流量信息。

在具体实施时，通过上述各步骤可以对多云集群内各云集群的一种或多种数据流量的缺省流量信息进行填充。在确定多云集群的数据流量信息后，多云集群响应于用户的大数据存储请求，基于该数据流量信息，确定目标大数据存储路径。

其中，用户将待存储的数据集发送至该多云集群后，可以同时发送大数据存储请求，该大数据存储请求中可以包括将带数据集存储至某个云集群的初始指定的存储路径，若用户的大数据存储请求并未指定将数据集存储在哪个云集群中时，即可以基于数据流量信息，选取近期流量较小的云集群作为目标大数据存储路径指向的云集群以避免拥堵进而节省网络资源，或者选取近期流量较大的云集群作为目标大数据存储路径指向的云集群以避免指向的云集群在近期迁移导致数据无法准确落盘，具体的设置方式可以基于在具体实施时的需求设定，本公开对此不作限定。

在本实施例中，针对多云集群中的各个云集群，先基于采样得到的在多个采样时段这些云集群的数据流量的流量信息，来确定每两个云集群的匹配指标。然后，在生成数据流量对应的坐标张量时，针对各云集群在坐标张量中的坐标按照上述确定的匹配指标确定的，能够使得得到多云集群的数据流量信息更加准确，进而使得多云集群在确定目标大数据存储路径时，能够更加符合多云集群当前的数据流量特征，能够有效地节省网络资源的同时，能够使得数据能够更加准确地进行落盘。

可以理解的是，在本申请的具体实施方式中，涉及到用户信息、云集群属性信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本发明实施例提供一种大数据存储控制系统100，一些实施例中，大数据存储控制系统100可包括处理器110、机器可读存储介质120、总线130以及通信单元140。

处理器110可以通过存储在机器可读存储介质120中的程序而执行各种适当的动作和处理，例如前述实施例所描述的基于AI分析的系统运行漏洞修复方法所相关的程序指令。处理器110、机器可读存储介质120以及通信单元140通过总线130进行信号传输。

特别地，基于本发明的实施例，上文示例性流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信单元140从网络上被下载和安装，在该计算机程序被处理器110执行时，执行本发明实施例的方法中限定的上述功能。

本发明又一实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上述任一实施例所述的基于AI分析的系统运行漏洞修复方法。

本发明又一实施例还提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上述任一实施例所述的基于多端云计算集群的大数据存储方法。

应该理解的是，虽然本申请实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本申请实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其它的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本申请实施例对此不限制。

以上所述仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其它类似实施手段，同样属于本申请实施例的保护范畴。

Claims

1.一种基于多端云计算集群的大数据存储方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述在预先存储的路径迁移关联数据中检索与所述第一迁移序号和所述第一云集群信息关联的一组迁移后集群属性信息，包括：

以所述第一迁移序号和所述第一云集群信息为初代检索标识，在所述路径迁移关联数据中执行多回合的游走检索命令，确定所述一组迁移后集群属性信息，其中，在所述多回合的游走检索命令中，前一回合的游走检索命令中检索到的迁移后集群属性信息用作后一回合的游走检索命令中的迁移前集群属性信息。

3.根据权利要求2所述的方法，其特征在于，所述以所述第一迁移序号和所述第一云集群信息为初代检索标识，在所述路径迁移关联数据中执行多回合的游走检索命令，确定所述一组迁移后集群属性信息，包括：

重复执行游走检索命令，直到达到预先设置的预设终止指标，确定迁移前集群属性信息队列，其中，所述迁移前集群属性信息队列的初代检索标识为所述第一云集群信息和所述第一迁移序号：

在所述路径迁移关联数据中检索与所述迁移前集群属性信息队列中的每组设置有关联标识的迁移前集群属性信息和迁移序号对应的迁移后集群属性信息，确定当前迁移后集群属性信息队列；

在所述当前迁移后集群属性信息队列不为空时，将所述当前迁移后集群属性信息队列中的迁移后集群属性信息作为后一回合的游走检索命令中的迁移前集群属性信息，在所述路径迁移信息数据中检索与后一回合的游走检索命令中的迁移前集群属性信息对应的迁移序号，并在检索到与后一回合的游走检索命令中的迁移前集群属性信息对应的迁移序号的条件下，将所述迁移前集群属性信息队列变更为包括设置有关联标识的后一回合的游走检索命令中的迁移前集群属性信息和迁移序号，在无法检索到与后一回合的游走检索命令中的迁移前集群属性信息对应的迁移序号的条件下，将所述后一回合的游走检索命令中的迁移前集群属性信息设置为所述一组迁移后集群属性信息中的迁移后集群属性信息；

所述在所述路径迁移信息数据中检索与后一回合的游走检索命令中的迁移前集群属性信息对应的迁移序号，包括：

在所述路径迁移信息数据中检索与后一回合的游走检索命令中的迁移前集群属性信息设置有关联标识的迁移序号；

在检索到与所述后一回合的游走检索命令中的迁移前集群属性信息设置有关联标识的第二迁移序号、且检索到的所述第二迁移序号的数值大于当前迁移序号的数值的条件下，将检索到的所述第二迁移序号设置为与后一回合的游走检索命令中的迁移前集群属性信息设置有关联标识的迁移序号，其中，所述当前迁移序号是所述迁移前集群属性信息队列中与后一回合的游走检索命令中的迁移前集群属性信息设置有关联标识的迁移序号；

在检索到与所述后一回合的游走检索命令中的迁移前集群属性信息设置有关联标识的、且大于所述当前迁移序号的多个迁移序号的条件下，在所述多个迁移序号中确定与所述当前迁移序号数值差距最小的目标迁移序号，并将所述目标迁移序号设置为与后一回合的游走检索命令中的迁移前集群属性信息设置有关联标识的迁移序号。

4.根据权利要求3所述的方法，其特征在于，所述重复执行游走检索命令，直到达到预先设置的预设终止指标，包括：

在所述当前迁移后集群属性信息队列为空时，确定出满足所述预设终止指标，终止执行多回合的游走检索命令；或者

在确定所述游走检索命令的执行回合数达到预设次数阈值的条件下，确定出满足所述预设终止指标，终止执行多回合的游走检索命令，其中，所述预设次数阈值为大于或等于2的正整数。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述第一云集群在所述第一迁移序号迁移至第二云集群的条件下，在所述路径迁移信息数据中加入设置有关联标识的所述第一迁移序号和所述第一云集群信息，在所述路径迁移关联数据中加入设置有关联标识的所述第一迁移序号、存储为所述迁移前集群属性信息的所述第一云集群信息、以及存储为所述迁移后集群属性信息的第二集群属性信息，其中，所述第二集群属性信息是所述第二云集群的集群属性信息；或者

在所述第一云集群在所述第一迁移序号迁移至所述第二云集群和第三云集群的条件下，在所述路径迁移信息数据中加入设置有关联标识的所述第一迁移序号和所述第一云集群信息，在所述路径迁移关联数据中加入设置有关联标识的所述第一迁移序号、存储为所述迁移前集群属性信息的所述第一云集群信息、以及存储为所述迁移后集群属性信息的所述第二集群属性信息，并在所述路径迁移关联数据中加入设置有关联标识的所述第一迁移序号、存储为所述迁移前集群属性信息的所述第一云集群信息、以及存储为所述迁移后集群属性信息的第三云集群集群属性信息，其中，所述第二集群属性信息是所述第二云集群的集群属性信息，所述第三云集群集群属性信息是所述第三云集群的集群属性信息；或者

在所述第一云集群和所述第二云集群在所述第一迁移序号迁移至第三云集群的条件下，在所述路径迁移信息数据中加入设置有关联标识的所述第一迁移序号和所述第一云集群信息以及设置有关联标识的所述第一迁移序号和第二集群属性信息，在所述路径迁移关联数据中加入设置有关联标识的所述第一迁移序号、存储为所述迁移前集群属性信息的所述第一云集群信息、以及存储为所述迁移后集群属性信息的第三云集群集群属性信息，并在所述路径迁移关联数据中加入设置有关联标识的所述第一迁移序号、存储为所述迁移前集群属性信息的所述第二集群属性信息、以及存储为所述迁移后集群属性信息的所述第三云集群集群属性信息。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述第一云集群在所述第一迁移序号迁移至所述第一云集群和第二云集群的条件下，在所述路径迁移信息数据中加入设置有关联标识的所述第一迁移序号和所述第一云集群信息，在所述路径迁移关联数据中加入设置有关联标识的所述第一迁移序号、存储为所述迁移前集群属性信息的所述第一云集群信息、以及存储为所述迁移后集群属性信息的所述第一云集群信息，并在所述路径迁移关联数据中加入设置有关联标识的所述第一迁移序号、存储为所述迁移前集群属性信息的所述第一云集群信息、以及存储为所述迁移后集群属性信息的第二集群属性信息，其中，所述第二集群属性信息是所述第二云集群的集群属性信息；或者

在所述第一云集群和所述第二云集群在所述第一迁移序号迁移至所述第一云集群的条件下，在所述路径迁移信息数据中加入设置有关联标识的所述第一迁移序号和所述第一云集群信息以及设置有关联标识的所述第一迁移序号和所述第二集群属性信息，在所述路径迁移关联数据中加入设置有关联标识的所述第一迁移序号、存储为所述迁移前集群属性信息的所述第一云集群信息、以及存储为所述迁移后集群属性信息的所述第一云集群信息，并在所述路径迁移关联数据中加入设置有关联标识的所述第一迁移序号、存储为所述迁移前集群属性信息的所述第二集群属性信息和存储为所述迁移后集群属性信息的所述第一云集群信息。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述基于所述一组迁移后集群属性信息，对与所述目标大数据存储路径对应的所述第一云集群信息进行更新，包括：

在所述一组迁移后集群属性信息所对应的一组云集群中，将与所述目标大数据存储路径最接近的云集群设置为目标云集群；

将所述目标大数据存储路径对应的集群属性信息从所述第一云集群信息变更为目标云集群对应的集群属性信息，其中，所述目标云集群对应的集群属性信息是所述目标大数据存储路径指向的所述目标云集群的集群属性信息；

所述方法还包括：

在所述目标云集群上获取与所述目标大数据存储路径最为接近的目标落盘路径；

将所述目标大数据存储路径变更为所述目标落盘路径。

8.根据权利要求1所述的方法，其特征在于，所述方法包括：

获取多云集群中的各个云集群在多个采样时段采样得到的数据流量的流量信息；

游走所述各个云集群中任意两个云集群，基于所述两个云集群在多个采样时段采样得到的所述数据流量的流量信息，确定所述两个云集群的匹配指标；

以所述匹配指标为分析指标，对所述各个云集群进行群分析，确定多个云集群群组以及每个云集群群组中作为群组核心的中心云集群，针对每个云集群群组，基于所述云集群群组中除中心云集群以外的云集群与所述中心云集群的匹配指标，确定所述云集群群组中各云集群在所述云集群群组对应的坐标张量中对应的坐标，其中，所述坐标张量由所述数据流量在所述云集群群组的不同云集群、不同采样时段的流量信息和缺省坐标组成；

针对每个云集群群组，基于所述云集群群组中各云集群在所述云集群群组对应的坐标张量中对应的坐标和各云集群在所述多个采样时段采样得到的所述数据流量的流量信息，生成所述云集群群组对应的坐标张量；

通过隐向量提取处理，分别确定每个云集群群组对应的坐标张量中的缺省流量信息；

基于所述缺省流量信息和所述各个云集群在多个采样时段采样得到的数据流量的流量信息，确定所述多云集群的数据流量信息；

响应于用户的大数据存储请求，基于所述数据流量信息，确定所述目标大数据存储路径；

其中，所述游走所述各个云集群中任意两个云集群，基于所述两个云集群在多个采样时段采样得到的所述数据流量的流量信息，确定所述两个云集群的匹配指标之前，所述方法还包括：

如果第四云集群在第一采样时段内未采集到所述数据流量的流量信息，则获取所述第四云集群在所述第一采样时段之前采集的一个或多个所述数据流量的流量信息以及在所述第一采样时段之后采集的一个或多个所述数据流量的流量信息；

确定在所述第一采样时段之前采样得到的所述数据流量的一个或多个流量信息以及在所述第一采样时段之后采样得到的所述数据流量的一个或多个流量信息的算数均值，作为所述第四云集群在第一采样时段的数据流量的推理流量信息，其中，所述各个云集群包括所述第四云集群，所述多个采样时段包括所述第一采样时段；

所述游走所述各个云集群中任意两个云集群，基于所述两个云集群在多个采样时段采样得到的所述数据流量的流量信息，确定所述两个云集群的匹配指标，包括：

游走所述各个云集群中任意两个云集群，基于所述两个云集群在多个采样时段采样得到的数据流量的流量信息和确定得到的所述数据流量的推理流量信息，确定所述两个云集群的匹配指标；或者，

所述游走所述各个云集群中任意两个云集群，基于所述两个云集群在多个采样时段采样得到的所述数据流量的流量信息，确定所述两个云集群的匹配指标之前，所述方法还包括：

如果第四云集群在第一采样时段内未采集到所述数据流量的流量信息，则获取所述第四云集群的多个同地区云集群在所述第一采样时段采样得到的所述数据流量的流量信息；

确定所述多个同地区云集群在所述第一采样时段采样得到的所述数据流量的流量信息的算数均值，作为所述第四云集群在第一采样时段的数据流量的推理流量信息，其中，所述各个云集群包括所述第四云集群，所述多个采样时段包括所述第一采样时段；

游走所述各个云集群中任意两个云集群，基于所述两个云集群在多个采样时段采样得到的数据流量的流量信息和确定得到的所述数据流量的推理流量信息，确定所述两个云集群的匹配指标。

9.一种大数据存储控制系统，其特征在于，包括处理器和用于存储能够在处理器上运行的计算机程序的存储器，所述处理器用于运行所述计算机程序时，执行权利要求1-8中任意一项的基于多端云计算集群的大数据存储方法。

10.一种可读存储介质，其特征在于，所述可读存储介质包括计算机程序，所述计算机程序运行时控制所述可读存储介质所在大数据存储控制系统执行权利要求1-8中任意一项所述的基于多端云计算集群的大数据存储方法。