CN116668271B

CN116668271B - 容器集群管理系统的容器迁移方法、装置、设备及介质

Info

Publication number: CN116668271B
Application number: CN202310954905.1A
Authority: CN
Inventors: 李仁刚; 赵雅倩; 张亚强; 李茹杨
Original assignee: Inspur Beijing Electronic Information Industry Co Ltd
Current assignee: Inspur Beijing Electronic Information Industry Co Ltd
Priority date: 2023-08-01
Filing date: 2023-08-01
Publication date: 2023-11-03
Anticipated expiration: 2043-08-01
Also published as: CN116668271A

Abstract

本发明公开了一种容器集群管理系统的容器迁移方法、装置、设备及介质，应用于云原生技术领域，为解决现有容器迁移时导致业务中断及业务信息丢失的问题，包括：对云原生系统下各个运行中的容器的状态进行分析，得到预测结果；根据预测结果确定出现故障的待迁移容器；将待迁移容器中的业务数据传输至目标节点上，其中，目标节点为正常运行的其他节点；在目标节点上生成新容器吊舱，并在新容器吊舱中对业务数据进行恢复生成对应的容器；通过监控确定将会出现故障的容器，在对容器进行迁移过程中，容器仍旧处于运行状态，用户业务不会中断，并且是对容器的业务数据的整体迁移，能够保障业务数据的完整，降低对用户业务的影响，提升用户使用体验。

Description

容器集群管理系统的容器迁移方法、装置、设备及介质

技术领域

本发明涉及云原生技术领域，特别是涉及一种容器集群管理系统的容器迁移方法、装置、电子设备及计算机可读存储介质。

背景技术

云原生技术已成为云计算发展领域中最为关键的核心技术，企业的云上业务也逐步转变为基于云原生技术实现。云原生的主要要素包括容器化、微服务、持续交付及DevOps（开发和运维合体）。容器化的服务能够有效的实现资源隔离，相比于传统的虚拟化技术，容器化的服务能够提供更加细粒度的资源分配方法以及自动可伸缩的服务编排策略。因此，越来越的企业将其业务由传统的云计算物理机或虚拟机切换到容器中，实现业务的全流程容器化部署和运维管理。此外，云服务提供商也越来越多的将其服务由IaaS（Infrastructure as a Service，基础设施即服务）向PaaS（Platform-as-a-Service，平台即服务）、SaaS（Software-as-a-Service，软件即服务）转换，投入更多资源组件来完善云原生服务体系。

随着云原生规模的增长，对基于云原生的云计算服务的有效管理具有重要意义，由于容器规模庞大，为了提高云计算服务的高可用性，目前通常基于k8s（Kubernetes，云平台的开源容器集群管理系统）等框架对其进行调度、管理，实现资源的高效利用。

然而，由于k8s对容器或Pod（k8s系统中可以创建和管理的最小单元，是容器实例运行的载体）最基本的管理方式是创建或删除，在保持系统高可用方面，当现有节点出现故障导致部分容器无法正常工作时，k8s一般通过在新的目的地创建并重启故障容器的新副本以提供相同的服务。这种方式虽然逻辑较为简单且易于实现，但对于长期运行的复杂业务、由于容器业务之间往往存在依赖，一个完整的业务是由一群容器服务构成的，这种长期运行产生的状态信息无法在新的副本上得到保持，因此会导致用户业务的中断或失效，降低用户的体验质量。

在基于k8s的云原生体系下，为了保证容器服务的高可用，也即提高在故障情况下容器的高效容错，现有技术中的容器迁移方案主要是k8s在当前容器故障时，将失效容器的配置信息同步至新的宿主操作系统，并基于该配置信息在新的宿主操作系统上重启一个与故障的容器相同的镜像实例，也即在新的宿主操作系统上重新创建一个与故障容器相同的新容器。这类方法能够得到k8s框架的良好支持，但该方法在更广泛的业务场景下，往往导致业务中断及业务信息的丢失。

鉴于此，如何在进行容器迁移时更好地保证业务信息的完整、降低对用户业务的影响成为本领域技术人员需要解决的问题。

发明内容

本发明实施例的目的是提供一种容器集群管理系统的容器迁移方法、装置、电子设备及计算机可读存储介质，在使用过程中能够保障迁移后业务数据的完整，降低对用户业务的影响，提升用户使用体验。

为解决上述技术问题，本发明实施例提供了一种容器集群管理系统的容器迁移方法，包括：

对云原生系统下各个运行中的容器的状态进行分析，得到预测结果；

根据预测结果确定出现故障的待迁移容器；

将所述待迁移容器中的业务数据传输至目标节点上，其中，所述目标节点为正常运行的其他节点；

在所述目标节点上生成新容器吊舱，并在所述新容器吊舱中对所述业务数据进行恢复生成对应的容器。

在一个实施例中，所述对云原生系统下各个运行中的容器的状态进行分析，得到预测结果，包括：

监控云原生系统所在宿主机的运行状态，确定所述宿主机的预测运行状态；

监控所述宿主机上的每个虚拟操作系统的运行状态，确定每个所述虚拟操作系统分别对应的预测运行状态；

监控每个所述虚拟操作系统上的容器集群管理系统的运行状态，确定所述容器集群管理系统的预测运行状态；

基于所述宿主机的预测运行状态、每个所述虚拟操作系统分别对应的预测运行状态以及每个所述虚拟操作系统上的容器集群管理系统的预测运行状态，生成预测结果。

在一个实施例中，在所述监控所述宿主机上的每个虚拟操作系统的运行状态之前，还包括：

基于所述宿主机的预测运行状态判断所述宿主机的状态是否为故障状态，若是，则执行所述监控所述宿主机上的每个虚拟操作系统的运行状态的步骤。

在一个实施例中，所述基于所述宿主机的预测运行状态判断所述宿主机的状态是否为故障状态，包括：

连续获取多个时间段内所述宿主机的预测运行状态及每个所述时间段的所述宿主机的实际运行状态；

针对每个所述时间段，将所述时间段宿主机的预测运行状态与对应的实际运行状态进行比较；

统计预测运行状态与实际运行状态不同的时间段的第一数量；

在所述第一数量与所述时间段的总数量的比值大于预设阈值的情况下，确定所述宿主机的状态为故障状态。

在一个实施例中，所述监控云原生系统所在宿主机的运行状态，确定所述宿主机的预测运行状态，包括：

获取云原生系统所在宿主机的当前时间段的运行状态信息；

对所述当前时间段的运行状态信息进行分析，得到所述宿主机在下一时间段的预测状态信息；

根据所述宿主机在下一时间段的预测状态信息，确定出所述宿主机在所述下一时间段的预测运行状态。

在一个实施例中，所述根据所述宿主机在下一时间段的预测状态信息，确定出所述宿主机在所述下一时间段的预测运行状态，包括：

根据所述宿主机在下一时间段的预测状态信息，获取各类状态参数的预测值；

将各类所述状态参数的预测值与对应的正常阈值进行比较；

在至少一类状态参数的预测值大于对应的正常阈值的情况下，确定所述宿主机在所述下一时间段的预测运行状态为异常状态；

在各类所述状态参数的预测值均未超过对应的正常阈值的情况下，确定所述宿主机在所述下一时间段的预测运行状态为正常状态。

在一个实施例中，所述运行状态信息包括中央处理器利用率、内存利用率、网络带宽利用率以及存储盘利用率中的一种或多种的组合。

在一个实施例中，所述对所述当前时间段的运行状态信息进行分析，得到所述宿主机在下一时间段的预测状态信息，包括：

采用预先建立的状态预测神经网络模型对所述当前时间段的运行状态信息进行分析，得到所述宿主机在下一时间段的预测运行状态；

其中，所述状态预测神经网络模型为基于时间序列分析法、结合所述宿主机的历史运行状态信息对深度学习网络进行训练得到的。

在一个实施例中，所述状态预测神经网络模型的训练过程，包括：

获取所述宿主机在多个历史时间段的运行状态信息；

采用时间序列分析法及多个所述历史时间段的运行状态信息对深度学习网络进行训练，并在训练过程中更新网络参数，直至损失函数收敛确定出最终网络参数；

基于所述最终网络参数得到训练好的状态预测神经网络模型。

在一个实施例中，所述监控所述宿主机上的每个虚拟操作系统的运行状态，确定每个所述虚拟操作系统分别对应的预测运行状态，包括：

在监控所述宿主机上的每个虚拟操作系统的运行状态的过程中，针对每个虚拟机操作系统，获取所述虚拟机操作系统的当前运行日志；

采用预先建立的第一文档主题生成模型结合吉布斯采样法对所述虚拟机操作系统的当前运行日志进行分析，得到所述虚拟操作系统在下一时间段的预测运行状态；

其中，所述第一文档主题生成模型为预先采用吉布斯采样法结合所述虚拟机操作系统的历史运行日志建立的。

在一个实施例中，所述第一文档主题生成模型的建立过程，包括：

获取所述虚拟机操作系统在多个历史时间段的多个第一历史运行日志；

针对每个历史时间段，基于所述历史时间段内的多个第一历史运行日志生成对应的第一文本；

针对每个第一文本，对所述第一文本中的每个词分别随机赋予一个第一话题编号；

采用吉布斯采样法对所述第一文本中的每个词进行话题重采样，并在采样过程中不断更新第一概率分布参数和第二概率分布参数；其中，所述第一概率分布参数用于计算文本下话题的概率分布的参数，所述第二概率分布参数用于计算话题下词的概率分布的参数；

在所述第一概率分布参数和所述第二概率分布参数均收敛的情况下，确定出每个第一话题编号各自对应的最终第二概率分布参数；

基于每个所述第一话题编号的最终第二概率分布参数、各个所述第一话题编号、各个所述词以及各个话题下词的概率形成第一话题词共现频率矩阵；

将所述第一话题词共现频率矩阵作为第一文档主题生成模型。

在一个实施例中，所述采用预先建立的第一文档主题生成模型结合吉布斯采样法对所述虚拟机操作系统的当前运行日志进行分析，得到所述虚拟操作系统在下一时间段的预测运行状态，包括：

基于所述虚拟机操作系统的当前运行日志生成第一当前运行日志文本；

对所述第一当前运行日志文件中的每个词分别随机赋予一个第一话题编号；

采用所述吉布斯采样法对所述第一当前运行日志进行话题重采样，并结合所述第一文档主题生成模型对相应的第一概率分布参数进行更新，直至与所述第一当前运行日志文本对应的第一概率分布参数收敛，得到所述第一当前运行日志文本下的话题概率分布；

基于所述第一当前运行日志文本下的话题概率分布，确定出概率最高的第一话题编号；

基于所述概率最高的第一话题编号结合所述第一文档主题生成模型，得到与所述概率最高的第一话题编号对应的概率最高的前第一预设数量个词；

基于所述前第一预设数量个词，确定所述虚拟操作系统在下一时间段的预测运行状态。

在一个实施例中，所述基于所述前第一预设数量个词，确定所述虚拟操作系统在下一时间段的预测运行状态，包括：

判断所述前第一预设数量个词中是否存在意思为错误的词，若存在，则确定所述虚拟操作系统在下一时间段的预测运行状态为异常状态；若不存在，则确定所述虚拟操作系统在下一时间段的预测运行状态为正常状态。

在一个实施例中，监控每个所述虚拟操作系统上的容器集群管理系统的运行状态，确定所述容器集群管理系统的预测运行状态，包括：

在监控每个所述虚拟操作系统上的容器集群管理系统的运行状态的过程中，针对每个容器集群管理系统，获取所述容器集群管理系统的当前运行日志；

采用预先建立的第二文档主题生成模型结合吉布斯采样法对所述容器集群管理系统的当前运行日志进行分析，得到所述容器集群管理系统在下一时间段的预测运行状态；

其中，所述第二文档主题生成模型为预先采用吉布斯采样法结合所述容器集群管理系统的历史运行日志建立的。

在一个实施例中，所述第二文档主题生成模型的建立过程，包括：

获取所述容器集群管理系统在多个历史时间段的多个第二历史运行日志；

针对每个历史时间段，基于所述历史时间段内的多个第二历史运行日志生成对应的第二文本；

针对每个第二文本，对所述第二文本中的每个词分别随机赋予一个第二话题编号；

采用吉布斯采样法对所述第二文本中的每个词进行话题重采样，并在采样过程中不断更新第一概率分布参数和第二概率分布参数；其中，所述第一概率分布参数用于计算文本下话题的概率分布的参数，所述第二概率分布参数用于计算话题下词的概率分布的参数；

在所述第一概率分布参数和所述第二概率分布参数均收敛的情况下，确定出每个第二话题编号各自对应的最终第二概率分布参数；

基于每个所述第二话题编号的最终第二概率分布参数、各个所述第二话题编号、各个所述词以及各个话题下词的概率形成第二话题词共现频率矩阵；

将所述第二话题词共现频率矩阵作为第二文档主题生成模型。

在一个实施例中，所述采用预先建立的第二文档主题生成模型结合吉布斯采样法对所述容器集群管理系统的当前运行日志进行分析，得到所述容器集群管理系统在下一时间段的预测运行状态，包括：

基于所述容器集群管理系统的当前运行日志生成第二当前运行日志文本；

对所述第二当前运行日志文件中的每个词分别随机赋予一个第二话题编号；

采用所述吉布斯采样法对所述第二当前运行日志进行话题重采样，并结合所述第二文档主题生成模型对相应的第一概率分布参数进行更新，直至与所述第二当前运行日志文本对应的第一概率分布参数收敛，得到所述第二当前运行日志文本下的话题概率分布；

基于所述第二当前运行日志文本下的话题概率分布，确定出概率最高的第二话题编号；

基于所述概率最高的第二话题编号结合所述第二文档主题生成模型，得到与所述概率最高的第二话题编号对应的概率最高的前第二预设数量个词；

基于所述前第二预设数量个词，确定所述容器集群管理系统在下一时间段的预测运行状态。

在一个实施例中，所述基于所述前第二预设数量个词，确定所述容器集群管理系统在下一时间段的预测运行状态，包括：

判断所述前第二预设数量个词中是否存在意思为错误的词，若存在，则确定所述容器集群管理系统在下一时间段的预测运行状态为异常状态；若不存在，则确定所述容器集群管理系统在下一时间段的预测运行状态为正常状态。

在一个实施例中，在所述将所述待迁移容器中的业务数据传输至目标节点上之前，还包括：

基于所述待迁移容器的容器需求信息从其他正常节点中选择出目标节点。

在一个实施例中，所述容器需求信息包括中央处理器需求、内存需求、网络需求和存储资源需求。

在一个实施例中，所述基于所述待迁移容器的容器需求信息从其他正常节点中选择出目标节点，包括：

针对其他正常节点中的每个正常节点，根据所述待迁移容器的中央处理器需求、内存需求、网络需求和存储资源需求从其他所述正常节点中选择出满足各需求的候选节点，并结合各以及各所述候选节点的中央处理器剩余情况、内存剩余情况、网络剩余情况和存储资源剩余情况，计算出与所述候选节点对应的资源平均富裕率；

从各个所述候选节点中选出资源平均富裕率最高的候选节点作为目标节点。

在一个实施例中，所述根据预测结果确定出现故障的待迁移容器，包括：

在确定出存在预测运行状态为异常状态的虚拟操作系统时，判断预测运行状态为异常状态的虚拟操作系统的数量是否大于阈值，若是，则将所述宿主机下的所有容器均确定为待迁移容器；若否，则将所述预设运行状态为异常状态的虚拟操作系统下的所有容器确定为待迁移容器；

在所有的虚拟机操作系统的预测运行状态均为正常状态，且存在预测运行状态为异常状态的容器集群管理系统，则根据所述预测运行状态为异常状态的容器集群管理系统的日志信息确定出状态异常的容器，将所述状态异常的容器作为待迁移容器。

在一个实施例中，所述将所述待迁移容器中的业务数据传输至目标节点上，包括：

将所述待迁移容器中的业务数据进行快照，并生成转储文件，将所述转储文件传输至目标节点上；

判断所述转储文件的传输时长是否大于时长阈值，若是，则对所述待迁移容器中在所述传输时长内更新的更新业务数据进行快照，并生成更新转储文件，将所述更新转储文件传输至所述目标节点上；

将所述更新转储文件作为所述转储文件，并返回执行判断所述转储文件的传输时长是否大于时长阈值的步骤，直至小于所述时长阈值时，完成传输。

在一个实施例中，在所述目标节点上生成新容器吊舱，并在所述新容器吊舱中对所述业务数据进行恢复生成对应的容器之后，还包括：

将与所述待迁移容器对应的旧容器吊舱从对应的宿主机上删除。

本发明实施例还提供了一种容器集群管理系统的容器迁移装置，包括：

分析模块，用于对云原生系统下各个运行中的容器的状态进行分析，得到预测结果；

确定模块，用于根据预测结果确定出现故障的待迁移容器；

传输模块，用于将所述待迁移容器中的业务数据传输至目标节点上，其中，所述目标节点为正常运行的其他节点；

生成模块，用于在所述目标节点上生成新容器吊舱，并在所述新容器吊舱中对所述业务数据进行恢复生成对应的容器。

本发明实时还提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述所述容器集群管理系统的容器迁移方法的步骤。

本发明实时还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述容器集群管理系统的容器迁移方法的步骤。

本发明实施例提供了一种容器集群管理系统的容器迁移方法、装置、电子设备及计算机可读存储介质，该方法包括：对云原生系统下各个运行中的容器的状态进行分析，得到预测结果；根据预测结果确定出现故障的待迁移容器；将待迁移容器中的业务数据传输至目标节点上，其中，目标节点为正常运行的其他节点；在目标节点上生成新容器吊舱，并在新容器吊舱中对业务数据进行恢复生成对应的容器。

可见，本发明实时中通过对云原生系统下各个运行中的容器的状态进行分析得到预测结果，根据该预测结果可以进一步确定出会出现故障的容器，将确定出的会出现故障的容器作为待迁移容器，然后将该待迁移容器中的业务数据传输至其他正常运行的目标节点上，并在该目标节点上生成新容器吊舱，在该新容器吊舱内将业务数据恢复为对应的容器，从而实现容器的迁移，本发明通过预测的方式确定将会出现故障的容器，然后对该容器进行迁移，在对容器进行迁移过程中，容器仍旧处于运行状态，用户业务不会中断，并且在迁移过程中对容器的业务数据进行整体迁移，能够保障迁移后业务数据的完整，降低对用户业务的影响，提升用户使用体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对现有技术和实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种容器集群管理系统的容器迁移方法的流程示意图；

图2为本发明实施例提供的另一种容器集群管理系统的容器迁移方法的流程示意图；

图3为本发明实施例提供的一种容器集群管理系统的容器迁移装置的结构示意图；

图4为本发明实施例提供的一种电子设备的结构示意图；

图5为本发明实施例提供的一种计算机可读存储介质的结构示意图。

具体实施方式

本发明实施例提供了一种容器集群管理系统的容器迁移方法、装置、电子设备及计算机可读存储介质，在使用过程中能够保障迁移后业务数据的完整，降低对用户业务的影响，提升用户使用体验。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参照图1，图1为本发明实施例提供的一种容器集群管理系统的容器迁移方法的流程示意图。该方法包括：

S110：对云原生系统下各个运行中的容器的状态进行分析，得到预测结果；

需要说明的是，本发明实施例中通过对云原生系统下各个运行中的容器的状态进行监控分析，可以得到对应的预测结果，也即，通过对运行中的容器状态进行分析，可以得到预测结果，根据该预测结果可以出容器后续的预测状态。

S120：根据预测结果确定出现故障的待迁移容器；

具体的，在得到预测结果后，可以根据该预测结果进一步确定出容器的预测状态，从而确定出预测状态为出现故障的容器，也即确定出即将会出现故障的容器，将该容器确定为待迁移容器，其中，在实际应用中待迁移容器可以为一个，也可以为多个，具体可以根据实际需要进行确定。

S130：将待迁移容器中的业务数据传输至目标节点上，其中，目标节点为正常运行的其他节点；

需要说明的是，在确定出待迁移容器后，则对待迁移容器中的业务数据进行迁移，具体的将待迁移容器中的业务数据迁移至目标节点上，该目标节点为正常运行的其他节点，并且由于本发明实施例中是通过预测结果确定出会出现故障的待迁移容器的，因此，此时待迁移容器还没有完全故障，待迁移容器仍旧在运行，不会导致业务中断。

S140：在目标节点上生成新容器吊舱，并在新容器吊舱中对业务数据进行恢复生成对应的容器。

具体的，在将待迁移容器的业务数据迁移至目标节点后，可以在节点上生成用于承载容器实例运行的新容器吊舱pod，是容器实例运行的载体，然后在目标节点上的业务数据在该新容器吊舱中进行恢复，得到对应的容器。也即，本发明实施例中是根据待迁移容器完整的业务数据在目标节点的新pod中恢复为对应的容器，从而可以保证新生成的容器与待迁移容器相同，以降低对用户业务的影响，提升用户体验。

请参照图2，在上述实施例的基础上，下面对本发明做进一步的介绍和说明，具体如下：

S210：监控云原生系统所在宿主机的运行状态，确定宿主机的预测运行状态；

需要说明的是，本发明实施例中在对云原生系统下的各运行的容器进行监控的过程中可以通过对容器集群管理系统的运行状态、容器集群管理系统所在的虚拟操作系统的运行状态以及对应的宿主机的运行状态进行监控。

具体的，可以先对云原生系统所在宿主机的运行状态进行监控，确定宿主机的预测运行状态。

在一个实施例中，该S210中监控云原生系统所在宿主机的运行状态，确定宿主机的预测运行状态的过程，具体可以包括：

获取云原生系统所在宿主机的当前时间段的运行状态信息；

对当前时间段的运行状态信息进行分析，得到宿主机在下一时间段的预测状态信息；

根据宿主机在下一时间段的预测状态信息，确定出宿主机在下一时间段的预测运行状态。

需要说明的是，可以获取云原生系统所在的宿主机在当前时间段的运行状态信息，然后通过对宿主机在该当前时间段的运行状态信息进行分析，即可得到宿主机在下一时间段的预测状态信息，然后根据宿主机在下一时间的的预测状态信息，确定出宿主机在下一时间段的预测运行状态。

具体的，上述对当前时间段的运行状态信息进行分析，得到宿主机在下一时间段的预测状态信息的过程，具体可以包括：

采用预先建立的状态预测神经网络模型对当前时间段的运行状态信息进行分析，得到宿主机在下一时间段的预测运行状态；

其中，状态预测神经网络模型为基于时间序列分析法、结合宿主机的历史运行状态信息对深度学习网络进行训练得到的。

需要说明的是，本发明实施例中可以预先获取该宿主机的历史运行状态信息，然后采用时间序列分析法以及该宿主机的历史运行状态信息对深度学习网络进行训练，得到状态预测神经网络模型，然后再对宿主机进行状态监控时，可以采用该状态预测神经网络模型对宿主机的当前时间段的运行状态信息进行分析预测，从而得到该宿主机在下一时间段的预测运行状态。

其中，本发明实施例中的状态预测神经网络模型的建立过程，可以包括：

获取宿主机在多个历史时间段的运行状态信息；

采用时间序列分析法及多个历史时间段的运行状态信息对深度学习网络进行训练，并在训练过程中更新网络参数，直至损失函数收敛确定出最终网络参数；

基于最终网络参数得到训练好的状态预测神经网络模型。

可以理解的是，本发明实施例中可以基于宿主机的历史数据获取宿主机在多个历史时间段的运行状态信息，其中，运行状态信息具体可以包括中央处理器利用率、内存利用率、网络带宽利用率以及存储盘利用率中的一种或多种的组合，本发明实施例中的运行状态信息可以包括中央处理器（CPU）利用率、内存利用率、网络带宽利用率以及存储盘利用率。也即，基于历史数据，对同一时刻的CPU、内存、网络、存储四类状态信息形成该t时间段的运行状态信息，其中，p_c表示CPU利用率，p_m表示内存利用率，p_n表示网络宽带利用率，p_s表示存储盘利用率。确定T个历史时间段各自的运行状态信息分别为，形成模型训练的输入数据/>，将这些数据输入至模型，得到t+1时间段的预测值/>，将预测值与真实值进行比较，并计算损失函数L，更新网络参数直至损失函数收敛时，确定出网络模型最终网络参数，从而得到训练好的状态预测神经网络模型。

在一个实施例中，上述根据宿主机在下一时间段的预测状态信息，确定出宿主机在下一时间段的预测运行状态的过程，具体可以包括：

根据宿主机在下一时间段的预测状态信息，获取各类状态参数的预测值；

将各类状态参数的预测值与对应的正常阈值进行比较；

在至少一类状态参数的预测值大于对应的正常阈值的情况下，确定宿主机在下一时间段的预测运行状态为异常状态；

在各类状态参数的预测值均未超过对应的正常阈值的情况下，确定宿主机在下一时间段的预测运行状态为正常状态。

需要说明的是，根据宿主机在下一时间段的预测状态信息，可以获取到各类状态参数的预测值，例如获取到CPU利用率、内存利用率、网络带宽利用率以及存储盘利用率各自的预测值，然后根据预先设定的与每类状态参数各自对应的正常阈值对各类参数的预测值进行分析，将将各类状态参数的预测值与对应的正常阈值进行比较，若该类状态参数的预测值超过对应的正常阈值，则说明该类参数出现异常，当各类参数中的一类或多类状态参数的预测值均超出对应的正常阈值时，则说明该宿主机可能出现了某些故障，也即，底层宿主机在下一时间段出现异常的可能性很大，预测运行状态为异常状态，此时可以输出EX_H=1，表示预测异常监测发生于宿主机硬件层面。

S220：监控宿主机上的每个虚拟操作系统的运行状态，确定每个虚拟操作系统分别对应的预测运行状态；

需要说明的是，本发明实时例中为了准确的对容器状态进行预测，还可以对宿主机上每个虚拟操作系统的运行状态进行监控，并通过分析确定出每个虚拟操作系统各自的预测运行状态。

具体的，针对每个虚拟机操作系统，在对虚拟操作系统的运行状态进行监控，确定该虚拟操作系统分别对应的预测运行状态的过程中，具体可以包括：

获取虚拟机操作系统的当前运行日志；

采用预先建立的第一文档主题生成模型结合吉布斯采样法对虚拟机操作系统的当前运行日志进行分析，得到虚拟操作系统在下一时间段的预测运行状态；

其中，第一文档主题生成模型为预先采用吉布斯采样法结合虚拟机操作系统的历史运行日志建立的。

需要说明的是，本发明实施例中通过监测虚拟操作系统的状态日志来确定虚拟操作系统在下一时间段的预测运行状态，通常当一条日志中出现错误信息时，代表系统层面可能出现了某些故障，为了提高日志可靠性，采用多条日志数据进行分析，并通过话题模型技术，找出故障的主要因素。

具体的，本发明实施例中可以预先采用吉布斯采样法结合虚拟机操作系统的历史运行日志建立第一文档主题生成模型，然后采用该第一文档主题生成模型结合吉布斯采样法对虚拟机操作系统的当前运行日志进行分析，得到虚拟操作系统在下一时间段的预测运行状态。

其中，第一文档主题生成模型的建立过程包括：

获取虚拟机操作系统在多个历史时间段的多个第一历史运行日志；

针对每个历史时间段，基于历史时间段内的多个第一历史运行日志生成对应的第一文本；

针对每个第一文本，对第一文本中的每个词分别随机赋予一个第一话题编号；

采用吉布斯采样法对第一文本中的每个词进行话题重采样，并在采样过程中不断更新第一概率分布参数和第二概率分布参数；其中，第一概率分布参数用于计算文本下话题的概率分布的参数，第二概率分布参数用于计算话题下词的概率分布的参数；

在第一概率分布参数和第二概率分布参数均收敛的情况下，确定出每个第一话题编号各自对应的最终第二概率分布参数；

基于每个第一话题编号的最终第二概率分布参数、各个第一话题编号、各个词以及各个话题下词的概率形成第一话题词共现频率矩阵；

将第一话题词共现频率矩阵作为第一文档主题生成模型。

需要说明的是，本发明实施例中可以获取虚拟机操作系统在多个历史时间段的多个第一历史运行日志，也即，针对每个历史时间段均获取该历史时间段内的多个第一历史运行日志，并根据该多个第一历史运行日志生成一个长文本，也即得到一个第一文本，从而得到与多个历史时间段各自对应的一个第一文本。针对每个第一文本，对该第一文本中的每个词随机赋予一个第一话题编号，例如对第j个第一文本d_j中的第i个词w_i随机赋予一个第一话题编号tp。

根据吉布斯采样法中的吉布斯采样关系式：，对每个词进行话题重采样，并更新参数第一概率分布参数α和第二概率分布参数β，其中表示词/>出现在文本/>中的频率，该频率可以根据文本/>求得、为已知量，表示话题/>下词/>的概率分布，其中，第二概率分布参数β为生成该概率分布的参数，/>表示文档/>下话题/>的概率分布，第一概率分布参数α为生成该概率分布的参数。K表示共有K个第一话题编号，也即共有K个第一话题，k表示第k个话题编号。

具体的，重复上述过程对每个第一文本进行吉布斯采样处理，不断更新第一概率分布参数和第二概率分布参数，在第一概率分布参数和第二概率分布参数均收敛的情况下，就可以确定出每个第一话题编号各自对应的最终第二概率分布参数，然后根据每个第一话题编号各自对应的最终第二概率分布参数、各个第一话题编号、各个词以及各个话题下词的概率形成第一话题词共现频率矩阵，并将该第一话题词共现频率矩阵作为第一文档主题生成模型。

在一个实施例中，上述采用预先建立的第一文档主题生成模型结合吉布斯采样法对虚拟机操作系统的当前运行日志进行分析，得到虚拟操作系统在下一时间段的预测运行状态的过程，可以包括：

获取虚拟机操作系统的当前运行日志，并根据虚拟机操作系统的当前运行日志生成第一当前运行日志文本，再对第一当前运行日志文件中的每个词分别随机赋予一个第一话题编号，采用吉布斯采样法对第一当前运行日志进行话题重采样，并结合第一文档主题生成模型对相应的第一概率分布参数进行更新，直至与第一当前运行日志文本对应的第一概率分布参数收敛，得到第一当前运行日志文本下的话题概率分布；其中，第一文档主题生成模型中的每个话题编号对应一个第二概率分布参数，因此在对第一文档主题生成模型对相应的第一概率分布参数进行更新时，第二概率分布参数是一个固定值，针对第一当前运行日志文本中的每个词可以计算出该词出现在该第一当前运行日志文本中的频率，然后进一步计算出第一当前运行日志文本下的话题概率分布。

具体的，在得到第一当前运行日志文本下的话题概率分布后，根据该第一当前运行日志文本下的话题概率分布，可以进一步确定出概率最高的第一话题编号，然后再从根据该概率最高的第一话题编号，从第一文档主题生成模型中匹配出与该概率最高的第一话题编号对应的概率最高的前第一预设数量个词，例如确定出第一话题编号为1的概率最高的前5个词，再根据前第一预设数量个词，确定虚拟操作系统在下一时间段的预测运行状态。

具体的，在基于前第一预设数量个词，确定虚拟操作系统在下一时间段的预测运行状态时，可以先判断前第一预设数量个词中是否存在意思为错误的词，若存在，则确定虚拟操作系统在下一时间段的预测运行状态为异常状态；若不存在，则确定虚拟操作系统在下一时间段的预测运行状态为正常状态。

也即，在概率最高的前第一预设数量个词中存在Error或fault等词时，则认为虚拟操作系统在下一时间段的预测运行状态为异常状态，可以输出EX_o=1，否则，认为虚拟操作系统在下一时间段的预测运行状态为正常状态。

在一个实施例中，在上述S220监控宿主机上的每个虚拟操作系统的运行状态之前，该方法还可以包括：

基于宿主机的预测运行状态判断宿主机的状态是否为故障状态，若是，则执行监控宿主机上的每个虚拟操作系统的运行状态的步骤。

可以理解的是，为了进一步提高监测准确度，可以在根据宿主机的预测运行状态能够确定出宿主机的状态为故障状态时，再进一步对宿主机上的每个虚拟机操作系统的运行状态进行监控。

进一步的，上述基于宿主机的预测运行状态判断宿主机的状态是否为故障状态的过程，可以包括：

连续获取多个时间段内宿主机的预测运行状态及每个时间段的宿主机的实际运行状态；

针对每个时间段，将时间段宿主机的预测运行状态与对应的实际运行状态进行比较；

在第一数量与时间段的总数量的比值大于预设阈值的情况下，确定宿主机的状态为故障状态。

也即，在实际应用中为了确定故障预测的可靠性，可以对连续获取m个时间片的EX_H值，并在下一个时间段对比实际运行状态和预测状态状态是否相同，实际运行状态和预测状态状态相同则取0，实际运行状态和预测状态状态不同时取1，然后统计等于1的频次m1，当m1/m>u时，则说明故障实际发生，需要进行进一步处理，否则说明预测失效，不予采纳预测结果。其中u为预设阈值，也即为灵敏度值，u值越高表示宿主机系统对大部分错误可以容忍，因此系统灵敏度变低，当u值越低，则表示系统灵敏度越高。

S230：监控每个虚拟操作系统上的容器集群管理系统的运行状态，确定容器集群管理系统的预测运行状态；

需要说明的是，本发明实施例中可以对虚拟机操作系统上的容器集群管理系统的运行状态进行监控，以进一步确定容器集群管理系统的预测运行状态，根据容器集群管理系统的预测运行状态可以进一步确定哪些容器即将出现故障，

在一个实施例中，上述S230中监控每个虚拟操作系统上的容器集群管理系统的运行状态，确定容器集群管理系统的预测运行状态的过程，具体可以包括：

在监控每个虚拟操作系统上的容器集群管理系统的运行状态的过程中，针对每个容器集群管理系统，获取容器集群管理系统的当前运行日志；

采用预先建立的第二文档主题生成模型结合吉布斯采样法对容器集群管理系统的当前运行日志进行分析，得到容器集群管理系统在下一时间段的预测运行状态；

其中，第二文档主题生成模型为预先采用吉布斯采样法结合容器集群管理系统的历史运行日志建立的。

具体的，本发明实施例中可以预先采用吉布斯采样法结合容器集群管理系统的历史运行日志建立第二文档主题生成模型，然后采用该第二文档主题生成模型结合吉布斯采样法对容器集群管理系统的当前运行日志进行分析，得到容器集群管理系统在下一时间段的预测运行状态。

在一个实施例中，上述第二文档主题生成模型为预先采用吉布斯采样法结合容器集群管理系统的历史运行日志建立的过程，具体可以包括：

获取容器集群管理系统在多个历史时间段的多个第二历史运行日志；

针对每个历史时间段，基于历史时间段内的多个第二历史运行日志生成对应的第二文本；

针对每个第二文本，对第二文本中的每个词分别随机赋予一个第二话题编号；

采用吉布斯采样法对第二文本中的每个词进行话题重采样，并在采样过程中不断更新第一概率分布参数和第二概率分布参数；其中，第一概率分布参数用于计算文本下话题的概率分布的参数，第二概率分布参数用于计算话题下词的概率分布的参数；

在第一概率分布参数和第二概率分布参数均收敛的情况下，确定出每个第二话题编号各自对应的最终第二概率分布参数；

基于每个第二话题编号的最终第二概率分布参数、各个第二话题编号、各个词以及各个话题下词的概率形成第二话题词共现频率矩阵；

将第二话题词共现频率矩阵作为第二文档主题生成模型。

需要说明的是，本发明实施例中可以获取器集群管理系统在多个历史时间段的多个第二历史运行日志，也即，针对每个历史时间段均获取该历史时间段内的多个第二历史运行日志，并根据该多个第二历史运行日志生成一个长文本，也即得到一个第二文本，从而得到与多个历史时间段各自对应的一个第二文本。针对每个第二文本，对该第二文本中的每个词随机赋予一个第二话题编号，例如对第j个第二文本d_j中的第i个词w_i随机赋予一个话题编号tp（具体为第二话题编号）。

根据吉布斯采样法中的吉布斯采样关系式：，对每个词进行话题重采样，并更新参数第一概率分布参数α和第二概率分布参数β，其中表示词/>出现在文本/>中的频率，该频率可以根据文本/>求得、为已知量，表示话题/>下词/>的概率分布，其中，第二概率分布参数β为生成该概率分布的参数，/>表示文档/>下话题/>的概率分布，第一概率分布参数α为生成该概率分布/>的参数。K表示共有K个话题编号（具体为第二话题编号），k表示第k个话题编号。

具体的，重复上述过程对每个第二文本进行吉布斯采样处理，不断更新第一概率分布参数和第二概率分布参数，在第一概率分布参数和第二概率分布参数均收敛的情况下，就可以确定出每个第二话题编号各自对应的最终第二概率分布参数，然后根据每个第二话题编号各自对应的最终第二概率分布参数、各个第二话题编号、各个词以及各个话题下词的概率形成第二话题词共现频率矩阵，并将该第二话题词共现频率矩阵作为第二文档主题生成模型。

在一个实施例中，上述采用预先建立的第二文档主题生成模型结合吉布斯采样法对容器集群管理系统的当前运行日志进行分析，得到容器集群管理系统在下一时间段的预测运行状态的过程，具体可以包括：

基于容器集群管理系统的当前运行日志生成第二当前运行日志文本；

对第二当前运行日志文件中的每个词分别随机赋予一个第二话题编号；

采用吉布斯采样法对第二当前运行日志进行话题重采样，并结合第二文档主题生成模型对相应的第一概率分布参数进行更新，直至与第二当前运行日志文本对应的第一概率分布参数收敛，得到第二当前运行日志文本下的话题概率分布；

基于第二当前运行日志文本下的话题概率分布，确定出概率最高的第二话题编号；

基于概率最高的第二话题编号结合第二文档主题生成模型，得到与概率最高的第二话题编号对应的概率最高的前第二预设数量个词；

基于前第二预设数量个词，确定容器集群管理系统在下一时间段的预测运行状态。

需要说明的是，获取容器集群管理系统的当前运行日志，并根据容器集群管理系统的当前运行日志生成第二当前运行日志文本，再对第二当前运行日志文件中的每个词分别随机赋予一个第二话题编号，采用吉布斯采样法对第二当前运行日志进行话题重采样，并结合第二文档主题生成模型对相应的第一概率分布参数进行更新，直至与第二当前运行日志文本对应的第一概率分布参数收敛，得到第二当前运行日志文本下的话题概率分布；其中，第二文档主题生成模型中的每个话题编号对应一个第二概率分布参数，因此在对第二文档主题生成模型对相应的第一概率分布参数进行更新时，第二概率分布参数是一个固定值，针对第二当前运行日志文本中的每个词可以计算出该词出现在该第二当前运行日志文本中的频率，然后进一步计算出第二当前运行日志文本下的话题概率分布。

具体的，在得到第二当前运行日志文本下的话题概率分布后，根据该第二当前运行日志文本下的话题概率分布，可以进一步确定出概率最高的第二话题编号，然后再从根据该概率最高的第二话题编号，从第二文档主题生成模型中匹配出与该概率最高的第二话题编号对应的概率最高的前第二预设数量个词，例如确定出第一话题编号为1的概率最高的前5个词，再根据前第二预设数量个词，确定虚拟操作系统在下一时间段的预测运行状态。

在一个实施例中，基于前第二预设数量个词，确定容器集群管理系统在下一时间段的预测运行状态，包括：

判断前第二预设数量个词中是否存在意思为错误的词，若存在，则确定容器集群管理系统在下一时间段的预测运行状态为异常状态；若不存在，则确定容器集群管理系统在下一时间段的预测运行状态为正常状态。

具体的，在基于前第二预设数量个词，确定容器集群管理系统在下一时间段的预测运行状态时，可以先判断前第二预设数量个词中是否存在意思为错误的词，若存在，则确定容器集群管理系统在下一时间段的预测运行状态为异常状态；若不存在，则确定容器集群管理系统在下一时间段的预测运行状态为正常状态。

也即，在概率最高的前第二预设数量个词中存在Error或fault等词时，则认为容器集群管理系统在下一时间段的预测运行状态为异常状态，可以输出EX_k=1，否则，认为容器集群管理系统在下一时间段的预测运行状态为正常状态。

S240：基于宿主机的预测运行状态、每个虚拟操作系统分别对应的预测运行状态以及每个虚拟操作系统上的容器集群管理系统的预测运行状态，生成预测结果；

需要说明的是，本发明实施例中将宿主机的预测运行状态、每个虚拟操作系统分别对应的预测运行状态以及每个虚拟操作系统上的容器集群管理系统的预测运行状态整体生成预测结果。

S250：根据预测结果确定出现故障的待迁移容器；

具体的，本发明实施例中根据上述预测结果可以确定出出现故障的待迁移容器。具体可以通过以下方法确定：

在确定出存在预测运行状态为异常状态的虚拟操作系统时，判断预测运行状态为异常状态的虚拟操作系统的数量是否大于阈值，若是，则将宿主机下的所有容器均确定为待迁移容器；若否，则将预设运行状态为异常状态的虚拟操作系统下的所有容器确定为待迁移容器；

在所有的虚拟机操作系统的预测运行状态均为正常状态，且存在预测运行状态为异常状态的容器集群管理系统，则根据预测运行状态为异常状态的容器集群管理系统的日志信息确定出状态异常的容器，将状态异常的容器作为待迁移容器。

可以理解的是，在确定出虚拟机操作系统异常时，则确定该宿主机上异常状态的虚拟机操作系统的数量是否大于阈值（例如2个），若大于该阈值，则认为当前虚拟机操作系统所处宿主机出现故障，则可以将该宿主机上所有的虚拟机操作系统上的容器作为待迁移容器。在所有的虚拟机操作系统均为正常状态，存在预测运行状态为异常状态的容器集群管理系统，可以根据异常状态的容器集群管理系统的日志信息确定出状态异常的容器，将这些容器作为待迁移容器。

S260：基于待迁移容器的容器需求信息从其他正常节点中选择出目标节点；

需要说明的是，本发明实施例中的容器需求信息包括中央处理器CPU需求、内存需求、网络需求和存储资源需求。

则，上述S260基于待迁移容器的容器需求信息从其他正常节点中选择出目标节点的过程，具体可以包括：

针对其他正常节点中的每个正常节点，根据待迁移容器的中央处理器需求、内存需求、网络需求和存储资源需求从其他正常节点中选择出满足各需求的候选节点，然后再结合各候选的中央处理器剩余情况、内存剩余情况、网络剩余情况和存储资源剩余情况，计算出与候选节点对应的资源平均富裕率；

从各个候选节点中选出资源平均富裕率最高的候选节点作为目标节点。

需要说明的是，针对待迁移容器，可以待迁移容器的CPU需求为/>、内存需求为/>、网络需求为/>、存储资源要求为/> ，具体可以记为/>，将其他的正常节点作为候选节点，并从对所有候选节点中筛选出能够满足待迁移容器/>需求的候选节点集合/>。

计算每个候选节点资源平均富裕率：，

其中，分别表示候选节点/>当前CPU、内存、网络、存储等四种资源的剩余情况且/>，选择/>中/>最大的候选节点作为容器迁移的目的节点。

S270：将待迁移容器中的业务数据传输至目标节点上；

需要说明的是，在实际应用中由于待迁移容器的业务没有停止，因此在对待迁移容器上的当前所以业务数据进行迁移时，由于迁移需要一定的时间，在这段时间内可能会产生新的业务数据，因此可以将待迁移容器中的业务数据向目标节点进行多次传输，以实现多次迁移，从而进一步保障迁移至目标节点上的业务数据的完整性，更好地保障用户业务的正常。

在一个实施例中，上述S270中将待迁移容器中的业务数据传输至目标节点上的过程，具体可以包括：

将待迁移容器中的业务数据进行快照，并生成转储文件，将转储文件传输至目标节点上；

判断转储文件的传输时长是否大于时长阈值，若是，则对待迁移容器中在传输时长内更新的更新业务数据进行快照，并生成更新转储文件，将更新转储文件传输至目标节点上；

将更新转储文件作为转储文件，并返回执行判断转储文件的传输时长是否大于时长阈值的步骤，直至小于时长阈值时，完成传输。

需要说明的是，在实际应用中可以通过以下过程将待迁移容器的业务数据迁移至目标节点上：

可以使用CRIU中“dump --track-mem --leave-running”命令对待迁移pod上的待迁移容器中的业务数据进行快照，具体可以对待迁移容器的存储数据及内存状态信息进行快照；其中，CRIU（Checkpoint/Restore In Userspace），是Linux上的一个软件，可以用来暂停运行中的容器或者是进程，根据CRIU暂停生成的文件从断点恢复容器或者是进程，然后继续执行。

从当前容器节点获取CRIU快照数据得到的转储文件，并通过网络将该转储文件传输至目标节点中，由于在一次迁移过程中可能会产生新的业务数据，并且CRIU本身仅实现一次迁移过程，因此要实现在线迁移，需要进行多次CRIU操作，以对容器占用的内存空间进行多次预拷贝。

具体的，内存跟踪功能能够对比当前pod上待迁移容器占用的内存页面与转储文件中内存内容的更新部分，并计划再次通过CRIU中“pre-dump --prev-images-dir”命令对更新部分进行转储，并提供给目标节点。具体的，可以在当前传输所需时长大于时长阈值时，对更新业务数据进行快照，并生成更新转储文件，再次进行传输。

在CRIU术语中，除了最后一个转储之外，所有转储都被称为预转储，它只包含容器的内存页，以减少开销。为了评估性能，当最后一次迭代所需的时间小于时长阈值thd时，停止迭代（也即停止对更新数据的获取和传输）。因此，当时，停止进一步循环转储，其中/>表示最新一次转储形成的文件大小（也即当前更新转储文件的大小），/>表示待迁移容器所在的当前节点（也即宿主机）到目标节点之间的网络传输能力。

S280：在目标节点上生成新容器吊舱，并在新容器吊舱中对业务数据进行恢复生成对应的容器。

具体的，在将所有的业务数据均传输至目标节点后，也即，当所有转储文件都被存储在目标节点的磁盘中时，随后在目标节点中可以通过“kubelet run”命令克隆一个新pod（也即生成一个新pod），并利用CRIU中的“restore”命令将目标节点中的所有的转储文件（也即业务数据）恢复为容器，从而实现容器的整体迁移。

S290：将与待迁移容器对应的旧容器吊舱从对应的宿主机上删除。

具体的，本发明实施例中为了节约存储资源，可以在对待迁移容器迁移完成后，将该待迁移容器在宿主机上的旧pod从宿主机上删除，完成k8s环境下的容器热迁移。

由上述可见，本发明实施例中的容器迁移方法，可以实现从硬件基础设施、虚拟机操作系统到容器平台的协同故障预测与检测技术，能够较为精确的检测出不同层级的故障，同时利用表决机制，以绝大多数通过的形式确认故障预测结果的可靠性，确保不同级别或情形的故障能够得到最优的容错，同时保证系统整体迁移消耗最优。本发明还基于候选节点中的资源情况，确定出待迁移容器的迁移目的地（也即目标节点），并基于CRIU技术对运行中的容器进行热迁移，缩短容器服务停机时间。

在上述实施例的基础上，本发明实施例还提供了一种容器集群管理系统的容器迁移装置，具体请参照图3，该装置包括：

分析模块11，用于对云原生系统下各个运行中的容器的状态进行分析，得到预测结果；

确定模块12，用于根据预测结果确定出现故障的待迁移容器；

传输模块13，用于将待迁移容器中的业务数据传输至目标节点上，其中，目标节点为正常运行的其他节点；

生成模块14，用于在目标节点上生成新容器吊舱，并在新容器吊舱中对业务数据进行恢复生成对应的容器。

在一个实施例中，分析模块11，包括：

第一监控单元，用于监控云原生系统所在宿主机的运行状态，确定宿主机的预测运行状态；

第二监控单元，用于监控宿主机上的每个虚拟操作系统的运行状态，确定每个虚拟操作系统分别对应的预测运行状态；

第三监控单元，用于监控每个虚拟操作系统上的容器集群管理系统的运行状态，确定容器集群管理系统的预测运行状态；

第一生成单元，用于基于宿主机的预测运行状态、每个虚拟操作系统分别对应的预测运行状态以及每个虚拟操作系统上的容器集群管理系统的预测运行状态，生成预测结果。

在一个实施例中，还包括：

第一判断模块，用于基于宿主机的预测运行状态判断宿主机的状态是否为故障状态，若是，则触发第二监控单元。

在一个实施例中，第一判断模块，包括：

第一获取单元，用于连续获取多个时间段内宿主机的预测运行状态及每个时间段的宿主机的实际运行状态；

第一比较单元，用于针对每个时间段，将时间段宿主机的预测运行状态与对应的实际运行状态进行比较；

统计单元，用于统计预测运行状态与实际运行状态不同的时间段的第一数量；

第一确定单元，用于在第一数量与时间段的总数量的比值大于预设阈值的情况下，确定宿主机的状态为故障状态。

在一个实施例中，第一监控模块，包括：

第二获取单元，用于获取云原生系统所在宿主机的当前时间段的运行状态信息；

第一分析单元，用于对当前时间段的运行状态信息进行分析，得到宿主机在下一时间段的预测状态信息；

第二确定单元，用于根据宿主机在下一时间段的预测状态信息，确定出宿主机在下一时间段的预测运行状态。

在一个实施例中，第二确定单元，包括：

第一获取子单元，用于根据宿主机在下一时间段的预测状态信息，获取各类状态参数的预测值；

第一比较子单元，用于将各类状态参数的预测值与对应的正常阈值进行比较；

第一确定子单元，用于在至少一类状态参数的预测值大于对应的正常阈值的情况下，确定宿主机在下一时间段的预测运行状态为异常状态；

第二确定子单元，用于在各类状态参数的预测值均未超过对应的正常阈值的情况下，确定宿主机在下一时间段的预测运行状态为正常状态。

在一个实施例中，运行状态信息包括中央处理器利用率、内存利用率、网络带宽利用率以及存储盘利用率中的一种或多种的组合。

在一个实施例中，第一分析单元，用于：

其中，状态预测神经网络模型为通过训练模块基于时间序列分析法、结合宿主机的历史运行状态信息对深度学习网络进行训练得到的。

在一个实施例中，训练模块，包括：

第三获取单元，用于获取宿主机在多个历史时间段的运行状态信息；

训练单元，用于采用时间序列分析法及多个历史时间段的运行状态信息对深度学习网络进行训练，并在训练过程中更新网络参数，直至损失函数收敛确定出最终网络参数；

第二生成单元，用于基于最终网络参数得到训练好的状态预测神经网络模型。

在一个实施例中，第二监控单元，包括：

第二获取子单元，用于在监控宿主机上的每个虚拟操作系统的运行状态的过程中，针对每个虚拟机操作系统，获取虚拟机操作系统的当前运行日志；

第二分析子单元，用于采用预先建立的第一文档主题生成模型结合吉布斯采样法对虚拟机操作系统的当前运行日志进行分析，得到虚拟操作系统在下一时间段的预测运行状态；

其中，第一文档主题生成模型为通过第一建立单元预先采用吉布斯采样法结合虚拟机操作系统的历史运行日志建立的。

在一个实施例中，第一建立单元，包括：

第四获取子单元，用于获取虚拟机操作系统在多个历史时间段的多个第一历史运行日志；

第一生成子单元，用于针对每个历史时间段，基于历史时间段内的多个第一历史运行日志生成对应的第一文本；

第一赋值子单元，用于针对每个第一文本，对第一文本中的每个词分别随机赋予一个第一话题编号；

第一采样子单元，用于采用吉布斯采样法对第一文本中的每个词进行话题重采样，并在采样过程中不断更新第一概率分布参数和第二概率分布参数；其中，第一概率分布参数用于计算文本下话题的概率分布的参数，第二概率分布参数用于计算话题下词的概率分布的参数；

第三确定子单元，用于在第一概率分布参数和第二概率分布参数均收敛的情况下，确定出每个第一话题编号各自对应的最终第二概率分布参数；

第二生成子单元，用于基于每个第一话题编号的最终第二概率分布参数、各个第一话题编号、各个词以及各个话题下词的概率形成第一话题词共现频率矩阵；

第四确定子单元，用于将第一话题词共现频率矩阵作为第一文档主题生成模型。

在一个实施例中，第二分析子单元，包括：

第三生成子单元，用于基于虚拟机操作系统的当前运行日志生成第一当前运行日志文本；

第二赋值子单元，用于对第一当前运行日志文件中的每个词分别随机赋予一个第一话题编号；

第二采样子单元，用于采用吉布斯采样法对第一当前运行日志进行话题重采样，并结合第一文档主题生成模型对相应的第一概率分布参数进行更新，直至与第一当前运行日志文本对应的第一概率分布参数收敛，得到第一当前运行日志文本下的话题概率分布；

第五确定子单元，用于基于第一当前运行日志文本下的话题概率分布，确定出概率最高的第一话题编号；

第六确定子单元，用于基于概率最高的第一话题编号结合第一文档主题生成模型，得到与概率最高的第一话题编号对应的概率最高的前第一预设数量个词；

第七确定子单元，用于基于前第一预设数量个词，确定虚拟操作系统在下一时间段的预测运行状态。

在一个实施例中，第七确定子单元，包括：

第一判断子单元，用于判断前第一预设数量个词中是否存在意思为错误的词，若存在，则触发第八确定子单元；若不存在，则触发第九确定子单元；

第八确定子单元，用于确定虚拟操作系统在下一时间段的预测运行状态为异常状态；

第九确定子单元，用于确定虚拟操作系统在下一时间段的预测运行状态为正常状态。

在一个实施例中，第三监控单元，包括：

第三获取子单元，用于在监控每个虚拟操作系统上的容器集群管理系统的运行状态的过程中，针对每个容器集群管理系统，获取容器集群管理系统的当前运行日志；

第三分析子单元，用于采用预先建立的第二文档主题生成模型结合吉布斯采样法对容器集群管理系统的当前运行日志进行分析，得到容器集群管理系统在下一时间段的预测运行状态；

其中，第二文档主题生成模型为通过第二建立单元预先采用吉布斯采样法结合容器集群管理系统的历史运行日志建立的。

在一个实施例中，第二建立单元，包括：

第十确定子单元，用于获取容器集群管理系统在多个历史时间段的多个第二历史运行日志；

第四生成子单元，用于针对每个历史时间段，基于历史时间段内的多个第二历史运行日志生成对应的第二文本；

第三赋值子单元，用于针对每个第二文本，对第二文本中的每个词分别随机赋予一个第二话题编号；

第三采样子单元，用于采用吉布斯采样法对第二文本中的每个词进行话题重采样，并在采样过程中不断更新第一概率分布参数和第二概率分布参数；其中，第一概率分布参数用于计算文本下话题的概率分布的参数，第二概率分布参数用于计算话题下词的概率分布的参数；

第十一确定子单元，用于在第一概率分布参数和第二概率分布参数均收敛的情况下，确定出每个第二话题编号各自对应的最终第二概率分布参数；

第五生成子单元，用于基于每个第二话题编号的最终第二概率分布参数、各个第二话题编号、各个词以及各个话题下词的概率形成第二话题词共现频率矩阵；

第十二确定子单元，用于将第二话题词共现频率矩阵作为第二文档主题生成模型。

在一个实施例中，第三分析子单元，包括：

第六生成子单元，用于基于容器集群管理系统的当前运行日志生成第二当前运行日志文本；

第四赋值子单元，用于对第二当前运行日志文件中的每个词分别随机赋予一个第二话题编号；

第四采样子单元，用于采用吉布斯采样法对第二当前运行日志进行话题重采样，并结合第二文档主题生成模型对相应的第一概率分布参数进行更新，直至与第二当前运行日志文本对应的第一概率分布参数收敛，得到第二当前运行日志文本下的话题概率分布；

第十三确定子单元，用于基于第二当前运行日志文本下的话题概率分布，确定出概率最高的第二话题编号；

第十四确定子单元，用于基于概率最高的第二话题编号结合第二文档主题生成模型，得到与概率最高的第二话题编号对应的概率最高的前第二预设数量个词；

第十五确定子单元，用于基于前第二预设数量个词，确定容器集群管理系统在下一时间段的预测运行状态。

在一个实施例中，第十五确定子单元，包括：

第二判断子单元，用于判断前第二预设数量个词中是否存在意思为错误的词，若存在，则触发第十六确定子单元；若不存在，则触发第十七确定子单元；

第十六确定子单元，用于确定容器集群管理系统在下一时间段的预测运行状态为异常状态；

第十七确定子单元，用于确定容器集群管理系统在下一时间段的预测运行状态为正常状态。

在一个实施例中，还包括：

选择模块，用于基于待迁移容器的容器需求信息从其他正常节点中选择出目标节点。

在一个实施例中，容器需求信息包括中央处理器需求、内存需求、网络需求和存储资源需求。

在一个实施例中，选择模块，包括：

第一选择子单元，用于针对其他正常节点中的每个正常节点，根据待迁移容器的中央处理器需求、内存需求、网络需求和存储资源需求从其他正常节点中选择出满足各需求的候选节点，并结合各以及各候选节点的中央处理器剩余情况、内存剩余情况、网络剩余情况和存储资源剩余情况，计算出与候选节点对应的资源平均富裕率；

第二选择子单元，用于从各个候选节点中选出资源平均富裕率最高的候选节点作为目标节点。

在一个实施例中，确定模块12，包括：

第三判断子单元，用于在确定出存在预测运行状态为异常状态的虚拟操作系统时，判断预测运行状态为异常状态的虚拟操作系统的数量是否大于阈值，若是，则触发第十八确定子单元；若否，则触发第十九确定子单元；

第十八确定子单元，用于将宿主机下的所有容器均确定为待迁移容器；

第十九确定子单元，用于将预设运行状态为异常状态的虚拟操作系统下的所有容器确定为待迁移容器；

第二十确定子单元，用于在所有的虚拟机操作系统的预测运行状态均为正常状态，且存在预测运行状态为异常状态的容器集群管理系统，则根据预测运行状态为异常状态的容器集群管理系统的日志信息确定出状态异常的容器，将状态异常的容器作为待迁移容器。

在一个实施例中，传输模块13，包括：

快照单元，用于将待迁移容器中的业务数据进行快照，并生成转储文件，将转储文件传输至目标节点上；

第四判断子单元，用于判断转储文件的传输时长是否大于时长阈值，若是，则触发更新单元；

更新单元，用于对待迁移容器中在传输时长内更新的更新业务数据进行快照，并生成更新转储文件，将更新转储文件传输至目标节点上；

返回单元，用于将更新转储文件作为转储文件，并返回执行判断转储文件的传输时长是否大于时长阈值的步骤，直至小于时长阈值时，完成传输。

在一个实施例中，还包括：

删除模块，用于将与待迁移容器对应的旧容器吊舱从对应的宿主机上删除。

需要说明的是，本发明实施例中的容器集群管理系统的容器迁移装置具有与上述实施例中所提供的容器集群管理系统的容器迁移方法相同的有益效果，并且对于本发明实施例中所涉及到的容器集群管理系统的容器迁移方法的具体介绍请参照上述实施例，本发明在此不再赘述。

图4为本发明实施例提供的一种电子设备的结构示意图，如图4所示，电子设备包括：存储器20，用于存储计算机程序；

处理器21，用于执行计算机程序时实现如上述实施例容器集群管理系统的容器迁移方法的步骤。

本实施例提供的电子设备可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。

其中，处理器21可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器21可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器21可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器21还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器20可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器20至少用于存储以下计算机程序201，其中，该计算机程序被处理器21加载并执行之后，能够实现前述任一实施例公开的容器集群管理系统的容器迁移方法的相关步骤。另外，存储器20所存储的资源还可以包括操作系统202和数据203等，存储方式可以是短暂存储或者永久存储。其中，操作系统202可以包括Windows、Unix、Linux等。数据203可以包括但不限于设定的偏移量等。

在一些实施例中，电子设备还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。

本领域技术人员可以理解，图4中示出的结构并不构成对电子设备的限定，可以包括比图示更多或更少的组件。

可以理解的是，如果上述实施例中的容器集群管理系统的容器迁移方法以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random AccessMemory，RAM）、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。

基于此，如图5所示，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质30上存储有计算机程序31，计算机程序31被处理器执行时实现如上述容器集群管理系统的容器迁移方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种容器集群管理系统的容器迁移方法，其特征在于，包括：

根据预测结果确定出现故障的待迁移容器；

在所述目标节点上生成新容器吊舱，并在所述新容器吊舱中对所述业务数据进行恢复生成对应的容器；其中：

所述对云原生系统下各个运行中的容器的状态进行分析，得到预测结果，包括：

基于所述宿主机的预测运行状态、每个所述虚拟操作系统分别对应的预测运行状态以及每个所述虚拟操作系统上的容器集群管理系统的预测运行状态，生成预测结果；

所述监控所述宿主机上的每个虚拟操作系统的运行状态，确定每个所述虚拟操作系统分别对应的预测运行状态，包括：

其中，所述第一文档主题生成模型为预先采用吉布斯采样法结合所述虚拟机操作系统的历史运行日志建立的；

所述第一文档主题生成模型的建立过程，包括：

2.根据权利要求1所述的容器集群管理系统的容器迁移方法，其特征在于，在所述监控所述宿主机上的每个虚拟操作系统的运行状态之前，还包括：

3.根据权利要求1所述的容器集群管理系统的容器迁移方法，其特征在于，所述基于所述宿主机的预测运行状态判断所述宿主机的状态是否为故障状态，包括：

4.根据权利要求1所述的容器集群管理系统的容器迁移方法，其特征在于，所述监控云原生系统所在宿主机的运行状态，确定所述宿主机的预测运行状态，包括：

获取云原生系统所在宿主机的当前时间段的运行状态信息；

5.根据权利要求4所述的容器集群管理系统的容器迁移方法，其特征在于，所述根据所述宿主机在下一时间段的预测状态信息，确定出所述宿主机在所述下一时间段的预测运行状态，包括：

将各类所述状态参数的预测值与对应的正常阈值进行比较；

6.根据权利要求4所述的容器集群管理系统的容器迁移方法，其特征在于，所述运行状态信息包括中央处理器利用率、内存利用率、网络带宽利用率以及存储盘利用率中的一种或多种的组合。

7.根据权利要求4所述的容器集群管理系统的容器迁移方法，其特征在于，所述对所述当前时间段的运行状态信息进行分析，得到所述宿主机在下一时间段的预测状态信息，包括：

8.根据权利要求7所述的容器集群管理系统的容器迁移方法，其特征在于，所述状态预测神经网络模型的训练过程，包括：

获取所述宿主机在多个历史时间段的运行状态信息；

9.根据权利要求1所述的容器集群管理系统的容器迁移方法，其特征在于，所述采用预先建立的第一文档主题生成模型结合吉布斯采样法对所述虚拟机操作系统的当前运行日志进行分析，得到所述虚拟操作系统在下一时间段的预测运行状态，包括：

对所述第一当前运行日志文本中的每个词分别随机赋予一个第一话题编号；

10.根据权利要求9所述的容器集群管理系统的容器迁移方法，其特征在于，所述基于所述前第一预设数量个词，确定所述虚拟操作系统在下一时间段的预测运行状态，包括：

11.根据权利要求1所述的容器集群管理系统的容器迁移方法，其特征在于，监控每个所述虚拟操作系统上的容器集群管理系统的运行状态，确定所述容器集群管理系统的预测运行状态，包括：

12.根据权利要求11所述的容器集群管理系统的容器迁移方法，其特征在于，所述第二文档主题生成模型的建立过程，包括：

13.根据权利要求12所述的容器集群管理系统的容器迁移方法，其特征在于，所述采用预先建立的第二文档主题生成模型结合吉布斯采样法对所述容器集群管理系统的当前运行日志进行分析，得到所述容器集群管理系统在下一时间段的预测运行状态，包括：

对所述第二当前运行日志文本中的每个词分别随机赋予一个第二话题编号；

14.根据权利要求13所述的容器集群管理系统的容器迁移方法，其特征在于，所述基于所述前第二预设数量个词，确定所述容器集群管理系统在下一时间段的预测运行状态，包括：

15.根据权利要求1所述的容器集群管理系统的容器迁移方法，其特征在于，在所述将所述待迁移容器中的业务数据传输至目标节点上之前，还包括：

16.根据权利要求15所述的容器集群管理系统的容器迁移方法，其特征在于，所述容器需求信息包括中央处理器需求、内存需求、网络需求和存储资源需求。

17.根据权利要求16所述的容器集群管理系统的容器迁移方法，其特征在于，所述基于所述待迁移容器的容器需求信息从其他正常节点中选择出目标节点，包括：

针对其他正常节点中的每个正常节点，根据所述待迁移容器的中央处理器需求、内存需求、网络需求和存储资源需求从其他所述正常节点中选择出满足各需求的候选节点，并结合各所述候选节点的中央处理器剩余情况、内存剩余情况、网络剩余情况和存储资源剩余情况，计算出与所述候选节点对应的资源平均富裕率；

18.根据权利要求2至17任意一项所述的容器集群管理系统的容器迁移方法，其特征在于，所述根据预测结果确定出现故障的待迁移容器，包括：

在确定出存在预测运行状态为异常状态的虚拟操作系统时，判断预测运行状态为异常状态的虚拟操作系统的数量是否大于阈值，若是，则将所述宿主机下的所有容器均确定为待迁移容器；若否，则将所述预测运行状态为异常状态的虚拟操作系统下的所有容器确定为待迁移容器；

19.根据权利要求1至17任意一项所述的容器集群管理系统的容器迁移方法，其特征在于，所述将所述待迁移容器中的业务数据传输至目标节点上，包括：

20.根据权利要求19所述的容器集群管理系统的容器迁移方法，其特征在于，在所述目标节点上生成新容器吊舱，并在所述新容器吊舱中对所述业务数据进行恢复生成对应的容器之后，还包括：

21.一种容器集群管理系统的容器迁移装置，其特征在于，包括：

确定模块，用于根据预测结果确定出现故障的待迁移容器；

生成模块，用于在所述目标节点上生成新容器吊舱，并在所述新容器吊舱中对所述业务数据进行恢复生成对应的容器；其中：

所述分析模块，包括：

第一监控单元，用于监控云原生系统所在宿主机的运行状态，确定所述宿主机的预测运行状态；

第二监控单元，用于监控所述宿主机上的每个虚拟操作系统的运行状态，确定每个所述虚拟操作系统分别对应的预测运行状态；

第三监控单元，用于监控每个所述虚拟操作系统上的容器集群管理系统的运行状态，确定所述容器集群管理系统的预测运行状态；

第一生成单元，用于基于所述宿主机的预测运行状态、每个所述虚拟操作系统分别对应的预测运行状态以及每个所述虚拟操作系统上的容器集群管理系统的预测运行状态，生成预测结果；

所述第二监控单元，包括：

第二获取子单元，用于在监控所述宿主机上的每个虚拟操作系统的运行状态的过程中，针对每个虚拟机操作系统，获取所述虚拟机操作系统的当前运行日志；

第二分析子单元，用于采用预先建立的第一文档主题生成模型结合吉布斯采样法对虚拟机操作系统的当前运行日志进行分析，得到所述虚拟操作系统在下一时间段的预测运行状态；

其中，所述第一文档主题生成模型为通过第一建立单元预先采用吉布斯采样法结合所述虚拟机操作系统的历史运行日志建立的；

所述第一建立单元，包括：

第四获取子单元，用于获取所述虚拟机操作系统在多个历史时间段的多个第一历史运行日志；

第一生成子单元，用于针对每个历史时间段，基于所述历史时间段内的多个第一历史运行日志生成对应的第一文本；

第一赋值子单元，用于针对每个第一文本，对所述第一文本中的每个词分别随机赋予一个第一话题编号；

第一采样子单元，用于采用吉布斯采样法对所述第一文本中的每个词进行话题重采样，并在采样过程中不断更新第一概率分布参数和第二概率分布参数；其中，所述第一概率分布参数用于计算文本下话题的概率分布的参数，所述第二概率分布参数用于计算话题下词的概率分布的参数；

第三确定子单元，用于在所述第一概率分布参数和所述第二概率分布参数均收敛的情况下，确定出每个第一话题编号各自对应的最终第二概率分布参数；

第二生成子单元，用于基于每个所述第一话题编号的最终第二概率分布参数、各个所述第一话题编号、各个所述词以及各个话题下词的概率形成第一话题词共现频率矩阵；

第四确定子单元，用于将所述第一话题词共现频率矩阵作为第一文档主题生成模型。

22.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至20任一项所述容器集群管理系统的容器迁移方法的步骤。

23.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至20任一项所述容器集群管理系统的容器迁移方法的步骤。