CN113626052B

CN113626052B - 一种深度学习训练平台

Info

Publication number: CN113626052B
Application number: CN202110865896.XA
Authority: CN
Inventors: 荆荣讯; 陈培
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2023-08-08
Anticipated expiration: 2041-07-29
Also published as: CN113626052A

Abstract

本发明公开了一种深度学习训练平台，包括：多个软件实例；深度学习训练集群；服务管理端，配置为接收用户请求，并将用户请求分发至多个软件实例中的至少一个进行处理；集群适配器，配置为接收多个软件实例的处理结果，并将处理结果提交到深度学习训练集群进行训练；其中，服务管理端配置为响应于确认多个软件实例中的若干软件实例进行升级，则将升级期间的用户请求分配给其他的软件实例。本发明解决了当用户在使用深度学习训练平台时，深度学习平台在进行软件升级的情况下需要中断服务的问题，实现在不影响用户使用、不中断服务的情况下，实现软件的升级，并且升级过程中能够验证升级的有效性，发现问题可以进行软件升级操作的回滚。

Description

一种深度学习训练平台

技术领域

本发明涉及深度学习技术领域，尤其涉及一种深度学习训练平台。

背景技术

目前，人工智能技术有了飞速发展，各个行业正迅速的进行智能化改造。作为人工智能代表的深度学习技术，在各个领域产生了大量的、不断变化的、迅猛发展的深度学习训练的需求。面对不断革新的技术和变化的用户需求，深度学习平台如何升级成为一个业内解决的问题。深度学习是计算密集型的训练任务，在软件升级过程中如果中断服务会极大的影响训练的效果和用户体验，进而影响用户使用产品的收益。在深度学习训练平台中，为了保证训练的效果和用户体验，需要深度学习训练平台提供一个软件升级方法，解决面临的两个难题：一是如何保证训练任务不中断和用户体验不受影响的情况下，进行深度学习平台软件版本的升级；二是如何在软件版本升级过程中验证升级的有效性，在异常时能够进行软件升级的回滚。

目前业界训练平台的软件升级方法，普遍存在下列问题：一是训练平台软件升级一般包含kubernetes集群升级和训练平台管理软件升级，一般方法在软件升级时都需要中断服务，中断正在训练的任务、暂停训练任务的提交或停止平台的访问；二是升级操作是全部集群的原子操作，即一旦执行升级后无法停止，从而无法到达在升级过程中进行服务验证和测试的目的。

发明内容

有鉴于此，本发明实施例的目的在于提出一种深度学习训练平台，解决了当用户在使用深度学习训练平台时，深度学习平台需要进行软件升级需要中断服务的问题，实现在不影响用户使用、不中断服务的情况下，实现软件的升级，并且升级过程中能够验证升级的有效性，发现问题可以进行软件升级操作的回滚。

基于上述目的，本发明实施例的一方面提供了一种深度学习训练平台，包括：多个软件实例；深度学习训练集群；服务管理端，配置为接收用户请求，并将用户请求分发至多个软件实例中的至少一个进行处理；集群适配器，配置为接收多个软件实例的处理结果，并将处理结果提交到深度学习训练集群进行训练；其中，服务管理端配置为响应于确认多个软件实例中的若干软件实例进行升级，则将升级期间的用户请求分配给其他的软件实例。

在一些实施方式中，深度学习训练集群为多个，集群适配器配置为响应于确认多个深度学习训练集群中的若干深度学习训练集群进行升级，则将升级期间的处理结果分配给其他的深度学习训练集群。

在一些实施方式中，软件实例进一步配置为：响应于接收到软件升级指令，则停止处理用户请求的服务并进行升级；对升级后的软件进行校验；响应于校验通过，则启动处理用户请求的服务。

在一些实施方式中，软件实例进一步配置为：响应于升级期间出现问题，则执行回滚操作，并再次对升级后的软件进行检验；响应于校验不通过，则执行回滚操作，并再次对升级后的软件进行检验。

在一些实施方式中，服务管理端进一步配置为：通过健康检测判断软件实例状态以确认软件实例是否正在升级；响应于健康检测失败，则确认软件实例停止处理用户请求的服务且正在升级，并将新接收的用户请求从软件实例迁移至其他软件实例；响应于健康检测通过，则确认软件实例开启处理用户请求的服务且未正在升级。

在一些实施方式中，集群适配器进一步配置为：响应于接收到深度学习训练集群升级指令，则将深度学习训练集群设置为禁用状态；创建新的深度学习训练集群，并将新接收的处理结果提交到新的深度学习训练集群进行训练。

在一些实施方式中，深度学习训练集群进一步配置为响应于接收到深度学习训练集群升级指令，则将运行的训练任务完成后进行升级；集群适配器进一步配置为响应于深度学习训练集群升级完成，则将深度学习训练集群设置为开启状态。

在一些实施方式中，集群适配器进一步配置为：响应于深度学习训练集群完成，将深度学习训练集群设置为开启小流量状态，并将预设比例的训练任务提交至深度学习训练集群以确认深度学习训练集群的训练结果是否达到预设标准；响应于深度学习训练集群的训练结果未达到预设标准，则再次将深度学习训练集群设置为禁用状态并进行升级回滚；响应于深度学习训练集群的训练结果达到预设标准，则将深度学习训练集群设置为正常开启状态。

在一些实施方式中，多个软件实例为完全相同的、并发执行的软件实例。

在一些实施方式中，多个深度学习训练集群为完全相同的、并发执行的深度学习训练集群。

本发明具有以下有益技术效果：解决了当用户在使用深度学习训练平台时，深度学习平台在进行软件升级的情况下需要中断服务的问题，实现在不影响用户使用、不中断服务的情况下，实现软件的升级，并且升级过程中能够验证升级的有效性，发现问题可以进行软件升级操作的回滚。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明提供的深度学习训练平台实施例的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

基于上述目的，本发明实施例的第一个方面，提出了深度学习训练平台升级的实施例。图1示出的是本发明提供的深度学习训练平台的实施例的示意图。如图1所示，本发明实施例包括：

多个软件实例；

深度学习训练集群；

服务管理端，配置为接收用户请求，并将用户请求分发至多个软件实例中的至少一个进行处理；

集群适配器，配置为接收多个软件实例的处理结果，并将处理结果提交到深度学习训练集群进行训练；

其中，服务管理端配置为响应于确认多个软件实例中的若干软件实例进行升级，则将升级期间的用户请求分配给其他的软件实例。

在本实施例中，通过kubernetes的服务管理功能，将深度学习平台软件从单实例调整为多实例，即允许多个平台软件同时运行，功能上保证执行过程中互不干扰。同时通过kubernetes service（服务管理）方式，能够将业务访问请求分发至各个软件实例。其中，Kubernetes是开源的集群管理系统，用于管理AIStation（深度学习服务平台）深度学习训练任务。它让部署容器化的应用简单并且高效，提供了应用部署，规划，更新，维护的一种机制。实现了在多个深度学习平台软件的并发执行，在单个软件实例失效时，其他软件实例能够正常工作保证平台业务功能正常。

在本发明的一些实施例中，深度学习训练集群为多个，集群适配器配置为响应于确认多个深度学习训练集群中的若干深度学习训练集群进行升级，则将升级期间的处理结果分配给其他的深度学习训练集群。

在本实施例中，深度学习训练平台支持对接多个深度学习训练集群，通过集群适配器ClusterAdapter进行集群的适配和控制作业的提交。低层支持多个深度学习训练集群对接，能够控制任务提交至某个集群。

在本发明的一些实施例中，软件实例进一步配置为：响应于接收到软件升级指令，则停止处理用户请求的服务并进行升级；对升级后的软件进行校验；响应于校验通过，则启动处理用户请求的服务。

在本发明的一些实施例中，软件实例进一步配置为：响应于升级期间出现问题，则执行回滚操作，并再次对升级后的软件进行检验；响应于校验不通过，则执行回滚操作，并再次对升级后的软件进行检验。

在本发明的一些实施例中，服务管理端进一步配置为：通过健康检测判断软件实例状态以确认软件实例是否正在升级；响应于健康检测失败，则确认软件实例停止处理用户请求的服务且正在升级，并将新接收的用户请求从软件实例迁移至其他软件实例；响应于健康检测通过，则确认软件实例开启处理用户请求的服务且未正在升级。

在本发明的一些实施例中，集群适配器进一步配置为：响应于接收到深度学习训练集群升级指令，则将深度学习训练集群设置为禁用状态；创建新的深度学习训练集群，并将新接收的处理结果提交到新的深度学习训练集群进行训练。

在本实施例中，深度学习训练平台中只有一个深度学习训练集群，则可以将深度学习训练平台中未运行任务的节点创建为新的深度学习训练集群，集群适配器将新创建任务需求导入新的深度学习训练集群。

在本发明的一些实施例中，深度学习训练集群进一步配置为响应于接收到深度学习训练集群升级指令，则将运行的训练任务完成后进行升级；集群适配器进一步配置为响应于深度学习训练集群升级完成，则将深度学习训练集群设置为开启状态。

在本发明的一些实施例中，集群适配器进一步配置为：响应于深度学习训练集群完成，将深度学习训练集群设置为开启小流量状态，并将预设比例的训练任务提交至深度学习训练集群以确认深度学习训练集群的训练结果是否达到预设标准；响应于深度学习训练集群的训练结果未达到预设标准，则再次将深度学习训练集群设置为禁用状态并进行升级回滚；响应于深度学习训练集群的训练结果达到预设标准，则将深度学习训练集群设置为正常开启状态。

在本发明的一些实施例中，多个软件实例为完全相同的、并发执行的软件实例。

在本发明的一些实施例中，多个深度学习训练集群为完全相同的、并发执行的深度学习训练集群。

下面根据具体实施例进一步阐述基于本发明的深度学习训练平台的具体的深度学习训练平台升级方法，参考图1，以包括软件实例S1、软件实例S2、软件实例S3、深度学习训练集群K1、深度学习训练集群K2的深度学习训练平台为例。

当深度学习训练平台的软件AIStation升级时，停止软件实例S1的服务，此时服务管理端通过健康检测软件实例S1失败，自动将新接入的用户请求从软件实例S1迁移至软件实例S2和软件实例S3，保证了用户访问平台体验无感知。升级软件后进行校验，如果校验通过，启动软件实例S1的服务；如果有问题执行回滚软件版本操作，再启动软件实例S1的服务。服务管理端通过健康检测发现软件实例S1启动，重新将新用户业务请求接入软件实例S1中，实现软件实例S1的动态升级和异常升级回滚功能。对软件实例S2和软件实例S3同样执行上述步骤，从而实现整个深度学习训练平台软件的升级。

当深度学习训练平台的集群kubernetes升级时，通过集群适配器配置，将深度学习训练集群K1设置为禁用状态，此时运行在深度学习训练集群K1上正在运行的任务不受影响，新提交的任务无法提交至深度学习训练集群K1，可以提交到深度学习训练集群K2。对于深度学习训练集群K1正在运行的任务，将未由任务运行的机器直接升级，有任务运行的机器待任务完成后再进行升级，升级完成后，启动深度学习训练集群K1的服务。集群适配器将深度学习训练集群K1设置为开启小流量状态，管理员可以设置新建任务比例，将新建任务请求按照设定的比例提交至深度学习训练集群K1。若发现任务执行状态不符合预期，则通过集群适配器禁用深度学习训练集群K1，进行深度学习训练集群K1的升级回滚操作；若任务执行状态符合预期，则通过集群适配器设置深度学习训练集群K1为正常开启状态。对深度学习训练集群K2同样执行上述步骤，从而实现整个深度学习训练平台软件的升级。

需要特别指出的是，上述深度学习训练平台的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于深度学习训练平台升级方法也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在实施例之上。

最后需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，深度学习训练平台升级方法的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，程序的存储介质可为磁碟、光盘、只读存储记忆体（ROM）或随机存储记忆体（RAM）等。上述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

此外，根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时，执行本发明实施例公开的方法中限定的上述功能。

此外，上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

在一个或多个示例性设计中，功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现，则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质，该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的，该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备，或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外，任何连接都可以适当地称为计算机可读介质。例如，如果使用同轴线缆、光纤线缆、双绞线、数字用户线路（DSL）或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件，则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的，磁盘和光盘包括压缩盘（CD）、激光盘、光盘、数字多功能盘（DVD）、软盘、蓝光盘，其中磁盘通常磁性地再现数据，而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围（包括权利要求）被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种深度学习训练平台，其特征在于，包括：

多个软件实例；

深度学习训练集群；

服务管理端，配置为接收用户请求，并将所述用户请求分发至所述多个软件实例中的至少一个进行处理；

集群适配器，配置为接收所述多个软件实例的处理结果，并将所述处理结果提交到所述深度学习训练集群进行训练；

其中，所述服务管理端配置为响应于确认所述多个软件实例中的若干软件实例进行升级，则将升级期间的用户请求分配给其他的软件实例；

所述深度学习训练集群为多个，所述集群适配器配置为响应于确认所述多个深度学习训练集群中的若干深度学习训练集群进行升级，则将升级期间的所述处理结果分配给其他的深度学习训练集群；

所述深度学习训练集群进一步配置为响应于接收到深度学习训练集群升级指令，则将运行的训练任务完成后进行升级；所述集群适配器进一步配置为响应于所述深度学习训练集群升级完成，则将所述深度学习训练集群设置为开启状态；

所述集群适配器进一步配置为：

响应于所述深度学习训练集群完成，将所述深度学习训练集群设置为开启小流量状态，并将预设比例的训练任务提交至所述深度学习训练集群以确认所述深度学习训练集群的训练结果是否达到预设标准；

响应于所述深度学习训练集群的训练结果未达到预设标准，则再次将所述深度学习训练集群设置为禁用状态并进行升级回滚；

响应于所述深度学习训练集群的训练结果达到预设标准，则将所述深度学习训练集群设置为正常开启状态。

2.根据权利要求1所述的深度学习训练平台，其特征在于，所述软件实例进一步配置为：

响应于接收到软件升级指令，则停止处理用户请求的服务并进行升级；

对升级后的软件进行校验；

响应于校验通过，则启动处理用户请求的服务。

3.根据权利要求2所述的深度学习训练平台，其特征在于，所述软件实例进一步配置为：

响应于升级期间出现问题，则执行回滚操作，并再次对升级后的软件进行检验；

响应于校验不通过，则执行回滚操作，并再次对升级后的软件进行检验。

4.根据权利要求1所述的深度学习训练平台，其特征在于，所述服务管理端进一步配置为：

通过健康检测判断所述软件实例状态以确认所述软件实例是否正在升级；

响应于健康检测失败，则确认所述软件实例停止处理用户请求的服务且正在升级，并将新接收的用户请求从所述软件实例迁移至其他软件实例；

响应于健康检测通过，则确认所述软件实例开启处理用户请求的服务且未正在升级。

5.根据权利要求1所述的深度学习训练平台，其特征在于，所述集群适配器进一步配置为：

响应于接收到深度学习训练集群升级指令，则将所述深度学习训练集群设置为禁用状态；

创建新的深度学习训练集群，并将新接收的处理结果提交到所述新的深度学习训练集群进行训练。

6.根据权利要求1所述的深度学习训练平台，其特征在于，所述多个软件实例为完全相同的、并发执行的软件实例。

7.根据权利要求1所述的深度学习训练平台，其特征在于，多个所述深度学习训练集群为完全相同的、并发执行的深度学习训练集群。