CN116595384A

CN116595384A - 模型训练方法及装置

Info

Publication number: CN116595384A
Application number: CN202310864326.8A
Authority: CN
Inventors: 高百川; 孙仁恩; 魏鹏; 张冠男
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2023-07-14
Filing date: 2023-07-14
Publication date: 2023-08-15
Anticipated expiration: 2043-07-14
Also published as: CN116595384B

Abstract

本说明书一个或多个实施例提供一种模型训练方法及装置。其中，该方法应用于云端，包括：接收多个终端上传的、基于本地数据对待训练模型进行模型训练产生的训练数据；按照各个终端所属的集群，将由各个终端上传的训练数据记录至与各个集群对应的数据集中，并由与各个集群分别对应的训练模块根据相应数据集中包含的训练数据，对各个集群所对应的待训练模型进行更新，得到与各个集群分别对应的更新后模型；将各个集群所对应的更新后模型，作为相应集群在下一次模型更新时的待训练模型部署至各个终端。

Description

模型训练方法及装置

技术领域

本说明书一个或多个实施例涉及终端技术领域，尤其涉及一种模型训练方法及装置。

背景技术

为提高模型训练的质量，相关技术中提出了通过云端进行模型训练的方法。在该方法中，各个终端可以基于本地数据对由云端提供的公有模型进行模型训练，进而将训练过程中产生的训练数据上传至云端，以由云端基于获取到的训练数据对公有模型进行更新。

尽管通过云端训练模型的方式，通过增大训练数据的覆盖面，提高了训练得到的模型的质量，但是同样因为云端需要对终端上传的大量训练数据进行处理，降低了模型训练的效率。

发明内容

有鉴于此，本说明书一个或多个实施例提供一种模型训练方法及装置。

为实现上述目的，本说明书一个或多个实施例提供技术方案如下：

根据本说明书一个或多个实施例的第一方面，提出了一种模型训练系统，包括：云端和多个终端；各个终端部署有与各自所属集群对应的待训练模型；

每一终端用于：基于本地数据对本地部署的待训练模型进行模型训练，并将训练产生的训练数据上传至所述云端；

所述云端用于：按照各个终端所属的集群，将由各个终端上传的训练数据记录至与各个集群对应的数据集中，并由与各个集群分别对应的训练模块根据相应数据集中包含的训练数据，对各个集群所对应的待训练模型进行更新，得到与各个集群分别对应的更新后模型；以及，将各个集群所对应的更新后模型，作为相应集群在下一次模型更新时的待训练模型部署至各个终端。

根据本说明书一个或多个实施例的第二方面，提出了一种模型训练方法，应用于云端，包括：

接收多个终端上传的、基于本地数据对待训练模型进行模型训练产生的训练数据；

按照各个终端所属的集群，将由各个终端上传的训练数据记录至与各个集群对应的数据集中，并由与各个集群分别对应的训练模块根据相应数据集中包含的训练数据，对各个集群所对应的待训练模型进行更新，得到与各个集群分别对应的更新后模型；

将各个集群所对应的更新后模型，作为相应集群在下一次模型更新时的待训练模型部署至各个终端。

根据本说明书一个或多个实施例的第三方面，提出了一种模型训练装置，应用于云端，包括：

接收单元，接收多个终端上传的、基于本地数据对待训练模型进行模型训练产生的训练数据；

训练单元，按照各个终端所属的集群，将由各个终端上传的训练数据记录至与各个集群对应的数据集中，并由与各个集群分别对应的训练模块根据相应数据集中包含的训练数据，对各个集群所对应的待训练模型进行更新，得到与各个集群分别对应的更新后模型；

部署单元，将各个集群所对应的更新后模型，作为相应集群在下一次模型更新时的待训练模型部署至各个终端。

根据本说明书一个或多个实施例的第四方面，提出了一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如第二方面所述的方法。

根据本说明书一个或多个实施例的第五方面，提出了一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如第二方面所述方法的步骤。

附图说明

图1是一示例性实施例提供的一种模型训练系统的示意图。

图2是一示例性实施例提供的一种模型训练方法的流程图。

图3是一示例性实施例提供的一种端边云协同架构的示意图。

图4是一示例性实施例提供的一种云端内部的组件示意图。

图5是一示例性实施例提供的一种基于端边云协同架构的模型训练方法的交互图。

图6是一示例性实施例提供的一种设备的结构示意图。

图7是一示例性实施例提供的一种模型训练装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

随着端云协同架构的不断成熟，越来越多的任务采用端云协同的方式执行。模型训练任务便是其中之一。

在采用端云协同方式训练模型的过程中，云端可以将公有模型下发至各个终端，以由各个终端基于各自的本地数据，对该公有模型进行训练，得到在训练过程中产生的训练数据。各个终端在得到训练数据后，可以将其上传至云端，以由云端基于所有终端上传的训练数据对公有模型进行更新，得到更新后的公有模型。在此基础上，还可以进一步将更新后的公有模型下发至各个终端，以由各个终端部署于本地。

换言之，在相关技术中，各个终端并非自行训练各自使用的模型，而是由云端统一训练后，将各个终端公用的模型下发并部署至各个终端。其中，各个终端的模型训练操作并非是为了训练得到自身使用的模型，而是为了向云端提供用于对公有模型进行更新的训练数据。

值得注意的是，在相关技术中，由于云端与终端之间的交互存在一定的限制，或者存在效率低下等问题，因此，在端云协同架构的基础上，还可以在云端和终端之间进一步部署边缘服务器，以便云端和终端通过边缘服务器进行顺畅交互。在该情况下，端云协同架构变更为端边云协同架构，在该架构中，云端通过边缘服务器向终端下发公有模型，而终端则通过边缘服务器向云端上传训练数据。

由上述介绍可知，在采用相关技术中的模型训练方式时，能够基于各个终端获取的大量训练数据进行模型训练，由于样本数据量庞大，能够提高训练得到的模型的质量，但是，同样由于云端需要对大量训练数据进行处理，降低了模型训练的效率。可见，相关技术在采用端云协同训练方式时，未能兼顾模型质量和模型训练效率。

有鉴于此，本公开提出了一种模型训练系统，能够在采用端云协同架构进行模型训练时，兼顾模型训练质量和模型训练效率。

图1为本说明书一示例性实施例示出的一种模型训练系统的示意图。如图1所示，该系统包括：云端11和多个终端12；各个终端12部署有与各自所属集群对应的待训练模型；

每一终端12用于：基于本地数据对本地部署的待训练模型进行模型训练，并将训练产生的训练数据上传至云端11；

云端11用于：按照各个终端12所属的集群，将由各个终端12上传的训练数据记录至与各个集群对应的数据集中，并由与各个集群分别对应的训练模块根据相应数据集中包含的训练数据，对各个集群所对应的待训练模型进行更新，得到与各个集群分别对应的更新后模型；以及，将各个集群所对应的更新后模型，作为相应集群在下一次模型更新时的待训练模型部署至各个终端12。

由上述描述可知，在本说明书的模型训练系统中，可以包含云端11和多个终端12，其中，该系统包含的所有终端12可以被划分为多个集群，且各个终端12部署有与各自所属集群对应的待训练模型，而云端11则可以维护有与各个集群分别对应的数据集和训练模块。

在此基础上，各个终端12可以基于本地数据对本地部署的待训练模型进行模型训练，并将得到的训练数据上传至云端11。而云端11则可以根据各个终端12所属的集群，将各个终端12上传的训练数据记录至相应集群的数据集中，并进一步由与各个集群对应的训练模块，分别根据各自所对应数据集中的训练数据，对各自所对应的待训练数据进行更新，进而得到与各个集群对应的更新后模型，在该前提下，即可将与各个集群对应的更新后模型部署至相应集群所包含的各个终端12中，一方面可以被终端12用于对本地数据进行处理，另一方面可以作为各个集群在下一次模型更新时的待训练模型。

应当理解的是，本说明书相当于将端云协同架构中的终端划分为了多个集群，且通过在云端中为各个集群分别部署独立的数据集、训练模块的方式，使得本说明书可以以集群为单位训练模型。换言之，并非端云协同架构中的所有终端公用一个模型，而是为各个集群分别训练模型，以使同一集群内的终端公用一个模型。

在该前提下，一方面，由于云端训练单个模型时，是基于单个集群内的终端上传的训练数据进行模型训练，相较于相关技术中的端云协同训练方式，显然降低了模型训练所需要处理的数据数量，进而提升了模型训练的效率；另一方面，本说明书也并非如传统的模型训练方式，即并非直接应用由终端基于本地数据训练得到的模型，而是基于集群中包含的多个终端上传的训练数据更新实际应用的模型，换言之，本说明书用于模型更新的数据量仍是充足的，保证了训练得到的模型的质量。可见，本说明书在采用端云协同训练方式训练模型时，在兼顾模型质量的同时，提升了模型训练效率。

值得注意的是，云端11中部署的与各个集群对应的训练模块，可以异步执行“基于各自所对应数据集中的训练数据，对各自所对应的待训练模型进行更新”的操作。换言之，各个集群所对应待训练模型的更新操作可以异步执行。例如，云端11可以在调用任一集群所对应的训练模块，基于该任一集群所对应数据集中的训练数据，对该任一集群所对应的待训练模型进行更新时，不对其他集群所对应的待训练模型进行更新；再例如，云端11也可以同时调用所有训练模块，以对所有集群所对应的待训练模型进行更新。当然，此处举例仅是示意性的，各个集群所对应待训练模型的更新时机，可由本领域技术人员根据实际需求确定，本说明书对此不作限制。

在本说明书中，系统中包含的终端，可以按照终端所属地理区域被划分为多个集群。在该情况下，相当于是在云端11中维护了与各个地理区域分别对应的数据集、训练模块。在该前提下，云端11在接收到终端12上传的训练数据的情况下，可以按照各个终端12所属的地理区域，将由各个终端12上传的训练数据记录至与各个地理区域对应的数据集中，并由与各个地理区域分别对应的训练模块，根据相应数据集中包含的训练数据，对各个地理区域所对应的待训练模型进行更新，在此基础上，云端11即可将与各个地理区域对应的更新后模型，分别下发至部署于相应地理区域的终端12，以作为各个终端12在下一次模型更新过程中的待训练模型。

应当理解的是，不同地理区域中的用户通常存在不同的需求、使用终端过程中产生的数据也存在一定的地域性差异，因此，在采用上述按照地理区域将终端12划分为多个集群的集群划分方式时，是基于各个地理区域本地的终端12产生的训练数据，为相应地理区域中的终端12训练模型，更具针对性，能够使最终部署于终端12的模型，满足当地用户的应用需求，避免相关技术中由于未考虑地域性差异，导致最终部署于终端12的模型不适用所有地区的情况。不难看出，对于各个地理区域而言，本说明书的模型训练方式相较于相关技术中的模型训练方式，训练得到的模型质量更佳。

在本说明书中，在终端12按照所属地理区域被划分为多个集群的情况下，系统中还可以包含多个边缘服务器，且各个边缘服务器与各个地理区域为一一对应的关系，换言之，任一地理区域中部署的终端12与同一边缘服务器进行交互。在该情况下，相当于是在端云协同架构的基础上，进一步增加了包含多个边缘服务器的中间层，使端云协同架构变更为端边云协同架构。此时，各个终端12在基于本地数据对待训练模型进行模型训练得到训练数据之后，可以将训练产生的训练数据上传至所属地理区域所对应的边缘服务器，以由该边缘服务器将接收到的训练数据上传至云端11；相对应的，云端11在得到与各个地理位置对应的更新后模型的情况下，可以将与各个地理区域对应的更新后模型，分别下发至与相应地理区域对应的边缘服务器，以由各个边缘服务器将接收到的更新后模型，下发至部署于自身所对应地理区域的终端12。

在本说明书中，在包含边缘服务器的情况下，边缘服务器除了用于数据传递以外，还可以在接收到部署于自身所对应地理区域的终端12上传的训练数据的情况下，对接收到的训练数据进行预处理，并将经由预处理的训练数据上传至云端11。在本说明书中，边缘服务器可以根据实际需求对接收到的训练数据执行不同的预处理操作。例如，边缘服务器中，可以预设有针对训练数据的过滤条件，那么，边缘服务器即可根据该过滤条件对接收到的训练数据执行过滤操作，譬如，过滤条件可以包含：过滤重复数据、过滤异常数据、过滤过时数据；再例如，边缘服务器还可以对接收到的训练数据进行聚合操作，譬如，可以将相似度较高的训练数据聚合为一个数据。当然，此处举例仅是示意性的，边缘服务器具体可以执行何种预处理操作，可由本领域技术人员根据实际需求确定，本说明书对此不作限制。

在本说明书中，云端11可以允许除系统中已包含的边缘服务器以外的其他服务器加入系统。例如，该其他服务器可以向云端11发送注册请求，那么，云端11即可响应于该注册请求，创建与该其他服务器对应的训练模块，在此基础上，在该其他服务器所属地理区域所对应的待更新模型需要更新的情况下，云端11即可接收该其他服务器获取到的、由其所对应地理区域中部署的终端上传的训练数据，并由创建的训练模块基于该训练数据对相应待训练模型进行训练，得到与其他服务器对应的更新后模型。在该情况下，也可以如上文所述的边缘服务器，为该其他服务器创建相应的数据集，以用于记录由其所对应地理区域中部署的终端上传的训练数据。

在本说明书中，除了按照地理区域将系统中包含的终端划分为多个集群之外，还可以从其他维度进行集群划分。例如，还可以根据系统中各个终端所属的网络进行集群划分，其中，属于同一网络的集群被划分为一个集群，在该情况下，与按照地理区域划分相类似的，系统中也可以进一步包含与各个网络分别对应的边缘服务器，以用于负责云端11与终端12之间的数据传输。当然，该举例仅是示意性的，系统中的终端12具体从哪一维度被划分为多个集群，可由本领域技术人员根据实际需求确定，本说明书对此不作限制。

在本说明书中，可以以虚拟机的形式在云端11中为各个集群创建训练模块。例如，云端11可以创建有与各个集群分别对应的虚拟机实例，在此基础上，云端11即可由与各个集群分别对应的虚拟机实例，基于各自所对应数据集中的训练数据，对各自所对应的待训练模型进行训练。当然，该举例仅是示意性的，具体以何种形式，在云端11中部署与各个集群对应的训练模块，可由本领域技术人员根据实际需求确定，例如，还可以以应用程序、插件的形式进行部署，本说明书对此不作限制。

在本说明书中，终端12可以通过多种方式对训练数据进行上传。在一种情况下，终端12可能无法直接向云端11发送请求，例如，可能无法通过HTTP（Hypertext TransferProtocol，超文本传输协议）等传输协议向云端11发起用于将训练数据上传的数据传输请求，而以日志格式存储的数据则允许云端11通过主动拉取的方式获取，此时，终端12在获取到训练数据后，可以将该训练数据以日志格式存储至用于存储日志的特定存储空间中，以由云端11主动从该特定存储空间中拉取训练数据，譬如，在该特定存储空间为日志管理平台时，终端12即可将训练数据存储至该日志管理平台，以由云端11从该日志管理平台拉取已存储的训练数据；再例如，终端12和云端11之间可能存在网络隔离，但存在第三方设备既与终端12所处网络连通、也与云端11所处网络连通，此时，终端12即可将训练数据存储至该第三方设备，以由该第三方设备将训练数据传输至云端11。

值得注意的是，在上述系统为包含边缘服务器的端边云系统架构时，终端12与边缘服务器之间通常可以进行直接交互，而边缘服务器与云端11之间可能存在上述“无法以请求方式上传数据”或“存在网络隔离”的问题。因此，在端边云协同架构中，边缘服务器可以通过上述“将训练数据以日志格式存储至特定存储空间，以由云端11主动拉取训练数据”或“借助第三方设备进行训练数据上传”的方式，将训练数据上传。

当然，此处举例仅是示意性的，终端12或边缘服务器具体采用何种方式将训练数据上传至云端11，可由本领域技术人员根据实际需求确定，本说明书对此不作限制。

由上述技术方案可知，本说明书相当于将系统中的终端划分为了多个集群，且通过在云端为各个集群分别部署独立的数据集、训练模块的方式，使得本说明书可以以集群为单位训练模型。在此基础上，本说明书可以在保证用于训练单个模型的训练数据达到一定数量的同时，避免训练数据过于庞大。其中，前者保证了训练得到的模型的质量，后者避免了模型训练效率过低的问题。可见，采用本说明书的模型训练方法，能够兼顾模型质量和模型训练效率。

本说明书还公开了一种模型训练方法。在该方法中，大多数操作方式，例如，如何进行集群划分、如何为各个集群中的终端训练模型，均与上文所述的模型训练系统一致，该方法仅仅是以云端为执行主体进行介绍，相关内容均可参照上文介绍，在后文中不再赘述。

图2为本说明书一示例性实施例示出的一种模型训练方法的流程图。该方法应用于云端，如图2所示，该方法可以包括以下步骤：

步骤202，接收多个终端上传的、基于本地数据对待训练模型进行模型训练产生的训练数据。

如上所述，终端可以通过将训练数据存储至日志管理平台的方式，由云端主动从日志管理平台拉取训练数据；也可以通过与云端和终端均网络连通的第三方设备，将训练数据上传至云端。

步骤204，按照各个终端所属的集群，将由各个终端上传的训练数据记录至与各个集群对应的数据集中，并由与各个集群分别对应的训练模块根据相应数据集中包含的训练数据，对各个集群所对应的待训练模型进行更新，得到与各个集群分别对应的更新后模型。

如上所述，本说明书可以按照终端所属的地理区域被划分为多个集群，在该情况下，云端可以按照各个终端所属的地理区域，将由各个终端上传的训练数据记录至与各个地理区域对应的数据集中，并由与各个地理区域分别对应的训练模块，根据相应数据集中包含的训练数据，对各个地理区域所对应的待训练模型进行更新。其中，在得到与各个地理区域分别对应的更新后模型的情况下，即可将与各个地理区域对应的更新后模型，分别下发至部署于相应地理区域的终端，以作为各个终端在下一次模型更新过程中的待训练模型。

如上所述，在按照地理区域划分集群的情况下，各个地理区域可以对应有唯一的边缘服务器，在该前提下，可以各个终端获取到的训练数据可以上传至所属地理区域对应的边缘服务器中，以由边缘服务器上传至云端。而云端则可以接收各个边缘服务器上传的训练数据，并基于训练数据的上传方，将训练数据存储至相应地理区域所对应的数据集中，并由各个地理区域分别对应的训练模块，基于各自所对应数据集中的训练数据，对各自所对应的待训练模型进行更新，在训练得到各个地理区域分别对应的更新后模型的情况下，即可将与各个地理区域对应的更新后模型，分别下发至与相应地理区域对应的边缘服务器，以由各个边缘服务器将接收到的更新后模型，下发至部署于自身所对应地理区域的终端。

步骤206，将各个集群所对应的更新后模型，作为相应集群在下一次模型更新时的待训练模型部署至各个终端。

如上所述，本说明书可以以虚拟机的形式在云端中为各个集群创建训练模块。例如，云端可以创建有与各个集群分别对应的虚拟机实例，在此基础上，云端即可由与各个集群分别对应的虚拟机实例，基于各自所对应数据集中的训练数据，对各自所对应的待训练模型进行训练。

由上述技术方案可知，本说明书中的终端为各个终端集群分别部署了独立的数据集、训练模块，使得云端可以以集群为单位为各个集群分别进行模型训练。在此基础上，本说明书可以在保证用于训练单个模型的训练数据达到一定数量的同时，避免训练数据过于庞大。其中，前者保证了训练得到的模型的质量，后者避免了模型训练效率过低的问题。可见，采用本说明书的模型训练方法，能够兼顾模型质量和模型训练效率。

图3为本说明书一示例性实施例示出的一种端边云协同架构的示意图。如图3所示，该端边云协同架构可以包括三层，顶层为云端31，可以与中间层32包含的多个CDN（Content Delivery Network，即内容分发网络）节点进行交互，而中间层32的任一CDN节点则可以与底层33的多个终端进行交互。应当理解的是，在该架构中，CDN节点被作为上文所述的边缘服务器。

其中，终端331、332、333部署于第一地理区域（即CDN节点321对应于第一地理区域），部署有与第一地理区域对应的待训练模型A；终端334、335部署于第二地理区域（即CDN节点322对应于第二地理区域），部署有与第二地理区域对应的待训练模型B；终端336、337部署于第三地理区域（即CDN节点323对应于第三地理区域），部署有与第三地理区域对应的待训练模型C。

进一步的，云端31可以如图4所示，维护有与第一地理区域对应的数据集3211和虚拟机实例3212、与第二地理区域对应的数据集3221和虚拟机实例3222、与第三地理区域对应的数据集3231和虚拟机实例3232。

下面，以对第一地理区域中部署的待训练模型A进行更新为例，对本说明书中的模型训练方法进行介绍。

图5为本说明书一示例性实施例示出的一种基于端边云协同架构的模型训练方法的交互图。如图5所示，该方法可以包括以下步骤：

步骤501，终端331、332、333基于各自的本地数据对待训练模型A进行训练。

在本实施例中，由于终端331、332、333所执行的操作完全一致，因此，在图5中，以终端331~333简化表征，在此需要强调的是，三个终端是分别执行图示操作，而非共同执行图示操作。

在本实施例中，终端331、332、333作为第一地理区域中的终端，均部署有待训练模型A，可以通过本地数据对待训练数据A进行训练，进而得到训练数据。

步骤502，终端331、332、333分别将获得的训练数据上传至CDN节点321。

在本实施例中，终端331、332、333在得到训练数据后，即可将训练数据上传至CDN节点321，以由CDN节点321对接收到的训练数据进行预处理后上传至云端31。

值得注意的是，终端通过本地数据训练产生的训练数据可以包含：在训练过程中产生的模型的梯度数据。例如，在采用梯度下降算法对模型进行训练时，即可得到模型的梯度数据，此时，便可以将该模型梯度作为训练数据或训练数据中的至少一部分，上传至CDN节点321。

步骤503，CDN节点321对接收到的训练数据做预处理。

在本实施例中，正如上文所述的，可以对接收到的训练数据做过滤、聚合等预处理操作，例如，可以在训练数据包含模型的梯度数据时，可以对各个终端上传的梯度数据做平均聚合等操作。当然，此处仅是示意性的，具体做何种预处理操作，可由本领域技术人员根据实际需求确定，本实施例对此不作限制。

步骤504，CDN节点321将经由预处理的训练数据上传至云端31。

在本实施例中，CDN节点321在对接收到的训练数据进行预处理后，即可将经由预处理的训练数据上传至云端31。值得注意的是，云端31可以采用多种方式进行部署。

举例而言，可以部署有与云端31对应的网关，以由网关执行训练数据的接收操作，例如，可以将Nginx（一种高性能的反向代理服务器）作为云端31的网关，以由其执行训练数据的接收操作。

步骤505，云端31将CDN节点321上传的训练数据存储至数据集3211。

承接上述举例，云端31还可以包含数仓，以专用于存储数据。在该情况下，与各个地理区域对应的数据集可以维护于该数仓中，因此，Nginx可以将接收到由终端331、332、333上传的训练数据存储至数仓中的数据集3211中。

步骤506，云端31调用虚拟机实例3212，以由虚拟机实例3212基于数据集3211中的训练数据，对待训练模型A进行更新。

承接上述举例，云端31可以通过任务服务模块调用虚拟机实例3212，以由虚拟机实例3212从数据集3211中读取训练数据，并根据读取到的训练数据对待训练模型A进行模型训练，进而得到更新后模型A’。

步骤507，云端31将更新得到的更新后模型A’下发至CDN节点321。

在本实施例中，在得到更新后模型A’之后，即可将该更新后模型A’下发至CDN节点321，以由CDN节点321将该模型进一步下发至终端331、332、333。

步骤508，CDN节点321将接收到的更新后模型A’下发至终端331、332、333。

步骤509，终端331、332、333分别在本地部署接收到的更新后模型A’。

在本实施例中，终端331、332、333在接收到更新后模型A’之后，即可在本地部署该模型，一方面，可以用于对后续获取的本地数据进行处理，另一方面，可以在需要对该更新后模型A’进行更新时，将该更新后模型A’作为待更新模型。

由上述技术方案可知，本说明书可以按照地理区域将端边云协同架构中的终端划分为多个集群，且每一地理区域的终端由同一CDN节点进行数据传输。在此基础上，可以基于各个地理区域的终端上传的训练数据，对相应地理区域的终端中部署的待更新模型进行更新，使得更新得到的模型适用于当地，同时避免了相关技术中由于训练数据过于庞大，而导致模型训练效率低下的问题。

图6是一示例性实施例提供的一种设备的示意结构图。请参考图6，在硬件层面，该设备包括处理器602、内部总线604、网络接口606、内存608以及非易失性存储器610，当然还可能包括其他功能所需要的硬件。本说明书一个或多个实施例可以基于软件方式来实现，比如由处理器602从非易失性存储器610中读取对应的计算机程序到内存608中然后运行。当然，除了软件实现方式之外，本说明书一个或多个实施例并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

请参考图7，模型训练装置可以应用于如图6所示的设备中，以实现本说明书的技术方案。其中，该模型训练装置应用于云端，可以包括：

接收单元701，接收多个终端上传的、基于本地数据对待训练模型进行模型训练产生的训练数据；

训练单元702，按照各个终端所属的集群，将由各个终端上传的训练数据记录至与各个集群对应的数据集中，并由与各个集群分别对应的训练模块根据相应数据集中包含的训练数据，对各个集群所对应的待训练模型进行更新，得到与各个集群分别对应的更新后模型；

部署单元703，将各个集群所对应的更新后模型，作为相应集群在下一次模型更新时的待训练模型部署至各个终端。

可选的，

训练单元702被进一步用于：按照各个终端所属的地理区域，将由各个终端上传的训练数据记录至与各个地理区域对应的数据集中；以及，由与各个地理区域分别对应的训练模块，根据相应数据集中包含的训练数据，对各个地理区域所对应的待训练模型进行更新；

部署单元703被进一步用于：将与各个地理区域对应的更新后模型，分别下发至部署于相应地理区域的终端，以作为各个终端在下一次模型更新过程中的待训练模型。

可选的，所述多个终端被部署于不同的地理区域，其中，各个地理区域对应有唯一的边缘服务器；

接收单元701被进一步用于：接收各个边缘服务器上传的训练数据；任一边缘服务器上传的训练数据，由所述任一边缘服务器所对应地理区域中部署的终端提供；

部署单元703被进一步用于：将与各个地理区域对应的更新后模型，分别下发至与相应地理区域对应的边缘服务器，以由各个边缘服务器将接收到的更新后模型，下发至部署于自身所对应地理区域的终端。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

在一个典型的配置中，计算机包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种模型训练系统，包括：云端和多个终端；各个终端部署有与各自所属集群对应的待训练模型；

2.根据权利要求1所述的系统，所述多个终端按照所属地理区域被划分为多个集群；

所述云端，按照各个终端所属的集群，将由各个终端上传的训练数据记录至与各个集群对应的数据集中，包括：按照各个终端所属的地理区域，将由各个终端上传的训练数据记录至与各个地理区域对应的数据集中；

所述云端，由与各个集群分别对应的训练模块根据相应数据集中包含的训练数据，对各个集群所对应的待训练模型进行更新，包括：由与各个地理区域分别对应的训练模块，根据相应数据集中包含的训练数据，对各个地理区域所对应的待训练模型进行更新；

所述云端，将各个集群所对应的更新后模型，作为相应集群在下一次模型更新时的待训练模型部署至各个终端，包括：将与各个地理区域对应的更新后模型，分别下发至部署于相应地理区域的终端，以作为各个终端在下一次模型更新过程中的待训练模型。

3.根据权利要求2所述的系统，还包括：多个边缘服务器；其中，所述多个边缘服务器与各个地理区域一一对应；

所述每一终端，将训练产生的训练数据上传至所述云端，包括：将训练产生的训练数据上传至所属地理区域所对应的边缘服务器，以由该边缘服务器将接收到的训练数据上传至所述云端；

所述云端，将各个集群所对应的更新后模型，作为相应集群在下一次模型更新时的待训练模型部署至各个终端，包括：将与各个地理区域对应的更新后模型，分别下发至与相应地理区域对应的边缘服务器，以由各个边缘服务器将接收到的更新后模型，下发至部署于自身所对应地理区域的终端。

4.根据权利要求3所述的系统，

每一边缘服务器，还用于：在接收到部署于自身所对应地理区域的终端上传的训练数据的情况下，对接收到的训练数据进行预处理；

其中，经由预处理的训练数据被上传至所述云端；所述预处理包含下述至少之一：按照预设过滤条件对接收到的训练数据执行的过滤操作、对接收到的训练数据执行的数据聚合操作。

5.根据权利要求3所述的系统，

所述云端，还用于：响应于区别于所述多个边缘服务器的其他服务器的注册请求，创建与所述其他服务器对应的训练模块；以及，在所述其他服务器所属地理区域所对应的待更新模型需要更新的情况下，接收所述其他服务器获取的的、由其所对应地理区域中部署的终端上传的训练数据，并由创建的训练模块基于该训练数据对相应待训练模型进行训练，得到与所述其他服务器对应的更新后模型。

6.根据权利要求1所述的系统，所述云端创建有与各个集群分别对应的虚拟机实例；

所述云端，由与各个集群分别对应的训练模块根据相应数据集中包含的训练数据，对各个集群所对应的待训练模型进行更新，包括：由各个集群分别对应的虚拟机实例，基于各自所对应数据集中的训练数据，对各自所对应的待训练模型进行训练。

7.根据权利要求1所述的系统，还包括：日志管理平台；

所述每一终端，将训练产生的训练数据上传至所述云端，包括：将训练产生的训练数据存储至所述日志管理平台，以由所述云端从所述日志管理平台处拉取已存储的训练数据。

8.一种模型训练方法，应用于云端，包括：

9.根据权利要求8所述的方法，

所述按照各个终端所属的集群，将由各个终端上传的训练数据记录至与各个集群对应的数据集中，包括：按照各个终端所属的地理区域，将由各个终端上传的训练数据记录至与各个地理区域对应的数据集中；

所述由与各个集群分别对应的训练模块根据相应数据集中包含的训练数据，对各个集群所对应的待训练模型进行更新，包括：由与各个地理区域分别对应的训练模块，根据相应数据集中包含的训练数据，对各个地理区域所对应的待训练模型进行更新；

所述将各个集群所对应的更新后模型，作为相应集群在下一次模型更新时的待训练模型部署至各个终端，包括：将与各个地理区域对应的更新后模型，分别下发至部署于相应地理区域的终端，以作为各个终端在下一次模型更新过程中的待训练模型。

10.根据权利要求9所述的方法，所述多个终端被部署于不同的地理区域，其中，各个地理区域对应有唯一的边缘服务器；

所述接收多个终端上传的训练数据，包括：接收各个边缘服务器上传的训练数据；任一边缘服务器上传的训练数据，由所述任一边缘服务器所对应地理区域中部署的终端提供；

所述将与各个地理区域对应的更新后模型，分别下发至部署于相应地理区域的终端，包括：将与各个地理区域对应的更新后模型，分别下发至与相应地理区域对应的边缘服务器，以由各个边缘服务器将接收到的更新后模型，下发至部署于自身所对应地理区域的终端。

11.一种模型训练装置，应用于云端，包括：

12.一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如权利要求8-10中任一项所述的方法。

13.一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如权利要求1-10中任一项所述方法的步骤。