CN116629386A

CN116629386A - 模型训练方法及装置

Info

Publication number: CN116629386A
Application number: CN202310903982.4A
Authority: CN
Inventors: 宋金洲; 孙仁恩; 魏鹏; 张冠男
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2023-07-21
Filing date: 2023-07-21
Publication date: 2023-08-22
Anticipated expiration: 2043-07-21
Also published as: CN116629386B

Abstract

本说明书一个或多个实施方式提供了一种模型训练方法及装置，模型训练方法包括基于实时接收到的训练数据的时间信息确定训练数据的时效性，在训练数据的时效性为有效的情况下，将训练数据存储在云服务器的存储模块中，利用存储模块中存储的训练数据对部署于云服务器的全局模型进行训练。本公开实施方式中，通过对训练数据的时效性筛选，仅存储有效的训练数据，缩减云服务器存储数据量，降低存储压力，而且可以过滤过期或者错误数据，为模型训练提供正确且可靠的数据基础，提高模型训练的稳定性和训练效果。

Description

模型训练方法及装置

技术领域

本说明书一个或多个实施方式涉及大数据分析技术领域，尤其涉及一种模型训练方法及装置。

背景技术

端边云协同的模型训练中，数据是实现机器学习模型训练的基石，在海量数据规模场景下，云服务器会源源不断接收到用户端和边缘节点发送的海量数据，但是云端并不能及时消耗这些数据，大量的数据在云端缓存积压，给云端数据库带来很大的存储压力，很容易造成云端数据库宕机。更重要的是，对于云端的模型训练，数据的时效性是保障模型精度的根本，如果利用积压的过期数据训练模型，将带来灾难性的影响。

发明内容

为解决海量数据规模场景下云服务器的训练数据管理与存储问题，本说明书一个或多个实施方式提供了一种模型训练方法、装置、电子设备及存储介质。

第一方面，本说明书一个或多个实施方式提供了一种模型训练方法，应用于云服务器，所述方法包括：

基于实时接收到的训练数据的时间信息，确定所述训练数据的时效性；

在所述训练数据的时效性为有效的情况下，将所述训练数据存储在所述云服务器的存储模块中；

利用所述存储模块中存储的所述训练数据，对部署于所述云服务器的全局模型进行训练。

在本说明书一个或多个实施方式中，所述训练数据包括应用端发送的特征数据，所述训练数据的时间信息包括所述特征数据的时间戳信息；所述基于实时接收到的训练数据的时间信息，确定所述训练数据的时效性，包括：

获取所述训练数据包括的所述特征数据的时间戳信息；

在所述特征数据的时间戳信息与当前时间的差值小于或等于第一时间阈值的情况下，将所述特征数据存储在所述存储模块中。

在本说明书一个或多个实施方式中，所述训练数据包括边缘节点发送的梯度数据，所述梯度数据由与所述边缘节点对应的应用端基于特征数据对本地模型训练得到，所述训练数据的时间信息包括所述梯度数据的时间戳信息和所述梯度数据对应的所述本地模型的版本标识信息；所述基于实时接收到的训练数据的时间信息，确定所述训练数据的时效性，包括：

获取所述训练数据包括的所述梯度数据的时间戳信息；

在所述梯度数据的时间戳信息与当前时间的差值小于或等于第二时间阈值的情况下，获取所述梯度数据的版本标识信息；

在所述梯度数据的版本标识信息，与当前训练的全局模型的版本标识信息相匹配的情况下，将所述梯度数据存储在所述存储模块中。

在本说明书一个或多个实施方式中，在所述基于实时接收到的训练数据的时间信息，确定所述训练数据的时效性之前，所述方法还包括：

对实时接收到的所述训练数据进行分类，得到所述训练数据的数据类型，所述数据类型包括由应用端发送的特征数据和由边缘节点发送的梯度数据，所述梯度数据由与所述边缘节点对应的应用端基于特征数据对本地模型训练得到。

在本说明书一个或多个实施方式中，所述的方法，还包括：

在对所述全局模型进行训练过程中，响应于满足模型收敛条件，生成当前版本的全局模型，并基于当前版本的全局模型的版本标识信息对存储模块中存储的前一版本的全局模型的版本标识信息进行更新；

将所述当前版本的全局模型及其版本标识信息发送至应用端，以使所述应用端基于当前版本的全局模型对前一版本的本地模型进行更新，并基于当前版本的全局模型的版本标识信息对前一版本的本地模型的版本标识信息进行更新。

在本说明书一个或多个实施方式中，所述利用所述存储模块中存储的所述训练数据，对部署于所述云服务器的全局模型进行训练，包括：

从所述存储模块中读取预设数据量的所述训练数据，在所述训练数据的时效性有效的情况下，利用所述训练数据对所述全局模型进行训练。

获取所述训练数据包括的所述梯度数据的时间戳信息；

在所述梯度数据的时间戳信息与当前时间的差值小于或等于第二时间阈值的情况下，获取所述梯度数据的版本标识信息；所述第二时间阈值大于所述第一时间阈值；

第二方面，本说明书一个或多个实施方式提供了一种模型训练装置，应用于云服务器，所述装置包括：

数据接收模块，被配置为基于实时接收到的训练数据的时间信息，确定所述训练数据的时效性；

数据存储模块，被配置为在所述训练数据的时效性为有效的情况下，将所述训练数据存储在所述云服务器的存储模块中；

模型训练模块，被配置为利用所述存储模块中存储的所述训练数据，对部署于所述云服务器的全局模型进行训练。

第三方面，本说明书一个或多个实施方式提供了一种电子设备，包括：

处理器；和

存储器，存储有计算机指令，所述计算机指令用于使处理器执行根据第一方面任意实施方式所述的方法。

第四方面，本说明书一个或多个实施方式提供了一种存储介质，存储有计算机指令，所述计算机指令用于使计算机执行根据第一方面任意实施方式所述的方法。

本说明书一个或多个实施方式的模型训练方法，包括基于实时接收到的训练数据的时间信息确定训练数据的时效性，在训练数据的时效性为有效的情况下，将训练数据存储在云服务器的存储模块中，利用存储模块中存储的训练数据对部署于云服务器的全局模型进行训练。本公开实施方式中，对于海量数据规模场景下，云服务器训练模型消费训练数据的速度远远小于接收训练数据的速度，因此本公开实施方式中，利用存储模块将训练数据与模型训练隔离，保障云端模型训练的稳定。并且，通过对训练数据的时效性筛选，仅存储有效的训练数据，缩减云服务器存储数据量，降低存储压力，而且可以过滤过期或者错误数据，为模型训练提供正确且可靠的数据基础，提高模型训练的稳定性和训练效果。

附图说明

图1是本说明书一示例性实施方式中端边云系统的架构图。

图2是本说明书一示例性实施方式中端边云系统的架构图。

图3是本说明书一示例性实施方式中模型训练方法的流程图。

图4是本说明书一示例性实施方式中模型训练方法的原理图。

图5是本说明书一示例性实施方式中模型训练方法的流程图。

图6是本说明书一示例性实施方式中模型训练方法的流程图。

图7是本说明书一示例性实施方式中模型训练装置的结构框图。

图8是本说明书一示例性实施方式中设备的结构框图。

具体实施方式

这里将详细地对示例性实施方式进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施方式中所描述的实施方式并不代表与本说明书一个或多个实施方式相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施方式的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施方式中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施方式中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施方式中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施方式中也可能被合并为单个步骤进行描述。

本说明书所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

传统端云协同的模型训练技术是用户端的特征数据直接上传到云服务器进行模型训练，但是，用户端的部分特征数据涉及用户隐私，为了保证隐私安全，无法将这些敏感特征数据直接上传到云服务器，由此联邦学习（Federated Learning）技术应用而生。

在联邦学习中，用户端可以基于本地的特征数据训练本地模型得到梯度数据，将梯度数据加密后上传至云端服务器，云服务器基于梯度数据在云端完成模型训练。联邦学习可以做到用户特征数据不出本地，从而可以很好保护用户隐私安全。

在传统端云协同的模型训练方案中，所有用户端的梯度数据上传至云服务器进行模型训练，由于不同地域的用户特征差异以及庞大的数据量，很容易导致机器学习模型过拟合，而且由于数据延迟等原因，导致模型训练速度很慢，基于此，端边云协同的系统架构被提出。

端边云协同技术是一种基于边缘计算（edgecomputing）的分布式计算，其架构例如图1所示。端是指应用端，也即用户终端设备，例如手机、穿戴设备、各类传感器、摄像头、智能家居等。边是指边缘节点，其可以靠近应用端设备部署，负责对一个区域内的应用端设备的上传数据进行初步的过滤、分析及存储等操作，例如图1示例中，共包括3个边缘节点，每个边缘节点对应一个区域内的应用端设备。云是指云端服务器或云端服务器集群，负责对各个边缘节点上传的数据进行分析处理和存储等操作。

在端边云协同系统架构中，由于每个边缘节点可以靠近用户端设备部署，从而各个边缘节点可以负责自己范围内的来自端设备的数据计算和存储，之后再将数据上传到云端。这种就近计算的方式可以有效降低数据延迟、提高稳定性，也节省了网络带宽，为云端服务器分担压力。

相关技术中，在端边云协同的机器学习模型训练中，其原理可如图2所示，端侧的采集到的本地特征数据会分为敏感特征数据和非敏感特征数据，敏感特征数据是指与用户隐私相关的特征数据，非敏感特征数据则是指与用户隐私无关的特征数据。对于非敏感特征数据，由于不涉及用户隐私，因此可以直接由应用端上传至云端参与模型训练。但是对于敏感特征数据，由于涉及到用户隐私保护问题，则不能直接上传至云端。

在联邦学习中，需要在每个应用端部署一个本地模型，云服务器端需要部署全局模型，由于运算能力的差异，云服务器的全局模型相较于应用端的本地模型可能更加复杂，但是全局模型与应用端的本地模型功能基本相同，在本说明书实施方式中，可以将云服务器的全局模型与应用端的本地模型视作功能相同的模型。

对于拥有本地特征数据的应用端而言，其可以在应用端本地利用本地特征数据包括的敏感特征数据对本地模型进行训练，通过本地模型训练可以得到相应的梯度数据。梯度数据是指用来标示模型更新方向的信息，通过梯度数据对模型参数进行更新的过程，即为模型迭代和训练的过程。梯度数据不会直接暴露原始的敏感特征数据，因此梯度数据的传递可以很好保证应用端本地的隐私数据安全，这也是联邦学习的核心思想。

因此，每个应用端均可以根据自身拥有的本地特征数据，将本地特征数据中的非敏感特征数据直接上传至云服务器，而敏感特征数据则需要对本地模型进行训练，从而得到相应的梯度数据，然后通过边缘节点将梯度数据发送至云服务器，云服务器根据接收到的特征数据以及梯度数据对云端的全局模型进行训练。

上述端边云协同的模型训练中，在训练数据量较小的情况下一般不会出现问题，但是对于海量数据规模的业务场景，由应用端和边缘节点给到云服务器的训练数据十分庞大，但是云服务器在模型训练时并不能及时消耗这些训练数据，因此这些训练数据会在云端缓存积压，给云端数据库带来很大的存储压力，很容易造成云端数据库宕机。

更重要的是，针对云端全局模型训练的训练数据必须要保证时效性，针对当前模型的训练不能使用过期的训练数据，而且输入模型的训练数据的版本必须和当前模型版本一致，如果输入给模型过期或者错误的训练数据，会为模型训练带来灾难性的影响。

由此可以看到，针对海量数据规模的端边云协同的模型训练场景，如何对云服务器的训练数据进行有效管理和存储至关重要。基于此，本公开实施方式提供了一种模型训练方法、装置、电子设备以及存储介质，旨在解决海量数据规模场景下云服务器的训练数据管理与存储问题，保障云服务器的数据库和模型训练的稳定性。

在一些实施方式中，本说明书提供了一种模型训练方法，该方法可应用于云服务器，由云服务器执行处理。

如图3所示，本说明书一个或多个实施方式所提供的模型训练方法，包括：

S310、基于实时接收到的训练数据的时间信息，确定训练数据的时效性。

本公开实施方式中，结合图1和图2示例可知，对于云服务器，其接收到的训练数据主要包括由应用端直接上传的特征数据，以及由边缘节点上传的梯度数据。应用端直接上传的特征数据往往是与用户隐私无关的非敏感特征数据，而由边缘节点上传的梯度数据是指与用户隐私相关的敏感特征数据，利用这些敏感特征数据对应用端的本地模型进行训练之后得到的梯度数据。

因此本公开一些实施方式中，云服务器接收到的训练数据即分别包括应用端发送的特征数据和边缘节点发送的梯度数据。

另外可以理解，对于海量数据规模的模型训练场景，应用端数量十分庞大，因此应用端发送的特征数据以及边缘节点发送的梯度数据的数据量源源不断提供给云服务器，因此云服务器需要不断根据接收到的训练数据对全局模型进行训练。

云服务器对全局模型的训练过程可以看做周期性训练的过程，例如，每当云服务器对全局模型进行训练的数据量达到一定数量，可以认为全局模型符合收敛条件，从而得到一个最新版本的全局模型。然后，在下个训练周期中，继续基于新的训练数据对最新版本的全局模型进行训练，从而得到更新版本的全局模型。如此循环迭代，可以实现对全局模型的不断训练和版本更新。

可以理解，对于云服务器实时接收到的训练数据，由于云服务器无法及时消费这些训练数据，因此需要将训练数据进行存储。但是，本公开实施方式中，并非将所有的训练数据都进行存储，为了缓解云服务器数据库的存储压力，需要根据接收到的训练数据的时间信息，对训练数据的时效性进行判断，如果训练数据有效，则对训练数据进行存储。如果训练数据失效，则不能存储该训练数据。

本公开实施方式中，通过前述可知，训练数据包括应用端发送的特征数据和边缘节点发送的梯度数据。对于特征数据，应用端在向云服务器发送特征数据时，会在特征数据中携带有时间戳（Time Stamp）信息，该时间戳信息即可用于表示特征数据的生成时间。而对于梯度数据，由于梯度数据是应用端利用本地特征数据对本地模型进行训练得到的，因此梯度数据中携带有对应的本地模型的版本标识信息，版本标识信息也即得到该梯度数据的本地模型的版本号。因此，本公开一些实施方式中，训练数据的时间信息即可包括特征数据的时间戳信息以及梯度数据的版本标识信息。

在一些实施方式中，对于云服务器实时接收到的训练数据，首先可以对训练数据进行分类，也即确定接收到的每个训练数据的数据类型，数据类型即包括前述的特征数据和梯度数据。从而，在确定数据类型是特征数据还是梯度数据之后，根据数据类型获取相应的时间信息，本公开下文实施方式对此进行说明。

以一个训练数据为例，在得到该训练数据的时间信息之后，需要基于时间信息确定该训练数据的时效性，也即确定该训练数据是否有效。例如一个示例中，训练数据为特征数据，可以预先针对特征数据的时效性设置相应的时间阈值，例如时间阈值为10秒，也即，如果接收到的特征数据是10秒之前的特征数据，表示该特征数据已经过期，如果利用该特征数据来训练全局模型，很容易导致模型效果变差，因此该特征数据的时效性即为失效，反之则有效。

对于特征数据和梯度数据的时效性判断的过程，本公开下文实施方式对此进行说明，在此暂不详述。

S320、在训练数据的时效性为有效的情况下，将训练数据存储在云服务器的存储模块中。

本公开实施方式中，需要为云服务器配置一个存储模块，该存储模块的作用即为存储时效性为有效的训练数据。

通过前述过程确定训练数据的时效性，在训练数据的时效性无效的情况下，说明该训练数据已经过期或者版本号错误，如果继续使用该训练数据对全局模型进行训练，很容易导致模型效果变差，因此可以抛弃该训练数据，无需进行存储。反之，在训练数据的时效性为有效的情况下，说明该训练数据尚未过期且版本号匹配，可以利用该训练数据对全局模型进行训练，因此则可以将该训练数据存储在云服务器的存储模型中。

在一些实施方式中，例如图4所示，云服务器的存储模块包括梯度数据库和特征数据库，梯度数据库用于存储时效性有效的梯度数据，特征数据库则用于存储时效性有效的特征数据。

在一些实施方式中，对于时效性有效的训练数据，存储模块在存储时可以看到时间顺序将训练数据依次存储在存储模块中。

S330、利用存储模块中存储的训练数据，对部署于云服务器的全局模型进行训练。

基于上述可知，端边云协同的模型训练即为针对云服务器的全局模型进行训练。本公开实施方式中，在云服务器对全局模型进行训练时，即可从存储模块中读取存储的训练数据，然后利用训练数据对全局模型进行训练。

对于全局模型训练的具体过程，本领域技术人员参照相关技术的有监督训练过程即可理解并充分实现，本公开对于模型训练的具体过程不再赘述。

通过上述可知，本公开实施方式中，对于海量数据规模场景下，云服务器训练模型消费训练数据的速度远远小于接收训练数据的速度，因此本公开实施方式中，利用存储模块将训练数据与模型训练隔离，保障云端模型训练的稳定。并且，通过对训练数据的时效性筛选，仅存储有效的训练数据，缩减云服务器存储数据量，降低存储压力，而且可以过滤过期或者错误数据，为模型训练提供正确且可靠的数据基础，提高模型训练的稳定性和训练效果。

结合图4所示，在应用端侧，用户在使用应用端设备时，应用端可以采集到用户的一些使用习惯，例如用户在使用某手机应用（App，Application）时，应用端可以采集到用户的点击习惯、页面曝光时长、购物记录等信息，这些信息即为应用端所采集到的本地特征数据。这些本地特征数据包括敏感特征数据和非敏感特征数据，应用端可以将非敏感特征数据直接上传至云端，而对于敏感特征数据，则利用本地模型训练得到梯度数据并由边缘节点发送至云端。

因此，本公开实施方式中，云服务器所接收到的训练数据包括由应用端发送的特征数据以及由边缘节点发送的梯度数据。

在一些实施方式中，云服务器在接收到训练数据之后，首先需要对接收到的训练数据进行分类。参见图4所示，分类模块即可根据接收到的训练数据进行分类，得到训练数据对应的数据类型，数据类型也即包括特征数据和梯度数据。

分类模块一方面可以对训练数据进行分类，另一方面也可以对与模型训练无关的数据进行过滤。例如，对于训练数据其可能会包括多种标签信息，但是在云端模型训练时并不会用到所有的标签信息，从而分类模块也可以对这些无关的信息进行过滤，仅保留与云端模型训练相关的信息。

继续参见图4，分类模块在对训练数据进行分类之后，对于不同数据类型的训练数据，时效性判断模块即可进行不同的时效判断过程，下面分别结合图5和图6实施方式进行说明。

如图5所示，在一些实施方式中，本公开示例的模型训练方法，在训练数据的数据类型为特征数据的情况下，基于训练数据的时间信息确定训练数据的时效性的过程，包括：

S510、获取训练数据包括的特征数据的时间戳信息。

S520、在特征数据的时间戳信息与当前时间的差值小于或等于第一时间阈值的情况下，将特征数据存储在存储模块中。

本公开实施方式中，在训练数据的数据类型为特征数据的情况下，也即训练数据是由应用端发送的特征数据，对于特征数据，应用端在向云服务器发送特征数据时，会在特征数据中携带有时间戳（Time Stamp）信息，该时间戳信息即可用于表示特征数据的生成时间。因此，训练数据的时间信息即为特征数据的时间戳信息。

在一些实施方式中，可以预先设置特征数据的时间戳信息与当前时间差值的第一时间阈值，第一时间阈值表示特征数据的时效性为有效的临界值，第一时间阈值的具体数值可以根据具体场景需求进行选取，本公开对此不作限制。

如果特征数据的时间戳信息与当前时间的差值小于或等于第一时间阈值，表示该特征数据是正常到达云服务器的数据，并没有失效，从而即可确定该特征数据的时效性为有效，然后按照时间顺序将该特征数据存储在存储模块中。

如果特征数据的时间戳信息与当前时间的差值大于第一时间阈值，表示该特征数据可能是受到网络波动等影响延迟到达云服务器的数据，该数据已经失效，从而即可确定该特征数据的时效性为失效，然后抛弃该特征数据即可，无需进行存储。

例如一个示例性的实施方式中，第一时间阈值以10秒为例，对于某个特征数据，可以获取该特征数据的时间戳信息，然后计算该时间戳信息与当前时间的差值。可以理解，由于网络波动等影响，部分特征数据可能会延迟到达云服务器，例如一个示例中，某个特征数据的时间戳信息与当前时间的差值为12秒，然后将该差值与第一时间阈值进行比较，时间差值大于第一时间阈值，则可以抛弃该特征数据。

通过上述过程可知，本公开实施方式中，利用时间戳信息对应用端发送的特征数据进行筛选，可以过滤掉失效数据，一方面可以降低云服务器的存储压力，缩减存储数据量，另一方面避免利用过期数据训练模型导致模型效果变差的风险，提高模型训练的稳定性及模型效果。

如图6所示，在一些实施方式中，本公开示例的模型训练方法，在训练数据的数据类型为梯度数据的情况下，基于训练数据的时间信息确定训练数据的时效性的过程，包括：

S610、获取训练数据包括的梯度数据的时间戳信息。

S620、在梯度数据的时间戳信息与当前时间的差值小于或等于第二时间阈值的情况下，获取梯度数据的版本标识信息。

S630、在梯度数据的版本标识信息，与当前训练的全局模型的版本标识信息相匹配的情况下，将梯度数据存储在存储模块中。

本公开实施方式中，在训练数据的数据类型为梯度数据的情况下，也即训练数据是由边缘节点发送的梯度数据，对于梯度数据，由于梯度数据是应用端利用本地特征数据对本地模型进行训练得到的，因此梯度数据中携带有对应的本地模型的版本标识信息，版本标识信息也即得到该梯度数据的本地模型的版本号。

可以理解，云服务器在每次对全局模型进行版本更新之后，需要将最新版本的全局模型发送到应用端，从而应用端将接收到的最新版本的模型部署到本地，得到最新版本的本地模型。

例如一个示例中，云服务器训练得到V1.0版本的全局模型之后，将全局模型V1.0发送到应用端，从而应用端部署得到本地模型V1.0，而后本地模型训练时，应用端本地模型训练得到的梯度数据中即携带有版本标识信息V1.0。而在云服务器再次对全局模型V1.0进行迭代更新得到V1.1版本的全局模型之后，还需要将全局模型V1.1发送到应用端，从而应用端部署得到本地模型V1.1，而后本地模型训练时，应用端本地模型训练得到的梯度数据中即携带有版本标识信息V1.1。如此循环迭代并对全局模型和本地模型进行版本更新。

与此同时，边缘节点在向云服务器发送梯度数据时，也会在梯度数据中携带时间戳信息，因此本公开实施方式中，梯度数据的时间信息即可包括梯度数据的时间戳信息以及梯度数据的版本标识信息。

本公开实施方式中，在针对梯度数据的时效性判断时，需要结合时间和版本双重判断，也即，首先根据梯度数据的时间戳信息与当前时间的差值确定梯度数据是否过期，然后根据梯度数据的版本标识信息与当前最新的全局模型的版本标识信息进行匹配，确定梯度数据的版本是否正确。

在一些实施方式中，首先可以获取梯度数据的时间戳信息，可以预先设置梯度数据的时间戳信息与当前时间差值的第二时间阈值，第二时间阈值表示梯度数据的时效性为有效的临界值，第二时间阈值的具体数值可以根据具体场景需求进行选取，本公开对此不作限制。

如果梯度数据的时间戳信息与当前时间的差值大于第二时间阈值，表示该梯度数据可能是受到网络波动等影响延迟到达云服务器的数据，该数据已经失效，从而即可确定该梯度数据的时效性为失效，然后抛弃该梯度数据即可，无需进行存储。

如果梯度数据的时间戳信息与当前时间的差值小于或等于第一时间阈值，表示该梯度数据是正常到达云服务器的数据，则需要继续对比梯度数据的版本标识信息。

可以理解，梯度数据是需要用来对当前全局模型进行训练的数据，因此梯度数据的版本标识信息必须与当前训练的全局模型保持一致。但是，由于云服务器的全局模型的更新与应用端的本地模型的更新存在延迟，因此可能梯度数据与当前训练的全局模型的版本不一致，因此需要对梯度数据的版本标识信息进行匹配。

在一些实施方式中，在梯度数据的时间戳信息与当前时间的差值小于或等于第一时间阈值的情况下，可以基于读取梯度数据的版本标识信息，然后存储模块自身存储有当前训练的全局模型的版本标识信息，从而即可对比梯度数据的版本标识信息与自身存储的全局模型的版本标识信息是否匹配。

如果两者匹配，说明梯度数据与当前训练的全局模型的版本一致，从而确定梯度数据的时效性为有效，然后按照时间顺序将该梯度数据存储在存储模块中。

如果两者不匹配，说明梯度数据与当前训练的全局模型的版本不一致，梯度数据是基于上个版本本地模型得到的，已经过期，从而确定梯度数据的时效性无效，然后抛弃该梯度数据即可，无需进行存储。

通过上述可知，本公开实施方式中，利用时间戳信息及版本标识信息双重判断的方式对边缘节点发送的梯度数据进行筛选，可以准确过滤掉失效数据，一方面可以降低云服务器的存储压力，缩减存储数据量，另一方面避免利用过期数据训练模型导致模型效果变差的风险，提高模型训练的稳定性及模型效果。

值得说明的是，梯度数据是指在应用端本地已经进行过梯度下降得到的数据，而特征数据为原始数据，因此两者在云服务器参与全局模型训练时输入的网络层也不相同，从而模型训练是对两种数据的消费速度也不相同，云服务器消费梯度数据的速度远大于消费特征数据的速度。

基于此，为了保证梯度数据与特征数据的消费速度平衡，在一些实施方式中，可以分别基于梯度数据和特征数据设置不同的时间阈值，前述第一时间阈值应当小于第二时间阈值。

例如一个示例中，前述图5实施方式中，针对特征数据时效性判断的第一时间阈值可以设置为5秒，而针对梯度数据时效性判断的第二时间阈值可以设置为10秒，由于梯度数据的时效性更长，从而存储模块中存储的梯度数据的数据量将更大，从而平衡梯度数据与特征数据的消费速度。

通过上述可知，本公开实施方式中，通过针对梯度数据和特征数据设置不同的数据存储策略，可以有效平衡模型训练中两者的消费速度，保障模型训练效果和稳定性。

根据前述可知，云服务器对全局模型的训练过程周期性进行，因此，在全局模型训练过程中，每当云服务器对全局模型进行训练的数据量达到一定数量，可以认为全局模型符合收敛条件，从而得到一个最新版本的全局模型，也即当前版本的全局模型，并且为其分配最新的版本标识信息。

例如一个示例中，云服务器对全局模型完成一个周期的训练，得到当前版本的全局模型为V1.1版本，也即版本标识信息为V1.1。然后，存储模块需要对自身存储的前一版本的全局模型V1.0的版本标识信息进行更新，也即，将存储的版本标识信息更新为V1.1。

与此同时，云服务器需要将训练得到的全局模型V1.0下发到各个应用端，以使应用端将前一版本的本地模型V1.0更新至最新版本的本地模型V1.1，也即本地模型的版本标识信息由V1.0更新至V1.1。

在随后的模型训练过程中，应用端的本地特征数据通过本地模型V1.1训练得到梯度数据中所携带的版本标识信息即为V1.1。从而，云服务器根据接收到的梯度数据的时间戳信息及版本标识信息V1.1进行时效性判断，由于存储模块中存储的版本标识信息已经更新为V1.1，从而即可确定该梯度数据的版本标识信息与当前训练的全局模型的版本标识信息相匹配，即可存储该梯度数据。然后利用存储的训练数据继续对全局模型V1.1迭代训练，直至满足收敛条件，得到全局模型V1.2，重复执行前述过程即可，本公开不再赘述。

结合前述图4实施方式可知，云服务器在对全局模型进行训练时，是按照预设数据量（Batch Size）从存储模块中读取训练数据，由于训练数据的存储与读取互相独立，因此在一些实施方式中，可能全局模型消费数据的速度较慢或者模型版本更新，导致存储模块中存储的训练数据失效。

因此，在一些实施方式中，在全局模型从存储模块中读取训练数据时，也可以对读取的训练数据进行时效性判断，具体对训练数据进行时效性判断的过程，可以与前述实施方式完全相同，本公开对此不再赘述。

通过上述可知，本公开实施方式中，对于海量数据规模场景下，云服务器训练模型消费训练数据的速度远远小于接收训练数据的速度，因此本公开实施方式中，利用存储模块将训练数据与模型训练隔离，云端训练数据的稳定。并且，通过对训练数据的时效性筛选，仅存储有效的训练数据，缩减云服务器存储数据量，降低存储压力，而且可以过滤过期或者错误数据，为模型训练提供正确且可靠的数据基础，提高模型训练的稳定性和训练效果。另外，通过针对梯度数据和特征数据设置不同的数据存储策略，可以有效平衡模型训练中两者的消费速度，保障模型训练效果和稳定性。

在一些实施方式中，本说明书提供了一种模型训练装置，该装置可应用于云服务器。如图7所示，本说明书一个或多个实施方式提供了一种模型训练装置，包括：

数据接收模块10，被配置为基于实时接收到的训练数据的时间信息，确定所述训练数据的时效性；

数据存储模块20，被配置为在所述训练数据的时效性为有效的情况下，将所述训练数据存储在所述云服务器的存储模块中；

模型训练模块30，被配置为利用所述存储模块中存储的所述训练数据，对部署于所述云服务器的全局模型进行训练。

在一些实施方式中，本说明书一个或多个实施方式提供了一种电子设备，包括：

处理器；和

存储器，存储有计算机指令，所述计算机指令用于使处理器执行前述任意实施方式所述的方法。

本说明书实施方式中，电子设备既可以是前述云服务器。

在一些实施方式中，本说明书一个或多个实施方式提供了一种存储介质，存储有计算机指令，所述计算机指令用于使计算机执行前述任意实施方式所述的方法。

图8是一示例性实施方式提供的一种电子设备的示意结构图。请参考图8，在硬件层面，该电子设备包括处理器702、内部总线704、网络接口706、内存708以及非易失性存储器710，当然还可能包括其他场景所需要的硬件。本说明书一个或多个实施方式可以基于软件方式来实现，比如由处理器702从非易失性存储器710中读取对应的计算机程序到内存708中然后运行。当然，除了软件实现方式之外，本说明书一个或多个实施方式并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

上述实施方式阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现电子设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

在一个典型的配置中，计算机包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

上述对本说明书特定实施方式进行了描述。其它实施方式在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施方式中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书一个或多个实施方式使用的术语是仅仅出于描述特定实施方式的目的，而非旨在限制本说明书一个或多个实施方式。在本说明书一个或多个实施方式和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施方式可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施方式范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

以上所述仅为本说明书一个或多个实施方式的较佳实施方式而已，并不用以限制本说明书一个或多个实施方式，凡在本说明书一个或多个实施方式的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施方式保护的范围之内。

Claims

1.一种模型训练方法，应用于云服务器，所述方法包括：

基于实时接收到的训练数据的时间信息，确定所述训练数据的时效性；所述训练数据包括边缘节点发送的梯度数据，所述梯度数据由与所述边缘节点对应的应用端基于特征数据对本地模型训练得到，所述训练数据的时间信息包括所述梯度数据的时间戳信息和所述梯度数据对应的所述本地模型的版本标识信息；

利用所述存储模块中存储的所述训练数据，对部署于所述云服务器的全局模型进行训练；

所述基于实时接收到的训练数据的时间信息，确定所述训练数据的时效性，包括：

获取所述训练数据包括的所述梯度数据的时间戳信息；

2.根据权利要求1所述的方法，所述训练数据包括应用端发送的特征数据，所述训练数据的时间信息包括所述特征数据的时间戳信息；所述基于实时接收到的训练数据的时间信息，确定所述训练数据的时效性，包括：

获取所述训练数据包括的所述特征数据的时间戳信息；

3.根据权利要求1所述的方法，在所述基于实时接收到的训练数据的时间信息，确定所述训练数据的时效性之前，所述方法还包括：

4.根据权利要求1至3任一项所述的方法，还包括：

5.根据权利要求1所述的方法，所述利用所述存储模块中存储的所述训练数据，对部署于所述云服务器的全局模型进行训练，包括：

6.根据权利要求2所述的方法，

所述第二时间阈值大于所述第一时间阈值。

7.一种模型训练装置，应用于云服务器，所述装置包括：

数据接收模块，被配置为基于实时接收到的训练数据的时间信息，确定所述训练数据的时效性；所述训练数据包括边缘节点发送的梯度数据，所述梯度数据由与所述边缘节点对应的应用端基于特征数据对本地模型训练得到，所述训练数据的时间信息包括所述梯度数据的时间戳信息和所述梯度数据对应的所述本地模型的版本标识信息；

模型训练模块，被配置为利用所述存储模块中存储的所述训练数据，对部署于所述云服务器的全局模型进行训练；

所述数据接收模块被配置为：

获取所述训练数据包括的所述梯度数据的时间戳信息；

8.一种电子设备，包括：

处理器；和

存储器，存储有计算机指令，所述计算机指令用于使处理器执行根据权利要求1至6任一项所述的方法。

9.一种存储介质，存储有计算机指令，所述计算机指令用于使计算机执行根据权利要求1至6任一项所述的方法。