CN111091200B

CN111091200B - 训练模型的更新方法、系统、智能设备、服务器及存储介质

Info

Publication number: CN111091200B
Application number: CN201911343887.3A
Authority: CN
Inventors: 梁新乐; 刘洋; 陈天健; 董苗波
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2021-03-19
Anticipated expiration: 2039-12-20
Also published as: CN111091200A; WO2021121029A1

Abstract

本发明公开了一种训练模型的更新方法、系统、智能体、服务器及存储介质，涉及金融科技领域，该方法包括步骤：联邦学习服务器接收运行在实时环境中的各强化学习智能体发送的第一训练模型，以及接收数据服务器发送的，根据历史样本数据训练得到的第二训练模型；对所述第一训练模型和所述第二训练模型进行联邦学习，得到联邦模型；将所述联邦模型发送给所述数据服务器和各强化学习智能体，以供所述数据服务器和各强化学习智能体根据所述联邦模型对应更新训练模型。本发明提高了通过训练模型得到训练结果的准确性，即提高了训练模型对样本知识的抽取能力，以及提高了训练模型的稳定性。

Description

训练模型的更新方法、系统、智能设备、服务器及存储介质

技术领域

本发明涉及金融科技(Fintech)的数据处理技术领域，尤其涉及一种训练模型的更新方法、系统、智能设备、服务器及存储介质。

背景技术

随着计算机技术的发展，越来越多的技术应用在金融领域，传统金融业正在逐步向金融科技(Fintech)转变，数据处理技术也不例外，但由于金融行业的安全性、实时性要求，也对技术提出的更高的要求。

时下工业界应用强化学习的训练方式通常为，训练的强化学习智能设备(Agent)会维持一个固定规模的经验池(经验回放)，而当该经验池的规模超过一定大小时，强化学习智能设备会按照一定的规则对之前的记忆进行遗忘，即按照一定的规则删除之前存储的数据。该方式存在如下问题：①样本浪费：一般情况下，实时环境中强化学习智能设备搜集到的数据具备重大的价值，如果按照当前的强化学习训练方式，会删除历史搜集的样本数据，因此会导致历史搜集的样本数据的价值存在巨大浪费；②知识遗忘：由于实时环境的难以预测性质，样本数据的分布具有较大的不确定性，随着经验池中历史样本数据的更迭，强化学习智能设备在历史环境学习到的知识可能会被覆盖甚至遗忘。

由此可知，现有的强化学习训练只会采用当前的样本数据进行强化学习，从而导致训练所得的模型对样本的知识抽取能力低下，且训练所得的模型稳定性差。

发明内容

本发明的主要目的在于提供一种训练模型的更新方法、系统、智能设备、服务器及存储介质，旨在解决现有的通过强化学习训练所得的模型对样本的知识抽取能力低下，且训练所得的模型稳定性差的技术问题。

为实现上述目的，本发明提供一种训练模型的更新方法，所述训练模型的更新方法包括步骤：

运行在实时环境中的强化学习智能设备获取预设长度存储队列中的实时样本数据进行强化学习训练，得到第一训练模型；

将所述第一训练模型发送给联邦学习服务器，以供所述联邦学习服务器对所述第一训练模型和数据服务器发送的，根据历史样本数据训练得到的第二训练模型进行联邦学习，得到联邦模型，并返回所述联邦模型；

当接收到所述联邦学习服务器返回的联邦模型后，根据所述联邦模型更新所述第一训练模型。

优选地，所述运行在实时环境中的强化学习智能设备获取预设长度存储队列中的实时样本数据进行强化学习训练，得到第一训练模型的步骤之前，还包括：

获取所述实时环境中的实时样本数据，并将所述实时样本数据存储至预设长度的存储队列中。

优选地，所述获取所述实时环境中的实时样本数据，并将所述实时样本数据存储至预设长度的存储队列中的步骤包括：

获取所述实时环境中的实时样本数据，检测预设长度的存储队列的剩余存储空间是否小于存储所述实时样本数据所需的数据空间；

若所述剩余存储空间小于所述数据空间，则在按照预设删除规则删除所述存储队列中存储的样本数据后，将所述实时样本数据存储至预设长度的存储队列中。

优选地，所述获取所述实时环境中的实时样本数据的步骤之后，还包括：

根据预设的样本发送周期确定发送所述实时样本数据的数据发送时间，并在当前时间为所述数据发送时间时将所述实时样本数据发送给数据服务器，以供所述数据服务器接收并存储所述实时样本数据。

优选地，所述将所述第一训练模型发送给联邦学习服务器，以供所述联邦学习服务器对所述第一训练模型和数据服务器发送的，根据历史样本数据训练得到的第二训练模型进行联邦学习，得到联邦模型，并返回所述联邦模型的步骤之前，还包括：

根据预设的模型发送周期确定发送所述第一训练模型的模型发送时间；

所述将所述第一训练模型发送给联邦学习服务器，包括：

在当前时间为所述模型发送时间时执行将所述第一训练模型发送给联邦学习服务器。

优选地，所述当接收到所述联邦学习服务器返回的联邦模型后，根据所述联邦模型更新所述第一训练模型的步骤包括：

当接收到所述联邦学习服务器返回的联邦模型后，获取当前时间；

若根据更新周期确定所述当前时间为更新时间，则根据所述联邦模型更新所述第一训练模型。

此外，为实现上述目的，本发明提供一种训练模型的更新方法，所述训练模型的更新方法包括步骤：

联邦学习服务器接收运行在实时环境中的各强化学习智能设备发送的第一训练模型，以及接收数据服务器发送的，根据历史样本数据训练得到的第二训练模型；

对所述第一训练模型和所述第二训练模型进行联邦学习，得到联邦模型；

将所述联邦模型发送给所述数据服务器和各强化学习智能设备，以供所述数据服务器和各强化学习智能设备根据所述联邦模型对应更新训练模型。

优选地，所述对所述第一训练模型和所述第二训练模型进行联邦学习，得到联邦模型的步骤包括：

获取所述第一训练模型和所述第二训练模型对应的模型权重；

根据所述模型权重对所述第一训练模型和所述第二训练模型进行联邦学习，得到联邦模型。

此外，为实现上述目的，本发明还提供一种训练模型的更新系统，系统包括运行在实时环境中的强化学习智能设备、联邦学习服务器和数据服务器，所述训练模型的更新系统包括：

所述联邦服务器，用于接收运行在实时环境中的各强化学习智能设备发送的第一训练模型，以及接收数据服务器发送的，根据历史样本数据训练得到的第二训练模型；对所述第一训练模型和所述第二训练模型进行联邦学习，得到联邦模型；将所述联邦模型发送给所述数据服务器和各强化学习智能设备；

所述强化学习智能设备，用于根据所述联邦模型更新所述第一训练模型；

所述数据服务器，用于根据所述联邦模型更新所述第二训练模型。

此外，为实现上述目的，本发明还提供一种联邦学习服务器，所述联邦学习服务器包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的训练模型的更新程序，所述训练模型的更新程序被所述处理器执行时实现如联邦学习服务器对应的训练模型的更新方法的步骤。

此外，为实现上述目的，本发明还提供一种强化学习智能设备，所述强化学习智能设备运行在实时环境中，所述强化学习智能设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的训练模型的更新程序，所述训练模型的更新程序被所述处理器执行时实现强化学习智能设备对应的训练模型的更新方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有训练模型的更新程序，所述训练模型的更新程序被处理器执行时实现如上所述的训练模型的更新方法的步骤。

本发明通过在预设长度存储队列中获取的实时样本数据和所获取历史样本数据进行强化学习训练，得到对应的训练模型，然后对实时样本数据对应的训练模型和历史样本数据对应的训练模型进行联邦学习，得到联邦模型，将联邦模型发送给运行在实时环境中的各个强化学习智能设备和存储历史样本数据的数据服务器，运行在实时环境中的各个强化学习智能设备和数据服务器会根据所接收的联邦模型更新其强化学习训练的训练模型，通过联邦学习对实时在预设长度存储队列中获取的样本数据，以及所获取的历史样本数据进行知识的交换和迁移，使最终运行在实时环境中的强化学习智能设备和数据服务器对应的训练模型是由实时获取的样本数据和历史样本数据得到的，提高了通过训练模型得到训练结果的准确性，即提高了训练模型对样本知识的抽取能力，以及提高了训练模型的稳定性。

附图说明

图1是本发明训练模型的更新方法第一实施例的流程示意图；

图2是本发明训练模型的更新方法第二施例的流程示意图；

图3是本发明实施例方案涉及的硬件运行环境的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种训练模型的更新方法，参照图1，图1为本发明训练模型的更新方法第一实施例的流程示意图。

本发明实施例提供了训练模型的更新方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。以下对本发明实施例中所涉及到的名词进行解释。

联邦学习是指通过联合不同的参与者(participant，或者party，也称为数据拥有者(data owner)，或者客户(client))进行机器学习的方法。在联邦学习中，参与者并不需要向其它参与者和协调者(coordinator，也称为参数服务器(parameter server)，或者聚合服务器(aggregation server))暴露自己拥有的数据，因而联邦学习可以很好的保护用户隐私和保障数据安全。

横向联邦学习是在各个参与者的数据特征重叠较多，而用户重叠较少的情况下，取出参与者数据特征相同而用户不完全相同的那部分数据进行联合机器学习。比如有两家不同地区的银行，它们的用户群体分别来自各自所在的地区，相互的交集很小，但是它们的业务很相似，记录的用户数据特征很大部分是相同的，因此可以使用横向联邦学习来帮助两家银行构建联合模型来预测他们的客户行为。

在横向联邦学习系统架构中，联邦学习主要包括以下几个步骤：第①步，当一个参与者A在本地完成模型参数更新，得到更新后的模型参数，参与者A可以向协调者发送参与者A在本地获得的更新后的模型参数。具体地参与者A可以通过加密的方式，例如，使用同态加密技术，向协调者发送更新后的模型参数，该模型参数可以是联邦学习模型的参数，例如，神经网络的节点之间连接的权重参数；或者是联邦学习模型的梯度信息，例如，神经网络梯度下降算法中的梯度信息。第②步，协调者将所收到的来自不同参与者的更新后的模型参数进行融合，得到融合后的模型参数，例如，对更新后的模型参数求取加权平均。第③步，协调者将融合后的模型参数(也称为全局模型参数)再分发给各个参与者。协调者也可以通过加密的方式传输该融合后的模型参数。第④步，参与者可以将收到的全局模型参数用作本地模型训练的起始点(starting point)或者是作为本地模型的最新模型参数，以便开始训练或者是继续在本地训练模型。参与者和协调者迭代上述步骤直至损失函数收敛，或者是模型参数收敛，或者是达到最大迭代次数，或者是达到最大训练时间，这样就完成了整个模型训练过程。

强化学习(Reinforcement Learning，RL)，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能设备(Agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。其中，强化学习智能设备包括无人车，无人机，扫地机器人和流程工业设备控制Agent等，强化学习智能设备的训练和推理需要大量的数据，因此，众多强化学习智能设备配备了大量数据收集传感器，该收集传感器包括但不限于图像传感器、激光雷达和IMU(Inertial measurement unit，惯性测量单元)传感器。在实际的训练过程中，强化学习智能设备可以利用众多传感器的数据进行感知决策和接受反馈的规程，强化学习智能设备在进行强化学习任务中会产生大量的训练数据。

训练模型的更新方法包括：

步骤S10，联邦学习服务器接收运行在实时环境中的各强化学习智能设备发送的第一训练模型，以及接收数据服务器发送的，根据历史样本数据训练得到的第二训练模型。

在实时环境中，运行有至少一个的强化学习智能设备，该强化学习智能设备可对传感器采集的样本数据进行强化学习训练，得到一个训练模型。在数据服务器中，存储有历史样本数据，该历史样本数据为传感器采集的历史数据。如当强化学习智能设备为无人车时，样本数据为无人车在行驶过程中产生的行驶数据。数据服务器也会定期对历史样本数据进行强化学习训练，得到一个训练模型。在本实施例中，为了便于区分运行在实时环境中的强化学习智能设备训练得到的训练模型和数据服务器训练得到的训练模型，将运行在实时环境中的强化学习智能设备强化学习训练得到的训练模型记为第一训练模型，将数据服务器中强化学习训练得到的训练模型记为第二训练模型。需要说明的是，在实时环境中运行的强化学习智能设备进行强化学习训练的样本数据为实时的样本数据，而数据服务器中进行强化学习训练的样本数据为历史样本数据。

当运行在实时环境中的各个强化学习智能设备得到第一训练模型后，各个强化学习智能设备会将该第一训练模型发送给联邦学习服务器。当数据服务器得到第二训练模型后，数据服务器会将该第二训练模型发送给联邦学习服务器。联邦学习服务器接收第一训练模型和第二训练模型。

进一步地，数据服务器会每隔一定训练周期对所存储的历史样本数据进行强化学习训练，该训练周期对应的时长可根据具体需要而设置，本实施例对训练周期对应的时长不做具体限制，如可将训练周期对应的时长设置为1000分钟。

当数据服务器得到第二训练模型后，数据服务器会按照预先设置好的模型发送周期将第二训练模型发送给联邦学习服务器，其中，模型发送周期对应的时长可根据具体需要而设置，优选地，将模型发送周期对应的时长设置为小于训练周期对应的时长，如可将模型发送周期对应的时长设置为10分钟。

步骤S20，对所述第一训练模型和所述第二训练模型进行联邦学习，得到联邦模型。

当联邦学习服务器接收到第一训练模型和第二训练模型后，联邦学习服务器按照预先设置的联邦学习规则对第一训练模型和第二训练模型进行联邦学习，得到联邦模型。其中，预设的联邦学习规则对应的算法可为Fed-AVG算法和Trimmed-mean SGD算法等。需要说明的是，本发明实施例中的联邦学习为横向联邦学习。

进一步地，步骤S20包括：

步骤a，获取所述第一训练模型和所述第二训练模型对应的模型权重。

步骤b，根据所述模型权重对所述第一训练模型和所述第二训练模型进行联邦学习，得到联邦模型。

具体地，当联邦学习服务器接收到第一训练模型和第二训练模型后，联邦学习服务器获取第一训练模型对应的第一模型权重，以及获取第二训练模型对应的第二模型权重。其中，第一模型权重和第二模型权重是预先存储在联邦学习服务器中的。当联邦学习服务器得到第一模型权重和第二模型权重后，联邦学习服务器根据第一模型权重和第二模型权重对第一训练模型和第二训练模型进行联邦学习，得到联邦模型。如在联邦学习过程中，将第一模型权重乘以第一训练模型的模型参数，得到第一模型参数；以及将第二模型权重乘以第二训练模型的模型参数，得到第二模型参数，然后对第一模型参数和第二模型参数进行联邦学习，得到联邦模型。

步骤S30，将所述联邦模型发送给所述数据服务器和各强化学习智能设备，以供所述数据服务器和各强化学习智能设备根据所述联邦模型对应更新训练模型。

当联邦学习服务器得到联邦模型后，联邦学习服务器将联邦模型发送给数据服务器和运行在实时环境中的各强化学习智能设备，以供数据服务器和运行在实时环境中的各强化学习智能设备根据联邦模型对应更新训练模型。具体地，数据服务器接收到联邦模型后，数据服务器会根据其预先设置好的更新周期来决定何时根据联邦模型更新第二训练模型。如当数据服务器接收到联邦模型后，数据服务器根据更新周期确定当前时间并不是更新时间，数据服务器不会根据联邦模型更新第二训练模型；当数据服务器根据更新周期确定当前时间为更新时间时，数据服务器会根据联邦模型更新第二训练模型。具体地，根据联邦模型更新训练模型的过程可为，直接将联邦模型替换原来的训练模型，或者将原来训练模型中的模型参数更换为联邦模型中的模型参数。

本实施例通过在预设长度存储队列中获取的实时样本数据和所获取历史样本数据进行强化学习训练，得到对应的训练模型，然后对实时样本数据对应的训练模型和历史样本数据对应的训练模型进行联邦学习，得到联邦模型，将联邦模型发送给运行在实时环境中的各个强化学习智能设备和存储历史样本数据的数据服务器，运行在实时环境中的各个强化学习智能设备和数据服务器会根据所接收的联邦模型更新其强化学习训练的训练模型，通过联邦学习对实时在预设长度存储队列中获取的样本数据，以及所获取的历史样本数据进行知识的交换和迁移，使最终运行在实时环境中的强化学习智能设备和数据服务器对应的训练模型是由实时获取的样本数据和历史样本数据得到的，提高了通过训练模型得到训练结果的准确性，即提高了训练模型对样本知识的抽取能力，以及提高了训练模型的稳定性。

可以理解的是，由于实时环境的不确定性，样本数据在不同时间段的分布可能不同，本实施例通过实时获取的样本数据和历史样本数据得到训练模型，且实时样本数据和历史样本数据对应模型的训练是分开的，不需要将实时样本数据和历史样本数据合在一起进行强化学习训练，降低了强化学习训练所需的时间，提高了强化学习训练的训练效率，且通过历史样本数据来提高训练模型的稳定性，不需要额外获取样本数据来提高训练模型的稳定性，降低了模型训练成本。

进一步地，提出本发明训练模型的更新方法第二实施例。参照图2，所述训练模型的更新方法还包括：

步骤S40，运行在实时环境中的强化学习智能设备获取预设长度存储队列中的实时样本数据进行强化学习训练，得到第一训练模型。

在实时环境中，运行着至少一个强化学习智能设备，实时环境就是现实中的真实环境。运行在实时环境中的强化学习智能设备获取预设长度存储队列中的实时样本数据进行强化学习训练，得到第一训练模型。需要说明的是，实时样本数据是通过传感器采集的。存储队列是一个经验池，存储队列的长度可根据具体需要而设置，本实施例对存储队列的长度不做具体限制。存储队列中只能存储少量的实时采集的样本数据，因此，将本实施例中存储队列存储的样本数据记为实时样本数据。当运行在实时环境中的强化学习智能设备要进行强化学习训练，得到第一训练模型时，强化学习智能设备可随机在存储队列中获取待训练样本进行强化学习训练，得到第一训练模型。

步骤S50，将所述第一训练模型发送给联邦学习服务器，以供所述联邦学习服务器对所述第一训练模型和数据服务器发送的，根据历史样本数据训练得到的第二训练模型进行联邦学习，得到联邦模型，并返回所述联邦模型。

当运行在实时环境中的强化学习智能设备得到第一训练模型后，运行在实时环境中的各强化学习智能设备将第一训练模型发送给联邦学习服务器，以供联邦学习服务器对第一训练模型和数据服务器发送的，根据历史样本数据训练得到的第二训练模型进行联邦学习，得到联邦模型，并返回联邦模型。需要说明的是，联邦学习服务器对第一训练模型和第二训练模型进行联邦学习，得到联邦模型的过程已在第一实施例中详细描述，在此不再重复赘述。

步骤S60，当接收到所述联邦学习服务器返回的联邦模型后，根据所述联邦模型更新所述第一训练模型。

当运行在实时环境中的强化学习智能设备接收到联邦学习服务器返回的联邦模型后，运行在实时环境中的强化学习智能设备根据联邦模型更新第一训练模型，即将联邦模型替换第一训练模型，或者将联邦模型中的模型参数替换第一训练模型的模型参数，得到新的第一训练模型。

本实施例通过联邦学习服务器对实时样本数据对应的训练模型和历史样本数据对应的训练模型进行联邦学习，得到联邦模型，将联邦模型发送给运行在实时环境中的各个强化学习智能设备和存储历史样本数据的数据服务器，运行在实时环境中的各个强化学习智能设备和数据服务器会根据所接收的联邦模型更新其强化学习训练的训练模型，通过联邦学习对实时获取的样本数据和历史样本数据进行知识的交换和迁移，使运行在实时环境中的强化学习智能设备和数据服务器对应的训练模型是由实时获取的样本数据和历史样本数据得到的，提高了通过训练模型得到训练结果的准确性，即提高了训练模型对样本知识的抽取能力，以及提高了训练模型的稳定性。

进一步地，步骤S60包括：

步骤c，当接收到所述联邦学习服务器返回的联邦模型后，获取当前时间。

步骤d，若根据更新周期确定所述当前时间为更新时间，则根据所述联邦模型更新所述第一训练模型。

进一步地，当运行在实时环境中的强化学习智能设备接收到联邦学习服务器返回的联邦模型后，运行在实时环境中的强化学习智能设备获取当前时间，以及获取预先设置好的更新周期，根据该更新周期确定当前时间是否为更新时间。需要说明的是，运行在实时环境中的强化学习智能设备对应的更新周期和数据服务器对应的更新周期可以相同，也可以不相同；运行在实时环境中的各个强化学习智能设备对应的更新周期可以相同，也可以不相同。可以理解的是，获取上一次的更新时间，根据上一次的更新时间和更新周期即可确定下一次更新时间，若当前时间为下一次更新时间，则可确定当前时间为更新时间。

若运行在实时环境中的强化学习智能设备根据更新周期确定当前时间为更新时间，则根据联邦模型更新第一训练模型。需要说明的是，各个强化学习智能设备是运行在异步环境中的，因此，本实施例中各个强化学习智能设备根据联邦模型更新对应训练模型的更新时间也是异步，各个强化学习智能设备可根据自身设定决定何时根据联邦模型更新对应训练模型，不需要在接收到联邦模型时立即更新训练模型，从而减少强化学习智能设备与联邦学习服务器之间的同步机制带来的计算和通信负担，提高了训练模型的更新效率。

进一步地，提出本发明训练模型的更新方法第三实施例。

所述训练模型的更新方法第三实施例与所述训练模型的更新方法第二实施例的区别在于，所述训练模型的更新方法还包括：

步骤e，获取所述实时环境中的实时样本数据，并将所述实时样本数据存储至预设长度的存储队列中。

当运行在实时环境中的强化学习智能设备通过传感器获取到实时样本数据时，运行在实时环境中的强化学习智能设备将实时样本数据存储至预设长度的存储队列中，以便于可根据需要在存储队列中获取实时样本数据进行强化学习训练。优选地，实时样本数据在存储队列中的存储格式可为：上一步状态、上一步动作、奖励和下一步状态。

通过将获取的实时样本数据存储在预设长度的存储队列中，以便于运行在实时环境中的各个强化学习智能设备在需要进行强化学习训练时，可以从存储队列中获取所需的样本数据。

进一步地，步骤e包括：

步骤e1，获取所述实时环境中的实时样本数据，检测预设长度的存储队列的剩余存储空间是否小于存储所述实时样本数据所需的数据空间。

步骤e2，若所述剩余存储空间小于所述数据空间，则在按照预设删除规则删除所述存储队列中存储的样本数据后，将所述实时样本数据存储至预设长度的存储队列中。

进一步地，当运行在实时环境中的强化学习智能设备获取到实时环境中的实时样本数据后，强化学习智能设备计算预设长度的存储队列的剩余存储空间，以及计算存储所获取的实时样本数据所需的数据空间，并检测剩余存储空间是否小于数据空间。若检测到剩余存储空间小于数据空间，强化学习智能设备则按照预设删除规则删除存储队列中存储的样本数据后，将实时样本数据存储至预设长度的存储队列中。可以理解的是，当按照预设删除规则删除存储队列中存储的样本数据后，存储队列中的剩余存储空间会大于或者等于数据空间。预设删除规则可为随机删除存储队列存储的样本数据，或者是按照存储队列中样本数据的存储时长，从大到小进行删除，即优先删除存储时长大的样本数据等。若检测到剩余存储空间大于或者等于数据空间，强化学习智能设备则直接将所获取的实时样本数据存储至预设长度的存储队列中。

通过在预设长度的存储队列的剩余存储空间小于存储实时样本数据所需的数据空间时，删除存储队列中存储的样本数据，将实时样本数据存储至预设长度的存储队列中，提高了实时样本数据存储的成功率。

进一步地，所述训练模型的更新方法还包括：

步骤f，根据预设的样本发送周期确定发送所述实时样本数据的数据发送时间，并在当前时间为所述数据发送时间时将所述实时样本数据发送给数据服务器，以供所述数据服务器接收并存储所述实时样本数据。

当运行在实时环境中的强化学习智能设备获取到实时样本数据后，获取预先设置好的样本发送周期，并根据样本发送周期确定实时样本数据的数据发送时间，在当前时间为数据发送时间时将实时样本数据发送给数据服务器。当数据服务器接收到运行在实时环境中的各个强化学习智能设备发送的实时样本数据后，数据服务器存储所接收的实时样本数据。需要说明的是，在强化学习智能设备将实时样本数据发送给数据服务器时，实时样本数据已经成为历史样本数据，即强化学习智能设备获取到该实时样本数据的时长已经大于设定时长了，该设定时长可根据具体需要而设置。在本实施例中，不限制样本发送周期对应的时长。各个强化学习智能设备的样本发送周期对应的时长可以相等，也可以不相等。

通过将运行在实时环境中的各个强化学习智能设备获取的实时样本存储按照样本发送周期发送给数据服务器存储，以便于后续服务器根据所存储历史样本数据进行强化学习训练，提高了强化学习训练样本的多样性。

进一步地，所述训练模型的更新方法还包括：

步骤g，根据预设的模型发送周期确定发送所述第一训练模型的模型发送时间；

所述将所述第一训练模型发送给联邦学习服务器，包括：

步骤h，在当前时间为所述模型发送时间时执行将所述第一训练模型发送给联邦学习服务器。

当运行在实时环境中的强化学习智能设备得到第一训练模型后，强化学习智能设备获取预设的模型发送周期，并根据该模型发送周期确定将第一训练模型发送给联邦学习服务器的模型发送时间，在检测当前时间为模型发送时间时，将第一训练模型发送给联邦学习服务器。其中，本实施例不限制模型发送时间对应的时长。优选地，为了保证联邦学习服务器在接收到第一训练模型后，联邦学习服务器能够尽快进行联邦学习，将发送第一训练模型对应的模型发送周期设置为与发送第二训练模型对应的模型发送周期相等，以实现数据服务器和运行在实时环境中的强化学习智能设备同时将对应的训练模型发送给联邦学习服务器，提高联邦学习的学习效率和成功率。

此外，本发明实施例还提供一种训练模型的更新系统，系统包括运行在实时环境中的强化学习智能设备、联邦学习服务器和数据服务器，所述训练模型的更新系统包括：

进一步地，所述联邦服务器还用于获取所述第一训练模型和所述第二训练模型对应的模型权重；根据所述模型权重对所述第一训练模型和所述第二训练模型进行联邦学习，得到联邦模型。

进一步地，所述强化学习智能设备还用于运行在实时环境中的强化学习智能设备获取预设长度存储队列中的实时样本数据进行强化学习训练，得到第一训练模型；将所述第一训练模型发送给联邦学习服务器；当接收到所述联邦学习服务器返回的联邦模型后，根据所述联邦模型更新所述第一训练模型。

进一步地，所述强化学习智能设备还用于获取所述实时环境中的实时样本数据，并将所述实时样本数据存储至预设长度的存储队列中。

进一步地，所述强化学习智能设备还用于获取所述实时环境中的实时样本数据，检测预设长度的存储队列的剩余存储空间是否小于存储所述实时样本数据所需的数据空间；若所述剩余存储空间小于所述数据空间，则在按照预设删除规则删除所述存储队列中存储的样本数据后，将所述实时样本数据存储至预设长度的存储队列中。

进一步地，所述强化学习智能设备还用于根据预设的样本发送周期确定发送所述实时样本数据的数据发送时间，并在当前时间为所述数据发送时间时将所述实时样本数据发送给数据服务器，以供所述数据服务器接收并存储所述实时样本数据。

进一步地，所述强化学习智能设备还用于根据预设的模型发送周期确定发送所述第一训练模型的模型发送时间，并在当前时间为所述模型发送时间时将所述第一训练模型发送给联邦学习服务器。

进一步地，所述强化学习智能设备还用于当接收到所述联邦学习服务器返回的联邦模型后，获取当前时间；

需要说明的是，训练模型的更新系统的各个实施例与上述训练模型的更新方法的各实施例基本相同，在此不再详细赘述。

此外，本发明实施例还提供一种训练模型的更新设备。该更新设备可为联邦学习服务器，也可为运行在实时环境中的强化学习智能设备，如图3所示，图3是本发明实施例方案涉及的硬件运行环境的结构示意图。

需要说明的是，图3即可为训练模型的更新设备的硬件运行环境的结构示意图。本发明实施例训练模型的更新设备可以是PC，便携计算机等终端设备。

如图3所示，该训练模型的更新设备可以包括：处理器1001，例如CPU，存储器1005，用户接口1003，网络接口1004，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图3中示出的训练模型的更新设备结构并不构成对训练模型的更新设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图3所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及训练模型的更新程序。其中，操作系统是管理和控制训练模型的更新设备硬件和软件资源的程序，支持训练模型的更新程序以及其它软件或程序的运行。

在图3所示的训练模型的更新设备中，当训练模型的更新设备为联邦学习服务器时，用户接口1003主要用于连接运行在实时环境中的强化学习智能设备和数据服务器，与运行在实时环境中的强化学习智能设备和数据服务器进行数据通信；当训练模型的更新设备为运行在实时环境中的强化学习智能设备时，用户接口1003主要用于连接联邦学习服务器和数据服务器，与联邦学习服务器和数据服务器进行数据通信；网络接口1004主要用于后台服务器，与后台服务器进行数据通信；处理器1001可以用于调用存储器1005中存储的训练模型的更新程序，并执行如上所述的训练模型的更新方法的步骤。

本发明训练模型的更新设备具体实施方式与上述训练模型的更新方法各实施例基本相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有训练模型的更新程序，所述训练模型的更新程序被处理器执行时实现如上所述的训练模型的更新方法的步骤。

本发明计算机可读存储介质具体实施方式与上述训练模型的更新方法各实施例基本相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种训练模型的更新方法，其特征在于，所述训练模型的更新方法包括以下步骤：

将所述第一训练模型发送给联邦学习服务器，以供所述联邦学习服务器对所述第一训练模型和数据服务器发送的，根据历史样本数据进行强化学习训练得到的第二训练模型进行联邦学习，得到联邦模型；

2.如权利要求1所述的训练模型的更新方法，其特征在于，所述运行在实时环境中的强化学习智能设备获取预设长度存储队列中的实时样本数据进行强化学习训练，得到第一训练模型的步骤之前，还包括：

3.如权利要求2所述的训练模型的更新方法，其特征在于，所述获取所述实时环境中的实时样本数据，并将所述实时样本数据存储至预设长度的存储队列中的步骤包括：

4.如权利要求3所述的训练模型的更新方法，其特征在于，所述获取所述实时环境中的实时样本数据的步骤之后，还包括：

5.如权利要求1所述的训练模型的更新方法，其特征在于，所述将所述第一训练模型发送给联邦学习服务器，以供所述联邦学习服务器对所述第一训练模型和数据服务器发送的，根据历史样本数据进行强化学习训练得到的第二训练模型进行联邦学习，得到联邦模型，并返回所述联邦模型的步骤之前，还包括：

所述将所述第一训练模型发送给联邦学习服务器，包括：

6.如权利要求1至5任一项所述的训练模型的更新方法，其特征在于，所述当接收到所述联邦学习服务器返回的联邦模型后，根据所述联邦模型更新所述第一训练模型的步骤包括：

7.一种训练模型的更新方法，其特征在于，所述训练模型的更新方法包括以下步骤：

联邦学习服务器接收运行在实时环境中的各强化学习智能设备发送的第一训练模型，以及接收数据服务器发送的，根据历史样本数据进行强化学习训练得到的第二训练模型，其中，所述第一训练模型是基于实时样本数据进行强化学习训练得到的；

8.如权利要求7所述的训练模型的更新方法，其特征在于，所述对所述第一训练模型和所述第二训练模型进行联邦学习，得到联邦模型的步骤包括：

9.一种训练模型的更新系统，其特征在于，系统包括运行在实时环境中的强化学习智能设备、联邦学习服务器和数据服务器，所述训练模型的更新系统包括：

所述联邦学习服务器，用于接收运行在实时环境中的各强化学习智能设备发送的第一训练模型，以及接收数据服务器发送的，根据历史样本数据训练得到的第二训练模型，其中，所述第一训练模型是基于实时样本数据进行强化学习训练得到的；对所述第一训练模型和所述第二训练模型进行联邦学习，得到联邦模型；将所述联邦模型发送给所述数据服务器和各强化学习智能设备；

10.一种强化学习智能设备，其特征在于，所述强化学习智能设备运行在实时环境中，所述强化学习智能设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的训练模型的更新程序，所述训练模型的更新程序被所述处理器执行时实现如权利要求1至6中任一项所述的训练模型的更新方法的步骤。

11.一种联邦学习服务器，其特征在于，所述联邦学习服务器包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的训练模型的更新程序，所述训练模型的更新程序被所述处理器执行时实现如权利要求7或8中所述的训练模型的更新方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有训练模型的更新程序，所述训练模型的更新程序被处理器执行时实现如权利要求1至6，或者7至8中任一项所述的训练模型的更新方法的步骤。