CN110796266A

CN110796266A - 基于公共信息的强化学习实现方法、设备及存储介质

Info

Publication number: CN110796266A
Application number: CN201911046737.6A
Authority: CN
Inventors: 梁新乐; 刘洋; 陈天健; 董苗波
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-02-14
Anticipated expiration: 2039-10-30
Also published as: CN110796266B

Abstract

本发明公开了一种基于公共信息的强化学习实现方法、设备及存储介质，所述方法包括：智能体获取数据采集设备采集的自身采集数据，并向联邦服务端发送公共信息获取请求；接收联邦服务端返回的已处理公共信息，其中，联邦服务端根据公共信息获取请求对本地的原始公共信息进行安全处理得到已处理公共信息；根据自身采集数据和已处理公共信息进行强化学习推理和训练，以优化智能体的控制策略。本发明实现了在利用外部公共信息提高强化学习智能体控制性能的同时，不泄露公共信息中的隐私信息。

Description

基于公共信息的强化学习实现方法、设备及存储介质

技术领域

本发明涉及机器学习技术领域，尤其涉及一种基于公共信息的强化学习实现方法、设备及存储介质。

背景技术

强化学习(reinforcement learning)，又称再励学习、评价学习，是一种重要的机器学习方法，在智能控制机器人及分析预测等领域有许多应用。强化学习是智能体(Agent)以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是学习从环境状态到行为的映射，使得智能体选择的行为能够获得环境最大的奖赏，使得外部环境对学习系统在某种意义下的评价(或整个系统的运行性能)为最佳。

在当前的技术架构下，强化学习Agent利用自身收集的数据进行学习、优化和控制，但是在实际应用中，强化学习Agent由于自身收集数据的障碍，无法采集到周围环境的全局数据。如无人车的高速雷达无法穿越遮挡而无法获得周围更全面的数据，如周围车辆的分布、运动状态等。而站在人类驾驶经验来看，利用周围环境的全局数据能够更为健壮地对无人车进行控制，因此，为使得强化学习Agent训练出更优秀的控制性能，除了利用Agent自身采集的数据外，还需要利用外部的公共信息，如对于无人车来说，在路边安装的公共摄像头采集的图像数据能够准确地帮助无人车进行自身和周围车辆的定位。但是，在实际应用中，由于外部的公共信息涉及到隐私安全，往往不能够将公共信息直接发送给强化学习Agent进行学习，从而导致无法利用外部公共信息提高Agent的控制性能。

发明内容

本发明的主要目的在于提供一种基于公共信息的强化学习实现方法、设备及存储介质，旨在解决目前由于外部的公共信息涉及到隐私安全而导致无法利用外部公共信息提高Agent的控制性能的问题。

为实现上述目的，本发明提供一种基于公共信息的强化学习实现方法，所述基于公共信息的强化学习实现方法应用于强化学习的智能体，所述智能体与联邦服务端通信连接，所述基于公共信息的强化学习实现方法包括以下步骤：

获取所述智能体的数据采集设备采集的自身采集数据，并向所述联邦服务端发送公共信息获取请求；

接收所述联邦服务端返回的已处理公共信息，其中，所述联邦服务端根据所述公共信息获取请求对本地的原始公共信息进行安全处理得到所述已处理公共信息；

根据所述自身采集数据和所述已处理公共信息进行强化学习推理和训练，以优化所述智能体的控制策略。

可选地，所述根据所述自身采集数据和所述已处理公共信息进行强化学习推理和训练，以优化所述智能体的控制策略的步骤包括：

根据所述自身采集数据、所述已处理公共信息和预设的控制策略对所述智能体作出控制动作；

生成所述控制动作对应的经验数据，并将所述经验数据保存至预设经验池中；

按照预设时间间隔从所述预设经验池中获取预设数量的所述经验数据进行强化学习训练以优化所述控制策略。

为实现上述目的，本发明还提供一种基于公共信息的强化学习实现方法，所述基于公共信息的强化学习实现方法应用于联邦服务端，所述联邦服务端与强化学习的智能体通信连接，所述基于公共信息的强化学习实现方法包括以下步骤：

接收所述智能体发送的公共信息获取请求；

根据所述公共信息获取请求采用预设的联邦模型对本地的原始公共信息进行安全处理得到已处理公共信息；

将所述已处理公共信息发送给所述智能体，以供所述智能体根据所述已处理公共信息和本地的自身采集数据进行强化学习推理和训练。

可选地，所述将所述已处理公共信息发送给所述智能体，以供所述智能体根据所述已处理公共信息进行强化学习推理和训练的步骤之后，还包括：

接收所述智能体反馈的梯度信息，其中，所述智能体根据所述已处理公共信息、本地的自身采集数据和预设的控制策略对所述智能体作出控制动作，并生成所述控制动作对应的经验数据，所述智能体根据所述经验数据进行强化学习训练，并根据强化学习训练结果计算得到与所述已处理公共信息相关的所述梯度信息；

根据所述梯度信息更新所述联邦模型的模型参数。

可选地，所述根据所述梯度信息更新所述联邦模型的模型参数的步骤之前，还包括：

根据所述梯度信息确定是否满足预设的模型参数更新条件；

若确定满足所述模型参数更新条件，则执行所述根据所述梯度信息更新所述联邦模型的模型参数的步骤。

可选地，所述公共信息获取请求中携带所述智能体的识别信息，

所述根据所述公共信息获取请求采用预设的联邦模型对本地的原始公共信息进行安全处理得到已处理公共信息的步骤包括：

从所述公共信息获取请求中提取所述智能体的识别信息；

按照所述识别信息对本地的原始公共信息进行预处理，得到与所述智能体相关的预处理公共信息；

采用预设的联邦模型对所述预处理公共信息进行安全处理得到已处理公共信息。

可选地，所述根据所述公共信息获取请求采用预设的联邦模型对本地的原始公共信息进行安全处理得到已处理公共信息的步骤包括：

根据所述公共信息获取请求采用预设的联邦模型对本地的原始公共信息进行向量化处理，将向量化处理得到的向量作为已处理公共信息。

为实现上述目的，本发明还提供一种基于公共信息的强化学习实现设备，所述基于公共信息的强化学习实现设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于公共信息的强化学习实现程序，所述基于公共信息的强化学习实现程序被所述处理器执行时实现如上所述的基于公共信息的强化学习实现方法的步骤。

此外，为实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有基于公共信息的强化学习实现程序，所述基于公共信息的强化学习实现程序被处理器执行时实现如上所述的基于公共信息的强化学习实现方法的步骤。

本发明中，通过智能体获取自身数据采集设备采集的自身采集数据，并向联邦服务端发送公共信息获取请求；接收联邦服务端返回的已处理公共信息，其中，联邦服务端根据公共信息获取请求对本地的原始公共信息进行安全处理得到已处理公共信息；根据自身采集数据和已处理公共信息进行强化学习推理和训练，以优化智能体的控制策略，实现了在利用外部公共信息提高强化学习智能体控制性能的同时，不泄露公共信息中的隐私信息。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明基于公共信息的强化学习实现方法第一实施例的流程示意图；

图3为本发明实施例涉及一种基于外部公共信息的强化学习架构图；

图4为本发明实施例涉及一种强化学习智能体依靠联邦服务方进行强化学习推理和训练的流程示意图；

图5为本发明实施例涉及一种联邦服务端依靠强化学习智能体的梯度回传进行联邦模型的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

需要说明的是，本发明实施例基于公共信息的强化学习设备是强化学习的智能体，智能体可以是智能手机、个人计算机和服务器等设备，在此不做具体限制。

如图1所示，该设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于公共信息的强化学习实现程序。其中，操作系统是管理和控制设备硬件和软件资源的程序，支持基于公共信息的强化学习实现程序以及其它软件或程序的运行。

在图1所示的设备中，用户接口1003主要用于与客户端进行数据通信；网络接口1004主要用于与联邦服务端建立通信连接；而处理器1001可以用于调用存储器1005中存储的基于公共信息的强化学习实现程序，并执行以下操作：

进一步地，所述根据所述自身采集数据和所述已处理公共信息进行强化学习推理和训练，以优化所述智能体的控制策略的步骤包括：

此外，本发明实施例还提出一种基于公共信息的强化学习设备，所述基于公共信息的强化学习包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于公共信息的强化学习实现程序，所述基于公共信息的强化学习实现程序被所述处理器执行时实现如下所述的基于公共信息的强化学习实现方法的步骤：

接收所述智能体发送的公共信息获取请求；

进一步地，所述将所述已处理公共信息发送给所述智能体，以供所述智能体根据所述已处理公共信息进行强化学习推理和训练的步骤之后，还包括：

根据所述梯度信息更新所述联邦模型的模型参数。

进一步地，所述根据所述梯度信息更新所述联邦模型的模型参数的步骤之前，还包括：

根据所述梯度信息确定是否满足预设的模型参数更新条件；

进一步地，所述公共信息获取请求中携带所述智能体的识别信息，

从所述公共信息获取请求中提取所述智能体的识别信息；

进一步地，所述根据所述公共信息获取请求采用预设的联邦模型对本地的原始公共信息进行安全处理得到已处理公共信息的步骤包括：

此外，本发明实施例还提出一种计算机可读存储介质，所述存储介质上存储有基于公共信息的强化学习实现程序，所述基于公共信息的强化学习实现程序被处理器执行时实现如下所述的基于公共信息的强化学习实现方法的步骤。

本发明基于公共信息的强化学习实现设备和计算机可读存储介质的各实施例，均可参照本发明基于公共信息的强化学习实现方法各个实施例，此处不再赘述。

基于上述的结构，提出基于公共信息的强化学习实现方法的各个实施例。

参照图2，图2为本发明基于公共信息的强化学习实现方法第一实施例的流程示意图。

本发明实施例提供了基于公共信息的强化学习实现方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明第一实施例基于公共信息的强化学习实现方法应用于强化学习智能体(Agent)，智能体与联邦服务端通信连接，本发明实施例，智能体和联邦服务端可以是智能手机、个人计算机和服务器等设备。在本实施例中，基于公共信息的强化学习实现方法包括：

步骤S10，获取所述智能体的数据采集设备采集的自身采集数据，并向所述联邦服务端发送公共信息获取请求；

随着人工智能的发展，人们为解决数据孤岛的问题，提出了“联邦学习”的概念，使得联邦各方在不用给出己方数据的情况下，也可进行模型训练得到模型参数，并且可以避免数据隐私泄露的问题。在本实施例中，为解决由于外部的公共信息涉及到隐私安全，而导致无法利用外部公共信息提高智能体控制性能的技术问题，提出借鉴联邦学习的概念，通过将拥有外部公共信息的外部设备作为智能体的联邦服务端，通过联邦服务端将公共信息进行安全处理后提供给智能体，以在保证智能体能够利用公共信息进行强化学习提高控制性能的同时，避免公共信息中隐私数据泄露给智能体。

传统的纵向联邦学习是参与者的数据特征重叠较小，而用户重叠较多的情况下，取出参与者用户相同而用户数据特征不同的那部分用户及数据进行联合机器学习训练，训练过程分为样本对齐和加密模型训练，具体不作详细赘述。需要说明的是，本实施例中是借鉴纵向联邦学习的概念，智能体与联邦服务端联合进行强化学习的过程，与传统的纵向联邦学习过程并不完全相同。

具体地，在一实施方式中，智能体采集两个部分的数据，一个部分是智能获取智能体自身的数据采集设备采集的数据，以下称为自身采集数据。其中，智能体自身的数据采集设备可以是设置在智能体中的各种传感器，如无人车采集的自身采集数据可包括高速激光雷达数据、图像传感器数据、IMU(Inertial Measurement Unit，惯性测量单元)数据、GPS数据等。另一个部分是智能体向联邦服务端发送公共信息获取请求，以向联邦服务端获取公共信息。需要说明的是，联邦服务端可以是任何能够为智能体提供外部环境数据的设备，如当智能体是无人车时，联邦服务端可以是路边设置的公共摄像头，也可以是管理各个公共摄像头的设备，还可以是其他无人车。

进一步地，智能体可以是按照一定的时间间隔采集数据，如每隔0.01秒采集一次数据，需要说明的是，根据智能体的控制任务不同，时间间隔不同，如当智能体是无人车，控制任务是对无人车的行驶控制时，时间间隔应当较小，从而保证对无人车的控制能够跟上周围快速变化的行车环境，从而保障无人车行车安全。

步骤S20，接收所述联邦服务端返回的已处理公共信息，其中，所述联邦服务端根据所述公共信息获取请求对本地的原始公共信息进行安全处理得到所述已处理公共信息；

智能体接收联邦服务端返回的已处理公共信息。其中，联邦服务端根据公共信息获取请求，对本地的原始公共信息进行安全处理，得到已处理公共信息，并将已处理公共信息返回给智能体。具体地，联邦服务端对原始公共信息进行安全处理，可以是去除其中的隐私信息，如路边的公共摄像头所采集的图像数据可能包括行人特征，或其他车辆的车牌号等隐私信息，因此可以是将图像数据进行处理以去除这些隐私信息，只保留行人和车辆的位置信息等能够帮助无人车获得周围全局的行人、车辆分布的信息。联邦服务端可以是采用预先设置的联邦模型对原始公共信息进行安全处理，如预先设置的联邦模型是对图像数据进行降维、向量化等一系列处理的模型，即联邦模型输入的是原始公共信息，输出的是不携带隐私信息的向量。

进一步地，在一实施方式中，联邦服务端可为多个智能体提供公共信息。由于联邦服务端的公共信息中可能包含大量的冗余信息，智能体还可以在公共信息获取请求中携带自身的识别信息，如设备序列号、GPS定位信息等，以方便联邦服务端根据识别信息抽取对智能体最有价值的信息。如，联邦服务端在获取到公共信息获取请求后，从中提取出智能体的识别信息，可根据设备序列号确定智能体的类型，根据类型确定为智能体提供哪些公共信息，如确定智能体是无人车，则为智能体提供摄像头采集的图像数据；还可根据GPS定位信息确定智能体的所处位置，根据所处位置选择要提供的公共信息，如根据所处位置确定提供哪一个摄像头采集的图像数据。具体地，联邦服务端中可以设置公共信息的数据集成模块，包括不同的数据模块，分别对应不同的采集设备采集的不同类型的数据；联邦服务端从数据集成模块中选择与识别信息对应的数据模块，即选择智能体所需要的原始公共信息；对该数据模型进行处理。进一步地，联邦服务端可以预先设置模型集成模型，其中包括不同的联邦模型，分别用于处理不同数据模块中的信息，如设置处理图像数据的联邦模型，处理雷达数据的联邦模型；联邦服务端从模型集成模块中选择与数据模块对应的联邦模型，对数据模块进行处理。

步骤S30，根据所述自身采集数据和所述已处理公共信息进行强化学习推理和训练，以优化所述智能体的控制策略。

智能体在得到已处理公共信息后，根据自身采集数据和已处理公共信息进行强化学习推理和训练，以优化智能体的控制策略。具体地，智能体结合自身采集数据和已处理公共信息来确定智能体的当前状态和奖励信息，根据奖励信息来优化智能体的控制策略，以使得控制策略能够获得最大奖励，从而提高智能体的控制性能。

在本实施例中，由于智能体不仅仅是利用自身采集数据来进行强化学习，还利用了联邦服务端提供的外部公共信息，通过外部公共信息补充了智能体自身无法采集的环境数据，从而获得更加全面的环境数据，使得智能体能够更好更快地通过强化学习优化控制策略，并得到性能更佳的控制策略。并且联邦服务端不是直接将公共信息发送给智能体，而是对公共信息进行安全处理后发送给智能体，从而很好地保护了公共信息中的隐私信息，实现了在利用外部公共信息提高智能体控制性能的同时，不泄露公共信息中的隐私信息。

因此，在本实施例中，通过智能体获取自身数据采集设备采集的自身采集数据，并向联邦服务端发送公共信息获取请求；接收联邦服务端返回的已处理公共信息，其中，联邦服务端根据公共信息获取请求对本地的原始公共信息进行安全处理得到已处理公共信息；根据自身采集数据和已处理公共信息进行强化学习推理和训练，以优化智能体的控制策略，实现了在利用外部公共信息提高强化学习智能体控制性能的同时，不泄露公共信息中的隐私信息。

进一步地，步骤S30包括：

步骤S301，根据所述自身采集数据、所述已处理公共信息和预设的控制策略对所述智能体作出控制动作；

智能体中可预先设置控制策略，如对无人车进行向左、向右或刹车控制的控制策略，控制策略可以是根据当前智能体所处的状态作出控制动作。智能体可根据自身采集数据和已处理公共信息确定当前智能体所处的状态，然后根据当前状态和控制策略作出控制动作，具体可以是先作出控制指令，然后将控制指令发送给控制器，由控制器根据控制指令控制智能体完成控制动作。如无人车根据自身采集数据和已处理公共信息，确定当前所处的位置、与周围车辆和行人的距离等状态信息，根据当前状态和控制策略，作出向右、向左或刹车的控制指令，将控制指令发送给无人车的控制器，由控制器控制转向或刹车装置，作出转向或刹车的控制动作。

步骤S302，生成所述控制动作对应的经验数据，并将所述经验数据保存至预设经验池中；

智能体在作出控制动作后，生成该控制动作对应的经验数据，并将经验数据保存至预设经验池中。其中，预设经验池可以是预先设置的用于保存经验数据的存储模块。智能体在当前状态作出控制动作后，控制动作作用于环境，使得智能体进入下一步状态，下一步状态可以根据智能体下一步获取到的自身采集数据和已处理公共信息确定，并可以将当前状态和下一步状态输入预设的奖励函数中，得到下一步的奖励信息。作出控制动作后进入下一步状态，下一步状态成为智能体的当前状态，下一步奖励成为智能体的当前奖励，智能体可以将前一步状态、前一步控制动作、当前奖励和当前状态这四元组作为一条经验数据，也即生成了前一步控制动作对应的经验数据，将经验数据保存至经验池。

步骤S303，按照预设时间间隔从所述预设经验池中获取预设数量的所述经验数据进行强化学习训练以优化所述控制策略。

智能体按照预设时间间隔从预设经验池中获取预设数量的经验数据进行强化学习训练以优化控制策略。其中，预设时间间隔可以预先根据具体训练需要进行设置，时间间隔应当不小于作出控制动作的时间间隔。预设数量也可以根据需要进行预先设置。具体根据四元组的经验数据进行强化学习训练、优化控制策略的过程，可以采用常规的强化学习过程，在此不作详细赘述。

进一步地，基于上述第一实施例，提出本发明基于公共信息的强化学习实现方法第二实施例，在本实施例中，所述基于公共信息的强化学习实现方法应用于联邦服务端，所述联邦服务端与强化学习的智能体通信连接，所述基于公共信息的强化学习实现方法包括以下步骤：

步骤A10，接收所述智能体发送的公共信息获取请求；

具体地，在一实施方式中，联邦服务端可以是任何能够为智能体提供外部环境数据的设备，如当智能体是无人车时，联邦服务端可以是路边设置的公共摄像头，也可以是管理各个公共摄像头的设备，还可以是其他无人车。联邦服务端接收智能体发送的公共信息获取请求。其中，智能体采集两个部分的数据，一个部分是智能体向联邦服务端发送公共信息获取请求，以向联邦服务端获取公共信息。另一个部分是智能获取智能体自身的数据采集设备采集的数据，以下称为自身采集数据。其中，智能体自身的数据采集设备可以是设置在智能体中的各种传感器，如无人车中的雷达传感器、摄像头等。

步骤A20，根据所述公共信息获取请求采用预设的联邦模型对本地的原始公共信息进行安全处理得到已处理公共信息；

联邦服务端根据公共信息获取请求采用预设的联邦模型对本地的原始公共信息进行安全处理，得到已处理公共信息。具体地，联邦服务端对原始公共信息进行安全处理，可以是去除其中的隐私信息，如路边的公共摄像头所采集的图像数据可能包括行人特征，或其他车辆的车牌号等隐私信息，因此可以是将图像数据进行处理以去除这些隐私信息，只保留行人和车辆的位置信息等能够帮助无人车获得周围全局的行人、车辆分布的信息。联邦服务端可以是采用预先设置的联邦模型对原始公共信息进行安全处理。

进一步地，步骤A20包括：

具体地，预先设置的联邦模型可以是对图像数据进行降维、向量化等一系列处理的模型，即联邦模型输入的是原始公共信息，输出的是不携带隐私信息的向量。进行向量化处理的联邦模型可以采用现有的神经网络模型来实现。

步骤A30，将所述已处理公共信息发送给所述智能体，以供所述智能体根据所述已处理公共信息和本地的自身采集数据进行强化学习推理和训练。

联邦服务端得到已处理公共信息后，将已处理公共信息发送给智能体，智能体根据已处理公共信息，和智能体本地的自身采集数据进行强化学习推理和训练。具体地，智能体结合自身采集数据和已处理公共信息来确定智能体的当前状态和奖励信息，根据奖励信息来优化智能体的控制策略，以使得控制策略能够获得最大奖励，从而提高智能体的控制性能。

因此，在本实施例中，通过联邦服务端接收智能体发送的公共信息获取请求；根据公共信息获取请求采用预设的联邦模型对本地的原始公共信息进行安全处理得到已处理公共信息；将已处理公共信息发送给智能体，以供智能体根据所述已处理公共信息和本地的自身采集数据进行强化学习推理和训练，实现了在利用外部公共信息提高强化学习智能体控制性能的同时，不泄露公共信息中的隐私信息。

进一步地，所述公共信息获取请求中携带所述智能体的识别信息，所述步骤A20包括：

步骤A201，从所述公共信息获取请求中提取所述智能体的识别信息；

进一步地，在一实施方式中，联邦服务端可为多个智能体提供公共信息。由于联邦服务端的公共信息中可能包含大量的冗余信息，智能体还可以在公共信息获取请求中携带自身的识别信息，如设备序列号、GPS定位信息等，以方便联邦服务端根据识别信息抽取对智能体最有价值的信息。

联邦服务端在接收到智能体发送的公共信息获取请求后，从中提取出智能体的识别信息。

步骤A202，按照所述识别信息对本地的原始公共信息进行预处理，得到与所述智能体相关的预处理公共信息；

联邦服务端可按照识别信息对本地的原始公共信息进行预处理，得到与智能体相关的预处理公共信息。具体地，预处理过程可以包括根据设备序列号确定智能体的类型，根据类型确定为智能体提供哪些公共信息，如确定智能体是无人车，则为智能体提供摄像头采集的图像数据；还可以包括根据GPS定位信息确定智能体的所处位置，根据所处位置选择要提供的公共信息，如根据所处位置确定提供哪一个摄像头采集的图像数据；还可以包括对图像进行中心化处理，使得图像以智能体所在位置为中心，并可以将中心化处理后的图像裁剪为固定像素的图像。在一系列预处理操作后，联邦服务端得到与识别信息对应的智能体相关的预处理公共信息。

步骤A203，采用预设的联邦模型对所述预处理公共信息进行安全处理得到已处理公共信息。

联邦服务端采用预设的联邦模型对预处理公共信息进行安全处理得到已处理公共信息，具体通过联邦模型进行安全处理的过程与步骤A20类似，在此不再详细赘述。

在本实施例中，通过智能体在公共信息获取请求中携带识别信息，联邦服务端根据识别信息对本地的原始公共信息进行预处理，得到与智能体相关的预处理公共信息，使得联邦服务端能够从大量的原始公共信息中去除冗余的信息，提取对智能体的强化学习最有价值的信息，从而提高使得智能体强化学习得到更优的控制策略。

进一步地，基于上述第一和第二实施例，提出本发明基于公共信息的强化学习实现方法第三实施例，在本实施例中，所述步骤A30之后，还包括：

步骤A40，接收所述智能体反馈的梯度信息，其中，所述智能体根据所述已处理公共信息、本地的自身采集数据和预设的控制策略对所述智能体作出控制动作，并生成所述控制动作对应的经验数据，所述智能体根据所述经验数据进行强化学习训练，并根据强化学习训练结果计算得到与所述已处理公共信息相关的所述梯度信息；

在本实施例中，联邦服务端接收智能体反馈的梯度信息。其中，智能体根据已处理公共信息、本地的自身采集数据和预设的控制策略对智能体作出控制动作，并生成控制动作对应的经验数据，根据该经验数据进行强化学习训练，并根据强化学习训练结果计算得到与已处理公共信息相关的梯度信息。

具体地，智能体中可预先设置控制策略，控制策略可以是根据当前智能体所处的状态作出控制动作。智能体可根据自身采集数据和已处理公共信息确定当前智能体所处的状态，然后根据当前状态和控制策略作出控制动作。智能体在当前状态作出控制动作后，控制动作作用于环境，使得智能体进入下一步状态，下一步状态可以根据智能体下一步获取到的自身采集数据和已处理公共信息确定，并可以将当前状态和下一步状态输入预设的奖励函数中，得到下一步的奖励信息。作出控制动作后进入下一步状态，下一步状态成为智能体的当前状态，下一步奖励成为智能体的当前奖励，智能体可以将前一步状态、前一步控制动作、当前奖励和当前状态这四元组作为一条经验数据，也即生成了前一步控制动作对应的经验数据。

智能体根据当前生成的该经验数据进行强化学习训练，并根据训练结果计算得到与已处理公共信息相关的梯度信息。具体地，可以是预先设置状态与控制动作的映射关系，即各个状态下最优的控制动作，智能体根据经验数据中的控制动作，和经验数据中前一步状态对应的最优控制动作，计损失函数，并根据损失函数计算与已处理公共信息相关的梯度信息。

需要说明的是，为了获得更优的控制策略，智能体还进行另一种强化学习训练，通过将经验数据存储至预设的经验池，按照预设时间间隔从经验池中获取预设数量的经验数据进行强化学习训练，也即，结合多条经验数据进行强化学习，以优化智能体的控制策略。需要说明的是，智能体根据四元组的经验数据进行强化学习训练、优化控制策略的过程，可以采用常规的强化学习过程，在此不作详细赘述。

步骤A50，根据所述梯度信息更新所述联邦模型的模型参数。

联邦服务端在接收到梯度信息后，根据梯度信息更新联邦模型的模型参数。具体地，联邦模型的输出是向量形式的已处理公共信息，在得到已处理公共信息相关的梯度信息后，联邦服务端根据梯度信息反向传播，推导出联邦模型的各个模型参数的梯度信息，再根据各个模型参数的梯度信息更新各个模型参数。需要说明的是，由于联邦服务端采用联邦模型对原始公共信息进行处理，使得处理得到的已处理公共信息不包含隐私信息但能够为智能体提供其所需的外部信息，因此联邦服务端可通过智能体反馈的梯度信息更新联邦模型，以提高联邦模型的性能，使得联邦模型能够更好地处理公共信息，实现保证不泄露隐私信息的同时，处理得到更利于智能体进行强化学习的已处理公共信息。

进一步地，所述步骤A50之前，还包括：

步骤A60，根据所述梯度信息确定是否满足预设的模型参数更新条件；

进一步地，联邦服务端在根据梯度信息更新联邦模型的模型参数之前，联邦服务端可以根据梯度信息确定是否满足预设的模型参数更新条件。其中，预设的模型参数更新条件可以预先进行设置，如设置一个梯度阈值，当梯度信息中的梯度值小于该梯度阈值时，确定满足预设的模型参数更新条件，当梯度值不小于该梯度阈值时，确定不满足预设的模型参数更新条件。由于联邦服务端的联邦模型可能用于对多个智能体所需的公共信息进行处理，所以联邦模型的模型参数不适宜大幅度的变更，因此当梯度值较大时，联邦服务端可以选择不更新联邦模型的模型参数，从而确保联邦模型性能的稳定性。

步骤A70，若确定满足所述模型参数更新条件，则执行所述根据所述梯度信息更新所述联邦模型的模型参数的步骤。

若联邦服务端确定满足模型参数更新条件，则根据梯度信息更新联邦模型的模型参数。

进一步地，如图3所示，为一种基于外部公共信息的强化学习架构图。图3中，①强化学习智能体从自身的数据采集设备获取自身采集数据；②向联邦服务端发送公共信息获取请求；③联邦服务方根据公共信息获取请求中的识别信息，对原始公共信息进行预处理，得到预处理公共信息，再将预处理公共信息输出联邦模型，进行安全处理，得到已处理公共信息，将已处理公共信息发送给智能体；④智能体根据已处理公共信息和自身采集数据作出控制指令，并将控制指令发送给智能体的控制器，控制器根据控制指令作出控制动作；⑤智能体生成经验数据，并保存到经验池中；⑥可选地，智能体将与已处理信息相关的梯度信息返回给联邦服务端。如图4所示，为一种强化学习智能体依靠联邦服务方进行强化学习推理和训练的流程示意图，智能体通过自身的传感器等数据采集设备获取自身采集数据；并向联邦服务端发送公共信息获取请求；联邦服务端对原始公共信息进行处理后将已处理公共信息返回给智能体；智能体根据自身采集数据和已处理公共信息作出控制动作，并生成经验数据存入经验池；智能体从经验池取出一定数量的经验数据进行强化学习训练，并在满足训练结束的条件时结束训练，否则可以继续采集数据；训练结束的条件可以是训练达到一定的时间，或者控制策略已经达到最优。如图5所示，为一种联邦服务端依靠强化学习智能体的梯度回传进行联邦模型的流程示意图，智能体根据已处理公共信息进行强化学习训练后，返回与已处理公共信息相关的梯度信息；联邦服务端接收梯度信息，判断是否对根据梯度信息训练联邦模型，如根据梯度值与预设的梯度阈值进行比较判断是否训练联邦模型；若确定训练联邦模型，则根据梯度信息更新联邦模型，若确定不训练联邦模型，则对梯度信息不作处理。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于公共信息的强化学习实现方法，其特征在于，所述基于公共信息的强化学习实现方法应用于强化学习的智能体，所述智能体与联邦服务端通信连接，所述基于公共信息的强化学习实现方法包括以下步骤：

2.如权利要求1所述的基于公共信息的强化学习实现方法，其特征在于，所述根据所述自身采集数据和所述已处理公共信息进行强化学习推理和训练，以优化所述智能体的控制策略的步骤包括：

3.一种基于公共信息的强化学习实现方法，其特征在于，所述基于公共信息的强化学习实现方法应用于联邦服务端，所述联邦服务端与强化学习的智能体通信连接，所述基于公共信息的强化学习实现方法包括以下步骤：

接收所述智能体发送的公共信息获取请求；

4.如权利要求3所述的基于公共信息的强化学习实现方法，其特征在于，所述将所述已处理公共信息发送给所述智能体，以供所述智能体根据所述已处理公共信息进行强化学习推理和训练的步骤之后，还包括：

根据所述梯度信息更新所述联邦模型的模型参数。

5.如权利要求4所述的基于公共信息的强化学习实现方法，其特征在于，所述根据所述梯度信息更新所述联邦模型的模型参数的步骤之前，还包括：

根据所述梯度信息确定是否满足预设的模型参数更新条件；

6.如权利要求3至5任一项所述的基于公共信息的强化学习实现方法，其特征在于，所述公共信息获取请求中携带所述智能体的识别信息，

从所述公共信息获取请求中提取所述智能体的识别信息；

7.如权利要求3所述的基于公共信息的强化学习实现方法，其特征在于，所述根据所述公共信息获取请求采用预设的联邦模型对本地的原始公共信息进行安全处理得到已处理公共信息的步骤包括：

8.一种公共信息的强化学习实现设备，其特征在于，所述公共信息的强化学习实现设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于公共信息的强化学习实现程序，所述基于公共信息的强化学习实现程序被所述处理器执行时实现如权利要求1至2中任一项所述的基于公共信息的强化学习实现方法的步骤。

9.一种公共信息的强化学习实现设备，其特征在于，所述公共信息的强化学习实现设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于公共信息的强化学习实现程序，所述基于公共信息的强化学习实现程序被所述处理器执行时实现如权利要求3至7中任一项所述的基于公共信息的强化学习实现方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于公共信息的强化学习实现程序，所述基于公共信息的强化学习实现程序被处理器执行时实现如权利要求1至7中任一项所述的基于公共信息的强化学习实现方法的步骤。