CN116151363A

CN116151363A - 分布式强化学习系统

Info

Publication number: CN116151363A
Application number: CN202211297133.0A
Authority: CN
Inventors: 陈敏杰; 张翰堂
Original assignee: Beijing Dingcheng Intelligent Manufacturing Technology Co ltd
Current assignee: Beijing Dingcheng Intelligent Manufacturing Technology Co ltd
Priority date: 2022-10-21
Filing date: 2022-10-21
Publication date: 2023-05-23
Anticipated expiration: 2042-10-21
Also published as: CN116151363B

Abstract

本发明公开了一种分布式强化学习系统，该系统包括：客户端，用于响应用户的参数设置操作，得到配置文件参数信息；配置文件参数信息包括仿真环境参数信息、模型参数信息和算法参数信息；服务端，用于与客户端进行通信，对配置文件参数信息进行分布式处理，构建深度强化学习模型。可见，本发明有利于提升模型训练速度，缩短了训练时间，提高模型的稳定性。

Description

分布式强化学习系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种分布式强化学习系统。

背景技术

现有的强化学习训练系统，通过分布式采样，将环境的交互和模型的学习分布在多个进程上，显著提高训练效率，提升训练效果。但对于复杂的强化学习问题，仅仅通过多进程分布式采样的方式，提升的训练速度已不足以支持复杂场景的高效训练，在复杂的动作空间下模型收敛速度仍然很慢。基于现有的强化学习复杂问题场景，如何提高强化学习训练效率，在不影响模型效果的前提下提供更快的收敛速度，提升模型效果，成为现有技术有待解决的问题。因此，提供一种分布式强化学习系统，以提升模型训练速度，缩短了训练时间，提高模型的稳定性。

发明内容

本发明所要解决的技术问题在于，提供一种分布式强化学习系统，以提升模型训练速度，缩短了训练时间，提高模型的稳定性。

为了解决上述技术问题，本发明第一方面公开了一种分布式强化学习系统，包括：

客户端，用于响应用户的参数设置操作，得到配置文件参数信息；所述配置文件参数信息包括仿真环境参数信息、模型参数信息和算法参数信息；

服务端，用于与所述客户端进行通信，对所述配置文件参数信息进行分布式处理，构建深度强化学习模型。

作为一种可选的实施方式，所述服务端，包括：

引擎通信模块，用于与所述客户端通信，接收所述配置文件参数信息；

仿真模块，用于与所述引擎通信模块进行通信，根据所述配置文件参数信息中的仿真环境参数信息，确定出仿真环境集合；所述仿真环境集合包括若干个仿真环境；

神经网络引擎模块，用于与所述引擎通信模块进行通信，根据所述配置文件参数信息中的模型参数信息，确定出仿真模型集合；所述仿真模型集合包括若干个仿真模型；

分布式引擎模块，用于对所述仿真环境集合和所述仿真模型集合进行分布式进程生成，以生成多进程仿真模型；

强化学习算法模块，用于与所述引擎通信模块进行通信，利用所述算法参数信息对所述多进程仿真模型进行并行优化训练，构建深度强化学习模型。

作为一种可选的实施方式，所述分布式引擎模块对所述仿真环境集合和所述仿真模型集合进行分布式进程生成，以生成多进程仿真模型，包括：

所述分布式引擎模块利用所述引擎通信模块与所述仿真模块进行通信，获取所述仿真环境集合；

所述分布式引擎模块根据所述仿真环境集合中所述仿真环境的数量启动进程，得到若干个仿真环境进程；所述仿真环境进程的数量与所述仿真环境的数量是相一致的；

所述分布式引擎模块依序将所述仿真环境集合中的所述仿真环境布置在所述仿真环境进程上，得到若干个目标仿真环境；

所述分布式引擎模块获取当前环境状态信息；

所述分布式引擎模块根据所述当前环境状态信息，利用所述引擎通信模块与所述神经网络引擎模块进行通信，获取所述仿真模型集合；

所述分布式引擎模块根据所述仿真模型集合中所述仿真模型的数量启动进程，得到若干个仿真模型进程；所述仿真模型进程的数量与所述仿真模型的数量是相一致的；

所述分布式引擎模块依序将所述仿真模型集合中的所述仿真模型布置在所述仿真模型进程上，得到若干个目标仿真模型；

所述分布式引擎模块将所有所述目标仿真环境和所有所述目标仿真模型进行融合处理，得到多进程仿真模型。

作为一种可选的实施方式，所述仿真模型包括神经网络模型和所述神经网络模型对应的目标输出模型集合；所述输出模型集合包括至少一个目标输出模型；

所述模型参数信息包括神经网络模型参数信息和输出参数信息；

所述神经网络引擎模块与所述引擎通信模块进行通信，根据所述配置文件参数信息中的模型参数信息，确定出仿真模型集合，包括：

所述神经网络引擎模块与所述引擎通信模块进行通信，获取所述配置文件参数信息中的模型参数信息；

所述神经网络引擎模块根据所述神经网络模型参数信息，确定出若干个所述神经网络模型；

对于任一所述神经网络模型，所述神经网络引擎模块从所述输出参数信息筛选出与该神经网络模型相匹配的数据信息，得到目标输出参数信息；

所述神经网络引擎模块根据所述目标输出参数信息，确定出该神经网络模型对应的目标输出模型集合；

所述神经网络引擎模块将该神经网络模型和该神经网络模型对应的目标输出模型集合进行融合处理，得到该神经网络模型对应的仿真模型。

作为一种可选的实施方式，所述多进程仿真模型包括若干个所述目标仿真模型和若干个所述目标仿真环境；

所述强化学习算法模块与所述引擎通信模块进行通信，利用所述算法参数信息对所述多进程仿真模型进行并行优化训练，构建深度强化学习模型，包括：

所述强化学习算法模块与所述引擎通信模块进行通信，获取所述算法参数信息；

对于任一所述目标仿真模型，所述强化学习算法模块从训练经验池提取训练样本信息作为第一训练样本信息；

所述强化学习算法模块利用所述第一训练样本信息和所述算法参数信息对该目标仿真模型进行训练，得到备选训练模型；

所述强化学习算法模块基于所述备选训练模型和所述目标仿真环境，确定出训练结果信息；

所述强化学习算法模块判断所述训练结果信息是否满足终止训练条件，得到训练判断结果；

当所述训练判断结果为是时，所述强化学习算法模块确定所述备选训练模型为一个目标神经网络模型；

当所述训练判断结果为否时，所述强化学习算法模块利用所述备选训练模型对该目标仿真模型进行更新；

所述强化学习算法模块基于所述训练结果信息从所述训练经验池提取第二训练样本信息作为新的第一训练样本信息，并触发执行所述强化学习算法模块利用所述第一训练样本信息和所述算法参数信息对该目标仿真模型进行训练，得到备选训练模型；

所述强化学习算法模块判断所有所述目标仿真模型的训练进程是否终止，得到进程判断结果；

当所述进程判断结果为是时，所述强化学习算法模块将所有所述目标神经网络模型进行融合，得到深度强化学习模型。

作为一种可选的实施方式，所述训练结果信息包括奖励信息；

所述强化学习算法模块基于所述训练结果信息从所述训练经验池提取第二训练样本信息作为新的第一训练样本信息，包括：

所述强化学习算法模块获取历史奖励信息；

所述强化学习算法模块从所述奖励信息和所述历史奖励信息筛选出奖励值最小的数据信息作为目标奖励信息；

所述强化学习算法模块从所述训练经验池选取出所述目标奖励信息对应的训练样本信息作为第一备选训练样本信息；

所述强化学习算法模块从所述训练经验池随机选取训练样本信息作为第二备选训练样本信息；

所述强化学习算法模块基于样本权重信息对所述第一备选训练样本信息和所述第二备选训练样本信息进行融合，得到第二训练样本信息；

所述强化学习算法模块将所述第二训练样本信息确定为新的第一训练样本信息。

作为一种可选的实施方式，所述仿真环境进程与所述仿真模型进程是相互独立的。

作为一种可选的实施方式，所述客户端响应用户的参数设置操作，得到配置文件参数信息，包括：

所述客户端响应于用户在环境参数设置界面的设置操作，得到所述仿真环境参数信息；

所述客户端响应于所述用户在模型库中的选择操作和模型参数设置界面的设置操作，得到所述模型参数信息；

所述客户端响应于所述用户在算法库中的选择操作和模型关联设置界面的设置操作，得到所述算法参数信息。

本发明第二方面公开了一种计算机可读存储介质，所述计算机可读存储介质包括第一方面中任一种所述的分布式强化学习系统。

本发明第三方面公开了一种电子设备，所述电子设备包括第一方面中任一种所述的分布式强化学习系统。

与现有技术相比，本发明具有以下有益效果：

本发明实施例公开了一种分布式强化学习系统，包括客户端，用于响应用户的参数设置操作，得到配置文件参数信息；配置文件参数信息包括仿真环境参数信息、模型参数信息和算法参数信息；服务端，用于与客户端进行通信，对配置文件参数信息进行分布式处理，构建深度强化学习模型。可见，本发明有利于提升模型训练速度，缩短了训练时间，提高模型的稳定性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种分布式强化学习系统的结构示意图；

图2是本发明实施例公开的另一种分布式强化学习系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、装置、产品或端没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或模块。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

在阐述本发明的具体实施方式前，先对本发明的实施方式所针对的现有技术的一些情况进行介绍，在深度学习领域，分布式训练指的是把神经网络模型训练任务分割和共享在多个微型处理器上，又叫做工作节点。这些工作节点通过并行计算的方式加速模型的训练，分布式训练可以用在传统的机器学习模型上，但是它更适合于计算量庞大的任务，例如训练深度神经网络的深度学习上。分布式训练主要包括两个方面：数据并行化和模型并行化。数据并行化指的是将数据划分为分区，每个分区的数量等于可用的计算集群节点总数，每个节点对自己划分到的数据子集进行训练操作。而模型并行化指的是模型被分割为在不同节点中并行运行的部分，每个部分将在相同的数据上运行。

具体的，请参阅图1，图1是本发明实施例公开的一种分布式强化学习系统的结构示意图。如图1所示，该分布式强化学习系统，包括：

客户端101，用于响应用户的参数设置操作，得到配置文件参数信息；配置文件参数信息包括仿真环境参数信息、模型参数信息和算法参数信息；

服务端102，用于与客户端101进行通信，对配置文件参数信息进行分布式处理，构建深度强化学习模型。

可选的，上述仿真环境参数信息包括仿真环境名称，和/或，仿真环境类型，和/或，启动仿真环境的数量，和/或，观测空间大小，和/或，动作空间大小设置，和/或，是否自定义奖励函数，本发明实施例不做限定。

可选的，上述模型参数信息包括神经网络模型参数信息和输出参数信息。

具体的，上述神经网络模型参数信息包括神经网络模型类型，和/或，神经网络架构，和/或，神经网络模型数量，本发明实施例不做限定。

具体的，上述输出参数信息包括输出头数量，和/或，输出头类型，本发明实施例不做限定。

可选的，上述输出头类型包括一级动作输出，和/或，二级动作输出，和/或，价值评估输出，和/或，输出与模型关联关系，本发明实施例不做限定。

可选的，上述算法参数信息包括算法类型，和/或，算法数量，和/或，算法与模型关联关系，本发明实施例不做限定。

可见，实施本发明实施例所描述的分布式强化学习系统，有利于提升模型训练速度，缩短了训练时间，提高模型的稳定性。

作为一种可选的实施方式，如图2所示，服务端102，包括：

引擎通信模块1021，用于与客户端101通信，接收配置文件参数信息；

仿真模块1022，用于与引擎通信模块1021进行通信，根据配置文件参数信息中的仿真环境参数信息，确定出仿真环境集合；仿真环境集合包括若干个仿真环境；

神经网络引擎模块1023，用于与引擎通信模块1021进行通信，根据配置文件参数信息中的模型参数信息，确定出仿真模型集合；仿真模型集合包括若干个仿真模型；

分布式引擎模块1024，用于对仿真环境集合和仿真模型集合进行分布式进程生成，以生成多进程仿真模型；

强化学习算法模块1025，用于与引擎通信模块1021进行通信，利用算法参数信息对多进程仿真模型进行并行优化训练，构建深度强化学习模型。

可选的，上述引擎通信模块1021可以在不与python交互的情况下在服务端注册@tf.function，从而避免python全局解释器锁定。进一步的，上述引擎通信模块采用异步流式gRPC，可以实现高达一百万的每秒查询率，此外还支持可用于单机多处理的unix域套接字。通过@tf.function，可避免python全局解释器锁定，采用异步流式gRPC可解决数据传输效率的问题，从而解决了强化深度学习过程中大量数据传输困难的问题。

作为一种可选的实施方式，如图2所示，分布式引擎模块1024对仿真环境集合和仿真模型集合进行分布式进程生成，以生成多进程仿真模型，包括：

分布式引擎模块1024利用引擎通信模块1021与仿真模块进行通信，获取仿真环境集合；

分布式引擎模块1024根据仿真环境集合中仿真环境的数量启动进程，得到若干个仿真环境进程；仿真环境进程的数量与仿真环境的数量是相一致的；

分布式引擎模块1024依序将仿真环境集合中的仿真环境布置在仿真环境进程上，得到若干个目标仿真环境；

分布式引擎模块1024获取当前环境状态信息；

分布式引擎模块1024根据当前环境状态信息，利用引擎通信模块1021与神经网络引擎模块1023进行通信，获取仿真模型集合；

分布式引擎模块1024根据仿真模型集合中仿真模型的数量启动进程，得到若干个仿真模型进程；仿真模型进程的数量与仿真模型的数量是相一致的；

分布式引擎模块1024依序将仿真模型集合中的仿真模型布置在仿真模型进程上，得到若干个目标仿真模型；

分布式引擎模块1024将所有目标仿真环境和所有目标仿真模型进行融合处理，得到多进程仿真模型。

可选的，上述目标仿真模型对应的前推布置在仿真模型进程，可避免传统深度强化学习中将前推动作的产生放在仿真环境的进程当中，消除了仿真环境和仿真模型之间大参数传输的必要，而仅需要通过gRPC服务传输状态信息和动作信息。

可选的，上述通过分布式引擎模块分布式部署多个仿真环境进程可实现对仿真环境的采样进行多进程并行采样。进一步的，上述通过分布式引擎模块分布式部署多个仿真模型进程可实现对仿真的多进程并行训练计算。采用分布式采样和计算，可成倍加速了型的训练速度，从而解决采样效率的问题的同时，也可以明显加强模型的训练效果。

进一步的，将仿真模型的训练放在仿真模型进程，使得目标仿真环境和目标仿真模型在模型训练过程中只需进行状态信息和动作信息的交互，可降低95％的带宽需求。

可选的，上述当前环境状态信息包括仿真环境布置状态信息和仿真模型生成状态信息。进一步的，上述仿真环境布置状态信息表征仿真环境是否在仿真环境进程中布置完毕。进一步的，上述仿真模型生成状态信息表征神经网络模型参数信息对应的仿真模型是否全部生成。

作为一种可选的实施方式，如图2所示，仿真模型包括神经网络模型和神经网络模型对应的目标输出模型集合；输出模型集合包括至少一个目标输出模型；

模型参数信息包括神经网络模型参数信息和输出参数信息；

神经网络引擎模块1023与引擎通信模块1021进行通信，根据配置文件参数信息中的模型参数信息，确定出仿真模型集合，包括：

神经网络引擎模块1023与引擎通信模块1021进行通信，获取配置文件参数信息中的模型参数信息；

神经网络引擎模块1023根据神经网络模型参数信息，确定出若干个神经网络模型；

对于任一神经网络模型，神经网络引擎模块1023从输出参数信息筛选出与该神经网络模型相匹配的数据信息，得到目标输出参数信息；

神经网络引擎模块1023根据目标输出参数信息，确定出该神经网络模型对应的目标输出模型集合；

神经网络引擎模块1023将该神经网络模型和该神经网络模型对应的目标输出模型集合进行融合处理，得到该神经网络模型对应的仿真模型。

可选的，上述对该神经网络模型和该神经网络模型对应的目标输出模型集合的融合是基于输出与模型关联关系进行的。

作为一种可选的实施方式，多进程仿真模型包括若干个目标仿真模型和若干个目标仿真环境；

强化学习算法模块1025与引擎通信模块1021进行通信，利用算法参数信息对多进程仿真模型进行并行优化训练，构建深度强化学习模型，包括：

强化学习算法模块1025与引擎通信模块1021进行通信，获取算法参数信息；

对于任一目标仿真模型，强化学习算法模块1025从训练经验池提取训练样本信息作为第一训练样本信息；

强化学习算法模块1025利用第一训练样本信息和算法参数信息对该目标仿真模型进行训练，得到备选训练模型；

强化学习算法模块1025基于备选训练模型和目标仿真环境，确定出训练结果信息；

强化学习算法模块1025判断训练结果信息是否满足终止训练条件，得到训练判断结果；

当训练判断结果为是时，强化学习算法模块1025确定备选训练模型为一个目标神经网络模型；

当训练判断结果为否时，强化学习算法模块1025利用备选训练模型对该目标仿真模型进行更新；

强化学习算法模块1025基于训练结果信息从训练经验池提取第二训练样本信息作为新的第一训练样本信息，并触发执行强化学习算法模块利用第一训练样本信息和算法参数信息对该目标仿真模型进行训练，得到备选训练模型；

强化学习算法模块1025判断所有目标仿真模型的训练进程是否终止，得到进程判断结果；

当进程判断结果为是时，强化学习算法模块1025将所有目标神经网络模型进行融合，得到深度强化学习模型。

可选的，上述终止训练条件包括训练迭代次数达到迭代阈值，和/或，模型收敛，本发明实施例不做限定。

可选的，上述训练结果信息包括损失函数收敛状态，和/或，奖励信息，本发明实施例不做限定。

可选的，上述奖励信息表征备选训练模型的训练效果评估情况。

可选的，上述训练经验池是预置的训练样本信息集合。每个目标仿真模型在模型训练时均从该训练经验池提取训练样本信息，但目标仿真模型从训练经验池提取的数据是不同的。

作为一种可选的实施方式，训练结果信息包括奖励信息；

强化学习算法模块1025基于训练结果信息从训练经验池提取第二训练样本信息作为新的第一训练样本信息，包括：

强化学习算法模块1025获取历史奖励信息；

强化学习算法模块1025从奖励信息和历史奖励信息筛选出奖励值最小的数据信息作为目标奖励信息；

强化学习算法模块1025从训练经验池选取出目标奖励信息对应的训练样本信息作为第一备选训练样本信息；

强化学习算法模块1025从训练经验池随机选取训练样本信息作为第二备选训练样本信息；

强化学习算法模块1025基于样本权重信息对第一备选训练样本信息和第二备选训练样本信息进行融合，得到第二训练样本信息；

强化学习算法模块1025将第二训练样本信息确定为新的第一训练样本信息。

可选的，上述通过奖励信息和历史奖励信息从训练经验池提取训练样本信息可提取到表现较差的训练样本信息，以强化模型的训练。

作为一种可选的实施方式，仿真环境进程与仿真模型进程是相互独立的。

可选的，仿真环境进程与仿真环境进程之间是彼此独立的。

可选的，仿真模型进程与仿真模型进程之间是彼此独立的。

作为一种可选的实施方式，客户端101响应用户的参数设置操作，得到配置文件参数信息，包括：

客户端101响应于用户在环境参数设置界面的设置操作，得到仿真环境参数信息；

客户端101响应于用户在模型库中的选择操作和模型参数设置界面的设置操作，得到模型参数信息；

客户端101响应于用户在算法库中的选择操作和模型关联设置界面的设置操作，得到算法参数信息。

可选的，上述模型库中包含若干个神经网络模型类型和神经网络模型架构。

可选的，上述算法库中包含若干个不同类型的强化学习算法。

可选的，上述模型参数设置界面用于设置模型参数与仿真模型之间的关联关系。

可选的，上述模型关联设置界面用于设置算法与仿真模型之间的关联关系。

实施例二

本发明实施例公开的一种计算机可读存储介质，该计算机可读存储介质为需要进行强化学习的设备且该计算机可读存储介质包括如实施例一的分布式强化学习系统。需要说明的是，针对分布式强化学习系统的详细描述，请参阅实施例一中相关内容的具体描述，本实施例不再赘述。

实施例三

本发明实施例公开的一种电子设备，该电子设备为需要进行强化学习的设备且该电子设备包括如实施例一的分布式强化学习系统。需要说明的是，针对分布式强化学习系统的详细描述，请参阅实施例一中相关内容的具体描述，本实施例不再赘述。

上述对本说明书特定实施例进行了描述，其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，附图中描绘的过程不一定必须按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、非易失性计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书实施例提供的装置、设备、非易失性计算机可读存储介质与方法是对应的，因此，装置、设备、非易失性计算机存储介质也具有与对应方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述对应装置、设备、非易失性计算机存储介质的有益技术效果。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field ProgrammableGateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera HardwareDescriptionLanguage)、Confluence、CUPL(Cornell University ProgrammingLanguage)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书实施例可提供为方法、系统、或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后应说明的是：本发明实施例公开的一种分布式强化学习系统所揭露的仅为本发明较佳实施例而已，仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各项实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims

1.一种分布式强化学习系统，其特征在于，所述系统包括：

2.根据权利要求1所述的分布式强化学习系统，其特征在于，所述服务端，包括：

3.根据权利要求2所述的分布式强化学习系统，其特征在于，所述分布式引擎模块对所述仿真环境集合和所述仿真模型集合进行分布式进程生成，以生成多进程仿真模型，包括：

所述分布式引擎模块获取当前环境状态信息；

4.根据权利要求2所述的分布式强化学习系统，其特征在于，所述仿真模型包括神经网络模型和所述神经网络模型对应的目标输出模型集合；所述输出模型集合包括至少一个目标输出模型；

5.根据权利要求4所述的分布式强化学习系统，其特征在于，所述多进程仿真模型包括若干个所述目标仿真模型和若干个所述目标仿真环境；

6.根据权利要求5所述的分布式强化学习系统，其特征在于，所述训练结果信息包括奖励信息；

所述强化学习算法模块获取历史奖励信息；

7.根据权利要求3所述的分布式强化学习系统，其特征在于，所述仿真环境进程与所述仿真模型进程是相互独立的。

8.根据权利要求1所述的分布式强化学习系统，其特征在于，所述客户端响应用户的参数设置操作，得到配置文件参数信息，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令被调用时，用于执行如权利要求1-8任一项所述的分布式强化学习系统。

10.一种电子设备，其特征在于，所述电子设备包括如权利要求1-8任一项所述的分布式强化学习系统。