CN112199154A - 一种基于分布式协同采样中心式优化的强化学习训练系统及方法 - Google Patents
一种基于分布式协同采样中心式优化的强化学习训练系统及方法 Download PDFInfo
- Publication number
- CN112199154A CN112199154A CN202011032658.2A CN202011032658A CN112199154A CN 112199154 A CN112199154 A CN 112199154A CN 202011032658 A CN202011032658 A CN 202011032658A CN 112199154 A CN112199154 A CN 112199154A
- Authority
- CN
- China
- Prior art keywords
- reinforcement learning
- track
- training
- model
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 67
- 230000002787 reinforcement Effects 0.000 title claims abstract description 62
- 238000005070 sampling Methods 0.000 title claims abstract description 43
- 238000005457 optimization Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000004088 simulation Methods 0.000 claims abstract description 39
- 230000003993 interaction Effects 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 9
- 230000009471 action Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000006872 improvement Effects 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/544—Buffers; Shared memory; Pipes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于分布式协同采样中心式优化的强化学习训练系统,包括强化学习算法模块、优先级队列缓存模块、远端奖励回溯模块、中心式优化模块、分布式机器,同时还提供了上述系统的训练方法,是通过对多组分布式采样机,采集仿真环境实例数据库中多组环境案例,进行与服务端之间的信息交互,输出对应环境案例的轨迹数据给客户端;再通过强化学习算法模块的进行配置强化学习算法模型、初始化参数该系统,还提供了上述系统的方法是通过分布式协同采样、C/S架构模式,结合奖励回溯技术,解决强化学习训练系统满足大规模强化学习训练问题,具备优秀的普适性,较高的采样效率。
Description
技术领域
本发明属于训练技术领域,特别涉及一种基于分布式协同采样中心式优化的强化学习训练系统及方法。
背景技术
强化学习是用于描述和解决智能体与环境交互过程中通过学习策略以达成回报最大化或实现特定目标的技术,其不要求预先给定任何数据,而是通过接受环境对动作的奖励(反馈)获得学习信息并更新模型参数。因此便决定了强化学习需要大量的“智能体-环境”交互的数据进行训练,此外,针对不同的问题规模,其训练所需的数据量与问题规模呈指数级增长。
现有的基础强化学习技术往往仅适用于单机采样与单机训练,其不能很好地满足大规模的训练需求。在现有的一些强化学习框架中(如OpenAI提出的baselines、DeepMind提出的Horizon平台等),往往“训练控制权”掌握在算法手中,该类框架需要使用仿真环境提供的控制接口,如果仿真环境没有提供相应的“重置环境”等控制接口,该类框架与仿真环境就无法结合,这极大地限制了强化学习框架的普适能力。
与此同时,强化学习往往会面临“延迟奖励的问题”,这是由仿真环境本身决定的,而强化学习算法需要根据仿真环境当前运行的效果给出即时奖励,这就促使一些学者研究如何通过算法来解决或者缓解“延迟奖励”问题,但效果往往不明显。
另外,现有的分布式强化学习系统往往在系统中心设置一个独一份的智能体实例,然后通过通信手段,然后将该实例与分布式计算机上的每一份环境进行交互,所有的交互数据传回给中心计算机的智能体实例,通过该实例进行动作的获取与训练。这样的分布式强化学习系统极大的受限于网络通信频率,往往不能最大限度地发挥出智能体训练过程中的计算机性能。
发明内容
为了解决上述技术难题,本发明提供了一种基于分布式协同采样中心式优化的强化学习训练系统,技术方案具体为:包括强化学习算法模块、优先级队列缓存模块、远端奖励回溯模块、中心式优化模块、分布式机器;
所述强化学习算法模块,用于集成存储的强化学习算法模型,通过自定义的算法接口进行调用和切换强化学习算法;
所述优先级队列缓存模块,通过轨迹优先级设置方式,进行队列中待处理的轨迹数据存储及排序;
所述远端奖励回溯模块,通过将优先级队列缓存模块输出的轨迹(S,a,r)中r进行修改处理,生成新的轨迹(S`,a`,r`),其中S和S`分别是轨迹、新的轨迹下的环境状态,即仿真环境中对当前状态的量化描述;a和a`分别是轨迹、新的轨迹下的智能体决策的动作,即对仿真环境中智能体的控制;r和r`分别是轨迹、新的轨迹下的即时奖励,其中奖励是一个标量,描述了对某种状态下采用某种动作的好坏程度;
所述分布式机器设置了多个分布式采样机和一个中心式训练服务器,在每一个分布式采样机器上均对应一份仿真环境;
所述中心式优化模块,通过采集分布式机器的轨迹数据和优先级队列缓存模块的轨迹数据,进行数据筛选,通过强化学习算法模块的强化学习算法模型训练。
作为改进,所述远端奖励回溯模块,具体的方法为,通过对S仿真环境的处理,按照由后到前的原则,对轨迹中的r进行回溯,修改为新的奖励值,修正轨迹,进行模型收敛处理。
同时,还提出了上述强化学习训练系统的训练方法,通过对多组分布式采样机,采集仿真环境实例数据库中多组环境案例,进行与服务端之间的信息交互,输出对应环境案例的轨迹数据给客户端;再通过强化学习算法模块的进行配置强化学习算法模型、初始化参数。
作为改进,与服务端之间进行信息交互时,具体的步骤为:
(1)分布式采样机在运行时,连接访问系统回环通信接口通过内部网络通信,进行仿真环境与内部采样服务器之间的数据交互;当仿真环境完整的运行一次之后,则内部采样服务器获取到了一条完整的轨迹,然后该轨迹将发送给远端的中心式训练服务器内存储;
(2)在系统运行过程中,每一个采样机在获取到完整的轨迹之后都会发送给中心式训练服务器,中心式训练服务器中包含了多种预定的强化学习算法,当其接收到的轨迹数量满足训练条件之后,便会将暂存的所有数据用于模型的训练。其中预定的强化学习算法是现有的成熟的学习算法,例如采用DQN、rainbow、PPO、SAC等算法,以能够本发明的技术方案的算法均属于本发明的保护范围。
作为改进,每一组分布式采样机与仿真环境实例数据库通讯连接,进行模型训练的具体步骤:
步骤1通过强化学习算法模块进行设置算法模型及相应的模型训练参数,并启动服务端、客户端和配置一组仿真环境实例;
步骤4客户端将本地模型model_id作为参数发送给服务端的模型参数服务;
步骤5服务端接收到获取最新模型model_id的请求,若模型已更新,则返回给客户端worker端最新的模型model_id和相应的模型参数;若模型未更新,则返回给客户端worker端最新的模型model_id;
步骤6客户端worker使用更新的模型参数与本地仿真环境进行交互,获取(S,a,r)轨迹数据;
步骤7当单次仿真的轨迹数据采集完毕,将整条轨迹数据发送给服务端;
步骤8服务端对该轨迹数据进行奖励回溯处理和优先级设置;
步骤9将处理好的轨迹数据存储进优先级缓存中;
步骤10当优先级缓存中的数据量达到可训练的程度时,服务端从该缓存中获取优先级较高的一部分数据进行模型训练;
步骤11在服务端更新最新的模型model_id以及相应的模型参数;
步骤12删除优先级缓存中的部分低优先级的轨迹数据;
步骤13直至算法收敛,结束客户端、结束服务learner端训练。
有益效果:本发明提供的基于分布式协同采样中心式优化的强化学习训练系统,具有以下的优点:(1)是通过分布式协同采样,可以使得整个强化学习训练系统满足大规模强化学习训练问题。(2)通过C/S架构模式,“控制权”掌握在环境本身,环境本身决定重置等控制,这使得本强化学习训练系统具备优秀的普适性。(3)通过奖励回溯技术可以很好的解决“延迟奖励”问题,极大地减小采样数据量并加速模型收敛。
在本发明的强化学习训练技术中,通过每一台分布式计算机本机上均部署有智能体实例,因此模型绝大部分的采样均在本机通过本机的网络端口,极大地提高了采样效率。只有再单次采样完成后才给远端的服务端learner发送轨迹数据,因此其网络带宽占用极小,不再受限于网络通信,可以极大限度地发挥出智能体训练过程中的计算机性能。
附图说明
图1为本发明系统模块结构示意图。
图2为本发明系统客户端的流程图。
图3为本发明系统服务端的流程图。
具体实施方式
下面对本发明附图结合实施例作出进一步说明。
一种基于分布式协同采样中心式优化的强化学习训练系统,包括强化学习算法模块、优先级队列缓存模块、远端奖励回溯模块、中心式优化模块、分布式机器;
所述强化学习算法模块,用于集成存储的强化学习算法模型,通过自定义的算法接口进行调用和切换强化学习算法;
所述优先级队列缓存模块,通过轨迹优先级设置方式,进行队列中待处理的轨迹数据存储及排序;这一模块包含有轨迹保存和轨迹优先级排序两个处理方式,可以设置在服务端,即learner端,对服务端worker端发送的轨迹数据进行预处理,并将这个数据保存在该队列中;该队列包含有轨迹优先级设置处理,队列能够自动根据所设置的优先级对该队列中的所有轨迹数据进行排序。
所述远端奖励回溯模块,通过将优先级队列缓存模块输出的轨迹(S,a,r)中r进行修改处理,生成新的轨迹(S`,a`,r`),其中S和S`分别是轨迹、新的轨迹下的环境状态,即仿真环境中对当前状态的量化描述;a和a`分别是轨迹、新的轨迹下的智能体决策的动作,即对仿真环境中智能体的控制;r和r`分别是轨迹、新的轨迹下的即时奖励,其中奖励是一个标量,描述了对某种状态下采用某种动作的好坏程度。。
同一个分布式机器上设置的算法模型都与服务端所设置的一致,这样可以保证数据的互通,从而满足服务端模型训练的需要。
所述中心式优化模块,通过采集分布式机器的轨迹数据和优先级队列缓存模块的轨迹数据,进行数据筛选,通过强化学习算法模块的强化学习算法模型训练。
所述远端奖励回溯模块,具体的方法为,通过对S仿真环境的处理,按照由后到前的原则,对轨迹中的r进行回溯,修改为新的奖励值,修正轨迹,进行模型收敛处理。
作为本发明的具体实施方式,基于分布式协同采样中心式优化的强化学习训练系统的训练方法,是通过对多组分布式采样机,采集仿真环境实例数据库中多组环境案例,进行与服务端之间的信息交互,输出对应环境案例的轨迹数据给客户端;再通过强化学习算法模块的进行配置强化学习算法模型、初始化参数。
与服务端之间进行信息交互时,具体的步骤为:
(1)分布式采样机在运行时,连接访问系统回环通信接口通过内部网络通信,进行仿真环境与内部采样服务器之间的数据交互;当仿真环境完整的运行一次之后,则内部采样服务器获取到了一条完整的轨迹,然后该轨迹将发送给远端的中心式训练服务器内存储;
(2)在系统运行过程中,每一个采样机在获取到完整的轨迹之后都会发送给中心式训练服务器,中心式训练服务器中包含了多种预定的强化学习算法,当其接收到的轨迹数量满足训练条件之后,便会将暂存的所有数据用于模型的训练。
所述分布式机器设置了多个分布式采样机和一个中心式训练服务器,在每一个分布式采样机器上均对应一份仿真环境。
每一组分布式采样机与仿真环境实例数据库通讯连接,进行模型训练的具体步骤:
步骤1通过强化学习算法模块进行设置算法模型及相应的模型训练参数,并启动服务端、客户端和配置一组仿真环境实例;
步骤4客户端将本地模型model_id作为参数发送给服务端的模型参数服务;
步骤5服务端接收到获取最新模型model_id的请求,若模型已更新,则返回给客户端worker端最新的模型model_id和相应的模型参数;若模型未更新,则返回给客户端worker端最新的模型model_id;
步骤6客户端worker使用更新的模型参数与本地仿真环境进行交互,获取(S,a,r)轨迹数据;
步骤7当单次仿真的轨迹数据采集完毕,将整条轨迹数据发送给服务端;
步骤8服务端对该轨迹数据进行奖励回溯处理和优先级设置;
步骤9将处理好的轨迹数据存储进优先级缓存中;
步骤10当优先级缓存中的数据量达到可训练的程度时,服务端从该缓存中获取优先级较高的一部分数据进行模型训练;
步骤11在服务端更新最新的模型model_id以及相应的模型参数;
步骤12删除优先级缓存中的部分低优先级的轨迹数据;
步骤13直至算法收敛,结束客户端、结束服务learner端训练。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (5)
1.一种基于分布式协同采样中心式优化的强化学习训练系统,其特征在于:包括强化学习算法模块、优先级队列缓存模块、远端奖励回溯模块、中心式优化模块、分布式机器;
所述强化学习算法模块,用于集成存储的强化学习算法模型,通过自定义的算法接口进行调用和切换强化学习算法;
所述优先级队列缓存模块,通过轨迹优先级设置方式,进行队列中待处理的轨迹数据存储及排序;
所述远端奖励回溯模块,通过将优先级队列缓存模块输出的轨迹(S,a,r)中r进行修改处理,生成新的轨迹(S`,a`,r`),其中S和S`分别是轨迹、新的轨迹下的环境状态,即仿真环境中对当前状态的量化描述;a和a`分别是轨迹、新的轨迹下的智能体决策的动作,即对仿真环境中智能体的控制;r和r`分别是轨迹、新的轨迹下的即时奖励,其中奖励是一个标量,描述了对某种状态下采用某种动作的好坏程度;
所述分布式机器设置了多个分布式采样机和一个中心式训练服务器,在每一个分布式采样机器上均对应一份仿真环境;
所述中心式优化模块,通过采集分布式机器的轨迹数据和优先级队列缓存模块的轨迹数据,进行数据筛选,通过强化学习算法模块的强化学习算法模型训练。
2.根据权利要求1所述基于分布式协同采样中心式优化的强化学习训练系统,其特征在于:所述远端奖励回溯模块中具体的方法为,通过对S仿真环境的处理,按照由后到前的原则,对轨迹中的r进行回溯,修改为新的奖励值,修正轨迹,进行模型收敛处理。
3.一种根据权利要求1或2基于分布式协同采样中心式优化的强化学习训练系统的训练方法,其特征在于:通过对多组分布式采样机,采集仿真环境实例数据库中多组环境案例,进行与服务端之间的信息交互,输出对应环境案例的轨迹数据给客户端;再通过强化学习算法模块的进行配置强化学习算法模型、初始化参数。
4.根据权利要求3所述强化学习训练系统的训练方法,其特征在于:与服务端之间进行信息交互时,具体的步骤为:
(1)分布式采样机在运行时,连接访问系统回环通信接口通过内部网络通信,进行仿真环境与内部采样服务器之间的数据交互;当仿真环境完整的运行一次之后,则内部采样服务器获取到了一条完整的轨迹,然后该轨迹将发送给远端的中心式训练服务器内存储;
(2)在系统运行过程中,每一个采样机在获取到完整的轨迹之后都会发送给中心式训练服务器,中心式训练服务器中包含了多种预定的强化学习算法,当其接收到的轨迹数量满足训练条件之后,便会将暂存的所有数据用于模型的训练。
5.根据权利要求3所述的训练方法,其特征在于:每一组分布式采样机与仿真环境实例数据库通讯连接,进行模型训练的具体步骤:
步骤1通过强化学习算法模块进行设置算法模型及相应的模型训练参数,并启动服务端、客户端和配置一组仿真环境实例;
步骤4客户端将本地模型model_id作为参数发送给服务端的模型参数服务;
步骤5服务端接收到获取最新model_id的请求,若模型已更新,则返回给客户端worker端最新的模型model_id和相应的模型参数;若模型未更新,则返回给客户端worker端最新的模型model_id;
步骤6客户端worker使用更新的模型参数与本地仿真环境进行交互,获取(S,a,r)轨迹数据;
步骤7当单次仿真的轨迹数据采集完毕,将整条轨迹数据发送给服务端;
步骤8服务端对该轨迹数据进行奖励回溯处理和优先级设置;
步骤9将处理好的轨迹数据存储进优先级缓存中;
步骤10当优先级缓存中的数据量达到可训练的程度时,服务端从该缓存中获取优先级较高的一部分数据进行模型训练;
步骤11在服务端更新最新的模型model_id以及相应的模型参数;
步骤12删除优先级缓存中的部分低优先级的轨迹数据;
步骤13直至算法收敛,结束客户端、结束服务learner端训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011032658.2A CN112199154B (zh) | 2020-09-27 | 2020-09-27 | 一种基于分布式协同采样中心式优化的强化学习训练系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011032658.2A CN112199154B (zh) | 2020-09-27 | 2020-09-27 | 一种基于分布式协同采样中心式优化的强化学习训练系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112199154A true CN112199154A (zh) | 2021-01-08 |
CN112199154B CN112199154B (zh) | 2024-06-11 |
Family
ID=74008404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011032658.2A Active CN112199154B (zh) | 2020-09-27 | 2020-09-27 | 一种基于分布式协同采样中心式优化的强化学习训练系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112199154B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112766508A (zh) * | 2021-04-12 | 2021-05-07 | 北京一流科技有限公司 | 分布式数据处理系统及其方法 |
CN113126498A (zh) * | 2021-04-17 | 2021-07-16 | 西北工业大学 | 基于分布式强化学习的优化控制系统和控制方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018236674A1 (en) * | 2017-06-23 | 2018-12-27 | Bonsai Al, Inc. | HIERARCHICAL DECOMPOSITION DEEPENING REINFORCEMENT LEARNING FOR A MODEL OF ARTIFICIAL INTELLIGENCE |
CN110958680A (zh) * | 2019-12-09 | 2020-04-03 | 长江师范学院 | 面向能量效率的无人机群多智能体深度强化学习优化方法 |
-
2020
- 2020-09-27 CN CN202011032658.2A patent/CN112199154B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018236674A1 (en) * | 2017-06-23 | 2018-12-27 | Bonsai Al, Inc. | HIERARCHICAL DECOMPOSITION DEEPENING REINFORCEMENT LEARNING FOR A MODEL OF ARTIFICIAL INTELLIGENCE |
CN110958680A (zh) * | 2019-12-09 | 2020-04-03 | 长江师范学院 | 面向能量效率的无人机群多智能体深度强化学习优化方法 |
Non-Patent Citations (4)
Title |
---|
CHINLING CHEN: "Neurofeedback Based Attention Training for Children with ADHD", 2017 IEEE 8TH INTERNATIONAL CONFERENCE ON AWARENESS SCIENCE AND TECHNOLOGY (ICAST 2017), 31 December 2017 (2017-12-31), pages 93 - 97 * |
余涛;胡细兵;刘靖;: "基于多步回溯Q(λ)学习算法的多目标最优潮流计算", 华南理工大学学报(自然科学版), no. 10, 15 October 2010 (2010-10-15) * |
孙长银;穆朝絮;: "多智能体深度强化学习的若干关键科学问题", 自动化学报, no. 07, 15 July 2020 (2020-07-15) * |
沈雪 等: "基于奖励机制的S A T求解器分支策略", 计算机科学, 31 July 2020 (2020-07-31), pages 42 - 46 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112766508A (zh) * | 2021-04-12 | 2021-05-07 | 北京一流科技有限公司 | 分布式数据处理系统及其方法 |
CN112766508B (zh) * | 2021-04-12 | 2022-04-08 | 北京一流科技有限公司 | 分布式数据处理系统及其方法 |
CN113126498A (zh) * | 2021-04-17 | 2021-07-16 | 西北工业大学 | 基于分布式强化学习的优化控制系统和控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112199154B (zh) | 2024-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220391771A1 (en) | Method, apparatus, and computer device and storage medium for distributed training of machine learning model | |
Zhang et al. | A multi-agent reinforcement learning approach for efficient client selection in federated learning | |
CN111030861B (zh) | 一种边缘计算分布式模型训练方法、终端和网络侧设备 | |
CN106951926A (zh) | 一种混合架构的深度学习系统方法及装置 | |
CN115408151A (zh) | 一种联邦学习训练加速方法 | |
CN109990790A (zh) | 一种无人机路径规划方法及装置 | |
CN108009642A (zh) | 分布式机器学习方法和系统 | |
CN108306804A (zh) | 一种Ethercat主站控制器及其通信方法和系统 | |
CN111726421B (zh) | 一种实现网络靶场与工控设备互联的方法与装置 | |
CN107911251B (zh) | 一种网络设备配置方法、装置和介质 | |
CN114650227B (zh) | 一种分层联邦学习场景下的网络拓扑构建方法及系统 | |
CN112199154A (zh) | 一种基于分布式协同采样中心式优化的强化学习训练系统及方法 | |
CN110362380A (zh) | 一种面向网络靶场的多目标优化虚拟机部署方法 | |
CN110991871A (zh) | 风险监测方法、装置、设备与计算机可读存储介质 | |
CN110413595A (zh) | 一种应用于分布式数据库的数据迁移方法和相关装置 | |
CN107209746A (zh) | 模型参数融合方法及装置 | |
CN113312177B (zh) | 一种基于联邦学习的无线边缘计算系统、优化方法 | |
CN113778871A (zh) | Mock测试方法、装置、设备及存储介质 | |
CN110533106A (zh) | 图像分类处理方法、装置及存储介质 | |
CN115064020A (zh) | 基于数字孪生技术的智慧教学方法、系统及存储介质 | |
CN115906999A (zh) | 基于Kubernetes集群的大规模强化学习训练任务的管理平台 | |
CN115618532A (zh) | 一种网络系统仿真方法及相关装置 | |
CN117278661A (zh) | 一种工业物联网多协议解析方法及系统 | |
CN110175171B (zh) | 一种it设备智能推荐上架位置的系统 | |
CN115688495B (zh) | 分布式lvc仿真体系协同筹划方法、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |