CN116579231A

CN116579231A - 一种基于强化学习的环境建模方法

Info

Publication number: CN116579231A
Application number: CN202310366576.9A
Authority: CN
Inventors: 蒋新成; 高阳; 霍静; 李文斌; 杨光; 解宇; 韩东
Original assignee: Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd; Nanjing Research Institute Of Nanjing University
Current assignee: Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd; Nanjing Research Institute Of Nanjing University
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-08-11

Abstract

本发明公开了一种基于强化学习的环境建模方法，旨在通过Model‑basedRL技术，将仿真环境进行建模并存储，旨在降低多智能体强化学习任务中的学习复杂度，进而提升后续多智能体强化学习算法高效求解模块的效率。包括仿真场景选择功能，仿真环境建模功能，环境模型存储功能。仿真场景选择功能包括应急管理、金融期货、交通控制仿真场景选择接入；仿真环境建模功能基于两种模式，即人工辅助模式或智能模式来针对不同的情况对仿真环境建模；环境模型存储功能将上述建模完毕的模型存储到相应的位置以供后续调用，以提升多智能体强化学习算法的学习效率。

Description

一种基于强化学习的环境建模方法

技术领域

本发明涉及深度强化学习技术领域，提出了一种基于强化学习的环境建模方法。

背景技术

目前，强化学习技术在游戏、围棋等任务中得到了广泛应用，并在一些复杂场景下取得了优于人类的效果。研究人员试图将强化学习技术推广到更多的应用场景下。将重点放在多步决策问题，传统的识别、预测任务假设过去收集的训练数据和未来在应用场景下测试的数据符合相同的分布。

然而，在多步决策强化学习问题中，在每一步做出决策时，智能系统将面临的未来的状态是不一样的。强化学习需要收集一些数据(即探索)，训练智能体做出较好的决策，而此时收集的数据可能与过去的数据存在一定的差异。为此，需要在决策环境中更好地进行试错和探索，从而找到更好的策略。

强化学习算法需要对环境进行探索，通过试错得到好的策略。然而，在真实场景下，有时试错的成本会非常高，带来严重的后果。例如，在尝试控制锅炉时，可能会引发爆炸。此外，时下兴起的深度强化学习技术需要进行数百万次的试错，计算量十分巨大。研究人员期望尽量降低试错成本和次数的条件下，得到较好的决策。

对于通用性的场景，环境建模首先从数据中将环境还原出来，构建类似于模拟仿真的环境，进而在这个环境中学习如何做出决策。对于具体的应用场景而言，可以针对性地设计仿真环境，然后在环境中进行训练和验证。环境建模避免了强化学习在真实场景下与环境的交互，降低了成本，有效提高了多智能体强化学习任务的学习效率。

发明内容

本发明提供了一种基于强化学习的环境建模方法，旨在通过强化学习技术，环境建模算法，将目标任务通过人工辅助模式或智能模式进行建模存储，以降低后续多智能体强化学习任务的学习复杂度，进而提升多智能体强化学习算法高效求解模块的效率。本发明提出的技术方案如下：

一种新的强化学习环境建模方法，所述方法包括如下步骤：

步骤1，仿真场景选择功能，根据目标任务的类型选择仿真环境，包括应急管理、金融期货和交通控制；

步骤2，仿真环境建模功能，根据所述目标任务的类型判断是否存在专家先验认知，将所述目标任务划分到人工辅助模式或智能模式进行处理，经过处理最后均得到环境文件或环境模型产出；

步骤3，环境模型存储功能，环境模型存储库存储所有产出的环境模型文件，并有选择的供后续多智能体强化学习任务调用学习，以提升多智能体强化学习算法的高效学习。

优选的是，所述步骤1中仿真环境的选择具体为：

S1.1预设置的应急管理环境，包括无人机设备在紧急事件发生前的预警，发生后的应急处理；

S1.2预设置的金融期货环境，包括金融市场环境建模，资产配置环境建模，设计期货合约的多空交易；

S1.3预设置的交通控制环境，包括路口交通灯信号控制环境建模，对车辆行驶轨迹优化，设计不同环境下的智能交通决策。

优选的是，所述步骤2中划分不同模式的具体步骤为：

S2.1判断所述目标任务的类型是否存在专家先验认知；

S2.2若存在专家先验认知，则通过人工辅助模式进行环境建模，人为构建多智能体目标任务，通过课程学习创建难度逐渐增加的源任务环境文件；

S2.3若目标任务不存在专家先验认知，则通过智能模式进行环境建模，借助仿真环境建模模块内置算法库来隐式约简多智能体目标任务或是学习环境模型。

优选的是，所述步骤3具体为：

S3.1环境模型存储库存储了包括人工辅助模式中的可执行的任务文件，智能模式中的交互检测模型学习模块与环境动力学模型学习模块；

S3.2环境模型存储库中的模型文件将被后续多智能体强化学习任务调用，提升多智能体强化学习算法的高效学习。

优选的是，所述步骤2中人工辅助模式下的执行步骤为：

S2.1.1用户根据环境父类文件编写源任务环境文件，通过仿真环境可行性验证功能确定环境文件的可行性；

S2.1.2若可行，则在仿真环境生成页面上传到系统中；

S2.1.3若不可行，则需要重新修改并再次提交验证。

优选的是，所述步骤2中人工辅助模式下创建源任务环境文件的步骤如下：

S2.2.1根据需求定义源任务；

S2.2.2设计任务集合，所述任务集合为若干与所述源任务相似但难度递增的任务；

S2.2.3使用基于仿真的方法来生成模拟数据，需要记录所述每个任务的难度级别和参数；

S2.2.4构建所述每个任务的环境文件，需要根据所述每个任务的难度级别逐步调整任务参数来逐步增加难度。

优选的是，所述步骤2中智能模式下的执行步骤为：

S2.3.1调用仿真环境建模模块的算法库开展学习，用户选择是否进行信息交互检测；

S2.3.2选择是，进入交互检测模型学习模块，模块内置算法将与目标任务场景交互适当回合数，开展多智能体间博弈结构学习；学习完成后，该模型自动保存到系统中；

S2.3.3选择否，进入环境动力学模型学习模块，模块内置算法将与目标任务场景交互适当回合数，开展环境智能模型学习；学习完成后，该模型自动保存到系统中。

本发明的有益效果为：相较于传统的环境建模方法，本发明的优势在于其：1)灵活性高，可以针对具体的任务场景和需求设计和构建相应的环境，具有较高的灵活性；2)可控性强，可以控制环境中各种因素的影响，例如环境中的障碍物、初始状态等，从而更好地控制任务的复杂度和难度；3)效率高，可以提高算法的学习效率。由于算法在模型上的训练比在真实环境中的学习更加高效，因此通过模型学习可以提高算法的训练效率，减少在真实环境中的试错成本；4)可重复性好，可以生成相应的仿真环境，这样在不同的机器和时间下都可以对同样的任务和算法进行验证和比较，提高了实验的可重复性；5)安全性高，可以避免在真实环境中可能出现的安全问题，例如在自动驾驶领域，可以在仿真环境中进行测试和验证，避免因试错带来的安全风险。

附图说明

图1为本发明的人工辅助模块设计示意图。

图2为本发明的交互检测学习模块设计示意图。

图3为本发明的环境模型学习模块设计示意图。

图4为本发明的系统整体功能设计示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性拉动前提下所获得的所有其他实施例，都属于本发明保护的范围。下面结合附图对本发明做详细描述。

本发明公开了一种新的基于强化学习的环境建模方法，包括仿真场景选择功能、仿真环境建模功能和环境模型存储功能。在本实施例中，具体操作步骤如下：

步骤1，仿真场景选择功能，根据目标任务类型选择仿真环境，包括应急管理、金融期货和交通控制。其中，预设置的应急管理环境，包括无人机设备在紧急事件发生前的预警，发生后的应急处理；预设置的金融期货环境，包括金融市场环境建模，资产配置环境建模，设计期货合约的多空交易；预设置的交通控制环境，包括路口交通灯信号控制环境建模，对车辆行驶轨迹优化，设计不同环境下的智能交通决策。

步骤2，仿真环境建模功能，根据所述目标任务类型判断是否存在专家先验认知，判断标准如下：

(1)任务是否存在明确的规则或策略，如果有则很可能包含专家先验认知，例如，在下围棋的任务中，存在棋局评估函数和开局定式等专家先验知识。

(2)分析任务的状态空间和动作空间：如果任务的状态空间和动作空间相对较小且有明确的结构，则很可能存在专家先验认知。例如，在玩扑克牌的任务中，虽然状态空间非常大，但是存在各种各样的规则和策略，这些规则和策略可以帮助玩家做出正确的决策。

(3)观察任务中是否有专家提供的数据：如果任务存在专家提供的数据，例如标注的状态或动作序列，那么这些数据可能包含专家先验知识。例如，在图像分类任务中，如果有大量的标注数据可以用来训练模型，那么这些标注数据可能包含专家先验知识。

然后将任务划分到人工辅助模式或智能模式进行处理，经过处理最后均得到环境文件或环境模型产出；若目标任务存在专家先验认知，则通过人工辅助模式进行环境建模，人为构建多智能体目标任务，通过课程学习创建难度逐渐增加的源任务环境文件，构建方法如下：

(1)定义源任务：首先根据需求定义初始任务，所述初始任务可以是比较简单的任务，例如Gym中的CartPole游戏。

(2)设计任务集合：在定义了初始任务之后，可以根据需要设计一系列与初始任务相似但难度递增的任务。例如，可以调整CartPole游戏中的重力系数或摩擦系数，或增加其他物理参数的变化。

(3)生成模拟数据：在任务集合定义好后，使用基于仿真的方法来生成模拟数据需要记录每个任务的难度级别和任务参数。

(4)构建环境文件：根据任务集合仿真生成模拟数据，根据数据和任务参数，可以构建每个任务的环境文件。在构建环境文件时，需要根据每个任务的难度级别逐步调整任务参数，以达到逐步增加难度的目的。

若目标任务不存在专家先验认知，则通过智能模式进行环境建模，借助仿真环境建模模块内置算法库来隐式约简多智能体目标任务或是学习环境模型。仿真环境建模模块内置算法库，可调用其中算法学习环境模型，主要包括基于模型的强化学习算法(Model-Based Reinforcement Learning)，主要方法有动态规划、策略迭代和值迭代，主要算法有MBPO、MPC和Dyna-Q。

在进一步的实施例中，如图1所示，仿真环境建模功能人工辅助模块设计如下：

人工辅助模块为用户提供自主上传简易化环境文件的接口，用户可根据领域专家知识构建源任务，加速多智能体强化学习算法的学习，其中接口设计有输入端与输出端；输入端输入用户构建的环境.py文件或选定的仿真环境接口，输出端输出可执行的源任务文件、交互检测模型与环境智能模型。

本模块设置仿真环境建模、仿真环境可行性验证以及仿真环境生成三个功能页面。

(1)仿真环境建模页面展示系统方定义的环境父类InstanceEnv文件，用户在自定义源任务.py文件时需要继承该环境父类，以保证所制源任务文件符合系统要求，可以被系统中的多智能体强化学习算法调用；

(2)仿真环境可行性验证页面提供环境文件完整性检测功能，通过本模块内置的一智能算法与该环境交互，反馈给用户该环境文件的可行性；

(3)仿真环境生成页面提供正确环境文件的上传功能，用户选择经过仿真环境可行性验证的环境文件上传至系统，供后续模块调用。

模块具体操作流程包括：

A1用户根据仿真环境建模页面中的示例文件编写环境.py文件(相比目标任务难度降低)；

A2编写完成后，通过仿真环境可行性验证功能确定所编写文件能否正确运行；

A3环境文件确认无误后，通过仿真环境生成功能上传至系统中，供后续功能模块调用。

在进一步的实施例中，如图2所示，本发明仿真环境建模功能交互检测模型学习模块设计如下：

交互检测模型学习模块为用户提供检测智能体间博弈关系的接口，调用本模块算法库中的相关算法来学习智能体博弈结构，加速多智能体强化学习算法的学习。

本模块根据目标任务场景下单智能体最优策略与所学多智能体策略的差异确定每一智能体在不同状态处与其他智能体的交互强度，并训练输出一交互检测模型，并利用该交互检测模型指导后续多智能体强化学习算法的高效学习。

模块具体操作流程包括：

B1用户选定目标任务场景；

B2本模块内置算法将与目标任务场景交互适当回合数，开展多智能体间博弈结构学习；

B3回合结束后输出交互检测模型并默认存储到系统中，同时交互产生的数据以及算法模块也可供后续功能模块调用。

在进一步的实施例中，如图3所示，本发明仿真环境建模功能环境模型学习模块设计如下：

环境动力学模型学习模块为用户提供学习环境模型的接口，调用本模块算法库中的相关算法来构建环境智能模型，提升多智能体强化学习算法的学习效率。本模块旨在学习环境动力学模型。该环境智能模型相比原始环境更为简单精确，过滤掉原始环境中的噪声因素，更适合于多智能体强化学习算法的学习。

模块具体操作流程包括：

C1用户选定目标任务场景；

C2本模块内置算法将与目标任务场景交互适当回合数，开展环境智能模型学习；

C3回合结束后输出环境智能模型并默认存储到系统中，供后续多智能体强化学习任务调用。

步骤3，环境模型存储功能，环境模型存储库存储所有产出的环境模型文件，包括人工辅助模式中的可执行的任务文件，智能模式中的交互检测模型学习模块与环境动力学模型学习模块，并有选择的供后续多智能体强化学习任务调用学习，以提升多智能体强化学习算法的高效学习。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于强化学习的环境建模方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于强化学习的环境建模方法，其特征在于，所述步骤1中仿真环境的选择具体为：

3.根据权利要求1所述的一种基于强化学习的环境建模方法，其特征在于，所述步骤2中划分不同模式的具体步骤为：

S2.1判断所述目标任务的类型是否存在专家先验认知；

4.根据权利要求1所述的一种基于强化学习的环境建模方法，其特征在于，所述步骤3具体为：

5.根据权利要求3所述的一种基于强化学习的环境建模方法，其特征在于，所述步骤2中人工辅助模式下的执行步骤为：

S2.1.2若可行，则在仿真环境生成页面上传到系统中；

S2.1.3若不可行，则需要重新修改并再次提交验证。

6.根据权利要求5所述的一种基于强化学习的环境建模方法，其特征在于，所述步骤2中人工辅助模式下创建源任务环境文件的步骤如下：

S2.2.1根据需求定义源任务；

7.根据权利要求3所述的一种基于强化学习的环境建模方法，其特征在于，所述步骤2中智能模式下的执行步骤为：