CN116776751B

CN116776751B - 一种智能决策算法模型设计开发辅助系统

Info

Publication number: CN116776751B
Application number: CN202311060138.6A
Authority: CN
Inventors: 吕乃冰; 曹扬; 王华飞; 赵思聪; 贾思雨; 赵若帆; 邢顾严
Original assignee: Beijing Aerospace Chenxin Technology Co ltd
Current assignee: Beijing Aerospace Chenxin Technology Co ltd
Priority date: 2023-08-22
Filing date: 2023-08-22
Publication date: 2023-11-10
Anticipated expiration: 2043-08-22
Also published as: CN116776751A

Abstract

本申请提供了一种智能决策算法模型设计开发辅助系统，包括：仿真环境自组织构建模块，用于根据任务需求构建对应的仿真环境；决策过程模型辅助构建模块，用于根据仿真环境定义状态空间、动作空间和奖励函数，进行马尔可夫决策过程建模；智能体桥模块，用于控制仿真环境自组织构建模块、决策过程模型辅助构建模块和网络模型自适应构建模块之间的交互，并调用深度强化学习算法对网络模型进行训练；网络模型自适应构建模块，用于采用相应的神经网络构建复合异构网络模型，以根据状态信息生成决策动作；深度强化学习算法自适应优选模块，用于选择相应的深度强化学习算法对复合异构网络模型进行训练优化，从而实现智能决策算法模型全流程辅助设计开发。

Description

一种智能决策算法模型设计开发辅助系统

技术领域

本申请涉及决策模型构建技术领域，特别是涉及一种智能决策算法模型设计开发辅助系统。

背景技术

当前主流深度强化学习框架只提供开源的代码库，用户在已有仿真环境的情况下需要学习了解使用框架的结构，并按照代码库来对自己仿真环境代码进行更改，破坏代码高内聚性，同时框架的复杂性也给智能决策模型带来困难。为解决智能决策算法网络模型构建问题，通常需要用户自己设计并开发实现，于是针对不同的问题都需要设计开发不同的网络模型，导致开发周期长且难度大。

发明内容

本申请提供一种智能决策算法模型设计开发辅助系统，全流程辅助用户设计仿真训练环境、网络模型及优化算法，完成面向任务规划的智能决策模型开发，从而降低智能任务规划的研发门槛与时间成本，促进任务规划算法的快速构建优化。

本申请实施例提供一种智能决策算法模型设计开发辅助系统，上述系统包括：

智能体桥模块、分别与上述智能体桥模块连接的仿真环境自组织构建模块、决策过程模型辅助构建模块、网络模型自适应构建模块和深度强化学习算法自适应优选模块；

上述仿真环境自组织构建模块，用于根据任务需求构建对应的仿真环境，并与上述决策过程模型辅助构建模块进行交互；

上述决策过程模型辅助构建模块，用于根据上述仿真环境定义状态空间、动作空间和奖励函数，进行马尔可夫决策过程建模，得到决策过程模型，以将上述仿真环境的态势信息转换为智能体桥所需的状态信息，并将上述智能体桥输出的决策动作转换为上述仿真环境所需的推演策略；

上述智能体桥模块，用于控制上述仿真环境自组织构建模块、决策过程模型辅助构建模块和网络模型自适应构建模块之间的交互，并调用上述深度强化学习算法自适应优选模块对网络模型进行训练和更新；

上述网络模型自适应构建模块，用于根据上述智能体桥对上述仿真环境的分析结果，采用相应的神经网络构建复合异构网络模型，以根据上述状态信息生成决策动作；

上述深度强化学习算法自适应优选模块，用于根据上述智能体桥对上述决策过程模型的自适应检测结果，选择相应的深度强化学习算法对上述复合异构网络模型进行训练优化。

可选地，上述仿真环境自组织构建模块包括：

初始化子模块，用于根据任务需求构建对应的实体模型、规则模型和目标函数，并根据选择的上述深度强化学习算法进行初始化；

推演子模块，用于在上述规则模型的约束限制下，根据上述决策过程模型的推演策略控制上述实体模型进行仿真推演，并将推演后的态势信息传输给上述决策过程模型；

评估子模块，用于根据仿真推演的结果对每个上述目标函数进行评估，并进行综合评价。

可选地，上述仿真环境自组织构建模块还包括：

接口子模块，用于与外部业务系统连接，获取任务需求；上述任务需求包括：业务问题、业务场景、问题边界、预设规则、约束条件和优化目标；

上述初始化子模块具体用于：根据上述业务问题和业务场景构建实体模型，根据上述问题边界和预设规则构建上述规则模型，以及根据上述约束条件和优化目标构建约束函数和目标函数。

可选地，上述决策过程模型辅助构建模块包括：

初始化子模块，用于根据上述仿真环境定义状态空间、动作空间和奖励函数，进行马尔可夫决策过程建模，得到决策过程模型，并提取上述仿真环境的约束条件和优化目标进行初始化；

推演子模块，用于将上述智能体桥输出的决策动作转换为上述仿真环境所需的推演策略，并将上述仿真环境输出的态势信息转换为上述智能体桥所需的状态值和奖励值，以推动上述仿真环境进行推演；

计算子模块，用于计算推演过程中的约束惩罚和优化奖励，以对上述决策过程模型进行综合评价。

可选地，上述推演子模块还用于：利用掩码的方式对上述智能体桥输出的决策动作进行动作屏蔽，并转换为上述仿真环境所需的推演策略。

可选地，上述智能体桥模块包括：

交互控制子模块，用于控制上述仿真环境、决策过程模型和复合异构网络模型之间的交互，生成多模态的样本数据；

自动训推子模块，用于根据上述样本数据，调用选择的上述深度强化学习算法对上述复合异构网络模型进行训练和优化。

可选地，上述智能体桥模块还包括：

确定子模块，用于对上述决策过程模型进行自适应检测，确定上述仿真环境的变化类型；

模型调整子模块，用于根据上述仿真环境的变化类型，采用对应的模型进化/模型重组策略对上述复合异构网络模型进行调整。

可选地，上述网络模型自适应构建模块包括：

状态识别子模块，用于识别上述仿真环境的状态空间的类型；上述类型包括向量、图像和序列；

网络模型自适应构建子模块，用于根据上述仿真环境的状态空间的类型构建对应的神经网络模型，包括：对向量类型的状态空间构建全连接神经网络模型，对图像类型的状态空间构建卷积神经网络模型，对序列类型的状态空间构建循环神经网络模型；

拼接子模块，用于对构建的上述神经网络模型进行编码，并拼接得到上述复合异构网络模型。

可选地，上述网络模型自适应构建模块还包括：

决策子模块，用于通过上述智能体桥获取上述决策过程模型输出的当前仿真环境的状态和奖励，并在根据上述状态和奖励生成对应的决策动作后，通过上述智能体桥发送给上述决策过程模型；

更新子模块，用于将上述样本数据中的状态数据输入上述复合异构网络模型中进行动作决策，并根据决策结果和上述样本数据中的动作数据计算损失函数，以利用选择的上述深度强化学习算法对上述复合异构网络模型进行反向梯度更新，得到智能决策算法模型。

可选地，上述深度强化学习算法自适应优选模块包括：

动作识别子模块，用于识别上述仿真环境的动作空间的类型；上述类型包括离散动作空间、连续动作空间和混合动作空间；

选择子模块，用于根据上述仿真环境的动作空间的类型选择对应的深度强化学习算法，以对上述复合异构网络模型进行训练。

与现有技术相比，本申请包括以下优点：

引入决策过程模型概念，将对业务场景的马尔可夫决策过程建模从仿真环境中剥离开，单独进行状态、动作和奖励的设计开发，提高代码复用性，提高设计开发效率。

引入智能体桥作为整体系统的核心控制层，自动化辅助决策过程模型、网络模型和深度强化学习算法的设计和开发，降低对用户的专业化要求。

使用网络模型自适应构建技术对任务的状态空间进行识别，自适应构建相应的神经网络模型并快速组合得到复合异构网络模型，高效地辅助用户完成模型构建，快速提供决策模型支撑。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提出的一种智能决策算法模型设计开发辅助系统的结构示意图；

图2是本申请一实施例提出的一种智能决策算法模型设计开发辅助系统中仿真环境自组织构建模块的结构示意图；

图3是本申请一实施例提出的一种智能决策算法模型设计开发辅助系统中决策过程模型辅助构建模块的结构示意图；

图4是本申请一实施例提出的一种智能决策算法模型设计开发辅助系统中智能体桥模块的结构示意图；

图5是本申请一实施例提出的一种智能决策算法模型设计开发辅助系统中仿真环境与决策过程模型交互过程的结构示意图；

图6是本申请一实施例提出的一种智能决策算法模型设计开发辅助系统中网络模型自适应构建模块的结构示意图；

图7是本申请一实施例提出的一种智能决策算法模型设计开发辅助系统中深度强化学习算法自适应优选模块的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

当前主流深度强化学习框架只提供代码开源库，用户在使用时只能通过学习框架、代码编辑的方式进行智能决策算法模型的设计开发，对用户有着很高的研发门槛要求。同时使用这些深度强化学习框架，面对不同的任务规划问题都需要重新进行全流程的开发，代码复用性较差、开发效率较低。

鉴于此，本申请提出一种智能决策算法模型设计开发辅助系统，全流程辅助用户设计仿真训练环境、网络模型及优化算法，完成面向任务规划的智能决策模型开发，从而降低智能任务规划的研发门槛与时间成本，促进任务规划算法的快速构建优化。

具体的，请参照图1，图1是本申请一实施例提出的一种智能决策算法模型设计开发辅助系统的结构示意图。如图1所示，该系统包括：

智能体桥模块、分别与上述智能体桥模块连接的仿真环境自组织构建模块、决策过程模型辅助构建模块、网络模型自适应构建模块和深度强化学习算法自适应优选模块。

上述仿真环境自组织构建模块，用于根据任务需求构建对应的仿真环境，并与上述决策过程模型辅助构建模块进行交互。

在本实施例中，仿真环境自组织构建模块可以包括接口子模块。上述接口子模块用于与外部业务系统连接，获取任务需求。其中，任务需求包括：业务问题、业务场景、问题边界、预设规则、约束条件和优化目标等。

仿真环境是根据用户的实际业务场景构建，可以完整进行业务流程推演的模拟测试环境，其包括实体模型、规则模型、约束函数和仿真推演等部分。仿真环境可根据业务需求划分后的模型自动构建，根据具体问题和具体场景构建实体模型和推演模型，根据问题边界和推演规则构建规则模型，根据约束条件和优化目标构建约束函数和目标函数等。当业务场景或任务需求发生变化时，仿真环境可以根据制定的规范快速修改相应的实体模型和规则模型等。

示例性的，假设业务1是无人机航线规划问题，则首先根据该航线规划问题所处的实际环境数据，构建对应的虚拟仿真环境以及在仿真环境下的无人机实体模型。例如可以通过3D GIS（三维地理信息系统）技术采集当前实际环境中各建筑物的位置坐标、高度、形状等数据，然后基于这些环境数据，利用BIM（建筑信息模型）技术构建与之对应的仿真环境，并在该仿真环境中加入本次任务对应的无人机实体模型，完成仿真环境的初始构建。之后，确定本次任务的问题边界、预设规则、约束条件和优化目标。其中，问题边界指在仿真环境下执行任务时的一些默认限制，包括环境边界（无人机执行任务只在划定的区域内执行，而不会跑到外部的无关区域里去）、路程限制（无人机从设定的起点飞到终点，而不会跑到其它任务点去）、无人机储油量（进行航线规划时需考虑无人机的储油量，不能超过储油极限，以保证无人机的正常飞行）、无人机总数等。预设规则指在某些特定场景下需执行的规则，例如规定在无人机的油量只剩6升时，必须执行返航指令，以避免无人机掉落在外难以回收。约束条件包括：无人机飞行过程中不能到达某些特殊的地点，每次派出的无人机数量不得超过10架等。优化目标包括：在用时最短、耗油量最少的情况下完成任务。最后，根据这些问题边界、预设规则、约束条件和优化目标构建相应的规则模型、约束函数和目标函数等，并结合上述构建的仿真环境，实现任务需求到数学模型的转化。

进一步的，考虑到如果每次都临时根据当前实际任务环境进行构建，将延长开发周期，而且如果任务有一些变化，也得进行整体性的调整，导致系统灵活性较低。因此，可以通过专家经验调查，事先构建几种常见的业务场景，例如业务1为无人机航线规划问题，业务2为1V1棋盘博弈问题，业务3为多人团战问题，并针对每种业务场景构建一些相应的问题边界、预设规则、约束条件和优化目标等，后续搭建数学模型时就可以根据实际任务的需求类型进行选择，组合构建形成与之对应的仿真环境，从而在缩短开发周期的同时也提高了灵活性。

上述决策过程模型辅助构建模块，用于根据上述仿真环境定义状态空间、动作空间和奖励函数，进行马尔可夫决策过程建模，得到决策过程模型，以将上述仿真环境的态势信息转换为智能体桥所需的状态信息，并将上述智能体桥输出的决策动作转换为上述仿真环境所需的推演策略。

本实施例中，马尔可夫决策过程是指决策者周期性地或连续地观察具有马尔科夫性的随机动态系统，并序贯地作出决策，即根据每个时刻观察到的仿真环境及其中的实体模型的状态，从可用的行动集合中选用一个行动作出决策。仿真环境中的实体模型根据决策执行相应动作后，仿真环境发生改变，此时又根据观察到的新的状态作出新的决策，如此反复地进行。本申请中，决策者为下述的复合异构网络模型，通过复合异构网络模型进行动作预测。

本实施例中，仿真环境自组织构建模块将相关数据传输给决策过程模型辅助构建模块后，决策过程模型辅助构建模块从中提取出马尔可夫决策过程建模所需要的状态、动作、奖励和仿真环境中的约束，定义状态空间、动作空间和奖励函数，从而辅助智能体训练。定义状态空间包括进行状态空间类型和大小定义，类型包括连续数据类型和离散数据类型，大小包括维度及范围，其中维度类型包括一维向量、二维矩阵和三维矩阵。定义动作空间类型包括连续动作、离散动作和混合动作，连续动作定义范围，离散动作定义大小。

示例性的，在多人团战的业务场景中，定义状态空间包括：定义当前仿真环境的状态为温度a、风力强度b，仿真环境中人物实体的速度为v，飞行高度为h等，这些都属于连续型数据；定义仿真环境中人物实体的状态为静止站立a、蹲下b等，这些都属于离散型数据。定义动作空间包括：定义人物实体向前走为0，向后走为1，向左走为2，向右走为3，跳跃为4等等，这些为离散动作。定义奖励函数包括：人物实体到达某一特定位置奖励+1，击杀对方成员+5，被击杀-5，赢得团赛胜利+10等等。

而后，决策过程模型即可根据上述相关定义，将仿真环境当前的态势信息转换成相应的数据表达形式，输入到智能体桥中，并将智能体桥输出的决策动作转换为上述仿真环境所需的推演策略。

上述网络模型自适应构建模块，用于根据上述智能体桥对上述仿真环境的分析结果，采用相应的神经网络构建复合异构网络模型，以根据上述状态信息生成决策动作。

本实施例中，网络模型自适应构建模块包括：

状态识别子模块，用于识别上述仿真环境的状态空间的类型；上述类型包括向量、图像和序列；网络模型自适应构建子模块，用于根据上述仿真环境的状态空间的类型构建对应的神经网络模型，包括：对向量类型的状态空间构建全连接神经网络模型，对图像类型的状态空间构建卷积神经网络模型，对序列类型的状态空间构建循环神经网络模型；拼接子模块，用于对构建的上述神经网络模型进行编码，并拼接得到上述复合异构网络模型。

如图6所示，网络模型自适应构建模块接收到仿真环境的状态空间信息后，通过状态识别层自动识别该状态的类型与维度等信息，随后网络模型自适应构建层根据状态识别层的识别结果构造相应的神经网络模型。例如，对于向量类型的状态空间构建全连接神经网络模型（例如MLP）来处理；对于图像类型的状态空间选用卷积神经网络模型（例如CNN）来处理；对于序列类型的状态空间选用具有记忆功能的循环神经网络模型（例如RNN、GRU）来处理。同时，为各种神经网络模型提供了多个可调节参数，用户可以在参数的可调节范围内对部分参数进行修改，以满足对仿真环境的态势特征信息的提取及决策规划的要求。单一网络模型构建完成后，将每一个网络通过Encoder（编码器）进行连接，并拼接得到当前任务的复合异构求解网络模型，同时定义复合异构求解网络模型的参数，以根据状态信息生成相应的决策动作。从而通过使用网络模型自适应构建技术对任务的状态空间进行识别，自适应构建相应的神经网络模型并快速组合得到复合异构网络模型，以高效地辅助用户完成网络模型构建，为快速决策提供模型支撑。

可选地，上述网络模型自适应构建模块还包括：

决策子模块，用于通过上述智能体桥获取上述决策过程模型输出的当前仿真环境的状态和奖励，并在根据上述状态和奖励生成对应的决策动作后，通过上述智能体桥发送给上述决策过程模型；更新子模块，用于将上述样本数据中的状态数据输入上述复合异构网络模型中进行动作决策，并根据决策结果和上述样本数据中的动作数据计算损失函数，以利用选择的上述深度强化学习算法对上述复合异构网络模型进行反向梯度更新，得到智能决策算法模型。具体决策和训练过程详见下文。

上述智能体桥模块，用于控制上述仿真环境自组织构建模块、决策过程模型辅助构建模块和网络模型自适应构建模块之间的交互，并调用上述深度强化学习算法自适应优选模块对网络模型进行训练和更新。

本实施例中，智能体桥能够根据任务需求自动构建元智能体群，自动搭建深度强化学习算法并行计算架构，基于平台资源实现训练推理部署。智能体桥模块主要作为控制中心层，具有自动优化决策能力，同时连接各个模块，实现智能决策算法模型辅助设计开发。上述智能体桥模块包括：交互控制子模块，用于控制上述仿真环境、决策过程模型和复合异构网络模型之间的交互，生成多模态的样本数据；自动训推子模块，用于根据上述样本数据，调用选择的上述深度强化学习算法对上述复合异构网络模型进行训练和优化。

如图4所示，构建的智能体桥作为仿真环境、决策过程模型、网络模型和深度强化学习算法四层之间的桥梁纽带，一方面控制仿真环境、决策过程模型和网络模型之间的交互，生成可靠高效的多模态样本；另一方面调用优选推荐的或经用户修改的深度强化学习算法进行网络模型训练优化，直至训练完成。图4中，智能体桥在初始化时会在仿真环境的上层构建决策过程模型，将仿真环境包入决策过程模型中，并通过接口进行仿真环境态势信息的获取和决策控制。

仿真环境、决策过程模型和网络模型三者进行交互的过程中，决策过程模型主要起桥梁的作用，支持仿真环境与构建的复合异构网络模型进行交互，从而实现从状态到动作，从动作到状态和奖励的模型交互过程，同时利用生成的动作推动仿真环境进行推演。如图5所示，决策过程模型一方面将仿真环境当前的态势信息转换成智能体桥能够接收、识别的相应的数据表达形式，生成当前的状态信息和奖励信息输入到智能体桥中。智能体桥调用先前针对本次任务需求构建的复合异构网络模型，对当前的状态信息进行特征提取，并根据提取到的状态特征进行动作预测，将生成的决策动作输入到决策过程模型中，然后决策过程模型将决策动作转换为仿真环境所能接收的推演策略，控制仿真环境中的实体模型执行相应的动作，从而推动仿真环境进行推演，如此反复进行，即生成大量的多模态样本。其中，一个样本可以用向量表示，代表的含义是：从状态/>出发，通过执行动作到/>状态/>，得到的奖励是/>，依此类推，直到达到设定的任务优化目标。

通过仿真环境、决策过程模型和网络模型三者交互生成多模态样本后，调用选择的深度强化学习算法对该复合异构网络模型进行训练。将样本中的当前状态输入复合异构网络模型中进行动作预测，并将决策出的动作与样本中当前状态对应的动作进行对比，计算复合异构网络模型的损失函数，并根据损失函数对复合异构网络模型进行反向梯度更新，迭代复合异构网络模型中的模型参数，以优化复合异构网络模型。

可选地，上述智能体桥模块还包括：

确定子模块，用于对上述决策过程模型进行自适应检测，确定上述仿真环境的变化类型；模型调整子模块，用于根据上述仿真环境的变化类型，采用对应的模型进化/模型重组策略对上述复合异构网络模型进行调整。

本实施方式中，智能体桥通过对决策过程模型的自适应检测，判断问题场景的变化类型，从而采用不同的进化或重组策略，完成模型的进化更新，以自动完成新环境或新任务的自适应进化。示例性的，如果原来的任务是10架无人机的航线规划问题，需要求解在用时最短、耗油量最少的情况下完成任务的最优方案。现在检测到的环境变化情况是：整体的仿真环境没有变，但需求变成了20架无人机的航线规划任务。此时，可以通过决策过程模型输出的状态空间的大小和维度信息，对原来的复合异构网络模型的模型参数进行相应调整，以实现模型进化。而如果现在检测到的环境变化情况是：新增了某个目标，即任务目标变了。此时，由于原来的复合异构网络模型不一定能够从仿真环境的状态数据中提取出该任务目标所需的环境特征数据，所以需要根据新增的情况对模型进行重组。比如，原来的复合异构网络模型只能提取图像类型和序列类型的状态空间数据的特征，而现在新增的任务目标需要用到向量类型的状态空间数据，所以需要对原来的复合异构网络模型进行重组，在其中增加全连接神经网络，以满足对向量类型的状态空间数据进行特征提取的要求。

本实施例中，深度强化学习算法自适应优选模块包括：

动作识别子模块，用于识别上述仿真环境的动作空间的类型；上述类型包括离散动作空间、连续动作空间和混合动作空间；选择子模块，用于根据上述仿真环境的动作空间的类型选择对应的深度强化学习算法，以对上述复合异构网络模型进行训练。

由于智能体桥从决策过程模型中感知到的动作空间包含多种类型，如连续、离散、多重离散、多重连续、离散与连续的混合动作等，而不同的深度强化学习算法可以处理不同种类的动作空间任务。所以为尽可能满足不同决策规划任务的需要，本申请引入了深度强化学习算法自适应优选模块。

如图7所示，深度强化学习算法自适应优选模块由多个主流的Model-free（无模型）深度强化学习算法以及各种算法的可调节参数列表组成。为尽可能覆盖现实世界中要处理的多样化任务，深度强化学习算法自适应优选模块中包含多种深度强化学习算法，算法分类如图7所示。对于离散动作空间，可以利用基于值函数的深度强化学习算法进行模型训练，例如DQN算法、DDQN算法、D3QN算法、C51算法、QR-DQN算法等。对于混合动作空间，可以利用基于策略的深度强化学习算法进行模型训练，例如DDPG算法、TD3算法、SAC算法、PPO算法等。对于连续动作空间，可以将连续动作分解成多个离散动作，然后采用DQN类算法；也可以将连续动作当成离散动作执行概率，采用SAC算法；还可以将离散方法与连续方法结合，采用P-DQN算法、MP-DQN算法；另外，还可以利用专用于解决混合动作的方法，采用HybridPPO算法、HybridMPO算法。

深度强化学习算法自适应优选模块接收智能体桥传过来的决策过程模型的动作空间设计、奖励函数设计、任务复杂度及网络模型结构等信息进行自适应检测，从而在众多的性能卓越的深度强化学习算法中优选推荐出一个或多个深度强化学习算法。且该算法框架为各种深度强化学习算法提供了多个可调节参数，用户可以在参数的可调节范围内对部分参数进行修改。

请参照图2，上述仿真环境自组织构建模块包括：

初始化子模块，用于根据任务需求构建对应的实体模型、规则模型和目标函数，并根据选择的上述深度强化学习算法进行初始化；推演子模块，用于在上述规则模型的约束限制下，根据上述决策过程模型的推演策略控制上述实体模型进行仿真推演，并将推演后的态势信息传输给上述决策过程模型；评估子模块，用于根据仿真推演的结果对每个上述目标函数进行评估，并进行综合评价。

本实施例中，仿真环境自组织构建模块根据业务的解析结果，辅助用户构建仿真环境，根据相应规则将对应模块全流程驱动起来。针对不同深度强化学习算法的初始化逻辑不同，仿真环境将构建过程抽象为场景初始化、场景推演和场景评估三部分。其中场景推演和场景评估与算法无关，而场景初始化制定统一接口适配不同算法初始化逻辑。

场景初始化阶段主要实现业务问题场景的随机初始化，包括实体模型初始化、规则模型初始化和目标函数初始化三部分。初始化依据业务问题场景进行，实体模型初始化依据业务场景范围进行，规则模型初始化依据业务问题场景想定进行，目标函数初始化依据业务问题场景优化目标进行。场景推演阶段根据初始化过程所选的实体模型、规则模型，自动在推演过程进行规则约束限制、实体模型交互和环境态势的改变。场景评估阶段则根据初始化过程所选的目标函数自动进行目标函数的评估，例如，在无人机航线规划的问题场景下，可能有多个目标函数，比如既要耗油最少，又要用时最短。于是通过对每个目标函数进行评估，看是否达到各项要求，再结合多个目标函数的完成情况进行综合评价。

请参照图3，上述决策过程模型辅助构建模块包括：

初始化子模块，用于根据上述仿真环境定义状态空间、动作空间和奖励函数，进行马尔可夫决策过程建模，得到决策过程模型，并提取上述仿真环境的约束条件和优化目标进行初始化；推演子模块，用于将上述智能体桥输出的决策动作转换为上述仿真环境所需的推演策略，并将上述仿真环境输出的态势信息转换为上述智能体桥所需的状态值和奖励值，以推动上述仿真环境进行推演；计算子模块，用于计算推演过程中的约束惩罚和优化奖励，以对上述决策过程模型进行综合评价。

本实施例中，决策过程模型包括初始化、推演和计算三个阶段。初始化阶段主要进行状态空间定义、动作空间定义、约束条件初始化和优化目标初始化。其中，状态空间定义通过仿真环境中的实体模型情况进行，分别进行状态空间类型和大小定义，类型包括连续数据类型和离散数据类型，大小包括范围和维度，其中维度类型包括一维向量、二维矩阵和三维矩阵。动作空间定义通过仿真环境中参与决策实体模型的决策参数决定，动作空间类型包括连续动作、离散动作和混合动作，连续动作定义范围，离散动作定义大小。推演阶段进行动作选取、动作屏蔽、模型交互和环境推演。决策过程模型将动作从数值转换成仿真环境能够识别的动作输出，同时采用掩码的方式进行动作屏蔽。例如，在走出迷宫的任务中，定义动作空间为：向前走为0，向后走为1，向左走为2，向右走为3。当用户处于某些特殊位置时，比如前面有一堵墙，此时则需要对当前状态下用户向前走的这个动作进行屏蔽，即只输出1、2、3这三个动作状态给到智能体桥，然后智能体桥调用网络模型从这三个动作状态中进行动作决策。计算阶段主要是根据定义的约束函数和奖励函数，根据当前的状态反馈计算相应的约束惩罚和优化奖励，以对决策过程模型进行综合评价。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种智能决策算法模型设计开发辅助系统，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种智能决策算法模型设计开发辅助系统，其特征在于，包括：智能体桥模块、分别与所述智能体桥模块连接的仿真环境自组织构建模块、决策过程模型辅助构建模块、网络模型自适应构建模块和深度强化学习算法自适应优选模块；

所述仿真环境自组织构建模块，用于根据任务需求构建对应的仿真环境，并与所述决策过程模型辅助构建模块进行交互；

所述决策过程模型辅助构建模块，用于根据所述仿真环境定义状态空间、动作空间和奖励函数，进行马尔可夫决策过程建模，得到决策过程模型，以将所述仿真环境的态势信息转换为智能体桥所需的状态信息，并将所述智能体桥输出的决策动作转换为所述仿真环境所需的推演策略；

所述智能体桥模块，用于控制所述仿真环境自组织构建模块、决策过程模型辅助构建模块和网络模型自适应构建模块之间的交互，并调用所述深度强化学习算法自适应优选模块对网络模型进行训练和更新；

所述网络模型自适应构建模块，用于根据所述智能体桥对所述仿真环境的分析结果，采用相应的神经网络构建复合异构网络模型，以根据所述状态信息生成决策动作；

所述深度强化学习算法自适应优选模块，用于根据所述智能体桥对所述决策过程模型的自适应检测结果，选择相应的深度强化学习算法对所述复合异构网络模型进行训练优化。

2.根据权利要求1所述的一种智能决策算法模型设计开发辅助系统，其特征在于，所述仿真环境自组织构建模块包括：

初始化子模块，用于根据任务需求构建对应的实体模型、规则模型和目标函数，并根据选择的所述深度强化学习算法进行初始化；

推演子模块，用于在所述规则模型的约束限制下，根据所述决策过程模型的推演策略控制所述实体模型进行仿真推演，并将推演后的态势信息传输给所述决策过程模型；

评估子模块，用于根据仿真推演的结果对每个所述目标函数进行评估，并进行综合评价。

3.根据权利要求2所述的一种智能决策算法模型设计开发辅助系统，其特征在于，所述仿真环境自组织构建模块还包括：

接口子模块，用于与外部业务系统连接，获取任务需求；所述任务需求包括：业务问题、业务场景、问题边界、预设规则、约束条件和优化目标；

所述初始化子模块具体用于：根据所述业务问题和业务场景构建实体模型，根据所述问题边界和预设规则构建所述规则模型，以及根据所述约束条件和优化目标构建约束函数和目标函数。

4.根据权利要求1所述的一种智能决策算法模型设计开发辅助系统，其特征在于，所述决策过程模型辅助构建模块包括：

初始化子模块，用于根据所述仿真环境定义状态空间、动作空间和奖励函数，进行马尔可夫决策过程建模，得到决策过程模型，并提取所述仿真环境的约束条件和优化目标进行初始化；

推演子模块，用于将所述智能体桥输出的决策动作转换为所述仿真环境所需的推演策略，并将所述仿真环境输出的态势信息转换为所述智能体桥所需的状态值和奖励值，以推动所述仿真环境进行推演；

计算子模块，用于计算推演过程中的约束惩罚和优化奖励，以对所述决策过程模型进行综合评价。

5.根据权利要求4所述的一种智能决策算法模型设计开发辅助系统，其特征在于，所述推演子模块还用于：利用掩码的方式对所述智能体桥输出的决策动作进行动作屏蔽，并转换为所述仿真环境所需的推演策略。

6.根据权利要求1所述的一种智能决策算法模型设计开发辅助系统，其特征在于，所述智能体桥模块包括：

交互控制子模块，用于控制所述仿真环境、决策过程模型和复合异构网络模型之间的交互，生成多模态的样本数据；

自动训推子模块，用于根据所述样本数据，调用选择的所述深度强化学习算法对所述复合异构网络模型进行训练和优化。

7.根据权利要求6所述的一种智能决策算法模型设计开发辅助系统，其特征在于，所述智能体桥模块还包括：

确定子模块，用于对所述决策过程模型进行自适应检测，确定所述仿真环境的变化类型；

模型调整子模块，用于根据所述仿真环境的变化类型，采用对应的模型进化/模型重组策略对所述复合异构网络模型进行调整。

8.根据权利要求6所述的一种智能决策算法模型设计开发辅助系统，其特征在于，所述网络模型自适应构建模块包括：

状态识别子模块，用于识别所述仿真环境的状态空间的类型；所述类型包括向量、图像和序列；

网络模型自适应构建子模块，用于根据所述仿真环境的状态空间的类型构建对应的神经网络模型，包括：对向量类型的状态空间构建全连接神经网络模型，对图像类型的状态空间构建卷积神经网络模型，对序列类型的状态空间构建循环神经网络模型；

拼接子模块，用于对构建的所述神经网络模型进行编码，并拼接得到所述复合异构网络模型。

9.根据权利要求8所述的一种智能决策算法模型设计开发辅助系统，其特征在于，所述网络模型自适应构建模块还包括：

决策子模块，用于通过所述智能体桥获取所述决策过程模型输出的当前仿真环境的状态和奖励，并在根据所述状态和奖励生成对应的决策动作后，通过所述智能体桥发送给所述决策过程模型；

更新子模块，用于将所述样本数据中的状态数据输入所述复合异构网络模型中进行动作决策，并根据决策结果和所述样本数据中的动作数据计算损失函数，以利用选择的所述深度强化学习算法对所述复合异构网络模型进行反向梯度更新，得到智能决策算法模型。

10.根据权利要求1所述的一种智能决策算法模型设计开发辅助系统，其特征在于，所述深度强化学习算法自适应优选模块包括：

动作识别子模块，用于识别所述仿真环境的动作空间的类型；所述类型包括离散动作空间、连续动作空间和混合动作空间；

选择子模块，用于根据所述仿真环境的动作空间的类型选择对应的深度强化学习算法，以对所述复合异构网络模型进行训练。