CN112990437B

CN112990437B - 一种基于因果多输出的强化学习神经网络及其构建方法

Info

Publication number: CN112990437B
Application number: CN202110314236.2A
Authority: CN
Inventors: 陈晨; 洪锦寿; 祝贺
Original assignee: XIAMEN G-BITS NETWORK TECHNOLOGY CO LTD
Current assignee: XIAMEN G-BITS NETWORK TECHNOLOGY CO LTD
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2024-05-14
Anticipated expiration: 2041-03-24
Also published as: CN112990437A

Abstract

本发明涉及一种基于因果多输出的强化学习神经网络，其包括神经网络，该神经网络具有输入端和输出端，该输入端用于输入初始输入状态信息，输出端用于输出最终结果；所述神经网络内设有N套级联的AC模型，每一套AC模型具有输入端和输出端；两相邻的AC模型的输出端输出的结果之间存在因果关系。本发明采用了多套的AC模型，将具备因果关系的多输出模型，拆分为序列模型，把上一个AC模型的输出，与输入状态继续合并，作为下一个AC模型的输入。每套AC模型相互独立，各自关注自己需要处理的输出并向下一套AC模型进行传递，最终完成全局最优解，以此提高神经网络输出的准确率。

Description

一种基于因果多输出的强化学习神经网络及其构建方法

技术领域

本发明涉及强化学习技术领域，具体涉及一种基于因果多输出的强化学习神经网络及其构建方法。

背景技术

强化学习的中心思想，就是让AI在环境里学习。每个行动会对应各自的奖励，AI通过分析数据来学习，怎样的情况下应该做怎样的事情。目前，强化学习多采用Actor+Critic的形式（以下简称为AC模型），Actor负责输出行为，而Critic对Actor输出的行为打分，根据打分结果反向传播，指导Actor对输出进行优化。

而实际中遇到的问题，有可能不是单输出的问题，可能需要多输出，即让AI同时给出多种不同维度的行为。例如输入一个用户的年龄、性别等数据，分析出用户可能的职业、所在的行业等等。例如，如图1所示，在某个游戏状态下，需要AI输出一个指令，该指令中同时包括了下一步的“动作”和“对象”。而AI的神经网络在训练过程中，A、B这两个输出可能会被随机采样（为了训练过程中更好地探索最优解），从而导致A+B不符合预期的结果。例如，AI可以选择攻击和加血这两个动作，对方和自己这两个对象。预期AI输出“对对方攻击”、“对自己加血”这两种有效指令，然而强化学习的神经网络在训练时必须要有一定概率的随机采样，从而导致AI输出了“对自己攻击”、“对对方加血”这种错误指令。在做AI的Reward时，业内的做法是统一对这种错误指令扣分，实际情况A、B之中可能有一方正确，另一方是由于概率采样导致了指令不匹配，如果没有有效的方案将二者作出区分，AI的训练收敛将非常缓慢，甚至导致训练结果错误。

发明内容

针对现有技术存在的问题，本发明的目的在于提供一种基于因果多输出的强化学习神经网络，其能提高神经网络输出的准确率。

为实现上述目的，本发明采用的技术方案是：

一种基于因果多输出的强化学习神经网络，所述神经网络具有输入端和输出端，该输入端用于输入初始输入状态信息，输出端用于输出最终结果；

所述神经网络内设有N套级联的AC模型，每一套AC模型具有输入端和输出端；两相邻的AC模型的输出端输出的结果之间存在因果关系；

N套AC模型中，第一套AC模型的输入端连接神经网络的输入端，用于输入初始输入状态信息；第二套至第N套AC模型的输入端则连接前一套AC模型的输出端以及连接神经网络的输入端，用于输入前一套AC模型的输出结果和初始的输入状态信息；第二套至第N套AC模型根据前一套AC模型的输出结果和初始的输入状态信息进行处理，并输出结果；同时，N套AC模型的输出端均连接神经网络的输出端，以输出最终结果。

一种基于因果多输出的强化学习神经网络的构建方法，其包括

将具有因果关系的N套AC模型按照其输出结果之间的因果关系级联在一起，形成神经网络；

具体地，将N套AC模型的输入端连接在一起形成神经网络的输入端，用于输入初始的输入状态信息；

同时，对于第二套至第N套AC模型，将其输入端连接至上一套AC模型的输出端，两相邻的AC模型之间具有直接的因果关系，每一套AC模型结合初始的输入状态信息和上一套AC模型的输出结果进行分析处理，输出结果；

将N套AC模型的输出端连接在一起形成神经网络的输出端，该神经网络的输出端输出最终结果。

一种回合制战斗游戏的强化学习神经网络，所述神经网络包括第一AC模型和第二AC模型；

所述第一AC模型的输入端用于输入当前回合游戏战局的初始输入状态信息，输出端用于输出所操作角色的动作指令；

所述第二AC模型的输入端连接第一AC模型的输出端，该第二AC模型的输入端用于输入当前回合游戏的初始输入状态信息和第一AC模型输出的动作信息，并根据初始输入状态信息和动作信息记性分析处理，输出所操作角色的对象指令；

第一AC模型输出的动作和第二AC模型输出的对象作为神经网络的最终输出，即所操作觉得当前回合的动作和对象的完整指令。

采用上述方案后，本发明采用了多套的AC模型，将具备因果关系的多输出模型，拆分为序列模型，把上一个AC模型的输出，与输入状态继续合并，作为下一个AC模型的输入。每套AC模型相互独立，各自关注自己需要处理的输出并向下一套AC模型进行传递，最终完成全局最优解，以此提高神经网络输出的准确率。

此外，每套AC模型都是结合当前的输入状态，并基于前一套AC模型的输出进行新的输出评估，上一个AC模型的输出是发生在采样之后即发生随机采样后，当前的AC模型依旧能根据已经确定的信息在下一步决策中作出正确的输出。所以，即使前面输出模型的输出结果出现偏差，神经网络最终的输出是在出现偏差的基础上将损失降到最小。前面的AC模型出现输出结果出现偏差时，其Critic的打分的分值就比较低；而后续的AC模型能够做出正确的输出，其Critic的打分的分值就不会低，每套AC模型的打分相互独立，从而能够提高神经网络的收敛速度。

附图说明

图1为现有的多输出神经网络示意图；

图2为本发明的多输出神经网络示意图；

图3为本发明的具体实施例的神经网络示意图。

具体实施方式

如图2所示，本发明揭示了一种基于因果多输出的强化学习神经网络，该神经网络具有输入端和输出端，该输入端用于输入初始输入状态信息，输出端用于输出最终结果；

上述基于因果多输出的强化学习神经网络的构建方法，其包括

将具有因果关系的N套AC模型按照其输出结果之间的因果关系级联在一起，形成神经网络。

具体地，将N套AC模型的输入端连接在一起形成神经网络的输入端，用于输入初始的输入状态信息。同时，对于第二套至第N套AC模型，将其输入端连接至上一套AC模型的输出端，两相邻的AC模型之间具有直接的因果关系，每一套AC模型结合初始的输入状态信息和上一套AC模型的输出结果进行分析处理，输出结果。将N套AC模型的输出端连接在一起形成神经网络的输出端，该神经网络的输出端输出最终结果。

例如，如图3所示，回合制游戏中的动作和对象，神经网络模型包括第一AC模型和第二AC模型，第一AC模型根据初始的当前回合游戏的输入状态信息输出所操作角色的动作指令，第二AC模型结合第一AC模型输出的动作指令和当前回合游戏的初始输入状态信息，输出所操作角色的对象指令。神经网络结合第一AC模型输出的动作和第二AC模型输出的对象最为最终输出，即所操作觉得当前回合的动作和对象的完整指令。

综上，本发明采用了多套的AC模型，将具备因果关系的多输出模型，拆分为序列模型，把上一个AC模型的输出，与输入状态继续合并，作为下一个AC模型的输入。每套AC模型相互独立，各自关注自己需要处理的输出并向下一套AC模型进行传递，最终完成全局最优解，以此提高神经网络输出的准确率。

以上所述，仅是本发明实施例而已，并非对本发明的技术范围作任何限制，故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于因果多输出的强化学习神经网络，其特征在于：所述神经网络具有输入端和输出端，该输入端用于输入初始输入状态信息，输出端用于输出最终结果；

2.一种基于因果多输出的强化学习神经网络的构建方法，其特征在于：包括

3.一种回合制战斗游戏的强化学习神经网络，其特征在于：所述神经网络包括第一AC模型和第二AC模型；

第一AC模型输出的动作和第二AC模型输出的对象作为神经网络的最终输出，即所操作角色当前回合的动作和对象的完整指令。