CN112990437B - 一种基于因果多输出的强化学习神经网络及其构建方法 - Google Patents
一种基于因果多输出的强化学习神经网络及其构建方法 Download PDFInfo
- Publication number
- CN112990437B CN112990437B CN202110314236.2A CN202110314236A CN112990437B CN 112990437 B CN112990437 B CN 112990437B CN 202110314236 A CN202110314236 A CN 202110314236A CN 112990437 B CN112990437 B CN 112990437B
- Authority
- CN
- China
- Prior art keywords
- output
- models
- neural network
- model
- state information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 60
- 230000001364 causal effect Effects 0.000 title claims abstract description 27
- 238000010276 construction Methods 0.000 title claims description 6
- 230000002787 reinforcement Effects 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 3
- 239000008280 blood Substances 0.000 description 3
- 210000004369 blood Anatomy 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于因果多输出的强化学习神经网络,其包括神经网络,该神经网络具有输入端和输出端,该输入端用于输入初始输入状态信息,输出端用于输出最终结果;所述神经网络内设有N套级联的AC模型,每一套AC模型具有输入端和输出端;两相邻的AC模型的输出端输出的结果之间存在因果关系。本发明采用了多套的AC模型,将具备因果关系的多输出模型,拆分为序列模型,把上一个AC模型的输出,与输入状态继续合并,作为下一个AC模型的输入。每套AC模型相互独立,各自关注自己需要处理的输出并向下一套AC模型进行传递,最终完成全局最优解,以此提高神经网络输出的准确率。
Description
技术领域
本发明涉及强化学习技术领域,具体涉及一种基于因果多输出的强化学习神经网络及其构建方法。
背景技术
强化学习的中心思想,就是让AI在环境里学习。每个行动会对应各自的奖励,AI通过分析数据来学习,怎样的情况下应该做怎样的事情。目前,强化学习多采用Actor+Critic的形式(以下简称为AC模型),Actor负责输出行为,而Critic对Actor输出的行为打分,根据打分结果反向传播,指导Actor对输出进行优化。
而实际中遇到的问题,有可能不是单输出的问题,可能需要多输出,即让AI同时给出多种不同维度的行为。例如输入一个用户的年龄、性别等数据,分析出用户可能的职业、所在的行业等等。例如,如图1所示,在某个游戏状态下,需要AI输出一个指令,该指令中同时包括了下一步的“动作”和“对象”。而AI的神经网络在训练过程中,A、B这两个输出可能会被随机采样(为了训练过程中更好地探索最优解),从而导致A+B不符合预期的结果。例如,AI可以选择攻击和加血这两个动作,对方和自己这两个对象。预期AI输出“对对方攻击”、“对自己加血”这两种有效指令,然而强化学习的神经网络在训练时必须要有一定概率的随机采样,从而导致AI输出了“对自己攻击”、“对对方加血”这种错误指令。在做AI的Reward时,业内的做法是统一对这种错误指令扣分,实际情况A、B之中可能有一方正确,另一方是由于概率采样导致了指令不匹配,如果没有有效的方案将二者作出区分,AI的训练收敛将非常缓慢,甚至导致训练结果错误。
发明内容
针对现有技术存在的问题,本发明的目的在于提供一种基于因果多输出的强化学习神经网络,其能提高神经网络输出的准确率。
为实现上述目的,本发明采用的技术方案是:
一种基于因果多输出的强化学习神经网络,所述神经网络具有输入端和输出端,该输入端用于输入初始输入状态信息,输出端用于输出最终结果;
所述神经网络内设有N套级联的AC模型,每一套AC模型具有输入端和输出端;两相邻的AC模型的输出端输出的结果之间存在因果关系;
N套AC模型中,第一套AC模型的输入端连接神经网络的输入端,用于输入初始输入状态信息;第二套至第N套AC模型的输入端则连接前一套AC模型的输出端以及连接神经网络的输入端,用于输入前一套AC模型的输出结果和初始的输入状态信息;第二套至第N套AC模型根据前一套AC模型的输出结果和初始的输入状态信息进行处理,并输出结果;同时,N套AC模型的输出端均连接神经网络的输出端,以输出最终结果。
一种基于因果多输出的强化学习神经网络的构建方法,其包括
将具有因果关系的N套AC模型按照其输出结果之间的因果关系级联在一起,形成神经网络;
具体地,将N套AC模型的输入端连接在一起形成神经网络的输入端,用于输入初始的输入状态信息;
同时,对于第二套至第N套AC模型,将其输入端连接至上一套AC模型的输出端,两相邻的AC模型之间具有直接的因果关系,每一套AC模型结合初始的输入状态信息和上一套AC模型的输出结果进行分析处理,输出结果;
将N套AC模型的输出端连接在一起形成神经网络的输出端,该神经网络的输出端输出最终结果。
一种回合制战斗游戏的强化学习神经网络,所述神经网络包括第一AC模型和第二AC模型;
所述第一AC模型的输入端用于输入当前回合游戏战局的初始输入状态信息,输出端用于输出所操作角色的动作指令;
所述第二AC模型的输入端连接第一AC模型的输出端,该第二AC模型的输入端用于输入当前回合游戏的初始输入状态信息和第一AC模型输出的动作信息,并根据初始输入状态信息和动作信息记性分析处理,输出所操作角色的对象指令;
第一AC模型输出的动作和第二AC模型输出的对象作为神经网络的最终输出,即所操作觉得当前回合的动作和对象的完整指令。
采用上述方案后,本发明采用了多套的AC模型,将具备因果关系的多输出模型,拆分为序列模型,把上一个AC模型的输出,与输入状态继续合并,作为下一个AC模型的输入。每套AC模型相互独立,各自关注自己需要处理的输出并向下一套AC模型进行传递,最终完成全局最优解,以此提高神经网络输出的准确率。
此外,每套AC模型都是结合当前的输入状态,并基于前一套AC模型的输出进行新的输出评估,上一个AC模型的输出是发生在采样之后即发生随机采样后,当前的AC模型依旧能根据已经确定的信息在下一步决策中作出正确的输出。所以,即使前面输出模型的输出结果出现偏差,神经网络最终的输出是在出现偏差的基础上将损失降到最小。前面的AC模型出现输出结果出现偏差时,其Critic的打分的分值就比较低;而后续的AC模型能够做出正确的输出,其Critic的打分的分值就不会低,每套AC模型的打分相互独立,从而能够提高神经网络的收敛速度。
附图说明
图1为现有的多输出神经网络示意图;
图2为本发明的多输出神经网络示意图;
图3为本发明的具体实施例的神经网络示意图。
具体实施方式
如图2所示,本发明揭示了一种基于因果多输出的强化学习神经网络,该神经网络具有输入端和输出端,该输入端用于输入初始输入状态信息,输出端用于输出最终结果;
所述神经网络内设有N套级联的AC模型,每一套AC模型具有输入端和输出端;两相邻的AC模型的输出端输出的结果之间存在因果关系;
N套AC模型中,第一套AC模型的输入端连接神经网络的输入端,用于输入初始输入状态信息;第二套至第N套AC模型的输入端则连接前一套AC模型的输出端以及连接神经网络的输入端,用于输入前一套AC模型的输出结果和初始的输入状态信息;第二套至第N套AC模型根据前一套AC模型的输出结果和初始的输入状态信息进行处理,并输出结果;同时,N套AC模型的输出端均连接神经网络的输出端,以输出最终结果。
上述基于因果多输出的强化学习神经网络的构建方法,其包括
将具有因果关系的N套AC模型按照其输出结果之间的因果关系级联在一起,形成神经网络。
具体地,将N套AC模型的输入端连接在一起形成神经网络的输入端,用于输入初始的输入状态信息。同时,对于第二套至第N套AC模型,将其输入端连接至上一套AC模型的输出端,两相邻的AC模型之间具有直接的因果关系,每一套AC模型结合初始的输入状态信息和上一套AC模型的输出结果进行分析处理,输出结果。将N套AC模型的输出端连接在一起形成神经网络的输出端,该神经网络的输出端输出最终结果。
例如,如图3所示,回合制游戏中的动作和对象,神经网络模型包括第一AC模型和第二AC模型,第一AC模型根据初始的当前回合游戏的输入状态信息输出所操作角色的动作指令,第二AC模型结合第一AC模型输出的动作指令和当前回合游戏的初始输入状态信息,输出所操作角色的对象指令。神经网络结合第一AC模型输出的动作和第二AC模型输出的对象最为最终输出,即所操作觉得当前回合的动作和对象的完整指令。
综上,本发明采用了多套的AC模型,将具备因果关系的多输出模型,拆分为序列模型,把上一个AC模型的输出,与输入状态继续合并,作为下一个AC模型的输入。每套AC模型相互独立,各自关注自己需要处理的输出并向下一套AC模型进行传递,最终完成全局最优解,以此提高神经网络输出的准确率。
此外,每套AC模型都是结合当前的输入状态,并基于前一套AC模型的输出进行新的输出评估,上一个AC模型的输出是发生在采样之后即发生随机采样后,当前的AC模型依旧能根据已经确定的信息在下一步决策中作出正确的输出。所以,即使前面输出模型的输出结果出现偏差,神经网络最终的输出是在出现偏差的基础上将损失降到最小。前面的AC模型出现输出结果出现偏差时,其Critic的打分的分值就比较低;而后续的AC模型能够做出正确的输出,其Critic的打分的分值就不会低,每套AC模型的打分相互独立,从而能够提高神经网络的收敛速度。
以上所述,仅是本发明实施例而已,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (3)
1.一种基于因果多输出的强化学习神经网络,其特征在于:所述神经网络具有输入端和输出端,该输入端用于输入初始输入状态信息,输出端用于输出最终结果;
所述神经网络内设有N套级联的AC模型,每一套AC模型具有输入端和输出端;两相邻的AC模型的输出端输出的结果之间存在因果关系;
N套AC模型中,第一套AC模型的输入端连接神经网络的输入端,用于输入初始输入状态信息;第二套至第N套AC模型的输入端则连接前一套AC模型的输出端以及连接神经网络的输入端,用于输入前一套AC模型的输出结果和初始的输入状态信息;第二套至第N套AC模型根据前一套AC模型的输出结果和初始的输入状态信息进行处理,并输出结果;同时,N套AC模型的输出端均连接神经网络的输出端,以输出最终结果。
2.一种基于因果多输出的强化学习神经网络的构建方法,其特征在于:包括
将具有因果关系的N套AC模型按照其输出结果之间的因果关系级联在一起,形成神经网络;
具体地,将N套AC模型的输入端连接在一起形成神经网络的输入端,用于输入初始的输入状态信息;
同时,对于第二套至第N套AC模型,将其输入端连接至上一套AC模型的输出端,两相邻的AC模型之间具有直接的因果关系,每一套AC模型结合初始的输入状态信息和上一套AC模型的输出结果进行分析处理,输出结果;
将N套AC模型的输出端连接在一起形成神经网络的输出端,该神经网络的输出端输出最终结果。
3.一种回合制战斗游戏的强化学习神经网络,其特征在于:所述神经网络包括第一AC模型和第二AC模型;
所述第一AC模型的输入端用于输入当前回合游戏战局的初始输入状态信息,输出端用于输出所操作角色的动作指令;
所述第二AC模型的输入端连接第一AC模型的输出端,该第二AC模型的输入端用于输入当前回合游戏的初始输入状态信息和第一AC模型输出的动作信息,并根据初始输入状态信息和动作信息记性分析处理,输出所操作角色的对象指令;
第一AC模型输出的动作和第二AC模型输出的对象作为神经网络的最终输出,即所操作角色当前回合的动作和对象的完整指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110314236.2A CN112990437B (zh) | 2021-03-24 | 2021-03-24 | 一种基于因果多输出的强化学习神经网络及其构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110314236.2A CN112990437B (zh) | 2021-03-24 | 2021-03-24 | 一种基于因果多输出的强化学习神经网络及其构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112990437A CN112990437A (zh) | 2021-06-18 |
CN112990437B true CN112990437B (zh) | 2024-05-14 |
Family
ID=76334465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110314236.2A Active CN112990437B (zh) | 2021-03-24 | 2021-03-24 | 一种基于因果多输出的强化学习神经网络及其构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112990437B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116910664B (zh) * | 2023-07-12 | 2024-04-19 | 南京航空航天大学 | 基于级联模型的航班地面保障动态预测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5586222A (en) * | 1991-07-24 | 1996-12-17 | Mitsubishi Denki Kabushiki Kaisha | Method of storing associative information and a device therefor |
KR20190129672A (ko) * | 2018-05-10 | 2019-11-20 | 세종대학교산학협력단 | 신경망 기반 패턴 인증 방법 및 장치 |
CN111291832A (zh) * | 2020-03-11 | 2020-06-16 | 重庆大学 | 基于Stack集成神经网络的传感器数据分类方法 |
CN111487864A (zh) * | 2020-05-14 | 2020-08-04 | 山东师范大学 | 一种基于深度强化学习的机器人路径导航方法及系统 |
CN112149359A (zh) * | 2020-10-09 | 2020-12-29 | 中国人民解放军国防科技大学 | 信任域引导裁剪的策略优化方法、系统、存储介质及应用 |
-
2021
- 2021-03-24 CN CN202110314236.2A patent/CN112990437B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5586222A (en) * | 1991-07-24 | 1996-12-17 | Mitsubishi Denki Kabushiki Kaisha | Method of storing associative information and a device therefor |
KR20190129672A (ko) * | 2018-05-10 | 2019-11-20 | 세종대학교산학협력단 | 신경망 기반 패턴 인증 방법 및 장치 |
CN111291832A (zh) * | 2020-03-11 | 2020-06-16 | 重庆大学 | 基于Stack集成神经网络的传感器数据分类方法 |
CN111487864A (zh) * | 2020-05-14 | 2020-08-04 | 山东师范大学 | 一种基于深度强化学习的机器人路径导航方法及系统 |
CN112149359A (zh) * | 2020-10-09 | 2020-12-29 | 中国人民解放军国防科技大学 | 信任域引导裁剪的策略优化方法、系统、存储介质及应用 |
Non-Patent Citations (1)
Title |
---|
基于Actor-Critic结构的受扰倒立摆平衡控制研究;吴球业;;信息系统工程(03);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112990437A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188331B (zh) | 模型训练方法、对话系统评价方法、装置、设备及存储介质 | |
US20210342549A1 (en) | Method for training semantic analysis model, electronic device and storage medium | |
Liu et al. | Latent attention for if-then program synthesis | |
CN108733644B (zh) | 一种文本情感分析方法、计算机可读存储介质及终端设备 | |
CN112487173B (zh) | 人机对话方法、设备和存储介质 | |
US20220092441A1 (en) | Training method and apparatus, dialogue processing method and system, and medium | |
US20240211692A1 (en) | Method of training ranking model, and electronic device | |
CN113779996B (zh) | 基于BiLSTM模型的标准实体文本确定方法、装置及存储介质 | |
CN114416953A (zh) | 问答处理方法、问答模型的训练方法和装置 | |
CN112990437B (zh) | 一种基于因果多输出的强化学习神经网络及其构建方法 | |
CN111709244A (zh) | 一种用于矛盾纠纷事件因果关系识别的深度学习方法 | |
Bagnall | Authorship clustering using multi-headed recurrent neural networks | |
JP5682448B2 (ja) | 因果単語対抽出装置、因果単語対抽出方法および因果単語対抽出用プログラム | |
CN110263345B (zh) | 关键词提取方法、装置及存储介质 | |
CN111062209A (zh) | 自然语言处理模型训练方法和自然语言处理模型 | |
US20200202233A1 (en) | Future scenario generating device and method, and computer program | |
CN113722441A (zh) | 一种相似文本的生成方法、装置、设备及存储介质 | |
CN117421403A (zh) | 智能对话方法、装置及电子设备 | |
CN111967949A (zh) | 基于Leaky-Conv & Cross安全课程推荐引擎排序算法 | |
CN110908919B (zh) | 一种基于人工智能的应答测试系统及其应用 | |
CN117371428A (zh) | 基于大语言模型的文本处理方法与装置 | |
CN110354501B (zh) | 行为预测方法、装置及电子设备 | |
CN115204178A (zh) | 文本排序匹配方法、系统、装置及存储介质 | |
Ni et al. | An adaptive extreme learning machine algorithm and its application on face recognition | |
Vidra et al. | Improving Classification Performance With Human Feedback: Label a few, we label the rest |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |