CN108629422B - 一种基于知识指导-战术感知的智能体学习方法 - Google Patents

一种基于知识指导-战术感知的智能体学习方法 Download PDF

Info

Publication number
CN108629422B
CN108629422B CN201810444476.2A CN201810444476A CN108629422B CN 108629422 B CN108629422 B CN 108629422B CN 201810444476 A CN201810444476 A CN 201810444476A CN 108629422 B CN108629422 B CN 108629422B
Authority
CN
China
Prior art keywords
agent
network
training
intelligent agent
script
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810444476.2A
Other languages
English (en)
Other versions
CN108629422A (zh
Inventor
李玺
胡玥
李钧涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201810444476.2A priority Critical patent/CN108629422B/zh
Publication of CN108629422A publication Critical patent/CN108629422A/zh
Application granted granted Critical
Publication of CN108629422B publication Critical patent/CN108629422B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/55Controlling game characters or game objects based on the game progress
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/80Special adaptations for executing a specific game genre or game mode
    • A63F13/822Strategy games; Role-playing games
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • A63F2300/6027Methods for processing data by generating or executing the game program using adaptive systems learning from user actions, e.g. for skill level adjustment
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • A63F2300/65Methods for processing data by generating or executing the game program for computing the condition of a game character
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/80Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game specially adapted for executing a specific type of game
    • A63F2300/807Role playing or strategy games

Abstract

本发明公开了一种基于知识指导‑战术感知的智能体学习方法,用于在双方对战游戏的环境下,通过两个阶段的训练,利用人类的知识训练出一个以特定战术策略作战的智能体。具体包括如下步骤:1)对游戏画面和智能体的状态进行编码,构成状态特征;2)通过人为编写脚本的方式构建一个具有特定作战策略的脚本;3)智能体与脚本作战,收集对手的状态和动作数据进行第一阶段训练;4)训练后的智能体与电脑内置AI作战,通过强化学习的方式进行第二阶段训练;5)使用上述学习框架训练智能体以特定战术参与作战。本发明适用于微操环境下的双方作战模式的智能体训练,面对各种微操作战场景具有较好的胜率。

Description

一种基于知识指导-战术感知的智能体学习方法
技术领域
本发明属于深度强化学习在游戏领域的应用,特别地涉及一种基于知识指导-战术感知的智能体学习方法。
背景技术
深度强化学习在很多地方都有应用,比较经典的有在围棋,雅达利小游戏上的应用。由于双方对战博弈游戏的复杂性和实时性,在征服了围棋这块领域之后,强化学习的研究学者们都转向对星际争霸之类的双方对战游戏智能体的研究。此类研究不仅能够强化对人工智能的研究,而且也具有较高的应用意义。因为智能体被构建后,可将其应用于游戏产业中,将智能体内置于游戏中,或者将其应用于竞技体育产业,用于初学者训练或者提供最佳作战策略等等。
典型地来说,智能体研究的问题主要有以下三个方面,(1)学习的架构建立;(2)模型的训练策略不同;(3)多代理的通讯机制。对于第一点,学习的架构来说,最近提出了很多很高效的强化学习研究框架,比如说是集中式评价分布式执行的框架和主从架构。对于第二点,模型的训练策略,有很多的研究工作都是为了设计一个离线/在线的训练策略,这样可以提高以代理为导向的学习表现,比如说训练收敛速度,稳定性等等。对于第三点,多代理的通讯机制主要研究一个代理之间的不同消息的传递机制。有的让每个动作网络在输出一个动作信息的同时也输出一个消息,同时这个消息作为下一个代理的评价网络的输入;也有工作是为每一个代理都构建一个模块,这个模块是用来传递消息的,接受上一轮模块发送的消息,分别接受平均之后的消息和未处理过的消息,通过平均消息的接受来促进代理之间的沟通等。
上述的方法都是基于数据驱动的方式,其缺点是探索最优策略所需的时间非常久。一般来说,为了在一个比较容易的场景上掌握游戏规则进行游戏,智能体需要经过几万场游戏的训练,这是非常耗时的。而且在探索的训练过程中,并不具有可解释性。整个模型是一个黑箱,不能事先知道即将学习到的策略大致是什么类型的。强化学习的算法,都是为了解决一个序列决策最优的问题。所以这个强化学习一直都会往回报最大的方向学习,这一点也会导致最后学习到的策略会很奇怪,事先研究人员不能分析得到这个策略会是怎么样的。而且,由于之前的方法都是纯粹的数据驱动,所以该方法训练的过程中,智能体都不会意识到对手的存在,这样缺少了对抗博弈游戏的本身的对抗信息。
发明内容
为解决上述问题,本发明的目的在于提供一种知识指导-战术感知的学习方法。该方法基于深度神经网络,利用人类的知识去学一个策略函数,让学习的过程更加可解释性。这个注入人类知识的想法是可以通过人为编写脚本实现,只要将智能体与这个脚本进行对战,并且向其学习。在经过一段时间的训练之后,智能体可以学习到对手的策略,之后就通过强化学习的方法,把上一个阶段学习到的策略进一步地加强,最后可以得到一个具有可解释性的策略。因为在训练之前,能大致分析得到即将要学习到的策略是怎么样的,而不是一味地让它自由探索得到的。同时,这个方法又可以缩短训练学习所需要的时间,有了一个初始化的模型之后,第二阶段的强化学习,也会很容易收敛并且学习到比较好的策略。而不是像之前的强化学习一样,充满随机性,每次训练的结果都不太一样。
为实现上述目的,本发明的技术方案为:
一种基于知识指导-战术感知的智能体学习方法,其包括以下步骤:
S1、对游戏画面和智能体的状态进行编码,构成状态特征;
S2、构建一个具有用于智能体学习的目标作战策略的脚本;
S3、智能体与所述的脚本作战,收集对手的状态和动作数据进行第一阶段训练;
S4、训练后的智能体与电脑内置智能体作战,通过强化学习的方式进行第二阶段训练;
S5、通过作战-收集数据-训练-再作战的循环过程,不断训练智能体。
作为优选,步骤S1中,所述的状态特征φ包括位置信息特征和血量信息特征,位置信息特征通过获取游戏画面中我方与敌方的位置信息进行编码;血量信息特征通过获取智能体的血量信息得到,并将其编码在与位置信息相对应的位置上;其中φ(s,a)为我方的状态特征,φ(s,e)为敌方的状态特征。
作为优选,步骤S2中,所述的脚本中包含有期望智能体学习到的作战策略,脚本获取状态特征φ(s,e)后,会根据编写的作战策略做出符合这个状态的动作ue
作为优选,所述的步骤S3包括以下子步骤:
S31、为智能体构建一个策略网络F(φ(s,a);θ1),该网络由三层卷积层和四层全连接层构成,网络参数θ1随机初始化;该网络输入是当前的状态特征φ(s,a),输出为动作空间中每个动作的概率,智能体选择概率最大的动作执行;
S32、智能体和人为编写的具有特作战策略的脚本进行对战,在对战过程中智能体收集敌方即脚本的状态特征φ(s,e)和脚本的动作ue,并将其作为一个元组(φ(s,e),ue)存在Replay D1中,直到一场对战结束;
S33、在Replay D1中随机采样预设批大小的数据(φ(s,e),ue)进行策略网络的训练,网络的损失函数为:
Figure BDA0001656801050000031
其中
Figure BDA0001656801050000032
为期望函数,Ue是对脚本的动作ue进行one-hot编码处理后的结果,训练使得损失函数最小化,模型收敛后完成一次训练;
S34、重复S32-S33进行多场对战和训练,直到智能体学到脚本的特定策略。
作为优选,步骤S4包括以下子步骤:
S41、为智能体构建第二阶段的策略网络Q(φ(s,a),ua;θ2),该网络结构与第一阶段的策略网络结构相同,由三层卷积层和四层全连接层构成,其网络参数θ2为第一阶段策略网络参数θ1的训练结果;该网络输入是智能体当前的状态特征φ(s,a)和智能体的当前动作ua,输出为动作空间中每个动作的期望值,智能体选择期望值最大的动作执行;
S42、智能体和电脑内置智能体进行对战,在该过程中收集自己的状态特征φ(s,a)、动作ua、从环境中得到的奖励r和下一个状态特征φ(s′,a′),并将其作为一个元组(φ(s,a),ua,r,φ(s′,a′))存在Replay D2中,直到一场对战结束;其中r通过定义奖励函数计算,奖励函数为我方和敌方各自血量减少量的差值和致命一击的奖励之和,具体公式如下:
Figure BDA0001656801050000033
其中△H(ej)是敌方的智能体ej的血量减少量,m为敌方智能体的个数;△H(ai)是我方智能体ai的血量减少量,n为我方智能体的个数,k是当我方智能体的这次行为导致敌方淘汰时给予的奖励;
S43、在Replay D2中随机采样预设批大小的数据(φ(s,a),ua,r,φ(s′,a’))进行策略网络的训练,网络的损失函数为:
Figure BDA0001656801050000034
Figure BDA0001656801050000035
其中
Figure BDA0001656801050000036
为期望函数,yDQN是目标值,γ是衰减系数,
Figure BDA0001656801050000037
为目标网络,u′a为智能体的下一个动作,
Figure BDA0001656801050000038
的网络结构与第二阶段的策略网络Q结构相同,其网络参数θ′2每100场对战从网络Q复制一次。
作为优选,步骤S5中,基于由S1-S4建立的两阶段的学习框架,通过不断使智能体参与作战,然后利用作战过程中收集的数据进行训练,直至模型收敛,完成智能体的学习过程。
本发明的知识指导-战术感知的学习方法,相比于现有的应用于星际争霸微型操作上的强化学习方法,具有以下有益效果:
首先,本发明的学习方法可以缩短训练时间,因为第二阶段的强化学习是在第一阶段具有初始模型之上的,相比一般的从零开始的强化学习具有更好的初始模型,很容易收敛并且学到比较好的策略。
其次,本发明的学习方法是个两阶段的学习框架,通过两个阶段的学习过程可以让智能体在学到特定的基础上再进行强化学习,进行一定的探索。最后智能体以特定的战术策略作战,相比于随机探索的方式学习策略,有更高的胜率,而且整个作战过程显地更智能。
最后,本发明的学习方法是知识指导-战术感知的,利用人类的知识去学习一个策略函数,让学习的过程更加可解释性。即在训练之前,我们就能大致分析得到即将要学习到的策略是怎么样的,而不是一味地让它自由探索得到的。
本发明的知识指导-战术感知的学习方式,在双方对战型游戏环境中,能够有效提高智能体的胜率并且缩短训练时间,具有良好的应用价值,例如可以利用该方法训练智能体并替代当前游戏中的内置AI,供初学者训练;或者利用该智能体基于当前的游戏状态给出下一步的最佳作战策略。
附图说明
图1为本发明的的流程示意图;
图2为实施例中的第一阶段和第二阶段战斗对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参考图1,在本发明的较佳实施例中,一种基于知识指导-战术感知的智能体学习方法,包括以下步骤:
S1、对游戏画面和智能体的状态进行编码,构成状态特征。
状态特征φ包括位置信息特征和血量信息特征,位置信息特征通过获取游戏画面中我方与敌方的位置信息进行编码;血量信息特征通过获取智能体的血量信息得到,并将其编码在与位置信息相对应的位置上;其中φ(s,a)为我方的状态特征,φ(s,e)为敌方的状态特征(s指状态,a指我方,e指敌方)。
下面构建一个针对智能体构建一个两阶段的学习框架:
S2、构建一个具有用于智能体学习的目标作战策略的脚本。该脚本是指将人类知识通过编写脚本的方式以一种特定的作战策略来呈现,例如该人类知识为攻击最近的敌人或者攻击最弱最近的敌人,则将其编写出相应的脚本。脚本获取状态特征φ(s,e)后,会根据编写的作战策略做出符合这个状态的动作ue
S3、智能体与上述脚本作战,收集对手的状态和动作数据进行第一阶段训练。本实施例中,该步骤包括以下子步骤:
S31、为智能体构建一个策略网络F(φ(s,a);θ1),该网络由三层卷积层和四层全连接层构成,网络参数θ1随机初始化;该网络输入是当前的状态特征φ(s,a),输出为动作空间中每个动作的概率,智能体选择概率最大的动作执行;
S32、智能体和人为编写的具有特作战策略的脚本进行对战,在对战过程中智能体收集敌方即脚本的状态特征φ(s,e)和脚本的动作ue,并将其作为一个元组(φ(s,e),ue)存在Replay D1中,直到一场对战结束;
S33、在Replay D1中随机采样批大小为64的数据(φ(s,e),ue)进行策略网络的训练,网络的损失函数为:
Figure BDA0001656801050000051
其中
Figure BDA0001656801050000052
为期望函数,其中
Figure BDA0001656801050000053
的下标表示该函数中涉及到的变量参数,下同。Ue是对脚本的动作ue进行one-hot编码处理后的结果,训练使得损失函数尽量最小化,模型收敛后完成一次训练。
S34、重复S32-S33进行多场对战和训练,直到智能体学到脚本的特定策略。
S4、训练后的智能体与电脑内置智能体作战,通过强化学习的方式进行第二阶段训练。
本实施例中,该步骤包括以下子步骤:
S41、为智能体构建第二阶段的策略网络Q(φ(s,a),ua;θ2),该网络结构与第一阶段的策略网络结构相同,由三层卷积层和四层全连接层构成,其网络参数θ2为第一阶段策略网络参数θ1的训练结果;该网络输入是智能体当前的状态特征φ(s,a)和智能体的当前动作ua,输出为动作空间中每个动作的期望值,智能体选择期望值最大的动作执行;
S42、智能体和电脑内置智能体进行对战,在该过程中收集自己的状态特征φ(s,a)、动作ua、从环境中得到的奖励r和下一个状态特征φ(s′,a′),并将其作为一个元组(φ(s,a),ua,r,φ(s′,a′))存在Replay D2中,直到一场对战结束;其中r通过定义奖励函数计算,奖励函数为我方和敌方各自血量减少量的差值和致命一击(即导致敌方淘汰的最后一个行为)的奖励之和,具体公式如下:
Figure BDA0001656801050000061
其中△H(ej)是敌方的智能体ej的血量减少量,m为敌方智能体的个数;△H(ai)是我方智能体ai的血量减少量,n为我方智能体的个数,k是当我方智能体的这次行为导致敌方淘汰时给予的奖励;
S43、在Replay D2中随机采样批大小为64的数据(φ(s,a),ua,r,φ(s′,a’))进行策略网络的训练,网络的损失函数为:
Figure BDA0001656801050000062
Figure BDA0001656801050000063
其中
Figure BDA0001656801050000064
为期望函数,yDQN是目标值,γ是衰减系数,
Figure BDA0001656801050000065
为目标网络,u′a为智能体的下一个动作,s′表示该智能体的下一个状态;
Figure BDA0001656801050000066
的网络结构与第二阶段的策略网络Q结构相同,其网络参数θ′2每100场对战从网络Q复制一次。
S5、基于上述S1-S4步骤,就建立了一个两阶段的学习框架,然后就可以通过智能体不断参与作战-收集数据-训练-再作战的循环过程,即通过不断使智能体参与作战,然后利用作战过程中收集的数据进行训练,直至神经网络模型收敛,完成智能体的学习过程。由此,得到的智能体在能够以特定的战术参与作战,有较高的胜率,同时减少训练时间。
下面将上述方法应用于具体实施例中,以便本领域技术人员能够更好地理解本发明的效果。
实施例
本实施例在星际争霸微型操作的不同场景下实施,其学习方法的具体实现过程如前所述,不再详细阐述具体的步骤,下面仅针对案例数据展示其效果。本实施例的场景如下:
m5v5场景:该场景训练下我方控制5个士兵,敌方即电脑内置智能体控制5个士兵。
w15v17场景:该场景训练的我方控制15个飞行器,敌方即电脑内置智能体也控制17个飞行器。
w18v20场景:该场景训练的我方控制18个飞行器,敌方即电脑内置智能体也控制20个飞行器。
本实例在每个场景下进行本学习方法的训练,并且在实例中采取的特定作战策略是攻击最弱最近的敌人(当出现两个最弱的敌人时,优先攻击最近的),通过两个阶段的学习发现两个阶段学到的策略有所不同,结果如图2所示。第一阶段结束每个智能体会攻击各自最弱的敌人,当出现两个最弱的敌人时,则优先攻击最近的敌人。如图2(a)中当敌方2、4号智能体同为最弱时,我方1、2、3号智能体选择最近的敌方2号智能体进行攻击,我方4、5智能体则选择最近的敌方4号智能体进行攻击;第二阶段结束智能体共同攻击对他们而言最弱的敌人。如图2(b)中我方1、2、3、4、5智能体均选择最弱的敌方2号智能体进行攻击。
最后,本发明的学习方法在一些微操场景下的胜率,相比其他一些算法的结果如表1所示,相比其他算法而言,本发明的学习方法具有较高的胜率。
表1不同场景下本发明与其他算法的胜率结果
场景 Ours DQN ZO BiCNet CommNet WC
m5v5 0.96 0.99 1.00 0.92 0.95 0.76
w15v17 0.74 0.16 0.49 0.53 0.47 0.19
w18v20 0.80 0.31 0.76 - - 0.22
通过以上技术方案,本发明实施例基于星际争霸的微型操作场景,提供了一种知识指导-战术感知的学习方法。本发明可以在不同场景的双方作战的形式下训练智能体,使其作战有一定的战术,且训练时间较短。
当然,上述方法不仅仅在星际争霸的微型操作平台,在FPS等双方对战游戏中,该方法也能取得很好的结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于知识指导-战术感知的智能体学习方法,其特征在于包括以下步骤:
S1、对游戏画面和智能体的状态进行编码,构成状态特征;
S2、构建一个具有用于智能体学习的目标作战策略的脚本;
S3、智能体与所述的脚本作战,收集对手的状态和动作数据进行第一阶段训练;
S4、训练后的智能体与电脑内置智能体作战,通过强化学习的方式进行第二阶段训练;
S5、通过作战-收集数据-训练-再作战的循环过程,不断训练智能体。
2.如权利要求1所述的一种基于知识指导-战术感知的智能体学习方法,其特征在于步骤S1中,所述的状态特征φ包括位置信息特征和血量信息特征,位置信息特征通过获取游戏画面中我方与敌方的位置信息进行编码;血量信息特征通过获取智能体的血量信息得到,并将其编码在与位置信息相对应的位置上;其中φ(s,a)为我方的状态特征,φ(s,e)为敌方的状态特征。
3.如权利要求1所述的一种基于知识指导-战术感知的智能体学习方法,其特征在于步骤S2中,所述的脚本中包含有期望智能体学习到的作战策略,脚本获取状态特征φ(s,e)后,会根据编写的作战策略做出符合这个状态的动作ue
4.如权利要求1所述的一种基于知识指导-战术感知的智能体学习方法,其特征在于所述的步骤S3包括以下子步骤:
S31、为智能体构建一个策略网络F(φ(s,a);θ1),该网络由三层卷积层和四层全连接层构成,网络参数θ1随机初始化;该网络输入是当前的状态特征φ(s,a),输出为动作空间中每个动作的概率,智能体选择概率最大的动作执行;
S32、智能体和人为编写的具有特定 作战策略的脚本进行对战,在对战过程中智能体收集敌方即脚本的状态特征φ(s,e)和脚本的动作ue,并将其作为一个元组(φ(s,e),ue)存在Replay D1中,直到一场对战结束;
S33、在Replay D1中随机采样预设批大小的数据(φ(s,e),ue)进行策略网络的训练,网络的损失函数为:
Figure FDA0001656801040000011
其中
Figure FDA0001656801040000012
为期望函数,Ue是对脚本的动作ue进行one-hot编码处理后的结果,训练使得损失函数最小化,模型收敛后完成一次训练;
S34、重复S32-S33进行多场对战和训练,直到智能体学到脚本的特定策略。
5.如权利要求1所述的一种基于知识指导-战术感知的智能体学习方法,其特征在于步骤S4包括以下子步骤:
S41、为智能体构建第二阶段的策略网络Q(φ(s,a),ua;θ2),该网络结构与第一阶段的策略网络结构相同,由三层卷积层和四层全连接层构成,其网络参数θ2为第一阶段策略网络参数θ1的训练结果;该网络输入是智能体当前的状态特征φ(s,a)和智能体的当前动作ua,输出为动作空间中每个动作的期望值,智能体选择期望值最大的动作执行;
S42、智能体和电脑内置智能体进行对战,在该过程中收集自己的状态特征φ(s,a)、动作ua、从环境中得到的奖励r和下一个状态特征φ(s′,a′),并将其作为一个元组(φ(s,a),ua,r,φ(s′,a′))存在Replay D2中,直到一场对战结束;其中r通过定义奖励函数计算,奖励函数为我方和敌方各自血量减少量的差值和致命一击的奖励之和,具体公式如下:
Figure FDA0001656801040000021
其中△H(ej)是敌方的智能体ej的血量减少量,m为敌方智能体的个数;△H(ai)是我方智能体ai的血量减少量,n为我方智能体的个数,k是当我方智能体的这次行为导致敌方淘汰时给予的奖励;
S43、在Replay D2中随机采样预设批大小的数据(φ(s,a),ua,r,φ(s',a’))进行策略网络的训练,网络的损失函数为:
Figure FDA0001656801040000022
Figure FDA0001656801040000023
其中
Figure FDA0001656801040000024
为期望函数,yDQN是目标值,γ是衰减系数,
Figure FDA0001656801040000025
为目标网络,u′a为智能体的下一个动作,
Figure FDA0001656801040000026
的网络结构与第二阶段的策略网络Q结构相同,其网络参数θ'2每100场对战从网络Q复制一次。
6.如权利要求1所述的基于知识指导-战术感知的智能体学习方法,其特征在于步骤S5中,基于由S1-S4建立的两阶段的学习框架,通过不断使智能体参与作战,然后利用作战过程中收集的数据进行训练,直至模型收敛,完成智能体的学习过程。
CN201810444476.2A 2018-05-10 2018-05-10 一种基于知识指导-战术感知的智能体学习方法 Active CN108629422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810444476.2A CN108629422B (zh) 2018-05-10 2018-05-10 一种基于知识指导-战术感知的智能体学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810444476.2A CN108629422B (zh) 2018-05-10 2018-05-10 一种基于知识指导-战术感知的智能体学习方法

Publications (2)

Publication Number Publication Date
CN108629422A CN108629422A (zh) 2018-10-09
CN108629422B true CN108629422B (zh) 2022-02-08

Family

ID=63692607

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810444476.2A Active CN108629422B (zh) 2018-05-10 2018-05-10 一种基于知识指导-战术感知的智能体学习方法

Country Status (1)

Country Link
CN (1) CN108629422B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109464803B (zh) * 2018-11-05 2022-03-04 腾讯科技(深圳)有限公司 虚拟对象控制、模型训练方法、装置、存储介质和设备
CN109636699A (zh) * 2018-11-06 2019-04-16 中国电子科技集团公司第五十二研究所 一种基于深度强化学习的无监督智能作战推演系统
CN109621431B (zh) * 2018-11-30 2022-06-14 网易(杭州)网络有限公司 一种游戏动作的处理方法和装置
US20200285995A1 (en) * 2019-03-05 2020-09-10 Hrl Laboratories, Llc Robust, scalable and generalizable machine learning paradigm for multi-agent applications
CN110147883B (zh) * 2019-05-28 2022-06-03 航天科工系统仿真科技(北京)有限公司 用于作战仿真的模型的训练方法、装置、设备和存储介质
WO2021007006A1 (en) * 2019-07-10 2021-01-14 Sony Interactive Entertainment LLC Dual machine learning pipelines for transforming data and optimizing data transformation
CN111047014B (zh) * 2019-12-11 2023-06-23 中国航空工业集团公司沈阳飞机设计研究所 一种多智能体空中对抗分布式采样训练方法及设备
CN111437608B (zh) * 2020-03-24 2023-09-08 腾讯科技(深圳)有限公司 基于人工智能的游戏对局方法、装置、设备及存储介质
CA3182110A1 (en) * 2020-06-30 2022-01-06 Microsoft Technology Licensing, Llc Reinforcement learning based rate control
CN112131786A (zh) * 2020-09-14 2020-12-25 中国人民解放军军事科学院评估论证研究中心 基于多智能体强化学习的目标探测与分配方法及装置
CN112138396B (zh) * 2020-09-23 2024-04-12 中国电子科技集团公司第十五研究所 一种面向无人系统模拟对抗的智能体训练方法及系统
CN112257875A (zh) * 2020-11-13 2021-01-22 北京理工大学 一种基于极限学习机的多智能体的任务理解方法
CN112870727B (zh) * 2021-01-18 2022-02-22 浙江大学 一种游戏中智能体的训练及控制方法
CN112802091B (zh) * 2021-01-28 2023-08-29 北京理工大学 一种增强现实条件下基于dqn的智能体对抗行为实现方法
CN113254872B (zh) * 2021-05-31 2023-12-19 大连理工大学 一种基于智能体通信机制的复杂游戏场景下的策略选择方法
CN113283574B (zh) * 2021-07-22 2021-12-07 中国科学院自动化研究所 群体对抗中智能体控制方法、装置、电子设备及存储介质
CN115659054B (zh) * 2022-12-14 2023-06-06 优友互动(北京)科技有限公司 基于强化学习的游戏关卡推荐方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103248693A (zh) * 2013-05-03 2013-08-14 东南大学 基于多智能体强化学习的大规模服务组合优化方法
CN104133667A (zh) * 2013-11-29 2014-11-05 腾讯科技(成都)有限公司 实现人工智能行为的方法、装置及人工智能编辑器
CN104268333A (zh) * 2014-09-23 2015-01-07 朱凯锋 一种竞争性群体行动决策支持系统的实现方法
CN106469317A (zh) * 2016-09-20 2017-03-01 哈尔滨工业大学深圳研究生院 一种基于非完备信息博弈中进行对手建模的方法
CN107135224A (zh) * 2017-05-12 2017-09-05 中国人民解放军信息工程大学 基于Markov演化博弈的网络防御策略选取方法及其装置
CN107179077A (zh) * 2017-05-15 2017-09-19 北京航空航天大学 一种基于elm‑lrf的自适应视觉导航方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9589417B2 (en) * 2005-07-14 2017-03-07 Ag 18, Llc Interactive gaming among a plurality of players systems and methods

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103248693A (zh) * 2013-05-03 2013-08-14 东南大学 基于多智能体强化学习的大规模服务组合优化方法
CN104133667A (zh) * 2013-11-29 2014-11-05 腾讯科技(成都)有限公司 实现人工智能行为的方法、装置及人工智能编辑器
CN104268333A (zh) * 2014-09-23 2015-01-07 朱凯锋 一种竞争性群体行动决策支持系统的实现方法
CN106469317A (zh) * 2016-09-20 2017-03-01 哈尔滨工业大学深圳研究生院 一种基于非完备信息博弈中进行对手建模的方法
CN107135224A (zh) * 2017-05-12 2017-09-05 中国人民解放军信息工程大学 基于Markov演化博弈的网络防御策略选取方法及其装置
CN107179077A (zh) * 2017-05-15 2017-09-19 北京航空航天大学 一种基于elm‑lrf的自适应视觉导航方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Deep Reinforcement Learning with Double Q-Learning;Hado van Hasselt等;《Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence (AAAI-16)》;20151231;2094-2100 *
Learning to communicate with deep multi-agent reinforcement learning;Jakob N. Foerster等;《arXiv:1605.06676v2》;20160524;1-13 *
StarCraft II: A New Challenge for Reinforcement Learning;Oriol Vinyals等;《arXiv:1708.04782v1》;20170816;1-20 *
团队对抗性游戏决策系统的研究与实现;赖天武;《中国优秀硕士学位论文全文数据库_信息科技辑》;20070515;I138-288 *
基于神经网络的强化学习研究概述;尤树华等;《电脑知识与技术》;20121005;第8卷(第28期);第6782-6786页 *
强化学习及其在电脑围棋中的应用;陈兴国等;《自动化学报》;20160515;第42卷(第05期);第685-695页 *

Also Published As

Publication number Publication date
CN108629422A (zh) 2018-10-09

Similar Documents

Publication Publication Date Title
CN108629422B (zh) 一种基于知识指导-战术感知的智能体学习方法
CN110991545B (zh) 一种面向多智能体对抗的强化学习训练优化方法及装置
Justesen et al. Illuminating generalization in deep reinforcement learning through procedural level generation
Van Der Ree et al. Reinforcement learning in the game of Othello: Learning against a fixed opponent and learning from self-play
CN104102522B (zh) 交互式游戏中智能非玩家角色的人工情感驱动方法
Wang et al. SCC: An efficient deep reinforcement learning agent mastering the game of StarCraft II
WO2023071854A1 (zh) 游戏中虚拟角色的控制方法、装置、计算机设备、存储介质及程序
CN111282267A (zh) 信息处理方法、装置、介质及电子设备
CN111841018A (zh) 模型训练方法、模型使用方法、计算机设备及存储介质
Dobrovsky et al. An approach to interactive deep reinforcement learning for serious games
CN112870721A (zh) 一种游戏互动方法、装置、设备及存储介质
Zhang et al. Combining behavior trees with MAXQ learning to facilitate CGFs behavior modeling
CN115300910A (zh) 基于多智能体强化学习的去混淆游戏策略模型生成方法
CN114404975A (zh) 决策模型的训练方法、装置、设备、存储介质及程序产品
CN112044076B (zh) 一种对象控制方法、装置及计算机可读存储介质
Wang et al. Large scale deep reinforcement learning in war-games
Miyashita et al. Developing game AI agent behaving like human by mixing reinforcement learning and supervised learning
CN111882072A (zh) 一种与规则对弈的智能模型自动化课程训练方法
CN112870727B (zh) 一种游戏中智能体的训练及控制方法
CN112755538B (zh) 一种基于多智能体的实时战略游戏对局方法
Anderson Playing smart-artificial intelligence in computer games
CN111437605B (zh) 确定虚拟对象行为及托管虚拟对象行为的方法
CN114611661A (zh) 一种基于人类知识优化强化学习的方法及系统
Serafim et al. Evaluating competition in training of deep reinforcement learning agents in first-person shooter games
Das et al. Knowledge transfer between similar atari games using deep q-networks to improve performance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant