CN111617479B - 游戏人工智能系统的加速方法及系统 - Google Patents

游戏人工智能系统的加速方法及系统 Download PDF

Info

Publication number
CN111617479B
CN111617479B CN202010284304.0A CN202010284304A CN111617479B CN 111617479 B CN111617479 B CN 111617479B CN 202010284304 A CN202010284304 A CN 202010284304A CN 111617479 B CN111617479 B CN 111617479B
Authority
CN
China
Prior art keywords
node
priority
data
return information
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010284304.0A
Other languages
English (en)
Other versions
CN111617479A (zh
Inventor
王志伟
涂仕奎
徐雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202010284304.0A priority Critical patent/CN111617479B/zh
Publication of CN111617479A publication Critical patent/CN111617479A/zh
Application granted granted Critical
Publication of CN111617479B publication Critical patent/CN111617479B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/80Special adaptations for executing a specific game genre or game mode
    • A63F13/822Strategy games; Role-playing games
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明提供了一种游戏人工智能系统的加速方法,输入多通道游戏数据,根据游戏逻辑得到返回信息以及使用深度并行计算框架计算节点优先度初始值和返回信息近似值;利用节点优先度初始值形成树形结构,生成新的数据节点,并填入节点优先度初始值作为数据节点信息,再将返回信息近似值填入数据节点,然后将数据节点信息回传,更新各个数据节点保存的信息,输出最终优先度;根据最终优先度结果,通过缩小相邻多通道游戏数据优先度之间的差异,以及,根据返回信息和最终优先度结果,通过缩小最终优先度与返回信息之间的差异,更新深度并行计算框架内的参数。同时提供了一种加速系统。本发明提供的加速方法和系统,可以提高系统提升的速度。

Description

游戏人工智能系统的加速方法及系统
技术领域
本发明涉及采用计算机构建游戏人工智能系统技术领域,具体地,涉及一种游戏人工智能系统的加速方法及系统。
背景技术
采用计算机构建游戏人工智能系统,最初的技术主要专注于设计启发函数,例如国际象棋AI程序深蓝是由多名国际象棋高手设计特征,再由计算机程序员编写极大极小搜索程序得来。但这类做法有以下局限:(1)人类对游戏的认知有限,例如对于围棋等状态空间极大的任务,人类的领域知识极为有限,从而设计的启发函数也就不可靠;(2)极大极小搜索过于暴力,耗时巨大,效率低下,仅仅在国际象棋上超越人类,而无法在围棋类对弈上取得突破进展;(3)手工线性特征过于简单,无法适应复杂的围棋类对弈,也无法发挥现代高性能计算资源的优势。
随着深度并行计算框架,特别是深度卷积神经网络的发展,使得端到端的技术应用日益广泛。目前有一些将多通道游戏数据(例如棋盘)视为图像的方法出现,并取得了突破性的进展。
围棋类对弈智能系统的研发,是几十年来业界和学术界的研发焦点之一,它的人工智能程序研发极具挑战性。目前已有用神经网络对优先度和返回值进行建模的方法,但仍然是通过自我对弈进行抽样,虽然效果很好但极其消耗硬件资源。具体地,优先度-返回值是用残差模块建立的,接收围棋类棋盘表示作为输入,估计其下一步落子概率分布和胜率,它可以看作是一种快而强大的启发函数来指导蒙特卡洛树搜索。近两年有几家企业、团队沿用这种方法,研发出高水平的围棋类对弈人工智能程序,但都仅仅是简单复现,并未有理论或方法上的创新,且耗费硬件资源和时间巨大,普通研究者或个人无法承受。
机器学习手段可以用来训练、增强游戏人工智能系统。对围棋类对弈来说,可设计一个认知系统,用来初始化数据节点优先度,监督学习和强化学习都可以用于增强该认知系统。监督学习方法是用一个包含超过2000万个(多通道游戏数据-优先信息-返回值)三元组的数据集来训练优先度-返回值模型。强化学习是用自我对弈的方式产生大量数据用于增强系统,并且在迭代过程中产生更高质量的数据,而认知模块性能逐渐变强。
自我对弈是一类强化学习,模型通过与环境不断交互产生训练数据,用训练数据更新模型后得到更强的策略,然后继续产生数据,如此迭代下去。不过,这样的自我对弈,在如今的深度学习的时代,每次自我对弈耗费资源和时间巨大,这对业界的复现和生产很不利,因此需要一些手段去减少自我对弈棋局的数量。
目前没有发现同本发明类似技术的说明或报道,也尚未收集到国内外类似的资料。
发明内容
针对现有技术中存在的依赖大量数据进行机器学习、硬件消耗大的缺陷,本发明的目的是提供一种游戏人工智能系统的加速方法及系统,提高系统提升的速度的同时,降低硬件资源的消耗和处理时间。
本发明是通过以下技术方案实现的。
根据本发明的一个方面,提供了一种游戏人工智能系统的加速方法,包括:
S0:输入多通道游戏数据,根据游戏逻辑得到返回信息;
S1:输入多通道游戏数据,使用深度并行计算框架计算节点优先度初始值和返回信息近似值,并产生特征图,用于S3缩小其间的平方误差;
S2:利用S1中计算得到的节点优先度初始值形成树形结构,生成新的数据节点,并填入S1计算得到的节点优先度初始值作为数据节点信息,再将S1中计算得到的返回信息近似值填入数据节点,然后将数据节点信息回传,更新各个数据节点保存的信息,输出一个行动后验预测结果,即为最终优先度;另外,按最大访问次数原则取得由一系列多通道游戏数据及对应返回近似值组成的最优路径,用于更新深度并行计算框架的参数时选取多通道游戏数据;
S3:根据S2中得到的最终优先度结果,通过缩小相邻多通道游戏数据优先度之间的差异以及相邻多通道游戏数据的特征图之间的平方误差,更新深度并行计算框架内的参数;
根据S0中得到的返回信息和S2中得到的最终优先度结果,通过缩小最终优先度与返回信息之间的差异,更新深度并行计算框架内的参数。
优选地,所述S0中,输入多通道游戏数据,根据具体棋类的规则和逻辑,输出判定后得到的返回信息。
优选地,所述S1中,深度并行计算框架,包括L层的残差模块和第L+1层的特征调整模块,其中,多通道游戏数据经过L层的残差模块的过程,数据维度不变,用于对数据进行压缩操作和批归一化处理;所述第L+1层的特征调整模块包括如下两部分:
-第一部分,调整特征图尺寸后经过softmax函数计算输出节点初始优先度;
-第二部分,调整多通道游戏数据尺寸后经过tanh函数计算输出对返回信息的估计;
其中:
节点优先度初始值,即第L+1层的特征调整模块第一部分计算输出的节点初始优先度,为一个362维数组,作为S2中的节点优先度初始值;
返回信息近似值,即第L+1层的特征调整模块第二部分计算输出的返回信息的估计,为一个标量,作为S2中生成的数据节点的价值初始值。
优选地,每一层所述残差模块均包括数据压缩层和批归一化层,分别用于对数据进行压缩操作和批归一化处理;其中,所述数据压缩层的卷积核大小为3×3。
优选地,所述S2中,树形结构的数据节点间建立连接,其中每一个数据节点均用于存储如下信息:
-节点优先度初始值,代表选择该数据节点的优先程度,由S1计算得到;
-访问次数,代表该数据节点被访问过的次数;
-平均结果信息,由S1计算得到的返回信息近似值累计平均值得来;
重复以下4个步骤:
-选择:树形模拟采用最优优先原则,即每一层按高节点初始值、低访问次数、高动作值的原则访问子数据节点,最终到达的末端节点即为被选择的数据节点;
-展开:根据S1中的计算,初始化末端节点下的所有合法节点,节点初始值初始化为S1中计算的节点优先度初始值,访问次数和平均返回信息近似值初始化为0;
-评估:得到S1中对末端节点的返回信息近似值;
-回传:向上逐层更新数据节点信息,直至初始数据节点;具体地,访问次数自增1,平均返回信息近似值累加评估后,取平均值;
以上步骤重复多次后,利用每个子数据节点的访问次数除以所有子数据节点访问次数之和,计算选择每个行动的最终优先度。
优选地,所述S3中,缩小相邻多通道游戏数据优先度之间的差异的方法是,最小化S2中所取得最优路径上各个多通道游戏数据的返回近似值的方差;缩小两个相邻多通道游戏数据的特征图之间的平方误差的方法是,计算特征图对应元素差值平方并求和,然后通过更新并行计算框架的方式缩小该值。
优选地,所述S3中,缩小最终优先度与返回信息间差异的方法是,最小化节点优先度初始值和最终优先度之间的交叉熵,最小化返回信息近似值与返回信息之间的平方误差。
根据本发明的另一个方面,提供了一种游戏人工智能系统的加速系统,包括:
数据处理模块:对于输入的多通道游戏数据,根据游戏逻辑得到返回信息;对于输入的多通道游戏数据,使用深度并行计算框架计算节点优先度初始值和返回信息近似值;
优先度计算模块:利用认知模块中计算得到的节点优先度初始值形成树形结构,生成新的数据节点,并填入认知模块计算得到的节点优先度初始值作为数据节点信息,再将认知模块中计算得到的返回信息近似值填入数据节点,然后将数据节点信息回传,更新各个数据节点保存的信息,输出一个行动后验预测结果,即为最终优先度;另外,按最大访问次数原则取得由多通道游戏数据及对应返回近似值组成的最优路径,用于更新深度并行计算框架的参数时选取多通道游戏数据;
更新模块:根据优先度计算模块中得到的最终优先度结果,通过缩小相邻多通道游戏数据优先度之间的差异以及相邻多通道游戏数据的特征图之间的平方误差,更新深度并行计算框架内的参数;根据认知模块中得到的返回信息和优先度计算模块中得到的最终优先度结果,通过缩小最终优先度与返回信息之间的差异,更新深度并行计算框架内的参数。
优选地,所述深度并行计算框架,包括:
L层残差模块:其中每一层残差模块均包括数据压缩层和批归一化层,所述数据压缩层的卷积核大小为3×3,经过L层残差模块的过程不改变多通道游戏数据的大小;
第L+1层特征调整模块:包括如下两部分:
-第一部分,调整特征图尺寸后经过softmax函数计算节点初始优先度;
-第二部分,调整多通道游戏数据尺寸后经过tanh函数计算对返回信息的估计。
优选地,所述L取值为10。
与现有技术相比,本发明具有如下有益效果:
1、本发明提供的游戏人工智能系统的加速方法及系统,采用深度并行计算框架,完全利用网络数据集和机器生成数据更新并行计算框架参数,并非人工设计,提高了系统性能,降低了硬件消耗。相比免模型的强化学习技术,本发明通过深度并行计算框架,使得数据处理性能得到了大幅提升,稳定性也得到了大幅提高。尤其在基础局面上,本发明出错率大大减少,由于崩溃情况大大减少,通过本发明提供的方法及系统进行性能提升的游戏人工智能系统,在同等硬件条件下表现明显优于其他现有技术。
2、本发明提供的游戏人工智能系统的加速方法及系统,相比在分布式系统上使用数千块GPU的技术,本发明仅需4块左右GPU和普通配置的CPU,普通研究者或团队可在7天内运行并复现结果,且无需分布式等跨机器技术,也无需搭建大数据平台,采用的深度并行计算框架,也是依赖于numpy科学计算库和pytorch的深度学习框架。
3、本发明提供的游戏人工智能系统的加速方法及系统,仅需1万局专业棋谱作为训练数据,所有棋谱数据均可在互联网上获得。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例中所提供的游戏人工智能系统的加速方法及系统的总体结构图;图中,第一行为多通道游戏数据,第二行为深度并行计算框架,第三行为深度并行计算框架所抽取的特征图。
具体实施方式
下面对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
请参阅图1,本发明实施例提供了一种游戏人工智能系统的加速方法,包括:
S0:输入多通道游戏数据,根据游戏逻辑得到返回信息;该步骤的具体实现与游戏种类有关;
S1:使用深度并行计算框架计算节点优先度初始值和返回信息近似值,中间会产生特征图,用于S2中的数据节点生成时节点信息的初始化以及S3中的深度并行框架参数更新;
S2:利用S1计算得到的节点优先度初始值形成树形结构,生成新的数据节点,并填入认知模块计算得到的节点优先度初始值作为数据节点信息,再将S1中得到的返回信息近似值填入数据节点,然后将数据节点信息回传,更新各个数据节点保存的信息,输出一个行动后验预测结果,即为最终优先度,用于S3中深度并行计算框架参数的更新;
S3a:根据S0的返回信息和S2的计算结果,通过缩小计算结果与S0、S2返回信息间的差异,更新深度并行计算框架内的参数。该步骤是通过更新参数的方式加强游戏系统的性能;
S3b:根据S2的计算结果,通过对计算结果的调整,缩小相邻多通道游戏数据间优先度的差异,更新深度并行计算框架内的系数。该步骤是通过上述方式加快系统更新的速度。
本发明上述实施例利用多通道游戏数据固有的低方差性质,约束深度并行计算框架型的更新,使得深度并行计算框架在与环境交互前就可以开始执行,从而减少了训练数据的数量,降低了硬件消耗并缩短了数据处理时间,大大提升了系统性能。训练好的游戏AI系统可以达到当今最高水平附近,在一些优选的实施例中,所用计算资源在4核CPU和4块普通显卡以内。
在一优选实施例中,S0中,输入多通道游戏数据,根据游戏种类实现游戏逻辑,输出返回信息。例如围棋输出1(黑方胜利),-1(白方胜利);Atari游戏输出最终的得分。该返回信息用于S3更新深度并行计算框架的系数。
在一优选实施例中,S1中,使用深度并行计算框架,输入多通道游戏数据,经过L个残差块,最终输出初始优先度和对返回信息的近似估计。更进一步地,S1中,采用的深度并行计算框架,包括:
L层残差模块:其中每一层残差模块均包括数据压缩层和批归一化层,数据压缩层的卷积核大小为3×3,步长为1,批归一化层计算输入多通道游戏数据的均值和方差,使其每一维归一化到[0,1]范围内,用于系统提升加速和稳定。经过L层残差模块的过程不改变多通道游戏数据的大小。
进一步的,第L+1层特征调整模块:包括如下两部分:
-第一部分,调整特征图尺寸后经过softmax函数计算节点初始优先度;
-第二部分,调整多通道游戏数据尺寸后经过tanh函数计算对返回信息的估计。
在一优选实施例中,S2中,树形结构的数据节点间建立连接,其中每一个数据节点均用于存储如下信息:
-节点优先度初始值,代表选择该数据节点的优先程度,由S1计算得到;
-访问次数,代表该数据节点被访问过的次数;
-平均结果信息,由S1计算得到的返回信息近似值累计平均值得来;
重复以下4个步骤:
-选择:树形模拟采用最优优先原则,即每一层按高节点初始值、低访问次数、高动作值的原则访问子数据节点,最终到达的末端节点即为被选择的数据节点;
-展开:根据S1中的计算,初始化末端节点下的所有合法节点,节点初始值初始化为S1中计算的节点优先度初始值,访问次数和平均返回信息近似值初始化为0;
-评估:得到S1中对末端节点的返回信息近似值;
-回传:向上逐层更新数据节点信息,直至初始数据节点;具体地,访问次数自增1,平均返回信息近似值累加评估后,取平均值;
以上步骤重复多次后,利用每个子数据节点的访问次数除以所有子数据节点访问次数之和,计算选择每个行动的最终优先度。
在一优选实施例中,形成树形结构后,选定一条最优路径,方法是:每层选访问次数最多的节点,这些节点形成的序列就是最优路径。在遍历节点的同时,用深度并行计算框架计算它们的返回值估值v,它们的平均值
Figure BDA0002447892820000071
作为更新的目标。如果用其他原则选择节点,则稳定性会有所下降。
在一优选实施例中,S3中,根据模型理论上固有的路径一致性性质,更新深度并行计算框架的参数,更新按如下公式进行:
Figure BDA0002447892820000072
该公式是平方误差损失,用于缩小最优路径上返回近似值的方差,达到加速的效果,LS3是最终的平方误差损失,v是深度并行计算框架给出的返回信息近似值,
Figure BDA0002447892820000073
是最优路径上优先度的平均值。
在S2选定最终优先度最大的节点后,会形成另一个新的多通道游戏数据,将这两个相邻的多通道游戏数据送入S1的深度并行计算框架,形成两个高维游戏特征图,根据如下公式更新深度并行计算框架的系数:
L=(F1-F2)2
其中,L为特征图平方误差,F1是前一个高维游戏特征图,F2是后一个高维游戏特征图,该公式计算两者之间的平方误差,通过缩小该误差实现路径一致性性质。这里特征图是深度并行计算框架的中间计算结果,通常为更高维的多通道游戏数据,计算平方误差时,是计算各个维度计算差的平方然后求和。
同时,还可以通过S0得到的返回信息,更新深度并行计算框架的系数,更新按如下公式进行:
LS4=-πlogp+(v-z)2+c||θ||2
其中,LS4为总损失,第一项-πlogp是交叉熵机制,用于计算框架输出的节点优先度初始值与数据集记录的优先度之间的差异,π是S2中得到的最终优先度,p是深度并行计算框架给出的节点优先度初始值;第二项(v-z)2是平方误差损失,用于计算框架输出的返回信息近似值与根据游戏胜负返回的二值信息之间的差异,z是游戏结束时S0根据胜负返回的二值信息,v是深度并行计算框架给出的返回信息近似值;第三项c||θ||2是正则项,用于缩小框架的规模,θ是深度并行计算框架的全部参数,c是用于控制正则项的系数。
在一优选实施例中,深度并行计算框架在S3中需要更新的参数包括:卷积核的权重和偏置;批归一化层的参数;计算优先度时的权重和偏置;计算返回近似值的权重和偏置。
基于本发明实施例所提供的游戏人工智能系统的加速方法,本发明实施例同时提供了一种游戏人工智能系统的加速系统,系统能够用于执行方法。
在另一实施例中,本发明提供一种游戏人工智能系统的加速系统,包括:
数据处理模块:对于输入的多通道游戏数据,根据游戏逻辑得到返回信息;对于输入的多通道游戏数据,使用深度并行计算框架计算节点优先度初始值和返回信息近似值;
优先度计算模块:利用认知模块中计算得到的节点优先度初始值形成树形结构,生成新的数据节点,并填入认知模块计算得到的节点优先度初始值作为数据节点信息,再将认知模块中计算得到的返回信息近似值填入数据节点,然后将数据节点信息回传,更新各个数据节点保存的信息,输出一个行动后验预测结果,即为最终优先度;另外,按最大访问次数原则取得最优路径;
更新模块:根据优先度计算模块中得到的最终优先度结果,通过缩小相邻多通道游戏数据优先度之间的差异,更新深度并行计算框架内的参数;根据认知模块中得到的返回信息和优先度计算模块中得到的最终优先度结果,通过缩小最终优先度与返回信息之间的差异,更新深度并行计算框架内的参数。
在一优选实施例中,数据处理模块的深度并行计算框架,包括:
L层残差模块:其中每一层残差模块均包括数据压缩层和批归一化层,数据压缩层的卷积核大小为3×3,经过L层残差模块的过程不改变多通道游戏数据的大小;
第L+1层特征调整模块:包括如下两部分:
-第一部分,调整特征图尺寸后经过softmax函数计算节点初始优先度;
-第二部分,调整多通道游戏数据尺寸后经过tanh函数计算对返回信息的估计。
在一具体实施例中,上述的L取值为10。当然,在其他实施例中也可以是其他数值,具体根据实际应用需求进行设定。
本发明上述实施例提供的游戏人工智能系统的加速方法及系统,完全利用网络数据集和机器生成数据训练得到启发函数,并未采用人工启发函数。相比免模型的强化学习技术,本发明上述实施例提供的游戏人工智能系统的加速方法及系统,虽然在计算最终优先度的过程中引入了深度并行计算框架作为计算模型,但通过该深度并行计算框架,性能得到了大幅提升,稳定性也得到了大幅提高。尤其在基础局面上,本发明上述实施例提供的游戏人工智能系统的加速方法及系统,出错率大大减少,由于崩溃情况大大减少,通过本发明上述实施例提供的技术方案进行性能提升的系统在同等硬件条件下表现明显优于其他现有技术。
本发明上述实施例提供的游戏人工智能系统的加速方法及系统,相比在分布式系统上使用数千块GPU的技术,本发明仅需4块左右GPU和普通配置的CPU,普通研究者或团队可在7天内运行并复现结果,且无需分布式等跨机器技术,也无需搭建大数据平台,采用的深度并行计算框架,也是依赖于numpy科学计算库和pytorch的深度学习框架。本发明上述实施例提供的游戏人工智能系统的加速方法及系统,仅需1万局专业棋谱作为训练数据,所有棋谱数据均可在互联网上获得。
采用本发明上述实施例提供的游戏人工智能系统的加速方法及系统的游戏人工智能系统,Hex棋达到目前已有程序中最高水平。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (8)

1.一种游戏人工智能系统的加速方法,其特征在于,包括:
S0:输入多通道游戏数据,根据游戏逻辑得到返回信息;
S1:输入多通道游戏数据,使用深度并行计算框架计算节点优先度初始值和返回信息近似值,并产生特征图,用于S3缩小其间的平方误差;
S2:利用S1中计算得到的节点优先度初始值形成树形结构,生成新的数据节点,并填入S1得到的节点优先度初始值作为数据节点信息,再将S1中得到的返回信息近似值填入数据节点,然后将数据节点信息回传,更新各个数据节点保存的信息,输出一个行动后验预测结果,该结果为最终优先度;按最大访问次数原则取得由一系列多通道游戏数据及对应返回近似值组成的最优路径;
S3:根据S2中得到的最终优先度,通过缩小相邻多通道游戏数据优先度之间的差异以及相邻多通道游戏数据的特征图之间的平方误差,更新深度并行计算框架内的参数;
根据S0中得到的返回信息和S2中得到的最终优先度,通过缩小最终优先度与返回信息之间的差异,更新深度并行计算框架内的参数;
所述S3中:
缩小相邻多通道游戏数据优先度之间的差异的方法是:最小化S2中所取得最优路径上各个多通道游戏数据的返回近似值的方差;
缩小两个相邻多通道游戏数据的特征图之间的平方误差的方法是:计算特征图对应差值平方并求和,然后通过更新并行计算框架的方式缩小该值;
缩小最终优先度与返回信息间差异的方法是:最小化节点优先度初始值和最终优先度之间的交叉熵,最小化返回信息近似值与返回信息之间的平方误差。
2.根据权利要求1所述的游戏人工智能系统的加速方法,其特征在于,所述S0中,输入多通道游戏数据,根据具体棋类的规则和逻辑,输出判定后得到的返回信息。
3.根据权利要求1所述的游戏人工智能系统的加速方法,其特征在于,所述S1中,深度并行计算框架,包括L层的残差模块和第L+1层的特征调整模块,其中,多通道游戏数据经过L层的残差模块的过程,数据维度不变,用于对数据进行压缩操作和批归一化处理;所述第L+1层的特征调整模块包括如下两部分:
-第一部分,调整特征图尺寸后经过softmax函数计算输出节点初始优先度;
-第二部分,调整多通道游戏数据尺寸后经过tanh函数计算输出对返回信息的估计;
其中:
节点优先度初始值,即第L+1层的特征调整模块第一部分计算输出的节点初始优先度,为一个362维数组,作为S2中的节点优先度初始值;
返回信息近似值,即第L+1层的特征调整模块第二部分计算输出的返回信息的估计,为一个标量,作为S2中生成的数据节点的价值初始值。
4.根据权利要求3所述的游戏人工智能系统的加速方法,其特征在于,每一层所述残差模块均包括数据压缩层和批归一化层,分别用于对数据进行压缩操作和批归一化处理;其中,所述数据压缩层的卷积核大小为3×3。
5.根据权利要求1所述的游戏人工智能系统的加速方法,其特征在于,所述S2中,树形结构的数据节点间建立连接,其中每一个数据节点均用于存储如下信息:
-节点优先度初始值,代表选择该数据节点的优先程度,由S1计算得到;
-访问次数,代表该数据节点被访问过的次数;
-平均结果信息,由S1计算得到的返回信息近似值累计平均值得来;
重复以下4个步骤:
-选择:树形模拟采用最优优先原则,即每一层按高节点初始值、低访问次数、高动作值的原则访问子数据节点,最终到达的末端节点即为被选择的数据节点;
-展开:根据S1中的计算,初始化末端节点下的所有合法节点,节点初始值初始化为S1中计算的节点优先度初始值,访问次数和平均返回信息近似值初始化为0;
-评估:得到S1中对末端节点的返回信息近似值;
-回传:向上逐层更新数据节点信息,直至初始数据节点;具体地,访问次数自增1,平均返回信息近似值累加评估后,取平均值;
以上步骤重复多次后,利用每个子数据节点的访问次数除以所有子数据节点访问次数之和,计算选择每个行动的最终优先度。
6.一种游戏人工智能系统的加速系统,其特征在于,包括:
数据处理模块:对于输入的多通道游戏数据,根据游戏逻辑得到返回信息;对于输入的多通道游戏数据,使用深度并行计算框架计算节点优先度初始值和返回信息近似值;
优先度计算模块:利用认知模块中计算得到的节点优先度初始值形成树形结构,生成新的数据节点,并填入认知模块计算得到的节点优先度初始值作为数据节点信息,再将认知模块中计算得到的返回信息近似值填入数据节点,然后将数据节点信息回传,更新各个数据节点保存的信息,输出一个行动后验预测结果,该结果为最终优先度;另外,按最大访问次数原则取得由多通道游戏数据及对应返回近似值组成的最优路径;
更新模块:根据优先度计算模块中得到的最终优先度结果,通过缩小相邻多通道游戏数据优先度之间的差异以及相邻多通道游戏数据的特征图之间的平方误差,更新深度并行计算框架内的参数;根据认知模块中得到的返回信息和优先度计算模块中得到的最终优先度结果,通过缩小最终优先度与返回信息之间的差异,更新深度并行计算框架内的参数;
缩小相邻多通道游戏数据优先度之间的差异的方法是:最小化所述优先度计算模块中所取得最优路径上各个多通道游戏数据的返回近似值的方差;缩小两个相邻多通道游戏数据的特征图之间的平方误差的方法是:计算特征图对应差值平方并求和,然后通过更新并行计算框架的方式缩小该值;缩小最终优先度与返回信息间差异的方法是:最小化节点优先度初始值和最终优先度之间的交叉熵,最小化返回信息近似值与返回信息之间的平方误差。
7.根据权利要求6所述的游戏人工智能系统的加速系统,其特征在于,所述深度并行计算框架,包括:
L层残差模块:其中每一层残差模块均包括数据压缩层和批归一化层,所述数据压缩层的卷积核大小为3×3,经过L层残差模块的过程不改变多通道游戏数据的大小;
第L+1层特征调整模块:包括如下两部分:
-第一部分,调整特征图尺寸后经过softmax函数计算节点初始优先度;
-第二部分,调整多通道游戏数据尺寸后经过tanh函数计算对返回信息的估计。
8.根据权利要求7所述的游戏人工智能系统的加速系统,其特征在于,所述L取值为10。
CN202010284304.0A 2020-04-13 2020-04-13 游戏人工智能系统的加速方法及系统 Active CN111617479B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010284304.0A CN111617479B (zh) 2020-04-13 2020-04-13 游戏人工智能系统的加速方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010284304.0A CN111617479B (zh) 2020-04-13 2020-04-13 游戏人工智能系统的加速方法及系统

Publications (2)

Publication Number Publication Date
CN111617479A CN111617479A (zh) 2020-09-04
CN111617479B true CN111617479B (zh) 2021-12-24

Family

ID=72267045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010284304.0A Active CN111617479B (zh) 2020-04-13 2020-04-13 游戏人工智能系统的加速方法及系统

Country Status (1)

Country Link
CN (1) CN111617479B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113599798B (zh) * 2021-08-25 2023-03-17 上海交通大学 基于深度强化学习方法的中国象棋博弈学习方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108876702A (zh) * 2018-06-21 2018-11-23 北京邮电大学 一种加速分布式深度神经网络的训练方法及装置
CN109409024A (zh) * 2018-12-25 2019-03-01 福州大学 基于一维深度残差网络的光伏组件电压电流特性建模方法
CN109741797A (zh) * 2018-12-10 2019-05-10 中国药科大学 一种利用深度学习技术预测小分子化合物水溶性等级的方法
CN109818786A (zh) * 2019-01-20 2019-05-28 北京工业大学 一种云数据中心应用可感知的分布式多资源组合路径最优选取方法
CN110175566A (zh) * 2019-05-27 2019-08-27 大连理工大学 一种基于rgbd融合网络的手部姿态估计系统及方法
CN110189334A (zh) * 2019-05-28 2019-08-30 南京邮电大学 基于注意力机制的残差型全卷积神经网络的医学图像分割方法
CN110909890A (zh) * 2019-12-04 2020-03-24 腾讯科技(深圳)有限公司 游戏人工智能训练方法、装置及服务器和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190340495A1 (en) * 2018-05-02 2019-11-07 Linden David Aites Path Stack Neural Network AI
CN109413707B (zh) * 2018-08-03 2021-10-08 南京工业大学 无线网络环境下基于深度强化学习技术的智能路由方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108876702A (zh) * 2018-06-21 2018-11-23 北京邮电大学 一种加速分布式深度神经网络的训练方法及装置
CN109741797A (zh) * 2018-12-10 2019-05-10 中国药科大学 一种利用深度学习技术预测小分子化合物水溶性等级的方法
CN109409024A (zh) * 2018-12-25 2019-03-01 福州大学 基于一维深度残差网络的光伏组件电压电流特性建模方法
CN109818786A (zh) * 2019-01-20 2019-05-28 北京工业大学 一种云数据中心应用可感知的分布式多资源组合路径最优选取方法
CN110175566A (zh) * 2019-05-27 2019-08-27 大连理工大学 一种基于rgbd融合网络的手部姿态估计系统及方法
CN110189334A (zh) * 2019-05-28 2019-08-30 南京邮电大学 基于注意力机制的残差型全卷积神经网络的医学图像分割方法
CN110909890A (zh) * 2019-12-04 2020-03-24 腾讯科技(深圳)有限公司 游戏人工智能训练方法、装置及服务器和存储介质

Also Published As

Publication number Publication date
CN111617479A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN110404264B (zh) 一种基于虚拟自我对局的多人非完备信息博弈策略求解方法、装置、系统及存储介质
Holland Genetic algorithms
CN109621422A (zh) 电子棋牌决策模型训练方法及装置、策略生成方法及装置
CN106485317A (zh) 一种神经网络加速器以及神经网络模型的实现方法
CN111729300A (zh) 基于蒙特卡洛树搜索和卷积神经网络斗地主策略研究方法
CN111582311A (zh) 基于强化学习利用动态奖励示例样本训练智能体的方法
CN111506514B (zh) 一种应用于消除类游戏的智能测试方法及系统
CN113599798A (zh) 基于深度强化学习方法的中国象棋博弈学习方法及系统
CN111617479B (zh) 游戏人工智能系统的加速方法及系统
CN111282272B (zh) 信息处理方法、计算机可读介质及电子设备
CN110458295B (zh) 基于人工智能的棋牌关卡生成方法、训练方法及装置
CN112801299B (zh) 奖惩机制演化博弈模型构建方法、系统及应用
CN111330255B (zh) 一种基于深度卷积神经网络的亚马逊棋招法生成方法
CN112691383A (zh) 一种基于虚拟遗憾最小化算法的德州扑克ai训练方法
Li et al. Improved Feature Learning: A Maximum‐Average‐Out Deep Neural Network for the Game Go
Huang et al. The influence of aggressive behavior on cooperation evolution in social dilemma
CN111178541B (zh) 游戏人工智能系统及其性能提升系统及方法
Khamesian et al. Hybrid self-attention NEAT: a novel evolutionary self-attention approach to improve the NEAT algorithm in high dimensional inputs
Moradi Karkaj et al. Using estimation of distribution algorithm for procedural content generation in video games
Li et al. Improved online sequential extreme learning machine: a new intelligent evaluation method for AZ-style algorithms
Engelsvoll et al. Generating levels and playing Super Mario Bros. with deep reinforcement learning using various techniques for level generation and deep q-networks for playing
CN114048833B (zh) 基于神经网络虚拟自我对局的多人、大规模非完全信息博弈方法及装置
Yang et al. A Modified multi-size convolution neural network for winner prediction based on time serial datasets
AU2017101804A4 (en) Method of intelligent Gomoku system based on reinforcement learning
Sathi et al. Cooperation Dynamics in Multi-Agent Systems: Exploring Game-Theoretic Scenarios with Mean-Field Equilibria

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant