CN112402986B - 一种对战游戏中强化学习模型的训练方法及装置 - Google Patents

一种对战游戏中强化学习模型的训练方法及装置 Download PDF

Info

Publication number
CN112402986B
CN112402986B CN202011299118.0A CN202011299118A CN112402986B CN 112402986 B CN112402986 B CN 112402986B CN 202011299118 A CN202011299118 A CN 202011299118A CN 112402986 B CN112402986 B CN 112402986B
Authority
CN
China
Prior art keywords
model
fighting
target
fight
battle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011299118.0A
Other languages
English (en)
Other versions
CN112402986A (zh
Inventor
陈光伟
李思琴
王亮
付强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011299118.0A priority Critical patent/CN112402986B/zh
Publication of CN112402986A publication Critical patent/CN112402986A/zh
Application granted granted Critical
Publication of CN112402986B publication Critical patent/CN112402986B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/80Special adaptations for executing a specific game genre or game mode
    • A63F13/843Special adaptations for executing a specific game genre or game mode involving concurrently two or more players on the same game device, e.g. requiring the use of a plurality of controllers or of a specific view of game data for each player
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请提供一种对战游戏中强化学习模型的训练方法及装置,属于计算机技术领域,涉及人工智能和计算机视觉技术。方法包括:获取目标对战模型以及所述目标对战模型的相近对手模型,所述相近对手模型为与所述目标对战模型的等级评分之差小于评分阈值的历史对战模型,所述等级评分用于评价模型的对战能力;基于对战双方的对战状态特征,分别确定所述目标对战模型的预测操作以及所述相近对手模型的预测操作;利用所述目标对战模型以及所述相近对手模型分别控制对战双方执行预测操作以进行对战;确定对战中所述目标对战模型的操作价值;基于所述对战状态特征、所述预测操作以及所述操作价值训练所述目标对战模型。

Description

一种对战游戏中强化学习模型的训练方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种对战游戏中强化学习模型的训练方法及装置。
背景技术
MOBA(Multiplayer Online Battle Arena,多人在线战术竞技游戏),又被称为ARTS(Action Real-Time Strategy,动作即时战略游戏)。这类游戏的玩法在战斗中一般需要购买装备,玩家通常被分为两个或多个敌对阵营,在分散的游戏地图中互相竞争,每个玩家都通过界面控制所选的虚拟角色与对方进行对战。在游戏中,双方阵营的虚拟角色可以由玩家控制进行对战,也可以为玩家和AI(Artificial Intelligence,人工智能)分别控制不同阵营的虚拟角色进行对战。
由于多人对战游戏设计中存在英雄强度、难度不平衡的情况,这种不平衡容易导致阵容不平衡,而传统的强化学习训练过程中以一定概率自对弈或从历史对手池中随机选择对手,这种训练方式在训练AI时会造成弱势阵容被强势阵容压制,导致AI的探索能力大幅下降,模型训练效率较差,AI能力无法达到预期。
发明内容
为解决相关技术中存在的技术问题,本申请实施例提供一种对战游戏中强化学习模型的训练方法及装置,可以提高模型学习时的探索能力,提高模型的训练效率。
为达到上述目的,本申请实施例的技术方案是这样实现的:
一方面,本申请实施例提供一种对战游戏中强化学习模型的训练方法,所述方法包括:
获取目标对战模型以及所述目标对战模型的相近对手模型,所述相近对手模型为与所述目标对战模型的等级评分之差小于评分阈值的历史对战模型,所述等级评分用于评价模型的对战能力;
基于对战双方的对战状态特征,分别确定所述目标对战模型的预测操作以及所述相近对手模型的预测操作;
利用所述目标对战模型以及所述相近对手模型分别控制对战双方执行预测操作以进行对战;
确定对战中所述目标对战模型的操作价值;
基于所述对战状态特征、所述预测操作以及所述操作价值训练所述目标对战模型。
另一方面,本申请实施例还提供一种对战游戏中强化学习模型的训练装置,所述装置包括:
获取模块,用于获取目标对战模型以及所述目标对战模型的相近对手模型,所述相近对手模型为与所述目标对战模型的等级评分之差小于评分阈值的历史对战模型,所述等级评分用于评价模型的对战能力;
预测模块,用于基于对战双方的对战状态特征,分别确定所述目标对战模型的预测操作以及所述相近对手模型的预测操作;
对战模块,用于利用所述目标对战模型以及所述相近对手模型分别控制对战双方执行预测操作以进行对战;
价值模块,用于确定对战中所述目标对战模型的操作价值;
训练模块,用于基于所述对战状态特征、所述预测操作以及所述操作价值训练所述目标对战模型。
一种可选的实施例中,所述获取模块,具体用于:
确定所述目标对战模型的多个历史对战模型;
利用每两个历史对战模型分别控制对战双方进行对战,得到历史对战模型的对战结果;
根据对战结果,确定每个历史对战模型的等级评分以及所述目标对战模型的等级评分;
利用与所述目标对战模型的等级评分之差小于评分阈值的历史对战模型形成相似模型集合;
从所述相似模型集合中获取所述目标对战模型的相近对手模型。
一种可选的实施例中,所述获取模块,具体用于:
根据历史对战模型的保存时间,按照等时差规则从所有历史对战模型中获取等时差模型;
利用每两个等时差模型分别控制对战双方进行对战,得到每个等时差模型的对战结果;
根据对战结果,确定每个等时差模型的等级评分;
根据等时差模型的等级评分、等时差模型的保存时间以及其余历史对战模型的保存时间,确定每个历史对战模型的等级评分;
根据等时差模型的等级评分、等时差模型的保存时间以及所述目标对战模型的保存时间,确定所述目标对战模型的等级评分。
一种可选的实施例中,所述预测模块,具体用于:
获取第一对战状态特征和第二对战状态特征,所述第一对战状态特征与所述第二对战状态特征分别为对战双方的对战状态特征;
将所述第一对战状态特征输入所述目标对战模型,输出第一预测操作;
将所述第二对战状态特征输入所述相近对手模型,输出第二预测操作;
所述对战模块,具体用于:
利用所述目标对战模型控制第一游戏角色执行所述第一预测操作,且利用所述相近对手模型控制第二游戏角色执行所述第二预测操作,以进行对战。
一种可选的实施例中,所述获取模块,具体用于获取N个相近对手模型;
所述游戏角色,具体用于利用所述目标对战模型与N个相近对手模型分别控制对战双方执行预测操作以进行N次对战;
利用所述目标对战模型控制对战双方执行预测操作以进行M次自对弈;其中,N与M为超参数,且N与M之和为设定参数。
一种可选的实施例中,所述价值模块,具体用于:
确定所述目标对战模型控制游戏角色执行所述预测操作之前,所述游戏角色的对战前状态特征;
确定所述目标对战模型控制所述游戏角色执行所述预测操作之后,所述游戏角色的对战后状态特征;
根据所述对战前状态特征和所述对战后状态特征,确定所述目标对战模型的操作价值。
一种可选的实施例中,所述预测模块,还用于:
获取历史对战视频数据;
从所述历史对战视频数据中抽取对战视频帧;
确定所述对战视频帧中的各状态特征区域;
对各所述状态特征区域进行状态特征提取,获得对战状态特征。
另一方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现第一方面的对战游戏中强化学习模型的训练方法。
另一方面,本申请实施例还提供一种电子设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器实现第一方面的对战游戏中强化学习模型的训练方法。
本申请实施例的对战游戏中强化学习模型的训练方法,获取目标对战模型的相近对手模型作为目标对战模型的对战对手,相近对手模型为与目标对战模型的等级评分之差小于评分阈值的历史对战模型,其中等级评分用于评价模型的对战能力。训练过程中,基于对战双方的对战状态特征,分别确定目标对战模型的预测操作以及相近对手模型的预测操作,利用目标对战模型以及相近对手模型分别控制对战双方执行预测操作以进行对战,并确定对战中模板对战模型的操作价值。基于对战状态特征、预测操作以及操作价值训练所述目标对战模型。不同于随机选择历史对战模型作为目标对战模型的对战对手,本申请实施例的训练过程从历史对手模型中挑选出与目标对战模型对战能力相近的模型与目标对战模型进行对战,从而平衡了训练过程中对战双方的对战能力,提高了模型学习时的探索能力,提高了模型的训练效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为相关技术中针对强化模型的对战训练方案的流程示意图;
图2为本申请实施例中对战游戏中强化学习模型的训练方法的应用架构示意图;
图3为本申请实施例中强化学习模型的训练系统结构图;
图4为本申请实施例中一种对战游戏中强化学习模型的训练方法的流程图;
图5为本申请实施例中一种对战游戏的对战视频帧中操作界面示意图;
图6为本申请实施例提供的一种控制游戏角色执行预测操作的操作界面示意图;
图7为本申请实施例提供的一种等级分的计算方法示意图;
图8为本申请实施例提供的一种对战游戏中强化学习模型的训练装置的结构示意图;
图9为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
下文中所用的词语“示例性”的意思为“用作例子、实施例或说明性”。作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
文中的术语“第一”、“第二”仅用于描述目的,而不能理解为明示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征,在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
以下对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
MOBA(Multiplayer Online Battle Arena,多人在线战术竞技游戏):又被称为动作即时战略游戏。这类游戏的玩法是:在战斗中一般需要购买装备,玩家通常被分为两队,两队在分散的游戏地图中互相竞争,每个玩家都通过界面控制所选的角色。这类游戏通常无需操作建筑群、资源、训练兵种等组织单位,玩家只控制自己所选的角色。
AI(Artificial Intelligence,人工智能):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、语音处理技术、以及机器学习/深度学习等几大方向。
RL(Reinforcement Learning,强化学习):强化学习灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能够获得最大利益的习惯性行为。强化学习没有任何的标签来告诉算法应该怎么做,它会先去尝试做一些动作,然后得到一个结果,通过判断这个结果是对还是错来对之前的动作进行反馈。
自对弈(Self-Play):是一种无监督学习方法,是机器学习从自我对局中学习探索的强化学习算法。
ELO(等级分)一种衡量各类对弈活动水平的评价方法,是当今对弈水平评估的公认的权威方法,被广泛用于国际象棋、围棋、足球、篮球等运动。
下面结合附图及具体实施例对本申请作进一步详细的说明。
为了解决对战游戏中因对战双方阵容能力不平衡导致的模型训练效率低下,模型策略缺少多样性,训练得到的AI探索能力较弱的问题,本申请实施例提供了一种对战游戏中强化学习模型的训练方法和装置。本申请实施例涉及人工智能(ArtificialIntelligence,AI)、机器学习(Machine Learning,ML)技术和云技术(Cloud technology),基于人工智能中的计算机视觉(Computer Vision,CV)技术、机器学习和云技术而设计。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、语音处理技术、以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能在多个领域展开研究和应用,例如常见的智能家居、图像检索、视频监控、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗等,相信随着技术的发展,人工智能将在更多的领域得到应用,并发挥越来越重要的价值。
计算机视觉技术是人工智能的重要应用,其研究相关的理论和技术,试图建立能够从图像、视频或者多维数据中获取信息,以代替人的视觉判读的人工智能系统。典型的计算机视觉技术通常包括图像处理和视频分析。本申请实施例提供的视频筛选方法属于视频分析的一种方法。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。本申请实施例在训练对战游戏的AI过程中,利用基于强化学习的目标对战模型和相近对手模型确定预测操作,再利用目标对战模型以及相近对手模型分别控制对战双方执行预测操作进行对战,以获取目标对战模型的操作价值,并基于对战状态特征、预测操作以及操作价值训练目标对战模型。
云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。
按照逻辑功能划分,在IaaS(Infrastructure as a Service,基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层,PaaS层之上再部署SaaS(Software as a Service,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,SaaS和PaaS相对于IaaS是上层。
本申请实施例提供的对战游戏中强化学习模型的训练方法可以应用于多人对战游戏的AI训练场景,例如,在MOBA类游戏中,如英雄联盟、王者荣耀等,玩家分成两个敌对阵营,通过对抗竞争最终摧毁敌方的水晶来赢得比赛,玩家也可以选择与游戏AI进行对战,即玩家和游戏AI分别选择敌对双方中的一方阵营。实际应用中,本申请实施例中的模型训练方法可以应用于两个对战阵容的对战游戏,也可以应用于多个对战阵容的对战游戏,或者应用于其他类型的对战游戏。
在多人对战游戏的模型训练过程中,通过模型控制对战双方进行对战来产生训练数据。图1示出了相关技术中针对强化模型的对战训练方案的流程示意图。传统的对战训练方案为目标对战模型80%的对局为自对弈,即最新模型分别控制对战双方;20%的对局为目标对战模型与历史模型池中随机挑选历史对战模型作为对手进行对战,其中历史对战模型为在目标对战模型之前训练得到的模型。
由于多人对战游戏中,对战角色的强度不同,而这种角色的不平衡性会导致对战双方阵容的不平衡。在对战过程中,若对战双方阵容强度差距较大,会导致强势阵容一直碾压弱势阵容,这样训练过程中AI无法探索,模型的策略缺少多样性,导致收敛后的AI能力较弱。
同时,在多人对战游戏中,对战双方阵容的不平衡导致对战双方阵容模型学习的难度不一致。若某阵容内存在学习难度较高的角色,模型在该阵容上学习缓慢,导致学习难度较低阵容能力强于学习难度较高阵容。同样会影响AI探索,导致AI能力较弱。
因此,本申请实施例中提供了一种对战游戏中强化学习模型的训练方法。不同于随机选择历史对战模型作为目标对战模型的对战对手,本申请实施例的训练过程从历史对手模型中挑选出与目标对战模型对战能力相近的模型与目标对战模型进行对战,从而平衡了训练过程中对战双方的对战能力,提高了模型学习时的探索能力,提高了模型的训练效率。
参阅图2所示,为本申请实施例中对战游戏中强化学习模型的训练方法的应用架构示意图,包括服务器100、终端设备200。
终端设备200与服务器100之间可以通过互联网相连,实现相互之间的通信。可选地,上述的互联网使用标准通信技术和/或协议。互联网通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan AreaNetwork,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible Markup Language,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure SocketLayer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(VirtualPrivate Network,VPN)、网际协议安全(Internet Protocol Security,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
服务器100可以为终端设备200提供各种网络服务,服务器100可以采用云计算技术进行信息处理。其中,服务器100可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
具体地,服务器100可以包括处理器110(Center Processing Unit,CPU)、存储器120、输入设备130和输出设备140等,输入设备130可以包括键盘、鼠标、触摸屏等,输出设备140可以包括显示设备,如液晶显示器(Liquid Crystal Display,LCD)、阴极射线管(Cathode Ray Tube,CRT)等。
存储器120可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器110提供存储器120中存储的程序指令和数据。在本发明实施例中,存储器120可以用于存储本申请实施例中对战游戏中强化学习模型的训练方法的程序。
处理器110通过调用存储器120存储的程序指令,处理器110用于按照获得的程序指令执行本发明实施例中任一种对战游戏中强化学习模型的训练方法的步骤。
终端设备200为可以安装各类应用程序,并且能够将已安装的应用程序的运行界面进行显示的电子设备,该电子设备可以是移动的,也可以是固定的。例如,手机、平板电脑、各类可穿戴设备、车载设备或其它能够实现上述功能的电子设备等。
终端设备200上可以安装游戏的客户端。终端设备200加载对战系统进行对战,产生历史对战视频数据,服务器100从历史对战视频数据的对战视频帧中各状态特征区域获得用于训练的对战状态特征。服务器100中还存有多个历史对战模型以及每个历史对战模型的等级评分。针对最新的目标对战模型,服务器100从所有历史对战模型中挑选出与目标对战模型等级评分之差小于评分阈值的相近对手模型。基于对战双方的对战状态特征,分别确定目标对战模型的预测操作以及相近对手模型的预测操作。利用目标对战模型以及相近对手模型分别控制对战双方执行预测操作以进行对战,并确定对战中目标对战模型的操作价值。基于对战状态特征、预测操作以及操作价值训练目标对战模型。目标对战模型可以在终端设备200或服务器100中运行进行对战。
需要说明的是,本申请提供的对战游戏中强化学习模型的训练方法可以应用于服务器100,也可以应用到客户端或网页中,由终端设备200实施本申请提供的对战游戏中强化学习模型的训练方法,还可以由服务器100与终端设备200中的客户端配合完成。
图3示出了本申请实施例中强化学习模型的训练系统结构图。该系统可以应用于服务器100,也可以应用到客户端或网页中,由终端设备200实施本申请提供的对战游戏中强化学习模型的训练方法,还可以由服务器100与终端设备200中的客户端配合完成。其中:
离线部分包括离线对战模块、ELO计算模块和ELO估计模块。
离线对战模块,用于定时从历史模型池中挑选出各个时间段模型对战,生成各个模型对战胜负结果。其输入是多个模型,输出是模型两两对战的胜负结果。
ELO计算模块,用于通过模型对战得到的胜负结果计算参与对战模型的在两个阵容的ELO分。其输入是多个模型胜负结果,输出是多个模型在两个阵容的ELO分。
ELO估计模块,用于根据离线对战模型的阵容ELO分估计历史模型池中所有模型的阵容ELO分,提取最新模型阵容1ELO分与历史模型阵容2ELO分小于阈值的历史模型作为阵容1能力相近对手池,提取最新模型阵容2ELO分与历史模型阵容1ELO分小于阈值的历史模型作为阵容2能力相近对手池。其中阈值为超参数,控制与最新模型能力相近程度。其输入是对战模型阵容ELO分,输出为阵容1能力相近对手池和阵容2能力相近对手池。
在线部分包括对手选择模块、模型对战模块、模型训练模块。
对手选择模块中的对手有两种选择,区别于传统方法的固定比例对手选择,本申请实施例中由概率超参数控制从两种方案中做出选择。第一种选择与传统方法相同,直接选择最新模型自对弈;对于第二种选择,传统方法随机从历史对手池中选择对手,而本申请实施例通过从能力相近对手池中随机挑选与最新模型能力相近的历史模型用于对战,从而避免阵容强度、学习难度不同导致的模型训练效率低、AI能力弱的问题。对手选择模型的输入是能力相近对手池,输出是最新模型或与能力相近对手池中的某个历史模型。
模型对战模块,用于加载游戏环境及对战对手,通过模型对战产生训练数据,对战双方模型根据抽取到的特征数据,输出操作标签和操作价值,然后执行操作标签对应的预测操作得到对战数据用于模型训练。
模型训练模块,用于根据对战得到的训练数据训练模型,更新模型的参数,得到最新的模型,并每隔一段时间就将最新的模型添加到历史模型池中。
需要说明的是,本申请实施例中主要以多人对战游戏为例进行阐述,而在具体实施过程中,本申请实施例的强化学习模型的训练方法并不局限两个对战阵容的游戏,也可以应用于多个对战阵容或是其他的多人对战游戏。
另外,本发明实施例中的应用架构图是为了更加清楚地说明本发明实施例中的技术方案,并不构成对本发明实施例提供的技术方案的限制,当然,也并不仅限于消化道疾病诊断业务应用,对于其它的应用架构和业务应用,本发明实施例提供的技术方案对于类似的问题,同样适用。
本发明各个实施例以应用于图1所示的应用架构图为例进行示意性说明。
图4示出了本申请一个实施例提供的对战游戏中强化学习模型的训练方法的流程图。如图4所示,该方法包括如下步骤:
步骤S401,获取目标对战模型以及目标对战模型的相近对手模型。
其中,相近对手模型为与目标对战模型的等级评分之差小于评分阈值的历史对战模型,等级评分用于评价模型的对战能力。
具体实施过程中,目标对战模型和相近对手模型均为自对弈模型。自对弈是一种无监督学习方法,是机器学习从自我对局中学习探索的强化学习算法。在MOBA类游戏中,如英雄联盟、王者荣耀等,玩家分成两个敌对阵营,通过对抗竞争最终摧毁敌方的水晶来赢得比赛。因MOBA类游戏中复杂的地图环境、丰富的角色、装备、各种各样英雄技能以及多种多样的策略打法,导致MOBA游戏AI从零开始学习难度十分大,需要花费大量的时间让AI学会最基本的操作。
由于自对弈模型需要不断根据新增的训练数据进行训练更新,因此本申请实施例中的目标对战模型可以为最新的自对弈模型,也就是说,目标对战模型可以随时间重新选择,历史时间中的目标对战模型即为历史对战模型,可以根据其等级评分划分入不同的相似模型集合中。目标对战模型的相近对手模型是根据等级评分确定的,目标对战模型的等级评分与相近对手模型的等级评分之差小于评分阈值。等级评分用于评价模型的对战能力,一般来说,对战能力越强等级评分越高,对战能力越弱等级评分越低。
步骤S402,基于对战双方的对战状态特征,分别确定目标对战模型的预测操作以及相近对手模型的预测操作。
其中,对战状态特征可以从历史对战视频中获取。则基于对战双方的对战状态特征,分别确定目标对战模型的预测操作以及相近对手模型的预测操作之前,还包括:
获取历史对战视频数据;
从历史对战视频数据中抽取对战视频帧;
确定对战视频帧中的各状态特征区域;
对各状态特征区域进行状态特征提取,获得对战状态特征。
具体实施过程中,历史对战视频数据由历史对战视频中不同的对战视频帧组成,各对战视频帧展示了多人对战游戏的界面,一般地,在多人对战游戏的界面会划分出不同的区域,以实现游戏的运行。
图5示出了一种对战游戏的对战视频帧中操作界面示意图,操作界面中包括状态特征区域和对战操作区域。如图5所示,其中,状态特征区域如虚线框1,可以为对战视频帧中根据对战需要划分的用于显示状态的各显示区域,可以为显示游戏地图、对局状态的界面区域;对战操作区域如虚线框2,为玩家控制相应的游戏角色进行对抗的操作区域,例如可以为玩家控制游戏角色进行移动的移动操作区域,或控制游戏角色进行技能释放的技能操作区域等。
对战状态特征可以从对战视频帧中各状态特征区域获得,用于表征在多人对战游戏中当前对战状态的特征,如具体表征的内容可以包括但不限于包括对战的局面、游戏角色的特征等。
确定对战视频帧中的各状态特征区域后,对各状态特征区域进行状态特征提取,获得对战状态特征。具体地,可以对各状态特征区域进行图像化特征提取或向量化特征提取,以分别获得图像化形式的状态特征和向量化形式的状态特征,对战状态特征可以包括图像化形式的状态特征和向量化形式的状态特征,具体根据实际对战环境类型进行确定。
在具体应用中,如在MOBA类游戏中,对战状态特征和相应的实际操作标签可以从人类玩家的历史对战视频数据中进行特征提取得到,对战状态特征可以用于表征游戏的局面、地图、游戏单元的属性等,实际操作标签则为各游戏玩家针对游戏角色不同的对战状态特征做出的操作,如移动游戏角色、控制游戏角色释放技能或使用道具等。
预测操作与对战状态特征以及对应的强化学习模型对应,为游戏角色在对战中面对对战状态特征时,模型预测出的操作,以使对战进入下一个状态,推动对战的进行。一般来说,在对战游戏的训练过程中,基于对战状态特征,通过强化学习模型预测确定预测操作,预测操作利用操作标签(label)进行表征。
本申请具体实施过程中,可以从历史对战视频中获取对战双方的对战状态特征,例如,针对图5所示的对战双方,赋予游戏角色A第一对战状态特征,赋予游戏角色B第二对战状态特征。将第一对战状态特征输入目标对战模型,预测得到第一预测操作;将第二对战状态特征输入相近对手模型,预测得到第二预测操作。
步骤S403,利用目标对战模型以及相近对手模型分别控制对战双方执行预测操作以进行对战。
基于对战中的对战状态特征,通过目标对战模型和相近对手模型,分别控制对战双方执行预测操作以进行对战。对战状态特征为在对战过程中确定的对战状态,具体可以加载对抗环境,如加载MOBA类游戏环境,通过对战策略模型对对战中的对战状态特征进行预测操作,并根据预测的操作控制对应的游戏角色进行对战。图6示出了控制游戏角色执行预测操作的操作界面示意图。例如图6中的游戏角色A,预测得到的第一预测操作为向左下移动并释放技能,则利用目标对战模型控制游戏角色A执行第一预测操作;针对游戏角色B,预测得到的第二预测操作为向右上移动,则利用相近对手模型控制游戏角色B执行第二预测操作。
对战环境中,在不同的对战状态特征下,通过控制游戏角色执行操作标签对应的操作,以改变对应的对战状态特征,推动对战的进行,实现游戏对抗,如击杀对战环境中的兵怪后获取经验和金币,以实现升级强化游戏角色的技能属性,同时通过金币购买装备以强化游戏角色的属性,如增加血量、提高防御等。
步骤S404,确定对战中目标对战模型的操作价值。
其中,操作价值为根据游戏角色执行预测操作前后的对战状态特征的差异确定。
具体地,确定对战中目标对战模型的操作价值,包括:
确定所述目标对战模型控制游戏角色执行所述预测操作之前,所述游戏角色的对战前状态特征;
确定所述目标对战模型控制所述游戏角色执行所述预测操作之后,所述游戏角色的对战后状态特征;
根据所述对战前状态特征和所述对战后状态特征,确定所述目标对战模型的操作价值。
具体实施过程中,通过对战策略模型,基于对战中的对战状态特征预测操作以进行对战,获取对战过程中目标对战模型的输入和输出,即获取对战状态特征和相应的预测操作,确定相应预测操作的操作价值。
具体地,通过对战策略模型进行对战时,获取对战中的对战状态特征,对战状态特征根据对战的实时局面进行变化,即各游戏角色执行操作后,都会影响对战的对战状态特征,使对战状态发生转变。
游戏角色对战前的对战前状态特征可以为从历史对战视频中获取的对战状态特征,也可以为游戏角色执行完上一个操作后的对战状态特征。将对战前状态特征输入目标对战模型,获取目标对战模型针对对战前状态特征预测得到的相应的预测操作,作为目标对战模型的输出。利用目标对战模型控制游戏角色A执行预测操作,并与游戏角色B进行对战后,游戏角色A的对战状态特征发生变化,即对战后游戏角色A的对战状态特征变为对战后状态特征,从而,可以根据游戏角色A的对战前状态特征和对战后状态特征,确定预测操作的操作价值。具体可以各种对战环境设置相应的价值体系,通过该价值体系对预测的各操作进行评估,确定其相应的操作价值,如可以为百分制的90分,80分等。
步骤S405,基于对战状态特征、预测操作以及操作价值训练目标对战模型。
获得对战状态特征、预测操作以及对应的操作价值后,基于该对战状态特征和操作价值标签训练目标对战模型,可以以对战状态特征为模型输入,以预测操作以及对应的操作价值为目标对战模型输出进行学习训练,在满足训练结束条件时,如训练次数达到次数阈值或模型的输出精度达到精度阈值时结束训练,得到训练完成的目标对战模型。
具体地,目标对战模型可以根据输入的对战状态特征预测操作,并控制游戏角色执行预测操作后进行对战,根据操作价值对操作进行评估,并调整目标对战模型的参数,对更新后对战状态特征继续进行预测操作,循环执行实现高智能化的对战,能够适应于复杂的对战环境。
本申请实施例的对战游戏中强化学习模型的训练方法,获取目标对战模型的相近对手模型作为目标对战模型的对战对手,相近对手模型为与目标对战模型的等级评分之差小于评分阈值的历史对战模型,其中等级评分用于评价模型的对战能力。训练过程中,基于对战双方的对战状态特征,分别确定目标对战模型的预测操作以及相近对手模型的预测操作,利用目标对战模型以及相近对手模型分别控制对战双方执行预测操作以进行对战,并确定对战中模板对战模型的操作价值。基于对战状态特征、预测操作以及操作价值训练所述目标对战模型。不同于随机选择历史对战模型作为目标对战模型的对战对手,本申请实施例的训练过程从历史对手模型中挑选出与目标对战模型对战能力相近的模型与目标对战模型进行对战,从而平衡了训练过程中对战双方的对战能力,提高了模型学习时的探索能力,提高了模型的训练效率。
一种较佳的实施例中,获取所述目标对战模型的相近对手模型,包括:
确定目标对战模型的多个历史对战模型;
利用每两个历史对战模型分别控制对战双方进行对战,得到历史对战模型的对战结果;
根据对战结果,确定每个历史对战模型的等级评分以及所述目标对战模型的等级评分;
利用与目标对战模型的等级评分之差小于评分阈值的历史对战模型形成相似模型集合;
从相似模型集合中获取目标对战模型的相近对手模型。
具体实施过程中,加载游戏对战环境,从目标对战模型的历史对战模型中任选两个,分别控制对战双方的游戏角色进行两两对战,并得到对战胜负结果。针对任一历史对战模型,可以根据模型参与对战的胜负结果,计算该历史对战模型的等级评分。一种可选的实施例中,可以利用等级分(ELO)制度的方式评估历史对战模型的对战能力。等级分是一种衡量对战活动水平的评价方法,本申请实施例中通过等级分来表征对应历史对战模型的对战能力。
其中等级分的具体算法为,假设游戏角色A和游戏角色B的当前等级分分别为RA和RB,则按等级分算法,游戏角色A对游戏角色B的胜率期望值如下:
Figure BDA0002786298090000191
类似游戏角色B对游戏角色A的胜率期望值如下:
Figure BDA0002786298090000192
假如游戏角色A在一次对战中的真实得分SA(胜=1分,和=0.5分,负=0分)与其胜率期望值不同,则他的等级分要根据以下公式进行相应的调整,更新后的等级分R’A为:
R’A=RA+K(SA-EA)……公式3
其中,K为设定系数,RA为更新前游戏角色A的等级分,R’A为更新后游戏角色A的等级分。
举例来说,游戏角色A的初始等级分为1613,历史对战模型控制游戏角色A与初始等级分为1573的游戏角色B战平。若K取32,则A的胜率期望值根据公式1甲酸如下:
Figure BDA0002786298090000193
则更新后游戏角色A的等级分根据公式3计算如下:
R’A=RA+K(SA-EA)=1613+32×(0.5-0.5573)=1611.166
也就是说,对战后更新历史对战模型的等级分为1611.166。
针对目标对战模型的所有历史对战模型,利用两两对战的方式不断更新每一个历史对战模型的等级分,直至该历史对战模型与其余历史对战模型均对战完成,则得到每一个历史对战模型的等级分。相应地计算目标对战模型的等级分后,根据历史对战模型的等级分与目标对战模型的等级分之差,从所有历史对战模型中,确定出目标对战模型的相近对手模型,即将等级分之差小于评分阈值的历史对战模型作为相近对手模型。
具体实施过程中,可以设置历史模型池,其中包括目标对战模型的所有历史对战模型。
进一步地,为了减少对战次数,减轻计算压力,本申请实施例无需将所有历史对战模型均进行两两对战,可以从所有历史对战模型中挑选出部分模型,计算出部分历史对战模型的等级分之后,根据历史对战模型之间的关联性,确定出其余历史对战模型的等级分。
则上述确定所述目标对战模型的多个历史对战模型,包括:
根据历史对战模型的保存时间,按照等时差规则从所有历史对战模型中获取等时差模型;
利用每两个历史对战模型分别控制对战双方进行对战,得到历史对战模型的对战结果,包括:
利用每两个等时差模型分别控制对战双方进行对战,得到每个等时差模型的对战结果;
根据对战结果,确定每个历史对战模型的等级评分以及目标对战模型的等级评分,包括:
根据对战结果,确定每个等时差模型的等级评分;
根据等时差模型的等级评分、等时差模型的保存时间以及其余历史对战模型的保存时间,确定每个历史对战模型的等级评分;
根据等时差模型的等级评分、等时差模型的保存时间以及所述目标对战模型的保存时间,确定所述目标对战模型的等级评分。
为了减少对战次数,并不计算历史模型池中所有历史对战模型的等级分,而是从历史模型池中选出等时差模型,这里的等时差为生成的时间之差相等。由于在对战训练过程中,模型在相同阵容的等级分与时间是递增关系,如图7所示,所以对于未知等级分的模型可以根据时间相近模型的等级分进行估算。例如未知等级分模型的生成时间位于两个已知等级分模型的生成时间之间,则t时刻模型的等级分计算如下:
Figure BDA0002786298090000201
其中,ELOt为t时刻生成的历史对战模型的等级分,ELO1为t1时刻生成的历史对战模型的等级分,ELO2为t2时刻生成的历史对战模型的等级分,且t1<t<t2
这样,基于公式4,在已知历史对战模型生成时间的情况下,可以根据生成时间最近的前后两个已知等级分的历史对战模型的等级分,计算得到。
具体实施过程中,历史对战模型中选出等时差模型的过程可以为离线计算,包括以下步骤。
步骤501:定时从历史模型池中挑选出等时差模型。
步骤502:加载游戏对战环境,利用等时差模型控制游戏角色两两对战,得到对战胜负结果。
步骤503:根据对战胜负结果计算参与对战的等时差模型在两个阵容的等级分。
步骤504:根据公式4,利用参与对战的多个等时差模型的等级分,估计历史模型池中的所有历史对战模型的等级分。
步骤505:针对对战双方中的阵容1,获取目标对战模型在阵容1的等级分以及所有历史对战模型在阵容1的等级分,将与目标对战模型的等级分之差小于评分阈值的历史对战模型加入阵容1对应的相近对手池;针对对战双方中的阵容2,获取目标对战模型在阵容2的等级分以及所有历史对战模型在阵容2的等级分,将与目标对战模型的等级分之差小于评分阈值的历史对战模型加入阵容2对应的相近对手池。
进一步地,基于对战双方的对战状态特征,分别确定目标对战模型的预测操作以及相近对手模型的预测操作,包括:
获取第一对战状态特征和第二对战状态特征,第一对战状态特征与第二对战状态特征分别为对战双方的对战状态特征;
将第一对战状态特征输入目标对战模型,输出第一预测操作;
将第二对战状态特征输入相近对手模型,输出第二预测操作;
利用目标对战模型以及相近对手模型分别控制对战双方执行预测操作以进行对战,包括:
利用目标对战模型控制第一游戏角色执行第一预测操作,且利用相近对手模型控制第二游戏角色执行第二预测操作,以进行对战。
具体实施过程中,可以从历史对战视频中获取第一对战状态特征和第二对战状态特征,赋予游戏角色A第一对战状态特征,赋予游戏角色B第二对战状态特征。将第一对战状态特征输入目标对战模型,预测得到第一预测操作;将第二对战状态特征输入相近对手模型,预测得到第二预测操作。这样,利用目标对战模型控制游戏角色A执行第一预测操作,利用相近对手模型控制游戏角色B执行第二预测操作,使得游戏角色A与游戏角色B进行对战,进一步得到目标对战模型的操作价值以及相近对手模型的操作价值。
进一步地,获取目标对战模型的相近对手模型,包括:
获取N个相近对手模型;
利用目标对战模型以及相近对手模型分别控制对战双方执行预测操作以进行对战,包括:
利用目标对战模型与N个相近对手模型分别控制对战双方执行预测操作以进行N次对战;
利用目标对战模型控制对战双方执行预测操作以进行M次自对弈;其中,N与M为超参数,且N与M之和为设定参数。
具体实施过程中,目标对战模型不仅与相近对手模型分别控制对战双方进行对战,目标对战模型还控制对战双方进行自对弈,且这里选择相近对手模型的次数与目标对战模型自对弈的次数均为设定参数。也就是说,从相近对手池中获取N个相近对手模型,目标对战模型分别与N个相近对手模型进行N次对战;此外,目标对战模型分别控制对战双方的游戏角色进行M次自对弈。
以下通过具体实例说明本申请实施例提供的对战游戏中强化学习模型的训练方法的实现过程。
首先通过步骤501至505,阵容1对应的相近对手池,以及阵容2对应的相近对手池。上述步骤501至502为离线操作流程,之后的步骤为在线对战流程。
步骤601:进行阵容选择,以等概率选择目标对战模型所在阵容。其次选择目标对战模型的对手,以概率p选择对手模型仍为目标对战模型,概率1-p选择对手为相近对战模型,其中,p为超参数。
步骤602:若为相近对战模型,则从相近对手池中等概率随机获取相近对手模型作为目标对战模型的对手,控制对手阵容中的游戏角色;否则利用目标对战模型控制双方阵容中的游戏角色。
步骤603:加载游戏环境及双方阵容中的游戏角色,通过模型对战产生训练数据,通过目标对战模型、相近对手模型以及抽取到的对战状态特征数据,输出预测操作和操作价值,控制游戏角色执行预测操作得到对战数据用于模型训练。
步骤604:根据对战得到的训练数据训练模型,更新模型的参数,得到最新的模型,并每隔一段时间就将最新的模型添加到历史模型池中。
本申请实施例提出了适用于多人对战游戏不平衡阵容强化学习的能力相近对手池构建方法。通过ELO分来刻画AI模型在对战阵容上的能力,基于已知ELO分模型及模型生成的时间估计未知ELO分模型的ELO分,通过历史对战模型阵容能力挑选出相近对手模型加入相近对手池。通过该方法可以获取非平衡阵容能力相近对手,降低非平衡性。
本申请实施例提出了适用于多人对战游戏不平衡阵容强化学习的对战对手选择方法。通过从历史对战模型中挑选能力相近的相近对战模型作为目标对战模型的对战对手,降低对战双方的不平衡性,以提高多人对战游戏AI在不平衡阵容学习时的探索能力,提高了模型的训练效率,提升了不平衡阵容双方的AI能力。
与上述方法实施例相对应地,本申请实施例还提供了一种对战游戏中强化学习模型的训练装置。图8为本申请实施例的提供的对战游戏中强化学习模型的训练装置的结构示意图;如图8所示,该训练装置包括:
获取模块801,用于获取目标对战模型以及所述目标对战模型的相近对手模型,所述相近对手模型为与所述目标对战模型的等级评分之差小于评分阈值的历史对战模型,所述等级评分用于评价模型的对战能力;
预测模块802,用于基于对战双方的对战状态特征,分别确定所述目标对战模型的预测操作以及所述相近对手模型的预测操作;
对战模块803,用于利用所述目标对战模型以及所述相近对手模型分别控制对战双方执行预测操作以进行对战;
价值模块804,用于确定对战中所述目标对战模型的操作价值;
训练模块805,用于基于所述对战状态特征、所述预测操作以及所述操作价值训练所述目标对战模型。
一种可选的实施例中,所述获取模块801,具体用于:
确定所述目标对战模型的多个历史对战模型;
利用每两个历史对战模型分别控制对战双方进行对战,得到历史对战模型的对战结果;
根据对战结果,确定每个历史对战模型的等级评分以及所述目标对战模型的等级评分;
利用与所述目标对战模型的等级评分之差小于评分阈值的历史对战模型形成相似模型集合;
从所述相似模型集合中获取所述目标对战模型的相近对手模型。
一种可选的实施例中,所述获取模块801,具体用于:
根据历史对战模型的保存时间,按照等时差规则从所有历史对战模型中获取等时差模型;
利用每两个等时差模型分别控制对战双方进行对战,得到每个等时差模型的对战结果;
根据对战结果,确定每个等时差模型的等级评分;
根据等时差模型的等级评分、等时差模型的保存时间以及其余历史对战模型的保存时间,确定每个历史对战模型的等级评分;
根据等时差模型的等级评分、等时差模型的保存时间以及所述目标对战模型的的保存时间,确定所述目标对战模型的等级评分。
一种可选的实施例中,所述预测模块802,具体用于:
获取第一对战状态特征和第二对战状态特征,所述第一对战状态特征与所述第二对战状态特征分别为对战双方的对战状态特征;
将所述第一对战状态特征输入所述目标对战模型,输出第一预测操作;
将所述第二对战状态特征输入所述相近对手模型,输出第二预测操作;
所述对战模块,具体用于:
利用所述目标对战模型控制第一游戏角色执行所述第一预测操作,且利用所述相近对手模型控制第二游戏角色执行所述第二预测操作,以进行对战。
一种可选的实施例中,所述获取模块801,具体用于获取N个相近对手模型;
所述游戏角色,具体用于利用所述目标对战模型与N个相近对手模型分别控制对战双方执行预测操作以进行N次对战;
利用所述目标对战模型控制对战双方执行预测操作以进行M次自对弈;其中,N与M为超参数,且N与M之和为设定参数。
一种可选的实施例中,所述价值模804,具体用于:
确定所述目标对战模型控制游戏角色执行所述预测操作之前,所述游戏角色的对战前状态特征;
确定所述目标对战模型控制所述游戏角色执行所述预测操作之后,所述游戏角色的对战后状态特征;
根据所述对战前状态特征和所述对战后状态特征,确定所述目标对战模型的操作价值。
一种可选的实施例中,所述预测模块802,还用于:
获取历史对战视频数据;
从所述历史对战视频数据中抽取对战视频帧;
确定所述对战视频帧中的各状态特征区域;
对各所述状态特征区域进行状态特征提取,获得对战状态特征。
与上述方法实施例相对应地,本申请实施例还提供了一种电子设备。
图9为本申请实施例提供的一种电子设备的结构示意图;如图9所示,本申请实施例中该电子设备90包括:处理器91、显示器92、存储器93、输入设备96、总线95和通讯设备94;该处理器91、存储器93、输入设备96、显示器92和通讯设备94均通过总线95连接,该总线95用于该处理器91、存储器93、显示器92、通讯设备94和输入设备96之间传输数据。
其中,存储器93可用于存储软件程序以及模块,如本申请实施例中的图像分类方法对应的程序指令/模块,处理器91通过运行存储在存储器93中的软件程序以及模块,从而执行电子设备90的各种功能应用以及数据处理,如本申请实施例提供的图像分类方法。存储器93可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个应用的应用程序等;存储数据区可存储根据电子设备90的使用所创建的数据(比如训练样本、特征提取网络)等。此外,存储器93可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器91是电子设备90的控制中心,利用总线95以及各种接口和线路连接整个电子设备90的各个部分,通过运行或执行存储在存储器93内的软件程序和/或模块,以及调用存储在存储器93内的数据,执行电子设备90的各种功能和处理数据。可选的,处理器91可包括一个或多个处理单元,如CPU、GPU(Graphics Processing Unit,图形处理单元)、数字处理单元等。
本申请实施例中,处理器91将游戏视频通过显示器92展示给用户。
该输入设备96主要用于获得用户的输入操作,当该电子设备不同时,该输入设备96也可能不同。例如,当该电子设备为计算机时,该输入设备96可以为鼠标、键盘等输入设备;当该电子设备为智能手机、平板电脑等便携设备时,该输入设备96可以为触控屏。
本申请实施例还提供了一种计算机存储介质,该计算机存储介质中存储有计算机可执行指令,该计算机可执行指令用于实现本申请任一实施例所述的图像分类方法。
在一些可能的实施方式中,本申请提供的模型训练方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的模型训练方法的步骤,例如,所述计算机设备可以执行如图4所示的步骤S401~S405中的对战游戏中强化学习模型的训练流程。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

Claims (10)

1.一种对战游戏中强化学习模型的训练方法,其特征在于,所述方法包括:
定时从历史模型池中挑选出等时差模型,其中,所述历史模型池包括各个历史对战模型;
加载游戏对战环境,利用挑选出的等时差模型控制游戏角色两两对战,得到对战胜负结果;
基于获得的对战胜负结果,确定参与对战的等时差模型在每个阵容的等级评分;
基于参与对战的等时差模型在每个阵容的等级评分,确定所述各个历史对战模型在每个阵容的等级评分;
从所述历史模型池中获取目标对战模型以及所述目标对战模型的相近对手模型,所述相近对手模型为与所述目标对战模型的等级评分之差小于评分阈值的历史对战模型,所述等级评分用于评价模型的对战能力;
基于对战双方的对战状态特征,分别确定所述目标对战模型的预测操作以及所述相近对手模型的预测操作;
利用所述目标对战模型以及所述相近对手模型分别控制对战双方执行预测操作以进行对战;
确定对战中所述目标对战模型的操作价值;
基于所述对战状态特征、所述预测操作以及所述操作价值训练所述目标对战模型。
2.根据权利要求1所述的方法,其特征在于,所述从所述历史模型池中获取目标对战模型以及所述目标对战模型的相近对手模型,包括:
利用与所述目标对战模型的等级评分之差小于评分阈值的历史对战模型形成相似模型集合;
从所述相似模型集合中获取所述目标对战模型的相近对手模型。
3.根据权利要求1所述的方法,其特征在于,所述定时从历史模型池中挑选出等时差模型,包括:
根据历史对战模型的保存时间,按照等时差规则从所有历史对战模型中获取等时差模型;
所述基于参与对战的等时差模型在每个阵容的等级评分,确定所述各个历史对战模型在每个阵容的等级评分,包括:
根据等时差模型在每个阵容的等级评分、等时差模型的保存时间以及其余历史对战模型的保存时间,确定每个历史对战模型在每个阵容的等级评分;
根据等时差模型在每个阵容的等级评分、等时差模型的保存时间以及所述目标对战模型的保存时间,确定所述目标对战模型的等级评分。
4.根据权利要求1所述的方法,其特征在于,所述基于对战双方的对战状态特征,分别确定所述目标对战模型的预测操作以及所述相近对手模型的预测操作,包括:
获取第一对战状态特征和第二对战状态特征,所述第一对战状态特征与所述第二对战状态特征分别为对战双方的对战状态特征;
将所述第一对战状态特征输入所述目标对战模型,输出第一预测操作;
将所述第二对战状态特征输入所述相近对手模型,输出第二预测操作;
所述利用所述目标对战模型以及所述相近对手模型分别控制对战双方执行预测操作以进行对战,包括:
利用所述目标对战模型控制第一游戏角色执行所述第一预测操作,且利用所述相近对手模型控制第二游戏角色执行所述第二预测操作,以进行对战。
5.根据权利要求1所述的方法,其特征在于,所述获取所述目标对战模型的相近对手模型,包括:
获取N个相近对手模型;
所述利用所述目标对战模型以及所述相近对手模型分别控制对战双方执行预测操作以进行对战,包括:
利用所述目标对战模型与N个相近对手模型分别控制对战双方执行预测操作以进行N次对战;
利用所述目标对战模型控制对战双方执行预测操作以进行M次自对弈;其中,N与M为超参数,且N与M之和为设定参数。
6.根据权利要求1所述的方法,其特征在于,所述确定对战中所述目标对战模型的操作价值,包括:
确定所述目标对战模型控制游戏角色执行所述预测操作之前,所述游戏角色的对战前状态特征;
确定所述目标对战模型控制所述游戏角色执行所述预测操作之后,所述游戏角色的对战后状态特征;
根据所述对战前状态特征和所述对战后状态特征,确定所述目标对战模型的操作价值。
7.根据权利要求1所述的方法,其特征在于,所述基于对战双方的对战状态特征,分别确定所述目标对战模型的预测操作以及所述相近对手模型的预测操作之前,还包括:
获取历史对战视频数据;
从所述历史对战视频数据中抽取对战视频帧;
确定所述对战视频帧中的各状态特征区域;
对各所述状态特征区域进行状态特征提取,获得对战状态特征。
8.一种对战游戏中强化学习模型的训练装置,其特征在于,所述装置包括:
获取模块,用于定时从历史模型池中挑选出等时差模型,其中,所述历史模型池包括各个历史对战模型;加载游戏对战环境,利用挑选出的等时差模型控制游戏角色两两对战,得到对战胜负结果;基于获得的对战胜负结果,确定参与对战的等时差模型在每个阵容的等级评分;基于参与对战的等时差模型在每个阵容的等级评分,确定所述各个历史对战模型在每个阵容的等级评分;从所述历史模型池中获取目标对战模型以及所述目标对战模型的相近对手模型,所述相近对手模型为与所述目标对战模型的等级评分之差小于评分阈值的历史对战模型,所述等级评分用于评价模型的对战能力;
预测模块,用于基于对战双方的对战状态特征,分别确定所述目标对战模型的预测操作以及所述相近对手模型的预测操作;
对战模块,用于利用所述目标对战模型以及所述相近对手模型分别控制对战双方执行预测操作以进行对战;
价值模块,用于确定对战中所述目标对战模型的操作价值;
训练模块,用于基于所述对战状态特征、所述预测操作以及所述操作价值训练所述目标对战模型。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~7任一权利要求所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行权利要求1~7任一所述方法的步骤。
CN202011299118.0A 2020-11-19 2020-11-19 一种对战游戏中强化学习模型的训练方法及装置 Active CN112402986B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011299118.0A CN112402986B (zh) 2020-11-19 2020-11-19 一种对战游戏中强化学习模型的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011299118.0A CN112402986B (zh) 2020-11-19 2020-11-19 一种对战游戏中强化学习模型的训练方法及装置

Publications (2)

Publication Number Publication Date
CN112402986A CN112402986A (zh) 2021-02-26
CN112402986B true CN112402986B (zh) 2022-09-02

Family

ID=74774619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011299118.0A Active CN112402986B (zh) 2020-11-19 2020-11-19 一种对战游戏中强化学习模型的训练方法及装置

Country Status (1)

Country Link
CN (1) CN112402986B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112870722B (zh) * 2021-03-11 2022-07-22 腾讯科技(深圳)有限公司 对战格斗类ai游戏模型的生成方法、装置、设备及介质
CN113282100A (zh) * 2021-04-28 2021-08-20 南京大学 基于强化学习的无人机对抗博弈训练控制方法
GB2609207A (en) * 2021-07-22 2023-02-01 Sony Interactive Entertainment Inc Virtual environment development method and system
CN115554695A (zh) * 2021-10-30 2023-01-03 深圳小悠娱乐科技有限公司 一种对对战游戏中的网络数据进行网络波动预测方法
CN114404975A (zh) * 2022-01-20 2022-04-29 腾讯科技(深圳)有限公司 决策模型的训练方法、装置、设备、存储介质及程序产品

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160180248A1 (en) * 2014-08-21 2016-06-23 Peder Regan Context based learning
CN109603159A (zh) * 2018-12-18 2019-04-12 网易(杭州)网络有限公司 匹配游戏玩家的方法、装置及系统
CN110732139B (zh) * 2019-10-25 2024-03-05 腾讯科技(深圳)有限公司 检测模型的训练方法和用户数据的检测方法、装置
CN111738294B (zh) * 2020-05-21 2024-05-14 深圳海普参数科技有限公司 Ai模型的训练方法、使用方法、计算机设备及存储介质
CN111760291B (zh) * 2020-07-06 2022-03-08 腾讯科技(深圳)有限公司 游戏互动行为模型生成方法、装置、服务器和存储介质

Also Published As

Publication number Publication date
CN112402986A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN112402986B (zh) 一种对战游戏中强化学习模型的训练方法及装置
US10729979B2 (en) Automated tuning of computer-implemented games
US11291917B2 (en) Artificial intelligence (AI) model training using cloud gaming network
CN108888958B (zh) 虚拟场景中的虚拟对象控制方法、装置、设备及存储介质
US11938403B2 (en) Game character behavior control method and apparatus, storage medium, and electronic device
CN111282267B (zh) 信息处理方法、装置、介质及电子设备
CN111111220B (zh) 多人对战游戏的自对弈模型训练方法、装置和计算机设备
CN109902820B (zh) Ai模型训练方法、装置、存储介质及设备
US10315116B2 (en) Dynamic virtual environment customization based on user behavior clustering
US10403089B2 (en) Automated hand strength estimation for card games
CN112215328B (zh) 一种智能体的训练、基于智能体的动作控制方法及装置
CN112791394A (zh) 游戏模型训练方法、装置、电子设备及存储介质
CN116821693B (zh) 虚拟场景的模型训练方法、装置、电子设备及存储介质
CN115944921B (zh) 游戏数据处理方法、装置、设备及介质
CN116943204A (zh) 虚拟对象的控制方法、装置和存储介质及电子设备
CN116943220A (zh) 一种游戏人工智能控制方法、装置、设备及存储介质
Souza et al. DDA-MAPEKit: A Framework for Dynamic Difficulty Adjustment Based on MAPE-K Loop
Ring et al. Replicating deepmind starcraft ii reinforcement learning benchmark with actor-critic methods
US20240042320A1 (en) Method for determining action of bot automatically playing champion within battlefield of league of legends game, and computing system for performing same
Reis Artificial Intelligence Methods for Automated Difficulty and Power Balance in Games
Xiqi Game Ai Evolution: Uniting Unity and Machine Learning for Enhanced Player Interaction and Experience
Vindel et al. A survey in Convergence Technologies for Videogames using Data Mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40038742

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant