CN110639208A - 交互式任务的控制方法、装置、存储介质和计算机设备 - Google Patents

交互式任务的控制方法、装置、存储介质和计算机设备 Download PDF

Info

Publication number
CN110639208A
CN110639208A CN201910891706.4A CN201910891706A CN110639208A CN 110639208 A CN110639208 A CN 110639208A CN 201910891706 A CN201910891706 A CN 201910891706A CN 110639208 A CN110639208 A CN 110639208A
Authority
CN
China
Prior art keywords
competition
virtual object
interactive
role
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910891706.4A
Other languages
English (en)
Other versions
CN110639208B (zh
Inventor
周正
汤善敏
朱晓龙
李宏亮
张正生
刘永升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Super Parameter Technology (shenzhen) Co Ltd
Original Assignee
Super Parameter Technology (shenzhen) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Super Parameter Technology (shenzhen) Co Ltd filed Critical Super Parameter Technology (shenzhen) Co Ltd
Priority to CN201910891706.4A priority Critical patent/CN110639208B/zh
Publication of CN110639208A publication Critical patent/CN110639208A/zh
Application granted granted Critical
Publication of CN110639208B publication Critical patent/CN110639208B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/80Special adaptations for executing a specific game genre or game mode
    • A63F13/847Cooperative playing, e.g. requiring coordinated actions from several players to achieve a common goal
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/70Game security or game management aspects
    • A63F13/75Enforcing rules, e.g. detecting foul play or generating lists of cheating players
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Security & Cryptography (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种交互式任务的控制方法、装置、存储介质和计算机设备,所述方法包括:当确定交互式任务处于角色竞逐阶段时,获取所述交互式任务中目标虚拟对象持有的第一交互资源和未持有的第二交互资源;根据所述第一交互资源和所述第二交互资源确定资源分布特征;确定所述目标虚拟对象在所述角色竞逐阶段的候选竞逐特征;通过机器学习模型分别对所述资源分布特征和所述候选竞逐特征进行处理,得到所述目标虚拟对象在所述交互式任务中的角色竞逐策略;根据所述角色竞逐策略控制所述目标虚拟对象进行角色竞逐操作。本申请提供的方案可以有效地提高目标虚拟对象在互动过程中的获胜概率。

Description

交互式任务的控制方法、装置、存储介质和计算机设备
技术领域
本申请涉及计算机技术领域,特别是涉及一种交互式任务的控制方法、装置、存储介质和计算机设备。
背景技术
在诸如智能手机、平板电脑、台式计算机之类的终端上,存在许多关于交互式任务的应用程序,用户可以通过交互式任务中的虚拟对象(如虚拟人物)进行互动。对于交互式任务,主要包括角色竞逐阶段和互动阶段。其中,角色竞逐阶段是指交互式任务中的目标虚拟对象可以通过抢分的形式来竞逐目标角色。互动阶段是指目标虚拟对象作为目标角色,与其它虚拟对象进行互动。例如,在进行交互式任务时,会向各虚拟对象分配一定数量的交互资源,虚拟对象会根据所持有的交互资源来判断是否竞逐目标角色,然后根据竞逐结果进行互动。
交互式任务中的各虚拟对象在进行互动时,除了互动策略会影响互动结果之外,是否竞逐目标角色也在很大程度上影响互动结果。然而,在传统方案中,当机器自动进行竞逐目标角色时,通常采用随机方式竞逐目标角色,从而降低了目标虚拟对象在互动过程中的获胜概率。
发明内容
基于此,有必要针对在交互式任务中目标虚拟对象在互动过程中的获胜概率低的技术问题,提供一种交互式任务的控制方法、装置、存储介质和计算机设备。
一种交互式任务的控制方法,包括:
当确定交互式任务处于角色竞逐阶段时,获取所述交互式任务中目标虚拟对象持有的第一交互资源和未持有的第二交互资源;
根据所述第一交互资源和所述第二交互资源确定资源分布特征;
确定所述目标虚拟对象在所述角色竞逐阶段的候选竞逐特征;
通过机器学习模型分别对所述资源分布特征和所述候选竞逐特征进行处理,得到所述目标虚拟对象在所述交互式任务中的角色竞逐策略;
根据所述角色竞逐策略控制所述目标虚拟对象进行角色竞逐操作。
一种交互式任务的控制装置,所述装置包括:
资源获取模块,用于当确定交互式任务处于角色竞逐阶段时,获取所述交互式任务中目标虚拟对象持有的第一交互资源和未持有的第二交互资源;
第一特征确定模块,用于根据所述第一交互资源和所述第二交互资源确定资源分布特征;
第二特征确定模块,用于确定所述目标虚拟对象在所述角色竞逐阶段的候选竞逐特征;
特征处理模块,用于通过机器学习模型分别对所述资源分布特征和所述候选竞逐特征进行处理,得到所述目标虚拟对象在所述交互式任务中的角色竞逐策略;
控制模块,用于根据所述角色竞逐策略控制所述目标虚拟对象进行角色竞逐操作。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述交互式任务的控制方法的步骤。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述交互式任务的控制方法的步骤。
上述交互式任务的控制方法、装置、存储介质和计算机设备,当交互式任务处于角色竞逐阶段时,获取目标虚拟对象持有的第一交互资源和未持有的第二交互资源,根据第一交互资源和第二交互资源确定资源分布特征,确定目标虚拟对象在角色竞逐阶段的候选竞逐特征,从而目标虚拟对象可以根据资源分布特征以及候选竞逐特征综合确定是否竞逐目标角色的角色竞逐策略。由于角色竞逐策略综合考虑了目标对象所持有的第一交互资源和未持有的第二交互资源,以及目标对象可选的竞逐情况,从而可以有效地提高目标虚拟对象在互动过程中的获胜概率,从而尽可能避免用户在未控制目标虚拟对象时出现失败的情况。
附图说明
图1为一个实施例中交互式任务的控制方法的应用环境图;
图2为一个实施例中交互式任务的控制方法的流程示意图;
图3为一个实施例中斗地主游戏的界面示意图;
图4为一个实施例中机器学习模型的结构示意图;
图5为另一个实施例中交互式任务的控制系统结构示意图;
图6为一个实施例中基于各虚拟对象的竞逐次序确定候选竞逐特征步骤的流程示意图;
图7为一个实施例中训练机器学习模型的步骤的流程示意图;
图8为一个实施例中训练流程架构示意图;
图9为一个实施例中收敛曲线的示意图;
图10为一个实施例中交互式任务装置的结构框图;
图11为另一个实施例中交互式任务装置的结构框图;
图12为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中交互式任务的控制方法的应用环境图。参照图1,该交互式任务的控制方法应用于交互式任务的控制系统。该交互式任务的控制系统包括终端110、第一服务器120和第二服务器130。终端110、第一服务器120和第二服务器130之间通过网络连接,如图1所示。用户可以通过终端110进行交互式任务,第一服务器120将交互式任务的任务状态发送给第二服务器130,当确定交互式任务处于角色竞逐阶段时,第二服务器130获取交互式任务中目标虚拟对象持有的第一交互资源和未持有的第二交互资源;根据第一交互资源和第二交互资源确定资源分布特征;确定目标虚拟对象在角色竞逐阶段的候选竞逐特征;通过机器学习模型分别对资源分布特征和候选竞逐特征进行处理,得到目标虚拟对象在交互式任务中的角色竞逐策略;根据角色竞逐策略控制目标虚拟对象进行角色竞逐操作。
其中,终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。第一服务器120可以是用于运行交互式任务的服务器,如游戏服务器,可以用独立的服务器或者是多个服务器组成的服务器集群来实现。第二服务器130可以是向第一服务器提供角色竞逐策略的AI(Artificial Intelligence,人工智能)服务器,可以用独立的服务器或者是多个服务器组成的服务器集群来实现。此外,第一服务器120和第二服务器130可以是独立的两个服务器,也可以是属于同一个服务器中的两个服务模块。
如图2所示,在一个实施例中,提供了一种交互式任务的控制方法。本实施例主要以该方法应用于上述图1中的第二服务器130(后续实施例中称为AI服务器)来举例说明。参照图2,该交互式任务的控制方法具体包括如下步骤:
S202,当确定交互式任务处于角色竞逐阶段时,获取交互式任务中目标虚拟对象持有的第一交互资源和未持有的第二交互资源。
其中,交互式任务可以是用于人机互动的项目任务,具体可以是多玩家的对局类游戏,如棋牌类游戏,举例来说斗地主游戏、升级游戏和跑得快游戏等等。在后续实施例中,若无特别说明,以交互式任务为斗地主为例进行说明。在交互式任务中,包括有两个阶段:角色竞逐阶段和互动阶段。例如,在斗地主游戏中,角色竞逐阶段可以是抢地主阶段,互动阶段可以是出牌阶段。对应的,角色竞逐阶段主要是角逐目标角色,如抢地主。目标虚拟对象可以是当前用户所对应的虚拟人物,如斗地主游戏中用户的所游戏账号对应的虚拟人物,也可以是非玩家控制的虚拟人物。
在一个实施例中,AI服务器获取目标虚拟对象在交互式任务过程中的任务状态;根据任务状态确定交互式任务所处的任务阶段;任务阶段包括角色竞逐阶段和互动阶段。
在一个实施例中,第一服务器(后续实施例中称为游戏服务器)获取交互式任务的任务状态,然后将任务状态发送给AI服务器。AI服务器接收游戏服务器发送的目标虚拟对象在交互式任务过程中的任务状态,根据任务状态确定交互式任务处于角色竞逐阶段或互动阶段。
在一个实施例中,当交互式任务的模式为多用户交互模式时,游戏服务器获取用户对目标虚拟对象进行操作的状态信息,状态信息包括托管状态(即用户未操控目标虚拟对象)和操控状态这两种信息。当该状态信息为托管状态的信息时,游戏服务器将会获取交互式任务的任务状态,然后将任务状态发送给AI服务器。其中,进入托管状态的方式可以是:用户在规定时间内未进行操作而进入托管状态,也可以是用户手动设置的托管状态,还可以是因网络或其它原因导致掉线而进入托管状态。其中,上述的用户是指通过用户账号登陆交互式任务系统,通过该交互式任务系统中的操作页面对目标虚拟对象进行控制的用户,如人机对战的斗地主游戏中的游戏操控人。
例如,当用户在进行斗地主游戏、且处于托管状态时,游戏服务器获取斗地主游戏的游戏状态,将该游戏状态发送给AI服务器。AI服务器在接收到斗地主游戏的游戏状态时,根据该游戏状态确定斗地主游戏处于抢地主阶段(也即叫分阶段)还是出牌阶段。
在另一个实施例中,当交互式任务的模式为人机互动模式时,对于高水平的用户,可以对机器操控的目标虚拟对象进行AI控制,以增加用户的挑战性。当游戏服务器确定目标虚拟对象由机器操控(即非玩家控制)时,将交互式任务的任务状态发送给AI服务器,以便AI服务器为机器所操控的目标虚拟对象提供角色竞逐策略。
例如,对于高水平的用户,可以将机器操控的目标虚拟对象接入机器学习模型,以提供高水平叫分策略让玩家挑战得分,增加活跃度。当用户在进行人机挑战类型的斗地主游戏时,游戏服务器可以获取斗地主游戏的游戏状态,将该游戏状态发送给AI服务器,以便AI服务器根据该游戏状态确定斗地主游戏处于抢地主阶段(也即叫分阶段)还是出牌阶段,进而AI服务器执行S202。
S204,根据第一交互资源和第二交互资源确定资源分布特征。
其中,资源分布特征可以是用于表示交互资源在目标虚拟对象中的分布情况,以及未在目标虚拟对象中的分布情况。例如,对于斗地主游戏,一共有54张牌,牌型从小到大依次为{3,4,5,6,7,8,9,10,J,Q,K,A,2,B,R},其中R(Redjocker)为大王,B(Back jocker)为小王。如图3所示,目标虚拟对象持有17张牌,牌3、牌5-6、牌10和牌K(King)各一张,牌J(Jack)和牌Q(Queen)各三张,牌2有四张,牌B和牌R各一张。那么,目标虚拟对象未持有37张牌,分别为牌3牌5-6、牌10和牌K(King)各三张,牌J和牌Q各一张,牌4、牌7、牌8、牌9和牌A(Ace)各四张。
在一个实施例中,AI服务器分别提取第一交互资源和第二交互资源的资源分布特征,然后将第一交互资源的资源分布特征和第二交互资源的资源分布特征进行组合,得到组合后的三维资源分布特征。或者,将第一交互资源的资源分布特征和第二交互资源的资源分布特征进行拼接,即把第二交互资源的资源分布特征拼接在第一交互资源的资源分布特征之后,得到拼接后的二维资源分布特征。
例如,第一交互资源的资源分布特征可以参考表1,第二交互资源的资源分布特征可以参考表2。
表1第一交互资源的资源分布特征表
牌3 牌4 牌5 牌6 牌7 牌8 牌9 牌10 牌J 牌Q 牌K 牌A 牌2 牌B 牌R
1 0 1 1 0 0 0 1 1 1 1 0 1 1 1
0 0 0 0 0 0 0 0 1 1 0 0 1 0 0
0 0 0 0 0 0 0 0 1 1 0 0 1 0 0
0 0 0 0 0 0 0 0 0 0 0 0 1 0 0
表2第二交互资源的资源分布特征表
牌3 牌4 牌5 牌6 牌7 牌8 牌9 牌10 牌J 牌Q 牌K 牌A 牌2 牌B 牌R
0 1 0 0 1 1 1 0 0 0 0 1 0 0 0
1 1 1 1 1 1 1 1 0 0 1 1 0 0 0
1 1 1 1 1 1 1 1 0 0 1 1 0 0 0
1 1 1 1 1 1 1 1 1 1 1 1 0 0 0
在一个实施例中,AI服务器从第一交互资源中提取第一资源分布特征;第一资源分布特征用于表示第一交互资源中的各子交互资源和对应的数量;提取第二交互资源中的第二资源分布特征;第二资源分布特征用于表示第二交互资源中的各子交互资源和对应的数量;将第一资源分布特征和第二资源分布特征进行组合,得到组合后的资源分布特征。其中,资源分布特征可以是三维资源分布特征。
其中,子交互资源是指第一交互资源和第二交互资源中的元素,如斗地主游戏中,目标虚拟对象所持有的某一张扑克牌。
S206,确定目标虚拟对象在角色竞逐阶段的候选竞逐特征。
其中,候选竞逐特征可以用于表示:处于当前竞逐状态下目标虚拟对象可以选择的角逐目标角色的方式。交互式任务中的各虚拟对象均可以有多种角逐目标角色的方式,如放弃竞逐目标角色和竞逐目标角色,而且,竞逐目标角色还可以是通过投入不同的分值来竞逐目标角色。
例如,在抢地主阶段,可以设置有[0,1,2,3]共四种抢地主的方式,其中,0表示不抢地主,1表示通过叫1分来抢地主,2表示通过叫2分来抢地主,3表示通过叫3分来抢地主,当目标虚拟对象的上一个虚拟对象叫1分时,目标虚拟对象可以选择不抢地主,也可以选择叫2分或3分来抢地主。同理,当目标虚拟对象的上一个虚拟对象叫2分时,目标虚拟对象可以选择不抢地主,也可以选择叫3分来抢地主。当目标虚拟对象的上一个虚拟对象叫3分时,则该上一个虚拟对象直接获得地主。
在一个实施例中,AI服务器获取处于目标虚拟对象之前的虚拟对象的竞逐状态特征,根据该竞逐状态特征确定目标虚拟对象在角色竞逐阶段的候选竞逐特征。其中,在斗地主游戏中,竞逐状态特征可以是叫分状态特征,或抢地主状态特征。
例如,斗地主游戏中设置有[0,1,2,3]共四种抢地主的方式,当第一个虚拟对象叫了1分,第二个虚拟对象叫了2分时,则第一个虚拟对象和第二个虚拟对象的叫分状态特征分别为[0,1,0,0]和[0,0,1,0],其中,[0,1,0,0]表示第一个用户叫了1分,[0,0,1,0]表示第二个用户叫了2分。那么,AI服务器可以通过第一个虚拟对象和第二个虚拟对象的叫分状态特征确定目标虚拟对象的可选叫分状态特征为[1,0,0,1],其中,[1,0,0,1]表示目标虚拟对象可以不抢地主,或者可以叫3分抢地主。此外,由于第一个虚拟对象和第二个虚拟对象已经完成叫分,此时,轮到目标虚拟对象叫分,用向量特征为[0,0,1]。
因此,可以得到19位的候选竞逐特征[0,1,0,0,0,0,1,0,0,0,0,0,1,0,0,1,0,0,1],其中,第1-4位[0,1,0,0]为第一个虚拟对象的叫分状态特征,第5-8位[0,0,1,0,]为第二个虚拟对象的叫分状态特征,第9-12位[0,0,0,0]为目标虚拟对象的叫分状态特征,第13-16位[1,0,0,1]为目标虚拟对象的可选叫分状态特征,第17-19位[0,0,1]为轮到目标虚拟对象叫分。
作为一个示例,如图3所示,叫分抢地主的顺序依次为第一虚拟对象(标识为CT~4016717)、目标虚拟对象和第二虚拟对象(CT~4355511),当第一虚拟对象叫1分抢地主时,那么,目标虚拟对象的候选竞逐特征为[0,1,0,0,0,0,0,0,0,0,0,0,1,0,1,1,0,1,0]。其中,第1-4位[0,1,0,0]为第一个虚拟对象的叫分状态特征,第5-8位[0,0,0,0,]为目标虚拟对象的叫分状态特征,第9-12位[0,0,0,0]为第二虚拟对象的叫分状态特征,第13-16位[1,0,1,1]为目标虚拟对象的可选叫分状态特征(即目标虚拟对象可以选择不叫,或者叫2分或3分进行抢地主),第17-19位[0,1,0]为轮到目标虚拟对象叫分。
S208,通过机器学习模型分别对资源分布特征和候选竞逐特征进行处理,得到目标虚拟对象在交互式任务中的角色竞逐策略。
其中,机器学习模型可以是包括一个卷积模块和两个全连接模块的深度网络模型,也可以是ResNet和LSTM(LSTM,Long Short-Term Memory,长短期记忆网络)网络模型等。角色竞逐策略是指角逐目标角色的策略,如在斗地主游戏中,角色竞逐策略为抢地主的策略。
在一个实施例中,服务器通过机器学习模型,对资源分布特征进行卷积处理得到卷积后资源分布特征。服务器通过机器学习模型,对候选竞逐特征进行卷积处理,以使资源分布特征映射到样本标记空间得到分类特征。服务器将卷积后资源分布特征与分类特征进行拼接得到拼接特征,通过机器学习对拼接特征进行处理,得到竞逐目标角色的角色竞逐策略。
在一个实施例中,角色竞逐策略包括竞逐目标角色的概率值;S208可以包括:AI服务器通过机器学习模型中的第一网络模型对资源分布特征进行处理,以及,通过机器学习模型中的第二网络模型对候选竞逐特征进行处理;将第一网络模型的输出与第二网络模型的输出进行拼接;通过机器学习中的第三网络模型对拼接所得的拼接特征进行处理,得到竞逐目标角色的概率值。
其中,如图4所示,第一网络模型可以是由多层全连接层组成。第二网络模型可以是由多层卷积层组成。第三网络模型由多层全连接层组成。
在一个实施例中,AI服务器通过机器学习模型中的第一网络模型对资源分布特征进行卷积处理,得到卷积后资源分布特征。服务器通过机器学习模型中的第二网络模型对候选竞逐特征进行卷积处理,以使资源分布特征映射到样本标记空间得到分类特征。服务器将第一网络模型的输出与第二网络模型的输出进行拼接;通过机器学习中的第三网络模型对拼接所得的拼接特征进行分类,得到竞逐目标角色的概率值。
S210,根据角色竞逐策略控制目标虚拟对象进行角色竞逐操作。
其中,角色竞逐操作可以指用于目标虚拟对象与其它虚拟对象进行角逐目标角色。例如,角色竞逐操作可以是叫分抢地主的操作,如用户对应的目标虚拟角色与该局中斗地主游戏的其它虚拟对象,通过叫分来进行抢地主。
在一个实施例中,AI服务器在得到角色竞逐策略之后,将该角色竞逐策略发送至游戏服务器,以使游戏服务器按照角色竞逐策略控制目标虚拟对象进行角色竞逐操作。
在一个实施例中,S210之后,该方法还可以包括:AI服务器获取角色竞逐操作的操作结果;根据操作结果和第一交互资源确定目标虚拟对象的互动策略;按照互动策略,控制目标虚拟对象与交互式任务中的其它虚拟对象进行互动,得到目标虚拟对象的互动结果。
其中,操作结果是指角色竞逐所得的结果,如抢到地主、或未抢到地主、或未抢地主等这样的操作结果。互动策略可以是:在互动阶段,目标虚拟对象与交互式任务中的其它虚拟对象进行交互所采用的策略。例如,对于斗地主游戏,在出牌阶段,目标虚拟对象可以按照所持有的牌确定出牌策略(如目标虚拟对象需要打哪张牌,以及在其它虚拟对象出牌后,采用什么牌来应对),然后按照出牌策略与其它虚拟对象进行互动。
在一个实施例中,AI服务器获得互动策略后,向游戏服务器发送携带有互动策略的角色竞逐指令,以指示游戏服务器按照互动策略,控制目标虚拟对象与交互式任务中的其它虚拟对象进行互动,得到目标虚拟对象的互动结果。
在一个实施例中,根据角色竞逐策略,控制目标虚拟对象执行竞逐目标角色或放弃竞逐目标角色的操作。
作为一个示例,如图5所示,游戏服务器将斗地主游戏的游戏状态发送给AI服务器,AI服务器根据该游戏状态确定该局斗地主游戏处于抢地主阶段时,利用部署在AI服务器中的AI模块(即机器学习模型)对用户对应的目标虚拟对象进行叫分,以进行抢地主。
上述实施例中,当交互式任务处于角色竞逐阶段时,获取目标虚拟对象持有的第一交互资源和未持有的第二交互资源,根据第一交互资源和第二交互资源确定资源分布特征,确定目标虚拟对象在角色竞逐阶段的候选竞逐特征,从而目标虚拟对象可以根据资源分布特征以及候选竞逐特征综合确定是否竞逐目标角色的角色竞逐策略。由于角色竞逐策略综合考虑了目标对象所持有的第一交互资源和未持有的第二交互资源,以及目标对象可选的竞逐情况,从而可以有效地提高目标虚拟对象在互动过程中的获胜概率,从而尽可能避免用户在未控制目标虚拟对象时出现失败的情况。
在一个实施例中,如图6所示,S206具体可以包括:
S602,确定角色竞逐阶段中各虚拟对象的竞逐次序。
其中,竞逐次序是指:在角色竞逐阶段,各虚拟对象在进行目标角色竞逐过程中所遵循的顺序。如图3所示,在进行抢地主阶段,叫分抢地主的顺序依次为第一虚拟对象(标识为CT~4016717)、目标虚拟对象和第二虚拟对象(CT~4355511)。
在一个实施例中,游戏服务器在发送任务状态之前,可以将竞逐次序封装于任务状态中。AI服务器在接收到游戏服务器发送的任务状态时,从任务状态中读取出角色竞逐阶段中各虚拟对象的竞逐次序。
S604,根据竞逐次序获取其它虚拟对象的竞逐状态特征。
其中,竞逐状态特征是指:在角色竞逐阶段,各已竞逐目标角色的虚拟对象的竞逐状态信息。例如,如图3所示,第一虚拟对象叫1分抢地主,那么,对应的竞逐状态特征即为[0,1,0,0]。
S606,基于竞逐状态特征确定目标虚拟对象的候选竞逐特征。
例如,对于斗地主游戏,竞逐状态特征具体为叫分状态特征,斗地主游戏中设置有[0,1,2,3]共四种抢地主的方式。如图3所示,当第一虚拟对象叫1分抢地主时,第一虚拟对象的叫分状态特征[0,1,0,0]。在第一虚拟对象叫了1分之后,轮到目标虚拟对象进行叫分抢地主,由于目标虚拟对象和第二虚拟对象此时还未进行叫分抢地主,对应的分状态特征分别为[0,0,0,0]和[0,0,0,0]。此外,由于第一虚拟对象叫了1分,那么,对于目标虚拟对象而言,可以有三种选择方式,即不抢地主、或叫2分或3分,因此,目标虚拟对象的可选叫分状态特征为[1,0,1,1]。此外,由于第一个虚拟对象已经完成叫分,此时,轮到目标虚拟对象叫分,用向量特征为[0,1,0]。因此,可以得到19位的候选竞逐特征[0,1,0,0,0,0,0,0,0,0,0,0,1,0,1,1,0,1,0]。
在一个实施例中,AI服务器可以根据目标虚拟对象的候选竞逐特征,确定可选择的竞逐方式,如竞逐目标角色或放弃竞逐目标角色。
上述实施例中,通过竞逐次序来获得目标虚拟对象的候选竞逐特征,以便利用机器学习模型根据候选竞逐特征,确定目标虚拟对象在角色竞逐阶段可以选择的竞逐方式。
在一个实施例中,如图7所示,机器学习模型的训练步骤包括:
S702,获取交互式任务中目标虚拟对象持有的第一交互资源样本和未持有的第二交互资源样本。
其中,第一交互资源样本和第二交互资源样本可以从某一次或多次交互式任务中获得。例如,如图8所示,在某次或多次进行斗地主游戏时,游戏服务器为各个斗地主游戏中的虚拟对象发牌,此时,各虚拟对象持有扑克牌。然后根据目标对象持有的扑克牌和未持有的扑克牌确定扑克牌分布特征,此外还会确定目标虚拟对象在叫地主阶段的可叫分状态特征,如叫0-3分;AI服务器通过机器学习模型分别对扑克牌分布特征和可叫分状态特征进行处理,得到目标虚拟对象在斗地主游戏中抢地主的策略;根据抢地主的策略控制目标虚拟对象进行抢地主或不抢地主的操作,得到操作结果。然后按照操作结果进行打牌,得到该局游戏的胜负结果和对应的激励值。
通过上述的方式,第一交互资源样本和第二交互资源样本,以及胜负结果和激励值,AI服务器将该胜负结果和激励值作为样本标签,与第一交互资源样本和第二交互资源样本一起存储于Redis服务器。
在一个实施例中,在机器学习模型的训练过程中,AI服务器获取目标虚拟对象在交互式任务过程中的任务状态;根据任务状态确定交互式任务所处的任务阶段;任务阶段包括角色竞逐阶段和互动阶段。
在一个实施例中,游戏服务器获取交互式任务的任务状态,然后将任务状态发送给AI服务器。AI服务器接收第一服务器发送的目标虚拟对象在交互式任务过程中的任务状态,根据任务状态确定交互式任务处于角色竞逐阶段或互动阶段。
在一个实施例中,当交互式任务的模式为多用户交互模式时,游戏服务器获取用户对目标虚拟对象进行操作的状态信息,状态信息包括托管状态(即用户未操控目标虚拟对象)和操控状态这两种信息。当该状态信息为托管状态的信息时,游戏服务器将会获取交互式任务的任务状态,然后将任务状态发送给AI服务器。其中,进入托管状态的方式可以是:用户在规定时间内未进行操作而进入托管状态,也可以是用户手动设置的托管状态,还可以是因网络或其它原因导致掉线而进入托管状态。其中,上述的用户是指通过用户账号登陆交互式任务系统,通过该交互式任务系统中的操作页面对目标虚拟对象进行控制的用户,如人机对战的斗地主游戏中的游戏操控人。
例如,当用户在进行斗地主游戏、且处于托管状态时,游戏服务器获取斗地主游戏的游戏状态,将该游戏状态发送给AI服务器。AI服务器在接收到斗地主游戏的游戏状态时,根据该游戏状态确定斗地主游戏处于抢地主阶段(也即叫分阶段)还是出牌阶段。
在另一个实施例中,当交互式任务的模式为人机互动模式时,对于高水平的用户,可以对机器操控的目标虚拟对象进行AI控制,以增加用户的挑战性。当游戏服务器确定目标虚拟对象由机器操控时,将交互式任务的任务状态发送给AI服务器,以便AI服务器为机器所操控的目标虚拟对象提供预测角色竞逐策略。
例如,对于高水平的用户,可以对机器操控的目标虚拟对象接入机器学习模型,以提供高水平叫分策略让玩家挑战得分,增加活跃度。当用户在进行人机挑战类型的斗地主游戏时,游戏服务器可以获取斗地主游戏的游戏状态,将该游戏状态发送给AI服务器,以便AI服务器根据该游戏状态确定斗地主游戏处于抢地主阶段(也即叫分阶段)还是出牌阶段,进而AI服务器执行S702。
S704,根据第一交互资源样本和第二交互资源样本确定训练资源分布特征。
在一个实施例中,AI服务器分别提取第一交互资源样本和第二交互资源样本的训练资源分布特征,然后将第一交互资源样本的训练资源分布特征和第二交互资源样本的训练资源分布特征进行组合,得到组合后的三维训练资源分布特征。或者,将第一交互资源样本的训练资源分布特征和第二交互资源样本的训练资源分布特征进行拼接,即把第二交互资源样本的训练资源分布特征拼接在第一交互资源样本的训练资源分布特征之后,得到拼接后的二维训练资源分布特征。
在一个实施例中,AI服务器从第一交互资源样本中提取第一训练资源分布特征;第一训练资源分布特征用于表示第一交互资源样本中的各子交互资源样本和对应的数量;提取第二交互资源样本中的第二训练资源分布特征;第二训练资源分布特征用于表示第二交互资源样本中的各子交互资源样本和对应的数量;将第一训练资源分布特征和第二训练资源分布特征进行组合,得到组合后的训练资源分布特征。其中,训练资源分布特征可以是三维训练资源分布特征。
S706,确定目标虚拟对象在角色竞逐阶段的训练候选竞逐特征。
其中,训练候选竞逐特征可以用于表示:处于当前竞逐状态下目标虚拟对象可以选择的角逐目标角色的方式。交互式任务中的各虚拟对象均可以有多种角逐目标角色的方式,如放弃竞逐目标角色和竞逐目标角色,而且,竞逐目标角色还可以是通过投入不同的分值来竞逐目标角色。
在一个实施例中,AI服务器获取处于目标虚拟对象之前的虚拟对象的训练竞逐状态特征,根据该训练竞逐状态特征确定目标虚拟对象在角色竞逐阶段的训练候选竞逐特征。其中,在斗地主游戏中,训练竞逐状态特征可以是叫分状态特征,或抢地主状态特征。
例如,斗地主游戏中设置有[0,1,2,3]共四种抢地主的方式,当第一个虚拟对象叫了1分,第二个虚拟对象叫了2分时,则第一个虚拟对象和第二个虚拟对象的叫分状态特征分别为[0,1,0,0]和[0,0,1,0],其中,[0,1,0,0]表示第一个用户叫了1分,[0,0,1,0]表示第二个用户叫了2分。那么,AI服务器可以通过第一个虚拟对象和第二个虚拟对象的叫分状态特征确定目标虚拟对象的可选叫分状态特征为[1,0,0,1],其中,[1,0,0,1]表示目标虚拟对象可以不抢地主,或者可以叫3分抢地主。此外,由于第一个虚拟对象和第二个虚拟对象已经完成叫分,此时,轮到目标虚拟对象叫分,用向量特征为[0,0,1]。
因此,可以得到19位的训练候选竞逐特征[0,1,0,0,0,0,1,0,0,0,0,0,1,0,0,1,0,0,1],其中,第1-4位[0,1,0,0]为第一个虚拟对象的叫分状态特征,第5-8位[0,0,1,0,]为第二个虚拟对象的叫分状态特征,第9-12位[0,0,0,0]为目标虚拟对象的叫分状态特征,第13-16位[1,0,0,1]为目标虚拟对象的可选叫分状态特征,第17-19位[0,0,1]为轮到目标虚拟对象叫分。
作为一个示例,如图3所示,叫分抢地主的顺序依次为第一虚拟对象(标识为CT~4016717)、目标虚拟对象和第二虚拟对象(CT~4355511),当第一虚拟对象叫1分抢地主时,那么,目标虚拟对象的训练候选竞逐特征为[0,1,0,0,0,0,0,0,0,0,0,0,1,0,1,1,0,1,0]。其中,第1-4位[0,1,0,0]为第一个虚拟对象的叫分状态特征,第5-8位[0,0,0,0,]为目标虚拟对象的叫分状态特征,第9-12位[0,0,0,0]为第二虚拟对象的叫分状态特征,第13-16位[1,0,1,1]为目标虚拟对象的可选叫分状态特征(即目标虚拟对象可以选择不叫,或者叫2分或3分进行抢地主),第17-19位[0,1,0]为轮到目标虚拟对象叫分。
S708,将训练候选竞逐特征和训练资源分布特征输入机器学习模型进行训练,得到目标虚拟对象的预测角色竞逐策略。
在一个实施例中,服务器通过机器学习模型,对训练资源分布特征进行卷积处理得到卷积后训练资源分布特征。服务器通过机器学习模型,对训练候选竞逐特征进行卷积处理,以使训练资源分布特征映射到样本标记空间得到训练分类特征。服务器将卷积后训练资源分布特征与训练分类特征进行拼接得到拼接特征,通过机器学习对拼接特征进行处理,得到竞逐目标角色的预测角色竞逐策略。
在一个实施例中,预测角色竞逐策略包括竞逐目标角色的预测概率值;S208可以包括:AI服务器通过机器学习模型中的第一网络模型对训练资源分布特征进行处理,以及,通过机器学习模型中的第二网络模型对训练候选竞逐特征进行处理;将第一网络模型的输出与第二网络模型的输出进行拼接;通过机器学习中的第三网络模型对拼接所得的拼接特征进行处理,得到竞逐目标角色的预测概率值。
其中,第一网络模型可以是由多层全连接层组成。第二网络模型可以是由多层卷积层组成。第三网络模型由多层全连接层组成。
在一个实施例中,AI服务器通过机器学习模型中的第一网络模型对训练资源分布特征进行卷积处理,得到卷积后训练资源分布特征。服务器通过机器学习模型中的第二网络模型对训练候选竞逐特征进行卷积处理,以使训练资源分布特征映射到样本标记空间得到训练分类特征。服务器将第一网络模型的输出与第二网络模型的输出进行拼接;通过机器学习中的第三网络模型对拼接所得的拼接特征进行分类,得到竞逐目标角色的预测概率值。
S610,根据角色竞逐策略控制目标虚拟对象进行角色竞逐操作。
在一个实施例中,AI服务器在得到角色竞逐策略之后,将该角色竞逐策略发送至游戏服务器,以使游戏服务器按照角色竞逐策略控制目标虚拟对象进行角色竞逐操作。
作为一个示例,如图5所示,游戏服务器将斗地主游戏的游戏状态发送给AI服务器,AI服务器根据该游戏状态确定该局斗地主游戏处于抢地主阶段时,利用部署在AI服务器中的AI模块(即机器学习模型)对用户对应的目标虚拟对象进行叫分,以进行抢地主。
S612,基于角色竞逐操作的操作结果和第一交互资源样本,控制目标虚拟对象与交互式任务中的其它虚拟对象进行互动,得到目标虚拟对象的训练互动结果。
其中,训练互动结果是指训练过程中,目标虚拟对象与交互式任务中的其它虚拟对象进行互动的互动结果,训练互动结果可以包括得到竞逐目标角色的训练概率值和训练激励值。例如,在进行斗地主过程中,目标虚拟对象抢到地主之后,与其他虚拟对象进行斗地主操作,最终得到这一局斗地主游戏的包含有胜负结果的互动结果。
在训练互动结果中,包括有胜负结果和对应的激励值。其中,激励值是对胜负结果对应的得分进行处理所得。
在一个实施例中,对激励值进行处理的步骤可以包括:AI服务器将得分除以n得到激励值,可以防止得分太大导致溢出,其中,n为大于或等于2的正整数。
在一个实施例中,对激励值进行处理的步骤还可以包括:AI服务器将得分取对数,将取对数所得的结果作为目标虚拟对象的激励值;此外,用取对数所得的结果除以2得到商值,将商值作为交互式任务中其它虚拟对象的激励值。需要说明的是,对于目标虚拟对象和其它虚拟对象,胜的一方得到正向激励值,负的一方得到负向激励值。其中,正向激励值是指正的激励值,负向激励值是指负的激励值。
在一个实施例中,对激励值进行处理的步骤还可以包括:AI服务器将得分取对数,若目标虚拟对象未竞逐目标角色、且负了,则给目标虚拟对象一个正向激励值,表明未竞逐目标角色的行为是好的。
在一个实施例中,对激励值进行处理的步骤还可以包括:AI服务器将得分取对数,若目标虚拟对象未竞逐目标角色、但赢了,而且赢的原因在于目标虚拟对象,则给目标虚拟对象一个负向激励值,表明未竞逐目标角色的行为是不好的。例如,在斗地主游戏过程中,目标虚拟对象未抢地主、且因为目标虚拟对象先出完所持有的牌而赢了,表明目标虚拟对象所持有的牌比较好,应该去抢地主而没有抢,此时给目标虚拟对象一个负向激励值。
在一个实施例中,S610之后,该方法还可以包括:服务器获取角色竞逐操作的操作结果;根据操作结果和第一交互资源样本确定目标虚拟对象的预测互动策略;按照预测互动策略,控制目标虚拟对象与交互式任务中的其它虚拟对象进行互动,得到目标虚拟对象的互动结果。
其中,操作结果是指角色竞逐所得的结果,如抢到地主、或未抢到地主、或未抢地主等这样的操作结果。预测互动策略可以是:在互动阶段,目标虚拟对象与交互式任务中的其它虚拟对象进行交互所采用的策略。例如,对于斗地主游戏,在出牌阶段,目标虚拟对象可以按照所持有的牌确定出牌策略(如目标虚拟对象需要打哪张牌,以及在其它虚拟对象出牌后,采用什么牌来应对),然后按照出牌策略与其它虚拟对象进行互动。
在一个实施例中,根据预测角色竞逐策略,控制目标虚拟对象执行竞逐目标角色或放弃竞逐目标角色的操作。
S614,计算训练互动结果与样本标签之间的差值,根据差值调整机器学习模型的参数。
在一个实施例中,AI服务器通过对应的损失函数计算训练概率值与样本标签之间的差值,根据差值调整机器学习模型的参数。其中,上述的损失函数可以是L2损失函数、对数损失函数、平方损失函数、指数损失函数或Hinge损失函数。
在一个实施例中,AI服务器通过对应的损失函数计算训练激励值与样本标签之间的差值,根据差值调整机器学习模型的参数。其中,上述的损失函数可以是代理损失函数(surrogate loss function)或交叉熵损失函数(Cross Entropy Loss)。
在一个实施例中,训练互动结果包括目标虚拟对象的激励值;激励值是处理目标虚拟对象在交互式任务中的得分所得;该方法还包括:当每次训练获得激励值时,AI服务器根据所获得的激励值绘制激励曲线,并在激励曲线达到收敛条件时,停止训练机器学习模型;或者,当每次训练获得激励值时,根据所获得的激励值与样本标签之间的差值绘制残差曲线,并在在残差曲线达到收敛条件时,停止训练机器学习模型。其中,激励曲线如图9所示。
例如,如图8所示,AI服务器根据差值调整机器学习模型的参数,然后将修改参数的机器学习模型进行存储,以便对模拟器(Simulator)中的机器学习模型进行更新,根据更新后的机器学习模型得到胜负结果和激励值。当激励曲线或残差曲线达到收敛条件时,停止训练机器学习模型,得到训练后的机器学习模型,以便进行部署。
上述实施例中,当交互式任务处于角色竞逐阶段时,获取目标虚拟对象持有的第一交互资源样本和未持有的第二交互资源样本,根据第一交互资源样本和第二交互资源样本确定训练资源分布特征,确定目标虚拟对象在角色竞逐阶段的训练候选竞逐特征,从而目标虚拟对象可以根据训练资源分布特征以及训练候选竞逐特征综合确定是否竞逐目标角色的预测角色竞逐策略,根据预测角色竞逐策略控制目标虚拟对象与交互式任务中的其它虚拟对象进行互动,得到目标虚拟对象的训练互动结果,计算训练互动结果与样本标签之间的差值,根据差值调整机器学习模型的参数,从而可以得到训练后的机器学习模型。由于预测角色竞逐策略综合考虑了目标对象所持有的第一交互资源样本和未持有的第二交互资源样本,以及目标对象可选的竞逐情况和样本标签,从而使得训练后的机器学习模型可以有效地预测出角色竞逐策略,从而可以有效地提高目标虚拟对象在互动过程中的获胜概率,从而尽可能避免用户在未控制目标虚拟对象时出现失败的情况。
作为一个示例,斗地主游戏每局分为3个玩家,分为地主和农民两种角色。游戏一共有54张牌,牌型从小到大依次为{3,4,5,6,7,8,9,10,J,Q,K,A,2,B,R},从“3”到“2”的13种牌型每种牌有4张,R和B各一张。在叫分阶段,每个玩家(agent,即进行斗地主游戏的用户)都有机会成为地主,取决于玩家所叫的分数。分数最高的玩家为地主,并且会获得3张底牌。而另外两名玩家为农民。农民之间需要合作对抗地主。农民只要有一人牌出完则农民胜利。而地主需要独自对抗两位农民玩家。叫分阶段从其中的一个玩家开始,分三个为止叫分。事实上斗地主有很多种不同的叫分规则,以最简单的一轮叫分为例,第一个玩家可以任意叫pass(即0分)、1、2或3分,而第二个玩家叫分需要比第一个玩家高才为有效叫分,或者可以选择pass,当出现玩家叫3分时,改玩家则直接作为地主开始本轮游戏。如果一轮下来所有玩家都叫pass,则视为流局。还有一些规则允许两轮叫分以及加倍等。传统方案中,叫分阶段主要是观察手中的大牌数量来决定是否叫地主,这种做法虽然实际效果并不会特别差,但是不足以让AI获得最大收益的。没有考虑:1、无大牌但是牌面很顺;2、长线收益;3、叫低分给下一个玩家压力等等。
(一)模型训练架构
如图8所示,本发明实施例提供了一种模型训练架构,整个训练架构分为三个部分:Simulator、Redis储存和强化学习(Learner)模块。Simulator部分负责模拟游戏对战(self-play),并产生训练所需要的样本数据。其中包括:1)特征输入;2)输出的action(叫分);3)出牌;4)获得激励(Reward)等强化学习训练所需信息。用于叫分的机器学习模型,在进行训练时需要知道最终的胜负得分,需要一个固定的打牌模块来模拟打牌过程。本实施例中训练了一个SL(Supervised Learning,监督学习)的打牌模型作为机器学习模型产生reward的环节,打牌模型需要保证出牌足够合理即可。样本数据(包括Reward、胜负结果、持有和未持有的扑克牌等等)通过Redis服务器来做缓存,来等待Learner模块的消费,Learner模块消费Redis储存的样本数据后得到训练后的机器学习模型,并将该机器学习模型储存于历史模型库,Simulator每隔一段时间从历史模型库中拉取不同的三个机器学习模型进行叫分。
(二)特征以及训练样本处理
机器学习模型的输入特征分为类图像特征(即资源分布特征)和向量特征(即候选竞逐特征)两个部分。如上述实施例中的表1和表2,类图像特征用来表达agent当前的扑克牌(17张)和未出现的牌(37张),横轴给所有牌种按序排列,纵轴为具体牌种的数量。例如,根据图3和表1可知,四张2会在横轴的第13维表示为[1,1,1,1]。向量特征表达了游戏状态,也就是叫分状态。以一轮叫分为例,如果第一个agent叫了1分,则当前agent的向量特征会为:[0,1,0,0,0,0,0,0,0,0,0,0]、valid mask[1,0,1,1]和Position[0,1,0]这三个向量的组合,即向量特征为。其中,[0,1,0,0,0,0,0,0,0,0,0,0,1,0,1,1,0,1,0]。其中,Validmask表示当前agent有效的叫分动作。Position是一个one hot的向量,表示当前agent所处的叫分位置,例如[0,1,0]代表处于第二位。
叫分阶段结束后,SL打牌模型会根据具体的叫分产生打完牌后各agent的得分。这个得分会处理成训练的reward值。本本实施例采用了以下几种处理得分获得reward值的方式:
1)将最终得分除以10,防止reward太大导致overflow。
2)将最终得分同时取对数,然后用取对数之后所得的最大得分(作为胜方的地主得分)或最小得分(作为负方的地主得分)除以2得到农民的reward值,使得农民的reward值保证零和。
3)将最终得分同时取对数,如果agent叫了0分,并且输了,则给一个正向reward值,表明这个行为是好的。
4)将最终得分同时取log,如果agent叫了0分,并且输了,则给一个正向reward值,表明这个行为是好的。如果agent叫了0分赢了,并且是出完扑克牌的那个农民,则给一个负的reward值,表明这个行为是不好的。
reward直接影响最终训练出来的agent的风格,例如,上述3)的方式所得的reward值会训练出偏保守的风格。
reward值、玩家持有的扑克牌、叫分和胜负结果等数据作为数据样本发送到redis服务器进行存储。
(三)机器学习模型
用于斗地主叫分的机器学习模型,包括:一个卷积模块以及两个全连接模块。卷积(Conv)模块用于处理类图像特征(4×15×2,机三维的4×15矩阵),全连接(FC)模块用于处理向量特征(12+4+3=19维向量)。如图4所示。最后两个模块的输出拼接(Concat)到一起再接全连接模块(两层全连接层),最后输出叫分数的概率值。
其中,训练的时候使用了PPO算法,使用L2作为价值损失函数优化机器学习模型中的value,从而产生更准确Policy。并同时使用Surrogate loss和entropy loss优化policy。
上述机器学习模型利用了卷积的感受野(发现顺子以及炸弹等组合)以及向量确定数值的优势,训练更加鲁棒的特征。
(四)评测标准
本实施例中通过一个评测模块,模拟训练出来的历史模型与随机初始化模型的对战,来得到最终的reward收敛曲线,如图8所示。以随机初始化的模型作为baseline模型,用待评测模型与两个baseline模型进行5000局对局,并且平均分配待评测模型所在的位置,最终计算待评测模型所获得的总得分,从而得到待评测模型的性能。
(五)在线接入
评测完训练好的叫分模型后,得到需部署的模型,会按照以下步骤进行在线介入:
a)游戏服务器发送游戏状态(是否在叫分阶段,玩家扑克牌,未见的牌,玩家位置等等)
b)AI服务器判断是否为叫牌阶段,如果是,则继续步骤c),如果不是,则进入打牌阶段。
c)根据游戏信息提取特征输入。
d)运行叫分模型对叫分进行预测,输出的预测结果处理后回包给到游戏服务器。
通过本发明实施例,可以具有以下有益效果:
1)提出的斗地主叫分行为可以准确模拟人类叫分的行为,最大化游戏收益。
2)提出同时使用类图像特征和向量特征对牌类游戏的特征进行有效的表达。
3)提出一种有效评测叫分模型是否收敛的机制。
4)提出多种对斗地主叫分reward的处理方式,能够得到不一样风格的叫分模型,但最终都能够获得较大收益。
图2、5-6为一个实施例中交互式任务的控制方法的流程示意图。应该理解的是,虽然图2、5-6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、5-6中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图10所示,在一个实施例中,提供了一种交互式任务的控制装置,该交互式任务的控制装置具体包括:资源获取模块1002、第一特征确定模块1004、第二特征确定模块1006、特征处理模块1008和控制模块1010;其中:
资源获取模块1002,用于当确定交互式任务处于角色竞逐阶段时,获取交互式任务中目标虚拟对象持有的第一交互资源和未持有的第二交互资源;
第一特征确定模块1004,用于根据第一交互资源和第二交互资源确定资源分布特征;
第二特征确定模块1006,用于确定目标虚拟对象在角色竞逐阶段的候选竞逐特征;
特征处理模块1008,用于通过机器学习模型分别对资源分布特征和候选竞逐特征进行处理,得到目标虚拟对象在交互式任务中的角色竞逐策略;
控制模块1010,用于根据角色竞逐策略控制目标虚拟对象进行角色竞逐操作。
上述实施例中,当交互式任务处于角色竞逐阶段时,获取目标虚拟对象持有的第一交互资源和未持有的第二交互资源,根据第一交互资源和第二交互资源确定资源分布特征,确定目标虚拟对象在角色竞逐阶段的候选竞逐特征,从而目标虚拟对象可以根据资源分布特征以及候选竞逐特征综合确定是否竞逐目标角色的角色竞逐策略。由于角色竞逐策略综合考虑了目标对象所持有的第一交互资源和未持有的第二交互资源,以及目标对象可选的竞逐情况,从而可以有效地提高目标虚拟对象在互动过程中的获胜概率,从而尽可能避免用户在未控制目标虚拟对象时出现失败的情况。
在一个实施例中,如图11所示,该装置还包括:任务阶段确定模块1012;其中:
任务阶段确定模块1012,用于获取目标虚拟对象在交互式任务过程中的任务状态;根据任务状态确定交互式任务所处的任务阶段;任务阶段包括角色竞逐阶段和互动阶段。
在一个实施例中,第一特征确定模块1004还用于:
从第一交互资源中提取第一资源分布特征;第一资源分布特征用于表示第一交互资源中的各子交互资源和对应的数量;
提取第二交互资源中的第二资源分布特征;第二资源分布特征用于表示第二交互资源中的各子交互资源和对应的数量;
将第一资源分布特征和第二资源分布特征进行组合,得到组合后的资源分布特征。
在一个实施例中,第二特征确定模块1006还用于:
确定角色竞逐阶段中各虚拟对象的竞逐次序;
根据竞逐次序获取其它虚拟对象的竞逐状态特征;
根据竞逐状态特征确定目标虚拟对象的候选竞逐特征。
上述实施例中,通过竞逐次序来获得目标虚拟对象的候选竞逐特征,以便利用机器学习模型根据候选竞逐特征,确定目标虚拟对象在角色竞逐阶段可以选择的竞逐方式。
在一个实施例中,角色竞逐策略包括竞逐目标角色的概率值;特征处理模块1008还用于:
通过机器学习模型中的第一网络模型对资源分布特征进行处理,以及,通过机器学习模型中的第二网络模型对候选竞逐特征进行处理;
将第一网络模型的输出与第二网络模型的输出进行拼接;
通过机器学习中的第三网络模型对拼接所得的拼接特征进行处理,得到竞逐目标角色的概率值。
在一个实施例中,如图11所示,该装置还包括:互动模块1014;其中:
互动模块1014,用于:获取角色竞逐操作的操作结果;根据操作结果和第一交互资源确定目标虚拟对象的互动策略;按照互动策略,控制目标虚拟对象与交互式任务中的其它虚拟对象进行互动,得到目标虚拟对象的互动结果。
在一个实施例中,控制模块1010还用于:
根据角色竞逐策略,控制目标虚拟对象执行竞逐目标角色或放弃竞逐目标角色的操作。
在一个实施例中,如图11所示,该装置还包括:差值计算模块1016;其中:
资源获取模块1002还用于获取交互式任务中目标虚拟对象持有的第一交互资源样本和未持有的第二交互资源样本;
第一特征确定模块1004还用于根据第一交互资源样本和第二交互资源样本确定训练资源分布特征;
第二特征确定模块1006还用于确定目标虚拟对象在角色竞逐阶段的训练候选竞逐特征;
特征处理模块1008还用于将训练候选竞逐特征和训练资源分布特征输入机器学习模型进行训练,得到目标虚拟对象的预测角色竞逐策略;
控制模块1010还用于根据角色竞逐策略控制目标虚拟对象进行角色竞逐操作;基于角色竞逐操作的操作结果和第一交互资源样本,控制目标虚拟对象与交互式任务中的其它虚拟对象进行互动,得到目标虚拟对象的训练互动结果;
差值计算模块1016,用于计算训练互动结果与样本标签之间的差值,根据差值调整机器学习模型的参数。
在一个实施例中,训练互动结果包括目标虚拟对象的激励值;激励值是处理目标虚拟对象在交互式任务中的得分所得;如图11所示,该装置还包括:处理模块1018;其中:
处理模块1018,用于当每次训练获得激励值时,根据所获得的激励值绘制激励曲线,并在激励曲线达到收敛条件时,停止训练机器学习模型;或者,当每次训练获得激励值时,根据所获得的激励值与样本标签之间的差值绘制残差曲线,并在在残差曲线达到收敛条件时,停止训练机器学习模型。
上述实施例中,当交互式任务处于角色竞逐阶段时,获取目标虚拟对象持有的第一交互资源样本和未持有的第二交互资源样本,根据第一交互资源样本和第二交互资源样本确定训练资源分布特征,确定目标虚拟对象在角色竞逐阶段的训练候选竞逐特征,从而目标虚拟对象可以根据训练资源分布特征以及训练候选竞逐特征综合确定是否竞逐目标角色的预测角色竞逐策略,根据预测角色竞逐策略控制目标虚拟对象与交互式任务中的其它虚拟对象进行互动,得到目标虚拟对象的训练互动结果,计算训练互动结果与样本标签之间的差值,根据差值调整机器学习模型的参数,从而可以得到训练后的机器学习模型。由于预测角色竞逐策略综合考虑了目标对象所持有的第一交互资源样本和未持有的第二交互资源样本,以及目标对象可选的竞逐情况和样本标签,从而使得训练后的机器学习模型可以有效地预测出角色竞逐策略,从而可以有效地提高目标虚拟对象在互动过程中的获胜概率,从而尽可能避免用户在未控制目标虚拟对象时出现失败的情况。
图12示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的第二服务器130。如图12所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现交互式任务的控制方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行交互式任务的控制方法。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的交互式任务的控制装置可以实现为一种计算机程序的形式,计算机程序可在如图12所示的计算机设备上运行。计算机设备的存储器中可存储组成该交互式任务的控制装置的各个程序模块,比如,图10所示的资源获取模块1002、第一特征确定模块1004、第二特征确定模块1006、特征处理模块1008和控制模块1010。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的交互式任务的控制方法中的步骤。
例如,图12所示的计算机设备可以通过如图10所示的交互式任务的控制装置中的资源获取模块1002执行S202。计算机设备可通过第一特征确定模块1004执行S204。计算机设备可通过第二特征确定模块1006执行S206。计算机设备可通过特征处理模块1008执行S208。计算机设备可通过控制模块1010执行S210。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述交互式任务的控制方法的步骤。此处交互式任务的控制方法的步骤可以是上述各个实施例的交互式任务的控制方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述交互式任务的控制方法的步骤。此处交互式任务的控制方法的步骤可以是上述各个实施例的交互式任务的控制方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种交互式任务的控制方法,包括:
当确定交互式任务处于角色竞逐阶段时,获取所述交互式任务中目标虚拟对象持有的第一交互资源和未持有的第二交互资源;
根据所述第一交互资源和所述第二交互资源确定资源分布特征;
确定所述目标虚拟对象在所述角色竞逐阶段的候选竞逐特征;
通过机器学习模型分别对所述资源分布特征和所述候选竞逐特征进行处理,得到所述目标虚拟对象在所述交互式任务中的角色竞逐策略;
根据所述角色竞逐策略控制所述目标虚拟对象进行角色竞逐操作。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取目标虚拟对象在交互式任务过程中的任务状态;
根据所述任务状态确定所述交互式任务所处的任务阶段;所述任务阶段包括角色竞逐阶段和互动阶段。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一交互资源和所述第二交互资源确定资源分布特征包括:
从所述第一交互资源中提取第一资源分布特征;所述第一资源分布特征用于表示所述第一交互资源中的各子交互资源和对应的数量;
提取所述第二交互资源中的第二资源分布特征;所述第二资源分布特征用于表示所述第二交互资源中的各子交互资源和对应的数量;
将所述第一资源分布特征和所述第二资源分布特征进行组合,得到组合后的资源分布特征。
4.根据权利要求1所述的方法,其特征在于,所述确定所述目标虚拟对象在所述角色竞逐阶段的候选竞逐特征包括:
确定所述角色竞逐阶段中各虚拟对象的竞逐次序;
根据所述竞逐次序获取所述其它虚拟对象的竞逐状态特征;
基于所述竞逐状态特征确定目标虚拟对象的候选竞逐特征。
5.根据权利要求1所述的方法,其特征在于,所述角色竞逐策略包括竞逐目标角色的概率值;所述通过机器学习模型分别对所述资源分布特征和所述候选竞逐特征进行处理,得到所述目标虚拟对象在所述交互式任务中的角色竞逐策略包括:
通过机器学习模型中的第一网络模型对所述资源分布特征进行处理,以及,通过所述机器学习模型中的第二网络模型对所述候选竞逐特征进行处理;
将所述第一网络模型的输出与所述第二网络模型的输出进行拼接;
通过机器学习中的第三网络模型对拼接所得的拼接特征进行处理,得到竞逐目标角色的概率值。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述机器学习模型的训练步骤包括:
获取所述交互式任务中目标虚拟对象持有的第一交互资源样本和未持有的第二交互资源样本;
根据所述第一交互资源样本和第二交互资源样本确定训练资源分布特征;
确定所述目标虚拟对象在所述角色竞逐阶段的训练候选竞逐特征;
将所述训练候选竞逐特征和所述训练资源分布特征输入机器学习模型进行训练,得到所述目标虚拟对象的预测角色竞逐策略;
根据所述角色竞逐策略控制所述目标虚拟对象进行角色竞逐操作;
基于角色竞逐操作的操作结果和所述第一交互资源样本,控制所述目标虚拟对象与所述交互式任务中的其它虚拟对象进行互动,得到所述目标虚拟对象的训练互动结果;
计算所述训练互动结果与样本标签之间的差值,根据所述差值调整所述机器学习模型的参数。
7.根据权利要求6所述的方法,其特征在于,所述训练互动结果包括所述目标虚拟对象的激励值;所述激励值是处理所述目标虚拟对象在所述交互式任务中的得分所得;所述方法还包括:
当每次训练获得激励值时,根据所获得的激励值绘制激励曲线,并在所述激励曲线达到收敛条件时,停止训练所述机器学习模型;或者,
当每次训练获得激励值时,根据所获得的激励值与样本标签之间的差值绘制残差曲线,并在在所述残差曲线达到收敛条件时,停止训练所述机器学习模型。
8.一种交互式任务的控制装置,其特征在于,所述装置包括:
资源获取模块,用于当确定交互式任务处于角色竞逐阶段时,获取所述交互式任务中目标虚拟对象持有的第一交互资源和未持有的第二交互资源;
第一特征确定模块,用于根据所述第一交互资源和所述第二交互资源确定资源分布特征;
第二特征确定模块,用于确定所述目标虚拟对象在所述角色竞逐阶段的候选竞逐特征;
特征处理模块,用于通过机器学习模型分别对所述资源分布特征和所述候选竞逐特征进行处理,得到所述目标虚拟对象在所述交互式任务中的角色竞逐策略;
控制模块,用于根据所述角色竞逐策略控制所述目标虚拟对象进行角色竞逐操作。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
CN201910891706.4A 2019-09-20 2019-09-20 交互式任务的控制方法、装置、存储介质和计算机设备 Active CN110639208B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910891706.4A CN110639208B (zh) 2019-09-20 2019-09-20 交互式任务的控制方法、装置、存储介质和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910891706.4A CN110639208B (zh) 2019-09-20 2019-09-20 交互式任务的控制方法、装置、存储介质和计算机设备

Publications (2)

Publication Number Publication Date
CN110639208A true CN110639208A (zh) 2020-01-03
CN110639208B CN110639208B (zh) 2023-06-20

Family

ID=68992164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910891706.4A Active CN110639208B (zh) 2019-09-20 2019-09-20 交互式任务的控制方法、装置、存储介质和计算机设备

Country Status (1)

Country Link
CN (1) CN110639208B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111443806A (zh) * 2020-03-26 2020-07-24 腾讯科技(深圳)有限公司 交互任务的控制方法、装置、电子设备及存储介质
CN112933600A (zh) * 2021-03-09 2021-06-11 超参数科技(深圳)有限公司 虚拟对象控制方法、装置、计算机设备和存储介质
CN112933604A (zh) * 2021-02-04 2021-06-11 超参数科技(深圳)有限公司 强化学习模型处理方法、装置、计算机设备和存储介质
CN113555141A (zh) * 2021-07-19 2021-10-26 中国核电工程有限公司 一种核电站的智能监控方法及系统、智能监控服务器
WO2022222597A1 (zh) * 2021-04-19 2022-10-27 网易(杭州)网络有限公司 一种游戏进程的控制方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080207297A1 (en) * 2007-02-28 2008-08-28 Gregory Zilba Computer-based poker card game
CN110227263A (zh) * 2019-06-11 2019-09-13 汕头大学 一种智能化斗地主自动博弈方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080207297A1 (en) * 2007-02-28 2008-08-28 Gregory Zilba Computer-based poker card game
CN110227263A (zh) * 2019-06-11 2019-09-13 汕头大学 一种智能化斗地主自动博弈方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111443806A (zh) * 2020-03-26 2020-07-24 腾讯科技(深圳)有限公司 交互任务的控制方法、装置、电子设备及存储介质
CN111443806B (zh) * 2020-03-26 2023-08-11 腾讯科技(深圳)有限公司 交互任务的控制方法、装置、电子设备及存储介质
CN112933604A (zh) * 2021-02-04 2021-06-11 超参数科技(深圳)有限公司 强化学习模型处理方法、装置、计算机设备和存储介质
CN112933600A (zh) * 2021-03-09 2021-06-11 超参数科技(深圳)有限公司 虚拟对象控制方法、装置、计算机设备和存储介质
WO2022222597A1 (zh) * 2021-04-19 2022-10-27 网易(杭州)网络有限公司 一种游戏进程的控制方法、装置、电子设备及存储介质
CN113555141A (zh) * 2021-07-19 2021-10-26 中国核电工程有限公司 一种核电站的智能监控方法及系统、智能监控服务器
CN113555141B (zh) * 2021-07-19 2024-04-19 中国核电工程有限公司 一种核电站的智能监控方法及系统、智能监控服务器

Also Published As

Publication number Publication date
CN110639208B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN110639208B (zh) 交互式任务的控制方法、装置、存储介质和计算机设备
US11948431B2 (en) Incentivized task completion using chance-based awards
JP7399932B2 (ja) クラウドゲーミングネットワークを使用した人工知能(ai)モデルの訓練
CN108888958B (zh) 虚拟场景中的虚拟对象控制方法、装置、设备及存储介质
CN111111204B (zh) 交互模型训练方法、装置、计算机设备和存储介质
CN108283809B (zh) 数据处理方法、装置、计算机设备和存储介质
CN110443284B (zh) 人工智能ai模型的训练方法、调用方法、服务器及可读存储介质
CN111569429B (zh) 模型训练方法、模型使用方法、计算机设备及存储介质
CN107970608A (zh) 关卡游戏的设置方法和装置、存储介质、电子装置
CN111738294B (zh) Ai模型的训练方法、使用方法、计算机设备及存储介质
CN112891942B (zh) 获取虚拟道具的方法、装置、设备及介质
CN114048834B (zh) 基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置
CN113343089B (zh) 用户召回方法及装置、设备
CN110170171A (zh) 一种目标对象的控制方法及装置
CN114307160A (zh) 训练智能体的方法
CN112997198B (zh) 确定执行设备的动作选择方针
CN114344912A (zh) 动作指令生成方法、动作决策模型的训练方法及装置
CN110465092B (zh) 一种资源分配的方法以及相关装置
CN113230650A (zh) 一种数据处理方法、装置及计算机可读存储介质
CN108874377B (zh) 一种数据处理方法、装置和存储介质
CN113941157A (zh) 游戏匹配方法及装置、电子设备、存储介质
Álvarez-Caballero et al. Early Prediction of the Winner in StarCraft Matches.
CN116850601A (zh) 一种游戏对象处理方法、装置、计算机设备及存储介质
CN114870403A (zh) 一种游戏中的对战匹配方法、装置、设备及存储介质
CN113952730A (zh) 数据处理方法、装置、电子设备、存储介质及计算机产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant