CN116808590B - 一种数据处理方法和相关装置 - Google Patents

一种数据处理方法和相关装置 Download PDF

Info

Publication number
CN116808590B
CN116808590B CN202311080706.9A CN202311080706A CN116808590B CN 116808590 B CN116808590 B CN 116808590B CN 202311080706 A CN202311080706 A CN 202311080706A CN 116808590 B CN116808590 B CN 116808590B
Authority
CN
China
Prior art keywords
behavior
round
combined
target
tested
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311080706.9A
Other languages
English (en)
Other versions
CN116808590A (zh
Inventor
李是希
魏学峰
严明
肖央
邹越
张鹏
肖凌志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311080706.9A priority Critical patent/CN116808590B/zh
Publication of CN116808590A publication Critical patent/CN116808590A/zh
Application granted granted Critical
Publication of CN116808590B publication Critical patent/CN116808590B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/55Controlling game characters or game objects based on the game progress
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/52Controlling the output signals based on the game progress involving aspects of the displayed game scene
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请公开了一种数据处理方法和相关装置,方法包括:通过预测模型对目标游戏中待测对象的第i轮的自动化控制时,获取目标游戏在第i轮的游戏场景的场景特征,第i轮的游戏场景涉及待测对象;根据第i轮的场景特征确定待测对象在第i轮的目标行为;通过控制待测对象在第i轮的游戏场景中实施第i轮的目标行为,得到目标游戏第i+1轮的游戏场景;响应于根据第i‑n轮到第i+1轮的游戏场景确定生成了目标对象状态,将第i‑n‑1轮到第i轮的目标行为确定为组合行为,对象状态用于标识与待测对象相关的状态;在预测模型基于每一轮生成的奖励参数完成强化学习后,将确定出的组合行为构建为待测对象的组合行为集合。本申请提升了组合行为的发掘全面性和效率。

Description

一种数据处理方法和相关装置
技术领域
本申请涉及数据处理领域,特别是涉及一种数据处理方法和相关装置。
背景技术
游戏应用程序在运行时可以为用户提供游戏场景,用户通过在游戏场景中控制游戏中的虚拟对象做出各种行为,以进行游戏体验。
游戏场景中的虚拟对象能够被控制做出各种行为,例如各种方式的移动、各类技能释放等。而且,通过控制虚拟对象做出包括多个行为的组合行为时,可能会产生意料之外的作用和效果。
为了能够全面发掘出虚拟对象的组合行为,相关技术中主要采用人工的方式,通过调用大量人员在游戏场景中对虚拟对象进行各种可能的组合行为尝试,然而这种方式不仅人工成本较高,而且受困于人为经验,难以对所有可能的组合行为进行全面尝试,导致无法满足全面发掘组合行为的目的。
发明内容
为了解决上述技术问题,本申请提供了一种数据处理方法和相关装置,能够提升游戏场景中虚拟对象组合行为的发掘全面性和效率。
本申请实施例公开了如下技术方案:
一方面,本申请提供了一种数据处理方法,所述方法包括:
在通过预测模型对目标游戏中待测对象的第i轮的自动化控制时,获取所述目标游戏在第i轮时的游戏场景的场景特征,所述第i轮的游戏场景涉及所述待测对象;
根据所述第i轮的场景特征确定所述待测对象在所述第i轮的目标行为;
通过控制所述待测对象在所述第i轮的游戏场景中实施所述第i轮的目标行为,得到所述目标游戏在第i+1轮的游戏场景;
响应于根据第i-n轮到所述第i+1轮的游戏场景确定生成了目标对象状态,将所述第i-n-1轮到所述第i轮的目标行为确定为组合行为,所述对象状态用于标识与所述待测对象相关的状态;所述i为正整数,所述n为小于i的正整数;
在所述预测模型基于每一轮生成的奖励参数完成强化学习后,将确定出的组合行为构建为所述待测对象的组合行为集合。
另一方面,本申请提供了一种数据处理装置,所述装置包括:
获取单元,用于:在通过预测模型对目标游戏中待测对象的第i轮的自动化控制时,获取所述目标游戏在第i轮时的游戏场景的场景特征,所述第i轮的游戏场景涉及所述待测对象;
确定单元,用于:根据所述第i轮的场景特征确定所述待测对象在所述第i轮的目标行为;
所述获取单元还用于:通过控制所述待测对象在所述第i轮的游戏场景中实施所述第i轮的目标行为,得到所述目标游戏在第i+1轮的游戏场景;
所述确定单元还用于:响应于根据第i-n轮到所述第i+1轮的游戏场景确定生成了目标对象状态,将所述第i-n-1轮到所述第i轮的目标行为确定为组合行为,所述对象状态用于标识与所述待测对象相关的状态;所述i为正整数,所述n为小于i的正整数;
集合构建单元,用于:在所述预测模型基于每一轮生成的奖励参数完成强化学习后,将确定出的组合行为构建为所述待测对象的组合行为集合。
另一方面,本申请提供了一种计算机设备,所述计算机设备包括处理器以及存储器:
所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
所述处理器用于根据所述计算机程序执行以上所述的数据处理方法。
另一方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序在被计算机设备执行时实现执行以上所述的数据处理方法。
另一方面,本申请提供了一种包括计算机程序的计算机程序产品,当其在计算机设备上运行时,使得所述计算机设备执行以上所述的数据处理方法。
由上述技术方案可以看出,为了自动化发掘目标游戏中待测对象的组合行为,通过预测模型对待测对象进行自动化控制。在第i轮自动化控制时,获取目标游戏在第i轮时的游戏场景的场景特征,基于该场景特征确定目标行为,并控制待测对象在第i轮实施该目标行为,得到目标游戏在第i+1轮的游戏场景。由于第i+1轮的游戏场景可以体现出该目标行为对第i轮的游戏场景的影响,从而可以基于第i-n轮到所述第i+1轮的游戏场景确定是否生成了目标对象状态。因为已确定的组合行为无法得到新的对象状态,故可以在生成了目标对象状态时,确定基于这几轮的目标行为产生了新的组合行为,在通过每一轮产生的奖励参数的强化学习下,当预测模型完成强化学习后,所确定出的全部组合行为就是通过本次强化学习自动发掘出的待测对象的组合行为集合。这种结合强化学习,并基于对象状态来确定组合行为的方式,可以自动化的发掘待测对象的可能的组合行为,且排除了人为的接入,大大提升了组合行为的发掘全面性和效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据处理方法的场景示意图;
图2为本申请实施例提供的一种数据处理方法的方法流程图;
图3为本申请实施例提供的通过预测模型进行强化学习的流程示意图;
图4为本申请实施例提供的组合行为确定结果的显示效果图;
图5为本申请实施例提供的交互结果示意图;
图6为本申请另一实施例提供的交互结果示意图;
图7为本申请实施例提供的一种组合行为交互过程的流程示意图;
图8为本申请场景实施例提供的一种数据处理方法的流程示意图;
图9为本申请实施例提供的一种数据处理装置的结构示意图;
图10为本申请实施例提供的一种终端设备的结构图;
图11为本申请实施例提供的一种服务器的结构图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
在游戏场景中,虚拟对象能够被控制来做出各种行为,例如虚拟对象在游戏场景中的移动、技能释放、使用道具等,同时,当虚拟对象被控制做出多个行为的组合行为时,可能会产生意料之外的作用和效果,为了在游戏场景中全面发掘虚拟对象各种可能的组合行为,相关技术通过调用大量策划人员、测试人员进行人工操作,控制虚拟对象在游戏场景中进行组合行为尝试,发掘各种组合行为带来的作用和效果,但是,这种通过人工操作进行组合行为尝试的方法不仅人工成本较高,而且由于测试人员的经验有限,可能难以对所有可能的组合行为进行全面尝试,导致无法满足全面发掘组合行为的目的。
尤其在多人在线战术竞技游戏(Multiplayer Online Battle Arena Games,MOBA)中,当为游戏中的各个虚拟对象设置了多种游戏技能时,游戏玩家可以通过将各种游戏技能自由组合,形成一套组合技能,使得组合技能释放后所达到的作用和效果大于各个游戏技能单独释放时的作用和效果。多种技能的组合释放极大提高了游戏玩家对于虚拟对象的操作上限,通过人工进行测试时,由于测试人员的操作水平有限,部分操作可能难以被成功触发,进而发掘出全面的组合行为。
为了解决上述问题,实现自动化发掘目标游戏中待测对象的组合行为,本申请实施例提供了一种数据处理方法和相关装置,通过预测模型对目标游戏中的待测对象进行自动化控制,在第i轮自动化控制时,获取目标游戏在第i轮时的游戏场景的场景特征,基于该场景特征确定目标行为,并控制待测对象在第i轮实施该目标行为,得到目标游戏在第i+1轮的游戏场景,由于第i+1轮的游戏场景可以体现出该目标行为对第i轮的游戏场景的影响,从而可以基于第i-n轮到第i+1轮的游戏场景确定是否生成了目标对象状态。由于已确定的组合行为无法得到新的对象状态,故可以在生成了目标对象状态时,确定基于这几轮的目标行为产生了新的组合行为,在通过每一轮产生的奖励参数的强化学习下,当预测模型完成强化学习后,所确定出的全部组合行为就是通过本次强化学习自动发掘出的待测对象的组合行为集合。这种结合强化学习,并基于对象状态来确定组合行为的方式,可以自动化的发掘待测对象的可能的组合行为,且排除了人为的接入,大大提升了组合行为的发掘全面性和效率。
本申请实施例所提供的数据处理方法可以通过计算机设备实施,该计算机设备可以是终端设备或服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器、扩展现实(ExtendedReality,XR)设备等。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
可以理解的是,在本申请的具体实施方式中,涉及到的用户信息等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
参见图1,图1为本申请实施例提供的一种数据处理方法的场景示意图。在图1所示的场景中,以终端设备100作为前述计算机设备进行说明。
在图1所示的游戏场景中,通过预测模型对目标游戏中的待测对象进行自动化控制。其中,待测对象为游戏场景中需要发掘组合行为的虚拟对象,在第i轮自动化控制时,需要获取第i轮游戏场景中涉及该待测对象的场景特征,该场景特征中可以包括待测对象110对应的位置、对象状态等信息,还可以包括游戏场景中其他虚拟对象对应的位置、对象状态,另外,在游戏场景中,还包括草丛120、墙体130、河道140、地图边缘、地图中心等地形特征,当待测对象的部分组合行为需要与不同的地形特征进行交互时,待测对象可以在不同的地形特征对应的位置进行组合行为的发掘。
在获取第i轮的场景特征后,基于该场景特征可以确定待测对象在第i轮的目标行为。由于目标行为的实施,可能会导致游戏场景中待测对象自身位置或状态等的变化,也可能导致游戏场景中其他虚拟对象位置或状态等的变化,所以为了确定目标行为实施后的作用和效果,需要在游戏场景中控制待测对象实施该目标行为后,获得目标游戏在第i+1轮的游戏场景,通过第i+1轮的游戏场景体现出该目标行为对第i轮的游戏场景的影响。
从第i+1轮的游戏场景中,可以确定出第i轮的目标行为实施后所产生的对象状态,其中,该对象状态用于标识与待测对象相关的状态,可以为待测对象或其他虚拟对象所对应的各类属性状态,如虚拟对象生命值、能量值、属性加成等,也可以为由待测对象所实施的目标行为引起的游戏场景中植物、建筑物、河流等对应的环境状态。举例来说,当第i轮的目标行为是能够给游戏场景中的其他虚拟对象造成伤害的行为时,对象状态还可以为该目标行为对应的子弹类型或伤害类型;其中,子弹类型为游戏场景中目标行为输出的表现形式,例如火球、弓箭等,伤害类型为该目标行为对其他虚拟对象造成的伤害属性,如物理伤害、魔法伤害等。
在组合行为的发掘过程中,期望通过组合行为触发游戏场景中出现新的对象状态,以开发目标游戏中的更多玩法。当经过一段时间的组合行为发掘之后,由于已确定的组合行为无法得到新的对象状态,所以当在第i-n轮到第i+1轮的游戏场景中,出现了在前i-n轮内没有出现过的对象状态时,认为从第i-n-1轮到第i轮所实施的目标行为可以构成一组新的组合行为。
在第i轮的目标行为实施后,预测模型会基于获得的第i+1轮的游戏场景,对第i轮的目标行为进行评估,获得第i轮的目标行为对应的奖励参数。在对第i轮的目标行为进行评估时,由于组合行为发掘过程中,期望获得新的对象状态,所以当第i轮目标行为实施后,第i+1轮的游戏场景中出现新的对象状态时,预测模型针对第i轮的目标行为会生成较大的奖励参数,基于该奖励参数对该预测模型进行调参,使得预测模型强化这种能够获得新对象状态的行为策略,那么当预测模型后续基于场景特征为待测对象确定目标行为时,会设置更多新的组合行为。在通过每一轮产生的奖励参数的强化学习下,预测模型完成强化学习后,使用此次强化学习过程中预测模型确定出的组合行为构建该待测对象的组合行为集合,这种通过预测模型基于对象状态确定待测对象组合行为的方式,能够自动化地发掘待测对象各种可能的组合行为,提高了目标游戏中待测对象组合行为的发掘全面性和效率。
参见图2,图2为本申请实施例提供的一种数据处理方法的方法流程图,该方法具体包括如下步骤:
步骤201:在通过预测模型对目标游戏中待测对象的第i轮的自动化控制时,获取目标游戏在第i轮时的游戏场景的场景特征,第i轮的游戏场景涉及待测对象。
其中,i为正整数,n为小于i-1的正整数。在本申请实施例中,预测模型是基于强化学习对目标游戏中待测对象进行组合行为发掘的机器学习模型。通过预测模型可以在游戏场景中实现对待测对象行为的自动化控制,以自动化的方式来控制待测对象行为的实施,可以提高对目标游戏中待测对象组合行为的发掘效率。
由于在目标游戏的游戏场景中,除待测对象之外,往往还包括与待测对象属于同一类型的其他虚拟对象、非玩家控制角色(Non-Player Character,NPC)、中立生物等多种游戏角色,除此之外,在游戏场景中还可能包括如河流、山川、草丛、森林、建筑物等环境元素,在待测对象可实施的各种行为中,部分行为的实施可能需要与其他游戏角色、环境元素等进行交互才可以实现,并且部分行为的实施还可能改变其他游戏角色、环境元素等的位置或状态,因此,在通过预测模型对目标游戏中的待测对象进行第i轮自动化控制时,需要确定目标游戏在第i轮时的游戏场景的场景特征,该场景特征中涉及待测对象,如待测对象当前的状态、位置等特征。
需要说明的是,在本申请实施例中,以上所述的游戏角色、环境元素均为场景特征的示例,场景特征中还可以包括与待测对象相关的其他信息,本申请实施例对此不做具体限定。
在一种可能的实现方式中,第i轮的游戏场景还涉及陪测对象,所述陪测对象用于对所述待测对象被控制实施的目标行为进行响应;所述对象状态还用于标识所述陪测对象在响应所述待测对象的目标行为后的状态。
在第i轮的游戏场景中,设置有一个或多个陪测对象。陪测对象是游戏场景中,用于对待测对象的目标行为进行响应的对象,举例来说,该陪测对象可以是与待测对象属于同一类型的其他虚拟对象,也可以是NPC、中立生物等非控制对象,本申请实施例对此不做具体限定。
该陪测对象用于响应待测对象实施的目标行为,获得目标行为针对游戏场景中的其他对象实施时所获得的作用和效果。举例来说,若陪测对象为与待测对象属于同一类型的其他虚拟对象,当待测对象被控制实施目标行为后,陪测对象响应于该目标行为,在游戏场景中产生一系列的对象状态,如陪测对象发生位移、生命值降低等,通过该对象状态来标识陪测对象在响应目标行为后的状态,进而体现出目标行为在游戏场景中能够达到的作用和效果。
通过设置陪测对象,可以更加直观地体现出待测对象在实际游戏场景中针对具体对象所能产生的对象效果,提高了待测对象的目标行为在游戏场景中生成的对象效果的真实性、有效性,进而提升了组合行为发掘的有效性。
作为一种实施例,第i轮的场景特征包括位图特征和单位特征,所述位图特征用于标识所述第i轮的游戏场景中对象的位置信息,所述单位特征用于标识所述第i轮的游戏场景中对象的对象属性,以及对所述待测对象的行为构成影响的环境元素属性。
在第i轮的场景特征中,位图特征能够直观地体现游戏场景中对象的位置信息。具体地,位图特征可以基于类图像的方式,从第i轮的游戏场景对应的图像中确定出各个对象的位置信息,例如待测对象位置、草丛位置、墙体位置等。
单位特征是根据第i轮场景特征中的对象状态确定的第i轮游戏场景中各虚拟对象、环境元素所对应的属性信息,例如,虚拟对象的生命值、魔力值、建筑物的完整度等属性。游戏场景中的对象能够响应于待测对象的行为发生对象属性的变化,例如响应于待测对象的击打行为,游戏场景中的对象会降低自身生命值;同时,在第i轮的场景特征中,一些环境元素,如建筑物,也可以对待测对象的行为进行响应,从而导致其自身属性变化。例如,游戏场景中的建筑物能够响应于待测对象针对该建筑物的击打行为,增加自身的防御值,并降低自身的完成度,当该建筑物的完整度降为零值时,该建筑物响应与该击打行为被摧毁。
另外,在第i轮的场景特征中,部分环境元素还会影响待测对象的行为实施。例如,待测对象的部分行为需要与特定地形特征进行交互才能达到特定的效果,此时,也可以从单位特征中获取这种特定地形特征对应的环境元素属性。
本申请实施例中,位图特征能够直观地展示游戏场景中对象的位置信息,单位特征记录了游戏场景中对象属性和环境元素属性,通过这两个维度的特征来标识待测对象在第i轮自动化控制时所处的游戏场景,提高了游戏场景中场景特征标识的准确性。
步骤202:根据第i轮的场景特征确定待测对象在第i轮的目标行为。
目标行为是在第i轮的游戏场景中,待测对象所要实施的行为,该行为可以是针对其他游戏角色的行为,也可以是与环境元素进行交互的行为,还可以是修改待测对象自身属性的行为。在本申请实施例中,目标行为可以是针对其他游戏角色的行为,如发射飞行物、提供保护、拖、拽等;也可以是与环境元素进行交互的行为,如钻草、上山、潜水等;还可以是修改待测对象自身属性的行为,如购买装备、获取增益、移动位置等;以上所述均为示例,本申请实施例对目标行为的表现形式不做具体限定。
在获得第i轮的场景特征后,预测模型根据该场景特征为待测对象确定第i轮的目标行为,例如,当第i轮的场景特征中存在草丛这一环境元素时,可以将第i轮的目标行为确定为“钻草”,以在第i轮的场景特征中实现“钻草”这一目标行为的发掘;同样地,当根据第i轮的场景特征,确定第i轮的游戏场景中存在其他游戏角色时,可以针对其他游戏角色确定第i轮的目标行为,例如对己方游戏角色提供保护,或对敌方游戏角色发射飞行物等。
具体地,第i轮的目标行为包括对象位置变化行为或对象能力实施行为。
其中,对象位置变化行为是使待测对象的位置在游戏场景中发生变化的行为,例如位移。通过实施对象位置变化行为,控制待测对象在游戏场景中进行移动,改变待测对象在游戏场景中的位置,以使该待测对象能够与游戏场景中不同位置的虚拟对象、环境元素等进行交互,获得对应的对象效果。
对象能力实施行为是使待测对象能够发挥出某种特定能力的行为,该特定能力可以为伤害、防御、保护、获得增益等。举例来说,对象能力实施行为可以为释放技能,通过释放出的技能,待测对象能够发挥出该技能对应的特定能力;对象能力实施行为也可以为购买装备,待测对象购买特定装备后,即可发挥该装备对应的特定能力。
基于包括对象位置变化行为或对象能力实施行为的目标行为,在自动化控制过程中,可根据目标行为的多种类型,为待测对象确定目标行为,使得待测对象能够基于目标行为的实施,实现与游戏场景中各个位置对应的对象和环境元素进行交互,提升组合行为挖掘的全面性。
步骤203:通过控制待测对象在第i轮的游戏场景中实施第i轮的目标行为,得到目标游戏在第i+1轮的游戏场景。
在为待测对象确定了第i轮的目标行为后,在第i轮的游戏场景中,控制该待测对象实施该目标行为,与游戏场景中的场景特征进行交互。基于目标行为与游戏场景的交互,目标游戏会对游戏场景进行更新,为了确定第i轮的目标行为实施后在游戏场景中带来的作用和效果,需要在第i轮的目标行为实施完成后,获取目标游戏更新后的游戏场景。
由于第i轮的目标行为实施完成后,第i轮自动化控制的动作就已经结束,此时目标游戏更新后的游戏场景就是为待测对象确定第i+1轮的目标行为时所基于的游戏场景,即第i+1轮的游戏场景。通过对比第i+1轮的游戏场景和第i轮的游戏场景,可以获得第i轮目标行为的实施对第i轮游戏场景的影响。
步骤204:响应于根据第i-n轮到第i+1轮的游戏场景确定生成了目标对象状态,将第i-n-1轮到第i轮的目标行为确定为组合行为,对象状态用于标识与待测对象相关的状态。
对象状态是在游戏场景中与待测对象相关、且基于待测对象行为而产生的状态,例如,由目标行为引起的待测对象或其他游戏角色的免控、无法选中、位移、重伤、暴击、生命回复等状态,由待测对象的目标行为引起的建筑物被摧毁的状态,通过对象状态可以标识待测对象的目标行为在游戏场景中产生的作用和效果。其中,对象可以是由一种状态构成的单状态、或多种不同状态构成的组合状态,目标对象状态是一种新的对象状态,是指在第i-n轮到第i+1轮的游戏场景中出现,但在前i-n-1轮的游戏场景中没有出现过的单状态或组合状态。举例来说,若在前i-n-1轮中曾出现过状态A、状态B两种单状态,但是并未同时出现状态A和状态B的组合状态AB,那么当在第i-n轮到第i+1轮的游戏场景中出现状态AB时,该组合状态AB则为目标对象状态;同时,若在第i-n轮到第i+1轮的游戏场景中出现状态C这一单状态时,也认为该状态C为目标对象状态。
由于第i-n轮的游戏场景对应于第i-n-1轮的目标行为,第i+1轮的游戏场景对应于第i轮的目标行为,所以当待测对象实施了第i轮的目标行为后,若在第i-n轮到第i+1轮的游戏场景中出现了目标对象状态,那么就说明由第i-n-1轮到第i轮的n+1个目标行为的连续实施,达到了单个目标行为或已确定的组合行为无法达到的作用和效果,此时就可以确定由第i-n-1轮到第i轮的n+1个目标行为构成了一组新的组合行为。其中,若第i-n-2轮存在,那么第i-n-1轮是上一个已确定组合行为中最后一个目标行为对应的下一轮,即第i-n-2轮的目标行为是上一个已确定组合行为中的最后一个目标行为。
需要说明的是,在本申请实施例中,预测模型在对待测对象进行自动化控制时,相邻两轮的目标行为是连续实施的,即相邻两轮的目标行为之间的时间间隔较短,以第i轮的目标行为为例,当第i-1轮的目标行为对应所产生的作用和效果还未完全消失时,预测模型控制待测对象自动化实施第i轮的目标行为,使得第i-1轮的目标行为与第i轮的目标行为在时序上能够连续。在实际应用场景中,可以结合实际应用需求设置相邻两轮目标行为之间的时间间隔,本申请实施例对此不做具体限定。
在本申请实施例中,组合行为是指待测对象连续实施的多个目标行为的组合,在组合行为中,多个目标行为可以为相同的目标行为,也可以为不同的目标行为,本申请实施例对此不做具体限定。在一些游戏场景中,待测对象连续实施多个相同目标行为可能会在游戏场景中触发新的对象状态,那么此时由多个相同目标行为所构成的组合行为也可以确定为一组新的组合行为。
另外,在还没有对待测对象开始组合行为发掘或在组合行为发掘初期时,通过控制待测对象实施单个目标行为,就可能足以在游戏场景中触发新的对象状态,那么此时,也可以将单个目标行为也作为该待测对象的一种组合行为。
步骤205:在预测模型基于每一轮生成的奖励参数完成强化学习后,将确定出的组合行为构建为待测对象的组合行为集合。
强化学习是指用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。在本申请实施例中,预测模型即为强化学习过程中所使用的智能体,待测对象是通过预测模型这一智能体在游戏场景中进行组合行为发掘的虚拟对象,游戏场景为与该智能体进行交互的环境,在此次强化学习过程中,所需要的回报则是游戏场景中的对象状态,通过预测模型进行强化学习,期望通过待测对象的组合行为在游戏场景中发掘出尽可能多的对象状态。
上述步骤201至步骤204中所描述的是强化学习过程中的第i轮自动化控制,强化学习过程中包括多轮自动化控制,每经过一轮自动化控制,就会根据此轮自动化控制结束后游戏场景的场景特征生成一个奖励参数,通过该奖励参数对预测模型进行调参,调参后的预测模型继续用于下一轮自动化控制。由于本申请实施例的自动化控制过程中,期望在游戏场景中触发目标对象状态,那么基于强化学习,调参后的预测模型会强化触发目标对象状态时对应的行为策略。以第i轮自动化控制为例,当第i轮自动化控制完成后,根据第i+1轮的游戏场景生成第i轮目标行为对应的奖励参数,由于步骤204中,根据第i-n轮到第i+1轮的游戏场景确定生成了目标对象状态,符合自动化控制过程的期望,所以针对第i轮目标行为所生成的奖励参数的值会较大,以此来在调参后的预测模型中强化这种能够触发目标对象状态的行为策略;基于该奖励参数对预测模型进行调参,调参后的预测模型用于第i+1轮自动化控制。当每一轮自动化控制全部完成后,无法再在游戏场景中生成目标对象状态时,预测模型完成此次强化学习,并基于此次强化学习过程中所确定出的组合行为构建待测对象的组合行为集合。在该组合行为集合中,包括待测对象在游戏场景中能够触发的所有对象状态对应的组合行为,大大提高了组合行为发掘的全面性。
在本申请实施例中,为了自动化发掘目标游戏中待测对象的组合行为,通过预测模型对待测对象进行自动化控制。在第i轮自动化控制时,获取目标游戏在第i轮时的游戏场景的场景特征,基于该场景特征确定目标行为,并控制待测对象在第i轮实施该目标行为,得到目标游戏在第i+1轮的游戏场景。由于第i+1轮的游戏场景可以体现出该目标行为对第i轮的游戏场景的影响,从而可以基于第i-n轮到所述第i+1轮的游戏场景确定是否生成了目标对象状态。因为已确定的组合行为无法得到新的对象状态,故可以在生成了目标对象状态时,确定基于这几轮的目标行为产生了新的组合行为,在通过每一轮产生的奖励参数的强化学习下,当预测模型完成强化学习后,所确定出的全部组合行为就是通过本次强化学习自动发掘出的待测对象的组合行为集合。这种结合强化学习,并基于对象状态来确定组合行为的方式,可以自动化的发掘待测对象的可能的组合行为,且排除了人为的接入,大大提升了组合行为的发掘全面性和效率。
在一种可能的实现方式中,本申请实施例提供的一种数据处理方法还包括如下步骤:
步骤11:根据第i+1轮的游戏场景的场景特征,确定第i轮的目标行为对应的奖励参数。
待测对象被控制实施第i轮的目标行为后,游戏场景会响应于第i轮目标行为的实施而更新,更新后的游戏场景为第i+1轮的游戏场景。由于第i+1轮的游戏场景是在第i轮游戏场景的基础上,响应待测对象第i轮目标行为的实施产生的,所以根据第i+1轮的游戏场景的场景特征,可以确定出第i轮目标行为在游戏场景中触发的对象状态,基于该对象状态为第i轮的目标行为确定对应的奖励参数,该奖励参数用于评价第i轮目标行为对于待测对象组合行为发掘的效果。
参见图3,图3为通过预测模型进行强化学习的流程示意图。在强化学习过程中,从游戏场景中获得当前的场景特征后,预测模型基于该场景特征生成行为决策,来确定游戏场景中待测对象的目标行为;当控制待测对象在游戏场景中实施该目标行为后,游戏场景随之更新,获得更新后的游戏场景,预测模型根据更新后的游戏场景,生成该目标行为对应的奖励参数,通过该奖励参数对预测模型进行调参。同时,更新后的游戏场景再次生成新的场景特征,用于下一轮的自动化控制。
具体地,步骤11可以通过如下方式实现:
根据第i-1轮的奖励参数和第i+1轮的游戏场景的场景特征,确定第i轮的目标行为对应的奖励参数。
在强化学习过程中,每一轮目标行为对应的奖励参数不仅受到本轮目标行为实施后所获得的场景特征的影响,还受到本轮目标行为实施前的奖励参数的影响,即第i轮目标行为对应的奖励参数不仅受到第i+1轮游戏场景的场景特征的影响,还受到第i-1轮目标行为对应的奖励参数的影响。当第i轮目标行为实施完成后,第i+1轮游戏场景的场景特征中,并未发生目标对象状态时,第i轮目标行为对应的奖励参数与第i-1轮目标行为对应的奖励参数是相同的。
也就是说,奖励参数是在对待测对象进行自动化控制过程中逐渐积累的,当自动化控制过程中,通过这种奖励参数指导预测模型进行强化学习,使得预测模型通过对待测对象的自动化控制,发掘更多数量的组合行为,进一步提高了组合行为发掘的全面性。
在一种可能的实现方式中,待测对象被预测模型进行了N次用于组合行为确定的强化学习,每一次强化学习包括多轮自动化控制;在此基础上,所述方法还包括:
步骤21:获取通过N次强化学习确定的N个组合行为集合;
步骤22:根据N次强化学习分别对应的奖励参数的大小,从N个组合行为集合中确定出作为待测对象的组合行为结果的目标组合行为集合。
为了确定待测对象的组合行为,预测模型每针对待测对象进行一次强化学习,就会获得一个与此次强化学习对应的组合行为集合,经过N次强化学习共获得了N个组合行为集合。在一次强化学习过程中包括多轮自动化控制,每一轮自动化控制均会确定一个奖励参数,将最后一轮目标行为对应的奖励参数确定为此次强化学习过程所对应的奖励参数。若奖励参数是在对待测对象进行自动化控制过程中逐渐积累、逐渐增大的,那么在一次强化学习中,最后一轮目标行为对应的奖励参数则为所有奖励参数中的最大值。
在本申请实施例中,强化学习对应的奖励参数受到强化学习过程中所有自动化控制过程的影响,那么可以根据强化学习对应的奖励参数的大小来评价预测模型在整个强化学习过程中发掘待测对象组合行为的质量。通过预测模型进行强化学习,期望通过待测对象的组合行为在游戏场景中发掘出尽可能多的对象状态。对于一次自动化控制过程而言,此次自动化过程在游戏场景中生成的目标对象状态越多时,此次自动化过程所对应的奖励参数越大;对于整个强化学习过程而言,每一轮自动化控制对应的奖励参数越大,那么此次强化学习过程所对应的奖励参数越大;那么,在整个强化学习过程中,在游戏场景中生成的对象状态越多时,此次强化学习过程对应的奖励参数越大。同时,在游戏场景中生成的对象状态越多,对于待测对象组合行为发掘的质量和全面性越高。因此,针对同一待测对象进行N次强化学习,根据这N次强化学习各自对应的奖励参数的大小,将N个组合行为集合中奖励参数最大的组合行为集合,确定为待测对象的组合行为结果的目标组合行为集合,能够提高对于待测对象组合行为的发掘质量,提升组合行为的发掘全面性。
步骤12:根据第i轮的奖励参数对预测模型进行强化学习,并通过强化学习后的预测模型对待测对象进行第i+1轮的自动化控制。
在获得第i轮目标行为对应的第i轮奖励参数后,基于第i轮奖励参数对该预测模型进行强化学习,强化学习完成后获得的预测模型用于对待测对象进行第i+1轮的自动化控制。在针对待测对象的自动化控制过程中,每一轮自动化控制所使用的预测模型都是基于上一轮奖励参数进行强化学习后获得的。
通过奖励参数在强化学习过程中不断优化预测模型,提高了预测模型的工作效率和准确率,能够更好地满足待测对象组合行为发掘需求。
在一种可能的实现方式中,第i轮的奖励参数包括对象状态子参数,对象状态子参数用于标识前i轮已出现的对象状态对第i轮的奖励参数的影响,前i轮已出现的对象状态的数量越多,对第i轮的奖励参数产生的正向影响越大。
在本申请实施例中,当游戏场景中出现的对象状态越多时,对应的对象状态子参数的值越大,包含该对象状态子参数的奖励参数也就越大,在预测模型基于奖励参数进行强化学习的过程中,预测模型会强化奖励参数较大时对应的行为策略,所以当在前i轮自动化控制过程中,游戏场景中出现较多数量的对象状态时,前i轮对应的对象状态子参数也就越大,该对象状态子参数对第i轮的奖励参数产生正向激励,使得第i轮的奖励参数也就越大。
通过包含对象状态子参数的奖励参数,指导预测模型在游戏场景中探索待测对象不同组合行为所对应的更多的对象状态,提高了预测模型对待测对象进行组合行为探索的全面性。
进一步地,第i轮的奖励参数还包括组合行为子参数和行为操作子参数。
组合行为子参数用于标识前i轮已确定的组合行为数量对第i轮的奖励参数的影响,组合行为子参数对第i轮的奖励参数产生正向影响,当前i轮中已确定的组合行为数量越多,对第i轮的奖励参数产生的正向影响越大。
在奖励参数中引入组合行为子参数,并使其对第i轮奖励参数产生正向影响,是为了避免预测模型通过一种组合行为覆盖所有对象状态,降低组合行为与对象状态之间的耦合。
行为操作子参数用于标识前i轮已确定的组合行为的总操作数量对第i轮的奖励参数的影响,行为操作子参数对第i轮的奖励参数产生负向影响,前i轮已确定的组合行为的总操作数量越多,对第i轮的奖励参数产生的负向影响越大。其中,组合行为的操作数量是构成该组合行为的行为数量,例如,当一套组合行为中,包括击打-位移-防御-击打四个目标行为时,该组合行为的操作数量则为四。前i轮已确定的组合行为的总操作数量,是指预测模型在前i轮自动化控制过程中,为待测对象确定出的所有组合行为的操作数量之和。
将行为操作子参数对第i轮的奖励参数的影响设置为负向影响是为了避免预测模型在对待测对象进行自动化控制时,控制待测对象实施冗余行为,例如,在游戏场景中控制待测对象一边释放技能一边位移,若仅通过释放技能也能生成相同的对象状态,那么更倾向于通过操作数量少的组合行为获得对应的对象状态,通过引入行为操作子参数的奖励参数,指导预测模型在相同对象状态的情况下更倾向于发掘操作数量少的组合行为。
通过在第i轮的奖励参数中引入组合行为子参数和行为操作子参数,以通过奖励参数指导预测模型探索数量更多的组合行为,同时减少对于操作较为冗余的组合行为的探索。
具体地,对象状态子参数对奖励参数的影响权重,大于所述组合行为子参数或所述行为操作子参数的影响权重。
在奖励参数中的三种子参数中,为对象状态子参数设置最大的影响权重,将已出现的对象状态的数量作为影响奖励参数大小的最主要因素,这样,才能使得奖励参数更多地基于已出现的对象状态的数量进行反馈,在强化学习过程中强调以产生更多的对象状态来提高奖励参数,从而提升预测模型找到全部组合行为的可能性。
具体地,第i轮游戏目标行为对应的奖励参数可以通过如下公式计算:
在上述公式中,为第i轮目标行为对应的奖励参数,/>为第i轮游戏场景中的对象数量;/>为对象状态子参数,其中,/>为前i轮已出现的对象状态的编号,/>为前i轮已出现的对象状态的数量,/>为对象状态子参数对奖励参数的影响权重;/> 为组合行为子参数,其中,/>为前i轮已确定的组合行为数量,/>为组合行为子参数对奖励参数的影响权重;/>为行为操作子参数,其中,为前i轮已确定的组合行为的总操作数量,/>为行为操作子参数对奖励参数的影响权重。
可以看出,当前i轮已出现的对象状态的数量越多时,对象状态子参数中所累加的对象状态的影响权重越多,的值越大,对/>产生的正向影响越大;当前i轮中已确定的组合行为数量越多时,/>的值越大,组合行为子参数对/>产生的正向影响越大;当前i轮已确定的组合行为的总操作数量越多时,的值越大,行为操作子参数对产生的负向影响越大。
在一种可能的实现方式中,将确定出的组合行为构建为所述待测对象的组合行为集合之后,还包括如下步骤:
显示组合行为确定结果,组合行为确定结果包括组合行为集合,以及与组合行为集合中组合行为分别对应的对象状态标签,对象状态标签是根据所对应组合行为生成的对象状态所确定的。
对象状态标签是用于标识组合行为在游戏场景中的作用和效果的标签。将预测模型确定出的组合行为构建为待测对象组合行为集合后,根据组合行为集合中各个组合行为在游戏场景中所产生的对象状态,生成该组合行为各自对应的对象状态标签。其中,若组合行为在游戏场景中触发了多个对象状态,则将其所触发的多个对象状态均作为该组合行为的对象状态标签。例如,当待测对象被控制实施一套组合行为后,在游戏场景中触发了位移、生命回复、击飞敌方这三种对象状态,那么该组合行为对应的对象状态标签则为位移、生命回复、击飞敌方三种对象状态标签。
组合行为确定结果是基于待测对象的组合行为集合、和该组合行为集合中各个组合行为对应的对象状态标签生成的,通过组合行为和对象状态标签之间的对应关系,标识待测对象的各个组合行为在游戏场景中能够达到的作用和效果。
具体地,参见图4,图4为本申请实施例提供的组合行为确定结果的显示效果图。在对象X这一待测对象的组合行为确定结果中,显示有各个组合行为对应组合行为序列,以及各个组合行为对应的对象状态标签;同时,在预测模型确定组合行为的过程中,还可以通过屏幕录制等方式,记录各个组合行为在游戏场景中的显示效果,并将其生成组合行为展示视频,在显示组合行为确定结果时可以一并显示该组合行为展示视频对应的链接,通过访问该链接,查看组合行为在游戏场景中的实际效果。
通过显示组合行为确定结果中的对象状态标签,直观地展示了待测对象的组合行为集合中各个组合行为在游戏场景中所能达到的作用和效果。
在一种可能的实现方式中,本申请实施例所述的方法还包括如下步骤:
步骤31:从多个待测对象中确定出第一对象和第二对象。
基于强化学习为待测对象确定了对应的组合行为集合后,为了检测组合行为集合中各个组合行为的质量和稳定性,更全面地评估待测对象的组合行为机制,需要测试各个待测对象之间组合行为的交互效果。例如,通过不同待测对象之间行为的交互,对组合行为连续实施的成功率、被打断的几率等参数进行测试,并通过测试所获得的这些参数来评估各个组合行为的质量。
为了在待测对象之间进行组合行为的交互,从多个待测对象中确定出此次组合行为交互的目标对象,即第一对象和第二对象,其中,第一对象和第二对象是至少完成了一次强化学习的待测对象,并且基于强化学习,生成了第一对象和第二对象分别对应的组合行为集合。
步骤32:从第一对象对应的组合行为集合的组合行为中确定第一待测组合行为;并从第二对象对应的组合行为集合的组合行为中确定第二待测组合行为。
待测对象对应的组合行为集合中包括多个组合行为,在组合行为交互过程中,需要从组合行为集合的多个组合行为中确定出一轮组合行为交互所要测试的待测组合行为。从第一对象对应的组合行为集合的组合行为中,确定出要测试的第一待测组合行为,同时也从第二对象对应的组合行为集合的组合行为中,确定出要测试的第二待测组合行为。
步骤33:确定第一对象在被控制实施第一待测组合行为期间的第一时序帧序列;并确定第二对象在被控制实施第二待测组合行为期间的第二时序帧序列。
由于组合行为是由待测对象的多个行为所构成的,这多个行为是该组合行为中的子行为,控制待测对象在游戏场景中实时组合行为的过程,也就是按照一定的时间顺序执行各个子行为的过程。在目标游戏的游戏场景中,控制待测对象实施组合行为过程中产生的游戏场景图像,构成了该组合行为的时序帧序列。
时序帧序列是控制待测对象实施组合行为所产生的游戏场景图像帧序列。通过时序帧序列,能够确定组合行为实施后,各个对象状态在游戏场景中对应的图像帧,进而确定组合行为实施后各个对象状态发生的时间。例如,当组合行为能够在游戏场景中触发霸体、位移等对象状态时,通过时序帧序列,可以确定出待测对象实施组合行为后,何时进入霸体状态、何时退出霸体状态、霸体状态持续多长时间等状态信息。在本申请实施例中,通过第一对象在被控制实施第一待测组合行为期间的第一时序帧序列,能够获得第一待测组合行为实施期间的各个对象状态产生、持续或消失的时间;通过第二对象在被控制实施第二待测组合行为期间的第二时序帧序列,能够获得第二待测组合行为实施期间的各个对象状态产生、持续或消失的时间。
步骤34:从第一时序帧序列中确定与对象状态相关的第一关键帧,第一关键帧用于标识对象状态的出现或退出;并从第二时序帧序列中确定与对象状态相关的第二关键帧,第二关键帧用于标识对象状态的出现或退出。
在对第一对象的第一待测组合行为和第二对象的第二待测组合行为进行交互时,为了提高组合行为交互效率,需要分别从第一时序帧序列中确定与对象状态相关的第一关键帧,从第二时序帧序列中确定与对象状态相关的第二关键帧。其中,第一关键帧用于标识第一待测组合行为实施期间对象状态的出现或退出,第二关键帧用于标识第二待测组合行为实施期间对象状态的出现或退出。以第一关键帧和第二关键帧确定第一待测组合行为与第二待测组合行为交互的基准点,分别控制第一待测组合行为和第二待测组合行为开始实施的时间。
具体地,第一关键帧包括指定对象状态的出现帧、退出帧和持续帧范围。
在第一待测组合行为对应的第一时序帧序列中,可以确定各个对象状态的出现、退出和持续时间。根据对象状态的出现时间,可以确定出该对象状态的出现帧,即游戏场景中出现该对象状态的第一帧;根据对象状态的退出时间,可以确定出该对象状态的退出帧,即游戏场景中该对象状态消失后的第一帧;其中,出现帧和退出帧均为对象状态的极限帧,该极限帧用于标识游戏场景中第一目标对应的状态转换点,在该状态转换点之前或之后的对象状态与该状态转换点的对象状态不同。
在游戏场景中进行组合行为交互时,为了探索极限情况下组合行为的实施效果,往往会使用极限帧来进行测试。如图5所示,第一待测组合行为实施期间产生了“免控”这一对象状态,第二待测组合行为实施期间产生了“冰冻”这一对象状态,为了探索第一对象在退出免控状态的一瞬间能否被第二待测组合行为产生的冰冻状态所控制,在进行组合行为交互时,就可以根据将第一关键帧确定为第一对象退出免控状态后的第一帧,计算何时控制第二对象目标实时第二待测组合行为,能使第二目标在第一关键帧对应的时刻处于“控制敌方目标”状态,进而实现第一待测组合行为和第二待测组合行为的交互,根据图5所示的交互结果,可以看出,在第一对象退出免控状态的一瞬间能够被第二待测组合行为产生的冰冻状态所控制。
在第一时序帧序列中,还可以确定出该对象状态的持续帧范围,持续帧范围用于标识该对象状态的持续区间,持续帧范围内的所有图像帧中均包括该对象状态。例如,根据游戏场景中第一对象免控状态的出现帧和退出帧,可以确定免控状态的持续帧范围,在该持续帧范围内的所有图像帧中,均包括该免控状态。当需要基于对象状态的持续区间进行交互时,如图6所示,在需要探索第一对象在霸体状态持续期间与第二对象的霸体状态的交互效果时,可以从第一对象的霸体状态的持续帧范围内提取其中一帧作为第一关键帧,基于该第一关键帧与第二对象在霸体状态下的第二关键帧进行交互,以提高组合行为的交互效率。
通过包括指定对象状态出现帧、退出帧和持续帧范围的第一关键帧,来确定第二对象实施第二组合行为的时间,使得第二组合行为能够在第一关键帧出现时准确地触发对应的对象状态,基于第一关键帧实现第一待测组合行为和第二待测组合行为的交互,提高了组合行为的交互效率。
步骤35:根据第一关键帧和第二关键帧,控制第一对象和第二对象在目标游戏的游戏场景中进行第一待测组合行为和第二待测组合行为的交互;
根据第一关键帧,能够确定第一对象在实施第一待测组合行为后,某一特定对象状态的产生时间,即确定该特定对象状态与第一待测组合行为之间的时序关系;同样地,根据第二关键帧,能够确定第二对象在实施第二待测组合行为后,对应的特定对象状态的产生时间,即确定该对应的特定对象与第二待测组合行为之间的时序关系。那么基于这种时序关系,可以在确定了第一关键帧和第二关键帧之后,计算出要实现第一关键帧的同时触发第二关键帧这种效果对应的组合行为实施的时序关系,应当如何控制第一对象和第二对象分别实施第一待测组合行为和第二待测组合行为。
作为一种实施例,步骤35可以通过如下方式实现:
步骤41:根据第一关键帧和第二关键帧,确定第一待测组合行为和第二待测组合行为对应的行为实施序列;
步骤42:基于行为实施序列,控制第一对象和第二对象在目标游戏的游戏场景中进行第一待测组合行为和第二待测组合行为的交互。
其中,行为实施序列是用于实施第一待测组合行为与第二待测组合行为的时序关系。通过该行为实施序列,可以确定在第一对象实施第一待测组合行为之前或之后、何时控制第二对象实施第二待测组合行为,以在第一待测组合行为到达第一关键帧时,第二待测组合行为同时到达第二关键帧,进而在目标游戏的游戏场景中能够准确控制第一对象和第二对象进行第一待测组合行为和第二待测组合行为的交互。
步骤36:基于交互结果确定第一待测组合行为和第二待测组合行为的评测结果。
其中,交互结果是游戏场景中第一待测组合行为和第二待测组合行为交互后产生的客观结果,例如,第一待测组合行为是否被第二待测组合交互行为打断、第一待测组合行为是否成功实施等结果。评测结果是根据预设的评测标准对交互结果进行评测后获得的最终结果,例如,当第一待测组合行为被第二待测组合行为打断的概率大于50%时,生成第二待测组合行为对第一待测组合行为的克制关系这一评测结果。当然,也可以通过其他方式生成本申请实施例所获得的评测结果,本申请对此不做具体限定。
具体地,参见图7,图7为本申请实施例提供的一种组合行为交互过程的流程示意图。基于强化学习对第一对象进行自动化控制的过程中,在第一对象被控制实施第一待测组合行为的期间,提取各个对象状态产生的出现帧、对象状态消失的退出帧等极限帧,以及对象状态持续期间对应的状态区间。当需要对该第一待测组合行为进行交互测试时,基于对象状态的极限帧或状态区间,从技能交互库中提取能够产生特定对象状态的第二待测组合行为对应的技能进行测试。
通过提取关键帧进行组合行为的交互,模拟组合行为在实际游戏场景中的交互效果,来测试强化学习过程中发掘出的组合行为的质量和稳定性,提高了对待测对象的组合行为评估的全面性。
参见图8,图8为本申请场景实施例提供的一种数据处理方法的流程示意图。通过预测模型对目标游戏中的多个对象逐一进行自动化控制,发掘各个对象对应的组合行为。在一次强化学习过程中,从目标游戏的多个对象中确定出待测对象,使用预测模型对该待测对象进行自动化控制。在第i轮自动化控制时,从第i轮目标游戏的游戏场景中获取与该待测对象有关的场景特征,该场景特征中包括位图特征和单位特征,其中,位图特征用于标识第i轮的游戏场景中对象的位置信息,单位特征用于标识第i轮的游戏场景中对象的对象属性,以及对所述待测对象的行为构成影响的环境元素属性。预测模型基于第i轮的场景特征生成行为决策,从待测对象的多个行为中确定出第i轮的目标行为,当控制待测对象在第i轮的游戏场景中实施第i轮的目标行为后,游戏场景会随之更新,更新后的游戏场景为第i+1轮的游戏场景。基于第i+1轮的游戏场景,可以确定出第i轮目标行为的实施所产生的对象状态,基于第i+1轮游戏场景中的场景特征中,产生的对象状态的数量、确定出的组合行为的数量和各个组合行为中操作步长之和,生成第i轮的目标行为对应的第i轮奖励参数,使用该第i轮奖励参数对预测模型进行强化学习,调整预测模型的参数,并使用强化学习后的预测模型在第i+1轮中对待测对象进行自动化控制,不断优化预测模型中的行为决策,指导预测模型发掘出更多对象状态所对应的组合行为。
当在第i-n轮到第i+1轮的游戏场景中,出现了在前i-n轮内没有出现过的对象状态时,认为从第i-n-1轮到第i轮所实施的目标行为可以构成一组新的组合行为。基于强化学习过程中,待测对象确定出的所有组合行为,构建该待测对象对应的组合行为集合,同时,将各个组合行为所产生的对象状态生成与之对应的对象状态标签,当针对该待测对象的自动化控制全部完成后,显示该待测对象的组合行为集合,以及与组合行为集合中的各个组合行为分别对应的对象状态标签。
另外,在确定了待测对象对应的组合行为集合后,还需要对组合行为集合中的各个组合行为做进一步的测试和评估,通过控制待测对象在游戏场景中实施组合行为,与其他对象的组合行为进行交互,获得组合行为之间对应的交互效果,在显示该待测对象的组合行为集合时,同时显示组合行为集合中各个组合行为与其他对象的组合行为进行交互的交互效果。
参见图9,图9为本申请实施例提供的一种数据处理装置900的结构示意图。所述装置包括:
第一获取单元901,用于:在通过预测模型对目标游戏中待测对象的第i轮的自动化控制时,获取所述目标游戏在第i轮时的游戏场景的场景特征,所述第i轮的游戏场景涉及所述待测对象;
第一确定单元902,用于:根据所述第i轮的场景特征确定所述待测对象在所述第i轮的目标行为;
第二获取单元903,用于:通过控制所述待测对象在所述第i轮的游戏场景中实施所述第i轮的目标行为,得到所述目标游戏在第i+1轮的游戏场景;
第二确定单元904,用于:响应于根据第i-n轮到所述第i+1轮的游戏场景确定生成了目标对象状态,将所述第i-n-1轮到所述第i轮的目标行为确定为组合行为,所述对象状态用于标识与所述待测对象相关的状态;所述i为正整数,所述n为小于i的正整数;
集合构建单元905,用于:在所述预测模型基于每一轮生成的奖励参数完成强化学习后,将确定出的组合行为构建为所述待测对象的组合行为集合。
可选地,第二确定单元904还用于:
根据所述第i+1轮的游戏场景的场景特征,确定所述第i轮的目标行为对应的奖励参数;
根据所述第i轮的奖励参数对所述预测模型进行强化学习,并通过强化学习后的所述预测模型对所述待测对象进行所述第i+1轮的自动化控制。
可选地,第二确定单元904具体用于:
根据第i-1轮的奖励参数和所述第i+1轮的游戏场景的场景特征,确定所述第i轮的目标行为对应的奖励参数。
可选地,所述第i轮的奖励参数包括对象状态子参数,所述对象状态子参数用于标识前i轮已出现的对象状态对所述第i轮的奖励参数的影响,所述前i轮已出现的对象状态的数量越多,对所述第i轮的奖励参数产生的正向影响越大。
可选地,所述第i轮的奖励参数还包括组合行为子参数和行为操作子参数,
所述组合行为子参数用于标识前i轮已确定的组合行为数量对所述第i轮的奖励参数的影响,所述前i轮已确定的组合行为数量越多,对所述第i轮的奖励参数产生的正向影响越大;
所述行为操作子参数用于标识前i轮已确定的组合行为的总操作数量对所述第i轮的奖励参数的影响,所述前i轮已确定的组合行为的总操作数量越多,对所述第i轮的奖励参数产生的负向影响越大。
可选地,所述对象状态子参数对奖励参数的影响权重,大于所述组合行为子参数或所述行为操作子参数的影响权重。
可选地,所述第i轮的游戏场景还涉及陪测对象,所述陪测对象用于对所述待测对象被控制实施的目标行为进行响应;
所述对象状态还用于标识所述陪测对象在响应所述待测对象的目标行为后的状态。
可选地,所述第i轮的目标行为包括对象位置变化行为或对象能力实施行为。
可选地,所述第i轮的场景特征包括位图特征和单位特征,所述位图特征用于标识所述第i轮的游戏场景中对象的位置信息,所述单位特征用于标识所述第i轮的游戏场景中对象的对象属性,以及对所述待测对象的行为构成影响的环境元素属性。
可选地,图9所示的装置还包括显示单元,用于:
显示组合行为确定结果,所述组合行为确定结果包括所述组合行为集合,以及与所述组合行为集合中组合行为分别对应的对象状态标签,所述对象状态标签是根据所对应组合行为生成的对象状态所确定的。
可选地,所述待测对象被通过所述预测模型进行了N次用于组合行为确定的强化学习,每一次所述强化学习包括多轮所述自动化控制,第二确定单元904还用于:
获取通过N次强化学习确定的N个组合行为集合;
根据所述N次强化学习分别对应的奖励参数的大小,从所述N个组合行为集合中确定出目标组合行为集合,所述目标组合行为集合为所述待测对象的组合行为结果。
可选地,图9所示的装置还包括交互单元,用于:
从多个待测对象中确定出第一对象和第二对象;
从所述第一对象对应的组合行为集合的组合行为中确定第一待测组合行为;并从所述第二对象对应的组合行为集合的组合行为中确定第二待测组合行为;
确定所述第一对象在被控制实施所述第一待测组合行为期间的第一时序帧序列;并确定所述第二对象在被控制实施所述第二待测组合行为期间的第二时序帧序列
从所述第一时序帧序列中确定与对象状态相关的第一关键帧,所述第一关键帧用于标识对象状态的出现或退出;并从所述第二时序帧序列中确定与对象状态相关的第二关键帧,所述第二关键帧用于标识对象状态的出现或退出;
根据所述第一关键帧和所述第二关键帧,控制所述第一对象和所述第二对象在所述目标游戏的游戏场景中进行所述第一待测组合行为和所述第二待测组合行为的交互;
基于交互结果确定所述第一待测组合行为和所述第二待测组合行为的评测结果。
可选地,所述第一关键帧包括指定对象状态的出现帧、退出帧和持续帧范围。
可选地,交互单元具体用于:
根据所述第一关键帧和所述第二关键帧,确定所述第一待测组合行为和所述第二待测组合行为对应的行为实施序列;
基于所述行为实施序列,控制所述第一对象和所述第二对象在所述目标游戏的游戏场景中进行所述第一待测组合行为和所述第二待测组合行为的交互。
本申请实施例还提供了一种计算机设备,该计算机设备为前述介绍的计算机设备,可以包括终端设备或服务器,前述的数据处理装置可以配置在该计算机设备中。下面结合附图对该计算机设备进行介绍。
若该计算机设备为终端设备,请参见图10所示,本申请实施例提供了一种终端设备,以终端设备为手机为例:
图10示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图10,手机包括:射频(Radio Frequency,简称RF)电路1410、存储器1420、输入单元1430、显示单元1440、传感器1450、音频电路1460、无线保真(简称WiFi)模块1470、处理器1480、以及电源1490等部件。本领域技术人员可以理解,图10中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图10对手机的各个构成部件进行具体的介绍:
RF电路1410可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1480处理;另外,将设计上行的数据发送给基站。
存储器1420可用于存储软件程序以及模块,处理器1480通过运行存储在存储器1420的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1430可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1430可包括触控面板1431以及其他输入设备1432。
显示单元1440可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1440可包括显示面板1441。
手机还可包括至少一种传感器1450,比如光传感器、运动传感器以及其他传感器。
音频电路1460、扬声器1461,传声器1462可提供用户与手机之间的音频接口。
WiFi属于短距离无线传输技术,手机通过WiFi模块1470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。
处理器1480是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1420内的软件程序和/或模块,以及调用存储在存储器1420内的数据,执行手机的各种功能和处理数据。
手机还包括给各个部件供电的电源1490(比如电池)。
在本实施例中,该终端设备所包括的处理器1480还具有以下功能:
在通过预测模型对目标游戏中待测对象的第i轮的自动化控制时,获取所述目标游戏在第i轮时的游戏场景的场景特征,所述第i轮的游戏场景涉及所述待测对象;
根据所述第i轮的场景特征确定所述待测对象在所述第i轮的目标行为;
通过控制所述待测对象在所述第i轮的游戏场景中实施所述第i轮的目标行为,得到所述目标游戏在第i+1轮的游戏场景;
响应于根据第i-n轮到所述第i+1轮的游戏场景确定生成了目标对象状态,将所述第i-n-1轮到所述第i轮的目标行为确定为组合行为,所述对象状态用于标识与所述待测对象相关的状态;所述i为正整数,所述n为小于i的正整数;
在所述预测模型基于每一轮生成的奖励参数完成强化学习后,将确定出的组合行为构建为所述待测对象的组合行为集合。
若计算机设备为服务器,本申请实施例还提供一种服务器,请参见图11所示,图11为本申请实施例提供的服务器1500的结构图,服务器1500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,简称CPU)1522(例如,一个或一个以上处理器)和存储器1532,一个或一个以上存储应用程序1542或数据1544的存储介质1530(例如一个或一个以上海量存储设备)。其中,存储器1532和存储介质1530可以是短暂存储或持久存储。存储在存储介质1530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1522可以设置为与存储介质1530通信,在服务器1500上执行存储介质1530中的一系列指令操作。
服务器1500还可以包括一个或一个以上电源1526,一个或一个以上有线或无线网络接口1550,一个或一个以上输入输出接口1558,和/或,一个或一个以上操作系统1541,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于图11所示的服务器结构。
另外,本申请实施例还提供了一种存储介质,所述存储介质用于存储计算机程序,所述计算机程序用于执行上述实施例提供的方法。
本申请实施例还提供了一种包括计算机程序的计算机程序产品,当其在计算机设备上运行时,使得计算机设备执行上述实施例提供的方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:Read-only Memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储计算机程序的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。而且本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (18)

1.一种数据处理方法,其特征在于,所述方法包括:
在通过预测模型对目标游戏中待测对象的第i轮的自动化控制时,获取所述目标游戏在第i轮时的游戏场景的场景特征,所述第i轮的游戏场景涉及所述待测对象;
根据所述第i轮的场景特征确定所述待测对象在所述第i轮的目标行为;
通过控制所述待测对象在所述第i轮的游戏场景中实施所述第i轮的目标行为,得到所述目标游戏在第i+1轮的游戏场景;所述目标行为是针对其他虚拟对象的行为,或者是与环境元素进行交互的行为,或者是修改所述待测对象的自身属性的行为;
响应于根据第i-n轮到所述第i+1轮的游戏场景确定生成了目标对象状态,将第i-n-1轮到所述第i轮的目标行为确定为组合行为,所述组合行为是所述待测对象连续实施的多个目标行为的组合;所述对象状态用于标识与所述待测对象相关的状态;所述i为正整数,所述n为小于i-1的正整数;所述第i+1轮的游戏场景中的对象状态包括在所述第i轮的目标行为被实施后所产生的所述待测对象或其他虚拟对象所对应的各类属性状态,和/或,在所述第i轮的目标行为被实施后所引起的游戏场景中各种环境元素对应的环境状态;所述目标对象状态是指在所述第i-n轮到所述第i+1轮的游戏场景中出现,但在前i-n-1轮的游戏场景中没有出现过的新的对象状态;
根据所述第i+1轮的游戏场景的场景特征,确定所述第i轮的目标行为对应的奖励参数;所述奖励参数用于在所述预测模型中强化能够触发所述目标对象状态的行为策略;
根据所述第i轮的奖励参数对所述预测模型进行强化学习,并通过强化学习后的所述预测模型对所述待测对象进行所述第i+1轮的自动化控制;
在所述预测模型基于每一轮生成的奖励参数完成强化学习后,将确定出的组合行为构建为所述待测对象的组合行为集合。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第i+1轮的游戏场景的场景特征,确定所述第i轮的目标行为对应的奖励参数,包括:
根据第i-1轮的奖励参数和所述第i+1轮的游戏场景的场景特征,确定所述第i轮的目标行为对应的奖励参数。
3.根据权利要求1所述的方法,其特征在于,所述第i轮的奖励参数包括对象状态子参数,所述对象状态子参数用于标识前i轮已出现的对象状态对所述第i轮的奖励参数的影响,所述前i轮已出现的对象状态的数量越多,对所述第i轮的奖励参数产生的正向影响越大。
4.根据权利要求3所述的方法,其特征在于,所述第i轮的奖励参数还包括组合行为子参数和行为操作子参数;
所述组合行为子参数用于标识前i轮已确定的组合行为数量对所述第i轮的奖励参数的影响,所述前i轮已确定的组合行为数量越多,对所述第i轮的奖励参数产生的正向影响越大;
所述行为操作子参数用于标识前i轮已确定的组合行为的总操作数量对所述第i轮的奖励参数的影响,所述前i轮已确定的组合行为的总操作数量越多,对所述第i轮的奖励参数产生的负向影响越大。
5.根据权利要求4所述的方法,其特征在于,所述对象状态子参数对奖励参数的影响权重,大于所述组合行为子参数或所述行为操作子参数的影响权重。
6.根据权利要求1所述的方法,其特征在于,所述第i轮的游戏场景还涉及陪测对象,所述陪测对象用于对所述待测对象被控制实施的目标行为进行响应;
所述对象状态还用于标识所述陪测对象在响应所述待测对象的目标行为后的状态。
7.根据权利要求1所述的方法,其特征在于,所述第i轮的目标行为包括对象位置变化行为或对象能力实施行为。
8.根据权利要求1所述的方法,其特征在于,所述第i轮的场景特征包括位图特征和单位特征,所述位图特征用于标识所述第i轮的游戏场景中对象的位置信息,所述单位特征用于标识所述第i轮的游戏场景中对象的对象属性,以及对所述待测对象的行为构成影响的环境元素属性。
9.根据权利要求1所述的方法,其特征在于,在所述将确定出的组合行为构建为所述待测对象的组合行为集合之后,所述方法还包括:
显示组合行为确定结果,所述组合行为确定结果包括所述组合行为集合,以及与所述组合行为集合中组合行为分别对应的对象状态标签,所述对象状态标签是根据所对应组合行为生成的对象状态所确定的。
10.根据权利要求2所述的方法,其特征在于,所述待测对象被通过所述预测模型进行了N次用于组合行为确定的强化学习,每一次所述强化学习包括多轮所述自动化控制,所述方法还包括:
获取通过N次强化学习确定的N个组合行为集合;
根据所述N次强化学习分别对应的奖励参数的大小,从所述N个组合行为集合中确定出目标组合行为集合,所述目标组合行为集合为所述待测对象的组合行为结果。
11.根据权利要求1-10任意一项所述的方法,其特征在于,所述方法还包括:
从多个待测对象中确定出第一对象和第二对象;
从所述第一对象对应的组合行为集合的组合行为中确定第一待测组合行为;并从所述第二对象对应的组合行为集合的组合行为中确定第二待测组合行为;
确定所述第一对象在被控制实施所述第一待测组合行为期间的第一时序帧序列;并确定所述第二对象在被控制实施所述第二待测组合行为期间的第二时序帧序列;
从所述第一时序帧序列中确定与对象状态相关的第一关键帧,所述第一关键帧用于标识对象状态的出现或退出;并从所述第二时序帧序列中确定与对象状态相关的第二关键帧,所述第二关键帧用于标识对象状态的出现或退出;
根据所述第一关键帧和所述第二关键帧,控制所述第一对象和所述第二对象在所述目标游戏的游戏场景中进行所述第一待测组合行为和所述第二待测组合行为的交互;
基于交互结果确定所述第一待测组合行为和所述第二待测组合行为的评测结果。
12.根据权利要求11所述的方法,其特征在于,所述第一关键帧包括指定对象状态的出现帧、退出帧和持续帧范围。
13.根据权利要求11所述的方法,其特征在于,所述根据所述第一关键帧和所述第二关键帧,控制所述第一对象和所述第二对象在所述目标游戏的游戏场景中进行所述第一待测组合行为和所述第二待测组合行为的交互包括:
根据所述第一关键帧和所述第二关键帧,确定所述第一待测组合行为和所述第二待测组合行为对应的行为实施序列;
基于所述行为实施序列,控制所述第一对象和所述第二对象在所述目标游戏的游戏场景中进行所述第一待测组合行为和所述第二待测组合行为的交互。
14.一种数据处理装置,其特征在于,所述装置包括:
第一获取单元,用于:在通过预测模型对目标游戏中待测对象的第i轮的自动化控制时,获取所述目标游戏在第i轮时的游戏场景的场景特征,所述第i轮的游戏场景涉及所述待测对象;
第一确定单元,用于:根据所述第i轮的场景特征确定所述待测对象在所述第i轮的目标行为;
第二获取单元还,用于:通过控制所述待测对象在所述第i轮的游戏场景中实施所述第i轮的目标行为,得到所述目标游戏在第i+1轮的游戏场景;所述目标行为是针对其他虚拟对象的行为,或者是与环境元素进行交互的行为,或者是修改所述待测对象的自身属性的行为;
第二确定单元,用于:响应于根据第i-n轮到所述第i+1轮的游戏场景确定生成了目标对象状态,将第i-n-1轮到所述第i轮的目标行为确定为组合行为,所述组合行为是所述待测对象连续实施的多个目标行为的组合;所述对象状态用于标识与所述待测对象相关的状态;所述i为正整数,所述n为小于i的正整数;所述第i+1轮的游戏场景中的对象状态包括在所述第i轮的目标行为被实施后所产生的所述待测对象或其他虚拟对象所对应的各类属性状态,和/或,在所述第i轮的目标行为被实施后所引起的游戏场景中各种环境元素对应的环境状态;所述目标对象状态是指在所述第i-n轮到所述第i+1轮的游戏场景中出现,但在前i-n-1轮的游戏场景中没有出现过的新的对象状态;
所述第二确定单元,还用于:根据所述第i+1轮的游戏场景的场景特征,确定所述第i轮的目标行为对应的奖励参数;所述奖励参数用于在所述预测模型中强化能够触发所述目标对象状态的行为策略;
所述第二确定单元,还用于:根据所述第i轮的奖励参数对所述预测模型进行强化学习,并通过强化学习后的所述预测模型对所述待测对象进行所述第i+1轮的自动化控制;
集合构建单元,用于:在所述预测模型基于每一轮生成的奖励参数完成强化学习后,将确定出的组合行为构建为所述待测对象的组合行为集合。
15.根据权利要求14所述的装置,其特征在于,所述第二确定单元,具体用于:
根据第i-1轮的奖励参数和所述第i+1轮的游戏场景的场景特征,确定所述第i轮的目标行为对应的奖励参数。
16.根据权利要求14所述的装置,其特征在于,所述第i轮的奖励参数包括对象状态子参数,所述对象状态子参数用于标识前i轮已出现的对象状态对所述第i轮的奖励参数的影响,所述前i轮已出现的对象状态的数量越多,对所述第i轮的奖励参数产生的正向影响越大。
17.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
所述处理器用于根据所述计算机程序执行权利要求1-13中任意一项所述的方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序在被计算机设备执行时实现执行权利要求1-13中任意一项所述的方法。
CN202311080706.9A 2023-08-25 2023-08-25 一种数据处理方法和相关装置 Active CN116808590B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311080706.9A CN116808590B (zh) 2023-08-25 2023-08-25 一种数据处理方法和相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311080706.9A CN116808590B (zh) 2023-08-25 2023-08-25 一种数据处理方法和相关装置

Publications (2)

Publication Number Publication Date
CN116808590A CN116808590A (zh) 2023-09-29
CN116808590B true CN116808590B (zh) 2023-11-10

Family

ID=88120583

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311080706.9A Active CN116808590B (zh) 2023-08-25 2023-08-25 一种数据处理方法和相关装置

Country Status (1)

Country Link
CN (1) CN116808590B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111185008A (zh) * 2020-01-20 2020-05-22 腾讯科技(深圳)有限公司 用于控制游戏中的虚拟角色的方法和设备
CN112717415A (zh) * 2021-01-22 2021-04-30 上海交通大学 一种基于信息瓶颈理论的强化学习对战游戏ai训练方法
CN113877210A (zh) * 2021-09-30 2022-01-04 上海莉莉丝计算机技术有限公司 游戏场景的转换方法、系统、服务器及计算机可读存储介质
CN113952723A (zh) * 2021-10-29 2022-01-21 北京市商汤科技开发有限公司 一种游戏中的交互方法、装置、计算机设备及存储介质
CN113975812A (zh) * 2021-10-21 2022-01-28 网易(杭州)网络有限公司 游戏图像的处理方法、装置、设备及存储介质
CN113996063A (zh) * 2021-10-29 2022-02-01 北京市商汤科技开发有限公司 游戏中虚拟角色的控制方法、装置及计算机设备
CN115186192A (zh) * 2022-07-27 2022-10-14 腾安基金销售(深圳)有限公司 信息处理方法、装置、存储介质及设备
CN115300910A (zh) * 2022-07-15 2022-11-08 浙江大学 基于多智能体强化学习的去混淆游戏策略模型生成方法
CN116510302A (zh) * 2023-04-06 2023-08-01 网易(杭州)网络有限公司 虚拟对象异常行为的分析方法、装置及电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111185008A (zh) * 2020-01-20 2020-05-22 腾讯科技(深圳)有限公司 用于控制游戏中的虚拟角色的方法和设备
CN112717415A (zh) * 2021-01-22 2021-04-30 上海交通大学 一种基于信息瓶颈理论的强化学习对战游戏ai训练方法
CN113877210A (zh) * 2021-09-30 2022-01-04 上海莉莉丝计算机技术有限公司 游戏场景的转换方法、系统、服务器及计算机可读存储介质
CN113975812A (zh) * 2021-10-21 2022-01-28 网易(杭州)网络有限公司 游戏图像的处理方法、装置、设备及存储介质
CN113952723A (zh) * 2021-10-29 2022-01-21 北京市商汤科技开发有限公司 一种游戏中的交互方法、装置、计算机设备及存储介质
CN113996063A (zh) * 2021-10-29 2022-02-01 北京市商汤科技开发有限公司 游戏中虚拟角色的控制方法、装置及计算机设备
CN115300910A (zh) * 2022-07-15 2022-11-08 浙江大学 基于多智能体强化学习的去混淆游戏策略模型生成方法
CN115186192A (zh) * 2022-07-27 2022-10-14 腾安基金销售(深圳)有限公司 信息处理方法、装置、存储介质及设备
CN116510302A (zh) * 2023-04-06 2023-08-01 网易(杭州)网络有限公司 虚拟对象异常行为的分析方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
融合环境模型与深度强化学习的游戏算法;黄学雨;郭勤;;江西理工大学学报(第03期) *
黄学雨 ; 郭勤 ; .融合环境模型与深度强化学习的游戏算法.江西理工大学学报.2018,(第03期), *

Also Published As

Publication number Publication date
CN116808590A (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
CN111282279B (zh) 模型训练的方法、基于交互式应用的对象控制方法及装置
CN108211362B (zh) 一种基于深度q学习网络的非玩家角色战斗策略学习方法
CN109847366B (zh) 用于游戏的数据处理方法和装置
CN111111220B (zh) 多人对战游戏的自对弈模型训练方法、装置和计算机设备
CN111494959B (zh) 游戏操控方法、装置、电子设备及计算机可读存储介质
CN110134375B (zh) 游戏角色行为的控制方法、装置及可读存储介质
CN112870721B (zh) 一种游戏互动方法、装置、设备及存储介质
CN112131117B (zh) 游戏测试方法、装置、电子设备及存储介质
CN110841295B (zh) 一种基于人工智能的数据处理方法和相关装置
CN111352844A (zh) 一种测试方法和相关装置
CN114404977B (zh) 行为模型的训练方法、结构扩容模型的训练方法
CN111760294B (zh) 控制游戏中非玩家游戏角色的方法及装置
CN114392560B (zh) 虚拟场景的运行数据处理方法、装置、设备及存储介质
US20230293995A1 (en) Artificial intelligence object control method and apparatus, device, and storage medium
CN116747521B (zh) 控制智能体进行对局的方法、装置、设备及存储介质
CN111598169A (zh) 一种模型训练方法、游戏测试方法、模拟操作方法及装置
CN113457152A (zh) 一种游戏阵容生成方法、装置、设备及存储介质
US11786818B2 (en) Autoplayers for filling and testing online games
CN116956007A (zh) 人工智能模型的预训练方法、装置、设备及存储介质
CN112860579B (zh) 业务测试方法、装置、存储介质及设备
CN116808590B (zh) 一种数据处理方法和相关装置
CN115944921B (zh) 游戏数据处理方法、装置、设备及介质
CN117217327A (zh) 一种模型训练方法和相关装置
CN116943220A (zh) 一种游戏人工智能控制方法、装置、设备及存储介质
CN113018853B (zh) 数据处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40092645

Country of ref document: HK