CN110163377A

CN110163377A - 交互数据处理方法、装置、计算机可读存储介质和计算机设备

Info

Publication number: CN110163377A
Application number: CN201910055386.9A
Authority: CN
Inventors: 何炜; 周飞虎; 胡光晓; 宋书涛
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-01-21
Filing date: 2019-01-21
Publication date: 2019-08-23
Anticipated expiration: 2039-01-21
Also published as: CN110163377B

Abstract

本申请涉及一种交互数据处理方法、装置、计算机可读存储介质和计算机设备，包括：获取互为对抗关系当前第一交互模型和当前第二交互模型输出的第一交互动作数据和第二交互动作数据；在虚拟交互场景中，第一虚拟执行主体根据第一交互动作数据执行对应的第一交互动作和第二虚拟执行主体根据第二交互动作数据执行对应的第二交互动作；根据第一交互动作和第二交互动作的执行分别得到第一交互结果数据和第二交互结果数据；当第一交互结果数据满足第一预设收敛条件时，根据预设模型评估规则评估当前第一交互模型的模型交互性能，得到模型性能评估结果；根据模型性能评估结果得到更新后的第二交互模型。本申请提供的方案提高交互模型的数据处理能力。

Description

交互数据处理方法、装置、计算机可读存储介质和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种交互数据处理方法、装置、计算机可读存储介质和计算机设备。

背景技术

随着计算机技术的发展，出现了强化学习，强化学习是机器学习中的一个领域，主体通过和环境之间的互动，不断改进主体的行为，以取得最大化的预期利益。目前，虚拟对象交互领域都在使用强化学习来实现对弈和对战虚拟对象交互的人工智能，然而在对弈和对战型强化学习中，交互模型的主体一般会包括敌方模型和我方模型，敌我双方模型一般由监督学习得到，我方模型不断对战训练从而得到进化，而敌方模型由初始模型设定之后就保持不变，容易导致过拟合现象，即我方模型一直强于敌方模型，导致我方模型一直无法增强，交互模型也无法得到更好的提升。

发明内容

基于此，有必要针对上述技术问题，提供一种交互数据处理方法、装置、计算机可读存储介质和计算机设备，在交互模型的强化学习中，能够避免第一交互模型和第二交互模型出现过拟合现象，提高交互模型的数据处理能力。

一种交互数据处理方法，该方法包括：

获取当前第一交互模型输出的第一交互动作数据和当前第二交互模型输出的第二交互动作数据，当前第一交互模型和当前第二交互模型互为对抗关系；

在虚拟交互场景中，当前第一交互模型对应的第一虚拟执行主体根据第一交互动作数据执行对应的第一交互动作；

当前第二交互模型对应的第二虚拟执行主体根据第二交互动作数据执行对应的第二交互动作；

根据第一交互动作和第二交互动作的执行得到当前第一交互模型对应的第一交互结果数据和当前第二交互模型对应的第二交互结果数据；

当第一交互结果数据满足第一预设收敛条件时，根据预设模型评估规则评估当前第一交互模型的模型交互性能，得到模型性能评估结果；

根据模型性能评估结果得到更新后的第二交互模型，将更新后的第二交互模型作为当前第二交互模型，根据第一交互结果数据更新当前第一交互模型。

一种交互数据处理装置，该装置包括：

交互模型获取模块，用于获取当前第一交互模型输出的第一交互动作数据和当前第二交互模型输出的第二交互动作数据，当前第一交互模型和当前第二交互模型互为对抗关系；

交互动作执行模块，用于在虚拟交互场景中，当前第一交互模型对应的第一虚拟执行主体根据第一交互动作数据执行对应的第一交互动作；

交互动作执行模块，还用于当前第二交互模型对应的第二虚拟执行主体根据第二交互动作数据执行对应的第二交互动作；

交互动作处理模块，用于根据第一交互动作和第二交互动作的执行得到当前第一交互模型对应的第一交互结果数据和当前第二交互模型对应的第二交互结果数据；

模型交互性能评估模块，用于当第一交互结果数据满足第一预设收敛条件时，根据预设模型评估规则评估当前第一交互模型的模型交互性能，得到模型性能评估结果；

交互模型更新模块，用于根据模型性能评估结果得到更新后的第二交互模型，将更新后的第二交互模型作为当前第二交互模型，根据第一交互结果数据更新当前第一交互模型。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行所述程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：

上述交互数据处理方法、装置、计算机可读存储介质和计算机设备，获取当前第一交互模型输出的第一交互动作数据和当前第二交互模型输出的第二交互动作数据，当前第一交互模型和当前第二交互模型互为对抗关系；在虚拟交互场景中，当前第一交互模型对应的第一虚拟执行主体根据第一交互动作数据执行对应的第一交互动作；当前第二交互模型对应的第二虚拟执行主体根据第二交互动作数据执行对应的第二交互动作；根据第一交互动作和第二交互动作的执行得到当前第一交互模型对应的第一交互结果数据和当前第二交互模型对应的第二交互结果数据；当第一交互结果数据满足第一预设收敛条件时，根据预设模型评估规则评估当前第一交互模型的模型交互性能，得到模型性能评估结果；根据模型性能评估结果得到更新后的第二交互模型，将更新后的第二交互模型作为当前第二交互模型，根据第一交互结果数据更新当前第一交互模型。

可通过互为对抗关系的第一虚拟执行主体和第二虚拟执行主体在虚拟交互场景中进行交互得到对应的第一交互结果数据和第二交互结果数据，当第一交互结果数据满足第一预设收敛条件时，则进入评估系统对当前第一交互模型的模型交互性能进行评估，得到模型性能评估结果。最后，根据模型性能评估结果更新当前第二交互模型，得到更新后的第二交互模型，同时根据第一交互结果数据更新当前第一交互模型。进一步地，将更新后的第二交互模型和更新后的第一交互模型继续进行交互，不断循环训练，能够实现第一交互模型和第二交互模型始终保持势均力敌的水平进行对抗或者对弈，避免第一交互模型和第二交互模型出现过拟合现象，提高第一交互模型和第二交互模型的数据处理能力。

附图说明

图1为一个实施例中交互数据处理方法的应用环境图；

图2为一个实施例中交互数据处理方法的流程示意图；

图3为另一个实施例中交互数据处理方法的流程示意图；

图3A为一个实施例中当前第一交互模型的模型交互性能评估步骤的示意图；

图4为一个实施例中当前第一交互模型的模型交互性能评估步骤的流程示意图；

图4A为一个实施例中当前第一交互模型的模型交互性能评估步骤的原理示意图；

图5为另一个实施例中当前第一交互模型的模型交互性能评估步骤的流程示意图；

图6为又一个实施例中当前第一交互模型的模型交互性能评估步骤的流程示意图；

图7为一个实施例中对战型游戏场景强化学习的原理示意图；

图8为一个实施例中交互数据处理装置的结构框图；

图9为另一个实施例中交互数据处理装置的结构框图；

图10为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但除非特别说明，这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一当前交互模型称为第二当前交互模型，且类似地，可将第二当前交互模型称为第一当前交互模型。

图1为一个实施例中交互数据处理方法的应用环境图。参照图1，该交互数据处理方法应用于交互数据处理系统。该交互数据处理系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

具体地，终端110将交互基础数据发送至服务器120，其中交互基础数据是指互为对抗关系的虚拟执行主体的操作数据，服务器120接收到交互基础数据后，将当前第一交互模型对应的交互基础数据输入至当前第一交互模型中，将当前第二交互模型对应的交互基础数据输入至当前第二交互模型，获取当前第一交互模型输出的第一交互动作数据和当前第二交互模型输出的第二交互动作数据，当前第一交互模型和当前第二交互模型互为对抗关系，在虚拟交互场景中，当前第一交互模型对应的第一虚拟执行主体根据第一交互动作数据执行对应的第一交互动作，当前第二交互模型对应的第二虚拟执行主体根据第二交互动作数据执行对应的第二交互动作，根据第一交互动作和第二交互动作的执行得到当前第一交互模型对应的第一交互结果数据和当前第二交互模型对应的第二交互结果数据，当第一交互结果数据满足第一预设收敛条件时，根据预设模型评估规则评估当前第一交互模型的模型交互性能，得到模型性能评估结果，根据模型性能评估结果得到更新后的第二交互模型，将更新后的第二交互模型作为当前第二交互模型，根据第一交互结果数据更新当前第一交互模型。再将第一交互结果数据输入至更新后的当前第一交互模型，将第二交互结果数据输入至当前第二交互模型，返回获取当前第一交互模型输出的第一交互动作数据和当前第二交互模型输出的第二交互动作数据的步骤，直至当前第一交互模型满足第二预设收敛条件，输出目标第一交互模型。进一步地，可将最后更新成功后的目标第一交互模型发送至终端110。

如图2所示，在一个实施例中，提供了一种交互数据处理方法。本实施例主要以该方法应用于上述图1中的服务器120来举例说明。参照图2，该交互数据处理方法具体包括如下步骤：

步骤202，获取当前第一交互模型输出的第一交互动作数据和当前第二交互模型输出的第二交互动作数据，当前第一交互模型和当前第二交互模型互为对抗关系。

其中，交互模型是指用于操作虚拟执行主体实施交互动作的机器学习模型。而交互动作是互为对抗关系的虚拟执行主体互相实施的动作，该交互动作可以作用于自身虚拟执行主体、其余的第一虚拟执行主体或者第二虚拟执行主体。而虚拟执行主体是为计算机设备可操作的数字化对象，比如，游戏场景中的虚拟角色。因此，交互模型都存在对应的虚拟执行主体。其中，第一虚拟执行主体是第一当前交互模型操作的虚拟执行主体，相应的第二虚拟执行主体则是与第一虚拟执行主体相对抗的另一虚拟执行主体。第一虚拟执行主体可称为己方，第二虚拟执行主体可称为敌对方。

第一虚拟执行主体可以是被第一当前交互模型控制的虚拟执行主体，以及与被第一当前交互模型控制的第一虚拟执行主体相互合作的虚拟执行主体。而第二虚拟执行主体，是与第一虚拟执行主体相互对抗的另一方的虚拟执行主体。

其中，当前第一交互模型、当前第二交互模型是指在某个时间段内正在操控对应的虚拟执行主体实施对应的交互动作实现相互对抗的机器学习模型。其中，当前第一交互模型可以称为己方虚拟执行主体对应的交互模型，而当前第二交互模型可以成为敌对方虚拟执行主体对应的交互模型。其中，交互动作数据是指与交互动作有关的数据，可通过交互动作数据执行对应的交互动作。

具体地，在当前第一交互模型操作对应的第一虚拟执行主体，与当前第二交互模型操作对应的第二虚拟执行主体进行相互对抗时，第一虚拟执行主体会释放相对应的交互动作，而第二虚拟执行主体同时也会释放对应的交互动作，获取当前第一交互模型输出的第一交互动作数据和当前第二交互模型输出的第二交互动作数据。

在一个实施例中，当前第一交互模型和当前第二交互模型可以组成强化学习的主体，强化学习是主体以“试错”的方式进行学习，通过与环境进行交互获得的奖励值指导交互动作，目标是使主体获得最大的奖励值。而强化学习的基本模型是由主体、环境、状态、奖励值和动作等元素组成的。在对战型强化学习中，主体可以由互为对抗关系的当前第一交互模型和当前第二交互模型组成。

在一个实施例中，当前第一交互模型和所述当前第二交互模型为游戏模型中的对抗双方模型。

具体地，在对战型游戏场景中，当前第一交互模型和当前第二交互模型为游戏模型中的对抗双方模型，当前第一交互模型可以是终端用户所在的一方，而当前第二交互模型是与当前第一交互模型相对抗的一方。其中，当前第一交互模型可以称为己方，而当前第二交互模型可以称为敌对方。

步骤204，在虚拟交互场景中，当前第一交互模型对应的第一虚拟执行主体根据第一交互动作数据执行对应的第一交互动作。

其中，虚拟交互场景是指为虚拟执行主体提供的可以进行交互的场景，可以是二维交互场景，也可以是三维交互场景。例如，在游戏中为双方进行对抗交互提供的环境。

具体地，由于交互模型都存在对应的虚拟执行主体，获取当前第一交互模型对应的第一虚拟执行主体，在虚拟交互场景中，当前第一交互模型操控第一虚拟执行主体与当前第二交互模型操控第二虚拟执行主体进行相互对抗，在对抗过程中，第一虚拟执行主体根据第一交互动作数据释放对应的第一交互动作。具体可将第一交互动作作用于当前第二交互模型对应的第二虚拟执行主体，或者可以将第一交互动作作用于第一虚拟执行主体相互合作的虚拟执行主体。其中，第一交互动作数据对应的第一交互动作包括但不限于攻击交互动作和逃避交互动作。其中，交互包括攻击交互、躲避交互等，其中，攻击又可以分为近距离攻击和远距离攻击。

在一个实施例中，对战行为对应的交互动作可以是对战时在各个方向(前、后、左、右以及站着不动)上的移动操作、各个技能的释放操作以及攻击操作等各个操作的任意组合等。

步骤206，当前第二交互模型对应的第二虚拟执行主体根据第二交互动作数据执行对应的第二交互动作。

具体地，在虚拟交互场景中，当前第一交互模型操控第一虚拟执行主体与当前第二交互模型操控第二虚拟执行主体进行相互对抗，在对抗过程中，当前第二交互模型对应的第二虚拟执行主体根据第二交互动作数据释放对应的第二交互动作。具体可将第二交互动作作用于当前第二交互模型对应的第二虚拟执行主体，或者可以将第二交互动作作用于第二虚拟执行主体相互合作的虚拟执行主体。同样地，第二交互动作数据对应的第二交互动作包括但不限于攻击交互动作和逃避交互动作。其中，交互包括攻击交互、躲避交互等，其中，攻击又可以分为近距离攻击和远距离攻击。

步骤208，根据第一交互动作和第二交互动作的执行得到当前第一交互模型对应的第一交互结果数据和当前第二交互模型对应的第二交互结果数据。

其中，交互结果数据是与第一虚拟执行主体和第二虚拟执行主体在虚拟交互场景中相互对抗产生的交互结果相关的数据，交互结果数据包括但不限于第一虚拟执行主体和第二虚拟执行主体的交互胜负情况，第一虚拟执行主体和第二虚拟主体分别对应的虚拟执行主体交互状态数据，如虚拟执行主体的生命值等，在游戏场景中，虚拟执行主体的生命值如英雄的血量。交互结果数据还包括第一虚拟执行主体和第二虚拟执行主体分别对应的虚拟执行主体交互激励值数据，如虚拟执行主体的奖励值等，在游戏场景中，虚拟执行主体的奖励值如英雄的得分或者积分等。交互结果数据还包括第一虚拟执行主体和第二虚拟执行主体分别对应的交互动作信息等。

其中，当前第一交互模型对应的第一交互结果数据是指第一虚拟执行主体对应的交互结果数据，包括但不限于第一虚拟执行主体与第二虚拟执行主体之间的相对位置信息、相对交互状态数据、相对激励值数据如英雄积分或者得分等，而相对交互状态数据包括但不限于第一虚拟执行主体的相对生命值属性信息例如英雄血量的差距、第一虚拟执行主体与第二虚拟执行主体的交互动作等级之间的差距。

同样地，当前第二交互模型对应的第二交互结果数据是指第二虚拟执行主体对应的交互结果数据，包括但不限于第二虚拟执行主体与第一虚拟执行主体之间的相对位置信息、相对交互状态数据、相对交互激励值数据如英雄积分或者得分等，而同样地相对交互状态数据包括但不限于第二虚拟执行主体的相对生命值属性信息例如英雄血量的差距、第一虚拟执行主体与第二虚拟执行主体的交互动作等级之间的差距。

步骤210，当第一交互结果数据满足第一预设收敛条件时，根据预设模型评估规则评估当前第一交互模型的模型交互性能，得到模型性能评估结果。

其中，第一预设收敛条件是用来评估当前第一交互模型是否能进入评估系统的条件，第一预设收敛条件可自定义，自定义可以是当第一交互结果数据达到瓶颈水平时，则可确定为第一交互结果数据满足第一预设收敛条件，其中瓶颈水平可以是第一交互结果数据不再发生变化。或者自定义还可以是当第一交互结果数据达到预设范围时，则可确定为第一交互结果数据满足第一预设收敛条件等。

其中，预设模型评估规则是评估系统中用来评估当前第一交互模型的模型交互性能的规则，评估系统是用来评估当前第一交互模型的模型性能交互的系统。而预设模型评估规则可自定义，自定义可以是根据当前第一交互结果数据中的某个交互子结果数据来评估当前第一交互模型的模型交互性能，自定义还可以是根据当前第一交互结果数据和当前第二交互结果数据来评估当前第一交互模型的模型交互性能，或者自定义还可以是根据当前第一交互模型输出的第一虚拟执行主体对应的第一技能分布范围，和当前第二交互模型输出的第二虚拟执行主体对应的第二技能分布范围来评估当前第一交互模型的模型交互性能等。

其中，模型性能评估结果是指评估系统评估当前第一交互模型的评估结果。模型性能评估结果可以是当前第一交互模型的模型交互性能优于当前第二交互模型的模型交互性能，或者可以是当前第一交互模型的模型交互性能劣于当前第二交互模型的模型交互性能。这里的模型交互性能是指当前第一交互模型和当前第二交互模型的模型交互能力。

其中，当第一交互结果数据未满足第一预设收敛条件时，则无法进入评估系统，则需要将第一交互结果数据输入至当前第一交互模型，将第二交互结果数据输入至当前第二交互模型，返回获取当前第一交互模型输出的第一交互动作数据和当前第二交互模型输出的第二交互动作数据的步骤，直至第一交互结果数据满足第一预设收敛条件，则可进入评估系统，从而对当前第一交互模型的模型交互性能进行评估，得到模型性能评估结果。

步骤212，根据模型性能评估结果得到更新后的第二交互模型，将更新后的第二交互模型作为当前第二交互模型，根据第一交互结果数据更新当前第一交互模型。

其中，在得到模型性能评估结果后，根据模型性能评估结果更新当前第二交互模型，得到更新后的第二交互模型，将更新后第二交互模型作为当前第二交互模型，同时还根据第一交互结果数据更新当前第一交互模型。其中，根据模型性能评估结果更新当前第二交互模型需要满足更新条件，更新条件可自定义，自定义可以是当模型性能评估结果显示当前第一交互模型的模型交互性能优于当前第二交互模型的模型交互性能时，方可更新当前第二交互模型。即当前模型性能评估结果显示当前第一交互模型的模型交互性能劣于当前第二交互模型的模型交互性能时，不可更新当前第二交互模型。或者自定义更新条件还可以是当模型性能评估结果显示当前第一交互模型的模型交互性能达到预设条件时，则可更新当前第二交互模型等。

其中，根据模型性能评估结果更新当前第二交互模型，得到更新后的第二交互模型的更新方式可自定义，自定义更新方式可以是将当前第一交互模型替换成当前第二交互模型，即将当前第一交互模型作为更新后的第二交互模型；自定义更新方式还可以是参考当前第一交互模型的模型参数设置当前第二交互模型的模型参数，使得当前第一交互模型的模型交互能力与当前第二交互模型的模型交互能力旗鼓相当等。进一步地，将更新后的第二交互模型作为当前第二交互模型，返回获取当前第一交互模型输出的第一交互动作数据和当前第二交互模型输出的第二交互动作数据的步骤。

在更新当前第二交互模型的同时，根据第一交互结果数据更新当前第一交互模型。其中，根据第一交互结果数据更新当前第一交互模型具体可以是将第一交互结果数据作为当前第一交互模型的输入，返回获取当前第一交互模型输出的第一交互动作数据和当前第二交互模型输出的第二交互动作数据的步骤。其中，根据第一交互结果数据更新当前第一交互模型具体还可以是根据第一交互结果数据不断调整当前第一交互模型的模型参数，然后再将第一交互结果数据作为调整后的当前第一交互模型的输入，直至当前第一交互模型满足模型收敛条件。

在一个实施例中，根据模型性能评估结果得到更新后的第二交互模型，包括：当当前第一交互模型的模型交互性能优于当前第二交互模型的模型交互性能时，将当前第一交互模型替换成当前第二交互模型，将当前第一交互模型作为更新后的第二交互模型。

具体地，由于模型性能评估结果包括但不限于当当前第一交互模型的模型交互性能优于当前第二交互模型的模型交互性能、当当前第一交互模型的模型交互性能劣于当前第二交互模型的模型交互性能、当当前第一交互模型的模型交互性能与当前第二交互模型的模型交互性能相同等。在本实施例中，更新当前第二交互模型的方式为当当前第一交互模型的模型交互性能优于当前第二交互模型的模型交互性能时，可以根据模型性能评估结果更新当前第二交互模型，具体可以是将模型交互性能强的当前第一交互模型替换为当前第二交互模型，即将当前第一交互模型作为更新后的第二交互模型。这样子，当前第二交互模型不断在更新，更新后再与当前第一交互模型进行对抗，则可使得当前第一交互模型的模型交互性能可以得到进一步地提高。

在一个实施例中，第一交互结果数据包括第一交互状态变化数据和第一交互激励值数据，根据第一交互结果数据更新当前第一交互模型，包括：根据第一交互状态变化数据和第一交互激励值数据对当前第一交互模型的模型参数进行调整。

其中，第一交互结果数据包括但不限于第一交互状态变化数据和第一交互激励值数据，其中第一交互状态变化数据是当前第一交互模型对应的第一虚拟执行主体与当前第二交互模型对应的第二虚拟执行主体在虚拟交互场景中执行对应的动作，第一虚拟执行主体和第二虚拟执行主体发生的状态变化的相关数据。第一交互状态变化数据包括但不限于第一虚拟执行主体的交互状态数据等，第一虚拟执行主体的交互状态数据可以是第一虚拟执行主体的生命值等，如在游戏场景中，虚拟执行主体的生命值如英雄的血量。

其中，第一交互激励值数据是指对第一虚拟执行主体在虚拟交互场景中执行第一交互动作数据对应的第一交互动作获得的奖励值，第一交互激励值数据越高，说明第一虚拟执行主体获得的奖励值越高。其中，第一交互激励值数据在游戏场景中可以是游戏英雄的得分或者积分等。

具体地，根据第一交互结果数据更新当前第一交互模型可以是，根据第一交互状态变化数据和第一交互激励值数据对当前第一交互模型的模型参数进行调整，具体可以是先根据第一交互状态变化数据和第一交互激励值数据对当前第一交互模型的模型参数进行调整，再将第一交互状态变化数据和第一交互激励值数据作为调整后的当前第一交互模型的输入，返回获取当前第一交互模型输出的第一交互动作数据和当前第二交互模型输出的第二交互动作数据的步骤，直至当前第一交互模型满足模型收敛条件，最后得到目标第一交互模型。

上述交互数据处理方法，获取当前第一交互模型输出的第一交互动作数据和当前第二交互模型输出的第二交互动作数据，当前第一交互模型和当前第二交互模型互为对抗关系；在虚拟交互场景中，当前第一交互模型对应的第一虚拟执行主体根据第一交互动作数据执行对应的第一交互动作；当前第二交互模型对应的第二虚拟执行主体根据第二交互动作数据执行对应的第二交互动作；根据第一交互动作和第二交互动作的执行得到当前第一交互模型对应的第一交互结果数据和当前第二交互模型对应的第二交互结果数据；当第一交互结果数据满足第一预设收敛条件时，根据预设模型评估规则评估当前第一交互模型的模型交互性能，得到模型性能评估结果；根据模型性能评估结果得到更新后的第二交互模型，将更新后的第二交互模型作为当前第二交互模型，根据第一交互结果数据更新当前第一交互模型。

可通过互为对抗关系的第一虚拟执行主体和第二虚拟执行主体在虚拟交互场景中进行交互得到对应的第一交互结果数据和第二交互结果数据，当第一交互结果数据满足第一预设收敛条件时，则进入评估系统对当前第一交互模型的模型交互性能进行评估，得到模型性能评估结果。最后，根据模型性能评估结果得到更新后的第二交互模型。进一步地，将更新后的第二交互模型和更新后的第一交互模型继续进行交互，不断循环训练，能够实现第一交互模型和第二交互模型始终保持势均力敌的水平进行对抗或者对弈，避免第一交互模型和第二交互模型出现过拟合现象，提高第一交互模型和第二交互模型的数据处理能力。

在一个实施例中，根据第一交互结果数据更新当前第一交互模型之后，包括：将第一交互结果数据输入至更新后的当前第一交互模型，将第二交互结果数据输入至当前第二交互模型；返回获取当前第一交互模型输出的第一交互动作数据和当前第二交互模型输出的第二交互动作数据的步骤，直至当前第一交互模型满足第二预设收敛条件，输出目标第一交互模型。

其中，在根据第一交互结果更新当前第一交互模型之后，由于需要根据更新后的第二交互模型和更新后的当前第一交互模型得到目标第一交互模型，因此将第一交互结果数据输入至更新后的当前第一交互模型，将第二交互结果数据输入至当前第二交互模型，返回获取当前第一交互模型输出的第一交互动作数据和当前第二交互模型输出的第二交互动作数据的步骤，不断循环直至当前第一交互模型满足第二预设收敛条件，输出目标第一交互模型。

其中，第二预设收敛条件是模型收敛条件，用来判定当前第一交互模型是否收敛的条件。其中，第二预设收敛条件可自定义，自定义可以是当当前第一交互模型进行多次评估后都无法更新当前第二交互模型，则可确定为当前第一交互模型已满足第二预设收敛条件，还可以是当第一交互结果数据中的第一交互激励值数据已经到达瓶颈水平时或者当第一交互激励值数据出现异常时，则可确定为当前第一交互模型已满足第二预设收敛条件。其中，第一交互激励值数据出现异常例如第一交互激励值数据原来是呈现增长趋势，然后稳定趋势，最后呈现下降趋势，说明在呈现下降趋势的那个时间点当前第一交互模型已经满足第二预设收敛条件了。

最后，当当前第一交互模型满足第二预设收敛条件，输出目标第一交互模型。进一步地，由于输出的目标第一交互模型的模型交互能力已经到达了一定的水平，因此可将输出的目标第一交互模型应用到实际业务场景中进行应用。

在一个实施例中，如图3所示，第一交互结果数据包括第一交互状态变化数据和第一交互激励值数据，第二交互结果数据包括第二交互状态变化数据和第二交互激励值数据，交互数据处理方法还包括：

步骤302，当第一交互激励值数据未满足第一预设收敛条件时，将第一交互激励值数据、第一交互状态变化数据和第二交互状态变化数据输入至当前第一交互模型，得到当前第一交互模型输出的第一预测交互动作数据。

步骤304，将第二交互状态变化数据、第一交互状态变化数据和第二交互激励值数据输入至当前第二交互模型，得到当前第二交互模型输出的第二预测交互动作数据。

其中，第一交互结果数据包括第一交互状态变化数据和第一交互激励值数据，第二交互结果数据包括第二交互状态变化数据和第二交互激励值数据，其中，交互状态变化数据是指虚拟执行主体在虚拟交互场景中执行对应的动作发生状态变化的相关数据，如在游戏场景中，交互状态变化数据可以为虚拟执行主体的生命值，如英雄的血量等。而第一交互状态变化数据为第一虚拟执行主体对应的交互状态变化数据，第二交互状态变化数据为第二虚拟执行主体对应的交互状态变化数据。

其中，交互激励值数据是虚拟执行主体在虚拟交互场景中执行对应的交互动作获得的奖励值，如在游戏场景中，交互激励值数据可以为虚拟执行主体的积分或者得分，如英雄所获得的积分或者奖励等。而第一交互激励值数据为第一虚拟执行主体对应的交互激励值数据，第二交互激励值数据为第二虚拟执行主体对应的交互激励值数据。

具体地，当第一交互激励值数据未满足第一预设收敛条件时，说明当前第一交互模型无法进入评估系统进行模型交互性能的评估，因此返回前面的步骤直至第一交互激励值数据满足第一预设收敛条件。第一交互状态变化数据和第二交互状态变化数据是第一虚拟执行主体和第二虚拟执行主体在虚拟交互场景执行对应的交互动作发生状态变化的相关数据，第一交互状态变化数据和第二交互状态变化数据相互关联，因此将第一交互状态变化数据、第二交互状态变化数据和第一交互激励值数据重新输入至当前第一交互模型，得到输出的第一预测交互动作数据。其中，在将第一交互状态变化数据、第二交互状态变化数据和第一交互激励值数据重新输入至当前第一交互模型之前，可先根据第一交互状态变化数据、第二交互状态变化数据和第一交互激励值数据对当前第一交互模型的模型参数进行调整，然后再将第一交互状态变化数据、第二交互状态变化数据和第一交互激励值数据输入至调整后的当前第一交互模型，得到调整后的当前第一交互模型输出的第一预测交互动作数据。

具体地，在将第一交互状态变化数据、第二交互状态变化数据和第一交互激励值数据重新输入至当前第一交互模型，得到输出的第一预测交互动作数据的同时，为了当前第一交互模型对应的第一虚拟执行主体，在虚拟交互场景中执行第一预测交互动作数据对应的第一预测交互动作进行对战，需将第二交互状态变化数据、第一交互状态变化数据和第二交互激励值数据输入至当前第二交互模型，得到当前第二交互模型输出的第二预测交互动作数据。

步骤306，在虚拟交互场景中，当前第一交互模型对应的第一虚拟执行主体根据预测交互动作数据执行对应的第一预测交互动作。

步骤308，当前第二交互模型对应的第二虚拟执行主体根据第二预测交互动作数据执行对应的第二预测交互动作。

其中，由于第一预测交互动作数据和第二预测交互动作数据都存在对应的第一预测交互动作和第二预测交互动作，第一预测交互动作和第二预测交互动作可通过虚拟交互场景提供的环境因素从而得到对应的交互激励值数据。具体可以是在虚拟交互场景中，当前第一交互模型操控第一虚拟执行主体与当前第二交互模型操控的当前第二虚拟执行主体进行相互对抗，在对抗的过程中，当前第一交互模型对应的第一虚拟执行主体根据第一预测交互动作数据释放对应的第一预测交互动作，与当前第二交互模型对应的第二虚拟执行主体根据第二预测交互动作数据释放对应的第二预测交互动作进行对战。

步骤310，根据第一预测交互动作和第二预测交互动作的执行得到当前第一交互模型对应的第一交互状态变化数据和第一交互激励值数据，和当前第二交互模型对应的第二交互状态变化数据和第二交互激励值数据，直至第一交互激励值数据满足第一预设收敛条件，进入根据预设模型评估规则评估当前第一交互模型的模型交互性能，得到模型性能评估结果的步骤。

其中，在当前第一交互模型对应的第一虚拟执行主体根据第一预测交互动作数据释放对应的第一预测交互动作，与当前第二交互模型对应的第二虚拟执行主体根据第二预测交互动作数据释放对应的第二预测交互动作进行对战的过程中，第一预测交互动作和第二预测交互动作通过虚拟交互场景提供的环境因素来获得对应的交互激励值数据，而第一交互激励值数据是第一预测交互动作通过虚拟交互场景获得的对应奖励值数据，第二交互激励值数据是第二预测交互动作通过虚拟交互场景获得的对应奖励值数据。

其中，第一预测交互动作和第二预测交互动作通过虚拟交互场景提供的环境因素来获得对应的交互激励值数据的同时，第一虚拟执行主体和第二虚拟执行主体在虚拟交互场景进行对战时，第一虚拟执行主体和第二虚拟执行主体会发生状态变化从而产生对应的交互状态变化数据。而第一交互状态变化数据是第一虚拟执行主体在进行对战时发生状态变化产生的对应的状态变化数据，第二交互状态变化数据是第二虚拟执行主体在进行对战时发生状态变化产生的对应的状态变化数据。第一交互状态变化数据和第二交互状态变化数据在游戏场景可以是己方英雄的血量和敌对方英雄的血量。

进一步地，根据第一预测交互动作和第二预测交互动作的执行得到当前第一交互模型对应的第一交互状态变化数据和第一交互激励值数据，和当前第二交互模型对应的第二交互状态变化数据和第二交互激励值数据，若当第一交互激励值数据满足第一预设收敛条件时，则进入评估系统对当前第一交互模型的模型交互性能进行评估。反之，若当第一交互激励值数据未满足第一预设收敛条件时，则将第一交互状态变化数据、第二交互状态变化数据和第一交互激励值数据重新输入至当前第一交互模型，将第一交互状态变化数据、第二交互状态变化数据和第二交互激励值数据重新输入至当前第二交互模型，重新返回前面的步骤，直至第一交互激励值数据满足第一预设收敛条件，则可进入评估系统对当前第一交互模型的模型交互性能进行评估，从而得到模型性能评估结果。

在一个实施例中，第一交互结果数据包括第一交互激励值数据，根据预设模型评估规则评估当前第一交互模型的模型交互性能，得到模型性能评估结果，包括：当第一交互激励值数据不再发生变化时，则确定当前第一交互模型的模型交互性能优于当前第二交互模型的模型交互性能。

其中，当第一交互结果数据中的第一交互激励值数据满足第一预设收敛条件时，则可进入评估系统评估当前第一交互模型的模型交互性能。其中，评估系统评估当前第一交互模型的模型交互性能的评估条件可自定义，在本实施例中，自定义评估条件可以是当第一交互激励值数据不再发生变化时，则确定当前第一交互模型的模型交互性能优于当前第二交互模型的模型交互性能等。其中，因为当第一交互激励值数据不再发生变化，说明当前第一交互模型的模型交互能力已经到达了一定的水平或者到达了瓶颈水平，即使当前第一交互模型进行任何计算，第一交互激励值数据也不会再发生任何变化了，因此可以根据模型性能评估结果更新当前第二交互模型。其中，根据模型性能评估结果更新当前第二交互模型可以是，当模型性能评估结果确定当前第一交互模型的模型交互性能优于当前第二交互模型的模型交互性能时，则可将当前第一交互模型替换成当前第二交互模型，则将当前第一交互模型作为更新后的第二交互模型。

在一个实施例中，如图3A所示，图3A示出一个实施例中当前第一交互模型的模型交互性能评估步骤的示意图，图3A示出的当前第一交互模型对应的第一交互结果中的第一交互激励值数据对应的曲线图，将每一次当前第一交互模型输出的第一交互激励值数据用曲线图来进行表示，图3A示出的横坐标代表当前第一交互模型的循环次数，而纵坐标代表的第一交互激励值数据。如图3A所示，当循环次数达到10⁷时，第一交互激励值数据不再发生变化时，则可确定当前第一交互模型的模型交互性能优于当前第二交互模型的模型交互性能。

在一个实施例中，如图4所示，根据预设模型评估规则评估当前第一交互模型的模型交互性能，得到模型性能评估结果，包括：

步骤402，获取虚拟对象交互动画数据，虚拟对象交互动画数据对应多个交互动画帧，各个交互动画帧包括互为对抗关系的虚拟对象对应的实际操作交互动作。

其中，虚拟交互动画数据是指虚拟执行主体在虚拟交互场景下交互过程中产生的动画数据，虚拟对象交互动画数据包括但不限于虚拟执行主体实际操作信息。虚拟执行主体实际操作信息是指用户或者交互模型操控虚拟执行主体对应的实际操作交互动作。

其中，这里的虚拟对象交互动画数据包括至少一个交互动画帧，这里的交互动画帧是构成虚拟对象交互动画数据的单位，虚拟对象交互动画数据可以对应多个交互动画帧。其中交互动画帧可以是预先存储的虚拟对象交互动画数据对应的交互动画帧。其中，虚拟对象交互动画数据可以从预先存储的相关的文件中获取，其中，该文件记录了虚拟执行主体在虚拟交互场景下交互过程中虚拟执行主体的实际操作信息。其中，虚拟对象交互动画数据还可以是互为对抗关系的虚拟执行主体进行对战的视频数据。其中，交互动画帧中包括但不限于互为对抗关系的虚拟执行主体的实际操作交互动作，也就是说交互动画帧包括互为对抗关系的虚拟执行主体的实际操作交互动作。

步骤404，将各个交互动画帧输入至当前第一交互模型，得到各个交互动画帧对应的第一虚拟执行主体交互动作。

步骤406，将各个交互动画帧输入至当前第二交互模型，得到各个交互动画帧对应的第二虚拟执行主体交互动作。

具体地，如图4A所示，图4A示出一个实施例中当前第一交互模型的模型交互性能评估步骤的原理示意图，将各个交互动画帧输入至当前第一交互模型和当前第二交互模型，当前第一交互模型会提取交互动画帧中的特征，根据提取出的特征预测各个交互动画帧对应的第一虚拟执行主体交互动作。同样地，当前第二交互模型也会提取交互动画帧帧中的特征，根据提取出的特征预测各个交互动画帧对应的第二虚拟执行主体交互动作。其中，第一虚拟执行主体交互动作和第二虚拟执行主体交互动作是当前第一交互模型和当前第二交互模型根据输入数据进行预测得到的，并非第一虚拟执行主体的实际操作交互动作和第二虚拟执行主体的实际操作交互动作。

步骤408，根据各个交互动画帧的第一虚拟执行主体交互动作和对应的虚拟执行主体的实际操作交互动作计算得到当前第一交互模型的准确度。

步骤410，根据各个交互动画帧的第二虚拟执行主体交互动作和对应的虚拟执行主体的实际操作交互动作计算得到当前第二交互模型的准确度。

其中，如图4A所示，在得到各个交互动画帧对应的第一虚拟执行主体交互动作和第二虚拟执行主体交互动作后，由于第一虚拟执行主体交互动作和第二虚拟执行主体交互动作是当前第一交互模型和当前第二交互模型根据输入数据进行预测得到的，并非第一虚拟执行主体的实际操作交互动作和第二虚拟执行主体的实际操作交互动作，可根据各个交互动画帧对应的第一虚拟执行主体交互动作和第二虚拟执行主体交互动作和对应的实际操作交互动作计算对应的交互模型的准确度。

具体地，如图4A所示，将各个交互动画帧的第一虚拟执行主体交互动作和对应的虚拟执行主体的实际操作交互动作进行比较，计算得到当前第一交互模型的准确度。其中，计算当前第一交互模型的准确度可自定义，自定义可以是相似度计算从而得到当前第一交互模型的准确度。同样地，将各个交互动画帧对应的第二虚拟执行主体交互动作和对应的虚拟执行主体的实际操作交互动作进行比较，计算得到当前第二交互模型的准确度。同样地，计算当前第二交互模型的准确度可自定义，自定义可以是相似度计算或者是余弦相似度计算，从而得到当前第二交互模型的准确度。

步骤412，当当前第一交互模型的准确度大于当前第二交互模型的准确度时，则确定当前第一交互模型的模型交互性能优于当前第二交互模型的模型交互性能。

具体地，在计算得到当前第一交互模型的准确度和当前第二交互模型的准确度后，可通过当前第一交互模型的准确度和当前第二交互模型的准确度来得知当前第一交互模型的模型交互能力和当前第二交互模型的模型交互能力的强弱关系。若当前第一交互模型的准确度大于当前第二交互模型的准确度时，则说明当前第一交互模型的模型交互性能比当前第二交互模型的模型交互性能强，即当前第一交互模型的模型交互能力强于当前第二交互模型的模型交互性能。因此，可更新当前第二交互模型，由于当前交互模型的模型交互性能强于当前第二交互模型的模型交互性，因此可将当前第一交互模型替换成当前第二交互模型，也就是说将当前第一交互模型作为更新后的第二交互模型。其中，更新当前第二交互模型并不仅限于将当前第一交互模型替换当前第二交互模型的这种方式。

在一个实施例中，如图5所示，根据预设模型评估规则评估当前第一交互模型的模型交互性能，得到模型性能评估结果，包括：

步骤502，根据第一交互结果数据和第二交互结果数据计算得到当前第一交互模型对应的第一交互水平能力值，和当前第二交互模型对应的第二交互水平能力值。

步骤504，当第一交互水平能力值大于第二交互水平能力值时，则确定当前第一交互模型的模型交互性能优于当前第二交互模型的模型交互性能。

其中，交互水平能力值是用来衡量交互模型的整体交互能力的数据，交互水平能力值可以是通过ELO Rating System算法得到的数值。具体地，在得到第一交互结果数据和第二交互结果数据后，可根据第一交互结果数据和第二交互结果数据计算得到当前第一交互模型对应的第一交互水平能力值，和当前第二交互模型对应的第二交互水平能力值。其中，第一交互水平能力值和第二交互水平能力值的计算方式可自定义，自定义可以是第一交互结果数据和第二交互结果数据根据ELO Rating System算法分别计算得到当前第一交互模型对应的第一交互水平能力值，和当前第二交互模型对应的第二交互水平能力值。具体可以是根据第一交互结果数据和第二交互结果数据中的交互激励值数据进行加权计算得到当前第一交互模型对应的第一交互水平能力值，和当前第二交互模型对应的第二交互水平能力值。

进一步地，在计算得到当前第一交互模型对应的第一交互水平能力值，和当前第二交互模型对应的第二交互水平能力值后，可根据第一交互水平能力值和第二交互水平能力值比较得知当前第一交互模型和当前第二交互模型的模型交互性能。若第一交互水平能力值强于第二交互水平能力值，则说明当前第一交互模型的模型交互性能优于当前第二交互模型的模型交互性能。进一步地，当确定当前第一交互模型的模型交互性能优于当前第二交互模型的模型交互性能时，则可更新当前第二交互模型，具体可以是将较强模型交互性能的当前第一交互模型替换成当前第二交互模型，即将当前第一交互模型作为更新后的第二交互模型。

在一个实施例中，如图6所示，根据预设模型评估规则评估当前第一交互模型的模型交互性能，得到模型性能评估结果，包括：

步骤602，获取当前第一交互模型输出的第一虚拟执行主体对应的第一技能分布范围。

步骤604，获取当前第二交互模型输出的第二虚拟执行主体对应的第二技能分布范围。

其中，技能分布范围是指交互模型操控对应的虚拟执行主体实施交互动作的范围，可根据技能分布范围得知交互模型操控虚拟执行主体可实施交互动作的技能种类或者技能数量等。技能分布范围越大，说明交互模型操控对应的虚拟执行主体的可释放的技能的种类和数量越多，说明交互模型交互能力强。而第一交互技能分布范围是指当前第一交互模型输出的第一虚拟执行主体可实施交互动作的技能种类或者技能数量的范围，第二交互技能分布范围是指当前第二交互模型输出的第二虚拟执行主体可实施交互动作的技能种类或者技能数量的范围。

具体地，当前第一交互模型和当前第二交互模型中的模型参数中包括第一虚拟执行主体对应的第一技能分布范围，和第二虚拟执行主体对应的第二技能分布范围，获取当前第一交互模型输出的第一虚拟执行主体对应的第一技能分布范围和当前第二交互模型输出的第二虚拟执行主体对应的第二技能分布范围。

步骤606，当第一技能分布范围大于第二技能分布范围时，则确定当前第一交互模型的模型交互性能优于当前第二交互模型的模型交互性能。

其中，在获取当前第一交互模型输出的第一虚拟执行主体对应的第一技能分布范围和当前第二交互模型输出的第二虚拟执行主体对应的第二技能分布范围后，可根据第一技能分布范围和第二技能分布范围评估当前第一交互模型和当前第二交互模型的模型交互性能。具体将第一技能分布范围和第二技能分布范围进行比较，当第一技能分布范围大于第二技能分布范围时，说明当前第一交互模型输出的第一虚拟执行主体可实施的交互动作的种类和数量要多于当前第二交互模型输出的第二虚拟执行主体可实施的交互动作的种类和数量，说明当前第一交互模型的模型交互性能优于当前第二交互模型的模型性能。进一步地，当确定当前第一交互模型的模型交互性能优于当前第二交互模型的模型交互性能时，可更新当前第二交互模型，具体可以是将较强模型交互性能的当前第一交互模型替换成当前第二交互模型，即将当前第一交互模型作为更新后的第二交互模型。

在一个对战型游戏场景强化学习中，如图7所示，图7示出一个实施例中对战型游戏场景强化学习的原理示意图，该对战型游戏场景强化学习结构包括主体、环境、状态、奖励值和动作等元素组成。在对战型强化学习中，主体一般会包含已方交互模型和敌对方交互模型，这里的己方交互模型可以为当前第一交互模型，敌对方交互模型可以为当前第二交互模型。

具体地，该对战型游戏场景强化学习结构通过第n步状态和奖励值为输入，由己方交互模型推断出下一个动作，环境通过动作的输入，从中得出第n+1步状态和奖励值，实现循环反馈，直到奖励值达到预期。当奖励值达到预期标准时，该对战型游戏场景强化学习结构会自动通过一个评估系统，提取当前己方交互模型，用于判断当前己方交互模型是否已经远优于当前敌对方交互模型，如果当前己方交互模型没有通过评估系统评估，则回到前一个流程，继续将奖励值和状态反馈到当前己方交互模型进行循环训练；如果当前己方交互模型已经远优于当前敌对方交互模型，则将当前敌对方交互模型替换成当前己方交互模型，然后再继续进行对战预测和训练。因此可以实现己方交互模型和敌对方交互模型都在一个较强、并且势均力敌的水平上进行对弈或者对战，从而使得己方交互模型有机会继续进化增强，而不会陷入过拟合陷阱，如此继续循环训练，最终得到较高甚至是极限水平的己方交互模型和敌对方交互模型。

在一个具体的实施例中，提供了一种交互数据处理方法，该方法具体包括以下步骤：

1、获取当前第一交互模型输出的第一交互动作数据和当前第二交互模型输出的第二交互动作数据，当前第一交互模型和当前第二交互模型互为对抗关系，其中，当前第一交互模型和当前第二交互模型为游戏模型中的对抗双方模型。

2、在虚拟交互场景中，当前第一交互模型对应的第一虚拟执行主体根据第一交互动作数据执行对应的第一交互动作。

3、当前第二交互模型对应的第二虚拟执行主体根据第二交互动作数据执行对应的第二交互动作。

4、根据第一交互动作和第二交互动作的执行得到当前第一交互模型对应的第一交互结果数据和当前第二交互模型对应的第二交互结果数据。

5、当第一交互结果数据满足第一预设收敛条件时，根据预设模型评估规则评估当前第一交互模型的模型交互性能，得到模型性能评估结果。

5-1、当第一交互激励值数据不再发生变化时，则确定当前第一交互模型的模型交互性能优于当前第二交互模型的模型交互性能。

5-2、获取虚拟对象交互动画数据，虚拟对象交互动画数据对应多个交互动画帧，各个交互动画帧包括互为对抗关系的虚拟执行主体对应的实际操作交互动作；将各个交互动画帧输入至当前第一交互模型，得到各个交互动画帧对应的第一虚拟执行主体交互动作；将各个交互动画帧输入至当前第二交互模型，得到各个交互动画帧对应的第二虚拟执行主体交互动作；根据各个交互动画帧的第一虚拟执行主体交互动作和对应的虚拟执行主体的实际操作交互动作计算得到当前第一交互模型的准确度；根据各个交互动画帧的第二虚拟执行主体交互动作和对应的虚拟执行主体的实际操作交互动作计算得到当前第二交互模型的准确度；当当前第一交互模型的准确度大于当前第二交互模型的准确度时，则确定当前第一交互模型的模型交互性能优于当前第二交互模型的模型交互性能。

5-3、根据第一交互结果数据和第二交互结果数据计算得到当前第一交互模型对应的第一交互水平能力值，和当前第二交互模型对应的第二交互水平能力值；当第一交互水平能力值大于第二交互水平能力值时，则确定当前第一交互模型的模型交互性能优于当前第二交互模型的模型交互性能。

5-4、获取当前第一交互模型输出的第一虚拟执行主体对应的第一技能分布范围；获取当前第二交互模型输出的第二虚拟执行主体对应的第二技能分布范围；当第一技能分布范围大于第二技能分布范围时，则确定当前第一交互模型的模型交互性能优于当前第二交互模型的模型交互性能。

6、根据模型性能评估结果得到更新后的第二交互模型，将更新后的第二交互模型作为当前第二交互模型，根据第一交互结果数据更新当前第一交互模型。

6-1、当当前第一交互模型的模型交互性能优于当前第二交互模型的模型交互性能时，将当前第一交互模型替换成当前第二交互模型，将当前第一交互模型作为更新后的第二交互模型。

6-2、根据第一交互状态变化数据和第一交互激励值数据对当前第一交互模型的模型参数进行调整。

7、将第一交互结果数据输入至更新后的当前第一交互模型，将第二交互结果数据输入至当前第二交互模型。

8、返回获取当前第一交互模型输出的第一交互动作数据和当前第二交互模型输出的第二交互动作数据的步骤，直至当前第一交互模型满足第二预设收敛条件，输出目标第一交互模型。

9、第一交互结果数据包括第一交互状态变化数据和第一交互激励值数据，第二交互结果数据包括第二交互状态变化数据和第二交互激励值数据，当第一交互激励值数据未满足第一预设收敛条件时，将第一交互激励值数据、第一交互状态变化数据和第二交互状态变化数据输入至当前第一交互模型，得到当前第一交互模型输出的第一预测交互动作数据。

10、将第二交互状态变化数据、第一交互状态变化数据和第二交互激励值数据输入至当前第二交互模型，得到当前第二交互模型输出的第二预测交互动作数据。

11、在虚拟交互场景中，当前第一交互模型对应的第一虚拟执行主体根据预测交互动作数据执行对应的第一预测交互动作。

12、当前第二交互模型对应的第二虚拟执行主体根据第二预测交互动作数据执行对应的第二预测交互动作。

13、根据第一预测交互动作和第二预测交互动作的执行得到当前第一交互模型对应的第一交互状态变化数据和第一交互激励值数据，和当前第二交互模型对应的第二交互状态变化数据和第二交互激励值数据，直至第一交互激励值数据满足第一预设收敛条件，进入根据预设模型评估规则评估当前第一交互模型的模型交互性能，得到模型性能评估结果的步骤。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种交互数据处理装置800，包括：

交互模型获取模块802，用于获取当前第一交互模型输出的第一交互动作数据和当前第二交互模型输出的第二交互动作数据，当前第一交互模型和当前第二交互模型互为对抗关系。

交互动作执行模块804，用于在虚拟交互场景中，当前第一交互模型对应的第一虚拟执行主体根据第一交互动作数据执行对应的第一交互动作。

交互动作执行模块804，还用于当前第二交互模型对应的第二虚拟执行主体根据第二交互动作数据执行对应的第二交互动作。

交互动作处理模块806，用于根据第一交互动作和第二交互动作的执行得到当前第一交互模型对应的第一交互结果数据和当前第二交互模型对应的第二交互结果数据。

模型交互性能评估模块808，用于当第一交互结果数据满足第一预设收敛条件时，根据预设模型评估规则评估当前第一交互模型的模型交互性能，得到模型性能评估结果。

交互模型更新模块810，用于根据模型性能评估结果得到更新后的第二交互模型，将更新后的第二交互模型作为当前第二交互模型，根据第一交互结果数据更新当前第一交互模型。

在一个实施例中，交互模型更新模块还用于将第一交互结果数据输入至更新后的当前第一交互模型，将第二交互结果数据输入至当前第二交互模型；返回获取当前第一交互模型输出的第一交互动作数据和当前第二交互模型输出的第二交互动作数据的步骤，直至当前第一交互模型满足第二预设收敛条件，输出目标第一交互模型。

在一个实施例中，如图9所示，第一交互结果数据包括第一交互状态变化数据和第一交互激励值数据，第二交互结果数据包括第二交互状态变化数据和第二交互激励值数据，装置还包括：

模型交互性能评估模块808，还用于当第一交互激励值数据未满足第一预设收敛条件时，将第一交互激励值数据、第一交互状态变化数据和第二交互状态变化数据输入至当前第一交互模型，得到当前第一交互模型输出的第一预测交互动作数据。

交互结果数据处理模块812，用于将第二交互状态变化数据、第一交互状态变化数据和第二交互激励值数据输入至当前第二交互模型，得到当前第二交互模型输出的第二预测交互动作数据。

预测交互动作执行模块814，用于在虚拟交互场景中，当前第一交互模型对应的第一虚拟执行主体根据预测交互动作数据执行对应的第一预测交互动作。

预测交互动作执行模块814，还用于当前第二交互模型对应的第二虚拟执行主体根据第二预测交互动作数据执行对应的第二预测交互动作。

预测交互动作处理模块816，用于根据第一预测交互动作和第二预测交互动作的执行得到当前第一交互模型对应的第一交互状态变化数据和第一交互激励值数据，和当前第二交互模型对应的第二交互状态变化数据和第二交互激励值数据，直至第一交互激励值数据满足第一预设收敛条件，进入根据预设模型评估规则评估当前第一交互模型的模型交互性能，得到模型性能评估结果的步骤。

在一个实施例中，第一交互结果数据包括第一交互激励值数据，模型交互性能评估模块808还用于当第一交互激励值数据不再发生变化时，则确定当前第一交互模型的模型交互性能优于当前第二交互模型的模型交互性能。

在一个实施例中，模型交互性能评估模块808还用于获取虚拟对象交互动画数据，虚拟对象交互动画数据对应多个交互动画帧，各个交互动画帧包括互为对抗关系的虚拟执行主体对应的实际操作交互动作；将各个交互动画帧输入至当前第一交互模型，得到各个交互动画帧对应的第一虚拟执行主体交互动作；将各个交互动画帧输入至当前第二交互模型，得到各个交互动画帧对应的第二虚拟执行主体交互动作；根据各个交互动画帧的第一虚拟执行主体交互动作和对应的虚拟执行主体的实际操作交互动作计算得到当前第一交互模型的准确度；根据各个交互动画帧的第二虚拟执行主体交互动作和对应的虚拟执行主体的实际操作交互动作计算得到当前第二交互模型的准确度；当当前第一交互模型的准确度大于当前第二交互模型的准确度时，则确定当前第一交互模型的模型交互性能优于当前第二交互模型的模型交互性能。

在一个实施例中，模型交互性能评估模块808还用于根据第一交互结果数据和第二交互结果数据计算得到当前第一交互模型对应的第一交互水平能力值，和当前第二交互模型对应的第二交互水平能力值；当第一交互水平能力值大于第二交互水平能力值时，则确定当前第一交互模型的模型交互性能优于当前第二交互模型的模型交互性能。

在一个实施例中，模型交互性能评估模块808还用于获取当前第一交互模型输出的第一虚拟执行主体对应的第一技能分布范围；获取当前第二交互模型输出的第二虚拟执行主体对应的第二技能分布范围；当第一技能分布范围大于第二技能分布范围时，则确定当前第一交互模型的模型交互性能优于当前第二交互模型的模型交互性能。

在一个实施例中，交互模型更新模块810还用于当当前第一交互模型的模型交互性能优于当前第二交互模型的模型交互性能时，将当前第一交互模型替换成当前第二交互模型，将当前第一交互模型作为更新后的第二交互模型。

在一个实施例中，第一交互结果数据包括第一交互状态变化数据和第一交互激励值数据，交互模型更新模块810还用于根据第一交互状态变化数据和第一交互激励值数据对当前第一交互模型的模型参数进行调整。

在一个实施例中，当前第一交互模型和当前第二交互模型为游戏模型中的对抗双方模型。

图10示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器120。如图10所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现交互数据处理方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行交互数据处理方法。计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的交互数据处理装置可以实现为一种计算机程序的形式，计算机程序可在如图10所示的计算机设备上运行。计算机设备的存储器中可存储组成该交互数据处理装置的各个程序模块，比如，图8所示的交互模型获取模块、交互动作执行模块、交互动作处理模块、模型交互性能评估模块和交互模型更新模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的交互数据处理方法中的步骤。

例如，图10所示的计算机设备可以通过如图8所示的交互数据处理装置中的交互模型获取模块执行获取当前第一交互模型输出的第一交互动作数据和当前第二交互模型输出的第二交互动作数据，当前第一交互模型和当前第二交互模型互为对抗关系。交互动作执行模块执行在虚拟交互场景中，当前第一交互模型对应的第一虚拟执行主体根据第一交互动作数据执行对应的第一交互动作。交互动作执行模块还执行当前第二交互模型对应的第二虚拟执行主体根据第二交互动作数据执行对应的第二交互动作。交互动作处理模块执行根据第一交互动作和第二交互动作的执行得到当前第一交互模型对应的第一交互结果数据和当前第二交互模型对应的第二交互结果数据。模型交互性能评估模块执行当第一交互结果数据满足第一预设收敛条件时，根据预设模型评估规则评估当前第一交互模型的模型交互性能，得到模型性能评估结果。交互模型更新模块执行根据模型性能评估结果得到更新后的第二交互模型，将更新后的第二交互模型作为当前第二交互模型，根据第一交互结果数据更新当前第一交互模型。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述交互数据处理方法的步骤。此处交互数据处理方法的步骤可以是上述各个实施例的交互数据处理方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述交互数据处理方法的步骤。此处交互数据处理方法的步骤可以是上述各个实施例的交互数据处理方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种交互数据处理方法，包括：

获取当前第一交互模型输出的第一交互动作数据和当前第二交互模型输出的第二交互动作数据，所述当前第一交互模型和所述当前第二交互模型互为对抗关系；

在虚拟交互场景中，所述当前第一交互模型对应的第一虚拟执行主体根据所述第一交互动作数据执行对应的第一交互动作；

所述当前第二交互模型对应的第二虚拟执行主体根据所述第二交互动作数据执行对应的第二交互动作；

根据所述第一交互动作和所述第二交互动作的执行得到所述当前第一交互模型对应的第一交互结果数据和所述当前第二交互模型对应的第二交互结果数据；

当所述第一交互结果数据满足第一预设收敛条件时，根据预设模型评估规则评估所述当前第一交互模型的模型交互性能，得到模型性能评估结果；

根据所述模型性能评估结果得到更新后的第二交互模型，将所述更新后的第二交互模型作为所述当前第二交互模型，根据所述第一交互结果数据更新所述当前第一交互模型。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一交互结果数据更新所述当前第一交互模型之后，包括：

将所述第一交互结果数据输入至更新后的当前第一交互模型，将所述第二交互结果数据输入至所述当前第二交互模型；

返回所述获取当前第一交互模型输出的第一交互动作数据和当前第二交互模型输出的第二交互动作数据的步骤，直至所述当前第一交互模型满足第二预设收敛条件，输出目标第一交互模型。

3.根据权利要求1所述的方法，其特征在于，所述第一交互结果数据包括第一交互状态变化数据和第一交互激励值数据，所述第二交互结果数据包括第二交互状态变化数据和第二交互激励值数据，所述方法还包括：

当所述第一交互激励值数据未满足所述第一预设收敛条件时，将所述第一交互激励值数据、所述第一交互状态变化数据和所述第二交互状态变化数据输入至所述当前第一交互模型，得到所述当前第一交互模型输出的第一预测交互动作数据；

将所述第二交互状态变化数据、所述第一交互状态变化数据和所述第二交互激励值数据输入至所述当前第二交互模型，得到所述当前第二交互模型输出的第二预测交互动作数据；

在所述虚拟交互场景中，所述当前第一交互模型对应的第一虚拟执行主体根据所述预测交互动作数据执行对应的第一预测交互动作；

所述当前第二交互模型对应的第二虚拟执行主体根据所述第二预测交互动作数据执行对应的第二预测交互动作；

根据所述第一预测交互动作和所述第二预测交互动作的执行得到所述当前第一交互模型对应的第一交互状态变化数据和第一交互激励值数据，和所述当前第二交互模型对应的第二交互状态变化数据和第二交互激励值数据，直至第一交互激励值数据满足所述第一预设收敛条件，进入所述根据预设模型评估规则评估所述当前第一交互模型的模型交互性能，得到模型性能评估结果的步骤。

4.根据权利要求1所述的方法，其特征在于，所述第一交互结果数据包括第一交互激励值数据，所述根据预设模型评估规则评估所述当前第一交互模型的模型交互性能，得到模型性能评估结果，包括：

当所述第一交互激励值数据不再发生变化时，则确定所述当前第一交互模型的模型交互性能优于所述当前第二交互模型的模型交互性能。

5.根据权利要求1所述的方法，其特征在于，所述根据预设模型评估规则评估所述当前第一交互模型的模型交互性能，得到模型性能评估结果，包括：

获取虚拟对象交互动画数据，所述虚拟对象交互动画数据对应多个交互动画帧，各个所述交互动画帧包括互为对抗关系的虚拟执行主体对应的实际操作交互动作；

将各个所述交互动画帧输入至所述当前第一交互模型，得到各个所述交互动画帧对应的第一虚拟执行主体交互动作；

将各个所述交互动画帧输入至所述当前第二交互模型，得到各个所述交互动画帧对应的第二虚拟执行主体交互动作；

根据各个所述交互动画帧的第一虚拟执行主体交互动作和对应的虚拟执行主体的实际操作交互动作计算得到所述当前第一交互模型的准确度；

根据各个所述交互动画帧的第二虚拟执行主体交互动作和对应的虚拟执行主体的实际操作交互动作计算得到所述当前第二交互模型的准确度；

当所述当前第一交互模型的准确度大于所述当前第二交互模型的准确度时，则确定所述当前第一交互模型的模型交互性能优于所述当前第二交互模型的模型交互性能。

6.根据权利要求1所述的方法，其特征在于，所述根据预设模型评估规则评估所述当前第一交互模型的模型交互性能，得到模型性能评估结果，包括：

根据所述第一交互结果数据和所述第二交互结果数据计算得到所述当前第一交互模型对应的第一交互水平能力值，和所述当前第二交互模型对应的第二交互水平能力值；

当所述第一交互水平能力值大于所述第二交互水平能力值时，则确定所述当前第一交互模型的模型交互性能优于所述当前第二交互模型的模型交互性能。

7.根据权利要求1所述的方法，其特征在于，所述根据预设模型评估规则评估所述当前第一交互模型的模型交互性能，得到模型性能评估结果，包括：

获取所述当前第一交互模型输出的所述第一虚拟执行主体对应的第一技能分布范围；

获取所述当前第二交互模型输出的所述第二虚拟执行主体对应的第二技能分布范围；

当所述第一技能分布范围大于所述第二技能分布范围时，则确定所述当前第一交互模型的模型交互性能优于所述当前第二交互模型的模型交互性能。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述根据所述模型性能评估结果得到更新后的第二交互模型，包括：

当所述当前第一交互模型的模型交互性能优于所述当前第二交互模型的模型交互性能时，将所述当前第一交互模型替换成所述当前第二交互模型，将所述当前第一交互模型作为所述更新后的第二交互模型。

9.根据权利要求1所述的方法，其特征在于，所述第一交互结果数据包括第一交互状态变化数据和第一交互激励值数据，所述根据所述第一交互结果数据更新所述当前第一交互模型，包括：

根据所述第一交互状态变化数据和第一交互激励值数据对所述当前第一交互模型的模型参数进行调整。

10.根据权利要求1所述的方法，其特征在于，所述当前第一交互模型和所述当前第二交互模型为游戏模型中的对抗双方模型。

11.一种交互数据处理装置，其特征在于，所述装置包括：

交互模型获取模块，用于获取当前第一交互模型输出的第一交互动作数据和当前第二交互模型输出的第二交互动作数据，所述当前第一交互模型和所述当前第二交互模型互为对抗关系；

交互动作执行模块，用于在虚拟交互场景中，所述当前第一交互模型对应的第一虚拟执行主体根据所述第一交互动作数据执行对应的第一交互动作；

所述交互动作执行模块，还用于所述当前第二交互模型对应的第二虚拟执行主体根据所述第二交互动作数据执行对应的第二交互动作；

交互动作处理模块，用于根据所述第一交互动作和所述第二交互动作的执行得到所述当前第一交互模型对应的第一交互结果数据和所述当前第二交互模型对应的第二交互结果数据；

模型交互性能评估模块，用于当所述第一交互结果数据满足第一预设收敛条件时，根据预设模型评估规则评估所述当前第一交互模型的模型交互性能，得到模型性能评估结果；

交互模型更新模块，用于根据所述模型性能评估结果得到更新后的第二交互模型，将所述更新后的第二交互模型作为所述当前第二交互模型，根据所述第一交互结果数据更新所述当前第一交互模型。

12.根据权利要求11所述的装置，其特征在于，所述交互模型更新模块还用于将所述第一交互结果数据输入至更新后的当前第一交互模型，将所述第二交互结果数据输入至所述当前第二交互模型；返回所述获取当前第一交互模型输出的第一交互动作数据和当前第二交互模型输出的第二交互动作数据的步骤，直至所述当前第一交互模型满足第二预设收敛条件，输出目标第一交互模型。

13.根据权利要求11所述的装置，其特征在于，所述第一交互结果数据包括第一交互状态变化数据和第一交互激励值数据，所述第二交互结果数据包括第二交互状态变化数据和第二交互激励值数据，所述装置还包括：

所述模型交互性能评估模块，还用于当所述第一交互激励值数据未满足所述第一预设收敛条件时，将所述第一交互激励值数据、所述第一交互状态变化数据和所述第二交互状态变化数据输入至所述当前第一交互模型，得到所述当前第一交互模型输出的第一预测交互动作数据；

交互结果数据处理模块，用于将所述第二交互状态变化数据、所述第一交互状态变化数据和所述第二交互激励值数据输入至所述当前第二交互模型，得到所述当前第二交互模型输出的第二预测交互动作数据；

预测交互动作执行模块，用于在所述虚拟交互场景中，所述当前第一交互模型对应的第一虚拟执行主体根据所述预测交互动作数据执行对应的第一预测交互动作；

所述预测交互动作执行模块，还用于所述当前第二交互模型对应的第二虚拟执行主体根据所述第二预测交互动作数据执行对应的第二预测交互动作；

预测交互动作处理模块，用于根据所述第一预测交互动作和所述第二预测交互动作的执行得到所述当前第一交互模型对应的第一交互状态变化数据和第一交互激励值数据，和所述当前第二交互模型对应的第二交互状态变化数据和第二交互激励值数据，直至第一交互激励值数据满足所述第一预设收敛条件，进入所述根据预设模型评估规则评估所述当前第一交互模型的模型交互性能，得到模型性能评估结果的步骤。

14.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。

15.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。