CN116956005A

CN116956005A - 数据分析模型的训练方法、装置、设备、存储介质及产品

Info

Publication number: CN116956005A
Application number: CN202211528472.5A
Authority: CN
Inventors: 常佳艺; 袁波; 林少彬; 解静; 郑哲; 陈梓阳; 杜楠
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-11-30
Filing date: 2022-11-30
Publication date: 2023-10-27

Abstract

本申请提供了一种数据分析模型的训练方法、装置，应用于人工智能技术领域，数据分析模型包括生成器、判别器，包括：获取携带标签的样本行动数据及可归因事实参数；通过生成器，基于样本行动数据，进行对局结果预测，得到预测对局结果；获取样本行动数据中可归因事实参数对应的参考行动数据，并确定与参考行动数据相反的目标行动数据；通过生成器，基于目标行动数据，对对局结果进行反事实预测，得到反事实对局结果；通过判别器，分别对预测对局结果及反事实对局结果的真实性进行预测；基于预测结果，确定数据分析模型的损失函数的值，基于损失函数的值，更新数据分析模型的模型参数。通过本申请，能够提高数据分析模型的分析结果的准确性。

Description

数据分析模型的训练方法、装置、设备、存储介质及产品

技术领域

本申请涉及机器学习与因果推理相结合的技术领域，尤其涉及一种数据分析模型的训练方法、装置、设备、存储介质以及产品。

背景技术

在如今的互联网数字时代，电子游戏已经成为了国民生活的重要组成部分，而针对多人竞技类的游戏，大到专业选手，小到平民百姓，一局游戏结束以后，如果能够及时复盘回顾整局对局，寻找操作、决策的失误点，那么对游戏理解和水平的提升来说都有至关重要的作用。

然而，相关技术中，缺乏游戏赛事在结束以后进行反事实推断另外一种操作对赛事结果带来的影响，这使得玩家无法了解不同的操作可能会带来的结果，同时针对游戏数据的分析效率低、分析结果不准确。

发明内容

本申请实施例提供一种数据分析模型的训练方法、装置、电子设备、计算机可读存储介质以及计算机程序产品，能够提高数据分析模型的分析结果的准确性。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种数据分析模型的训练方法，所述数据分析模型至少包括生成器、判别器，方法包括：

获取携带标签的样本行动数据，并获取可归因事实参数；

其中，所述样本行动数据包括，虚拟对象在虚拟场景的交互对局中的行动数据；所述标签，为所述交互对局的对局结果；所述可归因事实参数，为能够影响所述虚拟对象在所述交互对局中对局结果的参数；

通过所述生成器，基于所述样本行动数据，对所述虚拟对象进行对局结果预测，得到所述虚拟对象的预测对局结果；

获取所述样本行动数据中所述可归因事实参数对应的参考行动数据，并确定与所述参考行动数据相反的目标行动数据；

通过所述生成器，基于所述目标行动数据，对所述虚拟对象的对局结果进行反事实预测，得到所述虚拟对象的反事实对局结果；

通过所述判别器，基于所述标签，分别对所述预测对局结果及所述反事实对局结果的真实性进行预测，得到预测结果；

基于所述预测结果，确定所述数据分析模型的损失函数的值，并基于所述损失函数的值，更新所述数据分析模型的模型参数。

本申请实施例提供一种数据分析模型的训练装置，包括：

获取模块，用于获取携带标签的样本行动数据，并获取可归因事实参数；其中，所述样本行动数据包括，虚拟对象在虚拟场景的交互对局中的行动数据；所述标签，为所述交互对局的对局结果；所述可归因事实参数，为能够影响所述虚拟对象在所述交互对局中对局结果的参数；

预测模块，用于通过所述数据分析模型的生成器，基于所述样本行动数据，对所述虚拟对象进行对局结果预测，得到所述虚拟对象的预测对局结果；

确定模块，用于获取所述样本行动数据中所述可归因事实参数对应的参考行动数据，并确定与所述参考行动数据相反的目标行动数据；

生成模块，用于通过所述生成器，基于所述目标行动数据，对所述虚拟对象的对局结果进行反事实预测，得到所述虚拟对象的反事实对局结果；

判别模块，用于通过所述数据分析模型的判别器，基于所述标签，分别对所述预测对局结果及所述反事实对局结果的真实性进行预测，得到预测结果；

更新模块，用于基于所述预测结果，确定所述数据分析模型的损失函数的值，并基于所述损失函数的值，更新所述数据分析模型的模型参数。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的数据分析模型的训练方法。

本申请实施例提供一种计算机可读存储介质，其中存储有计算机可执行指令，当计算机可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的数据分析模型的训练方法。

本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序或计算机可执行指令，该计算机程序或计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令，处理器执行该计算机可执行指令，使得该电子设备执行本申请实施例提供的数据分析模型的训练方法。

本申请实施例具有以下有益效果：

应用本申请实施例，通过数据分析模型的生成器，基于可归因事实参数，得到携带标签的样本行动数据对应的预测对局结果和反事实对局结果，然后再通过数据分析模型的判别器，分别对预测对局结果和反事实对局结果的真实性进行预测，得到预测结果，从而基于预测结果对数据分析模型的模型参数进行更新。如此，结合预测对局结果以及反事实对局结果，对数据分析模型进行训练，通过生成器进行对局结果的预测的同时，基于可归因事实参数，生成反事实对局结果，得到与可归因事实参数对应的多个对局结果，从而实现针对样本行动数据的反事实推断，进而实现高质量高效率的数据分析，提高了数据分析模型的分析结果的准确性。

附图说明

图1是本申请实施例提供的数据分析模型的训练系统100的架构示意图；

图2是本申请实施例提供的实施数据分析模型的训练方法的电子设备500的结构示意图；

图3是本申请实施例提供的数据分析模型的训练方法的流程示意图；

图4是本申请实施例提供的数据分析模型的结构示意图；

图5是本申请实施例提供的样本行动数据的获取方式流程图；

图6是本申请实施例提供的样本行动数据的获取方式的另一流程图；

图7是本申请实施例提供的可归因事实参数的获取流程示意图；

图8是本申请实施例提供的生成器的模型结构示意图；

图9是本申请实施例提供的预测对局结果的获取方式流程图；

图10是本申请实施例提供的数据分析模型的判别器结果示意图；

图11是本申请实施例提供的判别器处理流程示意图；

图12是本申请实施例提供的损失函数获取方式示意图；

图13是本申请实施例提供的基于数据分析模型的数据分析方法流程；

图14是本申请实施例提供的智能解说中的真实情景的解说示意图；

图15是本申请实施例提供的数据分析模型的模型架构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

需要指出，在本申请实施例中，涉及到与游戏用户的属性相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)英雄，玩家在多人在线战术竞技游戏中核心的操控对象。

2)金标准：是指国内外行业内公认的最好的对某种疾病或健康状态准确可靠的诊断方法，一般作为临床上明确或排除某种疾病的标准。金标准通常具有精确、复杂、昂贵和对患者有一定痛苦或危害等特点，临床上常利用诊断试验研究发掘一些更为简便、易行、痛苦少的试验方法来辅助疾病诊断，通常情况将金标准常作为待评估试验诊断效能的参照标准。

3)因果推断是一种新兴的技术，其可以补充机器学习方法中没有解释清楚的问题。它主要解决的问题是反事实推断，相当于对结果来考虑原因，如果希望Y变化，那么需要对X做出什么样的改变。通常将改变称为干预T(treatment)，干预T带来的结果Y称为TE(treatment effect)。

4)反事实(counterfactuals)是因果推理中最高级的假设。顾名思义，反事实就是假设过去发生的事情在不同变量干扰下产生的结果，即”如果当时，那么结果可能“。请注意，反事实的结果是不可观察的。因为过去的事情已经发生，无法改变条件观察另外一个结果。即使做对照实验，但是因为实验个体的差异，观察到的结果也不是真正反事实的结果。因此，只能通过某些方法去尽可能的逼近真实情况。

5)虚拟场景，利用设备输出的区别于现实世界的场景，通过裸眼或设备的辅助能够形成对虚拟场景的视觉感知，例如通过显示屏幕输出的二维影像，通过立体投影、虚拟现实和增强现实技术等立体显示技术来输出的三维影像；此外，还可以通过各种可能的硬件形成听觉感知、触觉感知、嗅觉感知和运动感知等各种模拟现实世界的感知。

6)客户端，终端中运行的用于提供各种服务的应用程序，例如游戏客户端等。

7)虚拟对象，虚拟场景中进行交互的对象，受到用户或机器人程序(例如，基于人工智能的机器人程序)的控制，能够在虚拟场景中静止、移动以及进行各种行为的对象，例如游戏中的各种角色等。

8)机器学习(ML，Machine Learning)，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

基于上述对本申请实施例中涉及的名词和术语的解释，下面说明本申请实施例提供的数据分析系统。参见图1，图1是本申请实施例提供的数据分析模型的训练系统100的架构示意图，为实现支撑一个示例性应用，终端(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线或有线链路实现数据传输。

在一些实施例中，终端(如终端400-1和终端400-2)，用于基于虚拟场景(如多人在线战术竞技游戏)的客户端(如客户端410-1和客户端410-2)的人工交互界面，接收到针对当前虚拟场景中虚拟对象的行动数据进行数据分析的触发操作，向服务器200发送携带待分析行动数据的数据分析请求。

在一些实施例中，服务器200，用于接收到终端发送的数据分析请求，响应于该请求，通过训练完成的数据分析模型，返回针对待分析行动数据的反事实对局结果至终端。

在一些实施例中，服务器200，还用于获取训练完成的数据分析模型之前，还用于实现针对数据分析模型的训练过程：服务器获取携带标签的样本行动数据，并获取可归因事实参数；样本行动数据包括，虚拟对象在虚拟场景的交互对局中的行动数据；标签为交互对局的对局结果；可归因事实参数，为能够影响虚拟对象在交互对局中对局结果的参数；通过数据分析模型的生成器，基于样本行动数据，对虚拟对象进行对局结果预测，得到虚拟对象的预测对局结果；获取样本行动数据中可归因事实参数对应的参考行动数据，并确定与参考行动数据相反的目标行动数据；通过生成器，基于目标行动数据，对虚拟对象的对局结果进行反事实预测，得到虚拟对象的反事实对局结果；通过数据分析模型的判别器，基于标签，分别对预测对局结果及反事实对局结果的真实性进行预测，得到预测结果；基于预测结果，确定数据分析模型的损失函数的值，并基于损失函数的值，更新数据分析模型的模型参数，实现针对数据分析模型的训练，得到训练完成的数据分析模型。

在实际应用中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN，ContentDelivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端(如终端400-1和终端400-2)可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表等，但并不局限于此。

本申请实施例还可以借助于云技术(Cloud Technology)实现，云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、以及应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源。

接下来对实施本申请实施例提供的数据分析模型的训练方法的电子设备进行说明。参见图2，图2是本申请实施例提供的实施数据分析模型的训练方法的电子设备500的结构示意图。电子设备500可以为图1示出的服务器200，电子设备500还可以是具有实现本申请提供的数据分析模型的训练方法能力的终端，以电子设备500为图1示出的服务器为例，对实施本申请实施例的数据分析模型的训练方法的电子设备进行说明，本申请实施例提供的电子设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可理解，总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，UniversalSerial Bus)等；呈现模块553，用于经由一个或多个与用户接口530相关联的输出装置531(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；输入处理模块554，用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的数据分析模型的训练装置可以采用软件方式实现，图2示出了存储在存储器550中的数据分析模型的训练装置555，其可以是程序和插件等形式的软件，包括以下软件模块：获取模块5551、预测模块5552、确定模块5553、生成模块5554、判别模块5555以及更新模块5556，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分，将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的数据分析模型的训练装置可以采用软硬件结合的方式实现，作为示例，本申请实施例提供的数据分析模型的训练装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的数据分析方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，ApplicationSpecific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable LogicDevice)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Fi eld-Programmable Gate Array)或其他电子元件。

在一些实施例中，终端或服务器可以通过运行计算机程序来实现本申请实施例提供的数据分析方法。举例来说，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地(Native)应用程序(APP，Application)，即需要在操作系统中安装才能运行的程序，如即时通信APP、网页浏览器APP；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

基于上述对本申请实施例提供的数据分析系统及电子设备的说明，下面说明本申请实施例提供的数据分析方法。在实际实施时，本申请实施例提供的数据分析方法可以由终端或服务器单独实现，或者由终端及服务器协同实现，以由图1中的服务器200单独执行本申请实施例提供的数据分析模型的训练方法为例进行说明。参见图3，图3是本申请实施例提供的数据分析模型的训练方法的流程示意图，将结合图3示出的步骤进行说明。

在步骤101中，服务器获取携带标签的样本行动数据，并获取可归因事实参数。

其中，样本行动数据包括，虚拟对象在虚拟场景的交互对局中的行动数据；标签，为交互对局的对局结果；可归因事实参数，为能够影响虚拟对象在交互对局中对局结果的参数。

在实际实施时，虚拟场景的交互对局包括至少两个对局方，每个对局方包括一个或多个虚拟对象，虚拟对象在交互对局的对局过程中，执行各种行动动作，生成相应的行动数据。在交互对局的对局过程中，虚拟对象执行了目标行动，得到相应的对局结果，对局结果为真实发生的事实结果，是能够被观察到的结果。假设因为对局方中的虚拟对象执行了目标事实操作，产生了相应的对局结果，那么还可以对对局方中虚拟对象的事实操作进行反事实推断，即假设如果采用虚拟对象没有执行目标事实操作，能够产生的反事实结果，反事实结果是无法观察到的。因此，可以基于事实操作对应的行动数据提取能够影响对局结果的参数即可归因事实参数，可归因事实参数与对局结果之间存在因果关系，可归因事实参数为一个二元变量t，t取值为{0，1}基于可归因事实参数，确定反事实对局结果，从而能够给出相同交互对局中虚拟对象的不同行动可能带来的结果。

其中，数据分析模型f，设定样本行动数据集合作为数据分析模型f的训练数据，样本行动数据x_i，可归因事实参数t_i、以及标签y_i之间的映射关系，y_i＝f(x_i,t_i)。其中，y_i数据分析模型输出的潜在结果，/>对于标签y_i是一个可观察到的实际发生的对局结果，或称为事实对局结果，当t_i＝0时，y_i表示受可归因事实参数的影响得到的(事实)对局结果，当t_i＝1时，y_i表示不受可归因事实参数的影响得到的(事实)对局结果。

示例性地，以多人竞技类游戏为例，在交互对局过程中，由于对局方A中的虚拟对象执行了相应的事实操作“前期反野成功并建立优势”，得到相应的对局结果为“对局方A成为获胜方”，则“前期反野成功”即可看作为对局结果的可归因事实参数。那么可以通过数据分析模型的处理，可以得到假设对局方A中的虚拟对象没有执行前述的事实操作所对应的对局结果，这种假设处理即为反事实。

针对数据分析模型进行说明，数据分析模型对虚拟场景中基于虚拟对象的事实行动数据进行反事实推断，得到可能的结果包括对局结果和反事实对局结果。示例性地。参见图4，图4是本申请实施例提供的数据分析模型的结构示意图，数据分析模型包括生成器和判别器两部分，在数据分析模型的训练阶段，其中，通过生成器，基于样本行动数据x(即事实数据)，可归因事实参数t、以及标签生成预测对局结果并基于与事实数据相反的反事实数据上预测反事实对局结果/>其中，训练生成器的目标是尽量使得预测对局结果与样本行动数据携带的标签一致，当预测对局结果与标签一致(即预测对局结果越真)时，反事实对局结果也同样越准确。判别器的目标是根据样本行动数据，判别基于生成器的得到的两个结果中，哪一个是事实对局结果和哪一个是反事实对局结果，直至无法判别为止。

在一些实施例中，参见图5，图5是本申请实施例提供的样本行动数据的获取方式流程图，基于图3，步骤101可由步骤1011a-1013a实现，结合图5示出的步骤进行说明。

步骤1011a，服务器获取虚拟对象的初始行动数据，以及初始行动数据对应的初始对局结果。

在实际实施时，服务器从相应的存储空间(如数据库、)中读取虚拟对象在交互对局中的初始行动数据，初始行动数据是已经发生的事实数据，以及相应的初始对局结果，该初始对局结果是事实对局结果。

步骤1012a，基于虚拟对象的对象属性、以及交互对局的对局属性，对初始行动数据进行标准化处理，得到标准行动数据。

在实际实施时，为了从各种初始行动数据中提取适用于数据分析模型的样本行动数据，可以根据虚拟场景中虚拟对象的对象属性、以及交互对局的对局属性，对初始行动数据进行标准化处理，得到直接可以用于输入生成器的标准行动数据。其中对象属性包括对象静态特征、对象动态特征、所归属的对局方的标识；对局属性包括对局静态特征、对局动态特征；通过上述不同种类的特征拼接得到每个交互的对局的标准行动数据。

通过对局方的标识区分交互对局中的不同的对局方，标识可以采用one-hot向量，表征当前虚拟对象归属的对局方。对象静态特征：对局方中的每个虚拟对象都有自身的特点和基本属性，可以用这些属性为每个虚拟对象编码。每个虚拟对象采用15维编码表示，以多人竞技类游戏为例，涵盖了虚拟对象的身份、出场率、胜率、不同阶段强度、技能强度等信息。对象动态特征：每个对局方中每个虚拟对象在交互对局结束时的行动数据所构成的全局动态特征；以多人竞技游戏为例，英雄阵营、平均每分钟承伤、输出、金币等。对局静态特征：对局方所在对局级别的属性特征，该特征在交互对局开始时就已经是确定的，不会随着对局变化而变化，这包括阵营平均坦度、平均控制和平均伤害等。对局动态特征：队伍级别在交互对局中的特征，描述了至少两个对局方之间的强弱关系。以多人竞技类游戏为例，这些特征包括阵营存每分钟击杀、经济、野怪分、阵营防御塔数等信息。对上述五类特征进行拼接，得到每个虚拟对象对应的目标维度的向量，在实际应用中，服务器还可以对得到的标准行动数据使用最大值或最小值进行归一化，如此，能够减少计算资源的使用，提高计算效率。

步骤1013a，将标准行动数据作为样本行动数据，将初始对局结果作为样本行动数据的标签，构建携带标签的样本行动数据。

在实际实施时，服务器将得到的标准行动数据作为样本行动数据，并将初始对局结果作为样本行动数据的标签，构建携带标签的样本行动数据，用于训练数据分析模型。

在一些实施例中，参见图6，图6是本申请实施例提供的样本行动数据的获取方式的另一流程图，基于图3，步骤101可由步骤1011b-1012b实现。

步骤1011b，服务器获取交互对局的类型，类型包括以下至少之一：单对象对局类型、团战类型，单对象对局类型的交互对局包括至少两个子对局，团战类型的交互对局的每个对局方内包括多个虚拟对象。

在实际实施时，每个交互对局具有相应的类型，这里的类型可以包括单对象对局类型、团战类型等。

步骤1012b，基于交互对局的类型，确定样本行动数据对应的标准对决结果，并将标准对决结果作为样本行动数据的标签，构建携带标签的样本行动数据。

在实际实施时，服务器根据交互对局的类型，确定相应的标准对局结果，并将标准对决结果作为样本行动数据的标签，得到携带标签的样本行动数据。

示例性地例，存在竞技类的交互对局，该交互对局为单对象交互对局，每场交互对局包括多个子交互对局，虚拟对象在执行的目标操作，可以得到两个结果，一个是目标操作所归属的子交互对局的子对局结果，以及由于该目标操作，得到交互对局的对局结果。

在一些实施例中，参见图7，图7是本申请实施例提供的可归因事实参数的获取流程示意图，结合图7示出的步骤进行说明。

步骤201，服务器确定至少一个候选可归因事实参数，并获取候选可归因事实参数的金标准；

其中，金标准，为针对相应的候选可归因事实参数，对局结果的评估指标；候选可归因事实参数与金标准一一对应；

在实际实施时，每个领域进行反事实推理时，存在多个候选可归因事实参数，每个可归因事实参数的判断都有对应的金标准(或称参考标准)。不同的可归因事实参数对应不同的金标准。

示例性地，以多人竞技游戏为例，设定可归因事实参数“前期反野并且建立优势”对应的金标准：1)前2分钟之内，A方英雄到达B方红蓝buff附近。2)A方英雄拿下buff。3)两分钟时A方拿到的buff数量比B多。

步骤202，根据金标准，在样本行动数据中检测候选可归因事实参数，得到检测结果。

承接上例，在交互对局中，假设对局方A和对局方B进行对局，对局结果为对局方A为对局的获胜方，针对对局方A从对局开始到成为获胜方的过程中，对局方A执行的行动包括在在对局开始的2分钟之内，A方英雄到达B方红蓝buff附近，同时A方英雄拿下buff(游戏中的一种)，并在这两分钟时A方拿到的buff数量比B多。

步骤203，当检测结果表征样本行动数据中存在候选可归因事实参数时，将相应的候选可归因事实参数确定为可归因事实参数。

承接上例，对局方A中执行的实际行动符合可归因事实参数“前期反野成功”的金标准，因此，针对对局方A的实际行动以及产生的事实对局结果，可以得出，对局方A中存在可归因事实参数“前期反野成功”，也就是说，该可归因事实参数“前期反野成功”与对局结果“对局方A为获胜方”存在因果关系。

在步骤102中，通过生成器，基于样本行动数据，对虚拟对象进行对局结果预测，得到虚拟对象的预测对局结果。

在实际实施时，服务器通过生成器，对样本行动数据进行对局结果预测，得到样本行动数据对应的预测对局结果，根据样本行动数据携带的标签不断地修正得到的预测对局结果，使得预测对局结果逐渐接近标签。

示例性地，参见图8，图8是本申请实施例提供的生成器的模型结构示意图，生成器包括特征映射层Embedding、至少一层隐藏层Hidden、两层并列的线性层linear，将上述样本行动数据集合中的一条样本行动数据x，可归因事实参数t、以及标签y_f输入生成器G，经过生成器的处理得到预测对局结果是通过生成预测得到的对局结果。其中/>与t的关系，和y_f与t的关系之间的关系一致。

在一些实施例中，参见图9，图9是本申请实施例提供的预测对局结果的获取方式流程图，结合图9示出的步骤进行说明。

步骤1021，服务器通过生成器，对样本行动数据进行特征提取，得到虚拟对象的事实行动特征，事实行动特征，为虚拟对象在虚拟场景中实际执行的行动所对应的特征。

承接上例，服务器将样本行动数据x，可归因事实参数t、以及标签y_f输入生成器，通过特征映射层对样板行动数据x进行特征提取，得到虚拟对象的事实行动特征，其中，事实行动特征为虚拟对象实际执行的行动对应的特征，并得到可归因事实参数与事实行动特征之间的关系，即事实行动可看作是否存在可归因事实参数的行动，当存在符合可归因事实参数的相关行动时，设置t＝1，即当前的对局结果受到可归因事实参数的影响，当不存在与可归因事实参数的相关行动时，设置t＝0，并说明当前的对局结果未受到可归因事实参数的影响。

步骤1022，基于事实行动特征，对虚拟对象进行对局结果预测，得到虚拟对象的预测对局结果。

承接上例，通过数据分析模型中的隐藏层以及线性层，以及事实行动特征与对局结果之间的映射关系，确定与事实行动特征对应的权重，得到相应的预测对局结果。其中，预测对局结果与可归因事实参数之间的第一关系，标签(即事实的对局结果)与可归因事实参数的之间的第二关系，两者保持一致。

在步骤103中，获取样本行动数据中可归因事实参数对应的参考行动数据，并确定与参考行动数据相反的目标行动数据。

承接上例，设定与样本行动数据集合中的每条样本行动数据在可归因事实参数上取反得到反事实行动数据集合/> 并从反事实行动数据集合中选取当前样本行动数据对应的目标行动数据。

在步骤104中，通过生成器，基于目标行动数据，对虚拟对象的对局结果进行反事实预测，得到虚拟对象的反事实对局结果。

承接上例，对得到的目标行动数据进行反事实预测，得到相应的反事实对局结果

在步骤105中，通过判别器，基于标签，分别对预测对局结果及反事实对局结果的真实性进行预测，得到预测结果。

在实际实施时，将生成器输出的预测对局结果以及反事实对局结果，以及样本行动数据，输入判别器，由判别器判断事实对局结果以及反事实对局结果。

示例性地，参见图10，图10是本申请实施例提供的数据分析模型的判别器结果示意图，图中判别器包括特征映射层Embedding、至少一层隐藏层Hidd en层、以及输出层。判别器记作D_G，判别器的输入为样本行动数据中的行动数据、生成器输出的预测对局结果以及反事实对局结果/>其中，/>以及/>组成二维向量，可记作/>判别器的作用为鉴别器鉴别出哪个是对局结果，哪个是由生成器生成的反事实结果。

在一些实施例中，参见图11，图11是本申请实施例提供的判别器处理流程示意图，结合图11示出的步骤进行说明。

步骤1051，服务器基于预测对局结果、反事实对局结果及可归因事实参数，生成第一潜在结果及第二潜在结果，其中，第一潜在结果与可归因事实参数不存在因果关系，所述第二潜在结果与可归因事实参数存在因果关系。

在实际实施时，服务器将经过生成器得到的样本行动数据、预测对局结果、反事实预测对局结果输入判别器，判别预测对局结果、以及反事实预测对局结果的真实性，服务器获取输入判别器的数据格式{样本行动数据、第一潜在结果、第二潜在结果}，其中，第一潜在结果与可归因参数不存在因果关系，第二潜在结果与可归因参数存在因果关系。

示例性地，获取样本行动数据x、预测对局结果以及反事实对局结果/>设定第一潜在结果/>以及第二潜在结果/> 当可归因事实参数t＝0时，/>为事实对局结果(可观察的对局结果)，/>为反事实对局结果(不可观察的对局结果)；当可归因事实参数t＝1时，/>为反事实对局结果，/>为事实对局结果。

步骤1052a，通过判别器，基于行动数据，将预测对局结果作为第一潜在结果，并将反事实对局结果作为第二潜在结果，对预测对局结果以及反事实对局结果的真实性进行预测，得到预测结果。

在实际实施时，服务器将第一潜在结果以及第二潜在结果输入判别器，判别哪一个是事实对局结果，哪一个是反事实对局结果，以及事实对局结果与可归因事实参数是否存在因果关系，需要说明的是，将预测对局结果作为第一潜在结果时，若判别器判别的第一潜在结果为事实对局结果，且第一潜在结果与可归因事实参数存在因果关系，那么第二潜在结果为反事实结果，且第二潜在结果与可归因事实不存在因果关系。也就是说，基于样本行动数据、第一潜在结果、第二潜在结果构建组合行动数据，判别器对组合行动数据进行相对于可归因事实参数的因果关系预测，并得到相应的预测因果关系。

步骤1052b，基于行动数据，将反事实对局结果作为第一潜在结果，并将预测对局结果作为第二潜在结果，对预测对局结果以及反事实对局结果的真实性进行预测，得到预测结果。

在实际实施时，将反事实对局结果作为第一潜在结果时，若判别器判别的第一潜在结果为事实对局结果，且第一潜在结果与可归因事实参数存在因果关系，那么第二潜在结果为反事实结果，且第二潜在结果与可归因事实不存在因果关系。也就是说，基于样本行动数据、第一潜在结果、第二潜在结果构建组合行动数据，判别器对组合行动数据进行相对于可归因事实参数的因果关系预测，并得到相应的预测因果关系。

在步骤106中，基于预测结果，确定数据分析模型的损失函数的值，并基于损失函数的值，更新数据分析模型的模型参数。

在实际实施时，预测结果包括针对预测对局结果的第一真实性预测结果、及针对反事实对局结果的第二真实性预测结果。

在一些实施例中，参见图12，图12是本申请实施例提供的损失函数获取方式示意图，结合图12示出的步骤进行说明。

步骤1061，服务器获取数据分析模型的损失函数包括的第一损失函数以及第二损失函数。

在实际实施时，在数据分析模型的训练过程中，生成器不仅输出了反事实对局结果，同时还为输入的样本行动数据(事实数据)提供了一个近似值即预测对局结果，因此，存在一个用于确定预测对局结果与标签y_f(事实对局结果)之间的损失的第一损失函数第一损失函数是交叉熵函数，形式如下：/>其中，y_f为样本行动数据的标签，即事实的对局结果，/>为生成器生成的预测对局结果，判别器判断生成器输出的多个结果中的事实对局结果以及反事实对局结果，因此，存在一个用于确定生成器G和鉴别器D_G之间的对抗损失的第二损失函数V(x,t,y)，第二损失函数的具体定下如下：

V(x,t,y)＝tlog(D_G(x,y))+(1-t)log(1-D_G(x,y))

其中，t为可归因事实参数。

步骤1062，结合第一真实性预测结果以及第一损失函数，确定样本行动数据的事实损失。

在实际实施时，根据第一真实性预测结果与上述第一损失函数，确定样本行动数据的事实损失

步骤1063，结合第一真实性预测结果、第二真实性预测结果以及第二损失函数，确定样本行动数据的对抗损失。

在实际实施时，获取第一真实性预测结果D_G(x,y)，以及第二真实性预测结果1-D_G(x,y)，以及第二损失函数V(x,t,y)，得到样本行动数据的对抗损失tlog(D_G(x,y))+(1-t)log(1-D_G(x,y))。

步骤1064，对事实损失以及对抗损失进行加权求和，得到数据分析模型的损失函数的值。

在实际实施时，分别获取事实损失和对抗损失的权重，并基于各自的权重对事实损失和对抗损失进行加权求和，得到数据分析模型的损失函数的值。即

针对样本行动数据集合中的样本行动数据迭代执行上述针对数据分析模型的训练方法，直至训练过程满足收敛条件(样本行动数据集合中样本行动数据使用完成、或数据分析模型的损失最小)，得到训练完成的数据分析模型。在实际实施时，服务器可以使用训练完成的数据分析模型，对虚拟对象在虚拟场景中实时产生的行动数据进行分析，得到与可归因事实参数相关的潜在结果。

在一些实施例中，参见图13，图13是本申请实施例提供的基于数据分析模型的数据分析方法流程，结合图13示出的步骤进行说明。

步骤301，服务器获取待分析行动数据及目标可归因事实参数，待分析行动数据，为虚拟对象在虚拟场景的交互对局中的行动数据。

在实际实施时，服务器上存储有多个数据分析模型，数据分析模型与可归因事实参数存在一一对应的关系，即一个数据分析模型可以针对相应的可归因事实参数进行反事实推断，得到相应的潜在结果。服务器接收到虚拟对象在虚拟场景中的行动数据作为待分析的行动数据，以及该待分析的行动数据中对应的目标可归因事实参数，从而基于数据分析模型，确定与目标可归因事实参数的值相反的反事实对局结果。

步骤302，获取待分析行动数据中目标可归因事实参数对应的行动数据，并确定与目标可归因事实参数对应的行动数据相反的目标行动数据。

在实际实施时，获取待分析行动数据中目标可归因事实参数对应的行动数据，并确定与目标可归因事实参数对应的行动数据相反的目标行动数据。

步骤303，通过数据分析模型的生成器，基于目标行动数据，对虚拟对象的对局结果进行反事实预测，得到虚拟对象的反事实对局结果。

在实际实施时，通过数据分析模型的生成器，基于目标行动数据，对虚拟对象的对局结果进行反事实预测，得到虚拟对象的反事实对局结果。

应用本申请上述实施例，通过数据分析模型的生成器，基于可归因事实参数，得到携带标签的样本行动数据对应的预测对局结果和反事实对局结果，然后再通过数据分析模型的判别器，分别对预测对局结果和反事实对局结果的真实性进行预测，得到预测结果，从而基于预测结果对数据分析模型的模型参数进行更新。如此，结合预测对局结果以及反事实对局结果，对数据分析模型进行训练，通过生成器进行对局结果的预测的同时，基于可归因事实参数，生成反事实对局结果，得到与可归因事实参数对应的多个对局结果，从而实现针对样本行动数据的反事实推断，进而实现高质量高效率的数据分析，提高了数据分析模型的分析结果的准确性。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

如今在线战术竞技游戏(MOBA，Multip layer Online Battle Arena)赛事已经成为了亚运会等体育竞技比赛中的正规项目，而各游戏的直播、线下比赛等活动也为社会创造了巨额的经济财富，极大地丰富了人们的生活。在这样的时代背景之下，为了让用户能够有更快的游戏理解和技术提升，希望能够基于算法将可能产生不同结果的操作或策略告知玩家，从而提升用户在游戏内的时长、留存等；同时，将其嵌入在人工智能游戏解说系统中，可以生成一些玩家无法通过观察得到的赛事复盘结果，极大的吸引了玩家的兴趣。这类问题通常会放在因果推断的框架下进行讨论。。因果推断它主要解决的问题是反事实推断，相当于对结果来考虑原因，如果希望Y变化，那么需要对X做出什么样的改变。通常将改变称为干预T(treatment)(即前文中的可归因事实参数)，干预T带来的结果Y称为TE(treatmenteffect)。然而，相关技术中，因果建模方式之一是使用基础的机器学习模型去预估不同treatment的条件平均干预效果(CAT E，Conditional Average Treatment Effect)或平均干预效果(ATE，Average Tr eatment Effect)。因果推断理论可应用在医疗诊断领域，来探究药物对病人疗效的作用；工业界有人运用因果推断框架来促进营销、广告推荐等。基于机器学习的因果推断框架大多只能计算CATE或ATE，而对于MOBA类游戏来说，需要探究的是某一个玩家的具体表现，即预估每个玩家的潜在结果(Potential Ou tcome)和个体干预效果(ITE，Individual Treatment)。实际上，只能得到TE的观察结果(Observed outcome)，而反事实结果(Counterfactual outcome)是观察不到的，这是个体效应估计面临的一个重大挑战。例如，玩家只能知道因为操作失误导致输掉比赛，而不可能知道若没有这次的失误能否能赢下比赛。

基于此，本申请实施例提供一种数据分析模型的训练方法，该方法是针对MOBA类游戏进行反事实推断复盘的机器学习方法。将MOBA类游戏和人工智能相结合，通过使用生成网络和回归网络的反事实推断方法生成无法观察到的反事实结果(Counterfactualoutcome)。从而能够给出多人竞技类游戏在同一局比赛中不同操作可能带来的结果。主要实现方式是提出了一个运用生成对抗网络(GAN)框架计算MOBA游戏中ITE的因果推断方法，即生成对抗网络用于计算潜在结果(GANOP，Generative Adversarial Net for PotentialOutco me)。该方法试图使用反事实模块(counterfactual block)(即前文中的数据分析模型)来生成模拟的反事实结果(即前文中的反事实对局结果)，之后将这些结果传递给推理网络模块(Inference nets block)来训练模型。针对MOBA类游戏的特点，可以对以局为单位或以团为单位的游戏数据进行建模，探索某一局或某个团施加一种或多种treatment导致结果的变化。例如，针对《王×荣×》这款MOBA类游戏，可以将treatment设为“前期反野成功并且建立优势”，结果Y为比赛的输赢；还可以在每个大型团战中探索团战结果和“射手是否被击杀”的因果关系。本申请实施例提供的针对MOBA类游戏反事实推断复盘的机器学习方法在赛后战报、赛事复盘和虚拟主播话术生成等方面都有着广阔的应用前景和巨大的经济价值。

接下来，从产品侧对本申请实施例提供的数据分析训练模型的训练方法进行说明。

本申请实施例提供的功能是为MOBA类游戏提供各种反事实推断复盘。在MOBA类游戏的可应用范围十分广泛，可以对任何对局级别、团战级别或BP阶段进行反事实推断。针对对局级别的“游戏输赢和前期反野并且建立优势的因果关系”和团战级别的“改变射手团中射手被切死的事实对团战胜负的影响”两个因果推断任务的建模所得到数据分析模型，可以用在游戏赛后战报生成中，起到“后悔药”的作用，例如“如果BP阶段蓝方擅长的镜没被ban掉，结果可能大不一样”、“如果蓝方没有被对方前排先手开团，蓝方可能就赢了”等等；也可以用在人工智能游戏解说中，在暂时没有重要话术时对上一波团战做一个短暂的团总结，“上一波团蓝方可惜了，如果射手不死，可能就赢了”等等。参见图14，图14是本申请实施例提供的智能解说中的真实情景的解说示意图。

图14示出的为智能游戏解说系统的真实场景，编号1示出的两张图表示“在一波团战中，蓝方射手被对方法师击杀，导致这波团战打了个0换2，蓝方输掉团战”，通过本申请实施例提供的数据分析模型可以生成“若蓝方射手没有被击杀，那么这波团的结果”这件反事实，这时可以在团战结束追加话术“若射手没死亡，结局不会这样的”。编号2示出的两张图表示“在一局对局中，蓝方法师拿了对方一血，蓝方滚雪球获得优势，最终红方输掉了比赛”，通过模型可以生成“蓝方没有被拿到一血”的反事实结果，因此在对局结束做赛事复盘时可以说“倘若红方没有被那一血，结局可能不会这样”。

需要说明的是，将因果推断运用到MOBA类游戏中是人工智能和游戏相结合的一次大胆尝试，游戏应用只是部分应用场景，其在自动化预训练、个性化干预效果选择等方面都有广阔的空间。

接下来，从技术侧对本申请实施例提供的数据分析模型的模型训练和模型推理的过程进行说明。

本申请实施例所提出的基于对抗生成网络的反事实推断复盘框架可应用于游戏的各种场景，只要给出一种干预treatment和需要归因的可能结果，都可以通过该框架进行建模，进而模拟出反事实结果。以MOBA类游戏中，游戏输赢和前期反野并且建立优势的因果关系为例进行详细说明。

首先，针对数据分析模型进行说明，在MOBA类游戏中，训练数据集可以通过每局游戏的实时数据构建，其中，游戏数据所包括特征可分为五大类，分别是“队伍编码”，“英雄静态特征”，“英雄全局动态特征”，“全局静态特征”，“全局动态特征”。这五个特征类拼接组成了每局对局的特征数据集，可以作为模型的训练数据输入网络。GANPO网络结构包含一个生成对抗网络模块和一个回归网络模块，分别是反事实模块(counterfactual block)和推理网络模块(Inference nets block)，其目标是为给定的特征向量x(前文中的样本行动数据)生成潜在结果Y。即可由推理网络模块计算出“前期是否反野并取得优势”的潜在结果。

示例性的，参见图15，图15是本申请实施例提供的数据分析模型的模型架构示意图，也是“生成对抗网络用于计算潜在结果”(GANPO，Generative Adversarial Net forPotential Outcome)模型架构。图中编号1示出的是对抗生成网络结构的反事实模块，其中，反事实生成器(即前文中的生成器)的输入信息包括：游戏数据(即前文中的行动数据)x，干预t(即前文中的可归因事实参数)，观察结果y_f(即前文中的对局结果)和一些随机干扰z_G，可以生成干预的观察结果和反事实结果/>通过生成器的特征映射层Embedding(用于特征提取)、隐藏层(hidden)1，……、隐藏层n，以及两个并行的线性层line ar的处理，输出由预测的观察结果/>(前文中的预测对局结果)和生成的反事实结果/>(前文中的反事实对局结果)构成的二维向量，并将该二维向量以及游戏数据x作为反事实鉴别器(即前文中的判别器)的输入，经过判别器所包括特征映射层Embedding、隐藏层(hidden)1，……、隐藏层n的处理，输出out，out∈{0，1}，out表示/>的干预t是否施加。即区分了哪个是实事结果，哪个是反事实结果，并且能区分哪个是施加干预的结果。图中编号2示出的是推理网络模块，输入为游戏数据x以及一些随机干扰z_G，输出潜在结果，需要说明的是，推理过程与生成器生成过程类似。

需要说明的是，GANPO模型具有以下优点：干预的多样性，由于GANP O模型不仅可以适用于二元干预，还可以用在多维干预上。在多维干预情况下，只需要改变模型的损失函数及相应的干预训练层数即可；应用场景的多样性：使用GAN生成反事实的结果理论上可以扩展到任意数据集。它并不依赖数据集的特性，这使得该方法很容易迁移到任何问题上。例如在团战为单位的场景中，可以判断“射手是否在团战开始死亡”这个Treatment对团战胜负的因果关系。

其次，针对训练数据的数据构建过程进行说明，其中，数据构建包括三部分：训练数据、Treatment、干预结果Y。

对于训练数据，将游戏数据特征分成了五大类：(1)队伍编码：训练数据中包括红蓝两阵营是否分别反野并取得优势，因此需要队伍进行编码来区分不同的队伍。队伍编码为one-hot向量，代表当前特征所表示的英雄。(2)英雄静态特征：每个英雄都有自身的特点和基本属性，可以用这些属性为每个英雄编码，这解决了新增英雄时特征维度变化的问题。每个英雄用15维编码表示，涵盖了英雄身份、出场率、胜率、不同阶段强度、技能强度等信息。(3)英雄全局动态特征：每个阵营由5个英雄构成，每个英雄在比赛结束时的游戏信息构成了全局特征，总共8维，包括英雄阵营、平均每分钟承伤、输出、金币等。(4)全局静态特征：队伍级别的属性特征，该特征在开局就已经是确定的，不会随着对局变化而变化，这包括阵营平均坦度、平均控制和平均伤害等。(5)全局动态特征：队伍级别的游戏特征，描述了两队伍之间的强弱关系。这些特征包括阵营存每分钟击杀、经济、野怪分、阵营防御塔数、龙等信息，总共构成了15维向量。将这五类特征进行拼接，最终每个英雄得到了253维向量。这些特征在输入网络前会使用最大最小值进行归一化。

再次，针对干预Treatment的获取进行说明，对于Treatment，会根据不同的可归因事实进行提取。不同的可归因事实定义了不同的金标准。例如对于“前期反野并且建立优势”这个可归隐事实，可以定义以下金标准：1)前2min之内，A方英雄到达B方红蓝buff附近。2)A方英雄拿下buff。3)两分钟时A方拿到的buff数量比B多。满足以上条件即视为存在Treatment，否则无Treat ment。

针对训练数据对应的干预结果Y进行说明，对于干预结果Y，可根据需要反事实的单位进行选取，例如对局级别可定义为游戏胜负；团战级别可定义为团战胜负。

由于相关的因果推断方法大多是通过消除混杂因子带来的选择偏差，来估计群体的干预效果；相比之下，ITE更侧重于个体效应。由于缺乏反事实的结果，无法直接了解潜在结果的分布，这使得大多传统的基于大量观测数据统计的方法无法估计个体干预效果。然而，GANPO模型不但可以将生成器生成的观察结果拟合到观察到的结果，还试图生成反事实结果。更具体地说，当给定观察结果时，GANPO的反事实生成器(CounterfactualGenerator)试图生成反事实结果，并和观察结果构成组合向量，使得反事实鉴别器(Counterfactual Discriminator)无法鉴别出哪个是观察结果，哪个是反事实结果。当有了观察结果和反事实结果，就可以通过有监督的方式推断个体的潜在结果。

对于反事实生成器G进行说明，参见图15所示，反事实生成器G使用特征x，干预t，观察结果y_f和一些随机干扰z_G，可以生成干预的模拟结果和反事实结果/>再根据是否施加干预将/>替换成y_f，记为/>

针对反事实鉴别器D_G进行说明，参见图15所示，给定输入x和反事实生成器的输出y，需要鉴别器鉴别出哪个是观察结果，哪个是由生成器生成的反事实结果。

针对推理网络模块I进行说明，参见图15所示，推理网络模块的输入仅为特征向量x和一些随即干扰z_G，在训练阶段通过反事实模块的输出指导数据的生成过程，使其尽可能拟合真实结果y_f和反事实结果

针对上述GANPO的训练过程进行说明，在反事实模块中，生成器G和鉴别器D_G的极大极小损失函数V可以定义为：

V(x,t,y)＝tlog(D_G(x,y))+(1-t)log(1-D_G(x,y))

其中t为施加的干预。

由于G的输出不仅提供了反事实，也为输入的事实提供了一个近似值，因此还引入了监督损失L，目的是使得生成器G的输出逼近真是结果y_f:

利用上述两个目标函数，G和D_G的k批量迭代优化方案如下：

/>

在推理网络模块，我们引入了监督损失，定义为：

其中是推理网络模块I的输出，这里y和/>均可以是多维干预。

应用本申请上述实施例，将MOBA类游戏和人工智能相结合，通过基于机器学习的反事实推断复盘的方法可以生成无法观察到的反事实结果。从而能够给出MOBA类游戏在同一局比赛中不同操作可能带来的结果。同时能够基于反事实推断算法将可能产生不同结果的操作或策略告知玩家，从而提升用户在游戏内的时长、留存等；同时，该方法适用于与对局级别或团战级别相关的场景的反事实推断中，且生成的反事实结果可以用于赛后战报分析、玩家提升点的挖掘、甚至人工智能解说系统丰富的解说话术生成等方面，由于可以生成一些无法通过观察得到的赛事复盘结果，极大的吸引了玩家的兴趣。

下面继续说明本申请实施例提供的数据分析模型的训练装置555的实施为软件模块的示例性结构，在一些实施例中，如图3所示，存储在存储器550的数据分析模型的训练装置555中的软件模块可以包括：

获取模块5551，用于获取携带标签的样本行动数据，并获取可归因事实参数；其中，所述样本行动数据包括，虚拟对象在虚拟场景的交互对局中的行动数据；所述标签，为所述交互对局的对局结果；所述可归因事实参数，为能够影响所述虚拟对象在所述交互对局中对局结果的参数；

预测模块5552，用于通过所述生成器，基于所述样本行动数据，对所述虚拟对象进行对局结果预测，得到所述虚拟对象的预测对局结果；

确定模块5553，用于获取所述样本行动数据中所述可归因事实参数对应的参考行动数据，并确定与所述参考行动数据相反的目标行动数据；

生成模块5554，用于通过所述生成器，基于所述目标行动数据，对所述虚拟对象的对局结果进行反事实预测，得到所述虚拟对象的反事实对局结果；

判别模块5555，用于通过所述判别器，基于所述标签，分别对所述预测对局结果及所述反事实对局结果的真实性进行预测，得到预测结果；

更新模块5556，用于基于所述预测结果，确定所述数据分析模型的损失函数的值，并基于所述损失函数的值，更新所述数据分析模型的模型参数。

在一些实施例中，所述获取模块，还用于获取所述虚拟对象的初始行动数据，以及所述初始行动数据对应的初始对局结果；基于所述虚拟对象的对象属性、以及所述交互对局的对局属性，对所述初始行动数据进行标准化处理，得到标准行动数据；将所述标准行动数据作为所述样本行动数据，将所述初始对局结果作为所述样本行动数据的标签，构建携带所述标签的样本行动数据。

在一些实施例中，所述获取模块，还用于获取所述交互对局的类型，所述类型包括以下至少之一：单对象对局类型、团战类型，所述单对象对局类型的交互对局包括至少两个子对局，所述团战类型的交互对局的每个对局方内包括多个虚拟对象；基于所述交互对局的类型，确定所述样本行动数据对应的标准对决结果，并将所述标准对决结果作为所述样本行动数据的标签，构建携带所述标签的样本行动数据。

在一些实施例中，所述获取模块，还用于确定至少一个候选可归因事实参数，并获取所述候选可归因事实参数的金标准；其中，所述金标准，为针对相应的候选可归因事实参数，所述对局结果的评估指标；所述候选可归因事实参数与所述金标准一一对应；根据所述金标准，在所述样本行动数据中检测所述候选可归因事实参数，得到检测结果；当所述检测结果表征所述样本行动数据中存在所述候选可归因事实参数时，将相应的所述候选可归因事实参数确定为所述可归因事实参数。

在一些实施例中，所述预测模块，还用于通过所述生成器，对所述样本行动数据进行特征提取，得到所述虚拟对象的事实行动特征，所述事实行动特征，为所述虚拟对象在所述虚拟场景中实际执行的行动所对应的特征；基于所述事实行动特征，对所述虚拟对象进行对局结果预测，得到所述虚拟对象的预测对局结果。

在一些实施例中，所述生成模块，还用于获取随机干扰，并将所述随机干扰加入所述目标行动数据；对干扰后的所述目标行动数据进行特征提取，得到所述目标行动数据对应的反事实行动特征；基于所述反事实特征，对所述虚拟对象的对局结果进行反事实结果预测，得到所述虚拟对象的反事实对局结果。

在一些实施例中，所述判别模块，还用于基于所述预测对局结果、所述反事实对局结果及所述可归因事实参数，生成第一潜在结果及第二潜在结果，其中，所述第一潜在结果与所述可归因事实参数不存在因果关系，所述第二潜在结果与所述可归因事实参数存在因果关系；通过所述判别器，基于所述行动数据，将所述预测对局结果作为所述第一潜在结果，并将所述反事实对局结果作为第二潜在结果，对所述预测对局结果以及所述反事实对局结果的真实性进行预测，得到预测结果；或者，基于所述行动数据，将所述反事实对局结果作为所述第一潜在结果，并将所述预测对局结果作为第二潜在结果，对所述预测对局结果以及所述反事实对局结果的真实性进行预测，得到预测结果。

在一些实施例中，所述判别模块，还用于基于所述行动数据以及所述第一潜在结果，构建第一检测数据，并基于所述可归因事实参数，对所述第一检测数据进行因果关系预测，得到关系预测结果，所述关系预测结果，用于表征所述第一潜在结果与所述可归因事实参数之间的预测因果关系；获取所述可归因事实参数与所述对局结果的初始因果关系；基于所述初始因果关系以及所述预测因果关系，确定用于指示所述第一潜在结果的真实性的第一真实性预测结果，以及用于指示所述第二潜在结果的真实性的第二真实性预测结果；其中，所述第一真实性预测结果与所述第二真实性预测结果之间存在互斥关系。

在一些实施例中，所述判别模块，还用于当所述初始因果关系以及所述预测因果关系相反时，对所述预测因果关系取反，得到目标因果关系；基于所述目标因果关系，确定用于指示所述第一潜在结果的真实性的第一真实性预测结果，以及用于指示所述第二潜在结果的真实性的第二真实性预测结果。

在一些实施例中，所述预测结果包括针对所述预测对局结果的第一真实性预测结果、及针对所述反事实对局结果的第二真实性预测结果，所述更新模块，还用于获取数据分析模型的损失函数包括的第一损失函数以及第二损失函数；结合所述第一真实性预测结果以及所述第一损失函数，确定所述样本行动数据的事实损失；结合所述第一真实性预测结果、所述第二真实性预测结果以及所述第二损失函数，确定所述样本行动数据的对抗损失；对所述事实损失以及所述对抗损失进行加权求和，得到所述数据分析模型的损失函数的值。

在一些实施例中，所述数据分析模型还包括分析模块，所述分析模块，用于获取待分析行动数据及目标可归因事实参数，所述待分析行动数据，为所述虚拟对象在虚拟场景的交互对局中的行动数据；获取所述待分析行动数据中目标可归因事实参数对应的行动数据，并确定与所述目标可归因事实参数对应的行动数据相反的目标行动数据；通过所述数据分析模型的生成器，基于所述目标行动数据，对所述虚拟对象的对局结果进行反事实预测，得到所述虚拟对象的反事实对局结果。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行本申请实施例上述的数据分析模型的训练方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的数据分析模型的训练方法，例如，如图3示出的数据分析模型的训练方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行。

综上所述，通过本申请实施例具有以下有益效果：通过数据分析模型的生成器，基于可归因事实参数，得到携带标签的样本行动数据对应的预测对局结果和反事实对局结果，然后再通过数据分析模型的判别器，分别对预测对局结果和反事实对局结果的真实性进行预测，得到预测结果，从而基于预测结果对数据分析模型的模型参数进行更新。如此，结合预测对局结果以及反事实对局结果，对数据分析模型进行训练，通过生成器进行对局结果的预测的同时，基于可归因事实参数，生成反事实对局结果，得到与可归因事实参数对应的多个对局结果，从而实现针对样本行动数据的反事实推断，进而实现高质量高效率的数据分析，提高了数据分析模型的分析结果的准确性。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种数据分析模型的训练方法，其特征在于，所述数据分析模型至少包括生成器、判别器，所述方法包括：

获取携带标签的样本行动数据，并获取可归因事实参数；

2.如权利要求1所述的方法，其特征在于，所述获取携带标签的样本行动数据，包括：

获取所述虚拟对象的初始行动数据，以及所述初始行动数据对应的初始对局结果；

基于所述虚拟对象的对象属性、以及所述交互对局的对局属性，对所述初始行动数据进行标准化处理，得到标准行动数据；

将所述标准行动数据作为所述样本行动数据，将所述初始对局结果作为所述样本行动数据的标签，构建携带所述标签的样本行动数据。

3.如权利要求1所述的方法，其特征在于，所述获取携带标签的样本行动数据，包括：

获取所述交互对局的类型，所述类型包括以下至少之一：单对象对局类型、团战类型，所述单对象对局类型的交互对局包括至少两个子对局，所述团战类型的交互对局的每个对局方内包括多个虚拟对象；

基于所述交互对局的类型，确定所述样本行动数据对应的标准对决结果，并将所述标准对决结果作为所述样本行动数据的标签，构建携带所述标签的样本行动数据。

4.如权利要求1所述的方法，其特征在于，所述获取可归因事实参数，包括：

确定至少一个候选可归因事实参数，并获取所述候选可归因事实参数的金标准；

其中，所述金标准，为针对相应的候选可归因事实参数，所述对局结果的评估指标；所述候选可归因事实参数与所述金标准一一对应；

根据所述金标准，在所述样本行动数据中检测所述候选可归因事实参数，得到检测结果；

当所述检测结果表征所述样本行动数据中存在所述候选可归因事实参数时，将相应的所述候选可归因事实参数确定为所述可归因事实参数。

5.如权利要求1所述的方法，其特征在于，所述通过所述生成器，基于所述样本行动数据，对所述虚拟对象进行对局结果预测，得到所述虚拟对象的预测对局结果，包括：

通过所述生成器，对所述样本行动数据进行特征提取，得到所述虚拟对象的事实行动特征，所述事实行动特征，为所述虚拟对象在所述虚拟场景中实际执行的行动所对应的特征；

基于所述事实行动特征，对所述虚拟对象进行对局结果预测，得到所述虚拟对象的预测对局结果。

6.如权利要求1所述的方法，其特征在于，所述通过所述生成器，基于所述目标行动数据，对所述虚拟对象的对局结果进行反事实预测，得到所述虚拟对象的反事实对局结果，包括：

获取随机干扰，并将所述随机干扰加入所述目标行动数据；

对干扰后的所述目标行动数据进行特征提取，得到所述目标行动数据对应的反事实行动特征；

基于所述反事实特征，对所述虚拟对象的对局结果进行反事实结果预测，得到所述虚拟对象的反事实对局结果。

7.如权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述预测对局结果、所述反事实对局结果及所述可归因事实参数，生成第一潜在结果及第二潜在结果，其中，所述第一潜在结果与所述可归因事实参数不存在因果关系，所述第二潜在结果与所述可归因事实参数存在因果关系；

所述通过所述判别器，基于所述标签，分别对所述预测对局结果及所述反事实对局结果的真实性进行预测，得到预测结果，包括：

通过所述判别器，基于所述行动数据，将所述预测对局结果作为所述第一潜在结果，并将所述反事实对局结果作为所述第二潜在结果，对所述预测对局结果以及所述反事实对局结果的真实性进行预测，得到预测结果；或者，

基于所述行动数据，将所述反事实对局结果作为所述第一潜在结果，并将所述预测对局结果作为所述第二潜在结果，对所述预测对局结果以及所述反事实对局结果的真实性进行预测，得到预测结果。

8.如权利要求7所述的方法，其特征在于，所述通过所述判别器，基于所述行动数据，将所述预测对局结果作为所述第一潜在结果，并将所述反事实对局结果作为所述第二潜在结果，对所述预测对局结果以及所述反事实对局结果的真实性进行预测，得到预测结果，包括：

基于所述行动数据以及所述第一潜在结果，构建第一检测数据，并基于所述可归因事实参数，对所述第一检测数据进行因果关系预测，得到关系预测结果，所述关系预测结果，用于表征所述第一潜在结果与所述可归因事实参数之间的预测因果关系；

获取所述可归因事实参数与所述对局结果的初始因果关系；

基于所述初始因果关系以及所述预测因果关系，确定用于指示所述第一潜在结果的真实性的第一真实性预测结果，以及用于指示所述第二潜在结果的真实性的第二真实性预测结果；

其中，所述第一真实性预测结果与所述第二真实性预测结果之间存在互斥关系。

9.如权利要求8所述的方法，其特征在于，所述基于所述初始因果关系以及所述预测因果关系，确定用于指示所述第一潜在结果的真实性的第一真实性预测结果，以及用于指示所述第二潜在结果的真实性的第二真实性预测结果，包括：

当所述初始因果关系以及所述预测因果关系相反时，对所述预测因果关系取反，得到目标因果关系；

基于所述目标因果关系，确定用于指示所述第一潜在结果的真实性的第一真实性预测结果，以及用于指示所述第二潜在结果的真实性的第二真实性预测结果。

10.如权利要求1所述的方法，其特征在于，所述预测结果包括针对所述预测对局结果的第一真实性预测结果、及针对所述反事实对局结果的第二真实性预测结果，所述基于所述预测结果，确定所述数据分析模型的损失函数的值，包括：

获取数据分析模型的损失函数包括的第一损失函数以及第二损失函数；

结合所述第一真实性预测结果以及所述第一损失函数，确定所述样本行动数据的事实损失；

结合所述第一真实性预测结果、所述第二真实性预测结果以及所述第二损失函数，确定所述样本行动数据的对抗损失；

对所述事实损失以及所述对抗损失进行加权求和，得到所述数据分析模型的损失函数的值。

11.如权利要求1所述的方法，其特征在于，所述基于所述损失函数的值，更新所述数据分析模型的模型参数之后，所述方法还包括：

获取待分析行动数据及目标可归因事实参数，所述待分析行动数据，为所述虚拟对象在虚拟场景的交互对局中的行动数据；

获取所述待分析行动数据中目标可归因事实参数对应的行动数据，并确定与所述目标可归因事实参数对应的行动数据相反的目标行动数据；

通过所述数据分析模型的生成器，基于所述目标行动数据，对所述虚拟对象的对局结果进行反事实预测，得到所述虚拟对象的反事实对局结果。

12.一种数据分析模型的训练方装置，其特征在于，所述装置包括：

13.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至11任一项所述的数据分析模型的训练方法。

14.一种计算机可读存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令被处理器执行时，实现权利要求1至11任一项所述的数据分析模型的训练方法。

15.一种计算机程序产品，包括计算机程序或计算机可执行指令，其特征在于，所述计算机程序或计算机可执行指令被处理器执行时，实现权利要求1至11任一项所述的数据分析模型的训练方法。