CN111738294B

CN111738294B - Ai模型的训练方法、使用方法、计算机设备及存储介质

Info

Publication number: CN111738294B
Application number: CN202010437585.9A
Authority: CN
Inventors: 武建芳; 周正; 李宏亮; 刘永升
Original assignee: Shenzhen Haipu Parameter Technology Co ltd
Current assignee: Shenzhen Haipu Parameter Technology Co ltd
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2024-05-14
Anticipated expiration: 2040-05-21
Also published as: CN111738294A

Abstract

本申请提供一种AI模型的训练方法、使用方法、计算机设备及存储介质，该方法包括：获取参与交互任务的用户的交互参与数据；从所述交互参与数据内提取出样本数据，其中，所述样本数据包括类图像特征、向量特征以及标注的动作标签和角色标签；根据所述类图像特征、向量特征以及标注的动作标签和角色标签对预设神经网络进行迭代训练，直至所述预设神经网络的训练次数达到预设阈值，得到AI模型。该训练方法可以减少AI模型的在线演算时间，并提高AI模型的准确率。

Description

AI模型的训练方法、使用方法、计算机设备及存储介质

技术领域

本申请涉及人工智能的技术领域，尤其涉及一种AI模型的训练方法、使用方法、计算机设备及存储介质。

背景技术

随着人工智能(Artificial Intelligence，AI)技术的快速发展，人工智能技术被广泛的应用于各个领域，比如目前已将人工智能技术应用于双陆棋、国际跳棋、国际象棋、围棋等博弈类的应用程序中，并且达到超越人类职业选手的水平。除了上述棋类博弈，人工智能技术还可以应用于隐藏角色的多智能体博弈的应用程序中，但对于隐藏角色的多智能体博弈，由于不同的角色已知的信息量不同，且需要分析推理其余角色是对手还是队友，因此人工智能技术在隐藏角色的多智能体博弈的应用中具有更大的挑战。

目前，主要是将虚拟遗憾最小化(CounterFactual Regret Minimization，CFR)与估值网络(value network)相结合，并通过自对弈的训练方式进行迭代训练，得到隐藏角色的多智能体博弈的AI模型。然而，使用现有的AI模型进行隐藏角色的多智能体博弈时，AI模型需要花费较多的在线演算时间才能输出结果，同时还无法保证输出结果的准确率，极大地限制了AI技术在这些应用场景中的应用。因此，如何减少AI模型的在线演算时间，并提高AI模型的准确率是目前亟待解决的问题。

发明内容

本申请的主要目的在于提供一种AI模型的训练方法、使用方法、计算机设备及存储介质，旨在减少AI模型的在线演算时间，并提高AI模型的准确率。

第一方面，本申请提供了一种AI模型的训练方法，所述方法包括：

获取参与交互任务的用户的交互参与数据；

从所述交互参与数据内提取出样本数据，其中，所述样本数据包括类图像特征、向量特征以及标注的动作标签和角色标签；

根据所述类图像特征、向量特征以及标注的动作标签和角色标签对预设神经网络进行迭代训练，直至所述预设神经网络的训练次数达到预设阈值，得到AI模型。

第二方面，本申请还提供了一种AI模型的使用方法，应用于服务器，所述服务器部署有所述AI模型，所述AI模型为采用如本申请提供的任一项训练方法进行训练得到的模型；所述方法包括：

获取参与交互任务的AI用户的交互参与数据；

从所述交互参与数据中提取类图像特征和向量特征，并将所述类图像特征和向量特征输入至与所述AI用户对应的AI模型进行处理，得到输出结果；

将所述输出结果发送至所述AI用户，以使所述AI用户根据所述输出结果执行对应的交互动作。

第三方面，本申请还提供了一种计算机设备，所述计算机设备包括：存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时，实现本申请的实施例提供的任一项所述AI模型的训练方法。

此外，本申请还提供了另一种计算机设备，所述计算机设备包括：存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时，实现本申请的实施例提供的任一项所述AI模型的使用方法。

第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现本申请实施例提供的任一项所述的AI模型的训练方法，或者，实现本申请实施例提供的任一项所述的AI模型的使用方法。

本申请提供一种AI模型的训练方法、使用方法、计算机设备及存储介质，本申请通过从交互参与数据内提取出包含类图像特征、向量特征以及标注的动作标签和角色标签的样本数据，并根据样本数据中的类图像特征、向量特征以及标注的动作标签和角色标签对预设神经网络进行迭代训练，直到预设神经网络的训练次数达到设定值，得到AI模型，由于训练得到的AI模型为神经网络模型，因此在使用AI模型进行隐藏角色的多智能体博弈时，可以大幅度的减少AI模型的在线演算时间，同时通过样本数据中的类图像特征、向量特征以及标注的动作标签和角色标签对预设神经网络进行迭代训练，可以得到准确率高的AI模型。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为实施本申请实施例提供的一种AI模型的训练及使用方法的一场景示意图；

图2为实施本申请实施例提供的一种AI模型的训练及使用方法的另一场景示意图；

图3为本申请实施例提供的一种AI模型的训练方法的流程示意图；

图4为本申请实施例中的第一层类图像特征的示意图；

图5为本申请实施例中的第二层类图像特征的示意图；

图6为本申请实施例中的第三层类图像特征的示意图；

图7为本申请实施例中的预设神经网络的一层级结构示意图；

图8为本申请实施例中的预设神经网络的另一层级结构示意图；

图9为本申请实施例中的多个AI模型在各角色下的胜率的折线图；

图10为本申请实施例提供的一种AI模型的使用方法的流程示意图；

图11为本申请实施例提供的AI模型的训练使用部署的示意图；

图12为本申请实施例提供的一种计算机设备的结构示意性框图。

本申请目的的实现、功能特点及优点将结合实施例，参阅附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

为解决上述问题，本申请实施例提供一种人工智能(Artificial Intelligence，AI)模型的训练方法、使用方法、计算机设备及存储介质。

在对本申请实施例进行详细介绍之前，先对本申请实施例涉及到的一些名词进行解释说明。由于在本申请说明书中将以AI模型应用在隐藏角色的多智能体博弈游戏为例进行介绍，因此还对涉及到游戏名词进行解释说明。

人工智能(Artificial Intelligence，AI)：AI是目前研究和开发用于模拟、延伸以及扩展人类智能的一门新兴科学技术。时下AI技术已被广泛应用于多种场景下，比如游戏场景便是其中一种。

终端：指代安装有应用程序(游戏APP)的终端设备。示例性的，可例如为智能手机、平板电脑、手提电脑或者是台式电脑等。

AI模型：对于游戏场景来说，智能模拟的重点便是训练算法模型，在本申请中称之为AI模型。示例性的，AI模型在本申请中为深度神经网络。

深度神经网络(Deep Neural Networks，DNN)：DNN是深度学习的基础，而深度学习的概念源于人工神经网络，深度学习是机器学习中一种基于对数据进行表征学习的方法。深度学习是机器学习研究中的一个新领域，其动机在于建立、模拟人脑进行分析学习的神经网络。

监督学习(Supervised Learning，SL)：SL是从标记的训练数据来推断一个功能的机器学习任务。在监督学习中，每个实例都是由一个输入对象和一个期望的输出值组成。监督学习算法是分析该训练数据，并产生一个推断的功能，其可以用于映射出新的实例。一个最佳的方案将允许该算法来正确地决定那些看不见的实例的类标签。

玩家：在本申请实施例中也称之为用户，其中玩家也可称为游戏者、参与者，是一种游戏业界与游戏参与者之间的术语。广义上讲，玩家泛指玩游戏的用户，即参与任何形式游戏的人。

交互任务：在本申请实施例中，交互任务是对任何类型游戏或者是由多人通过终端设备配合完成的事件的统称。

AI用户：在隐藏角色的多智能体博弈游戏的应用程序中的虚拟用户，该虚拟用户由AI模型控制，用于与玩家一起完成交互任务。

接下来，对本申请实施例提供的一种AI模型训练及使用方法所涉及的实施环境进行介绍说明。

请参阅图1，图1为实施本申请实施例提供的一种AI模型的训练及使用方法的一场景示意图。如图1所示，该场景包括第一服务器10、第二服务器20和终端30，第一服务器10、第二服务器20和终端30之间通过网络连接。其中，第一服务器10和第二服务器20可以为单台的服务器，也可以为由多台服务器组成的服务器集群。

其中，第一服务器10用于训练AI模型，第二服务器20和终端30用于实施该AI模型。示例性的，终端30安装有隐藏角色的多智能体博弈游戏的APP客户端，第二服务器20安装有隐藏角色的多智能体博弈游戏对应的服务端，用户可以通过终端30与第二服务器20进行交互，实现与其他玩家对局，其中其他玩家可以包括一个或者多个AI用户。

在一实施方式中，用户可以通过终端30与第二服务器20进行交互，实现与其他玩家对局的过程中，第二服务器20采集玩家在每轮交互任务的参与信息和交互任务的进度信息和用户的属性信息，得到交互参与数据，并将交互参与数据发送至第一服务器10进行存储，当需要训练AI模型时，第一服务器10获取存储的交互参与数据，并从交互参与数据内提取类图像特征、向量特征以及标注的动作标签和角色标签，以构建样本数据，然后基于样本数据中的类图像特征、向量特征以及标注的动作标签和角色标签对神经网络模型进行迭代训练，直到神经网络模型的训练次数达到预设阈值，从而得到AI模型。

在一实施方式中，请参阅图2，图2是实施本申请实施例提供的一种AI模型的训练及使用方法的另一场景示意图。如图2所示，该场景相对于图1中的场景还包括第三服务器40，第三服务器40用于部署AI模型。其中，第二服务器20和第三服务器40可以是独立的两个服务器，也可以是属于同一个服务器中的两个不同的服务模块。

具体地，在第一服务器10训练好AI模型后，将该训练好的AI模型部署在第三服务器40中，第三服务器40通过该AI模型实现与第二服务器20的服务端的交互。比如，获取隐藏角色的多智能体博弈游戏的当前状态对应的各个用户的交互参与数据，从交互参与数据中提取出类图像特征和向量特征，并将提取得到的类图像特征和向量特征输入至AI模型，得到交互指令，然后将该交互指令发送至第二服务器20，由第二服务器20转发给终端30，使得终端30能够按照该交互指令控制AI用户执行对应的交互动作。

以下，将结合图1、图2的场景对本申请实施例提供的AI模型的训练方法和使用方法进行详细介绍。并且以该AI模型应用在“轮到你了揭秘篇”的隐藏角色的多智能体博弈游戏为例进行介绍，当然也可以用在其他隐藏角色的多智能体博弈游戏中，本申请实施例对此不做具体限定。

“轮到你了揭秘篇”是一款隐藏角色的多智能体博弈游戏，为类似于桌游狼人杀的解谜游戏，其游戏规则如下：

1、五名玩家共度五个夜晚，随机的给五名玩家分配角色，包括两名住民、一名目击者和两名捣乱者，两名住民和一名目标者属于第一阵营，两民捣乱者属于第二阵营。

2、第一阵营的目击者知道完整信息，从游戏开始就已知所有玩家对应的角色；第一阵营的住民是知道信息最少的角色，除了自己，未知其他任何玩家的角色；第二阵营的捣乱者则只知道队友，即另外一名捣乱者的位置。

3、游戏共有提案、投票、行动和绑架4种动作空间，循环贯穿整局游戏。全程最多5晚，每晚最多5轮，在每轮分别有一名玩家提案(选择2到3名要被监控的玩家)，然后全部玩家投票，如果有3票及3票以上同意，则表示提案通过，进入行动阶段，未被监控的玩家在夜晚行动，只要有一名捣乱者进行了恶作剧，那么这晚就是恐吓夜，如果未有玩家恶作剧，那么这晚就是平安夜，当有3晚及3晚以上的恐吓夜时，第二阵营获胜，当有3晚及3晚以上的的平安夜，则在游戏最后有一个绑架环节，如果捣乱者精准绑架到目击者，则依然是第二阵营获胜，反之则是第一阵营获胜。

在这款游戏中，首先是不同的角色对应的信息量不同，会给AI建模带来一定的难度挑战，其次是游戏中不能单考虑自己当下的信息和决策，而是要纵观全局，通过分析不同玩家的行为，推理出队友和对手，并做出适当的动作，或是目击者的暗渡陈仓，或是住民的精准会意，或是捣乱者的故意隐藏，都是需要缜密的逻辑推理，精心的策略谋划，这种高维的信息转化，对AI的研发更是增加了一定的难度。

请参阅图3，图3为本申请实施例提供的一种AI模型的训练方法的流程示意图。如图3所示，该AI模型的训练方法包括步骤S101至步骤S103。

步骤S101、获取参与交互任务的用户的交互参与数据。

其中，交互参与数据是根据用户参与的交互任务确定的，用户参与的交互任务不同，则交互参与数据也不同。

用户通过安装有隐藏角色的多智能体博弈的应用程序的终端设备参与交互任务，用户通过终端设备参与交互任务时，采集用户的交互参与数据，并将采集到的交互参与数据发送至服务器进行存储，当需要训练得到隐藏角色的多智能体博弈的AI模型时，从服务器中获取交互参与数据。其中，交互参与数据包括预设场次的真实游戏数据，交互参与数据包括用户在每轮交互任务的参与信息、交互任务的进度信息和用户的属性信息。

示例性的，以“轮到你了揭秘篇”为例，参与游戏的玩家一共有五名，随机的给五名分配任务角色，包括两名住民、一名目击者和两名捣乱者，两名住民和一名目标者属于第一阵营，两民捣乱者属于第二阵营，整局游戏最多包括五晚，每晚最多包括五轮，玩家在一个晚上轮流提案被监控玩家，每个玩家对提案进行投票，当提案通过，则被监控的捣乱者无法行动，未被监控的捣乱者可以行动，确定当晚是否进行恶作剧，若进行恶作剧，则当晚为恐吓夜，反之当晚为平安夜，而当提案未通过，则每个玩家均可以行动；当满三晚恐吓夜时，第二阵营取得博弈胜利，反之，当满三晚平安夜，且目击者未被捣乱者找出时，第一阵营取得博弈胜利，在上述运行逻辑下，交互动作包括提案、投票、行动和绑架，参与信息包括每轮交互任务的提案人、提案人提案监控的用户和每个用户对提案的投票结果，交互任务的进度信息包括交互任务的当前轮次、之前每轮的行动结果和每个玩家的任务角色(住民1、住民2、目击者、捣乱者1和捣乱者2)，用户的属性信息包括任务角色(住民、目击者、捣乱者1和捣乱者2)、在交互任务中的位置、当前动作和监控的用户的数量。

步骤S102、从所述交互参与数据内提取出样本数据，其中，所述样本数据包括类图像特征、向量特征以及标注的动作标签和角色标签。

其中，不同场景下的类图像特征、向量特征和标签信息的提取规则不同，因此类图像特征、向量特征和标签信息的提取规则可以根据实际场景进行设置，本申请说明书对此不做具体限定。

示例性的，以“轮到你了揭秘篇”的隐藏角色的多智能体博弈游戏为例，由于“轮到你了揭秘篇”这款游戏是由5人在5个夜晚的轮流操作来推进游戏的，因此在横向(轮次维度)和纵向(玩家维度)都有相关性，选择类图像特征表征每轮的提案人及具体的监控位置，以及所有玩家的投票结果，选择向量特征表征游戏进度信息和玩家属性信息，因此，从交互参与数据内提取每轮的提案人及具体的监控位置，以及所有玩家的投票结果，还提取游戏进度信息和玩家属性信息，基于每轮的提案人及具体的监控位置，以及所有玩家的投票结果，生成类图像特征，并基于游戏进度信息和玩家属性信息，生成向量特征。

其中，类图像特征包括三层类图像特征，且每层类图像特征包含5行25列，列用于表示玩家的位置，行用于表示每个夜晚的轮次，第一层类图像特征中的列向量和行向量用于表征每轮发起提案的玩家的位置；第二层类图像特征的列向量用于表征每轮被监控玩家的位置，第二层类图像特征的行向量用于表征每个玩家在整个游戏内被监控的情况；第三层类图像特征的列向量用于表征每轮中每个玩家对提案的投票结果，第三层类图像特征的行向量用于表征整个游戏内各夜晚中每个玩家对各轮提案的投票结果。

示例性的，请参阅图4，图4为本申请实施例中的第一层类图像特征的示意图，如图4所示，游戏共计进行了4个夜晚，第一夜晚、第二夜晚、第三夜晚和第四夜晚，玩家1、玩家2、玩家3、玩家4和玩家5轮流发起提案，因此，第一层类图像特征中用于表征第5夜晚的每轮发起提案的玩家的位置的特征向量均为0，第一层类图像特征的第一列、第六列、第十一列和第十六列的向量均为[10000]，第一层类图像特征的第二列、第七列、第十二列和第十七列的特征向量均为[01000]，第一层类图像特征的第三列、第八列、第十三列和第十八列的向量均为[00100]，第一层类图像特征的第四列、第九列、第十四列和第十九列的特征向量均为[00010]，第一层类图像特征的第五列、第十列、第十五列和第二十列的向量均为[00001]。

示例性的，请参照图5，图5为本申请实施例中的第二层类图像特征的示意图，如图5所示，游戏共计进行了4个夜晚，第一夜晚玩家1、玩家2、玩家3、玩家4和玩家5轮流发起提案，且玩家1提案监控玩家2、玩家4和玩家5，玩家2提案监控玩家1、玩家3和玩家4，玩家3提案监控玩家1、玩家3和玩家5，玩家4提案监控玩家3、玩家4和玩家5，玩家5提案监控玩家1、玩家2和玩家4，因此，第二层类图像特征的第一列、第二列、第三列、第四列和第五列的特征向量分别为[01011]、[10110]、[10101]、[00111]和[11010]，第二层类图像特征的其余列的向量根据玩家1、玩家2、玩家3、玩家4和玩家5在第二夜晚、第三夜晚和第四夜晚发起提案监控的玩家的位置确定，具体可参阅图5，此处不做具体赘述。

示例性的，请参照图6，图6为本申请实施例中的第三层类图像特征的示意图，如图6所示，游戏共计进行了4个夜晚，第一夜晚玩家1、玩家2、玩家3、玩家4和玩家5轮流发起提案，且玩家1、玩家2、玩家3、玩家4和玩家5在第一夜晚对第一轮发起提案的投票结果均为同意，因此，第三层类图像特征的第一列的向量为[11111]，玩家1、玩家2、玩家3、玩家4和玩家5在第一夜晚对第二轮发起提案的投票结果分别为反对、同意、同意、同意和反对，因此，第三层类图像特征的第二列的向量为[01110]，玩家1、玩家2、玩家3、玩家4和玩家5在第一夜晚对第三轮发起提案的投票结果分别为同意、反对、同意、反对和反同意，因此，第三层类图像特征的第三列的向量为[10101]，玩家1、玩家2、玩家3、玩家4和玩家5在第一夜晚对第四轮发起提案的投票结果分别为反对、同意、同意、同意和反对，因此，第三层类图像特征的第四列的向量为[01110]，玩家1、玩家2、玩家3、玩家4和玩家5在第一夜晚对第四轮发起提案的投票结果分别为同意、同意、反对、同意和同意，因此，第三层类图像特征的第五列的向量为[11011]，图6中的其余列的向量根据玩家1、玩家2、玩家3、玩家4和玩家5在第二夜晚、第三夜晚和第四夜晚的各轮发起提案的投票结果确定，具体可参照阅6，此处不做具体赘述。

其中，向量特征为长度50的向量，具体地，游戏进度信息包括游戏的当前夜晚、当前夜晚的当前轮次和此前每晚的行动结果(恐吓夜或平安夜)，玩家属性信息包括所有玩家各自对应的角色、玩家对应的角色、玩家的位置、当前要做的动作(提案、投票、行动和绑架)和本轮提案要监控的人数(第一晚和第三晚为3人，第二晚、第四晚和第五晚为2人)。

示例性的，用长度为5的向量表示当前夜晚，例如，当前夜晚为第二夜晚，则向量[01000]表示当前夜晚为第二夜晚，又例如，当前夜晚为第四夜晚，则向量[00010]表示当前夜晚为第四夜晚；用长度为5的向量表示当前夜晚的当前轮次，例如，当前轮次为第三轮，则向量[00100]表示当前轮次为第三轮；用长度为5的向量表示此前每晚的行动结果(恐吓夜为0、平安夜为1，或者恐吓夜为1，平安夜为0)，例如，当前夜晚为第五夜晚，则且此前第一夜晚、第二夜晚、第三夜晚和第四夜晚的行动结果分别为恐吓夜、平安夜、平安夜和恐吓夜，则向量[01100]或者[10010]表示此前每晚的行动结果；用长度4的向量表示玩家对应的角色，例如，向量[1000]表示目击者、向量[0100]表示住民，向量[0010]表示捣乱者1，向量[0001]表示捣乱者2；用长度20的向量表示所有玩家各自对应的角色，例如，用向量[10000100010000100001]表示所有玩家各自对应的角色；用长度5的向量表示玩家的位置，例如，向量[10000]、[01000]、[00100]、[00010]和[00001]表示玩家分别位于103室、202室、302室、403室和501室内；用长度4的向量表示当前要做的动作，例如，用向量[1000]、[0100]、[0010]和[0001]分别表示提案、投票、行动和绑架；用长度2的向量表示本轮提案要监控的人数，例如，用向量[01]和[10]表示本轮提案要监控的人数分别为2人和3人。

因此，通过从参与交互数据中提取当前夜晚、当前夜晚的当前轮次、此前每晚的行动结果(恐吓夜或平安夜)、所有玩家各自对应的角色、玩家对应的角色、玩家的位置、当前要做的动作(提案、投票、行动和绑架)和本轮提案要监控的人数(第一晚和第三晚为3人，第二晚、第四晚和第五晚为2人)，然后通过向量分别表示当前夜晚、当前夜晚的当前轮次、此前每晚的行动结果(恐吓夜或平安夜)、所有玩家各自对应的角色、玩家对应的角色、玩家的位置、当前要做的动作(提案、投票、行动和绑架)和本轮提案要监控的人数(第一晚和第三晚为3人，第二晚、第四晚和第五晚为2人)，得到多个向量，并将多个向量进行拼接，从而得到向量特征。

其中，行为的建模是与游戏中的动作空间相关联的，游戏中共有4种动作，分别是提案、投票、行动和绑架，因此动作标签包括提案标签、投票标签和行动标签，角色标签包括第一角色标签和第二角色标签。其中，提案分为两种，5位玩家监控2人对应的标签有10个，即10个label，5位玩家监控3人对应的标签也有10个，同样也是10个label，因此提案标签有20个；投票包括同意和反对，包括2个label，因此投票标签有2个；行动包括恐吓和躲藏，包括2个label，因此行动标签有2个；对于绑架行为，为了提高准确率，没有选择玩家的绑架数据作为标签，而是通过对五个玩家身份的猜测，判断目击者的位置，即第一角色标签，因此第一角色标签有5个；因为在游戏中住民角色相对获知的信息量最少，为了辅助住民在这种信息不对称的环境中更好的学习到正确的行为，所以新增了一项住民对各玩家角色进行预测的标签，即第二角色标签，因为住民有2名，不做区分，所以共60个label，涵盖了各玩家所有的角色组合，即第二角色标签有60个，共计89个标签。通过加入65个角色标签，能够在基于类图像特征、向量特征以及标注的动作标签和角色标签对神经网络模型进行迭代训练时，提高AI模型的准确率。

在确定上述89个标签后，由于标签已知，且五个玩家的角色已知，可以根据89个标签从交互参与数据中提取动作标签和角色标签，从而得到类图像特征和向量特征对应的标注的动作标签和角色标签。

在一实施方式中，对交互参与数据进行异常数据筛选，得到筛选后的交互参与数据；从筛选后的交互参与数据中提取类图像特征、向量特征和标签信息，得到样本数据。其中，可以通过异常数据的识别规则库对交互参与数据进行异常数据筛选，异常数据的识别规则库可根据实际场景进行设置，本申请对此不做具体限定，例如，捣乱者在已有两晚平安夜，且未被监控的情况下，却选择躲藏，从而促使住民和目击者所在的阵营获胜，或是住民和目击者所在的阵营对一个已经造成恐吓夜的提案表示同意等，对于这样的数据应该剔除掉，以免影响模型的训练效果。通过剔除交互参与数据中的异常数据，可以提高AI模型的准确率。

在一实施方式中，确定AI模型的等级水平；从筛选后的交互参与数据中提取与等级水平相匹配的用户的交互参与数据，得到目标交互参与数据；从目标交互参与数据中提取类图像特征、向量特征和标签信息，得到与等级水平相匹配的样本数据。其中，AI模型的等级水平可以由开发人员自行选择，或者每次训练AI模型时，随机的选择一个等级水平作为AI模型的等级水平，从而可以得到不同等级的AI模型，等级水平可以分为三个等级，分别为等级Ⅰ、等级Ⅱ和等级Ⅲ，其中，等级Ⅰ表示为低水平，等级Ⅱ表示为平均水平，等级Ⅲ表示为高水平。对于SL训练来说，数据是至关重要的，因为数据的分布、质量，都会在很大程度上影响AI模型的训练效果，对于不同等级水平的玩家，数据分布会有明显差异，如果简单地使用整体数据进行AI模型训练，得到的AI模型的等级水平会接近真实玩家的平均等级水平，而该神经网络模型对于不同的应用场景过于单一，容易造成AI模型的等级水平与应用场景中用户的水平差距过大，进而导致用户体验的落差，因此通过选择不同的等级水平，从而能够得到不同的等级水平的样本数据，再使用不同等级水平的样本数据对神经网络模型进行训练，可以得到不同等级水平的AI模型，便于在后续部署AI模型时，为不同等级水平的玩家提供相应等级水平的AI模型。

在一实施方式中，确定AI模型的风格模式；从筛选后的交互参与数据中提取与风格模式相匹配的交互参与数据，得到目标交互参与数据；从目标交互参与数据中提取类图像特征、向量特征和标签信息，得到与风格模式相匹配的样本数据。其中，AI模型的风格模式可以由开发人员自行选择，或者每次训练AI模型时，随机的选择一个风格模式作为AI模型的风格模式，从而可以得到不同风格模式的AI模型，风格模式包括保守、激进和平衡等，保守的AI模型对于投票更加谨慎，激进的AI模型对于投票较为随意，而平衡的AI模型对于投票比较谨慎，但没有保守的AI模型谨慎。通过训练得到不同风格模式的AI模型，便于为玩家提供不同风格的AI模型，使得玩家能够与不同风格模式的AI模型进行对战，从而适应不同的风格模式，以提高玩家的等级水平。

步骤S103、根据所述类图像特征、向量特征以及标注的动作标签和角色标签对预设神经网络进行迭代训练，直至所述预设神经网络的训练次数达到预设阈值，得到AI模型。

在提取到样本数据之后，根据样本数据中的类型图像特征、向量特征和标签信息对预设神经网络进行迭代训练，直到预设神经网络的训练次数达到预设阈值，从而得到AI模型，即将类图像特征和向量特征输入至预设神经网络进行处理，得到预测的标签，根据与类图像特征和向量特征对应的标签信息和预测的标签，更新预设神经网络的权重。其中，预设阈值可基于实际情况进行设置，本申请说明书对此不做具体限定，例如，预设阈值为2000次或40000次。

在一实施方式中，也可根据类图像特征、向量特征以及标注的动作标签对预设神经网络进行迭代训练，直至预设神经网络的训练次数达到预设阈值，得到AI模型，预设神经网络包括第一子神经网络、第二子神经网络和第三子神经网络，根据类图像特征、向量特征以及标注的动作标签对预设神经网络进行迭代训练的方式具体为：将类图像特征输入至第一子神经网络进行处理，得到第一特征向量；将向量特征输入至第二子神经网络进行处理，得到第二特征向量；将第一特征向量与第二特征向量进行拼接，得到第一目标特征向量；将向量特征与第一目标特征向量进行拼接，得到第二目标特征向量；将第二目标特征向量输入至第三子神经网络进行处理，得到输出结果，并根据输出结果和动作预测标签更新预设神经网络的权重。其中，可以基于适应性矩估计(adaptive moment estimation，Adam)优化算法迭代更新神经网络的权重。由于神经网络的结构简单，因此训练的时间较短，能够减少训练模型的计算资源成本，也能够提高AI模型的准确率。

示例性的，如图7所示，第一子神经网络为卷积神经网络，第二子神经网络为两个串联的两层全连接层，第三子神经网络为四个并联的两层全连接层，输出结果1、输出结果2、输出结果3和输出结果分别为监控3人的提案的标签、监控2人的提案的标签、投票的标签和行动的标签，且监控3人的提案的标签、监控2人的提案的标签、投票的标签和行动的标签是互斥的，一条样本数据只对应其中一个动作标签，loss也只计算其中一个动作标签的loss。

在一实施方式中，根据类图像特征、向量特征以及标注的动作标签和角色标签对预设神经网络进行迭代训练的方式具体为：将类图像特征和向量特征输入至预设神经网络进行处理，得到输出结果，其中，输出结果包括预测的动作标签和角色标签；根据预测的动作标签和角色标签以及标注的动作标签和角色标签更新预设神经网络的权重。其中，可以基于适应性矩估计(adaptive moment estimation，Adam)优化算法迭代更新神经网络的权重。由于神经网络的结构简单，因此训练的时间较短，能够减少训练模型的计算资源成本，也能够提高AI模型的准确率。

在一实施方式中，预设神经网络包括第一子神经网络、第二子神经网络、第三子神经网络、第四子神经网络和第五子神经网络，将类图像特征和向量特征输入至预设神经网络进行处理，得到输出结果的方式具体为：将类图像特征输入至第一子神经网络进行处理，得到第一特征向量；将向量特征输入至第二子神经网络进行处理，得到第二特征向量；将第一特征向量与第二特征向量进行拼接，得到第一目标特征向量；将向量特征与第一目标特征向量进行拼接，得到第二目标特征向量；将第二目标特征向量输入至第三子神经网络进行处理，得到第一输出结果，其中，第一输出结果包括预测的动作标签；将第一目标特征向量输入至第四子神经网络进行处理，得到第二输出结果，其中，第二输出结果包括预测的第一角色标签；将第一目标特征向量输入至第五子神经网络进行处理，得到第三输出结果，其中，第三输出结果包括预测的第二角色标签。

在多智能体博弈问题中，合作与对抗是关键要素，然而在隐藏角色类游戏中，角色信息的缺失会使问题的难度上升一个级别，所以在神经网络的设计中，将对玩家角色的猜测和捣乱者对目击者的猜测作为单独的输出，作用于loss，促进神经网络的迭代更新。在训练中，动作空间的标签由玩家实际操作动作生成，并不一定是正确的，所以为了防止模型受错误数据的影响，把由正确信息生成的角色猜测作为辅助label，引导模型更好地探索到最优解，进一步地提高AI模型的准确率。

在一实施方式中，第一子神经网络包括卷积神经网络以及残差网络和长短期记忆网络中的任一项；第二子神经网络包括两个串联的两层全连接层以及残差网络和长短期记忆网络中的任一项。通过残差网络或长短期记忆网络可以进一步地提高AI模型的准确率。

示例性的，如图8所示，第一子神经网络为卷积神经网络，第二子神经网络为两个串联的两层全连接层，第三子神经网络为四个并联的两层全连接层，第四子神经网络和第五子神经网络均为两层全连接层，输出结果5和输出结果6分别为住民猜测的其余玩家的角色的标签，即预测的第一角色标签和捣乱者对目击者的猜测的标签，即预测的第二角色标签，第一输出结果为图8中的输出结果5，第二输出结果为图8中的输出结果6，第三输出结果为图8中的输出结果1、输出结果2、输出结果3和输出结果4中的任一项，即预测的动作标签。

需要说明的是，第一目标特征向量是通过图7或图8中的第一个Concat对第一特征向量与第二特征向量进行拼接处理得到的，而第二目标特征向量是通过图7或图8中的第二个Concat对向量特征与第一目标特征向量进行拼接处理得到的。

在一实施方式中，获取多个AI模型；对每个AI模型进行胜率评测，得到每个AI模型在各角色下的胜率；根据每个AI模型在各角色下的胜率，从多个AI模型中确定目标AI模型。其中，在对预设神经网络进行迭代训练的过程中，每对预设神经网络进行预设次数的训练时，保存一次训练后神经网络，直到预设神经网络的训练次数达到预设阈值，从而得到多个AI模型，便于后续对多个AI模型进行胜率评测。通过对多个AI模型进行胜率评测，得到每个AI模型在各角色下的胜率，并基于每个AI模型在各角色下的胜率，从多个AI模型中确定目标AI模型，能够进一步地提高AI模型的准确性。

在一实施方式中，对每个AI模型进行胜率评测，得到每个AI模型在各角色下的胜率的方式具体为：按照预设交互逻辑，依次调用每个AI模型在各角色下执行预设次数的交互任务，得到每个AI模型在各角色下的参与结果信息；根据每个AI模型在各角色下的参与结果信息，确定每个AI模型在各角色下的胜率。其中，预设交互逻辑可根据实际的交互任务进行设置，预设次数也可根据实际情况进行设置，本申请对此不做具体限定，例如，预设次数为10000次。

以“轮到你了揭秘篇”的隐藏角色的多智能体博弈游戏为例，预先生成五个玩家的角色以及座位的10000局游戏，将每个AI模型依次置于不同角色的座位，其余角色的座位用预设AI模型填充，基于游戏的运行逻辑推进对局，从而得到每个AI模型在各角色下的10000局的对局结果，并基于每个AI模型在各角色下的10000局的对局结果，统计每个AI模型在各角色下的胜率，最后基于每个AI模型在各角色下的胜率，选择目标AI模型，即选择各角色下的胜率均较高，且胜率都趋于平缓的AI模型作为目标AI模型。

请参阅图9，图9为本申请实施例中的多个AI模型在各角色下的胜率的折线图，如图9所示，该折线图的横坐标为在训练次数达到1k、2k、3k、4k、5k、6k、7k、8k、9k、10k、11k、12k、13k、14k、15k、16k、17k、18K、19K和20k时所保存得到的AI模型，纵坐标为AI模型作为捣乱者1、捣乱者2、目击者和住民下的胜率，通过比较各AI模型作为捣乱者1、捣乱者2、目击者和住民下的胜率，选择训练次数达到14k、15k、16k、17k、18K、19K和20k时所保存得到的AI模型中的任一个AI模型作为目标模型。

上述实施例提供的AI模型的训练方法，通过从交互参与数据内提取出包含类图像特征、向量特征和标签信息的样本数据，并根据样本数据中的类图像特征、向量特征和标签信息对预设神经网络进行迭代训练，直到预设神经网络的训练次数达到设定值，得到AI模型，由于训练得到的AI模型为神经网络模型，因此在使用AI模型进行隐藏角色的多智能体博弈时，可以大幅度的减少AI模型的在线演算时间，同时通过类图像特征、向量特征和标签信息对预设神经网络进行迭代训练，可以得到准确率高的AI模型。

请参阅图10，图10为本申请实施例提供的一种AI模型的使用方法的流程示意图。该AI模型为采用上述实施例提供的任意一种AI模型的训练方法进行模型训练得到的。在AI模型训练完成后，可以将该AI模型部署在AI服务器中，该AI模型对应AI用户，该AI用户可用于与真实用户完成交互任务。

如图10所示，该AI模型的使用方法包括步骤S201至203。

步骤S201、获取参与交互任务的AI用户的交互参与数据。

步骤S202、从所述交互参与数据中提取类图像特征和向量特征，并将所述类图像特征和向量特征输入至与所述AI用户对应的AI模型进行处理，得到输出结果。

步骤S203、将所述输出结果发送至所述AI用户，以使所述AI用户根据所述输出结果执行对应的交互动作。

其中，AI用户可以为虚拟玩家，该虚拟玩家由对应的AI模型控制，具体地，获取AI用户在每轮交互任务的参与信息、交互任务的进度信息和用户的属性信息，得到交互参与数据。

例如，应用于“轮到你了揭秘篇”的AI用户，与该AI用户对局的玩家还包括4个真实用户，设该AI用户的角色为目击者，其余4个真实用户，即玩家1、玩家2、玩家3和玩家4的角色分别为住民1、住民2、捣乱者1和捣乱者2，且AI用户、玩家1、玩家2、玩家3和玩家4分别位于103室、202室、302室、403室和501室，游戏处于第二夜晚的第一轮，则获取第一夜晚的各轮发起提案的玩家的位置、每轮被监控玩家的位置、各轮中每个玩家对提案的投票结果、当前夜晚为第二夜晚、当前轮次为第二夜晚的第一轮、第一夜晚的行动结果(平安夜或恐吓夜)、每个玩家的角色和AI用户的角色、当前要做的动作为投票和本轮提案要监控的人数为2人等交互参与数据。

在获取到交互参与数据后，从交互参与数据中提取类图像特征和向量特征，并将类图像特征和向量特征输入至与AI用户对应的AI模型进行处理，得到输出结果，然后将输出结果发送至所述AI用户，以使AI用户根据输出结果执行对应的交互动作，比如，对其余玩家发起的提案进行投票，且投票的结果为同意发起的提案。

在一实施方式中，获取参与该交互任务的真实用户的等级水平；将类图像特征和向量特征输入至与该等级水平对应的AI模型进行处理，得到输出结果。通过将类图像特征和向量特征输入至与该等级水平对应的AI模型进行处理，可以得到与等级水平相匹配的输出结果，极大的提高了真实用户的体验度。

在一实施方式中，获取参与所述交互任务的真实用户的属性信息；根据属性信息确定真实用户是否满足AI用户引入条件；当真实用户满足AI用户引入条件时，引入AI用户参与交互任务；当真实用户不满足AI用户引入条件时，不引入AI用户参与交互任务。通过该AI用户切换条件，可以在合适的时机引用AI模型与真实用户对局，由此提高了真实用户的体验度。

在一些实施例中，不同的AI用户引入条件适用于不同的应用场景，由此提高用户的体验度。示例性的，该应用场景可例如为“温暖局”、“掉线托管”、“人机挑战”、“新手教学”和“快速匹配”等场景。

温暖局：对于多场对局中出现连败的真实用户，可以引入水平相对较低的AI模型对应的AI用户来进行对局，从而温暖用户，比如引入等级Ⅰ的AI模型。对于温暖局的AI用户引入条件，比如可以设置为连续输5场，则确定该真实用户满足AI用户引入条件，则引入AI用户与其对局。

掉线托管：当真实用户掉线时，通过接入一个水平相当的AI用户来继续对局，避免对局突然中断而影响用户体验。具体地，当监测到真实用户掉线时，则确定该真实用户满足AI用户引入条件，并引入AI用户代替该真实用户继续对局。

人机挑战：对于高水平的真实用户，可以加入高水平的AI用户让该真实用户去挑战，增加活跃度。具体地，可以从该真实用户的属性信息中获取该真实用户的等级水平，并在该等级水平达大于或等于预设等级水平时，确定该真实用户满足AI用户引入条件，引入一个高水平的AI用户与该真实用户对局。

新手教学：对于新手用户，可以通过AI模型来进行教学讲解。具体地，在确定该真实用户是新注册的用户时，则确定该真实用户满足AI用户引入条件，进而引入AI用户进行教学。

快速匹配：当匹配不到合适的真实用户时，加入AI用户实现快速匹配。具体地，比如在预设时长内匹配不到4个真实用户进行对局，则确定真实用户的数量不够，从而确定满足AI用户引入条件，引入AI用户进行对局，进而实现快速匹配。

请参阅图11，图11为本申请实施例提供的AI模型的训练使用部署的示意图。主要包括离线训练和在线部署，离线训练用于训练AI模型，在线部署用于部署该AI模型。

如图11所示，离线训练包括数据采集、特征与标签提取和模型训练，其中，数据采集是为了采集得到大量的交互参与数据，即对应步骤S101；特征与标签提取主要是为了从大量的交互参与数据中提取类图像特征、向量特征以及标注的动作标签和角色标签，从而得到样本数据，即对应步骤S102；模型训练主要是为了得到AI模型，即对应步骤S103。在一实施方式中，离线训练还包括模型评估，即对多个AI模型进行胜率评测，得到每个AI模型在各角色下的胜率；根据每个AI模型在各角色下的胜率，从多个AI模型中确定目标AI模型。

如图11所示，在线部署包括AI模型部署，其中，AI模型部署是为了将AI模型部署在AI服务器中，用于与前端服务器交互，该前端服务器可以例如为“轮到你了揭秘篇”的服务器。在部署AI模型后，AI服务器可以获取前端服务器的游戏状态(即参与游戏的用户的信息数据)，根据该游戏状态确定交互指令，并将该交互指令发送给前端服务器。

请参阅图12，图12为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以包括服务器。

如图12所示，计算机设备300包括处理器301和存储器302，处理器301和存储器302通过总线303连接，该总线303比如为I2C(Inter-integrated Circuit)总线。

具体地，处理器301用于提供计算和控制能力，支撑整个计算机设备的运行。处理器301可以是微控制单元(Micro-controller Unit，MCU)、中央处理单元(CentralProcessing Unit，CPU)或数字信号处理器(Digital Signal Processor，DSP)等。

具体地，存储器302可以是Flash芯片、只读存储器(ROM，Read-Only Memory)磁盘、光盘、U盘或移动硬盘等。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器用于运行存储在存储器中的计算机程序，并在执行所述计算机程序时实现本申请实施例提供的任意一种所述的AI模型的训练方法，或者实现本申请实施例提供的任意一种所述的AI模型的使用方法。

在一实施方式中，所述处理器用于运行存储在存储器中的计算机程序，并在执行所述计算机程序时实现如下步骤：

获取参与交互任务的用户的交互参与数据；

在一实施方式中，所述根据所述类图像特征、向量特征以及标注的动作标签和角色标签对预设神经网络进行迭代训练，包括：

将所述类图像特征和向量特征输入至预设神经网络进行处理，得到输出结果，其中，所述输出结果包括预测的动作标签和角色标签；

根据所述预测的动作标签和角色标签以及标注的动作标签和角色标签更新所述预设神经网络的权重。

在一实施方式中，所述预设神经网络包括第一子神经网络、第二子神经网络、第三子神经网络、第四子神经网络和第五子神经网络；所述将所述类图像特征和向量特征输入至预设神经网络进行处理，得到输出结果，包括：

将所述类图像特征输入至所述第一子神经网络进行处理，得到第一特征向量；

将所述向量特征输入至所述第二子神经网络进行处理，得到第二特征向量；

将所述第一特征向量与所述第二特征向量进行拼接，得到第一目标特征向量；

将所述向量特征与所述第一目标特征向量进行拼接，得到第二目标特征向量；

将所述第二目标特征向量输入至所述第三子神经网络进行处理，得到第一输出结果，其中，所述第一输出结果包括预测的动作标签；

将所述第一目标特征向量输入至所述第四子神经网络进行处理，得到第二输出结果，其中，所述第二输出结果包括预测的第一角色标签；

将所述第一目标特征向量输入至所述第五子神经网络进行处理，得到第三输出结果，其中，所述第三输出结果包括预测的第二角色标签。

在一实施方式中，所述第一子神经网络为卷积神经网络，所述第二子神经网络为两个串联的两层全连接层，所述第三子神经网络为四个并联的两层全连接层，第四子神经网络和第五子神经网络均为两层全连接层；

或者，所述第一子神经网络包括卷积神经网络以及残差网络和长短期记忆网络中的任一项；

所述第二子神经网络包括两个串联的两层全连接层以及残差网络和长短期记忆网络中的任一项。

在一实施方式中，所述从所述交互参与数据内提取出样本数据，包括：

对所述交互参与数据进行异常数据筛选，得到筛选后的交互参与数据；

从筛选后的交互参与数据中提取样本数据。

在一实施方式中，所述从筛选后的交互参与数据中提取样本数据，包括：

确定所述AI模型的风格模式；

从筛选后的交互参与数据中提取与所述风格模式相匹配的交互参与数据，得到目标交互参与数据；

从所述目标交互参与数据中提取类图像特征、向量特征和标签信息，得到与所述风格模式相匹配的样本数据。

获取参与交互任务的AI用户的交互参与数据；

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的服务器的具体工作过程，可以参考前述AI模型的训练方法和使用方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时实现上述实施例提供的任一种所述的AI模型的训练方法的步骤，或者实现上述实施例提供的任一种所述的AI模型的使用方法的步骤。

其中，所述计算机可读存储介质可以是前述实施例所述的服务器的内部存储单元，例如所述服务器的硬盘或内存。所述计算机可读存储介质也可以是所述服务器的外部存储设备，例如所述服务器上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种AI模型的训练方法，其特征在于，包括：

获取参与交互任务的用户的交互参与数据；

根据所述类图像特征、向量特征以及标注的动作标签和角色标签对预设神经网络进行迭代训练，直至所述预设神经网络的训练次数达到预设阈值，得到AI模型；

其中，从所述交互参与数据内提取出样本数据包括：

从所述交互参与数据内提取每轮的提案人及具体的监控位置、所有玩家的投票结果、游戏进度信息和玩家属性信息；

基于每轮的提案人及具体的监控位置和所有玩家的投票结果，生成所述类图像特征，所述类图像特征包括第一层类图像特征、第二层类图像特征和第三层类图像特征，所述第一层类图像特征中的列向量和行向量用于表征每轮发起提案的玩家的位置，所述第二层类图像特征的列向量用于表征每轮被监控玩家的位置，所述第二层类图像特征的行向量用于表征每个玩家在整场游戏内被监控的情况，第三层类图像特征的列向量用于表征每轮中每个玩家对提案的投票结果，第三层类图像特征的行向量用于表征整场游戏内各夜晚中每个玩家对各轮提案的投票结果；

基于所述游戏进度信息和玩家属性信息，生成所述向量特征，所述游戏进度信息包括游戏的当前夜晚、当前夜晚的当前轮次和此前每晚的行动结果，所述玩家属性信息包括所有玩家各自对应的角色、玩家对应的角色、玩家的位置、当前要做的动作和本轮提案要监控的人数，所述向量特征由描述所述当前夜晚的向量、描述所述当前夜晚的当前轮次的向量、描述所述此前每晚的行动结果的向量、描述所述所有玩家各自对应的角色的向量、描述所述玩家的位置的向量、描述所述当前要做的动作的向量和描述本轮提案要监控的人数的向量拼接组成；

根据预先确定的多个标签从所述交互参与数据中获取所述类图像特征和向量特征对应的动作标签和角色标签。

2.根据权利要求1所述的训练方法，其特征在于，所述根据所述类图像特征、向量特征以及标注的动作标签和角色标签对预设神经网络进行迭代训练，包括：

3.根据权利要求2所述的训练方法，其特征在于，所述预设神经网络包括第一子神经网络、第二子神经网络、第三子神经网络、第四子神经网络和第五子神经网络；所述将所述类图像特征和向量特征输入至预设神经网络进行处理，得到输出结果，包括：

4.根据权利要求3所述的训练方法，其特征在于，所述第一子神经网络为卷积神经网络，所述第二子神经网络为两个串联的两层全连接层，所述第三子神经网络为四个并联的两层全连接层，第四子神经网络和第五子神经网络均为两层全连接层；

5.根据权利要求1至4中任一项所述的训练方法，其特征在于，所述从所述交互参与数据内提取出样本数据，包括：

从筛选后的交互参与数据中提取样本数据。

6.根据权利要求5所述的训练方法，其特征在于，所述从筛选后的交互参与数据中提取样本数据，包括：

确定所述AI模型的风格模式；

7.一种AI模型的使用方法，其特征在于，应用于服务器，所述服务器部署有所述AI模型，所述AI模型为采用如权利要求1至6中任一项所述的训练方法进行训练得到的模型；所述方法包括：

获取参与交互任务的AI用户的交互参与数据；

8.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时，实现如权利要求1至6中任一项所述AI模型的训练方法。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时，实现如权利要求7所述AI模型的使用方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如权利要求1至6中任一项所述的AI模型的训练方法，或者实现如权利要求7所述的AI模型的使用方法。