CN110782004A

CN110782004A - 模型训练方法、模型调用方法、设备及可读存储介质

Info

Publication number: CN110782004A
Application number: CN201910920142.2A
Authority: CN
Inventors: 朱晓龙; 李宏亮; 周正; 汤善敏; 季兴; 武建芳; 郭仁杰; 黄军; 万富强; 张正生; 刘永升
Original assignee: Super Parameter Technology (shenzhen) Co Ltd
Current assignee: Super Parameter Technology (shenzhen) Co Ltd
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2020-02-11
Anticipated expiration: 2039-09-26
Also published as: CN110782004B

Abstract

本申请提供一种模型训练方法、模型调用方法、设备及可读存储介质，该方法包括：调用每个训练参与方各自对应的人工智能模型，控制每个训练参与方执行相应的样本生成操作；当样本生成操作完成后，获取样本生成操作对应的样本数据；对该样本数据进行特征提取，得到类图像特征和向量特征；根据类图像特征和向量特征，对每个训练参与方各自对应的人工智能模型进行训练更新；若更新后的人工智能模型未收敛，则执行步骤：基于预设的参与逻辑数据，调用每个训练参与方各自对应的人工智能模型，控制每个训练参与方执行相应的样本生成操作；若更新后的人工智能模型收敛，则存储更新后的人工智能模型。本申请提高了人工智能模型的准确性。

Description

模型训练方法、模型调用方法、设备及可读存储介质

技术领域

本申请涉及人工智能的技术领域，尤其涉及一种模型训练方法、模型调用方法、设备及计算机可读存储介质。

背景技术

随着人工智能(Artificial Intelligence，AI)技术的快速发展，人工智能技术被广泛的应用于各个领域，例如，在游戏娱乐领域，通过人工智能技术可以实现棋类游戏中虚拟用户与真人之间的对局，且可以战胜最顶级的职业选手。目前，主要基于深度神经网络(Deep Neural Network,DNN)和监督学习来实现人工智能模型。然而，基于DNN和监督学习实现人工智能模型，需要大量优质的样本数据，才能训练得到效果较好的人工智能模型，但优质的样本数据的收集难度较高，且需要耗费较多的时间，无法保证人工智能模型的准确性。因此，如何提高人工智能模型的准确性是目前亟待解决的问题。

发明内容

本申请的主要目的在于提供一种模型训练方法、模型调用方法、设备及计算机可读存储介质，旨在提高人工智能模型的准确性。

第一方面，本申请提供一种模型训练方法，所述模型训练方法包括：

调用每个训练参与方各自对应的人工智能模型，控制每个训练参与方执行相应的样本生成操作，其中，所述人工智能模型基于神经网络模型实现；

当所述样本生成操作完成后，获取所述样本生成操作对应的样本数据，其中，所述样本数据包括参与结果信息、每个训练参与方的角色信息和参与内容信息；

对所述样本数据进行特征提取，得到类图像特征和向量特征，其中，所述类图像特征用于表征每个训练参与方的参与内容信息，所述向量特征用于表征每个训练参与方的参与结果信息和角色信息；

根据所述类图像特征和向量特征，对每个训练参与方各自对应的所述人工智能模型进行训练更新，并确定更新后的所述人工智能模型是否收敛；

若更新后的所述人工智能模型未收敛，则执行步骤：基于预设的参与逻辑数据，调用每个训练参与方各自对应的人工智能模型，控制每个训练参与方执行相应的样本生成操作；

若更新后的所述人工智能模型收敛，则存储更新后的所述人工智能模型。

第二方面，本申请还提供一种模型调用方法，所述模型调用方法包括：

获取模型调用指令，其中，所述模型调用指令用于调用预存的人工智能模型，所述人工智能模型基于神经网络模型实现；

根据所述模型调用指令，调用对应的人工智能模型作为对局虚拟用户，并获取所述对局虚拟用户的对局参与内容；

基于所述人工智能模型，根据所述对局参与内容控制所述对局虚拟用户与真实用户进行对局操作。

第三方面，本申请还提供一种计算机设备，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如上述的模型训练方法和/或模型调用方法的步骤。

第四方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如上述的模型训练方法和/或模型调用方法的步骤。

本申请提供一种模型训练方法、模型调用方法、设备及计算机可读存储介质，本申请通过在每次对局过程中，不断调用每个训练参与方各自对应的人工智能模型，控制每个训练参与方执行相应的样本生成操作，得到样本数据，在一次对局结束后，可以提取样本数据中的类图像特征和向量特征，用于对人工智能模型进行训练更新，从而不断优化人工智能模型中的神经网络参数，使其人工智能模型收敛，整个训练过程不需要依赖大量水平较高的用户之间的对局数据，可以充分的利用各训练参与方的数据对人工智能模型进行训练，有效的提高了人工智能模型的准确性。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种模型训练方法的流程示意图；

图2为图1中的模型训练方法的子步骤流程示意图；

图3为本申请一实施例中类图像特征的一示意图；

图4为本申请一实施例中人工智能模型的一层级示意图；

图5为本申请一实施例中训练人工智能模型的一场景示意图；

图6为本申请实施例提供的一种模型调用方法的流程示意图；

图7为本申请一实施例涉及的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本申请实施例提供一种模型训练方法、模型调用方法、设备及计算机可读存储介质。其中，该模型训练方法可应用于服务器中，该服务器可以为单台的服务器，也可以为由多台服务器组成的服务器集群。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，图1为本申请的实施例提供的一种模型训练方法的流程示意图。

如图1所示，该模型训练方法包括步骤S101至步骤S106。

步骤S101、调用每个训练参与方各自对应的人工智能模型，控制每个训练参与方执行相应的样本生成操作，其中，所述人工智能模型基于神经网络模型实现。

在需要训练预存的人工智能模型时，服务器调用每个训练参与方各自对应的人工智能模型，控制每个训练参与方执行相应的样本生成操作，能够在样本生成操作结束后收集到样本数据，该样本数据包括参与结果信息信息、每个训练参与方的参与内容信息和角色信息。其中，人工智能模型基于神经网络模型实现，上述神经网络模型可基于实际情况进行设置，本申请对此不作具体限定。

在一实施例中，当检测到模型训练开始指令时，服务器调用每个训练参与方各自对应的人工智能模型，控制每个训练参与方执行相应的样本生成操作。其中，该模型训练开始指令用于控制服务器开始训练预存的人工智能模型，该模型训练开始指令可以由用户实时触发，也可以由服务器定时触发，本申请对此不作具体限定。

在一实施例中，如图2所示，步骤S101包括：子步骤S1011至子步骤S1012。

子步骤S1011，基于预设的参与逻辑数据，给每个训练参与方分配角色信息和参与内容，并从所述参与逻辑数据中获取参与逻辑信息。

其中，该参与逻辑数据包括参与方数量、角色参与信息、参与内容的分配策略和参与逻辑信息。参与逻辑数据用于确定训练参与方的参与逻辑、数量、角色参与信息和参与内容，参与逻辑信息用于确定训练参与方在参与样本生成操作过程中输出的参与内容之间的逻辑，该训练参与方内容的分配策略用于给训练参与方分配参与内容，参与逻辑数据可根据牌类游戏的类型进行设置，本申请对此不作具体限定。

例如，斗地主的参与逻辑数据包括的训练参与方数量为三个，即三个训练参与方，角色参与信息为三个训练参与方中的一个训练参与方的角色为地主，另外两个训练参与方的角色为农民；参与内容的分配策略为角色为地主的训练参与方的参与内容是随机的20张牌，角色为农民的训练参与方的参与内容是随机的17张牌，角色为地主的训练参与方先出完20张牌；参与逻辑信息包括下家出的牌与上家出的牌的类型相同，且下家出的牌大于上家出的牌，或者下家出的牌与上家出的牌的类型不同，且下家出的牌为4个相同的牌或为两个大小王牌，以及角色为地主的训练参与方取得胜利，而角色为农民的训练参与方先出完17张牌，则角色为农民的训练参与方取得胜利。

在需要训练预存的人工智能模型时，服务器基于预设的参与逻辑数据，给每个训练参与方分配角色信息和参与内容，并从参与逻辑数据中获取参与逻辑信息。其中，参与逻辑信息包括取得胜利的确定条件。以斗地主为例，取得胜利的确定条件为：角色为地主的训练参与方先出完20张牌，则角色为地主的训练参与方取得胜利，而角色为农民的训练参与方先出完17张牌，则角色为农民的训练参与方取得胜利。

具体地，服务器从预设的参与逻辑数据中获取训练参与方数量，并按照该训练参与方数量，创建对应数量的训练参与方，创建的训练参与方与一个人工智能模型对应；从该参与逻辑数据中获取角色参与信息，并按照该角色参与信息，随机的给每个训练参与方分配角色信息；从该参与逻辑数据中获取参与内容的分配策略，并按照该分配策略，给每个训练参与方分配参与内容。

以斗地主为例，服务器创建三个训练参与方，给一个训练参与方分配地主角色，给另外两个训练参与方分配农民角色，给地主角色的训练参与方分配的参与内容为20张牌，且这20张牌为R222AAAKKK101099874433，底牌为R23，给两个农民角色的训练参与方分配的参与内容分别为17张牌，且这两个17张牌分别为B2AKQJJ101099874433，QQQJJ887766665555。

子步骤S1012、根据所述参与逻辑信息和分配给每个训练参与方的参与内容和角色信息，调用每个训练参与方各自对应的人工智能模型，控制每个训练参与方执行相应的样本生成操作。

具体地，根据每个训练参与方的角色信息，确定每个训练参与方在首轮样本生成操作中的内容输出顺序，并按照每个训练参与方在首轮样本生成操作中的内容输出顺序，依次根据参与逻辑信息、每个训练参与方的参与内容和人工智能模型，控制每个训练参与方输出该参与内容中的部分参与内容；根据上一轮输出的部分参与内容，重新确定每个训练参与方在当前轮样本生成操作中的内容输出顺序，并更新每个训练参与方的参与内容；按照每个训练参与方在当前轮样本生成操作中的内容输出顺序，依次根据参与逻辑信息、每个训练参与方的更新后的参与内容和人工智能模型，控制每个训练参与方输出更新后的参与内容中的部分参与内容；重复上述两个步骤，直到其中一个训练参与方的参与内容已输出完时，完成对局，得到样本数据。

在一实施例中，服务器按照每个训练参与方在首轮样本生成操作中的内容输出顺序，确定待输出内容的训练参与方；获取已输出的历史参与内容、上家训练参与方输出的部分参与内容、待输出内容的训练参与方的参与内容和角色信息；将已输出的历史参与内容、上家训练参与方输出的部分参与内容、待输出内容的训练参与方的参与内容和角色信息输入至该人工智能模型，得到若干待输出的部分参与内容的输出概率；根据参与逻辑信息和若干待输出的部分参与内容的输出概率，控制待输出内容的训练参与方输出对应的部分参与内容。

在一实施例中，服务器根据每个待输出的部分参与内容的输出概率，对若干待输出的部分参与内容进行筛选，得到输出概率大于或等于概率阈值的待输出的部分参与对局内容，记为候选部分参与内容；从该参与逻辑信息中获取上家训练参与方输出的部分参与内容所属的第一类别标签以及从该参与逻辑信息中获取每个候选部分参与内容的第二类别标签；根据第一类别标签、每个第二类别标签和每个候选部分参与内容，控制待输出内容的训练参与方输出对应的部分参与内容。

在一实施例中，服务器根据第一类别标签和每个第二类别标签，对每个候选部分参与内容进行筛选，经过筛选后的候选部分参与内容所属的第二类别标签与第一类别标签相同；将该输出概率最大的，且经过筛选后的候选部分参与内容作为目标部分参与内容，并控制待输出内容的训练参与方输出该目标部分参与内容。

以斗地主为例对上述样本生成操作进行解释说明，设地主角色的训练参与方A的参与内容为R222AAAKKK101099874433，地主角色上家的农民角色的训练参与方B的参与内容为B2AKQJJ101099874433，地主下家的农民角色的训练参与方C的参与内容为QQQJJ887766665555，则首轮的内容输出顺序为训练参与方A、训练参与方B和训练参与方C；因此，在首轮中，训练参与方A先输出内容，且输出的内容为“33”，则服务器将训练参与方A输出的内容“33”、训练参与方C的参与内容QQQJJ887766665555和角色信息输入至人工智能模型，可以得到待输出的内容为“55”、“66”、“77”、“88”、“JJ”、“QQ”、“6666”和“5555”的输出概率，并根据待输出的内容为“55”、“66”、“77”、“88”、“JJ”、“QQ”、“6666”和“5555”的输出概率和斗地主的参与逻辑信息，可以得到训练参与方C输出的内容为“77”，类似地，训练参与方B输出的内容为“99”，此时完成首轮样本生成操作；

通过上一轮输出的内容可知，内容输出顺序仍为训练参与方A、训练参与方B和训练参与方C，且对局训练参与方A、训练参与方B和训练参与方C的参与内容更新为R222AAAKKK1010998744，B2AKQJJ1010874433和QQQJJ8866665555，服务器将训练参与方A的参与内容R222AAAKKK1010998744、角色信息和训练参与方C输出的对局内容“99”输入至人工智能模型，可以得到待输出的内容为“1010”、“KK”、“AA”和“22”、的输出概率，根据待输出的内容为“1010”、“KK”、“AA”和“22”的输出概率和斗地主的参与逻辑信息，可以得到训练参与方A输出的内容为“1010”，类似地，训练参与方C输出的内容为“JJ”，训练参与方B输出的内容为空，此时完成第二轮样本生成操作；

通过上一轮输出的内容可知，内容输出顺序仍为训练参与方A、训练参与方B和训练参与方C，且训练参与方A、训练参与方B和训练参与方C的参与内容更新为R222AAAKKK8744、B2AKQJJ1010874433和QQQ8866665555，服务器将训练参与方C输出的内容“JJ”、训练参与方A的参与内容R222AAAKKK998744和角色信息输入至人工智能模型，可以得到待输出的内容为“KK”、“AA”、“22”和空的输出概率，根据待输出的内容为“KK”、“AA”、“22”和空的输出概率，可以得到训练参与方A输出的内容为空，此时完成第三轮样本生成操作；

通过上一轮输出的内容可知，内容输出顺序为训练参与方C、训练参与方B和训练参与方A，且训练参与方A、训练参与方B和训练参与方C的参与内容更新为R222AAAKKK8744、B2AKQJJ1010874433和QQQ8866665555，则将训练参与方A输出的内容、训练参与方C的参与内容QQQ8866665555和角色信息输入至人工智能模型，可以得到待输出的内容为“8”、“Q”、“QQ”、“88”“QQQ88”、“5555”和“6666”等的输出概率，根据待输出的内容为“8”、“Q”、“QQ”、“88”“QQQ88”、“5555”和“6666”等的输出概率，可以得到训练参与方C输出的内容为“QQQ88”，类似地，训练参与方B输出的内容为空，训练参与方A输出的内容为“KKK44”，类似地，下一轮中训练参与方C输出的内容为“5555”，训练参与方B输出的内容为空，训练参与方A输出的内容为空，此时，训练参与方C继续输出，且输出的内容为“6666”，训练参与方C的参与内容已全部输出完，因此，样本生成操作结束，参与结果信息为农民取得胜利。

步骤S102、当所述样本生成操作完成后，获取所述样本生成操作对应的样本数据，其中，所述样本数据包括参与结果信息、每个训练参与方的角色信息和参与内容信息。

在执行相应的样本生成操作过程中，服务器记录每个训练参与方的角色信息和参与内容信息，参与内容信息包括每轮训练参与方输出的部分参与内容和输出的部分参与内容的输出概率，在样本生成操作结束时，得到样本数据，并将样本数据存储在本地磁盘或者存储至云端服务器。

当样本生成操作完成后，服务器获取该样本生成操作对应的样本数据，即从本地磁盘或者云端服务器中获取该样本生成操作对应的样本数据，其中，该样本数据包括参与结果信息、每个训练参与方的角色信息和参与内容信息。

步骤S103、对所述样本数据进行特征提取，得到类图像特征和向量特征，其中，所述类图像特征用于表征每个训练参与方的参与内容信息，所述向量特征用于表征每个训练参与方的参与结果信息和角色信息。

在获取到样本数据之后，服务器对该样本数据进行特征提取，得到类图像特征和向量特征。其中，该类图像特征用于表征每个训练参与方的参与内容信息，该向量特征用于表征每个训练参与方的参与结果信息和角色信息。

具体地，从该样本数据中获取参与逻辑标签，并获取参与逻辑标签对应的特征提取策略；按照特征提取策略，对样本数据进行特征提取，得到类图像特征和向量特征。需要说明的是，该参与逻辑标签与特征提取策略具有对应关系，不同牌类游戏的参与逻辑标签不同，也即不同牌类游戏的特征提取策略不同，特征提取策略可基于实际情况进行设置，本申请对此不作具体限定。

在一实施例中，可以由执行样本生成操作的服务器对该样本数据进行特征提取，得到类图像特征和向量特征的提取，也可以由部署的另外一个服务器对该样本数据进行特征提取，得到类图像特征和向量特征的提取，本申请对此不作具体限定。

以下以斗地主为例对类图像特征和向量特征进行解释说明。该类图像特征的横轴为所有牌的字符按从大到小排列，该类图像特征的纵轴为每种牌对应字符的个数，如果字符的个数为1，则纵轴为[1000]，如果字符的个数为2，则纵轴为[1100]，如果字符的个数为3，则纵轴为[1110]，如果字符的个数为4，则纵轴为[1111]，该类图像特征包括13个通道，分别为训练参与方的参与内容(1个通道)、最近第一轮三个训练参与方输出的对局内容(3个通道)、最近第二轮三个训练参与方输出的对局内容(3个通道)、最近第三轮三个训练参与方的对局内容(3个通道)、最近第三轮之前输出的全部对局内容(1个通道)、未输出的全部对局内容(1个通道)和底牌(1个通道)。

图3为本申请一实施例中类图像特征的一示意图，如图3所示，该类图像特征包括13个通道，图3中的A图为当前训练参与方的参与内容BR22AAKK10109873的特征表达，图3中的B图为最近第一轮上家训练参与方输出的内容QQQ8的特征表达，图3中的C图为最近第二轮上家训练参与方输出的内容4445的特征表达，图3中的D图为最近第三轮上家训练参与方输出的内容6663的特征表达，图3中的E图为最近第三轮之前输出的内容210109988765433的特征表达，图3中的F图为未输出的内容BR222AAAAKKKKQJJJJ101099777的特征表达，图3中的G图为底牌R23的特征表达，图3中的H图为最近第一轮当前训练参与方输出的内容、最近第一轮下家训练参与方输出的内容、最近第二轮当前训练参与方输出的内容、最近第二轮下家训练参与方输出的内容、最近第三轮当前训练参与方输出的内容或最近第三轮下家训练参与方输出的内容的特征表达。

该向量特征包括训练参与方的角色信息、持牌数、参与结果信息，还包括上家训练参与方的出牌数量、当前训练参与方的参与内容中是否有比上家训练参与方输出的对局内容大的对局内容，例如，角色信息为地主，则角色信息编码为1，若角色信息为农民，则角色编码为0，持牌数的编码处于00000(持0张牌)至10100(持20张牌)之间，参与结果信息为地主取得胜利，则编码为01，参与结果信息为农民取得胜利，则编码为11，上家训练参与方的出牌数量的编码处于00000(出0张牌)至10100(出20张牌)之间，当前训练参与方的参与内容中有比上家训练参与方输出的内容大的内容，则对应的编码为1，反之当前训练参与方的参与内容中没有比上家训练参与方输出的内容大的内容，则对应的编码为0。

例如，三个训练参与方的角色信息分别为地主、农民和农民，三个训练参与方的持牌数分别为15、12和8，参与结果信息为农民取得胜利，上家训练参与方的出牌数量为5，当前训练参与方的参与内容中有比上家训练参与方输出的内容大的内容，则对应的向量特征为：[1，0，0，01111，01100，01000，00101，1，11]。

步骤S104、根据所述类图像特征和向量特征，对每个训练参与方各自对应的所述人工智能模型进行训练更新。

在得到类图像特征和向量特征之后，服务器基于预设的强化学习逻辑，根据类图像特征和向量特征，对每个训练参与方各自对应的人工智能模型进行训练更新。其中，强化学习逻辑可基于实际情况进行设置，本申请对此不作具体限定。该强化学习逻辑用于控制人工智能模型以“试错”的方式进行学习，能够在样本数据较少的情况下，通过无依赖的强化学习对人工智能模型进行训练，可以提高人工智能模型的准确度。

请参照图4，图4为本申请实施例中人工智能模型的一层级示意图，如图4所示，该人工智能模型包括第一全连接层、第二全连接层、第三全连接层、第一卷积层、第二卷积层、主策略预测层、从策略预测层和胜率预测层，第一全连接层与第二全连接层连接，第一卷积层与第二卷积层连接，第二卷积层和第二卷积层分别与第三全连接层连接，第三全连接层分别与主策略预测层、从策略预测层和胜率预测层连接。

在一实施例中，服务器通过第一全连接层和第二全连接层，对向量特征进行处理，得到第一目标向量；通过第一卷积层和第二卷积层，对类图像特征进行卷积处理，得到第二目标向量；通过第三全连接层对第一目标向量和第二目标向量进行拼接，得到拼接向量；通过主策略预测层基于拼接向量，确定主策略标签的概率分布，并通过从策略预测层基于拼接向量，确定从策略标签的概率分布，且通过胜率预测层基于拼接向量，确定胜率；根据主策略标签的概率分布、从策略标签的概率分布和胜率，对人工智能模型的神经网络参数进行更新。需要说明的是，神经网络参数的更新算法可基于实际情况进行设置，本申请对此不作具体限定，可选地，基于反向传播算法更新人工智能模型的神经网络参数。

其中，在对人工智能模型进行训练更新的过程中，根据主策略标签的概率分布、从策略标签的概率分布、胜率以及样本数据中主策略标签的概率分布、从策略标签的概率分布和胜率，可以确定人工智能模型的模型损失值，并缓存模型损失值。损失函数为(Loss)＝Loss1+Loss2+Loss3+Loss4，Loss1由主策略预测层确定，且Loss1为189个主策略标签的交叉熵损失函数，Loss2由从策略预测层确定，且Loss2为212个从策略标签的交叉熵损失函数，Loss3由主策略预测层和从策略预测层确定，Loss3为经过人工智能模型输出的策略标签的概率分布，与样本数据中的策略标签的概率分布的分布差异损失函数，Loss4为训练参与方取得对局胜利的概率预测。

步骤S105，确定更新后的所述人工智能模型是否收敛；

在对人工智能模型更新后，确定更新后的所述人工智能模型是否收敛。具体地，获取训练更新人工智能模型时所记录的模型损失值，并确定模型损失值是否小于或等于预设的损失值阈值，如果该模型损失值小于或等于预设的损失值阈值，则确定更新后的人工智能模型收敛，若模型损失值大于预设的损失值阈值，则确定更新后的人工智能模型未收敛。需要说明的是，上述损失值阈值可基于实际情况进行设置，本申请对此不作具体限定。

步骤S106、若更新后的所述人工智能模型收敛，则存储更新后的所述人工智能模型。

若更新后的人工智能模型未收敛，则执行步骤S101，即调用每个训练参与方各自对应的人工智能模型，控制每个训练参与方执行相应的样本生成操作，并继续执行步骤S102至步骤S104，直到更新后的人工智能模型收敛。若更新后的人工智能模型收敛，则停止模型训练，并存储更新后的人工智能模型，以供后续调用。

请参照图5，图5为本申请实施例中训练人工智能模型的一场景示意图，如图5所示，调用每个训练参与方各自对应的人工智能模型，控制每个训练参与方执行相应的样本生成操作，在样本生成过程中收集样本数据，并存储样本数据，在样本生成操作完成后，从样本数据中提取特征，并基于提取到的特征对人工智能模型进行训练，以更新人工智能模型。

上述实施例提供的模型训练方法，通过在每次对局过程中，不断调用每个训练参与方各自对应的人工智能模型，控制每个训练参与方执行相应的样本生成操作，得到样本数据，在一次对局结束后，可以提取样本数据中的类图像特征和向量特征，用于对人工智能模型进行训练更新，从而不断优化人工智能模型中的神经网络参数，使其人工智能模型收敛，整个训练过程不需要依赖大量水平较高的用户之间的对局数据，可以充分的利用各训练参与方的数据对人工智能模型进行训练，有效的提高了人工智能模型的准确性。

请参照图6，图6为本申请实施例提供的一种模型调用方法的流程示意图。

如图6所示，该模型调用方法包括步骤S201至203。

步骤S201、获取模型调用指令，其中，所述模型调用指令用于调用预存的人工智能模型，所述人工智能模型基于神经网络模型实现。

服务器获取模型调用指令，该模型调用指令用于调用预存的人工智能模型。其中，该人工智能模型基于神经网络模型实现，人工智能模型可以通过软件开发工具包(Software Development Kit，SDK)的形式存储在本地，或者人工智能模型存储在云端服务器，本申请对此不作具体限定。

在一实施例中，该人工智能模型的层级如图4所示，该人工智能模型包括第一全连接层、第二全连接层、第三全连接层、第一卷积层、第二卷积层、主策略预测层、从策略预测层和胜率预测层，第一全连接层与第二全连接层连接，第一卷积层与第二卷积层连接，第二卷积层和第二卷积层分别与第三全连接层连接，第三全连接层分别与主策略预测层、从策略预测层和胜率预测层连接。其中，主策略预测层用于确定主策略标签的输出概率分布，从策略预测层用于确定从策略标签的输出概率分布，胜率预测层用于确定对局参与方的对局结果为对局胜利的概率分布。

在一实施例中，接收终端设备发送的对局控制指令，并从该对局控制指令中获取对局控制标签；当对局控制标签位于预设的对局控制标签组时，根据对局控制标签，生成对应的模型调用指令。需要说明的是，该对局控制指令与真实用户的操作存在对应关系，也即对局控制指令中的对局控制标签与真实用户的操作存在对应关系，真实用户的不同操作对应不同的对局控制指令，该预设的对局控制标签组可基于实际情况进行设置，本申请对此不作具体限定。可选地，预设的对局控制标签组包括对局模式为人机对局模式对应的对局控制标签、对局模式为快速匹配模式对应的对局控制标签、在线托管对应的对局控制标签和离线托管对应的对局控制标签。

在一实施例中，在对局过程中，终端设备检测真实用户的对局状态是否为对局离线状态；当检测真实用户的对局状态为对局离线状态时，触发包含离线托管对应的对局控制标签的对局控制指令，并将该对局控制指令发送至服务器，由于该对局控制指令中的离线托管对应的对局控制标签位于预设的对局控制标签组，因此服务器生成对应的模型调用指令；当检测真实用户的对局状态为对局在线状态时，不触发对局控制指令。通过监测真实用户的对局状态，能够在真实用户离线时，调用人工智能模型进行对局托管，可以减少由于离线造成的损失，提高用户体验。

在一实施例中，在对局过程中，真实用户可以操作终端设备中的在线托管控件实现对局的在线托管，具体为：检测真实用户对在线托管控件的触发操作，并在检测到真实用户对在线托管控件的触发操作时，触发包含在线托管对应的对局控制标签的对局控制指令，并将该对局控制指令发送至服务器，由于该对局控制指令中的在线托管对应的对局控制标签位于预设的对局控制标签组，因此服务器生成对应的模型调用指令。通过在线托管功能，可以在真实用户忙碌时，调用人工智能模型进行对局托管，可以减少由于离线造成的损失以及其余真实用户的长时间等待，提高用户体验。

在一实施例中，在对局开始前，真实用户可以选择对局模式参与不同模式的对局，具体为：终端设备获取用户对模式选择界面的模式选择操作，并根据该模式选择操作，生成对应的对局控制指令，且将该对局控制指令发送至服务器，由于该对局控制指令中的对局模式对应的对局控制标签位于预设的对局控制标签组，因此服务器生成对应的模型调用指令，其中，该对局控制指令包括对局模式对应的对局控制标签，对局模式对应的对局控制标签包括人机对局模式对应的对局控制标签、快速匹配模式对应的对局控制标签和真人对局模式对应的对局控制标签。

在一实施例中，在对局开始后，终端设备检测真实用户是否处于直播状态，当检测到真实用户处于直播状态，则调用人工智能模型基于真实用户的对局参与内容和对局角色，确定当前对局的胜率，并显示胜率。使得直播的真实用户可以知晓当前对局的胜率，便于讲解，极大的提高了用户体验。

步骤S202、根据所述模型调用指令，调用对应的人工智能模型作为对局虚拟用户，并获取所述对局虚拟用户的对局参与内容。

在获取到模型调用指令后，根据该模型调用指令，调用对应的人工智能模型作为对局虚拟用户，并获取对局虚拟用户的对局参与内容。其中，该模型调用指令携带有模型调用参数，该模型调用参数包括但不限于模型等级和模型数量，该模型等级用于表征人工智能模型的对局水平程度，模型等级越高的人工智能模型，则对局水平程度越高，模型等级越低的人工智能模型，则对局水平程度越低，该模型数量为人工智能模型调用的个数，对局虚拟用户输出的对局内容由服务器通过神经网络模型控制。

具体地，从模型调用指令中获取模型调用参数，其中，模型调用参数包括模型等级和模型数量，该模型等级用于表征人工智能模型的对局水平程度；根据模型调用参数，调用对应的人工智能模型作为对局虚拟用户，即按照该模型数量，调用对应数量的与该模型等级对应的人工智能模型作为对局虚拟用户。

在一实施例中，人工智能模型的调用方式可以为本地调用，也可以为云端远程调用，本地调用为将对局参与内容、对局角色和已输出的对局内容输入至从本地磁盘中的人工智能模型，得到待输出的对局内容以及待输出的对局内容的概率分布，并按照待输出的对局内容以及待输出的对局内容的概率分布输出对应的对局内容；云端远程调用为终端设备将对局参与内容、对局角色和已输出的对局内容打包请求发送至云端，由云端中的人工智能模型得到待输出的对局内容以及待输出的对局内容的概率分布，并将待输出的对局内容以及待输出的对局内容的概率分布返回给服务器，由服务器按照待输出的对局内容以及待输出的对局内容的概率分布输出对应的对局内容。

在一实施例中，该模型调用指令由基于包含离线或在线托管对应的对局控制标签的对局控制指令生成时，模型等级默认为最高等级，模型数量为1，因此，调用一个最高等级的人工智能模型作为对局虚拟用户，并获取托管前的真实用户的对局参与内容，且将托管前的真实用户的对局参与内容作为对局虚拟用户的对局参与内容。

在一实施例中，模型调用指令的生成方式具体为：当对局控制指令为包含人机对局模式对应的对局控制标签或快速匹配模式对应的对局控制标签的对局控制指令时，服务器根据该对局控制指令中的用户标识符，获取真实用户的对局等级和历史对局结果信息；根据该对局等级和历史对局结果信息，确定模型等级，并根据对局控制标签，确定模型数量；根据确定的模型等级和模型数量，生成对应的模型调用指令。

其中，模型等级的确定方式具体为：根据该历史对局结果信息，确定该真实用户的对局结果为对局失败的连续次数，记为连败次数，并确定该连败次数是否大于或等于预设的次数阈值，若该连败次数大于或等于预设的次数阈值，则用真实用户的对局等级减去至少一个等级，得到模型等级，若该连败次数小于预设的次数阈值，则用真实用户的对局等级加上至少一个等级，得到模型等级。通过在真实用户的对局失败的连续次数较多时，通过接入模型等级较低的人工智能模型与真实用户对局，可以提高用户体验，而通过接入模型等级较高的人工智能模型与真实用户对局，可以提高用户的对局水平，有效的提高用户体验。

其中，模型数量的确定方式为：获取对局控制标签与模型数量之间的映射关系表，并查询该映射关系表，获取该对局控制标签对应的模型数量。需要说明的是，上述对局控制标签与模型数量之间的映射关系表可基于实际情况进行设置，本申请对此不作具体限定。

步骤S203、基于所述人工智能模型，根据所述对局参与内容控制所述对局虚拟用户与真实用户进行对局操作。

在确定对局虚拟用户和对局虚拟用户的对局参与内容之后，基于该人工智能模型，根据对局参与内容控制对局虚拟用户与真实用户进行对局操作。以下以牌类游戏中的斗地主为例，对控制对局虚拟用户与真实用户进行对局操作进行解释说明。

示例性的，对局虚拟用户A为地主，两个真实用户为农民，且对局参与内容为R222AAAKKK101099874433，位于对局虚拟用户A上家的真实用户B的对局参与内容为B2AKQJJ101099874433，位于对局虚拟用户A下家的真实用户C的对局参与内容为QQQJJ887766665555，地主先出牌，因此将对局参与内容R222AAAKKK101099874433经过特征提取后输入至人工智能模型，得到“33”、“44”、“KKK7”和“AAA8”等待输出的对局内容的概率分布，通过“33”、“44”、“KKK7”和“AAA8”等待输出的对局内容的概率分布，控制对局虚拟用户A输出的对局内容为“33”，而真实用户C输出的对局内容为“77”，真实用户B输出的对局内容为“99”；基于人工智能模型控制对局虚拟用户A输出的对局内容为“1010”，真实用户C输出的对局内容为“JJ”，真实用户B输出的对局内容为空；控制对局虚拟用户A输出的对局内容也为空，真实用户C继续输出的对局内容为“QQQ88”，真实用户B输出的对局内容为空；基于人工智能模型控制对局虚拟用户A输出的对局内容为“KKK44”，真实用户C继续输出的对局内容为“5555”，真实用户B输出的对局内容为空；控制对局虚拟用户A输出的对局内容为空，真实用户C继续输出的对局内容为“6666”，真实用户C的的对局参与内容已全部输出完，因此，对局结束，对局结果为农民取得对局胜利。

上述实施例提供的模型调用方法，通过获取到的模型调用指令调用对应的人工智能模型作为对局虚拟用户，并获取对局虚拟用户的对局参与内容，从而可以基于该人工智能模型，根据对局参与内容控制对局虚拟用户与真实用户进行对局操作，能够在需要调用人工智能模型与真实用户进行对局操作时，实现人工智能模型的快速调用，有效的提高用户体验。

上述实施例提供的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图7所示的计算机设备上运行。

请参阅图7，图7为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为服务器。

如图7所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种模型训练方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种模型训练方法和/或模型调用方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

在一个实施例中，所述处理器在实现调用每个训练参与方各自对应的人工智能模型，控制每个训练参与方执行相应的样本生成操作时，用于实现：

基于预设的参与逻辑数据，给每个训练参与方分配角色信息和参与内容，并从所述参与逻辑数据中获取参与逻辑信息；

根据所述参与逻辑信息和分配给每个训练参与方的参与内容和角色信息，调用每个训练参与方各自对应的人工智能模型，控制每个训练参与方执行相应的样本生成操作。

在一个实施例中，所述处理器在实现对所述样本数据进行特征提取，得到类图像特征和向量特征时，用于实现：

从所述样本数据中获取参与逻辑标签，并获取所述参与逻辑标签对应的特征提取策略；

按照所述特征提取策略，对所述样本数据进行特征提取，得到类图像特征和向量特征。

在一个实施例中，所述人工智能模型包括第一全连接层、第二全连接层、第三全连接层、第一卷积层、第二卷积层、主策略预测层、从策略预测层和胜率预测层；所述处理器在实现根据所述类图像特征和向量特征，对每个训练参与方各自对应的所述人工智能模型进行训练更新时，用于实现：

通过所述第一全连接层和第二全连接层，对所述向量特征进行处理，得到第一目标向量；

通过所述第一卷积层和第二卷积层，对所述类图像特征进行卷积处理，得到第二目标向量；

通过所述第三全连接层对所述第一目标向量和第二目标向量进行拼接，得到拼接向量；

通过所述主策略预测层基于所述拼接向量，确定主策略标签的概率分布，并通过所述从策略预测层基于所述拼接向量，确定从策略标签的概率分布，且通过所述胜率预测层基于所述拼接向量，确定胜率；

根据所述主策略标签的概率分布、从策略标签的概率分布和胜率，对所述人工智能模型的神经网络参数进行更新。

在一个实施例中，所述处理器在实现确定更新后的所述人工智能模型是否收敛时，用于实现：

获取训练更新所述人工智能模型时所记录的模型损失值，并确定所述模型损失值是否小于或等于预设的损失值阈值；

若所述模型损失值小于或等于预设的损失值阈值，则确定更新后的所述人工智能模型收敛，若所述模型损失值大于预设的损失值阈值，则确定更新后的所述人工智能模型未收敛。

在一实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

在一个实施例中，所述处理器在实现获取模型调用指令时，用于实现：

接收终端设备发送的对局控制指令，并从所述对局控制指令中获取对局控制标签；

当所述对局控制标签位于预设的对局控制标签组时，根据所述对局控制标签，生成对应的模型调用指令。

在一个实施例中，所述处理器在实现根据所述模型调用指令，调用对应的人工智能模型作为对局虚拟用户时，用于实现：

从所述模型调用指令中获取模型调用参数，所述模型调用参数包括模型等级和模型数量，所述模型等级用于表征所述人工智能模型的对局水平程度；

根据所述模型调用参数，调用对应的人工智能模型作为对局虚拟用户。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的计算机设备的具体工作过程，可以参考前述模型训练方法和/或模型调用方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时所实现的方法可参照本申请模型训练方法和/或模型调用方法的各个实施例。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的模型训练方法，其特征在于，所述调用每个训练参与方各自对应的人工智能模型，控制每个训练参与方执行相应的样本生成操作，包括：

3.根据权利要求1所述的模型训练方法，其特征在于，所述对所述样本数据进行特征提取，得到类图像特征和向量特征，包括：

4.根据权利要求1所述的模型训练方法，其特征在于，所述人工智能模型包括第一全连接层、第二全连接层、第三全连接层、第一卷积层、第二卷积层、主策略预测层、从策略预测层和胜率预测层；所述根据所述类图像特征和向量特征，对每个训练参与方各自对应的所述人工智能模型进行训练更新，包括：

5.根据权利要求1至4中任一项所述的模型训练方法，其特征在于，所述确定更新后的所述人工智能模型是否收敛，包括：

6.一种模型调用方法，其特征在于，包括：

7.根据权利要求6所述的模型调用方法，其特征在于，所述获取模型调用指令，包括：

8.根据权利要求6所述的模型调用方法，其特征在于，所述根据所述模型调用指令，调用对应的人工智能模型作为对局虚拟用户，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如权利要求1至5中任一项所述的模型训练方法，和/或实现如权利要求6至8中任一项所述的模型调用方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如权利要求1至5中任一项所述的模型训练方法，和/或实现如权利要求6至8中任一项所述的模型调用方法。