CN111265881A

CN111265881A - 一种模型训练方法、内容生成方法以及相关装置

Info

Publication number: CN111265881A
Application number: CN202010073390.0A
Authority: CN
Inventors: 黄超
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2020-06-12
Anticipated expiration: 2040-01-21
Also published as: US20220148295A1; EP4005652A1; WO2021147473A1; EP4005652A4; CN111265881B

Abstract

本申请公开了一种模型训练方法、内容生成方法以及相关装置，应用于基于人工智能的卡牌内容生成过程中，通过获取包括多个卡牌内容的视频帧作为训练集，并确定视频帧中的特征区域；然后统计特征区域的触发情况，以生成特征向量并输入第一模型进行训练，以得到用于指示目标卡牌内容与动作标签的对应关系的第二模型。从而实现了基于特征区域的模仿学习训练过程，由于特征区域为视频帧对应卡牌图像的一部分，不包含背景部分或其他干扰区域，使得模型训练过程具有针对性，减小了模型训练过程中的数据处理量，提高了模型训练效率以及准确性。

Description

一种模型训练方法、内容生成方法以及相关装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种模型训练方法、内容生成方法以及相关装置。

背景技术

随着移动终端相关技术的发展，越来越多的智能设备出现在人们的生活中，其中，通过智能设备进行内容交互为主要应用之一，例如：游戏内容交互，为保证内容对于用户的吸引性，需要对内容进行长期的针对性更新，可以通过人工智能(ArtificialIntelligence，AI)进行内容的智能更新。

一般，可以基于图像的AI模仿学习训练方案，即将内容图像作为深度网络的输入，并通过卷积层和全连接层提取图像的深度特征，以对相关模型进行训练，最终通过训练后的模型输出针对性内容。

但是，由于在模范学习的过程中，内容图像的特征繁多，且存在一些干扰内容，即无实际内容指示的部分，容易造成模型训练的过拟合，且训练量大，影响模型训练的效率以及准确性。

发明内容

有鉴于此，本申请提供一种模型训练的方法，可以有效避免由于训练内容的背景产生的训练干扰，提高模型训练过程的效率及准确性。

本申请第一方面提供一种模型训练的方法，可以应用于终端设备中包含模型训练功能的系统或程序中，具体包括：基于多张卡牌内容的交互过程获取训练集，所述训练集包括多个视频帧，所述视频帧包括所述卡牌内容的触发区域；

根据所述卡牌内容的触发区域确定所述视频帧中的特征区域，所述特征区域设有用于指示训练内容的动作标签，所述动作标签基于所述卡牌内容确定，所述特征区域小于所述视频帧的界面区域；

统计所述特征区域的触发情况，以生成特征向量；

将所述特征向量输入第一模型进行训练，以得到第二模型，所述第一模型用于关联所述特征向量与所述动作标签，所述第二模型用于指示目标卡牌内容与所述动作标签的对应关系。

可选的，在本申请一些可能的实现方式中，所述根据所述卡牌内容的触发区域确定所述视频帧中的特征区域，包括：

根据所述卡牌内容的触发区域确定所述训练内容在所述视频帧中的位置信息；

根据所述位置信息与所述训练内容的对应关系对第三模型进行训练，以得到第四模型，所述第三模型用于关联所述位置信息与所述训练内容，所述第四模型用于指示所述视频帧与所述特征区域的对应关系；

将所述视频帧输入所述第四模型，以得到所述特征区域。

可选的，在本申请一些可能的实现方式中，所述根据所述卡牌内容的触发区域确定所述训练内容在所述视频帧中的位置信息之前，所述方法还包括：

确定所述训练内容对应的形状信息；

筛除所述形状信息相似的训练内容，以对所述训练内容进行更新。

可选的，在本申请一些可能的实现方式中，所述根据所述位置信息与所述训练内容的对应关系对第三模型进行训练，以得到第四模型，包括：

根据所述形状信息对所述训练内容进行分类，以得到至少两个类别训练内容；

根据所述类别训练内容确定第一梯度信息；

根据所述位置信息确定第二梯度信息；

通过最小化所述第一梯度信息和所述第二梯度信息对所述第三模型的参数进行训练，以得到第四模型。

可选的，在本申请一些可能的实现方式中，所述统计所述特征区域的触发情况，以生成特征向量，包括：

分别统计每个视频帧中对应的所述特征区域的触发情况，以生成特征序列，所述特征序列为多维二值序列；

根据所述特征序列生成所述特征向量。

可选的，在本申请一些可能的实现方式中，所述分别统计每个视频帧中对应的所述特征区域的触发情况，以生成特征序列，包括：

获取所述特征区域的中心点；

根据所述中心点与触发操作点的距离确定所述触发情况，以生成所述特征序列。

可选的，在本申请一些可能的实现方式中，所述将所述特征向量输入第一模型进行训练，以得到第二模型，包括：

确定所述特征向量的时序特征；

将所述特征向量输入所述第一模型进行参数调整；

将所述时序特征输入参数调整后的所述第一模型进行训练，以得到所述第二模型。

可选的，在本申请一些可能的实现方式中，所述确定所述特征向量的时序特征，包括：

按照特征提取间隔对所述特征向量进行分割，以得到至少两个特征向量集；

提取所述特征向量集中对应于相同特征区域的操作序列，以得到所述时序特征。

可选的，在本申请一些可能的实现方式中，所述基于多张卡牌内容的交互过程获取训练集，包括：

获取多张卡牌内容交互过程的等级信息，所述等级信息用于指示所述交互过程的复杂度；

根据所述等级信息提取第一牌局和第二牌局，所述第一牌局与所述第二牌局的等级信息不同；

根据所述第一牌局与所述第二牌局确定所述训练集。

可选的，在本申请一些可能的实现方式中，所述训练内容和所述目标卡牌内容为卡牌游戏的内容，所述第一模型和所述第二模型为深度网络模型。

本申请第二方面提供一种模型训练的装置，包括：获取单元，用于基于多张卡牌内容的交互过程获取训练集，所述训练集包括多个视频帧，所述视频帧包括所述卡牌内容的触发区域；

确定单元，用于根据所述卡牌内容的触发区域确定所述视频帧中的特征区域，所述特征区域设有用于指示训练内容的动作标签，所述动作标签基于所述卡牌内容确定，所述特征区域小于所述视频帧的界面区域；

统计单元，用于统计所述特征区域的触发情况，以生成特征向量；

训练单元，用于将所述特征向量输入第一模型进行训练，以得到第二模型，所述第一模型用于关联所述特征向量与所述动作标签，所述第二模型用于指示目标卡牌内容与所述动作标签的对应关系。

可选的，在本申请一些可能的实现方式中，所述确定单元，具体用于根据所述卡牌内容的触发区域确定所述训练内容在所述视频帧中的位置信息；

所述确定单元，具体用于根据所述位置信息与所述训练内容的对应关系对第三模型进行训练，以得到第四模型，所述第三模型用于关联所述位置信息与所述训练内容，所述第四模型用于指示所述视频帧与所述特征区域的对应关系；

所述确定单元，具体用于将所述视频帧输入所述第四模型，以得到所述特征区域。

可选的，在本申请一些可能的实现方式中，所述确定单元，还用于确定所述训练内容对应的形状信息；

所述确定单元，还用于筛除所述形状信息相似的训练内容，以对所述训练内容进行更新。

可选的，在本申请一些可能的实现方式中，所述确定单元，具体用于根据所述形状信息对所述训练内容进行分类，以得到至少两个类别训练内容；

所述确定单元，具体用于根据所述类别训练内容确定第一梯度信息；

所述确定单元，具体用于根据所述位置信息确定第二梯度信息；

所述确定单元，具体用于通过最小化所述第一梯度信息和所述第二梯度信息对所述第三模型的参数进行训练，以得到第四模型。

可选的，在本申请一些可能的实现方式中，所述统计单元，具体用于分别统计每个视频帧中对应的所述特征区域的触发情况，以生成特征序列，所述特征序列为多维二值序列；

所述统计单元，具体用于根据所述特征序列生成所述特征向量。

可选的，在本申请一些可能的实现方式中，所述统计单元，具体用于获取所述特征区域的中心点；

所述统计单元，具体用于根据所述中心点与触发操作点的距离确定所述触发情况，以生成所述特征序列。

可选的，在本申请一些可能的实现方式中，所述训练单元，具体用于确定所述特征向量的时序特征；

所述训练单元，具体用于将所述特征向量输入所述第一模型进行参数调整；

所述训练单元，具体用于将所述时序特征输入参数调整后的所述第一模型进行训练，以得到所述第二模型。

可选的，在本申请一些可能的实现方式中，所述训练单元，具体用于按照特征提取间隔对所述特征向量进行分割，以得到至少两个特征向量集；

所述训练单元，具体用于提取所述特征向量集中对应于相同特征区域的操作序列，以得到所述时序特征。

可选的，在本申请一些可能的实现方式中，所述获取单元，具体用于获取多张卡牌内容交互过程的等级信息，所述等级信息用于指示所述交互过程的复杂度；

所述获取单元，具体用于根据所述等级信息提取第一牌局和第二牌局，所述第一牌局与所述第二牌局的等级信息不同；

所述获取单元，具体用于根据所述第一牌局与所述第二牌局确定所述训练集。

本申请第三方面提供一种内容生成的方法，包括：获取目标对象输出的第一内容；

将所述第一内容输入第二模型，以得到动作标签，所述第二模型基于上述第一方面或第一方面任一项所述的模型训练的方法训练所得；

根据所述动作标签生成第二内容。

本申请第三方面提供一种内容生成的装置，包括：获取单元，用于获取目标对象输出的第一内容；

输入单元，用于将所述第一内容输入第二模型，以得到动作标签，所述第二模型基于上述第一方面或第一方面任一项所述的模型训练的方法训练所得；

生成单元，用于根据所述动作标签生成第二内容。

本申请第五方面提供一种计算机设备，包括：存储器、处理器以及总线系统；所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的模型训练的方法，或第三方面所述的内容生成的方法。

本申请第六方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面任一项所述的模型训练的方法，或第三方面所述的内容生成的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

通过获取包括多个视频帧的训练集，并确定视频帧中的特征区域，其中特征区域设有用于指示训练内容的动作标签，特征区域小于视频帧的界面区域；然后统计特征区域的触发情况，以生成特征向量；进而将特征向量输入第一模型进行训练，以得到用于指示目标卡牌内容与动作标签的对应关系的第二模型。从而实现了基于特征区域的模仿学习训练过程，由于特征区域为视频帧对应图像的一部分，不包含背景部分或其他干扰区域，使得模型训练过程具有针对性，减小了模型训练过程中的数据处理量，提高了模型训练效率以及准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为模型训练系统运行的网络架构图；

图2为本申请实施例提供的一种模型训练的流程架构图；

图3为本申请实施例提供的一种模型训练的方法的流程图；

图4为本申请实施例提供的一种模型训练的场景示意图；

图5为本申请实施例提供的一种触发操作的场景示意图；

图6为本申请实施例提供的另一种触发操作的场景示意图；

图7为本申请实施例提供的一种特征序列生成的场景示意图；

图8为本申请实施例提供的一种模型训练的模型架构图；

图9为本申请实施例提供的另一种模型训练的方法的流程图；

图10为本申请实施例提供的一种内容生成的方法的流程图；

图11为本申请实施例提供的一种模型训练装置的结构示意图；

图12为本申请实施例提供的服务器一种结构示意图；

图13为本申请实施例提供的一种服务器的结构示意图；

图14为本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

本申请实施例提供了一种模型训练的方法以及相关装置，可以应用于终端设备中包含模型训练功能的系统或程序中，通过获取包括多个视频帧的训练集，并确定视频帧中的特征区域，其中特征区域设有用于指示训练内容的动作标签，特征区域小于视频帧的界面区域；然后统计特征区域的触发情况，以生成特征向量；进而将特征向量输入第一模型进行训练，以得到用于指示目标卡牌内容与动作标签的对应关系的第二模型。从而实现了基于特征区域的模仿学习训练过程，由于特征区域为视频帧对应图像的一部分，不包含背景部分或其他干扰区域，使得模型训练过程具有针对性，减小了模型训练过程中的数据处理量，提高了模型训练效率以及准确性。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，对本申请实施例中可能出现的一些名词进行解释。

动作标签：游戏画面对应的人工标注的动作，该动作对应于游戏的运行策略。

卷积神经网络(Convolutional Neural Network，CNN)：具有表征学习能力，能够按其阶层结构对输入信息进行平移不变的分类。

轻量级深度网络：参数量小，适用于CPU和嵌入式设备的小型深度网络，本实施例中，第一模型即为预设的轻量级深度网络模型；而第二模型即为经过卡牌内容训练集训练后的轻量级深度网络模型，即第二模型由第一模型经过参数调整所得。

深度特征：图像通过深度网络最终提取到的特征，包含了图像的抽象信息。

长短期记忆网络(Long Short-Term Memory，LSTM)：一种时间递归神经网络，主要是为了解决长序列训练过程中的梯度消失和梯度爆炸的问题，以生成基于时间序列的特征向量。

YOLO(You only look once)：是一种目标检测框架，用于获取目标区域的特征，在本实施例中，第三模型即为预设的YOLO模型；而第四模型即为经过卡牌内容的位置对应关系训练后的YOLO模型，即第四模型由第三模型经过参数调整所得。

Darknet53：是包含53层卷积层的深度网络。

DQN算法：Deep Q-learning的缩写，为深度价值学习算法。

应理解，本申请提供的模型训练方法可以应用于终端设备中包含模型训练功能的系统或程序中，例如牌类游戏，具体的，模型训练系统可以运行于如图1所示的网络架构中，如图1所示，是模型训练系统运行的网络架构图，如图可知，模型训练系统可以提供与多个信息源的模型训练，终端通过网络建立与服务器的连接，进而接收服务器发送的多个内容，并根据终端本身的策略进行对应的内容显示，另外，服务器通过收集终端上传的训练数据，对相关模型进行训练，使得生成的内容适应于目标终端；可以理解的是，图1中示出了多种终端设备，在实际场景中可以有更多或更少种类的终端设备参与到模型训练的过程中，具体数量和种类因实际场景而定，此处不做限定，另外，图1中示出了一个服务器，但在实际场景中，也可以有多个服务器的参与，特别是在多内容应用交互的场景中，具体服务器数量因实际场景而定。

应当注意的是，本实施例提供的模型训练方法也可以离线进行，即不需要服务器的参与，此时终端在本地与其他终端进行连接，进而进行终端之间的模型训练的过程，例如：单机游戏内容模拟的过程。

可以理解的是，上述模型训练系统可以运行于个人移动终端，例如：作为牌类游戏这一类应用，也可以运行于服务器，还可以作为运行于第三方设备以提供模型训练，以得到信息源的模型训练处理结果；具体的模型训练系统可以是以一种程序的形式在上述设备中运行，也可以作为上述设备中的系统部件进行运行，还可以作为云端服务程序的一种，具体运作模式因实际场景而定，此处不做限定。

随着移动终端相关技术的发展，越来越多的智能设备出现在人们的生活中，其中，通过智能设备进行内容交互为主要应用之一，例如：游戏内容交互，为保证内容对于用户的吸引性，需要对内容进行长期的针对性更新，可以通过人工智能进行内容的智能更新。

为了解决上述问题，本申请提出了一种模型训练的方法，该方法应用于图2所示的模型训练的流程框架中，如图2所示，为本申请实施例提供的一种模型训练的流程架构图，首先收集与用户相关的内容或服务器数据库的内容作为训练内容输入检测模型，进行特征区域的检测，并统计特征区域的触发情况以得到特征向量，然后基于特征向量进行模仿学习训练，进而根据用户的输入内容进行智能的内容生成。

可以理解的是，本申请所提供的方法可以为一种程序的写入，以作为硬件系统中的一种处理逻辑，也可以作为一种模型训练装置，采用集成或外接的方式实现上述处理逻辑。作为一种实现方式，该模型训练装置通过获取包括多个视频帧的训练集，并确定视频帧中的特征区域，其中特征区域设有用于指示训练内容的动作标签，特征区域小于视频帧的界面区域；然后统计特征区域的触发情况，以生成特征向量；进而将特征向量输入第一模型进行训练，以得到用于指示目标卡牌内容与动作标签的对应关系的第二模型。从而实现了基于特征区域的模仿学习训练过程，由于特征区域为视频帧对应图像的一部分，不包含背景部分或其他干扰区域，使得模型训练过程具有针对性，减小了模型训练过程中的数据处理量，提高了模型训练效率以及准确性。

结合上述流程架构，下面将对本申请中模型训练的方法进行介绍，请参阅图3，图3为本申请实施例提供的一种模型训练的方法的流程图，可以应用于牌类游戏内容的生成过程中，本申请实施例至少包括以下步骤：

301、基于多张卡牌内容的交互过程获取训练集。

本实施例中，基于多张卡牌内容的交互过程可以是通过视频的形式展现，即训练集包括多个视频帧，具体的，视频帧可以是基于目标卡牌内容选取的连续的一段视频，例如：选取1小时内连续的牌类游戏视频。

可选的，对于视频帧的获取，可以是逐帧的提取，也可以是按照一定的采样间隔进行获取，这是考虑到内容的切换过程可能存在时间间隔，即根据训练样本间隔对相邻的视频帧进行合并，以得到训练集，例如：选取1秒内的视频帧合并作为训练集中的一个样本。

302、根据卡牌内容的触发区域确定视频帧中的特征区域。

本实施例中，特征区域为基于卡牌内容的触发区域确定的区域，而出发区域即用户可以通过触发该区域进行卡牌的选择；具体的特征区域可以与触发区域相同，也可以适当的缩小，例如:去除卡牌的边框以作为特征区域；另外，特征区域设有用于指示训练内容的动作标签，特征区域小于视频帧的界面区域。

在牌类游戏的场景中，动作标签即为每张牌或其他按键所对应的逻辑动作，例如：杀、闪，且“闪”存在与“杀”的逻辑联系；而训练内容则是该牌局过程中的出牌顺序，即出牌的逻辑。

在一种可能的场景中，如图4所示，是本申请实施例提供的一种模型训练的场景示意图，图中示出了一种牌类游戏的对抗场景，图中包括确定键A1、功能牌A2、人物血量A3、装备牌A4、技能牌A5，即为不同的特征区域，每个特征区域对应着其代表的逻辑过程，其中确定键A1指示的动作标签为确认出牌，功能牌A2指示的动作标签为该卡牌内容所指示的交互逻辑，人物血量A3的动作标签为卡牌游戏过程的结束判断标识，即归零则牌局结束；装备牌A4的动作标签为对战用户之间的交互参数；技能牌A5的动作标签为附加的卡牌交互逻辑。

可选的，对于特征区域的确定过程可以是基于预先的设定，即在视频帧中标记相关的特征区域，在训练过程中直接统计标记的相关情况即可；另外，对于特征区域的确定过程还可以基于图像特征进行识别，例如：识别视频帧中图像尺寸为10*10的图像特征，并确定对应的特征区域；或识别图像中的特征字符，例如：杀、闪等字符，并基于该字符确定一定的范围为特征区域，具体的确定方法因实际场景而定。

303、统计特征区域的触发情况，以生成特征向量；

本实施例中，特征区域的触发情况即特征区域对应牌的出牌情况，具体的触发情况可以是由滑动操作触发，也开始由点击操作触发，还可以是由声控的操作方式触发，具体的触发方式因实际场景而定，此处不做限定。

可选的，在触发过程中，可以根据触发点与相关特征区域的中心点的距离确定，如图5所示，是本申请实施例提供的一种触发操作的场景示意图，图中示出了触发点与特征区域的中心点的距离B1，可以通过对于B1的设定确定特征区域是否被触发，例如：设定触发的阈值为20厘米，若触发点距离中心点的距离小于20厘米，则特征区域被触发。

另外，由于牌类游戏中存在多张牌相近的情况，此时可能存在误操作的问题，如图6所示，是本申请实施例提供的另一种触发操作的场景示意图，图中示出了触发点距离第一卡牌中心点的距离C1以及触发点距离第二卡牌中心点的距离C2，可以通过比较C1与C2的大小判断触发操作对应于哪张牌并进行记录，例如：若C1小于C2，则该触发操作对应于第一卡牌被触发。

本实施例中，对于生成特征向量的过程可以基于下述过进行；由于触发情况对应的出牌情况存在一定的时序性，故可以分别统计每个视频帧中对应的特征区域的触发情况，以生成特征序列，特征序列为多维二值序列；然后根据特征序列生成特征向量。如图7所示，是本申请实施例提供的一种特征序列生成的场景示意图，图中示出了一个出牌顺序的数据化过程，其中，对于特征序列的每个数位分配不同的含义，例如：对于序列第一位为卡牌“闪”的出牌情况，对于序列第三位为卡牌“无懈可击”的出牌情况，并依次对卡牌中可能出现的所有牌类进行排列并统计相关操作，以得到特征序列。

可选的，对于出牌情况的描述可以采用二值化的方式进行，即1代表出牌，而0代表为出牌，例如：在特征区域的触发情况为出“杀”、未出“闪”，出“无懈可击”，则特征序列为：“101”。另外还可以采用数位的表述方式，即将多个位置值作为一组，按照出现1的次序进行特征表述，例如：我方血量一共为4，现有3，则特征序列表述为“0010”，具体的特征表述方式因实际场景而定，此处不做限定。

304、将特征向量输入第一模型进行训练，以得到第二模型。

本实施例中，第一模型用于关联特征向量与动作标签，第二模型用于指示目标卡牌内容与动作标签的对应关系。其中，第一模型和第二模型可以是用于模仿学习的深度学习网络模型。

可选的，由于牌类游戏存在一定的出牌时序性，需要对特征向量的时序进行进一步的特征训练，故第一模型的模型架构可以参照图8，图8为本申请实施例提供的一种模型训练的模型架构图，具体的，首先确定特征向量的时序特征；然后将特征向量输入第一模型进行参数调整；将时序特征输入参数调整后的第一模型进行训练，以得到第二模型。另外，由于时序特征对应的是出牌的顺序，单一的特征向量可能出现时序特征过于分散的问题，此时，可以按照特征提取间隔对特征向量进行分割，以得到至少两个特征向量集；然后提取特征向量集中对应于相同特征区域的操作序列，以得到时序特征。例如：按照连续5个帧的特征向量进行特征学习。

在一种具体的场景中，第一模型由全连接层和LSTM层组成，全连接层的目的是根据数据特征中学习深度特征，学会不同维度特征之间的相互关系，而LSTM则是学习卡牌游戏中的时序特征。网络的输入为5帧连续图像对应的特征向量，数据特征首先通过全连接层提取其中的深度特征，再将其输入LSTM中，输出为游戏行为。其中，第一模型的目标是输出与玩家尽量一致的游戏行为，即在相同的游戏状态下，AI点击的游戏目标与玩家一致。另外，由于可以操作的目标个数可以为20，即包含18种卡牌、取消和确定按钮；对应的模型的输出为21，即加上不做动作的行为类别，进而进行参数调整，得到第二模型。

结合上述实施例可知，通过获取包括多个视频帧的训练集，并确定视频帧中的特征区域，其中特征区域设有用于指示训练内容的动作标签，特征区域小于视频帧的界面区域；然后统计特征区域的触发情况，以生成特征向量；进而将特征向量输入第一模型进行训练，以得到用于指示目标卡牌内容与动作标签的对应关系的第二模型。从而实现了基于特征区域的模仿学习训练过程，由于特征区域为视频帧对应图像的一部分，不包含背景部分或其他干扰区域，使得模型训练过程具有针对性，减小了模型训练过程中的数据处理量，提高了模型训练效率以及准确性。

在上述实施例中确定特征区域的过程还可以基于检测模型训练的方法进行，下面，结合牌类游戏应用对该场景进行介绍，请参阅图9，图9为本申请实施例提供的另一种模型训练的方法的流程图，本申请实施例至少包括以下步骤：

901、获取训练集。

本实施例中，步骤901与图3所述实施例中的步骤301相似，相关特征可以进行参考，此处不做赘述。

902、确定训练集中训练内容在视频帧中的位置信息。

本实施例中，训练内容即为当前视频帧中卡牌内容的集合，训练内容在视频帧中的位置信息可以是训练内容对应卡牌的中心点坐标，也可以是训练内容对应卡牌的角点坐标，还可以是中心点与角点结合的坐标位置。

可选的，由于卡牌或相关功能按钮之间存在不同的类别，而同一类别内的卡牌往往具有相似的动作标签，故可以首先确定训练内容对应的形状信息；然后筛除形状信息相似的训练内容，以对训练内容进行更新。例如：在一种卡牌游戏中，可以定义28个类别，包含18种卡牌、4种装备、4种血量、确定、取消。另外，由于不同类别之间的样本个数差异较大，可以通过重新采样样本，增加样本较少的类别在一轮迭代中出现的次数，确保每一类样本的个数超过50个。

903、根据位置信息与训练内容的对应关系对第三模型进行训练，以得到第四模型。

本实施例中，第三模型和第四模型可以采用yoloV3模型，yoloV3网络可以分为特征提取部分和目标检测部分。其中，为了防止模型过拟合，特征提取部分采用预先在大数据集ImageNet训练的darknet53网络。目标检测部分基于三种尺度的卷积特征预测目标位置，在输入图像大小为416*416像素的情况下，yoloV3网络将图像划分成13*13，26*26和52*52的网格，分别检测大尺度、中等尺度、小尺度的目标，在一种可能的场景中，大尺度目标对应的游戏中的卡牌目标，中等尺度的目标对应是游戏中的确认和取消按钮，小尺度的目标对应的是游戏中的血量和装备。

可选的，经过上述按照尺寸信息进行分类后，训练yoloV3模型时，可以融合类别交叉熵和目标位置的损失作为网络的损失函数，通过梯度后向传递的方式优化模型参数。具体的，以卡牌的位置预测为例，yoloV3首先通过特征提取部分提取特征，提取基于13*13网格大小的卷积特征预测卡牌的类别和位置，网络输出类别的概率和位置的左上角x、y坐标以及宽度和高度，损失函数融合了类别交叉熵损失和目标位置的损失。进而通过最小化该损失函数，计算对应的梯度，采用梯度后向传递的方法更新模型参数，以得到第四模型。

904、将视频帧输入第四模型，以得到特征区域。

本实施例中，通过上述步骤903中对应第三模型的训练过程，使得第四模型具有特征区域的识别功能，从而保证了特征区域检测的准确性，即卡牌或相关功能按钮检测的准确性。

905、统计特征区域的触发情况，以生成特征向量。

906、将特征向量输入第一模型进行训练，以得到第二模型。

本实施例中，步骤905和906与图3所述实施例中的步骤303和304相似，相关特征可以进行参考，此处不做赘述。

结合上述实施例可见，通过对于第三模型的训练，提高了特征区域确定的准确性，保证了相关卡牌或功能按键的精确识别过程，进一步的提高了对于后续模仿学习过程中干扰项的去除，提高了模型训练的效率以及准确性。

上述实施例介绍了模型训练的过程，下面，结合游戏应用作为具体场景进行模型应用方面的介绍，请参阅图10，图10为本申请实施例提供的一种内容生成的方法的流程图，本申请实施例至少包括以下步骤：

1001、获取目标对象输出的第一内容。

本实施例中，目标对象可以是某一特定程序中的用户群体，例如：英雄杀这款游戏数据库中的游戏用户；目标对象还可以是单一的用户，此时主要应用于单机游戏的内容自动生成的过程中，即终端通过采集该用户的本端操作数据，对相应游戏的AI进行模型训练，从而实现匹配与该用户的内容智能生成过程；目标对象还可以是终端，即本申请提出的内容生成方法应用于对抗学习的过程中，通过多个终端之间大规模的对战，获取大量的对战数据，以便于丰富数据库的内容。

另外，以目标对象为英雄杀这款游戏数据库中的游戏用户为例，第一内容可以是游戏用户的历史对战数据，选取其中任意时长连续的视频作为训练内容。

1002、将第一内容输入第二模型，以得到动作标签。

本实施例中，对于第二模型的生成过程可以参照上述图3和图9所述的实施例，此处不做赘述。

在一种可能的场景中，第一内容即为用户当前的操作，通过输入第二模型，自动生成对应的AI侧操作，例如：玩家出“杀”，则AI输出“闪”，可以理解的是，在实际场景中，该对应的过程为多步骤的出牌过程，此处仅为示例。

1003、根据动作标签生成第二内容。

本实施例中，第二内容即为基于AI输出的卡牌生成的出牌策略，具体的内容类型因实际场景而定，此处不做限定。

通过上述实施例可知，通过对于第二模型的训练，使得AI可以适应性的生成相关用户的目标卡牌内容，提高了内容生成的效率以及准确性，进而提高了用户在内容交互过程中的用户体验。

为了更好的实施本申请实施例的上述方案，下面还提供用于实施上述方案的相关装置。请参阅图11，图11为本申请实施例提供的一种模型训练装置的结构示意图，模型训练装置1100包括：

获取单元1101，用于基于多张卡牌内容的交互过程获取训练集，所述训练集包括多个视频帧，所述视频帧包括所述卡牌内容的触发区域；

确定单元1102，用于根据所述卡牌内容的触发区域确定所述视频帧中的特征区域，所述特征区域设有用于指示训练内容的动作标签，所述动作标签基于所述卡牌内容确定，所述特征区域小于所述视频帧的界面区域；

统计单元1103，用于统计所述特征区域的触发情况，以生成特征向量；

训练单元1104，用于将所述特征向量输入第一模型进行训练，以得到第二模型，所述第一模型用于关联所述特征向量与所述动作标签，所述第二模型用于指示目标卡牌内容与所述动作标签的对应关系。

可选的，在本申请一些可能的实现方式中，所述确定单元1102，具体用于根据所述卡牌内容的触发区域确定所述训练内容在所述视频帧中的位置信息；

所述确定单元1102，具体用于根据所述位置信息与所述训练内容的对应关系对第三模型进行训练，以得到第四模型，所述第三模型用于关联所述位置信息与所述训练内容，所述第四模型用于指示所述视频帧与所述特征区域的对应关系；

所述确定单元1102，具体用于将所述视频帧输入所述第四模型，以得到所述特征区域。

可选的，在本申请一些可能的实现方式中，所述确定单元1102，还用于确定所述训练内容对应的形状信息；

所述确定单元1102，还用于筛除所述形状信息相似的训练内容，以对所述训练内容进行更新。

可选的，在本申请一些可能的实现方式中，所述确定单元1102，具体用于根据所述形状信息对所述训练内容进行分类，以得到至少两个类别训练内容；

所述确定单元1102，具体用于根据所述类别训练内容确定第一梯度信息；

所述确定单元1102，具体用于根据所述位置信息确定第二梯度信息；

所述确定单元1102，具体用于通过最小化所述第一梯度信息和所述第二梯度信息对所述第三模型的参数进行训练，以得到第四模型。

可选的，在本申请一些可能的实现方式中，所述统计单元1103，具体用于分别统计每个视频帧中对应的所述特征区域的触发情况，以生成特征序列，所述特征序列为多维二值序列；

所述统计单元1103，具体用于根据所述特征序列生成所述特征向量。

可选的，在本申请一些可能的实现方式中，所述统计单元1103，具体用于获取所述特征区域的中心点；

所述统计单元1103，具体用于根据所述中心点与触发操作点的距离确定所述触发情况，以生成所述特征序列。

可选的，在本申请一些可能的实现方式中，所述训练单元1104，具体用于确定所述特征向量的时序特征；

所述训练单元1104，具体用于将所述特征向量输入所述第一模型进行参数调整；

所述训练单元1104，具体用于将所述时序特征输入参数调整后的所述第一模型进行训练，以得到所述第二模型。

可选的，在本申请一些可能的实现方式中，所述训练单元1104，具体用于按照特征提取间隔对所述特征向量进行分割，以得到至少两个特征向量集；

所述训练单元1104，具体用于提取所述特征向量集中对应于相同特征区域的操作序列，以得到所述时序特征。

可选的，在本申请一些可能的实现方式中，所述获取单元1101，具体用于获取多张卡牌内容交互过程的等级信息，所述等级信息用于指示所述交互过程的复杂度；

所述获取单元1101，具体用于根据所述等级信息提取第一牌局和第二牌局，所述第一牌局与所述第二牌局的等级信息不同；

所述获取单元1101，具体用于根据所述第一牌局与所述第二牌局确定所述训练集。

本申请第三方面提供一种内容生成的装置1200，请参阅图12，图12是本申请实施例提供的服务器一种结构示意图，包括：获取单元1201，用于获取目标对象输出的第一内容；

输入单元1202，用于将所述第一内容输入第二模型，以得到动作标签，所述第二模型基于上述第一方面或第一方面任一项所述的模型训练的方法训练所得；

生成单元1203，用于根据所述动作标签生成第二内容。

本申请实施例还提供了一种服务器，请参阅图13，图13是本申请实施例提供的一种服务器的结构示意图，该服务器1300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1322(例如，一个或一个以上处理器)和存储器1332，一个或一个以上存储应用程序1342或数据1344的存储介质1330(例如一个或一个以上海量存储设备)。其中，存储器1332和存储介质1330可以是短暂存储或持久存储。存储在存储介质1330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1322可以设置为与存储介质1330通信，在服务器1300上执行存储介质1330中的一系列指令操作。

服务器1300还可以包括一个或一个以上电源1326，一个或一个以上有线或无线网络接口1350，一个或一个以上输入输出接口1358，和/或，一个或一个以上操作系统1341，例如Windows Server^TM，Mac OS X^TM，Unix^TM,LinuxTM，FreeBSD^TM等等。

上述实施例中由模型训练装置所执行的步骤可以基于该图13所示的服务器结构。

本申请实施例还提供了一种终端设备，如图14所示，是本申请实施例提供的一种终端设备的结构示意图，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant，PDA)、销售终端(point of sales，POS)、车载电脑等任意终端设备，以终端为手机为例：

图14示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图14，手机包括：射频(radio frequency，RF)电路1410、存储器1420、输入单元1430、显示单元1440、传感器1450、音频电路1460、无线保真(wireless fidelity，WiFi)模块1470、处理器1480、以及电源1490等部件。本领域技术人员可以理解，图14中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图14对手机的各个构成部件进行具体的介绍：

RF电路1410可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1480处理；另外，将设计上行的数据发送给基站。通常，RF电路1410包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier，LNA)、双工器等。此外，RF电路1410还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(globalsystem of mobile communication，GSM)、通用分组无线服务(general packet radioservice，GPRS)、码分多址(code division multiple access，CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution，LTE)、电子邮件、短消息服务(short messaging service，SMS)等。

存储器1420可用于存储软件程序以及模块，处理器1480通过运行存储在存储器1420的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1430可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1430可包括触控面板1431以及其他输入设备1432。触控面板1431，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1431上或在触控面板1431附近的操作，以及在触控面板1431上一定范围内的隔空触控操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1431可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1480，并能接收处理器1480发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1431。除了触控面板1431，输入单元1430还可以包括其他输入设备1432。具体地，其他输入设备1432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1440可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1440可包括显示面板1441，可选的，可以采用液晶显示器(liquidcrystal display，LCD)、有机发光二极管(organic light-emitting diode，OLED)等形式来配置显示面板1441。进一步的，触控面板1431可覆盖显示面板1441，当触控面板1431检测到在其上或附近的触摸操作后，传送给处理器1480以确定触摸事件的类型，随后处理器1480根据触摸事件的类型在显示面板1441上提供相应的视觉输出。虽然在图14中，触控面板1431与显示面板1441是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1431与显示面板1441集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1450，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1441的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1441和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1460、扬声器1461，传声器1462可提供用户与手机之间的音频接口。音频电路1460可将接收到的音频数据转换后的电信号，传输到扬声器1461，由扬声器1461转换为声音信号输出；另一方面，传声器1462将收集的声音信号转换为电信号，由音频电路1460接收后转换为音频数据，再将音频数据输出处理器1480处理后，经RF电路1410以发送给比如另一手机，或者将音频数据输出至存储器1420以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图14示出了WiFi模块1470，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1480是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1420内的软件程序和/或模块，以及调用存储在存储器1420内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1480可包括一个或多个处理单元；可选的，处理器1480可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1480中。

手机还包括给各个部件供电的电源1490(比如电池)，可选的，电源可以通过电源管理系统与处理器1480逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端所包括的处理器1480还具有执行如上述页面处理方法的各个步骤的功能。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有模型训练指令，当其在计算机上运行时，使得计算机执行如前述图2至图10所示实施例描述的方法中模型训练装置所执行的步骤。

本申请实施例中还提供一种包括模型训练指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如前述图2至图10所示实施例描述的方法中模型训练装置所执行的步骤。

本申请实施例还提供了一种模型训练系统，所述模型训练系统可以包含图11所描述实施例中的模型训练装置，或者图12所描述的内容生成装置。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，模型训练装置，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-onlymemory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种模型训练的方法，其特征在于，包括：

基于多张卡牌内容的交互过程获取训练集，所述训练集包括多个视频帧，所述视频帧包括所述卡牌内容的触发区域；

统计所述特征区域的触发情况，以生成特征向量；

2.根据权利要求1所述的方法，其特征在于，所述根据所述卡牌内容的触发区域确定所述视频帧中的特征区域，包括：

将所述视频帧输入所述第四模型，以得到所述特征区域。

3.根据权利要求2所述的方法，其特征在于，所述根据所述卡牌内容的触发区域确定所述训练内容在所述视频帧中的位置信息之前，所述方法还包括：

确定所述训练内容对应的形状信息；

4.根据权利要求3所述的方法，其特征在于，所述根据所述位置信息与所述训练内容的对应关系对第三模型进行训练，以得到第四模型，包括：

根据所述类别训练内容确定第一梯度信息；

根据所述位置信息确定第二梯度信息；

5.根据权利要求1所述的方法，其特征在于，所述统计所述特征区域的触发情况，以生成特征向量，包括：

根据所述特征序列生成所述特征向量。

6.根据权利要求5所述的方法，其特征在于，所述分别统计每个视频帧中对应的所述特征区域的触发情况，以生成特征序列，包括：

获取所述特征区域的中心点；

7.根据权利要求1所述的方法，其特征在于，所述将所述特征向量输入第一模型进行训练，以得到第二模型，包括：

确定所述特征向量的时序特征；

将所述特征向量输入所述第一模型进行参数调整；

8.根据权利要求7所述的方法，其特征在于，所述确定所述特征向量的时序特征，包括：

9.根据权利要求1-8任一项所述的方法，其特征在于，所述基于多张卡牌内容的交互过程获取训练集，包括：

根据所述第一牌局与所述第二牌局确定所述训练集。

10.根据权利要求1所述的方法，其特征在于，所述训练内容和所述目标卡牌内容为卡牌游戏的内容，所述第一模型和所述第二模型为深度网络模型。

11.一种内容生成的方法，其特征在于，包括：

获取目标对象输出的第一内容；

将所述第一内容输入第二模型，以得到动作标签，所述第二模型基于权利要求1-10任一项所述的模型训练方法训练所得；

根据所述动作标签生成第二内容。

12.一种模型训练的装置，其特征在于，包括：

获取单元，用于基于多张卡牌内容的交互过程获取训练集，所述训练集包括多个视频帧，所述视频帧包括所述卡牌内容的触发区域；

13.一种内容生成的装置，其特征在于，包括：

获取单元，用于获取目标对象输出的第一内容；

输入单元，用于将所述第一内容输入第二模型，以得到动作标签，所述第二模型基于权利要求1-10任一项所述的模型训练方法训练所得；

生成单元，用于根据所述动作标签生成第二内容。

14.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行权利要求1至10任一项所述的模型训练的方法，或权利要求11所述的内容生成的方法。

15.一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述权利要求1至10任一项所述的模型训练的方法，或权利要求11所述的内容生成的方法。