CN110598853A

CN110598853A - 一种模型训练的方法、信息处理的方法以及相关装置

Info

Publication number: CN110598853A
Application number: CN201910861875.3A
Authority: CN
Inventors: 钟涛
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-11
Filing date: 2019-09-11
Publication date: 2019-12-20
Anticipated expiration: 2039-09-11
Also published as: CN110598853B

Abstract

本申请实施例提供一种模型训练的方法、信息处理的方法以及相关装置，通过交互对象在交互过程中的信息对神经网络模型进行训练，能够通过训练完的神经网络模型模拟交互对象的操作。训练神经网络模型时不需要比较强的专业知识，训练得到的神经网络模型智能水平较好，能够完整覆盖游戏中的各项信息，解决了目前通过行为树指示人工智能玩家操作时效果不好的技术问题。

Description

一种模型训练的方法、信息处理的方法以及相关装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种模型训练的方法、信息处理的方法以及相关装置。

背景技术

德州扑克是是一种玩家对玩家的公共牌类游戏。一张台面至少2人，最多22人，一般是由2-10人参加。德州扑克一共有52张牌，没有王牌。每个玩家分两张牌作为“底牌”，五张由荷官陆续朝上发出的公共牌。开始的时候，每个玩家会有两张面朝下的底牌。经过所有押注圈后，若仍不能分出胜负，游戏会进入“摊牌”阶段，也就是让所剩的玩家亮出各自的底牌以较高下，持大牌者获胜。

目前，基于互联网的德州扑克游戏通常需要由多个玩家参与到一个对局中来进行游玩，但是无法凑齐玩家人数的情况下或者玩家无法联网的情况，通常难以正常开展游戏对局，基于此，人工智能玩家应运而生。人工智能玩家指的是由计算机代替真实玩家参与到游戏中的虚拟玩家，具有与真实玩家相当的游戏水平，能够模仿真实玩家进行游戏。

然而，目前的人工智能玩家通常是根据行为树决定其在德州扑克游戏中的下注操作。行为树的方法是在特定状况下建立规则，需要有比较强的专业知识，而且规则难以对游戏中各项信息覆盖完整。

发明内容

本申请实施例提供了一种模型训练的方法、信息处理的方法以及相关装置，训练时不需要比较强的专业知识，训练得到的人工智能模型智能水平较好，能够完整覆盖游戏中的各项信息。

第一方面，本申请实施例提供了一种模型训练的方法，包括：

获取交互对象对应的参数，所述参数包括平面特征参数、数值特征参数以及第一特征向量，所述平面特征参数为所述交互对象在交互过程中产生的非数值信息，所述数值特征参数为所述交互对象在交互过程中产生的数值信息，所述第一特征向量为所述交互对象在交互过程中产生的操作信息；

根据所述平面特征参数、所述数值特征参数以及所述第一特征参数，通过待训练模型获取第二特征向量，其中，所述待训练模型包括第一待训练子模型以及第二待训练子模型，平面特征参数与所述第一待训练子模型具有第一对应关系，所述数值特征参数与所述第二待训练子模型具有第二对应关系；

通过损失函数获取所述第一特征向量与所述第二特征向量所对应的损失值；

当所述损失值达到收敛时，获取所述待训练模型对应的模型参数，得到目标模型。

第二方面，本申请实施例提供了一种信息处理的方法，包括：

获取交互对象对应的参数，所述参数包括平面特征参数、数值特征参数，所述平面特征参数为所述交互对象在交互过程中产生的非数值信息，所述数值特征参数为所述交互对象在交互过程中产生的数值信息；

通过目标模型获取所述交互对象对应的操作向量，所述目标模型包括第一子模型和第二子模型，所述第一子模型与所述平面特征参数具有第一对应关系，所述第二子模型与所述数值特征参数具有第二对应关系；

生成所述交互对象的操作信息，所述操作信息与所述操作向量具有关联关系。

第三方面，本申请实施例提供了一种模型训练的装置，包括：

获取单元，用于获取交互对象对应的参数，所述参数包括平面特征参数、数值特征参数以及第一特征向量，所述平面特征参数为所述交互对象在交互过程中产生的非数值信息，所述数值特征参数为所述交互对象在交互过程中产生的数值信息，所述第一特征向量为所述交互对象在交互过程中产生的操作信息；

处理单元，用于根据所述平面特征参数、所述数值特征参数以及所述第一特征参数，通过待训练模型获取第二特征向量，其中，所述待训练模型包括第一待训练子模型以及第二待训练子模型，平面特征参数与所述第一待训练子模型具有第一对应关系，所述数值特征参数与所述第二待训练子模型具有第二对应关系；

处理单元，还用于通过损失函数获取所述第一特征向量与所述第二特征向量所对应的损失值；

处理单元，还用于当所述损失值达到收敛时，获取所述待训练模型对应的模型参数，得到目标模型。

在一种可能的设计中，在本申请实施例第三方面的一种实现方式中，所述平面特征参数包括手牌参数，公共牌参数，牌型强度参数，所述交互对象的位置参数，交互阶段参数，所述交互对象的历史操作参数以及交互对象状态参数中的一种或多种。

在一种可能的设计中，在本申请实施例第三方面的一种实现方式中，所述数值特征参数包括基础数值，累计数值，所述交互对象的剩余数值，牌型强度数值，牌型胜率，投入值以及增加值中的一种或多种。

在一种可能的设计中，在本申请实施例第三方面的一种实现方式中，所述获取单元具体用于：

获取所述交互对象对应的激进度，所述激进度用于描述所述交互对象的激进程度；

根据所述激进度对所述交互对象分类，得到所述交互对象的类别；

根据所述交互对象的类别，获取所述类别其中一类所对应的参数。

在一种可能的设计中，在本申请实施例第三方面的一种实现方式中，所述处理单元还用于：

通过区块链同步所述目标模型。第四方面，本申请实施例提供了一种信息处理的装置，包括：

获取单元，用于获取交互对象对应的参数，所述参数包括平面特征参数、数值特征参数，所述平面特征参数为所述交互对象在交互过程中产生的非数值信息，所述数值特征参数为所述交互对象在交互过程中产生的数值信息；

处理单元，用于通过目标模型获取所述交互对象对应的操作向量，所述目标模型包括第一子模型和第二子模型，所述第一子模型与所述平面特征参数具有第一对应关系，所述第二子模型与所述数值特征参数具有第二对应关系；

处理单元，还用于生成所述交互对象的操作信息，所述操作信息与所述操作向量具有关联关系。

在一种可能的设计中，在本申请实施例第四方面的一种实现方式中，所述处理单元还用于：

通过区块链同步所述操作信息。

第五方面，本申请实施例提供了一种服务器，包括一个或一个以上中央处理器，存储器，输入输出接口，有线或无线网络接口，电源；

所述存储器为短暂存储存储器或持久存储存储器；

所述中央处理器配置为与所述存储器通信，在所述服务器上执行所述存储器中的指令操作以执行第一方面或第二方面的方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行第一方面或第二方面的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

附图说明

图1示出了本申请实施例提供的方案涉及的架构示例图；

图2示出了本申请实施例中用户进行棋牌游戏的界面示例图一；

图3示出了本申请实施例中用户进行棋牌游戏的界面示例图二；

图4示出了本申请实施例中一种模型训练的方法流程示意图；

图5示出了本申请实施例中平面特征参数的一个示例图；

图6示出了本申请实施例的模型示例图；

图7A示出了本申请实施例区块链的示例图一；

图7B示出了本申请实施例区块链的示例图二；

图7C示出了本申请实施例区块链的示例图三；

图8示出了本申请实施例提供的信息处理的方法示意图；

图9示出了虚拟角色进行操作的示意图；

图10示出了本申请实施例提供的一种模型训练的装置示例图；

图11示出了本申请实施例提供的一种信息处理的装置的示例图；

图12示出了本申请实施例提供的一种服务器结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

为了下述各实施例的描述清楚简洁，首先给出相关技术的简要介绍：

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的智能虚拟角色等技术，具体通过如下实施例进行说明:

图1示出了本申请实施例提供的方案涉及的架构示例图，可见，终端设备通过网络与服务器连接，任意两个终端设备之间可以通过服务器进行通信。终端设备可以包括但不限于手机，台式电脑，平板电脑，笔记本电脑和掌上电脑，本申请实施例对终端设备的类型不做具体限定。用户可以通过终端设备上的客户端游玩服务器上的游戏。示例性的，用户可以进行棋牌游戏。

图2示出了本申请实施例中用户进行棋牌游戏的界面示例图一。为方便描述，本申请实施例以德州扑克为例进行说明，其他类型的游戏可参照本申请实施例实现本申请实施例的技术方案。由图2可见，该棋牌游戏中，用户可以拥有虚拟货币，该虚拟货币用于增加游戏的娱乐效果，图2中用户的虚拟货币剩余数值在用户头像下方显示，例如，用户甲201的虚拟货币剩余数值为20000，用户乙202的虚拟货币剩余数值为3000，用户丙203的虚拟货币剩余数值为20000。用户头像上方的数值为用户当前阶段下注的投入值，示例性的，在德州扑克开始时，荷官200向各位用户发送两张牌，然后指定一名玩家开始下注。图2中，用户丙203首先下注的盲注为100，因而用户丙203的用户头像上方的数值为100，然后轮到用户乙202进行下注。图2中用户乙202的头像被框选中，表示轮到用户乙202进行操作。图2中下方有“2000”，“4000”，“8000”，“全下”，“跟注”，“弃牌”等虚拟按钮，用户可以点击界面上的虚拟按钮进行操作。例如，用户点击“2000”虚拟按钮，则用户可以投入2000到底池中。用户头像右方为用户当前的手牌，可见，用户乙202当前的手牌为黑桃6和红桃3。

图3示出了本申请实施例中用户进行棋牌游戏的界面示例图二。可见，经过第一阶段后，每个用户均下注了200，因而底池中一共有600的虚拟货币。图3中游戏进行第二阶段，轮到用户乙202进行下注选择。用户在一个阶段中可能经历多轮选择操作，示例性的，若用户乙202选择下注的投入值为2000，则轮到用户甲201进行下注。若用户甲201选择跟注，而用户丙203选择加注，选择下注的投入值为4000，则用户乙202需要进行下一轮的选择，即选择是否将下注的投入值补充为4000。因此，用户乙202经历了多轮的选择操作。图3后续的游戏过程与常规德州扑克游戏过程类似，此处不再赘述。

可见，棋牌游戏一般需要多个用户进行游戏。在本申请实施例中，用户可以添加虚拟角色一起进行游戏。在一些实施例中，服务器可以根据该虚拟角色关联的各种信息参数，通过训练完的模型计算出该虚拟角色的操作信息，然后将该操作信息发送至终端设备，使得终端设备展示该操作信息以及根据该操作信息继续执行游戏程序。在另一些实施例中，服务器可以将训练完的模型发送至终端设备，使得终端设备通过训练完的模型计算出该虚拟角色的操作信息，然后展示该操作信息以及根据该操作信息继续执行游戏程序。在另一些实施例中，终端设备可以利用客户端的日志信息训练模型，然后通过训练完的模型计算出该虚拟角色的操作信息，然后展示该操作信息以及根据该操作信息继续执行游戏程序。为方便描述，以下将以服务器训练模型进行示例性的描述，其他实际应用的情况可参照本申请实施例中的描述，此处不再赘述。

图4示出了本申请实施例中一种模型训练的方法流程示意图。该流程包括：

401、获取交互对象对应的参数，参数包括平面特征参数、数值特征参数以及第一特征向量，平面特征参数为交互对象在交互过程中产生的非数值信息，数值特征参数为交互对象在交互过程中产生的数值信息，第一特征向量为交互对象在交互过程中产生的操作信息；

在本申请实施例中，交互对象也可以称为用户，交互过程可以是游戏进行的过程。具体地，交互过程可以包括五个阶段，分别是Perflop阶段(也可以称为第一阶段)，Flop阶段(也可以称为第二阶段)，Turn阶段，River阶段以及比牌阶段，其中，图2对应于Perflop阶段，图3对应于Flop阶段，此处不再赘述。服务器首先获取交互对象在交互过程中产生的各种信息参数，包括平面特征参数、数值特征参数以及第一特征向量。

示例性的，平面特征参数可以包括但不限于手牌参数，公共牌参数，牌型强度参数，交互对象的位置参数，交互阶段参数，交互对象的历史操作参数以及交互对象状态参数中的一种或多种。

在一些实施例中，手牌参数可以根据用户的手牌确定。具体地，服务器可以为每个手牌构建一个平面，可以根据手牌的序号和花色构建平面参数。可以理解的是，平面参数可以是平面上的数值，如图5所示，图5示出了本申请实施例中平面特征参数的一个示例图，图5中的横竖两条线是该平面的坐标轴，该平面上设置有平面参数，且该平面参数全部设定为了1，在其他示例中，平面参数也可以全部设定为0或者其他参数，此处不做具体限定。示例性的，图2中用户乙202的手牌数量为2个，手牌分别为黑桃6和红桃3，则服务器可以构建两个平面，分别代表两个手牌，平面上的平面参数可以根据手牌的序号和花色的关联关系构建。在另一些实施例中，平面参数也可以是手牌的图像像素值，本申请实施例对此不作具体限定。

公共牌是德州扑克中在公共区域展示的牌。示例性的，在图3对应的Flop阶段，展示出来的公共牌为红桃6、方块1以及黑桃10。服务器根据公共牌构建平面特征的方式与前述根据手牌构建平面特征的方式类似，此处不再赘述。

在一些实施例中，牌型强度参数可以为牌力参数，不同的牌型对应有不同的牌力参数。例如，皇家同花顺的牌力参数最高，同花顺的牌力参数其次。服务器可以根据不同的牌型进行分桶处理，得到多个平面，当用户的手牌以及公共牌能够组成某牌型时，服务器可以将该牌型对应的平面参数值设定为1。例如，用户的手牌与公共牌能够组成皇家同花顺，则将皇家同花顺这个牌型对应的平面参数全部设定为1，其他平面的平面参数全部设定为0，服务器可以这些平面表示用户的手牌与公共牌能够组成的牌型强度。在一些实施例中，在不同的阶段，用户的手牌与公共牌能够组成不同的牌型，则服务器可以根据不同阶段生成不同的牌型强度参数，例如在Perflop阶段的牌型强度参数以及在River阶段的牌型强度参数。

在一些实施例中，服务器可以根据用户的位置确定用户的位置参数。以图2为例，该游戏中一个有3个用户在玩棋牌游戏，则服务器可以构建3个平面，并通过这3个平面表示用户的位置。例如，第一个平面的平面参数全部设定为1，其他两个平面的平面参数全部设定为0，则这3个平面表示用户甲201。

在一些实施例中，服务器可以用多个平面表示游戏当前的交互阶段。示例性的，该棋牌游戏具体有5个阶段，则服务器可以生成5个平面，并通过这5个平面表示当前的交互阶段。例如，第一个平面的平面参数全部设定为1，其他4个平面的平面参数全部设定为0，则这5个平面表示第一阶段。在一些实施例中，一个阶段中可能有多轮，则服务器可以通过平面上的平面参数表示该阶段的轮数。例如，第一个平面的平面参数全部设定为2，其他4个平面的平面参数全部设定为0，则这5个平面表示第一阶段的第2轮。

在一些实施例中，服务器可以根据用户的操作信息确定用户的历史操作参数。示例性的，图2中底部的“2000”，“4000”，“8000”，“全下”，“跟注”，“弃牌”等虚拟按钮可以触发操作信息，当用户点击其中一个虚拟按钮时，生成对应的操作信息。服务器可以通过多个平面表示用户的历史操作参数。例如，用户的操作信息显示用户点击了“2000”的虚拟按钮，则服务器可以构建6个平面，其中第一个平面的平面参数全部设定为1，其余平面的平面参数全部设定为0，则服务器可以通过这6个平面表示用户点击了“2000”的虚拟按钮。

在一些实施例中，服务器可以通过多个平面表示用户的状态参数。示例性的，以图2为例，该游戏中一个有3个用户在玩棋牌游戏，则服务器可以构建3个平面，并通过这3个平面表示用户的状态参数。例如，第一个平面的平面参数全部设定为2，其他两个平面的平面参数全部设定为0，则这3个平面表示用户甲201的状态为正常游戏。又例如，第一个平面的平面参数全部设定为3，其他两个平面的平面参数全部设定为0，则这3个平面表示用户甲201的状态为已弃牌。

服务器可以将用户的信息参数进行离散化后生成二维平面特征参数，然而，其中有些参数转化成二维平面特征参数后，会损失一些信息。因此，服务器可以将这类损失信息的参数(一般是数值参数)作为数值特征参数。

示例性的，数值特征参数可以包括但不限于基础数值，累计数值，交互对象的剩余数值，牌型强度数值，牌型胜率，投入值以及增加值中的一种或多种。

在一些实施例中，基础数值表示盲注对应到的虚拟货币数值。盲注(blinds)是扑克术语，指的是在扑克游戏中被逼下注的注码。以图2为例，盲注在界面上显示为100/200，即小盲注为100，大盲注为200，则服务器可以将这些盲注对应到的虚拟货币数值作为基础数值。

在一些实施例中，累计数值表示底池中的虚拟货币数值。以图3为例，经过了Perflop阶段后，底池中的虚拟货币数值变成了600，则服务器可以将这个虚拟货币数值作为基础数值。

在一些实施例中，交互对象的剩余数值也可以称为用户的剩余数值，以图2为例，图2中用户头像下方的数值为用户的虚拟货币剩余数值，服务器可以将该用户的虚拟货币剩余数值作为用户的剩余数值。

在一些实施例中，牌型强度数值可以为牌型对应的牌力值，不同的牌型对应有不同的牌力值。示例性的，单牌的牌力值最小，皇家同花顺的牌力值最大。

在一些实施例中，牌型胜率与牌型具有关联关系，不同的牌型对应有不同的牌型胜率。

在一些实施例中，投入值可以为用户在该游戏过程中的总下注量。在另一些实施例中，投入值还可以为用户在各个阶段的下注量。以图2为例，用户乙202在Perflop阶段的下注量为200。在另一些实施例中，投入值还可以是用户在某阶段各个轮次的下注量。示例性的，用户在Perflop阶段的第1轮下注了100，第2轮又下注了100，则该用户的投入值分别为用户在Perflop阶段的第1轮的下注量(100)，以及用户在Perflop阶段的第2轮的下注量(100)。

在一些实施例中，增加值可以为用户的加注量。示例性的，用户在Perflop阶段的第1轮加注了500的虚拟货币，则用户在Perflop阶段的第1轮的增加值为用户的加注量(500)。

示例性的，服务器可以根据用户的操作信息确定第一特征向量。以图2为例，图2中底部的“2000”，“4000”，“8000”，“全下”，“跟注”，“弃牌”等虚拟按钮可以触发操作信息，当用户点击其中一个虚拟按钮时，生成对应的操作信息。例如，用户点击“2000”的虚拟按钮，则服务器可以响应于用户的点击操作，生成对应的操作信息，该操作信息表示用户点击“2000”的虚拟按钮。在一些实施例中，服务器可以根据用户可执行的所有操作，生成对应的向量[0,0,0,0,0,0]，当操作信息为用户点击“2000”的虚拟按钮时，服务器将对应的数值设定为1，可以得到第一特征向量为[1,0,0,0,0,0]。当操作信息为用户点击“4000”的虚拟按钮时，服务器将对应的数值设定为1，可以得到第一特征向量为[0,1,0,0,0,0]。当操作信息为用户点击“8000”的虚拟按钮时，服务器将对应的数值设定为1，可以得到第一特征向量为[0,0,1,0,0,0]。其他第一特征向量的确定情况类似，此处不再赘述。在另一些实施例中，服务器可以通过其他类型的第一特征向量表示用户的操作信息，此处不做具体限定。

在实际应用中，服务器可以通过终端设备收集得到用户对应的各种信息参数，这些信息参数包括但不限于上述的平面特征参数、数值特征参数以及操作信息。在一些实施例中，服务器还可以通过读取用户关联的日志信息得到用户对应的各种信息参数。本申请实施例对这些信息参数的来源不做具体限定。

本申请实施例将用户的非数值信息作为平面特征参数，将用户的数值信息作为数值特征参数，避免了信息的损失。

402、根据平面特征参数、数值特征参数以及第一特征参数，通过待训练模型获取第二特征向量，其中，待训练模型包括第一待训练子模型以及第二待训练子模型，平面特征参数与第一待训练子模型具有第一对应关系，数值特征参数与第二待训练子模型具有第二对应关系；

在本申请实施例中，待训练模型可以是设定有初始模型参数的模型，通过本申请实施例的模型训练的方法将模型参数调整到最优，则可以输出训练完的模型。训练完的模型也可以称为目标模型。

图6示出了本申请实施例的模型示例图。可见，待训练模型包括第一待训练子模型603和第二待训练子模型604。以下将结合图6对第一待训练子模型603和第二待训练子模型604进行详细的描述：

在本申请实施例中，第一待训练子模型603可以是用于处理平面特征参数601的神经网络模型，可以包括但不限于卷积神经网络(convolutional neural networks,CNN)模型，深度卷积神经网络(deep convolutional neural networks，DCNN)模型。服务器可以根据平面特征参数601，通过第一待训练子模型603计算得到第一子特征；

在本申请实施例中，第二待训练子模型604可以是用于处理数值特征参数602的神经网络模型，可以包括但不限于多层神经网络(multi-layer perception，MLP)模型。服务器可以根据数值特征参数602，通过第二待训练子模型604计算得到第二子特征。

然后，服务器可以将第一子特征和第二子特征合并成第二特征向量605。在一些实施例中，第一子特征和第二子特征均为向量形式，则可以通过向量拼接的方式进行合并，得到第二特征向量605。

403、通过损失函数获取第一特征向量与第二特征向量所对应的损失值；

在本申请实施例中，服务器可以通过损失函数获取第一特征向量与第二特征向量所对应的损失值，若当前的损失值未达到最小值(未收敛)，则迭代更新模型参数，并再次计算第二特征向量以及损失值。在一些实施例中，服务器可以通过反向传播算法更新模型参数，具体此处不做限定。

404、当损失值达到收敛时，获取待训练模型对应的模型参数，得到目标模型。

在本申请实施例中，当损失值达到收敛时，说明待训练模型中的模型参数已经是最优的模型参数，则服务器可以获取到待训练模型对应的模型参数，得到目标模型。可以理解的是，目标模型可以是训练完毕的待训练模型，目标模型包括第一子模型和第二子模型，其中，第一子模型可以是训练完毕的第一待训练子模型，第二子模型可以是训练完毕的第二待训练子模型。

可选地，在上述图4对应的各个实施例的基础上，本申请实施例提供模型训练的方法的一个可选实施例中，服务器可以选择不同风格的用户的信息参数进行训练，得到不同风格的目标模型。然后，服务器可以通过不同风格的目标模型生成不同风格的虚拟角色操作信息。例如，服务器可以根据虚拟角色的信息参数，通过激进风格的目标模型，计算得到激进风格的虚拟角色操作。服务器选择用户的信息参数的方法可以包括：

获取交互对象对应的激进度，激进度用于描述交互对象的激进程度；

根据激进度对交互对象分类，得到交互对象的类别；

根据交互对象的类别，获取类别其中一类所对应的参数。

在本申请实施例中，服务器首先获取用户对应的激进度。激进度可以是用于描述交互对象的激进程度的参数。示例性的，激进度可以通过用户每局扑克游戏中信息参数计算得到，计算公式为：

激进度＝(下注的次数+加注的次数)/跟注的次数；

一个用户的激进度数据越高，他主动下注或者加注的比例就更高，被动跟注的比例就更低，因此也就更多的掌握了主动权。这样的用户通常是激进风格的用户，服务器采用这类用户的信息参数能够训练得到激进风格的目标模型。

同理，用户的激进度越低，则主动下注或者加注的比例就更低，被动跟注的比例就更高。服务器采用激进度低的用户的信息参数能够训练得到保守风格的目标模型。

在一些实施例中，交互对象的类别可以包括但不限于激进类、保守类、中规中矩类等，本申请实施例对此不做具体限定。

可选地，在上述图4对应的各个实施例的基础上，本申请实施例提供模型训练的方法的一个可选实施例中，服务器得到目标模型后，可以通过区块链同步该目标模型。服务器以及终端设备可以通过安装好的区块链客户端实现其功能。在本申请实施例中，服务器可以通过区块链上传同步目标模型，也可以从区块链中下载目标模型。在一些实施例中，终端设备也可以通过区块链上传同步目标模型或者从区块链中下载目标模型。示例性的，本申请实施例对区块链的介绍如下：

参见图7A所示的数据共享系统，数据共享系统700是指用于进行节点与节点之间数据共享的系统，该数据共享系统中可以包括多个节点701，多个节点701可以是指数据共享系统中各个客户端。每个节点701在进行正常工作可以接收到输入信息，并基于接收到的输入信息维护该数据共享系统内的共享数据。为了保证数据共享系统内的信息互通，数据共享系统中的每个节点之间可以存在信息连接，节点之间可以通过上述信息连接进行信息传输。例如，当数据共享系统中的任意节点接收到输入信息时，数据共享系统中的其他节点便根据共识算法获取该输入信息，将该输入信息作为共享数据中的数据进行存储，使得数据共享系统中全部节点上存储的数据均一致。

对于数据共享系统中的每个节点，均具有与其对应的节点标识，而且数据共享系统中的每个节点均可以存储有数据共享系统中其他节点的节点标识，以便后续根据其他节点的节点标识，将生成的区块广播至数据共享系统中的其他节点。每个节点中可维护一个如下表所示的节点标识列表，将节点名称和节点标识对应存储至该节点标识列表中。其中，节点标识可为IP(Internet Protocol，网络之间互联的协议)地址以及其他任一种能够用于标识该节点的信息，表1中仅以IP地址为例进行说明。

节点名称	节点标识
		节点1	117.114.151.174
节点2	117.116.189.145
		…	…
节点N	119.123.789.258

数据共享系统中的每个节点均存储一条相同的区块链。区块链由多个区块组成，参见图7B，区块链由多个区块组成，创始块中包括区块头和区块主体，区块头中存储有输入信息特征值、版本号、时间戳和难度值，区块主体中存储有输入信息；创始块的下一区块以创始块为父区块，下一区块中同样包括区块头和区块主体，区块头中存储有当前区块的输入信息特征值、父区块的区块头特征值、版本号、时间戳和难度值，并以此类推，使得区块链中每个区块中存储的区块数据均与父区块中存储的区块数据存在关联，保证了区块中输入信息的安全性。

在生成区块链中的各个区块时，参见图7C，区块链所在的节点在接收到输入信息时，对输入信息进行校验，完成校验后，将输入信息存储至内存池中，并更新其用于记录输入信息的哈希树；之后，将更新时间戳更新为接收到输入信息的时间，并尝试不同的随机数，多次进行特征值计算，使得计算得到的特征值可以满足下述公式：

SHA256(SHA256(version+prev_hash+merkle_root+ntime+nbits+x))<TARGET；

其中，SHA256为计算特征值所用的特征值算法；version(版本号)为区块链中相关区块协议的版本信息；prev_hash为当前区块的父区块的区块头特征值；merkle_root为输入信息的特征值；ntime为更新时间戳的更新时间；nbits为当前难度，在一段时间内为定值，并在超出固定时间段后再次进行确定；x为随机数；TARGET为特征值阈值，该特征值阈值可以根据nbits确定得到。

这样，当计算得到满足上述公式的随机数时，便可将信息对应存储，生成区块头和区块主体，得到当前区块。随后，区块链所在节点根据数据共享系统中其他节点的节点标识，将新生成的区块分别发送给其所在的数据共享系统中的其他节点，由其他节点对新生成的区块进行校验，并在完成校验后将新生成的区块添加至其存储的区块链中。

在一些实施例中，服务器训练完模型后，可以根据训练完的模型生成交互对象的操作信息。图8示出了本申请实施例提供的信息处理的方法示意图。该方法可以由服务器执行或终端设备执行，为方便描述，以下将从服务器执行该信息处理的方法的方面进行描述，其他情况可参照本申请实施例进行实施，此处不再赘述。

该信息处理的方法包括：

801、获取交互对象对应的参数，参数包括平面特征参数、数值特征参数，平面特征参数为交互对象在交互过程中产生的非数值信息，数值特征参数为交互对象在交互过程中产生的数值信息；

在本申请实施例中，交互对象也可以称为虚拟角色，电脑玩家或者人工智能玩家，服务器可以获取当前虚拟角色的信息参数，这些信息参数可以与前述用户的信息参数不同。示例性的，如图9所示，图9示出了虚拟角色进行操作的示意图，服务器“控制”虚拟角色902，与用户901、用户903一起进行游戏。示例性的，当轮到虚拟角色902进行操作时，服务器可以获取虚拟角色902对应的信息参数，这些信息参数包括平面特征参数和数值特征参数。平面特征参数和数值特征参数的类型可以参照前述图4对应的各个实施例中的描述，此处不再赘述。

802、通过目标模型获取交互对象对应的操作向量，目标模型包括第一子模型和第二子模型，第一子模型与平面特征参数具有第一对应关系，第二子模型与数值特征参数具有第二对应关系；

在本申请实施例中，服务器可以根据虚拟角色的信息参数，通过目标模型计算得到虚拟角色对应的操作向量。可以理解的是，此处所用的目标模型可以是前述步骤404中得到的目标模型。示例性的，服务器可以根据虚拟角色的平面特征参数，通过第一子模型计算得到第一子特征。服务器可以根据虚拟角色的数值特征参数，通过第二子模型计算得到第二子特征。然后服务器可以将第一子特征和第二子特征合并生成虚拟角色对应的操作向量。合并方式与前述图4对应的各个实施例类似，此处不再赘述。

803、生成交互对象的操作信息，操作信息与操作向量具有关联关系。

在本申请实施例中，服务器可以根据虚拟角色的操作向量生成虚拟角色的操作信息。示例性的，以图9为例，虚拟角色的操作可以包括点击“2000”，“4000”，“8000”，“全下”，“跟注”，“弃牌”等虚拟按钮，当服务器计算得到虚拟角色的操作向量为[1,0,0,0,0,0]时，服务器可以根据这个操作向量确定虚拟角色的操作信息为点击“2000”的虚拟按钮。操作信息与操作向量的关系具体与前述步骤401中第一特征向量与操作信息的关系类似，此处不再赘述。

在一些实施例中，服务器生成虚拟角色的操作信息后，可以将虚拟角色的操作信息发送至终端设备，使得终端设备展示该操作信息以及根据该操作信息继续执行游戏程序。在另一些实施例中，服务器可以根据虚拟角色的操作信息继续执行游戏服务的进程。

可选地，在上述图8对应的各个实施例的基础上，本申请实施例提供信息处理的方法的一个可选实施例中，服务器得到虚拟角色的操作信息后，可以通过区块链同步该虚拟角色的操作信息。服务器以及终端设备可以通过安装好的区块链客户端实现其功能。在本申请实施例中，服务器可以通过区块链上传同步虚拟角色的操作信息，终端设备可以从区块链中下载虚拟角色的操作信息。本申请实施例的区块链已在图4对应的各个实施例中介绍，此处不再赘述。

请参阅图10，图10示出了本申请实施例提供的一种模型训练的装置示例图，该模型训练的装置1000包括：

获取单元1001，用于获取交互对象对应的参数，参数包括平面特征参数、数值特征参数以及第一特征向量，平面特征参数为交互对象在交互过程中产生的非数值信息，数值特征参数为交互对象在交互过程中产生的数值信息，第一特征向量为交互对象在交互过程中产生的操作信息；

处理单元1002，用于根据平面特征参数、数值特征参数以及第一特征参数，通过待训练模型获取第二特征向量，其中，待训练模型包括第一待训练子模型以及第二待训练子模型，平面特征参数与第一待训练子模型具有第一对应关系，数值特征参数与第二待训练子模型具有第二对应关系；

处理单元1002，还用于通过损失函数获取第一特征向量与第二特征向量所对应的损失值；

处理单元1002，还用于当损失值达到收敛时，获取待训练模型对应的模型参数，得到目标模型。

可选地，在上述图10对应的各个实施例的基础上，本申请实施例提供模型训练的装置的一个可选实施例中，平面特征参数包括手牌参数，公共牌参数，牌型强度参数，交互对象的位置参数，交互阶段参数，交互对象的历史操作参数以及交互对象状态参数中的一种或多种。

可选地，在上述图10对应的各个实施例的基础上，本申请实施例提供模型训练的装置的一个可选实施例中，数值特征参数包括基础数值，累计数值，交互对象的剩余数值，牌型强度数值，牌型胜率，投入值以及增加值中的一种或多种。

可选地，在上述图10对应的各个实施例的基础上，本申请实施例提供模型训练的装置的一个可选实施例中，获取单元1001具体用于：

根据激进度对交互对象分类，得到交互对象的类别；

根据交互对象的类别，获取类别其中一类所对应的参数。

图11示出了本申请实施例提供的一种信息处理的装置的示例图，该信息处理的装置1100包括：

获取单元1101，用于获取交互对象对应的参数，参数包括平面特征参数、数值特征参数，平面特征参数为交互对象在交互过程中产生的非数值信息，数值特征参数为交互对象在交互过程中产生的数值信息；

处理单元1102，用于通过目标模型获取交互对象对应的操作向量，目标模型包括第一子模型和第二子模型，第一子模型与平面特征参数具有第一对应关系，第二子模型与数值特征参数具有第二对应关系；

处理单元1102，还用于生成交互对象的操作信息，操作信息与操作向量具有关联关系。

图12示出了本申请实施例提供的一种服务器结构示意图，该服务器1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)1222(例如，一个或一个以上处理器)和存储器1232，一个或一个以上存储应用程序1242或数据1244的存储介质1230(例如一个或一个以上海量存储设备)。其中，存储器1232和存储介质1230可以是短暂存储或持久存储。存储在存储介质1230的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1222可以设置为与存储介质1230通信，在服务器1200上执行存储介质1230中的一系列指令操作。

服务器1200还可以包括一个或一个以上电源1226，一个或一个以上有线或无线网络接口1250，一个或一个以上输入输出接口1258，和/或，一个或一个以上操作系统1241，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该12图12所示的服务器结构。

在本申请实施例中，CPU1222具体用于：

获取交互对象对应的参数，参数包括平面特征参数、数值特征参数以及第一特征向量，平面特征参数为交互对象在交互过程中产生的非数值信息，数值特征参数为交互对象在交互过程中产生的数值信息，第一特征向量为交互对象在交互过程中产生的操作信息；

根据平面特征参数、数值特征参数以及第一特征参数，通过待训练模型获取第二特征向量，其中，待训练模型包括第一待训练子模型以及第二待训练子模型，平面特征参数与第一待训练子模型具有第一对应关系，数值特征参数与第二待训练子模型具有第二对应关系；

通过损失函数获取第一特征向量与第二特征向量所对应的损失值；

当损失值达到收敛时，获取待训练模型对应的模型参数，得到目标模型。

在本申请实施例中，平面特征参数包括手牌参数，公共牌参数，牌型强度参数，交互对象的位置参数，交互阶段参数，交互对象的历史操作参数以及交互对象状态参数中的一种或多种。

在本申请实施例中，数值特征参数包括基础数值，累计数值，交互对象的剩余数值，牌型强度数值，牌型胜率，投入值以及增加值中的一种或多种。

在本申请实施例中，CPU1222还可以用于：

根据激进度对交互对象分类，得到交互对象的类别；

根据交互对象的类别，获取类别其中一类所对应的参数。

在本申请实施例中，CPU1222还可以用于：

获取交互对象对应的参数，参数包括平面特征参数、数值特征参数，平面特征参数为交互对象在交互过程中产生的非数值信息，数值特征参数为交互对象在交互过程中产生的数值信息；

通过目标模型获取交互对象对应的操作向量，目标模型包括第一子模型和第二子模型，第一子模型与平面特征参数具有第一对应关系，第二子模型与数值特征参数具有第二对应关系；

生成交互对象的操作信息，操作信息与操作向量具有关联关系。

在一些实施例中，该服务器还提供服务接口，用于给其他服务器或其他客户端调用目标模型，或通过目标模型得到操作信息。示例性的，该服务接口可以是应用程序接口(application programming interface，API)，或者REST API，REST API使用简单，接入，部署方便，更改模型后可以快速上线，方便扩容，缩容。示例性的，服务器可以采用JSON格式的前后台数据传输方式。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种模型训练的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述平面特征参数包括手牌参数，公共牌参数，牌型强度参数，所述交互对象的位置参数，交互阶段参数，所述交互对象的历史操作参数以及交互对象状态参数中的一种或多种。

3.根据权利要求1所述的方法，其特征在于，所述数值特征参数包括基础数值，累计数值，所述交互对象的剩余数值，牌型强度数值，牌型胜率，投入值以及增加值中的一种或多种。

4.根据权利要求1所述的方法，其特征在于，所述获取交互对象对应的参数包括：

5.根据权利要求1所述的方法，其特征在于，所述当所述损失值达到收敛时，获取所述待训练模型对应的模型参数，得到目标模型之后，所述方法还包括：

通过区块链同步所述目标模型。

6.一种信息处理的方法，其特征在于，包括：

7.根据权利要求1所述的方法，其特征在于，所述生成所述交互对象的操作信息之后，所述方法还包括：

通过区块链同步所述操作信息。

8.一种模型训练的装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述获取单元具体用于：

10.一种信息处理的装置，其特征在于，包括：

11.一种服务器，其特征在于，包括一个或一个以上中央处理器，存储器，输入输出接口，有线或无线网络接口，电源；

所述存储器为短暂存储存储器或持久存储存储器；

所述中央处理器配置为与所述存储器通信，在所述服务器上执行所述存储器中的指令操作以执行权利要求1至7中任意一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行权利要求1至7中任意一项所述的方法。