CN118051782B

CN118051782B - 一种模型训练的方法、业务处理的方法以及相关装置

Info

Publication number: CN118051782B
Application number: CN202410456354.0A
Authority: CN
Inventors: 谭莲芝
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Filing date: 2024-04-16
Publication date: 2024-07-05
Anticipated expiration: 2044-04-16

Abstract

本申请实施例公开了一种模型训练的方法、业务处理的方法以及相关装置，用于提升推荐精确度和推荐效果，并扩展使用场景。模型训练的方法包括：获取包括多个对象训练样本的训练数据；提取每个对象训练样本的游戏样本特征，每个游戏样本特征用于表征对应对象训练样本在虚拟游戏业务中的对局属性情况；基于初始推荐模型对多个对象训练样本的游戏样本特征进行处理，得到样本推荐列表；基于样本推荐列表和样本推荐列表对应的标签对初始推荐模型进行训练，以得到目标推荐模型，目标推荐模型用于对待处理对象的目标游戏特征进行处理，以得到与待处理对象对应的目标推荐列表，目标推荐列表包括至少两个目标对象，每个目标对象用于被推荐给待处理对象。

Description

一种模型训练的方法、业务处理的方法以及相关装置

技术领域

本申请实施例涉及人工智能技术领域，具体涉及一种模型训练的方法、业务处理的方法以及相关装置。

背景技术

随着大数据时代的到来，在互联网上提供了针对用户的许多对象推荐服务，例如包括但不限于音乐、视频、游戏好友、广告、商品等等。推荐是基于收集到的历史数据来学习用户的特征和对象的特征来进行的。尤其是在个性化推荐领域中，最传统的推荐算法是在使用词频-逆文档频率（term frequency-inverse document frequency，TF-IDF）模型提取出每个商品的评论文本所对应的商品内容向量的基础上，利用稀疏边缘降噪自动编码模型确定商品内容向量的商品特征之间的相似度，并结合用户评分矩阵确定出近邻商品的预测评分，从而根据预测评分将合适的近邻商品推荐给用户。

然而，上述传统的推荐算法仅适用于文本推荐场景，导致使用场景存在局限性。另外，传统推荐算法中所使用的稀疏边缘降噪自动编码模型需要依赖于商品特征的相似度进行降噪，无法直接预测出用于推荐的近邻商品，从而无法做到端到端的训练，使得推荐精确度和推荐效果较差。

发明内容

本申请实施例提供了一种模型训练的方法、业务处理的方法以及相关装置，用于提升推荐精确度和推荐效果，并且扩展使用场景。

第一方面，本申请实施例提供了一种模型训练的方法。方法包括：获取训练数据，训练数据包括多个对象训练样本，每个对象训练样本均与虚拟游戏业务相关；提取每个对象训练样本的游戏样本特征，每个游戏样本特征用于表征对应对象训练样本在虚拟游戏业务中的对局属性情况；基于初始推荐模型对多个对象训练样本的游戏样本特征进行处理，得到样本推荐列表，样本推荐列表包括至少两个被推荐的样本对象；基于样本推荐列表和样本推荐列表对应的标签对初始推荐模型进行训练，以得到目标推荐模型，目标推荐模型用于对待处理对象的目标游戏特征进行处理，以得到与待处理对象对应的目标推荐列表，目标推荐列表包括至少两个目标对象，每个目标对象用于被推荐给待处理对象，以执行虚拟游戏业务。

第二方面，本申请实施例提供了一种业务处理的方法。该方法包括：接收终端设备发送的对象推荐请求，并基于对象推荐请求确定待处理对象；提取待处理对象的目标游戏特征，目标游戏特征用于表征待处理对象在虚拟游戏业务中的对局属性情况；基于目标推荐模型对目标游戏特征进行处理，得到目标推荐列表，目标推荐列表包括至少两个目标对象，目标推荐模型是以样本推荐列表和样本推荐列表对应的标签为训练数据，对初始推荐模型进行训练得到的机器学习模型，样本推荐列表是由初始推荐模型对多个对象训练样本的游戏业务特征进行处理得到，每个对象训练样本的游戏业务特征用于表征对应对象训练样本在虚拟游戏业务中的对局属性情况，每个对象训练样本均与虚拟游戏业务相关；向终端设备发送目标推荐列表，目标推荐列表用于终端设备显示至少两个目标对象，以使每个目标对象与待处理对象执行虚拟游戏业务。

第三方面，本申请实施例提供了一种模型训练装置。该模型训练装置包括获取单元、提取单元、处理单元以及训练单元。其中，获取单元，用于获取训练数据，训练数据包括多个对象训练样本，每个对象训练样本均与虚拟游戏业务相关。提取单元，用于提取每个对象训练样本的游戏样本特征，每个游戏样本特征用于表征对应对象训练样本在虚拟游戏业务中的对局属性情况。处理单元，用于基于初始推荐模型对多个对象训练样本的游戏样本特征进行处理，得到样本推荐列表，样本推荐列表包括至少两个被推荐的样本对象。训练单元，用于基于样本推荐列表和样本推荐列表对应的标签对初始推荐模型进行训练，以得到目标推荐模型，目标推荐模型用于对待处理对象的目标游戏特征进行处理，以得到与待处理对象对应的目标推荐列表，目标推荐列表包括至少两个目标对象，每个目标对象用于被推荐给待处理对象，以执行虚拟游戏业务。

在一些可选的实施方式中，训练单元，具体用于：对样本推荐列表进行正则化处理，得到目标正则项信息；基于样本推荐列表、样本推荐列表对应的标签以及预设鲁棒性参数构建目标损失函数；基于目标损失函数、目标正则信息以及初始推荐模型中的初始优化函数，确定目标优化函数，初始优化函数是以求解样本推荐列表与样本推荐列表对应的标签之间最小差异为求解目标时的函数；对目标优化函数进行泰勒展开式处理，以确定目标损失值，目标损失值用于表征样本推荐列表和样本推荐列表对应的标签之间的最小差异；基于目标损失值对初始推荐模型的模型参数进行更新，以得到目标推荐模型。

在另一些可选的实施方式中，训练单元，具体用于：提取初始优化函数中的初始正则项信息和初始损失函数；将初始优化函数的初始正则项信息更新为目标正则项信息、以及将初始优化函数的初始损失函数更新为目标损失函数，以构建得到目标优化函数。

在另一些可选的实施方式中，训练单元，具体用于：计算第一概率值与第二概率值之间的乘积，得到第一值，第一概率值用于指示所样本推荐列表的预测概率，第二概率值用于指示样本推荐列表对应的标签的概率；对第一值与预设鲁棒性参数之间的差异进行对数求解处理，得到第二值；基于第二值与预设阈值之间的最小值关系，构建目标损失函数。

在另一些可选的实施方式中，处理单元，具体用于：将每个游戏样本特征分别作为初始推荐模型的输入，以确定与游戏样本特征对应的对象训练样本的样本分数；基于多个对象训练样本的样本分数，从多个对象训练样本中确定样本推荐列表。

在另一些可选的实施方式中，初始推荐模型包括XGBoost模型，XGBoost模型包括至少一个特征子模型；处理单元，具体用于：针对每个特征子模型，确定每个第一业务特征所对应于每个特征子模型的叶子节点，以得到每个游戏样本特征的叶子节点集合，每个游戏样本特征的叶子节点集合用于表征对应游戏样本特征对应于每个特征子模型的叶子节点的集合，每个第一业务特征均为每个游戏样本特征中的业务子特征；计算每个游戏样本特征的叶子节点集合中的所有叶子节点的节点分数之和，得到每个游戏样本特征对应于每个特征子模型的特征分数；针对每个游戏样本特征，将与游戏样本特征对应的至少一个特征子模型的特征分数进行求和，得到对应游戏样本特征所对应的对象训练样本的样本分数。

在另一些可选的实施方式中，游戏样本特征包括对局社交特征、对局统计特征、对局消耗特征、对局活跃特征以及对局对象属性中的一个或多个，对局社交特征用于指示对象训练样本在虚拟游戏业务中的社交情况，对局统计特征用于指示对象训练样本在虚拟游戏业务中的业务统计情况，对局消耗特征用于指示对象训练样本在虚拟游戏业务中的资源消耗情况，对局活跃特征用于指示对象训练样本在虚拟游戏业务中的活跃情况。

第四方面，本申请实施例提供了一种业务处理装置。该业务处理装置包括接收模块、提取模块、处理模块以及发送模块。其中，接收模块，用于接收终端设备发送的对象推荐请求。处理模块，用于基于对象推荐请求确定待处理对象。提取模块，用于提取待处理对象的目标游戏特征，目标游戏特征用于表征待处理对象在虚拟游戏业务中的对局属性情况。处理模块，用于基于目标推荐模型对目标游戏特征进行处理，得到目标推荐列表，目标推荐列表包括至少两个目标对象，目标推荐模型是以样本推荐列表和样本推荐列表对应的标签为训练数据，对初始推荐模型进行训练得到的机器学习模型，样本推荐列表是由初始推荐模型对多个对象训练样本的游戏业务特征进行处理得到，每个对象训练样本的游戏业务特征用于表征对应对象训练样本在虚拟游戏业务中的对局属性情况，每个对象训练样本均与虚拟游戏业务相关。发送模块，用于向终端设备发送目标推荐列表，目标推荐列表用于终端设备显示至少两个目标对象，以使每个目标对象与待处理对象执行虚拟游戏业务。

在另一些可选的实施方式中，处理模块，具体用于：将目标游戏特征作为目标推荐模型的输入，以确定与目标游戏特征对应的待处理对象的目标分数，目标分数用于表征与待处理对象相关的每个候选推荐对象的被推荐程度；基于目标分数，从候选推荐对象中确定目标推荐列表。

在另一些可选的实施方式中，目标推荐模型包括XGBoost模型，XGBoost模型包括至少一个特征子模型；处理模块，具体用于：针对每个特征子模型，确定每个第二业务特征所对应于每个特征子模型的叶子节点，以得到目标游戏特征的叶子节点集合，目标游戏特征的叶子节点集合用于表征对应目标游戏特征对应于每个特征子模型的叶子节点的集合，每个第二业务特征均为目标游戏特征中的业务子特征；计算目标游戏特征的叶子节点集合中的所有叶子节点的节点分数之和，得到目标游戏特征对应于每个特征子模型的特征分数；将与目标游戏特征对应的至少一个特征子模型的特征分数进行求和，得到与目标游戏特征对应的待处理对象的目标分数。

在另一些可选的实施方式中，处理模块，具体用于：提取对象推荐请求的对象标识；基于对象标识确定待处理对象。

在另一些可选的实施方式中，处理模块，具体还用于：提取对象推荐请求中的业务服务标识，业务服务标识用于标识基于对象推荐请求所请求的业务服务的类型；基于业务服务标识从虚拟游戏业务的候选服务集合中选取目标业务服务。提取模块，具体用于基于目标业务服务提取待处理对象的目标游戏特征。

在另一些可选的实施方式中，目标游戏特征包括对局社交特征、对局统计特征、对局消耗特征、对局活跃特征以及对局对象属性中的一个或多个，对局社交特征用于指示待处理对象在虚拟游戏业务中的社交情况，对局统计特征用于指示待处理对象在虚拟游戏业务中的业务统计情况，对局消耗特征用于指示待处理对象在虚拟游戏业务中的资源消耗情况，对局活跃特征用于指示待处理对象在虚拟游戏业务中的活跃情况。

本申请实施例第五方面提供了一种业务处理设备，包括：存储器、输入/输出（I/O）接口和存储器。存储器用于存储程序指令。处理器用于执行存储器中的程序指令，以执行上述第一方面的实施方式对应的模型训练的方法；或者，执行上述第二方面的实施方式对应的业务处理的方法。

本申请实施例第六方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行以执行上述第一方面的实施方式对应的模型训练的方法；或者，执行上述第二方面的实施方式对应的业务处理的方法。

本申请实施例第七方面提供了一种包含指令的计算机程序产品，当其在计算机或者处理器上运行时，使得计算机或者处理器执行上述以执行上述第一方面的实施方式对应的模型训练的方法；或者，执行上述第二方面的实施方式对应的业务处理的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，先获取包括多个对象训练样本的训练数据，并且每个训练样本均与虚拟游戏业务相关。在获得训练数据后，提取训练数据中每个对象训练样本的游戏样本特征，并利用初始推荐模型对多个对象训练样本的游戏样本特征进行处理，得到样本推荐列表，样本推荐列表中包括至少两个被推荐的样本对象。上述提及的每个游戏样本特征，能够反映对应的对象训练样本在虚拟游戏业务中的对局属性情况。这样，利用样本推荐列表和样本推荐列表对应的标签对初始推荐模型进行训练，能够训练得到目标推荐模型。在训练得到目标推荐模型之后，利用目标推荐模型对待处理对象的目标游戏特征进行处理，可以确定与待处理对象对应的目标推荐列表。需说明，在目标推荐列表中，包括至少两个目标对象，每个目标对象被推荐给待处理对象，以执行虚拟游戏业务。通过上述方式，在提取游戏样本特征后，利用初始推荐模型实现端到端的处理多个对象训练样本的游戏样本特征，以确定样本推荐列表。这样，再利用样本推荐列表和对应的标签更新训练初始推荐模型，进而使用训练得到目标推荐模型完成对待处理对象的目标推荐列表的确定，无需依赖于对象特征之间的相似度进行降噪，而是从虚拟游戏业务中的对局属性来考虑，以实现端到端的训练。不仅提升推荐精确度和推荐效果，而且无需局限于文本推荐场景，极大地扩展至其他的推荐场景。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的系统框架的第一种可选示意图；

图2示出了本申请实施例提供的系统框架的第二种可选示意图；

图3示出了本申请提供的终端设备上报对象推荐请求的可选示意图；

图4示出了本申请实施例提供的模型训练的方法的流程示意图；

图5示出了本申请实施例提供的业务处理的方法的可选流程示意图；

图6示出了本申请实施例提供的展示目标对象的可选示意图；

图7示出了本申请实施例中提供的模型训练装置的功能模块的可选结构示意图；

图8示出了本申请实施例中提供的业务处理装置的功能模块的可选结构示意图；

图9示出了本申请实施例中提供的业务处理设备的硬件结构的可选示意图。

具体实施方式

可以理解的是，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

随着人工智能(artificial intelligence，AI)技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、个性化推荐、虚拟游戏等。相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

为满足人们的个性化需求，个性化推荐技术已经广泛地应用在电子商务、社交网络、各种音视频网站等领域。由于个性化推荐技术能够较好地满足用户个性化需求，发掘用户潜在兴趣，因此将个性化推荐服务集成在服务平台显得尤为重要。随着人工智能技术被逐渐地应用在个性化推荐领域中，通过人工智能技术为不同的游戏对象推荐满足自身需求的个性化产品、广告、游戏好友等推荐对象。

本申请实施例提供了一种模型训练的方法，以及一种业务处理的方法。本申请实施例提供的模型训练的方法、业务处理的方法均是基于人工智能实现的。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能技术包括上述所提及的机器学习等方向。例如，可以涉及机器学习（machine learning，ML）中的深度学习（deep learning），包括自动编码器、嵌入等。

本申请提供的模型训练的方法可以应用于具有数据处理能力的业务处理设备中。示例性地，本申请提供的业务处理的方法也可以应用于上述提及的业务处理设备中。作为一个示意性的描述，所提及的业务处理设备包括但不限于服务器等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（content delivery network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器等，本申请不做具体限定。另外，所提及的终端设备以及服务器可以通过有线通信或无线通信等方式进行直接连接或间接连接，本申请不做具体限定。

上述所提及的业务处理设备可以具备机器学习能力。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括神经网络等技术。在本申请实施例提供的模型训练的方法、业务处理的方法中的采用人工智能模型，主要涉及对神经网络的应用，通过神经网络实现对待处理对象进行对象推荐处理。

在当前的个性化推荐领域中，通常采用的推荐算法是利用利用词频-逆文档频率（TF-IDF）模型处理每个商品的评论文本，以构建出商品内容向量。在构建得到商品内容向量后，以商品内容向量作为训练数据，以训练稀疏边缘降噪自动编码模型。进一步地，利用训练好的模型从商品内容向量提取商品特征，并根据商品特征相似的思想计算出近邻商品的影响力，从而结合用户评分矩阵计算近邻商品的预测评分。最后，再根据预测评分将合适的近邻商品推荐给用户。但是，当前的推荐算法仅适用于文本推荐场景。而针对其他无法使用文本或者其他文字描述的推荐场景，例如虚拟游戏中的对局场景等，使用当前的推荐算法则无法有效地确定出推荐结果。另外，传统推荐算法中所使用的稀疏边缘降噪自动编码模型需要依赖于商品特征的相似度进行降噪，无法直接预测得到最终的近邻商品，进而无法做到端到端的训练，造成推荐的精确度欠佳，导致推荐效果较差。

因此，为了解决上述提及的技术问题，本申请实施例提供了一种模型训练的方法。对应地，本申请还提供了一种业务处理的方法。业务处理设备在使用本申请所提供的模型训练的方法，可以训练得到目标推荐模型。这样，业务处理设备在执行业务处理的方法中，具体可以借助目标推荐模型实现端到端地完成对待处理对象的目标推荐列表的确定处理。

示例性地，图1示出了本申请实施例提供的系统框架第一种可选示意图。如图1所示，在系统框架中，至少包括终端设备、业务处理设备。示例性地，还可以包括网关设备、云端、转发代理设备等。其中，终端设备可以通过网关设备实现与业务处理设备之间的通信连接，或者，终端设备也可以通过云端、网关设备实现与业务处理设备之间的通信连接。另外，业务处理设备也可以通过转发代理设备，请求不同场景下的互动服务,例如包括但不限于社交推荐服务、商品推荐服务、对话推荐服务等等。

其中，终端设备中部署有虚拟游戏应用程序（application，APP）。游戏对象通过注册并登录游戏账号，可以登录并启动终端设备中所部署的虚拟游戏应用程序。在启动虚拟游戏应用程序后，游戏对象可以根据自身的游戏业务需求，在虚拟游戏应用程序中执行不同的业务操作。譬如说，游戏对象可以与其他的游戏对象完成对局游戏，或者，游戏对象也可以在虚拟游戏应用程序的商城中购买游戏商品、道具等对象。

在游戏对象执行不同的业务操作的过程中，通常也希望能够适配到匹配程度较高的对象。譬如说，适配到与游戏等级、游戏角色或者角色偏好之间的相似度大于或等于某个相似阈值时的游戏好友；或者，匹配到商城中与游戏角色、游戏等级等相匹配的攻击道具、车载道具等等。在适配合适对象的过程中，其所适配到的对象是否合适，通常是与游戏对象在游戏对局中的对局属性相关。而推荐模型可以更好地提取和处理对局中的游戏业务特征。因此，业务处理设备可以先利用多个对象训练样本的游戏样本特征训练初始推荐模型，以此来训练得到目标推荐模型。

待处理对象欲想确定自身在虚拟游戏中的目标对象，例如游戏好友、商品等等，可以通过终端设备生成对象推荐请求，并将对象推荐请求通过上述提及的网关设备、或者云端等发送至业务处理设备。譬如说，以本申请中提供的模型训练的方法、业务处理的方法可以部署在云端为例，图3示出了本申请提供的终端设备上报对象推荐请求的可选示意图。如图3所示，终端设备在生成对象推荐请求后，可以通过云端将该对象推荐请求上传至部署在云端的业务处理设备。

这样，业务处理设备在接收到终端设备发送的对象推荐请求之后，可以提取待处理对象的目标游戏特征。譬如说，业务处理设备可以基于对象推荐请求中的业务服务标识，并通过转发代理设备请求与该业务服务标识对应的互动服务，例如上述提及的社交推荐服务、商品推荐服务或者对话推荐服务等等，以此提取待处理对象在该业务服务标识所对应的互动服务相关的目标游戏特征。这样，业务处理设备再利用所训练得到的目标推荐模型对待处理对象的目标游戏特征进行处理，以确定与待处理对象对应的目标推荐列表。业务处理设备在得到目标推荐列表之后，可以将目标推荐列表发送至终端设备。这样，终端设备可以在接收到目标推荐列表之后，将目标推荐列表中的至少两个目标对象显示在游戏界面上，使得待处理对象可获知目标对象，并与目标对象执行虚拟游戏业务。

需说明，在上述业务处理设备中，可以包括不同区服的服务模块。以虚拟游戏业务为例，业务处理设备中可以包括大厅服（gamesvr）、战斗服（relaysvr）、负载管理服（loadsvr）等。其中，在大厅服中，可以请求商品推荐服务，也可以在大厅服的开局页面请求社交推荐服务等。另外，在战斗服中，可以请求对局环境服务等。此外，负载管理服，可以用来对不同区服进行最小化的负载管理。

针对上述图1中提及的业务处理设备如何训练和使用目标推荐模型，其过程可以参照图2示出的系统架构示意图进行理解。如图2所示，在系统架构中，包括模型训练阶段和模型使用阶段。

其中，在模型训练阶段，需要先获取训练数据。训练数据包括多个对象训练样本，例如对象训练样本1、对象训练样本2等等。在获得包含多个对象训练样本的训练数据之后，提取每个对象训练样本的游戏样本特征。需说明，每个游戏样本特征能够用来反映对应的对象训练样本在虚拟游戏业务中的对局属性情况。然后，再利用初始推荐模型对这多个对象训练样本的游戏样本特征进行处理，以得到样本推荐列表。这样，在得到样本推荐列表后，基于样本推荐列表和样本推荐列表对应的标签对初始推荐模型进行训练，由此训练得到目标推荐模型。

这样，在模型使用阶段，业务处理设备在接收到终端设备发送的对象推荐请求后，基于对象推荐请求确定待处理对象，并提取待处理对象的目标游戏特征。这样，再利用在模型训练阶段所训练得到的目标推荐模型对目标游戏特征进行处理，以得到目标推荐列表。也就是说，本申请实施例中无需依赖于对象特征之间的相似度进行降噪，而是从虚拟游戏业务中的对局属性来考虑，可直接利用所训练得到的目标推荐模型预测出待处理对象的目标推荐序列，直接实现端到端的训练。不仅提升推荐精确度和推荐效果，而且无需局限于文本推荐场景，极大地扩展至其他的推荐场景。

需说明，上述提及的终端设备，可以包括但不限于智能手机、台式计算机、笔记本电脑、平板电脑、智能音箱、车载设备、智能手表、可穿戴智能设备、智能语音交互设备、智能家电、飞行器等，本申请实施例中不做限定。另外，所提及的网关设备可以包括但不限于路由器、边界网关、交换机等等，本申请中不做限定。所描述的转发代理设备有时候也称为转发代理（proxy）服务器，具体本申请中不限定具体名称。

示例性地，本申请实施例提供的模型训练的方法、业务处理的方法，还可以应用于云技术、智慧交通、智慧物联、车联网等各种场景，本申请中不做具体限定。

作为一个示意性的描述，由于上述所描述的业务处理的方法的执行处理，需要依赖于前期模型训练的方法所训练得到的目标推荐模型。因此，下面先从实施例的角度，以业务处理设备作为执行主体，详细地描述本申请实施例提供的模型训练的方法。示例性地，图4示出了本申请实施例提供的模型训练的方法的流程示意图。如图4所示，模型训练的方法至少包括如下步骤：

401、获取训练数据，训练数据包括多个对象训练样本，每个对象训练样本均与虚拟游戏业务相关。

示例中，在虚拟游戏业务中，不同的游戏对象可以与不同的游戏好友、陌生好友等好友对象游玩游戏；或者，不同的游戏对象也可以购买虚拟游戏中游戏商城中的商品、道具等产品对象，以便在游戏对局中使用；又或者，不同的游戏对象也可以在虚拟游戏中与好友对象或者游戏中的小助手等进行对话沟通，以得到不同的自然语言处理（naturallanguage processing，NLP）对话等等。基于此，不同的游戏对象可以在游玩游戏、购买产品或者对话沟通等场景中，生成历史对局数据。通过历史对局数据，能够获知游戏对象在虚拟游戏业务中的对局情况。在后续游戏对象希望能够请求推荐合适的好友、产品等情况中，可以通过推荐模型处理历史对局数据来实现。示例性地，可以先训练出性能较优的目标推荐模型。

在训练推荐模型的过程中，需要先获取训练数据。在训练数据中，至少包括多个对象训练样本。需说明，每个对象训练样本均与虚拟游戏业务相关。譬如说，可以先获取历史对局数据，进而从历史对局数据中获取训练数据。作为一个示意性的描述，所描述的对象训练样本，可以包括但不限于游玩虚拟游戏时的游戏对象，例如包括但不限于游戏对象A、游戏对象B、游戏对象C等等。

上述提及的虚拟游戏，可以包括但不限于可以包括但不限于卡牌类游戏（collectible card game，CCG）、大型多人在线角色扮演游戏（multiplayer online role-playing game，MMORPG）、多人在线技术竞技游戏（multiplayer online battle arena，MOBA）、大世界游戏、开放世界游戏等，本申请实施例中不做限定说明。

402、提取每个对象训练样本的游戏样本特征，每个游戏样本特征用于表征对应对象训练样本在虚拟游戏业务中的对局属性情况。

示例中，在获得多个对象训练样本之后，还可以提取每个对象训练样本的游戏样本特征。示例性地，可以通过例如卷积神经网络（convolutional neural networks，CNN）等特征提取模型，提取每个对象训练样本的游戏样本特征。譬如说，将每个对象训练样本作为特征提取模型的输入，以通过特征提取模型对每个对象训练样本进行游戏业务相关的特征提取处理，以提取得到每个对象训练样本的游戏样本特征。需说明，每个对象训练样本的游戏样本特征，能够反映对应的对象训练样本在虚拟游戏业务中的对局属性情况。譬如说，以对象训练样本为游戏对象A为例，针对游戏对象A的游戏样本特征，可反映出游戏对象A在虚拟游戏业务中的对局属性情况。

所提及的游戏样本特征，可包括对局社交特征、对局统计特征、对局消耗特征、对局活跃特征以及对局对象属性中的一个或多个。

其中，所描述的对局社交特征，可以指示对象训练样本在虚拟游戏业务中的社交情况。例如，对局社交特征可以包括但不限于游戏对象的好友数目，不局限于直接好友、间接好友或者陌生好友等等。

另外，所提及的对局统计特征，可以用来指示对象训练样本在虚拟游戏业务中的业务统计情况。例如说，对局统计特征可以包括但不限于游戏对象在过去N天的游戏对局中的对局失败次数、辅助次数、获得最有价值的玩家（most valuable player，MVP）的次数、对局胜利次数、对局胜率、MVP概率、游戏中的奖励次数、抽奖次数等等，本申请中不做限定。需说明，N的取值满足大于或等于1的条件即可，具体取值包括但不限于1天、1.5天、7天、14天、30天、60天等等。

所提及的对局消耗特征，能用于指示对象训练样本在虚拟游戏业务中的资源消耗情况。更具体地，对局消耗特征可以理解成对象训练样本在虚拟游戏业务中获取虚拟游戏道具时所消耗的游戏资源。譬如说，对局消耗特征包括但不限于游戏对象的资源消耗的档次、数量、频次、最大值、最小值等等。所描述的虚拟游戏道具情况，可以包括但不限于从游戏商城中购买游戏皮肤、游戏英雄、游戏素材、游戏道具等等。

此外，所描述的对局活跃特征，可以用于指示对象训练样本在虚拟游戏业务中的活跃情况。譬如说，对局活跃特征可以包括但不限于游戏对象过去N天登录虚拟游戏的登录次数、游玩游戏的时长等。

所描述的对局对象属性也可以理解成游戏对象的基础属性，例如包括但不限于游戏对象的游戏角色、登录虚拟游戏的时间段、游戏对象的游戏段位或游戏等级等等。

需说明，上述提及的游戏样本特征除了上述提及的对局社交特征、对局统计特征、对局消耗特征、对局活跃特征以及对局对象属性以外，在实际应用中还可以包括其他的游戏业务特征，例如游戏版本、游戏类型等等。

403、基于初始推荐模型对多个对象训练样本的游戏样本特征进行处理，得到样本推荐列表，样本推荐列表包括至少两个被推荐的样本对象。

示例中，在提取得到每个对象训练样本的游戏样本特征之后，可以将这多个对象训练样本的游戏样本特征作为初始推荐模型的输入，以通过初始推荐模型对这多个对象训练样本的游戏样本特征进行处理，以确定出样本推荐列表。需说明，在样本推荐列表中，至少包括两个被推荐的样本对象。针对每个样本对象，均可以用于推荐给对应的游戏对象，以使得游戏对象可以与样本对象完成虚拟游戏业务，例如包括但不限于游戏对局、游戏商品的购买、游戏对话沟通等等。

示例性地，利用初始推荐模型处理多个对象训练样本的游戏样本特征，其处理过程可以参照下述方式进行理解，即：

先将每个游戏样本特征分别作为初始推荐模型的输入，以确定与游戏样本特征对应的对象训练样本的样本分数。需说明，样本分数可理解成对象训练样本被推荐的推荐程度。另外，所描述的初始推荐模型，可以包括但不限于XGBoost（eXtreme GradientBoosting）模型等，本申请中仅以XGBoost模型为例进行说明。所提及的XGBoost模型，是一种高效的梯度提升树算法，它通过集成多个分类与回归树（classification andregression tree，CART）来提高模型的性能和泛化能力。XGBoost模型的核心思想是在每棵树的生成过程中，不断拟合前一棵树的预测残差，从而减少整体的预测误差。具体来说，XGBoost模型首先从一棵单棵的CART回归树开始，然后通过添加新的树来拟合前一棵树的预测残差。每一棵新树的生成都是为了最小化目标函数，这个目标函数可以通过二阶泰勒展开来近似。

需说明，本申请中后续提及的XGBoost模型，包括至少一个特征子模型。所描述的特征子模型，可以理解成上述XGBoost模型中所提及的CART回归树。

作为一个示例性的描述，以XGBoost模型为初始推荐模型为例，由于对上述初始推荐模型如何确定出每个对象训练样本的样本分数，其处理过程可以参照下述方式进行理解，即：

针对每个特征子模型，确定每个第一业务特征所对应于每个特征子模型的叶子节点，以得到每个游戏样本特征的叶子节点集合。需说明，每个游戏样本特征的叶子节点集合用于表征对应游戏样本特征对应于每个特征子模型的叶子节点的集合。另外，每个第一业务特征均为每个游戏样本特征中的业务子特征。

譬如说，假设XGBoost模型包括3个特征子模型，例如特征子模型1至特征子模型2。多个对象训练样本包括游戏对象1至游戏对象2，并且这2个游戏对象对应的游戏样本特征分别为：游戏样本特征1至游戏样本特征2。并且，针对游戏样本特征1，其包括2个业务子特征，例如：子特征11和子特征12；针对游戏样本特征2，其包括3个业务子特征，例如：子特征21和子特征23。

此时，针对特征子模型1和游戏样本特征1，可以确定出游戏样本特征1中的子特征11和子特征12对应于特征子模型1的叶子节点，例如子特征11对应于特征子模型1中的叶子节点11、子特征12对应于特征子模型1中的叶子节点13。同样地，针对特征子模型2和游戏样本特征1，可以确定出游戏样本特征1中的子特征11和子特征12对应于特征子模型2的叶子节点，例如子特征11对应于特征子模型2中的叶子节点22、子特征12对应于特征子模型1中的叶子节点25。

类似地，针对特征子模型1和游戏样本特征2，可以确定出游戏样本特征2中的子特征21、子特征22、子特征23对应于特征子模型1的叶子节点，例如子特征21对应于特征子模型1中的叶子节点12、子特征22对应于特征子模型1中的叶子节点14、子特征23对应于特征子模型1中的叶子节点16。同样地，针对特征子模型2和游戏样本特征2，可以确定出游戏样本特征2中的子特征21、子特征22、子特征23对应于特征子模型2的叶子节点，例如子特征21对应于特征子模型2中的叶子节点21、子特征22对应于特征子模型2中的叶子节点24、子特征23对应于特征子模型2中的叶子节点27。

这样，在确定出每个业务子特征对应于特征子模型的叶子节点之后，再计算每个游戏样本特征的叶子节点集合中的所有叶子节点的节点分数之和，得到每个游戏样本特征对应于每个特征子模型的特征分数。

譬如说，针对游戏样本特征1，其叶子节点集合包括：特征子模型1中的叶子节点11和叶子节点13，以及特征子模型2中的叶子节点22和叶子节点25。假设叶子节点11、叶子节点13、叶子节点22、叶子节点25的节点分数分别为1分、3分、5分、7分，此时可以计算出游戏样本特征1对应于特征子模型1、特征子模型2的节点分数，分别为4分、12分。

同样地，针对游戏样本特征2，其叶子节点集合包括：特征子模型1中的叶子节点12、叶子节点14和叶子节点16，以及特征子模型2中的叶子节点21、叶子节点24和叶子节点27。假设叶子节点12、叶子节点14、叶子节点16、叶子节点21、叶子节点24、叶子节点27的节点分数分别2分、1分、3分、5分、7分、6分，此时可以计算出游戏样本特征2对应于特征子模型1、特征子模型2的节点分数，分别为6分、18分。

最后，再针对每个游戏样本特征，将与游戏样本特征对应的至少一个特征子模型的特征分数进行求和，得到对应游戏样本特征所对应的对象训练样本的样本分数。譬如说，针对游戏样本特征1，可以将游戏样本特征1对应于特征子模型1、特征子模型2的节点分数进行求和，例如4分+12分=16分。由此可以确定出游戏样本特征1所对应的游戏对象1的样本分数为16分。同样地，针对游戏样本特征2，可以将游戏样本特征2对应于特征子模型1、特征子模型2的节点分数进行求和，例如6分+18分=24分。由此可以确定出游戏样本特征2所对应的游戏对象2的样本分数为24分。

这样，在得到每个对象训练样本的样本分数之后，基于这多个对象训练样本的样本分数，从这多个对象训练样本中确定样本推荐列表。譬如说，假设对象训练样本包括游戏对象1至游戏对象10，此时通过初始推荐模型对这游戏对象1至游戏对象10中每个游戏对象的游戏样本特征进行处理后，这游戏对象1至游戏对象10所得到的样本分数分别为：16分、24分、30分、40分、50分、60分、70分、80分、88分、92分。此时，例如可以按照样本分数进行降序处理，由此确定出的样本推荐列表中游戏对象的推荐顺序依次为：游戏对象10至游戏对象1。又或者，也可以在确定出游戏对象1至游戏对象的样本分数之后，选取出大于或等于预设分数阈值时所对应的游戏对象，以构建得到样本推荐列表。譬如说，以预设分数阈值为70分为例，通过将样本分数与预设分数阈值进行比较后，可知游戏对象7至游戏对象10的样本分数均大于或等于70分，由此所确定出的样本推荐列表可以包括游戏对象7至游戏对象10。

需说明，上述仅以样本分数为例描述如何确定出样本推荐列表，在实际应用中还可以包括其他的方式来确定，本申请中不做具体限定。另外，针对每个叶子节点对应的节点分数，譬如说可以基于业务需求事先在CART回归树中预先配置每个叶子节点的节点分数，具体不限定节点分数的获取方式。

404、基于样本推荐列表和样本推荐列表对应的标签对初始推荐模型进行训练，以得到目标推荐模型，目标推荐模型用于对待处理对象的目标游戏特征进行处理，以得到与待处理对象对应的目标推荐列表。

该示例中，在确定出样本推荐列表后，还可以根据样本推荐列表和样本推荐列表对应的标签之间的差异，调整初始推荐模型的模型参数，从而完成对初始推荐模型的训练，以得到目标推荐模型。

示例性地，针对如何训练得到目标推荐模型，可以参照下述方式进行理解，即：

对样本推荐列表进行正则化处理，得到目标正则项信息。譬如说，目标正则项信息可以使用Ω(f_t)表示。其中，f_t表示样本推荐列表。所描述的正则化处理，可以包括L1正则化处理和L2正则化处理等，本申请中不做限定。

另外，除了正则化处理样本推荐列表之外，还需要根据样本推荐列表、样本推荐列表对应的标签以及预设鲁棒性参数构建目标损失函数。作为一个示意性的描述，在构建目标损失函数的过程中，可以先在确定样本推荐列表的过程中，确定样本推荐列表的预测概率，例如第一概率值。譬如说，第一概率值可以使用y’表示。此外，还需要确定样本推荐列表对应的标签的概率，例如第二概率值。譬如说，第二概率值可以使用y表示。这样，在得到第一概率值和第二概率值之后，再计算第一概率值和第二概率值之间的乘积，得到第一值。进一步地，对第一值与预设鲁棒性参数之间的差异进行对数求解处理，以得到第二值。这样，再基于对数损失函数的思想，基于第二值与预设阈值之间的最小值关系，构建出目标损失函数。

譬如说，上述提及的目标损失函数可以满足如下公式，即：L(y,y’)=min{1，exp(-yy’-μ)}。其中，L(y,y’)表示目标损失函数，μ表示预设鲁棒性参数。

在构建得到目标损失函数之后，结合前述所得到的目标正则项信息、以及初始推荐模型中的初始优化函数，确定目标优化函数。所提及的初始优化函数，可以理解成是以求解样本推荐列表与样本推荐列表的标签之间最小差异为求解目标时的函数。作为一个示意性的描述，在确定目标优化函数的过程中，具体可以是先提取初始优化函数中的初始正则项信息和初始损失函数，进而将初始正则项信息更新为目标正则项信息、以及将初始损失函数更新为目标损失函数，由此构建得到目标优化函数。

譬如说，上述提及的初始优化函数可以满足如下公式，即：。其中，表示初始损失函数，constant表示常数项，Obj1(t)表示初始优化函数，i表示第i个游戏样本特征，n为大于或等于2的整数。

在利用上述提及的目标损失函数L(y,y’)和目标正则项信息更新该初始优化函数之后，所得到的目标优化函数满足如下公式，即：。其中，Obj2(t)表示目标优化函数。

在构建出目标优化函数之后，可以利用泰勒展开式算法对目标优化函数进行泰勒展开式处理，譬如说进行二阶泰勒展开处理，从而计算的目标损失值。通过目标损失值，能够表征样本推荐列表与样本推荐列表对应的标签之间的最小差异。

这样，在计算得到目标损失值之后，可以利用目标损失值调整初始推荐模型的模型参数，以训练得到目标推荐模型。由此，在得到目标推荐模型之后，可以利用目标推荐模型完成对待处理对象的目标游戏特征的处理，以便于确定出与待处理对象对应的目标推荐列表。需说明，目标推荐列表包括至少两个目标对象，每个目标对象用于被推荐给待处理对象，以执行虚拟游戏业务。

需说明，针对此次提及的如何利用目标推荐模型对待处理对象的目标游戏特征进行处理，可以参照后续图4中示出的内容进行理解，此处先不做赘述。

通过上述方式，本申请中所构建出的目标损失函数，充分考虑到了样本推荐列表的标签存在噪声的情况，进而使得标签在添加噪声之后，标签的取值无论从0变成1或者从1变成0之后，都不太可能改变每个对象训练样本的类别预测结果。因此，本申请所构建得到的目标损失函数具有如下几个鲁棒性属性，即①即使对于大的负边界，该目标损失函数也被限制在1，从而防止对远离决策边界的噪声赋予较大的惩罚权重；②利用该目标损失函数所计算出的目标损失值能够迅速迭代降至零，有助于分类器避免过拟合到大的正边界；③预设鲁棒性参数（即µ）的设置，不仅允许控制应惩罚的负边界范围，而且较大的µ值，可允许忽略具有噪声边界较大的示例。因此，通过上述构建的目标损失函数来搭建目标优化函数，能够利用该目标优化函数求解出最优的目标损失值，进而利用该目标损失值训练出性能较优的目标推荐模型。这样，再利用该目标推荐模型来预测待处理对象的目标推荐列表，能够减少噪声干扰，以实现端到端的预测，提升推荐效果和推荐精确度。

以业务处理设备与终端设备之间的信息交互为例，图5示出了本申请实施例提供的业务处理的方法的可选流程示意图。如图5所示，业务处理的方法至少包括如下步骤：

501、终端设备向业务处理设备发送对象推荐请求。

示例中，在游戏对象欲想请求推荐游戏好友、商城中的产品等对象时，可以通过终端设备生成对象推荐请求。在生成对象推荐请求后，通过终端设备将对象推荐请求发送至业务处理设备。

作为一个示意性的描述，对象推荐请求中可以包括对象标识。通过对象标识，可以明确出哪个待处理对象需要请求执行虚拟游戏业务。示例性地，对象推荐请求还可以包括业务服务标识。业务服务标识，能够用来标识基于对象推荐请求所请求的业务服务的类型。譬如说，业务服务可以包括但不限于前述图1中提及的社交推荐服务、商品推荐服务、对话推荐服务等等，本申请中不做限定。

502、业务处理设备基于对象推荐请求确定待处理对象。

示例中，在终端设备将对象推荐请求发送至业务处理设备之后，业务处理设备可接收到对象推荐请求。在接收到对象推荐请求后，业务处理设备可基于对象推荐请求确定待处理对象。譬如说，业务处理设备从对象推荐请求中提取对象标识，以通过对象标识确定待处理对象。

503、业务处理设备提取待处理对象的目标游戏特征，目标游戏特征用于表征待处理对象在虚拟游戏业务中的对局属性情况。

示例中，在确定待处理对象之后，还可以提取待处理对象的目标游戏特征。示例性地，业务处理设备可以提取对象推荐请求中的业务服务标识，并基于业务服务标识从虚拟游戏业务的候选服务集合中选取目标业务服务。所提及的候选服务集合中可以包括多个候选服务，例如社交推荐服务、商品推荐服务或者对话推荐服务等等。这样，在根据业务服务标识选取出对应的目标业务服务之后，可以基于目标业务服务提取待处理对象的目标游戏特征。譬如说，在目标业务服务为社交推荐服务的情况下，此时可以根据社交推荐服务，提取待处理对象在社交推荐服务下的目标游戏特征。又或者，在目标业务服务为商品推荐服务的情况下，此时则可以根据商品推荐服务，提取待处理对象在商品推荐服务下的目标游戏特征。

作为一个示意性的描述，可以通过例如CNN等特征提取模型提取待处理对象的目标游戏特征。譬如说，将待处理对象作为特征提取模型的输入，以通过特征提取模型对每个待处理对象进行目标业务服务相关的特征提取处理，以提取得到待处理对象的目标游戏特征。需说明，待处理对象的目标游戏特征，能够反映待处理对象在虚拟游戏业务中的对局属性情况。需说明，所提及的目标游戏特征，可以对局社交特征、对局统计特征、对局消耗特征、对局活跃特征以及对局对象属性中的一个或多个。

所描述的对局社交特征，可以指示待处理对象在虚拟游戏业务中的社交情况。所提及的对局统计特征，可以用来指示待处理对象在虚拟游戏业务中的业务统计情况。此外，所提及的对局消耗特征，能用于指示待处理对象在虚拟游戏业务中的资源消耗情况。所描述的对局活跃特征，可以用于指示待处理对象在虚拟游戏业务中的活跃情况。所描述的对局对象属性也可以理解成游戏对象的基础属性。

需说明，上述提及的目标游戏特征除了上述提及的对局社交特征、对局统计特征、对局消耗特征、对局活跃特征以及对局对象属性以外，在实际应用中还可以包括其他的游戏业务特征，例如游戏版本、游戏类型等等。另外，此处所提及的对局社交特征、对局统计特征、对局消耗特征、对局活跃特征以及对局对象属性等内容，具体可以参照前述图4中步骤402所描述的内容进行理解，此处不做赘述。

504、业务处理设备基于目标推荐模型对目标游戏特征进行处理，得到目标推荐列表，目标推荐列表包括至少两个目标对象。

示例中，所提及的目标推荐模型是以样本推荐列表以及样本推荐列表对应的标签为训练数据，对初始推荐模型进行训练得到的机器学习模型。所描述的初始推荐模型，可以参照前述图4中步骤403中所描述的内容进行理解，此处不做赘述。另外，所提及的样本推荐列表是由初始推荐模型对多个对象训练样本的游戏业务特征进行处理得到，可以参照前述图4中步骤403所描述的内容进行理解，此处不做赘述。另外，每个对象训练样本的游戏业务特征用于表征对应对象训练样本在虚拟游戏业务中的对局属性情况，每个对象训练样本均与虚拟游戏业务相关，具体可以参照前述图4中步骤402所描述的内容进行理解，此处不做赘述。

在提取得到目标游戏特征之后，业务处理设备可以使用上述图4中训练得到目标推荐模型对目标游戏特征进行处理，以得到目标推荐列表。需说明，在目标推荐列表中，包括至少两个目标对象。每个目标对象均可以被推荐给待处理对象。

作为一个示意性的描述，如何利用目标推荐模型处理待处理图像的目标游戏特征，可以参照下述方式进行理解，即：

首先，将目标游戏特征作为初始推荐模型的输入，以确定与目标游戏特征对应的待处理对象的目标分数。需说明，所描述的目标分数，可以理解成与待处理对象相关的每个候选推荐对象的被推荐程度。另外，目标推荐模型可以包括但不限于XGBoost模型等，本申请中仅以XGBoost模型为例进行说明。需说明，此处所描述的XGBoost模型可以参照前述图4中步骤403中所描述的内容进行理解，此处不做赘述。

作为一个示例性的描述，以XGBoost模型为目标推荐模型为例，针对上述目标推荐模型如何确定出待处理对象的目标分数，其处理过程可以参照下述方式进行理解，即：

针对每个特征子模型，确定第二业务特征所对应于每个特征子模型的叶子节点，以得到目标游戏特征的叶子节点集合。需说明，目标游戏特征的叶子节点集合用于表征对应目标游戏特征对应于每个特征子模型的叶子节点的集合。另外，每个第二业务特征均为每个目标游戏特征中的业务子特征。

在确定出每个业务子特征对应于特征子模型的叶子节点之后，再计算目标游戏特征的叶子节点集合中的所有叶子节点的节点分数之和，得到目标游戏特征对应于每个特征子模型的特征分数。

最后，再针对目标游戏特征，将与目标游戏特征对应的至少一个特征子模型的特征分数进行求和，得到与目标游戏特征所对应的待处理对象的目标分数。需说明，此处如何确定叶子节点集合、目标分数，其计算过程可以参照前述图4中步骤403中所描述的内容进行理解，此处不做赘述。

这样，在得到待处理对象的目标分数之后，基于待处理对象的目标分数，从这候选推荐对象中确定目标推荐列表。需说明，上述仅以目标分数为例描述如何确定出目标推荐列表，在实际应用中还可以包括其他的方式来确定，本申请中不做具体限定。

505、业务处理设备向终端设备发送目标推荐列表。

示例中，业务处理设备在利用目标推荐模型确定出目标推荐列表之后，则可以将目标推荐列表通过消息或者其他方式发送至终端设备。

506、终端设备基于目标推荐列表显示至少两个目标对象，以使每个目标对象与待处理对象执行虚拟游戏业务。

示例中，在业务处理设备将目标推荐列表发送至终端设备后，终端设备则可以接收到目标推荐列表。这样，终端设备能够基于目标推荐列表，将目标推荐列表中所包括的至少两个目标对象显示在游戏界面中，进而使得待处理对象能够在查看到这些目标对象后，与这些目标对象执行虚拟游戏业务。

譬如说，图6示出了本申请实施例提供的展示目标对象的可选示意图。如图6所示，以社交推荐服务为例，该目标推荐列表中包括4个目标对象，例如小明、小小、小一、小二。通过这4个对象，待处理对象可与小明、小小、小一、小二这4个对象游玩虚拟游戏。

通过上述方式，利用所训练得到的目标推荐模型来预测待处理对象的目标推荐列表，能够减少噪声干扰，以实现端到端的预测，提升推荐效果和推荐精确度，并扩展使用场景。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。可以理解的是为了实现上述功能，包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应很容易意识到，结合本申请中所公开的实施例描述的各示例的模块及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

本申请实施例中，术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分，并与其他相关部分一起工作以实现预定目标，并且可以通过使用软件、硬件（如处理电路或存储器）或其组合来全部或部分实现。同样的，一个处理器（或多个处理器或存储器）可以用来实现一个或多个模块或单元。此外，每个模块或单元都可以是包含模块或单元功能的整体模块或单元的一部分。

下面对本申请实施例中的模型训练装置进行详细描述，图7为本申请实施例中提供的模型训练装置的功能模块的可选结构示意图。如图7所示，该模型训练装置包括获取单元701、提取单元702、处理单元703以及训练单元704。

其中，获取单元701，用于获取训练数据，训练数据包括多个对象训练样本，每个对象训练样本均与虚拟游戏业务相关。具体可以参照前述图4中步骤401中所描述的内容进行理解，此处不做赘述。

提取单元702，用于提取每个对象训练样本的游戏样本特征，每个游戏样本特征用于表征对应对象训练样本在虚拟游戏业务中的对局属性情况。具体可以参照前述图4中步骤402中所描述的内容进行理解，此处不做赘述。

处理单元703，用于基于初始推荐模型对多个对象训练样本的游戏样本特征进行处理，得到样本推荐列表，样本推荐列表包括至少两个被推荐的样本对象。具体可以参照前述图4中步骤403中所描述的内容进行理解，此处不做赘述。

训练单元704，用于基于样本推荐列表和样本推荐列表对应的标签对初始推荐模型进行训练，以得到目标推荐模型，目标推荐模型用于对待处理对象的目标游戏特征进行处理，以得到与待处理对象对应的目标推荐列表，目标推荐列表包括至少两个目标对象，每个目标对象用于被推荐给待处理对象，以执行虚拟游戏业务。具体可以参照前述图4中步骤404中所描述的内容进行理解，此处不做赘述。

在一些可选的实施方式中，训练单元704，具体用于：对样本推荐列表进行正则化处理，得到目标正则项信息；基于样本推荐列表、样本推荐列表对应的标签以及预设鲁棒性参数构建目标损失函数；基于目标损失函数、目标正则信息以及初始推荐模型中的初始优化函数，确定目标优化函数，初始优化函数是以求解样本推荐列表与样本推荐列表对应的标签之间最小差异为求解目标时的函数；对目标优化函数进行泰勒展开式处理，以确定目标损失值，目标损失值用于表征样本推荐列表和样本推荐列表对应的标签之间的最小差异；基于目标损失值对初始推荐模型的模型参数进行更新，以得到目标推荐模型。

在另一些可选的实施方式中，训练单元704，具体用于：提取初始优化函数中的初始正则项信息和初始损失函数；将初始优化函数的初始正则项信息更新为目标正则项信息、以及将初始优化函数的初始损失函数更新为目标损失函数，以构建得到目标优化函数。

在另一些可选的实施方式中，训练单元704，具体用于：计算第一概率值与第二概率值之间的乘积，得到第一值，第一概率值用于指示所样本推荐列表的预测概率，第二概率值用于指示样本推荐列表对应的标签的概率；对第一值与预设鲁棒性参数之间的差异进行对数求解处理，得到第二值；基于第二值与预设阈值之间的最小值关系，构建目标损失函数。

在另一些可选的实施方式中，处理单元703，具体用于：将每个游戏样本特征分别作为初始推荐模型的输入，以确定与游戏样本特征对应的对象训练样本的样本分数；基于多个对象训练样本的样本分数，从多个对象训练样本中确定样本推荐列表。

在另一些可选的实施方式中，初始推荐模型包括XGBoost模型，XGBoost模型包括至少一个特征子模型；处理单元703，具体用于：针对每个特征子模型，确定每个第一业务特征所对应于每个特征子模型的叶子节点，以得到每个游戏样本特征的叶子节点集合，每个游戏样本特征的叶子节点集合用于表征对应游戏样本特征对应于每个特征子模型的叶子节点的集合，每个第一业务特征均为每个游戏样本特征中的业务子特征；计算每个游戏样本特征的叶子节点集合中的所有叶子节点的节点分数之和，得到每个游戏样本特征对应于每个特征子模型的特征分数；针对每个游戏样本特征，将与游戏样本特征对应的至少一个特征子模型的特征分数进行求和，得到对应游戏样本特征所对应的对象训练样本的样本分数。

上述主要从功能模块的角度描述了模型训练装置，下面将从功能模型的角度描述业务处理装置。图8为本申请实施例中提供的业务处理装置的功能模块的可选结构示意图。如图8所示，该业务处理装置包括接收模块801、处理模块802、提取模块803、以及发送模块804。

其中，接收模块801，用于接收终端设备发送的对象推荐请求。具体可以参照前述图5中的步骤501进行理解，此处不做赘述。

处理模块802，用于基于对象推荐请求确定待处理对象。具体可以参照前述图5中的步骤502进行理解，此处不做赘述。

提取模块803，用于提取待处理对象的目标游戏特征，目标游戏特征用于表征待处理对象在虚拟游戏业务中的对局属性情况。具体可以参照前述图5中的步骤503进行理解，此处不做赘述。

处理模块802，用于基于目标推荐模型对目标游戏特征进行处理，得到目标推荐列表，目标推荐列表包括至少两个目标对象，目标推荐模型是以样本推荐列表和样本推荐列表对应的标签为训练数据，对初始推荐模型进行训练得到的机器学习模型，样本推荐列表是由初始推荐模型对多个对象训练样本的游戏业务特征进行处理得到，每个对象训练样本的游戏业务特征用于表征对应对象训练样本在虚拟游戏业务中的对局属性情况，每个对象训练样本均与虚拟游戏业务相关。具体可以参照前述图5中的步骤504进行理解，此处不做赘述。

发送模块804，用于向终端设备发送目标推荐列表，目标推荐列表用于终端设备显示至少两个目标对象，以使每个目标对象与待处理对象执行虚拟游戏业务。具体可以参照前述图5中的步骤505进行理解，此处不做赘述。

在另一些可选的实施方式中，处理模块802，具体用于：将目标游戏特征作为目标推荐模型的输入，以确定与目标游戏特征对应的待处理对象的目标分数，目标分数用于表征与待处理对象相关的每个候选推荐对象的被推荐程度；基于目标分数，从候选推荐对象中确定目标推荐列表。

在另一些可选的实施方式中，目标推荐模型包括XGBoost模型，XGBoost模型包括至少一个特征子模型；处理模块802，具体用于：针对每个特征子模型，确定每个第二业务特征所对应于每个特征子模型的叶子节点，以得到目标游戏特征的叶子节点集合，目标游戏特征的叶子节点集合用于表征对应目标游戏特征对应于每个特征子模型的叶子节点的集合，每个第二业务特征均为目标游戏特征中的业务子特征；计算目标游戏特征的叶子节点集合中的所有叶子节点的节点分数之和，得到目标游戏特征对应于每个特征子模型的特征分数；将与目标游戏特征对应的至少一个特征子模型的特征分数进行求和，得到与目标游戏特征对应的待处理对象的目标分数。

在另一些可选的实施方式中，处理模块802，具体用于：提取对象推荐请求的对象标识；基于对象标识确定待处理对象。

在另一些可选的实施方式中，处理模块802，具体还用于：提取对象推荐请求中的业务服务标识，业务服务标识用于标识基于对象推荐请求所请求的业务服务的类型；基于业务服务标识从虚拟游戏业务的候选服务集合中选取目标业务服务。提取模块803，具体用于基于目标业务服务提取待处理对象的目标游戏特征。

上面从模块化功能实体的角度对本申请实施例中的业务处理设备进行描述，下面从硬件处理的角度对本申请实施例中的业务处理设备进行描述。图9是本申请实施例提供的业务处理设备的硬件结构的可选示意图。业务处理设备可因配置或性能不同而产生比较大的差异，例如可以包括但不限于前述图7中示出的模型训练装置，或者图8中示出的业务处理装置。

如图9所示，业务处理设备300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（central processing units，CPU）322（例如，一个或一个以上处理器）和存储器332，一个或一个以上用于存储应用程序342或数据344的存储介质330（例如一个或一个以上海量存储设备）。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对业务处理设备中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在业务处理设备300上执行存储介质330中的一系列指令操作。示例性地，中央处理器322用于执行存储介质330中存储的应用程序342，从而实现本申请上述实施例提供的模型训练的方法或者业务处理的方法。

业务处理设备300还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

示例性地，图9中的中央处理器322可以通过调用存储器332中存储的计算机执行指令，使得业务处理设备执行如图4至图5对应的方法实施例中的方法。

具体的，图7中的提取单元702、处理单元703以及训练单元704、图8中的处理模块802和提取模块803的功能/实现过程可以通过图9中的中央处理器322调用存储器332中存储的计算机执行指令来实现。图7中的获取单元701、图8中的接收模块801和发送模块804的功能/实现过程可以通过图9中的输入输出接口358来实现。

上述实施例中由业务处理设备所执行的步骤可以基于图9所示的业务处理设备结构。

本申请实施例中还提供一种计算机可读存储介质，其上存储有计算机程序或指令，计算机程序或指令被处理器执行时，实现前述各个实施例描述方法的步骤。

本申请实施例中还提供一种计算机程序产品，包括计算机程序或指令，计算机程序或指令被处理器执行时，实现前述各个实施例描述方法的步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者技术方案的全部或部分可以以软件产品的形式体现出来，计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，（例如，软盘、硬盘、磁带）、光介质（例如，DVD）、或者半导体介质（例如SSD)）等。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种模型训练的方法，其特征在于，包括：

获取训练数据，所述训练数据包括多个对象训练样本，每个所述对象训练样本均与虚拟游戏业务相关；

提取每个所述对象训练样本的游戏样本特征，每个所述游戏样本特征用于表征对应所述对象训练样本在所述虚拟游戏业务中的对局属性情况；

基于初始推荐模型对多个所述对象训练样本的游戏样本特征进行处理，得到样本推荐列表，所述样本推荐列表包括至少两个被推荐的样本对象；

基于所述样本推荐列表和所述样本推荐列表对应的标签对所述初始推荐模型进行训练，以得到目标推荐模型，所述目标推荐模型用于对待处理对象的目标游戏特征进行处理，以得到与所述待处理对象对应的目标推荐列表，所述目标推荐列表包括至少两个目标对象，每个所述目标对象用于被推荐给所述待处理对象，以执行所述虚拟游戏业务；

其中，基于所述样本推荐列表和所述样本推荐列表对应的标签对所述初始推荐模型进行训练，以得到目标推荐模型，包括：

对所述样本推荐列表进行正则化处理，得到目标正则项信息；

基于所述样本推荐列表、所述样本推荐列表对应的标签以及预设鲁棒性参数构建目标损失函数，其中包括：计算第一概率值与第二概率值之间的乘积，得到第一值，所述第一概率值用于指示所样本推荐列表的预测概率，所述第二概率值用于指示所述样本推荐列表对应的标签的概率；对所述第一值与所述预设鲁棒性参数之间的差异进行对数求解处理，得到第二值；基于所述第二值与预设阈值之间的最小值关系，构建目标损失函数；

基于所述目标损失函数、所述目标正则项信息以及所述初始推荐模型中的初始优化函数，确定目标优化函数，所述初始优化函数是以求解所述样本推荐列表与所述样本推荐列表对应的标签之间最小差异为求解目标时的函数；

对所述目标优化函数进行泰勒展开式处理，以确定目标损失值，所述目标损失值用于表征所述样本推荐列表和所述样本推荐列表对应的标签之间的最小差异；

基于所述目标损失值对所述初始推荐模型的模型参数进行更新，以得到目标推荐模型。

2.根据权利要求1所述的方法，其特征在于，基于所述目标损失函数、所述目标正则项信息以及所述初始推荐模型中的初始优化函数，确定目标优化函数，包括：

提取所述初始优化函数中的初始正则项信息和初始损失函数；

将所述初始优化函数的所述初始正则项信息更新为所述目标正则项信息、以及将所述初始优化函数的所述初始损失函数更新为所述目标损失函数，以构建得到目标优化函数。

3.根据权利要求1或2所述的方法，其特征在于，基于初始推荐模型对多个所述对象训练样本的游戏样本特征进行处理，以得到样本推荐列表，包括：

将每个所述游戏样本特征分别作为所述初始推荐模型的输入，以确定与所述游戏样本特征对应的所述对象训练样本的样本分数；

基于多个所述对象训练样本的样本分数，从所述多个对象训练样本中确定样本推荐列表。

4.根据权利要求3所述的方法，其特征在于，所述初始推荐模型包括XGBoost模型，所述XGBoost模型包括至少一个特征子模型；将每个所述游戏样本特征分别作为所述初始推荐模型的输入，以确定与所述游戏样本特征对应的所述对象训练样本的样本分数，包括：

针对每个所述特征子模型，确定每个第一业务特征所对应于每个所述特征子模型的叶子节点，以得到每个所述游戏样本特征的叶子节点集合，每个所述游戏样本特征的叶子节点集合用于表征对应所述游戏样本特征对应于每个所述特征子模型的叶子节点的集合，所述每个第一业务特征均为每个所述游戏样本特征中的业务子特征；

计算每个所述游戏样本特征的叶子节点集合中的所有叶子节点的节点分数之和，得到每个所述游戏样本特征对应于每个所述特征子模型的特征分数；

针对每个所述游戏样本特征，将与所述游戏样本特征对应的所述至少一个特征子模型的特征分数进行求和，得到对应所述游戏样本特征所对应的对象训练样本的样本分数。

5.根据权利要求1或2所述的方法，其特征在于，所述游戏样本特征包括对局社交特征、对局统计特征、对局消耗特征、对局活跃特征以及对局对象属性中的一个或多个，所述对局社交特征用于指示所述对象训练样本在所述虚拟游戏业务中的社交情况，所述对局统计特征用于指示所述对象训练样本在所述虚拟游戏业务中的业务统计情况，所述对局消耗特征用于指示所述对象训练样本在所述虚拟游戏业务中的资源消耗情况，所述对局活跃特征用于指示所述对象训练样本在所述虚拟游戏业务中的活跃情况。

6.一种业务处理的方法，其特征在于，包括：

接收终端设备发送的对象推荐请求，并基于所述对象推荐请求确定待处理对象；

提取所述待处理对象的目标游戏特征，所述目标游戏特征用于表征所述待处理对象在虚拟游戏业务中的对局属性情况；

基于目标推荐模型对所述目标游戏特征进行处理，得到目标推荐列表，所述目标推荐列表包括至少两个目标对象，所述目标推荐模型是以样本推荐列表和所述样本推荐列表对应的标签为训练数据，对初始推荐模型进行训练得到的机器学习模型，所述样本推荐列表是由所述初始推荐模型对多个对象训练样本的游戏业务特征进行处理得到，每个所述对象训练样本的游戏业务特征用于表征对应所述对象训练样本在所述虚拟游戏业务中的对局属性情况，每个所述对象训练样本均与所述虚拟游戏业务相关，其中，目标推荐模型的训练方式，包括：对所述样本推荐列表进行正则化处理，得到目标正则项信息；计算第一概率值与第二概率值之间的乘积，得到第一值，所述第一概率值用于指示所样本推荐列表的预测概率，所述第二概率值用于指示所述样本推荐列表对应的标签的概率；对所述第一值与预设鲁棒性参数之间的差异进行对数求解处理，得到第二值；基于所述第二值与预设阈值之间的最小值关系，构建目标损失函数；基于所述目标损失函数、所述目标正则项信息以及所述初始推荐模型中的初始优化函数，确定目标优化函数，所述初始优化函数是以求解所述样本推荐列表与所述样本推荐列表对应的标签之间最小差异为求解目标时的函数；对所述目标优化函数进行泰勒展开式处理，以确定目标损失值，所述目标损失值用于表征所述样本推荐列表和所述样本推荐列表对应的标签之间的最小差异；基于所述目标损失值对所述初始推荐模型的模型参数进行更新，以得到目标推荐模型；

向所述终端设备发送所述目标推荐列表，所述目标推荐列表用于所述终端设备显示所述至少两个目标对象，以使每个所述目标对象与所述待处理对象执行所述虚拟游戏业务。

7.根据权利要求6所述的方法，其特征在于，基于目标推荐模型对所述目标游戏特征进行处理，得到目标推荐列表，包括：

将所述目标游戏特征作为所述目标推荐模型的输入，以确定与所述目标游戏特征对应的所述待处理对象的目标分数，所述目标分数用于表征与所述待处理对象相关的每个候选推荐对象的被推荐程度；

基于所述目标分数，从所述候选推荐对象中确定目标推荐列表。

8.根据权利要求7所述的方法，其特征在于，所述目标推荐模型包括XGBoost模型，所述XGBoost模型包括至少一个特征子模型；将所述目标游戏特征作为所述目标推荐模型的输入，以确定与所述目标游戏特征对应的所述待处理对象的目标分数，包括：

针对每个所述特征子模型，确定每个第二业务特征所对应于每个所述特征子模型的叶子节点，以得到所述目标游戏特征的叶子节点集合，所述目标游戏特征的叶子节点集合用于表征对应所述目标游戏特征对应于每个所述特征子模型的叶子节点的集合，所述每个第二业务特征均为所述目标游戏特征中的业务子特征；

计算所述目标游戏特征的叶子节点集合中的所有叶子节点的节点分数之和，得到所述目标游戏特征对应于每个所述特征子模型的特征分数；

将与所述目标游戏特征对应的所述至少一个特征子模型的特征分数进行求和，得到与所述目标游戏特征对应的所述待处理对象的目标分数。

9.根据权利要求6至8中任一项所述的方法，其特征在于，基于所述对象推荐请求确定待处理对象，包括：

提取所述对象推荐请求的对象标识；

基于所述对象标识确定待处理对象。

10.根据权利要求6至8中任一项所述的方法，其特征在于，所述方法还包括：

提取所述对象推荐请求中的业务服务标识，所述业务服务标识用于标识基于所述对象推荐请求所请求的业务服务的类型；

基于所述业务服务标识从所述虚拟游戏业务的候选服务集合中选取目标业务服务；

提取所述待处理对象的目标游戏特征，包括：

基于所述目标业务服务提取所述待处理对象的目标游戏特征。

11.根据权利要求6至8中任一项所述的方法，其特征在于，所述目标游戏特征包括对局社交特征、对局统计特征、对局消耗特征、对局活跃特征以及对局对象属性中的一个或多个，所述对局社交特征用于指示所述待处理对象在所述虚拟游戏业务中的社交情况，所述对局统计特征用于指示所述待处理对象在所述虚拟游戏业务中的业务统计情况，所述对局消耗特征用于指示所述待处理对象在所述虚拟游戏业务中的资源消耗情况，所述对局活跃特征用于指示所述待处理对象在所述虚拟游戏业务中的活跃情况。

12.一种模型训练装置，其特征在于，包括：

获取单元，用于获取训练数据，所述训练数据包括多个对象训练样本，每个所述对象训练样本均与虚拟游戏业务相关；

提取单元，用于提取每个所述对象训练样本的游戏样本特征，每个所述游戏样本特征用于表征对应所述对象训练样本在所述虚拟游戏业务中的对局属性情况；

处理单元，用于基于初始推荐模型对多个所述对象训练样本的游戏样本特征进行处理，得到样本推荐列表，所述样本推荐列表包括至少两个被推荐的样本对象；

训练单元，用于基于所述样本推荐列表和所述样本推荐列表对应的标签对所述初始推荐模型进行训练，以得到目标推荐模型，所述目标推荐模型用于对待处理对象的目标游戏特征进行处理，以得到与所述待处理对象对应的目标推荐列表，所述目标推荐列表包括至少两个目标对象，每个所述目标对象用于被推荐给所述待处理对象，以执行所述虚拟游戏业务；

其中，所述训练单元具体用于：

13.根据权利要求12所述的装置，其特征在于，所述训练单元，具体用于：

14.根据权利要求12或13所述的装置，其特征在于，所述处理单元，具体用于：

15.根据权利要求14所述的装置，其特征在于，所述初始推荐模型包括XGBoost模型，所述XGBoost模型包括至少一个特征子模型；所述处理单元，具体用于：

16.一种业务处理装置，其特征在于，包括：

接收模块，用于接收终端设备发送的对象推荐请求；

处理模块，用于基于所述对象推荐请求确定待处理对象；

提取模块，用于提取所述待处理对象的目标游戏特征，所述目标游戏特征用于表征所述待处理对象在虚拟游戏业务中的对局属性情况；

所述处理模块，用于基于目标推荐模型对所述目标游戏特征进行处理，得到目标推荐列表，所述目标推荐列表包括至少两个目标对象，所述目标推荐模型是以样本推荐列表和所述样本推荐列表对应的标签为训练数据，对初始推荐模型进行训练得到的机器学习模型，所述样本推荐列表是由所述初始推荐模型对多个对象训练样本的游戏业务特征进行处理得到，每个所述对象训练样本的游戏业务特征用于表征对应所述对象训练样本在所述虚拟游戏业务中的对局属性情况，每个所述对象训练样本均与所述虚拟游戏业务相关，其中，目标推荐模型的训练方式，包括：对所述样本推荐列表进行正则化处理，得到目标正则项信息；计算第一概率值与第二概率值之间的乘积，得到第一值，所述第一概率值用于指示所样本推荐列表的预测概率，所述第二概率值用于指示所述样本推荐列表对应的标签的概率；对所述第一值与预设鲁棒性参数之间的差异进行对数求解处理，得到第二值；基于所述第二值与预设阈值之间的最小值关系，构建目标损失函数；基于所述目标损失函数、所述目标正则项信息以及所述初始推荐模型中的初始优化函数，确定目标优化函数，所述初始优化函数是以求解所述样本推荐列表与所述样本推荐列表对应的标签之间最小差异为求解目标时的函数；对所述目标优化函数进行泰勒展开式处理，以确定目标损失值，所述目标损失值用于表征所述样本推荐列表和所述样本推荐列表对应的标签之间的最小差异；基于所述目标损失值对所述初始推荐模型的模型参数进行更新，以得到目标推荐模型；

发送模块，用于向所述终端设备发送所述目标推荐列表，所述目标推荐列表用于所述终端设备显示所述至少两个目标对象，以使每个所述目标对象与所述待处理对象执行所述虚拟游戏业务。

17.根据权利要求16所述的装置，其特征在于，所述处理模块，具体用于：

18.根据权利要求17所述的装置，其特征在于，所述目标推荐模型包括XGBoost模型，所述XGBoost模型包括至少一个特征子模型；所述处理模块，具体用于：

19.根据权利要求16至18中任一项所述的装置，其特征在于，所述处理模块，具体用于：

提取所述对象推荐请求的对象标识；

基于所述对象标识确定待处理对象。

20.根据权利要求16至18中任一项所述的装置，其特征在于，所述处理模块还用于：

所述提取模块，具体用于基于所述目标业务服务提取所述待处理对象的目标游戏特征。

21.一种业务处理设备，其特征在于，包括：输入/输出（I/O）接口、处理器和存储器，所述存储器中存储有程序指令；

所述处理器用于执行存储器中存储的程序指令，执行如权利要求1至5中任一所述的方法；或者，执行如权利要求6至11中任一所述的方法。

22.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括指令，当所述指令在计算机设备上运行时，使得所述计算机设备执行如权利要求1至5中任一所述的方法；或者，执行如权利要求6至11中任一所述的方法。

23.一种计算机程序产品，其特征在于，所述计算机程序产品包括指令，当所述指令在计算机设备上运行时，使得所述计算机设备执行如权利要求1至5中任一所述的方法；或者，执行如权利要求6至11中任一所述的方法。