CN108304935B

CN108304935B - 机器学习模型训练方法、装置和计算机设备

Info

Publication number: CN108304935B
Application number: CN201710322670.9A
Authority: CN
Inventors: 刘成烽; 郑博; 黄巩怡; 段培
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-05-09
Filing date: 2017-05-09
Publication date: 2022-01-18
Anticipated expiration: 2037-05-09
Also published as: CN108304935A

Abstract

本申请涉及一种机器学习模型训练方法、装置和计算机设备，该方法包括：获取通过社交平台的用户标识相关联的第一用户数据及第一标签；所述第一标签源自第一业务，所述第一用户数据源自所述社交平台；获取通过所述社交平台的用户标识相关联的第二用户数据及第二标签；所述第二用户数据源自所述社交平台，所述第二标签源自第二业务；根据所述第一用户数据、所述第一标签、所述第二用户数据和所述第二标签，训练针对所述第二业务的机器学习模型。本申请的方案可以尽量避免在训练样本不足时导致机器学习模型预测准确性较低的问题。

Description

机器学习模型训练方法、装置和计算机设备

技术领域

本发明涉及计算机技术领域，特别是涉及一种机器学习模型训练方法、装置和计算机设备。

背景技术

机器学习，是让机器基于训练样本训练出机器学习模型的过程，使得机器学习模型具有对训练样本之外的数据具有预测能力。比如，开放人员可以累积与用户信用有关的用户数据，并人工对该用户数据添加标签，从而利用带有标签的用户数据训练机器学习模型；当已知目标用户的用户数据时，就可以利用该机器学习模型预测目标用户的用户信用。

然而，目前训练机器学习模型时，需要大量带标签的训练样本，而在业务启动初期，难以累积到足够数量的训练样本，从而导致训练的机器学习模型预测准确性较低。

发明内容

基于此，有必要针对目前机器学习模型预测准确性较低的问题，提供一种机器学习模型训练方法、装置和计算机设备。

一种机器学习模型训练方法，包括：

获取通过社交平台的用户标识相关联的第一用户数据及第一标签；所述第一标签源自第一业务，所述第一用户数据源自所述社交平台；

获取通过所述社交平台的用户标识相关联的第二用户数据及第二标签；所述第二用户数据源自所述社交平台，所述第二标签源自第二业务；

根据所述第一用户数据、所述第一标签、所述第二用户数据和所述第二标签，训练针对所述第二业务的机器学习模型。

一种机器学习模型训练装置，包括：

数据收集模块，用于获取通过社交平台的用户标识相关联的第一用户数据及第一标签；所述第一标签源自第一业务，所述第一用户数据源自所述社交平台；获取通过所述社交平台的用户标识相关联的第二用户数据及第二标签；所述第二用户数据源自所述社交平台，所述第二标签源自第二业务；

训练模块，用于根据所述第一用户数据、所述第一标签、所述第二用户数据和所述第二标签，训练针对所述第二业务的机器学习模型。

一种计算机设备，包括存储器和处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行机器学习模型训练方法的步骤。

上述机器学习模型训练方法、装置和计算机设备，通过社交平台的用户标识，可以将第一业务的第一标签和社交平台中的第一用户数据相关联，并将第二业务的第二标签和社交平台中的第二用户数据相关联。增加第一业务的第一标签，可以补充第二业务所缺乏的第二标签，结合社交平台中存在的第一用户数据和第二用户数据，可以训练出针对第二业务的机器学习模型，该机器学习模型可以实现针对第二业务的预测，可尽量避免在训练样本不足时导致机器学习模型预测准确性较低的问题。

附图说明

图1为一个实施例中机器学习模型训练方法的应用环境图；

图2为一个实施例中用于实施机器学习模型训练方法的计算机设备的内部结构示意图；

图3为一个实施例中机器学习模型训练方法的流程示意图；

图4为一个实施例中根据所述第一用户数据、所述第一标签、所述第二用户数据和所述第二标签，训练针对所述第二业务的机器学习模型的步骤的流程示意图；

图5为一个实施例中第一业务、社交平台和第二业务之间用户数据的关系示意图；

图6为一个实施例中构建第一业务的用户数据映射至第二业务的用户数据的映射关系的步骤的流程示意图；

图7为一个实施例中通过神经网络算法学习第一业务的用户数据映射至第二业务的用户数据的映射关系的示意图；

图8为一个具体应用场景中业务之间关系的示意图；

图9为一个实施例中机器学习模型训练装置的结构框图；

图10为一个实施例中训练模块的结构框图；

图11为一个实施例中权重调整模块的结构框图；

图12为另一个实施例中机器学习模型训练装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一业务称为社交平台，且类似地，可将社交平台称为第一业务。第一业务和社交平台两者都是业务，但其不是同一业务。

图1为一个实施例中机器学习模型训练方法的应用环境图。参照图1，该应用环境包括计算机设备101、第一业务平台102、社交平台103和第二业务平台104。其中第一业务平台102是实现第一业务的服务器，社交平台103是实现社交平台的服务器，第二业务平台104是实现第二业务的服务器。

计算机设备101可从第一业务平台102、社交平台103和第二业务平台104获取训练所需的数据。比如，计算机设备101可从社交平台103获取用户数据，获取的是源自社交平台的用户数据，具体如用户基础数据、用户行为数据和用户终端数据等。计算机设备101可从第一业务平台102和第二业务平台104分别获取相应平台上的用户数据，获取的是源自第一业务或者第二业务的用户数据。

源自社交平台的用户数据，可以是用户主动登记或者社交平台自动采集的用户数数据。源自社交平台的用户数据，可以在用户通过社交平台访问非上述社交平台的业务时从相应的访问数据中采集，也可以在社交平台的接口被调用时从相应的接口调用信息中获取，也可以由社交平台的客户端主动上报。

其中，用户基础数据比如年龄、性别、学历、职业或者政治面貌等。源自社交平台的用户行为数据可以包括经济行为数据、爱好行为数据、社交行为数据和用户线下行为数据等。经济行为数据比如消费，转账，理财或者收发红包等的行为数据。爱好行为数据比如文章阅读转发，公众号订阅或者内容搜索等的行为数据。社交行为数据，比如好友关注、黑名单成员、点赞或者评论等。用户线下行为数据比如基于地理位置的服务的使用行为数据，比如导航数据、签到数据或者在线打车数据。用户终端数据比如用户终端的型号、品牌名称、自定义名称和/或终端唯一识别编码等。

源自第一业务或者第二业务的用户数据，包括用户在相应业务平台的用户基础数据或者用户行为数据。在相应业务平台的用户行为数据，比如在相应业务平台的登录记录、浏览记录或者业务使用记录等。登录记录比如登录次数和登录天数。业务使用记录比如借贷记录或者物品交易记录等。

计算机设备101在获取到用户数据后，可对用户数据进行数据清洗后，根据清洗后的用户数据实施机器学习模型训练方法。数据清洗，是发现并纠正数据中可识别的错误的处理过程，具体比如补齐缺失的数据，或者对重复的数据进行去重处理等。在进行数据清洗后，再根据第一用户数据、第一标签、第二用户数据和第二标签，训练针对第二业务的机器学习模型。

图2为一个实施例中用于实施机器学习模型训练方法的计算机设备的内部结构示意图。参照图2，该计算机设备包括通过系统总线连接的处理器、非易失性存储介质和内存储器。其中，计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种机器学习模型训练方法。计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。计算机设备的内存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种机器学习模型训练方法。计算机设备可以是终端或者服务器。终端比如个人计算机或者工作站等，服务器可以是独立的物理服务器或者物理服务器集群。

本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

如图3所示，在一个实施例中，提供了一种机器学习模型训练方法。本实施例主要以该方法应用于上述图1和图2中所示的计算机设备来举例说明。参照图3，该方法具体包括如下步骤：

S302，获取通过社交平台的用户标识相关联的第一用户数据及第一标签；第一标签源自第一业务，第一用户数据源自社交平台。

S304，获取通过社交平台的用户标识相关联的第二用户数据及第二标签；第二用户数据源自社交平台，第二标签源自第二业务。

其中，社交平台是提供社交服务的业务平台，可以是即时通信平台或者SNS(Social Network Site，社交网站)平台，具体比如微信平台。社交平台提供用户标识，供用户的终端在社交平台登录，并供用户的终端在社交平台所授权的其它业务平台上登录。用户的终端在社交平台上注册、使用社交平台的服务或者通过社交平台访问其它业务时会产生社交平台的用户数据。

标签用于表示已知的分类结果。标签的取值范围可以是两个或多于两个的离散值。一个标签是对相应用户标识对应的用户数据所属类别的标记。比如一个用户具有各种用户基础数据、用户行为数据和用户终端数据，该用户的这些数据对应是否履约的标签。第一标签用于与下述的第二标签相区分。第一业务可提供第一标签，供学习针对第二业务的机器学习模型。

业务是计算机可处理的相关联的事物的集合，相关联的事物用于向用户提供特定种类的服务。业务可以是在线业务。第一业务、社交平台乃至后续涉及的第二业务，都是业务，且互不相同。第一业务、社交平台和第二业务可以是相同领域或者不同领域的业务。业务可以是金融业务、社交业务、物品交易业务、在线办公业务、在线视频业务、在线音频业务或者游戏业务等。第一业务可以是多个。

其中，金融业务比如P2P(person-to-person，个人对个人)借贷业务、股票交易业务或者股票行情查询业务等。社交业务比如即时通信业务、直播业务、在线交友业务或者匿名交友业务等。物品交易业务比如个人对个人物品交易业务、企业对个人物品交易业务或者企业对企业物品交易业务等。物品交易业务还比如二手物品交易业务，具体比如二手车交易业务。

具体地，计算机设备可获取在第一业务和社交平台均登录过的用户标识，从而在第一业务中查询对应于该用户标识的第一标签，在社交平台中查询对应于该用户标识的第一用户数据。于是第一标签和第一用户数据通过相同的用户标识相关联。用户数据的取值范围可以是连续的或者离散的。

第一标签与用户标识对应，表示该用户标识所表示的用户具有该第一标签所表示的属性；第一用户数据与用户标识对应，表示该用户标识所表示的用户具有该第一用户数据所表示的用户属性。

S306，根据第一用户数据、第一标签、第二用户数据和第二标签，训练针对第二业务的机器学习模型。

其中，针对第二业务的机器学习模型，是用于实现第二业务的分类任务的机器学习模型。机器学习模型是经过训练后具有预测能力的算法模型。机器学习英文全称为Machine Learning，简称ML。

具体地，计算机设备可根据包括述第一用户数据和相关联的第一标签的训练样本，训练出机器学习模型后，通过第二用户数据和相关联的第二标签检验机器学习模型，根据检验结果修正机器学习模型，得到针对第二业务的机器学习模型。训练样本也可以包括第二用户数据和相关联的第二标签。

上述机器学习模型训练方法，通过社交平台的用户标识，可以将第一业务的第一标签和社交平台中的第一用户数据相关联，并将第二业务的第二标签和社交平台中的第二用户数据相关联。增加第一业务的第一标签，可以补充第二业务所缺乏的第二标签，结合社交平台中存在的第一用户数据和第二用户数据，可以训练出针对第二业务的机器学习模型，该机器学习模型可以实现针对第二业务的预测，可尽量避免在训练样本不足时导致机器学习模型预测准确性较低的问题。

如图4所示，在一个实施例中，步骤S306具体包括如下步骤：

S402，根据包括第一用户数据和相关联的第一标签的训练样本，训练机器学习模型。

假设域为D＝{X,P(X)}。其中P(X)表示边缘概率分布，X表示特征空间，X＝(x₁,...,x_n)∈X。机器学习模型的任务表示为：T＝{Y,f(·)}。其中Y表示标签空间，f(·)为特征空间到标签空间的映射，也是需要训练的机器学习模型。

假设第一业务表示为S，社交平台表示为W，第二业务表示为T。参照图5，第一业务、社交平台和第二业务均采用相同的用户标识体系进行登录，于是无论是第一业务的用户，还是第二业务的用户，在社交平台上都存在相同种类的用户数据。第一业务在第一业务平台以及第二业务在第二业务平台上有各自的用户数据。

于是，假设第一业务的特征空间表示为X_S，社交平台的特征空间表示为X_W，第二业务的特征空间表示为X_T，则X_S＝(X_W,X_S')，X_T＝(X_W,X_T')。其中，X_S'表示第一业务平台上用户数据的特征空间，X_T'表示第二业务平台上用户数据的特征空间，且X_S'≠X_T'。第一业务的标签空间Y_S和第二业务的标签空间Y_T相同，比如可以都是用0和1表示的二值化的标签空间。

另外，由于第一业务和第二业务所在的业务平台不同，所以注册用户的属性分布也不尽相同，进而导致P_S(X_W)≠P_T(X_W)，且f_S(·)≠f_T(·)。其中，P_S(X_W)表示第一业务的用户在社交平台中的用户数据的边缘概率分布，P_T(X_W)表示第二业务的用户在社交平台中的用户数据的边缘概率分布。f_S(·)表示第一业务的特征空间与标签空间的映射，f_T(·)表示第二业务的特征空间与标签空间的映射。

具体地，计算机设备可将符合特征空间X_W的第一用户数据作为输入，将符合标签空间Y_S的第一标签作为标注的输出，训练机器学习模型。机器学习模型可采用神经网络模型、支持向量机或者逻辑回归模型等。神经网络模型比如卷积神经网络、反向传播神经网络、反馈神经网络、径向基神经网络或者自组织神经网络。

S404，通过机器学习模型对第二用户数据进行分类。

具体地，计算机设备可将符合特征空间X_W的第二用户数据输入机器学习模型，由机器学习模型对第二用户数据进行分类。其中，第二用户数据源自社交平台，第二标签源自第二业务，第二用户数据源和相应的第二标签通过相同的用户标识相关联。

S406，根据分类得到的结果和相应第二用户数据所关联的第二标签，调整训练样本的权重分布。

具体地，计算机设备可根据第二用户数据和相应的第二标签，对机器学习模型的分类性能进行检验。与分类得到的结果相应的第二用户数据，是输入机器学习模型以得到该分类的结果的第二用户数据。训练样本的权重分布，是指各个训练样本间权重的大小关系，权重相对大的训练样本对机器学习模型的训练影响程度高于权重相对小的训练样本对机器学习模型的训练影响程度。

在一个实施例中，当分类得到的结果和相应第二用户数据所关联的第二标签不一致时，计算机设备可调低与该第二用户数据相同或者相似的第一用户数据所在训练样本的权重占比。相似可以是相似度超过预设阈值且不相同。

其中，调低一个训练样本的权重占比，可以是调低该训练样本的权重并保持其它训练样本的权重不变，或者可调低该训练样本的权重并调高其它训练样本的权重，或者可保持该训练样本的权重不变并调高其它训练样本的权重。权重的调整幅度，可以采用预设调整幅度，也可以根据机器学习模型的属性动态确定。

S408，根据调整权重分布后的训练样本继续训练机器学习模型，直至满足训练停止条件时停止训练，得到针对第二业务的机器学习模型。

具体地，计算机设备在调整训练样本的权重分布后，返回步骤S304继续训练，直到满足训练停止条件时停止训练。训练停止条件可以是达到预设迭代次数，也可以是训练出的机器学习模型达到分类性能指标。分类性能指标可以是分类正确率达到第一预设阈值，也可以是分类错误率低于第二预设阈值。

其中，分类正确率，可以是分类得到的结果和相应第二用户数据所关联的第二标签相一致的用户数量，占所有第二用户数据的用户数量的比例。分类错误率，可以是分类得到的结果和相应第二用户数据所关联的第二标签不一致的用户数量，占所有第二用户数据的用户数量的比例。

上述实施例中，第一业务的用户在社交平台中存在第一用户数据，结合第一业务中的第一标签，训练出机器学习模型。第二业务的用户在社交平台中也存在第二用户数据，结合第二业务中的第二标签，可以用来调整训练样本的权重分布，从而继续进行训练。经过训练，训练出的机器学习模型，可以基于社交平台的用户数据，针对第二业务进行预测。当第一业务中存在足够的标签信息时，就可以训练针对第二业务的机器学习模型，可尽量避免在训练样本不足时导致机器学习模型预测准确性较低的问题。

在一个实施例中，电子设备可针对相同的训练样本集合，分别初始化为不同的权重分布，从而针对不同权重分布的训练样本集合，分别采用本申请各实施例的机器学习训练方法训练相应的机器学习模型，再将训练出的机器学习模型组合。组合的机器学习模型可以实现针对第二业务的预测任务。组合可以是多个机器学习模型的加权和。本实施例中机器学习模型组合的预测准确性更高。

在一个实施例中，步骤S406包括：根据分类得到的结果和相应第二用户数据所关联的第二标签，确定机器学习模型的分类性能参数；根据分类性能参数确定权重缩放参数；根据权重缩放参数调整训练样本的权重分布。

其中，分类性能参数是表示机器学习模型的分类能力的参数。分类性能参数可以是分类正确率，分类正确率越高相应机器学习模型的分类性能越强，分类正确率越低相应机器学习模型的分类性能越弱。分类性能参数也可以是分类错误率，分类错误率越高相应机器学习模型的分类性能越弱，分类正确率越低相应机器学习模型的分类性能越强。

权重缩放参数是控制权重缩放程度的参数。当分类性能参数为分类正确率时，权重缩放参数与分类正确率负相关；当分类性能参数为分类错误率时，权重缩放参数与分类正确率正相关。

权重缩放参数可以是与相应权重相乘以调整权重分布的正系数，也可以是与相应权重相乘以调整权重分布的指数函数的指数，也可以是与相应权重相乘以调整权重分布的幂函数的底数。

在一个实施例中，当分类性能参数为分类正确率时，权重缩放参数为与相应权重相乘以调整权重分布的正系数，且与分类正确率负相关。

在一个实施例中，当分类性能参数为分类错误率时，权重缩放参数为与相应权重相乘以调整权重分布的正系数，且与分类错误率正相关。

举例说明，假设分类错误率为ε_t，权重缩放参数为β_t。其中t表示迭代次数。则存在以下公式(1)和(2)：

β_t＝ε_t/(1-ε_t) 公式(1)

其中，

为第t次迭代时第i个训练样本的权重，

为第t+1次迭代时第i个训练样本的权重，h_t(x_i)表示第t次迭代时的机器学习模型对训练样本中第一用户数据x_i分类的结果，c(x_i)表示第一用户数据x_t的第一标签，n表示训练样本的总数。

再比如，假设分类正确率为

权重缩放参数为β_t。其中t表示迭代次数。则存在以下公式(3)和(4)：

其中，

为第t次迭代时第i个训练样本的权重，

为第t+1次迭代时第i个训练样本的权重，h_t(x_i)表示第t次迭代时的机器学习模型对包括第一用户数据的训练样本x_i分类的结果，c(x_i)表示包括第一用户数据的训练样本x_i的第一标签，n表示包括第一用户数据的训练样本的总数。

上述实施例中，确定分类性能参数后，根据分类性能参数确定权重缩放参数，从而可以根据权重缩放参数调整训练样本的权重分布，可以根据机器学习模型的分类性能动态地调整权重分布，可以更加准确、高效地完成训练任务。

在一个实施例中，训练样本还包括通过用户标识相关联的第二用户数据和第二标签。本实施例中，训练样本不仅包括通过用户标识相关联的第一用户数据及第一标签，还包括通过用户标识相关联的第二用户数据和第二标签。第二用户数据和第二标签不仅用于对机器学习模型的分类性能进行检验，还参与到机器学习模型的训练过程中，可以更高效、准确地训练机器学习模型。

在一个实施例中，步骤S406包括：当对第二用户数据进行分类得到的结果与相应第二用户数据所关联的第二标签不一致时，将相应第二用户数据所在训练样本的权重占比调高。

其中，调高一个训练样本的权重占比，可以是调高该训练样本的权重并保持其它训练样本的权重不变，或者可调高该训练样本的权重并调低其它训练样本的权重，或者可保持该训练样本的权重不变并调低其它训练样本的权重。权重的调整幅度，可以采用预设调整幅度，也可以根据机器学习模型的属性动态确定。

在一个实施例中，步骤S406包括：通过机器学习模型对第一用户数据进行分类；当对第一用户数据进行分类的结果与相应第一用户数据所关联的第一标签不一致时，将相应第一用户数据所在训练样本的权重占比调低。

其中，调高第一用户数据所在训练样本的权重占比，可以是调高该训练样本的权重并保持其它训练样本的权重不变，或者可调高该训练样本的权重并调低其它训练样本的权重，或者可保持该训练样本的权重不变并调低其它训练样本的权重。权重的调整幅度，可以采用预设调整幅度，也可以根据机器学习模型的属性动态确定。

举例说明，可按照以下公式调整训练样本的权重分布：

β_t＝ε_t/(1-ε_t) 公式(6)

其中，

为第t次迭代时第i个训练样本的权重，

为第t+1次迭代时第i个训练样本的权重，h_t(x_i)表示第t次迭代时的机器学习模型对训练样本x_i分类的结果，c(x_i)表示训练样本x_i的标签，n表示包括第一用户数据的训练样本的总数，m表示包括第二用户数据的训练样本的总数。

上述实施例中，对于分类出错的用户数据，如果是第一用户数据，则降低相应训练样本的权重占比；如果是第二用户数据，则调高相应训练样本的权重占比。于是可以不断地降低起负作用的训练样本的权重，并提高起正作用的训练样本的权重，从而可以更加准确、高效地实现对机器学习模型的训练。

在前述的实施例中，没有考虑第一业务和第二业务的用户数据，第一业务或者第二业务的用户数据也能够为机器学习模型的训练提供一定的信息量。以下实施例中，会将第一业务和/或第二业务的用户数据利用起来。

在一个实施例中，步骤S402包括：获取与第一用户数据通过社交平台的用户标识关联的源自第一业务的用户数据；将获取的源自第一业务的用户数据映射为第二业务的第三用户数据；根据包括第一用户数据和第三用户数据的组合及相应的第一标签的训练样本，训练机器学习模型。

其中，训练样本包括通过用户标识相关联的第一用户数据和第三用户数据的组合；第三用户数据，是从相应的用户标识所对应的源自于第一业务的用户数据映射至第二业务的用户数据。步骤S404包括：对于第二用户数据及与第二用户数据通过用户标识相关联的源自第二业务的用户数据的组合，通过机器学习模型进行分类。

具体地，计算机设备可利用第一业务的用户数据映射至第二业务的用户数据的映射关系，将第一业务的用户数据映射至对应相同用户标识的第三用户数据，从而将通过用户标识相关联的第一用户数据和第三用户数据的组合构成相应的训练样本。

假设第一业务的用户数据映射至第二业务的用户数据的映射关系表示为φ(·)，则经过映射后的特征空间表示为

且Y_S＝Y_T。构建包括通过用户标识相关联的第一用户数据和第三用户数据的组合以及相应的第一标签的训练样本，就可以基于上述公式(1)和(2)，或者(3)和(4)，或者(5)、(6)和(7)训练机器学习模型。

上述实施例中，可以将第一业务的用户数据和第二业务的用户数据参与到机器学习模型的训练中，可以进一步提高机器学习模型训练的效率，并使得训练出的机器学习模型分类性能更好。

在一个实施例中，用户标识为由实现社交平台的服务器提供的用户账号，且用户账号在实现第一业务的服务器和/或在实现第二业务的服务器登录。

本实施例中，第一业务和/或第二业务统一使用由社交平台提供的用户账号体系进行登录，从而可以便捷地将相同用户在不同业务上的数据通过相同的用户账号进行对应，为训练机器学习模型提供了便利。

在一个实施例中，如图6所示，在一个实施例中，该机器学习模型训练方法还包括构建第一业务的用户数据映射至第二业务的用户数据的映射关系的步骤，具体包括以下步骤：

S602，获取在第一业务和第二业务均存在用户数据的用户标识。

具体地，第一业务和第二业务可以均采用由社交平台提供的用户标识进行登录，从而可以获得在第一业务和第二业务均登录且存在用户数据的用户标识。

S604，查询与获取的用户标识对应的源自第一业务的用户数据，以及与获取的用户标识对应的源自第二业务的用户数据。

S606，根据查询到的源自第一业务的用户数据和源自第二业务的用户数据，构建第一业务的用户数据映射至第二业务的用户数据的映射关系。

具体地，参照图7，对于获取的用户标识所表示的用户，源自第一业务的用户数据X_S'总能够与源自第二业务的用户数据X_T'一一对应，于是可以采用机器学习算法学习X_S'与X_T'之间的映射关系。这里机器学习算法可以采用神经网络算法、支持向量机或者逻辑回归算法等。

本实施例中，通过构建第一业务的用户数据映射至第二业务的用户数据的映射关系，可以将第一业务和第二业务的用户数据利用起来，参与到机器学习模型的训练中。

在一个实施例中，第一标签和第二标签分别表示相应用户标识对应的用户信用标签。步骤S306之后，该方法还包括预测目标用户信用的步骤：获取源自社交平台的目标用户数据；通过针对第二业务的机器学习模型，对目标用户数据进行分类，得到针对第二业务的目标用户信用预测结果。

其中，用户信用标签表示相应用户的履约能力，具体可以取高信用和低信用的不同信用等级，或者可以分为履约和不履约的两种情况。对于目标用户，在获取到其用户数据之后，就可以预测目标用户的信用情况，从而预测目标用户的履约能力。

在一个实施例中，预测目标用户信用的步骤具体包括：获取源自社交平台的目标用户数据和源自第一业务的目标用户数据，将源自第一业务的目标用户数据映射为第二业务的目标用户数据，将源自社交平台的目标用户数据和映射到第二业务的目标用户数据组合后，通过停止训练后得到的机器学习模型对该组合进行分类，得到目标用户信用预测结果。

上述实施例中，可以基于已有的业务，向初步启动的新业务提供目标用户信用预测结果，可以在新业务初步启动时，就能够准确地预测目标用户信用，避免因新业务样本过少而难以准确预测目标用户信用的问题。

下面用一个具体应用场景来说明上述机器学习模型训练方法的原理。假设第一业务为借贷业务，社交平台为微信业务，第二业务为二手物品交易业务。参照图8，借贷业务和二手物品交易业务均使用微信业务所提供的微信账号体系进行登录。借贷业务是已有的业务，累积了大量的用户信用标签和相应的用户数据。二手物品交易业务为初步启动的业务，用户信用标签和用户数据都比较少。利用通过微信账号相关联的第一微信用户数据及借贷业务的用户信用标签训练机器学习模型。再利用该机器学习模型，对与二手物品交易业务已有的用户信用标签通过微信账号相关联的第二微信用户数据进行分类，结合二手物品交易业务的用户信用标签，对机器学习模型进行评估后，继续训练机器学习模型，直到满足训练停止条件。借贷业务的用户数据，以及二手物品交易业务已有的用户数据，也可以参与到机器学习模型的训练中，更加高效地训练出分类性能更好的机器学习模型。

如图9所示，在一个实施例中，提供了一种机器学习模型训练装置900，包括数据收集模块910和训练模块920。

其中，数据收集模块910用于获取通过社交平台的用户标识相关联的第一用户数据及第一标签；第一标签源自第一业务，第一用户数据源自社交平台；获取通过社交平台的用户标识相关联的第二用户数据及第二标签；第二用户数据源自社交平台，第二标签源自第二业务。

训练模块920用于根据第一用户数据、第一标签、第二用户数据和第二标签，训练针对第二业务的机器学习模型。

如图10所示，在一个实施例中，训练模块920包括训练执行模块921和权重调整模块923。

训练执行模块921，用于获取训练样本，训练样本包括通过用户标识相关联的第一用户数据及第一标签；第一标签源自第一业务，第一用户数据源自社交平台；根据训练样本训练机器学习模型。

权重调整模块923，用于通过所述机器学习模型对所述第二用户数据进行分类；根据所述分类得到的结果和相应第二用户数据所关联的第二标签，调整所述训练样本的权重分布。

权重调整模块923，用于根据分类得到的结果和相应第二用户数据所关联的第二标签，调整训练样本的权重分布。

训练执行模块921还用于根据调整权重分布后的训练样本继续训练机器学习模型，直至满足训练停止条件时停止训练，得到针对所述第二业务的机器学习模型。

如图11所示，在一个实施例中，权重调整模块923包括：分类性能参数生成模块9231、权重缩放参数确定模块9232和调整模块9233。

分类性能参数生成模块9231，用于根据分类得到的结果和相应第二用户数据所关联的第二标签，确定机器学习模型的分类性能参数。

权重缩放参数确定模块9232，用于根据分类性能参数确定权重缩放参数。

调整模块9233，用于根据权重缩放参数调整训练样本的权重分布。

在一个实施例中，训练样本还包括通过用户标识相关联的第二用户数据和第二标签。

在一个实施例中，权重调整模块923还用于当对第二用户数据进行分类得到的结果与相应第二用户数据所关联的第二标签不一致时，将相应第二用户数据所在训练样本的权重占比调高。

在一个实施例中，权重调整模块923还用于对第一用户数据进行分类。还用于当对第一用户数据进行分类的结果与相应第一用户数据所关联的第一标签不一致时，将相应第一用户数据所在训练样本的权重占比调低。

在一个实施例中，训练样本包括通过用户标识相关联的第一用户数据和第三用户数据的组合；第三用户数据，是从相应的用户标识所对应的源自于第一业务的用户数据映射至第二业务的用户数据。

在一个实施例中，权重调整模块923还用于对于第二用户数据及与第二用户数据通过用户标识相关联的源自第二业务的用户数据的组合，进行分类。

如图12所示，在一个实施例中，机器学习模型训练装置900还包括：映射关系学习模块930，用于获取在第一业务和第二业务均存在用户数据的用户标识；查询与获取的用户标识对应的源自第一业务的用户数据，以及与获取的用户标识对应的源自第二业务的用户数据；根据查询到的源自第一业务的用户数据和源自第二业务的用户数据，构建第一业务的用户数据映射至第二业务的用户数据的映射关系。

在一个实施例中，第一标签和第二标签分别表示相应用户标识对应的用户信用标签。该机器学习模型训练装置900还包括预测模块，用于获取源自社交平台的目标用户数据；通过针对第二业务的机器学习模型，对目标用户数据进行分类，得到针对第二业务的目标用户信用预测结果。

上述机器学习模型训练装置900，通过社交平台的用户标识，可以将第一业务的第一标签和社交平台中的第一用户数据相关联，并将第二业务的第二标签和社交平台中的第二用户数据相关联。增加第一业务的第一标签，可以补充第二业务所缺乏的第二标签，结合社交平台中存在的第一用户数据和第二用户数据，可以训练出针对第二业务的机器学习模型，该机器学习模型可以实现针对第二业务的预测，可尽量避免在训练样本不足时导致机器学习模型预测准确性较低的问题。

在一个实施例中，一种计算机设备，包括存储器和处理器，存储器中储存有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行以下步骤：获取通过社交平台的用户标识相关联的第一用户数据及第一标签；第一标签源自第一业务，第一用户数据源自社交平台；获取通过社交平台的用户标识相关联的第二用户数据及第二标签；第二用户数据源自社交平台，第二标签源自第二业务；根据第一用户数据、第一标签、第二用户数据和第二标签，训练针对第二业务的机器学习模型。

在一个实施例中，根据第一用户数据、第一标签、第二用户数据和第二标签，训练针对第二业务的机器学习模型，包括：根据包括第一用户数据和相关联的第一标签的训练样本，训练机器学习模型；通过机器学习模型对第二用户数据进行分类；根据分类得到的结果和相应第二用户数据所关联的第二标签，调整训练样本的权重分布；根据调整权重分布后的训练样本继续训练机器学习模型，直至满足训练停止条件时停止训练，得到针对第二业务的机器学习模型

在一个实施例中，根据分类得到的结果和相应第二用户数据所关联的第二标签，调整训练样本的权重分布，包括：根据分类得到的结果和相应第二用户数据所关联的第二标签，确定机器学习模型的分类性能参数；根据分类性能参数确定权重缩放参数；根据权重缩放参数调整训练样本的权重分布。

在一个实施例中，当分类性能参数为分类正确率时，权重缩放参数为与相应权重相乘以调整权重分布的正系数，且与分类正确率负相关；当分类性能参数为分类错误率时，权重缩放参数为与相应权重相乘以调整权重分布的正系数，且与分类错误率正相关。

在一个实施例中，训练样本还包括第二用户数据和相关联的第二标签。

在一个实施例中，根据分类得到的结果和相应第二用户数据所关联的第二标签，调整训练样本的权重分布，包括：当对第二用户数据进行分类得到的结果与相应第二用户数据所关联的第二标签不一致时，将相应第二用户数据所在训练样本的权重占比调高。

在一个实施例中，根据分类得到的结果和相应第二用户数据所关联的第二标签，调整训练样本的权重分布还包括：通过机器学习模型对第一用户数据进行分类；当对第一用户数据进行分类的结果与相应第一用户数据所关联的第一标签不一致时，将相应第一用户数据所在训练样本的权重占比调低。

在一个实施例中，训练样本包括通过用户标识相关联的第一用户数据和第三用户数据的组合；第三用户数据，是从相应的用户标识所对应的源自于第一业务的用户数据映射至第二业务的用户数据。通过机器学习模型对第二用户数据进行分类，包括：对于第二用户数据及与第二用户数据通过用户标识相关联的源自第二业务的用户数据的组合，进行分类。

在一个实施例中，计算机可读指令还使得处理器执行以下步骤：获取在第一业务和第二业务均存在用户数据的用户标识；查询与获取的用户标识对应的源自第一业务的用户数据，以及与获取的用户标识对应的源自第二业务的用户数据；根据查询到的源自第一业务的用户数据和源自第二业务的用户数据，构建第一业务的用户数据映射至第二业务的用户数据的映射关系。

在一个实施例中，第一标签和第二标签分别表示相应用户标识对应的用户信用标签。计算机可读指令还使得处理器在根据第一用户数据、第一标签、第二用户数据和第二标签，训练针对第二业务的机器学习模型之后，获取源自社交平台的目标用户数据；通过针对第二业务的机器学习模型，对目标用户数据进行分类，得到针对第二业务的目标用户信用预测结果。

上述计算机设备，通过社交平台的用户标识，可以将第一业务的第一标签和社交平台中的第一用户数据相关联，并将第二业务的第二标签和社交平台中的第二用户数据相关联。增加第一业务的第一标签，可以补充第二业务所缺乏的第二标签，结合社交平台中存在的第一用户数据和第二用户数据，可以训练出针对第二业务的机器学习模型，该机器学习模型可以实现针对第二业务的预测，可尽量避免在训练样本不足时导致机器学习模型预测准确性较低的问题。

在一个实施例中，一种计算机可读存储介质，存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行以下步骤：获取通过社交平台的用户标识相关联的第一用户数据及第一标签；第一标签源自第一业务，第一用户数据源自社交平台；获取通过社交平台的用户标识相关联的第二用户数据及第二标签；第二用户数据源自社交平台，第二标签源自第二业务；根据第一用户数据、第一标签、第二用户数据和第二标签，训练针对第二业务的机器学习模型。

上述存储介质，通过社交平台的用户标识，可以将第一业务的第一标签和社交平台中的第一用户数据相关联，并将第二业务的第二标签和社交平台中的第二用户数据相关联。增加第一业务的第一标签，可以补充第二业务所缺乏的第二标签，结合社交平台中存在的第一用户数据和第二用户数据，可以训练出针对第二业务的机器学习模型，该机器学习模型可以实现针对第二业务的预测，可尽量避免在训练样本不足时导致机器学习模型预测准确性较低的问题。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，该存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种机器学习模型训练方法，包括：

获取通过社交平台的用户标识相关联的第一用户数据及第一标签；所述第一标签源自第一业务，所述第一用户数据为所述第一业务的用户在所述社交平台中的用户数据；

获取通过所述社交平台的用户标识相关联的第二用户数据及第二标签；所述第二用户数据为第二业务的用户在所述社交平台中的用户数据，所述第二标签源自第二业务；所述第一业务和所述第二业务均通过所述社交平台的用户标识登录，为通过所述社交平台进行访问的、不同领域的业务；

根据包括通过所述用户标识相关联的所述第一用户数据和第三用户数据的组合，以及与所述第一用户数据相关联的所述第一标签的训练样本，训练机器学习模型；所述第三用户数据，是从相应的用户标识所对应的源自于所述第一业务的用户数据映射至所述第二业务的用户数据；

通过所述机器学习模型对所述第二用户数据进行分类；

根据所述分类得到的结果和相应第二用户数据所关联的第二标签，调整所述训练样本的权重分布；

根据调整权重分布后的所述训练样本继续训练机器学习模型，直至满足训练停止条件时停止训练，得到针对所述第二业务的机器学习模型。

2.根据权利要求1所述的方法，其特征在于，所述第一标签中包含所述第二业务所缺失的标签。

3.根据权利要求1所述的方法，其特征在于，所述根据所述分类得到的结果和相应第二用户数据所关联的第二标签，调整所述训练样本的权重分布，包括：

根据所述分类得到的结果和相应第二用户数据所关联的第二标签，确定所述机器学习模型的分类性能参数；

根据所述分类性能参数确定权重缩放参数；

根据所述权重缩放参数调整所述训练样本的权重分布。

4.根据权利要求3所述的方法，其特征在于，当所述分类性能参数为分类正确率时，所述权重缩放参数为与相应权重相乘以调整所述权重分布的正系数，且与所述分类正确率负相关；

当所述分类性能参数为分类错误率时，所述权重缩放参数为与相应权重相乘以调整所述权重分布的正系数，且与所述分类错误率正相关。

5.根据权利要求1所述的方法，其特征在于，所述训练样本还包括所述第二用户数据和相关联的所述第二标签。

6.根据权利要求5所述的方法，其特征在于，所述根据所述分类得到的结果和相应第二用户数据所关联的第二标签，调整所述训练样本的权重分布，包括：

当对第二用户数据进行分类得到的结果与相应第二用户数据所关联的第二标签不一致时，将相应第二用户数据所在训练样本的权重占比调高。

7.根据权利要求6所述的方法，其特征在于，所述根据所述分类得到的结果和相应第二用户数据所关联的第二标签，调整所述训练样本的权重分布还包括：

通过所述机器学习模型对所述第一用户数据进行分类；

当对所述第一用户数据进行分类的结果与相应第一用户数据所关联的第一标签不一致时，将相应第一用户数据所在训练样本的权重占比调低。

8.根据权利要求1所述的方法，其特征在于，所述通过所述机器学习模型对第二用户数据进行分类，包括：

对于第二用户数据及与所述第二用户数据通过用户标识相关联的源自所述第二业务的用户数据的组合，进行分类。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取在所述第一业务和所述第二业务均存在用户数据的用户标识；

查询与获取的所述用户标识对应的源自第一业务的用户数据，以及与获取的所述用户标识对应的源自第二业务的用户数据；

根据查询到的源自第一业务的用户数据和源自第二业务的用户数据，构建第一业务的用户数据映射至第二业务的用户数据的映射关系。

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述第一标签和所述第二标签分别表示相应用户标识对应的用户信用标签；

所述根据所述第一用户数据、所述第一标签、所述第二用户数据和所述第二标签，训练针对所述第二业务的机器学习模型之后，所述方法还包括：

获取源自社交平台的目标用户数据；

通过针对所述第二业务的机器学习模型，对所述目标用户数据进行分类，得到针对所述第二业务的目标用户信用预测结果。

11.一种机器学习模型训练装置，其特征在于，包括：

数据收集模块，用于获取通过社交平台的用户标识相关联的第一用户数据及第一标签；所述第一标签源自第一业务，所述第一用户数据为所述第一业务的用户在所述社交平台中的用户数据；获取通过所述社交平台的用户标识相关联的第二用户数据及第二标签；所述第二用户数据为第二业务的用户在所述社交平台中的用户数据，所述第二标签源自第二业务；所述第一业务和所述第二业务均通过所述社交平台的用户标识登录，为通过所述社交平台进行访问的、不同领域的业务；

训练执行模块，用于根据包括通过所述用户标识相关联的所述第一用户数据和第三用户数据的组合，以及与所述第一用户数据相关联的所述第一标签的训练样本，训练机器学习模型；所述第三用户数据，是从相应的用户标识所对应的源自于所述第一业务的用户数据映射至所述第二业务的用户数据；

权重调整模块，用于通过所述机器学习模型对所述第二用户数据进行分类；根据所述分类得到的结果和相应第二用户数据所关联的第二标签，调整所述训练样本的权重分布；

所述训练执行模块还用于根据调整权重分布后的所述训练样本继续训练机器学习模型，直至满足训练停止条件时停止训练，得到针对所述第二业务的机器学习模型。

12.根据权利要求11所述的装置，其特征在于，所述第一标签中包含所述第二业务所缺失的标签。

13.根据权利要求11所述的装置，其特征在于，所述权重调整模块包括：

分类性能参数生成模块，用于根据所述分类得到的结果和相应第二用户数据所关联的第二标签，确定所述机器学习模型的分类性能参数；

权重缩放参数确定模块，用于根据所述分类性能参数确定权重缩放参数；

调整模块，用于根据所述权重缩放参数调整所述训练样本的权重分布。

14.根据权利要求11所述的装置，其特征在于，所述权重调整模块还用于对于第二用户数据及与所述第二用户数据通过用户标识相关联的源自所述第二业务的用户数据的组合，进行分类。

15.根据权利要求13所述的装置，其特征在于，当所述分类性能参数为分类正确率时，所述权重缩放参数为与相应权重相乘以调整所述权重分布的正系数，且与所述分类正确率负相关；

16.根据权利要求11所述的装置，其特征在于，所述训练样本还包括所述第二用户数据和相关联的所述第二标签。

17.根据权利要求16所述的装置，其特征在于，所述权重调整模块还用于：

18.根据权利要求17所述的装置，其特征在于，所述权重调整模块还用于：

通过所述机器学习模型对所述第一用户数据进行分类；

19.根据权利要求11所述的装置，其特征在于，所述装置还包括：

映射关系学习模块，用于获取在所述第一业务和所述第二业务均存在用户数据的用户标识；查询与获取的所述用户标识对应的源自第一业务的用户数据，以及与获取的所述用户标识对应的源自第二业务的用户数据；根据查询到的源自第一业务的用户数据和源自第二业务的用户数据，构建第一业务的用户数据映射至第二业务的用户数据的映射关系。

20.根据权利要求11至19中任一项所述的装置，其特征在于，所述第一标签和所述第二标签分别表示相应用户标识对应的用户信用标签；

所述装置还包括：

预测模块，用于获取源自社交平台的目标用户数据；通过针对所述第二业务的机器学习模型，对所述目标用户数据进行分类，得到针对所述第二业务的目标用户信用预测结果。

21.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。

22.一种计算机可读存储介质，存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时，使得所述处理器执行如权利要求1至10中任一项所述的方法的步骤。