CN113344066A

CN113344066A - 一种模型训练方法、业务分配方法、装置及设备

Info

Publication number: CN113344066A
Application number: CN202110603499.5A
Authority: CN
Inventors: 陈李龙; 王娜; 倪俊; 徐林嘉
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-09-03
Anticipated expiration: 2041-05-31
Also published as: CN113344066B

Abstract

本说明书实施例提供一种模型训练方法、业务分配方法、装置及设备，可应用于人工智能技术领域。所述方法包括：获取用户样本数据；所述用户样本数据包括有标签数据和无标签数据；将所述用户样本数据划分为分别对应于至少两种业务处理视角的单视角数据；针对各组单视角数据分别进行聚类，得到各个业务处理视角下的数据聚类结果；根据所述数据聚类结构构造关联约束系数；基于所述用户样本数据确定平滑约束系数；综合所述数据聚类结果训练得到用户分类模型；所述用户分类模型用于根据用户数据确定用户类别。上述方法保证了半监督学习过程中对数据的有效利用，提高了用户分类的准确性，有利于后续过程中分配用户相应的业务。

Description

一种模型训练方法、业务分配方法、装置及设备

技术领域

本说明书实施例涉及人工智能技术领域，特别涉及一种模型训练方法、业务分配方法、装置及设备。

背景技术

随着社会的发展和进步，对于业务类型的细分程度也在不断提高。这些业务可以是为用户提供相应服务的业务，也可以是需要用户及时进行处理的业务，相应的，不同类型的用户所需要获取的业务也都不尽相同。因此，预先根据用户的相关信息，判断用户可能会获取的业务，从而预先准备好相应业务对应的数据和资源，能够有效提高后续过程中的业务处理效率，改善用户的体验。

由于在模型训练过程中，为了兼顾标注样本数据的工作量和模型训练的准确性，会采样半监督学习的方式对模型进行训练，即利用一部分有标签数据和一部分无标签数据进行训练。但是，在实际应用中，样本数据可能本身对应有较多的类别，在同时利用多种类别的数据对模型进行训练时可能会影响模型训练的准确性。而只针对一部分数据进行标注时，也可能会使得有标签数据和无标签数据所对应的数据类别存在有一定差异，在综合有标签数据和无标签数据进行训练时可能会因为数据类别的不同而影响最终的训练效果，降低利用模型对用户进行分类时的准确性，从而影响用户的使用体验。因此，目前亟需一种能够准确有效地基于半监督学习方式对模型进行训练的方法。

发明内容

本说明书实施例的目的是提供一种模型训练方法、业务分配方法、装置及设备，以解决如何提高用户分类的准确性以提高用户处理业务的体验的问题。

为解决上述技术问题，本说明书实施例提供一种基于用户分类的模型训练方法，包括：获取用户样本数据；所述用户样本数据包括有标签数据和无标签数据；所述有标签数据对应有用户类别；将所述用户样本数据划分为分别对应于至少两种业务处理视角的单视角数据；所述业务处理视角用于指示数据的不同类别；针对各组单视角数据分别进行聚类，得到各个业务处理视角下的数据聚类结果；根据所述数据聚类结果构造关联约束系数；所述关联约束系数用于调节各个业务处理视角下的单视角数据的训练结果的相似性；基于所述用户样本数据确定平滑约束系数；所述平滑约束系数用于调节有标签数据和无标签数据的训练结果的相似性；综合所述关联约束系数和平滑约束系数训练得到用户分类模型；所述用户分类模型用于根据用户数据确定用户类别。

本说明书实施例还提出一种基于用户分类的模型训练装置，包括：用户样本数据获取模块，用于获取用户样本数据；所述用户样本数据包括有标签数据和无标签数据；所述有标签数据对应有用户类别；单视角数据划分模块，用于将所述用户样本数据划分为分别对应于至少两种业务处理视角的单视角数据；所述业务处理视角用于指示数据的不同类别；聚类模块，用于针对各组单视角数据分别进行聚类，得到各个业务处理视角下的数据聚类结果；关联约束系数构造模块，用于根据所述数据聚类结果构造关联约束系数；所述关联约束系数用于调节各个业务处理视角下的单视角数据的训练结果的相似性；平滑约束系数确定模块，用于基于所述用户样本数据确定平滑约束系数；所述平滑约束系数用于调节有标签数据和无标签数据的训练结果的相似性；训练模块，用于综合所述数据聚类结果训练得到用户分类模型；所述用户分类模型用于根据用户数据确定用户类别。

本说明书实施例还提出一种基于用户分类的模型训练设备，包括存储器和处理器；所述存储器，用于存储计算机程序指令；所述处理器，用于执行所述计算机程序指令以实现以下步骤：获取用户样本数据；所述用户样本数据包括有标签数据和无标签数据；所述有标签数据对应有用户类别；将所述用户样本数据划分为分别对应于至少两种业务处理视角的单视角数据；所述业务处理视角用于指示数据的不同类别；针对各组单视角数据分别进行聚类，得到各个业务处理视角下的数据聚类结果；根据所述数据聚类结构构造关联约束系数；所述关联约束系数用于调节各个业务处理视角下的单视角数据的训练结果的相似性；基于所述用户样本数据确定平滑约束系数；所述平滑约束系数用于调节有标签数据和无标签数据的训练结果的相似性；综合所述数据聚类结果训练得到用户分类模型；所述用户分类模型用于根据用户数据确定用户类别。

为了解决上述技术问题，本说明书实施例还提出一种基于用户分类的业务分配方法，包括：获取目标用户的用户特征信息；将所述用户特征信息输入用户分类模型，得到用户类别；所述用户分类模型，通过以下方式获得：获取用户样本数据；所述用户样本数据包括有标签数据和无标签数据；所述有标签数据对应有用户类别；将所述用户样本数据划分为分别对应于至少两种业务处理视角的单视角数据；所述业务处理视角用于指示数据的不同类别；针对各组单视角数据分别进行聚类，得到各个业务处理视角下的数据聚类结果；根据所述数据聚类结果构造关联约束系数；所述关联约束系数用于调节各个业务处理视角下的单视角数据的训练结果的相似性；基于所述用户样本数据确定平滑约束系数；所述平滑约束系数用于调节有标签数据和无标签数据的训练结果的相似性；综合所述关联约束系数和平滑约束系数训练得到用户分类模型；将对应于所述用户类别的业务分配至所述目标用户。

本说明书实施例还提出一种基于用户分类的业务分配装置，包括：特征信息获取模块，用于获取目标用户的用户特征信息；用户类别获取模块，用于将所述用户特征信息输入用户分类模型，得到用户类别；所述用户分类模型，通过以下方式获得：获取用户样本数据；所述用户样本数据包括有标签数据和无标签数据；所述有标签数据对应有用户类别；将所述用户样本数据划分为分别对应于至少两种业务处理视角的单视角数据；所述业务处理视角用于指示数据的不同类别；针对各组单视角数据分别进行聚类，得到各个业务处理视角下的数据聚类结果；根据所述数据聚类结果构造关联约束系数；所述关联约束系数用于调节各个业务处理视角下的单视角数据的训练结果的相似性；基于所述用户样本数据确定平滑约束系数；所述平滑约束系数用于调节有标签数据和无标签数据的训练结果的相似性；综合所述关联约束系数和平滑约束系数训练得到用户分类模型；业务分配模块，用于将对应于所述用户类别的业务分配至所述目标用户。

本说明书实施例还提出一种基于用户分类的业务分配设备，包括存储器和处理器；所述存储器，用于存储计算机程序指令；所述处理器，用于执行所述计算机程序指令以实现以下步骤：获取目标用户的用户特征信息；将所述用户特征信息输入用户分类模型，得到用户类别；所述用户分类模型，通过以下方式获得：获取用户样本数据；所述用户样本数据包括有标签数据和无标签数据；所述有标签数据对应有用户类别；将所述用户样本数据划分为分别对应于至少两种业务处理视角的单视角数据；所述业务处理视角用于指示数据的不同类别；针对各组单视角数据分别进行聚类，得到各个业务处理视角下的数据聚类结果；根据所述数据聚类结果构造关联约束系数；所述关联约束系数用于调节各个业务处理视角下的单视角数据的训练结果的相似性；基于所述用户样本数据确定平滑约束系数；所述平滑约束系数用于调节有标签数据和无标签数据的训练结果的相似性；综合所述关联约束系数和平滑约束系数训练得到用户分类模型；将对应于所述用户类别的业务分配至所述目标用户。

由以上本说明书实施例提供的技术方案可见，本说明书实施例在获取到包含有一部分有标签数据的用户样本数据后，将用户样本数据划分为分别对应于不同业务处理视角的数据，在对这些数据进行聚类。基于聚类结果，进一步确定关联约束系数和平滑约束系数，以对有标签数据和无标签数据之间的关联性以及输出结果之间的关联性进行定量评估，进而综合所述关联约束系数和平滑约束系数训练得到最终的用户分类模型。通过上述方法，能够有效对模型训练效果以及有标签数据和无标签数据之间的关联性进行结合，保证了半监督学习过程中对数据的有效利用，提高了用户分类的准确性，有利于后续过程中分配用户相应的业务。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施例一种基于用户分类的模型训练方法的流程图；

图2为本说明书实施例一种基于半监督学习的模型训练过程的流程示意图；

图3为本说明书实施例一种基于用户分类的业务分配方法的流程图；

图4为本说明书实施例一种预测用户类别的流程示意图；

图5为本说明书实施例一种基于用户分类的模型训练装置的模块图；

图6为本说明书实施例一种基于用户分类的业务分配装置的模块图；

图7为本说明书实施例一种基于用户分类的模型训练设备的结构图；

图8为本说明书实施例一种基于用户分类的业务分配设备的结构图。

具体实施方式

下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

为了解决上述技术问题，首先介绍本说明书实施例一种基于用户分类的模型训练方法。所述基于用户分类的模型训练方法的执行主体为基于用户分类的模型训练设备，所述基于用户分类的模型训练设备包括但不限于服务器、工控机、PC机等。如图1所示，所述基于用户分类的模型训练方法可以包括以下具体实施步骤。

S110：获取用户样本数据；所述用户样本数据包括有标签数据和无标签数据；所述有标签数据对应有用户类别。

用户样本数据可以是用于训练模型的样本数据。所述用户样本数据可以是用户自身的基本信息，例如学历、性别、年龄等数据，也可以是用户处理业务的历史记录信息。具体的，所述用户样本数据中可以包括有标签数据和无标签数据。在机器学习领域中，基于部分有标签数据和部分无标签数据进行建模学习具备快速准确的特点，具有较好的应用价值。

所述有标签数据即为标注有相应的标签的数据。所述标签可以是用户类别。所述用户类别是结合用户的业务处理情况对用户进行分类后所得到的结果，例如，所述用户类别可以包括正向类别和负向类别，分别表示历史业务处理量多和历史业务处理量少的情况。

在一些实施方式中，当获取有标签数据时，可以在所述用户样本数据对应的样本用户中选取标注用户。标注用户即为需要进行标注以获取其对应的用户类别的用户。在确定标注用户之后，可以获取所述标注用户的历史业务记录，所述历史业务记录可以是用户之前处理业务时所保留的记录，具体的可以是所处理的业务类型、业务处理时长、业务数量等信息。所述业务处理记录可以是在预设测试时间内的记录，例如可以设置为3天、7天、一个月、三个月等。

根据所述历史业务记录可以为所述标注用户设置用户类别。具体的设置用户类别的方式可以是将所述历史业务记录反馈至管理人员对应的终端后，由管理人员根据所述历史业务记录确定用户类别，也可以是利用预先训练得到的分类器模型确定所述标注用户对应的用户类别。相应的，所述用户类别也对应于所述标注用户的用户样本数据，即根据所述用户样本数据可以确定所述标注用户的用户类别，从而完成有标签数据的确定。

利用一个具体的示例进行说明，假设所添加的标签包括正类标签和负类标签。正类标签可以表示用户具有较为频繁的业务处理记录，负类标签可以表示用户在近期几乎不存在业务处理记录。相应的，所述预设测试时间可以设置为3个月。则在获取到测试用户在三个月内的业务处理记录后，若所述测试用户在三个月内存在业务处理记录，则标记正类标签；若所述测试用户在三个月内不存在业务处理记录，则标记负类标签。所述正类标签和负类标签可以是基于用户所处理的业务类型而设定的，例如可以将表现期的月日均金融资产相对观察期最后一个月的月日均金融资产增加50％定义为高价值客户，标签设置为1，代表正类标签；其与样本定义为非高价值客户，标签设置为-1，代表负类标签。

上述实施方式只是一种结合标签类别所设计的具体示例，实际应用中基于标签的不同类型可以采取其他的方式来对数据进行标记，在此不再赘述。

优选的，为了减少标注数据所消耗的时间，所述有标签数据对应于用户样本数据的整体可以只具备一个较小的比例。

在一些实施方式中，在获取到所述用户样本数据之后，还可以对所述用户样本数据进行预处理。所述预处理包括：基于预设特征字段对所述原始特征进行补全。为了保障后续过程中能够对所述原始特征进行有效利用，对于所述原始特征中的缺失值列，可以进行补全。所述预设特征字段可以是对应于不同的补全规则的字段。例如，对于原始特征中数值特征的缺失值，预设特征字段可以为“0”值进行补全；对于其中非数值特征的缺失值，预设特征字段可以为“unknown”值进行补全。实际应用中还可以根据需求利用其他预设特征字段实现原始特征的补全，并不限于上述示例，在此不再赘述。

S120：将所述用户样本数据划分为分别对应于至少两种业务处理视角的单视角数据；所述业务处理视角用于指示数据的不同类别。

所述业务处理视角可以用于表示不同的信息类别，从而利用所述业务处理视角对用户数据进行区分，即用于指示数据的不同类别。

在一些实施方式中，所述业务处理视角可以包括基本信息视角、资产信息视角、持有信息视角和行为信息视角中的至少一种。

不同的业务处理视角下的用户数据具备不同的数据特征，具体的，基于上述实施方式，所述基本信息视角中的特征可以包括性别、年龄段、婚姻状况、住房、车辆、职业和行业等信息；所述资产信息视角中的特征可以包括时点资产、日均资产、历史资产等信息；所述持有信息视角内的特征可以包括活期余额、定期余额、债券余额、基金余额、黄金余额、本外币理财余额、第三方存管余额、保险余额和个人消费贷款余额等信息；所述行为信息视角中的特征可以包括消费笔数、消费金额、投资理财转成存款金额、存款转成投资理财、现金取款金额、归还信用卡金额、借记卡消费金额、近一年网银交易笔数和近一年手机银行交易笔数等信息。

基于上述的各类业务处理视角，以及不同业务处理视角下数据的相应特征，可以对这些用户样本数据进行划分，以得到不同的业务处理视角下的相应数据。

单视角数据即为划分完毕后，对应于某一种业务处理视角的数据。需要说明的是，不同的单视角数据之间可以完全不同，也可以存在有一部分相同的数据，对此不做限制。

在一些实施方式中，在获取单视角数据之后，可以确定所述单视角数据下对应于不同数据特征的特征数据，所述数据特征用于表示业务处理视角下所细分的数据类别，具体的对于所述数据特征的描述可以参考上述实施方式中的介绍。在确定特征数据之后，在后续步骤中可以基于所述特征数据进行聚类，从而更为有效地实现数据的聚类以及模型的训练效果。

S130：针对各组单视角数据分别进行聚类，得到各个业务处理视角下的数据聚类结果。

在确定对应于各个业务处理视角的单视角数据之后，可以针对各组单视角数据分别进行聚类。聚类即根据每组单视角数据中不同数据之间的相似程度，将这些单视角数据划分至不同的聚簇中。这些聚簇的数量可以是预先设定的，也可以是基于实际的聚类过程的效果而确定的，从而实现不同程度的聚类过程。

针对不同业务处理视角可以设置不同的聚簇，例如，基于步骤S120中的示例，在基本信息视角下可以设置两个聚簇，在资产信息视角下可以设置3个聚簇，在持有信息视角下可以设置4个聚簇，在行为信息视角下可以设置5个聚簇。实际应用中可以根据需求设置所述聚簇数量，对此不做限制。

在一些实施方式中，针对所述单视角数据进行聚类的过程，可以是先获取各个业务处理视角下的单视角数据之间的相似关系，再基于所述相似关系构建各组单视角数据的加权关联矩阵。所述加权关联矩阵，即用于表示各个业务处理视角下数据的聚类结果。所述相似关系，可以通过数据之间的相似程度或数据之间的距离来表示。具体的，所述相似关系可以为1值相似关系和0值相似关系，分别用于表示两个单视角数据相似或不相似。

在一个具体的示例中，可以利用公式

计算相似关系，式中，s(i,j)表示单视角数据x_i与单视角数据x_j之间的相似关系，V表示业务处理视角的个数，K^v表示第v个业务处理视角下聚簇的个数，I(x_i,x_j)^(v,k)为单视角数据x_i与单视角数据x_j第v个业务处理视角下第k个聚簇中的相关性函数，其中，

是第v个视角的第k个聚簇，

为单视角数据x_i与单视角数据x_j第v个业务处理视角下第k个聚簇中的簇内密度系数，其中，

为聚簇

中单视角数据的个数，

为单视角数据x_i和x_j在聚簇

中的距离。

为聚簇

中单视角数据的均值，

S140：根据所述数据聚类结果构造关联约束系数；所述关联约束系数用于调节各个业务处理视角下的单视角数据的训练结果的相似性。

在所述数据聚类结果可以用于表示单视角数据的分类关系的情况下，通过所述数据聚类结果可以确定关联约束系数。所述关联约束系数用于调节各个业务处理视角下的单视角数据的训练结果的相似性。

所述关联约束系数可以用于指代多视角聚类的加权关联约束。基于所构造的关联矩阵，能够构造基于多视角聚类的加权关联约束，以使特征空间中相似的样本数据在输出空间中也能够保持同样的相似关系。

具体的，基于多视角聚类的加权关联约束R_sim的具体计算方式可以是利用公式

计算关联约束系数，式中，R_sim为关联约束系数，|L|为有标签数据的个数，|U|为无标签数据的个数，f(x)为预先设置的用户分类模型，s(i,j)为单视角数据x_i与x_j的关联关系。

通过计算所述关联约束系数，对于不同用户样本数据之间的关联关系有了一个较好的评估，从而在后续步骤中能够结合所述关联约束系数对模型的训练效果进行有效的评估。

S150：基于所述用户样本数据确定平滑约束系数；所述平滑约束系数用于调节有标签数据和无标签数据的训练结果的相似性。

在计算关联约束系数的同时，还可以利用所述用户样本数据确定平滑约束系数。所述平滑约束系数用于调节有标签数据和无标签数据的训练结果的相似性。由于所述模型训练方法中在训练模型时所采用的是半监督学习，即训练样本中包含有标签样本和无标签样本，为了保证有标签样本和无标签样本在训练结果和输出结果上的一致性，可以计算所述平滑约束系数来对上述标准进行计算。

在一些实施方式中，所述平滑约束系数可以用于标签平滑约束，即使得有标签样本的相似样本在输出空间的均值与有标签样本的真实标签尽可能一致，从而提高模型的泛化效果。具体的，可以利用公式

计算平滑约束系数，式中，R_smo为平滑约束系数，|L|为有标签数据的个数，|U|为无标签数据的个数，f(x)为预先设置的用户分类模型，s(i,j)为单视角数据x_i与x_j的关联关系。

通过计算所述平滑约束系数，对有标签样本数据和无标签样本数据之间的关联性进行了确定，从而能够综合不同类型的样本数据之间的相似性，有效地对模型的训练效果进行评估和优化。

S160：综合所述关联约束系数和平滑约束系数训练得到用户分类模型；所述用户分类模型用于根据用户数据确定用户类别。

在获取得到所述关联约束系数和平滑约束系数之后，可以有效利用上述系数对于样本数据的评估效果，完成对于用户分类模型的训练。

在预先设置相应的用户分类模型后，所述用户分类模型的分类效果可能不会特别好，需要对所述用户分类模型进行进一步的优化。因此，可以根据各个训练批次中模型的训练结果，对模型进行进一步的优化，以提高模型对用户分类的准确性。

具体的，例如可以是利用梯度下降法对所述用户分类模型进行优化，直至优化次数达到预设迭代阈值或两次目标函数的损失值小于预设损失阈值。实际优化过程可以基于具体应用中的细节进行设置和调整，在此不再赘述。

由于所述关联约束系数和平滑约束系数已经能够有效地对数据进行评估，因此可以结合所述关联约束系数和平滑约束系数构建相应的目标函数，进而利用所述目标函数的计算结果，对模型的训练效果进行评估，实现优化模型的结果。

具体的，可以构造目标函数为L＝R_emp+α·R_sim+β·R_smo，式中，L为目标函数，R_emp为经验损失，其中，

|L|为有标签数据的个数，y_i为有标签数据的用户类别，f(x_i)为利用用户分类模型所确定的用户样本数据x_i对应的用户类别，α、β为超参数，R_sim为关联约束系数，R_smo平滑约束系数。

在实际的计算过程中，优化过程可以利用公式

来实现，获取用户分类模型，式中，F(x)为用户分类模型，f_v为子分类器，x为用户信息，ω₁为第一用户类别，ω₂为第二用户类别。上述示例只是在子分类器对应于上述三种信息类别的情况下所设置的公式，实际应用中可以根据具体的信息类别确定相应的生成用户分类模型的公式，并不限于上述示例，在此不再赘述。

下面利用一个具体的场景示例对上述基于用户分类的模型训练方法进行介绍，如图2所示，为一种模型训练方法的流程示意图。其中，在获取到有标签样本和无标签样本后，将这些样本数据分别划分至基本信息视角、资产信息视角、持有信息视角和行为信息视角下得到不同的单视角数据。针对这些单视角数据再进一步进行聚类，从而在不同视角下聚类得到不同数目的类簇。之后，根据这些聚类后的数据构建基于多视角聚类的加权关联矩阵，利用所述加权关联矩阵分别求取加权关联约束和标签平滑约束，即对应于上述实施例中的关联约束系数和平滑约束系数。根据所述加权关联约束和标签平滑约束完成一种基于子空间聚类的加权关联约束与标签平滑约束的半监督高价值客户挖掘模型的训练。

基于上述实施例和场景示例的介绍，可以看出所述方法在获取到包含有一部分有标签数据的用户样本数据后，将用户样本数据划分为分别对应于不同业务处理视角的数据，在对这些数据进行聚类。基于聚类结果，进一步确定关联约束系数和平滑约束系数，以对有标签数据和无标签数据之间的关联性以及输出结果之间的关联性进行定量评估，进而综合所述关联约束系数和平滑约束系数训练得到最终的用户分类模型。通过上述方法，能够有效对模型训练效果以及有标签数据和无标签数据之间的关联性进行结合，保证了半监督学习过程中对数据的有效利用，提高了用户分类的准确性，有利于后续过程中分配用户相应的业务。

基于图1所对应的基于用户分类的模型训练方法，本说明书实施例还提出一种基于用户分类的业务分配方法。所述基于用户分类的业务分配方法的执行主体可以是基于用户分类的业务分配设备，所述基于用户分类的业务分配设备包括但不限于服务器、工控机、pc机等。如图3所示，所述基于用户分类的业务分配方法包括以下具体实施步骤。

S310：获取目标用户的用户特征信息。

目标用户可以是需要为其分配业务，或需要预测其需要执行的业务的用户。用户特征信息即为对应于所述目标用户的信息。所述用户特征信息可以根据用户分类模型的需求进行设置，例如，所述用户特征信息可以是用户自身的身份信息、也可以是用户所处理的历史业务的信息等等，对此不做限制。

S320：将所述用户特征信息输入用户分类模型，得到用户类别；所述用户分类模型，通过以下方式获得：获取用户样本数据；所述用户样本数据包括有标签数据和无标签数据；所述有标签数据对应有用户类别；将所述用户样本数据划分为分别对应于至少两种业务处理视角的单视角数据；所述业务处理视角用于指示数据的不同类别；针对各组单视角数据分别进行聚类，得到各个业务处理视角下的数据聚类结果；根据所述数据聚类结果构造关联约束系数；所述关联约束系数用于调节各个业务处理视角下的单视角数据的训练结果的相似性；基于所述用户样本数据确定平滑约束系数；所述平滑约束系数用于调节有标签数据和无标签数据的训练结果的相似性；综合所述关联约束系数和平滑约束系数训练得到用户分类模型。

在获取到所述用户特征信息后，可以直接将所述用户特征信息输入用户分类模型，以得到相应的用户类别。所述用户分类模型，用于根据用户的特征信息，识别并对用户进行分类，以确定目标用户所属的用户类别。

对于所述用户分类模型的具体介绍可以参照图1所对应的基于用户分类的模型训练方法中的介绍，在此不再赘述。

S330：将对应于所述用户类别的业务分配至所述目标用户。

基于不同的用户类别，可以预先设置相应的业务，在确定对应于所述目标用户的用户类别后，即可将该用户类别所对应的业务分配至所述目标用户。

具体的确定用户类别与业务之间的对应关系可以通过管理人员直接指定，也可以基于历史数据训练得到。具体的获取方式可以基于实际应用情况进行设置，在此不再赘述。

利用一个场景示例对上述业务分配方法进行介绍，如图4所示，为一种业务分配过程的流程示意图，其中，从数据仓库中获得相应的用户数据后，对用户数据进行数据预处理，并从中提取相应的数据特征后，将这些数据划分为训练样本和测试样本，利用训练样本进行模型训练，并结合测试样本获取到最终的一种基于加权关联约束和标签平滑约束的半监督高价值客户挖掘模型，从而得到最终的预测结果，以实现相应的业务的分配。

基于图1所对应的基于用户分类的模型训练方法，介绍本说明书实施例一种基于用户分类的模型训练装置。所述基于用户分类的模型训练装置可以设置于基于用户分类的模型训练设备。如图5所示，所述基于用户分类的模型训练装置包括以下模块。

用户样本数据获取模块510，用于获取用户样本数据；所述用户样本数据包括有标签数据和无标签数据；所述有标签数据对应有用户类别；。

单视角数据划分模块520，用于将所述用户样本数据划分为分别对应于至少两种业务处理视角的单视角数据；所述业务处理视角用于指示数据的不同类别。

聚类模块530，用于针对各组单视角数据分别进行聚类，得到各个业务处理视角下的数据聚类结果。

关联约束系数构造模块540，用于根据所述数据聚类结果构造关联约束系数；所述关联约束系数用于调节各个业务处理视角下的单视角数据的训练结果的相似性。

平滑约束系数确定模块550，用于基于所述用户样本数据确定平滑约束系数；所述平滑约束系数用于调节有标签数据和无标签数据的训练结果的相似性。

训练模块560，用于综合所述数据聚类结果训练得到用户分类模型；所述用户分类模型用于根据用户数据确定用户类别。

基于图3所对应的基于用户分类的业务分配方法，介绍本说明书实施例一种基于用户分类的业务分配装置。所述基于用户分类的业务分配装置设置于所述基于用户分类的业务分配设备。如图6所示，所述基于用户分类的业务分配装置包括以下模块。

特征信息获取模块610，用于获取目标用户的用户特征信息。

用户类别获取模块620，用于将所述用户特征信息输入用户分类模型，得到用户类别；所述用户分类模型，通过以下方式获得：获取用户样本数据；所述用户样本数据包括有标签数据和无标签数据；所述有标签数据对应有用户类别；将所述用户样本数据划分为分别对应于至少两种业务处理视角的单视角数据；所述业务处理视角用于指示数据的不同类别；针对各组单视角数据分别进行聚类，得到各个业务处理视角下的数据聚类结果；根据所述数据聚类结果构造关联约束系数；所述关联约束系数用于调节各个业务处理视角下的单视角数据的训练结果的相似性；基于所述用户样本数据确定平滑约束系数；所述平滑约束系数用于调节有标签数据和无标签数据的训练结果的相似性；综合所述关联约束系数和平滑约束系数训练得到用户分类模型。

业务分配模块630，用于将对应于所述用户类别的业务分配至所述目标用户。

基于图1所对应的基于用户分类的模型训练方法，本说明书实施例提供一种基于用户分类的模型训练设备。如图7所示，所述基于用户分类的模型训练设备可以包括存储器和处理器。

在本实施例中，所述存储器可以按任何适当的方式实现。例如，所述存储器可以为只读存储器、机械硬盘、固态硬盘、或U盘等。所述存储器可以用于存储计算机程序指令。

在本实施例中，所述处理器可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以执行所述计算机程序指令实现以下步骤：获取用户样本数据；所述用户样本数据包括有标签数据和无标签数据；所述有标签数据对应有用户类别；将所述用户样本数据划分为分别对应于至少两种业务处理视角的单视角数据；所述业务处理视角用于指示数据的不同类别；针对各组单视角数据分别进行聚类，得到各个业务处理视角下的数据聚类结果；根据所述数据聚类结构构造关联约束系数；所述关联约束系数用于调节各个业务处理视角下的单视角数据的训练结果的相似性；基于所述用户样本数据确定平滑约束系数；所述平滑约束系数用于调节有标签数据和无标签数据的训练结果的相似性；综合所述数据聚类结果训练得到用户分类模型；所述用户分类模型用于根据用户数据确定用户类别。

基于图3所对应的基于用户分类的业务分配方法，本说明书实施例提供一种基于用户分类的业务分配设备。如图8所示，所述基于用户分类的业务分配设备可以包括存储器和处理器。

在本实施例中，所述处理器可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以执行所述计算机程序指令实现以下步骤：获取目标用户的用户特征信息；将所述用户特征信息输入用户分类模型，得到用户类别；所述用户分类模型，通过以下方式获得：获取用户样本数据；所述用户样本数据包括有标签数据和无标签数据；所述有标签数据对应有用户类别；将所述用户样本数据划分为分别对应于至少两种业务处理视角的单视角数据；所述业务处理视角用于指示数据的不同类别；针对各组单视角数据分别进行聚类，得到各个业务处理视角下的数据聚类结果；根据所述数据聚类结果构造关联约束系数；所述关联约束系数用于调节各个业务处理视角下的单视角数据的训练结果的相似性；基于所述用户样本数据确定平滑约束系数；所述平滑约束系数用于调节有标签数据和无标签数据的训练结果的相似性；综合所述关联约束系数和平滑约束系数训练得到用户分类模型；将对应于所述用户类别的业务分配至所述目标用户。

需要说明的是，上述灰度测试方法、装置及设备可以应用于人工智能技术领域，也可以应用至除人工智能技术领域外的其他技术领域，对此不做限制。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的第一硬件平台的方式来实现。基于这样的理解，本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书可用于众多第一或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

虽然通过实施例描绘了本说明书，本领域普通技术人员知道，本说明书有许多变形和变化而不脱离本说明书的精神，希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims

1.一种基于用户分类的模型训练方法，其特征在于，包括：

获取用户样本数据；所述用户样本数据包括有标签数据和无标签数据；所述有标签数据对应有用户类别；

将所述用户样本数据划分为分别对应于至少两种业务处理视角的单视角数据；所述业务处理视角用于指示数据的不同类别；

针对各组单视角数据分别进行聚类，得到各个业务处理视角下的数据聚类结果；

根据所述数据聚类结果构造关联约束系数；所述关联约束系数用于调节各个业务处理视角下的单视角数据的训练结果的相似性；

基于所述用户样本数据确定平滑约束系数；所述平滑约束系数用于调节有标签数据和无标签数据的训练结果的相似性；

综合所述关联约束系数和平滑约束系数训练得到用户分类模型；所述用户分类模型用于根据用户数据确定用户类别。

2.如权利要求1所述的方法，其特征在于，所述获取用户样本数据，包括：

从用户样本数据对应的样本用户中选取标注用户；

获取所述标注用户的历史业务记录；

根据所述历史业务记录为所述标注用户设置用户类别；所述用户类别对应于所述标注用户的用户样本数据。

3.如权利要求1所述的方法，其特征在于，所述业务处理视角，包括基本信息视角、资产信息视角、持有信息视角和行为信息视角中的至少一种。

4.如权利要求1所述的方法，其特征在于，所述业务处理视角分别对应有至少两种数据特征；所述数据特征用于表述数据的不同类别；所述将所述用户数据划分为分别对应于至少两种业务处理视角的单视角数据之后，还包括：

确定所述单视角数据下对应于不同数据特征的特征数据；

相应的，所述针对各组单视角数据分别进行聚类，得到各个业务处理视角下的数据聚类结果，包括：

结合所述特征数据对各组单视角数据分别进行聚类，得到各个业务处理视角下的数据聚类结果。

5.如权利要求1所述的方法，其特征在于，所述针对各组单视角数据分别进行聚类，得到各个业务处理视角下的数据聚类结果，包括：

获取各个业务处理视角下单视角数据之间的相似关系；

基于所述相似关系构建加权关联矩阵；所述加权关联矩阵，用于表示各个业务处理视角下数据的聚类结果。

6.如权利要求5所述的方法，其特征在于，所述获取各个业务处理视角下单视角数据之间的相似关系，包括：

利用公式

是第v个视角的第k个聚簇，

为聚簇

中单视角数据的个数，

为单视角数据x_i和x_j在聚簇

中的距离，

为聚簇

中单视角数据的均值，

7.如权利要求1所述的方法，其特征在于，所述根据所述数据聚类结果构造关联约束系数，包括：

利用公式

8.如权利要求1所述的方法，其特征在于，所述基于所述用户数据确定平滑约束系数，包括：

利用公式

9.如权利要求1所述的方法，其特征在于，所述将所述用户数据划分为分别对应于至少两种业务处理视角的单视角数据之前，还包括：

对所述用户样本数据进行预处理；所述预处理包括：基于预设特征字段对所述用户样本数据进行补全。

10.如权利要求1所述的方法，其特征在于，所述综合所述关联约束系数和平滑约束系数训练得到用户分类模型，包括：

基于所述关联约束系数和平滑约束系数构造目标函数；

根据所述目标函数对用户分类模型进行优化；所述用户分类模型用于确定不同业务处理视角下的用户数据所对应的用户类别。

11.如权利要求10所述的方法，其特征在于，所述基于所述关联约束系数和平滑约束系数构造目标函数，包括：

构造目标函数为L＝R_emp+α·R_sim+β·R_smo，式中，L为目标函数，R_emp为经验损失，其中，

L|为有标签数据的个数，y_i为有标签数据的用户类别，f(x_i)为利用用户分类模型所确定的用户样本数据x_i对应的用户类别，α、β为超参数，R_sim为关联约束系数，R_smo平滑约束系数。

12.如权利要求11所述的方法，其特征在于，所述根据所述目标函数对用户分类模型进行优化，包括：

利用梯度下降法对所述用户分类模型进行优化，直至优化次数达到预设迭代阈值或两次目标函数的损失值小于预设损失阈值。

13.一种基于用户分类的模型训练装置，其特征在于，包括：

用户样本数据获取模块，用于获取用户样本数据；所述用户样本数据包括有标签数据和无标签数据；所述有标签数据对应有用户类别；

单视角数据划分模块，用于将所述用户样本数据划分为分别对应于至少两种业务处理视角的单视角数据；所述业务处理视角用于指示数据的不同类别；

聚类模块，用于针对各组单视角数据分别进行聚类，得到各个业务处理视角下的数据聚类结果；

关联约束系数构造模块，用于根据所述数据聚类结果构造关联约束系数；所述关联约束系数用于调节各个业务处理视角下的单视角数据的训练结果的相似性；

平滑约束系数确定模块，用于基于所述用户样本数据确定平滑约束系数；所述平滑约束系数用于调节有标签数据和无标签数据的训练结果的相似性；

训练模块，用于综合所述数据聚类结果训练得到用户分类模型；所述用户分类模型用于根据用户数据确定用户类别。

14.一种基于用户分类的模型训练设备，包括存储器和处理器；

所述存储器，用于存储计算机程序指令；

所述处理器，用于执行所述计算机程序指令以实现以下步骤：获取用户样本数据；所述用户样本数据包括有标签数据和无标签数据；所述有标签数据对应有用户类别；将所述用户样本数据划分为分别对应于至少两种业务处理视角的单视角数据；所述业务处理视角用于指示数据的不同类别；针对各组单视角数据分别进行聚类，得到各个业务处理视角下的数据聚类结果；根据所述数据聚类结构构造关联约束系数；所述关联约束系数用于调节各个业务处理视角下的单视角数据的训练结果的相似性；基于所述用户样本数据确定平滑约束系数；所述平滑约束系数用于调节有标签数据和无标签数据的训练结果的相似性；综合所述数据聚类结果训练得到用户分类模型；所述用户分类模型用于根据用户数据确定用户类别。

15.一种基于用户分类的业务分配方法，其特征在于，包括：

获取目标用户的用户特征信息；

将所述用户特征信息输入用户分类模型，得到用户类别；所述用户分类模型，通过以下方式获得：获取用户样本数据；所述用户样本数据包括有标签数据和无标签数据；所述有标签数据对应有用户类别；将所述用户样本数据划分为分别对应于至少两种业务处理视角的单视角数据；所述业务处理视角用于指示数据的不同类别；针对各组单视角数据分别进行聚类，得到各个业务处理视角下的数据聚类结果；根据所述数据聚类结果构造关联约束系数；所述关联约束系数用于调节各个业务处理视角下的单视角数据的训练结果的相似性；基于所述用户样本数据确定平滑约束系数；所述平滑约束系数用于调节有标签数据和无标签数据的训练结果的相似性；综合所述关联约束系数和平滑约束系数训练得到用户分类模型；

将对应于所述用户类别的业务分配至所述目标用户。

16.一种基于用户分类的业务分配装置，其特征在于，包括：

特征信息获取模块，用于获取目标用户的用户特征信息；

用户类别获取模块，用于将所述用户特征信息输入用户分类模型，得到用户类别；所述用户分类模型，通过以下方式获得：获取用户样本数据；所述用户样本数据包括有标签数据和无标签数据；所述有标签数据对应有用户类别；将所述用户样本数据划分为分别对应于至少两种业务处理视角的单视角数据；所述业务处理视角用于指示数据的不同类别；针对各组单视角数据分别进行聚类，得到各个业务处理视角下的数据聚类结果；根据所述数据聚类结果构造关联约束系数；所述关联约束系数用于调节各个业务处理视角下的单视角数据的训练结果的相似性；基于所述用户样本数据确定平滑约束系数；所述平滑约束系数用于调节有标签数据和无标签数据的训练结果的相似性；综合所述关联约束系数和平滑约束系数训练得到用户分类模型；

业务分配模块，用于将对应于所述用户类别的业务分配至所述目标用户。

17.一种基于用户分类的业务分配设备，包括存储器和处理器；

所述存储器，用于存储计算机程序指令；

所述处理器，用于执行所述计算机程序指令以实现以下步骤：获取目标用户的用户特征信息；将所述用户特征信息输入用户分类模型，得到用户类别；所述用户分类模型，通过以下方式获得：获取用户样本数据；所述用户样本数据包括有标签数据和无标签数据；所述有标签数据对应有用户类别；将所述用户样本数据划分为分别对应于至少两种业务处理视角的单视角数据；所述业务处理视角用于指示数据的不同类别；针对各组单视角数据分别进行聚类，得到各个业务处理视角下的数据聚类结果；根据所述数据聚类结果构造关联约束系数；所述关联约束系数用于调节各个业务处理视角下的单视角数据的训练结果的相似性；基于所述用户样本数据确定平滑约束系数；所述平滑约束系数用于调节有标签数据和无标签数据的训练结果的相似性；综合所述关联约束系数和平滑约束系数训练得到用户分类模型；将对应于所述用户类别的业务分配至所述目标用户。