CN111612528A

CN111612528A - 用户分类模型的确定方法、装置、设备及存储介质

Info

Publication number: CN111612528A
Application number: CN202010361519.8A
Authority: CN
Inventors: 刘亮; 顾强; 张晟
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Jiangsu Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Jiangsu Co Ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2020-09-01

Abstract

本申请公开了一种用户分类模型的确定方法、装置、设备及存储介质，具体包括：获取多组超参数组合和用户行为数据训练样本；利用遗传算法，将多组所述超参数组合作为采集函数的初始种群，进行种群迭代优化，以得到满足预设优化条件的目标超参数组合；根据所述目标超参数组合和用户行为数据训练样本，对所述用户分类模型进行迭代训练，以得到所述用户分类模型的性能指标；当所述性能指标满足预设寻优条件时，将所述性能指标对应的目标超参数组合作为所述用户分类模型的超参数，以确定所述用户分类模型。根据本申请实施例，提升用户分类模型的分类预测结果的准确性。

Description

用户分类模型的确定方法、装置、设备及存储介质

技术领域

本申请属于计算机技术领域，尤其涉及一种用户分类模型的确定方法、确定用户分类模型的分布式计算方法、装置、设备及存储介质。

背景技术

随着电信业务的高速发展，在通讯业务的应用场景中，每天会有大量的用户行为数据需要分析，而机器学习等人工智能技术正在越来越多的场景中发挥着作用。在对机器学习模型的构建、优化时，由于，超参数的选择对模型最终的效果有着重要的影响，这就需要对超参数进行选择调整以获得效果更好的模型。

目前，常用的超参数优化方法中，贝叶斯优化法是较为简单高效的方法，但是贝叶斯优化法有时存在陷入局部最优解的问题，导致不能找到效果更好的模型的超参数。

发明内容

本申请实施例提供一种用户分类模型的确定方法、确定用户分类模型的分布式计算方法、装置、设备及存储介质，能够较好地确定用户分类模型对应的超参数，优化用户分类模型的性能指标，提升用户分类模型的分类预测结果的准确性。

第一方面，本申请实施例提供一种用户分类模型的确定方法，方法包括：

获取多组超参数组合和用户行为数据训练样本；

利用遗传算法，将多组所述超参数组合作为采集函数的初始种群，进行种群迭代优化，以得到满足预设优化条件的目标超参数组合；

根据所述目标超参数组合和用户行为数据训练样本，对所述用户分类模型进行迭代训练，以得到所述用户分类模型的性能指标；

当所述性能指标满足预设寻优条件时，将所述性能指标对应的目标超参数组合作为所述用户分类模型的超参数，以确定所述用户分类模型。

可选地，所述利用遗传算法，将多组所述超参数组合作为采集函数的初始种群，进行种群迭代优化，以得到满足预设优化条件的目标超参数组合，包括：

根据多组所述超参数组合，随机生成初始种群；

分别计算所述初始种群的每组所述超参数组合对应的适应度；

根据每个所述适应度，对种群中的超参数组合进行遗传操作，确定下一代种群；

迭代优化种群直至满足遗传算法的终止条件，得到最优种群；

将所述最优种群对应的超参数组合作为所述目标超参数组合。

可选地，所述遗传操作包括选取操作、交叉操作以及变异操作中的一种或多种。

可选地，所述获取多组超参数组合，包括：

获取多组初始超参数组合；

根据所述用户分类模型的目标函数，分别计算得到每个所述初始超参数组合对应的所述用户分类模型的性能指标，以生成第一参数集合；

根据所述预设概率模型和所述第一参数集合，计算得到多组后验概率；

根据多组所述后验概率和所述预设概率模型，确定所述多组超参数组合。

可选地，所述方法还包括：

当所述性能指标不满足预设寻优条件时，根据所述性能指标和所述性能指标对应的目标超参数组合，更新所述预设概率模型；

基于更新后的预设概率模型，更新后验概率，以获取到更新后的多组超参数组合；

返回执行利用遗传算法，将多组所述超参数组合作为采集函数的初始种群，进行种群迭代优化，以得到满足预设优化条件的目标超参数组合。

可选地，所述根据所述性能指标和所述性能指标对应的目标超参数组合，更新所述预设概率模型，包括：

根据所述性能指标和所述性能指标对应的目标超参数组合，更新所述第一参数集合；

根据更新后的第一参数集合，更新所述预设概率模型。

可选地，所述预设概率模型包括：高斯过程模型、随机森林回归模型、响应面算法Hyperopt模型中的任意一种。

可选地，所述用户分类模型的性能指标包括：精准率、召回率、F1分数中的一种或多种。

第二方面，本申请实施例提供了一种确定用户分类模型的分布式计算方法，应用于分布式计算系统，所述分布式计算系统包括控制总线，驱动控制器以及多个计算节点；

所述控制总线根据获取的业务数据，设置如第一方面以及第一方面可选所述的方法建立的确定用户分类模型任务，所述确定用户分类模型任务包括多个子任务；

所述驱动控制器根据调度算法和多组所述子任务的任务量值，将接收的所述控制总线发送的多个所述子任务分发至各个所述计算节点；

各个所述计算节点执行计算对应的所述子任务，将得到计算结果返回值控制总线；

所述控制总线将各个所述子任务的计算结果组合，形成目标超参数计算结果。

第三方面，本申请实施例提供了一种用户分类模型的确定装置，所述装置包括：

获取模块，用于获取多组超参数组合和用户行为数据训练样本；

优化模块，用于利用遗传算法，将多组所述超参数组合作为采集函数的初始种群，进行种群迭代优化，以得到满足预设优化条件的目标超参数组合；

训练模块，用于根据所述目标超参数组合和用户行为数据训练样本，对所述用户分类模型进行迭代训练，以得到所述用户分类模型的性能指标；

确定模块，用于当所述性能指标满足预设寻优条件时，将所述性能指标对应的目标超参数组合作为所述用户分类模型的超参数，以确定所述用户分类模型。

第四方面，本申请实施例提供了一种用户分类模型的确定设备，设备包括：

处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如第一方面以及第一方面可选所述的用户分类模型的确定方法。

第五方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如第一方面以及第一方面可选所述的用户分类模型的确定方法。

本申请实施例的用户分类模型的确定方法、确定用户分类模型的分布式计算方法、装置、设备及存储介质，能够利用遗传算法作为采集函数，对多组超参数组合进行全面地搜索优化，降低了陷入局部最优解风险，可以更好找到全局最优解，得到最优的超参数组合，确定基于该最优的超参数组合的用户分类模型，由此，该用户分类模型可以具有更好的性能指标，提升了用户分类模型的分类预测结果的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一些实施例提供的用户分类模型的确定方法的流程示意图；

图2是本申请另一些实施例提供的用户分类模型的确定方法的流程示意图；

图3是本申请一些实施例提供的确定用户分类模型的分布式计算方法的流程示意图；

图4为本申请一些实施例中的确定用户分类模型的分布式计算方法应用场景的示意图；

图5是本申请一些实施例提供的用户分类模型的确定装置的结构示意图；

图6是本申请一些实施例提供的用户分类模型的确定设备的硬件结构示意图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例，为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本申请进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本申请，并不被配置为限定本申请。对于本领域技术人员来说，本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

目前，人工智能技术的广泛应用，可以帮助企业的优化业务管理，促进降本增效。人工智能技术中的机器学习模型可以实现对大量的用户行为数据的预测分析，识别分类出企业相关业务的潜在用户。而用户分类模型的构建、优化需要对超参数进行选择、调整，目前主流的优化方法为贝叶斯优化，而贝叶斯优化的主要思想是选取已有的采集函数和概率模型计算最优值，然后将计算出的最优值运用到业务所需要的先验函数上，其中，采集函数和概率模型的结合是最为重要的一个环节。

但是，传统采集函数在选值过程中很容易陷入局部最优解的情况，对AI不了解的工作人员很难察觉这个错误，导致不能确定效果更好的用户分类模型，进而使得用户分类模型识别预测的结果存在一定偏差。

为了解决现有技术问题，本申请实施例提供了一种用户分类模型的确定方法、确定用户分类模型的分布式计算方法、装置、设备及存储介质，能够利用遗传算法作为采集函数，对多组超参数组合进行全面地搜索优化，降低了陷入局部最优解风险，可以更好找到全局最优解，得到最优的超参数组合，确定基于该最优的超参数组合的用户分类模型，由此，该用户分类模型可以具有更好的性能指标，提升了用户分类模型的分类预测结果的准确性。

下面结合附图，详细描述根据本申请实施例提供的用户分类模型的确定方法、确定用户分类模型的分布式计算方法、装置、设备及存储介质。应注意，这些实施例并不是用来限制本申请公开的范围。

首先对本申请实施例所提供的用户分类模型的确定方法进行介绍。

图1是本申请一个实施例提供的用户分类模型的确定方法的流程示意图。如图1所示，在本申请实施例中，该用户分类模型的确定方法，可以具体实施为如下步骤：

S101：获取多组超参数组合和用户行为数据训练样本。

S102：利用遗传算法，将多组超参数组合作为采集函数的初始种群，进行种群迭代优化，以得到满足预设优化条件的目标超参数组合。

这里，首先，可以根据多组所述超参数组合，随机生成初始种群。初始种群可以看作采集函数中要选取的多组超参数组合。

然后，分别计算初始种群的每组超参数组合对应的适应度。根据每个适应度，对种群中的超参数组合进行遗传操作，确定下一代种群。

具体地，遗传操作可以包括选取操作、交叉操作以及变异操作中的一种或多种。

迭代优化种群直至满足遗传算法的终止条件，得到最优种群；将最优种群对应的超参数组合作为所述目标超参数组合。

具体地，该遗传算法的终止条件可以包括满足设定迭代次数阈值，或者是逐次迭代优化直到收敛。

此外，遗传算法研究的对象是种群，即很多个体的集合，对应于求解的问题。可以经过将这些个体进行遗传操作，如编码、选取、交叉、变异之后，逐代进化，从子代中可以找到种群中的最优个体，即求解问题的全局最优解。

采集函数(Acquisition Function，AC)，采集函数也可以叫效能函数。贝叶斯优化过程中的探索(exploration)与开发(exploitation)的平衡，可以通过采集函数来完成的。

S103：根据目标超参数组合和用户行为数据训练样本，对用户分类模型进行迭代训练，以得到用户分类模型的性能指标。

具体地，用户行为数据训练样本可以是从相关业务平台中获取的样本，该模型基于相关业务平台中多个用户行为数据训练样本进行训练，从而可以实现对用户进行分类，以便于进行相应地业务处理，等等。

可以理解的是，该用户分类模型可以为各种分类模型、回归模型、神经网络模型、树模型等等，在此不作限定。该模型针对的预测对象也可以不限于为用户、交易等，而可以为业务平台中的各类对象，如业务套餐、通信商品等等。

这里，通过用户行为数据训练样本训练具有该超参数组合的模型，并对该训练的模型进行测试评估，确定用户分类模型的性能指标。具体地，该性能指标可以为多种参数的值，如准确率、精确率、召回率、感受性曲线下方的面积大小(Area Under Curve，AUC)、F1分数等各种参数的组合，等等，在此不作限定。

S104：当性能指标满足预设寻优条件时，将性能指标对应的目标超参数组合作为用户分类模型的超参数，以确定用户分类模型。

这里，该预设寻优条件可以为性能指标达一定性能阈值，即可以将该性能指标确定为最优性能值，将性能指标对应的目标超参数组合作为用户分类模型的超参数，由此，得到该用户分类模型。

此外，该用户分类模型的确定方法可以是基于贝叶斯优化确定的模型超参数。

综上，本申请实施例的用户分类模型的确定方法，能够利用遗传算法作为采集函数，对多组超参数组合进行全面地搜索优化，降低了陷入局部最优解风险，可以更好找到全局最优解，得到最优的超参数组合，确定基于该最优的超参数组合的用户分类模型，由此，该用户分类模型可以具有更好的性能指标，提升了用户分类模型的分类预测结果的准确性。

在本申请一些实施例中，如图2所示，图1是本申请一个实施例提供的xx方法的流程示意图，该用户分类模型的确定方法可以扩展实施为，如下具体步骤：

S201：获取多组初始超参数组合和用户行为数据训练样本。

这里，多组初始超参数组合，可以是在一定选取域中，通过随机算法生成若干组超参数组合。

S202：根据用户分类模型的目标函数，分别计算得到每组初始超参数组合对应的用户分类模型的性能指标，以生成第一参数集合。

这里，多组初始超参数组合可以看作D＝{x₁,x₂,x₃...x_n}，用户分类模型的目标函数可以为y＝Trans_Func(x₁,x₂…x_n)，即可以计算得到与初始超参数组合对应的用户分类模型的性能指标，即性能值y。以生成第一参数集合E＝{(x₁,y₁),(x₂,y₂)…(x_n,y_n)}。这里的第一参数集合可以看作是初始第一参数集合。

可选地，这里，获取的用户行为数据训练样本可以包括训练样本集和测试样集。对于每组超参数组合，使用训练样本集训练与该超参数组合对应的用户分类模型，并使用测试样本集对该训练好的用户分类模型进行测试，以得到模型的性能值。根据超参数组合和性能值，确定生成第一参数集合。

S203：根据预设概率模型和第一参数集合，计算得到多组后验概率。

这里，预设概率模型可以为贝叶斯优化中的概率模型。具体地，将第一参数集合作用在预设概率模型上，计算得到对应的后验概率，可以记为p(y|x)。后验概率可以是贝叶斯优化中概率模型得到的最大概率。

具体地，该预设概率模型可以包括但不限于：高斯过程模型、随机森林回归模型、Hyperopt模型中的任意一种。

S204：根据多组后验概率和预设概率模型，确定所述多组超参数组合。

具体地，根据多组后验概率和预设概率模型，可以推测模拟出对应的多组超参数组合。这些超参数组合可以是预设概率模型进行模拟业务模型时，可能的选取的极值点。

S205：利用遗传算法，将多组超参数组合作为采集函数的初始种群，进行种群迭代优化，以得到满足预设优化条件的目标超参数组合。

迭代优化种群直至满足遗传算法的终止条件，得到最优种群。

具体地，根据遗传算法，确定初始种群，即多组超参数组合：可以根据种群规模，随机产生初始种群，种群中的每个个体即为每组超参数组合。

计算适应度，即遗传算法的目标函数：计算每个个体的适应度，并判断是否满足优化准则，若满足，则输出最佳个体及其代表的最优解，并结束算法；若不满足，则转入下一步。

这里，可以理解的是，遗传算法中的优化准则可以根据问题的不同有不同的确定方式。通常可以采取如下之一作为判断条件：

种群中个体的最大适应度超过了设定值，随着代数的增大，最大适应度可以向变大的方向移动，适应度值越大，表示解的质量越好；

种群中个体的平均适应度超过了设定值；世代数超过了设定值；

种群中个体的最大适应度除以平均适应度超过了设定值。

选取操作：可以依据适应度选择再生个体，适应度高的个体被选中的概率高，适应度低的个体被选中的概率低，可以淘汰适应度过低的个体。

交叉操作：根据一定的交叉概率和交叉方法，生成子代个体。

变异操作：根据一定的变异概率和变异方法，生成子代个体。

循环计算适应度，迭代优化至满足遗传算法的终止条件：由交叉和变异产生新一代种群，即子代种群，当不满足遗传算法的终止条件时，则返回执行计算适应度的步骤，计算对应新一代种群的适应度。

当满足遗传算法的终止条件时，则输出得到的最优种群。这里最优种群即对应的超参数组合，将该超参数组合作为目标超参数组合。

S206：根据目标超参数组合和用户行为数据训练样本，对用户分类模型进行迭代训练，以得到用户分类模型的性能指标。

这里，通过用户行为数据训练样本训练具有该超参数组合的模型，并对该训练的模型进行测试评估，确定用户分类模型的性能指标。具体地，该性能指标可以为多种参数的值，如准确率、精确率、召回率、AUC、各种参数的组合，等等，在此不作限定。

S207：当性能指标不满足预设寻优条件时，根据性能指标和性能指标对应的目标超参数组合，更新预设概率模型。

具体地，首先根据性能指标和性能指标对应的目标超参数组合，更新第一参数集合。利用更新后的第一参数集合，更新预设概率模型，得到一个新的第一参数集合。

可以理解的是，当初始化完成时，第一参数集合即为初始第一参数集合。而在每一轮迭代运算后，可以将新增的超参数组合和对应的性能指标{(x_t+1,y_t+1)}添加到第一参数集合中，得到更新后的第一参数集合E＝{(x₁,y₁),(x₂,y₂)…(x_m,y_m)}。

S208：基于更新后的预设概率模型，更新后验概率，以获取到更新后的多组超参数组合。

具体地，基于更新后的预设概率模型和更新后的第一参数集合，可以计算得到多组更新后的后验概率，进而可以推测模拟出对应的多组超参数组合。

S209：返回执行利用遗传算法，将多组所述超参数组合作为采集函数的初始种群，进行种群迭代优化，以得到满足预设优化条件的目标超参数组合。

这里，返回执行步骤S205，直至满足终止条件。

具体地，该终止条件可以自定义；比如，终止条件可以是：进行迭代运算的次数达到预设最大迭代次数，或者迭代运算时间达到预设时间阈值；或者，终止条件可以是：当前目标函数即性能指标函数值在第一参数集合中最大的取值不再增加。或者，终止条件可以是：性能指标满足预设寻优条件，执行步骤S210。

S210：当性能指标满足预设寻优条件时，将性能指标对应的目标超参数组合作为用户分类模型的超参数，以确定用户分类模型。

综上，在申请实施中的扩展实施的用户分类模型的确定方法，能够利用遗传算法作为采集函数，利用选取、交叉以及变异等遗传操作对多组超参数组合进行全面地搜索优化，可以更好找到全局最优解，得到最优的超参数组合，确定基于该最优的超参数组合的用户分类模型，由此，该用户分类模型可以具有更好的性能指标，提升了用户分类模型的分类预测结果的准确性。

在本申请一些实施例中，为了提升该用户分类模型的确定方法的资源利用率和算法运行的速度，该用户分类模型的确定方法可以通过分布式计算的方法实施，可以应用于分布式计算系统。

如图3所示，图3是本申请一些实施例提供的确定用户分类模型的分布式计算方法的流程示意图，该方法可以扩展具体实施为如下步骤：

S301：控制总线根据获取的业务数据，设置确定用户分类模型任务。

这里，业务数据可以包括多个用户行为数据和多组初始超参数组合。确定用户分类模型任务可以通过上述实施例中的方法建立的，并且确定用户分类模型任务可以包括多个子任务。每个子任务可以为根据不同的多组超参数组合，执行地确定用户分类模型任务。

S302：驱动控制器根据调度算法和多组子任务的任务量值，将接收的控制总线发送的多个子任务分发至各个计算节点。

这里，驱动控制器可以对每个任务随机设置运行状态，如0或1，0为不运行，1为运行，再计算所需要分配的资源大小，然后给每个任务根据运行状态和需求分配相应的资源大小。

具体地，驱动控制器根据调度算法，向控制总线调用确定用户分类模型任务，发送的多组所述子任务分发至各个计算节点。若运行状态为1，则根据任务大小分配资源空间，在运行状态的计算节点上执行该任务；若运行状态为0，则资源大小默认为0，留在以后某个时间段重新激活。驱动控制器根据上述标准为每个任务进行相应的分布，并协同各计算节点执行任务分布。

S303：各个计算节点执行计算对应的所述子任务，将得到计算结果返回值控制总线。

S304：控制总线将各个子任务的计算结果组合，形成目标超参数计算结果。

这里，控制总线根据形成的目标超参数计算结果，进行比对评估可以确定最优用户分类模型。

综上，一般利用贝叶斯优化实现的用户分类模型的超参数自动调优，通常需要大量的超参数组合代理模型，而且采用的遗传算法在搜索超参数的过程中需要遍历大量的超参数样本数据，如果采用单个模型串行计算方式评估超参数组合的优劣，将会影响探索超参数最佳组合的效率。通过本申请实施例中的确定用户分类模型的分布式计算方法，可以根据任务的大小和场景给任务动态分配资源，提升了贝叶斯优化探索超参数组合的效率。

为了可以更好的理解本申请的方法，现结合应用实例，详细说明该用户分类模型的确定方法以及确定用户分类模型的分布式计算方法。

可选地，在本申请的一些实施例中，在实际应用场景中，可以通过如下所示的方式，确定所需的用户分类模型，实现用户分类模型的性能指标的优化，提升用户分类模型的分类预测结果的准确性。并且可以通过分布式计算系统，对确定用户分类模型任务进行分布式计算，以处理该任务的提升资源利用率和运算效率。

在本申请一些实施例中，可以运营商的用户订购套餐行为为例，通过用户基本数据和订购行为数据，确定用户分类模型，该用户分类模型可以用于预测分析用户是否潜在的消费用户。

具体地，确定用户分类模型的方法，首先通过贝叶斯优化的方式确定用户分类模型的最优超参数。贝叶斯优化中的概率模型，可以选择使用传统的高斯过程代理、随机森林回归、Hyperopt等中的一种作为概率模型。利用遗传算法作为采集函数进行改进，具体地按照以下步骤迭代找到最佳超参数组合：

1、建立目标函数y＝Trans_Func(x₁,x₂…x_n)和随机初始化的超参数组合x值集合D＝{x₁,x₂,x₃...x_n}；

2、用目标函数的初始化值计算出第一参数集合E＝{(x₁,y₁),(x₂,y₂)…(x_n,y_n)}，将第一参数集合作用在概率模型上，进行计算，得出每个值在概率模型上的后验概率p(y|x)。模拟真正的业务模型，得到下一些可能取极值点，即超出参数组合。这里，设置遗传算法为采集函数，找出表现最佳的超参数组合X_EI值。

具体地，遗传算法的计算过程如下：

初始一次性生成多个点；

适应度。计算每个点对目标函数的适应度，如accuracy值的大小。适应度过低的点将被淘汰，此处可通过参数设定；

交叉继承。从总体中选择优异的成员，两两配对生成子代。表现越好的成员被选中的概率越高。子代中继承了父代的优良特性，但也有可能适应度降低；

变异。在生成子代时，除了继承父代的特性外，还有一定概率变异。变异即脱离父代的限制，数据产生随机跳跃；

淘汰。生成子代种群后，将重新测算每个个体的适应度，适应度较低者将被淘汰，例如，可以设定每一代仅保留适应度最高的100个个体；

多次迭代。重复以上优异个体配对交叉生成子代、继承变异、适应度计算、淘汰的过程，逐次迭代优化，直到最终收敛；

3、将找到的最佳超参数应用于真正的目标函数YEI＝Trans_Func(X_EI)；

4、更新包含新结果的代理模型Surrogate_Model(EI)；

5、将(X_EI,Y_EI)加入到集合E中，并且更新概率模型；

6、重复上述步骤2-5，直到算法运行达到最大迭代次数或时间。

上述具体过程的伪代码可以描述如下：

Input：D(随机初始化值集合),Trans_Func(D),MaxIter

Output：EI(最佳表现),Trans_Func(X_EI)

D←{x1,x2,x3...xn}；

Trans_Func(D)→{(x1,y1),(x2,y2)…(xn,yn)}

E←{(x1,y1),(x2,y2)…(xn,yn)}

Surrogate_Model←{Spearmint、SMAC、Hyperopt}；

For iter∈MaxIter:

temp←0

tempx←0

For model∈Surrogate_Model:

p(y|x,E)←FitModel(model,E)

XEI←argmax(x,y)∈EGA(x,p(y|x,E))

If temp<Trans_Func(X_EI):

temp←Trans_Func(X_EI)

tempx←X_EI

End For

XEI←tempx

Surrogate_Model(X_EI,Y_EI)

E←E(X_EI,Y_EI)

End For

EI←(X_EI,Y_EI)

Output:{EI,Trans_Func(X_EI,)}

然后，根据上述过程可以确定最优模型性能指标对应的优选超参数组合，可以将优选超参数组合作为用户分类模型的超参数，确定该用户分类模型。

可以理解的是，超参数自动调优算法可以形成关于超参数设置和模型性能指标之间关系的知识，在利用遗传算法探索最佳超参数的过程中，可以使用上一次训练得出最优解的超参数，或持续利用这些知识选择下一组超参数，以便在找到最佳超参数时尽量减少试验次数。

对比利用其它传统算法作为采集函数，本专利利用遗传算法作为采集函数可以很有效的避免局部最优而接近全局最优，为了验证本方法的良好性能，本申请利用移动业务历史用户订购数据为实验数据，以支持向量机为目标函数，即先验函数，分别以传统的改进可能性算法(Probability of improvement)，期望增量算法(Excepted improvement)和本申请的遗传算法为采集函数，进行超参数自动调优。针对不同规模的数据，计算算法的精确率(precision)和召回率(recall)，进行结果对比，结果如表1所示，表格中的数值上方为精确率，下方为召回率。

表1

由以上表1结果可以看出，通过与现通用采集函数方法的多组实验比较，排除数据规模和实验环境的影响，以遗传算法作为采集函数在数据精确率和召回率上的运行效果要明显好于传统的Probability of improvement和Excepted improvement。

综上，在本申请一些实施例中，该用户分类模型确定的方法，利用遗传算法作为采集函数，可以避免目标函数陷入局部最优，可以力求在每次任务执行时都能逼近全局最优，提高调整超参数的效率。此外，通过将调整超参数的成果沉淀在企业的人工智能中台或者相关业务的平台上，即使人工智能相关技术人员不在现场，也能够让一般使用人员不需要钻研相关人工智能领域的知识，就能进行自动化地、快速地进行模型的训练和验证，具有较高的易用性，大大降低了技术门槛，节省了人力成本。

在本申请一些实施例中，还提供了一种确定用户分类模型的分布式计算方法。该方法结合上述用户分类模型的确定方法，对确定用户分类模型任务进行资源分配，提升用户分类模型的确定方法中的超参数调优算法的资源利用率和算法运行的速度。

具体地，该确定用户分类模型的分布式计算方法，可以应用于分布式计算系统。该分布式计算系统可以包括控制总线，驱动控制器以及多组计算节点，如图4所示，图4为本申请一些实施例中的确定用户分类模型的分布式计算方法应用场景的示意图，该应用场景可以包括控制总线Master，驱动控制器Driver以及多个计算节点Calculator Node，其中多个计算节点可以用于执行用户分类模型任务。多个计算节点之间是可以相互独立的，可以不进行通信。

具体地，该确定用户分类模型的分布式计算方法，可以具体实施为如下过程：

1、确定用户分类模型任务在Master，如Web前端提交后，分布式计算系统会给该任务创建一个Driver服务和一个或多个Calculator Node服务。

2、Driver通过调度算法，先将每个任务放入Calculator Node服务上，随机设置每个任务的运行状态，如0或1，对每个贝叶斯优化调参的任务大小和运行状态计算要提供的资源和空间或是否提供资源和空间，若运行状态为0，则资源大小默认为0，留在以后某个时间段重新激活；若为1，则根据任务大小分配资源空间。根据这些标准为每个任务进行相应的分布，并协同各Calculator Node执行任务分布。

3、Calculator Node服务接收来自Driver分发的任务分布并执行，返回各分布任务结果模型，如果要激活运行状态为0的任务，则激活这些任务，先提交给Master已经运行好的结果模型，然后利用Driver释放分配的资源，根据激活的任务重新分配，重复2-3，否则，直接进入下一步4。

4、接收Calculator Node上传的任务分布计算结果模型，对结果进行比对评估并返回最优模型。

具体地，其中，Driver对任务进行分布操作的过程的伪代码如下：

为了验证基于贝叶斯调优的确定用户分类模型的分布式计算方法，本申请，利用移动业务历史用户订购数据进行用户分类识别，分别应用于分布式计算方法和传统的资源方法，得出的对比结果如表2所示：

数据大小	分布式计算	传统固定分片
			3MB	12min24s	15min32s
10MB	27min22s	31min02s
			20MB	41min12s	48min11s
50MB	1h11min3s	1h29min12s

表2

如上所示可以看出，超参数调优在分布式计算方法所消耗的时间明显少于传统固定分片的方法。本申请实施例中的方法，可以有效提升基于遗传算法对超参数进行贝叶斯调优的探索效率，分布式计算负责算法运行过程的资源分配，让业务人员在不清楚人工智能知识的情况下也能高效训练，使用业务模型，如用户分类模型，来选择最优超参数和评估真实的目标函数。进而基于用户分类模型，可以在完成更多的业务推理任务，使营销策略能够迅速推广到目标客户，加速数据挖掘应用的规模化推广，快速反馈和评估市场效果，争取市场营销的主导权。

基于上述实施例提供的用户分类模型的确定方法，相应地，本申请还提供了用户分类模型的确定装置的具体实现方式。请参见以下实施例。

在本申请一实施例中，如图5所示，图5是本申请另一些实施例提供的用户分类模型的确定装置的结构示意图，该用户分类模型的确定装置，具体包括：

获取模块501，用于获取多组超参数组合和用户行为数据训练样本；

优化模块502，用于利用遗传算法，将多组所述超参数组合作为采集函数的初始种群，进行种群迭代优化，以得到满足预设优化条件的目标超参数组合；

训练模块503，用于根据所述目标超参数组合和用户行为数据训练样本，对所述用户分类模型进行迭代训练，以得到所述用户分类模型的性能指标；

确定模块504，用于当所述性能指标满足预设寻优条件时，将所述性能指标对应的目标超参数组合作为所述用户分类模型的超参数，以确定所述用户分类模型。

在本申请一些实施例中，可选地，该优化模块502，还包括：

生产单元，用于根据多组所述超参数组合，随机生成初始种群；

计算单元，用于分别计算所述初始种群的每个所述超参数组合对应的适应度；

第一确定单元，用于根据每个所述适应度，对种群中的超参数组合进行遗传操作，确定下一代种群；

优化单元，用于迭代优化种群直至满足遗传算法的终止条件，得到最优种群；

第二确定单元，用于将所述最优种群对应的超参数组合作为所述目标超参数组合。

在本申请一些实施例中，可选地，所述遗传操作包括选取操作、交叉操作以及变异操作中的一种或多种。

在本申请一些实施例中，可选地，该获取模块501还用于获取多组初始超参数组合；根据所述用户分类模型的目标函数，分别计算得到每个所述初始超参数组合对应的所述用户分类模型的性能指标，以生成第一参数集合；根据所述预设概率模型和所述第一参数集合，计算得到多组后验概率；根据多组所述后验概率和所述预设概率模型，确定所述多组超参数组合。

在本申请一些实施例中，可选地，该装置还包括：

第一更新模块，用于当所述性能指标不满足预设寻优条件时，根据所述性能指标和所述性能指标对应的目标超参数组合，更新所述预设概率模型；

第二更新模块，用于基于更新后的预设概率模型，更新后验概率，以获取到更新后的多组超参数组合；

返回模块，用于返回执行利用遗传算法，将多组所述超参数组合作为采集函数的初始种群，进行种群迭代优化，以得到满足预设优化条件的目标超参数组合。

在本申请一些实施例中，可选地，该第一更新模块，还用于根据所述性能指标和所述性能指标对应的目标超参数组合，更新所述第一参数集合；根据更新后的第一参数集合，更新所述预设概率模型。

本申请实施例的用户分类模型的确定装置可以用于执行用户分类模型的确定方法，该方法能够利用遗传算法作为采集函数，对多组超参数组合进行全面地搜索优化，降低了陷入局部最优解风险，可以更好找到全局最优解，得到最优的超参数组合，确定基于该最优的超参数组合的用户分类模型，由此，该用户分类模型可以具有更好的性能指标，提升了用户分类模型的分类预测结果的准确性。

基于上述实施例提供的用户分类模型的确定方法，相应地，本申请还提供了用户分类模型的确定设备的具体硬件结构说明。请参见以下实施例。

图6示出了本申请实施例提供的用户分类模型的确定设备的硬件结构示意图。

用户分类模型的确定设备可以包括处理器601以及存储有计算机程序指令的存储器602。

具体地，上述处理器601可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多组集成电路。

存储器602可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器602可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多组以上这些的组合。在合适的情况下，存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器602可在综合网关容灾设备的内部或外部。在特定实施例中，存储器602是非易失性固态存储器。在特定实施例中，存储器602包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多组以上这些的组合。

处理器601通过读取并执行存储器602中存储的计算机程序指令，以实现上述实施例中的任意一种用户分类模型的确定方法。

在一个示例中，用户分类模型的确定设备还可包括通信接口603和总线610。其中，如图6所示，处理器601、存储器602、通信接口603通过总线610连接并完成相互间的通信。

通信接口603，主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。

总线610包括硬件、软件或两者，将用户分类模型的确定设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多组以上这些的组合。在合适的情况下，总线610可包括一个或多组总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该用户分类模型的确定设备可以执行本申请实施例中的用户分类模型的确定方法，从而实现结合图1和图2描述的用户分类模型的确定方法。

另外，结合上述实施例中的用户分类模型的确定方法，本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种用户分类模型的确定方法。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本申请中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本申请不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本申请的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

Claims

1.一种用户分类模型的确定方法，其特征在于，包括：

获取多组超参数组合和用户行为数据训练样本；

2.根据权利要求1所述的方法，其特征在于，所述利用遗传算法，将多组所述超参数组合作为采集函数的初始种群，进行种群迭代优化，以得到满足预设优化条件的目标超参数组合，包括：

根据多组所述超参数组合，随机生成初始种群；

3.根据权利要求2所述的方法，其特征在于，所述遗传操作包括选取操作、交叉操作以及变异操作中的一种或多种。

4.根据权利要求1所述的方法，其特征在于，所述获取多组超参数组合，包括：

获取多组初始超参数组合；

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述性能指标和所述性能指标对应的目标超参数组合，更新所述预设概率模型，包括：

根据更新后的第一参数集合，更新所述预设概率模型。

7.根据权利要求4所述的方法，其特征在于，所述预设概率模型包括：高斯过程模型、随机森林回归模型、响应面算法Hyperopt模型中的任意一种。

8.根据权利要求1所述的方法，其特征在于，所述用户分类模型的性能指标包括：精准率、召回率、F1分数中的一种或多种。

9.一种确定用户分类模型的分布式计算方法，应用于分布式计算系统，其特征在于，所述分布式计算系统包括控制总线，驱动控制器以及多个计算节点；

所述控制总线根据获取的业务数据，设置如权利要求1至8任一项所述的方法建立的确定用户分类模型任务，所述确定用户分类模型任务包括多个子任务；

10.一种用户分类模型的确定装置，其特征在于，所述装置包括：

11.一种用户分类模型的确定设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1至8任意一项所述的用户分类模型的确定方法。

12.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1至8任意一项所述的用户分类模型的确定方法。