CN113139624A

CN113139624A - 基于机器学习的网络用户分类方法

Info

Publication number: CN113139624A
Application number: CN202110537802.6A
Authority: CN
Inventors: 俞扬; 詹德川; 周志华; 吴悦悦
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2021-07-20

Abstract

本申请提供了一种基于机器学习的网络用户分类方法，包括如下步骤：将网络用户特征数据构成若干个源网络用户特征数据；保存源网络用户分类任务的优化经验；将优化经验训练成方向模型；使用贝叶斯优化方法连续采样多个超参数组并保存所采样的多个超参数组；利用方向模型在保存的多个所述超参数组中选择最优的所述超参数组；对所选择的所述超参数组进行采样评估，计算真实的评估结果与方向模型对所述超参数组的评估结果的误差；根据所述真实的评估结果与方向模型对所述超参数组的评估结果的误差对所述方向模型进行调整。本申请的有益之处在于为网络用户分类问题提供了一种在机器学习的超参数优化过程中摆脱对大量采样的依赖从而提升超参数优化效率的基于贝叶斯优化的机器学习超参数处理方法。

Description

基于机器学习的网络用户分类方法

技术领域

本申请涉及机器学习技术领域，具体而言，涉及一种基于机器学习的网络用户分类方法。

背景技术

前机器学习技术已经被广泛应用于各个领域中，如计算机视觉、自然语言处理、推荐系统等，每一个成功的应用背后都少不了一个精确的机器学习模型。网络用户分类是机器学习的一个应用，它可以用于在众多用户中，寻找最关键的核心用户、精细化运营、个性化推荐等方面。用户分类的角度有很多，包括根据年龄、性别、职业、所在地、消费水平、不同角色分类(如个人用户和企业用户)、所在领域的熟悉程度分类(如新用户和老用户)等。每一个不同的分类角度都构成一个机器学习模型。为了使每一个机器学习模型都表现优异，需要为每一个模型分别配置超参数。这极度依赖于研究人员的人力和经验。

显然人工机器学习超参数配置不能满足日益增长的网络用户分类任务的需求。对此，自动超参数优化被提出，旨在没有人工参与下对机器学习中的各个超参数进行配置，获得性能优异的机器学习模型。现在尚没有一种效果较优的用于多个分类角度的网络用户分类模型的超参数处理方法。

发明内容

为了解决现有技术的不足之处，本申请提供了一种基于机器学习的网络用户分类方法，包括如下步骤：将网络用户特征数据构成若干个源网络用户特征数据集；保存源网络用户分类任务的优化经验；将优化经验训练成方向模型；使用贝叶斯优化方法连续采样多个超参数组并保存所采样的多个超参数组；利用历史网络用户分类模型的网络用户分类模型的优化数据在保存的多个所述超参数组中选择最优的所述超参数组；对所选择的所述超参数组进行采样评估，计算真实的评估结果与方向模型对所述超参数组的评估结果的误差；根据所述真实的评估结果与方向模型对所述超参数组的评估结果的误差对所述方向模型进行调整。

将源网络用户特征数据集训练用户分类模型及优化模型超参数的任务称为源网络用户分类任务，在源网络用户分类任务的超参数优化过程中记录优化数据，学习超参优化的经验，将新的网络用户分类角度的任务称为目标网络用户分类任务，利用从源任网络用户分类务中学习的优化经验来提高目标网络用户分类任务的超参调优速度。

进一步地，所述源网络用户分类任务是用户特征数据集构成的源网络用户分类任务数据集的机器学习超参数优化任务。

进一步地，所述网络用户分类的机器学习超参数处理方法包括如下步骤：构建经验数据集。

进一步地，所述构建经验数据集包括：

使用贝叶斯优化在源网络用户分类任务模型上采样评估k+1次，并记录采样和评估的数据；

将采样根据评估值由大到小排序，将评估值最大的采样称为当前最佳采样

剩余采样以y为中心中心化，即

定义为κ；

使用贝叶斯优化在源网络用户分类任务模型上生成新的采样x’，并评估；

如果f(x’)大于目前最佳评估值，则生成一条数据([κ；x′]，l)，否则，生成一条数据([κ；x′]，-1)；

将κ中k个采样和本轮采样x’根据评估值由大到小排序，删除评估值最小的采样，更新κ。

进一步地，所述网络用户分类的机器学习超参数处理方法包括如下步骤：训练方向模型。

进一步地，所述训练方向模型具体包括如下步骤：

确定机器学习模型中需要优化的超参数，并设置超参数的范围；

在设定范围内随机初始化超参数，s初始为1；

用贝叶斯优化对第s个源网络用户分类任务的机器学习模型的超参数调优，将优化过程记录下来构建成经验数据集；

将经验数据集划分为训练数据集和测试数据集两个部分；

用训练数据集训练方向模型，常用的分类模型均可以用于训练方向模型；本方法用卷积神经网络来训练；

用测试数据集测试训练好的模型，如果测试准确率低则将该模型淘汰，否则加入方向模型集合Φ。

进一步地，所述训练方向模型具体还包括如下步骤：

判断源网络用户分类任务集合中的任务是否均已经被优化过，如果是则输出方向模型集合Φ；如果否则转回至所述用贝叶斯优化对第s个源网络用户分类任务的机器学习模型的超参数调优，将优化过程记录下来构建成经验数据集的步骤。

进一步地，所述网络用户分类的机器学习超参数处理方法还包括如下步骤：

将测试准确率高的方向模型保留下来用于下一步优化中，而将测试准确率低的方向模型则被淘汰。

进一步地，所述将测试准确率高的方向模型保留下来用于下一步优化中，而将测试准确率低的方向模型则被淘汰的步骤具体包括如下步骤：

在设定范围内随机初始化超参数，初始化方向模型的权重值为同一值；

使用贝叶斯优化在目标网络用户分类任务的机器学习模型上采样评估k+1次，并记录采样和评估的数据；数值k为方向模型输入数据的行数；

将上一步记录的采样根据评估值排序，构成当前采样环境数据

使用贝叶斯优化连续采样p次，将采样数据保存起来，定义为预采样；

利用方向模型对预采样进行评估，所有方向模型的评估值加权求和为一个预采样的评估结果；记录每一个预采样的评估结果；

选取评估结果最佳的预采样作为本轮采样值，并评估此采样值；

根据上一步的评估结果更新方向模型的权重，将本轮采样、当前最佳采样，采样环境按评估值排序，记录最佳评估及最佳采样，删除最差采样，将排名第2～k+1的采样构成当前采样环境数据。

进一步地，所述将测试准确率高的方向模型保留下来用于下一步优化中，而将测试准确率低的方向模型则被淘汰的步骤具体还包括如下步骤：

判断是否达到预设采样轮数，如果是则输出最佳的目标网络用户分类模型的超参数组。

进一步地，更新方向模型权重包括计算真实的评估结果与方向模型对该采样的评估结果的平方差，计算公式为：(Φ_i([κ；x′])-l)²，其中Φ_i为第i个方向模型，Φ_i([κ；x′])为第i个方向模型对本轮采样x’的评估值。1为真实评估结果，当

时，1为+1，反之，当

时，1为-1；更新方向模型权重的公式为w_i＝exp(-α(Φ_i([κ；x′])-l)²)w_i，其中w_i为第i个方向模型的权重，α为学习率。

本申请的有益之处在于：提供了一种在网络用户分类问题中，机器学习超参数优化过程中摆脱对大量采样的依赖从而提升超参数优化效率的网络用户分类的机器学习超参数处理方法。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明的整体流程示意图。

图2为本发明的一个实施例的网络用户特征数据集和其构成的源网络用户分类任务数据集的结构示意图。

图3为本发明的一个实施例的用于方向模型训练和测试的数据结构示意图。

图4为本发明的一个实施例的方向模型所使用的卷积神经网络结构示意图。

图5为本发明的一个实施例的方向模型学习流程示意框图。

图6为本发明的一个实施例的方向模型的权重学习流程示意框图。

图7为本发明的一个实施例的加速流程示意框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本申请的方法主要包括：源网络用户特征数据集构成、经验数据集构成、方向模型训练和贝叶斯优化加速四个过程。

图1所示的是本发明的整体流程。具体如下：

步骤101，输入网络用户特征数据集和配置文件，其中网络用户特征数据集的前n个特征为其他用户特征，第n+1到n+s个特征为用户类别特征，如用户的年龄段，用户性别，新老用户等。配置文件包括机器学习模型的类型，需要调优的参数及每个参数的取值范围。

步骤102，源网络用户分类任务数据集构成模块，将网络用户特征数据集构成为s个源网络用户分类任务数据集。

步骤103，贝叶斯超参数优化模块和优化数据保存模块。用贝叶斯优化方法优化源网络用户分类模型的超参数，并保存优化过程中的数据。

步骤104，经验数据集构成模块。将步骤103中保存的源网络用户分类任务的优化过程数据构成经验数据集。

步骤105，方向模型训练模块。利用步骤104中构成的经验数据集训练方向模型。

步骤106，输出方向模型集合。作为贝叶斯超参数优化加速模块的输入。

步骤107，输入用户特征数据集和分类标签，即用于训练目标网络用户分类任务机器模型的数据集。

步骤108，贝叶斯超参数优化加速模块，利用方向模型集合对贝叶斯超参数优化进行加速，提高目标网络用户分类模型的超参优化的效率。

步骤109，输出目标网络用户分类模型的超参数配置。

图2所示的是网络用户特征数据集和其构成的源网络用户分类任务数据集。网络用户特征数据集的前n个特征为其他特征，即不能对网络用户进行分类的特征，第n+1到n+s为s个分类特征，每一个特征都是一种对网络用户分类的角度。依次将网络用户特征数据集中每一个分类特征作为标签值，其余特征作为特征值，构成为s个源网络用户分类任务数据集。

贝叶斯超参数优化加速包括预采样、选择采样和采样评估三个过程。

其中，预采样为使用贝叶斯优化方法连续采样多个超参数组和存储连续采样的多个超参数组。

选择采样为利用历史优化数据在存储的多个超参数组中选择最优的目标网络用户分类模型的超参数组。

采样评估包括评估所选择的最优采样并度量真实的评估结果与方向模型对该采样的评估结果的误差，然后再根据误差对方向模型的进行调整。

本申请主要从两个方面改善网络用户分类模型超参数优化的效率。第一部分是利用历史优化经验数据训练方向模型来帮助提升每一次网络用户分类模型优化的效果。第二部分是在目标网络用户分类任务上对历史网络用户分类模型优化经验数据有选择性的利用，提升利用效率。

具体而言，利用历史网络用户分类模型优化经验数据训练方向模型包括：构建经验数据集和训练方向模型集合Φ。

经验数据集的每一条数据输入为一个如图1所示的(k+1)×d的二维向量。其中，x＝[x₁，x₂，...，x_d]表示一个在d维搜索空间上的采样，f(x)表示其评估结果。

{x₁，x₂，...，x_k}表示一个包含k个先前采样的集合，在此集合基础上算法能够生成新的采样x’，

表示当前最优的采样。

通过如下方式构建一条经验数据([κ；x′]，l)。

其中，前k行κ为

由评估结果排序的第2到k+1的先前采样经过y中心化过构成，表示产生新采样的环境。1为标签值，当

时，1为+1，反之，当

时，1为-1。

将源网络用户分类任务用于学习超参数优化的经验，对于每一个源网络用户分类任务，经验数据集构建方法如下：

步骤301：使用贝叶斯优化在源网络用户分类任务模型上采样评估k+1次，并记录采样和评估的数据。

步骤302：将采样根据评估值由大到小排序，将评估值最大的采样定义为当前最佳采样

剩余采样以y为中心中心化，即

定义为κ。

步骤303：使用贝叶斯优化在源网络用户分类任务模型上生成新的采样x’，并评估。

步骤304：如果f(x’)大于目前最佳评估值，则生成一条数据([κ；x′]，l)，否则，生成一条数据([κ；x′]，-1)。

步骤305：将κ中k个采样和本轮采样x’根据评估值由大到小排序，删除评估值最小的采样，更新κ。

步骤306：重复步骤303至305，直到达到预设的优化轮数。

如图5所示，训练方向模型具体包括以下几个步骤：

步骤501：确定网络用户分类模型中需要优化的超参数，并设置超参数的范围。

步骤502：在设定范围内随机初始化超参数，s初始为1。

步骤503：用贝叶斯优化对第s个源网络用户分类任务的机器学习模型的超参数调优，将优化过程记录下来构建成经验数据集。构建方法为上述步骤101至106。

步骤504：将经验数据集划分为训练数据集和测试数据集两个部分。

步骤505：用训练数据集训练方向模型，常用的分类模型均可以用于训练方向模型。本方法用卷积神经网络来训练。

步骤506至508：用测试数据集测试训练好的模型，如果测试准确率低则将该模型淘汰，否则加入方向模型集合Φ。

具体而言，步骤506至508步骤分别为：

步骤506：用测试数据集测试训练好的模型，判断准确率是否达到预设值，如果是，则转至步骤508，如果否，则转至步骤507；

步骤507：淘汰该模型；

步骤508：令s＝s+1，令该模型加入方向模型集合Φ。

步骤509：判断源网络用户分类任务集合中的任务是否均已经被优化过，如果是，转至步骤510，如果否，转至步骤503。

步骤510：输出方向模型集合Φ。

第二部分是经验选择。一个方向模型可以看作从一个网络用户特征数据集中学习的优化经验，这一部分是利用从以往的优化经验中学习得到方向模型来加速新网络用户分类任务上的优化。因为，并非所有优化经验都可以给现有用户分类任务任务做出正确的指导，并且很难直接度量任务之间的关联度。所以，本方法在利用方向模型对预采样进行预测时对每个方向模型结果加权求和得到最终的预测值，所有方向模型拥有同一初始权重，在优化过程中,逐步将多个方向模型在目标问题上进行测试，不断地调整各个方向模型的权重。

作为优选方案，测试准确率高的方向模型保留下来用于下一步优化中,测试准确率低的方向模型则被淘汰。具体步骤如下：

步骤601：在设定范围内随机初始化超参数，初始化方向模型的权重值为同一值。

步骤602：使用贝叶斯优化在目标任务的机器学习模型上采样评估k+1次，并记录采样和评估的数据。数值k为方向模型输入数据的行数。

步骤603：将上一步记录的采样根据评估值排序，构成当前采样环境数据

步骤604：使用贝叶斯优化连续采样p次，将采样数据保存起来，定义为预采样。

步骤605：利用方向模型对预采样进行评估，所有方向模型的评估值加权求和为一个预采样的评估结果。记录每一个预采样的评估结果。

步骤606：选取评估结果最佳的预采样作为本轮采样值，并评估此采样值。

步骤607：根据上一步的评估结果更新方向模型的权重，将本轮采样、当前最佳采样，采样环境按评估值排序，记录最佳评估及最佳采样，删除最差采样，将排名第2～k+1的采样构成当前采样环境数据。

步骤608：判断是否达到预设采样轮数，如果是转至步骤609，如果否转至步骤604。

步骤609：输出最佳采样，即最佳的目标网络用户分类模型的超参数组。

其中，更新方向模型权重包括计算真实的评估结果与方向模型对该采样的评估结果的平方差，计算公式为：(Φ_i([κ；x′])-1)²，其中Φ_i为第i个方向模型，Φ_i([κ；x′])为第i个方向模型对本轮采样x’的评估值。1为真实评估结果，当

时，1为+1，反之，当

图7所示的是本发明加速框架的流程示意图。本框架可概括为五步：初始化、预采样、采样、评估和更新。初始化是目标网络用户分类模型的超参数优化算法在搜索空间中的初步探索，得到用于新一轮采样的目标网络用户分类模型和当前最优采样。采样是利用方向模型在预采样中选择采样，同时返回产生新采样的环境κ。评估包括对新采样的真实评估和对方向模型的该任务相关性的评估。更新包括根据评估结果对方向模型权重的更新和采样环境的更新。在算法输入中需要有M个已经训练好的方向模型。具体说明如下：

步骤701：贝叶斯优化算法初始化及算法中各类参数的初始化。使用贝叶斯优化在源网络用户分类任务模型上采样评估k+1次，并将采样根据评估值由大到小排序，将评估值最佳的采样定义为初始最佳采样

剩余采样以

为中心中心化，即

构成初始采样环境，定义为κ。

参数的初始化包括方向模型权重参数w的初始化和召回率计数参数C和CR的初始化，C是一个数组，对应记录了每个方向模型在标记为正的样本上预测正确的样本数量，CR记录优化过程中得到的标记为正的样本总数。各参数初始化值如下：

步骤702至704，预采样过程。用贝叶斯优化方法连续采样p次，将得到的采样x′_p，采样环境在一次预采样的过程中为相同的κ，每次采样得到的数据为记作[κ_p；x_p′]，暂存在集合ρ中。

具体而言，步骤702至704步骤分别为：

步骤702：设置预采样集合

采样计数p＝1。

步骤703：用贝叶斯优化方法得到的采样x′_p，ρ＝ρ∪[κ_p；x_p′]。

步骤704：判断p是否小于ρ，如果是则转至步骤703；如果否转至步骤705；

步骤705，如果为空算法则退化为一般的贝叶斯优化算法，执行步骤716。

步骤706，采样和评估过程,选取方向模型评估值最高的采样进行真实评估,并利用评估结果得到样本标记。

步骤707至714，更新方向模型权重和召回率计数参数C和C_R，根据召回率筛选方向模型。

具体而言，步骤707至714步骤分别为：

步骤707，判断样本标记l是否为1，如果是转至步骤708，如果否转至步骤709。

步骤708，C_R加1，C_R记录评估值提高的次数。

步骤709，令i＝1。

步骤710，根据每个方向模型的输出和正确标记,对方向模型的权重和召回计数进行更新。

步骤711，如果C_R大于预设阈值R并且召回率小于阈值r，转至步骤712，否则转至步骤713。

步骤713，删除方向模型Φ_i，及其对应的权重w_i和召回计数C_i。

至714，令i＝i+1。

步骤715，对权重进行归一化。更新采样环境κ，并用预评估得到的采样及其评估结果更新采样模型。

步骤717，更新当前最优采样。

步骤718，如果达到预设的最大迭代次数，则执行步骤719。否则重复步骤702至707。

步骤719，输出当前最优采样，即最佳的目标网络用户分类模型的超参数组。

综上所述，本发明提供了在多角度用户分类问题中的基于贝叶斯优化的机器学习超参数调优加速的实现方法，此项技术可以应用于数据挖掘、人工智能等诸多领域，例如，在人工智能领域，可将网络用户分类问题的机器学习超参数调优加速技术应用于推荐算法，提高用户分类模型的精度和超参数优化速度。由于推荐算法实时产生大量数据，对模型的时效性有较高要求，应用本技术可以学习历史模型的优化经验，节约更新模型的时间。因此，本技术具有很高的推广价值。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于机器学习的网络用户分类方法，其特征在于：

所述基于机器学习的网络用户分类方法包括如下步骤：

将网络用户特征数据构成若干个源网络用户特征数据；

使用贝叶斯优化方法连续采样多个超参数组并保存所采样的多个超参数组；

利用源网络用户分类任务的超参数优化数据在保存的多个所述超参数组中选择最优的所述超参数组；

对所选择的所述超参数组进行采样评估，计算真实的评估结果与方向模型对所述超参数组的评估结果的误差；

根据所述真实的评估结果与方向模型对所述超参数组的评估结果的误差对所述方向模型进行调整。

2.根据权利要求1所述的基于机器学习的网络用户分类方法，其特征在于：

所述基于机器学习的网络用户分类方法包括如下步骤：

构建经验数据集。

3.根据权利要求2所述的基于机器学习的网络用户分类方法，其特征在于：

所述构建经验数据集包括：

剩余采样以y为中心中心化，即

定义为κ；

如果f(x’)大于目前最佳评估值，则生成一条数据([κ；x′],l)，否则，生成一条数据([κ；x′],-1)；

4.根据权利要求3所述的基于机器学习的网络用户分类方法，其特征在于：

所述基于机器学习的网络用户分类方法包括如下步骤：

训练方向模型。

5.根据权利要求4所述的基于机器学习的网络用户分类方法，其特征在于：

所述训练方向模型具体包括如下步骤：

在设定范围内随机初始化超参数，s初始为1；

将经验数据集划分为训练数据集和测试数据集两个部分；

6.根据权利要求5所述的基于机器学习的网络用户分类方法，其特征在于：

所述训练方向模型具体还包括如下步骤：

7.根据权利要求6所述的基于机器学习的网络用户分类方法，其特征在于：

所述基于机器学习的网络用户分类方法还包括如下步骤：

将测试准确率高的方向模型保留下来用于下一步优化中,而将测试准确率低的方向模型则被淘汰。

8.根据权利要求7所述的基于机器学习的网络用户分类方法，其特征在于：

所述将测试准确率高的方向模型保留下来用于下一步优化中,而将测试准确率低的方向模型则被淘汰的步骤具体包括如下步骤：

9.根据权利要求8所述的基于机器学习的网络用户分类方法，其特征在于：

所述将测试准确率高的方向模型保留下来用于下一步优化中,而将测试准确率低的方向模型则被淘汰的步骤具体还包括如下步骤：

判断是否达到预设采样轮数，如果是则输出最佳采样。

10.根据权利要求9所述的基于机器学习的网络用户分类方法，其特征在于：

更新方向模型权重包括计算真实的评估结果与方向模型对该采样的评估结果的平方差，计算公式为：(Φ_i([κ；x′])–l)²，其中Φ_i为第i个方向模型，Φ_i([κ；x′])为第i个方向模型对本轮采样x’的评估值。l为真实评估结果，当

时，l为+1，反之，当

时，l为-1；更新方向模型权重的公式为w_i＝exp(-α(Φ_i([κ；x′])-l)²)w_i，其中w_i为第i个方向模型的权重，α为学习率。