CN113139624A - 基于机器学习的网络用户分类方法 - Google Patents

基于机器学习的网络用户分类方法 Download PDF

Info

Publication number
CN113139624A
CN113139624A CN202110537802.6A CN202110537802A CN113139624A CN 113139624 A CN113139624 A CN 113139624A CN 202110537802 A CN202110537802 A CN 202110537802A CN 113139624 A CN113139624 A CN 113139624A
Authority
CN
China
Prior art keywords
network user
model
sampling
hyper
user classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110537802.6A
Other languages
English (en)
Inventor
俞扬
詹德川
周志华
吴悦悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202110537802.6A priority Critical patent/CN113139624A/zh
Publication of CN113139624A publication Critical patent/CN113139624A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种基于机器学习的网络用户分类方法,包括如下步骤:将网络用户特征数据构成若干个源网络用户特征数据;保存源网络用户分类任务的优化经验;将优化经验训练成方向模型;使用贝叶斯优化方法连续采样多个超参数组并保存所采样的多个超参数组;利用方向模型在保存的多个所述超参数组中选择最优的所述超参数组;对所选择的所述超参数组进行采样评估,计算真实的评估结果与方向模型对所述超参数组的评估结果的误差;根据所述真实的评估结果与方向模型对所述超参数组的评估结果的误差对所述方向模型进行调整。本申请的有益之处在于为网络用户分类问题提供了一种在机器学习的超参数优化过程中摆脱对大量采样的依赖从而提升超参数优化效率的基于贝叶斯优化的机器学习超参数处理方法。

Description

基于机器学习的网络用户分类方法
技术领域
本申请涉及机器学习技术领域,具体而言,涉及一种基于机器学习的网络用户分类方法。
背景技术
前机器学习技术已经被广泛应用于各个领域中,如计算机视觉、自然语言处理、推荐系统等,每一个成功的应用背后都少不了一个精确的机器学习模型。网络用户分类是机器学习的一个应用,它可以用于在众多用户中,寻找最关键的核心用户、精细化运营、个性化推荐等方面。用户分类的角度有很多,包括根据年龄、性别、职业、所在地、消费水平、不同角色分类(如个人用户和企业用户)、所在领域的熟悉程度分类(如新用户和老用户)等。每一个不同的分类角度都构成一个机器学习模型。为了使每一个机器学习模型都表现优异,需要为每一个模型分别配置超参数。这极度依赖于研究人员的人力和经验。
显然人工机器学习超参数配置不能满足日益增长的网络用户分类任务的需求。对此,自动超参数优化被提出,旨在没有人工参与下对机器学习中的各个超参数进行配置,获得性能优异的机器学习模型。现在尚没有一种效果较优的用于多个分类角度的网络用户分类模型的超参数处理方法。
发明内容
为了解决现有技术的不足之处,本申请提供了一种基于机器学习的网络用户分类方法,包括如下步骤:将网络用户特征数据构成若干个源网络用户特征数据集;保存源网络用户分类任务的优化经验;将优化经验训练成方向模型;使用贝叶斯优化方法连续采样多个超参数组并保存所采样的多个超参数组;利用历史网络用户分类模型的网络用户分类模型的优化数据在保存的多个所述超参数组中选择最优的所述超参数组;对所选择的所述超参数组进行采样评估,计算真实的评估结果与方向模型对所述超参数组的评估结果的误差;根据所述真实的评估结果与方向模型对所述超参数组的评估结果的误差对所述方向模型进行调整。
将源网络用户特征数据集训练用户分类模型及优化模型超参数的任务称为源网络用户分类任务,在源网络用户分类任务的超参数优化过程中记录优化数据,学习超参优化的经验,将新的网络用户分类角度的任务称为目标网络用户分类任务,利用从源任网络用户分类务中学习的优化经验来提高目标网络用户分类任务的超参调优速度。
进一步地,所述源网络用户分类任务是用户特征数据集构成的源网络用户分类任务数据集的机器学习超参数优化任务。
进一步地,所述网络用户分类的机器学习超参数处理方法包括如下步骤:构建经验数据集。
进一步地,所述构建经验数据集包括:
使用贝叶斯优化在源网络用户分类任务模型上采样评估k+1次,并记录采样和评估的数据;
将采样根据评估值由大到小排序,将评估值最大的采样称为当前最佳采样
Figure BDA0003070489110000021
剩余采样以y为中心中心化,即
Figure BDA0003070489110000022
定义为κ;
使用贝叶斯优化在源网络用户分类任务模型上生成新的采样x’,并评估;
如果f(x’)大于目前最佳评估值,则生成一条数据([κ;x′],l),否则,生成一条数据([κ;x′],-1);
将κ中k个采样和本轮采样x’根据评估值由大到小排序,删除评估值最小的采样,更新κ。
进一步地,所述网络用户分类的机器学习超参数处理方法包括如下步骤:训练方向模型。
进一步地,所述训练方向模型具体包括如下步骤:
确定机器学习模型中需要优化的超参数,并设置超参数的范围;
在设定范围内随机初始化超参数,s初始为1;
用贝叶斯优化对第s个源网络用户分类任务的机器学习模型的超参数调优,将优化过程记录下来构建成经验数据集;
将经验数据集划分为训练数据集和测试数据集两个部分;
用训练数据集训练方向模型,常用的分类模型均可以用于训练方向模型;本方法用卷积神经网络来训练;
用测试数据集测试训练好的模型,如果测试准确率低则将该模型淘汰,否则加入方向模型集合Φ。
进一步地,所述训练方向模型具体还包括如下步骤:
判断源网络用户分类任务集合中的任务是否均已经被优化过,如果是则输出方向模型集合Φ;如果否则转回至所述用贝叶斯优化对第s个源网络用户分类任务的机器学习模型的超参数调优,将优化过程记录下来构建成经验数据集的步骤。
进一步地,所述网络用户分类的机器学习超参数处理方法还包括如下步骤:
将测试准确率高的方向模型保留下来用于下一步优化中,而将测试准确率低的方向模型则被淘汰。
进一步地,所述将测试准确率高的方向模型保留下来用于下一步优化中,而将测试准确率低的方向模型则被淘汰的步骤具体包括如下步骤:
在设定范围内随机初始化超参数,初始化方向模型的权重值为同一值;
使用贝叶斯优化在目标网络用户分类任务的机器学习模型上采样评估k+1次,并记录采样和评估的数据;数值k为方向模型输入数据的行数;
将上一步记录的采样根据评估值排序,构成当前采样环境数据
使用贝叶斯优化连续采样p次,将采样数据保存起来,定义为预采样;
利用方向模型对预采样进行评估,所有方向模型的评估值加权求和为一个预采样的评估结果;记录每一个预采样的评估结果;
选取评估结果最佳的预采样作为本轮采样值,并评估此采样值;
根据上一步的评估结果更新方向模型的权重,将本轮采样、当前最佳采样,采样环境按评估值排序,记录最佳评估及最佳采样,删除最差采样,将排名第2~k+1的采样构成当前采样环境数据。
进一步地,所述将测试准确率高的方向模型保留下来用于下一步优化中,而将测试准确率低的方向模型则被淘汰的步骤具体还包括如下步骤:
判断是否达到预设采样轮数,如果是则输出最佳的目标网络用户分类模型的超参数组。
进一步地,更新方向模型权重包括计算真实的评估结果与方向模型对该采样的评估结果的平方差,计算公式为:(Φi([κ;x′])-l)2,其中Φi为第i个方向模型,Φi([κ;x′])为第i个方向模型对本轮采样x’的评估值。1为真实评估结果,当
Figure BDA0003070489110000031
时,1为+1,反之,当
Figure BDA0003070489110000032
时,1为-1;更新方向模型权重的公式为wi=exp(-α(Φi([κ;x′])-l)2)wi,其中wi为第i个方向模型的权重,α为学习率。
本申请的有益之处在于:提供了一种在网络用户分类问题中,机器学习超参数优化过程中摆脱对大量采样的依赖从而提升超参数优化效率的网络用户分类的机器学习超参数处理方法。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明的整体流程示意图。
图2为本发明的一个实施例的网络用户特征数据集和其构成的源网络用户分类任务数据集的结构示意图。
图3为本发明的一个实施例的用于方向模型训练和测试的数据结构示意图。
图4为本发明的一个实施例的方向模型所使用的卷积神经网络结构示意图。
图5为本发明的一个实施例的方向模型学习流程示意框图。
图6为本发明的一个实施例的方向模型的权重学习流程示意框图。
图7为本发明的一个实施例的加速流程示意框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本申请的方法主要包括:源网络用户特征数据集构成、经验数据集构成、方向模型训练和贝叶斯优化加速四个过程。
图1所示的是本发明的整体流程。具体如下:
步骤101,输入网络用户特征数据集和配置文件,其中网络用户特征数据集的前n个特征为其他用户特征,第n+1到n+s个特征为用户类别特征,如用户的年龄段,用户性别,新老用户等。配置文件包括机器学习模型的类型,需要调优的参数及每个参数的取值范围。
步骤102,源网络用户分类任务数据集构成模块,将网络用户特征数据集构成为s个源网络用户分类任务数据集。
步骤103,贝叶斯超参数优化模块和优化数据保存模块。用贝叶斯优化方法优化源网络用户分类模型的超参数,并保存优化过程中的数据。
步骤104,经验数据集构成模块。将步骤103中保存的源网络用户分类任务的优化过程数据构成经验数据集。
步骤105,方向模型训练模块。利用步骤104中构成的经验数据集训练方向模型。
步骤106,输出方向模型集合。作为贝叶斯超参数优化加速模块的输入。
步骤107,输入用户特征数据集和分类标签,即用于训练目标网络用户分类任务机器模型的数据集。
步骤108,贝叶斯超参数优化加速模块,利用方向模型集合对贝叶斯超参数优化进行加速,提高目标网络用户分类模型的超参优化的效率。
步骤109,输出目标网络用户分类模型的超参数配置。
图2所示的是网络用户特征数据集和其构成的源网络用户分类任务数据集。网络用户特征数据集的前n个特征为其他特征,即不能对网络用户进行分类的特征,第n+1到n+s为s个分类特征,每一个特征都是一种对网络用户分类的角度。依次将网络用户特征数据集中每一个分类特征作为标签值,其余特征作为特征值,构成为s个源网络用户分类任务数据集。
贝叶斯超参数优化加速包括预采样、选择采样和采样评估三个过程。
其中,预采样为使用贝叶斯优化方法连续采样多个超参数组和存储连续采样的多个超参数组。
选择采样为利用历史优化数据在存储的多个超参数组中选择最优的目标网络用户分类模型的超参数组。
采样评估包括评估所选择的最优采样并度量真实的评估结果与方向模型对该采样的评估结果的误差,然后再根据误差对方向模型的进行调整。
本申请主要从两个方面改善网络用户分类模型超参数优化的效率。第一部分是利用历史优化经验数据训练方向模型来帮助提升每一次网络用户分类模型优化的效果。第二部分是在目标网络用户分类任务上对历史网络用户分类模型优化经验数据有选择性的利用,提升利用效率。
具体而言,利用历史网络用户分类模型优化经验数据训练方向模型包括:构建经验数据集和训练方向模型集合Φ。
经验数据集的每一条数据输入为一个如图1所示的(k+1)×d的二维向量。其中,x=[x1,x2,...,xd]表示一个在d维搜索空间上的采样,f(x)表示其评估结果。
{x1,x2,...,xk}表示一个包含k个先前采样的集合,在此集合基础上算法能够生成新的采样x’,
Figure BDA0003070489110000061
表示当前最优的采样。
通过如下方式构建一条经验数据([κ;x′],l)。
其中,前k行κ为
Figure BDA0003070489110000062
由评估结果排序的第2到k+1的先前采样经过y中心化过构成,表示产生新采样的环境。1为标签值,当
Figure BDA0003070489110000063
时,1为+1,反之,当
Figure BDA0003070489110000064
时,1为-1。
将源网络用户分类任务用于学习超参数优化的经验,对于每一个源网络用户分类任务,经验数据集构建方法如下:
步骤301:使用贝叶斯优化在源网络用户分类任务模型上采样评估k+1次,并记录采样和评估的数据。
步骤302:将采样根据评估值由大到小排序,将评估值最大的采样定义为当前最佳采样
Figure BDA0003070489110000065
剩余采样以y为中心中心化,即
Figure BDA0003070489110000066
定义为κ。
步骤303:使用贝叶斯优化在源网络用户分类任务模型上生成新的采样x’,并评估。
步骤304:如果f(x’)大于目前最佳评估值,则生成一条数据([κ;x′],l),否则,生成一条数据([κ;x′],-1)。
步骤305:将κ中k个采样和本轮采样x’根据评估值由大到小排序,删除评估值最小的采样,更新κ。
步骤306:重复步骤303至305,直到达到预设的优化轮数。
如图5所示,训练方向模型具体包括以下几个步骤:
步骤501:确定网络用户分类模型中需要优化的超参数,并设置超参数的范围。
步骤502:在设定范围内随机初始化超参数,s初始为1。
步骤503:用贝叶斯优化对第s个源网络用户分类任务的机器学习模型的超参数调优,将优化过程记录下来构建成经验数据集。构建方法为上述步骤101至106。
步骤504:将经验数据集划分为训练数据集和测试数据集两个部分。
步骤505:用训练数据集训练方向模型,常用的分类模型均可以用于训练方向模型。本方法用卷积神经网络来训练。
步骤506至508:用测试数据集测试训练好的模型,如果测试准确率低则将该模型淘汰,否则加入方向模型集合Φ。
具体而言,步骤506至508步骤分别为:
步骤506:用测试数据集测试训练好的模型,判断准确率是否达到预设值,如果是,则转至步骤508,如果否,则转至步骤507;
步骤507:淘汰该模型;
步骤508:令s=s+1,令该模型加入方向模型集合Φ。
步骤509:判断源网络用户分类任务集合中的任务是否均已经被优化过,如果是,转至步骤510,如果否,转至步骤503。
步骤510:输出方向模型集合Φ。
第二部分是经验选择。一个方向模型可以看作从一个网络用户特征数据集中学习的优化经验,这一部分是利用从以往的优化经验中学习得到方向模型来加速新网络用户分类任务上的优化。因为,并非所有优化经验都可以给现有用户分类任务任务做出正确的指导,并且很难直接度量任务之间的关联度。所以,本方法在利用方向模型对预采样进行预测时对每个方向模型结果加权求和得到最终的预测值,所有方向模型拥有同一初始权重,在优化过程中,逐步将多个方向模型在目标问题上进行测试,不断地调整各个方向模型的权重。
作为优选方案,测试准确率高的方向模型保留下来用于下一步优化中,测试准确率低的方向模型则被淘汰。具体步骤如下:
步骤601:在设定范围内随机初始化超参数,初始化方向模型的权重值为同一值。
步骤602:使用贝叶斯优化在目标任务的机器学习模型上采样评估k+1次,并记录采样和评估的数据。数值k为方向模型输入数据的行数。
步骤603:将上一步记录的采样根据评估值排序,构成当前采样环境数据
步骤604:使用贝叶斯优化连续采样p次,将采样数据保存起来,定义为预采样。
步骤605:利用方向模型对预采样进行评估,所有方向模型的评估值加权求和为一个预采样的评估结果。记录每一个预采样的评估结果。
步骤606:选取评估结果最佳的预采样作为本轮采样值,并评估此采样值。
步骤607:根据上一步的评估结果更新方向模型的权重,将本轮采样、当前最佳采样,采样环境按评估值排序,记录最佳评估及最佳采样,删除最差采样,将排名第2~k+1的采样构成当前采样环境数据。
步骤608:判断是否达到预设采样轮数,如果是转至步骤609,如果否转至步骤604。
步骤609:输出最佳采样,即最佳的目标网络用户分类模型的超参数组。
其中,更新方向模型权重包括计算真实的评估结果与方向模型对该采样的评估结果的平方差,计算公式为:(Φi([κ;x′])-1)2,其中Φi为第i个方向模型,Φi([κ;x′])为第i个方向模型对本轮采样x’的评估值。1为真实评估结果,当
Figure BDA0003070489110000081
时,1为+1,反之,当
Figure BDA0003070489110000082
时,1为-1;更新方向模型权重的公式为wi=exp(-α(Φi([κ;x′])-l)2)wi,其中wi为第i个方向模型的权重,α为学习率。
图7所示的是本发明加速框架的流程示意图。本框架可概括为五步:初始化、预采样、采样、评估和更新。初始化是目标网络用户分类模型的超参数优化算法在搜索空间中的初步探索,得到用于新一轮采样的目标网络用户分类模型和当前最优采样。采样是利用方向模型在预采样中选择采样,同时返回产生新采样的环境κ。评估包括对新采样的真实评估和对方向模型的该任务相关性的评估。更新包括根据评估结果对方向模型权重的更新和采样环境的更新。在算法输入中需要有M个已经训练好的方向模型。具体说明如下:
步骤701:贝叶斯优化算法初始化及算法中各类参数的初始化。使用贝叶斯优化在源网络用户分类任务模型上采样评估k+1次,并将采样根据评估值由大到小排序,将评估值最佳的采样定义为初始最佳采样
Figure BDA0003070489110000085
剩余采样以
Figure BDA0003070489110000086
为中心中心化,即
Figure BDA0003070489110000087
构成初始采样环境,定义为κ。
参数的初始化包括方向模型权重参数w的初始化和召回率计数参数C和CR的初始化,C是一个数组,对应记录了每个方向模型在标记为正的样本上预测正确的样本数量,CR记录优化过程中得到的标记为正的样本总数。各参数初始化值如下:
Figure BDA0003070489110000083
步骤702至704,预采样过程。用贝叶斯优化方法连续采样p次,将得到的采样x′p,采样环境在一次预采样的过程中为相同的κ,每次采样得到的数据为记作[κp;xp′],暂存在集合ρ中。
具体而言,步骤702至704步骤分别为:
步骤702:设置预采样集合
Figure BDA0003070489110000084
采样计数p=1。
步骤703:用贝叶斯优化方法得到的采样x′p,ρ=ρ∪[κp;xp′]。
步骤704:判断p是否小于ρ,如果是则转至步骤703;如果否转至步骤705;
步骤705,如果为空算法则退化为一般的贝叶斯优化算法,执行步骤716。
步骤706,采样和评估过程,选取方向模型评估值最高的采样进行真实评估,并利用评估结果得到样本标记。
步骤707至714,更新方向模型权重和召回率计数参数C和CR,根据召回率筛选方向模型。
具体而言,步骤707至714步骤分别为:
步骤707,判断样本标记l是否为1,如果是转至步骤708,如果否转至步骤709。
步骤708,CR加1,CR记录评估值提高的次数。
步骤709,令i=1。
步骤710,根据每个方向模型的输出和正确标记,对方向模型的权重和召回计数进行更新。
步骤711,如果CR大于预设阈值R并且召回率小于阈值r,转至步骤712,否则转至步骤713。
步骤713,删除方向模型Φi,及其对应的权重wi和召回计数Ci
至714,令i=i+1。
步骤715,对权重进行归一化。更新采样环境κ,并用预评估得到的采样及其评估结果更新采样模型。
步骤717,更新当前最优采样。
步骤718,如果达到预设的最大迭代次数,则执行步骤719。否则重复步骤702至707。
步骤719,输出当前最优采样,即最佳的目标网络用户分类模型的超参数组。
综上所述,本发明提供了在多角度用户分类问题中的基于贝叶斯优化的机器学习超参数调优加速的实现方法,此项技术可以应用于数据挖掘、人工智能等诸多领域,例如,在人工智能领域,可将网络用户分类问题的机器学习超参数调优加速技术应用于推荐算法,提高用户分类模型的精度和超参数优化速度。由于推荐算法实时产生大量数据,对模型的时效性有较高要求,应用本技术可以学习历史模型的优化经验,节约更新模型的时间。因此,本技术具有很高的推广价值。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于机器学习的网络用户分类方法,其特征在于:
所述基于机器学习的网络用户分类方法包括如下步骤:
将网络用户特征数据构成若干个源网络用户特征数据;
使用贝叶斯优化方法连续采样多个超参数组并保存所采样的多个超参数组;
利用源网络用户分类任务的超参数优化数据在保存的多个所述超参数组中选择最优的所述超参数组;
对所选择的所述超参数组进行采样评估,计算真实的评估结果与方向模型对所述超参数组的评估结果的误差;
根据所述真实的评估结果与方向模型对所述超参数组的评估结果的误差对所述方向模型进行调整。
2.根据权利要求1所述的基于机器学习的网络用户分类方法,其特征在于:
所述基于机器学习的网络用户分类方法包括如下步骤:
构建经验数据集。
3.根据权利要求2所述的基于机器学习的网络用户分类方法,其特征在于:
所述构建经验数据集包括:
使用贝叶斯优化在源网络用户分类任务模型上采样评估k+1次,并记录采样和评估的数据;
将采样根据评估值由大到小排序,将评估值最大的采样称为当前最佳采样
Figure FDA0003070489100000012
剩余采样以y为中心中心化,即
Figure FDA0003070489100000011
定义为κ;
使用贝叶斯优化在源网络用户分类任务模型上生成新的采样x’,并评估;
如果f(x’)大于目前最佳评估值,则生成一条数据([κ;x′],l),否则,生成一条数据([κ;x′],-1);
将κ中k个采样和本轮采样x’根据评估值由大到小排序,删除评估值最小的采样,更新κ。
4.根据权利要求3所述的基于机器学习的网络用户分类方法,其特征在于:
所述基于机器学习的网络用户分类方法包括如下步骤:
训练方向模型。
5.根据权利要求4所述的基于机器学习的网络用户分类方法,其特征在于:
所述训练方向模型具体包括如下步骤:
确定机器学习模型中需要优化的超参数,并设置超参数的范围;
在设定范围内随机初始化超参数,s初始为1;
用贝叶斯优化对第s个源网络用户分类任务的机器学习模型的超参数调优,将优化过程记录下来构建成经验数据集;
将经验数据集划分为训练数据集和测试数据集两个部分;
用训练数据集训练方向模型,常用的分类模型均可以用于训练方向模型;本方法用卷积神经网络来训练;
用测试数据集测试训练好的模型,如果测试准确率低则将该模型淘汰,否则加入方向模型集合Φ。
6.根据权利要求5所述的基于机器学习的网络用户分类方法,其特征在于:
所述训练方向模型具体还包括如下步骤:
判断源网络用户分类任务集合中的任务是否均已经被优化过,如果是则输出方向模型集合Φ;如果否则转回至所述用贝叶斯优化对第s个源网络用户分类任务的机器学习模型的超参数调优,将优化过程记录下来构建成经验数据集的步骤。
7.根据权利要求6所述的基于机器学习的网络用户分类方法,其特征在于:
所述基于机器学习的网络用户分类方法还包括如下步骤:
将测试准确率高的方向模型保留下来用于下一步优化中,而将测试准确率低的方向模型则被淘汰。
8.根据权利要求7所述的基于机器学习的网络用户分类方法,其特征在于:
所述将测试准确率高的方向模型保留下来用于下一步优化中,而将测试准确率低的方向模型则被淘汰的步骤具体包括如下步骤:
在设定范围内随机初始化超参数,初始化方向模型的权重值为同一值;
使用贝叶斯优化在目标网络用户分类任务的机器学习模型上采样评估k+1次,并记录采样和评估的数据;数值k为方向模型输入数据的行数;
将上一步记录的采样根据评估值排序,构成当前采样环境数据
使用贝叶斯优化连续采样p次,将采样数据保存起来,定义为预采样;
利用方向模型对预采样进行评估,所有方向模型的评估值加权求和为一个预采样的评估结果;记录每一个预采样的评估结果;
选取评估结果最佳的预采样作为本轮采样值,并评估此采样值;
根据上一步的评估结果更新方向模型的权重,将本轮采样、当前最佳采样,采样环境按评估值排序,记录最佳评估及最佳采样,删除最差采样,将排名第2~k+1的采样构成当前采样环境数据。
9.根据权利要求8所述的基于机器学习的网络用户分类方法,其特征在于:
所述将测试准确率高的方向模型保留下来用于下一步优化中,而将测试准确率低的方向模型则被淘汰的步骤具体还包括如下步骤:
判断是否达到预设采样轮数,如果是则输出最佳采样。
10.根据权利要求9所述的基于机器学习的网络用户分类方法,其特征在于:
更新方向模型权重包括计算真实的评估结果与方向模型对该采样的评估结果的平方差,计算公式为:(Φi([κ;x′])–l)2,其中Φi为第i个方向模型,Φi([κ;x′])为第i个方向模型对本轮采样x’的评估值。l为真实评估结果,当
Figure FDA0003070489100000031
时,l为+1,反之,当
Figure FDA0003070489100000032
时,l为-1;更新方向模型权重的公式为wi=exp(-α(Φi([κ;x′])-l)2)wi,其中wi为第i个方向模型的权重,α为学习率。
CN202110537802.6A 2021-05-18 2021-05-18 基于机器学习的网络用户分类方法 Pending CN113139624A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110537802.6A CN113139624A (zh) 2021-05-18 2021-05-18 基于机器学习的网络用户分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110537802.6A CN113139624A (zh) 2021-05-18 2021-05-18 基于机器学习的网络用户分类方法

Publications (1)

Publication Number Publication Date
CN113139624A true CN113139624A (zh) 2021-07-20

Family

ID=76817900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110537802.6A Pending CN113139624A (zh) 2021-05-18 2021-05-18 基于机器学习的网络用户分类方法

Country Status (1)

Country Link
CN (1) CN113139624A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113712511A (zh) * 2021-09-03 2021-11-30 湖北理工学院 一种脑成像融合特征的稳定模式判别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111105040A (zh) * 2019-11-14 2020-05-05 深圳追一科技有限公司 超参数优化方法、装置、计算机设备和存储介质
CN111144581A (zh) * 2019-12-31 2020-05-12 杭州雅拓信息技术有限公司 一种机器学习超参数调节方法及系统
CN111553482A (zh) * 2020-04-09 2020-08-18 哈尔滨工业大学 机器学习模型超参数的调优方法
WO2021007812A1 (zh) * 2019-07-17 2021-01-21 深圳大学 一种深度神经网络超参数优化方法、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021007812A1 (zh) * 2019-07-17 2021-01-21 深圳大学 一种深度神经网络超参数优化方法、电子设备及存储介质
CN111105040A (zh) * 2019-11-14 2020-05-05 深圳追一科技有限公司 超参数优化方法、装置、计算机设备和存储介质
CN111144581A (zh) * 2019-12-31 2020-05-12 杭州雅拓信息技术有限公司 一种机器学习超参数调节方法及系统
CN111553482A (zh) * 2020-04-09 2020-08-18 哈尔滨工业大学 机器学习模型超参数的调优方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HU, YI-QI, ET AL.: ""Derivative-free optimization with adaptive experience for efficient hyper-parameter tuning"", 《ECAI 2020. IOS PRESS, 2020》, pages 1207 - 1211 *
HU, YI-QI, YANG YU, AND ZHI-HUA ZHOU.: ""Experienced Optimization with Reusable Directional Model for Hyper-Parameter Search"", 《IJCAI》, pages 2 - 4 *
胡毅奇: ""高效无梯度自动机器学习研究"", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113712511A (zh) * 2021-09-03 2021-11-30 湖北理工学院 一种脑成像融合特征的稳定模式判别方法
CN113712511B (zh) * 2021-09-03 2023-05-30 湖北理工学院 一种脑成像融合特征的稳定模式判别方法

Similar Documents

Publication Publication Date Title
CN111898689B (zh) 一种基于神经网络架构搜索的图像分类方法
CN106778832B (zh) 基于多目标优化的高维数据半监督集成分类方法
CN103927550B (zh) 一种手写体数字识别方法及系统
EP4425376A1 (en) Method and apparatus for searching for neural network ensemble model, and electronic device
Yuan et al. Evoq: Mixed precision quantization of dnns via sensitivity guided evolutionary search
CN115510963A (zh) 一种增量式设备故障诊断方法
CN108985617B (zh) 一种基于智能制造的产品生产流程调度方法及系统
CN116542382A (zh) 基于混合优化算法的污水处理溶解氧浓度预测方法
US11914672B2 (en) Method of neural architecture search using continuous action reinforcement learning
CN112766308A (zh) 一种远洋船舶分类方法
CN115115389A (zh) 一种基于价值细分和集成预测的快递客户流失预测方法
CN111126758B (zh) 一种学术团队影响力传播预测方法、设备和存储介质
CN112215412A (zh) 溶解氧预测方法及装置
CN115908909A (zh) 基于贝叶斯卷积神经网络的进化神经架构搜索方法及系统
CN114241267A (zh) 基于结构熵采样的多目标架构搜索骨质疏松图像识别方法
CN113326976B (zh) 一种基于时空关联的港口货运量在线预测方法及系统
CN113139624A (zh) 基于机器学习的网络用户分类方法
CN111708865B (zh) 一种基于改进XGBoost算法的技术预见及专利预警分析方法
CN113282747A (zh) 一种基于自动机器学习算法选择的文本分类方法
CN117439053A (zh) 一种Stacking集成模型电量预测方法、装置、存储介质
CN116757282A (zh) 一种基于强化状态建模的知识图谱多跳推理方法
CN112651499A (zh) 一种基于蚁群优化算法和层间信息的结构化模型剪枝方法
CN114444517B (zh) 一种量刑标准知识增强的数值感知的智能法律判决方法
CN115936773A (zh) 一种互联网金融黑产识别方法与系统
CN116186384A (zh) 一种基于物品隐含特征相似度的物品推荐方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination