CN113762456A - 一种模型参数调节方法和系统 - Google Patents

一种模型参数调节方法和系统 Download PDF

Info

Publication number
CN113762456A
CN113762456A CN202011356338.2A CN202011356338A CN113762456A CN 113762456 A CN113762456 A CN 113762456A CN 202011356338 A CN202011356338 A CN 202011356338A CN 113762456 A CN113762456 A CN 113762456A
Authority
CN
China
Prior art keywords
model
adjusted
parameters
parameter
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011356338.2A
Other languages
English (en)
Inventor
陈伯梁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202011356338.2A priority Critical patent/CN113762456A/zh
Publication of CN113762456A publication Critical patent/CN113762456A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种模型参数调节方法和系统,涉及计算机技术领域。该方法的一具体实施方式包括:多个从节点获取待调参模型的多个参数,其中,每一个从节点设置有第一神经网络模型、待调参模型以及待调参模型所需训练样本集;从节点基于第一神经网络模型、待调参模型的多个参数、待调参模型和待调参模型所需训练样本集,迭代调节待调参模型的多个参数;主节点根据多个从节点的迭代调节的结果,计算待调参模型的多个目标参数。该实施方式缩短待调参模型的调参周期。

Description

一种模型参数调节方法和系统
技术领域
本发明涉及计算机技术领域,尤其涉及一种模型参数调节方法和系统。
背景技术
在机器学习模型构建过程中,对模型参数进行调节是必不可少的过程。
目前调节模型参数的方式主要是,在所有的模型参数中挑选出几个参数进行调节,在该挑选出的几个参数调节完成后,再调节其他参数。比如,调节xgboost模型的参数,首先调节该xgboost模型包括的max_depth和min_child_weight参数,在max_depth和min_child_weight参数调节好之后,再调节xgboost模型包括的gamma参数等。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
现有的这种模型参数调节方式忽略了参数间相互的影响,例如已经调节好了两个参数,在调整第三个参数时,受该第三个参数的影响,经调节好的两个参数已经非最佳参数了,又需要重新调整前两个参数,导致模型参数调节准确率和调节效率较低。
发明内容
有鉴于此,本发明实施例提供一种模型参数调节方法和系统,能够有效地提高模型参数调节准确率以及调节效率。
为实现上述目的,根据本发明实施例的一个方面,提供了一种模型参数调节方法,包括:
多个从节点获取待调参模型的多个参数,其中,每一个所述从节点设置有第一神经网络模型、所述待调参模型以及所述待调参模型所需训练样本集;
所述从节点基于所述第一神经网络模型、所述待调参模型的多个参数、所述待调参模型和所述待调参模型所需训练样本集,迭代调节所述待调参模型的多个参数;
主节点根据多个所述从节点的迭代调节的结果,计算所述待调参模型的多个目标参数。
优选地,迭代调节所述待调参模型的多个参数,包括:
针对每一次迭代过程,执行:
将所述待调参模型的多个当前参数输入所述第一神经网络模型,得到每一个所述当前参数的参数变量;
根据所述当前参数的参数变量,调节所述当前参数。
优选地,所述模型参数调节方法,进一步包括:
针对每一次迭代调节,执行:
利用所述当前参数、所述待调参模型以及所述待调参模型所需训练样本集,计算所述待调参模型的评估指标;
根据所述评估指标以及所述当前参数,计算所述第一神经网络模型的损失以及网络梯度;
利用所述第一神经网络模型的损失以及网络梯度,调整所述第一神经网络模型。
优选地,所述模型参数调节方法,进一步包括:
所述从节点将多次迭代调节得到的多个网络梯度发送给主节点;
所述主节点利用设置的第二神经网络模型以及多个所述从节点的多个网络梯度,更新所述网络梯度,并将更新后的结果发送给多个所述从节点;
所述从节点根据更新后的结果,调整所述第一神经网络模型,以利用调整后的第一神经网络模型,继续执行迭代调节所述待调参模型的多个参数的步骤。
优选地,所述模型参数调节方法,进一步包括:
判断迭代调节的步骤是否满足迭代停止条件,
如果是,则执行计算所述待调参模型的多个目标参数。
优选地,迭代停止条件,包括:
迭代调节所述待调参模型的多个参数的步骤的执行次数达到预设的迭代阈值;
或者,
得到的每一个所述当前参数的参数变量在设定变化范围内。
优选地,所述评估指标包括:
精确度、准确率以及召回率中的任意一种。
第二方面,本发明实施例提供一种模型参数调节系统,包括:多个从节点以及主节点,其中,
每一个所述从节点,用于获取待调参模型的多个参数,其中,每一个所述从节点设置有第一神经网络模型、所述待调参模型以及所述待调参模型所需训练样本集;基于所述第一神经网络模型、所述待调参模型的多个参数、所述待调参模型和所述待调参模型所需训练样本集,迭代调节所述待调参模型的多个参数;
所述主节点,用于根据多个所述从节点的迭代调节的结果,计算所述待调参模型的多个目标参数。
优选地,所述从节点,用于针对每一次迭代过程,执行:将所述待调参模型的多个当前参数输入所述第一神经网络模型,得到每一个所述当前参数的参数变量;根据所述当前参数的参数变量,调节所述当前参数。
上述发明中的一个实施例具有如下优点或有益效果:由于多个从节点基于第一神经网络模型、待调参模型的多个参数、待调参模型以及待调参模型所需训练样本集,迭代调节待调参模型的多个参数,实现通过多个从节点同时调节多个参数,并通过主节点根据迭代调节的结果,计算待调参模型的多个目标参数,通过多个从节点实现多线程调参,能够有效地避免漫长的调参过程,缩短待调参模型的调参周期。
另外,由于从节点调参过程中,可同时对多个参数进行调节,考虑参数间相互影响,从而保证调参结果的准确性。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的模型参数调节的方法的主要流程的示意图;
图2是根据本发明实施例的从节点迭代调节待调参模型的多个参数的主要流程的示意图;
图3是根据本发明实施例的从节点迭代调节的主要流程的示意图;
图4是根据本发明实施例的更新从节点的第一神经网络模型的主要流程的示意图;
图5是根据本发明实施例的模型参数调节系统的主要设备的示意图;
图6是本发明实施例可以应用于其中的示例性系统架构图;
图7是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
目前各种各样的模型已被应用在不同的场景中。比如,获得用户画像的机器学习模型、对销量进行预测的监督学习模型等。下面以用户画像模型构建为例,详细说明模型构建过程。
对于电商平台来说,用户画像是电商作营销活动,个性化推荐,基础数据服务等的关键。例如,如今众电商都在谈及的下沉市场是兵家必争之地,只有获取精准用户画像标签,才能在最短的时间内,以最少的成本争抢到质量最优,最精准的用户群体,进而作各种营销推广等活动,促进获客、留客。那么构建准确的用户画像模型则显示的十分重要。
在电商的客户营销中用户画像建模中,其过程大致为数据分析、模型生成(这里指机器学习建模)、模型预测(数据应用)三个模块组成,其中建模过程非常重要,建模又包括模型选择和调参,模型选择可根据数据分布和数据组成进行选择,而调参是每个机器学习模型必不可少的过程。本方案就机器学习建模过程中的调参提出优化方案。
图1是根据本发明实施例的一种模型参数调节方法。如图1所示,该模型参数调节方法可包括如下步骤:
步骤S101:多个从节点获取待调参模型的多个参数,其中,每一个从节点设置有第一神经网络模型、待调参模型以及待调参模型所需训练样本集;
该步骤中,从节点获取的多个参数可以为外部输入的多个初始参数,也可以为循环迭代得到的多个参数。
步骤S102:从节点基于第一神经网络模型、待调参模型的多个参数、待调参模型和待调参模型所需训练样本集,迭代调节待调参模型的多个参数;
该待调参模型可以是任意一种可采用样本进行监督训练或者半监督训练的模型。训练样本集可以采用现有的获取训练样本集的方式得到。比如,针对得到用户画像的模型来说,其训练样本集可以是经过人工标注的用户画像样本数据等。
步骤S103:主节点根据多个从节点的迭代调节的结果,计算待调参模型的多个目标参数。
其中,多个从节点与主节点之间的关联关系:多个从节点中每一个从节点通过第一神经网络模型得到每一个参数的调节值,并利用该参数调节值调节的参数,将调节后的参数应用到待调参模型中,利用训练样本集评调节后的参数,根据评估的结果,重新调节参数。相应地,主节点可管理多个从节点,该主节点可为各个从节点调节第一神经网络模型,同时,主节点还可整合各个从节点得到的参数,以得到最终的参数。
其中,第一神经网络模型主要包括eval_net,next_net(网络结构与eval_net完全相同,下面以eval_net为例进行说明)以及replay_buffer。
一般来说,在强化学习中为了固定住最终训练得到的目标网络参数,通常会建立两个网络:分别是eval_net和next_net,即eval_net和next_net是强化学习中的两个神经网络。这两个神经网络eval_net和next_net的参数一样,其中,eval_net是可学习的网络,其用于实时的学习最新输入数据并实时进行网络参数更新,每隔一段时间后会将学习到的参数拷贝到next_net网络;next_net是用于保存eval_net的历史版本参数的神经网络。即next_net是eval_net的一个历史版本,其拥有eval_net很久之前的一组参数,而且这组参数被固定一段时间,然后再被eval_net的新参数所替换。
replay_buffer是用于存储当前的多个参数值、多个参数的调节值、奖罚以及下一参数值的缓存网络。以在后续提供给next_net网络。
具体地,eval_net为4层神经网络(输入层、两个隐藏网络以及输出层)。其中,输入层大小与待调参模型的参数的数量相等,该输入层下接两层大小64位的隐层网络(值得说明的是,该隐藏层的大小可根据复杂程度进行预估,通常大小不超过10位的输入和输出,隐层大小为几十即可),最后输出层大小等于待调参模型的参数的数量。输出的结果为参数调整值。其中,输出层是采用tanh函数,映射到[-1,1]范围内,再根据输出的tanh的值对应距离分成3类,分别是到-1,0,1的距离,最终规约到这三个值。采用tanh的原因是在迭代的下一轮中可以根据评估指标查看是否对某个参数加1或者减1,若为0,则停止。即:迭代调节待调参模型的多个参数具体可为,通过eval_net 4层神经网络输出待调参模型的多个参数的调节值,比如,多个参数为(a,b,c,d,e,f,g,h),相应地,eval_net 4层神经网络输出为(0,1,0,-1,0,1,-1,0),该(0,1,0,-1,0,1,-1,0)是(a,b,c,d,e,f,g,h)的调节值。相应地,调节后的参数(a+0,b+1,c+0,d-1,e+0,f+1,g-1,h+0)。
replay_buffer用于存储当前的多个参数值、多个参数的调节值、奖罚以及下一参数值这四个元素的网络,网络宽等于这四个相加,长度根据评估效果设置为300-500之间,用于存储网络记忆。
其中,eval_net—next_net—replay_buffer之间的关联关系:在刚开始的训练中,通过eval_net网络随机的输入待调参模型的多个参数值,得到输出值参数调节值(0,1,0,-1,0,1,-1,0),在后续的训练中将eval_net网络参数通过梯度更新赋值给next_net网络,再将存储在replay_buffer中的记忆值输入到next_net进行训练。
其中,next_net网络可根据计算公式(1),计算得到next_net网络的训练结果。
reward+gamma×np.max(q_next,axis=1) (1)
其中,q_next:表征next_net的输出结果;np.max(q_next,axis=1)表征行方向上的最值;gamma表征超参数,表示贪婪程度,reward表征得到的奖赏(该reward可由当前参数值输入机器学习模型后,用训练样本集得到的评估指标,如精确度、准确率以及召回率中的任意一种)。
在每次迭代中都会通过训练样本与输出结果的损失指导下一轮网络输出的更新,使得reward尽可能达到最大。
由于多个从节点基于第一神经网络模型、待调参模型的多个参数、待调参模型以及待调参模型所需训练样本集,迭代调节待调参模型的多个参数,实现通过多个从节点同时调节多个参数,并通过主节点根据迭代调节的结果,计算待调参模型的多个目标参数,通过多个从节点实现多线程调参,能够有效地避免漫长的调参过程,缩短待调参模型的调参周期。
另外,由于从节点调参过程中,可同时对多个参数进行调节,考虑参数间相互影响,从而保证调参结果的准确性。
在本发明实施例中,如图2所示,从节点迭代调节待调参模型的多个参数可包括如下步骤:
针对每一次迭代过程,执行步骤S201以及步骤S202:
步骤S201:将待调参模型的多个当前参数输入第一神经网络模型,得到每一个当前参数的参数变量;
步骤S202:根据当前参数的参数变量,调节当前参数。
比如多个当前参数为(1,1,2,2,2,1),经过步骤S201之后,得到参数变量(0,1,0,-1,1,0),根据该参数变量,调节当前参数:(1+0,1+1,2+0,2+(-1),2+1,1+0)=(1,0,2,1,1,3,1),即调节后的结果:(1,0,2,1,1,3,1)。即通过上述过程实现通过神经网络模型得到参数的参数变量,尽可能地降低人工干预。
在本发明实施例中,如图3所示,从节点每一次迭代调节,可进一步执行步骤S301至步骤S303:
步骤S301:利用当前参数、待调参模型以及待调参模型所需训练样本集,计算待调参模型的评估指标;
该待调参模型的评估指标可为Qtarget-Qcurrent(s,a),待调参模型的输出结果与真实值之间的差值。该评估指标还可以为精确度、准确率以及召回率中的任意一种。下面以待调参模型的输出结果与真实值之间的差值为例进行说明。另外,精确度、准确率以及召回率可采用现有技术得到。
步骤S302:根据评估指标以及当前参数,计算第一神经网络模型的损失以及网络梯度;
步骤S303:利用第一神经网络模型的损失以及网络梯度,调整第一神经网络模型。
上述步骤S302,针对replay_buffer的存储信息,用离线策略方式采样,采用下述计算公式(2)和计算公式(3),分别计算该从节点中第一神经网络模型的损失及梯度:
Figure BDA0002802678420000091
Figure BDA0002802678420000092
其中,Loss表征地一神经网络模型的损失值;R等于计算公式(1)中的reward;r表征折扣因子;Qtarget表征待调参模型输出的目标结果;Qcurrent(s,a)表征(当前迭代周期得到的参数,当前迭代周期得到的参数的调节值)下,待调参模型输出的结果;
Figure BDA0002802678420000093
表征从节点中的第一神经网络模型在第i次迭代得到的网络梯度;θi表征从节点中的第一神经网络模型在第i次迭代时第一神经网络模型的网络参数;η表征梯度更新的学习率;y(j)=(R+r×max(Qtarget))(j);h(j)=(Qcurrent(s,a))(j);j表征训练样本集中第j个样本;m表征训练样本集中样本总个数。
本方案是基于评估指标以及当前参数来调整第一神经网络模型以及待调参模型的参数,能够保证调参的准确性。
在本发明实施例中,上述步骤S103之前,如图4所示,可进一步包括如下步骤:
步骤S401:从节点将多次迭代调节得到的多个网络梯度发送给主节点;
步骤S402:主节点利用设置的第二神经网络模型以及多个从节点的多个网络梯度,更新网络梯度,并将更新后的结果发送给多个从节点;
该第二神经网络模型为target_net。该设置在主节点上的target_net可将分布在各个工作节点上、数次运行的数据汇总到主节点,主节点再统一用这些数据计算梯度,将计算出的梯度发送给各个从节点,以更新从节点的第一神经网络模型。
步骤S403:从节点根据更新后的结果,调整第一神经网络模型,以利用调整后的第一神经网络模型,继续执行迭代调节待调参模型的多个参数的步骤。
在本发明实施例中,上述方法可进一步包括:判断迭代调节的步骤是否满足迭代停止条件,如果是,则执行计算待调参模型的多个目标参数;否则,继续执行迭代调节待调参模型的多个参数的步骤。
该计算待调参模型的多个目标参数可为,综合各个从节点得到的参数,可通过计算各个从节点的参数的平均值的方式得到目标参数,即可通过下述计算公式(4)计算目标参数。
Figure BDA0002802678420000101
其中,Cs表征待调参模型中的第s个目标参数;cks表征第k个从节点得到的待调参模型中的第s个参数的值;n表征从节点的个数;s和k的的取值均为正整数。
该计算待调参模型的多个目标参数也可以根据各个从节点的权重,为各个从节点的参数赋值权重,得到目标参数。即可通过下述计算公式(5)计算目标参数。
Figure BDA0002802678420000102
其中,Cs表征待调参模型中的第s个目标参数;cks表征第k个从节点得到的待调参模型中的第s个参数的值;n表征从节点的个数;αk表征第k个从节点的权重;s和k的的取值均为正整数;
Figure BDA0002802678420000103
在本发明实施例中,迭代停止条件可包括:迭代调节待调参模型的多个参数的步骤的执行次数达到预设的迭代阈值;或者,得到的每一个当前参数的参数变量在设定变化范围内。
比如,迭代调节得到的参数的调节变量为0,0即为设定的变化范围。即每一个参数的调节变量均为0,则停止迭代。
如图5所示,本发明实施例提供一种模型参数调节系统500,该模型参数调节系统500可包括:多个从节点501以及主节点502,其中,
每一个从节点501,用于获取待调参模型的多个参数,其中,每一个从节点501设置有第一神经网络模型、待调参模型以及待调参模型所需训练样本集;基于第一神经网络模型、待调参模型的多个参数、待调参模型和待调参模型所需训练样本集,迭代调节待调参模型的多个参数;
主节点502,用于根据多个从节点501的迭代调节的结果,计算待调参模型的多个目标参数。
在本发明实施例中,从节点501,用于针对每一次迭代过程,执行:将待调参模型的多个当前参数输入第一神经网络模型,得到每一个当前参数的参数变量;根据当前参数的参数变量,调节当前参数。
在本发明实施例中,从节点501,进一步用于针对每一次迭代调节,执行:利用当前参数、调参模型以及待调参模型所需训练样本集,计算待调参模型的评估指标;根据评估指标以及当前参数,计算第一神经网络模型的损失以及网络梯度;利用第一神经网络模型的损失以及网络梯度,调整第一神经网络模型。
在本发明实施例中,从节点501,进一步用于将多次迭代调节得到的多个网络梯度发送给主节点502;
主节点502,进一步用于利用设置的第二神经网络模型以及多个所述从节点的多个网络梯度,更新所述网络梯度,并将更新后的结果发送给多个从节点501;
从节点501,进一步用于根据更新后的结果,调整第一神经网络模型,以利用调整后的第一神经网络模型,继续执行迭代调节待调参模型的多个参数的步骤。
在本发明实施例中,从节点501,进一步用于判断迭代调节的步骤是否满足迭代停止条件,如果是,则发送迭代的结果给主节点502;否则,继续执行迭代调节待调参模型的多个参数的步骤。
在本发明实施例中,迭代停止条件可包括:迭代调节待调参模型的多个参数的步骤的执行次数达到预设的迭代阈值;或者,得到的每一个当前参数的参数变量在设定变化范围内。
在本发明实施例中,评估指标可包括:精确度、准确率以及召回率中的任意一种。
图6示出了可以应用本发明实施例的模型参数调节方法或模型参数调节系统的示例性系统架构600。
如图6所示,系统架构600可以包括从节点服务器601、602、603,网络604和主节点服务器605。网络604用以在从节点服务器601、602、603和主节点服务器605之间提供通信链路的介质。网络604可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用从节点服务器601、602、603通过网络604与主节点服务器605交互,以接收或发送消息等。从节点服务器601、602、603上可以安装有第一神经网络模型、待调参模型等(仅为示例),另外,从节点服务器601、602、603上还可存储有训练待调参模型所需的训练样本集。
从节点服务器601、602、603可以是本地服务器、虚拟机、云端服务器等等。
主节点服务器605可以是提供各种服务的本地服务器、虚拟机或者云端服务器等,例如对从节点服务器601、602、603得到的网络梯度进行更新,或者综合多个从节点服务器的迭代结果,计算待调参模型的多个目标参数(仅为示例)。主节点服务器605可以对接收到的网络梯度进行分析等处理,并将处理结果(例如网络梯度更新结果--仅为示例)反馈给从节点服务器601、602、603。
需要说明的是,本发明实施例所提供的模型参数调节方法一般由从节点服务器601、602、603与主节点服务器605共同完成,相应地,模型参数调节一般分设于设置于从节点服务器601、602、603和主节点服务器605中。
应该理解,图6中的从节点服务器、网络和主节点服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的从节点服务器、网络和主节点服务器。
下面参考图7,其示出了适于用来实现本发明实施例的从节点服务器或主节点服务器的计算机系统700的结构示意图。图7示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:多个从节点获取待调参模型的多个参数,其中,每一个所述从节点设置有第一神经网络模型、所述待调参模型以及所述待调参模型所需训练样本集;所述从节点基于所述第一神经网络模型、所述待调参模型的多个参数、所述待调参模型和所述待调参模型所需训练样本集,迭代调节所述待调参模型的多个参数;主节点根据多个所述从节点的迭代调节的结果,计算所述待调参模型的多个目标参数。
根据本发明实施例的技术方案,由于多个从节点基于第一神经网络模型、待调参模型的多个参数、待调参模型以及待调参模型所需训练样本集,迭代调节待调参模型的多个参数,实现通过多个从节点同时调节多个参数,并通过主节点根据迭代调节的结果,计算待调参模型的多个目标参数,通过多个从节点实现多线程调参,能够有效地避免漫长的调参过程,缩短待调参模型的调参周期。
另外,由于从节点调参过程中,可同时对多个参数进行调节,考虑参数间相互影响,从而保证调参结果的准确性。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (11)

1.一种模型参数调节方法,其特征在于,包括:
多个从节点获取待调参模型的多个参数,其中,每一个所述从节点设置有第一神经网络模型、所述待调参模型以及所述待调参模型所需训练样本集;
所述从节点基于所述第一神经网络模型、所述待调参模型的多个参数、所述待调参模型和所述待调参模型所需训练样本集,迭代调节所述待调参模型的多个参数;
主节点根据多个所述从节点的迭代调节的结果,计算所述待调参模型的多个目标参数。
2.根据权利要求1所述模型参数调节方法,其特征在于,迭代调节所述待调参模型的多个参数,包括:
针对每一次迭代过程,执行:
将所述待调参模型的多个当前参数输入所述第一神经网络模型,得到每一个所述当前参数的参数变量;
根据所述当前参数的参数变量,调节所述当前参数。
3.根据权利要求2所述模型参数调节方法,其特征在于,进一步包括:
针对每一次迭代调节,执行:
利用所述当前参数、所述待调参模型以及所述待调参模型所需训练样本集,计算所述待调参模型的评估指标;
根据所述评估指标以及所述当前参数,计算所述第一神经网络模型的损失以及网络梯度;
利用所述第一神经网络模型的损失以及网络梯度,调整所述第一神经网络模型。
4.根据权利要求3所述模型参数调节方法,其特征在于,进一步包括:
所述从节点将多次迭代调节得到的多个网络梯度发送给主节点;
所述主节点利用设置的第二神经网络模型以及多个所述从节点的多个网络梯度,更新所述网络梯度,并将更新后的结果发送给多个所述从节点;
所述从节点根据更新后的结果,调整所述第一神经网络模型,以利用调整后的第一神经网络模型,继续执行迭代调节所述待调参模型的多个参数的步骤。
5.根据权利要求1至4任一所述模型参数调节方法,其特征在于,进一步包括:
判断迭代调节的步骤是否满足迭代停止条件,
如果是,则执行计算所述待调参模型的多个目标参数。
6.根据权利要求5所述模型参数调节方法,其特征在于,迭代停止条件,包括:
迭代调节所述待调参模型的多个参数的步骤的执行次数达到预设的迭代阈值;
或者,
得到的每一个所述当前参数的参数变量在设定变化范围内。
7.根据权利要求3所述模型参数调节方法,其特征在于,所述评估指标包括:
待调参模型的输出结果与真实值之间的差值、精确度、准确率以及召回率中的任意一种。
8.一种模型参数调节系统,其特征在于,包括:多个从节点以及主节点,其中,
每一个所述从节点,用于获取待调参模型的多个参数,其中,每一个所述从节点设置有第一神经网络模型、所述待调参模型以及所述待调参模型所需训练样本集;基于所述第一神经网络模型、所述待调参模型的多个参数、所述待调参模型和所述待调参模型所需训练样本集,迭代调节所述待调参模型的多个参数;
所述主节点,用于根据多个所述从节点的迭代调节的结果,计算所述待调参模型的多个目标参数。
9.根据权利要求8所述模型参数调节系统,其特征在于,
所述从节点,用于针对每一次迭代过程,执行:将所述待调参模型的多个当前参数输入所述第一神经网络模型,得到每一个所述当前参数的参数变量;根据所述当前参数的参数变量,调节所述当前参数。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
11.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202011356338.2A 2020-11-26 2020-11-26 一种模型参数调节方法和系统 Pending CN113762456A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011356338.2A CN113762456A (zh) 2020-11-26 2020-11-26 一种模型参数调节方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011356338.2A CN113762456A (zh) 2020-11-26 2020-11-26 一种模型参数调节方法和系统

Publications (1)

Publication Number Publication Date
CN113762456A true CN113762456A (zh) 2021-12-07

Family

ID=78786092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011356338.2A Pending CN113762456A (zh) 2020-11-26 2020-11-26 一种模型参数调节方法和系统

Country Status (1)

Country Link
CN (1) CN113762456A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463324A (zh) * 2014-11-21 2015-03-25 长沙马沙电子科技有限公司 一种基于大规模高性能集群的卷积神经网络并行处理方法
CN108491928A (zh) * 2018-03-29 2018-09-04 腾讯科技(深圳)有限公司 模型参数训练方法、装置、服务器及存储介质
CN109871995A (zh) * 2019-02-02 2019-06-11 浙江工业大学 Spark框架下分布式深度学习的量子优化调参方法
WO2020062165A1 (zh) * 2018-09-29 2020-04-02 区链通网络有限公司 一种强化学习模型的训练方法、节点、系统及存储介质
US20200134439A1 (en) * 2018-10-24 2020-04-30 Equifax Inc. Machine-learning techniques for monotonic neural networks
CN111860828A (zh) * 2020-06-15 2020-10-30 北京仿真中心 一种神经网络的训练方法、存储介质和设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463324A (zh) * 2014-11-21 2015-03-25 长沙马沙电子科技有限公司 一种基于大规模高性能集群的卷积神经网络并行处理方法
CN108491928A (zh) * 2018-03-29 2018-09-04 腾讯科技(深圳)有限公司 模型参数训练方法、装置、服务器及存储介质
WO2020062165A1 (zh) * 2018-09-29 2020-04-02 区链通网络有限公司 一种强化学习模型的训练方法、节点、系统及存储介质
US20200134439A1 (en) * 2018-10-24 2020-04-30 Equifax Inc. Machine-learning techniques for monotonic neural networks
CN109871995A (zh) * 2019-02-02 2019-06-11 浙江工业大学 Spark框架下分布式深度学习的量子优化调参方法
CN111860828A (zh) * 2020-06-15 2020-10-30 北京仿真中心 一种神经网络的训练方法、存储介质和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱汇龙;刘晓燕;刘瑶;: "基于人群的神经网络超参数优化的研究", 信息技术, no. 11, 20 November 2018 (2018-11-20) *

Similar Documents

Publication Publication Date Title
CN108520220B (zh) 模型生成方法和装置
US11521067B2 (en) Decentralized distributed deep learning
CN110198244B (zh) 面向异构云服务的资源配置方法和装置
CN110852421B (zh) 模型生成方法和装置
WO2019111118A1 (en) Robust gradient weight compression schemes for deep learning applications
CN108924198A (zh) 一种基于边缘计算的数据调度方法、装置及系统
CN112270545A (zh) 基于迁移样本筛选的金融风险预测方法、装置和电子设备
CN112990423A (zh) 人工智能ai模型生成方法、系统及设备
CN103886402A (zh) 用于众包系统中的自动激励计算的方法和系统
CN111612528A (zh) 用户分类模型的确定方法、装置、设备及存储介质
CN113408797A (zh) 流转量预测多时序模型生成方法、信息发送方法和装置
CN111783810A (zh) 用于确定用户的属性信息的方法和装置
Rkhami et al. On the use of graph neural networks for virtual network embedding
US9396651B2 (en) Auto-calibration for road traffic prediction
CN110782016A (zh) 用于优化神经网络架构搜索的方法和装置
CN114781650A (zh) 一种数据处理方法、装置、设备以及存储介质
CN111510473B (zh) 访问请求处理方法、装置、电子设备和计算机可读介质
CN108509179B (zh) 用于检测人脸的方法、用于生成模型的装置
US20140052431A1 (en) Supporting proactive decision-making in event-driven applications
CN110489435B (zh) 基于人工智能的数据处理方法、装置、及电子设备
CN113762456A (zh) 一种模型参数调节方法和系统
CN109711555A (zh) 一种预测深度学习模型单轮迭代时间的方法和系统
CN116283487A (zh) 应用于甲醇制备的控制方法、装置、电子设备和可读介质
CN110633596A (zh) 预测车辆方向角的方法和装置
US20220253781A1 (en) Method, device and computer readable storage medium for data processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination