CN111260074A - 一种超参数确定的方法、相关装置、设备及存储介质 - Google Patents

一种超参数确定的方法、相关装置、设备及存储介质 Download PDF

Info

Publication number
CN111260074A
CN111260074A CN202010024388.4A CN202010024388A CN111260074A CN 111260074 A CN111260074 A CN 111260074A CN 202010024388 A CN202010024388 A CN 202010024388A CN 111260074 A CN111260074 A CN 111260074A
Authority
CN
China
Prior art keywords
parameter
hyper
trained
data set
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010024388.4A
Other languages
English (en)
Other versions
CN111260074B (zh
Inventor
魏颖
赵沛霖
黄俊洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010024388.4A priority Critical patent/CN111260074B/zh
Publication of CN111260074A publication Critical patent/CN111260074A/zh
Application granted granted Critical
Publication of CN111260074B publication Critical patent/CN111260074B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种超参数确定的方法,用于提升超参数的配置效率。本申请包括:获取目标数据集合;基于目标数据集合,通过编码器获取超参搜索特征集合;基于超参搜索特征集合以及至少一个待预测超参数配置,通过注意力机制模块获取至少一个特征表示结果;基于特征表示结果以及至少一个待预测超参数配置,通过解码器获取至少一个性能预测结果;根据至少一个性能预测结果,从至少一个待预测超参数配置中确定目标超参数配置。本申请中采用神经过程输出性能预测结果,将较优的性能预测结果所对应的待预测超参数配置作为最终的目标超参数配置,整个过程相较于高斯过程的复杂度更低,从而提升超参数的配置效率。

Description

一种超参数确定的方法、相关装置、设备及存储介质
技术领域
本申请涉及人工智能领域,尤其涉及一种超参数确定的方法、相关装置、设备及存储介质。
背景技术
机器学习是人工智能领域热门的研究方向之一。在机器学习中,往往涉及到两类参数,即超参数和普通参数。其中,超参数是在开始学习过程之前设置值的运行参数,而不是通过训练得到的参数数据。超参数定义了关于机器学习模型的高层次的概念,如复杂性或学习能力。因此,超参数对于算法性能很大的影响。
目前,提供一种超参优化算法,该方法的核心思想在于,从搜索过的超参数以及其对应的性能中学习一个替代函数,优化该替代函数的值所得到的超参数配置会输入到目标模型中,在目标数据集上进行训练和测试,这组超参数配置和真实观察得到的性能又会继续去改善该替代函数,循环往复,直到达到满意的性能为止。
替代函数在建模的过程中普遍使用的是高斯过程,然而,由于高斯过程的时间复杂度与历史观察点的数目成立方,因此,而高斯过程的主要弊端在于其模型的时间复杂度很大,导致超参数的配置效率较低。
发明内容
本申请实施例提供了一种超参数确定的方法、相关装置、设备及存储介质,整个过程相较于高斯过程的复杂度更低,从而提升超参数的配置效率。
有鉴于此,本申请第一方面提供一种超参数确定的方法,包括:
获取目标数据集合,其中,目标数据集合包括至少一组超参搜索对,每组超参搜索对包括超参数配置以及性能参数;
基于目标数据集合,通过编码器获取超参搜索特征集合,其中,超参搜索特征集合包括至少一个超参搜索特征,每个超参搜索特征对应一组超参搜索对;
基于超参搜索特征集合以及至少一个待预测超参数配置,通过注意力机制模块获取至少一个特征表示结果;
基于特征表示结果以及至少一个待预测超参数配置,通过解码器获取至少一个性能预测结果,其中,性能预测结果与待预测超参数配置具有对应关系;
根据至少一个性能预测结果,从至少一个待预测超参数配置中确定目标超参数配置。
本申请第二方面提供一种超参数确定装置,包括:
获取模块,用于获取目标数据集合,其中,目标数据集合包括至少一组超参搜索对,每组超参搜索对包括超参数配置以及性能参数;
获取模块,还用于基于目标数据集合,通过编码器获取超参搜索特征集合,其中,超参搜索特征集合包括至少一个超参搜索特征,每个超参搜索特征对应一组超参搜索对;
获取模块,还用于基于超参搜索特征集合以及至少一个待预测超参数配置,通过注意力机制模块获取至少一个特征表示结果,其中,特征表示结果与待预测超参数配置具有一一对应的关系;
获取模块,还用于基于特征表示结果以及至少一个待预测超参数配置,通过解码器获取至少一个性能预测结果,其中,性能预测结果与待预测超参数配置具有对应关系;
确定模块,用于根据至少一个性能预测结果,从至少一个待预测超参数配置中确定目标超参数配置,其中,目标超参数配置包括已配置的超参数。
在一种可能的设计中,在本申请实施例的第二方面的一种实现方式中,超参数确定装置还包括输出模块以及更新模块;
获取模块,还用于获取M个历史数据集合,其中,M个历史数据集合包括目标历史数据集合,M为大于或等于1的整数,M个历史数据集合中的每个历史数据集合包括至少一组待训练超参搜索对,且目标历史数据集合包括至少一组待训练超参搜索对,待训练超参搜索对包括待训练超参数配置以及真实性能指标;
输出模块,用于基于目标历史数据集合以及M个历史数据集合,通过待训练编码器输出待训练超参搜索特征集合,其中,待训练超参搜索特征集合包括多个待训练超参搜索特征,且待训练超参搜索特征与待训练超参搜索对具有对应关系;
输出模块,还用于基于待训练超参搜索特征集合以及目标历史数据集合中所包含的待训练超参数配置,通过待训练注意力机制模块输出目标历史数据集合所对应的待训练特征表示结果;
输出模块,还用于基于待训练特征表示结果以及目标历史数据集合中所包含的待训练超参数配置,通过待训练解码器输出预测性能指标;
确定模块,还用于基于预测性能指标以及真实性能指标,采用第一损失函数确定模型参数;
更新模块,用于根据模型参数更新待训练编码器、待训练注意力机制模块以及待训练解码器。
在一种可能的设计中,在本申请实施例的第二方面的另一实现方式中,
更新模块,具体用于采用模型参数更新待训练编码器,得到编码器;
采用模型参数更新待训练注意力机制模块,得到注意力机制模块;
采用模型参数更新待训练解码器,得到解码器。
在一种可能的设计中,在本申请实施例的第二方面的另一实现方式中,
输出模块,具体用于从目标历史数据集合中确定第一数据集合以及第二数据集合,其中,第一数据集合与第二数据集合用于构成目标历史数据集合,第一数据集合包括至少一组待训练超参搜索对,第二数据集合包括至少一组待训练超参搜索对,待训练超参搜索对包括待训练超参数配置以及真实性能指标;
基于待训练超参搜索特征集合以及第一数据集合中所包含的待训练超参数配置,通过待训练注意力机制模块输出第一数据集合所对应的待训练特征表示结果;
输出模块,具体用于基于第一数据集合所对应的待训练特征表示结果,以及第一数据集合中所包含的待训练超参数配置,通过待训练解码器输出第一数据集合所对应的预测性能指标;
确定模块,具体用于基于第一数据集合所对应的预测性能指标,以及第二数据集合所对应的真实性能指标,采用第一损失函数确定模型参数。
在一种可能的设计中,在本申请实施例的第二方面的另一实现方式中,
确定模块,具体用于获取参数初始值;
根据参数初始值以及第一损失函数,获取目标历史数据集合在神经过程的参数;
根据目标历史数据集合在神经过程的参数以及参数初始值,更新参数初始值,得到模型参数。
在一种可能的设计中,在本申请实施例的第二方面的另一实现方式中,第一损失函数表示为:
Figure BDA00023614801500000310
其中,L1()表示第一损失函数,Hh表示第一数据集合所对应的预测性能指标,
Figure BDA00023614801500000311
表示第二数据集合所对应的真实性能指标,E表示期望,θ表示神经过程参数,pθ表示基于θ,根据
Figure BDA00023614801500000312
获取Hh的概率。
在一种可能的设计中,在本申请实施例的第二方面的另一实现方式中,
更新模块,具体用于采用如下方式更新得到模型参数:
Figure BDA0002361480150000031
Figure BDA0002361480150000032
其中,
Figure BDA0002361480150000033
表示模型参数,
Figure BDA0002361480150000034
表示参数初始值,
Figure BDA0002361480150000035
表示目标历史数据集合在神经过程的参数,ε表示第一学习速率,
Figure BDA0002361480150000036
表示以θ为参数的神经网络在第k步的梯度,α表示第二学习速率。
在一种可能的设计中,在本申请实施例的第二方面的另一实现方式中,
输出模块,具体用于从目标历史数据集合中获取目标待训练超参数配置;
根据目标待训练超参数配置,从M个历史数据集合中获取相似数据集;
根据相似数据集获取相似度衡量向量;
基于目标待训练超参数配置、相似数据集以及相似度衡量向量,通过待训练注意力机制模块所采用的多传感头函数,输出目标历史数据集合所对应的待训练特征表示结果。
在一种可能的设计中,在本申请实施例的第二方面的另一实现方式中,
输出模块,具体用于采用如下方式输出待训练特征表示结果:
Figure BDA0002361480150000037
其中,
Figure BDA0002361480150000038
表示目标历史数据集合所对应的待训练特征表示结果,MultiHead()表示多传感头函数,
Figure BDA0002361480150000039
表示目标待训练超参数配置,X0:M表示M个历史数据集合所对应的键,R0:M表示M个历史数据集合所对应的值,s表示相似度衡量向量。
在一种可能的设计中,在本申请实施例的第二方面的另一实现方式中,
获取模块,还用于获取超参初始配置以及全局共享超参搜索的初始配置;
获取模块,还用于根据超参初始配置、初始配置以及第二损失函数,获取目标数据集合所对应的目标超参初始配置;
更新模块,还用于根据目标超参初始配置以及超参初始配置,更新超参初始配置,得到超参初始更新配置;
获取模块,具体用于根据超参初始更新配置获取目标数据集合。
在一种可能的设计中,在本申请实施例的第二方面的另一实现方式中,第二损失函数表示为:
Figure BDA0002361480150000041
其中,L2()表示第二损失函数,
Figure BDA0002361480150000042
表示nI个全局共享超参搜索的初始配置,θ表示神经过程参数,j表示从1至nI的整数,β表示控制参数,μIj表示预测性能结果。
在一种可能的设计中,在本申请实施例的第二方面的另一实现方式中,
更新模块,具体用于采用如下方式更新得到超参初始更新配置:
Figure BDA0002361480150000043
Figure BDA0002361480150000044
其中,
Figure BDA0002361480150000045
表示超参初始更新配置,ε表示第一学习速率,
Figure BDA0002361480150000046
表示以θ为参数的神经网络在第k步的梯度,α表示第二学习速率,
Figure BDA0002361480150000047
表示目标超参初始配置,
Figure BDA0002361480150000048
表示超参初始配置。
本申请的第三方面提供了一种服务器,包括:存储器、收发器、处理器以及总线系统;
其中,存储器用于存储程序;
处理器用于执行存储器中的程序,处理器用于根据程序代码中的指令执行上述各方面的方法;
总线系统用于连接存储器以及处理器,以使存储器以及处理器进行通信。
本申请的第四方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,提供了一种超参数确定的方法,获取包括至少一组超参搜索对的目标数据集合,其中每组超参搜索对包括超参数配置以及性能参数,然后可以基于该目标数据集合,通过编码器获取超参搜索特征集合,该超参搜索特征集合包括至少一个超参搜索特征,且每个超参搜索特征对应一组超参搜索对,还可以基于超参搜索特征集合以及至少一个待预测超参数配置,通过注意力机制模块获取至少一个特征表示结果,进一步地,还可以基于特征表示结果以及至少一个待预测超参数配置,通过解码器获取至少一个性能预测结果,该性能预测结果与待预测超参数配置具有对应关系,最后根据至少一个性能预测结果,从至少一个待预测超参数配置中确定目标超参数配置。通过上述方式,采用神经过程输出各个待预测超参数配置所对应的性能预测结果,然后从中选择较优的性能预测结果,将该性能预测结果所对应的待预测超参数配置作为最终的目标超参数配置,整个过程相较于高斯过程的复杂度更低,从而提升超参数的配置效率。
附图说明
图1为本申请实施例中超参数确定系统的一个架构示意图;
图2为本申请实施例中超参数确定的方法一个实施例示意图;
图3为本申请实施例中超参数确定的方法一个流程示意图;
图4为本申请实施例中超参数确定的方法另一流程示意图;
图5为本申请实施例中超参数确定装置一个实施例示意图;
图6为本申请实施例中服务器一个实施例示意图。
具体实施方式
本申请实施例提供了一种超参数确定的方法、相关装置、设备及存储介质,整个过程相较于高斯过程的复杂度更低,从而提升超参数的配置效率。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应理解,本申请可以应用于人工智能领域中机器学习的各个场景,在机器学习中,往往涉及到两类参数,即超参数和普通参数。其中,超参数是在开始学习过程之前设置值的运行参数,而不是通过训练得到的参数数据,超参数可以定义关于机器学习模型的高层次的概念,如复杂性或学习能力。
具体地,以应用于人脸识别系统为一个示例进行说明,服务器可以获取到不同终端设备上的人脸数据信息,根据该人脸数据信息获取到包括多个人脸数据信息的人脸数据集,然后针对同一个模型(例如残差神经网络模型)在人脸数据集上做超参数优化,从而可以获取到较多关于人脸数据集的超参数优化经验,而这些所获取到的超参优化经验可以被迁移到新用户的目标数据集上,目标数据集可以根据前述超参优化经验实现模型的快速超参优化和性能迭代,从而提供更好的人脸识别服务。
以应用于视频分类系统为另一示例进行说明,服务器可以获取到不同视频所对应的视频数据信息,根据该视频数据信息获取到包括多个视频数据信息的视频数据集,服务器可以针对同一个模型在视频数据集上做超参数优化,从而获取到关于视频数据集的超参数优化经验,而这些所获取到的超参优化经验可以被迁移到新用户的目标数据集上,当新用户需要对视频进行分类时,目标数据集可以根据前述超参优化经验实现模型的快速超参优化以及性能迭代,提升视频分类的效率,从而更好的提供视频分类服务。
为了在上述场景中,提升超参数的配置效率,本申请提出了一种超参数确定的方法,该方法应用于图1所示的超参数确定系统,请参阅图1,图1为本申请实施例中超参数确定系统的一个架构示意图,如图所示,超参数确定系统中包括服务器A和服务器B。而超参数确定装置可以部署于服务器,也可以部署于具有较高计算力的终端设备,下面将以超参数确定装置部署于服务器为例进行介绍。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
具体地,服务器B在确定超参数之前,服务器A可以通过算法获取到M个数据集合,每个数据集合中包括超参搜索对,每一组超参搜索对都包括超参数配置以及性能参数,即数据集合1包括超参搜索对1,超参搜索对1包括超参数配置1以及性能参数1,而数据集合M包括超参搜索对M,超参搜索对M包括超参数配置M以及性能参数M,服务器A可以获取到数据集合1至数据集合M,然后服务器B可以通过服务器A获取包括至少一组超参搜索对的目标数据集合M+1,并且其中每组超参搜索对包括超参数配置以及性能参数,然后基于该目标数据集合,通过编码器获取括至少一个超参搜索特征的超参搜索特征集合,其中每个超参搜索特征对应一组超参搜索对,再基于超参搜索特征集合以及至少一个待预测超参数配置,通过注意力机制模块获取至少一个特征表示结果,进而基于该特征表示结果以及至少一个待预测超参数配置,通过解码器获取至少一个性能预测结果,该性能预测结果与待预测超参数配置具有对应关系,最后根据至少一个性能预测结果,从至少一个待预测超参数配置中确定目标超参数配置。由于采用神经过程输出各个待预测超参数配置所对应的性能预测结果,然后从中选择较优的性能预测结果,将该性能预测结果所对应的待预测超参数配置作为最终的目标超参数配置,整个过程复杂度更低,从而提升超参数的配置效率。
需要说明的是,虽然图1中仅示出了两个服务器,但应当理解,图1中的示例仅用于理解本方案,具体服务器的数量均应当结合实际情况灵活确定。
服务器A和服务器B之间可以通过无线网络、有线网络或可移动存储介质进行通信。其中,上述的无线网络使用标准通信技术和/或协议。无线网络通常为因特网、但也可以是任何网络,包括但不限于蓝牙、局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,可以使用定制或专用数据通信技术取代或者补充上述数据通信技术。可移动存储介质可以为通用串行总线(Universal Serial Bus,USB)闪存盘、移动硬盘或其他可移动存储介质等。
由于本申请实施例是应用于人工智能领域的,在对本申请实施例提供的模型训练的方法开始介绍之前,先对人工智能领域的一些基础概念进行介绍。人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多种方向展开研究,计算机视觉技术(Computer Vision,CV)就是人工智能技术的多种研究方向中研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
结合上述介绍,下面将对本申请中超参数确定的方法进行介绍,请参阅图2,图2为本申请实施例中超参数确定的方法一个实施例示意图,如图所示,本申请实施例中超参数确定的方法一个实施例包括:
101、获取目标数据集合,其中,目标数据集合包括至少一组超参搜索对,每组超参搜索对包括超参数配置以及性能参数;
本实施例中,超参数确定装置可以获取包括至少一组超参搜索对的目标数据集合,且每组超参搜索对包括超参数配置以及性能参数。
为了便于理解,以目标数据集合中包括m组超参搜索对为示例进行说明,请参阅图3,图3为本申请实施例中超参数确定的方法一个流程示意图,如图所示,m组超参搜索对包括m对超参数配置以及性能参数,例如第1组超参搜索对包括超参数配置x1以及性能参数y1,第m组超参搜索对包括超参数配置xm以及性能参数ym,应理解,在实际应用中还可以为第2组超参搜索对包括超参数配置x2以及性能参数y2,即目标数据集合A1则可以包括前述m组超参搜索对中所包括的m对超参数配置以及性能参数。
需要说明的是,超参数确定装置可以部署于服务器,也可以部署于终端设备,本申请以部署于服务器为例进行介绍,然而这不应理解为对本申请的限定。
102、基于目标数据集合,通过编码器获取超参搜索特征集合,其中,超参搜索特征集合包括至少一个超参搜索特征,每个超参搜索特征对应一组超参搜索对;
本实施例中,超参数确定装置可以基于通过步骤101获取到的目标数据集合,通过编码器获取包括至少一个超参搜索特征的超参搜索特征集合,且每个超参搜索特征对应一组超参搜索对。
为了便于理解,以目标数据集合中包括m组超参搜索对为示例进行说明,请再次参阅图3,对于第1组超参搜索对包括超参数配置x1以及性能参数y1,编码器可以为第1组超参搜索对获取超参搜索特征r1。对于第2组超参搜索对包括超参数配置x2以及性能参数y2,编码器可以为第2组超参搜索对获取超参搜索特征r2。而对于第m组超参搜索对包括超参数配置xm以及性能参数ym,编码器可以为第m组超参搜索对获取超参搜索特征rm,即超参搜索特征集合A2可以包括与超参搜索对所对应的m个超参搜索特征。
103、基于超参搜索特征集合以及至少一个待预测超参数配置,通过注意力机制模块获取至少一个特征表示结果;
本实施例中,超参数确定装置可以基于通过步骤102获取到的超参搜索特征集合,以及至少一个待预测超参数配置,通过注意力机制模块获取至少一个特征表示结果。
为了便于理解,以超参搜索特征集合包括m个超参搜索特征为示例进行说明,请再次参阅图3,将超参搜索特征集合中的超参搜索特征r1以及待预测超参数配置A3作为注意力机制模块的输入,该待预测超参数配置A3为
Figure BDA00023614801500000810
注意力机制模块可以输出特征表示结果A4,且该特征表示结果A4为r*。应理解,在实际应用中还可以基于其他待预测超参数配置获取特征表示结果,例如,将超参搜索特征集合中的超参搜索特征r2以及待预测超参数配置
Figure BDA00023614801500000812
作为注意力机制模块的输入,注意力机制模块可以输出特征表示结果r*。将超参搜索特征集合中的超参搜索特征rm以及待预测超参数配置
Figure BDA00023614801500000811
作为注意力机制模块的输入,注意力机制模块可以输出特征表示结果r*
104、基于特征表示结果以及至少一个待预测超参数配置,通过解码器获取至少一个性能预测结果,其中,性能预测结果与待预测超参数配置具有对应关系;
本实施例中,超参数确定装置可以基于通过步骤103获取到特征表示结果以及待预测超参数配置,通过解码器获取至少一个性能预测结果,该性能预测结果与待预测超参数配置具有对应关系。
为了便于理解,以特征表示结果r*为示例进行说明,请再次参阅图3,将超参搜索特征集合中的超参搜索特征r1以及待预测超参数配置
Figure BDA0002361480150000081
作为解码器的输入,解码器可以输出性能预测结果A5,该输出性能预测结果A5为
Figure BDA0002361480150000082
以及
Figure BDA0002361480150000083
应理解,在实际应用中还可以基于其他待预测超参数配置以及特征表示结果获取性能预测结果,例如,将超参搜索特征集合中的超参搜索特征r2以及待预测超参数配置
Figure BDA0002361480150000084
作为注解码器的输入,解码器可以输出性能预测结果
Figure BDA0002361480150000085
以及
Figure BDA0002361480150000086
将超参搜索特征集合中的超参搜索特征rm以及待预测超参数配置
Figure BDA0002361480150000087
作为解码器的输入,解码器可以输出性能预测结果
Figure BDA0002361480150000088
以及
Figure BDA0002361480150000089
由于超参搜索特征集合包括m个超参搜索特征,因此可以通过解码器获取到m个性能预测结果。
105、根据至少一个性能预测结果,从至少一个待预测超参数配置中确定目标超参数配置。
本实施例中,超参数确定装置可以根据通过步骤104获取到的至少一个性能预测结果,从至少一个待预测超参数配置中确定目标超参数配置。
具体地,通过性能预测结果可以得到性能参数,例如性能预测结果为
Figure BDA0002361480150000091
以及
Figure BDA0002361480150000092
则预测性能参数
Figure BDA0002361480150000093
Figure BDA0002361480150000094
与N(μ11)之间服从正态分布。例如性能预测结果为
Figure BDA0002361480150000095
以及
Figure BDA0002361480150000096
则预测性能参数
Figure BDA0002361480150000097
Figure BDA0002361480150000098
与N(μ22)之间服从正态分布。例如性能预测结果为
Figure BDA0002361480150000099
以及
Figure BDA00023614801500000910
则预测性能参数
Figure BDA00023614801500000911
Figure BDA00023614801500000912
与N(μmm)之间服从正态分布。然后从m个预测性能参数中确定最优的参数,即可该与参数对应性能预测结果,然后根据该性能预测结果对应的待预测超参数配置确定目标超参数配置。若
Figure BDA00023614801500000913
为较好的性能参数,则性能预测结果
Figure BDA00023614801500000914
以及
Figure BDA00023614801500000915
对应的待预测超参数配置
Figure BDA00023614801500000916
为目标超参数配置。若
Figure BDA00023614801500000917
为较好的性能参数,则性能预测结果
Figure BDA00023614801500000918
以及
Figure BDA00023614801500000919
对应的待预测超参数配置
Figure BDA00023614801500000920
为目标超参数配置。
本申请实施例中,提供了一种超参数确定的方法,通过上述方式,采用神经过程输出各个待预测超参数配置所对应的性能预测结果,然后从中选择较优的性能预测结果,将该性能预测结果所对应的待预测超参数配置作为最终的目标超参数配置,整个过程相较于高斯过程的复杂度更低,从而提升超参数的配置效率。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的超参数确定的方法一个可选实施例中,超参数确定的方法还可以包括,
获取M个历史数据集合,其中,M个历史数据集合包括目标历史数据集合,M为大于或等于1的整数,M个历史数据集合中的每个历史数据集合包括至少一组待训练超参搜索对,且目标历史数据集合包括至少一组待训练超参搜索对,待训练超参搜索对包括待训练超参数配置以及真实性能指标;
基于目标历史数据集合以及M个历史数据集合,通过待训练编码器输出待训练超参搜索特征集合,其中,待训练超参搜索特征集合包括多个待训练超参搜索特征,且待训练超参搜索特征与待训练超参搜索对具有对应关系;
基于待训练超参搜索特征集合以及目标历史数据集合中所包含的待训练超参数配置,通过待训练注意力机制模块输出目标历史数据集合所对应的待训练特征表示结果;
基于待训练特征表示结果以及目标历史数据集合中所包含的待训练超参数配置,通过待训练解码器输出预测性能指标;
基于预测性能指标以及真实性能指标,采用第一损失函数确定模型参数;
根据模型参数更新待训练编码器、待训练注意力机制模块以及待训练解码器。
本实施例中,超参数确定装置可以获取到M个历史数据集合,该M个历史数据集合包括目标历史数据集合,而M个历史数据集合中的每个历史数据集合包括至少一组待训练超参搜索对,并且目标历史数据集合包括至少一组待训练超参搜索对,待训练超参搜索对包括待训练超参数配置以及真实性能指标,然后基于目标历史数据集合以及M个历史数据集合,通过待训练编码器输出待训练超参搜索特征集合,该待训练超参搜索特征集合包括多个待训练超参搜索特征,且待训练超参搜索特征与待训练超参搜索对具有对应关系,进而基于待训练超参搜索特征集合以及目标历史数据集合中所包含的待训练超参数配置,通过待训练注意力机制模块输出目标历史数据集合所对应的待训练特征表示结果,再基于待训练特征表示结果以及目标历史数据集合中所包含的待训练超参数配置,通过待训练解码器输出预测性能指标,基于预测性能指标以及真实性能指标,采用第一损失函数确定模型参数,最后可以根据所确定的模型参数更新待训练编码器、待训练注意力机制模块以及待训练解码器,其中M为大于或等于1的整数。
为了便于理解,以目标数据集合中包括m组超参搜索对为示例进行说明,请参阅图4,图4为本申请实施例中超参数确定的方法另一流程示意图,如图所示,可以获取到M个历史数据集合B1,并且该M个历史数据集合B1中包括目标历史数据集合B2(即图4中的数据集合m),M个历史数据集合B1中的每个历史数据集合包括至少一组待训练超参搜索对,例如数据集合1包括多组超参数配置和性能参数,即包括从超参数配置
Figure BDA0002361480150000101
以及性能参数
Figure BDA0002361480150000102
至超参数配置
Figure BDA0002361480150000103
以及性能参数
Figure BDA0002361480150000104
的内容。而数据集合M也可以包括多组超参数配置和性能参数,即包括从超参数配置
Figure BDA0002361480150000105
以及性能参数
Figure BDA0002361480150000106
至超参数配置
Figure BDA0002361480150000107
以及性能参数
Figure BDA0002361480150000108
的内容。其中目标历史数据集合B2也包括至少一组待训练超参搜索对,即数据集合m包括超参数配置
Figure BDA0002361480150000109
以及性能参数
Figure BDA00023614801500001010
至超参数配置
Figure BDA00023614801500001011
以及性能参数
Figure BDA00023614801500001012
进一步地,将前述获取的目标历史数据集合以及M个历史数据集合作为待训练编码器的输入,待训练编码器可以输出待训练超参搜索特征集合B3,该待训练超参搜索特征集合B3包括多个待训练超参搜索特征,例如
Figure BDA00023614801500001013
以及
Figure BDA00023614801500001014
且待训练超参搜索特征与待训练超参搜索对具有对应关系,例如,待训练超参搜索特征
Figure BDA00023614801500001015
与待训练超参搜索对
Figure BDA00023614801500001016
以及
Figure BDA00023614801500001017
相对应,待训练超参搜索特征
Figure BDA00023614801500001018
与待训练超参搜索对
Figure BDA00023614801500001019
以及
Figure BDA00023614801500001020
相对应,待训练超参搜索特征
Figure BDA00023614801500001021
与待训练超参搜索对
Figure BDA00023614801500001022
以及
Figure BDA00023614801500001023
相对应。
再进一步地,将待训练超参搜索特征集合,以及目标历史数据集合中所包含的待训练超参数配置作为待训练注意力机制模块的输入,待训练注意力机制模块输出目标历史数据集合所对应的待训练特征表示结果,例如输入的待训练超参数配置B4为
Figure BDA00023614801500001024
待训练注意力机制模块可以输出待训练特征表示结果B5,该待训练特征表示结果B5表示为
Figure BDA00023614801500001025
然后再将待训练特征表示结果B5以及目标历史数据集合中所包含的待训练超参数配置作为待训练解码器的输入,可以获取到预测性能结果B6,该预测性能结果B6表示为
Figure BDA00023614801500001026
以及
Figure BDA00023614801500001027
而预测性能指标
Figure BDA00023614801500001028
Figure BDA00023614801500001029
Figure BDA00023614801500001030
Figure BDA00023614801500001031
之间服从正态分布。进而根据真实性能指标B7以及该预测性能指标,其中真实性能指标B7为
Figure BDA00023614801500001032
然后采用第一损失函数确定模型参数
Figure BDA00023614801500001033
最后根据该模型参数
Figure BDA00023614801500001034
更新待训练编码器、待训练注意力机制模块以及待训练解码器。其中,
Figure BDA00023614801500001035
可以代表对目标历史数据集合以及M个历史数据集合的所有超参数搜索的隐层表示向量进行聚合(aggregation)查询所得到的结果,而j可以代表第j个需要预测其性能的一组超参数配置。
具体地,超参数确定装置可以采用前述所得到的模型参数
Figure BDA00023614801500001036
对待训练编码器进行更新,从而得到编码器。还可以采用前述所得到的模型参数
Figure BDA00023614801500001037
对待训练注意力机制模块进行更新,得到注意力机制模块。其次,还可以采用前述所得到的模型参数
Figure BDA00023614801500001038
对待训练解码器进行更新,得到解码器。
本申请实施例中,提供了一种训练编码器,注意力模块以及解码器的方法,通过上述方式,采用历史数据集合对编码器,注意力模块以及解码器进行训练,得到目标数据集合最佳预测性能指标,从而通过最佳该预测性能指标确定模型参数,从而对编码器,注意力模块以及解码器进行参数更新,从而提升模型输出的准确性。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的超参数确定的方法一个可选实施例中,基于待训练超参搜索特征集合以及目标历史数据集合中所包含的待训练超参数配置,通过待训练注意力机制模块输出目标历史数据集合所对应的待训练特征表示结果,可以包括:
从目标历史数据集合中确定第一数据集合以及第二数据集合,其中,第一数据集合与第二数据集合用于构成目标历史数据集合,第一数据集合包括至少一组待训练超参搜索对,第二数据集合包括至少一组待训练超参搜索对,待训练超参搜索对包括待训练超参数配置以及真实性能指标;
基于待训练超参搜索特征集合以及第一数据集合中所包含的待训练超参数配置,通过待训练注意力机制模块输出第一数据集合所对应的待训练特征表示结果;
基于待训练特征表示结果以及目标历史数据集合中所包含的待训练超参数配置,通过待训练解码器输出预测性能指标,可以包括:
基于第一数据集合所对应的待训练特征表示结果,以及第一数据集合中所包含的待训练超参数配置,通过待训练解码器输出第一数据集合所对应的预测性能指标;
基于预测性能指标以及真实性能指标,采用第一损失函数确定模型参数,可以包括:
基于第一数据集合所对应的预测性能指标,以及第二数据集合所对应的真实性能指标,采用第一损失函数确定模型参数。
本实施例中,超参数确定装置可以从目标历史数据集合中确定第一数据集合以及第二数据集合,该第一数据集合与第二数据集合用于构成目标历史数据集合,第一数据集合包括至少一组待训练超参搜索对,第二数据集合包括至少一组待训练超参搜索对,待训练超参搜索对包括待训练超参数配置以及真实性能指标,然后基于待训练超参搜索特征集合以及第一数据集合中所包含的待训练超参数配置,通过待训练注意力机制模块输出第一数据集合所对应的待训练特征表示结果,该待训练特征表示结果即可以当做历史超参数搜索经验,可以用于预测性能指标。
进一步地,基于所获取的第一数据集合所对应的待训练特征表示结果,以及第一数据集合中所包含的待训练超参数配置,通过待训练解码器输出第一数据集合所对应的预测性能指标,由于获取到预测性能指标,而在历史数据集合中可以获取真实性能指标,因此可以通过最大化条件概率似然来实现参数优化,即基于第一数据集合所对应的预测性能指标,以及第二数据集合所对应的真实性能指标,采用第一损失函数确定模型参数。
具体地,超参数确定装置可以获取参数初始值,然后根据该参数初始值以及第一损失函数,获取目标历史数据集合在神经过程的参数,最后根据目标历史数据集合在神经过程的参数以及参数初始值,更新参数初始值,得到模型参数。
进一步地,以第一数据集合为h,第二数据集合为
Figure BDA0002361480150000111
为示例进行说明,其中第一损失函数可以表示为:
Figure BDA0002361480150000112
其中,L1()表示第一损失函数,Hh表示第一数据集合所对应的预测性能指标,
Figure BDA0002361480150000129
表示第二数据集合所对应的真实性能指标,E表示期望,θ表示神经过程参数,pθ表示基于θ,根据
Figure BDA0002361480150000121
获取Hh的概率。
其次,根据目标历史数据集合在神经过程的参数以及参数初始值,更新参数初始值,得到模型参数,可以采用如下方式更新得到模型参数:
Figure BDA0002361480150000122
Figure BDA0002361480150000123
其中,
Figure BDA0002361480150000124
表示模型参数,
Figure BDA0002361480150000125
表示参数初始值,
Figure BDA0002361480150000126
表示目标历史数据集合在神经过程的参数,ε表示第一学习速率,
Figure BDA0002361480150000127
表示以θ为参数的神经网络在第k步的梯度,α表示第二学习速率。
本申请实施例中,提供了一种确定函数模型的方法,通过上述方式,采用第一数据集合以及第二数据集合分别对应的预测性能指标,再通过该预测性能指标采用第一损失函数确定模型参数,提升模型参数的稳定性以及可靠性,从而提升模型输出准确性,其次,整个过程复杂度较低,从而提升超参数的配置效率。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的超参数确定的方法一个可选实施例中,基于待训练超参搜索特征集合以及目标历史数据集合中所包含的待训练超参数配置,通过待训练注意力机制模块输出目标历史数据集合所对应的待训练特征表示结果,可以包括:
从目标历史数据集合中获取目标待训练超参数配置;
根据目标待训练超参数配置,从M个历史数据集合中获取相似数据集;
根据相似数据集获取相似度衡量向量;
基于目标待训练超参数配置、相似数据集以及相似度衡量向量,通过待训练注意力机制模块所采用的多传感头函数,输出目标历史数据集合所对应的待训练特征表示结果。
本实施例中,超参数确定装置可以从目标历史数据集合中获取目标待训练超参数配置,然后根据目标待训练超参数配置,从M个历史数据集合中获取相似数据集,进而根据相似数据集获取相似度衡量向量在,最后基于目标待训练超参数配置、相似数据集以及相似度衡量向量,通过待训练注意力机制模块所采用的多传感头函数,输出目标历史数据集合所对应的待训练特征表示结果。
具体地,若在同一个数据集合上,当前要预测其性能的超参数配置和某超参优化经验中的超参数配置相似较高,则可能其性能就和超参数优化经验中的超参数配置相似,或者或相似匹配。但这里由于本实施例需要考虑迁移历史数据集合所采集到的所有超参数优化经验,因此需要考虑数据集合的相似性。即历史超参数优化经验所对应的历史数据集合和当前目标历史数据集合足够相似时,则前述所提到的相似匹配才能成立。因此,超参数确定装置可以采用如下方式输出待训练特征表示结果:
Figure BDA0002361480150000128
其中,
Figure BDA0002361480150000131
表示目标历史数据集合所对应的待训练特征表示结果,MultiHead()表示多传感头函数,
Figure BDA0002361480150000132
表示目标待训练超参数配置,X0:M表示M个历史数据集合所对应的键,R0:M表示M个历史数据集合所对应的值,s表示相似度衡量向量,s具体为s=[1,s1,...,sM],Wx表示映射X所对应的矩阵和Wr表示映射R所对应的矩阵。
超参优化的核心思想在于相似匹配。如果在同一个数据集上,当前要预测其性能的超参配置和过往的某个超参优化经验的超参配置比较相似,那很有可能其性能就和这个超参优化经验中的性能基本匹配。由于需要考虑迁移历史所有数据集上采集到的所有超参优化经验,因此,相似匹配要考虑另外一个维度,即数据集的相似性。当历史上某个超参优化经验其对应的数据集和当前的数据集是足够相似的情形下,相似匹配才能够成立。
MultiHead()函数的输入由四部分构成,即查询(query)为
Figure BDA0002361480150000133
键(key)为X0:M,值(value)为R0:M,数据集的相似度衡量向量s=[1,s1,...,sM],即当前数据集的当前超参配置作为query,去查询跟该数据集相似的其余数据集中跟该超参配置相似的keys,然后将这些keys所对应的value进行集合和迁移。
本申请实施例中,提供了一种迁移历史数据集合中超参数优化数据对的方法,通过上述方式,在考虑数据集合的相似性的情况下,迁移历史数据集合中超参数优化数据对,能够提升获取目标待训练超参数配置的效率,从而提升待训练特征表示结果的获取效率,因此能够使得超参数优化数据对的迁移效率提升。
可选地,在上述图2对应的实施例的基础上,本申请实施例提供的超参数确定的方法一个可选实施例中,参数确定的方法还可以包括:
获取超参初始配置以及全局共享超参搜索的初始配置;
根据超参初始配置、初始配置以及第二损失函数,获取目标数据集合所对应的目标超参初始配置;
根据目标超参初始配置以及超参初始配置,更新超参初始配置,得到超参初始更新配置;
获取目标数据集合,可以包括:
根据超参初始更新配置获取目标数据集合。
本实施例中,超参数确定装置可以获取到超参初始配置以及全局共享超参搜索的初始配置,然后根据超参初始配置、初始配置以及第二损失函数,获取目标数据集合所对应的目标超参初始配置,进而根据目标超参初始配置以及超参初始配置,更新超参初始配置,得到超参初始更新配置。其中,超参数确定装置可以根据超参初始更新配置获取目标数据集合。
具体地,第二损失函数需要最大化nI组超参数配置中,至少有一组所对应的替代函数所预测的模型性能,因此第二损失函数可以表示为:
Figure BDA0002361480150000134
其中,L2()表示第二损失函数,
Figure BDA0002361480150000135
表示nI个全局共享超参搜索的初始配置,θ表示神经过程参数,j表示从1至nI的整数,β表示控制参数,μIj表示预测性能结果。
进一步地,序列化超参数优化算法在初始启动阶段,需要随机选择nI组超参数配置训练和测试目标模型,从而得到相应的性能指标。因此可以从历史数据集合上收集的超参数优化经验上训练出nI个全局共享的超参数搜索的初始配置
Figure BDA0002361480150000141
针对第m个具体数据集合,则可以从初始配置
Figure BDA0002361480150000142
出发进行k步的梯度优化,实现初始超参配置针对数据集合的定制。其次,本实施例还可以通过所有数据集上得到的目标超参初始配置
Figure BDA0002361480150000143
来共同更新全局共享的超参初始配置
Figure BDA0002361480150000144
使得其更加泛化,因此根据目标超参初始配置以及超参初始配置,可以采用如下方式更新得到超参初始更新配置:
Figure BDA0002361480150000145
Figure BDA0002361480150000146
其中,
Figure BDA0002361480150000147
表示超参初始更新配置,ε表示第一学习速率,
Figure BDA0002361480150000148
表示以θ为参数的神经网络在第k步的梯度,α表示第二学习速率,
Figure BDA0002361480150000149
表示目标超参初始配置,
Figure BDA00023614801500001410
表示超参初始配置。
本实施例中,提供了一种迁移超参优化的初始配置的方法,通过上述方式,通过所获取的更加泛化的超参初始更新配置,以该超参初始更新配置获取的目标数据集合,是的目标数据集合具有更好的数据包括性以及可选择性。其次充分利用历史数据集合的调参经验,可以在目标历史数据集合上得到较理想的模型性能,从而提升模型稳定性。
下面对本申请中的超参数确定装置进行详细描述,请参阅图5,图5为本申请实施例中超参数确定装置一个实施例示意图,超参数确定装置200包括:
获取模块201,用于获取目标数据集合,其中,目标数据集合包括至少一组超参搜索对,每组超参搜索对包括超参数配置以及性能参数;
获取模块201,还用于基于目标数据集合,通过编码器获取超参搜索特征集合,其中,超参搜索特征集合包括至少一个超参搜索特征,每个超参搜索特征对应一组超参搜索对;
获取模块201,还用于基于超参搜索特征集合以及至少一个待预测超参数配置,通过注意力机制模块获取至少一个特征表示结果,其中,特征表示结果与待预测超参数配置具有一一对应的关系;
获取模块201,还用于基于特征表示结果以及至少一个待预测超参数配置,通过解码器获取至少一个性能预测结果,其中,性能预测结果与待预测超参数配置具有对应关系;
确定模块202,用于根据至少一个性能预测结果,从至少一个待预测超参数配置中确定目标超参数配置,其中,目标超参数配置包括已配置的超参数。
可选地,在上述图5所对应的实施例的基础上,本申请实施例提供的超参数确定装置200的另一实施例中,超参数确定装置200还包括输出模块203以及更新模块204;
获取模块201,还用于获取M个历史数据集合,其中,M个历史数据集合包括目标历史数据集合,M为大于或等于1的整数,M个历史数据集合中的每个历史数据集合包括至少一组待训练超参搜索对,且目标历史数据集合包括至少一组待训练超参搜索对,待训练超参搜索对包括待训练超参数配置以及真实性能指标;
输出模块203,用于基于目标历史数据集合以及M个历史数据集合,通过待训练编码器输出待训练超参搜索特征集合,其中,待训练超参搜索特征集合包括多个待训练超参搜索特征,且待训练超参搜索特征与待训练超参搜索对具有对应关系;
输出模块203,还用于基于待训练超参搜索特征集合以及目标历史数据集合中所包含的待训练超参数配置,通过待训练注意力机制模块输出目标历史数据集合所对应的待训练特征表示结果;
输出模块203,还用于基于待训练特征表示结果以及目标历史数据集合中所包含的待训练超参数配置,通过待训练解码器输出预测性能指标;
确定模块202,还用于基于预测性能指标以及真实性能指标,采用第一损失函数确定模型参数;
更新模块204,用于根据模型参数更新待训练编码器、待训练注意力机制模块以及待训练解码器。
可选地,在上述图5所对应的实施例的基础上,本申请实施例提供的超参数确定装置200的另一实施例中,
更新模块204,具体用于采用模型参数更新待训练编码器,得到编码器;
采用模型参数更新待训练注意力机制模块,得到注意力机制模块;
采用模型参数更新待训练解码器,得到解码器。
可选地,在上述图5所对应的实施例的基础上,本申请实施例提供的超参数确定装置200的另一实施例中,
输出模块203,具体用于从目标历史数据集合中确定第一数据集合以及第二数据集合,其中,第一数据集合与第二数据集合用于构成目标历史数据集合,第一数据集合包括至少一组待训练超参搜索对,第二数据集合包括至少一组待训练超参搜索对,待训练超参搜索对包括待训练超参数配置以及真实性能指标;
基于待训练超参搜索特征集合以及第一数据集合中所包含的待训练超参数配置,通过待训练注意力机制模块输出第一数据集合所对应的待训练特征表示结果;
输出模块203,具体用于基于第一数据集合所对应的待训练特征表示结果,以及第一数据集合中所包含的待训练超参数配置,通过待训练解码器输出第一数据集合所对应的预测性能指标;
确定模块202,具体用于基于第一数据集合所对应的预测性能指标,以及第二数据集合所对应的真实性能指标,采用第一损失函数确定模型参数。
可选地,在上述图5所对应的实施例的基础上,本申请实施例提供的超参数确定装置200的另一实施例中,
确定模块202,具体用于获取参数初始值;
根据参数初始值以及第一损失函数,获取目标历史数据集合在神经过程的参数;
根据目标历史数据集合在神经过程的参数以及参数初始值,更新参数初始值,得到模型参数。
可选地,在上述图5所对应的实施例的基础上,本申请实施例提供的超参数确定装置200的另一实施例中,
第一损失函数表示为:
Figure BDA0002361480150000161
其中,L1()表示第一损失函数,Hh表示第一数据集合所对应的预测性能指标,
Figure BDA00023614801500001612
表示第二数据集合所对应的真实性能指标,E表示期望,θ表示神经过程参数,pθ表示基于θ,根据
Figure BDA0002361480150000162
获取Hh的概率。
可选地,在上述图5所对应的实施例的基础上,本申请实施例提供的超参数确定装置200的另一实施例中,
更新模块204,具体用于采用如下方式更新得到模型参数:
Figure BDA0002361480150000163
Figure BDA0002361480150000164
其中,
Figure BDA0002361480150000165
表示模型参数,
Figure BDA0002361480150000166
表示参数初始值,
Figure BDA0002361480150000167
表示目标历史数据集合在神经过程的参数,ε表示第一学习速率,
Figure BDA0002361480150000168
表示以θ为参数的神经网络在第k步的梯度,α表示第二学习速率。
可选地,在上述图5所对应的实施例的基础上,本申请实施例提供的超参数确定装置200的另一实施例中,
输出模块203,具体用于从目标历史数据集合中获取目标待训练超参数配置;
根据目标待训练超参数配置,从M个历史数据集合中获取相似数据集;
根据相似数据集获取相似度衡量向量;
基于目标待训练超参数配置、相似数据集以及相似度衡量向量,通过待训练注意力机制模块所采用的多传感头函数,输出目标历史数据集合所对应的待训练特征表示结果。
可选地,在上述图5所对应的实施例的基础上,本申请实施例提供的超参数确定装置200的另一实施例中,
输出模块203,具体用于采用如下方式输出待训练特征表示结果:
Figure BDA0002361480150000169
其中,
Figure BDA00023614801500001610
表示目标历史数据集合所对应的待训练特征表示结果,MultiHead()表示多传感头函数,
Figure BDA00023614801500001611
表示目标待训练超参数配置,X0:M表示M个历史数据集合所对应的键,R0:M表示M个历史数据集合所对应的值,s表示相似度衡量向量。
可选地,在上述图5所对应的实施例的基础上,本申请实施例提供的超参数确定装置200的另一实施例中,
获取模块201,还用于获取超参初始配置以及全局共享超参搜索的初始配置;
获取模块201,还用于根据超参初始配置、初始配置以及第二损失函数,获取目标数据集合所对应的目标超参初始配置;
更新模块204,还用于根据目标超参初始配置以及超参初始配置,更新超参初始配置,得到超参初始更新配置;
获取模块201,具体用于根据超参初始更新配置获取目标数据集合。
在一种可能的设计中,在本申请实施例的第二方面的另一实现方式中,
第二损失函数表示为:
Figure BDA0002361480150000171
其中,L2()表示第二损失函数,
Figure BDA0002361480150000172
表示nI个全局共享超参搜索的初始配置,θ表示神经过程参数,j表示从1至nI的整数,β表示控制参数,μIj表示预测性能结果。
可选地,在上述图5所对应的实施例的基础上,本申请实施例提供的超参数确定装置200的另一实施例中,
更新模块204,具体用于采用如下方式更新得到超参初始更新配置:
Figure BDA0002361480150000173
Figure BDA0002361480150000174
其中,
Figure BDA0002361480150000175
表示超参初始更新配置,ε表示第一学习速率,
Figure BDA0002361480150000176
表示以θ为参数的神经网络在第k步的梯度,α表示第二学习速率,
Figure BDA0002361480150000177
表示目标超参初始配置,
Figure BDA0002361480150000178
表示超参初始配置。
本申请实施例还提供了另一种超参数确定装置,超参数确定装置可以部署于电子设备上,该电子设备可以是服务器,请参阅图6,图6为本申请实施例中服务器一个实施例示意图,如图所示,该服务器300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在服务器300上执行存储介质330中的一系列指令操作。
服务器300还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图6所示的服务器结构。
在本申请实施例中,该服务器所包括的CPU 322用于执行如图2对应的各个实施例。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (15)

1.一种超参数确定的方法,其特征在于,包括:
获取目标数据集合,其中,所述目标数据集合包括至少一组超参搜索对,每组超参搜索对包括超参数配置以及性能参数;
基于所述目标数据集合,通过编码器获取超参搜索特征集合,其中,所述超参搜索特征集合包括至少一个超参搜索特征,每个超参搜索特征对应一组超参搜索对;
基于所述超参搜索特征集合以及至少一个待预测超参数配置,通过注意力机制模块获取至少一个特征表示结果,其中,所述特征表示结果与所述待预测超参数配置具有一一对应的关系;
基于所述特征表示结果以及所述至少一个待预测超参数配置,通过解码器获取至少一个性能预测结果,其中,所述性能预测结果与所述待预测超参数配置具有对应关系;
根据所述至少一个性能预测结果,从所述至少一个待预测超参数配置中确定目标超参数配置,其中,所述目标超参数配置包括已配置的超参数。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取M个历史数据集合,其中,所述M个历史数据集合包括目标历史数据集合,所述M为大于或等于1的整数,所述M个历史数据集合中的每个历史数据集合包括至少一组待训练超参搜索对,且所述目标历史数据集合包括至少一组待训练超参搜索对,所述待训练超参搜索对包括待训练超参数配置以及真实性能指标;
基于所述目标历史数据集合以及所述M个历史数据集合,通过待训练编码器输出待训练超参搜索特征集合,其中,所述待训练超参搜索特征集合包括多个待训练超参搜索特征,且所述待训练超参搜索特征与所述待训练超参搜索对具有对应关系;
基于所述待训练超参搜索特征集合以及所述目标历史数据集合中所包含的待训练超参数配置,通过待训练注意力机制模块输出所述目标历史数据集合所对应的待训练特征表示结果;
基于所述待训练特征表示结果以及所述目标历史数据集合中所包含的待训练超参数配置,通过待训练解码器输出预测性能指标;
基于所述预测性能指标以及真实性能指标,采用第一损失函数确定模型参数;
根据所述模型参数更新所述待训练编码器、所述待训练注意力机制模块以及所述待训练解码器。
3.根据权利要求2所述的方法,其特征在于,所述根据所述模型参数更新所述待训练编码器、所述待训练注意力机制模块以及所述待训练解码器,包括:
采用所述模型参数更新所述待训练编码器,得到所述编码器;
采用所述模型参数更新所述待训练注意力机制模块,得到所述注意力机制模块;
采用所述模型参数更新所述待训练解码器,得到所述解码器。
4.根据权利要求2所述的方法,其特征在于,所述基于所述待训练超参搜索特征集合以及所述目标历史数据集合中所包含的待训练超参数配置,通过待训练注意力机制模块输出所述目标历史数据集合所对应的待训练特征表示结果,包括:
从所述目标历史数据集合中确定第一数据集合以及第二数据集合,其中,所述第一数据集合与所述第二数据集合用于构成所述目标历史数据集合,所述第一数据集合包括至少一组待训练超参搜索对,所述第二数据集合包括至少一组待训练超参搜索对,所述待训练超参搜索对包括待训练超参数配置以及真实性能指标;
基于所述待训练超参搜索特征集合以及所述第一数据集合中所包含的待训练超参数配置,通过所述待训练注意力机制模块输出所述第一数据集合所对应的待训练特征表示结果;
所述基于所述待训练特征表示结果以及所述目标历史数据集合中所包含的待训练超参数配置,通过待训练解码器输出预测性能指标,包括:
基于所述第一数据集合所对应的待训练特征表示结果,以及所述第一数据集合中所包含的待训练超参数配置,通过所述待训练解码器输出所述第一数据集合所对应的预测性能指标;
所述基于所述预测性能指标以及真实性能指标,采用第一损失函数确定模型参数,包括:
基于所述第一数据集合所对应的预测性能指标,以及所述第二数据集合所对应的真实性能指标,采用第一损失函数确定所述模型参数。
5.根据权利要求4所述的方法,其特征在于,所述采用第一损失函数确定所述模型参数,包括:
获取参数初始值;
根据所述参数初始值以及所述第一损失函数,获取所述目标历史数据集合在神经过程的参数;
根据所述目标历史数据集合在神经过程的参数以及所述参数初始值,更新所述参数初始值,得到所述模型参数。
6.根据权利要求4或5所述的方法,其特征在于,所述第一损失函数表示为:
Figure FDA0002361480140000021
其中,所述L1()表示第一损失函数,所述Hh表示所述第一数据集合所对应的预测性能指标,所述
Figure FDA0002361480140000022
表示所述第二数据集合所对应的真实性能指标,所述E表示期望,所述θ表示神经过程参数,所述pθ表示基于所述θ,根据所述
Figure FDA0002361480140000023
获取所述Hh的概率。
7.根据权利要求6所述的方法,其特征在于,所述根据所述目标历史数据集合在神经过程的参数以及所述参数初始值,更新所述参数初始值,得到所述模型参数,包括:
采用如下方式更新得到所述模型参数:
Figure FDA0002361480140000024
Figure FDA0002361480140000025
其中,所述
Figure FDA0002361480140000026
表示模型参数,所述
Figure FDA0002361480140000027
表示所述参数初始值,所述
Figure FDA0002361480140000028
表示所述目标历史数据集合在神经过程的参数,所述ε表示第一学习速率,所述
Figure FDA0002361480140000029
表示以所述θ为参数的神经网络在第k步的梯度,所述α表示第二学习速率。
8.根据权利要求2所述的方法,其特征在于,所述基于所述待训练超参搜索特征集合以及所述目标历史数据集合中所包含的待训练超参数配置,通过待训练注意力机制模块输出所述目标历史数据集合所对应的待训练特征表示结果,包括:
从所述目标历史数据集合中获取目标待训练超参数配置;
根据所述目标待训练超参数配置,从所述M个历史数据集合中获取相似数据集;
根据所述相似数据集获取相似度衡量向量;
基于所述目标待训练超参数配置、所述相似数据集以及所述相似度衡量向量,通过所述待训练注意力机制模块所采用的多传感头函数,输出所述目标历史数据集合所对应的所述待训练特征表示结果。
9.根据权利要求8所述的方法,其特征在于,所述基于所述目标待训练超参数配置、所述相似数据集以及所述相似度衡量向量,通过所述待训练注意力机制模块所采用的多传感头函数,输出所述目标历史数据集合所对应的所述待训练特征表示结果,包括:
采用如下方式输出所述待训练特征表示结果:
Figure FDA0002361480140000031
其中,所述
Figure FDA0002361480140000032
表示所述目标历史数据集合所对应的所述待训练特征表示结果,所述MultiHead()表示所述多传感头函数,所述
Figure FDA0002361480140000033
表示所述目标待训练超参数配置,所述X0:M表示所述M个历史数据集合所对应的键,所述R0:M表示所述M个历史数据集合所对应的值,所述s表示所述相似度衡量向量。
10.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取超参初始配置以及全局共享超参搜索的初始配置;
根据所述超参初始配置、所述初始配置以及第二损失函数,获取所述目标数据集合所对应的目标超参初始配置;
根据所述目标超参初始配置以及所述超参初始配置,更新所述超参初始配置,得到超参初始更新配置;
所述获取目标数据集合,包括:
根据所述超参初始更新配置获取所述目标数据集合。
11.根据权利要求10所述的方法,其特征在于,所述第二损失函数表示为:
Figure FDA0002361480140000034
其中,所述L2()表示所述第二损失函数,所述
Figure FDA0002361480140000035
表示所述nI个全局共享超参搜索的初始配置,所述θ表示神经过程参数,所述j表示从1至所述nI的整数,所述β表示控制参数,所述μIj表示预测性能结果。
12.根据权利要求11所述的方法,其特征在于,所述根据所述目标超参初始配置以及所述超参初始配置,更新所述超参初始配置,得到超参初始更新配置,包括:
采用如下方式更新得到所述超参初始更新配置:
Figure FDA0002361480140000036
Figure FDA0002361480140000041
其中,所述
Figure FDA0002361480140000042
表示所述超参初始更新配置,所述ε表示第一学习速率,所述
Figure FDA0002361480140000043
表示以所述θ为参数的神经网络在第k步的梯度,所述α表示第二学习速率,所述
Figure FDA0002361480140000044
表示所述目标超参初始配置,所述
Figure FDA0002361480140000045
表示所述超参初始配置。
13.一种超参数确定装置,其特征在于,包括:
获取模块,用于获取目标数据集合,其中,所述目标数据集合包括至少一组超参搜索对,每组超参搜索对包括超参数配置以及性能参数;
所述获取模块,还用于基于所述目标数据集合,通过编码器获取超参搜索特征集合,其中,所述超参搜索特征集合包括至少一个超参搜索特征,每个超参搜索特征对应一组超参搜索对;
所述获取模块,还用于基于所述超参搜索特征集合以及至少一个待预测超参数配置,通过注意力机制模块获取至少一个特征表示结果,其中,所述特征表示结果与所述待预测超参数配置具有一一对应的关系;
所述获取模块,还用于基于所述特征表示结果以及所述至少一个待预测超参数配置,通过解码器获取至少一个性能预测结果,其中,所述性能预测结果与所述待预测超参数配置具有对应关系;
确定模块,用于根据所述至少一个性能预测结果,从所述至少一个待预测超参数配置中确定目标超参数配置,其中,所述目标超参数配置包括已配置的超参数。
14.一种服务器,其特征在于,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,所述处理器用于根据所述程序代码中的指令执行权利要求1至12中任一项所述的方法;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
15.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至12中任一项所述的方法。
CN202010024388.4A 2020-01-09 2020-01-09 一种超参数确定的方法、相关装置、设备及存储介质 Active CN111260074B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010024388.4A CN111260074B (zh) 2020-01-09 2020-01-09 一种超参数确定的方法、相关装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010024388.4A CN111260074B (zh) 2020-01-09 2020-01-09 一种超参数确定的方法、相关装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111260074A true CN111260074A (zh) 2020-06-09
CN111260074B CN111260074B (zh) 2022-07-19

Family

ID=70946917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010024388.4A Active CN111260074B (zh) 2020-01-09 2020-01-09 一种超参数确定的方法、相关装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111260074B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539536A (zh) * 2020-06-19 2020-08-14 支付宝(杭州)信息技术有限公司 一种评估业务模型超参数的方法和装置
WO2022083624A1 (zh) * 2020-10-21 2022-04-28 华为技术有限公司 一种模型的获取方法及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018036547A1 (zh) * 2016-08-26 2018-03-01 华为技术有限公司 一种数据处理的方法以及装置
US20190102693A1 (en) * 2017-09-29 2019-04-04 Facebook, Inc. Optimizing parameters for machine learning models
CN109635197A (zh) * 2018-12-17 2019-04-16 北京百度网讯科技有限公司 搜索方法、装置、电子设备及存储介质
CN110110861A (zh) * 2019-05-09 2019-08-09 北京市商汤科技开发有限公司 确定模型超参数及模型训练的方法和装置、存储介质
CN110598842A (zh) * 2019-07-17 2019-12-20 深圳大学 一种深度神经网络超参数优化方法、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018036547A1 (zh) * 2016-08-26 2018-03-01 华为技术有限公司 一种数据处理的方法以及装置
US20190102693A1 (en) * 2017-09-29 2019-04-04 Facebook, Inc. Optimizing parameters for machine learning models
CN109635197A (zh) * 2018-12-17 2019-04-16 北京百度网讯科技有限公司 搜索方法、装置、电子设备及存储介质
CN110110861A (zh) * 2019-05-09 2019-08-09 北京市商汤科技开发有限公司 确定模型超参数及模型训练的方法和装置、存储介质
CN110598842A (zh) * 2019-07-17 2019-12-20 深圳大学 一种深度神经网络超参数优化方法、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PRASANNA BALAPRAKASH, ETC.: "DeepHyper: Asynchronous Hyperparameter Search for Deep Neural Networks", 《2018 IEEE 25TH INTERNATIONAL CONFERENCE ON HIGH PERFORMANCE COMPUTING》 *
范子琨: "支持多源大数据的机器学习云平台", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
董婷等: "基于时空优化深度神经网络的AQI等级预测", 《计算机工程与应用》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539536A (zh) * 2020-06-19 2020-08-14 支付宝(杭州)信息技术有限公司 一种评估业务模型超参数的方法和装置
WO2022083624A1 (zh) * 2020-10-21 2022-04-28 华为技术有限公司 一种模型的获取方法及设备

Also Published As

Publication number Publication date
CN111260074B (zh) 2022-07-19

Similar Documents

Publication Publication Date Title
CN111930992B (zh) 神经网络训练方法、装置及电子设备
CN111797893B (zh) 一种神经网络的训练方法、图像分类系统及相关设备
CN112949786A (zh) 数据分类识别方法、装置、设备及可读存储介质
CN111046275B (zh) 基于人工智能的用户标签确定方法及装置、存储介质
CN113139628B (zh) 样本图像的识别方法、装置、设备及可读存储介质
CN113761261A (zh) 图像检索方法、装置、计算机可读介质及电子设备
CN114297338B (zh) 文本匹配方法、装置、存储介质和程序产品
CN116580257A (zh) 特征融合模型训练及样本检索方法、装置和计算机设备
CN113240079A (zh) 一种模型训练方法及装置
CN113254716B (zh) 视频片段检索方法、装置、电子设备和可读存储介质
CN111260074B (zh) 一种超参数确定的方法、相关装置、设备及存储介质
CN113011387A (zh) 网络训练及人脸活体检测方法、装置、设备及存储介质
CN113239799B (zh) 训练方法、识别方法、装置、电子设备和可读存储介质
CN113762331A (zh) 关系型自蒸馏方法、装置和系统及存储介质
CN116958624A (zh) 指定材质的识别方法、装置、设备、介质及程序产品
CN115795025A (zh) 一种摘要生成方法及其相关设备
CN113821687A (zh) 一种内容检索方法、装置和计算机可读存储介质
CN114299517A (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
CN114298961A (zh) 图像处理方法、装置、设备及存储介质
CN113822293A (zh) 用于图数据的模型处理方法、装置、设备及存储介质
CN117011650B (zh) 一种图像编码器的确定方法及相关装置
CN117711001B (zh) 图像处理方法、装置、设备和介质
CN117216534A (zh) 一种模型训练方法、装置、设备、存储介质及产品
CN113704535A (zh) 图像检索模型的训练方法、装置、设备及存储介质
Mahyari Policy Augmentation: An Exploration Strategy For Faster Convergence of Deep Reinforcement Learning Algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40024421

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant