CN110188862B - 用于数据处理的模型超参数的搜索方法、装置、系统 - Google Patents
用于数据处理的模型超参数的搜索方法、装置、系统 Download PDFInfo
- Publication number
- CN110188862B CN110188862B CN201910295944.9A CN201910295944A CN110188862B CN 110188862 B CN110188862 B CN 110188862B CN 201910295944 A CN201910295944 A CN 201910295944A CN 110188862 B CN110188862 B CN 110188862B
- Authority
- CN
- China
- Prior art keywords
- model
- hyper
- parameter
- nth
- models
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了用于数据处理的模型超参数的搜索方法、装置、系统及存储介质,方法包括:基于超参数生成方法生成第n模型的超参数;判断第n模型是否为前N个模型;如果是则检测第n模型的运行速度;如果不是则基于预定策略得到第n模型的运行速度;如果满足预设条件,则检测第n模型的准确率,根据第n模型的准确率调整超参数生成方法,并重复上述步骤;基于所述n个模型得到最优超参数,并训练得到训练好的最优模型用于数据处理。根据本发明的方法、装置、系统及存储介质,通过测量少量模型的运行速度并基于上述测量结果采用高斯过程预测新模型的运行速度,极大加速模型搜索的测速过程,大幅提高模型超参数的搜索效率和准确率,大量节约了资源。
Description
技术领域
本发明涉及计算机技术领域,更具体地涉及用于数据处理的模型超参数的处理。
背景技术
现代的神经网络模型搜索(或称为神经网络结构搜索,Neural ArchitectureSearch,下文简称为模型搜索)是一种自动搜索取得神经网络模型超参数(hyper-parameter)的方法,可以解决神经网络超参数选取的人工成本,取得高效的模型。目前的方法一般依赖于使用一个外接的测速系统进行测速,以取得准确的具体硬件运行模型的速度。但这个过程一般耗时较长,有时模型搜索系统会浪费大量的时间用于测速。另一种方法是测出每个网络中的模块的硬件速度,但是该方法的缺陷是对于用时较短的模块,由于测速系统存在误差,无法有效测量。
因此,现有技术中的模型超参数搜索技术存在神经网络模型的运行速度的测试速度慢,误差大,不够准确的问题,导致神经网络模型搜索的效率低。
发明内容
考虑到上述问题而提出了本发明。本发明提供了一种用于数据处理的模型超参数搜索方法、装置、系统及计算机存储介质,通过测量少量模型的运行速度并基于上述测量结果采用高斯过程预测新模型的运行速度,极大加速模型搜索的测速过程,大幅度提高模型超参数的搜索效率和准确率,大量节约了资源。
根据本发明的第一方面,提供了一种用于数据处理的模型超参数搜索方法,包括:
步骤S1,基于超参数生成方法生成第n模型的超参数,并将所述第n模型的超参数编码为第n超参数向量,其中,n=1,2,3,……;
步骤S2,判断所述第n模型是否为前N个模型,N为预设值;如果所述第n模型是前N个模型,则检测所述第n模型的运行速度;如果所述第n模型不是前N个模型,则基于预定策略得到所述第n模型的运行速度;其中,所述预定策略中至少包括基于高斯过程函数预测所述第n模型的运行速度;
步骤S3,如果所述第n模型的运行速度满足预设条件,则检测所述第n模型的准确率;
步骤S4,根据所述第n模型的准确率调整所述超参数生成方法,且n增加1,并重复所述步骤S1至所述步骤S3;
步骤S5,基于所述n个模型得到最优超参数,并训练所述由所述最优超参数确定的模型得到训练好的最优模型用于数据处理。
根据本发明的第二方面,提供了一种用于数据处理的模型超参数搜索装置,包括:
超参数模块,用于基于超参数生成方法生成第n模型的超参数,并将所述第n模型的超参数编码为第n超参数向量,其中,n=1,2,3,……;
判断模块,用于判断所述第n模型是否为前N个模型,N为预设值;
速度获取模块,当所述第n模型是前N个模型时,用于检测所述第n模型的运行速度;当所述第n模型不是前N个模型时,用于基于预定策略得到所述第n模型的运行速度;其中,所述预定策略中至少包括基于高斯过程函数预测所述第n模型的运行速度;
准确率模块,当所述第n模型的运行速度满足预设条件时,用于检测所述第n模型的准确率;
调整模块,用于根据所述第n模型的准确率调整所述超参数生成方法,且将n增加1;
最优模型模块,用于基于所述n个模型得到最优超参数,并训练所述由所述最优超参数确定的模型得到训练好的最优模型用于数据处理。
根据本发明的第三方面,提供了一种用于数据处理的模型超参数搜索系统,包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现第一方面所述方法的步骤。
根据本发明另一方面,提供了一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被计算机执行时实现第一方面所述方法的步骤。
根据本发明实施例的用于数据处理的模型超参数搜索方法、装置、系统及计算机存储介质,通过测量少量模型的运行速度并基于上述测量结果采用高斯过程预测新模型的运行速度,极大加速模型搜索的测速过程,大幅度提高模型超参数的搜索效率和准确率,大量节约了资源。
附图说明
通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是用于实现根据本发明实施例的用于数据处理的模型超参数的搜索方法和装置的示例电子设备的示意性框图;
图2是根据本发明实施例的用于数据处理的模型超参数的搜索方法的示意性流程图;
图3是根据本发明实施例的用于数据处理的模型超参数的搜索方法的示例;
图4是根据本发明实施例的用于数据处理的模型超参数的搜索装置的示意性框图;
图5是根据本发明实施例的用于数据处理的模型超参数的搜索系统的示意性框图。
具体实施方式
为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。
首先,参考图1来描述用于实现本发明实施例的用于数据处理的模型超参数搜索方法和装置的示例电子设备100。
如图1所示,电子设备100包括一个或多个处理器101、一个或多个存储装置102、输入装置103、输出装置104、图像传感器105,这些组件通过总线系统106和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。
所述处理器101可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储装置102可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述输入装置103可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
所述输出装置104可以向外部(例如用户)输出各种信息(例如图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
所述图像传感器105可以拍摄用户期望的图像(例如照片、视频等),并且将所拍摄的图像存储在所述存储装置102中以供其它组件使用。
示例性地,用于实现根据本发明实施例的用于数据处理的模型超参数搜索方法和装置的示例电子设备可以被实现为诸如智能手机、平板电脑等。
随着神经网络模型广泛应用于计算机技术,如图像处理,语音处理,以及其他形式的数据处理中,对于神经网络模型的超参数搜索方法也广泛应用于上述技术领域。实际应用中,当模型应用于不同的硬件装置时,不同的硬件环境和/或软件环境对模型的友好程度不同,即由于不同的计算设备(例如手机中央处理器、图像处理器、神经网络专用芯片等)硬件设计不同,和/或使用的计算软件不同,同一个模型在不同计算设备和/或不同计算软件下,有着截然不同的性能,所以,为了充分适配硬件环境和/或软件环境,使用与之最匹配的模型,必须依据模型应用的硬件和计算软件进行模型速度估计,而不能根据模型计算量进行简单估计。而模型超参数搜索方法就是根据硬件设备运行模型的具体速度,来选择合适模型的超参数,剔除超过用时限制或不满足性能要求的模型。
下面,将参照图2描述根据本发明实施例的用于数据处理的模型超参数的搜索方法200。如图2所示,一种用于数据处理的模型超参数的搜索方法200,包括:
首先,在步骤S210,基于超参数生成方法生成第n模型的超参数,并将所述第n模型的超参数编码为第n超参数向量,其中,n=1,2,3,……;
在步骤S220,判断所述第n模型是否为前N个模型,N为预设值;如果所述第n模型是前N个模型,则检测所述第n模型的运行速度;如果所述第n模型不是前N个模型,则基于预定策略得到所述第n模型的运行速度;其中,所述预定策略中至少包括基于高斯过程函数预测所述第n模型的运行速度;
在步骤S230,如果所述第n模型的运行速度满足预设条件,则检测所述第n模型的准确率;
在步骤S240,根据所述第n模型的准确率调整所述超参数生成方法,且n增加1,并重复所述步骤S210至所述步骤S230;
在步骤S250,基于所述n个模型得到最优超参数,并训练所述由所述最优超参数确定的模型得到训练好的最优模型用于数据处理。
示例性地,根据本发明实施例的用于数据处理的模型超参数搜索方法可以在具有存储器和处理器的设备、装置或者系统中实现。
根据本发明实施例的用于数据处理的模型超参数搜索方法可以部署在图像采集端处,例如,可以部署在个人终端处,诸如智能电话、平板电脑、个人计算机等。替代地,根据本发明实施例的用于数据处理的模型超参数搜索方法还可以分布地部署在服务器端(或云端)。
根据本发明实施例的用于数据处理的模型超参数搜索方法,通过测量少量模型的运行速度并基于上述测量结果采用高斯过程预测新模型的运行速度,极大加速模型搜索的测速过程,大幅度提高模型超参数的搜索效率和准确率,大量节约了资源。
其中,根据本发明实施例的用于数据处理的模型超参数搜索方法可以得到实际应用的硬件和/或软件环境下的最优参数模型,基于最优参数模型可以采用训练数据进行训练后得到训练好的最优参数模型,直接用于数据处理。在模型超参数搜索的过程中,首先对N个模型进行测速,然后在此基础上以一定概率对后续过程中的部分模型实际测速,剩下的模型基于高斯过程函数进行速度估计;而所述高斯过程函数是在之前所有模型的超参数以及相应的速度的基础上进行迭代,每一次获得一个模型的运行速度,无论该模型的运行速度是否符合预定条件,其模型的超参数以及相应的速度均会高斯过程函数的参数产生影响。这样每次高斯过程函数进行运行速度的估计时都是在所有的超参数即对应的运行速度的数据的基础上进行,使得高斯过程函数的迭代过程无限接近于实际运行速度,有利于保证高斯过程函数的预测结果的准确度。同时,这种高斯过程函数的迭代过程仅仅在每次获取新的模型超参数及其对应的运行速度时,对高斯过程函数的参数进行修改,计算量远小于通过外接的测速系统,相对于使用具体硬件进行测速几乎没有时间开销,在能够保证模型的运行速度的高准确率的同时,使得模型的运行速度的测试时间大大减小,进而可以极大缩短模型超参数的搜索之间,大大提高了模型超参数的搜索效率。也就是说,根据本发明实施例的模型超参数搜索方法通过减小模型超参数搜索过程中的计算量,使得计算机系统中的计算资源得到节省,其中的计算资源具体为内容的硬件系统,比如内存等。
相应地,当根据本发明实施例的模型超参数搜索方法用于具体的技术领域,如图像处理,语音处理,以及其他形式的数据处理中时,模型超参数搜索方法的效率提高,可以得到超参数最优化的模型,减少了模型的计算造成长延时,以及对硬件的功耗、散热所带来的挑战,促进了图像处理,语音处理,以及其他形式的数据处理过程的效率的提高,以及减少了模型在上述应用过程中造成的长延时,以及对硬件带来的高功耗、散热问题。具体来说,以图像处理为例,根据本发明实施例的模型超参数搜索方法得到最优参数模型后,将训练数据输入最优参数模型进行训练,得到训练好的最优参数模型,该训练好的最优参数模型可以直接用于图像处理中进行神经网络的卷积计算,得到图像处理结果即相应的图像特征,根据该图像特征就可以用于实现目标图像检测或目标图像识别等功能。
需要说明的是,其中N可以根据实际需要进行设置,在此不做限制。且可以理解,其中,所述n的上限值大于N且可以根据实际需要选择,在此对n的上限值不做限制。
根据本发明实施例,步骤S210中,所述超参数生成方法可以是随机搜索(Randomsearch),网格搜索(Grid search),贝叶斯优化(Bayesian optimization),强化学习(Reinforcement learning),或进化算法(Evolutionary Algorithm),对于具体的超参数生成方法,此不做限制。
应了解本发明不受具体采用的超参数生成方法的限制,无论是现有的超参数生成方法还是将来开发的超参数生成方法,都可以应用于根据本发明实施例的模型超参数的搜索方法中,并且也应包括在本发明的保护范围内。
根据本发明实施例,步骤S220中,所述预定策略包括:
生成所述第n模型的分布随机数,所述分布随机数的范围为[0,1];
如果所述分布随机数小于或等于预定概率,则检测所述第n模型的运行速度;
如果所述分布随机数大于预定概率,则基于高斯过程函数预测所述第n模型的运行速度。
其中,预定概率是在对N个模型的运行速度直接进行检测后,选择模型进行直接进行检测的概率。假设预定概率为p,则对于所述N个模型之后的每个模型随机生成一个范围为[0,1]的分布随机数s,当所述分布随机数s小于或等于预定概率p时,即表示该模型的运行速度采用直接检测的方式;当所述分布随机数s大于预定概率p时,即表示该模型的运行速度采用高斯过程函数进行预测。此时,相比全部模型外接测速系统,有1-p的模型采用高斯过程函数进行运行速度预测,由于采用高斯过程函数进行运行速度预测几乎没有时间开销,那么这部分模型的运行速度检测的时间就被节省。例如,当p取0.3时,那么模型采用高斯过程函数进行运行速度预测的概率为0.7(1-p),从所有模型的运行速度检测时间来看,则可以最多节省70%的运行速度检测时间,且几乎不影响模型的性能,加速模型搜索的过程,大幅度提高模型搜索的效率。
根据本发明实施例,所述步骤S230还包括:
如果第n模型的运行速度不满足预设条件,则放弃所述第n模型,且n增加1,并重复所述步骤S1至所述步骤S2。
其中,由于模型超参数搜索方法需要根据硬件设备运行模型的具体速度,来选择合适的超参数,那么可以根据模型的要具体应用的硬件装置的硬件性能和/或软件性能来设置所述预设条件,例如,预设条件要与硬件装置的计算能力相匹配,不能超过硬件装置的计算能力导致硬件过负荷,减少硬件装置的使用寿命和运行速度;也不能过于小于硬件装置的计算能力,无法充分利用硬件装置的资源,造成资源的大量浪费。因此,当模型的运行速度不能满足预设条件时,放弃该模型,可以实现模型超参数的搜索结果的优化,进一步保证了本发明实施例的模型超参数的搜索结果在训练后模型的准确率。
在一个实施例中,所述预设条件为第n模型的运行速度与所述第n模型应用的硬件装置的运行速度成一定比例,所述比例的范围为[0,1]。
根据本发明实施例,所述方法200还包括:
将第n模型的所述第n超参数向量、所述第n模型的运行速度、和模型编号n均存储至高斯过程函数的模型库。
为了保证所述高斯过程函数的预测结果的准确率,无论所述模型的运行速度是否符合预设条件,都将所有模型的超参数数据、对应的运行速度及其编号进行存储,以保证高斯过程函数的迭代数据的完整性,因为每一次迭代对模型的实际运行速度的拟合,保证迭代数据的完整性可以保证迭代的准确率;而且数据量越多,拟合的速度越快,也保证了高斯过程函数的拟合速度。所以,采用高斯过程函数对模型的速度进行预测,比外接测速系统进行检测,不仅预测时间减少,准确率提高,而且在模型超参数的搜索过程中极大的减少了占用硬件资源。
示例性地,所述高斯过程函数包括:
其中,为模型编号,为编号为第模型的运行速度,为第模型的超参数向量,Sk为第k模型的运行速度,ik为第k模型的模型编号,k=1,2,3,……K;λj为初始化超参数,j=0,1,2,……m,m为超参数的个数;为归一化常数。
示例性地,基于所述前N个模型的超参数拟合得到所述初始化超参数λj,j=0,1,2,……m,m为超参数的个数。在一个实施例中,所述初始化超参数λj均为负数。
在一个实施例中,所述初始化超参数λj可以基于所述N个模型的超参数通过梯度下降的方法拟合得到。
根据本发明实施例,所述步骤S230中,检测所述第n模型的准确率可以包括:采用训练数据训练所述第n模型得到训练后的第n模型,并对训练后的第n模型进行测试,得到所述第n模型的准确率。
其中,所述检测所述第n模型的准确率还可以采用其它方式进行检测,在此不做限制。需要说明是的,本发明不受具体采用的模型的准确率检测方法的限制,无论是现有的模型的准确率检测方法还是将来开发的模型的准确率检测方法,都可以应用于根据本发明实施例的模型超参数的搜索方法中,并且也应包括在本发明的保护范围内。
根据本发明实施例,步骤S240中,根据所述第n模型的准确率调整所述超参数生成方法,可以包括如果相比于其它模型的准确率(或其它模型的准确率的平均数),所述第n模型的准确率高,则说明所述第n模型的超参数优于其他模型的超参数,此时,可以调整所述超参数生成方法使其生成的模型超参数向所述n模型的超参数靠近;如果相比于其它模型的准确率(或其它模型的准确率的平均数),所述第n模型的准确率低,则说明其他模型的超参数优于所述第n模型的超参数,此时,可以调整所述超参数生成方法使其生成的模型超参数向所述n模型的超参数远离。
其中,调整所述超参数生成方法还可以采用其它方式根据模型的准确率进行调整,在此不做限制。
示例性地,所述方法200还包括:当所述第n模型的准确率满足预设阈值时或当n达到预定数值时结束所述方法。
其中,预设阈值是指模型需要达到的准确率指标,可以根据实际需要进行设置,在此不做限制。由于模型超参数的搜索过程不可能无限制的进行,在所以模型的运行速度和准确率均满足相应的指标时,可以结束搜索过程。此外,模型超参数的搜索过程还受到时间的限制,所以,可以在搜索预定时间后,结束所述搜索过程,并从搜索结果中基于准确率和/或运行速度综合考虑,得到最优的搜索结果即最优超参数。
在一个实施例中,当n达到预定数值时,在所述第1模型-第n模型中选取准确率最高的超参数作为最优超参数。
在根据本发明实施例的模型超参数搜索方法之后,可以从搜索结果中选择最优超参数,然后采用训练数据对由所述最优超参数确定的模型进行训练并得到训练好的最优模型;并将训练好的最优模型应用于相应的数据处理过程中的神经网络模型中(如图像处理或语音处理中的特征提取模型,或各种数据处理中的聚类等);在获取待处理数据后,将待处理数据输入所述相应的数据处理过程中的神经网络模型,即可得到相应的输出结果(如待处理数据的特征或聚类结果等)。
根据本发明实施例的模型超参数搜索方法,通过测量少量模型的运行速度并基于上述测量结果采用高斯过程预测新模型的运行速度,极大加速模型搜索的测速过程,大幅度提高模型超参数的搜索效率和准确率,大量节约了资源。
在一个实施例中,参见图3,图3示出了根据本发明实施例的用于数据处理的模型超参数的搜索方法的示例。如图3所示,所述模型超参数搜索方法300包括:
步骤S310,基于超参数生成方法生成第n模型的超参数,并将所述第n模型的超参数编码为第n超参数向量;
步骤S320,判断所述第n模型是否为前N个模型,如果第n模型为前N个模型,进入步骤S330;如果第n模型不为前N个模型,进入步骤S341;
步骤S330,检测所述第n模型的运行速度,具体可以通过外部测速系统检测所述第n模型的运行速度,然后进入步骤S350;
步骤S341,生成所述第n模型的一个范围在[0,1]之间的分布随机数,然后进入步骤S342;
步骤S342,判断所述第n模型的分布随机数是否小于等于预定概率,如果所述第n模型的分布随机数小于等于预定概率,则进入步骤S350;如果所述第n模型的分布随机数大于预定概率,则进入步骤S343;
步骤S343,基于高斯过程函数预测所述第n模型的运行速度,然后进入步骤S350;
步骤S350,将第n模型的所述第n超参数向量、所述第n模型的运行速度、和模型编号n均存储至高斯过程函数的模型库;
步骤360,判断所述第n模型的运行速度是否满足预设条件;如果所述第n模型的运行速度满足预设条件,则进入步骤S370;如果所述第n模型的运行速度不满足预设条件,则进入步骤S380;
步骤370,检测所述第n模型的准确率,具体可以包括:采用训练数据训练所述第n模型得到训练后的第n模型,得到训练后的第n模型的准确率,然后进入步骤S390;
步骤380,放弃所述第n模型,且将模型编号n加1后返回步骤310;
步骤S390,判断所述第n模型的准确率是否满足预设阈值或n是否达到预定数值,如果是,则进入步骤S392;如果不是,则进入步骤S391;
步骤391,根据所述第1模型的准确率调整所述超参数生成方法,并将模型编号n加1,返回至步骤S310;
步骤392,结束所述方法300,并基于所述第1模型-第n模型得到最优超参数,可以是当n发达预定数值时,选择准确率最高的超参数作为最优超参数。
由此可知,根据本发明实施例的模型超参数搜索方法,通过测量少量模型的运行速度并采用高斯过程预测其它模型的运行速度,极大加速模型搜索的测速过程,大幅度提高模型超参数的搜索效率和准确率,大量节约了资源。
图4示出了根据本发明实施例的用于数据处理的模型超参数搜索装置400的示意性框图。如图4所示,根据本发明实施例的模型超参数搜索装置400包括:
超参数模块410,用于基于超参数生成方法生成第n模型的超参数,并将所述第n模型的超参数编码为第n超参数向量,其中,n=1,2,3,……;
判断模块420,用于判断所述第n模型是否为前N个模型,N为预设值;
速度获取模块430,当所述第n模型是前N个模型时,用于检测所述第n模型的运行速度;当所述第n模型不是前N个模型时,用于基于预定策略得到所述第n模型的运行速度;其中,所述预定策略中至少包括基于高斯过程函数预测所述第n模型的运行速度;
准确率模块440,当所述第n模型的运行速度满足预设条件时,用于检测所述第n模型的准确率;
调整模块450,用于根据所述第n模型的准确率调整所述超参数生成方法,且将n增加1;
最优模型模块460,基于所述n个模型得到最优超参数,并训练所述由所述最优超参数确定的模型得到训练好的最优模型用于数据处理。
根据本发明实施例,超参数模块410中所述超参数生成方法可以是随机搜索(Random search),网格搜索(Grid search),贝叶斯优化(Bayesian optimization),强化学习(Reinforcement learning),或进化算法(Evolutionary Algorithm),对于具体的超参数生成方法,此不做限制。
应了解本发明不受具体采用的超参数生成方法的限制,无论是现有的超参数生成方法还是将来开发的超参数生成方法,都可以应用于根据本发明实施例的模型超参数的搜索方法中,并且也应包括在本发明的保护范围内。
根据本发明实施例,所述速度获取模块430包括:
随机数模块431,用于生成所述第n模型的分布随机数,所述分布随机数的范围为[0,1];
第一速度模块432,用于当所述分布随机数小于或等于预定概率或所述第n模型是前N个模型时,检测所述第n模型的运行速度;
第二速度模块433,用于当所述分布随机数大于预定概率时,基于高斯过程函数预测所述第n模型的运行速度。
其中,预定概率是在对N个模型的运行速度直接进行检测后,选择模型进行直接进行检测的概率。假设预定概率为p,则对于所述N个模型之后的每个模型随机生成一个范围为[0,1]的分布随机数s,当所述分布随机数s小于或等于预定概率p时,即表示该模型的运行速度采用直接检测的方式;当所述分布随机数s大于预定概率p时,即表示该模型的运行速度采用高斯过程函数进行预测。此时,相比全部模型外接测速系统,有1-p的模型采用高斯过程函数进行运行速度预测,由于采用高斯过程函数进行运行速度预测几乎没有时间开销,那么这部分模型的运行速度检测的时间就被节省。例如,当p取0.3时,那么模型采用高斯过程函数进行运行速度预测的概率为0.7(1-p),从所有模型的运行速度检测时间来看,则可以最多节省70%的运行速度检测时间,且几乎不影响模型的性能,加速模型搜索的过程,大幅度提高模型搜索的效率。
根据本发明实施例,所述准确率模块440还用于:
如果第n模型的运行速度不满足预设条件,则放弃所述第n模型,且n增加1。
其中,由于模型超参数搜索方法需要根据硬件设备运行模型的具体速度,来选择合适的超参数,那么可以根据模型的要具体应用的硬件装置的硬件性能和/或软件性能来设置所述预设条件,例如,预设条件要与硬件装置的计算能力相匹配,不能超过硬件装置的计算能力导致硬件过负荷,减少硬件装置的使用寿命和运行速度;也不能过于小于硬件装置的计算能力,无法充分利用硬件装置的资源,造成资源的大量浪费。因此,当模型的运行速度不能满足预设条件时,放弃该模型,可以实现模型超参数的搜索结果的优化,进一步保证了本发明实施例的模型超参数的搜索结果在训练后模型的准确率。
在一个实施例中,所述预设条件为第n模型的运行速度与所述第n模型应用的硬件装置的运行速度成一定比例,所述比例的范围为[0,1]。
根据本发明实施例,所述模型超参数搜索装置400还包括:
存储模块470,用于将第n模型的所述第n超参数向量、所述第n模型的运行速度、和模型编号n均存储至高斯过程函数的模型库。
为了保证所述高斯过程函数的预测结果的准确率,无论所述模型的运行速度是否符合预设条件,都将所有模型的超参数数据、对应的运行速度及其编号进行存储,以保证高斯过程函数的迭代数据的完整性,因为每一次迭代对模型的实际运行速度的拟合,保证迭代数据的完整性可以保证迭代的准确率;而且数据量越多,拟合的速度越快,也保证了高斯过程函数的拟合速度。所以,采用高斯过程函数对模型的速度进行预测,比外接测速系统进行检测,不仅预测时间减少,准确率提高,而且在模型超参数的搜索过程中极大的减少了占用硬件资源。
示例性地,所述高斯过程函数包括:
其中,为模型编号,为编号为第模型的运行速度,为第模型的超参数向量,Sk为第k模型的速度,ik为第k模型的模型编号,k=1,2,3,……K;λj为初始化超参数,j=0,1,2,……m,m为超参数的个数;为归一化常数。
示例性地,基于所述前N个模型的超参数拟合得到所述初始化超参数λj,j=0,1,2,……m,m为超参数的个数。在一个实施例中,所述初始化超参数λj均为负数。
在一个实施例中,所述初始化超参数λj可以基于所述N个模型的超参数通过梯度下降的方法拟合得到。
根据本发明实施例,所述准确率模块440进一步用于:采用训练数据训练所述第n模型得到训练后的第n模型,并对训练后的第n模型进行测试,得到所述第n模型的准确率。
其中,所述检测所述第n模型的准确率还可以采用其它方式进行检测,在此不做限制。需要说明是的,本发明不受具体采用的模型的准确率检测方法的限制,无论是现有的模型的准确率检测方法还是将来开发的模型的准确率检测方法,都可以应用于根据本发明实施例的模型超参数的搜索方法中,并且也应包括在本发明的保护范围内。
根据本发明实施例,所述调整模块450根据所述第n模型的准确率调整所述超参数生成方法可以包括:如果相比于其它模型的准确率(或其它模型的准确率的平均数),所述第n模型的准确率高,则说明所述第n模型的超参数优于其他模型的超参数,此时,可以调整所述超参数生成方法使其生成的模型超参数向所述n模型的超参数靠近;如果相比于其它模型的准确率(或其它模型的准确率的平均数),所述第n模型的准确率低,则说明其他模型的超参数优于所述第n模型的超参数,此时,可以调整所述超参数生成方法使其生成的模型超参数向所述n模型的超参数远离。
其中,调整所述超参数生成方法还可以采用其它方式根据模型的准确率进行调整,在此不做限制。
示例性地,所述装置400还包括:停止模块,用于当所述第n模型的准确率满足预设阈值时或当n达到预定数值时结束所述方法结束所述方法。
其中,预设阈值是指模型需要达到的准确率指标,可以根据实际需要进行设置,在此不做限制。由于模型超参数的搜索过程不可能无限制的进行,在所以模型的运行速度和准确率均满足相应的指标时,可以结束搜索过程。此外,模型超参数的搜索过程还受到时间的限制,所以,可以在搜索预定时间后,结束所述搜索过程,并从搜索结果中基于准确率和/或运行速度综合考虑,得到最优的搜索结果即最优的模型超参数。
在一个实施例中,当n达到预定数值时,最优模型模块460在所述第1模型-第n模型中选取准确率最高的超参数作为最优超参数。
采用根据本发明实施例的用于数据处理的模型超参数搜索装置,可以从搜索结果中选择模型超参数最优的模型,然后采用训练数据进行训练并得到最优的模型;并将最优的模型应用于相应的数据处理过程中的神经网络模型中(如图像处理或语音处理中的特征提取模型,或各种数据处理中的聚类等);在获取待处理数据后,将待处理数据输入所述相应的数据处理过程中的神经网络模型,即可得到相应的输出结果(如待处理数据的特征或聚类结果等)。
由此可知,根据本发明实施例的用于数据处理的模型超参数搜索装置,通过测量少量模型的运行速度并采用高斯过程预测其它模型的运行速度,极大加速模型搜索的测速过程,大幅度提高模型超参数的搜索效率和准确率,大量节约了资源。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
图5示出了根据本发明实施例的用于数据处理的模型超参数搜索系统500的示意性框图。用于数据处理的模型超参数搜索系统500包括图像传感器510、存储装置520、以及处理器530。
图像传感器510用于采集图像数据。
所述存储装置520存储用于实现根据本发明实施例的用于数据处理的模型超参数搜索方法中的相应步骤的程序代码。
所述处理器530用于运行所述存储装置520中存储的程序代码,以执行根据本发明实施例的用于数据处理的模型超参数搜索方法的相应步骤,并且用于实现根据本发明实施例的用于数据处理的模型超参数搜索装置中的超参数模块410,判断模块420,速度获取模块430,准确率模块440,调整模块450和最优模型模块460。
此外,根据本发明实施例,还提供了一种存储介质,在所述存储介质上存储了程序指令,在所述程序指令被计算机或处理器运行时用于执行本发明实施例的用于数据处理的模型超参数的搜索方法的相应步骤,并且用于实现根据本发明实施例的用于数据处理的模型超参的数搜索装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合,例如一个计算机可读存储介质包含用于随机地生成动作指令序列的计算机可读的程序代码,另一个计算机可读存储介质包含用于进行模型超参数的搜索方法的计算机可读的程序代码。
在一个实施例中,所述计算机程序指令在被计算机运行时可以实现根据本发明实施例的用于数据处理的模型超参数的搜索装置的各个功能模块,并且/或者可以执行根据本发明实施例的用于数据处理的模型超参数的搜索方法。
根据本发明实施例的用于数据处理的模型超参数的搜索系统中的各模块可以通过根据本发明实施例的用于数据处理的模型超参数的搜索方法的电子设备的处理器运行在存储器中存储的计算机程序指令来实现,或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。
根据本发明实施例的用于数据处理的模型超参数搜索方法、装置、系统及计算机存储介质,通过测量少量模型的运行速度并基于上述测量结果采用高斯过程预测新模型的运行速度,极大加速模型搜索的测速过程,大幅度提高模型超参数的搜索效率和准确率,大量节约了资源。
尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本发明的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域的技术人员可以理解,除了特征之间相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的物品分析设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种图像数据处理的方法,其特征在于,所述方法包括:
步骤S1,基于超参数生成方法生成第n模型的超参数,并将所述第n模型的超参数编码为第n超参数向量,其中,n=1,2,3,……;
步骤S2,判断所述第n模型是否为前N个模型,N为预设值;如果所述第n模型是前N个模型,则检测所述第n模型的运行速度;如果所述第n模型不是前N个模型,则基于预定策略得到所述第n模型的运行速度;其中,所述预定策略中至少包括基于高斯过程函数预测所述第n模型的运行速度;
步骤S3,如果所述第n模型的运行速度满足预设条件,则检测所述第n模型的准确率;
步骤S4,根据所述第n模型的准确率调整所述超参数生成方法,且n增加1,并重复所述步骤S1至所述步骤S3;
步骤S5,基于所述n个模型得到最优超参数;
采用训练数据对由所述最优超参数确定的模型进行训练并得到训练好的最优模型;
训练好的最优参数模型用于图像处理中进行神经网络的卷积计算,得到图像处理结果。
2.如权利要求1所述的方法,其特征在于,所述预定策略包括:
生成所述第n模型的分布随机数,所述分布随机数的范围为[0,1];
如果所述分布随机数小于或等于预定概率,则检测所述第n模型的运行速度;
如果所述分布随机数大于预定概率,则基于高斯过程函数预测所述第n模型的运行速度。
3.如权利要求1所述的方法,其特征在于,所述步骤S3还包括:
如果第n模型的运行速度不满足预设条件,则放弃所述第n模型,且n增加1,并重复所述步骤S1至所述步骤S2。
4.如权利要求3所述的方法,其特征在于,所述方法还包括:
将第n模型的所述第n超参数向量、所述第n模型的运行速度、和模型编号n均存储至高斯过程函数的模型库。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
当所述第n模型的准确率满足预设阈值时或当n达到预定数值时结束所述方法。
6.一种图像数据处理的装置,其特征在于,所述装置包括:
超参数模块,用于基于超参数生成方法生成第n模型的超参数,并将所述第n模型的超参数编码为第n超参数向量,其中,n=1,2,3,……;
判断模块,用于判断所述第n模型是否为前N个模型,N为预设值;
速度获取模块,当所述第n模型是前N个模型时,用于检测所述第n模型的运行速度;当所述第n模型不是前N个模型时,用于基于预定策略得到所述第n模型的运行速度;其中,所述预定策略中至少包括基于高斯过程函数预测所述第n模型的运行速度;
准确率模块,当所述第n模型的运行速度满足预设条件时,用于检测所述第n模型的准确率;
调整模块,用于根据所述第n模型的准确率调整所述超参数生成方法,且将n增加1;
最优模型模块,用于基于所述n个模型得到最优超参数;以及采用训练数据对由所述最优超参数确定的模型进行训练并得到训练好的最优模型;
训练好的最优参数模型用于图像处理中进行神经网络的卷积计算,得到图像处理结果。
7.一种图像数据处理的系统,包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
8.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被计算机执行时实现权利要求1至5中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910295944.9A CN110188862B (zh) | 2019-04-12 | 2019-04-12 | 用于数据处理的模型超参数的搜索方法、装置、系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910295944.9A CN110188862B (zh) | 2019-04-12 | 2019-04-12 | 用于数据处理的模型超参数的搜索方法、装置、系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110188862A CN110188862A (zh) | 2019-08-30 |
CN110188862B true CN110188862B (zh) | 2021-10-15 |
Family
ID=67714171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910295944.9A Active CN110188862B (zh) | 2019-04-12 | 2019-04-12 | 用于数据处理的模型超参数的搜索方法、装置、系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110188862B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110942090B (zh) * | 2019-11-11 | 2024-03-29 | 北京迈格威科技有限公司 | 模型训练、图像处理方法、装置、电子设备及存储介质 |
CN110889450B (zh) * | 2019-11-27 | 2023-08-11 | 腾讯科技(深圳)有限公司 | 超参数调优、模型构建方法和装置 |
CN111191789B (zh) * | 2020-01-20 | 2023-11-28 | 上海依图网络科技有限公司 | 模型优化部署系统、芯片、电子设备及介质 |
CN111444884A (zh) * | 2020-04-22 | 2020-07-24 | 万翼科技有限公司 | 图像中的构件识别方法、设备及计算机可读存储介质 |
CN113312855B (zh) * | 2021-07-28 | 2021-12-10 | 北京大学 | 基于搜索空间分解的机器学习优化方法、电子设备及介质 |
-
2019
- 2019-04-12 CN CN201910295944.9A patent/CN110188862B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110188862A (zh) | 2019-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188862B (zh) | 用于数据处理的模型超参数的搜索方法、装置、系统 | |
JP7344900B2 (ja) | 教師付き機械学習問題用のニューラルネットワークアーキテクチャの選択 | |
CN109671020B (zh) | 图像处理方法、装置、电子设备和计算机存储介质 | |
CN110008080B (zh) | 基于时间序列的业务指标异常检测方法、装置和电子设备 | |
CN105094708B (zh) | 一种磁盘容量的预测方法及装置 | |
CN106855952B (zh) | 基于神经网络的计算方法及装置 | |
CN108875519B (zh) | 对象检测方法、装置和系统及存储介质 | |
CN107766467B (zh) | 一种信息检测方法、装置、电子设备及存储介质 | |
CN110858062B (zh) | 目标优化参数的获取方法及模型训练方法、装置 | |
CN111898578A (zh) | 人群密度的获取方法、装置、电子设备及计算机程序 | |
CN112487283A (zh) | 训练模型的方法、装置、电子设备及可读存储介质 | |
CN107729473B (zh) | 文章推荐方法及其装置 | |
JPWO2016084326A1 (ja) | 情報処理システム、情報処理方法、及び、プログラム | |
CN113626717A (zh) | 一种舆情监测的方法、装置、电子设备和存储介质 | |
CN111783883A (zh) | 一种异常数据的检测方法及装置 | |
CN111798263A (zh) | 一种交易趋势的预测方法和装置 | |
CN110198299B (zh) | 一种入侵检测方法和装置 | |
CN108133234B (zh) | 基于稀疏子集选择算法的社区检测方法、装置及设备 | |
KR102192461B1 (ko) | 불확정성을 모델링할 수 있는 뉴럴네트워크 학습 장치 및 방법 | |
CN110634006B (zh) | 广告点击率的预测方法、装置、设备及可读存储介质 | |
CN113780666B (zh) | 一种缺失值的预测方法及装置、可读存储介质 | |
CN114254588B (zh) | 数据标签处理方法和装置 | |
CN113034580B (zh) | 图像信息检测方法、装置和电子设备 | |
CN115452101A (zh) | 一种仪表检定方法、装置、设备及介质 | |
CN115314239A (zh) | 基于多模型融合的隐匿恶意行为的分析方法和相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Search method, device and system of model hyperparameter for data processing Effective date of registration: 20230404 Granted publication date: 20211015 Pledgee: Shanghai Yunxin Venture Capital Co.,Ltd. Pledgor: MEGVII (BEIJING) TECHNOLOGY Co.,Ltd. Registration number: Y2023990000192 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |