CN111783872A - 训练模型的方法、装置、电子设备及计算机可读存储介质 - Google Patents
训练模型的方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111783872A CN111783872A CN202010607599.0A CN202010607599A CN111783872A CN 111783872 A CN111783872 A CN 111783872A CN 202010607599 A CN202010607599 A CN 202010607599A CN 111783872 A CN111783872 A CN 111783872A
- Authority
- CN
- China
- Prior art keywords
- training
- parameter
- sample data
- model
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 462
- 238000000034 method Methods 0.000 title claims abstract description 85
- 230000008569 process Effects 0.000 claims abstract description 38
- 230000006870 function Effects 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 238000013136 deep learning model Methods 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 abstract description 20
- 238000013135 deep learning Methods 0.000 abstract description 12
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种训练模型的方法、装置、电子设备及计算机可读存储介质,涉及人工智能领域,具体涉及深度学习技术领域。具体实现方案为:获取样本数据集,并在该样本数据集中随机选取若干个样本数据作为子样本数据集;基于该子样本数据集对待训练模型进行训练,得到第一训练参数,以及第二训练参数的取值区间;基于上述样本数据集、第一训练参数、第二训练参数的取值区间,对待训练模型进行训练,得到第二训练参数与第三训练参数;将上述第一训练参数、第二训练参数及第三训练参数确定为待训练模型的模型参数。本申请可以有效缩短自动机器学习中参数调节过程所耗费的时长。
Description
技术领域
本申请涉及人工智能领域,具体涉及深度学习技术领域。本申请提供了一种训练模型的方法、装置、电子设备及计算机可读存储介质。
背景技术
近年来,人工智能领域的机器学习技术已经在互联网点击预估、计算机视觉、语音识别、自动驾驶等越来越多的领域中开始发挥重要的作用。
自动机器学习通常分为机器学习和自动调参两部分。其中,机器学习部分用于使用样本数据对模型进行训练,自动调参部分用于在模型训练过程中基于一定的参数调整策略,对模型的参数进行调节,从而得出最优的模型结构。
深度学习是机器学习的一个分支,相比于其它机器学习模型,深度学习的模型复杂度比较高,且样本数据量越充足时,深度学习的效果往往更好。但是,样本数据量越大,自动机器学习中参数调节过程所耗费的时间也会越久。
发明内容
本申请提供了一种训练模型的方法、装置、电子设备及计算机可读存储介质。
根据本申请的第一方面,提供了一种训练模型的方法,包括:
获取样本数据集,并在所述样本数据集中随机选取若干个样本数据作为子样本数据集;
基于所述子样本数据集对待训练模型进行训练,得到第一训练参数,以及第二训练参数的取值区间;
基于所述样本数据集、所述第一训练参数、所述第二训练参数的取值区间,对所述待训练模型进行训练,得到第二训练参数与第三训练参数;
将所述第一训练参数、所述第二训练参数及所述第三训练参数确定为所述待训练模型的模型参数。
根据本申请的第二方面,提供了一种训练模型的装置,包括:
样本数据处理模块,用于获取样本数据集,并在所述样本数据集中随机选取若干个样本数据作为子样本数据集;
训练模块,用于基于所述子样本数据集对待训练模型进行训练,得到第一训练参数,以及第二训练参数的取值区间;
所述训练模块,还用于基于所述样本数据集、所述第一训练参数、所述第二训练参数的取值区间,对所述待训练模型进行训练,得到第二训练参数与第三训练参数;
所述训练模块,还用于将所述第一训练参数、所述第二训练参数及所述第三训练参数确定为所述待训练模型的模型参数。
根据本申请的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请的第一方面所提供的训练模型的方法。
根据本申请的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请的第一方面所提供的训练模型的方法。
根据本申请的技术解决了自动机器学习中参数调节过程所耗费的时间较久的技术问题。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一实施例的示意图;
图2是根据本申请第二实施例的示意图;
图3是根据本申请第三实施例的示意图;
图4是根据本申请第四实施例的示意图;
图5是根据本申请第五实施例的示意图;
图6是根据本申请第六实施例的示意图;
图7是用来实现本申请实施例的训练模型的方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
应当理解的是,本申请中的术语“第一”、“第二”、“第三”等,是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的名称在适当情况下可以互换,以便于描述本申请的实施例。
机器学习在互联网点击预估、计算机视觉、语音识别、自动驾驶等越来越多的领域中开始发挥重要的作用。自动机器学习通常分为机器学习和自动调参两部分。其中,机器学习部分用于使用样本数据对模型进行训练,每次训练过程称为一次实验。自动调参部分用于在每次模型训练过程中基于一定的参数调整策略,对模型的参数进行调节,从而得出最优的模型结构。
深度学习是机器学习的一个分支,相比于其它机器学习模型,深度学习的模型复杂度比较高,且样本数据量越充足时,深度学习的效果往往更好。但是,在样本数据量较大的情况下,上述机器学习部分每次训练过程中调节参数所需要的时间也会较长。
为了解决上述技术问题,本申请提供一种训练模型的方法,应用于人工智能领域中的深度学习技术领域,可以先通过数据量较小的子样本数据集确定第一训练参数,以及第二训练参数的取值区间,然后再基于已确定的第一训练参数、第二训练参数的取值区间、总的样本数据集确定第二训练参数与第三训练参数,不仅可以节省自动机器学习中参数调节过程所需要的时间,还可以保证训练模型的准确性。
本申请可以由具备计算功能的各类电子设备执行,如由个人电脑、服务器等执行。以下采用详细的实施例进行说明。
参照图1,图1是根据本申请第一实施例的示意图,在图1中,本申请所提供的训练模型的方法包括:
S101、获取样本数据集,并在该样本数据集中随机选取若干个样本数据作为子样本数据集。
本申请中,先获取样本数据集,该样本数据集中包括预先采集的多个样本数据。然后,从该样本数据集中随机选取若干个样本数据作为子样本数据集。其中,子样本数据集中的样本数据的数量小于上述样本数据集中的样本数据的数量。
S102、基于子样本数据集对待训练模型进行训练,得到第一训练参数,以及第二训练参数的取值区间。
S103、基于样本数据集、第一训练参数、第二训练参数的取值区间,对待训练模型进行训练,得到第二训练参数与第三训练参数。
本申请中,可以对待训练模型中所有需要训练的训练参数进行分类,分为第一训练参数、第二训练参数及第三训练参数。其中,第一训练参数是根据上述样本数据集中的部分样本数据即可以确定的参数;第二训练参数是根据上述样本数据集中的部分样本数据即可以压缩训练取值区间的参数;第三训练参数是需要根据上述样本数据集中的全部样本数据才可以确定的参数。
在确定出上述第一训练参数、第二训练参数及第三训练参数之后,使用默认值固定上述待训练模型中的第三训练参数,然后根据子样本数据集对待训练模型进行训练,得到第一训练参数,以及第二训练参数的取值区间。
在得到第一训练参数,以及第二训练参数的取值区间之后,使用得到的第一训练参数固定上述待训练模型中的第一训练参数,以及使用得到的第二训练参数的取值区间固定上述待训练模型中的第二训练参数的取值区间,然后基于样本数据集中的所有样本数据,对待训练模型进行训练,得到第二训练参数与第三训练参数。
可以理解的是,本申请第一方面,由于在训练模型的过程中,样本数据的数量越多,执行一次训练过程中调节参数所需要的时间也越久,因此,当本申请采用上述子样本数据集训练待训练模型,确定第一训练参数时,可以有效的缩短每一次训练过程调节参数所需要的时间,进而缩短自动机器学习中参数调节过程所需的时长;第二方面,在训练模型的过程中,训练参数的取值范围越大,执行一次训练过程中调节参数所需要的时间也越久,因此,当本申请先基于上述子样本数据集确定第二训练参数的取值区间,然后再基于样本数据集中的所有样本数据对待训练模型进行训练时,也可以有效的缩短每一次训练过程中调节参数所需要的时间,从而进一步缩短整个自动机器学习中参数调节过程所需的时长。
S104、将第一训练参数、第二训练参数及第三训练参数确定为待训练模型的模型参数。
本申请中,在得到第一训练参数、第二训练参数及第三训练参数之后,即可将第一训练参数、第二训练参数及第三训练参数确定为上述待训练模型的模型参数。
本申请所提供的训练模型的方法,先通过数据量较小的子样本数据集确定第一训练参数,以及第二训练参数的取值区间,然后再基于已确定的第一训练参数、第二训练参数的取值区间、总的样本数据集确定第二训练参数与第三训练参数,不仅可以节省自动机器学习中参数调节过程所需要的时间,还可以保证训练模型的准确性。
基于上述实施例中所提供的训练模型的方法,参照图2,图2是根据本申请第二实施例的示意图,在本申请另一种实施方式中,上述训练模型的方法包括:
S201、获取样本数据集,并在该样本数据集中随机选取若干个样本数据作为子样本数据集。
S202、获取待训练模型中的各个待训练参数的训练特征,各个待训练参数的训练特征用于表征各个待训练参数的训练结果与样本数据的数量及分布之间的关联关系。
本申请中,以深度学习中的模型训练过程为例,深度学习常见的训练参数包括学习率、初始化函数、激活函数、网络层数、网络节点个数等。
其中,有些训练参数是与样本数据的数量有关联的,例如网络层数,当样本数据的数量较小,而网络层数较大时,就会出现过拟合的现象(模型在训练数据上效果很好,在测试数据上则效果不佳),这一类的训练参数需要基于完整的样本数据进行训练。
有些训练参数则与样本数据的数量无关联,而是和样本数据自身的分布有关。例如“激活函数”,其与样本数据的取值范围、稀疏程度有关,与样本数据总的数量没有关联,因此可以对样本数据集进行随机采样,构造一份分布相同、规模较小的子样本数据集,然后基于该子样本数据集训练“激活函数”这一类参数。
另外,还有一类参数,既与样本数据的数量有关联,又与样本数据的数量的分布有关联,例如“学习率”。本申请中可以先基于上述子样本数据集压缩该类训练参数的取值区间,然后再基于上述样本数据集确定该类训练参数。
S203、根据各个待训练参数的训练特征,将各个待训练参数划分为第一训练参数、第二训练参数及第三训练参数。
本申请中,第一训练参数为训练结果与样本数据的分布相关联、但训练结果与样本数据的数量无关联的参数;第二训练参数为训练结果与样本数据的分布和数量均关联的参数;第三训练参数为训练结果与样本数据的数量相关联、但训练结果与样本数据的分布无关联的参数。
可以理解的是,在本申请另一种实施方式中,也可以先执行步骤S202与S203,然后再执行步骤S201,本申请中不就执行顺序进行限制。
S204、基于子样本数据集对待训练模型进行训练,得到第一训练参数,以及第二训练参数的取值区间。
S205、基于样本数据集、第一训练参数、第二训练参数的取值区间,对待训练模型进行训练,得到第二训练参数与第三训练参数。
S206、将第一训练参数、第二训练参数及第三训练参数确定为待训练模型的模型参数。
可以理解的是,上述步骤S201、S204至S206所描述的内容与上述实施例中所描述的步骤S101至S104中所描述的内容一致,具体实现方式可参照上述实施例中的描述,本实施例中不再赘述。
本申请通过各个待训练参数的训练特征,可以将待训练参数划分为三种不同类型的参数,在通过步骤S204至S206所描述的训练方式对模型进行训练时,可以有效缩短每次训练过程中调节参数所需要的时间,以及保证训练模型的准确性。
本申请所提供的训练模型的方法,通过各个待训练参数的训练特征,将各个待训练参数划分为第一训练参数、第二训练参数及第三训练参数,然后先通过数据量较小的子样本数据集确定第一训练参数,以及第二训练参数的取值区间,再基于已确定的第一训练参数、第二训练参数的取值区间、总的样本数据集确定第二训练参数与第三训练参数,不仅可以节省每次训练过程中调节参数所需要的时间,还可以保证训练模型的准确性。
基于上述实施例中所提供的训练模型的方法,参照图3,图3是根据本申请第三实施例的示意图,在本申请一种可行的实施方式中,上述实施例中步骤S102中所描述的基于子样本数据集对待训练模型进行训练,得到第一训练参数,以及第二训练参数的取值区间,包括:
S301、基于子样本数据集对待训练模型进行训练,得到第一训练参数。
S302、获取第二训练参数的预置训练区间,基于子样本数据集、第一训练参数及预置训练区间,对待训练模型执行K次训练过程,得到K次训练结果对应的第二训练参数,K为大于2的整数。
S303、根据K次训练结果对应的第二训练参数,调整上述预置训练区间,并将调整后的预置训练区间确定为第二训练参数的取值区间。
可选的,可以选取上述K次训练结果对应的第二训练参数中的最大值和最小值,将第二训练参数的预置训练区间的最大值和最小值调整为K次训练结果对应的第二训练参数中的最大值和最小值。
本申请中,可以先基于子样本数据集对待训练模型进行训练,得到第一训练参数,然后固定待训练模型中的第一训练参数,在上述预置训练区间内,采用上述子样本数据集对待训练模型执行K次训练过程,得到K次训练结果对应的第二训练参数,然后基于这K次训练结果对应的第二训练参数中的最大值和最小值调整上述预置训练区间的最大值和最小值。
可选的,K的值可以人为进行设置,也可以采用训练模型默认的值。
例如,假设第二训练参数为深度学习训练模型中的学习率,该学习率刚开始指定的训练区间是[0.0001,1],若基于上述子样本数据集对待训练模型执行K次训练过程后,得到的学习率分别是(0.01,0.03,0.05,0.001),则可以根据这些实验结果的最大值和最小值,把学习率的训练区间压缩至[0.001,0.05]。因为第二训练参数的取值与第三训练参数相关,这里根据最大值和最小值可以设置一个比较合理的取值区间,从而避免陷入局部最优。
由于在训练模型的过程中,训练参数的取值范围越大,执行一次训练过程中调节参数需要的时间也越久,因此,本申请先基于上述子样本数据集确定第二训练参数的取值区间,然后再基于样本数据集中的所有样本数据对待训练模型进行训练,可以有效的缩短每一次训练过程中调节参数需要的时间,从而缩短整个模型训练过程中调节参数所需的时长。
基于上述实施例中所提供的训练模型的方法,参照图4,图4是根据本申请第四实施例的示意图,在本申请一种可行的实施方式中,上述训练模型的方法,包括:
S401、获取样本数据集,并确定样本数据集中的样本数据量是否大于预设的样本数量阈值。
S402、当确定样本数据集中的样本数据量大于预设的样本数量阈值时,在样本数据集中随机选取若干个样本数据作为子样本数据集。
S403、基于子样本数据集对待训练模型进行训练,得到第一训练参数,以及第二训练参数的取值区间。
S404、基于样本数据集、第一训练参数、第二训练参数的取值区间,对待训练模型进行训练,得到第二训练参数与第三训练参数。
S405、将第一训练参数、第二训练参数及第三训练参数确定为待训练模型的模型参数。
可以理解的是,如果样本数据集中的样本数据量本身较小,那么在模型训练过程中调节参数所消耗的时间也不会太久,因此,可以基于样本数据集中的全部样本数据来确定第一训练参数、第二训练参数及第三训练参数;而当样本数据集中的样本数据量本身较大时,那么在模型训练过程中调节参数所消耗的时间会明显增加,因此,可以先通过数据量较小的子样本数据集确定第一训练参数,以及第二训练参数的取值区间,然后再基于已确定的第一训练参数、第二训练参数的取值区间、总的样本数据集确定第二训练参数与第三训练参数,可以明显的降低模型训练过程中调节参数所消耗的时间。
其中,上述样本数量阈值可以人为设置,也可以根据用户对训练时长的要求来确定。
本实施例所提供的训练模型的方法,当样本数据集中的样本数据量大于预设的样本数量阈值时,在样本数据集中随机选取若干个样本数据作为子样本数据集,并基于该子样本数据集确定第一训练参数,以及第二训练参数的取值区间,然后再基于已确定的第一训练参数、第二训练参数的取值区间、总的样本数据集确定第二训练参数与第三训练参数,可以明显的降低模型训练过程中调节参数所消耗的时间。
基于上述实施例中所提供的训练模型的方法,参照图5,图5是根据本申请第五实施例的示意图,本实施例中,可以假设上述待训练模型为深度学习模型,第一训练参数包括激活函数和初始化函数,第二训练参数为学习率,第三训练参数为网络层数和网络节点的个数。
示例性的,先获取样本数据集,并在该样本数据集中随机选取若干个样本数据作为子样本数据集。同时,确定待训练参数,如激活函数:(“relu”,“sigmoid”,“tanh”)、学习率:[0.0001,1]、网络层数:[5,10];然后将确定的待训练参数进行分类,如将激活函数确定为第一训练参数、将学习率确定为第二训练参数、将网络层数确定为第三训练参数。
进一步的,基于子样本数据集对待训练模型进行训练,得到第一训练参数为激活函数:(“relu”),第二训练参数“学习率”的取值区间为[0.001,0.05]。
进一步的,基于样本数据集、第一训练参数“relu”、第二训练参数“学习率”的取值区间[0.001,0.05],对待训练模型进行训练,得到第二训练参数“学习率”为0.001,第三训练参数“网络层数”为5层。
由此,即可确定待训练模型的各训练参数为:“激活函数:(“relu”)、学习率:0.001、网络层数:5”。
本实施例所提供的训练模型的方法,可以应用于深度学习模型的训练,能够明显的降低深度学习模型训练过程中调节参数所消耗的时间。
基于上述实施例中所提供的训练模型的方法,本申请还提供一种训练模型的装置,参照图6,图6是根据本申请第六实施例的示意图,本实施例中,上述训练模型的装置60包括:
样本数据处理模块601,用于获取样本数据集,并在样本数据集中随机选取若干个样本数据作为子样本数据集。
训练模块602,用于基于子样本数据集对待训练模型进行训练,得到第一训练参数,以及第二训练参数的取值区间;基于样本数据集、第一训练参数、第二训练参数的取值区间,对待训练模型进行训练,得到第二训练参数与第三训练参数。
确定模块603,用于基将第一训练参数、第二训练参数及第三训练参数确定为待训练模型的模型参数。
本申请所提供的训练模型的装置60,先通过数据量较小的子样本数据集确定第一训练参数,以及第二训练参数的取值区间,然后再基于已确定的第一训练参数、第二训练参数的取值区间、总的样本数据集确定第二训练参数与第三训练参数,不仅可以节省每次训练过程中调节参数所需要的时间,还可以保证训练模型的准确性。
在一种可行的实施方式中,上述训练模型的装置60还包括分类模块,用于获取待训练模型中的各个待训练参数的训练特征,各个待训练参数的训练特征用于表征各个待训练参数的训练结果与样本数据的数量及分布之间的关联关系;根据各个待训练参数的训练特征,将各个待训练参数划分为第一训练参数、第二训练参数及第三训练参数。
可选的,第一训练参数为训练结果与样本数据的分布相关联、但训练结果与样本数据的数量无关联的参数,第二训练参数为训练结果与样本数据的分布和数量均关联的参数,第三训练参数为训练结果与样本数据的数量相关联、但训练结果与样本数据的分布无关联的参数。
在一种可行的实施方式中,训练模块602,具体用于:
基于子样本数据集对待训练模型进行训练,得到第一训练参数;
获取第二训练参数的预置训练区间,基于子样本数据集、第一训练参数及上述预置训练区间,对待训练模型执行K次训练过程,得到K次训练结果对应的第二训练参数,K为大于2的整数;
根据述K次训练结果对应的第二训练参数,调整上述第二训练参数的预置训练区间,并将调整后的第二训练参数的预置训练区间确定为第二训练参数的取值区间。
可选的,选取上述K次训练结果对应的第二训练参数中的最大值和最小值;将上述第二训练参数的预置训练区间的最大值和最小值调整为上述K次训练结果对应的第二训练参数中的最大值和最小值。
在一种可行的实施方式中,样本数据处理模块601,具体用于:
获取样本数据集,确定该样本数据集中的样本数据量是否大于预设的样本数量阈值;当确定该样本数据集中的样本数据量大于预设的样本数量阈值时,在样本数据集中随机选取若干个样本数据作为子样本数据集。
应当理解的是,上述训练模型的装置60与上述实施例中所描述的训练模型的方法,实现原理与方式均相同,故上述样本数据处理模块601、训练模块602与确定模块603的实现原理与方式,可以参照上述实施例中所描述的训练模型的方法中的各步骤,在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图7所示,是根据本申请实施例的训练模型的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图7所示,该电子设备包括:一个或多个处理器701、存储器702,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器701为例。
存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的训练模型的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的训练模型的方法。
存储器702作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的训练模型的方法对应的程序指令/模块(例如,附图6所示的样本数据处理模块601、训练模块602)。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的训练模型的方法。
存储器702可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据训练模型的电子设备的使用所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器702可选包括相对于处理器701远程设置的存储器,这些远程存储器可以通过网络连接至训练模型的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
训练模型的方法的电子设备还可以包括:输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接,图7中以通过总线连接为例。
输入装置703可接收输入的数字或字符信息,以及产生与训练模型的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算机程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算机程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,可以有效降低深度学习模型训练过程所耗费的时间。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (16)
1.一种训练模型的方法,包括:
获取样本数据集,并在所述样本数据集中随机选取若干个样本数据作为子样本数据集;
基于所述子样本数据集对待训练模型进行训练,得到第一训练参数,以及第二训练参数的取值区间;
基于所述样本数据集、所述第一训练参数、所述第二训练参数的取值区间,对所述待训练模型进行训练,得到第二训练参数与第三训练参数;
将所述第一训练参数、所述第二训练参数及所述第三训练参数确定为所述待训练模型的模型参数。
2.根据权利要求1所述的方法,其中,所述第一训练参数为训练结果与样本数据的分布相关联、但训练结果与样本数据的数量无关联的参数,所述第二训练参数为训练结果与样本数据的分布和数量均关联的参数,所述第三训练参数为训练结果与样本数据的数量相关联、但训练结果与样本数据的分布无关联的参数。
3.根据权利要求2所述的方法,所述基于所述子样本数据集对待训练模型进行训练之前,还包括:
获取所述待训练模型中的各个待训练参数的训练特征,所述各个待训练参数的训练特征用于表征所述各个待训练参数的训练结果与样本数据的数量及分布之间的关联关系;
根据所述各个待训练参数的训练特征,将所述各个待训练参数划分为第一训练参数、第二训练参数及第三训练参数。
4.根据权利要求1所述的方法,其中,所述基于所述子样本数据集对待训练模型进行训练,得到第一训练参数,以及第二训练参数的取值区间,包括:
基于所述子样本数据集对所述待训练模型进行训练,得到所述第一训练参数;
获取所述第二训练参数的预置训练区间,基于所述子样本数据集、所述第一训练参数及所述预置训练区间,对所述待训练模型执行K次训练过程,得到K次训练结果对应的第二训练参数,K为大于2的整数;
根据所述K次训练结果对应的第二训练参数,调整所述第二训练参数的预置训练区间,并将调整后的第二训练参数的预置训练区间确定为所述第二训练参数的取值区间。
5.根据权利要求4所述的方法,其中,所述根据所述K次训练结果对应的第二训练参数,调整所述预置训练区间,包括:
选取所述K次训练结果对应的第二训练参数中的最大值和最小值;
将所述第二训练参数的预置训练区间的最大值和最小值调整为所述K次训练结果对应的第二训练参数中的最大值和最小值。
6.根据权利要求1所述的方法,所述在所述样本数据集中随机选取若干个样本数据作为子样本数据集之前,还包括:
确定所述样本数据集中的样本数据量大于预设的样本数量阈值。
7.根据权利要求1-6任一项所述的方法,其中,所述待训练模型为深度学习模型,所述第一训练参数包括激活函数和初始化函数,所述第二训练参数为学习率,所述第三训练参数为网络层数和网络节点的个数。
8.一种训练模型的装置,包括:
样本数据处理模块,用于获取样本数据集,并在所述样本数据集中随机选取若干个样本数据作为子样本数据集;
训练模块,用于基于所述子样本数据集对待训练模型进行训练,得到第一训练参数,以及第二训练参数的取值区间;
所述训练模块,还用于基于所述样本数据集、所述第一训练参数、所述第二训练参数的取值区间,对所述待训练模型进行训练,得到第二训练参数与第三训练参数;
确定模块,用于将所述第一训练参数、所述第二训练参数及所述第三训练参数确定为所述待训练模型的模型参数。
9.根据权利要求8所述的装置,其中,所述第一训练参数为训练结果与样本数据的分布相关联、但训练结果与样本数据的数量无关联的参数,所述第二训练参数为训练结果与样本数据的分布和数量均关联的参数,所述第三训练参数为训练结果与样本数据的数量相关联、但训练结果与样本数据的分布无关联的参数。
10.根据权利要求9所述的装置,还包括:
分类模块,用于获取所述待训练模型中的各个待训练参数的训练特征,所述各个待训练参数的训练特征用于表征所述各个待训练参数的训练结果与样本数据的数量及分布之间的关联关系;根据所述各个待训练参数的训练特征,将所述各个待训练参数划分为第一训练参数、第二训练参数及第三训练参数。
11.根据权利要求8所述的装置,其中,所述训练模块具体用于:
基于所述子样本数据集对所述待训练模型进行训练,得到所述第一训练参数;
获取所述第二训练参数的预置训练区间,基于所述子样本数据集、所述第一训练参数及所述预置训练区间,对所述待训练模型执行K次训练过程,得到K次训练结果对应的第二训练参数,K为大于2的整数;
根据所述K次训练结果对应的第二训练参数,调整所述第二训练参数的预置训练区间,并将调整后的第二训练参数的预置训练区间确定为所述第二训练参数的取值区间。
12.根据权利要求11所述的装置,其中,所述训练模块具体用于:
选取所述K次训练结果对应的第二训练参数中的最大值和最小值;
将所述第二训练参数的预置训练区间的最大值和最小值调整为所述K次训练结果对应的第二训练参数中的最大值和最小值。
13.根据权利要求8所述的装置,所述样本数据处理模块还用于:
在所述样本数据集中随机选取若干个样本数据作为子样本数据集之前,确定所述样本数据集中的样本数据量大于预设的样本数量阈值。
14.根据权利要求8-13任一项所述的装置,其中,所述待训练模型为深度学习模型,所述第一训练参数包括激活函数和初始化函数,所述第二训练参数为学习率,所述第三训练参数为网络层数和网络节点的个数。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的训练模型的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的训练模型的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010607599.0A CN111783872B (zh) | 2020-06-30 | 2020-06-30 | 训练模型的方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010607599.0A CN111783872B (zh) | 2020-06-30 | 2020-06-30 | 训练模型的方法、装置、电子设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111783872A true CN111783872A (zh) | 2020-10-16 |
CN111783872B CN111783872B (zh) | 2024-02-02 |
Family
ID=72761115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010607599.0A Active CN111783872B (zh) | 2020-06-30 | 2020-06-30 | 训练模型的方法、装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111783872B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113902121A (zh) * | 2021-07-15 | 2022-01-07 | 陈九廷 | 一种电池劣化推测装置校验的方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919202A (zh) * | 2019-02-18 | 2019-06-21 | 新华三技术有限公司合肥分公司 | 分类模型训练方法及装置 |
US20190325307A1 (en) * | 2018-04-20 | 2019-10-24 | EMC IP Holding Company LLC | Estimation of resources utilized by deep learning applications |
WO2020006961A1 (zh) * | 2018-07-03 | 2020-01-09 | 北京字节跳动网络技术有限公司 | 用于提取图像的方法和装置 |
CN111222553A (zh) * | 2019-12-30 | 2020-06-02 | 广州华多网络科技有限公司 | 机器学习模型的训练数据处理方法、装置和计算机设备 |
CN111310934A (zh) * | 2020-02-14 | 2020-06-19 | 北京百度网讯科技有限公司 | 一种模型生成方法、装置、电子设备和存储介质 |
-
2020
- 2020-06-30 CN CN202010607599.0A patent/CN111783872B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190325307A1 (en) * | 2018-04-20 | 2019-10-24 | EMC IP Holding Company LLC | Estimation of resources utilized by deep learning applications |
WO2020006961A1 (zh) * | 2018-07-03 | 2020-01-09 | 北京字节跳动网络技术有限公司 | 用于提取图像的方法和装置 |
CN109919202A (zh) * | 2019-02-18 | 2019-06-21 | 新华三技术有限公司合肥分公司 | 分类模型训练方法及装置 |
CN111222553A (zh) * | 2019-12-30 | 2020-06-02 | 广州华多网络科技有限公司 | 机器学习模型的训练数据处理方法、装置和计算机设备 |
CN111310934A (zh) * | 2020-02-14 | 2020-06-19 | 北京百度网讯科技有限公司 | 一种模型生成方法、装置、电子设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
沈震;徐良骥;刘潇鹏;秦长才;王振兵;: "机器学习辅助下的概率积分法参数预计模型寻优", 测绘通报, no. 10 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113902121A (zh) * | 2021-07-15 | 2022-01-07 | 陈九廷 | 一种电池劣化推测装置校验的方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111783872B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111539514B (zh) | 用于生成神经网络的结构的方法和装置 | |
CN112036509A (zh) | 用于训练图像识别模型的方法和装置 | |
CN111582375A (zh) | 数据增强策略搜索方法、装置、设备以及存储介质 | |
CN111860769A (zh) | 预训练图神经网络的方法以及装置 | |
CN111582452B (zh) | 生成神经网络模型的方法和装置 | |
CN111507111B (zh) | 语义表示模型的预训练方法、装置、电子设备及存储介质 | |
CN111275190A (zh) | 神经网络模型的压缩方法及装置、图像处理方法及处理器 | |
CN111709252B (zh) | 基于预训练的语义模型的模型改进方法及装置 | |
CN111967569A (zh) | 神经网络结构的生成方法、装置、存储介质及电子设备 | |
CN111680517A (zh) | 用于训练模型的方法、装置、设备以及存储介质 | |
CN111309283A (zh) | 用户界面的语音控制方法、装置、电子设备及存储介质 | |
CN111127191A (zh) | 风险评估方法及装置 | |
CN111914994A (zh) | 多层感知机的生成方法、装置、电子设备及存储介质 | |
CN114492788A (zh) | 训练深度学习模型的方法和装置、电子设备及存储介质 | |
CN112446574B (zh) | 产品评估方法、装置、电子设备及存储介质 | |
CN110555486B (zh) | 模型结构的延时预测方法、装置以及电子设备 | |
CN112561332A (zh) | 模型管理方法、装置、电子设备、存储介质和程序产品 | |
CN111783949A (zh) | 基于迁移学习的深度神经网络的训练方法和装置 | |
CN111563198A (zh) | 一种物料召回方法、装置、设备及存储介质 | |
CN112580723B (zh) | 多模型融合方法、装置、电子设备和存储介质 | |
CN112232089B (zh) | 语义表示模型的预训练方法、设备和存储介质 | |
CN111461306B (zh) | 特征评估的方法及装置 | |
CN111783872A (zh) | 训练模型的方法、装置、电子设备及计算机可读存储介质 | |
CN111738325A (zh) | 图像识别方法、装置、设备以及存储介质 | |
CN111680599A (zh) | 人脸识别模型处理方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |