CN115917558A - 超参数调整装置、记录有超参数调整程序的非暂时性记录介质以及超参数调整程序 - Google Patents

超参数调整装置、记录有超参数调整程序的非暂时性记录介质以及超参数调整程序 Download PDF

Info

Publication number
CN115917558A
CN115917558A CN202080101959.8A CN202080101959A CN115917558A CN 115917558 A CN115917558 A CN 115917558A CN 202080101959 A CN202080101959 A CN 202080101959A CN 115917558 A CN115917558 A CN 115917558A
Authority
CN
China
Prior art keywords
hyper
learning
parameter
post
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080101959.8A
Other languages
English (en)
Inventor
河尻耕太郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aizos Co ltd
Original Assignee
Aizos Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aizos Co ltd filed Critical Aizos Co ltd
Publication of CN115917558A publication Critical patent/CN115917558A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

超参数调整装置具有:学习处理部(24),其以将第一NN(16)的超参数集作为输入、并输出学习后性能方式使第二NN(18)学习,该学习后性能是设定有该超参数集的学习完成的第一NN(16)的性能;GA处理部(26),其通过将第一NN(16)的超参数集作为个体、将设定有该超参数集的第一NN(16)的学习后性能所对应的值作为适应度的遗传算法,调整第一NN(16)的超参数集。在该遗传算法的各代的处理中,与各超参数对应的第一NN(16)的学习后性能是使用第二NN(18)来获取的。

Description

超参数调整装置、记录有超参数调整程序的非暂时性记录介质以及超参数调整程序
技术领域
本发明涉及超参数调整装置、记录有超参数调整程序的非暂时性记录介质以及超参数调整程序。
背景技术
以往,已知有神经网络(以下,在本说明书中有时称为“NN(Neural Network)”)。NN是指模仿大脑功能而构成的模型,其具有将多个层连接而成的结构,所述层包括一个或多个被称为神经元的节点。NN是基于输入数据推测与该输入数据对应的输出数据并将其输出的模型。
通过使用学习数据使NN学习,NN能够输出与未知的输入数据对应的高精度的输出数据。随着NN的学习处理的不断进行,NN所具有的参数被不断地调整(改变)。作为通过学习处理而改变的NN的参数,例如有对将神经元之间连接的边缘定义的权重、对各神经元定义的偏差等。
在NN所具有的参数中,除了上述的权重、偏差之外,还具有通过学习处理而改变的参数。这样的参数被称为超参数。作为超参数,包括但不限于例如训练轮数(epoch)(一个学习数据的重复使用次数)、隐藏层数(除了位于最靠输入侧的输入层和位于最靠输出侧的输出层以外的层的数量)、隐藏层神经元数量(各隐藏层的神经元数量)、丢弃(dropout)数量(在学习处理中未调整权重、偏差的神经元(非活性神经元)的数量)、或批(batch)数量(在将学习数据分为多个子集时的子集中包含的学习数据的数量)等。超参数也可以说是表示NN的结构或学习方法的参数。
此处,已知充分学习完成的该NN的输出精度、该NN的学习效率(在进行规定次数的学习后的该NN的输出精度)根据NN的超参数而变化。因此,NN的管理员或用户希望将该NN的超参数设定为适当的值。另外,适当的超参数通常根据NN的解析对象、即NN的输入数据而互不相同。
鉴于这种情况,现有技术中提出了使用调整处理来确定NN的适当的超参数集(与多个超参数项目对应的多个值的集合)的技术。作为这种调整处理的一个例子,已知有遗传算法(也简称为“GA(Genetic Algorithm)”)。例如,专利文献1公开了通过以NN的超参数集为个体、并将设定有该超参数集的学习完成的NN的输出误差所对应的值作为适应度的遗传算法,确定NN的最优超参数集。此外,专利文献2公开了通过将以NN的结构为个体、并将具有该结构的学习完成的NN的输出误差所对应的值作为适应度的遗传算法,确定NN的最优结构。
另外,作为并不确定NN的超参数集但组合了NN和遗传算法的技术,非专利文献1公开了通过遗传算法对NN所使用的学习数据进行指定。此外,非专利文献2中公开了使用以NN的权重和偏差的集合作为个体的遗传算法,以避免在NN学习时导致局部解。
现有技术文献
专利文献
专利文献1:日本专利第6523379号公报;
专利文献2:日本专利第6351671号公报。
非专利文献
非专利文献1:小俣光司等,《使用遗传算法和作为其评价函数的神经网络的甲醇合成用Cu-Zn-Al氧化物催化剂组成优化》,石油学会论文杂志,第45卷3号(2002年),第192-195页;
非专利文献2:光石卫等,《使用神经网络和遗传算法的高精度加工中心的开发》,日本机械学会论文集(C编),第61卷591号(1995年11月),第395-400页。
发明内容
发明要解决的问题
在想要通过调整处理来调整NN的超参数集的情况下,可能产生该调整处理的处理量或处理时间变得庞大的问题。特别是在包含遗传算法的现有技术的调整处理时,有时必须使设定有互不相同的超参数集的多个NN充分地学习。在这种情况下,可能产生调整处理中用于使该NN学习的处理量或处理时间变得庞大的问题。一边参照图8,一边说明该问题。图8是示出现有技术中的使用了遗传算法的NN的超参数集的调整处理的情况的示意图。
遗传算法的个体是NN的超参数集。另外,构成该个体的各基因是构成该超参数集的各超参数。而且,各个体的适应度(也称为适合度)是设定有作为各个体的各超参数集的学习完成的NN的性能所对应的值。NN的性能是指例如NN的输出误差(相对于NN的某个输入数据的输出数据和与该输入数据对应的真实数据(即正确数据)之间的差)、从将输入数据输入至NN起到输出输出数据之间的时间即解析时间、或者它们的组合等。在本说明书中,特别地,将充分学习完成的NN的性能称为“学习后性能”,将学习后性能中的充分学习完成的NN的输出误差称为“学习后误差”,将充分学习完成的NN的解析时间称为“学习后解析时间”。在适应度越高而表示该个体即超参数集越优秀的情况下,能够设为例如学习后性能越高(即学习后误差越小,或者学习后解析时间越短),各个体的适应度越高。各个体对应的适应度有时也基于设定有同一超参数的多个学习完成的NN的多个学习后性能来确定。例如,有时将各个体对应的适应度设为相对于同一超参数的多个学习后误差的平均值、或者相对于同一超参数的多个学习后解析时间的平均值。
如图8所示,首先准备N个个体、即第一代的N个超参数集作为初始个体群。第一代的N个超参数集中包含的各超参数的值可以随机选择。另外,在图8中,将第m代的第n个超参数集记载为“超参数集m-n”。例如,将第1代的第2个超参数集记载为“超参数集1-2”。
接下来,计算第一代的N个超参数集各自的适应度。如上所述,各超参数集的适应度是基于设定有该超参数集的NN的学习后性能来计算的。在图8的示例中,示出了学习后误差来作为学习后性能。因此,为了计算与各超参数集相对应的适应度,必须使设定有各超参数集的N个NN分别充分地学习。特别是在基于设定有同一超参数集的多个(这里为P个)学习完成的NN的学习后性能来确定各超参数集的适应度的情况下,需要使N个NN分别学习P次。
接下来,基于计算出的第一代的N个超参数集各自的适应度,生成第二代的N个超参数集。关于第二代的N个超参数集的获取方法,例如有以下多种方法:精英保留,即保留第一代的N个超参数集中适应度高的超参数集;交叉,即交换从第一代中选择的2个超参数集各自的一部分超参数;突变,即随机地改变第一代超参数集中所包含的超参数。该方法可以采用与以往的遗传算法相同的方法,因此这里省略详细的说明。
进而,计算第二代的N个超参数集各自的适应度。与第一代相同地,在第二代中,为了计算与各超参数集相对应的适应度,也需要使设定有各超参数集的N个NN分别充分地学习。此处,在基于设定有同一超参数集的P个学习完成的NN的学习后性能来确定各超参数集的适应度的情况下,也需要使N个NN分别学习P次。
然后,基于计算出的第二代的N个超参数集各自的适应度,生成第三代的N个超参数集。之后,在推进世代的同时反复进行上述相同的处理。通过在推进世代的同时反复进行上述处理,不断调整NN的超参数,最终能够得到适应度高的个体、即学习后性能高的NN的超参数集(在理想的情况下为最优超参数集)。
执行遗传算法直到满足规定的结束条件。规定的结束条件是指:例如,完成了直至规定的世代的处理、生成了超过规定的适应度的个体、或者规定的世代的N个个体的平均适应度达到规定的阈值以上等。
如上所述,在进行第G代量的处理,并通过使用N个超参数集作为一个世代的个体的遗传算法来调整NN的超参数集的情况下,需要使G×N个NN充分地学习。进而,如果基于设定有同一超参数集的P个学习完成的NN的学习后性能来确定各超参数集的适应度,则必须使G×N个NN分别学习P次,即需要进行与使G×N×P个NN充分学习同等量的学习处理。为了使G×N个NN或G×N×P个NN充分地学习,用于学习的处理量或处理时间变得相当庞大。
除了遗传算法之外,在基于设定有互不相同的超参数集的多个NN的学习后误差来调整该NN的超参数集的情况下,为了获取该多个NN的学习后误差,也需要使各NN充分地学习。
本说明书所公开的超参数调整装置的目的在于,减少在通过调整处理来调整神经网络的超参数集时的处理量或处理时间。
用于解决问题的方案
本说明书公开的超参数调整装置的特征在于,其具有:学习处理部,其以将第一神经网络的超参数集作为输入、并输出学习后性能的方式使学习器学习,所述学习后性能是设定有该超参数集的学习完成的所述第一神经网络的性能;以及超参数调整部,其基于将所述第一神经网络的多个超参数集分别输入学习完成的所述学习器而得到的、分别设定有该多个超参数集的多个所述第一神经网络的所述学习后性能,调整所述第一神经网络的超参数集。
优选地,所述超参数调整部通过启发式搜索方法来调整所述第一神经网络的超参数集,所述启发式搜索方法使用了将所述第一神经网络的多个超参数集分别输入至学习完成的所述学习器而得到的、分别设定有该多个超参数集的多个所述第一神经网络的所述学习后性能。
优选地,所述超参数调整部是通过遗传算法来调整所述第一神经网络的超参数集的遗传算法处理部,所述遗传算法将所述第一神经网络的超参数集作为个体,将向学习完成的所述学习器输入该超参数集而得到的、设置有该超参数集的学习完成的所述第一神经网络的所述学习后性能所对应的值作为适应度。
优选地,还具有学习器参数确定部,其根据输入至所述第一神经网络的解析目标数据来确定所述学习器的超参数。
优选地,所述学习器由与所述第一神经网络不同的第二神经网络构成。
此外,本说明书公开的记录介质是计算机可读的非暂时性记录介质,其记录有超参数调整程序,所述超参数调整程序用于使计算机作为以下单元发挥功能:学习处理部,其以将第一神经网络的超参数集作为输入并输出学习后性能的方式使学习器学习,所述学习后性能是设定有该超参数集的学习完成的所述第一神经网络的性能;以及超参数调整部,其基于将所述第一神经网络的多个超参数集分别输入至学习完成的所述学习器而得到的、分别设置有该多个超参数集的多个所述第一神经网络的所述学习后性能,调整所述第一神经网络的超参数集。
此外,本说明书公开的超参数调整程序的特征在于,其使计算机作为以下单元发挥功能:学习处理部,其以将第一神经网络的超参数集作为输入并输出学习后性能的方式使学习器学习,所述学习后性能是设定有该超参数集的学习完成的所述第一神经网络的性能;以及超参数调整部,其基于将所述第一神经网络的多个超参数集分别输入至学习完成的所述学习器而得到的、分别设置有该多个超参数集的多个所述第一神经网络的所述学习后性能,调整所述第一神经网络的超参数集。
发明效果
根据本说明书所公开的超参数调整装置,能够减少在通过调整处理来调整神经网络的超参数集时的处理量或处理时间。
附图说明
图1是本实施方式涉及的解析装置的结构概要图。
图2是示出第一NN的结构的例子的示意图。
图3是示出第一NN的学习后误差的示意图。
图4是示出第二NN的学习数据的例子的图。
图5是示出第二NN的学习处理的情况的示意图。
图6是示出本实施方式中使用遗传算法的第一NN的超参数集的调整处理的情况的示意图。
图7是示出本实施方式中的解析装置的处理流程的流程图。
图8是示出现有技术中使用遗传算法的NN的超参数集的调整处理的情况的示意图。
具体实施方式
图1是作为本实施方式的超参数调整装置的解析装置10的结构概要图。本实施方式的解析装置10由服务器计算机构成。然而,只要能够发挥以下说明的功能,则作为解析装置10可以是任何装置。例如,解析装置10可以是个人计算机等。
输入输出接口12是用于向解析装置10输入各种信息的接口、或者用于从解析装置10输出各种信息的接口。
输入输出接口12例如可以是由网络适配器等构成的网络接口。通过网络接口,解析装置10能够与其他装置进行通信,能够从其他装置接收各种信息,此外,能够向其他装置发送各种信息。
此外,输入输出接口12可以是例如由键盘、鼠标或触摸面板等构成的输入接口。通过输入接口,用户能够向解析装置10输入各种信息。
此外,输入输出接口12例如可以是由液晶面板等构成的显示器或由扬声器等构成的输出接口。通过输出接口,解析装置10能够向用户等输出各种信息。
存储器14构成为包括例如HHD(Hard Disk Drive:硬盘驱动器)、SSD(Solid StateDrive:固态驱动器)、ROM(Read Only Memory:只读存储器)或RAM(Random Access Memory:随机存取存储器)。存储器14可以与后述的处理器20分开设置,也可以是其至少一部分设置在处理器20的内部。在存储器14中存储有用于使解析装置10的各部分工作的、作为超参数调整程序的解析程序。解析程序能够记录在计算机(在本实施方式中为解析装置10)能够读取的非暂时性记录介质中。在这种情况下,解析装置10能够从该记录介质读取并执行解析程序。
此外,如图1所示,在存储器14中存储有第一NN(神经网络)16和作为学习器的第二NN18。另外,如后所述,第一NN16的实体是定义第一NN16的结构的程序、与第一NN16相关的各种参数、以及用于对输入数据进行处理的处理执行程序等。因此,第一NN16被存储在存储器14中意味着上述程序和各种参数被存储在存储器14中。对于第二NN18,也是如此。
第一NN16将解析装置10的解析目标数据作为输入,并输出与该解析目标数据对应的输出数据。解析目标数据可以是任何数据,能够使用各种领域的数据。也就是说,第一NN16能够应用于广泛的领域。
当在第一NN16设定有超参数集时,第一NN16的超参数集是成为通过作为超参数调整装置的解析装置10进行调整处理的对象的超参数集。作为第一NN16的超参数,包括但不限于例如训练轮数、隐藏层数、隐藏层神经元数量、丢弃数量、或批数量等。
在存储器14中存储有所设定的超参数集互不相同的多个第一NN16。
图2是示出第一NN16的结构的例子的示意图。如图2所示,第一NN16构成为包括多个层。具体地,构成为包括:位于最靠输入侧的输入层、位于最靠输出侧的输出层、以及位于输入层和输出层之间的一个或多个隐藏层。各层由一个或多个神经元(节点)16a构成。在图2的示例中,各神经元16a是完全连接的,某一层的神经元16a和下一层的所有神经元16a通过多个边缘16b进行连接。
第一NN16基于输入数据推测与该输入数据对应的输出数据并将其输出。第一NN16通过学习能够提高与输入数据对应的输出数据的精度。例如,第一NN16能够通过监督学习进行学习。在这种情况下,第一NN16使用包括输入数据和与该输入数据对应的教师数据的学习数据来学习。具体地,学习数据中的输入数据被输入至第一NN16,基于与该输入数据对应的第一NN16的输出数据和包含在学习数据中的教师数据之间的误差,利用误差反向传播(back propagation)等方法改变对各边缘16b定义的权重以及对各神经元16a定义的偏差。另外,第一NN16也可以利用例如无监督学习或强化学习等其它方法进行学习。
图3是示出作为第一NN16的学习后性能的学习后误差的示意图。图3所示的第一NN16是经过充分学习的学习完成的NN。如上所述,将与解析目标数据(即第一NN16的输入数据)相对的学习完成的第一NN16的输出数据和与该解析目标数据对应的真实数据(正确数据)之间的误差称为学习后误差。此外,作为学习后性能,可以是从向学习完成的第一NN16输入解析目标数据起到输出输出数据为止的时间即学习后解析时间。此外,作为表示学习完成的第一NN16的性能的学习后性能不限于学习后误差和学习后解析时间。
回到图1,第二NN18是与第一NN16不同的NN,是以将第一NN16的超参数集作为输入、将设定有该超参数集的第一NN16的学习后性能进行输出的方式进行学习的学习器。具体地,第二NN18使用包括第一NN16的超参数集和设置有该超参数集的第一NN16的学习后性能(教师数据)的学习数据进行学习。作为教师数据的学习后性能可以是学习后误差和学习后解析时间的组合等多个评价值的组合。另外,第二NN18的结构可以与第一NN18的结构(参照图2)相同。当然,第二NN18的超参数也可以与第一NN16的超参数不同。
另外,在本实施方式中,使用第二NN18作为预测第一NN16的学习后性能的学习器,但作为该学习器,不限于NN。例如,作为该学习器,可以使用进行多元回归分析的多元回归模型。多元回归分析是使用多个解释变量(这里为超参数集)来预测目标变量(这里为第一NN16的学习后性能),用下面的式子来表示。
y=b1×1+b2×2+···+bk×k+e
在上式中,y是目标变量,xn是解释变量(各xn相当于第一NN16的各超参数),bn是解释变量xn的系数,e是常数。通过使用上述学习数据的学习,与各xn对应的系数bn不断变化。在多元回归模型中,能够设定用于防止各系数bn变得过大的调整参数λ。该调整参数λ是多元回归模型的超参数的一个例子。
详细内容在之后说明,学习完成的第二NN18在通过遗传算法进行第一NN16的超参数的调整处理时被使用。具体地,在遗传算法的各世代的处理中,为了计算作为个体的第一NN16的超参数集对应的的适应度而计算第一NN16的学习后性能时,使用学习完成的第二NN18。
关于第二NN18的超参数的设定方法以及第二NN18的学习方法的详情,与处理器20的处理一起在后面说明。
处理器20构成为包括通用处理装置(例如CPU(Central Processing Unit:中央处理器)等)、以及专用处理装置(例如ASIC(Application Specific Integrated Circuit:专用集成电路)、FPGA(Field Programmable Gate Array:现场可编程门阵列)、或可编程逻辑器件等)中的至少一个。作为处理器20,可以不是由一个处理装置构成,而是通过存在于物理上分离的位置的多个处理装置的协作而构成。如图1所示,处理器20通过存储在存储器14中的解析程序来发挥作为第二NN参数确定部22、学习处理部24、GA(遗传算法)处理部26、以及输出部28的功能。
作为学习器参数确定部的第二NN参数确定部22确定将第一NN16的学习后性能输出的学习器的超参数(可以是一个参数)。在本实施方式中,第二NN参数确定部22确定第二NN18的超参数集。以下,对用于确定将第一NN16的学习后性能输出的学习器的超参数的代表性方法进行说明。
作为第一方法,第二NN参数确定部22能够根据来自用户的指示来确定将第一NN16的学习后性能输出的学习器的超参数(在本实施方式中为第二NN18的超参数集)。具体地,第二NN参数确定部22基于表示输入输出接口12从用户获取的超参数集的超参数信息,确定第二NN18的超参数集。
例如,在用户将超参数集输入到用户终端(未示出)后,作为输入输出接口12的网络接口能够从用户终端接收表示该超参数集的超参数信息。此外,用户可以通过对作为输入输出接口12的输入接口进行操作,从而将第二NN18的超参数集输入至解析装置10。
作为第一方法的优选的变形例,解析装置10的管理员等可以预先准备第二NN18的多个超参数集,并将该多个超参数集提示给用户,使用户从该多个超参数集中选择要使用的第二NN18的超参数集。
多个超参数集向用户的提示是作为输入输出接口12的网络接口向用户终端发送表示该多个超参数集的信息,能够使用户终端的显示器显示多个超参数集。此外,也可以是作为输入输出接口12的输出接口向用户输出表示该多个超参数集的信息。
作为第二方法,第二NN参数确定部22能够根据解析装置10的解析目标、即输入至第一NN16的解析目标数据,确定将第一NN16的学习后性能输出的学习器的超参数(在本实施方式中为第二NN18的超参数集)。
由于第一NN16能够将各种解析目标数据作为输入,因此有时适当的超参数集根据解析目标数据而大不相同。另一方面,无论第一NN18的解析目标数据是什么,第二NN18的输入数据为第一NN18的超参数集,第二NN18的输出数据为第一NN16的学习后性能。因此,与第一NN16相比,可以说第二NN18的适当的超参数集难以根据第一NN16的解析目标数据而变化。然而,有时第二NN18的最优超参数集也根据第一NN16的解析目标数据而不同,在这种情况下,根据输入至第一NN16的解析目标数据来确定第二NN18的超参数集是有效的。
具体地,按照在过去输入至第一NN16的解析目标数据的每个种类,将在该第一NN16的超参数集的调整处理中使用的第二NN18的超参数集与学习完成的该第二NN18的输出误差相关联地,作为数据库存储在存储器14中。在此基础上,第二NN参数确定部22可以获取输入至成为超参数集的调整对象的第一NN16中的预定的解析目标数据的种类,参照上述的数据库,将与该解析目标数据的种类对应的第二NN18的超参数集中的输出误差小的超参数集确定为第二NN18的超参数集。或者,也可以确定在与该解析目标数据的类别对应的第二NN18的超参数集中的输出误差小的多个超参数集,将所确定的多个超参数集提示给用户,供用户选择。
作为第三方法,第二NN参数确定部22能够通过以往在学习器的超参数的最优化处理中使用的贝叶斯优化,确定将第一NN16的学习后性能输出的学习器的超参数(在本实施例中为第二NN18的超参数集)。
学习处理部24执行如下学习处理:以将第一NN16的超参数集作为输入,并输出设定有该超参数集的第一NN16的学习后性能的方式,使第二NN18学习。以下,对学习处理部24执行的学习处理的过程进行说明。
首先,学习处理部24使设定有互不相同的超参数集的多个第一NN16学习。在多个第一NN16中设定的各超参数集可以随机地设定。这里的多个第一NN16的数量设为与现有技术的方法相比不失去关于第一NN16的超参数的调整处理的处理量或处理时间上的优势的数量。具体地,在后述的GA处理部26在遗传算法中执行第G代量的处理,并准备N个超参数集作为一个世代的个体的情况下,将这里的多个第一NN16的数量设为小于G×N个的数量。或者,在后述的GA处理部26在遗传算法中执行第G代量的处理,并准备N个超参数集作为一个世代的个体,基于设定有同一超参数的P个学习完成的NN的P个学习后性能来确定各超参数集的适应度的情况下,将这里的多个第一NN16的数量设为小于G×N×P个的数量。
学习处理部24使用由解析目标数据和与解析目标数据对应的数据(教师数据)构成的学习数据来使各第一NN16学习。具体地,将解析目标数据输入至第一NN16,基于与该解析目标数据对应的第一NN16的输出数据与教师数据之间的输出误差,改变第一NN16的各边缘16b的权重和各神经元16a的偏差。
在使多个第一NN16充分学习之后,学习处理部24评价各第一NN16,并计算各第一NN16的学习后性能。具体地,当使用学习后误差作为学习后性能时,如图3所示,将作为对应的真实数据为已知的评价数据的解析目标数据输入至学习完成的第一NN16,计算与该解析目标数据对应的第一NN16的输出数据与真实数据之间的误差即学习后误差。学习后误差可以是当将多个解析目标数据输入至学习完成的一个第一NN16时的多个输出数据与多个真实数据之间的误差率。此外,在使用学习后解析时间作为学习后性能的情况下,测量从将解析目标数据输入至学习完成的第一NN16起到输出输出数据为止的时间作为学习后解析时间。学习后解析时间可以是将解析目标数据多次输入至一个第一NN16时的多个解析时间的平均值。此外,作为学习后性能,可以是学习后误差和学习后解析时间的组合等的表现多个评价值的数值。
通过至此为止的处理,能够获取如图4所示的多个组合,该组合是第一NN16的超参数集和与其对应的学习后性能的组合。另外,在图4的示例中,示出了学习后误差作为学习后性能。第一NN16的超参数集和与其对应的学习后性能的组合成为用于使第二NN18学习的学习数据。在该学习数据中,与各超参数集对应的学习后性能成为教师数据。学习数据的数量是经过充分学习后的多个第一NN16的数量。
接下来,学习处理部24将第二NN参数确定部22确定了的超参数设定为第二NN18的超参数。
在此基础上,学习处理部24将第一NN16的超参数集和与其对应的学习后性能的组合用作学习数据,使第二NN18学习。具体地,如图5所示,将第一NN16的超参数集输入至第二NN18,基于与该超参数集对应的第二NN18的输出数据(该数据是表示第一NN18的学习后性能的数据)与教师数据的差,改变第二NN16的各边缘的权重和各神经元的偏差。
通过如上所述的学习处理,当第二NN18经过充分学习后,第二NN18通过输入第一NN16的超参数集,从而能够高精度地预测并输出在设定有该超参数集的第一NN16中输入了该解析目标数据时的学习后性能。也就是说,通过学习完成的第二NN18,即使不逐一使第一NN16学习,也能够获取该第一NN16的学习后性能。此处,第二NN18输出的学习后性能是指表示第一NN16的学习后误差、学习后解析时间、或它们的评价值的组合的值。
另外,学习处理部24可以使用如图4所示那样的学习数据来使设定有同一超参数集的多个第二NN18学习,准备多个学习完成的第二NN18。顺便提及,设定有同一超参数集的多个学习完成的第二NN18的每一个未必相对于相同的输入数据来输出相同的输出数据。进而,学习处理部24可以使用作为该学习数据的一部分的评价数据来评价学习完成的多个第二NN18的输出精度,选择该多个第二NN18中的输出精度最高的第二NN18作为在由后述的GA处理部26进行的遗传算法中使用的第二NN18。
作为超参数调整部的GA处理部26执行通过遗传算法来调整第一NN16的超参数集的调整处理。图6是示出由GA处理部26进行的使用遗传算法的第一NN16的超参数集的调整处理的情况的示意图。一边参照图6,一边具体说明GA处理部26的处理。
如图6所示,GA处理部26所使用的遗传算法的个体是第一NN16的超参数集。另外,构成该个体的各基因是构成该超参数集的各超参数。此外,GA处理部26所使用的遗传算法中的各个体的适应度是设定有作为各个体的各超参数集的第一NN16的学习后性能所对应的值。另外,与图8相同,在图6中,也将第m代的第n个超参数集记载为“超参数集m-n”。
GA处理部26首先准备N个个体、即第一代的N个超参数集作为初始个体群。GA处理部26能够随机选择第一代的N个超参数集中所包含的各超参数的值。
接下来,GA处理部26计算第一代的N个超参数集各自的适应度。此处,与现有技术不同,GA处理部26通过将各超参数集输入至学习完成的第二NN16来获取与各超参数对应的第一NN16的学习后性能。另外,在图6的示例中,也示出了学习后误差来作为学习后性能。然后,基于所获取的学习后性能,计算各超参数的适应度。在准备了多个学习完成的第二NN18的情况下,也可以基于将一个超参数输入至多个第二NN18而得到的多个学习后性能来计算该超参数的适应度。例如,可以基于将一个超参数输入至多个第二NN18而得到的多个学习后性能的平均值,来计算该超参数的适应度。像这样,在本实施方式中,GA处理部26在计算各超参数的适应度时,不需要使设定有各超参数集的N个NN学习。
接下来,GA处理部26基于计算出的第一代的N个超参数集各自的适应度,使用已知的方法生成第二代的N个超参数集。然后,GA处理部26计算第二代的N个超参数集各自的适应度。在第二代中,也与第一代相同地,GA处理部26通过将各超参数集输入至学习完成的第二NN16来获取与各超参数对应的第一NN16的学习后性能。也就是说,在第二代中,GA处理部26在计算各超参数的适应度时,也不需要使设定有各超参数集的N个NN学习。
进而,GA处理部26基于计算出的第二代的N个超参数集各自的适应度,生成第三代的N个超参数集。之后,GA处理部26在推进世代的同时反复进行上述相同的处理。在推进世代的同时反复进行上述处理就变成调整第一NN16的超参数,最终能够得到适应度高的个体、即学习后性能高的第一NN16的超参数集(在理想的情况下为最优超参数集)。
GA处理部26执行上述遗传算法直到满足规定的结束条件。规定的结束条件是指:例如,完成了至规定的世代为止的处理、生成了超过规定的适应度的个体、或者规定的世代的N个个体的平均适应度达到规定的阈值以上等。
当通过GA处理部26获取第一NN16的超参数集(在理想的情况下为最优超参数)时,学习处理部24将该超参数集设定在第一NN16。在此基础上,使第一NN16学习。由此,学习处理部24能够以高学习效率使第一NN16学习,此外,能够减小学习完成的第一NN16的输出误差。
回到图1,输出部28例如将由用户输入的解析目标数据输入至学习完成的第一NN16,将第一NN16输出的与该目标数据对应的输出数据提供给用户。如上所述,因为本实施方式中使用的第一NN16是其超参数被调整过的NN,因此输出部28能够向用户提供与解析目标数据对应的高精度的输出数据。
本实施方式的解析装置10的概要如上所述。根据本实施方式的解析装置10,以基于第一NN16的超参数来输出该第一NN16的学习后性能的方式,第二NN18进行学习,在通过GA处理部26进行的使用遗传算法的第一NN16的超参数的调整处理中,使用学习完成的第二NN18获取与各第一NN16的超参数相对应的学习后性能。因此,在遗传算法的各世代的处理中,在计算各个体的适应度、即获取第一NN16的各超参数的学习后性能的处理中,不需要逐一使第一NN16学习。由此,减少了通过遗传算法调整第一NN16的超参数集时的处理量或处理时间。
以下,按照图7所示的流程来说明本实施方式的解析装置10的处理的流程。
在作为第一NN16的学习步骤的步骤S10中,学习处理部24在多个第一NN16中设定了互不相同的超参数集之后,使该多个第一NN16学习。
在作为学习数据获取步骤的步骤S12中,学习处理部24评价学习完成的多个第一NN16,计算各第一NN16的学习后性能。由此,获取作为第二NN18的学习数据的、第一NN16的超参数集和与其对应的学习后性能的多个组合。
在作为第二NN18的超参数集设定步骤的步骤S14中,第二NN参数确定部22根据上述的任意方法确定第二NN18的超参数集,设定在第二NN18中。
在作为第二NN18的学习步骤的步骤S20中,学习处理部24使用在步骤S12中获取的学习数据来使第二NN18学习。学习完成的第二NN18将第一NN16的超参数作为输入,能够高精度地预测并输出设定有该超参数的第一NN16的学习后性能。
在作为第一NN16的超参数集的调整步骤的步骤S18中,GA处理部26通过将第一NN16的超参数集作为个体、将设定有该超参数集的第一NN16的学习后性能所对应的值作为适应度的遗传算法,调整第一NN16的超参数。遗传算法的各世代的适应度(即与各超参数集相对应的学习后性能)是使用在步骤S16中经过学习后的第二NN18来获取的。通过利用该遗传算法的处理,获取被调整了(在理想的情况下被最优化)的第一NN16的超参数。
在作为输出数据提供步骤的步骤S20中,首先,学习处理部24将在步骤S18中获取到的超参数集设定在第一NN16中,使第一NN16学习。在此基础上,输出部28将向学习完成的第一NN16输入解析目标数据而得到的输出数据提供给用户。
以上,对本发明的实施方式进行了说明,但本发明不限于上述实施方式,在不脱离本发明的主旨的范围内能够进行各种变更。
例如,在本实施方式中,第一NN16的超参数集的调整处理是由GA处理部26通过遗传算法执行的,但是该调整处理不限于使用遗传算法的方法。
特别地,调整处理能够采用启发式搜索方法。启发式搜索方法是指未必能够导出最优解但能得出在某种程度上与最优解接近的答案的方法。特别地,启发式搜索方法包括经过试错得出答案的方法。在本实施方式中,试错是指将第一NN16的超参数试着设定为各种值,基于其结果(各第一NN16的学习后性能)调整第一NN16的超参数。
作为启发式搜索方法,可以考虑各种方法。
例如,调整处理可以是基于强化学习的方法。强化学习是指,设定从某个状态起发起行动时的报酬,通过试错发起各种行动,并根据与行动对应的报酬,搜索最佳的行动、状态的方法。作为本实施方式的一个例子,第一NN16的某个超参数集相当于状态,修正该超参数集(即改变为另一个超参数集)的处理相当于行动。这种情况下的报酬能够基于以修正后的超参数集作为输入的学习完成的学习器(例如第二NN18)的输出、即将修正后的超参数集设定在第一NN16时的第一NN16的学习后性能来确定。这种强化学习包括Q学习(Q-learning)、DQN(Deep Q-Network:深度Q网络)。
此外,调整处理可以是使用网格搜索的方法。网格搜索是指搜索多个参数的组合的最优解的方法,是一种罗列地搜索可能的组合(例如,所有可能的组合)并从其中确定表示最佳结果的组合的方法。在本实施方式中,罗列地设定第一NN16的超参数集(超参数的组合),基于使用学习完成的学习器所得到的、设定有各超参数集的第一NN16的学习后性能,从所设定的多个超参数集中确定表示最佳结果的超参数集。
此外,调整处理可以是使用随机搜索的方法。随机搜索是指与网格搜索同样地搜索多个参数的组合的最优解的方法,是一种搜索随机确定的多个参数的组合并从其中确定表示最佳结果的组合。在本实施方式中,随机设定第一NN16的超参数集(超参数的组合),基于使用学习完成的学习器所得到的、设定有各超参数集的第一NN16的学习后性能,从所设定的多个超参数集中确定表示最佳结果的超参数集。
此外,调整处理也可以是使用贝叶斯优化的方法。贝叶斯优化是指,通过基于多个参数的组合和它们的评价值对被称为采集函数(Acquisition function)的代理函数进行优化,从而搜索表示最佳评价值的可能性高的组合的方法。在本实施方式中,基于多个第一NN16的超参数集(超参数的组合)和使用学习完成的学习器而得到的设定有各超参数集的第一NN16的学习后性能,从所设定的多个超参数集中确定表示最佳结果的超参数集。贝叶斯优化是从本来就很少的试错中搜索最优解的方法,现状是在不使用学习器的情况下用于搜索NN的超参数集。但是,在即使是相同的超参数集而学习后性能也可能产生很大的偏差的NN的情况下,如果直接使用实际的学习后性能的数值,则即使是这些无意义的偏差也变成过度学习的状态(过学习),有可能无法得到适当的最优解。通过使用本实施方式的学习器,能够使用使这些偏差适度缓和的学习后性能的数值,因此能够避免过学习,高精度地搜索最优解。
附图标记说明
10:解析装置
12:输入输出接口
14:存储器
16:第一NN
16a:神经元
16b:边缘
18:第二NN
20:处理器
22:第二NN参数确定部
24:学习处理部
26:GA处理部
28:输出部

Claims (7)

1.一种超参数调整装置,其特征在于,具有:
学习处理部,其以将第一神经网络的超参数集作为输入并输出学习后性能的方式使学习器学习,所述学习后性能是设定有该超参数集的学习完成的所述第一神经网络的性能;以及
超参数调整部,其基于将所述第一神经网络的多个超参数集分别输入至学习完成的所述学习器而得到的、分别设定有该多个超参数集的多个所述第一神经网络的所述学习后性能,调整所述第一神经网络的超参数集。
2.根据权利要求1所述的超参数调整装置,其特征在于,
所述超参数调整部通过启发式搜索方法来调整所述第一神经网络的超参数集,所述启发式搜索方法使用了将所述第一神经网络的多个超参数集分别输入至学习完成的所述学习器而得到的、分别设定有该多个超参数集的多个所述第一神经网络的所述学习后性能。
3.根据权利要求2所述的超参数调整装置,其特征在于,
所述超参数调整部是通过遗传算法来调整所述第一神经网络的超参数集的遗传算法处理部,所述遗传算法将所述第一神经网络的超参数集作为个体,将向学习完成的所述学习器输入该超参数集而得到的、设定有该超参数集的学习完成的所述第一神经网络的所述学习后性能所对应的值作为适应度。
4.根据权利要求1至3中任一项所述的超参数调整装置,其特征在于,还具有:
学习器参数确定部,其根据输入至所述第一神经网络的解析目标数据来确定所述学习器的超参数。
5.根据权利要求1至4中任一项所述的超参数调整装置,其特征在于,
所述学习器由与所述第一神经网络不同的第二神经网络构成。
6.一种计算机可读的非暂时性记录介质,其记录有超参数调整程序,所述超参数调整程序用于使计算机作为以下单元发挥功能:
学习处理部,其以将第一神经网络的超参数集作为输入并输出学习后性能的方式使学习器学习,所述学习后性能是设定有该超参数集的学习完成的所述第一神经网络的性能;以及
超参数调整部,其基于将所述第一神经网络的多个超参数集分别输入至学习完成的所述学习器而得到的、分别设定有该多个超参数集的多个所述第一神经网络的所述学习后性能,调整所述第一神经网络的超参数集。
7.一种超参数调整程序,其特征在于,其使计算机作为以下单元发挥功能:
学习处理部,其以将第一神经网络的超参数集作为输入并输出学习后性能的方式使学习器学习,所述学习后性能是设定有该超参数集的学习完成的所述第一神经网络的性能;以及
超参数调整部,其基于将所述第一神经网络的多个超参数集分别输入至学习完成的所述学习器而得到的、分别设定有该多个超参数集的多个所述第一神经网络的所述学习后性能,调整所述第一神经网络的超参数集。
CN202080101959.8A 2020-09-10 2020-09-10 超参数调整装置、记录有超参数调整程序的非暂时性记录介质以及超参数调整程序 Pending CN115917558A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/034354 WO2022054209A1 (ja) 2020-09-10 2020-09-10 ハイパーパラメータ調整装置、ハイパーパラメータ調整プログラムを記録した非一時的な記録媒体、及びハイパーパラメータ調整プログラム

Publications (1)

Publication Number Publication Date
CN115917558A true CN115917558A (zh) 2023-04-04

Family

ID=80631925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080101959.8A Pending CN115917558A (zh) 2020-09-10 2020-09-10 超参数调整装置、记录有超参数调整程序的非暂时性记录介质以及超参数调整程序

Country Status (5)

Country Link
US (1) US20230214668A1 (zh)
EP (1) EP4148623A4 (zh)
JP (1) JP7359493B2 (zh)
CN (1) CN115917558A (zh)
WO (1) WO2022054209A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12044667B2 (en) * 2018-07-31 2024-07-23 Nec Corporation Information processing apparatus, control method, and non-transitory storage medium
KR102710490B1 (ko) * 2023-10-27 2024-09-26 주식회사 카이어 사용자에 의해 선택된 데이터셋을 이용하여 인공지능모델을 자동으로 구축하는 방법 및 장치

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59192647A (ja) 1983-04-15 1984-11-01 Kokusan Kinzoku Kogyo Co Ltd キ−レスステアリングロツク
WO2017154284A1 (ja) * 2016-03-09 2017-09-14 ソニー株式会社 情報処理方法および情報処理装置
JP6351671B2 (ja) 2016-08-26 2018-07-04 株式会社 ディー・エヌ・エー ニューロエボリューションを用いたニューラルネットワークの構造及びパラメータ調整のためのプログラム、システム、及び方法
US10360517B2 (en) * 2017-02-22 2019-07-23 Sas Institute Inc. Distributed hyperparameter tuning system for machine learning
US11120368B2 (en) * 2017-09-27 2021-09-14 Oracle International Corporation Scalable and efficient distributed auto-tuning of machine learning and deep learning models
US20200143243A1 (en) * 2018-11-01 2020-05-07 Cognizant Technology Solutions U.S. Corporation Multiobjective Coevolution of Deep Neural Network Architectures
JP2020123292A (ja) * 2019-01-31 2020-08-13 パナソニックIpマネジメント株式会社 ニューラルネットワークの評価方法、ニューラルネットワークの生成方法、プログラム及び評価システム
US20210019615A1 (en) * 2019-07-18 2021-01-21 International Business Machines Corporation Extraction of entities having defined lengths of text spans
CN110633797B (zh) * 2019-09-11 2022-12-02 北京百度网讯科技有限公司 网络模型结构的搜索方法、装置以及电子设备
US11669735B2 (en) * 2020-01-23 2023-06-06 Vmware, Inc. System and method for automatically generating neural networks for anomaly detection in log data from distributed systems

Also Published As

Publication number Publication date
JPWO2022054209A1 (zh) 2022-03-17
EP4148623A4 (en) 2024-02-07
WO2022054209A1 (ja) 2022-03-17
JP7359493B2 (ja) 2023-10-11
EP4148623A1 (en) 2023-03-15
US20230214668A1 (en) 2023-07-06

Similar Documents

Publication Publication Date Title
Merkle et al. Bayesian comparison of latent variable models: Conditional versus marginal likelihoods
Currie et al. Intelligent imaging in nuclear medicine: the principles of artificial intelligence, machine learning and deep learning
KR100869516B1 (ko) 계기 노이즈 및 측정 오차의 존재 하의 인공 신경망모델의 향상된 성능
CN115917558A (zh) 超参数调整装置、记录有超参数调整程序的非暂时性记录介质以及超参数调整程序
Cui et al. Informative Bayesian neural network priors for weak signals
Ribeiro et al. A holistic multi-objective optimization design procedure for ensemble member generation and selection
Samuel et al. Wasserstein GAN: Deep Generation applied on Bitcoins financial time series
Mills et al. L2nas: Learning to optimize neural architectures via continuous-action reinforcement learning
Pfenninger et al. Wasserstein gan: Deep generation applied on financial time series
Raimundo et al. Exploring multiobjective training in multiclass classification
CN116596396A (zh) 一种基于k近邻插值和slstm的工业聚乙烯过程质量预测方法
Dudukcu et al. Comprehensive comparison of lstm variations for the prediction of chaotic time series
CN117216375A (zh) 一种信息推荐的训练方法、系统及存储介质和服务器
Xiao Using machine learning for exploratory data analysis and predictive models on large datasets
Kavipriya et al. Adaptive weight deep convolutional neural network (AWDCNN) classifier for predicting student’s performance in job placement process
JP2022150947A (ja) 学習モデルのハイパーパラメータ決定方法、ハイパーパラメータ決定装置、及び、生産スケジュール作成システム
Tohme The Bayesian validation metric: a framework for probabilistic model calibration and validation
Abdel-Aal et al. Constructing optimal educational tests using GMDH-based item ranking and selection
CN113837474A (zh) 区域土壤重金属污染指数预测方法及装置
Carter Deep learning for robust meta-analytic estimation
Wilson et al. Neuromodulated Learning in Deep Neural Networks
JPH0561848A (ja) 最適アルゴリズムの選定及び実行のための装置及び方法
Remy et al. Comparison of machine learning algorithms on data from the nuclear industry
Zhang et al. Elastic network regression based on differential evolution dragonfly algorithm with t-distribution parameters
Bhargav et al. Temporal Convolutional Networks Involving Multi-Patient Approach for Blood Glucose Level Predictions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination