CN116266282A - 信息处理方法以及信息处理装置 - Google Patents
信息处理方法以及信息处理装置 Download PDFInfo
- Publication number
- CN116266282A CN116266282A CN202211623328.XA CN202211623328A CN116266282A CN 116266282 A CN116266282 A CN 116266282A CN 202211623328 A CN202211623328 A CN 202211623328A CN 116266282 A CN116266282 A CN 116266282A
- Authority
- CN
- China
- Prior art keywords
- learning
- information processing
- model
- distributed
- combination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 93
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 230000007786 learning performance Effects 0.000 claims abstract description 71
- 238000012545 processing Methods 0.000 claims abstract description 41
- 238000010801 machine learning Methods 0.000 claims abstract description 19
- 238000010586 diagram Methods 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000004821 distillation Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000000034 method Methods 0.000 description 4
- 238000013138 pruning Methods 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/098—Distributed learning, e.g. federated learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种信息处理方法以及信息处理装置,能够对规定的数据集确定适当的分布式实例数或超参数的新结构。信息处理方法通过信息处理装置执行,该信息处理装置具有存储规定的学习模型的存储装置和处理器,其中,处理器执行如下处理:针对一个或多个数据集,以并行学习的实例数及超参数被任意变更后而得的各个组合,使用规定的学习模型使其他的各信息处理装置进行机器学习;从其他的各信息处理装置获取与各个组合对应的学习性能;使用包含各个组合和与各个组合对应的学习性能的学习数据进行监督学习;以及通过监督学习生成按实例数及超参数的组合预测学习性能的预测模型。
Description
技术领域
本发明涉及用于执行机器学习中的分布式学习的信息处理方法、信息处理装置以及程序。
背景技术
近年来,不断尝试在各种问题中应用所谓的人工智能。例如,下述专利文献1中记载了以用于解决各种现实情况中的问题为目的的模型选择装置。
现有技术文献
专利文献
专利文献1:日本特开2019-220063号公报
发明内容
发明所要解决的技术问题
在此,在进行机器学习时,为了减少处理时间,例如可以分布式地并行处理任务。由此,通过使机器学习负载分布,可以更快地输出预测结果。
但是,在将机器学习分布式地进行学习的分布式学习中,在进行分布式学习时,需要调整超参数。此时,通过发明人的实验得知,即使进行分布式学习,即便仅是超参数的调整不同,预测结果也会大幅变化。例如,即使仅改变作为超参数之一的权重衰减(weightdecay)的设定,精度或稳健性也会改变。
因此,本发明提供一种能够对规定的数据集确定适当的分布式实例数或超参数的新结构。
用于解决问题的技术方案
本发明的一方式涉及的信息处理方法通过信息处理装置执行,所述信息处理装置具有存储规定的学习模型的存储装置和处理器,其中,所述处理器执行如下处理:针对一个或多个数据集,以并行学习的实例数及超参数被任意变更后而得的各个组合,使用所述规定的学习模型使其他的各信息处理装置进行机器学习;从所述各信息处理装置获取与所述各个组合对应的学习性能;使用包含所述各个组合和与所述各个组合对应的学习性能的学习数据进行监督学习;以及通过所述监督学习生成按实例数及超参数的组合预测学习性能的预测模型。
发明效果
根据本发明,可以提供一种能够对规定的数据集确定适当的分布式实例数或超参数的新结构。
附图说明
图1是表示实施方式涉及的系统构成的一例的图。
图2是表示实施方式涉及的信息处理装置的物理构成的一例的图。
图3是表示实施方式涉及的服务器装置的处理块的一例的图。
图4是表示实施方式涉及的信息处理装置的处理块的一例的图。
图5是表示实施方式涉及的关系信息的一例的图。
图6是表示实施方式涉及的关系信息的显示例的图。
图7是表示实施方式涉及的服务器及各信息处理装置的处理例的顺序图。
图8是表示实施方式涉及的与服务器的关系信息的利用相关的处理例的流程图。
具体实施方式
参照附图,对本发明的实施方式进行说明。需要说明的是,在各图中,标注了相同附图标记的部件具有相同或等同的构成。
<系统构成>
图1是表示实施方式涉及的系统构成的一例的图。在图1所示的例子中,服务器10与各信息处理装置20A、20B、20C、20D以能够经由网络进行数据收发的方式连接。在不单独区分信息处理装置的情况下,也表述为信息处理装置20。
服务器10是能够收集、分析数据的信息处理装置,也可以由一个或多个信息处理装置构成。信息处理装置20是智能手机、个人计算机、平板终端、服务器、车联网(connectedcar)等能够执行机器学习的信息处理装置。此外,信息处理装置20也可以是与感测脑电波的侵入式或非侵入式的电极直接或间接地连接,且能够分析、收发脑电波数据的装置。
在图1所示的系统中,服务器10控制针对规定的机器学习的分布式学习。例如,在进行规定的机器学习时,服务器10进行将小批量分布于多个信息处理装置的数据并行、或者将一个模型分布于多个信息处理装置的模型并行的任意一个而使其分布。
在此,在分布式学习的情况下,以往由工程师进行超参数调整或分布式实例数的决定,若不进行实验则不知道结果如何。即使花费时间进行分布式学习,在结果不好的情况下,在调整超参数或变更分布式实例数之后再次进行实验,效率不高。
因此,服务器10事先对任意的数据集进行分布式学习,将从各信息处理装置20获得的学习性能或学习时间(各学习时间的最大值等)标注于学习时的分布式实例数和/或超参数的组。接着,服务器10进行形成为包含分布式实例数和/或超参数的组和学习性能和/或学习时间的学习数据的监督学习。该监督学习的结果是针对规定的数据集生成预测模型,该预测模型按分布式实例数和/或超参数的组预测学习性能或学习时间。
由此,在分布式学习时,不再需要由工程师进行实验来调整超参数或分布式实例数,能够针对规定的数据集而确定与所希望的学习性能或学习时间对应的分布式实例数和/或超参数。以下,对本实施方式的各装置的构成进行说明。
<硬件构成>
图2是表示实施方式涉及的信息处理装置10的物理构成的一例的图。信息处理装置10具有相当于运算部的CPU(Central Processing Unit:中央处理器)10a、相当于存储部的RAM(Random Access Memory:随机存取存储器)10b、相当于存储部的ROM(Read onlyMemory:只读存储器)10c、通信部10d、输入部10e以及显示部10f。这些各构成通过总线以能够相互进行数据收发的方式连接。
在本实施方式中,对信息处理装置10由一台计算机构成的情况进行说明,但信息处理装置10也可以将多台计算机或多个运算部组合而实现。另外,图1所示的构成是一例,信息处理装置10既可以具有这些以外的构成,也可以不具有这些构成中的一部分。
CPUl0a是处理器的一例,且是进行与存储于RAM10b或ROM10c的程序的执行相关的控制或数据的运算、加工的控制部。CPU10a例如是执行使用规定的学习模型进行学习的程序(学习程序)的运算部。CPU10a从输入部10e或通信部10d接收各种数据,并将数据的运算结果显示于显示部10f、或者储存至RAM10b。
RAM10b是存储部中能够改写数据的部分,例如可以由半导体存储元件构成。RAM10b也可以存储CPU10a执行的程序、各学习模型(预测模型、分布式学习用的学习模型等)、与各学习模型的参数相关的数据、与学习对象数据的特征量相关的数据等。此外,这些是例示,RAM10b中也可以存储这些以外的数据,还可以不存储这些中的一部分。
ROM10c是存储部中能够读出数据的部分,例如可以由半导体存储元件构成。ROM10c例如可以存储学习程序或不进行改写的数据。
通信部10d是将信息处理装置10与其他的设备连接的接口。通信部10d可以与因特网等的通信网络连接。
输入部10e从用户受理数据的输入,例如可以包括键盘及触摸面板。
显示部10f视觉性地显示CPU10a的运算结果,例如可以由LCD(Liquid CrystalDisplay:液晶显示器)构成。显示部10f显示运算结果有助于XAI(eXplainable AI:可解释的AI)。显示部10f例如也可以显示学习结果或与学习相关联的数据。
学习程序既可以存储于RAM10b或ROM10c等计算机可读的非暂时性的存储介质中进行提供,也可以经由通过通信部10d连接的通信网络进行提供。在信息处理装置10中,通过由CPU10a执行学习程序,从而实现使用后述图3说明的各种动作。此外,这些物理构成是例示,并不一定是独立的构成。例如,信息处理装置10也可以具备CPU10a与RAM10b或ROM10c一体化而成的LSI(Large-Scale Integration:大规模集成电路)。另外,信息处理装置10也可以具备GPU(Graphical Processing Unit:图形处理器)或ASIC(Application SpecificIntegrated Circuit:专用集成电路)。
此外,信息处理装置20的构成与图2所示的信息处理装置10的构成相同,故省略其说明。另外,信息处理装置10和信息处理装置20只要具有作为进行数据处理的基本构成的CPU10a、RAM10b等即可,也可以不设置输入部10e、显示部10f。另外,输入部10e、显示部10f也可以使用接口从外部连接。
<处理构成>
图3是表示实施方式涉及的信息处理装置(服务器装置)10的处理块的一例的图。信息处理装置10具备分布式控制部11、获取部12、学习部13、生成部14、预测部15、确定部16、显示控制部17以及存储部18。信息处理装置10也可以由通用的计算机构成。
分布式控制部11针对一个或多个数据集,以并行学习的实例数和/或超参数被任意变更后而得的各个组合,使用规定的学习模型使各信息处理装置20进行机器学习。例如,分布式控制部11将分布式实例数N设定为2,将超参数H设定为规定的值。超参数H例如有一个或多个参数,并针对各参数设定各自的值。超参数H也可以表示多个参数的集合。
数据集例如包含图像数据、序列数据以及文本数据的至少任意一个。在此,图像数据包括静态图像的数据和动态图像的数据。序列数据包括语音数据或股价的数据。
当设定了分布式实例数和超参数时,分布式控制部11向与分布式实例数N相应数量的信息处理装置20输出所设定的超参数而使其进行分布式学习。此时,分布式控制部11也可以将用于分布式学习的学习模型向信息处理装置20输出。另外,分布式控制部11也可以将本装置包含于分布式学习之一中。
分布式控制部11在每次变更分布式实例数N、或者每次变更超参数H时,指示各信息处理装置20进行分布式学习。例如,当将分布式实例数N固定不变而变更超参数H,且超参数H的变更全部结束时,分布式控制部11使分布式实例数递增1。重复进行该处理,直到分布式实例数达到上限为止。由此,分布式控制部11能够使各信息处理装置20执行基于各种分布式实例数与超参数的组合的分布式学习。
获取部12从各信息处理装置20获取与分布式实例数和超参数的各个组合对应的学习性能。例如,获取部12从已进行了分布式学习的各信息处理装置20获取各学习结果。学习结果中至少包括学习性能。
例如,学习模型的学习性能可以用F值表示、或者用F值/(学习处理的计算时间)表示、或者用损失函数的值表示。此外,F值是在将精确率(precision)表示为P、将召回率(recal1)表示为R时通过2PR/(P+R)算出的值。另外,学习性能也可以使用例如ME(平均误差)、MAE(平均绝对误差)、RMSE(均方根误差)、MPE(平均百分比误差)、MAPE(平均绝对百分比误差)、RMSPE(均方根百分比误差)、ROC(Receiver Operating Characteristic:接受者操作特征)曲线以及AUC(Area Under the Curve:曲线下面积)、Gini Norm、柯尔莫哥洛夫-斯米尔诺夫(Kolmogorov-Smirnov)或者精确率/召回率(Precision/Recall)等表示。
另外,作为针对分布式实例数与超参数的某一组合的学习性能,获取部12也可以使用从各信息处理装置20获得的多个学习性能求出一个学习性能、例如平均值、中央值、最大值或者最小值。
学习部13使用包含针对任意数据集的分布式实例数与超参数的各组合和与各组合对应的学习性能的学习数据进行监督学习。该监督学习中使用规定的学习模型13a。例如,学习模型13a是将任意的数据集作为输入,按分布式实例数与超参数的组合预测学习性能的模型。
规定的学习模型13a例如是预测模型,包括图像识别模型、序列数据解析模型、机器人的控制模型、强化学习模型、声音识别模型、声音生成模型、图像生成模型、自然语言处理模型等中的至少一个。另外,作为规定的学习模型13a的具体例,也可以是CNN(Convolutional Neural Network:卷积神经网络)、RNN(Recurrent Neural Network:循环神经网络)、DNN(Deep Neural Network:深度神经网络)、LSTM(Long Short-Term Memory:长短期记忆)、双向LSTM、DQN(Deep Q-Network:深度Q网络)、VAE(VariationalAutoEncoder:变分自编码器)、GANs(Generative Adverial Networks:生成对抗网络)、基于流的(Flow-based)生成模型等的任意一个。
另外,学习模型13a包括对已学习模型进行剪枝(Pruning)、量化(Quantization)、蒸馏(Distillation)或者转移(Transfer)而得到的模型。此外,这些只不过是一例,学习部13也可以针对这些以外的问题进行学习模型的机器学习。学习部13也可以根据要学习的数据集的特征选择学习模型13a,并使用该学习模型进行监督学习。另外,学习部13中使用的损失函数可以是与学习模型13a的输出和标签数据相关的平方误差函数、或者交叉熵函数。学习部13一边使用误差反向传播法调整超参数一边反复进行学习直到满足规定的条件为止,以使损失函数的值变小。
生成部14通过学习部13的监督学习而生成预测模型。预测模型包括作为学习模型13a学习的结果而生成的模型。例如,预测模型是将任意的数据集作为输入,按分布式实例数与超参数的组合而预测学习性能的模型。
通过以上的处理,可以提供能够对规定的数据集确定适当的分布式实例数或超参数的新结构。例如,针对各种数据集,可以通过使用任意的分布式实例数或超参数进行分布式学习而生成多个教师数据。另外,服务器10通过获取分布式学习的结果并进行将这些结果作为教师数据的监督学习,从而能够针对任意的数据集而按分布式实例数或超参数的组合预测学习性能。
预测部15针对分布式实例数或超参数的各个组合,预测将规定的数据集输入预测模型,并执行了规定的学习模型的机器学习时的学习性能。例如,预测部15也可以针对各个组合预测学习性能,并按照学习性能的降序重新排列组合。
通过以上的处理,服务器10能够针对新的数据集,预测针对分布式实例数或超参数的各个组合的学习性能。因此,工程师也可以不调整分布式实例数或超参数,从而能够有效活用服务器10或各信息处理装置20的计算机资源。
另外,获取部12也可以包括从指示了分布式学习的各信息处理装置20获取学习性能和学习时间作为学习结果。关于学习时间,例如信息处理装置20测量从开始学习到出结果为止的时间。学习时间也可以使用从各信息处理装置20获得的各学习时间的平均值、最大值、中央值或最小值的任意一个。
学习部13也可以包括使用包含分布式实例数或超参数的各个组合和与各个组合对应的组合的学习性能及学习时间的学习数据进行监督学习。例如,学习部13将规定的数据集输入学习模型13a,对分布式实例数或超参数的组合分别进行监督学习,以预测学习性能及学习时间。
生成部14也可以通过使用包含学习时间的学习数据进行监督学习,从而针对分布式实例数或超参数的组合分别生成预测学习性能及学习时间的预测模型。
通过以上的处理,不仅能够预测进行分布式学习时的学习性能,还能够预测学习时间。能够考虑了学习性能和学习时间来选择分布式实例数或超参数。例如,即使学习时间或学习性能不是最佳的,也能够选择与可允许的学习时间或学习性能对应的分布式实例数或超参数的组合。
预测部15也可以包括:将规定的数据集输入预测模型,针对分布式实例数或超参数的各组合,预测执行了规定的学习模型的机器学习时的学习性能及学习时间。
通过以上的处理,服务器10能够针对新的数据集,预测针对分布式实例数或超参数的各个组合的学习性能及学习时间。因此,工程师也可以不调整分布式实例数或超参数,从而能够有效活用服务器10或各信息处理装置20的计算机资源。
另外,生成部14使用预测部15的预测结果生成关系信息(预测关系信息),该关系信息将学习性能设为第一变量、将学习时间设为第二变量,并使第一变量及第二变量与实例数和/或超参数相对应。例如,在将纵轴设为第一变量、将横轴设为第二变量的情况下,生成部14也可以生成使分布式实例数或超参数与各个变量的交点相对应的矩阵。另外,生成部14也可以根据从各信息处理装置20获得的学习性能或学习时间,生成使第一变量及第二变量与实例数和/或超参数相对应的关系信息(实测关系信息)。
通过以上的处理,在第一变量或第二变量发生了变更的情况下,能够迅速地确定对应的分布式实例数或超参数。另外,第一变量和第二变量也可以适当地变更。例如,也可以应用学习性能作为第一变量,应用分布式实例数作为第二变量,确定的信息是超参数与学习时间的组合。
另外,获取部12也可以获取第一变量的第一值及第二变量的第二值。例如,获取部12获取由用户指定的第一变量的第一值及第二变量的第二值。第一值或第二值由用户适当地指定。
该情况下,确定部16根据由生成部14生成的关系信息,确定与第一变量的第一值及第二变量的第二值对应的实例数和/或超参数。例如,确定部16使用关系信息确定与被变更的第一变量的值或第二变量的值对应的实例数和/或超参数。
显示控制部17将通过确定部16确定的实例数和/或超参数显示控制于显示装置(显示部10f)。另外,显示控制部17也可以用GUI(Graphical User Interface:图形用户界面)表示能够变更第一变量及第二变量的矩阵(例如后述图6等)。
通过以上的处理,能够使根据由用户指定的第一变量或第二变量确定的分布式实例数或超参数对用户可视化。用户可以通过变更第一变量或第二变量,从而确定所希望的分布式实例数或超参数,并应用于分布式学习。
图4是表示实施方式涉及的信息处理装置20的处理块的一例的图。信息处理装置20包括获取部21、学习部22、输出部23以及存储部24。信息处理装置20也可以由通用的计算机构成。
获取部21也可以通过其他的信息处理装置(例如服务器10),与分布式学习的指示一起获取与规定的学习模型相关的信息或与规定的数据集相关的信息。与规定的学习模型相关的信息可以仅为超参数,也可以为规定的学习模型本身。与规定的数据集相关的信息可以是数据集本身,也可以是表示储存有规定的数据集的储存目的地的信息。
学习部22向进行规定学习的学习模型22a输入学习对象的规定的数据集而进行学习。学习部22进行控制,以向服务器10反馈学习后的学习结果。学习结果例如包括调整后的超参数或学习性能等,也可以还包括学习时间。学习部22也可以根据学习对象的数据集的种类和/或应解决的问题选择学习模型22a。
另外,规定的学习模型22a是包括神经网络的学习模型,例如,包括图像识别模型、序列数据解析模型、机器人的控制模型、强化学习模型、声音识别模型、声音生成模型、图像生成模型、自然语言处理模型等的至少一个。另外,作为具体例,规定的学习模型22a也可以是CNN(Convolutional Neural Network:卷积神经网络)、RNN(Recurrent NeuralNetwork:循环神经网络)、DNN(Deep Neural Network:深度神经网络)、LSTM(Long Short-Term Memory:长短期记忆)、双向LSTM、DQN(Deep Q-Network:深度Q网络)、VAE(Variational AutoEncoder:变分自编码器)、GANs(Generative Adverial Networks:生成对抗网络)、基于流的(Flow-based)生成模型等的任意一个。
另外,学习模型22a包括对已学习模型进行剪枝(Pruning)、量化(Quantization)、蒸馏(Distillation)或者转移(Transfer)而得到的模型。此外,这些只不过是一例,学习部22也可以针对这些以外的问题进行学习模型的机器学习。另外,学习部22中使用的损失函数可以是与学习模型22a的输出和标签数据相关的平方误差函数、或者交叉熵函数。学习部22一边使用误差反向传播法调整超参数一边反复进行学习直到满足规定的条件为止,以使损失函数的值变小。
输出部23向其他的信息处理装置输出与分布式学习的学习结果相关的信息。例如,输出部23向服务器10输出与学习部22的学习结果相关的信息。例如,如上所述,与分布式学习的学习结果相关的信息包括学习性能、调整后的超参数,还可以包括学习时间。
存储部24存储与学习部22相关的数据。存储部24存储规定的数据集25a、从服务器10获得的数据、学习中途的数据、与学习结果相关的信息等。
由此,信息处理装置20能够根据来自其他的信息处理装置(例如服务器10)的指示对规定的数据集执行分布式学习,并向服务器10反馈学习结果。
另外,对于新的数据集,能够利用由服务器10预测出的超参数或分布式实例数而使各信息处理装置20执行分布式学习。由此,在各信息处理装置20中,工程师等也可以不调整超参数或分布式实例数,从而可以高效地使用各信息处理装置20的硬件资源或软件资源。
<数据例>
图5是表示实施方式涉及的关系信息的一例的图。在图5所示的例子中,关系信息是汇集了通过分布式学习得到的信息的实测关系信息,包括与各第一变量(例如P11)及各第二变量(例如P21)对应的分布式实例数(例如N1)和超参数(H1)。第一变量P1n例如是学习性能,第二变量P2n是学习时间,作为变量,也可以仅为任意的变量。超参数H可以是机器学习中使用的参数的集合,例如是权重衰减(weight decay)、中间层的单元数等,也可以包括学习模型特有的参数。
关于图5所示的关系信息,服务器10从利用规定的分布式实例数与超参数的组合进行了分布式学习的信息处理装置20获取学习性能(第一变量)和学习时间(第二变量)。服务器10使规定的分布式实例数和超参数与获得的学习性能和学习时间相对应。通过在每次从各信息处理装置20获得学习性能和学习时间时进行该对应,能够生成图5所示的关系信息。另外,关系信息也可以根据由预测部15预测的结果生成针对任意的数据集的预测关系信息。
<用户界面的例子>
图6是表示实施方式涉及的关系信息的显示例的图。在图6所示的例子中,能够使用滑动条来变更预测关系信息所包含的第一变量和第二变量。通过用户针对第一变量或第二变量使用滑动条并进行移动,例如与对应的点相关联地显示与移动后的第一变量(P1n)或第二变量(P2m)对应的学习性能、超参数的组合(N(P1n,P2m),H(P1n,P2m))。
另外,用户也可以通过在第一变量及第二变量的二维图表上指定规定的点,从而显示与所指定的点对应的学习性能N和超参数H的组合。此外,在超参数H包含多个参数的情况下,也可以通过进一步选择超参数H而显示多个参数。
由此,服务器10能够显示与第一变量和第二变量的组合对应的学习性能和学习时间的组合。另外,能够提供如下用户界面:一边视觉性地向用户示出对应关系,一边针对要进行分布式学习的任意数据集选择适当的分布式实例数或超参数。
<处理例>
图7是表示实施方式涉及的服务器10及各信息处理装置20的处理例的顺序图。在图7所示的例子中,将信息处理装置表述为“处理装置”,表示执行分布式学习的装置。
在步骤S102中,服务器10的分布式控制部11执行控制,以对规定的分布实例数的处理装置20应用规定的超参数而进行学习。例如,分布式控制部11选择规定的分布式实例数的处理装置20,指示所选择的分布式实例数的处理装置20与所设定的规定的超参数一起进行学习。
在步骤S104中,执行了分布式学习的各处理装置20向服务器10发送与学习结果相关的信息。与学习结果相关的信息例如包括学习性能和/或学习时间。服务器10的获取部12从各处理装置20获取与学习结果相关的信息。
在步骤S106中,服务器10的学习部13使用预测学习性能或学习时间的学习模型(预测模型)13a、和针对规定的数据集中的分布式实例数或超参数的各组合而将从各处理装置20获得的学习性能或学习时间作为正确标签的学习数据执行监督学习。
在步骤S108中,服务器10的生成部14生成通过学习部13的学习而生成的模型作为预测模型。例如,预测模型是将任意的数据集作为输入,按分布式实例数和超参数的组合预测学习性能或学习时间的模型。
在步骤S110中,服务器10的预测部15将新的任意数据集输入预测模型,并按分布式实例数和超参数的组合预测学习性能和/或学习时间。
在步骤S112中,服务器10的生成部14根据预测部15的预测结果生成关系信息,该关系信息将学习性能设为第一变量、将学习时间设为第二变量,并使第一变量及第二变量与实例数和/或超参数相对应。
通过以上的处理,服务器10能够根据进行了分布式学习的各处理装置20使用学习结果生成预测模型,该预测模型按针对规定的数据集的分布式实例数及超参数的组合,预测学习性能和/或学习时间。由此,也可以不按数据集调整分布式实例数或超参数,从而可以高效地进行分布式学习。
另外,服务器10也能够按进行分布式学习的学习模型适当地变更分布式实例数祸超参数的组合而进行分布式学习,并获取学习结果,从而构建与学习模型相应的关系信息。由此,服务器10能够使用与规定的学习模型对应的预测模型,确定针对规定数据集的适当的分布式实例数或超参数。
接着,对关系信息的利用例进行说明。图8是表示实施方式涉及的与服务器10的关系信息的利用相关的处理例的流程图。在图8所示的例子中,如图6所示,将关系信息图表化并显示于画面,显示与用户操作相应的分布式实例数或超参数。
在步骤S202中,服务器10的获取部12经由输入部10e受理用户操作,获取第一变量的第一值。第一值是根据用户操作(例如滑动条的移动)而变更的值。
在步骤S204中,服务器10的获取部12经由输入部10e受理用户操作,获取第二变量的第二值。第二值是根据用户操作(例如滑动条的移动)而变更的值。
在步骤S206中,确定部16根据由生成部14生成的关系信息(例如预测关系信息),确定与第一变量的第一值及第二变量的第二值对应的实例数和/或超参数。例如,确定部16使用关系信息确定与被变更的第一变量的值或第二变量的值对应的实例数和/或超参数。
在步骤S208中,显示控制部17将由确定部16确定的实例数和/或超参数输出至显示装置(显示部10f)。另外,显示控制部17也可以用GUI表示能够变更第一变量及第二变量的矩阵。
通过以上的处理,用户在使用规定的数据集和规定的学习模型进行分布式学习时,能够按分布式实例数和超参数的组合掌握学习性能或学习时间。另外,通过由用户变更学习性能或学习时间的参数值,能够确定与变更后的参数值对应的分布式实例数或超参数。
以上的实施方式是为了便于理解本发明的方式,并非用于限定解释本发明。实施方式所具备的各要素及其配置、材料、条件、形状及尺寸等不限定于例示内容,能够适当地变更。另外,能够将不同的实施方式中示出的构成彼此部分地置换或组合。
在上述实施方式中,信息处理装置10的学习部22也可以安装于其他的装置,该情况下,信息处理装置10也可以对其他的装置指示用于生成预测模型的学习处理。
附图标记说明
10、20…信息处理装置;10a…CPU;10b…RAM;10c…ROM;10d…通信部;10e…输入部;10f…显示部;11…分布式控制部;12…获取部;13…学习部;13a…学习模型;14…生成部;15…预测部;16…确定部;17…显示控制部;18…存储部;21…获取部;22…学习部;22a…学习模型;23…输出部;24:存储部。
Claims (9)
1.一种信息处理方法,通过信息处理装置执行,所述信息处理装置具有存储规定的学习模型的存储装置和处理器,其特征在于,
所述处理器执行如下处理:
针对一个或多个数据集,以并行学习的实例数及超参数被任意变更后而得的各个组合,使用所述规定的学习模型使其他的各信息处理装置进行机器学习;
从所述各信息处理装置获取与所述各个组合对应的学习性能;
使用包含所述各个组合和与所述各个组合对应的学习性能的学习数据进行监督学习;以及
通过所述监督学习生成按实例数及超参数的组合预测学习性能的预测模型。
2.根据权利要求1所述的信息处理方法,其特征在于,
所述处理器执行如下处理:将规定的数据集输入所述预测模型,并按所述组合预测执行了所述规定的学习模型的机器学习时的学习性能。
3.根据权利要求1所述的信息处理方法,其特征在于,
所述获取包括与所述学习性能一起获取学习时间,
所述进行监督学习包括使用包含所述各个组合和与所述各个组合对应的学习性能及学习时间的学习数据进行监督学习,
生成所述预测模型包括通过所述监督学习生成按实例数及超参数的组合预测学习性能及学习时间的预测模型。
4.根据权利要求3所述的信息处理方法,其特征在于,
所述处理器包括:将规定的数据集输入所述预测模型,并针对所述各个组合,预测执行了所述规定的学习模型的机器学习时的学习性能及学习时间。
5.根据权利要求3所述的信息处理方法,其特征在于,
所述处理器执行如下处理:将所述学习性能设为第一变量、将所述学习时间设为第二变量,生成使所述第一变量及所述第二变量与所述实例数及所述超参数相对应的关系信息。
6.根据权利要求5所述的信息处理方法,其特征在于,
所述处理器执行如下处理:
获取所述第一变量的第一值及所述第二变量的第二值;以及
根据所述关系信息确定与所述第一值及所述第二值对应的实例数及超参数。
7.根据权利要求6所述的信息处理方法,其特征在于,
所述处理器执行如下处理:将确定的所述实例数及所述超参数显示控制于显示装置。
8.一种信息处理装置,具有存储装置和处理器,其特征在于,
所述存储装置存储规定的学习模型,
所述处理器执行如下处理:
针对一个或多个数据集,以并行学习的实例数及超参数被任意变更后而得的各个组合,使用所述规定的学习模型使其他的各信息处理装置进行机器学习;
从所述各信息处理装置获取与所述各个组合对应的学习性能;
使用包含所述各个组合和与所述各个组合对应的学习性能的学习数据进行监督学习;以及
通过所述监督学习生成按实例数及超参数的组合预测学习性能的预测模型。
9.一种计算机可读的非暂时性记录介质,记录有程序,其特征在于,
所述程序使具有存储规定的学习模型的存储装置和处理器的信息处理装置的所述处理器执行如下处理:
针对一个或多个数据集,以并行学习的实例数及超参数被任意变更后而得的各个组合,使用所述规定的学习模型使其他的各信息处理装置进行机器学习;
从所述各信息处理装置获取与所述各个组合对应的学习性能;
使用包含所述各个组合和与所述各个组合对应的学习性能的学习数据进行监督学习;以及
通过所述监督学习生成按实例数及超参数的组合预测学习性能的预测模型。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021204794A JP7199115B1 (ja) | 2021-12-17 | 2021-12-17 | 機械学習における分散学習 |
JP2021-204794 | 2021-12-17 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116266282A true CN116266282A (zh) | 2023-06-20 |
Family
ID=84784172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211623328.XA Pending CN116266282A (zh) | 2021-12-17 | 2022-12-16 | 信息处理方法以及信息处理装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230196123A1 (zh) |
JP (1) | JP7199115B1 (zh) |
CN (1) | CN116266282A (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6620422B2 (ja) | 2015-05-22 | 2019-12-18 | 富士通株式会社 | 設定方法、設定プログラム、及び設定装置 |
JP6815240B2 (ja) | 2017-03-22 | 2021-01-20 | 株式会社東芝 | パラメータ調整装置、学習システム、パラメータ調整方法、およびプログラム |
JP6840627B2 (ja) | 2017-06-15 | 2021-03-10 | 株式会社日立製作所 | ハイパーパラメータの評価方法、計算機及びプログラム |
JP7503860B2 (ja) | 2020-04-10 | 2024-06-21 | 国立大学法人 東京大学 | 予後予測装置、及びプログラム |
-
2021
- 2021-12-17 JP JP2021204794A patent/JP7199115B1/ja active Active
-
2022
- 2022-12-16 US US18/083,363 patent/US20230196123A1/en active Pending
- 2022-12-16 CN CN202211623328.XA patent/CN116266282A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230196123A1 (en) | 2023-06-22 |
JP7199115B1 (ja) | 2023-01-05 |
JP2023090055A (ja) | 2023-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7330712B2 (ja) | 材料特性予測装置および材料特性予測方法 | |
CN113723613B (zh) | 对量子电路进行模拟的方法及装置 | |
CN109190754A (zh) | 量化模型生成方法、装置和电子设备 | |
JP7068299B2 (ja) | 特徴量選択装置、特徴量選択方法及び特徴量選択プログラム | |
WO2023210665A1 (ja) | 計算グラフの改善 | |
US11568264B2 (en) | Using shape information and loss functions for predictive modelling | |
JP5018809B2 (ja) | 時系列データ予測装置 | |
CN116266282A (zh) | 信息处理方法以及信息处理装置 | |
US11670403B2 (en) | Method and apparatus for generating chemical structure using neural network | |
KR102284440B1 (ko) | 딥러닝 모델 거래중개서버에 의해서 수행되는 딥러닝 모델 거래를 중개하는 방법 | |
JP7112802B1 (ja) | 学習モデルの軽量化 | |
CN115600479A (zh) | 推断方法和信息处理设备 | |
JP7441775B2 (ja) | 制御装置及び制御方法 | |
JP7078307B1 (ja) | 学習モデルの個別化 | |
CN111427935B (zh) | 量化交易指标的预测和显示方法、电子设备和介质 | |
US20230169400A1 (en) | Data processing apparatus, data processing method and data processing program | |
CN113362179A (zh) | 交易数据的预测方法、装置、设备、存储介质及程序产品 | |
CN113469368A (zh) | 解析装置、解析方法以及解析程序 | |
CN118395394A (zh) | 基于核映射的twsvr模型构建方法、设备和存储介质 | |
KR20240153883A (ko) | 사전학습모델을 위한 임베딩 방법 및 그 시스템 | |
JP2023072958A (ja) | モデル生成装置、モデル生成方法及びデータ推定装置 | |
JP2024134113A (ja) | モデル設定支援装置、モデル設定支援方法およびプログラム | |
JP2007279836A (ja) | 数値計算アルゴリズム性能表示装置および数値計算アルゴリズム性能表示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |