CN115204352B

CN115204352B - 信息处理装置、信息处理方法和存储介质

Info

Publication number: CN115204352B
Application number: CN202210259961.9A
Authority: CN
Inventors: 洼田望
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-04-12
Filing date: 2022-03-16
Publication date: 2024-03-12
Anticipated expiration: 2042-03-16
Also published as: US20220327365A1; JP6942900B1; CN115204352A; JP2022162348A

Abstract

一种能够使应用于神经网络中的隐藏层的函数更适当的信息处理装置，包括：获取部，用于获取预定学习数据；学习部，用于将预定学习数据输入至学习模型并进行学习，学习模型使用神经网络，且学习模型应用对神经网络的隐藏层中可能使用的各函数进行加权而生成的第一函数；调整部，用于当基于预定学习数据的指导标签通过使用误差反向传播法更新神经网络的参数时，调整第一函数的各权重；以及生成部，用于生成通过对第一函数设定调整后的各权重得到的第二函数，并作为学习的结果。

Description

信息处理装置、信息处理方法和存储介质

技术领域

本发明涉及一种信息处理装置、信息处理方法和存储介质。

背景技术

近年来，人们开始尝试将人工智能应用于各种问题。例如，在下面的专利文献1中，记载了以用于解决各种现实现象中的问题为目的的模型选择装置。

现有技术文献

专利文献

专利文献1：日本特开2019-220063号公报

发明内容

发明所要解决的课题

然而，在使用神经网络的学习模型中，对于隐藏层(中间层)所使用的函数，现状是根据开发者的经验等选择现有的函数。例如，作为激活函数多选择ReLu函数或Sigmoid函数。但是，其理由大多不是因为在很多研究中被使用这样的理论上的理由，而是感觉上的理由。因此，对于输入数据，并不总是选择了适合于该输入数据的激活函数。此外，不仅是激活函数，在隐藏层中所使用的归一化函数、去噪(denoising operation)函数、正则化函数、平滑函数等之中也存在同样的问题。

因此，本发明的目的之一在于：提供一种能够使应用于神经网络中的隐藏层的函数更适当的信息处理装置、信息处理方法和程序。

用于解决课题的手段

本发明的一个方面提供的一种信息处理装置，包括：获取部，用于获取预定学习数据；学习部，用于将所述预定学习数据输入至学习模型并进行学习，所述学习模型使用神经网络，且所述学习模型应用对所述神经网络的隐藏层中可能使用的各函数进行加权而生成的第一函数；调整部，用于当基于所述预定学习数据的指导标签通过使用误差反向传播法更新所述神经网络的参数时，调整所述第一函数的各权重；生成部，用于生成通过对所述第一函数设定调整后的所述各权重得到的第二函数，并作为所述学习的结果。

发明效果

通过本发明，可以提供一种能够使应用于神经网络中的隐藏层的函数更适当的信息处理装置、信息处理方法和存储介质。

附图说明

图1是示出实施方式提供的信息处理装置的物理配置的一例的图。

图2是示出实施方式提供的信息处理装置的处理块的一例的图。

图3是示出实施方式提供的学习模型的一例的图。

图4是用于说明实施方式提供的应用于隐藏层的函数的图。

图5是示出实施方式提供的函数库的一例的图。

图6是示出实施方式提供的数据的种类和第二函数的对应数据的一例的图。

图7是示出实施方式提供的学习阶段中的处理的一例的流程图。

图8是示出实施方式提供的推理阶段中的处理的一例的流程图。

具体实施方式

将参照附图对本发明的实施方式进行说明。再者，在各图中，标有相同标号即具有相同或近似的结构。

[实施方式]

<处理配置>

图1是示出实施方式提供的信息处理装置10物理配置的一例的图。信息处理装置10具有：相当于运算部的CPU(Central Processing Unit，中央处理器)10a、相当于存储部的RAM(Random Access Memory，随机存取存储器)10b、相当于存储部的ROM(Read onlyMemory，只读存储器)10c、通信部10d、输入部10e和显示部10f。以上各配置经由总线彼此连接，以便能够发送和接收数据。

在本实施方式中，虽然对由一台计算机构成信息处理装置10时的情形进行说明，但是信息处理装置10也可以是多台计算机或多个运算部组合实现。此外，图1所示的配置是一个示例，信息处理装置10可以具有这些以外的配置，也可以不具有这些配置中的一部分。

CPU10a是进行与RAM10b或ROM10c中所存储的程序的执行有关的控制或数据的运算、加工的控制部。CPU10a是执行使用为了使应用于隐藏层的函数更加适当的学习模型进行学习的程序(学习程序)的运算部。CPU10a从输入部10e或通信部10d接受各种数据，并将数据的运算结果显示在显示部10f上或存储在RAM10b中。

RAM10b是能够进行数据重写的存储部，例如可以由半导体存储元件构成。RAM10b也可以存储CPU10a所执行的程序、与应用于隐藏层的函数有关的函数数据、具有应用该函数的隐藏层的学习模型、表示数据的类别与学习模型的对应关系的数据等的数据。再者，这些仅为示例，RAM10b中可以存储这些以外的数据，也可以不存储这些数据中的一部分。

ROM10c是能够进行数据读取的存储部，例如可以由半导体存储元件构成。ROM10c可以存储例如学习程序或不进行重写的数据。

通信部10d是用于将信息处理装置10连接到其他设备的接口。通信部10d可以与互联网等通信网络连接。

输入部10e接受来自用户的数据输入，例如可以包括键盘和触摸面板。

显示部10f将CPU10a的运算结果进行视觉地显示，例如可以由LCD(LiquidCrystal Display，液晶显示器)构成。显示部10f显示运算结果能够有助于XAI(eXplainable AI：可解释AI)。显示部10f例如也可以显示学习结果或函数数据。

学习程序可以由RAM10b或ROM10c等计算机可读存储介质存储并提供，也可以经由通过通信部10d连接的通信网络来提供。在信息处理装置10中，CPU10a执行学习程序从而实现下述参照图2进行说明的各种操作。注意，这些物理配置仅为示例，且并不一定为独立的配置。例如，信息处理装置10可以包括集成了CPU10a以及RAM10b或ROM10c的LSI(Large-Scale Integration，大规模集成电路)。此外，信息处理装置10可以包括GPU(GraphicalProcessing Unit，图形处理单元)或ASIC(Application Specific Integrated Circuit，专用集成电路)。

<处理配置>

图2是示出实施方式提供的信息处理装置10的处理块的一例的图。信息处理装置10包括：获取部11、学习部12、调整部13、生成部14、选择部15、输出部16和存储部17。信息处理装置10可以包括通用计算机。

获取部11输入预定学习数据。例如，获取部11输入公知的训练数据。例如，可以给训练数据添加进行了注释的指导标签。此外，获取部11可以输入与训练数据对应的测试数据。

学习部12将获取到的预定学习数据输入至学习模型12a并进行学习，学习模型12a使用神经网络，且学习模型12a应用对神经网络的隐藏层中可能使用的各函数进行加权而生成的第一函数。例如，学习部12执行将隐藏层的激活函数、归一化函数、正则化函数、去噪函数和平滑函数中的至少一个应用于第一函数后的学习模型12a的学习。可以对于要学习的预定问题或预定数据集适当地设定使用哪个。

预定问题包括例如对图像数据、序列数据和文本数据中的至少一个进行分类、生成和最优化中的至少一个的问题。在此，图像数据包括静止图像数据和运动图像数据。序列数据包括语音数据和股价数据。

此外，预定学习模型12a为包括神经网络的学习模型，例如包括图像识别模型、序列数据分析模型、机器人控制模型、强化学习模型、语音识别模型、语音生成模型、图像生成模型、自然语言处理模型等之中的至少一个。此外，作为具体例，预定学习模型12a可以是CNN(Convolutional Neural Network，卷积神经网络)、RNN(Recurrent Neural Network，循环神经网络)、DNN(Deep Neural Network，深度神经网络)、LSTM(Long Short-TermMemory，长短期记忆网络)、双向LSTM、DQN(Deep Q-Network，深度Q网络)、VAE(VariationalAutoEncoder，变分自动编码器)、GANs(Generative Adversarial Networks，生成式对抗网络)、flow-based生成模型等之中的任意一种。

此外，学习模型12a包括通过修剪(Pruning)、量化(Quantization)、蒸馏(Distillation)或转移(Transfer)学习完毕模型而得到的模型。再者，这些仅为一例，学习部12还可以针对这些以外的问题执行学习模型的机器学习。

图3是示出实施方式提供的学习模型12a的一例的图。在图3所示的示例中，学习模型12a包括由输入层31、隐藏层32和输出层33构成的神经网络。学习部12通过使用预定训练数据作为学习数据来执行监督式学习，并生成对第一函数的各权重进行了调整的学习模型12a。具体地，学习部12将训练数据输入到输入层31，并进行超参数等学习，以从输出层33输出最优的学习结果。此时，当更新(调整)超参数时，调整部13调整隐藏层32所应用的第一函数的各权重。第一函数可以共同应用于隐藏层32的预定节点组。

图4是用于说明实施方式提供的应用于隐藏层的函数的图。在图4所示的示例中，示出了应用隐藏层32中预定函数1的节点组N1和应用预定函数2的节点组N2。例如，将激活函数应用于预定函数1，将归一化函数、去噪函数、正则化函数、平滑函数等应用于预定函数2，但不限于这些例子。此外，节点组N1和节点组N2中的隐藏层32的位置关系也是一个示例，也可以设置在隐藏层32中的其他位置。因此，通过更适当地设定要应用于隐藏层32的预定函数1和/或预定函数2，可以提高学习模型12a的学习精度。

回到图2，当基于预定学习数据的指导标签通过使用误差反向传播法更新神经网络的参数时，调整部13调整第一函数的各权重。例如，在对学习模型12a进行学习时，学习部12基于学习数据(训练数据)的指导标签通过误差反向传播法更新学习模型12a的超参数和偏差。此时，调整部13通过预定方法调整第一函数的各权重。此外，也可以不通过学习部12进行超参数等的更新而通过调整部13调整各权重，并且可以通过各个超参数等存储损失函数最小的各权重。

例如，对于各权重的调整，可以从预设的初始值开始依次调整各权重。此时，调整为将各权重全部相加为1，且如果进行与先前进行的调整不同的调整，则可以使用任意调整方法。例如，调整部13按顺序以预定值逐次对各权重进行改变，并改变所有组合。例如，调整部13对于权重w_k从初始值中逐次减去预定值，对于权重w_k+1从初始值中逐次加上预定值，当任一权重变为0以下或1以上时，将k加上1，并且重复从各初始值起的改变。此外，也可以不设置各权重全部相加为1的条件，在此情况下，使用Softmax函数等最后进行调整，使各权重相加为1即可。

作为学习部12的学习因满足预定条件而结束的结果，生成部14生成通过对第一函数设定调整后的各权重得到的第二函数。由于在学习结束的时点，生成部14对第一函数设定最终的各权重，因此可以将该最终的第一函数作为第二函数。此外，当对于各超参数存储有使损失函数最小的各权重时，生成部14可以确定显示损失函数最小的值的超参数对应的各权重，并生成第二函数。

例如，第一函数是对各函数进行加权并线性组合的公式等。第二函数与第一函数在基本公式的结构上相同，对各函数的权重进行机器学习，并设定调整后的值。

通过上述处理能够使应用于神经网络中的隐藏层的函数更适当。对于以往通常根据工程师的经验法则进行应用的隐藏层的函数，可以通过复合地使用各种函数来生成新函数，并使用包括与要处理的数据相应地构建的隐藏层的学习模型来提高学习精度。

作为第一函数，如上述示例，当对现有的各函数进行加权并线性组合的情形时，如果根据经验法则使用的函数的权重的初始值例如为1，则由调整部13进行各函数的权重调整，以使得与该情形相比学习精度更高。因此，与根据经验法则使用的函数相比，通过使用设定了调整后的权重的第二函数，可以预期学习精度提高。

(激活函数)

当以激活函数为例作为隐藏层的函数时，用于第一函数的多个函数包括作为激活函数应用的函数，第二函数包括与激活函数相关的函数。第二函数例如是通过将各激活函数乘以调整后的权重而新生成的函数。

例如，激活函数是Swish、Gaussian ErrorLinear Unit、Exponential LinearUnit、Smooth ReLU、Bent Identity函数、Sigmoid函数、logSigmoid函数、tanh函数、tanhShrink函数、ELU函数、SELU函数、CELU函数、softplus函数、ACON函数、Mish函数、tanhExp函数等。这些激活函数为平滑后的函数，并且为可微分函数。此外，这些激活函数中的至少两个以上的函数被用于第一函数。

此外，激活函数的另一示例包括阶跃函数(step)、恒等函数(identity)、hardShrink函数、Threshold函数、hardSigmoid函数、hardtanh函数、ReLU函数、ReLU6函数、leaky-ReLU函数、柔性最大值函数(softmax)、softmin函数、softsign函数、hardSwish函数等。这些函数为未平滑的函数，并且存在无法微分的点。第一函数可以通过从包括上述的激活函数的激活函数库中选择任意的激活函数来生成，而与平滑无关。再者，包含在激活函数库中的激活函数包括可应用于激活函数的函数，不限于上述示例。

再者，虽然可以举出式(1)作为与激活函数有关的第一函数F₁(x)的例子，但仅为一个示例。

F₁(x)＝W₁A₁+W₂A₂+W₃A₃…+W_nA_n 式(1)

W_n：权重

A_n：激活函数

从而，定义一个能够适应性地改变的函数作为激活函数成为可能。此外，可以应用设定了学习完成的各权重以使得比单一的激活函数精度更高的第二函数，从而可以提高神经网络的学习精度。

此外，还可以包括选择部15，用于当使用激活函数库时，也就是当第一函数的各函数中使用激活函数时，从包括平滑后的激活函数的第一组和包括任意的激活函数的第二组中选择任意组。例如，选择部15根据用户的操作选择第一组或第二组，并使用所选择的组中的任意的激活函数来生成第一函数。再者，在第一组中可以包含上述的平滑后的函数，在第二组中可以包含上述所有的函数。也即，在第一组和第二组中可以包含重复的激活函数。

因此，当选择第一组时，可以生成作为针对对抗攻击(Adversarial Attack)的防御方法的激活函数。下面说明以第一组激活函数为针对对抗攻击的防御策略。

所谓对抗性示例(adversarial example，AE)是在输入数据中加入扰动(perturbatio n)后的数据。通常，对抗性示例是指加入了噪声的图像，但实际上是可以适用于自然语言等所有AI的概念。在此，为了便于理解，举出图像识别的例子进行说明。尽管在人眼看来，原始图像和AE几乎相同，但机器学习的推理结果却会发生变化。也就是说，AE的学习精度降低，并且无法获得期望的结果作为推理结果。

对抗AE攻击的手段是学习AE本身。这被称为对抗训练(adversarial training，AT)。虽然AT有几种类型，但也有AE被正确识别，反而原图像未被正确识别的情况。换句话说，作为能够应对数据有些许的模糊的代价，学习精度将下降。一般认为，机器学习模型的鲁棒性(健壮性、稳健性、robustness)和准确性(accuracy)是此消彼长的，在AT中也同样成立。

然而，在smooth adversarial training(Cihang Xie,Mingxing Tan,BoqingGong,Alan Yuille,Quoc V.Le,”Smooth adversarial training,”arXiv:2006.14536,Jun25,2020)的研究(以下也成为“本研究”)中，着眼于“AE基于梯度生成”以及“梯度由激活函数微分得”到这两点，并得出结论：为了更好地进行AT，激活函数应该是平滑的(sm ooth)(smooth adversarial training，SAT)。

此外，虽然经常使用的ResNet的激活函数为ReLU，但在本研究中揭示了ReLU的非平滑性削弱了AT，并验证了SAT强化了AT。

因此，作为可微分激活函数的集合的第一组激活函数库被用作用于第一函数的多个激活函数，从而第二函数可以强化对抗训练。

再者，虽然可以举出式(2)作为使用第一组中包含的激活函数来生成第一函数F₂(x)的例子，但仅为一个示例。

F₂(x)＝W₁AR₁+W₂AR₂+W₃AR₃…+W_nAR_n 式(2)

W_n：权重

AR_n：可微分激活函数(平滑的激活函数)

从而，定义一个能够适应性地改变的函数作为激活函数成为可能。此外，可以应用设定了学习完成的各权重以使得比单一的平滑的激活函数精度更高的第二函数，从而可以在提高神经网络的学习精度的同时提高健壮性。

(维度压缩函数)

当以归一化函数或标准化函数为例作为隐藏层的函数时，用于第一函数的多个函数包括作为归一化函数或标准化函数应用的函数，第二函数包括与归一化函数或标准化函数相关的函数。在此，归一化函数和标准化函数统称为维度压缩函数。第二函数例如是通过将各维度压缩函数乘以调整后的权重而新生成的函数。

例如，归一化函数是批量归一化(BN)、主成分分析(PCA)、奇异值分解(SVD)、零相位分量分析(ZCA)、局部响应归一化(LRN)、全局对比度归一化(GCN)、局部对比度归一化(LCN)等。

此外，标准化函数例如是MinMaxScaler、StandardScaler、RobustScaler、Normalizer等。第一函数可以通过从包括上述的维度压缩函数的维度压缩函数库中选择任意的维度压缩函数来生成。再者，包含在维度压缩函数库中的维度压缩函数可以包括可应用于维度压缩函数的函数，不限于上述示例。此外，对于维度压缩函数，可以根据作为学习对象的数据的特性来选择归一化或标准化，并且可以从所选择的函数中生成第一函数。

再者，虽然可以举出式(3)作为使用维度压缩函数来生成第一函数F₃(x)的例子，但仅为一个示例。

F₃(x)＝W₁N₁+W₂N₂+W₃N₃…+W_nN_n 式(3)

W_n：权重

N_n：维度压缩函数

从而，定义一个能够适应性地改变的函数作为维度压缩函数成为可能。此外，可以应用设定了学习完成的各权重以使得比单一的维度压缩函数精度更高的第二函数，从而可以统一各输入数据的比例差异，并提高神经网络的学习精度。

(去噪函数)

当以去噪(denoising operation)有关的函数为例作为隐藏层的函数时，用于第一函数的多个函数包括作为去噪函数应用的函数，第二函数包括与去噪函数相关的函数。第二函数例如是通过将各去噪函数乘以调整后的权重而新生成的函数。

例如，去噪函数是non-local、GAUSSIAN softmax、Dot Product sets、Bilateralfilter、Mean filter、Median filter等。第一函数可以通过从包括上述的去噪函数的去噪函数库中选择任意的去噪函数来生成。再者，包含在去噪函数库中的去噪函数可以包括可应用于去噪函数的函数，不限于上述示例。

再者，虽然可以举出式(4)作为使用去噪函数来生成第一函数F₄(x)的例子，但仅为一个示例。

F₄(x)＝W₁D₁+W₂D₂+W₃D₃…+W_nD_n 式(4)

W_n：权重

D_n：去噪函数

从而，定义一个能够适应性地改变的函数作为去噪函数成为可能。此外，可以应用设定了学习完成的各权重以使得比单一的去噪函数精度更高的第二函数，从而可以适当地去除输入数据的噪声，并提高神经网络的学习精度。

(平滑函数)

当以与平滑有关的函数为例作为隐藏层的函数时，用于第一函数的多个函数包括作为平滑函数应用的函数，第二函数包括与平滑函数相关的函数。第二函数例如是通过将各平滑函数乘以调整后的权重而新生成的函数。

例如，平滑函数是移动平均滤波器、Savitzky-Golay filter、傅里叶变换、局部回归平滑化(Lowess和Loess、局部回归法、鲁棒局部回归等)等。第一函数可以通过从包括上述的平滑函数的平滑函数库中选择任意的平滑函数来生成。再者，包含在平滑函数库中的平滑函数可以包括可应用于平滑函数的函数，不限于上述示例。

再者，虽然可以举出式(5)作为使用平滑函数来生成第一函数F₅(x)的例子，但仅为一个示例。

F₅(x)＝W₁S₁+W₂S₂+W₃S₃…+W_nS_n 式(5)

W_n：权重

S_n：平滑函数

从而，定义一个能够适应性地改变的函数作为平滑函数成为可能。此外，可以应用设定了学习完成的各权重以使得比单一的平滑函数精度更高的第二函数，从而，例如可以在输入序列数据时适当地去除噪声，并提高神经网络的学习精度。

(正则化函数)

当以与正则化有关的函数为例作为隐藏层的函数时，用于第一函数的多个函数包括作为正则化函数应用的函数，第二函数包括与正则化函数相关的函数。第二函数例如是通过将各正则化函数乘以调整后的权重而新生成的函数。

例如，正则化函数是L1正则化[Tibshirani,1996]、L2正则化[Tikhonov,1943]、Weight decay[Hanson and Pratt,1988]、Early Stopping[Morgan and Bourlard,1990]、Dropout[Srivastava et al.,2014]、Batch normalization[Ioffe and Szegedy,2015]、Mixup[Zhang et al.,2018]、Image augment[Shorten and Khoshgoftaar,2019]·Flooding[Ishida,2020]等。第一函数可以通过从包括上述的正则化函数的正则化函数库中选择任意的正则化函数来生成。再者，包含在正则化函数库中的正则化函数可以包括可应用于正则化函数的函数，不限于上述示例。

再者，虽然可以举出式(6)作为使用正则化函数来生成第一函数F₆(x)的例子，但仅为一个示例。

F₆(x)＝W₁L₁+W₂L₂+W₃L₃…+W_nL_n 式(6)

W_n：权重

L_n：正则化函数

从而，定义一个能够适应性地改变的函数作为正则化函数成为可能。此外，可以应用设定了学习完成的各权重以使得比单一的正则化函数精度更高的第二函数，从而，例如可以适当地防止过度学习，并提高神经网络的学习精度。

对于使用具有通过机器学习调整的各权重的第二函数的学习模型，可以通过测试数据来评估学习结果(推理结果)。将使用现有函数的学习模型得到的第一评估结果(在分类问题的情况下为分类精度)与应用第二函数的学习模型得到的第二评估结果进行比较。当第二评估结果实际上高于第一评估结果时，则应用第二函数即可。

以上，对信息处理装置10在学习阶段的处理进行了说明。下面，将说明当使用应用了在学习阶段生成的第二函数的学习模型对未知数据进行学习(推理)时，信息处理装置10在推理阶段的处理。

获取部11获取预定数据。例如，获取部11可以获取存储在存储部17中的数据，也可以获取经由网络接收到的数据，还可以根据用户操作获取数据。

学习部12将通过获取部11获取的预定数据输入至上述应用第二函数的学习模型并进行学习。该学习模型是使用对神经网络的隐藏层中可能使用的各函数进行加权而生成的第一函数的学习模型。对于各权重，当通过使用误差反向传播法更新神经网络的参数时，调整第一函数的各权重，并设定为调整后的各权重。此外，当更新神经网络的参数时，调整第一函数的各权重是指，在使用误差反向传播法更新神经网络的参数前，调整所有第一函数的各权重之后再更新神经网络的参数，此外，也包括调整所有第一函数的各权重。

例如，应用第二函数作为对该学习模型中的神经网络的隐藏层中可能使用的各函数进行加权而生成的第一函数，其中，第二函数是通过使用误差反向传播法更新神经网络的参数，并对第一函数设定调整了第一函数的各权重的情况下的调整后的各权重得到的。

如上所述，在推理阶段中使用将第一函数(与第二函数同义)应用于隐藏层的学习模型，其中第一函数在学习阶段中进行学习并被设定有调整了的各权重。此外，对于应用于隐藏层的第二函数，并不一定需要预先学习，也可以适当地调整与通过复合地使用多个函数组合的一个函数(例如，线性组合的函数)相关的系数或权重。

输出部16输出学习部12的学习结果。例如，输出部16输出学习部12的推理结果作为输出结果。因此，可以通过使用使隐藏层32中的函数更适当的学习模型来进行推理，并获得更适当的推理结果。

此外，在学习阶段，可以根据例如图像数据、序列数据、文本数据等的数据的种类(例如，特征信息)分别获得适当的第二函数。此外，对于每种数据的种类，存储部17存储与适当的第二函数相对应的对应数据(例如，对应表，参照图6)。在这种情况下，学习部12可以基于由获取部11获取的预定数据的特征来确定数据的种类。进一步的，学习部12可以从存储部17提取与所确定数据的种类相对应的第二函数，并将所提取的第二函数应用于学习模型12a的隐藏层32的预定位置(例如，预定层)。

因此，信息处理装置10可以根据作为推理对象的数据的种类确定适当的第二函数，并将该第二函数应用于隐藏层32，从而可以根据数据进行更适当地推理。

<数据例>

图5是示出实施方式提供的函数库的一例的图。在图5所示的示例中，函数与每个函数ID相关联。例如，当函数库为激活函数库时，则函数1为Swish，函数2为Gaussian ErrorLinear Unit等。此外，也可以对函数库赋予ID，对于每个函数库ID，可以在存储部17中存储激活函数库、维度压缩函数库、去噪函数库、平滑处理库、正则化库等。

学习部12可以使用对保存在函数库中的所有函数赋予了权重的第一函数，也可以使用对保存在函数库中的任意函数赋予了权重的第一函数。

图6是示出实施方式提供的数据的种类和第二函数的对应数据的一例的图。在图6所示的示例中，第二函数F_1A(x)与数据的种类A相对应，第二函数F_1B(x)与数据的种类B相对应。再者，第二函数中也有激活函数、归一化函数、维度压缩函数、去噪函数、正则化函数、平滑函数等种类。因此，激活函数相关的第二函数、归一化函数相关的第二函数、维度压缩函数相关的第二函数、去噪函数相关的第二函数、正则化函数相关的第二函数和平滑函数相关的第二函数可以与每种数据的种类相对应。再者，图5和图6所示的数据为函数数据17a的一例。

<操作>

图7是示出实施方式提供的学习阶段中的处理的一例的流程图。图7所示的处理由信息处理装置10执行。

在步骤S102中，信息处理装置10的获取部11获取预定学习数据。作为学习数据，可以首先获取训练数据，然后输入用于评估的测试数据。此外，学习数据被赋予指导标签。获取部11可以获取存储在存储部17中的预定数据，也可以获取经由网络接收到的预定数据，还可以获取根据用户操作输入的预定数据。

在步骤S104中，信息处理装置10的学习部12将预定学习数据输入至学习模型并进行学习，该学习模型使用神经网络，且该学习模型应用对该神经网络的隐藏层中可能使用的各函数进行加权而生成的第一函数。

在步骤S106中，当基于预定学习数据的指导标签通过使用误差反向传播法更新神经网络的参数时，信息处理装置10的调整部13调整第一函数的各权重。

在步骤S108中，作为学习部12的学习结果，信息处理装置10的生成部14生成通过对第一函数设定调整后的各权重得到的第二函数。例如，当由于损失函数最小化而结束学习时，生成部14可以提取该时点的第一函数的各权重。

因此，调整第一函数的各权重，并生成设定调整后的各权重的第二函数，从而可以使应用于隐藏层32的函数更适当。此外，可以输入测试数据来评估将生成的第二函数应用于训练数据的学习模型12。

例如，当第一函数和第二函数与激活函数相关时，将使用单一的激活函数的学习模型得到的测试数据的第一评估结果与使用第二函数的学习模型得到的测试数据的第二评估结果进行比较。理论上，由于对第一函数的各权重进行调整以使得精度高于使用单一的激活函数，因此推定第二评估结果将更好，但是可以通过实际使用测试数据来进行证实。此时，假如在测试数据中第二评估结果更差时，则可以改变第一函数的各权重的调整方法或改变各权重的初始值，并再次使用训练数据执行上述学习。

因此，通过存储和应用使用测试数据进行评估之后的第二函数，可以提高学习精度提高的可靠性。此外，对于每个学习数据，存储部17将基于学习数据的特征的种类和第二函数相对应地保持。

图8是示出实施方式提供的推理阶段中的处理的一例的流程图。图8所示的处理由信息处理装置10执行。此外，图8所示的处理处于执行图7所示的处理并且适当的第二函数可以应用的状态。

在步骤S202中，信息处理装置10的学习部12应用第二函数作为对学习模型中的神经网络的隐藏层中可能使用的各函数进行加权而生成的第一函数，其中，第二函数是通过使用误差反向传播法更新神经网络的参数，并对第一函数设定调整了第一函数的各权重的情况下的调整后的各权重得到的。

在步骤S204中，获取部11获取预定数据。

在步骤S206中，学习部12将预定数据输入至应用第二函数的学习模型并进行学习(推理)。

在步骤S208中，输出部16输出学习部12的学习(推理)结果。

因此，作为学习模型的隐藏层中的函数，使用应用了比使用单一的函数更适当的函数的学习模型，从而可以提高推理精度。再者，在图8中的处理中，通过替换步骤S202和步骤S204，学习部12可以确定与所获取的数据的种类相对应的第二函数，并使用应用了所确定的第二函数的学习模型。

以上说明的实施方式仅是为了便于理解本发明，而不是为了对本发明进行限制性解释。实施方式所具备的各要素及其配置、材料、条件、形状和尺寸等可以适当地改变，而不限于例示的实施方式。此外，不同实施方式中所示的配置之间可以部分地替换或组合。此外，在学习阶段中的信息处理装置10和在推理阶段中的信息处理装置10可以是不同的计算机。在这种情况下，也可以经由网络发送所生成的第二函数。

<附记>

[附记1]

一种信息处理装置，包括：

获取部，用于获取预定学习数据；

学习部，用于将所述预定学习数据输入至学习模型并进行学习，所述学习模型使用神经网络，且所述学习模型将通过对所述神经网络的隐藏层中可能使用的各函数进行加权而生成的第一函数共同应用于所述隐藏层的预定节点组；

调整部，用于当基于所述预定学习数据的指导标签通过使用误差反向传播法更新所述神经网络的参数时，调整所述第一函数的各权重；以及

生成部，用于生成通过对所述第一函数设定调整后的所述各权重得到的第二函数，并作为所述学习的结果。

[附记2]

一种信息处理装置，包括：

获取部，用于获取预定学习数据；

学习部，用于将所述预定学习数据输入至学习模型并进行学习，所述学习模型使用神经网络，且所述学习模型应用对所述神经网络的隐藏层中可能使用的各函数进行加权而生成的第一函数；

调整部，用于当基于所述预定学习数据的指导标签通过使用误差反向传播法更新所述神经网络的参数时，调整所述第一函数的各权重；

生成部，用于生成通过对所述第一函数设定调整后的所述各权重得到的第二函数，并作为所述学习的结果；以及

存储部，用于将所述第二函数与所述预定学习数据的种类相对应地存储。

[附记3]

如附记1或2所述的信息处理装置，其中，还包括：选择部，用于当在所述各函数中使用激活函数时，从包括平滑后的激活函数的第一组和包括任意的激活函数的第二组中选择任意组，

在所述第一函数中所使用的多个函数使用所选择的组中的激活函数。

[附记4]

如附记1或2所述的信息处理装置，其中，所述各函数为归一化函数、标准化函数、去噪函数、平滑函数和正则化函数中的任意一个函数。

[附记5]

一种信息处理方法，由信息处理装置中具有的处理器执行：

获取预定学习数据；

将所述预定学习数据输入至学习模型并进行学习，所述学习模型使用神经网络，且所述学习模型将通过对所述神经网络的隐藏层中可能使用的各函数进行加权而生成的第一函数共同应用于所述隐藏层的预定节点组；

当基于所述预定学习数据的指导标签通过使用误差反向传播法更新所述神经网络的参数时，调整所述第一函数的各权重；

生成通过对所述第一函数设定调整后的所述各权重得到的第二函数，并作为所述学习的结果。

[附记6]

一种信息处理方法，由信息处理装置中具有的处理器执行：

获取预定学习数据；

将所述预定学习数据输入至学习模型并进行学习，所述学习模型使用神经网络，且所述学习模型应用对所述神经网络的隐藏层中可能使用的各函数进行加权而生成的第一函数；

生成通过对所述第一函数设定调整后的所述各权重得到的第二函数，并作为所述学习的结果；

将所述第二函数与所述预定学习数据的种类相对应地存储。

[附记7]

一种存储有程序的非暂时性计算机可读存储介质，该程序使信息处理装置中具有的处理器执行：

获取预定学习数据；

[附记8]

获取预定学习数据；

将所述第二函数与所述预定学习数据的种类相对应地存储。

[附记9]

一种信息处理方法，由信息处理装置中具有的处理器执行：

获取预定数据；

将所述预定数据输入至学习模型并进行学习，所述学习模型将第二函数作为对所述学习模型中的神经网络的隐藏层中可能使用的各函数进行加权而生成的第一函数共同应用于所述隐藏层的预定节点组，其中，所述第二函数是通过使用误差反向传播法更新所述神经网络的参数，并对所述第一函数设定调整了所述第一函数的各权重的情况下的调整后的各权重得到的；

输出所述学习的结果。

[附记10]

一种信息处理方法，由信息处理装置中具有的处理器执行：

获取预定数据；

基于所述预定数据的特征确定该预定数据的种类；

从存储与所述预定数据的各种类相对应的第二函数的存储部中提取与所确定的种类相对应的第二函数，其中，所述第二函数为：通过对于对所述学习模型中的神经网络的隐藏层中可能使用的各函数进行加权而生成的第一函数使用误差反向传播法更新所述神经网络的参数，并对所述第一函数设定调整了所述第一函数的各权重的情况下的调整后的各权重得到的函数；

将所述预定数据输入至所述学习模型并进行学习，其中所述学习模型将所述第二函数应用于所述隐藏层；

输出所述学习的结果。

[附记11]

一种具有处理器的信息处理装置，所述处理器执行：

获取预定数据；

输出所述学习的结果。

[附记12]

一种具有处理器的信息处理装置，所述处理器执行：

获取预定数据；

基于所述预定数据的特征确定该预定数据的种类；

输出所述学习的结果。

[附记13]

获取预定数据；

输出所述学习的结果。

[附记14]

获取预定数据；

基于所述预定数据的特征确定该预定数据的种类；

输出所述学习的结果。

[附记15]

一种信息处理装置，包括：

获取部，用于获取预定学习数据；

学习部，用于将所述预定学习数据输入至学习模型并进行学习，所述学习模型使用神经网络，且所述学习模型应用对所述神经网络的隐藏层中可能使用的平滑后的各激活函数进行加权而生成的第一函数；

[附记16]

一种信息处理方法，由信息处理装置中具有的处理器执行：

获取预定学习数据；

将所述预定学习数据输入至学习模型并进行学习，所述学习模型使用神经网络，且所述学习模型应用对所述神经网络的隐藏层中可能使用的平滑后的各激活函数进行加权而生成的第一函数；

[附记17]

获取预定学习数据；

[附记18]

一种信息处理方法，由信息处理装置中具备的处理器执行：

获取预定数据；

将所述预定数据输入至学习模型并进行学习，所述学习模型将第二函数作为对所述学习模型中的神经网络的隐藏层中可能使用的平滑后的各激活函数进行加权而生成的第一函数，其中，所述第二函数是通过使用误差反向传播法更新所述神经网络的参数，并对所述第一函数设定调整了所述第一函数的各权重的情况下的调整后的各权重得到的；

输出所述学习的结果。

[附记19]

一种具有处理器的信息处理装置，所述处理器执行：

获取预定数据；

输出所述学习的结果。

[附记20]

获取预定数据；

输出所述学习的结果。

附图标记

10-信息处理装置，10a-CPU，10b-RAM，10c-ROM，10d-通信部，10e-输入部，10f-显示部，11-获取部，12-学习部，12a-学习模型，13-调整部，14-生成部，15-选择部，16-输出部，17-存储部，17a-函数数据。

Claims

1.一种信息处理装置，包括：

获取部，用于获取预定学习数据，所述预定学习数据为图像数据；

学习部，用于将所述预定学习数据输入至学习模型并进行学习，所述学习模型使用神经网络，且所述学习模型将通过对所述神经网络的隐藏层中使用的各函数进行加权而生成的第一函数共同应用于所述隐藏层的预定节点组；

生成部，用于基于所述预定学习数据的种类，生成通过对所述第一函数设定调整后的所述各权重得到的第二函数，并作为所述学习的结果。

2.如权利要求1所述的信息处理装置，其中，还包括：选择部，用于当在所述各函数中使用激活函数时，从包括平滑后的激活函数的第一组和包括任意的激活函数的第二组中选择任意组，

3.如权利要求1所述的信息处理装置，其中，所述各函数为归一化函数、标准化函数、去噪函数、平滑函数和正则化函数中的任意一个函数。

4.如权利要求1至3中任一项所述的信息处理装置，其中，还包括：存储部，用于将所述第二函数与所述预定学习数据的种类相对应地存储。

5.一种信息处理方法，由信息处理装置中具有的处理器执行：

获取预定学习数据，所述预定学习数据为图像数据；

将所述预定学习数据输入至学习模型并进行学习，所述学习模型使用神经网络，且所述学习模型将通过对所述神经网络的隐藏层中使用的各函数进行加权而生成的第一函数共同应用于所述隐藏层的预定节点组；

基于所述预定学习数据的种类，生成通过对所述第一函数设定调整后的所述各权重得到的第二函数，并作为所述学习的结果。

6.一种存储有程序的非暂时性计算机可读存储介质，该程序使信息处理装置中具有的处理器执行：

获取预定学习数据，所述预定学习数据为图像数据；

7.一种信息处理装置，包括：

获取部，用于获取预定学习数据，所述预定学习数据为文本数据；

8.如权利要求7所述的信息处理装置，其中，还包括：选择部，用于当在所述各函数中使用激活函数时，从包括平滑后的激活函数的第一组和包括任意的激活函数的第二组中选择任意组，

9.如权利要求7所述的信息处理装置，其中，所述各函数为归一化函数、标准化函数、去噪函数、平滑函数和正则化函数中的任意一个函数。

10.如权利要求7至9中任一项所述的信息处理装置，其中，还包括：存储部，用于将所述第二函数与所述预定学习数据的种类相对应地存储。

11.一种信息处理方法，由信息处理装置中具有的处理器执行：

获取预定学习数据，所述预定学习数据为文本数据；

12.一种存储有程序的非暂时性计算机可读存储介质，该程序使信息处理装置中具有的处理器执行：

获取预定学习数据，所述预定学习数据为文本数据；