CN115023711A - 学习装置、学习方法以及学习程序 - Google Patents
学习装置、学习方法以及学习程序 Download PDFInfo
- Publication number
- CN115023711A CN115023711A CN202080087380.0A CN202080087380A CN115023711A CN 115023711 A CN115023711 A CN 115023711A CN 202080087380 A CN202080087380 A CN 202080087380A CN 115023711 A CN115023711 A CN 115023711A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- loss
- learning
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 88
- 230000008569 process Effects 0.000 claims abstract description 52
- 238000004364 calculation method Methods 0.000 claims description 59
- 238000000605 extraction Methods 0.000 claims description 19
- 239000000284 extract Substances 0.000 claims description 7
- 238000012545 processing Methods 0.000 description 40
- 230000005856 abnormality Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 13
- 238000012800 visualization Methods 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000012544 monitoring process Methods 0.000 description 9
- 238000013500 data storage Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 3
- 235000008733 Citrus aurantifolia Nutrition 0.000 description 2
- 235000011941 Tilia x europaea Nutrition 0.000 description 2
- 239000004571 lime Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 239000011230 binding agent Substances 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Testing And Monitoring For Control Systems (AREA)
- Image Analysis (AREA)
Abstract
学习装置(10)取得多个数据,将所取得的多个数据作为输入数据输入到模型,在得到了从该模型输出的输出数据的情况下,基于输出数据和正解数据来计算模型的损失。并且,学习装置(10)在每当计算出损失时,反复进行根据该损失来更新模型的权重的更新处理。另外,学习装置(10)计算对模型的解释性做贡献的值,在损失和对模型的解释性做贡献的值满足规定的条件的情况下,结束更新处理。
Description
技术领域
本发明涉及学习装置、学习方法以及学习程序。
背景技术
以往,已知有提取对模型的解释性做贡献的值的方法。例如,在神经网络的情况下,作为提取神经网络的输入输出的关系性的方法,以Saliency map(显著图)为代表提出了多个,以图像识别、时间序列回归为代表,以在各种问题中表示模型的判断依据为目的而被利用,在实际系统中也被利用。通过该方法得到的输入输出的关系性的数值通过如下算法来计算,该算法按每个输入样本,对神经网的已学习模型利用了反向传播。
另外,在神经网络以外的情况下,也将Importance Score(重要性得分)用作模型的解释,Importance Score表示由能够用于任意模型的LIME或SHAP得到的贡献度、或者通过使用了以Gradient Boosting Tree(梯度提升树)为代表的决策树的方法得到的输入的重要度。以下将对这些模型的解释性做贡献的值称为归因(attribution)。
现有技术文献
非专利文献
非专利文献1:Smilkov Daniel,et al.“Smoothgrad:removing noise by addingnoise.”arXiv preprint 1706.03825(2017).
非专利文献2:Simonyan Karen,Andrea Vedaldi,and Andrew Zisserman.“Deepinside convolutional networks:Visualising image classification models andsaliency maps.”arXiv preprint arXiv:1312.6034(2014).
非专利文献3:Binder Alexander,et al.“Layer-wise relevance propagationfor deep neural network architectures.”Information Science and Applications(ICISA)2016.Springer,Singapore,2016.913-922.
非专利文献4:Ribeiro Marco Tulio,Sameer Singh,and Carlos Guestrin."Whyshould i trust you?:Explaining the predictions of any classifier."Proceedingsof the 22nd ACM SIGKDD international conference on knowledge discovery anddata mining.ACM,2016.
非专利文献5:Strumbelj Erik,and Igor Kononenko."Explaining predictionmodels and individual predictions with feature contributions."Knowledge andinformation systems 41.3(2013):647-665.
发明内容
发明所要解决的课题
然而,相对于机器学习模型中的规定学习次数的条件并进行逐次的学习的模型,在以往的学习方法中,存在难以以容易观测的值得到对模型的解释性做贡献的值的情况。例如,作为归因而得到的值依赖于模型的学习经过,因此,存在进行某个一定次数的学习而从模型得到的归因以能够解释输入输出的关系性的形式示出(以下,称为归因收敛)的情况,也存在混入噪声而难以理解的情况,从而难以实现稳定。
这是因为,针对模型学习的结束基准大多是预先决定的学习次数、根据以EarlyStopping(早停止)为代表的精度是否改善来中止学习、或者像超参数搜索那样利用精度超过一定值的情况,不能保证无噪声地得到归因。
用于解决课题的手段
为了解决上述问题并达成目的,本发明的学习装置的特征在于,具有:取得部,其取得多个数据;第一计算部,其将由所述取得部取得的多个数据作为输入数据输入到模型,在得到了从该模型输出的输出数据的情况下,基于所述输出数据和正解数据来计算所述模型的损失;更新部,其在每当由所述第一计算部计算出损失时,反复进行根据该损失更新所述模型的权重的更新处理;第二计算部,其计算对所述模型的解释性做贡献的值;以及更新结束部,其在由所述第一计算部计算出的损失和由所述第二计算部计算出的值满足规定的条件的情况下,使所述更新处理结束。
此外,本发明的学习方法是由学习装置执行的学习方法,其特征在于,包含:取得步骤,取得多个数据;第一计算步骤,将由所述取得步骤取得的多个数据作为输入数据输入到模型,在得到了从该模型输出的输出数据的情况下,基于所述输出数据和正解数据来计算所述模型的损失;更新步骤,每当由所述第一计算步骤计算出损失时,反复进行根据该损失更新所述模型的权重的更新处理;第二计算步骤,计算对所述模型的解释性做贡献的值;以及更新结束步骤,在由所述第一计算步骤计算出的损失和由所述第二计算步骤计算出的值满足规定的条件的情况下,使所述更新处理结束。
此外,本发明的学习程序的特征在于,使计算机执行以下步骤:取得步骤,取得多个数据;第一计算步骤,将由所述取得步骤取得的多个数据作为输入数据输入到模型,在得到了从该模型输出的输出数据的情况下,基于所述输出数据和正解数据来计算所述模型的损失;更新步骤,每当由所述第一计算步骤计算出损失时,反复进行根据该损失更新所述模型的权重的更新处理;第二计算步骤,计算对所述模型的解释性做贡献的值;以及更新结束步骤,在由所述第一计算步骤计算出的损失和由所述第二计算步骤计算出的值满足规定的条件的情况下,使所述更新处理结束。
发明的效果
根据本发明,起到如下效果:能够在保持模型的精度的同时,以容易观测的值得到对模型的解释性做贡献的值。
附图说明
图1是表示第1实施方式的学习装置的结构例的框图。
图2是说明由学习装置执行的学习处理的概要的图。
图3是表示第1实施方式的学习装置中的学习处理的流程的一例的流程图。
图4是表示第2实施方式的学习装置的结构例的框图。
图5是说明由学习装置执行的异常预测处理和归因提取处理的概要的图。
图6是说明由学习装置执行的图像分类处理和归因提取处理的概要的图。
图7是表示第2实施方式的学习装置中的归因提取处理的流程的一例的流程图。
图8是表示执行程序的计算机的图。
具体实施方式
以下,基于附图详细说明本申请的学习装置、学习方法以及学习程序的实施方式。此外,本申请的学习装置、学习方法以及学习程序并不限定于该实施方式。
[第1实施方式]
在以下的实施方式中,依次说明第1实施方式的学习装置10的结构、学习装置10的处理流程,最后说明第1实施方式的效果。
[学习装置的结构]
首先,使用图1来说明学习装置10的结构。图1是表示第1实施方式的学习装置的结构例的框图。学习装置10使用预先准备的学习数据,进行反复更新模型权重的处理的学习处理。在学习装置10中,为了在学习处理中保证归因的噪声减少,在学习的结束条件中不仅考虑模型的精度,还考虑归因的值。例如,学习装置10能够将测量归因的稀疏性的尺度(例如,归因得分的L1范数或归因得分的GINI系数)应用于学习的结束条件,如果精度为一定值以下且稀疏度也为一定值以上,则结束学习。
如图1所示,该学习装置10具有通信处理部11、控制部12以及存储部13。以下,对学习装置10所具有的各部分的处理进行说明。
通信处理部11控制与所连接的装置之间交换的各种信息相关的通信。另外,存储部13保存由控制部12进行的各种处理所需的数据以及程序,具有数据存储部13a以及已学习模型存储部13b。例如,存储部13是RAM(Random Access Memory:随机存取存储器)、闪存(Flash Memory:闪存)等半导体存储器元件等存储装置。
数据存储部13a存储由后述的取得部12a取得的数据。例如,数据存储部13a存储预先被赋予了正解标签的学习用的数据集。另外,关于数据的类别,只要是由多个实数值构成的数据,则可以存储任意的数据,例如,可以是设置在工厂、车间、大厦、数据中心等对象设备中的传感器的数据(例如,温度、压力、声音或振动等数据),也可以是作为图像数据的数据。
已学习模型存储部13b存储通过后述的学习处理学习到的已学习模型。例如,已学习模型存储部13b存储用于预测监视对象设备的异常的神经网络的预测模型作为已学习模型。
控制部12具有用于保存规定了各种处理过程等的程序和所需数据的内部存储器,通过这些程序和数据执行各种处理。例如,控制部12具有取得部12a、第一计算部12b、更新部12c、第二计算部12d以及更新结束部12e。这里,控制部12例如是CPU(CentralProcessingUnit:中央处理单元)、MPU(MicroProcessingUnit:微处理单元)或GPU(GraphicalProcessingUnit:图形处理单元)等电子电路或者ASIC(ApplicationSpecificIntegratedCircuit:面向特定用途的集成电路)或FPGA(FieldProgrammableGateArray:现场可编程门阵列)等集成电路。
取得部12a取得多个数据。例如,取得部12a读出并取得存储在数据存储部13a中的数据集。在此,传感器取得的数据例如是作为监视对象设备的工厂、车间内的装置、反应炉的温度、压力、声音或振动等各种数据。另外,取得部12a取得的数据并不限定于传感器取得的数据,例如也可以是图像数据、人为输入的数值数据等。另外,取得部12a也可以实时地取得数据。例如,取得部12a也可以从设置于工厂、车间等监视对象设备的传感器定期地(例如每1分钟)取得多变量时间序列的数值数据。
第一计算部12b将由取得部12a取得的多个数据作为输入数据输入到模型,在得到了从该模型输出的输出数据的情况下,基于输出数据和正解数据来计算模型的损失。例如,第一计算部12b使用规定的损失函数来计算模型的损失。另外,关于损失的计算方法,没有限定,可以使用任意的方法。
更新部12c在每当由第一计算部12b计算出损失时,反复进行根据该损失来更新模型的权重的更新处理。更新部12c根据损失的大小来更新权重(参数)。另外,关于更新的方法,没有限定,可以是任意的方法。
第二计算部12d计算对模型的解释性做贡献的值。例如,第二计算部12d基于输入数据以及输出数据,计算输入数据的各要素对输出数据的贡献度即归因。
在此,对计算归因的具体例进行说明。例如,第二计算部12d在根据输入值计算输出值的已学习模型中,使用输出值的与各输入值相关的偏微分值或其概算值,对各时刻的每个传感器计算归因。作为一例,第二计算部12d使用Saliency Map,针对各时刻的每个传感器,计算归因。Saliency Map是在神经网的图像分类中利用的技术,是将神经网的输出的与各输入相关的偏微分值提取为对输出做贡献的归因的技术。另外,也可以通过SaliencyMap以外的方法来计算归因。
另外,第二计算部12d计算的对模型的解释性做贡献的值并不限定于归因,例如,也可以是表示模型的权重的稀疏性的值。
更新结束部12e在由第一计算部12b计算出的损失和由第二计算部12d计算出的值满足规定的条件的情况下,使更新处理结束。例如,更新结束部12e也可以在由第一计算部12b计算出的损失为预先设定的阈值以下、且由第二计算部12d计算出的值为预先设定的阈值以下的情况下,使更新处理结束。更具体而言,更新结束部12e在损失为规定的阈值以下、且归因的L1范数为预先设定的阈值以下的情况下,使更新处理结束。
另外,更新结束部12e更新结束部也可以在由第一计算部12b计算出的损失比上次计算出的损失大这一情况连续持续规定次数、且由第二计算部12d计算出的值比上次计算出的值大这一情况连续持续规定次数的情况下,使更新处理结束。更具体而言,更新结束部12e也可以在损失比上次计算出的损失大这一情况连续持续5次、且归因的L1范数比上次计算出的归因的L1范数大这一情况连续持续5次的情况下,使更新处理结束。
在此,使用图2,对由学习装置10执行的学习处理的概要进行说明。图2是说明由学习装置执行的学习处理的概要的图。如图2所例示,学习装置10通过反复进行更新权重的阶段1和计算归因的阶段2来学习模型。另外,学习装置10基于计算出的损失和归因的值来判定是否结束学习。
在阶段1中,学习装置10将学习数据输入模型并取得从模型输出的输出数据,基于该输出数据和正解标签来计算损失,根据损失的大小来更新权重。
接着,在阶段2中,学习装置10将验证数据输入模型并取得从模型输出的输出数据,基于输入数据和输出数据来进行归因的计算。另外,学习装置10基于输出数据和正解标签来计算损失。另外在此,验证数据可以是与在阶段1中输入到模型的学习数据相同的数据,也可以是不同的数据。
然后,学习装置10基于计算出的损失和归因的值来判定是否结束学习。例如,当损失为规定的阈值以下且归因的L1范数为预先设定的阈值以下时,学习装置10使更新处理结束。
学习装置10在使用归因作为对模型的解释性做贡献的值的情况下,例如通过下述(1)式来计算归因的L1范数。在下述的计算式中,“xij”是输入数据的样本i、特征j的值。另外,在下述的计算式中,“A”是根据特征和模型来计算归因的函数,“M”是模型。
此外,当损失为规定的阈值以下且模型权重的L1范数为预先设定的阈值以下时,学习装置10也可以使更新处理结束。例如,学习装置10在使用作为归因以外的值的、模型权重的L1范数作为对模型的解释性做贡献的值的情况下,例如通过下述(2)式来计算模型权重的L1范数。在下述的计算式中,“xijk”是指从模型的i层的节点j到节点k的权重。
其结果,学习装置10在判定为结束学习的情况下,输出已学习模型,并且在已学习模型存储部13b中保存已学习模型。另外,学习装置10在判定为结束学习的情况下,返回阶段1进行更新权重的处理。即,学习装置10通过反复进行更新权重的阶段1和计算归因的阶段2来学习模型,直到判定为结束学习为止。
这样,在学习装置10中,为了在学习中保证归因的噪声减少,在学习的结束条件中不仅导入模型的精度,还导入归因的值。例如,在学习装置10中,能够将测量归因的稀疏性的尺度应用于学习的结束条件,如果精度变为一定值以下且稀疏度也变为一定值以上,则结束学习。
另外,在学习装置10中,由于在学习的结束条件中直接加入了归因的值,所以能够考虑在到目前为止的仅将精度作为结束条件的学习中未保证的归因的收敛,从而能够提高得到的归因的得分的稳定性。
另外,学习曲线具有根据数据而反复损失的停滞和下降这样的特性,因此在仅观察精度的以往的Early Stopping中,存在实际上在损失收敛之前就注视学习这样的问题。另一方面,已知学习的结束与归因的收敛存在密切的关系,在学习装置10中,通过将归因的收敛加入到结束条件,即使在上述的学习曲线的停滞时,如果归因没有收敛,则也能够得到不停止学习的判断。
另外,本实施方式的模型也可以是神经网络以外的模型。例如,除了神经网络以外,还存在几个如Gradient Boosting(梯度提升)那样使用梯度下降法等逐次地进行学习的模型,在这些模型中也能够利用本实施方式。在学习装置10中,作为针对任何模型都通用地提取输入输出的关系性的方法,存在LIME、SHAP。通过在学习时计算该值,能够实现与归因(的式子)同样地如果变得稀疏则停止学习的机构。此外,Gradient Boosting DecisionTree(梯度提升决策树)那样的方法能够计算各特征量的importance score。通过与权重同样地使用该得分,能够实现与权重(的式子)同样地如果变得稀疏则停止学习的机构。
[学习装置的处理过程]
接下来,使用图3说明第1实施方式的学习装置10的处理过程的例子。图3是表示第1实施方式的学习装置中的学习处理的流程的一例的流程图。此外,在图3的例子中,以如下情况为例进行说明:使用归因来作为对模型的解释性做贡献的值。
如图3所例示的那样,学习装置10的取得部12a取得数据。例如,取得部12a读出并取得存储在数据存储部13a中的数据集(步骤S101)。然后,第一计算部12b将由取得部12a取得的数据输入到模型(步骤S102),基于输出数据和正解数据,计算模型的损失(步骤S103)。
然后,更新部12c根据通过第一计算部12b损失损失来更新模型的权重(步骤S104)。接着,第二计算部12d使用输入数据和输出数据来计算归因(步骤S105)。例如,第二计算部12d将多个传感器数据作为输入数据输入到用于预测监视对象设备的状态的预测模型,在得到了从该预测模型输出的输出数据的情况下,基于输入数据以及输出数据,计算每个传感器的归因。
然后,更新结束部12e判定由第一计算部12b计算出的损失和由第二计算部12d计算出的归因是否满足规定的条件(步骤S106)。例如,更新结束部12e更新结束部12e判定损失是否为规定的阈值以下、且归因的L1范数是否为预先设定的阈值以下。
其结果,学习装置10在更新结束部12e判定为损失和归因不满足规定的条件的情况下(步骤S106否定),返回到步骤S101的处理,反复进行步骤S101~步骤S106的处理,直到损失和归因满足规定的条件为止。
另外,在更新结束部12e判定为损失和归因满足规定的条件的情况下(步骤S106肯定),将已学习模型保存到已学习模型存储部13b中(步骤S107)。
[第1实施方式的效果]
第1实施方式的学习装置10取得多个数据,将所取得的多个数据作为输入数据输入到模型,在得到了从该模型输出的输出数据的情况下,基于输出数据和正解数据来计算模型的损失。并且,学习装置10在每当计算出损失时,反复进行根据该损失来更新模型的权重的更新处理。另外,学习装置10计算对模型的解释性做贡献的值,在损失和对模型的解释性做贡献的值满足规定的条件的情况下,结束更新处理。因此,在学习装置10中,能够在保持模型的精度的同时,以容易观测的值得到对模型的解释性做贡献的值。
即,在第1实施方式的学习装置10中,与以往使用的学习结束条件不同,通过将归因的值追加到学习结束条件中,例如能够减少已学习模型的归因的噪声。归因的噪声减少的状态是指观测者容易观测的稀疏且平滑的状态。另外,在第1实施方式的学习装置10中,与以往使用的学习结束条件相比,通过将归因的值追加到学习结束条件中,例如在EarlyStopping那样的基于精度中止学习的方法中,能够采取在学习的停滞时也不停止学习的对策。
[第2实施方式]
在上述的第1实施方式中,说明了对模型进行学习的学习装置,但在第2实施方式中,说明使用通过学习处理得到的已学习模型来提取归因的学习装置。在以下的第2实施方式中,依次说明第2实施方式的学习装置10A的结构、学习装置10A的处理的流程,最后说明第1实施方式的效果。此外,对于与第1实施方式相同的结构以及处理,省略说明。
[学习装置的结构]
首先,使用图4来说明学习装置10A的结构。图4是表示第2实施方式的学习装置的结构例的框图。学习装置10A例如收集由设置于工厂、车间等监视对象设备的传感器取得的多个数据,将收集到的多个数据作为输入,使用用于预测监视对象设备的异常的已学习模型,输出监视对象设备的特定传感器的估计值。另外,学习装置10A也可以根据这样输出的估计值来计算异常度。
例如,在学习了以特定的传感器的值为目标变量的回归模型的情况下,异常度能够定义为模型输出的该传感器的估计值与事先指定等的特定的值的误差等。或者,在将有无发生异常作为分类问题来处理并学习了模型的情况下,能够利用指定时间内的被分类为异常的时间段的比例等。另外,学习装置10A使用输入到已学习模型的各传感器的数据、和从已学习模型输出的输出数据,计算对每个传感器的输出值的贡献度即归因。在此,归因表示各输入对输出贡献了多少,归因的绝对值越大,意味着该输入对输出的影响度越高。
学习装置10A具有通信处理部11、控制部12以及存储部13。控制部12具有取得部12a、第一计算部12b、更新部12c、第二计算部12d、更新结束部12e、提取部12f、预测部12g以及可视化部12h。这里,学习装置10A与学习装置10的不同之处在于还具有提取部12f、预测部12g和可视化部12h。另外,关于取得部12a、第一计算部12b、更新部12c、第二计算部12d、更新结束部12e,进行与在第1实施方式中说明的学习装置10的取得部12a、第一计算部12b、更新部12c、第二计算部12d、更新结束部12e同样的处理,所以省略说明。
提取部12f将输入数据输入到由更新部12c反复进行更新处理直到由更新结束部12e结束了更新处理为止的已学习模型,在得到了从该已学习模型输出的输出数据的情况下,提取对模型的解释性做贡献的值。例如,提取部12f从已学习模型存储部13b读出已学习模型,将处理对象数据输入到已学习模型,提取每个数据的归因。
例如,提取部12f在根据输入值计算输出值的已学习模型中,使用输出值的与各输入值相关的偏微分值或其概算值,对各时刻的每个传感器计算归因。作为一例,提取部12f使用Saliency Map,针对各时刻的每个传感器,计算归因。
预测部12g将多个数据作为输入,例如使用用于预测监视对象设备的状态的已学习模型,输出规定的输出值。例如,预测部12g使用工艺数据以及已学习模型(识别函数或者回归函数),计算监视对象设备的异常度,预测在预先设定的一定时间后是否发生异常。
可视化部12h将由提取部12f提取出的归因、由预测部12g计算出的异常度可视化。例如,可视化部12h显示表示各传感器数据的归因的推移的曲线图,并且将计算出的异常度显示为图表画面。
在此,使用图5,对由学习装置10A执行的异常预测处理以及归因提取处理的概要进行说明。图5是说明由学习装置执行的异常预测处理以及归因提取处理的概要的图。
在图5中,图示了在车间内的反应炉、装置等安装有传感器、收集运转用的信号等的器件,每隔一定时间收集数据的情况。并且,在图6中,图示了表示从各传感器A~传感器E收集到的工艺数据的推移的图,如在第1实施方式中说明的那样,通过对模型进行学习来生成已学习模型。然后,预测部12g使用已学习模型来预测一定时间后的异常。进而,可视化部12h将计算出的异常度的时间序列数据作为图表画面输出。
另外,提取部12f使用输入到已学习模型的工艺数据和来自已学习模型的输出值,提取各时刻的每个传感器的针对规定的输出值的归因。然后,可视化部12h显示曲线图,该曲线图表示各传感器的工艺数据相对于预测的重要度的推移。
另外,学习装置10A不仅适用于异常预测处理,例如也可以收集图像数据并适用于图像分类处理。在此,使用图6,说明由学习装置10A执行的图像分类处理以及归因提取处理的概要。图6是说明由学习装置执行的图像分类处理和归因提取处理的概要的图。
在图6中,收集图像数据,将收集到的图像数据用作输入数据,如在第1实施方式中说明的那样,通过对模型进行学习来生成已学习模型。然后,预测部12g使用已学习模型,对图像数据所包含的图像进行分类。例如,在图6的例子中,预测部12g判定图像数据所包含的图像是车的图像还是飞机的图像,并输出判定结果。
另外,提取部12f使用输入到已学习模型的图像数据和从已学习模型输出的分类结果,提取各图像中的每个像素的归因。然后,可视化部12h显示表示各图像中的每个像素的归因的图像。在该图像中,用深浅来表现归因,越是归因大的像素,规定的颜色越深地显示,越是归因小的像素,规定的颜色越浅地显示。
[学习装置的处理过程]
接下来,使用图7说明第2实施方式的学习装置10A的处理过程的例子。图7是表示第2实施方式的学习装置中的归因提取处理的流程的一例的流程图。
如图7所例示的那样,学习装置10的提取部12f在取得了数据时(步骤S201肯定),将输入数据输入到已学习模型(步骤S202),在得到了从该已学习模型输出的输出数据的情况下,使用输入数据和输出数据来计算归因(步骤S203)。
然后,可视化部12h显示将归因可视化后的曲线图(步骤S204)。例如,可视化部12h显示表示各传感器数据的归因的推移的曲线图。
这样,第2实施方式的学习装置10A将输入数据输入到通过在第1实施方式中说明的学习处理而学习到的已学习模型,在得到了从该已学习模型输出的输出数据的情况下,基于该输入数据以及该输出数据,提取输入数据的各要素相对于输出数据的归因。因此,学习装置10A能够在噪声少的状态下提取归因。
[系统结构等]
此外,图示的各装置的各结构要素是功能概念性的,在物理上不一定需要如图所示那样构成。即,各装置的分散/合并的具体方式不限于图示,能够根据各种负荷和使用状况等,以任意的单位在功能或物理上分散/合并构成其全部或一部分。并且,在各装置中进行的各处理功能的全部或任意的一部分可以通过CPU或GPU和由该CPU或GPU分析执行的程序来实现,或者作为基于有线逻辑的硬件来实现。
此外,在本实施方式中说明的各处理中的、作为自动地进行的处理而说明的处理的全部或一部分还能够手动地进行,或者作为手动地进行的处理而说明的处理的全部或一部分还能够通过公知的方法自动地进行。另外,关于包含在上述文档中和附图中示出的处理过程、控制过程、具体的名称、各种数据和参数的信息,除了特殊记载的情况以外,都能够任意地变更。
[程序]
另外,还能够创建以计算机可执行的语言记述了在上述实施方式中说明的信息处理装置所执行的处理的程序。例如,还能够创建以计算机可执行的语言记述了实施方式的学习装置10、10A所执行的处理的程序。该情况下,通过由计算机执行程序,能够得到与上述实施方式相同的效果。并且,通过将上述程序记录到计算机可读取的记录介质中,使计算机读入该记录介质所记录的程序并执行,也可以实现与上述实施方式相同的处理。
图8是表示执行程序的计算机的图。如图8中例示那样,计算机1000例如具有存储器1010、CPU 1020、硬盘驱动器接口1030、盘驱动器接口1040、串行端口接口1050、视频适配器1060和网络接口1070,这各个部件通过总线1080相互连接。
如图8中例示那样,存储器1010包含ROM(Read Only Memory:只读存储器)1011和RAM 1012。ROM 1011例如是BIOS(Basic Input Output System:基本输入输出系统)等引导程序。如图8中例示那样,硬盘驱动器接口1030与硬盘驱动器1090连接。如图8中例示那样,盘驱动器接口1040与盘驱动器1100连接。例如磁盘或光盘等可插拔的存储介质被插入到盘驱动器1100。如图8中例示那样,串行端口接口1050与例如鼠标1110、键盘1120连接。如图8中例示那样,视频适配器1060与例如显示器1130连接。
这里,如图8中例示那样,硬盘驱动器1090例如存储OS 1091、应用程序1092、程序模块1093、程序数据1094。即,上述程序作为记述有由计算机1000执行的指令的程序模块被存储到例如硬盘驱动器1090中。
此外,在上述实施方式中说明的各种数据作为程序数据被存储到例如存储器1010或硬盘驱动器1090中。并且,CPU 1020根据需要将存储器1010或硬盘驱动器1090所存储的程序模块1093或程序数据1094读出到RAM 1012中,并执行各种处理过程。
另外,与程序相关的程序模块1093或程序数据1094不限于被存储到硬盘驱动器1090中的情况,也可以被存储到例如可插拔的存储介质中,并通过CPU 1020经由盘驱动器等而被读出。或者,与程序相关的程序模块1093或程序数据1094可以被存储到经由网络(LAN(LocalAreaNetwork:局域网)、WAN(WideAreaNetwork:广域网)等)而连接的其他计算机中,并通过CPU 1020经由网络接口1070而被读出。
上述的实施方式及其变形包含于本申请所公开的技术中,同样地包含于权利要求书所记载的发明及其等同的范围内。
标号说明
10、10A:学习装置
11:通信处理部
12:控制部
12a:取得部
12b:第一计算部
12c:更新部
12d:第二计算部
12e:更新结束部
12f:提取部
12g:预测部
12h:可视化部
13:存储部
13a:数据存储部
13b:已学习模型存储部
Claims (7)
1.一种学习装置,其特征在于,该学习装置具有:
取得部,其取得多个数据;
第一计算部,其将由所述取得部取得的多个数据作为输入数据输入到模型,在得到了从该模型输出的输出数据的情况下,基于所述输出数据和正解数据来计算所述模型的损失;
更新部,其在每当由所述第一计算部计算出损失时,反复进行根据该损失更新所述模型的权重的更新处理;
第二计算部,其计算对所述模型的解释性做贡献的值;以及
更新结束部,其在由所述第一计算部计算出的损失和由所述第二计算部计算出的值满足规定的条件的情况下,使所述更新处理结束。
2.根据权利要求1所述的学习装置,其特征在于,
所述第二计算部基于所述输入数据和所述输出数据,计算输入数据的各要素对输出数据的贡献度即归因。
3.根据权利要求1所述的学习装置,其特征在于,
所述更新结束部在由所述第一计算部计算出的损失为规定的阈值以下且由所述第二计算部计算出的值为规定的阈值以下的情况下,使所述更新处理结束。
4.根据权利要求1所述的学习装置,其特征在于,
所述更新结束部在由所述第一计算部计算出的损失比上次计算出的损失大这一情况连续持续规定次数、且由所述第二计算部计算出的值比上次计算出的值大这一情况连续持续规定次数的情况下,使所述更新处理结束。
5.根据权利要求1所述的学习装置,其特征在于,
该学习装置还具有提取部,所述提取部将输入数据输入到由所述更新部反复进行更新处理直到由所述更新结束部结束了更新处理为止的已学习模型,在得到了从该已学习模型输出的输出数据的情况下,提取对所述模型的解释性做贡献的值。
6.一种学习方法,其由学习装置执行,该学习方法的特征在于,包含:
取得步骤,取得多个数据;
第一计算步骤,将由所述取得步骤取得的多个数据作为输入数据输入到模型,在得到了从该模型输出的输出数据的情况下,基于所述输出数据和正解数据来计算所述模型的损失;
更新步骤,每当由所述第一计算步骤计算出损失时,反复进行根据该损失更新所述模型的权重的更新处理;
第二计算步骤,计算对所述模型的解释性做贡献的值;以及
更新结束步骤,在由所述第一计算步骤计算出的损失和由所述第二计算步骤计算出的值满足规定的条件的情况下,使所述更新处理结束。
7.一种学习程序,其特征在于,使计算机执行以下步骤:
取得步骤,取得多个数据;
第一计算步骤,将由所述取得步骤取得的多个数据作为输入数据输入到模型,在得到了从该模型输出的输出数据的情况下,基于所述输出数据和正解数据来计算所述模型的损失;
更新步骤,每当由所述第一计算步骤计算出损失时,反复进行根据该损失更新所述模型的权重的更新处理;
第二计算步骤,计算对所述模型的解释性做贡献的值;以及
更新结束步骤,在由所述第一计算步骤计算出的损失和由所述第二计算步骤计算出的值满足规定的条件的情况下,使所述更新处理结束。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019-230922 | 2019-12-20 | ||
JP2019230922A JP6871352B1 (ja) | 2019-12-20 | 2019-12-20 | 学習装置、学習方法および学習プログラム |
PCT/JP2020/047396 WO2021125318A1 (ja) | 2019-12-20 | 2020-12-18 | 学習装置、学習方法および学習プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115023711A true CN115023711A (zh) | 2022-09-06 |
Family
ID=75801959
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080087380.0A Pending CN115023711A (zh) | 2019-12-20 | 2020-12-18 | 学习装置、学习方法以及学习程序 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220318630A1 (zh) |
EP (1) | EP4080420A4 (zh) |
JP (2) | JP6871352B1 (zh) |
CN (1) | CN115023711A (zh) |
WO (1) | WO2021125318A1 (zh) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0764945A (ja) * | 1993-08-30 | 1995-03-10 | Fujitsu Ltd | ニューラルネットワーク |
-
2019
- 2019-12-20 JP JP2019230922A patent/JP6871352B1/ja active Active
-
2020
- 2020-12-18 EP EP20902706.9A patent/EP4080420A4/en active Pending
- 2020-12-18 WO PCT/JP2020/047396 patent/WO2021125318A1/ja unknown
- 2020-12-18 CN CN202080087380.0A patent/CN115023711A/zh active Pending
-
2021
- 2021-04-15 JP JP2021069219A patent/JP7046252B2/ja active Active
-
2022
- 2022-06-17 US US17/842,974 patent/US20220318630A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4080420A1 (en) | 2022-10-26 |
EP4080420A4 (en) | 2024-01-24 |
US20220318630A1 (en) | 2022-10-06 |
JP2021099645A (ja) | 2021-07-01 |
WO2021125318A1 (ja) | 2021-06-24 |
JP7046252B2 (ja) | 2022-04-01 |
JP6871352B1 (ja) | 2021-05-12 |
JP2021103596A (ja) | 2021-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7074460B2 (ja) | 画像検査装置および方法 | |
Zintgraf et al. | A new method to visualize deep neural networks | |
EP4000234A1 (en) | Method and device for detecting anomalies, corresponding computer program product and non-transitory computer-readable carrier medium | |
US20220222402A1 (en) | Information processing device, information processing method, and information processing program | |
CN113037577B (zh) | 网络流量预测方法、装置和计算机可读存储介质 | |
EP3961555A1 (en) | Learning system, data generating device, data generating method, and data generating program | |
US20210358129A1 (en) | Machine learning method, machine learning device, and machine learning program | |
CN114037673A (zh) | 一种基于机器视觉的硬件衔接接口监测方法及系统 | |
EP3872717A1 (en) | Control system and control method | |
CN112785479B (zh) | 一种基于少样本学习的图像隐形水印通用检测方法 | |
WO2021066194A1 (ja) | 学習装置、学習方法および学習プログラム | |
CN112101313B (zh) | 一种机房机器人巡检方法及系统 | |
CN116485796B (zh) | 害虫检测方法、装置、电子设备及存储介质 | |
CN110991408B (zh) | 基于深度学习方法分割脑白质高信号的方法和装置 | |
CN115023711A (zh) | 学习装置、学习方法以及学习程序 | |
JP6398991B2 (ja) | モデル推定装置、方法およびプログラム | |
JP6889207B2 (ja) | 学習装置、抽出装置、学習方法、抽出方法、学習プログラムおよび抽出プログラム | |
CN113420733A (zh) | 一种高效分布式大数据数据采集实现方法及系统 | |
EP3905191A1 (en) | Image determination device, image determination method, and image determination program | |
WO2022269690A1 (ja) | 異常検知装置、異常検知方法および異常検知プログラム | |
JP2020166442A (ja) | 情報処理装置、算出方法および算出プログラム | |
TW202230060A (zh) | 資訊處理裝置、資訊處理方法及資訊處理程式產品 | |
CN117131465A (zh) | 单管塔损伤识别方法、装置、电子设备及可读存储介质 | |
EP3979085A1 (en) | Learning device, detection system, learning method, and learning program | |
US20210248422A1 (en) | Analyzing device, method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |