CN110033113A

CN110033113A - 信息处理系统及信息处理系统的学习方法

Info

Publication number: CN110033113A
Application number: CN201811530463.3A
Authority: CN
Inventors: 矢野和男
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2017-12-18
Filing date: 2018-12-14
Publication date: 2019-07-19
Anticipated expiration: 2038-12-14
Also published as: JP6993863B2; CN110033113B; JP2019109648A

Abstract

一种信息处理系统及信息处理系统的学习方法。在以往的机器学习中，关于数据较少的事件，存在预测精度降低的问题。在本发明的优选的一个方式中，在输入原始数据并输出预测结果的信息处理系统中，根据原始数据至少生成第1数据和第2数据。使用第1数据进行预测的第1预测式具有至少一个参数，具有使用第1预测式的第1预测结果来调整该参数的第1学习器。使用第2数据进行预测的第2预测式具有至少一个参数，具有使用第2预测式的第2预测结果来调整该参数的第2学习器。并且，在由第1学习器调整的参数和由第2学习器调整的参数中具有至少一个共同的参数。

Description

信息处理系统及信息处理系统的学习方法

技术领域

本发明涉及信息处理系统，用于使用企业、人及社会活动的数据支援预测或判断。

背景技术

为了运用企业或社会每时每刻收集并蓄积的数据，人工智能技术受到关注。

特别是，关于通过捕捉数据的特点来根据图像进行人脸或对象的识别的图像识别、根据声音的特点识别语言的声音识别等，近年来通过采用深度学习的技术实现了精度的大幅提高。

随着包括深度学习在内的机器学习或人工智能的技术的发展，期待着能够根据数据进行商务或社会的预测。对采用这样的数据和机器学习的预测技术，期待着在企业业绩的预测、需求的预测、事故或故障的预测等方面的广范围的应用。关于这样的现有技术，例如已有如专利文献1那样的技术。

专利文献1：日本特开2017－201526号公报

在机器学习中，通过抽取过去的数据中潜在的事件的特点，根据数据生成预测的模型式。在人工智能(AI)的用语中，将其称为“学习”。

然而，对发生频次少的罕见事件进行学习，由于过去的实绩数据少而更加困难。

在以往包括深度学习的机器学习中，使用过去的实绩数据调整预测式中包含的预测参数，使得预测误差减小。但是，在发生频次少的事件中，根据在特定的状况下偶然发生的事件调整预测参数，将陷入过度适应，在新的状况下反而导致预测精度降低，这种“过度学习”现象的产生成为大问题。

发明内容

根据本发明的优选的一个方式，在输入原始数据并输出预测结果的信息处理系统中，根据原始数据至少生成第1数据和第2数据。使用第1数据进行预测的第1预测式具有至少一个参数，具有使用第1预测式的第1预测结果来调整该参数的第1学习器。使用第2数据进行预测的第2预测式具有至少一个参数，具有使用第2预测式的第2预测结果来调整该参数的第2学习器。并且，在由第1学习器调整的参数和由第2学习器调整的参数中具有至少一个共同的参数。

根据本发明的优选的另一个方式，准备多个由说明变量和第1结果数据的组构成的示教数据，准备多个由说明变量的组构成的第1学习用数据，采用使用了由多个参数构成的预测参数的预测式，根据第1学习用数据得到第1预测数据，以使第1结果数据与第1预测数据的误差减小的方式，变更预测参数来得到第1预测参数。并且，准备多个由说明变量和第2结果数据的组构成的改变数据，准备多个由说明变量的组构成的第2学习用数据，采用使用了预测参数的预测式，根据第2学习用数据得到第2预测数据，以使第2结果数据与第2预测数据的误差减小的方式，变更预测参数来得到第2预测参数。并且，对相对于第2预测参数的变化而言的误差的变化、以及相对于第2预测参数的变化而言的第2结果数据与第2预测数据的相关系数的变化中的至少一个变化进行评价，根据预测参数抽取规定的参数，对第1预测参数中的与所抽取的规定的参数相符的参数，校正第1预测参数。

发明效果

对于以往的机器学习(包括深度学习)面临的数据较少的事件，能够避免预测精度降低的问题。

附图说明

图1是表示实施例的信息处理系统的概念图。

图2是表示构成实施例的预测器的框图。

图3是表示实施例的信息处理系统的结构的框图。

图4是表示构成实施例的信息处理系统的学习器2的框图。

图5是表示实施例的学习器2的处理流程的流程图。

标号说明

101原始数据；

102前处理器；

103随机数生成1；

104数据抽取器1；

105学习用数据1；

106预测器1；

107示教数据；

108预测数据1；

109学习器1；

110随机数生成3；

111学习参数1；

112预测参数；

113随机数生成2；

114数据抽取器2；

115学习用数据2；

116预测器2；

117预测数据2；

119与示教数据不同的改变数据；

120学习器2；

121学习参数2；

122随机数生成4；

123已加工数据。

具体实施方式

关于实施方式，使用附图进行详细说明。但是，本发明不能限定地解释为以下示出的实施方式的记载内容。本领域技术人员容易理解，能够在不脱离本发明的思想乃至宗旨的范围内变更其具体结构。

在以下说明的发明的结构中，对于相同部分或者具有相同功能的部分，在不同的附图之间共同使用相同的标号，有时省略重复说明。

本说明书等中的“第1”、“第2”、“第3”等表述，是为了识别构成要素而附加的，不一定限定数量、顺序或者其内容。并且，构成要素的识别用的号码是在每个上下文中使用的，在一个上下文中使用的号码，在其它的上下文中未必表示相同的构成要素。并且，用某一号码识别的构成要素不妨碍兼用于通过其它号码识别的构成要素的功能。

在附图等中示出的各构成要素的位置、尺寸、形状、范围等是为了容易理解发明，存在不表示实际的位置、尺寸、形状、范围等的情况。因此，本发明不限于附图等公开的位置、尺寸、形状、范围等。

在本说明书中引用的期刊物、专利及专利文献，直接构成本说明书的说明的一部分。

在本说明书中用单数形式表示的构成要素，只要在特定段落的上下文中没有明确注释，就视为也包括复数形式。

在以下说明的具体的实施例中，在使用过去的数据减小预测误差的以往的第1学习周期的基础上，还具有第2学习周期，该第2学习周期中，通过有意识地对AI输入错误的数据，使学习不受错误数据影响。这不仅用于学习根据过去的数据而应该反应的“信号”的特点，而且还学习不受没有意义的“噪声”影响的情况。

另外，在优选的方式中，取代以往深度学习所采用的“多数决定”，而使用以“和/乘积/否定”为基本要素并多层化的网络构造来构成预测式，以便能够说明由人工智能得到的结果的依据。

由此，对于以往的机器学习(包括深度学习)所面临的数据较少的事件，能够避免预测精度降低的问题，即使是较少的数据也能够具有高度的预测能力，并对其结果进行排他性分解来进行说明。

【实施例1】

图1是表示本发明的信息处理系统的具体例的概念图。在该具体例中，输入原始数据(101)，输出预测原始数据中包含的示教数据(正解数据)的精度良好的预测模型。其中，预测模型具体地是指用于预测的算法即预测器(106)及其参数即预测参数(112)。

作为具体例，说明融资审查的预测。原始数据是融资对象的信息(例如住房贷款等融资的申请数据中包含的性别、年龄、工作年数、借款金额、年收入等用于规定条件的条件数据)，示教数据是融资的案件是否成为过呆账的过去的实绩(结果)的数据即结果数据。条件数据与说明变量相当，结果数据与目的变量相当。关于各种过去的融资对象，将融资对象的M个信息(说明变量)和是否成为过呆账的1个示教数据(目的变量)这两者相加，关于各种融资对象的过去的实绩，准备N个数据集(data set)。一件融资用由M+1个数据构成的数据的束(即向量)表示。若将该M+1维的向量数据收集了N件，则原始数据成为N行、M+1列的表格数据或者数据库及文本数据。该信息处理系统输出融资的结果、预测该融资对象是否成为呆账的模型(预测式和预测参数)。

以融资预测的例子来说明该信息处理系统。首先，对原始数据进行前处理使成为计算机容易处理的形式(102)。例如，作为考虑数据中包含工作单位分类的分类，按照金融业、制造业、公务员等这样的类别进行分类。将类别替换为1和0的数值，在申请者是金融业时设为1，在非金融业时设为0。这成为表示工作单位是金融业的数值。按照类别被分类的数据可以这样转换成1和0的数值信息(按照每种类别成为多个数据列)。

说明原始数据是数值数据的情况。例如，在输入年收入的数值的情况下，将数值按照年收入的值分类成5档。例如，如果将年收入最高的分类设为1亿日元以上，在申请者的年收入是1亿日元以上时设为1，在不是1亿日元以上时设为0。由此，诸如年收入这样的数值信息也能够转换成0～1的被规范化的信息。但是，在将年收入全部进行5个分类并转换成1和0时，将导致分类内的差异被取整。例如，在关注500万日元～1000万日元的分类时，501万日元和999万日元的申请者都被按照相同类别进行相同处理。为了避免这种情况而进行以下处理。例如，在申请者的年收入是500万日元以下时设为0、是1000万日元以上时设为1，在500万日元～1000万日元的情况下，按照(年收入-500万日元)÷500万日元这样的算式设为由0变化为1的连续值(模拟值)。由此，能够根据年收入设为0～1的被规范化的连续变化的数字。因此，能够使原始的连续变化的信息规范化而不会取整。

通过数据抽取器1(104)从该已加工数据(123)中抽取学习用数据1(105)。假设已加工数据有N行，则按照学习用的更小单位来学习这N行数据。为此，从原始的数据中随机抽取数据。为此，使用随机数生成1(103)。通过抽取与所生成的随机数对应的数据行，能够随机地进行抽取。这样的抽取的规则能够在学习之前预先由利用者(操作员)进行设定。

数据抽取器1的输出有两个。一个是学习用数据1(105)。学习用数据1(105)抽取了说明变量的数据。另一个是示教数据(107)。示教数据(107)是与学习用数据1(105)对应的过去的实绩(结果)数据，在融资的情况下，是用1和0将是否成为过呆账数值化了的数据(例如，呆账设为“1”，非呆账设为“0”)。

将该学习用数据1(105)输入预测器1(106)，预测呆账的概率。该预测器1根据引入了预测参数(112)的预测式计算预测值。关于预测式的具体例，将在后面使用图2进行详细说明，但无论怎样，都是引入了预测参数的数式。该预测参数最先被设为适当的初始值(例如，使用通过随机数生成3(110)而生成的随机数)。因此，最初预测结果的预测数据1(108)和过去的示教数据(107)完全不吻合。即，误差较大。但是，能够计算该预测误差。在学习器1(109)中按照下面所述计算该预测误差。

预测误差＝(示教数据的数值)-(预测数据的数值)

因此，在使预测式中包含的预测参数(112)一个一个地微小地变动(增加或者减少)时，该预测误差也变化。通过以使预测误差减小的方式使预测参数一点一点地变化(增减)，能够减小预测误差，提高预测式的精度。

进行该预测参数(112)的调整的是学习器1(109)。具体地，用预测参数对预测误差进行微分处理，使预测参数(112)变动与该微分系数成比例的大小，由此能够效率良好地降低预测误差，提高预测精度。该比例系数是学习参数1(111)的一个具体例。这样，学习器1(109)通过调整预测参数(112)，执行预测器1(106)→预测数据1(108)→学习器1(109)→预测参数(112)→预测器1(106)的学习周期(cycle)上的处理，能够将预测精度提高至某一程度。这样的学习周期能够利用以往的带示教机器学习的技术进行。

然而，在预测对象是如融资中的呆账那样很少发生的事件的情况下，存在仅仅靠这种学习不能实现足够的预测精度的问题。

通常，在发生频次较少的事件中，容易产生如下的“过度学习”现象，即根据在特定的状况下偶然发生的事件调整预测参数，将陷入过度适应，在新的状况时反而导致预测精度下降。

在本实施例中，设计第2学习周期，以便针对这样很少发生的事件也能够精度良好地进行预测。下面对其进行说明。

数据抽取器2(114)从已加工数据(123)中抽取学习用数据2(115)。假设已加工数据有N行，按照学习用的更小单位来学习这N行数据。为此，从原始的数据中随机地抽取数据。为此，使用随机数生成2(103)。学习用数据2(115)可以与学习用数据1(105)相同。此时，平行地自动生成与示教数据(107)不同的改变数据(119)。作为改变数据的生成方法，针对本来成为呆账的数据组(呆账本来是1的事例)混合分配1和0，针对没有呆账的数据组，同样地混合分配1和0。还可以使用随机数生成4(122)分配与这样的原始数据不同(错误)的数据。用于学习用数据2(115)的抽取的规则可以预先由利用者(操作员)进行设定。并且，学习用数据2(115)中的示教数据(即改变数据(119))可以不使用来自原始数据(101)的数据，而通过对原始数据的说明变量赋予不同的标记(label)或者数值作为目的变量来生成。

在学习器2(120)中，与学习器1(109)同样地进行带示教学习，学习预测参数(112)。但是，成为示教的数据是改变数据(119)。并且，在学习之后，在学习器2(120)中评价改变数据(119)对预测参数带来的反应的大小(反应性评价)。

另外，在本实施例中，在预测器1(106)和预测器2(116)中，算法(预测器)不需要是共同的，但是在预测中使用的特征量需要包含共同的特征量。由此，使得在预测器1(106)和预测器2(116)中在特征量之间建立对应关系。

在反应性评价中，例如对不会成为该示教的(错误的)改变数据(119)和在预测器2(116)预测出的预测数据2(117)进行比较，并计算误差。并且，学习器2(120)计算并评价改变数据(119)和预测数据2(117)的误差相对于预测器2(116)的各预测参数的变化的变化量。如果针对某一预测参数的变化，误差的变化大，则可以说该预测参数是对改变数据反应敏感的参数。关于误差的变化的大小，作为简单的方法，关注于误差的变化与参数的变化的比例系数的大小。

并且，在反应性评价的另一种方法中，计算改变数据(119)和预测数据2(117)的相关系数，将相似性数值化。并且，针对在预测器2的预测式中使用的特征量的变化，通过计算改变数据(119)和预测数据2(117)之间的相关系数，也可以数值化。如果两者的相关系数的变化相对于某一特征量的变化大，则可以说该特征量是对改变数据反应敏感的参数。即，在该方法中关注于相关系数的变化的大小。

因此，使与该反应敏感的特征量相关的预测器1(106)的参数接近0。这是因为，该参数是对数据中包含的错误的信息或噪声、乃至因数据较少而容易出现的数据的偏倚反应敏感的参数。作为具体的方法，对各参数分配加权系数，对于针对改变数据反应敏感的参数，分配比其它参数小的加权系数。作为减小参数的方法，通过若该参数增大则给予诸如能够较大地观察到误差的惩罚(penalty)，能够实质上减小该参数。

作为数据抽取器2(114)的数据抽取方法的一例，下述的具体方法比较有效。在数据抽取器2(114)中，抽取在学习用数据1(105)中示教数据为1的p个事例，从尚未对此进行学习的已加工数据(123)中追加示教数据为1的q个事例。抽取该数据集作为学习用数据2(115)。该学习用数据2中的示教数据成为本来仅由p+q个1构成的数据集。在此，将q个1反转成0。因此，生成由p个1和q个0构成的改变数据(119)。这当然与现实不同，但在对其进行学习时，对其反应敏感的预测参数的变化增大。这样的参数由于是对数据的偏倚或噪声反应过度敏感的参数，因此通过使其接近0能够提高预测精度。具体地，对各参数赋予加权，针对反应敏感的预测参数，可以使加权小于其他参数。另外，上述的p、q等参数可以由利用者(操作员)预先设定。

对由数据抽取器2(114)抽取的各种事例，学习由该预测器2(116)→预测数据2(117)→学习器2(120)→预测参数(112)→预测器2(116)构成的学习周期，由此进行用于使得对于不应该反映的数据变得钝感(不敏感)的学习。

如以上说明的那样，图1的左侧的预测器1(106)→预测数据1(108)→学习器1(109)→预测参数(112)→预测器1(106)这样的学习周期，是用于学习对潜伏在数据中的应该反应的征兆敏感地反应的学习周期。与此相对，右侧的预测器2(116)→预测数据2(117)→学习器2(120)→预测参数(112)→预测器2(116)的学习周期，成为学习对不应该反映的征兆的钝感度的学习周期。

通过按照这两种学习周期学习预测参数，能够大幅提高发生频次少的稀少业务的预测精度。在本实施例中，这两种学习周期是同步进行的。包括图1的左侧的预测器1(106)的学习周期，可以沿用以往就有的深度神经网络(DNN)的学习方式。另一方面，包括图1的右侧的预测器2(116)的学习周期沿用以往就有的DNN的学习方式，而且根据其学习结果校正基于包括左侧的预测器1(106)的学习周期的预测参数的变更。

另外，学习参数1(111)、学习参数2(121)是在进行学习前，由利用者(操作员)对各自的学习器1(109)、学习器2(120)进行设定的。在变更学习参数时，学习结果(学习速度或预测精度)变化，因而利用者参照学习的结果变更学习参数为好。或者，还可以按照规定的规则自动变更学习参数，根据使用各学习参数时的学习的结果自动设定优选的学习参数。

并且，数据抽取器1(104)、数据抽取器2(114)的数据抽取规则是在进行学习前由利用者(操作员)设定的。在变更数据抽取规则时，学习结果(学习速度或预测精度)变化，因而利用者参照学习的结果变更数据抽取规则为好。或者，还可以按照规定的规则自动变更数据抽取规则，根据使用各数据抽取规则时的学习的结果自动设定优选的数据抽取规则。

图1中的预测器1(106)及预测器2(116)可以适用以往使用的DNN。普通的DNN的各层通常进行非线性的运算。但是，在将人工智能技术(包括机器学习)适用于金融或产业界等伴随有社会责任的判断时，要求以人能够理解的形式提供预测的依据。但是，在通常的深度学习中，说明预测结果为什么是正确的依据比较困难，是黑匣子(Black box)，并成为阻碍适用的壁垒。

图2表示图1中的预测器1(106)及预测器2(116)的其它结构的例子。图2的输入层(201)是输入xl～xm这m个向量数据的层。该数据用于输入例如融资的申请者的年收入和性别等属性信息。

在该图中，箭头表示数据的流程。该输入的数据在处理层(211)被进行处理，向输出层(212)输出预测值。按照学习用数据1(105)中包含的各种事例(在融资时是指融资的申请案件)输出该预测值的是预测数据1(108)。

处理层(211)由单层或多层构成，在处理层1(202)中对输入层的多个数据之间计算乘积。将该乘积设为p1、p2、…、pk。在图中是p1＝x1×x2、p2＝x1×x3。其中，×表示算术积或者逻辑积。通过该乘积处理，对p1生成“x1是1、而且x2是1”的复合指标，能够表现更详细的条件。这对于p2以后也是同样的。

在处理层2(203)中，从在处理层1生成的多个组合指标中选择重要的指标。在该例中是选择了p1、p3、pk，没有选择p2(箭头未连接)。为了具体地进行该选择，例如对在处理层1生成的多个指标之间计算相关，根据相关的绝对值，将指标之间的相似性数值化。由此，将相似的指标统一为整体(簇：cluster)，对该每个簇选择与示教数据相关最高的指标。由此，能够间拔相似的指标，将使用的指标设为相互独立性较高的指标。指标越相互独立，预测式的稳定性越高。

在处理层2被选择的指标(将其设为q1、q2、…qo)成为处理层3(204)的输入。在处理层3中，将该指标组合起来计算加权和。具体地，

加权和＝w1×q1+w2×q2+…

其中，w1、w2、…表示各个指标的加权。加权的值较大对应于重视该指标。在图1中，将与该q1、q2、…相当的箭头设为虚线，这是为了表示其为加权。

处理层3的输出进一步成为处理层4(205)的输入。在处理层4中，将加权和输入非线性函数。作为非线性函数，使用S形函数(sigmoid函数)或在阈值以下时为0且在阈值以上时直线上升的斜坡函数。由此，能够表现非线性的依存性。还将处理层3的加权和处理层4的非线性函数相结合称为多数决定逻辑。

这样，将图2中用○表述的运算处理(乘积、选择、加权和、非线性函数)进行组合、或改变顺序、或改变网络的连接形式，能够表现复杂的函数(预测式)。并且，通过将加权和(204)中使用的加权或选择层(203)中使用的选择基准(例如，在将规定的相关以下的指标设为独立的簇时，是指规定的相关值)作为参数进行改变，能够灵活地改变函数。在图1中表现为预测参数(112)的是指这些加权或选择基准等参数。

在该图中示出了包括4个以上的处理层的例子，在最简单的情况下，还可以将输入层的指标直接输出。相反，也可以将这样的多种处理层组合成多层来形成极其复杂的预测式。

在此，仅由乘积、选择及加权和的组合来构成处理层，仅输出层使用非线性层，由此可以使预测式成为如下的形式。

Y＝σ[Σw(Πxi)]σ[·]表示非线性函数(例如S形函数)。

(例如y＝w1(x1)(x2)+w2(x2)(x3)(x8)(x9)，此时σ表示恒等函数)在上述的例子中，可知结果(输出)是由“x1且x2”和“x2且x3且x8且x9”决定的。这样，将预测的结果始终分解成其主要因素，能够用人可以理解的语句说明式子。这是以往的深度学习或神经网络所没有的特征。

图3表示本实施例的系统结构图。本实施例的硬件结构可以由普通的信息处理装置例如服务器构成。信息处理装置包括处理装置(301)和存储装置。存储装置包括例如数据库(302)、程序存储装置(303)、运算存储装置(304)。并且，作为信息处理装置具有普通的输入装置及输出装置，但没有图示。

处理装置(301)执行程序存储装置(303)中所存储的各种程序。

数据库(302)例如是磁盘装置，存储预测参数(112)、已加工数据(123)、原始数据(101)、学习用数据1(105)、学习用数据2(115)、示教数据(107)、改变数据(119)、学习参数1(111)、学习参数2(121)等。

程序存储装置(303)存储前处理器(102)、随机数生成(103、113、110、122)、数据抽取器1(104)、数据抽取器2(114)、预测器1(106)、预测器2(116)、学习器1(109)、学习器2(120)等的程序。

运算存储装置(304)临时存储从数据库(302)或程序存储装置(303)读出的数据，并存储处理装置(301)进行运算等时的数据。程序存储装置(303)和运算存储装置(304)可以使用公知的各种半导体存储器。

在本实施例中，计算和控制等功能是通过由处理装置(301)执行在程序存储装置(303)存储的程序，与其它硬件协作来实现所设定的处理。有时将计算机等执行的程序、其功能或者实现其功能的手段称为“功能”、“单元”、“部”、“器”、“模块”等。并且，其结构可以由单体的计算机构成，或者由输入装置、输出装置、处理装置、存储装置的任意的部分通过网络来连接的其它计算机构成。并且，在实施例中，与使用程序构成的功能相同的功能，还可以由FPGA(Field Programmable Gate Array，可现场编程门阵列)、ASIC(ApplicationSpecific Integrated Circuit，专用集成电路)等硬件来实现。这样的方式都包含在本实施例的范围中。

图4是具体表示学习器2(120)的框图。学习器2(120)包括学习部(1201)、反应性评价部(1202)、和参数校正部(1203)。

图5是学习器2(120)进行的处理的流程图。在处理S501中，学习部(1201)将改变数据(119)作为示教数据，进行以往的带示教学习。但是，如已经说明的那样，改变数据(119)例如是将本来是“有呆账(1)”的已加工数据中的几个数据变更为“无呆账(0)”得到的数据。或者，还可以是将本来是“无呆账(0)”的已加工数据中的几个数据变更为“有呆账(1)”得到的数据。在学习部(1201)学习的结果，以与改变数据(119)的误差减小的方式，计算出预测参数。

在处理S502中，反应性评价部(1202)评价各参数对改变数据(119)的反应的敏感度(反应性评价)。因此，如已经说明的那样，例如评价相对于预测参数的变化的、预测误差的变化。并且，抽取对改变数据敏感的预测参数。

在处理S502中，参数校正部(1203)对敏感的参数进行诸如“使得成为钝感”的校正。用于该校正的一个方法是，对于在S502抽取的敏感的参数，对通过在学习器1(109)学习得到的参数的值赋予比其它参数小的加权。或者，将该参数设为零。为此，学习器2(120)校正预测参数(112)。

作为另一个方法是，对于敏感的参数，在学习器1(109)的学习中进行诸如与通常相反地使预测误差增大的学习。为此，学习器2(120)对于学习器1(109)的特定的参数，对学习算法增加校正。通过进行诸如使预测误差增大的学习，能够更强力地抑制改变数据的影响。以上是将敏感的参数“变为钝感”的具体例，也可以将这些多个方式进行组合。

【实施例2】

在另一例中，在图1中，通过改变原始数据，还可以在用于投资判断的预测中使用该相同的信息处理系统。在这种情况下，原始数据是表示投资对象的公司的经营信息、财务信息、对象市场的状况的数值组(M个)。示教数据是投资的结果即从投资对象得到的回报(例如所得到的红利的额度)的实绩的1个数据。关于N件的各种投资对象，输入该投资对象的信息和结果的回报的信息，在投资给未知的投资对象时，输出可以得到什么样回报的模型。

作为成为基础的数据，设为M+1列、N行的数据集，将其以表格形式或文本或数据库的形式输入原始数据(101)。

除此以外，还可以应用于供应链中的库存或缺货的预测。在这种情况下，可以将库存或缺货等状况、交货期、星期几、天气等信息设为说明变量，将结果的库存或缺货(订单剩余)的量作为示教数据(目的变量)，并输入表格形式的数据。

还可以应用于工厂(plant)中的事故的预测。在这种情况下，将从工厂收集的温度或压力等传感器值及操作人员的特点(经验等)作为说明变量，将作为结果的是否发生事故作为示教数据。

另外，还能够进行生产线中的不良的预测。将制造装置的运行信息及温度等条件、环境温度及材料的供货方等信息作为说明变量，对示教数据(目的变量)输入有无不良。

还可以应用于新商品的欢迎度的预测。可以将目前为止的商品的属性(产品类别、颜色、名称的特点、价格等)及投放时期等作为说明变量，将发售后的销售额作为示教数据(目的变量)。

本发明只要准备好由说明变量和示教数据构成的数据，就还可以应用于除这里举出的情况以外的广泛用途中。

在以上说明的实施例中关注于下述的发生“过度学习”的情况，即在使用机器学习，根据数据生成预测的模型式时，在发生频次较少的罕见事件中，根据在特定的状况下偶然发生的事件调整预测参数，由此陷入过度适应，导致预测精度下降。并且，提出了在使用过去的数据减小预测误差的第1学习的基础上，还具有第2学习周期的结构，即通过有意识地对AI输入错误的数据，使学习不受错误数据的影响。

Claims

1.一种信息处理系统，输入原始数据并输出预测结果，其特征在于，

根据所述原始数据，至少生成第1数据和第2数据，

使用所述第1数据进行预测的第1预测式具有至少一个参数，

具有使用所述第1预测式的第1预测结果来调整该参数的第1学习器，

使用所述第2数据进行预测的第2预测式具有至少一个参数，

具有使用所述第2预测式的第2预测结果来调整该参数的第2学习器，

在由所述第1学习器调整的参数和由所述第2学习器调整的参数中具有至少一个共同的参数。

2.根据权利要求1所述的信息处理系统，其特征在于，

所述第2数据中的示教数据是不使用来自所述原始数据的数据、而被赋予了与所述原始数据不同的标记或者数值的数据。

3.根据权利要求1所述的信息处理系统，其特征在于，

所述第1预测式包括加权和及非线性函数。

4.根据权利要求1所述的信息处理系统，其特征在于，

所述第1预测式包括乘积及加权和。

5.根据权利要求1所述的信息处理系统，其特征在于，

所述第2学习器具有学习部和反应性评价部，

所述学习部调整包括所述共同的参数的多个参数，

以使所述第2数据与所述第2预测结果的误差减小的方式，调整所述多个参数，

所述反应性评价部在所述多个参数中抽取所述误差的变化量相对于参数的变化而言大至规定以上的参数。

6.根据权利要求1所述的信息处理系统，其特征在于，

所述第2学习器具有学习部和反应性评价部，

所述学习部调整包括所述共同的参数的多个参数，

所述反应性评价部在所述多个参数中抽取所述第2数据与所述第2预测结果的相关系数的变化量相对于参数的变化而言大至规定以上的参数。

7.根据权利要求1所述的信息处理系统，其特征在于，

所述第2学习器具有学习部、反应性评价部及参数校正部，

所述学习部调整包括所述共同的参数的多个参数，

所述反应性评价部在所述多个参数中抽取所述误差或者所述第2数据与所述第2预测结果的相关系数的变化量相对于参数的变化而言大至规定以上的参数，

所述参数校正部对所抽取的所述参数，校正由所述第1学习器调整的参数。

8.根据权利要求7所述的信息处理系统，其特征在于，

所述参数校正部对所抽取的所述参数进行减小由所述第1学习器调整的参数的加权的校正。

9.根据权利要求7所述的信息处理系统，其特征在于，

所述参数校正部对所抽取的所述参数进行使由所述第1学习器调整的参数接近0的校正。

10.根据权利要求7所述的信息处理系统，其特征在于，

所述参数校正部对所抽取的所述参数进行以下校正，即使得所述第1学习器以使所述第1数据与所述第1预测结果的误差增大的方式调整所述多个参数。

11.一种信息处理系统的学习方法，其特征在于，

准备多个由说明变量和第1结果数据的组构成的示教数据，

准备多个由说明变量的组构成的第1学习用数据，

采用使用了由多个参数构成的预测参数的预测式，根据所述第1学习用数据得到第1预测数据，

以使所述第1结果数据与所述第1预测数据的误差减小的方式，变更所述预测参数来得到第1预测参数，

准备多个由说明变量和第2结果数据的组构成的改变数据，

准备多个由说明变量的组构成的第2学习用数据，

采用使用了所述预测参数的预测式，根据所述第2学习用数据得到第2预测数据，

以使所述第2结果数据与所述第2预测数据的误差减小的方式，变更所述预测参数来得到第2预测参数，

对相对于所述第2预测参数的变化而言的所述误差的变化、以及相对于所述第2预测参数的变化而言的所述第2结果数据与所述第2预测数据的相关系数的变化中的至少一个变化进行评价，根据所述预测参数抽取规定的参数，

对所述第1预测参数中的与所抽取的所述规定的参数相符的参数，调整所述第1预测参数。

12.根据权利要求11所述的信息处理系统的学习方法，其特征在于，

所述示教数据是原始数据的一部分，所述改变数据是改变了所述原始数据的数据，是与所述原始数据不同的数据。

13.根据权利要求11所述的信息处理系统的学习方法，其特征在于，

对所述第1预测参数中的与所述规定的参数相符的参数进行减小所述第1预测参数的加权的校正。

14.根据权利要求11所述的信息处理系统的学习方法，其特征在于，

对所述第1预测参数中的与所述规定的参数相符的参数，以使所述第1结果数据与所述第1预测结果的误差增大的方式变更所述预测参数，由此校正所述第1预测参数。

15.根据权利要求11所述的信息处理系统的学习方法，其特征在于，

所述示教数据是原始数据的一部分，所述改变数据是改变了所述原始数据的数据，是与所述原始数据不同的数据，

能够变更改变所述原始数据的方式。