JP2019109648A - 情報処理システムおよび情報処理システムの学習方法 - Google Patents

情報処理システムおよび情報処理システムの学習方法 Download PDF

Info

Publication number
JP2019109648A
JP2019109648A JP2017241430A JP2017241430A JP2019109648A JP 2019109648 A JP2019109648 A JP 2019109648A JP 2017241430 A JP2017241430 A JP 2017241430A JP 2017241430 A JP2017241430 A JP 2017241430A JP 2019109648 A JP2019109648 A JP 2019109648A
Authority
JP
Japan
Prior art keywords
data
parameter
prediction
learning
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017241430A
Other languages
English (en)
Other versions
JP6993863B2 (ja
Inventor
矢野 和男
Kazuo Yano
和男 矢野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2017241430A priority Critical patent/JP6993863B2/ja
Priority to CN201811530463.3A priority patent/CN110033113B/zh
Publication of JP2019109648A publication Critical patent/JP2019109648A/ja
Application granted granted Critical
Publication of JP6993863B2 publication Critical patent/JP6993863B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】従来の機械学習では、データが少ない事象に関しては予測精度が低くなるという問題があった。【解決手段】本発明の好ましい一態様では、元データを入力して予測結果を出す情報処理システムにおいて、元データから、少なくとも第1のデータと第2のデータが生成される。第1のデータを用いて予測を行う第1の予測式は少なくとも一つのパラメータを有し、第1の予測式による第1の予測結果を用いて該パラメータを調整する第1の学習器を有する。第2のデータを用いて予測を行う第2の予測式は少なくとも一つのパラメータを有し、第2の予測式による第2の予測結果を用いて該パラメータを調整する第2の学習器を有する。そして、第1の学習器が調整するパラメータと第2の学習器が調整するパラメータに、共通のパラメータが少なくとも一つある。【選択図】 図1

Description

本発明は、企業や人間や社会活動のデータを用いて、予測や判断を支援するための情報処理システムに関する。
企業や社会に時々刻々収集され蓄積されているデータを活用するために、人工知能技術が注目されている。
特に、データの特徴を捉えることにより、画像から顔や対象の識別を行う画像認識や音声の特徴から言語を識別する音声認識などに関しては、ディープラーニングという技術により大幅な精度向上が近年実現された。
ディープラーニングを含む機械学習や人工知能の技術の発展によって、データからビジネスや社会の予測が可能になることが期待されている。このようなデータと機械学習を用いた予測技術は、企業業績の予測、需要の予測、事故や故障の予測などに幅広い活用が期待されている。このような先行技術に例えば特許文献1のようなものがある。
特開2017−201526号公報
機械学習では、過去のデータに潜む事象の特徴を抽出することで、データから予測のモデル式を生成する。これを人工知能(AI)の用語では「学習」と呼ぶ。
ところが、発生頻度が低い稀な事象に対して学習を行うのは、過去の実績データが少ないため、より困難になる。
従来のディープラーニングを含む機械学習では、過去の実績データを用いて予測誤差が小さくなるように予測式に含まれる予測パラメータを調整する。しかし発生頻度の低い事象においては、特定の状況でたまたま起きた事象にあわせて予測パラメータを調整することで過剰適応に陥り、新たな状況ではむしろ予測精度を下げてしまうという「過学習」という現象が起きるのが大きな問題であった。
本発明の好ましい一態様では、元データを入力して予測結果を出す情報処理システムにおいて、元データから、少なくとも第1のデータと第2のデータが生成される。第1のデータを用いて予測を行う第1の予測式は少なくとも一つのパラメータを有し、第1の予測式による第1の予測結果を用いて該パラメータを調整する第1の学習器を有する。第2のデータを用いて予測を行う第2の予測式は少なくとも一つのパラメータを有し、第2の予測式による第2の予測結果を用いて該パラメータを調整する第2の学習器を有する。そして、第1の学習器が調整するパラメータと第2の学習器が調整するパラメータに、共通のパラメータが少なくとも一つある。
本発明の好ましい他の一態様では、説明変数と第1の結果データの組からなる教師データを複数準備し、説明変数の組からなる第1の学習用データを複数準備し、複数のパラメータからなる予測パラメータを用いた予測式を用いて、第1の学習用データから第1の予測データを得、第1の結果データと第1の予測データの誤差が小さくなるように、予測パラメータを変更して第1の予測パラメータを得る。また、説明変数と第2の結果データの組からなる改変データを複数準備し、説明変数の組からなる第2の学習用データを複数準備し、予測パラメータを用いた予測式を用いて、第2の学習用データから第2の予測データを得、第2の結果データと第2の予測データの誤差が小さくなるように、予測パラメータを変更して第2の予測パラメータを得る。そして、第2の予測パラメータの変化に対する誤差の変化、および、第2の予測パラメータの変化に対する第2の結果データと第2の予測データの相関係数の変化、の少なくとも一つを評価して、予測パラメータから所定のパラメータを抽出し、第1の予測パラメータのうち、抽出した所定のパラメータに該当するパラメータについて、第1の予測パラメータを補正する。
従来の機械学習(ディープラーニング含む)が抱えていた、データが少ない事象に関しては、予測精度が低くなるという問題を回避することができる。
実施例の情報処理システムを示す概念図である。 実施例を構成する予測器を示すブロック図である。 実施例の情報処理システムの構成を示すブロック図である。 実施例の情報処理システムを構成する学習器2を示すブロック図である。 実施例の学習器2の処理フローを示す流れ図である。
実施の形態について、図面を用いて詳細に説明する。ただし、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。
以下に説明する発明の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、重複する説明は省略することがある。
本明細書等における「第1」、「第2」、「第3」などの表記は、構成要素を識別するために付するものであり、必ずしも、数、順序、もしくはその内容を限定するものではない。また、構成要素の識別のための番号は文脈毎に用いられ、一つの文脈で用いた番号が、他の文脈で必ずしも同一の構成を示すとは限らない。また、ある番号で識別された構成要素が、他の番号で識別された構成要素の機能を兼ねることを妨げるものではない。
図面等において示す各構成の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面等に開示された位置、大きさ、形状、範囲などに限定されない。
本明細書で引用した刊行物、特許および特許出願は、そのまま本明細書の説明の一部を構成する。
本明細書において単数形で表される構成要素は、特段文脈で明らかに示されない限り、複数形を含むものとする。
以下で説明される具体的な実施例では、過去のデータを使って予測誤差を小さくする従来の第1の学習サイクルに加え、意図的に間違ったデータをAIに入力することで、間違ったデータに影響をうけないことを学習する第2の学習サイクルを備える。これは、過去のデータから、反応すべき「シグナル」の特徴を学習するだけでなく、意味のない「ノイズ」に影響を受けないことをも学習するものである。
さらに好ましい形態では、人工知能から得られた結果の根拠を説明可能とするために、従来のディープラーニングが用いていた「多数決」に代わり、「和・積・否定」を基本要素として多層化したネットワーク構造により、予測式を構成する。
これにより、従来の機械学習(ディープラーニング含む)が抱えていた、データが少ない事象に関しては、予測精度が低くなるという問題を回避し、少ないデータでも高度な予測能力をもちつつ、その結果に対し、排他的に分解して説明することができるようにできる。
図1は、本発明の情報処理システムの具体例を示す概念図である。この具体例では、元データ(101)を入力し、元データに含まれる教師データ(正解データ)を予測する精度のよい予測モデルを出力する。ここで、予測モデルとは、具体的には予測のためのアルゴリズムである予測器1(106)と、そのパラメータである予測パラメータ(112)である。
具体例として融資審査の予測を考える。元データは、融資先の情報(たとえば、住宅ローンなどの融資の申し込みデータに含まれる、性別、年齢、勤続年数、借り入れ金額、年収などの条件を規定する条件データ)であり、教師データは、融資の案件が貸し倒れになったかという過去の実績(結果)のデータすなわち、結果データである。条件データは説明変数に相当し、結果データは目的変数に相当する。様々な過去の融資先に関して、融資先の情報(説明変数)M個と貸し倒れしたかという教師データ(目的変数)1個の両者をあわせ、様々な融資先の過去の実績に関して、N個のデータセットを準備する。一件の融資は、M+1個のデータからなるデータの束(即ちベクトル)で表される。このM+1次元のベクトルデータを、N件分集めると、元データは、N行、M+1列の表データあるいはデータベースやテキストデータになる。この情報処理システムは、融資の結果、その融資先が貸し倒れするかどうかを予測するモデル(予測式と予測パラメータ)を出力する。
この情報処理システムを融資予測の例で説明する。まず元データを計算機処理しやすい形態に前処理する(102)。たとえば、データに勤務先分類が含まれていることを考える分類としては、金融業、製造業、公務員などというカテゴリで分類されているとする。これを、申込者が金融業の時には、1、そうでないときには0という1と0の数値に置き換える。これは勤務先が金融業であることをあらわす数値になる。カテゴリで分類されるデータはこのようにして、1と0の数値情報(カテゴリ毎に複数のデータカラムになる)に変換することができる。
元データが数値データの場合を説明する。たとえば、年収の数値が入力されている場合には、これを年収の値を5段階に分類する。たとえば最も年収の高い分類を1億円以上とすれば、申込者の年収が1億円以上の場合には1とし、そうでない場合には0とする。これにより、年収のような数値情報も、0から1の正規化された情報に変換することができる。ただし、これを5つの分類すべてに行って1と0に変換すると、分類内の違いが丸められてしまう。たとえば、500万円から1000万円という分類に着目すると、501万円も999万円の申し込み者も同じカテゴリで同じ扱いになってしまう。これを避けるには、以下のようにする。たとえば、申し込み者の年収が500万円以下の場合には0とし、1000万円以上の場合には1とし、500万円から1000万円の場合には、(年収−500万円)÷500万円という式で0から1に変化する連続値(アナログ値)とする。これにより、年収に応じて、0から1の正規化された連続的に変化する数字にすることができる。これにより、元の連続的な変化の情報を丸めずに正規化することができる。
この加工済みデータ(123)から学習用データ1(105)をデータ抽出器1(104)によって抽出する。加工済みデータはN行あるとすれば、これを学習用のより小さな単位毎に学習を行う。このため、もとのデータからランダムにデータを抽出する。このために、乱数生成1(103)を用いる。生成した乱数に対応するデータ行を抽出することで、ランダムに抽出を行うことができる。このような抽出のルールは、学習前に予め利用者(オペレータ)が設定しておくことができる。
データ抽出器1の出力は二つある。ひとつは、学習用データ1(105)である。これは、説明変数を抽出したものである。もうひとつは、教師データ(107)である。これは学習用データ1(105)に対応する過去の実績(結果)データであり、融資の場合には、貸し倒れしたかどうかを1と0で数値化したものである(例えば、貸し倒れは「1」、貸し倒れでない場合は「0」とする)。
この学習用データ1(105)を予測器1(106)に入力し、貸し倒れの確率を予測する。この予測器1は、予測パラメータ(112)を組み込んだ予測式に基づき予測値を計算する。予測式の具体例については後ほど図2を用いて詳細に説明するが、いずれにせよ、予測パラメータを組み込んだ数式である。この予測パラメータは最初、適当な初期値(たとえば乱数生成3(110)で生成した乱数を用いる)にしておく。したがって、最初予測結果の予測データ1(108)と過去の教師データ(107)は全くあわない。即ち誤差が大きい。しかし、この予測誤差を計算可能である。学習器1(109)の中では、この予測誤差を下記のように計算する。

予測誤差=(教師データの数値)−(予測データの数値)
そこで、予測式に含まれる予測パラメータ(112)のひとつひとつをわずかに変動(増加あるいは減少)させると、この予測誤差も変化する。予測誤差が小さくなるように予測パラメータを少しずつ変化(増減)させることで、予測誤差を小さくでき、予測式の精度を向上できる。
この予測パラメータ(112)の調整を行うのが学習器1(109)である。具体的には、予測誤差を予測パラメータで微分し、その微分係数に比例する大きさだけ、予測パラメータ(112)を変動させることにより、効率よく予測誤差を下げ、予測精度を向上することができる。この比例係数は、学習パラメータ1(111)の具体例のひとつである。このように学習器1(109)は、予測パラメータ(112)を調整することで、予測器1(106)→予測データ1(108)→学習器1(109)→予測パラメータ(112)→予測器1(106)という学習サイクル上の処理を実行することにより、予測精度をある程度まで向上することができる。このような学習サイクルは、従来の教師あり機械学習の技術で行なうことができる。
ところが、予測対象が、融資における貸し倒れのように、稀にしか起きない事象の場合には、この学習だけでは十分な予測精度が実現できないという問題がある。
一般に、発生頻度の低い事象においては、特定の状況でたまたま起きた事象にあわせて予測パラメータを調整することで過剰適応に陥り、新たな状況ではむしろ予測精度を下げてしまうという「過学習」という現象が起きやすくなる。
本実施例では、このような稀にしかおきない事象にも精度よく予測を行うために、第2の学習サイクルを設けている。これを以下に説明する。
加工済みデータ(123)からデータ抽出器2(114)が学習用データ2(115)を抽出する。加工済みデータはN行あるとすれば、これを学習用のより小さな単位毎に学習を行う。このため、もとのデータからランダムにデータを抽出する。このために、乱数生成2(103)を用いる。学習用データ2(115)は、学習用データ1(105)と同じでもよい。このとき、平行して、教師データ(107)とは敢えて異なる改変データ(119)を自動で生成する。改変データの作成方法としては、もともと貸し倒れしていたデータ群(もともとは貸し倒れが1だったケース)に対して、1と0を敢えて混在させて割り当てたり、貸し倒れしていないデータ群に対して、同様に1と0を混在して割り当てることもできる。乱数生成4(122)を使って、このような元データとは異なる(誤った)データを割り当てることもできる。学習用データ2(115)の抽出のためのルールは、予め利用者(オペレータ)が設定しておくことができる。また、学習用データ2(115)における教師データ(すなわち改変データ(119))は、元データ(101)からのデータを用いず、元データの説明変数に対して、異なるラベルあるいは数値を目的変数として与えることで生成が可能である。
学習器2(120)では、学習器1(109)と同様に教師あり学習を行ない、予測パラメータ(112)を学習する。ただし、教師となるデータは改変データ(119)である。そして、学習の後、学習器2(120)では、改変データ(119)が予測パラメータに与える反応の大きさを評価する(反応性評価)。
なお、本実施例では予測器1(106)と予測器2(116)では、アルゴリズム(予測器)は共通である必要はないが、予測に用いる特徴量は共通なものが含まれる必要がある。これにより、予測器1(106)と予測器2(116)とで特徴量間で対応がつけられるようにする。
反応性評価では、例えばこの教師にはならない(誤った)改変データ(119)と予測器2(116)で予測した予測データ2(117)を比較して、誤差を計算する。そして、学習器2(120)は、予測器2(116)の各予測パラメータの変化に対する、改変データ(119)と予測データ2(117)の誤差の変化量を計算して評価する。ある予測パラメータの変化に対して誤差の変化が大きければ、その予測パラメータは改変データに対して敏感に反応するパラメータであるといえる。誤差の変化の大きさは、単純な方法としては、誤差の変化とパラメータの変化との比例係数の大きさに着目する。
また、別の反応性評価の手法では、改変データ(119)と予測データ2(117)の相関係数を計算して類似性を数値化する。そして、予測器2による予測式に用いる特徴量の変化に対し、予測データ2(117)と改変データ(119)との間の相関係数を計算することでも数値化できる。もし、ある特徴量の変化に対して両者の相関係数の変化が大きければ、その特徴量は改変データに対して敏感に反応するパラメータであるといえる。すなわち、この手法では相関係数の変化の大きさに着目する。
そこで、この敏感に反応する特徴量に関係する予測器1(106)のパラメータを0に近づける。なぜなら、このパラメータは、データに含まれる誤った情報やノイズ、さらにデータが少ないためにおきやすいデータの偏りに対し、敏感に反応してしまうパラメータであるためである。具体的な手法としては、各パラメータに重み係数を割り当てておき、改変データに対して敏感に反応するパラメータに対しては、他のパラメータよりも小さな重み係数を割り当てる。パラメータを小さくする方法としては、そのパラメータが大きくなると誤差が大きく見えるようなペナルティを与えることで、実質的に、そのパラメータを小さくすることができる。
データ抽出器2(114)でのデータ抽出方法の一例として、具体的には下記が効果的である。データ抽出器2(114)では、学習用データ1(105)において教師データが1のケースp個を抽出し、これにまだ学習していない加工済みデータ(123)の中から、教師データが1のケースq個を追加する。このデータセットを、学習用データ2(115)として抽出する。この学習用データ2における教師データは、本来p+q個の1ばかりからなるデータセットになる。ここで、q個の1を0に反転する。従って、p個の1とq個の0からなる改変データ(119)が作れる。これはもちろん現実とは異なるものであるが、これを学習させると、それに敏感に反応する予測パラメータの変化は大きくなる。このようなパラメータは、データの偏りやノイズに過敏に反応するパラメータなので、これを0に近づけることで、予測精度を向上することができる。具体的には、各パラメータに重みをつけておき、敏感に反応する予測パラメータについては、他のパラメータより重みを小さくすれば良い。なお、上記のp、qなどのパラメータは、利用者(オペレータ)が予め設定することができる。
この予測器2(116)→予測データ2(117)→学習器2(120)→予測パラメータ(112)→予測器2(116)からなる学習サイクルを、データ抽出器2(114)から抽出される様々なケースについて学習することで、反応すべきでないデータに対して鈍感になるための学習ができる。
以上説明したように、図1の左側の予測器1(106)→予測データ1(108)→学習器1(109)→予測パラメータ(112)→予測器1(106)という学習サイクルが、データに潜む、反応すべき兆候に敏感に反応することを学習する学習サイクルである。これに対し、右側の予測器2(116)→予測データ2(117)→学習器2(120)→予測パラメータ(112)→予測器2(116)の学習サイクルが、反応すべきでない兆候への鈍感さを学習する学習サイクルになる。
この両者の学習サイクルにより予測パラメータを学習することで、発生頻度が低い希な事業の予測精度を大幅に向上することができる。本実施例では、この両者の学習サイクルは同期して行なわれる。図1の左側の予測器1(106)を含む学習サイクルは、従来からあるディープニューラルネットワーク(DNN)の学習方式を踏襲することができる。一方、図1の右側の予測器2(116)を含む学習サイクルは、従来からあるDNNの学習方式を踏襲し、かつ、その学習結果に基づいて、左側の予測器1(106)を含む学習サイクルに基づく予測パラメータの変更を補正する。
なお、学習パラメータ1(111)、学習パラメータ2(121)は、それぞれの学習器1(109)、学習器2(120)に対して、学習を行なう前に利用者(オペレータ)が設定しておくものとする。学習パラメータを変更すると、学習結果(学習速度や予測精度)が変化するので、学習の結果を参照して利用者が学習パラメータを変更できるようにしておくのがよい。あるいは、学習パラメータを所定のルールで自動的に変更するようにしておき、各学習パラメータを用いたときの学習の結果に基づいて、好ましい学習パラメータを自動設定するようにしてもよい。
また、データ抽出器1(104)、データ抽出器2(114)によるデータ抽出ルールは、学習を行なう前に利用者(オペレータ)が設定しておくものとする。データ抽出ルールを変更すると、学習結果(学習速度や予測精度)が変化するので、学習の結果を参照して利用者がデータ抽出ルールを変更できるようにしておくのがよい。あるいは、データ抽出ルールを所定のルールで自動的に変更するようにしておき、各データ抽出ルールを用いたときの学習の結果に基づいて、好ましいデータ抽出ルールを自動設定するようにしてもよい。
図1の中の予測器1(106)および予測器2(116)は、従来用いられていたDNNを適用することができる。一般的なDNNの各層は通常非線形の演算を行なう。しかし、さらに金融や産業界などでの社会的責任を伴う判断に人工知能技術(機械学習を含む)を適用する際には、予測の根拠が人間に理解可能な形で提供されることが求められている。しかし、一般のディープラーニングでは、予測結果がなぜ正しいのかの根拠を説明するのが困難であり、ブラックボックスであることが適用を阻む壁になっている。
図2に、図1の中の予測器1(106)および予測器2(116)の他の構成の例を示す。図2の入力層(201)は、x1からxmというm個のベクトルデータを入力する層である。このデータは、たとえば融資の申込者の年収や性別などの属性情報が入る。
この図で矢印は、データの流れを示す。この入力されたデータが処理層(211)で処理され、出力層(212)に予測値を出力する。学習用データ1(105)に含まれる様々なケース(融資の場合には、融資の申し込み案件)毎にこの予測値を出力したものが、予測データ1(108)である。
処理層(211)は、単層ないし複数の層から構成され、処理層1(202)では、入力層の複数のデータ間で積を計算する。これをp1,p2,…,pkとする。図中で、
p1=x1×x2、p2=x1×x3である。ここで×は算術積あるいは論理積を意味する。この積処理により、p1には「x1が1であり、かつx2が1」という複合指標が生成され、より詳細な条件を表現できるようになる。p2以降についても同様である。
処理層2(203)では、処理層1で生成された多数の組み合わせ指標から重要な指標を選択する。この例では、p1,p3,pkは選択されたが、p2は選択されていない(矢印がつながっていない)。この選択を具体的に行うには、例えば、処理層1で生成された多数の指標間で相関を計算し、相関の絶対値によって、指標間の類似性を数値化する。これにより、類似な指標を固まり(クラスタ)としてまとめて、そのクラスタ毎に最も教師データと最も相関の高い指標を選択する。これにより、類似な指標を間引き、使用する指標を互いに独立性の高い指標にすることができる。指標が互いに独立であるほど、予測式は安定性が高まる。
処理層2で選択された指標(これをq1,q2,…qoとする)は処理層3(204)の入力になる。処理層3では、この指標を組合せて重みつき和を計算する。具体的には、

重み付つき和=w1×q1+w2×q2+…

であり、ここでw1,w2,…はそれぞれの指標の重みである。重みの値が大きいということは、その指標を重視することに対応する。図1では、このq1,q2,…に相当する矢印が、破線にしているが、これは重みつきであることを区別するためである。
処理層3の出力は、さらに処理層4(205)の入力となる。処理層4では、重みつき和を非線形関数に入力する。非線形関数としては、シグモイド関数やしきい値以下では0しきい値以上では直線的に上昇するランプ関数を用いる。これにより、非線形な依存性を表現できる。処理層3の重みつき和と処理層4の非線形関数を合わせて多数決論理とも呼ぶ。
このように、図2で○によって表現した演算処理(積、選択、重みつき和、非線形関数)を組み合わせたり、順序を変えたり、ネットワークの接続形態を変えたりして、複雑な関数(予測式)を表現できる。また、重みつき和(204)に用いる重みや選択層(203)に用いる選択基準(例えば所定の相関以下の指標を独立なクラスタにする場合に、所定の相関値)をパラメータとして変化させることで、関数を柔軟に変化させることが可能である。図1において予測パラメータ(112)として表現したのは、これらの重みや選択基準等のパラメータを指している。
この図では4つ以上の処理層を含む例を示したが、最も単純な場合には、入力層の指標をそのまま出力させることも可能である。逆に、このような多様な処理層を多層に組み合わせて極めて複雑な予測式を作ることも可能である。
ここで、処理層を積と選択と重みつき和だけの組合せで構成し、出力層だけに非線形層を用いることで、予測式は、

Y=σ[Σw(Πxi)] σ[・]は非線形関数(例えばシグモイド関数)を表す。
(例えばy=w1(x1)(x2)+w2(x2)(x3)(x8)(x9)、この場合はσは恒等関数)

という形にすることができる。上記の例では、結果(出力)は「x1かつx2である」ことと、「x2かつx3かつx8かつx9である」ことによって決まっていることが分かる。このように、予測の結果を常にその要因に分解し、式を人が理解できる言葉で説明することが可能になる。これは従来のディープラーニングやニューラルネットにはない特徴である。
図3に本実施例のシステム構成図を示す。本実施例のハードウェア構成は、一般的な情報処理装置、例えばサーバで構成することができる。情報処理装置は、処理装置(301)と記憶装置を含む。記憶装置は、たとえばデータベース(302)、プログラム記憶装置(303)、演算記憶装置(304)を含む。また、図示しないが、情報処理装置として一般的な、入力装置および出力装置を備える。
処理装置(301)は、プログラム記憶装置(303)に格納された各種プログラムを実行する。
データベース(302)は、例えば磁気ディスク装置であって、予測パラメータ(112)、加工済みデータ(123)、元データ(101)、学習用データ1(105)、学習用データ2(115)、教師データ(107)、改変データ(119)、学習パラメータ1(111)、学習パラメータ2(121)等を記憶している。
プログラム記憶装置(303)は、前処理器(102)、乱数生成(103,113,110,122)、データ抽出器1(104)、データ抽出器2(114)、予測器1(106)、予測器2(116)、学習器1(109)、学習器2(120)等のプログラムを格納している。
演算記憶装置(304)は、データベース(302)やプログラム記憶装置(303)から読み出したデータを一時的に格納したり、処理装置(301)が演算などを行なう際のデータを格納する。プログラム記憶装置(303)や演算記憶装置(304)は、公知の各種半導体メモリを使用することができる。
本実施例では計算や制御等の機能は、プログラム記憶装置(303)に格納されたプログラムが処理装置(301)によって実行されることで、定められた処理を他のハードウェアと協働して実現される。計算機などが実行するプログラム、その機能、あるいはその機能を実現する手段を、「機能」、「手段」、「部」、「器」、「モジュール」等と呼ぶ場合がある。また、この構成は、単体のコンピュータで構成してもよいし、あるいは、入力装置、出力装置、処理装置、記憶装置の任意の部分が、ネットワークで接続された他のコンピュータで構成されてもよい。また、本実施例中、プログラムを使用して構成した機能と同等の機能は、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)などのハードウェアでも実現できる。そのような態様も本実施例の範囲に含まれる。
図4は学習器2(120)の詳細を示すブロック図である。学習器2(120)は、学習部(1201)と、反応性評価部(1202)と、パラメータ補正部(1203)を含む。
図5は学習器2(120)が行なう処理の流れ図である。処理S501で学習部(1201)は、改変データ(119)を教師データとして、従来の教師有り学習を行なう。ただし、既述のように改変データ(119)は、例えば本来「貸し倒れあり(1)」であった加工済みデータのいくつかを、「貸し倒れなし(0)」に変更したデータである。あるいは本来「貸し倒れなし(0)」であった加工済みデータのいくつかを、「貸し倒れあり(1)」に変更したデータでもよい。学習部(1201)での学習の結果、改変データ(119)との誤差が小さくなるように、予測パラメータが計算される。
処理S502で反応性評価部(1202)は、各パラメータの改変データ(119)に対する反応の敏感さを評価する(反応性評価)。このため、既述のように、例えば予測パラメータの変化に対する予測誤差の変化を評価する。そして、改変データに対して敏感な予測パラメータを抽出する。
処理S502でパラメータ補正部(1203)は、敏感なパラメータについて「鈍感になる」ような補正を行なう。そのための一つの方法は、S502で抽出した敏感なパラメータについては、学習器1(109)で学習したパラメータの値に他のパラメータより小さな重みをつける。あるいは、そのパラメータをゼロにする。このために、学習器2(120)は、予測パラメータ(112)を補正する。
他の方法としては、敏感なパラメータについては学習器1(109)における学習で、通常とは逆に予測誤差が大きくなるような学習を行なう。このためには、学習器2(120)は、学習器1(109)の特定のパラメータについて、学習アルゴリズムに補正を加える。予測誤差が大きくなるような学習を行なうことにより、改変データの影響をより強く抑制することができる。以上は、敏感なパラメータを「鈍感にする」具体例であるが、これら複数の方式を組み合わせても良い。
別の例では、図1において、元データを変えることで、この同じ情報処理システムを、投資判断のための予測にも用いることができる。この場合には、元データは、投資先の会社の経営情報や財務情報や対象市場の状況を表す数値群(M個)である。教師データは、投資の結果投資先から得られたリターン(たとえば得られた配当の額)の実績のデータ1個である。様々な投資先N件に関して、この投資先の情報と結果のリターンの情報を入力し、未知の投資先に投資したときに、どれほどリターンが得られるかのモデルを出力する。
元となるデータとしては、M+1列、N行のデータセットになり、これを表形式やテキストやデータベースの形態で元データ(101)に入力する。
これ以外にも、サプライチェーンにおける在庫や欠品の予測に用いることが可能になる。この場合には、在庫や欠品などの状況、納期、曜日、天気などの情報を説明変数にして、結果の在庫や欠品(受注残)の量を教師データ(目的変数)にして表形式のデータを入力することができる。
プラントにおける事故の予測に用いることも可能である。この場合には、プラントから収集された温度や圧力などのセンサ値や従業員の特徴(経験他)を説明変数とし、結果として事故が起きたかを教師データにする。
さらに、製造ラインにおける不良の予測が可能になる。製造装置の稼働情報や温度などの条件、さらに環境温度や材料の仕入れ先などの情報を説明変数にし、教師データ(目的変数)に不良の有無を入力する。
新商品のヒットの予測にも用いることが可能である。これまでの商品の属性(製品カテゴリ、色、名称の特徴、値段など)や投入時期などを説明変数にし、発売後の売上を教師データ(目的変数)にすることができる。
本発明は、説明変数と教師データからなるデータを準備できれば、ここに挙げた以外の幅広い用途に適用することができる。
以上説明した実施例では、機械学習を用いて、データから予測のモデル式を生成する際、発生頻度が低い稀な事象では、特定の状況でたまたま起きた事象にあわせてパラメータを調整することで過剰適応に陥り、予測精度を下げてしまうという「過学習」が起きるという点に着目した。そして、過去のデータを使って予測誤差を小さくする第1の学習に加え、意図的に間違ったデータをAIに入力することで、間違ったデータに影響をうけないことを学習する第2の学習サイクルを備える構成を提案している。
101・・・元データ
102・・・前処理器
103・・・乱数生成1
104・・・データ抽出器1
105・・・学習用データ1
106・・・予測器1
107・・・教師データ
108・・・予測データ1
109・・・学習器1
110・・・乱数生成3
111・・・学習パラメータ1
112・・・予測パラメータ
113・・・乱数生成2
114・・・データ抽出器2
115・・・学習用データ2
116・・・予測器2
117・・・予測データ2
119・・・教師データとは異なる改変データ
120・・・学習器2
121・・・学習パラメータ2
122・・・乱数生成4
123・・・加工済みデータ

Claims (15)

  1. 元データを入力して予測結果を出力する情報処理システムにおいて、
    前記元データから、少なくとも第1のデータと第2のデータが生成され、
    前記第1のデータを用いて予測を行う第1の予測式は少なくとも一つのパラメータを有し、
    前記第1の予測式による第1の予測結果を用いて該パラメータを調整する第1の学習器を有し、
    前記第2のデータを用いて予測を行う第2の予測式は少なくとも一つのパラメータを有し、
    前記第2の予測式による第2の予測結果を用いて該パラメータを調整する第2の学習器を有し、
    前記第1の学習器が調整するパラメータと前記第2の学習器が調整するパラメータに、共通のパラメータが少なくとも一つあることを特徴とする情報処理システム。
  2. 請求項1の情報処理システムにおいて、
    前記第2のデータにおける教師データは、前記元データからのデータを用いず、前記元データとは異なるラベルあるいは数値を与えられたデータであることを特徴とする情報処理システム。
  3. 請求項1の情報処理システムにおいて、
    前記第1の予測式は、重みつき和と非線形関数を含むことを特徴とする情報処理システム。
  4. 請求項1の情報処理システムにおいて、
    前記第1の予測式は、積と重みつき和を含むことを特徴とする情報処理システム。
  5. 請求項1の情報処理システムにおいて、
    前記第2の学習器は、学習部と反応性評価部を備え、
    前記学習部は、前記共通のパラメータを含む複数のパラメータを調整するものであって、
    前記第2のデータと前記第2の予測結果の誤差が小さくなるように前記複数のパラメータを調整し、
    前記反応性評価部は、
    前記複数のパラメータのうち、パラメータの変化に対して前記誤差の変化量が所定以上大きなパラメータを抽出する、情報処理システム。
  6. 請求項1の情報処理システムにおいて、
    前記第2の学習器は、学習部と反応性評価部を備え、
    前記学習部は、前記共通のパラメータを含む複数のパラメータを調整するものであって、
    前記第2のデータと前記第2の予測結果の誤差が小さくなるように前記複数のパラメータを調整し、
    前記反応性評価部は、
    前記複数のパラメータのうち、パラメータの変化に対して前記第2のデータと前記第2の予測結果の相関係数の変化量が所定以上大きなパラメータを抽出する、情報処理システム。
  7. 請求項1の情報処理システムにおいて、
    前記第2の学習器は、学習部と反応性評価部とパラメータ補正部を備え、
    前記学習部は、前記共通のパラメータを含む複数のパラメータを調整するものであって、
    前記第2のデータと前記第2の予測結果の誤差が小さくなるように前記複数のパラメータを調整し、
    前記反応性評価部は、
    前記複数のパラメータのうち、パラメータの変化に対して前記誤差あるいは前記第2のデータと前記第2の予測結果の相関係数の変化量が所定以上大きなパラメータを抽出し、
    前記パラメータ補正部は、
    抽出された前記パラメータについて、前記第1の学習器が調整するパラメータを補正する、情報処理システム。
  8. 請求項7の情報処理システムにおいて、
    前記パラメータ補正部は、
    抽出された前記パラメータについて、前記第1の学習器が調整するパラメータの重みを小さくする補正を行なう、情報処理システム。
  9. 請求項7の情報処理システムにおいて、
    前記パラメータ補正部は、
    抽出された前記パラメータについて、前記第1の学習器が調整するパラメータを0に近づける補正を行なう、情報処理システム。
  10. 請求項7の情報処理システムにおいて、
    前記パラメータ補正部は、
    抽出された前記パラメータについて、前記第1の学習器が、前記第1のデータと前記第1の予測結果の誤差が大きくなるように前記複数のパラメータを調整する補正を行なう、情報処理システム。
  11. 説明変数と第1の結果データの組からなる教師データを複数準備し、
    説明変数の組からなる第1の学習用データを複数準備し、
    複数のパラメータからなる予測パラメータを用いた予測式を用いて、前記第1の学習用データから第1の予測データを得、
    前記第1の結果データと前記第1の予測データの誤差が小さくなるように、前記予測パラメータを変更して第1の予測パラメータを得、
    説明変数と第2の結果データの組からなる改変データを複数準備し、
    説明変数の組からなる第2の学習用データを複数準備し、
    前記予測パラメータを用いた予測式を用いて、前記第2の学習用データから第2の予測データを得、
    前記第2の結果データと前記第2の予測データの誤差が小さくなるように、前記予測パラメータを変更して第2の予測パラメータを得、
    前記第2の予測パラメータの変化に対する前記誤差の変化、および、前記第2の予測パラメータの変化に対する前記第2の結果データと前記第2の予測データの相関係数の変化、の少なくとも一つを評価して、前記予測パラメータから所定のパラメータを抽出し、
    前記第1の予測パラメータのうち、抽出した前記所定のパラメータに該当するパラメータについて、前記第1の予測パラメータを調整する、
    情報処理システムの学習方法。
  12. 請求項11の情報処理システムの学習方法において、
    前記教師データは元データの一部であり、前記改変データは前記元データを改変したデータであって、前記元データとは相違するデータである、
    情報処理システムの学習方法。
  13. 請求項11の情報処理システムの学習方法において、
    前記第1の予測パラメータのうち、前記所定のパラメータに該当するパラメータについて、前記第1の予測パラメータの重みを小さくを補正する、
    情報処理システムの学習方法。
  14. 請求項11の情報処理システムの学習方法において、
    前記第1の予測パラメータのうち、前記所定のパラメータに該当するパラメータについて、前記第1の結果データと前記第1の予測データの誤差が大きくなるように、前記予測パラメータを変更することにより、前記第1の予測パラメータを補正する、
    情報処理システムの学習方法。
  15. 請求項11の情報処理システムの学習方法において、
    前記教師データは元データの一部であり、前記改変データは前記元データを改変したデータであって、前記元データとは相違するデータであり、
    前記元データを改変する方式について、変更が可能である、
    情報処理システムの学習方法。
JP2017241430A 2017-12-18 2017-12-18 情報処理システムおよび情報処理システムの学習方法 Active JP6993863B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017241430A JP6993863B2 (ja) 2017-12-18 2017-12-18 情報処理システムおよび情報処理システムの学習方法
CN201811530463.3A CN110033113B (zh) 2017-12-18 2018-12-14 信息处理系统及信息处理系统的学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017241430A JP6993863B2 (ja) 2017-12-18 2017-12-18 情報処理システムおよび情報処理システムの学習方法

Publications (2)

Publication Number Publication Date
JP2019109648A true JP2019109648A (ja) 2019-07-04
JP6993863B2 JP6993863B2 (ja) 2022-01-14

Family

ID=67179811

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017241430A Active JP6993863B2 (ja) 2017-12-18 2017-12-18 情報処理システムおよび情報処理システムの学習方法

Country Status (2)

Country Link
JP (1) JP6993863B2 (ja)
CN (1) CN110033113B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112446531A (zh) * 2019-09-03 2021-03-05 丰田自动车株式会社 信息处理方法以及信息处理装置
CN113366445A (zh) * 2019-09-30 2021-09-07 株式会社日立信息通信工程 状态预测系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05334276A (ja) * 1990-12-27 1993-12-17 Toshiba Corp 学習機械の学習法
JP2001236341A (ja) * 2000-02-23 2001-08-31 Denso Corp 推定モデル構築装置、情報処理装置及び記録媒体
JP2009288933A (ja) * 2008-05-28 2009-12-10 Sony Corp 学習装置、学習方法、及びプログラム
JP2017027329A (ja) * 2015-07-22 2017-02-02 ルネサスエレクトロニクス株式会社 故障予測装置および故障予測方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4337461B2 (ja) * 2003-07-31 2009-09-30 富士電機ホールディングス株式会社 機器特性パラメータ推定装置及び機器特性パラメータ情報出力装置
JP5017176B2 (ja) * 2008-05-21 2012-09-05 株式会社日立製作所 製造指示評価支援システム、製造指示評価支援方法、および製造指示評価支援プログラム
GB2464677A (en) * 2008-10-20 2010-04-28 Univ Nottingham Trent A method of analysing data by using an artificial neural network to identify relationships between the data and one or more conditions.
JP5803469B2 (ja) * 2011-09-15 2015-11-04 富士通株式会社 予測方法及び予測プログラム
US10911318B2 (en) * 2015-03-24 2021-02-02 Futurewei Technologies, Inc. Future network condition predictor for network time series data utilizing a hidden Markov model for non-anomalous data and a gaussian mixture model for anomalous data
CN107346448B (zh) * 2016-05-06 2021-12-21 富士通株式会社 基于深度神经网络的识别装置、训练装置及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05334276A (ja) * 1990-12-27 1993-12-17 Toshiba Corp 学習機械の学習法
JP2001236341A (ja) * 2000-02-23 2001-08-31 Denso Corp 推定モデル構築装置、情報処理装置及び記録媒体
JP2009288933A (ja) * 2008-05-28 2009-12-10 Sony Corp 学習装置、学習方法、及びプログラム
JP2017027329A (ja) * 2015-07-22 2017-02-02 ルネサスエレクトロニクス株式会社 故障予測装置および故障予測方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112446531A (zh) * 2019-09-03 2021-03-05 丰田自动车株式会社 信息处理方法以及信息处理装置
US11631095B2 (en) 2019-09-03 2023-04-18 Toyota Jidosha Kabushiki Kaisha Information processing method and information processing apparatus
CN113366445A (zh) * 2019-09-30 2021-09-07 株式会社日立信息通信工程 状态预测系统

Also Published As

Publication number Publication date
CN110033113A (zh) 2019-07-19
CN110033113B (zh) 2023-06-20
JP6993863B2 (ja) 2022-01-14

Similar Documents

Publication Publication Date Title
Abolghasemi et al. Demand forecasting in supply chain: The impact of demand volatility in the presence of promotion
Ntakaris et al. Benchmark dataset for mid‐price forecasting of limit order book data with machine learning methods
US11348110B2 (en) Artificial intelligence fraud management solution
Wang et al. Predicting construction cost and schedule success using artificial neural networks ensemble and support vector machines classification models
Sharma et al. Artificial neural networks: Applications in management
Achar Early Consequences Regarding the Impact of Artificial Intelligence on International Trade
US20220188644A1 (en) Latent-space misalignment measure of responsible ai for machine learning models
Korangi et al. A transformer-based model for default prediction in mid-cap corporate markets
JP6993863B2 (ja) 情報処理システムおよび情報処理システムの学習方法
Jain et al. Machine Learning for Risk Analysis
Aghaie et al. Using bayesian networks for bankruptcy prediction: Empirical evidence from iranian companies
Wimmer et al. Leveraging vision-language models for granular market change prediction
Abdipoor et al. Integrating neural network and colonial competitive algorithm: A new approach for predicting bankruptcy in Tehran security exchange
Huy et al. Econometric combined with neural network for coffee price forecasting
Manikonda et al. Explainable machine learning for credit lending
Liu et al. Stock price prediction using temporal graph model with value chain data
Maddodi Stock Market Forecasting: A Review Of Literature
Mitra et al. Predicting Indian basket crude prices through machine learning models-a comparative approach
Banik et al. Modeling chaotic behavior of Dhaka stock market index values using the neuro-fuzzy model
CN117151867B (zh) 一种基于大数据的企业异常识别方法及系统
US20240119529A1 (en) Machine learning based personalized ethical interest and sensitivity profile generation for investment management
KG et al. Price Forecasting on a Large Scale Data Set using Time Series and Neural Network Models.
Kumari et al. A Comparative Analysis of Data Standardization Methods on Stock Movement
Khodabakhshian et al. Machine Learning Application in Construction Delay and Cost Overrun Risks Assessment
Bilgaeva et al. Neuroevolution Forecasting of the Living Standards of the Population

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200316

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210330

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210528

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210622

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211210

R150 Certificate of patent or registration of utility model

Ref document number: 6993863

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150