JP2023102156A - 情報選択システム、情報選択方法及び情報選択プログラム - Google Patents
情報選択システム、情報選択方法及び情報選択プログラム Download PDFInfo
- Publication number
- JP2023102156A JP2023102156A JP2022002565A JP2022002565A JP2023102156A JP 2023102156 A JP2023102156 A JP 2023102156A JP 2022002565 A JP2022002565 A JP 2022002565A JP 2022002565 A JP2022002565 A JP 2022002565A JP 2023102156 A JP2023102156 A JP 2023102156A
- Authority
- JP
- Japan
- Prior art keywords
- control unit
- information
- variables
- analysis model
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010187 selection method Methods 0.000 title claims abstract description 7
- 238000004458 analytical method Methods 0.000 claims abstract description 43
- 238000000034 method Methods 0.000 claims description 91
- 238000012795 verification Methods 0.000 claims description 18
- 230000010365 information processing Effects 0.000 abstract description 12
- 238000012549 training Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 100
- 238000011156 evaluation Methods 0.000 description 63
- 230000008569 process Effects 0.000 description 59
- 230000000694 effects Effects 0.000 description 46
- 238000010586 diagram Methods 0.000 description 30
- 238000004364 calculation method Methods 0.000 description 23
- 230000004913 activation Effects 0.000 description 12
- 238000012217 deletion Methods 0.000 description 12
- 230000037430 deletion Effects 0.000 description 12
- 230000002411 adverse Effects 0.000 description 10
- 239000013598 vector Substances 0.000 description 9
- 230000033001 locomotion Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 240000002627 Cordeauxia edulis Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000008092 positive effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2115—Selection of the most significant subset of features by evaluating different subsets according to an optimisation criterion, e.g. class separability, forward selection or backward elimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N99/00—Subject matter not provided for in other groups of this subclass
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Stored Programmes (AREA)
Abstract
【課題】情報処理に用いる情報を効率的に的確に選択するための情報選択システム、情報選択方法及び情報選択プログラムを提供する。【解決手段】支援サーバ20の制御部21が、複数の教師データからなる情報において、一部の情報を用いて、複数の解析モデルを生成し、各解析モデルの精度を算出し、各精度に応じた分配値を、解析モデルの生成に用いた情報に割り当て、解析モデルの生成に用いた情報毎に、分配値の統計値を算出し、統計値を用いて、解析モデルの生成に用いる情報を選択する。【選択図】図1
Description
本開示は、情報処理に用いる情報を選択するための情報選択システム、情報選択方法及び情報選択プログラムに関する。
学習処理を行なう場合、学習に用いる変数を選択するためにステップワイズ法を利用することがある。ステップワイズ法は、逐次的に1つずつ、変数を追加あるいは削除していく手法である(例えば、特許文献1を参照。)。この文献に記載された技術は、プロセスの状態予測方法において、重回帰モデルを構成する説明変数を、プロセスの操業状態を示す複数のプロセス変数の時刻歴データが蓄積された時系列データベースから選定する。この場合、ステップワイズ法により説明変数を絞り込んだ後、絞り込まれた説明変数の偏回帰係数の正負をチェックし、実現象と逆の作用を示す説明変数を除外する。
ここで、図21~図24を用いて、ステップワイズ法の中で、全変数を選択した状態からスタートし、1つずつ変数を削除していく変数減少法を説明する。
図21に示すように、まず、全変数を選択して精度の計算を行なう(ステップS01)。例えば、変数p1~p4を用いる場合、すべての変数(p1~p4)を用いて、回帰式を算出する。そして、この回帰式の精度として、平均絶対誤差(MAE)である予測誤差e0を算出する。
図21に示すように、まず、全変数を選択して精度の計算を行なう(ステップS01)。例えば、変数p1~p4を用いる場合、すべての変数(p1~p4)を用いて、回帰式を算出する。そして、この回帰式の精度として、平均絶対誤差(MAE)である予測誤差e0を算出する。
次に、変数を削除した組み合わせの精度の計算を行なう(ステップS02)。
図22のテーブル700に示すように、変数(p1~p4)を用いる場合、一つずつ削除した変数の組み合わせを用いて、回帰式を算出する。例えば、変数(p2~p4)を用いた回帰式の精度として予測誤差e11を算出し、変数(p1,p3,p4)を用いた回帰式の精度として予測誤差e12を算出する。また、変数(p1,p2,p4)を用いた回帰式の精度として予測誤差e13を算出し、変数(p1~p3)を用いた回帰式の精度として予測誤差e14を算出する。
図22のテーブル700に示すように、変数(p1~p4)を用いる場合、一つずつ削除した変数の組み合わせを用いて、回帰式を算出する。例えば、変数(p2~p4)を用いた回帰式の精度として予測誤差e11を算出し、変数(p1,p3,p4)を用いた回帰式の精度として予測誤差e12を算出する。また、変数(p1,p2,p4)を用いた回帰式の精度として予測誤差e13を算出し、変数(p1~p3)を用いた回帰式の精度として予測誤差e14を算出する。
次に、精度に応じて変数の削除を行なう(ステップS03)。ここでは、最も精度が良かった組み合わせを用いて、変数(平均絶対誤差が最も小さい変数)を削除する。すなわち、特定の変数を用いないときの平均絶対誤差が小さくなる場合に、この特定の変数を削除する。図22の予測誤差e11~e14の中で予測誤差e12が最も小さい場合、図23のテーブル701に示すように、変数p2を削除する。
次に、終了かどうかについての判定を行なう(ステップS04)。例えば、残っている変数が2の場合には終了と判定する。終了と判定した場合(ステップS04において「YES」の場合)、最も精度の良い変数の組み合わせを最終結果として特定する。
一方、終了でないと判定した場合(ステップS04において「NO」の場合)、ステップS02以降の処理を繰り返す。
一方、終了でないと判定した場合(ステップS04において「NO」の場合)、ステップS02以降の処理を繰り返す。
図23に示すように、変数(p1,p3,p4)の一つを削除した変数の組み合わせを用いて、回帰式を算出する。例えば、変数(p3,p4)を用いた回帰式の精度として予測誤差e21を算出し、変数(p1,p4)を用いた回帰式の精度として予測誤差e23を算出し、変数(p1,p3)を用いた回帰式の精度として予測誤差e24を算出する。図23の予測誤差e21,e23,e24の中で予測誤差e21が最も小さい場合、図24のテーブル702に示すように、変数p1を削除する。
そして、最も精度の良い変数(平均絶対誤差が大きい変数)の組み合わせ(ここでは、変数p3,p4)を最終結果として特定する。
しかしながら、変数を1つずつ検討していくので、複数の変数の組み合わせが考慮されない場合がある。この場合、局所解に陥りやすい。例えば、図22~図24の例では、最初に変数p2を削除するため、変数p2が入った組み合わせは、それ以降は考慮されない。また、変数が多いと、試行回数が膨大になるため、計算時間が長くなる。
上記課題を解決する情報選択システムは、解析モデルの生成に用いる情報を選択する制御部を備える。そして、前記制御部が、複数の教師データからなる情報において、一部の情報を用いて、複数の解析モデルを生成し、前記各解析モデルの精度を算出し、前記各精度に応じた分配値を、前記解析モデルの生成に用いた情報に割り当て、前記解析モデルの生成に用いた情報毎に、前記分配値の統計値を算出し、前記統計値を用いて、解析モデルの生成に用いる情報を選択する。
本発明は、情報処理に用いる情報を効率的に的確に選択することができる。
(第1実施形態)
図1~図5に従って、情報選択システム、情報選択方法及び情報選択プログラムを具体化した一実施形態を説明する。本実施形態では、変数(情報)をランダムに選択して学習を繰り返し、変数の有効性を求めて追加・削除を逐次的に行なう。
図1に示すように、本実施形態の情報選択システムは、ユーザ端末10、支援サーバ20を用いる。
図1~図5に従って、情報選択システム、情報選択方法及び情報選択プログラムを具体化した一実施形態を説明する。本実施形態では、変数(情報)をランダムに選択して学習を繰り返し、変数の有効性を求めて追加・削除を逐次的に行なう。
図1に示すように、本実施形態の情報選択システムは、ユーザ端末10、支援サーバ20を用いる。
(ハードウェア構成例)
図2は、ユーザ端末10、支援サーバ20等として機能する情報処理装置H10のハードウェア構成例である。
図2は、ユーザ端末10、支援サーバ20等として機能する情報処理装置H10のハードウェア構成例である。
情報処理装置H10は、通信装置H11、入力装置H12、表示装置H13、記憶装置H14、プロセッサH15を有する。なお、このハードウェア構成は一例であり、他のハードウェアを有していてもよい。
通信装置H11は、他の装置との間で通信経路を確立して、データの送受信を実行するインタフェースであり、例えばネットワークインタフェースや無線インタフェース等である。
入力装置H12は、利用者等からの入力を受け付ける装置であり、例えばマウスやキーボード等である。表示装置H13は、各種情報を表示するディスプレイやタッチパネル等である。
記憶装置H14は、ユーザ端末10、支援サーバ20の各種機能を実行するためのデータや各種プログラムを格納する記憶装置である。記憶装置H14の一例としては、ROM、RAM、ハードディスク等がある。
プロセッサH15は、記憶装置H14に記憶されるプログラムやデータを用いて、ユーザ端末10、支援サーバ20における各処理(例えば、後述する制御部21における処理)を制御する。プロセッサH15の一例としては、例えばCPUやMPU等がある。このプロセッサH15は、ROM等に記憶されるプログラムをRAMに展開して、各種処理に対応する各種プロセスを実行する。例えば、プロセッサH15は、ユーザ端末10、支援サーバ20のアプリケーションプログラムが起動された場合、後述する各処理を実行するプロセスを動作させる。
プロセッサH15は、自身が実行するすべての処理についてソフトウェア処理を行なうものに限られない。例えば、プロセッサH15は、自身が実行する処理の少なくとも一部についてハードウェア処理を行なう専用のハードウェア回路(例えば、特定用途向け集積回路:ASIC)を備えてもよい。すなわち、プロセッサH15は、以下で構成し得る。
(1)コンピュータプログラム(ソフトウェア)に従って動作する1つ以上のプロセッサ
(2)各種処理のうち少なくとも一部の処理を実行する1つ以上の専用のハードウェア回路、或いは
(3)それらの組み合わせ、を含む回路(circuitry)
プロセッサは、CPU並びに、RAM及びROM等のメモリを含み、メモリは、処理をCPUに実行させるように構成されたプログラムコード又は指令を格納している。メモリすなわちコンピュータ可読媒体は、汎用又は専用のコンピュータでアクセスできるあらゆる利用可能な媒体を含む。
(2)各種処理のうち少なくとも一部の処理を実行する1つ以上の専用のハードウェア回路、或いは
(3)それらの組み合わせ、を含む回路(circuitry)
プロセッサは、CPU並びに、RAM及びROM等のメモリを含み、メモリは、処理をCPUに実行させるように構成されたプログラムコード又は指令を格納している。メモリすなわちコンピュータ可読媒体は、汎用又は専用のコンピュータでアクセスできるあらゆる利用可能な媒体を含む。
(各情報処理装置の機能)
図1を用いて、ユーザ端末10、支援サーバ20の機能を説明する。
ユーザ端末10は、本システムを利用するユーザが用いるコンピュータ端末である。
図1を用いて、ユーザ端末10、支援サーバ20の機能を説明する。
ユーザ端末10は、本システムを利用するユーザが用いるコンピュータ端末である。
支援サーバ20は、情報処理に用いる変数を選択するコンピュータシステムである。この支援サーバ20は、制御部21、記憶部22を備えている。ここでは、情報処理として機械学習を行なう。
制御部21は、後述する処理(選択段階、評価段階等を含む処理)を行なう。このための情報選択プログラムを実行することにより、制御部21は、選択部211、評価部212等として機能する。
制御部21は、後述する処理(選択段階、評価段階等を含む処理)を行なう。このための情報選択プログラムを実行することにより、制御部21は、選択部211、評価部212等として機能する。
選択部211は、情報処理に用いる変数を選択する処理を実行する。
評価部212は、選択された変数を用いた解析モデルの精度を算出する処理を実行する。具体的には、評価部212は、機械学習により解析モデルを生成し、この解析モデルの予測誤差を精度として算出する。
記憶部22には、機械学習等の情報処理に用いる情報(入力データ)が記録される。この入力データは、情報処理に用いるデータを取得した場合に記録される。入力データは、異なる次元からなる複数の要素データを備えたベクトルである。例えば、複数種類の説明変数及び目的変数からなる教師データを用いることができる。
評価部212は、選択された変数を用いた解析モデルの精度を算出する処理を実行する。具体的には、評価部212は、機械学習により解析モデルを生成し、この解析モデルの予測誤差を精度として算出する。
記憶部22には、機械学習等の情報処理に用いる情報(入力データ)が記録される。この入力データは、情報処理に用いるデータを取得した場合に記録される。入力データは、異なる次元からなる複数の要素データを備えたベクトルである。例えば、複数種類の説明変数及び目的変数からなる教師データを用いることができる。
(変数選択処理)
次に、図3を用いて、変数選択処理を説明する。ここでは、支援サーバ20の制御部21の選択部211は、ユーザ端末10から入力データを取得する。そして、選択部211は、入力データを記憶部22に記録する。
次に、図3を用いて、変数選択処理を説明する。ここでは、支援サーバ20の制御部21の選択部211は、ユーザ端末10から入力データを取得する。そして、選択部211は、入力データを記憶部22に記録する。
まず、支援サーバ20の制御部21は、全変数で精度の計算処理を実行する(ステップS101)。具体的には、制御部21の選択部211は、記憶部22に記録された入力データにおいて、すべての変数値を含めてデータセット(教師データ群)を作成する。次に、選択部211は、評価部212に対して、作成したデータセットを提供する。そして、評価部212は、データセットを用いた機械学習を行なうことにより、解析モデルを作成する。次に、評価部212は、作成した解析モデルの精度(予測誤差)を計算する。
そして、支援サーバ20の制御部21は、以下の処理を、所定回数、繰り返す。
ここでは、支援サーバ20の制御部21は、所定数の変数の削除処理を実行する(ステップS102)。具体的には、制御部21の選択部211は、入力データを構成する変数から、ランダムに所定数の複数種類の変数(利用変数組)を特定する。本実施形態では、削除対象として、2個の変数を特定する。
ここでは、支援サーバ20の制御部21は、所定数の変数の削除処理を実行する(ステップS102)。具体的には、制御部21の選択部211は、入力データを構成する変数から、ランダムに所定数の複数種類の変数(利用変数組)を特定する。本実施形態では、削除対象として、2個の変数を特定する。
次に、支援サーバ20の制御部21は、過去に選択した変数組かどうかについての判定処理を実行する(ステップS103)。具体的には、制御部21の選択部211は、今回の利用変数組と、これまでに評価を行なった利用変数組とを比較する。
今回の利用変数組と、これまでに評価を行なった利用変数組とが一致しており、過去に選択した利用変数組と判定した場合(ステップS103において「YES」の場合)、所定数の変数の削除処理(ステップS102)を繰り返す。
一方、過去に選択した変数組でないと判定した場合(ステップS103において「NO」の場合)、支援サーバ20の制御部21は、予測誤差の算出処理を実行する(ステップS104)。具体的には、制御部21の選択部211は、今回の利用変数組を削除したデータセットを作成する。次に、選択部211は、評価部212に対して、作成したデータセットを提供する。そして、評価部212は、データセットを用いた機械学習を行なうことにより、解析モデルを作成する。次に、評価部212は、作成した解析モデルの精度(予測誤差)を計算する。
次に、支援サーバ20の制御部21は、利用変数組に対して予測誤差の割当処理を実行する(ステップS105)。具体的には、制御部21の選択部211は、利用変数組の各変数に対して、計算した予測誤差を分配値として割り当てる。
図4に示すように、変数(p1~p8)を用いる場合、複数の変数p2,p7を削除したケースを想定する。ここで、変数テーブル100に示すように、予測誤差の算出処理(ステップS104)において、予測誤差e1を算出した場合を想定する。そして、利用変数組に対して予測誤差の割当処理(ステップS105)において、変数テーブル101に示すように、変数(p1,p3~p6,p8)に予測誤差e1を割り当てる。
以上の処理を、所定回数、繰り返す。
以上の処理を、所定回数、繰り返す。
図5に示すように、7回(所定回数)の処理を繰り返した後、変数テーブル102が生成される。ここでは、各利用変数組に対して予測誤差e1~e7が算出されて、利用変数に対して割り当てられている。
次に、支援サーバ20の制御部21は、各変数について予測誤差の平均値の算出処理を実行する(ステップS106)。具体的には、制御部21の選択部211は、各変数について割り当てられた予測誤差の統計値(ここでは、平均値)を算出する。
この場合、図5の平均値欄103に示すように、変数(p1~p8)に対して割り当てられた予測誤差(e1~e7)の平均値av1~av8を算出する。例えば、変数p1のav1は、予測誤差e1,e3~e7の平均値である。
次に、支援サーバ20の制御部21は、予測誤差が大きい変数の削除処理を実行する(ステップS107)。具体的には、制御部21の選択部211は、予測誤差の平均値が大きい変数を特定する。そして、選択部211は、予測誤差の平均値が大きい変数を削除する。この場合、選択部211は、残っている変数組に関連付けて予測誤差をメモリに仮記憶する。
次に、支援サーバ20の制御部21は、終了条件に到達かどうかについての判定処理を実行する(ステップS108)。具体的には、制御部21の選択部211は、繰り返し回数Nが目標回数Nmax(終了条件)になっているかどうかを確認する。なお、最大計算時間を予め定めておいて、この最大計算時間を終了条件としてもよい。
繰り返し回数Nが目標回数Nmaxに達しておらず、終了条件に到達していないと判定した場合(ステップS108において「NO」の場合)、支援サーバ20の制御部21は、繰り返し回数Nに「1」を加算する。そして、所定数の変数の削除処理(ステップS102)以降の処理を繰り返す。
一方、繰り返し回数Nが目標回数Nmaxに一致しており、終了条件に到達したと判定した場合(ステップS108において「YES」の場合)、支援サーバ20の制御部21は、最も精度の良い変数の組み合わせの出力処理を実行する(ステップS109)。具体的には、制御部21の選択部211は、メモリに仮記憶された変数組において、予測誤差が最も小さい変数組を特定する。そして、選択部211は、特定した変数組を、ユーザ端末10に出力する。
本実施形態によれば、以下のような効果を得ることができる。
(1-1)本実施形態においては、支援サーバ20の制御部21は、所定数の変数の削除処理(ステップS102)、予測誤差の算出処理(ステップS104)、利用変数組に対して予測誤差の割当処理(ステップS105)を実行する。これにより、複数の変数の組み合わせを考慮して、局所解の発生を抑制することができる。
(1-1)本実施形態においては、支援サーバ20の制御部21は、所定数の変数の削除処理(ステップS102)、予測誤差の算出処理(ステップS104)、利用変数組に対して予測誤差の割当処理(ステップS105)を実行する。これにより、複数の変数の組み合わせを考慮して、局所解の発生を抑制することができる。
(1-2)本実施形態においては、支援サーバ20の制御部21は、各変数について予測誤差の平均値の算出処理(ステップS106)、予測誤差が大きい変数の削除処理(ステップS107)を実行する。これにより、統計的に誤差が大きい変数を削除することができる。すなわち、各変数の平均予測誤差は、各変数の有効性が反映されていると考えられる。Hebb則のように、学習を繰り返すことにより、有効な変数の組み合わせを強調させることができる。
ここで、32次元の学習データ(2クラス分類)を人工的に生成して検証した。32個の選択変数を用いたサポートベクターマシン(SVM)の予測誤差は、「0.246」であった。また、ステップワイズ法及びSVMを用いた場合、選択変数は11個になり、予測誤差は、「0.141」であった。更に、上記実施形態及びSVMを用いた場合、選択変数は9個になり、予測誤差は、「0.137」となり、ステップワイズ法よりもよい精度を得ることができた。
(第2実施形態)
次に、図6に従って、情報選択システム、情報選択方法及び情報選択プログラムを具体化した第2実施形態を説明する。第1実施形態では、予測誤差をそのまま利用変数に割り当てる方法について説明した。第2実施形態では、各変数の有効性を反映させて割り当てるように変更した構成であり、上記第1実施形態と同様の部分については、同一の符号を付し、その詳細な説明を省略する。
次に、図6に従って、情報選択システム、情報選択方法及び情報選択プログラムを具体化した第2実施形態を説明する。第1実施形態では、予測誤差をそのまま利用変数に割り当てる方法について説明した。第2実施形態では、各変数の有効性を反映させて割り当てるように変更した構成であり、上記第1実施形態と同様の部分については、同一の符号を付し、その詳細な説明を省略する。
図6に示すように、予測誤差の算出処理(ステップS104)の実行後に、支援サーバ20の制御部21は、利用変数の貢献度の算出処理を実行する(ステップS201)。ここでは、利用変数組を用いて算出した精度(予測誤差)に対して、各利用変数の貢献度を算出する。
各変数の貢献度(有効性)を算出するために、自己組織化マップを用いる。このため、支援サーバ20の記憶部22には、生成した自己組織化マップを記録する。この自己組織化マップは、学習処理の実行時に記録される。自己組織化マップは、複数次元空間に配置されたノードと、ノード間を繋ぐパスとから構成される。そして、各パス及び各ノードは年齢に関する情報を保持する。この年齢は、新たな入力データの取得時に「1」だけ増加される。更に、各パス及び各ノードは、活性値に関する情報を保持する。活性値は、各パス及び各ノードの有効性(存在意義)を表す指標である。
図7を用いて、入力変数及び目的変数により各ノードを構成した自己組織化マップを用いて、この貢献度の概念を説明する。ここでは、入力データの5次元の説明変数に対して目的変数を予測する自己組織化マップを想定する。入力データの説明変数を自己組織化マップに適用した場合、ノードn1,n2が勝者ノードと判定する。この場合、最も近いノードの目的変数値を予測値とする。ここで、ノードn1及び入力データの各説明変数の距離D(1,j)と、ノードn2及び入力データの各説明変数の距離D(2,j)との差分「D(1,j)-D(2,j)」を算出する。「j」は説明変数の種類を示す。
差分「D(1,j)-D(2,j)」により、ノードn1に近い説明変数と、ノードn2に近い説明変数とがあることがわかる。ここで、入力データの目的変数値が、ノードn1の説明変数値よりもノードn2の説明変数値の方が好ましい場合、ノードn2の目的変数の方が近いことになる。すなわち、差分が正の説明変数については、予測に良い影響を与えていることを示す。一方、差分が負の説明変数については、予測に悪い影響を与えていることを示す。そこで、この差分を説明変数の貢献度を表わす指標として用いる。
図8のテーブル110に示すように、変数(p1,p3~p6,p8)が選択されて、精度として予測誤差e1を算出した場合を想定する。この場合、予測誤差e1の算出における変数(p1,p3~p6,p8)の貢献度V(i,j)を算出する。
この場合、貢献度V(i,j)を以下の式で計算する。
次に、支援サーバ20の制御部21は、貢献度を考慮した予測誤差の割当処理を実行する(ステップS202)。
図8に示すように、変数(p1,p3~p6,p8)の各貢献度及び予測誤差e1を用いて、各変数の分配値(A2(i,1),A2(i,3)~A2(i,6),A2(i,8),)を割り当てる。
各変数に設定する分配値A2を以下の式で算出する。
図8に示すように、変数(p1,p3~p6,p8)の各貢献度及び予測誤差e1を用いて、各変数の分配値(A2(i,1),A2(i,3)~A2(i,6),A2(i,8),)を割り当てる。
各変数に設定する分配値A2を以下の式で算出する。
(自己組織化マップの作成方法)
次に、図9を用いて、利用変数の貢献度の算出処理(ステップS201)に用いる自己組織化マップの作成処理を説明する。ここでは、ユーザ端末10から入力データを取得する。そして、支援サーバ20の制御部21の選択部211は、入力データを記憶部22に記録する。ここでは、説明変数及び目的変数からなる入力データを用いる。この場合、支援サーバ20の制御部21は、マップを作成しながら、学習の精度を検証する。そして、学習の精度が基準値に達していない場合には、学習のハイパーパラメータである調整係数において、学習の精度が基準値以上の最適値を探す交差検証を実行する。これにより、目的変数の変数値に調整係数を乗算して目的変数の影響を調整する。
次に、図9を用いて、利用変数の貢献度の算出処理(ステップS201)に用いる自己組織化マップの作成処理を説明する。ここでは、ユーザ端末10から入力データを取得する。そして、支援サーバ20の制御部21の選択部211は、入力データを記憶部22に記録する。ここでは、説明変数及び目的変数からなる入力データを用いる。この場合、支援サーバ20の制御部21は、マップを作成しながら、学習の精度を検証する。そして、学習の精度が基準値に達していない場合には、学習のハイパーパラメータである調整係数において、学習の精度が基準値以上の最適値を探す交差検証を実行する。これにより、目的変数の変数値に調整係数を乗算して目的変数の影響を調整する。
(マップ生成処理)
まず、支援サーバ20の制御部21は、入力データの解析処理を実行する(ステップS401)。具体的には、制御部21の評価部212は、入力データD(i)からノードを作成する場合に用いる最大距離dmaxを算出する。ここでは、全データ数Nに対して、ノードの近傍データ数Nn、考慮する勝者数Nwを予め設定しておく。
まず、支援サーバ20の制御部21は、入力データの解析処理を実行する(ステップS401)。具体的には、制御部21の評価部212は、入力データD(i)からノードを作成する場合に用いる最大距離dmaxを算出する。ここでは、全データ数Nに対して、ノードの近傍データ数Nn、考慮する勝者数Nwを予め設定しておく。
図10を用いて、入力データの解析処理(ステップS401)を説明する。
ここでは、まず、支援サーバ20の制御部21は、各データ間の距離の算出処理を実行する(ステップS501)。具体的には、制御部21の評価部212は、すべての2つの入力データD(i)の組み合わせの距離を算出する。
この場合、図11に示すように、各データ間の距離(d12,d13,…,d23,…)を算出した距離テーブル500を作成する。
ここでは、まず、支援サーバ20の制御部21は、各データ間の距離の算出処理を実行する(ステップS501)。具体的には、制御部21の評価部212は、すべての2つの入力データD(i)の組み合わせの距離を算出する。
この場合、図11に示すように、各データ間の距離(d12,d13,…,d23,…)を算出した距離テーブル500を作成する。
次に、支援サーバ20の制御部21は、各データについて、近傍データとの距離の算出処理を実行する(ステップS502)。具体的には、制御部21の評価部212は、距離テーブル500において、距離を昇順に並び替えて、長さがNn番目までの距離を取得する。
次に、支援サーバ20の制御部21は、平均値の算出処理を実行する(ステップS503)。具体的には、制御部21の評価部212は、取得したNn番目までの距離の平均値(統計値)を算出する。そして、この平均値をノード間の最大距離dmaxとして、記憶部22に記録する。
次に、図9に示すように、支援サーバ20の制御部21は、初期化処理を実行する(ステップS402)。ここでは、制御部21の評価部212は、パラメータ、初期ノードを決定する。
図12を用いて、初期化処理(ステップS402)を説明する。ここでは、すべての入力データD(i)をノードとして取り扱う。
まず、支援サーバ20の制御部21は、i=1から、順次、入力データD(i)を処理対象として特定して、以下の処理を繰り返す。
まず、支援サーバ20の制御部21は、i=1から、順次、入力データD(i)を処理対象として特定して、以下の処理を繰り返す。
まず、支援サーバ20の制御部21は、最大距離内の近傍データの特定処理を実行する(ステップS601)。具体的には、制御部21の評価部212は、処理対象の入力データD(i)からの距離が最大距離dmax以内の全ての近傍データを特定する。
次に、支援サーバ20の制御部21は、ノード活性値の計算処理を実行する(ステップS602)。具体的には、制御部21の評価部212は、以下の式により、各近傍データのノード活性値Aw(ni)を計算する。
次に、支援サーバ20の制御部21は、最大距離以上の近傍データの特定処理を実行する(ステップS604)。具体的には、制御部21の評価部212は、処理対象の入力データD(i)からの距離が最大距離dmax以上の他の入力データD(j)を特定する。
次に、支援サーバ20の制御部21は、パス活性値の計算処理を実行する(ステップS605)。具体的には、制御部21の評価部212は、以下の式により、各近傍データ(入力データD(j))のパス活性値As(n1,n2)を計算する。ここで、パスの両端のノードをn1とn2とし、d1はノードn1・データD(j)間の距離、d2はノードn2・データD(j)間の距離である。
以上の処理を、全ての入力データについて繰り返して実行する。
次に、支援サーバ20の制御部21は、初期ノードの設定処理を実行する(ステップS607)。
図13を用いて、初期ノードの設定処理(ステップS607)を説明する。
ここでは、まず、支援サーバ20の制御部21は、ノード活性度のソート処理を実行する(ステップS701)。具体的には、制御部21の評価部212は、ノード活性度Arate_W(i)の高い順に入力データD(i)を並び替える。
ここでは、まず、支援サーバ20の制御部21は、ノード活性度のソート処理を実行する(ステップS701)。具体的には、制御部21の評価部212は、ノード活性度Arate_W(i)の高い順に入力データD(i)を並び替える。
次に、支援サーバ20の制御部21は、ノード候補の特定処理を実行する(ステップS702)。具体的には、制御部21の評価部212は、活性度の高い入力データD(i)を、ノード候補として、順次、特定する。
次に、支援サーバ20の制御部21は、最大距離未満かどうかについての判定処理を実行する(ステップS703)。具体的には、制御部21の評価部212は、ノード候補と既登録のノードとの距離を算出し、最大距離dmaxと比較する。
既登録のノードとの距離が最大距離以上と判定した場合(ステップS702において「NO」の場合)、支援サーバ20の制御部21は、初期ノードの追加処理を実行する(ステップS704)。具体的には、制御部21の評価部212は、ノード候補を新規ノードとして追加し、記憶部22に記録する。
一方、既登録のノードとの距離が最大距離未満と判定した場合(ステップS703において「YES」の場合)、支援サーバ20の制御部21は、初期ノードの追加処理(ステップS704)をスキップする。
次に、支援サーバ20の制御部21は、終了かどうかについての判定処理を実行する(ステップS705)。具体的には、制御部21の評価部212は、活性度が最も低い入力データD(i)について処理を終了した場合、終了と判定する。
終了でないと判定した場合(ステップS705において「NO」の場合)、支援サーバ20の制御部21は、ノード候補の特定処理(ステップS702)以降の処理を繰り返す。
一方、終了と判定した場合(ステップS705において「YES」の場合)、支援サーバ20の制御部21は、初期ノードの設定処理(ステップS607)を終了する。
一方、終了と判定した場合(ステップS705において「YES」の場合)、支援サーバ20の制御部21は、初期ノードの設定処理(ステップS607)を終了する。
次に、図12に示すように、支援サーバ20の制御部21は、削除閾値の設定処理を実行する(ステップS608)。
図14を用いて、削除閾値の設定処理(ステップS608)を説明する。
ここでは、支援サーバ20の制御部21は、ノード活性度のソート処理を実行する(ステップS801)。具体的には、制御部21の評価部212は、ノード活性度Arate_W(i)を降順に並べ替える。
ここでは、支援サーバ20の制御部21は、ノード活性度のソート処理を実行する(ステップS801)。具体的には、制御部21の評価部212は、ノード活性度Arate_W(i)を降順に並べ替える。
次に、支援サーバ20の制御部21は、ノード削除閾値の特定処理を実行する(ステップS802)。具体的には、制御部21の評価部212は、指定順位(Ndw)のノード活性度Arate_W(i)の値をノード削除閾値として特定し、記憶部22に記録する。
次に、支援サーバ20の制御部21は、パス活性度のソート処理を実行する(ステップS803)。具体的には、制御部21の評価部212は、パス活性度Arate_S(i,j)を降順に並べ替える。
次に、支援サーバ20の制御部21はパス削除閾値の特定処理を実行する(ステップS804)。具体的には、制御部21の評価部212は、指定順位(Nds)のパス活性度Arate_S(i,j)をパス削除閾値として特定し、記憶部22に記録する。
次に、図9に示すように、オンライン学習処理を実行する。この処理は、オンラインで新たな入力データD(i)を取得した場合に行なわれる。ここでは、「i=1~M」とする。
まず、支援サーバ20の制御部21は、勝者ノード及び距離の特定処理を実行する(ステップS403)。具体的には、制御部21の評価部212は、記憶部22に記録された自己組織化マップを構成するノード(既存ノード)の中で、近接ノードとして、N個のノード(第1勝者~第N勝者)を特定する。ここでは、評価部212は、新たに取得した入力データD(i)の位置が近い順番にN個のノード(第1勝者~第N勝者)を特定する。そして、評価部212は、入力データD(i)と各勝者(第1勝者~第N勝者)との各距離(d1~dn)を算出する。
図15(a)では、2個の勝者(第1勝者n1,第2勝者n2)を特定して、入力データD(i)からの各距離d1,d2を算出する。
図15(a)では、2個の勝者(第1勝者n1,第2勝者n2)を特定して、入力データD(i)からの各距離d1,d2を算出する。
次に、支援サーバ20の制御部21は、最大距離より遠いかどうかについての判定処理を実行する(ステップS404)。具体的には、制御部21の評価部212は、最寄りのノードとの距離d1と最大距離dmaxとを比較する。
距離d1が最大距離より遠い場合(ステップS404において「YES」の場合)、支援サーバ20の制御部21は、新規ノードの追加処理を実行する(ステップS405)。具体的には、制御部21の評価部212は、入力データD(i)を新規ノードとして記憶部22に記録する。
図15(b)では、ノードn1,n2をそれぞれノードn2,n3として、入力データD(i)をノードn1として追加している。
図15(b)では、ノードn1,n2をそれぞれノードn2,n3として、入力データD(i)をノードn1として追加している。
次に、支援サーバ20の制御部21は、ノード及びパスの情報初期化処理を実行する(ステップS406)。具体的には、制御部21の評価部212は、年齢と活性値とを初期化する。
図15(b)に示すように、以下の式により、各ノードの情報を初期化する。ここでは、ノードn1について、初期化する。
また、ノードn1,n2のパスの情報を更新する。
次に、支援サーバ20の制御部21は、ノード位置、パス活性値の更新処理を実行する(ステップS408)。
具体的には、図15(c)に示すように、制御部21の評価部212は、以下の式によりノード位置を更新する。
更に、評価部212は、以下の式によりパス活性値Asを更新する。
次に、支援サーバ20の制御部21は、ノード活性度、パス活性度の算出処理を実行する(ステップS410)。具体的には、制御部21の評価部212は、以下の式によりノード活性度Arate_wを算出する。
次に、支援サーバ20の制御部21は、終了かどうかについての判定処理を実行する(ステップS412)。具体的には、制御部21の評価部212は、「i=M」の場合に、すべての入力データについて終了と判定する。
この場合には、オンライン学習処理を終了する。
一方、終了でないと判定した場合(ステップS412において「NO」の場合)、支援サーバ20の制御部21は、「i=i+1」としてステップS403以降の処理を繰り返す。
一方、終了でないと判定した場合(ステップS412において「NO」の場合)、支援サーバ20の制御部21は、「i=i+1」としてステップS403以降の処理を繰り返す。
以上、本実施形態によれば、上記(1-1)、(1-2)と同様の効果に加えて、以下に示す効果を得ることができる。
(2-1)本実施形態では、支援サーバ20の制御部21は、利用変数の貢献度の算出処理(ステップS201)、貢献度を考慮した予測誤差の割当処理(ステップS202)を実行する。変数組から生じる予測誤差において、各変数の影響は異なるので、自己組織化マップの各ノードの貢献度で、変数の重み付けを行なうことができる。そして、この重み付けにより、予測誤差を各変数に割り当てることができる。
(2-1)本実施形態では、支援サーバ20の制御部21は、利用変数の貢献度の算出処理(ステップS201)、貢献度を考慮した予測誤差の割当処理(ステップS202)を実行する。変数組から生じる予測誤差において、各変数の影響は異なるので、自己組織化マップの各ノードの貢献度で、変数の重み付けを行なうことができる。そして、この重み付けにより、予測誤差を各変数に割り当てることができる。
(2-2)本実施形態では、支援サーバ20の制御部21は、入力データの解析処理を実行する(ステップS401)。これにより、目的変数及び説明変数を含めた入力データを用いて、自己組織化マップを作成することができる。そして、自己組織化マップを用いた距離の計算により予測できるので、予測結果の説明性が高い。
(2-3)本実施形態では、支援サーバ20の制御部21は、自己組織化マップの作成時に、説明変数と目的変数とを調整する。これにより、説明変数と目的変数とをバランスさせた自己組織化マップを生成することができる。
(2-3)本実施形態では、支援サーバ20の制御部21は、自己組織化マップの作成時に、説明変数と目的変数とを調整する。これにより、説明変数と目的変数とをバランスさせた自己組織化マップを生成することができる。
(第3実施形態)
次に、図16に従って、情報選択システム、情報選択方法及び情報選択プログラムを具体化した第3実施形態を説明する。第2実施形態では、教師あり学習について説明した。第3実施形態では、検証用データを用いて、ノード位置を調整するように変更した構成であり、上記第2実施形態と同様の部分については、同一の符号を付し、その詳細な説明を省略する。学習時に、説明変数と目的変数をカップリングして、自己組織化マップを作成する。
次に、図16に従って、情報選択システム、情報選択方法及び情報選択プログラムを具体化した第3実施形態を説明する。第2実施形態では、教師あり学習について説明した。第3実施形態では、検証用データを用いて、ノード位置を調整するように変更した構成であり、上記第2実施形態と同様の部分については、同一の符号を付し、その詳細な説明を省略する。学習時に、説明変数と目的変数をカップリングして、自己組織化マップを作成する。
例えば、検証用データの説明変数値を用いた予測結果において、ノードn1を予測した場合を想定する。そして、ノードn1の目的変数値よりも、ノードn2の目的変数値の方が、検証用データの目的変数値(正解)に近い場合を想定する。この場合、説明変数の各次元の距離d(ノード寄与値)を比較することで、悪影響を与えている次元を特定することができる。
図16を用いて、マップ調整処理を説明する。
ここでは、ノード毎、検証用データ毎に以下の処理を繰り返す。
まず、支援サーバ20の制御部21は、検証用データについて、予測値の算出処理を実行する(ステップS901)。具体的には、制御部21の評価部212は、検証用データの説明変数値を、自己組織化マップに入力して、最も近接するノード(最近接ノード)を特定する。そして、評価部212は、最近接ノードの目的変数値を予測値として取得する。
ここでは、ノード毎、検証用データ毎に以下の処理を繰り返す。
まず、支援サーバ20の制御部21は、検証用データについて、予測値の算出処理を実行する(ステップS901)。具体的には、制御部21の評価部212は、検証用データの説明変数値を、自己組織化マップに入力して、最も近接するノード(最近接ノード)を特定する。そして、評価部212は、最近接ノードの目的変数値を予測値として取得する。
次に、支援サーバ20の制御部21は、ノード寄与値の算出処理を実行する(ステップS902)。具体的には、制御部21の評価部212は、以下の差分を用いてノード寄与値dAi,jを算出する。
次に、支援サーバ20の制御部21は、移動ベクトルの平均ベクトルの算出処理を実行する(ステップS904)。具体的には、制御部21の評価部212は、以下の式を用いて移動ベクトルdVi,meanを算出する。
次に、支援サーバ20の制御部21は、移動ベクトルを用いてノード調整処理を実行する(ステップS905)。具体的には、制御部21の評価部212は、調整係数を乗算した移動ベクトルdVi,meanを用いて、ノードを移動させる。
次に、支援サーバ20の制御部21は、精度の算出処理を実行する(ステップS906)。具体的には、制御部21の評価部212は、検証用データの説明変数を、調整した自己組織化マップに入力して、目的変数値を予測する。そして、評価部212は、予測した目的変数値と、検証用データの目的変数とを比較して、正解の割合(精度)を算出する。
次に、支援サーバ20の制御部21は、収束かどうかについての判定処理を実行する(ステップS907)。具体的には、制御部21の予測部213は、先行作成のマップの精度と今回作成のマップの精度とを比較する。そして、精度が向上している場合には、収束していないと判定する。なお、収束判定は、精度向上の有無に限定されるものではない。例えば、精度向上が所定範囲内の場合に、収束と判定してもよい。
精度が向上しており、収束でないと判定した場合(ステップS907において「NO」の場合)、支援サーバ20の制御部21は、今回作成のマップの精度を初期精度として設定して、ステップS901以降の処理を繰り返す。
一方、精度が向上しておらず、収束と判定した場合(ステップS907において「YES」の場合)、支援サーバ20の制御部21は、マップ調整処理を終了する。
一方、精度が向上しておらず、収束と判定した場合(ステップS907において「YES」の場合)、支援サーバ20の制御部21は、マップ調整処理を終了する。
以上、本実施形態によれば、上記(1-1)、(1-2)、(2-1)~(2-3)と同様の効果に加えて、以下に示す効果を得ることができる。
(3-1)本実施形態では、支援サーバ20の制御部21は、ノード寄与値の算出処理を実行する(ステップS902)。これにより、ノード寄与値に応じて、予測失敗の原因を分析することができる。すなわち、各次元における「検証用データと正解ノードとの距離」と「検証用データと不正解ノード」との大小関係により、予測に良い影響を与えるノードと予測に悪影響を与えるノードとを識別できる。
(3-2)本実施形態では、支援サーバ20の制御部21は、移動ベクトルの計算処理を実行する(ステップS903)。これにより、予測失敗の原因となったノードを移動させて、自己組織化マップを改善できる。
本実施形態は、以下のように変更して実施することができる。本実施形態及び以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。
・上記第1実施形態では、支援サーバ20の制御部21は、所定数の変数の削除処理を実行する(ステップS102)。削除対象として、2個の変数を特定するが、複数種類の変数を削除対象として特定すればよく、2個に限定されない。
・上記第1実施形態では、支援サーバ20の制御部21は、所定数の変数の削除処理(ステップS102)、予測誤差の算出処理(ステップS104)を実行する。ここでは、複数の説明変数の中で、所定数の変数を削除することにより、一部の変数からなる教師データを用いて、解析モデルを作成する。ここで、複数の教師データからなる情報において、順次、一部の情報を用いて、複数の解析モデルを生成できれば、削除対象は変数に限定されない。例えば、所定数の教師データを削除して生成したデータセット(複数の教師データの一部)を用いて、解析モデルを生成してもよい。
・上記第1実施形態では、情報処理として機械学習を行なうが、解析モデルを生成するものであれば、機械学習に限定されない。
・上記第1実施形態では、オンライン学習処理を実行する。自己組織化マップを生成できれば、オンライン処理に限定されるものではなく、バッチ処理によって生成した自己組織化マップを用いて、クラスタリングを行なうようにしてもよい。
・上記第1実施形態では、支援サーバ20の制御部21は、所定数の変数の削除処理を実行する(ステップS102)。削除対象として、2個の変数を特定するが、複数種類の変数を削除対象として特定すればよく、2個に限定されない。
・上記第1実施形態では、支援サーバ20の制御部21は、所定数の変数の削除処理(ステップS102)、予測誤差の算出処理(ステップS104)を実行する。ここでは、複数の説明変数の中で、所定数の変数を削除することにより、一部の変数からなる教師データを用いて、解析モデルを作成する。ここで、複数の教師データからなる情報において、順次、一部の情報を用いて、複数の解析モデルを生成できれば、削除対象は変数に限定されない。例えば、所定数の教師データを削除して生成したデータセット(複数の教師データの一部)を用いて、解析モデルを生成してもよい。
・上記第1実施形態では、情報処理として機械学習を行なうが、解析モデルを生成するものであれば、機械学習に限定されない。
・上記第1実施形態では、オンライン学習処理を実行する。自己組織化マップを生成できれば、オンライン処理に限定されるものではなく、バッチ処理によって生成した自己組織化マップを用いて、クラスタリングを行なうようにしてもよい。
・上記第1実施形態では、支援サーバ20の制御部21は、入力データの解析処理を実行(ステップS401)において、最大距離dmaxを算出する。ここで、最大距離dmaxは、入力データを代表する統計値であれば、算出方法は限定されない。また、最大距離dmaxの初期値を予め設定しておき、入力データ数の増加に応じて再計算してもよい。
・第2実施形態において、支援サーバ20の制御部21は、自己組織化マップを用いる。具体的には、制御部21の評価部212は、入力データの説明変数の変数値に最も近いノードを特定する。ここで、最も近いノードn1に接続する複数のノードを用いて、回帰で目的変数を予測してもよい。
この場合、最も近いノードn1にパスにより接続している他のノードを利用して、複数のノードを特定してもよい。
この場合、最も近いノードn1にパスにより接続している他のノードを利用して、複数のノードを特定してもよい。
・上記第3実施形態では、ノード寄与値を用いてノード位置を調整する。ここで、パスの寄与値に基づいて、調整するようにしてもよい。例えば、検証用データの説明変数値を用いて予測したノードn1の目的変数値よりも、ノードn2の目的変数値の方が、検証用データの目的変数値(正解)に近い場合を想定する。この場合、説明変数の各次元の距離Dを比較することで、悪影響を与えている次元を特定する。
図17を用いて、マップ調整処理を説明する。
ここでは、検証用データ毎に以下の処理を繰り返す。
次に、支援サーバ20の制御部21は、ステップS901と同様に、検証用データについて、予測値の算出処理を実行する(ステップSX01)。
ここでは、検証用データ毎に以下の処理を繰り返す。
次に、支援サーバ20の制御部21は、ステップS901と同様に、検証用データについて、予測値の算出処理を実行する(ステップSX01)。
次に、支援サーバ20の制御部21は、ステップS902と同様に、ノード寄与値の算出処理を実行する(ステップSX02)。
次に、支援サーバ20の制御部21は、パス寄与値の算出処理を実行する(ステップSX03)。具体的には、制御部21の評価部212は、以下の差分を用いてパス寄与値dAk,lを算出する。
次に、支援サーバ20の制御部21は、パス寄与値の算出処理を実行する(ステップSX03)。具体的には、制御部21の評価部212は、以下の差分を用いてパス寄与値dAk,lを算出する。
次に、支援サーバ20の制御部21は、ノードの寄与値の合計処理を実行する(ステップSX04)。具体的には、制御部21の評価部212は、以下の式を用いてノードの寄与値の合計dASiを算出する。
次に、支援サーバ20の制御部21は、悪影響ノード、パスの削除処理を実行する(ステップSX07)。具体的には、制御部21の評価部212は、特定した悪影響ノード及び悪影響パスを削除する。
ノードの寄与値の合計dASiが正の場合や、パスの寄与値の合計dASkが正の場合、予測に悪影響を与える可能性が高い。そこで、ノードの寄与値やパスの寄与値に応じて、影響を与えるノードやパスを削除することができる。
・上記第2実施形態では、各パス及び各ノードは年齢に関する情報を保持させた自己組織化マップを用いた。学習中に必要に応じてニューロンを増殖させる学習手法として、進化型自己組織化マップ(ESOM:Evolving SOM)を用いることも可能である。更に、自己増殖型ニューラルネットワーク(SOINN:Self-Organizing Incremental Neural Network)を用いることも可能である。このSOINNは、Growing Neural Gas(GNG)と自己組織化マップ(SOM)を拡張した追加学習可能なオンライン教師なし学習手法である。具体的には、動的に形状が変化する非定常で、かつ複雑な形状を持つ分布からオンラインで得られる入力に対して、ネットワークを自己組織的に形成し、適切なクラス数と入力分布の位相構造を出力する。
図18を用いて、このESOMのオンライン学習処理を説明する。
まず、支援サーバ20の制御部21は、初期ノードを設定する(ステップSX11)。具体的には、入力データD(i)(i=1~M)の中からランダムに2個を選択し、初期ノードと設定する。この場合、データインデックスi=1とする。
まず、支援サーバ20の制御部21は、初期ノードを設定する(ステップSX11)。具体的には、入力データD(i)(i=1~M)の中からランダムに2個を選択し、初期ノードと設定する。この場合、データインデックスi=1とする。
次に、支援サーバ20の制御部21は、勝者ノードを決定する(ステップSX12)。
ここでは、図19(a)に示すように、D(i)に最も近いノードn1(第1勝者、距離d1)と2番目に近いノードn2(第2勝者、距離d2)を求める。
ここでは、図19(a)に示すように、D(i)に最も近いノードn1(第1勝者、距離d1)と2番目に近いノードn2(第2勝者、距離d2)を求める。
次に、支援サーバ20の制御部21は、第1勝者までの距離d1が基準距離より長いかどうかを判定する(ステップSX13)。
距離d1が基準距離よりも長い場合(ステップSX13において「YES」の場合)には、支援サーバ20の制御部21は、D(i)をノードに更新する(ステップSX14)。そして、勝者ノードに基づいて、n1をn2に,D(i)をn1に、n2をn3に更新する。更に、パスの活性値の初期化(As(n1,:)=0)を行なう。
図19(b)に示すように、新たなノードn1を生成する。
距離d1が基準距離よりも長い場合(ステップSX13において「YES」の場合)には、支援サーバ20の制御部21は、D(i)をノードに更新する(ステップSX14)。そして、勝者ノードに基づいて、n1をn2に,D(i)をn1に、n2をn3に更新する。更に、パスの活性値の初期化(As(n1,:)=0)を行なう。
図19(b)に示すように、新たなノードn1を生成する。
一方、距離d1が基準距離以下の場合(ステップSX13において「NO」の場合)には、支援サーバ20の制御部21は、ノード位置及びパス活性値を更新する(ステップSX15)。
具体的には、図19(c)に示すように、D(i)とn1,n2の距離に応じた活性値a1,a2を求める。
次に、支援サーバ20の制御部21は、終了かどうかを判定する(ステップSX17)。ここで、i=Mの場合(ステップSX17において「YES」の場合)には、支援サーバ20の制御部21は、オンライン学習処理を終了する。一方、i≠Mの場合(ステップSX17において「NO」の場合)には、支援サーバ20の制御部21は、「i=i+1」として、ステップSX12以降の処理を繰り返す。
・上記第2実施形態では、支援サーバ20の制御部21は、利用変数の貢献度の算出処理(ステップS201)、貢献度を考慮した予測誤差の割当処理(ステップS202)を実行する。ここで、「dDi,k(l,j)」の正と負の寄与値を等しくするため、「dDi,k(l,j)」の符号で処理を分けてもよい。例えば、正が少なく、負が多い場合、処理を分けずに計算すると、正データの寄与値が少なく見積もられる可能性がある。ここで、正負により処理を分けることにより、寄与値は等しく計算される。
このため、「dDi,k(i,j)>0」の場合には、ノードn1がノードn2より正解から遠い変数の集計を行なうために以下の式を用いる。
一方、「dDi,k(i,j)<0」の場合には、ノードn1がノードn2より正解から遠い変数の集計を行なうために以下の式を用いる。
以下では、dDi,k(l,j)の符号で処理を分ける理由について説明する。
図20には、i番目の試行、k番目のデータにおける「-ddAi,k(l)dDi,k(l,j)」の一例を示す。ここで、「-ddAi,k(l)dDi,k(l,j)>0」となる次元lの部分集合をl1、「-ddAi,k(l)dDi,k(l,j)<0」となる次元lの部分集合をl2とする。
部分集合l1の数が部分集合l2に比べて極端に少ない場合を想定する。これは、有効な変数が、全体の変数に比べて非常に少ない場合に相当する。
このような場合、抽出した有効な部分集合l1の貢献度が、部分集合l2が多いために、非常に小さくなってしまう。
このような場合、抽出した有効な部分集合l1の貢献度が、部分集合l2が多いために、非常に小さくなってしまう。
dDi,k(l,j)の符号で正規化を分ければ、「部分集合l1の貢献度の合計」=-「部分集合l2の貢献度の合計」となり、抽出できた有効な変数l1の貢献度を強調することができる。
10…ユーザ端末、20…支援サーバ、21…制御部、211…選択部、212…評価部、22…記憶部。
Claims (8)
- 解析モデルの生成に用いる情報を選択する制御部を備えた情報選択システムであって、
前記制御部が、
複数の教師データからなる情報において、一部の情報を用いて、複数の解析モデルを生成し、前記各解析モデルの精度を算出し、
前記各精度に応じた分配値を、前記解析モデルの生成に用いた情報に割り当て、
前記解析モデルの生成に用いた情報毎に、前記分配値の統計値を算出し、
前記統計値を用いて、解析モデルの生成に用いる情報を選択することを特徴とする情報選択システム。 - 前記制御部が、前記解析モデルの生成に用いる情報として、前記教師データを構成する説明変数の中で、前記解析モデルの生成に用いる変数を選択することを特徴とする請求項1に記載の情報選択システム。
- 前記制御部が、
前記教師データとして、説明変数値と目的変数値とを組み合わせたデータセットを用いて生成した自己組織化マップに対して、検証用データの説明変数値を入力して、前記説明変数値を予測し、
前記検証用データの説明変数値と、前記予測した説明変数値とを比較して、前記各説明変数の寄与値を算出し、
前記寄与値を用いて、前記各精度に応じた分配値を算出することを特徴とする請求項2に記載の情報選択システム。 - 前記制御部が、
前記教師データの説明変数を用いた予測において、目的変数の予測結果に対する寄与値を算出し、
前記寄与値に基づいて、前記各精度に応じた分配値を、前記各説明変数に割り当てることを特徴とする請求項2又は3に記載の情報選択システム。 - 前記制御部が、
目的変数と説明変数とを含む教師データを用いて、前記解析モデルとして、ノード及びパスからなる自己組織化マップを生成し、
前記自己組織化マップにおいて、前記教師データの前記説明変数に対して予測された目的変数の前記予測結果から、各寄与値を算出することを特徴とする請求項4に記載の情報選択システム。 - 前記制御部が、前記解析モデルの生成に用いる情報として、前記複数の教師データの中で、前記解析モデルの生成に用いる教師データを選択することを特徴とする請求項1記載の情報選択システム。
- 制御部を備えた情報選択システムを用いて、解析モデルの生成に用いる情報を選択する方法であって、
前記制御部が、
複数の教師データからなる情報において、一部の情報を用いて、複数の解析モデルを生成し、前記各解析モデルの精度を算出し、
前記各精度に応じた分配値を、前記解析モデルの生成に用いた情報に割り当て、
前記解析モデルの生成に用いた情報毎に、前記分配値の統計値を算出し、
前記統計値を用いて、解析モデルの生成に用いる情報を選択することを特徴とする情報選択方法。 - 制御部を備えた情報選択システムを用いて、解析モデルの生成に用いる情報を選択するためのプログラムであって、
前記制御部を、
複数の教師データからなる情報において、一部の情報を用いて、複数の解析モデルを生成し、前記各解析モデルの精度を算出し、
前記各精度に応じた分配値を、前記解析モデルの生成に用いた情報に割り当て、
前記解析モデルの生成に用いた情報毎に、前記分配値の統計値を算出し、
前記統計値を用いて、解析モデルの生成に用いる情報を選択する手段として機能させるための情報選択プログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022002565A JP7263567B1 (ja) | 2022-01-11 | 2022-01-11 | 情報選択システム、情報選択方法及び情報選択プログラム |
CN202280087987.8A CN118511171A (zh) | 2022-01-11 | 2022-12-26 | 信息选择系统、信息选择方法及信息选择程序 |
PCT/JP2022/047953 WO2023136118A1 (ja) | 2022-01-11 | 2022-12-26 | 情報選択システム、情報選択方法及び情報選択プログラム |
JP2023064309A JP7488391B2 (ja) | 2022-01-11 | 2023-04-11 | 情報選択システム、情報選択方法及び情報選択プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022002565A JP7263567B1 (ja) | 2022-01-11 | 2022-01-11 | 情報選択システム、情報選択方法及び情報選択プログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023064309A Division JP7488391B2 (ja) | 2022-01-11 | 2023-04-11 | 情報選択システム、情報選択方法及び情報選択プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7263567B1 JP7263567B1 (ja) | 2023-04-24 |
JP2023102156A true JP2023102156A (ja) | 2023-07-24 |
Family
ID=86054466
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022002565A Active JP7263567B1 (ja) | 2022-01-11 | 2022-01-11 | 情報選択システム、情報選択方法及び情報選択プログラム |
JP2023064309A Active JP7488391B2 (ja) | 2022-01-11 | 2023-04-11 | 情報選択システム、情報選択方法及び情報選択プログラム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023064309A Active JP7488391B2 (ja) | 2022-01-11 | 2023-04-11 | 情報選択システム、情報選択方法及び情報選択プログラム |
Country Status (3)
Country | Link |
---|---|
JP (2) | JP7263567B1 (ja) |
CN (1) | CN118511171A (ja) |
WO (1) | WO2023136118A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05233011A (ja) * | 1992-02-18 | 1993-09-10 | Nippon Telegr & Teleph Corp <Ntt> | 独立要因抽出法 |
WO2019207910A1 (ja) * | 2018-04-24 | 2019-10-31 | 株式会社日立ソリューションズ | データ分析システム及びデータ分析方法 |
JP2021039612A (ja) * | 2019-09-04 | 2021-03-11 | 株式会社Uacj | 情報処理装置、情報処理方法、および情報処理プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5233011B2 (ja) | 2008-04-30 | 2013-07-10 | 株式会社前川製作所 | 超電導限流器 |
JP2020140521A (ja) | 2019-02-28 | 2020-09-03 | 富士通株式会社 | 人的判断の予測装置、予測プログラム及び予測方法 |
-
2022
- 2022-01-11 JP JP2022002565A patent/JP7263567B1/ja active Active
- 2022-12-26 CN CN202280087987.8A patent/CN118511171A/zh active Pending
- 2022-12-26 WO PCT/JP2022/047953 patent/WO2023136118A1/ja unknown
-
2023
- 2023-04-11 JP JP2023064309A patent/JP7488391B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05233011A (ja) * | 1992-02-18 | 1993-09-10 | Nippon Telegr & Teleph Corp <Ntt> | 独立要因抽出法 |
WO2019207910A1 (ja) * | 2018-04-24 | 2019-10-31 | 株式会社日立ソリューションズ | データ分析システム及びデータ分析方法 |
JP2021039612A (ja) * | 2019-09-04 | 2021-03-11 | 株式会社Uacj | 情報処理装置、情報処理方法、および情報処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
CN118511171A (zh) | 2024-08-16 |
WO2023136118A1 (ja) | 2023-07-20 |
JP7488391B2 (ja) | 2024-05-21 |
JP2023102292A (ja) | 2023-07-24 |
JP7263567B1 (ja) | 2023-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tawhid et al. | Feature selection based on rough set approach, wrapper approach, and binary whale optimization algorithm | |
US10068186B2 (en) | Model vector generation for machine learning algorithms | |
JP6965206B2 (ja) | クラスタリング装置、クラスタリング方法およびプログラム | |
JP2015095212A (ja) | 識別器、識別プログラム、及び識別方法 | |
Saini et al. | A novel approach towards K-mean clustering algorithm with PSO | |
JP7473511B2 (ja) | 学習装置、学習方法および学習プログラム | |
JP6172317B2 (ja) | 混合モデル選択の方法及び装置 | |
JP7481902B2 (ja) | 管理計算機、管理プログラム、及び管理方法 | |
Demidova et al. | Application of chaotic Fish School Search optimization algorithm with exponential step decay in neural network loss function optimization | |
Yamany et al. | Multi-objective cuckoo search optimization for dimensionality reduction | |
Balakrishnan et al. | A novel control factor and Brownian motion-based improved Harris Hawks Optimization for feature selection | |
JP2023177389A (ja) | 計算プログラム、計算方法および情報処理装置 | |
JP7263567B1 (ja) | 情報選択システム、情報選択方法及び情報選択プログラム | |
Kim et al. | Tweaking deep neural networks | |
JP7136217B2 (ja) | 決定リスト学習装置、決定リスト学習方法および決定リスト学習プログラム | |
WO2021059527A1 (ja) | 学習装置、学習方法、及び、記録媒体 | |
Kwegyir et al. | Modified local leader phase spider monkey optimization algorithm | |
JP7314328B1 (ja) | 学習システム、学習方法及び学習プログラム | |
JP7341195B2 (ja) | 分類装置、分類方法および分類プログラム | |
Pal et al. | Clustering based online automatic objective reduction to aid many-objective optimization | |
JP7359493B2 (ja) | ハイパーパラメータ調整装置、ハイパーパラメータ調整プログラムを記録した非一時的な記録媒体、及びハイパーパラメータ調整プログラム | |
Punjabi et al. | Enhancing Performance of Lazy Learner by Means of Binary Particle Swarm Optimization | |
Atsawaraungsuk et al. | Identity activation structural tolerance online sequential circular extreme learning machine for highly dimensional data. | |
Türkşen et al. | Comparison of multi-objective algorithms applied to feature selection | |
Baruque et al. | All Action Updates for Reinforcement Learning with Costly Features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230322 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230412 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7263567 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |