JP2023102156A

JP2023102156A - 情報選択システム、情報選択方法及び情報選択プログラム

Info

Publication number: JP2023102156A
Application number: JP2022002565A
Authority: JP
Inventors: 毅永田; Takeshi Nagata; 康亮竹田; Kosuke Takeda; 秀正前川; Hidemasa Maekawa; 千博世古; Chihiro SEKO; 拓小泉; Hiroshi Koizumi; 麻紀子水谷; Makiko Mizutani; 裕也根本; Yuya Nemoto; 大樹橋本; Daiki Hashimoto; 悠史森; Yuji Mori; 勇樹玉垣; Yuki TAMAGAKI
Original assignee: Mizuho Research and Technologies Ltd
Current assignee: Mizuho Research and Technologies Ltd
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2023-07-24
Anticipated expiration: 2042-01-11
Also published as: CN118511171A; WO2023136118A1; JP7488391B2; JP2023102292A; JP7263567B1

Abstract

【課題】情報処理に用いる情報を効率的に的確に選択するための情報選択システム、情報選択方法及び情報選択プログラムを提供する。【解決手段】支援サーバ２０の制御部２１が、複数の教師データからなる情報において、一部の情報を用いて、複数の解析モデルを生成し、各解析モデルの精度を算出し、各精度に応じた分配値を、解析モデルの生成に用いた情報に割り当て、解析モデルの生成に用いた情報毎に、分配値の統計値を算出し、統計値を用いて、解析モデルの生成に用いる情報を選択する。【選択図】図１

Description

本開示は、情報処理に用いる情報を選択するための情報選択システム、情報選択方法及び情報選択プログラムに関する。

学習処理を行なう場合、学習に用いる変数を選択するためにステップワイズ法を利用することがある。ステップワイズ法は、逐次的に１つずつ、変数を追加あるいは削除していく手法である（例えば、特許文献１を参照。）。この文献に記載された技術は、プロセスの状態予測方法において、重回帰モデルを構成する説明変数を、プロセスの操業状態を示す複数のプロセス変数の時刻歴データが蓄積された時系列データベースから選定する。この場合、ステップワイズ法により説明変数を絞り込んだ後、絞り込まれた説明変数の偏回帰係数の正負をチェックし、実現象と逆の作用を示す説明変数を除外する。

ここで、図２１～図２４を用いて、ステップワイズ法の中で、全変数を選択した状態からスタートし、１つずつ変数を削除していく変数減少法を説明する。
図２１に示すように、まず、全変数を選択して精度の計算を行なう（ステップＳ０１）。例えば、変数ｐ１～ｐ４を用いる場合、すべての変数（ｐ１～ｐ４）を用いて、回帰式を算出する。そして、この回帰式の精度として、平均絶対誤差（ＭＡＥ）である予測誤差ｅ０を算出する。

次に、変数を削除した組み合わせの精度の計算を行なう（ステップＳ０２）。
図２２のテーブル７００に示すように、変数（ｐ１～ｐ４）を用いる場合、一つずつ削除した変数の組み合わせを用いて、回帰式を算出する。例えば、変数（ｐ２～ｐ４）を用いた回帰式の精度として予測誤差ｅ１１を算出し、変数（ｐ１，ｐ３，ｐ４）を用いた回帰式の精度として予測誤差ｅ１２を算出する。また、変数（ｐ１，ｐ２，ｐ４）を用いた回帰式の精度として予測誤差ｅ１３を算出し、変数（ｐ１～ｐ３）を用いた回帰式の精度として予測誤差ｅ１４を算出する。

次に、精度に応じて変数の削除を行なう（ステップＳ０３）。ここでは、最も精度が良かった組み合わせを用いて、変数（平均絶対誤差が最も小さい変数）を削除する。すなわち、特定の変数を用いないときの平均絶対誤差が小さくなる場合に、この特定の変数を削除する。図２２の予測誤差ｅ１１～ｅ１４の中で予測誤差ｅ１２が最も小さい場合、図２３のテーブル７０１に示すように、変数ｐ２を削除する。

次に、終了かどうかについての判定を行なう（ステップＳ０４）。例えば、残っている変数が２の場合には終了と判定する。終了と判定した場合（ステップＳ０４において「ＹＥＳ」の場合）、最も精度の良い変数の組み合わせを最終結果として特定する。
一方、終了でないと判定した場合（ステップＳ０４において「ＮＯ」の場合）、ステップＳ０２以降の処理を繰り返す。

図２３に示すように、変数（ｐ１，ｐ３，ｐ４）の一つを削除した変数の組み合わせを用いて、回帰式を算出する。例えば、変数（ｐ３，ｐ４）を用いた回帰式の精度として予測誤差ｅ２１を算出し、変数（ｐ１，ｐ４）を用いた回帰式の精度として予測誤差ｅ２３を算出し、変数（ｐ１，ｐ３）を用いた回帰式の精度として予測誤差ｅ２４を算出する。図２３の予測誤差ｅ２１，ｅ２３，ｅ２４の中で予測誤差ｅ２１が最も小さい場合、図２４のテーブル７０２に示すように、変数ｐ１を削除する。

そして、最も精度の良い変数（平均絶対誤差が大きい変数）の組み合わせ（ここでは、変数ｐ３，ｐ４）を最終結果として特定する。

特開２０１２－１２８８００号公報

しかしながら、変数を１つずつ検討していくので、複数の変数の組み合わせが考慮されない場合がある。この場合、局所解に陥りやすい。例えば、図２２～図２４の例では、最初に変数ｐ２を削除するため、変数ｐ２が入った組み合わせは、それ以降は考慮されない。また、変数が多いと、試行回数が膨大になるため、計算時間が長くなる。

上記課題を解決する情報選択システムは、解析モデルの生成に用いる情報を選択する制御部を備える。そして、前記制御部が、複数の教師データからなる情報において、一部の情報を用いて、複数の解析モデルを生成し、前記各解析モデルの精度を算出し、前記各精度に応じた分配値を、前記解析モデルの生成に用いた情報に割り当て、前記解析モデルの生成に用いた情報毎に、前記分配値の統計値を算出し、前記統計値を用いて、解析モデルの生成に用いる情報を選択する。

本発明は、情報処理に用いる情報を効率的に的確に選択することができる。

第１実施形態の情報選択システムの説明図である。第１実施形態のハードウェア構成の説明図である。第１実施形態の処理手順の説明図である。第１実施形態の変数テーブルの説明図である。第１実施形態の変数テーブルの説明図である。第２実施形態の処理手順の説明図である。第２実施形態の自己組織化マップのノードの説明図である。第２実施形態の変数テーブルの説明図である。第２実施形態の処理手順の説明図である。第２実施形態の処理手順の説明図である。第２実施形態の距離テーブルの説明図である。第２実施形態の処理手順の説明図である。第２実施形態の処理手順の説明図である。第２実施形態の処理手順の説明図である。第２実施形態の処理手順の説明図であって、（ａ）は入力データの配置、（ｂ）は新規ノードの追加、（ｃ）は既存ノードの更新の説明図である。第３実施形態の処理手順の説明図である。別例の処理手順の説明図である。別例の処理手順の説明図である。別例の処理手順の説明図であって、（ａ）は入力データの配置、（ｂ）は新規ノードの追加、（ｃ）は既存ノードの更新の説明図である。別例のノード間距離の説明図である。従来の処理手順の説明図である。従来の処理手順の説明図である。従来の処理手順の説明図である。従来の処理手順の説明図である。

（第１実施形態）
図１～図５に従って、情報選択システム、情報選択方法及び情報選択プログラムを具体化した一実施形態を説明する。本実施形態では、変数（情報）をランダムに選択して学習を繰り返し、変数の有効性を求めて追加・削除を逐次的に行なう。
図１に示すように、本実施形態の情報選択システムは、ユーザ端末１０、支援サーバ２０を用いる。

（ハードウェア構成例）
図２は、ユーザ端末１０、支援サーバ２０等として機能する情報処理装置Ｈ１０のハードウェア構成例である。

情報処理装置Ｈ１０は、通信装置Ｈ１１、入力装置Ｈ１２、表示装置Ｈ１３、記憶装置Ｈ１４、プロセッサＨ１５を有する。なお、このハードウェア構成は一例であり、他のハードウェアを有していてもよい。

通信装置Ｈ１１は、他の装置との間で通信経路を確立して、データの送受信を実行するインタフェースであり、例えばネットワークインタフェースや無線インタフェース等である。

入力装置Ｈ１２は、利用者等からの入力を受け付ける装置であり、例えばマウスやキーボード等である。表示装置Ｈ１３は、各種情報を表示するディスプレイやタッチパネル等である。

記憶装置Ｈ１４は、ユーザ端末１０、支援サーバ２０の各種機能を実行するためのデータや各種プログラムを格納する記憶装置である。記憶装置Ｈ１４の一例としては、ＲＯＭ、ＲＡＭ、ハードディスク等がある。

プロセッサＨ１５は、記憶装置Ｈ１４に記憶されるプログラムやデータを用いて、ユーザ端末１０、支援サーバ２０における各処理（例えば、後述する制御部２１における処理）を制御する。プロセッサＨ１５の一例としては、例えばＣＰＵやＭＰＵ等がある。このプロセッサＨ１５は、ＲＯＭ等に記憶されるプログラムをＲＡＭに展開して、各種処理に対応する各種プロセスを実行する。例えば、プロセッサＨ１５は、ユーザ端末１０、支援サーバ２０のアプリケーションプログラムが起動された場合、後述する各処理を実行するプロセスを動作させる。

プロセッサＨ１５は、自身が実行するすべての処理についてソフトウェア処理を行なうものに限られない。例えば、プロセッサＨ１５は、自身が実行する処理の少なくとも一部についてハードウェア処理を行なう専用のハードウェア回路（例えば、特定用途向け集積回路：ＡＳＩＣ）を備えてもよい。すなわち、プロセッサＨ１５は、以下で構成し得る。

（１）コンピュータプログラム（ソフトウェア）に従って動作する１つ以上のプロセッサ
（２）各種処理のうち少なくとも一部の処理を実行する１つ以上の専用のハードウェア回路、或いは
（３）それらの組み合わせ、を含む回路（circuitry）
プロセッサは、ＣＰＵ並びに、ＲＡＭ及びＲＯＭ等のメモリを含み、メモリは、処理をＣＰＵに実行させるように構成されたプログラムコード又は指令を格納している。メモリすなわちコンピュータ可読媒体は、汎用又は専用のコンピュータでアクセスできるあらゆる利用可能な媒体を含む。

（各情報処理装置の機能）
図１を用いて、ユーザ端末１０、支援サーバ２０の機能を説明する。
ユーザ端末１０は、本システムを利用するユーザが用いるコンピュータ端末である。

支援サーバ２０は、情報処理に用いる変数を選択するコンピュータシステムである。この支援サーバ２０は、制御部２１、記憶部２２を備えている。ここでは、情報処理として機械学習を行なう。
制御部２１は、後述する処理（選択段階、評価段階等を含む処理）を行なう。このための情報選択プログラムを実行することにより、制御部２１は、選択部２１１、評価部２１２等として機能する。

選択部２１１は、情報処理に用いる変数を選択する処理を実行する。
評価部２１２は、選択された変数を用いた解析モデルの精度を算出する処理を実行する。具体的には、評価部２１２は、機械学習により解析モデルを生成し、この解析モデルの予測誤差を精度として算出する。
記憶部２２には、機械学習等の情報処理に用いる情報（入力データ）が記録される。この入力データは、情報処理に用いるデータを取得した場合に記録される。入力データは、異なる次元からなる複数の要素データを備えたベクトルである。例えば、複数種類の説明変数及び目的変数からなる教師データを用いることができる。

（変数選択処理）
次に、図３を用いて、変数選択処理を説明する。ここでは、支援サーバ２０の制御部２１の選択部２１１は、ユーザ端末１０から入力データを取得する。そして、選択部２１１は、入力データを記憶部２２に記録する。

まず、支援サーバ２０の制御部２１は、全変数で精度の計算処理を実行する（ステップＳ１０１）。具体的には、制御部２１の選択部２１１は、記憶部２２に記録された入力データにおいて、すべての変数値を含めてデータセット（教師データ群）を作成する。次に、選択部２１１は、評価部２１２に対して、作成したデータセットを提供する。そして、評価部２１２は、データセットを用いた機械学習を行なうことにより、解析モデルを作成する。次に、評価部２１２は、作成した解析モデルの精度（予測誤差）を計算する。

そして、支援サーバ２０の制御部２１は、以下の処理を、所定回数、繰り返す。
ここでは、支援サーバ２０の制御部２１は、所定数の変数の削除処理を実行する（ステップＳ１０２）。具体的には、制御部２１の選択部２１１は、入力データを構成する変数から、ランダムに所定数の複数種類の変数（利用変数組）を特定する。本実施形態では、削除対象として、２個の変数を特定する。

次に、支援サーバ２０の制御部２１は、過去に選択した変数組かどうかについての判定処理を実行する（ステップＳ１０３）。具体的には、制御部２１の選択部２１１は、今回の利用変数組と、これまでに評価を行なった利用変数組とを比較する。

今回の利用変数組と、これまでに評価を行なった利用変数組とが一致しており、過去に選択した利用変数組と判定した場合（ステップＳ１０３において「ＹＥＳ」の場合）、所定数の変数の削除処理（ステップＳ１０２）を繰り返す。

一方、過去に選択した変数組でないと判定した場合（ステップＳ１０３において「ＮＯ」の場合）、支援サーバ２０の制御部２１は、予測誤差の算出処理を実行する（ステップＳ１０４）。具体的には、制御部２１の選択部２１１は、今回の利用変数組を削除したデータセットを作成する。次に、選択部２１１は、評価部２１２に対して、作成したデータセットを提供する。そして、評価部２１２は、データセットを用いた機械学習を行なうことにより、解析モデルを作成する。次に、評価部２１２は、作成した解析モデルの精度（予測誤差）を計算する。

次に、支援サーバ２０の制御部２１は、利用変数組に対して予測誤差の割当処理を実行する（ステップＳ１０５）。具体的には、制御部２１の選択部２１１は、利用変数組の各変数に対して、計算した予測誤差を分配値として割り当てる。

図４に示すように、変数（ｐ１～ｐ８）を用いる場合、複数の変数ｐ２，ｐ７を削除したケースを想定する。ここで、変数テーブル１００に示すように、予測誤差の算出処理（ステップＳ１０４）において、予測誤差ｅ１を算出した場合を想定する。そして、利用変数組に対して予測誤差の割当処理（ステップＳ１０５）において、変数テーブル１０１に示すように、変数（ｐ１，ｐ３～ｐ６，ｐ８）に予測誤差ｅ１を割り当てる。
以上の処理を、所定回数、繰り返す。

図５に示すように、７回（所定回数）の処理を繰り返した後、変数テーブル１０２が生成される。ここでは、各利用変数組に対して予測誤差ｅ１～ｅ７が算出されて、利用変数に対して割り当てられている。

次に、支援サーバ２０の制御部２１は、各変数について予測誤差の平均値の算出処理を実行する（ステップＳ１０６）。具体的には、制御部２１の選択部２１１は、各変数について割り当てられた予測誤差の統計値（ここでは、平均値）を算出する。

この場合、図５の平均値欄１０３に示すように、変数（ｐ１～ｐ８）に対して割り当てられた予測誤差（ｅ１～ｅ７）の平均値ａｖ１～ａｖ８を算出する。例えば、変数ｐ１のａｖ１は、予測誤差ｅ１，ｅ３～ｅ７の平均値である。

次に、支援サーバ２０の制御部２１は、予測誤差が大きい変数の削除処理を実行する（ステップＳ１０７）。具体的には、制御部２１の選択部２１１は、予測誤差の平均値が大きい変数を特定する。そして、選択部２１１は、予測誤差の平均値が大きい変数を削除する。この場合、選択部２１１は、残っている変数組に関連付けて予測誤差をメモリに仮記憶する。

次に、支援サーバ２０の制御部２１は、終了条件に到達かどうかについての判定処理を実行する（ステップＳ１０８）。具体的には、制御部２１の選択部２１１は、繰り返し回数Ｎが目標回数Ｎmax（終了条件）になっているかどうかを確認する。なお、最大計算時間を予め定めておいて、この最大計算時間を終了条件としてもよい。

繰り返し回数Ｎが目標回数Ｎmaxに達しておらず、終了条件に到達していないと判定した場合（ステップＳ１０８において「ＮＯ」の場合）、支援サーバ２０の制御部２１は、繰り返し回数Ｎに「１」を加算する。そして、所定数の変数の削除処理（ステップＳ１０２）以降の処理を繰り返す。

一方、繰り返し回数Ｎが目標回数Ｎmaxに一致しており、終了条件に到達したと判定した場合（ステップＳ１０８において「ＹＥＳ」の場合）、支援サーバ２０の制御部２１は、最も精度の良い変数の組み合わせの出力処理を実行する（ステップＳ１０９）。具体的には、制御部２１の選択部２１１は、メモリに仮記憶された変数組において、予測誤差が最も小さい変数組を特定する。そして、選択部２１１は、特定した変数組を、ユーザ端末１０に出力する。

本実施形態によれば、以下のような効果を得ることができる。
（１－１）本実施形態においては、支援サーバ２０の制御部２１は、所定数の変数の削除処理（ステップＳ１０２）、予測誤差の算出処理（ステップＳ１０４）、利用変数組に対して予測誤差の割当処理（ステップＳ１０５）を実行する。これにより、複数の変数の組み合わせを考慮して、局所解の発生を抑制することができる。

（１－２）本実施形態においては、支援サーバ２０の制御部２１は、各変数について予測誤差の平均値の算出処理（ステップＳ１０６）、予測誤差が大きい変数の削除処理（ステップＳ１０７）を実行する。これにより、統計的に誤差が大きい変数を削除することができる。すなわち、各変数の平均予測誤差は、各変数の有効性が反映されていると考えられる。Hebb則のように、学習を繰り返すことにより、有効な変数の組み合わせを強調させることができる。

ここで、３２次元の学習データ（２クラス分類）を人工的に生成して検証した。３２個の選択変数を用いたサポートベクターマシン（ＳＶＭ）の予測誤差は、「0.246」であった。また、ステップワイズ法及びＳＶＭを用いた場合、選択変数は１１個になり、予測誤差は、「0.141」であった。更に、上記実施形態及びＳＶＭを用いた場合、選択変数は９個になり、予測誤差は、「0.137」となり、ステップワイズ法よりもよい精度を得ることができた。

（第２実施形態）
次に、図６に従って、情報選択システム、情報選択方法及び情報選択プログラムを具体化した第２実施形態を説明する。第１実施形態では、予測誤差をそのまま利用変数に割り当てる方法について説明した。第２実施形態では、各変数の有効性を反映させて割り当てるように変更した構成であり、上記第１実施形態と同様の部分については、同一の符号を付し、その詳細な説明を省略する。

図６に示すように、予測誤差の算出処理（ステップＳ１０４）の実行後に、支援サーバ２０の制御部２１は、利用変数の貢献度の算出処理を実行する（ステップＳ２０１）。ここでは、利用変数組を用いて算出した精度（予測誤差）に対して、各利用変数の貢献度を算出する。

各変数の貢献度（有効性）を算出するために、自己組織化マップを用いる。このため、支援サーバ２０の記憶部２２には、生成した自己組織化マップを記録する。この自己組織化マップは、学習処理の実行時に記録される。自己組織化マップは、複数次元空間に配置されたノードと、ノード間を繋ぐパスとから構成される。そして、各パス及び各ノードは年齢に関する情報を保持する。この年齢は、新たな入力データの取得時に「１」だけ増加される。更に、各パス及び各ノードは、活性値に関する情報を保持する。活性値は、各パス及び各ノードの有効性（存在意義）を表す指標である。

図７を用いて、入力変数及び目的変数により各ノードを構成した自己組織化マップを用いて、この貢献度の概念を説明する。ここでは、入力データの５次元の説明変数に対して目的変数を予測する自己組織化マップを想定する。入力データの説明変数を自己組織化マップに適用した場合、ノードｎ１，ｎ２が勝者ノードと判定する。この場合、最も近いノードの目的変数値を予測値とする。ここで、ノードｎ１及び入力データの各説明変数の距離D(1,j)と、ノードｎ２及び入力データの各説明変数の距離D(2,j)との差分「D(1,j)-D(2,j)」を算出する。「ｊ」は説明変数の種類を示す。

差分「D(1,j)-D(2,j)」により、ノードｎ１に近い説明変数と、ノードｎ２に近い説明変数とがあることがわかる。ここで、入力データの目的変数値が、ノードｎ１の説明変数値よりもノードｎ２の説明変数値の方が好ましい場合、ノードｎ２の目的変数の方が近いことになる。すなわち、差分が正の説明変数については、予測に良い影響を与えていることを示す。一方、差分が負の説明変数については、予測に悪い影響を与えていることを示す。そこで、この差分を説明変数の貢献度を表わす指標として用いる。

図８のテーブル１１０に示すように、変数（ｐ１，ｐ３～ｐ６，ｐ８）が選択されて、精度として予測誤差ｅ１を算出した場合を想定する。この場合、予測誤差ｅ１の算出における変数（ｐ１，ｐ３～ｐ６，ｐ８）の貢献度Ｖ(i,j)を算出する。

この場合、貢献度Ｖ(i,j)を以下の式で計算する。

次に、支援サーバ２０の制御部２１は、貢献度を考慮した予測誤差の割当処理を実行する（ステップＳ２０２）。
図８に示すように、変数（ｐ１，ｐ３～ｐ６，ｐ８）の各貢献度及び予測誤差ｅ１を用いて、各変数の分配値（A₂(i,1)，A₂(i,3)～A₂(i,6)，A₂(i,8)，）を割り当てる。
各変数に設定する分配値Ａ2を以下の式で算出する。

（自己組織化マップの作成方法）
次に、図９を用いて、利用変数の貢献度の算出処理（ステップＳ２０１）に用いる自己組織化マップの作成処理を説明する。ここでは、ユーザ端末１０から入力データを取得する。そして、支援サーバ２０の制御部２１の選択部２１１は、入力データを記憶部２２に記録する。ここでは、説明変数及び目的変数からなる入力データを用いる。この場合、支援サーバ２０の制御部２１は、マップを作成しながら、学習の精度を検証する。そして、学習の精度が基準値に達していない場合には、学習のハイパーパラメータである調整係数において、学習の精度が基準値以上の最適値を探す交差検証を実行する。これにより、目的変数の変数値に調整係数を乗算して目的変数の影響を調整する。

（マップ生成処理）
まず、支援サーバ２０の制御部２１は、入力データの解析処理を実行する（ステップＳ４０１）。具体的には、制御部２１の評価部２１２は、入力データＤ(i)からノードを作成する場合に用いる最大距離ｄmaxを算出する。ここでは、全データ数Ｎに対して、ノードの近傍データ数Ｎn、考慮する勝者数Ｎwを予め設定しておく。

図１０を用いて、入力データの解析処理（ステップＳ４０１）を説明する。
ここでは、まず、支援サーバ２０の制御部２１は、各データ間の距離の算出処理を実行する（ステップＳ５０１）。具体的には、制御部２１の評価部２１２は、すべての２つの入力データＤ(i)の組み合わせの距離を算出する。
この場合、図１１に示すように、各データ間の距離（ｄ12，ｄ13，…，ｄ23，…）を算出した距離テーブル５００を作成する。

次に、支援サーバ２０の制御部２１は、各データについて、近傍データとの距離の算出処理を実行する（ステップＳ５０２）。具体的には、制御部２１の評価部２１２は、距離テーブル５００において、距離を昇順に並び替えて、長さがＮn番目までの距離を取得する。

次に、支援サーバ２０の制御部２１は、平均値の算出処理を実行する（ステップＳ５０３）。具体的には、制御部２１の評価部２１２は、取得したＮn番目までの距離の平均値（統計値）を算出する。そして、この平均値をノード間の最大距離ｄmaxとして、記憶部２２に記録する。

次に、図９に示すように、支援サーバ２０の制御部２１は、初期化処理を実行する（ステップＳ４０２）。ここでは、制御部２１の評価部２１２は、パラメータ、初期ノードを決定する。

図１２を用いて、初期化処理（ステップＳ４０２）を説明する。ここでは、すべての入力データＤ(i)をノードとして取り扱う。
まず、支援サーバ２０の制御部２１は、ｉ＝１から、順次、入力データＤ(i)を処理対象として特定して、以下の処理を繰り返す。

まず、支援サーバ２０の制御部２１は、最大距離内の近傍データの特定処理を実行する（ステップＳ６０１）。具体的には、制御部２１の評価部２１２は、処理対象の入力データＤ(i)からの距離が最大距離ｄmax以内の全ての近傍データを特定する。

次に、支援サーバ２０の制御部２１は、ノード活性値の計算処理を実行する（ステップＳ６０２）。具体的には、制御部２１の評価部２１２は、以下の式により、各近傍データのノード活性値Ａw(ni)を計算する。

次に、支援サーバ２０の制御部２１は、ノード活性度配列の生成処理を実行する（ステップＳ６０３）。具体的には、制御部２１の評価部２１２は、１次元の配列で、全ノードの活性値を並べた［Arate_W(i) i=1～N］を生成する。この［Arate_W(i)i=1～N］は、１次元の配列で、全ノードの活性値が入る。次に、評価部２１２は、ノード活性度Arate_W(i)を算出する。このノード活性度Arate_W(i)は、ノードｎiから最大距離ｄmax内のデータのノード活性値の和を、年齢で割ったものである。

次に、支援サーバ２０の制御部２１は、最大距離以上の近傍データの特定処理を実行する（ステップＳ６０４）。具体的には、制御部２１の評価部２１２は、処理対象の入力データＤ(i)からの距離が最大距離ｄmax以上の他の入力データＤ(j)を特定する。

次に、支援サーバ２０の制御部２１は、パス活性値の計算処理を実行する（ステップＳ６０５）。具体的には、制御部２１の評価部２１２は、以下の式により、各近傍データ（入力データＤ(j)）のパス活性値Ａs(n1,n2)を計算する。ここで、パスの両端のノードをｎ1とｎ2とし、ｄ1はノードｎ1・データＤ(j)間の距離、ｄ2はノードｎ2・データＤ(j)間の距離である。

次に、支援サーバ２０の制御部２１は、パス活性度配列の生成処理を実行する（ステップＳ６０６）。具体的には、制御部２１の評価部２１２は、２次元の配列で、全パスの活性値を並べた［Arate_S(i,j)i=1～N,i=1～N］を生成する。この［Arate_S(i,j) i=1～N, i=1～N］は、２次元の配列で、全パスの活性値が入る。次に、評価部２１２は、パス活性度Arate_S(i,j)を算出する。このパス活性度Arate_S(i,j)は、パス（i，j）に属するデータのノード活性値の和を、年齢で割ったものである。
以上の処理を、全ての入力データについて繰り返して実行する。

次に、支援サーバ２０の制御部２１は、初期ノードの設定処理を実行する（ステップＳ６０７）。

図１３を用いて、初期ノードの設定処理（ステップＳ６０７）を説明する。
ここでは、まず、支援サーバ２０の制御部２１は、ノード活性度のソート処理を実行する（ステップＳ７０１）。具体的には、制御部２１の評価部２１２は、ノード活性度Arate_W(i)の高い順に入力データＤ(i)を並び替える。

次に、支援サーバ２０の制御部２１は、ノード候補の特定処理を実行する（ステップＳ７０２）。具体的には、制御部２１の評価部２１２は、活性度の高い入力データＤ(i)を、ノード候補として、順次、特定する。

次に、支援サーバ２０の制御部２１は、最大距離未満かどうかについての判定処理を実行する（ステップＳ７０３）。具体的には、制御部２１の評価部２１２は、ノード候補と既登録のノードとの距離を算出し、最大距離ｄmaxと比較する。

既登録のノードとの距離が最大距離以上と判定した場合（ステップＳ７０２において「ＮＯ」の場合）、支援サーバ２０の制御部２１は、初期ノードの追加処理を実行する（ステップＳ７０４）。具体的には、制御部２１の評価部２１２は、ノード候補を新規ノードとして追加し、記憶部２２に記録する。

一方、既登録のノードとの距離が最大距離未満と判定した場合（ステップＳ７０３において「ＹＥＳ」の場合）、支援サーバ２０の制御部２１は、初期ノードの追加処理（ステップＳ７０４）をスキップする。

次に、支援サーバ２０の制御部２１は、終了かどうかについての判定処理を実行する（ステップＳ７０５）。具体的には、制御部２１の評価部２１２は、活性度が最も低い入力データＤ(i)について処理を終了した場合、終了と判定する。

終了でないと判定した場合（ステップＳ７０５において「ＮＯ」の場合）、支援サーバ２０の制御部２１は、ノード候補の特定処理（ステップＳ７０２）以降の処理を繰り返す。
一方、終了と判定した場合（ステップＳ７０５において「ＹＥＳ」の場合）、支援サーバ２０の制御部２１は、初期ノードの設定処理（ステップＳ６０７）を終了する。

次に、図１２に示すように、支援サーバ２０の制御部２１は、削除閾値の設定処理を実行する（ステップＳ６０８）。

図１４を用いて、削除閾値の設定処理（ステップＳ６０８）を説明する。
ここでは、支援サーバ２０の制御部２１は、ノード活性度のソート処理を実行する（ステップＳ８０１）。具体的には、制御部２１の評価部２１２は、ノード活性度Arate_W(i)を降順に並べ替える。

次に、支援サーバ２０の制御部２１は、ノード削除閾値の特定処理を実行する（ステップＳ８０２）。具体的には、制御部２１の評価部２１２は、指定順位（Ndw）のノード活性度Arate_W(i)の値をノード削除閾値として特定し、記憶部２２に記録する。

次に、支援サーバ２０の制御部２１は、パス活性度のソート処理を実行する（ステップＳ８０３）。具体的には、制御部２１の評価部２１２は、パス活性度Arate_S(i,j)を降順に並べ替える。

次に、支援サーバ２０の制御部２１はパス削除閾値の特定処理を実行する（ステップＳ８０４）。具体的には、制御部２１の評価部２１２は、指定順位（Nds）のパス活性度Arate_Ｓ(i,j)をパス削除閾値として特定し、記憶部２２に記録する。

次に、図９に示すように、オンライン学習処理を実行する。この処理は、オンラインで新たな入力データＤ(i)を取得した場合に行なわれる。ここでは、「ｉ＝１～Ｍ」とする。

まず、支援サーバ２０の制御部２１は、勝者ノード及び距離の特定処理を実行する（ステップＳ４０３）。具体的には、制御部２１の評価部２１２は、記憶部２２に記録された自己組織化マップを構成するノード（既存ノード）の中で、近接ノードとして、Ｎ個のノード（第１勝者～第Ｎ勝者）を特定する。ここでは、評価部２１２は、新たに取得した入力データＤ(i)の位置が近い順番にＮ個のノード（第１勝者～第Ｎ勝者）を特定する。そして、評価部２１２は、入力データＤ(i)と各勝者（第１勝者～第Ｎ勝者）との各距離（ｄ1～ｄn）を算出する。
図１５（ａ）では、2個の勝者（第１勝者ｎ1，第２勝者ｎ2）を特定して、入力データＤ(i)からの各距離ｄ1，ｄ2を算出する。

次に、支援サーバ２０の制御部２１は、最大距離より遠いかどうかについての判定処理を実行する（ステップＳ４０４）。具体的には、制御部２１の評価部２１２は、最寄りのノードとの距離ｄ1と最大距離ｄmaxとを比較する。

距離ｄ1が最大距離より遠い場合（ステップＳ４０４において「ＹＥＳ」の場合）、支援サーバ２０の制御部２１は、新規ノードの追加処理を実行する（ステップＳ４０５）。具体的には、制御部２１の評価部２１２は、入力データＤ(i)を新規ノードとして記憶部２２に記録する。
図１５（ｂ）では、ノードｎ1，ｎ2をそれぞれノードｎ2，ｎ3として、入力データＤ(i)をノードｎ1として追加している。

次に、支援サーバ２０の制御部２１は、ノード及びパスの情報初期化処理を実行する（ステップＳ４０６）。具体的には、制御部２１の評価部２１２は、年齢と活性値とを初期化する。

図１５（ｂ）に示すように、以下の式により、各ノードの情報を初期化する。ここでは、ノードｎ1について、初期化する。

ここで、ｄは各ノードｎiとノードｎ1との距離である。
また、ノードｎ1，ｎ2のパスの情報を更新する。

また、ノードｎ1，ｎ3のパスの情報を更新する。

一方、距離ｄ1が最大距離以下の場合（ステップＳ４０４において「ＮＯ」の場合）、支援サーバ２０の制御部２１は、入力データと第Ｎ勝者までの活性値ａnの算出処理を実行する（ステップＳ４０７）。ここでは、新規ノード及び既存の第Ｎ勝者までの活性値ａn（n＝１～Ｎ）を求める。具体的には、制御部２１の評価部２１２は、以下の式を用いて、活性値を算出する。

ここで、「ｄ」は各ノードｎiと入力データＤ(i)との距離である。
次に、支援サーバ２０の制御部２１は、ノード位置、パス活性値の更新処理を実行する（ステップＳ４０８）。
具体的には、図１５（ｃ）に示すように、制御部２１の評価部２１２は、以下の式によりノード位置を更新する。

ここで、「ｇ」は、学習率を表す係数である。

更に、評価部２１２は、以下の式によりパス活性値Ａsを更新する。

そして、制御部２１の評価部２１２は、以下の式によりノード活性値Awを更新する。

また、制御部２１の評価部２１２は、以下の式によりパス活性値Asを更新する。

次に、支援サーバ２０の制御部２１は、年齢の更新処理を実行する（ステップＳ４０９）。具体的には、制御部２１の評価部２１２は、Age_w，Age_sにそれぞれ「１」を加算して更新する。

次に、支援サーバ２０の制御部２１は、ノード活性度、パス活性度の算出処理を実行する（ステップＳ４１０）。具体的には、制御部２１の評価部２１２は、以下の式によりノード活性度Ａrate_wを算出する。

以下の式によりパス活性度Ａrate_sを算出する。

次に、支援サーバ２０の制御部２１は、活性度が閾値を下回るパス及びノードの削除処理を実行する（ステップＳ４１１）。具体的には、制御部２１の評価部２１２は、活性度が閾値を下回るノード及びパスを削除する。

次に、支援サーバ２０の制御部２１は、終了かどうかについての判定処理を実行する（ステップＳ４１２）。具体的には、制御部２１の評価部２１２は、「ｉ＝Ｍ」の場合に、すべての入力データについて終了と判定する。

この場合には、オンライン学習処理を終了する。
一方、終了でないと判定した場合（ステップＳ４１２において「ＮＯ」の場合）、支援サーバ２０の制御部２１は、「ｉ＝ｉ＋１」としてステップＳ４０３以降の処理を繰り返す。

以上、本実施形態によれば、上記（１－１）、（１－２）と同様の効果に加えて、以下に示す効果を得ることができる。
（２－１）本実施形態では、支援サーバ２０の制御部２１は、利用変数の貢献度の算出処理（ステップＳ２０１）、貢献度を考慮した予測誤差の割当処理（ステップＳ２０２）を実行する。変数組から生じる予測誤差において、各変数の影響は異なるので、自己組織化マップの各ノードの貢献度で、変数の重み付けを行なうことができる。そして、この重み付けにより、予測誤差を各変数に割り当てることができる。

（２－２）本実施形態では、支援サーバ２０の制御部２１は、入力データの解析処理を実行する（ステップＳ４０１）。これにより、目的変数及び説明変数を含めた入力データを用いて、自己組織化マップを作成することができる。そして、自己組織化マップを用いた距離の計算により予測できるので、予測結果の説明性が高い。
（２－３）本実施形態では、支援サーバ２０の制御部２１は、自己組織化マップの作成時に、説明変数と目的変数とを調整する。これにより、説明変数と目的変数とをバランスさせた自己組織化マップを生成することができる。

（第３実施形態）
次に、図１６に従って、情報選択システム、情報選択方法及び情報選択プログラムを具体化した第３実施形態を説明する。第２実施形態では、教師あり学習について説明した。第３実施形態では、検証用データを用いて、ノード位置を調整するように変更した構成であり、上記第２実施形態と同様の部分については、同一の符号を付し、その詳細な説明を省略する。学習時に、説明変数と目的変数をカップリングして、自己組織化マップを作成する。

例えば、検証用データの説明変数値を用いた予測結果において、ノードｎ1を予測した場合を想定する。そして、ノードｎ1の目的変数値よりも、ノードｎ2の目的変数値の方が、検証用データの目的変数値（正解）に近い場合を想定する。この場合、説明変数の各次元の距離ｄ（ノード寄与値）を比較することで、悪影響を与えている次元を特定することができる。

図１６を用いて、マップ調整処理を説明する。
ここでは、ノード毎、検証用データ毎に以下の処理を繰り返す。
まず、支援サーバ２０の制御部２１は、検証用データについて、予測値の算出処理を実行する（ステップＳ９０１）。具体的には、制御部２１の評価部２１２は、検証用データの説明変数値を、自己組織化マップに入力して、最も近接するノード（最近接ノード）を特定する。そして、評価部２１２は、最近接ノードの目的変数値を予測値として取得する。

次に、支援サーバ２０の制御部２１は、ノード寄与値の算出処理を実行する（ステップＳ９０２）。具体的には、制御部２１の評価部２１２は、以下の差分を用いてノード寄与値dAi,jを算出する。

次に、支援サーバ２０の制御部２１は、移動ベクトルの計算処理を実行する（ステップＳ９０３）。具体的には、制御部２１の評価部２１２は、以下の式を用いて移動ベクトルdVi,jを算出する。

以上の処理を、すべての検証用データについて終了するまで繰り返す。
次に、支援サーバ２０の制御部２１は、移動ベクトルの平均ベクトルの算出処理を実行する（ステップＳ９０４）。具体的には、制御部２１の評価部２１２は、以下の式を用いて移動ベクトルdVi,meanを算出する。

以上の処理を、すべてのノードについて終了するまで繰り返す。
次に、支援サーバ２０の制御部２１は、移動ベクトルを用いてノード調整処理を実行する（ステップＳ９０５）。具体的には、制御部２１の評価部２１２は、調整係数を乗算した移動ベクトルdVi,meanを用いて、ノードを移動させる。

次に、支援サーバ２０の制御部２１は、精度の算出処理を実行する（ステップＳ９０６）。具体的には、制御部２１の評価部２１２は、検証用データの説明変数を、調整した自己組織化マップに入力して、目的変数値を予測する。そして、評価部２１２は、予測した目的変数値と、検証用データの目的変数とを比較して、正解の割合（精度）を算出する。

次に、支援サーバ２０の制御部２１は、収束かどうかについての判定処理を実行する（ステップＳ９０７）。具体的には、制御部２１の予測部２１３は、先行作成のマップの精度と今回作成のマップの精度とを比較する。そして、精度が向上している場合には、収束していないと判定する。なお、収束判定は、精度向上の有無に限定されるものではない。例えば、精度向上が所定範囲内の場合に、収束と判定してもよい。

精度が向上しており、収束でないと判定した場合（ステップＳ９０７において「ＮＯ」の場合）、支援サーバ２０の制御部２１は、今回作成のマップの精度を初期精度として設定して、ステップＳ９０１以降の処理を繰り返す。
一方、精度が向上しておらず、収束と判定した場合（ステップＳ９０７において「ＹＥＳ」の場合）、支援サーバ２０の制御部２１は、マップ調整処理を終了する。

以上、本実施形態によれば、上記（１－１）、（１－２）、（２－１）～（２－３）と同様の効果に加えて、以下に示す効果を得ることができる。

（３－１）本実施形態では、支援サーバ２０の制御部２１は、ノード寄与値の算出処理を実行する（ステップＳ９０２）。これにより、ノード寄与値に応じて、予測失敗の原因を分析することができる。すなわち、各次元における「検証用データと正解ノードとの距離」と「検証用データと不正解ノード」との大小関係により、予測に良い影響を与えるノードと予測に悪影響を与えるノードとを識別できる。

（３－２）本実施形態では、支援サーバ２０の制御部２１は、移動ベクトルの計算処理を実行する（ステップＳ９０３）。これにより、予測失敗の原因となったノードを移動させて、自己組織化マップを改善できる。

本実施形態は、以下のように変更して実施することができる。本実施形態及び以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。
・上記第１実施形態では、支援サーバ２０の制御部２１は、所定数の変数の削除処理を実行する（ステップＳ１０２）。削除対象として、２個の変数を特定するが、複数種類の変数を削除対象として特定すればよく、２個に限定されない。
・上記第１実施形態では、支援サーバ２０の制御部２１は、所定数の変数の削除処理（ステップＳ１０２）、予測誤差の算出処理（ステップＳ１０４）を実行する。ここでは、複数の説明変数の中で、所定数の変数を削除することにより、一部の変数からなる教師データを用いて、解析モデルを作成する。ここで、複数の教師データからなる情報において、順次、一部の情報を用いて、複数の解析モデルを生成できれば、削除対象は変数に限定されない。例えば、所定数の教師データを削除して生成したデータセット（複数の教師データの一部）を用いて、解析モデルを生成してもよい。
・上記第１実施形態では、情報処理として機械学習を行なうが、解析モデルを生成するものであれば、機械学習に限定されない。
・上記第１実施形態では、オンライン学習処理を実行する。自己組織化マップを生成できれば、オンライン処理に限定されるものではなく、バッチ処理によって生成した自己組織化マップを用いて、クラスタリングを行なうようにしてもよい。

・上記第１実施形態では、支援サーバ２０の制御部２１は、入力データの解析処理を実行（ステップＳ４０１）において、最大距離ｄmaxを算出する。ここで、最大距離ｄmaxは、入力データを代表する統計値であれば、算出方法は限定されない。また、最大距離ｄmaxの初期値を予め設定しておき、入力データ数の増加に応じて再計算してもよい。

・第２実施形態において、支援サーバ２０の制御部２１は、自己組織化マップを用いる。具体的には、制御部２１の評価部２１２は、入力データの説明変数の変数値に最も近いノードを特定する。ここで、最も近いノードｎ1に接続する複数のノードを用いて、回帰で目的変数を予測してもよい。
この場合、最も近いノードｎ1にパスにより接続している他のノードを利用して、複数のノードを特定してもよい。

・上記第３実施形態では、ノード寄与値を用いてノード位置を調整する。ここで、パスの寄与値に基づいて、調整するようにしてもよい。例えば、検証用データの説明変数値を用いて予測したノードｎ1の目的変数値よりも、ノードｎ2の目的変数値の方が、検証用データの目的変数値（正解）に近い場合を想定する。この場合、説明変数の各次元の距離Ｄを比較することで、悪影響を与えている次元を特定する。

図１７を用いて、マップ調整処理を説明する。
ここでは、検証用データ毎に以下の処理を繰り返す。
次に、支援サーバ２０の制御部２１は、ステップＳ９０１と同様に、検証用データについて、予測値の算出処理を実行する（ステップＳＸ０１）。

次に、支援サーバ２０の制御部２１は、ステップＳ９０２と同様に、ノード寄与値の算出処理を実行する（ステップＳＸ０２）。
次に、支援サーバ２０の制御部２１は、パス寄与値の算出処理を実行する（ステップＳＸ０３）。具体的には、制御部２１の評価部２１２は、以下の差分を用いてパス寄与値dAk,lを算出する。

以上の処理を、すべての検証用データについて終了するまで繰り返す。
次に、支援サーバ２０の制御部２１は、ノードの寄与値の合計処理を実行する（ステップＳＸ０４）。具体的には、制御部２１の評価部２１２は、以下の式を用いてノードの寄与値の合計dASiを算出する。

次に、支援サーバ２０の制御部２１は、パスの寄与値の合計処理を実行する（ステップＳＸ０５）。具体的には、制御部２１の評価部２１２は、以下の式を用いてパスの寄与値の合計dASkを算出する。

次に、支援サーバ２０の制御部２１は、悪影響ノード及び悪影響パスの特定処理を実行する（ステップＳＸ０６）。具体的には、制御部２１の評価部２１２は、ノードの寄与値の合計dASi、パスの寄与値の合計dASkを、それぞれ降順で並べ替える。そして、評価部２１２は、上位所定数を悪影響ノード及び悪影響パスとして特定する。

次に、支援サーバ２０の制御部２１は、悪影響ノード、パスの削除処理を実行する（ステップＳＸ０７）。具体的には、制御部２１の評価部２１２は、特定した悪影響ノード及び悪影響パスを削除する。

ノードの寄与値の合計dASiが正の場合や、パスの寄与値の合計dASkが正の場合、予測に悪影響を与える可能性が高い。そこで、ノードの寄与値やパスの寄与値に応じて、影響を与えるノードやパスを削除することができる。

・上記第２実施形態では、各パス及び各ノードは年齢に関する情報を保持させた自己組織化マップを用いた。学習中に必要に応じてニューロンを増殖させる学習手法として、進化型自己組織化マップ（ESOM：Evolving SOM）を用いることも可能である。更に、自己増殖型ニューラルネットワーク（SOINN：Self-Organizing Incremental Neural Network）を用いることも可能である。このSOINNは、Growing Neural Gas（ＧＮＧ）と自己組織化マップ（ＳＯＭ）を拡張した追加学習可能なオンライン教師なし学習手法である。具体的には、動的に形状が変化する非定常で、かつ複雑な形状を持つ分布からオンラインで得られる入力に対して、ネットワークを自己組織的に形成し、適切なクラス数と入力分布の位相構造を出力する。

図１８を用いて、このESOMのオンライン学習処理を説明する。
まず、支援サーバ２０の制御部２１は、初期ノードを設定する（ステップＳＸ１１）。具体的には、入力データＤ(i)（ｉ＝１～Ｍ）の中からランダムに２個を選択し、初期ノードと設定する。この場合、データインデックスｉ＝１とする。

次に、支援サーバ２０の制御部２１は、勝者ノードを決定する（ステップＳＸ１２）。
ここでは、図１９（ａ）に示すように、Ｄ(i)に最も近いノードｎ1（第１勝者、距離ｄ1）と２番目に近いノードｎ2（第２勝者、距離ｄ2）を求める。

次に、支援サーバ２０の制御部２１は、第１勝者までの距離ｄ1が基準距離より長いかどうかを判定する（ステップＳＸ１３）。
距離ｄ１が基準距離よりも長い場合（ステップＳＸ１３において「ＹＥＳ」の場合）には、支援サーバ２０の制御部２１は、Ｄ(i)をノードに更新する（ステップＳＸ１４）。そして、勝者ノードに基づいて、ｎ1をｎ2に，Ｄ(i)をｎ1に、ｎ2をｎ3に更新する。更に、パスの活性値の初期化（As(n1,:)=0）を行なう。
図１９（ｂ）に示すように、新たなノードｎ1を生成する。

一方、距離ｄ1が基準距離以下の場合（ステップＳＸ１３において「ＮＯ」の場合）には、支援サーバ２０の制御部２１は、ノード位置及びパス活性値を更新する（ステップＳＸ１５）。

具体的には、図１９（ｃ）に示すように、Ｄ(i)とｎ1,ｎ2の距離に応じた活性値ａ1，ａ2を求める。

また、ノード位置とパス活性値As(n1,n2)を、以下に示すように更新する（Hebb則）。

そして、mod（ｉ，指定間隔）＝０の場合は、活性値が最小値となるパスを削除する（ステップＳＸ１６）。

次に、支援サーバ２０の制御部２１は、終了かどうかを判定する（ステップＳＸ１７）。ここで、ｉ＝Ｍの場合（ステップＳＸ１７において「ＹＥＳ」の場合）には、支援サーバ２０の制御部２１は、オンライン学習処理を終了する。一方、ｉ≠Ｍの場合（ステップＳＸ１７において「ＮＯ」の場合）には、支援サーバ２０の制御部２１は、「ｉ＝ｉ＋１」として、ステップＳＸ１２以降の処理を繰り返す。

・上記第２実施形態では、支援サーバ２０の制御部２１は、利用変数の貢献度の算出処理（ステップＳ２０１）、貢献度を考慮した予測誤差の割当処理（ステップＳ２０２）を実行する。ここで、「dD_i,k(l,j)」の正と負の寄与値を等しくするため、「dD_i,k(l,j)」の符号で処理を分けてもよい。例えば、正が少なく、負が多い場合、処理を分けずに計算すると、正データの寄与値が少なく見積もられる可能性がある。ここで、正負により処理を分けることにより、寄与値は等しく計算される。

このため、「dD_i,k(i,j)>0」の場合には、ノードｎ1がノードｎ2より正解から遠い変数の集計を行なうために以下の式を用いる。
一方、「dD_i,k(i,j)＜0」の場合には、ノードｎ1がノードｎ2より正解から遠い変数の集計を行なうために以下の式を用いる。
以下では、dD_i,k(l,j)の符号で処理を分ける理由について説明する。

図２０には、ｉ番目の試行、ｋ番目のデータにおける「－ddA_i,k(l)dD_i,k(l,j)」の一例を示す。ここで、「－ddA_i,k(l)dD_i,k(l,j)>0」となる次元ｌの部分集合をｌ１、「－ddA_i,k(l)dD_i,k(l,j)＜0」となる次元ｌの部分集合をｌ２とする。

部分集合ｌ１の数が部分集合ｌ２に比べて極端に少ない場合を想定する。これは、有効な変数が、全体の変数に比べて非常に少ない場合に相当する。
このような場合、抽出した有効な部分集合ｌ１の貢献度が、部分集合ｌ２が多いために、非常に小さくなってしまう。

dD_i,k(l,j)の符号で正規化を分ければ、「部分集合ｌ１の貢献度の合計」＝－「部分集合ｌ２の貢献度の合計」となり、抽出できた有効な変数ｌ１の貢献度を強調することができる。

１０…ユーザ端末、２０…支援サーバ、２１…制御部、２１１…選択部、２１２…評価部、２２…記憶部。

Claims

解析モデルの生成に用いる情報を選択する制御部を備えた情報選択システムであって、
前記制御部が、
複数の教師データからなる情報において、一部の情報を用いて、複数の解析モデルを生成し、前記各解析モデルの精度を算出し、
前記各精度に応じた分配値を、前記解析モデルの生成に用いた情報に割り当て、
前記解析モデルの生成に用いた情報毎に、前記分配値の統計値を算出し、
前記統計値を用いて、解析モデルの生成に用いる情報を選択することを特徴とする情報選択システム。
前記制御部が、前記解析モデルの生成に用いる情報として、前記教師データを構成する説明変数の中で、前記解析モデルの生成に用いる変数を選択することを特徴とする請求項１に記載の情報選択システム。
前記制御部が、
前記教師データとして、説明変数値と目的変数値とを組み合わせたデータセットを用いて生成した自己組織化マップに対して、検証用データの説明変数値を入力して、前記説明変数値を予測し、
前記検証用データの説明変数値と、前記予測した説明変数値とを比較して、前記各説明変数の寄与値を算出し、
前記寄与値を用いて、前記各精度に応じた分配値を算出することを特徴とする請求項２に記載の情報選択システム。
前記制御部が、
前記教師データの説明変数を用いた予測において、目的変数の予測結果に対する寄与値を算出し、
前記寄与値に基づいて、前記各精度に応じた分配値を、前記各説明変数に割り当てることを特徴とする請求項２又は３に記載の情報選択システム。
前記制御部が、
目的変数と説明変数とを含む教師データを用いて、前記解析モデルとして、ノード及びパスからなる自己組織化マップを生成し、
前記自己組織化マップにおいて、前記教師データの前記説明変数に対して予測された目的変数の前記予測結果から、各寄与値を算出することを特徴とする請求項４に記載の情報選択システム。
前記制御部が、前記解析モデルの生成に用いる情報として、前記複数の教師データの中で、前記解析モデルの生成に用いる教師データを選択することを特徴とする請求項１記載の情報選択システム。
制御部を備えた情報選択システムを用いて、解析モデルの生成に用いる情報を選択する方法であって、
前記制御部が、
複数の教師データからなる情報において、一部の情報を用いて、複数の解析モデルを生成し、前記各解析モデルの精度を算出し、
前記各精度に応じた分配値を、前記解析モデルの生成に用いた情報に割り当て、
前記解析モデルの生成に用いた情報毎に、前記分配値の統計値を算出し、
前記統計値を用いて、解析モデルの生成に用いる情報を選択することを特徴とする情報選択方法。
制御部を備えた情報選択システムを用いて、解析モデルの生成に用いる情報を選択するためのプログラムであって、
前記制御部を、
複数の教師データからなる情報において、一部の情報を用いて、複数の解析モデルを生成し、前記各解析モデルの精度を算出し、
前記各精度に応じた分配値を、前記解析モデルの生成に用いた情報に割り当て、
前記解析モデルの生成に用いた情報毎に、前記分配値の統計値を算出し、
前記統計値を用いて、解析モデルの生成に用いる情報を選択する手段として機能させるための情報選択プログラム。