JP5699713B2

JP5699713B2 - データ解析プログラム、データ解析方法、およびデータ解析装置

Info

Publication number: JP5699713B2
Application number: JP2011059561A
Authority: JP
Inventors: 松本　和宏; 和宏松本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-03-17
Filing date: 2011-03-17
Publication date: 2015-04-15
Anticipated expiration: 2031-03-17
Also published as: US8843432B2; JP2012194894A; US20120239599A1

Description

本発明は、データを解析するデータ解析プログラム、データ解析方法、およびデータ解析装置に関する。

従来から、入力データについて、回帰式により近似するなどのデータ解析がおこなわれている。たとえば、装置の故障原因についてのデータ解析の場合には、説明変数を装置の故障原因候補とし、目的変数を、装置が正常であるか故障であるかとする。そして、当該データ解析では、説明変数をもとに目的変数の予測値を計算する重回帰式を作成し、重回帰式の係数の大きさをもとに複数の故障の原因の候補について、どの故障原因候補が装置の正常、故障に関係するかを分析する。

特開２００４−１５２２０５号公報特開２００４−２３４３０２号公報特開２００７−２９３８８９号公報

解析対象については、正例（または負例）となる実測値が負例（または正例）となる実測値に対して多い。たとえば、上述した装置の故障原因についてのデータ解析の場合は、正常である件数の方が多い。

しかしながら、上述した従来技術では、正例となる実測値（正常件数）と負例となる実測値（故障件数）とがほぼ同等の数であることを前提として、回帰式などの予測式を生成している。したがって、正例となる実測値が負例となる実測値に対して圧倒的に多いと予測式の予測精度が低下するという問題がある。負例となる実測値が正例となる実測値に対して圧倒的に多い場合も同様である。

また、上述した従来技術では、評価対象のデータ全体を用いて予測式を生成して、予測式の生成元である解析対象のデータ全体を予測式で評価していたため、既知である評価対象データで予測値を求めてもそのとおりになる。したがって、予測値が正しいことを過剰に評価してしまうという問題がある。

１つの側面では、本発明は、データ解析の予測精度の向上を図ることができるデータ解析プログラム、データ解析方法、およびデータ解析装置を提供することを目的とする。

本発明の一側面によれば、少なくとも１つ以上の説明変数である説明変数群に対する目的変数が正例である正例実測値の集合と前記説明変数群に対する前記目的変数が負例である負例実測値の集合を有する実測値集合を記憶する記憶装置を有するコンピュータが、前記実測値集合から、前記正例実測値と前記負例実測値とが同数となるように正例実測値群および負例実測値群をランダムに抽出し、抽出された正例実測値群および負例実測値群に基づいて、予測アルゴリズムにより前記目的変数を予測する予測式を生成するデータ解析プログラム、データ解析方法、およびデータ解析装置を用いる。

本発明の一側面によれば、データ解析の予測精度の向上を図ることができるという効果を奏する。

図１は、データ解析例Ａを示す説明図である。図２は、図１のデータ解析例Ａで示した評価処理の詳細を示す説明図である。図３は、データ解析例Ｂを示す説明図である。図４は、図３のデータ解析例Ｂで示した評価処理の詳細を示す説明図である。図５は、実施の形態にかかるデータ解析装置のハードウェア構成例を示すブロック図である。図６は、回路の故障解析に関するデータ群を示す説明図である。図７は、レコメンデーションに関するデータ群を示す説明図である。図８は、融資の与信に関するデータ群を示す説明図である。図９は、実施例１Ａにおける予測アルゴリズムごとの重み付き全体正答率を示すグラフである。図１０は、実施例１Ａにかかるデータ解析処理手順を示すフローチャートである。図１１は、実施例１Ａにかかる、図１０に示した評価処理（ステップＳ１００３）の詳細な処理手順を示すフローチャートである。図１２は、実施例１Ｂにおける予測アルゴリズムごとの重み付き全体誤答率を示すグラフである。図１３は、実施例１Ｂにかかる、図１０に示した評価処理（ステップＳ１００３）の詳細な処理手順を示すフローチャートである。図１４は、実施例２Ａにおける説明変数ごとの重み付き全体正答率を示すグラフである。図１５は、実施例２Ａにかかるデータ解析処理手順を示すフローチャートである。図１６は、実施例２Ｂにおける説明変数ごとの重み付き全体誤答率を示すグラフである。図１７は、実施例３Ａにおける残余の説明変数群ごとの重み付き全体正答率を示すグラフである。図１８は、実施例３Ａにかかるデータ解析処理手順を示すフローチャートである。図１９は、実施例３Ｂにおける説明変数ごとの重み付き全体誤答率を示すグラフである。図２０は、実施例４Ａにおける予測アルゴリズムと説明変数との組み合わせごとの全体正答率を示すグラフである。図２１は、実施例４Ａにかかるデータ解析処理手順を示すフローチャートである。図２２は、実施例４Ｂにおける予測アルゴリズムと説明変数との組み合わせごとの全体誤答率を示すグラフである。図２３は、実施例５Ａにおける予測アルゴリズムと残余の説明変数群との組み合わせごとの全体正答率を示すグラフである。図２４は、実施例５Ａにかかるデータ解析処理手順を示すフローチャートである。図２５は、実施例５Ｂにおける予測アルゴリズムと残余の説明変数群との組み合わせごとの全体誤答率を示すグラフである。図２６は、実施例６Ａにおける予測アルゴリズムごとの全体正答率を示すグラフである。図２７は、実施例６Ｂにおける予測アルゴリズムごとの全体誤答率を示すグラフである。図２８は、実施例７Ａにおける説明変数ごとの全体正答率を示すグラフである。図２９は、実施例７Ｂにおける説明変数ごとの全体誤答率を示すグラフである。図３０は、実施例８Ａにおける残余の説明変数群ごとの全体正答率を示すグラフである。図３１は、実施例８Ｂにおける残余の説明変数群ごとの全体誤答率を示すグラフである。図３２は、実施例９Ａにおける予測アルゴリズムごとの部分正答率のばらつきを示すグラフである。図３３は、実施例９Ａにかかるデータ解析処理手順を示すフローチャートである。図３４は、実施例９Ａにかかる、図３３に示した評価処理（ステップＳ３３０４）の詳細な処理手順を示すフローチャートである。図３５は、実施例９Ｂにおける予測アルゴリズムごとの部分誤答率のばらつきを示すグラフである。図３６は、実施例９Ｂにかかる評価処理（ステップＳ３３０４）の詳細な処理手順を示すフローチャートである。図３７は、実施例１０Ａにおける説明変数ごとの部分正答率のばらつきを示すグラフである。図３８は、実施例１０Ａにかかるデータ解析処理手順を示すフローチャートである。図３９は、実施例１０Ｂにおける説明変数ごとの部分誤答率のばらつきを示すグラフである。図４０は、実施例１１Ａにおける残余の説明変数群ごとの部分正答率のばらつきを示すグラフである。図４１は、実施例１１Ａにかかるデータ解析処理手順を示すフローチャートである。図４２は、実施例１１Ｂにおける残余の説明変数群ごとの部分誤答率のばらつきを示すグラフである。図４３は、データ解析装置の機能的構成例を示すブロック図である。

以下に添付図面を参照して、本発明にかかるデータ解析プログラム、データ解析方法、およびデータ解析装置の実施の形態を詳細に説明する。本実施の形態において、正例データとは、学習したい概念に含まれる事例データ（実測値）であり、負例データとは、学習したい概念に含まれない事例データ（実測値）である。たとえば、同一設計データから得られた回路ごとの故障解析では、解析対象箇所について正常と判断された結果が正例データとなり、故障と判断された結果が負例データとなる。正例データおよび負例データともに、１以上の説明変数と目的変数を有する。上記の故障解析の例では、たとえば、解析対象箇所の配線幅が説明変数となり、正常／故障が目的変数となる。

＜データ解析例Ａ＞
データ解析例Ａでは、データ解析結果として正答率を求める例である。正答率とは、正例データの実測値と当該正例データを統計学的な予測式に与えた結果得られる予測値との一致度と、負例データの実測値と当該負例データを統計学的な予測式に与えた結果得られる予測値との一致度と、を示す割合である。すなわち、正例を正例と予測し、負例を負例と予測する確率である。

図１は、データ解析例Ａを示す説明図である。図１において、データ解析例Ａでは、Ｍ個のデータであるデータ群を用いる。データ群は、Ｍａ個の正例データである正例データ群と、Ｍｂ個の負例データである負例データ群と、で構成される。

（１）まず、正例データ群からＫ個の正例データをランダムサンプリングする。同様に、負例データ群からＫ個の負例データをランダムサンプリングする。（２）つぎに、データ解析例Ａでは、Ｋ個の正例データとＫ個の負例データとを用いて評価処理を実行する。評価処理は、ある予測アルゴリズムにしたがって実行される。予測アルゴリズムとは、統計学的な予測式による予測値の算出プログラムである。予測アルゴリズムとしては、たとえば、回帰分析、ステップワイズ回帰分析、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）回帰分析、回帰木分析、ランダムフォレスト回帰分析などの周知の近似アルゴリズムが適用可能である。評価処理の詳細は図２で説明する。

（３）評価処理を実行することで、重み付き部分正答率が得られる。重み付き部分正答率とは、正例データ群および負例データ群からの１回のランダムサンプリングで評価処理されたときの正答率であり、重み変数ｗ（０≦ｗ≦１）により変動する正答率である。

上記（１）〜（３）は、Ｎ回実行される。Ｎは、ユーザにより設定された回数である。上記（１）〜（３）をＮ回実行することで、重み付き部分正答率がＮ個算出される。（４）データ解析例Ａでは、Ｎ個の重み付き部分正答率を平均化することで、重み付き全体正答率を算出する。図１中、点線で囲まれた内容は、予測アルゴリズムごとに実行される。したがって、重み付き全体正答率も、予測アルゴリズムごとに算出される。

（５）重み付き全体正答率は予測アルゴリズムごとに算出されるため、データ解析例Ａでは、予測アルゴリズムごとに、重み付き全体正答率をグラフ化する。これにより、利用者は、どの予測アルゴリズムの予測精度がよいか直感的に把握することができる。

図２は、図１のデータ解析例Ａで示した評価処理の詳細を示す説明図である。図２では、図１の（１）〜（３）を１回実行した例を示している。図２において、正例データ群からＫ個サンプリングされた正例データ群を根拠用正例データ群と称し、残余を評価用正例データ群と称す。また、負例データ群からＫ個サンプリングされた負例データ群を根拠用負例データ群と称し、残余を評価用負例データ群と称す。

（２１）評価処理では、根拠用正例データ群と根拠用負例データ群とを組み合わせた根拠用データ群を用いて予測式を生成する。予測式とは、予測アルゴリズムを表現する関数であり、予測アルゴリズムごとに生成される。予測式としては、たとえば、回帰式やＳＶＭ（サポートベクターマシン）、決定木など既存の予測式が適用可能である。単回帰式ｙ＝αｘ＋βを例にとると、根拠用データ群の各々の説明変数の値と目的変数の値を、単回帰式の説明変数ｘおよび目的変数ｙに与え、最小二乗法により単回帰式の係数α，βの値をそれぞれ求める。

（２２）つぎに、評価用データ群の各々の説明変数の値（実測値）を、（２１）で生成された予測式の説明変数に与えることで、評価用データ群の各々について目的変数の予測値を算出する。ここで、評価用データ群の目的変数の実測値は、上記の故障解析の例では、「正常」の場合が“０”、「故障」の場合が“１”とする。目的変数の予測値は、０から１の範囲内となるため、正規化することとなる。たとえば、目的変数の予測値の小数点第１位の数値で四捨五入することで、目的変数の予測値が“０”または“１”となる。

ここで、評価用正例データ群の各々について説明変数の実測値を予測式に与えることで得られた目的変数の実測値群を、評価用正例データの予測値群と称す。同様に、評価用負例データ群の各々について説明変数の実測値を予測式に与えることで得られた目的変数の実測値群を、評価用負例データの予測値群と称す。

（２３）このあと、評価用データの実測値群と評価用データの予測値群とで突き合わせをおこなう。図２の表は、評価用データについての実測値と予測値との一致・不一致を示している。ここで、ある正例の評価用データについて正例の実測値が予測値と一致する場合は、当該正例の評価用データは、正例・正例件数にカウントされる。すなわち、正例・正例件数とは、正例の実測値を正しく予測できた評価用データの件数である。たとえば、上述した故障解析では、正常であると実測されたデータを正常と予測した件数となる。

同様に、ある負例の評価用データについて負例の実測値が予測値と一致する場合は、当該負例の評価用データは、負例・負例件数にカウントされる。すなわち、負例・負例件数とは、負例の実測値を正しく予測できた評価用データの件数である。たとえば、上述した故障解析では、故障であると実測されたデータを故障と予測した件数となる。

これに対し、ある正例の評価用データについて正例の実測値が予測値と不一致である場合は、当該正例の評価用データは、正例・負例件数にカウントされる。すなわち、正例・負例件数とは、正例の実測値を誤って予測した評価用データの件数である。たとえば、上述した故障解析では、正常であると実測されたデータを故障と予測した件数となる。

同様に、ある負例の評価用データについて負例の実測値が予測値と不一致である場合は、当該負例の評価用データは、負例・正例件数にカウントされる。すなわち、負例・正例件数とは、負例の実測値を誤って予測した評価用データの件数である。たとえば、上述した故障解析では、故障であると実測されたデータを正常と予測した件数となる。評価処理では、正例・正例件数、負例・負例件数、正例・負例件数、負例・正例件数をそれぞれカウントする。

（２４）そして、評価処理では、カウントされた各件数に基づいて、下記式（１）に示す重み付き部分正答率を算出する。

ＰＣＡｗ＝ｗ×Ｎｐｐ／（Ｎｐｐ＋Ｎｐｎ）＋（１−ｗ）×Ｎｎｎ／（Ｎｎｎ＋Ｎｎｐ）・・・（１）
ただし、ＰＣＡｗは重み付き部分正答率、ｗは重み変数、Ｎｐｐは正例・正例件数、Ｎｐｎは正例・負例件数、Ｎｎｎは負例・負例件数、Ｎｎｐは負例・正例件数である。重み変数ｗは、０≦ｗ≦１である。すなわち、図２においてハッチングを施してある正例・正例件数が右辺第１項の分子となり、図２においてハッチングを施してある負例・負例件数が右辺第２項の分子となる。

評価処理では、図１の（３）に示したように、重み付き部分正答率ＰＣＡｗを、図１の（１）のランダムサンプリングの都度算出する。算出されたＮ個の重み付き部分正答率ＰＣＡｗは平均化されることで、重み付き全体正答率となる。

このように、図１および図２に示した処理をおこなうことで、予測アルゴリズムごとに重み付き全体正答率を得ることができ、予測アルゴリズムごとの重み付き全体正答率の違いを、直感的にわかりやすく表示することができる。なお、予測アルゴリズムごとの重み付き全体正答率の表示例については後述する。

また、重み変数ｗは利用者が自由に設定することができる。たとえば、正例データ群の正例データ数Ｍａと負例データ群の負例データ数Ｍｂにおいて、Ｍａ＞Ｍｂの場合は、負例・負例件数を強調するため重み変数ｗを低く設定すればよい。Ｍａ＜Ｍｂの場合は、正例・正例件数を強調するため重み変数ｗを高く設定すればよい。

＜データ解析例Ｂ＞
つぎに、データ解析例Ｂについて説明する。データ解析例Ｂは、データ解析結果として誤答率を求める例である。誤答率とは、正例データの実測値と当該正例データを統計学的な予測式に与えた結果得られる予測値との不一致度と、負例データの実測値と当該負例データを統計学的な予測式に与えた結果得られる予測値との不一致度と、を示す割合である。すなわち、正例を負例と予測し、負例を正例と予測する確率である。

図３は、データ解析例Ｂを示す説明図である。図３では、図１と同一処理内容については同一番号を付して説明を省略し、相違点について説明する。具体的には、データ解析例Ａでは重み付き部分正答率と重み付き全体正答率を求めるのに対し、データ解析例Ｂでは重み付き部分誤答率と重み付き全体誤答率を求める点が相違する。

図４は、図３のデータ解析例Ｂで示した評価処理の詳細を示す説明図である。図４でも、図２と同一処理内容については同一番号を付して説明を省略し、相違点について説明する。図４において、評価処理では、カウントされた各件数に基づいて、下記式（２）に示す重み付き部分誤答率を算出する。

ＰＷＡｗ＝ｗ×Ｎｐｎ／（Ｎｐｐ＋Ｎｐｎ）＋（１−ｗ）×Ｎｎｐ／（Ｎｎｎ＋Ｎｎｐ）・・・（２）

ただし、ＰＷＡｗは重み付き部分誤答率である。図４では、（２３）突き合わせにおいて、図４においてハッチングを施してある正例・負例件数が右辺第１項の分子となり、図４においてハッチングを施してある負例・正例件数が右辺第２項の分子となる。評価処理では、図３の（３）に示したように、重み付き部分誤答率ＰＷＡｗを、図３の（１）のランダムサンプリングの都度算出する。算出されたＮ個の重み付き部分誤答率ＰＷＡｗは平均化されることで、重み付き全体誤答率となる。

このように、図３および図４に示した処理をおこなうことで、予測アルゴリズムごとに重み付き全体誤答率を得ることができ、予測アルゴリズムごとの重み付き全体誤答率の違いを、直感的にわかりやすく表示することができる。なお、予測アルゴリズムごとの重み付き全体誤答率の表示例については後述する。

＜データ解析装置のハードウェア構成例＞
図５は、実施の形態にかかるデータ解析装置のハードウェア構成例を示すブロック図である。図５において、データ解析装置は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）５０１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）５０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）５０３と、磁気ディスクドライブ５０４と、磁気ディスク５０５と、光ディスクドライブ５０６と、光ディスク５０７と、ディスプレイ５０８と、Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）５０９と、キーボード５１０と、マウス５１１と、スキャナ５１２と、プリンタ５１３と、を備えている。また、各構成部はバス５００によってそれぞれ接続されている。

ここで、ＣＰＵ５０１は、データ解析装置の全体の制御を司る。ＲＯＭ５０２は、ブートプログラムなどのプログラムを記憶している。ＲＡＭ５０３は、ＣＰＵ５０１のワークエリアとして使用される。磁気ディスクドライブ５０４は、ＣＰＵ５０１の制御にしたがって磁気ディスク５０５に対するデータのリード／ライトを制御する。磁気ディスク５０５は、磁気ディスクドライブ５０４の制御で書き込まれたデータを記憶する。

光ディスクドライブ５０６は、ＣＰＵ５０１の制御にしたがって光ディスク５０７に対するデータのリード／ライトを制御する。光ディスク５０７は、光ディスクドライブ５０６の制御で書き込まれたデータを記憶したり、光ディスク５０７に記憶されたデータをコンピュータに読み取らせたりする。

ディスプレイ５０８は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。このディスプレイ５０８は、たとえば、ＣＲＴ、ＴＦＴ液晶ディスプレイ、プラズマディスプレイなどを採用することができる。

インターフェース（以下、「Ｉ／Ｆ」と略する。）５０９は、通信回線を通じてＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、インターネットなどのネットワーク５１４に接続され、このネットワーク５１４を介して他の装置に接続される。そして、Ｉ／Ｆ５０９は、ネットワーク５１４と内部のインターフェースを司り、外部装置からのデータの入出力を制御する。Ｉ／Ｆ５０９には、たとえばモデムやＬＡＮアダプタなどを採用することができる。

キーボード５１０は、文字、数字、各種指示などの入力のためのキーを備え、データの入力をおこなう。また、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス５１１は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などをおこなう。ポインティングデバイスとして同様に機能を備えるものであれば、トラックボールやジョイスティックなどであってもよい。

スキャナ５１２は、画像を光学的に読み取り、データ解析装置内に画像データを取り込む。なお、スキャナ５１２は、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ）機能を持たせてもよい。また、プリンタ５１３は、画像データや文書データを印刷する。プリンタ５１３には、たとえば、レーザプリンタやインクジェットプリンタを採用することができる。

＜データ群のサンプル例＞
つぎに、図１や図３に示したデータ群（正例データ群および負例データ群）のサンプル例について説明する。本実施の形態では、回路の故障解析、レコメンデーションに関するデータ解析、融資の与信に関するデータ解析を例に挙げて説明する。以下に示す図６〜図８のデータ群のサンプル例は、具体的には、たとえば、図５に示したＲＯＭ５０２、ＲＡＭ５０３、磁気ディスク５０５などの記憶装置に記憶されている。

図６は、回路の故障解析に関するデータ群を示す説明図である。図６では、データごとに、サンプルＩＤ、間隔Ａ〜Ｄ、故障フラグを有する。サンプルＩＤとは、データを一意に特定する識別子であり、この場合は、同一設計データにより作製されたＭ個の回路の各々を一意に特定される回路である。間隔Ａ〜Ｄとは、回路内の特定の箇所での配線間隔である。図６では、例として間隔Ａ〜Ｄの４箇所とする。この間隔Ａ〜Ｄが説明変数群となる。図６では、４個の説明変数となるが、１以上であればよい。図６では、間隔Ａ〜Ｄの単位は［μｍ］とする。

故障フラグとは、データごとに正常または故障を示すフラグである。“０”が「正常」（正例）、“１”が「故障」（不例）とする。故障フラグは、説明変数群に対する目的変数となる。間隔Ａが正常となる範囲は、たとえば、８≦Ａ≦１２とする。間隔Ｂが正常となる範囲は、たとえば、１８≦Ｂ≦２２とする。間隔Ｃが正常となる範囲は、たとえば、２８≦Ｃ≦３２とする。間隔Ｄが正常となる範囲は、たとえば、３８≦Ｄ≦４２とする。図６では例として、データごとに、間隔Ａ〜Ｄのいずれか１つでも正常の範囲外となると、故障とする。なお、以降では、一例として、間隔Ａを説明変数Ｅ１、間隔Ｂを説明変数Ｅ２、間隔Ｃを説明変数Ｅ３、間隔Ｄを説明変数Ｅ４とする。

図７は、レコメンデーションに関するデータ群を示す説明図である。レコメンデーションに関するデータ群とは、ある店舗において顧客に対して推薦した商品を、顧客が購入したか否かを示すデータである。図７では、データごとに、サンプルＩＤ、年齢、性別、購入回数、平均購入金額、推薦商品の購入有無を有する。サンプルＩＤとは、データを一意に特定する識別子であり、この場合は、Ｍ人の顧客の各々を一意に特定する識別子である。年齢とは、顧客の年齢である。性別とは顧客の性別であり、ここでは、“０”を女性、“１”を男性とする。

購入回数とは、顧客がこれまで店舗で商品を購入した回数である。平均購入金額とは、顧客が１回の購入機会での購入金額であり、これまでの総購入金額を購入回数で割った金額である。年齢〜平均購入金額が説明変数群となる。説明変数群は１以上であればよい。

推薦商品の購入有無とは、店舗での推薦商品を顧客が購入したか否かを示すフラグである。“１”が「購入」（正例）、“０”が「購入せず」（不例）を示す。１度でも推薦商品を購入すれば“１”となる。推薦商品の購入有無は、説明変数群に対する目的変数となる。なお、以降では、一例として、年齢を説明変数Ｅ１、性別を説明変数Ｅ２、購入回数を説明変数Ｅ３、平均購入金額を説明変数Ｅ４とする。

図８は、融資の与信に関するデータ群を示す説明図である。融資の与信に関するデータ群とは、融資をした場合の返済の可否を示すデータである。図８では、データごとに、サンプルＩＤ、年齢、性別、年収、世帯年収、返済の可否を有する。サンプルＩＤとは、データを一意に特定する識別子であり、この場合は、Ｍ人の顧客の各々を一意に特定する識別子である。年齢とは、顧客の年齢である。性別とは顧客の性別であり、ここでは、“０”を女性、“１”を男性とする。

年収とは、顧客の年間の収入である。世帯年収とは、顧客が属する世帯の年間の収入である。年収および世帯年収は、融資の申込時の収入とする。年齢〜世帯年収は、説明変数群となる。説明変数群は１以上であればよい。

返済の可否とは、融資を返済できたか否かを示すフラグである。 “１”が「返済できた」こと（正例）を示し、“０”が「返済できなかった」こと（不例）を示す。返済の可否は、説明変数群に対する目的変数となる。なお、以降では、一例として、年齢を説明変数Ｅ１、性別を説明変数Ｅ２、年収を説明変数Ｅ３、世帯年収を説明変数Ｅ４とする。

（実施例１Ａ）
まず、実施例１Ａについて図９〜図１１を用いて説明する。実施例１Ａは、予測アルゴリズムごとに重み付き全体正答率を算出してグラフ表示する例である。これにより、どの予測アルゴリズムの予測精度（正答率）がよいかを利用者にわかりやすく提示することができる。

図９は、実施例１Ａにおける予測アルゴリズムごとの重み付き全体正答率を示すグラフである。図９において、横軸は重み変数ｗ、縦軸は全体正答率を示す。グラフは図５に示したディスプレイに表示される。図９では、４種類の予測アルゴリズム（予測式）Ｐ１〜Ｐ４を用いている。

図９では、重み変数ｗがどのような値をとっても、予測アルゴリズムＰ１〜Ｐ４の中で予測アルゴリズムＰ１の正答率が最も高い。したがって、予測アルゴリズムＰ１を採用すると最も予測精度がよくなる。また、予測アルゴリズムＰ２，Ｐ３については、重み変数ｗが０≦ｗ＜ｗｘでは予測アルゴリズムＰ３のほうが全体正答率がよく、ｗｘ＜ｗ≦１では予測アルゴリズムＰ２のほうが全体正答率がよい。

したがって、たとえば、予測アルゴリズムＰ１について重み付き全体正答率を求めていないときは、利用者は、負例・負例件数よりも正例・正例件数を重視する場合は、重み変数ｗの値が大きいときに正答率がよくなる予測アルゴリズムＰ２を利用すればよい。一方、正例・正例件数よりも負例・負例件数を重視する場合は、重み変数ｗの値が小さいときに正答率（予測精度）がよくなる予測アルゴリズムＰ３を採用すればよい。

なお、予測アルゴリズムＰ４は、予測アルゴリズムＰ１〜Ｐ４の中で最も正答率が低い予測アルゴリズムであるため、利用者は予測アルゴリズムＰ４を採用しない方がよいことがわかる。

図１０は、実施例１Ａにかかるデータ解析処理手順を示すフローチャートである。図１０において、まず、データ解析装置は、未選択の予測アルゴリズムがあるか否かを判断する（ステップＳ１００１）。未選択の予測アルゴリズムがある場合（ステップＳ１００１：Ｙｅｓ）、データ解析装置は、未選択の予測アルゴリズムを選択し（ステップＳ１００２）、評価処理を実行する（ステップＳ１００３）。評価処理（ステップＳ１００３）の詳細については図１１で説明する。

評価処理（ステップＳ１００３）のあと、ステップＳ１００１に戻り、未選択の予測アルゴリズムがない場合（ステップＳ１００１：Ｎｏ）、データ解析装置は、図９に示したように、予測アルゴリズムごとに得られた重み付き全体正答率のグラフ表示処理を実行する（ステップＳ１００４）。これにより、実施例１Ａでのデータ解析処理を終了する。

図１１は、実施例１Ａにかかる、図１０に示した評価処理（ステップＳ１００３）の詳細な処理手順を示すフローチャートである。図１１において、データ解析装置は、正例データ群および負例データ群のランダムサンプリング回数ｉをｉ＝１とする（ステップＳ１１０１）。なお、上限はＮとする。すなわち、Ｎ回のランダムサンプリングをおこなうこととなる。

つぎに、データ解析装置は、ｉ＞Ｎであるか否かを判断する（ステップＳ１１０２）。ｉ＞Ｎでない場合（ステップＳ１１０２：Ｎｏ）、図１および図２の（１）に示したように、正例データ群からＫ個の正例データをランダムサンプリングし、負例データ群からＫ個の負例データをランダムサンプリングする（ステップＳ１１０３）。

そして、データ解析装置は、図２の（２１）に示したように、ランダムサンプリングされた根拠用データ群を用いて予測アルゴリズムに基づく予測式を生成する（ステップＳ１１０４）。このあと、データ解析装置は、図２の（２２）に示したように、生成された予測式に評価用データ（実測値）を与えることにより、評価用データごとに予測値を算出する（ステップＳ１１０５）。そして、データ解析装置は、算出された各予測値の正規化をおこなう（ステップＳ１１０６）。

このあと、データ解析装置は、図２の（２３）に示したように、正例・正例件数、正例・負例件数、負例・正例件数、および負例・負例件数を特定する（ステップＳ１１０７）。そして、データ解析装置は、図２の（２４）に示したように、選択中の予測アルゴリズムでの重み付き部分正答率を算出する（ステップＳ１１０８）。このあと、ｉをインクリメントし（ステップＳ１１０９）、ステップＳ１１０２に移行する。データ解析装置は、ステップＳ１１０３〜Ｓ１１０９をｉ＞Ｎとなるまで繰り返し実行する。これにより、Ｎ個の重み付き部分正答率が算出される。

そして、ｉ＞Ｎとなった場合（ステップＳ１１０２：Ｙｅｓ）、データ解析装置は、Ｎ個の重み付き部分正答率を平均化して重み付き全体正答率を算出する（ステップＳ１１１０）。これにより、選択中の予測アルゴリズムについて重み付き全体正答率が算出される。この評価処理（ステップＳ１００３）を予測アルゴリズムごとに実行することで、予測アルゴリズムごとの重み付き全体正答率が算出される。したがって、図９に示したようなグラフ表示をおこなうことができる。

このように、実施例１Ａによれば、利用者の正例データについての関心度の高さに応じて、利用者が重み変数ｗを設定することができる。したがって、実施例１Ａでは、利用者が設定した重み変数ｗの値での予測アルゴリズムの予測精度（正答率）を、利用者にわかりやすく提示することができる。

たとえば、回路の故障解析に適用する場合、『どの予測アルゴリズムを採用すれば、正常らしい回路を正常であると予測してくれるか、また、どの予測アルゴリズムを採用すれば、故障らしい回路を故障であると予測してくれるか』といった利用者の疑問に対し、グラフ表示でわかりやすく提示することができる。

また、『正常らしい回路を正常と予測する』と『故障らしい回路を故障と予測する』ということについて、いずれを重視すればよいかは、利用者に依存する。したがって、たとえば、負例（故障）データ数Ｍｂよりも正例（正常）データ数Ｍａが多い場合、『故障らしい回路を故障と予測する』ことを重視するほうがよい。この場合は、利用者は重み変数ｗを低く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムごとの全体正答率を比較すればよい。

これに対し、正例（正常）データ数Ｍａよりも負例（故障）データ数Ｍｂが多い場合、
『正常らしい回路を正常と予測する』ことを重視するほうがよい。この場合は、利用者は重み変数ｗを高く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムごとの全体正答率を比較すればよい。

また、推薦商品のレコメンデーションに関するデータ解析に適用する場合、『どの予測アルゴリズムを採用すれば、推薦商品を購入しそうな顧客を「購入する」と予測してくれるか、また、どの予測アルゴリズムを採用すれば、推薦商品を購入しそうにない顧客を「購入しない」と予測してくれるか』といった利用者の疑問に対し、グラフ表示でわかりやすく提示することができる。また、『推薦商品を購入しそうな顧客を「購入する」と予測する』と『推薦商品を購入しそうにない顧客を「購入しない」と予測する』ということについて、いずれを重視すればよいかは、利用者に依存する。

したがって、たとえば、負例（購入しなかった）データ数Ｍｂよりも正例（購入した）データ数Ｍａが多い場合、『推薦商品を購入しそうにない顧客を「購入しない」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗを低く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムごとの全体正答率を比較すればよい。

これに対し、正例（購入した）データ数Ｍａよりも負例（購入しなかった）データ数Ｍｂが多い場合、『推薦商品を購入しそうな顧客を「購入する」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗを高く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムごとの全体正答率を比較すればよい。

また、融資の与信に関するデータ解析に適用する場合、『どの予測アルゴリズムを採用すれば、返済できそうな顧客を「返済できる」と予測してくれるか、また、どの予測アルゴリズムを採用すれば、返済できそうにない顧客を「返済できない」と予測してくれるか』といった利用者の疑問に対し、グラフ表示でわかりやすく提示することができる。また、『返済できそうな顧客を「返済できる」と予測する』と『返済できそうにない顧客を「返済できない」と予測する』ということについて、いずれを重視すればよいかは、利用者に依存する。

したがって、たとえば、負例（返済できなかった）データ数Ｍｂよりも正例（返済できた）データ数Ｍａが多い場合、『返済できそうにない顧客を「返済できない」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗを低く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムごとの全体正答率を比較すればよい。

これに対し、正例（返済できた）データ数Ｍａよりも負例（返済できなかった）データ数Ｍｂが多い場合、『返済できそうな顧客を「返済できる」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗを高く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムごとの全体正答率を比較すればよい。

このように、実施例１Ａによれば、利用者の関心の程度に応じた全体正答率で予測アルゴリズムを比較することで、利用者にとって予測精度のよい予測アルゴリズムをわかりやすく提示することができる。

（実施例１Ｂ）
まず、実施例１Ｂについて図１２および図１３を用いて説明する。実施例１Ｂは、予測アルゴリズムごとに重み付き全体誤答率を算出してグラフ表示する例である。これにより、どの予測アルゴリズムの予測精度（誤答率）がよいかを利用者にわかりやすく提示することができる。

図１２は、実施例１Ｂにおける予測アルゴリズムごとの重み付き全体誤答率を示すグラフである。図１２において、横軸は重み変数ｗ、縦軸は全体誤答率を示す。グラフは図５に示したディスプレイ５０８に表示される。図１２では、４種類の予測アルゴリズム（予測式）Ｐ１〜Ｐ４を用いている。

図１２では、重み変数ｗがどのような値をとっても、予測アルゴリズムＰ１〜Ｐ４の中で予測アルゴリズムＰ４の誤答率が最も低い。すなわち、最も予測精度がよい。また、予測アルゴリズムＰ２，Ｐ３については、重み変数ｗが０≦ｗ＜ｗｘでは予測アルゴリズムＰ２のほうが全体誤答率がよく、ｗｘ＜ｗ≦１では予測アルゴリズムＰ３のほうが全体誤答率がよい。

したがって、たとえば、予測アルゴリズムＰ４について重み付き全体誤答率を求めていないときは、負例・正例件数よりも正例・負例件数を重視する場合は、重み変数ｗの値が大きいときに誤答率がよくなる予測アルゴリズムＰ３を利用すればよい。正例・負例件数よりも負例・正例件数を重視する場合は、重み変数ｗの値が小さいときに誤答率がよくなる予測アルゴリズムＰ２を利用すればよい。

なお、予測アルゴリズムＰ１は、予測アルゴリズムＰ１〜Ｐ４の中で最も誤答率が高い予測アルゴリズムであるため、利用者は予測アルゴリズムを利用しない方がよいことがわかる。

つぎに、実施例１Ｂにかかるデータ解析処理手順について説明する。なお、図１０に示した処理手順については実施例１Ａと同一であるため省略する。実施例１Ｂでは、実施例１Ａの評価処理（ステップＳ１００３）の処理内容が異なるため、評価処理（Ｓ１００３）のかわりに、評価処理（ステップＳ１３０３）を実行する。

図１３は、実施例１Ｂにかかる、図１０に示した評価処理（ステップＳ１００３）の詳細な処理手順を示すフローチャートである。図１３において、データ解析装置は、正例データ群および負例データ群のランダムサンプリング回数ｉをｉ＝１とする（ステップＳ１３０１）。なお、上限はＮとする。すなわち、Ｎ回のランダムサンプリングをおこなうこととなる。

つぎに、データ解析装置は、ｉ＞Ｎであるか否かを判断する（ステップＳ１３０２）。ｉ＞Ｎでない場合（ステップＳ１３０２：Ｎｏ）、図３および図４の（１）に示したように、正例データ群からＫ個の正例データをランダムサンプリングし、負例データ群からＫ個の負例データをランダムサンプリングする（ステップＳ１３０３）。

そして、データ解析装置は、図４の（２１）に示したように、ランダムサンプリングされた根拠用データ群を用いて予測アルゴリズムに基づく予測式を生成する（ステップＳ１３０４）。このあと、データ解析装置は、図４の（２２）に示したように、生成された予測式に評価用データ（実測値）を与えることにより、評価用データごとに予測値を算出する（ステップＳ１３０５）。そして、データ解析装置は、算出された各予測値の正規化をおこなう（ステップＳ１３０６）。

このあと、データ解析装置は、図４の（２３）に示したように、正例・正例件数、正例・負例件数、負例・正例件数、および負例・負例件数を特定する（ステップＳ１３０７）。そして、データ解析装置は、図４の（２４）に示したように、選択中の予測アルゴリズムでの重み付き部分誤答率を算出する（ステップＳ１３０８）。このあと、ｉをインクリメントし（ステップＳ１３０９）、ステップＳ１３０２に移行する。データ解析装置は、ステップＳ１３０３〜Ｓ１３０９をｉ＞Ｎとなるまで繰り返し実行する。これにより、Ｎ個の重み付き部分誤答率が算出される。

そして、ｉ＞Ｎとなった場合（ステップＳ１３０２：Ｙｅｓ）、データ解析装置は、Ｎ個の重み付き部分誤答率を平均化して重み付き全体誤答率を算出する（ステップＳ１３１０）。これにより、選択中の予測アルゴリズムについて重み付き全体誤答率が算出される。この評価処理（ステップＳ１００３）を予測アルゴリズムごとに実行することで、予測アルゴリズムごとの重み付き全体誤答率が算出される。したがって、図１２に示したようなグラフ表示をおこなうことができる。

このように、実施例１Ｂによれば、利用者の負例データについての関心度の高さに応じて、利用者が重み変数ｗを設定することができる。したがって、実施例１Ｂでは、利用者が設定した重み変数ｗの値での予測アルゴリズムの予測精度（誤答率）を、利用者にわかりやすく提示することができる。

たとえば、回路の故障解析に適用する場合、『どの予測アルゴリズムを採用すれば、正常らしい回路を故障であると予測してしまうか、また、どの予測アルゴリズムを採用すれば、故障らしい回路を正常であると予測してしまうか』といった利用者の疑問に対し、グラフ表示でわかりやすく提示することができる。

また、『正常らしい回路を故障と予測する』と『故障らしい回路を正常と予測する』ということについて、いずれを重視すればよいかは、利用者に依存する。したがって、たとえば、負例（故障）データ数Ｍｂよりも正例（正常）データ数Ｍａが多い場合、『故障らしい回路を正常と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗを低く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムごとの全体誤答率を比較すればよい。

これに対し、正例（正常）データ数Ｍａよりも負例（故障）データ数Ｍｂが多い場合、『正常らしい回路を故障と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗを高く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムごとの全体誤答率を比較すればよい。

また、推薦商品のレコメンデーションに関するデータ解析に適用する場合、『どの予測アルゴリズムを採用すれば、推薦商品を購入しそうな顧客を「購入しない」と予測してしまうか、また、どの予測アルゴリズムを採用すれば、推薦商品を購入しそうにない顧客を「購入する」と予測してしまうか』といった利用者の疑問に対し、グラフ表示でわかりやすく提示することができる。

また、『推薦商品を購入しそうな顧客を「購入しない」と予測する』と『推薦商品を購入しそうにない顧客を「購入する」と予測する』ということについて、いずれを重視すればよいかは、利用者に依存する。したがって、たとえば、負例（購入しなかった）データ数Ｍｂよりも正例（購入した）データ数Ｍａが多い場合、『推薦商品を購入しそうにない顧客を「購入する」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗを低く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムごとの全体誤答率を比較すればよい。

これに対し、正例（購入した）データ数Ｍａよりも負例（購入しなかった）データ数Ｍｂが多い場合、『推薦商品を購入しそうな顧客を「購入しない」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗを高く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムごとの全体誤答率を比較すればよい。

また、融資の与信に関するデータ解析に適用する場合、『どの予測アルゴリズムを採用すれば、返済できそうな顧客を「返済できない」と予測してしまうか、また、どの予測アルゴリズムを採用すれば、返済できそうにない顧客を「返済できる」と予測してしまうか』といった利用者の疑問に対し、グラフ表示でわかりやすく提示することができる。

また、『返済できそうな顧客を「返済できない」と予測する』と『返済できそうにない顧客を「返済できる」と予測する』ということについて、いずれを重視すればよいかは、利用者に依存する。したがって、たとえば、負例（返済できなかった）データ数Ｍｂよりも正例（返済できた）データ数Ｍａが多い場合、『返済できそうにない顧客を「返済できる」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗを低く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムごとの全体誤答率を比較すればよい。

これに対し、正例（返済できた）データ数Ｍａよりも負例（返済できなかった）データ数Ｍｂが多い場合、『返済できそうな顧客を「返済できない」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗを高く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムごとの全体誤答率を比較すればよい。

このように、実施例１Ｂによれば、利用者の関心の程度に応じた全体誤答率で予測アルゴリズムを比較することで、利用者にとって予測精度のよい予測アルゴリズムをわかりやすく提示することができる。

（実施例２Ａ）
実施例２Ａは、ある１つの予測アルゴリズムを適用する場合に、説明変数群の各々について重み付き全体正答率を求めてグラフ表示する例である。これにより、どの説明変数が目的変数に関係しているかを利用者にわかりやすく提示することができる。

図１４は、実施例２Ａにおける説明変数ごとの重み付き全体正答率を示すグラフである。図１４において、横軸は重み変数ｗ、縦軸は全体正答率を示す。グラフは図５に示したディスプレイ５０８に表示される。図１４では、４種類の説明変数Ｅ１〜Ｅ４を用いている。

図１４では、重み変数ｗがどのような値をとっても、説明変数Ｅ１〜Ｅ４の中で説明変数Ｅ１の正答率が最も高い。したがって、説明変数Ｅ１を採用すると最も予測精度がよくなる。また、説明変数Ｅ２，Ｅ３については、重み変数ｗが０≦ｗ＜ｗｘでは説明変数Ｅ３のほうが全体正答率がよく、ｗｘ＜ｗ≦１では説明変数Ｅ２のほうが全体正答率がよい。

したがって、たとえば、説明変数Ｅ１について重み付き全体正答率を求めていないときは、利用者は、負例・負例件数よりも正例・正例件数を重視する場合は、重み変数ｗの値が大きいときに正答率がよくなる説明変数Ｅ２を利用すればよい。一方、正例・正例件数よりも負例・負例件数を重視する場合は、重み変数ｗの値が小さいときに正答率（予測精度）がよくなる説明変数Ｅ３を採用すればよい。

なお、説明変数Ｅ４は、説明変数Ｅ１〜Ｅ４の中で最も正答率が低い説明変数であるため、利用者は説明変数Ｅ４が最も重要でない説明変数であることが分かる。

図１５は、実施例２Ａにかかるデータ解析処理手順を示すフローチャートである。図１５において、まず、データ解析装置は、未選択の説明変数があるか否かを判断する（ステップＳ１５０１）。未選択の説明変数がある場合（ステップＳ１５０１：Ｙｅｓ）、データ解析装置は、未選択の説明変数を選択し（ステップＳ１５０２）、評価処理を実行する（ステップＳ１５０３）。評価処理（ステップＳ１５０３）の詳細については図１１で説明した評価処理（ステップＳ１００３）と同一処理内容であるため説明を省略する。評価処理（ステップＳ１５０３）は、選択説明変数について実行される。

評価処理（ステップＳ１５０３）のあと、ステップＳ１５０１に戻り、未選択の説明変数がない場合（ステップＳ１５０１：Ｎｏ）、データ解析装置は、図１４に示したように、説明変数ごとに得られた重み付き全体正答率のグラフ表示処理を実行する（ステップＳ１５０４）。これにより、実施例２Ａでのデータ解析処理を終了する。

このように、実施例２Ａによれば、利用者の正例データについての関心度の高さに応じて、利用者が重み変数ｗを設定することができる。したがって、実施例２Ａでは、利用者が設定した重み変数ｗの値での説明変数ごとの予測アルゴリズムの予測精度（正答率）を、利用者にわかりやすく提示することができる。

たとえば、回路の故障解析に適用する場合、『どの説明変数を採用すれば、正常らしい回路を正常であると予測アルゴリズムが予測してくれるか、また、どの説明変数を採用すれば、故障らしい回路を故障であると予測アルゴリズムが予測してくれるか』といった利用者の疑問に対し、グラフ表示でわかりやすく提示することができる。

また、『正常らしい回路を正常と予測する』と『故障らしい回路を故障と予測する』ということについて、いずれを重視すればよいかは、利用者に依存する。したがって、たとえば、負例（故障）データ数Ｍｂよりも正例（正常）データ数Ｍａが多い場合、『故障らしい回路を故障と予測する』ことを重視するほうがよい。この場合は、利用者は重み変数ｗを低く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体正答率を説明変数別に比較すればよい。

これに対し、正例（正常）データ数Ｍａよりも負例（故障）データ数Ｍｂが多い場合、
『正常らしい回路を正常と予測する』ことを重視するほうがよい。この場合は、利用者は重み変数ｗを高く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体正答率を説明変数別に比較すればよい。

また、推薦商品のレコメンデーションに関するデータ解析に適用する場合、『どの説明変数を採用すれば、推薦商品を購入しそうな顧客を「購入する」と予測アルゴリズムが予測してくれるか、また、どの説明変数を採用すれば、推薦商品を購入しそうにない顧客を「購入しない」と予測アルゴリズムが予測してくれるか』といった利用者の疑問に対し、グラフ表示でわかりやすく提示することができる。

また、『推薦商品を購入しそうな顧客を「購入する」と予測する』と『推薦商品を購入しそうにない顧客を「購入しない」と予測する』ということについて、いずれを重視すればよいかは、利用者に依存する。したがって、たとえば、負例（購入しなかった）データ数Ｍｂよりも正例（購入した）データ数Ｍａが多い場合、『推薦商品を購入しそうにない顧客を「購入しない」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗを低く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体正答率を説明変数別に比較すればよい。

これに対し、正例（購入した）データ数Ｍａよりも負例（購入しなかった）データ数Ｍｂが多い場合、『推薦商品を購入しそうな顧客を「購入する」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗを高く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体正答率を説明変数別に比較すればよい。

また、融資の与信に関するデータ解析に適用する場合、『どの説明変数を採用すれば、返済できそうな顧客を「返済できる」と予測アルゴリズムが予測してくれるか、また、どの説明変数を採用すれば、返済できそうにない顧客を「返済できない」と予測アルゴリズムが予測してくれるか』といった利用者の疑問に対し、グラフ表示でわかりやすく提示することができる。

また、『返済できそうな顧客を「返済できる」と予測する』と『返済できそうにない顧客を「返済できない」と予測する』ということについて、いずれを重視すればよいかは、利用者に依存する。したがって、たとえば、負例（返済できなかった）データ数Ｍｂよりも正例（返済できた）データ数Ｍａが多い場合、『返済できそうにない顧客を「返済できない」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗを低く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体正答率を説明変数別に比較すればよい。

これに対し、正例（返済できた）データ数Ｍａよりも負例（返済できなかった）データ数Ｍｂが多い場合、『返済できそうな顧客を「返済できる」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗを高く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体正答率を説明変数別に比較すればよい。

このように、実施例２Ａによれば、利用者の関心の程度に応じた全体正答率で予測アルゴリズムを説明変数別に比較することで、利用者にとって予測アルゴリズムの予測精度がよくなる説明変数をわかりやすく提示することができる。

（実施例２Ｂ）
実施例２Ｂは、ある１つの予測アルゴリズムを適用する場合に、説明変数群の各々について重み付き全体誤答率を求めてグラフ表示する例である。これにより、どの説明変数が目的変数に関係しているかを利用者にわかりやすく提示することができる。

図１６は、実施例２Ｂにおける説明変数ごとの重み付き全体誤答率を示すグラフである。図１６において、横軸は重み変数ｗ、縦軸は全体誤答率を示す。グラフは図５に示したディスプレイ５０８に表示される。図１６では、４種類の説明変数Ｅ１〜Ｅ４を用いている。

図１６では、重み変数ｗがどのような値をとっても、説明変数Ｅ１〜Ｅ４の中で説明変数Ｅ４の誤答率が最も低い。したがって、説明変数Ｅ４を採用すると最も予測精度がよくなる。説明変数Ｅ２，Ｅ３については、重み変数ｗが０≦ｗ＜ｗｘでは説明変数Ｅ２のほうが全体誤答率がよく、ｗｘ＜ｗ≦１では説明変数Ｅ３のほうが全体誤答率がよい。

したがって、たとえば、説明変数Ｅ４について重み付き全体誤答率を求めていないときは、利用者は、負例・正例件数よりも正例・負例件数を重視する場合は、重み変数ｗの値が大きいときに誤答率がよくなる説明変数Ｅ３を利用すればよい。正例・負例件数よりも負例・正例件数を重視する場合は、重み変数ｗの値が小さいときに誤答率がよくなる説明変数Ｅ２を利用すればよい。

なお、説明変数Ｅ１は、説明変数Ｅ１〜Ｅ４の中で最も誤答率が高い説明変数であるため、説明変数Ｅ１が最も重要でない説明変数であることが分かる。

なお、実施例２Ｂにかかるデータ解析処理手順は、評価処理（ステップＳ１５０３）の詳細以外は、図１５に示した処理手順と同じである。実施例２Ｂでは、評価処理（ステップＳ１５０３）の詳細な処理が、図１３に示した評価処理（ステップＳ１００３）になる。評価処理（ステップＳ１５０３）は、選択説明変数について実行される。

このように、実施例２Ｂによれば、利用者の負例データについての関心度の高さに応じて、利用者が重み変数ｗを設定することができる。したがって、実施例２Ｂでは、利用者が設定した重み変数ｗの値での説明変数ごとの予測アルゴリズムの予測精度（誤答率）を、利用者にわかりやすく提示することができる。

たとえば、回路の故障解析に適用する場合、『どの説明変数を採用すれば、正常らしい回路を故障であると予測アルゴリズムが予測してしまうか、また、どの説明変数を採用すれば、故障らしい回路を正常であると予測アルゴリズムが予測してしまうか』といった利用者の疑問に対し、グラフ表示でわかりやすく提示することができる。

また、『正常らしい回路を故障と予測する』と『故障らしい回路を正常と予測する』ということについて、いずれを重視すればよいかは、利用者に依存する。したがって、たとえば、負例（故障）データ数Ｍｂよりも正例（正常）データ数Ｍａが多い場合、『故障らしい回路を正常と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗを低く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体誤答率を説明変数別に比較すればよい。

これに対し、正例（正常）データ数Ｍａよりも負例（故障）データ数Ｍｂが多い場合、『正常らしい回路を故障と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗを高く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体誤答率を説明変数別に比較すればよい。

また、推薦商品のレコメンデーションに関するデータ解析に適用する場合、『どの説明変数を採用すれば、推薦商品を購入しそうな顧客を「購入しない」と予測アルゴリズムが予測してしまうか、また、どの説明変数を採用すれば、推薦商品を購入しそうにない顧客を「購入する」と予測アルゴリズムが予測してしまうか』といった利用者の疑問に対し、グラフ表示でわかりやすく提示することができる。

また、『推薦商品を購入しそうな顧客を「購入しない」と予測する』と『推薦商品を購入しそうにない顧客を「購入する」と予測する』ということについて、いずれを重視すればよいかは、利用者に依存する。したがって、たとえば、負例（購入しなかった）データ数Ｍｂよりも正例（購入した）データ数Ｍａが多い場合、『推薦商品を購入しそうにない顧客を「購入する」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗを低く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体誤答率を説明変数別に比較すればよい。

これに対し、正例（購入した）データ数Ｍａよりも負例（購入しなかった）データ数Ｍｂが多い場合、『推薦商品を購入しそうな顧客を「購入しない」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗを高く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体誤答率を説明変数別に比較すればよい。

また、融資の与信に関するデータ解析に適用する場合、『どの説明変数を採用すれば、返済できそうな顧客を「返済できない」と予測アルゴリズムが予測してしまうか、また、どの説明変数を採用すれば、返済できそうにない顧客を「返済できる」と予測アルゴリズムが予測してしまうか』といった利用者の疑問に対し、グラフ表示でわかりやすく提示することができる。

また、『返済できそうな顧客を「返済できない」と予測する』と『返済できそうにない顧客を「返済できる」と予測する』ということについて、いずれを重視すればよいかは、利用者に依存する。したがって、たとえば、負例（返済できなかった）データ数Ｍｂよりも正例（返済できた）データ数Ｍａが多い場合、『返済できそうにない顧客を「返済できる」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗを低く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体誤答率を説明変数別に比較すればよい。

これに対し、正例（返済できた）データ数Ｍａよりも負例（返済できなかった）データ数Ｍｂが多い場合、『返済できそうな顧客を「返済できない」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗを高く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体誤答率を説明変数別に比較すればよい。

このように、実施例２Ｂによれば、利用者の関心の程度に応じた全体誤答率で予測アルゴリズムを説明変数別に比較することで、利用者にとって予測アルゴリズムの予測精度がよくなる説明変数をわかりやすく提示することができる。

（実施例３Ａ）
実施例３Ａは、ある１つの予測アルゴリズムを適用する場合に、説明変数群の中からいずれか１つの説明変数を除いた残余の説明変数群について重み付き全体正答率を求めてグラフ表示する例である。これにより、どの説明変数が目的変数との関係において意味のない説明変数であるかを利用者にわかりやすく提示することができる。

図１７は、実施例３Ａにおける残余の説明変数群ごとの重み付き全体正答率を示すグラフである。図１７において、横軸は重み変数ｗ、縦軸は全体正答率を示す。グラフは図５に示したディスプレイ５０８に表示される。図１７では、４種類の残余の説明変数群｛Ｅ２〜Ｅ４｝，｛Ｅ１，Ｅ３，Ｅ４｝，｛Ｅ１，Ｅ２，Ｅ４｝，｛Ｅ１〜Ｅ３｝を用いている。

図１７では、重み変数ｗがどのような値をとっても、残余の説明変数群｛Ｅ２〜Ｅ４｝，｛Ｅ１，Ｅ３，Ｅ４｝，｛Ｅ１，Ｅ２，Ｅ４｝，｛Ｅ１〜Ｅ３｝の中で残余の説明変数群｛Ｅ２〜Ｅ４｝の正答率が最も高い。したがって、説明変数Ｅ１が最も意味のない説明変数であることがわかる。また、残余の説明変数群｛Ｅ１，Ｅ３，Ｅ４｝，｛Ｅ１，Ｅ２，Ｅ４｝については、重み変数ｗが０≦ｗ＜ｗｘでは残余の説明変数群｛Ｅ１，Ｅ２，Ｅ４｝のほうが全体正答率がよく、ｗｘ＜ｗ≦１では残余の説明変数群｛Ｅ１，Ｅ３，Ｅ４｝のほうが全体正答率がよい。

したがって、たとえば、残余の説明変数群｛Ｅ２〜Ｅ４｝について重み付き全体正答率を求めていないときは、利用者は、負例・負例件数よりも正例・正例件数を重視する場合は、重み変数ｗの値が大きいときに正答率がよくなる残余の説明変数群｛Ｅ１，Ｅ３，Ｅ４｝を利用すればよい。一方、正例・正例件数よりも負例・負例件数を重視する場合は、重み変数ｗの値が小さいときに正答率（予測精度）がよくなる残余の説明変数群｛Ｅ１，Ｅ２，Ｅ４｝を採用すればよい。

なお、残余の説明変数群｛Ｅ１〜Ｅ３｝は、残余の説明変数群｛Ｅ２〜Ｅ４｝，｛Ｅ１，Ｅ３，Ｅ４｝，｛Ｅ１，Ｅ２，Ｅ４｝，｛Ｅ１〜Ｅ３｝の中で最も正答率が低い説明変数であるため、利用者は説明変数Ｅ４を採用しないのはよくないということがわかる。

図１８は、実施例３Ａにかかるデータ解析処理手順を示すフローチャートである。図１８において、まず、データ解析装置は、未選択の説明変数があるか否かを判断する（ステップＳ１８０１）。未選択の説明変数がある場合（ステップＳ１８０１：Ｙｅｓ）、データ解析装置は、未選択の説明変数を選択し（ステップＳ１８０２）、選択説明変数を除く残余の説明変数群を選択する（ステップＳ１８０３）。そして、データ解析装置は、評価処理を実行する（ステップＳ１８０４）。評価処理（ステップＳ１８０４）の詳細については図１１で説明した評価処理（ステップＳ１００３）と同一処理内容であるため説明を省略する。評価処理（ステップＳ１８０４）は、選択された残余の説明変数群について実行される。

評価処理（ステップＳ１８０４）のあと、ステップＳ１８０１に戻り、未選択の説明変数がない場合（ステップＳ１８０１：Ｎｏ）、データ解析装置は、図１７に示したように、残余の説明変数群ごとに得られた重み付き全体正答率のグラフ表示処理を実行する（ステップＳ１８０５）。これにより、実施例３Ａでのデータ解析処理を終了する。

このように、実施例３Ａによれば、利用者の正例データについての関心度の高さに応じて、利用者が重み変数ｗを設定することができる。したがって、実施例３Ａでは、利用者が設定した重み変数ｗの値での残余の説明変数群ごとの予測アルゴリズムの予測精度（正答率）を、利用者にわかりやすく提示することができる。

たとえば、回路の故障解析に適用する場合、『どの説明変数を採用しなければ、正常らしい回路を正常であると予測アルゴリズムが予測してくれるか、また、どの説明変数を採用しなければ、故障らしい回路を故障であると予測アルゴリズムが予測してくれるか』といった利用者の疑問に対し、グラフ表示でわかりやすく提示することができる。

また、『正常らしい回路を正常と予測する』と『故障らしい回路を故障と予測する』ということについて、いずれを重視すればよいかは、利用者に依存する。したがって、たとえば、負例（故障）データ数Ｍｂよりも正例（正常）データ数Ｍａが多い場合、『故障らしい回路を故障と予測する』ことを重視するほうがよい。この場合は、利用者は重み変数ｗを低く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体正答率を残余の説明変数群別に比較すればよい。

これに対し、正例（正常）データ数Ｍａよりも負例（故障）データ数Ｍｂが多い場合、
『正常らしい回路を正常と予測する』ことを重視するほうがよい。この場合は、利用者は重み変数ｗを高く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体正答率を残余の説明変数群別に比較すればよい。

また、推薦商品のレコメンデーションに関するデータ解析に適用する場合、『どの説明変数を採用しなければ、推薦商品を購入しそうな顧客を「購入する」と予測アルゴリズムが予測してくれるか、また、どの説明変数を採用しなければ、推薦商品を購入しそうにない顧客を「購入しない」と予測アルゴリズムが予測してくれるか』といった利用者の疑問に対し、グラフ表示でわかりやすく提示することができる。

また、『推薦商品を購入しそうな顧客を「購入する」と予測する』と『推薦商品を購入しそうにない顧客を「購入しない」と予測する』ということについて、いずれを重視すればよいかは、利用者に依存する。したがって、たとえば、負例（購入しなかった）データ数Ｍｂよりも正例（購入した）データ数Ｍａが多い場合、『推薦商品を購入しそうにない顧客を「購入しない」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗを低く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体正答率を残余の説明変数群別に比較すればよい。

これに対し、正例（購入した）データ数Ｍａよりも負例（購入しなかった）データ数Ｍｂが多い場合、『推薦商品を購入しそうな顧客を「購入する」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗを高く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体正答率を残余の説明変数群別に比較すればよい。

また、融資の与信に関するデータ解析に適用する場合、『どの説明変数を採用しなければ、返済できそうな顧客を「返済できる」と予測アルゴリズムが予測してくれるか、また、どの説明変数を採用しなければ、返済できそうにない顧客を「返済できない」と予測アルゴリズムが予測してくれるか』といった利用者の疑問に対し、グラフ表示でわかりやすく提示することができる。

また、『返済できそうな顧客を「返済できる」と予測する』と『返済できそうにない顧客を「返済できない」と予測する』ということについて、いずれを重視すればよいかは、利用者に依存する。したがって、たとえば、負例（返済できなかった）データ数Ｍｂよりも正例（返済できた）データ数Ｍａが多い場合、『返済できそうにない顧客を「返済できない」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗを低く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体正答率を残余の説明変数群別に比較すればよい。

これに対し、正例（返済できた）データ数Ｍａよりも負例（返済できなかった）データ数Ｍｂが多い場合、『返済できそうな顧客を「返済できる」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗを高く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体正答率を残余の説明変数群別に比較すればよい。

このように、実施例３Ａによれば、利用者の関心の程度に応じた全体正答率で予測アルゴリズムを残余の説明変数群別に比較することで、利用者にとって予測アルゴリズムの予測精度がよくなるために不要な説明変数をわかりやすく提示することができる。

（実施例３Ｂ）
実施例３Ｂは、ある１つの予測アルゴリズムを適用する場合に、説明変数群の各々について重み付き全体誤答率を求めてグラフ表示する例である。これにより、どの説明変数が目的変数に関係しているかを利用者にわかりやすく提示することができる。

図１９は、実施例３Ｂにおける説明変数ごとの重み付き全体誤答率を示すグラフである。図１９において、横軸は重み変数ｗ、縦軸は全体誤答率を示す。グラフは図５に示したディスプレイ５０８に表示される。図１９では、４種類の残余の説明変数群｛Ｅ２〜Ｅ４｝，｛Ｅ１，Ｅ３，Ｅ４｝，｛Ｅ１，Ｅ２，Ｅ４｝，｛Ｅ１〜Ｅ３｝を用いている。

図１９では、重み変数ｗがどのような値をとっても、残余の説明変数群｛Ｅ２〜Ｅ４｝，｛Ｅ１，Ｅ３，Ｅ４｝，｛Ｅ１，Ｅ２，Ｅ４｝，｛Ｅ１〜Ｅ３｝の中で残余の説明変数群｛Ｅ２〜Ｅ４｝の誤答率が最も高い。したがって、説明変数Ｅ１が最も重要な説明変数であることが分かる。また、残余の説明変数群｛Ｅ１，Ｅ３，Ｅ４｝，｛Ｅ１，Ｅ２，Ｅ４｝については、重み変数ｗが０≦ｗ＜ｗｘでは残余の説明変数群｛Ｅ１，Ｅ３，Ｅ４｝のほうが全体誤答率がよく、ｗｘ＜ｗ≦１では残余の説明変数群｛Ｅ１，Ｅ２，Ｅ４｝のほうが全体誤答率がよい。

したがって、たとえば、残余の説明変数群｛Ｅ１〜Ｅ３｝について重み付き全体誤答率を求めていないときは、利用者は、負例・正例件数よりも正例・負例件数を重視する場合は、重み変数ｗの値が大きいときに誤答率がよくなる残余の説明変数群｛Ｅ１，Ｅ２，Ｅ４｝を利用すればよい。正例・負例件数よりも負例・正例件数を重視する場合は、重み変数ｗの値が小さいときに誤答率がよくなる残余の説明変数群｛Ｅ１，Ｅ３，Ｅ４｝を利用すればよい。

なお、残余の説明変数群｛Ｅ１〜Ｅ３｝は、残余の説明変数群｛Ｅ２〜Ｅ４｝，｛Ｅ１，Ｅ３，Ｅ４｝，｛Ｅ１，Ｅ２，Ｅ４｝，｛Ｅ１〜Ｅ３｝の中で最も誤答率が低い残余の説明変数群であるため、利用者は説明変数Ｅ４が最も重要でない説明変数であることが分かる。

なお、実施例３Ｂにかかるデータ解析処理手順は、評価処理（ステップＳ１８０４）の詳細以外は、図１８に示した処理手順と同じである。実施例３Ｂでは、評価処理（ステップＳ１８０４）の詳細な処理が、図１３に示した評価処理（ステップＳ１００３）になる。評価処理（ステップＳ１８０４）は、選択された残余の説明変数群について実行される。

このように、実施例３Ｂによれば、利用者の負例データについての関心度の高さに応じて、利用者が重み変数ｗを設定することができる。したがって、実施例３Ｂでは、利用者が設定した重み変数ｗの値での残余の説明変数群ごとの予測アルゴリズムの予測精度（誤答率）を、利用者にわかりやすく提示することができる。

たとえば、回路の故障解析に適用する場合、『どの説明変数を採用しなければ、正常らしい回路を故障であると予測アルゴリズムが予測してしまうか、また、どの説明変数を採用しなければ、故障らしい回路を正常であると予測アルゴリズムが予測してしまうか』といった利用者の疑問に対し、グラフ表示でわかりやすく提示することができる。

また、『正常らしい回路を故障と予測する』と『故障らしい回路を正常と予測する』ということについて、いずれを重視すればよいかは、利用者に依存する。したがって、たとえば、負例（故障）データ数Ｍｂよりも正例（正常）データ数Ｍａが多い場合、『故障らしい回路を正常と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗを低く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体誤答率を残余の説明変数群別に比較すればよい。

これに対し、正例（正常）データ数Ｍａよりも負例（故障）データ数Ｍｂが多い場合、『正常らしい回路を故障と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗを高く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体誤答率を残余の説明変数群別に比較すればよい。

また、推薦商品のレコメンデーションに関するデータ解析に適用する場合、『どの説明変数を採用しなければ、推薦商品を購入しそうな顧客を「購入しない」と予測アルゴリズムが予測してしまうか、また、どの説明変数を採用しなければ、推薦商品を購入しそうにない顧客を「購入する」と予測アルゴリズムが予測してしまうか』といった利用者の疑問に対し、グラフ表示でわかりやすく提示することができる。

また、『推薦商品を購入しそうな顧客を「購入しない」と予測する』と『推薦商品を購入しそうにない顧客を「購入する」と予測する』ということについて、いずれを重視すればよいかは、利用者に依存する。したがって、たとえば、負例（購入しなかった）データ数Ｍｂよりも正例（購入した）データ数Ｍａが多い場合、『推薦商品を購入しそうにない顧客を「購入する」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗを低く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体誤答率を残余の説明変数群別に比較すればよい。

これに対し、正例（購入した）データ数Ｍａよりも負例（購入しなかった）データ数Ｍｂが多い場合、『推薦商品を購入しそうな顧客を「購入しない」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗを高く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体誤答率を残余の説明変数群別に比較すればよい。

また、融資の与信に関するデータ解析に適用する場合、『どの説明変数を採用しなければ、返済できそうな顧客を「返済できない」と予測アルゴリズムが予測してしまうか、また、どの説明変数を採用しなければ、返済できそうにない顧客を「返済できる」と予測アルゴリズムが予測してしまうか』といった利用者の疑問に対し、グラフ表示でわかりやすく提示することができる。

また、『返済できそうな顧客を「返済できない」と予測する』と『返済できそうにない顧客を「返済できる」と予測する』ということについて、いずれを重視すればよいかは、利用者に依存する。したがって、たとえば、負例（返済できなかった）データ数Ｍｂよりも正例（返済できた）データ数Ｍａが多い場合、『返済できそうにない顧客を「返済できる」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗを低く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体誤答率を残余の説明変数群別に比較すればよい。

これに対し、正例（返済できた）データ数Ｍａよりも負例（返済できなかった）データ数Ｍｂが多い場合、『返済できそうな顧客を「返済できない」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗを高く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体誤答率を残余の説明変数群別に比較すればよい。

このように、実施例３Ｂによれば、利用者の関心の程度に応じた全体誤答率で予測アルゴリズムを残余の説明変数群別に比較することで、利用者にとって予測アルゴリズムの予測精度がよくなるために不要な説明変数をわかりやすく提示することができる。

（実施例４Ａ）
実施例４Ａは、予測アルゴリズムごとに、説明変数の各々について全体正答率を求めてグラフ表示する例である。すなわち、実施例４Ａは、実施例１Ａと実施例２Ａとを組み合わせた例である。実施例４Ａでは、重み変数ｗの値はあらかじめ指定されることになる。これにより、予測アルゴリズムと説明変数との組み合わせごとに、どの説明変数を採用するとどの予測アルゴリズムの予測精度（正答率）がよくなるかを利用者にわかりやすく提示することができる。

図２０は、実施例４Ａにおける予測アルゴリズムと説明変数との組み合わせごとの全体正答率を示すグラフ５０８である。図２０において、横軸は説明変数、縦軸は全体正答率を示す。グラフは図５に示したディスプレイに表示される。図２０では、４種類の予測アルゴリズムＰ１〜Ｐ４と４種類の説明変数Ｅ１〜Ｅ４を用いている。

図２０では、予測アルゴリズムＰ１〜Ｐ４ごとに、説明変数Ｅ１〜Ｅ４を採用した場合の全体正答率を折れ線グラフで表示している。たとえば、予測アルゴリズムＰ１は、説明変数Ｅ２〜Ｅ４を採用したときは最も予測精度がよい予測アルゴリズムとなるが、説明変数Ｅ１を採用したときに限り、最も予測精度が悪い予測アルゴリズムとなる。

このように、予測アルゴリズムがＱ個、説明変数がＲ個あるとすると、Ｑ×Ｒの組み合わせを網羅した折れ線グラフを得ることができ、どの組み合わせにすると正答率がよくなるか、どの組み合わせにすると正答率が悪くなるか、といったことをわかりやすく提示することができる。

図２１は、実施例４Ａにかかるデータ解析処理手順を示すフローチャートである。図２１において、重み変数ｗの値は指定済みとする。まず、データ解析装置は、未選択の予測アルゴリズムがあるか否かを判断する（ステップＳ２１０１）。未選択の予測アルゴリズムがある場合（ステップＳ２１０１：Ｙｅｓ）、データ解析装置は、未選択の予測アルゴリズムを選択する（ステップＳ２１０２）。

つぎに、データ解析装置は、選択予測アルゴリズムにおいて未選択の説明変数があるか否かを判断する（ステップＳ２１０３）。未選択の説明変数がある場合（ステップＳ２１０３：Ｙｅｓ）、データ解析装置は、未選択の説明変数を選択し（ステップＳ２１０４）、評価処理を実行する（ステップＳ２１０５）。評価処理（ステップＳ２１０５）の詳細については図１１で説明した評価処理（ステップＳ１００３）と同一処理内容であるため説明を省略する。評価処理（ステップＳ２１０５）は、選択予測アルゴリズムと選択説明変数との組み合わせについて実行される。

評価処理（ステップＳ２１０５）のあと、ステップＳ２１０３に戻り、未選択の説明変数がない場合（ステップＳ２１０３：Ｎｏ）、ステップＳ２１０１に戻り、データ解析装置は、未選択の予測アルゴリズムがあるか否かを判断する（ステップＳ２１０１）。そして、未選択の予測アルゴリズムがない場合（ステップＳ２１０１：Ｎｏ）、データ解析装置は、図２０に示したように、予測アルゴリズムと説明変数との組み合わせごとに得られた全体正答率のグラフ表示処理を実行する（ステップＳ２１０６）。これにより、実施例４Ａでのデータ解析処理を終了する。

このように、実施例４Ａによれば、利用者の正例データについての関心度の高さに応じて、利用者が設定した重み変数ｗの値で、予測アルゴリズムごとに、説明変数ごとの予測アルゴリズムの予測精度（正答率）を、利用者にわかりやすく提示することができる。

たとえば、回路の故障解析に適用する場合、『どの説明変数とどの予測アルゴリズムを採用すれば、正常らしい回路を正常であると予測アルゴリズムが予測してくれるか、また、どの説明変数とどの予測アルゴリズムを採用すれば、故障らしい回路を故障であると予測アルゴリズムが予測してくれるか』といった利用者の疑問に対し、グラフ表示でわかりやすく提示することができる。

また、『正常らしい回路を正常と予測する』と『故障らしい回路を故障と予測する』ということについて、いずれを重視すればよいかは、利用者に依存する。したがって、たとえば、負例（故障）データ数Ｍｂよりも正例（正常）データ数Ｍａが多い場合、『故障らしい回路を故障と予測する』ことを重視するほうがよい。この場合は、利用者は重み変数ｗの値をあらかじめ低く設定することで、利用者の設定した重み変数ｗの値での全体正答率を、予測アルゴリズムと説明変数との組み合わせ別に比較すればよい。

これに対し、正例（正常）データ数Ｍａよりも負例（故障）データ数Ｍｂが多い場合、
『正常らしい回路を正常と予測する』ことを重視するほうがよい。この場合は、利用者は重み変数ｗの値をあらかじめ高く設定することで、利用者の設定した重み変数ｗの値での全体正答率を、予測アルゴリズムと説明変数との組み合わせ別に比較すればよい。

また、推薦商品のレコメンデーションに関するデータ解析に適用する場合、『どの説明変数とどの予測アルゴリズムを採用すれば、推薦商品を購入しそうな顧客を「購入する」と予測アルゴリズムが予測してくれるか、また、どの説明変数とどの予測アルゴリズムを採用すれば、推薦商品を購入しそうにない顧客を「購入しない」と予測アルゴリズムが予測してくれるか』といった利用者の疑問に対し、グラフ表示でわかりやすく提示することができる。

また、『推薦商品を購入しそうな顧客を「購入する」と予測する』と『推薦商品を購入しそうにない顧客を「購入しない」と予測する』ということについて、いずれを重視すればよいかは、利用者に依存する。したがって、たとえば、負例（購入しなかった）データ数Ｍｂよりも正例（購入した）データ数Ｍａが多い場合、『推薦商品を購入しそうにない顧客を「購入しない」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗの値をあらかじめ低く指定することで、利用者の設定した重み変数ｗの値での全体正答率を、予測アルゴリズムと説明変数との組み合わせ別に比較すればよい。

これに対し、正例（購入した）データ数Ｍａよりも負例（購入しなかった）データ数Ｍｂが多い場合、『推薦商品を購入しそうな顧客を「購入する」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗの値をあらかじめ高く設定することで、利用者の設定した重み変数ｗの値での全体正答率を、予測アルゴリズムと説明変数との組み合わせ別に比較すればよい。

また、融資の与信に関するデータ解析に適用する場合、『どの説明変数とどの予測アルゴリズムを採用すれば、返済できそうな顧客を「返済できる」と予測アルゴリズムが予測してくれるか、また、どの説明変数とどの予測アルゴリズムを採用すれば、返済できそうにない顧客を「返済できない」と予測アルゴリズムが予測してくれるか』といった利用者の疑問に対し、グラフ表示でわかりやすく提示することができる。

また、『返済できそうな顧客を「返済できる」と予測する』と『返済できそうにない顧客を「返済できない」と予測する』ということについて、いずれを重視すればよいかは、利用者に依存する。したがって、たとえば、負例（返済できなかった）データ数Ｍｂよりも正例（返済できた）データ数Ｍａが多い場合、『返済できそうにない顧客を「返済できない」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗの値をあらかじめ低く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体正答率を説明変数別に比較すればよい。

これに対し、正例（返済できた）データ数Ｍａよりも負例（返済できなかった）データ数Ｍｂが多い場合、『返済できそうな顧客を「返済できる」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗの値をあらかじめ高く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体正答率を説明変数別に比較すればよい。

このように、実施例４Ａによれば、利用者の関心の程度に応じた全体正答率を、予測アルゴリズムと説明変数との組み合わせ別に比較することで、利用者にとってどの組み合わせを採用すれば正答率がよくなるか、どの組み合わせを採用すれば正答率が悪くなるかをわかりやすく提示することができる。

（実施例４Ｂ）
実施例４Ｂは、予測アルゴリズムごとに、説明変数の各々について全体誤答率を求めてグラフ表示する例である。すなわち、実施例４Ｂは、実施例１Ｂと実施例２Ｂとを組み合わせた例である。実施例４Ｂでは、重み変数ｗの値はあらかじめ指定されることになる。これにより、予測アルゴリズムと説明変数との組み合わせごとに、どの説明変数を採用するとどの予測アルゴリズムの予測精度（誤答率）がよくなるかを利用者にわかりやすく提示することができる。

図２２は、実施例４Ｂにおける予測アルゴリズムと説明変数との組み合わせごとの全体誤答率を示すグラフである。図２２において、横軸は説明変数、縦軸は全体誤答率を示す。グラフは図５に示したディスプレイ５０８に表示される。図２２では、４種類の予測アルゴリズムＰ１〜Ｐ４と４種類の説明変数Ｅ１〜Ｅ４を用いている。

図２２では、予測アルゴリズムＰ１〜Ｐ４ごとに、説明変数Ｅ１〜Ｅ４を採用した場合の全体誤答率を折れ線グラフで表示している。たとえば、予測アルゴリズムＰ１は、説明変数Ｅ２〜Ｅ４を採用したときは最も予測精度がよい予測アルゴリズムとなるが、説明変数Ｅ１を採用したときに限り、最も予測精度が悪い予測アルゴリズムとなる。

このように、予測アルゴリズムがＱ個、説明変数がＲ個あるとすると、Ｊ×Ｋの組み合わせを網羅した折れ線グラフを得ることができ、どの組み合わせにすると誤答率がよくなるか、どの組み合わせにすると誤答率が悪くなるか、といったことをわかりやすく提示することができる。

なお、実施例４Ｂにかかるデータ解析処理手順は、評価処理（ステップＳ２１０５）の詳細以外は、図２１に示した処理手順と同じである。実施例４Ｂでは、評価処理（ステップＳ２１０５）の詳細な処理が、図１３に示した評価処理（ステップＳ１００３）になる。評価処理（ステップＳ２１０５）は、選択予測アルゴリズムと選択説明変数との組み合わせについて実行される。

このように、実施例４Ｂによれば、利用者の負例データについての関心度の高さに応じて、利用者が重み変数ｗの値で、予測アルゴリズムごとに、説明変数ごとの予測アルゴリズムの予測精度（誤答率）を、利用者にわかりやすく提示することができる。

たとえば、回路の故障解析に適用する場合、『どの説明変数とどの予測アルゴリズムを採用すれば、正常らしい回路を故障であると予測アルゴリズムが予測してしまうか、また、どの説明変数とどの予測アルゴリズムを採用すれば、故障らしい回路を正常であると予測アルゴリズムが予測してしまうか』といった利用者の疑問に対し、グラフ表示でわかりやすく提示することができる。

また、『正常らしい回路を故障と予測する』と『故障らしい回路を正常と予測する』ということについて、いずれを重視すればよいかは、利用者に依存する。したがって、たとえば、負例（故障）データ数Ｍｂよりも正例（正常）データ数Ｍａが多い場合、『故障らしい回路を正常と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗの値をあらかじめ低く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体誤答率を説明変数別に比較すればよい。

これに対し、正例（正常）データ数Ｍａよりも負例（故障）データ数Ｍｂが多い場合、『正常らしい回路を故障と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗの値をあらかじめ高く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体誤答率を説明変数別に比較すればよい。

また、推薦商品のレコメンデーションに関するデータ解析に適用する場合、『どの説明変数とどの予測アルゴリズムを採用すれば、推薦商品を購入しそうな顧客を「購入しない」と予測アルゴリズムが予測してしまうか、また、どの説明変数とどの予測アルゴリズムを採用すれば、推薦商品を購入しそうにない顧客を「購入する」と予測アルゴリズムが予測してしまうか』といった利用者の疑問に対し、グラフ表示でわかりやすく提示することができる。

また、『推薦商品を購入しそうな顧客を「購入しない」と予測する』と『推薦商品を購入しそうにない顧客を「購入する」と予測する』ということについて、いずれを重視すればよいかは、利用者に依存する。したがって、たとえば、負例（購入しなかった）データ数Ｍｂよりも正例（購入した）データ数Ｍａが多い場合、『推薦商品を購入しそうにない顧客を「購入する」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗの値をあらかじめ低く指定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体誤答率を説明変数別に比較すればよい。

これに対し、正例（購入した）データ数Ｍａよりも負例（購入しなかった）データ数Ｍｂが多い場合、『推薦商品を購入しそうな顧客を「購入しない」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗの値をあらかじめ高く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体誤答率を説明変数別に比較すればよい。

また、融資の与信に関するデータ解析に適用する場合、『どの説明変数とどの予測アルゴリズムを採用すれば、返済できそうな顧客を「返済できない」と予測アルゴリズムが予測してしまうか、また、どの説明変数とどの予測アルゴリズムを採用すれば、返済できそうにない顧客を「返済できる」と予測アルゴリズムが予測してしまうか』といった利用者の疑問に対し、グラフ表示でわかりやすく提示することができる。

また、『返済できそうな顧客を「返済できない」と予測する』と『返済できそうにない顧客を「返済できる」と予測する』ということについて、いずれを重視すればよいかは、利用者に依存する。したがって、たとえば、負例（返済できなかった）データ数Ｍｂよりも正例（返済できた）データ数Ｍａが多い場合、『返済できそうにない顧客を「返済できる」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗの値をあらかじめ低く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体誤答率を説明変数別に比較すればよい。

これに対し、正例（返済できた）データ数Ｍａよりも負例（返済できなかった）データ数Ｍｂが多い場合、『返済できそうな顧客を「返済できない」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗの値をあらかじめ高く指定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体誤答率を説明変数別に比較すればよい。

このように、実施例４Ｂによれば、利用者の関心の程度に応じた全体誤答率を、予測アルゴリズムと説明変数との組み合わせ別に比較することで、利用者にとってどの組み合わせを採用すれば誤答率がよくなるか、どの組み合わせを採用すれば誤答率が悪くなるかをわかりやすく提示することができる。

（実施例５Ａ）
実施例５Ａは、予測アルゴリズムごとに、説明変数群からいずれか１つの説明変数を除いた残余の説明変数群の各々について全体正答率を求めてグラフ表示する例である。すなわち、実施例５Ａは、実施例１Ａと実施例３Ａとを組み合わせた例である。実施例５Ａでは、重み変数ｗの値はあらかじめ指定されることになる。これにより、予測アルゴリズムと残余の説明変数群との組み合わせごとに、どの説明変数を採用しないとどの予測アルゴリズムの予測精度（正答率）がよくなるかを利用者にわかりやすく提示することができる。

図２３は、実施例５Ａにおける予測アルゴリズムと残余の説明変数群との組み合わせごとの全体正答率を示すグラフである。図２３において、横軸は残余の説明変数群、縦軸は全体正答率を示す。グラフは図５に示したディスプレイに表示される。図２３では、４種類の予測アルゴリズムＰ１〜Ｐ４と４種類の残余の説明変数群｛Ｅ２〜Ｅ４｝，｛Ｅ１，Ｅ３，Ｅ４｝，｛Ｅ１，Ｅ２，Ｅ４｝，｛Ｅ１〜Ｅ３｝を用いている。

図２３では、予測アルゴリズムＰ１〜Ｐ４ごとに、残余の説明変数群｛Ｅ２〜Ｅ４｝，｛Ｅ１，Ｅ３，Ｅ４｝，｛Ｅ１，Ｅ２，Ｅ４｝，｛Ｅ１〜Ｅ３｝を採用した場合の全体正答率を折れ線グラフで表示している。たとえば、予測アルゴリズムＰ１は、残余の説明変数群｛Ｅ１，Ｅ３，Ｅ４｝，｛Ｅ１，Ｅ２，Ｅ４｝，｛Ｅ１〜Ｅ３｝を採用したときは最も予測精度がよい予測アルゴリズムとなるが、残余の説明変数群｛Ｅ２〜Ｅ４｝を採用したときに限り、最も予測精度が悪い予測アルゴリズムとなる。

このように、予測アルゴリズムがＱ個、残余の説明変数群がＲ個あるとすると、Ｊ×Ｋの組み合わせを網羅した折れ線グラフを得ることができ、どの組み合わせにすると正答率がよくなるか、どの組み合わせにすると正答率が悪くなるか、といったことをわかりやすく提示することができる。

図２４は、実施例５Ａにかかるデータ解析処理手順を示すフローチャートである。図２４において、重み変数ｗの値は指定済みとする。まず、データ解析装置は、未選択の予測アルゴリズムがあるか否かを判断する（ステップＳ２４０１）。未選択の予測アルゴリズムがある場合（ステップＳ２４０１：Ｙｅｓ）、データ解析装置は、未選択の予測アルゴリズムを選択する（ステップＳ２４０２）。

つぎに、データ解析装置は、選択予測アルゴリズムにおいて未選択の説明変数があるか否かを判断する（ステップＳ２４０３）。未選択の説明変数がある場合（ステップＳ２４０３：Ｙｅｓ）、データ解析装置は、未選択の説明変数を選択し（ステップＳ２４０４）、選択説明変数を除く残余の説明変数群を選択する（ステップＳ２４０５）。そして、データ解析装置は、評価処理を実行する（ステップＳ２４０６）。評価処理（ステップＳ２４０６）の詳細については図１１で説明した評価処理（ステップＳ１００３）と同一処理内容であるため説明を省略する。評価処理（ステップＳ２４０６）は、選択予測アルゴリズムと選択された残余の説明変数群との組み合わせについて実行される。

評価処理（ステップＳ２４０６）のあと、ステップＳ２４０３に戻り、未選択の説明変数がない場合（ステップＳ２４０３：Ｎｏ）、ステップＳ２４０１に戻り、データ解析装置は、未選択の予測アルゴリズムがあるか否かを判断する（ステップＳ２４０１）。そして、未選択の予測アルゴリズムがない場合（ステップＳ２４０１：Ｎｏ）、データ解析装置は、図２３に示したように、予測アルゴリズムと残余の説明変数群との組み合わせごとに得られた全体正答率のグラフ表示処理を実行する（ステップＳ２４０７）。これにより、実施例４Ａでのデータ解析処理を終了する。

このように、実施例５Ａによれば、利用者の正例データについての関心度の高さに応じて、利用者が設定した重み変数ｗの値で、予測アルゴリズムごとに、残余の説明変数群ごとの予測アルゴリズムの予測精度（正答率）を、利用者にわかりやすく提示することができる。

たとえば、回路の故障解析に適用する場合、『予測アルゴリズムの各々についてどの説明変数を採用しなければ、正常らしい回路を正常であると予測アルゴリズムが予測してくれるか、また、予測アルゴリズムの各々についてどの説明変数を採用しなければ、故障らしい回路を故障であると予測アルゴリズムが予測してくれるか』といった利用者の疑問に対し、グラフ表示でわかりやすく提示することができる。

また、『正常らしい回路を正常と予測する』と『故障らしい回路を故障と予測する』ということについて、いずれを重視すればよいかは、利用者に依存する。したがって、たとえば、負例（故障）データ数Ｍｂよりも正例（正常）データ数Ｍａが多い場合、『故障らしい回路を故障と予測する』ことを重視するほうがよい。この場合は、利用者は重み変数ｗの値をあらかじめ低く設定することで、利用者の設定した重み変数ｗの値での全体正答率を、予測アルゴリズムと残余の説明変数群との組み合わせ別に比較すればよい。

これに対し、正例（正常）データ数Ｍａよりも負例（故障）データ数Ｍｂが多い場合、
『正常らしい回路を正常と予測する』ことを重視するほうがよい。この場合は、利用者は重み変数ｗの値をあらかじめ高く設定することで、利用者の設定した重み変数ｗの値での全体正答率を、予測アルゴリズムと残余の説明変数との組み合わせ別に比較すればよい。

また、推薦商品のレコメンデーションに関するデータ解析に適用する場合、『予測アルゴリズムの各々についてどの説明変数を採用しなければ、推薦商品を購入しそうな顧客を「購入する」と予測アルゴリズムが予測してくれるか、また、予測アルゴリズムの各々についてどの説明変数を採用しなければ、推薦商品を購入しそうにない顧客を「購入しない」と予測アルゴリズムが予測してくれるか』といった利用者の疑問に対し、グラフ表示でわかりやすく提示することができる。

また、『推薦商品を購入しそうな顧客を「購入する」と予測する』と『推薦商品を購入しそうにない顧客を「購入しない」と予測する』ということについて、いずれを重視すればよいかは、利用者に依存する。したがって、たとえば、負例（購入しなかった）データ数Ｍｂよりも正例（購入した）データ数Ｍａが多い場合、『推薦商品を購入しそうにない顧客を「購入しない」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗの値をあらかじめ低く設定することで、利用者の設定した重み変数ｗの値での全体正答率を、予測アルゴリズムと残余の説明変数群との組み合わせ別に比較すればよい。

これに対し、正例（購入した）データ数Ｍａよりも負例（購入しなかった）データ数Ｍｂが多い場合、『推薦商品を購入しそうな顧客を「購入する」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗの値をあらかじめ高く設定することで、利用者の設定した重み変数ｗの値での全体正答率を、予測アルゴリズムと残余の説明変数群との組み合わせ別に比較すればよい。

また、融資の与信に関するデータ解析に適用する場合、『予測アルゴリズムの各々についてどの説明変数を採用しなければ、返済できそうな顧客を「返済できる」と予測アルゴリズムが予測してくれるか、また、予測アルゴリズムの各々についてどの説明変数を採用しなければ、返済できそうにない顧客を「返済できない」と予測アルゴリズムが予測してくれるか』といった利用者の疑問に対し、グラフ表示でわかりやすく提示することができる。

また、『返済できそうな顧客を「返済できる」と予測する』と『返済できそうにない顧客を「返済できない」と予測する』ということについて、いずれを重視すればよいかは、利用者に依存する。したがって、たとえば、負例（返済できなかった）データ数Ｍｂよりも正例（返済できた）データ数Ｍａが多い場合、『返済できそうにない顧客を「返済できない」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗの値をあらかじめ低く指定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体正答率を残余の説明変数群別に比較すればよい。

これに対し、正例（返済できた）データ数Ｍａよりも負例（返済できなかった）データ数Ｍｂが多い場合、『返済できそうな顧客を「返済できる」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗの値をあらかじめ高く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体正答率を残余の説明変数群別に比較すればよい。

このように、実施例５Ａによれば、利用者の関心の程度に応じた全体正答率を、予測アルゴリズムと残余の説明変数群との組み合わせ別に比較することで、利用者にとって予測アルゴリズムの各々についてどの説明変数を採用しなければ正答率がよくなるか、予測アルゴリズムの各々についてどの説明変数を採用しなければ正答率が悪くなるかをわかりやすく提示することができる。

（実施例５Ｂ）
実施例５Ｂは、予測アルゴリズムごとに、残余の説明変数群の各々について全体誤答率を求めてグラフ表示する例である。すなわち、実施例５Ｂは、実施例１Ｂと実施例３Ｂとを組み合わせた例である。実施例５Ｂでは、重み変数ｗの値はあらかじめ指定されることになる。これにより、予測アルゴリズムと残余の説明変数群との組み合わせごとに、どの説明変数を採用しないとどの予測アルゴリズムの予測精度（誤答率）がよくなるかを利用者にわかりやすく提示することができる。

図２５は、実施例５Ｂにおける予測アルゴリズムと残余の説明変数群との組み合わせごとの全体誤答率を示すグラフである。図２５において、横軸は残余の説明変数群、縦軸は全体誤答率を示す。グラフは図５に示したディスプレイに表示される。図２５では、４種類の予測アルゴリズムＰ１〜Ｐ４と４種類の残余の説明変数群｛Ｅ２〜Ｅ４｝，｛Ｅ１，Ｅ３，Ｅ４｝，｛Ｅ１，Ｅ２，Ｅ４｝，｛Ｅ１〜Ｅ３｝を用いている。

図２５では、予測アルゴリズムＰ１〜Ｐ４ごとに、残余の説明変数群｛Ｅ２〜Ｅ４｝，｛Ｅ１，Ｅ３，Ｅ４｝，｛Ｅ１，Ｅ２，Ｅ４｝，｛Ｅ１〜Ｅ３｝を採用した場合の全体誤答率を折れ線グラフで表示している。たとえば、予測アルゴリズムＰ１は、残余の説明変数群｛Ｅ１，Ｅ３，Ｅ４｝，｛Ｅ１，Ｅ２，Ｅ４｝，｛Ｅ１〜Ｅ３｝を採用したときは最も予測精度がよい予測アルゴリズムとなるが、残余の説明変数群｛Ｅ２〜Ｅ４｝を採用したときに限り、最も予測精度が悪い予測アルゴリズムとなる。

なお、実施例５Ｂにかかるデータ解析処理手順は、評価処理（ステップＳ２４０６）の詳細以外は、図２４に示した処理手順と同じである。実施例５Ｂでは、評価処理（ステップＳ２４０６）の詳細な処理が、図１３に示した評価処理（ステップＳ１００３）になる。評価処理（ステップＳ２４０６）は、選択予測アルゴリズムと選択された残余の説明変数群との組み合わせについて実行される。

このように、実施例５Ｂによれば、利用者の負例データについての関心度の高さに応じて、利用者が設定した重み変数ｗの値で、予測アルゴリズムごとに、残余の説明変数群ごとの予測アルゴリズムの予測精度（誤答率）を、利用者にわかりやすく提示することができる。

たとえば、回路の故障解析に適用する場合、『予測アルゴリズムの各々についてどの説明変数を採用しなければ、正常らしい回路を故障であると予測アルゴリズムが予測してしまうか、また、予測アルゴリズムの各々についてどの説明変数を採用しなければ、故障らしい回路を正常であると予測アルゴリズムが予測してしまうか』といった利用者の疑問に対し、グラフ表示でわかりやすく提示することができる。

また、『正常らしい回路を故障と予測する』と『故障らしい回路を正常と予測する』ということについて、いずれを重視すればよいかは、利用者に依存する。したがって、たとえば、負例（故障）データ数Ｍｂよりも正例（正常）データ数Ｍａが多い場合、『故障らしい回路を正常と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗの値をあらかじめ低く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体誤答率を残余の説明変数群別に比較すればよい。

これに対し、正例（正常）データ数Ｍａよりも負例（故障）データ数Ｍｂが多い場合、『正常らしい回路を故障と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗの値をあらかじめ高く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体誤答率を残余の説明変数群別に比較すればよい。

また、推薦商品のレコメンデーションに関するデータ解析に適用する場合、『予測アルゴリズムの各々についてどの説明変数を採用しなければ、推薦商品を購入しそうな顧客を「購入しない」と予測アルゴリズムが予測してしまうか、また、予測アルゴリズムの各々についてどの説明変数を採用しなければ、推薦商品を購入しそうにない顧客を「購入する」と予測アルゴリズムが予測してしまうか』といった利用者の疑問に対し、グラフ表示でわかりやすく提示することができる。

また、『推薦商品を購入しそうな顧客を「購入しない」と予測する』と『推薦商品を購入しそうにない顧客を「購入する」と予測する』ということについて、いずれを重視すればよいかは、利用者に依存する。したがって、たとえば、負例（購入しなかった）データ数Ｍｂよりも正例（購入した）データ数Ｍａが多い場合、『推薦商品を購入しそうにない顧客を「購入する」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗの値をあらかじめ低く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体誤答率を残余の説明変数群別に比較すればよい。

これに対し、正例（購入した）データ数Ｍａよりも負例（購入しなかった）データ数Ｍｂが多い場合、『推薦商品を購入しそうな顧客を「購入しない」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗの値をあらかじめ高く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体誤答率を残余の説明変数群別に比較すればよい。

また、融資の与信に関するデータ解析に適用する場合、『予測アルゴリズムの各々についてどの説明変数を採用しなければ、返済できそうな顧客を「返済できない」と予測アルゴリズムが予測してしまうか、また、予測アルゴリズムの各々についてどの説明変数を採用しなければ、返済できそうにない顧客を「返済できる」と予測アルゴリズムが予測してしまうか』といった利用者の疑問に対し、グラフ表示でわかりやすく提示することができる。

また、『返済できそうな顧客を「返済できない」と予測する』と『返済できそうにない顧客を「返済できる」と予測する』ということについて、いずれを重視すればよいかは、利用者に依存する。したがって、たとえば、負例（返済できなかった）データ数Ｍｂよりも正例（返済できた）データ数Ｍａが多い場合、『返済できそうにない顧客を「返済できる」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗの値をあらかじめ低く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体誤答率を残余の説明変数群別に比較すればよい。

これに対し、正例（返済できた）データ数Ｍａよりも負例（返済できなかった）データ数Ｍｂが多い場合、『返済できそうな顧客を「返済できない」と予測する』ことを重視したほうがよい。この場合は、利用者は重み変数ｗの値をあらかじめ高く設定することで、利用者の設定した重み変数ｗの値での予測アルゴリズムの全体誤答率を残余の説明変数群別に比較すればよい。

このように、実施例５Ｂによれば、利用者の関心の程度に応じた全体誤答率を、予測アルゴリズムと残余の説明変数群との組み合わせ別に比較することで、利用者にとって予測アルゴリズムの各々についてどの説明変数を採用しなければ正答率がよくなるか、予測アルゴリズムの各々についてどの説明変数を採用しなければ正答率が悪くなるかをわかりやすく提示することができる。

（実施例６Ａ）
実施例６Ａは、予測アルゴリズムごとに全体正答率を算出してグラフ表示する例である。実施例１Ａとの相違点は、重み変数ｗの値と説明変数とをあらかじめ指定しておく点である。それ以外は実施例１Ａと同一である。これにより、利用者が設定した重み変数ｗの値および説明変数で、どの予測アルゴリズムの予測精度（正答率）がよいかを利用者にわかりやすく提示することができる。なお、実施例６Ａにかかるデータ解析処理手順は、実施例１Ａと同一であるため省略する。

図２６は、実施例６Ａにおける予測アルゴリズムごとの全体正答率を示すグラフである。図２６において、横軸は予測アルゴリズム、縦軸は全体正答率を示す。図２６では、棒グラフによりグラフ表示する例を示している。図２６のグラフを表示することで、利用者は、自身が指定した重み変数ｗの値および説明変数において、どの予測アルゴリズムの予測精度がよいかを把握することができる。

（実施例６Ｂ）
実施例６Ｂは、予測アルゴリズムごとに全体誤答率を算出してグラフ表示する例である。実施例１Ｂとの相違点は、重み変数ｗの値と説明変数とをあらかじめ指定しておく点である。それ以外は実施例１Ｂと同一である。これにより、利用者が設定した重み変数ｗの値および説明変数で、どの予測アルゴリズムの予測精度（誤答率）がよいかを利用者にわかりやすく提示することができる。なお、実施例６Ｂにかかるデータ解析処理手順は、実施例１Ｂと同一であるため省略する。

図２７は、実施例６Ｂにおける予測アルゴリズムごとの全体誤答率を示すグラフである。図２７において、横軸は予測アルゴリズム、縦軸は全体誤答率を示す。図２７では、棒グラフによりグラフ表示する例を示している。図２７のグラフを表示することで、利用者は、自身が指定した重み変数ｗの値および説明変数において、どの予測アルゴリズムの予測精度がよいかを把握することができる。

（実施例７Ａ）
実施例７Ａは、説明変数ごとに全体正答率を算出してグラフ表示する例である。実施例２Ａとの相違点は、重み変数ｗの値と予測アルゴリズムとをあらかじめ指定しておく点である。それ以外は実施例２Ａと同一である。これにより、利用者が設定した重み変数ｗの値および予測アルゴリズムで、どの説明変数を採用したときの予測アルゴリズムの予測精度（正答率）がよいかを利用者にわかりやすく提示することができる。なお、実施例７Ａにかかるデータ解析処理手順は、実施例２Ａと同一であるため省略する。

図２８は、実施例７Ａにおける説明変数ごとの全体正答率を示すグラフである。図２８において、横軸は説明変数、縦軸は全体正答率を示す。図２８では、棒グラフによりグラフ表示する例を示している。図２８のグラフを表示することで、利用者は、自身が指定した重み変数ｗの値および予測アルゴリズムにおいて、どの説明変数を採用したときの予測アルゴリズムの予測精度がよいかを把握することができる。

（実施例７Ｂ）
実施例７Ｂは、説明変数ごとに全体誤答率を算出してグラフ表示する例である。実施例２Ｂとの相違点は、重み変数ｗの値と予測アルゴリズムとをあらかじめ指定しておく点である。それ以外は実施例２Ｂと同一である。これにより、利用者が設定した重み変数ｗの値および予測アルゴリズムで、どの説明変数を採用したときの予測アルゴリズムの予測精度（誤答率）がよいかを利用者にわかりやすく提示することができる。なお、実施例７Ｂにかかるデータ解析処理手順は、実施例２Ｂと同一であるため省略する。

図２９は、実施例７Ｂにおける説明変数ごとの全体誤答率を示すグラフである。図２９において、横軸は説明変数、縦軸は全体誤答率を示す。図２９では、棒グラフによりグラフ表示する例を示している。図２９のグラフを表示することで、利用者は、自身が指定した重み変数ｗの値および予測アルゴリズムにおいて、どの説明変数を採用したときの予測アルゴリズムの予測精度がよいかを把握することができる。

（実施例８Ａ）
実施例８Ａは、残余の説明変数群ごとに全体正答率を算出してグラフ表示する例である。実施例３Ａとの相違点は、重み変数ｗの値と予測アルゴリズムとをあらかじめ指定しておく点である。それ以外は実施例３Ａと同一である。これにより、利用者が設定した重み変数ｗの値および予測アルゴリズムで、どの説明変数を採用しなかったときの予測アルゴリズムの予測精度（正答率）がよいかを利用者にわかりやすく提示することができる。なお、実施例８Ａにかかるデータ解析処理手順は、実施例３Ａと同一であるため省略する。

図３０は、実施例８Ａにおける残余の説明変数群ごとの全体正答率を示すグラフである。図３０において、横軸は残余の説明変数群、縦軸は全体正答率を示す。図３０では、棒グラフによりグラフ表示する例を示している。図３０のグラフを表示することで、利用者は、自身が指定した重み変数ｗの値および予測アルゴリズムにおいて、どの説明変数を採用しなかったときの予測アルゴリズムの予測精度がよいかが把握することができる。

（実施例８Ｂ）
実施例８Ｂは、残余の説明変数群ごとに全体誤答率を算出してグラフ表示する例である。実施例３Ｂとの相違点は、重み変数ｗの値と予測アルゴリズムとをあらかじめ指定しておく点である。それ以外は実施例３Ｂと同一である。これにより、利用者が設定した重み変数ｗの値および予測アルゴリズムで、どの説明変数を採用しなかったときの予測アルゴリズムの予測精度（誤答率）がよいかを利用者にわかりやすく提示することができる。なお、実施例８Ｂにかかるデータ解析処理手順は、実施例３Ｂと同一であるため省略する。

図３１は、実施例８Ｂにおける残余の説明変数群ごとの全体誤答率を示すグラフである。図３１において、横軸は残余の説明変数群、縦軸は全体誤答率を示す。図３１では、棒グラフによりグラフ表示する例を示している。図３１のグラフを表示することで、利用者は、自身が指定した重み変数ｗの値および予測アルゴリズムにおいて、どの説明変数を採用しなかったときの予測アルゴリズムの予測精度がよいかを把握することができる。

（実施例９Ａ）
実施例９Ａは、予測アルゴリズムごとに部分正答率を算出してグラフ表示する例である。具体的には、実施例９Ａでは、全体正答率を算出するのではなく、Ｎ個の部分正答率に関する箱ひげ図（箱型図ともいう）を表示する。また、実施例６Ａと同様、重み変数ｗの値と説明変数とをあらかじめ指定しておく。このように、Ｎ個の部分正答率に関する箱ひげ図を予測アルゴリズムごとに表示することで、予測アルゴリズムごとの部分正答率のばらつきを視覚的に把握することができる。

図３２は、実施例９Ａにおける予測アルゴリズムごとの部分正答率のばらつきを示すグラフである。図３２において、横軸は予測アルゴリズム、縦軸は部分正答率を示す。図３２では、箱ひげ図によりグラフ表示する例を示している。図３２のグラフを表示することで、利用者は、自身が指定した重み変数ｗの値および説明変数において、どの予測アルゴリズムを採用すると、部分正答率のばらつきが大きいかまたは小さいかを視覚的に把握することができる。

図３３は、実施例９Ａにかかるデータ解析処理手順を示すフローチャートである。図３３において、まず、データ解析装置は、利用者による入力装置（キーボードやマウス）の操作入力により、重み変数ｗの値と説明変数とを設定する（ステップＳ３３０１）。つぎに、データ解析装置は、未選択の予測アルゴリズムがあるか否かを判断する（ステップＳ３３０２）。未選択の予測アルゴリズムがある場合（ステップＳ３３０２：Ｙｅｓ）、データ解析装置は、未選択の予測アルゴリズムを選択し（ステップＳ３３０３）、評価処理を実行する（ステップＳ３３０４）。評価処理（ステップＳ３３０４）の詳細については図３４で説明する。

評価処理（ステップＳ３３０４）のあと、ステップＳ３３０２に戻り、未選択の予測アルゴリズムがない場合（ステップＳ３３０２：Ｎｏ）、データ解析装置は、図３２に示したように、予測アルゴリズムごとに得られた部分正答率のばらつきを示す箱ひげ図の表示処理を実行する（ステップＳ３３０５）。これにより、実施例９Ａでのデータ解析処理を終了する。

図３４は、実施例９Ａにかかる、図３３に示した評価処理（ステップＳ３３０４）の詳細な処理手順を示すフローチャートである。図３４において、ステップＳ１１０１〜Ｓ１１０９は、図１１と同一処理であるため、説明を省略する。ステップＳ１１０２において、ｉ＞Ｎとなった場合（ステップＳ１１０２：Ｙｅｓ）、Ｎ個の部分正答率から箱ひげ図の要素を算出して（ステップＳ３４１０）、ステップＳ３３０２に移行する。

ここで、箱ひげ図の要素とは、最小値、中央値、最大値、第１四分位点、第３四分位点、平均値、ＩＱＲ（ｉｎｔｅｒｑｕａｒｔｉｌｅｒａｎｇｅ）である。ステップＳ３４１０では、これらの箱ひげ図の要素をＮ個の部分正答率について算出することとなる。これにより、グラフ表示処理（ステップＳ３３０５）において、図３２に示したような箱ひげ図を表示することができる。

このように、実施例９Ａによれば、予測アルゴリズムごとに部分正答率のばらつきを確認することができるため、利用者は、自身が設定した重み変数ｗの値および説明変数で、どの予測アルゴリズムを用いれば部分正答率のばらつきが小さくなるかを、視覚的に把握することができる。

（実施例９Ｂ）
実施例９Ｂは、予測アルゴリズムごとに部分誤答率を算出してグラフ表示する例である。具体的には、実施例９Ｂでは、全体誤答率を算出するのではなく、Ｎ個の部分誤答率に関する箱ひげ図を表示する。また、実施例６Ｂと同様、重み変数ｗの値と説明変数とをあらかじめ指定しておく。このように、Ｎ個の部分誤答率に関する箱ひげ図を予測アルゴリズムごとに表示することで、予測アルゴリズムごとの部分誤答率のばらつきを視覚的に把握することができる。

図３５は、実施例９Ｂにおける予測アルゴリズムごとの部分誤答率のばらつきを示すグラフである。図３５において、横軸は予測アルゴリズム、縦軸は部分誤答率を示す。図３５では、箱ひげ図によりグラフ表示する例を示している。図３５のグラフを表示することで、利用者は、自身が指定した重み変数ｗの値および説明変数において、どの予測アルゴリズムを採用すると、部分誤答率のばらつきが大きいかまたは小さいかを視覚的に把握することができる。

つぎに、実施例９Ｂにかかるデータ解析処理手順について説明する。実施例９Ｂにかかるデータ解析処理手順では、評価処理（Ｓ３３０４）以外は、実施例９Ａと同一であるため省略する。実施例９Ｂでは、実施例９Ａの評価処理（ステップＳ３３０４）の処理内容が異なるため、評価処理（Ｓ３３０４）のかわりに、評価処理（ステップＳ３６０４）を実行する。

図３６は、実施例９Ｂにかかる評価処理（ステップＳ３３０４）の詳細な処理手順を示すフローチャートである。図３６において、ステップＳ１３０１〜Ｓ１３０９は、図１３と同一処理であるため、説明を省略する。ステップＳ１３０２において、ｉ＞Ｎとなった場合（ステップＳ１３０２：Ｙｅｓ）、Ｎ個の部分誤答率から箱ひげ図の要素を算出して（ステップＳ３６１０）、ステップＳ３３０２に移行する。

ここで、箱ひげ図の要素とは、実施例９Ａと同様、最小値、中央値、最大値、第１四分位点、第３四分位点、平均値、ＩＱＲ（ｉｎｔｅｒｑｕａｒｔｉｌｅｒａｎｇｅ）である。ステップＳ３６１０では、これらの箱ひげ図の要素をＮ個の部分誤答率について算出することとなる。これにより、グラフ表示処理（ステップＳ３３０５）において、図３５に示したような箱ひげ図を表示することができる。

このように、実施例９Ｂによれば、予測アルゴリズムごとに部分誤答率のばらつきを確認することができるため、利用者は、自身が設定した重み変数ｗの値および説明変数で、どの予測アルゴリズムを用いれば部分誤答率のばらつきが小さくなるかを、視覚的に把握することができる。

（実施例１０Ａ）
実施例１０Ａは、ある予測アルゴリズムについて、説明変数ごとに部分正答率を算出してグラフ表示する例である。具体的には、実施例１０Ａでは、全体正答率を算出するのではなく、Ｎ個の部分正答率に関する箱ひげ図を表示する。また、実施例７Ａと同様、重み変数ｗの値と予測アルゴリズムとをあらかじめ指定しておく。このように、Ｎ個の部分正答率に関する箱ひげ図を説明変数ごとに表示することで、説明変数ごとの部分正答率のばらつきを視覚的に把握することができる。

図３７は、実施例１０Ａにおける説明変数ごとの部分正答率のばらつきを示すグラフである。図３７において、横軸は説明変数、縦軸は部分正答率を示す。図３７では、箱ひげ図によりグラフ表示する例を示している。図３７のグラフを表示することで、利用者は、自身が指定した重み変数ｗの値および予測アルゴリズムにおいて、どの説明変数を採用すると、部分正答率のばらつきが大きいかまたは小さいかを視覚的に把握することができる。

図３８は、実施例１０Ａにかかるデータ解析処理手順を示すフローチャートである。図３８において、まず、データ解析装置は、利用者による入力装置（キーボードやマウス）の操作入力により、重み変数ｗの値と予測アルゴリズムとを設定する（ステップＳ３８０１）。つぎに、データ解析装置は、未選択の説明変数があるか否かを判断する（ステップＳ３８０２）。未選択の説明変数がある場合（ステップＳ３８０２：Ｙｅｓ）、データ解析装置は、未選択の説明変数を選択し（ステップＳ３８０３）、評価処理を実行する（ステップＳ３８０４）。評価処理（ステップＳ３８０４）の詳細は、図３４の評価処理（ステップＳ３３０４）と同一処理内容であるため、省略する。

評価処理（ステップＳ３８０４）のあと、ステップＳ３８０２に戻り、未選択の予測アルゴリズムがない場合（ステップＳ３８０２：Ｎｏ）、データ解析装置は、図３７に示したように、説明変数ごとに得られた部分正答率のばらつきを示す箱ひげ図の表示処理を実行する（ステップＳ３８０５）。これにより、実施例１０Ａでのデータ解析処理を終了する。

このように、実施例１０Ａによれば、説明変数ごとに部分正答率のばらつきを確認することができるため、利用者は、自身が設定した重み変数ｗの値および予測アルゴリズムで、どの説明変数を用いれば部分正答率のばらつきが小さくなるかを、視覚的に把握することができる。

（実施例１０Ｂ）
実施例１０Ｂは、ある予測アルゴリズムについて、説明変数ごとに部分誤答率を算出してグラフ表示する例である。具体的には、実施例１０Ｂでは、全体誤答率を算出するのではなく、Ｎ個の部分誤答率に関する箱ひげ図を表示する。また、実施例７Ｂと同様、重み変数ｗの値と予測アルゴリズムとをあらかじめ指定しておく。このように、Ｎ個の部分誤答率に関する箱ひげ図を説明変数ごとに表示することで、説明変数ごとの部分誤答率のばらつきを視覚的に把握することができる。

図３９は、実施例１０Ｂにおける説明変数ごとの部分誤答率のばらつきを示すグラフである。図９Ｂにおいて、横軸は説明変数、縦軸は部分誤答率を示す。図３９では、箱ひげ図によりグラフ表示する例を示している。図３９のグラフを表示することで、利用者は、自身が指定した重み変数ｗの値および予測アルゴリズムにおいて、どの説明変数を採用すると、部分誤答率のばらつきが大きいかまたは小さいかを視覚的に把握することができる。

つぎに、実施例１０Ｂにかかるデータ解析処理手順について説明する。実施例１０Ｂにかかるデータ解析処理手順では、評価処理（Ｓ３８０４）以外は、実施例１０Ａと同一であるため省略する。実施例１０Ｂでは、実施例１０Ａの評価処理（ステップＳ３８０４）の処理内容が異なるため、図３６に示した評価処理（ステップＳ３３０４）を実行することとなる。

このように、実施例１０Ｂによれば、説明変数ごとに部分誤答率のばらつきを確認することができるため、利用者は、自身が設定した重み変数ｗの値および予測アルゴリズムで、どの説明変数を用いれば部分誤答率のばらつきが小さくなるかを、視覚的に把握することができる。

（実施例１１Ａ）
実施例１１Ａは、ある予測アルゴリズムについて、残余の説明変数群ごとに部分正答率を算出してグラフ表示する例である。具体的には、実施例１１Ａでは、全体正答率を算出するのではなく、Ｎ個の部分正答率に関する箱ひげ図を表示する。また、実施例８Ａと同様、重み変数ｗの値と予測アルゴリズムとをあらかじめ指定しておく。このように、Ｎ個の部分正答率に関する箱ひげ図を残余の説明変数群ごとに表示することで、残余の説明変数群ごとの部分正答率のばらつきを視覚的に把握することができる。

図４０は、実施例１１Ａにおける残余の説明変数群ごとの部分正答率のばらつきを示すグラフである。図４０において、横軸は残余の説明変数群、縦軸は部分正答率を示す。図４０では、箱ひげ図によりグラフ表示する例を示している。図４０のグラフを表示することで、利用者は、自身が指定した重み変数ｗの値および予測アルゴリズムにおいて、どの説明変数を採用しないと、部分正答率のばらつきが大きいかまたは小さいかを視覚的に把握することができる。

図４１は、実施例１１Ａにかかるデータ解析処理手順を示すフローチャートである。図４１において、まず、データ解析装置は、利用者による入力装置（キーボードやマウス）の操作入力により、重み変数ｗの値と予測アルゴリズムとを設定する（ステップＳ４１０１）。つぎに、データ解析装置は、未選択の説明変数があるか否かを判断する（ステップＳ４１０２）。未選択の説明変数がある場合（ステップＳ４１０２：Ｙｅｓ）、データ解析装置は、未選択の説明変数を選択し（ステップＳ４１０３）、選択説明変数を除く残余の説明変数群を選択する（ステップＳ４１０４）。

このあと、データ解析装置は、評価処理を実行する（ステップＳ４１０５）。評価処理（ステップＳ４１０５）の詳細は、図３４の評価処理（ステップＳ３３０４）と同一処理内容であるため、省略する。

評価処理（ステップＳ４１０５）のあと、ステップＳ４１０２に戻り、未選択の説明変数がない場合（ステップＳ４１０２：Ｎｏ）、データ解析装置は、図４０に示したように、残余の説明変数群ごとに得られた部分正答率のばらつきを示す箱ひげ図の表示処理を実行する（ステップＳ４１０６）。これにより、実施例１１Ａでのデータ解析処理を終了する。

このように、実施例１１Ａによれば、残余の説明変数群ごとに部分正答率のばらつきを確認することができるため、利用者は、自身が設定した重み変数ｗの値および予測アルゴリズムで、どの説明変数を用いなければ部分正答率のばらつきが小さくなるかを、視覚的に把握することができる。

（実施例１１Ｂ）
実施例１１Ｂは、ある予測アルゴリズムについて、残余の説明変数群ごとに部分誤答率を算出してグラフ表示する例である。具体的には、実施例１１Ｂでは、全体誤答率を算出するのではなく、Ｎ個の部分誤答率に関する箱ひげ図を表示する。また、実施例８Ｂと同様、重み変数ｗの値と予測アルゴリズムとをあらかじめ指定しておく。このように、Ｎ個の部分誤答率に関する箱ひげ図を残余の説明変数群ごとに表示することで、残余の説明変数群ごとの部分誤答率のばらつきを視覚的に把握することができる。

図４２は、実施例１１Ｂにおける残余の説明変数群ごとの部分誤答率のばらつきを示すグラフである。図４２において、横軸は残余の説明変数群、縦軸は部分誤答率を示す。図４２では、箱ひげ図によりグラフ表示する例を示している。図４２のグラフを表示することで、利用者は、自身が指定した重み変数ｗの値および予測アルゴリズムにおいて、どの説明変数を採用しないと、部分誤答率のばらつきが大きいかまたは小さいかを視覚的に把握することができる。

つぎに、実施例１１Ｂにかかるデータ解析処理手順について説明する。実施例１１Ｂにかかるデータ解析処理手順では、評価処理（Ｓ４１０５）以外は、実施例１１Ａと同一であるため省略する。実施例１１Ｂでは、実施例１１Ａの評価処理（ステップＳ４１０５）の処理内容が異なるため、図３６に示した評価処理（ステップＳ３３０４）を実行することとなる。

このように、実施例１１Ｂによれば、残余の説明変数群ごとに部分誤答率のばらつきを確認することができるため、利用者は、自身が設定した重み変数ｗの値および予測アルゴリズムで、どの説明変数を用いなければ部分誤答率のばらつきが小さくなるかを、視覚的に把握することができる。

（データ解析装置の機能的構成例）
図４３は、データ解析装置の機能的構成例を示すブロック図である。データ解析装置は、ＤＢ（データベース）４３００と、評価処理部４３０１と、平均化処理部４３０２と、出力部４３０３と、入力部４３０４と、選択部４３０５と、を含む。評価処理部４３０１〜選択部４３０５は、具体的には、たとえば、図５に示したＲＯＭ５０２、ＲＡＭ５０３、磁気ディスク５０５、光ディスク５０７などの記憶装置に記憶されたプログラムをＣＰＵ５０１に実行させることにより、または、Ｉ／Ｆ５０９により、その機能を実現する。なお、評価処理部４３０１〜選択部４３０５での処理結果は、記憶装置にその都度保持され、他の機能部の処理結果を使用する場合は、記憶装置に保持された処理結果を読み出して自機能部の処理を実行することとなる。

ＤＢ４３００は、各種情報を記憶する。具体的には、たとえば、図１や図３に示したデータ群を記憶する。また、ＤＢ４３００は、各種予測アルゴリズム（予測プログラム）を記憶する。ＤＢ４３００は、具体的には、たとえば、図５に示したＲＯＭ５０２、ＲＡＭ５０３、磁気ディスク５０５、光ディスク５０７などの記憶装置により実現される。

評価処理部４３０１は、図１〜図４に示した評価処理に対応する機能である。評価処理部４３０１による評価処理をＮ（Ｎ≧１の自然数）回実行することで、評価結果（たとえば、Ｎ個の重み付き部分正答率、Ｎ個の重み付き部分誤答率、Ｎ個の部分正答率、Ｎ個の部分誤答率）を算出することができる。

平均化処理部４３０２は、評価処理部４３０１で算出されたＮ個の重み付き部分正答率、Ｎ個の重み付き部分誤答率、Ｎ個の部分正答率、Ｎ個の部分誤答率を平均化する。これにより、重み付き全体正答率、Ｎ個の重み付き全体誤答率、Ｎ個の全体正答率、Ｎ個の全体誤答率を得ることができる。

出力部４３０３は、評価処理部４３０１からの評価結果や、平均化処理部４３０２による平均化結果（重み付き全体正答率、Ｎ個の重み付き全体誤答率、Ｎ個の全体正答率、Ｎ個の全体誤答率）を出力する。具体的には、たとえば、出力部４３０３は、評価結果や平均化結果を、実施例１Ａ〜１１Ａ，１Ｂ〜１１Ｂに示したように、グラフ表示する。特に、重み変数ｗに固定値を設定していない場合は、重み変数ｗの変化を示すグラフを表示することになる。このように、グラフ表示することで、利用者にわかりやすく予測アルゴリズムの予測精度の違いを提示することができる。

入力部４３０４は、重み変数ｗの値の入力を受け付ける。具体的には、たとえば、入力部４３０４は、利用者が入力装置（キーボードやマウス）を操作することで、重み変数ｗの値を入力する。重み変数ｗの値が入力されることで、Ｎ個の部分正答率、Ｎ個の部分誤答率、Ｎ個の全体正答率、Ｎ個の全体誤答率が得られ、グラフ表示することができる。また、入力部４３０４では、利用者が入力装置を操作することで、説明変数や予測アルゴリズムを指定することもできる。これにより、指定された説明変数や予測アルゴリズムで評価処理部４３０１による評価処理が実行されることとなる。

選択部４３０５は、データ群の各々のデータで定義されている説明変数群の中から未選択の説明変数を選択する。選択部４３０５により説明変数が選択された場合、選択説明変数について評価処理部４３０１により評価処理が実行されることとなる。また、選択部４３０５は、説明変数群の中から未選択の説明変数を選択し、選択説明変数を除く残余の説明変数群を、評価処理部４３０１に与える説明変数群として選択する。これにより、残余の説明変数群について評価処理部４３０１により評価処理が実行されることとなる。

つぎに、評価処理部４３０１の詳細な機能について説明する。評価処理部４３０１は、抽出部４３１１と、生成部４３１２と、第１の算出部４３１３と、第２の算出部４３１４と、第１の特定部４３１５と、第２の特定部４３１６と、演算部４３１７と、を備える。

抽出部４３１１は、ＤＢ４３００からデータ群を抽出する。具体的には、たとえば、抽出部４３１１は、図１〜図４に示したように、正例データ群からＫ個の正例データをランダムサンプリングする。同様に、負例データ群から同じくＫ個の負例データをランダムサンプリングする。

このように、正例データ群および負例データ群ともに同数のデータ数を抽出することで、正例データ数と負例データ数とに差がある場合でも、同数（Ｋ個）抽出できるため、正例データ数と負例データ数がほぼ同等であるという予測式生成の前提条件に適合する。したがって、生成される予測式の予測精度の低下を防止することができる。なお、正例データ群および負例データ群から同数（Ｋ個）のデータをランダムサンプリングしているが、同数にかぎらず、予測精度に影響を与えない程度の差であれば、同数でなくてもよい。

生成部４３１２は、予測アルゴリズムに基づく予測式を生成する。予測式は、図２および図４の（２１）に示したように、抽出部４３１１によるランダムサンプリングによって得られた根拠用データ群を用いて求められる。

第１の算出部４３１３は、生成部４３１２によって生成された予測式に、正例実測値の集合から正例実測値群を除いた残余の正例実測値群を各々与えることにより、第１の予測値群を算出する。具体的には、たとえば、第１の算出部４３１３は、図２に示したように、正例データ群から根拠用正例データ群（ランダムサンプリングされたＫ個の正例データ）を除いた評価用正例データ群を予測式に与えることで、評価用正例データの予測値群を得る。より具体的には、図２の（２２）に示したように、予測式に評価用正例データ群の各々の評価用正例データを代入し、正規化をおこなうことで、評価用正例データの予測値群を得る。

第２の算出部４３１４は、生成部４３１２によって生成された予測式に、負例実測値の集合から負例実測値群を除いた残余の負例実測値群を各々与えることにより、第２の予測値群を算出する。具体的には、たとえば、第２の算出部４３１４は、図４に示したように、負例データ群から根拠用負例データ群（ランダムサンプリングされたＫ個の負例データ）を除いた評価用負例データ群を予測式に与えることで、評価用負例データの予測値群を得る。より具体的には、図４の（２２）に示したように、予測式に評価用負例データ群の各々の評価用負例データを代入し、正規化をおこなうことで、評価用負例データの予測値群を得る。

第１の特定部４３１５は、第１の算出部４３１３によって算出された第１の予測値群のうち予測式への入力元となる正例実測値と一致した第１の一致件数と、正例実測値と不一致となった第１の不一致件数を特定する。具体的には、たとえば、図２および図４に示したように、第１の特定部４３１５は、正例・正例件数（第１の一致件数）と、正例・負例件数（第１の不一致件数）を特定する。

第２の特定部４３１６は、第２の算出部４３１４によって算出された第２の予測値群のうち予測式への入力元となる負例実測値と一致した第２の一致件数と、負例実測値と不一致となった第２の不一致件数を特定する。具体的には、たとえば、図２および図４に示したように、第２の特定部４３１６は、負例・負例件数（第２の一致件数）と、負例・正例件数（第２の不一致件数）を特定する。

演算部４３１７は、第１および第２の特定部４３１６によって特定された特定結果に基づいて、予測アルゴリズムについて実測値と予測値との一致度を示す正答率が重み変数に応じて変動する重み付き正答率を演算する。重み付き部分正答率を演算する場合は、演算部４３１７は、上述した式（１）により、重み付き部分正答率ＰＣＡｗを演算する。重み変数ｗが指定されている場合は、重み変数ｗの値を、式（１）に代入すればよい。

また、重み付き部分誤答率を演算する場合は、演算部４３１７は、上述した式（２）により、重み付き部分正答率ＰＷＡｗを演算する。重み変数ｗが指定されている場合は、重み変数ｗの値を、式（２）に代入すればよい。

このように、評価処理部４３０１では、抽出部４３１１による１回のランダムサンプリングで重み付き部分正答率、部分正答率、重み付き部分誤答率、部分誤答率のいずれかを演算することができる。

また、演算部４３１７は、実施例９Ａ〜１１Ａに示したように、箱ひげ図を表示する場合には、Ｎ個の部分正答率から箱ひげ図の要素を計算することで、出力部４３０３において箱ひげ図をグラフ表示することができる。同様に、演算部４３１７は、実施例９Ｂ〜１１Ｂに示したように、箱ひげ図を表示する場合には、Ｎ個の部分誤答率から箱ひげ図の要素を計算することで、出力部４３０３において箱ひげ図をグラフ表示することができる。

以上説明したように、上述した実施の形態によれば、目的変数の値ごとのデータ件数が著しく異なる場合（換言すれば、正例データ数と負例データ数とが著しく異なる）であっても、目的変数の値ごとに同数のデータをサンプリングし、説明変数をもとに目的変数を予測する予測式を作成するため、予測式を精度良く作成することができる。

また、予測式を作成するための根拠用データ群と、予測式を評価するための評価用データ群について、各々異なるデータをサンプリングすることになるため、予測式の予測精度を適切に評価することができる。すなわち、予測式を生成したデータと同一データで評価しても予測どおりになり意味がない。したがって、予測式の生成と評価を異なるデータでおこなうことで、予測式を適切に評価することができる。

また、各ランダムサンプリングで根拠用データ群を抽出するということは、各ランダムサンプリングで抽出されなかった評価用データ群も、毎回異なるデータ群になる。このように、ランダムサンプリングを複数回おこなって、ランダムサンプリングの都度評価することで、予測式の予測精度のばらつきを適切に評価することができる。

具体的には、同じ説明変数を採用した場合にどの予測アルゴリズムに予測精度のばらつきがあるか、どの説明変数を採用した場合に予測アルゴリズムに予測精度のばらつきがあるか、どの説明変数を採用しなかった場合に予測アルゴリズムに予測精度のばらつきがあるか、といった予測アルゴリズムの予測精度のばらつきを適切に評価することができる。

また、本実施の形態では、説明変数と目的変数の関係の程度について重回帰式の係数で評価するのではなく、予測式を各々の説明変数を用いて作成したり、各々の説明変数を用いないで（残余の説明変数群で）作成したりすることで、予測式の予測精度を評価する。これにより、説明変数と目的変数のデータ傾向が複雑な場合に、重回帰分析以外の適切な予測アルゴリズム（たとえば、サポートベクターマシンや決定木）を用いて、どの説明変数が、目的変数に関係しているかについての解析を適切におこなうことができる。

また、利用者によっては、正例（故障解析でいう「正常」、レコメンデーション解析でいう「購入した」、融資の与信に関するデータ解析でいう「返済できた」）のデータ数が多い場合は、負例に重きをおいた解析結果を得たいというニーズがある。

また、同様に、利用者によっては、負例（故障解析でいう「故障」、レコメンデーション解析でいう「購入しなかった」、融資の与信に関するデータ解析でいう「返済できなかった」）のデータ数が多い場合は、正例に重きをおいた解析結果を得たいというニーズがある。

このように、利用者のニーズによって正例、負例のいずれに重きを置くかが異なるため、重み変数ｗが変化する重み付き全体正答率や重み付き全体誤答率を表示することで、『どの程度の重みにすれば、予測アルゴリズムの精度（正答率や誤答率）がよくなるか』といったことを、わかりやすく提示することができる。したがって、利用者によって使い勝手のよいデータ解析結果を提供することができる。

また、利用者が重み変数ｗの値を指定することで、その重み変数ｗの値で、全体正答率や全体誤答率をグラフ表示したり、部分正答率や部分誤答率のばらつきをグラフ表示（たとえば、箱ひげ図）する。したがって、利用者が重きをおきたい状況を反映して、『どの予測アルゴリズムの精度（正答率や誤答率）がよいか』といったことを、わかりやすく提示することができる。

なお、上述した実施の形態では、回路の故障解析やレコメンデーション解析、融資の与信に関するデータ解析について実施例を用いて説明したが、これらのデータ解析には限らず、各種装置の性能に関するデータ解析、各種商品やサービスに関するデータ解析に適用することができる。

また、上述した実施の形態では、正例データ群および負例データ群からそれぞれＫ個サンプリングしているが、Ｋは、正例データ群および負例データ群のうちデータ数が少ない方のデータ群のデータ数よりも低い値となる。また、ランダムサンプリングの都度、サンプリングされるデータをなるべく前回と異なるデータをサンプリングするのが好ましい。このため、Ｋは、少ない方のデータ群のデータ数の２／３以下、さらに好ましくは１／２以下としてもよい。

なお、本実施の形態で説明したデータ解析方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本データ解析プログラムは、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。

上述した実施の形態に関し、さらに以下の付記を開示する。

（付記１）少なくとも１つ以上の説明変数である説明変数群に対する目的変数が正例である正例実測値の集合と前記説明変数群に対する前記目的変数が負例である負例実測値の集合を有する実測値集合を記憶する記憶装置を有するコンピュータに、
前記実測値集合から、前記正例実測値と前記負例実測値とが同数となるように正例実測値群および負例実測値群をランダムに抽出する抽出工程と、
前記抽出工程によって抽出された正例実測値群および負例実測値群に基づいて、予測アルゴリズムについて前記目的変数を予測する予測式を生成する生成工程と、
を実行させることを特徴とするデータ解析プログラム。

（付記２）前記生成工程によって生成された予測式に、前記正例実測値の集合から前記正例実測値群を除いた残余の正例実測値群を各々与えることにより、第１の予測値群を算出する第１の算出工程と、
前記生成工程によって生成された予測式に、前記負例実測値の集合から前記負例実測値群を除いた残余の負例実測値群を各々与えることにより、第２の予測値群を算出する第２の算出工程と、
前記第１の算出工程によって算出された第１の予測値群のうち前記予測式への入力元となる前記正例実測値と一致した第１の一致件数と、前記正例実測値と不一致となった第１の不一致件数を特定する第１の特定工程と、
前記第２の算出工程によって算出された第２の予測値群のうち前記予測式への入力元となる前記負例実測値と一致した第２の一致件数と、前記負例実測値と不一致となった第２の不一致件数を特定する第２の特定工程と、
前記第１および第２の特定工程によって特定された特定結果に基づいて、前記予測アルゴリズムについて実測値と予測値との一致度を示す正答率が重み変数に応じて変動する重み付き正答率を演算する演算工程と、
前記演算工程によって演算された演算結果を出力する出力工程と、
を前記コンピュータに実行させることを特徴とする付記１に記載のデータ解析プログラム。

（付記３）前記抽出工程、前記生成工程、前記第１の算出工程、前記第２の算出工程、前記第１の特定工程、前記第２の特定工程、および前記演算工程を、前記コンピュータに複数回実行させ、
前記演算工程によって演算された複数の重み付き正答率を平均化することにより、前記予測アルゴリズムについて実測値と予測値との一致度を示す正答率が重み変数に応じて変動する重み付き平均正答率を出力する平均化工程を前記コンピュータに実行させることを特徴とする付記２に記載のデータ解析プログラム。

（付記４）予測アルゴリズムごとに、前記抽出工程、前記生成工程、前記第１の算出工程、前記第２の算出工程、前記第１の特定工程、前記第２の特定工程、および前記演算工程を、前記コンピュータに複数回実行させ、
前記演算工程によって前記予測アルゴリズムごとに演算された複数の重み付き正答率を平均化することにより、前記予測アルゴリズムについて実測値と予測値との一致度を示す正答率が重み変数に応じて変動する重み付き平均正答率を出力する平均化工程を、前記予測アルゴリズムごとに前記コンピュータに実行させ、
前記出力工程は、前記予測アルゴリズムごとに出力された重み付き平均正答率をグラフ表示することを特徴とする付記２に記載のデータ解析プログラム。

（付記５）前記重み変数の値の入力を受け付ける入力工程を前記コンピュータに実行させ、
前記出力工程は、前記予測アルゴリズムごとに出力された重み付き平均正答率に、前記入力工程によって入力された前記重み変数の値が与えられた前記予測アルゴリズムごとの平均正答率を、グラフ表示することを特徴とする付記４に記載のデータ解析プログラム。

（付記６）前記説明変数群の中から未選択の説明変数を選択する選択工程を前記コンピュータに実行させ、
前記選択工程によって選択された説明変数ごとに、前記抽出工程、前記生成工程、前記第１の算出工程、前記第２の算出工程、前記第１の特定工程、前記第２の特定工程、および前記演算工程を、前記コンピュータに複数回実行させ、
前記演算工程によって前記説明変数ごとに演算された複数の重み付き正答率を平均化することにより、前記予測アルゴリズムについて実測値と予測値との一致度を示す正答率が重み変数に応じて変動する重み付き平均正答率を出力する平均化工程を、前記説明変数ごとに前記コンピュータに実行させ、
前記出力工程は、前記説明変数ごとに出力された重み付き平均正答率をグラフ表示することを特徴とする付記２に記載のデータ解析プログラム。

（付記７）前記重み変数の値の入力を受け付ける入力工程を前記コンピュータに実行させ、
前記出力工程は、前記説明変数ごとに出力された重み付き平均正答率に前記入力工程によって入力された前記重み変数の値が与えられた前記説明変数ごとの平均正答率を、グラフ表示することを特徴とする付記６に記載のデータ解析プログラム。

（付記８）前記説明変数群の中から未選択の説明変数を選択する選択工程を前記コンピュータに実行させ、
前記選択工程によって選択されなかった残余の説明変数群ごとに、前記抽出工程、前記生成工程、前記第１の算出工程、前記第２の算出工程、前記第１の特定工程、前記第２の特定工程、および前記演算工程を、前記コンピュータに複数回実行させ、
前記演算工程によって前記残余の説明変数群ごとに演算された複数の重み付き正答率を平均化することにより、前記予測アルゴリズムについて実測値と予測値との一致度を示す正答率が重み変数に応じて変動する重み付き平均正答率を出力する平均化工程を、前記残余の説明変数群ごとに前記コンピュータに実行させ、
前記出力工程は、前記残余の説明変数群ごとに出力された重み付き平均正答率をグラフ表示することを特徴とする付記２に記載のデータ解析プログラム。

（付記９）前記重み変数の値の入力を受け付ける入力工程を前記コンピュータに実行させ、
前記出力工程は、前記残余の説明変数群ごとに出力された重み付き平均正答率に、前記入力工程によって入力された前記重み変数の値が与えられた前記残余の説明変数群ごとの平均正答率を、グラフ表示することを特徴とする付記８に記載のデータ解析プログラム。

（付記１０）前記説明変数群の中から未選択の説明変数を選択する選択工程を前記コンピュータに実行させ、
前記選択工程によって選択された説明変数ごとに、前記抽出工程、前記生成工程、前記第１の算出工程、前記第２の算出工程、前記第１の特定工程、前記第２の特定工程、および前記演算工程を、前記コンピュータに複数回実行させ、前記平均化工程を前記説明変数ごとに前記コンピュータに実行させる処理を、予測アルゴリズムごとに前記コンピュータに実行させ、
前記出力工程は、前記説明変数ごとに出力された重み付き平均正答率を、前記予測アルゴリズムごとにグラフ表示することを特徴とする付記３に記載のデータ解析プログラム。

（付記１１）前記説明変数群の中から未選択の説明変数を選択する選択工程を前記コンピュータに実行させ、
前記選択工程によって選択されなかった残余の説明変数群ごとに、前記抽出工程、前記生成工程、前記第１の算出工程、前記第２の算出工程、前記第１の特定工程、前記第２の特定工程、および前記演算工程を、前記コンピュータに複数回実行させ、前記平均化工程を前記残余の説明変数群ごとに前記コンピュータに実行させる処理を、予測アルゴリズムごとに前記コンピュータに実行させ、
前記出力工程は、前記残余の説明変数群ごとに出力された重み付き平均正答率を、前記予測アルゴリズムごとにグラフ表示することを特徴とする付記３に記載のデータ解析プログラム。

（付記１２）予測アルゴリズム群の中から未選択の予測アルゴリズムを選択する選択工程と、
前記重み変数の値の入力を受け付ける入力工程と、を前記コンピュータに実行させ、
前記選択工程によって選択された予測アルゴリズムごとに、前記抽出工程、前記生成工程、前記第１の算出工程、前記第２の算出工程、前記第１の特定工程、前記第２の特定工程、および前記演算工程を、前記コンピュータに複数回実行させ、
前記出力工程は、前記予測アルゴリズムごとに複数個出力された重み付き正答率に前記入力工程によって入力された前記重み変数の値が与えられた、前記予測アルゴリズムごとに複数個存在する正答率について、それぞればらつきを示すグラフを表示することを特徴とする付記２に記載のデータ解析プログラム。

（付記１３）前記説明変数群の中から未選択の説明変数を選択する選択工程と、
前記重み変数の値の入力を受け付ける入力工程と、を前記コンピュータに実行させ、
前記選択工程によって選択された説明変数ごとに、前記抽出工程、前記生成工程、前記第１の算出工程、前記第２の算出工程、前記第１の特定工程、前記第２の特定工程、および前記演算工程を、前記コンピュータに複数回実行させ、
前記出力工程は、前記説明変数ごとに複数個出力された重み付き正答率に前記入力工程によって入力された前記重み変数の値が与えられた、前記説明変数ごとに複数個存在する正答率について、それぞればらつきを示すグラフを表示することを特徴とする付記２に記載のデータ解析プログラム。

（付記１４）前記説明変数群の中から未選択の説明変数を選択する選択工程と、
前記重み変数の値の入力を受け付ける入力工程と、を前記コンピュータに実行させ、
前記選択工程によって選択されなかった残余の説明変数群ごとに、前記抽出工程、前記生成工程、前記第１の算出工程、前記第２の算出工程、前記第１の特定工程、前記第２の特定工程、および前記演算工程を、前記コンピュータに複数回実行させ、
前記出力工程は、前記残余の説明変数群ごとに複数個出力された重み付き正答率に前記入力工程によって入力された前記重み変数の値が与えられた、前記残余の説明変数群ごとに複数個存在する正答率について、それぞればらつきを示すグラフを表示することを特徴とする付記２に記載のデータ解析プログラム。

（付記１５）前記演算工程は、下記式（１）に基づいて、前記重み付き正答率を演算することを特徴とする付記２〜１４のいずれか一つに記載のデータ解析プログラム。
ＰＣＡｗ＝ｗ×Ｎｐｐ／（Ｎｐｐ＋Ｎｐｎ）＋（１−ｗ）×Ｎｎｎ／（Ｎｎｎ＋Ｎｎｐ）・・・（１）
ただし、ＰＣＡｗは前記重み付き正答率、ｗは前記重み変数、Ｎｐｐは前記第１の一致件数、Ｎｐｎは前記第１の不一致件数、Ｎｎｎは前記第２の一致件数、Ｎｎｐは前記第２の不一致件数。

（付記１６）前記生成工程によって生成された予測式に、前記正例実測値の集合から前記正例実測値群を除いた残余の正例実測値群を各々与えることにより、第１の予測値群を算出する第１の算出工程と、
前記生成工程によって生成された予測式に、前記負例実測値の集合から前記負例実測値群を除いた残余の負例実測値群を各々与えることにより、第２の予測値群を算出する第２の算出工程と、
前記第１の算出工程によって算出された第１の予測値群のうち前記予測式への入力元となる前記正例実測値と一致した第１の一致件数と、前記正例実測値と不一致となった第１の不一致件数を特定する第１の特定工程と、
前記第２の算出工程によって算出された第２の予測値群のうち前記予測式への入力元となる前記負例実測値と一致した第２の一致件数と、前記負例実測値と不一致となった第２の不一致件数を特定する第２の特定工程と、
前記第１および第２の特定工程によって特定された特定結果に基づいて、前記予測アルゴリズムについて実測値と予測値との不一致度を示す誤答率が重み変数に応じて変動する重み付き誤答率を演算する演算工程と、
前記演算工程によって演算された演算結果を出力する出力工程と、
を前記コンピュータに実行させることを特徴とする付記１に記載のデータ解析プログラム。

（付記１７）前記抽出工程、前記生成工程、前記第１の算出工程、前記第２の算出工程、前記第１の特定工程、前記第２の特定工程、および前記演算工程を、前記コンピュータに複数回実行させ、
前記演算工程によって演算された複数の重み付き誤答率を平均化することにより、前記予測アルゴリズムについて実測値と予測値との不一致度を示す誤答率が重み変数に応じて変動する重み付き平均誤答率を出力する平均化工程を前記コンピュータに実行させることを特徴とする付記１６に記載のデータ解析プログラム。

（付記１８）予測アルゴリズムごとに、前記抽出工程、前記生成工程、前記第１の算出工程、前記第２の算出工程、前記第１の特定工程、前記第２の特定工程、および前記演算工程を、前記コンピュータに複数回実行させ、
前記演算工程によって前記予測アルゴリズムごとに演算された複数の重み付き誤答率を平均化することにより、前記予測アルゴリズムについて実測値と予測値との不一致度を示す誤答率が重み変数に応じて変動する重み付き平均誤答率を出力する平均化工程を、前記予測アルゴリズムごとに前記コンピュータに実行させ、
前記出力工程は、前記予測アルゴリズムごとに出力された重み付き平均誤答率をグラフ表示することを特徴とする付記１６に記載のデータ解析プログラム。

（付記１９）前記重み変数の値の入力を受け付ける入力工程を前記コンピュータに実行させ、
前記出力工程は、前記予測アルゴリズムごとに出力された重み付き平均誤答率に、前記入力工程によって入力された前記重み変数の値が与えられた前記予測アルゴリズムごとの平均誤答率を、グラフ表示することを特徴とする付記１８に記載のデータ解析プログラム。

（付記２０）前記説明変数群の中から未選択の説明変数を選択する選択工程を前記コンピュータに実行させ、
前記選択工程によって選択された説明変数ごとに、前記抽出工程、前記生成工程、前記第１の算出工程、前記第２の算出工程、前記第１の特定工程、前記第２の特定工程、および前記演算工程を、前記コンピュータに複数回実行させ、
前記演算工程によって前記説明変数ごとに演算された複数の重み付き誤答率を平均化することにより、前記予測アルゴリズムについて実測値と予測値との不一致度を示す誤答率が重み変数に応じて変動する重み付き平均誤答率を出力する平均化工程を、前記説明変数ごとに前記コンピュータに実行させ、
前記出力工程は、前記説明変数ごとに出力された重み付き平均誤答率をグラフ表示することを特徴とする付記１６に記載のデータ解析プログラム。

（付記２１）前記重み変数の値の入力を受け付ける入力工程を前記コンピュータに実行させ、
前記出力工程は、前記説明変数ごとに出力された重み付き平均誤答率に前記入力工程によって入力された前記重み変数の値が与えられた前記説明変数ごとの平均誤答率を、グラフ表示することを特徴とする付記２０に記載のデータ解析プログラム。

（付記２２）前記説明変数群の中から未選択の説明変数を選択する選択工程を前記コンピュータに実行させ、
前記選択工程によって選択されなかった残余の説明変数群ごとに、前記抽出工程、前記生成工程、前記第１の算出工程、前記第２の算出工程、前記第１の特定工程、前記第２の特定工程、および前記演算工程を、前記コンピュータに複数回実行させ、
前記演算工程によって前記残余の説明変数群ごとに演算された複数の重み付き誤答率を平均化することにより、前記予測アルゴリズムについて実測値と予測値との不一致度を示す誤答率が重み変数に応じて変動する重み付き平均誤答率を出力する平均化工程を、前記残余の説明変数群ごとに前記コンピュータに実行させ、
前記出力工程は、前記残余の説明変数群ごとに出力された重み付き平均誤答率をグラフ表示することを特徴とする付記１６に記載のデータ解析プログラム。

（付記２３）前記重み変数の値の入力を受け付ける入力工程を前記コンピュータに実行させ、
前記出力工程は、前記残余の説明変数群ごとに出力された重み付き平均誤答率に、前記入力工程によって入力された前記重み変数の値が与えられた前記残余の説明変数群ごとの平均誤答率を、グラフ表示することを特徴とする付記２２に記載のデータ解析プログラム。

（付記２４）前記説明変数群の中から未選択の説明変数を選択する選択工程を前記コンピュータに実行させ、
前記選択工程によって選択された説明変数ごとに、前記抽出工程、前記生成工程、前記第１の算出工程、前記第２の算出工程、前記第１の特定工程、前記第２の特定工程、および前記演算工程を、前記コンピュータに複数回実行させ、前記平均化工程を前記説明変数ごとに前記コンピュータに実行させる処理を、予測アルゴリズムごとに前記コンピュータに実行させ、
前記出力工程は、前記説明変数ごとに出力された重み付き平均誤答率を、前記予測アルゴリズムごとにグラフ表示することを特徴とする付記１７に記載のデータ解析プログラム。

（付記２５）前記説明変数群の中から未選択の説明変数を選択する選択工程を前記コンピュータに実行させ、
前記選択工程によって選択されなかった残余の説明変数群ごとに、前記抽出工程、前記生成工程、前記第１の算出工程、前記第２の算出工程、前記第１の特定工程、前記第２の特定工程、および前記演算工程を、前記コンピュータに複数回実行させ、前記平均化工程を前記残余の説明変数群ごとに前記コンピュータに実行させる処理を、予測アルゴリズムごとに前記コンピュータに実行させ、
前記出力工程は、前記残余の説明変数群ごとに出力された重み付き平均誤答率を、前記予測アルゴリズムごとにグラフ表示することを特徴とする付記１７に記載のデータ解析プログラム。

（付記２６）予測アルゴリズム群の中から未選択の予測アルゴリズムを選択する選択工程と、
前記重み変数の値の入力を受け付ける入力工程と、を前記コンピュータに実行させ、
前記選択工程によって選択された予測アルゴリズムごとに、前記抽出工程、前記生成工程、前記第１の算出工程、前記第２の算出工程、前記第１の特定工程、前記第２の特定工程、および前記演算工程を、前記コンピュータに複数回実行させ、
前記出力工程は、前記予測アルゴリズムごとに複数個出力された重み付き誤答率に前記入力工程によって入力された前記重み変数の値が与えられた、前記予測アルゴリズムごとに複数個存在する誤答率について、それぞればらつきを示すグラフを表示することを特徴とする付記１６に記載のデータ解析プログラム。

（付記２７）前記説明変数群の中から未選択の説明変数を選択する選択工程と、
前記重み変数の値の入力を受け付ける入力工程と、を前記コンピュータに実行させ、
前記選択工程によって選択された説明変数ごとに、前記抽出工程、前記生成工程、前記第１の算出工程、前記第２の算出工程、前記第１の特定工程、前記第２の特定工程、および前記演算工程を、前記コンピュータに複数回実行させ、
前記出力工程は、前記説明変数ごとに複数個出力された重み付き誤答率に前記入力工程によって入力された前記重み変数の値が与えられた、前記説明変数ごとに複数個存在する誤答率について、それぞればらつきを示すグラフを表示することを特徴とする付記１６に記載のデータ解析プログラム。

（付記２８）前記説明変数群の中から未選択の説明変数を選択する選択工程と、
前記重み変数の値の入力を受け付ける入力工程と、を前記コンピュータに実行させ、
前記選択工程によって選択されなかった残余の説明変数群ごとに、前記抽出工程、前記生成工程、前記第１の算出工程、前記第２の算出工程、前記第１の特定工程、前記第２の特定工程、および前記演算工程を、前記コンピュータに複数回実行させ、
前記出力工程は、前記残余の説明変数群ごとに複数個出力された重み付き誤答率に前記入力工程によって入力された前記重み変数の値が与えられた、前記残余の説明変数群ごとに複数個存在する誤答率について、それぞればらつきを示すグラフを表示することを特徴とする付記１６に記載のデータ解析プログラム。

（付記２９）前記演算工程は、下記式（２）に基づいて、前記重み付き誤答率を演算することを特徴とする付記１６〜２８のいずれか一つに記載のデータ解析プログラム。
ＰＷＡｗ＝ｗ×Ｎｐｎ／（Ｎｐｐ＋Ｎｐｎ）＋（１−ｗ）×Ｎｎｐ／（Ｎｎｎ＋Ｎｎｐ）・・・（２）
ただし、ＰＷＡｗは前記重み付き誤答率、ｗは前記重み変数、Ｎｐｐは前記第１の一致件数、Ｎｐｎは前記第１の不一致件数、Ｎｎｎは前記第２の一致件数、Ｎｎｐは前記第２の不一致件数。

（付記３０）前記説明変数群は、回路の故障原因に関する数値情報であり、前記説明変数は、前記故障原因による正常または故障を示す数値情報であることを特徴とする付記１〜２９のいずれか一つに記載のデータ解析プログラム。

（付記３１）前記説明変数群は、顧客の属性に関する数値情報であり、前記説明変数は、商品の購入実績状況を示す数値情報であることを特徴とする付記１〜２９のいずれか一つに記載のデータ解析プログラム。

（付記３２）前記説明変数群は、顧客の属性に関する数値情報であり、前記説明変数は、前記顧客への融資後の返済状況を示す数値情報であることを特徴とする付記１〜２９のいずれか一つに記載のデータ解析プログラム。

（付記３３）少なくとも１つ以上の説明変数である説明変数群に対する目的変数が正例である正例実測値の集合と前記説明変数群に対する前記目的変数が負例である負例実測値の集合を有する実測値集合を記憶する記憶装置を有するコンピュータが、
前記実測値集合から、前記正例実測値と前記負例実測値とが同数となるように正例実測値群および負例実測値群をランダムに抽出する抽出工程と、
前記抽出工程によって抽出された正例実測値群および負例実測値群に基づいて、予測アルゴリズムについて前記目的変数を予測する予測式を生成する生成工程と、
を実行することを特徴とするデータ解析方法。

（付記３４）少なくとも１つ以上の説明変数である説明変数群に対する目的変数が正例である正例実測値の集合と前記説明変数群に対する前記目的変数が負例である負例実測値の集合を有する実測値集合を記憶する記憶装置を有するデータ解析装置であって、
前記実測値集合から、前記正例実測値と前記負例実測値とが同数となるように正例実測値群および負例実測値群をランダムに抽出する抽出手段と、
前記抽出手段によって抽出された正例実測値群および負例実測値群に基づいて、予測アルゴリズムについて前記目的変数を予測する予測式を生成する生成手段と、
を備えることを特徴とするデータ解析装置。

４３０１評価処理部
４３０２平均化処理部
４３０３出力部
４３０４入力部
４３０５選択部
４３１１抽出部
４３１２生成部
４３１３第１の算出部
４３１４第２の算出部
４３１５第１の特定部
４３１６第２の特定部
４３１７演算部

Claims

少なくとも１つ以上の説明変数である説明変数群に対する目的変数が正例である正例実測値の集合と前記説明変数群に対する前記目的変数が負例である負例実測値の集合を有する実測値集合を記憶する記憶装置を有するコンピュータに、
前記実測値集合から、前記正例実測値と前記負例実測値とが同数となるように正例実測値群および負例実測値群をランダムに抽出する抽出工程と、
前記抽出工程によって抽出された正例実測値群および負例実測値群に基づいて、予測アルゴリズムにより前記目的変数を予測する予測式を生成する生成工程と、
前記生成工程によって生成された予測式に、前記正例実測値の集合から前記正例実測値群を除いた残余の正例実測値群を各々与えることにより、第１の予測値群を算出する第１の算出工程と、
前記生成工程によって生成された予測式に、前記負例実測値の集合から前記負例実測値群を除いた残余の負例実測値群を各々与えることにより、第２の予測値群を算出する第２の算出工程と、
前記第１の算出工程によって算出された第１の予測値群のうち前記予測式への入力元となる前記正例実測値と一致した第１の一致件数と、前記正例実測値と不一致となった第１の不一致件数を特定する第１の特定工程と、
前記第２の算出工程によって算出された第２の予測値群のうち前記予測式への入力元となる前記負例実測値と一致した第２の一致件数と、前記負例実測値と不一致となった第２の不一致件数を特定する第２の特定工程と、
前記第１および第２の特定工程によって特定された特定結果に基づいて、前記予測アルゴリズムについて実測値と予測値との一致度を示す正答率が重み変数に応じて変動する重み付き正答率を演算する演算工程と、
前記演算工程によって演算された演算結果を出力する出力工程と、
を実行させることを特徴とするデータ解析プログラム。
前記抽出工程、前記生成工程、前記第１の算出工程、前記第２の算出工程、前記第１の特定工程、前記第２の特定工程、および前記演算工程を、前記コンピュータに複数回実行させ、
前記演算工程によって演算された複数の重み付き正答率を平均化することにより、前記予測アルゴリズムについて実測値と予測値との一致度を示す正答率が重み変数に応じて変動する重み付き平均正答率を出力する平均化工程を前記コンピュータに実行させることを特徴とする請求項１に記載のデータ解析プログラム。
予測アルゴリズムごとに、前記抽出工程、前記生成工程、前記第１の算出工程、前記第２の算出工程、前記第１の特定工程、前記第２の特定工程、および前記演算工程を、前記コンピュータに複数回実行させ、
前記演算工程によって前記予測アルゴリズムごとに演算された複数の重み付き正答率を平均化することにより、前記予測アルゴリズムについて実測値と予測値との一致度を示す正答率が重み変数に応じて変動する重み付き平均正答率を出力する平均化工程を、前記予測アルゴリズムごとに前記コンピュータに実行させ、
前記出力工程は、前記予測アルゴリズムごとに出力された重み付き平均正答率をグラフ表示することを特徴とする請求項１に記載のデータ解析プログラム。
前記説明変数群の中から未選択の説明変数を選択する選択工程を前記コンピュータに実行させ、
前記選択工程によって選択された説明変数ごとに、前記抽出工程、前記生成工程、前記第１の算出工程、前記第２の算出工程、前記第１の特定工程、前記第２の特定工程、および前記演算工程を、前記コンピュータに複数回実行させ、
前記演算工程によって前記説明変数ごとに演算された複数の重み付き正答率を平均化することにより、前記予測アルゴリズムについて実測値と予測値との一致度を示す正答率が重み変数に応じて変動する重み付き平均正答率を出力する平均化工程を、前記説明変数ごとに前記コンピュータに実行させ、
前記出力工程は、前記説明変数ごとに出力された重み付き平均正答率をグラフ表示することを特徴とする請求項１に記載のデータ解析プログラム。
前記説明変数群の中から未選択の説明変数を選択する選択工程を前記コンピュータに実行させ、
前記選択工程によって選択されなかった残余の説明変数群ごとに、前記抽出工程、前記生成工程、前記第１の算出工程、前記第２の算出工程、前記第１の特定工程、前記第２の特定工程、および前記演算工程を、前記コンピュータに複数回実行させ、
前記演算工程によって前記残余の説明変数群ごとに演算された複数の重み付き正答率を平均化することにより、前記予測アルゴリズムについて実測値と予測値との一致度を示す正答率が重み変数に応じて変動する重み付き平均正答率を出力する平均化工程を、前記残余の説明変数群ごとに前記コンピュータに実行させ、
前記出力工程は、前記残余の説明変数群ごとに出力された重み付き平均正答率をグラフ表示することを特徴とする請求項１に記載のデータ解析プログラム。
少なくとも１つ以上の説明変数である説明変数群に対する目的変数が正例である正例実測値の集合と前記説明変数群に対する前記目的変数が負例である負例実測値の集合を有する実測値集合を記憶する記憶装置を有するコンピュータに、
前記実測値集合から、前記正例実測値と前記負例実測値とが同数となるように正例実測値群および負例実測値群をランダムに抽出する抽出工程と、
前記抽出工程によって抽出された正例実測値群および負例実測値群に基づいて、予測アルゴリズムにより前記目的変数を予測する予測式を生成する生成工程と、
前記生成工程によって生成された予測式に、前記正例実測値の集合から前記正例実測値群を除いた残余の正例実測値群を各々与えることにより、第１の予測値群を算出する第１の算出工程と、
前記生成工程によって生成された予測式に、前記負例実測値の集合から前記負例実測値群を除いた残余の負例実測値群を各々与えることにより、第２の予測値群を算出する第２の算出工程と、
前記第１の算出工程によって算出された第１の予測値群のうち前記予測式への入力元となる前記正例実測値と一致した第１の一致件数と、前記正例実測値と不一致となった第１の不一致件数を特定する第１の特定工程と、
前記第２の算出工程によって算出された第２の予測値群のうち前記予測式への入力元となる前記負例実測値と一致した第２の一致件数と、前記負例実測値と不一致となった第２の不一致件数を特定する第２の特定工程と、
前記第１および第２の特定工程によって特定された特定結果に基づいて、前記予測アルゴリズムについて実測値と予測値との不一致度を示す誤答率が重み変数に応じて変動する重み付き誤答率を演算する演算工程と、
前記演算工程によって演算された演算結果を出力する出力工程と、
を実行させることを特徴とするデータ解析プログラム。
少なくとも１つ以上の説明変数である説明変数群に対する目的変数が正例である正例実測値の集合と前記説明変数群に対する前記目的変数が負例である負例実測値の集合を有する実測値集合を記憶する記憶装置を有するコンピュータが、
前記実測値集合から、前記正例実測値と前記負例実測値とが同数となるように正例実測値群および負例実測値群をランダムに抽出する抽出工程と、
前記抽出工程によって抽出された正例実測値群および負例実測値群に基づいて、予測アルゴリズムにより前記目的変数を予測する予測式を生成する生成工程と、
前記生成工程によって生成された予測式に、前記正例実測値の集合から前記正例実測値群を除いた残余の正例実測値群を各々与えることにより、第１の予測値群を算出する第１の算出工程と、
前記生成工程によって生成された予測式に、前記負例実測値の集合から前記負例実測値群を除いた残余の負例実測値群を各々与えることにより、第２の予測値群を算出する第２の算出工程と、
前記第１の算出工程によって算出された第１の予測値群のうち前記予測式への入力元となる前記正例実測値と一致した第１の一致件数と、前記正例実測値と不一致となった第１の不一致件数を特定する第１の特定工程と、
前記第２の算出工程によって算出された第２の予測値群のうち前記予測式への入力元となる前記負例実測値と一致した第２の一致件数と、前記負例実測値と不一致となった第２の不一致件数を特定する第２の特定工程と、
前記第１および第２の特定工程によって特定された特定結果に基づいて、前記予測アルゴリズムについて実測値と予測値との一致度を示す正答率が重み変数に応じて変動する重み付き正答率を演算する演算工程と、
前記演算工程によって演算された演算結果を出力する出力工程と、
を実行することを特徴とするデータ解析方法。
少なくとも１つ以上の説明変数である説明変数群に対する目的変数が正例である正例実測値の集合と前記説明変数群に対する前記目的変数が負例である負例実測値の集合を有する実測値集合を記憶する記憶装置を有するデータ解析装置であって、
前記実測値集合から、前記正例実測値と前記負例実測値とが同数となるように正例実測値群および負例実測値群をランダムに抽出する抽出手段と、
前記抽出手段によって抽出された正例実測値群および負例実測値群に基づいて、予測アルゴリズムにより前記目的変数を予測する予測式を生成する生成手段と、
前記生成手段によって生成された予測式に、前記正例実測値の集合から前記正例実測値群を除いた残余の正例実測値群を各々与えることにより、第１の予測値群を算出する第１の算出手段と、
前記生成手段によって生成された予測式に、前記負例実測値の集合から前記負例実測値群を除いた残余の負例実測値群を各々与えることにより、第２の予測値群を算出する第２の算出手段と、
前記第１の算出手段によって算出された第１の予測値群のうち前記予測式への入力元となる前記正例実測値と一致した第１の一致件数と、前記正例実測値と不一致となった第１の不一致件数を特定する第１の特定手段と、
前記第２の算出手段によって算出された第２の予測値群のうち前記予測式への入力元となる前記負例実測値と一致した第２の一致件数と、前記負例実測値と不一致となった第２の不一致件数を特定する第２の特定手段と、
前記第１および第２の特定手段によって特定された特定結果に基づいて、前記予測アルゴリズムについて実測値と予測値との一致度を示す正答率が重み変数に応じて変動する重み付き正答率を演算する演算手段と、
前記演算手段によって演算された演算結果を出力する出力手段と、
を備えることを特徴とするデータ解析装置。