JP2015170184A

JP2015170184A - 未観測因子推定支援装置、未観測因子推定支援方法および未観測因子推定支援プログラム

Info

Publication number: JP2015170184A
Application number: JP2014045193A
Authority: JP
Inventors: 弘治丸橋; Hiroharu Maruhashi; 湯上　伸弘; Nobuhiro Yugami; 伸弘湯上
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2014-03-07
Filing date: 2014-03-07
Publication date: 2015-09-28
Anticipated expiration: 2034-03-07
Also published as: JP6268000B2

Abstract

【課題】複数のサンプルの説明変数を用いて、各サンプルに対して目的変数を予測する予測問題において、新たに説明変数を加えることが好ましい場合に、新たに加える説明変数の示唆を与える。【解決手段】未観測因子推定支援装置は、複数の説明変数のうちの一つを除いた事前評価値を用いて目的変数の値を予測して得られる第１の予測値を用いて効果スコアを算出し、目的変数の予測誤差を効果スコアの線形和として表すような第１の説明変数を選択し、追加候補説明変数に対する効果スコアに基づいてサンプルの一部を代表サンプルとして抽出し、代表サンプルに対する事前評価値に基づいて説明変数の一つを第２の説明変数を選択し、第２の説明変数に対する事前評価値と、第１の説明変数のサンプルに対する効果スコアの値を出力する。【選択図】図１３

Description

本発明は、未観測因子推定支援装置、未観測因子推定支援方法および未観測因子推定支援プログラムに関するものである。

近年、情報技術（ＩＴ）の発展によって、顧客データの蓄積とそれを用いた顧客の購買行動予測が可能となりつつある。たとえば、インターネット経由による顧客の購買情報を蓄積するなどして集められた購買履歴と、買った商品の評価等から、顧客ごとに推奨する商品を提示するなどの技術が開発されている。

たとえば、特定の顧客に対して推奨する商品を決定する際には、サンプル、たとえば顧客ごとに、説明変数を用いて目的変数を予測することが広く行われている。つまり、目的変数とは、値を予測したい変数である。たとえば、インターネット通信販売サイトにおいて、あるユーザの過去の購買した商品に対する評価を説明変数として、そのユーザが未だ購入していない商品に対する評価を予測することが考えられる。このとき、各ユーザがサンプルに対応する。このような予測を多くのユーザを対象に行うことによって、ある商品の売れ筋の予測をすることができる。

また、半導体製造工程において、歩留まりを向上させるため、製造段階でのできあがり値や素子の特性データ等の各種測定データに基づいて、歩留まりを低下させている要因項目をできるだけ速やかに見つけ出す技術が知られている（たとえば、特許文献１）。このような技術では、目的変数に関連付けられた複数の連続量の説明変数の中から目的変数に影響度の高い説明変数を選び出している。

また、データ分析では、例えば、各種商品を販売した場合のアンケートにより、どのような年齢、性別、職業等の人が購入したかといったデータをデータベースに蓄積して、それらのデータを分析（平均値を取ったり、度数分布を求める等）をすることがある。そのような分析は一般的に、ある期間毎（たとえば、１ヶ月毎、６ヶ月毎、１年毎等）にそれまでの期間に蓄積されたデータについて行う。このようなデータ分析において、蓄積されたデータに対し新たなデータが追加されたとき、その内容を自動的に反映した分析、予測を行う技術が知られている（たとえば、特許文献２）。たとえば、予め複数の各事例についてそれぞれを構成する属性データ（氏名、年齢、性別、職業等のデータ）と結果を表す事例データ（ある商品について購入したか否かを表すデータ）とが組み合わされ、そのような組が多数、蓄積されているとする。そして、類似の事例データの分布を求め、その分布に基づく推論アルゴリズムを用いて、未知データの予測属性の予測を行う。さらに、真の値が通知された未知データを追加する場合は、その時点での事例データの一部の事例について、その一部の事例を除いた事例データから正確に予測できる事例を、その一部の事例を取り替えながら繰り返し調べることにより求め、蓄積された事例データから削除する。

また一般に、予測誤差の分布は、多数の説明変数からなる高次元空間上の分布である。この場合、予測誤差の特性を評価することは、高次元空間に分布する予測誤差の周辺分布を評価することである。

高次元空間において、周辺分布を算出するためには、高次元空間に分布するサンプルから、任意の条件に合致するサンプルを抽出することが望ましい。さらに、予測誤差の評価においては、ヒトが対話的に扱うこと扱うことが望ましい。このような機能を実現するものとして、ＯｎＬｉｎｅＡｎａｌｙｔｉｃａｌＰｒｏｃｅｓｓｉｎｇ（ＯＬＡＰ）と呼ばれる機能が知られている（たとえば、非特許文献１）。

特開２００７−３２９４１５号公報特開２００２−１４８１４公報

平田他「高次元のモデルにおける誤差の可視化手法について」ＤＥＩＭフォーラム２０１０Ｄ１０−４

各サンプルに説明変数と目的変数が付与されており、複数のサンプルの説明変数を用いて、各サンプルに対して目的変数を予測する予測問題において、説明変数の種類の数が不足しているために、目的変数の予測の精度が悪いと考えられる場合がある。つまり、予測の精度を向上させるために、新たに説明変数を加えることが好ましい場合がある。その場合、どのような説明変数を加えるかを自動的に決める手法がないという問題がある。

よって、一つの側面として、本発明は、新たに説明変数を加えることが好ましい場合に、加えるに適切な説明変数を示唆し、予測の精度を向上させることを目的とする。

複数のサンプルと複数の説明変数に対して与えられる評価値を用いて、目的変数の値を予測するために、前記複数の説明変数に加える新たな説明変数の予測を支援する未観測因子推定支援装置が提供される。未観測因子推定支援装置は、前記評価値を用いて前記目的変数の値を予測して得られる第１の予測値と、前記目的変数の値の差を誤差として算出し、前記複数の説明変数のうちの一つを除いて前記目的変数の値を予測して得られる第３の予測値と、前記第１の予測値の差を前記複数の説明変数のうちの一つに対する効果スコアとして算出し、前記誤差を、前記効果スコアの線形和として表すような前記複数の説明変数の少なくとも一つを第１の説明変数として選択する第１の説明変数選択部と、前記第１の説明変数に対する前記効果スコアに基づいて前記複数のサンプルの一部を代表サンプルとして抽出し、前記代表サンプルの前記複数の説明変数の各々に対する前記評価値に基づいて前記複数の説明変数の一つを第２の説明変数として選択する第２の説明変数選択部と、前記第２の説明変数に対する前記評価値と、前記第１の説明変数の前記サンプルに対する前記効果スコアの値を出力する出力部と、を含むことを特徴とする。

各サンプルに説明変数と目的変数が付与されており、複数のサンプルの説明変数を用いて、各サンプルに対して目的変数を予測する予測問題において、新たに説明変数を加えることが好ましい場合に、どのような説明変数を加えるかの示唆を与えることができ、予測精度を向上させることができる。

映画評価の予測の例を示す図である。映画評価の予測における予測誤差の例を示す図である。映画評価の予測における比較例を説明するための図である。映画評価の予測における比較例を説明するための図である。実施形態における、追加する説明変数の選択を説明するための図である。実施形態における、追加する説明変数の選択を説明するための図である。実施形態における、追加する説明変数の選択を説明するための図である。実施形態の未観測因子推定支援装置の機能ブロック図の例を示す図である。効果スコアの算出について説明するための図である。効果スコアの算出について説明するための図である。効果スコアの算出について説明するための図である。効果スコアの算出について説明するための図である。効果スコアの算出について説明するための図である。実施形態の未観測因子推定支援装置の構成の例を示す図である。実施形態の未観測因子推定支援方法における処理の流れの例を示す図である。図１５の追加候補説明変数選択処理の流れの例を示す図である。図１５の俯瞰用説明変数選択処理の流れの例を示す図である。

以下、図面を参照して、まず、概略について説明し、その後、実施形態の未観測因子推定支援装置、方法およびプログラムについて説明する。
＜概略＞
以下では、映画評価の予測の例を用いて説明するが、もちろん、以下の実施形態は、映画評価の予測への適用のみに限定されない。各サンプルに説明変数と目的変数が付与されており、複数のサンプルの説明変数を用いて、各サンプルに対して目的変数を予測する予測問題であれば、あらゆる問題に適用することが可能である。適用可能な分野には、商品の販売予測から、たとえば災害対策のための自然現象の解析、製品の製造工程の評価など、あらゆる分野が含まれ得る。

まず、用語を定義する。
「予測問題」とは、各サンプルには目的変数と説明変数が付与されている場合、複数のサンプルの説明変数を用いて、各サンプルに対して目的変数を予測する問題を指すことがある。

「目的変数」とは、予測問題において、値を予測したい変数を指すことがある。
「説明変数」とは、予測問題において、目的変数の予測に用いることのできる変数を指すことがある。

図１は、映画評価の予測の例を示す図である。
図１では、Ｓ１からＳ１２までの１２人のサンプル（評価者）の各々が、映画Ａ（ドキュメンタリ映画）と映画Ｂ（有名アイドル主演映画）と映画Ｃ（アニメ映画）の３つの映画について既に評価をして評価値が決められているものとする。評価値は１から１０の１０段階で、評価の数字が大きくなるほど、そのサンプルの評価は高いものとする。

ここで、映画Ｘに対する各サンプルの評価を予測したいとする。すなわち、説明変数として、映画Ａ、Ｂ、Ｃの評価値を用いて、目的変数である映画Ｘの評価値を予測する。

図２は、映画評価の予測における予測誤差の例を示す図である。
図２には、図１のような状況において、各サンプルの映画Ｘに対する実際の評価値が目的変数の欄に記載されている。また、図２の予測値の欄には、各サンプルの映画Ｘに対する評価値の予測値が記載されている。予測値は、説明変数の値から、所定の処理を行うことで得られるものとする。この所定の処理のアルゴリズムは、説明変数の値から予測値が算出されるものであれば良い。図２の予測誤差の欄には、各サンプルの映画Ｘに対する実際の評価値と各サンプルの映画Ｘに対する評価値の予測値の差である予測誤差の値が記載されている。

予測誤差は、説明変数の値から予測値を得るためのアルゴリズムを改善することによって、減少する場合がある。しかしながら、説明変数が不足しているために、予測誤差を減少させることが難しいことも少なくない。たとえば、所定のサンプルに対する予測誤差を減らそうと試みると、別のサンプルに対する予測誤差が大きくなってしまい、全体として予測誤差の大きさが小さくならないというような状況である。

以下では、説明変数が不足しているために、予測精度が悪いと考えられる場合がある場合に、不足している説明変数を推定することを考える。

このとき、もっと予測精度を上げるためには、どのような説明変数を追加すればいいのかを予測する必要がある。

さらに、追加する説明変数の候補として、充分な数の説明変数の候補を得ることが難しい場合がある。たとえば、映画評価に関して、追加すべき説明変数を探るために、まだ評価していない多くの映画の評価を評価者に依頼することも考えられる。しかし、それには、コストが掛かるなどの問題がある。そのような場合には、追加する説明変数の候補を絞り込んだ上で、候補を取得する必要がある。

たとえば、アンケートに基づく顧客行動の予測では、映画館が、ある種の映画のキャンペーン対象として、その映画を好みそうな人に絞りこむために、リピート客へのアンケート（「以下の映画を５段階評価してください」など）を行いたい場合がある。この場合、顧客の負担を減らすため、できるだけ少ないアンケート項目に絞ることが好ましい。しかし、予測精度を上げる可能性のあるアンケート項目を網羅的に設定すると、顧客の負担が大きくなってしまう。このように、アンケートに基づく顧客行動の予測では、追加する説明変数の候補を絞り込む必要がある。

また、医療関係の予測では次のような場合があり得る。ある会社の各従業員の１年後の血糖値を、それぞれの血液検査の各項目の値から予測するモデルを構築してみたが、予測精度が悪かったとする。予測精度を上げるために、抗体検査など、より高度な測定による他の数値を探したいが、そのために多くの検査を幅広く実施することが好ましい。しかし、予測精度を上げる可能性のある生体内指標を網羅的に測定するには、コストがかかりすぎる。多くの検査を幅広く実施するにはコストが大きすぎるので、追加する説明変数の候補を絞り込む必要がある。

図３は、映画評価の予測における比較例を説明するための図である。
図３は、ＯｎＬｉｎｅＡｎａｌｙｔｉｃａｌＰｒｏｃｅｓｓｉｎｇ（ＯＬＡＰ）手法などを用いて、既存の説明変数に沿った形で予測誤差の分布を可視化することにより、予測誤差の特性を把握する例を概念的に示している。

図３では、サンプルの映画Ｃ（アニメ映画）の評価値と、予測誤差の相関関係を可視化するために、横軸を映画Ｃの評価（評価値）、縦軸を目的変数の予測誤差の値として度数分布を作成している。このような度数分布を用いて、予測誤差の大きいサンプルの分布を既存の説明変数に沿って把握することができる。そして、それらのサンプルにおいて予測誤差を改善できると思われる説明変数を、追加する説明変数の候補を選択することできる。

たとえば、アニメ映画の評価値が高い人において映画Ｘの予測誤差が大きいのなら、アニメ映画を高く評価する人の間における評価が映画Ｘの評価値と相関する映画が、追加する説明変数の候補とすることが好ましい。

しかし、通常は２つ以上の説明変数の不足の影響が混在した予測誤差として観測されることを考慮すると、何個のどのような説明変数が不足しているか推定することができない。

たとえば、アニメ映画の評価値が高い人と低い人の両方で、映画Ｘの予測誤差が大きい場合がある。アニメ映画の評価に関係ない映画を説明変数として追加すべきなのか、アニメ映画の評価が高い人と低い人のそれぞれで評価の別れる２つの映画を説明変数として追加すべきなのか、アニメ映画の評価値が高い人、中程度の人・低い人のそれぞれで評価の別れる３つの映画評価を追加すべきなのかなど、様々な選択肢が考えられてしまう。

追加する説明変数の組み合わせのパタンは無数に考えられるため、追加候補の説明変数を取得するコストが大きくなってしまう。

図４は、映画評価の予測における比較例を説明するための図である。図４では、既に得ている説明変数に、１つまたは複数の説明変数を加える場合が示されている。

たとえば、映画Ｄの評価値を説明変数として加えるパタン１、映画Ｅと映画Ｆの評価値を説明変数として加えるパタン２、映画Ｇと映画Ｈと映画Ｉの評価値を説明変数として加えるパタン３が示されている。

ある映画に対する評価値のサンプル間のばらつきが大きい場合、ある映画では同一または類似の評価値であるサンプルに対し、それらサンプルの間で評価値が異なるような映画を説明変数として加えることにより、それらのサンプルの予測誤差の改善効果が期待できる。

図４の例においける追加パタン１では、映画Ｃ（アニメ映画）の評価に関わらず予測誤差を改善する映画Ｄを追加する。

追加パタン２では、映画Ｃ（アニメ映画）の評価値が１から２のサンプルの予測誤差を改善する映画Ｅと、映画Ｃ（アニメ映画）の評価値が９から１０の人のサンプルの予測誤差を改善する映画Ｆを追加する。

追加パタン３では、映画Ｃ（アニメ映画）の評価値が１のサンプルの予測誤差を改善する映画Ｇと、映画Ｃ（アニメ映画）の評価値が２のサンプルの予測誤差を改善する映画Ｈと、映画Ｃ（アニメ映画）の評価値が９から１０のサンプルの予測誤差を改善する映画Ｉを説明変数に追加する。

このように、予測誤差の分布を把握できても、考えうる追加パタンは無数に存在するため、追加候補として多くの説明変数が必要となり、多大なコストを要することがある。
よって、追加候補として妥当な説明変数の個数と種類を、少なく絞り込む必要がある。

以下で説明する実施形態は、次のような技術的特徴を有している。
（Ｃ１）既存の各説明変数の有無による予測誤差の絶対値の差を各説明変数の予測効果とし、予測効果の高いサンプル群が予測誤差の大きいサンプルの大部分をカバーできるような、少数の追加候補説明変数群を選ぶ。
（Ｃ２）追加候補説明変数群に対し、それらの予測効果が高いサンプル群が偏って存在する俯瞰用説明変数を選ぶ。
（Ｃ３）（Ｃ１）で選ばれた追加候補説明変数群を、俯瞰用説明変数が存在する説明変数の組み合わせの中から選ぶ。すなわち、予測効果の高いサンプル群の分布の特徴が、既存の説明変数で把握しやすいように説明変数を選ぶ。

図５は、実施形態における、追加する説明変数の選択を説明するための図である。図５では、上記技術的特徴（Ｃ１）のように、予測効果が高いサンプル集合を併せたサンプル集合が、予測誤差が大きいサンプル集合とよく一致するように、追加候補説明変数群を選ぶ様子が示されている。

図５に示されている表では、映画Ａがない時の予測誤差と、映画Ｂがない時の予測誤差と、映画Ｃがない時の予測誤差が示されている。

枠Ａ１、枠Ａ２で囲まれている部分は、予測誤差の絶対値が比較的大きな部分である。つまり、枠Ａ１で囲まれている部分に対応するサンプルでは、映画Ａに対する評価値を無視すると、映画Ｘに対する評価値の予測誤差が大きくなる。同様に、枠Ａ２で囲まれている部分に対応するサンプルでは、映画Ｂに対する評価値を無視すると、映画Ｘに対する評価値の予測誤差が大きくなる。

図５に示されている例では、枠Ａ１で囲まれている部分と、枠Ａ２で囲まれている部分を併せて得られる分布と、予測誤差の値の分布と類似する。

図６は、実施形態における、追加する説明変数の選択を説明するための図であり、上記技術的特徴（Ｃ２）のように、選ばれた追加候補説明変数群（映画Ａと映画Ｂ）の、予測効果が高いサンプルが、偏って分布する俯瞰用説明変数を選ぶ様子が示されている。

図６では、映画Ａの予測誤差が大きいサンプルＳ１、Ｓ４、Ｓ８、Ｓ２、Ｓ５、Ｓ１０は、枠Ｂ１で囲まれている部分のように、映画Ｃの評価値が１から２に偏っている。また、映画Ｂの予測誤差が大きいサンプルＳ７、Ｓ９、Ｓ１１、Ｓ３、Ｓ６、Ｓ１２は、枠Ｂ２で囲まれている部分のように、映画Ｃの評価値が９から１０に偏っている。

図７は、実施形態における、追加する説明変数の選択を説明するための図であり、上記技術的特徴（Ｃ３）のように、技術的特徴（Ｃ１）に従って選ばれた追加候補説明変数群を、俯瞰用説明変数が存在する説明変数の組み合わせの中から選ぶ様子が示されている。図７では、枠Ａ１で囲まれている部分と、枠Ａ２で囲まれている部分を併せて得られる分布は、枠Ｂ３で囲まれているように、映画Ｃの評価値の分布をカバーする。よって、映画Ｃに類似する映画を説明変数に加えることが好ましいとの結論を得る。

もし、技術的特徴（Ｃ１）に従って選んだ追加候補説明変数群に対して、俯瞰用説明変数が存在しなければ、技術的特徴（Ｃ１）の処理をやり直して、他の説明変数群を選んでも良い。

＜未観測因子推定支援装置＞
図８は、実施形態の未観測因子推定支援装置の機能ブロック図の例を示す図である。

図８に示されているように、未観測因子推定支援装置１０は、入力部１０２、追加候補説明変数選択部１０４、俯瞰用説明変数選択部１０６、および出力部１０８を含む。

入力部１０２は、外部からデータの入力を受ける。
追加候補説明変数選択部１０４は、入力部１０２で受けたデータに基づいて、追加候補説明変数群を選択する。

より具体的には、追加候補説明変数選択部１０４は、各サンプルに対する既存の各説明変数の効果スコアを、その説明変数が無いときとあるときの予測誤差の絶対値の差により計算する。効果スコアは、たとえば、予測誤差の分布が正規分布と仮定して、予測誤差の２乗の差であっても良い。

図９は、効果スコアの算出について説明するための図である。
図９の表α１には、Ｓ１からＳ１２までの１２人のサンプル（評価者）の各々が、映画Ａ（ドキュメンタリ映画）と映画Ｂ（有名アイドル主演映画）と映画Ｃ（アニメ映画）の３つの映画について既に評価をして評価値と、目的変数である映画Ｘの評価値、目的変数である映画Ｘの予測値、目的変数である映画Ｘの予測値と評価値の差である予測誤差、予測誤差の２乗誤差が記入されている。図９の表α２には、Ｓ１からＳ１２までの１２人のサンプル（評価者）の各々が、映画Ｂ（有名アイドル主演映画）と映画Ｃ（アニメ映画）の３つの映画について既に評価をして評価値と、目的変数である映画Ｘの評価値、目的変数である映画Ｘの予測値、目的変数である映画Ｘの予測値と評価値の差である予測誤差、予測誤差の２乗誤差が記入されている。つまり、表α２は、表α１から説明変数の一つ、映画Ａ（ドキュメンタリ映画）を消去して得られる表である。予測値は、説明変数として、映画Ａ、Ｂ、Ｃの評価値を用いて計算された、目的変数である映画Ｘの評価値の予測値である。

表α１と表α２から、各サンプルに対する効果スコアを計算する。たとえば、映画Ａの効果スコアとは、各サンプルに対して、映画Ａの評価値の有無間の２乗誤差の差分であり、表α２に記載されている２乗誤差と、表α１に記載されている２乗誤差の差である。映画Ｂ、Ｃに対しても、同様に、効果スコアを計算する。

また追加候補説明変数選択部１０４は、全ての既存の説明変数を用いたときの予測誤差の絶対値を、効果スコアの線形和で近似できるような、できるだけ少数の追加候補説明変数を選択する。例えば、あらゆる説明変数の組み合わせの中から、予測誤差の２乗を効果スコアによって近似したときのベイズ情報量基準が最も小さくなるような、説明変数の組み合わせを選んでも良い。

図１０は、全ての既存の説明変数を用いたときの予測誤差の絶対値を、効果スコアの線形和で近似できるような、できるだけ少数の追加候補説明変数を選択する様子を示している。

図１０において、表β１は、映画Ａ、映画Ｂ、映画Ｃに対する効果スコアと、表α１の２乗誤差が記載されている。追加候補説明変数選択部１０４は、この２乗誤差を、できる限り近似するような、効果スコアの線形和を見つける。この場合、映画Ａと映画Ｂの効果スコアの線形和として、効果スコアを表現する。図１０の場合、２乗誤差（表β２）は、映画Ａの効果スコア（表β３）の０．１５倍と、映画Ｂの効果スコア（表β４）の０．８５倍の和として表現される。追加候補説明変数選択部１０４は、２乗誤差に対する効果スコアによる重回帰分析の、ベイズ情報量基準が最小になる説明変数の組み合わせを選んでも良い。

俯瞰用説明変数選択部１０６は、俯瞰用説明変数を選択する。
具体的には俯瞰用説明変数選択部１０６は、追加候補説明変数ごとに効果スコアが高い代表サンプルを選び、それらのサンプルの値（映画の評価）が偏っている説明変数の中から、全ての追加候補説明変数の代表サンプルの値が偏っている説明変数を、俯瞰用説明変数として選んでも良い。つまり俯瞰用説明変数選択部１０６は、追加候補説明変数ごとに、その効果スコアが高い代表サンプル同士を選び、それらのサンプルの値の分散が所定値以下となる説明変数を抽出した後に、全ての追加候補説明変数の前記の分散が所定値以下となる説明変数を、俯瞰用説明変数として選択しても良い。

また、俯瞰用説明変数選択部１０６は、追加候補説明変数選択部１０４における追加候補説明変数群として、俯瞰用説明変数が選べる組み合わせに限定して選択する。俯瞰用説明変数選択部１０６は、俯瞰用の説明変数が選べなければ、この効果スコアの組み合わせを選ばなくても良い。この場合、俯瞰用説明変数選択部１０６は、追加候補説明変数の選択から再度実施するように、追加候補説明変数選択部１０４に指示しても良い。

図１１は、俯瞰用説明変数の選択について説明するための図である。
俯瞰用説明変数選択部１０６は、全ての追加候補説明変数の代表サンプルに対して分散が小さい説明変数を、俯瞰用説明変数として選択する。

たとえば、各サンプルに対する映画Ａの効果スコアが示されている表γ１では、枠Ｄ１で囲まれている、サンプルＳ１、Ｓ４、Ｓ８、Ｓ２、Ｓ５、Ｓ１０が、効果スコアが大きな代表サンプルである。代表サンプルは、評価値の分布から求めても良いし、閾値との比較によって求めても良い。そして、俯瞰用説明変数選択部１０６は、映画Ａ、Ｂ、Ｃのそれぞれに対して、代表サンプルサンプルＳ１、Ｓ４、Ｓ８、Ｓ２、Ｓ５、Ｓ１０の評価値の分散を計算する。また、各サンプルに対する映画Ｂの効果スコアが示されている表γ２では、枠Ｄ２で囲まれている、サンプルＳ７、Ｓ９、Ｓ１１、Ｓ３、Ｓ６、Ｓ１２が、効果スコアが大きな代表サンプルである。そして、俯瞰用説明変数選択部１０６は、映画Ａ、Ｂ、Ｃのそれぞれに対して、代表サンプルサンプルＳ７、Ｓ９、Ｓ１１、Ｓ３、Ｓ６、Ｓ１２の評価値の分散を計算する。

そして俯瞰用説明変数選択部１０６は、全ての追加候補説明変数の代表サンプルに対して分散が小さい説明変数を、俯瞰用説明変数として選択する。たとえば、枠Ｄ１で囲まれている、サンプルＳ１、Ｓ４、Ｓ８、Ｓ２、Ｓ５、Ｓ１０に対しては、映画Ａに対する分散は１４．３、映画Ｂに対する分散は０．３、映画Ｃに対する分散は０．３である。図１１で枠Ｅ１、Ｅ２で囲ったように、映画Ｂ、Ｃに対する分散が小さい。よって、映画Ｂ、Ｃが俯瞰用説明変数として選択される。枠Ｄ２で囲まれている、サンプルＳ７、Ｓ９、Ｓ１１、Ｓ３、Ｓ６、Ｓ１２に対しては、映画Ａに対する分散は０．３、映画Ｂに対する分散は１０．７、映画Ｃに対する分散は０．３である。図１１で枠Ｅ３、Ｅ４で囲ったように、映画Ａ、Ｃに対する分散が小さい。よって、映画Ａ、Ｃが俯瞰用説明変数として選択される。よって、映画Ｃは全てのサンプルに対して、分散が小さい。したがって俯瞰用説明変数選択部１０６は、映画Ｃを俯瞰用説明変数として選択する。

図１２は、俯瞰用説明変数が選択できなかった場合について説明する図である。たとえば、図１２において、枠Ｆで囲った映画Ｃに対する効果スコアがないとする。すると、枠Ｄ１で囲まれている、サンプルＳ１、Ｓ４、Ｓ８、Ｓ２、Ｓ５、Ｓ１０に対しては、分散が小さな映画の組を選択できない。また、枠Ｄ２で囲まれている、サンプルＳ７、Ｓ９、Ｓ１１、Ｓ３、Ｓ６、Ｓ１２に対しても、分散が小さな映画の組を選択できない。このような場合、俯瞰用説明変数選択部１０６は、追加候補説明変数の選択から再度実施するように、追加候補説明変数選択部１０４に指示しても良い。

出力部１０８は、俯瞰用説明変数選択部１０６で得られた結果を出力する。
図１３は、出力部１０８の出力の例を示す図である。図１３では、追加候補説明変数の効果スコアと俯瞰用説明変数の値の関係の例が示されている。図１３に示されている表の中で、三角印のプロットは、映画Ａに対する評価の効果スコアを示している。また、図１３に示されている表の中で、丸印のプロットは、映画Ｂに対する評価の効果スコアを示している。

図１３の枠Ｇ１で囲まれた部分から、映画Ｃの評価値が低いサンプルは、映画Ａの効果スコアが高いことが分かる。よって、ユーザは映画Ａに似た映画を加えれば、映画Ｃの評価が低い人の予測効果が向上するだろうことを予想することができる。

また、図１３の枠Ｇ２で囲まれた部分から、映画Ｃの評価値が高いサンプルは、映画Ｂの効果スコアが高いことが分かる。よって、ユーザは映画Ｂに似た映画を加えれば、映画Ｃの評価が高い人の予測効果が向上するだろうことを予想することができる。つまり、ユーザは、アニメ映画（映画Ｃ）の評価が低い人の予測改善が期待できるドキュメンタリ映画（映画Ａ）のような映画と、アニメ映画（映画Ｃ）の評価が高い人の予測改善が期待できる有名アイドル主演映画（映画Ｂ）のような映画の予測を加えればよいことが分かる。

上記のように、未観測因子推定支援装置１０は、複数のサンプルと複数の説明変数に対して与えられる事前評価値を用いて、目的変数の値を予測するために、前記複数の説明変数に加える新たな説明変数の予測を支援することができる。

追加候補説明変数選択部（第１の説明変数選択部）１０４は、評価値を用いて目的変数の値を予測して得られる第１の予測値と、目的変数の値との差を誤差として算出し、複数の説明変数のうちの一つを除いて目的変数の値を予測して得られる第２の予測値と、第１の予測値との差を除かれた一つの説明変数に対する効果スコアとして算出し、誤差を、効果スコアの線形和として表すような複数の説明変数の少なくとも一つを第１の説明変数として選択しても良い。ここで、目的変数の値は、サンプルによって事前に与えられた値であっても良い。

俯瞰用説明変数選択部（第２の説明変数選択部）１０６は、第１の説明変数に対する効果スコアに基づいて複数のサンプルの一部を代表サンプルとして抽出し、代表サンプルの複数の説明変数の各々に対する評価値に基づいて複数の説明変数の一つを第２の説明変数として選択しても良い。

出力部１０８は、俯瞰用説明変数（第２の説明変数）に対する評価値と、追加候補説明変数（第１の説明変数）のサンプルに対する効果スコアの値を出力しても良い。

また、俯瞰用説明変数選択部（第２の説明変数選択部）１０６は、効果スコアの分布に基づいて、複数のサンプルの一部を複数の説明変数の一つに対する代表サンプルとして抽出しても良い。このとき俯瞰用説明変数選択部（第２の説明変数選択部）１０６は、所定の第１の値以上の効果スコアを与える複数のサンプルの一部を複数の説明変数の一つに対する代表サンプルとして抽出しても良い。所定の第１の値は、予め定められていても良いし、効果スコアの分布から求めても良い。

また、俯瞰用説明変数選択部（第２の説明変数選択部）１０６は、代表サンプルに対する評価値の分布に基づいて、説明変数の一つを俯瞰用説明変数（第２の説明変数）として選択し得る。このとき俯瞰用説明変数選択部（第２の説明変数選択部）１０６は、前記代表サンプルに対する前記複数の説明変数の各々に対する評価値の分散を算出し、追加候補説明変数（第１の説明変数）の全てに対し、分散が所定の第２の値以下の前記説明変数の一つを俯瞰用説明変数（第２の説明変数）として選択しても良い。

追加候補説明変数選択部（第１の説明変数選択部）１０４は、複数の説明変数の各々に対して、複数のサンプルの一部を複数の説明変数の一つに対する代表サンプルとして抽出し、複数の説明変数の一部に対する代表サンプルを併せて得られる集合の分布が、誤差の分布に類似するような前記複数の説明変数の一部を追加候補説明変数（第１の説明変数）として選択しても良い。

また、俯瞰用説明変数選択部（第２の説明変数選択部）１０６は、前記誤差に対する、前記効果スコアによる重回帰分析の情報量基準が最小になる説明変数の組み合わせを追加候補説明変数（第１の説明変数）としても良い。また、前記分散が所定の値より小さい前記説明変数の一つを俯瞰用説明変数（第２の説明変数）としてしても良い。

俯瞰用説明変数選択部（第２の説明変数選択部）１０６は、所定の条件を満たす説明変数を見出せない場合、追加候補説明変数選択部（第１の説明変数選択部）１０４が、前記第１の説明変数を選択しなおしても良い。

このように、各サンプルに説明変数と目的変数が付与されており、複数のサンプルの説明変数を用いて、各サンプルに対して目的変数を予測する予測問題において、予測の精度を向上させるために、新たに説明変数を加えることが好ましい場合に、どのような説明変数を加えるかを自動的に決めることができる。

図１４は実施形態の未観測因子推定支援装置１０の構成の例を示す図である。
このコンピュータ２００は、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ（ＣＰＵ）２０２、ＲｅａｄＯｎｌｙＭｅｍｏｒｙ（ＲＯＭ）２０４、及びＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ（ＲＡＭ）２０６を備えている。コンピュータ５００は、さらに、ハードディスク装置２０８、入力装置２１０、表示装置２１２、インターフェース装置２１４、及び記録媒体駆動装置２１６を備えている。なお、これらの構成要素はバスライン２２０を介して接続されており、ＣＰＵ２０２の管理の下で各種のデータを相互に授受することができる。

ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ（ＣＰＵ）２０２は、このコンピュータ２００全体の動作を制御する演算処理装置であり、コンピュータ２００の制御処理部として機能する。

ＲｅａｄＯｎｌｙＭｅｍｏｒｙ（ＲＯＭ）２０４は、所定の基本制御プログラムが予め記録されている読み出し専用半導体メモリである。ＣＰＵ２０２は、この基本制御プログラムをコンピュータ１００の起動時に読み出して実行することにより、このコンピュータ２００の各構成要素の動作制御が可能になる。

ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ（ＲＡＭ）２０６は、ＣＰＵ２０２が各種の制御プログラムを実行する際に、必要に応じて作業用記憶領域として使用する、随時書き込み読み出し可能な半導体メモリである。

ハードディスク装置２０８は、ＣＰＵ２０２によって実行される各種の制御プログラムや各種のデータを記憶しておく記憶装置である。ＣＰＵ２０２は、ハードディスク装置２０８に記憶されている所定の制御プログラムを読み出して実行することにより、後述する各種の制御処理を行えるようになる。

入力装置２１０は、例えばマウス装置やキーボード装置であり、情報処理装置のユーザにより操作されると、その操作内容に対応付けられている各種情報の入力を取得し、取得した入力情報をＣＰＵ２０２に送付する。

表示装置２１２は例えば液晶ディスプレイであり、ＣＰＵ２０２から送付される表示データに応じて各種のテキストや画像を表示する。

インターフェース装置２１４は、このコンピュータ２００に接続される各種機器との間での各種情報の授受の管理を行う。

記録媒体駆動装置２１６は、可搬型記録媒体２１８に記録されている各種の制御プログラムやデータの読み出しを行う装置である。ＣＰＵ２０２は、可搬型記録媒体２１８に記録されている所定の制御プログラムを、記録媒体駆動装置２１６を介して読み出して実行することによって、後述する各種の制御処理を行うようにすることもできる。なお、可搬型記録媒体２１８としては、例えばＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）規格のコネクタが備えられているフラッシュメモリ、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＤＶＤ−ＲＯＭ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）などがある。

このようなコンピュータ２００を用いて未観測因子推定支援装置１０を構成するには、例えば、上述の各処理部における処理をＣＰＵ２０２に行わせるための制御プログラムを作成する。作成された制御プログラムはハードディスク装置２０８若しくは可搬型記録媒体２１８に予め格納しておく。そして、ＣＰＵ２０２に所定の指示を与えてこの制御プログラムを読み出させて実行させる。こうすることで、情報処理装置が備えている機能がＣＰＵ２０２により提供される。

＜未観測因子推定支援処理＞
図１５は、未観測因子推定支援処理の流れを示す図である。

また、未観測因子推定支援装置１０が図１４に示されているような汎用コンピュータ２００である場合には、下記の説明は、そのような処理を行う制御プログラムを定義する。すなわち、以下では、下記に説明する処理を汎用コンピュータに行わせる制御プログラムの説明でもある。

処理が開始されるとＳ１００で追加候補説明変数選択部１０４は、除外リストを空集合に初期化する。

次のＳ１０２で追加候補説明変数選択部１０４は、追加候補説明変数選択処理を行う。
追加候補説明変数選択処理について、図１６を参照して説明する。

追加候補説明変数選択処理が開始されると、Ｓ２００で追加候補説明変数選択部１０４は、図９を参照して説明したように、各説明変数を除外した場合の予測誤差の２乗と、全ての説明変数を使った場合の予測誤差の２乗との差分を効果スコアとして計算する。

次のＳ２０２で追加候補説明変数選択部１０４は、説明変数の組み合わせを１組選択する。このとき、除外リストが空集合ではない場合、除外リストにある組み合わせは除く。

Ｓ２０２の次のＳ２０４で追加候補説明変数選択部１０４は、図１０を参照して説明したように、全ての説明変数を使った場合の予測誤差の２乗を、選択した説明変数の組み合わせで重回帰分析し、そのベイズ情報量基準を算出する。本ステップの処理が終わると、処理はＳ２０６に進む。

Ｓ２０６で追加候補説明変数選択部１０４は、全ての組み合わせを選んだかどうかを判定する。もし本判定の結果が“Ｙｅｓ”、すなわち全ての組み合わせを選んだ場合には、処理はＳ２０８に進む。また、もし本判定の結果が“Ｎｏ”、すなわち全ての組み合わせを選んでいない場合には、処理はＳ２０２に戻る。

Ｓ２０８で追加候補説明変数選択部１０４は、ベイズ情報量基準が最小の説明変数の組み合わせを追加候補説明変数として選択する。本ステップの処理が終了すると、処理は図１５に戻る。

次のＳ１０４で俯瞰用説明変数選択部１０６は、俯瞰用説明変数選択処理を行う。
俯瞰用説明変数選択処理について、図１７を参照して説明する。

俯瞰用説明変数選択処理が開始されると、Ｓ３００で俯瞰用説明変数選択部１０６は、俯瞰用説明変数集合を空集合に初期化する。

次のＳ３０２で俯瞰用説明変数選択部１０６は、説明変数を１つ取得する。本ステップの処理が終了すると、処理はＳ３０４に進む。

Ｓ３０４で俯瞰用説明変数選択部１０６は、追加候補説明変数を１つ取得する。本ステップの処理が終了すると、処理はＳ３０６に進む。

Ｓ３０６で俯瞰用説明変数選択部１０６は、図１１を参照して説明したように、取得した追加候補説明変数の効果スコアが所定値以上のサンプルの、取得した説明変数の値の分散を計算する。本ステップの処理が終了すると、処理はＳ３０８に進む。

Ｓ３０８で俯瞰用説明変数選択部１０６は、全ての追加候補説明変数を採取したかを判定する。もし本判定の結果が“Ｙｅｓ”、すなわち全ての追加候補説明変数を採取した場合には、処理はＳ３１０に進む。また、もし本判定の結果が“Ｎｏ”、すなわち全ての追加候補説明変数を採取していない場合には、処理はＳ３０４に戻る。

Ｓ３１０で俯瞰用説明変数選択部１０６は、全ての分散が所定値以下かどうかを判定する。もし本判定の結果が“Ｙｅｓ”、すなわち全ての分散が所定値以下である場合には、処理はＳ３１２に進む。また、もし本判定の結果が“Ｎｏ”、すなわち全ての分散が所定値以下ではない場合には、処理はＳ３１４に進む。

Ｓ３１２で俯瞰用説明変数選択部１０６は、現在処理している追加候補説明変数を俯瞰用説明変数集合に追加する。本ステップの処理が終了すると、処理はＳ３１４に進む。

Ｓ３１４で俯瞰用説明変数選択部１０６は、全ての説明変数を取得したかを判定する。もし本判定の結果が“Ｙｅｓ”、すなわち全ての説明変数を取得した場合には、処理は図１５に戻る。また、もし本判定の結果が“Ｎｏ”、すなわち全ての追加候補説明変数を取得していない場合には、処理はＳ３０２に戻る。

図１５のＳ１０６で俯瞰用説明変数選択部１０６は、俯瞰用説明変数が選べたかを判定する。もし本判定の結果が“Ｙｅｓ”、すなわち俯瞰用説明変数が選べた場合には、処理はＳ１１０に進む。また、もし本判定の結果が“Ｎｏ”、すなわち俯瞰用説明変数が選べなかった場合には、処理はＳ１０８に進む。

Ｓ１０８で俯瞰用説明変数選択部１０６は、追加候補説明変数選択部１０４に選択されている追加候補説明変数の組み合わせを除外リストに追加させる。本ステップの処理が終了すると、処理はＳ１０２に戻る。

Ｓ１１０で出力部１０８は、結果を出力する。たとえば、出力部１０８は図１３に示されているような追加候補説明変数の効果スコアと俯瞰用説明変数の値の関係を示す図をディスプレイに表示し得る。図１３に示されている図は、プリンタからプリントアウトされても良い。

上記のような未観測因子推定支援装置１０、未観測因子推定支援処理を行うことによって、追加する説明変数として、予測効果の高いサンプルの分布が既存の説明変数に類似したものを想定することにより、追加すべき説明変数の種類と個数を利用者に提示することができる。

たとえば、ユーザは、映画Ｘの評価の予測として、有名アイドル主演映画の評価が、特にアニメ映画の評価が高い人の予測に効くのであれば、他の有名アイドル主演映画の評価が、やはり同じ人々の予測に効くのであろうことを知ることができる。これにより、ユーザは、より少ない追加説明変数の候補に絞り込み、追加する説明変数候補を取得するコストを削減することができる。

以上の実施形態に関し、さらに以下の付記を開示する。
（付記１）
複数のサンプルと複数の説明変数に対して与えられる評価値を用いて、目的変数の値を予測するために、前記複数の説明変数に加える新たな説明変数の予測を支援する未観測因子推定支援装置であって、
前記評価値を用いて前記目的変数の値を予測して得られる第１の予測値と、前記目的変数の値との差を誤差として算出し、前記複数の説明変数のうちの一つを除いて前記目的変数の値を予測して得られる第２の予測値と、前記第１の予測値との差を前記除かれた一つの説明変数に対する効果スコアとして算出し、前記誤差を、前記効果スコアの線形和として表すような前記複数の説明変数の少なくとも一つを第１の説明変数として選択する第１の説明変数選択部と、
前記第１の説明変数に対する前記効果スコアに基づいて前記複数のサンプルの一部を代表サンプルとして抽出し、前記代表サンプルの前記複数の説明変数の各々に対する前記評価値に基づいて前記複数の説明変数の一つを第２の説明変数として選択する第２の説明変数選択部と、
前記第２の説明変数に対する前記評価値と、前記第１の説明変数の前記サンプルに対する前記効果スコアの値を出力する出力部と、
を含む未観測因子推定支援装置。
（付記２）
前記第２の説明変数選択部は、前記効果スコアの分布に基づいて、前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出する、付記１に記載の未観測因子推定支援装置。
（付記３）
前記第２の説明変数選択部は、所定の第１の値以上の前記効果スコアを与える前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出する、付記２に記載の未観測因子推定支援装置。
（付記４）
前記第２の説明変数選択部は、前記代表サンプルに対する前記評価値の分布に基づいて、前記説明変数の一つを第２の説明変数として選択する、付記１乃至３のいずれか一項に記載の未観測因子推定支援装置。
（付記５）
前記第２の説明変数選択部は、前記代表サンプルに対する前記複数の説明変数の各々に対する前記評価値の分散を算出し、前記第１の説明変数に対し、前記分散が第２の値以下の前記説明変数の一つを前記第２の説明変数として選択する付記４に記載の未観測因子推定支援装置。
（付記６）
前記第１の説明変数選択部は、前記複数の説明変数の各々に対して、前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出し、前記複数の説明変数の一部に対する前記代表サンプルを併せて得られる集合の分布が、前記誤差の分布に類似するような前記複数の説明変数の一部を前記第１の説明変数として選択する、付記１乃至５のいずれか一項に記載の未観測因子推定支援装置。
（付記７）
前記第２の説明変数選択部は、前記誤差に対する、前記効果スコアによる重回帰分析の情報量基準が最小になる前記説明変数の組み合わせを前記第１の説明変数として選択する、付記１乃至６のいずれか一項に記載の未観測因子推定支援装置。
（付記８）
前記第２の説明変数選択部が、所定の条件を満たす前記説明変数を見出せない場合、前記第１の説明変数選択部が、前記第１の説明変数を選択しなおす、付記１乃至８のいずれか一項に記載の未観測因子推定支援装置。
（付記９）
コンピュータによって実行される、複数のサンプルと複数の説明変数に対して与えられる評価値を用いて、目的変数の値を予測するために、前記複数の説明変数に加える新たな説明変数の予測を支援する未観測因子推定支援方法であって、
前記評価値を用いて前記目的変数の値を予測して得られる第１の予測値と、前記目的変数の値との差を誤差として算出することと、
前記複数の説明変数のうちの一つを除いて前記目的変数の値を予測して得られる第２の予測値と、前記第１の予測値との差を前記除かれた一つの説明変数に対する効果スコアとして算出し、前記誤差を、前記効果スコアの線形和として表すような前記複数の説明変数の少なくとも一つを第１の説明変数として選択することと、
前記第１の説明変数に対する前記効果スコアに基づいて前記複数のサンプルの一部を代表サンプルとして抽出し、前記代表サンプルの前記複数の説明変数の各々に対する前記評価値に基づいて前記複数の説明変数の一つを第２の説明変数として選択することと、
前記第２の説明変数に対する前記第２の予測値と、前記第１の説明変数の前記サンプルに対する前記効果スコアの値を出力することと、
を含む未観測因子推定支援方法。
（付記１０）
前記代表サンプルを抽出することは、前記効果スコアの分布に基づいて、前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出する、付記９に記載の未観測因子推定支援方法。
（付記１１）
前記代表サンプルを抽出することは、所定の第１の値以上の前記効果スコアを与える前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出する、付記１０に記載の未観測因子推定支援方法。
（付記１２）
前記第２の説明変数を選択することは、前記代表サンプルに対する前記評価値の分布に基づいて、前記説明変数の一つを第２の説明変数として選択する、付記９乃至１１のいずれか一項に記載の未観測因子推定支援方法。
（付記１３）
前記第２の説明変数を選択することは、前記代表サンプルに対する前記複数の説明変数の各々に対する前記評価値の分散を算出し、前記第１の説明変数の全てに対し、前記分散が所定の第２の値以下の前記説明変数の一つを第２の説明変数として選択する付記１２に記載の未観測因子推定支援方法。
（付記１４）
前記第１の説明変数を選択することは、前記複数の説明変数の各々に対して、前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出し、前記複数の説明変数の一部に対する前記代表サンプルを併せて得られる集合の分布が、前記誤差の分布に類似するような前記複数の説明変数の一部を前記第１の説明変数として選択する、付記１０乃至１４のいずれか一項に記載の未観測因子推定支援方法。
（付記１５）
前記第２の説明変数を選択することは、前記誤差に対する、前記効果スコアによる重回帰分析の情報量基準が最小になる前記説明変数の組み合わせを前記第１の説明変数として選択する、付記９乃至１４のいずれか一項に記載の未観測因子推定支援方法。
（付記１６）
前記第２の説明変数を選択することが、所定の条件を満たす前記説明変数を見出せない場合、前記前記第１の説明変数を選択することで、前記第１の説明変数を選択しなおす、付記９乃至１５のいずれか一項に記載の未観測因子推定支援方法。
（付記１７）
コンピュータに、複数のサンプルと複数の説明変数に対して与えられる評価値を用いて、目的変数の値を予測するために、前記複数の説明変数に加える新たな説明変数の予測を支援する処理を行わせる未観測因子推定支援プログラムであって、
前記評価値を用いて前記目的変数の値を予測して得られる第１の予測値と、前記目的変数の値との差を誤差として算出し、
前記複数の説明変数のうちの一つを除いて前記目的変数の値を予測して得られる第２の予測値と、前記第１の予測値との差を前記除かれた一つの説明変数に対する効果スコアとして算出し、前記誤差を、前記効果スコアの線形和として表すような前記複数の説明変数の少なくとも一つを第１の説明変数として選択し、
前記第１の説明変数に対する前記効果スコアに基づいて前記複数のサンプルの一部を代表サンプルとして抽出し、前記代表サンプルの前記複数の説明変数の各々に対する前記評価値に基づいて前記複数の説明変数の一つを第２の説明変数として選択し、
前記第２の説明変数に対する前記第２の予測値と、前記第１の説明変数の前記サンプルに対する前記効果スコアの値を出力すると、
処理をコンピュータに実行させることを特徴とする未観測因子推定支援プログラム。
（付記１８）
前記代表サンプルを抽出することは、前記効果スコアの分布に基づいて、前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出する、付記１７に記載の未観測因子推定支援プログラム。
（付記１９）
前記代表サンプルを抽出することは、所定の第１の値以上の前記効果スコアを与える前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出する、付記１８に記載の未観測因子推定支援プログラム。
（付記２０）
前記第２の説明変数を選択することは、前記代表サンプルに対する前記評価値の分布に基づいて、前記説明変数の一つを第２の説明変数として選択する、付記１７乃至１９のいずれか一項に記載の未観測因子推定支援プログラム。
（付記２１）
前記第２の説明変数を選択することは、前記代表サンプルに対する前記複数の説明変数の各々に対する前記評価値の分散を算出し、前記第１の説明変数の全てに対し、前記分散が所定の第２の値以下の前記説明変数の一つを俯瞰用説明変数として選択する、付記２０に記載の未観測因子推定支援プログラム。
（付記２２）
前記第１の説明変数を選択することは、前記複数の説明変数の各々に対して、前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出し、前記複数の説明変数の一部に対する前記代表サンプルを併せて得られる集合の分布が、前記誤差の分布に類似するような前記複数の説明変数の一部を前記第１の説明変数として選択する、付記１７乃至２１のいずれか一項に記載の未観測因子推定支援プログラム。
（付記２３）
前記第２の説明変数を選択することは、前記誤差に対する、前記効果スコアによる重回帰分析の情報量基準が最小になる前記説明変数の組み合わせを前記第１の説明変数として選択する、付記１７乃至２２のいずれか一項に記載の未観測因子推定支援プログラム。
（付記２４）
前記第２の説明変数を選択することが、所定の条件を満たす前記説明変数を見出せない場合、前記前記第１の説明変数を選択することで、前記第１の説明変数を選択しなおす、付記１７乃至２３のいずれか一項に記載の未観測因子推定支援プログラム。

１０未観測因子推定支援装置
１０２入力部
１０４追加候補説明変数選択部
１０６俯瞰用説明変数選択部
１０８出力部

Claims

複数のサンプルと複数の説明変数に対して与えられる評価値を用いて、目的変数の値を予測するために、前記複数の説明変数に加える新たな説明変数の予測を支援する未観測因子推定支援装置であって、
前記評価値を用いて前記目的変数の値を予測して得られる第１の予測値と、前記目的変数の値との差を誤差として算出し、前記複数の説明変数のうちの一つを除いて前記目的変数の値を予測して得られる第２の予測値と、前記第１の予測値との差を前記除かれた一つの説明変数に対する効果スコアとして算出し、前記誤差を、前記効果スコアの線形和として表すような前記複数の説明変数の少なくとも一つを第１の説明変数として選択する第１の説明変数選択部と、
前記第１の説明変数に対する前記効果スコアに基づいて前記複数のサンプルの一部を代表サンプルとして抽出し、前記代表サンプルの前記複数の説明変数の各々に対する前記評価値に基づいて前記複数の説明変数の一つを第２の説明変数として選択する第２の説明変数選択部と、
前記第２の説明変数に対する前記評価値と、前記第１の説明変数の前記サンプルに対する前記効果スコアの値を出力する出力部と、
を含む未観測因子推定支援装置。
前記第２の説明変数選択部は、前記効果スコアの分布に基づいて、前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出する、付記１に記載の未観測因子推定支援装置。
前記第２の説明変数選択部は、所定の第１の値以上の前記効果スコアを与える前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出する、請求項２に記載の未観測因子推定支援装置。
前記第２の説明変数選択部は、前記代表サンプルに対する前記評価値の分布に基づいて、前記説明変数の一つを第２の説明変数として選択する、請求項１乃至３のいずれか一項に記載の未観測因子推定支援装置。
前記第２の説明変数選択部は、前記代表サンプルに対する前記複数の説明変数の各々に対する前記評価値の分散を算出し、前記第１の説明変数に対し、前記分散が第２の値以下の前記説明変数の一つを前記第２の説明変数として選択する請求項４に記載の未観測因子推定支援装置。
前記第１の説明変数選択部は、前記複数の説明変数の各々に対して、前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出し、前記複数の説明変数の一部に対する前記代表サンプルを併せて得られる集合の分布が、前記誤差の分布に類似するような前記複数の説明変数の一部を前記第１の説明変数として選択する、請求項１乃至５のいずれか一項に記載の未観測因子推定支援装置。
前記第２の説明変数選択部は、前記誤差に対する、前記効果スコアによる重回帰分析の情報量基準が最小になる前記説明変数の組み合わせを前記第１の説明変数として選択する、請求項１乃至６のいずれか一項に記載の未観測因子推定支援装置。
前記第２の説明変数選択部が、所定の条件を満たす前記説明変数を見出せない場合、前記第１の説明変数選択部が、前記第１の説明変数を選択しなおす、請求項１乃至８のいずれか一項に記載の未観測因子推定支援装置。
コンピュータによって実行される、複数のサンプルと複数の説明変数に対して与えられる評価値を用いて、目的変数の値を予測するために、前記複数の説明変数に加える新たな説明変数の予測を支援する未観測因子推定支援方法であって、
前記評価値を用いて前記目的変数の値を予測して得られる第１の予測値と、前記目的変数の値との差を誤差として算出することと、
前記複数の説明変数のうちの一つを除いて前記目的変数の値を予測して得られる第２の予測値と、前記第１の予測値との差を前記除かれた一つの説明変数に対する効果スコアとして算出し、前記誤差を、前記効果スコアの線形和として表すような前記複数の説明変数の少なくとも一つを第１の説明変数として選択することと、
前記第１の説明変数に対する前記効果スコアに基づいて前記複数のサンプルの一部を代表サンプルとして抽出し、前記代表サンプルの前記複数の説明変数の各々に対する前記評価値に基づいて前記複数の説明変数の一つを第２の説明変数として選択することと、
前記第２の説明変数に対する前記第２の予測値と、前記第１の説明変数の前記サンプルに対する前記効果スコアの値を出力することと、
を含む未観測因子推定支援方法。
コンピュータに、複数のサンプルと複数の説明変数に対して与えられる評価値を用いて、目的変数の値を予測するために、前記複数の説明変数に加える新たな説明変数の予測を支援する処理を行わせる未観測因子推定支援プログラムであって、
前記評価値を用いて前記目的変数の値を予測して得られる第１の予測値と、前記目的変数の値との差を誤差として算出し、
前記複数の説明変数のうちの一つを除いて前記目的変数の値を予測して得られる第２の予測値と、前記第１の予測値との差を前記除かれた一つの説明変数に対する効果スコアとして算出し、前記誤差を、前記効果スコアの線形和として表すような前記複数の説明変数の少なくとも一つを第１の説明変数として選択し、
前記第１の説明変数に対する前記効果スコアに基づいて前記複数のサンプルの一部を代表サンプルとして抽出し、前記代表サンプルの前記複数の説明変数の各々に対する前記評価値に基づいて前記複数の説明変数の一つを第２の説明変数として選択し、
前記第２の説明変数に対する前記第２の予測値と、前記第１の説明変数の前記サンプルに対する前記効果スコアの値を出力すると、
処理をコンピュータに実行させることを特徴とする未観測因子推定支援プログラム。