JP2015170184A - 未観測因子推定支援装置、未観測因子推定支援方法および未観測因子推定支援プログラム - Google Patents

未観測因子推定支援装置、未観測因子推定支援方法および未観測因子推定支援プログラム Download PDF

Info

Publication number
JP2015170184A
JP2015170184A JP2014045193A JP2014045193A JP2015170184A JP 2015170184 A JP2015170184 A JP 2015170184A JP 2014045193 A JP2014045193 A JP 2014045193A JP 2014045193 A JP2014045193 A JP 2014045193A JP 2015170184 A JP2015170184 A JP 2015170184A
Authority
JP
Japan
Prior art keywords
explanatory
explanatory variable
variable
value
variables
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014045193A
Other languages
English (en)
Other versions
JP6268000B2 (ja
Inventor
弘治 丸橋
Hiroharu Maruhashi
弘治 丸橋
湯上 伸弘
Nobuhiro Yugami
伸弘 湯上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014045193A priority Critical patent/JP6268000B2/ja
Publication of JP2015170184A publication Critical patent/JP2015170184A/ja
Application granted granted Critical
Publication of JP6268000B2 publication Critical patent/JP6268000B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】複数のサンプルの説明変数を用いて、各サンプルに対して目的変数を予測する予測問題において、新たに説明変数を加えることが好ましい場合に、新たに加える説明変数の示唆を与える。【解決手段】未観測因子推定支援装置は、複数の説明変数のうちの一つを除いた事前評価値を用いて目的変数の値を予測して得られる第1の予測値を用いて効果スコアを算出し、目的変数の予測誤差を効果スコアの線形和として表すような第1の説明変数を選択し、追加候補説明変数に対する効果スコアに基づいてサンプルの一部を代表サンプルとして抽出し、代表サンプルに対する事前評価値に基づいて説明変数の一つを第2の説明変数を選択し、第2の説明変数に対する事前評価値と、第1の説明変数のサンプルに対する効果スコアの値を出力する。【選択図】図13

Description

本発明は、未観測因子推定支援装置、未観測因子推定支援方法および未観測因子推定支援プログラムに関するものである。
近年、情報技術(IT)の発展によって、顧客データの蓄積とそれを用いた顧客の購買行動予測が可能となりつつある。たとえば、インターネット経由による顧客の購買情報を蓄積するなどして集められた購買履歴と、買った商品の評価等から、顧客ごとに推奨する商品を提示するなどの技術が開発されている。
たとえば、特定の顧客に対して推奨する商品を決定する際には、サンプル、たとえば顧客ごとに、説明変数を用いて目的変数を予測することが広く行われている。つまり、目的変数とは、値を予測したい変数である。たとえば、インターネット通信販売サイトにおいて、あるユーザの過去の購買した商品に対する評価を説明変数として、そのユーザが未だ購入していない商品に対する評価を予測することが考えられる。このとき、各ユーザがサンプルに対応する。このような予測を多くのユーザを対象に行うことによって、ある商品の売れ筋の予測をすることができる。
また、半導体製造工程において、歩留まりを向上させるため、製造段階でのできあがり値や素子の特性データ等の各種測定データに基づいて、歩留まりを低下させている要因項目をできるだけ速やかに見つけ出す技術が知られている(たとえば、特許文献1)。このような技術では、目的変数に関連付けられた複数の連続量の説明変数の中から目的変数に影響度の高い説明変数を選び出している。
また、データ分析では、例えば、各種商品を販売した場合のアンケートにより、どのような年齢、性別、職業等の人が購入したかといったデータをデータベースに蓄積して、それらのデータを分析(平均値を取ったり、度数分布を求める等)をすることがある。そのような分析は一般的に、ある期間毎(たとえば、1ヶ月毎、6ヶ月毎、1年毎等)にそれまでの期間に蓄積されたデータについて行う。このようなデータ分析において、蓄積されたデータに対し新たなデータが追加されたとき、その内容を自動的に反映した分析、予測を行う技術が知られている(たとえば、特許文献2)。たとえば、予め複数の各事例についてそれぞれを構成する属性データ(氏名、年齢、性別、職業等のデータ)と結果を表す事例データ(ある商品について購入したか否かを表すデータ)とが組み合わされ、そのような組が多数、蓄積されているとする。そして、類似の事例データの分布を求め、その分布に基づく推論アルゴリズムを用いて、未知データの予測属性の予測を行う。さらに、真の値が通知された未知データを追加する場合は、その時点での事例データの一部の事例について、その一部の事例を除いた事例データから正確に予測できる事例を、その一部の事例を取り替えながら繰り返し調べることにより求め、蓄積された事例データから削除する。
また一般に、予測誤差の分布は、多数の説明変数からなる高次元空間上の分布である。この場合、予測誤差の特性を評価することは、高次元空間に分布する予測誤差の周辺分布を評価することである。
高次元空間において、周辺分布を算出するためには、高次元空間に分布するサンプルから、任意の条件に合致するサンプルを抽出することが望ましい。さらに、予測誤差の評価においては、ヒトが対話的に扱うこと扱うことが望ましい。このような機能を実現するものとして、OnLine Analytical Processing(OLAP)と呼ばれる機能が知られている(たとえば、非特許文献1)。
特開2007−329415号公報 特開2002−14814公報
平田他「高次元のモデルにおける誤差の可視化手法について」DEIMフォーラム2010 D10−4
各サンプルに説明変数と目的変数が付与されており、複数のサンプルの説明変数を用いて、各サンプルに対して目的変数を予測する予測問題において、説明変数の種類の数が不足しているために、目的変数の予測の精度が悪いと考えられる場合がある。つまり、予測の精度を向上させるために、新たに説明変数を加えることが好ましい場合がある。その場合、どのような説明変数を加えるかを自動的に決める手法がないという問題がある。
よって、一つの側面として、本発明は、新たに説明変数を加えることが好ましい場合に、加えるに適切な説明変数を示唆し、予測の精度を向上させることを目的とする。
複数のサンプルと複数の説明変数に対して与えられる評価値を用いて、目的変数の値を予測するために、前記複数の説明変数に加える新たな説明変数の予測を支援する未観測因子推定支援装置が提供される。未観測因子推定支援装置は、前記評価値を用いて前記目的変数の値を予測して得られる第1の予測値と、前記目的変数の値の差を誤差として算出し、前記複数の説明変数のうちの一つを除いて前記目的変数の値を予測して得られる第3の予測値と、前記第1の予測値の差を前記複数の説明変数のうちの一つに対する効果スコアとして算出し、前記誤差を、前記効果スコアの線形和として表すような前記複数の説明変数の少なくとも一つを第1の説明変数として選択する第1の説明変数選択部と、前記第1の説明変数に対する前記効果スコアに基づいて前記複数のサンプルの一部を代表サンプルとして抽出し、前記代表サンプルの前記複数の説明変数の各々に対する前記評価値に基づいて前記複数の説明変数の一つを第2の説明変数として選択する第2の説明変数選択部と、前記第2の説明変数に対する前記評価値と、前記第1の説明変数の前記サンプルに対する前記効果スコアの値を出力する出力部と、を含むことを特徴とする。
各サンプルに説明変数と目的変数が付与されており、複数のサンプルの説明変数を用いて、各サンプルに対して目的変数を予測する予測問題において、新たに説明変数を加えることが好ましい場合に、どのような説明変数を加えるかの示唆を与えることができ、予測精度を向上させることができる。
映画評価の予測の例を示す図である。 映画評価の予測における予測誤差の例を示す図である。 映画評価の予測における比較例を説明するための図である。 映画評価の予測における比較例を説明するための図である。 実施形態における、追加する説明変数の選択を説明するための図である。 実施形態における、追加する説明変数の選択を説明するための図である。 実施形態における、追加する説明変数の選択を説明するための図である。 実施形態の未観測因子推定支援装置の機能ブロック図の例を示す図である。 効果スコアの算出について説明するための図である。 効果スコアの算出について説明するための図である。 効果スコアの算出について説明するための図である。 効果スコアの算出について説明するための図である。 効果スコアの算出について説明するための図である。 実施形態の未観測因子推定支援装置の構成の例を示す図である。 実施形態の未観測因子推定支援方法における処理の流れの例を示す図である。 図15の追加候補説明変数選択処理の流れの例を示す図である。 図15の俯瞰用説明変数選択処理の流れの例を示す図である。
以下、図面を参照して、まず、概略について説明し、その後、実施形態の未観測因子推定支援装置、方法およびプログラムについて説明する。
<概略>
以下では、映画評価の予測の例を用いて説明するが、もちろん、以下の実施形態は、映画評価の予測への適用のみに限定されない。各サンプルに説明変数と目的変数が付与されており、複数のサンプルの説明変数を用いて、各サンプルに対して目的変数を予測する予測問題であれば、あらゆる問題に適用することが可能である。適用可能な分野には、商品の販売予測から、たとえば災害対策のための自然現象の解析、製品の製造工程の評価など、あらゆる分野が含まれ得る。
まず、用語を定義する。
「予測問題」とは、各サンプルには目的変数と説明変数が付与されている場合、複数のサンプルの説明変数を用いて、各サンプルに対して目的変数を予測する問題を指すことがある。
「目的変数」とは、予測問題において、値を予測したい変数を指すことがある。
「説明変数」とは、予測問題において、目的変数の予測に用いることのできる変数を指すことがある。
図1は、映画評価の予測の例を示す図である。
図1では、S1からS12までの12人のサンプル(評価者)の各々が、映画A(ドキュメンタリ映画)と映画B(有名アイドル主演映画)と映画C(アニメ映画)の3つの映画について既に評価をして評価値が決められているものとする。評価値は1から10の10段階で、評価の数字が大きくなるほど、そのサンプルの評価は高いものとする。
ここで、映画Xに対する各サンプルの評価を予測したいとする。すなわち、説明変数として、映画A、B、Cの評価値を用いて、目的変数である映画Xの評価値を予測する。
図2は、映画評価の予測における予測誤差の例を示す図である。
図2には、図1のような状況において、各サンプルの映画Xに対する実際の評価値が目的変数の欄に記載されている。また、図2の予測値の欄には、各サンプルの映画Xに対する評価値の予測値が記載されている。予測値は、説明変数の値から、所定の処理を行うことで得られるものとする。この所定の処理のアルゴリズムは、説明変数の値から予測値が算出されるものであれば良い。図2の予測誤差の欄には、各サンプルの映画Xに対する実際の評価値と各サンプルの映画Xに対する評価値の予測値の差である予測誤差の値が記載されている。
予測誤差は、説明変数の値から予測値を得るためのアルゴリズムを改善することによって、減少する場合がある。しかしながら、説明変数が不足しているために、予測誤差を減少させることが難しいことも少なくない。たとえば、所定のサンプルに対する予測誤差を減らそうと試みると、別のサンプルに対する予測誤差が大きくなってしまい、全体として予測誤差の大きさが小さくならないというような状況である。
以下では、説明変数が不足しているために、予測精度が悪いと考えられる場合がある場合に、不足している説明変数を推定することを考える。
このとき、もっと予測精度を上げるためには、どのような説明変数を追加すればいいのかを予測する必要がある。
さらに、追加する説明変数の候補として、充分な数の説明変数の候補を得ることが難しい場合がある。たとえば、映画評価に関して、追加すべき説明変数を探るために、まだ評価していない多くの映画の評価を評価者に依頼することも考えられる。しかし、それには、コストが掛かるなどの問題がある。そのような場合には、追加する説明変数の候補を絞り込んだ上で、候補を取得する必要がある。
たとえば、アンケートに基づく顧客行動の予測では、映画館が、ある種の映画のキャンペーン対象として、その映画を好みそうな人に絞りこむために、リピート客へのアンケート(「以下の映画を5段階評価してください」など)を行いたい場合がある。この場合、顧客の負担を減らすため、できるだけ少ないアンケート項目に絞ることが好ましい。しかし、予測精度を上げる可能性のあるアンケート項目を網羅的に設定すると、顧客の負担が大きくなってしまう。このように、アンケートに基づく顧客行動の予測では、追加する説明変数の候補を絞り込む必要がある。
また、医療関係の予測では次のような場合があり得る。ある会社の各従業員の1年後の血糖値を、それぞれの血液検査の各項目の値から予測するモデルを構築してみたが、予測精度が悪かったとする。予測精度を上げるために、抗体検査など、より高度な測定による他の数値を探したいが、そのために多くの検査を幅広く実施することが好ましい。しかし、予測精度を上げる可能性のある生体内指標を網羅的に測定するには、コストがかかりすぎる。多くの検査を幅広く実施するにはコストが大きすぎるので、追加する説明変数の候補を絞り込む必要がある。
図3は、映画評価の予測における比較例を説明するための図である。
図3は、OnLine Analytical Processing(OLAP)手法などを用いて、既存の説明変数に沿った形で予測誤差の分布を可視化することにより、予測誤差の特性を把握する例を概念的に示している。
図3では、サンプルの映画C(アニメ映画)の評価値と、予測誤差の相関関係を可視化するために、横軸を映画Cの評価(評価値)、縦軸を目的変数の予測誤差の値として度数分布を作成している。このような度数分布を用いて、予測誤差の大きいサンプルの分布を既存の説明変数に沿って把握することができる。そして、それらのサンプルにおいて予測誤差を改善できると思われる説明変数を、追加する説明変数の候補を選択することできる。
たとえば、アニメ映画の評価値が高い人において映画Xの予測誤差が大きいのなら、アニメ映画を高く評価する人の間における評価が映画Xの評価値と相関する映画が、追加する説明変数の候補とすることが好ましい。
しかし、通常は2つ以上の説明変数の不足の影響が混在した予測誤差として観測されることを考慮すると、何個のどのような説明変数が不足しているか推定することができない。
たとえば、アニメ映画の評価値が高い人と低い人の両方で、映画Xの予測誤差が大きい場合がある。アニメ映画の評価に関係ない映画を説明変数として追加すべきなのか、アニメ映画の評価が高い人と低い人のそれぞれで評価の別れる2つの映画を説明変数として追加すべきなのか、アニメ映画の評価値が高い人、中程度の人・低い人のそれぞれで評価の別れる3つの映画評価を追加すべきなのかなど、様々な選択肢が考えられてしまう。
追加する説明変数の組み合わせのパタンは無数に考えられるため、追加候補の説明変数を取得するコストが大きくなってしまう。
図4は、映画評価の予測における比較例を説明するための図である。図4では、既に得ている説明変数に、1つまたは複数の説明変数を加える場合が示されている。
たとえば、映画Dの評価値を説明変数として加えるパタン1、映画Eと映画Fの評価値を説明変数として加えるパタン2、映画Gと映画Hと映画Iの評価値を説明変数として加えるパタン3が示されている。
ある映画に対する評価値のサンプル間のばらつきが大きい場合、ある映画では同一または類似の評価値であるサンプルに対し、それらサンプルの間で評価値が異なるような映画を説明変数として加えることにより、それらのサンプルの予測誤差の改善効果が期待できる。
図4の例においける追加パタン1では、映画C(アニメ映画)の評価に関わらず予測誤差を改善する映画Dを追加する。
追加パタン2では、映画C(アニメ映画)の評価値が1から2のサンプルの予測誤差を改善する映画Eと、映画C(アニメ映画)の評価値が9から10の人のサンプルの予測誤差を改善する映画Fを追加する。
追加パタン3では、映画C(アニメ映画)の評価値が1のサンプルの予測誤差を改善する映画Gと、映画C(アニメ映画)の評価値が2のサンプルの予測誤差を改善する映画Hと、映画C(アニメ映画)の評価値が9から10 のサンプルの予測誤差を改善する映画Iを説明変数に追加する。
このように、予測誤差の分布を把握できても、考えうる追加パタンは無数に存在するため、追加候補として多くの説明変数が必要となり、多大なコストを要することがある。
よって、追加候補として妥当な説明変数の個数と種類を、少なく絞り込む必要がある。
以下で説明する実施形態は、次のような技術的特徴を有している。
(C1)既存の各説明変数の有無による予測誤差の絶対値の差を各説明変数の予測効果とし、予測効果の高いサンプル群が予測誤差の大きいサンプルの大部分をカバーできるような、少数の追加候補説明変数群を選ぶ。
(C2)追加候補説明変数群に対し、それらの予測効果が高いサンプル群が偏って存在する俯瞰用説明変数を選ぶ。
(C3)(C1)で選ばれた追加候補説明変数群を、俯瞰用説明変数が存在する説明変数の組み合わせの中から選ぶ。すなわち、予測効果の高いサンプル群の分布の特徴が、既存の説明変数で把握しやすいように説明変数を選ぶ。
図5は、実施形態における、追加する説明変数の選択を説明するための図である。図5では、上記技術的特徴(C1)のように、予測効果が高いサンプル集合を併せたサンプル集合が、予測誤差が大きいサンプル集合とよく一致するように、追加候補説明変数群を選ぶ様子が示されている。
図5に示されている表では、映画Aがない時の予測誤差と、映画Bがない時の予測誤差と、映画Cがない時の予測誤差が示されている。
枠A1、枠A2で囲まれている部分は、予測誤差の絶対値が比較的大きな部分である。つまり、枠A1で囲まれている部分に対応するサンプルでは、映画Aに対する評価値を無視すると、映画Xに対する評価値の予測誤差が大きくなる。同様に、枠A2で囲まれている部分に対応するサンプルでは、映画Bに対する評価値を無視すると、映画Xに対する評価値の予測誤差が大きくなる。
図5に示されている例では、枠A1で囲まれている部分と、枠A2で囲まれている部分を併せて得られる分布と、予測誤差の値の分布と類似する。
図6は、実施形態における、追加する説明変数の選択を説明するための図であり、上記技術的特徴(C2)のように、選ばれた追加候補説明変数群(映画Aと映画B)の、予測効果が高いサンプルが、偏って分布する俯瞰用説明変数を選ぶ様子が示されている。
図6では、映画Aの予測誤差が大きいサンプルS1、S4、S8、S2、S5、S10は、枠B1で囲まれている部分のように、映画Cの評価値が1から2に偏っている。また、映画Bの予測誤差が大きいサンプルS7、S9、S11、S3、S6、S12は、枠B2で囲まれている部分のように、映画Cの評価値が9から10に偏っている。
図7は、実施形態における、追加する説明変数の選択を説明するための図であり、上記技術的特徴(C3)のように、技術的特徴(C1)に従って選ばれた追加候補説明変数群を、俯瞰用説明変数が存在する説明変数の組み合わせの中から選ぶ様子が示されている。図7では、枠A1で囲まれている部分と、枠A2で囲まれている部分を併せて得られる分布は、枠B3で囲まれているように、映画Cの評価値の分布をカバーする。よって、映画Cに類似する映画を説明変数に加えることが好ましいとの結論を得る。
もし、技術的特徴(C1)に従って選んだ追加候補説明変数群に対して、俯瞰用説明変数が存在しなければ、技術的特徴(C1)の処理をやり直して、他の説明変数群を選んでも良い。
<未観測因子推定支援装置>
図8は、実施形態の未観測因子推定支援装置の機能ブロック図の例を示す図である。
図8に示されているように、未観測因子推定支援装置10は、入力部102、追加候補説明変数選択部104、俯瞰用説明変数選択部106、および出力部108を含む。
入力部102は、外部からデータの入力を受ける。
追加候補説明変数選択部104は、入力部102で受けたデータに基づいて、追加候補説明変数群を選択する。
より具体的には、追加候補説明変数選択部104は、各サンプルに対する既存の各説明変数の効果スコアを、その説明変数が無いときとあるときの予測誤差の絶対値の差により計算する。効果スコアは、たとえば、予測誤差の分布が正規分布と仮定して、予測誤差の2乗の差であっても良い。
図9は、効果スコアの算出について説明するための図である。
図9の表α1には、S1からS12までの12人のサンプル(評価者)の各々が、映画A(ドキュメンタリ映画)と映画B(有名アイドル主演映画)と映画C(アニメ映画)の3つの映画について既に評価をして評価値と、目的変数である映画Xの評価値、目的変数である映画Xの予測値、目的変数である映画Xの予測値と評価値の差である予測誤差、予測誤差の2乗誤差が記入されている。図9の表α2には、S1からS12までの12人のサンプル(評価者)の各々が、映画B(有名アイドル主演映画)と映画C(アニメ映画)の3つの映画について既に評価をして評価値と、目的変数である映画Xの評価値、目的変数である映画Xの予測値、目的変数である映画Xの予測値と評価値の差である予測誤差、予測誤差の2乗誤差が記入されている。つまり、表α2は、表α1から説明変数の一つ、映画A(ドキュメンタリ映画)を消去して得られる表である。予測値は、説明変数として、映画A、B、Cの評価値を用いて計算された、目的変数である映画Xの評価値の予測値である。
表α1と表α2から、各サンプルに対する効果スコアを計算する。たとえば、映画Aの効果スコアとは、各サンプルに対して、映画Aの評価値の有無間の2乗誤差の差分であり、表α2に記載されている2乗誤差と、表α1に記載されている2乗誤差の差である。映画B、Cに対しても、同様に、効果スコアを計算する。
また追加候補説明変数選択部104は、全ての既存の説明変数を用いたときの予測誤差の絶対値を、効果スコアの線形和で近似できるような、できるだけ少数の追加候補説明変数を選択する。例えば、あらゆる説明変数の組み合わせの中から、予測誤差の2乗を効果スコアによって近似したときのベイズ情報量基準が最も小さくなるような、説明変数の組み合わせを選んでも良い。
図10は、全ての既存の説明変数を用いたときの予測誤差の絶対値を、効果スコアの線形和で近似できるような、できるだけ少数の追加候補説明変数を選択する様子を示している。
図10において、表β1は、映画A、映画B、映画Cに対する効果スコアと、表α1の2乗誤差が記載されている。追加候補説明変数選択部104は、この2乗誤差を、できる限り近似するような、効果スコアの線形和を見つける。この場合、映画Aと映画Bの効果スコアの線形和として、効果スコアを表現する。図10の場合、2乗誤差(表β2)は、映画Aの効果スコア(表β3)の0.15倍と、映画Bの効果スコア(表β4)の0.85倍の和として表現される。追加候補説明変数選択部104は、2乗誤差に対する効果スコアによる重回帰分析の、ベイズ情報量基準が最小になる説明変数の組み合わせを選んでも良い。
俯瞰用説明変数選択部106は、俯瞰用説明変数を選択する。
具体的には俯瞰用説明変数選択部106は、追加候補説明変数ごとに効果スコアが高い代表サンプルを選び、それらのサンプルの値(映画の評価)が偏っている説明変数の中から、全ての追加候補説明変数の代表サンプルの値が偏っている説明変数を、俯瞰用説明変数として選んでも良い。つまり俯瞰用説明変数選択部106は、追加候補説明変数ごとに、その効果スコアが高い代表サンプル同士を選び、それらのサンプルの値の分散が所定値以下となる説明変数を抽出した後に、全ての追加候補説明変数の前記の分散が所定値以下となる説明変数を、俯瞰用説明変数として選択しても良い。
また、俯瞰用説明変数選択部106は、追加候補説明変数選択部104における追加候補説明変数群として、俯瞰用説明変数が選べる組み合わせに限定して選択する。俯瞰用説明変数選択部106は、俯瞰用の説明変数が選べなければ、この効果スコアの組み合わせを選ばなくても良い。この場合、俯瞰用説明変数選択部106は、追加候補説明変数の選択から再度実施するように、追加候補説明変数選択部104に指示しても良い。
図11は、俯瞰用説明変数の選択について説明するための図である。
俯瞰用説明変数選択部106は、全ての追加候補説明変数の代表サンプルに対して分散が小さい説明変数を、俯瞰用説明変数として選択する。
たとえば、各サンプルに対する映画Aの効果スコアが示されている表γ1では、枠D1で囲まれている、サンプルS1、S4、S8、S2、S5、S10が、効果スコアが大きな代表サンプルである。代表サンプルは、評価値の分布から求めても良いし、閾値との比較によって求めても良い。そして、俯瞰用説明変数選択部106は、映画A、B、Cのそれぞれに対して、代表サンプルサンプルS1、S4、S8、S2、S5、S10の評価値の分散を計算する。また、各サンプルに対する映画Bの効果スコアが示されている表γ2では、枠D2で囲まれている、サンプルS7、S9、S11、S3、S6、S12が、効果スコアが大きな代表サンプルである。そして、俯瞰用説明変数選択部106は、映画A、B、Cのそれぞれに対して、代表サンプルサンプルS7、S9、S11、S3、S6、S12の評価値の分散を計算する。
そして俯瞰用説明変数選択部106は、全ての追加候補説明変数の代表サンプルに対して分散が小さい説明変数を、俯瞰用説明変数として選択する。たとえば、枠D1で囲まれている、サンプルS1、S4、S8、S2、S5、S10に対しては、映画Aに対する分散は14.3、映画Bに対する分散は0.3、映画Cに対する分散は0.3である。図11で枠E1、E2で囲ったように、映画B、Cに対する分散が小さい。よって、映画B、Cが俯瞰用説明変数として選択される。枠D2で囲まれている、サンプルS7、S9、S11、S3、S6、S12に対しては、映画Aに対する分散は0.3、映画Bに対する分散は10.7、映画Cに対する分散は0.3である。図11で枠E3、E4で囲ったように、映画A、Cに対する分散が小さい。よって、映画A、Cが俯瞰用説明変数として選択される。よって、映画Cは全てのサンプルに対して、分散が小さい。したがって俯瞰用説明変数選択部106は、映画Cを俯瞰用説明変数として選択する。
図12は、俯瞰用説明変数が選択できなかった場合について説明する図である。たとえば、図12において、枠Fで囲った映画Cに対する効果スコアがないとする。すると、枠D1で囲まれている、サンプルS1、S4、S8、S2、S5、S10に対しては、分散が小さな映画の組を選択できない。また、枠D2で囲まれている、サンプルS7、S9、S11、S3、S6、S12に対しても、分散が小さな映画の組を選択できない。このような場合、俯瞰用説明変数選択部106は、追加候補説明変数の選択から再度実施するように、追加候補説明変数選択部104に指示しても良い。
出力部108は、俯瞰用説明変数選択部106で得られた結果を出力する。
図13は、出力部108の出力の例を示す図である。図13では、追加候補説明変数の効果スコアと俯瞰用説明変数の値の関係の例が示されている。図13に示されている表の中で、三角印のプロットは、映画Aに対する評価の効果スコアを示している。また、図13に示されている表の中で、丸印のプロットは、映画Bに対する評価の効果スコアを示している。
図13の枠G1で囲まれた部分から、映画Cの評価値が低いサンプルは、映画Aの効果スコアが高いことが分かる。よって、ユーザは映画Aに似た映画を加えれば、映画Cの評価が低い人の予測効果が向上するだろうことを予想することができる。
また、図13の枠G2で囲まれた部分から、映画Cの評価値が高いサンプルは、映画Bの効果スコアが高いことが分かる。よって、ユーザは映画Bに似た映画を加えれば、映画Cの評価が高い人の予測効果が向上するだろうことを予想することができる。つまり、ユーザは、アニメ映画(映画C)の評価が低い人の予測改善が期待できるドキュメンタリ映画(映画A)のような映画と、アニメ映画(映画C)の評価が高い人の予測改善が期待できる有名アイドル主演映画(映画B)のような映画の予測を加えればよいことが分かる。
上記のように、未観測因子推定支援装置10は、複数のサンプルと複数の説明変数に対して与えられる事前評価値を用いて、目的変数の値を予測するために、前記複数の説明変数に加える新たな説明変数の予測を支援することができる。
追加候補説明変数選択部(第1の説明変数選択部)104は、評価値を用いて目的変数の値を予測して得られる第1の予測値と、目的変数の値との差を誤差として算出し、複数の説明変数のうちの一つを除いて目的変数の値を予測して得られる第2の予測値と、第1の予測値との差を除かれた一つの説明変数に対する効果スコアとして算出し、誤差を、効果スコアの線形和として表すような複数の説明変数の少なくとも一つを第1の説明変数として選択しても良い。ここで、目的変数の値は、サンプルによって事前に与えられた値であっても良い。
俯瞰用説明変数選択部(第2の説明変数選択部)106は、第1の説明変数に対する効果スコアに基づいて複数のサンプルの一部を代表サンプルとして抽出し、代表サンプルの複数の説明変数の各々に対する評価値に基づいて複数の説明変数の一つを第2の説明変数として選択しても良い。
出力部108は、俯瞰用説明変数(第2の説明変数)に対する評価値と、追加候補説明変数(第1の説明変数)のサンプルに対する効果スコアの値を出力しても良い。
また、俯瞰用説明変数選択部(第2の説明変数選択部)106は、効果スコアの分布に基づいて、複数のサンプルの一部を複数の説明変数の一つに対する代表サンプルとして抽出しても良い。このとき俯瞰用説明変数選択部(第2の説明変数選択部)106は、所定の第1の値以上の効果スコアを与える複数のサンプルの一部を複数の説明変数の一つに対する代表サンプルとして抽出しても良い。所定の第1の値は、予め定められていても良いし、効果スコアの分布から求めても良い。
また、俯瞰用説明変数選択部(第2の説明変数選択部)106は、代表サンプルに対する評価値の分布に基づいて、説明変数の一つを俯瞰用説明変数(第2の説明変数)として選択し得る。このとき俯瞰用説明変数選択部(第2の説明変数選択部)106は、前記代表サンプルに対する前記複数の説明変数の各々に対する評価値の分散を算出し、追加候補説明変数(第1の説明変数)の全てに対し、分散が所定の第2の値以下の前記説明変数の一つを俯瞰用説明変数(第2の説明変数)として選択しても良い。
追加候補説明変数選択部(第1の説明変数選択部)104は、複数の説明変数の各々に対して、複数のサンプルの一部を複数の説明変数の一つに対する代表サンプルとして抽出し、複数の説明変数の一部に対する代表サンプルを併せて得られる集合の分布が、誤差の分布に類似するような前記複数の説明変数の一部を追加候補説明変数(第1の説明変数)として選択しても良い。
また、俯瞰用説明変数選択部(第2の説明変数選択部)106は、前記誤差に対する、前記効果スコアによる重回帰分析の情報量基準が最小になる説明変数の組み合わせを追加候補説明変数(第1の説明変数)としても良い。また、前記分散が所定の値より小さい前記説明変数の一つを俯瞰用説明変数(第2の説明変数)としてしても良い。
俯瞰用説明変数選択部(第2の説明変数選択部)106は、所定の条件を満たす説明変数を見出せない場合、追加候補説明変数選択部(第1の説明変数選択部)104が、前記第1の説明変数を選択しなおしても良い。
このように、各サンプルに説明変数と目的変数が付与されており、複数のサンプルの説明変数を用いて、各サンプルに対して目的変数を予測する予測問題において、予測の精度を向上させるために、新たに説明変数を加えることが好ましい場合に、どのような説明変数を加えるかを自動的に決めることができる。
図14は実施形態の未観測因子推定支援装置10の構成の例を示す図である。
このコンピュータ200は、Central Processing Unit(CPU)202、Read Only Memory(ROM)204、及びRandom Access Memory(RAM)206を備えている。コンピュータ500は、さらに、ハードディスク装置208、入力装置210、表示装置212、インターフェース装置214、及び記録媒体駆動装置216を備えている。なお、これらの構成要素はバスライン220を介して接続されており、CPU202の管理の下で各種のデータを相互に授受することができる。
Central Processing Unit(CPU)202は、このコンピュータ200全体の動作を制御する演算処理装置であり、コンピュータ200の制御処理部として機能する。
Read Only Memory(ROM)204は、所定の基本制御プログラムが予め記録されている読み出し専用半導体メモリである。CPU202は、この基本制御プログラムをコンピュータ100の起動時に読み出して実行することにより、このコンピュータ200の各構成要素の動作制御が可能になる。
Random Access Memory(RAM)206は、CPU202が各種の制御プログラムを実行する際に、必要に応じて作業用記憶領域として使用する、随時書き込み読み出し可能な半導体メモリである。
ハードディスク装置208は、CPU202によって実行される各種の制御プログラムや各種のデータを記憶しておく記憶装置である。CPU202は、ハードディスク装置208に記憶されている所定の制御プログラムを読み出して実行することにより、後述する各種の制御処理を行えるようになる。
入力装置210は、例えばマウス装置やキーボード装置であり、情報処理装置のユーザにより操作されると、その操作内容に対応付けられている各種情報の入力を取得し、取得した入力情報をCPU202に送付する。
表示装置212は例えば液晶ディスプレイであり、CPU202から送付される表示データに応じて各種のテキストや画像を表示する。
インターフェース装置214は、このコンピュータ200に接続される各種機器との間での各種情報の授受の管理を行う。
記録媒体駆動装置216は、可搬型記録媒体218に記録されている各種の制御プログラムやデータの読み出しを行う装置である。CPU202は、可搬型記録媒体218に記録されている所定の制御プログラムを、記録媒体駆動装置216を介して読み出して実行することによって、後述する各種の制御処理を行うようにすることもできる。なお、可搬型記録媒体218としては、例えばUSB(Universal Serial Bus)規格のコネクタが備えられているフラッシュメモリ、CD−ROM(Compact Disc Read Only Memory)、DVD−ROM(Digital Versatile Disc Read Only Memory)などがある。
このようなコンピュータ200を用いて未観測因子推定支援装置10を構成するには、例えば、上述の各処理部における処理をCPU202に行わせるための制御プログラムを作成する。作成された制御プログラムはハードディスク装置208若しくは可搬型記録媒体218に予め格納しておく。そして、CPU202に所定の指示を与えてこの制御プログラムを読み出させて実行させる。こうすることで、情報処理装置が備えている機能がCPU202により提供される。
<未観測因子推定支援処理>
図15は、未観測因子推定支援処理の流れを示す図である。
また、未観測因子推定支援装置10が図14に示されているような汎用コンピュータ200である場合には、下記の説明は、そのような処理を行う制御プログラムを定義する。すなわち、以下では、下記に説明する処理を汎用コンピュータに行わせる制御プログラムの説明でもある。
処理が開始されるとS100で追加候補説明変数選択部104は、除外リストを空集合に初期化する。
次のS102で追加候補説明変数選択部104は、追加候補説明変数選択処理を行う。
追加候補説明変数選択処理について、図16を参照して説明する。
追加候補説明変数選択処理が開始されると、S200で追加候補説明変数選択部104は、図9を参照して説明したように、各説明変数を除外した場合の予測誤差の2乗と、全ての説明変数を使った場合の予測誤差の2乗との差分を効果スコアとして計算する。
次のS202で追加候補説明変数選択部104は、説明変数の組み合わせを1組選択する。このとき、除外リストが空集合ではない場合、除外リストにある組み合わせは除く。
S202の次のS204で追加候補説明変数選択部104は、図10を参照して説明したように、全ての説明変数を使った場合の予測誤差の2乗を、選択した説明変数の組み合わせで重回帰分析し、そのベイズ情報量基準を算出する。本ステップの処理が終わると、処理はS206に進む。
S206で追加候補説明変数選択部104は、全ての組み合わせを選んだかどうかを判定する。もし本判定の結果が“Yes”、すなわち全ての組み合わせを選んだ場合には、処理はS208に進む。また、もし本判定の結果が“No”、すなわち全ての組み合わせを選んでいない場合には、処理はS202に戻る。
S208で追加候補説明変数選択部104は、ベイズ情報量基準が最小の説明変数の組み合わせを追加候補説明変数として選択する。本ステップの処理が終了すると、処理は図15に戻る。
次のS104で俯瞰用説明変数選択部106は、俯瞰用説明変数選択処理を行う。
俯瞰用説明変数選択処理について、図17を参照して説明する。
俯瞰用説明変数選択処理が開始されると、S300で俯瞰用説明変数選択部106は、俯瞰用説明変数集合を空集合に初期化する。
次のS302で俯瞰用説明変数選択部106は、説明変数を1つ取得する。本ステップの処理が終了すると、処理はS304に進む。
S304で俯瞰用説明変数選択部106は、追加候補説明変数を1つ取得する。本ステップの処理が終了すると、処理はS306に進む。
S306で俯瞰用説明変数選択部106は、図11を参照して説明したように、取得した追加候補説明変数の効果スコアが所定値以上のサンプルの、取得した説明変数の値の分散を計算する。本ステップの処理が終了すると、処理はS308に進む。
S308で俯瞰用説明変数選択部106は、全ての追加候補説明変数を採取したかを判定する。もし本判定の結果が“Yes”、すなわち全ての追加候補説明変数を採取した場合には、処理はS310に進む。また、もし本判定の結果が“No”、すなわち全ての追加候補説明変数を採取していない場合には、処理はS304に戻る。
S310で俯瞰用説明変数選択部106は、全ての分散が所定値以下かどうかを判定する。もし本判定の結果が“Yes”、すなわち全ての分散が所定値以下である場合には、処理はS312に進む。また、もし本判定の結果が“No”、すなわち全ての分散が所定値以下ではない場合には、処理はS314に進む。
S312で俯瞰用説明変数選択部106は、現在処理している追加候補説明変数を俯瞰用説明変数集合に追加する。本ステップの処理が終了すると、処理はS314に進む。
S314で俯瞰用説明変数選択部106は、全ての説明変数を取得したかを判定する。もし本判定の結果が“Yes”、すなわち全ての説明変数を取得した場合には、処理は図15に戻る。また、もし本判定の結果が“No”、すなわち全ての追加候補説明変数を取得していない場合には、処理はS302に戻る。
図15のS106で俯瞰用説明変数選択部106は、俯瞰用説明変数が選べたかを判定する。もし本判定の結果が“Yes”、すなわち俯瞰用説明変数が選べた場合には、処理はS110に進む。また、もし本判定の結果が“No”、すなわち俯瞰用説明変数が選べなかった場合には、処理はS108に進む。
S108で俯瞰用説明変数選択部106は、追加候補説明変数選択部104に選択されている追加候補説明変数の組み合わせを除外リストに追加させる。本ステップの処理が終了すると、処理はS102に戻る。
S110で出力部108は、結果を出力する。たとえば、出力部108は図13に示されているような追加候補説明変数の効果スコアと俯瞰用説明変数の値の関係を示す図をディスプレイに表示し得る。図13に示されている図は、プリンタからプリントアウトされても良い。
上記のような未観測因子推定支援装置10、未観測因子推定支援処理を行うことによって、追加する説明変数として、予測効果の高いサンプルの分布が既存の説明変数に類似したものを想定することにより、追加すべき説明変数の種類と個数を利用者に提示することができる。
たとえば、ユーザは、映画Xの評価の予測として、有名アイドル主演映画の評価が、特にアニメ映画の評価が高い人の予測に効くのであれば、他の有名アイドル主演映画の評価が、やはり同じ人々の予測に効くのであろうことを知ることができる。これにより、ユーザは、より少ない追加説明変数の候補に絞り込み、追加する説明変数候補を取得するコストを削減することができる。
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)
複数のサンプルと複数の説明変数に対して与えられる評価値を用いて、目的変数の値を予測するために、前記複数の説明変数に加える新たな説明変数の予測を支援する未観測因子推定支援装置であって、
前記評価値を用いて前記目的変数の値を予測して得られる第1の予測値と、前記目的変数の値との差を誤差として算出し、前記複数の説明変数のうちの一つを除いて前記目的変数の値を予測して得られる第2の予測値と、前記第1の予測値との差を前記除かれた一つの説明変数に対する効果スコアとして算出し、前記誤差を、前記効果スコアの線形和として表すような前記複数の説明変数の少なくとも一つを第1の説明変数として選択する第1の説明変数選択部と、
前記第1の説明変数に対する前記効果スコアに基づいて前記複数のサンプルの一部を代表サンプルとして抽出し、前記代表サンプルの前記複数の説明変数の各々に対する前記評価値に基づいて前記複数の説明変数の一つを第2の説明変数として選択する第2の説明変数選択部と、
前記第2の説明変数に対する前記評価値と、前記第1の説明変数の前記サンプルに対する前記効果スコアの値を出力する出力部と、
を含む未観測因子推定支援装置。
(付記2)
前記第2の説明変数選択部は、前記効果スコアの分布に基づいて、前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出する、付記1に記載の未観測因子推定支援装置。
(付記3)
前記第2の説明変数選択部は、所定の第1の値以上の前記効果スコアを与える前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出する、付記2に記載の未観測因子推定支援装置。
(付記4)
前記第2の説明変数選択部は、前記代表サンプルに対する前記評価値の分布に基づいて、前記説明変数の一つを第2の説明変数として選択する、付記1乃至3のいずれか一項に記載の未観測因子推定支援装置。
(付記5)
前記第2の説明変数選択部は、前記代表サンプルに対する前記複数の説明変数の各々に対する前記評価値の分散を算出し、前記第1の説明変数に対し、前記分散が第2の値以下の前記説明変数の一つを前記第2の説明変数として選択する付記4に記載の未観測因子推定支援装置。
(付記6)
前記第1の説明変数選択部は、前記複数の説明変数の各々に対して、前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出し、前記複数の説明変数の一部に対する前記代表サンプルを併せて得られる集合の分布が、前記誤差の分布に類似するような前記複数の説明変数の一部を前記第1の説明変数として選択する、付記1乃至5のいずれか一項に記載の未観測因子推定支援装置。
(付記7)
前記第2の説明変数選択部は、前記誤差に対する、前記効果スコアによる重回帰分析の情報量基準が最小になる前記説明変数の組み合わせを前記第1の説明変数として選択する、付記1乃至6のいずれか一項に記載の未観測因子推定支援装置。
(付記8)
前記第2の説明変数選択部が、所定の条件を満たす前記説明変数を見出せない場合、前記第1の説明変数選択部が、前記第1の説明変数を選択しなおす、付記1乃至8のいずれか一項に記載の未観測因子推定支援装置。
(付記9)
コンピュータによって実行される、複数のサンプルと複数の説明変数に対して与えられる評価値を用いて、目的変数の値を予測するために、前記複数の説明変数に加える新たな説明変数の予測を支援する未観測因子推定支援方法であって、
前記評価値を用いて前記目的変数の値を予測して得られる第1の予測値と、前記目的変数の値との差を誤差として算出することと、
前記複数の説明変数のうちの一つを除いて前記目的変数の値を予測して得られる第2の予測値と、前記第1の予測値との差を前記除かれた一つの説明変数に対する効果スコアとして算出し、前記誤差を、前記効果スコアの線形和として表すような前記複数の説明変数の少なくとも一つを第1の説明変数として選択することと、
前記第1の説明変数に対する前記効果スコアに基づいて前記複数のサンプルの一部を代表サンプルとして抽出し、前記代表サンプルの前記複数の説明変数の各々に対する前記評価値に基づいて前記複数の説明変数の一つを第2の説明変数として選択することと、
前記第2の説明変数に対する前記第2の予測値と、前記第1の説明変数の前記サンプルに対する前記効果スコアの値を出力することと、
を含む未観測因子推定支援方法。
(付記10)
前記代表サンプルを抽出することは、前記効果スコアの分布に基づいて、前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出する、付記9に記載の未観測因子推定支援方法。
(付記11)
前記代表サンプルを抽出することは、所定の第1の値以上の前記効果スコアを与える前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出する、付記10に記載の未観測因子推定支援方法。
(付記12)
前記第2の説明変数を選択することは、前記代表サンプルに対する前記評価値の分布に基づいて、前記説明変数の一つを第2の説明変数として選択する、付記9乃至11のいずれか一項に記載の未観測因子推定支援方法。
(付記13)
前記第2の説明変数を選択することは、前記代表サンプルに対する前記複数の説明変数の各々に対する前記評価値の分散を算出し、前記第1の説明変数の全てに対し、前記分散が所定の第2の値以下の前記説明変数の一つを第2の説明変数として選択する付記12に記載の未観測因子推定支援方法。
(付記14)
前記第1の説明変数を選択することは、前記複数の説明変数の各々に対して、前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出し、前記複数の説明変数の一部に対する前記代表サンプルを併せて得られる集合の分布が、前記誤差の分布に類似するような前記複数の説明変数の一部を前記第1の説明変数として選択する、付記10乃至14のいずれか一項に記載の未観測因子推定支援方法。
(付記15)
前記第2の説明変数を選択することは、前記誤差に対する、前記効果スコアによる重回帰分析の情報量基準が最小になる前記説明変数の組み合わせを前記第1の説明変数として選択する、付記9乃至14のいずれか一項に記載の未観測因子推定支援方法。
(付記16)
前記第2の説明変数を選択することが、所定の条件を満たす前記説明変数を見出せない場合、前記前記第1の説明変数を選択することで、前記第1の説明変数を選択しなおす、付記9乃至15のいずれか一項に記載の未観測因子推定支援方法。
(付記17)
コンピュータに、複数のサンプルと複数の説明変数に対して与えられる評価値を用いて、目的変数の値を予測するために、前記複数の説明変数に加える新たな説明変数の予測を支援する処理を行わせる未観測因子推定支援プログラムであって、
前記評価値を用いて前記目的変数の値を予測して得られる第1の予測値と、前記目的変数の値との差を誤差として算出し、
前記複数の説明変数のうちの一つを除いて前記目的変数の値を予測して得られる第2の予測値と、前記第1の予測値との差を前記除かれた一つの説明変数に対する効果スコアとして算出し、前記誤差を、前記効果スコアの線形和として表すような前記複数の説明変数の少なくとも一つを第1の説明変数として選択し、
前記第1の説明変数に対する前記効果スコアに基づいて前記複数のサンプルの一部を代表サンプルとして抽出し、前記代表サンプルの前記複数の説明変数の各々に対する前記評価値に基づいて前記複数の説明変数の一つを第2の説明変数として選択し、
前記第2の説明変数に対する前記第2の予測値と、前記第1の説明変数の前記サンプルに対する前記効果スコアの値を出力すると、
処理をコンピュータに実行させることを特徴とする未観測因子推定支援プログラム。
(付記18)
前記代表サンプルを抽出することは、前記効果スコアの分布に基づいて、前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出する、付記17に記載の未観測因子推定支援プログラム。
(付記19)
前記代表サンプルを抽出することは、所定の第1の値以上の前記効果スコアを与える前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出する、付記18に記載の未観測因子推定支援プログラム。
(付記20)
前記第2の説明変数を選択することは、前記代表サンプルに対する前記評価値の分布に基づいて、前記説明変数の一つを第2の説明変数として選択する、付記17乃至19のいずれか一項に記載の未観測因子推定支援プログラム。
(付記21)
前記第2の説明変数を選択することは、前記代表サンプルに対する前記複数の説明変数の各々に対する前記評価値の分散を算出し、前記第1の説明変数の全てに対し、前記分散が所定の第2の値以下の前記説明変数の一つを俯瞰用説明変数として選択する、付記20に記載の未観測因子推定支援プログラム。
(付記22)
前記第1の説明変数を選択することは、前記複数の説明変数の各々に対して、前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出し、前記複数の説明変数の一部に対する前記代表サンプルを併せて得られる集合の分布が、前記誤差の分布に類似するような前記複数の説明変数の一部を前記第1の説明変数として選択する、付記17乃至21のいずれか一項に記載の未観測因子推定支援プログラム。
(付記23)
前記第2の説明変数を選択することは、前記誤差に対する、前記効果スコアによる重回帰分析の情報量基準が最小になる前記説明変数の組み合わせを前記第1の説明変数として選択する、付記17乃至22のいずれか一項に記載の未観測因子推定支援プログラム。
(付記24)
前記第2の説明変数を選択することが、所定の条件を満たす前記説明変数を見出せない場合、前記前記第1の説明変数を選択することで、前記第1の説明変数を選択しなおす、付記17乃至23のいずれか一項に記載の未観測因子推定支援プログラム。
10 未観測因子推定支援装置
102 入力部
104 追加候補説明変数選択部
106 俯瞰用説明変数選択部
108 出力部

Claims (10)

  1. 複数のサンプルと複数の説明変数に対して与えられる評価値を用いて、目的変数の値を予測するために、前記複数の説明変数に加える新たな説明変数の予測を支援する未観測因子推定支援装置であって、
    前記評価値を用いて前記目的変数の値を予測して得られる第1の予測値と、前記目的変数の値との差を誤差として算出し、前記複数の説明変数のうちの一つを除いて前記目的変数の値を予測して得られる第2の予測値と、前記第1の予測値との差を前記除かれた一つの説明変数に対する効果スコアとして算出し、前記誤差を、前記効果スコアの線形和として表すような前記複数の説明変数の少なくとも一つを第1の説明変数として選択する第1の説明変数選択部と、
    前記第1の説明変数に対する前記効果スコアに基づいて前記複数のサンプルの一部を代表サンプルとして抽出し、前記代表サンプルの前記複数の説明変数の各々に対する前記評価値に基づいて前記複数の説明変数の一つを第2の説明変数として選択する第2の説明変数選択部と、
    前記第2の説明変数に対する前記評価値と、前記第1の説明変数の前記サンプルに対する前記効果スコアの値を出力する出力部と、
    を含む未観測因子推定支援装置。
  2. 前記第2の説明変数選択部は、前記効果スコアの分布に基づいて、前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出する、付記1に記載の未観測因子推定支援装置。
  3. 前記第2の説明変数選択部は、所定の第1の値以上の前記効果スコアを与える前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出する、請求項2に記載の未観測因子推定支援装置。
  4. 前記第2の説明変数選択部は、前記代表サンプルに対する前記評価値の分布に基づいて、前記説明変数の一つを第2の説明変数として選択する、請求項1乃至3のいずれか一項に記載の未観測因子推定支援装置。
  5. 前記第2の説明変数選択部は、前記代表サンプルに対する前記複数の説明変数の各々に対する前記評価値の分散を算出し、前記第1の説明変数に対し、前記分散が第2の値以下の前記説明変数の一つを前記第2の説明変数として選択する請求項4に記載の未観測因子推定支援装置。
  6. 前記第1の説明変数選択部は、前記複数の説明変数の各々に対して、前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出し、前記複数の説明変数の一部に対する前記代表サンプルを併せて得られる集合の分布が、前記誤差の分布に類似するような前記複数の説明変数の一部を前記第1の説明変数として選択する、請求項1乃至5のいずれか一項に記載の未観測因子推定支援装置。
  7. 前記第2の説明変数選択部は、前記誤差に対する、前記効果スコアによる重回帰分析の情報量基準が最小になる前記説明変数の組み合わせを前記第1の説明変数として選択する、請求項1乃至6のいずれか一項に記載の未観測因子推定支援装置。
  8. 前記第2の説明変数選択部が、所定の条件を満たす前記説明変数を見出せない場合、前記第1の説明変数選択部が、前記第1の説明変数を選択しなおす、請求項1乃至8のいずれか一項に記載の未観測因子推定支援装置。
  9. コンピュータによって実行される、複数のサンプルと複数の説明変数に対して与えられる評価値を用いて、目的変数の値を予測するために、前記複数の説明変数に加える新たな説明変数の予測を支援する未観測因子推定支援方法であって、
    前記評価値を用いて前記目的変数の値を予測して得られる第1の予測値と、前記目的変数の値との差を誤差として算出することと、
    前記複数の説明変数のうちの一つを除いて前記目的変数の値を予測して得られる第2の予測値と、前記第1の予測値との差を前記除かれた一つの説明変数に対する効果スコアとして算出し、前記誤差を、前記効果スコアの線形和として表すような前記複数の説明変数の少なくとも一つを第1の説明変数として選択することと、
    前記第1の説明変数に対する前記効果スコアに基づいて前記複数のサンプルの一部を代表サンプルとして抽出し、前記代表サンプルの前記複数の説明変数の各々に対する前記評価値に基づいて前記複数の説明変数の一つを第2の説明変数として選択することと、
    前記第2の説明変数に対する前記第2の予測値と、前記第1の説明変数の前記サンプルに対する前記効果スコアの値を出力することと、
    を含む未観測因子推定支援方法。
  10. コンピュータに、複数のサンプルと複数の説明変数に対して与えられる評価値を用いて、目的変数の値を予測するために、前記複数の説明変数に加える新たな説明変数の予測を支援する処理を行わせる未観測因子推定支援プログラムであって、
    前記評価値を用いて前記目的変数の値を予測して得られる第1の予測値と、前記目的変数の値との差を誤差として算出し、
    前記複数の説明変数のうちの一つを除いて前記目的変数の値を予測して得られる第2の予測値と、前記第1の予測値との差を前記除かれた一つの説明変数に対する効果スコアとして算出し、前記誤差を、前記効果スコアの線形和として表すような前記複数の説明変数の少なくとも一つを第1の説明変数として選択し、
    前記第1の説明変数に対する前記効果スコアに基づいて前記複数のサンプルの一部を代表サンプルとして抽出し、前記代表サンプルの前記複数の説明変数の各々に対する前記評価値に基づいて前記複数の説明変数の一つを第2の説明変数として選択し、
    前記第2の説明変数に対する前記第2の予測値と、前記第1の説明変数の前記サンプルに対する前記効果スコアの値を出力すると、
    処理をコンピュータに実行させることを特徴とする未観測因子推定支援プログラム。
JP2014045193A 2014-03-07 2014-03-07 未観測因子推定支援装置、未観測因子推定支援方法および未観測因子推定支援プログラム Active JP6268000B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014045193A JP6268000B2 (ja) 2014-03-07 2014-03-07 未観測因子推定支援装置、未観測因子推定支援方法および未観測因子推定支援プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014045193A JP6268000B2 (ja) 2014-03-07 2014-03-07 未観測因子推定支援装置、未観測因子推定支援方法および未観測因子推定支援プログラム

Publications (2)

Publication Number Publication Date
JP2015170184A true JP2015170184A (ja) 2015-09-28
JP6268000B2 JP6268000B2 (ja) 2018-01-24

Family

ID=54202854

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014045193A Active JP6268000B2 (ja) 2014-03-07 2014-03-07 未観測因子推定支援装置、未観測因子推定支援方法および未観測因子推定支援プログラム

Country Status (1)

Country Link
JP (1) JP6268000B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017102710A (ja) * 2015-12-02 2017-06-08 日本電信電話株式会社 データ分析装置、データ分析方法、データ分析処理プログラム
WO2020054819A1 (ja) * 2018-09-13 2020-03-19 日本電気株式会社 データ解析装置、データ解析方法及びプログラム
KR20200107480A (ko) * 2019-03-08 2020-09-16 주식회사 에이아이네이션 가상화장 합성 처리 장치 및 방법
KR20200107492A (ko) * 2019-03-08 2020-09-16 주식회사 에이아이네이션 가상화장 이미지 평가 점수 생성 장치
KR20200107499A (ko) * 2019-03-08 2020-09-16 주식회사 에이아이네이션 가상화장 이미지 평가 점수 생성 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020504A (ja) * 1998-06-30 2000-01-21 Toshiba Corp 目的変数の説明または予測方法、および目的変数を説明または予測するプログラムを記録した記録媒体
JP2011215673A (ja) * 2010-03-31 2011-10-27 Tokyo Electric Power Co Inc:The 情報処理装置、方法およびプログラム
JP2012057195A (ja) * 2010-09-06 2012-03-22 Nippon Steel Corp 溶鋼温度管理方法、装置及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020504A (ja) * 1998-06-30 2000-01-21 Toshiba Corp 目的変数の説明または予測方法、および目的変数を説明または予測するプログラムを記録した記録媒体
JP2011215673A (ja) * 2010-03-31 2011-10-27 Tokyo Electric Power Co Inc:The 情報処理装置、方法およびプログラム
JP2012057195A (ja) * 2010-09-06 2012-03-22 Nippon Steel Corp 溶鋼温度管理方法、装置及びプログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017102710A (ja) * 2015-12-02 2017-06-08 日本電信電話株式会社 データ分析装置、データ分析方法、データ分析処理プログラム
WO2020054819A1 (ja) * 2018-09-13 2020-03-19 日本電気株式会社 データ解析装置、データ解析方法及びプログラム
JPWO2020054819A1 (ja) * 2018-09-13 2021-08-30 日本電気株式会社 データ解析装置、データ解析方法及びプログラム
JP7092202B2 (ja) 2018-09-13 2022-06-28 日本電気株式会社 データ解析装置、データ解析方法及びプログラム
KR20200107480A (ko) * 2019-03-08 2020-09-16 주식회사 에이아이네이션 가상화장 합성 처리 장치 및 방법
KR20200107492A (ko) * 2019-03-08 2020-09-16 주식회사 에이아이네이션 가상화장 이미지 평가 점수 생성 장치
KR20200107499A (ko) * 2019-03-08 2020-09-16 주식회사 에이아이네이션 가상화장 이미지 평가 점수 생성 장치
KR102465454B1 (ko) 2019-03-08 2022-11-10 주식회사 에이아이네이션 얼굴의 특징 인식을 통한 뷰티 평가 인공지능 장치 및 방법
KR102465455B1 (ko) * 2019-03-08 2022-11-10 주식회사 에이아이네이션 스코어 분포 예측을 통한 사용자 취향별 뷰티 평가 인공지능 장치 및 방법
KR102465453B1 (ko) 2019-03-08 2022-11-10 주식회사 에이아이네이션 가상화장 합성 처리 인공지능 장치 및 방법

Also Published As

Publication number Publication date
JP6268000B2 (ja) 2018-01-24

Similar Documents

Publication Publication Date Title
JP6352798B2 (ja) マーケティング施策最適化装置、方法、及びプログラム
Rockwood et al. What are frailty instruments for?
JP6268000B2 (ja) 未観測因子推定支援装置、未観測因子推定支援方法および未観測因子推定支援プログラム
JP4890806B2 (ja) 予測プログラムおよび予測装置
AU2013326911A1 (en) Systems and methods for determining a fair price range for commodities
Dettrick et al. Measuring quality of maternal and newborn care in developing countries using demographic and health surveys
Steyerberg et al. Graphical assessment of incremental value of novel markers in prediction models: from statistical to decision analytical perspectives
Dobson et al. Diagnostics for joint longitudinal and dropout time modeling
JP5251217B2 (ja) 販売数予測システム、販売数予測システムの動作方法および販売数予測プログラム
JP5146084B2 (ja) モデル作成支援システム、モデル作成支援方法、モデル作成支援プログラム
Hardy et al. Commentary: The use and misuse of life course models
JP4675308B2 (ja) メディアミックス計画の立案支援装置と立案支援方法
US20090319330A1 (en) Techniques for evaluating recommendation systems
JP2019003408A (ja) ハイパーパラメータの評価方法、計算機及びプログラム
JP5296660B2 (ja) サービス規模成長性分析システムおよび方法ならびにそのためのプログラム
Lotfi et al. Periodic efficiency measurement for achieving correct efficiency among several terms of evaluation
EP3985580A1 (en) Information processing device, information processing method, and program
Rouzbahani et al. The Effect of Individual Factors on Consumers' Purchasing Decisions
JP6401655B2 (ja) 引合い検討支援システム及び引合い検討支援方法、並びに引合い検討支援プログラム
JP2006268080A (ja) 特許データ解析方法、装置、プログラムおよび記録媒体
JP6449578B2 (ja) 購買予測分析システム及びそのプログラム
JP6520199B2 (ja) 抽出方法、情報処理装置、及び抽出プログラム
KR102320133B1 (ko) 관상동맥경화의 발생을 예측하기 위한 장치 및 방법
WO2023162238A1 (ja) 顧客分析装置、顧客分析方法、及び、記録媒体
Hsu et al. Autoregressive modeling and diagnostics for qPCR amplification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161102

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171024

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171020

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20171113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20171113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171212

R150 Certificate of patent or registration of utility model

Ref document number: 6268000

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150