JP2017102710A

JP2017102710A - データ分析装置、データ分析方法、データ分析処理プログラム

Info

Publication number: JP2017102710A
Application number: JP2015235540A
Authority: JP
Inventors: 美幸今田; Miyuki Imada; 慧廣▲瀬▼; Kei Hirose
Original assignee: Nippon Telegraph and Telephone Corp; Osaka University NUC
Current assignee: Nippon Telegraph and Telephone Corp; Osaka University NUC
Priority date: 2015-12-02
Filing date: 2015-12-02
Publication date: 2017-06-08
Anticipated expiration: 2035-12-02
Also published as: JP6459937B2

Abstract

【課題】統計分析に必要な、十分なデータが集まらない状況でも、アプリケーションの要求を満たす精度での予測が可能な回帰式を短期間で導出する。【解決手段】実施形態におけるデータ分析装置は、予測の対象となる対象フィールドで収集されるデータの属性の一部と同じ属性を有する簡易疑似データセットを用いて導出した回帰式について、目的変数の予測に有用な説明変数に、収集されるデータとの分布のずれを補正する説明変数を付加した変数と目的変数について対象フィールドから正解値となるデータを抽出し、抽出したデータと対象フィールドと異なるフィールドで収集されるデータセットとの間の分布の有意差を及ぼす説明変数を正解値となるデータから抽出し、有意差を及ぼす説明変数について、規模が大きいデータに基づいて、収集されるデータと特徴量が同じ、前記対象フィールドにおける目的変数の予測に有用な疑似データセットを作成する。【選択図】図１

Description

本発明の実施形態は、データ分析装置、データ分析方法、データ分析処理プログラムに関する。

近年、Ｗｅｂ上のデータやセンサなどから自動収集できるデータとして、医療データや会社の経理データなど様々な種類のデータが身の回りに溢れている。これらのデータはビッグデータと呼ばれ、様々な分野の人がその活用方法の検討や分析を行っている。例えば、人の行動パターンや嗜好に関する特徴量を抽出し、その特徴量を活用して、サービスを提案したり行動予測をしたりする（例えば非特許文献１，２参照）。

上記の予測は、小学校の児童の行動予測、株価予測、サービス提案時の嗜好予測など様々なシーンで必要とされる。いずれも人が介在しているため、人に関するデータを如何に収集するかは重要なテーマである。

一般に、人の行動や感情の予測は、回帰分析を用いて行われる。予測対象が個人の場合、回帰分析に使うデータはライフログ（例えば感情や体調の情報）を使う場合が多い。予測対象がマスユーザ（mass user）の場合、性別や年齢層、性格などの静的属性に基づいてデータを分類し、この分類したタイプ別に予測を行う事が多い。

予測に用いる回帰式は、新たに発生した出来事後の人に対する感情をできるだけ高い確度で予測できることが重要となる。
心理学や経済学では、性差や年齢層で特徴が違うという前提の下、これらの変数でデータセットを分け（セグメンテーション）、このセグメンテーション毎に回帰分析を行って予測式を導出することで予測精度を高めている。

インターネットショッピングなどでよく使われているリコメンデーションは、ユーザが当該商品に興味の有無をユーザのプロファイルに合致しているかどうかの２値判定で行うことで、合致していればリコメンドする。これは、当該商品を閲覧した又は購入したユーザと同じプロファイルを持つユーザは同じような商品に興味があると考え、“Ａの商品を買った人はＢの商品も買っている”とリコメンドをしても、50％以上の精度で正解すると予測している（例えば非特許文献３参照）。

統計手段の１つである回帰分析を行う場合、クロスバリデーションを考えると、データは最低でも100サンプルは必要となる。しかし、なんらかの出来事を契機に変化する職場の人間関係把握に必要な対人感情の変化データは、長い時間をかけないと予測に必要な収集できない。また、サービスを初めて利用する際に行うユーザ登録直後や短期間に実施しなければならないユーザ行動を誘発する実証実験のように、個人のプロファイルに関するユーザデータが少ない状況おいても、最初からそれなりに適切なサービスリコメンデーションを行いたいとのニーズがある。

石垣司, 竹中毅, 本村陽一，"日常購買行動に関する大規模データの融合による顧客行動予測システム実サービス支援のためのカテゴリマイニング技術", 人工知能学会論文誌, Vol. 26, No. 6, pp. 670-681, 2011.２０１５年１１月４日検索、インターネット＜https://www.jstage.jst.go.jp/article/tjsai/26/6/26_6_670/_pdf＞森武俊, "「センシングルーム」における行動蓄積とパターン発見", 情報処理学会研究報告知能と複雑系（ICS）, 情報処理学会研究報告知能と複雑系（ICS）, Vol. 78 (2005-ICS-140), pp. 41-44, 2005.２０１５年１１月４日検索、インターネット＜https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_uri&item_id=50229&file_id=1&file_no=1＞神嶌敏弘, "推薦システムのアルゴリズム", 2.1節, ２０１５年１１月４日検索、インターネット＜http://www.kamishima.net/ archive/recsysdoc.pdf＞

ここでは、回帰分析を使って予測を行う対象フィールドから少しずつしかデータ収集できない場合、どのようにして回帰式を導出すればよいかについて説明する。
データが少ない場合は、現状、２つの方法で対応している。１つ目の方法は、ランダムに予測結果を出力し、結果に対するフィードバックを何度も受けることで、時間をかけて徐々に学習を行い、カスタマイズをしていく方法である。２つ目の方法は、他の手段を使って収集した大規模データから導出した平均値を予測値として使う。
当然ながら、初期状態では上記の２つの方法とも予測精度が悪いが、1つめの方法は100サンプル以上のデータが集まると、対象フィールドにあった回帰式が作れるようになる。

１つめの方法のように時間をかけて学習データを貯めていく方法は、数か月おきに人事異動があるような職場では、メンバが次に入れ替えわるまでの時間の方が、学習データが貯まる時間より短いこともあるので、一部の学習が一旦リセットされることになり、対人感情を精度よく予測できる回帰式を何時まで経っても導出することができない。このため、人の心理情報を活用した予測技術を実用サービスの中で使おうとしても、サービスとして十分な予測精度が出せないため、本技術の実用化は難しい。

本発明の目的は、統計分析に必要な、十分なデータが集まらない状況でも、アプリケーションの要求を満たす精度での予測が可能な回帰式を短期間で導出することができるデータ分析装置、データ分析方法、データ分析処理プログラムを提供することである。

上記目的を達成するために、この発明の実施形態におけるデータ分析装置の第１の態様は、回帰分析による予測の対象となる対象フィールドで収集されるデータの属性の一部と同じ属性を有する簡易疑似データセットを、前記対象フィールドで収集されるデータとは別の手段で収集されたデータに基づいて作成する第１の作成手段と、前記作成した簡易疑似データセットを用いて回帰式を導出する導出手段と、前記導出した回帰式について、前記対象フィールドにおける回帰分析のための目的変数の予測に有用な説明変数に、前記のフィールドで収集されるデータとの分布のずれを補正するための説明変数を付加して、この付加後の説明変数と前記導出した回帰式の目的変数について前記対象フィールドから正解値となるデータを抽出する第１の抽出手段と、前記抽出したデータと前記対象フィールドと異なるフィールドで収集されるデータセットとの間に分布の有意差があるか否かを判定し、前記有意差がある場合に前記有意差を及ぼす説明変数を前記正解値となるデータから抽出する第２の抽出手段と、前記有意差を及ぼす説明変数について、前記対象フィールドで収集されるデータとは別の手段で収集されたデータに基づいて、前記対象フィールドで収集されるデータと特徴量が同じ、前記対象フィールドにおける目的変数の予測に有用な疑似データセットを作成する第２の作成手段とを有する装置を提供する。

上記構成のデータ分析装置の第２の態様は、第１の態様において、前記第１の抽出手段は、前記付加後の変数のうち、回帰係数が所定の条件を満たして大きい変数と前記導出した目的変数について前記対象フィールドから前記正解値となるデータを抽出する装置を提供する。

上記構成のデータ分析装置の第３の態様は、第１または第２の態様において、前記簡易疑似データセット、または前記対象フィールドで収集されるデータと特徴量が同じ疑似データセットに対し、欠損値の補完を行なう補完手段をさらに備えた装置を提供する。

本発明の実施形態におけるデータ分析方法の態様は、データ分析装置に適用される方法であって、回帰分析による予測の対象となる対象フィールドで収集されるデータの属性の一部と同じ属性を有する簡易疑似データセットを、前記対象フィールドで収集されるデータとは別の手段で収集されたデータに基づいて作成し、前記作成した簡易疑似データセットを用いて回帰式を導出し、前記導出した回帰式について、前記対象フィールドにおける回帰分析のための目的変数の予測に有用な説明変数に、前記のフィールドで収集されるデータとの分布のずれを補正するための説明変数を付加して、この付加後の説明変数と前記導出した回帰式の目的変数について前記対象フィールドから正解値となるデータを抽出し、前記抽出したデータと前記対象フィールドと異なるフィールドで収集されるデータセットとの間に分布の有意差があるか否かを判定し、前記有意差がある場合に前記有意差を及ぼす説明変数を前記正解値となるデータから抽出し、前記有意差を及ぼす説明変数について、前記対象フィールドで収集されるデータとは別の手段で収集されたデータに基づいて、前記対象フィールドで収集されるデータと特徴量が同じ、前記対象フィールドにおける目的変数の予測に有用な疑似データセットを作成する方法を提供する。

本発明の実施形態におけるデータ分析処理プログラムの態様は、第１乃至第３のいずれかの態様におけるデータ分析装置の一部分として動作するコンピュータに用いられるプログラムであって、前記コンピュータを、前記第１の作成手段、前記導出手段、前記第１の抽出手段、前記第２の抽出手段、および第２の作成手段として機能させるためのプログラムを提供する。

本発明によれば、統計分析に必要な、十分なデータが集まらない状況でも、アプリケーションの要求を満たす精度で予測できる回帰式を短期間で導出することが可能になる。

データ収集期間と予測精度との関係をグラフ形式で示す図。本発明の第１の実施形態の概要を示す図。本発明の第１の実施形態におけるデータ分析システムの機能構成例を示す図。本発明の第１の実施形態におけるデータ分析システムのデータ管理部の機能構成例を示す図。本発明の第１の実施形態におけるデータ分析システムで扱う各種データセットの関係の一例を示す図。本発明の第１の実施形態におけるデータ分析システムによる第１の処理動作の概要を示す図。本発明の第１の実施形態におけるデータ分析システムによる第１の処理動作の手順の一例を示すフローチャート。本発明の第１の実施形態におけるデータ分析システムによる第２の処理動作の概要を示す図。本発明の第１の実施形態におけるデータ分析システムによる第２の処理動作の手順の一例を示すフローチャート。本発明の第２の実施形態におけるデータ分析システムのデータ管理部の機能構成例を示す図。本発明の第３の実施形態におけるデータ分析システムのデータ管理部の機能構成例を示す図。

以下、この発明に係わる実施形態を説明する。
図１は、データ収集期間と予測精度との関係をグラフ形式で示す図である。
図１に示すように、実世界における、回帰分析による予測対象のフィールド（以下、対象フィールドと称することがある）で、十分なサンプル数でデータが集まらない場合は、特性は図１に示した特性ｃのように、予測精度が著しく低くなる。また、図１に示した特性ｂのように、他の手段を使って収集した大規模データから導出した平均値を初期状態の予測値として使った場合でも、予測精度は十分とはいえない。

これに対し、本発明では、上記のサンプル数が十分でない場合でも、大量のサンプルを集められる他の手段から、さらにサンプルが十分でない対象フィールドと特徴量が同じデータセットを作り統計分析を行うことで、図１に示した特性ａのように、予測したい対象のフィールドにできるだけ近い形の回帰式の適切な初期値を与えることを可能にする技術である。

本発明の１つめの特徴は、下記の第１の実施形態に関係する技術であり、対象フィールドからデータが収集し辛い環境であっても、ビッグデータなどの大規模データから、対象フィールドから集めるデータ（以下、対象フィールドデータと称することがある）と特徴量が同じ説明変数に着目し、対象フィールドにおける目的変数の予測に有用な疑似データセット（模擬データセットと称することもある）を生成することで、対象フィールドから収集できるデータが少ない状況でも、対象フィールドに適度に適合する回帰式を短期間で導出できることである。

本発明の２つめの特徴は、下記の第２の実施形態に関係する技術であり、どんな入力データであっても、安定した精度で予測が可能になるよう、真に予測に必要な説明変数を絞り込むことである。
本発明の３つめの特徴は、下記の第３の実施形態に関係する技術であり、データに欠損が存在しても改良ＥＭ（Expectation Maximization）アルゴリズム（期待値最大化法）などのデータ補完技術を用いて正しい分析を可能とすることである。

（第１の実施形態）
次に、第１の実施形態について説明する。
図２は、本発明の第１の実施形態の概要を示す図である。
図２に示すように、第１の実施形態では、対象フィールドにおいて回帰分析に必要なデータが十分集められず、対象フィールドにおいて収集したフィールドデータセット２０２が、要求を満たす精度で予測が可能なデータでない場合に、別の手段を使って収集した大規模データセット（例えばＷｅｂデータ、センサデータ、大規模なアンケートデータなど）２０１の中から、対象フィールドで収集されるデータと特徴量が同じ疑似データセット２０３を生成して、ある程度対象フィールドに適合した予測が可能な回帰式を短期間で導出することについて述べる。

図３は、本発明の第１の実施形態におけるデータ分析システムの機能構成例を示す図である。
図３に示すように、第１の実施形態におけるデータ分析システムは、端末１，２，３、センサ４、サーバ５、データ管理部６、データベース７、センサ８を有する。

端末１，２は、Ｗｅｂや手入力などを使って大規模データを収集する。
端末３は、対象フィールドでデータを収集する。
センサ４は、ＲＦＩＤ（Radio Frequency IDentification）タグなどで、対象フィールドでどこに誰がいるかのデータを検出（収集）する。サーバ５は、収集されたデータを格納処理するためのデータ管理部６、データベース７を有する。
データベース７は、不揮発性メモリなどの記憶装置であり、収集されたデータを格納する。データ管理部６は、格納されたデータを管理する。センサ８は、ＲＦＩＤなどで大規模データを収集する。

図４は、本発明の第１の実施形態におけるデータ分析システムのデータ管理部の機能構成例を示す図である。
図４に示すように、データ管理部６は、大規模データ管理部４１、予備データ作成部４２、予測計算部４３、有意差判定部４４、予測対象データ管理部４５、模擬データ抽出部４６を有する。

大規模データ管理部４１は、Ｗｅｂやセンサ８などを使って収集した大規模データを管理する。予備データ作成部４２は、大規模データ管理部４１により管理するデータの中から、対象フィールドの属性と１つまたは２つ同じ属性を有するデータセットを作成する。

予測計算部４３は、回帰分析などを使って有用な説明変数の選択や予測精度を計算する。予測対象データ管理部４５は、予備データ作成部４２により生成したデータセットに対して予測計算部４３により生成した調査項目にしたがって収集したデータをデータベース７に格納することで管理する。

有意差判定部４４は、対象フィールドと同じようなデータセットを作成する際に、どの説明変数に着目してデータセットを作成すればよいかをｔ検定やｆ検定などを使って判定する。
模擬データ抽出部４６は、予備データ作成部４２または大規模データ管理部４１で管理されるデータから予測対象フィールドと特徴量が同じデータであって、対象フィールドにおける目的変数の予測に有用な疑似データを作成する。

上記の予測計算部４３は、予測や変数選択を行う回帰分析実行部４３１、知りたいこと（予測したいこと）を示し、この対象フィールドにおける回帰分析のための目的変数を設定する目的変数指定部４３２、目的変数予測に有用な可能性がある属性を網羅的に指定する説明変数指定部４３３を有する。

また、有意差判定部４４は、ｔ検定やｆ検定を行う検定実行部４４１、５％や１０％などあらかじめ定めたｔ値やｆ値に基づいて比較したデータ同士に有意差があるか否かを判定する有意差判定部４４２を有する。

処理は、次の２つのステップ（ＳｔｅｐＡ、ＳｔｅｐＢ）で行う。
（ＳｔｅｐＡ）
ＳｔｅｐＡでは、まず、大規模データを使って、目的変数の予測に有用な説明変数を回帰分析により大まかに選定する。また、回帰式の最終的な作成対象である選定した説明変数に補正データを付加した変数と目的変数に関し、対象フィールドからデータを収集する。

（ＳｔｅｐＢ）
ＳｔｅｐＢでは、ＳｔｅｐＡで収集したデータセットと大規模データとの分布のずれをｔ検定やｆ検定で確認し、ずれのある変数に着目して、対象フィールドと特徴量が同じ疑似データセットを作成し、このデータセットを用いて対象フィールドに適合した回帰式を導出する。

図５は、本発明の第１の実施形態におけるデータ分析システムで扱う各種データセットの関係の一例を示す図である。
図５に示すように、ＳｔｅｐＡでは、大規模データセット２０１から先行研究や経験値から特徴が表れそうな説明変数を使った簡易疑似データセット２１１を作成し、このデータセットを使って、対象フィールドの目的変数の予測に関係しそうな変数を絞り込み、この変数に関して調査（対象フィールドからのデータ収集）する。
次に、この対象フィールドから収集したフィールドデータセット２０２を元に、逆に大規模データからデータを収集して対象フィールドに適合した擬似的な疑似データセット２０３を作成する。

以下、ＳｔｅｐＡ、ＳｔｅｐＢの詳細について順次説明する。
まずＳｔｅｐＡ（大規模データを使って大雑把に有用な変数を選定すること）の詳細について説明する。
図６は、本発明の第１の実施形態におけるデータ分析システムによる第１の処理動作の概要を示す図である。図７は、本発明の第１の実施形態におけるデータ分析システムによる第１の処理動作の手順の一例を示すフローチャートである。
まず、知りたいことである目的変数と、どんな属性から目的変数を予測するのかを説明する説明変数とが決定された上で、大規模データ管理部４１は、対象フィールドに存在する、目的変数や説明変数に関するデータが、回帰分析を行なうのに必要な量のデータであるか否かを確認する（Ａ１）。必要な量の目安は、例えばクロスバリデーションを考慮した１００サンプル以上である。

必要な量のデータであれば（Ａ１のＮＯ）、予測計算部４３の目的変数指定部４３２は、目的変数を何にするかを決定する。次に、予測計算部４３の説明変数指定部４３３は、どんな属性からだったらこの目的変数を上手く予測できるかを想定して説明変数の候補を列挙して指定する。

次に、予測計算部４３の回帰分析実行部４３１は、回帰分析（回帰式を作成するための分析）を行い、あらかじめ定めた決定係数や予測精度を参照しながら、予測式（回帰式）の有用性を判定する（Ａ２）。

一方、必要な量のデータがない場合、または既存の大規模データの中に必要な説明変数や目的変数がない場合（Ａ１のＹＥＳ）、大規模データ管理部４１は、短期間で効率よくデータ収集できる手段、例えばＷｅｂアンケートなどを用いて、分析用のデータセットとしての大規模データセット２０１を作成する。

一般に、男女別や年齢層、職種などでセグメンテーションを行ったデータセットを使った方が予測精度は高い。これは、より対象の傾向を反映しやすくできるためである。
本実施形態では、予測精度を少しでも高くするために、予備データ作成部４２を使って、最終的に回帰式を作成したい対象フィールドに対して静的属性が１〜２個同じもの（例えば職種、年齢層）で大規模データからセグメンテーションし、予備分析用の簡易疑似データセット２１１を作成し、このデータセットを用いて回帰式を導出する（Ａ３）。

この簡易疑似データセット２１１は、ある属性に着目した一般的な傾向を分析するためのデータセットである。簡易疑似データセット２１１は、端末１，２を使って手入力したデータや、センサ８を使って自動収集したデータを予め定めたルールにしたがってカテゴリデータまたは量的データに変換したデータによって生成される。

上記の簡易疑似データセット２１１を用いて、予測計算部４３の回帰分析実行部４３１は、目的変数の予測に有用な説明変数を回帰分析により選択する。選択の際は、回帰分析実行部４３１は、クロスバリデーションを予め指定した回数行い、目的変数を予測するために選択されやすい説明変数の中から回帰係数の絶対値ができるだけ大きい変数を選択する。

この選択により、目的変数を予測するために有用な一般的な説明変数が判明するが、これが、必ずしも対象フィールドに適合しているとは限らない。収集するデータの種類をいくつにするかは、アプリケーション要件によって異なるが、ユーザの手入力も考慮すると、次元数（種類）を大幅に増加させることはできない。

そこで、説明変数の予め定められた数に、対象データとのずれを補正するための数αだけデータを付加し、この付加した数の説明変数と目的変数に関し、対象フィールドから正解値となるデータをフィールドデータセット２０２として収集する（Ａ４）。αを何種類の変数にするかは、アプリケーション要件によって予め定められる。この収集されたデータは予測対象データ管理部４５に渡され、予測対象データ管理部４５は、この渡されたデータをデータベース７に格納する。

一般的に有用と判定された説明変数とフィールドデータセット２０２との分布のずれは、予測対象データ管理部４５を用いて確認する。対象フィールドからは、端末３やセンサ４を用いてフィールドデータセット２０２を収集し、データベース７に格納する。センサ４からのデータは、センサ８から収集したデータと同様に、カテゴリデータか量的データに変換される。この際、一般的傾向とのずれが大きい場合も考慮して、回帰分析実行部４３１は、回帰係数の小さい変数も数種類程度収集してもよい。

（ＳｔｅｐＢ）
次にＳｔｅｐＢ（フィールドから収集したデータと似て、かつ目的変数の予測に有用な疑似データセットを大規模データから作成すること）の詳細について説明する。図８は、本発明の第１の実施形態におけるデータ分析システムによる第２の処理動作の概要を示す図である。図９は、本発明の第１の実施形態におけるデータ分析システムによる第２の処理動作の手順の一例を示すフローチャートである。
まず、有意差判定部４４は、対象フィールドから収集したフィールドデータセット２０２をデータベース７から読み出すことで入力して、ＳｔｅｐＡのＡ３で導出した回帰式を用いた予測結果の正解率を計算することで（Ｂ１）、上記のフィールドデータセット２０２が一般的な大規模データセット２０１と比べてずれが大きいか否かを判定する（Ｂ２）。ずれが大きくない、例えば正解率が５０％以下でない場合（Ｂ２のＮＯ）は、大規模データセット２０１などから収集したフィールドデータセット２０２が一般的傾向に沿っており、このデータから導出した回帰式は適切であると判断する。

一方、ずれが大きい場合、例えば正解率が５０％以下である場合（Ｂ２のＹＥＳ）は、大規模データセット２０１などから収集したフィールドデータセット２０２の傾向が一般的傾向とは違う可能性が高いので、このデータセットから導出した回帰式が適切でないと判断する。

ここで、どのデータに着目してデータセットを作成すれば、目的変数の観点から、対象フィールドから収集するデータセットと同じ特徴量を持つデータセットを作成することが可能になるかについて述べる。

検定実行部４４１は、対象フィールドで収集されたフィールドデータセット２０２と、ＳｔｅｐＡのＡ３で導出された回帰式の元となる大規模データセット２０１とを比較し、これらのデータの間に分布の違いがあるか否かを、同一変数間でt検定またはf検定を用いることで確認する（Ｂ４）。

有意差判定部４４２は、予め定められたt値またはf値において、有意差がある説明変数を抽出することで、対象フィールドから収集したフィールドデータセット２０２が一般的な大規模データセット２０１と比べてずれが大きいことを示す有意差があるか否かを判定する。有意差がある説明変数の項目は、ＳｔｅｐＡで一般の傾向分析に用いた大規模データセット２０１とは異なる、フィールドデータセット２０２に特有の分布となっている。よって、フィールドデータセット２０２と似て、かつ目的変数の予測に有用な疑似データセット２０３を作成するには、この有意差のある項目において、フィールドデータと同じデータで大規模データのセグメンテーションを行う。

例えば、「性格」という説明変数において、“社交的か否か”を示す「０」または「１」のデータに有意差がある場合について述べる。
フィールドデータセット２０２における社交的であるという「１」というデータが有意であれば、大規模データセット２０１から、社交的を示すデータ「１」であるデータセットを作成する。つまり、社交的であるというデータでセグメンテーションを行うということになる。セグメンテーションを行なった結果、生成されたデータセットは、フィールドデータセット２０２と似て疑似データセット２０３となる。

模擬データ抽出部４６は、疑似データセット２０３の作成で参照した説明変数における上記のように有意差が大きい説明変数に着目して、この変数にマッチするデータとして、別の手段で収集されたデータ（大規模データセット２０１または絞り込みデータセット（簡易疑似データセット２０２）から、対象フィールドでのフィールドデータセット２０２と特徴量が同じ疑似データセット２０３を作成する。
そして、サンプル数が統計分析に必要な数（目安は１００サンプル）以上であれば、回帰分析実行部４３１は、疑似データセット２０３が適切な分析が可能なデータセットであると判断し、この疑似データセット２０３に基づいて対象フィールド用の模擬回帰式を導出する。

この模擬回帰式は、対象フィールドに適用され、例えば、回帰分析実行部４３１は、適当なタイミングで結果の正解および不正解を収集し、この収集結果を模擬回帰式へフィードバックする。

この模擬回帰式は、対象フィールドを元に生成した疑似データセット２０３から導出した式なので、従来方法に比べて、対象フィールドへ適用した初期状態から比較的精度のよい予測が実現できる。また、対象フィールドから収集するデータも単体を用いた場合では例えば１年以上の長期調査が必要な場合がある。

この場合、調査期間が例えば１〜２カ月といった短期間に収集した少ないデータから対象フィールドでのデータを模擬したデータセットを作成することで、対象フィールド単体からデータ収集する場合に比べて短期間で予測精度の高い回帰式を作成することができる。

また、上記のＳｔｅｐＡにおいて、予測対象で正解値となるデータを簡易疑似データセットから収集する際、目的変数を予測するのに必要なデータのみを収集するので、従前のように、手当り次第情報を収集していたところを、目的変数に指定した情報である、知りたい事に必要な情報に絞り込みができる。よって、システム開発時における、不必要な情報収集のための設計開発が不要になり、また、プライバシー保護を実現できるとともに、仮にユーザからの手入力があったとしても手入力にかかる負荷を最小化できる。

（第２の実施形態）
次に、第２の実施形態について説明する。
図１０は、本発明の第２の実施形態におけるデータ分析システムのデータ管理部の機能構成例を示す図である。
図１０に示すように、第２の実施形態では、第１の実施形態で説明したデータ管理部６は、調査する変数に上限を設けるための次元削減部１１１をさらに有する。

統計学において、一般に高い精度で予測をするためには、回帰式に多くの属性の種類の変数を使うことが多い。
しかし、ユーザの手入力も考慮した実用サービスを考えると、所望の予測結果を出力するために入力しなければならないデータが多くなればなるほど、ユーザの入力負荷が高くなり、サービスとしての定着率が低くなる。また、本発明の目的は、現在あるデータセットを使って導出した回帰式による未来の予測なので、予測に必要な説明変数の数が多いと、その変数に対する入力データがない場合は計算できない。また、変数が多いとうことは、それらすべてにデータが入力されるたびに予測値が変わるということになり、安定した予測精度をだすことができない。

そこで、回帰式の中で用いた説明変数を再度見直し、予測結果にあまり影響を与えない説明変数を回帰式から除くことで、何回か新しいデータを入力したとしても目標とする予測精度を安定して実現できるようにする。

第２の実施形態では、予測結果にあまり影響を与えない説明変数を特定するために、予測に有用でない変数の回帰係数をゼロ化できるスパース（sparse）推定を使う。しかし、現状のスパース推定を使っても、例えば１００を超える説明変数の数を３０程度にしか減らせないことも多い。
全ての説明変数に入力するデータがすべて手入力になることを考えると、例えば３０でも多すぎるため、最終目標の説明変数の数は１０以下とすることが望ましい。

最終的に対象フィールドの回帰式を作るためには、再度、スパース推定で選択した対象フィールドでデータ収集する必要があるが、ユーザの回答負荷と対象フィールドへのカスタマイズの補正を考えると、次元削減部１１１により回帰式から除かれるべき説明変数は、スパース推定を用いて完全にゼロとなった説明変数以外にも、上記の10以外にも回帰係数の大きい順にいくつか残しておく必要がある。

そこで、第２の実施形態では、次元削減部１１１は、クロスバリデーションを何度か行い、絶対値が大きい説明変数から順に、予測に有用な説明変数と判断し、これらの説明変数にプライオリティを付与する。次元削減部１１１は、絶対値の平均がゼロに近い回帰係数に関わる説明変数は、予測精度の計算に有用でないと判断し、予測に使う回帰式の説明変数から除く。

以上のように、第２の実施形態では、ユーザの手入力負荷の軽減、計算に必要な変数を少なくすることによる安定した予測の実現、およびアンケートでデータを収集するとしても設問数を少なくできるので、回答者の少量の入力によるデータ品質低下防止の実現が可能となる。

（第３の実施形態）
次に、第３の実施形態について説明する。
図１１は、本発明の第３の実施形態におけるデータ分析システムのデータ管理部の機能構成例を示す図である。
図１１に示すように、第３の実施形態では、第２の実施形態で説明したデータ管理部６は、欠損値対応部（欠損値補完部）１２１を有する。この欠損値対応部１２１は、回帰分析に用いるデータセットに欠損が生じてしていたとしても、平均値などを用いる方法や、改良ＥＭアルゴリズムを用いた、欠損値があっても当該欠損値を含んだ状態で尤もらしい推定を行う最尤法などを用いたり、欠損値を含むレコードを削除したりすることで、欠損部を補完する。これにより、回帰分析のために作成したデータセットに欠損値があったとしても、欠損の起こり方に対応した回帰分析が行えるようになる。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

また、各実施形態に記載した手法は、計算機（コンピュータ）に実行させることができるプログラム（ソフトウエア手段）として、例えば磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ、ＭＯ等）、半導体メモリ（ＲＯＭ、ＲＡＭ、フラッシュメモリ等）等の記録媒体に格納し、また通信媒体により伝送して頒布することもできる。なお、媒体側に格納されるプログラムには、計算機に実行させるソフトウエア手段（実行プログラムのみならずテーブルやデータ構造も含む）を計算機内に構成させる設定プログラムをも含む。本装置を実現する計算機は、記録媒体に記録されたプログラムを読み込み、また場合により設定プログラムによりソフトウエア手段を構築し、このソフトウエア手段によって動作が制御されることにより上述した処理を実行する。なお、本明細書でいう記録媒体は、頒布用に限らず、計算機内部あるいはネットワークを介して接続される機器に設けられた磁気ディスクや半導体メモリ等の記憶媒体を含むものである。

１，２，３…端末、４，８…センサ、５…サーバ、６…データ管理部、７…データベース、４１…大規模データ管理部、４２…予備データ作成部、４３…予測計算部、４４…有意差判定部、４５…予測対象データ管理部、４６…模擬データ抽出部、１１１…次元削減部、１２１…欠損値対応部、２０１…大規模データセット、２０２…フィールドデータセット、２０３…疑似データセット、２１１…簡易疑似データセット、４３１…回帰分析実行部、４３２…目的変数指定部、４３３…説明変数指定部、４４１…検定実行部、４４２…有意差判定部。

Claims

回帰分析による予測の対象となる対象フィールドで収集されるデータの属性の一部と同じ属性を有する簡易疑似データセットを、前記対象フィールドで収集されるデータとは別の手段で収集されたデータに基づいて作成する第１の作成手段と、
前記作成した簡易疑似データセットを用いて回帰式を導出する導出手段と、
前記導出した回帰式について、前記対象フィールドにおける回帰分析のための目的変数の予測に有用な説明変数に、前記のフィールドで収集されるデータとの分布のずれを補正するための説明変数を付加して、この付加後の説明変数と前記導出した回帰式の目的変数について前記対象フィールドから正解値となるデータを抽出する第１の抽出手段と、
前記抽出したデータと前記対象フィールドと異なるフィールドで収集されるデータセットとの間に分布の有意差があるか否かを判定し、前記有意差がある場合に前記有意差を及ぼす説明変数を前記正解値となるデータから抽出する第２の抽出手段と、
前記有意差を及ぼす説明変数について、前記対象フィールドで収集されるデータとは別の手段で収集されたデータに基づいて、前記対象フィールドで収集されるデータと特徴量が同じ、前記対象フィールドにおける目的変数の予測に有用な疑似データセットを作成する第２の作成手段と
を備えたことを特徴とするデータ分析装置。
前記第１の抽出手段は、
前記付加後の変数のうち、回帰係数が所定の条件を満たして大きい変数と前記導出した目的変数について前記対象フィールドから前記正解値となるデータを抽出する
ことを特徴とする請求項１に記載のデータ分析装置。
前記簡易疑似データセット、または前記対象フィールドで収集されるデータと特徴量が同じ疑似データセットに対し、欠損値の補完を行なう補完手段をさらに備えた
ことを特徴とする請求項１または２に記載のデータ分析装置。
データ分析装置に適用される方法であって、
回帰分析による予測の対象となる対象フィールドで収集されるデータの属性の一部と同じ属性を有する簡易疑似データセットを、前記対象フィールドで収集されるデータとは別の手段で収集されたデータに基づいて作成し、
前記作成した簡易疑似データセットを用いて回帰式を導出し、
前記導出した回帰式について、前記対象フィールドにおける回帰分析のための目的変数の予測に有用な説明変数に、前記のフィールドで収集されるデータとの分布のずれを補正するための説明変数を付加して、この付加後の説明変数と前記導出した回帰式の目的変数について前記対象フィールドから正解値となるデータを抽出し、
前記抽出したデータと前記対象フィールドと異なるフィールドで収集されるデータセットとの間に分布の有意差があるか否かを判定し、前記有意差がある場合に前記有意差を及ぼす説明変数を前記正解値となるデータから抽出し、
前記有意差を及ぼす説明変数について、前記対象フィールドで収集されるデータとは別の手段で収集されたデータに基づいて、前記対象フィールドで収集されるデータと特徴量が同じ、前記対象フィールドにおける目的変数の予測に有用な疑似データセットを作成する
ことを特徴とするデータ分析方法。
前記付加後の変数のうち、回帰係数が所定の条件を満たして大きい変数と前記導出した目的変数について前記対象フィールドから前記正解値となるデータを抽出する
ことを特徴とする請求項４に記載のデータ分析方法。
前記簡易疑似データセット、または前記対象フィールドで収集されるデータと特徴量が同じ疑似データセットに対し、欠損値の補完を行なう
ことを特徴とする請求項４または５に記載のデータ分析方法。
請求項１乃至３のいずれかに記載のデータ分析装置の一部分として動作するコンピュータに用いられるプログラムであって、
前記コンピュータを、
前記第１の作成手段、前記導出手段、前記第１の抽出手段、前記第２の抽出手段、および第２の作成手段
として機能させるためのデータ分析処理プログラム。