JP6300572B2

JP6300572B2 - データ分析プログラム、及びデータ分析装置

Info

Publication number: JP6300572B2
Application number: JP2014037302A
Authority: JP
Inventors: 夏樹石田; 全徳冨山
Original assignee: 株式会社日立ソリューションズ西日本
Priority date: 2013-08-30
Filing date: 2014-02-27
Publication date: 2018-03-28
Anticipated expiration: 2034-02-27
Also published as: JP2015064856A

Description

本発明は、データの変数間の関係を分析する、データ分析プログラム等に関する。

例えば、企業等のマーケティング活動において、年齢・収入等の顧客特徴と購入商品・金額等の取引実績のデータから、顧客特徴と取引実績の関係を分析して把握することは重要である。

取引実績のような目的変数を、顧客特徴のような説明変数で表現する分析手法として、下記特許文献１に記載の重回帰分析に基づいたスコアリングモデルがあり、目的変数を表す説明変数の回帰式が求まる。特許文献２には、後述するクラスタ構造に基づいた計量距離の求め方に関連する手法が載っている。非特許文献１は、後述するＬＯＦの求め方に関連する手法を説明する。

特開２０１０−２７７５６７号公報特開２００６−３１４６０号公報

M.Breuning, H.Kriegel, R.T.Ng, and J.Sander「LOF Identifying density-based local outliers」ACM SIGMOD International Conference on Management of Data, pp.93-104 (2000).

図２１（ａ）は、説明変数ｘに対する目的変数ｙの分布の例を示す図である。図２１（ａ）に示すように、説明変数ｘと目的変数ｙとの間に、ある相関関係が見出しやすい場合には、回帰式ｙ＝ａｘ＋ｂを求めることが容易である。

しかしながら、図２１（ｂ）に示すように、説明変数ｘと目的変数ｙとの分布がばらついているケースも多い。重回帰モデルでは、説明変数が数十個以上と多くなる場合、説明変数が近いデータが少ないような外れ値が存在する場合、説明変数が少し変化するだけで目的変数が急激に変化するような偏りが存在する場合等では、回帰式で算出される目的変数は、実データの目的変数へのフィッティングが悪化しやすいという問題がある。

そのため、例えば、ある顧客特徴を持つ顧客の取引見込を、他の顧客の取引実績から推定しようとしても、精度よく推定できないというような問題が生じる。

また、ある顧客特徴を持つ顧客の取引実績が、他の顧客と比較して多いのか少ないのかも、精度よく評価できないというような問題が生じる。

本発明は、多数個の説明変数や外れ値や偏りが存在する場合でも、実データの目的変数へのフィッティングを向上させることを目的とする。

本発明の一観点によれば、標本データ毎の目的変数を示す目的変数テーブルと、標本データ毎の説明変数を示す説明変数テーブルとを保存した分析データベースを参照し、前記標本データ毎に、前記説明変数の組合せ毎に、前記説明変数の組合せで構成される空間において、前記標本データの周囲に存在する近傍データを抽出する近傍データ抽出処理と、全データの目的変数値より前記近傍データの目的変数値の方が類似しているかを判定して、近傍類似データと類似度を抽出する類似データ抽出処理と、をコンピュータに実行させるためのデータ分析プログラムが提供される。

さらに、前記全データの中からランダムに近傍データ数閾値個のデータを選択した時に、選択したデータの目的変数値の標準偏差が前記近傍データの目的変数値の標準偏差以下となる確率を、前記類似度として算出する類似度の算出処理を、コンピュータに実行させるようにすると良い。

さらに、前記近傍類似データが存在する空間を作る前記説明変数の組合せと、前記近傍類似データと前記類似度との組と、を出力する出力処理を、コンピュータに実行させるようにすると良い。

さらに、前記標本データ毎に、前記近傍類似データに基づいた計量距離を用いて、前記標本データの周囲に存在する局所近接データを抽出する局所近接データ抽出処理を、コンピュータに実行させるようにすると良い。

前記近傍類似データに基づいた前記計量距離として、前記説明変数組合せ毎の前記近傍類似データが各クラスタであり、前記近傍類似データの説明変数値が前記クラスタのデータであり、前記近傍類似データと組になっている前記類似度を単調減少関数で変換した値が前記クラスタの重みである、クラスタ構造に基づいた計量距離を用いる局所近接データ抽出処理を、コンピュータに実行させると良い。

さらに、前記局所近接データを出力する出力処理を、コンピュータに実行させるようにすると良い。

また、前記標本データ毎に、前記局所近接データの目的変数値から、前記標本データの目的変数値の期待値であるポテンシャル期待値を算出して出力する、ポテンシャルスコアリング処理を行うと良い。

また、前記標本データ毎に、前記局所近接データの目的変数値から、前記標本データの目的変数値の期待値であるポテンシャル期待値を算出する、ポテンシャルスコアリング処理と、前記標本データの前記ポテンシャル期待値が全データのポテンシャル期待値と比較して、相対的に高いか低いか判定してポテンシャル高低評価値として出力する、ポテンシャル高低評価処理を行うようにすると良い。

また、前記標本データ毎に、前記局所近接データの目的変数値から、前記標本データの目的変数値の期待値であるポテンシャル期待値を算出する、ポテンシャルスコアリング処理と、前記標本データの前記ポテンシャル期待値が前記標本データの目的変数値と比較して、相対的に高いか低いか判定してポテンシャル乖離評価値として出力する、ポテンシャル乖離評価処理を行うようにすると良い。

また、本発明の一観点によれば、標本データ毎の目的変数を示す目的変数テーブルと、標本データ毎の説明変数を示す説明変数テーブルとを保存した分析データベースを参照し、前記標本データ毎に、前記説明変数の組合せ毎に、前記説明変数の組合せで構成される空間において、前記標本データの周囲に近傍データが存在するか判定して、前記近傍データを抽出する近傍データ抽出処理と、全データの目的変数値より前記近傍データの目的変数値の方が類似している否かを判定して、近傍類似データを抽出する類似データ抽出処理と、をコンピュータに実行させるためのデータ分析プログラムが提供される。

さらに、前記近傍類似データが存在する空間を作る前記説明変数の組合せと、前記近傍類似データの組と、を出力する出力処理を、コンピュータに実行させるようにすると良い。

また、前記説明変数の組合せのうちサブ空間になっている組み合わせに関して、それよりも上位に存在する説明変数の組合せを削除する処理を、コンピュータに実行させると良い。

例えば、ＥとＥ’を比較して、ＥがＥ’のサブ空間になっているかを比較する。
また、前記近傍データ抽出処理を前記類似データ抽出処理に先立って実行させると良い。

また、前記標本データ毎に、前記近傍類似データの目的変数値から、前記標本データの目的変数値の期待値であるポテンシャル期待値を算出して出力する、ポテンシャルスコアリング処理を行うと良い。

また、前記標本データ毎に、前記近傍類似データの目的変数値から、前記標本データの目的変数値の期待値であるポテンシャル期待値を算出する、ポテンシャルスコアリング処理と、前記標本データの前記ポテンシャル期待値が全データのポテンシャル期待値と比較して、相対的に高いか低いか判定してポテンシャル高低評価値として出力する、ポテンシャル高低評価処理を行うようにすると良い。

また、前記標本データ毎に、前記近傍類似データの目的変数値から、前記標本データの目的変数値の期待値であるポテンシャル期待値を算出する、ポテンシャルスコアリング処理と、前記標本データの前記ポテンシャル期待値が前記標本データの目的変数値と比較して、相対的に高いか低いか判定してポテンシャル乖離評価値として出力する、ポテンシャル乖離評価処理を行うようにすると良い。

本発明の他の観点によれば、標本データ毎の目的変数を示す目的変数テーブルと、標本データ毎の説明変数を示す説明変数テーブルとを保存した分析データベースを参照し、前記標本データ毎に、前記説明変数の組合せ毎に、前記説明変数の組合せで構成される空間において、前記標本データの周囲に近傍データが存在するか判定して、前記近傍データを抽出する近傍データ抽出ステップと、全データの目的変数値より前記近傍データの目的変数値の方が類似しているかを判定して、近傍類似データを抽出する類似データ抽出ステップと、を有するデータ分析方法が提供される。

また、本発明は、標本データ毎の目的変数を示す目的変数テーブルと、標本データ毎の説明変数を示す説明変数テーブルとを保存した分析データベースを参照し、前記標本データ毎に、前記説明変数の組合せ毎に、前記説明変数の組合せで構成される空間において、前記標本データの周囲に近傍データが存在するか判定して、前記近傍データを抽出する近傍データ抽出処理部と、全データの目的変数値より前記近傍データの目的変数値の方が類似しているかを判定して、近傍類似データを抽出する類似データ抽出処理部と、を有することを特徴とするデータ分析装置である。

本発明によれば、多数個の説明変数や外れ値や偏りが存在する場合でも、実データの目的変数へのフィッティングを良くすることができる。従って、データ分析の精度を向上させることができるという利点がある。

本発明の一実施の形態によるデータ分析プログラムを備えたデータ分析システムの一構成例を示す機能ブロック図である。分析データベースに蓄積される標本データ毎の目的変数を示すデータ構成例を示す図である。分析データベースに蓄積される標本データ毎の説明変数を示すデータ構成例を示す図である。近傍類似データ抽出手段による処理例を示すフローチャートである。説明変数組合せ処理の処理例を示すフローチャートである。説明変数組合せ処理の抽出結果の例を示すイメージ図である。近傍類似データ抽出処理の処理例を示すフローチャートである。類似データ評価処理の処理例を示すフローチャートである。類似度の算出の詳細な処理例を示すフローチャートである。目的変数値の度数分布の分散を説明するための図である。近傍類似データ抽出手段の処理を行うことで出力される分析結果のデータ例を示す図である。局所近接データ抽出手段による処理例を示すフローチャートである。局所近接データ抽出手段の処理を行うことで出力される分析結果のデータ例を示す図である。ポテンシャル評価手段の処理例を示すフローチャートである。ポテンシャル期待値とポテンシャル高低評価・ポテンシャル乖離評価の関係を示す図である。近傍類似データと局所近接データの関係を示す図である。ポテンシャル評価手段の処理を行うことで出力される分析結果のデータ例を示す図である。あるエリアで得られた結果に基づいて、他のエリアの分析を行う例を示す図である。近傍類似データ抽出処理の処理例を示すフローチャートである。近傍データ抽出処理の処理例を示すフローチャートである。ＬＯＦの算出時に用いる局所密度を説明するための図である。類似データ評価処理の処理例を示すフローチャートである。目的変数値の度数分布の分散を説明するための図である。上位説明変数組合せ削除処理の処理例を示すフローチャートである。近傍類似データ抽出手段の処理を行うことで出力される分析結果のデータ例を示す図である。図１９Ａの分析結果の応用例を示す図である。ポテンシャル評価手段の処理例を示すフローチャートである。ポテンシャル期待値とポテンシャル高低評価・ポテンシャル乖離評価の関係を示す図である。目的変数と説明変数の分布から関係を分析する例を示す図であり、さらに、本発明の実施の形態を適用した効果を示す図である。

本明細書において、目的変数とは予測したい変数であり、説明変数とは目的変数を説明する変数である。

以下、本発明の実施の形態によるデータ分析技術について図面を参照しながら説明する。
（第１の実施の形態）
図１は、本実施の形態によるデータ分析システムの一構成例を示す機能ブロック図である。図１に示すように、本実施の形態によるデータ分析システムは、分析対象となる目的変数と説明変数のデータを保存した分析データベース１１と、分析手段を備えて処理を実行する分析サーバ１２と、分析設定値の入力や分析結果の出力を行うクライアント端末１３とがネットワーク接続可能に構成されている。

分析サーバ１２は、分析手段として、近傍類似データ抽出手段１４とポテンシャル評価手段１５と局所近接データ抽出手段１６とを含む情報処理部１２ａを備えている。さらに、通信を行う通信部１２ｂと、各種データを記憶するメモリ１２ｃを有している。

例えば、分析データベース１１は、ハードディスク装置、分析サーバ１２とクライアント端末１３は、コンピュータ、近傍類似データ抽出手段１４とポテンシャル評価手段１５と局所近接データ抽出手段１６は、プログラムをＣＰＵ等により実行する処理手段である。

そして、分析サーバ１２が、メモリ１２ｃに格納されるプログラムを読み込んで、ＣＰＵで分析データベース１１を参照しながら近傍類似データ抽出手段１４またはポテンシャル評価手段１５または局所近接データ抽出手段１６としての処理を実行し、クライアント端末１３が、そのディスプレイに、近傍類似データ抽出手段１４、ポテンシャル評価手段１５、局所近接データ抽出手段１６の出力を表示することができる。

図２のテーブル２１は、分析データベース１１に蓄積されている目的変数の各標本データの構成例を示している。図２に示した例は、地域（エリア）毎の目的変数として金融情報を用いて分析対象とする例を示す。図２の各行には異なる地域別に金融情報のデータが格納されており、データＤ［１］＝“Ａ町１丁目”、データＤ［２］＝“Ａ町２丁目”、データＤ［３］＝“Ｂ町１丁目”、データＤ［ＮＤ］＝“Ｚ町１丁目”のように地域別に金融情報のデータが格納されている。

図２の各列は目的変数を示しており、例えば、目的変数Ｏ［１］＝“預貯金”、目的変数Ｏ［２］＝“保険掛金”、目的変数Ｏ［ＮＯ］＝“有価証券購入額”のようなデータが格納されている。この行と列との組合せにより、各地域毎の目的変数値を示している。例えば、テーブル２１上のＤＯ［１］［１］＝2564という値は“Ａ町１丁目の預貯金”が２５６４万円であることを表している。

図３のテーブル３１は、分析データベース１１に蓄積されている説明変数の各標本データの構成例を示している。図３に示した例は、地域（エリア）毎の居住者情報を分析対象とする例を示す。図３の各行には異なる地域別に説明変数として一般的なデータ、ここでは居住者情報のデータが格納されており、データＤ［１］＝“Ａ町１丁目”、データＤ［２］＝“Ａ町２丁目”、データＤ［３］＝“Ｂ町１丁目”、データＤ［ＮＤ］＝“Ｚ町１丁目”のようにデータが格納されている。

各列は説明変数を示しており、説明変数Ｅ［１］＝“２０歳未満比率”、説明変数Ｅ［２］＝“６５歳以上比率”、説明変数Ｅ［３］＝“１人世帯比率”、説明変数Ｅ［ＮＥ］＝“１０００万円以上所得比率”のように居住者情報のデータが存在している。

この行と列との組合せで、各地域の説明変数値を示しており、テーブル３１上のＤＥ［１］［１］＝0.286という値は“Ａ町１丁目の２０歳未満比率”が０．２８６であることを表している。

以上のようなテーブルのデータを用いてデータ分析処理を行う。
ここでは、地域ごとの金融データを分析する例について説明したが、会社毎などの組織単位の販売実績データ、研究機関毎の論文発表、特許出願などの研究実績データなど種々のデータ分析に用いることができ、検体毎の疾病治癒実績データなどに用いることができ、本発明は、データの種別を限定するものではない。

図４は、近傍類似データ抽出手段１４におけるデータ処理例を示すフローチャートである。近傍類似データ抽出手段１４では、各標本データ（以下、「個別データ」と称する。）毎に、近傍類似データが存在する空間を作る説明変数の組合せと、近傍類似データと、類似度とを出力する。

初めに、個別データ毎に処理を繰り返すために、変数ｉを１からデータの個数ＮＤまでインクリメントしてループ処理を行う（ステップ４０１）。次に、説明変数組合せ処理を行う（ステップ４０２）。次に、近傍類似データ抽出処理を行う（ステップ４０３）。

以下に、ステップ４０２、ステップ４０３の処理の詳細について説明する。図５は、ステップ４０２の説明変数組合せ処理の処理例を示すフローチャートである。説明変数組合せ処理では、説明変数組合せの要素数ごとに、全ての説明変数の組合せを算出する。

まず初めに、説明変数組合せの要素数毎に処理を繰り返すために、変数ｒを１から説明変数の個数ＮＥまでインクリメントしてループ処理を行う（ステップ５０１）。図３の列の数ｒ毎に処理を行う。

次に、説明変数の集合｛Ｅ［１］，Ｅ［２］，・・・，Ｅ［ＮＥ］｝から要素数がｒ個の組合せ集合を算出しＣＯＭＢ［ｒ］に代入を行う（ステップ５０２）。

（数１）

図６は、説明変数組合せ処理の出力結果の例を示すイメージ図である。図６に示すイメージ図では、説明変数の集合が｛Ｅ［１］，Ｅ［２］，Ｅ［３］，Ｅ［４］｝の場合を例として示しており、図の上方から順番に、ＣＯＭＢ［１］，ＣＯＭＢ［２］，ＣＯＭＢ［３］，ＣＯＭＢ［４］の組み合わせ出力結果を並べて示している。

要素数ｒ１，ｒ２（１≦ｒ１＜ｒ２≦ＮＥ）について、要素数がより少ないＣＯＭＢ［ｒ１］の結果を下位階層とし、要素数がより多いＣＯＭＢ［ｒ２］の結果を上位階層とする。下位階層に所属する説明変数の組合せが、上位階層に所属する説明変数の組合せのサブ空間になっている場合、この２つの説明変数の組合せに上下関係が存在するものとして、図６のイメージ図では、その上下関係を組み合わせ間を結ぶ線により示している。図６の領域ＤＬ１内の説明変数の組合せが、｛Ｅ［１］｝をサブ空間として含む上位説明変数組合せである。ステップ４０２は、ステップ４０３の処理のための前段処理に相当する。

図７は、近傍類似データ抽出処理の処理例を示すフローチャートである。近傍類似データ抽出処理では、近傍類似データが存在する空間を作る説明変数組合せと、近傍類似データと、類似度を抽出する。

初めに、説明変数組合せの要素数ごとに処理を繰り返すために変数ｒを１から説明変数の個数ＮＥまでインクリメントしてループ処理を行う（ステップ７０１）。次に、ＣＯＭＢ［ｒ］に含まれる全ての説明変数の組合せＥごとに処理を行うようにループ処理を行う（ステップ７０２）。図６のように求めたＣＯＭＢ［１］，ＣＯＭＢ［２］，ＣＯＭＢ［３］，ＣＯＭＢ［４］までの中からｒが小さい順番に１つ選ぶ。ステップ７０１とステップ７０２との処理によって、説明変数の要素数の少ない組合せから、つまり下位から上位へと順番に処理を行っていくことになる。

次に、説明変数の組合せＥで構成される空間において、近傍データとして個別データＤ［ｉ］から距離が近い順に近傍データ数閾値個目までのデータを代入する（ステップ７０３）。例えば、個別データＤ［１］、説明変数の組合せＥ＝｛Ｅ［１］｝の場合では、“Ａ町１丁目”の“２０歳未満比率”である０．２８６に近いデータが近傍データとして抽出される。

ただし、説明変数の組合せＥによって構成される空間において、２個のデータＤ［ｘ］とＤ［ｙ］（１≦ｘ≦ｙ≦ＮＤ）の距離とは、Ｅ＝｛Ｅ［ｅ１］，・・・，Ｅ［ｅＮ］｝とすると、点（ＤＥ［ｘ］［ｅ１］，・・・，ＤＥ［ｘ］［ｅＮ］）と点（ＤＥ［ｙ］［ｅ１］，・・・，ＤＥ［ｙ］［ｅＮ］）のユークリッド距離またはマハラノビス距離である。また、近傍データ数閾値とは、説明変数の組合せＥで構成される空間において、個別データから距離が近い順に何個目までのデータを近傍データとするかの値であり、事前に設定されているものとする。

次に、全データの目的変数値より近傍データの目的変数値の方が類似しているか否かの判定を行い、近傍類似データフラグと近傍類似データと類似度の抽出を行う類似データ評価処理を行う（ステップ７０４：図８Ａ参照）。例えば、目的変数Ｏ［１］＝“預貯金”、近傍データがＤ［２］，Ｄ［３］，Ｄ［ＮＤ］の場合では、近傍データの目的変数値ＤＯ［２］［１］＝１７８５，ＤＯ［３］［１］＝２６１２，ＤＯ［ＮＤ］［１］＝３１４７について判定する。

次に、近傍類似データフラグをもとに近傍類似データ有無判断の処理を行う（ステップ７０５）。近傍類似データフラグが“ＴＲＵＥ”の場合は、似ているとして、次のステップ７０６の出力処理を行い、“ＦＡＬＳＥ”の場合は、似ていないとして、新たな説明変数の組合せを対象として処理を繰り返す。

近傍類似データフラグが“ＴＲＵＥ”の場合は、個別データＤ［ｉ］と、ステップ７０２で選ばれた説明変数の組合せＥと、ステップ７０４で求めた近傍類似データと類似度の組を出力し（ステップ７０６：図９参照）、新たな説明変数の組合せを対象として処理を繰り返す。

図８Ａは、類似データ評価処理７０４の処理例を示すフローチャートである。類似データ評価処理７０４では、全データの目的変数値より近傍データの目的変数値の方が類似しているかの判定を行い、近傍類似データフラグと近傍類似データと類似度を抽出する。

この処理例では、類似しているかの判定手法として、目的変数値の標準偏差の比較を行う。

初めに、全データの目的変数値ＤＯ［ｘ］［ｊ］（１≦ｘ≦ＮＤ）の標準偏差σと、近傍データの目的変数値ＤＯ［ｘ］［ｊ］（Ｄ［ｘ］∈近傍データ）の標準偏差σ’を算出する（ステップ８０１）。ただし、評価する目的変数Ｏ［ｊ］のインデックス値ｊ（１≦ｊ≦ＮＯのいずれかの値）は、事前に設定されているものとする。

次に、類似データ判定閾値×σとσ’を比較する（ステップ８０２）。ただし、類似データ判定閾値とは、全データの目的変数値より近傍データの目的変数値の方が類似しているか、すなわち、どの程度まで近傍データの目的変数値の標準偏差が低ければ類似データと判定するかの値であり、事前に設定されているものとする。

類似データ判定閾値×σがσ’以上の場合は、分散が小さい（集中している）として、近傍類似データフラグに“ＴＲＵＥ”を代入して、近傍類似データに近傍データを代入する（ステップ８０３）。

次に、全標本データの中からランダムに近傍データ数閾値個のデータを選んだ時に、選ばれたデータの目的変数値の標準偏差が近傍データの目的変数値の標準偏差σ’以下となる確率を、類似度として算出する（ステップ８０４：図８Ｂ参照）。

類似データ判定閾値×σがσ’未満の場合は、分散が大きい（分散している）として、近傍類似データフラグに“ＦＡＬＳＥ”を代入する（ステップ８０５）。

図８Ｂは、類似度の算出処理８０４の処理例を示すフローチャートである。類似度の算出処理８０４とは、全データの目的変数値より近傍データの目的変数値の方が類似している度合いを算出する処理であり、例えば、全データの中からランダムに近傍データ数閾値個のデータを選択した時に、選択したデータの目的変数値の標準偏差が近傍データの目的変数値の標準偏差以下となる確率を、類似度として算出する処理である。

初めに、類似回数値である変数ｃに０を代入して、類似回数値を初期化する（ステップ８１１）。

次に、ランダムなデータ選択を十分な回数繰り返すために、変数ｋを１からモンテカルロシミュレーション回数閾値までインクリメントしてループ処理を行う（ステップ８１２）。ただし、モンテカルロシミュレーション回数閾値とは、ランダムなデータ選択を何回繰り返すかの値であり、事前に設定されているものとする。

次に、全標本データの中からランダムに近傍データ数閾値個のデータを選ぶ（ステップ８１３）。

次に、前ステップで選ばれたデータＤ［ｘ］の目的変数値ＤＯ［ｘ］［ｊ］の標準偏差σ”を計算する（ステップ８１４）。ただし、評価する目的変数Ｏ［ｊ］のインデックス値ｊは、類似データ評価処理のステップ８０１と同じ値である。

次に、選ばれたデータの目的変数値の標準偏差σ”と近傍データの目的変数値の標準偏差σ’を比較する（ステップ８１５）。

選ばれたデータの目的変数値の標準偏差σ”が近傍データの目的変数値の標準偏差σ’以下の場合、変数ｃにｃ＋１を代入して、類似回数値をインクリメントする（ステップ８１６）。

ステップ８１３からステップ８１６までのモンテカルロシミュレーションを、モンテカルロシミュレーション回数閾値だけ繰り返す。

次に、類似回数値をモンテカルロシミュレーション回数閾値で割って、類似度を算出する（ステップ８１７）。

類似度の算出処理８０４では、モンテカルロシミュレーションをモンテカルロシミュレーション回数閾値だけ繰り返す中で、ランダムに選ばれたデータの方がより類似している場合に限り、類似回数値をインクリメントしている。そのため、類似回数値は０以上モンテカルロシミュレーション回数閾値以下の値となるので、類似度は０以上１以下の値である。そして、類似度の値が小さいほど、全データの目的変数値より近傍データの目的変数値の方が類似していることになる。

ただし、類似データ評価処理７０４と類似度の算出処理８０４では、目的変数値の標準偏差の代わりに、目的変数値の順位の標準偏差を用いてもよい。目的変数値の順位とは、全標本データを目的変数値の昇順または降順でソートした時に、順番に１位からＮＤ位まで付けられる位の値である。目的変数値の順位の標準偏差とは、位の値を変数値とみなして求めた標準偏差である。目的変数値の順位の標準偏差を用いた場合の類似度は、全標本データの中からランダムに近傍データ数閾値個のデータを選んだ時に、選ばれたデータの目的変数値の順位の標準偏差が近傍データの目的変数値の順位の標準偏差以下となる確率である。

類似度は、目的変数値の標準偏差を用いた場合でも、目的変数値の順位の標準偏差を用いた場合でも、０以上１以下の値であり、値が小さいほどより類似していることを示す。

図８Ｃは、目的変数値の度数分布を示す図であり、全エリアでは分散が大きく、近傍エリアでは分散が小さい例を示している。

図９の表９０１は、近傍類似データ抽出手段１４における処理を行うことで出力される分析結果のデータ例を示している。図９の各行には、近傍類似データ抽出処理のステップ７０６で出力された、個別データと説明変数組合せと近傍類似データと類似度との組が格納されている。

例えば、１行目は、個別データＤ［１］＝“Ａ町１丁目”に、説明変数Ｅ［２］＝“６５歳以上比率”とＥ［ＮＥ］＝“１０００万円以上所得比率”の組合せで構成される空間において、近傍類似データＤ［７］，Ｄ［１２５］，Ｄ［１６５］，Ｄ［３４１］，Ｄ［４６７］が存在して、類似度が０．０８３であることを表している。ただし、近傍類似データが５個であることからも分かるように、近傍データ抽出処理において近傍データ数閾値が５の場合の分析結果例である。

図１０は、局所近接データ抽出手段１６におけるデータ処理例を示すフローチャートである。
局所近接データ抽出手段１６では、個別データ毎に、局所近接データを出力する。

局所近接データ抽出処理とは、近傍類似データに基づいた計量距離を用いて、標本データの周囲に存在する局所近接データを抽出する処理であり、例えば、近傍類似データに基づいた計量距離として、説明変数組合せ毎の近傍類似データが各クラスタであり、近傍類似データの説明変数値がクラスタのデータであり、近傍類似データと組になっている類似度を単調減少関数で変換した値がクラスタの重みである、クラスタ構造に基づいた計量距離を用いて、標本データの周囲に存在する局所近接データを抽出する処理である。

初めに、個別データ毎に処理を繰り返すために、変数ｉを１からデータの個数ＮＤまでインクリメントしてループ処理を行う（ステップ１００１）。

次に、近傍類似データ抽出手段１４で出力される分析結果のうち、個別データＤ［ｉ］を含む各行について、すなわち各説明変数組合せについて、近傍データ数閾値個の近傍類似データＤ［ｘ］を各クラスタとして、近傍データ数閾値個の点（ＤＥ［ｘ］［１］，・・・，ＤＥ［ｘ］［ＮＥ］）をクラスタのデータとして、類似度をクラスタの重みに変換する（ステップ１００２）。

ただし、類似度Ｐをクラスタの重みＷに変換する式Ｗ＝Ｆ（Ｐ）は、Ｐが増加するとともにＷが単調減少となる関数Ｆであれば何でもよく、例えばＦ（Ｐ）＝１／Ｐがある。

例えば、図９の近傍類似データ抽出手段１４で出力される分析結果のデータ例で、個別データＤ［１］の場合では、クラスタ数は２組であり、１組目のクラスタのデータは｛（ＤＥ［ｘ］［１］，・・・，ＤＥ［ｘ］［ＮＥ］）｜ｘ∈｛７，１２５，１６５，３４１，４６７｝｝であり、１組目のクラスタの重みは１／０．０８３＝１２．０４であり、２組目のクラスタのデータは｛（ＤＥ［ｘ］［１］，・・・，ＤＥ［ｘ］［ＮＥ］）｜ｘ∈｛２，５，１４，２８，５２｝｝であり、２組目のクラスタの重みは１／０．０９５＝１０．５２である。

次に、近傍類似データに基づいた計量距離を用いて、局所近接データとして個別データＤ［ｉ］から距離が近い順に局所近接データ数閾値個目までのデータを代入する（ステップ１００３）。

ただし、近傍類似データに基づいた計量距離とは、説明変数組合せ毎の近傍類似データを各クラスタとして、前ステップ１００２で求めたクラスタのデータとクラスタの重みを用いた場合の、特許文献２に記載のクラスタ構造に基づいた計量距離である。また、局所近接データ数閾値とは、近傍類似データに基づいた計量距離を用いて、個別データから距離が近い順に何個目までのデータを局所近接データとするかの値であり、事前に設定されているものとする。

次に、個別データＤ［ｉ］と、ステップ１００３で求めた局所近接データの組を出力し（ステップ１００４：図１１参照）、新たな個別データを対象として処理を繰り返す。

以上のように、局所近接データ抽出手段１６では、各クラスタ内でのデータ間の距離を最小にする計量空間で、局所近接データを抽出している。その際、より類似したクラスタの重みを重くすることで、クラスタが抽出された説明変数軸の分散を抑え、これらの説明変数軸でより近いデータが局所近接データとして抽出されやすくなっている。

図１１の表１１０１は、局所近接データ抽出手段１６における処理を行うことで出力される分析結果のデータ例を示している。図１１の各行には、局所近接データ抽出手段１６のステップ１００４で出力された、個別データと局所近接データとの組が格納されている。

例えば、１行目は、個別データＤ［１］＝“Ａ町１丁目”に、局所近接データＤ［５］，Ｄ［７］，Ｄ［５２］，Ｄ［１３３］，Ｄ［１６５］，Ｄ［２６１］，Ｄ［３４１］であることを表している。ただし、局所近接データが７個であることからも分かるように、局所近接データ抽出手段１６における処理において局所近接データ数閾値が７の場合の分析結果例である。３行目は、個別データＤ［３］＝“Ｂ町１丁目”に、局所近接データＤ［１１］，Ｄ［２８］，Ｄ［４８］，Ｄ［１２０］，Ｄ［１４０］，Ｄ［２７５］，Ｄ［３７０］であることを表している。

図１２Ａは、ポテンシャル評価手段１５による処理例を示すフローチャートである。
ポテンシャル評価手段１５では、個別データ毎に、ポテンシャル期待値とポテンシャル高低評価値とポテンシャル乖離評価値を出力する。

初めに、近傍類似データ抽出手段１４の処理を行って、個別データ毎に、近傍類似データが存在する空間を作る説明変数組合せと、近傍類似データと、類似度を取得する（ステップ１２０１）。

次に、局所近接データ抽出手段１６の処理を行って、個別データ毎に、局所近接データを取得する（ステップ１２０２）。

次に、個別データ毎に、局所近接データの目的変数値から、個別データの目的変数値の期待値であるポテンシャル期待値を算出して出力する、ポテンシャルスコアリング処理を行う（ステップ１２０３）。

ポテンシャルスコアリング処理の処理例としては、個別データＤ［ｉ］の全ての局所近接データＤ［ｘ］の目的変数値ＤＯ［ｘ］［ｊ］の平均値を、ポテンシャル期待値Ｓ［ｉ］［ｊ］として出力する。ただし、評価する目的変数Ｏ［ｊ］のインデックス値ｊは、類似データ評価処理のステップ８０１と同じ値である。

次に、個別データ毎に、個別データのポテンシャル期待値が全データのポテンシャル期待値と比較して、相対的に高いか低いか判定してポテンシャル高低評価値として出力する、ポテンシャル高低評価処理を行う（ステップ１２０４）。

ポテンシャル高低評価処理の処理例としては、全データのポテンシャル期待値Ｓ［ｘ］［ｊ］（１≦ｘ≦ＮＤ）の平均値μと標準偏差σを算出して、個別データのポテンシャル期待値Ｓ［ｉ］［ｊ］＞μ＋σならばポテンシャル高低評価値として「○（高ポテンシャル）」を、μ−σ≦Ｓ［ｉ］［ｊ］≦μ＋σならばポテンシャル高低評価値として「△（中ポテンシャル）」を、Ｓ［ｉ］［ｊ］＜μ−σならばポテンシャル高低評価値として「×（低ポテンシャル）」を出力する。

次に、個別データ毎に、個別データのポテンシャル期待値が個別データの目的変数値と比較して、相対的に高いか低いか判定してポテンシャル乖離評価値として出力する、ポテンシャル乖離評価処理を行う（ステップ１２０５）。

ポテンシャル乖離評価処理の処理例としては、全データの目的変数値ＤＯ［ｘ］［ｊ］（１≦ｘ≦ＮＤ）の標準偏差σを算出して、個別データのポテンシャル期待値Ｓ［ｉ］［ｊ］＞ＤＯ［ｉ］［ｊ］＋σならばポテンシャル乖離評価値として「○（ポテンシャル高方乖離）」を、ＤＯ［ｉ］［ｊ］−σ≦Ｓ［ｉ］［ｊ］≦ＤＯ［ｉ］［ｊ］＋σならばポテンシャル乖離評価値として「△（ポテンシャル乖離なし）」を、Ｓ［ｉ］［ｊ］＜ＤＯ［ｉ］［ｊ］−σならばポテンシャル乖離評価値として「×（ポテンシャル低方乖離）」を出力する。

ただし、ポテンシャル評価手段１５は、ステップ１２０３までの処理を実行して、個別データ毎に、ポテンシャル期待値だけを出力してもよい。

また、ポテンシャル評価手段１５は、ステップ１２０３ではポテンシャル期待値を出力せずに、ステップ１２０４までの処理を実行して、個別データ毎に、ポテンシャル高低評価値だけを出力してもよい。

また、ポテンシャル評価手段１５は、ステップ１２０３ではポテンシャル期待値を出力せずに、ステップ１２０４の処理を実行せずに、個別データ毎に、ポテンシャル乖離評価値だけを出力してもよい。

図１２Ｂは、ステップ１２０４、１２０５の処理の例を示す図であり、ポテンシャル期待値とポテンシャル高低評価・ポテンシャル乖離評価の関係を示す図である。ポテンシャル期待値が図１３のＤ［１］のＳ［１］［１］では２８６０であり、図１２Ａのステップ１２０４で求められるポテンシャル高低評価は、ポテンシャル期待値の分布と比較して中ポテンシャル、図１２Ａのステップ１２０５で求められるポテンシャル乖離評価は、目的変数値ＤＯ［１］［１］と比較してポテンシャル高方乖離と評価される。

図１２Ｃは、ステップ１２０１、１２０２の処理の例を示す図であり、近傍類似データと局所近接データの関係を示す図である。個別データＤ［１］の場合の処理の例であり、図１２Ｃの散布図（ａ）は、図９の近傍類似データ抽出手段１４で出力される分析結果のデータをプロットした例であり、図１２Ｃの散布図（ｂ）は、図１１の局所近接データ抽出手段１６で出力される分析結果のデータをプロットした例である。

散布図（ａ）では、個別データＤ［１］を中心として、近傍類似データが各説明変数軸方向に十字状に存在している。これは、個別データＤ［１］には、２組の説明変数組合せと近傍類似データとの組が存在しているからである。

散布図（ａ）はユークリッド距離空間またはマハラノビス距離空間であり、散布図（ｂ）は近傍類似データに基づいた計量距離空間である。実際には、近傍類似データに基づいた計量距離空間には、他の説明変数軸も存在し、説明変数軸間の相関も考慮されるが、それらを除いたイメージを図示している。より類似したクラスタの重みを重くすることで、クラスタが抽出された説明変数軸の分散を抑え、すなわち軸収縮が大きくなり、これらの説明変数軸でより近いデータが局所近接データとして抽出されやすくなっている。

散布図（ｂ）では、個別データＤ［１］を中心として、局所近接データが同心円状に存在している。近傍類似データであったデータＤ［２］，Ｄ［１４］，Ｄ［２８］，Ｄ［１２５］，Ｄ［４６７］が、局所近接データとなっていない。一方で、近傍類似データでなかったデータＤ［１３３］，Ｄ［２６１］が、局所近接データとなっている。これは、各説明変数軸では、Ｄ［２］，Ｄ［１４］，Ｄ［２８］，Ｄ［１２５］，Ｄ［４６７］よりもＤ［１３３］，Ｄ［２６１］はＤ［１］から遠かったが、両説明変数軸による近傍類似データに基づいた計量距離では、Ｄ［２］，Ｄ［１４］，Ｄ［２８］，Ｄ［１２５］，Ｄ［４６７］よりもＤ［１３３］，Ｄ［２６１］はＤ［１］に近いからである。

図１３の表１３０１は、ポテンシャル評価手段１５の処理を行うことで出力される分析結果のデータ例を示している。

各行には、個別データとポテンシャル期待値とポテンシャル高低評価値とポテンシャル乖離評価値の組が格納されている。

例えば１行目は、個別データＤ［１］＝“Ａ町１丁目”について、ポテンシャル期待値Ｓ［１］［１］＝2860、ポテンシャル高低評価値が「△（中ポテンシャル）」、ポテンシャル乖離評価値が「○（ポテンシャル高方乖離）」であることを表している。

図１３のポテンシャル期待値は、図１２Ａのステップ１２０３で求められ、図１３のポテンシャル高低評価値は、図１２Ａのステップ１２０４で求められ、図１３のポテンシャル乖離評価値は、図１２Ａのステップ１２０５で求められる。

図１４は、預貯金が似ているエリアを分析する例を示す図であり、図１４（ａ）は東京都、図１４（ｂ）は神奈川県のデータの例とする。横軸はＥ［２］＝“６５歳以上比率”であり、縦軸はＥ［ＮＥ］＝“１０００万円以上所得比率”である。

図１４（ａ）で、東京都の各エリアをプロットし、説明変数が近くて預貯金が似ているＡＲ２１とＡＲ２２とが各局所近接エリアである。これらＡＲ２１とＡＲ２２の領域を描画すると、局所近接エリアを可視化することができる。

図１４（ｂ）で、神奈川県の各エリアをプロットし、ＡＲ２１とＡＲ２２の領域を描画する。領域に含まれる神奈川県のエリアの預貯金については、東京都の当該局所近接エリアの預貯金から、精度よく予測することができる。

図２１（ｂ）は、目的変数ｙと説明変数ｘとの分布がばらついているケースを示す図であり、さらに、本実施の形態を適用した効果を示す図である。例えば、ＡＲ１では、ｘ１という説明変数が近く、さらにｙ１という目的変数が似た局所近接データとなっていることが分かる。ＡＲ１から３までのそれぞれの局所近接データに基づいて、局所近接データの目的変数からポテンシャル期待値をスコアリングすることで、多数個の説明変数や外れ値や偏りが存在する場合でも、ポテンシャル期待値は、実データの目的変数へのフィッティングを良くすることができる。

以上のように、本実施の形態によるデータ分析技術によれば、個別データ毎に、説明変数を組合せて目的変数を説明できる近傍類似データを抽出して、近傍類似データが抽出された説明変数軸でより近いデータを局所近接データとして抽出するという、二段階のデータの抽出を経てから、局所近接データの目的変数からポテンシャル期待値をスコアリングすることで、近傍類似データの目的変数からポテンシャル期待値をスコアリングする場合よりも、複数の説明変数軸でより近いデータになるため、ポテンシャル期待値は、実データの目的変数へのフィッティングがさらに良くなる。多数個の説明変数や外れ値や偏りが存在する場合でも、ポテンシャル期待値は、実データの目的変数へのフィッティングが良い。

そのため、ある顧客特徴を持つ顧客の取引見込を、似た顧客特徴を持つ他の顧客の取引実績から、精度よく推定できて、ポテンシャル高低評価値で把握できる。さらに、ある顧客特徴を持つ顧客の取引実績が、他の顧客と比較して多いのか少ないのかも、精度よく評価できて、ポテンシャル乖離評価値で把握できる。

（第２の実施の形態）
第２の実施の形態について、第１の実施の形態にならって説明する。図１から図６までは、第１の実施の形態と同様に参照できる。尚、図１の局所近接データ抽出手段１６を有していない。

図１５は、近傍類似データ抽出処理の処理例を示すフローチャートである。近傍類似データ抽出処理では、近傍類似データが存在する空間を作る説明変数組合せと、近傍類似データを抽出する。

初めに、説明変数組合せの要素数ごとに処理を繰り返すために変数ｒを１から説明変数の個数ＮＥまでインクリメントしてループ処理を行う（ステップ７０１ａ）。次に、ＣＯＭＢ［ｒ］に含まれる全ての説明変数の組合せＥごとに処理を行うようにループ処理を行う（ステップ７０２ａ）。図６のように求めたＣＯＭＢ［１］，ＣＯＭＢ［２］，ＣＯＭＢ［３］，ＣＯＭＢ［４］までの中からｒが小さい順番に１つ選ぶ。ステップ７０１ａとステップ７０２ａとの処理によって、説明変数の要素数の少ない組合せから、つまり下位から上位へと順番に処理を行っていくことになる。

次に、説明変数の組合せＥで構成される空間において、個別データＤ［ｉ］の周囲に近傍データが存在するか否かの判定を行い、近傍データがあることを示す近傍データフラグと近傍データとの抽出を行う近傍データ抽出処理を行う（ステップ７０３ａ：図１６Ａ参照）。例えば、個別データＤ[１]、説明変数の組合せＥ＝｛Ｅ［１］｝の場合では、“Ａ町１丁目”の“２０歳未満比率”である０．２８６に近いデータが近傍データとして抽出される。

次に、近傍データフラグをもとに、抽出した近傍データの有無判断の処理を行う（ステップ７０４ａ）。近傍データフラグが“ＴＲＵＥ”の場合は、ステップ７０３ａで抽出した近傍データとともにステップ７０５ａの類似データ評価処理を行う。

そして、近傍データフラグが“ＦＡＬＳＥ”の場合は、新たな説明変数の組合せを対象として処理を繰り返す。

近傍データフラグが“ＴＲＵＥ”の場合は、全データの目的変数値より近傍データの目的変数値の方が類似しているか否かの判定を行い、近傍類似データフラグと近傍類似データの抽出を行う類似データ評価処理を行う（ステップ７０５ａ：図１７Ａ参照）。例えば、目的変数Ｏ［１］＝“預貯金”、近傍データがＤ［２］，Ｄ［３］，Ｄ［ＮＤ］の場合では、近傍データの目的変数値ＤＯ［２］［１］＝１７８５，ＤＯ［３］［１］＝２６１２，ＤＯ［ＮＤ］［１］＝３１４７について判定する。

次に、近傍類似データフラグをもとに近傍類似データ有無判断の処理を行う（ステップ７０６ａ）。近傍類似データフラグが“ＴＲＵＥ”の場合は、似ているとして、次のステップ７０７ａの上位説明変数組合せ削除処理を行い、“ＦＡＬＳＥ”の場合は、似ていないとして、新たな説明変数の組合せを対象として処理を繰り返す。

近傍類似データフラグが“ＴＲＵＥ”の場合は、説明変数の組合せＥに対して、上位に存在する説明変数の組合せを削除する上位説明変数組合せ削除処理を行う（ステップ７０７ａ：図１８参照）。例えば、Ｅ＝｛Ｅ［１］｝の場合では、図６の領域ＤＬ１内の説明変数の組合せを削除する。

次に、個別データＤ［ｉ］と、ステップ７０２ａで選ばれた説明変数の組合せＥと、ステップ７０５ａで求めた近傍類似データの組を出力し（ステップ７０８ａ：図１９Ａ参照）、新たな説明変数の組合せを対象として処理を繰り返す。

図１６Ａは、近傍データ抽出処理７０３ａの処理例を示すフローチャートである。近傍データ抽出処理７０３ａでは、説明変数の組合せＥで構成される空間において、個別データＤ［ｉ］の周囲に近傍データが存在するか判定を行い、近傍データフラグと近傍データを抽出する。

この処理例では、近傍データが存在するかの判定手法として、上記非特許文献１に記載のＬＯＦ（ＬｏｃａｌＯｕｔｌｉｅｒＦａｃｔｏｒ）を利用することができる。ただし、説明変数の組合せＥによって構成される空間において、２個のデータＤ［ｘ］とＤ［ｙ］（１≦ｘ≦ｙ≦ＮＤ）の距離とは、Ｅ＝｛Ｅ［ｅ１］，・・・，Ｅ［ｅＮ］｝とすると、点（ＤＥ［ｘ］［ｅ１］，・・・，ＤＥ［ｘ］［ｅＮ］）と点（ＤＥ［ｙ］［ｅ１］，・・・，ＤＥ［ｙ］［ｅＮ］）のユークリッド距離またはマハラノビス距離である。

初めに、説明変数の組合せＥで構成される空間において、個別データＤ［ｉ］と説明変数が同じ値の組合せであるデータ（個別データＤ［ｉ］自身は除く）について、データの個数を変数Ｎに代入する（ステップ８０１ａ）。

次に、Ｎと近傍データ数閾値を比較する（ステップ８０２ａ）。ただし、近傍データ数閾値とは、説明変数の組合せＥで構成される空間において、個別データから距離が近い順に何個目までのデータを近傍データとするかの値であり、事前に設定されているものとする。

Ｎが近傍データ数閾値以上の場合は、近傍データフラグに“ＴＲＵＥ”を代入して、説明変数の組合せＥで構成される空間において、近傍データとして個別データＤ［ｉ］と説明変数が同じ値の組合せであるデータを代入する（ステップ８０３ａ）。

Ｎが近傍データ数閾値未満の場合は、説明変数の組合せＥで構成される空間において、個別データＤ［ｉ］と周囲のデータからＬＯＦの算出を行う（ステップ８０４ａ）。ＬＯＦは、非特許文献１に算出方法が記載されており、個別データＤ［ｉ］の局所密度と周囲のデータの局所密度の比率である。個別データＤ［ｉ］の局所密度の方がより高ければ、ＬＯＦはより小さい値となる特徴がある。

次に、ＬＯＦと近傍データ判定閾値とを比較する（ステップ８０５ａ）。ただし、近傍データ判定閾値とは、説明変数の組合せＥで構成される空間において、個別データの周囲にデータが集中しているか、すなわちどの程度まで個別データの局所密度が高ければ近傍データが存在すると判定するかの値であり、事前に設定されているものとする。

ＬＯＦが近傍データ判定閾値以下の場合（集中している）は、近傍データフラグに“ＴＲＵＥ”を代入して、説明変数の組合せＥで構成される空間において、近傍データとして個別データＤ［ｉ］から距離が近い順に近傍データ数閾値個目までのデータを代入する（ステップ８０６ａ）。ＬＯＦが近傍データ判定閾値超えの場合（分散している）は、近傍データフラグに“ＦＡＬＳＥ”を代入する（ステップ８０７ａ）。

図１６Ｂは、ＬＯＦの算出時に用いる局所密度の原理を示す図であり、説明変数の組合せＥ＝｛Ｅ［１］，Ｅ［３］｝で構成される空間において、全データをプロットした図である。図の領域ＡＲ３１は、データが集中しており局所密度が高く、領域ＡＲ３２は、データが閑散としており局所密度が低い。

図１７Ａは、類似データ評価処理７０５ａの処理例を示すフローチャートである。類似データ評価処理７０５ａでは、全データの目的変数値より近傍データの目的変数値の方が類似しているかの判定を行い、近傍類似データフラグと近傍類似データとを抽出する。

この処理例では、類似しているかの判定手法として、目的変数値の標準偏差の比較を行う。
初めに、全データの目的変数値ＤＯ［ｘ］［ｊ］（１≦ｘ≦ＮＤ）の標準偏差σと、近傍データの目的変数値ＤＯ［ｘ］［ｊ］（Ｄ［ｘ］∈近傍データ）の標準偏差σ’を算出する（ステップ９０１ａ）。ただし、評価する目的変数Ｏ［ｊ］のインデックス値ｊ（１≦ｊ≦ＮＯのいずれかの値）は、事前に設定されているものとする。

次に、類似データ判定閾値×σとσ’を比較する（ステップ９０２ａ）。ただし、類似データ判定閾値とは、全データの目的変数値より近傍データの目的変数値の方が類似しているか、すなわち、どの程度まで近傍データの目的変数値の標準偏差が低ければ類似データと判定するかの値であり、事前に設定されているものとする。

類似データ判定閾値×σがσ’以上の場合は、分散が小さい（集中している）として、近傍類似データフラグに“ＴＲＵＥ”を代入して、近傍類似データに近傍データを代入する（ステップ９０３ａ）。

類似データ判定閾値×σがσ’未満の場合は、分散が大きい（分散している）として、近傍類似データフラグに“ＦＡＬＳＥ”を代入する（ステップ９０４ａ）。

図１７Ｂは、目的変数値の度数分布を示す図であり、全エリアでは分散が大きく、近傍エリアでは分散が小さい例を示している。

図１８は、上位説明変数組合せ削除処理７０７ａの処理例を示すフローチャートである。
上位説明変数組合せ削除処理７０７ａでは、説明変数の組合せＥに対して、上位に存在する説明変数の組合せを削除する。

初めに、説明変数組合せの要素数ごとに処理を繰り返すために変数ｒ’をｒ＋１から説明変数の個数ＮＥまでインクリメントしてループ処理を行う（ステップ１００１ａ）。

次に、ＣＯＭＢ［ｒ’］に含まれる全ての説明変数の組合せＥ’ごとに処理を行うようにループ処理を行う（ステップ１００２ａ）。

次に、ＥとＥ’を比較して、ＥがＥ’のサブ空間になっているか否かを判定する（ステップ１００３ａ）。ＥがＥ’のサブ空間である場合は、次のステップ１００４ａの処理を行い、ＥがＥ’のサブ空間でない場合は、新たな説明変数の組合せを対象として処理を繰り返す。

ＣＯＭＢ［ｒ’］からＥ’を削除して（ステップ１００４ａ）、新たな説明変数の組合せを対象として処理を繰り返す。例えば、Ｅ＝｛Ｅ［１］｝の場合では、図６の領域ＤＬ１内の説明変数の組合せを削除することで、図１５のループ処理を削減できる。

図１９Ａの表１１０１ａは、近傍類似データ抽出手段１４における処理を行うことで出力される分析結果のデータ例を示している。図１９Ａの各行には、近傍類似データ抽出処理のステップ７０８ａで出力された、個別データと説明変数組合せと近傍類似データとの組が格納されている。

例えば、１行目は、個別データＤ［１］＝“Ａ町１丁目”に、説明変数Ｅ［２］＝“６５歳以上比率”とＥ［ＮＥ］＝“１０００万円以上所得比率”の組合せで構成される空間において、近傍類似データＤ［７］，Ｄ［１２５］，Ｄ［１６５］，Ｄ［３４１］，Ｄ［４６７］が存在することを表している。ただし、近傍類似データが５個であることからも分かるように、近傍データ抽出処理において近傍データ数閾値が５の場合の分析結果例である。

図１９Ｂの表１１０２ａに示すように、図１９Ａの表１１０１ａから説明変数組合せが同じ行だけを抽出することで、同じ説明変数の組合せで構成される空間において、異なる個別データに近傍類似データが存在することも分かる。

図２０Ａは、ポテンシャル評価手段１５による処理例を示すフローチャートである。
ポテンシャル評価手段１５では、個別データ毎に、ポテンシャル期待値とポテンシャル高低評価値とポテンシャル乖離評価値を出力する。

初めに、近傍類似データ抽出手段１４の処理を行って、個別データ毎に、近傍類似データが存在する空間を作る説明変数組合せと、近傍類似データを取得する（ステップ１２０１ａ）。

次に、個別データ毎に、近傍類似データの目的変数値から、個別データの目的変数値の期待値であるポテンシャル期待値を算出して出力する、ポテンシャルスコアリング処理を行う（ステップ１２０２ａ）。

ポテンシャルスコアリング処理の処理例としては、個別データＤ［ｉ］の全ての近傍類似データＤ［ｘ］の目的変数値ＤＯ［ｘ］［ｊ］の平均値を、ポテンシャル期待値Ｓ［ｉ］［ｊ］として出力する。ただし、評価する目的変数Ｏ［ｊ］のインデックス値ｊは、類似データ評価処理のステップ９０１ａと同じ値である。

次に、個別データ毎に、個別データのポテンシャル期待値が全データのポテンシャル期待値と比較して、相対的に高いか低いか判定してポテンシャル高低評価値として出力する、ポテンシャル高低評価処理を行う（ステップ１２０３ａ）。

次に、個別データ毎に、個別データのポテンシャル期待値が個別データの目的変数値と比較して、相対的に高いか低いか判定してポテンシャル乖離評価値として出力する、ポテンシャル乖離評価処理を行う（ステップ１２０４ａ）。

ただし、ポテンシャル評価手段１５は、ステップ１２０２ａまでの処理を実行して、個別データ毎に、ポテンシャル期待値だけを出力してもよい。

また、ポテンシャル評価手段１５は、ステップ１２０２ａではポテンシャル期待値を出力せずに、ステップ１２０３ａまでの処理を実行して、個別データ毎に、ポテンシャル高低評価値だけを出力してもよい。

また、ポテンシャル評価手段１５は、ステップ１２０２ａではポテンシャル期待値を出力せずに、ステップ１２０３ａの処理を実行せずに、個別データ毎に、ポテンシャル乖離評価値だけを出力してもよい。

図２０Ｂは、ステップ１２０３ａ、１２０４ａの処理の例を示す図であり、ポテンシャル期待値とポテンシャル高低評価・ポテンシャル乖離評価の関係を示す図である。ポテンシャル期待値が図１３のＤ[１]のＳ[１][１]では２８６０であり、図２０Ａのステップ１２０３ａで求められるポテンシャル高低評価は、ポテンシャル期待値の分布と比較して中ポテンシャル、図２０Ａのステップ１２０４ａで求められるポテンシャル乖離評価は、目的変数値ＤＯ[１][１]と比較してポテンシャル高方乖離と評価される。

以上のように、本実施の形態によるデータ分析技術によれば、個別データ毎に、説明変数を組合せて目的変数を説明できる近傍類似データを発見して、近傍類似データの目的変数からポテンシャル期待値をスコアリングすることで、多数個の説明変数や外れ値や偏りが存在する場合でも、ポテンシャル期待値は、実データの目的変数へのフィッティングが良い。

処理および制御は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）によるソフトウェア処理、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）やＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）によるハードウェア処理によって実現することができる。

上記の実施の形態において、添付図面に図示されている構成等については、これらに限定されるものではなく、本発明の効果を発揮する範囲内で適宜変更することが可能である。その他、本発明の目的の範囲を逸脱しない限りにおいて適宜変更して実施することが可能である。また、本発明の各構成要素は、任意に取捨選択することができ、取捨選択した構成を具備する発明も本発明に含まれるものである。

また、本実施の形態で説明した機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。尚、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。

本発明は、分析システムに利用可能である。

１１…分析データベース（ＤＢ）
１２…分析サーバ
１３…クライアント端末
１４…近傍類似データ抽出手段
１５…ポテンシャル評価手段
１６…局所近接データ抽出手段
２１…目的変数テーブル
３１…説明変数テーブル

Claims

標本データ毎の目的変数を示す目的変数テーブルと、標本データ毎の説明変数を示す説明変数テーブルとを保存した分析データベースを参照し、
前記標本データ毎に、前記説明変数の組合せ毎に、前記説明変数の組合せで構成される空間において、前記標本データの周囲に存在し前記標本データからの距離が近い順番に所定数だけ得られる近傍データを抽出する近傍データ抽出処理と、
前記標本データ毎に、事前に求められた類似データ判定閾値を基準として、前記近傍データの目的変数値の標準偏差が、前記類似データ判定閾値と全データの目的変数値の標準偏差との積より小さいか否かに基づいて全データの目的変数値より前記近傍データの目的変数値の方が類似しているか否かを判定して、近傍データかつ類似データであると判定された近傍類似データと類似度とを抽出する類似データ抽出処理と、をコンピュータに実行させるためのデータ分析プログラム。
さらに、
前記全データの中からランダムに近傍データ数閾値個のデータを選択した時に、選択したデータの目的変数値の標準偏差が前記近傍データの目的変数値の標準偏差以下となる確率を、前記類似度として算出する類似度の算出処理を、コンピュータに実行させるための請求項１に記載のデータ分析プログラム。
さらに、前記近傍類似データが存在する空間を作る前記説明変数の組合せと、前記近傍類似データと前記類似度との組と、を出力する出力処理を、コンピュータに実行させるための請求項１又は２に記載のデータ分析プログラム。
前記標本データ毎に、
前記近傍類似データに基づいた計量距離を用いて、前記標本データの周囲に存在するデータを抽出する局所近傍データ抽出処理を、コンピュータに実行させるための請求項１から３までのいずれか１項に記載のデータ分析プログラム。
さらに、
前記近傍類似データに基づいた前記計量距離として、前記説明変数の組合せ毎の前記近傍類似データが各クラスタであり、前記近傍類似データの説明変数値が前記クラスタのデータであり、前記近傍類似データと組になっている前記類似度を単調減少関数で変換した値が前記クラスタの重みである、クラスタ構造に基づいた計量距離を用いる局所近傍データ抽出処理を、コンピュータに実行させるための請求項４に記載のデータ分析プログラム。
さらに、前記局所近傍データ抽出処理の結果得られた前記局所近傍データを出力する出力処理を、コンピュータに実行させるための請求項４又は５に記載のデータ分析プログラム。
前記標本データ毎に、
前記局所近傍データの目的変数値から、前記標本データの目的変数値の期待値であるポテンシャル期待値を算出して出力する、ポテンシャルスコアリング処理を行うことを特徴とする請求項４から６までのいずれか１項に記載のデータ分析プログラム。
前記標本データ毎に、
前記局所近傍データの目的変数値から、前記標本データの目的変数値の期待値であるポテンシャル期待値を算出する、ポテンシャルスコアリング処理と、
前記標本データの前記ポテンシャル期待値が全データのポテンシャル期待値と比較して、相対的に高いか低いか判定してポテンシャル高低評価値として出力する、ポテンシャル高低評価処理を行うことを特徴とする請求項４から７までのいずれか１項に記載のデータ分析プログラム。
前記標本データ毎に、
前記局所近傍データの目的変数値から、前記標本データの目的変数値の期待値であるポテンシャル期待値を算出する、ポテンシャルスコアリング処理と、
前記標本データの前記ポテンシャル期待値が前記標本データの目的変数値と比較して、相対的に高いか低いか判定してポテンシャル乖離評価値として出力する、ポテンシャル乖離評価処理を行うことを特徴とする請求項４から８までのいずれか１項に記載のデータ分析プログラム。
標本データ毎の目的変数を示す目的変数テーブルと、標本データ毎の説明変数を示す説明変数テーブルとを保存した分析データベースを参照し、
前記標本データ毎に、前記説明変数の組合せ毎に、前記説明変数の組合せで構成される空間において、前記標本データの周囲に存在し前記標本データからの距離が近い順番に所定数だけ得られる近傍データが存在するか判定して、前記近傍データを抽出する近傍データ抽出処理と、
前記標本データ毎に、事前に求められた類似データ判定閾値を基準として、前記近傍データの目的変数値の標準偏差が、前記類似データ判定閾値と全データの目的変数値の標準偏差との積より小さいか否かに基づいて全データの目的変数値より前記近傍データの目的変数値の方が類似しているか否かを判定して、近傍類似データを抽出する類似データ抽出処理と、をコンピュータに実行させるためのデータ分析プログラム。
さらに、前記近傍類似データが存在する空間を作る前記説明変数の組合せと、前記近傍類似データの組と、を出力する出力処理を、コンピュータに実行させるための請求項１０に記載のデータ分析プログラム。
前記近傍データ抽出処理を前記類似データ抽出処理に先立って実行することを特徴とする請求項１０又は１１に記載のデータ分析プログラム。
前記標本データ毎に、
前記近傍類似データの目的変数値から、前記標本データの目的変数値の期待値であるポテンシャル期待値を算出して出力する、ポテンシャルスコアリング処理を行うことを特徴とする請求項１０から１２までのいずれか１項に記載のデータ分析プログラム。
前記標本データ毎に、
前記近傍類似データの目的変数値から、前記標本データの目的変数値の期待値であるポテンシャル期待値を算出する、ポテンシャルスコアリング処理と、
前記標本データの前記ポテンシャル期待値が全データのポテンシャル期待値と比較して、相対的に高いか低いか判定してポテンシャル高低評価値として出力する、ポテンシャル高低評価処理を行うことを特徴とする請求項１０から１３までのいずれか１項に記載のデータ分析プログラム。
前記標本データ毎に、
前記近傍類似データの目的変数値から、前記標本データの目的変数値の期待値であるポテンシャル期待値を算出する、ポテンシャルスコアリング処理と、
前記標本データの前記ポテンシャル期待値が前記標本データの目的変数値と比較して、相対的に高いか低いか判定してポテンシャル乖離評価値として出力する、ポテンシャル乖離評価処理を行うことを特徴とする請求項１０から１４までのいずれか１項に記載のデータ分析プログラム。
標本データ毎の目的変数を示す目的変数テーブルと、標本データ毎の説明変数を示す説明変数テーブルとを保存した分析データベースを参照し、前記標本データ毎に、前記説明変数の組合せ毎に、
前記説明変数の組合せで構成される空間において、前記標本データの周囲に存在し前記標本データからの距離が近い順番に所定数だけ得られる近傍データが存在するか判定して、前記近傍データを抽出する近傍データ抽出処理部と、
前記標本データ毎に、事前に求められた類似データ判定閾値を基準として、前記近傍データの目的変数値の標準偏差が、前記類似データ判定閾値と全データの目的変数値の標準偏差との積より小さいか否かに基づいて全データの目的変数値より前記近傍データの目的変数値の方が類似しているか否かを判定して、近傍類似データを抽出する類似データ抽出処理部と
を有することを特徴とするデータ分析装置。