JP6300572B2 - データ分析プログラム、及びデータ分析装置 - Google Patents

データ分析プログラム、及びデータ分析装置 Download PDF

Info

Publication number
JP6300572B2
JP6300572B2 JP2014037302A JP2014037302A JP6300572B2 JP 6300572 B2 JP6300572 B2 JP 6300572B2 JP 2014037302 A JP2014037302 A JP 2014037302A JP 2014037302 A JP2014037302 A JP 2014037302A JP 6300572 B2 JP6300572 B2 JP 6300572B2
Authority
JP
Japan
Prior art keywords
data
value
potential
neighborhood
objective variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014037302A
Other languages
English (en)
Other versions
JP2015064856A (ja
Inventor
夏樹 石田
夏樹 石田
全徳 冨山
全徳 冨山
Original Assignee
株式会社日立ソリューションズ西日本
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立ソリューションズ西日本 filed Critical 株式会社日立ソリューションズ西日本
Priority to JP2014037302A priority Critical patent/JP6300572B2/ja
Publication of JP2015064856A publication Critical patent/JP2015064856A/ja
Application granted granted Critical
Publication of JP6300572B2 publication Critical patent/JP6300572B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、データの変数間の関係を分析する、データ分析プログラム等に関する。
例えば、企業等のマーケティング活動において、年齢・収入等の顧客特徴と購入商品・金額等の取引実績のデータから、顧客特徴と取引実績の関係を分析して把握することは重要である。
取引実績のような目的変数を、顧客特徴のような説明変数で表現する分析手法として、下記特許文献1に記載の重回帰分析に基づいたスコアリングモデルがあり、目的変数を表す説明変数の回帰式が求まる。特許文献2には、後述するクラスタ構造に基づいた計量距離の求め方に関連する手法が載っている。非特許文献1は、後述するLOFの求め方に関連する手法を説明する。
特開2010−277567号公報 特開2006−31460号公報
M.Breuning, H.Kriegel, R.T.Ng, and J.Sander「LOF Identifying density-based local outliers」ACM SIGMOD International Conference on Management of Data, pp.93-104 (2000).
図21(a)は、説明変数xに対する目的変数yの分布の例を示す図である。図21(a)に示すように、説明変数xと目的変数yとの間に、ある相関関係が見出しやすい場合には、回帰式y=ax+bを求めることが容易である。
しかしながら、図21(b)に示すように、説明変数xと目的変数yとの分布がばらついているケースも多い。重回帰モデルでは、説明変数が数十個以上と多くなる場合、説明変数が近いデータが少ないような外れ値が存在する場合、説明変数が少し変化するだけで目的変数が急激に変化するような偏りが存在する場合等では、回帰式で算出される目的変数は、実データの目的変数へのフィッティングが悪化しやすいという問題がある。
そのため、例えば、ある顧客特徴を持つ顧客の取引見込を、他の顧客の取引実績から推定しようとしても、精度よく推定できないというような問題が生じる。
また、ある顧客特徴を持つ顧客の取引実績が、他の顧客と比較して多いのか少ないのかも、精度よく評価できないというような問題が生じる。
本発明は、多数個の説明変数や外れ値や偏りが存在する場合でも、実データの目的変数へのフィッティングを向上させることを目的とする。
本発明の一観点によれば、標本データ毎の目的変数を示す目的変数テーブルと、標本データ毎の説明変数を示す説明変数テーブルとを保存した分析データベースを参照し、前記標本データ毎に、前記説明変数の組合せ毎に、前記説明変数の組合せで構成される空間において、前記標本データの周囲に存在する近傍データを抽出する近傍データ抽出処理と、全データの目的変数値より前記近傍データの目的変数値の方が類似しているかを判定して、近傍類似データと類似度を抽出する類似データ抽出処理と、をコンピュータに実行させるためのデータ分析プログラムが提供される。
さらに、前記全データの中からランダムに近傍データ数閾値個のデータを選択した時に、選択したデータの目的変数値の標準偏差が前記近傍データの目的変数値の標準偏差以下となる確率を、前記類似度として算出する類似度の算出処理を、コンピュータに実行させるようにすると良い。
さらに、前記近傍類似データが存在する空間を作る前記説明変数の組合せと、前記近傍類似データと前記類似度との組と、を出力する出力処理を、コンピュータに実行させるようにすると良い。
さらに、前記標本データ毎に、前記近傍類似データに基づいた計量距離を用いて、前記標本データの周囲に存在する局所近接データを抽出する局所近接データ抽出処理を、コンピュータに実行させるようにすると良い。
前記近傍類似データに基づいた前記計量距離として、前記説明変数組合せ毎の前記近傍類似データが各クラスタであり、前記近傍類似データの説明変数値が前記クラスタのデータであり、前記近傍類似データと組になっている前記類似度を単調減少関数で変換した値が前記クラスタの重みである、クラスタ構造に基づいた計量距離を用いる局所近接データ抽出処理を、コンピュータに実行させると良い。
さらに、前記局所近接データを出力する出力処理を、コンピュータに実行させるようにすると良い。
また、前記標本データ毎に、前記局所近接データの目的変数値から、前記標本データの目的変数値の期待値であるポテンシャル期待値を算出して出力する、ポテンシャルスコアリング処理を行うと良い。
また、前記標本データ毎に、前記局所近接データの目的変数値から、前記標本データの目的変数値の期待値であるポテンシャル期待値を算出する、ポテンシャルスコアリング処理と、前記標本データの前記ポテンシャル期待値が全データのポテンシャル期待値と比較して、相対的に高いか低いか判定してポテンシャル高低評価値として出力する、ポテンシャル高低評価処理を行うようにすると良い。
また、前記標本データ毎に、前記局所近接データの目的変数値から、前記標本データの目的変数値の期待値であるポテンシャル期待値を算出する、ポテンシャルスコアリング処理と、前記標本データの前記ポテンシャル期待値が前記標本データの目的変数値と比較して、相対的に高いか低いか判定してポテンシャル乖離評価値として出力する、ポテンシャル乖離評価処理を行うようにすると良い。
また、本発明の一観点によれば、標本データ毎の目的変数を示す目的変数テーブルと、標本データ毎の説明変数を示す説明変数テーブルとを保存した分析データベースを参照し、前記標本データ毎に、前記説明変数の組合せ毎に、前記説明変数の組合せで構成される空間において、前記標本データの周囲に近傍データが存在するか判定して、前記近傍データを抽出する近傍データ抽出処理と、全データの目的変数値より前記近傍データの目的変数値の方が類似している否かを判定して、近傍類似データを抽出する類似データ抽出処理と、をコンピュータに実行させるためのデータ分析プログラムが提供される。
さらに、前記近傍類似データが存在する空間を作る前記説明変数の組合せと、前記近傍類似データの組と、を出力する出力処理を、コンピュータに実行させるようにすると良い。
また、前記説明変数の組合せのうちサブ空間になっている組み合わせに関して、それよりも上位に存在する説明変数の組合せを削除する処理を、コンピュータに実行させると良い。
例えば、EとE’を比較して、EがE’のサブ空間になっているかを比較する。
また、前記近傍データ抽出処理を前記類似データ抽出処理に先立って実行させると良い。
また、前記標本データ毎に、前記近傍類似データの目的変数値から、前記標本データの目的変数値の期待値であるポテンシャル期待値を算出して出力する、ポテンシャルスコアリング処理を行うと良い。
また、前記標本データ毎に、前記近傍類似データの目的変数値から、前記標本データの目的変数値の期待値であるポテンシャル期待値を算出する、ポテンシャルスコアリング処理と、前記標本データの前記ポテンシャル期待値が全データのポテンシャル期待値と比較して、相対的に高いか低いか判定してポテンシャル高低評価値として出力する、ポテンシャル高低評価処理を行うようにすると良い。
また、前記標本データ毎に、前記近傍類似データの目的変数値から、前記標本データの目的変数値の期待値であるポテンシャル期待値を算出する、ポテンシャルスコアリング処理と、前記標本データの前記ポテンシャル期待値が前記標本データの目的変数値と比較して、相対的に高いか低いか判定してポテンシャル乖離評価値として出力する、ポテンシャル乖離評価処理を行うようにすると良い。
本発明の他の観点によれば、標本データ毎の目的変数を示す目的変数テーブルと、標本データ毎の説明変数を示す説明変数テーブルとを保存した分析データベースを参照し、前記標本データ毎に、前記説明変数の組合せ毎に、前記説明変数の組合せで構成される空間において、前記標本データの周囲に近傍データが存在するか判定して、前記近傍データを抽出する近傍データ抽出ステップと、全データの目的変数値より前記近傍データの目的変数値の方が類似しているかを判定して、近傍類似データを抽出する類似データ抽出ステップと、を有するデータ分析方法が提供される。
また、本発明は、標本データ毎の目的変数を示す目的変数テーブルと、標本データ毎の説明変数を示す説明変数テーブルとを保存した分析データベースを参照し、前記標本データ毎に、前記説明変数の組合せ毎に、前記説明変数の組合せで構成される空間において、前記標本データの周囲に近傍データが存在するか判定して、前記近傍データを抽出する近傍データ抽出処理部と、全データの目的変数値より前記近傍データの目的変数値の方が類似しているかを判定して、近傍類似データを抽出する類似データ抽出処理部と、を有することを特徴とするデータ分析装置である。
本発明によれば、多数個の説明変数や外れ値や偏りが存在する場合でも、実データの目的変数へのフィッティングを良くすることができる。従って、データ分析の精度を向上させることができるという利点がある。
本発明の一実施の形態によるデータ分析プログラムを備えたデータ分析システムの一構成例を示す機能ブロック図である。 分析データベースに蓄積される標本データ毎の目的変数を示すデータ構成例を示す図である。 分析データベースに蓄積される標本データ毎の説明変数を示すデータ構成例を示す図である。 近傍類似データ抽出手段による処理例を示すフローチャートである。 説明変数組合せ処理の処理例を示すフローチャートである。 説明変数組合せ処理の抽出結果の例を示すイメージ図である。 近傍類似データ抽出処理の処理例を示すフローチャートである。 類似データ評価処理の処理例を示すフローチャートである。 類似度の算出の詳細な処理例を示すフローチャートである。 目的変数値の度数分布の分散を説明するための図である。 近傍類似データ抽出手段の処理を行うことで出力される分析結果のデータ例を示す図である。 局所近接データ抽出手段による処理例を示すフローチャートである。 局所近接データ抽出手段の処理を行うことで出力される分析結果のデータ例を示す図である。 ポテンシャル評価手段の処理例を示すフローチャートである。 ポテンシャル期待値とポテンシャル高低評価・ポテンシャル乖離評価の関係を示す図である。 近傍類似データと局所近接データの関係を示す図である。 ポテンシャル評価手段の処理を行うことで出力される分析結果のデータ例を示す図である。 あるエリアで得られた結果に基づいて、他のエリアの分析を行う例を示す図である。 近傍類似データ抽出処理の処理例を示すフローチャートである。 近傍データ抽出処理の処理例を示すフローチャートである。 LOFの算出時に用いる局所密度を説明するための図である。 類似データ評価処理の処理例を示すフローチャートである。 目的変数値の度数分布の分散を説明するための図である。 上位説明変数組合せ削除処理の処理例を示すフローチャートである。 近傍類似データ抽出手段の処理を行うことで出力される分析結果のデータ例を示す図である。 図19Aの分析結果の応用例を示す図である。 ポテンシャル評価手段の処理例を示すフローチャートである。 ポテンシャル期待値とポテンシャル高低評価・ポテンシャル乖離評価の関係を示す図である。 目的変数と説明変数の分布から関係を分析する例を示す図であり、さらに、本発明の実施の形態を適用した効果を示す図である。
本明細書において、目的変数とは予測したい変数であり、説明変数とは目的変数を説明する変数である。
以下、本発明の実施の形態によるデータ分析技術について図面を参照しながら説明する。
(第1の実施の形態)
図1は、本実施の形態によるデータ分析システムの一構成例を示す機能ブロック図である。図1に示すように、本実施の形態によるデータ分析システムは、分析対象となる目的変数と説明変数のデータを保存した分析データベース11と、分析手段を備えて処理を実行する分析サーバ12と、分析設定値の入力や分析結果の出力を行うクライアント端末13とがネットワーク接続可能に構成されている。
分析サーバ12は、分析手段として、近傍類似データ抽出手段14とポテンシャル評価手段15と局所近接データ抽出手段16とを含む情報処理部12aを備えている。さらに、通信を行う通信部12bと、各種データを記憶するメモリ12cを有している。
例えば、分析データベース11は、ハードディスク装置、分析サーバ12とクライアント端末13は、コンピュータ、近傍類似データ抽出手段14とポテンシャル評価手段15と局所近接データ抽出手段16は、プログラムをCPU等により実行する処理手段である。
そして、分析サーバ12が、メモリ12cに格納されるプログラムを読み込んで、CPUで分析データベース11を参照しながら近傍類似データ抽出手段14またはポテンシャル評価手段15または局所近接データ抽出手段16としての処理を実行し、クライアント端末13が、そのディスプレイに、近傍類似データ抽出手段14、ポテンシャル評価手段15、局所近接データ抽出手段16の出力を表示することができる。
図2のテーブル21は、分析データベース11に蓄積されている目的変数の各標本データの構成例を示している。図2に示した例は、地域(エリア)毎の目的変数として金融情報を用いて分析対象とする例を示す。図2の各行には異なる地域別に金融情報のデータが格納されており、データD[1]=“A町1丁目”、データD[2]=“A町2丁目”、データD[3]=“B町1丁目”、データD[ND]=“Z町1丁目”のように地域別に金融情報のデータが格納されている。
図2の各列は目的変数を示しており、例えば、目的変数O[1]=“預貯金”、目的変数O[2]=“保険掛金”、目的変数O[NO]=“有価証券購入額”のようなデータが格納されている。この行と列との組合せにより、各地域毎の目的変数値を示している。例えば、テーブル21上のDO[1][1]=2564という値は“A町1丁目の預貯金”が2564万円であることを表している。
図3のテーブル31は、分析データベース11に蓄積されている説明変数の各標本データの構成例を示している。図3に示した例は、地域(エリア)毎の居住者情報を分析対象とする例を示す。図3の各行には異なる地域別に説明変数として一般的なデータ、ここでは居住者情報のデータが格納されており、データD[1]=“A町1丁目”、データD[2]=“A町2丁目”、データD[3]=“B町1丁目”、データD[ND]=“Z町1丁目”のようにデータが格納されている。
各列は説明変数を示しており、説明変数E[1]=“20歳未満比率”、説明変数E[2]=“65歳以上比率”、説明変数E[3]=“1人世帯比率”、説明変数E[NE]=“1000万円以上所得比率”のように居住者情報のデータが存在している。
この行と列との組合せで、各地域の説明変数値を示しており、テーブル31上のDE[1][1]=0.286という値は“A町1丁目の20歳未満比率”が0.286であることを表している。
以上のようなテーブルのデータを用いてデータ分析処理を行う。
ここでは、地域ごとの金融データを分析する例について説明したが、会社毎などの組織単位の販売実績データ、研究機関毎の論文発表、特許出願などの研究実績データなど種々のデータ分析に用いることができ、検体毎の疾病治癒実績データなどに用いることができ、本発明は、データの種別を限定するものではない。
図4は、近傍類似データ抽出手段14におけるデータ処理例を示すフローチャートである。近傍類似データ抽出手段14では、各標本データ(以下、「個別データ」と称する。)毎に、近傍類似データが存在する空間を作る説明変数の組合せと、近傍類似データと、類似度とを出力する。
初めに、個別データ毎に処理を繰り返すために、変数iを1からデータの個数NDまでインクリメントしてループ処理を行う(ステップ401)。次に、説明変数組合せ処理を行う(ステップ402)。次に、近傍類似データ抽出処理を行う(ステップ403)。
以下に、ステップ402、ステップ403の処理の詳細について説明する。図5は、ステップ402の説明変数組合せ処理の処理例を示すフローチャートである。説明変数組合せ処理では、説明変数組合せの要素数ごとに、全ての説明変数の組合せを算出する。
まず初めに、説明変数組合せの要素数毎に処理を繰り返すために、変数rを1から説明変数の個数NEまでインクリメントしてループ処理を行う(ステップ501)。図3の列の数r毎に処理を行う。
次に、説明変数の集合{E[1],E[2],・・・,E[NE]}から要素数がr個の組合せ集合を算出しCOMB[r]に代入を行う(ステップ502)。
(数1)
Figure 0006300572
図6は、説明変数組合せ処理の出力結果の例を示すイメージ図である。図6に示すイメージ図では、説明変数の集合が{E[1],E[2],E[3],E[4]}の場合を例として示しており、図の上方から順番に、COMB[1],COMB[2],COMB[3],COMB[4]の組み合わせ出力結果を並べて示している。
要素数r1,r2(1≦r1<r2≦NE)について、要素数がより少ないCOMB[r1]の結果を下位階層とし、要素数がより多いCOMB[r2]の結果を上位階層とする。下位階層に所属する説明変数の組合せが、上位階層に所属する説明変数の組合せのサブ空間になっている場合、この2つの説明変数の組合せに上下関係が存在するものとして、図6のイメージ図では、その上下関係を組み合わせ間を結ぶ線により示している。図6の領域DL1内の説明変数の組合せが、{E[1]}をサブ空間として含む上位説明変数組合せである。ステップ402は、ステップ403の処理のための前段処理に相当する。
図7は、近傍類似データ抽出処理の処理例を示すフローチャートである。近傍類似データ抽出処理では、近傍類似データが存在する空間を作る説明変数組合せと、近傍類似データと、類似度を抽出する。
初めに、説明変数組合せの要素数ごとに処理を繰り返すために変数rを1から説明変数の個数NEまでインクリメントしてループ処理を行う(ステップ701)。次に、COMB[r]に含まれる全ての説明変数の組合せEごとに処理を行うようにループ処理を行う(ステップ702)。図6のように求めたCOMB[1],COMB[2],COMB[3],COMB[4]までの中からrが小さい順番に1つ選ぶ。ステップ701とステップ702との処理によって、説明変数の要素数の少ない組合せから、つまり下位から上位へと順番に処理を行っていくことになる。
次に、説明変数の組合せEで構成される空間において、近傍データとして個別データD[i]から距離が近い順に近傍データ数閾値個目までのデータを代入する(ステップ703)。例えば、個別データD[1]、説明変数の組合せE={E[1]}の場合では、“A町1丁目”の“20歳未満比率”である0.286に近いデータが近傍データとして抽出される。
ただし、説明変数の組合せEによって構成される空間において、2個のデータD[x]とD[y](1≦x≦y≦ND)の距離とは、E={E[e1],・・・,E[eN]}とすると、点(DE[x][e1],・・・,DE[x][eN])と点(DE[y][e1],・・・,DE[y][eN])のユークリッド距離またはマハラノビス距離である。また、近傍データ数閾値とは、説明変数の組合せEで構成される空間において、個別データから距離が近い順に何個目までのデータを近傍データとするかの値であり、事前に設定されているものとする。
次に、全データの目的変数値より近傍データの目的変数値の方が類似しているか否かの判定を行い、近傍類似データフラグと近傍類似データと類似度の抽出を行う類似データ評価処理を行う(ステップ704:図8A参照)。例えば、目的変数O[1]=“預貯金”、近傍データがD[2],D[3],D[ND]の場合では、近傍データの目的変数値DO[2][1]=1785,DO[3][1]=2612,DO[ND][1]=3147について判定する。
次に、近傍類似データフラグをもとに近傍類似データ有無判断の処理を行う(ステップ705)。近傍類似データフラグが“TRUE”の場合は、似ているとして、次のステップ706の出力処理を行い、“FALSE”の場合は、似ていないとして、新たな説明変数の組合せを対象として処理を繰り返す。
近傍類似データフラグが“TRUE”の場合は、個別データD[i]と、ステップ702で選ばれた説明変数の組合せEと、ステップ704で求めた近傍類似データと類似度の組を出力し(ステップ706:図9参照)、新たな説明変数の組合せを対象として処理を繰り返す。
図8Aは、類似データ評価処理704の処理例を示すフローチャートである。類似データ評価処理704では、全データの目的変数値より近傍データの目的変数値の方が類似しているかの判定を行い、近傍類似データフラグと近傍類似データと類似度を抽出する。
この処理例では、類似しているかの判定手法として、目的変数値の標準偏差の比較を行う。
初めに、全データの目的変数値DO[x][j](1≦x≦ND)の標準偏差σと、近傍データの目的変数値DO[x][j](D[x]∈近傍データ)の標準偏差σ’を算出する(ステップ801)。ただし、評価する目的変数O[j]のインデックス値j(1≦j≦NOのいずれかの値)は、事前に設定されているものとする。
次に、類似データ判定閾値×σとσ’を比較する(ステップ802)。ただし、類似データ判定閾値とは、全データの目的変数値より近傍データの目的変数値の方が類似しているか、すなわち、どの程度まで近傍データの目的変数値の標準偏差が低ければ類似データと判定するかの値であり、事前に設定されているものとする。
類似データ判定閾値×σがσ’以上の場合は、分散が小さい(集中している)として、近傍類似データフラグに“TRUE”を代入して、近傍類似データに近傍データを代入する(ステップ803)。
次に、全標本データの中からランダムに近傍データ数閾値個のデータを選んだ時に、選ばれたデータの目的変数値の標準偏差が近傍データの目的変数値の標準偏差σ’以下となる確率を、類似度として算出する(ステップ804: 図8B参照)。
類似データ判定閾値×σがσ’未満の場合は、分散が大きい(分散している)として、近傍類似データフラグに“FALSE”を代入する(ステップ805)。
図8Bは、類似度の算出処理804の処理例を示すフローチャートである。類似度の算出処理804とは、全データの目的変数値より近傍データの目的変数値の方が類似している度合いを算出する処理であり、例えば、全データの中からランダムに近傍データ数閾値個のデータを選択した時に、選択したデータの目的変数値の標準偏差が近傍データの目的変数値の標準偏差以下となる確率を、類似度として算出する処理である。
初めに、類似回数値である変数cに0を代入して、類似回数値を初期化する(ステップ811)。
次に、ランダムなデータ選択を十分な回数繰り返すために、変数kを1からモンテカルロシミュレーション回数閾値までインクリメントしてループ処理を行う(ステップ812)。ただし、モンテカルロシミュレーション回数閾値とは、ランダムなデータ選択を何回繰り返すかの値であり、事前に設定されているものとする。
次に、全標本データの中からランダムに近傍データ数閾値個のデータを選ぶ(ステップ813)。
次に、前ステップで選ばれたデータD[x]の目的変数値DO[x][j]の標準偏差σ”を計算する(ステップ814)。ただし、評価する目的変数O[j]のインデックス値jは、類似データ評価処理のステップ801と同じ値である。
次に、選ばれたデータの目的変数値の標準偏差σ”と近傍データの目的変数値の標準偏差σ’を比較する(ステップ815)。
選ばれたデータの目的変数値の標準偏差σ”が近傍データの目的変数値の標準偏差σ’以下の場合、変数cにc+1を代入して、類似回数値をインクリメントする(ステップ816)。
ステップ813からステップ816までのモンテカルロシミュレーションを、モンテカルロシミュレーション回数閾値だけ繰り返す。
次に、類似回数値をモンテカルロシミュレーション回数閾値で割って、類似度を算出する(ステップ817)。
類似度の算出処理804では、モンテカルロシミュレーションをモンテカルロシミュレーション回数閾値だけ繰り返す中で、ランダムに選ばれたデータの方がより類似している場合に限り、類似回数値をインクリメントしている。そのため、類似回数値は0以上モンテカルロシミュレーション回数閾値以下の値となるので、類似度は0以上1以下の値である。そして、類似度の値が小さいほど、全データの目的変数値より近傍データの目的変数値の方が類似していることになる。
ただし、類似データ評価処理704と類似度の算出処理804では、目的変数値の標準偏差の代わりに、目的変数値の順位の標準偏差を用いてもよい。目的変数値の順位とは、全標本データを目的変数値の昇順または降順でソートした時に、順番に1位からND位まで付けられる位の値である。目的変数値の順位の標準偏差とは、位の値を変数値とみなして求めた標準偏差である。目的変数値の順位の標準偏差を用いた場合の類似度は、全標本データの中からランダムに近傍データ数閾値個のデータを選んだ時に、選ばれたデータの目的変数値の順位の標準偏差が近傍データの目的変数値の順位の標準偏差以下となる確率である。
類似度は、目的変数値の標準偏差を用いた場合でも、目的変数値の順位の標準偏差を用いた場合でも、0以上1以下の値であり、値が小さいほどより類似していることを示す。
図8Cは、目的変数値の度数分布を示す図であり、全エリアでは分散が大きく、近傍エリアでは分散が小さい例を示している。
図9の表901は、近傍類似データ抽出手段14における処理を行うことで出力される分析結果のデータ例を示している。図9の各行には、近傍類似データ抽出処理のステップ706で出力された、個別データと説明変数組合せと近傍類似データと類似度との組が格納されている。
例えば、1行目は、個別データD[1]=“A町1丁目”に、説明変数E[2]=“65歳以上比率”とE[NE]=“1000万円以上所得比率”の組合せで構成される空間において、近傍類似データD[7],D[125],D[165],D[341],D[467]が存在して、類似度が0.083であることを表している。ただし、近傍類似データが5個であることからも分かるように、近傍データ抽出処理において近傍データ数閾値が5の場合の分析結果例である。
図10は、局所近接データ抽出手段16におけるデータ処理例を示すフローチャートである。
局所近接データ抽出手段16では、個別データ毎に、局所近接データを出力する。
局所近接データ抽出処理とは、近傍類似データに基づいた計量距離を用いて、標本データの周囲に存在する局所近接データを抽出する処理であり、例えば、近傍類似データに基づいた計量距離として、説明変数組合せ毎の近傍類似データが各クラスタであり、近傍類似データの説明変数値がクラスタのデータであり、近傍類似データと組になっている類似度を単調減少関数で変換した値がクラスタの重みである、クラスタ構造に基づいた計量距離を用いて、標本データの周囲に存在する局所近接データを抽出する処理である。
初めに、個別データ毎に処理を繰り返すために、変数iを1からデータの個数NDまでインクリメントしてループ処理を行う(ステップ1001)。
次に、近傍類似データ抽出手段14で出力される分析結果のうち、個別データD[i]を含む各行について、すなわち各説明変数組合せについて、近傍データ数閾値個の近傍類似データD[x]を各クラスタとして、近傍データ数閾値個の点(DE[x][1],・・・,DE[x][NE])をクラスタのデータとして、類似度をクラスタの重みに変換する(ステップ1002)。
ただし、類似度Pをクラスタの重みWに変換する式W=F(P)は、Pが増加するとともにWが単調減少となる関数Fであれば何でもよく、例えばF(P)=1/Pがある。
例えば、図9の近傍類似データ抽出手段14で出力される分析結果のデータ例で、個別データD[1]の場合では、クラスタ数は2組であり、1組目のクラスタのデータは{(DE[x][1],・・・,DE[x][NE])|x∈{7,125,165,341,467}}であり、1組目のクラスタの重みは1/0.083=12.04であり、2組目のクラスタのデータは{(DE[x][1],・・・,DE[x][NE])|x∈{2,5,14,28,52}}であり、2組目のクラスタの重みは1/0.095=10.52である。
次に、近傍類似データに基づいた計量距離を用いて、局所近接データとして個別データD[i]から距離が近い順に局所近接データ数閾値個目までのデータを代入する(ステップ1003)。
ただし、近傍類似データに基づいた計量距離とは、説明変数組合せ毎の近傍類似データを各クラスタとして、前ステップ1002で求めたクラスタのデータとクラスタの重みを用いた場合の、特許文献2に記載のクラスタ構造に基づいた計量距離である。また、局所近接データ数閾値とは、近傍類似データに基づいた計量距離を用いて、個別データから距離が近い順に何個目までのデータを局所近接データとするかの値であり、事前に設定されているものとする。
次に、個別データD[i]と、ステップ1003で求めた局所近接データの組を出力し(ステップ1004:図11参照)、新たな個別データを対象として処理を繰り返す。
以上のように、局所近接データ抽出手段16では、各クラスタ内でのデータ間の距離を最小にする計量空間で、局所近接データを抽出している。その際、より類似したクラスタの重みを重くすることで、クラスタが抽出された説明変数軸の分散を抑え、これらの説明変数軸でより近いデータが局所近接データとして抽出されやすくなっている。
図11の表1101は、局所近接データ抽出手段16における処理を行うことで出力される分析結果のデータ例を示している。図11の各行には、局所近接データ抽出手段16のステップ1004で出力された、個別データと局所近接データとの組が格納されている。
例えば、1行目は、個別データD[1]=“A町1丁目”に、局所近接データD[5],D[7],D[52],D[133],D[165],D[261],D[341]であることを表している。ただし、局所近接データが7個であることからも分かるように、局所近接データ抽出手段16における処理において局所近接データ数閾値が7の場合の分析結果例である。3行目は、個別データD[3]=“B町1丁目”に、局所近接データD[11],D[28],D[48],D[120],D[140],D[275],D[370]であることを表している。
図12Aは、ポテンシャル評価手段15による処理例を示すフローチャートである。
ポテンシャル評価手段15では、個別データ毎に、ポテンシャル期待値とポテンシャル高低評価値とポテンシャル乖離評価値を出力する。
初めに、近傍類似データ抽出手段14の処理を行って、個別データ毎に、近傍類似データが存在する空間を作る説明変数組合せと、近傍類似データと、類似度を取得する(ステップ1201)。
次に、局所近接データ抽出手段16の処理を行って、個別データ毎に、局所近接データを取得する(ステップ1202)。
次に、個別データ毎に、局所近接データの目的変数値から、個別データの目的変数値の期待値であるポテンシャル期待値を算出して出力する、ポテンシャルスコアリング処理を行う(ステップ1203)。
ポテンシャルスコアリング処理の処理例としては、個別データD[i]の全ての局所近接データD[x]の目的変数値DO[x][j]の平均値を、ポテンシャル期待値S[i][j]として出力する。ただし、評価する目的変数O[j]のインデックス値jは、類似データ評価処理のステップ801と同じ値である。
次に、個別データ毎に、個別データのポテンシャル期待値が全データのポテンシャル期待値と比較して、相対的に高いか低いか判定してポテンシャル高低評価値として出力する、ポテンシャル高低評価処理を行う(ステップ1204)。
ポテンシャル高低評価処理の処理例としては、全データのポテンシャル期待値S[x][j](1≦x≦ND)の平均値μと標準偏差σを算出して、個別データのポテンシャル期待値S[i][j]>μ+σならばポテンシャル高低評価値として「○(高ポテンシャル)」を、μ−σ≦S[i][j]≦μ+σならばポテンシャル高低評価値として「△(中ポテンシャル)」を、S[i][j]<μ−σならばポテンシャル高低評価値として「×(低ポテンシャル)」を出力する。
次に、個別データ毎に、個別データのポテンシャル期待値が個別データの目的変数値と比較して、相対的に高いか低いか判定してポテンシャル乖離評価値として出力する、ポテンシャル乖離評価処理を行う(ステップ1205)。
ポテンシャル乖離評価処理の処理例としては、全データの目的変数値DO[x][j](1≦x≦ND)の標準偏差σを算出して、個別データのポテンシャル期待値S[i][j]>DO[i][j]+σならばポテンシャル乖離評価値として「○(ポテンシャル高方乖離)」を、DO[i][j]−σ≦S[i][j]≦DO[i][j]+σならばポテンシャル乖離評価値として「△(ポテンシャル乖離なし)」を、S[i][j]<DO[i][j]−σならばポテンシャル乖離評価値として「×(ポテンシャル低方乖離)」を出力する。
ただし、ポテンシャル評価手段15は、ステップ1203までの処理を実行して、個別データ毎に、ポテンシャル期待値だけを出力してもよい。
また、ポテンシャル評価手段15は、ステップ1203ではポテンシャル期待値を出力せずに、ステップ1204までの処理を実行して、個別データ毎に、ポテンシャル高低評価値だけを出力してもよい。
また、ポテンシャル評価手段15は、ステップ1203ではポテンシャル期待値を出力せずに、ステップ1204の処理を実行せずに、個別データ毎に、ポテンシャル乖離評価値だけを出力してもよい。
図12Bは、ステップ1204、1205の処理の例を示す図であり、ポテンシャル期待値とポテンシャル高低評価・ポテンシャル乖離評価の関係を示す図である。ポテンシャル期待値が図13のD[1]のS[1][1]では2860であり、図12Aのステップ1204で求められるポテンシャル高低評価は、ポテンシャル期待値の分布と比較して中ポテンシャル、図12Aのステップ1205で求められるポテンシャル乖離評価は、目的変数値DO[1][1]と比較してポテンシャル高方乖離と評価される。
図12Cは、ステップ1201、1202の処理の例を示す図であり、近傍類似データと局所近接データの関係を示す図である。個別データD[1]の場合の処理の例であり、図12Cの散布図(a)は、図9の近傍類似データ抽出手段14で出力される分析結果のデータをプロットした例であり、図12Cの散布図(b)は、図11の局所近接データ抽出手段16で出力される分析結果のデータをプロットした例である。
散布図(a)では、個別データD[1]を中心として、近傍類似データが各説明変数軸方向に十字状に存在している。これは、個別データD[1]には、2組の説明変数組合せと近傍類似データとの組が存在しているからである。
散布図(a)はユークリッド距離空間またはマハラノビス距離空間であり、散布図(b)は近傍類似データに基づいた計量距離空間である。実際には、近傍類似データに基づいた計量距離空間には、他の説明変数軸も存在し、説明変数軸間の相関も考慮されるが、それらを除いたイメージを図示している。より類似したクラスタの重みを重くすることで、クラスタが抽出された説明変数軸の分散を抑え、すなわち軸収縮が大きくなり、これらの説明変数軸でより近いデータが局所近接データとして抽出されやすくなっている。
散布図(b)では、個別データD[1]を中心として、局所近接データが同心円状に存在している。近傍類似データであったデータD[2],D[14],D[28],D[125],D[467]が、局所近接データとなっていない。一方で、近傍類似データでなかったデータD[133],D[261]が、局所近接データとなっている。これは、各説明変数軸では、D[2],D[14],D[28],D[125],D[467]よりもD[133],D[261]はD[1]から遠かったが、両説明変数軸による近傍類似データに基づいた計量距離では、D[2],D[14],D[28],D[125],D[467]よりもD[133],D[261]はD[1]に近いからである。
図13の表1301は、ポテンシャル評価手段15の処理を行うことで出力される分析結果のデータ例を示している。
各行には、個別データとポテンシャル期待値とポテンシャル高低評価値とポテンシャル乖離評価値の組が格納されている。
例えば1行目は、個別データD[1]=“A町1丁目”について、ポテンシャル期待値S[1][1]=2860、ポテンシャル高低評価値が「△(中ポテンシャル)」、ポテンシャル乖離評価値が「○(ポテンシャル高方乖離)」であることを表している。
図13のポテンシャル期待値は、図12Aのステップ1203で求められ、図13のポテンシャル高低評価値は、図12Aのステップ1204で求められ、図13のポテンシャル乖離評価値は、図12Aのステップ1205で求められる。
図14は、預貯金が似ているエリアを分析する例を示す図であり、図14(a)は東京都、図14(b)は神奈川県のデータの例とする。横軸はE[2]=“65歳以上比率”であり、縦軸はE[NE]=“1000万円以上所得比率”である。
図14(a)で、東京都の各エリアをプロットし、説明変数が近くて預貯金が似ているAR21とAR22とが各局所近接エリアである。これらAR21とAR22の領域を描画すると、局所近接エリアを可視化することができる。
図14(b)で、神奈川県の各エリアをプロットし、AR21とAR22の領域を描画する。領域に含まれる神奈川県のエリアの預貯金については、東京都の当該局所近接エリアの預貯金から、精度よく予測することができる。
図21(b)は、目的変数yと説明変数xとの分布がばらついているケースを示す図であり、さらに、本実施の形態を適用した効果を示す図である。例えば、AR1では、x1という説明変数が近く、さらにy1という目的変数が似た局所近接データとなっていることが分かる。AR1から3までのそれぞれの局所近接データに基づいて、局所近接データの目的変数からポテンシャル期待値をスコアリングすることで、多数個の説明変数や外れ値や偏りが存在する場合でも、ポテンシャル期待値は、実データの目的変数へのフィッティングを良くすることができる。
以上のように、本実施の形態によるデータ分析技術によれば、個別データ毎に、説明変数を組合せて目的変数を説明できる近傍類似データを抽出して、近傍類似データが抽出された説明変数軸でより近いデータを局所近接データとして抽出するという、二段階のデータの抽出を経てから、局所近接データの目的変数からポテンシャル期待値をスコアリングすることで、近傍類似データの目的変数からポテンシャル期待値をスコアリングする場合よりも、複数の説明変数軸でより近いデータになるため、ポテンシャル期待値は、実データの目的変数へのフィッティングがさらに良くなる。多数個の説明変数や外れ値や偏りが存在する場合でも、ポテンシャル期待値は、実データの目的変数へのフィッティングが良い。
そのため、ある顧客特徴を持つ顧客の取引見込を、似た顧客特徴を持つ他の顧客の取引実績から、精度よく推定できて、ポテンシャル高低評価値で把握できる。さらに、ある顧客特徴を持つ顧客の取引実績が、他の顧客と比較して多いのか少ないのかも、精度よく評価できて、ポテンシャル乖離評価値で把握できる。
(第2の実施の形態)
第2の実施の形態について、第1の実施の形態にならって説明する。図1から図6までは、第1の実施の形態と同様に参照できる。尚、図1の局所近接データ抽出手段16を有していない。
図15は、近傍類似データ抽出処理の処理例を示すフローチャートである。近傍類似データ抽出処理では、近傍類似データが存在する空間を作る説明変数組合せと、近傍類似データを抽出する。
初めに、説明変数組合せの要素数ごとに処理を繰り返すために変数rを1から説明変数の個数NEまでインクリメントしてループ処理を行う(ステップ701a)。次に、COMB[r]に含まれる全ての説明変数の組合せEごとに処理を行うようにループ処理を行う(ステップ702a)。図6のように求めたCOMB[1],COMB[2],COMB[3],COMB[4]までの中からrが小さい順番に1つ選ぶ。ステップ701aとステップ702aとの処理によって、説明変数の要素数の少ない組合せから、つまり下位から上位へと順番に処理を行っていくことになる。
次に、説明変数の組合せEで構成される空間において、個別データD[i]の周囲に近傍データが存在するか否かの判定を行い、近傍データがあることを示す近傍データフラグと近傍データとの抽出を行う近傍データ抽出処理を行う(ステップ703a:図16A参照)。例えば、個別データD[1]、説明変数の組合せE={E[1]}の場合では、“A町1丁目”の“20歳未満比率”である0.286に近いデータが近傍データとして抽出される。
次に、近傍データフラグをもとに、抽出した近傍データの有無判断の処理を行う(ステップ704a)。近傍データフラグが“TRUE”の場合は、ステップ703aで抽出した近傍データとともにステップ705aの類似データ評価処理を行う。
そして、近傍データフラグが“FALSE”の場合は、新たな説明変数の組合せを対象として処理を繰り返す。
近傍データフラグが“TRUE”の場合は、全データの目的変数値より近傍データの目的変数値の方が類似しているか否かの判定を行い、近傍類似データフラグと近傍類似データの抽出を行う類似データ評価処理を行う(ステップ705a:図17A参照)。例えば、目的変数O[1]=“預貯金”、近傍データがD[2],D[3],D[ND]の場合では、近傍データの目的変数値DO[2][1]=1785,DO[3][1]=2612,DO[ND][1]=3147について判定する。
次に、近傍類似データフラグをもとに近傍類似データ有無判断の処理を行う(ステップ706a)。近傍類似データフラグが“TRUE”の場合は、似ているとして、次のステップ707aの上位説明変数組合せ削除処理を行い、“FALSE”の場合は、似ていないとして、新たな説明変数の組合せを対象として処理を繰り返す。
近傍類似データフラグが“TRUE”の場合は、説明変数の組合せEに対して、上位に存在する説明変数の組合せを削除する上位説明変数組合せ削除処理を行う(ステップ707a:図18参照)。例えば、E={E[1]}の場合では、図6の領域DL1内の説明変数の組合せを削除する。
次に、個別データD[i]と、ステップ702aで選ばれた説明変数の組合せEと、ステップ705aで求めた近傍類似データの組を出力し(ステップ708a:図19A参照)、新たな説明変数の組合せを対象として処理を繰り返す。
図16Aは、近傍データ抽出処理703aの処理例を示すフローチャートである。近傍データ抽出処理703aでは、説明変数の組合せEで構成される空間において、個別データD[i]の周囲に近傍データが存在するか判定を行い、近傍データフラグと近傍データを抽出する。
この処理例では、近傍データが存在するかの判定手法として、上記非特許文献1に記載のLOF(LocalOutlierFactor)を利用することができる。ただし、説明変数の組合せEによって構成される空間において、2個のデータD[x]とD[y](1≦x≦y≦ND)の距離とは、E={E[e1],・・・,E[eN]}とすると、点(DE[x][e1],・・・,DE[x][eN])と点(DE[y][e1],・・・,DE[y][eN])のユークリッド距離またはマハラノビス距離である。
初めに、説明変数の組合せEで構成される空間において、個別データD[i]と説明変数が同じ値の組合せであるデータ(個別データD[i]自身は除く)について、データの個数を変数Nに代入する(ステップ801a)。
次に、Nと近傍データ数閾値を比較する(ステップ802a)。ただし、近傍データ数閾値とは、説明変数の組合せEで構成される空間において、個別データから距離が近い順に何個目までのデータを近傍データとするかの値であり、事前に設定されているものとする。
Nが近傍データ数閾値以上の場合は、近傍データフラグに“TRUE”を代入して、説明変数の組合せEで構成される空間において、近傍データとして個別データD[i]と説明変数が同じ値の組合せであるデータを代入する(ステップ803a)。
Nが近傍データ数閾値未満の場合は、説明変数の組合せEで構成される空間において、個別データD[i]と周囲のデータからLOFの算出を行う(ステップ804a)。LOFは、非特許文献1に算出方法が記載されており、個別データD[i]の局所密度と周囲のデータの局所密度の比率である。個別データD[i]の局所密度の方がより高ければ、LOFはより小さい値となる特徴がある。
次に、LOFと近傍データ判定閾値とを比較する(ステップ805a)。ただし、近傍データ判定閾値とは、説明変数の組合せEで構成される空間において、個別データの周囲にデータが集中しているか、すなわちどの程度まで個別データの局所密度が高ければ近傍データが存在すると判定するかの値であり、事前に設定されているものとする。
LOFが近傍データ判定閾値以下の場合(集中している)は、近傍データフラグに“TRUE”を代入して、説明変数の組合せEで構成される空間において、近傍データとして個別データD[i]から距離が近い順に近傍データ数閾値個目までのデータを代入する(ステップ806a)。LOFが近傍データ判定閾値超えの場合(分散している)は、近傍データフラグに“FALSE”を代入する(ステップ807a)。
図16Bは、LOFの算出時に用いる局所密度の原理を示す図であり、説明変数の組合せE={E[1],E[3]}で構成される空間において、全データをプロットした図である。図の領域AR31は、データが集中しており局所密度が高く、領域AR32は、データが閑散としており局所密度が低い。
図17Aは、類似データ評価処理705aの処理例を示すフローチャートである。類似データ評価処理705aでは、全データの目的変数値より近傍データの目的変数値の方が類似しているかの判定を行い、近傍類似データフラグと近傍類似データとを抽出する。
この処理例では、類似しているかの判定手法として、目的変数値の標準偏差の比較を行う。
初めに、全データの目的変数値DO[x][j](1≦x≦ND)の標準偏差σと、近傍データの目的変数値DO[x][j](D[x]∈近傍データ)の標準偏差σ’を算出する(ステップ901a)。ただし、評価する目的変数O[j]のインデックス値j(1≦j≦NOのいずれかの値)は、事前に設定されているものとする。
次に、類似データ判定閾値×σとσ’を比較する(ステップ902a)。ただし、類似データ判定閾値とは、全データの目的変数値より近傍データの目的変数値の方が類似しているか、すなわち、どの程度まで近傍データの目的変数値の標準偏差が低ければ類似データと判定するかの値であり、事前に設定されているものとする。
類似データ判定閾値×σがσ’以上の場合は、分散が小さい(集中している)として、近傍類似データフラグに“TRUE”を代入して、近傍類似データに近傍データを代入する(ステップ903a)。
類似データ判定閾値×σがσ’未満の場合は、分散が大きい(分散している)として、近傍類似データフラグに“FALSE”を代入する(ステップ904a)。
図17Bは、目的変数値の度数分布を示す図であり、全エリアでは分散が大きく、近傍エリアでは分散が小さい例を示している。
図18は、上位説明変数組合せ削除処理707aの処理例を示すフローチャートである。
上位説明変数組合せ削除処理707aでは、説明変数の組合せEに対して、上位に存在する説明変数の組合せを削除する。
初めに、説明変数組合せの要素数ごとに処理を繰り返すために変数r’をr+1から説明変数の個数NEまでインクリメントしてループ処理を行う(ステップ1001a)。
次に、COMB[r’]に含まれる全ての説明変数の組合せE’ごとに処理を行うようにループ処理を行う(ステップ1002a)。
次に、EとE’を比較して、EがE’のサブ空間になっているか否かを判定する(ステップ1003a)。EがE’のサブ空間である場合は、次のステップ1004aの処理を行い、EがE’のサブ空間でない場合は、新たな説明変数の組合せを対象として処理を繰り返す。
COMB[r’]からE’を削除して(ステップ1004a)、新たな説明変数の組合せを対象として処理を繰り返す。例えば、E={E[1]}の場合では、図6の領域DL1内の説明変数の組合せを削除することで、図15のループ処理を削減できる。
図19Aの表1101aは、近傍類似データ抽出手段14における処理を行うことで出力される分析結果のデータ例を示している。図19Aの各行には、近傍類似データ抽出処理のステップ708aで出力された、個別データと説明変数組合せと近傍類似データとの組が格納されている。
例えば、1行目は、個別データD[1]=“A町1丁目”に、説明変数E[2]=“65歳以上比率”とE[NE]=“1000万円以上所得比率”の組合せで構成される空間において、近傍類似データD[7],D[125],D[165],D[341],D[467]が存在することを表している。ただし、近傍類似データが5個であることからも分かるように、近傍データ抽出処理において近傍データ数閾値が5の場合の分析結果例である。
図19Bの表1102aに示すように、図19Aの表1101aから説明変数組合せが同じ行だけを抽出することで、同じ説明変数の組合せで構成される空間において、異なる個別データに近傍類似データが存在することも分かる。
図20Aは、ポテンシャル評価手段15による処理例を示すフローチャートである。
ポテンシャル評価手段15では、個別データ毎に、ポテンシャル期待値とポテンシャル高低評価値とポテンシャル乖離評価値を出力する。
初めに、近傍類似データ抽出手段14の処理を行って、個別データ毎に、近傍類似データが存在する空間を作る説明変数組合せと、近傍類似データを取得する(ステップ1201a)。
次に、個別データ毎に、近傍類似データの目的変数値から、個別データの目的変数値の期待値であるポテンシャル期待値を算出して出力する、ポテンシャルスコアリング処理を行う(ステップ1202a)。
ポテンシャルスコアリング処理の処理例としては、個別データD[i]の全ての近傍類似データD[x]の目的変数値DO[x][j]の平均値を、ポテンシャル期待値S[i][j]として出力する。ただし、評価する目的変数O[j]のインデックス値jは、類似データ評価処理のステップ901aと同じ値である。
次に、個別データ毎に、個別データのポテンシャル期待値が全データのポテンシャル期待値と比較して、相対的に高いか低いか判定してポテンシャル高低評価値として出力する、ポテンシャル高低評価処理を行う(ステップ1203a)。
ポテンシャル高低評価処理の処理例としては、全データのポテンシャル期待値S[x][j](1≦x≦ND)の平均値μと標準偏差σを算出して、個別データのポテンシャル期待値S[i][j]>μ+σならばポテンシャル高低評価値として「○(高ポテンシャル)」を、μ−σ≦S[i][j]≦μ+σならばポテンシャル高低評価値として「△(中ポテンシャル)」を、S[i][j]<μ−σならばポテンシャル高低評価値として「×(低ポテンシャル)」を出力する。
次に、個別データ毎に、個別データのポテンシャル期待値が個別データの目的変数値と比較して、相対的に高いか低いか判定してポテンシャル乖離評価値として出力する、ポテンシャル乖離評価処理を行う(ステップ1204a)。
ポテンシャル乖離評価処理の処理例としては、全データの目的変数値DO[x][j](1≦x≦ND)の標準偏差σを算出して、個別データのポテンシャル期待値S[i][j]>DO[i][j]+σならばポテンシャル乖離評価値として「○(ポテンシャル高方乖離)」を、DO[i][j]−σ≦S[i][j]≦DO[i][j]+σならばポテンシャル乖離評価値として「△(ポテンシャル乖離なし)」を、S[i][j]<DO[i][j]−σならばポテンシャル乖離評価値として「×(ポテンシャル低方乖離)」を出力する。
ただし、ポテンシャル評価手段15は、ステップ1202aまでの処理を実行して、個別データ毎に、ポテンシャル期待値だけを出力してもよい。
また、ポテンシャル評価手段15は、ステップ1202aではポテンシャル期待値を出力せずに、ステップ1203aまでの処理を実行して、個別データ毎に、ポテンシャル高低評価値だけを出力してもよい。
また、ポテンシャル評価手段15は、ステップ1202aではポテンシャル期待値を出力せずに、ステップ1203aの処理を実行せずに、個別データ毎に、ポテンシャル乖離評価値だけを出力してもよい。
図20Bは、ステップ1203a、1204aの処理の例を示す図であり、ポテンシャル期待値とポテンシャル高低評価・ポテンシャル乖離評価の関係を示す図である。ポテンシャル期待値が図13のD[1]のS[1][1]では2860であり、図20Aのステップ1203aで求められるポテンシャル高低評価は、ポテンシャル期待値の分布と比較して中ポテンシャル、図20Aのステップ1204aで求められるポテンシャル乖離評価は、目的変数値DO[1][1]と比較してポテンシャル高方乖離と評価される。
図13の表1301は、ポテンシャル評価手段15の処理を行うことで出力される分析結果のデータ例を示している。
各行には、個別データとポテンシャル期待値とポテンシャル高低評価値とポテンシャル乖離評価値の組が格納されている。
例えば1行目は、個別データD[1]=“A町1丁目”について、ポテンシャル期待値S[1][1]=2860、ポテンシャル高低評価値が「△(中ポテンシャル)」、ポテンシャル乖離評価値が「○(ポテンシャル高方乖離)」であることを表している。
以上のように、本実施の形態によるデータ分析技術によれば、個別データ毎に、説明変数を組合せて目的変数を説明できる近傍類似データを発見して、近傍類似データの目的変数からポテンシャル期待値をスコアリングすることで、多数個の説明変数や外れ値や偏りが存在する場合でも、ポテンシャル期待値は、実データの目的変数へのフィッティングが良い。
そのため、ある顧客特徴を持つ顧客の取引見込を、似た顧客特徴を持つ他の顧客の取引実績から、精度よく推定できて、ポテンシャル高低評価値で把握できる。さらに、ある顧客特徴を持つ顧客の取引実績が、他の顧客と比較して多いのか少ないのかも、精度よく評価できて、ポテンシャル乖離評価値で把握できる。
処理および制御は、CPU(CentralProcessingUnit)やGPU(GraphicsProcessingUnit)によるソフトウェア処理、ASIC(ApplicationSpecificIntegratedCircuit)やFPGA(FieldProgrammableGateArray)によるハードウェア処理によって実現することができる。
上記の実施の形態において、添付図面に図示されている構成等については、これらに限定されるものではなく、本発明の効果を発揮する範囲内で適宜変更することが可能である。その他、本発明の目的の範囲を逸脱しない限りにおいて適宜変更して実施することが可能である。また、本発明の各構成要素は、任意に取捨選択することができ、取捨選択した構成を具備する発明も本発明に含まれるものである。
また、本実施の形態で説明した機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。尚、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
本発明は、分析システムに利用可能である。
11…分析データベース(DB)
12…分析サーバ
13…クライアント端末
14…近傍類似データ抽出手段
15…ポテンシャル評価手段
16…局所近接データ抽出手段
21…目的変数テーブル
31…説明変数テーブル

Claims (16)

  1. 標本データ毎の目的変数を示す目的変数テーブルと、標本データ毎の説明変数を示す説明変数テーブルとを保存した分析データベースを参照し、
    前記標本データ毎に、前記説明変数の組合せ毎に、前記説明変数の組合せで構成される空間において、前記標本データの周囲に存在し前記標本データからの距離が近い順番に所定数だけ得られる近傍データを抽出する近傍データ抽出処理と、
    前記標本データ毎に、事前に求められた類似データ判定閾値を基準として、前記近傍データの目的変数値の標準偏差が、前記類似データ判定閾値と全データの目的変数値の標準偏差との積より小さいか否かに基づいて全データの目的変数値より前記近傍データの目的変数値の方が類似しているか否かを判定して、近傍データかつ類似データであると判定された近傍類似データと類似度とを抽出する類似データ抽出処理と、をコンピュータに実行させるためのデータ分析プログラム。
  2. さらに、
    前記全データの中からランダムに近傍データ数閾値個のデータを選択した時に、選択したデータの目的変数値の標準偏差が前記近傍データの目的変数値の標準偏差以下となる確率を、前記類似度として算出する類似度の算出処理を、コンピュータに実行させるための請求項1に記載のデータ分析プログラム。
  3. さらに、前記近傍類似データが存在する空間を作る前記説明変数の組合せと、前記近傍類似データと前記類似度との組と、を出力する出力処理を、コンピュータに実行させるための請求項1又は2に記載のデータ分析プログラム。
  4. 前記標本データ毎に、
    前記近傍類似データに基づいた計量距離を用いて、前記標本データの周囲に存在するデータを抽出する局所近データ抽出処理を、コンピュータに実行させるための請求項1から3までのいずれか1項に記載のデータ分析プログラム。
  5. さらに、
    前記近傍類似データに基づいた前記計量距離として、前記説明変数の組合せ毎の前記近傍類似データが各クラスタであり、前記近傍類似データの説明変数値が前記クラスタのデータであり、前記近傍類似データと組になっている前記類似度を単調減少関数で変換した値が前記クラスタの重みである、クラスタ構造に基づいた計量距離を用いる局所近データ抽出処理を、コンピュータに実行させるための請求項4に記載のデータ分析プログラム。
  6. さらに、前記局所近データ抽出処理の結果得られた前記局所近データを出力する出力処理を、コンピュータに実行させるための請求項4又は5に記載のデータ分析プログラム。
  7. 前記標本データ毎に、
    前記局所近データの目的変数値から、前記標本データの目的変数値の期待値であるポテンシャル期待値を算出して出力する、ポテンシャルスコアリング処理を行うことを特徴とする請求項4から6までのいずれか1項に記載のデータ分析プログラム。
  8. 前記標本データ毎に、
    前記局所近データの目的変数値から、前記標本データの目的変数値の期待値であるポテンシャル期待値を算出する、ポテンシャルスコアリング処理と、
    前記標本データの前記ポテンシャル期待値が全データのポテンシャル期待値と比較して、相対的に高いか低いか判定してポテンシャル高低評価値として出力する、ポテンシャル高低評価処理を行うことを特徴とする請求項4から7までのいずれか1項に記載のデータ分析プログラム。
  9. 前記標本データ毎に、
    前記局所近データの目的変数値から、前記標本データの目的変数値の期待値であるポテンシャル期待値を算出する、ポテンシャルスコアリング処理と、
    前記標本データの前記ポテンシャル期待値が前記標本データの目的変数値と比較して、相対的に高いか低いか判定してポテンシャル乖離評価値として出力する、ポテンシャル乖離評価処理を行うことを特徴とする請求項4から8までのいずれか1項に記載のデータ分析プログラム。
  10. 標本データ毎の目的変数を示す目的変数テーブルと、標本データ毎の説明変数を示す説明変数テーブルとを保存した分析データベースを参照し、
    前記標本データ毎に、前記説明変数の組合せ毎に、前記説明変数の組合せで構成される空間において、前記標本データの周囲に存在し前記標本データからの距離が近い順番に所定数だけ得られる近傍データが存在するか判定して、前記近傍データを抽出する近傍データ抽出処理と、
    前記標本データ毎に、事前に求められた類似データ判定閾値を基準として、前記近傍データの目的変数値の標準偏差が、前記類似データ判定閾値と全データの目的変数値の標準偏差との積より小さいか否かに基づいて全データの目的変数値より前記近傍データの目的変数値の方が類似しているか否かを判定して、近傍類似データを抽出する類似データ抽出処理と、をコンピュータに実行させるためのデータ分析プログラム。
  11. さらに、前記近傍類似データが存在する空間を作る前記説明変数の組合せと、前記近傍類似データの組と、を出力する出力処理を、コンピュータに実行させるための請求項10に記載のデータ分析プログラム。
  12. 前記近傍データ抽出処理を前記類似データ抽出処理に先立って実行することを特徴とする請求項10又は11に記載のデータ分析プログラム。
  13. 前記標本データ毎に、
    前記近傍類似データの目的変数値から、前記標本データの目的変数値の期待値であるポテンシャル期待値を算出して出力する、ポテンシャルスコアリング処理を行うことを特徴とする請求項10から12までのいずれか1項に記載のデータ分析プログラム。
  14. 前記標本データ毎に、
    前記近傍類似データの目的変数値から、前記標本データの目的変数値の期待値であるポテンシャル期待値を算出する、ポテンシャルスコアリング処理と、
    前記標本データの前記ポテンシャル期待値が全データのポテンシャル期待値と比較して、相対的に高いか低いか判定してポテンシャル高低評価値として出力する、ポテンシャル高低評価処理を行うことを特徴とする請求項10から13までのいずれか1項に記載のデータ分析プログラム。
  15. 前記標本データ毎に、
    前記近傍類似データの目的変数値から、前記標本データの目的変数値の期待値であるポテンシャル期待値を算出する、ポテンシャルスコアリング処理と、
    前記標本データの前記ポテンシャル期待値が前記標本データの目的変数値と比較して、相対的に高いか低いか判定してポテンシャル乖離評価値として出力する、ポテンシャル乖離評価処理を行うことを特徴とする請求項10から14までのいずれか1項に記載のデータ分析プログラム。
  16. 標本データ毎の目的変数を示す目的変数テーブルと、標本データ毎の説明変数を示す説明変数テーブルとを保存した分析データベースを参照し、前記標本データ毎に、前記説明変数の組合せ毎に、
    前記説明変数の組合せで構成される空間において、前記標本データの周囲に存在し前記標本データからの距離が近い順番に所定数だけ得られる近傍データが存在するか判定して、前記近傍データを抽出する近傍データ抽出処理部と、
    前記標本データ毎に、事前に求められた類似データ判定閾値を基準として、前記近傍データの目的変数値の標準偏差が、前記類似データ判定閾値と全データの目的変数値の標準偏差との積より小さいか否かに基づいて全データの目的変数値より前記近傍データの目的変数値の方が類似しているか否かを判定して、近傍類似データを抽出する類似データ抽出処理部と
    を有することを特徴とするデータ分析装置。
JP2014037302A 2013-08-30 2014-02-27 データ分析プログラム、及びデータ分析装置 Active JP6300572B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014037302A JP6300572B2 (ja) 2013-08-30 2014-02-27 データ分析プログラム、及びデータ分析装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013179467 2013-08-30
JP2013179467 2013-08-30
JP2014037302A JP6300572B2 (ja) 2013-08-30 2014-02-27 データ分析プログラム、及びデータ分析装置

Publications (2)

Publication Number Publication Date
JP2015064856A JP2015064856A (ja) 2015-04-09
JP6300572B2 true JP6300572B2 (ja) 2018-03-28

Family

ID=52832656

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014037302A Active JP6300572B2 (ja) 2013-08-30 2014-02-27 データ分析プログラム、及びデータ分析装置

Country Status (1)

Country Link
JP (1) JP6300572B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6740157B2 (ja) * 2017-03-13 2020-08-12 株式会社東芝 解析装置、解析方法、及び、プログラム
CN113743539B (zh) * 2021-11-03 2022-02-08 南京云问网络技术有限公司 一种基于深度学习的表格检索方法
CN116011403B (zh) * 2023-03-27 2023-10-03 莱芜职业技术学院 一种用于计算机数据存储的重复数据识别方法

Also Published As

Publication number Publication date
JP2015064856A (ja) 2015-04-09

Similar Documents

Publication Publication Date Title
US11734233B2 (en) Method for classifying an unmanaged dataset
US9965531B2 (en) Data storage extract, transform and load operations for entity and time-based record generation
JP6028103B2 (ja) データ管理方法、データ管理装置及び記憶媒体
CN108133418A (zh) 实时信用风险管理系统
JP6414363B2 (ja) 予測システム、方法およびプログラム
JP6059122B2 (ja) 顧客データ解析システム
US10255300B1 (en) Automatically extracting profile feature attribute data from event data
JP6311851B2 (ja) 共クラスタリングシステム、方法およびプログラム
JP6837411B2 (ja) 販売促進装置、販売促進方法及び販売促進プログラム
JP7428927B2 (ja) ノード情報推定方法、ノード情報推定プログラムおよび情報処理装置
WO2018186090A1 (ja) モデル変数候補生成装置および方法
JP6300572B2 (ja) データ分析プログラム、及びデータ分析装置
WO2017203672A1 (ja) アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置
JP7065718B2 (ja) 判断支援装置および判断支援方法
Ashraf et al. Feature selection techniques on thyroid, hepatitis, and breast cancer datasets
JP2006215737A (ja) 新規クラスター分析方法
Trivedi et al. Prediction of polarities of online hotel reviews: an improved stacked decision tree (ISD) approach
US10325212B1 (en) Predictive intelligent softbots on the cloud
Midha et al. A survey on classification techniques in data mining
Silva et al. A categorical clustering of publishers for mobile performance marketing
Jun A technology forecasting method using text mining and visual apriori algorithm
JP5506629B2 (ja) 準頻出構造パターンマイニング装置と頻出構造パターンマイニング装置とそれらの方法、及びプログラム
JP6243314B2 (ja) 分析装置、分析方法、及び分析プログラム
JP6393411B2 (ja) データ分析支援システム及びデータ分析支援方法
Kaur Customer segmentation using clustering algorithm

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20150225

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161004

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171004

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20171212

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180112

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20180123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180227

R150 Certificate of patent or registration of utility model

Ref document number: 6300572

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250