JP4384105B2 - 空間データマイニング装置、方法およびプログラム - Google Patents

空間データマイニング装置、方法およびプログラム Download PDF

Info

Publication number
JP4384105B2
JP4384105B2 JP2005275649A JP2005275649A JP4384105B2 JP 4384105 B2 JP4384105 B2 JP 4384105B2 JP 2005275649 A JP2005275649 A JP 2005275649A JP 2005275649 A JP2005275649 A JP 2005275649A JP 4384105 B2 JP4384105 B2 JP 4384105B2
Authority
JP
Japan
Prior art keywords
spatial
model
evaluation
point
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005275649A
Other languages
English (en)
Other versions
JP2007087144A (ja
Inventor
藤 誠 佐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2005275649A priority Critical patent/JP4384105B2/ja
Publication of JP2007087144A publication Critical patent/JP2007087144A/ja
Application granted granted Critical
Publication of JP4384105B2 publication Critical patent/JP4384105B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、空間データベースから事例属性の予測を行う空間モデルを学習するための空間データマイニング装置、方法およびプログラム、特に事例の空間分布を考慮した空間モデルを学習するための空間データマイニング装置、方法およびプログラムに関する。
地理情報システム(GIS)の普及に伴い、位置情報と複数の属性情報を持つ事例を集めた空間データベースから、事例のある属性の値を他の属性の値を用いて予測するための空間モデルを学習する空間データマイニング技術が注目されている。事例に位置情報が設定されている場合、事例間の幾何学的関係や、事例と地図データなどの外部データとの幾何学的関係を空間特徴として抽出することができる。そこで、もし予測対象の属性が、抽出した空間特徴の影響を受けているならば、それらの空間特徴を事例の新たな属性情報として空間モデルに加えることにより、より精度の高いモデルの学習が期待できる。
特開2004-126757公報に開示されたデータ予測方法に関する発明では、空間特徴を用いて空間データベースのある属性を予測するための予測規則を空間モデルとして学習するための方法が示されている。そして例えば、交通事故発生時間帯({朝, 昼, 夜}の値をとる)という属性を予測するために、「カーブが10m以内=Yes → 夜」、「市町村名=A市 → 朝」などの予測規則を得ることを可能にしている。
特開2004-126757公報
しかしながら、従来の空間モデル学習法は予測誤差がなるべく小さくなることを考慮してモデルを構築しており、事例の空間分布を考慮していない。そのため、例えば、事例が集中する地点の予測精度は良いが事例が疎な部分の予測精度が悪かったり、空間の一部分でしか予測が有効でないという空間モデルが得られてしまうという問題点があった。
本発明は以上のような問題を解決するためになされたものであり、その目的は、事例の空間分布を考慮した空間モデルを空間データベースから学習することが可能な、空間データマイニング装置、方法およびプログラムを提供することにある。
本発明の一態様に従った空間データマイニング装置は、位置情報と属性情報とを含む事例を複数集めた空間データベースに基づき前記空間データベースのある属性の値から他の属性の値を予測する決定木を学習するための空間データマイニング装置であって、
前記空間データベースにおける前記他の属性と異なる属性の値によって前記事例を分割する条件を定めた複数の空間モデル候補を格納する空間モデル候補格納手段と、
前記空間モデル候補の局所的な好ましさを評価するための複数の評価地点の位置情報を格納する評価地点格納手段と、
前記複数の空間モデル候補のそれぞれに従って前記決定木の末端ノードのうちの1つである着目ノードに分類される事例群を分割することにより複数の事例組を含む分割空間データを前記空間モデル候補毎に取得する空間データ分割手段と、
前記着目ノードに分類される事例群における前記他の属性の値の、前記着目ノードに割り当てられた前記他の属性の値に対するGini統計量、情報量または最小自乗誤差であるモデル誤差を計算するとともに、前記複数の空間モデル候補のそれぞれから得られた前記複数の事例組のそれぞれ毎に前記事例組における前記他の属性の値の、前記着目ノードに割り当てられた前記他の属性の値に対する、Gini統計量、情報量または最小自乗誤差であるモデル誤差を算出するモデル誤差算出手段と、
前記複数の空間モデル候補のそれぞれから得られた前記複数の事例組のそれぞれ毎に、各前記評価地点のそれぞれに対する点密度を、各前記評価地点の位置と、前記事例組に含まれる事例の位置とから算出する分割点密度算出手段と、
前記空間モデル候補のうちの1つと前記評価地点のうちの1つとの組合せ毎に、
前記着目ノードに分類される事例群に対して算出された前記モデル誤差と、
前記空間モデル候補のうちの前記1つから得られた前記複数の事例組について前記評価地点のうちの前記1つに対して算出された各前記点密度の、前記複数の事例組に対して算出された各前記モデル誤差による重み付け合計と、
の差分を計算することにより、局所的モデル評価値を計算するモデル評価手段と、
を有する局所モデル評価手段と、
各前記評価地点の重要度をそれぞれ表す地点重みを格納する地点重み格納手段と、
前記空間モデル候補毎に、各前記評価地点のそれぞれの前記地点重みからなるベクトルと、前記空間モデル候補に対応して各前記評価地点のそれぞれに対して計算された前記局所的モデル評価値からなる配列との内積を計算し、各前記空間モデル候補のうち、最も内積値の大きい空間モデル候補を選択する、空間モデル選択手段と、
を備え、前記選択した空間モデル候補に従って前記着目ノードを分岐するように前記決定木を拡張することを特徴とする。
本発明の一態様としての空間データマイニング方法は、位置情報と属性情報とを含む事例を複数集めた空間データベースに基づき前記空間データベースのある属性の値から他の属性の値を予測する決定木を学習するための、コンピュータにおいて実行する空間データマイニング方法であって、
前記空間データベースにおける前記他の属性と異なる属性の値によって前記事例を分割する条件を定めた複数の空間モデル候補を格納する空間モデル候補格納手段から前記複数の空間モデル候補を読み出すステップと、
前記空間モデル候補の局所的な好ましさを評価するための複数の評価地点の位置情報を格納する評価地点格納手段から前記複数の評価地点を読み出すステップと、
前記複数の空間モデル候補のそれぞれに従って前記決定木の末端ノードのうちの1つである着目ノードに分類される事例群を分割することにより複数の事例組を含む分割空間データを前記空間モデル候補毎に取得する空間データ分割ステップと、
前記着目ノードに分類される事例群における前記他の属性の値の、前記着目ノードに割り当てられた前記他の属性の値に対するGini統計量、情報量または最小自乗誤差であるモデル誤差を計算するとともに、前記複数の空間モデル候補のそれぞれから得られた前記複数の事例組のそれぞれ毎に前記事例組における前記他の属性の値の、前記着目ノードに割り当てられた前記他の属性の値に対する、Gini統計量、情報量または最小自乗誤差であるモデル誤差を算出するモデル誤差算出ステップと、
前記複数の空間モデル候補のそれぞれから得られた前記複数の事例組のそれぞれ毎に、各前記評価地点のそれぞれに対する点密度を、各前記評価地点の位置と、前記事例組に含まれる事例の位置とから算出する分割点密度算出ステップと、
前記空間モデル候補のうちの1つと前記評価地点のうちの1つとの組合せ毎に、
前記着目ノードに分類される事例群に対して算出された前記モデル誤差と、
前記空間モデル候補のうちの前記1つから得られた前記複数の事例組について前記評価地点のうちの前記1つに対して算出された各前記点密度の、前記複数の事例組に対して算出された各前記モデル誤差による重み付け合計と、
の差分を計算することにより、局所的モデル評価値を計算するモデル評価ステップと、
各前記評価地点の重要度をそれぞれ表す地点重みを格納する地点重み格納手段から各前記評価地点の前記地点重みを読み出すステップと、
前記空間モデル候補毎に、各前記評価地点のそれぞれの前記地点重みからなるベクトルと、前記空間モデル候補に対応して各前記評価地点のそれぞれに対して計算された前記局所的モデル評価値からなる配列との内積を計算し、各前記空間モデル候補のうち、最も内積値の大きい空間モデル候補を選択する空間モデル選択ステップと、
を備え、前記選択した空間モデル候補に従って前記着目ノードを分岐するように前記決定木を拡張することを特徴とすることを特徴とする。
本発明の一態様としてのプログラムは、位置情報と属性情報とを含む事例を複数集めた空間データベースに基づき前記空間データベースのある属性の値から他の属性の値を予測する決定木を学習するための、コンピュータに実行させるプログラムであって、
前記空間データベースにおける前記他の属性と異なる属性の値によって前記事例を分割する条件を定めた複数の空間モデル候補を格納する空間モデル候補格納手段から前記複数の空間モデル候補を読み出すステップと、
前記空間モデル候補の局所的な好ましさを評価するための複数の評価地点の位置情報を格納する評価地点格納手段から前記複数の評価地点を読み出すステップと、
前記複数の空間モデル候補のそれぞれに従って前記決定木の末端ノードのうちの1つである着目ノードに分類される事例群を分割することにより複数の事例組を含む分割空間データを前記空間モデル候補毎に取得する空間データ分割ステップと、
前記着目ノードに分類される事例群における前記他の属性の値の、前記着目ノードに割り当てられた前記他の属性の値に対するGini統計量、情報量または最小自乗誤差であるモデル誤差を計算するとともに、前記複数の空間モデル候補のそれぞれから得られた前記複数の事例組のそれぞれ毎に前記事例組における前記他の属性の値の、前記着目ノードに割り当てられた前記他の属性の値に対する、Gini統計量、情報量または最小自乗誤差であるモデル誤差を算出するモデル誤差算出ステップと、
前記複数の空間モデル候補のそれぞれから得られた前記複数の事例組のそれぞれ毎に、各前記評価地点のそれぞれに対する点密度を、各前記評価地点の位置と、前記事例組に含まれる事例の位置とから算出する分割点密度算出ステップと、
前記空間モデル候補のうちの1つと前記評価地点のうちの1つとの組合せ毎に、
前記着目ノードに分類される事例群に対して算出された前記モデル誤差と、
前記空間モデル候補のうちの前記1つから得られた前記複数の事例組について前記評価地点のうちの前記1つに対して算出された各前記点密度の、前記複数の事例組に対して算出された各前記モデル誤差による重み付け合計と、
の差分を計算することにより、局所的モデル評価値を計算するモデル評価ステップと、
各前記評価地点の重要度をそれぞれ表す地点重みを格納する地点重み格納手段から各前記評価地点の前記地点重みを読み出すステップと、
前記空間モデル候補毎に、各前記評価地点のそれぞれの前記地点重みからなるベクトルと、前記空間モデル候補に対応して各前記評価地点のそれぞれに対して計算された前記局所的モデル評価値からなる配列との内積を計算し、各前記空間モデル候補のうち、最も内積値の大きい空間モデル候補を選択する空間モデル選択ステップと、
を備え、前記選択した空間モデル候補に従って前記着目ノードを分岐するように前記決定木を拡張することを特徴とする。
本発明により、事例の空間分布を考慮した空間モデルを空間データベースから学習することが可能になる。
以下、図面に基づいて、本発明の実施の形態について説明する。
図1は、本発明にかかわる空間データマイニング装置の一実施の形態を示した構成図である。図1に示されるように、この空間データマイニング装置は、空間データベース101、空間モデル候補格納手段102、評価地点格納手段103、局所的モデル評価手段104、局所的モデル評価値格納手段105、地点重み算出手段106、地点重み格納手段107、空間モデル選択手段108、および、空間モデル格納手段109を備えている。
各手段による機能は、ハードウェア処理によって、またはプログラムをコンピュータに実行させることによって達成される。
空間データベース101には、複数のデータベースレコードが格納される。各データベースレコードは一つ以上の属性情報と、位置情報とからなる。1つのデータベースレコードは1つの事例に相当する。
図2は空間データベースの例である。図2において、一つのレコードがある店舗の情報を表しており、事例ID、エリア名(店舗の所在する市の名前)、駅(駅から店舗までの距離を2値化したもの)、売り場(店舗の売り場面積を2値化したもの)、利益(店舗の利益を2値化したもの)という4つの属性情報、および、(X, Y)という店舗の位置情報から構成されている。属性情報に関しては、あらかじめユーザが蓄積したものに加え、位置情報と市販の地図とから空間特徴抽出によって得られたものなどを用いることができる。例えば、エリア名などは地図の行政境界線ポリゴンを読み込み、店舗地点とポリゴンの内外判定により値を決定することができる。位置情報に関しては、緯度経度や平面座標系など位置を特定するためのデータを用いることができる。
図3は図2の空間データベースの事例を利益属性に注目してプロットしたものである。図3において、円の中心が店舗の位置を表し、数値が事例IDを表している。また、円のスタイルが斜線となっているものは利益の悪い店舗を、斜線となっていないものは利益の良い店舗を表している。
以下では、他の属性情報から利益属性を予測変数とする空間モデルとして、決定木を学習する場合を考える。決定木を用いた空間モデルの学習では、ある葉ノードに割り当てられた事例Dにおける予測変数Yのモデル誤差と、条件Cを用いて事例Dを分割したそれぞれの事例における予測変数のモデル誤差とを考慮してモデルを評価し、最適な条件Cを用いて葉ノードから新たな葉ノードを生成することにより空間モデルを改良する。図4は2分木による決定木学習の例であり、空間データDが割り当てられた葉ノードのみからなる決定木401から、条件cを用いてD1とD2という2つの分割空間データが割り当てられる決定木402が得られている。一般的な決定木の学習では、考えられるすべての条件Cを採用したモデルを空間モデル候補としてモデル評価関数F(Y|D,C)の値を計算し、評価値が最大となる候補を採用するという処理を再帰的に行う。図2に示した空間データベース201の空間データをDとしたときの空間モデル候補は図5(A)のI〜Vの5種類、すなわち図5(B)に示す5種類となり、空間モデル格納手段101に格納される。条件I〜Vはそれぞれ空間モデル候補のパラメータに相当する。
モデル評価関数F(Y|D,C)に関しては、Gini統計量を用いた関数や情報量を用いた関数、最小自乗誤差を用いた関数などが一般に用いられる(応用2進木解析法, 日科技連, ISBN4-8171-2028-2、およびAIによるデータ解析, トッパン, ISBN4-8101-8920-1参照)。例えば、Gini統計量を用いたモデル評価関数を用いると、501の空間モデル候補の評価値は図6のようになる。すなわち、事例の空間分布を考慮しない空間モデルの学習では、図6の602に示したモデル評価値の最も高い条件Iが選択されることになる。
図7は、条件I(エリア名=A市)によって事例を分割した結果を示す。図7において、実線702はA市の行政界であり空間データの分割境界線に相当する。分割空間データD1に含まれる事例は○印で、D2に含まれる事例は□印で表されている。A市に含まれる店舗はすべて「利益=良い」となっているので条件Iによって予測精度の改善が期待されるが、空間的に密集しているため本当はその地点に(大規模団地など)他の有利な要因がありA市に含まれているのが原因でない恐れもある。そのような場合、事例の空間分布を考慮し、事例が密集する地点の評価値を相対的に低くするようなモデル評価方法が有効と考えられる。
また、条件Iによって切り取られる領域はA市の行政界という空間的に連続した一つの領域となり、空間的に様々な地点で有効な条件とはいえないため、得られたモデルを他の領域(例えば他県)に適用しようとしても有効に機能しない。図8に条件IV(駅=近い)によって事例を分割した結果を示す。図8において、点線802は駅に近いかどうかを判定する境界線であり空間データの分割境界線に相当する。点線802の中心が駅の位置に相当する。分割空間データD1に含まれる事例は○印で、D2に含まれる事例は□印で表されている。条件IVによって切り取られる領域は、空間的に様々な地点で有効な条件となるので、得られたモデルを他の領域に適用しても有効に機能することが期待できる。このような、空間分布を考慮したモデルの評価方法が有効と考えられる。
本発明では、事例の空間分布を考慮したモデルを学習するため、単に空間全体の事例に対するモデルの価値をモデル評価値とするのではなく、複数の評価地点におけるモデルの局所的な価値を算出し、それらを用いて総合的にモデルの評価を行う。
評価地点格納手段103には、空間モデルの局所的な価値を算出するための評価地点が格納される。評価地点はグリッド状に決められていても良いし、ランダムにサンプルしたり、市役所の所在地などにしても良い。また、必要なければ山間部や海などの領域には評価地点を置かなくても良い。
図9は評価地点の例であり、グリッド状の4つの点が格納されている。
局所的モデル評価手段104は、空間データベース102に格納された空間データを用いて、空間モデル候補格納手段101に格納された空間モデル候補のそれぞれについて、評価地点格納手段103に格納された地点における局所的なモデルの好ましさを表す局所的モデル評価値を算出し、局所的モデル評価値格納手段105に格納する。上記に示した決定木の例では、空間データDを用いて、条件Cを採用した変数Yを予測するための決定木の地点sにおける局所的モデル評価関数はf(Y|D, C, s)によって表すことができ、局所的モデル評価手段104はこの値を計算する。
図10は、図1の局所モデル評価手段104の構成を詳細に示した構成図である。図10に示されるように、この局所モデル評価手段104は、空間データ分割手段1001、分割空間データ格納手段1002、モデル誤差算出手段1003、モデル誤差格納手段1004、分割点密度算出手段1005、分割点密度格納手段1006、モデル評価手段1007を備えている。
空間データ分割手段1001は、空間モデル候補格納手段101に格納されたモデル候補を用いて、空間データベース102に格納された空間データの事例を分割し、分割空間データ格納手段1002に格納する。例えば、空間データ201と、501の条件Iとにより得られる分割空間データは、{D1:事例ID1〜5、D2:事例ID6〜14}となる。
モデル誤差算出手段1003は、分割空間データ格納手段1002に格納された分割空間データと全空間データの予測対象変数に関して誤差関数e()を用いてモデル誤差を算出し、モデル誤差格納手段1004に格納する。誤差関数としては、Gini統計量を用いた関数や情報量を用いた関数、最小自乗誤差を用いた関数などが一般に用いられる。条件Iの分割空間データに対するモデル誤差は:
{Gini(y(D))=0.49, Gini(y(D1))=0, Gini(y(D2))=0.444}
となる。ここで、y(D)は空間データDの予測変数のみを取り出す関数であり、Gini(y)は変数yのGini統計量を計算する関数である。図5における501のすべての条件について算出されたモデル誤差を図11に示す。
分割点密度算出手段1005は、分割空間データ格納手段1002に格納されたそれぞれの分割空間データの位置座標を用いて、評価地点格納手段103に格納された評価地点sにおける点密度を算出し分割点密度格納手段1006に格納する。
点密度の推定は様々な方法を用いることができる。例えばカーネル法を用いると、データDに対する地点sの点密度λ(s,D)は(式1)によって求めることができる。
Figure 0004384105
ここで、N(D)は空間データDの要素数を求める関数であり、siは空間データDのi番目の事例の位置情報である。また、k()はカーネル関数であり、τはカーネル半径を表すパラメータである。カーネル関数には、例えば(式2)のような関数を用いることができる。
Figure 0004384105
空間モデル候補501および分割空間データに関する評価地点901の分割点密度を図12に示す。図12において、点密度の推定は(式1)-(式2)のカーネル法を用い、カーネル半径はτ=4.0とした。
モデル評価手段1007は、分割点密度格納手段1006に格納された分割点密度と、モデル誤差格納手段1004に格納されたモデル誤差を用いて、各評価地点におけるモデル候補の価値を局所的モデル評価値として算出し、局所的モデル評価値格納手段105に格納する。
局所的モデル評価値f(Y|D,C,s)の算出には、例えば(式3)を用いることができる。
Figure 0004384105
ただし、Kは空間データの分割数であり、2分木の場合はK=2となる。また、
Figure 0004384105
である。
ここで、分割点密度の集合{λ(s, Di)}のばらつきが大きいということは、地点sの近傍において空間データの分割境界線が多く存在することを意味する。そこで、{λ(s,Di)}のばらつきが大きい地点の価値を相対的に高くすれば、当該地点の近傍においては分割境界線が多く様々な地点で事例を分割できるので、様々な地点で有効な空間モデルを獲得できる。そこで、局所的モデル評価値f(Y|D,C,s)の算出には、例えば(式5)を用いることができる。
Figure 0004384105
ただし、g({λ(s,Di)})は分割点密度のばらつき係数を求める関数であり、例えば、
Figure 0004384105
のように求めることができる。ここで、αは正のパラメータであり、h({λ(s,Dj)})は分割点密度のばらつきを計算する関数であり、情報エントロピーや分散などを用いても良い。
図13に、1101のモデル誤差と1201の分割点密度を用いた場合の局所的モデル評価値を示す。ここで、h({λ(s,Di)})は情報エントロピーを用い、α=3.3とした。図13によると、条件Iの価値は評価地点dのみで高く、条件IVの価値はすべての評価地点で安定して高いことがわかる。
図1にもどり地点重み算出手段106は、空間データベース102に格納された空間データを用いて、評価地点格納手段103に格納された評価地点のそれぞれに対する地点重みを算出し、地点重み格納手段107に格納する。地点重みは、その地点における空間モデルの価値の重要度を表すためのスカラー値であり、どの評価地点も重要度が同じならば定数にすればよく、近隣に空間データの事例が多い地点が重要ならば点密度を用いればよい。また、評価地点近辺の人口や評価地点が対応する領域の面積などを用いて地点重みを調節することも可能である。
上で述べたように、事例が密集する地点の予測を空間モデルが重視し過ぎないようにするためには、地点重みw(s,D)を(式7)のようにすればよい。
Figure 0004384105
ここで、min()は最小値をとる関数であり、λmaxは点密度の上限を設定するためのパラメータである。図14に、空間データベース201と評価地点901に対して(式7)を用いて地点重みを算出した例を示す。ただし、λmax=2.0とした。
空間モデル選択手段108は、局所的モデル評価値格納手段105に格納された各空間モデル候補の局所的モデル評価値と、地点重み格納手段107に格納された地点重みを用いて最適な空間モデルを選択し、空間モデル格納手段109に格納する。最適な空間モデルの選択では、例えば、すべての空間モデル候補に関して(式8)を用いて空間モデル評価値F’(Y|C,D)を計算する。すなわち、各評価地点に対する地点重みからなるベクトルと、各評価地点に対する局所的モデル評価値からなる配列との内積を、すべての空間モデル候補についてそれぞれ計算する。そして、すべての空間モデル候補に関して求めた空間モデル評価値のうち最大の値をとる空間モデル候補を選択する。
Figure 0004384105
図15に、局所的モデル評価値1301と地点重み1401に対して(式8)を用いて空間モデル評価値を算出した例を示す。この結果では、条件IVを採用した空間モデルが最適となっているので、条件IVによって分岐するように決定木を拡張する。すなわち図5(B)の左から4番目の空間モデル候補を選択する。以下、データD1とD2に対しても同様の処理を終了条件を満たすまで再帰的に行いモデルを学習する。例えば、図5(B)の左から4番目の決定木の枝を1つ延ばした空間モデル候補を生成して空間モデル候補格納手段102に入力し、以上と同様の処理を行う。最終的に得られた空間モデルを図16に示す。
このように、評価地点における空間モデルの局所的な価値と評価地点の重要性を考慮して最適な空間モデルを選択することにより、事例の空間分布を考慮した空間モデルの学習が可能になる。
本発明の一実施形態に関わる空間データマイニング方法の構成図 空間データベースの例を示す図 空間データベースの事例をプロットした例を示す図 決定木の学習の例を示す図 空間モデル候補の例を示す図 一般的な空間モデル評価値の例を示す図 条件Iによる分割空間データの事例をプロットした例を示す図 条件IVによる分割空間データの事例をプロットした例を示す図 評価地点の例を示す図 本発明の一実施形態に関わる局所的モデル評価手段の構成図 モデル誤差の例を示す図 分割点密度の例を示す図 局所的モデル評価地の例を示す図 地点重みの例を示す図 空間モデル評価値の例を示す図 最終的に得られた空間モデルを示す図
符号の説明
101 空間データベース
102 空間モデル候補格納手段
103 評価地点格納手段
104 局所的モデル評価手段
105 局所的モデル評価地格納手段
106 地点重み算出手段
107 地点重み格納手段
108 空間モデル選択手段
109 空間モデル格納手段
201 空間データベースの例
301 空間データベースの事例をプロットした例
401 決定木の拡張前の例
402 決定木の拡張後の例
501 空間モデル候補の例
601 一般的な空間モデル評価値の例
701 条件Iによる分割空間データの事例をプロットした例
702 条件Iによる分割境界線
801 条件IVによる分割空間データの事例をプロットした例
802 条件IVによる分割境界線
901 評価地点の例
1001 空間データ分割手段
1002 分割空間データ格納手段
1003 モデル誤差算出手段
1004 モデル誤差格納手段
1005 分割点密度算出手段
1006 分割点密度格納手段
1007 モデル評価手段
1101 モデル誤差の例
1201 分割点密度の例
1301 局所的モデル評価値の例
1401 地点重みの例
1501 空間モデル評価値の例

Claims (7)

  1. 位置情報と属性情報とを含む事例を複数集めた空間データベースに基づき前記空間データベースのある属性の値から他の属性の値を予測する決定木を学習するための空間データマイニング装置であって、
    前記空間データベースにおける前記他の属性と異なる属性の値によって前記事例を分割する条件を定めた複数の空間モデル候補を格納する空間モデル候補格納手段と、
    前記空間モデル候補の局所的な好ましさを評価するための複数の評価地点の位置情報を格納する評価地点格納手段と、
    前記複数の空間モデル候補のそれぞれに従って前記決定木の末端ノードのうちの1つである着目ノードに分類される事例群を分割することにより複数の事例組を含む分割空間データを前記空間モデル候補毎に取得する空間データ分割手段と、
    前記着目ノードに分類される事例群における前記他の属性の値の、前記着目ノードに割り当てられた前記他の属性の値に対するGini統計量、情報量または最小自乗誤差であるモデル誤差を計算するとともに、前記複数の空間モデル候補のそれぞれから得られた前記複数の事例組のそれぞれ毎に前記事例組における前記他の属性の値の、前記着目ノードに割り当てられた前記他の属性の値に対する、Gini統計量、情報量または最小自乗誤差であるモデル誤差を算出するモデル誤差算出手段と、
    前記複数の空間モデル候補のそれぞれから得られた前記複数の事例組のそれぞれ毎に、各前記評価地点のそれぞれに対する点密度を、各前記評価地点の位置と、前記事例組に含まれる事例の位置とから算出する分割点密度算出手段と、
    前記空間モデル候補のうちの1つと前記評価地点のうちの1つとの組合せ毎に、
    前記着目ノードに分類される事例群に対して算出された前記モデル誤差と、
    前記空間モデル候補のうちの前記1つから得られた前記複数の事例組について前記評価地点のうちの前記1つに対して算出された各前記点密度の、前記複数の事例組に対して算出された各前記モデル誤差による重み付け合計と、
    の差分を計算することにより、局所的モデル評価値を計算するモデル評価手段と、
    を有する局所モデル評価手段と、
    各前記評価地点の重要度をそれぞれ表す地点重みを格納する地点重み格納手段と、
    前記空間モデル候補毎に、各前記評価地点のそれぞれの前記地点重みからなるベクトルと、前記空間モデル候補に対応して各前記評価地点のそれぞれに対して計算された前記局所的モデル評価値からなる配列との内積を計算し、各前記空間モデル候補のうち、最も内積値の大きい空間モデル候補を選択する、空間モデル選択手段と、
    を備え、前記選択した空間モデル候補に従って前記着目ノードを分岐するように前記決定木を拡張することを特徴とする空間データマイニング装置。
  2. 前記空間データベースに含まれる事例群の各前記評価地点に対する点密度を、前記事例群の位置と、各前記評価地点の位置とから計算する地点重み算出手段をさらに備え、
    前記地点重み格納手段は、前記地点重み算出手段により計算された各前記評価地点の点密度を、各前記評価地点の前記地点重みとして格納する、
    ことを特徴とする請求項1に記載の空間データマイニング装置。
  3. 前記地点重み格納手段は前記評価地点毎に、前記計算された点密度と、あらかじめ設定された点密度上限値とうちの最小値を前記地点重みとして格納する、
    ことを特徴とする請求項2に記載の空間データマイニング装置。
  4. 前記モデル評価手段は、
    前記組合せ毎に、前記複数の事例組に対して算出された点密度のばらつきを計算し、
    前記組合せ毎に、前記差分に前記ばらつきを乗じることにより、前記局所的モデル評価値を計算する、
    ことを特徴とする請求項1に記載の空間データマイニング装置。
  5. 前記分割点密度算出手段は、カーネル法により前記点密度を計算することを特徴とする請求項1ないし4のいずれか一項に記載の空間データマイニング装置。
  6. 位置情報と属性情報とを含む事例を複数集めた空間データベースに基づき前記空間データベースのある属性の値から他の属性の値を予測する決定木を学習するための、コンピュータにおいて実行する空間データマイニング方法であって、
    前記空間データベースにおける前記他の属性と異なる属性の値によって前記事例を分割する条件を定めた複数の空間モデル候補を格納する空間モデル候補格納手段から前記複数の空間モデル候補を読み出すステップと、
    前記空間モデル候補の局所的な好ましさを評価するための複数の評価地点の位置情報を格納する評価地点格納手段から前記複数の評価地点を読み出すステップと、
    前記複数の空間モデル候補のそれぞれに従って前記決定木の末端ノードのうちの1つである着目ノードに分類される事例群を分割することにより複数の事例組を含む分割空間データを前記空間モデル候補毎に取得する空間データ分割ステップと、
    前記着目ノードに分類される事例群における前記他の属性の値の、前記着目ノードに割り当てられた前記他の属性の値に対するGini統計量、情報量または最小自乗誤差であるモデル誤差を計算するとともに、前記複数の空間モデル候補のそれぞれから得られた前記複数の事例組のそれぞれ毎に前記事例組における前記他の属性の値の、前記着目ノードに割り当てられた前記他の属性の値に対する、Gini統計量、情報量または最小自乗誤差であるモデル誤差を算出するモデル誤差算出ステップと、
    前記複数の空間モデル候補のそれぞれから得られた前記複数の事例組のそれぞれ毎に、各前記評価地点のそれぞれに対する点密度を、各前記評価地点の位置と、前記事例組に含まれる事例の位置とから算出する分割点密度算出ステップと、
    前記空間モデル候補のうちの1つと前記評価地点のうちの1つとの組合せ毎に、
    前記着目ノードに分類される事例群に対して算出された前記モデル誤差と、
    前記空間モデル候補のうちの前記1つから得られた前記複数の事例組について前記評価地点のうちの前記1つに対して算出された各前記点密度の、前記複数の事例組に対して算出された各前記モデル誤差による重み付け合計と、
    の差分を計算することにより、局所的モデル評価値を計算するモデル評価ステップと、
    各前記評価地点の重要度をそれぞれ表す地点重みを格納する地点重み格納手段から各前記評価地点の前記地点重みを読み出すステップと、
    前記空間モデル候補毎に、各前記評価地点のそれぞれの前記地点重みからなるベクトルと、前記空間モデル候補に対応して各前記評価地点のそれぞれに対して計算された前記局所的モデル評価値からなる配列との内積を計算し、各前記空間モデル候補のうち、最も内積値の大きい空間モデル候補を選択する空間モデル選択ステップと、
    を備え、前記選択した空間モデル候補に従って前記着目ノードを分岐するように前記決定木を拡張することを特徴とする空間データマイニング方法。
  7. 位置情報と属性情報とを含む事例を複数集めた空間データベースに基づき前記空間データベースのある属性の値から他の属性の値を予測する決定木を学習するための、コンピュータに実行させるプログラムであって、
    前記空間データベースにおける前記他の属性と異なる属性の値によって前記事例を分割する条件を定めた複数の空間モデル候補を格納する空間モデル候補格納手段から前記複数の空間モデル候補を読み出すステップと、
    前記空間モデル候補の局所的な好ましさを評価するための複数の評価地点の位置情報を格納する評価地点格納手段から前記複数の評価地点を読み出すステップと、
    前記複数の空間モデル候補のそれぞれに従って前記決定木の末端ノードのうちの1つである着目ノードに分類される事例群を分割することにより複数の事例組を含む分割空間データを前記空間モデル候補毎に取得する空間データ分割ステップと、
    前記着目ノードに分類される事例群における前記他の属性の値の、前記着目ノードに割り当てられた前記他の属性の値に対するGini統計量、情報量または最小自乗誤差であるモデル誤差を計算するとともに、前記複数の空間モデル候補のそれぞれから得られた前記複数の事例組のそれぞれ毎に前記事例組における前記他の属性の値の、前記着目ノードに割り当てられた前記他の属性の値に対する、Gini統計量、情報量または最小自乗誤差であるモデル誤差を算出するモデル誤差算出ステップと、
    前記複数の空間モデル候補のそれぞれから得られた前記複数の事例組のそれぞれ毎に、各前記評価地点のそれぞれに対する点密度を、各前記評価地点の位置と、前記事例組に含まれる事例の位置とから算出する分割点密度算出ステップと、
    前記空間モデル候補のうちの1つと前記評価地点のうちの1つとの組合せ毎に、
    前記着目ノードに分類される事例群に対して算出された前記モデル誤差と、
    前記空間モデル候補のうちの前記1つから得られた前記複数の事例組について前記評価地点のうちの前記1つに対して算出された各前記点密度の、前記複数の事例組に対して算出された各前記モデル誤差による重み付け合計と、
    の差分を計算することにより、局所的モデル評価値を計算するモデル評価ステップと、
    各前記評価地点の重要度をそれぞれ表す地点重みを格納する地点重み格納手段から各前記評価地点の前記地点重みを読み出すステップと、
    前記空間モデル候補毎に、各前記評価地点のそれぞれの前記地点重みからなるベクトルと、前記空間モデル候補に対応して各前記評価地点のそれぞれに対して計算された前記局所的モデル評価値からなる配列との内積を計算し、各前記空間モデル候補のうち、最も内積値の大きい空間モデル候補を選択する空間モデル選択ステップと、
    を備え、前記選択した空間モデル候補に従って前記着目ノードを分岐するように前記決定木を拡張することを特徴とするプログラム。
JP2005275649A 2005-09-22 2005-09-22 空間データマイニング装置、方法およびプログラム Expired - Fee Related JP4384105B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005275649A JP4384105B2 (ja) 2005-09-22 2005-09-22 空間データマイニング装置、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005275649A JP4384105B2 (ja) 2005-09-22 2005-09-22 空間データマイニング装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2007087144A JP2007087144A (ja) 2007-04-05
JP4384105B2 true JP4384105B2 (ja) 2009-12-16

Family

ID=37974058

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005275649A Expired - Fee Related JP4384105B2 (ja) 2005-09-22 2005-09-22 空間データマイニング装置、方法およびプログラム

Country Status (1)

Country Link
JP (1) JP4384105B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287230B (zh) * 2019-05-31 2021-03-16 武汉大学 一种大尺度区域国土空间监测并行处理方法

Also Published As

Publication number Publication date
JP2007087144A (ja) 2007-04-05

Similar Documents

Publication Publication Date Title
Yost et al. Predictive modeling and mapping sage grouse (Centrocercus urophasianus) nesting habitat using Maximum Entropy and a long-term dataset from Southern Oregon
Conroy et al. Mapping of species richness for conservation of biological diversity: conceptual and methodological issues
Miller Species distribution modeling
KR20170055953A (ko) 동적 장면 분석 방법 및 관련 분석 모듈 그리고 컴퓨터 프로그램
JP2011138487A (ja) 空間−時間関係に基づく交通予測方法およびシステム
CN109598346A (zh) 用于估计观测变量之间的因果关系的方法、装置和系统
US11676375B2 (en) System and process for integrative computational soil mapping
Nikolić et al. Implementation of generic algorithm in map-matching model
CN113865589B (zh) 一种基于地形坡度的长距离快速路径规划方法
Bununu Integration of Markov chain analysis and similarity-weighted instance-based machine learning algorithm (SimWeight) to simulate urban expansion
CN113723715A (zh) 公交线网自动匹配道路网络方法、系统、设备及存储介质
US20240200973A1 (en) Method, data processing apparatus and computer program product for generating map data
Manna et al. Modeling and predicting spatio-temporal land use land cover changes and urban sprawling in Kalaburagi City Corporation, Karnataka, India: a geospatial analysis
Cherlinka Using geostatistics, DEM and remote sensing to clarify soil cover maps of Ukraine
CN111080080B (zh) 一种村镇地质灾害风险预估方法及系统
JP4384105B2 (ja) 空間データマイニング装置、方法およびプログラム
CN115691140B (zh) 一种汽车充电需求时空分布的分析与预测方法
KR101469136B1 (ko) 의사결정트리에서 공간 예측을 위한 리프노드 등급 결정 방법 및 이를 기록한 기록매체
Muhamad Ali et al. Selection of variogram model for spatial rainfall mapping using Analytical Hierarchy Procedure (AHP)
Rivero et al. Tapirs in trouble: estimating Baird's tapir densities in the Sierra Madre de Chiapas, Mexico
Jardón et al. Spatial Markov chains implemented in GIS
CN107801418A (zh) 利用地图检索记录的流动人口推算装置及方法
Pavlis et al. Retail areas and their catchments
Karimi et al. Origin-Destination Matrix Estimation Using Socio-Economic Information and Traffic Counts on Uncongested Networks
Daoudi et al. Robust coverage optimization approach in Wireless Sensor Networks

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090616

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090806

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090904

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090924

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121002

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121002

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131002

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees