JP4088218B2 - データ抽出装置、データ抽出方法およびデータ抽出プログラム - Google Patents
データ抽出装置、データ抽出方法およびデータ抽出プログラム Download PDFInfo
- Publication number
- JP4088218B2 JP4088218B2 JP2003209088A JP2003209088A JP4088218B2 JP 4088218 B2 JP4088218 B2 JP 4088218B2 JP 2003209088 A JP2003209088 A JP 2003209088A JP 2003209088 A JP2003209088 A JP 2003209088A JP 4088218 B2 JP4088218 B2 JP 4088218B2
- Authority
- JP
- Japan
- Prior art keywords
- behavior
- history data
- action
- pattern
- places
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 49
- 238000013075 data extraction Methods 0.000 title claims description 15
- 230000009471 action Effects 0.000 claims description 238
- 238000011156 evaluation Methods 0.000 claims description 131
- 238000000605 extraction Methods 0.000 claims description 36
- 238000009826 distribution Methods 0.000 claims description 9
- 230000003542 behavioural effect Effects 0.000 claims description 2
- 230000006399 behavior Effects 0.000 description 270
- 238000013500 data storage Methods 0.000 description 37
- 230000006870 function Effects 0.000 description 27
- 238000010586 diagram Methods 0.000 description 25
- 230000008569 process Effects 0.000 description 22
- 238000007418 data mining Methods 0.000 description 12
- 239000011159 matrix material Substances 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 6
- 230000007774 longterm Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 239000004568 cement Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
【発明の属する技術分野】
本発明は、膨大なデータのなかから有用な相関規則を抽出する情報抽出(データマイニング)装置に関する。
【0002】
【従来の技術】
大規模なデータベースから規則性を抽出するためのデータマイニング手法として相関規則のマイニング方法が存在する。相関規則とは、同一レコード(レコードの構成単位をアイテムと呼ぶ)内に現れやすいアイテム集合の組み合わせである。例えば、「アイテム集合Aを含むレコードはアイテム集合Bを含む」(A→B)と記され、Aは条件部、Bは結論部と呼ばれる。消費者の購買傾向を発見する等、幅広い分野に用いられている。
【0003】
大規模データベースから相関規則を抽出する方法としては、R. Agrawal らによるAprioriと呼ばれるものがある(例えば、非特許文献1、特許文献1参照)。
【0004】
特許文献1記載の技術では、アイテム集合A→アイテム集合Bという相関規則を含むレコード数が総レコード数に占める割合を支持度とあらわし、アイテム集合A→アイテム集合Bを含むレコード数がアイテム集合Aを含むレコード数に占める割合を確信度とする。この2つの指標の下限値、最小支持度、最小確信度をユーザが指定し、共にそれ以上となるような相関規則を抽出する。
【0005】
また、Aprioriを応用した例として、時系列データより予め定めた一定時間幅における各種の属性変化パターンに対応した相関規則を抽出するデータマイニング方法がある(例えば、特許文献2参照)。
【0006】
一方、データマイニング前処理として、属性値のグルーピングや特定条件を満たすレコードの選択をユーザが行い、抽出した相関規則のうちユーザが指定した項目を含む相関規則と相関規則数を結果表示部に表示する方法がある(例えば、特許文献3参照)。
【0007】
大量に存在する離散的な行動履歴データより、多くの移動体に共通する特徴的な行動パターンを抽出したいというニーズがある。このニーズに対し従来技術を適用しようとする場合、次のような課題がある。
【0008】
特許文献1記載の技術では、行動履歴データベースを用いることで、多くの移動体に共通する訪問場所を抽出することは可能である。しかし、移動体の行動パターンの抽出方法として考えた時、ある訪問場所に長時間滞在しているのか、短時間滞在しているのかによってそこでの行動は異なると考えられるが、特許文献1記載の技術では、それを区別して扱うことができない。また、訪問場所間に許される制約条件を考慮しておらず、不合理な解を出すおそれがあると同時に、計算量の増大を招く可能性がある。
【0009】
特許文献2記載の技術は、行動履歴に時間の概念を入れてはいるものの、訪問場所における滞在時間を考慮するものではなく、本ニーズには対応できない。
【0010】
特許文献3記載の技術は、数値属性をユーザの指定によって離散カテゴリ化して扱えるため、滞在時間を考慮できる。しかし、例えば、滞在時間30分間未満を短期滞在、30分間以上を長期滞在とする場合、29分間と30分間は1分しか滞在時間に違いがないにもかかわらず、短期と長期に分けられてしまうという問題点がある。また、結果に対してユーザがアイテムを指定することによって表示する相関規則を調節することができるが、調節するのはあくまでも表示部分のみであり、相関規則の抽出自体は同じ手続きである。
【0011】
【非特許文献1】
”Fast Algorithms for Mining Association Rules”(Proc.of the 20th Int’l Conference on Very Large DataBases、1994)
【0012】
【特許文献1】
特開平8−263346号公報
【0013】
【特許文献2】
特開2000−242632公報
【0014】
【特許文献3】
特開平11−250084号公報
【0015】
【発明が解決しようとする課題】
このように、従来は、移動体が訪問する訪問場所と訪問順序と、各訪問場所における滞在時間とを考慮して、大量の移動体の行動履歴から、多くの移動体に共通する行動パターンを抽出することができないという問題点があった。
【0016】
そこで、本発明は、上記問題点に鑑み、大量の移動体の行動履歴から、移動体が訪問する訪問場所と訪問順序と、各訪問場所における滞在時間とで表された、多くの移動体に共通する行動パターンを容易に抽出することができるデータ抽出方法および装置を提供することを目的とする。
【0017】
【課題を解決するための手段】
本発明は、(a)複数の訪問場所を含む空間内を移動する複数の移動体のそれぞれに対応する行動履歴データであって、前記複数の訪問場所のうち当該移動体が訪問した訪問場所と各訪問場所での滞在時間と各訪問場所への訪問順序とでそれぞれ表される複数の行動履歴データを記憶手段に記憶し、(b)前記複数の行動履歴データを基に、前記複数の訪問場所のそれぞれについて、当該訪問場所における滞在時間を分類するための複数の区分を設定し、(c)前記複数の行動履歴データのそれぞれに含まれる各訪問場所における滞在時間について、前記複数の区分のそれぞれに対する適合性の評価値を求める。(d)前記複数の行動履歴データと、前記複数の行動履歴データのそれぞれに含まれる各訪問場所における前記複数の区分のそれぞれに対する評価値とを基に、前記複数の行動履歴データから、それぞれが前記複数の訪問場所のうちの1つと当該訪問場所における前記複数の区分のうちの1つとで表された複数の第1の特徴行動パターンを抽出する。さらに、(e)前記複数の第1の特徴行動パターンを組み合わせて、それぞれが、前記複数の訪問場所のうちの2つの訪問場所と、当該2つの訪問場所のそれぞれにおける前記複数の区分のうちの1つと、当該2つの訪問場所への訪問順序とで表される複数の第1の行動パターンを生成し、(f)前記複数の行動履歴データと、前記複数の行動履歴データのそれぞれに含まれる各訪問場所における滞在時間の前記複数の区分のそれぞれに対する評価値とを基に、前記複数の第1の行動パターンのなかから、前記複数の行動履歴データに出現する頻度の高い複数の第2の特徴行動パターンを選択する。さらに、(g)前記複数の第2の特徴行動パターンを組合せて、それぞれが、前記複数の訪問場所のうちの3つの訪問場所と、当該3つの訪問場所のそれぞれにおける前記複数の区分のうちの1つと、当該3つの訪問場所への訪問順序とで表される複数の第2の行動パターンを生成し、(h)前記複数の行動履歴データと、前記複数の行動履歴データのそれぞれに含まれる各訪問場所における滞在時間の前記複数の区分のそれぞれに対する評価値とを基に、前記複数の第2の行動パターンのなかから、前記複数の行動履歴データに出現する頻度の高い複数の第3の特徴行動パターンを選択する。
【0018】
本発明によれば、複数の移動体のそれぞれの行動履歴を当該移動体が訪問した訪問場所と各訪問場所での滞在時間と各訪問場所への訪問順序とで表し、大量の行動履歴を基に、各訪問場所について、当該訪問場所における滞在時間を分類するための複数の区分を設定して、各行動履歴に含まれる各訪問場所における滞在時間について、複数の区分のそれぞれに対する適合性の評価値を求めておく。このような前処理を行うことにより、上記大量の行動履歴から、多くの移動体に共通する第1の特徴行動パターン(1つの訪問場所と、当該訪問場所における複数の区分のうちの1つとで表される特徴行動パターン)と、第2の特徴行動パターン(2つの訪問場所と、当該2つの訪問場所のそれぞれにおける複数の区分のうちの1つと、当該2つの訪問場所への訪問順序とで表される特徴行動パターン)と、第3の特徴行動パターン(3つの訪問場所と、当該3つの訪問場所のそれぞれにおける複数の区分のうちの1つと、当該3つの訪問場所への訪問順序とで表される特徴行動パターン)を容易に抽出することができる。
【0019】
好ましくは、各訪問場所における滞在時間を分類するためのメンバーシップ関数を設定し、前記複数の行動履歴データのそれぞれに含まれる各訪問場所における滞在時間の、前記複数の区分のそれぞれに対する適合性の評価値を前記メンバシップ関数を用いて算出することにより、区分間の境界に曖昧性をもたせて、行動履歴中の各訪問場所における滞在時間の各区分に対する評価値をより現実に即して求めることができる。その結果、信頼性の高い特徴行動パターンの抽出が可能となる。
【0020】
また、複数の第1の特徴行動パターンを組み合わせて、複数の訪問場所間の移動を制約する条件・規則を表した第1の条件データ(制約データ)と、移動体が複数の訪問場所のうち任意の2つの訪問場所の間を移動する際に経由する訪問場所の数の上限値を定めた第2の条件データ(条件パラメータc)とを満たす、複数の第1の行動パターン(第2の特徴行動パターンを抽出する元となる行動パターンの集合(A2))を生成する。そして、この複数の第1の行動パターンのなかかから第2の特徴行動パターンを選択する。第2の特徴行動パターンを選択する元となる行動パターンの集合(A2)は、行動履歴データに出現する頻度の高い行動パターンの集合であり、候補数が予め絞り込まれているので、特徴行動パターン(第1の特徴行動パターン)を求めるための処理時間の短縮が図れる。
【0021】
さらに、複数の行動履歴データから、複数の訪問場所のうちの3つ以上の訪問場所と、当該3つ以上の訪問場所のそれぞれにおける前記複数の区分のうちの1つと、当該3つ以上の訪問場所への訪問順序とで表される第n(nは3以上の整数)の特徴行動パターンを抽出する際には、上記第3の特徴行動パターンを求める場合と同様である。すなわち、(a)第(n−1)の特徴行動パターンを組み合わせて、それぞれが、複数の訪問場所のうちのn個の訪問場所と、当該n個の訪問場所のそれぞれにおける前記複数の区分のうちの1つと、当該n個の訪問場所への訪問順序とで表される複数の行動パターンを生成し、(b)複数の行動履歴データと、当該複数の行動履歴データのそれぞれに含まれる各訪問場所における滞在時間の前記複数の区分のそれぞれに対する評価値とを基に、生成された複数の行動パターンのなかから、複数の行動履歴データに出現する頻度の高い複数の第nの特徴行動パターンを選択する。
【0022】
【発明の実施の形態】
以下、本発明の実施形態について図面を参照して説明する。
【0023】
(第1の実施形態)
図1は、本発明の実施形態にかかるデータマイニング装置の構成例を示したものである。図1において、データマイニング装置は、行動履歴データ記憶部1、滞在時間評価部2、条件設定部3、評価値付き履歴データ記憶部4、特徴行動パターン抽出部5、特徴行動パターン記憶部6、制約データ記憶部7、表示部8、入力部9から構成される。
【0024】
行動履歴データ記憶部1には、複数の訪問場所(例えば、観光地、会合や演芸会などの催し物(イベント)、Webページ、人、組織、場所の位置など)を含む活動空間における複数の移動体(ユーザが所持する携帯電話やPDAなどの携帯端末などや、ユーザそのものであってもよい)の行動履歴データであって、当該複数の訪問場所のうち各移動体が訪問した訪問場所と当該訪問場所における滞在時間とを訪問した順序に従って記録した当該複数の移動体のそれぞれに対応した複数の行動履歴データが記憶されている。ここでは、訪問場所の一例として、地理的な場所(例えば、観光地など)を用いて説明する。
【0025】
なお、行動履歴データ記憶部1は、記憶装置や記録媒体であってもよい。
【0026】
図2は、行動履歴データ記憶部1に記憶された行動履歴データの一例を示したものである。各移動体の行動履歴データには、各移動体を識別するための移動体識別ID(図2では、PID01、PID02)のほか、当該移動体が訪問した各訪問場所(図2では、P1〜P4)と、当該訪問場所への到着時刻(図2ではA_TIME11〜A_TIME24)と、当該訪問場所における滞在時間(図2ではS_TIME11〜S_TIME24)とを訪問した順に記録したものである。図2に示す行動履歴データには、さらに、行動履歴中の訪問場所の数(図2では、シーケンス長NUM_PID01、NUM_PID02)が含まれている。訪問順序は、各訪問場所への到着時刻によっても表されている。なお、行動履歴データは、訪問場所への到着および訪問場所からの離脱をあらわすイベントフラグ、訪問場所及びイベント発生時間の組を時系列に格納したものでもよい。
【0027】
例えば、図2に示した移動体「PID01」の行動履歴データでは、訪問した場所が全部でNUM_PID01箇所であり、訪問場所P1には時刻A_TIME11に到着し、S_TIME11時間滞在し、次に時刻A_TIME12に訪問場所P2に到着し、S_TIME12時間滞在したことが表されている。
【0028】
なお、以下の説明では、移動体識別IDと訪問場所については文字列で表し、滞在時間、到着時刻については数値で表している。
【0029】
ここで、行動履歴データに含まれる滞在時間について説明する。例えば、ある訪問場所で買い物をする場合と、当該訪問場所を通過する場合とを比較すると、前者の場合の滞在時間は後者の場合の滞在時間よりも格段に長くなるものである。一般的に、滞在時間には、このような行動の目的の違いが反映されるものと考えられる。そこで、本実施形態では、移動体が訪問する場所と訪問順序とともに、このような行動の目的などの違いを反映する各訪問場所における滞在時間とで表された行動パターンを行動履歴として記録しておく。そして、図1のデータマイニング装置では、大量の移動体のそれぞれから得られた上記行動履歴から、移動体が訪問する訪問場所や訪問順序の他に、各訪問場所における滞在時間が、多くの移動体で共通する行動パターン(これを特徴行動パターンと呼ぶ)を抽出する。
【0030】
行動パターンとは、ここでは、少なくとも1つの訪問場所とそこでの滞在時間、訪問場所が複数あるときには、各訪問場所とそこでの滞在時間(具体的には後述する滞在時間のセグメント(区分))を、その訪問順序に従って繋げたものである。1つの訪問場所と1つのセグメントとからなる組を、単に行動とも呼び、行動を訪問順に繋げたものが行動パターンである。シーケンス長がk(kは1以上)の行動パターンは、k個の行動を、行動した順に(訪問順)に時系列に並べたものであると云える。
【0031】
滞在時間評価部2は、行動履歴データ記憶部1に記憶された全ての行動履歴データから、各訪問場所における移動体の滞在時間の分布状況(例えば、後述するヒストグラム)を求め、各滞在時間を、その長さに応じて分類するために、訪問場所毎に複数の区分(セグメント)を定義する。各セグメントにはラベルを与える。そして、行動履歴データ記憶部1に記憶された各行動履歴データについて、当該行動履歴データ中の各訪問場所における移動体の滞在時間について、当該滞在時間の、上記複数のセグメントのそれぞれに対する適合性を表した評価値(ラベル値)を与える。その結果、行動履歴データ記憶部1に記憶された各行動履歴データ中の各訪問場所における滞在時間に、上記各ラベルに対応する評価値の付加された評価値付き履歴データが、評価値付き履歴データ記憶部4に記憶される。
【0032】
滞在時間評価部2で求めた上記ヒストグラムは、表示部8により所定のディスプレイに表示される。セグメントは、この表示されたヒストグラムを基に、ユーザが所望の分割点を指定することで生成される。ヒストグラム上の分割点の位置情報などは、マウスやキーボードなどの入力装置を介して入力部9から入力される。この分割点は、セグメントを設定するために必要なパラメータである。
【0033】
図3は、評価値付き履歴データ記憶部4に記憶される評価値付き履歴データの一例を示したものである。評価値付き行動履歴データは、上記行動履歴データの各訪問場所について、当該訪問場所に定義されたセグメント(ラベル)の数(図3では、NUM_P1からNUM_P4)と、当該訪問場所の滞在時間に対する各セグメントへの適合性を表した評価値とを追加したものである。
【0034】
図1の条件設定部3は、特徴行動パターン抽出部5で特徴行動パターンを抽出する際に用いる条件を設定するためのものである。ここで設定される条件は、条件パラメータcと最小支持度である。
【0035】
条件パラメータcは、行動パターン(行動履歴データや評価値付き履歴データ中の行動パターン、特徴行動パターン)で表された2つの連続する訪問場所間を移動体が移動する際に経由する訪問場所の数を制限するものである。すなわち、パラメータcは、行動パターン内で連続する訪問場所間に許容される他の訪問場所の数を表す。
【0036】
最小支持度は、抽出すべき特徴行動パターンの支持度の最小値を表したものである。
【0037】
条件設定部3は、条件パラメータcや最小支持度の値として、ユーザが所望の値を直接入力するようになっている。あるいは、条件設定部3には条件パラメータcや最小支持度の値としていくつか予め記憶されており、その中から、ユーザが所望の値を選択するようになっている。
【0038】
特徴行動パターン抽出部5は、評価値付き履歴データ記憶部4に記憶された評価値付き履歴データ(以下、簡単に履歴データと呼ぶ)から、多くの移動体に共通する、訪問場所と当該訪問場所における滞在時間(当該訪問場所に定義された滞在時間の長さを分類するための複数のセグメントのうちの1つ)と訪問順序を表す行動パターンを特徴行動パターンとして抽出する。すなわち、特徴行動パターンは、評価値付き履歴データ記憶部4に記憶された履歴データに頻出する(出現する頻度の高い)行動パターンである。
【0039】
特徴行動パターンを抽出する際には、上記条件設定部3で設定された条件(条件パラメータcと最小支持度)と、制約データ記憶部7に記憶された制約データを用いる。制約データは、訪問場所間の移動体の行動(例えば移動)を制約する物理的、時間的な条件・規則である。
【0040】
制約データとしては、ここでは、図4に示すような訪問場所間の地理的な連結関係を表したデータであるとする。例えば、図4に示す訪問場所P1〜P3の間の地理的な連結関係は、場所P1と場所P2との間は、経路R1で移動可能であり、場所P2と場所P3との間は経路R2で移動可能であることを表している。制約データ記憶部7には、このような地理的な連結関係を図5に示すような訪問場所の総数×訪問場所の総数の行列データとして記憶されている。ある訪問場所(列)とある訪問場所(行)が交わる要素の値が、その2訪問場所間を直接結ぶ経路数を表している。図5では、場所P2(k=2)から場所P3(i=3)への経路数EkiはE23と表されている。なお、ここでは、行列上の各要素の値Ekiは経路数であるとしたが、経路の有無を表すデータであってもよい。例えば、経路があれば「1」、なければ「0」となる。
【0041】
訪問場所P1〜P3の間に、図4に示すような地理的な連結関係が存在した場合の制約データを、図6に示す。ここでは、同じ場所を繰り返し訪問することは不可能とみなし、対角要素(E11、E22、E33…)の値は「0」とする。場所P1と場所P2との間には、経路R1が1つあるので、E12とE21の値は「1」となる。また、場所P2と場所P3との間には、経路R2が1つあるので、E23とE32の値は「1」となる。それ以外の要素値は、「0」となる。
【0042】
なお、同じ訪問場所を繰返し訪問することが可能であるとすると(例えば、図7に示すように、そのような地理的な連結関係があるとすると)、図6に示す行列データ中の対角要素E11、E22、E33は、「1」となる。また、2訪問場所間において両方からの通行が可能ならば、当該2訪問場所間の連結関係を行列で表すと図6に示すような対称行列となる。一方、2訪問場所間の通行が一方方向の場合には対象行列とはならない。2訪問場所間において、両方からの通行が可能ならば、その対称性を利用して、制約データのデータ量を1/2に減らすことができる。
【0043】
制約データ記憶部7に記憶する上記制約データを入力するための入力部(図1では図示せず)が設けられていてもよい。また、この入力部には、図5に示すような制約データを入力するためのインターフェースをもっていてもよい。この入力部は、複数種類の制約データを予め記憶しており、このなかからユーザが選択するようになっていてもよい。さらに選択された制約データを基にユーザが新たな制約データを作成するようになっていてもよい。
【0044】
経路数は、ユーザが数えて、それを行列の要素として入力するようにしてもよい。
【0045】
次に、滞在時間評価部2の処理動作について、図8に示すフローチャートを参照して説明する。
【0046】
滞在時間評価部2は、行動履歴データ記憶部1に記憶されている行動履歴データを基に、以下の処理を行う。まず、全ての行動履歴データから全ての訪問場所を抽出する(ステップS1)。各訪問場所について、行動履歴データに記録されている各訪問場所における滞在時間別に当該訪問場所を訪問した移動体の数を計数して、図9に示すような、滞在時間を横軸上にとり、各滞在時間上に、当該滞在時間の間当該訪問場所に滞在した移動体の総数を表すヒストグラムを生成する(ステップS2)。図9に示すヒストグラムは、ある訪問場所P1についてのヒストグラムであるが、このようなヒストグラムを全ての訪問場所について生成する。
【0047】
次に、図9に示した訪問場所毎のヒストグラムを基に、滞在時間の長さに応じて複数のセグメントを設定する。
【0048】
ここでセグメントの設定方法の一例を説明する。図9に示すようなヒストグラムの横軸上に、セグメントの境界を表す分割点(TP_1、TP_2)として、0.5時間(30分)と1時間がそれぞれユーザにより指定されると、この分割点を境界とする3つのセグメントが得られる(ステップS3)。各セグメントにはラベルを与える(ステップS4)。ここでは、短い滞在時間(例えばここでは0.5時間以下)のセグメントにはラベルTIMEP1_1を付し、長い滞在時間(例えばここでは1時間以上)のセグメントにはラベルTIMEP1_3を付し、これらの中間の長さの滞在時間(例えば、ここでは0.5時間以上1時間未満)のセグメントにはラベルTIMEP1_2を与えている。ステップS3、ステップS4の処理は、全ての訪問場所について行われる。このようにしてセグメントを設定することにより、各セグメントに属する滞在時間の範囲が定められたことになる。
【0049】
なお、上記分割点は、ユーザにより指定される。すなわち、図9に示すような各訪問場所について求めたヒストグラムを表示部8に表示し、これを元に、ユーザは、入力部9から所望の分割点を指定する。
【0050】
このようにして、各訪問場所について、そこでの移動体の滞在時間の分布状況に応じて複数のセグメントが設定されると、次に、行動履歴データ記憶部1に記憶された各行動履歴データ中の各訪問場所における滞在時間について、当該滞在時間の、当該訪問場所に設定された複数のセグメントのそれぞれに対応する適合性を表す評価値を求める(ステップS5)。
【0051】
例えば、図9に示したように、セグメントが定められている場合、ある行動履歴データ中のある訪問場所における滞在時間が0.25時間であるとき、これは、セグメント「TIMP1_1」に定められている滞在時間の時間範囲内であるから、当該構想履歴データ中の滞在時間の当該セグメント「TIMP1_1」に対する評価値は「1」、それ以外のセグメントに対する評価値は「0」となる。
【0052】
このようにして、訪問場所別の滞在時間に対し評価値を求める処理を、行動履歴データ記憶部1に記憶された全ての行動履歴データの全てについて行う。そして、このような訪問場所別の滞在時間に対する評価値を行動履歴データに付加して、図3に示したような履歴データが生成され、評価値付き履歴データ記憶部4に記憶される。
【0053】
図3に示した履歴データにおいて、移動体PID01の最初の訪問場所P1での滞在時間S_TIME11が0.75時間(45分)であるとき、この滞在時間は、TIMP1_2に分類される。従って、滞在時間0.75時間の、セグメント「TIMP1_1」、「TIMP1_2」、「TIMP1_3」のそれぞれに対する適合性を表す評価値は、それぞれ「0」、「1」、「0」となる。
【0054】
なお、ここでは、行動履歴データ記憶部1に記憶された行動履歴データから評価値付き履歴データを新たに作成する場合を示したが、この場合に限らず、行動履歴データ記憶部1に記憶された各行動履歴データ中の訪問場所別の滞在時間に対する評価値と求めたら、それを当該行動履歴データとは別個に記憶し、両者を対応付ける(ポインタなどを用いてリンクする)だけでもよい。
【0055】
次に、特徴行動パターン抽出部5の処理動作について説明する。特徴行動パターン抽出部5は、評価値付き履歴データ記憶部4に記憶された上記履歴データを基に処理を行う。まず、ここでの処理動作の概略を図10を参照して説明する。
【0056】
図10(a)は、ある1つの移動体の履歴データを示したものである。ここでは、当該移動体は訪問場所P1、P2をこの順序で訪問したときの履歴データである。訪問場所P1には2つのセグメントが設定され、その一方のセグメントをT1、他方のセグメントをT2と表している。また、訪問場所P2には3つのセグメントが設定され、そのうちの1つのセグメントをT3、他の1つのセグメントをT4、さらに他のセグメントをT5と表している。
【0057】
図10(a)に示し履歴データでは、ある移動体が、訪問場所P1、P2をこの順序に訪問し、訪問場所P1における滞在時間のセグメントT1に対する評価値は「1」、セグメントT2に対する評価値は「0」であり、訪問場所P2におけるセグメントT3に対する評価値は「0」、セグメントT4に対する評価値は「1」、セグメントT5に対する評価値は「0」であることを表している。また、場所P1とP2との間の経路は1つで両方向通行可能であり、同じ場所を繰返し訪問することは不可能であるという制約データが与えられているとする。
【0058】
まず、訪問場所が1つである(シーケンス長が「1」である)特徴行動パターンを抽出する場合を考える。
【0059】
特徴行動パターン抽出部5は、評価値付き履歴データ記憶部4に記憶されている履歴データに含まれている訪問場所とセグメントとから、訪問場所とセグメントとの組み合わせを全てを求める。この組合せを行動パターンと呼ぶ。例えば、図10(a)に示した履歴データからは、5つの行動パターン(P1、T1)、(P1、T2)、(P2、T3)(P2、T4)(P2、T5)が生成される。この行動パターンの集合をA1と呼ぶ。
【0060】
図10(a)に示したような履歴データでは、各訪問場所における滞在時間の評価値が「0」であるようなセグメントは無視し得る。図10(a)に示したような履歴データには、評価値が「1」であるセグメントと訪問場所との組合せである、シーケンス長が「1」の行動パターンとして、(P1、T1)、(P2、T4)が含まれている。この2つの行動パターンは、集合A1の要素でもある。すなわち、集合A1の要素である(P1、T1)、(P2、T4)という2つの行動パターンは、図10(a)に示した履歴データに含まれているので、当該履歴データの行動パターン(P1、T1)、(P2、T4)に対する適合度は「1」である。この適合度の値「1」とは、当該履歴データ中の訪問場所P1やP2における滞在時間のセグメントT1やT4に対する評価値が「1」であることに起因する。従って、行動パターンの集合A1の要素である行動パターン(P1、T1)、(P2、T4)の得点に、当該履歴データの適合度を加算する(図10(b)参照)。
【0061】
他の全ての移動体についての履歴データについても、上記同様にして、行動パターンの集合A1中のいずれかの行動パターンを含む履歴データの当該行動パターンに対する適合度を、当該行動パターンの得点に加算していく。最終的に得られた行動パターンの集合A1の各要素の得点が、当該要素(行動パターン)の支持度である。そして、行動パターンの集合A1の各要素の支持度と条件設定部3で設定された最小支持度とを比較して、集合A1のなかから、最小支持度以上の支持度をもつ行動パターンを特徴行動パターンとして抽出する。この特徴行動パターンの集合をB1とし、ここでは、例えばB1={(P1、T1)(P2、T3)(P2、T4)}が抽出されたとする(図10(c)参照)。
【0062】
次に、訪問場所が2つである(シーケンス長が「2」である)特徴行動パターンを抽出する場合を考える。この場合は、特徴行動パターンの集合B1と上記制約データとから、設定された条件パラメータcを満たすような、2地点間の行動パターンを生成する。ここでは、場所P1とP2との間の経路は1つで、同じ場所を繰返し訪問することは不可能であるという制約データが与えられているので、特徴行動パターンB1の集合B1の異なる2地点のそれぞれに対応する2つの要素からなる配列であって、条件パラメータcを満たすような配列を求める。この配列の集合が、k=2のときの行動パターンの集合A2となる。
【0063】
図10(a)に示したような履歴データに含まれている、集合B1の要素からなるシーケンス長が「2」の行動パターン(評価値が「1」であるセグメントと訪問場所との組合せの配列)は、(P1、T1)(P2、T4)である。従って、上記同様にして、図10(a)に示した履歴データの、集合A1の要素である(P1、T1)(P2、T4)という行動パターンに対する適合度は「1」である。行動パターンの集合A1の要素である行動パターン(P1、T1)(P2、T4)の得点に、当該履歴データの適合度を加算する(図10(d)参照)。
【0064】
他の全ての移動体についての履歴データについても、上記同様にして、行動パターンの集合A2中のいずれかの行動パターンを含む履歴データの当該行動パターンに対する適合度を、当該行動パターンの得点に加算していく。最終的に得られた行動パターンの集合A2の各要素の得点が、当該要素(行動パターン)の支持度である。そして、行動パターンの集合A2の各要素の支持度と、条件設定部3で設定された最小支持度とを比較して、集合A2のなかから、最小支持度以上の支持度をもつ行動パターンを特徴行動パターンとして抽出する。この特徴行動パターンの集合をB2とする。
【0065】
このようにして、大量の履歴データのなかから抽出された、シーケンス長別の行動履歴パターンは、特徴行動パターン記憶部6に記憶される。
【0066】
特徴行動パターンは、少なくとも1つの訪問場所とそこでの滞在時間の長さに対応するセグメント(ラベル)、訪問場所が複数あるときには、各訪問場所とセグメント(ラベル)を、その訪問順序に従って並べた(繋げた)データである。セグメント自体、滞在時間を表しているので、特徴行動パターンは、上記行動パターンと同様、行動(1つの訪問場所と1つのセグメントとの組)の種類と、行動した順番を表すデータである。なお、行動の種類は、訪問場所とセグメントとの組で識別することができる。
【0067】
特徴行動パターン記憶部6における特徴行動パターンの記憶例を図11に示す。特徴行動パターンは、各特徴行動パターンを識別するためのID(特徴行動パターンIDであって、図11では、FID21、FID41)、シーケンス長などともに、特徴行動パターン記憶部4に格納される。例えば、特徴行動パターンFID21は、P1にラベルTIMEP1_3に対応する滞在時間だけ滞在した後、場所P2にラベルTIMEP2_4に対応する滞在時間滞在するということを表している。
【0068】
次に、特徴行動パターン抽出部5の処理動作について、図12、図13に示すフローチャートを参照して、より詳細に説明する。
【0069】
ここでは、シーケンス長kの特徴行動パターンの集合Bkを{bk1、bk2、…}と表す。また、特徴行動パターンになりうる候補の行動パターンであって、シーケンス長kの行動パターンの集合Akを{ak1、ak2、…}と表す。ここで、生起の順序関係を保持したシーケンス長kの特徴行動パターンbkiを<bi1、bi2、・・・、bik>と表記し、同じく集合Akの要素である行動パターンakjを<aj1、aj2、・・・、ajk>と表記する。
まず、行動パターンのシーケンス長が「1」の特徴行動パターン集合B1の抽出を行う。シーケンス長kの値を「1」とする(ステップS101)、行動パターンの集合Akの生成方法は、シーケンス長kが「1」のとき、「2」のときと「3」以上のときで異なる。
【0070】
k=1の場合(ステップS102)はステップS103へ進み、k=2の場合(ステップS201)はステップS202へ進み、kが3以上の場合はステップS203へ進み、ステップS103、ステップS202、ステップS203のそれぞれにおいて行動パターンの集合Akを生成する。
【0071】
ステップS103では、評価値付き履歴データ記憶部4に記憶されている履歴データを基に、履歴データ中に現れるすべての訪問場所とセグメント(ラベル)から、1つの訪問場所と1つのセグメント(ラベル)とからなる組合せを全て求めて、それをk=1のときの行動パターンの集合A1とする。例えば、訪問場所がP1、P2、P3の3箇所あり、各訪問場所におけるセグメントのラベルがそれぞれTIMEP1_1、TIMEP1_2、TIMEP1_3、TIMEP2_1、TIMEP2_2、TIMEP2_3、TIMEP2_4、TIMEP3_1、TIMEP3_2であった場合、特徴行動パターン候補集合A1の要素は、P1〜P3と上記各ラベルとからなる組合せであって、(P1、TIMEP1_1)、(P1、TIMEP1_2)、(P1、TIMEP1_3)、(P2、TIMEP2_1)、(P2、TIMEP2_2)、(P2、TIMEP2_3)、(P2、TIMEP2_4)、(P3、TIMEP3_1)、(P3、TIMEP3_2)といった全部で9種類の行動パターンである。
【0072】
次に、ステップS104へ進み、行動パターンの集合Akが空集合でないときはステップS105へ進み、空集合のときは、この時点で処理が終了する。
【0073】
ステップS105以下の処理は、行動パターンの集合Akの要素のなかから、上記最小支持度以上(あるいは最小支持度を超える)支持度をもつ行動パターンを選択して、それらを要素とする特徴行動パターンの集合Bkを生成するための処理である。
【0074】
まず、集合Akの要素のなかから処理対象の行動パターンを1つ取り出す(ステップS105)。k=1の場合には、集合A1の要素のなかから処理対象の行動パターンを1つ取り出す。そして、評価値付き履歴データ記憶部4に記憶された全ての移動体の履歴データをサーチして、それらのなかに、条件パラメータcで指定された条件を満たす処理対称の行動パターンをもつ履歴データがあれば、それを抽出する(ステップS106)。なお、条件パラメータcが、連続する訪問場所間に許容される他の訪問場所の数を表す場合には、k=1のときには、条件パラメータcは利用されない。
【0075】
処理対象の行動パターンを含む履歴データのそれぞれについて、当該履歴データから抽出された行動パターン中の各訪問場所のセグメントに対応する評価値から、図10を参照して説明したようにして、当該履歴データの処理対象の行動パターンに対する適合度を求める(ステップS107)。そして、処理対象の行動パターンの得点(ここでは、これをSUMと表す)に、当該適合度を加算する(ステップS108)。
【0076】
行動パターンの集合Akの各要素を処理対象として、上記ステップS105〜ステップS108の処理を行う。当該処理対象の行動パターンを含む履歴データが多ければ多いほど当該処理対称の行動パターンの得点が高くなる。当該処理対象の行動パターンを含む履歴データの適合度の総和が、当該処理対象の支持度である(ステップS109)。
【0077】
行動パターンの集合Akの全ての要素について求められた支持度と、条件設定部3で設定された最小支持度とを比較して、集合Akのなかから、最小支持度以上の支持度をもつ行動パターンを特徴行動パターンとして選択する。この特徴行動パターンの集合をBkとする(ステップS110)。特徴行動パターンの集合Bkは、特徴行動パターン総数、当該集合Bkの各要素である1つあるいは複数の特徴行動パターンのレコードで構成され、特徴行動パターンのレコードは、図11に示したように、特徴行動パターンID、支持度の他、訪問場所とセグメント(ラベルで表されている)の組を時系列に並べらて構成されている。
【0078】
特徴行動パターンの集合Bkが空集合であるときには(ステップS111)、ここで、処理を終了し、空集合でないときには、シーケンス長kの特徴行動パターンの集合Bkを特徴行動パターン記憶部6に記憶し(ステップS112)、kを1つインクリメントして(ステップS113)、ステップS102へ戻る。
【0079】
次に、k=2の場合について説明する。k=2の場合(ステップS201)は、ステップS202へ進み、行動特徴パターン記憶部6に記憶した特徴行動パターンの集合B1と制約データ記憶部7に記憶された制約データと条件パラメータcとから、2地点間の行動パターンを生成する。ここで生成される行動パターンの集合をA2と表す。
【0080】
具体的には、例えば、特徴行動パターンの集合B1の各要素で配列を作成しながら、その配列が制約データと条件パラメータcとを満たすものであるかをチェックしながら、行動パターンの集合A2の要素を生成する。すなわち、特徴行動パターンの集合B1の要素(訪問場所とセグメント(ラベルで表されている)との組合せを1つの要素とする)のうち、上記制約データを満たす移動可能な経路のある2地点(2つの訪問場所)を表す2つの要素からなる配列であって、当該2地点間を結ぶ経路上で経由する場所の数が条件パラメータcで表されている数以内(あるいは未満)であるような配列を求める。このようにして求めた配列を要素とする集合が、行動パターンの集合A2となる。
【0081】
あるいは、特徴行動パターンの集合B1の全要素(訪問場所とセグメント(ラベルで表されている)との組合せを1つの要素とする)から、2つの要素からなる全配列を求め、その中から、上記制約データを用いて、2地点間を行き来するための経路がある配列のみを選択する。さらに、選択された配列の2地点間を結ぶ経路上で経由する場所の数が条件パラメータcで表されている数以内(あるいは未満)であるような配列を、当該選択された配列のなかから選択する。このようにして選択された配列を要素とする集合が、行動パターンの集合A2となる。
【0082】
2地点間(2訪問場所間)に、条件パラメータcで表されている数以内の訪問場所数を経由する経路があるかを検索するには、次式(1)を用いる。図5の制約データで表されている2訪問場所間を直接結ぶ道数の部分を行列式として抜き出す。この行列をM0と表す。制約パラメータcの値と次式(1)とから、訪問場所数c以下を経由するリンク数を表す行列Mcは、以下の式で定義され、その出力を新たな制約データとする。
【0083】
【数1】
【0084】
この新たな制約データにおいて、2訪問場所間を直接結ぶ経路数が「0」の場合は、経路が存在しない、「0」以外の場合は経路が存在すると判断する。
【0085】
例えば、特徴行動パターンの集合B1が(P1、TIMEP1_1)、(P2、TIMEP2_1)、(P2、TIMEP2_3)、(P3、TIMEP3_2)の4種類であり、制約パラメータcが「0」、3訪問場所間の地理関係が図4で与えられたとき、作成される行動パターンの集合A2に含まれる行動パターンは、<(P1、TIMEP1_1)、(P2、TIMEP2_1)>、<(P1、TIMEP1_1)、(P2、TIMEP2_3)>、<(P2、TIMEP2_1)、(P1、TIMEP1_1)>、<(P2、TIMEP2_1)、(P3、TIMEP3_2)>、<(P2、TIMEP2_3)、(P1、TIMEP1_1)>、<(P2、TIMEP2_3)、(P3、TIMEP3_2)>、<(P3、TIMEP3_2)、(P2、TIMEP2_1)>、<(P3、TIMEP3_2)、(P2、TIMEP2_3)>、の8種類である。
【0086】
以上のようにして、行動パターンの集合A2を求めた後、ステップS104へ進み、上述同様にして、ステップS104以下の処理を行う。
【0087】
次に、kが3以上の場合について説明する。kが3以上の場合(ステップS201)、ステップS203へ進み、行動特徴パターン記憶部6に記憶したシーケンス長がk−1のときの特徴行動パターンの集合Bk−1から、k個の訪問場所を訪問する行動パターンを生成する。ここで生成される行動パターンの集合をAkと表す。
【0088】
特徴行動パターンの集合Bk−1の各要素の特徴行動パターンは、1番目からk−1番目のk−1個の訪問場所とセグメント(ラベルで表されていてもよい)との組合せ(行動)を訪問順に並べたものである。そこで、集合Bk−1の要素のうちの1つである特徴行動パターン(第1の行動パターン)の1番目(最初の行動)からk−2番目までの行動と、集合Bk−1の要素のうちの他の1つである特徴行動パターン(第2の行動パターン)の2番目からk−1番目(最後の行動)までの行動とが全く同じであるとき、このような第1および第2の行動パターンを合成してk個の訪問場所を訪問する行動パターンを生成する。すなわち、第2の行動パターンの1番目の行動と、第1および第2の行動パターンで一致する部分(第1の行動パターンの1番目からk−2番目までの行動と、第2の行動パターンの2番目からk−1番目までの行動)と、第1の行動パターンのk−1番目の行動(最後の行動)をこの順で並べて、シーケンス長がkの行動パターンを生成する。
【0089】
第1の行動パターンbxk−1をk−1個の行動の配列で、<bx1、bx2、・・・、bxk−2、bxk−1>と表し、第2の行動パターンをbyk−1をk−1個の行動の配列で、<by1、by2、・・・、byk−2、byk−1>と表すと、<bx1、bx2、・・・、bxk−2>と<by2、・・・、byk−2、byk−1>が等しい場合には、<by1、bx1、bx2、・・・bxk−1>を生成し、これをシーケンス長kの行動パターンの集合Akの要素である行動パターンとする。
【0090】
例えば、シーケンス長k=3のとき、シーケンス長2の特徴行動パターンの集合B2が{<(P1、TIMEP1_1)、(P2、TIMEP2_1)>、<(P2、TIMEP2_3)、(P1、TIMEP1_1)>、<(P2、TIMEP2_3)、(P3、TIMEP3_2)>、<(P3、TIMEP3_2)、(P2、TIMEP2_3)>}であるとき(4種類の特徴行動パターンで構成されるとき)、<(P2、TIMEP2_3)、(P1、TIMEP1_1)、(P2、TIMEP2_1)>と、<(P2、TIMEP2_3)、(P3、TIMEP3_2)、(P2、TIMEP2_3)>と、<(P3、TIMEP3_2)、(P2、TIMEP2_3)、(P1、TIMEP1_1)>と、<(P3、TIMEP3_2)、(P2、TIMEP2_3)、(P3、TIMEP3_2)>の4種類の行動パターンからなるk=3の行動パターンの集合A3が作成される。
【0091】
以上のようにして、行動パターンの集合A3を求めた後、ステップS104へ進み、上述同様にして、ステップS104以下の処理を行う。
【0092】
以上説明したように、上記第1の実施形態によれば、訪問場所間の地理的な連結関係(経路の有無、経路の数)や、条件パラメータcを反映させて、各訪問場所での滞在時間の違いを取り扱いながら、大量の行動履歴のなかから、1つまたは複数の訪問場所への訪問順序と訪問した各場所における滞在時間とを表す特徴行動パターンを抽出できる。
【0093】
(第2の実施形態)
次に、第2の実施形態について説明する。第2の実施形態にかかるデータマイニング装置は、図1と同様であり、ここでは、第1の実施形態と異なる部分について説明する。すなわち、第2の実施形態では、セグメントをメンバシップ関数で表現し、各履歴データ中の滞在時間のセグメントに対する評価値をファジィ集合で表現する場合について説明する。第1の実施形態と異なる点は、主に、滞在時間評価部2におけるセグメントの境界を定める手法である。従って、履歴データの各セグメントに対する評価値が「1」か「0」か(セグメントに属するか属さないかの2値)で表されるものではなく、各セグメントに属する度合いで表されることになる。その結果、特徴行動パターン抽出部5で特徴行動パターンを抽出する際に、行動パターンの集合Akの各要素に対する各履歴データの適合度を求める処理も一部異なる。
【0094】
まず、滞在時間評価部2の処理動作について、図8、図14に示すフローチャートを参照して説明する。
【0095】
第1の実施形態と同様、図8のステップS1〜ステップS2の処理で、各訪問場所について、行動履歴データに記録されている各訪問場所における滞在時間別に当該訪問場所を訪問した移動体の数を計数して、図15(a)に示すような滞在時間を横軸上にとり、各滞在時間上に、当該滞在時間の間当該訪問場所に滞在した移動体の総数を表すヒストグラムを生成する。このヒストグラムは、表示部8から所定のディスプレイに表示される。ユーザはそのヒストグラムを見て、入力部9から、図15(a)に示すように、分割点TA1、TA2を指定する。
【0096】
次に、図14のステップS3´へ進み、指定された分割点と予め定められた定義に基づいて滞在時間を分割するメンバシップ関数を作成する。例えば、台形型のメンバシップ関数が定義されているとき、図15(a)においてユーザが指定したTA1、TA2から、図15(b)に示すように、メンバシップ関数のパラメータがTa1、Ta2、Ta3、Ta4が生成される。
【0097】
図16に示すような台形型のメンバシップ関数を用いて訪問場所P1の滞在時間をTIMEP1_1、TIMEP1_2、TIMEP1_3という3つのラベルで表される3つのセグメントに分割する場合、メンバシップ関数のパラメータはTP1_1、TP1_2、TP1_3、TP1_4の4箇所であり、その結果、次式(2)〜(4)に示すようなメンバシップ関数が作成される。
【0098】
【数2】
【0099】
式(2)〜(4)、図15(b)に示すように、メンバシップ関数により、各セメントの境界に曖昧性を持たせることができる。
【0100】
各訪問場所において、滞在時間の複数のセグメントと各セグメントを定めるメンバシップ関数を求めて、それを図17や図18に示したようなテーブル形式で記憶する(ステップS4´)。なお、図17や図18に示したテーブルは、ここでは、例えば、滞在時間評価部2内部に記憶するものとする。
【0101】
図17に示すテーブルにより、各訪問場所における、セグメントの数(ラベルの数)とセグメントのラベルとが記憶されている。また、図18に示すテーブルにより、各訪問場所について、ステップS3´でメンバーシップ関数を求める際に用いたパラメータの数とパラメータが記憶されている。
【0102】
なお、メンバシップ関数には、シグモイド関数やシグモイドロジスティック関数を用いてもよい。また、そのとき必要なパラメータはメンバシップ関数によって異なる。
【0103】
各訪問場所について、そこでの移動体の滞在時間の分布状況に応じて複数のセグメントがメンバシップ関数で設定されると、次に、図8のステップS5へ進み、次に、行動履歴データ記憶部1に記憶された各行動履歴データ中の各訪問場所における滞在時間について、当該滞在時間の、当該訪問場所に設定された複数のセグメントのそれぞれに対応する適合性を表す評価値を求める。
【0104】
例えば、図2に示した行動履歴データにおいて、移動体PID01の最初の訪問場所P1での滞在時間S_TIME11が0.5時間(30分)であるとする。訪問場所P1では、図19に示すように、式(2)〜(4)に示すようなメンバシップ関数にてセグメントが定められている場合(ここでは、例えば、TP_1=0.25、TP_2=0.75、TP_3=1.0、TP_4=1.5とする)、当該行動履歴データ中のある訪問場所における滞在時間が0.5時間であるとき、当該滞在時間のセグメント「TIMP1_1」に対する評価値は、式(2)から、0.5となり、セグメント「TIMP1_2」に対する評価値は、式(2)から、0.5となり、セグメント「TIMP1_3」に対する評価値は、式(2)から、0.0となる。従って、訪問場所P1における滞在時間0.5時間のセグメント「TIMP1_1」、「TIMP1_2」、「TIMP1_3」のそれぞれに対する適合性を表す評価値は、それぞれ「0.5」、「0.5」、「0」となる。
【0105】
このようにして、訪問場所別の滞在時間に対し評価値を求める処理を、行動履歴データ記憶部1に記憶された全ての行動履歴データの全てについて行う。そして、このような訪問場所別の滞在時間に対する評価値を行動履歴データに付加して、第1の実施形態と同様、図3に示したような履歴データが生成され、評価値付き履歴データ記憶部4に記憶される。
【0106】
次に、特徴行動パターン抽出部5の処理動作について説明する。特徴行動パターン抽出部5の処理動作は、図12、図13に示したフローチャートとほぼ同様であるが、この第2の実施形態では、図13のステップS107において、履歴データの行動パターンの集合A2の要素(行動パターン)に対する適合度を求める手法が第1の実施形態と異なる。それ以外は、第1の実施形態と同様である。すなわち、特徴行動パターン抽出部5は、評価値付き履歴データ記憶部4に記憶された上記履歴データを基に処理を行う。まず、ここでの処理動作の概略を図20を参照して説明する。
【0107】
図20(a)は、ある1つの移動体の履歴データを示したものである。ここでは、当該移動体は訪問場所P1、P2をこの順序で訪問したときの履歴データである。訪問場所P1には2つのセグメントが設定され、その一方のセグメントをT1、他方のセグメントをT2と表している。また、訪問場所P2には3つのセグメントが設定され、そのうちの1つのセグメントをT3、他の1つのセグメントをT4、さらに他のセグメントをT5と表している。
【0108】
図20(a)に示し履歴データでは、ある移動体が、訪問場所P1、P2をこの順序に訪問し、訪問場所P1における滞在時間のセグメントT1に対する評価値は「0.5」、セグメントT2に対する評価値は「0.5」であり、訪問場所P2におけるセグメントT3に対する評価値は「0.3」、セグメントT4に対する評価値は「0.7」、セグメントT5に対する評価値は「0」であることを表している。また、場所P1とP2との間の経路は1つで、同じ場所を繰返し訪問することは不可能であるという制約データが与えられているとする。
【0109】
まず、訪問場所が1つである(シーケンス長が「1」である)特徴行動パターンを抽出する場合を考える。
【0110】
特徴行動パターン抽出部5は、評価値付き履歴データ記憶部4に記憶されている履歴データに含まれている訪問場所とセグメントとから、訪問場所とセグメントとの組み合わせ(行動パターン)を全てを求める。例えば、図20(a)に示した履歴データからは、5つの行動パターン(P1、T1)、(P1、T2)、(P2、T3)(P2、T4)(P2、T5)を要素とする。行動パターンの集合A1が生成される。
【0111】
図20(a)に示したような履歴データでは、シーケンス長が「1」の行動パターンとして、(P1、T1)、(P1、T2)、(P2、T3)、(P2、T4)(P2、T5)が含まれている。これら5つの行動パターンは、集合A1の要素でもある。この場合、図13のステップS107では、当該履歴データの集合A1中の上記4つの行動パターンのそれぞれに対する適合度を次のようにして求める。
【0112】
当該履歴データの行動パターン(P1、T1)のセグメントT1に対する評価値は「0.5」であるので、集合A1の要素である(P1、T1)に対する当該履歴データの適合度は、当該評価値をそのまま用いて「0.5」とする。当該履歴データの行動パターン(P1、T2)のセグメントT2に対する評価値は「0.5」であるので、集合A1の要素である(P1、T2)に対する当該履歴データの適合度は、当該評価値をそのまま用いて「0.5」とする。当該履歴データの行動パターン(P2、T3)のセグメントT3に対する評価値は「0.3」であるので、集合A1の要素である(P2、T3)に対する当該履歴データの適合度は、当該評価値をそのまま用いて「0.3」とする。当該履歴データの行動パターン(P2、T4)のセグメントT4に対する評価値は「0.7」であるので、集合A1の要素である(P2、T4)に対する当該履歴データの適合度は、当該評価値をそのまま用いて「0.7」とする。当該履歴データの行動パターン(P2、T5)のセグメントT5に対する評価値は「0.0」であるので、集合A1の要素である(P2、T5)に対する当該履歴データの適合度は、当該評価値をそのまま用いて「0.0」とする。
【0113】
従って、行動パターンの集合A1の要素である行動パターンの得点に、上記のようにして求めた当該履歴データの適合度をそれぞれ加算する(図20(b)参照)。
【0114】
他の全ての移動体についての履歴データについても、上記同様にして、行動パターンの集合A1中のいずれかの行動パターンを含む履歴データの当該行動パターンに対する適合度を、当該行動パターンの得点に加算していく。最終的に得られた行動パターンの集合A1の各要素の得点が、当該要素(行動パターン)の支持度である。そして、第1の実施形態と同様、行動パターンの集合A1の各要素の支持度と条件設定部3で設定された最小支持度とを比較して、集合A1のなかから、最小支持度以上の支持度をもつ行動パターンを特徴行動パターンとして抽出する。この特徴行動パターンの集合をB1とし、ここでは、例えばB1={(P1、T1)、(P2、T3)、(P2、T4)}であるとする(図20(c)参照)。
【0115】
次に、訪問場所が2つである(シーケンス長が「2」である)特徴行動パターンを抽出する場合を考える。この場合は、特徴行動パターンの集合B1と上記制約データとから、設定された条件パラメータcを満たすような、2地点間の行動パターンを生成する。ここでは、場所P1とP2との間の経路は1つで両方向通行可能であり、同じ場所を繰返し訪問することは不可能であるという制約データが与えられているので、特徴行動パターンの集合B1の異なる2地点のそれぞれに対応する2つの要素からなる配列であって、設定された条件パラメータcを満たすような配列を求める。この配列の集合が、k=2のときの行動パターンの集合A2の要素となる。なお、A2の要素は,<(P1、T1)(P2、T3)>、<(P1、T1)(P2、T4)>、<(P2、T3)(P1、T1)>、<(P2、T4)(P1、T1)>である。
【0116】
図20(a)に示したような履歴データに含まれている、集合B1の要素からシーケンス長が「2」の行動パターン(訪問場所とセグメントの組合せの配列)は、<(P1、T1)(P2、T3)>、<(P1、T1)(P2、T4)>である。
【0117】
これら2つの行動パターンは、集合A2の要素でもある。この場合、図13のステップS107では、当該履歴データの集合A1中の上記2つの行動パターンのそれぞれに対する適合度を次のようにして求める。
【0118】
まず、当該履歴データの、集合A2の要素である行動パターン<(P1、T1)、(P2、T3)>に対する適合度は次のようにして求める。すなわち、当該履歴データ中の行動パターン(P1、T1)のセグメントT1に対する評価値は「0.5」、当該履歴データ中の行動パターン(P2、T3)のセグメントT3に対する評価値は「0.3」であるので、両者のうち値の低い方の評価値「0.3」を集合A1の要素である行動パターン<(P1、T1)、(P2、T3)>に対する当該履歴データの適合度とする。あるいは、両者を乗算した結果(例えば、この場合、0.5×0.3=0.15)を適合値としてもよい(図20(d)参照)。
【0119】
次に、当該履歴データの、集合A2の要素である行動パターン<(P1、T1)、(P2、T4)>に対する適合度は次のようにして求める。すなわち、当該履歴データ中の行動パターン(P1、T1)のセグメントT1に対する評価値は「0.5」、当該履歴データ中の行動パターン(P2、T4)のセグメントT4に対する評価値は「0.7」であるので、両者のうち値の低い方の評価値「0.5」を集合A1の要素である行動パターン<(P1、T1)、(P2、T4)>に対する当該履歴データの適合度とする。あるいは、両者を乗算した結果(例えば、この場合、0.5×0.7=0.35)を適合値としてもよい(図20(d)参照)。
【0120】
以上のようにして求めた当該履歴データの行動パターンの集合A2の要素である行動パターン<(P1、T1)(P2、T3)>、<(P1、T1)(P2、T4)>のそれぞれに対する適合度を、行動パターンの集合A2の上記各要素の得点に加算する(図20(d)参照)。
【0121】
他の全ての移動体についての履歴データについても、上記同様にして、行動パターンの集合A2中のいずれかの行動パターンを含む履歴データの当該行動パターンに対する適合度を、当該行動パターンの得点に加算していく。最終的に得られた行動パターンの集合A2の各要素の得点が、当該要素(行動パターン)の支持度である。そして、行動パターンの集合A2の各要素の支持度と、条件設定部3で設定された最小支持度とを比較して、集合A2のなかから、最小支持度以上の支持度をもつ行動パターンを特徴行動パターンとして抽出する。この特徴行動パターンの集合をB2とする。
【0122】
このようにして、大量の履歴データのなかから抽出された、シーケンス長別の行動履歴パターンは、特徴行動パターン記憶部6に記憶される。
【0123】
第2の実施形態における、図13のステップS107の処理動作を図21に示すフローチャートを参照して説明する。
【0124】
k=1の場合には(ステップS107a)、図12のステップS103において、1つの行動(1つの訪問場所と1つのセグメントで表現されているもの)からなる行動パターンの集合A1が得られているので、図13のステップS107では、行動パターンの集合A1の要素である行動パターンを含む履歴データがあるときは、当該行動パターンを構成する行動に対応する当該履歴データ中の評価値を、そのまま、当該履歴データの当該行動パターンに対する適合度とする(ステップS107b)。
【0125】
また、kが2以上の場合には(ステップS107a)、ステップS202やステップS203で、複数の行動をその順番に繋げてなる行動パターンの集合Akが得られているので、図13のステップS107では、行動パターンの集合Akの要素である行動パターンを含む履歴データがあるときは、当該行動パターンを構成する複数の行動のそれぞれに対応する当該履歴データ中の評価値のうち、値が最も小さい評価値、あるいは、各行動に対応する評価値を乗算した結果を、当該履歴データの当該行動パターンに対する適合度とする(ステップS107c)。
【0126】
このように、ステップS107b、ステップS107cでは、履歴データの集合Akの要素である行動パターンに対する適合度を算出する。行動パターンは、複数の行動(1つの訪問場所と1つのセグメントで表現されているもの)を行動の順番に繋げて表したものであるから、ある移動体の履歴データに含まれる行動パターンを、複数の行動xa1、…、xakをこの順番に繋げて、Xa=<xa1、…、xak>と表し、その各行動の評価値をXc=<xc1、・・・、xck>と表わすとき、当該履歴データの当該行動パターンに対する適合度xcは次式(5)あるいは(6)で計算することができる。
【0127】
【数3】
【0128】
図13のステップS108で説明したように、行動パターンの集合Akの各要素(行動パターン)に対応する得点に、上記のようにして求めた適合度を加算していき、最終的に得られた各行動パターンの得点が当該行動パターンの支持度である。その後の処理は、第1の実施形態と同様である。
【0129】
以上説明したように、上記第2の実施形態によれば、滞在時間を分類するためのセグメントがメンバシップ関数で定められるので、セグメントの間の境界に曖昧性を持たせることができる。
【0130】
第1の実施形態では、セグメント間の境界がある1つの時点で区切られていたため、例えば滞在時間30分未満を短期滞在のセグメント、30分以上を長期滞在のセグメントと定めた場合には、行動履歴データ中の滞在時間が30分と29分とでは1分しか違いがないにもかかわらず、短期滞在と長期滞在のいずれかに分類されてしまうという問題点があった。しかし、第2の実施形態によれば、セグメント間の境界に曖昧性を持たせることで、行動履歴データ中の各行動に対する評価値(各訪問場所における滞在時間の各セグメントに対する評価値)をより現実に即して求めることができる。その結果、履歴データの、行動パターンの集合Akの要素に対する適合度や、さらに、行動パターンの集合Akの要素である行動パターンの支持度がより高精度に求めることができ、信頼性の高い特徴行動パターンの抽出が可能となる。
【0131】
なお、上記第1および第2の実施形態において、特徴行動パターン抽出部5で抽出された特徴行動パターンは、表示部8からユーザに提示される。抽出された全ての特徴行動パターンを表示する。あるいは、抽出された特徴行動パターンのうち、ユーザにより指定された、あるいは予め定められた条件(例えば、訪問場所や滞在時間や支持度などを指定するもの)を満たす特徴行動パターンのみを表示する。例えば、抽出された特徴行動パターンのうち、条件として指定されたある訪問場所を含む特徴行動パターンや、支持度が所定値以上の特徴行動パターンのみを表示する。
【0132】
また、ユーザに呈示するのは、特徴行動パターンだけでなく、特徴行動パターンの支持度や、当該特徴行動パターンを抽出する際に用いた行動パターンの集合Akや、その要素である各行動パターンの支持度など、途中経過も表示するようにしてもよい。
【0133】
さらに、表示部8は、条件パラメータcや最小支持度の値に応じて異なる抽出結果をユーザが容易に比較可能なように、それらを並べて表示する。例えば、図28に示すようなテーブル形式で、条件パラメータの異なる複数の値のそれぞれに対応する抽出結果を表示する。
【0134】
(第3の実施形態)
第3の実施形態として、上記第1、第2の実施形態で説明したデータマイニング装置の効果を、具体的に説明する。
【0135】
本装置の効果の検証を行うため、図22に示すようなA〜Pの16箇所の観光地を廻る歩行者1000人を想定して、擬似的に行動履歴データを生成する。滞在時間は対数変換し、各訪問場所について3つのセグメントを定め、それぞれについて短、中、長の滞在時間ラベルをつける。
【0136】
セグメントを定めるメンバシップ関数は、図23に示すようなシグモイド関数を用いることとする。この場合、指定された分割点TA1、TA2から、このメンバーシップ関数のパラメータTa_1、Ta_2、Ta_3、Ta_4が生成され、その結果、次式(7)〜(9)に示すようなメンバシップ関数が作成される。
【0137】
【数4】
【0138】
ただしl1=50、l2=50とする。
【0139】
ここで用いる1000人の行動履歴データのサンプルには、図24に示すような行動パターンを含んでいる。また、これら1000件の行動履歴データについて得られる、観光地別の滞在時間と人数の関係を表すヒストグラムを図25〜図27に示す。
【0140】
また、条件パラメータcとしては、「0」、「1」、「2」、「制限無し(無限大)」の4種類を用い、最小支持度を「0.2」とする。
【0141】
図28は、図1のデータマイニング装置により得られた特徴行動パターンを条件パラメータの値別に、支持度の高いものから順に示したものである。
【0142】
一方、行動パターンの各行動に滞在時間という概念を含まない、単に訪問場所を訪問した順に並べて行動パターンを表す行動履歴データから特徴行動パターンを抽出する、従来の相関抽出法により抽出された特徴行動パターンを支持度の高いものから順に示したものが図29のテーブルである。なお、この場合には、行動パターンを構成する各行動は、(滞在時間という属性を持たない)訪問場所である。
【0143】
図28は、抽出されたシーケンス長k=3の特徴行動パターンのうち、支持度が高いものを順に3つ示している。図29に示した従来技術による抽出結果と、図28に示した本実施形態にかかる抽出結果との違いを考察する。従来技術では、行動パターン中の各行動を滞在時間による区別をしていないのに対して、本実施形態にかかる手法では、滞在時間の短、中、長を区別して扱い、抽出される特徴行動パターンにもその結果が反映されている。支持度が上位3つの特徴行動パターンが従来技術による抽出結果とまったく異なるのは、図25〜図27に示す滞在時間の分布より訪問場所G、H、I、Jの滞在時間が一様だったのに対し、訪問場所B、C、DやF、K、Mでは、滞在時間分布に偏り傾向があったことが反映されたためである。これらのことから本実施形態を用いることで、(B(長)、C(短)、D(短))や(F(短)、K(短)、M(短))といったような滞在時間を加味した特徴行動パターンが抽出できることが確認できる。
【0144】
次に、条件パラメータcについて考察する。条件パラメータcの値を増加させると得られる特徴行動パターンの種類が増加する。c=0のときに抽出される特徴行動パターンは、どの訪問場所も経由することなく直接結ばれている(B(長)、C(短)、D(短))のみであるのに対して、c=1のときに抽出される特徴行動パターンは、1箇所の訪問場所を経由することを許した経路によって結ばれた(F(短)、K(短)、M(短))や(F(短)、M(短)、O(長))まで抽出された。2地点間の経路上で経由可能な訪問場所の数を表す条件パラメータcにより、現れる特徴パターンの種類を調節することが確認できる。
【0145】
図30は、条件パラメータcの値が「0」「1」「2」「無限大」のそれぞれにおいて、シーケンス長k(k=1〜3)のときに生成される行動パターンの集合Akの要素(行動パターン)の数の推移を示したものである。条件パラメータcの値が小さいときほど、集合Akの要素の数が予め絞り込まれていることが確認できる。この事から、条件パラメータcの値を小さく設定することで、計算量が軽減されることが確認できる。
【0146】
(バリエーション)
(1)上記第1および第2の実施形態では、訪問場所間の地理的な連結関係を制約データとして用いているが、この場合に限らない。例えば、訪問場所Aと訪問場所Bにおいて同時間帯に、異なるセミナーが開催されている場合、この時間帯では、いずれか一方のセミナーしか参加することができないことがある。このような場合には、この時間帯では、訪問場所Aから訪問場所Bへの移動は不可能であるから、そのような行動パターンを集合Akの要素として作成しても無意味となる可能性がある。そこで、訪問場所間に時間的な制約を与えるようにしてもよい。例えば、図12のステップS202やステップS203などで、行動パターンの集合Akを生成の際には、「訪問場所Aと訪問場所Bとを繋げる場合に、訪問場所Aにおける滞在時間がある一定時間以上でないと、訪問場所Bを繋げることはできない」といったような内容のデータを制約データとして用いてもよい。
【0147】
このような時間的な制約を与えることで、より現実に即した行動パターンが生成することができるとともに、行動パターンの集合Akの要素数を絞り込むことができる。従って、処理時間の短縮が図れる。
【0148】
(2)上記第1および第2の実施形態では、訪問場所にその属性として滞在時間を対応付けたものを1つの行動として表し、1つまたは複数の行動を繋げることで行動パターンを表している。訪問場所に対応付ける属性としては、滞在時間の他に、例えば当該訪問場所を訪問する組織、訪問者の数や人間関係などがであってもよい。また、滞在時間、組織、訪問者の数、人間関係などの属性を複数個組合せて訪問場所に対応つけて1つの行動を表現してもよい。この場合も、上記実施形態の手法は容易に適用可能である。
【0149】
(3)特徴行動パターンを抽出するときの評価指標として、支持度のかわりに相関係数などの統計的な指標を用いて全行動履歴データから抽出する特徴行動パターンを決定してもよい。
【0150】
(4)活動空間は、実空間だけではなくサイバースペースであってもよい。例えば、ネットワークで接続された複数のサイトで構成されるサイバースペースがある場合に、複数のユーザのそれぞれについての行動履歴データ(訪問したサイトとそこでの滞在時間と訪問順序とを記録したもの)から特徴行動パターンを抽出する。
【0151】
(5)訪問場所は、地理的な場所に限らず、イベント、Webページ、人、組織、場所の位置を示すものであってもよい。
【0152】
(6)行動履歴データは、実際にその場で移動体の行動を観測しなくても、オンラインによってデータを収集してもよい。
【0153】
(7)上記第1および第2の実施形態では、訪問場所別のセグメントを設定する際にはヒストグラムを作成したが、この場合に限らず、散布図や折れ線グラフなどの他のグラフを用いて、訪問場所別の滞在時間と行動履歴データの分布を表すようにしてもよい。この場合においても、上記実施形態の手法は容易に適用可能である。
【0154】
以上説明したように、上記第1〜第3の実施形態によれば、ある活動空間内の大量の行動履歴データから共通する行動パターンを効率的に抽出可能となり、移動体の活動空間利用の特徴を的確に知ることができる。
【0155】
本発明の実施の形態に記載した本発明の手法(滞在時間評価部2や特徴行動パターン抽出部5などのの処理動作)は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、半導体メモリなどの記録媒体に格納して頒布することもできる。
【0156】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【0157】
【発明の効果】
以上説明したように、本発明によれば、大量の移動体の行動履歴から、移動体が訪問する訪問場所と訪問順序と、各訪問場所における滞在時間とで表された、多くの移動体に共通する行動パターンを容易に抽出することができる。
【図面の簡単な説明】
【図1】 本発明の第1〜第3の実施形態にかかるデータマイニング装置の構成例を示した図。
【図2】 行動履歴データ記憶部に記憶された、行動履歴データのデータ構造を示した図。
【図3】 評価値付き履歴データ記憶部に記憶された、評価値付き履歴データのデータ構造を示した図。
【図4】 制約データにて表されている、訪問場所間の地理的な連結関係を模式的に示した図。
【図5】 制約データ記憶部に記憶されている制約データの記憶例を示した図。
【図6】 図4の訪問場所間の地理的な連結関係を表す制約データの具体例を示した図。
【図7】 同じ訪問場所を繰返し訪問することが可能な訪問場所間の地理的な連結関係を模式的に示した図。
【図8】 滞在時間評価部の処理動作を説明するためのフローチャート。
【図9】 滞在時間を横軸上にとり、各滞在時間上に、当該滞在時間の間当該訪問場所に滞在した移動体の総数を表すヒストグラムの具体例を示した図。
【図10】 特徴行動パターン抽出部の処理動作を説明するための図。
【図11】 特徴行動パターン記憶部6に記憶された特徴行動パターンのデータ構造を説明するための図。
【図12】 特徴行動パターン抽出部の処理動作を説明するためのフローチャート。
【図13】 特徴行動パターン抽出部の処理動作を説明するためのフローチャート。
【図14】 本発明の第2の実施形態に係る滞在時間評価部の処理動作を説明するためのフローチャート。
【図15】 メンバーシップ関数の設定方法について説明するための図。
【図16】 メンバーシップ関数を説明するための図。
【図17】 各訪問場所に設定されたセグメントに関するデータの記憶例を示した図。
【図18】 各訪問場所に設定されたメンバーシップ関数に関するデータの記憶例を示した図。
【図19】 行動履歴データの各訪問場所における滞在時間に対する評価値の算出方法を説明するための図。
【図20】 第2の実施形態に係る特徴行動パターン抽出部の処理動作を説明するための図。
【図21】 第2の実施形態に係る特徴行動パターン抽出部の処理動作を説明するためのフローチャート。
【図22】 複数の訪問場所(A〜O)間の地理的な連結関係を模式的に表した図。
【図23】 第3の実施形態で用いたメンバーシップ関数を示した図。
【図24】 第3の実施形態で用いた行動履歴データに含まれる行動パターンを示した図。
【図25】 行動履歴データから各訪問場所(A〜F)について生成した滞在時間の対数値と訪問者数の関係を表すヒストグラムを示した図。
【図26】 行動履歴データから各訪問場所(G〜L)について生成した滞在時間の対数値と訪問者数の関係を表すヒストグラムを示した図。
【図27】 行動履歴データから各訪問場所(M〜O)について生成した滞在時間の対数値と訪問者数の関係を表すヒストグラムを示した図。
【図28】 図1のデータマイニング装置により抽出された特徴行動パターンを示した図。
【図29】 従来技術により抽出された特徴行動パターンを示した図。
【図30】 条件パラメータの値が「0」「1」「2」「無限大」のそれぞれの場合において、シーケンス長k(k=1〜3)のときに生成される行動パターンの集合Akの要素(行動パターン)の数の推移を示した図。
【符号の説明】
1…行動履歴データ記憶部、2…滞在時間評価部、3…条件設定部、4…評価値付き履歴データ記憶部、5…特徴行動パターン抽出部、6…特徴行動パターン記憶部、7…制約データ記憶部、8…表示部、9…入力部。
Claims (12)
- 複数の訪問場所を含む空間内を移動する複数の移動体のそれぞれに対応する行動履歴データであって、前記複数の訪問場所のうち当該移動体が訪問した訪問場所と各訪問場所での滞在時間と各訪問場所への訪問順序とでそれぞれ表される複数の行動履歴データを記憶する記憶手段と、
前記複数の行動履歴データを基に、前記複数の訪問場所のそれぞれについて、滞在時間別に当該場所を訪問した移動体の総数を求めて、当該訪問場所における前記複数の移動体の滞在時間の分布状況を示すヒストグラムを生成する生成手段と、
各訪問場所の前記ヒストグラムにおける滞在時間の長さに対し指定された2つ以上の複数の分割点に基づき、該訪問場所での滞在時間を分類するための3つ以上の複数の区分を設定する設定手段と、
前記複数の行動履歴データのそれぞれに含まれる各訪問場所における滞在時間について、前記複数の区分のそれぞれに対する適合性の評価値を求める評価手段と、
(a1)前記複数の訪問場所のうちの1つと当該訪問場所での滞在時間の前記複数の区分のうちの1つの区分との複数の組合せを生成し、(a2)各組合せについて、当該組合せが前記複数の行動履歴データに出現する頻度を表す第1指示度として、当該組合せを含む各行動履歴データにおける当該組合せ中の区分に対する前記評価値の総和を求め、(a3)前記複数の組合せのなかから、前記第1指示度が予め指定された閾値以上の組合せを第1の特徴行動パターンとして抽出する抽出手段と、
前記抽出手段で抽出された複数の前記第1の特徴行動パターンのうちの2つを組み合わせて、2つの訪問場所と、その各訪問場所での滞在時間の前記複数の区分のうちの1つと、当該2つの訪問場所への訪問順序とで表される複数の第1の行動パターンを生成する第1の生成手段と、
(b1)各第1の行動パターンについて、前記複数の行動履歴データのうち当該第1の行動パターンを含む行動履歴データの適合度として、当該第1の行動パターン中の2つの訪問場所での滞在時間の区分に対する当該行動履歴データにおける前記評価値のうち値の小さい方、または当該2つの訪問場所での滞在時間の区分に対する当該行動履歴データにおける前記評価値の乗算結果を求め、(b2)当該第1の行動パターンが前記複数の行動履歴データに出現する頻度を表す第2支持度として、当該第1の行動パターンを含む各行動履歴データの前記適合度の総和を求め、(b3)前記複数の第1の行動パターンのなかから、前記第2支持度が予め指定された第2閾値以上の第1の行動パターンを第2の特徴行動パターンとして選択する第1の選択手段と、
を具備したことを特徴とするデータ抽出装置。 - 選択された複数の前記第2の特徴行動パターンのうちの2つを組合せて、前記複数の訪問場所のうちの3つの訪問場所と、その各訪問場所での滞在時間の前記御複数の区分のうちの1つと、当該3つの訪問場所への訪問順序とで表される複数の第2の行動パターンを生成する第2の生成手段と、
(c1)各第2の行動パターンについて、前記複数の行動履歴データのうち当該第2の行動パターンを含む行動履歴データの適合度として、当該第2の行動パターン中の3つの訪問場所での滞在時間の区分に対する当該行動履歴データにおける前記評価値のうち値が最も小さい評価値、または当該3つの訪問場所での滞在時間の区分に対する当該行動履歴データにおける前記評価値の乗算結果を求め、(c2)当該第2の行動パターンが前記複数の行動履歴データに出現する頻度を表す第3支持度として、当該第2の行動パターンを含む各行動履歴データの前記適合度の総和を求め、(c3)前記複数の第2の行動パターンのなかから、前記第3支持度が予め指定された第3閾値以上の第2の行動パターンを第3の特徴行動パターンとして選択する第2の選択手段と、
をさらに具備したことを特徴とする請求項1記載のデータ抽出装置。 - 前記設定手段は、各訪問場所の前記ヒストグラムにおける滞在時間の長さに対し指定された2つ以上の前記複数の分割点をそれぞれ境界とする、該訪問場所での滞在時間を分類するための3つ以上の前記複数の区分を設定することを特徴とする請求項1記載のデータ抽出装置。
- 前記設定手段は、各訪問場所の前記ヒストグラムにおける滞在時間の長さに対し指定された2つ以上の前記複数の分割点に基づき、各区分についてメンバーシップ関数を設定し、
前記評価手段は、前記複数の行動履歴データのそれぞれに含まれる各訪問場所における滞在時間の、前記複数の区分のそれぞれに対する適合性の評価値を前記メンバシップ関数を用いて算出することを特徴とする請求項1記載のデータ抽出装置。 - 前記第1の生成手段は、
前記複数の訪問場所間の移動を制約する条件・規則を表した第1の条件データと、前記移動体が前記複数の訪問場所のうち任意の2つの訪問場所の間を移動する際に経由する訪問場所の数の上限値を定めた第2の条件データとを満たす2つの第1の特徴パターンの組合せを、前記複数の第1の特徴行動パターンのなかから求めて、前記複数の第1の行動パターンを生成することを特徴とする請求項1記載のデータ抽出装置。 - 複数の訪問場所を含む空間内を移動する複数の移動体のそれぞれに対応する行動履歴データであって、前記複数の訪問場所のうち当該移動体が訪問した訪問場所と各訪問場所での滞在時間と各訪問場所への訪問順序とでそれぞれ表される複数の行動履歴データを記憶する記憶手段と、
各行動履歴データ中の各訪問場所での滞在時間を評価する評価手段と、
前記記憶手段に記憶されている前記複数の行動履歴パターンのなかで出現頻度の高い、複数の訪問場所、各訪問場所における滞在時間、及び該複数の訪問場所の訪問順序とで表される特徴行動パターンを抽出する特徴行動パターン抽出手段と、
を備えたデータ抽出装置におけるデータ抽出方法であって、
前記評価手段が、前記複数の行動履歴データを基に、前記複数の訪問場所のそれぞれについて、滞在時間別に当該場所を訪問した移動体の総数を求めて、当該訪問場所における前記複数の移動体の滞在時間の分布状況を示すヒストグラムを生成する生成ステップと、
前記評価手段が、各訪問場所の前記ヒストグラムにおける滞在時間の長さに対し指定された2つ以上の複数の分割点に基づき、該訪問場所での滞在時間を分類するための3つ以上の複数の区分を設定する設定ステップと、
前記評価手段が、前記複数の行動履歴データのそれぞれに含まれる各訪問場所における滞在時間について、前記複数の区分のそれぞれに対する適合性の評価値を求める評価ステップと、
前記特徴行動パターン抽出手段が、(a1)前記複数の訪問場所のうちの1つと当該訪問場所での滞在時間の前記複数の区分のうちの1つの区分との複数の組合せを生成し、(a2)各組合せについて、当該組合せが前記複数の行動履歴データに出現する頻度を表す第1指示度として、当該組合せを含む各行動履歴データにおける当該組合せ中の区分に対する前記評価値の総和を求め、(a3)前記複数の組合せのなかから、前記第1指示度が予め指定された閾値以上の組合せを第1の特徴行動パターンとして抽出する抽出ステップと、
前記特徴行動パターン抽出手段が、前記抽出ステップで抽出された複数の前記第1の特徴行動パターンのうちの2つを組み合わせて、それぞれが、2つの訪問場所と、その各訪問場所での滞在時間の前記複数の区分のうちの1つと、当該2つの訪問場所への訪問順序とで表される複数の第1の行動パターンを生成する第1の生成ステップと、
前記特徴行動パターン抽出手段が、(b1)各第1の行動パターンについて、前記複数の行動履歴データのうち当該第1の行動パターンを含む行動履歴データの適合度として、 当該第1の行動パターン中の2つの訪問場所での滞在時間の区分に対する当該行動履歴データにおける前記評価値のうち値の小さい方、または当該2つの訪問場所での滞在時間の区分に対する当該行動履歴データにおける前記評価値の乗算結果を求め、(b2)当該第1の行動パターンが前記複数の行動履歴データに出現する頻度を表す第2支持度として、当該第1の行動パターンを含む各行動履歴データの前記適合度の総和を求め、(b3)前記複数の第1の行動パターンのなかから、前記第2支持度が予め指定された第2閾値以上の第1の行動パターンを第2の特徴行動パターンとして選択する第1の選択ステップと、
を含むデータ抽出方法。 - 前記特徴行動パターン抽出手段が、選択された複数の前記第2の特徴行動パターンのうちの2つを組合せて、前記複数の訪問場所のうちの3つの訪問場所と、その各訪問場所での滞在時間の前記複数の区分のうちの1つと、当該3つの訪問場所への訪問順序とで表される複数の第2の行動パターンを生成する第2の生成ステップと、
前記特徴行動パターン抽出手段が、(c1)各第2の行動パターンについて、前記複数の行動履歴データのうち当該第2の行動パターンを含む行動履歴データの適合度として、当該第2の行動パターン中の3つの訪問場所での滞在時間の区分に対する当該行動履歴データにおける前記評価値のうち値が最も小さい評価値、または当該3つの訪問場所での滞在時間の区分に対する当該行動履歴データにおける前記評価値の乗算結果を求め、(c2)当該第2の行動パターンが前記複数の行動履歴データに出現する頻度を表す第3支持度として、当該第2の行動パターンを含む各行動履歴データの前記適合度の総和を求め、(c3)前記複数の第2の行動パターンのなかから、前記第3支持度が予め指定された第3閾値以上の第2の行動パターンを第3の特徴行動パターンとして選択する第2の選択ステップと、
をさらに含む請求項6記載のデータ抽出方法。 - 前記設定ステップは、各訪問場所の前記ヒストグラムにおける滞在時間の長さに対し指定された2つ以上の前記複数の分割点をそれぞれ境界とする、該訪問場所での滞在時間を分類するための3つ以上の前記複数の区分を設定することを特徴とする請求項6記載のデータ抽出方法。
- 前記設定ステップは、各訪問場所の前記ヒストグラムにおける滞在時間の長さに対し指定された2つ以上の前記複数の分割点に基づき、各区分についてメンバーシップ関数を設定し、
前記評価ステップは、前記複数の行動履歴データのそれぞれに含まれる各訪問場所における滞在時間の、前記複数の区分のそれぞれに対する適合性の評価値を前記メンバシップ関数を用いて算出することを特徴とする請求項6記載のデータ抽出方法。 - 前記第1の生成ステップは、
前記複数の訪問場所間の移動を制約する条件・規則を表した第1の条件データと、前記移動体が前記複数の訪問場所のうち任意の2つの訪問場所の間を移動する際に経由する訪問場所の数の上限値を定めた第2の条件データとを満たす2つの第1の特徴パターンの組合せを、前記複数の第1の特徴行動パターンのなかから求めて、前記複数の第1の行動パターンを生成することを特徴とする請求項6記載のデータ抽出装置。 - コンピュータを、
複数の訪問場所を含む空間内を移動する複数の移動体のそれぞれに対応する行動履歴データであって、前記複数の訪問場所のうち当該移動体が訪問した訪問場所と各訪問場所での滞在時間と各訪問場所への訪問順序とでそれぞれ表される複数の行動履歴データを記憶する記憶手段、
前記複数の行動履歴データを基に、前記複数の訪問場所のそれぞれについて、滞在時間 別に当該場所を訪問した移動体の総数を求めて、当該訪問場所における前記複数の移動体の滞在時間の分布状況を示すヒストグラムを生成する生成手段、
各訪問場所の前記ヒストグラムにおける滞在時間の長さに対し指定された2つ以上の複数の分割点に基づき、該訪問場所での滞在時間を分類するための3つ以上の複数の区分を設定する設定手段、
前記複数の行動履歴データのそれぞれに含まれる各訪問場所における滞在時間について、前記複数の区分のそれぞれに対する適合性の評価値を求める評価手段、
(a1)前記複数の訪問場所のうちの1つと当該訪問場所での滞在時間の前記複数の区分のうちの1つの区分との複数の組合せを生成し、(a2)各組合せについて、当該組合せが前記複数の行動履歴データに出現する頻度を表す第1指示度として、当該組合せを含む各行動履歴データにおける当該組合せ中の区分に対する前記評価値の総和を求め、(a3)前記複数の組合せのなかから、前記第1指示度が予め指定された閾値以上の組合せを第1の特徴行動パターンとして抽出する抽出手段、
前記抽出手段で抽出された複数の前記第1の特徴行動パターンのうちの2つを組み合わせて、2つの訪問場所と、その各訪問場所での滞在時間の前記複数の区分のうちの1つと、当該2つの訪問場所への訪問順序とで表される複数の第1の行動パターンを生成する第1の生成手段、
(b1)各第1の行動パターンについて、前記複数の行動履歴データのうち当該第1の行動パターンを含む行動履歴データの適合度として、当該第1の行動パターン中の2つの訪問場所での滞在時間の区分に対する当該行動履歴データにおける前記評価値のうち値の小さい方、または当該2つの訪問場所での滞在時間の区分に対する当該行動履歴データにおける前記評価値の乗算結果を求め、(b2)当該第1の行動パターンが前記複数の行動履歴データに出現する頻度を表す第2支持度として、当該第1の行動パターンを含む各行動履歴データの前記適合度の総和を求め、(b3)前記複数の第1の行動パターンのなかから、前記第2支持度が予め指定された第2閾値以上の第1の行動パターンを第2の特徴行動パターンとして選択する第1の選択手段、
として機能させるためのデータ抽出プログラム。 - コンピュータを、さらに、
選択された複数の前記第2の特徴行動パターンのうちの2つを組合せて、前記複数の訪問場所のうちの3つの訪問場所と、その各訪問場所での滞在時間の前記御複数の区分のうちの1つと、当該3つの訪問場所への訪問順序とで表される複数の第2の行動パターンを生成する第2の生成手段、
(c1)各第2の行動パターンについて、前記複数の行動履歴データのうち当該第2の行動パターンを含む行動履歴データの適合度として、当該第2の行動パターン中の3つの訪問場所での滞在時間の区分に対する当該行動履歴データにおける前記評価値のうち値が最も小さい評価値、または当該3つの訪問場所での滞在時間の区分に対する当該行動履歴データにおける前記評価値の乗算結果を求め、(c2)当該第2の行動パターンが前記複数の行動履歴データに出現する頻度を表す第3支持度として、当該第2の行動パターンを含む各行動履歴データの前記適合度の総和を求め、(c3)前記複数の第2の行動パターンのなかから、前記第3支持度が予め指定された第3閾値以上の第2の行動パターンを第3の特徴行動パターンとして選択する第2の選択手段、
として機能させるための請求項11記載のデータ抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003209088A JP4088218B2 (ja) | 2003-06-12 | 2003-08-27 | データ抽出装置、データ抽出方法およびデータ抽出プログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003168128 | 2003-06-12 | ||
JP2003209088A JP4088218B2 (ja) | 2003-06-12 | 2003-08-27 | データ抽出装置、データ抽出方法およびデータ抽出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005056022A JP2005056022A (ja) | 2005-03-03 |
JP4088218B2 true JP4088218B2 (ja) | 2008-05-21 |
Family
ID=34379705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003209088A Expired - Fee Related JP4088218B2 (ja) | 2003-06-12 | 2003-08-27 | データ抽出装置、データ抽出方法およびデータ抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4088218B2 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5366173B2 (ja) | 2008-02-28 | 2013-12-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 操作支援サーバ装置、操作支援方法およびコンピュータ・プログラム |
JP2010134762A (ja) * | 2008-12-05 | 2010-06-17 | Nec Corp | 情報通知システム、情報通知方法およびプログラム |
JP5469876B2 (ja) * | 2009-02-17 | 2014-04-16 | 日本電信電話株式会社 | 行動予測装置及びプログラム |
JP5271151B2 (ja) * | 2009-05-14 | 2013-08-21 | 株式会社エヌ・ティ・ティ・ドコモ | 訪問パターン抽出サーバ、訪問パターン抽出システム及び訪問パターン抽出方法 |
WO2011011616A1 (en) * | 2009-07-23 | 2011-01-27 | Fmr Llc | Location-based information retrieval and analysis |
CN102595936A (zh) * | 2009-09-25 | 2012-07-18 | 雀巢产品技术援助有限公司 | 包含茶氨酸和外源性核苷酸的营养组合物 |
JP5521515B2 (ja) * | 2009-11-30 | 2014-06-18 | 富士通株式会社 | 情報提供装置、情報提供方法、および情報提供プログラム |
JPWO2011102541A1 (ja) * | 2010-02-19 | 2013-06-17 | 日本電気株式会社 | 行動特徴抽出装置、行動特徴抽出システム、行動特徴抽出方法、及び行動特徴抽出プログラム |
JP5185358B2 (ja) * | 2010-12-13 | 2013-04-17 | 株式会社東芝 | 行動履歴検索装置 |
US20120311162A1 (en) * | 2011-06-03 | 2012-12-06 | Uc Group Limited | Systems and methods for validating transaction activity with at least one session identifier |
JP5462341B2 (ja) * | 2012-11-01 | 2014-04-02 | 株式会社ゼンリンデータコム | 属性特定システム、属性特定方法、および、コンピュータプログラム |
JP6903167B2 (ja) * | 2018-01-12 | 2021-07-14 | 株式会社Jtb総合研究所 | 情報処理装置、情報処理プログラムおよび情報処理システム |
-
2003
- 2003-08-27 JP JP2003209088A patent/JP4088218B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005056022A (ja) | 2005-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | A feature selection and multi-model fusion-based approach of predicting air quality | |
US6877012B2 (en) | Method and system for database management for data mining | |
Zandkarimi et al. | A generic framework for trace clustering in process mining | |
Rahman et al. | Discretization of continuous attributes through low frequency numerical values and attribute interdependency | |
JP4088218B2 (ja) | データ抽出装置、データ抽出方法およびデータ抽出プログラム | |
US20020188507A1 (en) | Method and system for predicting customer behavior based on data network geography | |
Dutta et al. | Integrating case-based and rule-based reasoning: the possibilistic connection | |
TWI525460B (zh) | 電子計算裝置、其個人化資訊推薦方法及其電腦程式產品 | |
KR102249466B1 (ko) | 인공지능 추천 모델을 사용하여 추천 정보를 제공하는 데이터 카탈로그 제공 방법 및 시스템 | |
Chang et al. | A hybrid system by evolving case-based reasoning with genetic algorithm in wholesaler's returning book forecasting | |
Wu et al. | An online niche-market tour identification system for the travel and tourism industry | |
CN113158038A (zh) | 基于sta-tcn神经网络框架的兴趣点推荐方法及系统 | |
Pitman et al. | Insights from applying sequential pattern mining to e-commerce click stream data | |
Chen et al. | An efficient and practical approach to obtain a better optimum solution for structural optimization | |
KR102499435B1 (ko) | 인공 지능 기반 신용 평가 모델 생성 방법 및 장치 | |
CN116089595A (zh) | 基于科技成果的数据处理推送方法、装置及介质 | |
Khademolghorani | The imperialist competitive algorithm for automated mining of association rules | |
Chittor Sundaram et al. | Harnessing spatio‐temporal patterns in data for nominal attribute imputation | |
Wang et al. | Efficient multi-objective optimization through parallel surrogate-assisted local search with tabu mechanism and asynchronous option | |
Syafiandini et al. | Classification of Indonesian Government Budget Appropriations or Outlays for Research and Development (GBAORD) using decision tree and naive bayes | |
Wenwen | [Retracted] Building an Urban Smart Community System Based on Association Rule Algorithms | |
Moses et al. | A REVIEW OF DECISION TREE ALGORITHMS FOR PREDICTIVE ANALYSIS IN DATA MINING. | |
Măruşter et al. | A process mining approach to analyse user behaviour | |
CN115622894B (zh) | 基于历史数据概率分析的动态网络拓扑预测方法与系统 | |
CN117891811B (zh) | 一种客户数据采集分析方法、装置及云服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071101 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080115 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080222 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110228 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120229 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120229 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130228 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140228 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |