JP4181193B2 - 時系列パターン検出装置及び方法 - Google Patents

時系列パターン検出装置及び方法 Download PDF

Info

Publication number
JP4181193B2
JP4181193B2 JP2006210202A JP2006210202A JP4181193B2 JP 4181193 B2 JP4181193 B2 JP 4181193B2 JP 2006210202 A JP2006210202 A JP 2006210202A JP 2006210202 A JP2006210202 A JP 2006210202A JP 4181193 B2 JP4181193 B2 JP 4181193B2
Authority
JP
Japan
Prior art keywords
time
event
series pattern
candidate
time series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006210202A
Other languages
English (en)
Other versions
JP2008040553A (ja
Inventor
茂明 櫻井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006210202A priority Critical patent/JP4181193B2/ja
Priority to US11/725,696 priority patent/US20080033895A1/en
Publication of JP2008040553A publication Critical patent/JP2008040553A/ja
Application granted granted Critical
Publication of JP4181193B2 publication Critical patent/JP4181193B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90348Query processing by searching ordered data, e.g. alpha-numerically ordered data

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Description

本発明は、複数のイベントから構成される要素が時系列的に並べられた時系列データから特徴的な時系列パターンを検出する時系列パターン検出装置及び方法に関するものである。
従来、離散的に与えられるイベントから構成された時系列データから特徴的な時系列パターンを検出する方法として、非特許文献1に開示されるものが知られている。かかる方法では、例えばある年におけるイベントについて頻度がある基準以上のものを特徴的なものとして取り出し、これら取り出されたイベントを組み合わせて候補となる時系列パターンを生成し、さらにこれら時系列パターンについて基準以上の頻度のものを特徴的なものとして取り出し、さらに各年にまたがって同様な動作を繰り返すことにより特徴的な時系列パターンを検出するようにしている。
この場合、効率的に系列パターンを検出するために特徴的かどうかを判定する基準として、式(1)に定義される時系列パターンの支持度が用いられている。
支持度=(時系列パターンを含む時系列データの数)/(時系列データの数)
…(1)
この支持度は、時系列パターンに含まれる部分時系列パターンに対して単調にその値が減少するといった性質があるため、小さな特徴的な時系列パターンを検出し、この検出された時系列パターンを組み合わせることによって候補時系列パターンを生成し、当該時系列パターンが特徴的かどうかを判定することにより、より大きなすべての特徴的な時系列パターンを効率的に検出することができる。
"Mining Sequential Patterns"(R. Agrawal and R. Srikant Proc. of the 11th Int. Conf.Data Engineering, 3-14, 1995) 「特徴的な時系列パターンの効率的な発見法」(櫻井茂明、折原良平、DEWS2006、7A-o6)
ところが、従来の時系列パターンの検出方法では、候補となる時系列パターンを全て組み合わせて特徴的な時系列パターンを生成するようにしているので、時系列パターンを構成するイベントの個数が増えるに従って、候補時系列パターンの数が爆発的に増加し、特徴的な時系列パターンの生成に多大な計算と時間がかかるという問題があった。
このため、イベントの個数を制限したり、特徴的かどうかを判定する基準を高く設定したりするなどして、候補時系列パターンの数を少なくする必要があった。しかし、このように判定基準を必要以上に高く設定して候補時系列パターンを制限すると、本来特徴的な時系列パターンであるはずの時系列パターンを見逃す危険性が高くなり特徴的な時系列パターンを精度よく検出できないという問題が生じる。
本発明は上記事情に鑑みてなされたもので、複数のイベントから構成される要素が時系列的に並べられた時系列データから、同一の属性に含まれるイベントの変化に追随する時系列パターンを精度よく、しかも高速に検出することができる時系列パターン検出装置及び方法を提供することを目的とする。
本発明にかかる時系列パターン検出装置は、
複数のイベントから構成される要素が時系列的に並べられた時系列データを格納する時系列データ格納手段と、
予めイベントを複数のグループに分類する属性情報を格納する属性情報格納手段と、
系列サイズ1で1個のイベントからなる特徴的なイベント集合を検出するイベント検出手段と、
前記イベント検出手段より検出される特徴的なイベント集合より系列サイズ1の1次時系列パターンを検出するイベント集合検出手段と、
前記イベント集合検出手段より検出される系列サイズ1の1次時系列パターンより特徴的な(i+1)次時系列パターンを検出する時系列パターン検出手段と、具備し、
前記イベント検出手段は、前記時系列データ格納手段より各イベントを取り出すとともに、これら取り出された各イベントの頻度を求め、該頻度に基づいて系列サイズ1で、1個のイベントからなる特徴的なイベント集合を判断する候補時系列パターン判定手段を有し、
前記イベント集合検出手段は、前記イベント検出手段により取得された特徴的イベント集合の任意の2つのイベント集合の組合せに基づいて候補イベント集合を生成する候補時系列パターン生成手段、前記属性情報格納手段に格納された属性情報を参照して候補時系列パターン生成手段で生成された前記候補イベント集合を構成する各イベントの属性に同一のイベントが存在するかを判定する属性情報判定手段及び該属性情報判定手段の判定結果から同じ属性を持つ候補イベント集合について前記時系列データ格納手段に格納される時系列データを参照して候補イベント集合が含まれる時系列データの頻度を求めるとともに、該頻度に基づいて系列サイズ1の1次時系列パターンとして特徴的なイベント集合を判断する候補時系列パターン判定手段を有し、
前記時系列パターン検出手段は、系列サイズi(ただしi=1,2,…)のi次時系列パターンの任意の2つの組合せに基づいて候補(i+1)次時系列パターンを生成する候補時系列パターン生成手段、前記属性情報格納手段に格納された属性情報を参照して前記候補時系列パターン生成手段で生成された候補(i+1)次時系列パターンを構成する各イベントの属性に同一のイベントが存在するかを判定する属性情報判定手段、該属性情報判定手段の判定結果から同じ属性を持つ候補(i+1)次時系列パターンについて前記時系列データ格納手段に格納される時系列データを参照して候補(i+1)次時系列パターンが含まれる時系列データの頻度を求めるとともに、該頻度に基づいて特徴的な(i+1)次時系列パターンを判断する候補時系列パターン判定手段を有する
ことを特徴としている。
本発明にかかる時系列パターン検出方法は、
複数のイベントから構成される要素が時系列的に並べられた時系列データを格納する時系列データ格納手段と、
予めイベントを複数のグループに分類する属性情報を格納する属性情報格納手段と、
系列サイズ1で1個のイベントからなる特徴的なイベント集合を検出するイベント検出手段と、
前記イベント検出手段より検出される特徴的なイベント集合より系列サイズ1の1次時系列パターンを検出するイベント集合検出手段と、
前記イベント集合検出手段より検出される系列サイズ1の1次時系列パターンより特徴的な(i+1)次時系列パターンを検出する時系列パターン検出手段と、を備えた時系列パターン検出装置の時系列パターン検出方法であって、
前記時系列データ格納手段より各イベントを取り出すとともに、これら取り出された各イベントの頻度を求め、該頻度に基づいて系列サイズ1で、1個のイベントからなる特徴的なイベント集合を取得する第1のステップと、
前記第1のステップにより取得された特徴的イベント集合の任意の2つのイベント集合の組合せに基づいて候補イベント集合を生成する第2のステップと、
前記属性情報格納手段に格納された属性情報を参照して前記第2のステップで生成された前記候補イベント集合を構成する各イベントの属性に同一のイベントが存在するかを判定する第3のステップと、
前記第3のステップの判定結果から同じ属性を持つ候補イベント集合について前記時系列データ格納手段に格納される時系列データを参照して候補イベント集合が含まれる時系列データの頻度を求めるとともに、該頻度に基づいて系列サイズ1の1次時系列パターンとして特徴的なイベント集合を判断する第4のステップと、
系列サイズi(ただしi=1,2,…)のi次時系列パターンの任意の2つの組合せに基づいて候補(i+1)次時系列パターンを生成する第5のステップと、
前記属性情報格納手段に格納された属性情報を参照して前記第5のステップで生成された候補(i+1)次時系列パターンを構成する各イベントの属性に同一のイベントが存在するかを判定する第6のステップと、
前記第6のステップの判定結果から同じ属性を持つ候補(i+1)次時系列パターンについて前記時系列データ格納手段に格納される時系列データを参照して候補(i+1)次時系列パターンが含まれる時系列データの頻度を求めるとともに、該頻度に基づいて特徴的な(i+1)次時系列パターンを判断する第7のステップと
を具備したことを特徴としている。
本発明によれば、複数のイベントから構成される要素が時系列的に並べられた時系列データから、同一の属性に含まれるイベントの変化に追随する時系列パターンを精度よく、しかも高速に検出することができる時系列パターン検出装置及び方法を提供できる。
以下、本発明の実施の形態を図面に従い説明する。
(第1の実施の形態)
図1は、本発明の第1の実施の形態に係る時系列パターン検出装置の概略構成を示している。
この場合、時系列パターン検出装置は、イベント検出部100、イベント集合検出部200及び時系列パターン検出部300から構成されている。これらイベント検出部100、イベント集合検出部200及び時系列パターン検出部300は、共通な主回路を有しており、かかる主回路は、図2に示す時系列データ格納部1、時系列データ分解部2、候補時系列パターン判定部3、特徴時系列パターン格納部4、属性情報格納部5、属性情報判定部6及び候補時系列パターン生成部7から構成されている。
次に、このように構成された時系列パターン検出装置の詳細について図3〜図19を用いて説明する。
なお、かかる時系列パターン検出装置を説明するのに先立って、用語をいくつか定義する。まず、複数のイベントから構成された要素が時系列的に並んだものを時系列パターンと呼ぶことにし、時系列パターンに含まれる要素の数を時系列パターンのサイズと呼ぶことにする。また、系列サイズがiとなる時系列パターンを、特にi次時系列パターンと呼ぶことにする。例えば、後述する図14には1次時系列パターン、図16には2次時系列パターン、図18には3次時系列パターンの例を示している。また、図16及び図18の記述において、「→」は時間の経過を示しており、「→」で区切られた複数の異なるイベントは同時刻に発生したイベントであることを示している。また、特徴的かどうかを判定する基準として、上述した式(1)に定義される時系列パターンの支持度を採用し、予め指定された最小支持度以上となる時系列パターンを特徴的な時系列パターンとしている。この実施の形態では、最小支持度として0.5を指定している。この支持度の値は、一例であり、一般的には経験的な数値が用いられる。また、時系列パターンの支持度を計算するにあたって、時系列データが時系列パターンを含むとは、時系列パターンを構成するすべての要素が時系列データを構成する要素に時系列的な順序関係を保持したまま含まれることを意味している。例えば、図7に示す対象者P1に対応する時系列データの場合、「血圧=G→血圧=R」や「血圧=G,運動=G→血圧=R,運動=R」といった時系列パターンを含むが、「血圧=R→血圧=G」や「血圧=G,運動=Y→血圧=Y,運動=R」といった時系列パターンを含まない。
まず、特徴的な時系列パターンを検出する本装置の動作の詳細を図3に示すフローチャートに従って説明する。この場合、図2に示した時系列データ格納部1には、図7(a)(b)(c)に示すように2000年〜2002年について対象者P1〜P3に対応させた時系列データが格納されている。それぞれの時系列データは、3種類のイベント、ここでは血圧、運動、糖分から構成される要素が各年度(2000年〜2002年)ごとに時系列的に並べて格納されている。なお、各イベントに対応して記述されるG,Y,Rは、対象者P1〜P3の血圧、運動、糖分に関する評価ランクなどの指標を示している。また、図2に示した属性情報格納部5には、図8に示すようにイベントを複数のグループに分類する属性に関する情報が属性情報として格納されている。
図3に示すフローチャートでは、イベント検出部100でのステップSa0のイベント検出処理、イベント集合検出部200でのステップSb0のイベント集合検出処理、時系列パターン検出部300でのステップSc0の時系列パターン検出処理を順次実行することにより、特徴的な時系列パターンを検出する。また、これらステップSa0のイベント検出、ステップSb0のイベント集合検出、ステップSc0の時系列パターン検出のそれぞれの処理は、具体的には、図4、図5及び図6に示すフォローチャートが実行される。
図3に示すステップSa0のイベント検出では、まず、図4に示すステップSa1において、時系列データの取り出しが判断される。この場合、図2に示す時系列データ分解部2は、時系列データ格納部1より、まだ取り出されていない時系列データをひとつ取り出す。このとき時系列データ格納部1内に取り出す時系列データが存在する場合は、ステップSa2へと進み、取り出す時系列データが存在しない場合は、イベント検出処理を終了する。
具体的には、はじめて時系列データを取り出す場合は、時系列データ格納部1より図7に示す対象者P1に対応する時系列データを取り出して、ステップSa2へ進む。一方、対象者P1〜P3に対応する全ての時系列データを既に取り出してしまっている場合には、イベント検出処理を終了する。
次に、ステップSa2において、要素取り出しを判断する。この場合、図2に示す時系列データ分解部2は、ステップSa1で取り出した時系列データを構成する要素の中から、まだ取り出されていない要素を1つ取り出す。このとき、時系列データ内に取り出す要素が存在する場合には、ステップSa3へと進み、取り出す要素が存在しない場合は、ステップSa1へと戻る。
具体的には、仮に、図7に示す対象者P1に対応する時系列データが取り出されており、はじめて要素を抽出する場合は、年度2000年の対象者P1に対応する時系列データの要素「血圧=G,運動=G,糖分=G」を取り出し、ステップSa3へと進む。一方、年度2000年〜2002年までの対象者P1に対応する時系列データの要素を既に取り出してしまっている場合には、ステップSa1へと戻る。
次に、ステップSa3において、イベント取り出しを判断する。この場合、図2に示す時系列データ分解部2は、ステップSa2で取り出した要素の中から、まだ取り出されていないイベントをひとつ取り出す。このとき、要素内に取り出すイベントが存在する場合には、ステップSa4へと進み、取り出すイベントが存在しない場合には、ステップSa2へと戻る。
具体的には、年度2000年の対象者P1に対応する時系列データの要素である「血圧=G,運動=G,糖分=G」が取り出されており、はじめてイベントを抽出する場合は、イベント「血圧=G」が取り出され、ステップSa4へと進む。一方、年度2000年の対象者P1に対応する時系列データの要素である「血圧=G」「運動=G」「糖分=G」までのイベントを既に取り出してしまっている場合には、ステップSa2へと戻る。
次に、ステップSa4においては、新規イベントの判定を行う。この場合、図2に示す時系列データ分解部2により取り出されたイベントに対して、イベント評価値計算が実施済みかどうかを判定する。この場合、イベント評価値計算が実施済みでない場合には、新規イベントと判定してステップSa5へと進み、イベント評価値計算を実施済みの場合には、ステップSa3へと戻る。
具体的には、年度2000年の対象者P1に対応する時系列データの要素の中からイベント「血圧=G」が取り出され、このイベント「血圧=G」についてイベント評価値計算が実施済みかを判定し、実施済みでなければ、新規イベントと判定してステップSa5へと進む。一方、年度2000年の対象者P1に対応する時系列データの要素を既に処理済みで、仮に、年度2001年の対象者P1に対応する時系列データの要素の中からイベント「糖分=G」が取り出されているような場合は、イベント評価値計算を実施済みであると判定し、ステップSa3へと戻る。
次に、ステップSa5において、イベント評価値の計算を行う。この場合、図2に示す候補時系列パターン判定部3がイベントの評価値としてイベントの支持度を計算する。まず、候補時系列パターン判定部3は、時系列データ格納部1に格納されている時系列データを参照することにより、該当するイベントを含んでいる時系列データの個数(頻度)を計算する。次に、計算した頻度を上述した式(1)に適用することにより、当該イベントの支持度を計算する。
具体的には、ステップSa4でイベント「血圧=G」についてイベント評価値計算が実施済みでないと判定された場合、かかるイベント「血圧=G」に対して支持度を計算する。この場合、イベント「血圧=G」は、図7(a)に示す年度2000年の対象者P1に対応する時系列データの要素内、年度2000年の対象者P2に対応する時系列データの要素内にそれぞれ含まれ、また、図7(b)に示す年度2001年の対象者P3に対応する時系列データの要素内にも含まれ、対象者P1〜P3に対応する全ての時系列データに含まれているので、頻度3として与えられる。また、時系列データは、対象者P1〜P3に対応しており、個数3として与えられているので、上述した式(1)から支持度は、1.0(=3/3)と計算される。そして、ステップSa6へと進む。
次に、ステップSa6において、評価値の判定を行う。この場合、候補時系列パターン判定部3は、イベントに対して計算された支持度と、予め指定された最小支持度(この実施の形態では上述した0.5)を比較する。そして、イベントに対して計算された支持度が最小支持度以上となる場合には、特徴的なイベントと判定して、ステップSa7へと進み、最小支持度未満となる場合は、特徴的なイベントでないと判定してステップSa3へと戻る。上述したイベント「血圧=G」の場合は、支持度が1.0と計算され、最小支持度が0.5と指定されているため、支持度が最小支持度以上となり、特徴的なイベントと判定されてステップSa7へと進む。
一方、例えば、イベント「糖分=Y」についてイベント評価値計算が実施済みでないと判定された場合、イベント「糖分=Y」は、図7(a)に示す年度2000年の対象者P2に対応する時系列データの要素内に含まれるのみで、対象者P1及びP3に対応する時系列データには含まれないので、頻度1として与えられる。このため、上述した式(1)から支持度は、0.33(=1/3)と計算され、特徴的なイベントでないと判定され、ステップSa3へと戻る。
次に、ステップSa7において、特徴イベントを格納する。この場合、図2に示す候補時系列パターン判定部3は、特徴的なイベントを系列サイズが1で、1個のイベントからなる特徴的なイベント集合として特徴時系列パターン格納部4に格納する。つまり、上述したイベント「血圧=G」の場合、当該イベントが特徴的なイベント集合として、特徴時系列パターン格納部4に格納され、ステップSa4へと戻る。
以下、同様にして、対象者P1〜P3に対応する全ての時系列データについてステップSa0のイベント検出処理を繰り返して実行することにより、系列サイズが1で1個のイベントからなる特徴的なイベント集合をすべて検出する。図7に示す時系列データの場合、上述したイベント「血圧=G」の場合と同様にして他のイベントについても頻度を求めると図9に示すようになる。図9は、系列サイズが1で1個のイベントからなる全ての候補イベント集合とその頻度を記述したものである。そして、これら候補イベント集合のうちの頻度が2以上となるイベントは、上述した式(1)から支持度が0.5以上となる。したがって、これら支持度0.5以上となるイベントが、系列サイズが1で、1個のイベントからなる特徴的なイベント集合として検出され、特徴時系列パターン格納部4に格納される。図10は、図7に示す時系列データから生成される系列サイズが1で1個のイベントからなる全ての特徴的なイベント集合を表している。
このようにして図3に示すステップSa0のイベント検出処理が終了すると、次にステップSb0に進みイベント集合検出処理を実行する。
この場合、図3に示すステップSb0のイベント集合検出処理では、まず、図5に示すステップSb1において、イベント集合の集合の取り出しを判断する。この場合、図2に示す候補時系列パターン生成部7は、イベント集合の集合として、現在のイベント数に一致するイベント集合の集合を特徴時系列パターン格納部4から取り出せるかどうかを判定する。そして、取り出せる場合は、ステップSb2へと進み、取り出せない場合は、ステップSb8へと進む。
ここで、ステップSb1を初めて実行する場合、イベント数は1である。つまり、図7に示す時系列データを対象として、初めてステップSb1を実行する場合は、現在のイベント数1に一致する図10に記述される特徴的なイベント集合が取り出され、ステップSb2へと進む。
次に、ステップSb2において、イベント集合対の取り出しを判断する。この場合、図2に示す候補時系列パターン生成部7は、ステップSb1において抽出されたイベント集合の集合から、まだ抽出されていない2つのイベント集合の組み合わせを1つ取り出す。このとき、取り出すイベント集合の組み合わせが存在する場合には、ステップSb3へと進み、取り出すイベント集合の組み合わせが存在しない場合には、現在のイベント数を1だけ大きくして、ステップSb1へと戻る。
具体的には、図7に示す時系列データを対象として、ステップSb2を初めて実行する場合は、イベント数が1なので、図10に記述される特徴的なイベント集合から任意の2つの組み合わせ、例えば、「血圧=G」と「血圧=Y」のような2つのイベント集合の組み合わせを抽出して、ステップSb3以降の処理へ進む。一方、図7に示す時系列データを対象として、イベント数が1で、既に21(=7C6)個の組み合わせを抽出済みであれば、2つのイベント集合の全ての組み合わせを既に抽出しているので、現在のイベント数を1だけ大きくしてステップSb1へと戻る。この場合、現在のイベント数を1だけ大きくしたイベント数2では、後述するように図12に記述される特徴的なイベント集合から、例えば、「血圧=G, 運動=G」、「血圧=G, 糖分=G」のような2つのイベント集合を抽出してステップSb3以降の処理へ進む。
次に、ステップSb3において、候補イベント集合を生成する。この場合、候補時系列パターン生成部7が取り出したイベント集合の前方に配置されているイベント数よりも1つ小さな部分イベント集合が一致するかどうかを判定する。このとき、一致する場合には、取り出されたイベント集合を組み合わせてイベント数が1つ大きなイベント集合を候補イベント集合として生成してステップSb4へと進む。また、一致しない場合には、ステップSb2へと戻る。
具体的には、イベント数が1で、「血圧=G」、「血圧=Y」の2つのイベント集合が取り出されている場合、イベント数よりも1小さな値は0となるので、イベント部分集合は一致していると判断し、「血圧=G, 血圧=Y」のような2つのイベントからなる候補イベント集合を生成し、ステップSb4へと進む。
次に、ステップSb4において、属性情報の判定を行う。この場合、図2に示す属性情報判定部6は、属性情報格納部5に格納された属性情報(図8)、つまりイベントを複数のグループに分類する属性を参照することにより、候補イベント集合を構成する各イベントの属性に同一のイベントが存在するかどうかを判定する。このとき、候補イベント集合の中に同じ属性を持つイベントが存在しない場合には、ステップSb5へと進み、同じ属性を持つイベントが存在する場合には、ステップSb2へと戻る。
具体的には、「血圧=G, 血圧=Y」のような候補イベント集合が与えられる場合は、これら2つのイベントは、同じ属性「血圧」のイベントになっているため、ステップSb2へと戻る。また、「血圧=G, 糖分=G」のような候補イベント集合が与えられる場合は、これら2つのイベントは、それぞれ別の属性に含まれるイベントなので、同じ属性を持つイベントが存在しないと判定して、ステップSb5へと進む。
次に、ステップSb5において、イベント集合評価計算を行う。この場合、図2に示す候補時系列パターン判定部3が時系列データ格納部1に格納されている時系列データを参照することにより候補イベント集合が含まれる系列データの頻度を計算する。また、その頻度に基づいて上述した式(1)を適用し候補イベント集合の支持度を計算してステップSb6へと進む。
図11は、ステップSb3の候補イベント集合の生成及びステップSb4の属性情報の判定により取得される系列サイズが1で2個のイベントからなる特徴的な候補イベント集合の具体例を示している。そして、これら特徴的な候補イベント集合の全てについて時系列データの頻度を求め(図11参照)、さらに支持度の計算を行う。例えば、候補イベント集合「血圧=G, 糖分=G」の場合は、図7(a)に示す年度2000年の対象者P1に対応する時系列データの要素内、図7(b)に示す年度2001年の対象者P3に対応する時系列データの要素内にそれぞれ含まれ、頻度2として与えられる。また、時系列データは、対象者P1〜P3に対応しており、個数3が与えられているので、上述した式(1)から支持度は、0.67(=2/3)と計算される。また、「血圧=Y, 運動=G」の場合は、図7(a)に示す年度2000年の対象者P3に対応する時系列データの要素内に含まれるのみで、頻度1として与えられるので、上述した式(1)から支持度は、0.33(=1/3)と計算される。そして、ステップSb6へと進む。
次に、ステップSb6において、評価値の判定を行う。この場合、候補時系列パターン判定部3は、候補イベント集合に対して計算された支持度と、予め指定された最小支持度(この実施の形態では上述した0.5)とを比較する。そして、候補イベント集合に対して計算された支持度が最小支持度以上となる場合には、特徴的な候補イベント集合と判定して、ステップSb7へと進み、最小支持度未満となる場合は、特徴的な候補イベント集合でないと判定してステップSb2へと戻る。この場合、上述した候補イベント集合「血圧=G, 糖分=G」の場合は、支持度が0.67と計算され、最小支持度が0.5と指定されているため、支持度が最小支持度以上となり、特徴的な候補イベント集合と判定されてステップSb7へと進む。一方、上述した候補イベント集合「血圧=Y, 運動=G」の場合は、支持度が0.33で、最小支持度0.5よりも小さくなるので、特徴的な候補イベント集合でないと判定され、ステップSb2へと戻る。
次に、ステップSb7において、特徴的なイベント集合を格納する。この場合、図2に示す候補時系列パターン判定部3は、特徴的な候補イベント集合と判定したイベント集合を特徴時系列パターン格納部4に格納しステップSb2へと戻る。つまり、上述した「血圧=G, 糖分=G」の場合、イベント数2の特徴的なイベント集合として、特徴時系列パターン格納部4に格納される。
このようにして図10に記述されるイベント数1の特徴的なイベント集合から任意の2つの組み合わせからなるイベント集合を抽出し、これらについてステップSb0のイベント集合検出処理を繰り返して実行することにより、イベント数2の特徴的なイベント集合を全て検出することができる。この場合、上述したイベント集合「血圧=G, 糖分=G」の場合と同様に他のイベント集合についてもステップSb3の候補イベント集合生成処理及びステップSb4の属性情報判定処理を実行したのち、さらに頻度を求めると、図11に示すようになる。そして、このうちの頻度が2以上となるイベントは、上述した式(1)から支持度が0.5以上となる。したがって、これら支持度0.5以上となるイベントが、イベント数2の特徴的なイベント集合として検出される。図12は、系列サイズが1で2個のイベントからなる全ての特徴的なイベント集合を表している。
次に、系列サイズが1でイベント数2の場合についても、図12に記述される特徴的なイベント集合から任意の2つの組み合わせからなるイベント集合を抽出し、これらについてステップSb0のイベント集合検出処理を繰り返して実行する。この場合、ステップSb3の候補イベント集合生成では、例えば、「血圧=G,運動=G」、「血圧=G,糖分=G」のような2つのイベント集合が取り出される場合は、イベント数よりも1小さな値は1となり、その部分イベント集合はともに「血圧=G」で、両者は一致するので、「血圧=G,運動=G, 糖分=G」のようなイベント数3の候補イベント集合を生成して、ステップSb4へと進む。一方、イベント数2の場合でも、「血圧=G,運動=G」、「運動=G,糖分=G」のような2つのイベント集合が取り出された場合は、イベント数よりも1小さな値は1で、イベント部分集合はそれぞれ「血圧=G」及び「運動=G」となり、両者は一致しないので、ステップSb2へと戻る。
また、ステップSb4の属性情報判定では、例えば、「血圧=G, 運動=G, 糖分=G」のような候補イベント集合が与えられる場合、これら3つのイベントは、それぞれ別の属性に含まれるイベントなので、同じ属性を持つイベントが存在しないと判定して、ステップSb4へと進む。一方、「血圧=G, 運動=G,運動=Y」のような候補イベント集合が与えられる場合は、「運動=G」、「運動=Y」が同じ属性に含まれるイベントであるため、ステップSb2へと戻る。
このようにして、図12に記述されるイベント数2の特徴的なイベント集合より任意の2つの組み合わせからなるイベント集合を抽出し、これらについてステップSb0のイベント集合検出処理を実行することにより、図13に示すイベント数3の候補イベント集合とその頻度を求めることができる。この場合、頻度が2以上となるイベントは、上述した式(1)から支持度が0.5以上となるが、図13に示すイベント数3の候補イベント集合には該当する候補が見当たらないため、イベント数3の特徴的なイベント集合は検出されない。
これ以降、ステップSb2では、取り出すべき特徴的イベント集合の組み合わせが存在しないので、ステップSb1に戻り、さらにステップSb1では、イベント数3の特徴的なイベント集合は存在しないので、イベント数が3となった段階で、新たなイベント数に一致するイベント集合を取り出せないと判断して、ステップSb8へと進む。
ステップSb8では、特徴イベント集合統合が行われる。この場合、図2に示す候補時系列パターン生成部7は、特徴時系列パターン格納部4に格納されている図10及び図12に示す特徴的なイベント集合をそれぞれ系列サイズが1となる時系列パターンと読み替えて1次時系列パターンを生成する。すなわち、図7の時系列データの場合、図10及び図12を併せた図14に示す特徴的なイベント集合が系列サイズ1の1次時系列パターンとして特徴時系列パターン格納部4に格納される。
このようにして図3に示すステップSb0のイベント集合検出処理が終了すると、次に、ステップSc0に進み、時系列パターン検出処理を実行する。
この場合、図3に示すステップSc0の時系列パターン検出処理では、まず、図6に示すステップSc1において、時系列バターンの集合の取り出しを判断する。この場合、図2に示す候補時系列パターン生成部7は、時系列パターンの集合として、現在の系列サイズに一致する時系列パターンの集合を特徴時系列パターン格納部4から取り出せるかどうかを判定する。取り出せる場合には、ステップSc2へと進み、取り出せない場合は、処理を終了する。
ここで、ステップSc1を始めて実行する場合は、系列サイズが1である。これにより、図7の時系列データを対象とし、初めてステップSc1を実行する場合は、図14に記述されている1次時系列パターンが抽出されて、ステップSc2へと進む。
次に、ステップSc2において、時系列パターン対の取り出しを判断する。この場合、図2に示す候補時系列パターン生成部7は、ステップSc1において抽出された時系列パターンの集合から、まだ抽出されていない2つの時系列パターンの組み合わせを1つ取り出す。ここでは、同一の時系列パターンが2度抽出される組み合わせも取り出し可能であるとし、時系列パターンの取り出した順番の異なるものも異なる組み合わせであるとする。
このとき、取り出す時系列パターンの組み合わせが存在する場合には、ステップSc3へと進み、取り出す時系列パターンの組み合わせが存在しない場合には、現在の系列サイズを1だけ大きくして、ステップSc1へと戻る。
具体的には、図7に示す時系列データを対象として、ステップSc2を始めて実行する場合は、系列サイズが1で、図14に記述される時系列パターンから任意の2つの組み合わせ、例えば、「血圧=G」、「血圧=G」のような2つの時系列パターンの組み合わせを抽出する。また、2度目の抽出においては、「血圧=G」、「血圧=Y」といった2つの時系列パターンの組み合わせを抽出し、さらに3度目の抽出においては、「血圧=G」、「血圧=R」のような2つの時系列パターンの組み合わせを抽出する。一方、図7の時系列データを対象とし、系列サイズが1で、既に144(=12×12)個の組み合わせを抽出済みであれば、2つの時系列パターンの全部の組み合わせを既に抽出しているので、ステップSc2へと戻る。この場合、現在の系列サイズを1だけ大きくした系列サイズ2では、後述する図16に示す時系列パターンから任意の2つの組み合わせを抽出してステップSc3以降の処理へ進む。
次に、ステップSc3において、候補時系列パターンを生成する。この場合、候補時系列パターン生成部7が取り出した時系列パターンの前方に配置されている系列サイズよりも1小さい部分時系列パターンが一致しているかどうかを判定する。このとき、一致する場合には、取り出された時系列パターンを組み合わせて系列サイズが1つ大きな時系列パターンを候補時系列パターンとして生成してステップSc4へと進む。また、一致しない場合には、ステップSc2へと戻る。
具体的には、系列サイズが1で、「血圧=G」、「血圧=Y」の2つの時系列パターンが取り出されている場合、系列サイズよりも1小さな値は0となるので、部分時系列パターンは一致していると判断し、「血圧=G→血圧=Y」のような候補2次時系列パターンを生成し、ステップSc4へと進む。
次に、ステップSc4において、属性情報の判定を行う。この場合、図2に示す属性情報判定部6は、候補時系列パターンの系列サイズを判定する。このとき、系列サイズが3以上の場合は、無条件にステップSc5へと進む。一方、系列サイズが2の場合には、属性情報判定部3に格納されている属性情報(図8)、つまりイベントを複数のグループに分類する属性を参照することにより、候補2次時系列パターンの元になった2つの1次時系列パターンを構成する各イベントの属性が一致するかどうかを判定する。このとき、候補時系列パターンの元になった各1次時系列パターン中のイベントの属性が一致する場合は、ステップSc5へと進み、属性の一致しないイベントがある場合は、ステップSc2へと戻る。
具体的には、「血圧=G→血圧=Y」のような2つの時系列パターンからなる候補2次時系列パターンの場合、2つの1次時系列パターンを構成する各イベントの属性は「血圧」で一致しているので、ステップSc5へと進み、一方、「血圧=G→運動=G」のような2つの時系列パターンからなる2次候補時系列パターンの場合、2つの1次時系列パターンを構成する各イベントの属性は「血圧」と「運動」で一致しないので、ステップSc2へと戻る。また、「血圧=G,運動=G→ 血圧=Y,運動=Y」のような2つの候補時系列パターンが与えられている場合は、元になった1次時系列パターン「血圧=G, 運動=G」、「血圧=Y, 運動=Y」は各イベントの属性が「血圧」、「運動」となり、一致するので、ステップSc5へと進む。一方、「血圧=G,運動=G→ 血圧=G,糖分=G」のような2つの候補時系列パターンが与えられている場合は、元になった1次時系列パターン「血圧=G,運動=G」、「血圧=G,糖分=G」は、属性「血圧」が一致するものの、「運動」、「糖分」の属性が一致しないので、ステップSc2へと戻る。
次に、ステップSc5において、時系列パターン評価計算を行う。この場合、図2に示す候補時系列パターン判定部3が時系列データ格納部1に格納されている時系列データを検索することにより候補時系列パターンを含んでいる時系列データの頻度を計算する。また、その頻度に基づいて上述した式(1)を適用し候補イベント集合の支持度を計算してステップSc6へと進む。図15は、ステップSc3の候補時系列パターンの生成及びステップSc4の属性情報の判定により取得された候補2次時系列パターンの具体例を示している。そして、これら候補2次時系列パターンの全てについて系列データの頻度を求め(図15参照)、支持度の計算を行う。例えば、候補時系列パターン「血圧=G→血圧=Y」の場合、図7(a)(b)に示す対象者P1に対応する時系列データの要素内と、対象者P2に対応する時系列データの要素内にそれぞれ含まれ頻度2として与えられる。また、時系列データは、対象者P1〜P3に対応しており、個数3が与えられているので、上述した式(1)から支持度は、0.67(=2/3)と計算される。一方、候補時系列パターン「血圧=Y→血圧=G」の場合、図7(a)(b)に示す対象者P3に対応する時系列データの要素にのみ含まれ頻度1として与えられるので、上述した式(1)から支持度は、0.33(=1/3)と計算される。そして、ステップSc6へと進む。
ステップSc6において、評価値の判定を行う。この場合、候補時系列パターン判定部3は、候補時系列パターンに対して計算された支持度と、予め指定された最小支持度(この実施の形態では上述した0.5)とを比較する。そして、候補時系列パターンに対して計算された支持度が最小支持度以上となる場合には、特徴的な候補時系列パターンと判定して、ステップSc7へと進み、最小支持度未満となる場合は、特徴的な候補時系列パターンでないと判定してステップSc2へと戻る。この場合、上述した候補時系列パターン「血圧=G→血圧=Y」の場合は、支持度が0.67と計算され、最小支持度が0.5と指定されているため、支持度が最小支持度以上となり、特徴的な候補時系列パターンと判定されてステップSc7へと進む。一方、上述した候補時系列パターン「血圧=Y→血圧=G」の場合は、支持度が0.33で、最小支持度0.5よりも小さくなるので、特徴的な候補時系列パターンでないと判定され、ステップSc2へと戻る。
次に、ステップSc7において、これら特徴的な2次時系列パターンを格納する。この場合、図2に示す候補時系列パターン判定部3は、特徴的な時系列パターンと判定した時系列パターンを特徴時系列パターン格納部4に格納して、ステップSc2へと戻る。すなわち、上述した「血圧=G→血圧=Y」の場合、特徴的な2次時系列パターンとして特徴時系列パターン格納部4に格納される。
以下、同様にして、図14に記述される1次時系列パターンから任意の2つの組み合わせを抽出し、これらについてステップSc0の時系列パターン検出処理を繰り返して実行することにより、図16に示すような特徴的な2次時系列パターンを検出することができる。
次に、系列サイズ2にして、図16に記述される特徴的な2次時系列パターンから任意の2つの組み合わせを抽出し、これらについてステップSc0の時系列パターン検出処理を繰り返して実行する。
この場合、ステップSc3の候補時系列パターン生成では、例えば、「血圧=G→ 血圧=Y」、「血圧=G→ 血圧=R」のような2つの時系列パターンが取り出されている場合は、系列サイズ2よりも1小さな値は1となり、その部分時系列パターンはともに「血圧=G」で、両者は一致するので、「血圧=G→ 血圧=Y→ 血圧=R」といった3つの要素からなる候補3次時系列パターンを生成して、ステップSc4へと進む。一方、例えば「血圧=G→ 血圧=Y」、「運動G→ 運動=Y」のような2つの時系列パターンが取り出されている場合は、系列サイズ2よりも1小さな値は1となり、その部分時系列パターンはそれぞれ「血圧=G」及び「運動=G」で、両者は一致しないので、ステップSc2へと戻る。
また、ステップSc4の属性情報の判定では、例えば、「血圧=G→ 血圧=Y→ 血圧=R」といった候補3次時系列パターンが与えられる場合は、系列サイズが3となるので、直ちにステップSc5へと進む。
以下、同様にして、図16に記述される2次時系列パターンから任意の2つの組み合わせを抽出し、これらについてステップSc0の時系列パターン検出処理として、ステップSc3の候補時系列パターンの生成及びステップSc4の属性情報の判定を実行することにより、図17に示す候補3次時系列パターンを取得することができる。そして、これら候補3次時系列パターンの全てについて系列データの頻度を求め(図17参照)、さらに支持度の計算を行うことにより、図18に示すような特徴的な3次時系列パターンを検出することができる。また、この特徴的な3次時系列パターンは、特徴時系列パターン格納部4に格納される。
次に、系列サイズ3として、図18に記述される特徴的な3次時系列パターンから任意の2つの組み合わせを抽出し、これらについてステップSc0の時系列パターン検出処理を繰り返して実行する。
この場合、ステップSc3の候補時系列パターン生成では、例えば、「血圧=G→ 血圧=Y→ 血圧=R」、「血圧=G→ 血圧=Y→ 血圧=R」のような2つの時系列パターンが取り出されている場合は、系列サイズよりも1小さな値は2となり、その部分時系列パターンはともに「血圧=G→ 血圧=Y」で一致するので、「血圧=G→ 血圧=Y→ 血圧=R→ 血圧=R」といった4つの要素からなる候補4次時系列パターンを生成して、ステップSc4へと進む。一方、例えば「血圧=G→ 血圧=Y→ 血圧=R」、「運動=G→ 運動=Y→ 運動=R」のような2つの時系列パターンが取り出されている場合は、系列サイズよりも1小さな値は2となり、その部分時系列パターンはそれぞれ「血圧=G→ 血圧=Y」及び「運動=G→ 運動=Y」で、これらは一致しないので、ステップSc2へと戻る。
また、ステップSc4の属性情報の判定では、例えば、「血圧=G→ 血圧=Y→ 血圧=R→ 血圧=R」のような候補4次時系列パターンが与えられる場合は、系列サイズが4となるので、直ちにステップSc5へと進む。
この場合も、図18に記述される3次時系列パターンから任意の2つの組み合わせを抽出し、これらについてステップSc0の時系列パターン検出処理として、ステップSc3の候補時系列パターンの生成及びステップSc4の属性情報の判定をすることにより、図19に示す候補4次時系列パターンを取得することができる。そして、これら候補4次時系列パターンの全てについて系列データの頻度を求める。この場合、図7に示す時系列データでは、3次時系列パターンまでに対応し、4次時系列パターン以上については対応していないため、全ての候補4次時系列パターンの頻度は0となり(図19参照)、特徴的な4次時系列パターンは検出されない。
これにより、ステップSc0の時系列パターン検出処理は、ステップSc2において、時系列パターン対の取り出しができなくなり、ステップSc1に戻り、ここでも現在の系列サイズに一致する時系列パターンの集合を特徴時系列パターン格納部4から取り出せないと判定し処理を終了する。つまり、図7に示す時系列データを対象とした場合、図19の時系列パターンに示すように、系列サイズが4となる特徴的な4次時系列パターンは存在しないので、系列サイズが4となった時点で、ステップSc0の時系列パターン検出処理は終了する。
このようにして、系列サイズ1の特徴的な時系列パターンから1つ大きな系列サイズからなる特徴的な時系列パターンを生成し、さらに当該系列サイズを1つづつ大きくしながら、系列サイズがiとなる特徴的なi次時系列パターンを生成する。また、すべての時系列パターンの生成が終了した時点で、ステップSc0の時系列パターン検出処理が終了し、本発明の時系列パターン検出装置の処理が全て終了する。つまり、図7に示す時系列データの場合、図14、図16及び図18に示される1次〜3次時系列パターンが検出され、本発明の時系列パターン検出装置の処理が全て終了する。
したがって、このようにすれば、同一属性に含まれ、同時に発生する可能性のないイベントの組み合わせからなるイベント集合を候補イベント集合として生成しないようにできるので、特徴的であるかどうかを判定する必要がある候補イベント集合の数を大幅に削減することができる。例えば、図7の時系列データの場合、「血圧=G,血圧=Y」、「血圧=G,運動=G, 運動=Y」といった候補イベント集合に対して、特徴的であるかどうかの判定をする必要がなくなる。
また、同一の属性に含まれるイベントの変化を追随しない時系列パターンを候補時系列パターンから除外することができるので、候補時系列パターンの数を大幅に削減することもできる。例えば、図7の時系列データの場合、「血圧=G→ 運動=G」、「血圧=G, 運動=G → 血圧=G, 糖分=G」といった候補時系列パターンに対して、特徴的であるかどうかを判定する必要がなくなる。
本実施の形態では、簡便のため、系列データに含まれる系列データの数を3としたが、これは一例であって、実際の系列データの数は数千、数万にもなり、特徴的であるかどうかを判定するには、多大なる計算時間が必要となる。このため、特徴的であるかどうかを判定する候補時系列パターンの数を極力少なくすることにより、特徴的な時系列パターンを精度よく、しかも高速に検出することができる。一方、同一の属性に含まれるイベントの変化を追随した時系列パターンだけを抽出しているため、分析者にとって真に特徴的な時系列パターンを容易に抽出することができる。例えば、図7の時系列データの場合、従来法によっては抽出される「血圧=G→ 運動=Y」、「血圧=G→ 運動=Y→ 血圧=R」といった同一の属性に含まれるイベントの変化を追随しない時系列パターンを抽出しないため、検出された特徴的な時系列パターンの中から分析者にとって真に特徴的な時系列パターンを容易に検出することもできる。
(変形例1)
上述した実施の形態では、属性情報格納部5に格納する属性としては、系列データの同一の列に対応するイベントに階層構造を規定することなしに属性を構成していたが、同一の列に対応するイベントに階層構造を規定して構成してもよい。例えば、属性「飲酒」の列に含まれるイベントが図20に示すように与えられており、イベント「飲酒=飲む:ビール」、「飲酒=飲む:ワイン」、「飲酒=飲む:日本酒」、「飲酒=飲む:焼酎」が同時に発生する可能性がある場合、図21に示すように属性を構成することができる。
このようにすると、図3に示すステップSb0のイベント集合検出処理において、図5に示すステップSb4の属性情報の判定の際に、属性情報判定部6が上位の分類基準である「飲酒=飲む」、「飲酒=飲まない」に対しては、同時に発生することを禁止する一方、下位の分類基準である「飲酒=飲む:ビール」、「飲酒=飲む:ワイン」、「飲酒=飲む:日本酒」、「飲酒=飲む:焼酎」に関しては同時に発生することを許可するようにできる。
また、図3に示すステップSc0の時系列パターン検出処理において、図6に示すステップSc4の属性情報の判定の際に、属性情報判定部6が属性「飲酒」に含まれるイベントの個数を無視して、当該属性に関するイベントの有無によって特徴的であるかどうかを評価する必要があるかどうかを判定することもできる。このような判定を行うことにより、「飲酒=飲まない→血圧=G」といった時系列パターンは特徴的であるかどうかを評価する必要がないと判定する一方、「飲酒=飲まない→ 飲酒=飲む:ワイン→ 飲酒=飲む:ビール, 飲酒=ワイン」といった時系列パターンは特徴的であるかどうかを評価する必要があると判定することができる。
その他、本発明は、上記実施の形態に限定されるものでなく、実施段階では、その要旨を変更しない範囲で種々変形することが可能である。
例えば、図3に示すステップSc0の時系列パターン検出処理において、図6に示すステップSc4の属性情報の判定の際に、イベントの変化に関する制約を課して判定することもできる。すなわち、「血圧=G→ 血圧=Y」といった属性「血圧」に含まれるイベントが変化する場合には、特徴的であるかどうかを評価する必要があると判定する一方、「血圧=G → 血圧=G」といった属性「血圧」に含まれるイベントが変化しない場合は、特徴的であるかどうかを評価する必要がないと判定することができる。
また、上述した実施の形態では、図1に示すイベント検出部100を設けた例を述べているが、例えば、特徴的なイベント集合にかかるデータが予め取得されていて、このデータを利用できるのであれば、イベント検出部100を省略しても本発明の時系列パターン検出装置は実現できる。
さらに、上述した実施の形態では、候補時系列パターン判定部3の特徴的かどうかを判定する基準として、時系列パターンの支持度を利用したが、支持度に代わって、系列興味度を利用してもよい。この系列興味度は、非特許文献2に記述されたもので、例えば特定の時系列パターンの中に、相対的な頻度がそれほど高くない部分時系列パターンが含まれる場合、この時系列パターンは相対的な頻度がそれほど高くない部分時系列パターンが与えられた段階で時系列パターンに含まれる残りのイベントを精度よく予測することができる。このため、ある種の特徴的な時系列パターンとみなすことができる。そこで、相対的な頻度がそれほど高くないことを時系列パターンに含まれる部分時系列パターンの頻度の逆数の最小値によって評価することにより、このような時系列パターンを検出する指標として定義される。
さらに、上記実施の形態には、種々の段階の発明が含まれており、開示されている複数の構成要件における適宜な組み合わせにより種々の発明が抽出できる。例えば、実施の形態に示されている全構成要件から幾つかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題を解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除された構成が発明として抽出できる。
本発明の第1の実施の形態にかかる時系列パターン検出装置の概略構成を示す図。 第1の実施の形態にかかる時系列パターン検出装置の主回路の概略構成を示す図。 第1の実施の形態の時系列パターン検出装置での処理全体の流れを説明するためのフローチャート。 第1の実施の形態の時系列パターン検出装置での処理のうちイベント検出処理の流れを説明するためのフローチャート。 第1の実施の形態の時系列パターン検出装置での処理のうちイベント集合処理の流れを説明するためのフローチャート。 第1の実施の形態の時系列パターン検出装置での処理のうち時系列パターン検出処理の流れを説明するためのフローチャート。 第1の実施の形態に適用される時系列データ格納部に格納される時系列データの一例を示す図。 第1の実施の形態に適用される属性情報格納部に格納される属性情報の一例を示す図。 時系列データ格納部の時系列データから生成される系列サイズが1で1個のイベントからなる候補イベント集合とその頻度を表す図。 時系列データ格納部の時系列データから生成される系列サイズが1で1個のイベントからなる特徴的なイベント集合を表す図。 時系列データ格納部の時系列データから生成される系列サイズが1で2個のイベントからなる候補イベント集合とその頻度を表す図。 時系列データ格納部の時系列データから生成される系列サイズが1で2個のイベントからなる特徴的なイベント集合を表す図。 時系列データ格納部の時系列データから生成される系列サイズが1で3個のイベントからなる候補イベント集合とその頻度を表す図。 時系列データ格納部の時系列データから生成される特徴的な1次時系列パターンを表す図。 時系列データ格納部の時系列データから生成される候補2次時系列パターンとその頻度を表す図。 時系列データ格納部の時系列データから生成される特徴的な2次時系列パターンを表す図。 時系列データ格納部の時系列データから生成される候補3次時系列パターンとその頻度を表す図。 時系列データ格納部の時系列データから生成される特徴的な3次時系列パターンを表す図。 時系列データ格納部の時系列データから生成される候補4次時系列パターンとその頻度を表す図。 本発明の変形例の属性情報格納部に格納される階層的構造の属性情報の一例を示す図。 図20に示す階層的構造の属性情報をさらに説明するための図。
符号の説明
100…イベント検出部、200…イベント集合検出部、
300…時系列パターン検出部
1…時系列データ格納部、2…時系列データ分解部、
3…候補時系列パターン判定部、4…特徴時系列パターン格納部、
5…属性情報格納部、6…属性情報判定部、7…候補時系列パターン生成部。

Claims (8)

  1. 複数のイベントから構成される要素が時系列的に並べられた時系列データを格納する時系列データ格納手段と、
    予めイベントを複数のグループに分類する属性情報を格納する属性情報格納手段と、
    系列サイズ1で1個のイベントからなる特徴的なイベント集合を検出するイベント検出手段と、
    前記イベント検出手段より検出される特徴的なイベント集合より系列サイズ1の1次時系列パターンを検出するイベント集合検出手段と、
    前記イベント集合検出手段より検出される系列サイズ1の1次時系列パターンより特徴的な(i+1)次時系列パターンを検出する時系列パターン検出手段と、具備し、
    前記イベント検出手段は、前記時系列データ格納手段より各イベントを取り出すとともに、これら取り出された各イベントの頻度を求め、該頻度に基づいて系列サイズ1で、1個のイベントからなる特徴的なイベント集合を判断する候補時系列パターン判定手段を有し、
    前記イベント集合検出手段は、前記イベント検出手段により取得された特徴的イベント集合の任意の2つのイベント集合の組合せに基づいて候補イベント集合を生成する候補時系列パターン生成手段、前記属性情報格納手段に格納された属性情報を参照して候補時系列パターン生成手段で生成された前記候補イベント集合を構成する各イベントの属性に同一のイベントが存在するかを判定する属性情報判定手段及び該属性情報判定手段の判定結果から同じ属性を持つ候補イベント集合について前記時系列データ格納手段に格納される時系列データを参照して候補イベント集合が含まれる時系列データの頻度を求めるとともに、該頻度に基づいて系列サイズ1の1次時系列パターンとして特徴的なイベント集合を判断する候補時系列パターン判定手段を有し、
    前記時系列パターン検出手段は、系列サイズi(ただしi=1,2,…)のi次時系列パターンの任意の2つの組合せに基づいて候補(i+1)次時系列パターンを生成する候補時系列パターン生成手段、前記属性情報格納手段に格納された属性情報を参照して前記候補時系列パターン生成手段で生成された候補(i+1)次時系列パターンを構成する各イベントの属性に同一のイベントが存在するかを判定する属性情報判定手段、該属性情報判定手段の判定結果から同じ属性を持つ候補(i+1)次時系列パターンについて前記時系列データ格納手段に格納される時系列データを参照して候補(i+1)次時系列パターンが含まれる時系列データの頻度を求めるとともに、該頻度に基づいて特徴的な(i+1)次時系列パターンを判断する候補時系列パターン判定手段を有する
    ことを特徴とする時系列パターン検出装置。
  2. イベント検出手段は、前記時系列データ格納手段より取り出される各イベントの頻度に基づいて求められる支持度と、予め指定される最小支持度との比較結果から特徴的なイベント集合を検出することを特徴とする請求項1記載の時系列パターン検出装置。
  3. 前記イベント集合検出手段の前記候補時系列パターン生成手段は、前記イベント検出手段により取得された特徴的イベント集合より任意の2つのイベント集合の組合せを取り出すとともに、これらイベント集合の前方に配置されるイベント数よりも1つ小さな部分イベント集合の一致を判断し候補イベント集合を生成することを特徴とする請求項1記載の時系列パターン検出装置。
  4. 前記イベント集合検出手段の候補時系列パターン判定手段は、前記候補イベント集合が含まれる時系列データの頻度に基づいて求められる支持度と、予め指定される最小支持度との比較結果から特徴的なイベント集合を判断することを特徴とする請求項1記載の時系列パターン検出装置。
  5. 前記時系列パターン検出手段の前記候補時系列パターン生成手段は、系列サイズi(ただしi=1,2,…)のi次時系列パターンから任意の2つの組合せを取り出すとともに、i次時系列パターンの前方に配置される系列サイズよりも1つ小さな部分時系列パターンの一致を判断し候補(i+1)次時系列パターンを生成することを特徴とする請求項1記載の時系列パターン検出装置。
  6. 前記時系列パターン検出手段の候補時系列パターン判定手段は、前記候補(i+1)次時系列パターンが含まれる時系列データの頻度に基づいて求められる支持度と、予め指定される最小支持度との比較結果から特徴的な(i+1)次時系列パターンを判定することを特徴とする請求項1記載の時系列パターン検出装置。
  7. 前記時系列パターン検出手段は、前記候補(i+1)次時系列パターンの系列サイズが3以上で前記属性情報判定手段による属性情報の判定を行わないことを特徴とする請求項1記載の時系列パターン検出装置。
  8. 複数のイベントから構成される要素が時系列的に並べられた時系列データを格納する時系列データ格納手段と、
    予めイベントを複数のグループに分類する属性情報を格納する属性情報格納手段と、
    系列サイズ1で1個のイベントからなる特徴的なイベント集合を検出するイベント検出手段と、
    前記イベント検出手段より検出される特徴的なイベント集合より系列サイズ1の1次時系列パターンを検出するイベント集合検出手段と、
    前記イベント集合検出手段より検出される系列サイズ1の1次時系列パターンより特徴的な(i+1)次時系列パターンを検出する時系列パターン検出手段と、を備えた時系列パターン検出装置の時系列パターン検出方法であって、
    前記時系列データ格納手段より各イベントを取り出すとともに、これら取り出された各イベントの頻度を求め、該頻度に基づいて系列サイズ1で、1個のイベントからなる特徴的なイベント集合を取得する第1のステップと、
    前記第1のステップにより取得された特徴的イベント集合の任意の2つのイベント集合の組合せに基づいて候補イベント集合を生成する第2のステップと、
    前記属性情報格納手段に格納された属性情報を参照して前記第2のステップで生成された前記候補イベント集合を構成する各イベントの属性に同一のイベントが存在するかを判定する第3のステップと、
    前記第3のステップの判定結果から同じ属性を持つ候補イベント集合について前記時系列データ格納手段に格納される時系列データを参照して候補イベント集合が含まれる時系列データの頻度を求めるとともに、該頻度に基づいて系列サイズ1の1次時系列パターンとして特徴的なイベント集合を判断する第4のステップと、
    系列サイズi(ただしi=1,2,…)のi次時系列パターンの任意の2つの組合せに基づいて候補(i+1)次時系列パターンを生成する第5のステップと、
    前記属性情報格納手段に格納された属性情報を参照して前記第5のステップで生成された候補(i+1)次時系列パターンを構成する各イベントの属性に同一のイベントが存在するかを判定する第6のステップと、
    前記第6のステップの判定結果から同じ属性を持つ候補(i+1)次時系列パターンについて前記時系列データ格納手段に格納される時系列データを参照して候補(i+1)次時系列パターンが含まれる時系列データの頻度を求めるとともに、該頻度に基づいて特徴的な(i+1)次時系列パターンを判断する第7のステップと
    を具備したことを特徴とする時系列パターン検出方法。
JP2006210202A 2006-08-01 2006-08-01 時系列パターン検出装置及び方法 Active JP4181193B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006210202A JP4181193B2 (ja) 2006-08-01 2006-08-01 時系列パターン検出装置及び方法
US11/725,696 US20080033895A1 (en) 2006-08-01 2007-03-20 Apparatus and method for detecting sequential pattern

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006210202A JP4181193B2 (ja) 2006-08-01 2006-08-01 時系列パターン検出装置及び方法

Publications (2)

Publication Number Publication Date
JP2008040553A JP2008040553A (ja) 2008-02-21
JP4181193B2 true JP4181193B2 (ja) 2008-11-12

Family

ID=39030444

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006210202A Active JP4181193B2 (ja) 2006-08-01 2006-08-01 時系列パターン検出装置及び方法

Country Status (2)

Country Link
US (1) US20080033895A1 (ja)
JP (1) JP4181193B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014208092A1 (ja) 2013-06-28 2014-12-31 株式会社東芝 監視制御システム及び制御方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6003561B2 (ja) * 2012-11-15 2016-10-05 富士通株式会社 抽出プログラム、抽出装置及び抽出方法
JP5962471B2 (ja) * 2012-11-30 2016-08-03 富士通株式会社 抽出プログラム、抽出装置及び抽出方法
WO2016116958A1 (ja) * 2015-01-19 2016-07-28 株式会社東芝 系列データ分析装置及プログラム
US10241979B2 (en) * 2015-07-21 2019-03-26 Oracle International Corporation Accelerated detection of matching patterns
US10810073B2 (en) * 2017-10-23 2020-10-20 Liebherr-Werk Nenzing Gmbh Method and system for evaluation of a faulty behaviour of at least one event data generating machine and/or monitoring the regular operation of at least one event data generating machine
US20230333771A1 (en) * 2022-04-19 2023-10-19 Dell Products L.P. Attribute-only reading of specified data

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5819266A (en) * 1995-03-03 1998-10-06 International Business Machines Corporation System and method for mining sequential patterns in a large database
US5742811A (en) * 1995-10-10 1998-04-21 International Business Machines Corporation Method and system for mining generalized sequential patterns in a large database

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014208092A1 (ja) 2013-06-28 2014-12-31 株式会社東芝 監視制御システム及び制御方法
JP2015011565A (ja) * 2013-06-28 2015-01-19 株式会社東芝 監視制御システム

Also Published As

Publication number Publication date
US20080033895A1 (en) 2008-02-07
JP2008040553A (ja) 2008-02-21

Similar Documents

Publication Publication Date Title
JP4181193B2 (ja) 時系列パターン検出装置及び方法
JP4504702B2 (ja) 文書処理装置、文書処理方法、および文書処理プログラム
CN107229627B (zh) 一种文本处理方法、装置及计算设备
US20090177466A1 (en) Detection of speech spectral peaks and speech recognition method and system
US20180005087A1 (en) Pattern recognition device, pattern recognition method, and computer program product
JP2010044637A (ja) データ処理装置、方法、及びプログラム
KR20160056983A (ko) 미등록어 자동 추출에 기반한 형태소 사전 구축 시스템 및 방법
JP6558863B2 (ja) モデル作成装置、推定装置、方法、及びプログラム
KR100919546B1 (ko) 음성 간의 유사도를 평가하는 방법 및 장치
Van Balen et al. Corpus Analysis Tools for Computational Hook Discovery.
KR20160066216A (ko) 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체
JP4985724B2 (ja) 単語認識プログラム、単語認識方法、単語認識装置
JP5189413B2 (ja) 音声データ検索システム
JP2009223415A (ja) 情報処理装置及び方法
JP2017049911A (ja) 文字認識装置、文字認識方法およびプログラム
JP6008067B2 (ja) テキスト処理システム、テキスト処理方法およびテキスト処理プログラム
JP2007241636A (ja) 文書データ解析装置および文書データ解析プログラム
JP2017033434A (ja) 候補語評価装置、候補語評価システム、プログラム及び候補語評価方法
Shen et al. Emotion Neural Transducer for Fine-Grained Speech Emotion Recognition
JP2009140411A (ja) 文章要約装置および文章要約方法
JP6235368B2 (ja) パターン認識装置、パターン認識方法およびプログラム
JP6374289B2 (ja) 文字列検索装置および方法並びにプログラム
Damasceno et al. Independent vector analysis with sparse inverse covariance estimation: An application to misinformation detection
WO2022259304A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP5450276B2 (ja) 読み推定装置、読み推定方法、および読み推定プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080326

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080513

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080711

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080826

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080828

R151 Written notification of patent or utility model registration

Ref document number: 4181193

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110905

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110905

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120905

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120905

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130905

Year of fee payment: 5

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350