JP2009199446A - 時系列パターン発見装置及び方法 - Google Patents

時系列パターン発見装置及び方法 Download PDF

Info

Publication number
JP2009199446A
JP2009199446A JP2008041871A JP2008041871A JP2009199446A JP 2009199446 A JP2009199446 A JP 2009199446A JP 2008041871 A JP2008041871 A JP 2008041871A JP 2008041871 A JP2008041871 A JP 2008041871A JP 2009199446 A JP2009199446 A JP 2009199446A
Authority
JP
Japan
Prior art keywords
time
candidate
series
item
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008041871A
Other languages
English (en)
Inventor
Shigeaki Sakurai
茂明 櫻井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008041871A priority Critical patent/JP2009199446A/ja
Publication of JP2009199446A publication Critical patent/JP2009199446A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】特段の背景知識を必要とせず、時系列データの特徴に応じて数値データの離散化を適切に行うことができる時系列パターン発見装置及び方法を提供する。
【解決手段】時系列データ格納部から時系列データを取り出す時系列データ抽出部と、該時系列データから離散アイテムを取り出すアイテム抽出部と、該離散アイテムに基づいて拡張を行うことにより複数の候補時系列パターンを生成する候補生成部と、該複数の候補時系列パターンから候補時系列パターンを取り出す候補抽出部と、該候補時系列パターンの第1の評価値を算出する候補評価部と、該第1の評価値に基づいて、前記複数の数値アイテムを離散化するべきかどうかの評価を行う離散化評価部と、離散化するべきと評価された複数の数値アイテムを離散化する。
【選択図】図1

Description

本発明は、離散値と数値が混在する混合時系列データから特徴的な時系列パターンを発見する時系列パターン発見装置及び方法に関する。
コンピュータ環境及びネットワーク環境の普及に伴って、多数の時系列データが簡便に収集できる環境が整備されており、これらデータを分析したいというニーズが高まっている。本ニーズ対して、離散的な時系列データから特徴的な時系列パターンを効率的に発見する方法のひとつとして、非特許文献1では、離散的な時系列データから深さ優先で頻出する時系列パターンを発見する方法が提案されている。しかしながら、この時系列パターンの発見法は離散データのみを対象とし、離散値と数値が混在した時系列データを直接扱うことはできない。このため本枠組みで数値データを扱うには、事前に数値データを何らかの基準で離散化し、離散データのみから時系列データを生成する必要がある。
下記特許文献1には、データマイニングによる知識抽出において、データ集合に基づいて木構造の判断規則の集合である決定木を構築し、決定木によって正しく分類できる事例と分類できない事例に分類することが記載されている。また下記特許文献1には、分類できない事例を利用して新たな決定木の構築を行うことについても記載されている。この下記特許文献1の技術によれば、特定の特徴を持った事例だけを収集することにより、精度の高い判断規則の集合を獲得することができる。しかしながら、決定木生成において数値を扱うことが可能であるものの、時系列データを対象としていないことから、時系列的なパターンを扱うことはできない。
下記特許文献2には、時系列パターン抽出において、数値をファジィ値に変換すること、離散値の階層的知識の利用により、離散値と数値が混在する時系列データを扱うことについて記載されている。しかしながら、下記特許文献2の技術では、数値をファジィ値に変換するためのメンバーシップ関数を予め設定する必要があり、必ずしも時系列パターンに応じたメンバーシップ関数を設定できるとは限らないという問題がある。
「Sequential PAttern Mining Using Bitmaps,」J.Ayres,J.E.Gehrke,T.Yiu,and J.Flannick,Proc. of the 8th Int. Conf. on Knowledge Discovery and Data Mining,Edmonton,Alberta,Canada,pp.429−435(2002) 特開2005−78240号公報 特開2004−287798号公報
離散データと数値データが混在する混合時系列データを扱うには、数値データを離散化することが必要であるが、従来、数値データを離散化する境界を利用者の背景知識に基づいて予め設定する方法が知られている。また、全データを対象として予めクラスタリングを実施することにより数値データを離散化する境界を決定する方法も知られている。
前者の方法の場合では、利用者が適切な背景知識を持っていないと、数値データを上手く離散化することができず、妥当な時系列パターンを発見することはできない。
これに対し後者の方法の場合では、データに基づいて境界を決定することができることから、利用者は特段の背景知識を持っている必要がない。しかしながら、与えられているデータ全体を見回して境界が設定されることになるため、全体的なデータの傾向を反映した境界が設定されがちであり、より小さな領域でのみ成り立つ数値データ間の関係を反映した時系列パターンを見逃す危険性がある。
本発明はかかる事情を考慮してなされたものであり、特段の背景知識を必要とせず、時系列データの特徴に応じて数値データの離散化を適切に行うことができる時系列パターン発見装置及び方法を提供することを目的とする。
本発明の一観点に係る時系列パターン発見装置は、複数の離散アイテムと複数の数値アイテムにより構成されたアイテム集合が時系列的に並んだ複数の時系列データを格納する時系列データ格納部と、前記時系列データ格納部から時系列データをひとつずつ取り出す時系列データ抽出部と、前記時系列データ抽出部により取り出された時系列データから離散アイテムをひとつずつ取り出すアイテム抽出部と、前記アイテム抽出部により取り出された離散アイテムを格納するアイテム格納部と、前記アイテム格納部に格納されている離散アイテムに基づいて拡張を行うことにより、複数の候補時系列パターンを生成する候補生成部と、前記候補生成部により生成された複数の候補時系列パターンからひとつの候補時系列パターンを取り出す候補抽出部と、前記候補抽出部により取り出された候補時系列パターンの第1の評価値を算出する候補評価部と、前記第1の評価値に基づいて、前記複数の数値アイテムを離散化するべきかどうかの評価を行う離散化評価部と、前記離散化評価部によって離散化するべきと評価された複数の数値アイテムを離散化することにより複数の離散化アイテムを生成する数値アイテム離散化部と、を具備し、前記複数の離散化アイテムを用いて拡張を行うことにより複数の全体候補時系列パターンを生成し、該全体候補時系列パターンの第2の評価値を算出し、該第2の評価値が一定以上の値となる全体候補時系列パターンを特徴的な時系列パターンとして出力する。
本発明によれば、特段の背景知識を必要とせず、時系列データの特徴に応じて数値データの離散化を適切に行うことができる時系列パターン発見装置及び方法を提供できる。
以下、本発明の一実施形態として、健康診断における問診項目や健診項目のような離散値及び数値から構成される時系列データ(離散値及び数値混合時系列データ)が多数存在する場合に、時系列データの特徴に応じて数値データを適切に離散化するとともに、そのような時系列データを対象として特徴的な時系列パターンを発見する時系列パターン発見装置について説明する。
図1に示すように、本装置は、時系列データ格納部B1、時系列データ抽出部B2、アイテム抽出部B3、アイテム格納部B4、候補生成部B5、候補抽出部B6、候補評価部B7、候補判定部B8、パターン格納部B9、結果出力部B10、離散化評価部B11、数値アイテム離散化部B12から構成されている。
時系列データ格納部B1は、複数の離散アイテムと複数の数値アイテムで構成されたアイテム集合が時系列的に並んだ複数の時系列データを格納する。時系列データ抽出部B2は、時系列データ格納部B1に格納されている時系列データを読み込んで時系列データをひとつずつ抽出する。アイテム抽出部B3は、時系列データ抽出部B2により抽出された時系列データからひとつのアイテムを抽出する。アイテム格納部B4は、アイテム抽出部B3により抽出されたアイテムを格納する。
候補生成部B5は、選択されているアイテム、アイテム集合、時系列パターンに対して、アイテム格納部B4に格納されているアイテムを付与することにより、複数の候補時系列パターンを生成する。候補抽出部B6は、候補生成部B5により生成された複数の候補時系列パターンからひとつの候補時系列パターンを抽出する。候補評価部B7は、候補抽出部B6により抽出された候補時系列パターンに対してその評価値を算出する。候補判定部B8は、候補評価部B7により算出された評価値に基づいて、候補時系列パターンが特徴的であるかどうかを判定する。パターン格納部B9は、候補判定部B8により特徴的であると判定された候補時系列パターン及びその関連情報を格納する。
離散化評価部B11は、候補時系列パターンに関連する時系列データに基づいて、複数の数値アイテムを離散化するべきかどうかの評価を行う。数値アイテム離散化部B12は、離散化評価部B11によって離散化するべきであると評価された複数の数値アイテムを離散化して複数の離散化アイテムを生成する。そして結果出力部B10は、パターン格納部B9に格納されている時系列パターンと関連情報から時系列パターンを選別して出力する。
以上のように構成された本実施形態に係る時系列パターン発見装置による処理の手順を図2、図3、図4のフローチャートに沿って説明する。併せて、上記処理部のより具体的な構成についても明らかにする。
先ず図2を参照する。ステップSa1では、時系列データ抽出部B2が時系列データ格納部B1に格納されている時系列データの読み込みを行う。
例えば、時系列データ格納部B1には、図5に示す時系列データが格納されているとする。このとき、時系列データ抽出部B2は当該時系列データのメモリ上への読み込みを行う。ただし、図5の例においては、IDnで括られたブロックがひとつの時系列データに対応しているとする。また、各時系列データにおいては、複数年度における各データが、年度の降順に並べられているとする。このとき、各データは、各年度における属性「最低血圧」、「最高血圧」、「運動習慣」、「勤務形態」の属性値によって特徴付けられているとする。ただし、「最低血圧」、「最高血圧」に対応する属性値が数値として与えられており、「運動習慣」、「勤務形態」に対応する属性値が離散値として与えられているとする。なお、以下においては、属性と属性値の組によって構成される値を「アイテム」と呼ぶことにし、アイテムの集合を「アイテム集合」と呼ぶことにする。すなわち、ID1の2000年度は、「最低血圧:82」、「最高血圧:125」、「運動習慣:あり」、「勤務形態:定時」といった4つのアイテムから構成されたアイテム集合であるといえる。また、各時系列データは、アイテム集合が時系列的に並んだものとして構成されている。
ステップSa2では、アイテム抽出部B3が、読み込まれた時系列データの中からひとつの時系列データの取り出しを行う。このとき、取り出しに失敗すれば、ステップSa8に処理を進める一方、取り出しに成功すれば、ステップSa3に処理を進める。例えば、図5の時系列データが読み込まれており、IDの順に時系列データの取り出しが行われているとした場合、ID100のデータを取り出した後で、再度、当該ステップを実施する場合には、取り出しに失敗したと判定されるため、ステップSa8に処理を進める。一方、その他の場合には、取り出しに成功したと判定されるため、ステップSa3に処理を進める。
ステップSa3では、時系列データ抽出部B2によって抽出された時系列データから、アイテム抽出部B3がアイテムをひとつ取り出す。このとき、アイテムの取り出しに失敗すれば、ステップSa2に処理を戻す一方、アイテムの取り出しに成功すれば、ステップSa4に処理を進める。
例えば、図5の例において、時間的に過去の年度のアイテム集合から、離散的な属性値を持つ属性「運動習慣」、「勤務形態」から順にアイテムを取り出すとする。このとき、ID1に対応する時系列データの場合、2000年度の「勤務形態」に対応する「勤務形態:定時」を取り出した直後に、当該ステップを実施した場合には、失敗と判定されるため、ステップSa2に処理を戻す。一方、その他の場合には、取り出しに成功したと判定されるため、ステップSa4に処理を進める。
ステップSa4では、アイテム抽出部B3が取り出したアイテムが抽出済みであるかどうかの評価を行う。このとき、抽出済みのアイテムであると判定されれば、ステップSa3に処理を戻す一方、未抽出のアイテムであると判定されれば、ステップSa5に処理を進める。
例えば、図5の例においては、2001年度の「運動習慣」に対応するアイテムが取り出された場合には、既に2000年度の「運動習慣」に対応するアイテムとして、「運動習慣:あり」が抽出されているので、2001年度の「運動習慣」のアイテムを抽出済みと判定し、ステップSa3に処理を戻す。一方、2000年度の「運動習慣」に対応するアイテムが抽出された場合には、「運動習慣:あり」といったアイテムはまだ抽出されていないため、当該アイテムを未抽出のアイテムと判定して、ステップSa5に処理を進める。
ステップSa5では、アイテム抽出部B3がアイテム格納部B4に、抽出された当該アイテムを格納する。
以上のステップSa2〜ステップSa5の処理が繰り返されることにより、時系列データに出現するすべての離散アイテムがアイテム格納部B4に格納される。例えば、アイテム格納部B4には、図6に示す離散アイテムが格納される。
ステップSa6では、候補生成部B5が、後述する候補生成処理で利用される辞書式順序系列木の特定の節点に、アイテム格納部B4に格納されているアイテムを順次適用することにより、辞書式順序系列木を成長させる。また、成長させた各節点に対応する候補時系列パターンの第一のスタックへの積み込みを行う。
ここで、辞書式順序系列木の例を、非特許文献1に記載されている図7の例を用いて説明する。図においては、a,bがアイテムを表しており、()で括られたアイテムが同一時間帯に発生するアイテムをまとめたアイテム集合を表している。また、()以外における「,」によって、時間的な系列を表しており、左側にあるアイテムあるいはアイテム集合が、右側にあるアイテムあるいはアイテム集合よりも先に起こることを表している。すなわち、レベル(Level)3の、右端に記載されている(a,b),bが、アイテム集合(a,b)の後に、アイテムbが発生した場合の時系列パターンを表している。当該辞書式順序系列木においては、木構造の各節点に時系列パターンが配置されており、時系列パターン同士を結ぶ関係がその枝の種類によって示されている。ただし、時系列パターン同士には2種類の関係が存在し、図においては、S−Stepによる拡張が細線、I−Stepによる拡張が太線によって示されている。また、S−Stepとは、系列方向へのアイテムの追加を意味しており、I−Stepはアイテム集合方向へのアイテムの追加を意味している。
例えば、レベル2の左端に記載されている時系列パターンa,aにS−Stepでbを追加することにより、時系列パターンa,a,bが生成される。また、時系列パターンa,aにI−Stepでbを追加することにより、時系列パターンa,(a,b)が生成される。
辞書式順序系列木は、アイテムの間に特定の全順序関係を仮定し、S−StepとI−Stepを全順序関係を守りつつ実施することにより、すべてのアイテムの組み合わせを効率的に生成することができる。従って、候補生成部B5は本性質を利用することにより、すべての候補時系列パターンを効率的に生成することができる。
例えば、現在までに生成されている辞書式順序系列木における特定の節点として、候補時系列パターンa,aを割り当てられた節点が与えられているとする。また、2種類のアイテム「a」と「b」が与えられているとする。このとき、a,a,a及びa,a,b及びa,(a,b)がスタックに積み込まれることになる。ただし、同一の時間帯に同一のアイテムが複数発生しないことを仮定しているため、a,(a,a)といった時系列パターンは除外されている。
ステップSa7では、候補抽出部B6が、第一のスタック内に格納されている候補時系列パターンの中から、ひとつの候補時系列パターンを取り出す。ことのき、取り出す候補時系列パターンがなければ、ステップSa16に処理を進める一方、取り出す候補時系列パターンがあれば、ステップSa8に処理を進める。
ステップSa8では、取り出された候補時系列パターンを含んでいる時系列データの個数を、当該候補時系列パターンにおける頻度として算出する。また、式(1)に基づいて、当該候補時系列パターンに対応する支持度を算出する。
支持度=候補時系列パターンの頻度/時系列データの個数 (1)
例えば、ひとつのアイテムからなる候補時系列パターン「勤務形態:3交替」がスタックから抽出されているとする。このとき、図5の時系列データにおいては、ID2、ID3、ID4、ID100といった時系列データの中に当該候補時系列パターンは含まれているので、少なくともその頻度は4と与えられる。また、図示されていないID5〜ID99において、「勤務形態:3交替」を含む時系列データが76個と与えられているとすれば、その頻度は80(=4+76)と与えられ、時系列データの個数は100個であるので、その支持度は0.8=(80/100)と与えられる。
また、ふたつのアイテム集合からなる候補時系列パターン「(運動習慣:なし,勤務形態:3交替),(運動習慣:なし,勤務形態:3交替)」がスタックから抽出されているとする。このとき、図5の時系列データにおいては、ID3、ID4、ID100といった時系列データの中に、当該候補時系列パターンが含まれているので、少なくともその頻度は3と与えられる。ここで、ID2は「(運動習慣:なし,勤務形態:3交替)」からなるアイテム集合を1度しか含んでいないため、当該候補時系列パターンを含んでいないと判断されていることに注意する必要がある。また、図示されていないID5〜ID99において、「(運動習慣:なし,勤務形態:3交替),(運動習慣:なし,勤務形態:3交替)」を含む時系列データが57個と与えられているとすれば、その頻度は60(=3+57)と与えられるので、その支持度は0.6=(60/100)と与えられる。
ステップSa9では、候補時系列パターンに対応する支持度に基づいて、候補判定部B8が当該候補時系列パターンをパターン格納部B9に格納するかどうかを判定する。格納する場合には、ステップSa6に処理を戻す一方、格納しない場合には、ステップSa10に処理を進める。すなわち、候補判定部B8は当該の支持度と予め与えられている第一のしきい値とを比較し、第一のしきい値以上であれば、当該候補時系列パターンをパターン格納部B9に格納してステップSa6に処理を進める。一方、第一のしきい値よりも小さい場合には、当該候補時系列パターンを格納しないと判定してステップSa10に処理を戻す。
例えば、第一のしきい値が0.8と与えられているとする。このとき、「勤務形態:3交替」の支持度は0.8と与えられているため、当該候補時系列パターンをパターン格納部B9に格納して、処理をステップSa6に戻す。一方、「(運動習慣:なし,勤務形態:3交替),(運動習慣:なし,勤務形態:3交替)」の支持度は0.6と与えられているため、当該候補時系列パターンを格納せずに、処理をステップSa10に進める。
ステップSa10では、当該ステップに送られてきた候補時系列パターンに対応する支持度に基づいて、離散化評価部B11が当該候補時系列パターンに付随する時系列データの数値アイテムに対して離散化を実施するかどうかを判定する。このとき、離散化すると判定される場合には、当該候補時系列パターンをパターン格納部B9に格納して、ステップSa11に処理を進める一方、離散化しないと判定される場合には、当該候補時系列パターンをパターン格納部B9に格納せずに、ステップSa7に処理を戻す。すなわち、離散化評価部B11は当該の支持度と予め与えられている第二のしきい値とを比較し、第二のしきい値以上であれば、当該候補時系列パターンをパターン格納部B9に格納して、処理をステップSa11に進める。一方、第二のしきい値よりも小さければ、当該候補時系列パターンをパターン格納部B9に格納せずに、処理をステップSa7に戻す。
例えば、第二のしきい値が0.6と与えられているとする。このとき、「(運動習慣:なし,勤務形態:3交替),(運動習慣:なし,勤務形態:3交替)」の支持度は0.6と与えられているため、当該候補時系列パターンをパターン格納部B9に格納して、処理をステップSa11に進める。
ステップSa11では、数値アイテム離散化部B12が後述する数値アイテム離散化処理に従って、当該候補時系列パターンに付随する時系列データによって構成される数値アイテムの各属性に対してクラスタリングを実施することにより、属性ごとにクラスターを生成する。また、当該属性と生成したクラスターを属性値とみなすことにより、当該属性に対応する複数のアイテムを生成する。以下、当該アイテムを特に「離散化アイテム」と呼ぶことにする。さらには、各数値アイテムを離散化アイテムに置き換えることにより、離散化済みの時系列データに変換する。
ステップSa12では、候補生成部B5が、後述する候補生成処理で利用される辞書式順序系列木の特定の節点に、アイテム格納部B4に格納されているアイテム及び生成した離散化アイテムを順次適用することにより、辞書式順序系列木を成長させる。また、成長させた各節点に対応する候補時系列パターンの第二のスタックへの積み込みを行う。
ステップSa13では、候補抽出部B6が第二のスタックから候補時系列パターンを抽出する。このとき、候補時系列パターンが抽出されなければ、処理をステップSa7に戻す一方、候補時系列パターンが抽出されれば、処理をステップSa14に進める。
ステップSa14では、候補評価部B7が、候補抽出部B6によって抽出された候補時系列パターンが、離散化済みの時系列データに含まれている個数を計算し、当該候補時系列パターンの頻度とする。また、当該頻度に基づいて、当該候補時系列パターンの支持度を計算する。
例えば、「(運動習慣:なし,勤務形態:3交替),(運動習慣:なし,勤務形態:3交替,最高血圧:cl23)」といった候補時系列パターンが抽出されているとする。このとき、ID3、ID4、ID100は当該の時系列パターンを含んでいるので、少なくとも当該の時系列パターンの頻度は3となる。また、図示されていないID5〜ID99の時系列データにおいて、37個の時系列データが当該の時系列パターンを含んでいるとすれば、当該の時系列パターンの支持度は0.4=40/100と与えられる。
ステップSa15では、候補判定部B8が候補評価部B7によって計算された当該時系列パターンの支持度に基づいて、当該候補時系列パターンをパターン格納部B9に格納するかどうかを判定する。このとき、格納すると判定されれば、当該候補時系列パターンをパターン格納部B9に格納して、ステップSa12に処理を戻す。一方、格納しないと判定されれば、当該候補時系列パターンを格納せずに、ステップSa13に処理を戻す。すなわち、当該時系列パターンの支持度が第二のしきい値以上であるならば、当該候補時系列パターンをパターン格納部B9に格納して、処理をステップSa12に処理を戻す一方、しきい値より小さいならば、当該候補時系列パターンを格納せずに、処理をステップSa13に戻す。
例えば、候補時系列パターン「(運動習慣:なし,勤務形態:3交替),(運動習慣:なし,勤務形態:3交替,最高血圧:cl23)」においては、対応する支持度が0.4と与えられているので、第二のしきい値0.4よりも小さくなる。このため、当該時系列パターンをパターン格納部B9に格納せずに、処理をステップSa13に戻す。
ステップSa16では、パターン格納部B9に格納されている候補時系列パターンを、候補生成部B5によって生成された辞書式順序系列木を参照することにより、当該パターンより下位に候補時系列パターンが存在するかどうかを判定し、下位にパターン格納部B9に格納されている候補時系列パターンがない場合にだけ、当該候補時系列パターンを出力する。本判定処理を、パターン格納部B9に格納されているすべての候補時系列パターンに対して実施することにより、下位にパターン格納部B9に格納されている候補時系列パターンを持たないすべての候補時系列パターンが、特徴的な時系列パターンとして出力される。
例えば、図10に示すような辞書式順序系列木が生成されている場合、候補時系列パターン「(運動習慣:なし,勤務形態:3交替),(運動習慣:なし,勤務形態:3交替)」は、候補時系列パターン「(運動習慣:なし,勤務形態:3交替),(運動習慣:なし,勤務形態:3交替),最高血圧:cl23」を下位に持つため、時系列パターンとして出力されない。一方、候補時系列パターン「(運動習慣:なし,勤務形態:3交替),(運動習慣:なし,勤務形態:3交替),最高血圧:cl23」は、下位に時系列パターンを持たないため、時系列パターンとして出力される。ただし、図においては、「×」が付与されている候補時系列パターンは、パターン格納部B9に格納されていないことを示すものとする。
以上により、離散値及び数値混合時系列データからの時系列パターン発見装置の処理の流れを示した。次に、当該の処理で利用されているサブ処理となる、候補作成処理と数値アイテム離散化処理について説明する。
はじめに、候補作成処理を図3に沿って説明する。
ステップSb1では、候補作成処理に与えられる、アイテム集合からアイテムをひとつ取り出す。このとき、取り出すアイテムが存在しなければ、ステップSb5に処理を進める一方、取り出すアイテムが存在すれば、ステップSb2に処理を進める。
例えば、当該の候補作成処理がステップSa6から呼び出されているとすれば、図6の中からひとつのアイテム取り出すことになる。従って、「勤務形態:3交替」をアイテムとして抽出した直後に本処理を実施する場合には、ステップSb5に処理を進め、それ以外の場合には、ステップSb2に処理を進める。また、当該の候補作成処理がステップSa12から呼び出されているとすれば、図6及び図8に示されている離散化アイテムの中から順にひとつのアイテム取り出すことになる。従って、「最高血圧:cl23」をアイテムとして抽出した直後に本処理を実施する場合には、ステップSb5に処理を進め、それ以外の場合には、ステップSb2に処理を進める。
ステップSb2では、候補生成処理に与えられる、辞書式順序系列木における節点と、ステップSb1で取り出されたひとつのアイテムから、系列方向に拡張した候補時系列パターンを生成する。すなわち、当該辞書式順序系列木における節点に対応する候補時系列パターンの最後尾に、当該のアイテムを追加することにより、系列が1つ長くなった候補時系列パターンを生成する。また、当該候補時系列パターンを割り当てる節点を生成して、当該節点と候補生成処理に与えられている節点を、S−Stepを表す枝で結ぶことにより、辞書式順序系列木を成長させる。
例えば、当該の候補作成処理がステップSa12から呼び出されており、図10に示す辞書式順序系列木の一部におけるレベル4の節点が与えられているとする。また、ステップSb1によって「最高血圧:cl23」がアイテムとして与えられているとする。このとき、候補生成部B5は、候補時系列パターン「(運動習慣:なし,勤務形態:3交替),(運動習慣:なし,勤務形態:3交替),最高血圧:cl23」といった候補時系列パターンを生成する。また、当該候補時系列パターンを割り当てる節点を生成して、「(運動習慣:なし,勤務形態:3交替),(運動習慣:なし,勤務形態:3交替)」に対応する節点を、S−Stepを表す枝で結ぶことにより、辞書式順序系列木を成長させる。
ステップSb3では、候補生成処理に与えられる、辞書式順序系列木における節点に対応する候補時系列パターンの最後尾のアイテム集合の最後尾のアイテムを、ステップSb1で取り出されたひとつのアイテムと比較し、前者のアイテムの順序が先になるかどうかの判定を行う。このとき、前者のアイテムが後の場合(含意)には、ステップSb1に処理を戻す一方、前者のアイテムが前の場合(非含意)には、ステップSb4に処理を進める。
例えば、図10に示す辞書式順序系列木の一部におけるレベル4の節点が与えられているとする。また、ステップSb1によって与えられる「運動習慣:なし」がアイテムとして与えられているとする。加えて、図6は、上位のアイテムが順序的に先になるとし、離散化アイテムの順序は、図6のアイテムの後になるとする。このとき、当該の節点に対応する候補時系列パターン「(運動習慣:なし,勤務形態:3交替),(運動習慣:なし,勤務形態:3交替)」の最後尾のアイテム集合の最後尾のアイテムは「勤務形態:3交替」と与えられている。従って、図6における順序関係から「勤務形態:3交替」は、ステップSb1によって与えられる「運動習慣:なし」よりも後のアイテムとなる。このため、ステップSb1に処理を戻す。一方、ステップSb1によって「最高血圧:cl23」がアイテムとして与えられているとすれば、離散化アイテムは、「勤務形態:3交替」よりも後のアイテムとなるので、ステップSb4に処理を進める。
ステップSb4では、候補生成処理に与えられる、辞書式順序系列木における節点と、ステップSb1で取り出されたひとつのアイテムから、アイテム方向に拡張した候補時系列パターンを生成する。すなわち、当該辞書式順序系列木における節点に対応する候補時系列パターンの最後尾のアイテム集合に、当該のアイテムを追加することにより、最後尾のアイテム集合のアイテムの個数が1個多い候補時系列パターンを生成する。また、当該候補時系列パターンを割り当てる節点を生成して、当該節点と候補生成処理に与えられている節点を、I−Stepを表す枝で結ぶことにより、辞書式順序系列木を成長させる。
例えば、図10に示す辞書式順序系列木の一部におけるレベル4の節点が与えられているとする。また、ステップSb1によって「最高血圧:cl23」がアイテムとして与えられているとする。このとき、候補生成部B5は、候補時系列パターン「(運動習慣:なし,勤務形態:3交替),(運動習慣:なし,勤務形態:3交替,最高血圧:cl23)」といった候補時系列パターンを生成する。また、当該候補時系列パターンを割り当てる節点を生成して、「(運動習慣:なし,勤務形態:3交替),(運動習慣:なし,勤務形態:3交替)」に対応する節点を、I−Stepを表す枝で結ぶことにより、辞書式順序系列木を成長させる。
ステップSb5では、生成した候補時系列パターンについて、これを生成した順序とは逆順での積み込みを、候補生成処理に指定されているスタックに対して実施する。
例えば、候補生成処理がステップSa6から呼び出されているとする。また、候補生成処理によって、候補時系列パターンが、「運動習慣:なし,運動習慣:あり」、「運動習慣:なし,運動習慣:なし」、「運動習慣:なし,勤務形態:定時」、「(運動習慣:なし,勤務形態:定時)」、「運動習慣:なし,勤務形態:3交替」、「(運動習慣:なし,勤務形態:3交替)」といった順に生成されているとする。このとき、第一スタックへの積み込みは、「(運動習慣:なし,勤務形態:3交替)」、「運動習慣:なし,勤務形態:3交替」、「(運動習慣:なし,勤務形態:定時)」、「運動習慣:なし,勤務形態:定時」、「運動習慣:なし,運動習慣:なし」、「運動習慣:なし,運動習慣:あり」の順に行われることになる。
次に、数値化アイテム離散化処理を図4の数値化アイテム離散化フローに従って説明する。
ステップSc1では、時系列データを構成する数値属性の中からひとつの属性を選択する。このとき、選択できる属性がなければ、当該アイテム離散化フローの処理を終了する一方、選択できる属性があれば、ステップSc2に処理を進める。
例えば、図5の時系列データを考えた場合、最低血圧、最高血圧が数値属性として与えられているので、最初のループにおいては、最低血圧を選択し、ステップSc2に処理を進める。また、2回目のループでは、最高血圧を選択し、ステップSc2に処理を進める。最終的には、3回目のループで選択する数値属性がなくなるので、当該フローの処理を終了する。
ステップSc2では、当該数値化アイテム処理に与えられている候補時系列パターンに付随する時系列データの中から、ステップSc1で選択した属性の数値アイテムを取り出して、当該の数値アイテムに対して、クラスタリングアルゴリズムを適用することにより、複数のクラスターを生成する。ここで、クラスタリングアルゴリズムとしては、多くの手法が提案されているが、本実施例では、非特許文献2「ファジィとソフトコンピューティングハンドブック」,日本ファジィ学会編集,共立出版,161−163(2000)に記載されているk−平均法を利用してクラスタリングを実施する。従って、予め与えるクラスターの数をk個と指定すれば、k個のクラスターに当該の数値アイテムを離散化することができる。
例えば、当該数値化アイテム処理に、候補時系列パターン「(運動習慣:なし,勤務形態:3交替),(運動習慣:なし,勤務形態:3交替)が与えられているとする。また、ステップSc1によって数値属性として「最低血圧」が選択されているとする。ことのき、図5の時系列データID1、ID2は当該候補時系列パターンを含んでいないため、クラスタリングを実施する対象からは除外される。従って、図11に示すような残りの時系列データID3,ID4,…,ID100の最低血圧の数値アイテムが抽出される。また、クラスターの数が3個と与えられているとすれば、図12に示すようなクラスターが生成される。
ステップSc3では、当該抽出された数値データの各値を、クラスターに置き換えることにより、当該抽出されたデータを離散化した時系列データを生成する。
例えば、候補時系列パターン「(運動習慣:なし,勤務形態:3交替),(運動習慣:なし,勤務形態:3交替)が与えられているとし、「最低血圧」及び「最高血圧」のクラスターによって置き換えた場合、図9に示すような離散化した時系列データが生成される。
以上のようにして、数値データを離散化することにより、以降の処理において、数値アイテムを含めた候補時系列パターンを生成することが可能となる。
しかしながら、本実施例は上記実施形態に限定されるものではない。例えば、候補評価部B7において、抽出する時系列パターンを評価する基準として、支持度を利用しているが、非特許文献3「特徴的な時系列パターンを発見するための新指標の提案」,櫻井茂明,北原洋一,折原良平,日本データベース学会Letters,5,1,8,153−157(2006)に記載されている系列興味度を利用することもできる。
系列興味度について説明する。特定の時系列パターンの中に、相対的な頻度がそれ程高くない部分時系列パターンが含まれている場合を考える。このような時系列パターンは、相対的な頻度がそれ程高くない部分時系列パターンが与えられた段階で、時系列パターンに含まれる残りのアイテムを精度良く予測することができる。このため、ある種の特徴的なパターンとみなすことができる。そこで、相対的な頻度がそれ程高くないことを時系列パターンに含まれる部分時系列パターンの頻度の逆数の最小値によって評価することにより、このような時系列パターンを発見する指標として、系列興味度を式(2)のように定義する。
Figure 2009199446
ただし、f()を時系列パターンsが含まれる時系列データの頻度、Nを時系列データの総数、sをsに含まれる時系列パターンとする。sがsを含むとは、sのすべての要素がsのいずれかの要素に、順序関係を保存したままで含まれることを意味している。α≧0を系列興味度パラメータとする。この式(2)は、α=0の場合に、通常の支持度の定義を表しており、時系列パターンに含まれるアイテムの数が1の場合には、支持度と一致する。
また、候補生成部B5において、辞書式順序系列木を成長させる際に、生成された候補時系列パターンを生成したものの逆順に、スタックに積み込むことにより実現しているが、生成した順に候補時系列パターンをキューに入れることにより、幅優先で時系列パターンを生成することもできる。また、数値アイテム離散化部B12において利用するクラスタリングとして、k−平均法を利用しているが、非特許文献4「ファジィとソフトコンピューティングハンドブック」,日本ファジィ学会編集,共立出版,174−176(2000)に記載の階層的クラスタリングを利用してもよい。
また、結果出力部B10において、パターン格納部B9に格納されている候補時系列パターンのうち、辞書式順序系列木における下位の候補時系列パターンだけを出力していたが、すべての候補時系列パターンを出力するようにしてもよいし、下位の候補時系列パターンを待たない以外の他の条件を満たす候補時系列パターンだけを出力するようにしてもよい。この他、本発明の趣旨を逸脱しない範囲において、種々変形して離散値及び数値混合時系列データからの時系列パターン発見装置を構成することができる。
以上説明した実施形態によれば、特定の時系列パターンに付随する時系列データに基づいて、数値データを離散化することにより、時系列パターンに応じた離散化を行うことができる。このため、データの微細な構造を反映した時系列パターンを混合時系列データから発見することができる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明の一実施形態に係る時系列パターン発見装置を示すブロック図。 上記時系列パターン発見装置による処理手順を示すフローチャート。 上記時系列パターン発見装置による候補作成処理の手順を示すフローチャート。 上記時系列パターン発見装置による数値アイテム離散化処理の手順を示すフローチャート。 上記時系列パターン発見装置が対象とする離散値及び数値混在時系列データの一例を示す図。 アイテム格納部B4に格納されるアイテムの一例を示す図。 候補生成部B5における候補時系列パターンの生成に利用される辞書式順序系列木の一例を示す図。 数値アイテム離散化部B12により生成される離散化アイテムとその中心との間の関係を示す図。 数値アイテム離散化部B12により離散化された時系列データの一例を示す図。 候補生成部B5により生成される辞書式順序系列木の一部を抜粋した一例を示す図。 数値アイテム離散化部B12により抽出された数値属性の一例を示す図。 数値アイテム離散化部B12により、候補時系列パターン「(運動習慣:なし,勤務形態:3形態),(運動習慣:なし,勤務形態:3形態)」に対応する時系列パターンをクラスタリングした結果の一例を示す図。
符号の説明
B1…時系列データ格納部;
B2…時系列データ抽出部;
B3…アイテム抽出部;
B4…アイテム格納部;
B5…候補生成部;
B6…候補抽出部;
B7…候補評価部;
B8…候補判定部;
B9…パターン格納部;
B10…結果出力部;
B11…離散化評価部;
B12…数値アイテム離散化部;

Claims (6)

  1. 複数の離散アイテムと複数の数値アイテムにより構成されたアイテム集合が時系列的に並んだ複数の時系列データを格納する時系列データ格納部と、
    前記時系列データ格納部から時系列データをひとつずつ取り出す時系列データ抽出部と、
    前記時系列データ抽出部により取り出された時系列データから離散アイテムをひとつずつ取り出すアイテム抽出部と、
    前記アイテム抽出部により取り出された離散アイテムを格納するアイテム格納部と、
    前記アイテム格納部に格納されている離散アイテムに基づいて拡張を行うことにより、複数の候補時系列パターンを生成する候補生成部と、
    前記候補生成部により生成された複数の候補時系列パターンからひとつの候補時系列パターンを取り出す候補抽出部と、
    前記候補抽出部により取り出された候補時系列パターンの第1の評価値を算出する候補評価部と、
    前記第1の評価値に基づいて、前記複数の数値アイテムを離散化するべきかどうかの評価を行う離散化評価部と、
    前記離散化評価部によって離散化するべきと評価された複数の数値アイテムを離散化することにより複数の離散化アイテムを生成する数値アイテム離散化部と、を具備し、
    前記複数の離散化アイテムを用いて拡張を行うことにより複数の全体候補時系列パターンを生成し、該全体候補時系列パターンの第2の評価値を算出し、該第2の評価値が一定以上の値となる全体候補時系列パターンを特徴的な時系列パターンとして出力する時系列パターン発見装置。
  2. 前記第1の評価値又は前記第2の評価値を支持度とする請求項1記載の装置。
  3. 前記第1の評価値又は前記第2の評価値を系列興味度とする請求項1記載の装置。
  4. 時系列データ格納部が、複数の離散アイテムと複数の数値アイテムにより構成されたアイテム集合が時系列的に並んだ複数の時系列データを格納するステップと、
    時系列データ抽出部が、前記時系列データ格納部から時系列データをひとつずつ取り出すステップと、
    アイテム抽出部が、前記時系列データ抽出部により取り出された時系列データから離散アイテムをひとつずつ取り出すステップと、
    アイテム格納部が、前記アイテム抽出部により取り出された離散アイテムを格納するステップと、
    候補生成部が、前記アイテム格納部に格納されている離散アイテムに基づいて拡張を行うことにより、複数の候補時系列パターンを生成するステップと、
    候補抽出部が、前記候補生成部により生成された複数の候補時系列パターンからひとつの候補時系列パターンを取り出すステップと、
    候補評価部が、前記候補抽出部により抽出された候補時系列パターンの第1の評価値を算出するステップと、
    離散化評価部が、前記第1の評価値に基づいて、前記複数の数値アイテムを離散化するべきかどうかの評価を行うステップと、
    数値アイテム離散化部が、前記離散化評価部によって離散化するべきと評価された複数の数値アイテムを離散化することにより複数の離散化アイテムを生成するステップと、を具備し、
    前記複数の離散化アイテムを用いて拡張を行うことにより複数の全体候補時系列パターンを生成し、該全体候補時系列パターンの第2の評価値を算出し、該第2の評価値が一定以上の値となる全体候補時系列パターンを特徴的な時系列パターンとして出力する時系列パターン発見方法。
  5. 前記第1の評価値又は前記第2の評価値を支持度とする請求項4記載の装置。
  6. 前記第1の評価値又は前記第2の評価値を系列興味度とする請求項4記載の装置。
JP2008041871A 2008-02-22 2008-02-22 時系列パターン発見装置及び方法 Withdrawn JP2009199446A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008041871A JP2009199446A (ja) 2008-02-22 2008-02-22 時系列パターン発見装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008041871A JP2009199446A (ja) 2008-02-22 2008-02-22 時系列パターン発見装置及び方法

Publications (1)

Publication Number Publication Date
JP2009199446A true JP2009199446A (ja) 2009-09-03

Family

ID=41142857

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008041871A Withdrawn JP2009199446A (ja) 2008-02-22 2008-02-22 時系列パターン発見装置及び方法

Country Status (1)

Country Link
JP (1) JP2009199446A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102010037233A1 (de) 2009-08-31 2011-05-05 Denso Corporation, Kariya-City Automatische Verschließvorrichtung
EP2720154A1 (en) * 2011-06-08 2014-04-16 Kabushiki Kaisha Toshiba Pattern extraction device and method
JP2014085729A (ja) * 2012-10-19 2014-05-12 Fujitsu Ltd 抽出プログラム、抽出装置及び抽出方法
US9412093B2 (en) 2012-11-15 2016-08-09 Fujitsu Limited Computer-readable recording medium, extraction device, and extraction method

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102010037233A1 (de) 2009-08-31 2011-05-05 Denso Corporation, Kariya-City Automatische Verschließvorrichtung
DE102010037233B4 (de) 2009-08-31 2021-10-14 Denso Corporation Automatische Verschließvorrichtung
EP2720154A1 (en) * 2011-06-08 2014-04-16 Kabushiki Kaisha Toshiba Pattern extraction device and method
EP2720154A4 (en) * 2011-06-08 2015-04-08 Toshiba Kk PATTERN EXTRACTION DEVICE AND METHOD
US9569835B2 (en) 2011-06-08 2017-02-14 Kabushiki Kaisha Toshiba Pattern extracting apparatus and method
JP2014085729A (ja) * 2012-10-19 2014-05-12 Fujitsu Ltd 抽出プログラム、抽出装置及び抽出方法
US9412093B2 (en) 2012-11-15 2016-08-09 Fujitsu Limited Computer-readable recording medium, extraction device, and extraction method

Similar Documents

Publication Publication Date Title
Somol et al. Fast branch & bound algorithms for optimal feature selection
CN103098100B (zh) 基于感知信息的三维模型形状分析方法
Zhang State-space search: Algorithms, complexity, extensions, and applications
JP4202798B2 (ja) 時系列パターン抽出装置および時系列パターン抽出プログラム
JP6751376B2 (ja) 最適解探索方法、最適解探索プログラム及び最適解探索装置
JP2009199446A (ja) 時系列パターン発見装置及び方法
Thabtah et al. A new Classification based on Association Algorithm
US20060184474A1 (en) Data analysis apparatus, data analysis program, and data analysis method
JP2006338274A (ja) 業務プロセスモデルの構造推定方法及びその装置
US20050096880A1 (en) Inverse model calculation apparatus and inverse model calculation method
JP2022502744A (ja) コード分類のためのハイブリッド機械学習モデル
CN101615117A (zh) 软件开发过程建模系统和方法
JPWO2010058785A1 (ja) 経路計算順決定方法、プログラムおよび計算装置
WO2018016299A1 (ja) 推定距離算出器、推定距離算出方法、推定距離算出プログラムおよび自動計画器
JP5032374B2 (ja) 情報処理装置及び方法
Norese et al. Identification and development of alternatives: introduction to the recognition of process typologies
Mattson et al. Concept selection in n-dimension using s-Pareto frontiers and visualization
Morillo-Torres et al. A branch and bound hybrid algorithm with four deterministic heuristics for the resource constrained project scheduling problem (RCPSP)
Elyassami et al. Investigating effort prediction of software projects on the ISBSG dataset
Gharehchopogh et al. A novel hybrid artificial immune system with genetic algorithm for software cost estimation
Pham et al. RULES-6: A simple rule induction algorithm for handling large data sets
Caroro et al. An enhanced frequent pattern-growth algorithm with dual pruning using modified anti-monotone support
JP7444248B2 (ja) 分析装置、分析方法および分析プログラム
JPH064292A (ja) 判断規則生成装置
van der Krogt et al. The two faces of plan repair

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20110510