JP2009199446A

JP2009199446A - 時系列パターン発見装置及び方法

Info

Publication number: JP2009199446A
Application number: JP2008041871A
Authority: JP
Inventors: Shigeaki Sakurai; 茂明櫻井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-02-22
Filing date: 2008-02-22
Publication date: 2009-09-03

Abstract

【課題】特段の背景知識を必要とせず、時系列データの特徴に応じて数値データの離散化を適切に行うことができる時系列パターン発見装置及び方法を提供する。
【解決手段】時系列データ格納部から時系列データを取り出す時系列データ抽出部と、該時系列データから離散アイテムを取り出すアイテム抽出部と、該離散アイテムに基づいて拡張を行うことにより複数の候補時系列パターンを生成する候補生成部と、該複数の候補時系列パターンから候補時系列パターンを取り出す候補抽出部と、該候補時系列パターンの第１の評価値を算出する候補評価部と、該第１の評価値に基づいて、前記複数の数値アイテムを離散化するべきかどうかの評価を行う離散化評価部と、離散化するべきと評価された複数の数値アイテムを離散化する。
【選択図】図１

Description

本発明は、離散値と数値が混在する混合時系列データから特徴的な時系列パターンを発見する時系列パターン発見装置及び方法に関する。

コンピュータ環境及びネットワーク環境の普及に伴って、多数の時系列データが簡便に収集できる環境が整備されており、これらデータを分析したいというニーズが高まっている。本ニーズ対して、離散的な時系列データから特徴的な時系列パターンを効率的に発見する方法のひとつとして、非特許文献１では、離散的な時系列データから深さ優先で頻出する時系列パターンを発見する方法が提案されている。しかしながら、この時系列パターンの発見法は離散データのみを対象とし、離散値と数値が混在した時系列データを直接扱うことはできない。このため本枠組みで数値データを扱うには、事前に数値データを何らかの基準で離散化し、離散データのみから時系列データを生成する必要がある。

下記特許文献１には、データマイニングによる知識抽出において、データ集合に基づいて木構造の判断規則の集合である決定木を構築し、決定木によって正しく分類できる事例と分類できない事例に分類することが記載されている。また下記特許文献１には、分類できない事例を利用して新たな決定木の構築を行うことについても記載されている。この下記特許文献１の技術によれば、特定の特徴を持った事例だけを収集することにより、精度の高い判断規則の集合を獲得することができる。しかしながら、決定木生成において数値を扱うことが可能であるものの、時系列データを対象としていないことから、時系列的なパターンを扱うことはできない。

下記特許文献２には、時系列パターン抽出において、数値をファジィ値に変換すること、離散値の階層的知識の利用により、離散値と数値が混在する時系列データを扱うことについて記載されている。しかしながら、下記特許文献２の技術では、数値をファジィ値に変換するためのメンバーシップ関数を予め設定する必要があり、必ずしも時系列パターンに応じたメンバーシップ関数を設定できるとは限らないという問題がある。
「ＳｅｑｕｅｎｔｉａｌＰＡｔｔｅｒｎＭｉｎｉｎｇＵｓｉｎｇＢｉｔｍａｐｓ，」Ｊ．Ａｙｒｅｓ，Ｊ．Ｅ．Ｇｅｈｒｋｅ，Ｔ．Ｙｉｕ，ａｎｄＪ．Ｆｌａｎｎｉｃｋ，Ｐｒｏｃ．ｏｆｔｈｅ８ｔｈＩｎｔ．Ｃｏｎｆ．ｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ，Ｅｄｍｏｎｔｏｎ，Ａｌｂｅｒｔａ，Ｃａｎａｄａ，ｐｐ．４２９−４３５（２００２）特開２００５−７８２４０号公報特開２００４−２８７７９８号公報

離散データと数値データが混在する混合時系列データを扱うには、数値データを離散化することが必要であるが、従来、数値データを離散化する境界を利用者の背景知識に基づいて予め設定する方法が知られている。また、全データを対象として予めクラスタリングを実施することにより数値データを離散化する境界を決定する方法も知られている。

前者の方法の場合では、利用者が適切な背景知識を持っていないと、数値データを上手く離散化することができず、妥当な時系列パターンを発見することはできない。

これに対し後者の方法の場合では、データに基づいて境界を決定することができることから、利用者は特段の背景知識を持っている必要がない。しかしながら、与えられているデータ全体を見回して境界が設定されることになるため、全体的なデータの傾向を反映した境界が設定されがちであり、より小さな領域でのみ成り立つ数値データ間の関係を反映した時系列パターンを見逃す危険性がある。

本発明はかかる事情を考慮してなされたものであり、特段の背景知識を必要とせず、時系列データの特徴に応じて数値データの離散化を適切に行うことができる時系列パターン発見装置及び方法を提供することを目的とする。

本発明の一観点に係る時系列パターン発見装置は、複数の離散アイテムと複数の数値アイテムにより構成されたアイテム集合が時系列的に並んだ複数の時系列データを格納する時系列データ格納部と、前記時系列データ格納部から時系列データをひとつずつ取り出す時系列データ抽出部と、前記時系列データ抽出部により取り出された時系列データから離散アイテムをひとつずつ取り出すアイテム抽出部と、前記アイテム抽出部により取り出された離散アイテムを格納するアイテム格納部と、前記アイテム格納部に格納されている離散アイテムに基づいて拡張を行うことにより、複数の候補時系列パターンを生成する候補生成部と、前記候補生成部により生成された複数の候補時系列パターンからひとつの候補時系列パターンを取り出す候補抽出部と、前記候補抽出部により取り出された候補時系列パターンの第１の評価値を算出する候補評価部と、前記第１の評価値に基づいて、前記複数の数値アイテムを離散化するべきかどうかの評価を行う離散化評価部と、前記離散化評価部によって離散化するべきと評価された複数の数値アイテムを離散化することにより複数の離散化アイテムを生成する数値アイテム離散化部と、を具備し、前記複数の離散化アイテムを用いて拡張を行うことにより複数の全体候補時系列パターンを生成し、該全体候補時系列パターンの第２の評価値を算出し、該第２の評価値が一定以上の値となる全体候補時系列パターンを特徴的な時系列パターンとして出力する。

本発明によれば、特段の背景知識を必要とせず、時系列データの特徴に応じて数値データの離散化を適切に行うことができる時系列パターン発見装置及び方法を提供できる。

以下、本発明の一実施形態として、健康診断における問診項目や健診項目のような離散値及び数値から構成される時系列データ（離散値及び数値混合時系列データ）が多数存在する場合に、時系列データの特徴に応じて数値データを適切に離散化するとともに、そのような時系列データを対象として特徴的な時系列パターンを発見する時系列パターン発見装置について説明する。

図１に示すように、本装置は、時系列データ格納部Ｂ１、時系列データ抽出部Ｂ２、アイテム抽出部Ｂ３、アイテム格納部Ｂ４、候補生成部Ｂ５、候補抽出部Ｂ６、候補評価部Ｂ７、候補判定部Ｂ８、パターン格納部Ｂ９、結果出力部Ｂ１０、離散化評価部Ｂ１１、数値アイテム離散化部Ｂ１２から構成されている。

時系列データ格納部Ｂ１は、複数の離散アイテムと複数の数値アイテムで構成されたアイテム集合が時系列的に並んだ複数の時系列データを格納する。時系列データ抽出部Ｂ２は、時系列データ格納部Ｂ１に格納されている時系列データを読み込んで時系列データをひとつずつ抽出する。アイテム抽出部Ｂ３は、時系列データ抽出部Ｂ２により抽出された時系列データからひとつのアイテムを抽出する。アイテム格納部Ｂ４は、アイテム抽出部Ｂ３により抽出されたアイテムを格納する。

候補生成部Ｂ５は、選択されているアイテム、アイテム集合、時系列パターンに対して、アイテム格納部Ｂ４に格納されているアイテムを付与することにより、複数の候補時系列パターンを生成する。候補抽出部Ｂ６は、候補生成部Ｂ５により生成された複数の候補時系列パターンからひとつの候補時系列パターンを抽出する。候補評価部Ｂ７は、候補抽出部Ｂ６により抽出された候補時系列パターンに対してその評価値を算出する。候補判定部Ｂ８は、候補評価部Ｂ７により算出された評価値に基づいて、候補時系列パターンが特徴的であるかどうかを判定する。パターン格納部Ｂ９は、候補判定部Ｂ８により特徴的であると判定された候補時系列パターン及びその関連情報を格納する。

離散化評価部Ｂ１１は、候補時系列パターンに関連する時系列データに基づいて、複数の数値アイテムを離散化するべきかどうかの評価を行う。数値アイテム離散化部Ｂ１２は、離散化評価部Ｂ１１によって離散化するべきであると評価された複数の数値アイテムを離散化して複数の離散化アイテムを生成する。そして結果出力部Ｂ１０は、パターン格納部Ｂ９に格納されている時系列パターンと関連情報から時系列パターンを選別して出力する。

以上のように構成された本実施形態に係る時系列パターン発見装置による処理の手順を図２、図３、図４のフローチャートに沿って説明する。併せて、上記処理部のより具体的な構成についても明らかにする。

先ず図２を参照する。ステップＳａ１では、時系列データ抽出部Ｂ２が時系列データ格納部Ｂ１に格納されている時系列データの読み込みを行う。

例えば、時系列データ格納部Ｂ１には、図５に示す時系列データが格納されているとする。このとき、時系列データ抽出部Ｂ２は当該時系列データのメモリ上への読み込みを行う。ただし、図５の例においては、ＩＤｎで括られたブロックがひとつの時系列データに対応しているとする。また、各時系列データにおいては、複数年度における各データが、年度の降順に並べられているとする。このとき、各データは、各年度における属性「最低血圧」、「最高血圧」、「運動習慣」、「勤務形態」の属性値によって特徴付けられているとする。ただし、「最低血圧」、「最高血圧」に対応する属性値が数値として与えられており、「運動習慣」、「勤務形態」に対応する属性値が離散値として与えられているとする。なお、以下においては、属性と属性値の組によって構成される値を「アイテム」と呼ぶことにし、アイテムの集合を「アイテム集合」と呼ぶことにする。すなわち、ＩＤ１の２０００年度は、「最低血圧：８２」、「最高血圧：１２５」、「運動習慣：あり」、「勤務形態：定時」といった４つのアイテムから構成されたアイテム集合であるといえる。また、各時系列データは、アイテム集合が時系列的に並んだものとして構成されている。

ステップＳａ２では、アイテム抽出部Ｂ３が、読み込まれた時系列データの中からひとつの時系列データの取り出しを行う。このとき、取り出しに失敗すれば、ステップＳａ８に処理を進める一方、取り出しに成功すれば、ステップＳａ３に処理を進める。例えば、図５の時系列データが読み込まれており、ＩＤの順に時系列データの取り出しが行われているとした場合、ＩＤ１００のデータを取り出した後で、再度、当該ステップを実施する場合には、取り出しに失敗したと判定されるため、ステップＳａ８に処理を進める。一方、その他の場合には、取り出しに成功したと判定されるため、ステップＳａ３に処理を進める。

ステップＳａ３では、時系列データ抽出部Ｂ２によって抽出された時系列データから、アイテム抽出部Ｂ３がアイテムをひとつ取り出す。このとき、アイテムの取り出しに失敗すれば、ステップＳａ２に処理を戻す一方、アイテムの取り出しに成功すれば、ステップＳａ４に処理を進める。

例えば、図５の例において、時間的に過去の年度のアイテム集合から、離散的な属性値を持つ属性「運動習慣」、「勤務形態」から順にアイテムを取り出すとする。このとき、ＩＤ１に対応する時系列データの場合、２０００年度の「勤務形態」に対応する「勤務形態：定時」を取り出した直後に、当該ステップを実施した場合には、失敗と判定されるため、ステップＳａ２に処理を戻す。一方、その他の場合には、取り出しに成功したと判定されるため、ステップＳａ４に処理を進める。

ステップＳａ４では、アイテム抽出部Ｂ３が取り出したアイテムが抽出済みであるかどうかの評価を行う。このとき、抽出済みのアイテムであると判定されれば、ステップＳａ３に処理を戻す一方、未抽出のアイテムであると判定されれば、ステップＳａ５に処理を進める。

例えば、図５の例においては、２００１年度の「運動習慣」に対応するアイテムが取り出された場合には、既に２０００年度の「運動習慣」に対応するアイテムとして、「運動習慣：あり」が抽出されているので、２００１年度の「運動習慣」のアイテムを抽出済みと判定し、ステップＳａ３に処理を戻す。一方、２０００年度の「運動習慣」に対応するアイテムが抽出された場合には、「運動習慣：あり」といったアイテムはまだ抽出されていないため、当該アイテムを未抽出のアイテムと判定して、ステップＳａ５に処理を進める。

ステップＳａ５では、アイテム抽出部Ｂ３がアイテム格納部Ｂ４に、抽出された当該アイテムを格納する。

以上のステップＳａ２〜ステップＳａ５の処理が繰り返されることにより、時系列データに出現するすべての離散アイテムがアイテム格納部Ｂ４に格納される。例えば、アイテム格納部Ｂ４には、図６に示す離散アイテムが格納される。

ステップＳａ６では、候補生成部Ｂ５が、後述する候補生成処理で利用される辞書式順序系列木の特定の節点に、アイテム格納部Ｂ４に格納されているアイテムを順次適用することにより、辞書式順序系列木を成長させる。また、成長させた各節点に対応する候補時系列パターンの第一のスタックへの積み込みを行う。

ここで、辞書式順序系列木の例を、非特許文献１に記載されている図７の例を用いて説明する。図においては、ａ，ｂがアイテムを表しており、（）で括られたアイテムが同一時間帯に発生するアイテムをまとめたアイテム集合を表している。また、（）以外における「，」によって、時間的な系列を表しており、左側にあるアイテムあるいはアイテム集合が、右側にあるアイテムあるいはアイテム集合よりも先に起こることを表している。すなわち、レベル（Ｌｅｖｅｌ）３の、右端に記載されている（ａ，ｂ），ｂが、アイテム集合（ａ，ｂ）の後に、アイテムｂが発生した場合の時系列パターンを表している。当該辞書式順序系列木においては、木構造の各節点に時系列パターンが配置されており、時系列パターン同士を結ぶ関係がその枝の種類によって示されている。ただし、時系列パターン同士には２種類の関係が存在し、図においては、Ｓ−Ｓｔｅｐによる拡張が細線、Ｉ−Ｓｔｅｐによる拡張が太線によって示されている。また、Ｓ−Ｓｔｅｐとは、系列方向へのアイテムの追加を意味しており、Ｉ−Ｓｔｅｐはアイテム集合方向へのアイテムの追加を意味している。

例えば、レベル２の左端に記載されている時系列パターンａ，ａにＳ−Ｓｔｅｐでｂを追加することにより、時系列パターンａ，ａ，ｂが生成される。また、時系列パターンａ，ａにＩ−Ｓｔｅｐでｂを追加することにより、時系列パターンａ，（ａ，ｂ）が生成される。

辞書式順序系列木は、アイテムの間に特定の全順序関係を仮定し、Ｓ−ＳｔｅｐとＩ−Ｓｔｅｐを全順序関係を守りつつ実施することにより、すべてのアイテムの組み合わせを効率的に生成することができる。従って、候補生成部Ｂ５は本性質を利用することにより、すべての候補時系列パターンを効率的に生成することができる。

例えば、現在までに生成されている辞書式順序系列木における特定の節点として、候補時系列パターンａ，ａを割り当てられた節点が与えられているとする。また、２種類のアイテム「ａ」と「ｂ」が与えられているとする。このとき、ａ，ａ，ａ及びａ，ａ，ｂ及びａ，（ａ，ｂ）がスタックに積み込まれることになる。ただし、同一の時間帯に同一のアイテムが複数発生しないことを仮定しているため、ａ，（ａ，ａ）といった時系列パターンは除外されている。

ステップＳａ７では、候補抽出部Ｂ６が、第一のスタック内に格納されている候補時系列パターンの中から、ひとつの候補時系列パターンを取り出す。ことのき、取り出す候補時系列パターンがなければ、ステップＳａ１６に処理を進める一方、取り出す候補時系列パターンがあれば、ステップＳａ８に処理を進める。

ステップＳａ８では、取り出された候補時系列パターンを含んでいる時系列データの個数を、当該候補時系列パターンにおける頻度として算出する。また、式（１）に基づいて、当該候補時系列パターンに対応する支持度を算出する。

支持度＝候補時系列パターンの頻度／時系列データの個数（１）
例えば、ひとつのアイテムからなる候補時系列パターン「勤務形態：３交替」がスタックから抽出されているとする。このとき、図５の時系列データにおいては、ＩＤ２、ＩＤ３、ＩＤ４、ＩＤ１００といった時系列データの中に当該候補時系列パターンは含まれているので、少なくともその頻度は４と与えられる。また、図示されていないＩＤ５〜ＩＤ９９において、「勤務形態：３交替」を含む時系列データが７６個と与えられているとすれば、その頻度は８０（＝４＋７６）と与えられ、時系列データの個数は１００個であるので、その支持度は０．８＝（８０／１００）と与えられる。

また、ふたつのアイテム集合からなる候補時系列パターン「（運動習慣：なし，勤務形態：３交替），（運動習慣：なし，勤務形態：３交替）」がスタックから抽出されているとする。このとき、図５の時系列データにおいては、ＩＤ３、ＩＤ４、ＩＤ１００といった時系列データの中に、当該候補時系列パターンが含まれているので、少なくともその頻度は３と与えられる。ここで、ＩＤ２は「（運動習慣：なし，勤務形態：３交替）」からなるアイテム集合を１度しか含んでいないため、当該候補時系列パターンを含んでいないと判断されていることに注意する必要がある。また、図示されていないＩＤ５〜ＩＤ９９において、「（運動習慣：なし，勤務形態：３交替），（運動習慣：なし，勤務形態：３交替）」を含む時系列データが５７個と与えられているとすれば、その頻度は６０（＝３＋５７）と与えられるので、その支持度は０．６＝（６０／１００）と与えられる。

ステップＳａ９では、候補時系列パターンに対応する支持度に基づいて、候補判定部Ｂ８が当該候補時系列パターンをパターン格納部Ｂ９に格納するかどうかを判定する。格納する場合には、ステップＳａ６に処理を戻す一方、格納しない場合には、ステップＳａ１０に処理を進める。すなわち、候補判定部Ｂ８は当該の支持度と予め与えられている第一のしきい値とを比較し、第一のしきい値以上であれば、当該候補時系列パターンをパターン格納部Ｂ９に格納してステップＳａ６に処理を進める。一方、第一のしきい値よりも小さい場合には、当該候補時系列パターンを格納しないと判定してステップＳａ１０に処理を戻す。

例えば、第一のしきい値が０．８と与えられているとする。このとき、「勤務形態：３交替」の支持度は０．８と与えられているため、当該候補時系列パターンをパターン格納部Ｂ９に格納して、処理をステップＳａ６に戻す。一方、「（運動習慣：なし，勤務形態：３交替），（運動習慣：なし，勤務形態：３交替）」の支持度は０．６と与えられているため、当該候補時系列パターンを格納せずに、処理をステップＳａ１０に進める。

ステップＳａ１０では、当該ステップに送られてきた候補時系列パターンに対応する支持度に基づいて、離散化評価部Ｂ１１が当該候補時系列パターンに付随する時系列データの数値アイテムに対して離散化を実施するかどうかを判定する。このとき、離散化すると判定される場合には、当該候補時系列パターンをパターン格納部Ｂ９に格納して、ステップＳａ１１に処理を進める一方、離散化しないと判定される場合には、当該候補時系列パターンをパターン格納部Ｂ９に格納せずに、ステップＳａ７に処理を戻す。すなわち、離散化評価部Ｂ１１は当該の支持度と予め与えられている第二のしきい値とを比較し、第二のしきい値以上であれば、当該候補時系列パターンをパターン格納部Ｂ９に格納して、処理をステップＳａ１１に進める。一方、第二のしきい値よりも小さければ、当該候補時系列パターンをパターン格納部Ｂ９に格納せずに、処理をステップＳａ７に戻す。

例えば、第二のしきい値が０．６と与えられているとする。このとき、「（運動習慣：なし，勤務形態：３交替），（運動習慣：なし，勤務形態：３交替）」の支持度は０．６と与えられているため、当該候補時系列パターンをパターン格納部Ｂ９に格納して、処理をステップＳａ１１に進める。

ステップＳａ１１では、数値アイテム離散化部Ｂ１２が後述する数値アイテム離散化処理に従って、当該候補時系列パターンに付随する時系列データによって構成される数値アイテムの各属性に対してクラスタリングを実施することにより、属性ごとにクラスターを生成する。また、当該属性と生成したクラスターを属性値とみなすことにより、当該属性に対応する複数のアイテムを生成する。以下、当該アイテムを特に「離散化アイテム」と呼ぶことにする。さらには、各数値アイテムを離散化アイテムに置き換えることにより、離散化済みの時系列データに変換する。

ステップＳａ１２では、候補生成部Ｂ５が、後述する候補生成処理で利用される辞書式順序系列木の特定の節点に、アイテム格納部Ｂ４に格納されているアイテム及び生成した離散化アイテムを順次適用することにより、辞書式順序系列木を成長させる。また、成長させた各節点に対応する候補時系列パターンの第二のスタックへの積み込みを行う。

ステップＳａ１３では、候補抽出部Ｂ６が第二のスタックから候補時系列パターンを抽出する。このとき、候補時系列パターンが抽出されなければ、処理をステップＳａ７に戻す一方、候補時系列パターンが抽出されれば、処理をステップＳａ１４に進める。

ステップＳａ１４では、候補評価部Ｂ７が、候補抽出部Ｂ６によって抽出された候補時系列パターンが、離散化済みの時系列データに含まれている個数を計算し、当該候補時系列パターンの頻度とする。また、当該頻度に基づいて、当該候補時系列パターンの支持度を計算する。

例えば、「（運動習慣：なし，勤務形態：３交替），（運動習慣：なし，勤務形態：３交替，最高血圧：ｃｌ２３）」といった候補時系列パターンが抽出されているとする。このとき、ＩＤ３、ＩＤ４、ＩＤ１００は当該の時系列パターンを含んでいるので、少なくとも当該の時系列パターンの頻度は３となる。また、図示されていないＩＤ５〜ＩＤ９９の時系列データにおいて、３７個の時系列データが当該の時系列パターンを含んでいるとすれば、当該の時系列パターンの支持度は０．４＝４０／１００と与えられる。

ステップＳａ１５では、候補判定部Ｂ８が候補評価部Ｂ７によって計算された当該時系列パターンの支持度に基づいて、当該候補時系列パターンをパターン格納部Ｂ９に格納するかどうかを判定する。このとき、格納すると判定されれば、当該候補時系列パターンをパターン格納部Ｂ９に格納して、ステップＳａ１２に処理を戻す。一方、格納しないと判定されれば、当該候補時系列パターンを格納せずに、ステップＳａ１３に処理を戻す。すなわち、当該時系列パターンの支持度が第二のしきい値以上であるならば、当該候補時系列パターンをパターン格納部Ｂ９に格納して、処理をステップＳａ１２に処理を戻す一方、しきい値より小さいならば、当該候補時系列パターンを格納せずに、処理をステップＳａ１３に戻す。

例えば、候補時系列パターン「（運動習慣：なし，勤務形態：３交替），（運動習慣：なし，勤務形態：３交替，最高血圧：ｃｌ２３）」においては、対応する支持度が０．４と与えられているので、第二のしきい値０．４よりも小さくなる。このため、当該時系列パターンをパターン格納部Ｂ９に格納せずに、処理をステップＳａ１３に戻す。

ステップＳａ１６では、パターン格納部Ｂ９に格納されている候補時系列パターンを、候補生成部Ｂ５によって生成された辞書式順序系列木を参照することにより、当該パターンより下位に候補時系列パターンが存在するかどうかを判定し、下位にパターン格納部Ｂ９に格納されている候補時系列パターンがない場合にだけ、当該候補時系列パターンを出力する。本判定処理を、パターン格納部Ｂ９に格納されているすべての候補時系列パターンに対して実施することにより、下位にパターン格納部Ｂ９に格納されている候補時系列パターンを持たないすべての候補時系列パターンが、特徴的な時系列パターンとして出力される。

例えば、図１０に示すような辞書式順序系列木が生成されている場合、候補時系列パターン「（運動習慣：なし，勤務形態：３交替），（運動習慣：なし，勤務形態：３交替）」は、候補時系列パターン「（運動習慣：なし，勤務形態：３交替），（運動習慣：なし，勤務形態：３交替），最高血圧：ｃｌ２３」を下位に持つため、時系列パターンとして出力されない。一方、候補時系列パターン「（運動習慣：なし，勤務形態：３交替），（運動習慣：なし，勤務形態：３交替），最高血圧：ｃｌ２３」は、下位に時系列パターンを持たないため、時系列パターンとして出力される。ただし、図においては、「×」が付与されている候補時系列パターンは、パターン格納部Ｂ９に格納されていないことを示すものとする。

以上により、離散値及び数値混合時系列データからの時系列パターン発見装置の処理の流れを示した。次に、当該の処理で利用されているサブ処理となる、候補作成処理と数値アイテム離散化処理について説明する。

はじめに、候補作成処理を図３に沿って説明する。

ステップＳｂ１では、候補作成処理に与えられる、アイテム集合からアイテムをひとつ取り出す。このとき、取り出すアイテムが存在しなければ、ステップＳｂ５に処理を進める一方、取り出すアイテムが存在すれば、ステップＳｂ２に処理を進める。

例えば、当該の候補作成処理がステップＳａ６から呼び出されているとすれば、図６の中からひとつのアイテム取り出すことになる。従って、「勤務形態：３交替」をアイテムとして抽出した直後に本処理を実施する場合には、ステップＳｂ５に処理を進め、それ以外の場合には、ステップＳｂ２に処理を進める。また、当該の候補作成処理がステップＳａ１２から呼び出されているとすれば、図６及び図８に示されている離散化アイテムの中から順にひとつのアイテム取り出すことになる。従って、「最高血圧：ｃｌ２３」をアイテムとして抽出した直後に本処理を実施する場合には、ステップＳｂ５に処理を進め、それ以外の場合には、ステップＳｂ２に処理を進める。

ステップＳｂ２では、候補生成処理に与えられる、辞書式順序系列木における節点と、ステップＳｂ１で取り出されたひとつのアイテムから、系列方向に拡張した候補時系列パターンを生成する。すなわち、当該辞書式順序系列木における節点に対応する候補時系列パターンの最後尾に、当該のアイテムを追加することにより、系列が１つ長くなった候補時系列パターンを生成する。また、当該候補時系列パターンを割り当てる節点を生成して、当該節点と候補生成処理に与えられている節点を、Ｓ−Ｓｔｅｐを表す枝で結ぶことにより、辞書式順序系列木を成長させる。

例えば、当該の候補作成処理がステップＳａ１２から呼び出されており、図１０に示す辞書式順序系列木の一部におけるレベル４の節点が与えられているとする。また、ステップＳｂ１によって「最高血圧：ｃｌ２３」がアイテムとして与えられているとする。このとき、候補生成部Ｂ５は、候補時系列パターン「（運動習慣：なし，勤務形態：３交替），（運動習慣：なし，勤務形態：３交替），最高血圧：ｃｌ２３」といった候補時系列パターンを生成する。また、当該候補時系列パターンを割り当てる節点を生成して、「（運動習慣：なし，勤務形態：３交替），（運動習慣：なし，勤務形態：３交替）」に対応する節点を、Ｓ−Ｓｔｅｐを表す枝で結ぶことにより、辞書式順序系列木を成長させる。

ステップＳｂ３では、候補生成処理に与えられる、辞書式順序系列木における節点に対応する候補時系列パターンの最後尾のアイテム集合の最後尾のアイテムを、ステップＳｂ１で取り出されたひとつのアイテムと比較し、前者のアイテムの順序が先になるかどうかの判定を行う。このとき、前者のアイテムが後の場合（含意）には、ステップＳｂ１に処理を戻す一方、前者のアイテムが前の場合（非含意）には、ステップＳｂ４に処理を進める。

例えば、図１０に示す辞書式順序系列木の一部におけるレベル４の節点が与えられているとする。また、ステップＳｂ１によって与えられる「運動習慣：なし」がアイテムとして与えられているとする。加えて、図６は、上位のアイテムが順序的に先になるとし、離散化アイテムの順序は、図６のアイテムの後になるとする。このとき、当該の節点に対応する候補時系列パターン「（運動習慣：なし，勤務形態：３交替），（運動習慣：なし，勤務形態：３交替）」の最後尾のアイテム集合の最後尾のアイテムは「勤務形態：３交替」と与えられている。従って、図６における順序関係から「勤務形態：３交替」は、ステップＳｂ１によって与えられる「運動習慣：なし」よりも後のアイテムとなる。このため、ステップＳｂ１に処理を戻す。一方、ステップＳｂ１によって「最高血圧：ｃｌ２３」がアイテムとして与えられているとすれば、離散化アイテムは、「勤務形態：３交替」よりも後のアイテムとなるので、ステップＳｂ４に処理を進める。

ステップＳｂ４では、候補生成処理に与えられる、辞書式順序系列木における節点と、ステップＳｂ１で取り出されたひとつのアイテムから、アイテム方向に拡張した候補時系列パターンを生成する。すなわち、当該辞書式順序系列木における節点に対応する候補時系列パターンの最後尾のアイテム集合に、当該のアイテムを追加することにより、最後尾のアイテム集合のアイテムの個数が１個多い候補時系列パターンを生成する。また、当該候補時系列パターンを割り当てる節点を生成して、当該節点と候補生成処理に与えられている節点を、Ｉ−Ｓｔｅｐを表す枝で結ぶことにより、辞書式順序系列木を成長させる。

例えば、図１０に示す辞書式順序系列木の一部におけるレベル４の節点が与えられているとする。また、ステップＳｂ１によって「最高血圧：ｃｌ２３」がアイテムとして与えられているとする。このとき、候補生成部Ｂ５は、候補時系列パターン「（運動習慣：なし，勤務形態：３交替），（運動習慣：なし，勤務形態：３交替，最高血圧：ｃｌ２３）」といった候補時系列パターンを生成する。また、当該候補時系列パターンを割り当てる節点を生成して、「（運動習慣：なし，勤務形態：３交替），（運動習慣：なし，勤務形態：３交替）」に対応する節点を、Ｉ−Ｓｔｅｐを表す枝で結ぶことにより、辞書式順序系列木を成長させる。

ステップＳｂ５では、生成した候補時系列パターンについて、これを生成した順序とは逆順での積み込みを、候補生成処理に指定されているスタックに対して実施する。

例えば、候補生成処理がステップＳａ６から呼び出されているとする。また、候補生成処理によって、候補時系列パターンが、「運動習慣：なし，運動習慣：あり」、「運動習慣：なし，運動習慣：なし」、「運動習慣：なし，勤務形態：定時」、「（運動習慣：なし，勤務形態：定時）」、「運動習慣：なし，勤務形態：３交替」、「（運動習慣：なし，勤務形態：３交替）」といった順に生成されているとする。このとき、第一スタックへの積み込みは、「（運動習慣：なし，勤務形態：３交替）」、「運動習慣：なし，勤務形態：３交替」、「（運動習慣：なし，勤務形態：定時）」、「運動習慣：なし，勤務形態：定時」、「運動習慣：なし，運動習慣：なし」、「運動習慣：なし，運動習慣：あり」の順に行われることになる。

次に、数値化アイテム離散化処理を図４の数値化アイテム離散化フローに従って説明する。

ステップＳｃ１では、時系列データを構成する数値属性の中からひとつの属性を選択する。このとき、選択できる属性がなければ、当該アイテム離散化フローの処理を終了する一方、選択できる属性があれば、ステップＳｃ２に処理を進める。

例えば、図５の時系列データを考えた場合、最低血圧、最高血圧が数値属性として与えられているので、最初のループにおいては、最低血圧を選択し、ステップＳｃ２に処理を進める。また、２回目のループでは、最高血圧を選択し、ステップＳｃ２に処理を進める。最終的には、３回目のループで選択する数値属性がなくなるので、当該フローの処理を終了する。

ステップＳｃ２では、当該数値化アイテム処理に与えられている候補時系列パターンに付随する時系列データの中から、ステップＳｃ１で選択した属性の数値アイテムを取り出して、当該の数値アイテムに対して、クラスタリングアルゴリズムを適用することにより、複数のクラスターを生成する。ここで、クラスタリングアルゴリズムとしては、多くの手法が提案されているが、本実施例では、非特許文献２「ファジィとソフトコンピューティングハンドブック」，日本ファジィ学会編集，共立出版，１６１−１６３（２０００）に記載されているｋ−平均法を利用してクラスタリングを実施する。従って、予め与えるクラスターの数をｋ個と指定すれば、ｋ個のクラスターに当該の数値アイテムを離散化することができる。

例えば、当該数値化アイテム処理に、候補時系列パターン「（運動習慣：なし，勤務形態：３交替），（運動習慣：なし，勤務形態：３交替）が与えられているとする。また、ステップＳｃ１によって数値属性として「最低血圧」が選択されているとする。ことのき、図５の時系列データＩＤ１、ＩＤ２は当該候補時系列パターンを含んでいないため、クラスタリングを実施する対象からは除外される。従って、図１１に示すような残りの時系列データＩＤ３，ＩＤ４，…，ＩＤ１００の最低血圧の数値アイテムが抽出される。また、クラスターの数が３個と与えられているとすれば、図１２に示すようなクラスターが生成される。

ステップＳｃ３では、当該抽出された数値データの各値を、クラスターに置き換えることにより、当該抽出されたデータを離散化した時系列データを生成する。

例えば、候補時系列パターン「（運動習慣：なし，勤務形態：３交替），（運動習慣：なし，勤務形態：３交替）が与えられているとし、「最低血圧」及び「最高血圧」のクラスターによって置き換えた場合、図９に示すような離散化した時系列データが生成される。

以上のようにして、数値データを離散化することにより、以降の処理において、数値アイテムを含めた候補時系列パターンを生成することが可能となる。

しかしながら、本実施例は上記実施形態に限定されるものではない。例えば、候補評価部Ｂ７において、抽出する時系列パターンを評価する基準として、支持度を利用しているが、非特許文献３「特徴的な時系列パターンを発見するための新指標の提案」，櫻井茂明，北原洋一，折原良平，日本データベース学会Ｌｅｔｔｅｒｓ，５，１，８，１５３−１５７（２００６）に記載されている系列興味度を利用することもできる。

系列興味度について説明する。特定の時系列パターンの中に、相対的な頻度がそれ程高くない部分時系列パターンが含まれている場合を考える。このような時系列パターンは、相対的な頻度がそれ程高くない部分時系列パターンが与えられた段階で、時系列パターンに含まれる残りのアイテムを精度良く予測することができる。このため、ある種の特徴的なパターンとみなすことができる。そこで、相対的な頻度がそれ程高くないことを時系列パターンに含まれる部分時系列パターンの頻度の逆数の最小値によって評価することにより、このような時系列パターンを発見する指標として、系列興味度を式（２）のように定義する。

ただし、ｆ_ｓ（）を時系列パターンｓが含まれる時系列データの頻度、Ｎを時系列データの総数、ｓ_ｐをｓに含まれる時系列パターンとする。ｓがｓ_ｐを含むとは、ｓ_ｐのすべての要素がｓのいずれかの要素に、順序関係を保存したままで含まれることを意味している。α≧０を系列興味度パラメータとする。この式（２）は、α＝０の場合に、通常の支持度の定義を表しており、時系列パターンに含まれるアイテムの数が１の場合には、支持度と一致する。

また、候補生成部Ｂ５において、辞書式順序系列木を成長させる際に、生成された候補時系列パターンを生成したものの逆順に、スタックに積み込むことにより実現しているが、生成した順に候補時系列パターンをキューに入れることにより、幅優先で時系列パターンを生成することもできる。また、数値アイテム離散化部Ｂ１２において利用するクラスタリングとして、ｋ−平均法を利用しているが、非特許文献４「ファジィとソフトコンピューティングハンドブック」，日本ファジィ学会編集，共立出版，１７４−１７６（２０００）に記載の階層的クラスタリングを利用してもよい。

また、結果出力部Ｂ１０において、パターン格納部Ｂ９に格納されている候補時系列パターンのうち、辞書式順序系列木における下位の候補時系列パターンだけを出力していたが、すべての候補時系列パターンを出力するようにしてもよいし、下位の候補時系列パターンを待たない以外の他の条件を満たす候補時系列パターンだけを出力するようにしてもよい。この他、本発明の趣旨を逸脱しない範囲において、種々変形して離散値及び数値混合時系列データからの時系列パターン発見装置を構成することができる。

以上説明した実施形態によれば、特定の時系列パターンに付随する時系列データに基づいて、数値データを離散化することにより、時系列パターンに応じた離散化を行うことができる。このため、データの微細な構造を反映した時系列パターンを混合時系列データから発見することができる。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本発明の一実施形態に係る時系列パターン発見装置を示すブロック図。上記時系列パターン発見装置による処理手順を示すフローチャート。上記時系列パターン発見装置による候補作成処理の手順を示すフローチャート。上記時系列パターン発見装置による数値アイテム離散化処理の手順を示すフローチャート。上記時系列パターン発見装置が対象とする離散値及び数値混在時系列データの一例を示す図。アイテム格納部Ｂ４に格納されるアイテムの一例を示す図。候補生成部Ｂ５における候補時系列パターンの生成に利用される辞書式順序系列木の一例を示す図。数値アイテム離散化部Ｂ１２により生成される離散化アイテムとその中心との間の関係を示す図。数値アイテム離散化部Ｂ１２により離散化された時系列データの一例を示す図。候補生成部Ｂ５により生成される辞書式順序系列木の一部を抜粋した一例を示す図。数値アイテム離散化部Ｂ１２により抽出された数値属性の一例を示す図。数値アイテム離散化部Ｂ１２により、候補時系列パターン「（運動習慣：なし，勤務形態：３形態），（運動習慣：なし，勤務形態：３形態）」に対応する時系列パターンをクラスタリングした結果の一例を示す図。

符号の説明

Ｂ１…時系列データ格納部；
Ｂ２…時系列データ抽出部；
Ｂ３…アイテム抽出部；
Ｂ４…アイテム格納部；
Ｂ５…候補生成部；
Ｂ６…候補抽出部；
Ｂ７…候補評価部；
Ｂ８…候補判定部；
Ｂ９…パターン格納部；
Ｂ１０…結果出力部；
Ｂ１１…離散化評価部；
Ｂ１２…数値アイテム離散化部；

Claims

複数の離散アイテムと複数の数値アイテムにより構成されたアイテム集合が時系列的に並んだ複数の時系列データを格納する時系列データ格納部と、
前記時系列データ格納部から時系列データをひとつずつ取り出す時系列データ抽出部と、
前記時系列データ抽出部により取り出された時系列データから離散アイテムをひとつずつ取り出すアイテム抽出部と、
前記アイテム抽出部により取り出された離散アイテムを格納するアイテム格納部と、
前記アイテム格納部に格納されている離散アイテムに基づいて拡張を行うことにより、複数の候補時系列パターンを生成する候補生成部と、
前記候補生成部により生成された複数の候補時系列パターンからひとつの候補時系列パターンを取り出す候補抽出部と、
前記候補抽出部により取り出された候補時系列パターンの第１の評価値を算出する候補評価部と、
前記第１の評価値に基づいて、前記複数の数値アイテムを離散化するべきかどうかの評価を行う離散化評価部と、
前記離散化評価部によって離散化するべきと評価された複数の数値アイテムを離散化することにより複数の離散化アイテムを生成する数値アイテム離散化部と、を具備し、
前記複数の離散化アイテムを用いて拡張を行うことにより複数の全体候補時系列パターンを生成し、該全体候補時系列パターンの第２の評価値を算出し、該第２の評価値が一定以上の値となる全体候補時系列パターンを特徴的な時系列パターンとして出力する時系列パターン発見装置。
前記第１の評価値又は前記第２の評価値を支持度とする請求項１記載の装置。
前記第１の評価値又は前記第２の評価値を系列興味度とする請求項１記載の装置。
時系列データ格納部が、複数の離散アイテムと複数の数値アイテムにより構成されたアイテム集合が時系列的に並んだ複数の時系列データを格納するステップと、
時系列データ抽出部が、前記時系列データ格納部から時系列データをひとつずつ取り出すステップと、
アイテム抽出部が、前記時系列データ抽出部により取り出された時系列データから離散アイテムをひとつずつ取り出すステップと、
アイテム格納部が、前記アイテム抽出部により取り出された離散アイテムを格納するステップと、
候補生成部が、前記アイテム格納部に格納されている離散アイテムに基づいて拡張を行うことにより、複数の候補時系列パターンを生成するステップと、
候補抽出部が、前記候補生成部により生成された複数の候補時系列パターンからひとつの候補時系列パターンを取り出すステップと、
候補評価部が、前記候補抽出部により抽出された候補時系列パターンの第１の評価値を算出するステップと、
離散化評価部が、前記第１の評価値に基づいて、前記複数の数値アイテムを離散化するべきかどうかの評価を行うステップと、
数値アイテム離散化部が、前記離散化評価部によって離散化するべきと評価された複数の数値アイテムを離散化することにより複数の離散化アイテムを生成するステップと、を具備し、
前記複数の離散化アイテムを用いて拡張を行うことにより複数の全体候補時系列パターンを生成し、該全体候補時系列パターンの第２の評価値を算出し、該第２の評価値が一定以上の値となる全体候補時系列パターンを特徴的な時系列パターンとして出力する時系列パターン発見方法。
前記第１の評価値又は前記第２の評価値を支持度とする請求項４記載の装置。
前記第１の評価値又は前記第２の評価値を系列興味度とする請求項４記載の装置。