JP5833068B2

JP5833068B2 - 系列データ分析装置及プログラム

Info

Publication number: JP5833068B2
Application number: JP2013182229A
Authority: JP
Inventors: 秀樹岩崎; 櫻井　茂明; 茂明櫻井; ルミ早川; 松本　茂; 茂松本
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2013-09-03
Filing date: 2013-09-03
Publication date: 2015-12-16
Anticipated expiration: 2033-09-03
Also published as: JP2015049790A

Description

本発明の実施形態は、大量に収集された系列データから、系列データを構成するアイテム集合の特徴的な並びをパターンとして発見（抽出）するとともに、抽出されたパターンに基づいて、新たに与えられた系列データに基づいて、当該系列データのその後に到達する結果を予測するデータマイニングの分野に関する。

データマイニングの分野では、系列データからパターンを発見する研究が行われている。例えば、非特許文献１では、大きなパターンの出現頻度は、小さなパターンの出現頻度よりも単調に小さくなるといった性質を利用することにより、頻出するパターンを効率よく発見する方法が提案されている。また、特許文献１では、系列データを構成するアイテムの出現順序が、同じ意味を持っているとしても必ずしも一意に特定されない状況が発生することに着目し、出現順序の揺れを考慮した上で頻出するパターンを発見する方法が提案されている。さらに、特許文献２では、系列データから抽出したパターンを、注目対象として指定したパターンと融合するとともに、パターンを構成するアイテム集合間の時間的な発生タイムラグを考慮することにより、注目対象として指定したパターンに関連するパターンをその時間的な意味を考慮して分析する方法が提案されている。

Ｒ．Ａｇｒａｗａｌ，Ｒ．Ｓｒｉｋａｎｔ， "ＭｉｎｉｎｇＳｅｑｕｅｎｔｉａｌＰａｔｔｅｒｎｓ：ＧｅｎｅｒａｌｉｚａｔｉｏｎｓａｎｄＰｅｒｆｏｒｍａｎｃｅＩｍｐｒｏｖｅｍｅｎｔｓ"，ｉｎｐｒｏｃｅｅｄｉｎｇｓｏｆＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＥｘｔｅｎｄｉｎｇＤａｔａｂａｓｅＴｅｃｈｎｏｌｏｇｙ，１９９６櫻井茂明、早川ルミ、岩崎秀樹、「時系列パターン分析におけるアイテム間制約の効果」、第２７回人工知能学会全国大会予稿集、２Ｃ１−５、２０１３

特開２００８−１７６４３号公報特開２００７−６６０５８号公報

系列データから有用なパターンを発見するとともに、新たな（第２の）系列データが与えられた場合に、発見された有用パターンを利用して、当該第２の系列データがどのような結果に到達する可能性が高いかを予測する系列データ分析装置及びプログラムを提供する。

実施形態の系列データ分析装置は、複数の異なるアイテムからなる系列データから条件を満たすパターンを抽出し、該パターンに基づいて、新たに与えられた系列データが特定の結果に達する可能性を予測するための系列データ分析装置であって、複数の相互に異なるアイテム集合が並べられるとともに、少なくとも最後のアイテム集合が他のアイテム集合に対する因果関係の結果として時系列に並べられた第１の系列データの群を学習データとして格納する学習データ格納部と、アイテム集合の出現頻度に基づいて、第１の系列データから２以上のアイテム集合のパターンを抽出するパターン抽出部と、該抽出されたパターンから、該パターンの一部からなる部分パターンの出現頻度に基づいて、２以上のアイテム集合のパターンを選択するパターン選択部と、該選択されたパターンに対して、最後のアイテム集合が同一で他のアイテム集合が相違する関連パターンを生成する関連パターン生成部と、特徴パターン及び関連パターンのデータを纏めた予測モデルを生成する予測モデル生成部と、学習データの部分集合である第２の系列データを予測モデルとマッチングし、特徴パターンに対する該パターンの一部からなる部分パターンの出現頻度または関連パターンに対する該パターンの一部からなる部分パターンの出現頻度に基づいて、予測モデルに含まれる最後のアイテム集合に基づく第２の系列データの到達可能性の高い結果を抽出する結果予測部と、を備える。

第１実施形態の系列データ分析装置の構成例を示す図であり、本装置の主要部を構成する各部間の関係を示すブロック図である。系列データ分析プログラム及び装置における予測モデルの生成までの流れを示すフローチャートである。系列データ分析プログラム及び装置において評価データに対する予測を行うためのフローチャートである。アイテムを構成する属性と属性値との関係を示す図である。学習データ格納部に格納される学習データを示す図である。パターン抽出処理を説明するフローチャートである。パターン抽出部から発見（抽出）されるパターンとその支持度との関係を示す図である。抽出されたパターンの信頼度算出及び特徴パターン選択の各処理を説明するフローチャートである。抽出されたパターンと評価値として算出される信頼度との関係を示す図である。パターン選択部によって選択される選択パターンとその支持度及び信頼度との関係を示す図である。関連パターン生成、関連パターンの信頼度算出、予測モデル生成の各処理を説明するフローチャートである。選択パターンＰ１から生成される関連パターンとその信頼度との関係を示す図である。選択パターンＰ２から生成される関連パターンとその信頼度との関係を示す図である。選択パターンＰ３から生成される関連パターンとその信頼度との関係を示す図である。選択パターンＰ４から生成される関連パターンとその信頼度との関係を示す図である。予測モデル生成部から生成される予測モデルの一例を示す図である。評価データ格納部に格納される評価データを示す図である。評価データを予測モデルに適用することにより算出された評価値を結論部ごとに示す図である。評価データに対して予測された結果とその信頼度及び根拠となる理由との関係を示す図である。条件設定画面の一例を示す図である。

以下、実施形態につき、図面を参照して説明する。

（用語の定義）
以下の説明において、
「系列データ」とは、複数のアイテムないしアイテム集合が系列的に、すなわち前後関係を有して直列的に並べられるデータであり、アイテム集合の前後関係を規定するために「→」記号を使って表現する。すなわち、矢印「→」の左側のアイテム集合が「前」側、右側のアイテム集合が「後」側となる。
また、「アイテム」とは、属性及び属性値の対のデータであり、例えば属性「天気」に対して、「晴れ」、「雨」、「曇り」のいずれかの属性値が対になって一つのアイテムとなる。
さらに、「アイテム集合」とは、１以上のアイテムの集合であり、一つのアイテム集合を｛｝で括って表現している。
さらにまた、「パターン」とは、系列データの中から何らかの条件を指定されることによって取り出された系列データの部分集合と定義される。

実施形態に係る系列データ分析装置は、学習対象として格納された複数の系列データ（すなわち系列データの集合あるいは系列データ群、以下「学習データ」とも称する。）を分析して学習し、学習結果として予測モデルを生成するとともに、かかる学習結果（予測モデル）に基づいて、評価対象である第２の系列データ（以下「評価データ」とも称する）の示す内容が、どのような結果、結論、結末など（以下、単に「結果」と称する。）になる可能性が高いかを予測する制御（データ処理）を遂行するものである。

本装置は、例えば、スーパーマーケットなどの日用品の販売における、購入商品の購入法則の発見（例えば、「商品Ａと商品Ｂを購入した取引ではその９０％が商品Ｃも購入している」など）、医療分野における、特定医薬の摂取量と発生する副作用との因果関係の発見、天気予報や渋滞予報などの各種予報・予測の分野における、種々の法則の発見、銀行業務における、店舗の特性と事務ミスの種類との間にある特徴的な因果関係の発見、番組推薦における、視聴者特性と視聴履歴との間にある視聴者の嗜好の発見など、きわめて広い分野に亘って利用することができる。なお、これらは例示であって、これらの分野に限定されるものではない。

以下は、本装置で、渋滞の予報ないし予想における道路渋滞の発生に関する法則の発見を試みる事例について説明する。具体的には、ある施設（テーマパーク）に向かうまでの道路の渋滞に関する過去のデータを学習データ（第１の系列データ）として入力及び学習させて予測モデルを生成するとともに、現在あるいは将来の条件を評価データ（第２の系列データ）として入力して、当該条件で道路渋滞が発生する可能性を調べる事例である。

図１から図２０は、第１実施形態を示す図である。図１は、本実施形態の系列データ分析装置１００の主要部を示したブロック構成図であり、図中の各ブロックを結線する矢印は、データの流れる方向を示している。本装置は、複数の相互に異なるアイテム集合が直列に並べられた第１の系列データの群を学習データとして格納する学習データ格納部１０と、第２の系列データである評価データを格納する評価データ格納部２０と、アイテム集合の出現頻度に基づいた所定の条件を満たす２以上のアイテム集合のパターンを学習データから抽出するパターン抽出部３０と、該抽出されたパターンから、該パターンの一部からなる部分パターンの出現頻度に基づいて、２以上のアイテム集合のパターンを特徴パターンとして選択する特徴パターン選択部４０と、選択された特徴パターンに対して、最後のアイテム集合が同一で他のアイテム集合が相違する関連パターンを生成する関連パターン生成部５０と、特徴パターン及び関連パターンに対する評価値を該パターンの一部からなる部分パターンの出現頻度に基づいて算出する評価値算出部６０と、特徴パターン及び関連パターンのデータを纏めた予測モデルを生成する予測モデル生成部７０と、学習データの部分集合である第２の系列データを評価データとして予測モデルに適用して、評価データの到達可能性の高い結果を判断する結果予測部８０と、を備える。

本装置は、後述する各処理を実行する系列データ分析プログラムのデータを不図示のハードディスク装置などの外部記憶媒体に格納し、かかるプログラムをパーソナルコンピュータ（ＰＣ）に読み込ませることで実現することができる。この場合、例えば当該コンピュータのハードディスク装置やＲＡＭなどの記憶デバイスが、学習データ格納部１０、評価データ格納部２０として機能し、ＣＰＵなどの制御デバイスが、パターン抽出部３０、特徴パターン選択部４０、関連パターン生成部５０、評価値算出部６０、予測モデル生成部７０、及び結果予測部８０として機能することができる。これら各部の処理結果は、必要に応じて装置（ＰＣ）のＬＣＤディスプレイ等の表示部（図示せず）で表示したり、不図示のプリンタで印字することができる。

また、この系列データ分析プログラムは、通信網を介してクライアント端末と通信するサーバに実装することができ、この場合、当該サーバの不図示の送受信部を介して、外部のクライアント端末から送られて来る学習データや評価データを学習データ格納部１０や評価データ格納部２０に格納することもできる。さらには、当該サーバでの処理結果を上記送受信部を介して外部のクライアント端末に送信することもできる。本装置をPOSシステムなどに実装する場合は、送受信部で受信した学習データを学習データ格納部１０に直接格納することができる。

他方、後述のように、学習データ及び評価データは系列データとしての所定のデータ構造（フォーマット）を有することから、本装置では、かかるフォーマットに関するデータの編集機能、変換機能、チェック機能などを備えるようにしてもよい。

これら各部の動作に基づく処理の概要を図２及び図３に示す。ここで、図２は、予測モデルの生成までの流れを示すフローチャートであり、これら各処理は学習データ格納部１０、パターン抽出部３０、特徴パターン選択部４０、関連パターン生成部５０、評価値算出部６０、及び予測モデル生成部７０の動作に基づく。他方、図３は、予測モデル後に評価データに対する評価すなわち結果予測を行うためのフローチャートであり、評価データ格納部２０及び結果予測部８０の動作に基づく。

図２の処理を概要的に説明すると、ステップＳ１のパターン抽出は、学習対象として格納された第１の系列データの群である学習データをパターン抽出部３０で読み出して、指定された第１の条件を満たす系列データ又は系列データの部分集合としてのパターンを複数個抽出する段階である。また、ステップＳ２のパターン信頼度算出は、抽出されたパターンに対し、評価値算出部６０がパターン毎の評価値を算出する段階である。さらに、ステップＳ３の特徴パターン選択は、特徴パターン選択部４０が、抽出された複数個のパターンから、指定された第２の条件を満たすパターンを特徴パターンとして選択する段階である。続くステップＳ４は、関連パターン生成部５０が、抽出された特徴パターンに関連するアイテムを有するパターン、具体的には結論部が同一で前提部が異なるパターンを、関連パターンとして生成する段階である。次のステップＳ５は、生成された関連パターンに対する評価値を、学習データを参照して、パターン毎に評価値算出部６０で算出する段階である。そして、ステップＳ６の予測モデル生成は、特徴パターン及び関連パターンを取りまとめた予測モデルを予測モデル生成部７０で生成する段階である。

学習データ格納部１０に格納される学習データ（第１の系列データ群）の一例を図５に示し、評価データ格納部２０に格納される評価データ（第２の系列データ）の一例を図１７に示す。これらは、上述した道路渋滞の発生に関する法則の発見を試みる場合の系列データの一例を図示している。

この事例では、渋滞予報における道路渋滞の発生に関する法則の発見を試みるために、ある道路の渋滞に関する過去のデータを学習データ（第１の系列データ）として使用するという目的から、学習データは、前提条件（天気や気温など）とその結果（渋滞の有無や人出の多少など）の両方を系列的に配置している。但し、学習データの構造やアイテムの種類などの具体的内容は、データ分析の目的等に応じて異なるものとすることができる。

上述のように、系列データを構成するアイテムは、属性と属性値から構成される。この事例では、系列データの属性と属性値が図４に示すように定義される。図４の例では、各属性と属性値とを組み合わせた、「天気：晴れ」、「天気：雨」、「天気：曇り」、「気温：高い」、「気温：普通１」、「気温：低い」、「日種別：平日」、「日種別：休日」、「人出：多い」、「人出：普通２」、「人出：少ない」、「渋滞：発生」、「渋滞：未発生」が、各々（一つの）アイテムとして定義されることになる。かかるアイテムや系列データを定義するためのデータは、後述の関連パターン生成時などで使用されることから、予めシステムメモリやハードディスク装置などの所定の記憶領域に格納されることができ、或いは、後述のパターン抽出（ステップＳ１）の際にパターン抽出部３０で生成して、上記記憶領域に格納されることができる。

そして、本実施形態では、図５に示すように、各アイテムの表記において、属性と属性値を分ける区切り記号として「：」が使用され、このアイテムの集合を直列かつ時系列的に並べたものが系列データとして与えられることになる。

但し、本実施形態では、同じアイテム集合に属するアイテムは、全て異なるアイテム（属性）から構成される。また、アイテム集合とアイテム集合の区切り（すなわち系列）として上述した「→」が使用され、個々のアイテム集合は「｛｝」によって囲われ、アイテム集合内におけるアイテムは「，」によって区切られる。

確認的に述べると、「アイテム集合」の概念につき、「｛｝」によって囲われたアイテム（すなわち属性と属性値からなる情報）が1つの場合でも「アイテム集合」と称する。また、「系列データ」の概念につき、１つの「アイテム集合」であってもアイテムが複数あれば、系列データに該当する（図１７の評価データＥ２参照）。

図５は学習データ格納部１０に格納される学習データのデータ構造を示し、図４のアイテムから構成される系列データの集合（系列データ群）の一例を示している。本実施形態における学習データは、一の系列データ毎にユニークなＩＤが付与されて学習データ格納部１０に格納される。この例では、Ｔ１からＴｎまでのｎ個の系列データが系列データの集合をなし、かかる系列データの集合が一つの学習データのファイルに収容されて、学習データ格納部１０に格納される。さらに、本実施形態で使用する学習データは、各系列データが複数の相互に異なるアイテム集合で構成されている。すなわち、一の系列データに属する複数のアイテム集合は、相互に同一のものとすることができない。

より具体的には、系列データＴ１は、「天気：晴れ」と「気温：普通１」からなるアイテム集合と、「渋滞：発生」だけからなるアイテム集合と、が順に（ここでは時系列で）並べられた系列データとなっている。同様に、系列データＴ６は、「天気：雨」だけからなるアイテム集合と、「人出：少ない」だけからなるアイテム集合と、「渋滞：未発生」だけからなるアイテム集合と、が順に並べられた系列データとなっている。

第１及び第２の系列データ（すなわち、学習データ及び評価データ）の相違点について説明すると、図１７及び図５を比較して分かるように、いずれの系列データも、複数の相互に異なるアイテム集合が直列に並べられたものであるが、評価データの系列データは、学習データの系列データよりも多くのアイテム集合を有することはできない。言い換えると、評価データの系列データは、学習データの系列データの部分集合である。

また、本装置の各処理の実行に際し、上述の学習データ、評価データの格納の他に、幾つかの条件を予め設定しておく必要がある。本装置の表示部に表示される条件設定画面の一例を図２０に示し、その具体的な内容については後述する。かかる条件設定画面で入力、設定された各種条件は、処理に先立ってハードディスク装置やシステムメモリ等の所定の記憶媒体に記憶される。

本装置においては、図２のステップＳ１で、まずは学習データ格納部１０に格納されている学習データ（第１の系列データの群）を、パターン抽出部３０が読み込んで処理することにより、予め設定ないし指定された条件に合致するパターンを複数個発見（抽出）する（条件合致パターンの発見）。パターン抽出の条件には種々のものが考えられるが、例えば、上述した非特許文献１の方法を用いてパターンの集合を抽出することができ、この場合、パターン抽出の条件として、アイテム集合の出現頻度に基づいた後述の「最小支持度」が利用される。

以下、図６のフローチャートを参照して、パターン抽出処理のより具体的な動作について説明する。パターン抽出処理では、パターン抽出部３０によって、学習データをＩＤすなわち系列データ毎に読み出し、分類し、アイテム集合の出現頻度に基づいて、出現頻度の高い（出現数の多い）系列データを抽出し、出現頻度の低い（出現数の少ない）系列データを削除する処理が遂行される。

すなわち、パターン抽出部３０は、ステップＳ１１で、学習データ格納部１０に格納されている学習データの内の一のＩＤの系列データを読み出してパターンを解析し、解析結果をＲＡＭ等の作業領域に保存する。パターン抽出部３０は、続くステップＳ１２で、前ステップで解析されたパターンが既出すなわち作業領域にあるかを判定し、既出の場合はステップＳ１３に進んで当該パターンの出現数のカウンタに１を加算し、既出でないすなわち新規パターンの場合はステップＳ１４に進んで、新たなパターンとして当該パターンの出現数を１に設定する。

続くステップＳ１５で、パターン抽出部３０は、学習データ格納部１０内の全ての系列データを解析したかを判定し、未解析の系列データがある場合はステップＳ１１に戻って上述したステップＳ１１乃至Ｓ１５の処理を繰り返し、全ての系列データを解析した場合にはステップＳ１６に進む。ステップＳ１６で、パターン抽出部３０は、分類したパターン毎に支持度を算出し、続くステップＳ１７で、最小支持度を満たさないパターンを作業領域から削除し、最小支持度を満たすパターンを抽出（出力）して、一連の処理を完了する。図７は、ステップＳ１７で抽出されたパターンの出力例であり、本実施形態では、最小支持度を満たすパターンが、その支持度の値と共に、本装置の表示部に表示出力される。

ここで、最小支持度は、パターンの頻出性を評価するための基準であり、各パターンの支持度は下記の数式１によって定義される。パターン抽出部３０は、読み込んだ学習データから全てのパターン（図５の例では、系列データの本体部すなわち系列データＴ１，Ｔ２，・・・ＴｎにおけるＩＤ以外の部分）を抽出すると（ステップＳ１５でＹｅｓ）、ステップＳ１６で下記数式１に従って各パターンの支持度を算出し、ステップＳ１７で当該支持度が指定された最小支持度以上であるかを判定し、最小支持度以上のパターンを、条件を満たすパターンとして抽出する。

（数１）
支持度（ｓ）＝ｓを含む系列データの個数／系列データの個数

但し、上記数式１において、ｓはパターン（この例ではＩＤ以外の各アイテムの並び）を表す。また、数式１の定義から明らかなように、任意のパターンｓの支持度は［０，１］の範囲の値として算出される。例えば、系列データが１０個ある場合に、ｓを含む系列データが３個であった場合には、ｓの支持度は０．３（＝３／１０）と計算されることになる。

一方、最小支持度の条件に加えて、上記の非特許文献２に記載されているアイテム間制約を満たすパターンを条件を満たすパターンとして抽出することも可能である（図２０参照）。この場合には、上述したステップＳ１７では、最小支持度を満たすとともに、アイテム間制約として記述（指定）されたアイテムや、アイテムの構成要素である属性や属性値の並びを満たすパターン（すなわち系列データの一部）が、条件を満たすパターンとしてパターン抽出部３０により抽出されることになる。

簡明のため、以下の説明では、アイテム間制約については第１の条件に加えず、第１の条件を満たすパターンとして、図７に示すパターン（すなわち系列データの全体）が抽出されたものと仮定する。

ステップＳ２では、パターン抽出部３０によって抽出された各パターンに対して、評価値算出部６０がパターン選択の基準となる評価値を算出する。パターンに対する評価値としては多様なものが利用可能であるが、本例では、後述する「信頼度」を評価値として算出する。

図８は、図２のステップＳ２及びステップＳ３のサブルーチンの一例であり、ステップＳ２が図８のステップＳ２１乃至ステップＳ２６に、ステップＳ３が図８のステップＳ２７に対応する。以下、図８のフローチャートを参照して、評価値算出部６０が遂行する処理について具体的に説明する。評価値算出部６０は、パターン抽出部３０によって抽出されたパターンについて、ステップＳ２１で１つのパターン（ｓ）を取り出し、ステップＳ２２で当該パターン（ｓ）の出現数（ステップＳ１３参照）を取得する。

続いて評価値算出部６０は、当該パターン（ｓ）から最後のアイテム集合を除去することで、前提部となる１つの部分パターン（ｔ）を抽出し（ステップＳ２３）、当該部分パターン（ｔ）を含む系列データ（学習データ中の系列データ）の個数を算出し（ステップＳ２４）、ステップＳ２５で、当該パターン（ｓ）について、詳細を後述する信頼度の算出を行い、かかるステップＳ２１乃至Ｓ２５の処理をパターン抽出部３０によって抽出された全てのパターンについて行った後に（ステップＳ２６でＹｅｓ）、算出された各パターン毎の信頼度のデータを特徴パターン選択部４０に提供し（図１参照）、特徴パターン選択部４０にステップＳ２７の処理を遂行させる。

以下、本装置で算出される信頼度について説明する。ステップＳ２５で、評価値算出部６０は、下記の数式２に定義される信頼度をパターンの評価値として算出する。

（数２）
信頼度（ｓ｜ｔ）＝ｓを含む系列データの個数／ｔを含む系列データの個数

但し、数式２において、ｓ、ｔは各々パターンを表し、パターンｔは、パターンｓから最後のアイテム集合を取り除いた部分パターンを表す。以下は、部分パターンｔを「前提部」と称し、最後のアイテム集合を「結論部」と称する。

また、任意のパターンｓは、その前提部（すなわち部分パターンｔ）よりも多くのアイテムから構成されており、前提部（パターンｔ）よりもいわば厳しい条件を課されているため、パターンｓを含む系列データの個数は、前提部を含む系列データの個数以下になる。このため、信頼度（ｓ｜ｔ）は、［０，１］の範囲の値として算出されることになる。換言すると、かかる信頼度の値は、パターンｓと同一の前提が生じた場合に、パターンｓと同一の結論（結果）が生じる確率の値である。

例えば、アイテムＡ：ａ、Ｂ：ｂ、Ｃ：ｃからなる系列データについて考える。このとき、パターンｓが｛Ａ：ａ｝→｛Ｂ：ｂ｝→｛Ｃ：ｃ｝と与えられ、学習データ中、パターンｓを含む系列データの個数が２であるとする。この場合、パターンｓの前提部であるパターンｔとして｛Ａ：ａ｝→｛Ｂ：ｂ｝が抽出され、学習データ中のパターンｔを含む系列データの個数は、パターンｓの個数以上となり、例えば４であったとする。このとき、信頼度は、ｔが与えられた場合におけるｓの信頼度（ｓ｜ｔ）として、（２／４＝）０．５が算出される。

したがって、評価値算出部６０は、特定された一つのパターン（ｓ）に対して、パターン（ｓ）全体を含む学習データ中の系列データの個数と、パターン（ｓ）全体から最後のアイテム集合を除いた部分パターン（ｔ）を含む系列データの個数を算出し（ステップＳ２２、Ｓ２３）、各パターンに対する信頼度を算出する（ステップＳ２５）。

パターン（ｓ）や部分パターン（ｔ）を含む個数の算出は、系列データ（学習データ格納部１０内の学習データ）を参照して計算することも可能であるが、（上述したステップＳ１の）パターンの抽出時に算出してＲＡＭ等に格納しておき、当該格納された値に基づいて算出することもできる。図９は、図７に例示したパターンに対して、各パターンの信頼度を算出した結果を示す。

本装置では、続いて、特徴パターン選択部４０がパターン抽出部３０によって抽出されたパターン及び評価値算出部６０によって算出された各パターン毎の評価値（信頼度）を参照することにより、信頼度が相対的に高い特徴パターン（以下、選択パターンとも称する。）を選択し抽出する処理を遂行する（ステップＳ３、ステップＳ２７）。この例では、選択するパターンの結論部の範囲（種類）を限定するために、結論部に対して、アイテム（すなわち属性と属性値の両方）、属性、属性値、のいずれかを指定する（図２０参照）。かかる指定に基づいて、特徴パターン選択部４０は、当該指定された特定のアイテム、属性、属性値に合致するパターンであって、信頼度の値が予め指定された最小信頼度以上であるパターンを、選択パターンとして取り出す。

例えば、ステップＳ３に先立って、選択するパターンの設定を、結論部がアイテム｛渋滞：発生｝又はアイテム｛渋滞：未発生｝のいずれかであるとし、最小信頼度が０．５に設定された事例を考える（図２０参照）。この場合、ステップＳ３（ステップＳ２７）の処理で、特徴パターン選択部４０は、図９のパターンから図１０に示す４つのパターンを選択、抽出する。

図１０は、ステップＳ２７の処理結果を本装置の表示部に表示した場合の表示例を示しており、本実施形態では、選択、抽出したパターン毎にＩＤ（Ｐ１乃至Ｐ４）を割り当て、支持度及び信頼度の値も表示する。図示のように、この例では、選択パターンＰ１〜Ｐ４のいずれも、結論部がアイテム｛渋滞：発生｝又はアイテム｛渋滞：未発生｝であり、信頼度が０．５以上であることが分かる。すなわち、図９の例において、４段目と６段目のパターンは、結論部の条件は満たしているが最小信頼度に達していないために選択されず、最小信頼度に達している８段目のパターンは、結論部の条件を満たしていないために選択されない。

なお、結論部の指定例としては、属性｛渋滞｝を指定したとしても、図９のパターンから図１０に示す４つのパターンを選択することができる。同様に、属性値｛発生｝あるいは属性値｛未発生｝のいずれかが結論部であるとしても、上記４つのパターンを選択することができる。総じて、結論部の指定は、データ分析の目的等に応じて適宜変更することができる。

本実施形態では、各属性値はただ一つの属性に含まれているが、アイテムによっては、異なる属性に対して同一の属性値が含まれる可能性がある。このような場合には、指定した一つの属性値によって複数のアイテムを表現することができ、パターン選択の際に指定する条件の数を少なくするといった効果を得ることができる。

ステップＳ４では、関連パターン生成部５０が特徴パターン選択部４０によって選択された各選択パターンと関連のある関連パターンを生成する。本実施形態においては、結論部（すなわち最後のアイテム集合）が同一であり、前提部（すなわち他のアイテム集合）を構成するアイテムの属性が同一であるが、属性値が異なるものを関連パターンとして生成する。

以下、図１１のフローチャートを参照して、関連パターン生成部５０が遂行する処理について具体的に説明する。関連パターン生成部５０は、特徴パターン選択部４０によって選択された各選択パターンの内から一つの（すなわち一つのＩＤの）選択パターンを取得し（ステップＳ４１）、当該選択パターンと結論部が同一で、前提部のアイテム属性が同一であるが属性値が異なるパターンを、関連パターンとして生成する（ステップＳ４２）。

例えば、図１０に示されている選択パターンＰ１｛天気：晴れ，気温：普通１｝→｛渋滞：発生｝に対応する関連パターンを生成する場合を考えてみる。選択パターンＰ１では、その前提部｛天気：晴れ，気温：普通１｝は、二つのアイテムを含む一つのアイテム集合から構成されている。そして、かかる二つのアイテムに関し、その属性は「天気」と「気温」であり、「天気」の属性値は「晴れ」、「気温」の属性値は「普通１」であるが、この学習データの定義（図４参照）では、「天気」の属性値として「晴れ」の他にも「雨」、「曇り」が存在し、「気温」の属性値として「普通１」の他にも「高い」、「低い」が存在する。

このため、属性と属性値で構成された各アイテムの組み合わせとしては、
（１）｛天気：晴れ，気温：高い｝
（２）｛天気：晴れ，気温：普通１｝
（３）｛天気：晴れ，気温：低い｝
（４）｛天気：雨，気温：高い｝
（５）｛天気：雨，気温：普通１｝
（６）｛天気：雨，気温：低い｝
（７）｛天気：曇り，気温：高い｝
（８）｛天気：曇り，気温：普通１｝
（９）｛天気：曇り，気温：低い｝
の９種類のアイテム集合を生成することができる。

このうち、上記（２）の｛天気：晴れ，気温：普通１｝は選択パターンＰ１の前提部に一致するアイテムの組み合わせであるため、当該組み合わせを除いた８つの組み合わせを前提部とし、それぞれの前提部に選択パターンＰ１の結論部｛渋滞：発生｝を割り当てた８つのパターンが、関連パターンとして生成される。すなわち、選択パターンＰ１から図１２に示す関連パターンを生成することができる。

また、選択パターンＰ２｛日種別：平日｝→｛人出：多い｝→｛渋滞：発生｝の場合、前提部はアイテムを一つだけ含む二つのアイテム集合から構成されている。前提部における各アイテムの属性は「日種別」、「人出」であり、「日種別」の属性値は、学習データの定義（図４）からは、「平日」、「休日」、「人出」の属性値は「多い」、「普通２」、「少ない」の３つが存在する。このため、属性と属性値で構成された各アイテムの並びとしては、
（１）｛日種別：平日｝→｛人出：多い｝
（２）｛日種別：平日｝→｛人出：普通２｝
（３）｛日種別：平日｝→｛人出：少ない｝
（４）｛日種別：休日｝→｛人出：多い｝
（５）｛日種別：休日｝→｛人出：普通２｝
（６）｛日種別：休日｝→｛人出：少ない｝
の６種類のパターンを生成することができる。

このうち、（１）の｛日種別：平日｝→｛人出：多い｝はＰ２の前提部に一致するアイテムの並びであるため、当該並びを除いた５つの組み合わせを前提部とし、選択パターンＰ２の結論部｛渋滞：発生｝を割り当てた、５つのパターンが関連パターンとして生成される。すなわち、ステップＳ４２で関連パターン生成部５０は、選択パターンＰ２から図１３に示す関連パターンを生成する。同様にして、関連パターン生成部５０は、選択パターンＰ３から図１４に示す二つのパターンによる関連パターンを、選択パターンＰ４から図１５に示す５つのパターンによる関連パターンを、各々生成する。

本例における選択パターン（Ｐ１乃至Ｐ４）では、複数のアイテムで構成されたアイテム集合が複数並べられた系列が前提部になるようなパターン例（例えば選択パターンの前提部が｛天気：晴れ, 気温：低い｝→｛日種別：休日, 人出：多い｝のような例）は記載されていないものの、このような場合であっても、関連パターン生成部５０は、アイテム集合ごと、系列の並びごとに含まれる各属性とその属性値の全てを組み合わせることによって生成されるアイテム集合の並びを前提部とし、かかる前提部に当該選択パターンの結論部と同一の結論部を付加したパターンを、関連パターンとして抽出することになる。

一方、ある選択パターンの関連パターンが選択パターンとして選択されている場合もありうるが、このような場合には、重複して関連パターンを生成することになるため、関連パターン生成部５０は、ステップＳ４２で、かかる関連パターンの重複した生成は行わないようにする。具体的には、関連パターン生成部５０は、ステップＳ４２で既出の関連パターンと同一の関連パターンが生成された場合に、当該関連パターンを削除する。

かくして、本装置では、関連パターン生成部５０によって、選択パターン毎に対応する関連パターンを生成する処理を繰り返し（ステップＳ４３、ステップＳ４１）、全ての選択パターンに対応する関連パターンを生成すると（ステップＳ４３でＹｅｓ）、ステップＳ４４で再び評価値算出部６０によって処理が遂行される。

ステップＳ４４で、評価値算出部６０は、関連パターン生成部によって生成された関連パターンに対して、パターン毎に評価値を算出する（ステップＳ５）。本処理は、ステップＳ２のパターン信頼度算出処理（すなわち図８のステップＳ２１乃至ステップＳ２６）と基本的には同一であるが、対象とするパターンが異なっている。また、選択パターンの場合にはパターン抽出時に評価値算出に必要な値を別途算出しておくことが可能であるが、関連パターンの場合には必ずしもこのような値の算出を行うことができない。このため、評価値算出部６０は、学習データ格納部１０内の学習データを直接参照することにより（図１）、その評価値を算出することになる。

ステップＳ４４で全ての関連パターンに対する評価値が算出されると（ステップＳ２６でＹｅｓ）、ステップＳ４５で予測モデル生成部７０による予測モデル生成の処理（ステップＳ６）が遂行される。図１２から図１５に記載された関連パターンの例では、各関連パターンの横に記載されている信頼度がパターンの評価値として算出されたものとする。

ステップＳ４５で、予測モデル生成部７０は、選択パターンと選択パターンから抽出された関連パターンの各データを集め、各パターンにつき、パターンの前提部と結論部ごとに記載し、算出され評価値を各パターン毎に記載することにより、選択パターン及び関連パターンのデータを纏めた予測モデルを生成する。

予測モデル生成部７０は、例えば、図１０に示す選択パターンと、図１２乃至図１４に示す関連パターンから、図１６に示す予測モデルを生成することができる。この予測モデルは、ＩＤ、前提部、結論部、及び信頼度からなるデータリストであって、選択パターンに枝番「−１」のＩＤが、関連パターンに枝番「−２」以上のＩＤが割り当てられる。

以上に説明した各処理によって、系列データである学習データから、その学習結果としての予測モデルを生成することができる。本装置では、この予測モデルを利用して、新たに与えられた評価データを適用することにより、評価データがその後に到達する可能性が高い結果を、図３のフローチャートに従って予測する。

評価データ格納部２０に格納される評価データについて、図１７を参照しながら説明する。図１７に例示する評価データは、新たに収集されたデータであって、評価データＥ１が現時点の天気、気温、日種別、及び人出の状況を示すデータ、評価データＥ２が翌日の日種別及び予想される天気と気温を示すデータである。

評価データの形式は、上述した学習データの形式と同じであり、一つの系列データ毎にユニークなＩＤが付与されて評価データ格納部２０に格納される。他方、本事例での評価データは、学習データと比較して分かるように、学習データの結論部に対応するアイテム集合が無く、前提部に対応するアイテム集合のみのデータとなっている。すなわち、この事例では、道路渋滞の発生の有無の予測を行うために、現在の天候等の状況や今後予想される天候等の状況（学習データの前提部）を評価データとして使用するため、評価データは、結論部のアイテムすなわち渋滞（属性）及び発生／未発生（属性値）のデータが無い。

以下、図３のフローチャートを参照して、予測モデル生成後の本装置の動作を説明する。ステップＳ６１で、結果予測部８０は、評価データ格納部２０に格納されている複数の評価データ（評価データ群）の内の一つのＩＤの評価データを取り出す。

ステップＳ６２で、結果予測部８０は、取り出された一つの評価データを予測モデルに適用することにより、当該評価データが到達する可能性の高い結果を予測する。具体的には、ステップＳ６２で結果予測部８０は、評価データのパターンと予測モデルの各パターンの前提部とを比較し、予測モデルのパターンの前提部の全体が評価データ（のパターン）に含まれる場合に、予測モデルの当該パターンの前提部を抽出し、次に、この抽出された前提部に対応する結論部と評価値を抽出する。

続くステップＳ６３で、結果予測部８０は、同一の結論部をもつ評価値を取りまとめて、取りまとめた評価値から結論部ごとの結論部評価値を算出する。最終的に、結果予測部８０は、この結論部評価値を比較することにより、結論部を選択し、評価データに対する予測結果として出力する。結果予測部８０は、かかる処理を評価データ毎に繰り返し行い（ステップＳ６４、ステップＳ６１）、全ての評価データに対する処理が完了すると（ステップＳ６４でＹｅｓ）、処理結果を出力して（ステップＳ６５）、処理を終了する。

ここで、結果予測部８０が算出する結論部評価値としては、種々のものが考えられるが、本実施形態では、下記の数式３に定義される評価値の積算値を結論部評価値として算出する。また、結果予測部８０は、当該算出された結論部評価値が最も大きな値をもつ結論部を、予測結果とみなすことにする。

（数３）
結論部評価値（結論部ｊ）＝Σｉ＝１，ｎ＿ｊ評価値ｉｊ

但し、数式３において、評価値ｉｊは、前提部が評価データに含まれ、その結論部がｊ番目の結論部であるｉ番目のパターンの評価値であり、ｎ＿ｊは、ｊ番目の結論部に対して選択されたパターンの数を示す。

一例として、図１６の予測モデルに対して、図１７の評価データＥ１がステップＳ６１で取り出された場合を考えてみる。評価データＥ１は、｛天気：晴れ，気温：普通１，日種別：平日｝→｛人出：普通２｝と与えられている。従って、ステップＳ６２で結果予測部８０は、予測モデルのＭ１−１乃至１−９、Ｍ２−１乃至２−６、Ｍ３−１乃至３−３、Ｍ４−１乃至４−６の各パターンの前提部を参照し、天気：晴れ、気温：普通１、日種別：平日、人出：普通２、のいずれかのアイテム（すなわち属性：属性値の対）を有し、かつ、これら以外のアイテムを有していない前提部であるパターンを探索し、これに該当するパターンの前提部を抽出する。

この例では、予測モデル中のパターンＭ１−２、Ｍ２−２、Ｍ３−１、及びＭ４−２の前提部は、それぞれ、｛天気：晴れ，気温：普通１｝、｛日種別：平日｝→｛人出：普通２｝、｛天気：晴れ｝、及び｛日種別：平日｝→｛人出：普通２｝であり、評価データＥ１に含まれていることが分かる。従って、ステップＳ６２で結果予測部８０は、予測モデルのパターンＭ１−２、Ｍ２−２、Ｍ３−１、及びＭ４−２の前提部を抽出する。他方、例えばパターンＭ１−１は、評価データに含まれないアイテム「気温：高い」を有していることから、評価データのアイテム「天気：晴れ」を有しているにもかかわらず、前提部全体が評価データに含まれないために、ステップＳ６２での抽出対象にならないことが分かる。

一方、パターンＭ１−２、Ｍ２−２の結論部は、｛渋滞：発生｝であり、パターンＭ３−１、Ｍ３−２の結論部は｛渋滞：未発生｝となっている。このため、ステップＳ６３で結果予測部８０は、同一の結論部をもつ評価値を取りまとめて結論部ごとの結論部評価値を算出するために、パターンＭ１−２とパターンＭ２−２の信頼度の値同士を積算し、かかる積算値０．９（＝０．６＋０．３）を結論部｛渋滞：発生｝の結論部評価値とする。同様に、結果予測部８０は、パターンＭ３−１とパターンＭ４−２の信頼度の値同士を積算し、かかる積算値０．５（＝０．１＋０．４）を結論部｛渋滞：未発生｝の結論部評価値とする。さらに、結果予測部８０は、算出された結論部評価値（０．９と０．５）を比較し、より大きな値０．９（＞０．５）を与える結論部｛渋滞：発生｝を、評価データＥ１に対する予測結果として判定し、出力する。

同様に、評価データＥ２｛天気：雨，気温：低い，日種別：平日｝の場合、予測モデルのパターンＭ１−６、Ｍ３−２の前提部｛天気：雨，気温：低い｝、｛天気：雨｝を含んでいるため、結論部｛渋滞：発生｝の結論部評価値は０．２、結論部｛渋滞：未発生｝の結論部評価値は０．５と与えられる。従って、より大きな値０．５（＞０．２）を与える｛渋滞：未発生｝が予測結果として判定されることになる。図１８は、予測結果の判定前の状態であって、評価データＥ１，Ｅ２に対する結論部評価値の算出が終了し、各結論部毎の結論部評価値を表示部に出力した場合の表示画面の一例を示している。

ステップＳ６４で、結果予測部８０は、全ての評価データを処理したかを判定し、Yｅｓすなわち全ての評価データが処理されている場合にはステップＳ６５に進み、Ｎｏすなわち未処理の評価データがある場合にはステップＳ６１に戻って上述したステップＳ６１乃至Ｓ６４の処理を繰り返す。

ステップＳ６５で、結果予測部８０は、各評価データに対して予測された予測結果を、その根拠とともに各評価データ毎に出力する。図１９は、ステップＳ６５での処理結果を表示部に出力した場合の表示画面の一例を示している。すなわち、この例では、評価データＥ１に対する予測結果は「渋滞発生」で、その根拠として予測モデル（図１６）のパターンＭ１−２及びＭ２−２を採用したこと、一方、評価データＥ２に対する予測結果は「渋滞未発生」で、その根拠として予測モデルのパターンＭ３−２を採用したこと、が分かる。この例では、予測データとしての予測結果に加えて、その根拠として、評価データが前提部を含むパターンのＩＤが出力されている。

なお、ステップＳ６２で予測モデルから抽出するパターンが無い場合には、結果予測部８０は、その旨のエラー表示を行って処理を終了する。また、ステップＳ６２で予測モデルから抽出するパターンが一つだけの場合には、当該パターンの結論部すなわち当該パターンの一部からなる部分パターンの内容を、評価データに対する予測結果として出力する。

以上のような処理によって、本実施形態の系列データ分析プログラム及び装置によれば、評価データが到達する可能性の高い結果を、その根拠とともに分析者に提示することができる。

すなわち、従来技術では、系列データから有用なパターンを発見することまでは出来たものの、発見されたパターンを解釈し、どのように利用するかは分析者の判断に委ねられていた。このため、新規に系列データが与えられた場合に、有用パターンを利用して、その系列データがどのような結果に到達する可能性が高いかを予測することはできなかった。

これに対して、本実施形態の系列データ分析プログラム及び装置によれば、系列データ（学習データ）から有用なパターン（すなわち特徴パターン）を発見するとともに、新規な系列データ（評価データ）を与え、評価データがどのような結果に到達する可能性が高いかを、発見された有用パターンを利用して予測し、その予測結果を、当該予測結果の根拠とともに出力し、分析者に提示することが可能となる。

以上に説明した、系列データ分析プログラム及び装置の構成は、上記実施例に限定されるものではない。

例えば、評価値算出部６０は、パターンの評価値として信頼度を利用しているが、下記数式４によって定義されるリフト値によって、評価値を算出することにしてもよい（図２０参照）。また、信頼度とリフト値の二つを評価値として利用し、特徴パターン選択部４０において、これら二つの評価値の双方に対して与えた基準に基づいてパターンを選択するようにしてもよい。

（数４）
リフト（ｓ｜ｔ）＝（（ｓ−ｔ）を含む系列データの個数×ｔを含む系列データの個数）／ｓを含む系列データの個数×系列データの個数

但し、数式４における（ｓ−ｔ）は、ｓからｔを取り除いた結論部を示す部分パターンを示す。

また、上述の実施形態では、関連パターン生成部５０において、結論部が同一で、前提部の属性が同一で、属性値が異なるものを関連パターンとして生成しているが、他にも例えば、アイテムを予めグルーピングしておき、前提部のアイテムを同一のグループに含まれる他のアイテムに置き換えたものを関連パターンとして抽出するようにしてもよい。

また、結果予測部８０によって算出される結論部信頼度としては、例えば以下の数式５によって定義される値を用いてもよい。

（数５）
結論部評価値（結論部ｊ）＝１−Πｉ（１−評価値ｉｊ）

但し、数式５において、Πｉは、ｉ個の要素を積算する演算を表す。

また、例えば、結果予測部８０における予測結果の選定において、選択された結論部評価値の値が、指定した最小値よりも小さくなるなどの所定の条件を満たさない場合には、選択した結論部を予測結果として返すのではなく、予測不能と判定することにしてもよい。

また、上記実施形態では結果予測部８０の予測結果の出力（表示）内容として、採用された予測モデル中の特徴パターン及び／又は前記関連パターンの結論部（すなわち最後のアイテム集合）の内容及びその根拠として、当該パターンのＩＤを出力しているが（図１９）、他にも例えば、算出された結論部評価値を併せて又は代替的に出力してもよい。

さらに、本装置で学習及び評価対象となる「系列データ」には、多様な形態が含まれ得る。他の例としては、例えばヒット商品や有力な商品等を予測する場合の、小売り分野における各種商品名や、ヘルスケア分野における検査項目とその値の組み合わせなどを示すアイテムの集合が系列的に並べられたものが挙げられる。

この他にも、本発明の趣旨を変えることなく、種々変形して、実施することができる。

以上のように、実施形態によれば、学習データから抽出された前提部と結論部を有するパターン（換言すると時系列パターン）に基づいて予測モデルを構築することにより、新たな系列データ（評価データ）が与えられた場合に、その系列データがどのような結果に到達する可能性が高いかを予測することができる。また、予測された結果に到達する可能性が高いことを示す根拠を分析者に提示することができ（図１９参照）、予測結果に対する納得性を得ることができる。この他、本実施形態によれば、通常の系列パターンの発見問題ではその出現回数が少ないために発見されにくいパターンを関連パターンとして抽出し、関連パターンも考慮した予測を行うことができる。

なお、本発明の実施形態を説明したが、当該実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００系列データ分析装置
１０学習データ格納部
２０評価データ格納部
３０パターン抽出部
４０特徴パターン選択部
５０関連パターン生成部
６０評価値算出部
７０予測モデル生成部
８０結果予測部

Claims

複数の異なるアイテムからなる系列データから条件を満たすパターンを抽出し、該パターンに基づいて、新たに与えられた系列データが特定の結果に達する可能性を予測するための系列データ分析装置であって、
複数の相互に異なるアイテム集合が並べられるとともに、少なくとも最後のアイテム集合が他のアイテム集合に対する因果関係の結果として時系列に並べられた第１の系列データの群を学習データとして格納する学習データ格納部と、
前記アイテム集合の出現頻度に基づいて、前記第１の系列データから２以上のアイテム集合のパターンを抽出するパターン抽出部と、
該抽出されたパターンから、該パターンの一部からなる部分パターンの出現頻度に基づいて、２以上のアイテム集合のパターンを特徴パターンとして選択するパターン選択部と、
該選択された特徴パターンに対して、最後のアイテム集合が同一で他のアイテム集合が相違する関連パターンを生成する関連パターン生成部と、
前記特徴パターン及び関連パターンのデータを纏めた予測モデルを生成する予測モデル生成部と、
前記学習データの部分集合である第２の系列データを前記予測モデルとマッチングし、前記特徴パターンに対する該パターンの一部からなる部分パターンの出現頻度または前記関連パターンに対する該パターンの一部からなる部分パターンの出現頻度に基づいて、前記予測モデルに含まれる最後のアイテム集合に基づく第２の系列データの到達可能性の高い結果を抽出する結果予測部と、
を備えることを特徴とする系列データ分析装置。
前記パターン抽出部によって抽出されたパターンに対する評価値を、該パターンの一部からなる部分パターンの出現頻度に基づいて算出する評価値算出部を備え、
前記パターン選択部は、前記評価値が所定値以上のパターンを前記特徴パターンとして選択するとともに、
前記評価値算出部は、生成された関連パターンに対する評価値を、該パターンの一部からなる部分パターンの出現頻度に基づいて算出し、
前記予測モデル生成部は、前記特徴パターン及び関連パターンと該パターン毎の評価値とを含む前記予測モデルを生成し、
前記結果予測部は、前記学習データの部分集合である第２の系列データを前記予測モデルとマッチングし、前記特徴パターンの評価値または前記関連パターンの評価値に基づいて、前記予測モデルに含まれる最後のアイテム集合に基づく第２の系列データの到達可能性の高い結果を抽出することを特徴とする請求項１記載の系列データ分析装置。
前記結果予測部は、前記予測モデル中の前記特徴パターン及び関連パターンの最後のアイテム集合以外のアイテム集合を参照し、該アイテム集合が前記第２の系列データに含まれている前記特徴パターン及び／又は前記関連パターンを抽出し、該抽出されたパターンの最後のアイテム集合及び評価値に基づいて、第２の系列データの到達可能性の高い結果を抽出する、
ことを特徴とする請求項２記載の系列データ分析装置。
前記結果予測部は、複数の前記抽出されたパターンのうち、最後のアイテム集合である結論部が相互に同一であるパターンの各評価値を積算した結論部評価値を算出し、結論部評価値に基づいて抽出されるパターンの最後のアイテム集合の内容を、第２の系列データの到達可能性の高い結果として出力する、
ことを特徴とする請求項３記載の系列データ分析装置。
前記結果予測部は、第２の系列データの到達可能性の高い結果として、前記最後のアイテム集合の内容と、該内容を判断する根拠となった前記予測モデル中のパターンを示す情報と、を出力する、
ことを特徴とする請求項４記載の系列データ分析装置。
通信網を介してクライアント端末とデータの送受信を行う送受信部をさらに備え、
前記学習データ格納部は、前記送受信部を介して前記クライアント端末から送信された学習データを格納することを特徴とする請求項１乃至５のいずれか１つに記載の系列データ分析装置。
複数の異なるアイテムからなる系列データから条件を満たすパターンを抽出し、該パターンに基づいて、新たに与えられた系列データが特定の結果に達する可能性を予測するための系列データ分析プログラムであって、コンピュータに、
学習データとして格納され複数の相互に異なるアイテム集合が並べられるとともに、少なくとも最後のアイテム集合が他のアイテム集合に対する因果関係の結果として時系列に並べられた第１の系列データの群を読み出して、前記第１の系列データから、前記アイテム集合の出現頻度に基づいた第１の条件を満たす２以上のアイテム集合のパターンを複数個抽出するパターン抽出段階と、
該抽出されたパターンに対する評価値を、該抽出されたパターンの一部からなる部分パターンの出現頻度に基づいて算出するパターン評価値算出段階と、
前記抽出されたパターンから、前記評価値が第２の条件を満たすパターンを特徴パターンとして選択する特徴パターン選択段階と、
該選択された特徴パターンに対して、最後のアイテム集合が同一で他のアイテム集合が相違する関連パターンを生成する関連パターン生成段階と、
生成された前記関連パターンに対する評価値を、該パターンの一部からなる部分パターンの出現頻度に基づいて算出する関連パターン評価値算出段階と、
前記特徴パターン及び関連パターンのデータを纏めた予測モデルを生成する予測モデル生成段階と、
前記学習データの部分集合である第２の系列データを前記予測モデルとマッチングし、前記特徴パターン及び前記関連パターンの各評価値に基づいて、前記予測モデルに含まれる最後のアイテム集合に基づく第２の系列データの到達可能性の高い結果を抽出する結果予測段階と、を実行させ、
前記特徴パターン選択段階では、算出された前記評価値が前記第２の条件として指定された閾値に達しているパターンを特徴パターンとして選択させ、
前記結果予測段階では、予測した結果の根拠となった前記予測モデル中の前記特徴パターン及び／又は前記関連パターンのデータを、予測した結果とともに出力させるための系列データ分析プログラム。
複数の異なるアイテムからなる系列データから条件を満たすパターンを抽出し、該パターンに基づいて、新たに与えられた系列データが特定の結果に達する可能性を予測するための系列データ分析装置であって、
複数の相互に異なるアイテム集合が時系列に並べられるとともに、因果関係の結果となる第１アイテム集合と、第１アイテム集合に対する原因となる１つ以上のアイテム集合とを少なくとも含む第１の系列データの群を学習データとして格納する学習データ格納部と、
前記アイテム集合の出現頻度に基づいて、前記第１の系列データから２以上のアイテム集合のパターンを抽出するパターン抽出部と、
該抽出されたパターンから、該パターンの一部からなる部分パターンの出現頻度に基づいて、２以上のアイテム集合のパターンを特徴パターンとして選択するパターン選択部と、
該選択された特徴パターンに対して、第１アイテム集合が同一で他のアイテム集合が相違する関連パターンを生成する関連パターン生成部と、
前記特徴パターン及び関連パターンのデータを纏めた予測モデルを生成する予測モデル生成部と、
前記学習データの部分集合である第２の系列データを前記予測モデルとマッチングし、前記特徴パターンに対する該パターンの一部からなる部分パターンの出現頻度または前記関連パターンに対する該パターンの一部からなる部分パターンの出現頻度に基づいて、前記予測モデルに含まれる第１アイテム集合に基づく第２の系列データの到達可能性の高い結果を抽出する結果予測部と、
を備えることを特徴とする系列データ分析装置。