JP5833068B2 - 系列データ分析装置及プログラム - Google Patents

系列データ分析装置及プログラム Download PDF

Info

Publication number
JP5833068B2
JP5833068B2 JP2013182229A JP2013182229A JP5833068B2 JP 5833068 B2 JP5833068 B2 JP 5833068B2 JP 2013182229 A JP2013182229 A JP 2013182229A JP 2013182229 A JP2013182229 A JP 2013182229A JP 5833068 B2 JP5833068 B2 JP 5833068B2
Authority
JP
Japan
Prior art keywords
pattern
data
series data
result
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013182229A
Other languages
English (en)
Other versions
JP2015049790A (ja
Inventor
秀樹 岩崎
秀樹 岩崎
櫻井 茂明
茂明 櫻井
ルミ 早川
ルミ 早川
松本 茂
茂 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2013182229A priority Critical patent/JP5833068B2/ja
Publication of JP2015049790A publication Critical patent/JP2015049790A/ja
Application granted granted Critical
Publication of JP5833068B2 publication Critical patent/JP5833068B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明の実施形態は、大量に収集された系列データから、系列データを構成するアイテム集合の特徴的な並びをパターンとして発見(抽出)するとともに、抽出されたパターンに基づいて、新たに与えられた系列データに基づいて、当該系列データのその後に到達する結果を予測するデータマイニングの分野に関する。
データマイニングの分野では、系列データからパターンを発見する研究が行われている。例えば、非特許文献1では、大きなパターンの出現頻度は、小さなパターンの出現頻度よりも単調に小さくなるといった性質を利用することにより、頻出するパターンを効率よく発見する方法が提案されている。また、特許文献1では、系列データを構成するアイテムの出現順序が、同じ意味を持っているとしても必ずしも一意に特定されない状況が発生することに着目し、出現順序の揺れを考慮した上で頻出するパターンを発見する方法が提案されている。さらに、特許文献2では、系列データから抽出したパターンを、注目対象として指定したパターンと融合するとともに、パターンを構成するアイテム集合間の時間的な発生タイムラグを考慮することにより、注目対象として指定したパターンに関連するパターンをその時間的な意味を考慮して分析する方法が提案されている。
R.Agrawal, R.Srikant, "Mining Sequential Patterns: Generalizations and Performance Improvements", in proceedings of International Conference on Extending Database Technology, 1996 櫻井茂明、早川ルミ、岩崎秀樹、「時系列パターン分析におけるアイテム間制約の効果」、第27回人工知能学会全国大会予稿集、2C1−5、2013
特開2008−17643号公報 特開2007−66058号公報
系列データから有用なパターンを発見するとともに、新たな(第2の)系列データが与えられた場合に、発見された有用パターンを利用して、当該第2の系列データがどのような結果に到達する可能性が高いかを予測する系列データ分析装置及びプログラムを提供する。
実施形態の系列データ分析装置は、複数の異なるアイテムからなる系列データから条件を満たすパターンを抽出し、該パターンに基づいて、新たに与えられた系列データが特定の結果に達する可能性を予測するための系列データ分析装置であって、複数の相互に異なるアイテム集合が並べられるとともに、少なくとも最後のアイテム集合が他のアイテム集合に対する因果関係の結果として時系列に並べられた第1の系列データの群を学習データとして格納する学習データ格納部と、アイテム集合の出現頻度に基づいて、第1の系列データから2以上のアイテム集合のパターンを抽出するパターン抽出部と、該抽出されたパターンから、該パターンの一部からなる部分パターンの出現頻度に基づいて、2以上のアイテム集合のパターンを選択するパターン選択部と、該選択されたパターンに対して、最後のアイテム集合が同一で他のアイテム集合が相違する関連パターンを生成する関連パターン生成部と特徴パターン及び関連パターンのデータを纏めた予測モデルを生成する予測モデル生成部と、学習データの部分集合である第2の系列データを予測モデルとマッチングし特徴パターンに対する該パターンの一部からなる部分パターンの出現頻度または関連パターンに対する該パターンの一部からなる部分パターンの出現頻度に基づいて、予測モデルに含まれる最後のアイテム集合に基づく第2の系列データの到達可能性の高い結果を抽出する結果予測部と、を備える。
第1実施形態の系列データ分析装置の構成例を示す図であり、本装置の主要部を構成する各部間の関係を示すブロック図である。 系列データ分析プログラム及び装置における予測モデルの生成までの流れを示すフローチャートである。 系列データ分析プログラム及び装置において評価データに対する予測を行うためのフローチャートである。 アイテムを構成する属性と属性値との関係を示す図である。 学習データ格納部に格納される学習データを示す図である。 パターン抽出処理を説明するフローチャートである。 パターン抽出部から発見(抽出)されるパターンとその支持度との関係を示す図である。 抽出されたパターンの信頼度算出及び特徴パターン選択の各処理を説明するフローチャートである。 抽出されたパターンと評価値として算出される信頼度との関係を示す図である。 パターン選択部によって選択される選択パターンとその支持度及び信頼度との関係を示す図である。 関連パターン生成、関連パターンの信頼度算出、予測モデル生成の各処理を説明するフローチャートである。 選択パターンP1から生成される関連パターンとその信頼度との関係を示す図である。 選択パターンP2から生成される関連パターンとその信頼度との関係を示す図である。 選択パターンP3から生成される関連パターンとその信頼度との関係を示す図である。 選択パターンP4から生成される関連パターンとその信頼度との関係を示す図である。 予測モデル生成部から生成される予測モデルの一例を示す図である。 評価データ格納部に格納される評価データを示す図である。 評価データを予測モデルに適用することにより算出された評価値を結論部ごとに示す図である。 評価データに対して予測された結果とその信頼度及び根拠となる理由との関係を示す図である。 条件設定画面の一例を示す図である。
以下、実施形態につき、図面を参照して説明する。
(用語の定義)
以下の説明において、
「系列データ」とは、複数のアイテムないしアイテム集合が系列的に、すなわち前後関係を有して直列的に並べられるデータであり、アイテム集合の前後関係を規定するために「→」記号を使って表現する。すなわち、矢印「→」の左側のアイテム集合が「前」側、右側のアイテム集合が「後」側となる。
また、「アイテム」とは、属性及び属性値の対のデータであり、例えば属性「天気」に対して、「晴れ」、「雨」、「曇り」のいずれかの属性値が対になって一つのアイテムとなる。
さらに、「アイテム集合」とは、1以上のアイテムの集合であり、一つのアイテム集合を{ }で括って表現している。
さらにまた、「パターン」とは、系列データの中から何らかの条件を指定されることによって取り出された系列データの部分集合と定義される。
実施形態に係る系列データ分析装置は、学習対象として格納された複数の系列データ(すなわち系列データの集合あるいは系列データ群、以下「学習データ」とも称する。)を分析して学習し、学習結果として予測モデルを生成するとともに、かかる学習結果(予測モデル)に基づいて、評価対象である第2の系列データ(以下「評価データ」とも称する)の示す内容が、どのような結果、結論、結末など(以下、単に「結果」と称する。)になる可能性が高いかを予測する制御(データ処理)を遂行するものである。
本装置は、例えば、スーパーマーケットなどの日用品の販売における、購入商品の購入法則の発見(例えば、「商品Aと商品Bを購入した取引ではその90%が商品Cも購入している」など)、医療分野における、特定医薬の摂取量と発生する副作用との因果関係の発見、天気予報や渋滞予報などの各種予報・予測の分野における、種々の法則の発見、銀行業務における、店舗の特性と事務ミスの種類との間にある特徴的な因果関係の発見、番組推薦における、視聴者特性と視聴履歴との間にある視聴者の嗜好の発見など、きわめて広い分野に亘って利用することができる。なお、これらは例示であって、これらの分野に限定されるものではない。
以下は、本装置で、渋滞の予報ないし予想における道路渋滞の発生に関する法則の発見を試みる事例について説明する。具体的には、ある施設(テーマパーク)に向かうまでの道路の渋滞に関する過去のデータを学習データ(第1の系列データ)として入力及び学習させて予測モデルを生成するとともに、現在あるいは将来の条件を評価データ(第2の系列データ)として入力して、当該条件で道路渋滞が発生する可能性を調べる事例である。
図1から図20は、第1実施形態を示す図である。図1は、本実施形態の系列データ分析装置100の主要部を示したブロック構成図であり、図中の各ブロックを結線する矢印は、データの流れる方向を示している。本装置は、複数の相互に異なるアイテム集合が直列に並べられた第1の系列データの群を学習データとして格納する学習データ格納部10と、第2の系列データである評価データを格納する評価データ格納部20と、アイテム集合の出現頻度に基づいた所定の条件を満たす2以上のアイテム集合のパターンを学習データから抽出するパターン抽出部30と、該抽出されたパターンから、該パターンの一部からなる部分パターンの出現頻度に基づいて、2以上のアイテム集合のパターンを特徴パターンとして選択する特徴パターン選択部40と、選択された特徴パターンに対して、最後のアイテム集合が同一で他のアイテム集合が相違する関連パターンを生成する関連パターン生成部50と、特徴パターン及び関連パターンに対する評価値を該パターンの一部からなる部分パターンの出現頻度に基づいて算出する評価値算出部60と、特徴パターン及び関連パターンのデータを纏めた予測モデルを生成する予測モデル生成部70と、学習データの部分集合である第2の系列データを評価データとして予測モデルに適用して、評価データの到達可能性の高い結果を判断する結果予測部80と、を備える。
本装置は、後述する各処理を実行する系列データ分析プログラムのデータを不図示のハードディスク装置などの外部記憶媒体に格納し、かかるプログラムをパーソナルコンピュータ(PC)に読み込ませることで実現することができる。この場合、例えば当該コンピュータのハードディスク装置やRAMなどの記憶デバイスが、学習データ格納部10、評価データ格納部20として機能し、CPUなどの制御デバイスが、パターン抽出部30、特徴パターン選択部40、関連パターン生成部50、評価値算出部60、予測モデル生成部70、及び結果予測部80として機能することができる。これら各部の処理結果は、必要に応じて装置(PC)のLCDディスプレイ等の表示部(図示せず)で表示したり、不図示のプリンタで印字することができる。
また、この系列データ分析プログラムは、通信網を介してクライアント端末と通信するサーバに実装することができ、この場合、当該サーバの不図示の送受信部を介して、外部のクライアント端末から送られて来る学習データや評価データを学習データ格納部10や評価データ格納部20に格納することもできる。さらには、当該サーバでの処理結果を上記送受信部を介して外部のクライアント端末に送信することもできる。本装置をPOSシステムなどに実装する場合は、送受信部で受信した学習データを学習データ格納部10に直接格納することができる。
他方、後述のように、学習データ及び評価データは系列データとしての所定のデータ構造(フォーマット)を有することから、本装置では、かかるフォーマットに関するデータの編集機能、変換機能、チェック機能などを備えるようにしてもよい。
これら各部の動作に基づく処理の概要を図2及び図3に示す。ここで、図2は、予測モデルの生成までの流れを示すフローチャートであり、これら各処理は学習データ格納部10、パターン抽出部30、特徴パターン選択部40、関連パターン生成部50、評価値算出部60、及び予測モデル生成部70の動作に基づく。他方、図3は、予測モデル後に評価データに対する評価すなわち結果予測を行うためのフローチャートであり、評価データ格納部20及び結果予測部80の動作に基づく。
図2の処理を概要的に説明すると、ステップS1のパターン抽出は、学習対象として格納された第1の系列データの群である学習データをパターン抽出部30で読み出して、指定された第1の条件を満たす系列データ又は系列データの部分集合としてのパターンを複数個抽出する段階である。また、ステップS2のパターン信頼度算出は、抽出されたパターンに対し、評価値算出部60がパターン毎の評価値を算出する段階である。さらに、ステップS3の特徴パターン選択は、特徴パターン選択部40が、抽出された複数個のパターンから、指定された第2の条件を満たすパターンを特徴パターンとして選択する段階である。続くステップS4は、関連パターン生成部50が、抽出された特徴パターンに関連するアイテムを有するパターン、具体的には結論部が同一で前提部が異なるパターンを、関連パターンとして生成する段階である。次のステップS5は、生成された関連パターンに対する評価値を、学習データを参照して、パターン毎に評価値算出部60で算出する段階である。そして、ステップS6の予測モデル生成は、特徴パターン及び関連パターンを取りまとめた予測モデルを予測モデル生成部70で生成する段階である。
学習データ格納部10に格納される学習データ(第1の系列データ群)の一例を図5に示し、評価データ格納部20に格納される評価データ(第2の系列データ)の一例を図17に示す。これらは、上述した道路渋滞の発生に関する法則の発見を試みる場合の系列データの一例を図示している。
この事例では、渋滞予報における道路渋滞の発生に関する法則の発見を試みるために、ある道路の渋滞に関する過去のデータを学習データ(第1の系列データ)として使用するという目的から、学習データは、前提条件(天気や気温など)とその結果(渋滞の有無や人出の多少など)の両方を系列的に配置している。但し、学習データの構造やアイテムの種類などの具体的内容は、データ分析の目的等に応じて異なるものとすることができる。
上述のように、系列データを構成するアイテムは、属性と属性値から構成される。この事例では、系列データの属性と属性値が図4に示すように定義される。図4の例では、各属性と属性値とを組み合わせた、「天気:晴れ」、「天気:雨」、「天気:曇り」、「気温:高い」、「気温:普通1」、「気温:低い」、「日種別:平日」、「日種別:休日」、「人出:多い」、「人出:普通2」、「人出:少ない」、「渋滞:発生」、「渋滞:未発生」が、各々(一つの)アイテムとして定義されることになる。かかるアイテムや系列データを定義するためのデータは、後述の関連パターン生成時などで使用されることから、予めシステムメモリやハードディスク装置などの所定の記憶領域に格納されることができ、或いは、後述のパターン抽出(ステップS1)の際にパターン抽出部30で生成して、上記記憶領域に格納されることができる。
そして、本実施形態では、図5に示すように、各アイテムの表記において、属性と属性値を分ける区切り記号として「:」が使用され、このアイテムの集合を直列かつ時系列的に並べたものが系列データとして与えられることになる。
但し、本実施形態では、同じアイテム集合に属するアイテムは、全て異なるアイテム(属性)から構成される。また、アイテム集合とアイテム集合の区切り(すなわち系列)として上述した「→」が使用され、個々のアイテム集合は「{ }」によって囲われ、アイテム集合内におけるアイテムは「,」によって区切られる。
確認的に述べると、「アイテム集合」の概念につき、「{ }」によって囲われたアイテム(すなわち属性と属性値からなる情報)が1つの場合でも「アイテム集合」と称する。また、「系列データ」の概念につき、1つの「アイテム集合」であってもアイテムが複数あれば、系列データに該当する(図17の評価データE2参照)。
図5は学習データ格納部10に格納される学習データのデータ構造を示し、図4のアイテムから構成される系列データの集合(系列データ群)の一例を示している。本実施形態における学習データは、一の系列データ毎にユニークなIDが付与されて学習データ格納部10に格納される。この例では、T1からTnまでのn個の系列データが系列データの集合をなし、かかる系列データの集合が一つの学習データのファイルに収容されて、学習データ格納部10に格納される。さらに、本実施形態で使用する学習データは、各系列データが複数の相互に異なるアイテム集合で構成されている。すなわち、一の系列データに属する複数のアイテム集合は、相互に同一のものとすることができない。
より具体的には、系列データT1は、「天気:晴れ」と「気温:普通1」からなるアイテム集合と、「渋滞:発生」だけからなるアイテム集合と、が順に(ここでは時系列で)並べられた系列データとなっている。同様に、系列データT6は、「天気:雨」だけからなるアイテム集合と、「人出:少ない」だけからなるアイテム集合と、「渋滞:未発生」だけからなるアイテム集合と、が順に並べられた系列データとなっている。
第1及び第2の系列データ(すなわち、学習データ及び評価データ)の相違点について説明すると、図17及び図5を比較して分かるように、いずれの系列データも、複数の相互に異なるアイテム集合が直列に並べられたものであるが、評価データの系列データは、学習データの系列データよりも多くのアイテム集合を有することはできない。言い換えると、評価データの系列データは、学習データの系列データの部分集合である。
また、本装置の各処理の実行に際し、上述の学習データ、評価データの格納の他に、幾つかの条件を予め設定しておく必要がある。本装置の表示部に表示される条件設定画面の一例を図20に示し、その具体的な内容については後述する。かかる条件設定画面で入力、設定された各種条件は、処理に先立ってハードディスク装置やシステムメモリ等の所定の記憶媒体に記憶される。
本装置においては、図2のステップS1で、まずは学習データ格納部10に格納されている学習データ(第1の系列データの群)を、パターン抽出部30が読み込んで処理することにより、予め設定ないし指定された条件に合致するパターンを複数個発見(抽出)する(条件合致パターンの発見)。パターン抽出の条件には種々のものが考えられるが、例えば、上述した非特許文献1の方法を用いてパターンの集合を抽出することができ、この場合、パターン抽出の条件として、アイテム集合の出現頻度に基づいた後述の「最小支持度」が利用される。
以下、図6のフローチャートを参照して、パターン抽出処理のより具体的な動作について説明する。パターン抽出処理では、パターン抽出部30によって、学習データをIDすなわち系列データ毎に読み出し、分類し、アイテム集合の出現頻度に基づいて、出現頻度の高い(出現数の多い)系列データを抽出し、出現頻度の低い(出現数の少ない)系列データを削除する処理が遂行される。
すなわち、パターン抽出部30は、ステップS11で、学習データ格納部10に格納されている学習データの内の一のIDの系列データを読み出してパターンを解析し、解析結果をRAM等の作業領域に保存する。パターン抽出部30は、続くステップS12で、前ステップで解析されたパターンが既出すなわち作業領域にあるかを判定し、既出の場合はステップS13に進んで当該パターンの出現数のカウンタに1を加算し、既出でないすなわち新規パターンの場合はステップS14に進んで、新たなパターンとして当該パターンの出現数を1に設定する。
続くステップS15で、パターン抽出部30は、学習データ格納部10内の全ての系列データを解析したかを判定し、未解析の系列データがある場合はステップS11に戻って上述したステップS11乃至S15の処理を繰り返し、全ての系列データを解析した場合にはステップS16に進む。ステップS16で、パターン抽出部30は、分類したパターン毎に支持度を算出し、続くステップS17で、最小支持度を満たさないパターンを作業領域から削除し、最小支持度を満たすパターンを抽出(出力)して、一連の処理を完了する。図7は、ステップS17で抽出されたパターンの出力例であり、本実施形態では、最小支持度を満たすパターンが、その支持度の値と共に、本装置の表示部に表示出力される。
ここで、最小支持度は、パターンの頻出性を評価するための基準であり、各パターンの支持度は下記の数式1によって定義される。パターン抽出部30は、読み込んだ学習データから全てのパターン(図5の例では、系列データの本体部すなわち系列データT1,T2,・・・TnにおけるID以外の部分)を抽出すると(ステップS15でYes)、ステップS16で下記数式1に従って各パターンの支持度を算出し、ステップS17で当該支持度が指定された最小支持度以上であるかを判定し、最小支持度以上のパターンを、条件を満たすパターンとして抽出する。
(数1)
支持度(s)=sを含む系列データの個数/系列データの個数
但し、上記数式1において、sはパターン(この例ではID以外の各アイテムの並び)を表す。また、数式1の定義から明らかなように、任意のパターンsの支持度は[0,1]の範囲の値として算出される。例えば、系列データが10個ある場合に、sを含む系列データが3個であった場合には、sの支持度は0.3(=3/10)と計算されることになる。
一方、最小支持度の条件に加えて、上記の非特許文献2に記載されているアイテム間制約を満たすパターンを条件を満たすパターンとして抽出することも可能である(図20参照)。この場合には、上述したステップS17では、最小支持度を満たすとともに、アイテム間制約として記述(指定)されたアイテムや、アイテムの構成要素である属性や属性値の並びを満たすパターン(すなわち系列データの一部)が、条件を満たすパターンとしてパターン抽出部30により抽出されることになる。
簡明のため、以下の説明では、アイテム間制約については第1の条件に加えず、第1の条件を満たすパターンとして、図7に示すパターン(すなわち系列データの全体)が抽出されたものと仮定する。
ステップS2では、パターン抽出部30によって抽出された各パターンに対して、評価値算出部60がパターン選択の基準となる評価値を算出する。パターンに対する評価値としては多様なものが利用可能であるが、本例では、後述する「信頼度」を評価値として算出する。
図8は、図2のステップS2及びステップS3のサブルーチンの一例であり、ステップS2が図8のステップS21乃至ステップS26に、ステップS3が図8のステップS27に対応する。以下、図8のフローチャートを参照して、評価値算出部60が遂行する処理について具体的に説明する。評価値算出部60は、パターン抽出部30によって抽出されたパターンについて、ステップS21で1つのパターン(s)を取り出し、ステップS22で当該パターン(s)の出現数(ステップS13参照)を取得する。
続いて評価値算出部60は、当該パターン(s)から最後のアイテム集合を除去することで、前提部となる1つの部分パターン(t)を抽出し(ステップS23)、当該部分パターン(t)を含む系列データ(学習データ中の系列データ)の個数を算出し(ステップS24)、ステップS25で、当該パターン(s)について、詳細を後述する信頼度の算出を行い、かかるステップS21乃至S25の処理をパターン抽出部30によって抽出された全てのパターンについて行った後に(ステップS26でYes)、算出された各パターン毎の信頼度のデータを特徴パターン選択部40に提供し(図1参照)、特徴パターン選択部40にステップS27の処理を遂行させる。
以下、本装置で算出される信頼度について説明する。ステップS25で、評価値算出部60は、下記の数式2に定義される信頼度をパターンの評価値として算出する。
(数2)
信頼度(s|t)=sを含む系列データの個数/tを含む系列データの個数
但し、数式2において、s、tは各々パターンを表し、パターンtは、パターンsから最後のアイテム集合を取り除いた部分パターンを表す。以下は、部分パターンtを「前提部」と称し、最後のアイテム集合を「結論部」と称する。
また、任意のパターンsは、その前提部(すなわち部分パターンt)よりも多くのアイテムから構成されており、前提部(パターンt)よりもいわば厳しい条件を課されているため、パターンsを含む系列データの個数は、前提部を含む系列データの個数以下になる。このため、信頼度(s|t)は、[0,1]の範囲の値として算出されることになる。換言すると、かかる信頼度の値は、パターンsと同一の前提が生じた場合に、パターンsと同一の結論(結果)が生じる確率の値である。
例えば、アイテムA:a、B:b、C:cからなる系列データについて考える。このとき、パターンsが{A:a}→{B:b}→{C:c}と与えられ、学習データ中、パターンsを含む系列データの個数が2であるとする。この場合、パターンsの前提部であるパターンtとして{A:a}→{B:b}が抽出され、学習データ中のパターンtを含む系列データの個数は、パターンsの個数以上となり、例えば4であったとする。このとき、信頼度は、tが与えられた場合におけるsの信頼度(s|t)として、(2/4=)0.5が算出される。
したがって、評価値算出部60は、特定された一つのパターン(s)に対して、パターン(s)全体を含む学習データ中の系列データの個数と、パターン(s)全体から最後のアイテム集合を除いた部分パターン(t)を含む系列データの個数を算出し(ステップS22、S23)、各パターンに対する信頼度を算出する(ステップS25)。
パターン(s)や部分パターン(t)を含む個数の算出は、系列データ(学習データ格納部10内の学習データ)を参照して計算することも可能であるが、(上述したステップS1の)パターンの抽出時に算出してRAM等に格納しておき、当該格納された値に基づいて算出することもできる。図9は、図7に例示したパターンに対して、各パターンの信頼度を算出した結果を示す。
本装置では、続いて、特徴パターン選択部40がパターン抽出部30によって抽出されたパターン及び評価値算出部60によって算出された各パターン毎の評価値(信頼度)を参照することにより、信頼度が相対的に高い特徴パターン(以下、選択パターンとも称する。)を選択し抽出する処理を遂行する(ステップS3、ステップS27)。この例では、選択するパターンの結論部の範囲(種類)を限定するために、結論部に対して、アイテム(すなわち属性と属性値の両方)、属性、属性値、のいずれかを指定する(図20参照)。かかる指定に基づいて、特徴パターン選択部40は、当該指定された特定のアイテム、属性、属性値に合致するパターンであって、信頼度の値が予め指定された最小信頼度以上であるパターンを、選択パターンとして取り出す。
例えば、ステップS3に先立って、選択するパターンの設定を、結論部がアイテム{渋滞:発生}又はアイテム{渋滞:未発生}のいずれかであるとし、最小信頼度が0.5に設定された事例を考える(図20参照)。この場合、ステップS3(ステップS27)の処理で、特徴パターン選択部40は、図9のパターンから図10に示す4つのパターンを選択、抽出する。
図10は、ステップS27の処理結果を本装置の表示部に表示した場合の表示例を示しており、本実施形態では、選択、抽出したパターン毎にID(P1乃至P4)を割り当て、支持度及び信頼度の値も表示する。図示のように、この例では、選択パターンP1〜P4のいずれも、結論部がアイテム{渋滞:発生}又はアイテム{渋滞:未発生}であり、信頼度が0.5以上であることが分かる。すなわち、図9の例において、4段目と6段目のパターンは、結論部の条件は満たしているが最小信頼度に達していないために選択されず、最小信頼度に達している8段目のパターンは、結論部の条件を満たしていないために選択されない。
なお、結論部の指定例としては、属性{渋滞}を指定したとしても、図9のパターンから図10に示す4つのパターンを選択することができる。同様に、属性値{発生}あるいは属性値{未発生}のいずれかが結論部であるとしても、上記4つのパターンを選択することができる。総じて、結論部の指定は、データ分析の目的等に応じて適宜変更することができる。
本実施形態では、各属性値はただ一つの属性に含まれているが、アイテムによっては、異なる属性に対して同一の属性値が含まれる可能性がある。このような場合には、指定した一つの属性値によって複数のアイテムを表現することができ、パターン選択の際に指定する条件の数を少なくするといった効果を得ることができる。
ステップS4では、関連パターン生成部50が特徴パターン選択部40によって選択された各選択パターンと関連のある関連パターンを生成する。本実施形態においては、結論部(すなわち最後のアイテム集合)が同一であり、前提部(すなわち他のアイテム集合)を構成するアイテムの属性が同一であるが、属性値が異なるものを関連パターンとして生成する。
以下、図11のフローチャートを参照して、関連パターン生成部50が遂行する処理について具体的に説明する。関連パターン生成部50は、特徴パターン選択部40によって選択された各選択パターンの内から一つの(すなわち一つのIDの)選択パターンを取得し(ステップS41)、当該選択パターンと結論部が同一で、前提部のアイテム属性が同一であるが属性値が異なるパターンを、関連パターンとして生成する(ステップS42)。
例えば、図10に示されている選択パターンP1{天気:晴れ,気温:普通1}→{渋滞:発生}に対応する関連パターンを生成する場合を考えてみる。選択パターンP1では、その前提部{天気:晴れ,気温:普通1}は、二つのアイテムを含む一つのアイテム集合から構成されている。そして、かかる二つのアイテムに関し、その属性は「天気」と「気温」であり、「天気」の属性値は「晴れ」、「気温」の属性値は「普通1」であるが、この学習データの定義(図4参照)では、「天気」の属性値として「晴れ」の他にも「雨」、「曇り」が存在し、「気温」の属性値として「普通1」の他にも「高い」、「低い」が存在する。
このため、属性と属性値で構成された各アイテムの組み合わせとしては、
(1){天気:晴れ,気温:高い}
(2){天気:晴れ,気温:普通1}
(3){天気:晴れ,気温:低い}
(4){天気:雨,気温:高い}
(5){天気:雨,気温:普通1}
(6){天気:雨,気温:低い}
(7){天気:曇り,気温:高い}
(8){天気:曇り,気温:普通1}
(9){天気:曇り,気温:低い}
の9種類のアイテム集合を生成することができる。
このうち、上記(2)の{天気:晴れ,気温:普通1}は選択パターンP1の前提部に一致するアイテムの組み合わせであるため、当該組み合わせを除いた8つの組み合わせを前提部とし、それぞれの前提部に選択パターンP1の結論部{渋滞:発生}を割り当てた8つのパターンが、関連パターンとして生成される。すなわち、選択パターンP1から図12に示す関連パターンを生成することができる。
また、選択パターンP2{日種別:平日}→{人出:多い}→{渋滞:発生}の場合、前提部はアイテムを一つだけ含む二つのアイテム集合から構成されている。前提部における各アイテムの属性は「日種別」、「人出」であり、「日種別」の属性値は、学習データの定義(図4)からは、「平日」、「休日」、「人出」の属性値は「多い」、「普通2」、「少ない」の3つが存在する。このため、属性と属性値で構成された各アイテムの並びとしては、
(1){日種別:平日}→{人出:多い}
(2){日種別:平日}→{人出:普通2}
(3){日種別:平日}→{人出:少ない}
(4){日種別:休日}→{人出:多い}
(5){日種別:休日}→{人出:普通2}
(6){日種別:休日}→{人出:少ない}
の6種類のパターンを生成することができる。
このうち、(1)の{日種別:平日}→{人出:多い}はP2の前提部に一致するアイテムの並びであるため、当該並びを除いた5つの組み合わせを前提部とし、選択パターンP2の結論部{渋滞:発生}を割り当てた、5つのパターンが関連パターンとして生成される。すなわち、ステップS42で関連パターン生成部50は、選択パターンP2から図13に示す関連パターンを生成する。同様にして、関連パターン生成部50は、選択パターンP3から図14に示す二つのパターンによる関連パターンを、選択パターンP4から図15に示す5つのパターンによる関連パターンを、各々生成する。
本例における選択パターン(P1乃至P4)では、複数のアイテムで構成されたアイテム集合が複数並べられた系列が前提部になるようなパターン例(例えば選択パターンの前提部が{天気:晴れ, 気温:低い}→{日種別:休日, 人出:多い}のような例)は記載されていないものの、このような場合であっても、関連パターン生成部50は、アイテム集合ごと、系列の並びごとに含まれる各属性とその属性値の全てを組み合わせることによって生成されるアイテム集合の並びを前提部とし、かかる前提部に当該選択パターンの結論部と同一の結論部を付加したパターンを、関連パターンとして抽出することになる。
一方、ある選択パターンの関連パターンが選択パターンとして選択されている場合もありうるが、このような場合には、重複して関連パターンを生成することになるため、関連パターン生成部50は、ステップS42で、かかる関連パターンの重複した生成は行わないようにする。具体的には、関連パターン生成部50は、ステップS42で既出の関連パターンと同一の関連パターンが生成された場合に、当該関連パターンを削除する。
かくして、本装置では、関連パターン生成部50によって、選択パターン毎に対応する関連パターンを生成する処理を繰り返し(ステップS43、ステップS41)、全ての選択パターンに対応する関連パターンを生成すると(ステップS43でYes)、ステップS44で再び評価値算出部60によって処理が遂行される。
ステップS44で、評価値算出部60は、関連パターン生成部によって生成された関連パターンに対して、パターン毎に評価値を算出する(ステップS5)。本処理は、ステップS2のパターン信頼度算出処理(すなわち図8のステップS21乃至ステップS26)と基本的には同一であるが、対象とするパターンが異なっている。また、選択パターンの場合にはパターン抽出時に評価値算出に必要な値を別途算出しておくことが可能であるが、関連パターンの場合には必ずしもこのような値の算出を行うことができない。このため、評価値算出部60は、学習データ格納部10内の学習データを直接参照することにより(図1)、その評価値を算出することになる。
ステップS44で全ての関連パターンに対する評価値が算出されると(ステップS26でYes)、ステップS45で予測モデル生成部70による予測モデル生成の処理(ステップS6)が遂行される。図12から図15に記載された関連パターンの例では、各関連パターンの横に記載されている信頼度がパターンの評価値として算出されたものとする。
ステップS45で、予測モデル生成部70は、選択パターンと選択パターンから抽出された関連パターンの各データを集め、各パターンにつき、パターンの前提部と結論部ごとに記載し、算出され評価値を各パターン毎に記載することにより、選択パターン及び関連パターンのデータを纏めた予測モデルを生成する。
予測モデル生成部70は、例えば、図10に示す選択パターンと、図12乃至図14に示す関連パターンから、図16に示す予測モデルを生成することができる。この予測モデルは、ID、前提部、結論部、及び信頼度からなるデータリストであって、選択パターンに枝番「−1」のIDが、関連パターンに枝番「−2」以上のIDが割り当てられる。
以上に説明した各処理によって、系列データである学習データから、その学習結果としての予測モデルを生成することができる。本装置では、この予測モデルを利用して、新たに与えられた評価データを適用することにより、評価データがその後に到達する可能性が高い結果を、図3のフローチャートに従って予測する。
評価データ格納部20に格納される評価データについて、図17を参照しながら説明する。図17に例示する評価データは、新たに収集されたデータであって、評価データE1が現時点の天気、気温、日種別、及び人出の状況を示すデータ、評価データE2が翌日の日種別及び予想される天気と気温を示すデータである。
評価データの形式は、上述した学習データの形式と同じであり、一つの系列データ毎にユニークなIDが付与されて評価データ格納部20に格納される。他方、本事例での評価データは、学習データと比較して分かるように、学習データの結論部に対応するアイテム集合が無く、前提部に対応するアイテム集合のみのデータとなっている。すなわち、この事例では、道路渋滞の発生の有無の予測を行うために、現在の天候等の状況や今後予想される天候等の状況(学習データの前提部)を評価データとして使用するため、評価データは、結論部のアイテムすなわち渋滞(属性)及び発生/未発生(属性値)のデータが無い。
以下、図3のフローチャートを参照して、予測モデル生成後の本装置の動作を説明する。ステップS61で、結果予測部80は、評価データ格納部20に格納されている複数の評価データ(評価データ群)の内の一つのIDの評価データを取り出す。
ステップS62で、結果予測部80は、取り出された一つの評価データを予測モデルに適用することにより、当該評価データが到達する可能性の高い結果を予測する。具体的には、ステップS62で結果予測部80は、評価データのパターンと予測モデルの各パターンの前提部とを比較し、予測モデルのパターンの前提部の全体が評価データ(のパターン)に含まれる場合に、予測モデルの当該パターンの前提部を抽出し、次に、この抽出された前提部に対応する結論部と評価値を抽出する。
続くステップS63で、結果予測部80は、同一の結論部をもつ評価値を取りまとめて、取りまとめた評価値から結論部ごとの結論部評価値を算出する。最終的に、結果予測部80は、この結論部評価値を比較することにより、結論部を選択し、評価データに対する予測結果として出力する。結果予測部80は、かかる処理を評価データ毎に繰り返し行い(ステップS64、ステップS61)、全ての評価データに対する処理が完了すると(ステップS64でYes)、処理結果を出力して(ステップS65)、処理を終了する。
ここで、結果予測部80が算出する結論部評価値としては、種々のものが考えられるが、本実施形態では、下記の数式3に定義される評価値の積算値を結論部評価値として算出する。また、結果予測部80は、当該算出された結論部評価値が最も大きな値をもつ結論部を、予測結果とみなすことにする。
(数3)
結論部評価値(結論部j)=Σi=1,n_j 評価値ij
但し、数式3において、評価値ijは、前提部が評価データに含まれ、その結論部がj番目の結論部であるi番目のパターンの評価値であり、n_jは、j番目の結論部に対して選択されたパターンの数を示す。
一例として、図16の予測モデルに対して、図17の評価データE1がステップS61で取り出された場合を考えてみる。評価データE1は、{天気:晴れ,気温:普通1,日種別:平日}→{人出:普通2}と与えられている。従って、ステップS62で結果予測部80は、予測モデルのM1−1乃至1−9、M2−1乃至2−6、M3−1乃至3−3、M4−1乃至4−6の各パターンの前提部を参照し、天気:晴れ、気温:普通1、日種別:平日、人出:普通2、のいずれかのアイテム(すなわち属性:属性値の対)を有し、かつ、これら以外のアイテムを有していない前提部であるパターンを探索し、これに該当するパターンの前提部を抽出する。
この例では、予測モデル中のパターンM1−2、M2−2、M3−1、及びM4−2の前提部は、それぞれ、{天気:晴れ,気温:普通1}、{日種別:平日}→{人出:普通2}、{天気:晴れ}、及び{日種別:平日}→{人出:普通2}であり、評価データE1に含まれていることが分かる。従って、ステップS62で結果予測部80は、予測モデルのパターンM1−2、M2−2、M3−1、及びM4−2の前提部を抽出する。他方、例えばパターンM1−1は、評価データに含まれないアイテム「気温:高い」を有していることから、評価データのアイテム「天気:晴れ」を有しているにもかかわらず、前提部全体が評価データに含まれないために、ステップS62での抽出対象にならないことが分かる。
一方、パターンM1−2、M2−2の結論部は、{渋滞:発生}であり、パターンM3−1、M3−2の結論部は{渋滞:未発生}となっている。このため、ステップS63で結果予測部80は、同一の結論部をもつ評価値を取りまとめて結論部ごとの結論部評価値を算出するために、パターンM1−2とパターンM2−2の信頼度の値同士を積算し、かかる積算値0.9(=0.6+0.3)を結論部{渋滞:発生}の結論部評価値とする。同様に、結果予測部80は、パターンM3−1とパターンM4−2の信頼度の値同士を積算し、かかる積算値0.5(=0.1+0.4)を結論部{渋滞:未発生}の結論部評価値とする。さらに、結果予測部80は、算出された結論部評価値(0.9と0.5)を比較し、より大きな値0.9(>0.5)を与える結論部{渋滞:発生}を、評価データE1に対する予測結果として判定し、出力する。
同様に、評価データE2{天気:雨,気温:低い,日種別:平日}の場合、予測モデルのパターンM1−6、M3−2の前提部{天気:雨,気温:低い}、{天気:雨}を含んでいるため、結論部{渋滞:発生}の結論部評価値は0.2、結論部{渋滞:未発生}の結論部評価値は0.5と与えられる。従って、より大きな値0.5(>0.2)を与える{渋滞:未発生}が予測結果として判定されることになる。図18は、予測結果の判定前の状態であって、評価データE1,E2に対する結論部評価値の算出が終了し、各結論部毎の結論部評価値を表示部に出力した場合の表示画面の一例を示している。
ステップS64で、結果予測部80は、全ての評価データを処理したかを判定し、Yesすなわち全ての評価データが処理されている場合にはステップS65に進み、Noすなわち未処理の評価データがある場合にはステップS61に戻って上述したステップS61乃至S64の処理を繰り返す。
ステップS65で、結果予測部80は、各評価データに対して予測された予測結果を、その根拠とともに各評価データ毎に出力する。図19は、ステップS65での処理結果を表示部に出力した場合の表示画面の一例を示している。すなわち、この例では、評価データE1に対する予測結果は「渋滞発生」で、その根拠として予測モデル(図16)のパターンM1−2及びM2−2を採用したこと、一方、評価データE2に対する予測結果は「渋滞未発生」で、その根拠として予測モデルのパターンM3−2を採用したこと、が分かる。この例では、予測データとしての予測結果に加えて、その根拠として、評価データが前提部を含むパターンのIDが出力されている。
なお、ステップS62で予測モデルから抽出するパターンが無い場合には、結果予測部80は、その旨のエラー表示を行って処理を終了する。また、ステップS62で予測モデルから抽出するパターンが一つだけの場合には、当該パターンの結論部すなわち当該パターンの一部からなる部分パターンの内容を、評価データに対する予測結果として出力する。
以上のような処理によって、本実施形態の系列データ分析プログラム及び装置によれば、評価データが到達する可能性の高い結果を、その根拠とともに分析者に提示することができる。
すなわち、従来技術では、系列データから有用なパターンを発見することまでは出来たものの、発見されたパターンを解釈し、どのように利用するかは分析者の判断に委ねられていた。このため、新規に系列データが与えられた場合に、有用パターンを利用して、その系列データがどのような結果に到達する可能性が高いかを予測することはできなかった。
これに対して、本実施形態の系列データ分析プログラム及び装置によれば、系列データ(学習データ)から有用なパターン(すなわち特徴パターン)を発見するとともに、新規な系列データ(評価データ)を与え、評価データがどのような結果に到達する可能性が高いかを、発見された有用パターンを利用して予測し、その予測結果を、当該予測結果の根拠とともに出力し、分析者に提示することが可能となる。
以上に説明した、系列データ分析プログラム及び装置の構成は、上記実施例に限定されるものではない。
例えば、評価値算出部60は、パターンの評価値として信頼度を利用しているが、下記数式4によって定義されるリフト値によって、評価値を算出することにしてもよい(図20参照)。また、信頼度とリフト値の二つを評価値として利用し、特徴パターン選択部40において、これら二つの評価値の双方に対して与えた基準に基づいてパターンを選択するようにしてもよい。
(数4)
リフト(s|t)=((s−t)を含む系列データの個数×tを含む系列データの個数)/sを含む系列データの個数×系列データの個数
但し、数式4における(s−t)は、sからtを取り除いた結論部を示す部分パターンを示す。
また、上述の実施形態では、関連パターン生成部50において、結論部が同一で、前提部の属性が同一で、属性値が異なるものを関連パターンとして生成しているが、他にも例えば、アイテムを予めグルーピングしておき、前提部のアイテムを同一のグループに含まれる他のアイテムに置き換えたものを関連パターンとして抽出するようにしてもよい。
また、結果予測部80によって算出される結論部信頼度としては、例えば以下の数式5によって定義される値を用いてもよい。
(数5)
結論部評価値(結論部j)=1−Πi(1−評価値ij)
但し、数式5において、Πiは、i個の要素を積算する演算を表す。
また、例えば、結果予測部80における予測結果の選定において、選択された結論部評価値の値が、指定した最小値よりも小さくなるなどの所定の条件を満たさない場合には、選択した結論部を予測結果として返すのではなく、予測不能と判定することにしてもよい。
また、上記実施形態では結果予測部80の予測結果の出力(表示)内容として、採用された予測モデル中の特徴パターン及び/又は前記関連パターンの結論部(すなわち最後のアイテム集合)の内容及びその根拠として、当該パターンのIDを出力しているが(図19)、他にも例えば、算出された結論部評価値を併せて又は代替的に出力してもよい。
さらに、本装置で学習及び評価対象となる「系列データ」には、多様な形態が含まれ得る。他の例としては、例えばヒット商品や有力な商品等を予測する場合の、小売り分野における各種商品名や、ヘルスケア分野における検査項目とその値の組み合わせなどを示すアイテムの集合が系列的に並べられたものが挙げられる。
この他にも、本発明の趣旨を変えることなく、種々変形して、実施することができる。
以上のように、実施形態によれば、学習データから抽出された前提部と結論部を有するパターン(換言すると時系列パターン)に基づいて予測モデルを構築することにより、新たな系列データ(評価データ)が与えられた場合に、その系列データがどのような結果に到達する可能性が高いかを予測することができる。また、予測された結果に到達する可能性が高いことを示す根拠を分析者に提示することができ(図19参照)、予測結果に対する納得性を得ることができる。この他、本実施形態によれば、通常の系列パターンの発見問題ではその出現回数が少ないために発見されにくいパターンを関連パターンとして抽出し、関連パターンも考慮した予測を行うことができる。
なお、本発明の実施形態を説明したが、当該実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100 系列データ分析装置
10 学習データ格納部
20 評価データ格納部
30 パターン抽出部
40 特徴パターン選択部
50 関連パターン生成部
60 評価値算出部
70 予測モデル生成部
80 結果予測部

Claims (8)

  1. 複数の異なるアイテムからなる系列データから条件を満たすパターンを抽出し、該パターンに基づいて、新たに与えられた系列データが特定の結果に達する可能性を予測するための系列データ分析装置であって、
    複数の相互に異なるアイテム集合が並べられるとともに、少なくとも最後のアイテム集合が他のアイテム集合に対する因果関係の結果として時系列に並べられた第1の系列データの群を学習データとして格納する学習データ格納部と、
    前記アイテム集合の出現頻度に基づいて、前記第1の系列データから2以上のアイテム集合のパターンを抽出するパターン抽出部と、
    該抽出されたパターンから、該パターンの一部からなる部分パターンの出現頻度に基づいて、2以上のアイテム集合のパターンを特徴パターンとして選択するパターン選択部と、
    該選択された特徴パターンに対して、最後のアイテム集合が同一で他のアイテム集合が相違する関連パターンを生成する関連パターン生成部と
    前記特徴パターン及び関連パターンのデータを纏めた予測モデルを生成する予測モデル生成部と、
    前記学習データの部分集合である第2の系列データを前記予測モデルとマッチングし前記特徴パターンに対する該パターンの一部からなる部分パターンの出現頻度または前記関連パターンに対する該パターンの一部からなる部分パターンの出現頻度に基づいて、前記予測モデルに含まれる最後のアイテム集合に基づく第2の系列データの到達可能性の高い結果を抽出する結果予測部と、
    を備えることを特徴とする系列データ分析装置。
  2. 前記パターン抽出部によって抽出されたパターンに対する評価値を、該パターンの一部からなる部分パターンの出現頻度に基づいて算出する評価値算出部を備え
    前記パターン選択部は、前記評価値が所定値以上のパターンを前記特徴パターンとして選択するとともに、
    前記評価値算出部は、生成された関連パターンに対する評価値を、該パターンの一部からなる部分パターンの出現頻度に基づいて算出し、
    前記予測モデル生成部は、前記特徴パターン及び関連パターンと該パターン毎の評価値とを含む前記予測モデルを生成し、
    前記結果予測部は、前記学習データの部分集合である第2の系列データを前記予測モデルとマッチングし、前記特徴パターンの評価値または前記関連パターンの評価値に基づいて、前記予測モデルに含まれる最後のアイテム集合に基づく第2の系列データの到達可能性の高い結果を抽出することを特徴とする請求項1記載の系列データ分析装置。
  3. 前記結果予測部は、前記予測モデル中の前記特徴パターン及び関連パターンの最後のアイテム集合以外のアイテム集合を参照し、該アイテム集合が前記第2の系列データに含まれている前記特徴パターン及び/又は前記関連パターンを抽出し、該抽出されたパターンの最後のアイテム集合及び評価値に基づいて、第2の系列データの到達可能性の高い結果を抽出する、
    ことを特徴とする請求項2記載の系列データ分析装置。
  4. 前記結果予測部は、複数の前記抽出されたパターンのうち、最後のアイテム集合である結論部が相互に同一であるパターンの各評価値を積算し結論部評価値を算出し、結論部評価値に基づいて抽出されるパターンの最後のアイテム集合の内容を、第2の系列データの到達可能性の高い結果として出力する、
    ことを特徴とする請求項3記載の系列データ分析装置。
  5. 前記結果予測部は、第2の系列データの到達可能性の高い結果として、前記最後のアイテム集合の内容と、該内容を判断する根拠となった前記予測モデル中のパターンを示す情報と、を出力する、
    ことを特徴とする請求項4記載の系列データ分析装置。
  6. 通信網を介してクライアント端末とデータの送受信を行う送受信部をさらに備え、
    前記学習データ格納部は、前記送受信部を介して前記クライアント端末から送信された学習データを格納することを特徴とする請求項1乃至5のいずれか1つに記載の系列データ分析装置。
  7. 複数の異なるアイテムからなる系列データから条件を満たすパターンを抽出し、該パターンに基づいて、新たに与えられた系列データが特定の結果に達する可能性を予測するための系列データ分析プログラムであって、コンピュータに、
    学習データとして格納され複数の相互に異なるアイテム集合が並べられるとともに、少なくとも最後のアイテム集合が他のアイテム集合に対する因果関係の結果として時系列に並べられた第1の系列データの群を読み出して、前記第1の系列データから、前記アイテム集合の出現頻度に基づいた第1の条件を満たす2以上のアイテム集合のパターンを複数個抽出するパターン抽出段階と、
    該抽出されたパターンに対する評価値を、該抽出されたパターンの一部からなる部分パターンの出現頻度に基づいて算出するパターン評価値算出段階と、
    前記抽出されたパターンから、前記評価値が第2の条件を満たすパターンを特徴パターンとして選択する特徴パターン選択段階と、
    該選択された特徴パターンに対して、最後のアイテム集合が同一で他のアイテム集合が相違する関連パターンを生成する関連パターン生成段階と、
    生成された前記関連パターンに対する評価値を、該パターンの一部からなる部分パターンの出現頻度に基づいて算出する関連パターン評価値算出段階と、
    前記特徴パターン及び関連パターンのデータを纏めた予測モデルを生成する予測モデル生成段階と、
    前記学習データの部分集合である第2の系列データを前記予測モデルとマッチングし前記特徴パターン及び前記関連パターンの各評価値に基づいて、前記予測モデルに含まれる最後のアイテム集合に基づく第2の系列データの到達可能性の高い結果を抽出する結果予測段階と、を実行させ、
    前記特徴パターン選択段階では、算出された前記評価値が前記第2の条件として指定された閾値に達しているパターンを特徴パターンとして選択させ、
    前記結果予測段階では、予測した結果の根拠となった前記予測モデル中の前記特徴パターン及び/又は前記関連パターンのデータを、予測した結果とともに出力させるための系列データ分析プログラム。
  8. 複数の異なるアイテムからなる系列データから条件を満たすパターンを抽出し、該パターンに基づいて、新たに与えられた系列データが特定の結果に達する可能性を予測するための系列データ分析装置であって、
    複数の相互に異なるアイテム集合が時系列に並べられるとともに、因果関係の結果となる第1アイテム集合と、第1アイテム集合に対する原因となる1つ以上のアイテム集合とを少なくとも含む第1の系列データの群を学習データとして格納する学習データ格納部と、
    前記アイテム集合の出現頻度に基づいて、前記第1の系列データから2以上のアイテム集合のパターンを抽出するパターン抽出部と、
    該抽出されたパターンから、該パターンの一部からなる部分パターンの出現頻度に基づいて、2以上のアイテム集合のパターンを特徴パターンとして選択するパターン選択部と、
    該選択された特徴パターンに対して、第1アイテム集合が同一で他のアイテム集合が相違する関連パターンを生成する関連パターン生成部と、
    前記特徴パターン及び関連パターンのデータを纏めた予測モデルを生成する予測モデル生成部と、
    前記学習データの部分集合である第2の系列データを前記予測モデルとマッチングし、前記特徴パターンに対する該パターンの一部からなる部分パターンの出現頻度または前記関連パターンに対する該パターンの一部からなる部分パターンの出現頻度に基づいて、前記予測モデルに含まれる第1アイテム集合に基づく第2の系列データの到達可能性の高い結果を抽出する結果予測部と、
    を備えることを特徴とする系列データ分析装置。
JP2013182229A 2013-09-03 2013-09-03 系列データ分析装置及プログラム Active JP5833068B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013182229A JP5833068B2 (ja) 2013-09-03 2013-09-03 系列データ分析装置及プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013182229A JP5833068B2 (ja) 2013-09-03 2013-09-03 系列データ分析装置及プログラム

Publications (2)

Publication Number Publication Date
JP2015049790A JP2015049790A (ja) 2015-03-16
JP5833068B2 true JP5833068B2 (ja) 2015-12-16

Family

ID=52699727

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013182229A Active JP5833068B2 (ja) 2013-09-03 2013-09-03 系列データ分析装置及プログラム

Country Status (1)

Country Link
JP (1) JP5833068B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6223889B2 (ja) 2014-03-31 2017-11-01 株式会社東芝 パターン発見装置、およびプログラム
JP6181134B2 (ja) 2015-11-02 2017-08-16 株式会社東芝 要因解析装置、要因解析方法、及びプログラム
WO2017199445A1 (ja) * 2016-05-20 2017-11-23 株式会社Ubic データ分析システム、その制御方法、プログラム、及び、記録媒体

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3762840B2 (ja) * 1998-11-24 2006-04-05 富士通株式会社 類似事例に基づく予測を行う予測装置および方法
JP4698328B2 (ja) * 2005-08-12 2011-06-08 中国電力株式会社 データ分析方法、データ分析システム、およびプログラム
JP2008220511A (ja) * 2007-03-09 2008-09-25 Toshiba Corp 時系列パターン発見装置、方法およびプログラム

Also Published As

Publication number Publication date
JP2015049790A (ja) 2015-03-16

Similar Documents

Publication Publication Date Title
Wang et al. Origin-destination matrix prediction via graph convolution: a new perspective of passenger demand modeling
US20210073283A1 (en) Machine learning and prediction using graph communities
CN108804633B (zh) 基于行为语义知识网络的内容推荐方法
US11521221B2 (en) Predictive modeling with entity representations computed from neural network models simultaneously trained on multiple tasks
De Winter et al. Combining temporal aspects of dynamic networks with node2vec for a more efficient dynamic link prediction
CN110555469B (zh) 处理交互序列数据的方法及装置
TWI525460B (zh) 電子計算裝置、其個人化資訊推薦方法及其電腦程式產品
CN107644047B (zh) 标签预测生成方法及装置
JP5833068B2 (ja) 系列データ分析装置及プログラム
JP3813837B2 (ja) データ分析装置及びデータ分析方法並びにプログラム
WO2016116958A1 (ja) 系列データ分析装置及プログラム
CN114298783A (zh) 基于矩阵分解融合用户社交信息的商品推荐方法及系统
Bansal et al. Htfm: Hybrid traffic-flow forecasting model for intelligent vehicular ad hoc networks
Park et al. The Geo/G/1 queue with negative customers and disasters
JP7291100B2 (ja) 複数の投稿時系列データを用いた異常・変化推定方法、プログラム及び装置
Dudas Cooperative, dynamic Twitter parsing and visualization for dark network analysis
CN111159515B (zh) 数据处理方法、装置及电子设备
CN116934380A (zh) 一种异常事件下的电商物资供需联合预测方法
CN113535939A (zh) 文本处理方法和装置、电子设备以及计算机可读存储介质
US20160117400A1 (en) System, method and apparatus for automatic topic relevant content filtering from social media text streams using weak supervision
US11748435B2 (en) Content-free system and method to recommend news and articles
CN115618079A (zh) 会话推荐方法、装置、电子设备及存储介质
CN115456708A (zh) 推荐模型的训练方法、装置、电子设备和存储介质
JP6414321B2 (ja) 人数予測システム、人数予測方法および人数予測プログラム
JP5463775B2 (ja) スケジューリング装置およびスケジューリング方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150826

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150929

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151028

R150 Certificate of patent or registration of utility model

Ref document number: 5833068

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350