JP5957507B2 - データパターン分析最適化処理装置、及びデータパターン分析最適化処理方法 - Google Patents

データパターン分析最適化処理装置、及びデータパターン分析最適化処理方法 Download PDF

Info

Publication number
JP5957507B2
JP5957507B2 JP2014219732A JP2014219732A JP5957507B2 JP 5957507 B2 JP5957507 B2 JP 5957507B2 JP 2014219732 A JP2014219732 A JP 2014219732A JP 2014219732 A JP2014219732 A JP 2014219732A JP 5957507 B2 JP5957507 B2 JP 5957507B2
Authority
JP
Japan
Prior art keywords
time
time series
unit
item
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014219732A
Other languages
English (en)
Other versions
JP2015111410A (ja
Inventor
一嘉 西
一嘉 西
櫻井 茂明
茂明 櫻井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2014219732A priority Critical patent/JP5957507B2/ja
Publication of JP2015111410A publication Critical patent/JP2015111410A/ja
Application granted granted Critical
Publication of JP5957507B2 publication Critical patent/JP5957507B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24537Query rewriting; Transformation of operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明の実施形態は、データパターン分析最適化処理装置、及びデータパターン分析最適化処理方法に関する。
計算機において、大規模な時系列データから時系列パターンの抽出処理を行う場合、時系列パターンのパターン数が多くなるにつれて処理負荷が増大してメモリの消費が増え、処理時間が長くかかるなど分析処理の性能劣化が生じていた。それに対し、時系列パターン抽出の並列分散処理化による対応が考えられる。その際、時系列データを均等に分ける方法がある。
一方、ラベル付きグラフで表現される離散構造データから頻出パターンを抽出する前に、グラフのノードやエッジ数が均等になるようにデータを分割する技術がある(例えば、特許文献1参照。)。また、複数の属性とその属性値からなるレコードの集合から頻出パターンを発見する際に、属性によりレコードを分割する技術がある(例えば、特許文献2参照。)。
特開2012−88880号公報 特開2008−159015号公報
図10に示すように、時系列データを均等にグループに分けて各計算機で時系列パターン抽出処理を行おうとすると、パターン数が多くなるグループが生じ、そのパターン数に応じて抽出処理の負荷が高まってしまい、処理時間も長くなる。同じ属性でも属性値が異なれば異なる時系列パターンとなるが、特許文献1の技術の場合、離散構造データに含まれる具体的な設定値を用いた並列分散処理用の分割がなされていないため、パターン数が多くなるグループが生じる可能性がある。また、特許文献2の技術の場合、属性によってレコードを分割しているため、同様に、パターン数が多くなるグループの発生を効果的に抑えることはできない。
本発明が解決しようとする課題は、時系列パターンの抽出処理を分割して行う場合に、分割された一部のみの負荷が高くなりすぎないように時系列データを分割するデータパターン分析最適化処理装置、及びデータパターン分析最適化処理方法を提供することである。
本発明の1つの態様によるデータパターン分析最適化処理装置は、時系列データ記憶部と、予測部と、分割部と、時系列パターン抽出部とを具備する。時系列データ記憶部は、属性と当該属性の属性値とにより示される時刻順のアイテムからなる時系列データを複数記憶する。予測部は、各アイテムが出現する時系列データの割合に基づいて、時系列パターンを構成するアイテムの数である系列数が所定数である場合に、最小支持度を超える頻度で時系列データに出現する時系列パターンのパターン数の上限の予測値を算出する予測処理を行う。分割部は、予測部が算出した上限の予測値が、パターン分析を行う計算機が処理するパターン数の上限値を超える場合に系列数を増加させ、増加させた系列数のアイテムからなる系列アイテムに基づいて複数の時系列データをグループに分割し、増加させた系列数を用いて予測処理を実行するよう予測部に指示する。時系列パターン抽出部は、予測部が算出した上限の予測値がパターン分析を行う計算機が処理するパターン数の上限値以下である場合に、グループごとに時系列パターンを抽出するよう指示する。
本発明の実施形態に係るデータパターン分析最適化処理装置の構成を示すブロック図である。 時系列データ記憶部に記憶される時系列データの例を示す図である。 時系列パターン抽出処理において時系列データから抽出される時系列パターンの例を示す図である。 データパターン分析最適化処理装置におけるデータパターン分析最適化処理の動作を示すフロー図である。 比較判定部による比較判断処理を説明するための図である。 比較判定部による比較判断処理の結果、時系列データが処理される過程の例を説明するための図である。 分割部による時系列データの分割処理を説明するための図である。 グループ統合部によるグループ統合の例を示す図である。 データパターン分析最適化処理装置におけるパターン数の上限値、及び下限値の予測処理の動作を示すフロー図である。 時系列データを均等に複数のグループに分けて時系列パターンを抽出した場合のパターン数の偏りの例を示す図である。
以下、本発明の実施形態について、図面を参照しながら説明する。
本発明の実施形態に係るデータパターン分析最適化処理装置は、時系列パターン抽出の処理対象となる時系列データが複数ある場合、それら時系列データを複数のグループに分割する。時系列データは、時刻データと、その時刻データが示す時刻に発生したアイテムとからなるデータの集合である(後述する図2参照。)。アイテムは、時系列データを構成する最小の要素のデータであり、属性と属性値のデータによって構成される。例えば、属性は、状態、気温、湿度などであり、これらの属性値はそれぞれ、異常1、20℃、80%などである。以下では、アイテムを「属性_属性値」のように記述する。また、時系列データのグループとは、計算機が時系列パターン抽出処理を並列分散処理するなどして分割して行う場合に、まとめて時系列パターン抽出処理を行うデータ群である。計算機は、時系列パターンの抽出処理において、時系列データの中に、最小支持度により示されるある一定の頻度以上で時刻順に発生するアイテム群の並びを、時系列パターンとして抽出する(後述する図3参照。)。
本発明の実施形態に係るデータパターン分析最適化処理装置は、複数の時系列データをグループに分割する際、時系列データを途中である時間で切って分けるものではなく、本数単位に分けて分割する。なお、1本の時系列データとする単位は任意とすることができる。例えば、1本の時系列データは、1台の機器(製造装置、医療機器、コンピュータ装置など)やセンサが1日、1か月などの所定期間や1人の操作者が操作している間に収集したアイテムからなるデータであってもよい。また例えば、1つの時系列データは、1台以上の機器やセンサが1つの対象(人、車など)について、所定期間や対象がある場所から他のある場所に移動するまでに収集したアイテムからなるデータであってもよい。
本発明の実施形態に係るデータパターン分析最適化処理装置は、複数の時系列データの時系列パターン抽出処理を計算機に分割して実行させる際、時系列データを単純に数で分割するのではなく、まず、時系列データに対して発生する時系列パターンのパターン数を予測する。パターン数とは、時系列パターン抽出処理において時系列データから抽出する対象となる時系列パターンの種類の数である。データパターン分析最適化処理装置は、予測されるパターン数に基づいて、計算機がパターン抽出処理において対応可能な範囲を単位とした時系列データ群に分割したり、グループ統合したり、最小支持度を調整したりする。
時系列データに発生する時系列パターンのパターン数(以下、「発生パターン数」と記載する。)の予測において、データパターン分析最適化処理装置は、時系列パターン抽出処理において対応できる単位の特定のアイテムが含まれる時系列データの出現頻度を算出し、算出した出現頻度を用いて、発生パターン数の上限及び下限の予測値を算出する。データパターン分析最適化処理装置は、算出した予測値に基づいて、特定のアイテムが含まれる時系列データを、グループに分割あるいは統合したり、最小支持度を調整したりする。データパターン分析最適化処理装置は、このようにして適切なグループに分けた時系列データ群を入力データの単位として、時系列パターンの抽出処理を計算機に実行させる。
図1は、本発明の実施形態に係るデータパターン分析最適化処理装置100の構成を示すブロック図であり、本実施形態と関係する機能ブロックのみ抽出して示してある。データパターン分析最適化処理装置100は、例えば、時系列パターン抽出処理を実行する計算機と接続されるコンピュータ装置により実現してもよく、時系列パターン抽出処理を実行する計算機に備えられてもよい。同図に示すように、データパターン分析最適化処理装置100は、時系列データ記憶部11、設定情報記憶部12、抽出パターン記憶部13、制御管理部21、計算機管理部22、アイテム解析部23、予測部24、比較判定部25、分割部26、最小支持度調整部27、グループ統合部28、及び時系列パターン抽出部29を備えて構成される。
時系列データ記憶部11は、分析対象となる収集した時系列データを記憶する。時系列データは、CSV式やKey Value形式等の特定の形式に依存することなく任意の形式とすることができ、各計算機に入力される分析対象の時系列データが一時的に時系列データ記憶部11に記憶される。設定情報記憶部12は、各種の設定情報を記憶する。抽出パターン記憶部13は、時系列パターン抽出処理により計算機が抽出した時系列パターンを記憶する。例えば、時系列パターンは、CSV形式により格納される。
制御管理部21は、各機能部の実行指示及びデータの受け渡しを担う管理機能を有する。計算機管理部22は、時系列パターン抽出処理を実行する計算機を管理する機能を有する。計算機管理部22は、管理対象の計算機において時系列パターン抽出処理を実行する際に、計算機のメモリ使用率が80%以上など高負荷の基準以上となるときのパターン数や、メモリ使用率が20%以下など低負荷の基準以下となるときのパターン数を事前に評価する処理も実行する。以下では、計算機のメモリ使用率が、高負荷の基準以上となるときのパターン数を「計算機が処理するパターン数の上限値」と記載し、低負荷の基準以下となるときのパターン数を「計算機が処理するパターン数の下限値」と記載する。
アイテム解析部23は、全時系列データの中に存在するアイテムを検索し、そのアイテムが出現する時系列データの割合であるアイテムの頻度を算出する。予測部24は、アイテム解析部23が算出した各アイテムの頻度に基づいて、時系列データに発生する時系列パターン(最小支持度を超える有効な時系列パターン)のパターン数の期待値を算出する。予測部24は、算出した期待値に基づいて、発生パターン数の上限及び下限の予測値を算出する。比較判定部25は、発生パターン数の上限の予測値(以下、「予測上限値」と記載する。)及び下限の予測値(以下、「予測下限値」と記載する。)と、計算機が処理するパターン数の上限値、及び下限値とを比較判定する。この比較判定の結果に応じて、時系列データ群の分割、グループ統合、あるいは、最小支持度の調整が実行される。
分割部26は、1台の計算機におけるメモリ使用率を指定値(本実施形態では80%)以下とするために、時系列データ記憶部11に記憶されている時系列データを、各計算機に入力する時系列データ群に分割する。分割に際して、分割部26は、系列アイテムを含む時系列データ単位で分割する。系列アイテムとは、所定数、所定順のアイテムの組をいう。最小支持度調整部27は、時系列パターン抽出時の切り捨て処理の閾値となる最小支持度を調整する。最小支持度調整部27は、最小支持度を調整する際、初期設定されている最小支持度の初期値と設定ステップ(1回の減少幅)とに基づいて最小支持度を低くしていく。グループ統合部28は、1台の計算機におけるメモリ使用率を指定値(本実施形態では20%)以上とするために、計算機に入力する時系列データをグループ統合する。
時系列パターン抽出部29は、分割部26により分割された時系列データ群(グループ)の単位で時系列パターン抽出処理を計算機に実行させる。時系列パターン抽出部29は、時系列パターン抽出処理を、並列分散処理により複数の計算機に実行させてもよく、シーケンシャルに1台以上の計算機に実行させてもよい。
図2は、時系列データ記憶部11に記憶される時系列データの例を示す図である。同図に示す時系列データ30は、製造装置の運転ログデータである場合の例である。同図に示す時系列データ30に含まれるアイテムの属性は「状態」である。そして、属性値は、時刻「12:00」の場合は「起動」であり、時刻「12:02」の場合は「起動中」であり、時刻「12:04」の場合は「警告1」である。
図3は、時系列パターン抽出処理において時系列データから抽出される時系列パターンの例を示す図である。同図に示す時系列パターン35は、図2に示す製造装置の運転ログデータである時系列データ30から抽出される時系列パターンの例を示す。時系列パターン35は、アイテム「状態_警告1」、「状態_警告2」、「状態_異常1」が時刻順に発生したパターンである。
次に、データパターン分析最適化処理装置100の動作について説明する。
図4は、データパターン分析最適化処理装置100におけるデータパターン分析最適化処理の動作を示すフロー図である。予め、時系列データ記憶部11には、分析対象の時系列データを記憶させておく。また、設定情報記憶部12には、系列数の初期値、最小支持度の初期値、最小支持度の設定ステップ、最小支持度調整を許可するか否かの初期設定を記憶させておく。
まず、計算機管理部22は、パターン抽出処理が実行される計算機について、計算機が処理するパターン数の上限、及び下限を事前評価する(ステップS105)。計算機が処理するパターン数の上限とは、計算機における時系列パターン抽出処理の処理負荷が事前に指定した高負荷の基準となる値(本実施形態ではメモリ使用率80%とする)に相当する際のパターン数をいう。また、計算機が処理するパターン数の下限とは、計算機における時系列パターン抽出処理の処理負荷が事前に指定した低負荷の基準となる値(本実施形態ではメモリ使用率20%とする)に相当する際のパターン数をいう。例えば、計算機管理部22は、既知の異なるパターン数の評価用時系列データによりパターン抽出処理を計算機に実行させ、計算機からメモリ使用率の計測結果を受信する。計算機管理部22は、受信した計測結果の統計に基づいて、計算機が処理するパターン数の上限値、及び下限値を評価する。計算機管理部22は、評価結果を設定情報記憶部12に記憶させる。
次に、データパターン分析最適化処理装置100は、時系列データに発生する時系列データの発生パターン数の上限値、及び下限値の予測処理を実行する(ステップS110)。この予測処理の詳細については、後述の図9において説明する。
続いて、比較判定部25は、ステップS110において算出された発生パターン数の予測上限値、及び予測下限値と、ステップS105において事前評価した計算機が処理するパターン数の上限値、及び下限値とを比較する(ステップS115)。
図5は、比較判定部25による比較判断処理を説明するための図である。比較判断結果は、以下のタイプ1〜タイプ3の3つの場合に分けられる。
タイプ1は、発生パターン数の予測上限値及び予測下限値が、計算機が処理するパターン数の上限値及び下限値の範囲内である場合である。タイプ2は、発生パターン数の予測上限値が、計算機が処理するパターン数の上限値を超える場合である。タイプ3は、発生パターン数の予測上限値が、計算機が処理するパターン数の下限値を下回る場合である。同図に示す期待値とは、系列アイテムが時系列データに出現する頻度が最小支持度を上回れば1、下回れば0として算出された、時系列パターン抽出処理において取り扱うパターン数の期待値である。この期待値にはブレがあるため、ステップS110において、そのブレの範囲となる発生パターン数の予測上限値と予測下限値が期待値に基づいて算出される。
図6は、比較判定部25による比較判断処理の結果、時系列データが処理される過程の例を説明するための図である。比較判定部25がタイプ1と判断した場合、データパターン分析最適化処理装置100は、現在のグループにより時系列パターン抽出処理を実行させる。比較判定部25がタイプ2と判断した場合、計算機が処理するパターン数の上限を超えるため、データパターン分析最適化処理装置100は、時系列データの分割処理を実行する。そこで、データパターン分析最適化処理装置100は、系列アイテムの系列長を増加させ、増加させた系列長の各系列アイテムを含む時系列データにグループ化する。系列長を1個増加させることにより、制約条件が厳しくなるため、グループ数が増加する。分割処理の後、データパターン分析最適化処理装置100は、再びタイプ3と判断した場合、時系列データの分割処理を実行し、タイプ1と判断した場合、時系列パターンの抽出処理を実行させる。また、比較判定部25がタイプ3と判断した場合、データパターン分析最適化処理装置100は、最小支持度を下げるか、時系列データのグループ統合を行う。
図4のステップS115において比較判定部25がタイプ2と判定した場合、分割部26は、設定情報記憶部12に記憶されている現在の系列長を1個増加させ、増加させた系列数のアイテムの制約による時系列データの分割処理を行う(ステップS120)。
図7は、分割部26による時系列データの分割処理を説明するための図である。同図において、分割部26は、時系列データ41、42、43、44を、系列アイテム「A_a1」、「B_b2」を含む時系列データ41、44からなるグループと、系列アイテム「C_c3」、「G_g7」を含む時系列データ42、43からなるグループとに分割している。
分割部26は、制約条件の系列アイテムを、ユーザが入力した系列アイテムとしてもよく、時系列データにおける出現頻度により選択してもよい。出現頻度により選択する場合、例えば、分割部26は、出現頻度が低いアイテムと出現頻度が高いアイテムとの組み合わせを制約条件の系列アイテムとする。具体的な例として、系列数「2」である場合、分割部26は、出現頻度が1番高いアイテムと1番低いアイテムとの組み合わせ、出現頻度が2番目に高いアイテムと2番目に低いアイテムとの組み合わせ、…のように系列アイテムを生成する。あるいは、アイテムの出現頻度により選択する場合、分割部26は、出現頻度を乗算した結果が所定の差分内(均等に近く)になるように選択した増加させた系列数のアイテムの組み合わせを、制約条件の系列アイテムとして用いてもよい。出現頻度には、後述する図9のステップS205において算出した各アイテムの頻度を用いることができる。また、分割部26は、現在の系列長nを1増加させて系列長(n+1)とした場合、上記のように、過去に制約条件として用いた系列アイテムを利用せずに、制約条件となる系列長(n+1)の系列アイテムを生成してもよく、過去に制約条件として用いた系列長nの系列アイテムに対してさらにアイテムを加えて制約条件となる系列長(n+1)の系列アイテムを生成してもよい。
分割処理後、分割部26は、増加させた系列長を用いて、時系列データの発生パターン数の上限値、及び下限値の予測処理を実行するよう予測部24に指示する。この指示により、データパターン分析最適化処理装置100は、図4のステップS110の処理に遷移する。
ステップS115において、比較判定部25がタイプ3と判定した場合、さらに、設定情報記憶部12に記憶されている初期設定が最小支持度の調整を許可する設定となっているか否かを判定する(ステップS125)。比較判定部25が、最小支持度調整を許可する設定になっていると判断した場合、最小支持度調整部27は、ステップS130の処理を行う。すなわち、最小支持度調整部27は、発生パターン数の予測上限値が、計算機が処理するパターン数の下限値を下回る度合を算出する。最小支持度調整部27は、算出した度合と、現在より前の値の最小支持度のときに算出した度合とを比較して、予め設定した割合より上回るか否かを判断する(ステップS130)。最小支持度調整部27は、上回ると判断した場合、あるいは、まだ最小支持度を調整していない場合、設定情報記憶部12に記憶されている現在の最小支持度を、設定情報記憶部12に予め設定されている設定ステップに基づいて1ステップ分だけ低くする(ステップS135)。例えば、最小支持度調整部27は、現在の最小支持度「0.3」から、設定ステップ「0.1」だけ1ステップ分低くして、「0.2」に更新する。
最小支持度調整部27は、低下させた最小支持度を用いて、時系列データの発生パターン数の上限値、及び下限値の予測処理を実行するよう予測部24に指示する。この指示により、データパターン分析最適化処理装置100は、図4のステップS110の処理に遷移する。
ステップS125において、比較判定部25が、初期設定は最小支持度調整を不許可とする設定になっていると判断した場合、あるいは、ステップS130において、最小支持度調整部27が、上回らないと判断した場合、グループ統合部28は、時系列データをグループ統合する(ステップS140)。統合の際、グループ統合部28は、系列アイテムの頻度が低い系列アイテムを選択し、それらの系列アイテムを含む時系列データのグループを統合する。なお、系列アイテムの頻度の算出については、後述する図9のステップS210の処理において説明する。
図8は、グループ統合部28によるグループ統合の例を示す図である。グループ統合部28は、まだ組み合わせ選択されていない中で系列アイテムの頻度が最も低い系列アイテムと、その次に低い系列アイテムとを組み合わせる。同図において、グループ統合部28は、系列アイテム「A_a10」、「B_b20」を含む時系列データ46、47からなるグループと、系列アイテム「C_c30」、「G_g70」を含む時系列データ48、49からなるグループとを統合し、1つのグループとしている。なお、グループ統合部28は、基本設定として2つのグループを統合しているが、3つ以上のグループの統合等にも対応可能である。
グループ統合処理後、グループ統合部28は、全ての時系列データを用いる代わりに、統合により生成したグループに含まれる時系列データを用いて、時系列データの発生パターン数の上限値、及び下限値の予測処理を実行するよう予測部24に指示する。この指示により、データパターン分析最適化処理装置100は、統合により生成されたグループについて、図4のステップS110からの処理を実行する。
ステップS115において、比較判定部25がタイプ1と判定した場合、時系列パターン抽出部29は、計算機に時系列パターン抽出処理を実行させる(ステップS145)。時系列パターン抽出部29は、ステップS145の処理開始時点で設定、用意されている各グループの時系列データと現在の最小支持度をそれぞれ時系列データ記憶部11、設定情報記憶部12から読み出す。時系列パターン抽出部29は、各計算機に、その計算機が処理するグループ数分の時系列データ群と、最小支持度とを出力し、時系列パターン抽出を指示する。例えば、並列分散処理を行う場合、時系列パターン抽出部29は、各計算機に、それぞれ異なるグループの時系列データ群と、最小支持度とを出力する。時系列パターン抽出部29は、計算機が時系列データから抽出した最小支持度以上の出現率の時系列パターンを受信し、抽出パターン記憶部13に記憶させる。なお、ユーザによる指定アイテムがある場合、時系列パターン抽出部29は、その指定アイテムも計算機に出力する。時系列パターン抽出部29は、計算機が時系列データから抽出した指定アイテムを含む最小支持度以上の出現率の時系列パターンを受信する。
なお、ステップS130において、最小支持度調整部27は、算出した度合と、現在より前の値の最小支持度のときに算出した度合とを比較して、変化が所定の基準以内であるか否かを判断するようにしてもよい。データパターン分析最適化処理装置100は、変化が所定の基準以内であると判断した場合、ステップS140の処理を実行し、変化が所定の基準を超えると判断した場合、ステップS135の処理を実行する。
また、ステップS125において、比較判定部25が、初期設定は最小支持度調整を許可する設定になっていると判断した場合、最小支持度調整部27は、ステップS130の判定を行わずに、ステップS135の処理を行い、最小支持度を下げてもよい。このように、発生パターン数の予測上限値が、計算機が処理するパターン数の下限値を下回る度合による判断を行わずに最小支持度を調整する処理を行なうことによって、最小支持度を1ステップずつ低くしても差し支えない。つまり、本発明においては、必ずしも下限値を下回る度合を用いることは必須ではない。
また、発生パターン数の予測上限値が、計算機が処理するパターン数の上限値よりも低く、かつ、発生パターン数の予測下限値が、計算機が処理するパターン数の下限値よりも低い場合、データパターン分析最適化処理装置100は、タイプ1と同様の処理を行ってもよく、タイプ3と同様の処理をおこなってもよい。
また、ステップS125において、比較判定部25が、初期設定は最小支持度調整を不許可とする設定になっていると判断した場合、あるいは、ステップS130において、最小支持度調整部27が、予め設定した割合を上回らないと判断した場合、データパターン分析最適化処理装置100は、ステップS145の処理を実行してもよい。
また、ステップS140のグループ統合処理において、統合によりグループを複数生成してもよい。この場合、グループ統合処理後、グループ統合部28は、統合により生成したグループ毎に、時系列データの発生パターン数の上限値、及び下限値の予測処理を実行するよう予測部24に指示する。データパターン分析最適化処理装置100は、統合により生成された各グループについて、図4のステップS110からの処理を実行する。
図9は、データパターン分析最適化処理装置100における発生パターン数の上限値、及び下限値の予測処理の動作を示すフロー図である。同図は、図4のステップS110における詳細な処理を示す。
アイテム解析部23は、各アイテムの頻度を算出する(ステップS205)。具体的には、アイテム解析部23は、時系列データ記憶部11に記憶されている全時系列データの中で、ユーザが入力した指定アイテムが出現する時系列データの割合をアイテムの頻度として算出する。あるいは、アイテム解析部23は、時系列データ記憶部11に記憶されている全時系列データから全てのアイテムを抽出し、抽出した全てのアイテムそれぞれについてアイテムの頻度を算出してもよい。あるいはまた、アイテム解析部23は、時系列データに所定の頻度以上出現するアイテムを選択し、選択したアイテムについてアイテムの頻度を算出してもよい。
アイテム解析部23は、例えば、時系列データ記憶部11に記憶されている10本の時系列データのうち、アイテム「X_x1」が含まれている時系列データが2本有る場合に、アイテム「X_x1」の頻度=2/10=0.2のように算出する。ここでは、アイテム解析部23は、アイテム「A_a1」の頻度=0.1、アイテム「B_b2」の頻度=0.2、アイテム「C_c3」の頻度=0.3、アイテム「G_g7」の頻度=0.2、…を算出する。
次に、予測部24は、設定情報記憶部12に記憶されている現在の系列長を用いて、時系列データにおいて各系列アイテムが発生する確率を、系列アイテムの頻度として算出する(ステップS210)。例えば、系列長「2」の場合、予測部24は、ステップS205においてアイテムの頻度を算出した全てのアイテムを用いて2つのアイテムからなる全ての組み合わせを生成し、生成した組み合わせからなる系列アイテムを生成する。予測部24は、系列アイテムを構成する各アイテムについてステップS205において算出されたアイテムの頻度を乗算し、系列アイテムの頻度を算出する。例えば、予測部24は、系列アイテム「A_a1」、「B_b2」の頻度、系列アイテム「A_a1」、「C_c3」の頻度、及び、系列アイテム「A_a1」、アイテム「G_g7」の頻度を以下の式(1)〜(3)のように算出する。
系列アイテム「A_a1」、「B_b2」の頻度
=アイテム「A_a1」の頻度(0.1)×アイテム「B_b2」の頻度(0.2)
=0.02 …(1)
系列アイテム「A_a1」、「C_c3」の頻度
=アイテム「A_a1」の頻度(0.1)×アイテム「C_c3」の頻度(0.3)
=0.03 …(2)
系列アイテム「A_a1」、アイテム「G_g7」の頻度
=アイテム「A_a1」の頻度(0.1)×アイテム「G_g7」の頻度(0.2)
=0.02 …(3)
次に、予測部24は、算出した各系列アイテムの頻度(系列アイテムを構成する各アイテムの頻度を掛け合わせた値)を最小支持度と比較して、最小支持度を超える有効な時系列パターンを時系列データから得る期待値(発生パターン数の期待値)を算出する(ステップS215)。
予測部24による具体的な期待値算出方法について説明する。まず、pを系列アイテムの頻度とし、g()を、系列アイテムに対して、以下の式(4)のように「1」または「0」の値を返す関数とする。
Figure 0005957507
このとき、予測部24は、以下の式(5)により期待値を算出する。
期待値=Σg(p) …(5)
Σの加算範囲は、ステップS215において生成した全ての系列アイテム、すなわち、現在の系列長の系列アイテムが取り得るすべての組み合わせである。例えば、系列長「2」の場合の期待値は、最小支持度を0.03とすると、以下の式(6)のようになる。
期待値=
g(アイテム「A_a1」の頻度(0.1)×アイテム「B_b2」の頻度(0.2))

g(アイテム「A_a1」の頻度(0.1)×アイテム「C_c3」の頻度(0.3))

g(アイテム「A_a1」の頻度(0.1)×アイテム「G_g7」の頻度(0.2))
+…
=0+1+0+… …(6)
予測部24は、算出した期待値を出力する(ステップS220)。
次に、予測部24は、ステップS215において算出した期待値をもとに、時系列データにおいて発生する時系列パターンの発生パターン数の予測上限値、予測下限値を算出する(ステップS225)。予測部24は、以下の式(7)のように発生パターン数の予測上限値を算出する。
(方法1−1) 予測上限値=期待値×系列長 …(7)
例えば、方法1−1では、予測部24は、系列長「2」の場合、発生パターン数の予測上限値=期待値×2を算出する。あるいは、予測部24は、以下の式(8)のように発生パターン数の予測上限値を算出する。
(方法1−2) 予測上限値=期待値+f(系列長) …(8)
上記のように、発生パターン数の予測上限値の算出方法には方法1−1と方法1−2がある。時系列パターン抽出では、系列長が抽出結果のブレに影響を与えることから、方法1−1では、期待値に系列長を乗算したものを発生パターン数の予測上限値とする。また、方法1−2では、系列長を変数として持つ関数f(系列長)を期待値に加算したものが予測上限値となる。この関数fは、時系列データに有効なアイテム系列が多く発生する場合、期待値と比較してどれくらい発生パターン数が増加するかを、系列長を変数として算出する計算式である。
また、予測部24は、以下の式(9)のように発生パターン数の予測下限値を算出する。
(方法2−1) 予測下限値=期待値×1/系列長 …(9)
例えば、方法2−1では、予測部24は、系列長「2」の場合、発生パターン数の下限値=期待値×1/2を算出する。あるいは、予測部24は、以下の式(10)のように発生パターン数の予測下限値を算出する。
(方法2−2) 予測下限値=期待値−f(系列長) …(10)
上記のように、発生パターン数の予測下限値の算出方法には方法2−1と方法2−2がある。時系列パターン抽出では、系列長が抽出結果のブレに影響を与えることから、方法2−1では、期待値に(1/系列長)を乗算したものを発生パターン数の予測下限値とする。また、方法2−2では、系列長を変数として持つ関数f(系列長)を期待値から減算したものが発生パターン数の予測下限値となる。この関数fは、時系列データにおいてアイテム系列の発生頻度が少ない場合に、期待値と比較してどれくらい発生パターン数が減少するかを、系列長を変数として算出する計算式である。
なお、予測部24は、方法1−1及び方法2−1とするか、方法1−2及び方法2−2とするかを、設定情報記憶部12に予め記憶されている設定情報により選択する。デフォルトは、方法1−2及び方法2−2とする。
予測部24は、算出した発生パターン数の予測上限値及び予測下限値を出力する(ステップS230)。
なお、図4のステップS120、またはステップS135の処理の後、2回目以降のステップS110の処理を行う場合、図9のステップS205の処理を省略し、ステップS210から処理を行う。そして、ステップS210において系列アイテムの頻度を算出する際、予測部24は、最初に図9の処理を実行したときにステップS205において算出された各アイテムの頻度を使用する。また、図4のステップS140の処理の後、2回目以降のステップS110の処理を行う場合、図9のステップS205において、アイテム解析部23は、グループ統合部28が生成したグループに含まれる全時系列データの中で、ユーザが入力した指定アイテムが出現する時系列データの割合をアイテムの頻度として算出する。
以上で述べた少なくともひとつの実施形態のデータパターン分析最適化処理装置100によれば、アイテム解析部23、予測部24、比較判定部25、及び分割部26を有することにより、時系列パターンの種類が増大することによる処理性能劣化を防ぎながら、複数の計算機に並列に時系列パターン抽出処理を計算機に実行させるため、従来よりも速く処理結果を得ることができる。
また、以上で述べた少なくともひとつの実施形態のデータパターン分析最適化処理装置100によれば、さらに、最小支持度調整部27を有することにより、時系列パターンの種類が増大しすぎない範囲で、時系列パターン分析の制限設定値である最小支持度を下げることができるため、精度の高いパターンを得ることが可能となる。
なお、上述の各実施形態における図1のデータパターン分析最適化処理装置100の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによりデータパターン分析最適化処理装置100として動作させるようにしてもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
以上、本発明の実施形態を説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することを意図していない。この実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
11 時系列データ記憶部
12 設定情報記憶部
13 抽出パターン記憶部
21 制御管理部
22 計算機管理部
23 アイテム解析部
24 予測部
25 比較判定部
26 分割部
27 最小支持度調整部
28 グループ統合部
29 時系列パターン抽出部
100 データパターン分析最適化処理装置

Claims (7)

  1. 属性と当該属性の属性値とにより示される時刻順のアイテムからなる時系列データを複数記憶する時系列データ記憶部と、
    各アイテムが出現する前記時系列データの割合に基づいて、時系列パターンを構成するアイテムの数である系列数が所定数である場合に、最小支持度を超える頻度で前記時系列データに出現する時系列パターンのパターン数の上限の予測値を算出する予測処理を行う予測部と、
    前記予測部が算出した前記上限の予測値が、パターン分析を行う計算機が処理するパターン数の上限値を超える場合に前記系列数を増加させ、増加させた前記系列数のアイテムからなる系列アイテムに基づいて複数の前記時系列データをグループに分割し、増加させた前記系列数を用いて前記予測処理を実行するよう前記予測部に指示する分割部と、
    前記予測部が算出した前記上限の予測値がパターン分析を行う計算機が処理するパターン数の上限値以下である場合に、前記グループごとに時系列パターンを抽出するよう指示する時系列パターン抽出部と、
    を備えることを特徴とするデータパターン分析最適化処理装置。
  2. 前記予測部が算出した前記上限の予測値が、パターン分析を行う計算機が処理するパターン数の下限値を下回る場合、最小支持度を所定だけ低下させ、低下させた前記最小支持度を用いて前記予測処理を実行するよう前記予測部に指示する最小支持度調整部をさらに備える、
    ことを特徴とする請求項1に記載のデータパターン分析最適化処理装置。
  3. 前記最小支持度調整部は、前記予測部が算出した前記上限の予測値が、パターン分析を行う計算機が処理するパターン数の下限値を下回る場合、前記上限の予測値が、計算機が処理するパターン数の下限値を下回る度合を算出し、算出した度合と、前の値の最小支持度のときの前記度合とを比較して変化が所定の基準を超えると判断したきには、前記最小支持度を所定だけ低下させ、低下させた前記最小支持度を用いて前記予測処理を前記予測部に実行するよう指示し、
    前記最小支持度調整部により前記変化が前記所定の基準以内であると判断された場合、前記時系列データのグループの一部を統合し、統合されたグループに含まれる前記時系列データについて前記予測処理を実行するよう前記予測部に指示するグループ統合部をさらに備える、
    ことを特徴とする請求項2に記載のデータパターン分析最適化処理装置。
  4. 前記予測部が算出した前記上限の予測値が、パターン分析を行う計算機が処理するパターン数の下限値を下回る場合、前記時系列データのグループの一部を統合し、統合されたグループに含まれる前記時系列データについて前記予測処理を実行するよう前記予測部に指示するグループ統合部をさらに備える、
    ことを特徴とする請求項1に記載のデータパターン分析最適化処理装置。
  5. 前記予測部は、前記予測処理において、
    各アイテムが出現する時系列データの割合に基づいて、所定の系列数のアイテムからなる時系列パターンが前記時系列データに出現する頻度を算出し、
    前記時系列データに出現する頻度が最小支持度以上である前記時系列パターンの個数によりパターン数の期待値を算出し、
    前記期待値に基づいて前記パターン数の上限の予測値を算出する、
    ことを特徴とする請求項1から請求項4のいずれか1項に記載のデータパターン分析最適化処理装置。
  6. 前記分割部は、前記予測部が算出した前記上限の予測値が、パターン分析を行う計算機が処理するパターン数の上限値を超える場合に前記系列数を増加させ、増加させた前記系列数のアイテムからなる系列アイテムを、入力された系列アイテムにより、各アイテムが出現する前記時系列データの割合に基づいて選択したアイテムにより、あるいは、増加させる前の系列数のときに生成された系列アイテムにアイテムを付加することにより生成し、生成した前記系列アイテムに基づいて複数の前記時系列データをグループに分割する、
    ことを特徴とする請求項1から請求項5のいずれか1項に記載のデータパターン分析最適化処理装置。
  7. データパターン分析最適化処理装置が実行するデータパターン分析最適化処理方法であって、
    時系列データ記憶部が、属性と当該属性の属性値とにより示される時刻順のアイテムからなる時系列データを複数記憶する時系列データ記憶ステップと、
    予測部が、各アイテムが出現する前記時系列データの割合に基づいて、時系列パターンを構成する連続したアイテムの数である系列数が所定数である場合に、最小支持度を超える頻度で前記時系列データに出現する時系列パターンのパターン数の上限の予測値を算出する予測処理ステップと、
    分割部が、前記予測処理ステップにおいて算出した前記上限の予測値が、パターン分析を行う計算機が処理するパターン数の上限値を超える場合に前記系列数を増加させ、増加させた前記系列数のアイテムからなる系列アイテムに基づいて複数の前記時系列データをグループに分割し、前記予測部に増加させた前記系列数を用いて前記予測処理ステップの実行を指示する分割ステップと、
    時系列パターン抽出部が、前記予測処理ステップにおいて算出した前記上限の予測値がパターン分析を行う計算機が処理するパターン数の上限値以下である場合に、前記グループごとに時系列パターンを抽出するよう指示する時系列パターン抽出ステップと、
    を有することを特徴とするデータパターン分析最適化処理方法。
JP2014219732A 2013-11-01 2014-10-28 データパターン分析最適化処理装置、及びデータパターン分析最適化処理方法 Active JP5957507B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014219732A JP5957507B2 (ja) 2013-11-01 2014-10-28 データパターン分析最適化処理装置、及びデータパターン分析最適化処理方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013228705 2013-11-01
JP2013228705 2013-11-01
JP2014219732A JP5957507B2 (ja) 2013-11-01 2014-10-28 データパターン分析最適化処理装置、及びデータパターン分析最適化処理方法

Publications (2)

Publication Number Publication Date
JP2015111410A JP2015111410A (ja) 2015-06-18
JP5957507B2 true JP5957507B2 (ja) 2016-07-27

Family

ID=53003906

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014219732A Active JP5957507B2 (ja) 2013-11-01 2014-10-28 データパターン分析最適化処理装置、及びデータパターン分析最適化処理方法

Country Status (3)

Country Link
US (1) US11663210B2 (ja)
JP (1) JP5957507B2 (ja)
WO (1) WO2015064293A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6223889B2 (ja) 2014-03-31 2017-11-01 株式会社東芝 パターン発見装置、およびプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259452A (ja) * 1998-02-17 1999-09-24 Internatl Business Mach Corp <Ibm> 高速積分方法及びシステム
JP3738977B2 (ja) * 2001-06-27 2006-01-25 石井 昭良 時系列データ解析に基づく連続データ変換方法及び装置
JP2005149268A (ja) * 2003-11-18 2005-06-09 Toru Kinukawa 計測データ処理装置
US7526461B2 (en) * 2004-11-17 2009-04-28 Gm Global Technology Operations, Inc. System and method for temporal data mining
JP2006252394A (ja) * 2005-03-14 2006-09-21 Sony Corp 情報処理システム、情報処理装置および方法、並びにプログラム
US20080126347A1 (en) * 2006-11-27 2008-05-29 Kabushiki Kaisha Toshiba Frequent pattern mining system
JP2008159015A (ja) 2006-11-27 2008-07-10 Toshiba Corp 頻出パターン発見装置および頻出パターン発見方法
JP5506629B2 (ja) 2010-10-19 2014-05-28 日本電信電話株式会社 準頻出構造パターンマイニング装置と頻出構造パターンマイニング装置とそれらの方法、及びプログラム
JP2014191533A (ja) * 2013-03-27 2014-10-06 Nec Corp 情報処理装置、方法およびプログラム

Also Published As

Publication number Publication date
WO2015064293A1 (ja) 2015-05-07
US11663210B2 (en) 2023-05-30
US20160232205A1 (en) 2016-08-11
JP2015111410A (ja) 2015-06-18

Similar Documents

Publication Publication Date Title
US11023577B2 (en) Anomaly detection for time series data having arbitrary seasonality
US11410063B2 (en) Self-intelligent improvement in predictive data models
WO2018170454A2 (en) Using different data sources for a predictive model
JP6718500B2 (ja) 生産システムにおける出力効率の最適化
US10248618B1 (en) Scheduling snapshots
JP2024502098A (ja) 時系列データの異常監視方法、装置、電子機器及び記憶媒体
JP6176390B2 (ja) 情報処理装置、解析方法、及び、プログラム記録媒体
JP5957507B2 (ja) データパターン分析最適化処理装置、及びデータパターン分析最適化処理方法
CN111930602A (zh) 性能指标预测方法及装置
JP6450098B2 (ja) 匿名化装置、匿名化方法及び匿名化プログラム
CN111819559A (zh) 以量化步长使用机器学习模型用于恶意软件检测
JP5555238B2 (ja) ベイジアンネットワーク構造学習のための情報処理装置及びプログラム
JP6331549B2 (ja) 仮想マシン管理装置、仮想マシン管理方法、及び仮想マシン管理システム
JP6627258B2 (ja) システムモデル生成支援装置、システムモデル生成支援方法、及び、プログラム
JP5863180B2 (ja) 映像解析処理装置、映像解析処理方法、および映像解析処理用プログラム
JP2015172790A (ja) 予測システム、予測方法、および予測プログラム
JP7400819B2 (ja) 予測装置、予測方法、及び予測プログラム
JP2015200980A (ja) 検証支援プログラム、検証支援方法および検証支援装置
JP2020181318A (ja) 最適化装置、最適化方法、及びプログラム
JP6745245B2 (ja) 送信制御装置、送信制御方法及び送信制御プログラム
US20170139969A1 (en) Method for filtering and analyzing big data, electronic device, and non-transitory computer-readable storage medium
WO2017212758A1 (ja) ユーザインタフェース装置
US11314752B2 (en) Computer system and data analysis method
WO2016180350A1 (zh) 一种终端桌面的智能管理方法、终端及计算机存储介质
US11580146B2 (en) Inference system

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160524

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160620

R150 Certificate of patent or registration of utility model

Ref document number: 5957507

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350