JP2022127818A - データ分析装置、データ分析システムおよびプログラム - Google Patents
データ分析装置、データ分析システムおよびプログラム Download PDFInfo
- Publication number
- JP2022127818A JP2022127818A JP2021026011A JP2021026011A JP2022127818A JP 2022127818 A JP2022127818 A JP 2022127818A JP 2021026011 A JP2021026011 A JP 2021026011A JP 2021026011 A JP2021026011 A JP 2021026011A JP 2022127818 A JP2022127818 A JP 2022127818A
- Authority
- JP
- Japan
- Prior art keywords
- series data
- unit
- elements
- data
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007405 data analysis Methods 0.000 title claims abstract description 75
- 238000001514 detection method Methods 0.000 claims abstract description 47
- 230000010354 integration Effects 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims description 71
- 238000004364 calculation method Methods 0.000 claims description 31
- 238000000605 extraction Methods 0.000 claims description 23
- 238000005065 mining Methods 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 description 43
- 238000010586 diagram Methods 0.000 description 30
- 238000000034 method Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 15
- 230000002123 temporal effect Effects 0.000 description 13
- 239000000284 extract Substances 0.000 description 8
- 230000000295 complement effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 101001090150 Equus caballus Sperm histone P2a Proteins 0.000 description 1
- 101001016600 Equus caballus Sperm histone P2b Proteins 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000004141 dimensional analysis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/26—Discovering frequent patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Hardware Design (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Debugging And Monitoring (AREA)
- Image Analysis (AREA)
Abstract
【課題】情報システムに発生した現象の分析に必要なデータを補うことができるデータ分析装置、データ分析システムおよびプログラムを提供する。【解決手段】データ分析装置(2)は、系列内および系列間で要素の順序関係の比較が可能なインデックスをそれぞれ有した、分析対象の情報システムに関する文字列を要素とした系列データと、情報システムを構成する機器の状態を示す数値を要素とした系列データとを取得し、取得した系列データごとに要素を分類クラスに分類し、分類クラスを示す分類値を要素とした系列データを出力する文字列分類部(211)および数値分類部(212)と、文字列の分類値を要素とした系列データおよび数値の分類値を要素とした系列データを一つの系列データにまとめる系列統合部(213)と、系列統合部(213)によって一つにまとめられた系列データを用いて、頻出する要素の組み合わせである頻出パターンの発生を検出する頻出パターン検出部(215)を備える。【選択図】図4
Description
本開示は、データ分析装置、データ分析システムおよびプログラムに関する。
情報システムを構成する機器から出力された文字列のログデータに対して頻出パターンマイニングを適用することで、情報システムに発生した現象を分析する技術が提案されている。例えば、非特許文献1には、文字列のログデータにおける各行のデータを分類した結果に対して頻出パターンマイニングを実施することにより、分析対象の情報システムに発生した現象を分析する従来の技術が記載されている。
F. Lin, K. Muzumdar, N. P. Laptev, M.-V. Curelea, S. Lee, and S. Sankar, "Fast dimensional analysis for root cause investigation in a large-scale service environment," in Proceedings of the ACM on Measurement and Analysis of Computing Systems (POMACS), 2020.
しかしながら、非特許文献1に記載された従来の技術は、頻出パターンマイニングするログデータが、分析に必要な情報が不足したデータである場合、分析対象の情報システムに発生した現象の分析精度が低下するという課題があった。
本開示は上記課題を解決するものであり、情報システムに発生した現象の分析に必要なデータを補うことができるデータ分析装置、データ分析システムおよびプログラムを得ることを目的とする。
本開示に係るデータ分析装置は、系列内および系列間で要素の順序関係の比較が可能なインデックスをそれぞれ有した、分析対象の情報システムに関する文字列を要素とした系列データと、情報システムを構成する機器の状態を示す数値を要素とした系列データとを取得し、取得した系列データごとに要素を分類クラスに分類し、分類クラスを示す分類値を要素とした系列データを出力する分類部と、文字列の分類値を要素とした系列データおよび数値の分類値を要素とした系列データを一つの系列データにまとめる統合部と、統合部によって一つにまとめられた系列データを用いて、頻出する要素の組み合わせである頻出パターンの発生を検出する検出部を備える。
本開示によれば、分析対象の情報システムに関する文字列を要素とした系列データと、情報システムを構成する機器の状態を示す数値を要素とした系列データとを、一つの系列データにまとめることで、一方の系列データが他方の系列データで補われた系列データに対して頻出パターンマイニングを実施できる。これにより、本開示に係るデータ分析装置は、情報システムに発生した現象の分析に必要なデータを補うことができる。
実施の形態1.
図1は、実施の形態1に係るデータ分析システム1の構成を示すブロック図である。図1において、データ分析システム1は、分析対象の情報システムに発生した現象の分析を行うシステムである。情報システムは、各種の情報を取り扱うシステムであり、例えば、情報のやり取りに関連した動作を行う機器を含んで構成されている。また、情報システムには、例えば、データベース、データウェアハウス、データ統合サービス、分散型アプリケーションまたはウェブサービスを実現するコンピュータシステムがある。
図1は、実施の形態1に係るデータ分析システム1の構成を示すブロック図である。図1において、データ分析システム1は、分析対象の情報システムに発生した現象の分析を行うシステムである。情報システムは、各種の情報を取り扱うシステムであり、例えば、情報のやり取りに関連した動作を行う機器を含んで構成されている。また、情報システムには、例えば、データベース、データウェアハウス、データ統合サービス、分散型アプリケーションまたはウェブサービスを実現するコンピュータシステムがある。
データ分析システム1は、データ分析装置2、入力装置3A、入力装置3Bおよび記憶装置4を備える。データ分析装置2は、分析対象の情報システムに関連する時系列データを取得し、取得した時系列データを用いてデータ分析を行う。
入力装置3Aは、分析対象の情報システムに関する文字列を要素とした時系列データの入力を受け付け、受け付けた文字列の時系列データをデータ分析装置2に出力する。入力装置3Bは、情報システムを構成する機器の状態を示す数値を要素とした時系列データの入力を受け付け、受け付けた数値の時系列データをデータ分析装置2に出力する。
また、分析対象の情報システムから取得された文字列を要素とした時系列データおよび数値を要素とした時系列データは、系列内および系列間で要素の順序関係の比較が可能なインデックスであるタイムスタンプをそれぞれ有している。
入力装置3Aは、分析対象の情報システムに関する文字列を要素とした時系列データの入力を受け付け、受け付けた文字列の時系列データをデータ分析装置2に出力する。入力装置3Bは、情報システムを構成する機器の状態を示す数値を要素とした時系列データの入力を受け付け、受け付けた数値の時系列データをデータ分析装置2に出力する。
また、分析対象の情報システムから取得された文字列を要素とした時系列データおよび数値を要素とした時系列データは、系列内および系列間で要素の順序関係の比較が可能なインデックスであるタイムスタンプをそれぞれ有している。
記憶装置4は、頻出パターンの定義情報を記憶している。定義情報が示す頻出パターンは、分析対象の情報システムから取得された時系列データの中から、データ分析装置2によって抽出された頻出パターンであってもよいし、ユーザによって設定または修正された同様の形式のデータであってもよい。さらに、記憶装置4には、情報システムに発生した現象に対する過去の作業情報と頻出パターンとが対応付けて記憶されている。
図2Aは、文字列を要素とした時系列データの例を示す図である。頻出パターン分析部21によって取得される文字列の時系列データには、時系列内または時系列データ間で文字列の順序関係の比較が可能なタイムスタンプが設定されている。例えば、図2Aに示す時系列データには、「Oct 10 0:00:00」というタイムスタンプと、「received xxx」という文字列が対応付けられている。タイムスタンプは、図2Aに示す時系列内のアイテムの順序関係を比較でき、時系列データ間での要素の順序関係の比較も可能である。
図2Bは、数値を要素とした時系列データの例を示すグラフである。頻出パターン分析部21が取得する数値の時系列データ(1)は、例えば、図2Bに示すように、分析対象の情報システムを構成する機器の状態を表す数値と時間との関係を示すグラフで表すことができる。機器の状態を表す数値が時系列データの要素であり、時間軸の各時間がタイムスタンプである。図2Bにおいて、時系列データ(1)は時刻T1までの時系列である。
図2Cは、時系列データには含まれないタイムスタンプにおける要素を補間した時系列データの例を示すグラフである。図2Cに示す時系列データ(1)には、補間処理部22によって、図2Bに示した時系列データ(1)には含まれないタイムスタンプ、すなわち時刻T1以降のタイムスタンプにおける要素の推定値の代表値が補間されている。時系列データ(1)に補間された要素の推定値の代表値は、例えば、タイムスタンプごとの平均値(1a)、最大値(1b)および最小値(1c)である。
データ分析装置2は、頻出パターン分析部21、補間処理部22および検索処理部23を備える。図3は、データ分析装置2の動作を示すフローチャートである。頻出パターン分析部21は、分析対象の情報システムに関する文字列を要素とした系列データと、上記情報システムを構成する機器の状態を示す数値を要素とした系列データとを取得し、取得した時系列データを用いた頻出パターン分析を行う(ステップST1)。
例えば、頻出パターン分析部21は、入力装置3Aによって入力が受け付けられた文字列の時系列データと入力装置3Bによって入力が受け付けられた数値の時系列データとを一つにまとめ、一つにまとめた時系列データにおける要素を、タイムスタンプが示す順序関係に基づいて並べ替える。そして、頻出パターン分析部21は、要素を並べ替えた時系列データを用いて、頻出する要素の組み合わせである頻出パターンの発生を検出する。
補間処理部22は、頻出パターン分析部21によって検出された頻出パターンを要素とした時系列データを入力し、入力した時系列データに含まれないタイムスタンプにおける要素を補間し、補間された時系列データを出力する(ステップST2)。例えば、補間処理部22は、頻出パターン分析部21によって検出された頻出パターンの時系列データを用いて、頻出パターンの発生率の推定値と頻出パターンの発生率の統計量とを算出する。そして、補間処理部22は、頻出パターンの発生率の推定値と頻出パターンの発生率の統計量とを用いて、時系列データには含まれないタイムスタンプにおける要素を補間する。
検索処理部23は、頻出パターン分析部21によって検出された頻出パターンに対応した現象に対する過去の作業情報を検索することにより、検索結果の作業情報を出力する(ステップST3)。例えば、検索処理部23は、頻出パターン分析部21によって検出された頻出パターンを要素とした時系列データ、分析対象の情報システムから取得された文字列を要素とした時系列データおよび数値を要素とした時系列データのうち少なくとも一つから、重要度に応じて時系列データを選別する。そして、検索処理部23は、記憶装置4に記憶された作業情報のうち、選別した時系列データに対応する作業情報を検索し、検索した作業情報を出力する。
図4は、頻出パターン分析部21の構成を示すブロック図である。図4において、頻出パターン分析部21は、文字列分類部211、数値分類部212、系列統合部213、頻出パターン抽出部214および頻出パターン検出部215を備える。データ分析装置2が分析対象の情報システムに発生した現象に対応する頻出パターンを学習する学習フェーズにおいては、頻出パターン分析部21のみが動作する。頻出パターン分析部21は、分析対象の情報システムから取得された文字列の時系列データおよび数値の時系列データを、学習用データとして用いて、分析対象の頻出パターンを抽出する。
データ分析装置2は、分析対象の情報システムに関する文字列を要素とした系列データと、情報システムを構成する機器の状態を示す数値を要素とした系列データとを、一つの系列データにまとめることにより、一方の系列データが他方の系列データで補われた系列データに対して頻出パターンマイニングを実施できる。例えば、補間処理部22および検索処理部23によって生成される情報が不要な用途に限定されたデータ分析装置2は、図4に示した頻出パターン分析部21の構成要素のみを備えていればよい。すなわち、図4に示した頻出パターン分析部21が、データ分析装置2として機能する。
文字列分類部211は、分析対象の情報システムに関する文字列を要素とした時系列データを取得し、取得した時系列データの各タイムスタンプにおける文字列を分類クラスに分類し、分類クラスを示す分類値を要素とした時系列データを出力する分類部である。
例えば、文字列分類部211は、時系列データの各タイムスタンプにおける文字列のうち、予め設定された複数の文字列のテンプレートのいずれかに合致するものを分類し、合致するテンプレートがない場合は、そのタイムスタンプにおける要素はないものとする。また、文字列分類部211は、分析対象の情報システムから取得されたログデータの各行の文字列を分類する。
例えば、文字列分類部211は、時系列データの各タイムスタンプにおける文字列のうち、予め設定された複数の文字列のテンプレートのいずれかに合致するものを分類し、合致するテンプレートがない場合は、そのタイムスタンプにおける要素はないものとする。また、文字列分類部211は、分析対象の情報システムから取得されたログデータの各行の文字列を分類する。
数値分類部212は、分析対象の情報システムを構成する機器の状態を示す数値を要素とした時系列データを取得して、取得した時系列データの各タイムスタンプにおける要素を分類クラスに分類し、分類クラスを示す分類値を要素とした時系列データを出力する分類部である。数値分類部212は、取得した時系列データのタイムスタンプに関連する数値の集合、例えば、タイムスタンプの時間的近傍に存在する数値のリストを分類クラスに分類して、分類クラスを示す分類値を要素とした時系列データを出力する。
タイムスタンプの時間的近傍とは、時系列データにおけるタイムスタンプを含む時間的な範囲である。例えば、タイムスタンプの時間的近傍は、タイムスタンプの時刻を基準とした前後3秒間というような時間的な範囲である。例えば、数値分類部212は、取得した時系列データのタイムスタンプにおける数値または数値のリストの代表値のうち、予め設定された複数の数値の区間のいずれかに属するものを分類し、合致する範囲がない場合には、そのタイムスタンプにおける要素はないものとする。また、数値分類部212は、取得した時系列データのタイムスタンプにおける数値または数値のリストが示すグラフの形状のうち、予め設定された複数の数値が示すグラフの形状に類似するものを分類する。
系列統合部213は、文字列の分類値を要素とした系列データと、数値の分類値を要素とした系列データとを一つの系列データにまとめる統合部である。
例えば、系列統合部213は、文字列の分類値を要素とした系列データと数値の分類値を要素とした系列データとをタイムスタンプが示す時間方向に結合し、タイムスタンプが示す順序関係に従い要素を並べ替えた時系列データを生成する。
これにより、文字列形式のログデータには含まれていない、分析対象の情報システムに発生した現象に関する情報が、機器の状態を表す数値の時系列データに由来するデータによって補われる。
以下の説明において、時系列データの要素または要素のリストの分類値を、アイテムと記載する。
例えば、系列統合部213は、文字列の分類値を要素とした系列データと数値の分類値を要素とした系列データとをタイムスタンプが示す時間方向に結合し、タイムスタンプが示す順序関係に従い要素を並べ替えた時系列データを生成する。
これにより、文字列形式のログデータには含まれていない、分析対象の情報システムに発生した現象に関する情報が、機器の状態を表す数値の時系列データに由来するデータによって補われる。
以下の説明において、時系列データの要素または要素のリストの分類値を、アイテムと記載する。
頻出パターン抽出部214は、系列統合部213から出力された時系列データに含まれるアイテムの集合に対してタイムスタンプの識別値を付与したトランザクションデータを生成し、トランザクションデータに対して頻出パターンマイニングを実施することにより頻出パターンを抽出する抽出部である。例えば、頻出パターン抽出部214は、アイテムの集合における部分的な集合の発生頻度に基づいて、上記時系列データに頻出していると判定されたアイテムの組み合わせを、頻出パターンとして抽出する。
頻出パターンは、アイテムの順不同な組み合わせであるが、それを相関ルールとして条件部と結論部に分けて表してもよい。また、条件部および結論部のそれぞれをさらに頻出パターンとして扱うことも可能である。例えば、頻出パターンには、アイテムの組み合わせに含まれる特定のアイテムの集合を、頻出パターンマイニングの相関ルールにおける条件部とし、残りのアイテムの集合を相関ルールにおける結論部とし、条件部が成立するときに結論部が発生する確信度を表す数値を付与したものを用いてもよい。例えば、トランザクションデータ{a,b,c,d,e,f}の中での頻出パターンとしての「アイテムの順不同な組み合わせ」が{a,b,c,d}であり、その中の条件部が{a,c}である場合、「残りのアイテムの集合」である{b,d}が結論部となる。
なお、頻出パターンは、分析対象の情報システムに何らかの現象が発生したことにより頻出するようになったアイテムの集合であり、その中の一部分のアイテムの集合に対してその要因を示すデータとして活用することができる。
なお、頻出パターンは、分析対象の情報システムに何らかの現象が発生したことにより頻出するようになったアイテムの集合であり、その中の一部分のアイテムの集合に対してその要因を示すデータとして活用することができる。
なお、アイテムの集合は、重複のないアイテムの順不同な組み合わせである。例えば、時系列データにおける個々のタイムスタンプの時間的近傍に含まれる要素のアイテムのリストからアイテムの重複を取り除くことにより、時系列データからアイテムの集合を生成することができる。また、頻出パターン抽出部214は、時系列データを用いてトランザクションデータを生成し、生成したトランザクションデータに対してアソシエーション分析を実施することにより、頻出パターンを抽出することができる。
トランザクションデータは、アイテムの集合の発生事象ごとにアイテムの集合に識別値を付与して区別したデータである。例えば、物品販売の会計処理において、購入品の組み合わせがアイテムの集合であり、アイテムの集合に付与された会計処理の処理番号により管理される購入履歴データが、頻出パターンマイニングが行われる対象のトランザクションデータである。
頻出パターン検出部215は、系列統合部213から出力された時系列データのうち、頻出する要素の組み合わせである頻出パターンの発生を検出する検出部である。例えば、頻出パターン検出部215は、時系列データを用いてトランザクションデータを生成し、生成したトランザクションデータに含まれるアイテムの集合と、記憶装置4に記憶された頻出パターンの定義情報とを比較する。記憶装置4に記憶された頻出パターンの定義情報に合致するアイテムの集合がある場合に、頻出パターン検出部215は、分析対象の情報システムから取得された時系列データに頻出パターンが発生したと判定する。
頻出パターン検出部215は、各タイムスタンプの時間的近傍で発生した頻出パターンの識別値の時系列データを生成し、生成した時系列データを補間処理部22に出力する。
頻出パターン検出部215は、各タイムスタンプの時間的近傍で発生した頻出パターンの識別値の時系列データを生成し、生成した時系列データを検索処理部23に出力する。
頻出パターン検出部215は、各タイムスタンプの時間的近傍で発生した頻出パターンの識別値の時系列データを生成し、生成した時系列データを検索処理部23に出力する。
また、頻出パターン検出部215は、頻出パターンに属さないアイテムの組み合わせであって学習フェーズに比べて発生頻度の高いアイテムの集合を要素とした時系列データを生成し、生成した時系列データを検索処理部23に出力する。さらに、頻出パターン検出部215は、相関ルールにおける条件部、結論部、および、条件部が成立するときに結論部が発生する確信度の組み合わせで頻出パターンが表現される場合、条件部のみが存在し結論部が存在しない頻出パターンの識別値を要素とした時系列データを、検索処理部23に出力する。
補間処理部22または検索処理部23がない場合、頻出パターン検出部215から補間処理部22または検索処理部23に出力される上記時系列データは、情報システムの分析支援情報として表形式またはグラフ形式で表示装置に表示することにより、利用者に提示することも可能である。
図5は、頻出パターン分析部21の学習時の動作を示すフローチャートであり、データ分析装置2が分析対象の情報システムに発生した現象に対応する頻出パターンを学習する学習フェーズの動作を示している。
文字列分類部211は、入力装置3Aが受け付けた文字列を要素とした時系列データの各タイムスタンプにおける文字列を分類クラスに分類し、数値分類部212は、入力装置3Bが受け付けた数値を要素とした時系列データの各タイムスタンプにおける数値を分類クラスに分類する(ステップST1a)。文字列分類部211と数値分類部212とは、互いに独立して動作し、どちらの動作が先行してもよいし、並行して動作してもよい。
文字列分類部211は、入力装置3Aが受け付けた文字列を要素とした時系列データの各タイムスタンプにおける文字列を分類クラスに分類し、数値分類部212は、入力装置3Bが受け付けた数値を要素とした時系列データの各タイムスタンプにおける数値を分類クラスに分類する(ステップST1a)。文字列分類部211と数値分類部212とは、互いに独立して動作し、どちらの動作が先行してもよいし、並行して動作してもよい。
図6Aは、文字列を要素とした時系列データの例を示す図である。文字列分類部211は、例えば、図6Aに示す時系列データを取得する。図6Bは、数値を要素とした時系列データの例を示すグラフである。数値分類部212は、例えば、図6Bに示す時系列データを取得する。
図6Cは、文字列の分類値を要素とした時系列データの例を示す図である。文字列分類部211は、図6Aに示す時系列データの各タイムスタンプにおける文字列を分類クラスに分類すると、分類クラスを示す分類値を要素とした、図6Cに示すような時系列データを出力する。例えば、図6Aに示す時系列データにおける、単語「received」を含む文字列である「received xxx」および「received yyy」の分類値は「L3」であり、単語「sent」を含む文字列である「sent abc」および「sent abd」の分類値は「L5」である。文字列分類部211は、図6Cに示すように、文字列の分類値を要素とした時系列データを生成し、生成した時系列データを系列統合部213に出力する。
図6Dは、数値の分類値を要素とした時系列データの例を示す図である。数値分類部212は、図6Bに示す時系列データの各タイムスタンプにおける数値を分類クラスに分類すると、分類クラスを示す分類値を要素とした、図6Dに示すような時系列データを出力する。例えば、図6Bに示すグラフにおける、各時刻を示すタイムスタンプの時間的近傍に存在する数値が分類されて、分類値「M3」などが付与される。数値分類部212は、図6Dに示すように、数値の分類値を要素とした時系列データを生成し、生成した時系列データを系列統合部213に出力する。
次に、系列統合部213は、文字列の分類値を要素とした系列データと、数値の分類値を要素とした系列データとを一つの系列データにまとめる統合処理を行う(ステップST2a)。図7は、頻出パターンの抽出処理の概要を示す図である。例えば、系列統合部213は、図6Cに示す文字列の分類値を要素とした時系列データと、図6Dに示す数値の分類値を要素とした時系列データとを一つにまとめる、タイムスタンプに従って順序関係を並べ替えることにより、図7の左側に示すような、いわゆる統合された時系列データを算出する。
図7の左側に示す時系列データにおいては、統合される前の両方の時系列データに含まれるタイムスタンプには、文字列の分類値と数値の分類値とが設定され、統合前の一方の時系列データに含まれていなくても、他方の時系列データに含まれるタイムスタンプについては分類値が設定される。すなわち、統合された時系列データは、一方の時系列データと他方の時系列データとが互いのアイテムを補間するデータとなる。
頻出パターン抽出部214は、系列統合部213から出力された時系列データに含まれるアイテムの集合に対してタイムスタンプの識別値を付与したトランザクションデータを生成し、トランザクションデータに対して頻出パターンマイニングを実施することにより頻出パターンを抽出する(ステップST3a)。
例えば、頻出パターン抽出部214は、図7の右側に示すように、アイテム「M0」のタイムスタンプの時間的近傍に、図7の左側に示す時系列データに頻出しているアイテム「L3」および「L5」が存在するので、これらの集合を頻出パターン「Pattern1」として抽出する。頻出パターン抽出部214は、同様の手順で、アイテム「L3」および「L5」の集合である、頻出パターン「Pattern2」を抽出し、アイテム「L1」、「M4」、「M5」および「M6」の集合である、頻出パターン「Pattern3」を抽出する。
頻出パターン抽出部214は、頻出パターンの抽出処理に、ニューラルネットワーク等を用いた機械学習を行ってもよい。例えば、頻出パターン抽出部214は、図7の左側に示す時系列データを入力とし、分析対象の情報システムにおける頻出パターンを出力する学習モデルを用いる。頻出パターン分析部21が、学習フェーズにおいて、図5に示した一連の処理を繰り返す。図5の処理を繰り返した際に、分析対象の情報システムから取得された時系列データを学習用データとして、頻出パターン抽出部214は、当該情報システムにおける頻出パターンを学習する。頻出パターン抽出部214によって抽出された頻出パターンの定義情報は、記憶装置4に記憶される。
データ分析装置2は、分析対象の情報システムの状態が文字列形式で表されたログデータに加え、当該情報システムを構成する機器の状態を直接表す数値の時系列データを用いて分析処理を行う。これにより、学習結果の頻出パターンが詳細化されるので、頻出パターンを用いて生成され、推論フェーズにおいて利用される、情報システムの分析支援情報を詳細化することができる。
図8は、実施の形態1に係るデータ分析方法を示すフローチャートであり、図3のステップST1の処理の詳細を示している。図8の一連の処理は、推論フェーズにおける頻出パターン分析部21の動作である。なお、図8におけるステップST1bおよびステップST2bは、図5におけるステップST1aおよびステップST2aと同じ処理であるので、説明を省略する。
推論フェーズにおいては、頻出パターン分析部21が単独に動作するか、あるいは、頻出パターン検出部215から出力された時系列データを用いて補間処理部22または検索処理部23が動作する。さらに、推論フェーズにおいては、頻出パターン抽出部214は動作しない。頻出パターン検出部215は、分析対象の情報システムから取得された時系列データが、学習フェーズにおいて得られた頻出パターンと一致するか否かに基づいて、分析対象の情報システムにおける頻出パターンの発生が検出される。
頻出パターン検出部215は、系列統合部213から出力された時系列データのうち、頻出する要素の組み合わせである頻出パターンの発生を検出する(ステップST3b)。例えば、頻出パターン検出部215は、入力した時系列データを用いてトランザクションデータを生成し、トランザクションデータに含まれるアイテムの集合と記憶装置4に記憶された頻出パターンとが比較される。
図9は、頻出パターンの検出処理の概要を示す図である。例えば、図9の左側に示す統合された時系列データに含まれるアイテムの集合には、図9の右側に示すように、記憶装置4に記憶された頻出パターンである「Pattern1」、「Pattern2」および「Pattern3」と一致するものがある。これにより、頻出パターン検出部215は、分析対象の情報システムにおける頻出パターンの発生を検出する。
頻出パターン検出部215は、分析対象の情報システムにおける頻出パターンの発生を検出すると、各タイムスタンプの時間的近傍で発生した頻出パターンの識別値の時系列データを生成し、生成した時系列データを補間処理部22に出力する。また、頻出パターン検出部215は、各タイムスタンプの時間的近傍で発生した頻出パターンの識別値の時系列データを生成し、生成した時系列データを検索処理部23に出力する。
また、頻出パターン検出部215は、分析対象の情報システムにおける頻出パターンの発生を検出すると、頻出パターンに属さないアイテムの組み合わせであって学習フェーズに比べて発生頻度の高いアイテムの集合を要素とした時系列データを生成し、生成した時系列データを検索処理部23に出力する。さらに、頻出パターン検出部215は、相関ルールにおける条件部、結論部、および、条件部が成立するときに結論部が発生する確信度の組み合わせで頻出パターンが表現される場合、条件部のみが存在し結論部が存在しない頻出パターンの識別値を要素とした時系列データを、検索処理部23に出力する。
前述したように、時系列データごとに分類処理を実施した後に、それぞれの分類値を、一つの時系列データにまとめて頻出パターンマイニングを実施することで、複数の時系列データ間でそれぞれが要素を持つタイムスタンプを一致させる必要がない。すなわち、分析に用いる一つの時系列データの利用範囲を広げることが可能である。
図10は、補間処理部22の構成を示すブロック図である。図10において、補間処理部22は、頻出パターン発生率算出部221、推定可否判定部222、推定部223、統計量算出部224および補間データ算出部225を備える。頻出パターン発生率算出部221は、頻出パターン検出部215によって検出された頻出パターンを要素とした系列データを取得して頻出パターンの発生率を算出する発生率算出部である。例えば、頻出パターン発生率算出部221は、個々のタイムスタンプの時間的近傍に含まれる頻出パターンの発生回数を、時間的近傍を規定する時間範囲の総時間で除算した値を、頻出パターンの発生率として算出する。頻出パターンの発生率は、頻出パターンごとに算出される。
推定可否判定部222は、頻出パターン発生率算出部221によって算出された頻出パターンの発生率を要素とした系列データには含まれないタイムスタンプにおける要素の補間値を推定可能であるか否かを判定する。例えば、推定可否判定部222は、頻出パターンの発生率を要素とした時系列データにおける要素の部分的な範囲に対して、当該時系列データには含まれないタイムスタンプにおける要素の補間値が推定可能か否かを判定し、判定結果を示す0か1の判定値を、上記部分的な範囲に付与して出力する。
推定可否判定部222は、頻出パターン発生率算出部221によって算出された頻出パターンの発生率を要素とした系列データには含まれないタイムスタンプにおける要素の補間値を推定可能であるか否かを判定する。例えば、推定可否判定部222は、頻出パターンの発生率の時系列データを、モデル調整用データとモデル検証用データとに分割して、機械学習による時系列予測モデルの内部パラメータを、モデル調節用データを用いて調整し、モデル検証用データを用いて推定の精度を測定する。そして、推定可否判定部222は、推定の精度が許容閾値以上であると推定可能と判定し、推定の精度が許容閾値未満であれば推定不可と判定する。推定可能か否かを示す0または1の判定値は、頻出パターンの発生率を要素とした系列データに付与される。
推定部223は、推定可否判定部222によって推定可能であると判定された要素の補間値を推定する。例えば、推定部223は、頻出パターンの発生率を要素とした時系列データにおける推定可能を示す判定値(例えば、判定値=1)が付与された部分について、当該時系列データには含まれないタイムスタンプにおける要素の補間値を推定する。推定部223は、例えば、推定可否判定部222によって用いられた時系列予測モデルと同じモデルを用いて、要素の補間値を推定する。
統計量算出部224は、推定可否判定部222によって推定不可であると判定された要素の統計分布を表す統計量を算出する。例えば、統計量算出部224は、頻出パターンの発生率を要素とした時系列データにおける、補間値の推定不可を示す判定値が付与された部分に存在する要素の統計分布を表す統計量を算出する。統計量は、例えば平均値または分散である。
補間データ算出部225は、推定部223によって推定された補間値と、統計量算出部224によって算出された統計量とを一つにまとめて、一つにまとめた時系列データにおける補間値の推定値、補間値の推定値の代表値または補間値の推定値の範囲を要素とした時系列データを算出する。例えば、補間データ算出部225は、頻出パターンの発生率を要素とした時系列データごとに、推定部223によって推定された補間値と統計量算出部224によって算出された統計量とを一つにまとめ、補間値の推定値、補間値の推定値の代表値および補間値の推定値の範囲を、要素とした時系列データを算出する。
また、補間データ算出部225は、推定部223によって推定された補間値、統計量算出部224によって算出された統計量、および、頻出パターンに含まれる数値が分類された分類クラスを示す分類値を示す定義情報に基づいて、分析対象の情報システムを構成する機器の状態を示す数値の補間値の代表値または範囲を算出する。例えば、数値の補間値の平均値、最大値および最小値が算出される。
図11は、時系列データの補間処理を示すフローチャートであり、図3のステップST2の処理の詳細を示している。頻出パターン発生率算出部221は、頻出パターン検出部215によって検出された頻出パターンを要素とした時系列データを取得し、時系列データに含まれる頻出パターンの発生率を算出する(ステップST1c)。例えば、頻出パターン発生率算出部221は、頻出パターンの識別値を要素とした時系列データを用いて、各タイムスタンプの時間的近傍における頻出パターンごとの発生率を算出する。
続いて、推定可否判定部222は、頻出パターンの発生率を要素とした時系列データには含まれないタイムスタンプにおける要素の補間値を推定可能であるか否かを判定する(ステップST2c)。例えば、推定可否判定部222は、頻出パターンの発生率を要素とした時系列データに含まれないタイムスタンプにおける要素の補完値を推定可能であるか否かを判定すると、当該時系列データにおける該当部分に対して判定結果を示す0か1の判定値を付与する。
要素の補完値を推定可能であると判定された場合(ステップST2c;YES)、推定部223は、補間値を推定する(ステップST3c)。例えば、推定部223は、時系列データにおける、推定可能を示す判定値が付与された部分の要素の補間値を推定する。
要素の補完値を推定不可であると判定されると(ステップST2c;NO)、統計量算出部224は、要素の統計分布を表す統計量を算出する(ステップST4c)。例えば、統計量算出部224は、頻出パターンの発生率を要素とした時系列データにおける、補間値の推定不可を示す判定値が付与された部分に存在する要素の統計分布を表す統計量を算出する。推定部223および統計量算出部224の各処理は、互いに独立して実行されるので、どちらが先行してもよいし、並行して実行されてもよい。
補間データ算出部225は、推定部223によって推定された補間値と、統計量算出部224によって算出された統計量とを一つにまとめた時系列データにおける、補間値、補間値の代表値または補間値の範囲を要素とした時系列データを算出し、補間された時系列データとして出力する(ステップST5c)。さらに、補間データ算出部225は、推定部223によって推定された補間値、統計量算出部224によって算出された統計量、および、頻出パターンに含まれる数値が分類された分類クラスを示す分類値を示す定義情報に基づいて、分析対象の情報システムを構成する機器の状態を示す数値の補間値の代表値または範囲を算出する。補間データ算出部225は、これらの処理を互いに独立して実施するので、いずれか一方の処理を先行させてもよいし、両者を並行して実施してもよい。
図12Aは、文字列を要素とした時系列データの例を示す図である。図12Bは、数値を要素とした時系列データ(1)および時系列データ(2)の例を示すグラフである。頻出パターン分析部21は、例えば、図12Aおよび図12Bに示す各時系列データを取得し、頻出パターンの識別値の時系列データを、補間処理部22に出力する。
図12Cは、補間された時系列データの例を示すグラフである。補間データ算出部225は、図12Cの上段に示すように、頻出パターンの発生率を要素とした時系列データAにおける、頻出パターンの発生率の補間値の推定値の代表値である平均値A1、最大値A2および最小値A3算出し、これらを要素とした時系列データを算出する。
補間データ算出部225は、図12Cの中段に示すように、分析対象の情報システムを構成する機器の状態を示す数値を要素とした時系列データ(1)における、要素の補間値の推定値の代表値である平均値(1a)、最大値(1b)および最小値(1c)算出し、これらを要素とした時系列データを算出する。さらに、補間データ算出部225は、図12Cの下段に示すように、分析対象の情報システムを構成する機器の状態を示す数値を要素とした時系列データ(2)における、要素の補間値の推定値の代表値である平均値(2a)、最大値(2b)および最小値(2c)算出し、これらを要素とした時系列データを算出する。
頻出パターン分析部21によって検出された頻出パターンは、分析対象の情報システムに発生した現象と紐付くものである。このため、頻出パターンに注目して情報システムに発生する現象を分析することにより、当該情報システムに外乱的に発生する現象を、効率よく分析することが可能である。さらに、頻出パターンを用いることで、情報システムの挙動の予測精度が向上する。例えば、時系列データに含まれないタイムスタンプの要素の補間値の推定値は、未来のタイムスタンプにおける要素を予測したものに相当する場合がある。この場合、補間データ算出部225が、補間値の推定値の代表値または範囲を算出することにより、要素の予測値の誤差範囲を提示することが可能である。
図13は、検索処理部23の構成を示すブロック図である。図13において、検索処理部23は、頻出パターン選別部231および検索部232を備える。頻出パターン選別部231は、頻出パターン検出部215によって検出された頻出パターンを要素とした時系列データ、入力装置3Aによって受け付けられた文字列を要素した時系列データ、および入力装置3Bによって受け付けられた数値を要素とした時系列データのうちの少なくとも一つから、重要度に応じて時系列データを選別する選別部である。
頻出パターンの識別値を要素とした時系列データにおいて、重要度には、例えば、分析対象の情報システムにおける要素の発生頻度と頻出パターンの学習フェーズで用いられた時系列データにおける上記要素の発生頻度との比の値1からの乖離量を用いることができる。例えば、両者の比が1.2である場合、この比における値1からの乖離量は、1.2-1.0=0.2である。
また、頻出パターンに分類できないアイテムの組み合わせを要素とした時系列データについては、例えば、頻出パターンに分類できないアイテムの発生数を、重要度として用いることができる。さらに、条件部のみが成立する頻出パターンの識別値を要素とした時系列データについては、例えば、該当する頻出パターンについて学習フェーズで算出した確信度を、重要度として用いることができる。
また、頻出パターンに分類できないアイテムの組み合わせを要素とした時系列データについては、例えば、頻出パターンに分類できないアイテムの発生数を、重要度として用いることができる。さらに、条件部のみが成立する頻出パターンの識別値を要素とした時系列データについては、例えば、該当する頻出パターンについて学習フェーズで算出した確信度を、重要度として用いることができる。
検索部232は、分析対象の情報システムに発生した現象に対する過去の作業情報のうち、頻出パターン選別部231によって選別された時系列データに対応する作業情報を検索し、検索された作業情報を出力する。過去の作業情報は、情報システムに発生した現象に対して利用者が過去に行った判断または作業内容が登録された情報である。
図14は、過去の作業情報の検索処理を示すフローチャートであり、図3のステップST3の処理の詳細を示している。頻出パターン選別部231は、頻出パターンを要素とした時系列データ、文字列を要素した時系列データおよび数値を要素とした時系列データのうちの少なくとも一つから、重要度に応じて時系列データを選別する(ステップST1d)。例えば、頻出パターン選別部231は、頻出パターンを要素とした時系列データ、文字列を要素した時系列データおよび数値を要素とした時系列データのうち、利用者に提示する部分を、重要度を用いて選別する。
検索部232は、記憶装置4に記憶された過去の作業情報のうち、頻出パターン選別部231によって選別された時系列データに対応する作業情報を検索し、検索された作業情報を出力する(ステップST2d)。例えば、検索部232は、頻出パターンの識別値のリスト、アイテムの組み合わせのリストまたは条件部のみが成立する頻出パターンの識別値のリストにおける、同一の頻出パターンまたはアイテムの組み合わせに基づいて、記憶装置4に記憶されている頻出パターンに対応付けられた過去の作業情報を検索し、検索結果の作業情報を出力する。
なお、検索部232が検索に利用した頻出パターンまたは頻出パターン以外のアイテムの組み合わせが、利用者によって分析支援情報として利用された場合、検索部232は、これらを用いた作業における利用者の判断または作業内容を示す作業情報を生成し、生成した作業情報を記憶装置4に記憶する。また、記憶装置4に記憶する作業情報は、利用者が入力装置を用いて作成したものであってもよい。
図15Aは、記憶装置4に記憶された頻出パターン情報を示す図である。図15Bは、過去の作業情報の例を示す図である。例えば、記憶装置4には、図15Aに示すような、頻出パターンと、この頻出パターンに対応する現象に対する過去の作業情報とが、頻出パターン情報として記憶されている。検索部232は、頻出パターン選別部231によって頻出パターン「Pattern1」および「Pattern3」を含んだ時系列データが選別されると、頻出パターン「Pattern1」および「Pattern3」に基づいて、記憶装置4に記憶されている過去の作業情報を検索する。これにより、図15Bに示すような作業情報232Aが、記憶装置4から検索され、利用者に提示される。
検索部232は、記憶装置4に記憶された過去の作業情報のうち、頻出パターン選別部231によって選別された時系列データに対応する作業情報を検索する。これにより、過去に対応事例がある現象が再発した場合に、利用者は、この現象と紐づいた過去の作業情報に基づいて、問題箇所の特定および補修作業を行うことができる。このため、作業時間が短縮され、また、担当者ごとの対応作業の正確さのばらつきを抑えることができる。
これまでの説明は、タイムスタンプをインデックスとした時系列データについて示したが、データ分析装置2は、これに限定されるものではなく、一般に系列内及び系列間で順序関係の比較が可能なインデックスを持つ文字列の系列データおよび数値の系列データについても取り扱うことができる。
例えば、データ分析装置2は、画像データにおける画素位置の順序関係を定義した番号をインデックスとして、インデックスである番号で特定される画素値(数値)を要素とした系列データと、画素に付与された文字列からなる説明データ(文字列)を要素とした系列データとを取得し、これらの系列データに対して前述したデータ分析を実施する。このデータ分析結果は、画像の分析または不良画素の補間処理に活用することができる。
また、分析対象の情報システムのログデータおよび情報システムを構成する機器の状態を表す数値に対応したタイムスタンプを、アルファベットなどの順序が定義された記号に置き換えた系列データであっても、データ分析装置2は、前述したデータ分析を実施することができる。
また、分析対象の情報システムのログデータおよび情報システムを構成する機器の状態を表す数値に対応したタイムスタンプを、アルファベットなどの順序が定義された記号に置き換えた系列データであっても、データ分析装置2は、前述したデータ分析を実施することができる。
データ分析システム1において、データ分析装置2と記憶装置4との間は、通信ネットワークで接続されていてもよい。
また、データ分析装置2によるデータ分析処理は、共通の系列データを取り扱う他の分析処理と組み合わせると、分析結果の説明性がさらに向上する。例えば、情報システムの文字列形式のログデータを入力する異常検知装置がある場合、データ分析装置2が、異常検知装置が取得する同じログデータまたは同時に取得された他のログデータあるいは数値データに対して前述したデータ分析を実施する。データ分析装置2によるデータ分析結果は、異常検知装置が警告を発した現象の要因を分析するための分析支援情報となり得る。例えば、要因の事象が将来的に発生する頻度を予測することにより、情報システムが障害に至る前に検討する措置の内容を提供することができる。
データ分析装置2が図4に示した頻出パターン分析部21のみで構成される場合、データ分析装置2における文字列分類部211、数値分類部212、系列統合部213、頻出パターン抽出部214および頻出パターン検出部215の機能は、処理回路によって実現される。すなわち、データ分析装置2は、図8のステップST1bからステップST3bまでの処理を実行する処理回路を備える。処理回路は、専用のハードウェアであってもよいし、メモリに記憶されたプログラムを実行するCPU(Central Processing Unit)であってもよい。
図16Aは、データ分析装置2の機能を実現するハードウェア構成を示すブロック図である。図16Bは、データ分析装置2の機能を実現するソフトウェアを実行するハードウェア構成を示すブロック図である。図16Aおよび図16Bにおいて、入力インタフェース100は、入力装置3Aおよび3Bからデータ分析装置2へ出力される時系列データを中継する。出力インタフェース101は、例えば、データ分析装置2から、補間処理部22を備える装置へ出力される時系列データを中継する。
処理回路が、図16Aに示す専用のハードウェアの処理回路102である場合、処理回路102は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、または、これらを組み合わせたものが該当する。データ分析装置2における文字列分類部211、数値分類部212、系列統合部213、頻出パターン抽出部214および頻出パターン検出部215の機能は、別々の処理回路で実現されてもよいし、これらの機能がまとめて1つの処理回路で実現されてもよい。
処理回路が図16Bに示すプロセッサ103である場合は、データ分析装置2における文字列分類部211、数値分類部212、系列統合部213、頻出パターン抽出部214および頻出パターン検出部215の機能は、ソフトウェア、ファームウェアまたはソフトウェアとファームウェアとの組み合わせによって実現される。なお、ソフトウェアまたはファームウェアは、プログラムとして記述されてメモリ104に記憶される。
プロセッサ103は、メモリ104に記憶されたプログラムを読み出して実行することにより、データ分析装置2における文字列分類部211、数値分類部212、系列統合部213、頻出パターン抽出部214および頻出パターン検出部215の機能を実現する。例えば、データ分析装置2は、プロセッサ103によって実行されるときに、図8に示すフローチャートにおけるステップST1bからステップST3bの処理が結果的に実行されるプログラムを記憶するためのメモリ104を備える。これらのプログラムは、文字列分類部211、数値分類部212、系列統合部213、頻出パターン抽出部214および頻出パターン検出部215が行う各処理の手順または方法をコンピュータに実行させる。メモリ104は、コンピュータを文字列分類部211、数値分類部212、系列統合部213、頻出パターン抽出部214および頻出パターン検出部215として機能させるためのプログラムが記憶されたコンピュータ可読記憶媒体であってもよい。
メモリ104は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically-EPROM)などの不揮発性または揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVDなどが該当する。
また、データ分析装置2が備える、文字列分類部211、数値分類部212、系列統合部213、頻出パターン抽出部214および頻出パターン検出部215の機能の一部は専用ハードウェアで実現され、一部はソフトウェアまたはファームウェアで実現されてもよい。例えば、文字列分類部211および数値分類部212は、専用のハードウェアである処理回路102によってその機能が実現され、系列統合部213、頻出パターン抽出部214および頻出パターン検出部215は、プロセッサ103がメモリ104に記憶されたプログラムを読み出し実行することによりその機能が実現される。このように、処理回路は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせによって、上記機能を実現することができる。
以上のように、実施の形態1に係るデータ分析装置2は、分析対象の情報システムに関する文字列を要素とした系列データと、情報システムを構成する機器の状態を示す数値を要素とした系列データとを取得し、系列データごとに要素を分類クラスに分類し、分類クラスを示す分類値を要素とした系列データを出力する文字列分類部211および数値分類部212と、文字列の分類値を要素とした系列データおよび数値の分類値を要素とした系列データを一つの系列データにまとめる系列統合部213と、系列統合部213によって一つにまとめられた系列データを用いて、頻出する要素の組み合わせである頻出パターンの発生を検出する頻出パターン検出部215を備える。
分析対象の情報システムに関する文字列を要素とした系列データと情報システムを構成する機器の状態を示す数値を要素とした系列データとを一つの系列データにまとめることにより、一方の系列データが他方の系列データで補われた系列データに対して頻出パターンマイニングを実施できる。これにより、データ分析装置2は、分析対象の情報システムに発生した現象の分析に必要なデータを補うことができる。
分析対象の情報システムに関する文字列を要素とした系列データと情報システムを構成する機器の状態を示す数値を要素とした系列データとを一つの系列データにまとめることにより、一方の系列データが他方の系列データで補われた系列データに対して頻出パターンマイニングを実施できる。これにより、データ分析装置2は、分析対象の情報システムに発生した現象の分析に必要なデータを補うことができる。
実施の形態1に係るデータ分析装置2は、頻出パターン分析部21に加え、補間処理部22を備える。補間処理部22は、頻出パターン分析部21によって検出された頻出パターンを要素とした時系列データに基づいて、頻出パターンの発生率の推定値および頻出パターンの発生率の統計量を算出し、算出した頻出パターンの発生率の推定値と頻出パターンの発生率の統計量とを用いて、時系列データには含まれないタイムスタンプにおける要素を補間する。頻出パターンは、分析対象の情報システムに発生した現象と紐付くものであるため、頻出パターンに注目して情報システムに発生する現象を分析することにより、当該情報システムに外乱的に発生する現象を、効率よく分析することが可能である。さらに、頻出パターンを用いることで、情報システムの挙動の予測精度が向上する。
実施の形態1に係るデータ分析装置2は、頻出パターン分析部21に加え、検索処理部23を備える。検索処理部23は、頻出パターン分析部21によって検出された頻出パターンを要素とした時系列データ、文字列を要素した時系列データおよび数値を要素とした時系列データのうちの少なくとも一つから、重要度に応じて系列データを選別して、分析対象の情報システムに発生した現象に対する過去の作業情報のうち、選別した時系列データに対応する作業情報を検索して、検索された作業情報を出力する。
過去に対応事例がある現象が再発した場合に、利用者は、この現象と紐づいた過去の作業情報に基づいて、問題個所の特定および補修作業を行うことができる。このため、作業時間が短縮され、また担当者ごとの対応作業の正確さのばらつきを抑えることができる。
過去に対応事例がある現象が再発した場合に、利用者は、この現象と紐づいた過去の作業情報に基づいて、問題個所の特定および補修作業を行うことができる。このため、作業時間が短縮され、また担当者ごとの対応作業の正確さのばらつきを抑えることができる。
なお、実施の形態の任意の構成要素の変形もしくは実施の形態の任意の構成要素の省略が可能である。
1 データ分析システム、2 データ分析装置、3A,3B 入力装置、4 記憶装置、21 頻出パターン分析部、22 補間処理部、23 検索処理部、100 入力インタフェース、101 出力インタフェース、102 処理回路、103 プロセッサ、104 メモリ、211 文字列分類部、212 数値分類部、213 系列統合部、214 頻出パターン抽出部、215 頻出パターン検出部、221 頻出パターン発生率算出部、222 推定可否判定部、223 推定部、224 統計量算出部、225 補間データ算出部、231 頻出パターン選別部、232 検索部、232A 作業情報。
Claims (10)
- 系列内および系列間で要素の順序関係の比較が可能なインデックスをそれぞれ有した、分析対象の情報システムに関する文字列を要素とした系列データと、当該情報システムを構成する機器の状態を示す数値を要素とした系列データとを取得し、取得した系列データごとに要素を分類クラスに分類し、前記分類クラスを示す分類値を要素とした系列データを出力する分類部と、
前記文字列の分類値を要素とした系列データおよび前記数値の分類値を要素とした系列データを一つの系列データにまとめる統合部と、
前記統合部によって一つにまとめられた系列データを用いて、頻出する要素の組み合わせである頻出パターンの発生を検出する検出部と、
を備えたことを特徴とするデータ分析装置。 - 前記統合部によって一つにまとめられた系列データに含まれる要素の集合に対して前記インデックスの識別値を付与したトランザクションデータを生成し、前記トランザクションデータに対して頻出パターンマイニングを実施することにより頻出パターンを抽出する抽出部を備え、
前記検出部は、前記抽出部によって抽出された頻出パターンの発生を検出すること
を特徴とする請求項1に記載のデータ分析装置。 - 前記検出部は、前記トランザクションデータにおける要素の集合のうち、前記抽出部によって抽出された頻出パターンと一致するものがあるか否かに基づいて、頻出パターンの発生を検出すること
を特徴とする請求項2に記載のデータ分析装置。 - 前記検出部によって検出された頻出パターンを要素とした系列データに基づいて、頻出パターンの発生率の推定値および頻出パターンの発生率の統計量を算出し、算出した頻出パターンの発生率の推定値と頻出パターンの発生率の統計量とを用いて、系列データには含まれない前記インデックスにおける要素を補間する補間処理部、
を備えたことを特徴とする請求項1から請求項3のうちのいずれか1項に記載のデータ分析装置。 - 前記検出部によって検出された頻出パターンを要素とした系列データ、前記文字列を要素した系列データおよび前記数値を要素とした系列データのうちの少なくとも一つから、重要度に応じて系列データを選別し、前記情報システムに発生した現象に対する過去の作業情報のうち、選別した系列データに対応する作業情報を検索して、検索された作業情報を出力する検索処理部、
を備えたことを特徴とする請求項1から請求項4のうちのいずれか1項に記載のデータ分析装置。 - 前記補間処理部は、
前記検出部によって検出された頻出パターンを要素とした系列データを取得して、頻出パターンの発生率を算出する発生率算出部と、
前記発生率算出部によって算出された頻出パターンの発生率を要素とした系列データには含まれない前記インデックスにおける要素の補間値を推定可能であるか否かを判定する推定可否判定部と、
前記推定可否判定部によって推定可能であると判定された要素の補間値を推定する推定部と、
前記推定可否判定部によって推定不可であると判定された要素の統計分布を表す統計量を算出する統計量算出部と、
前記推定部によって推定された補間値と前記統計量算出部によって算出された統計量とを一つにまとめ、一つにまとめた系列データにおける補間値の推定値、補間値の推定値の代表値または補間値の推定値の範囲を要素とした系列データを算出する補間データ算出部と、を備えたこと
を特徴とする請求項4に記載のデータ分析装置。 - 前記補間データ算出部は、前記推定部によって推定された補間値、前記統計量算出部によって算出された統計量、および、頻出パターンに含まれる数値が分類された分類クラスを示す分類値を示す定義情報に基づいて、分析対象の前記情報システムを構成する機器の状態を示す数値の補間値の代表値または範囲を算出すること
を特徴とする請求項6に記載のデータ分析装置。 - 前記検索処理部は、
前記検出部によって検出された頻出パターンを要素とした系列データ、前記文字列を要素した系列データおよび前記数値を要素とした系列データのうちの少なくとも一つから、重要度に応じて系列データを選別する選別部と、
前記情報システムに発生した現象に対する過去の作業情報のうち、選別した系列データに対応する作業情報を検索して、検索された作業情報を出力する検索部と、
を備えたことを特徴とする請求項5に記載のデータ分析装置。 - 請求項1から請求項8のうちのいずれか1項に記載のデータ分析装置を備えたこと
を特徴とするデータ分析システム。 - コンピュータを、
系列内および系列間で要素の順序関係の比較が可能なインデックスをそれぞれ有した、分析対象の情報システムに関する文字列を要素とした系列データと、当該情報システムを構成する機器の状態を示す数値を要素とした系列データとを取得し、取得した系列データごとに要素を分類クラスに分類し、前記分類クラスを示す分類値を要素とした系列データを出力する分類部、
前記文字列の分類値を要素とした系列データおよび前記数値の分類値を要素とした系列データを一つの系列データにまとめる統合部、
前記統合部によって一つにまとめられた系列データを用いて、頻出する要素の組み合わせである頻出パターンの発生を検出する検出部、
として機能させるためのプログラム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021026011A JP7542459B2 (ja) | 2021-02-22 | 2021-02-22 | データ分析装置、データ分析システムおよびプログラム |
DE112021006561.0T DE112021006561T5 (de) | 2021-02-22 | 2021-11-22 | Datenanalysevorrichtung, datenanalysesystem und programm |
CN202180093825.0A CN116848513A (zh) | 2021-02-22 | 2021-11-22 | 数据分析装置、数据分析系统和程序 |
PCT/JP2021/042708 WO2022176298A1 (ja) | 2021-02-22 | 2021-11-22 | データ分析装置、データ分析システムおよびプログラム |
US18/216,245 US20230342402A1 (en) | 2021-02-22 | 2023-06-29 | Data analysis apparatus, data analysis system, and non-transitory computer-readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021026011A JP7542459B2 (ja) | 2021-02-22 | 2021-02-22 | データ分析装置、データ分析システムおよびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022127818A true JP2022127818A (ja) | 2022-09-01 |
JP7542459B2 JP7542459B2 (ja) | 2024-08-30 |
Family
ID=82931365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021026011A Active JP7542459B2 (ja) | 2021-02-22 | 2021-02-22 | データ分析装置、データ分析システムおよびプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230342402A1 (ja) |
JP (1) | JP7542459B2 (ja) |
CN (1) | CN116848513A (ja) |
DE (1) | DE112021006561T5 (ja) |
WO (1) | WO2022176298A1 (ja) |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3699807B2 (ja) * | 1997-06-30 | 2005-09-28 | 株式会社東芝 | 相関関係抽出装置 |
US20040054294A1 (en) * | 2002-09-18 | 2004-03-18 | Ramseth Douglas J. | Method and apparatus for interactive annotation and measurement of time series data with centralized analysis and review |
US20070136379A1 (en) * | 2005-02-14 | 2007-06-14 | Massie Darrell D | Process for integrating and applying quality control on irregular time-series data |
US7877233B2 (en) * | 2006-07-26 | 2011-01-25 | Invensys Systems, Inc. | Selectively presenting timestamped time-series data values for retrieved supervisory control and manufacturing/production parameters |
US10009391B1 (en) * | 2012-05-31 | 2018-06-26 | Leading Market Technologies, Inc. | Apparatus and method for acquiring, managing, sharing, monitoring, analyzing and publishing web-based time series data |
US20140032506A1 (en) * | 2012-06-12 | 2014-01-30 | Quality Attributes Software, Inc. | System and methods for real-time detection, correction, and transformation of time series data |
US20140180160A1 (en) * | 2012-10-12 | 2014-06-26 | Emery N. Brown | System and method for monitoring and controlling a state of a patient during and after administration of anesthetic compound |
US20140108324A1 (en) * | 2012-10-12 | 2014-04-17 | Nec Laboratories America, Inc. | Data analytic engine towards the self-management of complex physical systems |
US9734220B2 (en) * | 2012-12-04 | 2017-08-15 | Planet Os Inc. | Spatio-temporal data processing systems and methods |
US10496927B2 (en) * | 2014-05-23 | 2019-12-03 | DataRobot, Inc. | Systems for time-series predictive data analytics, and related methods and apparatus |
US10198159B2 (en) * | 2015-04-28 | 2019-02-05 | Osisoft, Inc. | Multi-context sensor data collection, integration, and presentation |
US20220263852A1 (en) * | 2015-10-28 | 2022-08-18 | Qomplx, Inc. | System and method for cybersecurity analysis and score generation for insurance purposes |
US10643278B2 (en) * | 2016-01-20 | 2020-05-05 | Chicago Mercantile Exchange Inc. | Futures margin modeling system |
JP6535130B2 (ja) | 2016-03-07 | 2019-06-26 | 日本電信電話株式会社 | 分析装置、分析方法および分析プログラム |
CN109643397B (zh) * | 2016-09-06 | 2023-07-21 | 日本电信电话株式会社 | 时间序列数据特征量提取装置、时间序列数据特征量提取方法和时间序列数据特征量提取程序 |
JP6643211B2 (ja) * | 2016-09-14 | 2020-02-12 | 株式会社日立製作所 | 異常検知システム及び異常検知方法 |
US10061677B2 (en) * | 2016-11-16 | 2018-08-28 | Anodot Ltd. | Fast automated detection of seasonal patterns in time series data without prior knowledge of seasonal periodicity |
JPWO2018101363A1 (ja) * | 2016-11-30 | 2019-10-24 | 日本電気株式会社 | 状態推定装置と方法とプログラム |
US11163747B2 (en) * | 2017-05-05 | 2021-11-02 | Servicenow, Inc. | Time series data forecasting |
US20210073320A1 (en) * | 2018-01-03 | 2021-03-11 | Cham Ocondi | Video, audio, and historical trend data interpolation |
JP6933996B2 (ja) * | 2018-05-16 | 2021-09-08 | 株式会社日立製作所 | 電力計画支援装置 |
US20200342968A1 (en) * | 2019-04-24 | 2020-10-29 | GE Precision Healthcare LLC | Visualization of medical device event processing |
GB201908091D0 (en) * | 2019-06-06 | 2019-07-24 | Palantir Technologies Inc | Time series databases |
US11138200B1 (en) * | 2019-12-04 | 2021-10-05 | Tubular Labs, Inc. | Efficient aggregation of time series data |
US20210256358A1 (en) * | 2020-02-06 | 2021-08-19 | Royal Bank Of Canada | Systems and methods for modeling continuous stochastic processes with dynamic normalizing flows |
US11768915B1 (en) * | 2020-08-03 | 2023-09-26 | Amdocs Development Limited | System, method, and computer program for anomaly detection in time-series data with mixed seasonality |
US20220147669A1 (en) * | 2020-11-07 | 2022-05-12 | International Business Machines Corporation | Scalable Modeling for Large Collections of Time Series |
US20220198263A1 (en) * | 2020-12-23 | 2022-06-23 | Microsoft Technology Licensing, Llc | Time series anomaly detection |
-
2021
- 2021-02-22 JP JP2021026011A patent/JP7542459B2/ja active Active
- 2021-11-22 WO PCT/JP2021/042708 patent/WO2022176298A1/ja active Application Filing
- 2021-11-22 DE DE112021006561.0T patent/DE112021006561T5/de active Pending
- 2021-11-22 CN CN202180093825.0A patent/CN116848513A/zh active Pending
-
2023
- 2023-06-29 US US18/216,245 patent/US20230342402A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
CN116848513A (zh) | 2023-10-03 |
DE112021006561T5 (de) | 2023-11-23 |
US20230342402A1 (en) | 2023-10-26 |
WO2022176298A1 (ja) | 2022-08-25 |
JP7542459B2 (ja) | 2024-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10068176B2 (en) | Defect prediction method and apparatus | |
CN110413483B (zh) | 批量作业数据的监控方法、装置、电子设备及存储介质 | |
CN111158977A (zh) | 一种异常事件根因定位方法及装置 | |
JP7195264B2 (ja) | 段階的な機械学習を使用する自動化された意思決定 | |
AU2019275633B2 (en) | System and method of automated fault correction in a network environment | |
US11481692B2 (en) | Machine learning program verification apparatus and machine learning program verification method | |
CN103365829A (zh) | 信息处理装置、信息处理方法和程序 | |
CN109101661A (zh) | 一种数据样本集合中异常点的检测方法和装置 | |
WO2024139255A1 (zh) | 根因定位的方法、装置、设备和可读介质 | |
WO2021109874A1 (zh) | 拓扑图生成方法、异常检测方法、装置、设备及存储介质 | |
US10346616B2 (en) | Systems and methods for data loss prevention | |
CN112416800A (zh) | 智能合约的测试方法、装置、设备及存储介质 | |
CN110472742B (zh) | 一种模型变量确定方法、装置及设备 | |
US8543552B2 (en) | Detecting statistical variation from unclassified process log | |
WO2019087275A1 (ja) | 作業分析装置、及び作業分析方法 | |
Lahann et al. | LSTM-based anomaly detection of process instances: benchmark and tweaks | |
CN114239697A (zh) | 目标对象的分类方法、装置、电子设备及存储介质 | |
CN117785539A (zh) | 日志数据分析方法、装置、计算机设备及存储介质 | |
WO2022176298A1 (ja) | データ分析装置、データ分析システムおよびプログラム | |
CN112465012A (zh) | 机器学习建模方法、装置、电子设备和可读存储介质 | |
JP2007164346A (ja) | 決定木変更方法、異常性判定方法およびプログラム | |
CN114662116A (zh) | 基于大数据的业务运行漏洞查找方法及云端深度学习系统 | |
CN109284354B (zh) | 脚本搜索方法、装置、计算机设备及存储介质 | |
CN114219967A (zh) | 一种生产数据处理的方法、装置、设备及存储介质 | |
JP6861176B2 (ja) | プロジェクト見積り支援方法およびプロジェクト見積り支援装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231017 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240723 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240820 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7542459 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |