JP2022127818A

JP2022127818A - データ分析装置、データ分析システムおよびプログラム

Info

Publication number: JP2022127818A
Application number: JP2021026011A
Authority: JP
Inventors: 由浩三塚; Yoshihiro Mitsuzuka; 好邦宮田; Yoshikuni Miyata; 基文阿波; Motofumi Awa; 亮佑酒井; Ryosuke Sakai
Original assignee: Mitsubishi Electric Corp; Mitsubishi Electric Information Network Corp
Current assignee: Mitsubishi Electric Corp; Mitsubishi Electric Information Network Corp
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2022-09-01
Anticipated expiration: 2041-02-22
Also published as: CN116848513A; DE112021006561T5; US20230342402A1; WO2022176298A1; JP7542459B2

Abstract

【課題】情報システムに発生した現象の分析に必要なデータを補うことができるデータ分析装置、データ分析システムおよびプログラムを提供する。【解決手段】データ分析装置（２）は、系列内および系列間で要素の順序関係の比較が可能なインデックスをそれぞれ有した、分析対象の情報システムに関する文字列を要素とした系列データと、情報システムを構成する機器の状態を示す数値を要素とした系列データとを取得し、取得した系列データごとに要素を分類クラスに分類し、分類クラスを示す分類値を要素とした系列データを出力する文字列分類部（２１１）および数値分類部（２１２）と、文字列の分類値を要素とした系列データおよび数値の分類値を要素とした系列データを一つの系列データにまとめる系列統合部（２１３）と、系列統合部（２１３）によって一つにまとめられた系列データを用いて、頻出する要素の組み合わせである頻出パターンの発生を検出する頻出パターン検出部（２１５）を備える。【選択図】図４

Description

本開示は、データ分析装置、データ分析システムおよびプログラムに関する。

情報システムを構成する機器から出力された文字列のログデータに対して頻出パターンマイニングを適用することで、情報システムに発生した現象を分析する技術が提案されている。例えば、非特許文献１には、文字列のログデータにおける各行のデータを分類した結果に対して頻出パターンマイニングを実施することにより、分析対象の情報システムに発生した現象を分析する従来の技術が記載されている。

Ｆ．Ｌｉｎ，Ｋ．Ｍｕｚｕｍｄａｒ，Ｎ．Ｐ．Ｌａｐｔｅｖ，Ｍ．－Ｖ．Ｃｕｒｅｌｅａ，Ｓ．Ｌｅｅ，ａｎｄＳ．Ｓａｎｋａｒ， "Ｆａｓｔｄｉｍｅｎｓｉｏｎａｌａｎａｌｙｓｉｓｆｏｒｒｏｏｔｃａｕｓｅｉｎｖｅｓｔｉｇａｔｉｏｎｉｎａｌａｒｇｅ－ｓｃａｌｅｓｅｒｖｉｃｅｅｎｖｉｒｏｎｍｅｎｔ，" ｉｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＣＭｏｎＭｅａｓｕｒｅｍｅｎｔａｎｄＡｎａｌｙｓｉｓｏｆＣｏｍｐｕｔｉｎｇＳｙｓｔｅｍｓ（ＰＯＭＡＣＳ），２０２０．

しかしながら、非特許文献１に記載された従来の技術は、頻出パターンマイニングするログデータが、分析に必要な情報が不足したデータである場合、分析対象の情報システムに発生した現象の分析精度が低下するという課題があった。

本開示は上記課題を解決するものであり、情報システムに発生した現象の分析に必要なデータを補うことができるデータ分析装置、データ分析システムおよびプログラムを得ることを目的とする。

本開示に係るデータ分析装置は、系列内および系列間で要素の順序関係の比較が可能なインデックスをそれぞれ有した、分析対象の情報システムに関する文字列を要素とした系列データと、情報システムを構成する機器の状態を示す数値を要素とした系列データとを取得し、取得した系列データごとに要素を分類クラスに分類し、分類クラスを示す分類値を要素とした系列データを出力する分類部と、文字列の分類値を要素とした系列データおよび数値の分類値を要素とした系列データを一つの系列データにまとめる統合部と、統合部によって一つにまとめられた系列データを用いて、頻出する要素の組み合わせである頻出パターンの発生を検出する検出部を備える。

本開示によれば、分析対象の情報システムに関する文字列を要素とした系列データと、情報システムを構成する機器の状態を示す数値を要素とした系列データとを、一つの系列データにまとめることで、一方の系列データが他方の系列データで補われた系列データに対して頻出パターンマイニングを実施できる。これにより、本開示に係るデータ分析装置は、情報システムに発生した現象の分析に必要なデータを補うことができる。

実施の形態１に係るデータ分析システムの構成を示すブロック図である。図２Ａは、文字列を要素とした時系列データの例を示す図であり、図２Ｂは、数値を要素とした時系列データの例を示すグラフであり、図２Ｃは、時系列データには含まれないタイムスタンプにおける要素を補間した時系列データの例を示すグラフである。実施の形態１に係るデータ分析装置の動作を示すフローチャートである。頻出パターン分析部の構成を示すブロック図である。頻出パターン分析部の学習時の動作を示すフローチャートである。図６Ａは、文字列を要素とした時系列データの例を示す図であり、図６Ｂは、数値を要素とした時系列データの例を示すグラフであり、図６Ｃは、文字列の分類値を要素とした時系列データの例を示す図であり、図６Ｄは、数値の分類値を要素とした時系列データの例を示す図である。頻出パターンの抽出処理の概要を示す図である。実施の形態１に係るデータ分析方法を示すフローチャートである。頻出パターンの検出処理の概要を示す図である。補間処理部の構成を示すブロック図である。時系列データの補間処理を示すフローチャートである。図１２Ａは、文字列を要素とした時系列データの例を示す図であり、図１２Ｂは、数値を要素とした時系列データの例を示すグラフであり、図１２Ｃは、補間された時系列データの例を示すグラフである。検索処理部の構成を示すブロック図である。過去の作業情報の検索処理を示すフローチャートである。図１５Ａは、記憶装置に記憶された頻出パターン情報を示す図であり、図１５Ｂは、過去の作業情報の例を示す図である。図１６Ａは、実施の形態１に係るデータ分析装置の機能を実現するハードウェア構成を示すブロック図であり、図１６Ｂは、実施の形態１に係るデータ分析装置の機能を実現するソフトウェアを実行するハードウェア構成を示すブロック図である。

実施の形態１．
図１は、実施の形態１に係るデータ分析システム１の構成を示すブロック図である。図１において、データ分析システム１は、分析対象の情報システムに発生した現象の分析を行うシステムである。情報システムは、各種の情報を取り扱うシステムであり、例えば、情報のやり取りに関連した動作を行う機器を含んで構成されている。また、情報システムには、例えば、データベース、データウェアハウス、データ統合サービス、分散型アプリケーションまたはウェブサービスを実現するコンピュータシステムがある。

データ分析システム１は、データ分析装置２、入力装置３Ａ、入力装置３Ｂおよび記憶装置４を備える。データ分析装置２は、分析対象の情報システムに関連する時系列データを取得し、取得した時系列データを用いてデータ分析を行う。
入力装置３Ａは、分析対象の情報システムに関する文字列を要素とした時系列データの入力を受け付け、受け付けた文字列の時系列データをデータ分析装置２に出力する。入力装置３Ｂは、情報システムを構成する機器の状態を示す数値を要素とした時系列データの入力を受け付け、受け付けた数値の時系列データをデータ分析装置２に出力する。
また、分析対象の情報システムから取得された文字列を要素とした時系列データおよび数値を要素とした時系列データは、系列内および系列間で要素の順序関係の比較が可能なインデックスであるタイムスタンプをそれぞれ有している。

記憶装置４は、頻出パターンの定義情報を記憶している。定義情報が示す頻出パターンは、分析対象の情報システムから取得された時系列データの中から、データ分析装置２によって抽出された頻出パターンであってもよいし、ユーザによって設定または修正された同様の形式のデータであってもよい。さらに、記憶装置４には、情報システムに発生した現象に対する過去の作業情報と頻出パターンとが対応付けて記憶されている。

図２Ａは、文字列を要素とした時系列データの例を示す図である。頻出パターン分析部２１によって取得される文字列の時系列データには、時系列内または時系列データ間で文字列の順序関係の比較が可能なタイムスタンプが設定されている。例えば、図２Ａに示す時系列データには、「Ｏｃｔ１００：００：００」というタイムスタンプと、「ｒｅｃｅｉｖｅｄｘｘｘ」という文字列が対応付けられている。タイムスタンプは、図２Ａに示す時系列内のアイテムの順序関係を比較でき、時系列データ間での要素の順序関係の比較も可能である。

図２Ｂは、数値を要素とした時系列データの例を示すグラフである。頻出パターン分析部２１が取得する数値の時系列データ（１）は、例えば、図２Ｂに示すように、分析対象の情報システムを構成する機器の状態を表す数値と時間との関係を示すグラフで表すことができる。機器の状態を表す数値が時系列データの要素であり、時間軸の各時間がタイムスタンプである。図２Ｂにおいて、時系列データ（１）は時刻Ｔ１までの時系列である。

図２Ｃは、時系列データには含まれないタイムスタンプにおける要素を補間した時系列データの例を示すグラフである。図２Ｃに示す時系列データ（１）には、補間処理部２２によって、図２Ｂに示した時系列データ（１）には含まれないタイムスタンプ、すなわち時刻Ｔ１以降のタイムスタンプにおける要素の推定値の代表値が補間されている。時系列データ（１）に補間された要素の推定値の代表値は、例えば、タイムスタンプごとの平均値（１ａ）、最大値（１ｂ）および最小値（１ｃ）である。

データ分析装置２は、頻出パターン分析部２１、補間処理部２２および検索処理部２３を備える。図３は、データ分析装置２の動作を示すフローチャートである。頻出パターン分析部２１は、分析対象の情報システムに関する文字列を要素とした系列データと、上記情報システムを構成する機器の状態を示す数値を要素とした系列データとを取得し、取得した時系列データを用いた頻出パターン分析を行う（ステップＳＴ１）。

例えば、頻出パターン分析部２１は、入力装置３Ａによって入力が受け付けられた文字列の時系列データと入力装置３Ｂによって入力が受け付けられた数値の時系列データとを一つにまとめ、一つにまとめた時系列データにおける要素を、タイムスタンプが示す順序関係に基づいて並べ替える。そして、頻出パターン分析部２１は、要素を並べ替えた時系列データを用いて、頻出する要素の組み合わせである頻出パターンの発生を検出する。

補間処理部２２は、頻出パターン分析部２１によって検出された頻出パターンを要素とした時系列データを入力し、入力した時系列データに含まれないタイムスタンプにおける要素を補間し、補間された時系列データを出力する（ステップＳＴ２）。例えば、補間処理部２２は、頻出パターン分析部２１によって検出された頻出パターンの時系列データを用いて、頻出パターンの発生率の推定値と頻出パターンの発生率の統計量とを算出する。そして、補間処理部２２は、頻出パターンの発生率の推定値と頻出パターンの発生率の統計量とを用いて、時系列データには含まれないタイムスタンプにおける要素を補間する。

検索処理部２３は、頻出パターン分析部２１によって検出された頻出パターンに対応した現象に対する過去の作業情報を検索することにより、検索結果の作業情報を出力する（ステップＳＴ３）。例えば、検索処理部２３は、頻出パターン分析部２１によって検出された頻出パターンを要素とした時系列データ、分析対象の情報システムから取得された文字列を要素とした時系列データおよび数値を要素とした時系列データのうち少なくとも一つから、重要度に応じて時系列データを選別する。そして、検索処理部２３は、記憶装置４に記憶された作業情報のうち、選別した時系列データに対応する作業情報を検索し、検索した作業情報を出力する。

図４は、頻出パターン分析部２１の構成を示すブロック図である。図４において、頻出パターン分析部２１は、文字列分類部２１１、数値分類部２１２、系列統合部２１３、頻出パターン抽出部２１４および頻出パターン検出部２１５を備える。データ分析装置２が分析対象の情報システムに発生した現象に対応する頻出パターンを学習する学習フェーズにおいては、頻出パターン分析部２１のみが動作する。頻出パターン分析部２１は、分析対象の情報システムから取得された文字列の時系列データおよび数値の時系列データを、学習用データとして用いて、分析対象の頻出パターンを抽出する。

データ分析装置２は、分析対象の情報システムに関する文字列を要素とした系列データと、情報システムを構成する機器の状態を示す数値を要素とした系列データとを、一つの系列データにまとめることにより、一方の系列データが他方の系列データで補われた系列データに対して頻出パターンマイニングを実施できる。例えば、補間処理部２２および検索処理部２３によって生成される情報が不要な用途に限定されたデータ分析装置２は、図４に示した頻出パターン分析部２１の構成要素のみを備えていればよい。すなわち、図４に示した頻出パターン分析部２１が、データ分析装置２として機能する。

文字列分類部２１１は、分析対象の情報システムに関する文字列を要素とした時系列データを取得し、取得した時系列データの各タイムスタンプにおける文字列を分類クラスに分類し、分類クラスを示す分類値を要素とした時系列データを出力する分類部である。
例えば、文字列分類部２１１は、時系列データの各タイムスタンプにおける文字列のうち、予め設定された複数の文字列のテンプレートのいずれかに合致するものを分類し、合致するテンプレートがない場合は、そのタイムスタンプにおける要素はないものとする。また、文字列分類部２１１は、分析対象の情報システムから取得されたログデータの各行の文字列を分類する。

数値分類部２１２は、分析対象の情報システムを構成する機器の状態を示す数値を要素とした時系列データを取得して、取得した時系列データの各タイムスタンプにおける要素を分類クラスに分類し、分類クラスを示す分類値を要素とした時系列データを出力する分類部である。数値分類部２１２は、取得した時系列データのタイムスタンプに関連する数値の集合、例えば、タイムスタンプの時間的近傍に存在する数値のリストを分類クラスに分類して、分類クラスを示す分類値を要素とした時系列データを出力する。

タイムスタンプの時間的近傍とは、時系列データにおけるタイムスタンプを含む時間的な範囲である。例えば、タイムスタンプの時間的近傍は、タイムスタンプの時刻を基準とした前後３秒間というような時間的な範囲である。例えば、数値分類部２１２は、取得した時系列データのタイムスタンプにおける数値または数値のリストの代表値のうち、予め設定された複数の数値の区間のいずれかに属するものを分類し、合致する範囲がない場合には、そのタイムスタンプにおける要素はないものとする。また、数値分類部２１２は、取得した時系列データのタイムスタンプにおける数値または数値のリストが示すグラフの形状のうち、予め設定された複数の数値が示すグラフの形状に類似するものを分類する。

系列統合部２１３は、文字列の分類値を要素とした系列データと、数値の分類値を要素とした系列データとを一つの系列データにまとめる統合部である。
例えば、系列統合部２１３は、文字列の分類値を要素とした系列データと数値の分類値を要素とした系列データとをタイムスタンプが示す時間方向に結合し、タイムスタンプが示す順序関係に従い要素を並べ替えた時系列データを生成する。
これにより、文字列形式のログデータには含まれていない、分析対象の情報システムに発生した現象に関する情報が、機器の状態を表す数値の時系列データに由来するデータによって補われる。
以下の説明において、時系列データの要素または要素のリストの分類値を、アイテムと記載する。

頻出パターン抽出部２１４は、系列統合部２１３から出力された時系列データに含まれるアイテムの集合に対してタイムスタンプの識別値を付与したトランザクションデータを生成し、トランザクションデータに対して頻出パターンマイニングを実施することにより頻出パターンを抽出する抽出部である。例えば、頻出パターン抽出部２１４は、アイテムの集合における部分的な集合の発生頻度に基づいて、上記時系列データに頻出していると判定されたアイテムの組み合わせを、頻出パターンとして抽出する。

頻出パターンは、アイテムの順不同な組み合わせであるが、それを相関ルールとして条件部と結論部に分けて表してもよい。また、条件部および結論部のそれぞれをさらに頻出パターンとして扱うことも可能である。例えば、頻出パターンには、アイテムの組み合わせに含まれる特定のアイテムの集合を、頻出パターンマイニングの相関ルールにおける条件部とし、残りのアイテムの集合を相関ルールにおける結論部とし、条件部が成立するときに結論部が発生する確信度を表す数値を付与したものを用いてもよい。例えば、トランザクションデータ｛ａ，ｂ，ｃ，ｄ，ｅ，ｆ｝の中での頻出パターンとしての「アイテムの順不同な組み合わせ」が｛ａ，ｂ，ｃ，ｄ｝であり、その中の条件部が｛ａ，ｃ｝である場合、「残りのアイテムの集合」である｛ｂ，ｄ｝が結論部となる。
なお、頻出パターンは、分析対象の情報システムに何らかの現象が発生したことにより頻出するようになったアイテムの集合であり、その中の一部分のアイテムの集合に対してその要因を示すデータとして活用することができる。

なお、アイテムの集合は、重複のないアイテムの順不同な組み合わせである。例えば、時系列データにおける個々のタイムスタンプの時間的近傍に含まれる要素のアイテムのリストからアイテムの重複を取り除くことにより、時系列データからアイテムの集合を生成することができる。また、頻出パターン抽出部２１４は、時系列データを用いてトランザクションデータを生成し、生成したトランザクションデータに対してアソシエーション分析を実施することにより、頻出パターンを抽出することができる。

トランザクションデータは、アイテムの集合の発生事象ごとにアイテムの集合に識別値を付与して区別したデータである。例えば、物品販売の会計処理において、購入品の組み合わせがアイテムの集合であり、アイテムの集合に付与された会計処理の処理番号により管理される購入履歴データが、頻出パターンマイニングが行われる対象のトランザクションデータである。

頻出パターン検出部２１５は、系列統合部２１３から出力された時系列データのうち、頻出する要素の組み合わせである頻出パターンの発生を検出する検出部である。例えば、頻出パターン検出部２１５は、時系列データを用いてトランザクションデータを生成し、生成したトランザクションデータに含まれるアイテムの集合と、記憶装置４に記憶された頻出パターンの定義情報とを比較する。記憶装置４に記憶された頻出パターンの定義情報に合致するアイテムの集合がある場合に、頻出パターン検出部２１５は、分析対象の情報システムから取得された時系列データに頻出パターンが発生したと判定する。

頻出パターン検出部２１５は、各タイムスタンプの時間的近傍で発生した頻出パターンの識別値の時系列データを生成し、生成した時系列データを補間処理部２２に出力する。
頻出パターン検出部２１５は、各タイムスタンプの時間的近傍で発生した頻出パターンの識別値の時系列データを生成し、生成した時系列データを検索処理部２３に出力する。

また、頻出パターン検出部２１５は、頻出パターンに属さないアイテムの組み合わせであって学習フェーズに比べて発生頻度の高いアイテムの集合を要素とした時系列データを生成し、生成した時系列データを検索処理部２３に出力する。さらに、頻出パターン検出部２１５は、相関ルールにおける条件部、結論部、および、条件部が成立するときに結論部が発生する確信度の組み合わせで頻出パターンが表現される場合、条件部のみが存在し結論部が存在しない頻出パターンの識別値を要素とした時系列データを、検索処理部２３に出力する。

補間処理部２２または検索処理部２３がない場合、頻出パターン検出部２１５から補間処理部２２または検索処理部２３に出力される上記時系列データは、情報システムの分析支援情報として表形式またはグラフ形式で表示装置に表示することにより、利用者に提示することも可能である。

図５は、頻出パターン分析部２１の学習時の動作を示すフローチャートであり、データ分析装置２が分析対象の情報システムに発生した現象に対応する頻出パターンを学習する学習フェーズの動作を示している。
文字列分類部２１１は、入力装置３Ａが受け付けた文字列を要素とした時系列データの各タイムスタンプにおける文字列を分類クラスに分類し、数値分類部２１２は、入力装置３Ｂが受け付けた数値を要素とした時系列データの各タイムスタンプにおける数値を分類クラスに分類する（ステップＳＴ１ａ）。文字列分類部２１１と数値分類部２１２とは、互いに独立して動作し、どちらの動作が先行してもよいし、並行して動作してもよい。

図６Ａは、文字列を要素とした時系列データの例を示す図である。文字列分類部２１１は、例えば、図６Ａに示す時系列データを取得する。図６Ｂは、数値を要素とした時系列データの例を示すグラフである。数値分類部２１２は、例えば、図６Ｂに示す時系列データを取得する。

図６Ｃは、文字列の分類値を要素とした時系列データの例を示す図である。文字列分類部２１１は、図６Ａに示す時系列データの各タイムスタンプにおける文字列を分類クラスに分類すると、分類クラスを示す分類値を要素とした、図６Ｃに示すような時系列データを出力する。例えば、図６Ａに示す時系列データにおける、単語「ｒｅｃｅｉｖｅｄ」を含む文字列である「ｒｅｃｅｉｖｅｄｘｘｘ」および「ｒｅｃｅｉｖｅｄｙｙｙ」の分類値は「Ｌ３」であり、単語「ｓｅｎｔ」を含む文字列である「ｓｅｎｔａｂｃ」および「ｓｅｎｔａｂｄ」の分類値は「Ｌ５」である。文字列分類部２１１は、図６Ｃに示すように、文字列の分類値を要素とした時系列データを生成し、生成した時系列データを系列統合部２１３に出力する。

図６Ｄは、数値の分類値を要素とした時系列データの例を示す図である。数値分類部２１２は、図６Ｂに示す時系列データの各タイムスタンプにおける数値を分類クラスに分類すると、分類クラスを示す分類値を要素とした、図６Ｄに示すような時系列データを出力する。例えば、図６Ｂに示すグラフにおける、各時刻を示すタイムスタンプの時間的近傍に存在する数値が分類されて、分類値「Ｍ３」などが付与される。数値分類部２１２は、図６Ｄに示すように、数値の分類値を要素とした時系列データを生成し、生成した時系列データを系列統合部２１３に出力する。

次に、系列統合部２１３は、文字列の分類値を要素とした系列データと、数値の分類値を要素とした系列データとを一つの系列データにまとめる統合処理を行う（ステップＳＴ２ａ）。図７は、頻出パターンの抽出処理の概要を示す図である。例えば、系列統合部２１３は、図６Ｃに示す文字列の分類値を要素とした時系列データと、図６Ｄに示す数値の分類値を要素とした時系列データとを一つにまとめる、タイムスタンプに従って順序関係を並べ替えることにより、図７の左側に示すような、いわゆる統合された時系列データを算出する。

図７の左側に示す時系列データにおいては、統合される前の両方の時系列データに含まれるタイムスタンプには、文字列の分類値と数値の分類値とが設定され、統合前の一方の時系列データに含まれていなくても、他方の時系列データに含まれるタイムスタンプについては分類値が設定される。すなわち、統合された時系列データは、一方の時系列データと他方の時系列データとが互いのアイテムを補間するデータとなる。

頻出パターン抽出部２１４は、系列統合部２１３から出力された時系列データに含まれるアイテムの集合に対してタイムスタンプの識別値を付与したトランザクションデータを生成し、トランザクションデータに対して頻出パターンマイニングを実施することにより頻出パターンを抽出する（ステップＳＴ３ａ）。

例えば、頻出パターン抽出部２１４は、図７の右側に示すように、アイテム「Ｍ０」のタイムスタンプの時間的近傍に、図７の左側に示す時系列データに頻出しているアイテム「Ｌ３」および「Ｌ５」が存在するので、これらの集合を頻出パターン「Ｐａｔｔｅｒｎ１」として抽出する。頻出パターン抽出部２１４は、同様の手順で、アイテム「Ｌ３」および「Ｌ５」の集合である、頻出パターン「Ｐａｔｔｅｒｎ２」を抽出し、アイテム「Ｌ１」、「Ｍ４」、「Ｍ５」および「Ｍ６」の集合である、頻出パターン「Ｐａｔｔｅｒｎ３」を抽出する。

頻出パターン抽出部２１４は、頻出パターンの抽出処理に、ニューラルネットワーク等を用いた機械学習を行ってもよい。例えば、頻出パターン抽出部２１４は、図７の左側に示す時系列データを入力とし、分析対象の情報システムにおける頻出パターンを出力する学習モデルを用いる。頻出パターン分析部２１が、学習フェーズにおいて、図５に示した一連の処理を繰り返す。図５の処理を繰り返した際に、分析対象の情報システムから取得された時系列データを学習用データとして、頻出パターン抽出部２１４は、当該情報システムにおける頻出パターンを学習する。頻出パターン抽出部２１４によって抽出された頻出パターンの定義情報は、記憶装置４に記憶される。

データ分析装置２は、分析対象の情報システムの状態が文字列形式で表されたログデータに加え、当該情報システムを構成する機器の状態を直接表す数値の時系列データを用いて分析処理を行う。これにより、学習結果の頻出パターンが詳細化されるので、頻出パターンを用いて生成され、推論フェーズにおいて利用される、情報システムの分析支援情報を詳細化することができる。

図８は、実施の形態１に係るデータ分析方法を示すフローチャートであり、図３のステップＳＴ１の処理の詳細を示している。図８の一連の処理は、推論フェーズにおける頻出パターン分析部２１の動作である。なお、図８におけるステップＳＴ１ｂおよびステップＳＴ２ｂは、図５におけるステップＳＴ１ａおよびステップＳＴ２ａと同じ処理であるので、説明を省略する。

推論フェーズにおいては、頻出パターン分析部２１が単独に動作するか、あるいは、頻出パターン検出部２１５から出力された時系列データを用いて補間処理部２２または検索処理部２３が動作する。さらに、推論フェーズにおいては、頻出パターン抽出部２１４は動作しない。頻出パターン検出部２１５は、分析対象の情報システムから取得された時系列データが、学習フェーズにおいて得られた頻出パターンと一致するか否かに基づいて、分析対象の情報システムにおける頻出パターンの発生が検出される。

頻出パターン検出部２１５は、系列統合部２１３から出力された時系列データのうち、頻出する要素の組み合わせである頻出パターンの発生を検出する（ステップＳＴ３ｂ）。例えば、頻出パターン検出部２１５は、入力した時系列データを用いてトランザクションデータを生成し、トランザクションデータに含まれるアイテムの集合と記憶装置４に記憶された頻出パターンとが比較される。

図９は、頻出パターンの検出処理の概要を示す図である。例えば、図９の左側に示す統合された時系列データに含まれるアイテムの集合には、図９の右側に示すように、記憶装置４に記憶された頻出パターンである「Ｐａｔｔｅｒｎ１」、「Ｐａｔｔｅｒｎ２」および「Ｐａｔｔｅｒｎ３」と一致するものがある。これにより、頻出パターン検出部２１５は、分析対象の情報システムにおける頻出パターンの発生を検出する。

頻出パターン検出部２１５は、分析対象の情報システムにおける頻出パターンの発生を検出すると、各タイムスタンプの時間的近傍で発生した頻出パターンの識別値の時系列データを生成し、生成した時系列データを補間処理部２２に出力する。また、頻出パターン検出部２１５は、各タイムスタンプの時間的近傍で発生した頻出パターンの識別値の時系列データを生成し、生成した時系列データを検索処理部２３に出力する。

また、頻出パターン検出部２１５は、分析対象の情報システムにおける頻出パターンの発生を検出すると、頻出パターンに属さないアイテムの組み合わせであって学習フェーズに比べて発生頻度の高いアイテムの集合を要素とした時系列データを生成し、生成した時系列データを検索処理部２３に出力する。さらに、頻出パターン検出部２１５は、相関ルールにおける条件部、結論部、および、条件部が成立するときに結論部が発生する確信度の組み合わせで頻出パターンが表現される場合、条件部のみが存在し結論部が存在しない頻出パターンの識別値を要素とした時系列データを、検索処理部２３に出力する。

前述したように、時系列データごとに分類処理を実施した後に、それぞれの分類値を、一つの時系列データにまとめて頻出パターンマイニングを実施することで、複数の時系列データ間でそれぞれが要素を持つタイムスタンプを一致させる必要がない。すなわち、分析に用いる一つの時系列データの利用範囲を広げることが可能である。

図１０は、補間処理部２２の構成を示すブロック図である。図１０において、補間処理部２２は、頻出パターン発生率算出部２２１、推定可否判定部２２２、推定部２２３、統計量算出部２２４および補間データ算出部２２５を備える。頻出パターン発生率算出部２２１は、頻出パターン検出部２１５によって検出された頻出パターンを要素とした系列データを取得して頻出パターンの発生率を算出する発生率算出部である。例えば、頻出パターン発生率算出部２２１は、個々のタイムスタンプの時間的近傍に含まれる頻出パターンの発生回数を、時間的近傍を規定する時間範囲の総時間で除算した値を、頻出パターンの発生率として算出する。頻出パターンの発生率は、頻出パターンごとに算出される。

推定可否判定部２２２は、頻出パターン発生率算出部２２１によって算出された頻出パターンの発生率を要素とした系列データには含まれないタイムスタンプにおける要素の補間値を推定可能であるか否かを判定する。例えば、推定可否判定部２２２は、頻出パターンの発生率を要素とした時系列データにおける要素の部分的な範囲に対して、当該時系列データには含まれないタイムスタンプにおける要素の補間値が推定可能か否かを判定し、判定結果を示す０か１の判定値を、上記部分的な範囲に付与して出力する。

推定可否判定部２２２は、頻出パターン発生率算出部２２１によって算出された頻出パターンの発生率を要素とした系列データには含まれないタイムスタンプにおける要素の補間値を推定可能であるか否かを判定する。例えば、推定可否判定部２２２は、頻出パターンの発生率の時系列データを、モデル調整用データとモデル検証用データとに分割して、機械学習による時系列予測モデルの内部パラメータを、モデル調節用データを用いて調整し、モデル検証用データを用いて推定の精度を測定する。そして、推定可否判定部２２２は、推定の精度が許容閾値以上であると推定可能と判定し、推定の精度が許容閾値未満であれば推定不可と判定する。推定可能か否かを示す０または１の判定値は、頻出パターンの発生率を要素とした系列データに付与される。

推定部２２３は、推定可否判定部２２２によって推定可能であると判定された要素の補間値を推定する。例えば、推定部２２３は、頻出パターンの発生率を要素とした時系列データにおける推定可能を示す判定値（例えば、判定値＝１）が付与された部分について、当該時系列データには含まれないタイムスタンプにおける要素の補間値を推定する。推定部２２３は、例えば、推定可否判定部２２２によって用いられた時系列予測モデルと同じモデルを用いて、要素の補間値を推定する。

統計量算出部２２４は、推定可否判定部２２２によって推定不可であると判定された要素の統計分布を表す統計量を算出する。例えば、統計量算出部２２４は、頻出パターンの発生率を要素とした時系列データにおける、補間値の推定不可を示す判定値が付与された部分に存在する要素の統計分布を表す統計量を算出する。統計量は、例えば平均値または分散である。

補間データ算出部２２５は、推定部２２３によって推定された補間値と、統計量算出部２２４によって算出された統計量とを一つにまとめて、一つにまとめた時系列データにおける補間値の推定値、補間値の推定値の代表値または補間値の推定値の範囲を要素とした時系列データを算出する。例えば、補間データ算出部２２５は、頻出パターンの発生率を要素とした時系列データごとに、推定部２２３によって推定された補間値と統計量算出部２２４によって算出された統計量とを一つにまとめ、補間値の推定値、補間値の推定値の代表値および補間値の推定値の範囲を、要素とした時系列データを算出する。

また、補間データ算出部２２５は、推定部２２３によって推定された補間値、統計量算出部２２４によって算出された統計量、および、頻出パターンに含まれる数値が分類された分類クラスを示す分類値を示す定義情報に基づいて、分析対象の情報システムを構成する機器の状態を示す数値の補間値の代表値または範囲を算出する。例えば、数値の補間値の平均値、最大値および最小値が算出される。

図１１は、時系列データの補間処理を示すフローチャートであり、図３のステップＳＴ２の処理の詳細を示している。頻出パターン発生率算出部２２１は、頻出パターン検出部２１５によって検出された頻出パターンを要素とした時系列データを取得し、時系列データに含まれる頻出パターンの発生率を算出する（ステップＳＴ１ｃ）。例えば、頻出パターン発生率算出部２２１は、頻出パターンの識別値を要素とした時系列データを用いて、各タイムスタンプの時間的近傍における頻出パターンごとの発生率を算出する。

続いて、推定可否判定部２２２は、頻出パターンの発生率を要素とした時系列データには含まれないタイムスタンプにおける要素の補間値を推定可能であるか否かを判定する（ステップＳＴ２ｃ）。例えば、推定可否判定部２２２は、頻出パターンの発生率を要素とした時系列データに含まれないタイムスタンプにおける要素の補完値を推定可能であるか否かを判定すると、当該時系列データにおける該当部分に対して判定結果を示す０か１の判定値を付与する。

要素の補完値を推定可能であると判定された場合（ステップＳＴ２ｃ；ＹＥＳ）、推定部２２３は、補間値を推定する（ステップＳＴ３ｃ）。例えば、推定部２２３は、時系列データにおける、推定可能を示す判定値が付与された部分の要素の補間値を推定する。

要素の補完値を推定不可であると判定されると（ステップＳＴ２ｃ；ＮＯ）、統計量算出部２２４は、要素の統計分布を表す統計量を算出する（ステップＳＴ４ｃ）。例えば、統計量算出部２２４は、頻出パターンの発生率を要素とした時系列データにおける、補間値の推定不可を示す判定値が付与された部分に存在する要素の統計分布を表す統計量を算出する。推定部２２３および統計量算出部２２４の各処理は、互いに独立して実行されるので、どちらが先行してもよいし、並行して実行されてもよい。

補間データ算出部２２５は、推定部２２３によって推定された補間値と、統計量算出部２２４によって算出された統計量とを一つにまとめた時系列データにおける、補間値、補間値の代表値または補間値の範囲を要素とした時系列データを算出し、補間された時系列データとして出力する（ステップＳＴ５ｃ）。さらに、補間データ算出部２２５は、推定部２２３によって推定された補間値、統計量算出部２２４によって算出された統計量、および、頻出パターンに含まれる数値が分類された分類クラスを示す分類値を示す定義情報に基づいて、分析対象の情報システムを構成する機器の状態を示す数値の補間値の代表値または範囲を算出する。補間データ算出部２２５は、これらの処理を互いに独立して実施するので、いずれか一方の処理を先行させてもよいし、両者を並行して実施してもよい。

図１２Ａは、文字列を要素とした時系列データの例を示す図である。図１２Ｂは、数値を要素とした時系列データ（１）および時系列データ（２）の例を示すグラフである。頻出パターン分析部２１は、例えば、図１２Ａおよび図１２Ｂに示す各時系列データを取得し、頻出パターンの識別値の時系列データを、補間処理部２２に出力する。

図１２Ｃは、補間された時系列データの例を示すグラフである。補間データ算出部２２５は、図１２Ｃの上段に示すように、頻出パターンの発生率を要素とした時系列データＡにおける、頻出パターンの発生率の補間値の推定値の代表値である平均値Ａ１、最大値Ａ２および最小値Ａ３算出し、これらを要素とした時系列データを算出する。

補間データ算出部２２５は、図１２Ｃの中段に示すように、分析対象の情報システムを構成する機器の状態を示す数値を要素とした時系列データ（１）における、要素の補間値の推定値の代表値である平均値（１ａ）、最大値（１ｂ）および最小値（１ｃ）算出し、これらを要素とした時系列データを算出する。さらに、補間データ算出部２２５は、図１２Ｃの下段に示すように、分析対象の情報システムを構成する機器の状態を示す数値を要素とした時系列データ（２）における、要素の補間値の推定値の代表値である平均値（２ａ）、最大値（２ｂ）および最小値（２ｃ）算出し、これらを要素とした時系列データを算出する。

頻出パターン分析部２１によって検出された頻出パターンは、分析対象の情報システムに発生した現象と紐付くものである。このため、頻出パターンに注目して情報システムに発生する現象を分析することにより、当該情報システムに外乱的に発生する現象を、効率よく分析することが可能である。さらに、頻出パターンを用いることで、情報システムの挙動の予測精度が向上する。例えば、時系列データに含まれないタイムスタンプの要素の補間値の推定値は、未来のタイムスタンプにおける要素を予測したものに相当する場合がある。この場合、補間データ算出部２２５が、補間値の推定値の代表値または範囲を算出することにより、要素の予測値の誤差範囲を提示することが可能である。

図１３は、検索処理部２３の構成を示すブロック図である。図１３において、検索処理部２３は、頻出パターン選別部２３１および検索部２３２を備える。頻出パターン選別部２３１は、頻出パターン検出部２１５によって検出された頻出パターンを要素とした時系列データ、入力装置３Ａによって受け付けられた文字列を要素した時系列データ、および入力装置３Ｂによって受け付けられた数値を要素とした時系列データのうちの少なくとも一つから、重要度に応じて時系列データを選別する選別部である。

頻出パターンの識別値を要素とした時系列データにおいて、重要度には、例えば、分析対象の情報システムにおける要素の発生頻度と頻出パターンの学習フェーズで用いられた時系列データにおける上記要素の発生頻度との比の値１からの乖離量を用いることができる。例えば、両者の比が１．２である場合、この比における値１からの乖離量は、１．２－１．０＝０．２である。
また、頻出パターンに分類できないアイテムの組み合わせを要素とした時系列データについては、例えば、頻出パターンに分類できないアイテムの発生数を、重要度として用いることができる。さらに、条件部のみが成立する頻出パターンの識別値を要素とした時系列データについては、例えば、該当する頻出パターンについて学習フェーズで算出した確信度を、重要度として用いることができる。

検索部２３２は、分析対象の情報システムに発生した現象に対する過去の作業情報のうち、頻出パターン選別部２３１によって選別された時系列データに対応する作業情報を検索し、検索された作業情報を出力する。過去の作業情報は、情報システムに発生した現象に対して利用者が過去に行った判断または作業内容が登録された情報である。

図１４は、過去の作業情報の検索処理を示すフローチャートであり、図３のステップＳＴ３の処理の詳細を示している。頻出パターン選別部２３１は、頻出パターンを要素とした時系列データ、文字列を要素した時系列データおよび数値を要素とした時系列データのうちの少なくとも一つから、重要度に応じて時系列データを選別する（ステップＳＴ１ｄ）。例えば、頻出パターン選別部２３１は、頻出パターンを要素とした時系列データ、文字列を要素した時系列データおよび数値を要素とした時系列データのうち、利用者に提示する部分を、重要度を用いて選別する。

検索部２３２は、記憶装置４に記憶された過去の作業情報のうち、頻出パターン選別部２３１によって選別された時系列データに対応する作業情報を検索し、検索された作業情報を出力する（ステップＳＴ２ｄ）。例えば、検索部２３２は、頻出パターンの識別値のリスト、アイテムの組み合わせのリストまたは条件部のみが成立する頻出パターンの識別値のリストにおける、同一の頻出パターンまたはアイテムの組み合わせに基づいて、記憶装置４に記憶されている頻出パターンに対応付けられた過去の作業情報を検索し、検索結果の作業情報を出力する。

なお、検索部２３２が検索に利用した頻出パターンまたは頻出パターン以外のアイテムの組み合わせが、利用者によって分析支援情報として利用された場合、検索部２３２は、これらを用いた作業における利用者の判断または作業内容を示す作業情報を生成し、生成した作業情報を記憶装置４に記憶する。また、記憶装置４に記憶する作業情報は、利用者が入力装置を用いて作成したものであってもよい。

図１５Ａは、記憶装置４に記憶された頻出パターン情報を示す図である。図１５Ｂは、過去の作業情報の例を示す図である。例えば、記憶装置４には、図１５Ａに示すような、頻出パターンと、この頻出パターンに対応する現象に対する過去の作業情報とが、頻出パターン情報として記憶されている。検索部２３２は、頻出パターン選別部２３１によって頻出パターン「Ｐａｔｔｅｒｎ１」および「Ｐａｔｔｅｒｎ３」を含んだ時系列データが選別されると、頻出パターン「Ｐａｔｔｅｒｎ１」および「Ｐａｔｔｅｒｎ３」に基づいて、記憶装置４に記憶されている過去の作業情報を検索する。これにより、図１５Ｂに示すような作業情報２３２Ａが、記憶装置４から検索され、利用者に提示される。

検索部２３２は、記憶装置４に記憶された過去の作業情報のうち、頻出パターン選別部２３１によって選別された時系列データに対応する作業情報を検索する。これにより、過去に対応事例がある現象が再発した場合に、利用者は、この現象と紐づいた過去の作業情報に基づいて、問題箇所の特定および補修作業を行うことができる。このため、作業時間が短縮され、また、担当者ごとの対応作業の正確さのばらつきを抑えることができる。

これまでの説明は、タイムスタンプをインデックスとした時系列データについて示したが、データ分析装置２は、これに限定されるものではなく、一般に系列内及び系列間で順序関係の比較が可能なインデックスを持つ文字列の系列データおよび数値の系列データについても取り扱うことができる。

例えば、データ分析装置２は、画像データにおける画素位置の順序関係を定義した番号をインデックスとして、インデックスである番号で特定される画素値（数値）を要素とした系列データと、画素に付与された文字列からなる説明データ（文字列）を要素とした系列データとを取得し、これらの系列データに対して前述したデータ分析を実施する。このデータ分析結果は、画像の分析または不良画素の補間処理に活用することができる。
また、分析対象の情報システムのログデータおよび情報システムを構成する機器の状態を表す数値に対応したタイムスタンプを、アルファベットなどの順序が定義された記号に置き換えた系列データであっても、データ分析装置２は、前述したデータ分析を実施することができる。

データ分析システム１において、データ分析装置２と記憶装置４との間は、通信ネットワークで接続されていてもよい。

また、データ分析装置２によるデータ分析処理は、共通の系列データを取り扱う他の分析処理と組み合わせると、分析結果の説明性がさらに向上する。例えば、情報システムの文字列形式のログデータを入力する異常検知装置がある場合、データ分析装置２が、異常検知装置が取得する同じログデータまたは同時に取得された他のログデータあるいは数値データに対して前述したデータ分析を実施する。データ分析装置２によるデータ分析結果は、異常検知装置が警告を発した現象の要因を分析するための分析支援情報となり得る。例えば、要因の事象が将来的に発生する頻度を予測することにより、情報システムが障害に至る前に検討する措置の内容を提供することができる。

データ分析装置２が図４に示した頻出パターン分析部２１のみで構成される場合、データ分析装置２における文字列分類部２１１、数値分類部２１２、系列統合部２１３、頻出パターン抽出部２１４および頻出パターン検出部２１５の機能は、処理回路によって実現される。すなわち、データ分析装置２は、図８のステップＳＴ１ｂからステップＳＴ３ｂまでの処理を実行する処理回路を備える。処理回路は、専用のハードウェアであってもよいし、メモリに記憶されたプログラムを実行するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）であってもよい。

図１６Ａは、データ分析装置２の機能を実現するハードウェア構成を示すブロック図である。図１６Ｂは、データ分析装置２の機能を実現するソフトウェアを実行するハードウェア構成を示すブロック図である。図１６Ａおよび図１６Ｂにおいて、入力インタフェース１００は、入力装置３Ａおよび３Ｂからデータ分析装置２へ出力される時系列データを中継する。出力インタフェース１０１は、例えば、データ分析装置２から、補間処理部２２を備える装置へ出力される時系列データを中継する。

処理回路が、図１６Ａに示す専用のハードウェアの処理回路１０２である場合、処理回路１０２は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、または、これらを組み合わせたものが該当する。データ分析装置２における文字列分類部２１１、数値分類部２１２、系列統合部２１３、頻出パターン抽出部２１４および頻出パターン検出部２１５の機能は、別々の処理回路で実現されてもよいし、これらの機能がまとめて１つの処理回路で実現されてもよい。

処理回路が図１６Ｂに示すプロセッサ１０３である場合は、データ分析装置２における文字列分類部２１１、数値分類部２１２、系列統合部２１３、頻出パターン抽出部２１４および頻出パターン検出部２１５の機能は、ソフトウェア、ファームウェアまたはソフトウェアとファームウェアとの組み合わせによって実現される。なお、ソフトウェアまたはファームウェアは、プログラムとして記述されてメモリ１０４に記憶される。

プロセッサ１０３は、メモリ１０４に記憶されたプログラムを読み出して実行することにより、データ分析装置２における文字列分類部２１１、数値分類部２１２、系列統合部２１３、頻出パターン抽出部２１４および頻出パターン検出部２１５の機能を実現する。例えば、データ分析装置２は、プロセッサ１０３によって実行されるときに、図８に示すフローチャートにおけるステップＳＴ１ｂからステップＳＴ３ｂの処理が結果的に実行されるプログラムを記憶するためのメモリ１０４を備える。これらのプログラムは、文字列分類部２１１、数値分類部２１２、系列統合部２１３、頻出パターン抽出部２１４および頻出パターン検出部２１５が行う各処理の手順または方法をコンピュータに実行させる。メモリ１０４は、コンピュータを文字列分類部２１１、数値分類部２１２、系列統合部２１３、頻出パターン抽出部２１４および頻出パターン検出部２１５として機能させるためのプログラムが記憶されたコンピュータ可読記憶媒体であってもよい。

メモリ１０４は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌｌｙ－ＥＰＲＯＭ）などの不揮発性または揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤなどが該当する。

また、データ分析装置２が備える、文字列分類部２１１、数値分類部２１２、系列統合部２１３、頻出パターン抽出部２１４および頻出パターン検出部２１５の機能の一部は専用ハードウェアで実現され、一部はソフトウェアまたはファームウェアで実現されてもよい。例えば、文字列分類部２１１および数値分類部２１２は、専用のハードウェアである処理回路１０２によってその機能が実現され、系列統合部２１３、頻出パターン抽出部２１４および頻出パターン検出部２１５は、プロセッサ１０３がメモリ１０４に記憶されたプログラムを読み出し実行することによりその機能が実現される。このように、処理回路は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせによって、上記機能を実現することができる。

以上のように、実施の形態１に係るデータ分析装置２は、分析対象の情報システムに関する文字列を要素とした系列データと、情報システムを構成する機器の状態を示す数値を要素とした系列データとを取得し、系列データごとに要素を分類クラスに分類し、分類クラスを示す分類値を要素とした系列データを出力する文字列分類部２１１および数値分類部２１２と、文字列の分類値を要素とした系列データおよび数値の分類値を要素とした系列データを一つの系列データにまとめる系列統合部２１３と、系列統合部２１３によって一つにまとめられた系列データを用いて、頻出する要素の組み合わせである頻出パターンの発生を検出する頻出パターン検出部２１５を備える。
分析対象の情報システムに関する文字列を要素とした系列データと情報システムを構成する機器の状態を示す数値を要素とした系列データとを一つの系列データにまとめることにより、一方の系列データが他方の系列データで補われた系列データに対して頻出パターンマイニングを実施できる。これにより、データ分析装置２は、分析対象の情報システムに発生した現象の分析に必要なデータを補うことができる。

実施の形態１に係るデータ分析装置２は、頻出パターン分析部２１に加え、補間処理部２２を備える。補間処理部２２は、頻出パターン分析部２１によって検出された頻出パターンを要素とした時系列データに基づいて、頻出パターンの発生率の推定値および頻出パターンの発生率の統計量を算出し、算出した頻出パターンの発生率の推定値と頻出パターンの発生率の統計量とを用いて、時系列データには含まれないタイムスタンプにおける要素を補間する。頻出パターンは、分析対象の情報システムに発生した現象と紐付くものであるため、頻出パターンに注目して情報システムに発生する現象を分析することにより、当該情報システムに外乱的に発生する現象を、効率よく分析することが可能である。さらに、頻出パターンを用いることで、情報システムの挙動の予測精度が向上する。

実施の形態１に係るデータ分析装置２は、頻出パターン分析部２１に加え、検索処理部２３を備える。検索処理部２３は、頻出パターン分析部２１によって検出された頻出パターンを要素とした時系列データ、文字列を要素した時系列データおよび数値を要素とした時系列データのうちの少なくとも一つから、重要度に応じて系列データを選別して、分析対象の情報システムに発生した現象に対する過去の作業情報のうち、選別した時系列データに対応する作業情報を検索して、検索された作業情報を出力する。
過去に対応事例がある現象が再発した場合に、利用者は、この現象と紐づいた過去の作業情報に基づいて、問題個所の特定および補修作業を行うことができる。このため、作業時間が短縮され、また担当者ごとの対応作業の正確さのばらつきを抑えることができる。

なお、実施の形態の任意の構成要素の変形もしくは実施の形態の任意の構成要素の省略が可能である。

１データ分析システム、２データ分析装置、３Ａ，３Ｂ入力装置、４記憶装置、２１頻出パターン分析部、２２補間処理部、２３検索処理部、１００入力インタフェース、１０１出力インタフェース、１０２処理回路、１０３プロセッサ、１０４メモリ、２１１文字列分類部、２１２数値分類部、２１３系列統合部、２１４頻出パターン抽出部、２１５頻出パターン検出部、２２１頻出パターン発生率算出部、２２２推定可否判定部、２２３推定部、２２４統計量算出部、２２５補間データ算出部、２３１頻出パターン選別部、２３２検索部、２３２Ａ作業情報。

Claims

系列内および系列間で要素の順序関係の比較が可能なインデックスをそれぞれ有した、分析対象の情報システムに関する文字列を要素とした系列データと、当該情報システムを構成する機器の状態を示す数値を要素とした系列データとを取得し、取得した系列データごとに要素を分類クラスに分類し、前記分類クラスを示す分類値を要素とした系列データを出力する分類部と、
前記文字列の分類値を要素とした系列データおよび前記数値の分類値を要素とした系列データを一つの系列データにまとめる統合部と、
前記統合部によって一つにまとめられた系列データを用いて、頻出する要素の組み合わせである頻出パターンの発生を検出する検出部と、
を備えたことを特徴とするデータ分析装置。
前記統合部によって一つにまとめられた系列データに含まれる要素の集合に対して前記インデックスの識別値を付与したトランザクションデータを生成し、前記トランザクションデータに対して頻出パターンマイニングを実施することにより頻出パターンを抽出する抽出部を備え、
前記検出部は、前記抽出部によって抽出された頻出パターンの発生を検出すること
を特徴とする請求項１に記載のデータ分析装置。
前記検出部は、前記トランザクションデータにおける要素の集合のうち、前記抽出部によって抽出された頻出パターンと一致するものがあるか否かに基づいて、頻出パターンの発生を検出すること
を特徴とする請求項２に記載のデータ分析装置。
前記検出部によって検出された頻出パターンを要素とした系列データに基づいて、頻出パターンの発生率の推定値および頻出パターンの発生率の統計量を算出し、算出した頻出パターンの発生率の推定値と頻出パターンの発生率の統計量とを用いて、系列データには含まれない前記インデックスにおける要素を補間する補間処理部、
を備えたことを特徴とする請求項１から請求項３のうちのいずれか１項に記載のデータ分析装置。
前記検出部によって検出された頻出パターンを要素とした系列データ、前記文字列を要素した系列データおよび前記数値を要素とした系列データのうちの少なくとも一つから、重要度に応じて系列データを選別し、前記情報システムに発生した現象に対する過去の作業情報のうち、選別した系列データに対応する作業情報を検索して、検索された作業情報を出力する検索処理部、
を備えたことを特徴とする請求項１から請求項４のうちのいずれか１項に記載のデータ分析装置。
前記補間処理部は、
前記検出部によって検出された頻出パターンを要素とした系列データを取得して、頻出パターンの発生率を算出する発生率算出部と、
前記発生率算出部によって算出された頻出パターンの発生率を要素とした系列データには含まれない前記インデックスにおける要素の補間値を推定可能であるか否かを判定する推定可否判定部と、
前記推定可否判定部によって推定可能であると判定された要素の補間値を推定する推定部と、
前記推定可否判定部によって推定不可であると判定された要素の統計分布を表す統計量を算出する統計量算出部と、
前記推定部によって推定された補間値と前記統計量算出部によって算出された統計量とを一つにまとめ、一つにまとめた系列データにおける補間値の推定値、補間値の推定値の代表値または補間値の推定値の範囲を要素とした系列データを算出する補間データ算出部と、を備えたこと
を特徴とする請求項４に記載のデータ分析装置。
前記補間データ算出部は、前記推定部によって推定された補間値、前記統計量算出部によって算出された統計量、および、頻出パターンに含まれる数値が分類された分類クラスを示す分類値を示す定義情報に基づいて、分析対象の前記情報システムを構成する機器の状態を示す数値の補間値の代表値または範囲を算出すること
を特徴とする請求項６に記載のデータ分析装置。
前記検索処理部は、
前記検出部によって検出された頻出パターンを要素とした系列データ、前記文字列を要素した系列データおよび前記数値を要素とした系列データのうちの少なくとも一つから、重要度に応じて系列データを選別する選別部と、
前記情報システムに発生した現象に対する過去の作業情報のうち、選別した系列データに対応する作業情報を検索して、検索された作業情報を出力する検索部と、
を備えたことを特徴とする請求項５に記載のデータ分析装置。
請求項１から請求項８のうちのいずれか１項に記載のデータ分析装置を備えたこと
を特徴とするデータ分析システム。
コンピュータを、
系列内および系列間で要素の順序関係の比較が可能なインデックスをそれぞれ有した、分析対象の情報システムに関する文字列を要素とした系列データと、当該情報システムを構成する機器の状態を示す数値を要素とした系列データとを取得し、取得した系列データごとに要素を分類クラスに分類し、前記分類クラスを示す分類値を要素とした系列データを出力する分類部、
前記文字列の分類値を要素とした系列データおよび前記数値の分類値を要素とした系列データを一つの系列データにまとめる統合部、
前記統合部によって一つにまとめられた系列データを用いて、頻出する要素の組み合わせである頻出パターンの発生を検出する検出部、
として機能させるためのプログラム。