JP2023036140A

JP2023036140A - 業務データ分析装置、業務データ分析システム及び業務データ分析方法

Info

Publication number: JP2023036140A
Application number: JP2021142985A
Authority: JP
Inventors: 光司天野; Koji Amano; 恒彦馬場; Tsunehiko Baba; 亨霜鳥; Toru Shimotori
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2023-03-14
Also published as: US20230060475A1

Abstract

【課題】業務データをより高度に分析すること。【解決手段】演算装置と、記憶装置とを備え、前記記憶装置は、業務に関するデータである業務データを含む管理対象データを記憶し、前記演算装置は、前記管理対象データに含まれる業務データと、前記管理対象データの管理に係る構造において用いられる業務データとを用いて、前記業務データが前記業務においてどのように使用されているかを分析することを特徴とする業務データ分析装置。【選択図】図２

Description

本発明は、業務データ分析装置、業務データ分析システム及び業務データ分析方法に関する。

従来、業務データの分析に関し、特開２０１８－７２９６０号公報（特許文献１）に記載の技術がある。この公報には、「データ分析支援装置は、各業務システム間の関係、各業務データテーブル間の関係、各業務データテーブルが保有する各データ項目間の関係、各業務データテーブルの各レコードが保有する各データ値間の関係を解析して関係ネットワークとして記憶する関係ネットワーク生成部と、データ分析対象となるデータ項目を実績値に基づく第１のデータ種別と、計画値または事前定義に基づく第２のデータ種別に分類するデータ項目分類部と、データ分析に用いるデータ分析用テーブルを生成し蓄積する分析用データテーブル生成部と、組合せてデータ分析が可能なデータ項目群をデータモデルとして生成するデータモデル生成部と、分析対象となるデータ項目を推薦する分析対象項目提示部と、を備える。」という記載がある。

特開２０１８－７２９６０号公報

従来の技術では、データ知識の無い人や分野知識のない人でも、テーブル定義情報を用いずに容易に分析対象項目を選択して分析することができる。しかしながら、より高度な分析を行うには、業務データが業務においてどのように使用されているかが重要である。例えば、ある業務に関する用語を分析する場合には、その用語を含んで作成されたデータを分析するのみならず、業務に関わる人物にとってのその用語の意味の明確さや汎用性などを考慮して分析することが望ましい。

そこで、本発明では、業務データをより高度に分析することのできる業務データ分析技術を提供することを目的とする。

上記目的を達成するために、代表的な本発明の業務データ分析装置及び業務データ分析システムの一つは、演算装置と、記憶装置とを備え、前記記憶装置は、業務に関するデータである業務データを含む管理対象データを記憶し、前記演算装置は、前記管理対象データに含まれる業務データと、前記管理対象データの管理に係る構造において用いられる業務データとを用いて、前記業務データが前記業務においてどのように使用されているかを分析することを特徴とする。
また、代表的な本発明の業務データ分析方法の一つは、演算装置が、業務に関するデータである業務データを含む管理対象データを記憶装置に格納するステップと、前記管理対象データに含まれる業務データと、前記管理対象データの管理に係る構造において用いられる業務データとを用いて、前記業務データが前記業務においてどのように使用されているかを分析するステップと、分析結果を出力するステップとを含むことを特徴とする。

本発明によれば、業務データをより高度に分析することのできる業務データ分析技術を提供することができる。上記した以外の課題、構成及び効果は以下の実施の形態の説明により明らかにされる。

業務データ分析システムの構成の説明図である。業務データ分析システムが実施する処理の説明図である。（その１）業務データ分析システムが実施する処理の説明図である。（その２）業務データ分析システムの処理の概要を示すフローチャートである。データ意味管理用の統合画面の具体例である。データの意味の辞書の作成についての説明図である。（その１）データの意味の辞書の作成についての説明図である。（その２）データの意味の辞書の作成についての説明図である。（その３）用語の距離分析アルゴリズムのステップの説明図である。ユーザの操作を分析する場合の構成図である。実装依存の意味階層に基づく構造化ＩＤの再定義の説明図である。データベースの意味階層に基づく構造化ＩＤの再定義の説明図である。意味の関係の抽出についての説明図である。構造化ＩＤの生成の処理手順を示すフローチャートである。ユーザ操作からのデータ意味関係の生成のフローチャートである。ユーザ操作からのデータ意味関係の生成結果の説明図である。集密度合いの分析の処理手順を示すフローチャートである。集密度合いの分析結果の説明図である。ファイルの文章から構造化データの意味を取得する処理手順を示すフローチャートである。データ意味のガバナンス管理についての説明図である。（その１）データ意味のガバナンス管理についての説明図である。（その２）データ意味のガバナンス管理についての説明図である。（その３）データ意味理解用のテンプレートを作成する処理手順を示すフローチャートである。管理テンプレートの自動更新の処理手順を示すフローチャートである。

以下、本発明を実施するための形態例について、図を参照して説明する。
なお、本明細書及び図において、実質的に同一の機能又は構成を有する構成要素については、同一の符号を付することにより重複する説明を省略する。

図１は、業務データ分析システムの構成の説明図である。
業務データ分析システムは、ユーザ端末１と、業務データ分析装置としてのサーバシステム２を備える。
ユーザ端末１は、その内部にＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１－３及び主記憶装置１－４を備えたコンピュータであり、表示装置１－１や補助記憶装置であるディスク１－２などの周辺機器が接続される。
ユーザ端末１は、ユーザ９の操作を受け付けて、業務データを含む管理対象データをサーバシステム２に格納し、管理対象データを用いて業務を行う。

サーバシステム２は、１又は複数のサーバ３と、１又は複数のストレージ５を有する。
ストレージ５は、管理対象データなどを記憶する記憶装置である。サーバ３は、自装置のメモリやストレージ５に階層構造のファイルサーバ領域を生成し、管理対象データを格納する。サーバシステム２は、各階層に付された名称を業務データの一種として扱い、階層構造を階層化された識別情報（構造化ＩＤ）として用いて、業務データの分析を行う。

図１では、サーバ領域６－１の下にディレクトリ６－１－１が生成され、ディレクトリ６－１－１の下に管理対象データであるファイル６－ａが格納されている。
この場合、サーバ領域６－１のサーバ領域ＩＤ、ディレクトリ６－１－１のディレクトリＩＤ、ファイル６－ａのファイル名がそれぞれ業務データの一種となり、「サーバ領域ＩＤ／ディレクトリＩＤ／ファイル名」が識別情報（構造化ＩＤ）となる。
さらに、ファイル６－ａに含まれる項目ＩＤや値もそれぞれが業務データとなる。

ここで、１又は複数のサーバ３の一つであるサーバ３－ａを例示し、サーバ３の構成を説明する。サーバ３は、演算装置であるＣＰＵ３－１、主記憶装置であるメモリ３－２、ネットワークインターフェースカード（ＮＩＣ）３－３、ディスクコントローラ３－４、補助記憶装置であるディスク３－５を有する。

ＣＰＵ３－１は、メモリ３－２にプログラムやデータを展開し、プログラムを順次実行することで、各種機能を実現する。
具体的には、メモリ３－２には、ＯＳ（Operating System）３－１１、構造化ＩＤ関係分析機能３－１２、データ分析機能３－１３などに関するデータが展開される。

ＯＳ３－１１は、サーバ３の基本的な動作の制御を担うプログラム群である。
構造化ＩＤ関係分析機能３－１２やデータ分析機能３－１３などは、管理対象データに含まれる業務データと、前記管理対象データの管理に係る構造において用いられる業務データとを用いて、業務データが業務においてどのように使用されているかを分析する処理を行う。

図２及び図３は、業務データ分析システムが実施する処理の説明図である。図２及び図３に示すように、業務データ分析システムが実施する処理には、「データの意味の辞書の作成」、「データの意味理解を促進させるテンプレートの作成」及び「データ意味のガバナンス管理」を含む。

まず、データの意味の辞書の作成について説明する。
サーバ３は、既存データのディレクトリ構造やテーブル情報から、データ意味の抽象側を親側識別子として抽出する。親側識別子としては、管理対象データが格納されている場所に至るまでの各階層の名称、管理対象データの名称、テーブルの項目や値に用いられる用語が抽出される。
階層、データ、項目や値などに用いられる用語は、その業務に関わる人物（業務関係者）にとって、十分に汎用的かつ明確な用語であると認識されている可能性が高い。また、これらに用いられる用語は、表記の揺らぎも少なく、業務に関連している可能性が高い。したがって、管理対象データの管理に用いられる用語についても業務データとして分析対象とすることが有効と考えられる。

また、サーバ３は、ログデータやＤＢデータ等の既存のデーから、データ意味の再利用可能な具体的意味を子側識別子として抽出する。ログデータやＤＢデータに含まれるデータは、業務に直接関係する用語等である可能性が高いためである。

また、サーバ３は、既存データの自然言語からデータ意味識別子を生成する。例えば、業務のマニュアルのように、自然言語で記述された文章データには、業務に関する各種の用語が含まれている。そこで、自然言語から単語を抽出することで、データ意味識別子として用いることができる。

サーバ３は、親側識別子、子側識別子、データ意味識別子を登録することで、データ意味理解用の辞書を作成する。このデータ意味理解用の辞書が、業務データ分析システムの第１の生成物である。

サーバ３は、既存データに対するユーザ（業務関係者）の挙動に対して、集密度の分析を行うことで、データ意味を自動でグループ化し、データ意味識別子間の関係を求める。このデータ意味識別子間の関係が、業務データ分析システムの第２の生成物である。なお、集密度の分析については後述する。

次に、データの意味理解を促進させるテンプレートの作成について説明する。
サーバ３は、既存データの自然言語から、用語を抜き出した残りを、データ意味理解を促進させるテンプレートとする。このテンプレートが、業務データ分析システムの第３の生成物である。

具体的には、サーバ３は、自然言語で記述された文章に対し、データ意味理解用の辞書に登録済み用語を一般化する処理、すなわち、辞書に登録されている用語を品詞に置き換える処理を行う。
一例として、元の文章が「項目ＩＤ１の装置名称２は、動作状態Ｘのとき障害番号＃３を発報する。」であり、「項目ＩＤ１の装置名称２」、「動作状態Ｘ」、「障害番号＃３」が辞書に登録されているならば、テンプレートが次のようになる。
「＜名詞／対象／構造化ＩＤ＞は、＜名詞／状態＞のとき＜名詞／障害識別子＞を発報する。」

次に、データ意味のガバナンス管理について説明する。
サーバ３は、第１～第３の生成物（データ意味理解用の辞書、データ意味識別子間の関係、データ意味理解を促進させるテンプレート）を用いて、それぞれの情報を「誰がいつまで使っているか」また「同じ意味で同じ表現を使っているか」を統計的に管理する。この統計の結果が第４の生成物であり、例えば、ディレクトリの名称やファイル名称の用語を統一したり、業務関係者にアナウンスをすることで、業務データの運用の管理に利用できる。

図４は、業務データ分析システムの処理の概要を示すフローチャートである。
本処理に先立って、サーバ３は、業務データを含む管理対象データをストレージ５などに記憶するステップを実行している。
そのうえで、サーバ３は、各種分析機能を使った既存データの分析を行う（ステップ３００）。そして、分析の結果から、データの意味理解用構造化ＩＤの生成、検索用部分ＩＤの生成、およびデータ意味理解用テンプレートの生成を行う（ステップ３０１）。生成されたデータは、業務データが前記業務においてどのように使用されているかを示すものであり、生成されたデータを分析結果として表示出力し（ステップ３０２）、処理を終了する。

図５は、データ意味管理用の統合画面の具体例である。
図５に示した統合画面は、構造化ＩＤ関係分析機能３－１２とデータ分析機能３－１３に加え、ユーザＰＣ操作分析機能３－１４と時系列イベント集密度分析機能３－１５の分析の結果を統合して表示する画面である。

図５に示した統合画面では、指定された業務区分「ｒｏｏｔ／＊／業務１」に関するデータである。ここで、ワイルドカード「＊」を用いることで、例えば異なる部署で管理されていても、業務１に関するデータを分析対象とすることができる。

この統合画面では、以下の時間的推移を横軸の長さとして表示している。
（１）使われたデータ意味の時間的遷移
（２）実施されたミッション（目的）の時間的遷移
（３）関わったユーザ（業務関係者）の時間的遷移
（４）使用した分析テンプレートの時間的遷移
（５）関係したイベント（制御信号や処理）の時間的遷移
さらに、これらの時間的推移から、以下の情報を求めている。
（６）時間的な集密度から観測された情報のグループ

時間的な集密度から観測された情報のグループとは、ある時間範囲内に使用された業務データであり、典型としては、ユーザ（業務関係者）が同時にアクティブにした複数の業務データである。図５では、このグループを、複数の時間的遷移に渡る矩形として示している。

図６～図８は、データの意味の辞書の作成についての説明図である。
図６は、用語の関係性分析における結果の表示を示している。
グラフ１＃―１は、相互関係のある構造化ＩＤにリンクを張って可視化したものである。相互関係の抽出方法は、後述する。
テーブル１＃―２は、用語の構造化ＩＤ１＃―２ａ、用語１＃―２ｂ、相互関係１＃―２ｃを対応付けて表示している。

例えば、テーブル１＃－２の行１＃―３－１では、「ｒｏｏｔ／用語１」が「ｒｏｏｔ／用語２」、「ｒｏｏｔ／抽象概念２／用語６」、「ｒｏｏｔ／用語３」と相互関係を有することを示している。
行１＃―３－２に示すように、異なる概念でも、同一表現で同一の意味ならば、相互関係が生まれる。一方、行１＃―３－３に示すように、異なる概念で、同一表現でも異なる意味ならば相互関係は生まれない。

図７は、用語の距離分析における結果の表示を示している。
例えば、行１＃－４－１と行１＃－４－２は、グラフ１＃－１ａに示したように、枝ＩＤを超えて関係が見出されている。一方、行１＃－４－３と行１＃－４－４は、グラフ１＃－１ｂに示したように、抽象概念２の中だけで関係が見出されている。

図８は、用語の距離分析における距離スコアの表示を示している。
図８では、テーブル１＃－４に、意味の距離１＃－４ｄの列が追加されている。この意味の距離は、自分自身（例えば、行１＃－４－３）の場合に「０」になる。一般概念では、枝が短くなり、例えば、行１＃－４－１では「３」となっている。抽象概念をまたぐ行１＃－４－２の距離は「４」である。同一抽象概念内、すなわち狭い範囲での意味の関係である行１＃－４－４では「１」となっている。

図９は、用語の距離分析アルゴリズムのステップの説明図である。
まず、サーバ３は、ステップ１として、比較元となる用語の構造化ＩＤを１＃－４ａから取得する。具体的には、行１＃－４ｄ－１に示したように、１＃－４ｃから比較元が定義されている行を選び、そのＩＤを１＃－４ａからコピーする。

次に、サーバ３は、ステップ２として、構造化ＩＤを比較する。
条件：＜比較元と同じ構造化ＩＤ＞を満たすならば、行１＃－４ｄ－２に示したように、意味の距離を「０」とする。
条件：＜共通の親を持ち、個要素が異なる場合＞には、同一の親まで上がり、対象用語までたどり着く移動距離を測る。このとき、親ＩＤまでの距離は１とする。
この結果、行１＃－４ｄ－３に示したように、「ｒｏｏｔ／抽象概念２／用語６」と「ｒｏｏｔ／用語１」を比較すると距離は「３」となる。
また、行１＃－４ｄ－４に示したように、「ｒｏｏｔ／抽象概念２／用語６」と「ｒｏｏｔ／抽象概念１／用語６」を比較すると距離は「４」となる。
また、行１＃－４ｄ－５に示したように、「ｒｏｏｔ／抽象概念２／用語６」と「ｒｏｏｔ／抽象概念２／用語７」を比較すると距離は「２」となる。

この分析により、サーバ３は以下の評価を行う。
（１）構造化ＩＤの階層が深く、意味の距離が短い関係は、ごく限られた世界でしか認知されず、使われていないデータの意味である。
（２）構造化ＩＤの階層が深く、意味の距離が長い関係は、広く認知され価値が高いデータの意味である。階層が深いことは特定業務への関連の度合いが高いことを示唆し、距離が長く、特に別の抽象概念を超えて関係を持つことは他の業務への関連があることを示唆する。したがって、階層の深さと距離の長さが両立すれば、特定業務に関係が深く、他の業務にも関連する重要なデータと考えることができるのである。
（３）構造化ＩＤの階層が浅く、意味の距離に関わらず多数使われている関係は、広く認知され一般的に認知されている（テンプレート化している）データの意味である。

図１０は、ユーザの操作を分析する場合の構成図である。図１０に示した構成は、図１の構成と比べ、ユーザ端末１の主記憶装置１－４に操作分析部７をさらに備えている。また、サーバ３は、ネットワーク４を介して複数の端末８と接続され、メモリ３－２にはユーザＰＣ操作分析機能３－１４及び時系列イベント集密度分析機能３－１５をさらに備えている。その他の構成は図１と同様であるので、同一の構成要素には同一の符号を付して説明を省略する。
なお、本構成では、ユーザ端末１は、分析に関する権限を有するデータ管理者としてのユーザに使用されるのに対し、端末８は、分析に関する権限を有さず、業務データの格納と利用を行う業務関係者としてのユーザに使用される。

図１１は、実装依存の意味階層に基づく構造化ＩＤの再定義の説明図である。
図１１では、実装依存のファイルサーバ領域での意味階層を参考に、公開する意味階層を新たに定義するためのテーブル関係を示している。
実装環境の意味絞り込み概念の取り込みにより作成された構造化ＩＤと項目ＩＤは、ユーザ（業務関係者）の定義に基づくものである。この構造化ＩＤと項目ＩＤから、データの意味共有を目的に選択、もしくは新規作成により公開用構造化ＩＤを定義し、公開する。

例えば、「日時」、「発生時刻」、「タイムスタンプ」などの時間に関する項目は、「時刻」に統一し、「業務データ＜番号＞」と「業務項目＜番号＞」などの表記の揺らぎも「業務＜番号＞」の表記に統一する。
さらに、構造化ＩＤに用いられるディレクトリ名などもシステムの運用に合わせて既定の値の指定や、ユーザ（業務関係者）への任意設定の許可を行うことで、利便性と柔軟性を向上することができる。

図１２は、データベースの意味階層に基づく構造化ＩＤの再定義の説明図である。
図１２では、データベースのファイルサーバ領域での意味階層を参考に、公開する意味階層を新たに定義するためのテーブル関係を示している。
データベースの意味絞り込み概念の取り込みにより作成された構造化ＩＤと項目ＩＤは、データベースの自動作成処理によるものである。この構造化ＩＤと項目ＩＤから、データの意味共有を目的に選択、もしくは新規作成により公開用構造化ＩＤを定義し、公開する。
具体的には、図１１と同様に、項目の統一と構造化ＩＤの設定を行うことで、利便性と柔軟性を向上することができる。

図１３は、意味の関係の抽出についての説明図である。
サーバ３の構造化ＩＤ関係分析機能３－１２は、公開用の構造化ＩＤをほぐす処理と、ほぐした部分的な構造化ＩＤで公開されている構造化ＩＤを検索することで、意味の関係を抽出する。

公開用の構造化ＩＤをほぐす処理は、構造化ＩＤの各階層の一部をワイルドカードで置き換えることで行う。構造化ＩＤの一部をワイルドカードで置き換えることで、ほぐした部分的な構造化ＩＤが複数得られる。構造化ＩＤ関係分析機能３－１２は、それぞれの部分駅な構造化ＩＤで、公開された構造化ＩＤを検索する。その結果、元の構造化ＩＤと一部が一致する構造化ＩＤが抽出され、抽出された構造化ＩＤが元の構造化ＩＤと関連のある構造化ＩＤとなる。
ここでの検索結果は、「該当なし」であれば、その使い方がされていないことを示す。検索結果が多すぎれば、意味が広すぎることを示す。検索結果が１個だけであれば、十分な情報があり、その１つの言葉だけで共通理解が得られることを示す。

図１４は、構造化ＩＤの生成の処理手順を示すフローチャートである。
サーバ３のデータ分析機能３－１３は、実装依存の情報から、顧客の思考順序を含む衝突しない構造化ＩＤを生成する。

具体的には、データ分析機能３－１３は、次のステップＳ３－１３－１～ステップＳ３－１３－６の処理を順次実行する。
ステップＳ３－１３－１
データ分析機能３－１３は、データを識別するための実装上でのＩＤをクローリングにより収集する。その後、ステップＳ３－１３－２に進む。
ステップＳ３－１３－２
データ分析機能３－１３は、全体となっているＩＤ（先に利用されたＩＤ）を親ＩＤとして、区切り文字を挟みＩＤ同士を結合する。その後、ステップＳ３－１３－３に進む。
ステップＳ３－１３－３
データ分析機能３－１３は、作成されたデータはデータベースが対象か否かを判定する。データベースが対象であれば（Ｙｅｓ）、作成されたデータをＤＢ用の管理表に格納し、ステップＳ３－１３－１に進む。データベースが対象でなければ（Ｎｏ）、ステップＳ３－１３－４に進む。
ステップＳ３－１３－４
データ分析機能３－１３は、作成されたデータはファイルが対象か否かを判定する。ファイルが対象であれば（Ｙｅｓ）、作成されたデータをファイル用の管理表に格納し、ステップＳ３－１３－１に進む。ファイルが対象でなければ（Ｎｏ）、ステップＳ３－１３－５に進む。
ステップＳ３－１３－５
このステップに進んだ場合には、作成されたデータはデータベースでもファイルでもない。データ分析機能３－１３は、データの格納を行わずにステップＳ３－１３－６に進む。
ステップＳ３－１３－６
データ分析機能３－１３は、指定された全てのサーバを探索したか否かを判定する。未探索のサーバが残っていれば（Ｎｏ）、ステップＳ３－１３－１に進む。全てのサーバを探索済みであれば（Ｙｅｓ）、処理を終了する。

図１５は、ユーザ操作からのデータ意味関係の生成のフローチャートである。
まず、ユーザ端末１の操作分析部７は、アクティブウィンドウから取得できる情報よりユーザ（業務関係者）の操作や使用した情報を収集する（ステップＳ７－１）。次に、操作分析部７は、収集した情報にユーザ端末の識別子を含む情報を付加したログ情報をサーバ３に送信する（ステップＳ７－２）。

その後、サーバ３に存在する、ユーザＰＣ操作分析機能３－１４は、ログからユーザ（業務関係者）が認知している概念を外枠とした構造化ＩＤ関係の集合を生成する（ステップＳ３－１４－１）。
そして、ユーザＰＣ操作分析機能３－１４は、ユーザ（業務関係者）が認知している構造化ＩＤの関係集合を、「時系列の順序関係」と「同一時刻に開いていた情報」の相互関係とともにストレージ５に保存する（ステップＳ３－１４－２）。
さらに、ユーザＰＣ操作分析機能３－１４は、ユーザ（業務関係者）がコピーペーストを繰り返しているログを「要システム連携作業」として、その意味の関係をストレージ５に保存する。

図１６は、ユーザ操作からのデータ意味関係の生成結果の説明図である。
同図に示すように、ユーザ操作からデータ意味関係を生成することで得られる操作分析ログでは、構造化ＩＤには時刻情報が付される。また、同一時刻に開いていた情報が相互関係ＩＤに登録される。また、コピーペースト作業の有無が登録される。

図１７は、集密度合いの分析の処理手順を示すフローチャートである。
サーバ３の時系列イベント集密度分析機能３－１５は、人間の能力を超える集密度合で発生した情報の関係を分析するため、次のステップＳ３－１５－１～ステップＳ３－１５－８の処理を順次実行する。

ステップＳ３－１５－１
時系列イベント集密度分析機能３－１５は、ストレージ５やファイルサーバ領域６－１で管理されているイベント収集する。その後、ステップＳ３－１５－２に進む。
ステップＳ３－１５－２
時系列イベント集密度分析機能３－１５は、対象のイベントが周期動作イベントであるか否かを判定する。周期イベントであれば（Ｙｅｓ）、ステップＳ３－１５－３に進む。周期イベントでなければ（Ｎｏ）、ステップＳ３－１５－５に進む。
ステップＳ３－１５－３
時系列イベント集密度分析機能３－１５は、対象のイベントが状態変化イベントであるか否かを判定する。状態変化イベントであれば（Ｙｅｓ）、ステップＳ３－１５－４に進む。状態変化イベントでなければ（Ｎｏ）、ステップＳ３－１５－１に進む。
ステップＳ３－１５－４
時系列イベント集密度分析機能３－１５は、集密グループ名を生成し、管理表１＃－ａに格納する。その後、ステップＳ３－１５－５に進む。
ステップＳ３－１５－５
時系列イベント集密度分析機能３－１５は、指定されたアイドル状態以内のデータであるか否かを判定する。指定されたアイドル状態以内のデータであれば（Ｙｅｓ）、ステップＳ３－１５－６に進む。指定されたアイドル状態以内のデータでなければ（Ｎｏ）、ステップＳ３－１５－７に進む。
ステップＳ３－１５－６
時系列イベント集密度分析機能３－１５は、集密関係があると見なしグループ化を行う。その後、ステップＳ３－１５－１に進む。
ステップＳ３－１５－７
時系列イベント集密度分析機能３－１５は、新しい集密グループ名を生成する。その後、ステップＳ３－１５－８に進む。
ステップＳ３－１５－８
時系列イベント集密度分析機能３－１５は、指定された全てのサーバを探索したか否かを判定する。未探索のサーバが残っていれば（Ｎｏ）、ステップＳ３－１５－１に進む。そして、全てのサーバを探索した場合（Ｙｅｓ）、処理を終了する。

図１８は、集密度合いの分析結果の説明図である。
図１８では、時刻「20201101T12：00:01」～時刻「20201101T12：00:02」の構造化ＩＤを同時に使用されたと見なして１つの集密グループ「root/集密グループ/20201101T12：00:01」に入れている。そして、時刻「20201101T13：00:01」の構造化ＩＤは、別の集密グループ「root/集密グループ/20201101T13：00:01」としている。

図１９は、ファイルの文章から構造化データの意味を取得する処理手順を示すフローチャートである。
サーバ３のデータ分析機能３－１３は、次のステップＳ３－１３－１０～ステップＳ３－１３－１３の処理を順次実行する。

ステップＳ３－１３－１０
データ分析機能３－１３は、自然言語を含むファイルを取得する。その後、ステップＳ３－１３－１１に進む。一例として、取得されたファイルには「項目ＩＤ１の装置名称２は、動作状態Ｘのとき障害番号＃３を発報する。」などの文章が含まれている。
ステップＳ３－１３－１１
データ分析機能３－１３は、形態素解析により、「句読点」「接続詞」など専門用語外の言葉で文章を分解し、用語の接続関係をスラッシュに置き換える。その後、ステップＳ３－１３－１２に進む。用語の接続関係をスラッシュに置き換える処理は、例えば日本語では格助詞「の」をスラッシュに置き換えればよい。このステップの結果、「項目ＩＤ１／装置名称２」、「動作状態Ｘ」、「障害番号＃３」、「発報」などのデータが得られる。

ステップＳ３－１３－１２
データ分析機能３－１３は、形態素解析で分離されたデータの意味が、ほぐして管理されている構造化ＩＤに該当するか否かを判定する。該当しなければ（Ｎｏ）、データ分析機能３－１３は、データの意味を新規追加する。該当するならば（Ｙｅｓ）、ステップＳ３－１３－１３に進む。
ステップＳ３－１３－１３
データ分析機能３－１３は、データの意味を再利用しデータの意味理解統計を更新し、処理を終了する。

図２０～図２２は、データ意味のガバナンス管理についての説明図である。
図２０～図２２では、データ分析機能３－１３は、データの意味を再利用しデータの意味理解統計を更新している（ステップＳ３－１３－１４）。

図２０では、ある年の２月に設備の入れ替えがあり、新設備に対応した用語を用いるよう、ガバナンスが施行されている。この結果、カバナンス施行日から旧設備に起因した情報の意味の使用頻度が低下するとともに、新設備の情報の意味の使用頻度が増加している。そして、ある時点で、旧設備の情報利用者がゼロになり、切り替えが完了している。
このように、図２０の分析結果表示では、同一の意味に用いられる業務データの入れ替わりを識別し、可視化することができる。

図２１では、同じくある年の２月に設備の入れ替えがあり、新設備に対応した用語を用いるよう、ガバナンスが施行されている。この結果、製造部ではガバナンス施行日から新設備の情報の意味の使用頻度が大きく増加し、生産技術部では新設備の情報の意味の使用頻度が徐々に増加し、工務部では新設備の情報の意味の使用頻度に関する増加はさらにゆるやかである。この変化を分析すると、製造部でまず増え、他の部署でも増え始めていることから、皆が合意形成に使っている重要な単語である可能性を指摘できる。
このように、図２１の分析結果表示では、用語の使用頻度の推移を部署ごとに対比して可視化することができる。

図２２では、用語の使用頻度をヒストグラムで比較し、用語間の関係をグラフとして表示している。例えば、ヒストグラムの値が大きい用語は、利用者が多く、重要な意味を持つ用語と評価することができる。
グラフにおいては、用語の使用頻度が円の大きさとして示され、用語間の関係がリンクとして示されている。グラフで孤立しているデータ意味は、整理対象とすることができる。また、情報の繋がりで意味理解の度合いを管理することができる。円が大きいほど、リンクが多いほど価値があることになる。この価値は、例えば、「その言葉を知っていることが業務の理解に重要である」、「その言葉を知っていれば、その部署と会話ができる」といったように、業務の遂行における価値である。

図２３は、データ意味理解用のテンプレートを作成する処理手順を示すフローチャートである。
サーバ３のデータ分析機能３－１３は、次のステップＳ３－１３－２０～ステップＳ３－１３－２３の処理を順次実行する。

ステップＳ３－１３－２０
データ分析機能３－１３は、自然言語を含むファイルを取得する。その後、ステップＳ３－１３－２１に進む。一例として、取得されたファイルには「項目ＩＤ１の装置名称２は、動作状態Ｘのとき障害番号＃３を発報する。」などの文章が含まれている。
ステップＳ３－１３－２１
データ分析機能３－１３は、登録されたデータ意味を形態素解析で品詞に置き換えてテンプレートを作成する。その後、ステップＳ３－１３－２２に進む。このステップの結果、「＜名詞／対象／構造化ＩＤ＞は、＜名詞／状態＞のとき＜名詞/障害識別子＞を発報する。」のようなテンプレートが得られる。

ステップＳ３－１３－２２
データ分析機能３－１３は、作成されたテンプレートがデータの意味理解を促進するテンプレート構造に既に登録されているか否かを判定する。登録されていなければ（Ｎｏ）、データ分析機能３－１３は、データの意味を新規追加する。登録されているならば（Ｙｅｓ）、ステップＳ３－１３－２３に進む。
ステップＳ３－１３－２３
データ分析機能３－１３は、データ意味理解のテンプレートを更新し、処理を終了する。

図２４は、管理テンプレートの自動更新の処理手順を示すフローチャートである。
サーバ３のデータ分析機能３－１３は、次のステップＳ３－１３－３０～ステップＳ３－１３－３２の処理を順次実行する。

ステップＳ３－１３－３０
データ分析機能３－１３は、図２１～図２３の分析結果をもとにデータの利用傾向が低下しているか確認する。その後、ステップＳ３－１３－３１に進む。
ステップＳ３－１３－３１
データ分析機能３－１３は、利用頻度が低下しているか否かを判定する。利用頻度が低下していなければ（Ｎｏ）、現状維持する。利用頻度が低下しているならば（Ｙｅｓ）、ステップＳ３－１３－３２に進む。

ステップＳ３－１３－３２
データ分析機能３－１３は、データ管理テーブルから当該データの識別子を検索し、削除を行うことで自動更新し、処理を終了する。

上述してきたように、業務データ分析装置としてのサーバ３を含む業務データ分析システムは、演算装置としてのＣＰＵ３－１と、記憶装置としてのストレージ５を備え、前記記憶装置は、業務に関するデータである業務データを含む管理対象データを記憶し、前記演算装置は、前記管理対象データに含まれる業務データと、前記管理対象データの管理に係る構造において用いられる業務データとを用いて、前記業務データが前記業務においてどのように使用されているかを分析する。
このため、業務データをより高度に分析することができる。

また、前記業務データは、前記業務に用いられる用語であり、前記管理対象データは、階層構造のディレクトリに格納され、前記演算装置は、前記ディレクトリの名称を前記業務データとして使用し、前記階層構造を階層化された識別情報として用いて、前記用語の意味の辞書を作成する。
このため、ディレクトリの名称に用いられる用語は、業務に関わる人物にとって明確で汎用性が高いと認識されていることを考慮して、業務データを高度に分析することができる。すなわち、ディレクトリ構造を含めて収集することで、データを識別するための人の概念とグルーピング、階層構造、意思疎通を実現するための識別名称を収集し、分析の対象に含めることができる。

また、前記演算装置は、前記識別情報を比較して前記階層構造の差分を距離として求めて、業務データ間の関係を評価する。
一例として、前記演算装置は、階層が深く、前記距離が小さい関係を有する業務データは、限定された範囲で使用されていると評価し、前記階層が深く、前記距離が大きい関係を有する業務データは、広く認知されて業務における価値が高いと評価し、階層が浅く、前記距離に関わらず多数使用されている業務データは、広く認知された一般的な用語であると評価する。
このため、距離と階層の関係から、ローカル用語か概念を超えて意味合いを持つかを識別し、業務データを高度に分析することができる。

また、前記管理対象データは、前記業務データとして用語を用いて自然言語で記述された文章データであり、前記演算装置は、前記文章データの用語を一般化することで前記業務データの意味の理解を支援するテンプレートを作成することができる。
このため、マニュアルなどの文章から、業務データを高度に分析することができる。

また、前記演算装置は、前記業務データを操作するユーザの挙動を取得し、前記挙動から複数の業務データの関連付けを行うことができる。
一例として、前記演算装置は、前記ユーザが同時にアクティブにした複数の業務データを関連する業務データとする。
このため、ユーザが何を一度に使っているかの局所性をユーザの挙動として収集し、業務データを関連付けて高度な分析を行うことができる。例えば、用語の距離が離れているにもかかわらず、同じタイミングで使われているものは、意思疎通を図るために重要な言葉のグループであるという観点での分析が可能である。

また、前記演算装置は、前記業務データの使用の実績を統計的に分析し、同一の意味に用いられる業務データの入れ替わりを識別する。
このため、業務データの使用の実態について高度な分析を行うことができる。

なお、本発明は上記の実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、かかる構成の削除に限らず、構成の置き換えや追加も可能である。

１：ユーザ端末、１－１：表示装置、１－２：ディスク、２：サーバシステム、３：サーバ、３－１：ＣＰＵ、３－１２：ＩＤ関係分析機能、３－１３：データ分析機能、３－１４：ユーザＰＣ操作分析機能、３－１５：時系列イベント集密度分析機能、３－２：メモリ、３－４：ディスクコントローラ、３－５：ディスク、５：ストレージ、６－１：サーバ領域、６－１：ファイルサーバ領域、６－１－１：ディレクトリ、６－ａ：ファイル、７：操作分析部、８：端末、９：ユーザ

Claims

演算装置と、
記憶装置とを備え、
前記記憶装置は、業務に関するデータである業務データを含む管理対象データを記憶し、
前記演算装置は、前記管理対象データに含まれる業務データと、前記管理対象データの管理に係る構造において用いられる業務データとを用いて、前記業務データが前記業務においてどのように使用されているかを分析する
ことを特徴とする業務データ分析装置。
前記業務データは、前記業務に用いられる用語であり、
前記管理対象データは、階層構造のディレクトリに格納され、
前記演算装置は、前記ディレクトリの名称を前記業務データとして使用し、前記階層構造を階層化された識別情報として用いて、前記用語の意味の辞書を作成する
ことを特徴とする請求項１に記載の業務データ分析装置。
前記演算装置は、前記識別情報を比較して前記階層構造の差分を距離として求めて、業務データ間の関係を評価することを特徴とする請求項２に記載の業務データ分析装置。
前記演算装置は、階層が深く、前記距離が小さい関係を有する業務データは、限定された範囲で使用されていると評価し、前記階層が深く、前記距離が大きい関係を有する業務データは、広く認知されて業務における価値が高いと評価し、階層が浅く、前記距離に関わらず多数使用されている業務データは、広く認知された一般的な用語であると評価することを特徴とする請求項３に記載の業務データ分析装置。
前記管理対象データは、前記業務データとして用語を用いて自然言語で記述された文章データであり、
前記演算装置は、前記文章データの用語を一般化することで前記業務データの意味の理解を支援するテンプレートを作成する
ことを特徴とする請求項１に記載の業務データ分析装置。
前記演算装置は、前記業務データを操作するユーザの挙動を取得し、前記挙動から複数の業務データの関連付けを行うことを特徴とする請求項１に記載の業務データ分析装置。
前記演算装置は、前記ユーザが同時にアクティブにした複数の業務データを関連する業務データとすることを特徴とする請求項６に記載の業務データ分析装置。
前記演算装置は、前記業務データの使用の実績を統計的に分析し、同一の意味に用いられる業務データの入れ替わりを識別することを特徴とする請求項１に記載の業務データ分析装置。
演算装置と、
記憶装置とを備え、
前記記憶装置は、業務に関するデータである業務データを含む管理対象データを記憶し、
前記演算装置は、前記管理対象データに含まれる業務データと、前記管理対象データの管理に係る構造において用いられる業務データとを用いて、前記業務データが前記業務においてどのように使用されているかを分析する
ことを特徴とする業務データ分析システム。
演算装置が、
業務に関するデータである業務データを含む管理対象データを記憶装置に格納するステップと、
前記管理対象データに含まれる業務データと、前記管理対象データの管理に係る構造において用いられる業務データとを用いて、前記業務データが前記業務においてどのように使用されているかを分析するステップと、
分析結果を出力するステップと
を含むことを特徴とする業務データ分析方法。