JP2023036140A - 業務データ分析装置、業務データ分析システム及び業務データ分析方法 - Google Patents

業務データ分析装置、業務データ分析システム及び業務データ分析方法 Download PDF

Info

Publication number
JP2023036140A
JP2023036140A JP2021142985A JP2021142985A JP2023036140A JP 2023036140 A JP2023036140 A JP 2023036140A JP 2021142985 A JP2021142985 A JP 2021142985A JP 2021142985 A JP2021142985 A JP 2021142985A JP 2023036140 A JP2023036140 A JP 2023036140A
Authority
JP
Japan
Prior art keywords
data
business
business data
managed
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021142985A
Other languages
English (en)
Other versions
JP2023036140A5 (ja
Inventor
光司 天野
Koji Amano
恒彦 馬場
Tsunehiko Baba
亨 霜鳥
Toru Shimotori
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2021142985A priority Critical patent/JP2023036140A/ja
Priority to US17/678,277 priority patent/US20230060475A1/en
Publication of JP2023036140A publication Critical patent/JP2023036140A/ja
Publication of JP2023036140A5 publication Critical patent/JP2023036140A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/3001Arithmetic instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/34Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes
    • G06F9/345Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes of multiple operands or results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】業務データをより高度に分析すること。【解決手段】演算装置と、記憶装置とを備え、前記記憶装置は、業務に関するデータである業務データを含む管理対象データを記憶し、前記演算装置は、前記管理対象データに含まれる業務データと、前記管理対象データの管理に係る構造において用いられる業務データとを用いて、前記業務データが前記業務においてどのように使用されているかを分析することを特徴とする業務データ分析装置。【選択図】図2

Description

本発明は、業務データ分析装置、業務データ分析システム及び業務データ分析方法に関する。
従来、業務データの分析に関し、特開2018-72960号公報(特許文献1)に記載の技術がある。この公報には、「データ分析支援装置は、各業務システム間の関係、各業務データテーブル間の関係、各業務データテーブルが保有する各データ項目間の関係、各業務データテーブルの各レコードが保有する各データ値間の関係を解析して関係ネットワークとして記憶する関係ネットワーク生成部と、データ分析対象となるデータ項目を実績値に基づく第1のデータ種別と、計画値または事前定義に基づく第2のデータ種別に分類するデータ項目分類部と、データ分析に用いるデータ分析用テーブルを生成し蓄積する分析用データテーブル生成部と、組合せてデータ分析が可能なデータ項目群をデータモデルとして生成するデータモデル生成部と、分析対象となるデータ項目を推薦する分析対象項目提示部と、を備える。」という記載がある。
特開2018-72960号公報
従来の技術では、データ知識の無い人や分野知識のない人でも、テーブル定義情報を用いずに容易に分析対象項目を選択して分析することができる。しかしながら、より高度な分析を行うには、業務データが業務においてどのように使用されているかが重要である。例えば、ある業務に関する用語を分析する場合には、その用語を含んで作成されたデータを分析するのみならず、業務に関わる人物にとってのその用語の意味の明確さや汎用性などを考慮して分析することが望ましい。
そこで、本発明では、業務データをより高度に分析することのできる業務データ分析技術を提供することを目的とする。
上記目的を達成するために、代表的な本発明の業務データ分析装置及び業務データ分析システムの一つは、演算装置と、記憶装置とを備え、前記記憶装置は、業務に関するデータである業務データを含む管理対象データを記憶し、前記演算装置は、前記管理対象データに含まれる業務データと、前記管理対象データの管理に係る構造において用いられる業務データとを用いて、前記業務データが前記業務においてどのように使用されているかを分析することを特徴とする。
また、代表的な本発明の業務データ分析方法の一つは、演算装置が、業務に関するデータである業務データを含む管理対象データを記憶装置に格納するステップと、前記管理対象データに含まれる業務データと、前記管理対象データの管理に係る構造において用いられる業務データとを用いて、前記業務データが前記業務においてどのように使用されているかを分析するステップと、分析結果を出力するステップとを含むことを特徴とする。
本発明によれば、業務データをより高度に分析することのできる業務データ分析技術を提供することができる。上記した以外の課題、構成及び効果は以下の実施の形態の説明により明らかにされる。
業務データ分析システムの構成の説明図である。 業務データ分析システムが実施する処理の説明図である。(その1) 業務データ分析システムが実施する処理の説明図である。(その2) 業務データ分析システムの処理の概要を示すフローチャートである。 データ意味管理用の統合画面の具体例である。 データの意味の辞書の作成についての説明図である。(その1) データの意味の辞書の作成についての説明図である。(その2) データの意味の辞書の作成についての説明図である。(その3) 用語の距離分析アルゴリズムのステップの説明図である。 ユーザの操作を分析する場合の構成図である。 実装依存の意味階層に基づく構造化IDの再定義の説明図である。 データベースの意味階層に基づく構造化IDの再定義の説明図である。 意味の関係の抽出についての説明図である。 構造化IDの生成の処理手順を示すフローチャートである。 ユーザ操作からのデータ意味関係の生成のフローチャートである。 ユーザ操作からのデータ意味関係の生成結果の説明図である。 集密度合いの分析の処理手順を示すフローチャートである。 集密度合いの分析結果の説明図である。 ファイルの文章から構造化データの意味を取得する処理手順を示すフローチャートである。 データ意味のガバナンス管理についての説明図である。(その1) データ意味のガバナンス管理についての説明図である。(その2) データ意味のガバナンス管理についての説明図である。(その3) データ意味理解用のテンプレートを作成する処理手順を示すフローチャートである。 管理テンプレートの自動更新の処理手順を示すフローチャートである。
以下、本発明を実施するための形態例について、図を参照して説明する。
なお、本明細書及び図において、実質的に同一の機能又は構成を有する構成要素については、同一の符号を付することにより重複する説明を省略する。
図1は、業務データ分析システムの構成の説明図である。
業務データ分析システムは、ユーザ端末1と、業務データ分析装置としてのサーバシステム2を備える。
ユーザ端末1は、その内部にCPU(Central Processing Unit)1-3及び主記憶装置1-4を備えたコンピュータであり、表示装置1-1や補助記憶装置であるディスク1-2などの周辺機器が接続される。
ユーザ端末1は、ユーザ9の操作を受け付けて、業務データを含む管理対象データをサーバシステム2に格納し、管理対象データを用いて業務を行う。
サーバシステム2は、1又は複数のサーバ3と、1又は複数のストレージ5を有する。
ストレージ5は、管理対象データなどを記憶する記憶装置である。サーバ3は、自装置のメモリやストレージ5に階層構造のファイルサーバ領域を生成し、管理対象データを格納する。サーバシステム2は、各階層に付された名称を業務データの一種として扱い、階層構造を階層化された識別情報(構造化ID)として用いて、業務データの分析を行う。
図1では、サーバ領域6-1の下にディレクトリ6-1-1が生成され、ディレクトリ6-1-1の下に管理対象データであるファイル6-aが格納されている。
この場合、サーバ領域6-1のサーバ領域ID、ディレクトリ6-1-1のディレクトリID、ファイル6-aのファイル名がそれぞれ業務データの一種となり、「サーバ領域ID/ディレクトリID/ファイル名」が識別情報(構造化ID)となる。
さらに、ファイル6-aに含まれる項目IDや値もそれぞれが業務データとなる。
ここで、1又は複数のサーバ3の一つであるサーバ3-aを例示し、サーバ3の構成を説明する。サーバ3は、演算装置であるCPU3-1、主記憶装置であるメモリ3-2、ネットワークインターフェースカード(NIC)3-3、ディスクコントローラ3-4、補助記憶装置であるディスク3-5を有する。
CPU3-1は、メモリ3-2にプログラムやデータを展開し、プログラムを順次実行することで、各種機能を実現する。
具体的には、メモリ3-2には、OS(Operating System)3-11、構造化ID関係分析機能3-12、データ分析機能3-13などに関するデータが展開される。
OS3-11は、サーバ3の基本的な動作の制御を担うプログラム群である。
構造化ID関係分析機能3-12やデータ分析機能3-13などは、管理対象データに含まれる業務データと、前記管理対象データの管理に係る構造において用いられる業務データとを用いて、業務データが業務においてどのように使用されているかを分析する処理を行う。
図2及び図3は、業務データ分析システムが実施する処理の説明図である。図2及び図3に示すように、業務データ分析システムが実施する処理には、「データの意味の辞書の作成」、「データの意味理解を促進させるテンプレートの作成」及び「データ意味のガバナンス管理」を含む。
まず、データの意味の辞書の作成について説明する。
サーバ3は、既存データのディレクトリ構造やテーブル情報から、データ意味の抽象側を親側識別子として抽出する。親側識別子としては、管理対象データが格納されている場所に至るまでの各階層の名称、管理対象データの名称、テーブルの項目や値に用いられる用語が抽出される。
階層、データ、項目や値などに用いられる用語は、その業務に関わる人物(業務関係者)にとって、十分に汎用的かつ明確な用語であると認識されている可能性が高い。また、これらに用いられる用語は、表記の揺らぎも少なく、業務に関連している可能性が高い。したがって、管理対象データの管理に用いられる用語についても業務データとして分析対象とすることが有効と考えられる。
また、サーバ3は、ログデータやDBデータ等の既存のデーから、データ意味の再利用可能な具体的意味を子側識別子として抽出する。ログデータやDBデータに含まれるデータは、業務に直接関係する用語等である可能性が高いためである。
また、サーバ3は、既存データの自然言語からデータ意味識別子を生成する。例えば、業務のマニュアルのように、自然言語で記述された文章データには、業務に関する各種の用語が含まれている。そこで、自然言語から単語を抽出することで、データ意味識別子として用いることができる。
サーバ3は、親側識別子、子側識別子、データ意味識別子を登録することで、データ意味理解用の辞書を作成する。このデータ意味理解用の辞書が、業務データ分析システムの第1の生成物である。
サーバ3は、既存データに対するユーザ(業務関係者)の挙動に対して、集密度の分析を行うことで、データ意味を自動でグループ化し、データ意味識別子間の関係を求める。このデータ意味識別子間の関係が、業務データ分析システムの第2の生成物である。なお、集密度の分析については後述する。
次に、データの意味理解を促進させるテンプレートの作成について説明する。
サーバ3は、既存データの自然言語から、用語を抜き出した残りを、データ意味理解を促進させるテンプレートとする。このテンプレートが、業務データ分析システムの第3の生成物である。
具体的には、サーバ3は、自然言語で記述された文章に対し、データ意味理解用の辞書に登録済み用語を一般化する処理、すなわち、辞書に登録されている用語を品詞に置き換える処理を行う。
一例として、元の文章が「項目ID1の装置名称2は、動作状態Xのとき障害番号#3を発報する。」であり、「項目ID1の装置名称2」、「動作状態X」、「障害番号#3」が辞書に登録されているならば、テンプレートが次のようになる。
「<名詞/対象/構造化ID>は、<名詞/状態>のとき<名詞/障害識別子>を発報する。」
次に、データ意味のガバナンス管理について説明する。
サーバ3は、第1~第3の生成物(データ意味理解用の辞書、データ意味識別子間の関係、データ意味理解を促進させるテンプレート)を用いて、それぞれの情報を「誰がいつまで使っているか」また「同じ意味で同じ表現を使っているか」を統計的に管理する。この統計の結果が第4の生成物であり、例えば、ディレクトリの名称やファイル名称の用語を統一したり、業務関係者にアナウンスをすることで、業務データの運用の管理に利用できる。
図4は、業務データ分析システムの処理の概要を示すフローチャートである。
本処理に先立って、サーバ3は、業務データを含む管理対象データをストレージ5などに記憶するステップを実行している。
そのうえで、サーバ3は、各種分析機能を使った既存データの分析を行う(ステップ300)。そして、分析の結果から、データの意味理解用構造化IDの生成、検索用部分IDの生成、およびデータ意味理解用テンプレートの生成を行う(ステップ301)。生成されたデータは、業務データが前記業務においてどのように使用されているかを示すものであり、生成されたデータを分析結果として表示出力し(ステップ302)、処理を終了する。
図5は、データ意味管理用の統合画面の具体例である。
図5に示した統合画面は、構造化ID関係分析機能3-12とデータ分析機能3-13に加え、ユーザPC操作分析機能3-14と時系列イベント集密度分析機能3-15の分析の結果を統合して表示する画面である。
図5に示した統合画面では、指定された業務区分「root/*/業務1」に関するデータである。ここで、ワイルドカード「*」を用いることで、例えば異なる部署で管理されていても、業務1に関するデータを分析対象とすることができる。
この統合画面では、以下の時間的推移を横軸の長さとして表示している。
(1)使われたデータ意味の時間的遷移
(2)実施されたミッション(目的)の時間的遷移
(3)関わったユーザ(業務関係者)の時間的遷移
(4)使用した分析テンプレートの時間的遷移
(5)関係したイベント(制御信号や処理)の時間的遷移
さらに、これらの時間的推移から、以下の情報を求めている。
(6)時間的な集密度から観測された情報のグループ
時間的な集密度から観測された情報のグループとは、ある時間範囲内に使用された業務データであり、典型としては、ユーザ(業務関係者)が同時にアクティブにした複数の業務データである。図5では、このグループを、複数の時間的遷移に渡る矩形として示している。
図6~図8は、データの意味の辞書の作成についての説明図である。
図6は、用語の関係性分析における結果の表示を示している。
グラフ1#―1は、相互関係のある構造化IDにリンクを張って可視化したものである。相互関係の抽出方法は、後述する。
テーブル1#―2は、用語の構造化ID1#―2a、用語1#―2b、相互関係1#―2cを対応付けて表示している。
例えば、テーブル1#-2の行1#―3-1では、「root/用語1」が「root/用語2」、「root/抽象概念2/用語6」、「root/用語3」と相互関係を有することを示している。
行1#―3-2に示すように、異なる概念でも、同一表現で同一の意味ならば、相互関係が生まれる。一方、行1#―3-3に示すように、異なる概念で、同一表現でも異なる意味ならば相互関係は生まれない。
図7は、用語の距離分析における結果の表示を示している。
例えば、行1#-4-1と行1#-4-2は、グラフ1#-1aに示したように、枝IDを超えて関係が見出されている。一方、行1#-4-3と行1#-4-4は、グラフ1#-1bに示したように、抽象概念2の中だけで関係が見出されている。
図8は、用語の距離分析における距離スコアの表示を示している。
図8では、テーブル1#-4に、意味の距離1#-4dの列が追加されている。この意味の距離は、自分自身(例えば、行1#-4-3)の場合に「0」になる。一般概念では、枝が短くなり、例えば、行1#-4-1では「3」となっている。抽象概念をまたぐ行1#-4-2の距離は「4」である。同一抽象概念内、すなわち狭い範囲での意味の関係である行1#-4-4では「1」となっている。
図9は、用語の距離分析アルゴリズムのステップの説明図である。
まず、サーバ3は、ステップ1として、比較元となる用語の構造化IDを1#-4aから取得する。具体的には、行1#-4d-1に示したように、1#-4cから比較元が定義されている行を選び、そのIDを1#-4aからコピーする。
次に、サーバ3は、ステップ2として、構造化IDを比較する。
条件:<比較元と同じ構造化ID>を満たすならば、行1#-4d-2に示したように、意味の距離を「0」とする。
条件:<共通の親を持ち、個要素が異なる場合>には、同一の親まで上がり、対象用語までたどり着く移動距離を測る。このとき、親IDまでの距離は1とする。
この結果、行1#-4d-3に示したように、「root/抽象概念2/用語6」と「root/用語1」を比較すると距離は「3」となる。
また、行1#-4d-4に示したように、「root/抽象概念2/用語6」と「root/抽象概念1/用語6」を比較すると距離は「4」となる。
また、行1#-4d-5に示したように、「root/抽象概念2/用語6」と「root/抽象概念2/用語7」を比較すると距離は「2」となる。
この分析により、サーバ3は以下の評価を行う。
(1)構造化IDの階層が深く、意味の距離が短い関係は、ごく限られた世界でしか認知されず、使われていないデータの意味である。
(2)構造化IDの階層が深く、意味の距離が長い関係は、広く認知され価値が高いデータの意味である。階層が深いことは特定業務への関連の度合いが高いことを示唆し、距離が長く、特に別の抽象概念を超えて関係を持つことは他の業務への関連があることを示唆する。したがって、階層の深さと距離の長さが両立すれば、特定業務に関係が深く、他の業務にも関連する重要なデータと考えることができるのである。
(3)構造化IDの階層が浅く、意味の距離に関わらず多数使われている関係は、広く認知され一般的に認知されている(テンプレート化している)データの意味である。
図10は、ユーザの操作を分析する場合の構成図である。図10に示した構成は、図1の構成と比べ、ユーザ端末1の主記憶装置1-4に操作分析部7をさらに備えている。また、サーバ3は、ネットワーク4を介して複数の端末8と接続され、メモリ3-2にはユーザPC操作分析機能3-14及び時系列イベント集密度分析機能3-15をさらに備えている。その他の構成は図1と同様であるので、同一の構成要素には同一の符号を付して説明を省略する。
なお、本構成では、ユーザ端末1は、分析に関する権限を有するデータ管理者としてのユーザに使用されるのに対し、端末8は、分析に関する権限を有さず、業務データの格納と利用を行う業務関係者としてのユーザに使用される。
図11は、実装依存の意味階層に基づく構造化IDの再定義の説明図である。
図11では、実装依存のファイルサーバ領域での意味階層を参考に、公開する意味階層を新たに定義するためのテーブル関係を示している。
実装環境の意味絞り込み概念の取り込みにより作成された構造化IDと項目IDは、ユーザ(業務関係者)の定義に基づくものである。この構造化IDと項目IDから、データの意味共有を目的に選択、もしくは新規作成により公開用構造化IDを定義し、公開する。
例えば、「日時」、「発生時刻」、「タイムスタンプ」などの時間に関する項目は、「時刻」に統一し、「業務データ<番号>」と「業務項目<番号>」などの表記の揺らぎも「業務<番号>」の表記に統一する。
さらに、構造化IDに用いられるディレクトリ名などもシステムの運用に合わせて既定の値の指定や、ユーザ(業務関係者)への任意設定の許可を行うことで、利便性と柔軟性を向上することができる。
図12は、データベースの意味階層に基づく構造化IDの再定義の説明図である。
図12では、データベースのファイルサーバ領域での意味階層を参考に、公開する意味階層を新たに定義するためのテーブル関係を示している。
データベースの意味絞り込み概念の取り込みにより作成された構造化IDと項目IDは、データベースの自動作成処理によるものである。この構造化IDと項目IDから、データの意味共有を目的に選択、もしくは新規作成により公開用構造化IDを定義し、公開する。
具体的には、図11と同様に、項目の統一と構造化IDの設定を行うことで、利便性と柔軟性を向上することができる。
図13は、意味の関係の抽出についての説明図である。
サーバ3の構造化ID関係分析機能3-12は、公開用の構造化IDをほぐす処理と、ほぐした部分的な構造化IDで公開されている構造化IDを検索することで、意味の関係を抽出する。
公開用の構造化IDをほぐす処理は、構造化IDの各階層の一部をワイルドカードで置き換えることで行う。構造化IDの一部をワイルドカードで置き換えることで、ほぐした部分的な構造化IDが複数得られる。構造化ID関係分析機能3-12は、それぞれの部分駅な構造化IDで、公開された構造化IDを検索する。その結果、元の構造化IDと一部が一致する構造化IDが抽出され、抽出された構造化IDが元の構造化IDと関連のある構造化IDとなる。
ここでの検索結果は、「該当なし」であれば、その使い方がされていないことを示す。検索結果が多すぎれば、意味が広すぎることを示す。検索結果が1個だけであれば、十分な情報があり、その1つの言葉だけで共通理解が得られることを示す。
図14は、構造化IDの生成の処理手順を示すフローチャートである。
サーバ3のデータ分析機能3-13は、実装依存の情報から、顧客の思考順序を含む衝突しない構造化IDを生成する。
具体的には、データ分析機能3-13は、次のステップS3-13-1~ステップS3-13-6の処理を順次実行する。
ステップS3-13-1
データ分析機能3-13は、データを識別するための実装上でのIDをクローリングにより収集する。その後、ステップS3-13-2に進む。
ステップS3-13-2
データ分析機能3-13は、全体となっているID(先に利用されたID)を親IDとして、区切り文字を挟みID同士を結合する。その後、ステップS3-13-3に進む。
ステップS3-13-3
データ分析機能3-13は、作成されたデータはデータベースが対象か否かを判定する。データベースが対象であれば(Yes)、作成されたデータをDB用の管理表に格納し、ステップS3-13-1に進む。データベースが対象でなければ(No)、ステップS3-13-4に進む。
ステップS3-13-4
データ分析機能3-13は、作成されたデータはファイルが対象か否かを判定する。ファイルが対象であれば(Yes)、作成されたデータをファイル用の管理表に格納し、ステップS3-13-1に進む。ファイルが対象でなければ(No)、ステップS3-13-5に進む。
ステップS3-13-5
このステップに進んだ場合には、作成されたデータはデータベースでもファイルでもない。データ分析機能3-13は、データの格納を行わずにステップS3-13-6に進む。
ステップS3-13-6
データ分析機能3-13は、指定された全てのサーバを探索したか否かを判定する。未探索のサーバが残っていれば(No)、ステップS3-13-1に進む。全てのサーバを探索済みであれば(Yes)、処理を終了する。
図15は、ユーザ操作からのデータ意味関係の生成のフローチャートである。
まず、ユーザ端末1の操作分析部7は、アクティブウィンドウから取得できる情報よりユーザ(業務関係者)の操作や使用した情報を収集する(ステップS7-1)。次に、操作分析部7は、収集した情報にユーザ端末の識別子を含む情報を付加したログ情報をサーバ3に送信する(ステップS7-2)。
その後、サーバ3に存在する、ユーザPC操作分析機能3-14は、ログからユーザ(業務関係者)が認知している概念を外枠とした構造化ID関係の集合を生成する(ステップS3-14-1)。
そして、ユーザPC操作分析機能3-14は、ユーザ(業務関係者)が認知している構造化IDの関係集合を、「時系列の順序関係」と「同一時刻に開いていた情報」の相互関係とともにストレージ5に保存する(ステップS3-14-2)。
さらに、ユーザPC操作分析機能3-14は、ユーザ(業務関係者)がコピーペーストを繰り返しているログを「要システム連携作業」として、その意味の関係をストレージ5に保存する。
図16は、ユーザ操作からのデータ意味関係の生成結果の説明図である。
同図に示すように、ユーザ操作からデータ意味関係を生成することで得られる操作分析ログでは、構造化IDには時刻情報が付される。また、同一時刻に開いていた情報が相互関係IDに登録される。また、コピーペースト作業の有無が登録される。
図17は、集密度合いの分析の処理手順を示すフローチャートである。
サーバ3の時系列イベント集密度分析機能3-15は、人間の能力を超える集密度合で発生した情報の関係を分析するため、次のステップS3-15-1~ステップS3-15-8の処理を順次実行する。
ステップS3-15-1
時系列イベント集密度分析機能3-15は、ストレージ5やファイルサーバ領域6-1で管理されているイベント収集する。その後、ステップS3-15-2に進む。
ステップS3-15-2
時系列イベント集密度分析機能3-15は、対象のイベントが周期動作イベントであるか否かを判定する。周期イベントであれば(Yes)、ステップS3-15-3に進む。周期イベントでなければ(No)、ステップS3-15-5に進む。
ステップS3-15-3
時系列イベント集密度分析機能3-15は、対象のイベントが状態変化イベントであるか否かを判定する。状態変化イベントであれば(Yes)、ステップS3-15-4に進む。状態変化イベントでなければ(No)、ステップS3-15-1に進む。
ステップS3-15-4
時系列イベント集密度分析機能3-15は、集密グループ名を生成し、管理表1#-aに格納する。その後、ステップS3-15-5に進む。
ステップS3-15-5
時系列イベント集密度分析機能3-15は、指定されたアイドル状態以内のデータであるか否かを判定する。指定されたアイドル状態以内のデータであれば(Yes)、ステップS3-15-6に進む。指定されたアイドル状態以内のデータでなければ(No)、ステップS3-15-7に進む。
ステップS3-15-6
時系列イベント集密度分析機能3-15は、集密関係があると見なしグループ化を行う。その後、ステップS3-15-1に進む。
ステップS3-15-7
時系列イベント集密度分析機能3-15は、新しい集密グループ名を生成する。その後、ステップS3-15-8に進む。
ステップS3-15-8
時系列イベント集密度分析機能3-15は、指定された全てのサーバを探索したか否かを判定する。未探索のサーバが残っていれば(No)、ステップS3-15-1に進む。そして、全てのサーバを探索した場合(Yes)、処理を終了する。
図18は、集密度合いの分析結果の説明図である。
図18では、時刻「20201101T12:00:01」~時刻「20201101T12:00:02」の構造化IDを同時に使用されたと見なして1つの集密グループ「root/集密グループ/20201101T12:00:01」に入れている。そして、時刻「20201101T13:00:01」の構造化IDは、別の集密グループ「root/集密グループ/20201101T13:00:01」としている。
図19は、ファイルの文章から構造化データの意味を取得する処理手順を示すフローチャートである。
サーバ3のデータ分析機能3-13は、次のステップS3-13-10~ステップS3-13-13の処理を順次実行する。
ステップS3-13-10
データ分析機能3-13は、自然言語を含むファイルを取得する。その後、ステップS3-13-11に進む。一例として、取得されたファイルには「項目ID1の装置名称2は、動作状態Xのとき障害番号#3を発報する。」などの文章が含まれている。
ステップS3-13-11
データ分析機能3-13は、形態素解析により、「句読点」「接続詞」など専門用語外の言葉で文章を分解し、用語の接続関係をスラッシュに置き換える。その後、ステップS3-13-12に進む。用語の接続関係をスラッシュに置き換える処理は、例えば日本語では格助詞「の」をスラッシュに置き換えればよい。このステップの結果、「項目ID1/装置名称2」、「動作状態X」、「障害番号#3」、「発報」などのデータが得られる。
ステップS3-13-12
データ分析機能3-13は、形態素解析で分離されたデータの意味が、ほぐして管理されている構造化IDに該当するか否かを判定する。該当しなければ(No)、データ分析機能3-13は、データの意味を新規追加する。該当するならば(Yes)、ステップS3-13-13に進む。
ステップS3-13-13
データ分析機能3-13は、データの意味を再利用しデータの意味理解統計を更新し、処理を終了する。
図20~図22は、データ意味のガバナンス管理についての説明図である。
図20~図22では、データ分析機能3-13は、データの意味を再利用しデータの意味理解統計を更新している(ステップS3-13-14)。
図20では、ある年の2月に設備の入れ替えがあり、新設備に対応した用語を用いるよう、ガバナンスが施行されている。この結果、カバナンス施行日から旧設備に起因した情報の意味の使用頻度が低下するとともに、新設備の情報の意味の使用頻度が増加している。そして、ある時点で、旧設備の情報利用者がゼロになり、切り替えが完了している。
このように、図20の分析結果表示では、同一の意味に用いられる業務データの入れ替わりを識別し、可視化することができる。
図21では、同じくある年の2月に設備の入れ替えがあり、新設備に対応した用語を用いるよう、ガバナンスが施行されている。この結果、製造部ではガバナンス施行日から新設備の情報の意味の使用頻度が大きく増加し、生産技術部では新設備の情報の意味の使用頻度が徐々に増加し、工務部では新設備の情報の意味の使用頻度に関する増加はさらにゆるやかである。この変化を分析すると、製造部でまず増え、他の部署でも増え始めていることから、皆が合意形成に使っている重要な単語である可能性を指摘できる。
このように、図21の分析結果表示では、用語の使用頻度の推移を部署ごとに対比して可視化することができる。
図22では、用語の使用頻度をヒストグラムで比較し、用語間の関係をグラフとして表示している。例えば、ヒストグラムの値が大きい用語は、利用者が多く、重要な意味を持つ用語と評価することができる。
グラフにおいては、用語の使用頻度が円の大きさとして示され、用語間の関係がリンクとして示されている。グラフで孤立しているデータ意味は、整理対象とすることができる。また、情報の繋がりで意味理解の度合いを管理することができる。円が大きいほど、リンクが多いほど価値があることになる。この価値は、例えば、「その言葉を知っていることが業務の理解に重要である」、「その言葉を知っていれば、その部署と会話ができる」といったように、業務の遂行における価値である。
図23は、データ意味理解用のテンプレートを作成する処理手順を示すフローチャートである。
サーバ3のデータ分析機能3-13は、次のステップS3-13-20~ステップS3-13-23の処理を順次実行する。
ステップS3-13-20
データ分析機能3-13は、自然言語を含むファイルを取得する。その後、ステップS3-13-21に進む。一例として、取得されたファイルには「項目ID1の装置名称2は、動作状態Xのとき障害番号#3を発報する。」などの文章が含まれている。
ステップS3-13-21
データ分析機能3-13は、登録されたデータ意味を形態素解析で品詞に置き換えてテンプレートを作成する。その後、ステップS3-13-22に進む。このステップの結果、「<名詞/対象/構造化ID>は、<名詞/状態>のとき<名詞/障害識別子>を発報する。」のようなテンプレートが得られる。
ステップS3-13-22
データ分析機能3-13は、作成されたテンプレートがデータの意味理解を促進するテンプレート構造に既に登録されているか否かを判定する。登録されていなければ(No)、データ分析機能3-13は、データの意味を新規追加する。登録されているならば(Yes)、ステップS3-13-23に進む。
ステップS3-13-23
データ分析機能3-13は、データ意味理解のテンプレートを更新し、処理を終了する。
図24は、管理テンプレートの自動更新の処理手順を示すフローチャートである。
サーバ3のデータ分析機能3-13は、次のステップS3-13-30~ステップS3-13-32の処理を順次実行する。
ステップS3-13-30
データ分析機能3-13は、図21~図23の分析結果をもとにデータの利用傾向が低下しているか確認する。その後、ステップS3-13-31に進む。
ステップS3-13-31
データ分析機能3-13は、利用頻度が低下しているか否かを判定する。利用頻度が低下していなければ(No)、現状維持する。利用頻度が低下しているならば(Yes)、ステップS3-13-32に進む。
ステップS3-13-32
データ分析機能3-13は、データ管理テーブルから当該データの識別子を検索し、削除を行うことで自動更新し、処理を終了する。
上述してきたように、業務データ分析装置としてのサーバ3を含む業務データ分析システムは、演算装置としてのCPU3-1と、記憶装置としてのストレージ5を備え、前記記憶装置は、業務に関するデータである業務データを含む管理対象データを記憶し、前記演算装置は、前記管理対象データに含まれる業務データと、前記管理対象データの管理に係る構造において用いられる業務データとを用いて、前記業務データが前記業務においてどのように使用されているかを分析する。
このため、業務データをより高度に分析することができる。
また、前記業務データは、前記業務に用いられる用語であり、前記管理対象データは、階層構造のディレクトリに格納され、前記演算装置は、前記ディレクトリの名称を前記業務データとして使用し、前記階層構造を階層化された識別情報として用いて、前記用語の意味の辞書を作成する。
このため、ディレクトリの名称に用いられる用語は、業務に関わる人物にとって明確で汎用性が高いと認識されていることを考慮して、業務データを高度に分析することができる。すなわち、ディレクトリ構造を含めて収集することで、データを識別するための人の概念とグルーピング、階層構造、意思疎通を実現するための識別名称を収集し、分析の対象に含めることができる。
また、前記演算装置は、前記識別情報を比較して前記階層構造の差分を距離として求めて、業務データ間の関係を評価する。
一例として、前記演算装置は、階層が深く、前記距離が小さい関係を有する業務データは、限定された範囲で使用されていると評価し、前記階層が深く、前記距離が大きい関係を有する業務データは、広く認知されて業務における価値が高いと評価し、階層が浅く、前記距離に関わらず多数使用されている業務データは、広く認知された一般的な用語であると評価する。
このため、距離と階層の関係から、ローカル用語か概念を超えて意味合いを持つかを識別し、業務データを高度に分析することができる。
また、前記管理対象データは、前記業務データとして用語を用いて自然言語で記述された文章データであり、前記演算装置は、前記文章データの用語を一般化することで前記業務データの意味の理解を支援するテンプレートを作成することができる。
このため、マニュアルなどの文章から、業務データを高度に分析することができる。
また、前記演算装置は、前記業務データを操作するユーザの挙動を取得し、前記挙動から複数の業務データの関連付けを行うことができる。
一例として、前記演算装置は、前記ユーザが同時にアクティブにした複数の業務データを関連する業務データとする。
このため、ユーザが何を一度に使っているかの局所性をユーザの挙動として収集し、業務データを関連付けて高度な分析を行うことができる。例えば、用語の距離が離れているにもかかわらず、同じタイミングで使われているものは、意思疎通を図るために重要な言葉のグループであるという観点での分析が可能である。
また、前記演算装置は、前記業務データの使用の実績を統計的に分析し、同一の意味に用いられる業務データの入れ替わりを識別する。
このため、業務データの使用の実態について高度な分析を行うことができる。
なお、本発明は上記の実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、かかる構成の削除に限らず、構成の置き換えや追加も可能である。
1:ユーザ端末、1-1:表示装置、1-2:ディスク、2:サーバシステム、3:サーバ、3-1:CPU、3-12:ID関係分析機能、3-13:データ分析機能、3-14:ユーザPC操作分析機能、3-15:時系列イベント集密度分析機能、3-2:メモリ、3-4:ディスクコントローラ、3-5:ディスク、5:ストレージ、6-1:サーバ領域、6-1:ファイルサーバ領域、6-1-1:ディレクトリ、6-a:ファイル、7:操作分析部、8:端末、9:ユーザ

Claims (10)

  1. 演算装置と、
    記憶装置とを備え、
    前記記憶装置は、業務に関するデータである業務データを含む管理対象データを記憶し、
    前記演算装置は、前記管理対象データに含まれる業務データと、前記管理対象データの管理に係る構造において用いられる業務データとを用いて、前記業務データが前記業務においてどのように使用されているかを分析する
    ことを特徴とする業務データ分析装置。
  2. 前記業務データは、前記業務に用いられる用語であり、
    前記管理対象データは、階層構造のディレクトリに格納され、
    前記演算装置は、前記ディレクトリの名称を前記業務データとして使用し、前記階層構造を階層化された識別情報として用いて、前記用語の意味の辞書を作成する
    ことを特徴とする請求項1に記載の業務データ分析装置。
  3. 前記演算装置は、前記識別情報を比較して前記階層構造の差分を距離として求めて、業務データ間の関係を評価することを特徴とする請求項2に記載の業務データ分析装置。
  4. 前記演算装置は、階層が深く、前記距離が小さい関係を有する業務データは、限定された範囲で使用されていると評価し、前記階層が深く、前記距離が大きい関係を有する業務データは、広く認知されて業務における価値が高いと評価し、階層が浅く、前記距離に関わらず多数使用されている業務データは、広く認知された一般的な用語であると評価することを特徴とする請求項3に記載の業務データ分析装置。
  5. 前記管理対象データは、前記業務データとして用語を用いて自然言語で記述された文章データであり、
    前記演算装置は、前記文章データの用語を一般化することで前記業務データの意味の理解を支援するテンプレートを作成する
    ことを特徴とする請求項1に記載の業務データ分析装置。
  6. 前記演算装置は、前記業務データを操作するユーザの挙動を取得し、前記挙動から複数の業務データの関連付けを行うことを特徴とする請求項1に記載の業務データ分析装置。
  7. 前記演算装置は、前記ユーザが同時にアクティブにした複数の業務データを関連する業務データとすることを特徴とする請求項6に記載の業務データ分析装置。
  8. 前記演算装置は、前記業務データの使用の実績を統計的に分析し、同一の意味に用いられる業務データの入れ替わりを識別することを特徴とする請求項1に記載の業務データ分析装置。
  9. 演算装置と、
    記憶装置とを備え、
    前記記憶装置は、業務に関するデータである業務データを含む管理対象データを記憶し、
    前記演算装置は、前記管理対象データに含まれる業務データと、前記管理対象データの管理に係る構造において用いられる業務データとを用いて、前記業務データが前記業務においてどのように使用されているかを分析する
    ことを特徴とする業務データ分析システム。
  10. 演算装置が、
    業務に関するデータである業務データを含む管理対象データを記憶装置に格納するステップと、
    前記管理対象データに含まれる業務データと、前記管理対象データの管理に係る構造において用いられる業務データとを用いて、前記業務データが前記業務においてどのように使用されているかを分析するステップと、
    分析結果を出力するステップと
    を含むことを特徴とする業務データ分析方法。
JP2021142985A 2021-09-02 2021-09-02 業務データ分析装置、業務データ分析システム及び業務データ分析方法 Pending JP2023036140A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021142985A JP2023036140A (ja) 2021-09-02 2021-09-02 業務データ分析装置、業務データ分析システム及び業務データ分析方法
US17/678,277 US20230060475A1 (en) 2021-09-02 2022-02-23 Operation data analysis device, operation data analysis system, and operation data analysis method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021142985A JP2023036140A (ja) 2021-09-02 2021-09-02 業務データ分析装置、業務データ分析システム及び業務データ分析方法

Publications (2)

Publication Number Publication Date
JP2023036140A true JP2023036140A (ja) 2023-03-14
JP2023036140A5 JP2023036140A5 (ja) 2024-03-14

Family

ID=85288294

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021142985A Pending JP2023036140A (ja) 2021-09-02 2021-09-02 業務データ分析装置、業務データ分析システム及び業務データ分析方法

Country Status (2)

Country Link
US (1) US20230060475A1 (ja)
JP (1) JP2023036140A (ja)

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060294115A1 (en) * 2005-06-23 2006-12-28 Emc Corporation Methods and apparatus for storing content in a file system
JP5145719B2 (ja) * 2007-01-30 2013-02-20 ソニー株式会社 メタデータ収集システム、コンテンツ管理サーバ、メタデータ収集装置、メタデータ収集方法およびプログラム
US20090307183A1 (en) * 2008-06-10 2009-12-10 Eric Arno Vigen System and Method for Transmission of Communications by Unique Definition Identifiers
US8521748B2 (en) * 2010-06-14 2013-08-27 Infobright Inc. System and method for managing metadata in a relational database
JP5382383B2 (ja) * 2011-03-24 2014-01-08 日本電気株式会社 データベース処理装置、データベース処理方法、プログラム及びデータベースのデータ構造
US9104748B2 (en) * 2011-10-21 2015-08-11 Microsoft Technology Licensing, Llc Providing a search service including updating aspects of a document using a configurable schema
US9286378B1 (en) * 2012-08-31 2016-03-15 Facebook, Inc. System and methods for URL entity extraction
US20150331568A1 (en) * 2013-01-25 2015-11-19 Mitsubishi Electric Corporation Program and electronic-manual display apparatus
US9600571B2 (en) * 2013-07-11 2017-03-21 Neura, Inc. Interoperability mechanisms for internet of things integration platform
US20160140095A1 (en) * 2014-11-18 2016-05-19 Samsung Electronics Co., Ltd. Device and method for managing reference information for provided content
US20180046671A1 (en) * 2015-10-30 2018-02-15 Hitachi, Ltd. Computer scale-out method, computer system, and storage medium
JP6736450B2 (ja) * 2016-10-25 2020-08-05 株式会社日立製作所 データ分析支援装置及びデータ分析支援システム
US11074235B2 (en) * 2017-08-10 2021-07-27 Io-Tahoe Llc Inclusion dependency determination in a large database for establishing primary key-foreign key relationships
JP7139157B2 (ja) * 2018-06-04 2022-09-20 株式会社ユニバーサルエンターテインメント 検索文生成システム、及び検索文生成方法

Also Published As

Publication number Publication date
US20230060475A1 (en) 2023-03-02

Similar Documents

Publication Publication Date Title
Ehrlinger et al. A survey of data quality measurement and monitoring tools
US11847574B2 (en) Systems and methods for enriching modeling tools and infrastructure with semantics
US11720631B2 (en) Tool to build and store a data model and queries for a graph database
CN108038222B (zh) 用于信息系统建模和数据访问的实体-属性框架的系统
US7418453B2 (en) Updating a data warehouse schema based on changes in an observation model
US6915308B1 (en) Method and apparatus for information mining and filtering
JP4879908B2 (ja) 関係データオブジェクトの管理
EP2063384A1 (en) Information processing method and device for work process analysis
EP3751427A1 (en) Rules-based dataset cleaning
US10901699B2 (en) Data analysis process assistance device and data analysis process assistance method
KR20220064016A (ko) 빅데이터를 활용한 데이터마이닝기반 건설사고 객체정보 추출 방법
US20130311474A1 (en) Generating Mappings Between a Plurality of Taxonomies
CN115271369A (zh) 一种基于知识图谱的装备信息管理方法、系统及存储介质
CN112631889A (zh) 针对应用系统的画像方法、装置、设备及可读存储介质
CN115221337A (zh) 数据编织处理方法、装置、电子设备及可读存储介质
JP4928848B2 (ja) 計算機システム統合管理環境におけるメッセージ変換装置
US20110078218A1 (en) Event history storage device, event history tracking device, event history storage method, event history storage program, and data structure
JP2005316699A (ja) コンテンツ公開システム、コンテンツ公開方法、及びコンテンツ公開プログラム
JP2023036140A (ja) 業務データ分析装置、業務データ分析システム及び業務データ分析方法
US20130218893A1 (en) Executing in-database data mining processes
CN115269862A (zh) 一种基于知识图谱的电力问答与可视化系统
CN114297443A (zh) 图数据查询语句的处理方法、装置、设备及存储介质
KR101969531B1 (ko) 데이터 집단 내 계층정보를 자동으로 추출하고 시각화하는 방법
Burd et al. A method for the identification of reusable units through the reengineering of legacy code
Brdjanin et al. REDBUL: An online system for reverse engineering of relational databases

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240305

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240305