JP6725476B2

JP6725476B2 - データ管理システム及びデータ管理方法

Info

Publication number: JP6725476B2
Application number: JP2017217286A
Authority: JP
Inventors: 恵介畑崎; 敬太郎上原
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2017-11-10
Filing date: 2017-11-10
Publication date: 2020-07-22
Anticipated expiration: 2037-11-10
Also published as: JP2019087199A

Description

本発明は、データソースから取得可能なデータを管理するデータ管理システム等に関する。

様々な機器やシステムの稼動情報のデータ、カメラから取得された映像情報や音声情報のデータ、および人物や機器等に搭載されたセンサから収集されたデータ等を蓄積し、それらデータを用いて可視化・解析・分析等することで重要な情報を取り出す試みが拡大している。

しかしながら、高頻度に発生し、且つ膨大な量となる、センサや稼動ログなどのデータをすべて蓄積し保持するようにすると、データの利活用時に膨大な量のデータから適切なデータを検索することが困難であり、また。膨大な量のデータを維持するためのコストが増大する。

このようなデータにおいては、必ずしもすべてのデータを分析等に活用するわけではないため、利活用する可能性が低いデータを削減する方法を検討すべきである。

このような課題に対して、例えば、データを蓄積する際に、データ保存前に、ストリームデータ処理等を実施し、データの選定や集約等を実施することで、蓄積されるデータ量を削減する方法が知られている。また、すべてのデータを一旦保持・蓄積しておき、蓄積してから一定期間が経過したデータや、一定期間利用しなかったデータを、定期的にバックアップ環境等へ移動したり、削除したりする方法も知られている。例えば、アクセス頻度の低いデータを下位のティアに移動させる技術としては、特許文献１に記載された技術が知られている。

特開２０１０−２５７０９４号公報

例えば、データを蓄積する際に、データ保存前にストリームデータ処理等を実施し、データの選定や集約等を実施することで、蓄積されるデータ量を削減する方法を用いた場合には、データの選定や集約を実施した際に、必要なデータを削除してしまって、データ活用時に重要なデータが得られない虞がある。

一方、データを蓄積してから一定期間が経過したデータや、一定期間利用しなかったデータについて、格納先を移動したり、データを削除したりする方法を用いた場合を考慮すると、後のデータ利活用において必要となるデータは、単に蓄積した期間や利用頻度だけで判断すること適切でないと考えられる場合がある。例えば、過去のデータを分析する場合においては、データを蓄積してから長期間が経過した際に、過去の状況を解析するために、それまで全く使用されていなかったデータを急遽利用する可能性が生じる場合がある。このような場合においては、必要なデータが削除されていたり、必要なデータの格納場所を探すのが困難であったりする虞がある。

本発明は、上記事情に鑑みなされたものであり、その目的は、データソースから取得したデータを適切に管理することのできる技術を提供することにある。

上記目的を達成するため、一観点に係るデータ管理システムは、所定のデータソースから取得可能なデータを管理するデータ管理システムであって、データソースからのデータを記憶する記憶部と、データの内容に関する統計情報に基づいて、データソースのデータのデータ分析の利用に関する有効性の度合いを示す活用度を計算する活用度計算部と、計算された活用度に関する条件を含むアクション条件を満たす場合に、データに対してアクション条件に対応する所定の処理動作を実行するアクション実行部とを備える。

本発明によれば、データソースから取得したデータを適切に管理することができる。

図１は、実施例１に係る計算機システムの全体構成図である。図２は、実施例１に係るデータ管理プログラムの機能ブロック図である。図３は、実施例１に係るデータソース管理テーブルの構成図である。図４は、実施例１に係る活用度データの構成図である。図５は、実施例１に係るメタデータの構成図である。図６は、実施例１に係るカタログデータの構成図である。図７は、実施例１に係るアクション定義テーブルの構成図である。図８は、実施例１に係るメタデータ管理処理のフローチャートである。図９は、実施例１に係るデータ取得処理のフローチャートである。図１０は、実施例１に係る活用度計算処理のフローチャートである。図１１は、実施例１に係る活用度計算を説明する図である。図１２は、実施例１に係るアクション管理処理のフローチャートである。図１３は、実施例１に係るアクション実行処理のフローチャートである。図１４は、実施例１に係るカタログ管理処理のフローチャートである。図１５は、実施例１に係るデータソース検索画面の一例を示す図である。図１６は、実施例１に係るカタログ評価画面の一例を示す図である。図１７は、実施例２に係る計算機システムの全体構成図である。図１８は、実施例２に係る関係データに格納された内容を示す図である。図１９は、実施例２に係る関連度計算を説明する図である。図２０は、実施例３に係る計算機システムの全体構成図である。図２１は、実施例３に係るユーザ管理テーブルの構成図である。図２２は、実施例３に係るメタデータの構成図である。

いくつかの実施例について、図面を参照して説明する。なお、以下に説明する実施例は特許請求の範囲に係る発明を限定するものではなく、また実施例の中で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。

以下の説明では、「ＡＡＡテーブル」の表現にて情報を説明することがあるが、情報は、どのようなデータ構造で表現されていてもよい。すなわち、情報がデータ構造に依存しないことを示すために、「ＡＡＡテーブル」を「ＡＡＡ情報」と呼ぶことができる。

図１は、実施例１に係る計算機システムの全体構成図である。

計算機システム１は、１以上の装置（Ａｓｓｅｔ：アセットともいう）１０１と、ゲートウェイ（Ｇａｔｅｗａｙ）１０３と、サーバ１１０と、データストア装置１３０と、バックアップ用データストア１６０とを備える。これらの構成間は、例えば、有線または無線のネットワークにより接続されている。アセット１０１は、サイズの小さいものから、サイズの大きいもの（建設機械）等を含んでもよく、アセット１０１は、例えば、機器、設備、デバイスと呼ばれるものも含んでよい。なお、Ｇａｔｅｗａｙ１０３と、バックアップ用データストア１６０とは、計算機システム１０に備えていなくてもよい。ここで、サーバ１１０と、データストア装置１３０とにより、データ管理システムが構成される。図１では、サーバ１１０と、データストア装置１３０とは、別体の構成となっているが、本発明はこれに限られず、サーバ１１０と、データストア装置１３０とを１つの計算機で構成してもよい。

Ａｓｓｅｔ１０１は、例えば、１以上のデータソース１０２を備える。データソース１０２は、時系列データを逐次出力するセンサであってもよく、Ａｓｓｅｔ１０１に対する各種操作ログを記憶する記憶装置であってもよい。

Ｇａｔｅｗａｙ１０３は、Ａｓｓｅｔ１０１のデータソース１０２と、サーバ１１０とを通信可能に接続する。例えば、Ｇａｔｅｗａｙ１０３は、データソース１０２に新たなデータが発生した場合には、その旨をサーバ１１０に通知する機能や、サーバ１１０からのデータソース１０２の新たなデータの発生の問い合わせに対して応答する機能を有していてもよい。

サーバ１１０は、例えば、計算機（コンピュータ）で構成されており、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１１と、メモリ１２０と、記憶デバイス１１２と、ネットワークアダプタ１１３とを備える。

ＣＰＵ１１１は、メモリ１２０に格納されたプログラムを実行することにより各種処理を実行する。ネットワークアダプタ１１３は、サーバ１１０をネットワークに接続して、ネットワークを介して他の装置と通信可能にする。メモリ１２０は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）で構成され、ＣＰＵ１１１で実行されるプログラムや、ＣＰＵ１１１で使用される各種データを記憶する。本実施形態では、メモリ１２０は、データ管理を行うためのデータ管理プログラム１２１と、データソース管理テーブル１２２と、アクション定義テーブル１２３とを記憶する。なお、データ管理プログラム１２１、データソース管理テーブル１２２、及びアクション定義テーブル１２３の詳細については後述する。記憶デバイス１１２は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の非一時的記憶デバイス（不揮発性記憶デバイス）であり、ＣＰＵ１１１で実行されるプログラムや、各種情報を記憶する。

データストア装置１３０は、例えば、計算機で構成されており、ＣＰＵ１３１と、メモリ１３２と、記憶デバイス１３４と、ネットワークアダプタ１３５とを備える。

ＣＰＵ１３１は、メモリ１３２に格納されたプログラムを実行することにより各種処理を実行する。ネットワークアダプタ１３５は、データストア装置１３０をネットワークに接続して、ネットワークを介して他の装置と通信可能にする。メモリ１３２は、例えば、ＲＡＭで構成され、ＣＰＵ１３１で実行されるプログラムや、ＣＰＵ１３１で使用される各種データを記憶する。本実施形態では、メモリ１３２は、データストアを制御するデータストア制御プログラム１３３を記憶する。なお、データストア制御プログラム１３３については後述する。

記憶デバイス１３４は、例えば、ＨＤＤ、ＳＳＤ等の非一時的記憶デバイス（不揮発性記憶デバイス）であり、ＣＰＵ１３１で実行されるプログラムや、各種情報を記憶する。本実施形態では、記憶デバイス１３４は、データストア１４０、及び管理データ１５０を保持する。データストア１４０には、１以上のデータソース１０２から取得した１以上のデータ１４１と、１以上のデータ１４１が纏められたカタログ１４２とが格納される。管理データ１５０には、活用度データ１５１、メタデータ１５２、及びカタログデータ１５３が格納される。

図２は、実施例１に係るデータ管理プログラムの機能ブロック図である。

データ管理プログラム１２１は、ＣＰＵ１１１によって実行されることにより、データ取得部２０１と、活用度計算部２０２と、メタデータ管理部２０３と、アクション管理部２０４と、アクション実行部２０５と、評価値受付部の一例としてのカタログ管理部２０６と、入力受付部及び表示制御部の一例としてのデータ検索部２０７と、の各機能部を構成するプログラムが含まれている。なお、各機能部による処理については後述する。

次に、サーバ１１０のメモリ１２０に格納されているデータソース管理テーブル１２２について説明する。

図３は、実施例１に係るデータソース管理テーブルの構成図である。

データソース管理テーブル１２２は、１以上のＡｓｓｅｔ１０１におけるデータソース１０２を管理するテーブルであり、各データソース１０２に対応するエントリを格納する。データソース管理テーブル１２２のエントリは、データソースｉｄカラム３０１と、データ区分カラム３０２と、データ種別／単位カラム３０３と、対応オブジェクトカラム３０４と、対象区間カラム３０５と、主成分分析対象データｉｄカラム３０６と、計算実行契機カラム３０７とを含む。

データソースｉｄカラム３０１には、エントリに対応するデータソースのｉｄ（Ｉｄｅｎｔｉｆｉｅｒ）（データソースｉｄ）が格納される。データソースｉｄとしては、単に英数字の羅列であっても良いが、データ利活用の容易性を考慮し、データソースの種類や名称を示す情報であってもよい。本実施例では、例えば、データソースｉｄである[Asset1:Sensor1」は、ｉｄが「Asset1」のＡｓｓｅｔ１０１に搭載されている、ｉｄが「Sensor1」というセンサ１０２がデータソースであることを示している。

データ区分カラム３０２には、エントリに対応するデータソースの区分が格納される。データソースの区分としては、センサ等の測定値を示す「測定値」、Ａｓｓｅｔ１０１に対して人手等により設定され、時間と共に変化することが無い一定の値を示す「セット値」、文字列であることを示す「文字列」、ラベルの値であることを示す「ラベル値」、バイナリの値であることを示す「バイナリ」等が存在する。

データ種別／単位カラム３０３には、エントリに対応するデータソースのデータのデータ種別及び単位が格納される。例えば、データが温度情報であり、かつ単位が摂氏であれば、データ種別／単位カラム３０３には、「‘Temperature’: ‘°C’」が格納される。対応オブジェクトカラム３０４には、エントリに対応するデータソースのデータについてのデータストア装置１３０内でのオブジェクトの識別子が格納される。

対象区間カラム３０５には、エントリに対応するデータソースのデータについて活用度を算出する後述する活用度算出処理の対象とする区間（対象区間）が格納される。対象区間の単位は、例えば、ｍｓｅｃ（ミリ秒）の単位としてもよい。例えば、対象区間が、3,600,000であれば、１時間ごとのデータを対象として、活用度算出処理が実行される。この対象区間カラム３０５の内容により、データリソース毎に活用度を算出する対象区間を適切に設定することができる。

主成分分析対象データｉｄカラム３０６には、主成分分析における因子負荷量を算出する基準となるデータソースのデータのｉｄ（基準データｉｄ）が格納される。なお、主成分分析対象データｉｄカラム３０６は、主成分分析による活用度計算を実施しない場合は必要ない。計算機実行契機カラム３０７には、活用度の計算を実行する契機（計算実行契機）が格納される。計算実行契機カラム３０７には、例えば、対象区間毎に活用度の計算を実行する場合には、「連続実行」が格納され、毎日０時に活用度算出処理を実行する場合には、「毎日00:00:00に実行」が格納される。なお、計算実行契機カラム３０７には、サーバ１１０及びデータストア装置１３０の負荷を考慮し、システムのリソースに余裕がある場合を契機とする指定を行ってもよく、システムの管理者の指示を契機とする内容を格納してもよい。なお、エントリに対応するデータソースが、活用度算出処理が不要であるものである場合には、計算実行契機カラム３０７に、算出対象外であることを示す「計算しない」などを格納してもよい。

次に、データストア装置１３０の記憶デバイス１３４に格納されている活用度データ１５１について説明する。

図４は、実施例１に係る活用度データの構成図である。

記憶デバイス１３４には、データソース１０２毎に対応する活用度データ１５１が保持されている。図４は、単一のデータソース「Asset1:Sensor1」の活用度データの例を示している。

活用度データ１５１は、対象区間ごとの活用度を示すエントリを含む。活用度データ１５１のエントリは、ＩＤカラム４０１と、対象区間カラム４０２と、取得頻度カラム４０３と、欠損率カラム４０４と、変動率カラム４０５と、標準偏差カラム４０６と、因子負荷量カラム４０７と、他指標カラム４０８と、活用度カラム４０９とを含む。

ＩＤカラム４０１には、エントリに対応するシリアルＩＤが格納される。対象区間カラム４０２には、対象区間に対応するデータをサンプリングした開始位置と終了位置との情報が格納される。本実施例では、開始位置と終了位置とは、時刻情報（例えば、年月日時分秒）となっている。

カラム４０３〜４０８は、対象区間カラム４０２に格納された対象区間においてサンプリングされたデータの内容（値）に基づいて計算された指標（統計情報等）が格納される。取得頻度カラム４０３には、エントリに対応するデータソースにおけるデータ取得頻度（例えば、回／ｓｅｃ）が格納される。欠損率カラム４０４には、エントリに対応するデータソースにおける不正な値の出現率（欠損率）が格納される。ここで、不正な値は、例えば、データがないもの、値なしを示す値（データが取得できなかったことを示す値）、センサで取得できない範囲の値を含んでもよい。変動率カラム４０５には、エントリに対応するデータソースにおけるデータの値の変動率が格納される。データの値の変動率の算出方法については後述する。標準偏差カラム４６０には、エントリに対応するデータソースにおけるデータの標準偏差が格納される。因子負荷量カラム４０７には、エントリに対応するデータソースに対応するデータソース管理テーブル１２２のエントリの基準データｉｄに対応するデータについての因子負荷量が格納される。他指標カラム４０８には、その他の指標が格納される。その他の指標としては、例えば、データの平均値、最大値、最小値、欠損値が出現する間隔（欠損間隔）などがある。活用度カラム４０９には、エントリに対応する対象区間におけるデータについての活用度が格納される。格納される活用度の計算方法については後述する。

次に、データストア装置１３０の記憶デバイス１３４に格納されているメタデータ１５２について説明する。

図５は、実施例１に係るメタデータの構成図である。

記憶デバイス１３４には、データソース１０２毎に対応するメタデータ１５２が保持されている。図５は、単一のデータソース「Asset1:Sensor1」のメタデータの例を示している。図５に示すメタデータは、ＪＳＯＮ（ＪａｖａＳｃｒｉｐｔＯｂｊｅｃｔＮｏｔａｔｉｏｎ（ＪａｖａＳｃｒｉｐｔは、登録商標））形式で記述された例となっている。

メタデータ１５２には、メタデータ１５２に対応するデータソースのデータについての「データソースｉｄ」と、「所有者」と、「作成日」と、「更新日」と、「最終アクセス日」と、「データ種類」と、「データ単位」と、「活用度」と、「補正済み」との項目が記述されている。なお、これら項目は必ずしもすべて必須ではない。また、これらの項目以外にも、データの利活用に有用な様々な項目をメタデータ１５２に追加してもよい。さらに、メタデータ１５２に対して新たな属性を随時追加可能としてもよい。

「データソースｉｄ」は、メタデータ１５２に対応するデータソースのデータソースｉｄを示しており、具体的には、Ａｓｓｅｔの識別子を示す「アセットｉｄ」と、センサの識別子を示す「センサｉｄ」とで記述されており、図５の例では、「アセットｉｄ」が「Asset1」と記述され、「センサｉｄ」が、「Sensor1」と記述されている。

「所有者」は、メタデータ１５２に対応するデータソースのデータの所有者を示しており、図５の例では、「44123」という所有者ｉｄに対応するユーザが所有していることを示している。「作成日」は、メタデータ１５２に対応するデータソースのデータのオブジェクトの作成日を示している。「更新日」は、メタデータ１５２に対応するデータソースのデータのオブジェクトの更新日を示している。「最終アクセス日」は、メタデータ１５２に対応するデータソースのデータのオブジェクトにアクセスがあった最終日を示している。「データ種別」は、メタデータ１５２に対応するデータソースのデータの種別を示している。「データ単位」はメタデータ１５２に対応するデータソースのデータの単位を示している。「データ種別」と「データ単位」とは、データソース管理テーブル１２２から取得された値が設定される。「活用度」は、メタデータ１５２に対応するデータソースのデータの活用度を示している。「修正済み」は、データの補完処理等を実施したか否かを示している。データの補完処理等が実施された場合には、「修正済み」には、「Yes」が設定され、補完処理等が実施されていない場合は「No」が設定される。

次に、データストア装置１３０の記憶デバイス１３４に格納されているカタログデータ１５３について説明する。

図６は、実施例１に係るカタログデータの構成図である。

記憶デバイス１３４には、カタログ１４２毎に対応するカタログデータ１５３が保持されている。図６は、単一のカタログ「カタログ1」のカタログデータの例を示している。図６に示すカタログデータは、ＪＳＯＮ形式で記述された例となっている。

カタログデータ１５３には、カタログデータ１５３に対応するカタログについての「カタログｉｄ」と、「作成者」と、「作成日」と、「更新日」と、「最終アクセス日」と、「評価」と、「データリスト」と、「作成者ロール」と、「説明」との項目が記述されている。なお、これら項目は必ずしもすべて必須ではない。また、これらの項目以外にも、データの利活用に有用な様々な項目をカタログデータ１５３に追加してもよい。さらに、カタログデータ１５３に、新たな属性を随時追加可能としてもよい。

「カタログｉｄ」は、カタログ１４２のｉｄを示しており、図５の例では、「カタログｉｄ」が「Catalog1」と記述されている。

「作成者」は、カタログデータ１５３に対応するカタログ１４２の作成者を示しており、図６の例では、「3323」というｉｄに対応するユーザが作成したことを示している。「作成日」は、カタログデータ１５３に対応するカタログ１４２の作成日を示している。「更新日」は、カタログデータ１５３に対応するカタログ１４２の更新日を示している。「最終アクセス日」は、カタログデータ１５３に対応するカタログ１４２にアクセスがあった最終日を示している。「評価」は、カタログデータ１５３に対応するカタログ１４２に対してデータ利活用に有効か否かを利用者が評価した結果を示している。「データリスト」は、カタログデータ１５３に対応するカタログ１４２に所属するデータソースのリストを示している。また、「データリスト」には、データソース以外のファイルやオブジェクトといったデータへの参照を含めることができる。図６では、「ファイル」として「filename1.aaa」等のファイル名が指定されている。「作成者ロール」は、カタログデータ１５３に対応するカタログ１４２の作成者のロール（役割）を示す。このロールの情報に基づいて、エキスパートが作成したカタログについては、カタログ管理部２０６が「評価」を自動的に加点するようにすることができる。「説明」は、カタログデータ１５３に対応するカタログ１４２の説明を示している。ユーザは、カタログ１４２を利用する際のこの説明を参考にすることができる。

次に、サーバ１１０のメモリ１２０に格納されているアクション定義テーブル１２３について説明する。

図７は、実施例１に係るアクション定義テーブルの構成図である。

アクション定義テーブル１２３は、活用度に関する条件を含む条件（アクション条件）に基づいて実行するアクション（処理動作）を管理するテーブルであり、条件及びアクションの組のそれぞれに対応するエントリを格納する。アクション定義テーブル１２３のエントリは、ＩＤカラム７０１と、名称カラム７０２と、条件カラム７０３と、アクション内容カラム７０４と、判定タイミングカラム７０５とを含む。

ＩＤカラム７０１には、アクション定義に対応するＩＤが格納される。名称カラム７０２には、エントリに対応するアクション定義の名称が格納される。条件カラム７０３には、エントリに対応するアクション定義のアクションを実行するための条件（アクション条件）が格納される。アクション条件としては、活用度に関する条件以外にも、データの統計情報に関する条件を含んでもよい。

アクション内容カラム７０４には、エントリに対応する条件カラム７０３のアクション条件に合致した場合に実行されるアクションの内容が格納されている。

判定タイミングカラム７０５には、エントリに対応する条件カラム７０３の条件の判定を実施するタイミングが格納されている。判定タイミングとしては、例えば、１日おき（毎日０時など）、１月おき、データ更新時等とすることができる。なお、サーバ１１０及びデータストア装置１３０の負荷を考慮し、システムのリソースに余裕がある場合を判定タイミングとして指定してもよく、システム（サーバ１１０及びデータストア装置１３０）の管理者の指示があった時点を判定タイミングとして指定してもよい。

アクション定義テーブル１２３の一つ目のエントリ（行）においては、アクション条件が、データ全体（すべての対象区間）に対して、最終更新日が１年以上前であり、かつ活用度が１０以下であることとなっており、アクション内容が、対象データソースの１年分のデータをアーカイブのデータストアへ移動する処理を実施するものとなっている。このアクション定義によると、単に最終更新日時だけでなく、活用度を考慮して、データをアーカイブに移動することができる。

また、アクション定義テーブル１２３の二つ目のエントリ（行）においては、アクション条件が、最新対象区間のデータに対して、活用度が所定値（例えば、３０）以下であり、且つ更新頻度が所定時間（１ｓｅｃ）以下であることとなっており、アクション内容が、この対象区間のデータの１ｓｅｃ毎の平均値を残して、この対象区間のデータをアーカイブへ移動する処理を実行するものとなっている。このアクション定義によると、活用度の低いデータについて、データを間引いて記憶しておくことができ、データストア１４０に記憶させておくデータのデータ量を低減することができる。

また、アクション定義テーブル１２３の３つ目のエントリ（行）においては、アクション条件が、活用度が５０％以上且つ欠損率が所定値（５％）以下、且つ所定のデータソースの値が所定値以下出ることとなっており、アクション内容が、欠損値を前後値の平均値を算出して補完する処理を実行するものとなっている。このアクション定義によると、活用度が高いデータの欠損値を適切に補完することができる。なお、アクション条件に所定のデータソースの値が所定値以下との条件を含めなくてもよい。

次に、実施例１に係る計算機システム１０における処理動作について説明する。

図８は、実施例１に係るメタデータ管理処理のフローチャートである。

メタデータ管理処理は、メタデータ管理部２０３によって実行される処理である。メタデータ管理処理は、例えば、定期的に行うようにしてもよい。

メタデータ管理部２０３は、データソース管理情報を取得する（ステップ２０３１）。データソース管理情報を入手する方法としては、例えば、図示しない外部システム等に存在する資産管理システム（EAM: Enterprise Asset Managementなど）や、定義ファイル等からインポートしたり、或いは、データソース管理情報をＧＵＩ経由でユーザから入手したりしてもよい。データソース管理情報としては、データソース管理テーブル１２２に登録する各種情報、例えば、データソースｉｄ、データ区分としての測定値またはセット値など、データ種別/単位、活用度の計算に必要となる対象区間、主成分分析を実施する場合に利用する基準データのｉｄ、活用度計算の計算実行契機等の情報である。

メタデータ管理部２０３は、取得したデータソース管理情報に基づいて、データソース管理テーブル１２２を更新する（ステップ２０３２）。

次いで、メタデータ管理部２０３は、データストア装置１３０のデータストア１４０に対して、ステップ２０３１でデータソース管理情報を取得した対象のデータソース（この処理の説明において、該当データソースという）に対応するオブジェクトを作成し、作成したオブジェクトのデータストア１４０における識別情報を、データソース管理テーブル１２２の該当データソースに対応するエントリの対応オブジェクトカラム３０４に保存する（ステップ２０３３）。ただし、すでにデータストア１４０に該当データソースに対応するオブジェクトが存在する場合には、オブジェクトを新たに作成する必要はない。

さらに、メタデータ管理部２０３は、該当データソースに対するメタデータ１５２を生成し、保存する（ステップ２０３４）。生成するメタデータ１５２は、図５に記載したようなメタデータである。図５に記載の内容に基づき説明すれば、「データソースｉｄ」、「データ種類」、および「データ単位」などは、データソース管理テーブル１２２から入手した情報を設定する。さらに、「作成日」について、オブジェクトを新規に作成した時刻を設定する。「更新日」や「最終アクセス日」については、データストア１４０が該当オブジェクトへの更新およびアクセスを検知して得られた情報に基づき更新する。「活用度」については、例えば、０．５などの所定のデフォルト値を設定する。「補正済み」について、作成直後は未補正を示す「No」を設定する。なお、他に有用な属性があれば、このステップの実行時に生成するようにすればよい。

図９は、実施例１に係るデータ取得処理のフローチャートである。

データ取得処理は、データ取得部２０１によって実行される処理である。データ取得処理は、例えば、データソース１０２において新たなデータが発生したことを検出した場合に実行される。データソース１０２において新たなデータが発生したことは、例えば、Ｇａｔｅｗａｙ１０３から通知を受けるようにしてもよく、Ｇａｔｅｗａｙ１０３に対して確認するようにしてもよい。また、データ取得部２０１は、複数のデータソース１０２からのデータを取得するために、複数のデータ取得処理を並行して実行するようにしてもよい。

データ取得部２０１は、Ａｓｓｅｔ１０１のデータソース１０２からデータを取得する（ステップ２０１１）。次いで、データ取得部２０１は、取得したデータソース１０２（この処理の説明において該当データソースという）のデータに対して、該当データソースのｉｄと、データソース管理テーブル１２２の内容とに基づき、該当データソースに対応するデータストア１４０のオブジェクトへの更新を指示する（ステップ２０１２）。次いで、データ取得部２０１は、該当データソースのメタデータ１５２の更新（例えば、「更新日」の更新等）を行う（ステップ２０１３）。

図１０は、実施例１に係る活用度計算処理のフローチャートである。

活用度計算処理は、活用度計算部２０２によって実行される処理である。活用度計算処理は、例えば、定期的に実行される。活用度計算処理は、データソース管理テーブル１２２にエントリが登録されている各データソースを対象に実行される。

まず、活用度計算部２０２は、活用度計算の実行条件を確認する（ステップ２０２１）。具体的には、活用度計算部２０２は、データソース管理テーブル１２２の処理対象のデータソースに対応するエントリの計算実行契機カラム３０７の内容を確認する。

計算実行契機カラム３０７の内容は、「連続実行」や「毎日00:00:00に実行」などの条件であるが、サーバ１１０及びデータストア装置１３０の負荷を考慮し、システムリソースに余裕がある場合を契機とする方法や、システムの管理者の指示を契機とする方法を指定することも可能である。例えば、システムリソースに余裕がある場合は、活用度計算部２０２はシステムのリソース利用率などの情報をモニタし、システムの１つまたは複数のリソースの組み合わせが、一定の閾値以下であれば、活用度の計算（ステップ２０２３以降の処理）を実行するようにしてもよい。例えば、データストア１４０を稼動するハードウェア（本例では、データストア装置１３０）のＣＰＵ１３１の利用率が所定値以下（例えば、３０％以下）であれば活用度の計算を実行するようにしてもよい。なお、該当データソースが活用度計算の対象外の場合、すなわち、データソース管理テーブル１２２の処理対象のデータソースに対応するエントリの計算実行契機カラム３０７の内容が計算しないである場合には、ステップ２０２３以降の処理は実行されない。

次いで、活用度計算部２０２は、ステップ２０２１で確認した活用度計算の実行条件に該当しているか否かを判定し（ステップ２０２２）、この結果、実行条件に該当していないと判定した場合（ステップ２０２２：Ｎｏ）には、条件の確認を継続するために処理をステップ２０２１に進める。

一方、実行条件に該当する場合（ステップ２０２２：Ｙｅｓ）には、活用度計算部２０２は、該当データソースの対象区間およびデータストア１４０の該当データソースに対応するオブジェクトの識別情報をデータソース管理テーブル１２２から取得し、該当データソースの取得した対象区間のデータ（以下、対象区間データ）を取得する（ステップ２０２３）。

次いで、活用度計算部２０２は、取得したデータに基づき活用度を計算し、計算で得られた活用度と関連情報とを活用度データ１５１として保持する（ステップ２０２４）。ここで、関連情報とは、例えば、活用度データ１５１のカラム４０１〜４０８に設定する情報である。

以下に、活用度計算部２０２による活用度の計算について具体的に説明する。以下の説明では、対象区画データを時系列データ（時刻と値との組み合わせの列）とし、かつ活用度データ１５１は、図４に示す内容であるものとする。

活用度計算部２０２は、以下の式（１）、（２）、（３）により取得頻度、欠損率、及び変動率を算出する。

取得頻度[回/sec]＝１／対象区間データの或る時刻と次の時刻との差分の平均時間[s]・・・（１）
欠損率＝対象区間データにおける不正な値の数／全データ列数・・・（２）
変動率＝対象区間データのデータ列の時刻毎の値の差分／全データ列数・・・（３）

また、活用度計算部２０２は、対象区間データのデータ列の値に対して標準偏差、平均値、最大値、最小値、欠損間隔、及び因子負荷量を算出する。

欠損間隔は、不正な値を持つ時刻と、次に不正な値をもつ時刻との差分の平均値である。また、因子負荷量は、主成分分析を該当データソースのデータソース管理テーブル１２２の主成分分析対象データｉｄカラム３０６にｉｄが格納されているデータを対象として、同じＡｓｓｅｔ（データソースｉｄがAsset1の装置）のデータソースを変数とした主成分分析を実施した場合の、該当データソースの因子負荷量である。

活用度計算部２０２は、上記に示した関連情報の少なくともいずれか１つを用いて活用度を計算する。活用度は、複数の活用度の計算方法の中からユーザにより選択されたものを使用するようにしてもよく、ユーザ自身が定義したものを使用するようにしてもよい。

例えば、データソースのうちセット値でないデータソース（データソース管理テーブル１２２のデータ区分カラム３０２がセット値ではないもの）について、値の変化が小さいデータソースの活用度を低くし、値が変化に富むデータソースの活用度を高くするようにする場合においては、例えば、式（４）により活用度を求めるようにしてもよい。

活用度＝（α×変動率／β×取得頻度＋γ）×標準偏差・・・（４）
ここで、α, β, γは、予め設定した定数である。

また、欠損率が小さいデータソースを選択しやすくする場合（すなわち、活用度を大きくする場合）には、式（４）の右辺に、（１−欠損率)を掛けるようにして、活用度を算出するようにしてもよい。

活用度計算部２０２は、関連情報と活用度を計算した後に、該当データソースの活用度データ１５１に、該当する対象区間、関連情報、及び活用度についての情報を追加・更新する。

次いで、活用度計算部２０２は、該当データソースの活用度データ１５１に保存された活用度に基づき、該当データソースのメタデータ１５２の活用度を更新する（ステップ２０２５）。ここで、本実施例では、メタデータ１５２の活用度は、例えば、該当データソースのすべての区間の活用度の平均値を算出したものとしている。なお、メタデータ１５２の活用度を最新の区間の活用度としてもよい。

次に、活用度計算部２０２による活用度の計算の具体例について説明する。

図１１は、実施例１に係る活用度計算を説明する図である。

図１１の例は、上記した式（３）により変動率を算出し、式（４）により活用度を算出した例である。なお、式（４）における定数α，β，γは、それぞれ１としている。

図１１は、データソース１１０２（データソースAsset1:Sensor2）と、データソース１１０４（データソースAsset3:Sensor5）との時系列データに対して活用度を算出した例となっている。本例では、時系列データとして、時刻と、その時刻における値（例えば、センサーの測定値）との列のデータとしている。

データソース１１０２を対象に関連情報と活用度を計算すると、計算結果１１０３に示すように、標準偏差が０．３５となり、取得頻度が０．５／ｓｅｃとなり、変動率が０．２となり、活用度が０．７５となる。

一方、データソース１１０４を対象に関連情報と活用度を計算すると、計算結果１１０５に示すように、標準偏差が３１となり、取得頻度が０．５／ｓｅｃとなり、変動率が２０．７となり、活用度が７２．３となる。

データソース１１０２と、データソース１１０４との活用度を比較すると、データソース１１０４の方が高い活用度となっている。すなわち、データソース１１０４の方がデータ分析の方がデータ分析に利用する際の有効性が高いことを示している。

なお、図１１の例では、データソースのデータを時系列データとして説明したが、本発明はこれに限られず、例えば、キーとバリューとの組み合わせデータであれば、時系列データでなくてもよい。この場合には、取得頻度は算出できないが、キー値が一致しているデータ間であれば、キー値の差分を算出することで、同等の情報を取得することができる。また、対象区間については、キー値の範囲で指定すればよい。例えば、キー値がシーケンシャルな番号であれば、この番号に対する範囲で指定すればよい。

図１２は、実施例１に係るアクション管理処理のフローチャートである。

アクション管理処理は、アクション管理部２０４によって実行される処理である。アクション管理処理は、例えば、定期的に行うようにしてもよい。

アクション管理部２０４は、アクション定義情報を取得する（ステップ２０４１）。アクション定義情報として取得する情報は、例えば、図７に示すアクション定義テーブル１２３に保持される情報（名称、条件、アクション内容、及び判定タイミング等）である。アクション定義情報は、例えば、アクション管理部２０４が所定の定義ファイルを読み込んで取得する場合や、ＵＩ（ＵｓｅｒＩｎｔｅｒｆａｃｅ）を提供してユーザからの入力により取得する場合等がある。なお、アクション定義テーブル１２３を予め登録している場合には、取得しなくてもよい。

次いで、アクション管理部２０４は、ステップ２０４１で取得したアクション定義情報の内容に基づき、アクション定義テーブル１２３を更新する（ステップ２０４２）。

図１３は、実施例１に係るアクション実行処理のフローチャートである。

アクション実行処理は、アクション実行部２０５によって実行される処理である。アクション実行処理は、例えば、定期的に行うようにしてもよい。

アクション実行部２０５は、アクション定義の判定タイミングを確認する（ステップ２０５１）。ここでは、アクション実行部２０５は、アクション定義テーブル１２３の判定タイミングカラム７０５に保存された各アクションの判定タイミングの情報を取得する。

次いで、アクション実行部２０５は、ステップ２０５１で取得した判定タイミングに該当するか否かを判定する（ステップ２０５２）。ここで、アクション定義テーブル１２３に複数のアクションに対応するエントリが登録されている場合には、各アクションのそれぞれを対象に、ステップＳ２０５２の判定が行われる。なお、該当アクションの実行が無効状態である場合（例えば、エントリの判定タイミングカラム７０５に無効が設定されている場合）には、アクション実行部２０５は、このアクションに対しては、ステップ２０５１及びステップ２０５２の処理を行わない。

ステップ２０５２の判定の結果、判定タイミングに該当しない場合（ステップ２０５２：Ｎｏ）には、アクション実行部２０５は、処理をステップ２０５１へ進める。

一方、判定タイミングに該当する場合（ステップ２０５２：Ｙｅｓ）には、アクション実行部２０５は、判定タイミングに該当したアクション定義の実行条件を確認する（ステップ２０５３）。ここでは、アクション実行部２０５は、アクション定義テーブル１２３の条件カラム７０３の設定内容を取得する。

次いで、アクション実行部２０５は、ステップ２０５３で取得した条件に該当するか否かを判定する（ステップ２０５４）。ここで、この判定においては、アクション実行部２０５は、各データソースのメタデータ１５２、活用度データ１５１、およびカタログデータ１５３の内容を参照すると共に、サーバ１１０やデータストア装置１３０の内部状況（システムリソース利用状況など）を参照して利用する。また、取得したデータソースのデータそのものについて、例えば、或るアクションの条件として「Asset1:Sensor3の最新の値が30以上」などの条件が記録されている場合には、アクション実行部２０５は、該当データソースの最新の値を参照して判定する。また、取得した条件に、「最新対象区間」などの条件が含まれている場合には、アクション実行部２０５は、該当データソースの活用度データ１５１の所定の対象区間における情報を、条件の判定に利用する。

ステップ２０５４の判定の結果、実行条件に該当していない場合（ステップ２０５４：Ｎｏ）には、アクション実行部２０５は、アクションを実行することなく処理を終了する。一方、ステップ２０５４の判定の結果、実行条件に該当する場合（ステップ２０５４：Ｙｅｓ）には、アクション実行部２０５は、該当アクション定義のアクション内容カラム７０４に設定されている内容のアクションを実行する（ステップ２０５５）。なお、アクション実行部２０５は、アクションを実行する際に、外部システムのＡＰＩの呼び出し等を実行してもよい。

上記したように、アクション実行処理によると、活用度の条件を含むアクション条件を満たした場合に、条件に対応するアクションが実行される。したがって、データソースの活用度に従ってデータソースを適切に管理することができる。

図１４は、実施例１に係るカタログ管理処理のフローチャートである。

カタログ管理処理は、カタログ管理部２０６によって実行される処理である。カタログ管理処理は、例えば、定期的に行うようにしてもよい。

カタログ管理部２０６は、カタログ定義を取得する（ステップ２０６１）。カタログ定義の取得方法としては、例えば、カタログの定義ファイルなどから読み込む方法や、ＵＩなどを介してユーザによる入力から取得する方法がある。カタログ定義として取得する情報は、例えば、図６に示すカタログデータ１５３に含まれる「カタログｉｄ」の内容、「データリスト」におけるデータソースやファイル、「説明」の内容、「作成者」の内容、「作成者ロール」の内容等である。「作成者」の内容については、データ管理プログラム１２１の機能により、図示しないディレクトリサービスなどのユーザ管理機能と連携し、カタログを作成したユーザのｉｄを取得する。また、「作成者ロール」については、ディレクトリサービスに保持されたユーザの役割に関する情報を取得する。「作成日」、「更新日」、「最終アクセス日」は、それぞれカタログの作成日、更新時、および利用時の時刻を取得する。

次いで、カタログ管理部２０６は、ステップ２０６１で取得したカタログ定義の情報に基づき、カタログデータ１５３に新しいカタログの追加、または既存カタログの更新を実施する（ステップ２０６２）。なお、カタログ管理部２０６は、カタログデータ１５３の「評価」については、カタログを新たに追加する際にはデフォルト値（例えば、最低１から最大５の範囲における中間値３）を設定している。

次いで、カタログ管理部２０６は、評価補正値を計算する（ステップ２０６３）。ここで、カタログ管理部２０６は。評価補正値を、例えば、該当カタログのカタログデータ１５３に基づき算出する。例えば、「管理者ロール」に対する補正値の対応表をカタログ管理部２０６が保持し、カタログ管理部２０６がその対応表に基づいて、「データサイエンティスト」であれば補正値を＋１などとする。

次いで、カタログ管理部２０６は、該当カタログの「評価」と、ステップ２０６３で算出した評価補正値に基づき、該当カタログに属するデータソース群のメタデータ１５２に保持された活用度を更新する（ステップ２０６４）。本実施例では、カタログ管理部２０６は、カタログデータ１５３の「評価」の値に評価補正値を加算し、この結果を評価のデフォルト値（例えば、３）で割ったものを、該当カタログに属するデータソースのメタデータ１５２の「活用度」の値に掛け合わせたものを、メタデータ１５２おける新たな「活用度」として更新する。これにより、データソースのメタデータ１５２の活用度を、そのデータソースが属するカタログの評価値を反映された活用度に更新することができる。

図１５は、実施例１に係るデータソース検索画面の一例を示す図である。

データソース検索画面１５０１は、データ検索部２０７によって提供されるユーザ向けのデータソース検索ＵＩである。データソース検索画面１５０１は、ブラウザやクライアントアプリケーションまたはモバイル・タブレット向けアプリケーションなどで表示される。データ検索部２０７は、ＷＥＢサーバやアプリケーションサーバとして稼動する。

データソース検索画面１５０１は、検索キー入力領域１５０２と、検索ボタン１５０３と、詳細検索オプションボタン１５０４と、候補表示ボックス１５０５と、閉じるボタン１５０６とを含む。

検索キー入力領域１５０２は、データソースを検索するためのキーワードが入力可能な領域である。検索ボタン１５０３は、ユーザが検索を指示するためのボタンであり、検索ボタン１５０３が押下されると、検索キー入力領域１５０２に入力されたキーワードに基づいてデータソースの検索が行われ、検索結果（候補のデータソース）が候補表示ボックス１５０５に表示される。詳細検索オプションボタン１５０４は、押下されると、検索における詳細条件を選択するためのオプションが表示される。

候補表示ボックス１５０５は、検索結果を表示する領域である。本実施形態では、候補表示ボックス１５０５には、例えば、候補となるデータソースのデータソースｉｄと、このデータソースに関連する情報（例えば、タグ）と、活用度と、詳細が表示される。関連する情報については、このデータソースのメタデータ１５２から取得することができる。本実施形態では、データ検索部２０７は、複数の候補のデータソースを表示する場合には、例えば、活用度により降順となるようにソートして表示させている。候補表示ボックス１５０５の詳細が選択されると、対応するデータソースのより詳細な情報が含まれている、このデータソースを取得するための画面が表示される。

閉じるボタン１５０６は、データソース検索画面１５０１を閉じるためのボタンであり、閉じるボタン１５０６が押下されると、データ検索部２０７は、データソース検索画面１５０１を閉じる。

図１６は、実施例１に係るカタログ評価画面の一例を示す図である。

カタログ評価画面１６０１は、カタログ管理部２０６により表示される、カタログを利用したユーザに対して評価の入力を要求する画面である。カタログ評価画面１６０１は、ブラウザやクライアントアプリケーションまたはモバイル・タブレット向けアプリケーションなどで表示される。なお、図１５に示したデータソースの検索と同様に、カタログをキーワード検索してカタログに関する情報を表示させるカタログ検索画面（図示せず）が用意されており、カタログ管理部２０６は、このカタログ検索画面でカタログが選択された場合に、カタログ評価画面１６０１が表示してもよく、或いは、使用したデータソースがカタログに属している場合に、そのカタログについてのカタログ評価画面１６０１を表示してもよい。

カタログ評価画面１６０１は、カタログ情報表示領域１６０２と、データ内容ボックス１６０３と、評価設定領域１６０４と、終了ボタン１６０５とを含む。

カタログ情報表示領域１６０２には、ユーザが利用したカタログの情報が表示される。カタログの情報は、このカタログのカタログデータ１５３の内容に基づいて表示される。データ内容ボックス１６０３には、このカタログに属するデータソースの一覧が表示される。データソースの一覧には、例えば、各データソースのデータソースｉｄと、このデータソースに関連する情報（例えば、タグ）と、活用度と、詳細が表示される。データソースに関連する情報については、このデータソースのメタデータ１５２から取得することができる。

評価設定領域１６０４は、このカタログの評価を設定するための領域であり、例えば、ユーザが選択可能な５つの星形のボタンが表示されている。ユーザは、カタログの内容に応じて、選択する星形ボタンの数を変えることにより、カタログを５段階評価することができる。終了ボタン１６０５は、カタログの評価を終了するためのボタンであり、終了ボタン１６０５が押下されると、カタログ管理部２０６は、評価設定領域１６０４において評価した結果に基づいて、カタログデータ１５３の評価を更新する。

このカタログ評価画面１６０１によると、ユーザは、カタログを容易に評価することができる。また、カタログを評価することにより、データの活用度を適切に評価することができる。

次に、実施例２に係る計算機システムについて説明する。なお、実施例２の説明においては、実施例１に係る計算機システムと異なる点を中心に説明する。

実施例２に係る計算機システム１０ａは、データストア装置１３０にデータソース間の関係を管理する関係データ１５４を新たに保持し、これを活用することで、関連性の高いデータソースの特定と、それに基づくデータ管理を実現するようにしたものである。これにより、例えば、データの内容が一致する複数のデータソースを特定することができる。このため、そのなかのいずれかのデータを選択的に蓄積するようにし、残りのデータはアーカイブストレージなどに移動するといった運用が可能となり、重複したデータによる無駄な記憶領域の使用を低減することができる。

図１７は、実施例２に係る計算機システムの全体構成図である。なお、実施例１に係る計算機システムと同様な構成については同一の符号を付している。

実施例２に係る計算機システム１０ａにおいては、データストア装置１３０の管理データ１５０は、更に、関係データ１５４を記憶する。

図１８は、実施例２に係る関係データに格納された内容を示す図である。

関係データ１５４は、一般的にグラフ構造データベースなどを利用して管理され、このデータベースがサポートするデータ形式の情報であるが、同図では、関連データ１５４の情報が示す内容を、理解を容易にするためにグラフ構造そのものとして図示している。すなわち、同図におけるグラフ構造に対応する内容が関連データ１５４に格納されていることとなる。

グラフのノード１８０１，１８０２，１８０３は、それぞれデータソースｉｄを保持している。これらのノード間をつなぐエッジ１８１１，１８１２，１８１３に対して、それぞれのノード間の関連度を示す重み１８２１，１８２２，１８２３が対応付けられている。このノード間の関連度は、本実施形態では、例えば、１．０に近ければ、そのノード間の関連度が高いことを示している。ノード間の関連度の算出については後述する。

図１９は、実施例２に係る関連度計算を説明する図である。

この関連度計算は、活用度計算部２０２が、図１０に示す活用度算出処理のステップ２０２４において、追加の処理として実行するものである。図１９は、データソース１９０１（データソースAsset1:Sensor1）と、データソース１９０３（データソースAsset1:Sensor2）との時系列データに対して関連度を算出した例となっている。本例では、時系列データとして、時刻と、その時刻における値（例えば、センサーの測定値）との列のデータとしている。

活用度計算部２０２は、活用度の計算における関連情報として、標準偏差、変動率などを算出し、さらに活用度を算出して活用度データ１５１に追加する。これに加えて本実施例では、活用度計算部２０２は、活用度データ１５１に保持された情報に基づいて、２つのデータソースの関連度を算出する。具体的には、活用度計算部２０２は、活用度データ１５１から、標準偏差、変動率などを、比較のための「指標」として取得し、関連度を式（５）により計算する。

関連度＝Σ各指標の重み×各指標の一致有無／比較する指標の総数・・・（５）

ここで、式（５）の「各指標の重み」は、指標の重要度に基づいて予め設定してもよいし、ユーザが定義するようにしてもよい。なお、関連度を算出する方法はこれに限られない。

図１９に示すデータソース１９０１と、データソース１９０３とに対する指標１９０２，１９０４は、標準偏差が３１となり、変動率が２０．７となり、それぞれの指標が一致している。

このとき、各指標の重みを１とした場合には、式（５）により算出される関連度は、１．０となる。なお、関連度を算出するための指標としては、活用度も利用可能である。使用できる他の指標としては、図４に示す活用度データ１５１のカラム４０３〜４０９の情報があり、さらに関連度の算出に特化すれば、ハッシュ値を特定タイミングと対象区間とについて算出して使用することができる。

例えば、アクション定義テーブル１２３のアクション内容を、関連度が高い２つ以上のデータソースの組み合わせに対しては、１つのデータソースのオブジェクトをデータストア１４０に残し、他のデータソースのオブジェクトを、外部のアーカイブやバックアップ用ストレージ１６０に移動するように設定することで、このアクションが実行されるとデータ量削減など効率的なデータ管理を実現することができる。

次に、実施例３に係る計算機システム１０ｂについて説明する。なお、実施例３の説明においては、実施例１に係る計算機システム１０と異なる点を中心に説明する。

実施例３に係る計算機システム１０ｂは、ユーザおよびユーザが所属するグループ毎に、活用度の計算方法を変更可能とする実施例である。これにより、データソースの検索、およびデータ管理を実施する場合に、ユーザやグループのそれぞれの活用度を用いることができ、ユーザやグループに則したデータソースを検索することができる。

図２０は、実施例３に係る計算機システムの全体構成図である。なお、実施例１に係る計算機システムと同様な構成については同一の符号を付している。

実施例３に係る計算機システム１０ｂにおいては、サーバ１１０のメモリ１２０は、更に、ユーザ管理テーブル１２４を記憶する。メモリ１２０は、計算方法記憶部の一例である。また、計算機システム１０ｂでは、各グループごとに、各データソースごとの活用度データ１５１を記憶する。また、計算機システム１０ｂは、メタデータ１５２に代えてメタデータ１５２ａ（図２２参照）を記憶する。

図２１は、実施例３に係るユーザ管理テーブルの構成図である。

ユーザ管理テーブル１２４は、ユーザの情報を管理するテーブルであり、各ユーザに対応するエントリを格納する。ユーザ管理テーブル１２４のエントリは、ユーザｉｄカラム２１０１と、Ｎａｍｅカラム２１０２と、ロールカラム２１０３と、グループｉｄカラム２１１１と、活用度計算方法カラム２１１２と、説明カラム２１１３とを含む。

ユーザｉｄカラム２１０１には、エントリに対応するユーザを識別するユーザｉｄが格納される。Ｎａｍｅカラム２１０２には、エントリに対応するユーザの氏名等が格納さえる。ロールカラム２１０３には、エントリに対応するユーザのロール（役割）が格納される。ロールカラム２１０３の内容は、実施例１の図６に示すカタログデータ１５３の「作成者ロール」に追記するための記述として利用できる。

グループｉｄカラム２１１１には、エントリに対応するユーザが属するグループのｉｄ（グループｉｄ）が格納される。グループｉｄとしては、例えば、数値による識別子と、グループの記述とを組み合わせたものとしており、例えば、数値の識別子が「001」、グループの記述が「データサイエンスチームA」の場合には、グループｉｄは、「001:データサイエンスチームA」としている。なお、グループの識別ができれば、グループｉｄは、数値の識別子と、記述とのいずれかの情報のみでもよい。活用度計算方法カラム２１１２には、エントリに対応するユーザが属するグループにおける、活用度の計算方法の情報（計算方法情報）、例えば、活用度の計算式が格納されている。説明カラム２１１３には、エントリに対応するユーザが属するグループにおける活用度の計算方法に関する説明が格納される。

なお、ユーザ管理テーブル１２４のすべてのカラムは必ずしも必須ではなく、例えば、Ｎａｍｅカラム２１０２、ロールカラム２１０３、及び説明カラム２１１３については、理解を即すために本実施例の説明として例示しているものであって必ずしも必要ではない。

ユーザ管理テーブル１２４は、例えば、データ管理プログラム１２１が提供するユーザ向けＵＩにおける、定義ファイルなどからの取り込み操作や、ユーザからの入力操作等に従って、作成及び変更されてもよい。また、ユーザｉｄカラム２１０１、Ｎａｍｅカラム２１０２、ロールカラム２１０３、及びグループｉｄカラム２１１１に設定される情報は、外部のディレクトリサービス等から取得してもよい。

本実施例に係る活用度計算部２０２による活用度計算処理は、実施例１に係る活用度計算部２０２による図１０に示す活用度計算処理と以下の点が異なる。実施例３に係る活用度計算部２０２は、ユーザ管理テーブル１２４の活用度計算方法カラム２１１２に記載された活用度の計算方法に基づき、活用度の計算を実施する。活用度計算部２０２は、図１０に示す活用度計算処理のステップ２０２４において、ユーザ管理テーブル１２４に記載された活用度計算方法カラム２１１２の活用度計算方法の一部または全部の方法にて活用度を算出する。算出したすべての計算方法の活用度は、エントリに対応するグループのグループｉｄに対応する活用度データ１５１に格納する。

また、活用度計算部２０２は、図１０に示す活用度計算処理のステップ２０２５において、グループごとの活用度（例えば、そのグループにおける平均の活用度）をグループｉｄとともに、データソースのメタデータ１５２ａに追加・更新する。なお、活用度を一部の計算方法のみにより算出するか否かについては、例えば、ユーザ管理テーブル１２４などに活用度の計算要否を示すデータを追加しておき、そのデータに基づいて判断するようにしてもよく、また、一部の計算方法のみを行う対象とするデータソースのｉｄの指定を予め受け付けておき、対象のデータソースｉｄに基づいて判断するようにしてもよい。

なお、ユーザ管理テーブル１２４の活用度計算方法カラム２１１２において、活用度計算方法に、例えば、「変動率」、「取得頻度」、「標準偏差」などの関連情報が記述されている場合には、活用度計算部２０２は、図１０に示す活用度計算処理のステップ２０２４において、活用度計算方法を実行する前に、活用度計算方法に使用する各関連情報を計算する。

図２２は、実施例３に係るメタデータの構成図である。

メタデータ１５２ａは、実施例１に係るメタデータ１５２とは、活用度として、グループｉｄと、そのグループｉｄのグループについての活用度との組が１つ以上含まれている点が異なっている。

図２２に示すメタデータ１５２ａでは、グループｉｄ「００１」における活用度が「７５」であり、グループｉｄ「００２」における活用度が「９９」であり、グループｉｄ「０４１」における活用度が「１２．９」であることが記述されている。

本実施例３において、アクション定義テーブル１２３のエントリに対して、そのエントリを実行するグループのグループｉｄと対応付けて管理するようにし、アクション実行部２０５が、図１３に示すアクション実行処理のステップ２０５４において、対応するグループｉｄに対応する活用度を、メタデータ１５２から取得して、条件判定に利用するようにしてもよい。

また、データ検索部２０７は、データ管理プログラム１２１を利用しているユーザに応じて、データソース検索画面１５０１の候補ボックス１５０５に表示するデータソースの活用度を変えるようにしてもよい。具体的には、データ検索部２０７は、データ管理プログラム１２１を利用しているユーザの所属するグループｉｄをユーザ管理テーブル１２４から取得し、取得したグループｉｄの活用度をメタデータ１５２ａから取得して、候補ボックス１５０５のデータソースに対応させて表示させてもよい。これにより、利用しているユーザの属するグループに対応する活用度を適切に表示させることができる。

なお、本発明は、上述の実施例に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、適宜変形して実施することが可能である。

例えば、上記実施例では、サーバ１１０と、データストア装置１３０とを別の計算機としていたが、本発明はこれに限られず、例えば、サーバ１１０と、データストア装置１３０とを１つの計算機で構成するようにしてもよい。

また、上記実施例において、ＣＰＵが行っていた処理の一部又は全部を、専用のハードウェア回路で行うようにしてもよい。例えば、ＣＰＵがプログラムを実行することにより構成される機能部（２０１〜２０７等）の少なくともいずれか１つを専用のハードウェア回路で構成してもよい。また、上記実施形態におけるプログラムは、プログラムソースからインストールされてよい。プログラムソースは、プログラム配布サーバ又は記憶メディア（例えば不揮発性の可搬型の記憶メディア）であってもよい。

１０…計算機システム、１０１…装置、１０２…データソース、１１０…サーバ、１３０…データストア装置、２０２…活用度計算部、２０５…アクション実行部、２０７…データ検索部

Claims

所定のデータソースから取得可能なデータを管理するデータ管理システムであって、
前記データソースからのデータを記憶する記憶部と、
前記データの内容に関する統計情報に基づいて、前記データソースの前記データのデータ分析の利用に関する有効性の度合いを示す活用度を計算する活用度計算部と、
前記計算された前記活用度に関する条件を含むアクション条件を満たす場合に、前記データに対して前記アクション条件に対応する所定の処理動作を実行するアクション実行部と
を備え、
前記統計情報は、前記データに含まれる複数の時点の値における不正な値が含まれる割合である欠損率、前記データに含まれる複数の時点の値の変動に関する変動率、又は前記データに含まれる複数の時点の値についての標準偏差の少なくとも一つであり、
前記活用度計算部は、前記データに含まれる複数の時点の値の取得頻度と、前記欠損率と、前記標準偏差に基づいて、前記活用度を算出する
データ管理システム。
所定のデータソースから取得可能なデータを管理するデータ管理システムであって、
前記データソースからのデータを記憶する記憶部と、
前記データの内容に関する統計情報に基づいて、前記データソースの前記データのデータ分析の利用に関する有効性の度合いを示す活用度を計算する活用度計算部と、
前記計算された前記活用度に関する条件を含むアクション条件を満たす場合に、前記データに対して前記アクション条件に対応する所定の処理動作を実行するアクション実行部と
を備え、
関連する複数のデータソースをカタログとして管理するとともに、前記カタログに関する評価値を管理するカタログ管理部をさらに備え、
前記カタログ管理部は、前記カタログに関する前記評価値に基づいて、前記カタログに属する前記データソースのデータについての前記活用度を補正する
データ管理システム。
前記カタログに関する評価値の指定を受け付ける評価値受付部をさらに有する
請求項２に記載のデータ管理システム。
所定のデータソースから取得可能なデータを管理するデータ管理システムであって、
前記データソースからのデータを記憶する記憶部と、
前記データの内容に関する統計情報に基づいて、前記データソースの前記データのデータ分析の利用に関する有効性の度合いを示す活用度を計算する活用度計算部と、
前記計算された前記活用度に関する条件を含むアクション条件を満たす場合に、前記データに対して前記アクション条件に対応する所定の処理動作を実行するアクション実行部と
を備え、
ユーザ又は複数のユーザのグループの少なくともいずれか一方に対する前記活用度を算出する計算方法を含む計算方法情報を記憶する計算方法記憶部をさらに有し、
前記活用度計算部は、前記活用度の計算を要求したユーザ又はグループに対応する前記計算方法により前記活用度を計算する
データ管理システム。
所定のデータソースから取得可能なデータを管理するデータ管理システムであって、
前記データソースからのデータを記憶する記憶部と、
前記データの内容に関する統計情報に基づいて、前記データソースの前記データのデータ分析の利用に関する有効性の度合いを示す活用度を計算する活用度計算部と、
前記計算された前記活用度に関する条件を含むアクション条件を満たす場合に、前記データに対して前記アクション条件に対応する所定の処理動作を実行するアクション実行部と
を備え、
前記活用度を表示させる対象とするデータソースに関する検索条件の入力を受け付ける入力受付部と、
前記検索条件に対応するデータソースを検索するデータ検索部と、
前記データ検索部により検出されたデータソースについて、前記データソースに対して計算された前記活用度を表示させる表示制御部と、をさらに備える
データ管理システム。
所定のデータソースから取得可能なデータを管理するデータ管理システムによるデータ管理方法であって、
前記データソースからのデータを記憶し、
前記データの内容に関する統計情報に基づいて、前記データソースの前記データのデータ分析の利用に関する有効性の度合いを示す活用度を計算し、
前記計算された前記活用度に関する条件を含むアクション条件を満たす場合に、前記データに対して前記アクション条件に対応する所定の処理動作を実行し、
前記統計情報は、前記データに含まれる複数の時点の値における不正な値が含まれる割合である欠損率、前記データに含まれる複数の時点の値の変動に関する変動率、又は前記データに含まれる複数の時点の値についての標準偏差の少なくとも一つであり、
前記データに含まれる複数の時点の値の取得頻度と、前記欠損率と、前記標準偏差に基づいて、前記活用度を算出する
データ管理方法。
所定のデータソースから取得可能なデータを管理するデータ管理システムによるデータ管理方法であって、
前記データソースからのデータを記憶し、
前記データの内容に関する統計情報に基づいて、前記データソースの前記データのデータ分析の利用に関する有効性の度合いを示す活用度を計算し、
前記計算された前記活用度に関する条件を含むアクション条件を満たす場合に、前記データに対して前記アクション条件に対応する所定の処理動作を実行し、
関連する複数のデータソースをカタログとして管理するとともに、前記カタログに関する評価値を管理し、
前記カタログに関する前記評価値に基づいて、前記カタログに属する前記データソースのデータについての前記活用度を補正する
データ管理方法。
所定のデータソースから取得可能なデータを管理するデータ管理システムによるデータ管理方法であって、
前記データソースからのデータを記憶し、
前記データの内容に関する統計情報に基づいて、前記データソースの前記データのデータ分析の利用に関する有効性の度合いを示す活用度を計算し、
前記計算された前記活用度に関する条件を含むアクション条件を満たす場合に、前記データに対して前記アクション条件に対応する所定の処理動作を実行し、
ユーザ又は複数のユーザのグループの少なくともいずれか一方に対する前記活用度を算出する計算方法を含む計算方法情報を記憶し、
前記活用度の計算を要求したユーザ又はグループに対応する前記計算方法により前記活用度を計算する
データ管理方法。
所定のデータソースから取得可能なデータを管理するデータ管理システムによるデータ管理方法であって、
前記データソースからのデータを記憶し、
前記データの内容に関する統計情報に基づいて、前記データソースの前記データのデータ分析の利用に関する有効性の度合いを示す活用度を計算し、
前記計算された前記活用度に関する条件を含むアクション条件を満たす場合に、前記データに対して前記アクション条件に対応する所定の処理動作を実行し、
前記活用度を表示させる対象とするデータソースに関する検索条件の入力を受け付け、
前記検索条件に対応するデータソースを検索し、
検出されたデータソースについて、前記データソースに対して計算された前記活用度を表示させる
データ管理方法。