JP6680897B2 - 計算機システム及び分析ソースデータ管理方法 - Google Patents

計算機システム及び分析ソースデータ管理方法 Download PDF

Info

Publication number
JP6680897B2
JP6680897B2 JP2018541740A JP2018541740A JP6680897B2 JP 6680897 B2 JP6680897 B2 JP 6680897B2 JP 2018541740 A JP2018541740 A JP 2018541740A JP 2018541740 A JP2018541740 A JP 2018541740A JP 6680897 B2 JP6680897 B2 JP 6680897B2
Authority
JP
Japan
Prior art keywords
data
analysis
source data
information
analysis source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018541740A
Other languages
English (en)
Other versions
JPWO2018061070A1 (ja
Inventor
中島 淳
淳 中島
伸 手塚
伸 手塚
田口 雄一
雄一 田口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JPWO2018061070A1 publication Critical patent/JPWO2018061070A1/ja
Application granted granted Critical
Publication of JP6680897B2 publication Critical patent/JP6680897B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、分析システムにおけるデータ探索方法に関する。
クラウドコンピューティング(以下、クラウド)の普及に伴い、顧客のデータセンタにおける業務システムのデータをクラウド上に集約して、各種分析サービスが登場している。顧客は当該分析サービスを利用して分析レポートを作成し、業務システムの改善の判断等を行う。近年では、分析サービスにおいて、地理的に分散した、複数のデータセンタ、及びIoT(Internet of Things)デバイスの情報を収集するエッジコンピュータ等、各所からの情報を含めた分析を行うこともある。
分析サービスにおいて、一度生成した分析結果に対して、追加の情報を加えた上で再度分析したいケースが存在する。具体例を挙げると、例えば、電力会社の持つ、顧客情報(年齢、性別、職業等)から、エネルギー利用量の予測分析を実施し、料金プラン(分析レポートX)を提示していた。分析を行った3カ月後に、分析者が、電力使用状況等の情報、顧客行動情報もあわせて、利用量の予測分析を実施し、料金プランを提示したいと考え、3ヶ月前からの顧客情報(年齢、性別、職業等)も再度利用してデータ分析を実施する、といったケースである。
データウェアハウスにおいて、ソースとなるデータ(分析前のデータ)と、データ変換実施後のデータ(分析結果)の関連を保持しておき、データ変換実施後のデータから、ソースとなるデータを探索可能とする技術が特許文献1に開示されている。
国際公開第2014/062277号
クラウド上の分析サービスにおいて、分析に利用したデータ(顧客システムの情報等)は、契約上の理由(例えば、記憶領域の容量制限)等で分析の終了後にクラウド上から削除されることが多い。このように前記従来例では、既に分析したソースデータの情報が分析用のクラウド上に存在しないため、分析結果のソースデータを利用できず、既存の分析データと同一のソースデータを利用して、迅速に追加のレポートを生成することができない、という問題があった。
本発明は、プロセッサとメモリを含む管理計算機と、前記管理計算機に接続された1以上の記憶装置と、を有する計算機システムであって、前記プロセッサは、前記記憶装置に格納された分析ソースデータを読み込んで所定のデータ格納領域に格納し、前記プロセッサは、前記データ格納領域の分析ソースデータに対して所定の分析を行った結果を分析結果データとして出力し、前記プロセッサは、前記読み込んだ分析ソースデータの所在をデータ所在情報に格納し、前記プロセッサは、前記分析結果データを生成する際に利用した前記分析ソースデータを、当該分析結果データと関連付けて分析結果生成元情報に格納し、前記プロセッサは、前記利用した分析ソースデータの所在が変更または削除されたときには、前記データ所在情報を更新し、前記プロセッサは、分析結果データの情報を含むデータ取得要求を受け付けて、前記分析結果データの情報から前記分析結果生成元情報を参照して、当該分析結果データを生成する際に利用した分析ソースデータを特定し、前記プロセッサは、前記特定した分析ソースデータで前記データ所在情報を検索し、当該分析ソースデータの所在を特定する。
本発明によれば、分析結果データから、分析ソースデータを辿れるようにすることで、追加の分析レポートを迅速に生成することが可能となる。
本発明の第1の実施例を示し、データセンタにおける処理の一例を示すブロック図である。 本発明の第1の実施例を示し、データセンタの計算機システムの一例を示すブロック図である。 本発明の第1の実施例を示し、分析用クラウドの一例を示すブロック図である。 本発明の第1の実施例を示し、ゲートウェイ計算機の一例を示すブロック図である。 本発明の第1の実施例を示し、分析結果生成元テーブルの一例を示す図である。 本発明の第1の実施例を示し、データ所在情報テーブルの一例を示す図である。 本発明の第1の実施例を示し、データテーブルの一例を示す図である。 本発明の第1の実施例を示し、データ取得情報テーブルの一例を示す図である。 本発明の第1の実施例を示し、データレプリケーション管理テーブルの一例を示す図である。 本発明の第1の実施例を示し、データバックアップ管理テーブルの一例を示す図である。 本発明の第1の実施例を示し、ETL処理情報テーブルの一例を示す図である。 本発明の第1の実施例を示し、分析ソースデータトレース処理の一例を示すフローチャートである。 本発明の第1の実施例を示し、分析ソースデータのメタデータ生成及び格納処理の一例を示すフローチャートである。 本発明の第1の実施例を示し、分析結果データのメタデータ生成及び格納処理の一例を示すフローチャートである。 本発明の第1の実施例を示し、分析ソースデータのメタデータ更新処理の一例を示すフローチャートである。 本発明の第2の実施例を示し、データセンタの計算機システムの一例を示すブロック図である。
以下、本発明の一実施形態について添付図面を用いて説明する。
幾つかの実施例を、図面を参照して説明する。なお、以下に説明する実施例は特許請求の範囲にかかる発明を限定するものではなく、また実施例の中で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。これらの図面において、複数の図を通じて同一の符号は同一の構成要素を示している。なお、以後の説明では「aaaテーブル」等の表現にて本発明の情報を説明するが、これら情報はテーブル等のデータ構造以外で表現されていてもよい。そのため、データ構造に依存しないことを示すために「aaaテーブル」等について「aaa情報」と呼ぶことがある。さらに、各情報の内容を説明する際に、「識別情報」、「識別子」、「名称」、「ID」という表現を用いるが、これらについてはお互いに置換が可能である。
以後の説明では「プログラム」を主語として説明を行う場合があるが、プログラムはプロセッサによって実行されることで定められた処理をメモリ及び通信ポート(通信デバイス、管理I/F、データI/F)を用いながら行うため、プロセッサを主語とした説明としてもよい。また、プログラムを主語として開示された処理は管理サーバ等の計算機、情報処理装置が行う処理としてもよい。また、プログラムの一部または全ては専用ハードウェアによって実現されてもよい。また、各種プログラムはプログラム配布サーバや、計算機が読み取り可能な記憶メディアによって各計算機にインストールされてもよい。
以後、計算機システムを管理し、本発明の表示用情報を表示する一つ以上の計算機の集合を管理システムと呼ぶことがある。管理サーバが表示用情報を表示する場合は管理サーバが管理システムである、また、管理サーバと表示用計算機との組み合わせも管理システムである。また、管理処理の高速化や高信頼化のために複数の計算機で管理サーバと同等の処理を実現してもよく、この場合は当該複数の計算機(表示を表示用計算機が行う場合は表示用計算機も含め)が管理システムである。
本実施例に係る計算機システムについて説明する。
図1は本実施例の概略を示す図である。個々の構成要素の説明は後述する。データセンタ5の業務サーバ3000上で稼働する業務システムにおいて利用するデータを、ETL(Extract/Transform/Load)処理の実施後に分析用クラウド6に転送し、分析処理を実施する環境を前提とする。
分析処理の実施後、過去に分析で利用したデーを参照したい場合に、分析ソースデータトレースプログラム9150は、(1)分析結果生成元テーブル(分析結果生成元情報)9110を参照して分析結果(分析結果データ)から当該分析に利用したデータ(分析ソースデータ)を特定し、(2)データ所在情報テーブル9120を参照して分析データの所在を特定し、(3)データ取得情報テーブル9140を参照してデータ取得方法を特定することで、過去に分析で利用したデータを取得可能とする。これらの処理を実施するため、データセンタ5上で保持しているETL処理やデータ転送に関するメタデータを分析用クラウド6と共有する。
加えて、フィールド7のIoT機器10、例えば工場における製造ロボットの情報や、工場内を撮影するカメラの情報などのデータを、フィールド7のゲートウェイ計算機20において収集し、フィールド7内のデータ格納領域に格納し、分析用クラウド6にデータを転送し、分析用クラウド6上のメッセージブローカー30によりデータテーブル(データ格納領域)9130に格納される構成を対象にしても良い。この場合においても前述の(1)から(3)の処理は同様となる。
ここで、フィールド7とは、例えば機械部品等を生産する1以上の工場を示し、1つ以上のIoT機器10と1つ以上の管理計算機1000及びゲートウェイ計算機20を含む。
本実施例にかかわる計算機システムは、図2に示す1台以上の管理計算機(管理装置)1000を含む1つ以上のデータセンタ5と、図3に示す1台以上の管理計算機9000を含む一つ以上のデータセンタとしての分析用クラウド6または一つ以上のフィールド7から構成される。
図2は実施例1にかかわる計算機システムにおける、1台以上の管理計算機1000を含むデータセンタ5の一例を示すブロック図である。
本実施例1では、1台以上の管理計算機1000に加え、1台以上の業務サーバ3000と、1台以上のストレージ装置2000と、1台以上のETLサーバ4000を含む例を示す。本実施例1で説明する全ての機能を管理計算機1000が保有するなどしても良く、図示の構成に限定されない。
ストレージ装置2000と、業務サーバ3000と、ETLサーバ4000は、SAN(Storage Area Network)などのデータ通信用のネットワーク6000(具体的にはファイバチャネル等)を介して互いに接続される。
管理計算機1000と、ストレージ装置2000と、業務サーバ3000と、ETLサーバ4000は、管理用ネットワーク5000を介して互いに接続される。図2に示す例では、ストレージ装置2000と、業務サーバ3000と、ETLサーバ4000は、データ通信用のネットワーク6000を介して互いに接続される。
当該接続は、ファイバチャネルを介して直接接続されるものに限定されず、1台以上のファイバチャネルスイッチ等のネットワーク機器を介して接続されても良い。また、当該接続は、データ通信用のネットワークであれば良く、IP(Internet Protocol)ネットワークでも良い。また、データ通信用のネットワークを管理用ネットワーク5000として、同じネットワークを利用しても良い。
管理計算機1000は、メモリ1100と、通信デバイス1200と、プロセッサ1300と、出力デバイス1400と、入力デバイス1500と、記憶デバイス1600と、データI/F1800を含み、これらは、内部バス1700を介して互いに接続される。
メモリ1100は、構成情報収集プログラム1110と、メタデータ共有プログラム1120と、データ取得プログラム1130と、データレプリケーション管理テーブル1140と、データバックアップ管理テーブル1150を格納する。
構成情報収集プログラム1110は、ストレージ装置2000と、業務サーバ3000と、ETLサーバ4000から、構成情報、例えば業務サーバ3000と業務サーバで利用しているボリューム2210の関連情報や、図9に示すデータレプリケーション管理テーブル1140の情報や、図10に示すデータバックアップ管理テーブル1150の情報等を収集するためのプログラムである。
メタデータ共有プログラム1120は、データセンタ5上で保持する、分析用クラウド6に送信したデータに対応するメタデータ(具体的には図9または図10に格納された情報)を分析用クラウド6と共有するためのプログラムである。
データ取得プログラム1130は、分析用クラウド6における分析ソースデータトレースプログラム9150から、分析用クラウド6において必要なデータの取得要求を受付けて、要求されたデータの取得を実行するプログラムである。
データレプリケーション管理テーブル1140には、データセンタ5から分析用クラウド6へのデータレプリケーションに関する情報を格納する。データバックアップ管理テーブル1150には、データセンタ5におけるデータバックアップに関する情報を格納する。
通信デバイス1200は、管理用ネットワーク5000に接続するためのデバイスである。プロセッサ1300は、メモリ1100上に展開されているプログラムを実行する。出力デバイス1400は、管理計算機1000が実行した処理結果を出力するデバイスで、例えばディスプレイ等である。入力デバイス1500は、管理者が管理計算機1000に指示を入力するためのデバイス、例えばキーボード等である。記憶デバイス1600は、情報を格納するHDD(Hard Disk Drive)や、SSD(Solid State Drive)等である。データI/F1800は、データ通信用のネットワーク6000に接続するためのインタフェースデバイスである。
図2に示す例では、各種プログラム及びテーブルは、メモリ1100に格納されているが、記憶デバイス1600または他の記憶媒体(図示しない)に格納されても良い。この場合、プロセッサ1300は、プログラム実行時にメモリ1100上に対象のプログラムを読みだし、読みだしたプログラムを実行する。
また、ストレージ装置2000のメモリ2100に、前述のプログラム及びテーブルが格納され、ストレージ装置2000と、業務サーバ3000と、ETLサーバ4000が、格納されたプログラムを実行しても良い。また、他の業務サーバ3000またはスイッチ(図示省略)等の他の装置が、前述のプログラム及びテーブルを格納し、格納したプログラムを実行しても良い。
管理計算機1000は、管理用ネットワーク5000を介して、ストレージ装置2000、業務サーバ3000、ETLサーバ4000上で動作するプログラムと通信できる。
ストレージ装置2000は、メモリ2100と、論理ボリューム提供部2200と、ディスクI/Fコントローラ2300と、管理I/F2400と、プロセッサ2500及びデータI/F2600を含み、これらは内部バス等の通信路2700を介して接続される。
メモリ2100は、ディスクキャッシュ2110を有する。また、メモリ2100は、レプリケーションプログラム2120及びバックアッププログラム2130を格納する。ディスクキャッシュ2110は、情報を一時格納するための記憶領域である。レプリケーションプログラム2120は、ストレージ装置2000のボリューム2210に格納されたデータを、別のストレージ装置2000にレプリケーションを行うためのプログラムである。
バックアッププログラム2130は、ストレージ装置2000のボリューム2210に格納されたデータを、別の場所、例えば別のボリューム2210にバックアップを行うためのプログラムである。これらのプログラムは、定期的に実行、あるいはユーザ要求などの任意のタイミングで実行されても良い。
ここで、各種プログラム及びテーブルは、メモリ2100に格納されているが、記憶デバイス(2200)または他の記憶媒体(図示しない)に格納されても良い。この場合、プロセッサ2500は、プログラム実行時にメモリ2100上に対象のプログラムを読みだし、読みだしたプログラムを実行する。
論理ボリューム提供部2200は、物理領域2230によって構成されるディスクプール2220を含み、ディスクプール2220の記憶領域を論理的に分割し、当該論理的に分割された記憶領域をボリューム2210として提供する。ここで物理領域2230は、物理ディスクや複数の物理ディスクから構成されるパリティグループなどである。
当該ストレージ装置2000の外部の装置からはボリューム2210経由で物理領域2230にアクセスすることが可能である。なお、物理領域2230には物理領域番号が付与され、ディスクプール2220にはディスクプール番号が付与され、ボリューム2210にはボリューム番号が付与される。
これによって、ストレージ装置2000は、物理領域2230と、ディスクプール2220及び論理ボリューム2210をそれぞれ一意に識別することができる。図2に示す例では、1つの物理領域(パリティグループPG1)から構成されるディスクプール2220(POOL1)が論理的に分割され、1つのボリューム2210(Vol1)がストレージ装置2000の外部の装置(例えば、業務サーバ3000)に提供される。
ディスクI/Fコントローラ2300は、ボリューム提供部2200に接続するためのインタフェースデバイスである。管理I/F2400は管理用ネットワーク5000に接続するためのインタフェースデバイスである。プロセッサ2500は、メモリ2100上に展開されたプログラムを実行する。データI/F2600は、データ通信用のネットワーク6000に接続するためのインタフェースデバイスである。
また、論理ボリューム提供部2200は、1つのディスクプール2220の全記憶領域を1つの論理ボリューム2210として作成しても良い。また、論理ボリューム提供部2200は、物理領域2230としてパリティグループ以外、例えば物理ディスクそのものや、フラッシュメモリ等の記憶媒体でも良い。
業務サーバ3000は、メモリ3100と、データI/F3200と、プロセッサ3300及び管理I/F3400を含み、これらは内部バス等の通信路3500を介して互いに接続される。メモリ3100は、業務プログラム3110を格納する。
業務プログラム3110は、業務サーバ3000が提供する業務を実現するためのプログラムであり、例えば、DBMS(Data Base Management System)やファイルシステム等である。業務サーバ3000は、ストレージ装置2000から提供された論理ボリューム2210に業務データを格納し、各種業務を提供する。
図2に示す例では、各種プログラムはメモリ3100上に格納されているが、他の記憶装置(図示しない)に格納されていても良い。この場合、プロセッサ3300は、処理実行時にメモリ3100上の対象のプログラムを読みだし、読みだしたプログラムを実行する。
データI/F3200は、データ通信用のネットワーク6000に接続するためのインタフェースデバイスである。プロセッサ3300は、メモリ3100上に展開されたプログラムを実行する。管理I/F3400は管理用ネットワーク5000に接続するためのインタフェースデバイスである。
ETLサーバ4000は、メモリ4100と、データI/F4200と、プロセッサ4300及び管理I/F4400を含み、これらは内部バス等の通信路4500を介して互いに接続される。メモリ4100は、ETLプログラム4110、及びETL処理情報テーブル4120を格納する。
ETLプログラム4110は、ETLサーバ4000が提供するETL処理を実現するためのプログラムであり、例えば、ストレージ装置2000等に蓄積された業務データを選択して、分析しやすい形式に加工し、加工済みのデータを分析用クラウド6に転送するためのストレージ装置に書き込みを行うという一連の処理を実施する。具体的には、データの突き合わせ、重複削除、集計、ソート、コード変換、クレンジング、テーブル作成、テーブルへの挿入などの処理を実施する。
ETLプログラム4110は、例えば、CSV、XML、JSON、ZIP、HTMLなど周知または公知の形式や、Oracle、DB2、Microsoft SQL、Postgre SQLなどの定義されたテーブルスキーマ情報に基づく形式を相互に変換するための情報等、データの選択と加工と分析及び書き込みに必要な情報を保持し、これらを利用してETL処理を実施する。
ETL処理情報テーブル4120は、ETLプログラム4110により実行されたETL処理の実行履歴情報を保持する。図2に示す例では、各種プログラムはメモリ4100上に格納されているが、他の記憶装置(図示しない)に格納されていても良い。この場合、プロセッサ4300は、処理実行時にメモリ4100上の対象のプログラムを読みだし、読みだしたプログラムを実行する。
データI/F4200は、データ通信用のネットワーク6000に接続するためのインタフェースデバイスである。プロセッサ4300は、メモリ4100上に展開されたプログラムを実行する。管理I/F4400は管理用ネットワーク5000に接続するためのインタフェースデバイスである。
図3は実施例1にかかわる計算機システムにおける、1台以上の管理計算機9000を含む分析用クラウド6の一例を示すブロック図である。
本実施例1では、1台以上の管理計算機に加え、1台以上のストレージ装置(記憶装置)2000、及びメッセージブローカー30を含む例を示す。本実施例1で説明する全ての機能を管理計算機9000が保有するなどしても良く、図3の構成に限定されない。
管理計算機9000と、ストレージ装置2000は、データ通信用のネットワーク6000、を介して互いに接続される。データ通信用のネットワーク6000としてどのようなものが使われても良く、例えばIP(Internet Protocol)ネットワークが利用される。
管理計算機9000は、メモリ9100と、通信デバイス9200と、プロセッサ9300と、出力デバイス9400と、入力デバイス9500と、記憶デバイス9600と、データI/F9800を含みこれらは、内部バス9700を介して互いに接続される。
メモリ9100は、分析結果生成元テーブル9110と、データ所在情報テーブル9120と、データテーブル9130と、データ取得情報テーブル9140と、分析ソースデータトレースプログラム9150と、メタデータ管理プログラム9160と、分析プログラム9170を含む。
分析結果生成元テーブル9110には、分析用クラウド6における、分析結果のデータと、分析に利用した分析ソースデータの関連情報を格納する。データ所在情報テーブル9120には、各時刻のデータの所在を表す情報を格納する。データテーブル9130には、データの値を表す情報を格納する。データ取得情報テーブル9140には、データの取得に必要な処理に関する情報を格納する。分析ソースデータトレースプログラム9150は、分析結果から分析に利用された分析ソースデータの所在を特定し、データを取得するためのプログラムである。メタデータ管理プログラム9160には、データの所在情報などの、データに関するメタ情報を格納する。分析プログラム9170は、分析ソースデータに基づき、分析を実施するプログラムである。
通信デバイス9200は、管理用ネットワーク5000に接続するためのデバイスである。プロセッサ9300は、メモリ9100上に展開されているプログラムを実行する。出力デバイス9400は、管理計算機9000が実行した処理結果を出力するデバイス、例えばディスプレイ等である。入力デバイス9500は、管理者が管理計算機9000に指示を入力するためのデバイス、例えばキーボード等である。
記憶デバイス9600は、情報を格納するHDD(Hard Disk Drive)や、SSD(Solid State Drive)等である。データI/F9800は、データ通信用のネットワーク6000に接続するためのインタフェースデバイスである。
図3に示す例では、各種プログラム及びテーブルは、メモリ9100に格納されているが、記憶デバイス9600または他の記憶媒体(図示省略)に格納されても良い。この場合、プロセッサ9300は、プログラム実行時にメモリ9100上に対象のプログラムを読みだし、読みだしたプログラムを実行する。
また、ストレージ装置2000のメモリ2100に、前述のプログラム及びテーブルが格納され、ストレージ装置2000、格納されたプログラムを実行しても良い。また、サーバまたはスイッチ(図示しない)等の他の装置が、前述のプログラム及びテーブルを格納し、格納したプログラムを実行しても良い。管理計算機9000は、管理用ネットワーク5000を介して、ストレージ装置2000上で動作するプログラムと通信できる。
ここで、データセンタ5と、分析用クラウド6間は、管理用ネットワーク5000を介する通信のために、ゲートウェイ(図示しない)などを経由して互いに接続される。データセンタ5は、顧客の業務データを保存しておき、顧客の業務プログラムの実行が行われる施設であり、分析用クラウド6とは地理的に互いに分散していることが多い。データセンタ5と分析用クラウド6の間を繋ぐ管理用ネットワーク5000は、WAN(ワイドエリアネットワーク)や、LAN(ローカルエリアネットワーク)などの任意のネットワークタイプであってよい。
データセンタ5、及び分析用クラウド6に配置されるゲートウェイはデータセンタ5内部、及び分析用クラウド6内部で利用されるネットワークプロトコルと、データセンタ5と分析用クラウド6間の通信のために利用されるネットワークプロトコルとの変換処理などを行う。
また、データセンタ5と分析用クラウド6が、データ通信用のネットワーク6000を介するデータ通信のために互いに接続されており、データ通信用のネットワーク6000は、SANやIPなどの任意のネットワークタイプであってよく、また、管理用ネットワーク5000と同一のネットワークを利用してもよい。
また、本実施例では、ストレージ装置2000を用意し、ストレージの保有する機能であるレプリケーションプログラム2120を利用し、データセンタ5と分析用クラウド6間のリモートレプリケーションを実施している。これに限定されるものではなく、例えば業務サーバ3000上で動作するリモートコピープログラム(図示しない)を利用して、業務サーバ3000上の記憶装置に格納したデータを分析用クラウド6に送信するなどしても良い。
メッセージブローカー30は、フィールド7からのデータを受信し、テーブル定義にあわせてデータの形式変換を行うなどして、管理計算機9000のデータテーブル9130に格納する役割を有する。ここでは管理計算機9000と別にメッセージブローカー30を用意する例を示したが、メッセージブローカー30の機能を管理計算機9000が提供しても良く、図示の例に限定されない。
図4は実施例1にかかわる計算機システムにおける、フィールド7の一例を示すブロック図である。本実施例1では、1台以上の管理計算機9000と、1台以上のIoT機器10、1台以上のゲートウェイ計算機20を含む例を示すが、本実施例1で説明する管理計算機9000とゲートウェイ計算機20の機能を、管理計算機またはゲートウェイ計算機のいずれかで提供しても良く、図示の例に限定されない。
また、管理計算機9000と、IoT機器10と、ゲートウェイ計算機20は、管理用ネットワーク5000、を介して互いに接続される。管理用ネットワーク5000としては、例えばIP(Internet Protocol)ネットワークを利用することができる。
管理計算機9000は、図3に示したものと同様であるため説明を省略する。ゲートウェイ計算機20は、IoT機器10のデータ、例えばセンサデータ等を収集し、分析用クラウド6のメッセージブローカー30に当該データを送信する手段を提供する。
ゲートウェイ計算機20は、メモリ21と、通信デバイス22と、プロセッサ23と、出力デバイス24と、入力デバイス25と、記憶デバイス26を含み、これらは、内部バス27を介して互いに接続される。メモリ21は、収集定義テーブル211と、ゲートウェイプログラム212を格納する。
収集定義テーブル211は、ゲートウェイプログラム212によって参照され、どのIoT機器10のセンサからセンサデータを収集し、収集されたセンサデータをどの分析用クラウド6へ送信するかを定義したテーブルである(図示省略)。
ゲートウェイプログラム212は、収集定義テーブル211に格納された収集定義情報に基づき、IoT機器10からデータを収集し、分析用クラウド6のメッセージブローカー30に当該データを送信する。
通信デバイス22と、プロセッサ23と、出力デバイス24と、入力デバイス25と、記憶デバイス26と、内部バス27については、管理計算機9000と同様の構成であるため説明を省略する。
図5は、実施例1にかかわる分析結果生成元テーブル9110の一例を示す図である。分析結果生成元テーブル9110は、分析用クラウド6上で実行された分析結果のデータと、当該分析に用いられた分析ソースデータの対応関係を示す情報を管理する。
分析結果生成元テーブル9110は、分析結果データ9111と、分析ソースデータ9112と、ソースデータ日時9113のフィールドを一つのエントリに含む。
分析結果データ9111には、分析用クラウド6上で実行された分析結果のデータを示す識別子が格納される。分析ソースデータ9112には、分析結果データ9111を生成する際に用いられたデータを示す識別子が格納される。
ソースデータ日時9113には、分析結果データ9111を生成する際に利用した、分析ソースデータ9112の時刻情報を示す値(例えば、生成された日時)が格納される。図5に示した例では、2016/06/01−06/14の期間のデータAの情報と、2016/06/01−06/14の期間のデータBの情報を利用して、分析結果データXが生成されたことを示す。
図6は、実施例1にかかわるデータ所在情報テーブル9120の一例を示す図である。データ所在情報テーブル9120は、現時点におけるデータの所在を表す情報を日時情報とあわせて管理する。
データ所在情報テーブル9120は、データID9121と、分析結果フラグ9122と、日時9123と、データ所在9124のフィールドを一つのエントリに含む。
データID9121には、データを特定する識別子が格納される。分析結果フラグ9122には、データID9121で特定されるデータが分析結果データか、分析結果を生成する際に利用された分析ソースデータかを示す識別子が格納される。具体的には、分析結果の場合は、分析結果フラグとして"True"が、分析ソースデータの場合は、分析結果フラグとして"False"が格納される。
日時9123には、データID9121で示されるデータの取得(または生成)日時を表す情報が格納される。データ所在9124には、日時9123で示される日時における、データID9121で示されるデータの所在を示す識別子が格納される。
図6に示した例の一行目は、分析ソースデータであるデータAの、日時2016/06/15−06/30の期間の値は、"Local"すなわち分析用クラウド6に保存され、2016/01/01−06/30の期間の値は、"Datacenter1"で示されるデータセンタ5に格納されていることを示している。
すなわち、一行目のデータは、2016/01/01−06/14の期間のデータは分析用クラウド6からは削除されていることを表している。また、図6に示した例の三行目は、分析ソースデータであるデータCの、日時2016/01/01−06/30の期間の値は、"Local"すなわち分析用クラウド6と、"Field1"で示されるフィールド7、例えば工場の両方に格納されていることを示している。
図7は、実施例にかかわるデータテーブル9130の一例を示す図である。データテーブル9130は、データセンタ5から分析用クラウド6に送信されるデータを管理する。
データテーブル9130は、データID9131と、日時9132と、Value9133のフィールドを一つのエントリに含む。
データID9131には、データを特定する識別子が格納される。日時9132には、データの取得(または生成)日時を表す情報が格納される。Value9133には、データID9131で表されるデータの、日時9132における値が格納される。図7に示した例では、データAの日時"2016/06/15 10:00"の値は1800、日時"2016/06/15 11:00"の値は2000、日時"2016/06/15 12:00"の値は3000であること表している。
本実施例1では、説明を簡易にするためにValueが単純な数値である例を示したが、これに限定されず、例えば数値や文字列の組み合わせからなるような値や、配列で示される値、Key−Valueのセットで構成される値などどのような形式の値でも良い。
図8は、実施例1にかかわるデータ取得情報テーブル9140の一例を示す図である。データ取得情報テーブル9140は、データセンタ5に存在するデータの取得方法を管理する。データ取得情報テーブル9140は、データID9141と、データ所在9142と、データ取得コマンド9143のフィールドを一つのエントリに含む。
データID9141には、データを特定する識別子が格納される。データ所在9142には、データの所在を示す情報が格納される。データ取得コマンド9143には、データID9141で特定されるデータを取得するために必要なコマンドが格納される。
図8に示した例の一行目では、データAを"DataCenter1"から取得するために、"Get contract(A)"というコマンドを実行する必要がある旨を表している。
また、二行目の例では、データBを"DataCenter2"から取得するために、"Restore backup volume 120"コマンドを時刻情報を指定して実行することで、指定した時点の識別子120で表されるボリュームのバックアップからデータを復元し、"Get volume(120')"というコマンドで、識別子120'で表されるボリュームに復元したデータを取得し、"ETL from Oracle to Postgres"というコマンドでボリューム120'のデータをOracle形式からPostgres形式にETLプログラムで変換し、"Set remote replication"というコマンドで"DataCenter2"から分析用クラウド6へデータの転送を行う、という処理を実行する必要がある旨を表している。
本実施例1では、データID9141で特定されるデータは、元々存在するデータセンタ5と、分析用クラウド6の最大二か所のみに存在する例であり、データID9141で特定されるデータ毎に一つのデータ所在のみを有する例を示しているが、時刻によってデータID9141で示されるデータの所在が変わる場合は、時刻情報カラムを追加し、時刻毎のデータ所在、及びデータ取得コマンドを示せるようにしても良い。
図9は、実施例1にかかわるデータレプリケーション管理テーブル1140の一例を示す図である。
データレプリケーション管理テーブル1140は、コピー元所在ID1141と、コピー元ストレージID1142と、コピー元ボリュームID1143と、コピー先所在ID1144と、コピー先ストレージID1145と、コピー先ボリュームID1146と、最終更新時刻1147のフィールドを一つのエントリに含む。
コピー元所在ID1141には、データセンタ5から分析用クラウド6に、データを送信する際の、データセンタ5の識別子が格納される。コピー元ストレージID1142には、データセンタ5から分析用クラウド6にデータを送信する際の、データセンタ5におけるデータ格納先であるストレージの識別子が格納される。
コピー元ボリュームID1143には、データセンタ5から分析用クラウド6にデータを送信する際の、データセンタ5におけるデータ格納先であるストレージのボリュームの識別子が格納される。コピー先所在ID1144には、データセンタ5から分析用クラウド6に、データを送信する際の、分析用クラウド6の識別子が格納される。
コピー先ストレージID1145には、データセンタ5から分析用クラウド6にデータを送信する際の、データセンタ5におけるデータ格納先であるストレージの識別子が格納される。コピー先ボリュームID1146には、データセンタ5から分析用クラウド6にデータを送信する際の、分析用クラウド6におけるデータ格納先であるストレージのボリュームの識別子が格納される。最終更新時刻1147には、データセンタ5から分析用クラウド6にデータを転送した最終時刻が格納される。
本実施例1では、Volume単位でのリモートレプリケーションの例を示したが、これに限定されず、ファイル単位やテーブル単位などの単位でのリモートレプリケーションでも良い。
図10は、実施例1にかかわるデータバックアップ管理テーブル1150の一例を示す構成図である。データバックアップ管理テーブル1150は、ストレージID1151と、ボリュームID1152と、バックアップ先ストレージID1153と、バックアップ先ボリュームID1154と、バックアップ日時1155のフィールドを一つのエントリに含む。
ストレージID1151には、ストレージを一意に特定する示す識別子が格納される。ボリュームID1152には、ストレージID1151内のボリュームを一意に特定する識別子が格納される。バックアップ先ストレージID1153には、バックアップ先のストレージを一意に特定する識別子が格納される。バックアップ先ボリュームID1154には、バックアップ先のボリュームを一意に特定する識別子が格納される。バックアップ日時1155には、バックアップが実行された日時の情報が格納される。
図11は、実施例1にかかわるETL処理情報テーブル1160の一例の構成図である。
ETL処理情報テーブル1160は、ETLサーバ4000のETLプログラム4110が実施した、業務サーバ3000上の業務プログラム3110で利用し、ストレージ装置2000等に蓄積されたデータを選択して、分析しやすい形式に加工し、データを分析用クラウド6に転送するためのストレージ装置に書き込みを行うという一連の処理に関する情報を管理する。
ETL処理情報テーブル1160は、実行時刻1801と、Operation1802と、Source1803と、Target1804のフィールドを一つのエントリに含む。
実行時刻1801はETL処理が実行された時刻を示す情報が格納される。Operation1802は、ETLプログラムにより実行された処理を示す情報が格納される。
Source1803はOperation1802で示される処理への入力データが格納されたストレージのボリューム識別子が格納される。Target1804はOperation1802で示される処理の出力データを格納するストレージのボリューム識別子が格納される。
図11では、ETLサーバ4000が、2016/06/01 10:00にETL処理を開始し、Storage1のVolume10のデータを読み込み、読み込んだデータからSQLのリクエストを生成し、転送用のデータ形式のスキーマ情報に基づきテーブルをStorage1のボリューム3に生成し、生成されたSQLリクエストを利用して、生成されたテーブルにデータを挿入する例を示している。
次に、管理計算機9000が実行する各処理について説明する。
図12は、実施例1に係わる分析結果の生成元のデータ(分析ソースデータ)をトレースする処理のフローチャート100である。
データをトレースする処理とは、データの所在を特定し、記録する処理にあたる。本処理は、管理計算機9000のプロセッサ9300が、メモリ9100上に展開された分析ソースデータトレースプログラム9150を実行することによって行われる。以下、本処理の具体例を示す。
まず、分析ソースデータトレースプログラム9150は、既存の分析結果のソースとして利用されたデータの取得要求を受信する(ステップ101)。データの取得要求は、管理用ネットワーク5000を介して、外部の計算機から受信するのに加え、入力デバイス9500からの取得要求を受け付けても良い。例えば、ユーザが管理計算機9000の入力デバイス9500を介して、既存の分析結果に別のデータを加えたレポートを作成する要求を入力した際等に、当該要求を受信する。具体例としては、ユーザが分析結果Xに、データCを追加してレポートを作成しようとした際に、管理計算機9000は分析結果Xのソースとして利用されたデータ(分析ソースデータ)の取得要求を受信する。なお、取得要求には、分析結果のデータの識別子が含まれる。
次に、分析ソースデータトレースプログラム9150は、図5に示した分析結果生成元テーブル9110を参照し、ステップ101で受信した既存分析結果のソースとして利用された分析ソースデータを特定する(ステップ102)。例えば、分析結果Xのソースとして利用されたデータが、データAの2016/6/1〜2016/6/14の情報と、データBの2016/6/1〜2016/6/14の情報であることを特定する。
次に、分析ソースデータトレースプログラム9150は、図6に示したデータ所在情報テーブル9120を参照し、ステップ102で特定したデータの格納場所を特定する(ステップ103)。例えば、データAの2016/6/1〜2016/6/14の情報と、データBの2016/6/1〜2016/6/14の情報の所在を特定するため、分析ソースデータトレースプログラム9150は、データ所在情報テーブル9120を参照し、データAの該当時刻の情報は"Datacenter1"に存在し、データBの該当時刻の情報は、分析用クラウド6及びDatacenter2に存在する、と特定する。
本実施例1では、ステップ101で取得要求を受信したソースデータと同一時刻のデータが存在する例を説明したが、分析の内容によっては必ずしも完全一致する必要がないため、取得要求の時刻前後で、ソースデータが存在する最も近い時刻の情報で代用してもよい。
そして、分析ソースデータトレースプログラム9150は、分析用クラウド6に該当のデータが存在するか否かを判定し(ステップ104)、分析用クラウド6に該当のデータが存在する場合、管理計算機9000のデータテーブル9130から情報を取得し、処理を終了する(ステップ105)。
分析用クラウド6に該当のデータが存在しない場合、分析ソースデータトレースプログラム9150は、図8に示したデータ取得情報テーブル9140を参照し、管理計算機1000のデータ取得プログラム1130に対して、該当時刻の情報の取得を要求する(ステップ106)。
ここで、分析ソースデータトレースプログラム9150は、図8に示した例のように、具体的な操作内容、例えば、該当時刻のバックアップボリュームをリストアするデータベースの形式をOracleからPostgresに変換する、あるいは、分析用クラウド6へのリモートコピーを実施する、などを指定して該当時刻の情報取得要求を実施する。
あるいは、分析ソースデータトレースプログラム9150が、データ取得コマンド9143のみをステップ103で特定したデータ格納場所の管理計算機1000のデータ取得プログラム1130に対して発行することで該当時刻の情報取得要求を実施し、管理計算機1000側で具体的な操作内容を決定しても良い。
本実施例1では、データのバックアップを取得し、ETL処理を実行するケースの例を記載したが、これに限定されず、バックアップではなく処理中のデータそのものを取得するケースや、ETL処理を実施せずに分析用クラウド6に情報を送信するケースもある。
ここで、該当のデータが古い情報の場合、データセンタ5内で集約処理が行われ、一日単位の粒度の情報は残っておらず、一週間単位などの集約された情報しかないケースもあり、この場合、データセンタ5の管理計算機1000は指定時刻を含む一定期間の集約情報を返すなどしても良い。また、データセンタ5から分析用クラウド6へのデータ送信については、データ通信用のネットワーク6000を利用して実施される。
以上の処理によって、分析用クラウド6の管理計算機9000は、要求されたデータの所在を特定して、データセンタ5または分析用クラウド6から該当するデータを取得することができる。
図13は、実施例にかかわる分析用クラウド6へのデータ収集時に分析ソースデータのメタデータを生成及び格納する処理のフローチャートである。ここでメタデータとは、データをトレースする際に必要となる、データの所在情報やデータ取得方法に関する情報などにあたる。本処理のステップ203以降は、管理計算機9000のプロセッサ9300が、メモリ9100上に展開されたメタデータ管理プログラム9160を実行することによって行われる。以下、本フローチャートの具体例を示す。
まず、データセンタ5から分析用クラウド6へのデータ送信が実施される。これは周知または公知の方法によっても良く、例えば、本実施例1では、ストレージ装置2000のリモートコピー機能を利用し、データセンタ5のストレージ装置2000から分析用クラウド6のストレージ装置2000にデータを複製する機能を利用した例を示す。なお、これに限定されるものではなく、例えば、管理計算機1000で稼働するバックアップソフトウェア等を利用しても良い。
データセンタ5の管理計算機1000のメタデータ共有プログラム1120は、データが送信されたことを検出し(ステップ201)、分析用クラウド6の管理計算機9000のメタデータ管理プログラム9160に当該データに関する情報を送信する(ステップ202)。
具体的には、分析用クラウド6に送信したデータのデータIDと、送信日時と、送信元データセンタ5のIDおよび送信元データセンタ5内でのデータの処理内容を送信する。管理計算機1000のメタデータ共有プログラム1120は、データセンタ5内のストレージ装置2000や、業務サーバ3000や、ETLサーバ4000等から、分析用クラウド6へのデータの送信に関する情報や、ETLサーバ4000でのデータ処理内容などの情報を定期的に収集して保持しているものとする。
次に、分析用クラウド6の管理計算機9000のメタデータ管理プログラム9160は、データを受信し(ステップ203)、受信した情報のうち、データIDと、送信日時と、送信元データセンタ5のIDに基づき、図6に示すデータ所在情報テーブル9120を更新する(ステップ204)。
続いて、メタデータ管理プログラム9160は、受信した情報のうち、送信元データセンタ5内での送信データの処理内容に基づき、図8に示すデータ取得情報テーブル9140を更新する(ステップ205)。すなわち、メタデータ管理プログラム9160は、受信したデータの処理内容に基づいて、当該データを取得するためのコマンドなどを取得して、データ取得情報テーブル9140のデータ取得コマンド9143に格納する。
データ取得コマンド9143には、データの格納形態に応じたコマンドが格納される。例えば、当該データがバックアップデータとしてバックアップされている場合には、リストアのコマンドを格納し、データ形式を変換する場合には、データ形式の変換先を指定する。換言すれば、データ取得コマンド9143には、現在のデータの格納形式に応じた取得方法が格納される。
本実施例1では、ステップ201において、データセンタ5の管理計算機1000のメタデータ共有プログラム1120は、データが分析用クラウド6へ送信されたことを検出することで処理が開始されることとした。これに限定されるものではなく、例えば分析用クラウド6のメタデータ管理プログラム9160が、データが受信されたことを検出し、メタデータ共有プログラム1120に対して、受信データに関する情報の送信を要求するなどにより処理を開始しても良く、あるいは定期的にメタ情報を共有するなどしても良い。また、メタデータ共有プログラム1120が、ストレージ装置2000のボリューム2210内にメタデータを格納し、レプリケーションプログラム2120の機能を用いて、データ通信用のネットワーク6000経由で情報を送信しても良い。
上記処理によって、データセンタ5から分析用クラウド6へデータが送信されると、当該データの情報が分析用クラウド6へ送信され、管理計算機9000は、データ所在情報テーブル9120とデータ取得情報テーブル9140を更新することができる。
図14は、実施例1にかかわる分析用クラウド6における分析処理の実行後にメタデータを更新する処理のフローチャートである。本処理は、管理計算機9000のプロセッサ9300が、メモリ9100上に展開されたメタデータ管理プログラム9160を実行することによって行われる。以下、本フローチャートの具体例を示す。
まず、データセンタ5から収集された情報を利用して分析処理が実施される。これは、周知または公知の方法によっても良く、例えば、ユーザが出力デバイス9400に表示されるデータを参照して、どの期間にどのデータを利用して、分析を行うかを検討の上、入力デバイス9500を介して分析の実行操作を行うことで、分析プログラム9170により分析処理が実行され、出力デバイス9400を介して、分析結果をレポートなどの形式で参照可能となる。
メタデータ管理プログラム9160は、分析プログラム9170により分析処理が実行され、分析結果がデータテーブル9130に格納されたことを検出する(ステップ301)。メタデータ管理プログラム9160は、分析結果のデータと、分析に利用した分析ソースデータの対応関係を分析結果生成元テーブル9110に格納する(ステップ302)。次に、メタデータ管理プログラム9160は、分析結果のデータの生成時刻情報と所在情報を、データ所在情報テーブル9120に格納する(ステップ303)。
上記処理によって、分析が完了する度に分析結果のデータと、分析に利用した分析ソースデータの関係を分析結果生成元テーブル9110に格納され、分析結果のデータの生成時刻情報と所在情報がデータ所在情報テーブル9120に格納されて、各データの所在を含む情報が生成される。
図15は、実施例1にかかわる、分析用クラウド6から分析ソースデータを削除した後に、メタデータを更新する処理のフローチャートである。この処理は、分析ソースデータの削除後の他に、所定のタイミング(例えば、所定の周期)で実行することができる。
分析用クラウド6上では、分析に利用した分析ソースデータ(顧客システムの情報等)は、契約上の理由や、容量上の理由等で分析終了後にクラウド上から削除されることが多く、このようなケースを想定した処理を実施する。
まず、分析プログラム9170が、分析に利用した分析ソースデータで、利用が完了したデータをデータテーブル9130から削除する。当該処理は、分析プログラム9170により定期的に実行される、分析処理の実行後に自動的に実行される、あるいはユーザが入力デバイス9500を経由して削除要求を実行するなど、どのような方法によって削除しても良い。
データテーブル9130からデータが削除された際に(ステップ401)、分析プログラム9170が削除したデータに対応するメタデータを削除する。具体的には、分析プログラム9170が、当該データの全ての時刻における情報が削除されたか否かを判定し(ステップ402)、削除された場合には、データ所在情報テーブル9120から、該当データがローカル(分析用クラウド6上)にあることを示すエントリを削除する(ステップ403)。
当該データの一部の時刻(または期間)の情報のみが削除された場合には、分析プログラム9170が、データ所在情報テーブル9120の、該当データがローカル(分析用クラウド6上)にあることを示すエントリの日時9123の情報を更新する(ステップ404)。
本処理の実行後に、分析用クラウド6上には存在しないデータであっても、そのメタデータ情報、具体的にはデータ所在情報テーブル9120には、データ収集元のデータセンタ5の情報などが存在する点が、本発明の特徴の一つとなっている。
以上のように、実施例1によれば、分析ソースデータが分析用クラウド6から削除されていても、分析結果から、分析前のデータを辿れるようになる。本実施例では、例えばデータがブロックである例を示した。計算機システムを利用する顧客観点では、データの位置を意識することなく、データにアクセス可能となる。これにより、追加の分析レポートを容易かつ迅速に作成可能となる。
本実施例2にかかわる計算機システムは、図16に示す1台以上の管理計算機1000と、1台以上の業務サーバ3000と、1台以上のエッジサーバ7000と、1台以上のファイルサーバ8000を含む1つ以上のデータセンタ5と、1台以上の管理計算機9000と、1台以上のエッジサーバ7000を含む一つ以上のデータセンタとしての分析用クラウド6から構成される。
ここで、データセンタ5における管理計算機1000と、業務サーバ3000及び分析用クラウド6における管理計算機9000については、前記実施例1と同様の構成であるため説明は省略する。
各構成要素はデータ通信用のネットワーク6000(具体的にはIP等)を介して互いに接続され、また、管理用ネットワーク5000を介して互いに接続される。当該接続は、直接接続されるものに限定されず、1台以上のスイッチ等のネットワーク機器を介して接続されても良い。また、データ通信用のネットワークと管理用のネットワークとして、同じネットワークを利用しても良い。
エッジサーバ7000のファイルサーバプログラム7110は、業務サーバ3000からの入出力要求(I/O要求)に応じて、業務サーバ3000に対してファイル共有サービスを提供するプログラム(例えばNFSサーバプログラム)である。
分析用クラウド6のファイル共有プログラム7120は、ファイルサーバ8000のファイルシステム(図示省略)と、エッジサーバ7000のファイルシステムとで疑似ファイルシステム(例えば、仮想ファイルシステム)を構成し、透過的にファイルを移動可能とするプログラムである。
データセンタ5のファイルサーバ8000のファイルサーバプログラム8110は、ファイル共有サービスを提供するプログラム(例えばNFSサーバプログラム)である。ファイル共有プログラム8120は、エッジサーバ7000のファイル共有プログラム7120と同様であり、ファイルサーバ8000のファイルシステム(図示省略)と、エッジサーバ7000のファイルシステムとで疑似ファイルシステム(例えば、仮想ファイルシステム)を構成し、透過的にファイルを移動可能とするプログラムである。なお、各エッジサーバ7000への更新情報が、ファイルサーバ8000に反映され、ファイルサーバ8000への更新情報が、各エッジサーバ7000に反映される。
本実施例2では、データセンタ5の業務サーバ3000によるエッジサーバ7000への書き込み処理がファイルサーバ8000に反映され、ファイルサーバ8000に反映されたデータが、分析用クラウド6のエッジサーバ7000に転送される。
分析用クラウド6のエッジサーバ7000に取得要求のデータに関する情報が存在しない場合、前記実施例1と同様に、管理計算機9000は、分析結果生成元テーブル9110と、分析データ所在情報テーブル9120と、データ取得情報テーブル9140を参照し、データセンタ5の業務サーバ3000とエッジサーバ7000におけるデータの、所定時刻のバックアップまたはそれに相当する情報(例えば、ログ)を、ファイルサーバ8000と同期するように設定を変更する。
そして、当該バックアップの情報がファイルサーバ8000に反映され、ファイルサーバ8000に反映されたデータが分析用クラウド6のエッジサーバ7000に転送されることで、分析用クラウド6において当該データの参照が可能となる。本実施例2では、実施例1におけるETLプログラム4110の処理等が無い例を示している。
以上の実施例2により、分析ソースデータが分析用クラウド6から削除されていても、分析結果のデータから、分析前のデータを辿れるようになる。本実施例2では例えばデータがファイルである例を示した。本実施例2の計算機システムを利用する顧客の観点では、データの位置を意識することなく、データにアクセス可能となる。これにより、追加の分析レポートを迅速に作成可能となる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に記載したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加、削除、又は置換のいずれもが、単独で、又は組み合わせても適用可能である。
また、上記の各構成、機能、処理部、及び処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、及び機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

Claims (14)

  1. プロセッサとメモリを含む管理計算機と、
    前記管理計算機に接続された1以上の記憶装置と、を有する計算機システムであって、
    前記プロセッサは、前記記憶装置に格納された分析ソースデータを読み込んで所定のデータ格納領域に格納し、
    前記プロセッサは、前記データ格納領域の分析ソースデータに対して所定の分析を行った結果を分析結果データとして出力し、
    前記プロセッサは、前記読み込んだ分析ソースデータの所在をデータ所在情報に格納し、
    前記プロセッサは、前記分析結果データを生成する際に利用した前記分析ソースデータを、当該分析結果データと関連付けて分析結果生成元情報に格納し、
    前記プロセッサは、前記利用した分析ソースデータの所在が変更または削除されたときには、前記データ所在情報を更新し、
    前記プロセッサは、分析結果データの情報を含むデータ取得要求を受け付けて、前記分析結果データの情報から前記分析結果生成元情報を参照して、当該分析結果データを生成する際に利用した分析ソースデータを特定し、
    前記プロセッサは、前記特定した分析ソースデータで前記データ所在情報を検索し、当該分析ソースデータの所在を特定することを特徴とする計算機システム。
  2. 請求項1に記載の計算機システムであって、
    前記プロセッサは、前記特定された所在に基づいて前記記憶装置または前記データ格納領域から前記分析ソースデータを読み込むことを特徴とする計算機システム。
  3. 請求項1に記載の計算機システムであって、
    前記プロセッサは、前記分析結果データが前記管理計算機に保持されている場合には、前記分析ソースデータが前記データ格納領域から削除されても前記分析ソースデータの所在を前記データ所在情報に保持することを特徴とする計算機システム。
  4. 請求項1に記載の計算機システムであって、
    前記データ所在情報は、前記分析ソースデータの前記所在と識別子と日時の情報を含み、
    前記分析結果生成元情報は、分析ソースデータの識別子と日時の情報を含み、
    前記分析結果データを生成する際に利用した分析ソースデータの特定は、
    前記分析結果データの情報から前記分析結果生成元情報を参照して、当該分析結果データを生成する際に利用した分析ソースデータの識別子と日時を特定し、前記特定した分析ソースデータの識別子と日時で前記データ所在情報を検索し、当該分析ソースデータの所在を特定することを特徴とする計算機システム。
  5. 請求項2に記載の計算機システムであって、
    前記プロセッサは、前記分析ソースデータを読み込む際の取得に関する情報をデータ取得情報に格納し、
    前記特定された所在が前記データ格納領域以外の場合には、前記データ取得情報を取得して前記記憶装置に適用して前記分析ソースデータを読み込むことを特徴とする計算機システム。
  6. 請求項2に記載の計算機システムであって、
    前記記憶装置は、前記分析ソースデータのバックアップを管理する管理装置に接続され、
    前記分析ソースデータの所在がバックアップの場合には、前記プロセッサが前記管理装置に前記分析ソースデータを要求し、前記管理装置はリストアによって前記分析ソースデータを復元し、前記管理計算機へ送信することを特徴とする計算機システム。
  7. 請求項2に記載の計算機システムであって、
    前記記憶装置は、前記分析ソースデータの集約データを管理する管理装置に接続され、
    前記分析ソースデータの所在が集約データの場合には、前記プロセッサが前記管理装置に前記分析ソースデータを要求し、前記管理装置が前記集約データを前記分析ソースデータとして前記管理計算機へ送信することを特徴とする計算機システム。
  8. プロセッサとメモリを含む管理計算機に接続された1以上の記憶装置に格納された分析ソースデータを管理する分析ソースデータ管理方法であって、
    前記管理計算機が、前記記憶装置に格納された分析ソースデータを読み込んで所定のデータ格納領域に格納する第1のステップと、
    前記管理計算機が、前記データ格納領域の分析ソースデータに対して所定の分析を行った結果を分析結果データとして出力する第2のステップと、
    前記管理計算機が、前記読み込んだ分析ソースデータの所在をデータ所在情報に格納する第3のステップと、
    前記管理計算機が、前記分析結果データを生成する際に利用した前記分析ソースデータを、当該分析結果データと関連付けて分析結果生成元情報に格納する第4のステップと、
    前記管理計算機が、前記利用した分析ソースデータの所在が変更または削除されたときには、前記データ所在情報を更新する第5のステップと、
    前記管理計算機が、分析結果データの情報を含むデータ取得要求を受け付けて、前記分析結果データの情報から前記分析結果生成元情報を参照して、当該分析結果データを生成する際に利用した分析ソースデータを特定する第6のステップと、
    前記管理計算機が、前記特定した分析ソースデータで前記データ所在情報を検索し、当該分析ソースデータの所在を特定する第7のステップと、
    を含むことを特徴とする分析ソースデータ管理方法。
  9. 請求項8に記載の分析ソースデータ管理方法であって、
    前記管理計算機が、前記特定された所在に基づいて前記記憶装置または前記データ格納領域から前記分析ソースデータを読み込む第8のステップをさらに含むことを特徴とする分析ソースデータ管理方法。
  10. 請求項8に記載の分析ソースデータ管理方法であって、
    前記第5のステップは、
    前記分析結果データが前記管理計算機に保持されている場合には、前記分析ソースデータが前記データ格納領域から削除されても前記分析ソースデータの所在を前記データ所在情報に保持することを特徴とする分析ソースデータ管理方法。
  11. 請求項8に記載の分析ソースデータ管理方法であって、
    前記データ所在情報は、前記分析ソースデータの前記所在と識別子と日時の情報を含み、
    前記分析結果生成元情報は、分析ソースデータの識別子と日時の情報を含み、
    前記第6のステップは、
    前記分析結果データの情報から前記分析結果生成元情報を参照して、当該分析結果データを生成する際に利用した分析ソースデータの識別子と日時を特定し、前記特定した分析ソースデータの識別子と日時で前記データ所在情報を検索し、当該分析ソースデータの所在を特定することを特徴とする分析ソースデータ管理方法。
  12. 請求項9に記載の分析ソースデータ管理方法であって、
    前記第3のステップは、
    前記分析ソースデータを読み込む際の取得に関する情報をデータ取得情報に格納するステップを含み、
    前記第8のステップは、
    前記特定された所在が前記データ格納領域以外の場合には、前記データ取得情報を取得して前記記憶装置に適用して前記分析ソースデータを読み込むことを特徴とする分析ソースデータ管理方法。
  13. 請求項9に記載の分析ソースデータ管理方法であって、
    前記第8のステップは、
    前記分析ソースデータの所在がバックアップの場合には、前記記憶装置が接続されて前記分析ソースデータのバックアップを管理する管理装置に前記分析ソースデータを要求し、前記管理装置はリストアによって前記分析ソースデータを復元し、前記管理計算機へ送信することを特徴とする分析ソースデータ管理方法。
  14. 請求項9に記載の分析ソースデータ管理方法であって、
    前記第8のステップは、
    前記分析ソースデータの所在が集約データの場合には、前記記憶装置が接続されて前記分析ソースデータの集約データを管理する管理装置に前記分析ソースデータを要求し、前記管理装置が前記集約データを前記分析ソースデータとして前記管理計算機へ送信することを特徴とする分析ソースデータ管理方法。
JP2018541740A 2016-09-27 2016-09-27 計算機システム及び分析ソースデータ管理方法 Active JP6680897B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/078342 WO2018061070A1 (ja) 2016-09-27 2016-09-27 計算機システム及び分析ソースデータ管理方法

Publications (2)

Publication Number Publication Date
JPWO2018061070A1 JPWO2018061070A1 (ja) 2019-06-24
JP6680897B2 true JP6680897B2 (ja) 2020-04-15

Family

ID=61759337

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018541740A Active JP6680897B2 (ja) 2016-09-27 2016-09-27 計算機システム及び分析ソースデータ管理方法

Country Status (2)

Country Link
JP (1) JP6680897B2 (ja)
WO (1) WO2018061070A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112511613B (zh) * 2020-11-19 2022-07-12 深圳市风云实业有限公司 一种基于内容分析的跨域传输系统及方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009075655A (ja) * 2007-09-18 2009-04-09 Hitachi Ltd ファイル管理システム、ファイル管理方法、およびファイル管理プログラム
US9075860B2 (en) * 2012-10-18 2015-07-07 Oracle International Corporation Data lineage system
US9594796B2 (en) * 2013-05-23 2017-03-14 Hitachi, Ltd. Storage apparatus and data management method

Also Published As

Publication number Publication date
WO2018061070A1 (ja) 2018-04-05
JPWO2018061070A1 (ja) 2019-06-24

Similar Documents

Publication Publication Date Title
US11816126B2 (en) Large scale unstructured database systems
CN109997126B (zh) 事件驱动提取、变换、加载(etl)处理
US10216584B2 (en) Recovery log analytics with a big data management platform
EP2752779B1 (en) System and method for distributed database query engines
US9898522B2 (en) Distributed storage of aggregated data
US8732118B1 (en) Distributed performance of data aggregation operations
US11977532B2 (en) Log record identification using aggregated log indexes
US20160292171A1 (en) Shard aware near real time indexing
US20200125660A1 (en) Quick identification and retrieval of changed data rows in a data table of a database
US11188423B2 (en) Data processing apparatus and method
US10614087B2 (en) Data analytics on distributed databases
Narkhede et al. HMR log analyzer: Analyze web application logs over Hadoop MapReduce
CN113760847A (zh) 日志数据处理方法、装置、设备及存储介质
CN117677943A (zh) 用于混合数据处理的数据一致性机制
US9824106B1 (en) Hash based data processing
JP6680897B2 (ja) 計算機システム及び分析ソースデータ管理方法
CN108614838B (zh) 一种用户群索引处理方法、装置及系统
Singh NoSQL: A new horizon in big data
Khatiwada Architectural issues in real-time business intelligence
Johnson et al. Big data processing using Hadoop MapReduce programming model
JP5673246B2 (ja) データストア制御装置、データストア制御プログラムおよびデータストア制御方法
Kirtimalini et al. Implementation of Parallelization Contract Mechanism Extension of Map Reduce Framework for the Efficient Execution Time over Geo-Distributed Dataset

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200319

R150 Certificate of patent or registration of utility model

Ref document number: 6680897

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150