JP7481283B2

JP7481283B2 - メタデータ管理装置、データ管理システムおよびデータ再現方法

Info

Publication number: JP7481283B2
Application number: JP2021033040A
Authority: JP
Inventors: 淳平大越; 恒彦馬場; 俊彦樫山; 博亮増田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2021-03-02
Filing date: 2021-03-02
Publication date: 2024-05-10
Anticipated expiration: 2041-03-02
Also published as: JP2022134032A

Description

本発明は、メタデータ管理装置、データ管理システムおよびデータ再現方法に関する。非制限的な具体的な分野としては、本発明は、データの更新等が行われる種々の環境下において、データ量の増大抑制と、データの再現性担保の両立を図ることを目的としたメタデータ管理装置、データ管理システムおよびデータ再現方法に関する。

近年、企業コンプライアンスやデータ利活用の高度化を背景に、データガバナンスと呼ばれるデータ管理の重要性が増している。データガバナンスは、企業が有するデータ（以下、「データ資産」ともいう）に対する管理上の統制であり、主に、計画、監視および執行のプロセスからなる。

かかるデータガバナンスを実現するためには、データ資産のメタデータを管理することが必要となる。メタデータ管理を実現するソフトウェアは、一般に、「データカタログ」と呼ばれている。なお、メタデータとは、あるデータに付随する情報（例えば、作成日時や作成者）や、データの利活用で生じる情報（例えば、利用時刻や利用者）や、データ間の関係性（例えば、あるデータを元に生成された別のデータ）など、データに付随させて保存可能なあらゆる情報を指す。

データガバナンスにおいては、データの再現性を担保することが重要な課題となる。例えば、典型的なデータ利活用のユースケースである機械学習においては、あるデータを入力とし、ある機械学習モデルを生成する。この生成した機械学習モデルを再現するためには、その入力となったデータの再現が必須となる。具体的には、生成した機械学習モデルの再現ができない、あるいは生成した機械学習モデルに何らかの不具合（例えば、精度の低下）が生じた等の問題が発生したケースにおいて、その入力となったデータを再現することが出来ない場合には、当該問題の原因を究明することができなくなる。したがって、データの再現性を担保することは、極めて重要な課題となっている。

上記のようなデータの再現性を担保する技術に関し、例えば、特許文献１に記載の技術が知られている。特許文献１には、任意の時点でデータベース（以下、「ＤＢ」と略称することがある）に保持されていたデータを参照する際の負荷を軽減する技術が記載されている。

また、データガバナンスにおいて、データは、ＥＴＬ（Ｅｘｔｒａｃｔ／Ｔｒａｎｓｆｏｒｍ／Ｌｏａｄ）に代表されるデータ変換処理を複数経由した後に管理される場合もあり得る。このデータ変換処理のフロー（以下、「データ処理フロー」ともいう）を管理する技術として、例えば、特許文献２に記載の技術が知られている。特許文献２には、異なる組織によって作成され、用語やスキーマが異なるデータを扱うデータ処理フローに対する検索と再利用を可能にする技術が記載されている。

特開２０１６－１０３１１５号公報ＷＯ１８／０１１８９５号公報

特許文献１に記載の技術では、メインフレーム（大型汎用機）のＤＢに保持されたことがあるデータを保持するテンポラルＤＢをＤＢ専用装置に設け、ＤＢの更新時には、メインフレームで、アプリケーションが更新ＳＱＬ（ＳｔｒｕｃｔｕｒｅｄＱｕｅｒｙＬａｎｇｕａｇｅ）を発行すると、ＤＢＭＳ（ＤａｔａＢａｓｅＭａｎａｇｅｍｅｎｔＳｙｓｔｅｍ）がＤＢを更新して更新ログを記憶し、更新ログ捕捉部が定期的に更新ログを読み出し、ＤＢ専用装置で、更新ログ適用部が更新ログに基づいてテンポラルＤＢを更新する。また、特許文献１に記載の技術では、ＤＢの参照時には、メインフレームで、アプリケーションが照会対象時刻付きの照会ＳＱＬを発行すると、ＤＢＭＳが照会ＳＱＬを照会処理部に転送し、ＤＢ専用装置で、照会処理部が照会対象時刻のデータをテンポラルＤＢに照会して照会結果をＤＢＭＳに返す。

特許文献２に記載の技術では、データ処理フロー管理システムは、処理フローの情報と、処理フローの入力データ、および、出力データと、当該データのメタデータと、スキーマと、用語の類義関係定義とを管理する。そして、特許文献２に記載の技術では、処理フローの検索時には、検索条件に含まれる処理フローの入力データ、および出力データと、データ処理フロー管理システムが管理する処理フローの入力データ、および出力データを、メタデータ、スキーマ、用語の類義関係定義を用いて比較することで、検索条件で指定された処理フローと類似する処理フローを検索する。

ここで、特許文献１と特許文献２に記載の構成を適宜に組み合わせることにより、データ処理フローの出力データを再現可能な構成が得られるものと考えられる。具体的には、データに変更が生じた際に、特許文献１に記載の技術を使用して、照会対象時刻付きの照会ＳＱＬを発行することで、過去のある時刻のデータを取得することができる。さらに、特許文献２に記載の技術により、過去に実施したデータ処理フローを取得したデータに再度適用することで、データ処理フローの出力データを再現することができるものと考えられる。

しかしながら、これら特許文献１および２に記載の技術に基づいてデータ処理フローの出力データを再現可能なコンピュータシステムを構築しようとすると、データ量の肥大化が避けられないとの技術的課題が発生する。具体的には、上記技術によれば、データ処理フローを複数連結し、すなわち、あるデータ処理フローの出力データを別のデータ処理フローの入力データとして利用し、かつ、これらのデータ処理フローを複数回実行する場合、データベースに過去に生成したデータがすべて保存されることにより、データ量が肥大化するとの問題が生じる。

本発明の目的は、データの更新やデータ処理フローが変更され得る環境下において、データ量の増大を抑制しつつ、データの再現性を担保することが可能なメタデータ管理装置、データ管理システム、およびデータ再現方法を提供することにある。

上述した課題の少なくとも一つを解決するために、本発明の一側面は、
入力されたデータの分析を行うデータ分析装置および前記データが格納されるデータベースの管理を行うデータ管理装置が実行したデータ処理に係るメタデータを管理するメタデータ管理装置であって、
前記データ分析装置における前記データ処理の実行に応じて当該実行時のタイムスタンプを生成するタイムスタンプ管理部と、
前記データ処理の入力となったデータの特定に必要な条件式を生成する条件式管理部と、
前記タイムスタンプと前記条件式と前記データ処理とをリネージとして管理するメタデータ管理部と、
時刻指定を有するデータ再現処理要求に対し、前記リネージを用いて、前記データ処理を前記条件式に従って更新し、該更新されたデータにデータ再現処理を適用することにより、前記データ再現処理要求で指定された時刻におけるデータを再現するデータ再現処理管理部と、
を備える。

上述した課題の少なくとも一つを解決するために、本発明の他の一側面は、
上述のデータ分析装置、データ管理装置、およびメタデータ管理装置が互いに接続され、これら装置の協働によってデータおよびメタデータの管理を行うデータ管理システムであって、
ＲＤＢＭＳ（ＲｅｌａｔｉｏｎａｌＤａｔａＢａｓｅＭａｎａｇｅｍｅｎｔＳｙｓｔｅｍ）を用いて前記データおよび前記メタデータの管理を行う。

上述した課題の少なくとも一つを解決するために、本発明のさらに他の一側面は、
入力されたデータの分析を行うデータ分析装置および前記データが格納されるデータベースの管理を行うデータ管理装置が実行したデータ処理に係るメタデータを管理するメタデータ管理装置におけるデータ再現方法であって、
前記データ処理の実行に応じて当該実行時のタイムスタンプを生成し、
前記データ処理の入力となったデータの特定に必要な条件式を生成し、
前記タイムスタンプと前記条件式と前記データ処理とをリネージとして管理し、
時刻指定を有するデータ再現処理要求に対し、前記リネージを用いて、前記データ処理を前記条件式に従って更新し、
更新されたデータにデータ再現処理を適用することにより、前記データ再現処理要求で指定された時刻におけるデータを再現する。

本発明によれば、データ処理毎に、当該処理時のタイムスタンプと入力データの特定に必要な条件式とが紐づけてリネージとして管理するので、例えば出力データが削除された場合であっても、蓄積された入力データから出力データを再現することができる。したがって、本発明によれば、データの更新やデータ処理フローが変更され得る環境下において、データ量の増大を抑制しつつ、データの再現性を担保することができる。

本実施形態における情報処理システムのソフトウェア構成の一具体例を示す図である。図１の情報処理システムのハードウェア構成を示す図である。情報処理システムにおけるデータ処理、及びデータ再現処理におけるデータの流れ等を示すシーケンス図である。データ管理装置における第１のデータベースに格納されたデータテーブルを示す図である。メタデータ管理装置によるメタデータ更新処理を示すフローチャートである。メタデータテーブルおよびメタデータテーブルの更新処理を示す図である。データ分析装置のディスプレイに表示される画面の一例を示す図である。データ分析装置のデータ処理内容格納部に格納されるデータ処理内容テーブルを示す図である。本システムにおけるデータ処理を説明する図である。本システムにおけるメタデータ生成、及び登録処理を示すフロー図である。本システムにおけるリネージテーブルの一具体例を示す図である。本システムにおける条件式の生成およびリネージテーブルの登録（ないし更新登録）の処理を示すフロー図である。本システムを構成する装置の表示部に表示される手動データ処理管理画面の一例を示す図である。本システムを構成する装置の表示部に表示されるデータ再現処理管理画面の一例を示す図である。本システムにおけるデータ再現処理の一具体例を示すフロー図である。図１５のフローのサブルーチンであって、本システムにおけるデータ処理内容の再適用処理の一具体例を示すフロー図である。本システムにおけるデータ再現処理を説明する図である。

以下、本発明の実施形態について、図面を参照して詳細に説明する。なお、以下に説明する実施形態は特許請求の範囲に係る発明を限定するものではなく、また、実施形態の中で説明されている諸要素、及びその組み合わせの全ては、発明の解決手段に必須であるとは限らない。

以下の説明では、情報をテーブルとして説明することがあるが、情報のデータ構造を限定するものではなく、どのようなデータ構造で表現されていてもよい。

また、以下の説明では、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）は、１以上のプロセッサを含む。プロセッサは、処理の一部、又は全部を行うハードウェア回路を含んでもよいし、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等のハードウェア回路に代替されていてもよい。また、処理を、プログラムを主体として説明する場合があるが、プログラムは、ＣＰＵ、あるいはその他のハードウェアによって実行されるため、実際の処理の主体はＣＰＵあるいはその他のハードウェアとなる。

また、以下では、データベース（ＤＢ）システムとしてＲＤＢＭＳ（ＲｅｌａｔｉｏｎａｌＤａｔａＢａｓｅＭａｎａｇｅｍｅｎｔＳｙｓｔｅｍ）や、データベースシステムに対する問い合わせ言語としてＳＱＬ（ＳｔｒｕｃｔｕｒｅｄＱｕｅｒｙＬａｎｇｕａｇｅ）等、特定のシステムや問い合わせ言語にて説明することがあるが、データベースシステムや問い合わせ言語を限定するものではない。すなわち、ＲＤＢＭＳ以外のデータベースシステムや、システムに応じた問い合わせ言語が用いられていてもよい。

本実施形態における情報処理システムのソフトウェア構成の一具体例を、図１を参照して説明する。図１は、本実施形態の情報処理システムにおけるソフトウェア構成を説明するための概略ブロック図である。図１に示す情報処理システム１（以下、単に「本システム」と略称する場合がある）は、データの更新やデータ処理フローが変更され得る環境下において、データ量の増大を抑制しつつ、データの再現性を担保するように、データおよびメタデータの管理を行うコンピュータシステムである。

図１に示すように、本実施形態の情報処理システム１は、本システムで実行されたデータ処理に係るメタデータの管理を行うメタデータ管理装置１００と、本システムに入力されたデータの内容の分析等を行うデータ分析装置１１０と、主としてＤＢの管理を行うデータ管理装置１２０とを備える。かかる情報処理システム１は、本発明の「データ管理システム」に対応する。

なお、図１では、それぞれの装置１００，１１０，１２０を異なるハードウェア（端末）として記載しているが、これらの装置１００，１１０，１２０のいずれか２つ以上、或いは装置１００，１１０，１２０の一部は、１つの計算機（１台の装置）として構成されていてもよい。

また、図１では、詳細を後述する各管理部（１０３、１１１、１２１）、各格納部（１０５、１１２）、及び各データベース（１２２、１２３）を異なる機能ブロックで記載しているが、ハードウェアとして異なるものであることを要求するものではない。したがって、各管理部（１０３、１１１、１２１）の動作は１つ以上のハードウェアで行われてもよく、各格納部（１０３、１１１、１２１）、および各データベース（１２２、１２３）は、ハードディスクドライブ等の１つ以上の記憶装置で実現されていてもよい。

図１を参照すると、メタデータ管理装置１００は、本システムで生成されるメタデータを管理する機能を有するメタデータ管理部１０１を備える。また、メタデータ管理装置１００は、本システムで生成されるタイムスタンプを管理する機能を有するタイムスタンプ管理部１０２と、本システムで生成される種々の条件式を管理する機能を有する条件式管理部１０３と、を備える。さらに、メタデータ管理装置１００は、本システムで処理された種々のデータの再現処理の管理を行う機能を有するデータ再現処理管理部１０４と、上記のメタデータを保存（格納）するメタデータ格納部１０５とを備える。

一方、データ分析装置１１０は、情報処理システム１におけるデータ処理内容を管理する機能を有するデータ処理内容管理部１１１と、かかるデータ処理内容を保存（格納）する機能を有するデータ処理内容格納部１１２と、を備える。

また、データ管理装置１２０は、情報処理システム１内のデータベースを管理する機能を有するデータデータベース管理部１２１と、所定の種類のデータを格納する第１のデータベース１２２と、他の所定の種類のデータを格納する第２のデータベース１２３と、を備える。

図２は、本実施形態の情報処理システム１におけるハードウェア構成を示すブロック図である。以下、主として図２を参照して、本システムにおけるハードウェア構成の一具体例を説明する。

図１で上述したメタデータ管理装置１００、データ分析装置１１０、及びデータ管理装置１２０は、サーバ装置、パーソナルコンピュータ、ワークステーションなどの一般的な情報処理装置により実現することができる。なお、以下は説明の便宜のため、メタデータ管理装置１００、データ分析装置１１０、及びデータ管理装置１２０を、単に「装置１００、１１０、１２０」などと略称する場合がある。

すなわち、図２に示すように、これら装置１００、１１０、１２０のハードウェア構成は、装置１００、１１０、１２０の順に、ＣＰＵ２０１、２１１、２２１、ＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）２０５、２１５、２２５、主メモリ２０２、２１２、２２２、ストレージ２０３、２１３、２２３、キーボード２０６、２１６、２２６、マウス２０７、２１７、２２７、ディスプレイ２０８、２１８、２２８、及びこれらを接続するバス２０４、２１４、２２４を備えた構成とすることができる。そして、各装置１００、１１０、１２０は、ネットワーク２３０を経由して相互に接続されている。以下は、上記各装置１００、１１０、１２０におけるハードウェアの構成要素を、メタデータ管理装置１００（すなわちＣＰＵ２０１、ＮＩＣ２０５、主メモリ２０２、等）を代表例として説明する。他の装置１１０、１２０のハードウェアの構成要素は、基本的にはメタデータ管理装置１００のハードウェアの構成要素と同様であるため、説明を割愛する。

ＣＰＵ２０１は、装置１００が備える各部を制御する。具体的には、ＣＰＵ２０１は、メモリ２０２に必要なプログラムを読み込み、かかるプログラムを実行することで、各部（例えば、図１のメタデータ管理部１０１などの各ブロック）の機能を実現する。

ＮＩＣ２０５は、ネットワーク２３０と接続するためのインターフェース装置である。

主メモリ２０２は、通常のＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などの揮発性メモリで構成され、ＣＰＵ２０１が実行するプログラムや参照するデータが記憶される。

ストレージ２０３は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）などの情報を記憶するデバイスである。

キーボード２０６、マウス２０７は、ユーザがデータやコマンドを入力するためのインターフェースデバイスである。

ディスプレイ２０８は、例えば、液晶ディスプレイモニタなどから構成され、必要な画面や各処理の結果を表示する「表示部」として機能する。

本実施形態において、特に言及のない場合、ユーザから各装置１００、１１０、１２０への入力、及び各装置１００、１１０、１２０からのユーザへの情報の表示は、これらキーボード２０６、マウス２０７、及びディスプレイ２０８によって集約的に行うものとする。

データ分析装置１１０、及びデータ管理装置１２０も、メタデータ管理装置１００と同様のハードウェア構成（適宜、図２を参照）により実現することができる。以下は、主として、図示しない外部装置から入力されたデータがデータ管理装置１２０のストレージ２２３（第１のデータベース１２２）に格納されるとともに、ユーザがデータ分析装置１１０の操作入力部（キーボード２１６およびマウス２１７）を操作して、当該格納されたデータを編集（加工）する事例を仮定して説明する。

図３は、情報処理システム１内で行われる種々の動作（ユーザ操作、データ処理、データ再現処理等）の概要を示すシーケンス図である。

本実施形態の情報処理システム１の意図するところは、データ処理フローの実行や手動でのデータ処理の実行の際に、関係するメタデータを生成および登録する処理を行い、データ処理フローの実行や手動でのデータ処理が繰り返し実行されることによってデータの書き換えが多数回行われた場合であっても、過去に生成したデータを再現する、すなわち再度、生成可能とすることにある。

また、本実施形態の情報処理システム１における適用用途ないし運用事例の一具体例として、次のような事例が挙げられる。

情報処理システム１は工場に設置され、かかる工場の各所に設置されたセンサ（例えば工場内の機械の状態を検知するセンサ）のセンシングデータが装置１２０の第１のデータベース１２２に格納される。言い換えると、第１のデータベース１２２には、主としていわゆる「生データ」が記憶、蓄積される。また第１のデータベース１２２に格納されたデータ（生データ）に対しデータ処理を実施するための操作入力がユーザによって行われることで、装置１２０の第２のデータベース１２３に当該データ処理の結果が格納される（適宜、図１を参照）。ここで、ユーザの入力操作によって行われるデータ処理の一具体例としては、機械学習モデルを生成するための入力データを作成するための種々の編集（例えば、明らかにノイズと考えられるデータを削除するなど）が挙げられる。

第２のデータベース１２３は、上記のようなデータ処理（編集等）の繰り返しや、データ記憶容量の制限に基づくデータのライフサイクル管理により、格納されたデータが適宜、更新、及び削除される。かかる更新や削除は、データ管理装置１２０のデータベース管理部１２１によって、管理および実行される。

本実施形態の情報処理システム１は、このような環境下において、更新、及び削除された第２のデータベース１２３内のデータを、データ量の増大を抑制しつつ、再現すなわち再び生成することを実現したものである。上述のように、第２のデータベース１２３内のデータは、ユーザによってデータ処理が施されたデータであり、多大なコストが費やされ、かつ、付加価値ないし経済的な価値が高いデータが多い。このため、このようなデータを正確に再現することは非常に重要である。

図３は、本実施形態の情報処理システム１を構成する装置１００、１１０、１２０間におけるデータ（情報）の流れやユーザ（符号３００で示す）が行う操作等を説明するためのシーケンス図である。図３中、Ａ３０１など、Ａで始まるステップ番号は、ユーザ３００の入力操作（データの編集など）および当該入力操作に応じてメタデータ管理装置１００によって行われる処理を示す。同様に、図３中、Ｓ３２２など、データ管理装置１２０に関してＳで始まるステップ番号は、ユーザ３００の入力操作（データの編集など）および当該入力操作に応じてデータ管理装置１２０が行う処理を示す。

一方、図３中、Ｓ３２１など、メタデータ管理装置１００に関してＳで始まるステップ番号は、ユーザ３００の入力操作（データの編集など）に関わらず、メタデータ管理装置１００が例えば所定時間毎に自動で行う処理を示す。以下、主に、図３に示す流れに沿って説明する。

情報処理システム１の初期状態では、図１で説明した各機能部（ソフトウェアブロック）の動作に必要なプログラムを除き、第１のデータベース１２２にのみ、データ（上述した生データに対応する初期情報）として、図４に示す第１のデータテーブル（４１０）が格納されているものと仮定する。

なお、図４および他の図では、説明の便宜上および区別のため、かかる第１のデータテーブルの内容が更新される毎に、参照符号を４１０⇒４２０⇒４３０⇒４４０のように変えている。また、図４および他の図では、説明の複雑化を避けるため、出来るだけ単純なデータ構造かつ少ない情報量での図示を行っている。一方で、実際のシステムの運用では、より複雑なデータ構造かつ膨大な情報量でのデータの更新等が行われ得ることは、当業者であれば理解できるであろう。

さて、図１で上述した第１のデータベース１２２は、第１のデータテーブル４１０（初期情報）として、図４中の左上側に示すようなテーブル形式のデータを格納している。この例では、テーブルの二行目以降の各欄（以下、「データ欄」と呼ぶ場合がある）に記録されるデータの表題を示す先頭行の列として、データの生成時刻である「ts」列４１１、データのＩＤである「id」列４１２、データの値である「val」列４１３を有する。

このうち、「id」列４１２の下の各欄に記録されるＩＤは、情報処理システム１に接続された外部装置を識別する情報（識別子）である。ＩＤの一具体例としては、例えば、上述した工場の事例において、工場内の特定の機械の稼働状態のセンシングデータを生成したセンサ（以下は便宜上、「第１センサ」という）を一意に特定するセンサ識別子が挙げられる。

次に、先頭行以外の行、例えば、２行目の「2020-08-04」から始まる行４１４は、データが格納される欄（すなわちデータ欄）であり、データの生成に伴って同様の行（データ欄）が追加される。図４に示す第１のデータテーブル４１０では、生成時刻「ts」列４１１とＩＤ「id」列４１２の組み合わせが、ある行を一意に特定するキーとなる。上述した工場の事例に当てはめると、図４中の左上に示す第１のデータテーブル（４１０）は、２０２０年８月４日に第１センサからセンシングデータ「123」が出力され、２０２０年８月５日に第１センサからセンシングデータ「145」が出力され、２０２０年８月６日に第１センサからセンシングデータ「167」が出力され、２０２０年８月７日に第１センサからはセンシングデータが出力されていない（データ値が「NULL」である）ことを記録している。

また、図３のシーケンス図とは独立に、メタデータ管理装置１００のメタデータ管理部１０１は、データ管理装置１２０に格納されている各データベース（１２２，１２３）のメタデータを収集、及び更新する。このメタデータ管理部１０１によるメタデータ更新処理を、メタデータ更新処理のフロー（ステップ５０１～５０５）を示す図５および上述した図１、図２を参照して説明する。

ステップ５０１において、メタデータ管理装置１００のメタデータ管理部１０１は、データ管理装置１２０に対しネットワーク２３０（適宜、図２を参照）を介してテーブル一覧を取得するためのＳＱＬを発行することで問い合わせを行い、第１のデータベース１２２、及び第２のデータベース１２３に格納されているすべてのテーブルを収集（取得）し、テーブル一覧として集約する。

ステップ５０２において、メタデータ管理部１０１は、テーブル一覧に残りのテーブル（ここでは未更新のテーブル）があるか否かを判定し、ＹＥＳすなわち「ある」と判定した場合はステップ５０３に進み、ＮＯすなわち「ない」と判定した場合はステップ５０５に進む。かかる判定の具体的な手法については後述する。

ステップ５０３において、メタデータ管理部１０１は、テーブル一覧から未更新のテーブルのうちの一つを取得し、該取得されたテーブルをテーブル一覧から削除して、ステップ５０４（メタデータの更新処理）に進む。

図６は、主としてステップ５０２およびステップ５０４の処理内容を説明する図であり、メタデータ管理部１０１によって生成されるメタデータのデータテーブル（メタデータテーブル）および当該テーブルの更新前および更新後の状態の一具体例を示す。なお、図６および以下は、説明の便宜上および区別のため、かかるメタデータテーブルの内容が更新される毎に、参照符号を６１０⇒６２０のように変えて示す。

図６のメタデータテーブル６１０には、各メタデータのキーとなる「id」列６１１と、テーブル名である「data_source」列６１２と、データベース名である「database」列６１３と、接続先データベースのＩＰアドレスである「ip」列６１４と、接続先データベースのポート番号である「port」列６１５と、さらに、各行に対応し、各行が示すデータテーブルの列名「column」列６３１、及び列型「type」列６３２とが、データテーブル６３０として紐付けられるように管理される。併せて図４も参照すると、上述した（センシングデータに関する）第１のデータテーブル４１０は、図６の中央に示すデータテーブル６３０によって、「ts」、「id」、および「val」の３つの列を有すること（「column」列６３１を参照）、これら３つの列の型は、各々、「timestamp」、「int」、および「int」であること（「type」列６３２を参照）が、メタデータとして管理される。
言い換えると、図６に示すデータテーブル６３０を含むメタデータテーブル６１０は、本発明の「メタデータ」に対応する。

上記の前提のもと、一具体例では、ステップ５０２でメタデータ管理部１０１は、取得されたテーブル一覧の内容に基づいて、第１のデータベース１２２に格納されている元のデータ（生データ）のテーブルと、第２のデータベース１２３に格納されている対応するデータ（編集されたデータ。但し、未だ編集データが存在しない場合もある）のテーブルと、を比較する。そして、ステップ５０２でメタデータ管理部１０１は、かかる対応するデータのメタデータテーブルに未更新のものがあるか否かを判定し、未更新のものがある場合（ステップ５０２、ＹＥＳ）、上述したステップ５０３の処理を経てステップ５０４に移行する。

そして、ステップ５０４において、メタデータ管理部１０１は、前ステップで取得された一つのテーブル（この例では図４に示す第１のデータテーブル４１０）のデータ（データベース名、テーブル名、ＩＰアドレス、ポート番号、及び各列の列名、及び列型）をそれぞれ取得する。さらに、ステップ５０４において、メタデータ管理部１０１は、メタデータテーブル（ここではメタデータテーブル６１０）を、データベース名、テーブル名、ＩＰアドレス、及びポート番号の組み合わせにて走査し、一致する行が存在した場合、当該行の他の項目を更新し、一致する行が存在しない場合、重複しないＩＤを新たに付与し、新たな行を追加することによって、メタデータテーブル（６１０）を、図６中の下側に示すようなメタデータテーブル（６２０）に更新する。

図６中に示すメタデータテーブル（６２０）は、上述したデータテーブル６３０に加え、新たなデータテーブル６４０（「val」の列が「val_s」となっている）が紐付けられた例を示している。

一方、ステップ５０５において、メタデータ管理部１０１は、一定時間（例えば、１時間）待機した後、ステップ５０１に戻り、ステップ５０１以下の上述した一連の処理を繰り返す。

以上が、ユーザ３００による入力操作（データ編集等）とは無関係に、メタデータ管理装置１００のメタデータ管理部１０１によって自動的に行うメタデータ更新処理の概要である。

次に、ユーザ３００による入力操作（データ編集等）に伴って本システムが行う処理内容について説明する。

ユーザ３００は、データ分析装置１１０のキーボード２０６およびマウス２０７（図１を参照）を操作して、データ処理フローに係る一連の操作を実施する（図３中のＡ３０１）。ここで、データ処理フローに係る操作とは、データ処理フローに対する設計、検索、実行、登録などの機能に関する操作である。本実施形態では、これら設計、検索、実行、登録などの機能を、データ分析装置１１０のデータ処理内容管理部１１１によって実現する。なお、機能および操作はこれらに限られるものではなく、例えばデータの削除など、必要に応じて実装されていてもよい。

図７は、本実施形態のデータ分析装置１１０のディスプレイ２１８に表示される表示画面としてのデータ処理フロー管理画面７００を示している。図示の例では、データ処理フロー管理画面７００内に、設計画面７１０、詳細画面７２０、および検索画面７３１の３つのサブ画面を表示させた場合を示す。また、データ処理フロー管理画面７００中のこれらサブ画面（７１０、７２０、７３１）の下には、実行ボタン７４０および登録ボタン７５０が表示されている。

以下、図７を参照して、これらサブ画面およびデータ処理フローに係る一連の操作（図３のＡ３０１）の内容を詳述する。

まず、ユーザ３００は、図７中に示す設計画面７１０を通じて、新規にデータ処理フローを設計することができる。この例では、設計画面７１０内に、データ処理フローの典型的な構成である、データを取得（抽出）するＥｘｔｒａｃｔ処理７１１と、データを変換するＴｒａｎｓｆｏｒｍ処理７１２と、データをＲＡＭ等の作業領域に格納するＬｏａｄ処理７１３と、の３つの処理を行うデータ処理フロー２０１が表示されている。説明の便宜のため、設計画面７１０内の処理７１１，７１２，７１３の表示子を「アイコン」とも称する。

設計画面７１０の下の詳細画面７２０は、上記３つの処理（７１１～７１３）のうちのいずれかのアイコンをマウス２０７のクリック等で選択することで表示される画面であり、図示の例は、Ｅｘｔｒａｃｔ処理のアイコン７１１が選択された場合の詳細画面７２０を示している。

ユーザ３００は、この詳細画面７２０を通じて、接続先のデータベースである第１のデータベース１２２のデータベース名（図中の「第１のデータベース」）７２１やＩＰアドレス７２２、Ｅｘｔｒａｃｔ処理の内容７２５、７２６など、データの取得処理（すなわちＥｘｔｒａｃｔ処理７１１）に必要な一連の情報を入力する。

図７中、「select」項で指定されている内容７２５が対象テーブル（「第１のデータテーブル」）の列名であり、「where」項で指定されている内容７２６がデータ選択の条件式（「＊」はすべてのデータを意味する特別な記号）である。すなわち、詳細画面７２０を通じてＥｘｔｒａｃｔ処理（７１１）を記述（定義）することにより、第１のデータテーブル（この例では図４中の第１のデータテーブル４１０）に含まれるすべてのデータが抽出（取得）される。

また、図７に示すデータ処理フロー管理画面７００内における検索画面７３０の一具体例では、検索窓７３１、検索ボタン７３２、およびリスト７３３が表示される。以下、これらを順に説明する。

ユーザ３００は、検索画面７３０中に表示された検索窓７３１に検索キーワード７３４を入力し、検索ボタン７３２をマウス２１７でのクリック等により選択することで、検索キーワード７３４がデータ処理フロー名に含まれるデータ処理フローの一覧をリスト７３３として閲覧することができる。具体的には、データ分析装置１１０のデータ処理内容管理部１１１（図１を参照）は、検索画面７３０内の検索ボタン７３２が選択された場合に、以下の処理を実行する。データ処理内容管理部１１１は、データ処理内容格納部１１２に格納されたデータ処理内容テーブル８００（適宜、図８を参照）から、検索キーワード７３４に指定された文字列（図７に示す例では「データ処理」）を含むデータ処理フローの一覧を抽出し、検索画面７３０にリスト７３３として表示する。

また、ユーザ３００は、図７中の実行ボタン７４０をクリック（選択）することで、設計したデータ処理フロー２０１を情報処理システム１内で実行することができる。ここで、ユーザ３００の選択操作を検出したデータ分析装置１１０のデータ処理内容管理部１１１は、情報処理システム１によりデータ処理フロー２０１が実行された後に、データ管理装置１２０に対しデータの書き換えの指令を送信し（図３中のＡ３０２）、さらに、メタデータ管理装置１００に対してデータ処理フロー２０１に関わる情報の送信を行う（図３中のＡ３０３）。これらの処理の詳細については後述する。

さらに、ユーザ３００は、登録ボタン７５０をマウス２１７のクリック等で選択することで、設計画面７１０で設計したデータ処理フロー２０１を、後で検索可能な状態、かつ再利用可能な状態に保存することができる。具体的には、データ処理内容管理部１１１は、登録ボタン７５０のクリックを契機に、データ処理内容格納部１１２にユーザが設計したデータ処理フロー２０１を格納することによって、上記の機能（保存状態）を実現する。

図８は、データ分析装置１１０のデータ処理内容格納部１１２に格納されているデータ処理内容の管理テーブル（データ処理内容テーブル）８００を示す。このデータ処理内容テーブル８００には、データ処理フローの一覧８０１と、各行に対応するデータ処理内容のプログラム８０２、８０３と、が紐付けて管理されている。このうち、ｉｄ＝２０１で識別されるデータ処理内容、及びプログラム８０２は、上述した図７中のデータ処理フロー２０１に対応する。また、ｉｄ＝２０２で識別されるデータ処理内容については、後述の処理により追加される。「type」列８０５の値は、データ処理フロー管理画面７００の操作により登録されるデータ処理フローについては、「flow」と記述される。

次に、図７で上述したデータ処理フロー管理画面７００を通じて設計され、かつ、データ処理フロー２０１が実行された場合にデータ管理装置１２０が行う、データの書き換え処理（図３、Ａ３０２、Ｓ３２２）について説明する。

図９は、本システムのデータ分析装置１１０において、第１のデータテーブル４１０から第２のデータテーブル９０２、９０３が生成され、さらに、第２のデータテーブル９０３のデータが機械学習のアプリケーション９０４において利用される様子を示している。以下、主に図９を参照して、データ処理フロー２０１の実行により、データ管理装置１２０における第１のデータベース１２２の第１のデータテーブル４１０から、第２のデータベース１２３の第２のデータテーブル９０２、９０３が生成される処理を説明する。

データ処理フロー２０１のＥｘｔｒａｃｔ処理７１１の実行時に、データ分析装置１１０のデータ処理内容管理部１１１は、データ管理装置１２０に問い合わせを行い、第１のデータベース１２２から第１のデータテーブル４１０の全データを取得する（Ｓ９１１）。
この問い合わせは、データ管理装置１２０におけるデータベース（１２２，１２３）を管理するデータベースシステムに対応する問い合わせ言語を用いて行うことができる。例えば、問い合わせ言語としてＳＱＬ（ＳｔｒｕｃｔｕｒｅｄＱｕｅｒｙＬａｎｇｕａｇｅ）が使用される場合、例えば「SELECT ts, id, val FROM “第１のデータテーブル”」等の式（条件式）により、問い合わせを行うことができる。

データ処理フロー２０１のＴｒａｎｓｆｏｒｍ処理７１２が実行された場合、データ分析装置１１０のデータ処理内容管理部１１１は、データの前処理として、第１のデータテーブル４１０の「val」列４１３の値を、典型な標準化と呼ばれる処理（Ｓ９２１（平均値ｕの算出）、Ｓ９２２（標準偏差ｓの算出）、Ｓ９２３（各ｖａｌの値ｘについての（ｘ-ｕ）/ｓの算出））により、平均値０、標準偏差１となるデータセットに変換して、第２のデータテーブル９０３を生成する。なお、値がＮＵＬＬのデータは無視される（同データテーブル９０２を参照）。

データ処理フロー２０１のＬｏａｄ処理７１３において、データ処理内容管理部１１１は、Ｔｒａｎｓｆｏｒｍ処理７１２で生成したデータを、第２のデータベース１２３に第２のデータテーブル９０２として保存して処理を終える（Ｓ３２２）。
この保存処理は、Ｅｘｔｒａｃｔ処理７１１と同様に、データ分析装置１１０がデータ管理装置１２０にＳＱＬ等の問い合わせ言語を用いて問い合わせを行うことで実現することができる。また、かかるＳ３２２の保存処理の後に、メタデータ管理装置１００のメタデータ管理部１０１は、例えば予め定められた時刻の到来により、図５で上述したメタデータ更新処理フローを実行し、図６に示すように、メタデータテーブル６１０をメタデータテーブル６２０に更新することになる。

次に、図３のＡ３０３に示す処理、すなわちデータ分析装置１１０によって実行されるデータ処理フローに係る情報の送信について説明する。データ分析装置１１０は、メタデータ管理装置１００に対し、データ処理フローに係る情報として、ユーザ３００が設計画面７１０、及び詳細画面７２０で設計したデータ処理フロー２０１に係る情報をデータ処理内容テーブル８００から取得し、id=201で識別される行、及び紐付いて管理されているプログラム（flow_201）８０２を送信する。

次に、図３のＳ３２１に示す処理、すなわちメタデータ管理装置１００によって実行される、Ａ３０３で受信されたデータ処理フローに係る情報を用いて、メタデータを生成、及び登録する処理について、図１０を参照して説明する。図１０は、メタデータ管理装置１００によるメタデータ生成、及び登録の処理の一具体例を示すフローチャートである。

ステップ１００１において、メタデータ管理装置１００のメタデータ管理部１０１は、受信された情報、ここではデータ処理内容テーブル８００の「type」列８０５の値が文字列「flow」と一致するか否かを判定する。

ここで、メタデータ管理部１０１は、一致すると判定した場合（ステップ１００１、ＹＥＳ）、受信されたデータ処理内容が定義済みの処理であると判断し、ステップ１００２に処理を進める。一方、メタデータ管理部１０１は、一致しないと判定した場合（ステップ１００１、ＮＯ）、受信されたデータ処理内容が定義されいていない処理であると判断し、ステップ１００３に処理を進める。
なお、本実施形態において、「データ処理内容」とは、データ処理フロー管理画面７００を用いて設計されたデータ処理フロー（いわゆる自動処理）と、後に説明する手動データ処理管理画面１３００でユーザが命令文を入力しデータテーブルを直接更新する手動データ処理と、の２種類が存在する。また、図８に示すデータ処理内容テーブル８００では、「type」列８０５の値によって、自動処理か手動処理かが区別され、自動処理すなわちデータ処理フローが「flow」で示され、手動処理すなわち手動データ処理が「manual」で示される。

ステップ１００２において、メタデータ管理部１０１は、受信したデータ処理フローとメタデータの突き合わせにより、データ処理フローの入力となっているデータを特定する。具体的には、メタデータ管理部１０１は、データ処理フローのプログラム８０２に含まれる、詳細画面７２０でユーザ３００が設計した情報のうち、ＩＰアドレス（「ip」項７２２）、Ｐｏｒｔ番号（「port」項７２３）、データベース名（「database」項７２１）、及びテーブル名（「table」項７２４）の情報と一致するメタデータを、メタデータテーブル６２０を走査し、検索することによって特定する。この例では、ステップ１００２の処理によって、入力データとしてメタデータテーブル６２０のid=101で識別されるデータが特定される。

ステップ１００４において、メタデータ管理部１０１は、ステップ１００２と同様に、Ｌｏａｄ処理で定義された、Ｅｘｔｒａｃｔ処理と同様の情報（ＩＰアドレス、Ｐｏｒｔ番号、データベース名、テーブル名）を用いて、一致するデータを、メタデータテーブル６２０を走査することで検索し、出力データ（メタデータテーブル６２０のid=102で識別されるデータ）の特定を行う。この後、メタデータ管理部１０１は、以下に説明するステップ１００５（リネージ生成）の処理、およびステップ１００６の条件式の生成、登録の処理を行う。

次に、図１１を参照してステップ１００５の処理を説明する。図１１は、本実施形態のメタデータ管理装置１００が管理するリネージテーブルおよびリネージテーブルが更新されてゆく例を示す図である。図１１中、説明の便宜および区別のため、かかるテーブルが更新される毎にリネージテーブルの符号を、１１１０⇒１１２０⇒１１３０・・・と変えて示している。なお、本実施形態において、リネージとは、入力データ、データ処理、及び出力データを含むメタデータの一種を指す。

入力データの特定（ステップ１００２）、及び出力データの特定（ステップ１００４）を行った後のステップ１００５において、メタデータ管理部１０１は、メタデータテーブル６２０から取得された情報に基づいて、入力データ（「data_source」列１１１２）、データ処理内容（「process」列１１１３）、および出力データ（「data_target」列１１１４）を一つのリネージとして、リネージテーブル１１１０に格納する（図１１を参照）。したがって、ステップ１００５の終了時点で、リネージテーブル１１１０のうち、「id」列１１１１、「data_source」列１１１２、「process」列１１１３、「data_target」列１１１４のみが記載された状態となる。
なお、「id」列１１１１は必要に応じてリネージを一意に特定するために付与される値である。また、「data_source」列１１１２、及び「data_target」列１１１４には、図６の下側に示すメタデータテーブル６２０の「id」列６１１のデータ（この例では101、及び102）が格納される。さらに、「process」列１１１３には、図８に示すデータ処理内容テーブル８００の「id」列８０４のうち該当するもの（この例では201）が格納される。

次に、図１０のステップ１００６の処理（条件式の生成および登録）を、図１２を参照して説明する。図１２は、本実施形態のメタデータ管理装置１００が条件式を生成、及び登録する処理の一例を示すフローチャートである。

ステップ１２０１において、メタデータ管理装置１００のタイムスタンプ管理部１０２は、データ処理フロー２０１の実行時刻に対応するタイムスタンプ（例えば、２０２０年８月８日の０時０分０秒の場合、「2020-08-08 00:00:00」）を生成し、リネージテーブル１１１０の該当するリネージ（この例ではid=301のリネージ）の「ts」列１１１５に、当該生成されたタイムスタンプを格納（挿入）する。なお、本実施例においては、この処理により、図１１（上から２つ目）に示すように、リネージテーブルの内容が、リネージテーブル１１１０からリネージテーブル１１２０に更新される。

ステップ１２０２において、メタデータ管理装置１００の条件式管理部１０３は、対象となっているリネージ（id=301）の「data_source」列１１１２から入力データのＩＤ（id=101）を取得する。続いて、条件式管理部１０３は、図６の下側に示すメタデータテーブル６２０の「id」列６１１を走査することによって、当該取得されたＩＤ（id=101）と一致する行を特定する。さらに、条件式管理部１０３は、該特定された行に紐付いて管理されているデータテーブル６３０（すなわちメタデータ）中から、型名（「type」列６３２）がｔｉｍｅｓｔａｍｐ型である列（column）を特定する（この例では、列「ts」）。

ステップ１２０３において、条件式管理部１０３は、メタデータテーブル６２０の特定したデータテーブル、及び「ｔｓ」列の情報を用いて、データ管理装置１２０に問い合わせを行い、対象となっているメタデータのデータテーブル（図４の左上側に示す第１のデータテーブル４１０）から、前記ｔｉｍｅｓｔａｍｐ型を有した列「ts」４１１の最大値（この例では最も新しい「2020-08-07」）と最小値（同、最も古い「2020-08-04」）を、それぞれ取得する。

ステップ１２０４において、条件式管理部１０３は、取得された最大値（「2020-08-07」）と最小値（「2020-08-04」）を用いて、最小値以上、最大値以下となるｔｓ（タイムスタンプ）を指定する条件式（この例では「2020-08-04 <= ts AND ts <= 2020-08-07」）を生成し、該生成された条件式を、リネージテーブル１１２０の対象となっている行（id=301のリネージ）の「condition」列１１１６に挿入（設定）する（図１１中の上から３番目のテーブルを参照）。この条件式は、各々のタイムスタンプに対応した、入力データを一意に特定するための条件式である。ステップ１２０４の処理が実行されることにより、リネージテーブル１１２０のid=301のリネージに条件式が追記され、図１１に示すように、リネージテーブル１１２０がリネージテーブル１１３０へと更新するように登録される。

かくして、本システムによれば、上記のような条件式が設定された後は、例えば第１のデータベース１２２に値が追加される事例が発生した場合であっても、当該設定された条件式に基づいて取得データを選択することにより、タイムスタンプ生成時と同じ入力データを再現することが可能となる。

また、条件式は、この例では一般的なＳＱＬにおけるＷＨＥＲＥ句に相当する記述を用いているが、対象となるデータベースシステムの問い合わせ言語に応じて変更されることができる。

なお、本実施の形態では、第１のデータテーブル４１０のように、あらかじめｔｉｍｅｓｔａｍｐ型を有する列（「ts」列４１１）が存在するが、このような列が無い場合も考えられる。このような「ts」列４１１が存在しない第１のデータテーブルの例を、図４中の右上側に示す。図４中の右上側に示す第１のデータテーブル４２０は、同図左上側に示す第１のデータテーブル４１０と比較して分かるように、「ts」列４１１（ｔｉｍｅｓｔａｍｐ型の列）を有さないこと以外は、第１のデータテーブル４１０と同様である。

この場合、メタデータ管理部１０１は、図５のメタデータ更新処理フローのステップ５０４で、テーブルの列にｔｉｍｅｓｔａｍｐ型が無いことを検知し、ｔｉｍｅｓｔａｍｐ型の列を有さない第１のデータテーブル４２０に対し、管理用のｔｉｍｅｓｔａｍｐ型を有した列（「_ts」列）を、データの更新が生じた際に、自動でタイムスタンプを挿入する制約条件（命令）とともに追加する処理を行う。この制約条件（命令）の一例としては、ＳＱＬにおける「ALTER TABLE “第１のデータテーブル” ADD _ts TIMESTAMP DEFAULT CURRENT_TIMESTAMP;」が挙げられる。
上記の制約条件は、第１のデータテーブル４２０に対し、タイムスタンプに関する列「_ts」を追加（ADD）し、既定の値として現在のタイムスタンプ（CURRENT_TIMESTAMP）を、データの挿入時に挿入せよ、という命令である。この命令により、第１のデータテーブル４２０は、第１のデータテーブル４３０のように変更され、すなわち図４の右下側に示すように、データの追加に応じてタイムスタンプが自動で挿入され、図１２で説明した一連の処理が適用可能となる。

ところで、データ管理装置１２０によるデータの書き換え処理（図３、Ｓ３２２）と、メタデータ管理装置１００によるメタデータ生成、及び登録処理（図３、Ｓ３２１）とが実行される間に第１のデータテーブルデータ４１０にデータが挿入される場合、実際に入力データとなった範囲と条件式で選択される範囲とに不一致（不整合）が生じる可能性がある。かかる不一致（不整合）を防止するためには、以下のような構成としてもよい。
すなわち、図３中のＡ３０１の操作の後、Ａ３０２の処理を行う前に、データ処理フローに係る情報の送信（Ａ３０３）と、メタデータ生成、及び登録（Ｓ３２１）の処理をそれぞれ追加的に実施する。加えて、データの書き換え処理（Ｓ３２２）の実行前及び実行後に、それぞれ条件式を生成し、これら２つの条件式が一致するか否かを判定する。

ここで、２つの条件式が一致すると判定された場合には、条件式同士の不整合がないと判断し、当該条件式を登録する。一方、２つの条件式が一致しないと判定された場合には不整合が発生したと判断し、データ分析装置１１０のディスプレイ２１８に図示しない修正画面を表示して、当該整合しない条件式をユーザ３００に修正させるように促す表示を行う。

次に、手動データ処理に係る操作（図３、Ａ３０４）、手動データ処理によるデータの書き換え（図３、Ａ３０５）、及びデータ書き換え（図３、Ｓ３２３）の処理について説明する。

本システムにおいて、ユーザ３００は、データ処理フローによるデータ処理（この例ではＡ３０１）の他にも、手動操作によってデータを修正することができる。図１３は、本システムを構成する任意の装置の表示部（この例ではデータ分析装置１１０のディスプレイ２１８）に表示されるコマンドプロンプト画面としての、手動データ処理管理画面１３００を示す。

ユーザ３００は、手動データ処理管理画面１３００が表示されている端末１３０１（ここではデータ分析装置１１０）にデータベースへの接続情報１３０２を入力し、問い合わせ言語（符号１３０３を参照）を用いてデータを操作することができる。あるいは、ユーザ３００は、手動データ処理管理画面１３００中の「読込」ボタン１３０４をマウス等で選択することにより、問い合わせ言語が記述されたファイルを読み込み、「実行」ボタン１３０５をマウス等で選択して実行することにより、上述した第２のデータベース１２３のデータテーブルを操作することができる。

図１３に示す一具体例では、ユーザ３００は、「CONNECT “第２のデータベース”」命令１３０２を実行することによって、第２のデータベース９０２に接続する。続いて、ユーザ３００は、「DELETE FROM “第２のデータテーブル” WHERE ts = 2020-08-07 AND id = 1」命令１３０３を実行することによって、第２のデータテーブル９０２に存在する、「ts」列（タイムスタンプ）の値が「2020-08-07」かつ「id」列の値が「1」のデータを削除する（図９、Ｓ９３１も参照）。この操作により、データベース管理部１２１は、図９の右下側に示すように、第２のデータテーブル９０２を、（２０２０年８月７日のデータが削除された）第２のデータテーブル９０３に更新する。また、データ処理内容管理部１１１は、これらの一連の処理を、図８のデータ処理内容テーブル８００に「type」列８０５が「manual」の手動更新として記載し、（ユーザ３００によって入力された）一連の命令文をプログラム８０３として紐付けてデータ処理内容格納部１１２に格納する。

次に、手動データ処理に係る情報の送信（図３、Ａ３０６）、及びメタデータ生成、及び登録処理（図３、Ｓ３２４）について説明する。
データ分析装置１１０のデータ処理内容管理部１１１は、手動データ処理管理画面１３００が表示されている端末１３０１（ここでは自機すなわちデータ分析装置１１０）に対するユーザ３００の入力を受け付け、受け付けた内容、すなわち、図８のデータ処理内容テーブル８００に記載されている、「id」列８０４、「type」列８０５、「process」列８０６のそれぞれの内容、及びプログラム８０３を、手動データ処理に係る情報として、メタデータ管理装置１００に送信する。

かかる手動データ処理に係る情報を受信したメタデータ管理装置１００は、データ処理フローに係る情報を受信したとき（Ａ３０３、Ｓ３２１）と同様に、メタデータ管理部１０１によって、図１０で上述したフロー（メタデータの生成および登録）を再度実行する。

この場合、ステップ１００１において、メタデータ管理装置１００のメタデータ管理部１０１は、受信されたデータ処理内容の「type」が「manual」であることから、本データ処理が定義済みでない処理（手動によるデータ処理）であると判断し（ステップ１００１、ＮＯ）、ステップ１００３に処理を進める。

ステップ１００３において、メタデータ管理部１０１は、受信したデータ処理内容に含まれるプログラム８０３の「CONNECT “第２のデータベース”」、及び「DELETE FROM “第２のデータテーブル” WHERE ts = 2020-08-07 AND id = 1」のうち、CONNECT文の以降に記述された文字列（第２のデータベース）から接続先データベース名、及びFROM文の以降に記述された文字列（第２のデータテーブル）からデータを取得するデータテーブル名をそれぞれ抽出する。そして、メタデータ管理部１０１は、メタデータテーブル６２０（図６を参照）を走査することによって、抽出された組み合わせと一致する行を特定し、特定されたＩＤ（この例では「102」）を取得する。

続くステップ１００７において、メタデータ管理部１０１は、リネージのＩＤ（この例では「302」）を生成し、手動更新処理のＩＤ（「202」）、入出力データのＩＤ（「102」）、及びタイムスタンプ「2020-08-08 01:00:00」をリネージテーブル１１３０にリネージとして格納することにより、リネージテーブル１１３０を更新してリネージテーブル１１４０を生成する（図１１中の上から３番目および４番目のテーブルを参照）。なお、リネージテーブル１１４０中の更新（追加）された欄における「condition」列には、値が存在しないことを示す「NULL」が記載される。
上記のようにステップ１００７の処理が実行されることによって、リネージテーブル１１３０がリネージテーブル１１４０へと更新（変更）される。

図９中の右下側に示す第２のデータテーブル９０３が生成された後、ユーザ３００は、同図のステップＳ９４１に示すデータの利用時（例えば、データの可視化や分析レポートの作成時）において、第２のデータテーブル９０３を入力データとして利用することができる。

次に、データ処理に係る操作がユーザ３００により繰り返し行われることにより、データの上書きが発生する事例（図３中のＳ３２５）について、上述した工場内の第１センサからセンシングデータを取得する場合を前提として説明する。
時間が経過し、例えば、第１センサからの新たなセンシングデータが情報処理システム１に入力されたような場合、第１のデータテーブル４１０に新たなデータが追記され、図４中の左下に示すような第１のデータテーブル４４０として更新される。図４に示す例では、第１のデータテーブル４４０は、同図左上側に示す第１のデータテーブル４１０と比較して、２０２０年８月９日に第１センサ（id=1）から「189」の値を示すデータ欄（行４１４）が追加されている。
ユーザ３００は、前述のデータ処理フローに係る操作（図３中のＡ３０１）と、手動データ処理に係る操作（図３中のＡ３０４）を再度繰り返し、新たなデータが反映された第２のデータテーブル（適宜、図９を参照）を再度作成する。

この時点で、以前作成した第２のデータテーブル９０３は上書きされ、その情報は失われる。本実施形態においては、以降の処理において第２のデータテーブル９０３を再現することが主たる目的となる。なお、ユーザ３００の操作に基づくデータの上書き（図３のＳ３２５）の処理により、図１１の下側に示すように、リネージテーブル１１４０が新たなリネージテーブル１１５０として更新される。このリネージテーブル１１５０は、リネージテーブル１１４０に対して、２０２０年８月１０日分についての２つの処理（process；201,202）に関するデータ欄が追加されている。

以下、データ再現に係る操作（図３のＡ３０７）の内容について説明する。図１４に、本システムを構成するいずれかの装置の表示部（例えばメタデータ管理装置１００のディスプレイ２０８）に表示されるデータ再現処理管理画面１４００を示す。

ユーザ３００は、本システムの構成装置（ここではメタデータ管理装置１００）に対し、データ再現処理管理画面１４００での入力操作を通じて、データ再現対象の設定および実行指示を行う。具体的には、ユーザ３００は、図１４に示すように、データ再現処理管理画面１４００中のデータテーブルリスト１４１０に、再現したいデータ１４１１（この例では第２のデータテーブル）を入力（指定）するとともに、「時刻」欄１４１２に、指定時刻（すなわち再現を所望する時刻）を入力（指定）する。そして、ユーザ３００は、「再現処理実行」ボタン１４１３を選択（マウスクリック等）することにより、データ（図９の右下側に示す第２のデータテーブル９０３）の再現処理を、データ再現処理要求として指示する（図３中のＡ３０７を参照）。

上記のように、この指定時刻１４１２によって再現されるデータテーブルは、第２のデータテーブル９０３である。一方、上述したように、（更新後の）第１のデータテーブル４４０は、新規にデータ（ts=2020-08-09の行）が追加された状態となっている（図４中の左下側のテーブルを参照）。このため、この第１のデータテーブル４４０に対し、データ処理フロー２０１、及び手動更新２０２を適用するのみでは、図９のＳ９２１、及びＳ９２２の処理で生成される値が異なるため、第２のデータテーブル９０３を再現することができない。

そこで、本システムにおけるメタデータ管理装置１００は、第２のデータテーブル９０３を再現するデータ再現処理を実現するために、次のような動作（処理手順）を実行する。以下、メタデータ管理装置１００が実行するデータ再現処理の内容を順に説明する。

（データ再現処理）
図１５は、本システムのメタデータ管理装置１００が実行するデータ再現処理の流れを示すフローチャートである。以下、図１５および図３を参照して、メタデータ管理装置１００によるデータ再現処理の内容を説明する。

ステップ１５０１において、メタデータ管理装置１００のデータ再現処理管理部１０４は、図１４で説明したデータ再現処理管理画面１４００を表示し、かかる画面を通じてユーザ３００からのデータ再現処理要求（図３のＡ３０７）を受け付ける。

データ再現処理要求を受信した後のステップ１５０２において、データ再現処理管理部１０４は、データ再現処理要求で指定されたデータテーブル（ここでは「第２のデータテーブル」）に対し、メタデータテーブル６２０（図６を参照）を走査し、「data_source」列６１２の一致を判定することでデータ再現処理の対象となっているデータを特定し、そのデータのメタデータＩＤ（この例ではid＝「102」）を取得する。

ステップ１５０３において、データ再現処理管理部１０４は、取得したメタデータＩＤ（102）をもとに、リネージテーブル１１５０（図１１を参照）を、指定時刻（この例では図１４中に示す「2020-08-08 02:00:00」）およびそれ以前の時刻（図１１中の「ts」列１１１５の数値を参照）のデータ（当該テーブルの各欄）を、新しい順に走査する。そして、データ再現処理管理部１０４は、「data_target」列１１１４の値が、取得されたＩＤ（102）と一致する行のリネージのデータ処理内容（「process」列１１１３）のＩＤを取得する。

この例では、指定時刻１４１２が「2020-08-08 02:00:00」すなわち２０２０年８月８日午前２時００分００秒であるため、それ以前のリネージであるｉｄ＝302からｉｄ＝301のリネージのデータが走査され、ｉｄ＝302のリネージのデータ処理内容「process」列１１１３のｉｄ＝202がステップ１５０３の処理により取得される。

ステップ１５０４において、データ再現処理管理部１０４は、データ分析装置１１０に対し、上記データ処理内容のＩＤ（202）によるデータ処理内容の検索要求を発行する。

データ分析装置１１０は、メタデータ管理装置１００からの検索要求の問い合わせに対し、図８のデータ処理内容テーブル８００を受信したデータ処理内容のＩＤ（202）を用いて走査し、ＩＤ（「id」列８０４）が一致したデータ処理内容（「手動更新２０２」）のデータ処理内容、及びプログラムを取得し、メタデータ管理装置１００に対し結果を返す（図３のＡ３０８）。

ステップ１５０５において、データ再現処理管理部１０４は、データ処理内容（図８に示すデータ処理内容テーブル８００）、及びプログラム８０２、８０３を受信し、データ処理内容の種類（「type」列８０５）が「flow」であるかを判定する。そして、データ再現処理管理部１０４は、flowであると判定した場合（一致した場合）は処理をステップ１５０６に進め、flowでないと判定した場合（一致しない場合）は処理をステップ１５０３に処理を戻す。
なお、データ再現処理管理部１０４は、ステップ１５０３に処理を戻した場合は、すでに取得したリネージを除外してデータ（リネージテーブル）の走査を行う。本実施形態においては、リネージテーブル１１５０（図１１参照）のid=302のデータ処理内容（process=202）の種類は「manual」すなわち手動入力操作であるため（図８参照）、さらにid=301のデータ処理内容（process=201）までさかのぼってデータ処理内容が取得される。

続いて、ステップ１５０６において、データ再現処理管理部１０４は、現在のリネージＩＤ（301）以降、かつ指定時刻１４１２（この例では２０２０年８月８日午前２時００分００秒）までに実施された処理を再適用する。この再適用処理を、図１６に再適用処理フロー（ステップ１６０１～１６０５）として示す。また、図１６の再適用処理フローの実施によるデータ処理の内容を、図１７を参照して説明する。

図１６のステップ１６０１において、データ再現処理管理部１０４は、現在対象となっているデータ処理内容（すなわち、図１１に示すリネージid=301のデータ処理内容）の図１１に示す「condition」列１１１６を参照し、条件式が記載されていた場合、条件式が存在すると判定してステップ１６０２に処理を進め、一方、条件式が記載されていない（NULL値である）場合、ステップ１６０３に処理を進める。

ステップ１６０２において、データ再現処理管理部１０４は、既存のデータ処理フローの条件式に係る式（すなわち、図７に示すデータ処理フロー管理画面７００のwhere項７２６部分）に、既に何らかの条件式が記載されている場合は、条件式を追加し、未指定の場合（もしくは図７に示すように「＊」である場合）は、リネージテーブル１１５０の「condition」列に記載された条件式（例えば、id=301のリネージであれば、「2020-08-04 <= ts AND ts <= 2020-08-07」の条件式）を取得し、当該条件式によって、以前の条件式に係る式を上書きする。
このステップ１６０２の処理により、更新されたデータ処理フローがデータ処理フロー１７００であり（図１７を参照）、図１７中に下線で強調して示すように、where項のデータ欄１７０２がリネージテーブル１１５０（図１１を参照）の条件式で更新されることになる。なお、本実施形態において「条件式に係る式」とは、ＳＱＬ（ＳｔｒｕｃｔｕｒｅｄＱｕｅｒｙＬａｎｇｕａｇｅ）におけるＷＨＥＲＥ句にて指定可能な式に相当するものであり、図７に示すデータ処理フロー管理画面７００でのwhere項７２６の指定に該当する。
かくして、ステップ１６０２の処理が実行されることにより、新規にデータが追加されている場合でも、過去に入力データとして使用したデータのみが選択ひいては再現されるように、データ処理フローが更新される（適宜、図３中のＳ３２６も参照）。

ステップ１６０３において、データ再現処理管理部１０４は、データ処理内容の再適用を行う。本実施形態においては、ステップ１６０３の最初の実行により、リネージテーブル１１５０のid=301のデータ処理内容が再適用され、時刻ts=2020-08-08 00:00:00時点のデータが再現される。
なお、かかる再適用の処理は、メタデータ管理装置１００のデータ再現処理管理部１０４が、データ分析装置１１０に対し、更新済みのデータ処理フロー１７００の再適用要求を発行することにより実現される（図３中のＡ３０８を参照）。データ分析装置１１０は、Ａ３０１、及びＡ３０２の処理と同様に、データ管理装置１２０に対し、データ処理フロー１７００で定義された処理を実施することによって、データ処理内容の再適用を実現する。

かくして、データ処理フロー１７００により、第１のデータテーブル４４０から、範囲１７１１のデータのみが抽出され、第２のデータテーブル９０２と同じデータからなる第２のデータテーブル１７１２が再度生成される（図１７を参照）。

ステップ１６０４において、データ再現処理管理部１０４は、より最新のデータ処理内容が存在するか否かを判定する。
この判定の手法の一具体例として、データ再現処理管理部１０４は、リネージテーブル１１５０を、現在のリネージの「id」列１１１１を、時刻「ts」列１１１５がより新しい行に向かって走査し、リネージの存在の有無を確認することによって行う。そして、データ再現処理管理部１０４は、リネージが存在すると判定した場合（ステップ１６０４、ＹＥＳ）には処理をステップ１６０５に進め、存在しないと判定した場合（ステップ１６０４、ＮＯ）には処理を終える。但し、ステップ１６０４の処理は、時刻指定１４１２未満のリネージのみが対象となる。本実施形態においては、リネージid=302の処理のみが該当する。

ステップ１６０５において、データ再現処理管理部１０４は、一つ最新のデータ処理内容を取得し（すなわち、リネージid=302のデータ処理内容）、ステップ１６０１に処理を戻す。

そして、リネージid=302のデータ処理内容に関しても図１６のフローが適用されることにより、プログラム８０３が第２のデータテーブル１７１２に対し適用され、再現対象である第２のデータテーブル９０３と同様のデータ構造およびデータを持った第２のデータテーブル１７１３が再度生成される（図９及び図１７を参照）。

このように、図１５および図１６に示すデータ再現処理フローの実行により、リネージテーブル１１５０のid=301、及びid=302のデータ処理内容が、必要に応じて条件式を反映された状態にて再適用され、指定された時刻（この例ではs=2020-08-08 01:00:00）のデータを再現することが可能となる。なお、この例では、時刻指定１４１２で指定された時刻までデータの更新はないため、時刻指定１４１２の時刻においても同じデータとなる。

なお、データ再現処理管理部１０４は、図１５に示すステップ１５０６の処理の一部として、以下の処理を行うことができる。すなわち、データ再現処理管理部１０４は、図１６のデータ再現処理フロー終了の後、必要に応じてデータ管理装置１２０に対してデータベース（この例では第２のデータベース１２３）のデータを書き換える命令（図３中のＡ３０９）を出すことができる。加えて、データ再現処理管理部１０４は、必要に応じて、上述した操作入力部を通じてユーザ３００が入力した操作入力内容（操作ログ）を検索および実行し（図３中のＳ３２７）、かかる操作ログの実行に応じて、データ管理装置１２０に対して第２のデータベース１２３のデータを書き換える命令（図３中のＡ３１０）を出すことによって、該当する手動更新を適用することもできる。

かくして、データ再現処理管理部１０４は、適宜、上記のような追加的な処理を行った後に、ユーザに終了の応答を返し（図３中のＡ３１１）、図１５のデータ再現処理フローを終了させる。

かくして、本実施の形態の情報処理システム１では、メタデータ管理装置１００（メタデータ管理部１０１）が、データ処理毎に、当該処理時のタイムスタンプ（図１１中のｔｓ１１１５）と入力データの特定に必要な条件式（同図中のｃｏｎｄｉｔｉｏｎ１１１６）とを紐づけて管理するので、例えば出力データが削除された場合であっても、蓄積された入力データから出力データを再現することができる。したがって、情報処理システム１によれば、データ量の肥大化を抑制しつつデータ再現処理を担保することができる。

１情報処理システム（データ管理システム）
１００メタデータ管理装置
１０１メタデータ管理部
１０２タイムスタンプ管理部
１０３条件式管理部
１０４データ再現処理管理部
１０５メタデータ格納部
１１０データ分析装置
１１１データ処理内容管理部
１１２データ処理内容格納部
１２０データ管理装置
１２１データベース管理部
１２２第１のデータベース
１２３第２のデータベース
２０１，２１１，２２１ＣＰＵ
２０２，２１２，２２２主メモリ
２０３，２１３，２２３ストレージ
２０４，２１４，２２４バス
２０５，２１５，２２５ＮＩＣ
２０６，２１６，２２６キーボード
２０７，２１７，２２７マウス
２０８，２１８，２２８ディスプレイ（表示部）
６１０メタデータテーブル
６３０データテーブル（メタデータ）
７００データ処理フロー管理画面
７１０設計画面
７２０詳細画面
７３１検索画面
７４０実行ボタン
７５０登録ボタン
８００データ処理内容テーブル
９０２、９０３第２のテーブル
９０３第２のテーブル（再現対象）
１１１０、１１２０、１１３０、１１４０、１１５０リネージテーブル
１１１１ｉｄ列
１１１２ｄａｔａ＿ｓｏｕｒｃｅ列
１１１３ｐｒｏｃｅｓｓ列
１１１４ｄａｔａ＿ｔａｒｇｅｔ列
１３００手動データ処理管理画面
１４００データ再現処理管理画面

Claims

入力されたデータの分析を行うデータ分析装置および前記データが格納されるデータベースの管理を行うデータ管理装置が実行したデータ処理に係るメタデータを管理するメタデータ管理装置であって、
前記データ分析装置における前記データ処理の実行に応じて当該実行時のタイムスタンプを生成するタイムスタンプ管理部と、
前記データ処理の入力となったデータの特定に必要な条件式を生成する条件式管理部と、
前記タイムスタンプと前記条件式と前記データ処理とをリネージとして管理するメタデータ管理部と、
時刻指定を有するデータ再現処理要求に対し、前記リネージを用いて、前記データ処理を前記条件式に従って更新し、該更新されたデータにデータ再現処理を適用することにより、前記データ再現処理要求で指定された時刻におけるデータを再現するデータ再現処理管理部と、
を備えるメタデータ管理装置。
請求項１に記載のメタデータ管理装置において、
前記メタデータ管理部は、前記データ処理において該データ処理のフローが定義されていないデータ処理が行われた場合、該データ処理を手動更新と判断して前記リネージとして管理し、
前記データ再現処理管理部は、前記データ再現処理によって前記データを再現した後、当該データに対し手動更新が前記リネージとして存在する場合には、該当する手動更新を適用する、
メタデータ管理装置。
請求項１に記載のメタデータ管理装置において、
前記メタデータ管理部は、管理対象となるデータに対し、タイムスタンプに相当するデータ構造の有無を判定し、前記タイムスタンプに相当する前記データ構造が無い場合、当該データの更新に応じてタイムスタンプを自動で付与する制約条件を付与する、
メタデータ管理装置。
請求項１に記載のメタデータ管理装置において、
前記データ処理の前後で、前記タイムスタンプ管理部によるタイムスタンプの生成、及び前記条件式管理部による前記条件式の生成をそれぞれ行い、
前記メタデータ管理部は、
前記リネージの生成時に、生成された２つの前記条件式の一致を判定することで、実際の入力データと生成される条件式との不整合を検知する、
メタデータ管理装置。
請求項１に記載のメタデータ管理装置において、
前記データ再現処理に関する情報を入力する画面を表示する表示部を備える、
メタデータ管理装置。
請求項１に記載のデータ分析装置、データ管理装置、およびメタデータ管理装置が互いに接続され、これら装置の協働によってデータおよびメタデータの管理を行うデータ管理システムであって、
ＲＤＢＭＳ（ＲｅｌａｔｉｏｎａｌＤａｔａＢａｓｅＭａｎａｇｅｍｅｎｔＳｙｓｔｅｍ）を用いて前記データおよび前記メタデータの管理を行う、
データ管理システム。
請求項６に記載のメタデータ管理装置において、
前記条件式管理部は、前記条件式として、ＳＱＬ（ＳｔｒｕｃｔｕｒｅｄＱｕｅｒｙＬａｎｇｕａｇｅ）におけるＷＨＥＲＥ句にて指定可能な式を生成する、
メタデータ管理装置。
入力されたデータの分析を行うデータ分析装置および前記データが格納されるデータベースの管理を行うデータ管理装置が実行したデータ処理に係るメタデータを管理するメタデータ管理装置におけるデータ再現方法であって、
前記データ処理の実行に応じて当該実行時のタイムスタンプを生成し、
前記データ処理の入力となったデータの特定に必要な条件式を生成し、
前記タイムスタンプと前記条件式と前記データ処理とをリネージとして管理し、
時刻指定を有するデータ再現処理要求に対し、前記リネージを用いて、前記データ処理を前記条件式に従って更新し、
更新されたデータにデータ再現処理を適用することにより、前記データ再現処理要求で指定された時刻におけるデータを再現する、
データ再現方法。