JP7010632B2 - Intermediate data management system and intermediate data management method - Google Patents
Intermediate data management system and intermediate data management method Download PDFInfo
- Publication number
- JP7010632B2 JP7010632B2 JP2017178175A JP2017178175A JP7010632B2 JP 7010632 B2 JP7010632 B2 JP 7010632B2 JP 2017178175 A JP2017178175 A JP 2017178175A JP 2017178175 A JP2017178175 A JP 2017178175A JP 7010632 B2 JP7010632 B2 JP 7010632B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- deletion
- analysis
- intermediate data
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、中間データ管理システムおよび中間データ管理方法に関するものであり、具体的には、中間データの効果的な管理を図り、ひいては当該中間データを用いる分析処理の効率等を良好なものとする技術に関する。 The present invention relates to an intermediate data management system and an intermediate data management method. Specifically, the present invention aims at effective management of intermediate data and, by extension, improves the efficiency of analysis processing using the intermediate data. Regarding technology.
いわゆるビッグデータなど種々のデータを対象にして分析を行い、これまでに無い観点での知見を得る様々な分析技術が登場している。こうしたデータ分析を行う場合、複数の分析リソースそれぞれで分担を図り、或る分析リソースの処理結果を他の分析リソースが分析対象とし、分析リソース間で協働する分析システムを構成することが多い。 Various analytical techniques have appeared that analyze various data such as so-called big data and obtain knowledge from an unprecedented viewpoint. When performing such data analysis, it is often the case that an analysis system is constructed in which a plurality of analysis resources are shared, the processing result of one analysis resource is targeted for analysis by another analysis resource, and the analysis resources cooperate with each other.
その場合、分析起点となったデータから分析結果に至るまでの各分析機会では、多くの中間データが生成され、その管理に少なからぬ手間やリソースが必要となっている。 In that case, a lot of intermediate data is generated at each analysis opportunity from the data that became the analysis starting point to the analysis result, and a considerable amount of labor and resources are required for its management.
そこで、こうした中間データの管理を目的とした従来技術として、例えば、プロセッサと記憶装置を備えた計算機で、素データを分析して分析結果を出力するデータ分析システムであって、前記素データを格納する素データ格納部と、前記素データを読み込んで分析を行い、当該分析の過程で中間データを生成して分析結果を出力する分析部と、前記分析部が生成した中間データを格納する中間データ格納部と、前記分析部が出力した分析結果に対する評価の値を受け付ける評価受付部と、を備え、前記分析部は、前記分析の際に前記中間データ格納部の中間データのうち利用可能な中間データを参照し、前記評価受付部は、前記評価の値に対応する前記中間データに前記評価の値を分配し、前記分配した評価の値が所定の条件を満たしたときに、当該評価の値に対応する前記中間データを削除することを特徴とするデータ分析システム(特許文献1参照)などが提案されている。 Therefore, as a conventional technique for managing such intermediate data, for example, a data analysis system that analyzes raw data with a computer equipped with a processor and a storage device and outputs the analysis result, and stores the raw data. The raw data storage unit, the analysis unit that reads the raw data and performs analysis, generates intermediate data in the process of the analysis and outputs the analysis result, and the intermediate data that stores the intermediate data generated by the analysis unit. The storage unit is provided with an evaluation reception unit that receives an evaluation value for the analysis result output by the analysis unit, and the analysis unit is an intermediate data that can be used among the intermediate data of the intermediate data storage unit during the analysis. With reference to the data, the evaluation receiving unit distributes the evaluation value to the intermediate data corresponding to the evaluation value, and when the distributed evaluation value satisfies a predetermined condition, the evaluation value. A data analysis system (see Patent Document 1), which is characterized by deleting the intermediate data corresponding to the above, has been proposed.
従来技術においては、中間データを削除するとしてもデータストレージの使用容量を効果的に低減することが困難である。また、一旦削除した中間データは、後に必要となっても参照等することができない。こうした問題は、分析システムにおける処理効率自体にも悪影響を及ぼしかねない。
そこで本発明の目的は、中間データの効果的な管理を図り、ひいては当該中間データを用いる分析処理の効率等を良好なものとする技術を提供することにある。
In the prior art, it is difficult to effectively reduce the used capacity of the data storage even if the intermediate data is deleted. In addition, the intermediate data once deleted cannot be referred to even if it is needed later. These problems can also adversely affect the processing efficiency itself in the analytical system.
Therefore, an object of the present invention is to provide a technique for effectively managing intermediate data and, by extension, improving the efficiency of analysis processing using the intermediate data.
上記課題を解決する本発明の中間データ管理システムは、分析データ、前記分析データの各種属性を示すメタデータ、および、前記分析データのうち他の分析データに基づき生成された生成データの生成用データ、を格納する記憶装置と、前記メタデータおよび前記生成用データに基づいて、前記分析データを起点とし当該分析データの分析結果を終点とした一連のデータ処理の流れにおける、前記起点から前記終点に向けたデータの連なり、及び前記終点から前記起点に遡るデータの連なり、のそれぞれにおいて、前記生成データのうち所定の中間データを所定アルゴリズムで選定し、当該中間データの削除処理を実行する演算装置と、を備えることを特徴とする。 The intermediate data management system of the present invention that solves the above problems includes analysis data, metadata showing various attributes of the analysis data, and data for generating generated data generated based on other analysis data among the analysis data. From the start point to the end point in a series of data processing flows starting from the analysis data and ending from the analysis result of the analysis data based on the storage device for storing the data and the metadata and the generation data. A computing device that selects predetermined intermediate data from the generated data by a predetermined algorithm and executes deletion processing of the intermediate data in each of the sequence of data directed to the sequence and the sequence of data traced from the end point to the start point. , It is characterized by providing.
また、本発明の中間データ管理方法は、分析データ、前記分析データの各種属性を示すメタデータ、および、前記分析データのうち他の分析データに基づき生成された生成データの生成用データ、を格納する記憶装置を備えた情報処理システムが、前記メタデータおよび前記生成用データに基づいて、前記分析データを起点とし当該分析データの分析結果を終点とした一連のデータ処理の流れにおける、前記起点から前記終点に向けたデータの連なり、及び前記終点から前記起点に遡るデータの連なり、のそれぞれにおいて、前記生成データのうち所定の中間データを所定アルゴリズムで選定し、当該中間データの削除処理を実行する、ことを特徴とする。 Further, the intermediate data management method of the present invention stores analysis data, metadata showing various attributes of the analysis data, and data for generating generated data generated based on other analysis data among the analysis data. From the starting point in a series of data processing flows starting from the analysis data and ending at the analysis result of the analysis data based on the metadata and the generation data. In each of the sequence of data toward the end point and the sequence of data tracing from the end point to the start point, a predetermined intermediate data among the generated data is selected by a predetermined algorithm, and the deletion process of the intermediate data is executed. , Characterized by that.
本発明によれば、中間データの効果的な管理を図り、ひいては当該中間データを用いる分析処理の効率等を良好なものとできる。 According to the present invention, the intermediate data can be effectively managed, and the efficiency of the analysis process using the intermediate data can be improved.
---データ分析の概念例について---
図1は、本実施形態において想定するデータ分析の実行過程を概念的に示す図であり、分析対象の起点となる分析データから、最終的に分析者に提示される分析結果に至る分析概念の例である。
--- About the conceptual example of data analysis ---
FIG. 1 is a diagram conceptually showing the execution process of data analysis assumed in the present embodiment, and is an analysis concept from the analysis data which is the starting point of the analysis target to the analysis result finally presented to the analyst. This is an example.
本実施形態で想定するデータ分析システムでは、分析の起点となる分析データを入力として所定の分析処理を実行し、その分析処理で得られた出力を入力として異なる分析処理を実行する、といったサイクルを必要に応じて繰り返し、最終的に分析者の望む分析結果を得る、という運用を行う情報処理システムである。 In the data analysis system assumed in the present embodiment, a cycle is executed in which a predetermined analysis process is executed by using the analysis data that is the starting point of the analysis as an input, and a different analysis process is executed by using the output obtained by the analysis process as an input. It is an information processing system that operates by repeating as necessary and finally obtaining the analysis result desired by the analyst.
こうした分析過程において、分析データ102および分析データ112は、分析の起点となる分析データである。この分析データ102および分析データ112は、例えば、業務システムやセンサなどのデータソース端末201(図2)から電子ファイルで取得したものを想定できる。一方、上述の分析データ102を入力としたデータ処理161を実行して得られるのが、中間データ122である。このデータ処理161は、一例として「変換1」という処理を想定している。
In such an analysis process, the
なお、図1において例示する関連181は、上述のデータ処理161の入力が分析データ102であることを示すリンクであり、また関連182は、データ処理161の出力が中間データ122であることを示すリンクである。
The
同様にして、分析データ112を入力データとして、データ処理162の実行結果として得られるのが、中間データ132である。ここで、データ処理162は「変換2」という処理を想定している。
Similarly, the intermediate data 132 is obtained as the execution result of the
また、上述の中間データ122および中間データ132を入力データとして、データ処理163の実行結果として得られるのが、中間データ142である。ここで、データ処理163は「分析アルゴリズムA」を適用した処理を想定している。
Further, the
また、上述の中間データ142を入力データとして、データ処理164の実行結果として得られるのが、分析結果152である。ここで、データ処理164は「分析アルゴリズムB」を適用した処理を想定している。
Further, the
こうした一連のデータ分析処理の終端に該当する分析結果152は、分析者にとって有効な情報である。有効な情報とは、分析者が意図した分析結果であり、例えば、商品を店舗販売する小売企業における、店舗での人流データと売上データとの相関関係・因果関係を示す分析データを想定可能である。こうした分析データは、当該企業における企業価値向上につながると期待されている。
The
なお、上述の分析結果152は、分析者が利用するデータ分析表示クライアント207(図2)に対して必要に応じて配信され、当該分析者による判断の対象となる。分析者による判断、すなわち意図した分析結果であるかを判断するロジックとしては、例えば、上述の相関関係・因果関係における対象事象の間の相関係数が大きいことを検証するといったものが該当する。
The above-mentioned
本実施形態では、上述の分析データ、中間データ、および、分析結果、のそれぞれに関して、その特性を示すメタデータと該当データを生成するために必要な情報である生成用データとを管理する。なお、こうした分析データ、中間データ、および、分析結果のそれぞれに関して、該当データとそれに対応するメタデータおよび生成用データを、便宜上、データノードと呼称する。
図1に示す例では、データノード101は、分析データ102とメタデータ・生成用データ103(メタデータと生成用データのセット)で構成される。
In the present embodiment, for each of the above-mentioned analysis data, intermediate data, and analysis result, metadata showing the characteristics thereof and generation data which is information necessary for generating the corresponding data are managed. For each of the analysis data, the intermediate data, and the analysis result, the corresponding data and the corresponding metadata and generation data are referred to as data nodes for convenience.
In the example shown in FIG. 1, the
同様に、データノード111は、分析データ112とメタデータ・生成用データ113で、データノード121は、中間データ122とメタデータ・生成用データ123で、データノード131は、中間データ132とメタデータ・生成用データ133で、データノード141は、中間データ142とメタデータ・生成用データ143で、データノード151は分析結果152とメタデータ・生成用データ153で、それぞれ構成される。
Similarly, the
なお、図1における関連171は、中間データ122を生成した際の入力がデータノード101における分析データ102であることを示すリンクである。この、中間データ122を生成した際の入力がデータノード101における分析データ102である、という情報は、メタデータ・生成用データ123に記録されている。また、データ処理161が「変換1」であることも、メタデータ・生成用データ123に記録されている。
The
同様に、関連172は、中間データ132を生成した際の入力がデータノード111に
おける分析データ112であることを示すリンクである。この、中間データ132を生成した際の入力がデータノード111における分析データ112である、という情報、およびデータ処理162が「変換2」であるという情報は、メタデータ・生成用データ133に記録されている。
Similarly, the
また、関連173は、中間データ142を生成した際の入力の1つがデータノード121における中間データ122であること、および、関連174は、中間データ142を生成した際の入力の一つがデータノード131における中間データ132であることを示すリンクである。中間データ142を生成した際の入力がデータノード121における中間データ122およびデータノード131における中間データ132である、という情報、およびデータ処理163が「分析アルゴリズムA」であるという情報は、メタデータ・生成用データ143に記録されている。
Further, in the
また、関連175は、分析結果152を生成した際の入力がデータノード141における中間データ142であることを示すリンクである。この、分析結果152を生成した際の入力がデータノード141における中間データ142である、という情報、およびデータ処理164が「分析アルゴリズムB」であるという情報は、メタデータ・生成用データ153に記録されている。
Further, the
本実施形態では、中間データのそれぞれに関して、上述のようにメタデータおよび生成用データを管理することにより、対応するデータノードにおける中間データを削除しても、その後に該当中間データを再生成することを可能とする。 In the present embodiment, by managing the metadata and the generation data for each of the intermediate data as described above, even if the intermediate data in the corresponding data node is deleted, the corresponding intermediate data is regenerated thereafter. Is possible.
例えば、中間データのデータノード(以後、中間データノード)であるデータノード121の中間データ122は、メタデータ・生成用データ123を参照することにより、その生成において入力となったのがデータノード101の分析データ102であり、当該生成に用いたアルゴリズムがデータ処理161の「変換1」であることが分かる。そのため、データノード101の分析データ102を入力とし、メタデータ・生成用データ123から得られる情報をパラメータとしてデータ処理161の「変換1」に与えることで、データノード121の中間データ122を再生成できる。
For example, the
同様に、中間データノードであるデータノード141の中間データ142は、メタデータ・生成用データ143を参照することにより、その生成において入力となったのがデータノード121の中間データ122およびデータノード131の中間データ132であり、当該生成に用いたアルゴリズムがデータ処理163の「分析アルゴリズムA」であることが分かる。そのため、データノード121の中間データ122およびデータノード131の中間データ132を入力とし、メタデータ・生成用データ143から得られる情報をパラメータとしてデータ処理163の「分析アルゴリズムA」に与えることで、データノード141の中間データ142を再生成できる。
Similarly, the
なお、上述のメタデータおよび生成用データの詳細については、図8Aおよび図8Bに基づいて後述する。また、中間データの削除処理の詳細については、図13~図17に基づいて後述するものとする。 The details of the above-mentioned metadata and generation data will be described later based on FIGS. 8A and 8B. The details of the intermediate data deletion process will be described later with reference to FIGS. 13 to 17.
---システム構成例---
図2は、本実施形態における中間データ管理システム200の構成例を示す図である。この中間データ管理システム200は、データ受信サーバ202、データ格納サーバ203、データ分析サーバ204、中間データ削除サーバ205、データ分析表示サーバ206、および、データ分析表示クライアント207、から構成される。
--- System configuration example ---
FIG. 2 is a diagram showing a configuration example of the intermediate
こうした中間データ管理システム200は、インターネットなどの適宜なネットワーク208を介してデータソース端末201と通信可能に接続されている。同様に、中間データ管理システム200は、LANなどの適宜なネットワーク209を介して、データ分析表示クライアント207と通信可能に接続されている。勿論、上述のデータソース端末201およびデータ分析表示クライアント207の少なくともいずれかが、中間データ管理システム200に含まれるとしてもよい。
Such an intermediate
なお、上述のネットワーク208は、既に述べたようにインターネットなど、通信キャリアなどによって提供される無線ネットワークまたは有線ネットワークを想定できる。このネットワーク208は、個別の会社などが所有するネットワークを、その一部に含んでもよく、複数種類のプロトコルを通過させるネットワークであってもよい。
As described above, the
また、上述のネットワーク構成のうちデータソース端末201は、所定センサ等による観測対象の観測結果たるデータを当該センサ等から収集する機能、および、こうして収集したデータをネットワーク208経由で中間データ管理システム200のデータ受信サーバ202に送信する機能、を有する装置である。このデータソース端末201は、図1の例における、分析データ102や分析データ112を中間データ管理システム200に配信する装置となる。
Further, among the above-mentioned network configurations, the data source terminal 201 has a function of collecting data that is an observation result of an observation target by a predetermined sensor or the like from the sensor or the like, and an intermediate
また、中間データ管理システム200を構成するデータ受信サーバ202は、ネットワーク208を介してデータソース端末201から送信されるデータを受信し、このデータを分析データとしてデータ格納サーバ203に格納要求するサーバ装置である。データ受信サーバ202の詳細構成については後述する。
Further, the
また、データ格納サーバ203は、中間データ管理システム200を構成する他のサーバが利用するデータを格納するサーバ装置である。当該データがファイルの場合は共有ファイルサーバ、レコードとして格納しておく場合は構造データベースサーバ、jsonなどの形式で格納しておく場合はキーバリューストアなどの非構造データベースなどのデータを格納するサーバ、が該当する。
Further, the
こうしたデータ格納サーバ203は、図1の例における分析データ、中間データ、および分析結果と、メタデータ、生成用データ、を格納するための各種記憶部を持つ。データ格納サーバ203が持つ記憶部の詳細は、図8および図9で後述する。
Such a
また、データ分析サーバ204は、データ分析表示サーバ206からデータ分析実行要求を受け付け、当該データ分析実行要求の内容に応じて、分析対象の分析データや中間データをデータ格納サーバ203から取得し、取得したデータに対して所定の分析プログラムによりデータ分析を実行するサーバ装置である。データ分析サーバ204は、こうして得た分析結果をデータ格納サーバ203に格納させると共に、データ分析表示サーバ206へ返信する機能を有するサーバである。こうしたデータ分析サーバ204は、図1の例におけるデータ処理161~164を上述の分析プログラムにより実行する。データ分析サーバ204の詳細は、図6で後述する。
Further, the
また、中間データ削除サーバ205は、例えば、内蔵するタイマーなどで所定期間毎に到来する中間データ削除タイミングを感知するか、或いは、データ分析表示クライアント207など適宜な端末等から中間データ削除要求を受け付けて、データ格納サーバ203から中間データの削除ポリシー、メタデータ、および、生成用データ、をそれぞれ取得して、当該削除ポリシーに従って削除候補の中間データを選定し、選定した削除対象の中間データの削除依頼をデータ格納サーバ203へ要求する機能を有するサーバ装置である。
この中間データ削除サーバ205は、図1の例では、中間データ122、132、14
2が削除対象か判定する処理を行うこととなる。図1の例では、中間データ122と中間データ142を削除対象と判定した例(図中で“×”が付与され、オブジェクトが破線となっている)を示している。こうした中間データ削除サーバ205の詳細は、図7で後述する。
Further, the intermediate
In the example of FIG. 1, the intermediate
A process of determining whether 2 is a deletion target will be performed. The example of FIG. 1 shows an example in which the
また、データ分析表示サーバ206は、データ分析表示クライアント207からデータ分析要求などの処理要求を受け付け、受け付けた処理要求に基づき、データ分析サーバ204およびデータ格納サーバ203に処理依頼を行って、その処理結果をデータ分析クライアント207に返信する処理を実行するサーバ装置である。このデータ分析表示サーバ206の詳細は、図5で後述する。
Further, the data
また、データ分析表示クライアント207は、分析者が使用する端末であり、データ分析処理の実行要求等を生成し、これをデータ分析表示サーバ206に送信する端末である。このデータ分析表示クライアント207は、会社や工場におけるパーソナルコンピュータやサーバ、或いは、スマートフォンやタブレット端末など、ネットワーク209の通信プロトコルに応じた通信デバイスを具備した情報処理装置である。
Further, the data
ここでは、上述のサーバらが別々の物理マシンである例を示したが、これらのサーバが同じ物理マシンの別々の仮想マシンであってもよいし、別々の物理マシンの別々の仮想マシンであってもよい。或いは、物理マシンおよび仮想マシンとして混在してもよい。 Here, an example is shown in which the above-mentioned servers are different physical machines, but these servers may be different virtual machines of the same physical machine, or they may be different virtual machines of different physical machines. You may. Alternatively, it may be mixed as a physical machine and a virtual machine.
---ハードウェア構成例---
図3は、図2で示したデータ受信サーバ202、データ格納サーバ203、データ分析サーバ204、中間データ削除サーバ205、および、データ分析表示サーバ206、における共通の物理的な構成を示す図である。
--- Hardware configuration example ---
FIG. 3 is a diagram showing a common physical configuration in the
これらのサーバは、演算装置たるCPU301、メモリ302、補助記憶装置303、および、通信インターフェイス304、を有する計算機によって構成される。
このうちCPU301は、補助記憶装置303からプログラム3031をメモリ302に読み出して実行し、必要な機能を実装する演算装置である。
These servers are composed of a computer having a
Of these, the
また、メモリ302は、不揮発性の記憶素子であるROMおよび揮発性の記憶素子であるRAMを含む。ROMは、不変のプログラム(例えば、BIOS)などを格納する。RAMは、DRAM(Dynamic Random Access Memory)のような高速かつ揮発性の記憶素子であり、CPU301が実行するプログラム3031およびプログラム3031の実行時に使用されるデータを一時的に格納する。
Further, the
また、補助記憶装置303は、例えば、磁気記憶装置(HDD)、フラッシュメモリ(SSD)等の大容量かつ不揮発性の記憶装置であり、CPU301が実行するプログラム3031およびプログラム3031の実行時に使用されるデータを格納する。すなわち、プログラム3031は、補助記憶装置3から読み出されてメモリ302にロードされ、CPU301によって実行される。
また、通信インターフェイス304は、接続するネットワークのプロトコルに従って、他の装置との通信を制御するネットワークインターフェイス装置である。
Further, the
Further, the
本実施形態におけるサーバらは、入力インターフェイス305および出力インターフェイス308を有してもよい。入力インターフェイス305は、キーボード306やマウス307などが接続され、オペレータからの入力を受けるインターフェイスである。出力インターフェイス308は、ディスプレイ装置309やプリンタなどが接続され、プログラムの実行結果をオペレータが視認可能な形式で出力するインターフェイスである。
The servers in this embodiment may have an
なお、CPU301が実行するプログラム3031は、リムーバブルメディア(CD-ROM、フラッシュメモリなど)又はネットワークを介して当該サーバに提供され、非一時的記憶媒体である不揮発性記憶装置303に格納される。このため、サーバは、リムーバブルメディアからデータを読み込むインターフェイスを有するとよい。
The
図4は、本実施形態におけるデータ受信サーバ202およびデータ格納サーバ203の機能ブロックを示す図である。データ受信サーバ202は、データ受信処理部401とデータ取得・格納・削除要求部402とを含んで構成される。一方、データ格納サーバ203は、データ取得・格納・削除受付部403と、分析データ記憶部411と、メタデータ記憶部412と、を含んで構成される。
FIG. 4 is a diagram showing functional blocks of the
このうちデータ受信サーバ202のデータ受信処理部401は、データソース端末201から送信される分析データを受信し、当該分析データについてそのデータ内容の妥当性確認を適宜なアルゴリズム(例:データ項目とそのデータ形式を予め定めたデータフォーマットに合致するものか判定するアルゴリズム。以下同様)で行い、当該データ内容が妥当であれば、受信した分析データ(中間データ、分析結果も含む。以下同様)に関するメタデータを生成し、受信した分析データおよび生成したメタデータの格納を、データ取得・格納・削除要求部402に依頼する。また、データ受信処理部401は、上述の依頼に応じてデータ取得・格納・削除要求部402から返却される格納結果を受信し、これをデータソース端末201に送信する。
Of these, the data
一方、上述のデータ取得・格納・削除要求部402は、データ受信処理部401からの要求を受け付けて、データ格納サーバ203のデータ取得・格納・削除受付部403にデータ格納を依頼する。この場合、データ取得・格納・削除要求部402は、データ格納サーバ203のデータ取得・格納・削除受付部403から返却される格納結果を、データ受信サーバ202のデータ受信処理部401に返信する。
On the other hand, the above-mentioned data acquisition / storage /
また、データ格納サーバ203のデータ取得・格納・削除受付部403は、データ受信サーバ202のデータ取得・格納・削除要求部402から分析データおよびそのメタデータの格納要求を受け付け、当該分析データを分析データ記憶部411に格納し、メタデータをメタデータ記憶部412に格納して、当該分析データおよびメタデータの格納結果をデータ受信サーバ202のデータ取得・格納・要求部402に送信する。
Further, the data acquisition / storage /
また、データ格納サーバ203の分析データ記憶部411は、データソース端末201から受信した分析データや、データ分析サーバ204による中間データや分析結果を格納する。また、データ格納サーバ203のメタデータ記憶部412は、データソース端末201から受信した分析データや、データ分析サーバ204による中間データや分析結果、の属性情報であるメタデータを格納する。メタデータ記憶部412の詳細については、図9で後述する。
Further, the analysis
データ受信サーバ202が、データソース端末201から送信された分析データを受信して、該当分析データおよびメタデータをデータ格納サーバ203に格納する動作シーケンスの詳細については、図10で後述する。
図5は、本実施形態における分析データ表示サーバ206およびデータ格納サーバ203の機能ブロックを示す図である。
The details of the operation sequence in which the
FIG. 5 is a diagram showing functional blocks of the analysis
本実施形態の分析データ表示サーバ206は、表示リクエスト受付部501と、表示情報生成部502と、データ分析実行要求部503と、データ取得・格納・削除要求部504と、を含んで構成される。
The analysis
一方、データ格納サーバ203は、図4で既に示した分析データ記憶部411およびメタデータ記憶部412の他、生成用データ記憶部511と、分析プログラム情報記憶部512と、を更に含むものとする(図4の構成と記憶部の点で異なるが、ここでの説明に必要な構成のみピックアップして示している)。
On the other hand, the
上述の分析データ表示サーバ206の表示リクエスト受付部501は、データ分析表示クライアント207から表示情報の取得要求を受け付け、ここで受け付けた取得要求の内容の妥当性を確認し、当該内容が妥当であれば、当該取得要求の内容に応じて表示情報生成部502に表示情報の生成を依頼する。また、表示リクエスト受付部501は、表示情報生成部502から返信された表示情報をデータ分析表示クライアント207へ送信する。
The display
また、分析データ表示サーバ206の表示情報生成部502は、表示リクエスト受付部501からの表示情報の取得要求を受け付け、この要求内容に応じてデータ分析実行要求部503へデータ分析の実行要求を、またはデータ取得・格納・削除要求部504へデータ取得要求を、それぞれ通知し、データ分析実行要求部503とデータ取得・格納・削除要求部504の返信結果から表示情報を生成し、生成した表示情報を表示リクエスト受付部501へ返信する。
Further, the display
また、分析データ表示サーバ206のデータ分析実行要求部503は、表示情報生成部502からデータ分析の実行要求を受け付け、当該実行要求の内容に応じて、データ分析サーバ204のデータ分析実行受付部505へデータ分析実行要求を送信する。また、分析データ表示サーバ206のデータ分析実行要求部503は、データ分析サーバ204のデータ分析実行受付部505から送信される実行結果を表示情報生成部502に返信する。
Further, the data analysis
また、分析データ表示サーバ206のデータ取得・格納・削除要求部504は、表示情報生成部502からデータ取得要求を受け付け、当該要求内容に応じてデータ格納サーバ203のデータ取得・格納・削除受付部403にデータ取得要求を送信して、このデータ取得・格納・削除受付部403から取得したデータを表示情報生成部502に返信する。
Further, the data acquisition / storage /
また、データ格納サーバ203の生成用データ記憶部511は、データ分析サーバ204の分析プログラム602(後述)が中間データや分析結果を生成する際に必要とする入力情報を格納している。こうした分析プログラム602が中間データや分析結果を生成する際に必要とする入力情報とは、分析処理の対象となる分析データや中間データのリスト、データ生成に使用した分析プログラムの種別、およびデータ生成に際し分析プログラムに適用したパラメータなどが想定可能である。なお、生成用データ記憶部511の詳細については、図8で後述する。
Further, the generation
また、データ格納サーバ203の分析プログラム情報記憶部512は、データ分析サーバ204の分析プログラム602の種別や分析プログラム602に設定が必要なパラメータなどの情報を格納する。
Further, the analysis program
なお、分析データ表示サーバ206において、データ分析表示クライアント207から表示情報の取得要求を受け付け、その要求内容に応じて必要とするデータをデータ格納サーバ203より取得して、取得したデータを表示情報に生成し、表示情報をデータ分析表示クライアント207へ送信する動作シーケンスの詳細については、図11で後述する。
The analysis
また、データ分析サーバ204において、データ分析表示クライアント207からの分
析実行要求を分析データ表示サーバ206を介して受け付け、当該要求内容に応じて必要とするデータをデータ格納サーバ203より取得して、取得したデータを入力として分析プログラム602を実行し、当該分析の実行結果をデータ格納サーバ203に格納し、当該実行結果に関する表示情報を生成し、生成した表示情報をデータ分析表示クライアント207へ送信する動作シーケンスの詳細については、図12で後述する。
Further, the
図6は、本実施形態におけるデータ分析サーバ204の機能ブロックを示す図である。このデータ分析サーバ204は、データ分析実行受付部505と、分析実行管理部601と、分析プログラム602と、データ取得・格納・削除要求部602と、を含んで構成される。
FIG. 6 is a diagram showing a functional block of the
このうちデータ分析実行受付部505は、データ分析表示サーバ206のデータ分析実行要求部503からデータ分析の実行要求を受信し、この実行要求の内容について妥当性確認を行い、当該実行要求の内容が妥当な場合に、分析実行管理部601にデータ分析実行要求を送信する。また、データ分析実行受付部505は、分析実行管理部601から返信されるデータ分析の実行結果を、データ分析表示サーバ206のデータ分析実行要求部503に返信する。
Of these, the data analysis
また、データ分析サーバ204の分析実行管理部601は、上述のデータ分析実行受付部505から送信されるデータ分析の実行要求を受け付け、当該実行要求の内容に基づき分析プログラム602を実行する。
Further, the analysis
また、分析実行管理部601は、分析プログラム602から返信される分析実行結果たる中間データないし分析結果に関して、その特性を示すメタデータの作成と、および分析実行時の分析プログラム602への入力情報である生成用データの作成とを実行する。
Further, the analysis
また、分析実行管理部601は、分析プログラム602から出力された中間データないし分析結果と、上述のように作成したメタデータおよび生成用データとを、格納要求と共にデータ取得・格納・削除要求部602に送信し、また、中間データないし分析結果をデータ分析実行受付部505に返信する。
Further, the analysis
また、データ分析サーバ204の分析プログラム602は、分析実行管理部601から送信されるデータ分析の実行要求を受け付け、当該実行要求の入力情報に基づきデータ分析を実行し、その実行結果である中間データないし分析結果を、分析実行管理部601に返信する。
Further, the
上述のとおり、一般的にデータ分析システムでは複数のデータ処理を繰り返すことにより分析を行う。そのため、分析プログラム602は複数種類が存在する。図1の例では、データ処理163の「変換1」、データ処理162の「変換2」、データ処理163の「分析アルゴリズムA」、およびデータ処理164の「分析アルゴリズムB」がそれぞれ分析プログラム602の種別に相当する。
As described above, in a data analysis system, analysis is generally performed by repeating a plurality of data processes. Therefore, there are a plurality of types of
また、データ分析サーバ204のデータ取得・格納・削除要求部603は、分析実行管理部601からデータ格納要求を受け付け、データ格納サーバ203のデータ取得・格納・削除受付部403にデータ格納依頼を送信する。また、データ取得・格納・削除要求部603は、データ格納サーバ203のデータ取得・格納・削除受付部403から返却される格納要求結果を分析実行管理部601に返信する。
Further, the data acquisition / storage /
図7は、本実施形態における中間データ削除サーバ205およびデータ格納サーバ203の機能ブロックを示す図である。本実施形態の中間データ削除サーバ205は、中間デ
ータ削除定期要求部701と、中間データ削除管理部702と、データ取得・格納・削除要求部703と、を含んで構成される。一方、データ格納サーバ203は、既に上述した構成の他に、削除ポリシー記憶部711を含むものとする。
FIG. 7 is a diagram showing functional blocks of the intermediate
このうち中間データ削除サーバ205の中間データ削除定期要求部701は、サーバ内のタイマーなどにより中間データの削除時期到来を検知し(或いは、ユーザからの指示を受けて)、中間データ削除管理部702に中間データの削除要求を行う。
Of these, the intermediate data deletion
また、中間データ削除サーバ205の中間データ削除管理部702は、中間データ削除定期要求部701から中間データ削除要求を受け付け、データ取得・格納・削除要求部703に対し、削除ポリシー、メタデータ、および、生成用データ、の取得要求を行って、中間データの削除ポリシー、メタデータ、および、生成用データを取得し、これらに基づいて削除対象の中間データを選定し、当該選定した中間データの削除要求および該当メタデータの更新要求を、データ取得・格納・削除要求部703に送信する。こうした中間データ削除管理部702における処理フローの詳細については、図14~17にて後述する。
Further, the intermediate data
また、中間データ削除サーバ205のデータ取得・格納・削除要求部703は、上述の中間データ削除管理部702から、データの取得、格納、および削除の各要求のいずれかを適宜に受け付け、その要求の内容に応じてデータ格納サーバ203のデータ取得・格納・削除受付部403に該当データの取得、格納、および、削除、のいずれかの依頼を実行して、データ取得・格納・削除受付部403から返却される、取得要求結果、格納要求結果、および、削除要求結果を、中間データ削除管理部702に返信する。
Further, the data acquisition / storage /
一方、データ格納サーバ203の削除ポリシー記憶部711は、削除対象の中間データを選定する際の規定を定義した情報である削除ポリシーを格納する。この削除ポリシー記憶部711の詳細については、図9で後述する。
On the other hand, the deletion
なお、中間データ削除サーバ205の中間データ削除管理部702において、中間データ削除定期要求部701から中間データ削除要求を受けて、データ格納サーバ203から削除ポリシーを取得し、当該データ削除ポリシーに基づき削除対象となる中間データを選定してデータ格納サーバ203に対して削除要求を行い、該当中間データのメタデータをデータ格納サーバ203にて更新させる動作シーケンスの詳細については、図13で後述する。
The intermediate data
---データ構成例---
続いて、本実施形態の中間データ管理システム200が用いるテーブル類について説明する。図8Aは、本実施形態のデータ格納サーバ203に保持されているメタデータ記憶部412のテーブル構成例を示す図である。
本実施形態のメタデータ記憶部412には、分析データ、中間データ、および、分析結果、のそれぞれの特性を示すデータすなわちメタデータが記憶される。
--- Data structure example ---
Subsequently, the tables used by the intermediate
The
図8Aに例示するメタデータ記憶部412のテーブルは、データノードを一意に特定するためのデータノードIDカラム1601と、対象データ(分析データ、中間データ、および、分析結果のいずれか。以下同様)のデータサイズを格納するデータサイズカラム1602と、対象データが格納されている場所を格納するデータ格納パスカラム1603と、分析者から対象データにアクセスした最終時刻を格納する最終アクセス時刻カラム1604と、対象データが生成された時刻を格納するデータ生成時刻カラム1605と、対象データをデータ処理にて生成するのに要した時間を格納するデータ生成時間カラム1606と、対象データを逆変換することでデータ処理前の対象データを再生成するのにかかる
推定時間を格納するデータ逆変換生成推定時間カラム1607と、該当データノードと関連する生成用データの外部キーを格納する生成用データIDカラム1608と、を含み構成される。
また図8Bは、本実施形態のデータ格納サーバ203に保持されている生成用データ記憶部511のテーブル構成例を示す図である。
The table of the
Further, FIG. 8B is a diagram showing a table configuration example of the generation
本実施形態の生成用データ記憶部511には、分析処理にて生成された対象データがどのような入力とデータ処理にて生成されたかを示すデータ、すなわち生成用データが記憶される。図8Bに例示する生成用データ記憶部511のテーブルは、当該生成用データを一意に特定するための生成用データIDカラム1609と、当該対象データの生成に際して入力となった元データのデータノードIDを格納する元データリストカラム1610と、当該対象データを生成するために使用したデータ処理の種別を格納する処理アルゴリズムカラム1611と、当該対象データを生成する際にデータ処理のパラメータとして使用した値を格納する順方向データ生成パラメータカラム1612と、当該対象データから逆変換データ処理で元データを生成する際に必要とされるパラメータの値を格納する逆方向データ生成パラメータカラム1613と、を含み構成される。
また図9は、本実施形態のデータ格納サーバ203に保持されている削除ポリシー記憶部711のテーブル構成例を示す図である。
The generation
Further, FIG. 9 is a diagram showing an example of a table configuration of the deletion
図9に例示する削除ポリシー記憶部711のテーブルは、中間データの削除ポリシーを一意に特定するためのポリシーIDカラム1701と、削除対象とする中間データのデータサイズの最小値を表すデータサイズ下限カラム1702と、削除対象とする中間データの分析者によるアクセスアイドル時間の最小値を表す最終アクセス時間下限カラム1703と、削除対象とする中間データの生成時刻からの経過時間最小値を表す生成経過時間下限カラム1704と、削除対象とする中間データの再生時間の最大値を表す再生成時間上限カラム1705と、を含み構成される。
The table of the deletion
----中間データ管理方法の手順例---
以下、本実施形態における中間データ管理方法の実際手順について図に基づき説明する。以下で説明する中間データ管理方法に対応する各種動作は、中間データ管理システム200を構成する各サーバらがメモリ等に読み出して実行するプログラムによって実現される。そして、このプログラムは、以下に説明される各種の動作を行うためのコードから構成されている。
---- Example of procedure for intermediate data management method ----
Hereinafter, the actual procedure of the intermediate data management method in the present embodiment will be described with reference to the drawings. Various operations corresponding to the intermediate data management method described below are realized by a program read into a memory or the like by each server constituting the intermediate
図10は、本実施形態における中間データ管理方法のシーケンス例1を示す図であり、具体的には、データソース端末201が分析データをデータ受信サーバ202に送信し、データ受信サーバ202が当該分析データに関するメタデータを生成し、データ格納サーバ203が当該分析データおよび上述のメタデータを格納する、一連の動作シーケンスの例を示す図である。
この場合まず、データソース端末201が、データ受信サーバ202のデータ受信処理部401に対し、分析対象となる分析データを送信する(S801)。
FIG. 10 is a diagram showing a sequence example 1 of the intermediate data management method in the present embodiment. Specifically, the data source terminal 201 transmits analysis data to the
In this case, first, the data source terminal 201 transmits the analysis data to be analyzed to the data
ここでデータソース端末201が送信する分析データは、データ分析の起点となるデータである。この分析データは、図1における分析データ102および分析データ112に相当する。
Here, the analysis data transmitted by the data source terminal 201 is data that is the starting point of data analysis. This analysis data corresponds to the
一方、データ受信サーバ202のデータ受信処理部401は、データソース端末201が送信してきた分析データを受信し、その内容が妥当なものであるか所定の確認を行い、当該確認の結果、内容が妥当であると判定した場合、当該分析データの特性を示すメタデータを生成する。このメタデータの生成は、例えば、分析データのプロパティ情報からデ
ータサイズを読み取る処理など、メタデータ記憶部412のテーブル項目ごとに予め規定したアルゴリズムによって実行されるものとする(その手法について限定はしない)。
On the other hand, the data
例えば、分析データ102を受信した際にデータ受信サーバ202が生成するメタデータは、図1におけるデータノード101におけるメタデータ103に相当する。上述の図8Aのメタデータ記憶部412のテーブルにおけるデータノードIDの値が、データノード101のレコードに相当する。
For example, the metadata generated by the
同様に、分析データ102を受信した際にデータ受信サーバ202が生成するメタデータは、図1におけるデータノード111におけるメタデータ113に相当する。上述の図8Aのメタデータ記憶部412のテーブルにおけるデータノードIDの値が、データノード111のレコードに相当する。
Similarly, the metadata generated by the
続いて、データ受信サーバ202のデータ取得・格納・削除要求部402が、データ格納サーバ203のデータ取得・格納・削除受付部403に対し、情報格納要求を送信する(S802)。
Subsequently, the data acquisition / storage /
このデータ受信サーバ202のデータ取得・格納・削除要求部402が送信する情報格納要求には、データソース端末201から受信した分析データと、データ受信サーバ202のデータ受信処理部401が生成した該当分析データのメタデータと、を含む。
The information storage request transmitted by the data acquisition / storage /
一方、データ格納サーバ203のデータ取得・格納・削除受付部403は、上述のデータ受信サーバ202のデータ取得・格納・削除要求部402が送信してきた情報格納要求に基づき、当該分析データを分析データ記憶部411に格納する(S803)。
On the other hand, the data acquisition / storage /
また、データ格納サーバ203のデータ取得・格納・削除受付部403は、上述のデータ受信サーバ202のデータ取得・格納・削除要求部402が送信してきた情報格納要求に基づき、当該メタデータをメタデータ記憶部412に格納する(S804)。
Further, the data acquisition / storage /
他方、データ格納サーバ203のデータ取得・格納・削除受付部403は、データ受信サーバ202のデータ取得・格納・削除要求部402に対し、分析データおよびメタデータの格納結果を送信する(S805)。
On the other hand, the data acquisition / storage /
また、データ受信サーバ202のデータ受信処理部401は、上述の分析データおよびメタデータの格納結果の受信を受けて、データソース端末201に対し、当該分析データの受信結果を送信し(S806)、処理を終了する。
Further, the data
図11は、本実施形態のデータ分析表示クライアント207がデータ分析表示サーバ206に対して表示情報取得要求を送信し、データ分析サーバ206がその要求内容に応じて必要とするデータをデータ格納サーバ203より取得し、また、当該取得したデータを表示情報に生成し、さらに、当該表示情報をデータ分析表示クライアント207へ送信する動作シーケンスの例である。
この場合、データ分析表示クライアント207が、データ分析表示サーバ206の表示リクエスト受付部501に対し、表示情報要求を送信する(S901)。
In FIG. 11, the data
In this case, the data
ここでデータ分析表示クライアント207が送信する表示情報要求には、表示情報の種別と、表示情報の入力パラメータと、を含む。また、表示情報の種別には、分析者にて提供するユーザインタフェースとして、データ情報表示画面、データ分析結果表示画面、分析プログラム選択画面、データ分析実行画面などを想定できる。
Here, the display information request transmitted by the data
続いて、データ分析表示サーバ206のデータ取得・格納・削除要求部504が、上述のデータ分析表示クライアント207から送信された表示情報要求に基づき、データ格納サーバ203のデータ取得・格納・削除受付部403に対し、分析データ、メタデータ、および、生成用データ、の情報取得要求を送信する(S902)。
Subsequently, the data acquisition / storage /
一方、データ格納サーバ203のデータ取得・格納・削除受付部403は、上述の情報取得要求にしたがって、分析データ記憶部411から分析データを取得する(S903)。
On the other hand, the data acquisition / storage /
また、データ格納サーバ203のデータ取得・格納・削除受付部403は、上述の情報取得要求にしたがって、メタデータ記憶部412からメタデータを取得する(S904)。
Further, the data acquisition / storage /
また、データ格納サーバ203のデータ取得・格納・削除受付部403は、上述の情報取得要求にしたがって、生成用データ記憶部511から生成用データを取得する(S905)。
Further, the data acquisition / storage /
続いて、データ格納サーバ203のデータ取得・格納・削除受付部403は、データ分析表示サーバ206のデータ取得・格納・削除要求部504に対し、分析データ、メタデータ、および、生成用データ、を送信する(S906)。
Subsequently, the data acquisition / storage /
一方、データ分析表示サーバ206のデータ取得・格納・削除要求部504は、データ分析表示クライアント207から送信された表示情報要求に基づき、データ格納サーバ203のデータ取得・格納・削除受付部403に対し、分析プログラム情報の情報取得要求を送信する(S907)。
また、データ格納サーバ203のデータ取得・格納・削除受付部403は、分析プログラム情報記憶部512から分析プログラム情報を取得する(S908)。
On the other hand, the data acquisition / storage /
Further, the data acquisition / storage /
続いて、データ格納サーバ203のデータ取得・格納・削除受付部403は、データ分析表示サーバ206のデータ取得・格納・削除要求部504に対し、分析プログラム情報を送信する(S909)。
Subsequently, the data acquisition / storage /
また、データ分析表示サーバ206のデータ取得・格納・削除要求部504は、データ格納サーバ203のデータ取得・格納・削除受付部403に対し、情報更新要求を送信する(S910)。
Further, the data acquisition / storage /
上述の、データ分析表示サーバ206のデータ取得・格納・削除要求部504が送信する情報更新要求は、表示対象となるデータノードにおけるメタデータにおける最終アクセス時刻カラム1604を現在時刻で更新する要求を含む。例えば、分析者が図1の中間データ122の表示要求を時刻「2016/10/11 10:03」に実行した場合、図8で例示したメタデータ記憶部412のテーブルのデータノードIDカラム1601の値が「データノード121」であるレコードにおいて、最終アクセス時刻カラム1604の値を「20161001-1003」として更新要求を行う。
The above-mentioned information update request transmitted by the data acquisition / storage /
続いて、データ格納サーバ203のデータ取得・格納・削除受付部403は、データ分析表示サーバ206のデータ取得・格納・削除要求部504が送信する情報更新要求に基づき、メタデータ記憶部412のメタデータを更新する(S911)。
Subsequently, the data acquisition / storage /
また、データ格納サーバ203のデータ取得・格納・削除受付部403は、データ分析表示サーバ206のデータ取得・格納・削除要求部504に対し、メタデータの更新結果
を送信する(S912)。
Further, the data acquisition / storage /
続いて、データ分析表示サーバ206の表示情報生成部502は、データ分析表示クライアント207から送信された表示情報要求と、データ格納サーバ203のデータ取得・格納・削除受付部403から取得した各種情報とに基づき、表示情報を生成する(S913)。
Subsequently, the display
また、データ分析表示サーバ206の表示リクエスト受付部501は、データ分析表示サーバ206の表示情報生成部502が生成した表示情報を、データ分析表示クライアント207に送信し(S914)、処理を終了する。
Further, the display
図12は、本実施形態のデータ分析表示クライアント207が分析実行要求をデータ分析サーバ204に送信し、当該データ分析サーバ204が当該要求内容に応じて必要とするデータをデータ格納サーバ203より取得し、データ分析サーバ204が当該取得したデータを入力として分析プログラム602を実行し、その分析実行結果をデータ格納サーバ203が格納し、データ分析表示サーバ206が当該分析実行結果に関する表示情報を生成し、データ分析表示サーバ206が当該表示情報をデータ分析表示クライアント207へ送信する、一連の動作シーケンスの例を示す図である。なお、削除した中間データを再生成する際にも、同じシーケンスにて動作するものとする。
In FIG. 12, the data
この場合、データ分析表示クライアント207は、データ分析表示サーバ206の表示リクエスト受付部501に対し、データ分析実行要求を送信する(S1001)。
In this case, the data
ここでデータ分析表示クライアント207が送信するデータ分析実行要求は、分析者がデータ分析表示クライアント207のユーザインタフェースを介して入力したパラメータなどを含むものとする。
Here, it is assumed that the data analysis execution request transmitted by the data
一方、データ分析表示サーバ206の表示リクエスト受付部501は、上述のデータ分析表示クライアント207から送信されたデータ分析実行要求を受信し、この内容の妥当性を確認する。その内容が妥当であった場合、データ分析表示サーバ206のデータ分析実行要求部503が、データ分析実行要求をデータ分析サーバ204のデータ分析実行受付部505へ送信する(S1002)。
On the other hand, the display
一方、データ分析サーバ204のデータ取得・格納・削除要求部602は、上述のデータ分析実行要求を受けて、データ格納サーバ203のデータ取得・格納・削除受付部403に対し、分析データ、メタデータ、および、生成用データ、の情報取得要求を送信する(S1003)。
この場合、データ格納サーバ203のデータ取得・格納・削除受付部403は、分析データ記憶部411から分析データを取得する(S1004)。
また、データ格納サーバ203のデータ取得・格納・削除受付部403は、メタデータ記憶部412からメタデータを取得する(S1005)。
また、データ格納サーバ203のデータ取得・格納・削除受付部403は、生成用データ記憶部511から生成用データを取得する(S1006)。
On the other hand, the data acquisition / storage /
In this case, the data acquisition / storage /
Further, the data acquisition / storage /
Further, the data acquisition / storage /
続いて、データ格納サーバ203のデータ取得・格納・削除受付部403は、データ分析サーバ204のデータ取得・格納・削除要求部602に対し、上述のS1004~S1006で得た、分析データ、メタデータ、および生成用データ、を送信する(S1007)。
Subsequently, the data acquisition / storage /
なお、生成用データが存在しない場合、データ分析サーバ204の分析実行管理部60
1が、データ分析表示サーバ206のデータ分析実行要求部503から送信されたデータ分析実行要求の内容に基づき、生成用データを生成する。
If the data for generation does not exist, the analysis
1 generates data for generation based on the content of the data analysis execution request transmitted from the data analysis
例えば、図1の中間データ122の場合、入力となったのがデータノード101の分析データ111であり、データ処理161は「変換1」であり、データ処理の入力パラメータとして「P_11=8,P12=2」という値を用いたとする。その場合、上述の図8Bの生成用データ記憶部511のテーブルにおける生成用データIDカラム1609の値が「生成用データ01」で、元データリストカラム1610の値が「データノード101」で、処理アルゴリズムカラム1611の値が「変換1」で、順方向データ生成パラメータカラム1612の値が「P_11=8,P12=2」となるレコードを生成する。
For example, in the case of the
続いて、データ分析サーバ204の分析プログラム603は、データ分析表示クライアント207から送信されたデータ分析実行要求と、データ格納サーバ203のデータ取得・格納・削除受付部403から取得した分析データ、メタデータ、および生成用データとに基づき、データ分析を実行する(S1008)。この処理により、中間データを生成することとなる。
Subsequently, the
また、データ分析サーバ204のデータ取得・格納・削除要求部602は、データ格納サーバ203のデータ取得・格納・削除受付部403に対し、情報格納要求および情報更新要求を送信する(S1009)。
Further, the data acquisition / storage /
上述の、データ分析サーバ204のデータ取得・格納・削除要求部602が送信する情報格納要求には、データ分析実行処理(S1008)の実行結果である中間データないし分析結果と、データ分析サーバ204の分析実行管理部601が生成した該当中間データないし分析結果の生成用データとを含む。
The above-mentioned information storage request transmitted by the data acquisition / storage /
また、データ分析サーバ204のデータ取得・格納・削除要求部602が送信する情報更新要求には、データ分析サーバ204の分析実行管理部601が生成したメタデータを含む。例えば、図1の中間データ122がデータ生成時間「33[min]」を要して時刻「2016/9/12 03:42」に生成され、そのデータサイズが「20[Gbyte]」であった場合は、上述の図8のメタデータ記憶部412におけるテーブルのデータノードIDカラム1601の値が「データノード121」であるレコードにおいて、データサイズカラム1602の値を「20」とし、データ生成時刻カラム1605の値を「20160912-0342」とし、データ生成時間カラム1606の値を「33」として更新要求を行う。
Further, the information update request transmitted by the data acquisition / storage /
続いて、データ格納サーバ203のデータ取得・格納・削除受付部402は、データ分析サーバ204のデータ取得・格納・削除要求部602が送信してきた情報格納要求に基づき、中間データないし分析結果を分析データ記憶部411に格納する(S1010)。
Subsequently, the data acquisition / storage /
また、データ格納サーバ203のデータ取得・格納・削除受付部403は、データ分析サーバ204のデータ取得・格納・削除要求部602が送信してきた情報更新要求に基づき、メタデータ記憶部412のメタデータを更新する(S1011)。
Further, the data acquisition / storage /
また、データ格納サーバ203のデータ取得・格納・削除受付部403は、データ分析サーバ204のデータ取得・格納・削除要求部602に対し、中間データないし分析結果およびその生成用データの格納結果と、当該メタデータの更新結果を送信する(S1013)。
なお、分析対象が複数ある場合、上述の処理S1003から処理S1013までの処理が、対象データの数だけ繰り返し実行されることとなる。
Further, the data acquisition / storage /
When there are a plurality of analysis targets, the above-mentioned processes from process S1003 to process S1013 are repeatedly executed by the number of target data.
続いて、データ分析サーバ204のデータ分析実行受付部505は、データ分析表示サーバ206のデータ分析実行要求部503に対し、データ分析結果を送信する(S1014)。
Subsequently, the data analysis
また、データ分析表示サーバ206の表示情報生成部502は、データ分析表示クライアント207から送信されてきたデータ分析実行要求と、データ分析サーバ204のデータ分析実行受付部505から送信されてきたデータ分析結果とに基づき、表示情報を生成する(S1015)。
Further, the display
また、データ分析表示サーバ206の表示情報生成部502は、上述の生成した表示情報をデータ分析表示クライアント207に送信し(S1016)、処理を終了する。
Further, the display
図13は、本実施形態の中間データ削除サーバ205がデータ格納サーバ203から中間データの削除ポリシーを取得し、中間データ削除サーバ205が当該削除ポリシーに基づいて削除対象となる中間データを選定し、データ格納サーバ203が削除対象に選定された中間データを削除し、データ格納サーバ203が該当中間データのメタデータを更新する、一連の動作シーケンスの例を示す図である。
In FIG. 13, the intermediate
この場合、中間データ削除サーバ205のデータ取得・格納・削除要求部703は、データ格納サーバ203のデータ取得・格納・削除受付部403に対し、中間データの削除ポリシーの情報取得要求を送信する(S1101)。
また、データ格納サーバ203のデータ取得・格納・削除受付部403は、削除ポリシー記憶部711から削除ポリシーを取得する(S1102)。
In this case, the data acquisition / storage /
Further, the data acquisition / storage /
続いて、データ格納サーバ203のデータ取得・格納・削除受付部403は、中間データ削除サーバ205のデータ取得・格納・削除要求部703に対し、S1102で得た削除ポリシーを送信する(S1103)。
Subsequently, the data acquisition / storage /
次に、中間データ削除サーバ205のデータ取得・格納・削除要求部703は、データ格納サーバ203のデータ取得・格納・削除受付部403に対し、メタデータおよび生成用データの情報取得要求を送信する(S1104)。
Next, the data acquisition / storage /
一方、データ格納サーバ203のデータ取得・格納・削除受付部403は、上述の情報取得要求を受けて、メタデータ記憶部412からメタデータを取得する(S1105)。
また、データ格納サーバ203のデータ取得・格納・削除受付部403は、生成用データ記憶部511から生成用データを取得する(S1106)。
On the other hand, the data acquisition / storage /
Further, the data acquisition / storage /
続いて、データ格納サーバ203のデータ取得・格納・削除受付部403は、中間データ削除サーバ205のデータ取得・格納・削除要求部703に対し、S1105およびS1106でそれぞれ得た、メタデータおよび生成用データを送信する(S1107)。
Subsequently, the data acquisition / storage /
一方、中間データ削除サーバ205の中間データ削除管理部702は、上述の取得情報処理(S1103)を介して得た削除ポリシーと、取得情報処理(S1107)を介して得たメタデータおよび生成用データとに基づき、削除対象の中間データを選定する(S1108)。また、この処理に際し、中間データ削除サーバ205のデータ取得・格納・削除要求部703は、上述で選定した中間データについて、その削除要求およびメタデータの更新要求をデータ格納サーバ203のデータ取得・格納・削除受付部403に送信する。
On the other hand, the intermediate data
上述のS1108にて削除対象の中間データを探索する処理は、分析データが含まれるノードすなわち起点データノード(図1の場合、データノード101およびデータノード111)のそれぞれについて行うものとする。また、上述のS1108において削除対象の中間データを選定する際、起点データノードから終端データノード(分析結果を含むノードであり、図1の場合、データノード151)に至る方向に探索を行う。このS1108の処理内容の詳細については、図14および図15で後述する。
The process of searching for the intermediate data to be deleted in S1108 is performed for each of the nodes including the analysis data, that is, the starting data node (
続いて、中間データ削除サーバ205のデータ取得・格納・削除要求部703は、データ格納サーバ203のデータ取得・格納・削除受付部403に対し、S1108で選定した中間データの削除要求およびメタデータの更新要求を送信する(S1109)。
Subsequently, the data acquisition / storage /
上述の、中間データ削除サーバ205のデータ取得・格納・削除要求部703が送信する削除要求では、処理(S1108)にて選定された中間データを削除対象として指定する。また、中間データ削除サーバ205のデータ取得・格納・削除要求部703が送信する更新要求では、処理(S1108)にて選定された中間データのメタデータを更新対象として指定する。
In the above-mentioned deletion request transmitted by the data acquisition / storage /
例えば、図1の中間データ122が削除対象として選定された場合、上述の図8のメタデータ記憶部412におけるテーブルのデータノードIDカラム1601の値が「データノード121」であるレコードにおいて、データ格納パスカラム1603の値を「-」として更新要求を行う。なお、メタデータ記憶部412におけるテーブルのデータ格納パスカラム1603において、その値が「-」というのは、該当データが削除されていることを示す。
For example, when the
続いて、データ格納サーバ203のデータ取得・格納・削除受付部403は、中間データ削除サーバ205のデータ取得・格納・削除要求部703から送信された削除要求に基づき、対応する中間データを分析データ記憶部411から削除する(S1110)。
Subsequently, the data acquisition / storage /
また、データ格納サーバ203のデータ取得・格納・削除受付部403は、中間データ削除サーバ205のデータ取得・格納・削除要求部703から送信された更新要求に基づき、メタデータ記憶部412のメタデータを更新する(S1111)。
Further, the data acquisition / storage /
続いて、データ格納サーバ203のデータ取得・格納・削除受付部403は、中間データ削除サーバ205のデータ取得・格納・削除要求部703に対し、上述の中間データの削除結果およびメタデータの更新結果を送信する(S1112)。
Subsequently, the data acquisition / storage /
一方、中間データ削除サーバ205の中間データ削除管理部702は、上述の取得情報処理(S1103)を介して得た中間データ削除ポリシー情報と、取得情報処理(S1107)を介して得たメタデータおよび生成用データとに基づき、削除対象の中間データを選定する(S1113)。また、このS1113において、中間データ削除サーバ205のデータ取得・格納・削除要求部703は、S1113で選定した中間データについて、その削除要求およびメタデータの更新要求をデータ格納サーバ203のデータ取得・格納・削除受付部403に送信する。
On the other hand, the intermediate data
なお、上述のS1113での削除対象を探索する処理は、全ての終端データノード(図1の例の場合、データノード151)に対して行うものとする。また、S1113において削除対象の中間データを選定する際、S1108の場合とは異なり、終端データノードから起点データノードに至る方向で探索を行う。こうしたS1113の処理内容の詳細については、図16および図17で後述する。
The process of searching for the deletion target in S1113 is performed on all the terminal data nodes (
続いて、中間データ削除サーバ205のデータ取得・格納・削除要求部703は、データ格納サーバ203のデータ取得・格納・削除受付部403に対し、該当中間データの削除要求およびメタデータの更新要求を送信する(S1114)。
Subsequently, the data acquisition / storage /
なお、上述の中間データ削除サーバ205のデータ取得・格納・削除要求部703が送信する削除要求では、処理(S1113)にて選定された中間データを削除対象として指定する。同様に、中間データ削除サーバ205のデータ取得・格納・削除要求部703が送信する更新要求では、処理(S1113)にて選定された中間データのメタデータを更新対象として指定する。
In the deletion request transmitted by the data acquisition / storage /
続いて、データ格納サーバ203のデータ取得・格納・削除受付部403は、中間データ削除サーバ205のデータ取得・格納・削除要求部703から送信されてきた上述の削除要求に基づき、対応する中間データを分析データ記憶部411から削除する(S1115)。
Subsequently, the data acquisition / storage /
また、データ格納サーバ203のデータ取得・格納・削除受付部403は、中間データ削除サーバ205のデータ取得・格納・削除要求部703から送信されてきた上述の更新要求に基づき、対応する中間データのメタデータに関してメタデータ記憶部412にて更新する(S1116)。
Further, the data acquisition / storage /
続いて、データ格納サーバ203のデータ取得・格納・削除受付部403は、中間データ削除サーバ205のデータ取得・格納・削除要求部703に対し、上述の中間データの削除結果およびメタデータの更新結果を送信し(S1117)、処理を終了する。
Subsequently, the data acquisition / storage /
図14は、本実施形態における中間データ削除サーバ205の中間データ削除管理部702が、指定された起点データノードを始点として探索を行って削除対象の中間データを選定し、中間データ削除サーバ205のデータ取得・格納・削除要求部705が、上述のように選定した中間データの削除要求とそのメタデータの更新要求とをデータ格納サーバ203に送信する、一連の動作フローの例である。
In FIG. 14, the intermediate data
なお、図14で示すフローは、中間データ削除サーバ205の中間データ削除管理部702が処理主体となり実行する処理である。ここでは、中間データの削除対象探索において始点となる起点データノードを「n」とする。
この場合、中間データ削除サーバ205の中間データ削除管理部702は、メモリ302等に実装したループカウンタiに「1」を代入する(S1201)。
The flow shown in FIG. 14 is a process executed by the intermediate data
In this case, the intermediate data
なお、中間データ削除サーバ205の中間データ削除管理部702は、後述する処理(S1204)の条件が成立するまで、処理(S1203)から処理(S1212)の実行を繰り返し行うものとする(S1202)。
The intermediate data
続いて、中間データ削除サーバ205の中間データ削除管理部702は、起点データノード「n」から見てループカウンタi番目の階層のデータノードのリストを取得する情報取得要求を、データ格納サーバ203のデータ取得・格納・削除受付部403に送信し、該当データノードのリストを取得する(S1203)。ここでは、取得されたデータノードのリストを「l」とする。
Subsequently, the intermediate data
例えば、図1において、起点データノード「n」が「データノード101」でループカウンタiが「1」の場合、取得されるデータノードのリストは「データノード101」からみて1階層目のデータノードである「データノード121」となる。同様に、起点データノード「n」が「データノード101」でループカウンタiが「2」の場合、取得され
るデータノードのリストは「データノード101」からみて2階層目のデータノードである「データノード141」となる。起点データノード「n」が「データノード101でループカウンタiが「3」の場合、取得されるデータノードのリストは「データノード101」からみて3階層目のデータノードである「データノード151」となる。起点データノード「n」が「データノード101」でループカウンタiが「4」の場合、取得されるデータノードのリストは「データノード101」からみて4階層目のデータノードであるが該当するデータノードないのでデータリストは空となる。
次に、中間データ削除サーバ205の中間データ削除管理部702は、データノードリスト「l」が空であるか判定を行う(S1204)。
For example, in FIG. 1, when the origin data node "n" is "
Next, the intermediate data
上述の判定の結果、データノードリスト「l」が空でない場合(S1204:Yes)、中間データ削除サーバ205の中間データ削除管理部702は、処理(S1205)に進む。他方、上述の判定の結果、データノードリスト「l」が空の場合(S1204:No)、中間データ削除サーバ205の中間データ削除管理部702は処理を終了する。
As a result of the above determination, when the data node list "l" is not empty (S1204: Yes), the intermediate data
上述のとおり、例えば図1において、起点データノード「n」が「データノード101」でループカウンタiが「5」の場合、取得されるデータノードのリストは「データノード101」からみて5階層目のデータノードであるが、該当するデータノードないのでデータリストは空となり、本処理が終了する。
As described above, for example, in FIG. 1, when the starting data node "n" is "
続いて、中間データ削除サーバ205の中間データ削除管理部702は、上述の処理(S1203)で取得したデータリスト「l」の各データノードについて、処理(S1206から処理(S1211)を行うループ処理(S1205)を実行する。
Subsequently, the intermediate data
ここでは、ループ処理中で対象としているデータノードを「j」とする。また、データリスト「l」の全てのデータノードについて処理(S1206)から処理(S1211)が完了すると処理(S1212)に進むものとする。 Here, the target data node in the loop processing is set to "j". Further, when the processing (S1211) is completed from the processing (S1206) for all the data nodes in the data list "l", the process proceeds to the processing (S1212).
ここで中間データ削除サーバ205の中間データ削除管理部702は、時間tにデータノード「j」のデータ生成時間を計算する処理関数の計算結果T1(j)を代入する(S1206)。ここでは、データノード「n」のデータ生成時間を計算する処理関数を「T1(n)」とする。
Here, the intermediate data
なお、データノード「n」のデータ情報生成時間を計算する処理関数「T1(n)」は、データノード「n」を起点データノードから再生成する場合にかかる時間を算出する関数である。この処理(S1206)の詳細については、図15で後述する。 The processing function "T1 (n)" for calculating the data information generation time of the data node "n" is a function for calculating the time required to regenerate the data node "n" from the starting data node. Details of this process (S1206) will be described later with reference to FIG.
続いて、中間データ削除サーバ205の中間データ削除管理部702は、上述の処理(S1206)で得られた時間tが図13の処理(S1103)で取得した削除ポリシーの再生時間上限以下であるか判定を行う(S1207)。
Subsequently, in the intermediate data
上述の判定の結果、時間tが削除ポリシーの再生時間上限以下の場合(S1207:Yes)、中間データ削除サーバ205の中間データ削除管理部702は、処理(S1208)に進む。一方、上述の判定の結果、時間tが削除ポリシーの再生時間上限値より大きい場合(S1207:No)、中間データ削除サーバ205の中間データ削除管理部702は、処理(S1205)に進む。
As a result of the above determination, when the time t is equal to or less than the reproduction time upper limit of the deletion policy (S1207: Yes), the intermediate data
本処理(S1207)により、中間データの再生時間が所定の時間以上かかるデータノードは、そのデータ再生に時間がかかり過ぎて分析者の利便性を低下させるため、中間データの削除対象から除外することを可能とする。 By this process (S1207), a data node whose intermediate data reproduction time is longer than a predetermined time is excluded from the deletion target of the intermediate data because the data reproduction takes too much time and reduces the convenience of the analyst. Is possible.
続いて、中間データ削除サーバ205の中間データ削除管理部702は、データノード「j」のメタデータのデータサイズ値が処理(S1103)で取得した削除ポリシーのデータサイズ下限値以上であるか判定を行う(S1208)。
Subsequently, the intermediate data
上述の判定の結果、データサイズ値がデータサイズ下限値以上の場合(S1208:Yes)、中間データ削除サーバ205の中間データ削除管理部702は、処理(S1209)に進む。
As a result of the above determination, when the data size value is equal to or greater than the data size lower limit value (S1208: Yes), the intermediate data
他方、上述の判定の結果、データサイズ値がデータサイズ下限値より小さい場合(S1208:No)、中間データ削除サーバ205の中間データ削除管理部702は、処理(S1205)に進む。
On the other hand, as a result of the above determination, when the data size value is smaller than the data size lower limit value (S1208: No), the intermediate data
本処理(S1208)により、中間データのデータサイズが所定の大きさ以下であるデータノードは、当該中間データを削除しても削除効率が低いという方針のもとに、中間データの削除対象から除外することを可能とする。 By this process (S1208), a data node whose data size of the intermediate data is smaller than a predetermined size is excluded from the deletion target of the intermediate data based on the policy that the deletion efficiency is low even if the intermediate data is deleted. It is possible to do.
次に、中間データ削除サーバ205の中間データ削除管理部702は、データノード「j」のメタデータにおけるデータへの最終アクセス時刻カラム1604の値が、処理(S1103)で取得した削除ポリシーの最終アクセス時間上限値を超過しているか判定を行う(S1209)。
Next, in the intermediate data
上述の判定の結果、データへの最終アクセス時刻が、現在時刻から最終アクセス時間上限値を引いた値より以前の場合(S1209:Yes)、中間データ削除サーバ205の中間データ削除管理部702は、処理(S1210)に進む。
As a result of the above determination, when the final access time to the data is earlier than the value obtained by subtracting the final access time upper limit value from the current time (S1209: Yes), the intermediate data
一方、上述の判定の結果、データへの最終アクセス時刻が、現在時刻から最終アクセス時間上限値を引いた値より以後の場合(S1209:No)、中間データ削除サーバ205の中間データ削除管理部702は、処理(S1205)に進む。
On the other hand, as a result of the above determination, when the final access time to the data is after the value obtained by subtracting the final access time upper limit value from the current time (S1209: No), the intermediate data
本処理(S1209)により、中間データへの最終アクセス時刻が所定の時間以上経過していないデータノードを、分析者が再度参照する可能性が高い中間データであるという方針のもと、中間データの削除対象から除外することを可能とする。 By this processing (S1209), the intermediate data is based on the policy that the analyst is likely to refer to the data node whose last access time to the intermediate data has not passed a predetermined time or more. It is possible to exclude it from the deletion target.
続いて、中間データ削除サーバ205の中間データ削除管理部702は、データノード「j」のメタデータにおけるデータ生成時刻カラム1605の値が、処理(S1103)で取得した削除ポリシーの生成経過時間下限以上であるか判定を行う(S1210)。
Subsequently, in the intermediate data
上述の判定の結果、データ生成時刻値が、現在時刻から生成経過時間下限値を引いた値より以前の場合(S1210:Yes)、中間データ削除サーバ205の中間データ削除管理部702は、処理(S1211)に進む。
As a result of the above determination, when the data generation time value is earlier than the value obtained by subtracting the generation elapsed time lower limit value from the current time (S1210: Yes), the intermediate data
一方、上述の判定の結果、データ生成時刻値が、現在時刻から生成経過時間下限値を引いた値より以後の場合(S1210:No)、中間データ削除サーバ205の中間データ削除管理部702は、処理(S1205)に進む。
On the other hand, as a result of the above determination, when the data generation time value is after the value obtained by subtracting the generation elapsed time lower limit value from the current time (S1210: No), the intermediate data
本処理(S1210)により、中間データのデータ生成時刻が所定の時間以上経過していないデータノードを、生成されて間もない中間データは分析者が利用する可能性が高いという方針のもと、中間データの削除対象から除外することを可能とする。 Based on the policy that there is a high possibility that the analyst will use the data node for which the data generation time of the intermediate data has not elapsed for a predetermined time or more by this process (S1210), and the intermediate data that has just been generated. It is possible to exclude the intermediate data from the deletion target.
続いて、中間データ削除サーバ205の中間データ削除管理部702は、これまでに選定した、データノード「j」の中間データの削除要求とデータノード「j」のメタデータの更新要求を、データ格納サーバ203のデータ取得・格納・削除受付部403に送信する(S1211)。この処理により、データストレージの使用容量を減らすことが可能となる。また、中間データ削除サーバ205の中間データ削除管理部702は、ループカウンタ「i」に「1」を加算する(S1212)。
Subsequently, the intermediate data
ここで、図1のデータ分析経路概念図、図8Aのメタデータ記憶部412のテーブル、および図9の削除ポリシー記憶部711のテーブルを用いて、図14の動作フローの具体例について説明する。なお、ここで適用する削除ポリシーを削除ポリシー記憶部711のテーブルにおけるポリシーIDカラム1701が「ポリシー01」のレコードとする。また、図14の処理を実行した時刻を「2017/3/1 00:00」とする。
Here, a specific example of the operation flow of FIG. 14 will be described using the data analysis route conceptual diagram of FIG. 1, the table of the
この場合、中間データ削除サーバ205の中間データ削除管理部702は、「起点データノード101」でループカウンタ「i」が「1」の時、処理(S1204)より「データノード121」を含むリスト「l」が取得される。
In this case, the intermediate data
また、処理(S1206)にて「データノード121」の「中間データ122」のデータ情報生成時間は「33[min]」と算出される。「中間データ122」のデータ情報生成時間の「33[min]」が、上述で適用を想定した削除ポリシー(以下、適用ポリシー)の再生成時間上限カラム1705の値の「60[min]」より小さいので、処理(S1207)の判定にて処理(S1208)に進む。
Further, in the process (S1206), the data information generation time of the "
また、「データノード121」のデータサイズカラム1602の値の「80[Gbyte]」が、上述の適用ポリシーのデータサイズ下限カラム1702の値の「1[Gbyte]」より大きいので、処理(S1208)の判定にて、処理(S1209)に進む。
Further, since the value "80 [Gbyte]" of the
また、「データノード121」のデータへの最終アクセス時刻カラム1604の値の「20161001-1003」と現在時刻とを比較して、適用ポリシーの最終アクセス時間下限カラム1703の値の「24*30*2[hour]」以上経過しているので、処理(S1209)の判定にて、処理(S1210に進む。
Further, the value "20161001-1003" of the last
また、「データノード121」のデータ生成時刻カラム1605の値の「20160912-0342」と現在時刻とを比較して、適用ポリシーの生成経過時間下限カラム1704の値の「24*30[hour]」以上経過しているので、処理(S1210)の判定にて処理(S1211)に進み、処理(S1211)にて「データノード121」の「中間データ122」は削除される。
次に、「起点データノード101」でループカウンタ「i」が「2」の時、処理(S1204)より「データノード141」を含むリスト「l」が取得される。
処理(S1206)にて「データノード141」の「中間データ142」のデータ情報生成時間は「33+90=113[min]」と算出される。
Further, the value "20160912-0342" of the data
Next, when the loop counter "i" is "2" in the "starting
In the process (S1206), the data information generation time of the "
「中間データ142」のデータ情報生成時間の「113[min]」が、適用ポリシーの再生成時間上限カラム1705の値の「60[min]」より大きいので、処理(S1207)の判定にて、処理(S1212)に進み、「中間データ142」は適用ポリシーに非該当となって削除対象から外れる。以降のデータノードについても、同処理により適用ポリシーに非該当となり削除対象から外れる。
Since the data information generation time "113 [min]" of the "
よって本例では、図14の処理により、中間データノードのデータサイズ総量「80+110+90=280[Gbyte]」に対して、「80[Gbyte]」の中間データ
情報を所定の削除ポリシーに従って削除し、中間データを格納するための領域を約29%削減することが可能となる。
Therefore, in this example, the intermediate data information of "80 [Gbyte]" is deleted according to the predetermined deletion policy for the total data size "80 + 110 + 90 = 280 [Gbyte]" of the intermediate data node by the processing of FIG. It is possible to reduce the area for storing data by about 29%.
図15は、中間データ削除サーバ205の中間データ削除管理部702にて、順方向観点で該当中間データの生成時間を計算する動作フローの例である。図15の処理は、中間データ削除サーバ205の中間データ削除管理部702が処理主体となり実行する処理である。
FIG. 15 is an example of an operation flow in which the intermediate data
この場合、まず中間データ削除サーバ205の中間データ削除管理部702は、データノード「n」の元データリストを取得する情報取得要求を、データ格納サーバ203のデータ取得・格納・削除受付部403に送信し、該当データノードのリストを取得する(S1301)。
In this case, first, the intermediate data
ここでは、取得されたデータノードのリストを「l」とする。例えば、図1において、データノード「n」が「データノード121」の場合、取得される元データリストは「データノード101」を含む。同様に、データノード「n」が「データノード141」の場合、取得される元データリストは「データノード121」と「データノード131」とを含む。データノード「n」が「データノード151」の場合、取得される元データリストは「データノード141」を含む。
Here, the list of acquired data nodes is "l". For example, in FIG. 1, when the data node "n" is the "
続いて、中間データ削除サーバ205の中間データ削除管理部702は、上述の処理(S1301)で取得したデータリスト(l)の各データノードについて、処理(S1303)から処理(S1306)を行うループ処理(S1302)を実行する。
Subsequently, the intermediate data
ここでは、ループ処理中で対象としているデータノードを「k」とする。データリスト「l」の全てのデータノードについて処理(S1303)から処理(S1306)が完了すると処理(S1307)に進む。 Here, the target data node in the loop processing is set to "k". When the process (S1306) is completed from the process (S1303) for all the data nodes in the data list "l", the process proceeds to the process (S1307).
続いて、中間データ削除サーバ205の中間データ削除管理部702は、データノード「k」が起点データノードでないか判定を行う(S1303)。この判定の結果、データノード「k」が起点データノードでない場合(S1303:Yes)、処理(S1304)に進む。一方、上述の判定の結果、データノード「k」が起点データノードである場合(S1303:No)、処理(S1302)に進む。
Subsequently, the intermediate data
この起点データノードの判定には、図8Aのメタデータ記憶部412におけるテーブルの生成用データIDカラム1608の値を用いる。メタデータ記憶部412におけるテーブルの生成用データIDカラム1608の値がない場合、該当データノードは起点データノードである。一方、メタデータ記憶部412におけるテーブルの生成用データIDカラム1608の値がある場合、該当データノードは起点データノードでない。
In the determination of the origin data node, the value of the table generation
例えば、図1の「データノード101」は起点データノードであることを示し、図8Aのメタデータ記憶部412のテーブルにおいて、「データノード101」の生成用データIDカラム1608には値がない。同様に、図1の「データノード102」は起点データノードを示し、図8Aのメタデータ記憶部412のテーブルにおいて、「データノード102」の生成用データIDカラム1608には値がない。
For example, "
続いて、中間データ削除サーバ205の中間データ削除管理部702は、データノード「k」に中間データが存在するか判定を行う(S1304)。この判定の結果、データノード「k」に中間データが存在する場合(S1304:Yes)、処理(S1305)に進む。他方、データノード「k」に中間データが存在しない場合(S1304:No)、
処理(S1302)進む。
Subsequently, the intermediate data
Process (S1302) proceeds.
この中間データの存在判定には、メタデータ記憶部412におけるテーブルのデータ格納パスカラム1303の値を用いる。メタデータ記憶部412におけるテーブルのデータ格納パスカラム1303に値がある場合、該当データノードの中間データは存在し、メタデータ記憶部412におけるテーブルのデータ格納パスカラム1303に値がない場合、該当データノードの中間データは存在しない。
The value of the data storage path column 1303 of the table in the
例えば、図1の「データノード122」は中間データがないことを示し、図8Aにおいて「データノード122」のデータ格納パスカラム1303には値がない。同様に、図1の「データノード142」は中間データがないことを示し、図8Aにおいて「データノード142」のデータ格納パスカラム1303には値がない。
For example, "
続いて、中間データ削除サーバ205の中間データ削除管理部702は、時間tにデータノード「k」のメタデータのデータ生成時間を加算する(S1305)。
Subsequently, the intermediate data
また、中間データ削除サーバ205の中間データ削除管理部702は、時間tに、データノード「k」のデータ情報生成時間を計算する処理関数の計算結果「T1(k)」を加算する(S1306)。
Further, the intermediate data
続いて、中間データ削除サーバ205の中間データ削除管理部702は、時間tに、データノード「n」のメタデータのデータ生成時間を加算する(S1307)。
また、中間データ削除サーバ205の中間データ削除管理部702は、データ生成時間Trに、ここまで算定してきた時間tの値を代入する(S1308)。
Subsequently, the intermediate data
Further, the intermediate data
続いて、中間データ削除サーバ205の中間データ削除管理部702は、上述の計算で得られたデータ生成時刻Trを関数の呼び元に返却(S1309)し、処理を終了する。
Subsequently, the intermediate data
図16は、本実施形態の中間データ削除サーバ205の中間データ削除管理部702にて、指定された終端データノードを始点として探索を実行して、削除対象の中間データを選定し、選定した中間データの削除要求とそのメタデータの更新要求とをデータ格納サーバ203に送信する、一連の動作フローの例を示す図である。なお、図16の処理は、中間データ削除サーバ205の中間データ削除管理部702が処理主体となり実行する処理である。ここでは、中間データの削除対象探索において始点となる終端データノードを「n」とする。
この場合まず、中間データ削除サーバ205の中間データ削除管理部702は、ループカウンタiに1を代入する(S1401)。
In FIG. 16, the intermediate data
In this case, first, the intermediate data
続いて、中間データ削除サーバ205の中間データ削除管理部702は、後述する処理(S1404)の条件が成立するまで、処理(S1403)から処理(S14112)を繰り返し行うループ処理を実行する(S1402)。
Subsequently, the intermediate data
また、中間データ削除サーバ205の中間データ削除管理部702は、終端データノード「n」から見てループカウンタi番目の階層のデータノードのリストを取得する情報取得要求を、データ格納サーバ203のデータ取得・格納・削除受付部403に送信し、該当データノードのリストを取得する(S1403)。ここでは、取得されたデータノードのリストを「l」とする。
Further, the intermediate data
例えば、図1において、終端データノード「n」が「データノード151」でループカウンタiが「1」の場合、取得されるデータノードのリストは「データノード151」か
らみて1階層目のデータノードである「データノード141」となる。同様に、終端データノード「n」が「データノード151」でループカウンタiが「2」の場合、取得されるデータノードのリストは「データノード151」からみて2階層目のデータノードである「データノード121」と「データノード131」とを含む。終端データノード「n」が「データノード151」でループカウンタiが「3」の場合、取得されるデータノードのリストは「データノード151」からみて3階層目のデータノードである「データノード101」と「データノード111」とを含む。終端データノード「n」が「データノード151」でループカウンタiが「4」の場合、取得されるデータノードのリストは「データノード151」からみて4階層目のデータノードであるが該当するデータノードないのでデータリストは空となる。
For example, in FIG. 1, when the terminal data node "n" is "
続いて、中間データ削除サーバ205の中間データ削除管理部702は、データノードリスト「l」が空であるか判定を行う(S1404)。この判定の結果、データノードリスト「l」が空でない場合(S1404:Yes)、中間データ削除サーバ205の中間データ削除管理部702は、処理(S1405に進む。
Subsequently, the intermediate data
一方、上述の判定の結果、データノードリスト「l」が空の場合(S1404:No)、中間データ削除サーバ205の中間データ削除管理部702は、処理を終了する。
On the other hand, as a result of the above determination, when the data node list "l" is empty (S1404: No), the intermediate data
上述の通り、例えば図1において、終端データノード「n」が「データノード151」でループカウンタiが「5」の場合、取得されるデータノードのリストは「データノード151」からみて5階層目のデータノードであるが該当するデータノードないのでデータリストは空となり、本処理が終了する。
As described above, for example, in FIG. 1, when the terminal data node "n" is "
続いて、中間データ削除サーバ205の中間データ削除管理部702は、上述の処理(S1403)で取得したデータリスト「l」の各データノードについて、処理(S1406)から処理(S1411)を行うループ処理(S1405)を実行する。ここでは、ループ処理中で対象としているデータノードを「j」とする。
データリスト「l」の全てのデータノードについて処理(S1406)から処理(S1411)が完了すると処理(S1412)に進む。
Subsequently, the intermediate data
When the process (S1411) is completed from the process (S1406) for all the data nodes in the data list "l", the process proceeds to the process (S1412).
次に、中間データ削除サーバ205の中間データ削除管理部702は、時間tに、データノード「j」のデータ情報生成時間を計算する処理関数の計算結果T2(j)を代入する(S1406)。
Next, the intermediate data
ここでは、データノード「n」のデータ情報生成時間を計算する処理関数を「T2(n)」とする。データノード「n」のデータ情報生成時間を計算する処理関数「T2」は、データノード「n」を終端データノードから再生成する場合にかかる推定時間を算出する関数である。こうした処理(S1406)の詳細については、図17で後述する。 Here, the processing function for calculating the data information generation time of the data node "n" is "T2 (n)". The processing function "T2" for calculating the data information generation time of the data node "n" is a function for calculating the estimated time required when the data node "n" is regenerated from the terminal data node. Details of such processing (S1406) will be described later with reference to FIG.
次に、中間データ削除サーバ205の中間データ削除管理部702は、上述の処理(S1406)で得られた時間tが、図13の処理(S1103)で取得した削除ポリシーにおけるデータ再生時間下限値以下であるか判定する(S1407)。
Next, in the intermediate data
上述の判定の結果、時間tが削除ポリシーのデータ再生時間下限値以下の場合(S1407:Yes)、中間データ削除サーバ205の中間データ削除管理部702は、処理(S1408)に進む。
As a result of the above determination, when the time t is equal to or less than the lower limit of the data reproduction time of the deletion policy (S1407: Yes), the intermediate data
一方、上述の判定の結果、時間tが削除ポリシーのデータ再生時間下限値より大きい場合(S1407:No)、中間データ削除サーバ205の中間データ削除管理部702は
、処理(S1405)に進む。
On the other hand, as a result of the above determination, when the time t is larger than the data reproduction time lower limit value of the deletion policy (S1407: No), the intermediate data
本処理(S1407)により、中間データの再生時間が所定の時間以上かかるデータノードを、データ再生に時間がかかり過ぎるため分析者の利便性を低下させるという方針のもと、中間データの削除対象から除外することを可能とする。 By this process (S1407), the data node whose intermediate data reproduction time is longer than a predetermined time is removed from the intermediate data deletion target under the policy of reducing the convenience of the analyst because the data reproduction takes too much time. Allows exclusion.
次に、中間データ削除サーバ205の中間データ削除管理部702は、データノード「j」のメタデータのデータサイズ値が、処理(S1103)で取得した削除ポリシーにおけるデータサイズ下限値以上であるか判定する(S1408)。
Next, the intermediate data
上述の判定の結果、データサイズ値がデータサイズ下限値以上の場合(S1408:Yes)、中間データ削除サーバ205の中間データ削除管理部702は、処理(S1409)に進む。
As a result of the above determination, when the data size value is equal to or greater than the data size lower limit value (S1408: Yes), the intermediate data
他方、上述の判定の結果、データサイズ値がデータサイズ下限値より小さい場合(S1408:No)、中間データ削除サーバ205の中間データ削除管理部702は、処理(S1405)に進む。
On the other hand, as a result of the above determination, when the data size value is smaller than the data size lower limit value (S1408: No), the intermediate data
本処理(S1408)により、中間データのデータサイズが所定の大きさ以下であるデータノードを、中間データの削除を行っても削除効率が低いという方針のもとに、中間データの削除対象から除外することを可能とする。 By this process (S1408), data nodes whose intermediate data data size is smaller than a predetermined size are excluded from the intermediate data deletion target based on the policy that the deletion efficiency is low even if the intermediate data is deleted. It is possible to do.
続いて、中間データ削除サーバ205の中間データ削除管理部702は、データノード「j」のメタデータにおける最終アクセス時刻値が、処理(S1103)で取得した削除ポリシーにおけるデータへの最終アクセス時間上限値より経過しているか判定する(S1409)。
Subsequently, in the intermediate data
上述の判定の結果、最終アクセス時刻値が、現在時刻からデータへの最終アクセス時間上限値を引いた値より以前の場合(S1409:Yes)、中間データ削除サーバ205の中間データ削除管理部702は、処理(S1410)に進む。
As a result of the above determination, when the final access time value is earlier than the value obtained by subtracting the final access time upper limit value to the data from the current time (S1409: Yes), the intermediate data
他方、上述の判定の結果、データへの最終アクセス時刻値が、現在時刻からデータへの最終アクセス時間上限値を引いた値より以後の場合(S1409:No)、中間データ削除サーバ205の中間データ削除管理部702は、処理(S1405)に進む。
On the other hand, as a result of the above determination, when the final access time value to the data is after the value obtained by subtracting the final access time upper limit value to the data from the current time (S1409: No), the intermediate data of the intermediate
本処理(S1409)により、中間データへの最終アクセス時刻が所定の時間以上経過していないデータノードを、分析者が再度参照する可能性が高いという方針のもと、中間データの削除対象から除外することを可能とする。 By this process (S1409), data nodes whose last access time to the intermediate data has not passed a predetermined time or more are likely to be referred again by the analyst, and are excluded from the deletion target of the intermediate data. It is possible to do.
続いて、中間データ削除サーバ205の中間データ削除管理部702は、データノード「j」のメタデータのデータ生成時刻値が、処理(S1103)で取得した削除ポリシーにおける生成経過時間下限以上であるか判定を行う(S1410)。
Subsequently, the intermediate data
上述の判定の結果、データ生成時刻値が、現在時刻から生成経過時間下限を引いた値より以前の場合(S1410:Yes)、中間データ削除サーバ205の中間データ削除管理部702は、処理(S1411)に進む。
As a result of the above determination, when the data generation time value is earlier than the value obtained by subtracting the generation elapsed time lower limit from the current time (S1410: Yes), the intermediate data
他方、上述の判定の結果、データ生成時刻値が、現在時刻から生成経過時間下限を引いた値より以後の場合(S1410:No)、中間データ削除サーバ205の中間データ削除管理部702は、処理(S1405)に進む。
On the other hand, as a result of the above determination, when the data generation time value is after the value obtained by subtracting the generation elapsed time lower limit from the current time (S1410: No), the intermediate data
本処理(S1410)により、中間データのデータ生成時刻が所定の時間以上経過していないデータノードを、生成されて間もない中間データは分析者が利用する可能性が高いという方針のもと、中間データの削除対象から除外することを可能とする。 Based on the policy that there is a high possibility that the analyst will use the data node that has not passed the data generation time of the intermediate data for a predetermined time or more by this process (S1410), and the intermediate data that has just been generated. It is possible to exclude the intermediate data from the deletion target.
次に、中間データ削除サーバ205の中間データ削除管理部702は、データノード「j」の中間データの削除要求とデータノード「j」のメタデータの更新要求とを、データ格納サーバ203のデータ取得・格納・削除受付部403に送信する(S1411)。この処理により、データストレージの使用容量を減らすことが可能となる。また、ループカウンタ「i」に「1」を加算する(S1412)。
Next, the intermediate data
ここで、図1のデータ分析経路概念図、図8Aのメタデータ記憶部412におけるテーブル、および図9の削除ポリシー記憶部711のテーブルを用いて、図16の動作フローの具体例について説明する。ここで適用する削除ポリシー(以下、適用ポリシー)を削除ポリシー記憶部711におけるテーブルのポリシーIDカラム1701が「ポリシー01」のレコードとし、また、図16の処理を実行した時刻を「2017/3/1 03:00」とする。
この場合、「終端データノード151」でループカウンタiが「1」の時、処理(S1403)より「データノード141」を含むリスト「l」が取得される。
Here, a specific example of the operation flow of FIG. 16 will be described using the data analysis route conceptual diagram of FIG. 1, the table in the
In this case, when the loop counter i is "1" in the "terminating
処理(S1406)にて「データノード141」の「中間データ142」の生成時間は「77*0.25≒19[min]」と算出される。「中間データ142」の生成時間の「」19[min]」が適用ポリシーの再生成時間上限カラム1705の値の「60[min]」より小さいので、処理(S1407)の判定にて処理(S1408)に進む。
In the process (S1406), the generation time of the "
また、「データノード141」のデータサイズカラム1602の値の「90[Gbyte]」が、適用ポリシーのデータサイズ下限カラム1702の値の「1[Gbyte]」より大きいので、処理(S1408)の判定にて処理(S1409)に進む。
Further, since the value "90 [Gbyte]" of the
また、「データノード141」の最終アクセス時刻カラム1604の値の「20161206-1608」と現在時刻とを比較して適用ポリシーの最終アクセス時間下限カラム1703の値の「24*30*2[hour]」以上経過しているので、処理(S1409)の判定にて処理(S1410)に進む。
Further, the value "20161206-1608" of the last
また、「データノード141」のデータ生成時刻カラム1605の値の「20160913-0759」と現在時刻とを比較して、適用ポリシーの生成経過時間下限カラム1704の値の「24*30[hour]」以上経過しているので、処理(S1410)の判定にて処理(S1411)に進み、処理(S1411)にて「データノード141」の「」中間データ142」は削除実行される。
Further, the value "20160913-0759" of the data
次に、「終端データノード151」でループカウンタiが「2」の時、処理(S1403)より「データノード121」と「データノード131」とを含むリスト「l」が取得される。処理(S1406)にて、「データノード121」の「中間データ122」のデータ情報生成時間は「-1[min]」と算出される。
Next, when the loop counter i is "2" in the "terminating
「中間データ122」のデータ情報生成時間の「-1[min]」が、適用ポリシーの再生成時間上限カラム1705の値の「60[min]」より小さいので、処理(S1407)の判定にて処理(S1405)に進む。また、「中間データ122」は適用ポリシーに非該当となり削除対象から外れる。以降のデータノードについても、同処理により適用ポリシーに非該当となり削除対象から外れる。
Since the data information generation time "-1 [min]" of the "
よって本例では、上述の図14および図16の処理により、中間データノードのデータサイズ総量「80+110+90=280[Gbyte]」に対して「80+90=110[Gbyte]」の中間データを所定の削除ポリシーに従って削除し、中間データを格納するための領域を約61%削減することが可能となる。 Therefore, in this example, by the processing of FIGS. 14 and 16 described above, the intermediate data of "80 + 90 = 110 [Gbyte]" is deleted from the predetermined deletion policy for the total data size "80 + 110 + 90 = 280 [Gbyte]" of the intermediate data node. It is possible to reduce the area for storing intermediate data by about 61%.
図16の終端データノードから削除対象の中間データを探索する処理により、図14の処理のみと比較して中間データを格納するための領域をより削減することが可能となる。
The process of searching for the intermediate data to be deleted from the terminal data node of FIG. 16 makes it possible to further reduce the area for storing the intermediate data as compared with the process of FIG.
図17は、本実施形態の中間データ削除サーバ205の中間データ削除管理部702にて、逆方向観点で該当中間データの再生成推定時間を計算する動作フローの例である。図17の処理は、中間データ削除サーバ205の中間データ削除管理部702が処理主体となり実行する処理である。
この場合まず、中間データ削除サーバ205の中間データ削除管理部702は、データ生成時間Trに初期値の「-1」を代入する(S1501)。
FIG. 17 is an example of an operation flow in which the intermediate data
In this case, first, the intermediate data
また、中間データ削除サーバ205の中間データ削除管理部702は、データノード「n」を元データノードとするデータノードのリストを取得する、情報取得要求をデータ格納サーバ203のデータ取得・格納・削除受付部403に送信し、該当データノードのリストを取得する(S1502)。ここでは、取得されたデータノードのリストを「l」とする。
Further, the intermediate data
例えば、図1において、データノード「n」が「データノード141」の場合、「データノード141」を元データノードとしている「データノード151」が該当するため、取得されるデータリストは「データノード151」を含む。
For example, in FIG. 1, when the data node "n" is the "
同様に、データノード「n」が「データノード121」の場合、「データノード121」を元データノードとしている「データノード141」が該当するため、取得されるデータリストは「データノード141」を含む。データノード「n」が「データノード101」の場合、「データノード101」を元データノードとしている「データノード121」が該当するため、取得されるデータリストは「データノード121」を含む。
Similarly, when the data node "n" is the "
続いて、中間データ削除サーバ205の中間データ削除管理部702は、上述の処理S1502で取得したデータリスト「l」の各データノードについて、処理S1504から処理S1512を行うループ処理(S1503)を実行する。ここでは、ループ処理中で対象としているデータノードを「k」とする。データリスト「l」の全てのデータノードについて処理S1504から処理S1512が完了すると処理S1513に進む。
Subsequently, the intermediate data
続いて、中間データ削除サーバ205の中間データ削除管理部702は、データノード「k」のデータ逆変換生成推定時間が負でないか判定を行う(S1504)。
Subsequently, the intermediate data
上述の判定の結果、データノード「k」のデータ逆変換生成推定時間が負でない場合(S1504:Yes)、中間データ削除サーバ205の中間データ削除管理部702は、処理S1505に進む。
As a result of the above determination, when the data inverse conversion generation estimation time of the data node "k" is not negative (S1504: Yes), the intermediate data
一方、上述の判定の結果、データノード「k」のデータ逆変換生成推定時間が負の場合(S1504:No)、中間データ削除サーバ205の中間データ削除管理部702は、処理S1503に進む。
On the other hand, as a result of the above determination, when the data inverse conversion generation estimation time of the data node "k" is negative (S1504: No), the intermediate data
データノードのデータ逆変換生成推定時間の値は、図8Aのメタデータ記憶部412におけるテーブルのデータ逆変換生成推定時間カラム1607の値を用いる。メタデータ記憶部412におけるテーブルのデータ逆変換生成推定時間カラム1607の値が負の場合、該当中間データは、一旦失われると元の中間データへの逆変換、すなわち再生成が不可であることを示す。一方、メタデータ記憶部412におけるテーブルのデータ逆変換生成推定時間カラム1607の値が負でない場合、該当中間データは元のデータ情報へ逆変換が可能、すなわち再生成可能であることを示す。
As the value of the data inverse conversion generation estimated time of the data node, the value of the data inverse transformation generation estimated
例えば、図8Aにおいて「データノード151」のデータ逆変換生成推定時間は「77*0.25[hour]」で負の値でないので、この「データノード151」の「分析結果152」から「分析結果152」の元データ情報である「データノード141」の「中間データ142」へ逆変換が可能であることを示す。
For example, in FIG. 8A, the estimated data inverse conversion generation generation time of the “
一方、図8Aにおいて「データノード141」のデータ逆変換生成水時間は「-1」で負の値であるので、この「データノード141」の「中間データ142」から、「中間データ142」の元データ情報である「データノード121」の「中間データ122」および「データノード131」の「中間データ132」への逆変換は不可であることを示す。
On the other hand, in FIG. 8A, the data inverse conversion generation water time of the “
続いて、中間データ削除サーバ205の中間データ削除管理部702は、時間tに、データノード「k」のメタデータのデータ逆変換生成推定時間を加算する(S1505)。
また、中間データ削除サーバ205の中間データ削除管理部702は、データノード「k」が終端データノードでないか判定を行う(S1506)。
Subsequently, the intermediate data
Further, the intermediate data
上述の判定の結果、データノード「k」が終端データノードでない場合(S1506:Yes)、中間データ削除サーバ205の中間データ削除管理部702は、処理S1507に進む。
As a result of the above determination, when the data node "k" is not the terminal data node (S1506: Yes), the intermediate data
他方、上述の判定の結果、データノード「k」が終端データノードである場合(S1506:No)、中間データ削除サーバ205の中間データ削除管理部702は、処理S1512に進む。
On the other hand, as a result of the above determination, when the data node "k" is the terminal data node (S1506: No), the intermediate data
なお、上述の終端データノードの判定には、図8Bの生成用データ記憶部511におけるテーブルの元データリストカラム1610の値を用いる。生成用データ記憶部511のテーブルの元データリストカラム1610に元データノードとして登録されていない場合、該当データノードは終端データノードである。一方、生成用データ記憶部511におけるテーブルの元データリストカラム1610に元データノードとして登録されている場合、該当データノードは終端データノードでない。
For the determination of the terminal data node described above, the value of the original
例えば、図1の「データノード151」は終端データノードであることを示し、図8Bの生成用データ記憶部511におけるテーブルにて「データノード151」は元データノードとして登録さていない。
続いて、中間データ削除サーバ205の中間データ削除管理部702は、データノード「k」に中間データが存在するか判定を行う(S1507)。
For example, "
Subsequently, the intermediate data
この判定の結果、データノード「k」に中間データが存在しない場合(S1507:Yes)、中間データ削除サーバ205の中間データ削除管理部702は、処理S1508に進む。
As a result of this determination, when the intermediate data does not exist in the data node "k" (S1507: Yes), the intermediate data
他方、上述の判定の結果、データノード「k」に中間データが存在する場合(S150
7:No)、中間データ削除サーバ205の中間データ削除管理部702は、処理S1512に進む。
On the other hand, as a result of the above determination, when intermediate data exists in the data node "k" (S150).
7: No), the intermediate data
また、中間データ削除サーバ205の中間データ削除管理部702は、時間t’に、データノード「k」のデータ情報生成時間を計算する処理関数の計算結果「T2(k)」を代入する(S1508)。
続いて、中間データ削除サーバ205の中間データ削除管理部702は、時間t’が0より大きい値であるか判定を行う(S1509)。
Further, the intermediate data
Subsequently, the intermediate data
上述の判定の結果、時間t’が0より大きい値の場合(S1509:Yes)、中間データ削除サーバ205の中間データ削除管理部702は、処理S1510に進む。
As a result of the above determination, when the time t'is a value larger than 0 (S1509: Yes), the intermediate data
他方、上述の判定の結果、時間t’が0以下の値である場合(S1509:No)、中間データ削除サーバ205の中間データ削除管理部702は、処理S1503に進む。
次に、中間データ削除サーバ205の中間データ削除管理部702は、データ生成時間候補Tr’に、時間tと時間t’とを加算する(S1510)。
また、中間データ削除サーバ205の中間データ削除管理部702は、データ生成時間候補Tr’に、時間tを代入する(S1511)。
On the other hand, when the time t'is a value of 0 or less as a result of the above determination (S1509: No), the intermediate data
Next, the intermediate data
Further, the intermediate data
続いて、中間データ削除サーバ205の中間データ削除管理部702は、データ生成時間Trが0より小さい値か、またはデータ生成時間Trがデータ生成時間候補Tr’より大きい値かの判定を行う(S1512)。
Subsequently, the intermediate data
上述の判定の結果、データ生成時間Trが0より小さい値か、またはデータ生成時間Trがデータ生成時間候補Tr’より大きい値の場合(S1512:Yes)、中間データ削除サーバ205の中間データ削除管理部702は、処理S1513に進む。
上述の判定の結果、それ以外の場合(S1512:No)、中間データ削除サーバ205の中間データ削除管理部702は、処理S1503に進む。
また、中間データ削除サーバ205の中間データ削除管理部702は、データ生成時間Trに、データ生成時間候補Tr’の値を代入する(S1513)。
As a result of the above determination, when the data generation time Tr is smaller than 0 or the data generation time Tr is larger than the data generation time candidate Tr'(S1512: Yes), the intermediate data deletion management of the intermediate
As a result of the above determination, in other cases (S1512: No), the intermediate data
Further, the intermediate data
また、中間データ削除サーバ205の中間データ削除管理部702は、ここまでの計算で得られたデータ生成時刻Trを関数の呼び元に返却し(S1514)、処理を終了する。
Further, the intermediate data
なお、中間データの復元、すなわち再生成は、例えば、データ格納サーバ203、データ分析サーバ204、中間データ削除サーバ205、および、データ分析表示サーバ206のいずれかが、復元対象としてデータ分析表示クライアント207から指定された中間データに関して、その生成に利用された元データたる中間データないし分析データを、生成用データ記憶部511の元データリストカラム1610で特定し、この元データに対し、対応する処理アルゴリズムカラム1611の値が示すアルゴリズムを、順方向データ生成パラメータカラム1612ないし逆方向データ生成パラメータカラム1613の値が示すパラメータと共に適用することで実行できる。
For the restoration, that is, the regeneration of the intermediate data, for example, any one of the
以上、本発明を実施するための最良の形態などについて具体的に説明したが、本発明はこれに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。 Although the best mode for carrying out the present invention has been specifically described above, the present invention is not limited to this, and various modifications can be made without departing from the gist thereof.
こうした本実施形態によれば、中間データの効果的な削除によるデータストレージの利用低減を図るとともに、一旦削除した中間データであっても以降の再生成が可能となる。 According to the present embodiment, it is possible to reduce the use of the data storage by effectively deleting the intermediate data, and to regenerate the intermediate data once deleted.
この中間データ削除に際しては、削除対象となる中間データを、分析処理に対する影響の良否といった観点で適宜に選定するため、上述のデータストレージの利用効率改善と、分析処理の効率改善とを両立しうることとなる。このことは、従来と比較して単位時間あたりに実行可能な分析の試行回数を増大させることにつながり、短時間の分析により、分析者の望む良好な分析結果を導くことが期待できる。また上述のような各効果は、分析用リソースの効率化につながるため、そうした分析システムの導入・運用のコスト低減にもつながりうる。
すなわち、中間データの効果的な管理を図り、ひいては当該中間データを用いる分析処理の効率等を良好なものとできる。
When deleting the intermediate data, the intermediate data to be deleted is appropriately selected from the viewpoint of whether the influence on the analysis process is good or bad. Therefore, the above-mentioned improvement in the utilization efficiency of the data storage and the improvement in the efficiency of the analysis process can be achieved at the same time. It will be. This leads to an increase in the number of analysis trials that can be performed per unit time as compared with the conventional method, and it can be expected that the analysis in a short time will lead to the good analysis result desired by the analyst. In addition, each of the above-mentioned effects leads to more efficient analysis resources, which may lead to cost reduction in the introduction and operation of such an analysis system.
That is, the intermediate data can be effectively managed, and the efficiency of the analysis process using the intermediate data can be improved.
本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、本実施形態の中間データ管理システムにおいて、前記記憶装置は、前記中間データの削除ポリシーを更に格納しており、前記演算装置は、前記メタデータおよび前記生成用データを前記削除ポリシーに適用して、削除すべき中間データを選定し、当該中間データの削除処理を実行するものである、としてもよい。
これによれば、上述の削除ポリシーに従って、削除対象の中間データの選定を効率的かつ精度良好に行うことができる。
The description herein reveals at least the following: That is, in the intermediate data management system of the present embodiment, the storage device further stores the deletion policy of the intermediate data, and the arithmetic unit applies the metadata and the generation data to the deletion policy. Therefore, it may be assumed that the intermediate data to be deleted is selected and the deletion process of the intermediate data is executed.
According to this, it is possible to efficiently and accurately select the intermediate data to be deleted according to the above-mentioned deletion policy.
また、本実施形態の中間データ管理システムにおいて、前記記憶装置は、前記中間データの削除ポリシーとして、データサイズ、最終アクセス時期、生成からの経過時間、および、データ復元に要する時間、の少なくともいずれかの項目に関する規定情報を格納しており、前記演算装置は、前記メタデータおよび前記生成用データを前記削除ポリシーに適用して、前記規定情報にマッチする中間データを、削除すべき中間データとして選定し、当該中間データの削除処理を実行するものである、としてもよい。 Further, in the intermediate data management system of the present embodiment, the storage device has at least one of the data size, the last access time, the elapsed time from generation, and the time required for data restoration as the deletion policy of the intermediate data. The calculation device applies the metadata and the generation data to the deletion policy, and selects the intermediate data that matches the specified information as the intermediate data to be deleted. However, the process of deleting the intermediate data may be executed.
これによれば、削除対象となる中間データとして、データサイズが規定以下、最終アクセス時期が相応に古く利用頻度が少ない、生成からの経過時間が相応に長く古い、および、データ復元に相応の時間を要する、といった存在意義が低いと認識しうる中間データを精度良くかつ効率良く選定可能となる。 According to this, as the intermediate data to be deleted, the data size is less than the specified, the last access time is correspondingly old and the usage frequency is low, the elapsed time from generation is correspondingly long and old, and the time suitable for data restoration. It is possible to accurately and efficiently select intermediate data that can be recognized as having a low significance of existence.
また、本実施形態の中間データ管理システムにおいて、前記演算装置は、所定の中間データに関する、前記分析データ、前記メタデータ、および、前記生成用データに基づいて、当該中間データの復元処理を更に実行するものである、としてもよい。 Further, in the intermediate data management system of the present embodiment, the arithmetic unit further executes a restoration process of the intermediate data based on the analysis data, the metadata, and the generation data of the predetermined intermediate data. It may be something to do.
これによれば、一旦削除した中間データであっても、後に必要となった時点で復元が可能となり、当該中間データを用いた分析処理をあらためて行うことも可能となる。 According to this, even if the intermediate data is once deleted, it can be restored when it is needed later, and it is possible to perform an analysis process using the intermediate data again.
また、本実施形態の中間データ管理方法において、前記情報処理システムが、前記記憶装置において、前記中間データの削除ポリシーを更に格納して、前記メタデータおよび前記生成用データを前記削除ポリシーに適用して、削除すべき中間データを選定し、当該中間データの削除処理を実行する、としてもよい。 Further, in the intermediate data management method of the present embodiment, the information processing system further stores the deletion policy of the intermediate data in the storage device, and applies the metadata and the generation data to the deletion policy. Then, the intermediate data to be deleted may be selected and the deletion process of the intermediate data may be executed.
また、本実施形態の中間データ管理方法において、前記情報処理システムが、前記記憶装置において、前記中間データの削除ポリシーとして、データサイズ、最終アクセス時期、生成からの経過時間、および、データ復元に要する時間、の少なくともいずれかの項目に関する規定情報を格納して、前記メタデータおよび前記生成用データを前記削除ポリシーに適用して、前記規定情報にマッチする中間データを、削除すべき中間データとして選定し、当該中間データの削除処理を実行する、としてもよい。 Further, in the intermediate data management method of the present embodiment, the information processing system is required for the data size, the last access time, the elapsed time from generation, and the data restoration as the deletion policy of the intermediate data in the storage device. The specified information regarding at least one item of time is stored, the metadata and the generated data are applied to the deletion policy, and the intermediate data matching the specified information is selected as the intermediate data to be deleted. Then, the deletion process of the intermediate data may be executed.
また、本実施形態の中間データ管理方法において、前記情報処理システムが、所定の中
間データに関する、前記分析データ、前記メタデータ、および、前記生成用データに基づいて、当該中間データの復元処理を更に実行する、としてもよい。
Further, in the intermediate data management method of the present embodiment, the information processing system further restores the intermediate data based on the analysis data, the metadata, and the generation data regarding the predetermined intermediate data. You may do it.
101、111、121、131、141、151 データノード
102、112 分析データ
103、113、123、133、143、153 メタデータ・生成用データ
122、132、142 中間データ
152 分析結果
161~164 データ処理
171~175、181、182 関連
200 中間データ管理システム
201 データソース端末
202 データ受信サーバ
203 データ格納サーバ
204 データ分析サーバ
205 中間データ削除サーバ
206 データ分析表示サーバ
207 データ分析表示クライアント
208、209 ネットワーク
301 CPU
302 メモリ
303 補助記憶装置
304 通信I/F
305 入力I/F
306 キーボード
307 マウス
308 出力I/F
309 ディスプレイ
401 データ受信処理部
402 データ取得・格納・削除要求部
403 データ取得・格納・削除受付部
411 分析データ記憶部
412 メタデータ記憶部
501 表示リクエスト受付部
502 表示情報生成部
503 データ分析実行要求部
504 データ取得・格納・削除要求部
505 データ分析実行受付部
511 生成用データ記憶部
512 分析プログラム情報記憶部
601 分析実行管理部
602 分析プログラム
603 データ取得・格納・削除要求部
701 中間データ削除定期要求部
702 中間データ削除管理部
703 データ取得・格納・削除要求部
711 中間データ削除ポリシー記憶部
101, 111, 121, 131, 141, 151
302
305 Input I / F
306
309
Claims (8)
前記メタデータおよび前記生成用データに基づいて、前記分析データを起点とし当該分析データの分析結果を終点とした一連のデータ処理の流れにおける、前記起点から前記終点に向けたデータの連なり、及び前記終点から前記起点に遡るデータの連なり、のそれぞれにおいて、前記生成データのうち所定の中間データを所定アルゴリズムで選定し、当該中間データの削除処理を実行する演算装置と、
を備えることを特徴とする中間データ管理システム。 A storage device for storing analysis data, metadata showing various attributes of the analysis data, and data for generating generated data generated based on other analysis data among the analysis data.
Based on the metadata and the generation data , a sequence of data from the start point to the end point in a series of data processing flows starting from the analysis data and ending from the analysis result of the analysis data, and the above. A computing device that selects predetermined intermediate data from the generated data by a predetermined algorithm and executes deletion processing of the intermediate data in each of a series of data that traces from the end point to the start point .
An intermediate data management system characterized by being equipped with.
前記中間データの削除ポリシーを更に格納しており、
前記演算装置は、
前記メタデータおよび前記生成用データを前記削除ポリシーに適用して、削除すべき中間データを選定し、当該中間データの削除処理を実行するものである、
ことを特徴とする請求項1に記載の中間データ管理システム。 The storage device is
Further stores the deletion policy of the intermediate data,
The arithmetic unit is
The metadata and the generation data are applied to the deletion policy, intermediate data to be deleted is selected, and the deletion process of the intermediate data is executed.
The intermediate data management system according to claim 1.
前記中間データの削除ポリシーとして、データサイズ、最終アクセス時期、生成からの経過時間、および、データ復元に要する時間、の少なくともいずれかの項目に関する規定情報を格納しており、
前記演算装置は、
前記メタデータおよび前記生成用データを前記削除ポリシーに適用して、前記規定情報にマッチする中間データを、削除すべき中間データとして選定し、当該中間データの削除処理を実行するものである、
ことを特徴とする請求項2に記載の中間データ管理システム。 The storage device is
As the intermediate data deletion policy, the specified information regarding at least one of the data size, the last access time, the elapsed time from the generation, and the time required for data restoration is stored.
The arithmetic unit is
The metadata and the generation data are applied to the deletion policy, intermediate data matching the specified information is selected as intermediate data to be deleted, and the deletion process of the intermediate data is executed.
The intermediate data management system according to claim 2.
所定の中間データに関する、前記分析データ、前記メタデータ、および、前記生成用データに基づいて、当該中間データの復元処理を更に実行するものである、
ことを特徴とする請求項1に記載の中間データ管理システム。 The arithmetic unit is
The restoration process of the intermediate data is further executed based on the analysis data, the metadata, and the generation data of the predetermined intermediate data.
The intermediate data management system according to claim 1.
前記メタデータおよび前記生成用データに基づいて、前記分析データを起点とし当該分析データの分析結果を終点とした一連のデータ処理の流れにおける、前記起点から前記終点に向けたデータの連なり、及び前記終点から前記起点に遡るデータの連なり、のそれぞれにおいて、前記生成データのうち所定の中間データを所定アルゴリズムで選定し、当該中間データの削除処理を実行する、
ことを特徴とする中間データ管理方法。 An information processing system including a storage device for storing analysis data, metadata showing various attributes of the analysis data, and data for generating generated data generated based on other analysis data among the analysis data.
Based on the metadata and the generation data , a sequence of data from the start point to the end point in a series of data processing flows starting from the analysis data and ending from the analysis result of the analysis data, and the above. In each of the series of data tracing from the end point to the start point, a predetermined intermediate data is selected from the generated data by a predetermined algorithm, and the deletion process of the intermediate data is executed.
An intermediate data management method characterized by that.
前記記憶装置において、前記中間データの削除ポリシーを更に格納して、
前記メタデータおよび前記生成用データを前記削除ポリシーに適用して、削除すべき中間データを選定し、当該中間データの削除処理を実行する、
ことを特徴とする請求項5に記載の中間データ管理方法。 The information processing system
In the storage device, the deletion policy of the intermediate data is further stored.
The metadata and the generation data are applied to the deletion policy, intermediate data to be deleted is selected, and the deletion process of the intermediate data is executed.
The intermediate data management method according to claim 5, characterized in that.
前記記憶装置において、前記中間データの削除ポリシーとして、データサイズ、最終アクセス時期、生成からの経過時間、および、データ復元に要する時間、の少なくともいずれかの項目に関する規定情報を格納して、
前記メタデータおよび前記生成用データを前記削除ポリシーに適用して、前記規定情報にマッチする中間データを、削除すべき中間データとして選定し、当該中間データの削除処理を実行する、
ことを特徴とする請求項6に記載の中間データ管理方法。 The information processing system
In the storage device, as the deletion policy of the intermediate data, the specified information regarding at least one of the items of data size, last access time, elapsed time from generation, and time required for data restoration is stored.
The metadata and the generation data are applied to the deletion policy, intermediate data matching the specified information is selected as intermediate data to be deleted, and the deletion process of the intermediate data is executed.
The intermediate data management method according to claim 6, characterized in that.
所定の中間データに関する、前記分析データ、前記メタデータ、および、前記生成用データに基づいて、当該中間データの復元処理を更に実行する、
ことを特徴とする請求項5に記載の中間データ管理方法。 The information processing system
Further executing the restoration process of the intermediate data based on the analysis data, the metadata, and the generation data of the predetermined intermediate data.
The intermediate data management method according to claim 5, characterized in that.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017178175A JP7010632B2 (en) | 2017-09-15 | 2017-09-15 | Intermediate data management system and intermediate data management method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017178175A JP7010632B2 (en) | 2017-09-15 | 2017-09-15 | Intermediate data management system and intermediate data management method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019053610A JP2019053610A (en) | 2019-04-04 |
JP7010632B2 true JP7010632B2 (en) | 2022-01-26 |
Family
ID=66014947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017178175A Active JP7010632B2 (en) | 2017-09-15 | 2017-09-15 | Intermediate data management system and intermediate data management method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7010632B2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004344232A (en) | 2003-05-20 | 2004-12-09 | Konica Minolta Medical & Graphic Inc | Medical image processor and method of detecting abnormal shadow candidate |
JP2011002911A (en) | 2009-06-16 | 2011-01-06 | Hitachi Ltd | Data analysis system and method |
JP2013126064A (en) | 2011-12-14 | 2013-06-24 | Nk Works Kk | Image processing program and image processing apparatus |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3147784B2 (en) * | 1996-08-30 | 2001-03-19 | 株式会社島津製作所 | Analytical data processing device |
JP3857409B2 (en) * | 1998-03-17 | 2006-12-13 | 富士通株式会社 | Distributed processing system, distributed processing method, and computer-readable recording medium recording distributed processing program |
-
2017
- 2017-09-15 JP JP2017178175A patent/JP7010632B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004344232A (en) | 2003-05-20 | 2004-12-09 | Konica Minolta Medical & Graphic Inc | Medical image processor and method of detecting abnormal shadow candidate |
JP2011002911A (en) | 2009-06-16 | 2011-01-06 | Hitachi Ltd | Data analysis system and method |
JP2013126064A (en) | 2011-12-14 | 2013-06-24 | Nk Works Kk | Image processing program and image processing apparatus |
Also Published As
Publication number | Publication date |
---|---|
JP2019053610A (en) | 2019-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6778795B2 (en) | Methods, devices and systems for storing data | |
JP5790412B2 (en) | Stateless distributed parallel crawl technique for interactive client-server applications | |
US20200065136A1 (en) | Design-time information based on run-time artifacts in a distributed computing cluster | |
JP5794107B2 (en) | Distributed computer system, interactive client-server application verification method and product | |
Bhardwaj et al. | Big data emerging technologies: A CaseStudy with analyzing twitter data using apache hive | |
JP6150453B2 (en) | Server apparatus, system, and log collection support method | |
JP2010140357A (en) | Stream data processing method, and system | |
CN108171473A (en) | A kind of Data Analysis Services system and data analysis processing method | |
CN103020089A (en) | Method and device for importing data in EXCEL file to database | |
JP2012099105A (en) | Technique for coordinating distributed parallel crawling of interactive client-server applications | |
CN112051993A (en) | State machine template generation and task processing method, device, medium and equipment | |
TW201329890A (en) | Processing method and system of shop visiting data | |
JP5858308B2 (en) | Database management system, computer, database management method | |
JP2008112311A (en) | Method and system for business process execution, and program | |
JP2014164618A (en) | Frequent pattern extraction device, frequent pattern extraction method, and program | |
JP7010632B2 (en) | Intermediate data management system and intermediate data management method | |
CN114327692A (en) | Task flow direction identification method and system, electronic equipment and storage medium | |
Ting et al. | Constructing a cloud computing based social networks data warehousing and analyzing system | |
JP5790411B2 (en) | Techniques for efficient partial crawling of interactive client-server applications in a parallel distributed environment | |
JP5655764B2 (en) | Sampling apparatus, sampling program, and method thereof | |
CN109389271B (en) | Application performance management method and system | |
CN105893445A (en) | Data processing method, server and terminal device | |
CN105022796B (en) | A kind of file traversal method, apparatus and system | |
JP5652282B2 (en) | Search control program, search control method, search system | |
KR101218927B1 (en) | Method for Monitoring User Sensory Performance of Web Service and Recording Medium Therefore and Computing Device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200625 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210525 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210608 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210727 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220113 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7010632 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |