JP6319694B2 - Data cache method, node device, and program - Google Patents
Data cache method, node device, and program Download PDFInfo
- Publication number
- JP6319694B2 JP6319694B2 JP2015159144A JP2015159144A JP6319694B2 JP 6319694 B2 JP6319694 B2 JP 6319694B2 JP 2015159144 A JP2015159144 A JP 2015159144A JP 2015159144 A JP2015159144 A JP 2015159144A JP 6319694 B2 JP6319694 B2 JP 6319694B2
- Authority
- JP
- Japan
- Prior art keywords
- operation sequence
- partial
- analysis
- node
- node device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 141
- 238000004458 analytical method Methods 0.000 claims description 176
- 238000000605 extraction Methods 0.000 claims description 28
- 238000012546 transfer Methods 0.000 claims description 19
- 238000013500 data storage Methods 0.000 claims description 7
- 238000007405 data analysis Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、構造化オーバレイシステムにおけるデータ解析を行う際のデータキャッシュ方法、当該データキャッシュ方法を実現するノード装置、及びそのプログラムに関する。 The present invention relates to a data cache method for performing data analysis in a structured overlay system, a node device that implements the data cache method, and a program thereof.
構造化オーバレイとは、ひとつの論理的なID空間を複数のノードで分担し管理する技術であり、Key Value Store等の分散データベースにて利用されている。構造化オーバレイにデータを配置する場合、当該データの名前をキーとし、当該キーを担当するノードに対して当該データを配置する。データをオーバレイから取得する場合、取得したいデータの名前をキーとし、オーバレイ上から当該キーを担当するノードを探し、データを取得する。本手法はHadoop(非特許文献1)、Jubatus(非特許文献3)といった大規模データ解析基盤等で用いられるデータの保存方法である。これらの解析基盤は、保存されているデータに対してMapReduce処理(非特許文献2)を行うことで高速かつ分散的にデータの解析を行うことができる。既存手法(非特許文献6)では、解析者がSQLライクな言語を用いて記述した解析手順をMapReduce処理に射影するPig(非特許文献7)と呼ばれるシステムにて、全ての解析手順と解析結果の対を保存しておくことで、新たな解析手順に対する解析結果の算出を高速化している。 Structured overlay is a technique for sharing and managing a single logical ID space by a plurality of nodes, and is used in a distributed database such as Key Value Store. When data is arranged in a structured overlay, the name of the data is used as a key, and the data is arranged for a node in charge of the key. When acquiring data from an overlay, the name of the data to be acquired is used as a key, and a node in charge of the key is searched from the overlay to acquire the data. This method is a data storage method used in large-scale data analysis infrastructures such as Hadoop (Non-Patent Document 1) and Jubatus (Non-Patent Document 3). These analysis infrastructures can perform data analysis at high speed and in a distributed manner by performing MapReduce processing (Non-Patent Document 2) on stored data. In the existing method (Non-Patent Document 6), all analysis procedures and results are analyzed in a system called Pig (Non-Patent Document 7) that projects an analysis procedure described by an analyst using an SQL-like language to MapReduce processing. By saving the pair, the calculation of analysis results for a new analysis procedure is accelerated.
しかし、非特許文献7のような高速化手法では、全ての解析手順と解析結果の対を保存するため、複雑かつ多様な解析の実行により解析結果の保存量(キャッシュ)が大きく増加し、ハードディスク容量が枯渇する可能性があるという課題がある。 However, in the high-speed technique such as Non-Patent Document 7, since all pairs of analysis procedures and analysis results are stored, the storage amount (cache) of analysis results greatly increases due to the execution of complicated and diverse analysis, and the hard disk There is a problem that the capacity may be depleted.
そこで、本発明は、上記課題を解決するべく、データ解析を高速化できるとともにハードディスク容量が枯渇する可能性を低減できるデータキャッシュ方法、ノード装置及びプログラムを提供することを目的とする。 Accordingly, an object of the present invention is to provide a data cache method, a node device, and a program that can increase the speed of data analysis and reduce the possibility that a hard disk capacity is exhausted in order to solve the above-described problems.
本発明に係るデータキャッシュ方法は、入力された解析手順とその解析結果を記録し、所定期間毎に、記録された解析手順から頻繁に利用される部分解析手順を抽出し、その後、抽出された部分解析手順を含む解析手順が入力された時に該部分解析手順の解析結果を保存しておき、新たに該部分解析手順を含む解析手順が入力された際に保存された解析結果を再利用することとした。 The data cache method according to the present invention records the input analysis procedure and the analysis result, extracts a frequently used partial analysis procedure from the recorded analysis procedure every predetermined period, and then extracts the extracted analysis procedure. When an analysis procedure including a partial analysis procedure is input, the analysis result of the partial analysis procedure is saved, and the analysis result stored when a new analysis procedure including the partial analysis procedure is input is reused. It was decided.
具体的には、本発明に係るデータキャッシュ方法は、複数のノード装置からなる木構造の構造化オーバレイシステムのデータキャッシュ方法であって、
前記ノード装置に入力された、前記構造化オーバレイシステムが蓄積する時系列データを解析する解析手順と前記解析手順で解析された解析結果を記録する全解析記録ステップと、
所定期間毎に、前記全解析記録ステップで記録した複数の前記解析手順から部分的に共通する部分操作列を抽出し、前記部分操作列を記録する部分操作列抽出ステップと、
前記部分操作列抽出ステップで記録した前記部分操作列を含む新たな解析手順が前記ノード装置に入力されたときに前記部分操作列で解析された解析結果を部分解析結果として記録する部分解析結果記録ステップと、
前記部分解析結果記録ステップの後に、前記部分操作列を含む新たな解析手順がさらに前記ノード装置に入力されたときに、前記部分解析結果記録ステップで記録した前記部分解析結果を利用して解析を行う解析結果再利用ステップと、
を行うことを特徴とする。
Specifically, a data cache method according to the present invention is a data cache method for a tree-structured structured overlay system comprising a plurality of node devices,
An analysis procedure for analyzing time-series data stored in the structured overlay system, input to the node device, and an entire analysis recording step for recording an analysis result analyzed by the analysis procedure;
A partial operation sequence extracting step for extracting a partial common operation sequence from a plurality of the analysis procedures recorded in the entire analysis recording step every predetermined period, and recording the partial operation sequence;
Partial analysis result recording that records the analysis result analyzed in the partial operation sequence as a partial analysis result when a new analysis procedure including the partial operation sequence recorded in the partial operation sequence extraction step is input to the node device Steps,
When a new analysis procedure including the partial operation sequence is further input to the node device after the partial analysis result recording step, an analysis is performed using the partial analysis result recorded in the partial analysis result recording step. Analysis result reuse step to be performed;
It is characterized by performing.
また、本発明に係るノード装置は、木構造の構造化オーバレイシステムを構成するノード装置であって、
キャッシュストレージと、
時系列データを保存するデータストレージと、
前記構造化オーバレイシステム上にて木構造を辿ることで特定の時系列データを探索する経路制御モジュールと、
入力された、前記構造化オーバレイシステムが蓄積する時系列データを解析する解析手順と前記解析手順で解析された解析結果を前記キャッシュストレージに記録させること、
所定期間毎に、前記キャッシュストレージが記録した複数の前記解析手順に部分的に共通する部分操作列を抽出し、前記部分操作列を前記キャッシュストレージに記録させること、
前記部分操作列を含む新たな解析手順が入力されたときに前記部分操作列で解析された解析結果を部分解析結果として前記キャッシュストレージに記録させること、及び
前記部分操作列を含む新たな解析手順がさらに入力されたときに、前記キャッシュストレージが記録する前記部分解析結果を利用して解析すること
を行うコントローラと、
を備えることを特徴とする。
A node device according to the present invention is a node device that constitutes a structured overlay system having a tree structure,
Cache storage,
Data storage to store time series data;
A path control module for searching for specific time series data by following a tree structure on the structured overlay system;
An analysis procedure for analyzing time-series data accumulated by the structured overlay system and an analysis result analyzed by the analysis procedure are recorded in the cache storage;
Extracting a partial operation sequence that is partially common to a plurality of the analysis procedures recorded by the cache storage for each predetermined period, and recording the partial operation sequence in the cache storage;
Recording an analysis result analyzed in the partial operation sequence in the cache storage as a partial analysis result when a new analysis procedure including the partial operation sequence is input; and a new analysis procedure including the partial operation sequence A controller that performs analysis using the partial analysis result recorded by the cache storage,
It is characterized by providing.
本発明は、多数のサーバにて構築される木構造の構造化オーバレイに蓄積されているトラフィックデータやセンサデータ等の時系列データ解析する際に、過去の解析手順から頻繁に利用される解析手順(部分操作列)とその結果を記録しておき、新たな解析手順が投入された場合、過去の解析手順(部分操作列)の結果を再利用することで、解析時間を短縮する。また、本発明は、頻繁に利用される部分操作列とその結果のみを記録するため、キャッシュ容量を低減できる。 The present invention is an analysis procedure that is frequently used from past analysis procedures when analyzing time-series data such as traffic data and sensor data stored in a structured overlay of a tree structure constructed by a large number of servers. (Partial operation sequence) and the result thereof are recorded, and when a new analysis procedure is input, the analysis time is shortened by reusing the result of the past analysis procedure (partial operation sequence). Further, since the present invention records only the frequently used partial operation sequence and its result, the cache capacity can be reduced.
従って、本発明は、データ解析を高速化できるとともにハードディスク容量が枯渇する可能性を低減できるデータキャッシュ方法及びノード装置を提供することができる。 Therefore, the present invention can provide a data cache method and a node device that can speed up data analysis and reduce the possibility of the hard disk capacity being exhausted.
本発明に係るデータキャッシュ方法は、前記部分操作列抽出ステップで抽出した前記部分操作列を前記ノード装置の上位にある上位ノード装置へ転送する上位転送ステップをさらに行うことを特徴とする。 The data cache method according to the present invention further includes a higher transfer step of transferring the partial operation sequence extracted in the partial operation sequence extraction step to an upper node device above the node device.
本発明に係るデータキャッシュ方法は、
前記上位ノード装置で、一定期間毎に、複数の前記ノード装置から前記上位転送ステップで転送されてきた複数の前記部分操作列から部分的に共通するノード間共通操作列を抽出するノード間共通操作列抽出ステップと、
前記ノード間共通操作列抽出ステップで抽出した前記ノード間共通操作列を前記部分操作列として前記ノード装置に記録させるため、前記上位ノード装置から前記ノード装置へ前記ノード間共通操作列を転送する下位転送ステップと、
を行うことを特徴とする。
The data cache method according to the present invention includes:
Inter-node common operation for extracting a partially common inter-node operation sequence from the plurality of partial operation sequences transferred in the upper transfer step from a plurality of the node devices at a certain period in the upper node device. A column extraction step;
A subordinate that transfers the inter-node common operation sequence from the upper node device to the node device in order to cause the node device to record the inter-node common operation sequence extracted in the inter-node common operation sequence extraction step as the partial operation sequence A transfer step;
It is characterized by performing.
また、本発明に係るノード装置の前記コントローラは、抽出した前記部分操作列を自装置の上位にある上位ノード装置へ転送することを特徴とする。 Further, the controller of the node device according to the present invention transfers the extracted partial operation sequence to a higher-level node device that is higher than the own device.
本発明に係るノード装置の前記コントローラは、
前記上位ノード装置が、一定期間毎に抽出した、複数の前記部分操作列に部分的に共通するノード間共通操作列を受け取り、前記ノード間共通操作列を前記部分操作列として前記キャッシュストレージに記憶させること、をさらに行うことを特徴とする。
The controller of the node device according to the present invention includes:
The upper node apparatus receives an inter-node common operation sequence that is partially common to a plurality of the partial operation sequences extracted every predetermined period, and stores the inter-node common operation sequence as the partial operation sequence in the cache storage. Is further performed.
本発明は、時系列データの特徴である近接性(近い時間のデータ同士は相関関係が強い)を考慮し、近い時間の時系列データを保存しているサーバ間で頻繁に利用される解析手順(部分操作列)を共有しておくことで、互いの解析手順(部分操作列)の再利用性を向上させる。 The present invention takes into account the proximity that is characteristic of time-series data (data of close time has a strong correlation), and is an analysis procedure frequently used between servers that store time-series data of close time By sharing (partial operation sequence), the reusability of each analysis procedure (partial operation sequence) is improved.
本発明に係るプログラムは、データキャッシュ方法をコンピュータに実行させるためのプログラムである。前記ノード装置は、コンピュータと本プログラムによっても実現でき、本プログラムを記録媒体に記録することも、ネットワークを通して提供することも可能である。 The program according to the present invention is a program for causing a computer to execute the data cache method. The node device can be realized by a computer and the program, and the program can be recorded on a recording medium or provided through a network.
本発明は、データ解析を高速化できるとともにハードディスク容量が枯渇する可能性を低減できるデータキャッシュ方法、ノード装置及びプログラムを提供することができる。 The present invention can provide a data cache method, a node device, and a program that can increase the speed of data analysis and reduce the possibility of the hard disk capacity being exhausted.
添付の図面を参照して本発明の実施形態を説明する。以下に説明する実施形態は本発明の実施例であり、本発明は、以下の実施形態に制限されるものではない。なお、本明細書及び図面において符号が同じ構成要素は、相互に同一のものを示すものとする。 Embodiments of the present invention will be described with reference to the accompanying drawings. The embodiments described below are examples of the present invention, and the present invention is not limited to the following embodiments. In the present specification and drawings, the same reference numerals denote the same components.
図1は、本実施形態のノード装置の構成を説明する図である。本ノード装置は、木構造の構造化オーバレイシステムを構成するノード装置であって、
キャッシュストレージ30と、
時系列データを保存するデータストレージ40と、
前記構造化オーバレイシステム上にて木構造を辿ることで特定の時系列データを探索する経路制御モジュール10と、
入力された、前記構造化オーバレイシステムが蓄積する時系列データを解析する解析手順と前記解析手順で解析された解析結果をキャッシュストレージ30に記録させること、
所定期間毎に、キャッシュストレージ30が記録した複数の前記解析手順に部分的に共通する部分操作列を抽出し、前記部分操作列をキャッシュストレージ30に記録させること、
前記部分操作列を含む新たな解析手順が入力されたときに前記部分操作列で解析された解析結果を部分解析結果としてキャッシュストレージ30に記録させること、及び
前記部分操作列を含む新たな解析手順がさらに入力されたときに、キャッシュストレージ30が記録する前記部分解析結果を利用して解析すること
を行うキャッシュストレージコントローラ20と、
を備えることを特徴とする。
FIG. 1 is a diagram illustrating the configuration of the node device according to the present embodiment. This node device is a node device constituting a structured overlay system of a tree structure,
A
A
An analysis procedure for analyzing the input time series data stored in the structured overlay system and an analysis result analyzed by the analysis procedure are recorded in the
Extracting a partial operation sequence that is partially common to the plurality of analysis procedures recorded by the
Recording an analysis result analyzed in the partial operation sequence in the
It is characterized by providing.
また、本ノード装置が行うデータキャッシュ方法は、次の通りである。本データキャッシュ方法は、複数のノード装置からなる木構造の構造化オーバレイシステムのデータキャッシュ方法であって、
前記ノード装置に入力された、前記構造化オーバレイシステムが蓄積する時系列データを解析する解析手順と前記解析手順で解析された解析結果を記録する全解析記録ステップと、
所定期間毎に、前記全解析記録ステップで記録した複数の前記解析手順から部分的に共通する部分操作列を抽出し、前記部分操作列を記録する部分操作列抽出ステップと、
前記部分操作列抽出ステップで記録した前記部分操作列を含む新たな解析手順が前記ノード装置に入力されたときに前記部分操作列で解析された解析結果を部分解析結果として記録する部分解析結果記録ステップと、
前記部分解析結果記録ステップの後に、前記部分操作列を含む新たな解析手順がさらに前記ノード装置に入力されたときに、前記部分解析結果記録ステップで記録した前記部分解析結果を利用して解析を行う解析結果再利用ステップと、
を行うことを特徴とする。
The data cache method performed by the node device is as follows. The data cache method is a data cache method for a structured tree overlay system comprising a plurality of node devices,
An analysis procedure for analyzing time-series data stored in the structured overlay system, input to the node device, and an entire analysis recording step for recording an analysis result analyzed by the analysis procedure;
A partial operation sequence extracting step for extracting a partial common operation sequence from a plurality of the analysis procedures recorded in the entire analysis recording step every predetermined period, and recording the partial operation sequence;
Partial analysis result recording that records the analysis result analyzed in the partial operation sequence as a partial analysis result when a new analysis procedure including the partial operation sequence recorded in the partial operation sequence extraction step is input to the node device Steps,
When a new analysis procedure including the partial operation sequence is further input to the node device after the partial analysis result recording step, an analysis is performed using the partial analysis result recorded in the partial analysis result recording step. Analysis result reuse step to be performed;
It is characterized by performing.
経路制御モジュール10は、木構造を持つ構造化オーバレイにおける経路制御モジュールであり、構造化オーバレイ上にて、特定のIDを持つデータ等を、木構造の親子関係を辿ることによって探索する機能を持っている。木の末端のノードはIDを持ち、ノードi(0≦i<ID_Space_Size)のIDをXiとする。ID空間は0とID_Space_Sizeにて連結しており、リング構造をもっているものとする。この時、Xiから右回りにもっとも近いノードをノードiのSuccessor(ID: suci)と呼び、ノードiの担当領域は[Xi, suci)となる。なお、[A,B)はA以上B未満を意味し、(A,B]はAより大きくB以下を意味する。
The
木の節に当たるノードは自身の下に存在するノードの担当領域を記録しておく。これらの木構造のオーバレイの例を図2に示す。図2において、符号A〜Gで示した装置がノード装置である。本実施形態では、時系列データを構造化オーバレイにて管理することを想定するため、ID空間の大きさは[0, 86400)とし、時系列データは時間(秒)をキーとしてデータストレージ40に保存されているものとする。
The node corresponding to the node of the tree records the area in charge of the node existing under the node. Examples of these tree-structured overlays are shown in FIG. In FIG. 2, devices indicated by reference signs A to G are node devices. In this embodiment, since it is assumed that the time series data is managed by the structured overlay, the size of the ID space is [0, 86400), and the time series data is stored in the
キャッシュストレージ30では、自身の担当領域内のデータに対する解析手順と解析結果を格納するストレージであり、キャッシュストレージコントローラ20は、解析手順と解析結果をキャッシュストレージ30に格納するか否かを決定する。提案手法はキャッシュストレージ30とキャッシュストレージコントローラ20にて達成されるため、以下ではこれらの詳細について述べる。
The
キャッシュストレージコントローラ20は、部分操作列抽出部21、解析手順実行部22、及び情報共有部23から構成される。ここで、(p, q] p≠qの時間範囲のデータに対して、解析手順{A−B−C−D}を実行することを考える。ここでの、AやBは、「ある特徴量を数え上げる」といったデータに対する操作を示しており、{X−Y−Z}はX,Y,Zの順で操作することを示している。本解析手順は、(p, q]を包含する担当領域を持つノードのキャッシュストレージコントローラ20にて実行される。
The
1.解析手順実行部
図3は、解析手順実行部22の動作を説明する図である。
まず、解析手順{A−B−C−D}が入力された際、解析手順実行部22にて、過去に同じ解析手順が入力されたかどうかを判断する(S01)。もし、入力された解析手順が過去に行われていなければ、データストレージ40から当該解析手順に該当するデータを読み込み(S02)、解析を行った結果を
First, when the analysis procedure {ABCD} is input, the analysis
以降、解析手順実行部22は、ノード装置に入力された解析手順についてキャッシュストレージ30に確認する(S04)。そして、解析手順実行部22は、当該解析手順がキャッシュストレージ30に格納されていた場合、当該キャッシュを読み込むこと(S05)で、過去と重複する解析手順(データ解析を行い解析結果を取得すること)を省略する。
Thereafter, the analysis
また、解析手順実行部22は、後述する部分操作列抽出部21で頻度が高いと判定された部分操作列を含む解析手順が入力された場合、当該部分操作列で解析した結果(部分解析結果)をキャッシュストレージ30に書き込む。
Further, when an analysis procedure including a partial operation sequence that is determined to be high in frequency by the partial operation
2.部分操作列抽出部
図4は、部分操作列抽出部21の動作を説明する図である。
解析手順と解析結果を記憶し続けると、キャッシュによってハードディスクの容量が枯渇する可能性がある。このため、本実施形態では、部分操作列抽出部21が所定期間毎に、上記の解析手順と解析結果から頻繁に解析される手順を部分操作列として抽出し(S06)、キャッシュストレージ30に書き込む(S07)。ステップS06及びS07は前記部分操作列抽出ステップである。
2. Partial Operation Sequence Extraction Unit FIG. 4 is a diagram for explaining the operation of the partial operation
If the analysis procedure and the analysis result are continuously stored, the capacity of the hard disk may be exhausted by the cache. For this reason, in this embodiment, the partial operation
具体的には、k(>0)回以上出現する(手順長がl以上)部分手順をまとめて抽出することにする。手順長とは解析手順内に存在するデータ操作回数を示し、{A−B−C}の解析手順の手順長さは3である。図5は、部分操作列抽出部21が行う部分操作列の抽出方法を説明する図である。
Step 1:
全ての解析手順から、トライ木を作成し、共有操作をまとめる。また、各操作を何回行ったかを保存する。
Step 2:
作成したトライ木から、k回以上出現し、かつ手順長がl以上の部分操作列を取得する。
図5の例では、{A−B}と{C−A}の部分操作列を抽出することができた。
Specifically, partial procedures appearing k (> 0) times or more (procedure length is 1 or more) are collectively extracted. The procedure length indicates the number of data manipulations existing in the analysis procedure, and the procedure length of the analysis procedure of {ABC} is 3. FIG. 5 is a diagram illustrating a partial operation sequence extraction method performed by the partial operation
Step 1:
From all analysis procedures, create a trie tree and summarize sharing operations. Also, how many times each operation has been performed is stored.
Step 2:
A partial operation sequence that appears k times or more and has a procedure length of 1 or more is acquired from the created trie tree.
In the example of FIG. 5, the partial operation sequences {AB} and {CA} could be extracted.
そして、部分操作列抽出部21は、抽出した部分操作列をキャッシュストレージ30に記憶させた後、前記所定期間内に解析手順実行部22がキャッシュストレージ30に記憶させた解析手順と解析結果を削除する。
The partial operation
解析手順実行部22は、新たに解析手順が入力されたときに当該解析手順についてキャッシュストレージ30を確認し(S08)、当該解析手順が抽出された実行頻度の高い部分操作列を含む場合(S09)、キャッシュストレージ30に当該部分操作列の部分解析結果を保存しておく(S10)。ステップS08〜S10は前記部分解析結果記録ステップである。
The analysis
例えば、ある範囲(r, s]に対する解析手順が入力された際、解析手順実行部22は、当該解析手順に先頭から{A−B}と{C−A}を含む場合、キャッシュストレージ30に当該解析結果(部分解析結果)を保存しておく。例えば、解析手順C−A−Dが入力された場合、解析手順実行部22は、
本データキャッシュ方法によって、頻繁に利用される解析結果を再利用し、解析結果の高速化を達成することができる(解析結果再利用ステップ)。また、全ての解析手順とその結果を保存するのではなく、頻繁に利用される解析手順の部分列を保存することで、キャッシュの再利用率を向上させることができるとともに、ハードディスク容量が枯渇する可能性を低減することができる。 By this data cache method, it is possible to reuse frequently used analysis results and achieve high speed analysis results (analysis result reuse step). Also, instead of saving all analysis procedures and their results, saving a partial sequence of frequently used analysis procedures can improve the cache reuse rate and deplete hard disk space. The possibility can be reduced.
3.情報共有部
図4及び図6は、情報共有部23の動作を説明する図である。
キャッシュストレージコントローラ20は、抽出した前記部分操作列を自装置の上位にある上位ノード装置へ転送し、前記上位ノード装置が、一定期間毎に抽出した、複数の前記部分操作列に部分的に共通するノード間共通操作列を受け取り、前記ノード間共通操作列を前記部分操作列として前記キャッシュストレージに記憶させる。
3. Information Sharing Unit FIGS. 4 and 6 are diagrams for explaining the operation of the
The
また、本ノード装置が行うデータキャッシュ方法は、次の通りである。本データキャッシュ方法は、
前記部分操作列抽出ステップで抽出した前記部分操作列を前記ノード装置の上位にある上位ノード装置へ転送する上位転送ステップと、
前記上位ノード装置で、一定期間毎に、複数の前記ノード装置から前記上位転送ステップで転送されてきた複数の前記部分操作列から部分的に共通するノード間共通操作列を抽出するノード間共通操作列抽出ステップと、
前記ノード間共通操作列抽出ステップで抽出した前記ノード間共通操作列を前記部分操作列として前記ノード装置に記録させるため、前記上位ノード装置から前記ノード装置へ前記ノード間共通操作列を転送する下位転送ステップと、
をさらに行う。
The data cache method performed by the node device is as follows. This data caching method is
An upper transfer step of transferring the partial operation sequence extracted in the partial operation sequence extraction step to an upper node device above the node device;
Inter-node common operation for extracting a partially common inter-node operation sequence from the plurality of partial operation sequences transferred in the upper transfer step from a plurality of the node devices at a certain period in the upper node device. A column extraction step;
A subordinate that transfers the inter-node common operation sequence from the upper node device to the node device in order to cause the node device to record the inter-node common operation sequence extracted in the inter-node common operation sequence extraction step as the partial operation sequence A transfer step;
Do further.
時系列データは一般的に、近い時間同士に特定の相関がみられると考えられており(非特許文献8)、似たデータ同士に対しては、類似する解析が行われると考えられる。そのため、情報共有部23は、各ノード装置が調べた頻度の高い部分操作列を他のノード装置と共有することにする。
Time series data is generally considered to have a specific correlation between close times (Non-Patent Document 8), and it is considered that similar analysis is performed on similar data. For this reason, the
図4と図6に共有方法の例を示す。
部分操作列抽出部21は、抽出した頻度の高い部分操作列を情報共有部23へ引き渡す(S11)。各ノード装置の情報共有部23は、当該部分操作列を自装置の上位にある上位ノード装置(親ノード)の情報共有部23に対して送信する(S12)。ステップS11及びS12は前記上位転送ステップである。
4 and 6 show examples of sharing methods.
The partial operation
親ノードは、当該部分操作列を親ノードのキャッシュストレージ30に記憶する(S13)。そして、親ノードの部分操作列抽出部21は一定期間毎に部分操作列を読み込み、その中でも頻度の高い部分操作列を見出す(S14、S15)。ステップS14及びS15は前記ノード間共通操作列抽出ステップである。例えば、部分操作列抽出部21は親ノード自身のlとkの条件を満たす部分操作列を探し出す。
The parent node stores the partial operation sequence in the
そして、親ノードの部分操作列抽出部21は探し出した部分操作列を親ノードの情報共有部23へ引き渡し(S16)、情報共有部23は配下の子ノード間で当該部分操作列を共有させる(S17)。子ノードの情報共有部23は親ノードから受信した部分操作列もキャッシュストレージ30に保持しておく。ステップS16及びS17は前記下位転送ステップである。
Then, the partial operation
子ノードは、自身で抽出した部分操作列と親ノードから転送された部分操作列とを保持しており、自身のある範囲(v, w]に対する解析手順が入力され際に、先頭から{A−B}と{C−A}と{K−A}を含む場合、キャッシュストレージ30に当該部分解析結果を保存しておく。例えば、解析手順{C−A−B}が入力された場合、
この時、例えば、解析手順{C−K−A}のように、{K−A}が含まれているものの先頭から一致しない解析手順が入力された場合、解析手順実行部22は当該部分操作列{K−A}の部分解析結果を保存しない。
At this time, for example, when an analysis procedure that includes {KA} but does not match from the beginning is input as in the analysis procedure {CKA}, the analysis
なお、各親ノードが抽出した部分操作列を、さらに上位の親ノードに共有させてもよい。 The partial operation sequence extracted by each parent node may be shared by a higher-order parent node.
なお、本データキャッシュ方法の全解析記録ステップは、図3のS01〜S03に相当し、部分操作列抽出ステップは図4のS06〜S07に相当し、部分解析結果記録ステップは図4のS08〜S10に相当する。
また、上位転送ステップは図4のS11〜S12に相当し、ノード間共通操作列抽出ステップは図4のS14〜S15に相当し、下位転送ステップは図4のS16〜S17に相当する。
Note that the entire analysis recording step of this data cache method corresponds to S01 to S03 in FIG. 3, the partial operation sequence extraction step corresponds to S06 to S07 in FIG. 4, and the partial analysis result recording step corresponds to S08 to S08 in FIG. This corresponds to S10.
Also, the upper transfer step corresponds to S11 to S12 in FIG. 4, the inter-node common operation sequence extraction step corresponds to S14 to S15 in FIG. 4, and the lower transfer step corresponds to S16 to S17 in FIG.
4.プログラム
本プログラムは、上記データキャッシュ方法をコンピュータに実行させるためのプログラムである。ネットワーク等で接続された複数のコンピュータに本プログラムを実行させることで上記データキャッシュ方法を実現できる。
4). Program This program is a program for causing a computer to execute the data cache method. The data cache method can be realized by causing a plurality of computers connected via a network or the like to execute the program.
(効果)
本発明は、多数のサーバにて構築される木構造の構造化オーバレイに蓄積されているトラフィックデータやセンサデータ等の時系列データ解析する際に、過去の解析手順から頻繁に利用される解析手順とその結果を記録しておき、新たな解析手順が投入された場合、過去の似た解析手順の結果を再利用することで、解析時間を短縮する技術に関する。また、時系列データの特徴である近接性(近い時間のデータ同士は相関関係が強い)を考慮し、近い時間の時系列データを保存しているサーバ間で頻繁に利用される解析手順を共有しておくことで、互いの解析手順の再利用性を向上させる。
(effect)
The present invention is an analysis procedure that is frequently used from past analysis procedures when analyzing time-series data such as traffic data and sensor data stored in a structured overlay of a tree structure constructed by a large number of servers. And a result thereof, and when a new analysis procedure is input, the present invention relates to a technique for shortening the analysis time by reusing the result of a similar analysis procedure in the past. In addition, considering the proximity that is characteristic of time series data (short time data has a strong correlation), frequently used analysis procedures are shared between servers that store time series data of near time This improves the reusability of each other's analysis procedures.
10:経路制御モジュール
20:キャッシュストレージコントローラ
21:部分操作列抽出部
22:解析手順実行部
23:情報共有部
30:キャッシュストレージ
40:データストレージ
10: Path control module 20: Cache storage controller 21: Partial operation sequence extraction unit 22: Analysis procedure execution unit 23: Information sharing unit 30: Cache storage 40: Data storage
Claims (7)
前記ノード装置に入力された、前記構造化オーバレイシステムが蓄積する時系列データを解析する解析手順と前記解析手順で解析された解析結果を記録する全解析記録ステップと、
所定期間毎に、前記全解析記録ステップで記録した複数の前記解析手順から部分的に共通する部分操作列を抽出し、前記部分操作列を記録する部分操作列抽出ステップと、
前記部分操作列抽出ステップで記録した前記部分操作列を含む新たな解析手順が前記ノード装置に入力されたときに前記部分操作列で解析された解析結果を部分解析結果として記録する部分解析結果記録ステップと、
前記部分解析結果記録ステップの後に、前記部分操作列を含む新たな解析手順がさらに前記ノード装置に入力されたときに、前記部分解析結果記録ステップで記録した前記部分解析結果を利用して解析を行う解析結果再利用ステップと、
を行うことを特徴とするデータキャッシュ方法。 A data cache method for a tree structured overlay system comprising a plurality of node devices, comprising:
An analysis procedure for analyzing time-series data stored in the structured overlay system, input to the node device, and an entire analysis recording step for recording an analysis result analyzed by the analysis procedure;
A partial operation sequence extracting step for extracting a partial common operation sequence from a plurality of the analysis procedures recorded in the entire analysis recording step every predetermined period, and recording the partial operation sequence;
Partial analysis result recording that records the analysis result analyzed in the partial operation sequence as a partial analysis result when a new analysis procedure including the partial operation sequence recorded in the partial operation sequence extraction step is input to the node device Steps,
When a new analysis procedure including the partial operation sequence is further input to the node device after the partial analysis result recording step, an analysis is performed using the partial analysis result recorded in the partial analysis result recording step. Analysis result reuse step to be performed;
And a data cache method.
をさらに行うことを特徴とする請求項1に記載のデータキャッシュ方法。 An upper transfer step of transferring the partial operation sequence extracted in the partial operation sequence extraction step to an upper node device above the node device;
The data cache method according to claim 1, further comprising:
前記ノード間共通操作列抽出ステップで抽出した前記ノード間共通操作列を前記部分操作列として前記ノード装置に記録させるため、前記上位ノード装置から前記ノード装置へ前記ノード間共通操作列を転送する下位転送ステップと、
を行うことを特徴とする請求項2に記載のデータキャッシュ方法。 Inter-node common operation for extracting a partially common inter-node operation sequence from the plurality of partial operation sequences transferred in the upper transfer step from a plurality of the node devices at a certain period in the upper node device. A column extraction step;
A subordinate that transfers the inter-node common operation sequence from the upper node device to the node device in order to cause the node device to record the inter-node common operation sequence extracted in the inter-node common operation sequence extraction step as the partial operation sequence A transfer step;
The data cache method according to claim 2, wherein:
キャッシュストレージと、
時系列データを保存するデータストレージと、
前記構造化オーバレイシステム上にて木構造を辿ることで特定の時系列データを探索する経路制御モジュールと、
入力された、前記構造化オーバレイシステムが蓄積する時系列データを解析する解析手順と前記解析手順で解析された解析結果を前記キャッシュストレージに記録させること、
所定期間毎に、前記キャッシュストレージが記録した複数の前記解析手順に部分的に共通する部分操作列を抽出し、前記部分操作列を前記キャッシュストレージに記録させること、
前記部分操作列を含む新たな解析手順が入力されたときに前記部分操作列で解析された解析結果を部分解析結果として前記キャッシュストレージに記録させること、及び
前記部分操作列を含む新たな解析手順がさらに入力されたときに、前記キャッシュストレージが記録する前記部分解析結果を利用して解析すること
を行うコントローラと、
を備えることを特徴とするノード装置。 A node device constituting a structured overlay system having a tree structure,
Cache storage,
Data storage to store time series data;
A path control module for searching for specific time series data by following a tree structure on the structured overlay system;
An analysis procedure for analyzing time-series data accumulated by the structured overlay system and an analysis result analyzed by the analysis procedure are recorded in the cache storage;
Extracting a partial operation sequence that is partially common to a plurality of the analysis procedures recorded by the cache storage for each predetermined period, and recording the partial operation sequence in the cache storage;
Recording an analysis result analyzed in the partial operation sequence in the cache storage as a partial analysis result when a new analysis procedure including the partial operation sequence is input; and a new analysis procedure including the partial operation sequence A controller that performs analysis using the partial analysis result recorded by the cache storage,
A node device comprising:
前記上位ノード装置が、一定期間毎に抽出した、複数の前記部分操作列に部分的に共通するノード間共通操作列を受け取り、前記ノード間共通操作列を前記部分操作列として前記キャッシュストレージに記憶させること、をさらに行うことを特徴とする請求項5に記載のノード装置。 The controller is
The upper node apparatus receives an inter-node common operation sequence that is partially common to a plurality of the partial operation sequences extracted every predetermined period, and stores the inter-node common operation sequence as the partial operation sequence in the cache storage. The node device according to claim 5, further comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015159144A JP6319694B2 (en) | 2015-08-11 | 2015-08-11 | Data cache method, node device, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015159144A JP6319694B2 (en) | 2015-08-11 | 2015-08-11 | Data cache method, node device, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017037532A JP2017037532A (en) | 2017-02-16 |
JP6319694B2 true JP6319694B2 (en) | 2018-05-09 |
Family
ID=58047343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015159144A Active JP6319694B2 (en) | 2015-08-11 | 2015-08-11 | Data cache method, node device, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6319694B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6900265B2 (en) * | 2017-07-20 | 2021-07-07 | 株式会社日立製作所 | Data analysis system and data analysis method |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7676453B2 (en) * | 2004-04-22 | 2010-03-09 | Oracle International Corporation | Partial query caching |
US8126873B2 (en) * | 2007-04-13 | 2012-02-28 | International Business Machines Corporation | Portable and iterative re-usable suboptimization of database queries |
EP2146292B8 (en) * | 2008-07-18 | 2019-03-20 | QlikTech International AB | Method and apparatus for extracting information from a database |
JP5229731B2 (en) * | 2008-10-07 | 2013-07-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Cache mechanism based on update frequency |
JP5552449B2 (en) * | 2011-01-31 | 2014-07-16 | 日本電信電話株式会社 | Data analysis and machine learning processing apparatus, method and program |
JP5818263B2 (en) * | 2012-05-10 | 2015-11-18 | 日本電信電話株式会社 | Data distributed management system, apparatus, method and program |
-
2015
- 2015-08-11 JP JP2015159144A patent/JP6319694B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017037532A (en) | 2017-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11558487B2 (en) | Methods and systems for stream-processing of biomedical data | |
JP6697392B2 (en) | Transparent discovery of semi-structured data schema | |
US10540606B2 (en) | Consistent filtering of machine learning data | |
Petrenko et al. | Big data technologies for cybersecurity | |
JP6028857B2 (en) | Data stream processing parallelization program and data stream processing parallelization system | |
US10552460B2 (en) | Sensor data management apparatus, sensor data management method, and computer program product | |
US20150120637A1 (en) | Apparatus and method for analyzing bottlenecks in data distributed data processing system | |
JP5773493B2 (en) | Information processing device | |
US11526502B1 (en) | Parameterized disjoint samples of data sets | |
US10628305B2 (en) | Determining a data layout in a log structured storage system | |
US10599472B2 (en) | Information processing apparatus, stage-out processing method and recording medium recording job management program | |
JP6319694B2 (en) | Data cache method, node device, and program | |
JP2012242975A (en) | Distributed parallel processing cache device and method, resource management node and program | |
JP2018132948A (en) | Loading program, loading method, and information processing device | |
US9286348B2 (en) | Dynamic search system | |
US11061704B2 (en) | Lightweight and precise value profiling | |
US10031946B2 (en) | Limiting tuple creation at the tuple level | |
CN111061719B (en) | Data collection method, device, equipment and storage medium | |
US10606757B2 (en) | Method, device and computer program product for flushing metadata in multi-core system | |
JP5472885B2 (en) | Program, stream data processing method, and stream data processing computer | |
US8966220B2 (en) | Optimizing large page processing | |
US20180107677A1 (en) | Method and technique of achieving extraordinarily high insert throughput | |
KR102024846B1 (en) | File system program and method for controlling data cener using it | |
US20240078221A1 (en) | Systems and methods of modeling and querying dynamic temporal graph on massive parallel graph processing and storage engine | |
Mamatha et al. | A Survey on Big Data Analytics Using HADOOP |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170629 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20170629 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180312 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180320 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180323 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6319694 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |