JP2020024509A - 情報処理装置及び情報処理プログラム、並びに分散処理システム - Google Patents
情報処理装置及び情報処理プログラム、並びに分散処理システム Download PDFInfo
- Publication number
- JP2020024509A JP2020024509A JP2018147821A JP2018147821A JP2020024509A JP 2020024509 A JP2020024509 A JP 2020024509A JP 2018147821 A JP2018147821 A JP 2018147821A JP 2018147821 A JP2018147821 A JP 2018147821A JP 2020024509 A JP2020024509 A JP 2020024509A
- Authority
- JP
- Japan
- Prior art keywords
- time
- data
- area
- amount
- series data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Complex Calculations (AREA)
Abstract
【課題】エリア内の機器から得られる入力データ量を精度よく見積もる。【解決手段】情報処理装置の相関パラメータ算出部は、エリアi内のデバイスからの入力データ量の時系列データと、エリアiに対して地理的に隣接するエリアh内のデバイスからの入力データ量の時系列データとに基づいて、エリアhの時系列データに生じた変動に対応する変動がエリアiの時系列データに現れるまでに要する所要時間(時間差τ)を算出する。また、相関パラメータ算出部は、エリアi,hの時系列データに基づいて、所定時刻におけるエリアiの入力データ量と、所定時刻より時間差τだけ前の時刻におけるエリアhの入力データ量と、の関係を示す関係式を導出する。そして、中間データ量見積部は、関係式を用いて、時刻tよりも時間差τだけ前の時刻におけるエリアhの入力データ量から、時刻tにおけるエリアiの入力データ量を見積もる。【選択図】図8
Description
本発明は、情報処理装置及び情報処理プログラム、並びに分散処理システムに関する。
現在、ネットワークに接続された複数のノード(例えば、複数のコンピュータ)を並列に動作させてデータ処理を行う並列データ処理システムが利用されている。並列データ処理システムは、例えば、データを分割して複数のノードに分散して割り当て、ノード間で独立にデータ処理を行うことで、データ処理を高速化する。並列データ処理システムは、いわゆるクラウドコンピューティングのシステムとして実現されることがある。並列データ処理システムに実行させるプログラムの作成を支援するため、Map/Reduceなどのフレームワークが提案されている。
Map/Reduceで定義されるデータ処理は、Map処理とReduce処理という2種類の処理を含む。Map/Reduceでは、まず、入力データが複数の部分集合に分割され、入力データの部分集合毎にMap処理が起動される。Map処理間には依存関係がないため、複数のMap処理は並列化可能である。次に、複数のMap処理の結果出力される中間データに含まれるレコードを、キーに応じて分類することで、中間データの集合が複数の部分集合に分割される。このとき、Map処理を行ったノードとReduce処理を行うノードの間で、中間データのレコードが転送され得る。そして、中間データの部分集合毎にReduce処理が起動される。Reduce処理は、例えば、同じキーをもつ複数のレコードの値(バリュー)を集計する。Reduce処理間には依存関係がないため、複数のReduce処理は並列化可能である。
Reduce処理を行うノードを決定するためには、Map処理により出力される中間データのデータ量を把握する必要がある。このため、Map処理が完了した後にReduce処理を行うノードを決定することが多い。
これに対し、入力データ量や中間データ量が不変な状況下においては、1回目のReduce処理を行ったノードを、そのまま2回目以降のReduce処理においても用いる方法が知られている。しかしながら、入力データ量や中間データ量が変動する場合には、この方法を採用することはできない。
また、中間データ量を過去の中間データ量に基づいて統計的に見積もる方法も知られている。しかしながら、入力データ量が急激に変動するような場合には対応することができない。
1つの側面では、本発明は、エリア内の機器から得られるデータ量を精度よく見積もることが可能な情報処理装置及び情報処理プログラムを提供することを目的とする。また、本発明は、Reduce処理を実行する装置において確保すべきメモリ量を適切に決定することが可能な分散処理システムを提供することを目的とする。
一つの態様では、情報処理装置は、第1のエリア内の機器から得られたデータ量に関する第1の時系列データと、前記第1のエリアに対して地理的に隣接する第2のエリア内の機器から得られたデータ量に関する第2の時系列データとに基づいて、前記第2の時系列データに生じた変動に対応する変動が前記第1の時系列データに現れるまでに要する所要時間を算出する算出部と、前記第1の時系列データと、前記第2の時系列データとに基づいて、所定時刻において前記第1のエリア内の機器から得られたデータ量と、前記所定時刻より前記所要時間だけ前の時刻において前記第2のエリア内の機器から得られたデータ量と、の関係を示す関係式を導出する導出部と、前記関係式を用いて、第1の時刻よりも前記所要時間だけ前の時刻において前記第2のエリア内の機器から得られたデータ量から、前記第1の時刻に前記第1のエリア内の機器から得られるデータ量を見積もる見積部と、を備えている。
エリア内の機器から得られるデータ量を精度よく見積もることが可能な情報処理装置及び情報処理プログラムを提供することができる。また、Reduce処理を実行する装置において確保すべきメモリ量を適切に決定することが可能な分散処理システムを提供することができる。
以下、分散処理システムの一実施形態について、図1〜図15に基づいて詳細に説明する。図1(a)には、一実施形態に係る分散処理システム100の構成が概略的に示されている。
本実施形態に係る分散処理システム100は、自動車30aやスマートフォン30b等の多数の機器30(以下、単に「デバイス30」と表記する)から取得したデバイスデータをエッジサーバ20配下の記憶領域に格納する。デバイス30は、自動車30aやスマートフォン30bに限らず、その他の移動可能なセンサ等を含む。デバイスデータの一例としては、速度、加速度、温度、湿度、輝度、位置、時間、機能等、デバイス30から得られる各種データが挙げられる。
デバイス30は、Wi−Fi direct(登録商標)やBLE(Bluetooth(登録商標) Low Energy)などによりエッジサーバ20に接続されている。エッジサーバ20は、広域に分散するデバイス30からデバイスデータを取得し、記憶する。このように、本実施形態では、デバイスデータは、複数のエッジサーバ20に分散して記憶される。なお、本実施形態では、図1(b)に示すように、1つのエッジサーバ20が所定範囲(例えば太線枠で囲む範囲)内に存在するデバイス30からデバイスデータを取得する。また、1つのエッジサーバ20がカバーする所定範囲は、複数のエリアに分割されており、エッジサーバ20は、エリアごとにデバイスデータを集計するMap処理(keyがエリアであるMap処理)を実行する。
エッジサーバ20は、インターネット80により情報処理装置としてのクラウド10と接続されている。本実施形態では、エッジサーバ20に配備される処理は、利用者端末40からエンドユーザによる分析要求があったときに実行される。
クラウド10は、Map/Reduce処理をどのエッジサーバ20に配備するかを決定する。なお、Map処理は、Map処理に用いるデバイスデータが入力されたエッジサーバ20において実行されるものとする。一方、Reduce処理は、後述するように、Map処理により生成される各keyの中間データ量の予測値に基づいて各エッジサーバ20に対して分散配備される。
(クラウド10について)
図2にはクラウド10のハードウェア構成が示されている。クラウド10は、CPU(Central Processing Unit)90、ROM(Read Only Memory)92、RAM(Random Access Memory)94、記憶部(ここではHDD(Hard Disk Drive))96、ネットワークインタフェース97、及び可搬型記憶媒体用ドライブ99等を備えている。これらクラウド10の構成各部は、バス98に接続されている。クラウド10では、ROM92あるいはHDD96に格納されているプログラム、或いは可搬型記憶媒体用ドライブ99が可搬型記憶媒体91から読み取ったプログラムをCPU90が実行することにより、図3に示す、各部の機能が実現される。なお、図3の各部の機能は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
図2にはクラウド10のハードウェア構成が示されている。クラウド10は、CPU(Central Processing Unit)90、ROM(Read Only Memory)92、RAM(Random Access Memory)94、記憶部(ここではHDD(Hard Disk Drive))96、ネットワークインタフェース97、及び可搬型記憶媒体用ドライブ99等を備えている。これらクラウド10の構成各部は、バス98に接続されている。クラウド10では、ROM92あるいはHDD96に格納されているプログラム、或いは可搬型記憶媒体用ドライブ99が可搬型記憶媒体91から読み取ったプログラムをCPU90が実行することにより、図3に示す、各部の機能が実現される。なお、図3の各部の機能は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
図3には、クラウド10の機能ブロック図が示されている。図3に示すように、クラウド10においては、CPU90がプログラムを実行することにより、リクエスト受信部11、データ管理部15、リソース管理部12、使用メモリ量予測部14としての機能が実現されている。
リクエスト受信部11は、利用者端末40からMap/Reduce処理の要求があった場合に、その要求を受信し、リソース管理部12に通知する。
データ管理部15は、各エッジサーバ20と通信し、各エッジサーバ20が有する入力データの情報を管理する。
リソース管理部12は、各エッジサーバ20と通信して、各エッジサーバ20のリソース情報を受信して管理する。また、リソース管理部12は、リクエスト受信部11からMap/Reduce処理の要求が通知された場合に、エッジサーバ20の1つに処理実行場所制御部24を配備する。そして、処理実行場所制御部24からMap処理やReduce処理に関する問い合わせがあった場合には、リソース管理部12は、データ管理部15において管理する各エッジサーバ20が有するデータの情報や使用メモリ量予測部14の出力に基づく情報を処理実行場所制御部24に対して回答する。
使用メモリ量予測部14は、図1(b)に示す各エリアの地理的な依存関係から、各エリアで得られるデバイスデータのデータ量(以下、入力データ量と表記する)を予測する。前述のようにデバイス30は隣接するエリア間において移動するため、あるエリアにおいて入力データ量に変化があった所定時間後に隣のエリアの入力データ量に同様の変化が現れることがある。使用メモリ量予測部14は、このような入力データ量の変化の特徴を利用して、あるエリアにおける入力データ量を隣接するエリアの入力データ量から予測することとしている。また、使用メモリ量予測部14は、各エッジサーバ20で実行されるMap処理により生成される各keyの中間データ量を見積もる。なお、本実施形態では、例えば「key」がエリアであり、「value」が台数である中間データが生成されるものとする。また、使用メモリ量予測部14は、見積もった各keyの中間データ量に基づいて、各keyのReduce処理を実行するエッジサーバ20において確保すべきメモリ量を見積もる。なお、使用メモリ量予測部14の詳細については、後述する。
(エッジサーバ20について)
エッジサーバ20は、クラウド10と同様のハードウェア構成を有する(図2参照)。エッジサーバ20では、CPU90がプログラムを実行することで、図3に示す入力データ量送信部21、中間データ量送信部22、処理実行部23、処理実行場所制御部24、データ管理部25として機能する。なお、処理実行場所制御部24の機能は、クラウド10のリソース管理部12により複数のエッジサーバ20のうちの1台に配備される。
エッジサーバ20は、クラウド10と同様のハードウェア構成を有する(図2参照)。エッジサーバ20では、CPU90がプログラムを実行することで、図3に示す入力データ量送信部21、中間データ量送信部22、処理実行部23、処理実行場所制御部24、データ管理部25として機能する。なお、処理実行場所制御部24の機能は、クラウド10のリソース管理部12により複数のエッジサーバ20のうちの1台に配備される。
入力データ量送信部21は、クラウド10からの求めに応じて、入力データ量の時系列データをクラウド10に対して送信する。入力データ量送信部21は、入力データ量の時系列データを、エッジサーバ20に入力されるデバイスデータ(入力データ)が格納される入力データDB32から取得する。ここで、入力データDB32は、図4(a)に示すようなデータ構造を有する。具体的には、入力データDB32は、図4(a)に示すように、入力データが得られた「日時」の情報と、入力データが得られた「エリア」の情報と、データ値の情報(「value」)とが格納されている。
中間データ量送信部22は、クラウド10からの求めに応じて、中間データ量の時系列データをクラウド10に対して送信する。中間データ量送信部22は、中間データ量の時系列データを、処理実行部23によるMap処理により生成された中間データが格納される中間データDB34から取得する。ここで、中間データDB34は、図4(b)に示すようなデータ構造を有する。具体的には、中間データDB34は、図4(b)に示すように、中間データが得られた「日時」の情報と、中間データの「key」の情報と、データ値の情報(「value」)とが格納されている。
処理実行部23は、処理実行場所制御部24の指示の下、Map処理やReduce処理を実行する。Map処理が配備されたエッジサーバ20の処理実行部23では、入力データDB32に格納されている入力データを用いて中間データを生成する。また、Reduce処理が配備されたエッジサーバ20の処理実行部23では、中間データDB34に格納されている中間データや他のエッジサーバ20から転送されてくる中間データを用いて、割り当てられたkeyについてのReduce処理を実行する。
処理実行場所制御部24は、クラウド10のリソース管理部12に対して、Map処理やReduce処理に関する情報の問い合わせを行う。また、処理実行場所制御部24は、リソース管理部12から取得した情報に基づいて、各エッジサーバ20にMap処理やReduce処理を割り振り、Map処理やReduce処理をエッジサーバ20に配備する。また、処理実行場所制御部24は、各エッジサーバ20の処理実行部23におけるReduce処理の結果(処理結果)を受信し、クラウド10のリソース管理部12を介して利用者端末40に処理結果を通知する。
データ管理部25は、入力データDB32に格納された入力データの情報をクラウド10のデータ管理部15に対して送信する。
(クラウド10の使用メモリ量予測部14の詳細について)
以下、使用メモリ量予測部14の詳細について、説明する。使用メモリ量予測部14は、図3に示すように、エリア別入力データ量収集部110、key別中間データ量収集部112、相関パラメータ算出部114、演算部としての変動比算出部116、見積部としての中間データ量見積部118、決定部としての必要メモリ量見積部122、の各機能を有する。
以下、使用メモリ量予測部14の詳細について、説明する。使用メモリ量予測部14は、図3に示すように、エリア別入力データ量収集部110、key別中間データ量収集部112、相関パラメータ算出部114、演算部としての変動比算出部116、見積部としての中間データ量見積部118、決定部としての必要メモリ量見積部122、の各機能を有する。
エリア別入力データ量収集部110は、各エッジサーバ20に入力された各エリアのデバイスデータ(入力データ)のデータ量の時系列データをエッジサーバ20(入力データ量送信部21)から取得し、エリア別に過去入力データ量DB130に格納する。過去入力データ量DB130には、例えば、図8(a)、図8(b)に示すようなエリア別の入力データ量の時系列データが格納される。
key別中間データ量収集部112は、各エッジサーバ20におけるMap処理により生成された中間データのデータ量の時系列データをエッジサーバ20(中間データ量送信部22)から取得し、過去中間データ量DB132に格納する。過去中間データ量DB132には、key別の中間データ量の時系列データが格納される。
相関パラメータ算出部114は、1つのエリアにおける入力データ量を他のエリアにおける入力データ量から見積もる際に利用する相関パラメータを算出する。このとき、相関パラメータ算出部114は、エリア別入力データ量収集部110が収集した各エリアの入力データ量の時系列データを利用する。そして、相関パラメータ算出部114は、算出した相関パラメータを相関パラメータDB134に格納する。ここで、相関パラメータDB134は、図5(a)に示すようなデータ構造を有する。具体的には、相関パラメータDB134では、一方のエリアのエリアIDである「第1のエリアID」と、他方のエリアのエリアIDである「第2のエリアID」と、時間差パラメータと、回帰直線パラメータとが対応付けられている。なお、相関パラメータDB134は、相関のある2つのエリアの組み合わせの数だけ存在している。
変動比算出部116は、エリア別入力データ量収集部110が収集したあるエリアにおける入力データ量と、key別中間データ量収集部112が収集したあるエリアに対応するkeyの中間データ量と、に基づいて、Map処理前後における入力データ量と中間データ量の比(変動比)を算出する。ここで、エリアとkeyの対応関係については、key−エリア変換テーブル138において定義されている。key−エリア変換テーブル138には、図5(c)に示すように、各keyに対応するエリアIDが格納されている。変動比算出部116は、算出した変動比を変動比DB136に格納する。ここで、変動比DB136は、図5(b)に示すようなデータ構造を有する。図5(b)に示すように、変動比DB136には、各エリアIDに対応する変動比の値が格納されている。
中間データ量見積部118は、相関パラメータDB134に格納されている相関パラメータと、変動比DB136に格納されている変動比とを用いて、ある時刻におけるエッジサーバ20の入力データ量に対応する中間データ量を見積もる。中間データ量見積部118は、見積もった中間データ量を必要メモリ量見積部122とリソース管理部12に送信する。なお、中間データ量見積部118は、keyとエリアの対応関係を、key−エリア変換テーブル138から取得する。
必要メモリ量見積部122は、各keyの中間データ量をReduce処理するためにエッジサーバ20において確保しておくべきメモリ量を見積もる。
(使用メモリ量予測部14の処理について)
(相関パラメータ算出処理)
まず、相関パラメータ算出部114が所定のタイミングで実行する相関パラメータ算出処理について、図6、図7、図10のフローチャートに沿ってその他図面を適宜参照しつつ詳細に説明する。
(相関パラメータ算出処理)
まず、相関パラメータ算出部114が所定のタイミングで実行する相関パラメータ算出処理について、図6、図7、図10のフローチャートに沿ってその他図面を適宜参照しつつ詳細に説明する。
ステップS10では、相関パラメータ算出部114が、隣接する2つのエリアを選択する。この場合、地図データや予め用意されている隣接エリアの情報を格納したテーブル等に基づいて、隣接する2つのエリアを選択する。なお、相関パラメータ算出部114は、地図データ等を考慮せず、2つのエリアをランダムに選択することとしてもよい。ここでは、隣接する2つのエリアとして、エリアi、エリアhが選択されたものとする。
次いで、ステップS12では、相関パラメータ算出部114が、選択した2つのエリアi,hの入力データ量の時系列データをエリア別入力データ量収集部110から取得する。取得した時系列データをfxi(t)、fxh(t)とする。例えば、時系列データfxi(t)が図8(a)に示すようなデータであり、時系列データfxh(t)が図8(b)に示すようなデータであったとする。
次いで、ステップS14では、相関パラメータ算出部114が、時系列データをずらす。例えば、エリアiの時系列データを固定した状態で、エリアhの時系列データを所定秒(τ秒)分だけ時間が進む方向にずらす。ずらした後の時系列データをfxh(t-τ)とする。ずらした後の時系列データfxh(t-τ)は、図8(c)において濃い黒線で示すデータであったとする。
次いで、ステップS16では、相関パラメータ算出部114が、各入力データ量の時系列データの相関係数を算出する処理を実行する。このステップS16の処理においては、図7のフローチャートに沿った処理が実行される。
図7の処理では、まず、ステップS30において、相関パラメータ算出部114が、一方の入力データ量の時系列データfxi(t)の標準偏差Sfxi(t)を求める。
次いで、ステップS32では、相関パラメータ算出部114が、他方の入力データ量の時系列データfxh(t-τ)の標準偏差Sfxh(t-τ)を求める。
次いで、ステップS34では、相関パラメータ算出部114が、共分散Sfxi(t)fxh(t-τ)を求める。
次いで、ステップS36では、相関パラメータ算出部114が、相関係数rを次式(1)から求める。その後は、図6のステップS18に移行する。
r=Sfxi(t)fxh(t-τ)/(Sfxi(t)・Sfxh(t-τ)) …(1)
r=Sfxi(t)fxh(t-τ)/(Sfxi(t)・Sfxh(t-τ)) …(1)
図6のステップS18に移行すると、相関パラメータ算出部114は、2つのエリアの時系列データに相関があるか否かを判断する。ここでは、一例として相関係数rが閾値(=0.7)よりも大きければ、相関があると判断するものとする。例えば、相関係数rが閾値よりも大きい場合には、図9(a)に示すように、fxi(t)の入力データ量とfxh(t-τ)の入力データ量との関係をプロットした場合に、ある直線の近傍に集まる。一方、相関係数rが閾値以下の場合には、図9(b)に示すように、fxi(t)の入力データ量とfxh(t-τ)の入力データ量との関係をプロットした場合にばらつくようになっている。
ステップS18の判断が否定された場合には、ステップS14に戻り、時系列データを更にずらして、相関係数を算出する。一方、ステップS18の判断が肯定された場合には、ステップS20に移行する。なお、ステップS14〜S18を所定回数繰り返したにもかかわらず、相関係数が閾値を超えなかった場合には、図10のステップS62に移行するようにしてもよい。
ステップS18の判断が肯定され、ステップS20に移行すると、相関パラメータ算出部114は、選択した2つのエリアにおける時間差を決定する。ここでは、相関があった場合における時系列データfxh(t)をずらした時間分を、選択した2つのエリアにおける時間差τ(i,h)として決定する。
次いで、ステップS22では、相関パラメータ算出部114が、時間差τ(i,h)を相関パラメータDB134に記憶する。その後は、図10のステップS50に移行する。
図10のステップS50に移行すると、相関パラメータ算出部114は、回帰直線の傾きを求める。ここで、回帰直線は、図11に示すようなfxh(t-τ)の入力データ量を横軸、fxi(t)の入力データ量を縦軸としてプロットした場合の分布傾向を示す直線であり、回帰直線の傾きα(i,h)は、例えば次式(2)により求めることができる。
α(i,h)=r×Sfxi(t)/Sfxh(t-τ) …(2)
α(i,h)=r×Sfxi(t)/Sfxh(t-τ) …(2)
次いで、ステップS52では、相関パラメータ算出部114が、一方のエリアiの入力データ量の時系列データfxi(t)の平均を求める。なお、以下においては、説明の便宜上、時系列データfxi(t)の平均を[fxi(t)]と表すものとする。
次いで、ステップS54では、相関パラメータ算出部114が、他方のエリアhの入力データ量の時間差τだけずらした時系列データfxh(t-τ)の平均を求める。なお、以下においては、説明の便宜上、時系列データfxh(t-τ)の平均を[fxh(t-τ)]と表すものとする。
次いで、ステップS56では、相関パラメータ算出部114が、回帰直線の切片を求める。この場合、次式(3)より、回帰直線の切片β(i,h)を求めることができる。
β(i,h)=[fxi(t)]−(α(i,h)・[fxh(t-τ)]) …(3)
β(i,h)=[fxi(t)]−(α(i,h)・[fxh(t-τ)]) …(3)
次いで、ステップS58では、相関パラメータ算出部114が、一方のエリアiの入力データ量の標準偏差σfxi(t)を求める(図11参照)。
次いで、ステップS60では、相関パラメータ算出部114が、求めた相関パラメータα(i,h)、β(i,h)、σfxi(t)を相関パラメータDB134に格納する。
なお、一方のエリアの入力データ量yを他方のエリアの入力データ量xから求めるためのデータ量変換関数は、次式(4)にて表すことができる。
y=α(i,h)×x+β(i,h)+σfxi(t) …(4)
y=α(i,h)×x+β(i,h)+σfxi(t) …(4)
次いで、ステップS62では、相関パラメータ算出部114が、全ての隣接する2つのエリアを選択したか否かを判断する。このステップS62の判断が否定された場合には、図6のステップS10に戻り、上述した処理を繰り返し実行する。一方、ステップS62の判断が肯定された場合には、図6、図7、図10の全処理を終了する。
なお、図6、図7、図10の処理は所定のタイミングで実行されるため、相関パラメータDB134は適宜更新されるようになっている。
(変動比算出処理)
次に、変動比算出部116が所定のタイミングで実行する変動比算出処理について、図12のフローチャートに沿ってその他図面を適宜参照しつつ詳細に説明する。
次に、変動比算出部116が所定のタイミングで実行する変動比算出処理について、図12のフローチャートに沿ってその他図面を適宜参照しつつ詳細に説明する。
図12の処理では、まず、ステップS70において、変動比算出部116が、未選択のエリアを1つ選択する。ここでは、一例としてエリアiが選択されたものとする。
次いで、ステップS72では、変動比算出部116が、選択したエリアiの過去の入力データ量fi(t)を過去入力データ量DB130から取得する。
次いで、ステップS74では、変動比算出部116が、選択したエリアiの過去の中間データ量gi(t)を過去中間データ量DB132から取得する。この場合、変動比算出部116は、key−エリア変換テーブル138を参照して、エリアiに対応するkeyの中間データ量を過去中間データ量DB132から取得する。
次いで、ステップS76では、変動比算出部116が、過去の入力データ量fi(t)と中間データ量gi(t)からMap処理前後のデータ量の変動比γ(i)を求める。変動比γ(i)は、次式(5)から求めることができる。
γ(i)=gi(t)/fi(t) …(5)
γ(i)=gi(t)/fi(t) …(5)
次いで、ステップS78では、変動比算出部116が、求めた変動比γを変動比DB136に格納する。
次いで、ステップS80では、変動比算出部116が、全てのエリアを選択し終えたか否かを判断する。このステップS80の判断が否定された場合には、ステップS70に戻り、ステップS70以降の処理を繰り返し実行するが、ステップS80の判断が肯定された場合には、図12の全処理を終了する。
以上の処理により、各エリアの入力データをMap処理した場合におけるデータ量の変動比を算出し、変動比DB136に格納しておくことができる。
(中間データ量見積処理)
次に、Map処理の結果得られるkeyごとの中間データ量の見積処理について、図13、図14のフローチャートに沿って説明する。
次に、Map処理の結果得られるkeyごとの中間データ量の見積処理について、図13、図14のフローチャートに沿って説明する。
図13の処理では、まず、ステップS102において、中間データ量見積部118が、中間データ量を見積もる必要のあるkey=xiを選択する。
次いで、ステップS104では、中間データ量見積部118が、key=xiに対応するエリアをkey−エリア変換テーブル138を参照して特定し、当該エリア(iとする)と隣接エリアとの間に依存関係があるか否かを判断する。この場合、中間データ量見積部118は、相関パラメータDB134を参照して、第1のエリアIDが「i」となっているデータが存在するか否かを判断する。このステップS104の判断が否定された場合には、ステップS106に移行する。
ステップS106では、中間データ量見積部118は、急激な変動を考慮しない方法でエリアiの中間データ量を見積もる。この場合、中間データ量見積部118は、過去におけるkey=xiの中間データ量の移動平均μxiと分散σxiとを用いて、次式(6)に基づいて中間データ量Dxi(t)を見積もる。
Dxi(t)=μxi+2×σxi …(6)
Dxi(t)=μxi+2×σxi …(6)
ステップS106の処理の後は、中間データ量見積部118は、ステップS118に移行する。
一方、ステップS104の判断が肯定された場合には、ステップS108に移行し、中間データ量見積部118は、未選択の隣接エリアを1つ選択する。例えば、隣接エリアとして、エリアhが選択されたものとする。
次いで、ステップS110では、中間データ量見積部118が、エリアiの中間データ量を見積もる処理を実行する。このステップS110においては、中間データ量見積部118は、図14のフローチャートに沿った処理を実行する。
図14のステップS130では、中間データ量見積部118が、相関パラメータを取得する。この場合、中間データ量見積部118は、図5(a)の相関パラメータDB134から、第1のエリアID=i、第2のエリアID=hの時間差パラメータτ(i,h)及び回帰直線パラメータα(i,h)、β(i,h)、σfxi(t)を取得する。
次いで、ステップS132では、中間データ量見積部118が、選択しているエリアの入力データ量を隣接エリアの入力データ量から求める。この場合、選択しているエリアiの時刻tにおける入力データ量Ixi(t)は、時刻tよりも時間τ(i,h)だけ前にエリアhで得られた入力データ量Ixh(t-τ(i,h))を用いて、次式(7)から求めることができる。
Ixi(t)=α(i,h)×Ixh(t-τ(i,h))+β(i,h)+σfxi(t) …(7)
Ixi(t)=α(i,h)×Ixh(t-τ(i,h))+β(i,h)+σfxi(t) …(7)
次いで、ステップS134では、中間データ量見積部118が、変動比DB136からエリアiにおける変動比γ(i)を取得する。
次いで、ステップS136では、中間データ量見積部118が、ステップS132において求めた入力データ量Ixi(t)を中間データ量に変換する。この場合、次式(8)から、求めた入力データ量Ixi(t)を中間データ量Dxi(t)_propに変換することができる。
Dxi(t)_prop=γ(i)・Ixi(t) …(8)
Dxi(t)_prop=γ(i)・Ixi(t) …(8)
その後は、図13のステップS112に移行する。
図13のステップS112に移行すると、中間データ量見積部118は、ステップS106と同様、急激な変動を考慮しない方法でエリアiの中間データ量を見積もる。次いで、ステップS114では、中間データ量見積部118は、ステップS110で見積もった中間データ量と、ステップS112で見積もった中間データ量とを比較し、大きい方の値を隣接エリアhに基づく見積量Dxi(t)_propとして決定する。
次いで、ステップS116では、中間データ量見積部118は、全ての隣接エリアを選択したか否かを判断する。このステップS116の判断が否定された場合、すなわちエリアiに隣接するすべてのエリアを選択し終えた場合には、ステップS108に戻り、ステップS108〜S116の処理・判断を繰り返し実行する。一方、ステップS116の判断が肯定された場合には、ステップS118に移行する。
ステップS118に移行すると、中間データ量見積部118は、これまでに決定された見積量のうち最大の見積量を出力する。例えば、ステップS106を経てステップS118に移行した場合には、ステップS106で見積もった中間データ量Dxi(t)をそのまま中間データ量の見積量Dxi(t)として、必要メモリ量見積部122に出力する。一方、ステップS114を経てステップS118に移行した場合には、ステップS114において決定された見積量Dxi(t)_propのうちの最大値を中間データ量の見積量Dxi(t)として、必要メモリ量見積部122に出力する。このように、ステップS118においてこれまでに決定された見積量のうち最大の見積量を出力することで、見積もった中間データ量を処理するときにメモリ量が不足するのを極力抑制することができる。
以上の処理により、図13、図14の処理が終了する。
なお、必要メモリ量見積部122は、key=xiの中間データのReduce処理を実行する場合にエッジサーバ20が確保しておくべきメモリ量Mxi(t)を次式(9)から見積もり、リソース管理部12に対して出力する。
Mxi(t)=Dxi(t) …(9)
Mxi(t)=Dxi(t) …(9)
なお、リソース管理部12は、必要メモリ量見積部122から受信した各keyの中間データ量の処理のために確保すべきメモリ量Mxi(t)をエッジサーバ20の処理実行場所制御部24に通知する。そして、処理実行場所制御部24は、各keyのReduce処理で確保すべきメモリ量に基づいて、各エッジサーバ20に各keyのReduce処理を割り振る。
(処理タイミングについて)
図15には、各部における各処理の実施タイミングを示すタイミングチャートが示されている。
図15には、各部における各処理の実施タイミングを示すタイミングチャートが示されている。
図15に示すように、本実施形態では、使用メモリ量予測部14の相関パラメータ算出部114や変動比算出部116において、相関パラメータの算出処理や変動比の算出処理が事前に行われているものとする。そして、リクエスト受信部11を介してリソース管理部12に対し利用者端末40から分析要求が入力されると、リソース管理部12は、エッジサーバ20の1つに処理実行場所制御部24を配備する。
エッジサーバ20の1つに配備された処理実行場所制御部24は、Reduce処理において確保する必要のあるメモリ量の情報をリソース管理部12に対して要求する。この要求を受けて、使用メモリ量予測部14は、各keyの中間データ量に基づいて各keyのReduce処理を実行するエッジサーバ20が確保すべきメモリ量の算出処理を実行する。
リソース管理部12は、各keyの中間データをReduce処理する際に確保すべきメモリ量を処理実行場所制御部24に通知する。そして、処理実行場所制御部24は、リソース管理部12から取得したメモリ量に基づいて各keyのReduce処理を割り振るエッジサーバ20を決定し、Reduce処理をエッジサーバ20に配備する。このReduce処理の配備は、各エッジサーバ20がMap処理を実行する前に行われる。したがって、Map処理を行ったエッジサーバ20の処理実行部23は、Map処理終了後すぐにReduce処理を行うエッジサーバ20に対して中間データを転送することができる。これにより、Map処理を行ったエッジサーバ20は、Map処理終了後すぐにメモリを解放することができる。
(比較例)
ここで、比較例について説明する。
ここで、比較例について説明する。
(a)Map処理が全て終了してからReduce処理を配備する場合
Map処理により各keyの中間データがどの程度生成されるかがわからない場合には、Map処理がすべて完了した後に、生成された中間データ量に基づいてReduce処理を配備するエッジサーバ20を決定する。
Map処理により各keyの中間データがどの程度生成されるかがわからない場合には、Map処理がすべて完了した後に、生成された中間データ量に基づいてReduce処理を配備するエッジサーバ20を決定する。
この場合、Map処理の処理量にかかわらず、Map処理を実行するすべてのエッジサーバ20においてMap処理が終了し、Reduce処理が各エッジサーバ20に配備されるまではメモリに中間データが格納され続けることになる。
一方、本実施形態では、Reduce処理が事前にエッジサーバ20に配備されているため、これらのエッジサーバ20に対してMap処理を実行したエッジサーバ20から中間データが即座に転送されるようになっている。したがって、Map処理を実行したエッジサーバ20のメモリはMap処理終了後にすぐに解放されることになる。
(b)入力データ量や中間データ量が不変の場合
入力データ量や中間データ量が不変であれば、2回目以降のMap/Reduce処理において、Reduce処理を1回目と同一のエッジサーバ20に配備することができる。しかしながら、この方法は、本実施形態のように入力データ量や中間データ量が変動する場合には採用できない。
入力データ量や中間データ量が不変であれば、2回目以降のMap/Reduce処理において、Reduce処理を1回目と同一のエッジサーバ20に配備することができる。しかしながら、この方法は、本実施形態のように入力データ量や中間データ量が変動する場合には採用できない。
(c)入力データ量を過去のデータから予測できる場合
過去の入力データ量の遷移から移動平均や標準偏差を求め、これらに基づいて入力データ量を推定し、推定結果を利用してReduce処理を配備するエッジサーバ20を決定することもできる。
過去の入力データ量の遷移から移動平均や標準偏差を求め、これらに基づいて入力データ量を推定し、推定結果を利用してReduce処理を配備するエッジサーバ20を決定することもできる。
この方法を用いることで、移動平均や分散が一定の範囲内であれば高確率で入力データ量を推定することができる。しかしながら、非周期的に入力データ量に急激な変動(移動平均や分散が所定範囲を超える変動)が生じるような場合には、入力データ量の推定精度が低下するおそれがある。
これに対し、本実施形態では、入力データ量の地理的な依存関係に基づいて、あるエリアにおける入力データ量を隣接するエリアの入力データ量から見積もるため、精度よく入力データ量を見積もることが可能である。
これまでの説明からわかるように、本実施形態では、相関パラメータ算出部114により、エリアhの時系列データに生じた変動に対応する変動がエリアiの時系列データに現れるまでに要する所要時間(時間差τ)を算出する算出部としての機能が実現されている。また、相関パラメータ算出部114により、所定時刻においてエリアi内のデバイス30から得られた入力データ量と、所定時刻より時間差τだけ前の時刻においてエリアh内のデバイス30から得られたデータ量との関係を示す関係式を導出する導出部としての機能が実現されている。
以上、詳細に説明したように、本実施形態によると、相関パラメータ算出部114は、エリアi内のデバイス30からの入力データ量の時系列データと、エリアiに対して地理的に隣接するエリアh内のデバイス30からの入力データ量の時系列データとに基づいて、エリアhの時系列データに生じた変動に対応する変動がエリアiの時系列データに現れるまでに要する所要時間(時間差τ)を算出する。また、相関パラメータ算出部114は、エリアi,hの時系列データに基づいて、所定時刻におけるエリアiの入力データ量と、所定時刻より時間差τだけ前の時刻におけるエリアhの入力データ量と、の関係を示す関係式(上式(4))を導出する。そして、中間データ量見積部118は、関係式を用いて、時刻tよりも時間差τだけ前の時刻におけるエリアhの入力データ量から、時刻tにおけるエリアiの入力データ量を見積もる。これにより、本実施形態では、エリアiにおいて入力データ量に大きな変動があったとしても、隣接するエリアhにおける時間差τだけ前の時刻における入力データ量に基づいてエリアiの入力データ量を精度よく見積もることができる。
また、本実施形態によると、変動比算出部116が、入力データ量と、入力データを用いてMap処理を行って生成された中間データ量との比(変動比)を算出する。そして、中間データ量見積部118は、見積もった入力データ量と変動比とに基づいて、中間データ量を見積もる。これにより、中間データ量見積部118は、精度よく見積もった入力データ量を用いて中間データ量を見積もるため、中間データ量を精度よく見積もることができる。
また、本実施形態によると、必要メモリ量見積部122は、中間データ量見積部118が見積もった中間データ量から、Reduce処理を実行するエッジサーバ20において確保すべきメモリ量を決定する。これにより、Reduce処理を実行するエッジサーバ20においてメモリが不足するのを防止することができる。
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、処理装置が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記憶媒体(ただし、搬送波は除く)に記録しておくことができる。
プログラムを流通させる場合には、例えば、そのプログラムが記録されたDVD(Digital Versatile Disc)、CD−ROM(Compact Disc Read Only Memory)などの可搬型記憶媒体の形態で販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
プログラムを実行するコンピュータは、例えば、可搬型記憶媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記憶媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。
上述した実施形態は本発明の好適な実施の例である。但し、これに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変形実施可能である。
なお、以上の実施形態の説明に関して、更に以下の付記を開示する。
(付記1) 第1のエリア内の機器から得られたデータ量に関する第1の時系列データと、前記第1のエリアに対して地理的に隣接する第2のエリア内の機器から得られたデータ量に関する第2の時系列データとに基づいて、前記第2の時系列データに生じた変動に対応する変動が前記第1の時系列データに現れるまでに要する所要時間を算出する算出部と、
前記第1の時系列データと、前記第2の時系列データとに基づいて、所定時刻において前記第1のエリア内の機器から得られたデータ量と、前記所定時刻より前記所要時間だけ前の時刻において前記第2のエリア内の機器から得られたデータ量と、の関係を示す関係式を導出する導出部と、
前記関係式を用いて、第1の時刻よりも前記所要時間だけ前の時刻において前記第2のエリア内の機器から得られたデータ量から、前記第1の時刻に前記第1のエリア内の機器から得られるデータ量を見積もる見積部と、
を備える情報処理装置。
(付記2) 機器から得たデータに対して所定の処理が施されて新たなデータが生成された場合における前記機器から得たデータ量と前記新たなデータのデータ量の比を演算する演算部を備え、
前記見積部は、見積もった前記第1の時刻に前記第1のエリア内の機器から得られるデータ量と、前記比に基づいて、前記第1の時刻に前記第1のエリア内の機器から得られるデータから生成される新たなデータのデータ量を見積もる、ことを特徴とする付記1に記載の情報処理装置。
(付記3) 前記所定の処理は、Map/Reduce処理に含まれる、エリアをキー情報とするMap処理であり、
前記見積部が見積もった前記新たなデータのデータ量から、Reduce処理を実行する装置において確保すべきメモリ量を決定する決定部を更に備える、付記2に記載の情報処理装置。
(付記4) 第1のエリア内の機器から得られたデータ量に関する第1の時系列データと、前記第1のエリアに対して地理的に隣接する第2のエリア内の機器から得られたデータ量に関する第2の時系列データとに基づいて、前記第2の時系列データに生じた変動に対応する変動が前記第1の時系列データに現れるまでに要する所要時間を算出し、
前記第1の時系列データと、前記第2の時系列データとに基づいて、所定時刻において前記第1のエリア内の機器から得られたデータ量と、前記所定時刻より前記所要時間だけ前の時刻において前記第2のエリア内の機器から得られたデータ量と、の関係を示す関係式を導出し、
前記関係式を用いて、第1の時刻よりも前記所要時間だけ前の時刻において前記第2のエリア内の機器から得られたデータ量から、前記第1の時刻に前記第1のエリア内の機器から得られるデータ量を見積もる、
処理をコンピュータに実行させるための情報処理プログラム。
(付記5) 機器から得たデータに対して所定の処理が施されて新たなデータが生成された場合における前記機器から得たデータ量と前記新たなデータのデータ量の比を演算する処理をコンピュータに更に実行させ、
前記見積もる処理では、見積もった前記第1の時刻に前記第1のエリア内の機器から得られるデータ量と、前記比に基づいて、前記第1の時刻に前記第1のエリア内の機器から得られるデータから生成される新たなデータのデータ量を見積もる、ことを特徴とする付記4に記載の情報処理プログラム。
(付記6) 前記所定の処理は、Map/Reduce処理に含まれる、エリアをキー情報とするMap処理であり、
前記見積もる処理において見積もった前記新たなデータのデータ量から、Reduce処理を実行する装置において確保すべきメモリ量を決定する、処理を前記コンピュータに更に実行させることを特徴とする付記5に記載の情報処理プログラム。
(付記7) Map/Reduce処理を行う分散処理システムであって、
第1のエリア内の機器から得られたデータ量に関する第1の時系列データと、前記第1のエリアに対して地理的に隣接する第2のエリア内の機器から得られたデータ量に関する第2の時系列データとに基づいて、前記第2の時系列データに生じた変動に対応する変動が前記第1の時系列データに現れるまでに要する所要時間を算出する算出部と、
前記第1の時系列データと、前記第2の時系列データとに基づいて、所定時刻において前記第1のエリア内の機器から得られたデータ量と、前記所定時刻より前記所要時間だけ前の時刻において前記第2のエリア内の機器から得られたデータ量と、の関係を示す関係式を導出する導出部と、
前記関係式を用いて、第1の時刻よりも前記所要時間だけ前の時刻において前記第2のエリア内の機器から得られたデータ量から、前記第1の時刻に前記第1のエリア内の機器から得られるデータ量を見積もるとともに、前記第1の時刻に前記第1のエリア内の機器から得られるデータに対して、エリアをキー情報とするMap処理を施した場合に生成される新たなデータのデータ量を見積もる見積部と、
前記見積部の見積もり結果に基づいて、Reduce処理を実行する装置において確保すべきメモリ量を決定する決定部と、
を備える分散処理システム。
(付記1) 第1のエリア内の機器から得られたデータ量に関する第1の時系列データと、前記第1のエリアに対して地理的に隣接する第2のエリア内の機器から得られたデータ量に関する第2の時系列データとに基づいて、前記第2の時系列データに生じた変動に対応する変動が前記第1の時系列データに現れるまでに要する所要時間を算出する算出部と、
前記第1の時系列データと、前記第2の時系列データとに基づいて、所定時刻において前記第1のエリア内の機器から得られたデータ量と、前記所定時刻より前記所要時間だけ前の時刻において前記第2のエリア内の機器から得られたデータ量と、の関係を示す関係式を導出する導出部と、
前記関係式を用いて、第1の時刻よりも前記所要時間だけ前の時刻において前記第2のエリア内の機器から得られたデータ量から、前記第1の時刻に前記第1のエリア内の機器から得られるデータ量を見積もる見積部と、
を備える情報処理装置。
(付記2) 機器から得たデータに対して所定の処理が施されて新たなデータが生成された場合における前記機器から得たデータ量と前記新たなデータのデータ量の比を演算する演算部を備え、
前記見積部は、見積もった前記第1の時刻に前記第1のエリア内の機器から得られるデータ量と、前記比に基づいて、前記第1の時刻に前記第1のエリア内の機器から得られるデータから生成される新たなデータのデータ量を見積もる、ことを特徴とする付記1に記載の情報処理装置。
(付記3) 前記所定の処理は、Map/Reduce処理に含まれる、エリアをキー情報とするMap処理であり、
前記見積部が見積もった前記新たなデータのデータ量から、Reduce処理を実行する装置において確保すべきメモリ量を決定する決定部を更に備える、付記2に記載の情報処理装置。
(付記4) 第1のエリア内の機器から得られたデータ量に関する第1の時系列データと、前記第1のエリアに対して地理的に隣接する第2のエリア内の機器から得られたデータ量に関する第2の時系列データとに基づいて、前記第2の時系列データに生じた変動に対応する変動が前記第1の時系列データに現れるまでに要する所要時間を算出し、
前記第1の時系列データと、前記第2の時系列データとに基づいて、所定時刻において前記第1のエリア内の機器から得られたデータ量と、前記所定時刻より前記所要時間だけ前の時刻において前記第2のエリア内の機器から得られたデータ量と、の関係を示す関係式を導出し、
前記関係式を用いて、第1の時刻よりも前記所要時間だけ前の時刻において前記第2のエリア内の機器から得られたデータ量から、前記第1の時刻に前記第1のエリア内の機器から得られるデータ量を見積もる、
処理をコンピュータに実行させるための情報処理プログラム。
(付記5) 機器から得たデータに対して所定の処理が施されて新たなデータが生成された場合における前記機器から得たデータ量と前記新たなデータのデータ量の比を演算する処理をコンピュータに更に実行させ、
前記見積もる処理では、見積もった前記第1の時刻に前記第1のエリア内の機器から得られるデータ量と、前記比に基づいて、前記第1の時刻に前記第1のエリア内の機器から得られるデータから生成される新たなデータのデータ量を見積もる、ことを特徴とする付記4に記載の情報処理プログラム。
(付記6) 前記所定の処理は、Map/Reduce処理に含まれる、エリアをキー情報とするMap処理であり、
前記見積もる処理において見積もった前記新たなデータのデータ量から、Reduce処理を実行する装置において確保すべきメモリ量を決定する、処理を前記コンピュータに更に実行させることを特徴とする付記5に記載の情報処理プログラム。
(付記7) Map/Reduce処理を行う分散処理システムであって、
第1のエリア内の機器から得られたデータ量に関する第1の時系列データと、前記第1のエリアに対して地理的に隣接する第2のエリア内の機器から得られたデータ量に関する第2の時系列データとに基づいて、前記第2の時系列データに生じた変動に対応する変動が前記第1の時系列データに現れるまでに要する所要時間を算出する算出部と、
前記第1の時系列データと、前記第2の時系列データとに基づいて、所定時刻において前記第1のエリア内の機器から得られたデータ量と、前記所定時刻より前記所要時間だけ前の時刻において前記第2のエリア内の機器から得られたデータ量と、の関係を示す関係式を導出する導出部と、
前記関係式を用いて、第1の時刻よりも前記所要時間だけ前の時刻において前記第2のエリア内の機器から得られたデータ量から、前記第1の時刻に前記第1のエリア内の機器から得られるデータ量を見積もるとともに、前記第1の時刻に前記第1のエリア内の機器から得られるデータに対して、エリアをキー情報とするMap処理を施した場合に生成される新たなデータのデータ量を見積もる見積部と、
前記見積部の見積もり結果に基づいて、Reduce処理を実行する装置において確保すべきメモリ量を決定する決定部と、
を備える分散処理システム。
10 クラウド(情報処理装置)
30 デバイス(機器)
114 相関パラメータ算出部(算出部、導出部)
118 中間データ量見積部(見積部)
116 変動比算出部(演算部)
122 必要メモリ量見積部(決定部)
30 デバイス(機器)
114 相関パラメータ算出部(算出部、導出部)
118 中間データ量見積部(見積部)
116 変動比算出部(演算部)
122 必要メモリ量見積部(決定部)
Claims (5)
- 第1のエリア内の機器から得られたデータ量に関する第1の時系列データと、前記第1のエリアに対して地理的に隣接する第2のエリア内の機器から得られたデータ量に関する第2の時系列データとに基づいて、前記第2の時系列データに生じた変動に対応する変動が前記第1の時系列データに現れるまでに要する所要時間を算出する算出部と、
前記第1の時系列データと、前記第2の時系列データとに基づいて、所定時刻において前記第1のエリア内の機器から得られたデータ量と、前記所定時刻より前記所要時間だけ前の時刻において前記第2のエリア内の機器から得られたデータ量と、の関係を示す関係式を導出する導出部と、
前記関係式を用いて、第1の時刻よりも前記所要時間だけ前の時刻において前記第2のエリア内の機器から得られたデータ量から、前記第1の時刻に前記第1のエリア内の機器から得られるデータ量を見積もる見積部と、
を備える情報処理装置。 - 機器から得たデータに対して所定の処理が施されて新たなデータが生成された場合における前記機器から得たデータ量と前記新たなデータのデータ量の比を演算する演算部を備え、
前記見積部は、見積もった前記第1の時刻に前記第1のエリア内の機器から得られるデータ量と、前記比に基づいて、前記第1の時刻に前記第1のエリア内の機器から得られるデータから生成される新たなデータのデータ量を見積もる、ことを特徴とする請求項1に記載の情報処理装置。 - 前記所定の処理は、Map/Reduce処理に含まれる、エリアをキー情報とするMap処理であり、
前記見積部が見積もった前記新たなデータのデータ量から、Reduce処理を実行する装置において確保すべきメモリ量を決定する決定部を更に備える、請求項2に記載の情報処理装置。 - 第1のエリア内の機器から得られたデータ量に関する第1の時系列データと、前記第1のエリアに対して地理的に隣接する第2のエリア内の機器から得られたデータ量に関する第2の時系列データとに基づいて、前記第2の時系列データに生じた変動に対応する変動が前記第1の時系列データに現れるまでに要する所要時間を算出し、
前記第1の時系列データと、前記第2の時系列データとに基づいて、所定時刻において前記第1のエリア内の機器から得られたデータ量と、前記所定時刻より前記所要時間だけ前の時刻において前記第2のエリア内の機器から得られたデータ量と、の関係を示す関係式を導出し、
前記関係式を用いて、第1の時刻よりも前記所要時間だけ前の時刻において前記第2のエリア内の機器から得られたデータ量から、前記第1の時刻に前記第1のエリア内の機器から得られるデータ量を見積もる、
処理をコンピュータに実行させるための情報処理プログラム。 - Map/Reduce処理を行う分散処理システムであって、
第1のエリア内の機器から得られたデータ量に関する第1の時系列データと、前記第1のエリアに対して地理的に隣接する第2のエリア内の機器から得られたデータ量に関する第2の時系列データとに基づいて、前記第2の時系列データに生じた変動に対応する変動が前記第1の時系列データに現れるまでに要する所要時間を算出する算出部と、
前記第1の時系列データと、前記第2の時系列データとに基づいて、所定時刻において前記第1のエリア内の機器から得られたデータ量と、前記所定時刻より前記所要時間だけ前の時刻において前記第2のエリア内の機器から得られたデータ量と、の関係を示す関係式を導出する導出部と、
前記関係式を用いて、第1の時刻よりも前記所要時間だけ前の時刻において前記第2のエリア内の機器から得られたデータ量から、前記第1の時刻に前記第1のエリア内の機器から得られるデータ量を見積もるとともに、前記第1の時刻に前記第1のエリア内の機器から得られるデータに対して、エリアをキー情報とするMap処理を施した場合に生成される新たなデータのデータ量を見積もる見積部と、
前記見積部の見積もり結果に基づいて、Reduce処理を実行する装置において確保すべきメモリ量を決定する決定部と、
を備える分散処理システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018147821A JP2020024509A (ja) | 2018-08-06 | 2018-08-06 | 情報処理装置及び情報処理プログラム、並びに分散処理システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018147821A JP2020024509A (ja) | 2018-08-06 | 2018-08-06 | 情報処理装置及び情報処理プログラム、並びに分散処理システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020024509A true JP2020024509A (ja) | 2020-02-13 |
Family
ID=69618702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018147821A Pending JP2020024509A (ja) | 2018-08-06 | 2018-08-06 | 情報処理装置及び情報処理プログラム、並びに分散処理システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020024509A (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015153133A (ja) * | 2014-02-14 | 2015-08-24 | オムロン株式会社 | 因果ネットワーク生成システムおよび因果関係のデータ構造 |
JP2017207852A (ja) * | 2016-05-17 | 2017-11-24 | Kddi株式会社 | 相互相関に基づいて時系列変化点を検出可能なプログラム、装置及び方法 |
-
2018
- 2018-08-06 JP JP2018147821A patent/JP2020024509A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015153133A (ja) * | 2014-02-14 | 2015-08-24 | オムロン株式会社 | 因果ネットワーク生成システムおよび因果関係のデータ構造 |
JP2017207852A (ja) * | 2016-05-17 | 2017-11-24 | Kddi株式会社 | 相互相関に基づいて時系列変化点を検出可能なプログラム、装置及び方法 |
Non-Patent Citations (1)
Title |
---|
西前 光 他: "Hadoopによる時系列画像分散データマイニングシステムの検討", 第6回データ工学と情報マネジメントに関するフォーラム(第12回日本データベース学会年次大会), JPN6022012452, 5 March 2014 (2014-03-05), pages 1 - 8, ISSN: 0004742115 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111158613B (zh) | 基于访问热度的数据块存储方法、装置及存储设备 | |
WO2017045472A1 (zh) | 资源预测方法、系统和容量管理装 | |
CN105703927B (zh) | 一种资源分配方法、网络设备和网络系统 | |
CN104809129B (zh) | 一种分布式数据存储方法、装置和系统 | |
WO2022001918A1 (zh) | 构建预测模型的方法、装置、计算设备和存储介质 | |
CN109964507B (zh) | 网络功能的管理方法、管理单元及系统 | |
US20090235250A1 (en) | Management machine, management system, management program, and management method | |
CN111935820B (zh) | 基于无线网络的定位实现方法及相关设备 | |
US11379539B2 (en) | Efficient freshness crawl scheduling | |
KR20200052403A (ko) | 에지 컴퓨팅 기반 데이터 분석 시스템 및 그 방법 | |
US20200084121A1 (en) | Node of a Network and a Method of Operating the Same for Resource Distribution | |
CN110636388A (zh) | 一种业务请求分配方法、系统、电子设备及存储介质 | |
JP5953990B2 (ja) | 通信制御装置、通信制御システムおよび通信制御方法 | |
JP7192645B2 (ja) | 情報処理装置、分散処理システム及び分散処理プログラム | |
CN117203944A (zh) | 算力网络的资源调度方法 | |
WO2018225314A1 (ja) | データベース管理システムおよびデータベース管理方法 | |
CN107438268B (zh) | 一种用于为移动设备加速无线网络的方法与设备 | |
JP2020024509A (ja) | 情報処理装置及び情報処理プログラム、並びに分散処理システム | |
US20210382872A1 (en) | Blockchain-based Data Storage Method, Related Device and Storage Medium | |
CN110677683A (zh) | 视频存储、视频访问方法及分布式存储、视频访问系统 | |
EP4349055A2 (en) | Dimensioning of telecommunication infrastructure | |
WO2021239214A1 (en) | Methods and systems for reducing data sharing overhead | |
KR100829074B1 (ko) | Promethee 알고리즘에 기초한 웹 서비스 제공자의선택 방법 | |
JP6838007B2 (ja) | 情報処理システム | |
JP7313322B2 (ja) | 時系列予測システム、時系列予測方法及びコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210513 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220328 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220405 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20221011 |