JP2019537079A - 大規模再生可能エネルギーのデータについて確率モデルを構築する方法 - Google Patents

大規模再生可能エネルギーのデータについて確率モデルを構築する方法 Download PDF

Info

Publication number
JP2019537079A
JP2019537079A JP2018565323A JP2018565323A JP2019537079A JP 2019537079 A JP2019537079 A JP 2019537079A JP 2018565323 A JP2018565323 A JP 2018565323A JP 2018565323 A JP2018565323 A JP 2018565323A JP 2019537079 A JP2019537079 A JP 2019537079A
Authority
JP
Japan
Prior art keywords
wakeby
data
rdd
probability distribution
hdfs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018565323A
Other languages
English (en)
Other versions
JP6784780B2 (ja
Inventor
傑 宋
傑 宋
健 周
健 周
偉 ▲ボー▼
偉 ▲ボー▼
燕 楊
燕 楊
余娟
娟 余
斐 馮
斐 馮
暁穎 張
暁穎 張
祥鴻 熊
祥鴻 熊
奕 張
奕 張
旭楊 項
旭楊 項
薇薇 顧
薇薇 顧
冰 沈
冰 沈
愛強 潘
愛強 潘
徳生 周
徳生 周
卓懿 周
卓懿 周
平 曾
平 曾
潔 徐
潔 徐
暁峰 鄒
暁峰 鄒
杜▲ショウ▼▲シン▼
▲ショウ▼▲シン▼ 杜
奕帆 朱
奕帆 朱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Shanghai Electric Power Co Ltd
Original Assignee
State Grid Shanghai Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Shanghai Electric Power Co Ltd filed Critical State Grid Shanghai Electric Power Co Ltd
Publication of JP2019537079A publication Critical patent/JP2019537079A/ja
Application granted granted Critical
Publication of JP6784780B2 publication Critical patent/JP6784780B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Water Supply & Treatment (AREA)
  • Tourism & Hospitality (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Public Health (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

本出願は、Spark及びHadoop分散ファイルシステムHDFSに基づき、新エネルギーについて高速モデル構築を行い、分散並列フレームワークを構築し、該フレームワークを再生可能エネルギーの既存の記憶システムに対応させることと、弾性分散データセットRDDの耐障害性の特徴と、メモリに基づいて計算する特徴とを利用してWakeby確率分布モデルを構築して解き、RDDに基づくWakeby確率分布モデルの推定を実現することとを含む、大規模再生可能エネルギーのデータについて高速に確率モデルを構築する方法を開示する。【選択図】図3

Description

本出願は、再生可能エネルギーの分野に属し、例えば、Sparkプラットフォームの弾性分散データセット及びWakeby分布モデルに基づき、大規模の新エネルギーのデータについて高速に確率モデルを構築することに関する。
資源環境の挑戦に対応するために、「高割合の再生可能エネルギー」を実現することは、「世界エネルギーの発展が無炭素を中心とする第三回エネルギー変革時代に進入する」ことの重要な指標になっている。再生可能エネルギー(例えば、風、光、水など)の不確定性により、高割合の再生可能エネルギーを電力グリッドに導入することは、電力システムにチャレンジをもたらす。再生可能エネルギーの不確定性の電力システムに対する影響を合理的に評価するために、再生可能エネルギーの確率分布モデルを構築することは至重である。通常、確率モデルは、サンプルデータに基づき、パラメータまたは非パラメータによる推定方法で得られる。情報技術の高速発展に伴い、再生可能エネルギーのサンプルデータ数はますます大きくなっており、ビッグデータのサンプルに大容量の情報が担持されているものの、確率モデル構築の計算負荷が急激に増加してしまう。
ここ数十年、計算時間を低減させるために、国内外で類似技術や並列計算に基づく確率モデル構築方法が提案されている。類似技術では、主に高速フーリエ変換と高速ガウス変換を用いるが、いずれもある程度確率モデルの推定精度を低下させる。また、Wakeby分布は、天然な並列特徴を有する。
並列方法では、主にマルチプロセッサ計算又はクラスタ計算を対象とする。データ数の増加およびプロセッサ処理速度の低進展に伴い、マルチプロセッサの計算処理能力はデータ量の増加に追い付けなくなる。そのため、大規模データの計算は、拡張可能なクラスタにおいて実行しなければならない。電力システムにおいて、従来のクラスタ計算では、主にメッセージパッシングインターフェイス(Message Passing Interface,MPI)規格又はMatlabクラスタに基づき、その理由は、使用・配置・拡張しやすいことである。
しかしながら、類似技術や並列計算による確率モデル構築方法は、大規模データの記憶及びアクセスをサポートする対応の分散ファイルシステムが不足しているだけでなく、耐障害性もサポートしておらず、クラスタ内のノード障害の問題に対処できないため、アプリ性能に大きく影響を与える。
本出願は、Sparkプラットフォーム弾性分散データセット(Resilient Distributed Dataset:RDD)に基づく再生可能エネルギーの高速確率モデル構築方法を提供し、即ち、大規模再生可能エネルギー(Renewable Energy Sources:RES)のデータサンプルについて、関連する確率モデル構築方法においてデータ処理速度が不十分であるという問題に対して、Spark及びHadoop分散ファイルシステム(Hadoop Distributed File System:HDFS)に基づくWakeby分布の並列推定アルゴリズムを提出する。
本出願は、2017年09月20日に中国特許庁に提出した出願番号201710856461.2の中国特許出願に基づいて優先権を主張し、そのすべての内容を本出願に援用する。
本出願は、Sparkプラットフォーム及びHadoop分散ファイルシステムHDFSに基づき、再生可能エネルギーのデータについて分散並列フレームワークをモデル構築し、前記分散並列フレームワークを前記再生可能エネルギーのデータの記憶システムに対応させることと、弾性分散データセットRDDの耐障害性の特徴と、メモリに基づいて計算する特徴とを利用してWakeby確率分布モデルを構築して解き、RDDに基づくWakeby確率分布モデルの推定を実現することとを含む、大規模再生可能エネルギーのデータについて確率モデルを構築する方法を提供する。
一実施例において、前記分散並列フレームワークは、互いにデータ伝送を行い、RDDに基づくSpark計算エンジンと、hadoop分散ファイルシステムと、データマートと、可視化ツールと、商品ハードウェアと、を含む。
一実施例において、前記Sparkプラットフォーム及びHDFSに基づき、再生可能エネルギーデータについて分散並列フレームワークをモデル構築することは、
RDDに基づくSpark計算エンジンを用い、メモリにおいてWakeby確率分布モデルを並列計算することと、
HDFSを用いて大規模再生可能エネルギーRESデータを記憶し、高スループットを有するデータアクセスインタフェースを提供することと、
SparkプラットフォームとHDFSとを組み合わせ、前記Wakeby確率分布モデルの計算タスクを前記大規模再生可能エネルギーRESデータにより近いノードに移動させることと、
HDFSに直接アップロードされ得るローカルファイルと、Sqoopデータ伝送手段によってHDFSにアップロードされるリレーショナルデータベースとを含む前記データマートによって、既存のRES記憶システムにおける大規模データをHDFSに事前に移行させることと、
前記可視化ツールに関連してデータをブラウザに表示させることと、
分散モードでのSparkプラットフォームのメインアーキテクチャ又はサブアーキテクチャに基づき、前記商品ハードウェアを1つのメインノード及び複数の動作ノードとして配置することと、
SparkプラットフォームおよびHDFSに基づく分散並列フレームワークの構築を完了することと、を含む。
ここで、非リレーショナルデータベースの下層記憶システムはHDFSであり、新エネルギーのデータベースとして大規模の新エネルギーのデータの記憶、リアルタイムアクセス及びオフライン統計分析の機能を実現する。
一実施例において、前記Wakeby確率分布モデルを構築して解くことは、5つのパラメータを用いたWakeby確率分布モデルを構築する一般式を式(1)にし、Wakeby分布の確立密度関数を式(2)にすることを含む。
ただし、
は累積確率分布関数であり、x(F)は所定のF値に対する分位数値であり、ξは位置パラメータであり、αとβは寸法パラメータであり、γとσは形状パラメータであり、f(x)は確率密度関数である。
一実施例において、L次モーメント推定法で前記Wakeby確率分布モデルの5つのパラメータを推定し、具体的には、
前記Wakeby確率分布モデルの5つのパラメータを、サンプルの最初5次のモーメントをWakeby確率分布モデルの最初5次のL次モーメントに等しくさせる式によって求めることと、
サンプルデータから最初5次のリニアマトリクスを計算し、各次のリニアマトリクスを、L次モーメントの定義式により導出された対応の5次モーメントに等しくさせることと、を含み、
そのうち、r番目のサンプルリニアマトリクスは、下記の式で表される。
一実施例において、前記RDDに基づくWakeby確率分布モデルの推定を実現することは、Sparkプラットフォームのtextfile()方法によってHDFSからテキストファイルを読み取り、文字列型の先頭RDD又は親RDDとしてフィードバックし、RDDをj個のパーティションに分割し(j=1,2,...,Pn)、前記j個のパーティションをメモリに記憶することと、
新たに構築したRDDを次の操作により計算され可能にし、且つ各パーティションの各変換結果をメモリに記憶するために、map操作によって各パーティションの各行のデータを分割し、各データを倍精度タイプにマッピングすることと、
reduce変換操作によって各パーティションのエレメントを重合し、各パーティションのデータ順序を示す変数Bjを生成することと、
combine変換操作によって前記j個のパーティションの最終結果を組み合わせて加算し、n個のサンプルにおいてk=0,1,2,3,4の場合のbkの値を得、サンプルのリニアマトリクスを計算することと、
前記サンプルリニアマトリクスに基づき、Wakeby確率分布モデルの5つのパラメータに関する方程式を構築し、最小2乗法で前記方程式を解き、Wakeby確率分布モデルの5つのパラメータの計算結果を得ることと、
save動作操作によって、前記Wakeby確率分布モデルの5つのパラメータの計算結果をHDFSに記憶することと、を含む。
一実施例において、下記の式に基づき前記bkを算出し、2つの補助変数によってj個のパーティションにおけるサンプルデータの順序を示す。
一実施例において、高速確率モデル構築方法は、
並列推定された計算時間とサンプルデータ数、及びSparkプラットフォームのクラスタ並列度とパーティション数との関数関係によって、Sparkクラスタのパーティション数をハードウェア構成に適合させることと、
Wakebyの消費時間を並列計算することと、を更に含む。
ここで、クラスタ並列度は、
であり、
(ただし、Nは動作ノードの数であり、Eiはノードiにおけるアクチュエーターの数であり、Ciはノードiにおける各実行者が持っている物理的コアの数であり、Tiはノードiにおける各コアのスレッド数である。)
Wakebyの消費時間は、式(10)に示される。
(ただし、tWakebyはWakebyの消費時間であり、PnはRDDのパーティション数を示し、sは毎回並列計算を行う通信時間であり、
はn個のサンプルパーティションを持つbk,k=0,1,2,3,4の値を計算することに必要となる時間であり、tconはサンプルリニアマトリクスを計算する時間、及び最小2乗法によってWakeby分布の5つのパラメータに関する方程式を解く時間である。)
関連技術と比べ、本出願は、以下の利点を有する。
本出願において、Spark及びHDFSに基づく分散並列フレームワークは、RESの既存の記憶システムに対応でき、高スループットのアクセル及び高耐障害性などの強みを有するとともに、RDDに基づいて開発される新エネルギーの並列推定アルゴリズムは、Wakeby確率分布モデルによってRESの確率分布を高速に推定することができ、大規模のデータサンプルの場合の高速計算性能を効果的に向上させる。
本出願によるアルゴリズムの消費時間と、サンプルサイズ、並列度、パーティション数との関数関係は、所定のサンプルデータ数でのプログラマーのSparkプラットフォーム上のプログラムチューニング、所定の配置での消費時間の予測、及び希望の時間でのハードウェア構成に寄与する。
本出願は、再生可能エネルギーの確率モデル構築に広く適用され、特に、ビッグデータレベルの風速、潮汐流速などの新エネルギーサンプルの高速確率モデル構築に適用される。
本出願に係る高速確率モデル構築方法のSparkプラットフォーム及びHDFSに基づく分散並列フレームワーク図である。 本出願に係る高速確率モデル構築方法の弾性分散データセットRDDのフローチャートである。 本出願に係る高速確率モデル構築方法の弾性分散データセットRDDに基づくWakeby分布のフローチャートである。 本出願に係る高速確率モデル構築方法の潮汐流速のグラフ及びヒストグラムである。 本出願に係る高速確率モデル構築方法のSpark及びMatlabクラスタにおけるWakebyの消費時間を示す図である。
本出願は、大規模再生可能エネルギーのデータについて確率モデルを構築する方法であり、以下の手続を含む。まず、Sparkプラットフォーム及びHadoop分散ファイルシステムHDFSに基づき、新エネルギーについて高速モデル構築を行い、分散並列フレームワークを構築し、該フレームワークを再生可能エネルギーの既存の記憶システムに対応させる。その上、弾性分散データセットRDDの耐障害性特徴と、メモリに基づいて計算する特徴とを利用してWakeby分布のフローチャートを構築して解くことで、RDDに基づく新型Wakeby分布の高速推定アルゴリズムを実現する。また、該並列推定アルゴリズムの計算時間と、サンプルデータ数およびSparkの2つの重要な調整可能パラメータとの関数関係が導出される。最後に、潮汐流速を新エネルギー実験データとし、構築した分散並列フレームワークにおいてRDDに基づくWakeby分散並列推定アルゴリズムを実現し、本出願の実現効果を分析し、導出される式の正確性を検証する。上記手続は、以下のステップS1とステップS2とを含む。
ステップS1において、Spark及びHDFSに基づく分散並列フレームワークを構築し、以下の手続を含む。
図1に示すように、Spark及びHDFSに基づく分散並列フレームワークは、Spark計算エンジンと、hadoop分散ファイルシステムと、データマートと、可視化ツールと、商品ハードウェアとの5つの部分を含む。
ステップS1.1において、RDDに基づくSpark計算エンジンを用い、メモリにおいてWakeby分布などの確率モデルの高速並列計算を実現する。
ステップS1.2において、HDFSによって大規模のRESデータを記憶し、高スループットを有するデータアクセスインタフェースを提供し、SparkプラットフォームとHDFSとを組み合わせ、実行されるデータの近くで(ローカル化)アプリを実行させる。
一実施例において、SparkプラットフォームとHDFSとを組み合わせ、実行されるデータの近くでアプリを実行させることは、SparkプラットフォームとHDFSを組み合わせ、前記Wakeby確率分布モデルの計算タスクを前記大規模再生可能エネルギーRESデータにより近いノードに移動させることである。
ステップS1.3において、HDFSに直接アップロードされ得るローカルファイルと、Sqoopデータ伝送手段によってHDFSにアップロードされるリレーショナルデータベースとを含む前記データマートによって、既存のRES記憶システムにおける大規模データをHDFSに事前に移行させる。ここで、HDFSは非リレーショナルデータベース(Hive、Hbase)の下層記憶システムであり、同時に新エネルギーのデータベースとして大規模の新エネルギーデータの記憶、リアルタイムアクセス及びオフライン統計分析の機能を実現することができる。
ステップS1.4において、専用の可視化ツール(例えば、Highchar、Echarts、及びHue)と合わせてブラウザにデータを表示させる。
ステップS1.5において、分散モードでのSparkプラットフォームのメインアーキテクチャ/サブアーキテクチャに基づき、商品ハードウェアを1つのメインノード及び複数の動作ノードとして配置する。Sparkプラットフォーム及びHDFSに基づく分散並列フレームワークの構築を完了する。
ステップS2において、RDDに基づくWakeby分布の並列推定アルゴリズムを構築する。該ステップは、以下の手続を含む。
上記のステップS1に記載のSpark及びHDFSに基づく分散並列フレームワークに基づき、RDDに基づくWakeby分布の並列推定アルゴリズムを提出することで、大規模のRESサンプルデータの確率モデル構築性能を向上させる。
ステップS2.1において、Wakeby確率分布モデルを構築する。
Wakeby分布は、RESにおいて潮汐エネルギー及び風力エネルギーを分析することに用いられ、5つのパラメータのWakeby分布の定義式は、以下の分位関数により与えられる。
(ただし、
は累積確率分布関数であり、解析式がなく、x(F)は所定のF値に対する分位数値であり、ξは位置パラメータであり、αとβは寸法パラメータであり、γとσは形状パラメータである。)
Wakeby分布の確率密度関数は、式(2)で表されてもよい。
(ただし、Fは累積確率分布関数であり、f(x)は確率密度関数である。)
Wakeby分布の累積確率分布関数または確率密度関数は、解析式がない。本出願は、L次モーメント推定法でWakeby分布の5つのパラメータを推定する。L次モーメント推定法でWakeby分布の5つのパラメータを推定する基本的な構想は、サンプルデータに応じて最初5次のリニアマトリクスを計算し、各モーメントをL次モーメント定義式により導出された対応の5次モーメントに等しくさせることである。
1,x2,…,xnをn個のサンプルとし、
を順序サンプルとし、r番目のサンプルリニアマトリクスは、式(3)で定義される。
ここで、
Wakebyの5つのパラメータは、サンプルの最初5次のモーメントをWakeby分布の最初5次のL次モーメントに等しくさせる式によって得られる。ここまで、Wakeby確率分布モデルの構築が完了する。
ステップS2.2において、RDDに基づくWakeby分散並列推定アルゴリズムを構築する。
上記分析から分かるように、Wakeby分布は、サンプル数が大きい場合に、累積和による消費時間が極めて大きいという問題に直面している。Sparkは、RDDのフローチャートに基づいて累積和を効果的に並列することができ、さらに消費時間を低減させる。
図2に示すように、RDDのフローチャートであり、実線ブロックはRDDを示し、各RDDの内部が複数のパーティションに分けられ、矢印は操作を示す。ここで、a、b、c、d及びeが標記されたパーティションは、各動作ノードに割り当てられると共に、並列実行される。また、RDDは、変換(transformation)と動作(action)の2タイプの操作をサポートする。全ての変換操作(マッピング(map)、簡素化(reduce)、組合せ(union)を含む)は積極的ではなく、結果をすぐに算出できない。逆に、これら操作は、RDDのフローチャートを覚えて各段階の有向非巡回グラフ(Database Availability Group:DAG)を構築する。フローチャートによって、各段階においてできるだけ多くのパイプライン化計算可能な変換を含み、並列化を最大限で実現し、アプリの論理をはっきりにしてプログラマのアプリに対する調整に寄与する。記憶(save)のような動作が最終結果をフィードバックする必要となる時のみに、変換操作を計算することができ、このようにして、データ数が大きな中間結果のフィードバックを回避することができる。そのため、RDDは、データ並列および計算並列によって計算速度を向上することができる。
以上の分析によって、大規模のRESサンプルデータで、Wakeby分布の大規模RESサンプルデータに対する並列推定性能を向上させるために、まず、Wakeby分布を解く先頭RDDまたは親RDDを構築してデータ並列を実現し、次に、RDD変換操作を作り出してフローチャートを形成してWakeby分布の並列推定を実現する。
ステップS2.3において、データ並列をする。図3は、本出願の実施例に係る高速確率モデル構築方法の、弾性分散データセットRDDに基づくWakeby分布フローチャートであり、以下の手続を含む。
RDDはPn個のパーティションに分けられると想定され、即ち、Pnはパーティションの合計数であり、jはPn個のパーティションにおけるいずれかのパーティションを指し、すなわちj=1,2,…,Pn、njはjパーティションにおける対応のエレメント数を指す。サンプルリニアマトリクスは式(3)、式(4)で算出され、サンプルデータの順序に関する。そのため、各動作ノードに分布したパーティションが並列計算され得るように、サンプルデータ及びその配列番号は、先頭/親RDDとしてバインドされる必要がある。
ステップS2.4において、計算並列を行い、以下の手続を含む。
Wakeby分布の計算並列特性について、本出願は、2つの補助変数によってパーティションにおけるサンプルデータの順序を示す。
式(4)におけるbkを求めるためにRDDについて変換操作することは以下にように説明する。
ステップS2.3に記載の先頭RDDまたは親RDD、及び式(7)、式(8)で説明された変換操作に基づき、bkを計算するフローチャートを作り出すことができる。図3のフローチャートによれば、RDDに基づくWakeby分散並列推定アルゴリズムの計算方法は、ステップS2.4.1〜ステップS2.4.5を含む。
ステップS2.4.1において、Sparkプラットフォームのtextfile()方法によりHDFSからテキストファイルを読み取り、文字列型の先頭RDDまたは親RDDとしてフィードバックし、RDDを複数のパーティションに分け、パーティションをメモリに記憶する。
ステップS2.4.2において、マッピング(map)操作によって、新たに構築されたRDDが次の操作に計算され得るように、各行のデータを分割して各データを倍精度タイプにマッピングする。また、パーティションの各変換結果をメモリに記憶する。
ステップS2.4.3において、簡素化(reduce)変換操作によって各パーティションの全てのエレメントを重合して各パーティションのBjを生成する。
ステップS2.4.4において、合併(combine)変換操作によって全てのパーティションの最終結果を組み合わせて加算し、最終式(4)のn個のサンプルでのb0〜b4を取得してから、式(3)でサンプルリニアマトリクスを計算する。
ステップS2.4.5において、Wakeby分布について、サンプルリニアマトリクスを得た後、Wakeby分布の5つのパラメータに関する方程式を構築し、最小2乗法で5つの方程式を解き、Wakeby分布を得る。save動作操作によってWakeby分布の計算結果をHDFSに記憶できる。
5つのステップに続いて、大規模の新エネルギーサンプリングデータのWakeby分布を構築することができる。累積和をRDDに変換する変換操作によってフローチャートを形成すると共に、全てのパーティションがパイプライン化計算されるため、累積和は完全に並列計算されるものである。そのため、本出願に係るRDDに基づくWakeby分散並列推定アルゴリズムは、その並列計算性能を著しく向上させることができる。また、本出願に係るアルゴリズム構想は、大規模のサンプルデータに対応する必用がある、または極大な消費時間に苦しんでいる他の確率モデルに適用されてもよく、そのうち、大規模のサンプルデータは、RES、電動自動車、スマート電気メーター、大規模の建物負荷などに由来する。
S3において、消費時間と、Sparkプラットフォームのパラメータ、サンプル数との関数関係を構築する。
上記アルゴリズムの消費時間と、Sparkプラットフォームの2つの重要な調整可能パラメータ(並列度とパーティション数)及びサンプルデータ数との関数関係を導出することは、Sparkプラットフォームの消費時間の予測、ハードウェア構成の設定及びプログラムの調整に寄与する。
Sparkにおいて、各動作ノードは、いずれも幾つかの実行者が存在し、実行者は、各パーティションに対して計算を行いデータを記憶する。そのため、並列効率に影響する重要なパラメータは2つある。その1つは、手動で設置可能なパーティション数Pnである。もう1つは、クラスタ並列度であり、いくつのパーティションを同時に実行できるかを示す。クラスタ並列度は、下記の式で計算される。
(ただし、Nは動作ノードの数であり、Eiはノードiにおけるアクチュエーターの数であり、Ciはノードiにおける各実行者が持っている物理的コアの数であり、Tiはノードiにおける各コアのスレッド数である。)
式(9)によって、Sparkクラスタの並列度がハードウェア構成に密接に関係していることが分かる。
式(4)によって、n=2とすると、bkを計算するために
の時間単位を必要となれば、n個のサンプルパーティションを持っているbkを計算するために
の時間単位を必要となる。データをPn個のパーティションに分け、PT個のパーティションを同時に計算すれば、各パーティションには平均にn/Pn個のデータを有し、全てのパーティションがコンピューターで
回並列されないと実行完了できない。sは毎回並列計算を行う通信時間であるとし、sがPnとPTに従う微小な変化を無視し、式(3)でサンプルリニアマトリクスを計算し、最小2乗法によって5つの方程式を解く時間はtconである。b0−b4が並列実行されるため、Wakebyを並列計算する消費時間は式(10)によって推定されてもよい。
(ただし、tWakebyはWakebyの消費時間であり、PnはRDDのパーティション数を示し、sは毎回並列計算を行う通信時間であり、
はn個のサンプルパーティションを持つbk,k=0,1,2,3,4の値を計算することに必要となる時間であり、tconはサンプルリニアマトリクスを計算する時間、及び最小2乗法によってWakeby分布の5つのパラメータに関する方程式を解く時間である。)
式(10)よって、直観的に、Pnは少ないほうがよいと考えられるが、sの変化を無視し、パーティション数が多ければ多いほど、通信周波数が高く、メモリ負荷が小さくなることを容易に想到することができる。そのため、合理的な数のパーティションは、Sparkの適用性能を向上することができる。一実施例において、Pnが(2〜4)×PTに等しいことを推薦し、これは、実験結果によって証明できる。サンプルデータ数が十分に大きい場合、無視できるほどsとtconが比較的小さいため、実験によって
を推定する場合、式(10)におけるsとtconを考慮しなくてもよい。ここまで、Sparkプラットフォームのパラメータとサンプルサイズとの関数関係に対する解きステップが終了する。
本出願の一実施例において、5台のSugon A620r−Gサーバーにおいて1つのメインノード及び4つの動作ノードによるクラスタを構築し、各ノードに対して公文書に応じてSpark 1.4.1、HDFS 2.4.1及びMatlab 2015bが取り付けられ、数値模擬を行い、提出された方法を検証する。また、Spark及びHDFSに基づく分散並列フレームワークにおけるデータマート、可視化ツール及び商品ハードウェアは、それぞれ公文書に応じて配置されている。
一、Sparkプラットフォームの配置パラメータを入力する。
Matlabは、国際上で公認される優秀な数学アプリケーションソフトウェアであるため、本実施例において、RDDに基づくアルゴリズムの性能をテストするために、MatlabにおいてWakeby分布の実現性能を比較対象とし、表1は、2つのプラットフォームのパラメータの詳細を示す。
表1は、機器のパラメータ配置リストである。
二、Sparkプラットフォームに基づき、Wakeby分布モデルを構築する。
ステップ一においてフレームワークのパラメータの配置を完了すると、本実施例において、潮汐流速をRESの対象として数値模擬を行う。73178個のデータサンプルは、サンフランシスコベイエリア(37°48.5'N、122°20.7'W)から収集され、データの合計サイズは0.5MBである。また、アルゴリズムの大規模データに対する性能をテストするために、コピーすることで上述した0.5MBの初期データを拡張する。SparkプラットフォームにおいてWakeby分布モデルを配置し、図3のフローチャートは、RDDに基づくWakeby分布並列推定アルゴリズムであり、これらモデルは、Sparkにおいてステップ1〜ステップ5を実現する。
ステップ1において、Sparkのtextfile()方法によってHDFSからテキストファイルを読み取り、文字列型の先頭RDD又は親RDDとしてフィードバックし、RDDを複数のパーティションに分割し、パーティションをメモリに記憶する。
ステップ2において、新たに構築されたRDDが次の操作により計算され可能のように、map操作によって各行のデータを分割し、各データを倍精度タイプにマッピングする。また、パーティションの各変換結果をメモリに記憶する。
ステップ3において、reduce変換操作によって各パーティションの全てのエレメントを重合して各パーティションのBjを生成する。
ステップ4において、combine変換操作によって全てのパーティションの最終結果を組み合わせて加算し、最終式(4)のn個のサンプルでのb0〜b4を取得した後、式(3)でサンプルリニアマトリクスを計算する。
ステップ5において、Wakeby分布について、サンプルリニアマトリクスを得た後、Wakeby分布の5つのパラメータに関する方程式を構築し、最小2乗法で5つの方程式を解き、Wakeby分布を得る。save動作操作によってWakeby分布の計算結果をHDFSに記憶する。
図4は、本実施例に係る、プログラムを実行してSpark及びMatlabプラットフォームにおいてWakebyモデルの確率分布を実現するグラフである。図5は、プログラムを実行してSpark及びMatlabプラットフォームにおいてWakebyモデルを実現する消費時間の比較図である。
図4に示すように、SparkにおいてWakeby分布を実現して得られた確率密度曲線結果はMatlabと同じであるため、本出願に係るアルゴリズムの正確性を証明することができる。
図5に示すように、異なるサンプルデータ数の場合、Sparkクラスタ及びMatlabクラスタによってWakeby分布の時間を計算する。Sparkに掛かった時間はMatlabよりも短く、ひいてはMatlabに必要となる時間の20%だけが掛かる。データ数の増加に伴い、SparkとMatlabとの間の計算時間差はますます大きくなっている。これから分かるように、大規模データに対して、Sparkの利点はより際立った。一方、データ容量が5.12×109以上である場合、Matlabは、データがメモリから溢れるため計算を停止するが、Sparkは、このような問題が存在しない。それによって、前記アルゴリズムは、フレームワーク設計を実現する際に、並列計算性能を極めて大きく向上させることができ、かつ、大規模データ又は超大規模データの処理に強みを有する。
本実施例において、Sparkプラットフォームの弾性データセットによる再生可能エネルギーの確率モデル構築方法を用いることで、大規模のサンプルデータの確率分布モデル構築時間は、明らかに短縮されていることがわかる。
三、消費時間と、Sparkプラットフォームのパラメータ及びサンプルサイズとの関数関係の正確性を検証する。
Sparkにおいて、各動作ノードには幾つかのアクチュエーターがあり、それぞれ各パーティションに対して計算を行い、データを記憶し、並列効率に影響する重要なパラメータを2つ有する。その1つは手動で設定されたパーティション数であり、もう1つは、並列度であり、いくつのパーティションを同時に実行できるかを示す。式(9)によってクラスタ並列度を計算する。
(ただし、PTはSparkクラスタにおける並列度であり、Nはノードの数であり、Eiはノードiにおけるアクチュエーターの数であり、Ciはノードiにおける各アクチュエーター中の物理的コアの数であり、Tiはノードiにおける各コアのスレッド数であり、Sparkクラスタの並列度はハードウェア構成に密接に関係する。)
本実施例において、Sparkクラスタを実現する並列度は、式(11)で示される。
消費時間を並列計算する関数は、本出願によるSparkプラットフォームのパラメータとサンプルサイズとの間の関数であり、式(10)で表される。
本実施例において、textFile()及びparallelize()の2番目のパラメータを設定することでパーティション数Pnを配置することができ、本実施例において、Pn=(1〜10)×PTとすることで計算時間の変化を観察し、その結果を表2に示す。表2から分かるように、サンプル数は7.3×108である場合、最適計算時間は21.557秒であり、サンプル数は1.46×109である場合、最適計算時間は37.725秒であり、最適計算時間との差が最大になる値は、Pnが小さすぎるか大きすぎる時に現われることが多い。Pn=(1〜10)×PTの場合、対応する計算時間は、最適時間に近い、ひいては最適計算時間に等しいことが多い。そのため、Pn=(2〜4)×PTとすることは合理的であり、プログラムチューニングに寄与する。
表2は、異なるPnでのWakeby分布消費時間リストである。
n=128、PT=32、n=7.3×108とし、シミュレーション実験においてsとtconを無視した場合、
=3.8×10-6秒を推定し得た。Pn=384、PT=128とする場合、nを変更することで、式(10)で算出される理論値及びシミュレーションによって得られる実際値を得た。表3から分かるように、理論値と実際値との絶対誤差は2秒を超えず、相対誤差は最大3%を超えない。誤差が許容可能範囲内にあるため、導出される式は正確であることを証明できる。そのため、所定のサンプルデータの数で、使用者は、導出された関数関係を用いて所定の配置でアルゴリズムの消費時間を予測できる、または希望の計算時間でハードウェアを合理的に配置できる。
表3は、異なるサンプル数で算出した時間の理論値及び実際値である。

Claims (8)

  1. Sparkプラットフォーム及びHadoop分散ファイルシステムHDFSに基づき、再生可能エネルギーのデータについて分散並列フレームワークをモデル構築し、前記分散並列フレームワークを前記再生可能エネルギーのデータの記憶システムに対応させることと、
    弾性分散データセットRDDの耐障害性特徴と、メモリに基づいて計算する特徴とを利用してWakeby確率分布モデルを構築して解き、RDDに基づく前記Wakeby確率分布モデルの推定を実現することと、を含む、大規模再生可能エネルギーのデータについて確率モデルを構築する方法。
  2. 前記分散並列フレームワークは、互いにデータ伝送を行い、RDDに基づくSpark計算エンジンと、hadoop分散ファイルシステムと、データマートと、可視化ツールと、商品ハードウェアと、を含む、請求項1に記載の方法。
  3. 前記Sparkプラットフォーム及びHDFSに基づき、再生可能エネルギーデータについて前記分散並列フレームワークをモデル構築することは、
    前記RDDに基づくSpark計算エンジンを用い、メモリにおいて前記Wakeby確率分布モデルを並列計算することと、
    HDFSを用いて大規模再生可能エネルギーRESデータを記憶し、高スループットを有するデータアクセスインタフェースを提供することと、
    前記SparkプラットフォームとHDFSとを組み合わせ、前記Wakeby確率分布モデルの計算タスクを前記大規模再生可能エネルギーRESデータにより近いノードに移動させることと、
    HDFSに直接アップロードされ得るローカルファイルと、Sqoopデータ伝送手段によってHDFSにアップロードされるリレーショナルデータベースとを含む前記データマートによって、既存のRES記憶システムにおける大規模のデータをHDFSに事前に移行させることと、
    前記可視化ツールに関連してデータをブラウザに表示させることと、
    分散モードでの前記Sparkプラットフォームのメインアーキテクチャ又はサブアーキテクチャに基づき、前記商品ハードウェアを1つのメインノード及び複数の動作ノードとして配置することと、
    前記Sparkプラットフォーム及びHDFSに基づく前記分散並列フレームワークの構築を完了することと、を含み、
    非リレーショナルデータベースの下層記憶システムはHDFSであり、新エネルギーのデータベースとして大規模の新エネルギーデータの記憶、リアルタイムアクセス及びオフライン統計分析の機能を実現する、請求項2に記載の方法。
  4. 前記Wakeby確率分布モデルを構築して解くことは、
    5つのパラメータを用いた前記Wakeby確率分布モデルを構築する一般式を式(1)にし、Wakeby分布の確立密度関数を式(2)にすることを含む、請求項1に記載の方法。
    (ただし、
    は累積確率分布関数であり、x(F)は所定のF値に対する分位数値であり、ξは位置パラメータであり、αとβは寸法パラメータであり、γとσは形状パラメータであり、f(x)は確率密度関数である。)
  5. 前記Wakeby確率分布モデルを構築して解くことは、
    L次モーメント推定法で前記Wakeby確率分布モデルの5つのパラメータを推定することと、
    前記Wakeby確率分布モデルの5つのパラメータを、サンプルの最初5次のモーメントを前記Wakeby確率分布モデルの最初5次のL次モーメントに等しくさせる式によって求めることと、
    サンプルデータから最初5次のリニアマトリクスを計算し、各次のリニアマトリクスを、L次モーメントの定義式により導出された対応の5次モーメントに等しくさせることと、を含み、
    r番目のサンプルのリニアマトリクスは、下記の式で表される、請求項4に記載の方法。
  6. 前記RDDに基づく前記Wakeby確率分布モデルの推定を実現することは、
    前記Sparkプラットフォームのtextfile()方法によってHDFSからテキストファイルを読み取り、文字列型の先頭RDD又は親RDDとしてフィードバックし、RDDをj個のパーティションに分割し(j=1,2,...,Pn)、前記j個のパーティションをメモリに記憶することと、
    新たに構築したRDDを次の操作により計算され可能にし、且つ各パーティションの各変換結果をメモリに記憶するために、map操作によって各パーティションの各行のデータを分割し、各データを倍精度タイプにマッピングすることと、
    reduce変換操作によって各パーティションのエレメントを重合し、各パーティションのBjを生成することと、
    combine変換操作によって前記j個のパーティションの最終結果を組み合わせて加算し、n個のサンプルにおいてk=0,1,2,3,4の場合のbkの値を得、サンプルのリニアマトリクスを計算することと、
    サンプルのリニアマトリクスに基づき、前記Wakeby確率分布モデルの5つのパラメータに関する式を構築し、最小2乗法で前記式を解き、前記Wakeby確率分布モデルの5つのパラメータの計算結果を得ることと、
    save動作操作によって、前記Wakeby確率分布モデルの5つのパラメータの計算結果をHDFSに記憶することと、を含む、請求項1から5のいずれか1項に記載の方法。
  7. 下記の式に基づき、前記bkを計算し、
    2つの補助変数によって前記j個のパーティションにおけるサンプルデータの順序を示す、請求項6に記載の方法。
  8. 並列推定された計算時間とサンプルデータ数、及び前記Sparkプラットフォームのクラスタ並列度とパーティション数との関数関係によって、Sparkクラスタのパーティション数をハードウェア構成に適合させることと、
    Wakebyの消費時間を並列計算することと、を更に含み、
    クラスタ並列度は式(9)に示され、Wakebyの消費時間は式(10)に示される、
    請求項1に記載の方法。
    (ただし、Nは動作ノードの数であり、Eiはノードiにおけるアクチュエーターの数であり、Ciはノードiにおける各実行者が持っている物理的コアの数であり、Tiはノードiにおける各コアのスレッド数である。)
    (ただし、tWakebyはWakebyの消費時間であり、PnはRDDのパーティション数を示し、sは毎回並列計算を行う通信時間であり、
    はn個のサンプルパーティションを持つbk,k=0,1,2,3,4の値を計算することに必要となる時間であり、tconはサンプルリニアマトリクスを計算する時間、及び最小2乗法によってWakeby分布の5つのパラメータに関する方程式を解く時間である。)
JP2018565323A 2017-09-20 2018-08-13 大規模再生可能エネルギーのデータについて確率モデルを構築する方法 Active JP6784780B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710856461.2 2017-09-20
CN201710856461.2A CN107609141B (zh) 2017-09-20 2017-09-20 一种对大规模可再生能源数据进行快速概率建模方法
PCT/CN2018/100234 WO2019056887A1 (zh) 2017-09-20 2018-08-13 对大规模可再生能源数据进行概率建模的方法

Publications (2)

Publication Number Publication Date
JP2019537079A true JP2019537079A (ja) 2019-12-19
JP6784780B2 JP6784780B2 (ja) 2020-11-11

Family

ID=61060346

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018565323A Active JP6784780B2 (ja) 2017-09-20 2018-08-13 大規模再生可能エネルギーのデータについて確率モデルを構築する方法

Country Status (3)

Country Link
JP (1) JP6784780B2 (ja)
CN (1) CN107609141B (ja)
WO (1) WO2019056887A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109308309A (zh) * 2018-07-27 2019-02-05 网宿科技股份有限公司 一种数据服务质量评估方法和终端

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609141B (zh) * 2017-09-20 2020-07-31 国网上海市电力公司 一种对大规模可再生能源数据进行快速概率建模方法
CN108279442A (zh) * 2018-01-30 2018-07-13 中国国土资源航空物探遥感中心 一种应用于大数据计算的航空重力数据物性层析计算方法
CN108762921B (zh) * 2018-05-18 2019-07-12 电子科技大学 一种Spark集群系统的在线优化分区的任务调度方法及装置
CN109800092A (zh) 2018-12-17 2019-05-24 华为技术有限公司 一种共享数据的处理方法、装置及服务器
CN110990476B (zh) * 2019-12-17 2023-04-07 腾讯科技(深圳)有限公司 数据导入方法、装置、服务器及存储介质
CN112365355B (zh) * 2020-12-10 2023-12-26 深圳迅策科技有限公司 实时计算基金估值和风险指标的方法、装置及可读介质
CN112882855A (zh) * 2021-02-08 2021-06-01 上海臣星软件技术有限公司 一种数据监测的方法、装置、设备及计算机存储介质
CN113704340B (zh) * 2021-08-30 2023-07-21 远景智能国际私人投资有限公司 数据处理方法、装置、服务器及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2823546A4 (en) * 2012-02-16 2016-02-10 Spyros Lazaris SYSTEM AND METHOD FOR MANAGING GENERATION, TRANSMISSION AND DISTRIBUTION OF CURRENT
US10891272B2 (en) * 2014-09-26 2021-01-12 Oracle International Corporation Declarative language and visualization system for recommended data transformations and repairs
CN104318326A (zh) * 2014-10-15 2015-01-28 国家电网公司 一种提升可再生能源接纳能力的网架优化模型
CN104320848B (zh) * 2014-11-14 2018-08-14 上海赛特斯信息科技股份有限公司 基于云计算实现室内定位的系统及方法
CN104954453B (zh) * 2015-06-02 2019-01-22 浙江工业大学 基于云计算的数据挖掘rest服务平台
CN105139281A (zh) * 2015-08-20 2015-12-09 北京中电普华信息技术有限公司 一种电力营销大数据的处理方法及系统
CN105205563B (zh) * 2015-09-28 2017-02-08 国网山东省电力公司菏泽供电公司 一种基于大数据的短期负荷预测平台
CN106126641B (zh) * 2016-06-24 2019-02-05 中国科学技术大学 一种基于Spark的实时推荐系统及方法
CN107092990A (zh) * 2017-05-03 2017-08-25 西安电子科技大学 基于大数据分析的盾构施工地面沉降预测系统和方法
CN107609141B (zh) * 2017-09-20 2020-07-31 国网上海市电力公司 一种对大规模可再生能源数据进行快速概率建模方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109308309A (zh) * 2018-07-27 2019-02-05 网宿科技股份有限公司 一种数据服务质量评估方法和终端
CN109308309B (zh) * 2018-07-27 2021-04-16 网宿科技股份有限公司 一种数据服务质量评估方法和终端

Also Published As

Publication number Publication date
WO2019056887A1 (zh) 2019-03-28
JP6784780B2 (ja) 2020-11-11
CN107609141B (zh) 2020-07-31
CN107609141A (zh) 2018-01-19

Similar Documents

Publication Publication Date Title
JP6784780B2 (ja) 大規模再生可能エネルギーのデータについて確率モデルを構築する方法
CN105893669A (zh) 一种基于数据挖掘的全局仿真性能预测方法
CN113343427B (zh) 一种基于卷积神经网络的结构拓扑构型预测方法
CN109981749A (zh) 一种基于极限梯度提升的云工作流任务执行时间预测方法
CN108879656B (zh) 一种基于子抽样svr集成的短期电力负荷预测方法
CN103885867B (zh) 一种模拟电路性能的在线评价方法
CN114676522B (zh) 融合gan和迁移学习的气动形状优化设计方法及系统及设备
CN106599610A (zh) 预测长链非编码rna和蛋白质联系的方法及系统
CN110018882B (zh) 一种基于宽度学习的虚拟机性能预测方法
Gilan et al. Sustainable building design: A challenge at the intersection of machine learning and design optimization
JP2011154439A (ja) 最適化処理プログラム、方法及び装置
CN113722860A (zh) 基于降阶模型的瞬态热力状态在线评估方法、设备及介质
CN109446478A (zh) 一种基于迭代和可重构方式的复协方差矩阵计算系统
CN110991741B (zh) 一种基于深度学习的断面约束概率预警方法及系统
CN104573331A (zh) 一种基于MapReduce的K近邻数据预测方法
CN103218493A (zh) 一种基于多重网格的快速等几何分析数值模拟方法
Yang et al. Fast flow field prediction of three-dimensional hypersonic vehicles using an improved Gaussian process regression algorithm
CN116316617A (zh) 多场站智能融合的新能源发电功率区域预测方法和系统
CN116303219A (zh) 一种网格文件的获取方法、装置及电子设备
JP2013037437A (ja) 構造解析システム,構造解析プログラムおよび構造解析方法
Su et al. Probabilistic load flow analysis based on sparse polynomial chaotic expansion
CN106342305B (zh) 一种面向多任务要求的测试性指标确定方法
Jing et al. New knowledge network evaluation method for design rationale management
CN117435308B (zh) 一种基于并行计算算法的Modelica模型仿真方法及系统
Bouktif et al. Monitoring system for residential energy consumption

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200310

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200526

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201020

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201023

R150 Certificate of patent or registration of utility model

Ref document number: 6784780

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250