JP2024068611A

JP2024068611A - ネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法及びシステム

Info

Publication number: JP2024068611A
Application number: JP2023072062A
Authority: JP
Inventors: 天光呂; 競李; 万興盛; 蕊李; 浩源程; ▲セン▼ 艾; 明楊; 飛王; 学山韓; 貴彬鄒; 成福王
Original assignee: Shanghai Jiaotong University; Shandong University; China Electric Power Research Institute Co Ltd CEPRI
Current assignee: Shanghai Jiaotong University; Shandong University; China Electric Power Research Institute Co Ltd CEPRI
Priority date: 2022-11-08
Filing date: 2023-04-26
Publication date: 2024-05-20
Anticipated expiration: 2043-04-26
Also published as: CN115439026B; CN115439026A; JP7382045B1

Abstract

【課題】ネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法及びシステムを提供する。【解決手段】方法は、時間変動インパクトモデルを構築し、各エージェントユーザーがデマンドレスポンスに参加する能力を説明するステップと、時間変動インパクトモデルに基づく自己組織インセンティブメカニズムを構築するステップと、分散型ネットワークマネージャーにおけるパラメータサーバーを基に、１つのネストされた連合学習最適計算フレームワークを構築し、ユーザープライバシーを保証する前提で、このフレームワークが、自己組織体における各エージェント効用の最適収束値を算出し、さらに分散型ネットワークマネージャーからこの情報を取得するステップと、最後に、パラメータサーバーが、モデルを統合しエージェントに戻して、効率的で経済的なデマンドレスポンス管理を実現するステップと、を含む。【選択図】図１

Description

本発明は電力システムデマンドレスポンス技術分野に属し、特にネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法及びシステムに関する。

本部分の陳述は、本発明に関連する背景技術を提供するだけであり、従来技術を必然的に構成するものではない。

配電システムに分散型発電機や負荷などのリソースの数が多くない場合に、制御センターはすべてのリソースの特徴を十分に統合し、その後、集中的な決済によりリソースの統合的なスケジューリングを実現することができる。配電システムの快速な発展に伴って、新型配電システムにおいて通常に大量の分散型電源、エネルギー貯蔵装置、柔軟な負荷などのエージェントが存在し、従来モードの制御センターがすべてのリソースに接することができないという特徴によっては、集中スケジューリングの効果がよくない可能性がある。同時に、従来の電力市場では、良好なインセンティブメカニズムが欠如し、かつ需要側電力消費特性の認識が不正確であるため、市場取引やスケジューリングプロセスの効率が比較的低い。

従来のデマンドレスポンス方法は、クライアントがＴＯＵ価格シグナル又はリアルタイムスケジューリング指令に応答するようにするメカニズムであり、電力消費行動を動的に変化させることで、臨界ピーク需要を削減したり、時間帯別の電力消費を転移させることができる。しかし、従来のデマンドレスポンス方法は、从ユーザーの電力需要特性及び市場運営のルールに基づくが、このような方法によっては、ユーザーの個人情報が完全に漏洩してしまう。

上記背景技術に存在する技術課題を解決するために、本発明は、ネストされた連合学習アルゴリズムを提出し、算出プロセスにおいて、自己組織化体の進化を十分に取り入れ、エージェントの特徴に応じてグループ化して、スケジューリングプロセスにおけるエージェントの反応率を向上させ、エージェントに対するより正確な制御を実現し、スケジューリングコストを低減させるネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法及びシステムを提供する。

上記目的を達成するために、本発明は以下の技術的解決手段を採用し、
本発明の第１態様は、
反復回数、プライバシーバジェット及びデマンドレスポンス能力を初期化し、貢献能力基準値、参加能力基準値、アクティブ基準値及びプライバシーバジェット基準値を取得するステップ１と、
貢献能力基準値、参加能力基準値、アクティブ基準値に基づいて、インフルエンス値を算出してパラメータサーバー側にアップロードして、自己組織体に加入するか否かについてのフィードバック及び更新されたアクティブ基準値を取得するステップ２と、

自己組織体に加入するというフィードバックを受信した後、トレニンーグサンプルを生成するとともに、プライバシーバジェット及びデマンドレスポンス能力をトレニンーグパラメータとして内層連合学習プロセスを実行し、総プライバシー補償コストと、連合学習プロセスに参加する１組のユーザー側のデマンドレスポンス能力を合わせて、ユーザー側の最適効用を算出してパラメータサーバー側にアップロードすることにより、パラメータサーバーから返信された平均勾配を取得するステップ３と、

平均勾配に基づいて、プライバシーバジェット及びデマンドレスポンス能力をトレニンーグパラメータとして、外層連合学習プロセスを実行し、分散型ネットワークマネージャーの最適効用を取得するステップ４と、

最適効用に基づいて、更新されたプライバシーバジェット及びデマンドレスポンス能力を算出し、分散型ネットワークマネージャーにアップロードすることにより、分散型ネットワークマネージャーから返信された総プライバシー補償コストを取得するステップ５と、

結果が収束するか否かを判断し、結果が収束しない場合にステップ３に戻り、結果が収束する場合に、自己組織体のうち、デマンドレスポンスに参加する最終的な自己組織体メンバーを特定し、参加能力基準値及びプライバシーバジェット基準値を更新し、反復回数を増加させ、ステップ２に戻るステップ６と、を含むネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法を提供する。

さらには、前記パラメータサーバー側は、インフルエンス値に基づいて、各ユーザー側が自己組織体に加入するか否かを判断し、ユーザー側のインフルエンス値が高いほど、自己組織体に加入する可能性が高くなる。

さらには、ユーザー側ｉの効用Ｕ_ｉ，ｔとしては、
である。

さらには、分散型ネットワークマネージャーの効用は、連合学習トレニンーグモデルの性能と、分散型ネットワークマネージャーのコストの２部分に決められる。

さらには、前記分散型ネットワークマネージャーのコストは、デマンドレスポンスプロセスにおける応答コストと、連合学習プロセスにおける総プライバシー補償コストとに決められる。

さらには、結果が収束するか否かを判断する方法としては、ユーザー側及び分散型ネットワークマネージャーの最大効用はいずれも唯一であれば、収束する。

さらには、前記プライバシーバジェットとプライバシーバジェット基準値とは比例する。

本発明の第２態様は、
反復回数、プライバシーバジェット及びデマンドレスポンス能力を初期化し、貢献能力基準値、参加能力基準値、アクティブ基準値及びプライバシーバジェット基準値を取得するように配置される初期化モジュールと、
貢献能力基準値、参加能力基準値、アクティブ基準値に基づいて、インフルエンス値を算出してパラメータサーバー側にアップロードして、自己組織体に加入するか否かについてのフィードバック及び更新されたアクティブ基準値を取得するように配置されるインフルエンス値算出モジュールと、
自己組織体に加入するというフィードバックを受信した後、トレニンーグサンプルを生成するとともに、プライバシーバジェット及びデマンドレスポンス能力をトレニンーグパラメータとして内層連合学習プロセスを実行し、総プライバシー補償コストと、連合学習プロセスに加入する１組のユーザー側のデマンドレスポンス能力を合わせて、ユーザー側の最適効用を算出してパラメータサーバー側にアップロードすることにより、パラメータサーバーから返信された平均勾配を取得するように配置される内層連合学習モジュールと、
平均勾配に基づいて、プライバシーバジェット及びデマンドレスポンス能力をトレニンーグパラメータとして、外層連合学習プロセスを実行し、分散型ネットワークマネージャーの最適効用を取得するように配置される外層連合学習モジュールと、
最適効用に基づいて、更新されたプライバシーバジェット及びデマンドレスポンス能力を算出し、分散型ネットワークマネージャーにアップロードすることにより、分散型ネットワークマネージャーから返信された総プライバシー補償コストを取得するように配置される総プライバシー補償コスト更新モジュールと、
結果が収束するか否かを判断し、結果が収束しない場合に、内層連合学習モジュールに戻り、結果が収束する場合に、自己組織体のうち、デマンドレスポンスに参加する最終的な自己組織体メンバーを特定し、参加能力基準値及びプライバシーバジェット基準値を更新し、反復回数を増加させ、外層連合学習モジュールに戻るように配置される自己組織体特定モジュールと、を含むネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンスシステムを提供する。

本発明の第３様態は、コンピュータプログラムが記憶され、このプログラムがプロセッサによって実行される場合に、上記したネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法におけるステップを実現するコンピュータ読み取り可能な記憶媒体を提供する。

本発明の第４様態は、メモリ、プロセッサ、及びメモリに記憶されプロセッサで実行可能なコンピュータプログラムを含み、前記プロセッサが前記プログラムを実行する場合に、上記したネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法におけるステップを実現するコンピュータ機器を提供する。

従来技術に比べて、本発明の有益な効果として、下記の通りである。

本発明は、ネストされた連合学習アルゴリズムを提出し、算出プロセスにおいて、自己組織化体の進化を十分に取り入れ、エージェントの特徴に応じてグループ化して、スケジューリングプロセスにおけるエージェントの反応率を向上させ、エージェントに対するより正確な制御を実現し、スケジューリングコストを低減させ、収束性及びユーザープライバシーを保証する前提で効率的で経済的なデマンドレスポンス管理を実現するネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法を提供する。

本発明は、時間変動インパクトモデルを構築し、各エージェントの特性を十分に反映し、ユーザーが自分のインフルエンス値を自動的に更新することを選択するようにし、マルチエージェントの自己組織解決手段へ正確な参照を提供することができるネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法を提供する。

本発明は、自己組織インセンティブメカニズムを提出して、自己組織体における最適実行者を選択し、自己組織体の安定性を向上させると同時に、利用可能なすべてのリソースをスケジューリングしてデマンドレスポンスに参加させるネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法を提供する。

本発明の一部を構成する明細書図面は、本発明に対するさらなる理解を提供するためのものであり、本発明の例示的な実施例及びその説明は、本発明を解釈するためのものであり、本発明を不当に限定するものではない。

本発明の実施例１のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法のフローチャートである。

以下に図面及び実施例を参照して本発明をさらに説明する。

指摘すべきこととして、以下の詳細な説明は例示的なものであり、本発明にさらなる説明を提供することを目的とする。特に明示しない限り、本明細書で使用される全ての技術及び科学的用語は本発明の当業者によって一般的に理解される意味と同じものを有する。
実施例１

本実施は、ネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法を提供し、図１に示すように、具体的に下記のステップを含む。

ステップ１：ユーザー側及びパラメータサーバー側はそれぞれパラメータ初期化を行う。

ここで、ユーザー側（エージェント）ｉが、パラメータ初期化を行う具体的な方法としては、反復回数ｔ＝１を初期化し、エージェントｉが貢献能力基準値、参加能力基準値、アクティブ基準値及びプライバシーバジェット基準値を取得するとともに、インフルエンス値Ｉ_ｉ，ｔを算出し、プライバシーバジェットβ_ｉ，ｔ及びデマンドレスポンス能力（応答能力と略称する）Ｐ_{ＤＲ，ｉ，ｔ}を初期化する。Ｉ_ｉ，_ｔは、ｉ番目のエージェントのｔ世代におけるインフルエンス値であり、β_ｉ，ｔは、ｉ番目のエージェントのｔ世代のプライバシーバジェット金額実際値であり、β_ｉ，_ｔ＞０であり、Ｐ_{ＤＲ，ｉ，ｔ}はｉ番目のエージェントのｔ世代における応答能力である。

ここで、分散型ネットワークマネージャーにおけるパラメータサーバー側は、反復回数ｔ＝１及び総プライバシー補償コストＲ_ｔを初期化する。Ｒ_ｔは、ｔ回目の反復の総プライバシー補償コストである。

具体的には、インパクトモデル（時間変動インパクトモデル）を構築して各エージェントの特性を十分に説明し、構築したインパクトモデルで、エージェントｉのインフルエンス値Ｉ_ｉ，ｔは、貢献能力、参加能力、アクティブ及びプライバシーバジェットの４部分が重み付けして取得される。ここで、貢献能力とは、エージェントｉの最大貢献値、即ち最大調整可能容量を指し、貢献能力の重みが最大であり、参加能力とは、ユーザー側ｉの意思決定に影響する外部環境条件を指し、外部環境が市場政策、天気、システム安定性などの要素によって影響され、環境が優しいほど、参加能力の値が大きくなり、アクティブは、ユーザー側ｉの履歴影響性能を表し、これによって不正データの生成を回避し、インパクトモデルに時間属性を付与し、履歴インフルエンス値が大きいほど、この部分の値が大きくなるが、ユーザーがデマンドレスポンスプロセスに参加することを励すために、この部分の重みは、高すぎず、低すぎなく、プライバシーバジェットは、ユーザー側ｉから提供される個人データに関連付けられ、デマンドレスポンスが分散型ネットワークマネージャーによって開始されると仮定すると、インセンティブメカニズムにおいて、分散型ネットワークマネージャーは、ユーザー側ｉのプライバシーバジェットに基づいてユーザー側ｉから提供された個人データをリターンし、プライバシーバジェット値が高いほどのユーザー側ｉは、分散型ネットワークマネージャーから取得するリターンが高くなり、これは、ユーザーがさらに連合学習プロセスに参加することの奨励に寄与し、ユーザーは、自分のプライバシーバジェットを設計することにより自分の効用を最大化する。

Ｎがエージェント数の合計であると仮定すると、エージェントｉのインフルエンス値Ｉ_ｉ，ｔは、
Ｉ_ｉ，_ｔ＝ａ_ｉＩ_{Ｃ，ｉ，ｔ}＋ｂ_ｉＩ_{Ｐ，ｉ，ｔ}＋ｃ_ｉＩ_{Ａ，ｉ，ｔ}＋ｄ_ｉＩ_{Ｂ，ｉ，ｔ} （１）として記載されてもよい。

即ちβ_ｉ，ｔとＩ_{Ｂ，ｉ，ｔ}は比例する。具体的には、貢献能力基準値Ｉ_{Ｃ，ｉ，ｔ}は、ユーザーの最大調整可能容量を表すためのものであり、その値がデータ収集装置によりユーザーの実際状況に応じて取得されてから０－１標準化が行われ、参加能力基準値Ｉ_{Ｐ，ｉ，ｔ}は、ユーザー側の意思決定に影響する外部環境条件を表すためのものであり、市場政策、天気、システム安定性等の要素によって影響され、その値がデータ収集装置によって市場政策、天気、システム安定性等の環境条件に応じて取得され、０－１標準化が行われ、環境が優しいほど、参加能力基準値が大きくなり、アクティブ基準値Ｉ_{Ａ，ｉ，ｔ}は、ユーザー側がデマンドレスポンスに参加する履歴パフォーマンスを表すものであり、インパクトモデルに時間属性が付与され、不正データの生成を回避することができ、その値がデータ収集装置によってユーザーの履歴パフォーマンスに応じて取得され、０－１標準化が実行され、履歴パフォーマンスがよいほど、アクティブ基準値が大きくなり、プライバシーバジェット基準値Ｉ_{Ｂ，ｉ，ｔ}がユーザー側ｉから提供された個人データに基づいて０－１標準化した後に取得されたものである。デマンドレスポンスが分散型ネットワークマネージャーによって開始されると仮定すると、インセンティブメカニズムにおいて、分散型ネットワークマネージャーは、ユーザー側ｉのプライバシーバジェット基準値Ｉ_{Ｂ，ｉ，ｔ}に基づいてユーザー側ｉから提供された個人データをリターンし、プライバシーバジェット基準値が高いほどのユーザー側ｉは、分散型ネットワークマネージャーから取得するリターンが高くなり、これは、ユーザーがさらに連合学習プロセスに参加することの奨励に寄与し、ユーザーは、自分のプライバシーバジェットを設計することにより自分の効用を最大化することができる。すると、エージェントｉの特性は、［Ｉ_{Ｃ，ｉ，ｔ}，Ｉ_{Ｐ，ｉ，ｔ}，Ｉ_{Ａ，ｉ，ｔ}，Ｉ_{Ｂ，ｉ，ｔ}］^Ｔとして表されることができる。４つの線形重みパラメータは、各エージェント特性に基づいて設定され、ここで、貢献能力の重みが最も大きく、アクティブの重みが高すぎず、低すぎなく、履歴パフォーマンスにより不正データをフィルタすると同時に、ユーザーがデマンドレスポンスプロセスに参加することを奨励し、且つａ_ｉ＋ｂ_ｉ＋ｃ_ｉ＋ｄ_ｉ＝１を満たす。異なるエージェントの線形重みパラメータは、異なる可能性がある。

インパクトモデルのインフルエンス値が高いほど、自己組織体を形成する場合に、エージェントが自己組織体に加入する優先度が高くなる。

ユーザー自己組織化法は、エージェントが動的仮想発電所として自動集約する原則に基づくものであり、これによって算出圧力及びデマンドレスポンスプロセスに制御必要なエージェント数を低減させることができる。これまでの分析によれば、インフルエンス値が高いエージェントは、自己組織に参加する可能性がより高く、その目的としては、自分の効用の最適化である。

ステップ２：ユーザー側ｉは、貢献能力基準値、参加能力基準値、アクティブ基準値に基づいて、インフルエンス値を算出して、インフルエンス値をパラメータサーバー側にアップロードして、自己組織体に加入するか否かについてのフィードバック及び更新されたアクティブ基準値を取得する。

パラメータサーバー側は、インフルエンス値Ｉ_ｉ，_ｔに基づいてそれぞれのエージェントが予自己組織体に加入するか否かを判断し（インパクトモデルの４つの部分に対する分析から分かるように、Ｉ_{Ｂ，ｉ，ｔ}が高いほど、自己組織に加入する可能性が高くなり、他のエージェントの利益を低下することなく、少なくとも１つのエージェントが自己組織により自分の利益を向上できることがあれば、予自己組織体に加入することができ、すべての自己組織に参加するエージェントがネストされた連合学習に参加する）、エージェントｉが自己組織（予自己組織体）の参加条件を満たせば、
パラメータサーバー側は、自己組織に加入するエージェントｉへフィードバックするとともに、すべてのエージェントｉのアクティブ基準値Ｉ_{Ａ，ｉ，ｔ＋１}を更新する（エージェントｉが自己組織に加入した後、パラメータサーバーはエージェントｉへフィードバックし、エージェントｉのデータ収集装置が、フィードバック情報を受信した後にユーザーの履歴パフォーマンスを更新し、ユーザーが自己組織に参加するため、そのアクティブ基準値が増加する）。

ユーザー側ｉの目標としては、プライバシーバジェットβ_ｉ，ｔ及びインフルエンス値Ｉ_ｉ，_ｔを設定することによって自分の効用Ｕ_ｉ，ｔを最大化することにあり、ユーザー側ｉのプライバシーコストは、ｃ_ｐ（ｖ_ｉ，β_ｉ，ｔ）として表され、ｖ_ｉ＞０がプライバシー値パラメータを表し、ユーザー側ｉの効用Ｕ_ｉ，ｔは、

ここで、ｑは設定値であり、０．５として設定されてもよく、τ＝ｔ－１である。

分散型ネットワークマネージャーの目標としては、その効用Ｕ_{ＤＮＭ，ｔ}を最大化するように、１つの適当な奨励Ｒ_ｔ値を選択する。分散型ネットワークマネージャーの効用は、連合学習トレニンーグモデルの性能Ｐ_ＦＬ，ｔ及び分散型ネットワークマネージャーのコストという２つの部分によって決められ、分散型ネットワークマネージャーのコストは、デマンドレスポンスプロセスにおける応答コストξ_１，ｔＣ_ＤＲ，ｔ及び連合学習プロセスにおける総プライバシー補償コストＲ_ｔによって決められるので、分散型ネットワークマネージャーの効用Ｕ_{ＤＮＭ，ｔ}は、下記式に示す。

連合学習トレニンーグモデルの性能Ｐ_ＦＬ，ｔは、下記の式に示す通りである。

ここで、Hは、連合学習プロセスに参加する１組のユーザー、即ち自己組織体を表し、β_ｉ，ｔはユーザー側ｉのプライバシーバジェットを表し、重みパラメータλ＞１であり、ηは学習率を表し、ｍは、ユーザー側ｉのデータセットの大きさ、即ちユーザー側ｉにおけるトレニンーグサンプルの数を表し、Ｌは損失関数を表す。

ここで、σ_ｉ，ｔは、ユーザー側ｉのｔ番目反復におけるノイズを表す。式（６）及び（７）に示すように、ガウスノイズσの幅値が増える場合に、連合学習トレニンーグモデルの精度は低下する。

プライバシー補償コストＲ_ｔは、連合学習参加者に支払う奨励を表し、ガウスノイズ式から分かるように、プライバシーバジェットは、連合学習トレニンーグモデルの精度に影響するので、プライバシー補償コストと連合学習トレニンーグモデルの性能との間にカップリング関係があり、プライバシーバジェットによる連合学習トレニンーグモデル収束特性への影響を分析することによって、連合学習の初期段階で連合学習トレニンーグモデルの精度を初期化、推定することができる。

ステップ５：ユーザー側は、最適効用に基づいて、更新されたプライバシーバジェット及びデマンドレスポンス能力を算出し、分散型ネットワークマネージャーにアップロードすることにより、分散型ネットワークマネージャーから返信された総プライバシー補償費用を取得する。

分散型ネットワークマネージャーは、ユーザー側ｉからフィードバックされたプライバシーバジェットβ_{ｉ，ｔ＋１}に基づいて、式（２）により、Ｒ_ｔ＋１を更新する。

本実施例で、内層連合学習及び外層連合学習の作動メカニズムは一致するが、単に入力、出力が異なる。

連合学習の特徴により、連合学習のパラメータサーバーは、ユーザーの情報を収集することができ、ユーザープライバシーと通信効率を考慮するうえで、ユーザーは、準同形暗号化を用いてその情報（即ちインフルエンス値）をサーバーにおける暗号化スペースにマップする。連合学習の作動メカニズムとしては、

故に、データセットｘ_ｉを有するユーザー側ｉの損失関数は、

本実施例における内層連合学習及び外層連合学習は、いずれも適応型モーション推定連合学習アルゴリズムを採用し、適応型モーション推定連合学習アルゴリズムの具体的なステップとしては、

本実施例で提供されるネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法は、デマンドレスポンスの視点から、ユーザーの通信コスト及びプライバシー保護を考慮して、１つの時間変動インパクトモデルを構築し、各エージェントユーザーがデマンドレスポンスに参加する能力を説明し、この上で、時間変動インパクトモデルに基づく自己組織インセンティブメカニズムを構築し、その後、分散型ネットワークマネージャーにおけるパラメータサーバーを基に、１つのネストされた連合学習最適計算フレームワークを構築し、ユーザープライバシーを保証する前提で、このフレームワークが、自己組織体における各エージェント効用の最適収束値を算出し、さらに分散型ネットワークマネージャーからこの情報を取得し、最後に、パラメータサーバーが、モデルを統合しエージェントに戻して、効率的で経済的なデマンドレスポンス管理を実現する。

本発明で提供されるネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法は、時間変動インパクトモデルを構築し、各エージェントの特性を十分に反映し、ユーザーが自分のインフルエンス値を自動的に更新することを選択するようにし、マルチエージェントの自己組織解決手段へ正確な参照を提供することができる。

本発明で提供されるネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法は、自己組織インセンティブメカニズムを提出して、自己組織体における最適実行者を選択し、自己組織体の安定性を向上させると同時に、利用可能なすべてのリソースをスケジューリングしてデマンドレスポンスに参加させる。

本発明で提出されるネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法は、ネストされた連合学習アルゴリズムを提出し、算出プロセスにおいて、自己組織化体の進化を十分に取り入れ、エージェントの特徴に応じてグループ化して、スケジューリングプロセスにおけるエージェントの反応率を向上させ、エージェントに対するより正確な制御を実現し、スケジューリングコストを低減させ、収束性及びユーザープライバシーを保証する前提で効率的で経済的なデマンドレスポンス管理を実現する。
実施例２

本実施例は、具体的に、
反復回数、プライバシーバジェット及びデマンドレスポンス能力を初期化し、貢献能力基準値、参加能力基準値、アクティブ基準値及びプライバシーバジェット基準値を取得するように配置される初期化モジュールと、
貢献能力基準値、参加能力基準値、アクティブ基準値に基づいて、インフルエンス値を算出してパラメータサーバー側にアップロードして、自己組織体に加入するか否かについてのフィードバック及び更新されたアクティブ基準値を取得するように配置されるインフルエンス値算出モジュールと、
自己組織体に加入するというフィードバックを受信した後、トレニンーグサンプルを生成するとともに、プライバシーバジェット及びデマンドレスポンス能力をトレニンーグパラメータとして内層連合学習プロセスを実行し、総プライバシー補償コストと、連合学習プロセスに加入する１組のユーザー側のデマンドレスポンス能力を合わせて、ユーザー側の最適効用を算出してパラメータサーバー側にアップロードすることにより、パラメータサーバーから返信された平均勾配を取得するように配置される内層連合学習モジュールと、
平均勾配に基づいて、プライバシーバジェット及びデマンドレスポンス能力をトレニンーグパラメータとして、外層連合学習プロセスを実行し、分散型ネットワークマネージャーの最適効用を取得するように配置される外層連合学習モジュールと、
最適効用に基づいて、更新されたプライバシーバジェット及びデマンドレスポンス能力を算出し、分散型ネットワークマネージャーにアップロードすることにより、分散型ネットワークマネージャーから返信された総プライバシー補償コストを取得するように配置される総プライバシー補償コスト更新モジュールと、
結果が収束するか否かを判断し、結果が収束しない場合に内層連合学習モジュールに戻り、結果が収束する場合に、自己組織体のうち、デマンドレスポンスに参加する最終的な自己組織体メンバーを特定し、参加能力基準値及びプライバシーバジェット基準値を更新し、反復回数を増加させ、外層連合学習モジュールに戻るように配置される自己組織体特定モジュールと、を含むネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンスシステムを提供する。

ここで説明する必要があるのは、本実施例の各モジュールが実施例１の各ステップに一対一で対応し、その具体的な実施プロセスが同じであるため、ここで重複に説明しない。
実施例３

本実施例は、コンピュータプログラムが記憶され、このプログラムがプロセッサによって実行される場合に、上記実施例１に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法におけるステップを実現するコンピュータ読み取り可能な記憶媒体を提供する。
実施例４

本実施例は、メモリ、プロセッサ、及びメモリに記憶されプロセッサで実行可能なコンピュータプログラムを含み、前記プロセッサが前記プログラムを実行する場合に、上記実施例１に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法におけるステップを実現するコンピュータ機器を提供する。

当業者は、本発明の実施例が方法、システム又はコンピュータプログラム製品として提供されることができると理解すべきである。故に、本発明は、ハードウェア実施例、ソフトウェア実施例、又はソフトウェアとハードウェアとを組み合わせた実施例の形式を採用してもよい。そして、本発明は、コンピュータ利用可能プログラムコードが含まれた１つまたは複数のコンピュータ利用可能記憶媒体（磁気ディスクメモリと光学メモリ等を含むが、それらに限定されない）に実行されるコンピュータプログラム製品の形式を採用することができる。

上記は、本発明の好ましい実施例に過ぎなく、本発明を制限するものではなく、当業者にとって、本発明は様々の変更及び変化を行うことができる。本発明の思想と原則で行われたいかなる修正、同等置換、改善などは、いずれも本発明の保護範囲内に含まれるべきである。

自己組織体に加入するというフィードバックを受信した後、トレーニングサンプルを生成するとともに、プライバシーバジェット及びデマンドレスポンス能力をトレーニングパラメータとして内層連合学習プロセスを実行し、総プライバシー補償コストと、連合学習プロセスに参加する１組のユーザー側のデマンドレスポンス能力を合わせて、ユーザー側の最適効用を算出してパラメータサーバー側にアップロードすることにより、パラメータサーバーから返信された平均勾配を取得するステップ３と、

平均勾配に基づいて、プライバシーバジェット及びデマンドレスポンス能力をトレーニングパラメータとして、外層連合学習プロセスを実行し、分散型ネットワークマネージャーの最適効用を取得するステップ４と、

さらには、分散型ネットワークマネージャーの効用は、連合学習トレーニングモデルの性能と、分散型ネットワークマネージャーのコストの２部分に決められる。

さらには、結果が収束するか否かを判断する方ｓ法としては、ユーザー側及び分散型ネットワークマネージャーの最適効用はいずれも唯一であれば、収束する。

本発明の第２態様は、
反復回数、プライバシーバジェット及びデマンドレスポンス能力を初期化し、貢献能力基準値、参加能力基準値、アクティブ基準値及びプライバシーバジェット基準値を取得するように配置される初期化モジュールと、
貢献能力基準値、参加能力基準値、アクティブ基準値に基づいて、インフルエンス値を算出してパラメータサーバー側にアップロードして、自己組織体に加入するか否かについてのフィードバック及び更新されたアクティブ基準値を取得するように配置されるインフルエンス値算出モジュールと、
自己組織体に加入するというフィードバックを受信した後、トレーニングサンプルを生成するとともに、プライバシーバジェット及びデマンドレスポンス能力をトレーニングパラメータとして内層連合学習プロセスを実行し、総プライバシー補償コストと、連合学習プロセスに加入する１組のユーザー側のデマンドレスポンス能力を合わせて、ユーザー側の最適効用を算出してパラメータサーバー側にアップロードすることにより、パラメータサーバーから返信された平均勾配を取得するように配置される内層連合学習モジュールと、
平均勾配に基づいて、プライバシーバジェット及びデマンドレスポンス能力をトレーニングパラメータとして、外層連合学習プロセスを実行し、分散型ネットワークマネージャーの最適効用を取得するように配置される外層連合学習モジュールと、
最適効用に基づいて、更新されたプライバシーバジェット及びデマンドレスポンス能力を算出し、分散型ネットワークマネージャーにアップロードすることにより、分散型ネットワークマネージャーから返信された総プライバシー補償コストを取得するように配置される総プライバシー補償コスト更新モジュールと、
結果が収束するか否かを判断し、結果が収束しない場合に、内層連合学習モジュールに戻り、結果が収束する場合に、自己組織体のうち、デマンドレスポンスに参加する最終的な自己組織体メンバーを特定し、参加能力基準値及びプライバシーバジェット基準値を更新し、反復回数を増加させ、外層連合学習モジュールに戻るように配置される自己組織体特定モジュールと、を含むネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンスシステムを提供する。

分散型ネットワークマネージャーの目標としては、その効用Ｕ_{ＤＮＭ，ｔ}を最大化するように、１つの適当な奨励Ｒ_ｔ値を選択する。分散型ネットワークマネージャーの効用は、連合学習トレーニングモデルの性能Ｐ_ＦＬ，ｔ及び分散型ネットワークマネージャーのコストという２つの部分によって決められ、分散型ネットワークマネージャーのコストは、デマンドレスポンスプロセスにおける応答コストξ_１，ｔＣ_ＤＲ，ｔ及び連合学習プロセスにおける総プライバシー補償コストＲ_ｔによって決められるので、分散型ネットワークマネージャーの効用Ｕ_{ＤＮＭ，ｔ}は、下記式に示す。

連合学習トレーニングモデルの性能Ｐ_ＦＬ，ｔは、下記の式に示す通りである。

ここで、Hは、連合学習プロセスに参加する１組のユーザー、即ち自己組織体を表し、β_ｉ，ｔはユーザー側ｉのプライバシーバジェットを表し、重みパラメータλ＞１であり、ηは学習率を表し、ｍは、ユーザー側ｉのデータセットの大きさ、即ちユーザー側ｉにおけるトレーニングサンプルの数を表し、Ｌは損失関数を表す。

ここで、σ_ｉ，ｔは、ユーザー側ｉのｔ番目反復におけるノイズを表す。式（６）及び（７）に示すように、ガウスノイズσの幅値が増える場合に、連合学習トレーニングモデルの精度は低下する。

プライバシー補償コストＲ_ｔは、連合学習参加者に支払う奨励を表し、ガウスノイズ式から分かるように、プライバシーバジェットは、連合学習トレーニングモデルの精度に影響するので、プライバシー補償コストと連合学習トレーニングモデルの性能との間にカップリング関係があり、プライバシーバジェットによる連合学習トレーニングモデル収束特性への影響を分析することによって、連合学習の初期段階で連合学習トレーニングモデルの精度を初期化、推定することができる。

本実施例は、具体的に、
反復回数、プライバシーバジェット及びデマンドレスポンス能力を初期化し、貢献能力基準値、参加能力基準値、アクティブ基準値及びプライバシーバジェット基準値を取得するように配置される初期化モジュールと、
貢献能力基準値、参加能力基準値、アクティブ基準値に基づいて、インフルエンス値を算出してパラメータサーバー側にアップロードして、自己組織体に加入するか否かについてのフィードバック及び更新されたアクティブ基準値を取得するように配置されるインフルエンス値算出モジュールと、
自己組織体に加入するというフィードバックを受信した後、トレーニングサンプルを生成するとともに、プライバシーバジェット及びデマンドレスポンス能力をトレーニングパラメータとして内層連合学習プロセスを実行し、総プライバシー補償コストと、連合学習プロセスに加入する１組のユーザー側のデマンドレスポンス能力を合わせて、ユーザー側の最適効用を算出してパラメータサーバー側にアップロードすることにより、パラメータサーバーから返信された平均勾配を取得するように配置される内層連合学習モジュールと、
平均勾配に基づいて、プライバシーバジェット及びデマンドレスポンス能力をトレーニングパラメータとして、外層連合学習プロセスを実行し、分散型ネットワークマネージャーの最適効用を取得するように配置される外層連合学習モジュールと、
最適効用に基づいて、更新されたプライバシーバジェット及びデマンドレスポンス能力を算出し、分散型ネットワークマネージャーにアップロードすることにより、分散型ネットワークマネージャーから返信された総プライバシー補償コストを取得するように配置される総プライバシー補償コスト更新モジュールと、
結果が収束するか否かを判断し、結果が収束しない場合に内層連合学習モジュールに戻り、結果が収束する場合に、自己組織体のうち、デマンドレスポンスに参加する最終的な自己組織体メンバーを特定し、参加能力基準値及びプライバシーバジェット基準値を更新し、反復回数を増加させ、外層連合学習モジュールに戻るように配置される自己組織体特定モジュールと、を含むネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンスシステムを提供する。

Claims

ネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法であって、
反復回数、プライバシーバジェット及びデマンドレスポンス能力を初期化し、貢献能力基準値、参加能力基準値、アクティブ基準値及びプライバシーバジェット基準値を取得するステップ１と、
貢献能力基準値、参加能力基準値、アクティブ基準値に基づいて、インフルエンス値を算出してパラメータサーバー側にアップロードして、自己組織体に加入するか否かについてのフィードバック及び更新されたアクティブ基準値を取得するステップであって、前記パラメータサーバー側は、インフルエンス値に基づいてそれぞれのユーザー側が自己組織体に加入するか否かを判断し、ユーザー側のインフルエンス値が高いほど、自己組織体に加入する可能性が高くなるステップ２と、
自己組織体に加入するというフィードバックを受信した後、トレニンーグサンプルを生成するとともに、プライバシーバジェット及びデマンドレスポンス能力をトレニンーグパラメータとして内層連合学習プロセスを実行し、総プライバシー補償コストと、連合学習プロセスに加入する１組のユーザー側のデマンドレスポンス能力を合わせて、ユーザー側の最適効用を算出してパラメータサーバー側にアップロードすることにより、パラメータサーバーから返信された平均勾配を取得するステップ３と、
平均勾配に基づいて、プライバシーバジェット及びデマンドレスポンス能力をトレニンーグパラメータとして、外層連合学習プロセスを実行し、分散型ネットワークマネージャーの最適効用を取得するステップ４と、
最適効用に基づいて、更新されたプライバシーバジェット及びデマンドレスポンス能力を算出し、分散型ネットワークマネージャーにアップロードすることにより、分散型ネットワークマネージャーから返信された総プライバシー補償コストを取得するステップ５と、
結果が収束するか否かを判断し、結果が収束しない場合に、ステップ３に戻り、結果が収束する場合に、自己組織体のうち、デマンドレスポンスに参加する最終的な自己組織体メンバーを特定し、参加能力基準値及びプライバシーバジェット基準値を更新し、反復回数を増加させ、ステップ２に戻るステップ６と、を含む
ことを特徴とするネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法。
ユーザー側ｉの効用Ｕ_ｉ，ｔとしては、
ことを特徴とする請求項１に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法。
分散型ネットワークマネージャーの効用は、連合学習トレニンーグモデルの性能と分散型ネットワークマネージャーのコストの２部分に決められる
ことを特徴とする請求項１に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法。
前記分散型ネットワークマネージャーのコストは、デマンドレスポンスプロセスにおける応答コストと、連合学習プロセスにおける総プライバシー補償コストとに決められる
ことを特徴とする請求項３に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法。
結果が収束するか否かを判断する方法としては、ユーザー側及び分散型ネットワークマネージャーの最大効用はいずれも唯一であれば、収束する
ことを特徴とする請求項１に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法。
前記プライバシーバジェットとプライバシーバジェット基準値とは比例する
ことを特徴とする請求項１に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法。
ネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンスシステムであって、
反復回数、プライバシーバジェット及びデマンドレスポンス能力を初期化し、貢献能力基準値、参加能力基準値、アクティブ基準値及びプライバシーバジェット基準値を取得するように配置される初期化モジュールと、
貢献能力基準値、参加能力基準値、アクティブ基準値に基づいて、インフルエンス値を算出してパラメータサーバー側にアップロードして、自己組織体に加入するか否かについてのフィードバック及び更新されたアクティブ基準値を取得するように配置されるものであって、前記パラメータサーバー側は、インフルエンス値に基づいてそれぞれのユーザー側が自己組織体に加入するか否かを判断し、ユーザー側のインフルエンス値が高いほど、自己組織体に加入する可能性が高くなるインフルエンス値算出モジュールと、
自己組織体に加入するというフィードバックを受信した後、トレニンーグサンプルを生成するとともに、プライバシーバジェット及びデマンドレスポンス能力をトレニンーグパラメータとして内層連合学習プロセスを実行し、総プライバシー補償コストと、連合学習プロセスに加入する１組のユーザー側のデマンドレスポンス能力を合わせて、ユーザー側の最適効用を算出してパラメータサーバー側にアップロードすることにより、パラメータサーバーから返信された平均勾配を取得するように配置される内層連合学習モジュールと、
平均勾配に基づいて、プライバシーバジェット及びデマンドレスポンス能力をトレニンーグパラメータとして、外層連合学習プロセスを実行し、分散型ネットワークマネージャーの最適効用を取得するように配置される外層連合学習モジュールと、
最適効用に基づいて、更新されたプライバシーバジェット及びデマンドレスポンス能力を算出し、分散型ネットワークマネージャーにアップロードすることにより、分散型ネットワークマネージャーから返信された総プライバシー補償コストを取得するように配置される総プライバシー補償コスト更新モジュールと、
結果が収束するか否かを判断し、結果が収束しない場合に内層連合学習モジュールに戻り、結果が収束する場合に、自己組織体のうち、デマンドレスポンスに参加する最終的な自己組織体メンバーを特定し、参加能力基準値及びプライバシーバジェット基準値を更新し、反復回数を増加させ、外層連合学習モジュールに戻るように配置される自己組織体特定モジュールと、を含む
ことを特徴とするネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンスシステム。
コンピュータプログラムが記憶され、このプログラムがプロセッサによって実行される場合に、請求項１から６のいずれか一項に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法におけるステップを実現する
ことを特徴とするコンピュータ読み取り可能な記憶媒体。
メモリ、プロセッサ、及びメモリに記憶されプロセッサで実行可能なコンピュータプログラムを含むコンピュータ機器であって、前記プロセッサは、前記プログラムを実行する場合に、請求項１から６のいずれか一項に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法におけるステップを実現する
ことを特徴とするコンピュータ機器。