JP2024068611A - ネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法及びシステム - Google Patents

ネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法及びシステム Download PDF

Info

Publication number
JP2024068611A
JP2024068611A JP2023072062A JP2023072062A JP2024068611A JP 2024068611 A JP2024068611 A JP 2024068611A JP 2023072062 A JP2023072062 A JP 2023072062A JP 2023072062 A JP2023072062 A JP 2023072062A JP 2024068611 A JP2024068611 A JP 2024068611A
Authority
JP
Japan
Prior art keywords
demand response
self
value
privacy
organization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2023072062A
Other languages
English (en)
Other versions
JP7382045B1 (ja
Inventor
天光 呂
競 李
万興 盛
蕊 李
浩源 程
▲セン▼ 艾
明 楊
飛 王
学山 韓
貴彬 鄒
成福 王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Shandong University
China Electric Power Research Institute Co Ltd CEPRI
Original Assignee
Shanghai Jiaotong University
Shandong University
China Electric Power Research Institute Co Ltd CEPRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University, Shandong University, China Electric Power Research Institute Co Ltd CEPRI filed Critical Shanghai Jiaotong University
Application granted granted Critical
Publication of JP7382045B1 publication Critical patent/JP7382045B1/ja
Publication of JP2024068611A publication Critical patent/JP2024068611A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06315Needs-based resource requirements planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Bioethics (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Primary Health Care (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • Water Supply & Treatment (AREA)
  • Computing Systems (AREA)
  • Operations Research (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】ネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法及びシステムを提供する。【解決手段】方法は、時間変動インパクトモデルを構築し、各エージェントユーザーがデマンドレスポンスに参加する能力を説明するステップと、時間変動インパクトモデルに基づく自己組織インセンティブメカニズムを構築するステップと、分散型ネットワークマネージャーにおけるパラメータサーバーを基に、1つのネストされた連合学習最適計算フレームワークを構築し、ユーザープライバシーを保証する前提で、このフレームワークが、自己組織体における各エージェント効用の最適収束値を算出し、さらに分散型ネットワークマネージャーからこの情報を取得するステップと、最後に、パラメータサーバーが、モデルを統合しエージェントに戻して、効率的で経済的なデマンドレスポンス管理を実現するステップと、を含む。【選択図】図1

Description

本発明は電力システムデマンドレスポンス技術分野に属し、特にネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法及びシステムに関する。
本部分の陳述は、本発明に関連する背景技術を提供するだけであり、従来技術を必然的に構成するものではない。
配電システムに分散型発電機や負荷などのリソースの数が多くない場合に、制御センターはすべてのリソースの特徴を十分に統合し、その後、集中的な決済によりリソースの統合的なスケジューリングを実現することができる。配電システムの快速な発展に伴って、新型配電システムにおいて通常に大量の分散型電源、エネルギー貯蔵装置、柔軟な負荷などのエージェントが存在し、従来モードの制御センターがすべてのリソースに接することができないという特徴によっては、集中スケジューリングの効果がよくない可能性がある。同時に、従来の電力市場では、良好なインセンティブメカニズムが欠如し、かつ需要側電力消費特性の認識が不正確であるため、市場取引やスケジューリングプロセスの効率が比較的低い。
従来のデマンドレスポンス方法は、クライアントがTOU価格シグナル又はリアルタイムスケジューリング指令に応答するようにするメカニズムであり、電力消費行動を動的に変化させることで、臨界ピーク需要を削減したり、時間帯別の電力消費を転移させることができる。しかし、従来のデマンドレスポンス方法は、从ユーザーの電力需要特性及び市場運営のルールに基づくが、このような方法によっては、ユーザーの個人情報が完全に漏洩してしまう。
上記背景技術に存在する技術課題を解決するために、本発明は、ネストされた連合学習アルゴリズムを提出し、算出プロセスにおいて、自己組織化体の進化を十分に取り入れ、エージェントの特徴に応じてグループ化して、スケジューリングプロセスにおけるエージェントの反応率を向上させ、エージェントに対するより正確な制御を実現し、スケジューリングコストを低減させるネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法及びシステムを提供する。
上記目的を達成するために、本発明は以下の技術的解決手段を採用し、
本発明の第1態様は、
反復回数、プライバシーバジェット及びデマンドレスポンス能力を初期化し、貢献能力基準値、参加能力基準値、アクティブ基準値及びプライバシーバジェット基準値を取得するステップ1と、
貢献能力基準値、参加能力基準値、アクティブ基準値に基づいて、インフルエンス値を算出してパラメータサーバー側にアップロードして、自己組織体に加入するか否かについてのフィードバック及び更新されたアクティブ基準値を取得するステップ2と、
自己組織体に加入するというフィードバックを受信した後、トレニンーグサンプルを生成するとともに、プライバシーバジェット及びデマンドレスポンス能力をトレニンーグパラメータとして内層連合学習プロセスを実行し、総プライバシー補償コストと、連合学習プロセスに参加する1組のユーザー側のデマンドレスポンス能力を合わせて、ユーザー側の最適効用を算出してパラメータサーバー側にアップロードすることにより、パラメータサーバーから返信された平均勾配を取得するステップ3と、
平均勾配に基づいて、プライバシーバジェット及びデマンドレスポンス能力をトレニンーグパラメータとして、外層連合学習プロセスを実行し、分散型ネットワークマネージャーの最適効用を取得するステップ4と、
最適効用に基づいて、更新されたプライバシーバジェット及びデマンドレスポンス能力を算出し、分散型ネットワークマネージャーにアップロードすることにより、分散型ネットワークマネージャーから返信された総プライバシー補償コストを取得するステップ5と、
結果が収束するか否かを判断し、結果が収束しない場合にステップ3に戻り、結果が収束する場合に、自己組織体のうち、デマンドレスポンスに参加する最終的な自己組織体メンバーを特定し、参加能力基準値及びプライバシーバジェット基準値を更新し、反復回数を増加させ、ステップ2に戻るステップ6と、を含むネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法を提供する。
さらには、前記パラメータサーバー側は、インフルエンス値に基づいて、各ユーザー側が自己組織体に加入するか否かを判断し、ユーザー側のインフルエンス値が高いほど、自己組織体に加入する可能性が高くなる。
さらには、ユーザー側iの効用Ui,tとしては、
である。

さらには、分散型ネットワークマネージャーの効用は、連合学習トレニンーグモデルの性能と、分散型ネットワークマネージャーのコストの2部分に決められる。
さらには、前記分散型ネットワークマネージャーのコストは、デマンドレスポンスプロセスにおける応答コストと、連合学習プロセスにおける総プライバシー補償コストとに決められる。
さらには、結果が収束するか否かを判断する方法としては、ユーザー側及び分散型ネットワークマネージャーの最大効用はいずれも唯一であれば、収束する。
さらには、前記プライバシーバジェットとプライバシーバジェット基準値とは比例する。
本発明の第2態様は、
反復回数、プライバシーバジェット及びデマンドレスポンス能力を初期化し、貢献能力基準値、参加能力基準値、アクティブ基準値及びプライバシーバジェット基準値を取得するように配置される初期化モジュールと、
貢献能力基準値、参加能力基準値、アクティブ基準値に基づいて、インフルエンス値を算出してパラメータサーバー側にアップロードして、自己組織体に加入するか否かについてのフィードバック及び更新されたアクティブ基準値を取得するように配置されるインフルエンス値算出モジュールと、
自己組織体に加入するというフィードバックを受信した後、トレニンーグサンプルを生成するとともに、プライバシーバジェット及びデマンドレスポンス能力をトレニンーグパラメータとして内層連合学習プロセスを実行し、総プライバシー補償コストと、連合学習プロセスに加入する1組のユーザー側のデマンドレスポンス能力を合わせて、ユーザー側の最適効用を算出してパラメータサーバー側にアップロードすることにより、パラメータサーバーから返信された平均勾配を取得するように配置される内層連合学習モジュールと、
平均勾配に基づいて、プライバシーバジェット及びデマンドレスポンス能力をトレニンーグパラメータとして、外層連合学習プロセスを実行し、分散型ネットワークマネージャーの最適効用を取得するように配置される外層連合学習モジュールと、
最適効用に基づいて、更新されたプライバシーバジェット及びデマンドレスポンス能力を算出し、分散型ネットワークマネージャーにアップロードすることにより、分散型ネットワークマネージャーから返信された総プライバシー補償コストを取得するように配置される総プライバシー補償コスト更新モジュールと、
結果が収束するか否かを判断し、結果が収束しない場合に、内層連合学習モジュールに戻り、結果が収束する場合に、自己組織体のうち、デマンドレスポンスに参加する最終的な自己組織体メンバーを特定し、参加能力基準値及びプライバシーバジェット基準値を更新し、反復回数を増加させ、外層連合学習モジュールに戻るように配置される自己組織体特定モジュールと、を含むネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンスシステムを提供する。
本発明の第3様態は、コンピュータプログラムが記憶され、このプログラムがプロセッサによって実行される場合に、上記したネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法におけるステップを実現するコンピュータ読み取り可能な記憶媒体を提供する。
本発明の第4様態は、メモリ、プロセッサ、及びメモリに記憶されプロセッサで実行可能なコンピュータプログラムを含み、前記プロセッサが前記プログラムを実行する場合に、上記したネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法におけるステップを実現するコンピュータ機器を提供する。
従来技術に比べて、本発明の有益な効果として、下記の通りである。
本発明は、ネストされた連合学習アルゴリズムを提出し、算出プロセスにおいて、自己組織化体の進化を十分に取り入れ、エージェントの特徴に応じてグループ化して、スケジューリングプロセスにおけるエージェントの反応率を向上させ、エージェントに対するより正確な制御を実現し、スケジューリングコストを低減させ、収束性及びユーザープライバシーを保証する前提で効率的で経済的なデマンドレスポンス管理を実現するネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法を提供する。
本発明は、時間変動インパクトモデルを構築し、各エージェントの特性を十分に反映し、ユーザーが自分のインフルエンス値を自動的に更新することを選択するようにし、マルチエージェントの自己組織解決手段へ正確な参照を提供することができるネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法を提供する。
本発明は、自己組織インセンティブメカニズムを提出して、自己組織体における最適実行者を選択し、自己組織体の安定性を向上させると同時に、利用可能なすべてのリソースをスケジューリングしてデマンドレスポンスに参加させるネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法を提供する。
本発明の一部を構成する明細書図面は、本発明に対するさらなる理解を提供するためのものであり、本発明の例示的な実施例及びその説明は、本発明を解釈するためのものであり、本発明を不当に限定するものではない。
本発明の実施例1のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法のフローチャートである。
以下に図面及び実施例を参照して本発明をさらに説明する。
指摘すべきこととして、以下の詳細な説明は例示的なものであり、本発明にさらなる説明を提供することを目的とする。特に明示しない限り、本明細書で使用される全ての技術及び科学的用語は本発明の当業者によって一般的に理解される意味と同じものを有する。
実施例1
本実施は、ネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法を提供し、図1に示すように、具体的に下記のステップを含む。
ステップ1:ユーザー側及びパラメータサーバー側はそれぞれパラメータ初期化を行う。
ここで、ユーザー側(エージェント)iが、パラメータ初期化を行う具体的な方法としては、反復回数t=1を初期化し、エージェントiが貢献能力基準値、参加能力基準値、アクティブ基準値及びプライバシーバジェット基準値を取得するとともに、インフルエンス値Ii,tを算出し、プライバシーバジェットβi,t及びデマンドレスポンス能力(応答能力と略称する)PDR,i,tを初期化する。Iは、i番目のエージェントのt世代におけるインフルエンス値であり、βi,tは、i番目のエージェントのt世代のプライバシーバジェット金額実際値であり、β>0であり、PDR,i,tはi番目のエージェントのt世代における応答能力である。
ここで、分散型ネットワークマネージャーにおけるパラメータサーバー側は、反復回数t=1及び総プライバシー補償コストRを初期化する。Rは、t回目の反復の総プライバシー補償コストである。
具体的には、インパクトモデル(時間変動インパクトモデル)を構築して各エージェントの特性を十分に説明し、構築したインパクトモデルで、エージェントiのインフルエンス値Ii,tは、貢献能力、参加能力、アクティブ及びプライバシーバジェットの4部分が重み付けして取得される。ここで、貢献能力とは、エージェントiの最大貢献値、即ち最大調整可能容量を指し、貢献能力の重みが最大であり、参加能力とは、ユーザー側iの意思決定に影響する外部環境条件を指し、外部環境が市場政策、天気、システム安定性などの要素によって影響され、環境が優しいほど、参加能力の値が大きくなり、アクティブは、ユーザー側iの履歴影響性能を表し、これによって不正データの生成を回避し、インパクトモデルに時間属性を付与し、履歴インフルエンス値が大きいほど、この部分の値が大きくなるが、ユーザーがデマンドレスポンスプロセスに参加することを励すために、この部分の重みは、高すぎず、低すぎなく、プライバシーバジェットは、ユーザー側iから提供される個人データに関連付けられ、デマンドレスポンスが分散型ネットワークマネージャーによって開始されると仮定すると、インセンティブメカニズムにおいて、分散型ネットワークマネージャーは、ユーザー側iのプライバシーバジェットに基づいてユーザー側iから提供された個人データをリターンし、プライバシーバジェット値が高いほどのユーザー側iは、分散型ネットワークマネージャーから取得するリターンが高くなり、これは、ユーザーがさらに連合学習プロセスに参加することの奨励に寄与し、ユーザーは、自分のプライバシーバジェットを設計することにより自分の効用を最大化する。
Nがエージェント数の合計であると仮定すると、エージェントiのインフルエンス値Ii,tは、
=aC,i,t+bP,i,t+cA,i,t+dB,i,t (1)として記載されてもよい。
即ちβi,tとIB,i,tは比例する。具体的には、貢献能力基準値IC,i,tは、ユーザーの最大調整可能容量を表すためのものであり、その値がデータ収集装置によりユーザーの実際状況に応じて取得されてから0-1標準化が行われ、参加能力基準値IP,i,tは、ユーザー側の意思決定に影響する外部環境条件を表すためのものであり、市場政策、天気、システム安定性等の要素によって影響され、その値がデータ収集装置によって市場政策、天気、システム安定性等の環境条件に応じて取得され、0-1標準化が行われ、環境が優しいほど、参加能力基準値が大きくなり、アクティブ基準値IA,i,tは、ユーザー側がデマンドレスポンスに参加する履歴パフォーマンスを表すものであり、インパクトモデルに時間属性が付与され、不正データの生成を回避することができ、その値がデータ収集装置によってユーザーの履歴パフォーマンスに応じて取得され、0-1標準化が実行され、履歴パフォーマンスがよいほど、アクティブ基準値が大きくなり、プライバシーバジェット基準値IB,i,tがユーザー側iから提供された個人データに基づいて0-1標準化した後に取得されたものである。デマンドレスポンスが分散型ネットワークマネージャーによって開始されると仮定すると、インセンティブメカニズムにおいて、分散型ネットワークマネージャーは、ユーザー側iのプライバシーバジェット基準値IB,i,tに基づいてユーザー側iから提供された個人データをリターンし、プライバシーバジェット基準値が高いほどのユーザー側iは、分散型ネットワークマネージャーから取得するリターンが高くなり、これは、ユーザーがさらに連合学習プロセスに参加することの奨励に寄与し、ユーザーは、自分のプライバシーバジェットを設計することにより自分の効用を最大化することができる。すると、エージェントiの特性は、[IC,i,t,IP,i,t,IA,i,t,IB,i,tとして表されることができる。4つの線形重みパラメータは、各エージェント特性に基づいて設定され、ここで、貢献能力の重みが最も大きく、アクティブの重みが高すぎず、低すぎなく、履歴パフォーマンスにより不正データをフィルタすると同時に、ユーザーがデマンドレスポンスプロセスに参加することを奨励し、且つa+b+c+d=1を満たす。異なるエージェントの線形重みパラメータは、異なる可能性がある。
インパクトモデルのインフルエンス値が高いほど、自己組織体を形成する場合に、エージェントが自己組織体に加入する優先度が高くなる。
ユーザー自己組織化法は、エージェントが動的仮想発電所として自動集約する原則に基づくものであり、これによって算出圧力及びデマンドレスポンスプロセスに制御必要なエージェント数を低減させることができる。これまでの分析によれば、インフルエンス値が高いエージェントは、自己組織に参加する可能性がより高く、その目的としては、自分の効用の最適化である。


ステップ2:ユーザー側iは、貢献能力基準値、参加能力基準値、アクティブ基準値に基づいて、インフルエンス値を算出して、インフルエンス値をパラメータサーバー側にアップロードして、自己組織体に加入するか否かについてのフィードバック及び更新されたアクティブ基準値を取得する。
パラメータサーバー側は、インフルエンス値Iに基づいてそれぞれのエージェントが予自己組織体に加入するか否かを判断し(インパクトモデルの4つの部分に対する分析から分かるように、IB,i,tが高いほど、自己組織に加入する可能性が高くなり、他のエージェントの利益を低下することなく、少なくとも1つのエージェントが自己組織により自分の利益を向上できることがあれば、予自己組織体に加入することができ、すべての自己組織に参加するエージェントがネストされた連合学習に参加する)、エージェントiが自己組織(予自己組織体)の参加条件を満たせば、
パラメータサーバー側は、自己組織に加入するエージェントiへフィードバックするとともに、すべてのエージェントiのアクティブ基準値IA,i,t+1を更新する(エージェントiが自己組織に加入した後、パラメータサーバーはエージェントiへフィードバックし、エージェントiのデータ収集装置が、フィードバック情報を受信した後にユーザーの履歴パフォーマンスを更新し、ユーザーが自己組織に参加するため、そのアクティブ基準値が増加する)。
ユーザー側iの目標としては、プライバシーバジェットβi,t及びインフルエンス値Iを設定することによって自分の効用Ui,tを最大化することにあり、ユーザー側iのプライバシーコストは、c(v,βi,t)として表され、v>0がプライバシー値パラメータを表し、ユーザー側iの効用Ui,tは、
ここで、qは設定値であり、0.5として設定されてもよく、τ=t-1である。
分散型ネットワークマネージャーの目標としては、その効用UDNM,tを最大化するように、1つの適当な奨励R値を選択する。分散型ネットワークマネージャーの効用は、連合学習トレニンーグモデルの性能PFL,t及び分散型ネットワークマネージャーのコストという2つの部分によって決められ、分散型ネットワークマネージャーのコストは、デマンドレスポンスプロセスにおける応答コストξ1,tDR,t及び連合学習プロセスにおける総プライバシー補償コストRによって決められるので、分散型ネットワークマネージャーの効用UDNM,tは、下記式に示す。
連合学習トレニンーグモデルの性能PFL,tは、下記の式に示す通りである。
ここで、Hは、連合学習プロセスに参加する1組のユーザー、即ち自己組織体を表し、βi,tはユーザー側iのプライバシーバジェットを表し、重みパラメータλ>1であり、ηは学習率を表し、mは、ユーザー側iのデータセットの大きさ、即ちユーザー側iにおけるトレニンーグサンプルの数を表し、Lは損失関数を表す。
ここで、σi,tは、ユーザー側iのt番目反復におけるノイズを表す。式(6)及び(7)に示すように、ガウスノイズσの幅値が増える場合に、連合学習トレニンーグモデルの精度は低下する。
プライバシー補償コストRは、連合学習参加者に支払う奨励を表し、ガウスノイズ式から分かるように、プライバシーバジェットは、連合学習トレニンーグモデルの精度に影響するので、プライバシー補償コストと連合学習トレニンーグモデルの性能との間にカップリング関係があり、プライバシーバジェットによる連合学習トレニンーグモデル収束特性への影響を分析することによって、連合学習の初期段階で連合学習トレニンーグモデルの精度を初期化、推定することができる。
ステップ5:ユーザー側は、最適効用に基づいて、更新されたプライバシーバジェット及びデマンドレスポンス能力を算出し、分散型ネットワークマネージャーにアップロードすることにより、分散型ネットワークマネージャーから返信された総プライバシー補償費用を取得する。
分散型ネットワークマネージャーは、ユーザー側iからフィードバックされたプライバシーバジェットβi,t+1に基づいて、式(2)により、Rt+1を更新する。
本実施例で、内層連合学習及び外層連合学習の作動メカニズムは一致するが、単に入力、出力が異なる。
連合学習の特徴により、連合学習のパラメータサーバーは、ユーザーの情報を収集することができ、ユーザープライバシーと通信効率を考慮するうえで、ユーザーは、準同形暗号化を用いてその情報(即ちインフルエンス値)をサーバーにおける暗号化スペースにマップする。連合学習の作動メカニズムとしては、
故に、データセットxを有するユーザー側iの損失関数は、
本実施例における内層連合学習及び外層連合学習は、いずれも適応型モーション推定連合学習アルゴリズムを採用し、適応型モーション推定連合学習アルゴリズムの具体的なステップとしては、
本実施例で提供されるネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法は、デマンドレスポンスの視点から、ユーザーの通信コスト及びプライバシー保護を考慮して、1つの時間変動インパクトモデルを構築し、各エージェントユーザーがデマンドレスポンスに参加する能力を説明し、この上で、時間変動インパクトモデルに基づく自己組織インセンティブメカニズムを構築し、その後、分散型ネットワークマネージャーにおけるパラメータサーバーを基に、1つのネストされた連合学習最適計算フレームワークを構築し、ユーザープライバシーを保証する前提で、このフレームワークが、自己組織体における各エージェント効用の最適収束値を算出し、さらに分散型ネットワークマネージャーからこの情報を取得し、最後に、パラメータサーバーが、モデルを統合しエージェントに戻して、効率的で経済的なデマンドレスポンス管理を実現する。
本発明で提供されるネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法は、時間変動インパクトモデルを構築し、各エージェントの特性を十分に反映し、ユーザーが自分のインフルエンス値を自動的に更新することを選択するようにし、マルチエージェントの自己組織解決手段へ正確な参照を提供することができる。
本発明で提供されるネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法は、自己組織インセンティブメカニズムを提出して、自己組織体における最適実行者を選択し、自己組織体の安定性を向上させると同時に、利用可能なすべてのリソースをスケジューリングしてデマンドレスポンスに参加させる。
本発明で提出されるネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法は、ネストされた連合学習アルゴリズムを提出し、算出プロセスにおいて、自己組織化体の進化を十分に取り入れ、エージェントの特徴に応じてグループ化して、スケジューリングプロセスにおけるエージェントの反応率を向上させ、エージェントに対するより正確な制御を実現し、スケジューリングコストを低減させ、収束性及びユーザープライバシーを保証する前提で効率的で経済的なデマンドレスポンス管理を実現する。
実施例2
本実施例は、具体的に、
反復回数、プライバシーバジェット及びデマンドレスポンス能力を初期化し、貢献能力基準値、参加能力基準値、アクティブ基準値及びプライバシーバジェット基準値を取得するように配置される初期化モジュールと、
貢献能力基準値、参加能力基準値、アクティブ基準値に基づいて、インフルエンス値を算出してパラメータサーバー側にアップロードして、自己組織体に加入するか否かについてのフィードバック及び更新されたアクティブ基準値を取得するように配置されるインフルエンス値算出モジュールと、
自己組織体に加入するというフィードバックを受信した後、トレニンーグサンプルを生成するとともに、プライバシーバジェット及びデマンドレスポンス能力をトレニンーグパラメータとして内層連合学習プロセスを実行し、総プライバシー補償コストと、連合学習プロセスに加入する1組のユーザー側のデマンドレスポンス能力を合わせて、ユーザー側の最適効用を算出してパラメータサーバー側にアップロードすることにより、パラメータサーバーから返信された平均勾配を取得するように配置される内層連合学習モジュールと、
平均勾配に基づいて、プライバシーバジェット及びデマンドレスポンス能力をトレニンーグパラメータとして、外層連合学習プロセスを実行し、分散型ネットワークマネージャーの最適効用を取得するように配置される外層連合学習モジュールと、
最適効用に基づいて、更新されたプライバシーバジェット及びデマンドレスポンス能力を算出し、分散型ネットワークマネージャーにアップロードすることにより、分散型ネットワークマネージャーから返信された総プライバシー補償コストを取得するように配置される総プライバシー補償コスト更新モジュールと、
結果が収束するか否かを判断し、結果が収束しない場合に内層連合学習モジュールに戻り、結果が収束する場合に、自己組織体のうち、デマンドレスポンスに参加する最終的な自己組織体メンバーを特定し、参加能力基準値及びプライバシーバジェット基準値を更新し、反復回数を増加させ、外層連合学習モジュールに戻るように配置される自己組織体特定モジュールと、を含むネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンスシステムを提供する。
ここで説明する必要があるのは、本実施例の各モジュールが実施例1の各ステップに一対一で対応し、その具体的な実施プロセスが同じであるため、ここで重複に説明しない。
実施例3
本実施例は、コンピュータプログラムが記憶され、このプログラムがプロセッサによって実行される場合に、上記実施例1に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法におけるステップを実現するコンピュータ読み取り可能な記憶媒体を提供する。
実施例4
本実施例は、メモリ、プロセッサ、及びメモリに記憶されプロセッサで実行可能なコンピュータプログラムを含み、前記プロセッサが前記プログラムを実行する場合に、上記実施例1に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法におけるステップを実現するコンピュータ機器を提供する。
当業者は、本発明の実施例が方法、システム又はコンピュータプログラム製品として提供されることができると理解すべきである。故に、本発明は、ハードウェア実施例、ソフトウェア実施例、又はソフトウェアとハードウェアとを組み合わせた実施例の形式を採用してもよい。そして、本発明は、コンピュータ利用可能プログラムコードが含まれた1つまたは複数のコンピュータ利用可能記憶媒体(磁気ディスクメモリと光学メモリ等を含むが、それらに限定されない)に実行されるコンピュータプログラム製品の形式を採用することができる。
上記は、本発明の好ましい実施例に過ぎなく、本発明を制限するものではなく、当業者にとって、本発明は様々の変更及び変化を行うことができる。本発明の思想と原則で行われたいかなる修正、同等置換、改善などは、いずれも本発明の保護範囲内に含まれるべきである。
自己組織体に加入するというフィードバックを受信した後、トレーニングサンプルを生成するとともに、プライバシーバジェット及びデマンドレスポンス能力をトレーニングパラメータとして内層連合学習プロセスを実行し、総プライバシー補償コストと、連合学習プロセスに参加する1組のユーザー側のデマンドレスポンス能力を合わせて、ユーザー側の最適効用を算出してパラメータサーバー側にアップロードすることにより、パラメータサーバーから返信された平均勾配を取得するステップ3と、
平均勾配に基づいて、プライバシーバジェット及びデマンドレスポンス能力をトレーニングパラメータとして、外層連合学習プロセスを実行し、分散型ネットワークマネージャーの最適効用を取得するステップ4と、
さらには、分散型ネットワークマネージャーの効用は、連合学習トレーニングモデルの性能と、分散型ネットワークマネージャーのコストの2部分に決められる。
さらには、結果が収束するか否かを判断する方s法としては、ユーザー側及び分散型ネットワークマネージャーの最適効用はいずれも唯一であれば、収束する。
本発明の第2態様は、
反復回数、プライバシーバジェット及びデマンドレスポンス能力を初期化し、貢献能力基準値、参加能力基準値、アクティブ基準値及びプライバシーバジェット基準値を取得するように配置される初期化モジュールと、
貢献能力基準値、参加能力基準値、アクティブ基準値に基づいて、インフルエンス値を算出してパラメータサーバー側にアップロードして、自己組織体に加入するか否かについてのフィードバック及び更新されたアクティブ基準値を取得するように配置されるインフルエンス値算出モジュールと、
自己組織体に加入するというフィードバックを受信した後、トレーニングサンプルを生成するとともに、プライバシーバジェット及びデマンドレスポンス能力をトレーニングパラメータとして内層連合学習プロセスを実行し、総プライバシー補償コストと、連合学習プロセスに加入する1組のユーザー側のデマンドレスポンス能力を合わせて、ユーザー側の最適効用を算出してパラメータサーバー側にアップロードすることにより、パラメータサーバーから返信された平均勾配を取得するように配置される内層連合学習モジュールと、
平均勾配に基づいて、プライバシーバジェット及びデマンドレスポンス能力をトレーニングパラメータとして、外層連合学習プロセスを実行し、分散型ネットワークマネージャーの最適効用を取得するように配置される外層連合学習モジュールと、
最適効用に基づいて、更新されたプライバシーバジェット及びデマンドレスポンス能力を算出し、分散型ネットワークマネージャーにアップロードすることにより、分散型ネットワークマネージャーから返信された総プライバシー補償コストを取得するように配置される総プライバシー補償コスト更新モジュールと、
結果が収束するか否かを判断し、結果が収束しない場合に、内層連合学習モジュールに戻り、結果が収束する場合に、自己組織体のうち、デマンドレスポンスに参加する最終的な自己組織体メンバーを特定し、参加能力基準値及びプライバシーバジェット基準値を更新し、反復回数を増加させ、外層連合学習モジュールに戻るように配置される自己組織体特定モジュールと、を含むネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンスシステムを提供する。
分散型ネットワークマネージャーの目標としては、その効用UDNM,tを最大化するように、1つの適当な奨励R値を選択する。分散型ネットワークマネージャーの効用は、連合学習トレーニングモデルの性能PFL,t及び分散型ネットワークマネージャーのコストという2つの部分によって決められ、分散型ネットワークマネージャーのコストは、デマンドレスポンスプロセスにおける応答コストξ1,tDR,t及び連合学習プロセスにおける総プライバシー補償コストRによって決められるので、分散型ネットワークマネージャーの効用UDNM,tは、下記式に示す。
連合学習トレーニングモデルの性能PFL,tは、下記の式に示す通りである。
ここで、Hは、連合学習プロセスに参加する1組のユーザー、即ち自己組織体を表し、βi,tはユーザー側iのプライバシーバジェットを表し、重みパラメータλ>1であり、ηは学習率を表し、mは、ユーザー側iのデータセットの大きさ、即ちユーザー側iにおけるトレーニングサンプルの数を表し、Lは損失関数を表す。
ここで、σi,tは、ユーザー側iのt番目反復におけるノイズを表す。式(6)及び(7)に示すように、ガウスノイズσの幅値が増える場合に、連合学習トレーニングモデルの精度は低下する。
プライバシー補償コストRは、連合学習参加者に支払う奨励を表し、ガウスノイズ式から分かるように、プライバシーバジェットは、連合学習トレーニングモデルの精度に影響するので、プライバシー補償コストと連合学習トレーニングモデルの性能との間にカップリング関係があり、プライバシーバジェットによる連合学習トレーニングモデル収束特性への影響を分析することによって、連合学習の初期段階で連合学習トレーニングモデルの精度を初期化、推定することができる。
本実施例は、具体的に、
反復回数、プライバシーバジェット及びデマンドレスポンス能力を初期化し、貢献能力基準値、参加能力基準値、アクティブ基準値及びプライバシーバジェット基準値を取得するように配置される初期化モジュールと、
貢献能力基準値、参加能力基準値、アクティブ基準値に基づいて、インフルエンス値を算出してパラメータサーバー側にアップロードして、自己組織体に加入するか否かについてのフィードバック及び更新されたアクティブ基準値を取得するように配置されるインフルエンス値算出モジュールと、
自己組織体に加入するというフィードバックを受信した後、トレーニングサンプルを生成するとともに、プライバシーバジェット及びデマンドレスポンス能力をトレーニングパラメータとして内層連合学習プロセスを実行し、総プライバシー補償コストと、連合学習プロセスに加入する1組のユーザー側のデマンドレスポンス能力を合わせて、ユーザー側の最適効用を算出してパラメータサーバー側にアップロードすることにより、パラメータサーバーから返信された平均勾配を取得するように配置される内層連合学習モジュールと、
平均勾配に基づいて、プライバシーバジェット及びデマンドレスポンス能力をトレーニングパラメータとして、外層連合学習プロセスを実行し、分散型ネットワークマネージャーの最適効用を取得するように配置される外層連合学習モジュールと、
最適効用に基づいて、更新されたプライバシーバジェット及びデマンドレスポンス能力を算出し、分散型ネットワークマネージャーにアップロードすることにより、分散型ネットワークマネージャーから返信された総プライバシー補償コストを取得するように配置される総プライバシー補償コスト更新モジュールと、
結果が収束するか否かを判断し、結果が収束しない場合に内層連合学習モジュールに戻り、結果が収束する場合に、自己組織体のうち、デマンドレスポンスに参加する最終的な自己組織体メンバーを特定し、参加能力基準値及びプライバシーバジェット基準値を更新し、反復回数を増加させ、外層連合学習モジュールに戻るように配置される自己組織体特定モジュールと、を含むネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンスシステムを提供する。

Claims (9)

  1. ネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法であって、
    反復回数、プライバシーバジェット及びデマンドレスポンス能力を初期化し、貢献能力基準値、参加能力基準値、アクティブ基準値及びプライバシーバジェット基準値を取得するステップ1と、
    貢献能力基準値、参加能力基準値、アクティブ基準値に基づいて、インフルエンス値を算出してパラメータサーバー側にアップロードして、自己組織体に加入するか否かについてのフィードバック及び更新されたアクティブ基準値を取得するステップであって、前記パラメータサーバー側は、インフルエンス値に基づいてそれぞれのユーザー側が自己組織体に加入するか否かを判断し、ユーザー側のインフルエンス値が高いほど、自己組織体に加入する可能性が高くなるステップ2と、
    自己組織体に加入するというフィードバックを受信した後、トレニンーグサンプルを生成するとともに、プライバシーバジェット及びデマンドレスポンス能力をトレニンーグパラメータとして内層連合学習プロセスを実行し、総プライバシー補償コストと、連合学習プロセスに加入する1組のユーザー側のデマンドレスポンス能力を合わせて、ユーザー側の最適効用を算出してパラメータサーバー側にアップロードすることにより、パラメータサーバーから返信された平均勾配を取得するステップ3と、
    平均勾配に基づいて、プライバシーバジェット及びデマンドレスポンス能力をトレニンーグパラメータとして、外層連合学習プロセスを実行し、分散型ネットワークマネージャーの最適効用を取得するステップ4と、
    最適効用に基づいて、更新されたプライバシーバジェット及びデマンドレスポンス能力を算出し、分散型ネットワークマネージャーにアップロードすることにより、分散型ネットワークマネージャーから返信された総プライバシー補償コストを取得するステップ5と、
    結果が収束するか否かを判断し、結果が収束しない場合に、ステップ3に戻り、結果が収束する場合に、自己組織体のうち、デマンドレスポンスに参加する最終的な自己組織体メンバーを特定し、参加能力基準値及びプライバシーバジェット基準値を更新し、反復回数を増加させ、ステップ2に戻るステップ6と、を含む
    ことを特徴とするネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法。
  2. ユーザー側iの効用Ui,tとしては、
    ことを特徴とする請求項1に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法。
  3. 分散型ネットワークマネージャーの効用は、連合学習トレニンーグモデルの性能と分散型ネットワークマネージャーのコストの2部分に決められる
    ことを特徴とする請求項1に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法。
  4. 前記分散型ネットワークマネージャーのコストは、デマンドレスポンスプロセスにおける応答コストと、連合学習プロセスにおける総プライバシー補償コストとに決められる
    ことを特徴とする請求項3に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法。
  5. 結果が収束するか否かを判断する方法としては、ユーザー側及び分散型ネットワークマネージャーの最大効用はいずれも唯一であれば、収束する
    ことを特徴とする請求項1に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法。
  6. 前記プライバシーバジェットとプライバシーバジェット基準値とは比例する
    ことを特徴とする請求項1に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法。
  7. ネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンスシステムであって、
    反復回数、プライバシーバジェット及びデマンドレスポンス能力を初期化し、貢献能力基準値、参加能力基準値、アクティブ基準値及びプライバシーバジェット基準値を取得するように配置される初期化モジュールと、
    貢献能力基準値、参加能力基準値、アクティブ基準値に基づいて、インフルエンス値を算出してパラメータサーバー側にアップロードして、自己組織体に加入するか否かについてのフィードバック及び更新されたアクティブ基準値を取得するように配置されるものであって、前記パラメータサーバー側は、インフルエンス値に基づいてそれぞれのユーザー側が自己組織体に加入するか否かを判断し、ユーザー側のインフルエンス値が高いほど、自己組織体に加入する可能性が高くなるインフルエンス値算出モジュールと、
    自己組織体に加入するというフィードバックを受信した後、トレニンーグサンプルを生成するとともに、プライバシーバジェット及びデマンドレスポンス能力をトレニンーグパラメータとして内層連合学習プロセスを実行し、総プライバシー補償コストと、連合学習プロセスに加入する1組のユーザー側のデマンドレスポンス能力を合わせて、ユーザー側の最適効用を算出してパラメータサーバー側にアップロードすることにより、パラメータサーバーから返信された平均勾配を取得するように配置される内層連合学習モジュールと、
    平均勾配に基づいて、プライバシーバジェット及びデマンドレスポンス能力をトレニンーグパラメータとして、外層連合学習プロセスを実行し、分散型ネットワークマネージャーの最適効用を取得するように配置される外層連合学習モジュールと、
    最適効用に基づいて、更新されたプライバシーバジェット及びデマンドレスポンス能力を算出し、分散型ネットワークマネージャーにアップロードすることにより、分散型ネットワークマネージャーから返信された総プライバシー補償コストを取得するように配置される総プライバシー補償コスト更新モジュールと、
    結果が収束するか否かを判断し、結果が収束しない場合に内層連合学習モジュールに戻り、結果が収束する場合に、自己組織体のうち、デマンドレスポンスに参加する最終的な自己組織体メンバーを特定し、参加能力基準値及びプライバシーバジェット基準値を更新し、反復回数を増加させ、外層連合学習モジュールに戻るように配置される自己組織体特定モジュールと、を含む
    ことを特徴とするネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンスシステム。
  8. コンピュータプログラムが記憶され、このプログラムがプロセッサによって実行される場合に、請求項1から6のいずれか一項に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法におけるステップを実現する
    ことを特徴とするコンピュータ読み取り可能な記憶媒体。
  9. メモリ、プロセッサ、及びメモリに記憶されプロセッサで実行可能なコンピュータプログラムを含むコンピュータ機器であって、前記プロセッサは、前記プログラムを実行する場合に、請求項1から6のいずれか一項に記載のネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法におけるステップを実現する
    ことを特徴とするコンピュータ機器。
JP2023072062A 2022-11-08 2023-04-26 ネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法及びシステム Active JP7382045B1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202211388054.0 2022-11-08
CN202211388054.0A CN115439026B (zh) 2022-11-08 2022-11-08 基于嵌套联邦学习的多智能体自组织需求响应方法及系统

Publications (2)

Publication Number Publication Date
JP7382045B1 JP7382045B1 (ja) 2023-11-16
JP2024068611A true JP2024068611A (ja) 2024-05-20

Family

ID=84252563

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023072062A Active JP7382045B1 (ja) 2022-11-08 2023-04-26 ネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法及びシステム

Country Status (2)

Country Link
JP (1) JP7382045B1 (ja)
CN (1) CN115439026B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117575291B (zh) * 2024-01-15 2024-05-10 湖南科技大学 基于边缘参数熵的联邦学习的数据协同管理方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102012249B1 (ko) * 2013-03-28 2019-08-21 한국전자통신연구원 동적 자원 할당 방법 및 장치
CN111091200B (zh) * 2019-12-20 2021-03-19 深圳前海微众银行股份有限公司 训练模型的更新方法、系统、智能设备、服务器及存储介质
CN112446040A (zh) * 2020-11-24 2021-03-05 平安科技(深圳)有限公司 基于选择性梯度更新的联邦建模方法及相关设备
US20220328189A1 (en) * 2021-04-09 2022-10-13 Arizona Board Of Regents On Behalf Of Arizona State University Systems, methods, and apparatuses for implementing advancements towards annotation efficient deep learning in computer-aided diagnosis
CN113361694B (zh) * 2021-06-30 2022-03-15 哈尔滨工业大学 一种应用差分隐私保护的分层联邦学习方法及系统
CN114462090B (zh) * 2022-02-18 2023-06-27 北京邮电大学 一种针对联邦学习中差分隐私预算计算的收紧方法
CN114841364B (zh) * 2022-04-14 2024-06-14 北京理工大学 一种满足个性化本地差分隐私需求的联邦学习方法

Also Published As

Publication number Publication date
JP7382045B1 (ja) 2023-11-16
CN115439026A (zh) 2022-12-06
CN115439026B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
Zhan et al. A learning-based incentive mechanism for federated learning
Wu et al. A context-aware multiarmed bandit incentive mechanism for mobile crowd sensing systems
Zhang et al. Security-aware virtual network embedding algorithm based on reinforcement learning
WO2020000399A1 (zh) 一种基于智能电网的多智能体深度强化学习代理方法
Lu et al. Optimization of task offloading strategy for mobile edge computing based on multi-agent deep reinforcement learning
Jain et al. A multiarmed bandit incentive mechanism for crowdsourcing demand response in smart grids
CN112367109A (zh) 空地网络中由数字孪生驱动的联邦学习的激励方法
He et al. Three-stage Stackelberg game enabled clustered federated learning in heterogeneous UAV swarms
JP2024068611A (ja) ネストされた連合学習によるマルチエージェント自己組織化デマンドレスポンス方法及びシステム
CN114896899B (zh) 一种基于信息交互的多智能体分散式决策方法及系统
CN116489712B (zh) 一种基于深度强化学习的移动边缘计算任务卸载方法
US20230189075A1 (en) Wireless communication network resource allocation method with dynamic adjustment on demand
Xu et al. Aoi-guaranteed incentive mechanism for mobile crowdsensing with freshness concerns
Cui et al. Multiagent reinforcement learning-based cooperative multitype task offloading strategy for internet of vehicles in B5G/6G network
Liang et al. A wind speed combination forecasting method based on multifaceted feature fusion and transfer learning for centralized control center
CN116486192A (zh) 一种基于深度强化学习的联邦学习方法及系统
CN116795198A (zh) 数据中心的能耗优化方法、装置及存储介质
CN114449536B (zh) 一种基于深度强化学习的5g超密集网络多用户接入选择方法
Tan et al. Based on bid and data quality incentive mechanisms for mobile crowd sensing systems
Chen et al. Enhanced hybrid hierarchical federated edge learning over heterogeneous networks
Yuan Intrinsically-motivated reinforcement learning: A brief introduction
Liu et al. Incentive-driven long-term optimization for edge learning by hierarchical reinforcement mechanism
CN114866459B (zh) 一种多约束条件下的路径规划方法
CN111986821B (zh) 一种面向远程诊疗的非合作博弈资源调度方法
CN117973644B (zh) 一种考虑参考电站优化的分布式光伏功率虚拟采集方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230501

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230825

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231017

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231026

R150 Certificate of patent or registration of utility model

Ref document number: 7382045

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150