JP2021114242A

JP2021114242A - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP2021114242A
Application number: JP2020007585A
Authority: JP
Inventors: 幸男釜谷; Yukio Kamaya; 秀将伊藤; Hidemasa Ito; 廣次鳥羽; Koji Toba; 真人渋谷; Masato Shibuya; 容子坂内; Yoko Sakauchi
Original assignee: Toshiba Digital Solutions Corp; Toshiba Energy Systems and Solutions Corp
Current assignee: Toshiba Digital Solutions Corp; Toshiba Energy Systems and Solutions Corp
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2021-08-05
Anticipated expiration: 2040-01-21
Also published as: JP7399724B2

Abstract

【課題】社会インフラの変更案を策定することができる情報処理装置、情報処理方法及びプログラムを提供する。【解決手段】情報処理装置１において、策定部１０の評価部１０１は、信頼度の評価と、修正変更案を作成するとともに、修正変更案の修正変更が収束した場合、修正変更案を出力部１０２に出力する。生成部２０の環境部２０１は、作成された修正変更案を対象システムのモデルに入力して、時刻ｋにおけるシステム状態（φｋ）を生成する。方策関数部２０２は、環境部２０１が出力するシステム状態を方策関数に入力して設備変更修正の行動選択の確率分布を求める。サンプリング部２０３は、確率分布に基づいて変更案をサンプリングし、サンプリングした変更案を環境部２０１に出力する。環境部２０１は、出力された変更案を対象システムのモデルに入力して、ｋ＋１回目におけるシステム状態（φｋ＋１）を生成し、評価部１０１へ出力する。【選択図】図１

Description

本発明の実施形態は、情報処理装置、情報処理方法、およびプログラムに関する。

近年、社会インフラシステムの大きな課題として老朽化問題があげられる。例えば、電力系統においては、世界的に変電所設備の老朽化が迫ってきており、設備投資計画の立案が重要である。このような設備投資計画問題に対しては、各領域で専門家によるソリューション開発が行われてきた。その際には、大規模化に対応できるスケーラビリティ、システムを構成する多様な設備機器種類を設定できる多様性、設備構成変更に柔軟に対応できる変動性、といった要件をみたすことが望まれるが、これらの３つの条件を同時に満たすことは困難であった。

特開２００７−８０２６０号公報

永田真幸、竹原有紗、供給信頼度制約を考慮した電力流通設備更新の平準化支援ツール−プロトタイプの開発−、研究報告Ｒ０８００１、財団法人電力中央研究所、平成２１年２月

本発明が解決しようとする課題は、社会インフラの変更案を策定することができる情報処理装置、情報処理方法、およびプログラムを提供することである。

実施形態の情報処理装置は、生成部と、策定部を持つ。生成部は、グラフ構造を持つシステムの設備変更に対する確率モデルである方策関数を用いて設備変更計画候補を生成する。策定部は、前記生成部が生成した設備変更計画候補毎に、前記システムの信頼度を評価する。

実施形態に係る情報処理装置の構成例を示す図。方策関数を説明するための図。方策関数を説明するための図。実施形態に係る処理の概要を説明するための図。図４に示した回路図の構成の評価例を説明するための図。実施形態に係る設備変更計画案の策定手順のフローチャートの図。第１実施例に係るＳＡＩＦＩ改善更新の例を説明するための図。第１実施例に係る情報処理装置の構成例を示す図。第１実施例に係る設備変更計画案の策定手順のフローチャートの図。第２実施例に係る情報処理装置の構成例を示す図。第２実施例に係る設備変更計画案の策定手順のフローチャートの図。第３実施例に係る情報処理装置の構成例を示す図。第３実施例に係る設備変更計画案の策定手順のフローチャートの図。表示装置上に表示される画像例を示す図。実システムの構造例を示す図。想定ノードＡＮの種別の定義の一例を示す図。図１６のグラフ構造のデータから生成されたニューラルネットワークを示す図。グラフ構造のデータからニューラルネットワークを生成する様子を示す図。ニューラルネットワークの生成において係数α_ｉ，ｊを決定する手法について説明するための図。コンボリューション処理とアテンション処理のマッピング例を示す図。変更の選択例を説明するための図。学習方法例における情報の流れを示す図。

以下、実施形態の情報処理装置、情報処理方法、およびプログラムを、図面を参照して説明する。以下、以下の説明では、情報処理装置が扱う処理として設備変更計画を例として説明する。なお、本実施形態は、社会インフラシステム向けの設備変更計画問題に限るものではない。また、以下の例では、社会インフラシステムの一例として電力系統システムを例に説明するが、社会インフラシステムはこれに限らない。社会インフラシステムは、水道、ガス、道路、通信等のシステムであってもよい。

まず、情報処理装置１の構成例を説明する。
図１は、本実施形態に係る情報処理装置１の構成例を示す図である。図１のように、情報処理装置１は、策定部１０、および生成部２０を備える。
策定部１０は、評価部１０１、および出力部１０２を備える。
生成部２０は、環境部２０１、方策関数部２０２、およびサンプリング部２０３を備える。

評価部１０１は、信頼度の評価と、修正変更案を作成する。評価部１０１は、作成した修正変更案を環境部２０１に出力する。また、評価部１０１は、修正変更案の修正変更が収束した場合、修正変更案を出力部１０２に出力する。

出力部１０２は、評価部１０１が出力する修正変更案を外部装置（例えば表示装置３）に出力する。

環境部２０１は、例えば、対象システム、対象システムのモデル、シミュレータ等である。環境部２０１は、評価部１０１が出力する修正変更案を取得し、取得した修正変更案を、例えば対象システムのモデルに入力して、時刻ｋにおけるシステム状態（φ^ｋ）を生成する。環境部２０１は、生成したシステム状態（φ^ｋ）を方策関数部２０２に出力する。また、環境部２０１は、サンプリング部２０３が出力する変更案a^ｋを取得し、取得した変更案a^ｋを、例えば対象システムのモデルに入力して、ｋ＋１回目におけるシステム状態（φ^ｋ＋１）を生成する。環境部２０１は、生成したｋ＋１回目におけるシステム状態（φ^ｋ＋１）を策定部１０に出力する。

方策関数部２０２は、確率モデルである方策関数を記憶する。方策関数部２０２は、環境部２０１が出力するシステム状態を方策関数に入力して設備変更修正の行動選択の確率分布を求める。方策関数部２０２は、求めた行動選択の確率分布をサンプリング部２０３に出力する。

サンプリング部２０３は、方策関数部２０２が出力する行動選択の確率分布を取得する。サンプリング部２０３は、確率分布に基づいて変更案ａ^ｋをサンプリングし、サンプリングした変更案ａ^ｋを環境部２０１に出力する。方策関数とは状態φ^ｋにおける行動選択肢一つ一つに選択される確率を対応付ける関数である。この確率に従って選択肢が決定される。サンプリングでは、例えば、０から１までの実数を、選択肢毎の確率値に対応する長さの線分に分割し、線分番号（ｉｎｄｅｘ）を付しておき、０から１までの一様乱数関数により発生した乱数がどの区間に入っているかによって、対応する線分の番号で選択肢を選ぶ。

次に、方策関数について、図２と図３を参照して説明する。図２と図３は、方策関数を説明するための図である。
図２のように、方策関数は、現在（ｋ回目）のシステム状態が入力されると、次（ｋ＋１回目）の行動選択の確率分布を出力する関数である。
また、方策関数では、図３に示すように、状態φにおいて、次の時刻の変更案（次の状態）の候補をＡ（φ）とする。その候補の各変更案a（∈Ａ（φ））を、次の時刻の変更案として抽出する確率がπ（a｜φ）である。方策関数では、変更案aを選択すると、結果としてシステム状態がφ’に移る。このため、方策関数としては、図３のような遷移確率が求まっていればよい。

ここで、本実施形態における処理の概要を説明する。
本実施形態では、方策関数を用いて、設備変更計画を策定しながら、停電の発生率であるＳＡＩＦＩ（ＳｙｓｔｅｍＡｖｅｒａｇｅＩｎｔｅｒｒｕｐｔＦｒｅｑｕｅｎｃｙＩｎｄｅｘ）を信頼度として評価する。なお、ＳＡＩＦＩ値は、国際的な電力システムの供給信頼度指標であり、Σ（停電負荷数）×（停電発生率）／（全負荷数）の式によって求められる指標である。よって、ＳＡＩＦＩ値は小さいほど停電の少ない高信頼システムであることを示している。そして、本実施形態では、評価の際に潮流などの物理シミュレータの状態計算結果を反映し、潮流に依存する故障率も考慮可能とする。なお、潮流に依存する故障率は、例えば潮流シミュレータによって算出する。潮流シミュレータは、外部装置であってもよく、例えば環境部２０１が備えていてもよい。

また、本実施形態では、ＳＡＩＦＩが向上する設備変更計画候補を設備変更計画案として選択する。なお、設備変更計画は、所定の変更期間における設備の変更であるとする。なお、以下の各実施形態では、信頼度の例としてＳＡＩＦＩを用いる例を説明するが、信頼度は社会インフラシステムに応じたものであればよい。例えば、社会インフラシステムが通信の場合、信頼度は通信ネットワークの切断率等であってもよい。また。社会インフラシステム道路の場合、信頼度は道路の不通率等であってもよい。また、用いる信頼度は１つに限らず２つ以上であってもよい。また、強化学習において、後述するようにシステムの累積設備投資コストを重視して学習してもよい。これにより、実施形態によれば、累積コストと信頼性を両立して、設備変更計画案を策定することができる。

本実施形態の設備変更計画は、所定の変更期間における設備の変更であるとする。本実施形態では、設備変更計画案の策定の過程でＳＡＩＦＩを評価しながら信頼度の高い計画を策定する。なお、条件は、回路図に対するＳＡＩＦＩを定義できるものとする。

図４は、本実施形態に係る処理の概要を説明するための図である。図４において、符号ｇ１１は、評価対象の回路図を表す。符号ｇ１２は、符号ｇ１１の回路図をメタグラフで表したものである。符号ｇ１３は、符号ｇ１２のメタグラフ、あるいはその系列に対して信頼度評価値を求めて評価することを表している。

図４の符号ｇ１１とｇ１２において、Ｇ１、Ｇ２は、発電機である。Ｘ１〜Ｘ４は、送電線を表している。Ｂ１〜Ｂ３は、バスを表している。λ１〜λ４は、送電線Ｘ１からＸ４それぞれの故障率を表している。また、Ｌｏａｄ１〜Ｌｏａｄ３それぞれは、需要家を表している。

本実施形態では、故障率λ１〜λ４を用いて、この回路のＳＡＩＦＩを計算する。回路とメタグラフは対応するので、このメタグラフに対応してＳＡＩＦＩが定まる。ここで、回路構成が時刻１，時刻２，…，時刻Ｔというタイミングで変更されるとすると、対応してメタグラフ系列Φ＝（φ^１，φ^２，…，φ^Ｔ）が定まる。なお、メタグラフは、時系列的に、設備の構成、状態によって変化する。

次に、ＳＡＴＩＦＩについて説明する。
図５は、図４に示した符号ｇ１１の回路図の構成の評価例を説明するための図である。Ｘ１からＸ４において、“０”は切断されている状態を表し、“１”は接続されている状態を表す。Ｌ１からＬ３において、“０”は停電状態を表し、“１”は通電状態を表す。

ＳＡＩＦＩ計算は、図５のように、与えられたシステム構成と各設備故障確率に対して、負荷戸当たりの電力供給停止確率を求めることで行う。そして、図５のように、システムのグラフ構造と故障率が分かれば、需要家毎のＳＡＩＦＩは計算することができる。そして、設備を変更した場合は、グラフ構造が変化したことによってＳＡＩＦＩ値が変化することになる。このため、本実施形態では、ＳＡＩＦＩ値を評価することで設備変更計画候補を評価し、ＳＡＩＦＩ値が改善される設備変更計画候補を設備変更計画案として策定する。

ここで、電力システムにおける国毎のＳＡＩＦＩ値の例を説明する。
例えば、Ａ国の年間停電の頻度に関する指標（０〜３）が１であり、平均停電回数指標（ＳＡＩＦＩ値）が８．２である。なお、年間停電の頻度に関する指標は、スコアが大きいほど停電回数が少なく継続時間が短いことを表している。また、Ｂ国の年間停電の頻度に関する指標が２であり、ＳＡＩＦＩ値が０．６である。また、Ｃ国の年間停電の頻度に関する指標が３であり、ＳＡＩＦＩ値が０．０である。このように、ＳＡＩＦＩ値は国や地域によって異なるため、基準値や閾値も国や地域によって設定される。

次に、設備変更計画案の策定手順を説明する。この例では、変更計画において、システムのＳＡＩＦＩ値が常にあらかじめ設定された閾値ＳＡＩＦＩ＿ｔｈよりもよい、すなわち、小となるように計画する方針で説明する。この閾値の設定としては、例えば、電力提供サービスの提供品質として設定された停電発生率上限などである。
図６は、本実施形態に係る設備変更計画案の策定手順のフローチャートの図である。

（ステップＳ１１）策定部１０、生成部２０は、評価するシステム状態φ^０（初期状態）を取得する。生成部２０は、方策関数、環境条件を取得する。なお、方策関数は、例えば強化学習によって獲得されたものである。また、初期状態φ^０は、学習済みニューラルネットと同じ構成であってもよい。また、環境条件とは、例えば、システムの構成設備の仕様、特性モデル（コストモデルなど）、設備変更計画の立案に関わるシステムの外部環境、例えば、電力システムであれば需要パターン（予測値でもよい）、発電パターンなどである。続けて、策定部１０は、初期状態φ^０に相当するＳＡＩＦＩ（φ^０）を求めて記憶する。

策定部１０と生成部２０は、ステップＳ１２〜Ｓ１７の処理をＴ回繰り返して、設備変更計画を変更修正して策定する。

（ステップＳ１２）策定部１０は修正変更案を策定する。なお、策定部１０は、一回目の処理で初期状態φ^０に基づいて修正変更案として策定し、二回目の処理でシステム状態φ^{１（＝０＋１）}に基づいて修正変更案として策定する。このようにｋ回目の処理で、生成部２０は、策定部１０が策定した修正変更案を環境部２０１に入力してシステム状態φ^ｋ＋１を求める。続けて、生成部２０は、システム状態φ^ｋ＋１を方策関数部２０２に入力して確率分布を求める。続けて、生成部２０は、求めた確率分布に基づいて変更案a^ｋをサンプリングして求める。生成部２０は、変更案a^ｋを環境部２０１に入力して、システム状態φ^ｋ＋１を求める。

（ステップＳ１３）策定部１０は、システム状態φ^ｋに相当するＳＡＩＦＩ（φ^ｋ）を求める。なお、策定部１０は、一回目の処理で初期状態φ^０に相当するＳＡＩＦＩ（φ^０）を、二回目の処理でシステム状態φ^{１（＝０＋１）}に相当するＳＡＩＦＩ（φ^１）を求める。

（ステップＳ１４）策定部１０は、あらかじめ設定された閾値ＳＡＩＦＩ＿ｔｈとステップＳ１３で求めたＳＡＩＦＩ（φ^ｋ）と比較し、ＳＡＩＦＩ（φ^ｋ）が閾値ＳＡＩＦＩ＿ｔｈより改善できているか否かを判別する。策定部１０は、例えば、ＳＡＩＦＩ（φ^ｋ）が閾値ＳＡＩＦＩ＿ｔｈ以下の場合、またはＳＡＩＦＩ（φ^ｋ）と閾値ＳＡＩＦＩ＿ｔｈの比が１以下の場合に改善されていると判別する。策定部１０は、改善されていると判別した場合（ステップＳ１４；ＹＥＳ）、ステップＳ１６の処理に進める。策定部１０は、改善されていないと判別した場合（ステップＳ１４；ＮＯ）、ステップＳ１５の処理に進める。

（ステップＳ１５）改善されていないと判別されたため、策定部１０は、設備変更計画候補のＳＡＩＦＩ（Φ）の改善策の策定を行う。具体的には、策定部１０は、システム状態φ^ｋにＳＡＩＦＩ改善更新Δφを反映する。このように、改善されていない場合は、ｋ回目の処理において、システム状態φ^ｋを置き換える。続けて、策定部１０は、ｋにｋ＋１を代入し、ステップＳ１２の処理に戻す。なお、ＳＡＩＦＩ改善更新Δφについては、実施例１で説明する。

（ステップＳ１６）策定部１０は、ステップＳ１２〜Ｓ１６の処理をＴ回繰り返したか否かを判別する。策定部１０は、ステップＳ１２〜Ｓ１６の処理をＴ回繰り返したと判別した場合（ステップＳ１６；ＹＥＳ）、ステップＳ１８の処理に進める。策定部１０は、ステップＳ１２〜Ｓ１６の処理をＴ回繰り返していないと判別した場合（ステップＳ１６；ＮＯ）、ステップＳ１７の処理に進める。

（ステップＳ１７）策定部１０は、ｋにｋ＋１を代入し、ステップＳ１２の処理に戻す。

（ステップＳ１８）策定部１０は、系列Φ＝（φ^１，φ^２，…，φ^T）を設備変更計画案として出力する。

なお、ステップＳ１２〜Ｓ１６の処理をＴ回の処理を行った場合でも改善されなかった場合、策定部１０は、改善されなかったことを示す情報を生成部２０に出力するようにしてもよい。このような場合、例えば利用者が他の条件を策定部１０、生成部２０に与え、策定部１０は与えられた他の条件に基づいて、再度修正変更案を策定するようにしてもよい。または、このような場合、生成部２０は、変更しないことを計画案として策定するようにしてもよい。

ここで、二巡目までの処理について具体的な処理例を説明する。
策定部１０は、まず初期状態を修正変更案として出力する。また、策定部１０は、初期状態φ^０に相当するＳＡＩＦＩ（φ^０）を求めて記憶する。

次に、生成部２０は、システム状態φ^０を方策関数部２０２に入力して、次（１回目）の行動選択の確率分布を求める。続けて、生成部２０は、行動選択の確率分布からサンプリングして変更案ａ^１を求める。続けて、生成部２０は、環境部２０１に変更案ａ^１を入力して、次のシステム状態φ^１を求める。生成部２０は、求めた次のシステム状態φ^１を策定部１０に出力する。

策定部１０は、システム状態φ^１に相当するＳＡＩＦＩ（φ^１）を求める。次に、策定部１０は、閾値ＳＡＩＦＩ＿ｔｈとＳＡＩＦＩ（φ^１）を比較して改善されているか否かを判別する。改善されていないと判別された場合、策定部１０は、システム状態φ^１にＳＡＩＦＩ改善更新Δφを反映する。続けて、策定部１０は、ＳＡＩＦＩ改善更新Δφを反映した結果に基づいて、修正変更案を策定する。

次に、生成部２０は、修正変更案を環境部２０１に入力して、ｋ＝１回目のシステム状態φ’^１を求める。なお、システム状態がφ^ｋ＋１ではなくφ’^ｋ＋１の理由は、ＳＡＩＦＩ改善更新Δφを反映されているためである。
続けて、生成部２０は、システム状態φ’^１を方策関数部２０２に入力して次（ｋ＝２（＝ｋ＋１）回目）の行動選択の確率分布を求める。続けて、生成部２０は、行動選択の確率分布からサンプリングして変更案ａ^２を求める。続けて、生成部２０は、環境部２０１に変更案ａ^２を入力して、２回目のシステム状態φ^{２（＝１＋１）}を求める。生成部２０は、求めた２回目におけるシステム状態φ^２を策定部１０に出力する。

策定部１０は、システム状態φ^２に相当するＳＡＩＦＩ（φ^２）を求める。次に、策定部１０は、閾値ＳＡＩＦＩ＿ｔｈとＳＡＩＦＩ（φ^２）を比較して改善されているか否かを判別する。改善されていないと判別された場合、策定部１０は、システム状態φ^２にＳＡＩＦＩ改善更新Δφを反映する。続けて、策定部１０は、ＳＡＩＦＩ改善更新Δφを反映した結果に基づいて、修正変更案を策定する。

ここで、ＳＡＩＦＩ改善更新Δφの例を説明する。
図７は、本実施形態に係るＳＡＩＦＩ改善更新の例を説明するための図である。生成部２０は、方策関数に基づいてφ^ｋとしてリンクＸ３を削除する設備変更計画を生成する場合を説明する。符号ｇ１０１は、リンクＸ３を削除する設備変更計画候補のメタグラフである。策定部１０は、変更後の値を算出する。策定部１０は、変更後のＳＡＴＩＦＩ値と閾値ＳＡＴＩＦＩ＿ｔｈとを比較した結果が、変更後のＳＡＴＩＦＩ値が変更前のＳＡＴＩＦＩ値より悪化したとする。一般的に、変更対象設備設置位置の近傍で冗長設備を追加すればＳＡＩＦＩは改善する。このため、符号ｇ１０２のように、情報処理装置１は、例えば、リンクＸ３の両端ノードに対するリンクパスの補強として、リンクＸ５を追加する。

このように本実施形態では、方策関数に基づいて選択した設備変更計画候補のＳＡＴＩＦＩ値が予め設定された閾値ＳＡＩＦＩ＿ｔｈより悪化する場合、選択した設備変更計画修正を加える。

なお、図６のステップＳ１５におけるＳＡＩＦＩ改善更新Δφは、例えば図７の符号ｇ１０２のように削除したリンクの周辺に別にリンクを接続したり、削除回避あるいは強化等の条件を加えることを示している。

また、このような改善案は一通りではない。許容条件に合わせて設定する。あるいは、修正更新案φ^ｋによりＳＡＩＦＩが悪化する場合は、その案に対応する設備の削除や仕様の劣化（信頼度の劣化）がＳＡＩＦＩ値の劣化を引き起こしていると考えられる。このため、情報処理装置１は、修正更新案φ^ｋは採用しない（受け付けない）、すなわちΦ^ｋを変更無しに置き換えるという選択肢を選択するようにしてもよい。このことは、図７においては、修正更新案φ_ｋに対して、リンクｘ３の削除を取りやめることに相当する。

以上のように、本実施形態では、方策関数を使うようにした。また、本実施形態では、設備計画立案しながら、ＳＡＩＦＩを評価するようにした。さらに、本実施形態では、ＳＡＩＦＩ向上の設備変更を条件として加味して計画立案を策定するようにした。具体的には、計画変更計画の立案（推論）中に、改善されていない場合、ＳＡＩＦＩ許容範囲でのＳＡＩＦＩ値の良い条件追加（Δφ）を追加するようにした。
これにより、本実施形態によれば、設備変更におけるコストをある程度満たし、かつＳＡＩＦＩの条件も満たす設備変更計画を立案することができる。

（第１実施例）
実施形態において、ＳＡＩＦＩ改善更新施策としてＳＡＩＦＩを劣化させる修正更新案については方策関数に制約を加えてもよい。本実施例では、設備変更計画の立案の条件を方策関数の条件とする例を説明する。本実施例では、例えば、修正更新案に対する方策関数の出力確率を０にすることで、その修正更新案を今後、生起しないようにする。

まず、情報処理装置１Ａの構成例を説明する。
図８は、本実施例に係る情報処理装置１Ａの構成例を示す図である。図８のように、情報処理装置１Ａは、策定部１０Ａ、および生成部２０Ａを備える。
策定部１０Ａは、評価部１０１Ａ、および出力部１０２を備える。
生成部２０Ａは、環境部２０１、方策関数部２０２Ａ、およびサンプリング部２０３を備える。
なお、情報処理装置１と同様の動作をする機能部には、同じ符号を用いて説明を省略する。

評価部１０１Ａは、評価部１０１の動作に加えて、方策関数への制約を生成する。評価部１０１Ａは、生成した制約を方策関数部２０２Ａに出力する。なお、制約は、例えば修正更新案に対する方策関数の出力確率を０にすることで、その修正更新案を今後、生起しないようにする。

方策関数部２０２Ａは、評価部１０１Ａが出力する制約を反映して、環境部２０１が出力するシステム状態を方策関数に入力して設備変更修正の行動選択の確率分布を求める。方策関数部２０２Ａは、求めた行動選択の確率分布をサンプリング部２０３に出力する。

次に、本実施形態で用いる方策関数の制約について説明する。
本実施形態は、第１の実施形態と同様にＴ回処理を行って設備変更計画を選択する。方策関数として、ｋ−１回目でのシステムの状態φ^ｋ−１における次のｋ回目の処理の行動候補の生起確率として定義される場合、確率分布π（・）からの生起として次式（（１）のように表現する。

ここで、行動空間の中の更新行動案ａ^ｋの生起に制約を加えることは、以下のように考えられる。ｋ回目の処理の更新行動案ａ^ｋがｋ−１回目の処理での状態φ^ｋ−１の関数値として生起されＳＡＩＦＩ劣化を引き起こしたのであるから、このｋ−１回目の処理におけるシステムの特定の状態（φ^ｋ−１）に対する行動に制約を加えるものであり、異なる状態に対しては、制約を加えない。

次に、設備変更計画案の策定手順を説明する。
図９は、本実施例に係る設備変更計画案の策定手順のフローチャートの図である。なお、図６の実施形態のフローチャートと同様の処理については、同じ符号を用いて説明を省略する。

（ステップＳ１１〜Ｓ１４）策定部１０Ａと生成部２０Ａは、実施形態と同様にステップＳ１１〜Ｓ１４の処理を行う。策定部１０Ａは、改善されていると判別した場合（ステップＳ１４；ＹＥＳ）、ステップＳ１６の処理に進める。策定部１０Ａは、改善されていないと判別した場合（ステップＳ１４；ＮＯ）、ステップＳ２１の処理に進める。なお、生成部２０Ａは、各システム状態を生成する。

（ステップＳ２１）改善されていないと判別されたため、策定部１０Ａは、方策関数に関して制約を付加して、設備変更計画候補のＳＡＩＦＩ（Φ）の改善策の策定を行う。具体的には、策定部１０Ａは、方策関数に関して制約を付加して、修正更新案φ^ｋにＳＡＩＦＩ改善更新Δφを反映する。この意味合いは、方策関数は行動を起こさせる確率であるので、この値に制約を付加する、またはその行動に対する確率分布を０にすることで、その候補を起こさせない、すなわち選ばないようにしている。続けて、策定部１０Ａは、ｋにｋ＋１を代入し、ステップＳ１２の処理に戻す。

以上のように、本実施例では、計画変更計画の立案（推論）中に、改善されていない場合、方策関数に関して制約を付加して、ＳＡＩＦＩ許容範囲でのＳＡＩＦＩ値の良い条件（Δφ）を追加するようにした。
これにより、本実施例によれば、例えば、修正更新案に対する方策関数の出力確率を０にすることで、システム状態に応じて、その修正更新案を今後、生起しないようにすることで、実施形態より効率的に設備変更計画を立案することができる。

（第２実施例）
本実施例では、設備変更計画候補それぞれのＳＡＩＦＩを先に算出し、ＳＡＩＦＩに対する条件を満たす設備変更計画候補に限定して計画案策定する例を説明する。本実施例に示す方法のように設備変更計画候補に限定することは、第２の実施形態で行った方策関数に制約を付加する方式の拡張である。つまり、方策関数生成の基本ポリシー、例えば、ここでは累積投資コスト最小化と、信頼度確保という２つの指標のバランスを考慮できる方式である。任意の時刻ｋにおける行動の決定過程は、基本的には２つの過程から構成される。すなわち、第１過程（ｉ）が時刻ｋでの各行動候補に対する各ＳＡＩＦＩ値の計算過程、第２過程（ｉｉ）がそのＳＡＩＦＩ値に基づいて方策関数に制約を加え、その制約付方策関数からサンプリングして行動案を決定する過程、である。

まず、情報処理装置１Ｂの構成例を説明する。
図１０は、本実施例に係る情報処理装置１Ｂの構成例を示す図である。図１０のように、情報処理装置１Ｂは、策定部１０Ｂ、および生成部２０Ｂを備える。
策定部１０Ｂは、評価部１０１Ｂ、および出力部１０２を備える。評価部１０１Ｂは、ＳＡＩＦＩ関数部１０１１、およびリスト部１０１２を備える。
生成部２０Ｂは、環境部２０１Ｂ、方策関数部２０２Ｂ、サンプリング部２０３、および候補案リスト部２０４を備える。
なお、情報処理装置１と同様の動作をする機能部には、同じ符号を用いて説明を省略する。

以下に、情報処理装置１Ｂの各機能部の動作と処理を説明する。なお、以下の説明において、任意の時刻ｋにおけるシステムの状態がφ^ｋであるとする。
生成部２０Ｂは、その状態に対して次の状態の候補をすべて抽出する。方策関数部２０２Ｂは、状態φ^ｋに対する次の行動候補の生成を行う。なぜなら、行動候補に対して選択確率が定義できているので、方策関数部２０２Ｂは、確率が０より大きい行動候補｛ａ^ｋ _１，ａ^ｋ _２，…，ａ^ｋ _ｍｋ｝（ｍ_ｋは候補数）を抽出して環境部２０１Ｂに送る。環境部２０１Ｂは、各行動候補ａ^ｋ _ｉに対する状態φ^ｋ＋１ _ｉを求める。環境部２０１Ｂは、求めた各行動候補ａ^ｋ _ｉに対する状態φ^ｋ＋１ _ｉを評価部１０１Ｂに出力する（i）。

評価部１０１Ｂは、信頼度の評価と、修正変更案を作成する。評価部１０１Ｂは、時刻ｋでの処理における修正更新案を方策関数から生起する前に、あらかじめ、ＳＡＩＦＩ関数部１０１１にて修正更新案の候補の各々の構成案に対するＳＡＩＦＩ値を評価しておく。評価部１０１Ｂは、修正更新案を決定する時点で、これらのＳＡＩＦＩ値が基準を満たす案の集合から選択する。評価部１０１Ｂは、リスト部１０１２にて方策関数の修正変更情報を作成して保存し、方策関数部２０２Ｂに出力する。また、評価部１０１Ｂは、修正変更案の修正変更が収束した場合、修正変更案を出力部１０２に出力する。

ＳＡＩＦＩ関数部１０１１は、ＳＡＩＦＩ関数を記憶する。ＳＡＩＦＩ関数部１０１１は、環境部２０１Ｂが出力する次のシステム状態φ^ｋ＋１を取得し、取得したシステム状態φ^ｋ＋１をＳＡＩＦＩ関数に入力してＳＡＩＦＩ（φ^ｋ＋１）を求める。ＳＡＩＦＩ関数部１０１１は、求めたＳＡＩＦＩ（φ^ｋ＋１）のリスト部１０１２に出力する。また、ＳＡＩＦＩ関数部１０１１は、時刻ｋでの処理における行動候補ａ^ｋ _ｉと引き起こされる状態φ^ｋ＋１ _ｉに応じたＳＡＩＦＩ列｛（ａ^ｋ _ｉ，φ^ｋ＋１ _ｉ、ＳＡＩＦＩ（φ^ｋ＋１ _ｉ））｝ｉ＝１，２，…，ｍ_ｋ，を計算する。ここで、ｍ_ｋはステップｋ回目の行動候補数である。

リスト部１０１２は、ＳＡＩＦＩ列｛（ａ^ｋ _ｉ，φ^ｋ＋１ _ｉ、ＳＡＩＦＩ（φ^ｋ＋１ _ｉ））｝（ｉ＝１，２，…，ｍ_k）を記憶する。リスト部１０１２は、ＳＡＩＦＩ関数部１０１１が出力するＳＡＩＦＩ（φ^ｋ＋１）を取得する。リスト部１０１２は、取得した候補リストを示す候補リスト情報｛（ａ^ｋ _ｉ，φ^ｋ＋１ _ｉ、ＳＡＩＦＩ（φ^ｋ＋１ _ｉ））｝（ｉ＝１，２，…，ｍ_ｋ）を方策関数部２０２Ｂに出力する。これにより、リスト部１０１２は、方策関数部２０２Bに対して、方策関数の生起に対して制約を加える。

なお、図１０において、符号ｉｉは、変更案候補のリスト結果を用いて変更案を決定する第２過程である。この第２過程に基づき説明する。
環境部２０１Ｂは、修正された方策関数に基づき（ｉｉ）、サンプリング部２０３が出力する時刻ｋでの変更行動案（ｉｉ）を取得し、時刻ｋ＋１におけるシステム状態（φ^ｋ＋１）を生成する。環境部２０１は、生成した時刻ｔ＋１におけるシステム状態（φ^ｋ＋１）を評価部１０１Ｂに出力する（ｉｉ）。ＳＡＩＦＩ関数部１０１１は、ＳＡＩＦＩ（φ^ｋ＋１）を求めて出力部１０２を介して出力する。あるいは、ＳＡＩＦＩ列｛（ａ^ｋ _ｉ，φ^ｋ＋１ _ｉ、ＳＡＩＦＩ（φ^ｋ＋１ _ｉ））｝（ｉ＝１，２，…，ｍ_ｋ）がすでに、リスト部１０１２に蓄積されている場合、環境部２０１Ｂは、サンプリング部２０３が選択された行動ａ^ｋ情報を、直接、策定部１０Ｂに入力するようにしてもよい。この場合、評価部１０１Ｂは、リスト部１０１２から対応する状態φ^ｋ＋１、それに対応するＳＡＩＦＩ（φ^ｋ＋１）値を参照して出力してもよい。

方策関数部２０２Ｂは、方策関数を記憶する。方策関数部２０２Ｂは、リスト部１０１２が出力する候補リスト情報によって修正変更案の選択肢に制約をかけることで方策関数の生起にたいして制約をかける。方策関数部２０２Ｂは、環境部２０１Ｂが出力するシステム状態を方策関数に入力して設備変更修正の行動選択の確率分布を求める。方策関数部２０２Ｂは、求めた行動選択の確率分布をサンプリング部２０３に出力する。

実施例１で示した方策関数への制約は、行動ａ^ｋにより引き起こされる状態φ^ｋ＋１がＳＡＩＦＩ条件を満たさない、つまり、ＳＡＩＦＩ＿ｔｈよりもＳＡＩＦＩ（φ^ｋ＋１）が大きくなるときに、その行動を選択しない、というルールであった。これは、その他の行動候補について、元々の方策関数の確率分布比で選択される、ということであり、方策関数の元になったＳＡＩＦＩ評価と異なる、例えば、累積コスト最小化に基づく行動選択ということになる。
一方、本実施例のように各行動候補に対するＳＡＩＦＩ値が得られている場合は、ＳＡＩＦＩ値の良い、つまり小さい値の行動を選びやすくもできる。これは、信頼度を重視した行動選択に相当する。あるいは、方策関数で表現される選択確率のＳＡＩＦＩ値との商（割り算）の比率で確率を設定すれば、信頼度向上とコスト最小化のバランスのよい行動を選択することになる。これらの評価は、評価部１０１Ｂのリスト部に追加してもよい。この評価部１０１ＢでのＳＡＩＦＩ評価により方策関数部２０２Ｂが制約される。

本実施形態の設備変更計画案の策定手順を説明する。
図１１は、本実施例に係る設備変更計画案の策定手順のフローチャートの図である。なお、図１１において、ｋ回目の処理（時刻ｋでの処理）での設備変更計画候補数をｍ_ｋとし、ｋ回目の処理での設備変更計画候補をφ^ｋ _ｉ（ｉ＝１，…，ｍ_ｋ）とする。

（ステップＳ３１）策定部１０Ｂは、評価するシステム状態φ^０（初期状態）を取得する。生成部２０Ｂは、方策関数、環境条件を取得する。

策定部１０Ｂと生成部２０Ｂは、ステップＳ３２〜Ｓ３５の処理をＴ回繰り返して、設備変更計画を策定する。なお、生成部２０Ｂは、各システム状態を生成する。

（ステップＳ３２）策定部１０Ｂは、修正更新案を方策関数から生起する前に、予め修正更新案の候補｛φ^ｋ _ｉ｝の各々の構成案に対するＳＡＩＦＩ値（φ^ｋ _ｉ）を評価する。

（ステップＳ３３）策定部１０Ｂは、予め修正更新案の候補｛φ^ｋ _ｉ｝の各々の構成案に対するＳＡＩＦＩ値（φ^ｋ _ｉ）に基づいてＳＡＩＦＩ条件を満たす更新案のみに制約する。例えば、策定部１０Ｂは、ステップＳ３２で計算された各ＳＡＩＦＩ値（φ^ｋ _ｉ）をあらかじめ設定された閾値ＳＡＩＦＩ＿ｔｈと比較して評価する。そして、策定部１０Ｂは、評価した結果としてｅ^ｋ _ｉ＝ｔｒｕｅ（閾値より小さい）、ｆａｌｓｅ（閾値以上）、ｉ＝１，…，ｍ_ｋという制約変数を定義、追加すれば、この変数によりｔｒｕｅの行動のみ選択候補とするようにしてもよい。そして、策定部１０Ｂは、その条件を加えた方策関数部２０２Ｂにおいてｋ回目の処理での設備変更行動ａ^ｋを選択する。なお、策定部１０Ｂは、上記したように、信頼度向上とコスト最小化のバランスを想定して選択確率を設定してもよい。

（ステップＳ３４）策定部１０Ｂは、ｋがＴ以上であるか否かを判別する。策定部１０Ｂは、ｋがＴ以上であると判別した場合（ステップＳ３４；ＹＥＳ）、ステップＳ３６の処理に進める。策定部１０Ｂは、ｋがＴ未満であると判別した場合（ステップＳ３４；ＮＯ）、ステップＳ３５の処理に進める。

（ステップＳ３５）策定部１０Ｂは、ｋにｋ＋１を代入し、ステップＳ３２の処理に戻す。

（ステップＳ３６）策定部１０Ｂは、系列Φ＝（φ^１，φ^２，…，φ^T）を計画変更計画案として出力する。

なお、上述した処理において、各ｋ回目の処理での候補は、その前の時点でのシステムの状態に応じて変動することもある。よって、設備変更計画候補の候補数ｍ_ｋも状態に応じて変わる可能性もある。

なお、上述した例では、ＳＡＩＦＩが基準を満たす設備変更計画候補を設備変更計画案として抽出する例を説明したが、これに限らない。策定部１０Ｂは、例えば上記処理においてＳＡＩＦＩの値順にソートし、良い順に抽出する（または悪い候補を除外する）、または値が上位の設備変更計画候補を抽出するようにしてもよい。

以上のように、本実施例では、方策関数を生起させる前に、あらかじめ修正更新案の候補の各々の構成案に対するＳＡＩＦＩ値を評価して方策関数の生起に対して制約を加えるようにした。これにより、本実施例によれば、条件を満たす修正更新案に対して方策関数を生起させることができる。この結果、本実施例によれば、効率よく設備変更計画を策定することができる。

（第３実施例）
第１実施例では、計画期間の中でｋ回目の処理毎に改善策を方策関数への制約設定として設備変更計画立案を継続する手順として示した。
本実施例では、方策関数に基づく計画策定が、確率過程であることから、十分な数の計画案を生成すれば、その中に、ＳＡＩＦＩ条件を満たす計画が存在する可能性があり、その案を計画案とすればよい。その場合は、記載してきた変更案の修正や方策関数の制約などの手続きをすることなく効率的に信頼度の高い計画を策定することができるというメリットがある。以降は、その複数の計画案の中にＳＡＩＦＩ条件を満たす案が存在しない場合の過程を中心に説明する。
本実施形態では、計画期間に亘って設備更新計画の候補の系列を策定し、その系列に対応するＳＡＩＦＩの系列を複数生成する。そして、本実施例では、複数の計画系列から、ＳＡＩＦＩ条件、コスト条件を満たす計画案が存在すれば、それを結果として計画案とする。ＳＡＩＦＩ条件が満たされていない場合は、算出した中で最も大きな劣化を生じる、あるいは策定部が記憶する所定の基準のもとに修正更新案としての選択肢生起確率を制約するように方策関数に制約を加えて、計画系列全体を作り直す。なお、ＳＡＩＦＩの系列は、ＳＡＩＦＩ（φ^０），ＳＡＩＦＩ（φ^１），…，ＳＡＩＦＩ（φ^Ｔ）である。

まず、情報処理装置１Ｃの構成例を説明する。
図１０は、本実施例に係る情報処理装置１Ｃの構成例を示す図である。図１２のように、情報処理装置１Ｃは、策定部１０Ｃ、および生成部２０Ｃを備える。
策定部１０Ｃは、評価部１０１Ｃ、および出力部１０２を備える。評価部１０１Ｃは、変更案策定部１０１３、ＳＡＩＦＩ関数部１０１４、制約生成部１０１５を備える。
生成部２０Ｃは、環境部２０１、方策関数部２０２Ｃ、およびサンプリング部２０３を備える。
なお、情報処理装置１と同様の動作をする機能部には、同じ符号を用いて説明を省略する。

評価部１０１Ｃは、計画期間に亘る複数の設備更新計画案の系列に対応するＳＡＩＦＩの系列を算出し、ＳＡＩＦＩ条件含め、計画案として条件を満たす場合はその計画を出力とする。そうでない場合は、その中でＳＡＩＦＩ条件を満たさない行動の生成を制約するように、方策関数に対する選択肢生起確率の制約を生成する。評価部１０１Ｃは、例えば、第２実施例のステップＳ３３の機能説明で導入した制約変数ｅ^ｋ _ｉを制約として使ってもよい。ただし、一般的には、制約はその時点の状態φ^ｋに依存するので、状態がφ^ｋの場合、ｅ^ｋ _ｉの条件で選択候補を制約する。

変更案策定部１０１３は、計画期間に亘って設備更新計画案の系列Φ＝（φ^０，φ^１，…，φ^Ｔ）を複数保存する。

ＳＡＩＦＩ関数部１０１４は、ＳＡＩＦＩ関数を記憶する。ＳＡＩＦＩ関数部１０１４は、変更案策定部１０１３が作成した設備更新計画案の系列ΦのＳＡＩＦＩを求める。

制約生成部１０１５は、ＳＡＩＦＩ関数部１０１４が求めた設備更新計画案の系列Φに対応するＳＡＩＦＩの系列に基づき方策関数に対する制約を算出する。制約生成部１０１５は、ＳＡＩＦＩ系列の中で条件をみたさない変更案を抽出しその変更案を選択候補から削除するように、方策関数に対する選択肢生起確率の制約を生成し、生成した制約情報を方策関数部２０２Ｃに出力する。

方策関数部２０２Ｃは、方策関数を記憶する。方策関数部２０２Ｃは、制約生成部１０１５が出力する制約情報によって修正変更案の選択肢に制約をかけることで方策関数の生起にたいして制約をかける。方策関数部２０２Ｃは、環境部２０１が出力するシステム状態を方策関数に入力して設備変更修正の行動選択の確率分布を求める。方策関数部２０２Ｃは、求めた行動選択の確率分布をサンプリング部２０３に出力する。

次に、設備変更計画案の策定手順を説明する。
図１３は、本実施例に係る設備変更計画案の策定手順のフローチャートの図である。

（ステップＳ４１）生成部２０Ｃは、評価するシステム状態φ^０（初期状態）、方策関数、環境条件を取得する。

策定部１０Ｃと生成部２０Ｃは、ステップＳ４２〜Ｓ４６の処理を繰り返して、設備変更計画を策定する。なお、生成部２０Ｃは、各システム状態を生成する。

（ステップＳ４２）生成部２０Ｃは、ステップＳ４１で取得した情報を用いて、全ての設備変更計画候補φ^ｋ（ｋ＝０，…，Ｔ）を生成する。設備更新計画案の系列を複数生成する。

（ステップＳ４３）策定部１０Ｃは、設備変更計画候補のＳＡＩＦＩ系列ＳＡＩＦＩ（Φ）を評価する。これにより、策定部１０Ｃは、計画案としての条件を満たす計画系列が存在するか否かを評価する。

（ステップＳ４４）策定部１０Ｃは、自部が記憶する所定の基準に基づいて、処理を終了するか否か判別する。なお、所定の基準は、ステップＳ４３で評価されたように、計画案として条件を満たす計画案が存在すれば、その案を結果の計画とし、終了条件を満たすものとする。または、所定の基準は、すべての系列が条件未達であれば、終了条件を満たさない。策定部１０Ｃは、処理を終了すると判別した場合（ステップＳ４４；ＹＥＳ）、ステップＳ４６の処理に進める。策定部１０Ｃは、処理を終了しないと判別した場合（ステップＳ４４；ＮＯ）、ステップＳ４５の処理に進める。

（ステップＳ４５）策定部１０Ｃは、ＳＡＩＦＩ（Φ）劣化を生じる行動の選択を制約する。なお、策定部１０Ｃは、ＳＡＩＦＩ（Φ）劣化を生じる行動選択の制約を、方策関数に対して該当行動を制約、すなわち非選択候補とすることで行う。策定部１０Ｃは、ステップＳ４２の処理に戻す。

（ステップＳ４６）策定部１０Ｃは、系列Φ＝（φ^１，φ^２，…，φ^T）を設備変更計画案として出力する。

なお、ステップＳ４５の別の実施例として、ＳＡＩＦＩ値が劣化した場合は、例えばＳＡＩＦＩ値の劣化が大きい設備変更計画候補に対して、変更した箇所を強化する。強化とは、例えば、図７のｇ１０２において、リンクＸ３を外さず、さらに近傍設備（例えばリンクＸ５）を追加して強化する。または、処理後との構成に対して、Ｎ−１系（リンクやノードを１つがダウンした状態）のＳＡＩＦＩ値を求め、劣化したＳＡＩＦＩ（または一番悪いＳＡＩＦＩ等）に対応する設備箇所を強化する。このような特定状態に対する修正案が、評価部１０１Ｃから環境部２０１に設定される。

以上のように、本実施形態では、設備変更計画の立案（推論）中に、ＳＡＩＦＩ（Φ）の系列からＳＡＩＦＩに影響のある変更箇所を特定し、影響度の大きな行動に制約を加える（方策関数に制約付加）ようにした。
これにより、本実施形態によれば、複数の計画案を策定した中に条件を満たす案が存在しない場合にのみ、制約を加えることで効率的に設備変更計画案を策定することができる。
また、本実施例では、ステップＳ４５として、変更計画案単位で修正する方法を説明したが、この部分は第１実施例のような変更ステップ毎に修正する方法を採用することもできる。

なお、上述した情報処理装置１（または１Ａ、１Ｂ、１Ｃ）の機能部の全てまたは一部は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。これらの構成要素のうち一部または全部は、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）やＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのハードウェア（回路部；ｃｉｒｃｕｉｔｒｙを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やフラッシュメモリなどの記憶装置に格納されていてもよいし、ＤＶＤやＣＤ−ＲＯＭなどの着脱可能な記憶媒体に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。

次に、出力される表示装置３上に表示される画像例を説明する。
図１４は、表示装置３上に表示される画像例を示す図である。出力部１０２は、図１４のように、ステップ毎（時刻毎、処理毎）のシステムの構成図（回路図またはメタグラフ）とＳＡＩＦＩ等の画像を生成し、生成した画像を表示装置３に表示させる。なお、図１４に示した表示画像は一例であり、表示画像は、これに限らない。

次に、実システムをグラフ構造で表現する手法例を説明する。
なお、実施形態、各実施例で用いる、メタグラフ、グラフニューラルネット等の詳細については、特開２０１９−２０４２９４を参照。
図１５は、実システムの構造例を示す図である。図示する構造例は、バス１〜バス４を含む。バス１とバス２の間には、２２０［ｋＶ］を１１０［ｋＶ］に変圧する変圧器が設けられている。バス２には、６０[ＭＷ]の需要家が接続されている。バス２とバス３の間は、７０[ｋｍ]の電力線で接続されている。バス３には、発電機と、７０[ＭＷ]の需要家が接続されている。バス２とバス４の間は、４０[ｋｍ]の電力線で接続されており、バス３とバス４の間は、５０[ｋｍ]の電力線で接続されている。バス４には、発電機と、１０[ＭＷ］の需要家が接続されている。

図１５のような構成において、バスを実ノード、変圧器を種別「Ｔ」の実エッジ、電力線を種別「Ｌ」の実エッジと考えると、図１６のように表すことができる。図１６は、想定ノードＡＮの種別の定義の一例を示す図である。符号ｇ２０１は、グラフ構造のデータの内容の一例を示し、符号ｇ２０２は、実ノードＲＮと実エッジＲＥを想定ノードＡＮに変換した様子を模式的に示している。符号ｇ２０１において、ＲＮ（Ｂｘ）（ｘは１から４の整数）は実ノードを示し、ＲＥ（Ｌｙ）（ｙは１から３の整数）とＲＥ（Ｔ１）は実エッジを示している。

実システムをグラフ構造で表現する際は、符号ｇ２０１のグラフ構造のデータを、符号ｇ２０２のように想定ノードメタグラフに変換する（符号ｇ２０３）。なお、グラフ構造のデータから想定ノードメタグラフへの変換方法については後述する。符号ｇ２０２において、ＡＮ（Ｂｘ）とＡＮ（Ｔ１）とＡＮ（Ｌｙ）は実ノードを示している。なお、符号ｇ２０２のようなグラフをメタグラフという。

図１６のメタグラフをニューラルネット構造で表すと図１７のように表すことができる。図１７は、図１６のグラフ構造のデータから生成されたニューラルネットワークを示す図である。図１７において、Ｗ_Ｌ ^（１）とＷ_Ｂ ^（１）は、第１中間層の伝播行列であり、Ｗ_Ｌ ^（２）とＷ_Ｂ ^（２）は、第２中間層の伝播行列である。伝播行列Ｗ_Ｌは、ノードＬの想定ノードからの伝播行列である。伝播行列Ｗ_Ｂは、ノードＢの想定ノードからの伝播行列である。また、例えばＢ４’は第１中間層の想定ノードを示し、Ｂ４’’は第２中間層の想定ノードを示す。

設備の変更は、設備に相当するコンボリューション関数の変更に相当する（局所処理）。設備の増設は、コンボリューション関数の追加に相当する。設備の廃棄は、コンボリューション関数の削除に相当する。

次に、グラフ構造のデータからニューラルネットワークを生成する方法について説明する。図１８は、グラフ構造のデータからニューラルネットワークを生成する様子を示す図である。図１８において、符号ｇ２５１は、グラフ構造を表す。符号ｇ２５２は、ニューラルネットワークを表す。

ニューラルネットワークの生成では、実ノードＲＮだけでなく、実エッジＲＥを含めた想定ノードＡＮを設定し、想定ノードＡＮの第ｋ−１層の特徴量を、接続関係にある他の想定ノードＡＮ、およびその想定ノードＡＮ自身の第ｋ層の特徴量に伝播させるニューラルネットワークを生成する。ｋは１以上の自然数であり、ｋ＝０の層は、例えば入力層を意味する。なお、ニューラルネットワークの生成は、例えば外部装置が行ってもよく、情報処理装置が行ってもよい。

ニューラルネットワークの生成では、例えば、次式（２）に基づいて第１中間層の特徴量を決定する。なお、式（２）は、想定ノード（ＲＮ１）の第１中間層の特徴量ｈ_１＃の計算手法に該当する。
一例としてα_１，１２は、想定ノード（ＲＮ１）と想定ノード（ＲＥ１２）の間の伝播度合いを示す係数である。想定ノード（ＲＮ１）の第２中間層の特徴量ｈ_１＃＃は、次式（３）で表される。第３中間層以降も順次、同様の規則で特徴量が決定される。

ニューラルネットワークの生成では、例えば、グラフアテンションネットワークに基づく規則で係数α_ｉ，ｊを決定する。図１９は、ニューラルネットワークの生成において係数α_ｉ，ｊを決定する手法について説明するための図である。ニューラルネットワーク生成装置１００は、伝播元の想定ノードＲＮｉの特徴量ｈ_ｉに伝播行列Ｗを乗算して得られるベクトルＷｈ_ｉと、伝播先の想定ノードＲＮｊの特徴量ｈ_ｊに伝播行列Ｗを乗算して得られるベクトルＷｈ_ｊとを結合したベクトル（Ｗｈ_ｉ，Ｗｈ_ｊ）を個別ニューラルネットワークａ（アテンション）に入力し、出力層のベクトルをシグモイド関数、ＲｅＬＵ、ｓｏｆｔｍａｘ関数などの活性化関数に入力して正規化し、足し合わせることで、係数α_ｉ，ｊを導出する。個別ニューラルネットワークａは、解析対象となる事象について予めパラメータ等が求められたものである。

ニューラルネットワークの生成では、上記の規則に従いつつ、ニューラルネットワークの目的に沿うようにニューラルネットワークのパラメータ（Ｗ、α_ｉ，ｊ）を決定する。ニューラルネットワークの目的とは、想定ノードＡＮを現在の状態とした場合に将来の状態を出力することであり、または状態を評価するための指標を出力することであり、あるいは現在の状態を分類することである。

次に、設備のアテンション、コンボリューションモデルに基づいて、設備の変更計画系列の定式化する手順例を説明する。図２０は、コンボリューション処理とアテンション処理のマッピング例を示す図である。
まず、実システムをグラフ構造で表す（Ｓ１０１）。次にグラフ構造からエッジ種別、関数属性を設定する（Ｓ１０２）。次に、メタグラフで表す（Ｓ１０３）。次に、ネットワークマッピングを行う（Ｓ１０４）。

符号ｇ３００は、ネットワークマッピングの例である。符号ｇ３０１は、エッジコンボリューションモジュールである。符号ｇ３０２２は、グラフアテンションモジュールである。符号ｇ３０３は、時系列認識モジュールである。符号ｇ３０４は、状態価値関数Ｖ（ｓ）推定モジュールである。符号ｇ３０５は、行動確率ｐ（a｜s）算出モジュールである。

ここで、設備変更計画問題は、強化学習の問題として定義できる。すなわち、設備変更計画問題は、グラフ構造と各ノード、エッジ(設備)のパラメータを状態、設備の追加や削除を行動、得られる収益や費用を報酬とすることで、強化学習問題として定義することができる。

変更の選択例を説明する。図２１は、変更の選択例を説明するための図である。

ここでは、初期（ｔ＝０）状態として、符号ｇ４０１のような４ノードのグラフ構造を考える。
この状態から、次の時刻ｔ＝１の変更候補としては、中段の符号ｇ４１１，ｇ４１２，…，ｇ４１ｎのようにｎ（ｎは１以上の整数）個の選択肢が考えられる。
それらの選択肢毎に、次時刻ｔ＝２の選択肢が派生する。符号ｇ４２１，ｇ４２２，ｇ４２３…は、のグラフ構造からの選択肢例を表す。

このように選択系列は、変更を反映したメタグラフの系列、つまりノード変更の系列として表現される。実施形態では、このような系列の中からポリシーに適合するものを抽出する手段として強化学習を用いる。

このように、構成されたグラフニューラルネットは、環境側のシステム構成に常に対応づいている。そして、ニューラルネットワークの生成では、環境側の評価結果として、新たな状態Ｓ、それに基づいて求められる報酬値、とニューラルネット側で推定される価値関数、および、方策関数によって強化学習を進める。

次に、方策関数を学習によって得る例を説明する。ここでは、学習方式としてＡ３Ｃ（ＡｓｙｎｃｈｒｏｎｏｕｓＡｄｖａｎｔａｇｅＡｃｔｏｒ−Ｃｒｉｔｉｃ）を用いる例を説明するが、学習方式は、これに限らない。なお、実施形態では、選択系列の中から報酬に適合するものを抽出する手段として強化学習を用いる。また、強化学習は、例えば深層強化学習であってもよい。なお、強化学習は、例えば図２１に示すような学習装置５００が行う。

図２２は、学習方法例における情報の流れを示す図である。図２２のように、学習装置５００は、外部環境ＤＢ（データベース）５０１、システム環境５０２、処理部５０３、および強化学習部５０４を備える、
システム環境５０２は、物理モデル・シミュレータ５０２１、報酬算出部５０２２、および出力部５０２３を備える。
処理部５０３は、生成部５０３１を備える。

外部環境ＤＢ５０１が格納するデータは、外部環境データ等である。環境データは、例えば設備ノードの仕様、電力システムなどでの需要データ、グラフ構造に関する情報等であり、環境状態、行動の影響を受けず、かつ、行動の決定に影響するパラメータである。

物理モデル・シミュレータ５０２１は、例えば潮流シミュレータ、トラヒックシミュレータ、物理モデル、関数、方程式、エミュレータ、実機などを備える。物理モデル・シミュレータ５０２１は、必要に応じて外部環境ＤＢ５０１が格納するデータを取得し、取得したデータと物理モデルを用いて、シミュレーションを行う。物理モデル・シミュレータ５０２１は、シミュレーション結果（Ｓ，Ａ，Ｓ’）を報酬算出部５０２２に出力する。Ｓはシステムの状態（ＬａｓｔＳｔａｔｅ）であり、Ａは抽出された行動であり、Ｓ’はシステムの新たな状態である。

報酬算出部５０２２は、物理モデル・シミュレータ５０２１から取得したシミュレーション結果（Ｓ，Ａ，Ｓ’）を用いて報酬値Ｒを算出する。なお、報酬値Ｒの算出方法については後述する。また、報酬値Ｒは、例えば｛（Ｒ_１，ａ_１），…，（Ｒ_Ｔ，ａ_Ｔ）｝である。ここで、Ｔは、設備計画検討期間である。また、ａ_ｐ（ｐは１からＴの整数）は、各ノードであり、例えばａ_１は１番目のノードであり、ａ_ｐはｐ番目のノードである。

出力部５０２３は、システムの新たな状態Ｓ’をシステムの状態Ｓとし、システムの状態Ｓと報酬値Ｒを処理部５０３に出力する。

生成部５０３１は、システム環境５０２が出力するシステムの状態Ｓを、処理部５０３が記憶するニューラルネットに入力して方策関数π（・｜Ｓ，θ）と状態価値関数Ｖ（Ｓ，ｗ）を求める。ここで、ｗは、ノードが持つ属性次元に対応する重み係数行列（コンボリューション項ともいう）である。生成部５０３１は、次式（４）を用いて次のステップでの行動（設備変更）Ａを決定する。

なお、式（４）は、式（３）においてａがＡに相当し、φがＳに相当する。
生成部５０３１は、決定した次のステップでの行動（設備変更）Ａをシステム環境５０２に出力する。すなわち、方策関数π（・｜Ｓ，θ）は、検討対象のシステムの状態Ｓが入力され、行動を出力する。また、生成部５０３１は、求めた状態価値関数Ｖ（Ｓ，ｗ）を強化学習部５０４に出力する。なお、行動を選択する方策関数π（・｜Ｓ，θ）はメタグラフ構造変更の行動候補の確率分布として与えられる。

このように、生成部５０３１は、ニューラルネットワークに対してシステムの状態を入力し、ニューラルネットに対して時間ステップ毎に想定し得る構造変化を生じさせた一以上の変更後モデルの体系について、時間ステップ毎に方策関数と強化学習に必要な状態価値関数とを求め、方策関数に基づいてシステムの構造変化を評価する。

強化学習部５０４には、生成部５０３１が出力する状態価値関数Ｖ（Ｓ，ｗ）と、システム環境５０２が出力する報酬値Ｒが入力される。強化学習部５０４は、入力された状態価値関数Ｖ（Ｓ，ｗ）と報酬値Ｒを用いて、例えばＡ３Ｃ等の機械学習方法によって強化機械学習を、行動の系列を設備計画検討期間（Ｔ）に相当する回数繰り返す。強化学習部５０４は、強化機械学習した結果得られたパラメータ＜ΔＷ＞π，＜Δθ＞πを生成部５０３１に出力する。

生成部５０３１は、強化学習部５０４が出力するパラメータに基づいて、コンボリューション関数のパラメータを更新する。生成部５０３１は、更新されたパラメータ＜ΔＷ＞π，＜Δθ＞πをニューラルネットワークに反映して、パラメータを反映したニューラルネットワークに対して評価を行う。

次に、生成部５０３１の機能と動作についてさらに説明する。
生成部５０３１は、システム環境５０２からの「状態信号」、その一部として設備変更を反映した変更情報信号を取得する。生成部５０３１は、変更情報信号を取得した際、対応する新たなシステム構成に対応するメタグラフ構造を定義し、対応するニューラルネットワーク構造を生成する。この際、生成部５０３１は、変更案の必要な価値関数や方策関数の評価値推定計算を効率よく処理するニューラルネット構造を策定する。また、生成部５０３１は、変更箇所に対応する自部が記憶するコンボリューション関数を参照し、コンボリューション関数集合から実際のシステム構成に相当するメタグラフを構成する。そして、生成部５０３１は、設備変更に相当するメタグラフ構造の変更(行動に対応して、グラフ構造更新、”候補ノード”設定等)を行う。生成部５０３１は、ノードとエッジに属性を対応付けて定義、管理する。

生成部５０３１は、設備種に対応するコンボリューション関数の定義機能と、コンボリューション関数のパラメータ更新機能とを備える。生成部５０３１は、部分メタグラフ構造と対応するコンボリューションモジュール、あるいはアテンションモジュールを管理する。生成部５０３１は、システムの構造を表すグラフ構造のデータに基づいて、グラフ構造のデータを表すモデルに関するコンボリューション関数を定義する。なお、部分メタグラフ構造は、各設備種別ノード、あるいはエッジに対応する個別のコンボリューション関数のライブラリー機能である。生成部５０３１は、学習過程において、個々のコンボリューション関数のパラメータを更新していく。

生成部５０３１は、策定したニューラルネットワーク構造と、管理する部分メタグラフ構造と対応するコンボリューションモジュールあるいはアテンションモジュールを取得する。生成部５０３１は、メタグラフを多層ニューラルネットワークに変換する機能、強化学習に必要な関数のニューラルネットの出力関数定義機能、および上記コンボリューション関数あるいはニューラルネットワークのパラメータセットの更新機能を備える。なお、強化学習に必要な関数は、例えば、報酬関数、方策関数等である。また、出力関数定義とは、例えば、コンボリューション関数の出力を入力とするフルコネクト・多層ニューラルネットワーク等である。なお、フルコネクトとは、各入力が他のすべての入力と接続している形態である。

次に、報酬関数の例を説明する。
報酬関数は、例えば（バイアス）−（設備設置、廃棄、運営、保守コスト）である。報酬関数は、設備毎にコストをモデル化（関数）にして、バイアスから引くことで正の報酬値として定義するようにしてもよい。なお、バイアスとは、報酬関数値が正値になるように適宜一定の正値として設定されるパラメータである。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１，１Ａ，１Ｂ，１Ｃ…情報処理装置、１０，１０Ａ，１０Ｂ，１０Ｃ…策定部、２０，２０Ａ，２０Ｂ，２０Ｃ…生成部、１０１，１０１Ａ，１０１Ｂ，１０１Ｃ…評価部、１０２…出力部、２０１，２０１Ｂ…環境部、２０２，２０２Ａ，２０２Ｂ…方策関数部、２０３…サンプリング部、２０４…候補案リスト部、１０１１，１０１４…ＳＡＩＦＩ関数部、１０１２…リスト部、１０１３…変更案策定部、１０１５…制約生成部

Claims

グラフ構造を持つシステムの設備変更に対する確率モデルである方策関数を用いて設備変更計画候補を生成する生成部と、
前記生成部が生成した設備変更計画候補毎に、前記システムの信頼度を評価する策定部と、
を備える情報処理装置。
前記システムは、電力システムであって、
前記信頼度は、ＳＡＩＦＩ（ＳｙｓｔｅｍＡｖｅｒａｇｅＩｎｔｅｒｒｕｐｔＦｒｅｑｕｅｎｃｙＩｎｄｅｘ）値である、
請求項１に記載の情報処理装置。
前記方策関数は、強化学習を行って前記システムの構造変化を最適化する際に求められたものであり、
前記策定部は、前記設備変更計画候補の前記信頼度を改善するように前記システムにおいて設備変更計画の策定を行う、
請求項１または請求項２に記載の情報処理装置。
前記方策関数は、強化学習を行って前記システムの構造変化を最適化する際に求められたものであり、
前記策定部は、前記強化学習で学習済みの前記方策関数に制約を付加し、前記設備変更計画候補の前記信頼度を改善するように前記システムにおいて設備変更計画の策定を行う、
請求項１または請求項２に記載の情報処理装置。
前記方策関数は、強化学習を行って前記システムの構造変化を最適化する際に求められたものであり、
前記策定部は、前記設備変更計画候補の前記信頼度が予め定めた基準を満たす前記設備変更計画候補に限定し、前記基準を満たす前記設備変更計画候補の中から設備変更計画案を抽出して、前記システムにおいて設備変更計画の策定を行う、
請求項１または請求項２に記載の情報処理装置。
前記方策関数は、強化学習を行って前記システムの構造変化を最適化する際に求められたものであり、
前記策定部は、前記信頼度の劣化の影響が大きな前記システムへの設備変更を選択し、前記方策関数に制約を加えることで選択した前記設備変更に対して制約を付加し、前記設備変更計画候補の前記信頼度を改善するように前記システムにおいて設備変更計画の策定を行う、
請求項１または請求項２に記載の情報処理装置。
コンピュータが、
グラフ構造を持つシステムの設備変更に対する確率モデルである方策関数を用いて設備変更計画候補を生成し、
前記生成された設備変更計画候補毎に、前記システムの信頼度を評価する、
情報処理方法。
コンピュータに、
グラフ構造を持つシステムの設備変更に対する確率モデルである方策関数を用いて設備変更計画候補を生成させ、
前記生成された設備変更計画候補毎に、前記システムの信頼度を評価させる、
プログラム。