JP7242508B2

JP7242508B2 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP7242508B2
Application number: JP2019196584A
Authority: JP
Inventors: 幸男釜谷; 秀将伊藤; 克之花井; 真由美湯浅; 鳴鏑蘇
Original assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2023-03-20
Anticipated expiration: 2039-10-29
Also published as: US20210125067A1; CN112749785A; JP2021071791A

Description

本発明の実施形態は、情報処理装置、情報処理方法、およびプログラムに関する。

近年、社会インフラシステムの大きな課題として、老朽化問題があげられる。例えば、電力系統においては、世界的に変電所設備の老朽化が迫ってきており、設備投資計画の立案が重要である。このような設備投資計画問題に対しては、各領域で専門家によるソリューション開発が行われてきた。社会インフラシステムへ適用する計画立案方式に関しては、大規模性、多様性、変動性の要件を満たすことが必要な場合があった。しかしながら、従来技術では、構成変更を扱えないという問題点があった。

特開２００７－８０２６０号公報

永田真幸、竹原有紗、供給信頼度制約を考慮した電力流通設備更新の平準化支援ツール－プロトタイプの開発－、研究報告Ｒ０８００１、財団法人電力中央研究所、平成２１年２月

本発明が解決しようとする課題は、社会インフラの変更案を作成することができる情報処理装置、情報処理方法、およびプログラムを提供することである。

実施形態の情報処理装置は、定義部と、判定部と、強化学習部とを持つ。定義部は、ノードとエッジに属性が対応付けられて定義され、システムの構造を表すグラフ構造のデータに基づいて、前記グラフ構造のデータを表すモデルに関するコンボリューション関数を定義する。評価部は、前記モデルに対して前記システムの状態を入力し、前記モデルに対して時間ステップ毎に想定し得る構造変化を生じさせた一以上の変更後モデルの体系について、前記時間ステップ毎に前記構造変化の確率分布として与えられる方策関数と強化学習に必要な状態価値関数とを求め、前記方策関数に基づいて前記システムの構造変化を評価する。強化学習部は、前記構造変化を前記システムに適用した場合に生じるコストである報酬値と、前記状態価値関数と、前記モデルとを用いて強化学習を行うことで、前記システムの構造変化を最適化する。

評価用電力系統システムモデルの例を示す図。実システムの構造例を示す図。想定ノードＡＮの種別の定義の一例を示す図。図３の構成において、ノードＡＮ（Ｂ１）とＡＮ（Ｂ２）との間に設備Ｔ１^＊を追加する例を説明するための図。図４のグラフ構造のデータから生成されたニューラルネットワークを示す図。ニューラルネットワーク生成装置のブロック図。グラフ構造のデータからニューラルネットワークを生成する様子を示す図。ニューラルネットワーク生成装置が係数α_ｉ，ｊを決定する手法について説明するための図。実施形態に係る情報処理装置の構成例を示すブロック図。実施形態に係るコンボリューション処理とアテンション処理のマッピング例を示す図。実施形態に係るメタグラフ構造系列管理機能部が行う変更の選択管理例を説明するための図。第１の実施形態に係る情報処理装置が行う学習方法例における情報の流れを示す図。第２の実施形態に係る候補ノード処理機能の例を説明するための図。候補ノードを使った並列価値推定を説明するための図。第３の実施形態に係る設備変更計画案（推論）計算の流れを説明するための図。並列推論処理を説明するための図。推論全体の機能構成例を示す図。電力系統の設備変更計画における設備の廃棄、新設、交換それぞれのコスト例を示す図。電力システムの設備変更計画問題の学習曲線を示す図。学習ステップ毎のエントロピーの評価を示す図。生起した計画案の中から、累積コストが最小になる具体的な計画案を示す図。表示装置上に表示される画像例を示す図。

以下、実施形態の情報処理装置、情報処理方法、およびプログラムを、図面を参照して説明する。以下、以下の説明では、情報処理装置が扱う処理として設備変更計画を例として説明する。なお、本実施形態は、社会インフラシステム向けの設備変更計画問題に限るものではない。

まず、電力系統システム例を説明する。
図１は、評価用電力系統システムモデルの例を示す図である。図１のように、評価用電力系統システムモデルは、交流電源Ｖ＿０～Ｖ＿３、変圧器Ｔ＿０～Ｔ＿８、およびバスＢ１～Ｂ１４を含む。バスとは、電力の供給源や需要家が接続される「箇所」のような概念である。

ここでの設備変更では、バスＢ４とバスＢ７との間の変圧器Ｔ＿０、バスＢ４とバスＢ９との間の変圧器Ｔ＿１、バスＢ５とバスＢ６との間の変圧器Ｔ＿２、バスＢ７とバスＢ８との間の変圧器Ｔ＿３、バスＢ７とバスＢ９との間の変圧器Ｔ＿４、バスＢ４とバスＢ７との間の変圧器Ｔ＿５、バスＢ４とバスＢ９との間の変圧器Ｔ＿６、バスＢ５とバスＢ６との間の変圧器Ｔ＿７、バスＢ７とバスＢ９との間の変圧器Ｔ８について、“追加”、“廃棄”、“維持”の３つの選択肢のうちの１つを選択すると想定する。各変圧器について３つの選択肢があるため、変圧器がｎ（ｎは１以上の整数）個の場合の組み合わせは３^ｎ通りある。このような設備変更を考える場合は、変圧器設備の運営コスト（維持コスト）、設置コスト、システムダウン等によるリスクコストを考慮する必要がある。

実施形態では、設備変更のため、まず実システムをグラフ構造で表現する。
図２は、実システムの構造例を示す図である。図示する構造例は、バス１～バス４を含む。バス１とバス２の間には、２２０［ｋＶ］を１１０［ｋＶ］に変圧する変圧器が設けられている。バス２には、６０[ＭＷ]の需要家が接続されている。バス２とバス３の間は、７０[ｋｍ]の電力線で接続されている。バス３には、発電機と、７０[ＭＷ]の需要家が接続されている。バス２とバス４の間は、４０[ｋｍ]の電力線で接続されており、バス３とバス４の間は、５０[ｋｍ]の電力線で接続されている。バス４には、発電機と、１０[ＭＷ］の需要家が接続されている。

図２のような構成において、バスを実ノード、変圧器を種別「Ｔ」の実エッジ、電力線を種別「Ｌ」の実エッジと考えると、図３のように表すことができる。図３は、想定ノードＡＮの種別の定義の一例を示す図である。符号ｇ１は、グラフ構造のデータの内容の一例を示し、符号ｇ２は、実ノードＲＮと実エッジＲＥを想定ノードＡＮに変換した様子を模式的に示している。符号ｇ１において、ＲＮ（Ｂｘ）（ｘは１から４の整数）は実ノードを示し、ＲＥ（Ｌｙ）（ｙは１から３の整数）とＲＥ（Ｔ１）は実エッジを示している。

実施形態では、符号ｇ１のグラフ構造のデータを、符号ｇ２のように想定ノードメタグラフに変換する（符号ｇ３）。なお、グラフ構造のデータから想定ノードメタグラフへの変換方法については後述する。符号ｇ２において、ＡＮ（Ｂｘ）とＡＮ（Ｔ１）とＡＮ（Ｌｙ）は実ノードを示している。なお、以下の説明では、符号ｇ２のようなグラフをメタグラフという。

次に、図３の構成において、ノードＡＮ（Ｂ１）とＡＮ（Ｂ２）との間に設備Ｔ１^＊を追加する例を説明する。図４は、図３の構成において、ノードＡＮ（Ｂ１）とＡＮ（Ｂ２）との間に設備Ｔ１^＊を追加する例を説明するための図である。なお、追加する設備Ｔ１^＊は、設備Ｔ１と同種のものであるとする。符号ｇ５は、追加する設備Ｔ１^＊を示している。

図４のメタグラフをニューラルネット構造で表すと図５のように表すことができる。図５は、図４のグラフ構造のデータから生成されたニューラルネットワークを示す図である。符号ｇ１１は設備Ｔ１^＊が追加されていないシステムのニューラルネットワークを示し、符号ｇ１２は追加する設備Ｔ１^＊に関するニューラルネットワークを示している。このように実施形態では、追加する設備に対応するコンボリューション関数をネットワークに追加している。設備の削除は、追加の逆行動なので、メタノードの対応するノードとその接続リンクを削除する。なお、追加される設備Ｔ１^＊がＴ１と同種のものであるため、設備Ｔ１^＊のコンボリューション関数はＴ１と同じものである。Ｗ_Ｌ ^（１）とＷ_Ｂ ^（１）は、第１中間層の伝播行列であり、Ｗ_Ｌ ^（２）とＷ_Ｂ ^（２）は、第２中間層の伝播行列である。伝播行列Ｗ_Ｌは、ノードＬの想定ノードからの伝播行列である。伝播行列Ｗ_Ｂは、ノードＢの想定ノードからの伝播行列である。また、例えばＢ４’は第１中間層の想定ノードを示し、Ｂ４’’は第２中間層の想定ノードを示す。

このように、設備の変更は、設備に相当するコンボリューション関数の変更に相当する（局所処理）。設備の増設は、コンボリューション関数の追加に相当する。設備の廃棄は、コンボリューション関数の削除に相当する。

次に、ニューラルネットワーク生成装置１００の構成例を説明する。
図６は、ニューラルネットワーク生成装置１００のブロック図である。ニューラルネットワーク生成装置１００は、例えば、データ取得部１０１と、記憶部１０２と、ネットワーク処理部１０３と、出力部１０４とを備える。

データ取得部１０１は、例えば、外部装置からグラフ構造のデータを取得し、記憶部１０２に記憶させる。データ取得部１０１は、外部装置からグラフ構造のデータを取得するのに代えて、予め記憶部１０２に記憶されているグラフ構造のデータを取得する（読み出す）ものであってもよいし、利用者が入力デバイスを用いて入力したグラフ構造のデータを取得してもよい。

記憶部１０２は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）やＨＤＤ、フラッシュメモリなどにより実現される。記憶部１０２が記憶するグラフ構造のデータは、例えば、グラフ構造を、実ノードＲＮと実エッジＲＥのそれぞれのレコードとして表現したデータである。また、グラフ構造のデータには、それぞれの実ノードＲＮの初期状態としての特徴量が付与されていてもよい。なお、実ノードＲＮの初期状態としての特徴量は、グラフ構造のデータとは別のデータセットとして用意されてもよい。

ネットワーク処理部１０３は、例えば、実ノード・実エッジ隣接関係抽出部１０３１と、想定ノードメタグラフ化部１０３２と、メタグラフコンボリューション部１０３３とを備える。

実ノード・実エッジ隣接関係抽出部１０３１は、グラフ構造のデータを参照し、隣接関係（接続関係）にある実ノードＲＮと実エッジＲＥを抽出する。例えば、実ノード・実エッジ隣接関係抽出部１０３１は、それぞれの実ノードＲＮおよび実エッジＲＥについて、隣接関係（接続関係）にある実ノードＲＮまたは実エッジＲＥを網羅的に抽出し、それらを対応付けた形で記憶部１０２に記憶させる。

想定ノードメタグラフ化部１０３２は、実ノード・実エッジ隣接関係抽出部１０３１により抽出された実ノードＲＮと実エッジＲＥが接続されるように、想定ノードＡＮの状態を層状に繋いだニューラルネットワークを生成する。この際に、想定ノードメタグラフ化部１０３２は、前述したグラフアテンションネットワークに基づく規則に従いつつ、前述したニューラルネットワークの目的に沿うように、伝播行列Ｗおよび係数α_ｉ，ｊを決定する。

メタグラフコンボリューション部１０３３は、例えば、想定ノードＡＮのうち実ノードＲＮの初期値としての特徴量をニューラルネットワークに入力し、各層の想定ノードＡＮの状態（特徴量）を導出する。これを繰り返し実行することで、出力部１０４が想定ノードＡＮの特徴量を外部に出力する。

想定ノード特徴量記憶部１０３４は、実ノードＲＮの初期値としての特徴量を記憶する。想定ノード特徴量記憶部１０３４は、メタグラフコンボリューション部１０３３によって導出された特徴量を記憶する。

次に、グラフ構造のデータからニューラルネットワークを生成する方法について説明する。
図７は、グラフ構造のデータからニューラルネットワークを生成する様子を示す図である。図７において、符号ｇ７は、グラフ構造を表す。符号ｇ８は、ニューラルネットワークを表す。なお、ニューラルネットワーク生成装置１００が、ニューラルネットワークを生成する。

図示するように、ニューラルネットワーク生成装置１００は、実ノードＲＮだけでなく、実エッジＲＥを含めた想定ノードＡＮを設定し、想定ノードＡＮの第ｋ－１層の特徴量を、接続関係にある他の想定ノードＡＮ、およびその想定ノードＡＮ自身の第ｋ層の特徴量に伝播させるニューラルネットワークを生成する。ｋは１以上の自然数であり、ｋ＝０の層は、例えば入力層を意味する。

ニューラルネットワーク生成装置１００は、例えば、次式（１）に基づいて第１中間層の特徴量を決定する。なお、式（１）は、想定ノード（ＲＮ１）の第１中間層の特徴量ｈ_１＃の計算手法に該当する。
一例としてα_１，１２は、想定ノード（ＲＮ１）と想定ノード（ＲＥ１２）の間の伝播度合いを示す係数である。想定ノード（ＲＮ１）の第２中間層の特徴量ｈ_１＃＃は、次式（２）で表される。第３中間層以降も順次、同様の規則で特徴量が決定される。

ニューラルネットワーク生成装置１００は、例えば、グラフアテンションネットワークに基づく規則で係数α_ｉ，ｊを決定する。図８は、ニューラルネットワーク生成装置１００が係数α_ｉ，ｊを決定する手法について説明するための図である。ニューラルネットワーク生成装置１００は、伝播元の想定ノードＲＮｉの特徴量ｈ_ｉに伝播行列Ｗを乗算して得られるベクトルＷｈ_ｉと、伝播先の想定ノードＲＮｊの特徴量ｈ_ｊに伝播行列Ｗを乗算して得られるベクトルＷｈ_ｊとを結合したベクトル（Ｗｈ_ｉ，Ｗｈ_ｊ）を個別ニューラルネットワークａ（アテンション）に入力し、出力層のベクトルをシグモイド関数、ＲｅＬＵ、ｓｏｆｔｍａｘ関数などの活性化関数に入力して正規化し、足し合わせることで、係数α_ｉ，ｊを導出する。個別ニューラルネットワークａは、解析対象となる事象について予めパラメータ等が求められたものである。

ニューラルネットワーク生成装置１００は、上記の規則に従いつつ、ニューラルネットワークの目的に沿うようにニューラルネットワークのパラメータ（Ｗ、α_ｉ，ｊ）を決定する。ニューラルネットワークの目的とは、想定ノードＡＮを現在の状態とした場合に将来の状態を出力することであり、または状態を評価するための指標を出力することであり、あるいは現在の状態を分類することである。

次に、情報処理装置１の構成例を説明する。
図９は、実施形態に係る情報処理装置１の構成例を示すブロック図である。図９のように、情報処理装置１は、管理機能部１１、グラフコンボリューションニューラルネット１２、強化学習部１３、操作部１４、画像処理部１５、および提示部１６を備える。管理機能部１１は、メタグラフ構造系列管理機能部１１１、コンボリューション関数管理機能部１１２およびニューラルネット管理機能部１１３を備える。また、情報処理装置１には、環境２と表示装置３が接続されている。

環境２は、例えば、シミュレータ、サーバー装置、データベース、パーソナルコンピュータ等である。環境２は、行動としての変更案が情報処理装置１から入力される。環境は、その変更を織り込んだ状態を算出、報酬を計算して情報処理装置１に返す。

表示装置３は、例えば液晶表示装置である。表示装置３は、情報処理装置１が出力する画像を表示する。

情報処理装置１は、上述したニューラルネットワーク生成装置１００の機能を備え、グラフニューラルネットワークの構築と、機械学習による更新を行う。例えば、管理機能部１１が、ニューラルネットワーク生成装置１００の機能を備えるようにしてもよい。なお、グラフニューラルネットワークは、予め生成されたものであってもよい。情報処理装置１は、環境２から取得した変更案に基づくニューラルネット変更を施して価値関数（Ｖａｌｕｅ）値を推測し、環境からフィードバックされた報酬に基づくＴＤ（ＴｅｍｐｏｒａｌＤｉｆｆｅｒｅｎｃｅ）計算等の強化学習処理を行う。情報処理装置１は、強化学習した結果に基づき、コンボリューション関数等の係数パラメータを更新する。なお、コンボリューションネットワークは、各設備対応するコンボリューション関数を接続して構成される多層ニューラルネットワークであってもよい。また、各コンボリューション関数は、必要に応じてアテンション処理を含んでもよい。なお、モデルは、ニューラルネットワークに限らず、例えばサポートベクターマシン等であってもよい。

メタグラフ構造系列管理機能部１１１は、環境２からの「状態信号」、その一部として設備変更を反映した変更情報信号を取得する。メタグラフ構造系列管理機能部１１１は、変更情報信号を取得した際、対応する新たなシステム構成に対応するメタグラフ構造を定義し、対応するニューラルネットワーク構造を策定する。この際、メタグラフ構造系列管理機能部１１１は、変更案の必要な価値関数や方策関数の評価値推定計算を効率よく処理するニューラルネット構造を策定する。また、メタグラフ構造系列管理機能部１１１は、変更箇所に対応するコンボリューション関数をコンボリューション関数管理機能部１１２から参照し、コンボリューション関数集合から実際のシステム構成に相当するメタグラフを構成する。そして、メタグラフ構造系列管理機能部１１１は、設備変更に相当するメタグラフ構造の変更(行動に対応して、グラフ構造更新、”候補ノード”設定等)を行う。メタグラフ構造系列管理機能部１１１は、ノードとエッジに属性を対応付けて定義、管理する。また、メタグラフ構造系列管理機能部１１１は、上述したニューラルネットワーク生成装置１００の機能の一部を備える。また、メタグラフ構造系列管理機能部１１１は、「定義部」の一例である。

コンボリューション関数管理機能部１１２は、設備種に対応するコンボリューション関数の定義機能と、コンボリューション関数のパラメータ更新機能とを備える。コンボリューション関数管理機能部１１２は、部分メタブラフ構造と対応するコンボリューションモジュール、あるいはアテンションモジュールを管理する。コンボリューション関数管理機能部１１２は、システムの構造を表すグラフ構造のデータに基づいて、前記グラフ構造のデータを表すモデルに関するコンボリューション関数を定義する。なお、部分メタブラフ構造は、各設備種別ノード、あるいはエッジに対応する個別のコンボリューション関数のライブラリー機能である。コンボリューション関数管理機能部１１２は、学習過程において、個々のコンボリューション関数のパラメータを更新していく。また、コンボリューション関数管理機能部１１２は、上述したニューラルネットワーク生成装置１００の機能の一部を備える。また、コンボリューション関数管理機能部１１２は、「定義部」の一例である。

ニューラルネット管理機能部１１３は、メタグラフ構造系列管理機能部１１１が策定したニューラルネットワーク構造と、コンボリューション関数管理機能部１１２が管理する部分メタブラフ構造と対応するコンボリューションモジュールあるいはアテンションモジュールを取得する。ニューラルネット管理機能部１１３は、メタグラフを多層ニューラルネットワークに変換する機能、強化学習に必要な関数のニューラルネットの出力関数定義機能、および上記コンボリューション関数あるいはニューラルネットワークのパラメータセットの更新機能を備える。なお、強化学習に必要な関数は、例えば、報酬関数、方策関数等である。また、出力関数定義とは、例えば、コンボリューション関数の出力を入力とするフルコネクト・多層ニューラルネットワーク等である。なお、フルコネクトとは、各入力が他のすべての入力と接続している形態である。また、ニューラルネット管理機能部１１３は、上述したニューラルネットワーク生成装置１００の機能の一部を備える。また、ニューラルネット管理機能部１１３は、「評価部」の一例である。

グラフコンボリューションニューラルネット１２は、例えば、深層ニューラルネットワークとして多種類コンボリューションで構成されるアテンション型グラフコンボリューションネットワークを記憶する。

強化学習部１３は、グラフコンボリューションニューラルネット１２が構築したグラフコンボリューションニューラルネットと環境が出力した状態や報酬を用いて強化学習を行う。強化学習部１３は、強化学習した結果に基づいてパラメータを変更し、変更したパラメータをコンボリューション関数管理機能部１１２に出力する。なお、強化学習方法は後述する。

操作部１４は、キーボード、マウス、表示装置３上に設けられているタッチパネルセンサ等である。操作部１４は、利用者の操作を検出し、検出した操作結果を画像処理部１５に出力する。

画像処理部１５は、操作結果に応じて、評価環境に関する画像と、評価結果に関する画像を生成し、生成した画像を評価環境に関する画像と評価結果に関する画像を提示部１６に出力する。評価環境に関する画像と、評価結果に関する画像については後述する。

提示部１６は、画像処理部１５が出力する画像を、環境２と表示装置３に出力する。

次に、設備のアテンション、コンボリューションモデルに基づいて、設備の変更計画系列の定式化を説明する。図１０は、本実施形態に係るコンボリューション処理とアテンション処理のマッピング例を示す図である。
まず、実システムをグラフ構造で表す（Ｓ１）。次にグラフ構造からエッジ種別、関数属性を設定する（Ｓ２）。次に、メタグラフで表す（Ｓ３）。次に、ネットワークマッピングを行う（Ｓ４）。

符号ｇ２０は、ネットワークマッピングの例である。符号ｇ２１は、エッジコンボリューションモジュールである。符号ｇ２２は、グラフアテンションモジュールである。符号ｇ２３は、時系列認識モジュールである。符号ｇ２４は、状態価値関数Ｖ（ｓ）推定モジュールである。符号ｇ２５は、行動確率ｐ（a｜s）算出モジュールである。

ここで、設備変更計画問題は、強化学習の問題として定義できる。すなわち、設備変更計画問題は、グラフ構造と各ノード、エッジ(設備)のパラメータを状態、設備の追加や削除を行動、得られる収益や費用を報酬とすることで、強化学習問題として定義することができる。

メタグラフ構造系列管理機能部１１１が行う変更の選択管理例を説明する。図１１は、メタグラフ構造系列管理機能部１１１が行う変更の選択管理例を説明するための図である。

ここでは、初期（ｔ＝０）状態として、符号ｇ３１のような４ノードのグラフ構造を考える。
この状態から、次の時刻ｔ＝１の変更候補としては、中段の符号ｇ４１，ｇ４２，…，ｇ４ｎのようにｎ（ｎは１以上の整数）個の選択肢が考えられる。
それらの選択肢毎に、次時刻ｔ＝２の選択肢が派生する。符号ｇ５１，ｇ５２，…は、符号ｇ４３のグラフ構造からの選択肢例を表す。

このように選択系列は、変更を反映したメタグラフの系列、つまりノード変更の系列として表現される。実施形態では、このような系列の中からポリシーに適合するものを抽出する手段として強化学習を用いる。

実施形態では、このように、情報処理装置１によって構成されたグラフニューラルネットは環境側のシステム構成に常に対応づいている。そして、情報処理装置１は、環境側の評価結果として、新たな状態Ｓ、それに基づいて求められる報酬値、とニューラルネット側で推定される価値関数、および、方策関数によって強化学習を進める。

（第１の実施形態）
情報処理装置１が行う学習方法例を説明する。ここでは、学習方式としてＡ３Ｃ（ＡｓｙｎｃｈｒｏｎｏｕｓＡｄｖａｎｔａｇｅＡｃｔｏｒ－Ｃｒｉｔｉｃ）を用いる例を説明するが、学習方式は、これに限らない。なお、実施形態では、選択系列の中から報酬に適合するものを抽出する手段として強化学習を用いる。また、強化学習は、例えば深層強化学習であってもよい。

図１２は、本実施形態に係る情報処理装置１が行う学習方法例における情報の流れを示す図である。図１２において、環境２は、外部環境ＤＢ（データベース）２１、およびシステム環境２２を備える。システム環境２２は、物理モデル・シミュレータ２２１、報酬算出部２２２、および出力部２２３を備える。なお、設備種別は、コンボリューション関数によって表される。そして、システムのグラフ構造は、コンボリューション関数群のグラフ構造で表される。

外部環境ＤＢ２１が格納するデータは、外部環境データ等である。環境データは、例えば設備ノードの仕様、電力システムなどでの需要データ、グラフ構造に関する情報等であり、環境状態、行動の影響を受けず、かつ、アクションの決定に影響するパラメータである。

物理モデル・シミュレータ２２１は、例えば潮流シミュレータ、トラヒックシミュレータ、物理モデル、関数、方程式、エミュレータ、実機などを備える。物理モデル・シミュレータ２２１は、必要に応じて外部環境ＤＢ２１が格納するデータを取得し、取得したデータと物理モデルを用いて、シミュレーションを行う。物理モデル・シミュレータ２２１は、シミュレーション結果（Ｓ，Ａ，Ｓ’）を報酬算出部２２２に出力する。Ｓはシステムの状態（ＬａｓｔＳｔａｔｅ）であり、Ａは抽出された行動であり、Ｓ’はシステムの新たな状態である。

報酬算出部２２２は、物理モデル・シミュレータ２２１から取得したシミュレーション結果（Ｓ，Ａ，Ｓ’）を用いて報酬値Ｒを算出する。なお、報酬値Ｒの算出方法については後述する。また、報酬値Ｒは、例えば｛（Ｒ_１，ａ_１），…，（Ｒ_Ｔ，ａ_Ｔ）｝である。ここで、Ｔは、設備計画検討期間である。また、ａ_ｐ（ｐは１からＴの整数）は、各ノードであり、例えばａ_１は１番目のノードであり、ａ_ｐはｐ番目のノードである。

出力部２２３は、システムの新たな状態Ｓ’をシステムの状態Ｓとし、システムの状態Ｓと報酬値Ｒを情報処理装置１に出力する。

管理機能部１１のニューラルネット管理機能部１１３は、環境２が出力するシステムの状態Ｓを、グラフコンボリューションニューラルネット１２が記憶するニューラルネットに入力して方策関数π（・｜Ｓ，θ）と状態価値関数Ｖ（Ｓ，ｗ）を求める。ここで、ｗは、ノードが持つ属性次元に対応する重み係数行列（コンボリューション項ともいう）である。ニューラルネット管理機能部１１３は、次式（３）を用いて次のステップでの行動（設備変更）Ａを決定する。

ニューラルネット管理機能部１１３は、決定した次のステップでの行動（設備変更）Ａを環境２に出力する。すなわち、方策関数π（・｜Ｓ，θ）は、検討対象のシステムの状態Ｓが入力され、行動（アクション）を出力する。また、ニューラルネット管理機能部１１３は、求めた状態価値関数Ｖ（Ｓ，ｗ）を強化学習部１３に出力する。なお、行動を選択する方策関数π（・｜Ｓ，θ）はメタグラフ構造変更の行動候補の確率分布として与えられる。

このように、ニューラルネット管理機能部１１３は、ニューラルネットワークに対してシステムの状態を入力し、ニューラルネットに対して時間ステップ毎に想定し得る構造変化を生じさせた一以上の変更後モデルの体系について、時間ステップ毎に方策関数と強化学習に必要な状態価値関数とを求め、方策関数に基づいてシステムの構造変化を評価する。なお、ニューラルネット管理機能部１１３は、システムの構造変化の計画、または設備変更計画を評価するようにしてもよい。

強化学習部１３には、管理機能部１１が出力する状態価値関数Ｖ（Ｓ，ｗ）と、環境２が出力する報酬値Ｒが入力される。強化学習部１３は、入力された状態価値関数Ｖ（Ｓ，ｗ）と報酬値Ｒを用いて、例えばＡ３Ｃ等の機械学習方法によって強化機械学習を、行動（アクション）の系列を設備計画検討期間（Ｔ）に相当する回数繰り返す。強化学習部１３は、強化機械学習した結果得られたパラメータ＜ΔＷ＞π，＜Δθ＞πを管理機能部１１に出力する。

コンボリューション関数管理機能部１１２は、強化学習部１３が出力するパラメータに基づいて、コンボリューション関数のパラメータを更新する。
ニューラルネット管理機能部１１３は、更新されたパラメータ＜ΔＷ＞π，＜Δθ＞πをニューラルネットワークに反映して、パラメータを反映したニューラルネットワークに対して評価を行う。

なお、次の行動の選択において、管理機能部１１は、上述した候補ノード（図４、図５参照）を用いても、用いなくてもよい。

次に、報酬関数の例を説明する。
報酬関数の第１例は、（バイアス）－（設備設置、廃棄、運営、保守コスト）である。
報酬関数の第１例は、設備毎にコストをモデル化（関数）にして、バイアスから引くことで正の報酬値として定義するようにしてもよい。なお、バイアスとは、報酬関数値が正値になるように適宜一定の正値として設定されるパラメータである。

報酬関数の第２例は、(バイアス)－（リスクコスト）である、設備構成によっては、物理的なシステム条件を満たさない場合がある。条件を満たさない場合とは、例えば、連結条件が成り立たない、フローがアンバランス、出力条件が満たされない等である。このような大きなリスクを発生する場合は、負の大きな報酬（リスク）を課すようにしてもよい。

報酬関数の第３例は、報酬関数の第１例～第３例の組み合わせるようにしてもよい。

このように、本実施形態では、第１例～第３例のように色々な報酬関数の設計を行うことが出来る。

（第２の実施形態）
本実施形態では、候補ノードを用いて次の行動を選択する例を説明する。
メタグラフ構造系列管理機能部１１１は、候補ノード処理機能を使ってもよい。本実施形態では、次の行動（アクション）候補として設備ノード追加の可能性のある関数を候補的にメタグラフに接続して、複数の行動候補に対する価値推定を並列に実行する方法を説明する。なお、情報処理装置１の構成は、第１の実施形態と同様である。

アテンション型のニューラルネットワークの特徴としては、ノードが追加されても、そのノードに対応する学習済み畳込み関数をニューラルネットワークに追加することで、再学習せずに追加の効果の効率的な分析・評価ができる。この理由は、グラフアテンションネットワークに基づいたグラフ構造ニューラルネットの構成要素が畳込み関数として表現され、全体がその関数群のグラフ接続として表現されるためである。すなわち、候補ノードを用いる場合は、システム全体を表現するニューラルネットワークと、追加されたノードを構成するコンボリューション関数に分解して管理できる。

図１３は、本実施形態に係る候補ノード処理機能の例を説明するための図である。符号ｇ１０１はステップｔにおけるメタグラフであり、符号ｇ１０２はステップｔにおけるニューラルネットである。符号ｇ１１１はステップｔ＋１におけるメタグラフであり、符号ｇ１０２はステップｔ＋１におけるニューラルネットである。

管理機能部１１は、変更候補として追加の可能性を評価するには、図１３の符号ｇ１１１のように一方向性の接続を用いて候補的にメタグラフに接続する。これにより、管理機能部１１は、候補ノードを一方向性の接続のコンボリューション関数として扱う。

管理機能部１１は、ノードＴ１^＊を追加した場合の価値を評価するため、符号ｇ１１２のようにノードＢ１，Ｂ２からＴ１^＊への一方向性接続で結合し、Ｔ１，Ｔ１^＊ノードに紐づいた価値計算（方策関数、状態価値関数）を並列して実行する。また、符号ｇ１１２１はＴ１の報酬差分であり、符号ｇ１１２２はＴ１^＊追加の報酬差分である。符号ｇ１１２の二次元行動の報酬値の推定は、並列に実行することができる。

これにより、本実施形態では、ノード（Ｔ１，Ｔ１^＊）の組み合せとして、｛（有、有）、（有、無）、（無、有）、（無、無）｝の４つの組合せを同時に評価することができる。この結果、本実施形態によれば、並列に評価することができるので、演算を高速で実行することができる。

図１４は、候補ノードを使った並列価値推定を説明するための図である。符号ｇ１５１は、ステップｔにおける状態Ｓのメタグラフである。符号ｇ１６１は、ステップｔ＋１における行動Ａ_１による状態Ｓ_１（有、無）のメタグラフである。符号ｇ１６２は、ステップｔ＋１における行動Ａ_２による状態Ｓ_２（有、有）のメタグラフである。符号ｇ１６３は、ステップｔ＋１における行動Ａ_３による状態Ｓ_３（無、有）のメタグラフである。符号ｇ１６４は、ステップｔ＋１における行動Ａ_４による状態Ｓ_４（無、無）のメタグラフである。符号ｇ１７１は、状態Ｓに候補ノードＴ１^＊を仮想的に接続したメタグラフである。

なお、図１４では、ステップｔで状態Ｓにあるシステムにおいて、Ｂ１，Ｂ２間のノードについて増設、維持のうちの行動を選べるとする。管理機能部１１は、この条件において、どの選択肢が高い報酬を得られるかに基づいて、選択肢を決定する。

ここで４つの組み合せのうち、Ｓ_４（無、無）のケースは、システム的にＢ１，Ｂ２間が非連結となりシステムとしては成立しない。この場合、管理機能部１１は、大きなリスクコスト（ペナルティ）を発生させる。また、この場合、管理機能部１１は、状態Ｓ１からＳ４それぞれについて、ニューラルネットワークからの価値関数値と方策関数に基づいて強化学習を並列に実行する。

（第３の実施形態）
本実施形態では、計画系列案をサンプリングする処理の並列処理を行う例を説明する。なお、情報処理装置１の構成は、第１の実施形態と同様である。
図１５は、本実施形態に係る設備変更計画案（推論）計算の流れを説明するための図である。図１５は、Ａ３Ｃ学習機能により獲得された方策関数を用いて、学習とは異なる外部環境データの場合での設備変更計画（変更系列）案を作成する主な計算処理と信号の流れを例示している。

情報処理装置１は、獲得した設備毎コンボリューション関数を用いて計画案をサンプリングする。そして、情報処理装置１は、例えば累積スコアの順に計画案を出力する。累積スコアの順は、例えばコストが安い順等である。

外部環境ＤＢ２１には、例えば電力システムでの需要データ、設備仕様に係るデータ、あるいは、システムのグラフ構造など学習データとは異なる外部環境データセット等が格納されている。

学習済コンボリューション関数（学習済パラメータ：θπ）を用いて構成されたグラフニューラルネットにより方策関数が構成されている。
システムの状態Ｓを入力として、次のステップでの行動（設備ノード変更）を、次式（４）を用いて決定する。

管理機能部１１は、式（４）により、状態に応じた方策関数（各行動毎の確率分布）に基づいて方策を抽出する。管理機能部１１は、抽出したアクションＡをシステム環境に入力して新たな状態Ｓ’とそれに伴う報酬値Ｒを計算する。新たな状態Ｓ’は、次のステップを決めるための入力として使われる。報酬は、検討期間に亘って累積される。管理機能部１１は、この操作を検討期間に相当するステップ分繰返し実行し、各累積報酬スコア（Ｇ）を求める。

図１６は、並列推論処理を説明するための図である。
検討期間を通しての一連の変更計画系列が一つの設備変更計画に相当する。その計画に対応する累積報酬スコアが求まる。このように求められた計画案とそのスコアの組合の集合が計画案候補集合となる。

まず、管理機能部１１は、エピソード単位に、学習により獲得された方策関数から計画(アクション系列｛ａｔ｝ｔ）をサンプルし、スコアを求める。
次に、管理機能部１１は、例えばａｒｇｍａｘ関数で選択して、各試行（テスト）結果のＧ値のうち最大のテストに対応する計画｛Ａ１，…，ＡＴ｝を抽出する。管理機能部１１は、さらに上位の計画を抽出することもできる。
本実施形態によれば、一つ一つの計画系列案をサンプリングする処理（図１６ではＮ回）を、並列処理することができる。

なお、方策関数を並列で処理するには、出力層での規格化が必要である。規格化には、例えば次式（５）を用いる。

式（５）において、ｐｒｅｆｅｒｅｎｃｅ関数は、対象の出力ノードに対して、係数θとベクトルｘの積π（ｓ_ｔ，ａ，θ）である。

ここで、多次元の行動（アクション）を扱う場合を説明する。
行動空間が二次元空間であるとすると、ａ＝（ａ_１，ａ_２）で２つの空間の直積として考え、次式（６）のように表すことができる。なお、ａ_１は１番目のノードであり、ａ_２は２番目のノードである。

すなわち、ｐｒｅｆｅｒｅｎｃｅ関数は、個別の空間について計算して加算すればよい。このように、個々のｐｒｅｆｅｒｅｎｃｅ関数は、元になるシステムの状態ｓ_ｔが同じであれば、並列して計算することができる。

図１７は、推論全体の機能構成例を示す図である。なお、計算処理の流れは、上述した図１５である。
設備ノード更新方策モデルｇ２０１は、学習済みの方策関数であり、前述の過程で学習されたステップ毎の行動選択確率分布を示す。
課題設定機能ｇ２０２は、初期のシステム構成、各ノードパラメータ初期化、外部環境データ、テストデータ、コストモデルなど課題定義、設定機能である。

課題定式化機能ｇ２０３は、上記、課題設定機能で定義された課題と、更新方策モデルとして使用する学習済方策関数を強化学習の定式化に対応づける機能。検討期間（エピソード）、ポリシー（累積コスト最小化、平準化）、アクション空間、環境状態空間、評価スコア関数定式化（定義）などが含まれる。

変更系列サンプル抽出・累積スコア評価機能ｇ２０４は、定義された環境、エージェントの環境で学習済方策関数からアクション系列を必要数生起しサンプルとする。
最適累積スコア計画・表示機能ｇ２０５は、サンプル集合の中から、最適なスコアのサンプルを選択、あるいはスコア順序にサンプルをならべて提示する。
機能設定ＵＩｇ２０６は、各機能部の設定を行うユーザーインタフェースである。

次に、設備変更計画案の具体的な計算事例を説明する。
ここでは、以下のような課題に対して実施形態の手法を適用した例を説明する。評価用電力系統システムモデルとして、図１に示したＩＥＥＥＣａｓｅ１４（ＥｌｅｃｔｒｉｃａｌＥｎｇｉｎｅｅｒｉｎｇ，Ｕ．ｏｆＷａｓｈｉｎｇｔｏｎ）を用いた。

課題は、一連の３０ステップの設備更新系列で累積コスト最小の計画案を探索する。初期状態は、図１のようにバス間に同じ仕様の変圧器（Ｔ＿ｘ）が計９台配備されている。条件は、図１にあるように、バスＢ５-Ｂ６間、Ｂ４-Ｂ９間、Ｂ７-Ｂ９間、Ｂ４-Ｂ７間の変圧器について、ステップ毎に１ノードについて“追加”、“廃棄”、“そのまま”の３つのアクションのうち一つを選択できる。つまり、３×３×３×３＝８１通りの行動空間である。

考慮するコストは、変圧器の設備ノード毎に設置コスト、時間経過と負荷電力値に応じたコスト、設備変更によって環境の成立条件が困難になるようであれば大きなペナルティ値をコストして課す。なお、環境の成立条件とは、例えば、パワーフローバランス等である。

課題のポイントは以下である。
Ｉ．系統システムモデル；ＩＥＥＥＣａｓｅ１４
ＩＩ．課題；ＩＥＥＥＣａｓｅ１４変圧器の新設、削除の設備変更計画を計画期間（３０更新機会)に亘って最小コストになるよう立案する。
ＩＩＩ．条件；
ＩＩＩ－１；初期状態：バス間に同じ仕様の変圧器（Ｖ＿ｘ）が配備されている。
ＩＩＩ－２；各変圧器設備の運営コストは、以下の３種コスト（設置コスト、維持コスト、リスクコスト）の（加重）和とする。
・設置コスト；一過性コスト
・維持コスト；時間経過と負荷電力値に応じたコスト
・リスクコスト；万一システムダウンした場合の被害コスト（大きい）
ＩＶ．強化学習の報酬；（報酬）＝（報酬バイアス）－（運営コスト）
・強化学習のアクションは、定期的に各変圧器のうち一つについて、設備戦略選択肢（増設、廃棄、何もしない）のうちから１つを選ぶ
Ｖ．需要負荷曲線はＹ年のデータ
ＶＩ．発電機、ラインの仕様はＩＥＥＥモデル
ＶＩＩ．評価（推論）；Ｙ年の翌年の電力需要データに対応する設備変更計画立案

図１８は、電力系統の設備変更計画における設備の廃棄、新設、交換それぞれのコスト例を示す図である。このように、各コストをさらに分類し、コスト毎にコスト係数を設定するようにしてもよい。例えば、変圧器追加コストは、一時的なコストであり、コスト係数が０．１である。また、変圧器撤去コストは、一時的なコストであり、コスト係数が０．０１である。このようなコストの分類、コスト係数の設定は、予め設定しておく。コストの分類や設定は、例えば過去に実際に行われた作業に基づいて、システムの設計者が設定するようにしてもよい。実施形態では、このように設備毎の設置コスト、運営・保守コストを関数として組み込む。

上述した課題について、Ａ３Ｃ学習を行った結果の学習曲線を図１９に示す。図１９は、電力システムの設備変更計画問題の学習曲線を示す図である。図１９において、横軸は学習更新ステップ数であり、縦軸は上述した累積報酬値に相当する。また、符号ｇ３０１は、平均値の学習曲線である。符号ｇ３０２は、中央値の学習曲線である。符号ｇ３０３は、比較用のランダムな計画の平均値である。符号ｇ３０４は、比較用のランダムな計画の中央値である。図１９は、学習ステップ毎に更新された方策関数に基づいて設備変更計画をサンプルとして生成し、そのサンプル集合の累積報酬値の平均値と中央値を示している。図１９のように、学習により、よりスコアの高い戦略が得られていることがわかる。

図２０は、学習ステップ毎のエントロピーの評価を示す図である。なお、図１０に示したエントロピーは、同じシステム構成におけるランダム方策との相互エントロピーである。図２０において、横軸は学習更新ステップ数であり、縦軸はエントロピーの平均値である。学習行進ステップ数が１０万回を超えた後、エントロピーの平均値が－０．０５から－０．０９程度の範囲に収まっている。

なお、学習過程としての進捗は学習曲線で把握できるが、実際の設備変更計画案は、この学習過程で獲得された方策関数で生起させる必要がある。このため、１０００個の計画案とその各々の案の累積報酬値を算出し、その系列の中から、選択ポリシーとして累積報酬値の最小値を実現する計画案、あるいは最小値累積報酬値のうち、上位３件を抽出する、など選択基準を設定できる。

なお、情報処理装置１は、方策に基づいて計画案を作る際、方策関数に基づいて、検討期間分の計画変更案を発生し、累積報酬値を紐づけて管理（例えばＰｌａｎ_ｋ：｛Ａ_ｔ～π（・｜Ｓ_ｔ）｝_ｔ→Ｇ_ｋ）する。

図２１は、生起した計画案の中から、累積コストが最小になる具体的な計画案を示す図である。各行は個別の設備ノードであり、各列は変更タイミング（例えば一週間毎）を示す。図２１において、また、“右向き方向の矢印”は何もしないを表し、“撤去”は設備の廃棄または撤去を表し、“新規”は設備の追加を表す。

図２１では、初期状態０から２９更新機会（２９週）までの一連の設備毎の行動系列を示している。初期状態として９設備あったノードが、系列が進むにしたがって削除、追加といった変更系列を示す。図２１に示す例のように、タイミング毎のシステム全体のコストも提示することで、この累積値が他の計画案よりも小さいことを、利用者が理解しやすくなる。

図２２は、表示装置３上に表示される画像例を示す図である。
符号ｇ４０１の画像は、評価対象システムをメタグラフで表す画像例である。符号ｇ４０２の画像は、対応実システムの回路図の画像である。符号ｇ４０３の画像は、評価対象システムをニューラルネット構造で表した画像例である。符号ｇ４０４の画像は、累積コストのうち、コストが安い上位３位の計画を表す画像例である。符号ｇ４０５の画像は、累積最小コストが１位の具体的な設備変更計画を表す画像例（例えば図２１）である。

このように、実施形態では、サンプル計画集合の中から、条件を満たしてスコアの良いもの（コストが安いもの）を抽出する。なお、抽出する件数は、図２２のように上位複数件を選んで表示してもよい。また、計画案としては、サンプル毎に設備変更案を系列表示する。

このように、情報処理装置１は、システムのメタグラフ表示や計画案を表示装置３（図１）上に表示させる。情報処理装置１は、サンプル計画集合の中から、条件を満たしてスコアの良いものを抽出し、上位複数件を選んで表示してもよい。情報処理装置１は、計画案としては、サンプル毎に設備変更案を系列表示するようにしてもよい。情報処理装置１は、問題設定から環境の設定、学習関数の設定、学習による方策関数の獲得、獲得された方策関数を使った、推論、すなわち設備変更計画案の策定、これらの状況を、利用者が操作部１４を操作した操作結果に応じて表示するようにしてもよい。なお、表示する画像は、グラフ、表等の画像であってもよい。
利用者は、表示された計画案やコストなどを画像やグラフ等を確認することで、環境や状況に応じた最適な計画案を採用することができる。

次に、平準化、パラメータ変更などの抽出フィルターについて説明する。情報処理装置１は、最適計画抽出において、平準化、パラメータ変更などの抽出フィルターを用いてもよい。
第１の抽出例は、その集合Ｍの中から、平準化の設定レベルを満たすものから計画案とする。第２の抽出例は、コスト関数の係数を変更して計画案を作る。第２の抽出例では、例えば係数依存性の評価などを行う。第３の抽出例は、各設備の初期状態を変えて計画案を作る。第３の抽出例では、例えば初期状態依存性（検討期間初期の経年履歴など）評価を行う。

以上説明した少なくともひとつの実施形態によれば、コンボリューション関数管理機能部とメタグラフ構造系列管理機能部とニューラルネット管理機能部と強化学習部を持つことにより、社会インフラの変更案を作成することができる。
また、以上説明した少なくともひとつの実施形態によれば、システムに候補ノードを接続したニューラルネットワークを用いて、接続されたノードと候補ノードとの組み合わせを並列処理で評価することで、より高速な処理を行うことができる。
また、以上説明した少なくともひとつの実施形態によれば、スコアのよい計画案を表示装置３に提示するようにしたので、利用者が計画案を検討しやすくなる。

なお、ニューラルネットワーク生成装置１００、情報処理装置１の機能部は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。これらの構成要素のうち一部または全部は、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）やＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのハードウェア（回路部；ｃｉｒｃｕｉｔｒｙを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やフラッシュメモリなどの記憶装置に格納されていてもよいし、ＤＶＤやＣＤ－ＲＯＭなどの着脱可能な記憶媒体に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１００…ニューラルネットワーク生成装置、１…情報処理装置、１１…管理機能部、１２…グラフコンボリューションニューラルネット、１３…強化学習部、１４…操作部、１５…画像処理部、１６…提示部、１１１…メタグラフ構造系列管理機能部、１１２…コンボリューション関数管理機能部、１１３…ニューラルネット管理機能部、２…環境、３…表示装置、Ｓ…システムの状態、Ｓ’…システムの新たな状態、Ａ…行動

Claims

ノードとエッジに属性が対応付けられて定義され、システムの構造を表すグラフ構造のデータに基づいて、前記グラフ構造のデータを表すモデルに関するコンボリューション関数を定義する定義部と、
前記モデルに対して前記システムの状態を入力し、前記モデルに対して時間ステップ毎に想定し得る構造変化を生じさせた一以上の変更後モデルの体系について、前記時間ステップ毎に前記構造変化の確率分布として与えられる方策関数と強化学習に必要な状態価値関数とを求め、前記方策関数に基づいて前記システムの構造変化を評価する評価部と、
前記構造変化を前記システムに適用した場合に生じるコストである報酬値と、前記状態価値関数と、前記モデルとを用いて強化学習を行うことで、前記システムの構造変化を最適化する強化学習部と、
を備える情報処理装置。
前記定義部は、
前記システムが有する設備の設備種別に応じたコンボリューション関数を定義する、
請求項１に記載の情報処理装置。
前記強化学習部は、
前記強化学習を行った結果得られた前記コンボリューション関数の係数であるパラメータを前記定義部に出力し、
前記定義部は、
前記強化学習部が出力する前記パラメータに基づいて、前記コンボリューション関数のパラメータを更新し、
前記評価部は、
更新された前記パラメータを前記モデルに反映して、前記パラメータを反映した前記モデルに対して評価を行う、
請求項１または請求項２に記載の情報処理装置。
前記定義部は、
前記システムに前記構造変化の候補を、候補ノードとして前記グラフ構造に組み込み、前記候補ノードを、一方向性接続の前記コンボリューション関数として構成し、
前記評価部は、
前記一方向性接続の前記コンボリューション関数を用いて前記モデルを構成する、
請求項１から請求項３のいずれか１項に記載の情報処理装置。
前記評価部は、
前記グラフ構造に前記候補ノードを接続した前記モデルを用いて、前記候補ノードが接続されたノードと、前記候補ノードとの組み合わせ毎の前記モデルに対して並列処理で評価する、
請求項４に記載の情報処理装置。
前記評価部が評価した前記システムの構造変化を、前記システムの構造変化に関するコストとともに提示する提示部、をさらに備える、
請求項１から請求項５のいずれか１項に記載の情報処理装置。
コンピュータに、
ノードとエッジに属性が対応付けられて定義され、システムの構造を表すグラフ構造のデータに基づいて、前記グラフ構造のデータを表すモデルに関するコンボリューション関数を定義させ、
前記モデルに対して前記システムの状態を入力させ、前記モデルに対して時間ステップ毎に想定し得る構造変化を生じさせた一以上の変更後モデルの体系について、前記時間ステップ毎に前記構造変化の確率分布として与えられる方策関数と強化学習に必要な状態価値関数とを求めさせ、前記方策関数に基づいて前記システムの構造変化を評価させ、
前記構造変化を前記システムに適用した場合に生じるコストである報酬値と、前記状態価値関数と、前記モデルとを用いて強化学習を行わせることで、前記システムの構造変化を最適化させる、
情報処理方法。
コンピュータに、
ノードとエッジに属性が対応付けられて定義され、システムの構造を表すグラフ構造のデータに基づいて、前記グラフ構造のデータを表すモデルに関するコンボリューション関数を定義させ、
前記モデルに対して前記システムの状態を入力させ、前記モデルに対して時間ステップ毎に想定し得る構造変化を生じさせた一以上の変更後モデルの体系について、前記時間ステップ毎に前記構造変化の確率分布として与えられる方策関数と強化学習に必要な状態価値関数とを求めさせ、前記方策関数に基づいて前記システムの構造変化を評価させ、
前記構造変化を前記システムに適用した場合に生じるコストである報酬値と、前記状態価値関数と、前記モデルとを用いて強化学習を行わせることで、前記システムの構造変化を最適化させる、
プログラム。