JP7242508B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP7242508B2
JP7242508B2 JP2019196584A JP2019196584A JP7242508B2 JP 7242508 B2 JP7242508 B2 JP 7242508B2 JP 2019196584 A JP2019196584 A JP 2019196584A JP 2019196584 A JP2019196584 A JP 2019196584A JP 7242508 B2 JP7242508 B2 JP 7242508B2
Authority
JP
Japan
Prior art keywords
function
model
unit
graph
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019196584A
Other languages
English (en)
Other versions
JP2021071791A (ja
Inventor
幸男 釜谷
秀将 伊藤
克之 花井
真由美 湯浅
鳴鏑 蘇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Digital Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Solutions Corp filed Critical Toshiba Corp
Priority to JP2019196584A priority Critical patent/JP7242508B2/ja
Priority to CN202011146544.0A priority patent/CN112749785A/zh
Priority to US17/082,738 priority patent/US20210125067A1/en
Publication of JP2021071791A publication Critical patent/JP2021071791A/ja
Application granted granted Critical
Publication of JP7242508B2 publication Critical patent/JP7242508B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Description

本発明の実施形態は、情報処理装置、情報処理方法、およびプログラムに関する。
近年、社会インフラシステムの大きな課題として、老朽化問題があげられる。例えば、電力系統においては、世界的に変電所設備の老朽化が迫ってきており、設備投資計画の立案が重要である。このような設備投資計画問題に対しては、各領域で専門家によるソリューション開発が行われてきた。社会インフラシステムへ適用する計画立案方式に関しては、大規模性、多様性、変動性の要件を満たすことが必要な場合があった。しかしながら、従来技術では、構成変更を扱えないという問題点があった。
特開2007-80260号公報
永田真幸、竹原有紗、供給信頼度制約を考慮した電力流通設備更新の平準化支援ツール -プロトタイプの開発-、研究報告R08001、財団法人電力中央研究所、平成21年2月
本発明が解決しようとする課題は、社会インフラの変更案を作成することができる情報処理装置、情報処理方法、およびプログラムを提供することである。
実施形態の情報処理装置は、定義部と、判定部と、強化学習部とを持つ。定義部は、ノードとエッジに属性が対応付けられて定義され、システムの構造を表すグラフ構造のデータに基づいて、前記グラフ構造のデータを表すモデルに関するコンボリューション関数を定義する。評価部は、前記モデルに対して前記システムの状態を入力し、前記モデルに対して時間ステップ毎に想定し得る構造変化を生じさせた一以上の変更後モデルの体系について、前記時間ステップ毎に前記構造変化の確率分布として与えられる方策関数と強化学習に必要な状態価値関数とを求め、前記方策関数に基づいて前記システムの構造変化を評価する。強化学習部は、前記構造変化を前記システムに適用した場合に生じるコストである報酬値と、前記状態価値関数と、前記モデルとを用いて強化学習を行うことで、前記システムの構造変化を最適化する。
評価用電力系統システムモデルの例を示す図。 実システムの構造例を示す図。 想定ノードANの種別の定義の一例を示す図。 図3の構成において、ノードAN(B1)とAN(B2)との間に設備T1を追加する例を説明するための図。 図4のグラフ構造のデータから生成されたニューラルネットワークを示す図。 ニューラルネットワーク生成装置のブロック図。 グラフ構造のデータからニューラルネットワークを生成する様子を示す図。 ニューラルネットワーク生成装置が係数αi,jを決定する手法について説明するための図。 実施形態に係る情報処理装置の構成例を示すブロック図。 実施形態に係るコンボリューション処理とアテンション処理のマッピング例を示す図。 実施形態に係るメタグラフ構造系列管理機能部が行う変更の選択管理例を説明するための図。 第1の実施形態に係る情報処理装置が行う学習方法例における情報の流れを示す図。 第2の実施形態に係る候補ノード処理機能の例を説明するための図。 候補ノードを使った並列価値推定を説明するための図。 第3の実施形態に係る設備変更計画案(推論)計算の流れを説明するための図。 並列推論処理を説明するための図。 推論全体の機能構成例を示す図。 電力系統の設備変更計画における設備の廃棄、新設、交換それぞれのコスト例を示す図。 電力システムの設備変更計画問題の学習曲線を示す図。 学習ステップ毎のエントロピーの評価を示す図。 生起した計画案の中から、累積コストが最小になる具体的な計画案を示す図。 表示装置上に表示される画像例を示す図。
以下、実施形態の情報処理装置、情報処理方法、およびプログラムを、図面を参照して説明する。以下、以下の説明では、情報処理装置が扱う処理として設備変更計画を例として説明する。なお、本実施形態は、社会インフラシステム向けの設備変更計画問題に限るものではない。
まず、電力系統システム例を説明する。
図1は、評価用電力系統システムモデルの例を示す図である。図1のように、評価用電力系統システムモデルは、交流電源V_0~V_3、変圧器T_0~T_8、およびバスB1~B14を含む。バスとは、電力の供給源や需要家が接続される「箇所」のような概念である。
ここでの設備変更では、バスB4とバスB7との間の変圧器T_0、バスB4とバスB9との間の変圧器T_1、バスB5とバスB6との間の変圧器T_2、バスB7とバスB8との間の変圧器T_3、バスB7とバスB9との間の変圧器T_4、バスB4とバスB7との間の変圧器T_5、バスB4とバスB9との間の変圧器T_6、バスB5とバスB6との間の変圧器T_7、バスB7とバスB9との間の変圧器T8について、“追加”、“廃棄”、“維持”の3つの選択肢のうちの1つを選択すると想定する。各変圧器について3つの選択肢があるため、変圧器がn(nは1以上の整数)個の場合の組み合わせは3通りある。このような設備変更を考える場合は、変圧器設備の運営コスト(維持コスト)、設置コスト、システムダウン等によるリスクコストを考慮する必要がある。
実施形態では、設備変更のため、まず実システムをグラフ構造で表現する。
図2は、実システムの構造例を示す図である。図示する構造例は、バス1~バス4を含む。バス1とバス2の間には、220[kV]を110[kV]に変圧する変圧器が設けられている。バス2には、60[MW]の需要家が接続されている。バス2とバス3の間は、70[km]の電力線で接続されている。バス3には、発電機と、70[MW]の需要家が接続されている。バス2とバス4の間は、40[km]の電力線で接続されており、バス3とバス4の間は、50[km]の電力線で接続されている。バス4には、発電機と、10[MW]の需要家が接続されている。
図2のような構成において、バスを実ノード、変圧器を種別「T」の実エッジ、電力線を種別「L」の実エッジと考えると、図3のように表すことができる。図3は、想定ノードANの種別の定義の一例を示す図である。符号g1は、グラフ構造のデータの内容の一例を示し、符号g2は、実ノードRNと実エッジREを想定ノードANに変換した様子を模式的に示している。符号g1において、RN(Bx)(xは1から4の整数)は実ノードを示し、RE(Ly)(yは1から3の整数)とRE(T1)は実エッジを示している。
実施形態では、符号g1のグラフ構造のデータを、符号g2のように想定ノードメタグラフに変換する(符号g3)。なお、グラフ構造のデータから想定ノードメタグラフへの変換方法については後述する。符号g2において、AN(Bx)とAN(T1)とAN(Ly)は実ノードを示している。なお、以下の説明では、符号g2のようなグラフをメタグラフという。
次に、図3の構成において、ノードAN(B1)とAN(B2)との間に設備T1を追加する例を説明する。図4は、図3の構成において、ノードAN(B1)とAN(B2)との間に設備T1を追加する例を説明するための図である。なお、追加する設備T1は、設備T1と同種のものであるとする。符号g5は、追加する設備T1を示している。
図4のメタグラフをニューラルネット構造で表すと図5のように表すことができる。図5は、図4のグラフ構造のデータから生成されたニューラルネットワークを示す図である。符号g11は設備T1が追加されていないシステムのニューラルネットワークを示し、符号g12は追加する設備T1に関するニューラルネットワークを示している。このように実施形態では、追加する設備に対応するコンボリューション関数をネットワークに追加している。設備の削除は、追加の逆行動なので、メタノードの対応するノードとその接続リンクを削除する。なお、追加される設備T1がT1と同種のものであるため、設備T1のコンボリューション関数はT1と同じものである。W (1)とW (1)は、第1中間層の伝播行列であり、W (2)とW (2)は、第2中間層の伝播行列である。伝播行列Wは、ノードLの想定ノードからの伝播行列である。伝播行列Wは、ノードBの想定ノードからの伝播行列である。また、例えばB4’は第1中間層の想定ノードを示し、B4’’は第2中間層の想定ノードを示す。
このように、設備の変更は、設備に相当するコンボリューション関数の変更に相当する(局所処理)。設備の増設は、コンボリューション関数の追加に相当する。設備の廃棄は、コンボリューション関数の削除に相当する。
次に、ニューラルネットワーク生成装置100の構成例を説明する。
図6は、ニューラルネットワーク生成装置100のブロック図である。ニューラルネットワーク生成装置100は、例えば、データ取得部101と、記憶部102と、ネットワーク処理部103と、出力部104とを備える。
データ取得部101は、例えば、外部装置からグラフ構造のデータを取得し、記憶部102に記憶させる。データ取得部101は、外部装置からグラフ構造のデータを取得するのに代えて、予め記憶部102に記憶されているグラフ構造のデータを取得する(読み出す)ものであってもよいし、利用者が入力デバイスを用いて入力したグラフ構造のデータを取得してもよい。
記憶部102は、例えば、RAM(Random Access Memory)やHDD、フラッシュメモリなどにより実現される。記憶部102が記憶するグラフ構造のデータは、例えば、グラフ構造を、実ノードRNと実エッジREのそれぞれのレコードとして表現したデータである。また、グラフ構造のデータには、それぞれの実ノードRNの初期状態としての特徴量が付与されていてもよい。なお、実ノードRNの初期状態としての特徴量は、グラフ構造のデータとは別のデータセットとして用意されてもよい。
ネットワーク処理部103は、例えば、実ノード・実エッジ隣接関係抽出部1031と、想定ノードメタグラフ化部1032と、メタグラフコンボリューション部1033とを備える。
実ノード・実エッジ隣接関係抽出部1031は、グラフ構造のデータを参照し、隣接関係(接続関係)にある実ノードRNと実エッジREを抽出する。例えば、実ノード・実エッジ隣接関係抽出部1031は、それぞれの実ノードRNおよび実エッジREについて、隣接関係(接続関係)にある実ノードRNまたは実エッジREを網羅的に抽出し、それらを対応付けた形で記憶部102に記憶させる。
想定ノードメタグラフ化部1032は、実ノード・実エッジ隣接関係抽出部1031により抽出された実ノードRNと実エッジREが接続されるように、想定ノードANの状態を層状に繋いだニューラルネットワークを生成する。この際に、想定ノードメタグラフ化部1032は、前述したグラフアテンションネットワークに基づく規則に従いつつ、前述したニューラルネットワークの目的に沿うように、伝播行列Wおよび係数αi,jを決定する。
メタグラフコンボリューション部1033は、例えば、想定ノードANのうち実ノードRNの初期値としての特徴量をニューラルネットワークに入力し、各層の想定ノードANの状態(特徴量)を導出する。これを繰り返し実行することで、出力部104が想定ノードANの特徴量を外部に出力する。
想定ノード特徴量記憶部1034は、実ノードRNの初期値としての特徴量を記憶する。想定ノード特徴量記憶部1034は、メタグラフコンボリューション部1033によって導出された特徴量を記憶する。
次に、グラフ構造のデータからニューラルネットワークを生成する方法について説明する。
図7は、グラフ構造のデータからニューラルネットワークを生成する様子を示す図である。図7において、符号g7は、グラフ構造を表す。符号g8は、ニューラルネットワークを表す。なお、ニューラルネットワーク生成装置100が、ニューラルネットワークを生成する。
図示するように、ニューラルネットワーク生成装置100は、実ノードRNだけでなく、実エッジREを含めた想定ノードANを設定し、想定ノードANの第k-1層の特徴量を、接続関係にある他の想定ノードAN、およびその想定ノードAN自身の第k層の特徴量に伝播させるニューラルネットワークを生成する。kは1以上の自然数であり、k=0の層は、例えば入力層を意味する。
ニューラルネットワーク生成装置100は、例えば、次式(1)に基づいて第1中間層の特徴量を決定する。なお、式(1)は、想定ノード(RN1)の第1中間層の特徴量h#の計算手法に該当する。
一例としてα1,12は、想定ノード(RN1)と想定ノード(RE12)の間の伝播度合いを示す係数である。想定ノード(RN1)の第2中間層の特徴量h##は、次式(2)で表される。第3中間層以降も順次、同様の規則で特徴量が決定される。
Figure 0007242508000001
Figure 0007242508000002
ニューラルネットワーク生成装置100は、例えば、グラフアテンションネットワークに基づく規則で係数αi,jを決定する。図8は、ニューラルネットワーク生成装置100が係数αi,jを決定する手法について説明するための図である。ニューラルネットワーク生成装置100は、伝播元の想定ノードRNiの特徴量hに伝播行列Wを乗算して得られるベクトルWhと、伝播先の想定ノードRNjの特徴量hに伝播行列Wを乗算して得られるベクトルWhとを結合したベクトル(Wh,Wh)を個別ニューラルネットワークa(アテンション)に入力し、出力層のベクトルをシグモイド関数、ReLU、softmax関数などの活性化関数に入力して正規化し、足し合わせることで、係数αi,jを導出する。個別ニューラルネットワークaは、解析対象となる事象について予めパラメータ等が求められたものである。
ニューラルネットワーク生成装置100は、上記の規則に従いつつ、ニューラルネットワークの目的に沿うようにニューラルネットワークのパラメータ(W、αi,j)を決定する。ニューラルネットワークの目的とは、想定ノードANを現在の状態とした場合に将来の状態を出力することであり、または状態を評価するための指標を出力することであり、あるいは現在の状態を分類することである。
次に、情報処理装置1の構成例を説明する。
図9は、実施形態に係る情報処理装置1の構成例を示すブロック図である。図9のように、情報処理装置1は、管理機能部11、グラフコンボリューションニューラルネット12、強化学習部13、操作部14、画像処理部15、および提示部16を備える。管理機能部11は、メタグラフ構造系列管理機能部111、コンボリューション関数管理機能部112およびニューラルネット管理機能部113を備える。また、情報処理装置1には、環境2と表示装置3が接続されている。
環境2は、例えば、シミュレータ、サーバー装置、データベース、パーソナルコンピュータ等である。環境2は、行動としての変更案が情報処理装置1から入力される。環境は、その変更を織り込んだ状態を算出、報酬を計算して情報処理装置1に返す。
表示装置3は、例えば液晶表示装置である。表示装置3は、情報処理装置1が出力する画像を表示する。
情報処理装置1は、上述したニューラルネットワーク生成装置100の機能を備え、グラフニューラルネットワークの構築と、機械学習による更新を行う。例えば、管理機能部11が、ニューラルネットワーク生成装置100の機能を備えるようにしてもよい。なお、グラフニューラルネットワークは、予め生成されたものであってもよい。情報処理装置1は、環境2から取得した変更案に基づくニューラルネット変更を施して価値関数(Value)値を推測し、環境からフィードバックされた報酬に基づくTD(Temporal Difference)計算等の強化学習処理を行う。情報処理装置1は、強化学習した結果に基づき、コンボリューション関数等の係数パラメータを更新する。なお、コンボリューションネットワークは、各設備対応するコンボリューション関数を接続して構成される多層ニューラルネットワークであってもよい。また、各コンボリューション関数は、必要に応じてアテンション処理を含んでもよい。なお、モデルは、ニューラルネットワークに限らず、例えばサポートベクターマシン等であってもよい。
メタグラフ構造系列管理機能部111は、環境2からの「状態信号」、その一部として設備変更を反映した変更情報信号を取得する。メタグラフ構造系列管理機能部111は、変更情報信号を取得した際、対応する新たなシステム構成に対応するメタグラフ構造を定義し、対応するニューラルネットワーク構造を策定する。この際、メタグラフ構造系列管理機能部111は、変更案の必要な価値関数や方策関数の評価値推定計算を効率よく処理するニューラルネット構造を策定する。また、メタグラフ構造系列管理機能部111は、変更箇所に対応するコンボリューション関数をコンボリューション関数管理機能部112から参照し、コンボリューション関数集合から実際のシステム構成に相当するメタグラフを構成する。そして、メタグラフ構造系列管理機能部111は、設備変更に相当するメタグラフ構造の変更(行動に対応して、グラフ構造更新、”候補ノード”設定等)を行う。メタグラフ構造系列管理機能部111は、ノードとエッジに属性を対応付けて定義、管理する。また、メタグラフ構造系列管理機能部111は、上述したニューラルネットワーク生成装置100の機能の一部を備える。また、メタグラフ構造系列管理機能部111は、「定義部」の一例である。
コンボリューション関数管理機能部112は、設備種に対応するコンボリューション関数の定義機能と、コンボリューション関数のパラメータ更新機能とを備える。コンボリューション関数管理機能部112は、部分メタブラフ構造と対応するコンボリューションモジュール、あるいはアテンションモジュールを管理する。コンボリューション関数管理機能部112は、システムの構造を表すグラフ構造のデータに基づいて、前記グラフ構造のデータを表すモデルに関するコンボリューション関数を定義する。なお、部分メタブラフ構造は、各設備種別ノード、あるいはエッジに対応する個別のコンボリューション関数のライブラリー機能である。コンボリューション関数管理機能部112は、学習過程において、個々のコンボリューション関数のパラメータを更新していく。また、コンボリューション関数管理機能部112は、上述したニューラルネットワーク生成装置100の機能の一部を備える。また、コンボリューション関数管理機能部112は、「定義部」の一例である。
ニューラルネット管理機能部113は、メタグラフ構造系列管理機能部111が策定したニューラルネットワーク構造と、コンボリューション関数管理機能部112が管理する部分メタブラフ構造と対応するコンボリューションモジュールあるいはアテンションモジュールを取得する。ニューラルネット管理機能部113は、メタグラフを多層ニューラルネットワークに変換する機能、強化学習に必要な関数のニューラルネットの出力関数定義機能、および上記コンボリューション関数あるいはニューラルネットワークのパラメータセットの更新機能を備える。なお、強化学習に必要な関数は、例えば、報酬関数、方策関数等である。また、出力関数定義とは、例えば、コンボリューション関数の出力を入力とするフルコネクト・多層ニューラルネットワーク等である。なお、フルコネクトとは、各入力が他のすべての入力と接続している形態である。また、ニューラルネット管理機能部113は、上述したニューラルネットワーク生成装置100の機能の一部を備える。また、ニューラルネット管理機能部113は、「評価部」の一例である。
グラフコンボリューションニューラルネット12は、例えば、深層ニューラルネットワークとして多種類コンボリューションで構成されるアテンション型グラフコンボリューションネットワークを記憶する。
強化学習部13は、グラフコンボリューションニューラルネット12が構築したグラフコンボリューションニューラルネットと環境が出力した状態や報酬を用いて強化学習を行う。強化学習部13は、強化学習した結果に基づいてパラメータを変更し、変更したパラメータをコンボリューション関数管理機能部112に出力する。なお、強化学習方法は後述する。
操作部14は、キーボード、マウス、表示装置3上に設けられているタッチパネルセンサ等である。操作部14は、利用者の操作を検出し、検出した操作結果を画像処理部15に出力する。
画像処理部15は、操作結果に応じて、評価環境に関する画像と、評価結果に関する画像を生成し、生成した画像を評価環境に関する画像と評価結果に関する画像を提示部16に出力する。評価環境に関する画像と、評価結果に関する画像については後述する。
提示部16は、画像処理部15が出力する画像を、環境2と表示装置3に出力する。
次に、設備のアテンション、コンボリューションモデルに基づいて、設備の変更計画系列の定式化を説明する。図10は、本実施形態に係るコンボリューション処理とアテンション処理のマッピング例を示す図である。
まず、実システムをグラフ構造で表す(S1)。次にグラフ構造からエッジ種別、関数属性を設定する(S2)。次に、メタグラフで表す(S3)。次に、ネットワークマッピングを行う(S4)。
符号g20は、ネットワークマッピングの例である。符号g21は、エッジコンボリューションモジュールである。符号g22は、グラフアテンションモジュールである。符号g23は、時系列認識モジュールである。符号g24は、状態価値関数V(s)推定モジュールである。符号g25は、行動確率p(a|s)算出モジュールである。
ここで、設備変更計画問題は、強化学習の問題として定義できる。すなわち、設備変更計画問題は、グラフ構造と各ノード、エッジ(設備)のパラメータを状態、設備の追加や削除を行動、得られる収益や費用を報酬とすることで、強化学習問題として定義することができる。
メタグラフ構造系列管理機能部111が行う変更の選択管理例を説明する。図11は、メタグラフ構造系列管理機能部111が行う変更の選択管理例を説明するための図である。
ここでは、初期(t=0)状態として、符号g31のような4ノードのグラフ構造を考える。
この状態から、次の時刻t=1の変更候補としては、中段の符号g41,g42,…,g4nのようにn(nは1以上の整数)個の選択肢が考えられる。
それらの選択肢毎に、次時刻t=2の選択肢が派生する。符号g51,g52,…は、符号g43のグラフ構造からの選択肢例を表す。
このように選択系列は、変更を反映したメタグラフの系列、つまりノード変更の系列として表現される。実施形態では、このような系列の中からポリシーに適合するものを抽出する手段として強化学習を用いる。
実施形態では、このように、情報処理装置1によって構成されたグラフニューラルネットは環境側のシステム構成に常に対応づいている。そして、情報処理装置1は、環境側の評価結果として、新たな状態S、それに基づいて求められる報酬値、とニューラルネット側で推定される価値関数、および、方策関数によって強化学習を進める。
(第1の実施形態)
情報処理装置1が行う学習方法例を説明する。ここでは、学習方式としてA3C(Asynchronous Advantage Actor-Critic)を用いる例を説明するが、学習方式は、これに限らない。なお、実施形態では、選択系列の中から報酬に適合するものを抽出する手段として強化学習を用いる。また、強化学習は、例えば深層強化学習であってもよい。
図12は、本実施形態に係る情報処理装置1が行う学習方法例における情報の流れを示す図である。図12において、環境2は、外部環境DB(データベース)21、およびシステム環境22を備える。システム環境22は、物理モデル・シミュレータ221、報酬算出部222、および出力部223を備える。なお、設備種別は、コンボリューション関数によって表される。そして、システムのグラフ構造は、コンボリューション関数群のグラフ構造で表される。
外部環境DB21が格納するデータは、外部環境データ等である。環境データは、例えば設備ノードの仕様、電力システムなどでの需要データ、グラフ構造に関する情報等であり、環境状態、行動の影響を受けず、かつ、アクションの決定に影響するパラメータである。
物理モデル・シミュレータ221は、例えば潮流シミュレータ、トラヒックシミュレータ、物理モデル、関数、方程式、エミュレータ、実機などを備える。物理モデル・シミュレータ221は、必要に応じて外部環境DB21が格納するデータを取得し、取得したデータと物理モデルを用いて、シミュレーションを行う。物理モデル・シミュレータ221は、シミュレーション結果(S,A,S’)を報酬算出部222に出力する。Sはシステムの状態(Last State)であり、Aは抽出された行動であり、S’はシステムの新たな状態である。
報酬算出部222は、物理モデル・シミュレータ221から取得したシミュレーション結果(S,A,S’)を用いて報酬値Rを算出する。なお、報酬値Rの算出方法については後述する。また、報酬値Rは、例えば{(R,a),…,(R,a)}である。ここで、Tは、設備計画検討期間である。また、a(pは1からTの整数)は、各ノードであり、例えばaは1番目のノードであり、aはp番目のノードである。
出力部223は、システムの新たな状態S’をシステムの状態Sとし、システムの状態Sと報酬値Rを情報処理装置1に出力する。
管理機能部11のニューラルネット管理機能部113は、環境2が出力するシステムの状態Sを、グラフコンボリューションニューラルネット12が記憶するニューラルネットに入力して方策関数π(・|S,θ)と状態価値関数V(S,w)を求める。ここで、wは、ノードが持つ属性次元に対応する重み係数行列(コンボリューション項ともいう)である。ニューラルネット管理機能部113は、次式(3)を用いて次のステップでの行動(設備変更)Aを決定する。
Figure 0007242508000003
ニューラルネット管理機能部113は、決定した次のステップでの行動(設備変更)Aを環境2に出力する。すなわち、方策関数π(・|S,θ)は、検討対象のシステムの状態Sが入力され、行動(アクション)を出力する。また、ニューラルネット管理機能部113は、求めた状態価値関数V(S,w)を強化学習部13に出力する。なお、行動を選択する方策関数π(・|S,θ)はメタグラフ構造変更の行動候補の確率分布として与えられる。
このように、ニューラルネット管理機能部113は、ニューラルネットワークに対してシステムの状態を入力し、ニューラルネットに対して時間ステップ毎に想定し得る構造変化を生じさせた一以上の変更後モデルの体系について、時間ステップ毎に方策関数と強化学習に必要な状態価値関数とを求め、方策関数に基づいてシステムの構造変化を評価する。なお、ニューラルネット管理機能部113は、システムの構造変化の計画、または設備変更計画を評価するようにしてもよい。
強化学習部13には、管理機能部11が出力する状態価値関数V(S,w)と、環境2が出力する報酬値Rが入力される。強化学習部13は、入力された状態価値関数V(S,w)と報酬値Rを用いて、例えばA3C等の機械学習方法によって強化機械学習を、行動(アクション)の系列を設備計画検討期間(T)に相当する回数繰り返す。強化学習部13は、強化機械学習した結果得られたパラメータ<ΔW>π,<Δθ>πを管理機能部11に出力する。
コンボリューション関数管理機能部112は、強化学習部13が出力するパラメータに基づいて、コンボリューション関数のパラメータを更新する。
ニューラルネット管理機能部113は、更新されたパラメータ<ΔW>π,<Δθ>πをニューラルネットワークに反映して、パラメータを反映したニューラルネットワークに対して評価を行う。
なお、次の行動の選択において、管理機能部11は、上述した候補ノード(図4、図5参照)を用いても、用いなくてもよい。
次に、報酬関数の例を説明する。
報酬関数の第1例は、(バイアス)-(設備設置、廃棄、運営、保守コスト)である。
報酬関数の第1例は、設備毎にコストをモデル化(関数)にして、バイアスから引くことで正の報酬値として定義するようにしてもよい。なお、バイアスとは、報酬関数値が正値になるように適宜一定の正値として設定されるパラメータである。
報酬関数の第2例は、(バイアス)-(リスクコスト)である、設備構成によっては、物理的なシステム条件を満たさない場合がある。条件を満たさない場合とは、例えば、連結条件が成り立たない、フローがアンバランス、出力条件が満たされない等である。このような大きなリスクを発生する場合は、負の大きな報酬(リスク)を課すようにしてもよい。
報酬関数の第3例は、報酬関数の第1例~第3例の組み合わせるようにしてもよい。
このように、本実施形態では、第1例~第3例のように色々な報酬関数の設計を行うことが出来る。
(第2の実施形態)
本実施形態では、候補ノードを用いて次の行動を選択する例を説明する。
メタグラフ構造系列管理機能部111は、候補ノード処理機能を使ってもよい。本実施形態では、次の行動(アクション)候補として設備ノード追加の可能性のある関数を候補的にメタグラフに接続して、複数の行動候補に対する価値推定を並列に実行する方法を説明する。なお、情報処理装置1の構成は、第1の実施形態と同様である。
アテンション型のニューラルネットワークの特徴としては、ノードが追加されても、そのノードに対応する学習済み畳込み関数をニューラルネットワークに追加することで、再学習せずに追加の効果の効率的な分析・評価ができる。この理由は、グラフアテンションネットワークに基づいたグラフ構造ニューラルネットの構成要素が畳込み関数として表現され、全体がその関数群のグラフ接続として表現されるためである。すなわち、候補ノードを用いる場合は、システム全体を表現するニューラルネットワークと、追加されたノードを構成するコンボリューション関数に分解して管理できる。
図13は、本実施形態に係る候補ノード処理機能の例を説明するための図である。符号g101はステップtにおけるメタグラフであり、符号g102はステップtにおけるニューラルネットである。符号g111はステップt+1におけるメタグラフであり、符号g102はステップt+1におけるニューラルネットである。
管理機能部11は、変更候補として追加の可能性を評価するには、図13の符号g111のように一方向性の接続を用いて候補的にメタグラフに接続する。これにより、管理機能部11は、候補ノードを一方向性の接続のコンボリューション関数として扱う。
管理機能部11は、ノードT1を追加した場合の価値を評価するため、符号g112のようにノードB1,B2からT1への一方向性接続で結合し、T1,T1ノードに紐づいた価値計算(方策関数、状態価値関数)を並列して実行する。また、符号g1121はT1の報酬差分であり、符号g1122はT1追加の報酬差分である。符号g112の二次元行動の報酬値の推定は、並列に実行することができる。
これにより、本実施形態では、ノード(T1,T1)の組み合せとして、{(有、有)、(有、無)、(無、有)、(無、無)}の4つの組合せを同時に評価することができる。この結果、本実施形態によれば、並列に評価することができるので、演算を高速で実行することができる。
図14は、候補ノードを使った並列価値推定を説明するための図である。符号g151は、ステップtにおける状態Sのメタグラフである。符号g161は、ステップt+1における行動Aによる状態S(有、無)のメタグラフである。符号g162は、ステップt+1における行動Aによる状態S(有、有)のメタグラフである。符号g163は、ステップt+1における行動Aによる状態S(無、有)のメタグラフである。符号g164は、ステップt+1における行動Aによる状態S(無、無)のメタグラフである。符号g171は、状態Sに候補ノードT1を仮想的に接続したメタグラフである。
なお、図14では、ステップtで状態Sにあるシステムにおいて、B1,B2間のノードについて増設、維持のうちの行動を選べるとする。管理機能部11は、この条件において、どの選択肢が高い報酬を得られるかに基づいて、選択肢を決定する。
ここで4つの組み合せのうち、S(無、無)のケースは、システム的にB1,B2間が非連結となりシステムとしては成立しない。この場合、管理機能部11は、大きなリスクコスト(ペナルティ)を発生させる。また、この場合、管理機能部11は、状態S1からS4それぞれについて、ニューラルネットワークからの価値関数値と方策関数に基づいて強化学習を並列に実行する。
(第3の実施形態)
本実施形態では、計画系列案をサンプリングする処理の並列処理を行う例を説明する。なお、情報処理装置1の構成は、第1の実施形態と同様である。
図15は、本実施形態に係る設備変更計画案(推論)計算の流れを説明するための図である。図15は、A3C学習機能により獲得された方策関数を用いて、学習とは異なる外部環境データの場合での設備変更計画(変更系列)案を作成する主な計算処理と信号の流れを例示している。
情報処理装置1は、獲得した設備毎コンボリューション関数を用いて計画案をサンプリングする。そして、情報処理装置1は、例えば累積スコアの順に計画案を出力する。累積スコアの順は、例えばコストが安い順等である。
外部環境DB21には、例えば電力システムでの需要データ、設備仕様に係るデータ、あるいは、システムのグラフ構造など学習データとは異なる外部環境データセット等が格納されている。
学習済コンボリューション関数(学習済パラメータ:θπ)を用いて構成されたグラフニューラルネットにより方策関数が構成されている。
システムの状態Sを入力として、次のステップでの行動(設備ノード変更)を、次式(4)を用いて決定する。
Figure 0007242508000004
管理機能部11は、式(4)により、状態に応じた方策関数(各行動毎の確率分布)に基づいて方策を抽出する。管理機能部11は、抽出したアクションAをシステム環境に入力して新たな状態S’とそれに伴う報酬値Rを計算する。新たな状態S’は、次のステップを決めるための入力として使われる。報酬は、検討期間に亘って累積される。管理機能部11は、この操作を検討期間に相当するステップ分繰返し実行し、各累積報酬スコア(G)を求める。
図16は、並列推論処理を説明するための図である。
検討期間を通しての一連の変更計画系列が一つの設備変更計画に相当する。その計画に対応する累積報酬スコアが求まる。このように求められた計画案とそのスコアの組合の集合が計画案候補集合となる。
まず、管理機能部11は、エピソード単位に、学習により獲得された方策関数から計画(アクション系列{at}t)をサンプルし、スコアを求める。
次に、管理機能部11は、例えばargmax関数で選択して、各試行(テスト)結果のG値のうち最大のテストに対応する計画{A1,…,AT}を抽出する。管理機能部11は、さらに上位の計画を抽出することもできる。
本実施形態によれば、一つ一つの計画系列案をサンプリングする処理(図16ではN回)を、並列処理することができる。
なお、方策関数を並列で処理するには、出力層での規格化が必要である。規格化には、例えば次式(5)を用いる。
Figure 0007242508000005
式(5)において、preference関数は、対象の出力ノードに対して、係数θとベクトルxの積π(s,a,θ)である。
ここで、多次元の行動(アクション)を扱う場合を説明する。
行動空間が二次元空間であるとすると、a=(a,a)で2つの空間の直積として考え、次式(6)のように表すことができる。なお、aは1番目のノードであり、aは2番目のノードである。
Figure 0007242508000006
すなわち、preference関数は、個別の空間について計算して加算すればよい。このように、個々のpreference関数は、元になるシステムの状態sが同じであれば、並列して計算することができる。
図17は、推論全体の機能構成例を示す図である。なお、計算処理の流れは、上述した図15である。
設備ノード更新方策モデルg201は、学習済みの方策関数であり、前述の過程で学習されたステップ毎の行動選択確率分布を示す。
課題設定機能g202は、初期のシステム構成、各ノードパラメータ初期化、外部環境データ、テストデータ、コストモデルなど課題定義、設定機能である。
課題定式化機能g203は、上記、課題設定機能で定義された課題と、更新方策モデルとして使用する学習済方策関数を強化学習の定式化に対応づける機能。検討期間(エピソード)、ポリシー(累積コスト最小化、平準化)、アクション空間、環境状態空間、評価スコア関数定式化(定義)などが含まれる。
変更系列サンプル抽出・累積スコア評価機能g204は、定義された環境、エージェントの環境で学習済方策関数からアクション系列を必要数生起しサンプルとする。
最適累積スコア計画・表示機能g205は、サンプル集合の中から、最適なスコアのサンプルを選択、あるいはスコア順序にサンプルをならべて提示する。
機能設定UIg206は、各機能部の設定を行うユーザーインタフェースである。
次に、設備変更計画案の具体的な計算事例を説明する。
ここでは、以下のような課題に対して実施形態の手法を適用した例を説明する。評価用電力系統システムモデルとして、図1に示したIEEE Case 14(Electrical Engineering, U. of Washington)を用いた。
課題は、一連の30ステップの設備更新系列で累積コスト最小の計画案を探索する。初期状態は、図1のようにバス間に同じ仕様の変圧器(T_x)が計9台配備されている。条件は、図1にあるように、バスB5-B6間、B4-B9間、B7-B9間、B4-B7間の変圧器について、ステップ毎に1ノードについて“追加”、“廃棄”、“そのまま”の3つのアクションのうち一つを選択できる。つまり、3×3×3×3=81通りの行動空間である。
考慮するコストは、変圧器の設備ノード毎に設置コスト、時間経過と負荷電力値に応じたコスト、設備変更によって環境の成立条件が困難になるようであれば大きなペナルティ値をコストして課す。なお、環境の成立条件とは、例えば、パワーフローバランス等である。
課題のポイントは以下である。
I.系統システムモデル;IEEE Case14
II.課題;IEEE Case14変圧器の新設、削除の設備変更計画を計画期間(30更新機会)に亘って最小コストになるよう立案する。
III.条件;
III-1;初期状態:バス間に同じ仕様の変圧器(V_x)が配備されている。
III-2;各変圧器設備の運営コストは、以下の3種コスト(設置コスト、維持コスト、リスクコスト)の(加重)和とする。
・設置コスト;一過性コスト
・維持コスト;時間経過と負荷電力値に応じたコスト
・リスクコスト;万一システムダウンした場合の被害コスト(大きい)
IV.強化学習の報酬;(報酬)=(報酬バイアス)-(運営コスト)
・強化学習のアクションは、定期的に各変圧器のうち一つについて、設備戦略選択肢(増設、廃棄、何もしない)のうちから1つを選ぶ
V.需要負荷曲線はY年のデータ
VI.発電機、ラインの仕様はIEEEモデル
VII.評価(推論);Y年の翌年の電力需要データに対応する設備変更計画立案
図18は、電力系統の設備変更計画における設備の廃棄、新設、交換それぞれのコスト例を示す図である。このように、各コストをさらに分類し、コスト毎にコスト係数を設定するようにしてもよい。例えば、変圧器追加コストは、一時的なコストであり、コスト係数が0.1である。また、変圧器撤去コストは、一時的なコストであり、コスト係数が0.01である。このようなコストの分類、コスト係数の設定は、予め設定しておく。コストの分類や設定は、例えば過去に実際に行われた作業に基づいて、システムの設計者が設定するようにしてもよい。実施形態では、このように設備毎の設置コスト、運営・保守コストを関数として組み込む。
上述した課題について、A3C学習を行った結果の学習曲線を図19に示す。図19は、電力システムの設備変更計画問題の学習曲線を示す図である。図19において、横軸は学習更新ステップ数であり、縦軸は上述した累積報酬値に相当する。また、符号g301は、平均値の学習曲線である。符号g302は、中央値の学習曲線である。符号g303は、比較用のランダムな計画の平均値である。符号g304は、比較用のランダムな計画の中央値である。図19は、学習ステップ毎に更新された方策関数に基づいて設備変更計画をサンプルとして生成し、そのサンプル集合の累積報酬値の平均値と中央値を示している。図19のように、学習により、よりスコアの高い戦略が得られていることがわかる。
図20は、学習ステップ毎のエントロピーの評価を示す図である。なお、図10に示したエントロピーは、同じシステム構成におけるランダム方策との相互エントロピーである。図20において、横軸は学習更新ステップ数であり、縦軸はエントロピーの平均値である。学習行進ステップ数が10万回を超えた後、エントロピーの平均値が-0.05から-0.09程度の範囲に収まっている。
なお、学習過程としての進捗は学習曲線で把握できるが、実際の設備変更計画案は、この学習過程で獲得された方策関数で生起させる必要がある。このため、1000個の計画案とその各々の案の累積報酬値を算出し、その系列の中から、選択ポリシーとして累積報酬値の最小値を実現する計画案、あるいは最小値累積報酬値のうち、上位3件を抽出する、など選択基準を設定できる。
なお、情報処理装置1は、方策に基づいて計画案を作る際、方策関数に基づいて、検討期間分の計画変更案を発生し、累積報酬値を紐づけて管理(例えばPlan:{A~π(・|S)}→G)する。
図21は、生起した計画案の中から、累積コストが最小になる具体的な計画案を示す図である。各行は個別の設備ノードであり、各列は変更タイミング(例えば一週間毎)を示す。図21において、また、“右向き方向の矢印”は何もしないを表し、“撤去”は設備の廃棄または撤去を表し、“新規”は設備の追加を表す。
図21では、初期状態0から29更新機会(29週)までの一連の設備毎の行動系列を示している。初期状態として9設備あったノードが、系列が進むにしたがって削除、追加といった変更系列を示す。図21に示す例のように、タイミング毎のシステム全体のコストも提示することで、この累積値が他の計画案よりも小さいことを、利用者が理解しやすくなる。
図22は、表示装置3上に表示される画像例を示す図である。
符号g401の画像は、評価対象システムをメタグラフで表す画像例である。符号g402の画像は、対応実システムの回路図の画像である。符号g403の画像は、評価対象システムをニューラルネット構造で表した画像例である。符号g404の画像は、累積コストのうち、コストが安い上位3位の計画を表す画像例である。符号g405の画像は、累積最小コストが1位の具体的な設備変更計画を表す画像例(例えば図21)である。
このように、実施形態では、サンプル計画集合の中から、条件を満たしてスコアの良いもの(コストが安いもの)を抽出する。なお、抽出する件数は、図22のように上位複数件を選んで表示してもよい。また、計画案としては、サンプル毎に設備変更案を系列表示する。
このように、情報処理装置1は、システムのメタグラフ表示や計画案を表示装置3(図1)上に表示させる。情報処理装置1は、サンプル計画集合の中から、条件を満たしてスコアの良いものを抽出し、上位複数件を選んで表示してもよい。情報処理装置1は、計画案としては、サンプル毎に設備変更案を系列表示するようにしてもよい。情報処理装置1は、問題設定から環境の設定、学習関数の設定、学習による方策関数の獲得、獲得された方策関数を使った、推論、すなわち設備変更計画案の策定、これらの状況を、利用者が操作部14を操作した操作結果に応じて表示するようにしてもよい。なお、表示する画像は、グラフ、表等の画像であってもよい。
利用者は、表示された計画案やコストなどを画像やグラフ等を確認することで、環境や状況に応じた最適な計画案を採用することができる。
次に、平準化、パラメータ変更などの抽出フィルターについて説明する。情報処理装置1は、最適計画抽出において、平準化、パラメータ変更などの抽出フィルターを用いてもよい。
第1の抽出例は、その集合Mの中から、平準化の設定レベルを満たすものから計画案とする。第2の抽出例は、コスト関数の係数を変更して計画案を作る。第2の抽出例では、例えば係数依存性の評価などを行う。第3の抽出例は、各設備の初期状態を変えて計画案を作る。第3の抽出例では、例えば初期状態依存性(検討期間初期の経年履歴など)評価を行う。
以上説明した少なくともひとつの実施形態によれば、コンボリューション関数管理機能部とメタグラフ構造系列管理機能部とニューラルネット管理機能部と強化学習部を持つことにより、社会インフラの変更案を作成することができる。
また、以上説明した少なくともひとつの実施形態によれば、システムに候補ノードを接続したニューラルネットワークを用いて、接続されたノードと候補ノードとの組み合わせを並列処理で評価することで、より高速な処理を行うことができる。
また、以上説明した少なくともひとつの実施形態によれば、スコアのよい計画案を表示装置3に提示するようにしたので、利用者が計画案を検討しやすくなる。
なお、ニューラルネットワーク生成装置100、情報処理装置1の機能部は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めHDD(Hard Disk Drive)やフラッシュメモリなどの記憶装置に格納されていてもよいし、DVDやCD-ROMなどの着脱可能な記憶媒体に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
100…ニューラルネットワーク生成装置、1…情報処理装置、11…管理機能部、12…グラフコンボリューションニューラルネット、13…強化学習部、14…操作部、15…画像処理部、16…提示部、111…メタグラフ構造系列管理機能部、112…コンボリューション関数管理機能部、113…ニューラルネット管理機能部、2…環境、3…表示装置、S…システムの状態、S’…システムの新たな状態、A…行動

Claims (8)

  1. ノードとエッジに属性が対応付けられて定義され、システムの構造を表すグラフ構造のデータに基づいて、前記グラフ構造のデータを表すモデルに関するコンボリューション関数を定義する定義部と、
    前記モデルに対して前記システムの状態を入力し、前記モデルに対して時間ステップ毎に想定し得る構造変化を生じさせた一以上の変更後モデルの体系について、前記時間ステップ毎に前記構造変化の確率分布として与えられる方策関数と強化学習に必要な状態価値関数とを求め、前記方策関数に基づいて前記システムの構造変化を評価する評価部と、
    前記構造変化を前記システムに適用した場合に生じるコストである報酬値と、前記状態価値関数と、前記モデルとを用いて強化学習を行うことで、前記システムの構造変化を最適化する強化学習部と、
    を備える情報処理装置。
  2. 前記定義部は、
    前記システムが有する設備の設備種別に応じたコンボリューション関数を定義する、
    請求項1に記載の情報処理装置。
  3. 前記強化学習部は、
    前記強化学習を行った結果得られた前記コンボリューション関数の係数であるパラメータを前記定義部に出力し、
    前記定義部は、
    前記強化学習部が出力する前記パラメータに基づいて、前記コンボリューション関数のパラメータを更新し、
    前記評価部は、
    更新された前記パラメータを前記モデルに反映して、前記パラメータを反映した前記モデルに対して評価を行う、
    請求項1または請求項2に記載の情報処理装置。
  4. 前記定義部は、
    前記システムに前記構造変化の候補を、候補ノードとして前記グラフ構造に組み込み、前記候補ノードを、一方向性接続の前記コンボリューション関数として構成し、
    前記評価部は、
    前記一方向性接続の前記コンボリューション関数を用いて前記モデルを構成する、
    請求項1から請求項3のいずれか1項に記載の情報処理装置。
  5. 前記評価部は、
    前記グラフ構造に前記候補ノードを接続した前記モデルを用いて、前記候補ノードが接続されたノードと、前記候補ノードとの組み合わせ毎の前記モデルに対して並列処理で評価する、
    請求項4に記載の情報処理装置。
  6. 前記評価部が評価した前記システムの構造変化を、前記システムの構造変化に関するコストとともに提示する提示部、をさらに備える、
    請求項1から請求項5のいずれか1項に記載の情報処理装置。
  7. コンピュータに、
    ノードとエッジに属性が対応付けられて定義され、システムの構造を表すグラフ構造のデータに基づいて、前記グラフ構造のデータを表すモデルに関するコンボリューション関数を定義させ、
    前記モデルに対して前記システムの状態を入力させ、前記モデルに対して時間ステップ毎に想定し得る構造変化を生じさせた一以上の変更後モデルの体系について、前記時間ステップ毎に前記構造変化の確率分布として与えられる方策関数と強化学習に必要な状態価値関数とを求めさせ、前記方策関数に基づいて前記システムの構造変化を評価させ、
    前記構造変化を前記システムに適用した場合に生じるコストである報酬値と、前記状態価値関数と、前記モデルとを用いて強化学習を行わせることで、前記システムの構造変化を最適化させる、
    情報処理方法。
  8. コンピュータに、
    ノードとエッジに属性が対応付けられて定義され、システムの構造を表すグラフ構造のデータに基づいて、前記グラフ構造のデータを表すモデルに関するコンボリューション関数を定義させ、
    前記モデルに対して前記システムの状態を入力させ、前記モデルに対して時間ステップ毎に想定し得る構造変化を生じさせた一以上の変更後モデルの体系について、前記時間ステップ毎に前記構造変化の確率分布として与えられる方策関数と強化学習に必要な状態価値関数とを求めさせ、前記方策関数に基づいて前記システムの構造変化を評価させ、
    前記構造変化を前記システムに適用した場合に生じるコストである報酬値と、前記状態価値関数と、前記モデルとを用いて強化学習を行わせることで、前記システムの構造変化を最適化させる、
    プログラム。
JP2019196584A 2019-10-29 2019-10-29 情報処理装置、情報処理方法、およびプログラム Active JP7242508B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019196584A JP7242508B2 (ja) 2019-10-29 2019-10-29 情報処理装置、情報処理方法、およびプログラム
CN202011146544.0A CN112749785A (zh) 2019-10-29 2020-10-23 信息处理装置、信息处理方法以及程序
US17/082,738 US20210125067A1 (en) 2019-10-29 2020-10-28 Information processing device, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019196584A JP7242508B2 (ja) 2019-10-29 2019-10-29 情報処理装置、情報処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2021071791A JP2021071791A (ja) 2021-05-06
JP7242508B2 true JP7242508B2 (ja) 2023-03-20

Family

ID=75585266

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019196584A Active JP7242508B2 (ja) 2019-10-29 2019-10-29 情報処理装置、情報処理方法、およびプログラム

Country Status (3)

Country Link
US (1) US20210125067A1 (ja)
JP (1) JP7242508B2 (ja)
CN (1) CN112749785A (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210232913A1 (en) * 2020-01-27 2021-07-29 Honda Motor Co., Ltd. Interpretable autonomous driving system and method thereof
EP4310747A1 (en) * 2021-03-18 2024-01-24 Toshiba Energy Systems & Solutions Corporation Information processing device, information processing method, and program
JP7435533B2 (ja) 2021-04-21 2024-02-21 株式会社デンソー バルブ装置
CN113392781A (zh) * 2021-06-18 2021-09-14 山东浪潮科学研究院有限公司 一种基于图神经网络的视频情感语义分析方法
FR3139007A1 (fr) 2022-08-23 2024-03-01 L'oreal Composition convenant pour des traitements cosmétiques de substance kératineuse
CN116205232B (zh) * 2023-02-28 2023-09-01 之江实验室 一种确定目标模型的方法、装置、存储介质及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080077368A1 (en) 2006-04-12 2008-03-27 Edsa Micro Corporation Automatic real-time optimization and intelligent control of electrical power distribution and transmission systems
US20170061276A1 (en) 2015-09-01 2017-03-02 Google Inc. Neural network for processing graph data
JP2020178403A (ja) 2019-04-16 2020-10-29 株式会社日立製作所 系統計画支援装置及び系統計画支援方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106296044B (zh) * 2016-10-08 2023-08-25 南方电网科学研究院有限责任公司 电力系统风险调度方法和系统
WO2018101476A1 (ja) * 2016-12-01 2018-06-07 株式会社グリッド 情報処理装置、情報処理方法及び情報処理プログラム
JP6788555B2 (ja) * 2017-08-07 2020-11-25 株式会社東芝 情報処理システム、情報処理装置、及び情報処理方法
JP6897446B2 (ja) * 2017-09-19 2021-06-30 富士通株式会社 探索方法、探索プログラムおよび探索装置
US11710033B2 (en) * 2018-06-12 2023-07-25 Bank Of America Corporation Unsupervised machine learning system to automate functions on a graph structure
CN109635917B (zh) * 2018-10-17 2020-08-25 北京大学 一种多智能体合作决策及训练方法
US11544535B2 (en) * 2019-03-08 2023-01-03 Adobe Inc. Graph convolutional networks with motif-based attention

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080077368A1 (en) 2006-04-12 2008-03-27 Edsa Micro Corporation Automatic real-time optimization and intelligent control of electrical power distribution and transmission systems
US20170061276A1 (en) 2015-09-01 2017-03-02 Google Inc. Neural network for processing graph data
JP2020178403A (ja) 2019-04-16 2020-10-29 株式会社日立製作所 系統計画支援装置及び系統計画支援方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
伊藤 秀将 ほか,グラフ構造深層強化学習による電力系統制御,FIT2019 第18回情報科学技術フォーラム 講演論文集 第2分冊,日本,一般社団法人 情報処理学会,2019年08月20日,F-012,p.277-281

Also Published As

Publication number Publication date
US20210125067A1 (en) 2021-04-29
JP2021071791A (ja) 2021-05-06
CN112749785A (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
JP7242508B2 (ja) 情報処理装置、情報処理方法、およびプログラム
Moonchai et al. Short-term forecasting of renewable energy consumption: Augmentation of a modified grey model with a Kalman filter
Lan et al. AI-based autonomous line flow control via topology adjustment for maximizing time-series ATCs
Mack et al. Surrogate model-based optimization framework: a case study in aerospace design
US7536364B2 (en) Method and system for performing model-based multi-objective asset optimization and decision-making
JP5768834B2 (ja) プラントモデル管理装置及び方法
JP7271216B2 (ja) 情報処理装置、情報処理方法、およびプログラム
Lagaros et al. Neurocomputing strategies for solving reliability‐robust design optimization problems
Sun et al. Exploration of energy saving potential in China power industry based on Adaboost back propagation neural network
Chang et al. A latent information function to extend domain attributes to improve the accuracy of small-data-set forecasting
WO2020145039A1 (ja) データ生成装置、予測器学習装置、データ生成方法、及び学習方法
KR101966558B1 (ko) 장비 재고상태 및 수리부속 조달 요구를 시각화하는 시스템 및 방법
Wang et al. Reliability analysis of complex electromechanical systems: State of the art, challenges, and prospects
JP2020178403A (ja) 系統計画支援装置及び系統計画支援方法
Wang et al. Research on integrating different methods of neural networks with case-based reasoning and rule-based system to infer causes of notebook computer breakdown
JP7060130B1 (ja) 運用支援装置、運用支援方法及びプログラム
US20210373987A1 (en) Reinforcement learning approach to root cause analysis
Rahman et al. A Reinforcement Learning Approach to Predicting Human Design Actions Using a Data-Driven Reward Formulation
JP6984265B2 (ja) 情報処理装置、情報処理方法、および、プログラム
JP7399724B2 (ja) 情報処理装置、情報処理方法、およびプログラム
Gajzler Hybrid advisory systems and the possibilities of it usage in the process of industrial flooring repairs
WO2022195807A1 (ja) 情報処理装置、情報処理方法、およびプログラム
Tsirikoglou et al. Optimization in probabilistic domains: an engineering approach
CN113168589B (zh) 数据生成装置、预测器学习装置、数据生成方法和学习方法
Yeh Case–based approaches for preliminary design of steel building frames

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220324

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230308

R150 Certificate of patent or registration of utility model

Ref document number: 7242508

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150