JP7004074B2

JP7004074B2 - 学習装置、情報処理システム、学習方法、および学習プログラム

Info

Publication number: JP7004074B2
Application number: JP2020526749A
Authority: JP
Inventors: 亮太比嘉
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2018-06-26
Filing date: 2018-06-26
Publication date: 2022-01-21
Anticipated expiration: 2038-06-26
Also published as: JPWO2020003374A1; US20210264307A1; WO2020003374A1

Description

本発明は、システムの仕組みを推定するモデルを学習する学習装置、情報処理システム、学習方法、および学習プログラムに関する。

ＡＩ（Artificial intelligence ）の分野において、機械学習を行うための様々なアルゴリズムが提案されている。データ同化手法は、シミュレータを用いて現象を再現する方法であり、例えば、非線形性の高い自然現象を数値モデルによって再現する。また、他にも、大規模シミュレータのパラメータを決定したり、特徴量を抽出したりする際も、ディープラーニングなどの機械学習のアルゴリズムが用いられる。

また、状態が変化しうる環境において行動を行うエージェントについて、環境の状態に応じた適切な行動を学習する方法として、強化学習が知られている。例えば、非特許文献１には、統計力学のドメイン知識を転用することで、強化学習を効率よく行う方法が記載されている。

Adam Lipowski, et al., "Statistical mechanics approach to a reinforcement learning model with memory", Physica A vol. 388, pp. 1849-1856, 2009

ＡＩの多くは、データを用意する以前に、明確なゴールや評価基準を定める必要がある。例えば、強化学習では、行動および状態に応じた報酬を定義する必要があるが、その原理的な仕組みが分かっていなければ、報酬を定義することができない。すなわち、一般的なＡＩは、データドリブンではなく、ゴール／評価方法ドリブンであるとも言える。

具体的には、上述するような大規模シミュレータのパラメータを決定する際には、ゴールを決定する必要があり、また、データ同化手法では、そもそもシミュレータの存在を前提とする。また、ディープラーニングを用いた特徴量抽出では、どの特徴量が効くのか判断することは可能であるが、それ自体を学習する際にも、一定の評価基準が必要になる。非特許文献１に記載された方法についても同様である。

仕組みを推定することが望まれるシステムの一例として、我々の環境を取り巻く様々なインフラストラクチャ（以下、インフラと記す。）が挙げられる。例えば、通信の分野では、通信ネットワークがインフラの例として挙げられる。また、社会的なインフラとして、交通インフラや、水道インフラ、電力インフラなどが挙げられる。

これらのインフラは、時間の経過や環境の変化に応じて見直すことが望まれる。例えば、通信インフラにおいて、通信装置等が増加した場合、通信量の増加に伴って通信ネットワーク網の増強が必要になることもある。一方、例えば、水道インフラにおいて、人口減少や節水効果による水需要の減少や、施設や管路の老朽化に伴う更新コストを考慮した場合、水道インフラのダウンサイジングが必要になることもある。

上述する水道インフラのように、事業経営の効率化に向けた設備整備計画を立案するためには、将来の水需要減少や設備の更新時期などを考慮しながら、施設能力の適正化や施設の統廃合を実施する必要がある。例えば、水需要が減少している場合には、過剰に水を供給する施設のポンプを入れ替えることで水の量を減少するようにダウンサイジングすることが考えられる。他にも、配水施設そのものを廃止するとともに、別の配水施設からの管路を追加して他の区域と統合（共有化）することも考えられる。このようなダウンサイジングを行うことで、コスト削減や効率化が期待できるからである。

インフラの各構成要素を変更し、将来の設備整備計画を立案するためには、そのドメインに応じたシミュレータを準備できることが好ましい。一方、このようなインフラは、様々な要因が組み合わされたシステムとして成り立っている。言い換えると、これらのインフラの挙動をシミュレートしようとした場合、様々に組み合わされた要因の全てを考慮する必要がある。

しかし、上述するように、シミュレータを準備するためには、原理的な仕組みが分かっている必要がある。そのため、ドメインごとのシミュレータを開発する際、シミュレータ自体の使用方法の理解や、パラメータの決定、方程式の解の探索など、多大な計算時間及びコストが必要になる。また、開発されたシミュレータも特殊なものになることから、シミュレータを使いこなすためにも、さらなる教育費が必要になる。そのため、ドメイン知識を用いたシミュレータのみでは記述できない、柔軟なエンジン開発が求められている。

近年、多くのデータが採取できるようになっているが、非自明なメカニズムを有するシステムのゴールや評価方法を決定することは困難である。具体的には、データが採取できても、シミュレータがなければ活用することは難しく、シミュレータがある場合でも、観測データとどのように組み合わせることにより、システムに変化が生じているか判断することは難しい。例えば、データ同化自体でも、パラメータ探索に計算コストが必要になる。

一方で、システムの現象を観察することにより、データは逐次採取できることから、採取された多くのデータを有効に利用して、コストを低減させながら非自明な現象を表すシステムの変化を推定できることが好ましい。

そこで、本発明は、システムの仕組みが非自明であっても、取得されたデータに基づいて、システムの変化を推定できる学習装置、情報処理システム、学習方法、および学習プログラムを提供すること目的とする。

本発明による学習装置は、強化学習で対象とする問題設定として、環境の状態において取るべき行動を決定する方策を、所定の状態の確率分布を表すボルツマン分布に対応付け、環境の状態およびその状態において選択される行動により得られる報酬を決定する報酬関数を、エネルギーに対応する物理量を表す物理方程式に対応付けたモデルを設定するモデル設定部と、設定されたモデルに基づき、状態を含む学習データを用いて強化学習を行うことにより、物理方程式のパラメータを推定するパラメータ推定部と、過去に推定された物理方程式のパラメータと、新たに推定された物理方程式のパラメータとの差分を検出する差分検出部とを備えたことを特徴とする。

本発明による学習方法は、コンピュータが、強化学習で対象とする問題設定として、環境の状態において取るべき行動を決定する方策を、所定の状態の確率分布を表すボルツマン分布に対応付け、環境の状態およびその状態において選択される行動により得られる報酬を決定する報酬関数を、エネルギーに対応する物理量を表す物理方程式に対応付けたモデルを設定し、コンピュータが、設定されたモデルに基づき、状態を含む学習データを用いて強化学習を行うことにより、物理方程式のパラメータを推定し、コンピュータが、過去に推定された物理方程式のパラメータと、新たに推定された物理方程式のパラメータとの差分を検出することを特徴とする。

本発明による学習プログラムは、コンピュータに、強化学習で対象とする問題設定として、環境の状態において取るべき行動を決定する方策を、所定の状態の確率分布を表すボルツマン分布に対応付け、環境の状態およびその状態において選択される行動により得られる報酬を決定する報酬関数を、エネルギーに対応する物理量を表す物理方程式に対応付けたモデルを設定するモデル設定処理、設定されたモデルに基づき、状態を含む学習データを用いて強化学習を行うことにより、物理方程式のパラメータを推定するパラメータ推定処理、および、過去に推定された物理方程式のパラメータと、新たに推定された物理方程式のパラメータとの差分を検出する差分検出処理を実行させることを特徴とする。

本発明によれば、システムの仕組みが非自明であっても、取得されたデータに基づいて、システムの変化を推定できる。

本発明による学習装置を含む情報処理システムの一実施形態を示すブロック図である。物理シミュレータを生成する処理の例を示す説明図である。物理エンジンと実システムとの変化の関連性の例を示す説明図である。学習装置の動作例を示すフローチャートである。情報処理システムの動作例を示すフローチャートである。運動方程式の差分を出力する処理の例を示す説明図である。倒立振子の物理シミュレータの例を示す説明図である。本発明による学習装置の概要を示すブロック図である。少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。

以下、本発明の実施形態を図面を参照して説明する。以下では、システムの変化を推定する対象として、水道インフラを適宜例示しながら、本発明の実施形態を説明する。

図１は、本発明による学習装置を含む情報処理システムの一実施形態を示すブロック図である。本実施形態の情報処理システム１は、記憶部１０と、学習装置１００と、状態推定部２０と、模倣学習部３０とを備えている。

記憶部１０は、対象環境の状態を表す状態ベクトルｓ＝（ｓ_１，ｓ_２，…）と、その状態ベクトルで表される状態において行われた行動ａとを対応付けたデータ（以下、学習データと記す。）を記憶する。ここでは、一般的な強化学習で想定するように、取り得る状態が複数ある環境（以下、対象環境と記す。）、および、その環境において複数の行動を行い得る者（以下、エージェントと記す。）を想定する。なお、以下の説明では、状態ベクトルｓのことを、単に状態ｓと記すこともある。本実施形態では、対象環境とエージェントが相互作用する系を想定する。

例えば、水道インフラの場合、対象環境は、水道インフラの状態（例えば、配水ネットワーク、ポンプの能力、配水管の状態など）の集合として表される。また、エージェントは、意思決定に基づき行動を行う運用者や、外部システムに対応する。

他のエージェントの例として、例えば、自動運転車が挙げられる。この場合の対象環境は、自動運転車の状態及びその周囲の状態（例えば、周囲の地図、他車両の位置や速度、及び道路の状態）などの集合として表される。

エージェントが行うべき行動は、対象環境の状態に応じて異なる。上述の水道インフラの例であれば、配水ネットワーク上の需要エリアに、過不足なく水を供給する必要がある。また、上述の自動運転車の例であれば、前方に障害物があればその障害物を回避するように進行する必要がある。他にも、前方の路面の状態や前方の車両との車間距離などに応じ、車両の走行速度を変更する必要がある。

対象環境の状態に応じてエージェントが行うべき行動を出力する関数を、方策（ｐｏｌｉｃｙ）と呼ぶ。後述する模倣学習部３０は、模倣学習によって方策の生成を行う。方策が理想的なものに学習されれば、方策は、対象環境の状態に応じ、エージェントが行うべき最適な行動を出力するものになる。

模倣学習部３０は、状態ベクトルｓと行動ａとを対応付けたデータ（すなわち、学習データ）を利用して模倣学習を行い、方策を出力する。模倣学習によって得られる方策は、与えられた学習データを模倣するものになる。ここで、エージェントが行動を選択する規則である方策をπと表わし、この方策πのもと、状態ｓにおいて行動ａを選択する確率を、π（ｓ，ａ）と表わす。模倣学習部３０が模倣学習を行う方法は任意であり、模倣学習部３０は、一般的な方法を用いて模倣学習を行うことで方策を出力すればよい。

例えば、水道インフラの場合、行動ａが、バルブの開閉、水の引き入れ、ポンプの閾値など、運用ルールに基づいて制御できる変数を表わす。また、状態ｓが、各拠点の電圧、水位、圧力、水量など、運用者が明示的に操作できないネットワークのダイナミクスを記述する変数を表わす。すなわち、この場合の学習データは、時空間情報が明示的に与えられるデータ（時間と空間に依存するデータ）であり、操作変数と状態変数が明示的に分離しているデータと言える。

さらに、模倣学習部３０は、模倣学習を行い、報酬関数を出力する。具体的には、模倣学習部３０は、状態ベクトルｓを報酬関数ｒに入力することで得られる報酬ｒ（ｓ）を関数の入力とする方策を定める。すなわち、方策から得られる行動ａは、以下に例示する式１で定められる。

ａ～π（ａ｜ｒ（ｓ））（式１）

すなわち、模倣学習部３０は、方策を報酬関数の汎関数として定式化してもよい。このような定式化をした方策を用いて模倣学習を行うことにより、模倣学習部３０は、方策の学習を行いつつ、報酬関数の学習も行うことが可能になる。

また、ある状態ｓおよび行動ａから状態ｓ´を選択する確率は、π（ａ｜ｓ）と表わすことができる。上記に示す式１のように方策を定めた場合、報酬関数ｒ（ｓ，ａ）を用いて、以下に例示する式２の関係を定めることができる。なお、報酬関数ｒ（ｓ，ａ）を、ｒ_ａ（ｓ）と記すこともある。

π（ａ｜ｓ）:=π（ａ｜ｒ（ｓ，ａ））（式２）

模倣学習部３０は、以下に例示する式３のように定式化した関数を用いて報酬関数ｒ（ｓ，ａ）を学習してもよい。なお、式３において、λ´およびθ´は、データにより決定されるパラメータであり、ｇ´（θ´）は、正則化項である。

また、方策を選択する確率π（ａ｜ｓ）は、ある状態ｓにおける行動ａにより得られる報酬と関連することから、上記の報酬関数ｒ_ａ（ｓ）を用いて、以下に例示する式４の形式で定義できる。なお、Ｚ_Ｒは分配関数であり、Ｚ_Ｒ＝Σ_ａｅｘｐ（ｒ_ａ（ｓ））である。

学習装置１００は、入力部１１０と、モデル設定部１２０と、パラメータ推定部１３０と、差分検出部１３５と、出力部１４０とを含む。

入力部１１０は、記憶部１０に記憶された学習データをパラメータ推定部１３０に入力する。

モデル設定部１２０は、後述するパラメータ推定部１３０によって行われる強化学習が対象とする問題をモデル化する。具体的には、後述するパラメータ推定部１３０が強化学習により関数のパラメータを推定するため、モデル設定部１２０は、推定する関数のルールを決めておく。

ところで、上記の式４に示すように、ある状態ｓにおいてとるべき行動ａを表す方策πは、ある環境の状態ｓと、その状態において選択される行動ａによって得られる報酬ｒを決定するための報酬関数ｒ（ｓ，ａ）と関連性を有すると言える。強化学習は、この関連性を考慮して学習を行うことで、適切な方策πを見出そうと言うものである。

一方、本発明者は、強化学習において状態ｓと行動ａに基づいて方策πを見出すという考え方が、ある現象に基づいて非自明なシステムの仕組みを見出すことに利用できるという着想を得た。なお、ここでのシステムとは、機械的に構成されたシステムに限定されず、上述するインフラや、自然界に存在する任意の体系も含む。

ある状態の確率分布を表す一具体例が、統計力学におけるボルツマン分布（ギブス分布）である。統計力学の観点でも、ある実験データに基づいて実験を行った場合、所定の仕組みに基づいて何らかのエネルギー状態が生じるため、このエネルギー状態は、強化学習における報酬に対応すると考えられる。

言い換えると、上記内容は、強化学習において、ある報酬が決まっていることに起因して方策が推定できるように、統計力学において、ある運動方程式が決まっていることに起因してエネルギー分布が推定できることを表しているとも言える。このように、関係性が対応付けられる一因として、両者がエントロピーという概念で繋がっていることが挙げられる。

一般に、エネルギー状態は、エネルギーに対応する物理量を表す物理方程式（例えば、ハミルトニアン）で表すことができる。そこで、モデル設定部１２０は、後述するパラメータ推定部１３０が強化学習の枠組みで統計力学におけるボルツマン分布を推定できるように、強化学習において推定する関数についての問題設定を与えておく。

具体的には、モデル設定部１２０は、強化学習で対象とする問題設定として、環境の状態ｓにおいて取るべき行動ａを決定する方策π（ａ｜ｓ）を所定の状態の確率分布を表すボルツマン分布に対応付ける。さらに、モデル設定部１２０は、強化学習で対象とする問題設定として、環境の状態ｓおよびその状態において選択される行動により得られる報酬ｒを決定する報酬関数ｒ（ｓ，ａ）をエネルギーに対応する物理量を表す物理方程式（ハミルトニアン）に対応付ける。このようにしてモデル設定部１２０は、強化学習が対象とする問題をモデル化する。

ここで、ハミルトニアンをＨ、一般化座標をｑ、一般化運動量をｐとしたとき、ボルツマン分布ｆ（ｑ，ｐ）は、以下に例示する式５で表すことができる。なお、式５において、βは系の温度を表すパラメータであり、Ｚ_Ｓは分配関数である。

上記に示す式４と比較すると、式５におけるボルツマン分布が、式４における方策に対応し、式５におけるハミルトニアンが、式４における報酬関数に対応していると言える。すなわち、上記式４および式５の対応関係からも、統計力学におけるボルツマン分布を強化学習の枠組みでモデル化できていると言える。

以下、報酬関数ｒ（ｓ，ａ）に対応付ける物理方程式（ハミルトニアン、ラグランジアンなど）の具体例を説明する。本実施形態では、物理方程式ｈ（ｓ，ａ）を基本とした状態遷移確率について、マルコフ性を仮定、すなわち、以下の式６に示す式が成り立つものとする。

ｐ（ｓ´｜ｓ，ａ）＝ｐ（ｓ´｜ｈ（ｓ，ａ））（式６）

また、式６における右辺は、以下に示す式７のように定義できる。式７において、Ｚ_Ｓは分配関数であり、Ｚ_Ｓ＝Σ_Ｓ´ｅｘｐ（ｈ_ｓ´（ｓ，ａ））である。

ｈ（ｓ，ａ）に対して、時間反転、空間反転、二次形式など、物理法則を満たす条件を与えた場合、物理方程式ｈ（ｓ，ａ）を、以下に示す式８のように定義できる。なお、式８において、λおよびθは、データにより決定されるパラメータであり、ｇ（θ）は、正則化項である。

エネルギー状態は、行動を伴う必要がない場合も存在する。モデル設定部１２０は、式８に示すように、行動ａに起因する効果と、行動とは独立の状態ｓに起因する効果とを分けて運動方程式を設定することで、行動を伴わない場合の状態も表すことができる。

さらに、上記に示す式３と比較すると、式８における運動方程式の各項は、式３における報酬関数の各項に対応付けることができる。したがって、強化関数の枠組みで報酬関数を学習する方法を用いることで、物理方程式を推定することが可能になる。このように、モデル設定部１２０が、以上のような処理を行うことで、後述するパラメータ推定部１３０が学習に必要なモデル（具体的には、コスト関数）を設計できる。

例えば、上述する配水ネットワークの場合、モデル設定部１２０は、配水ネットワークにおいて選択されるべき行動を決定する方策をボルツマン分布に対応付け、配水ネットワークの状態およびその状態における報酬関数を物理方程式に対応付けたモデルを設定する。

パラメータ推定部１３０は、モデル設定部１２０によって設定されたモデルに基づき、状態ｓを含む学習データを用いて強化学習を行うことにより、物理方程式のパラメータを推定する。上述するように、エネルギー状態は、行動を伴う必要がない場合も存在するため、パラメータ推定部１３０は、少なくとも状態ｓを含む学習データを用いて強化学習を行う。さらに、パラメータ推定部１３０は、状態ｓおよび行動ａを含む学習データを用いて強化学習を行うことにより、物理方程式のパラメータを推定してもよい。

例えば、時刻ｔで観測されたシステムの状態をｓ_ｔ、行動をａ_ｔとしたとき、これらのデータは、システムへの行動および作用を表す時系列の運用データセットＤ_ｔ＝｛ｓ_ｔ，ａ_ｔ｝と言うことができる。また、物理方程式のパラメータを推定することで、物理現象の挙動を模擬する情報が得られることから、パラメータ推定部１３０は、物理シミュレータを生成していると言うこともできる。

パラメータ推定部１３０は、例えば、ニューラルネットワークを用いて物理シミュレータを生成してもよい。図２は、物理シミュレータを生成する処理の例を示す説明図である。図２に例示するパーセプトロンＰ１は、一般的な方法のように、入力層に状態ｓおよび行動ａを入力し、出力層で次の状態ｓ´を出力していることを示す。一方、図２に例示するパーセプトロンＰ２は、状態ｓおよび行動ａに応じて決定されるシミュレート結果ｈ（ｓ，ａ）を入力層に入力し、出力層で次の状態ｓ´を出力していることを示す。

図２に例示するパーセプトロンを生成するような学習を行うことで、演算子も含めた定式化や、時間発展の演算子を得ることで、新しい理論提案をすることも可能になる。

また、パラメータ推定部１３０は、混合ガウス分布の最尤推定を行うことによりパラメータを推定してもよい。

また、パラメータ推定部１３０は、積モデルおよび最大エントロピー法を用いて物理シミュレータを生成してもよい。具体的には、以下に示す式９で定義される式を、式１０に示すように、物理方程式ｈの汎関数として定式化することでパラメータを推定してもよい。式１０に示す定式化を行うことで、作用に依存する（すなわち、ａ≠０）物理シミュレータを学習することが可能になる。

上述するように、モデル設定部１２０が報酬関数ｒ（ｓ，ａ）と物理方程式ｈ（ｓ，a）とを対応付けているため、パラメータ推定部１３０は、報酬関数を推定する方法を用いて物理方程式を推定した結果としてボルツマン分布を推定できる。すなわち、定式化した関数を強化学習の問題設定として与えることで、強化学習の枠組みで、運動方程式のパラメータを推定することが可能になる。

また、パラメータ推定部１３０が運動方程式を推定することで、推定された運動方程式から、物理現象などのルールを抽出することや、既存の運動方程式を更新することも可能になる。

例えば、上述する配水ネットワークの場合、パラメータ推定部１３０は、設定されたモデルに基づいて強化学習を行うことにより、その配水ネットワークをシミュレートする物理方程式のパラメータを推定すればよい。

差分検出部１３５は、過去に推定された物理方程式のパラメータと、新たに推定された物理方程式のパラメータとの差分を検出することで、環境のダイナミクス（状態ｓ）の変化を検出する。

パラメータ間の差分を検出する方法は任意である。差分検出部１３５は、例えば、物理方程式に含まれる項や重みを比較して、差分を検出してもよい。また、例えば、物理シミュレータが図２に例示するようなニューラルネットワークで生成されている場合、差分検出部１３５は、パラメータで表される各層の間の重みを比較して、環境のダイナミクス（状態ｓ）の変化を検出してもよい。その際、差分検出部１３５は、検出された差分に基づいて、未使用の環境（例えば、ネットワーク）を抽出してもよい。このように検出された未使用の環境は、ダウンサイジングの候補となり得る。

より具体的には、差分検出部１３５は、ディープニューラルネットワーク（ＤＮＮ：Deep Neural Networks）や、ガウス過程（Gaussian Process）で学習した関数（物理エンジン）のパラメータの変化を差分として検出する。図３は、物理エンジンと実システムとの変化の関連性の例を示す説明図である。

図３に例示する物理エンジンＥ１の状態から学習を行った結果、点線で示す層間の重みが変化した物理エンジンＥ２が生成されたとする。この重みの変化がパラメータの変化として検出される。例えば、物理エンジンが、上記の式８に示す物理方程式ｈ（ｓ，ａ）で表されていた場合、パラメータθは、システムの変更に追随して変化することから、差分検出部１３５は、式８におけるパラメータθの差分を検出してもよい。このように検出されたパラメータは、不要なパラメータの候補になる。

この変化は、実システム上の変化に対応する。例えば、物理エンジンＥ２の点線で示す重みがゼロに近づくように変化した場合、実システムでも対応する部分の重み（重要度）も不要な状態に近づいたと言える。水道インフラにおける実システムの例では、例えば、人口減少や外部からの運用方法の変更などが挙げられる。この場合、実システムの対応箇所をダウンサイジングすることが可能であると判断できる。

このように、差分検出部１３５は、使用されなくなったパラメータ（具体的には、ゼロに近づいたパラメータ、所定の閾値より小さくなったパラメータ）に対応する箇所をダウンサイジングの候補として検出してもよい。その際、差分検出部１３５は、対応する箇所の入力ｓ_ｉおよびａ_ｋを抽出してもよい。水道インフラの例では、各拠点の圧力や水量、操作方法などが対応する。そして、差分検出部１３５は、対応するデータの位置情報に基づいて、実システム上のダウンサイジング可能な箇所を特定してもよい。上記に示すように、実システムと系列データと物理エンジンは相互に関係性を有するため、差分検出部１３５は、抽出されたｓ_ｉおよびａ_ｋに基づいて実システムを特定することが可能である。

出力部１４０は、パラメータが推定された運動方程式を状態推定部２０および模倣学習部３０に出力する。また、出力部１４０は、差分検出部１３５によって検出されたパラメータの差分を出力する。

具体的には、出力部１４０は、図３に例示するような配水ネットワークをモニタできるシステムに対し、差分検出部１３５によって検出されたパラメータの変更箇所を、判別可能な態様で表示してもよい。例えば、配水ネットワークのダウンサイジングを行う場合、出力部１４０は、現在の配水ネットワークのうち、ダウンサイジング可能な箇所Ｐ１を明示する情報を出力してもよい。なお、出力方法は、配水ネットワーク上の色を変化させる方法のほか、音声やテキストによる出力であってもよい。

状態推定部２０は、推定された運動方程式に基づいて、行動から状態を推定する。すなわち、状態推定部２０は、物理シミュレータとして動作する。

模倣学習部３０は、行動およびその行動に基づいて状態推定部２０が推定した状態を用いて、模倣学習を行い、報酬関数の推定処理をさらに行ってもよい。

一方、検出された差分に応じて、環境が変更される可能性がある。例えば、未使用の環境が検出され、一部の環境に対してダウンサイジングが行われたとする。なお、このダウンサイジングは、内容に応じて自動的に行われてもよく、手動で半自動的に行われてもよい。この場合、環境が変化することから、エージェントの運用へフィードバックが行われ、取得される運用データセットＤ_ｔも変化すると考えられる。

例えば、現在の物理シミュレータが、ダウンサイジング前の配水ネットワークをシミュレートするエンジンであったとする。この状態から、一部のポンプを廃止するようにダウンサイジングを行った場合、廃止したポンプの減少分を補うため、他の配水量が増加するなどの環境の変化が生じると考えられる。

そこで、模倣学習部３０は、新たな環境で取得された学習データを利用して模倣学習を行ってもよい。そして、学習装置１００（より詳しくは、パラメータ推定部１３０）は、新たに取得された運用データセット用いて強化学習を行うことにより、物理方程式のパラメータを推定してもよい。このようにすることで、新しい環境に応じた物理シミュレータに更新することが可能になる。

このように生成された物理シミュレータを用いて配水ネットワークの運用を想定することで、例えば、他の要因（例えば、電力コストの増加や、廃止後の運用コスト、入替コストなど）の状態をシミュレートすることも可能になる。

なお、上記では、エージェントの運用へフィードバックが行われ、運用が変更される場合について説明した。他にも、例えば、実システムを使用している担当者の変更等により、操作方法に変更が生じる場合がある。この場合、模倣学習部３０による再学習により報酬関数に変化が生じることが考えられる。この場合、差分検出部１３５は、過去に推定された報酬関数のパラメータと、新たに推定された報酬関数のパラメータとの差分を検出してもよい。差分検出部１３５は、例えば、上記の式３に示す報酬関数のパラメータの差分を検出してもよい。

報酬関数のパラメータの差分を検出することで、運用者の意思決定も自動化することが可能になる。これは、意思決定のルール変更が、学習された方策や報酬関数に現れるからである。すなわち、本実施形態では、パラメータ推定部１３０が、強化学習により物理方程式のパラメータを推定しているため、物理現象や人工物であるネットワークと、意思決定する装置とを相互作用する形で取り扱うことが可能になる。

このような自動化の例として、例えば、ＲＰＡ（Robotic Process Automation）を用いた操作の自動化や、ロボットなどが挙げられる。また、新人に対する補助機能から外部のシステムの運用の完全自動化なども挙げられる。特に、公共事業などでは、数年単位での異動があるため、熟練者が居なくなった場合の意思決定のルールが変わる際の影響を低減できる。

学習装置１００（より具体的には、入力部１１０と、モデル設定部１２０と、パラメータ推定部１３０と、差分検出部１３５と、出力部１４０）と、状態推定部２０と、模倣学習部３０とは、プログラム（学習プログラム）に従って動作するコンピュータのプロセッサ（例えば、ＣＰＵ（Central Processing Unit ）、ＧＰＵ（Graphics Processing Unit）、ＦＰＧＡ（field-programmable gate array ））によって実現される。

例えば、プログラムは、情報処理システム１が備える記憶部（図示せず）に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、学習装置１００（より具体的には、入力部１１０、モデル設定部１２０、パラメータ推定部１３０、差分検出部１３５および出力部１４０）、状態推定部２０および模倣学習部３０として動作してもよい。また、情報処理システム１の機能がＳａａＳ（Software as a Service ）形式で提供されてもよい。

学習装置１００（より具体的には、入力部１１０と、モデル設定部１２０と、パラメータ推定部１３０と、差分検出部１３５と、出力部１４０）と、状態推定部２０と、模倣学習部３０とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路（circuitry ）、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。

また、情報処理システム１の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

また、記憶部１０は、例えば、磁気ディスク等により実現される。

次に、本実施形態の学習装置１００の動作を説明する。図４は、本実施形態の学習装置１００の動作例を示すフローチャートである。入力部１１０は、パラメータ推定部１３０が学習に用いる学習データを入力する（ステップＳ１１）。モデル設定部１２０は、強化学習で対象とする問題設定として、方策をボルツマン分布に対応付け、報酬関数を物理方程式に対応付けたモデルを設定する（ステップＳ１２）。なお、モデル設定部１２０は、学習データが入力される前（すわなち、ステップＳ１１の前）に、モデルの設定を行ってもよい。

パラメータ推定部１３０は、設定されたモデルに基づき、強化学習により物理方程式のパラメータを推定する（ステップＳ１３）。差分検出部１３５は、過去に推定された物理方程式のパラメータと、新たに推定された物理方程式のパラメータとの差分を検出する（ステップＳ１４）。そして、出力部１４０は、推定されたパラメータで表される物理方程式および検出されたパラメータの差分を出力する（ステップＳ１５）。

なお、新たなデータに基づいて、物理方程式のパラメータ（すなわち、物理シミュレータ）が逐次更新され、新たな物理方程式のパラメータが推定される。

次に、本実施形態の情報処理システム１の動作を説明する。図５は、本実施形態の情報処理システム１の動作例を示すフローチャートである。学習装置１００は、図４に例示する処理により、学習データから運動方程式を出力する（ステップＳ２１）。状態推定部２０は、出力された運動方程式を用いて、入力された行動ａから状態ｓを推定する（ステップＳ２２）。模倣学習部３０は、入力された行動ａおよび推定された状態ｓに基づいて模倣学習を行い、方策および報酬関数を出力する（ステップＳ２３）。

図６は、運動方程式の差分を出力する処理の例を示す説明図である。パラメータ推定部１３０は、設定されたモデルに基づいて、物理方程式のパラメータを推定する（ステップＳ３１）。差分検出部１３５は、過去に推定された物理方程式のパラメータと、新たに推定された物理方程式のパラメータとの差分を検出する（ステップＳ３２）。また、差分検出部１３５は、検出されたパラメータから、対応する実システムの箇所を特定する（ステップＳ３３）。このとき、差分検出部１３５は、差分が検出されたパラメータのうち、予め定めた閾値より小さくなったパラメータに対応する実システムの箇所を特定してもよい。差分検出部１３５は、特定した箇所を、環境を運用するシステム（運用システム）に提示する（ステップＳ３４）。

出力部１４０は、特定された実システムの箇所を、判別可能な態様で出力する（ステップＳ３５）。特定された箇所に対して、自動的または半自動的に運用計画案が作成され、システムへ適用される。新たな運用に応じて系列データが順次取得され、パラメータ推定部１３０は、新たな物理方程式のパラメータを推定する（ステップＳ３６）。以降、ステップＳ３２以降の処理が繰り返される。

以上のように、本実施形態では、モデル設定部１２０が、強化学習で対象とする問題設定として、方策をボルツマン分布に対応付け、報酬関数を物理方程式に対応付けたモデルを設定し、パラメータ推定部１３０が、設定されたモデルに基づいて強化学習を行うことにより、物理方程式のパラメータを推定する。そして、差分検出部１３５が、過去に推定された物理方程式のパラメータと、新たに推定された物理方程式のパラメータとの差分を検出する。よって、システムの仕組みが非自明であっても、取得されたデータに基づいて、システムの変化を推定できる。

次に、倒立振子の運動方程式を推定する方法を例に、本発明の具体例を説明する。図７は、倒立振子の物理シミュレータの例を示す説明図である。図７に示す例示するシミュレータ（システム）４０は、ある時刻ｔにおける倒立振子４１の行動ａ_ｔに対して、次の状態ｓ_ｔ＋１を推定する。倒立振子の運動方程式４２は、図７に例示するように既知であるが、ここでは、その運動方程式４２が未知であるとする。

時刻ｔにおける状態ｓ_ｔは、以下に示す式１１で表される

例えば、倒立振子の行動（動作）として、以下の式１２に例示するデータが観測されたとする。

ここで、モデル設定部１２０が、上記に示す式８の運動方程式を設定し、パラメータ推定部１３０が、観測された上記式１１に示すデータに基づいて、強化学習を行うことで、式８に示すｈ（ｓ，ａ）のパラメータを学習することができる。このように学習された運動方程式は、ある状態において好ましい動作を表すものであることから、倒立振子の運動を表す系に近いものと言える。このように学習することで、運動方程式が未知であっても、系の仕組みを推定することが可能になる。

なお、上述する倒立振子以外にも、例えば、調和振動子や振り子なども、動作確認できる系として有効である。

次に、本発明の概要を説明する。図８は、本発明による学習装置の概要を示すブロック図である。本発明による学習装置８０（例えば、学習装置１００）は、強化学習で対象とする問題設定として、環境の状態において取るべき行動を決定する方策を、所定の状態の確率分布を表すボルツマン分布に対応付け、環境の状態およびその状態において選択される行動により得られる報酬を決定する報酬関数を、エネルギーに対応する物理量を表す物理方程式に対応付けたモデルを設定するモデル設定部８１（例えば、モデル設定部１２０）と、設定されたモデルに基づき、状態（例えば、状態ベクトルｓ）を含む学習データを用いて強化学習を行うことにより、物理方程式のパラメータを推定するパラメータ推定部８２（例えば、パラメータ推定部１３０）と、過去に推定された物理方程式のパラメータと、新たに推定された物理方程式のパラメータとの差分を検出する差分検出部８３（例えば、差分検出部１３５）とを備えている。

そのような構成により、システムの仕組みが非自明であっても、取得されたデータに基づいて、システムの変化を推定できる。

また、差分検出部８３は、新たに推定された物理方程式のパラメータのうち、予め定めた閾値より小さくなったパラメータ（例えば、ゼロに近づいたパラメータ）を検出してもよい。そのような構成によれば、環境において重要度が低減した箇所を特定できる。

また、学習装置８０は、対象とする環境の状態を出力する出力部（例えば、出力部１４０）を備えていてもよい。そして、差分検出部８３は、予め定めた閾値より小さくなったパラメータに対応する環境の箇所を特定し、出力部は、特定された環境の箇所を判別可能な態様で出力してもよい。そのような構成によれば、対象とする環境で変更すべき箇所をユーザが特定することが容易になる。

また、差分検出部８３は、ディープニューラルネットワークまたはガウス過程で学習した物理方程式のパラメータの変化を差分として検出してもよい。

具体的には、モデル設定部８１は、配水ネットワークにおいて選択されるべき行動を決定する方策をボルツマン分布に対応付け、配水ネットワークの状態およびその状態における報酬関数を物理方程式に対応付けたモデルを設定してもよい。そして、パラメータ推定部８２は、設定されたモデルに基づいて強化学習を行うことにより、その配水ネットワークをシミュレートする物理方程式のパラメータを推定してもよい。

その際、差分検出部８３は、新たに推定された物理方程式のパラメータのうち、予め定めた閾値より小さくなったパラメータに対応する箇所を、ダウンサイジングの候補として抽出してもよい。

図９は、少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ１０００は、プロセッサ１００１、主記憶装置１００２、補助記憶装置１００３、インタフェース１００４を備える。

上述の学習装置８０は、コンピュータ１０００に実装される。そして、上述した各処理部の動作は、プログラム（学習プログラム）の形式で補助記憶装置１００３に記憶されている。プロセッサ１００１は、プログラムを補助記憶装置１００３から読み出して主記憶装置１００２に展開し、当該プログラムに従って上記処理を実行する。

なお、少なくとも１つの実施形態において、補助記憶装置１００３は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース１００４を介して接続される磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ（Compact Disc Read-only memory ）、ＤＶＤ－ＲＯＭ（Read-only memory）、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ１０００に配信される場合、配信を受けたコンピュータ１０００が当該プログラムを主記憶装置１００２に展開し、上記処理を実行しても良い。

また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置１００３に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル（差分プログラム）であっても良い。

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）強化学習で対象とする問題設定として、環境の状態において取るべき行動を決定する方策を、所定の状態の確率分布を表すボルツマン分布に対応付け、環境の状態および当該状態において選択される行動により得られる報酬を決定する報酬関数を、エネルギーに対応する物理量を表す物理方程式に対応付けたモデルを設定するモデル設定部と、設定された前記モデルに基づき、前記状態を含む学習データを用いて強化学習を行うことにより、前記物理方程式のパラメータを推定するパラメータ推定部と、過去に推定された前記物理方程式のパラメータと、新たに推定された前記物理方程式のパラメータとの差分を検出する差分検出部とを備えたことを特徴とする学習装置。

（付記２）差分検出部は、新たに推定された物理方程式のパラメータのうち、予め定めた閾値より小さくなったパラメータを検出する付記１記載の学習装置。

（付記３）対象とする環境の状態を出力する出力部を備え、差分検出部は、予め定めた閾値より小さくなったパラメータに対応する環境の箇所を特定し、前記出力部は、特定された前記環境の箇所を判別可能な態様で出力する付記２記載の学習装置。

（付記４）差分検出部は、ディープニューラルネットワークまたはガウス過程で学習した物理方程式のパラメータの変化を差分として検出する付記１から付記３のうちのいずれか１つに記載の学習装置。

（付記５）モデル設定部は、配水ネットワークにおいて選択されるべき行動を決定する方策をボルツマン分布に対応付け、前記配水ネットワークの状態および当該状態における報酬関数を物理方程式に対応付けたモデルを設定し、パラメータ推定部は、設定されたモデルに基づいて強化学習を行うことにより、当該配水ネットワークをシミュレートする物理方程式のパラメータを推定する付記１から付記４のうちのいずれか１つに記載の学習装置。

（付記６）差分検出部は、新たに推定された物理方程式のパラメータのうち、予め定めた閾値より小さくなったパラメータに対応する箇所を、ダウンサイジングの候補として抽出する付記５記載の学習装置。

（付記７）パラメータ推定部は、設定されたモデルに基づき、状態および行動を含む学習データを用いて強化学習を行うことにより、物理方程式のパラメータを推定する付記１から付記６のうちのいずれか１つに記載の学習装置。

（付記８）モデル設定部は、行動に起因する効果と、状態に起因する効果とを分けた物理方程式を設定する付記１から付記７のうちのいずれか１つに記載の学習装置。

（付記９）モデル設定部は、報酬関数をハミルトニアンに対応付けたモデルを設定する付記１から付記８のうちのいずれか１つに記載の学習装置。

（付記１０）コンピュータが、強化学習で対象とする問題設定として、環境の状態において取るべき行動を決定する方策を、所定の状態の確率分布を表すボルツマン分布に対応付け、環境の状態および当該状態において選択される行動により得られる報酬を決定する報酬関数を、エネルギーに対応する物理量を表す物理方程式に対応付けたモデルを設定し、前記コンピュータが、設定された前記モデルに基づき、前記状態を含む学習データを用いて強化学習を行うことにより、前記物理方程式のパラメータを推定し、前記コンピュータが、過去に推定された前記物理方程式のパラメータと、新たに推定された前記物理方程式のパラメータとの差分を検出することを特徴とする学習方法。

（付記１１）コンピュータが、新たに推定された物理方程式のパラメータのうち、予め定めた閾値より小さくなったパラメータを検出する付記１０記載の学習方法。

（付記１２）コンピュータに、強化学習で対象とする問題設定として、環境の状態において取るべき行動を決定する方策を、所定の状態の確率分布を表すボルツマン分布に対応付け、環境の状態および当該状態において選択される行動により得られる報酬を決定する報酬関数を、エネルギーに対応する物理量を表す物理方程式に対応付けたモデルを設定するモデル設定処理、設定された前記モデルに基づき、前記状態を含む学習データを用いて強化学習を行うことにより、前記物理方程式のパラメータを推定するパラメータ推定処理、および、過去に推定された前記物理方程式のパラメータと、新たに推定された前記物理方程式のパラメータとの差分を検出する差分検出処理を実行させるための学習プログラム。

（付記１３）コンピュータに、差分検出処理で、新たに推定された物理方程式のパラメータのうち、予め定めた閾値より小さくなったパラメータを検出させる付記１２記載の学習プログラム。

１情報処理システム
１０記憶部
２０状態推定部
３０模倣学習部
１００学習装置
１１０入力部
１２０モデル設定部
１３０パラメータ推定部
１３５差分検出部
１４０出力部

Claims

強化学習で対象とする問題設定として、環境の状態において取るべき行動を決定する方策を、所定の状態の確率分布を表すボルツマン分布に対応付け、環境の状態および当該状態において選択される行動により得られる報酬を決定する報酬関数を、エネルギーに対応する物理量を表す物理方程式に対応付けたモデルを設定するモデル設定部と、
設定された前記モデルに基づき、前記状態を含む学習データを用いて強化学習を行うことにより、前記物理方程式のパラメータを推定するパラメータ推定部と、
過去に推定された前記物理方程式のパラメータと、新たに推定された前記物理方程式のパラメータとの差分を検出する差分検出部とを備えた
ことを特徴とする学習装置。
差分検出部は、新たに推定された物理方程式のパラメータのうち、予め定めた閾値より小さくなったパラメータを検出する
請求項１記載の学習装置。
対象とする環境の状態を出力する出力部を備え、
差分検出部は、予め定めた閾値より小さくなったパラメータに対応する環境の箇所を特定し、
前記出力部は、特定された前記環境の箇所を判別可能な態様で出力する
請求項２記載の学習装置。
差分検出部は、ディープニューラルネットワークまたはガウス過程で学習した物理方程式のパラメータの変化を差分として検出する
請求項１から請求項３のうちのいずれか１項に記載の学習装置。
モデル設定部は、配水ネットワークにおいて選択されるべき行動を決定する方策をボルツマン分布に対応付け、前記配水ネットワークの状態および当該状態における報酬関数を物理方程式に対応付けたモデルを設定し、
パラメータ推定部は、設定されたモデルに基づいて強化学習を行うことにより、当該配水ネットワークをシミュレートする物理方程式のパラメータを推定する
請求項１から請求項４のうちのいずれか１項に記載の学習装置。
差分検出部は、新たに推定された物理方程式のパラメータのうち、予め定めた閾値より小さくなったパラメータに対応する箇所を、ダウンサイジングの候補として抽出する
請求項５記載の学習装置。
パラメータ推定部は、設定されたモデルに基づき、状態および行動を含む学習データを用いて強化学習を行うことにより、物理方程式のパラメータを推定する
請求項１から請求項６のうちのいずれか１項に記載の学習装置。
モデル設定部は、行動に起因する効果と、状態に起因する効果とを分けた物理方程式を設定する
請求項１から請求項７のうちのいずれか１項に記載の学習装置。
コンピュータが、強化学習で対象とする問題設定として、環境の状態において取るべき行動を決定する方策を、所定の状態の確率分布を表すボルツマン分布に対応付け、環境の状態および当該状態において選択される行動により得られる報酬を決定する報酬関数を、エネルギーに対応する物理量を表す物理方程式に対応付けたモデルを設定し、
前記コンピュータが、設定された前記モデルに基づき、前記状態を含む学習データを用いて強化学習を行うことにより、前記物理方程式のパラメータを推定し、
前記コンピュータが、過去に推定された前記物理方程式のパラメータと、新たに推定された前記物理方程式のパラメータとの差分を検出する
ことを特徴とする学習方法。
コンピュータに、
強化学習で対象とする問題設定として、環境の状態において取るべき行動を決定する方策を、所定の状態の確率分布を表すボルツマン分布に対応付け、環境の状態および当該状態において選択される行動により得られる報酬を決定する報酬関数を、エネルギーに対応する物理量を表す物理方程式に対応付けたモデルを設定するモデル設定処理、
設定された前記モデルに基づき、前記状態を含む学習データを用いて強化学習を行うことにより、前記物理方程式のパラメータを推定するパラメータ推定処理、および、
過去に推定された前記物理方程式のパラメータと、新たに推定された前記物理方程式のパラメータとの差分を検出する差分検出処理
を実行させるための学習プログラム。