JP2022078529A

JP2022078529A - 情報処理装置、情報処理方法、および情報処理プログラム

Info

Publication number: JP2022078529A
Application number: JP2020189264A
Authority: JP
Inventors: 浩也松葉; Hiroya Matsuba; 杜青松本; Morio Matsumoto
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2022-05-25
Anticipated expiration: 2040-11-13
Also published as: JP7543094B2

Abstract

【課題】現実に発生し得るパターンを網羅性高くシミュレーションで再現すること。
【解決手段】プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する情報処理装置は、最適化対象の状態および行動から前記状態の次の状態を予測する予測モデルを構成する複数のパラメータの各々について、前記パラメータの範囲を前記パラメータごとに設定する設定処理と、前記設定処理によって設定された前記パラメータの範囲内における前記パラメータの値を前記パラメータごとに選択する選択処理と、前記選択処理によって前記パラメータごとに選択された前記パラメータの値に基づいて、前記予測モデルに設定する予測条件を生成する生成処理と、を実行する。
【選択図】図１

Description

本発明は、情報を処理する情報処理装置、情報処理方法、および情報処理プログラムに関する。

システムの運用を最適化する際に、最適化対象をシミュレーションにより再現し、その結果を利用して最適な行動を算出する技術がある。たとえば、特許文献１は、最適解の算出に用いていないリスク（予測誤差範囲）に関連させて、売上高を最適化する価格の最適解を出力するため、ある商品の販売数を予測する予測式が当該商品の価格の関数で表される場合に、予測式に基づいて算出される販売数の予測値について、予測誤差の範囲を確率的に示す指標の入力を受け付ける指標受付手段と、販売数と価格とを含んで定まる売上高を求める目的関数について、制約条件のもとで、目的関数で求められる売上高が最大になるように価格を最適化する最適化手段とを含み、最適化手段は、予測値を入力とし、指標により示される予測誤差の範囲内において、売上高の最小値を大きくするように価格を最適化する最適化システムを開示する。

また、特許文献２は、最適化のために多くのデータを作成し、また、予測値の不確実性を考慮した上で最適な結果を得るための制御変数の値を特定する最適化システムを開示する。この最適化システムは、分析対象をモデル化した情報であって、予測値およびその誤差範囲を含むパラメータを含むとともに制御変数および目的変数を含む情報であるモデルが与えられ、前記目的変数の値を特定するシミュレーション毎に前記制御変数の値を決定し、前記モデルに基づいて前記シミュレーションを複数回実行するシミュレーション手段と、複数回のシミュレーションによって得られた前記目的変数の各値と、前記複数回のシミュレーション毎に決定された前記制御変数の各値とに基づいて、前記目的変数の値が最適値となるときの前記制御変数の値を特定する制御変数値特定手段とを備え、前記シミュレーション手段は、シミュレーション毎に乱数と前記パラメータとによって前記予測値の確定値を決定し、前記制御変数の値と前記予測値の確定値とを用いてシミュレーションを実行する。

国際公開第２０１７／１３５３２２号特開２０１６－１２６４０４号公報

シミュレーションに基づいた最適化を行うにあたり、シミュレーションに誤差が生じることがある。誤差の原因のひとつは、シミュレーションで入力するパラメータの正確な値が不明であることである。パラメータとは、たとえば、シミュレーションの初期条件を示す数値、動きを調整する数値、シミュレーションモデルで捉えられない細部を補正する数値のように、シミュレーション処理結果に影響を与える変動要素である。

パラメータの値に不確定性がある場合に、パラメータを１つの値に固定した上でのシミュレーション結果を用いて行動の最適化が実行されたとする。この最適化において、選択したパラメータと現実との間にずれがある場合には、算出された最適化結果は現実とは異なった仮定に基づくデータとなり、最適化結果の有効性は不明である。

乱数によりパラメータの値を複数個選択し、複数回のシミュレーションを行う方法も考えられる。しかし、現実のシステムが乱数にて選択したパラメータのいずれかに近い推移を示すとは限らない。現実世界（シミュレーション対象）のシステムの時間経過が、選択したいずれのパラメータによるシミュレーションとも一致しなかった場合、やはりそのようなシミュレーションに基づいた最適化結果の有効性は不明である。

本発明は、現実に発生し得るパターンを網羅性高くシミュレーションで再現することを目的とする。

本願において開示される発明の一側面となる情報処理装置は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する情報処理装置であって、前記プロセッサは、最適化対象の状態および行動から前記状態の次の状態を予測する予測モデルを構成する複数のパラメータの各々について、前記パラメータの範囲を前記パラメータごとに設定する設定処理と、前記設定処理によって設定された前記パラメータの範囲内における前記パラメータの値を前記パラメータごとに選択する選択処理と、前記選択処理によって前記パラメータごとに選択された前記パラメータの値に基づいて、前記予測モデルに設定する予測条件を生成する生成処理と、を実行することを特徴とする。

本発明の代表的な実施の形態によれば、現実に発生し得るパターンを網羅性高くシミュレーションで再現することができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

図１は、実施例１にかかる最適化システムのブロック構成例を示すブロック図である。図２は、実施例１にかかる最適化システムによる最適化処理の一例を示すフローチャートである。図３は、モデルテンプレート情報の一例を示す説明図である。図４は、図２に示したデータ取得モジュールによるデータ取得処理（ステップＳ２０３）の詳細な処理手順例を示すフローチャートである。図５は、ステップＳ４０４において作成される取得データ履歴情報の一例を示す説明図である。図６は、図２に示したモデルパラメータ評価モジュールによるモデルパラメータ評価処理の詳細な処理手順例を示すフローチャートである。図７は、予測モデル情報の一例を示す説明図である。図８は、図２に示した最適化計算実行モジュールによる最適化計算処理（ステップＳ２０５）の詳細な処理手順例を示すフローチャートである。図９は、パラメータインスタンス情報の一例を示す説明図である。図１０は、図８に示した予測条件生成モジュールによる予測条件生成処理（ステップＳ８０２）の詳細な処理手順例を示すフローチャートである。図１１は、正規分布の累積分布関数の一例を示すグラフである。図１２は、図８に示した試行モジュールによる試行処理（ステップＳ８０７）の詳細な処理手順例を示すフローチャートである。図１３は、行動関数情報の一例を示す説明図である。図１４は、図１２に示した予測計算実行モジュールによる予測計算処理（ステップＳ１２０３）の詳細な処理手順例を示すフローチャートである。図１５は、実施例２にかかる最適化システムのブロック構成例を示すブロック図である。図１６は、実施例２にかかる実行前確認モジュールによる実行前確認処理の一例を示すフローチャートである。図１７は、実施例３にかかる最適化システムのブロック構成例を示すブロック図である。図１８は、実施例３にかかる最適化計算実行モジュールによる最適化計算処理（ステップＳ２０５）の詳細な処理手順例を示すフローチャートである。図１９は、仮想実行モジュールによる仮想実行処理の一例を示すフローチャートである。

以下に示す各実施例は、シミュレーションを用いながら最適化対象における行動を最適化する技術であり、特に、シミュレーションに誤差がある場合でも有効な最適化結果を得る。以下、添付図面を用いて詳細に説明する。

＜最適化システムの構成例＞
図１は、実施例１にかかる最適化システムのブロック構成例を示すブロック図である。最適化システム１は、サイバー空間の予測モデルによる予測に基づいて最適施策を立案するサイバーフィジカルシステムである。最適化対象には、たとえば、サイネージによる人流誘導計画、店員配置最適化、警備員配置最適化、クーポン配信計画最適化、台風の進路のような自然現象予測および当該自然現象に対する避難計画最適化を実行するシステムがある。サイバーフィジカルシステムにおいては、予測と現実とのずれが不可避である。予測に基づいて将来の一定期間の施策を最適化した場合に、その施策実行中は最適化計画の有効性が失われないよう、現実に起こり得るパターンを網羅性高く再現しておくのが最適化システム１である。

最適化システム１は、１台以上（図１では１台）のコンピュータ（情報処理装置）により構成される。最適化システム１は、プロセッサ１５、通信装置１６、およびメモリ１７を有する。また、最適化システム１は、通信装置１６を介して、センサ２、出力装置３、および入力装置４と接続される。センサ２は、カメラ、赤外線センサ、温度計、騒音計、風速計、雨量計など様々な実測値を取得する機器である。

プロセッサ１５は、メモリ１７に格納されるプログラムを実行する。プロセッサ１５がプログラムを実行することによって、最適化システム１の機能を実現できる。以下、プログラムを主語に処理を説明する場合、プロセッサ１５によってプログラムが実行されていることを示す。

メモリ１７は、書込みおよび読み出しが可能なデータを記憶する記憶デバイスであり、たとえば、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）のような半導体メモリがある。メモリ１７は、ソフトウェアモジュールを記憶する。具体的には、たとえば、メモリ１７は、ソフトウェアモジュールとして、モデル作成モジュール１１と、最適化モジュール１２と、予測モジュール１３と、を記憶する。ソフトウェアモジュールは、１つ以上のソフトウェアプログラムと情報とにより構成され、あるまとまりのある機能を実現するソフトウェア部品である。

通信装置１６は、プロセッサ１５から入出力命令を受けて、メモリ１７に格納された情報を外部に出力したり、または外部からの情報をメモリ１７に格納したりする。通信装置１６は、たとえば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）コントローラである。

つぎに、最適化システム１のソフトウェア構成について説明する。モデル作成モジュール１１は、プログラムとして、データ取得モジュール１１０、モデルパラメータ評価モジュール１１１を有する。また、モデル作成モジュール１１は、情報として、モデルテンプレート情報１１５、取得データ履歴情報１１６、および予測モデル情報１１７を有する。

モデル作成モジュール１１の主な処理は、モデルパラメータ評価モジュール１１１によって実行される。モデルパラメータ評価モジュール１１１は、ユーザ入力であるモデルテンプレート情報１１５と取得データ履歴情報１１６とを用いてシミュレーションにおけるパラメータの範囲を計算し、計算結果として予測モデル情報１１７を出力する。モデルパラメータ評価モジュール１１１の処理の詳細は図６を用いて後述する。

データ取得モジュール１１０は、モデルパラメータ評価モジュール１１１が必要とするデータを取得するために、センサ２よりデータを取得し、取得データ履歴情報１１６として格納する。データ取得モジュール１１０の詳しい処理は図４を用いて後述する。

最適化モジュール１２は、プログラムとして、最適化計算実行モジュール１２０を有する。また、最適化モジュール１２は、情報として、最適化目的情報１２５、パラメータインスタンス情報１２６、および行動関数情報１２７を有する。さらに、最適化計算実行モジュール１２０は、プログラムとして、予測条件生成モジュール１２０１および試行モジュール１２０２を有する。

最適化モジュール１２は、最適化システム１の主要処理を担う部分であり、最適化対象についての最適化結果を生成する。最適化モジュール１２の主な処理は、最適化計算実行モジュール１２０によって実行される。最適化計算実行モジュール１２０は、予測条件生成モジュール１２０１から予測モデル情報１１７を受け取り、パラメータインスタンス情報１２６を生成する。パラメータインスタンス情報１２６は、シミュレーションを実行する条件の組み合わせである。

そして、最適化計算実行モジュール１２０は、試行モジュール１２０２において、パラメータインスタンス情報１２６とユーザ入力である最適化目的情報１２５とを用いて、予測モジュール１３を利用しながら最適な行動を行うための情報である行動関数情報１２７と、を生成する。

予測条件生成モジュール１２０１は、最適化対象に関するパラメータインスタンス情報１２６を、将来の起こり得る状態を広く網羅するよう生成する。したがって、行動関数情報１２７は、網羅されたすべての状況に対応できる情報となる。

行動関数情報１２７は、最適化システム１の出力でもあるため、出力装置３に送信されファイルなどに保存される。最適化計算実行モジュールの処理の詳細は図５を用いて後述する。予測条件生成モジュール１２０１の処理の詳細は図６を用いて後述する。試行モジュール１２０２の処理の詳細は図１２を用いて後述する。

予測モジュール１３は、プログラムとして、予測計算実行モジュール１３０を有する。また、予測モジュール１３は、情報として、最適化対象に関する予測条件情報１３６および状態情報１３７を有する。予測モジュール１３は、最適化モジュール１２による計算に活用されることを目的に、最適化対象について状態と行動とを入力としたシミュレーションを行い、最適化対象の行動後の新たな状態を計算するシミュレータである。

予測モジュール１３の主要な処理は、予測計算実行モジュール１３０によって実行される。予測計算実行モジュール１３０は、予測条件情報１３６を受け取り、予測モデル情報１１７を用いて次の状態を計算し、状態情報１３７を更新する。予測計算実行モジュール１３０の処理の詳細は図１４を用いて後述する。

なお、実施例１に示すソフトウェアモジュールの構成や、ソフトウェアモジュールのソフトウェアプログラムの構成は一例である。最適化システム１全体として所望の機能を提供するものであれば、最適化システム１内部で、ソフトウェアモジュールおよびソフトウェアプログラムをどのような機能分担で設計してもよい。また、ソフトウェアモジュールの少なくとも１つは、それ以外の他のソフトウェアモジュールとは異なるコンピュータに実装されてもよい。以下、各構成の処理について説明する。まず、図２を用いて、最適化システム１の全体的な処理を説明する。

＜最適化処理＞
図２は、実施例１にかかる最適化システム１による最適化処理の一例を示すフローチャートである。最適化システム１は、最適化対象に関する最適化処理を開始する（ステップＳ２００）。ステップＳ２００は、たとえば、最適化システム１に通電を開始すること、またはプログラムを起動することにより実現される。

最適化システム１は、モデルテンプレート情報１１５をユーザからの入力として受け付ける（ステップＳ２０１）。最適化システム１は最適化目的情報１２５をユーザからの入力として受け付ける（ステップＳ２０２）。ステップＳ２０１およびＳ２０２の入力は、たとえば、入力装置４を通じて最適化システム１のユーザによって行われる。入力装置４は、たとえば、キーボードであるが、その他の手段でも構わない。

最適化システム１は、データ取得モジュール１１０を起動することにより、データ取得処理を実行する（ステップＳ２０３）。データ取得モジュール１１０は、データ取得処理（ステップＳ２０３）により、取得データ履歴情報１１６を作成する。

最適化システム１は、モデルパラメータ評価モジュール１１１を起動することにより、モデルパラメータ評価処理を実行する（ステップＳ２０４）。モデルパラメータ評価モジュール１１１は、モデルパラメータ評価処理（ステップＳ２０４）により、予測モデル情報１１７を作成する。

最適化システム１は、最適化計算実行モジュール１２０を起動することにより、最適化計算処理を実行する（ステップＳ２０５）。最適化計算実行モジュール１２０は、最適化計算処理（ステップＳ２０５）により、行動関数情報１２７を作成する。この行動関数情報１２７が最適化システム１の出力である。最適化システム１は、行動関数情報１２７を出力して（ステップＳ２０６）、一連の処理を終了する（ステップＳ２０７）。

最適化システム１は、ステップＳ２０６の出力を出力装置３によって行う。出力装置３は、たとえば、ファイルシステムであり、この場合、最適化システム１は、行動関数情報１２７をディスク上のデータとして出力する。つぎに、上記ステップＳ２０１およびＳ２０２で受け付ける情報について説明する。

＜モデルテンプレート情報１１５＞
図３は、モデルテンプレート情報１１５の一例を示す説明図である。モデルテンプレート情報１１５は、最適化対象をモデル化した予測モデルに関するテンプレート情報であり、具体的には、たとえば、フィールドとして、モデル名３０１、モデル式３０２、およびモデルパラメータ３０３を有し、メモリ１７に保持される。

モデル名３０１は、予測モデルを特定するための名称で任意の文字列または整数値である。モデル式３０２は、予測モデルの内容を示す数式である。モデル式３０２は、たとえば、予測モデルを計算機可読な形式で表現した関数である。モデル式３０２は、当該関数が格納されているアドレスへのポインタでもよい。モデルパラメータ３０３は、予測モデルを利用して結果の数値を得る計算の際に必要な入力変数である。すなわち、モデルパラメータ３０３は、モデル式３０２に含まれる。

同一行の各フィールド３０１～３０３の値の組み合わせが１つのテンプレートを示すエントリとなる。たとえば、一行目のエントリは、［Ｍ１、プログラムｐ、（ａ，ｂ）］のような情報であり、それぞれ、モデル名３０１が「Ｍ１」、モデル式３０２がプログラムｐ（または、ｐが格納されているアドレスへのポインタ）、モデルパラメータ３０３が（ａ，ｂ）であることを示すテンプレートＴである。モデルパラメータ３０３の具体的な値は、この予測モデルが使用されるときに決定される。

図１に戻り、最適化目的情報１２５は、評価式と評価式パラメータとの組み合わせにより構成され、メモリ１７に保持される。評価式は、評価式パラメータを入力として、その評価式パラメータ（たとえば、行動）の良否を数値として出力する関数である。評価式は、たとえば、モデル式３０２と同様に、関数を実装した計算機プログラム、または、当該計算機プログラムが格納されているアドレスへのポインタである。評価式パラメータは、評価式に入力するパラメータである。評価式パラメータの具体的な値は、最適化目的情報１２５が使用されるときに決定される。最適化目的情報１２５は、たとえば、いわゆる強化学習における行動価値関数に相当する。上記それぞれのステップで作成される情報の構造については、それぞれのステップの処理の詳細と共に後述する。

以上が、最適化システム１の全体的な処理である。ステップＳ２０４にてモデルパラメータ評価モジュール１１１が作成する予測モデル情報１１７が、モデルパラメータの範囲の情報を有する。ステップＳ２０６にて最適化計算実行モジュール１２０が、このモデルパラメータの範囲の情報を用いて、将来の状況を幅広く網羅して最適化を実行する。これにより、予想される多くの状況に対応できる行動関数情報１２７が出力される。つぎに図４～図９を用いて、各モジュールの詳細な処理を説明する。

＜データ取得処理（ステップＳ２０３）＞
図４は、図２に示したデータ取得モジュール１１０によるデータ取得処理（ステップＳ２０３）の詳細な処理手順例を示すフローチャートである。データ取得モジュール１１０は、通信装置１６に情報が到着しているか否かを判定する（ステップＳ４０１）。ここで、通信装置１６には様々種類のデータが到着し得る。

たとえば、図１の構成においては、センサ２または入力装置４からのデータが到着し得る。ステップＳ４０１においては、センサ２からの入力があった場合のみを真と判定し（ステップＳ４０１：Ｙｅｓ）、それ以外の機器からの入力では真とは判定されないものとする（ステップＳ４０１：Ｎｏ）。このような入力の選別はステップＳ４０１の実行前に、データ取得モジュール１１０から通信装置１６に、入力対象機器を設定することなどで実現可能である。

ステップＳ４０１の判定が真であるとき（ステップＳ４０１：Ｙｅｓ）、データ取得モジュール１１０は、通信装置１６より到着したデータを読み込む（ステップＳ４０２）。この時、データ取得モジュール１１０は、通信装置１６の機能により、データと同時に当該データを発生させたセンサ２の種類を特定する（ステップＳ４０３）。データ取得モジュール１１０は、ステップＳ４０２にて読み込んだデータを、ステップＳ４０３にて特定したセンサ２のセンサ名５０２と共に、取得データ履歴情報１１６として保存して（ステップＳ４０４）、ステップＳ４０１に戻る。ステップＳ４０１の判定が偽の場合（ステップＳ４０１：Ｎｏ）、データ取得モジュール１１０はデータ取得処理（ステップＳ２０３）を終了し、ステップＳ２０４に移行する。

＜取得データ履歴情報１１６＞
図５は、ステップＳ４０４において作成される取得データ履歴情報１１６の一例を示す説明図である。取得データ履歴情報１１６は、フィールドとして、取得日時５０１と、センサ名５０２と、実測値５０３と、を有する。同一行の各フィールド５０１～５０３の値の組み合わせがセンサデータを示すエントリとなる。たとえば、一行目のエントリは、取得日時５０１である２０２０年６月１７日の１０時３分２１．００５秒に、センサ名５０２が「Ｙ」であるセンサ２から「２０．３」という実測値５０３が取得されたセンサデータであることを示す。

＜モデルパラメータ評価処理（ステップＳ２０４）＞
図６は、図２に示したモデルパラメータ評価モジュール１１１によるモデルパラメータ評価処理の詳細な処理手順例を示すフローチャートである。モデルパラメータ評価モジュール１１１は、モデルテンプレート情報１１５からモデルテンプレートを取得する（ステップＳ６０１）。具体的には、たとえば、モデルパラメータ評価モジュール１１１は、テンプレートＴを読み出す。モデルパラメータ評価モジュール１１１は、テンプレートＴのモデルパラメータ３０３を参照し、そのモデルパラメータ３０３に対応するセンサ２を特定する（ステップＳ６０２）。

実施例１では、モデルパラメータ３０３の値であるアルファベット小文字をアルファベット大文字にするとセンサ名５０２になる。たとえば、モデルパラメータ３０３の値「ａ」に対応するセンサデータは、センサ名５０２が「Ａ」であるセンサ２から得られる。これは一例であり、センサデータとモデルパラメータ３０３の関係はこの例よりも複雑でもよい。たとえば、センサデータに一定の計算式を当てはめた結果をモデルパラメータ３０３とすることも可能である。

または、モデルパラメータ評価モジュール１１１は、複数のセンサデータからモデルパラメータ３０３の値を算出する関数によりモデルパラメータ３０３の値とセンサデータとを関連付けてもよい。いずれの場合も、ステップＳ６０２では、モデルパラメータ評価モジュール１１１は、それぞれのモデルパラメータ３０３について、それに対応するセンサ２の一覧を取得する。

モデルパラメータ評価モジュール１１１は、ステップＳ６０２で特定したすべてのセンサ２について、取得データ履歴情報１１６から、当該センサ２からの実測値５０３をすべて取得する（ステップＳ６０３）。具体的には、たとえば、モデルパラメータ評価モジュール１１１は、モデルパラメータ３０３が「ａ」の場合、センサ名５０２が「Ａ」の実測値５０３である「１３．４」および「１２．４」を取得する。

モデルパラメータ評価モジュール１１１は、テンプレートＴのモデルパラメータ３０３について、その分布をステップＳ６０３で取得した実測値５０３を用いて推定し、分布情報を出力する（ステップＳ６０４）。分布情報とは、たとえば、モデルパラメータ３０３の最も確からしい値とそのばらつきを示す値とを推定する分布を規定する情報であり、具体的には、たとえば、たとえば、平均値と分散（標準偏差でもよい）である。

具体的には、たとえば、モデルパラメータ評価モジュール１１１は、モデルパラメータ３０３であるａ，ｂの各々について正規分布等の分布を仮定し、テンプレートＴのモデル式３０２を用いてＭＣＭＣ（ＭａｒｋｏｖＣｈａｉｎＭｏｎｔｅＣａｒｌｏＭｅｔｈｏｄｓ：マルコフ連鎖モンテカルロ法）や粒子フィルタの手法を適用する。これにより、モデルパラメータ３０３の分布が推定可能である。

モデルパラメータ評価モジュール１１１は、ステップＳ６０４において算出した分布情報をテンプレートＴに追加することにより、分布が追加されたテンプレートＴを予測モデル情報１１７として保存する（ステップＳ６０５）。これにより、モデルパラメータ評価処理（ステップＳ２０４）が終了して、ステップＳ２０５に移行する。

＜予測モデル情報１１７＞
図７は、予測モデル情報１１７の一例を示す説明図である。予測モデル情報１１７は、フィールドとして、モデル名３０１、モデル式３０２、モデルパラメータ３０３、および分布情報７００を有し、メモリ１７に保持される。同一行の各フィールド３０１～３０３，７００の値の組み合わせが、予測モデルを規定するエントリとなる。分布情報７００は、値として、たとえば、分布の種類とそのパラメータとを含む。

たとえば、「Ｎ」は正規分布を示す。「Ｎ（１０．２，３．２）」は、モデルパラメータａの正規分布を規定し、「１０．２」が平均、「３．２」が分散を示す。同様に、Ｎ（１．６，０．２）は、モデルパラメータｂの正規分布を規定し、「１．６」が平均、「０．２」が分散を示す。分布情報７００は、モデルパラメータ３０３の分布が表現できれば任意の形式でよい。

＜最適化計算処理（ステップＳ２０５）＞
図８は、図２に示した最適化計算実行モジュール１２０による最適化計算処理（ステップＳ２０５）の詳細な処理手順例を示すフローチャートである。最適化計算実行モジュール１２０は、入力として使用回数Ｍを取得する（ステップＳ８０１）。使用回数Ｍは、後述するモデルパラメータ３０３の値の組み合わせをシミュレーションする最低回数である。最適化計算実行モジュール１２０が使用回数Ｍを取得する方法は任意であり、たとえば、プログラムに埋め込む、または実行時にユーザ入力を受け付けるなどの方法がある。

最適化計算実行モジュール１２０は、予測条件生成モジュール１２０１を起動し、予測条件生成処理を実行し、予測条件として、パラメータインスタンス情報１２６を生成する（ステップＳ８０２）。予測条件生成処理（ステップＳ８０２）の詳細については図１０で後述する。

＜パラメータインスタンス情報１２６＞
図９は、パラメータインスタンス情報１２６の一例を示す説明図である。パラメータインスタンス情報１２６は、予測モデルごとに生成される。図９では、一例として、モデル名３０１が「Ｍ１」の予測モデルＭ１に関するパラメータインスタンス情報１２６を示す。以降、予測モデルＭ１を例に挙げて説明する。

パラメータインスタンス情報１２６は、フィールドとして、第１モデルパラメータ９０１と、第２モデルパラメータ９０２と、使用回数９０３と、を有する。第１モデルパラメータ９０１は、予測モデルＭ１のモデルパラメータ３０３である（ａ，ｂ）のうちａを示す。第２モデルパラメータ９０２は、予測モデルＭ１のモデルパラメータ３０３である（ａ，ｂ）のうちｂを示す。使用回数９０３は、その第１モデルパラメータ９０１および第２モデルパラメータ９０２の組み合わせのシミュレーションでの使用回数である。デフォルトでは、使用回数９０３は「０」であり、後述するステップＳ８０４において加算される。

図８に戻り、最適化計算実行モジュール１２０は、パラメータインスタンス情報１２６に格納されているすべての第１モデルパラメータ９０１および第２モデルパラメータ９０２の組み合わせ（以下、モデルパラメータ組）について、使用回数９０３がＭ以上になるまで、ステップＳ８０４からＳ８０７の処理を繰り返す（ステップＳ８０３：Ｎｏ）。たとえば、図９に示した（７．０，１．５８）、（７．０，１．６０）、…、（１３．４，１．６０）は、それぞれ、モデルパラメータ組である。ここで「Ｍ」とはステップＳ８０１で受け取った正の整数値である。

最適化計算実行モジュール１２０は、パラメータインスタンス情報１２６からモデルパラメータ組を１つ選択し、選択したモデルパラメータ組の使用回数９０３を１加算する（ステップＳ８０４）。この選択の方法は任意の方法でよいが、できる限りパラメータインスタンス情報１２６の全組み合わせを偏りなく選択する方法が望ましい。たとえば、ランダムに選択する、またはパラメータインスタンス情報１２６が表形式の場合は上から順に選択するなどの方法がある。

最適化計算実行モジュール１２０は、予測モジュール１３の予測条件情報１３６に、ステップＳ８０４で選択したモデルパラメータ組を設定し、予測モジュール１３の予測条件情報１３６以外の情報を初期状態に設定する（ステップＳ８０５）。

最適化計算実行モジュール１２０は、予測モジュール１３が終了状態になるまで（ステップＳ８０６：Ｎｏ）、試行モジュール１２０２を繰り返し起動して、試行モジュール１２０２により試行処理を実行する（ステップＳ８０７）。試行処理（ステップＳ８０７）は、試行モジュール１２０２により、パラメータインスタンス情報１２６（予測条件情報１３６）と最適化目的情報１２５とを用いて、行動関数情報１２７を生成する処理であり、その詳細は図１２で後述する。

予測モジュール１３が終了状態になった場合（ステップＳ８０６：Ｙｅｓ）、最適化計算実行モジュール１２０は、パラメータインスタンス情報１２６内のすべてのモデルパラメータ組をＭ回以上使用した後（ステップＳ８０３：Ｙｅｓ）、行動関数情報１２７を出力する（ステップＳ８０８）。行動関数情報１２７は試行モジュール１２０２によって作成される情報であり、詳細は後述する。これにより、最適化計算処理（ステップＳ２０５）が終了し、ステップＳ２０６に移行する。

最適化計算実行モジュール１２０の動作は、パラメータインスタンス情報１２６から１つのモデルパラメータ組を受け取り、そのモデルパラメータ組を、予測モジュール１３が初期状態から終了状態になるまで変更することなく使用する。これにより、予測モジュール１３の１ステップごとにモデルパラメータ組を変更する場合と比較し、非現実的なパラメータ組の変更が抑制される効果がある。

＜予測条件生成処理（ステップＳ８０２）＞
図１０は、図８に示した予測条件生成モジュール１２０１による予測条件生成処理（ステップＳ８０２）の詳細な処理手順例を示すフローチャートである。予測条件生成モジュール１２０１は、入力としてサンプル数Ｎを取得する（ステップＳ１００１）。サンプル数Ｎは、１以上の整数であり、作成するモデルパラメータ３０３の各々における値の個数である。たとえば、予測条件生成モジュール１２０１は、モデルパラメータａ，ｂの各々についてＮ個の値を作成することになる。予測条件生成モジュール１２０１がサンプル数Ｎを取得する方法は任意であり、プログラムに埋め込む、または実行時にユーザ入力を受け付けるなどの方法がある。

予測条件生成モジュール１２０１は、予測モデル情報１１７を読み込む（ステップＳ１００２）。予測条件生成モジュール１２０１は、予測モデル情報１１７のすべてのモデルパラメータ３０３について、ステップＳ１００４からステップＳ１００５の処理を繰り返し行う（ステップＳ１００３：Ｎｏ）。

予測条件生成モジュール１２０１は、予測モデル情報１１７からモデルパラメータ３０３を１個選択し、選択したモデルパラメータ３０３の分布情報７００を取得する（ステップＳ１００４）。たとえば、選択したモデルパラメータ３０３が「ａ」であれば、分布情報７００として、「Ｎ（１０．２，３．２）」が取得される。

予測条件生成モジュール１２０１は、選択したモデルパラメータ３０３について、取得した分布情報７００で特定される分布の累積分布関数における選択したモデルパラメータ３０３の累積分布関数の値の範囲が所定の確率の範囲となるように、選択したモデルパラメータ３０３が取り得る値の範囲を設定する（ステップＳ１００５）。

そして、予測条件生成モジュール１２０１は、選択したモデルパラメータ３０３が取り得る値の範囲から、選択したモデルパラメータ３０３の値をＮ個選択する（ステップＳ１００６）。ここで、予測条件生成モジュール１２０１が選択したモデルパラメータ３０３の具体的な値は、後に予測モジュール１３に入力される値である。

また、分布情報７００に従ってモデルパラメータ３０３の値を選択する方法としては、たとえば、累積分布関数の逆関数にＮ個の数値を等間隔に入力し、出力されたモデルパラメータ３０３の値を用いるといった方法がある。図１１で、モデルパラメータａを例に挙げて説明する。

図１１は、正規分布の累積分布関数の一例を示すグラフである。横軸Ｘは、第１モデルパラメータ９０１（モデルパラメータａ）が取り得る数値軸であり、縦軸Ｙは、第１モデルパラメータ９０１（モデルパラメータａ）に対応する分布の累積分布関数の値ｙを示す数値軸である。図１１では、分布の７０％（０．１５≦ａ≦０．８５）を起こり得る範囲だと考える場合の処理方法を示す。当該範囲は、当該分布の平均からの±１σの範囲に対応する。ｙ＝Ｆ（ｘ）は、第１モデルパラメータ９０１（モデルパラメータａ）の分布情報７００（Ｎ（１０．２，３．２））が示す正規分布の累積分布関数である。累積分布関数の値ｙが０．１５から０．８５の間にＮ個の点を等間隔に取り、その点に対応するモデルパラメータａの値（ＣとＤの間の区間に位置することになる）が、前記の選択されたモデルパラメータの値ａである。

図１０に戻り、予測条件生成モジュール１２０１は、すべてのモデルパラメータ３０３についてＮ個の具体的な数値を発生させた後（ステップＳ１００３：Ｙｅｓ）、各モデルパラメータ３０３の値の組み合わせをすべて作成し（本例ではＮをモデルパラメータ数に等しい回数乗じた数の組み合わせがある。本例では、Ｎ^２個。）、パラメータインスタンス情報１２６の第１モデルパラメータ９０１および第２モデルパラメータ９０２の組み合わせ（パラメータ組）として保存する（ステップＳ１００６）。この時点で、予測条件生成モジュール１２０１は、パラメータインスタンス情報１２６の使用回数９０３を０に初期化する。以上で予測条件生成処理（ステップＳ８０２）は終了し、ステップＳ８０３に移行する。

なお、ステップＳ１００５において、予測条件生成モジュール１２０１は、予測モジュール１３が行う予測計算が将来起こり得る状況を網羅的に再現するためのモデルパラメータ組を生成するための任意の方法が使用できる。たとえば、前記のように各モデルパラメータについて偏りなく分布に従った数値をＮ個発生する方法が考えられる。

また、シミュレーション結果への影響の大きなモデルパラメータ３０３については具体的な数値を多数発生させ、結果への影響の小さいモデルパラメータ３０３については具体的な数値の発生数を少数に留めるなど、予測モデルの性質に応じてモデルパラメータ３０３の値の発生の手法を変える方法も考えられる。すべてのモデルパラメータ３０３について同数のＮ個の数値を発生させる必要もなく、モデルパラメータ３０３のシミュレーション結果への影響度やモデルパラメータ３０３間の関係性に応じてモデルパラメータ３０３ごとに発生させる数値の数を異なる値にすることも可能である。

＜試行処理（ステップＳ８０７）＞
図１２は、図８に示した試行モジュール１２０２による試行処理（ステップＳ８０７）の詳細な処理手順例を示すフローチャートである。試行モジュール１２０２は、予測モジュール１３から状態情報１３７を取得する（ステップＳ１２０１）。状態情報１３７とは、シミュレーション状態を表現する数値の集合である。具体的には、たとえば、試行モジュール１２０２は、予測計算処理（ステップＳ１２０３）による状態情報１３７の更新前の行動関数情報１２７（図１３）において最もスコアが高い状態を、状態情報１３７として取得する。試行モジュール１２０２は、ステップＳ１２０１で受け取った状態に応じて、行動関数情報１２７を用いて次に取るべき行動を選択する（ステップＳ１２０２）。

＜行動関数情報１２７＞
図１３は、行動関数情報１２７の一例を示す説明図である。行動関数情報１２７とは、状態１３０１を入力とし、その状態１３０１における最も適切な行動１３０２を返す情報である。図１３では表形式の例を示したが、状態１３０１を示す値が連続値であったり、状態１３０１の数が膨大であったりする場合には効率的でない。したがって、表の代わりに、状態１３０１の値の範囲で記録したり、ニューラルネットワークで表現したりするなど、行動関数情報１２７の表現方法は任意である。

図１２に戻り、試行モジュール１２０２は、ステップＳ１２０２で選択した行動１３０２を予測計算実行モジュール１３０に入力し、予測計算実行モジュール１３０により予測計算処理を開始する（ステップＳ１２０３）。予測計算処理（ステップＳ１２０３）は、モデル式３０２に従って、次の状態１３０１を計算して状態情報１３７を更新する処理であり、図１４で後述する。

試行モジュール１２０２は、予測計算処理（ステップＳ１２０３）の終了後、予測計算実行モジュール１３０によって更新された状態情報１３７を取得する（ステップＳ１２０４）。試行モジュール１２０２は、ステップＳ１２０１で取得した状態情報１３７（更新前において最もスコアが高い状態１３０１）、ステップＳ１２０２で選択した行動１３０２、およびステップＳ１２０４で取得した更新された状態情報１３７を、最適化目的情報１２５の評価式パラメータとして、評価式に入力し、ステップＳ１２０２で選択した行動１３０２のスコアを算出する（ステップＳ１２０５）。スコアの高さが、ステップＳ１２０２で選択した行動１３０２の良否を示す。このスコアは、たとえば、強化学習における行動価値関数が出力するＱ値である。

試行モジュール１２０２は、ステップＳ１２０２で選択した行動１３０２とそのスコアに基づいて、行動関数情報１２７を更新して（ステップＳ１２０６）、ステップＳ８０６に戻る。具体的には、たとえば、試行モジュール１２０２は、ステップＳ１２０５で算出したスコアが、ステップＳ８０４で選択されたモデルパラメータ組における過去のスコアよりも高いスコアであれば、ステップＳ１２０２で選択した行動１３０２は良い行動であると判定する。この場合、試行モジュール１２０２は、ステップＳ１２０４で取得した更新された状態情報１３７が示す状態１３０１と、ステップＳ１２０２で選択した行動１３０２と、の組み合わせを、行動関数情報１２７の新規エントリとして追加する。

この試行処理（ステップＳ８０７）は、モデルフリー強化学習に分類される手法の一例であるが、状態１３０１に応じた適切な行動１３０２を学習する手法は任意の手法でよい。

＜予測計算処理（ステップＳ１２０３）＞
図１４は、図１２に示した予測計算実行モジュール１３０による予測計算処理（ステップＳ１２０３）の詳細な処理手順例を示すフローチャートである。予測計算実行モジュール１３０は、試行モジュール１２０２から、ステップＳ１２０２で選択された行動１３０２を取得する（ステップＳ１４０１）。予測計算実行モジュール１３０は、予測条件情報１３６を取得する（ステップＳ１４０２）。予測条件情報１３６は、ステップＳ８０４で選択したモデルパラメータ組を含む情報である。また、予測計算実行モジュール１３０は、予測モデル情報１１７（図７）を取得する（ステップＳ１４０３）。

予測計算実行モジュール１３０は、予測条件情報１３６のモデルパラメータ組を、取得した予測モデル情報１１７のモデル式３０２に入力することにより、最適化対象がステップＳ１２０２で選択された行動１３０２を取った場合の次の状態を計算する（ステップＳ１４０４）。予測計算実行モジュール１３０は、状態情報１３７を、ステップＳ１４０４によって計算された次の状態に更新し（ステップＳ１４０５）、ステップＳ１２０４に移行する。

ステップＳ１４０５において、予測モジュール１３の予測時刻があらかじめ設定された時刻に達する、または次に進むことのできない状態に到達するなど、予測の継続を行わない状態になった場合、予測計算実行モジュール１３０は、状態情報１３７に終了状態を示すデータを含める。この終了状態の情報は、最適化計算実行モジュール１２０がステップＳ８０６で実行する判定に用いられる。

このように、実施例１によれば、最適化システム１は、シミュレーションに基づいた最適化にあたり、シミュレーションに設定すべきモデルパラメータ３０３の組み合わせを乱数に拠らずに網羅性高く発生させ、それらすべてのモデルパラメータ３０３によりシミュレーションを実行した上で最適化結果を得る。したがって、将来起こり得る多様な状況を網羅性高くシミュレーションで再現することができる。

つぎに、実施例２について説明する。実施例２は、実施例１の予測モデルに現在の実測値５０３を与えた場合に、その実測値５０３が実施例１の予測モデルに基づく予測の範囲内にあるか否かを確認する。現在の実測値が過去の予測の範囲内であれば、ユーザはその予測に基づく最適化結果を信頼して利用することができる。実施例２では、実施例１との相違点を中心に説明するため、実施例１との共通点については説明を省略する。

＜最適化システムの構成例＞
図１５は、実施例２にかかる最適化システムのブロック構成例を示すブロック図である。実施例２では、最適化システム１は実行モジュール１４を有する。実行モジュール１４は、最適化モジュール１２による最適化処理により得られた行動関数情報１２７に基づいて、最適化対象が任意の行動を起こす際に起動される。

実行モジュール１４は、実行前確認モジュール１４１および現在データ情報１４５を有する。実行前確認モジュール１４１は、行動関数情報１２７に基づく行動を実行する前に、現在の最適化対象の状態を確認し、現状が最適化の前提となったシミュレーション条件に含まれていることを確認する。この処理により、最適化システム１は、行動関数情報１２７に基づく行動が有効か否かを確認することができる。実行モジュール１４の処理は、実行前確認モジュール１４１により実行される。

＜実行前確認処理＞
図１６は、実施例２にかかる実行前確認モジュール１４１による実行前確認処理の一例を示すフローチャートである。実行前確認モジュール１４１は、ユーザからの開始命令により起動する（ステップＳ１６００）。この時、最適化システム１は、実施例１で説明したすべての手順を、最低１回は実行済みであるとする。

実行前確認モジュール１４１は、データ取得モジュール１１０を起動し、データ取得モジュール１１０によりデータ取得処理を実行する（ステップＳ１６０１）。データ取得処理（ステップＳ１６０１）は、実施例１のデータ取得処理（ステップＳ２０３）（図４）と同一処理であるため、説明を省略する。

実行前確認モジュール１４１は、取得データ履歴情報１１６（図５）から、各センサ２について最新（現在から所定期間前まで）のセンサデータを抜き出し、現在データ情報１４５にコピーする（ステップＳ１６０２）。実行前確認モジュール１４１は、予測モデル情報１１７の各モデルパラメータ３０３について、現在データ情報１４５にコピーされたセンサデータから実測値５０３を取得する（ステップＳ１６０３）。

モデルパラメータ評価モジュール１１１のステップＳ６０２にて説明したのと同様、実施例２ではモデルパラメータ３０３の名称を大文字に変換したセンサ名５０２を持つセンサ２の実測値５０３をモデルパラメータ３０３の具体的な値とするが、ここには変換関数が存在してもよく、また、複数のセンサ２の実測値５０３に対して何かしらの計算を行い、モデルパラメータ３０３の具体的な値としてもよい。

実行前確認モジュール１４１は、ステップＳ１６０３で取得した、各モデルパラメータ３０３に対応するセンサ２の実測値５０３が、予測モデル情報１１７の分布情報７００で規定される分布の中心に十分に近いかを判定する（ステップＳ１６０４）。この判定（ステップＳ１６０４）は、具体的には、たとえば、予測条件生成モジュール１２０１のステップＳ１００５で発生したモデルパラメータ３０３の範囲（図１１のＣとＤとの間の区間）が利用される。図１１に示したように、シミュレーションのモデルパラメータ３０３としてＣからＤの間の値をステップＳ１００５で発生させた場合、この判定（ステップＳ１６０４）においても、実行前確認モジュール１４１は、実測値５０３がＣからＤの間にあることを確認する。

実行前確認モジュール１４１は、すべての予測モデル情報１１７のすべてのモデルパラメータ３０３に対して上記確認を実行し、すべてのモデルパラメータ３０３のすべての実測値５０３が当該範囲内であれば真を返し、１つでも範囲外のモデルパラメータ３０３があれば偽を返し、終了する（ステップＳ１６０５）。

実行前確認モジュール１４１は、その判定結果をユーザに視認可能に出力する。判定結果が真であれば、ユーザは、最新の実測値５０３が予測の範囲内にあることを知ることができる。図１６の説明では、実測値５０３を最近のセンサデータとして説明したが、実測値５０３を得る方法は他にも考えられる。

たとえば、直近数点の平均を使用する、またはモデルパラメータ評価モジュール１１１を再度実行し、最近のデータを含めた予測モデル情報１１７を作成し、その予測の平均を現在値とすることも可能である。さらに、現在の実測値５０３を１つの値にすることも必須でなく、前述のように予測モデル情報１１７を更新した上で、新たなパラメータの推定範囲が、最適化計算実行モジュール１２０を実行した時点での推定の範囲内にあるか否かを判定することも可能である。

なお、実施例２では、実行前確認モジュール１４１は、取得データ履歴情報１１６（図５）から、各センサ２について最新のセンサデータを抜き出し、現在データ情報１４５にコピーした（ステップＳ１６０２）。しかしながら、コピーの対象となるセンサデータは、最新（現在から所定期間前まで）のセンサデータに限らず、当該所定期間よりも過去の期間でもよい。すなわち、当該過去の期間においても、予測モデルによる予測が正しかったかを確認する場合にも適用可能である。

このように、実施例２によれば、最適化システム１は、行動関数情報１２７に基づく行動が有効か否かを確認することができる。

つぎに、実施例３について説明する。実施例３は、最適化の結果得られた行動関数情報１２７に基づく行動を実行する前に、予測モジュール１３を用いて当該行動を起こした場合の結果をシミュレーションにて確認し、その安全性を確かめる例である。実施例３では、実施例１および実施例２との相違点を中心に説明するため、実施例１および実施例２との共通点については説明を省略する。

＜最適化システムの構成例＞
図１７は、実施例３にかかる最適化システムのブロック構成例を示すブロック図である。実施例３では、データに基づいた予測モデルの作成が不要であるため、モデル作成モジュール１１は、モデルテンプレート情報１１５とモデルパラメータ情報１１９を有する。モデルパラメータ情報１１９は、モデルテンプレート情報１１５にあるモデルパラメータ３０３に設定する具体的な数値である。実施例３にかかる最適化システム１は、図２に示した実施例１にかかる最適化システム１と同様に動作するが、ステップＳ２０３およびステップＳ２０４は存在しない。一方、ステップＳ２０２の後に、最適化システム１は、ユーザから入力としてモデルパラメータ情報１１９を取得する。

＜最適化計算処理（ステップＳ２０５）＞
図１８は、実施例３にかかる最適化計算実行モジュール１２０による最適化計算処理（ステップＳ２０５）の詳細な処理手順例を示すフローチャートである。実施例３における最適化計算実行モジュール１２０は、予測条件生成処理（ステップＳ８０２）を実行しない。

最適化計算実行モジュール１２０は、予測モジュール１３の予測条件情報１３６にモデルパラメータ情報１１９を設定し、予測モジュール１３を初期状態に設定する（ステップＳ１８０１）。最適化計算実行モジュール１２０は、予測モジュール１３が終了状態になるまで（ステップＳ１８０２：Ｎｏ）、試行モジュール１２０２を繰り返し起動して試行処理を実行する（ステップＳ１８０３）。試行処理（ステップＳ１８０３）は、試行処理（ステップＳ８０７）と同一処理内容であるため説明を省略する。予測モジュール１３が終了状態になった場合（ステップＳ１８０２：Ｙｅｓ）、最適化計算実行モジュール１２０は、行動関数情報１２７を出力して（ステップＳ１８０４）、ステップＳ２０６に移行する。

また、図１７において、実行モジュール１４は、仮想実行モジュール１４３、現在データ情報１４５、および安全範囲情報１４８を有する。安全範囲情報１４８は、予測モジュール１３が有するシミュレータの状態を表す状態変数（状態情報１３７として実施例１にて説明）の一部または全部について、正常な状況にてそれぞれの値が取り得る範囲を示した情報である。安全範囲情報１４８は、ユーザによる入力としてあらかじめ与えられる。

＜仮想実行処理＞
図１９は、仮想実行モジュール１４３による仮想実行処理の一例を示すフローチャートである。仮想実行モジュール１４３は、上述した最適化システム１の動作を少なくとも１回実行させた後、ユーザの命令によって仮想実行処理を開始する（ステップＳ１９００）。

仮想実行モジュール１４３は、現在データ情報１４５を用いてモデルパラメータ情報１１９を生成する（ステップＳ１９０１）。モデルパラメータ評価モジュール１１１のステップＳ６０２にて説明したのと同様、実施例３ではモデルパラメータ３０３の名称を大文字に変換したセンサ名５０２を持つセンサ２の実測値５０３をモデルパラメータ３０３の具体的な値とするが、ここには変換関数が存在してもよく、また、複数のセンサ２の値に対して何かしらの計算を行い、パラメータの具体的な値としてもよい。

仮想実行モジュール１４３は、現在データ情報１４５を行動関数情報１２７に入力し、現状で最も適切とされる行動を選択する（ステップＳ１９０２）。

仮想実行モジュール１４３は、ステップＳ１９０２で選択した行動を予測条件情報１３６に入力し、予測計算実行モジュール１３０による予測計算処理を実行する（ステップＳ１９０３）。予測計算処理（ステップＳ１９０３）は、予測計算処理（ステップＳ１２０３）と同一処理内容であるため説明を省略する。予測計算処理（ステップＳ１９０３）により、状態情報１３７が更新される。

つぎに、仮想実行モジュール１４３は、更新された状態情報１３７を取得し、状態情報１３７の値が安全範囲情報１４８に示された値の範囲外にある変数があるか否かを確認する（ステップＳ１９０４）。仮想実行モジュール１４３は、ステップＳ１９０５で一つでも範囲外の変数があれば（ステップＳ１９０５：Ｙｅｓ）、仮想実行モジュール１４３は、偽を返して終了する（ステップＳ１９０６）。すべて範囲内の場合は（ステップＳ１９０５：Ｎｏ）、仮想実行モジュール１４３は、真を返し終了する（ステップＳ１９０７）。これにより、仮想実行処理が終了する。

仮想実行モジュール１４３は、行動の安全性を確認するモジュールである。ステップＳ１９０６において偽が返された場合、偽の判定結果は、現在の状態から選択した行動を実行に移すと危険な状態に陥る可能性があることを示す。この場合、最適化システム１のユーザは、たとえば、行動の実行の中止などを判断する。

仮想実行モジュール１４３は、現在の状態から１ステップのみ先を実行モジュール１４にて計算するが、任意のステップ数繰り返すことは可能である。また、現在データ情報１４５としてセンサデータを利用する際に複数の種類の方法があるのは実施例２で説明した内容と同様である。

このように、実施例３によれば、最適化システム１は、最適化の結果得られた行動関数情報１２７に基づく行動を実行する前に、予測モジュール１３を用いて当該行動を起こした場合の結果の安全性をシミュレーションにて確認する。したがって、最適化システム１が最適化対象を制御可能であれば、最適化システム１は、最適化対象を安全に制御することができる。

また、上述した実施例１および実施例２にかかる情報処理装置は、下記（１）～（８）のように構成することもできる。

（１）情報処理装置は、プログラム（各種ソフトウェアモジュール）を実行するプロセッサ１５と、前記プログラムを記憶するメモリ１７と、を有し、前記プロセッサ１５は、最適化対象の状態および行動から前記状態の次の状態を予測する予測モデルを構成する複数のパラメータの各々について、前記パラメータの累積分布関数の値が所定の確率の範囲となるように、前記パラメータの範囲を前記パラメータごとに設定する設定処理（ステップＳ１００５）と、前記設定処理によって設定された前記パラメータの範囲内における前記パラメータの値を前記パラメータごとに選択する選択処理（ステップＳ１００６）と、前記選択処理によって前記パラメータごとに選択された前記パラメータの値に基づいて、前記予測モデルに設定する予測条件を生成する生成処理（ステップＳ１００７）と、を実行する。

（２）上記（１）の情報処理装置において、前記生成処理では、前記プロセッサ１５は、前記パラメータごとに設定された前記パラメータの範囲内の値の各々を、前記複数のパラメータ間で組み合わせることにより、前記予測条件（パラメータ組）を生成する。

（３）上記（１）の情報処理装置において、前記選択処理では、前記プロセッサ１５は、前記累積分布関数に基づく前記所定の確率の範囲を等間隔で分割した各確率値に対応する前記パラメータの値の各々を選択する。

（４）上記（１）の情報処理装置において、前記プロセッサ１５は、前記パラメータの実測値を取得して、前記パラメータの最も確からしい値とそのばらつきを示す値とを推定する前記パラメータの分布を推定する推定処理（ステップＳ６０４）を実行し、前記設定処理では、前記プロセッサ１５は、前記複数のパラメータの各々について、前記推定処理によって推定された前記パラメータの分布に基づく累積分布関数の値が前記所定の確率の範囲となるように、前記パラメータの範囲を前記パラメータごとに設定する。

（５）上記（１）の情報処理装置において、前記プロセッサ１５は、所定期間内の前記パラメータの実測値を取得する取得処理（ステップＳ１６０１～Ｓ１６０３）と、前記取得処理によって取得された実測値が前記パラメータの範囲内であるか否かを判定する判定処理（ステップＳ１６０４）と、前記判定処理による判定結果を出力する出力処理（ステップＳ１６０５）と、を実行する。

（６）上記（１）の情報処理装置において、前記プロセッサ１５は、前記予測モデルに前記予測条件を設定することにより、前記最適化対象の前記状態および前記行動から前記状態の前記次の状態を予測する予測処理（ステップＳ１２０３）と、を実行する。

（７）上記（６）の情報処理装置において、前記プロセッサ１５は、前記状態、前記行動、および前記次の状態に基づいて、前記行動を評価するスコアを算出する算出処理（ステップＳ１２０５）と、前記算出処理によって算出されたスコアに基づいて、前記行動と前記次の状態との組み合わせを出力する出力処理（ステップＳ１２０６）と、を実行する。

（８）上記（７）の情報処理装置において、前記プロセッサ１５は、前記次の状態が所定の安全範囲内であるか否かを判定する判定処理（ステップＳ１９０４）を実行し、前記出力処理では、前記プロセッサ１５は、前記判定処理による判定結果を出力する（ステップＳ１９０５～Ｓ１９０７）。

なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。たとえば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。

また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、たとえば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。

各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置、又は、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）カード、ＳＤカード、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）の記録媒体に格納することができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。

１最適化システム
２センサ
１１モデル作成モジュール
１２最適化モジュール
１３予測モジュール
１４実行モジュール
１５プロセッサ
１７メモリ
１１０データ取得モジュール
１１１モデルパラメータ評価モジュール
１１５モデルテンプレート情報
１１６取得データ履歴情報
１１７予測モデル情報
１１７予測モデル
１１９モデルパラメータ情報
１２０最適化計算実行モジュール
１２５最適化目的情報
１２６パラメータインスタンス情報
１２７行動関数情報
１３０予測計算実行モジュール
１３６予測条件情報
１３７状態情報
１４１実行前確認モジュール
１４３仮想実行モジュール
１４３行動関数情報
１４３仮想実行モジュール
１４５現在データ情報
１４８安全範囲情報
３０３モデルパラメータ
１２０１予測条件生成モジュール
１２０２試行モジュール

Claims

プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する情報処理装置であって、
前記プロセッサは、
最適化対象の状態および行動から前記状態の次の状態を予測する予測モデルを構成する複数のパラメータの各々について、前記パラメータの範囲を前記パラメータごとに設定する設定処理と、
前記設定処理によって設定された前記パラメータの範囲内における前記パラメータの値を前記パラメータごとに選択する選択処理と、
前記選択処理によって前記パラメータごとに選択された前記パラメータの値に基づいて、前記予測モデルに設定する予測条件を生成する生成処理と、
を実行することを特徴とする情報処理装置。
請求項１に記載の情報処理装置であって、
前記生成処理では、前記プロセッサは、前記パラメータごとに設定された前記パラメータの範囲内の値の各々を、前記複数のパラメータ間で組み合わせることにより、前記予測条件を生成する、
ことを特徴とする情報処理装置。
請求項１に記載の情報処理装置であって、
前記プロセッサは、
前記パラメータの実測値を取得して、前記パラメータの確率分布を推定する推定処理を実行し、
前記設定処理では、前記プロセッサは、前記複数のパラメータの各々について、前記推定処理によって推定された前記確率分布を用いて、前記パラメータの値の各々を偏りなく選択する
ことを特徴とする情報処理装置。
請求項１に記載の情報処理装置であって、
前記プロセッサは、
所定期間内の前記パラメータの実測値を取得する取得処理と、
前記取得処理によって取得された実測値が前記パラメータの範囲内であるか否かを判定する判定処理と、
前記判定処理による判定結果を出力する出力処理と、
を実行することを特徴とする情報処理装置。
請求項１に記載の情報処理装置であって、
前記プロセッサは、
前記予測モデルに前記予測条件を設定することにより、前記最適化対象の前記状態および前記行動から前記状態の前記次の状態を予測する予測処理と、
を実行することを特徴とする情報処理装置。
請求項５に記載の情報処理装置であって、
前記プロセッサは、
前記状態、前記行動、および前記次の状態に基づいて、前記行動を評価するスコアを算出する算出処理と、
前記算出処理によって算出されたスコアに基づいて、前記行動と前記次の状態との組み合わせを出力する出力処理と、
を実行することを特徴とする情報処理装置。
請求項６に記載の情報処理装置であって、
前記プロセッサは、
前記次の状態が所定の安全範囲内であるか否かを判定する判定処理を実行し、
前記出力処理では、前記プロセッサは、前記判定処理による判定結果を出力する、
ことを特徴とする情報処理装置。
プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する情報処理装置が実行する情報処理方法であって、
前記情報処理方法は、
前記プロセッサが、
最適化対象の状態および行動から前記状態の次の状態を予測する予測モデルを構成する複数のパラメータの各々について、前記パラメータの範囲を前記パラメータごとに設定する設定処理と、
前記設定処理によって設定された前記パラメータの範囲内における前記パラメータの値を前記パラメータごとに選択する選択処理と、
前記選択処理によって前記パラメータごとに選択された前記パラメータの値に基づいて、前記予測モデルに設定する予測条件を生成する生成処理と、
を実行することを特徴とする情報処理方法。
プロセッサに、
最適化対象の状態および行動から前記状態の次の状態を予測する予測モデルを構成する複数のパラメータの各々について、前記パラメータの範囲を前記パラメータごとに設定する設定処理と、
前記設定処理によって設定された前記パラメータの範囲内における前記パラメータの値を前記パラメータごとに選択する選択処理と、
前記選択処理によって前記パラメータごとに選択された前記パラメータの値に基づいて、前記予測モデルに設定する予測条件を生成する生成処理と、
を実行させることを特徴とする情報処理プログラム。