JP7188579B2

JP7188579B2 - オンライン確率逆方向最適化システム、オンライン確率逆方向最適化方法およびオンライン確率逆方向最適化プログラム

Info

Publication number: JP7188579B2
Application number: JP2021521082A
Authority: JP
Inventors: ウィマーウィ－; 康央鈴木
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2018-10-25
Filing date: 2018-10-25
Publication date: 2022-12-13
Anticipated expiration: 2038-10-25
Also published as: JP2022502795A; US20210383246A1; WO2020084726A1; US20230368040A1

Description

本発明は、オンライン確率逆方向最適化システム、オンライン確率逆方向最適化方法、およびオンライン確率逆方向最適化プログラムに関する。

多くの意思決定システムでは、複雑な問題に直面するエージェントは、洗練された振る舞いを示すことができ、ある意味で最適である、または専門レベルであると考慮可能な解を生成できる。最適な決定または解に到達するためにエージェントが考慮した複数の恐らく競合する目的は、一般的に明示的に述べたり説明したりすることが非常に困難である。これにも関わらず、専門家レベルの意思決定の模倣または自動化のような多くの実用的な目的で使用可能になるように、特定の目的が考慮されたか否かを知ることが強く望まれている。逆方向最適化は、エージェントの最適な決定または解の観察結果を与えられたときにエージェントの目的を回復するための技術である。

実際に逆方向最適化がどのように使用されているかのいくつかの例が、特許文献１および特許文献２に記載されている。特許文献１は、ユーザが入力した治療対象基準を満たす放射線治療計画のためのパラメータを発見するための逆方向最適化を採用した。特許文献２は、予測された属性と観測された属性との間のより近い一致を達成するために、階層化に関連する属性を予測するために使用される順方向モデルへの入力パラメータを修正するために逆方向最適化を使用した。上記のいずれの例においても、逆方向最適化の他の標準的な適用例と同様に、逆方向最適化処理の開始時に所望の結果および対応するエージェントの適用された決定の観測結果が与えられ、目的関数に含まれるいくつかの用語、パラメータ、または重みを含むことができる目的関数が結果として得られる。

多くの実用的な適用例における共通の状況は、最適化問題が時間変化するデータまたはパラメータを有する、または依存できることである。この意味では、最適化問題はオンラインで変化すると言われ、エージェントは、時間の経過に伴う問題の変化の仕方に依存する最適解を導出する。殆どの既存の逆方向最適化技術は、このような問題への対処の仕方を開示しておらず、最近になってやっと、この問題が注目されている。非特許文献１には、問題入力データおよびエージェントの対応する経時的な決定が与えられたときに、オンラインで線形な目的を回復するための技術が記載されている。

動機付けの例として、看護師のシフト割り当てシステムのような従業員のスケジューリングを考える。専門的な病院のマネージャには、病院のコストの総和を最小化し、特定の割り当てに起因する非効率性を最小化するという目的が主に与えられる可能性がある。主な目的とは別に、各看護師に対して１日当たりの最大数の時間、１週間当たりの設定最小日数、少なくとも１人の看護師が割り当てられた全ての患者、看護師の個人的な優先権、患者の状況および医師の状況等に対して看護師のスキルレベルを合わせるための管理者選好等の、システムにおけるいくつかのハード制約およびソフト制約が存在する。さらに、目的および制約は、全て経時的に変化でき、季節、イベント、または患者の数等の、それらに影響を及ぼすいくつかのパラメータを有することができる。この問題は、看護師の数が増加するにつれて非常に複雑になり、最適なスケジュールまたは看護師の割り当ての特徴付けは、問題のパラメータまたは病院の状況に対して変化する。従って、専門的なマネージャの期待される決定に類似するように結果的にスケジュールが生成される処理を完全に自動化するために、遭遇する様々な状況と作成された対応する看護師の割り当ての観察結果から、オンライン方式で専門的なマネージャの目的および制約を学習できることは非常に重要である。

米国特許第９１５５９０８号明細書米国特許第６７５４５８８号明細書

Andreas Barmann, Sebastian Pokutta, and Oskar Schneider, "Emulating the expert: Inverse optimization through online learning," In Proceedings of the 34th International Conference on Machine Learning, pages 400-410, 2017.

標準的、または順方向の最適化問題とオンライン逆方向最適化との主な違いは、根本的な問題が変化しているので、エージェントの目的のより適切なモデルがより変化に適合することである。さらに、最適解が取り得る時間的依存性も考慮されるべきである。

時間変化する順方向問題の課題に加えて、最適化問題に含まれる制約の回復は、既存の成果でカバーされていない。標準的な目的に対する制約またはそれらの相対的な重要性を学習することは、安全性が重視される多くのアプリケーションで非常に重要であり、そのような情報を目的と共に同時に回復することは、実際の配備にとって非常に価値がある。

殆どがオフライン逆方向最適化技術である従来の研究では、目的の回復は、Karush-Kuhn-tuker(KKT)システムの分解および二重化のような最適化理論的手法に基づいているが、これは、問題データおよびエージェントの決定の品質に関連する課題のような確率的な課題を処理するための最良のアプローチではない可能性がある。同時に、例えば非特許文献１において、考慮される目的は、殆どが線形の形式であり、また、目的の重みには、異なる目的の不一致および重要性を学習することを困難にするいくつかの制限がある。

変化する問題データおよびエージェントの決定が与えられたとき、またはノイズのある測定、準最適な解または決定のようなデータ品質の課題に対処するときに、目的および制約の学習をオンライン方式で取り扱うためのより統一されたアプローチを作成するために、逆方向最適化に対するオンライン確率機械学習アプローチが望まれる。

本発明の主題は、上述した１つまたは複数の問題の影響を克服するか、または少なくとも低減するために、上記の特徴を実現することに向けられる。

本発明の目的の１つは、経時的に変化する問題データ、ストリーミング問題データ、および対応するエージェントの決定が与えられたときに、オンライン方式で目的および制約を学習できるオンライン確率逆方向最適化システム、オンライン確率逆方向最適化方法、およびオンライン確率逆方向最適化プログラムを提供することである。

本発明によるオンライン確率逆方向最適化システムは、変化する問題データおよび対応するエージェントの決定からオンライン方式で目的および制約を推論するオンライン確率逆方向最適化システムであって、オンライン確率逆方向最適化システムは、目的、制約、およびパラメータを含むことができる問題データを用いて、順方向最適化問題に基づいて最適解または決定を算出する算出部と、エージェントの決定を用いて逆方向最適化問題を求解する求解部とを備えることを特徴とする。

本発明によるオンライン確率逆方向最適化方法は、変化する問題データおよび対応するエージェントの決定からオンライン方式で目的および制約を推論するオンライン確率逆方向最適化システムで実行されるオンライン確率逆方向最適化方法であって、オンライン確率逆方向最適化システムが、目的、制約、およびパラメータを含むことができる問題データを用いて、順方向最適化問題に基づいて最適解または決定を算出し、エージェントの決定を用いて逆方向最適化問題を求解することを特徴とする。

本発明によるオンライン確率逆方向最適化プログラムは、コンピュータに搭載され、変化する問題データおよび対応するエージェントの決定からオンライン方式で目的および制約を推論するオンライン確率逆方向最適化プログラムであって、コンピュータに、目的、制約、およびパラメータを含むことができる問題データを用いて、順方向最適化問題に基づいて最適解または決定を算出する算出処理、およびエージェントの決定を用いて逆方向最適化問題を求解する求解処理を実行させることを特徴とする。

本発明によれば、経時的に変化する問題データ、ストリーミング問題データ、および対応するエージェントの決定が与えられたときに、オンライン方式で目的および制約を学習できる。

本発明の第１の実施形態に係るオンライン確率逆方向最適化システム１００の構成例を示すブロック図である。本発明の第１の実施形態に係るオンライン確率逆方向最適化システム１００の動作の一例を示す説明図である。本発明の第１の実施形態に係るオンライン確率逆方向最適化システム１００の動作の一例を示すフローチャートである。本発明によるオンライン確率逆方向最適化システムの概要を示すブロック図である。

本発明は、変化する問題データまたはストリーミング問題データ、および対応するエージェントの決定からオンライン方式で目的および制約を推論する。推論された目的および制約は、ある類似性の基準に関してエージェントの決定に類似した最適な決定または解を算出するための順方向最適化ソルバで使用可能である。

機械学習技術を採用することにより、オンラインでの目的および制約の学習は、確率的なフレームワークの下で実行可能である。機械学習に基づいた解のように、このアプローチは、問題またはパラメータ情報を含むより多くの訓練データおよび対応するエージェントの決定が、異なるタスクのために収集されるほど、より効果的であると予測される。生成される可能性がある対応する決定にフィードバックまたは補正が提供されることによって、目的および制約が改善される。

提案された発明を使用すると、エージェントの時間に依存している可能性がある意図またはパラメータに依存している可能性がある意図は、変化する問題データおよび対応するエージェントの決定からオンライン方式で目的および制約を回復または学習することによって捕捉可能である。次いで、推論された目的および制約は、観察された決定の説明、エージェントの意図の記述、順方向最適化器の設計の改善に用いられ、類似レベルの意思決定機能の模倣および自動化を達成できる。

機械学習アプローチは、オンライン逆方向最適化問題を最大尤度問題として扱うことができる確率的方法を採用することを可能にし、これにより、確率的に観察されたエージェントの決定の特性化を可能にする。同時に、このアプローチは、KKTおよび二元化の概念に基づくもののような最適化理論測定の考慮を可能にするために十分な柔軟性を有する。

本発明は、問題が経時的に変化し、対応するエージェントの決定がそのような変化から影響を受けると考えられるオンライン設定により、特許文献１および特許文献２のような先行技術とは異なる。従って、エージェントの意図は、変化にも同様に適合すると仮定される。非特許文献１はオンライン逆方向最適化を扱うが、本発明は、学習処理の一部として制約を扱うことができる。また、先行技術と比較して、目的および制約の構造に制限は仮定されない。提案された確率的定式化は、データおよび決定の質に関連する概念を取り扱うための統計的概念の使用を利用するためにも採用される可能性がある。

以下、図面を参照して本発明の実施形態を説明する。本発明は、オンライン確率逆方向最適化のための方法およびシステムに関する。すなわち、順方向最適化ソルバで使用されるための、変化する問題データおよび対応するエージェントの決定からオンライン方式で目的および制約を学習する方法およびシステムに関する。本開示の主題の好ましい別の実施形態および他の態様は、添付の図面と関連して読めば、以下の特定の実施形態の詳細な説明を参照することによって最もよく理解されるであろう。

オンライン確率逆方向最適化のための方法およびシステムに関する本開示の実施形態の以下の説明は、本質的に単に例となるものであり、開示またはその適用または使用を制限することを意図するものではない。

＜第１の実施形態＞
図１は、本発明の第１の実施形態に係るオンライン確率逆方向最適化システム１００の構成例を示すブロック図である。また、図２は、本発明の第１の実施形態に係るオンライン確率逆方向最適化システム１００の動作の一例を示す説明図である。本実施形態のオンライン確率逆方向最適化システム１００は、エージェントの決定を模倣し、エージェントの意図を異なる設定で一般化するために、順方向最適化器で使用されるための変化する問題データおよびエージェントの決定から、目的の重みおよび制約をオンライン方式で推論する。

本実施形態に係るオンライン確率逆方向最適化システム１００は、順方向最適化器１０１と、最適化されるシステム１０２と、逆方向最適化器１０３とを含む。システム１０２は、一般的に、最適化されるべき変数に影響を及ぼすことができる、またはエージェントまたは順方向最適化器１０１により算出または適用されるべき決定の品質を測定するための性能基準で直接使用可能である１つまたは複数の観測可能なパラメータまたは観測可能な信号を有する。

本実施形態によれば、各時点で、システム１０２は、最適化されるべき量が依存する可能性があるいくつかの観測可能なパラメータまたは測定可能なパラメータを与える。問題データまたは問題パラメータに基づいて、順方向最適化器１０１は、初期化された目的および制約（図２に示す「初期重み」）、または逆方向最適化器１０３から学習された目的および制約に基づいて、最適な決定（図２に示す「生成された決定データ」）を算出できる。一方、エージェント１１０は、学習のための履歴訓練データを使用する場合には、問題データに基づいて、算出されたエージェントの決定（図２に示す「エージェント決定データ」）を有し、またはオンライン学習を実行する場合にはエージェントの決定を算出できる。エージェントの決定は、目的および制約を更新するために逆方向最適化器１０３で使用される。学習された目的および制約、または更新された目的および制約（図２に示す「更新された重み」）は、次の反復または時間ステップで使用するために、順方向最適化器１０１に送られる。

本発明のオンライン確率逆方向最適化システム１００は、看護師シフト割り当てシステムのような従業員スケジューリングシステムに適用可能である。従って、本実施形態のオンライン確率逆方向最適化システム１００は、オンライン従業員スケジューリングシステムと呼ぶことができる。この文脈において、順方向最適化器１０１は、変化する状況パラメータおよび制約が与えられたときに最適なスケジュールを生成するための決定または従業員タスク割り当てを算出する。

システム１０２の出力は、順方向最適化器１０１において最適化されている変数または量に関連する、問題観測、測定、またはパラメータである可能性がある。順方向最適化器１０１の出力は、制約を満たしながら、ある目的を達成するために適用されることが求められる最適な決定である。逆方向最適化器１０３の出力は、目的および制約、またはそれらの相対的な重要性であり、具体的には最適化が求められるように符号化する。従業員スケジューリングの例では、システム１０２からの問題データは、全従業員の作業時間の総数と、特定の期間の仕事または顧客の総数である可能性があり、順方向最適化器１０１は、初期化された目的および制約または現在の目的および制約に基づいて、各従業員に割り当てられた作業時間および特定のタスクの数を含むスケジューリングまたは割り当て決定を算出でき、逆方向最適化器１０３は、従業員の会社のシフトのコストと、顧客の制約と、従業員の優先権との間の相対的な重要度を出力できる。

順方向最適化器１０１は、目的関数、制約の集合、および関連するパラメータの集合で構成される最適化問題を求解する。目的関数は、システム１０２に関する決定の品質を測定するために使用される異なる性能基準に関連する１つまたは複数の用語または特徴を含んでもよい。目的関数は、入力および出力制約を伴うことができ、制約付き最適化問題は、与えられた性能基準の点で最適であり、制約を満たす決定が発見されるように求解される。

単純な場合として、順方向最適化器１０１における目的関数は、手動で選択された、またはデータから自動で生成された、項目または特徴の加重和である可能性がある。同様に、制約も、手動または自動で生成される可能性がある特徴で構成される。看護師シフト割り当ての例では、いくつかの取り得る目的の特徴は、選択されたスケジュールの病院に対するコスト、または患者、医者、および看護師の満足度に対するシフト割り当ての効果である可能性がある。ハード制約は、各患者に対する看護師の数、看護師の週ごとのサービスの最小日数、および各看護師に対するシフトごとの最大時間数等の特徴を含むことができる。ソフト制約は、マネージャの優先権、看護師と患者の状態の複雑さのレベルとの暗黙のスキルレベルマッチング、および看護師の個人的な優先権を含んでもよい。

逆方向最適化器１０３は、機械学習技術に基づいた更新方法を用いて、目的および制約の更新器として作用する。特に、逆方向最適化器１０３は、最尤推定問題として定式化されたオンライン機械学習問題として、逆方向最適化問題を扱う。尤度関数は、エージェントの決定の分布を特徴付けるために選択され、また目的および制約の適切な重みまたはパラメータは、観測されたエージェントの決定の尤度を最大化する解である。観察されたデータの基準または分布を選択する際の自由度とは別に、正則化および他の制約も追加可能である。例えば、生成された解または生成された決定の特徴が、エージェントの決定の特徴と一致すべきという制約を実施できる。次いで、更新メカニズムは、生成された決定の特徴と実際のエージェントの決定の特徴との間の差分を含んでもよい。同様に、適切な目的および制約をさらに詳細に特徴付けるために、KKTまたは双対性のギャップ条件に基づいた制約が課される可能性がある。ラグランジュ緩和手法を用いることにより、最大尤度定式化における目的のための拡張構造の解から、目的と一緒に制約またはそれらの相対的な重要度または優先順位付けが学習可能である。

設計により、提案されたアプローチは、目的および制約のパラメータに何ら制約を必要とすることなく、逆方向最適化のための確率的基準を使用する。さらに、目的および制約は、オンライン方式で同時に学習される。アプローチの柔軟性のために、異なる性能基準に基づいた既存の方法よりも機能が優れている。

目的および制約の初期重みとして、ランダムな初期化を使用するか、または利用可能であれば標準逆方向最適化技術をエージェントの決定データに適用することが可能である。オンライン学習アルゴリズムとして、提案されたオンライン確率逆方向最適化アルゴリズムは、標準逆方向最適化シナリオにも適用可能であり、この方法は、問題データの履歴集合および対応するエージェントの決定に適用され、エージェントの決定および問題データの数が多い場合には、学習の観点からより効率的であるという利点がある。

目的および制約の更新は、新しい問題データおよびエージェントの決定が観察可能である限り継続する。この意味で、エージェントが、順方向最適化器１０１により生成された解、または解に対する補正を提供する限り、いくつかの性能基準に関して収束が達成されるまで、学習処理が継続される。

問題データおよび対応するエージェントの決定の最新のサンプルを使用して、各時刻における目的および制約の更新を計算する通常の場合とは別に、現在のインスタンスからある数の最近のサンプルを使用するスライディングウィンドウまたはミニバッチアプローチを使用することも可能である。これにより、オンライン逆方向最適化学習処理の収束を潜在的に高速化できる。

順方向最適化器１０１および逆方向最適化器１０３は、プログラム（逆方向最適化プログラム）に従って動作するコンピュータのCPU(Central Processing Unit)によってそれぞれ実現される。例えば、プログラムは、オンライン確率逆方向最適化システム１００に含まれる記憶部（図示せず）に記憶されてもよく、CPUは、プログラムを読み出し、プログラムに従って順方向最適化器１０１および逆方向最適化器１０３として動作してもよい。

本実施形態のオンライン確率逆方向最適化システム１００では、順方向最適化器１０１および逆方向最適化器１０３がそれぞれ専用のハードウェアで実現されてもよい。さらに、本実施形態のオンライン確率逆方向最適化システム１００は、有線または無線で接続された２以上の物理的に分離した装置で構成されてもよい。

以下、本実施形態のオンライン確率逆方向最適化システム１００の動作の一例を説明する。図３は、本発明の第１の実施形態に係るオンライン確率逆方向最適化システム１００の動作の一例を示すフローチャートである。

ステップS101において、システム１０２から問題データまたは問題パラメータが取得される。このステップは、ステップまたは反復ごとに行われる。

ステップS102において、処理の第１のステップであれば、目的および制約は、履歴訓練データが利用可能であれば履歴訓練データにバッチ逆方向最適化技術を適用するという初期化を介して得られる。または、学習処理の中間部分であれば、目的および制約は、以前に更新された目的および更新された重みを使用するという初期化を介して得られる。

ステップS103において、問題パラメータ、目的、および制約を用いて、順方向最適化器１０１は、制約付き最適化問題を求解することによって最適な決定を算出する。

ステップS104において、利用可能であれば、問題パラメータに対応するエージェントの決定がアクセスされる。

ステップS105において、ステップS103で生成されたエージェントの決定と最適な決定とを用いて、逆方向最適化器１０３は、更新された目的および制約を算出するために、オンライン機械学習問題を求解する。

エージェントの決定が利用可能である場合（ステップS106におけるYes）、オンライン確率逆方向最適化システム１００は、ステップS101の処理を再度行う。エージェントの決定が利用可能でない場合（ステップS106におけるNo）、オンライン確率逆方向最適化システム１００は、図３に示す動作を終了する。

このように、本実施形態では、順方向最適化器１０１は、システム１０２からのデータまたはパラメータに依存し、または影響されることがある目的および制約を用いて決定を生成し、逆方向最適化器１０３は、目的および制約を更新するために、エージェントの決定および生成された決定をオンライン機械学習定式に使用する。

以上の構成により、オンライン方式での問題データおよび対応するエージェントの決定から、目的および制約の学習が実現可能になる。学習された目的および制約は、エージェントの意思決定能力を模倣し自動化するために使用可能であり、問題の変化する性質に対するエージェントの意図の依存性が考慮される。すなわち、本発明によれば、オンライン確率逆方向最適化方法を使用して学習された目的および制約は、期待度の特徴およびレベルに関して、エージェントの決定に一致する決定を算出するための順方向最適化器で使用可能である。

看護師シフト割り当ての場合を考えると、看護スタッフ全体のスケジュールまたは割り当てを生成するために順方向最適化器が使用可能である。日付、時間、季節、および特定の事象に応じて、病院マネージャは、病院のいくつかの一般的な目標または目的を満たす良好なスケジュールを作成し、多くの異なるハード制約およびソフト制約をバランスさせる必要がある。少数の要因と看護師の数に関して、スタッフ割り当て問題は、かなり容易に解消される。しかしながら実際には、外的要因とスタッフの数が大きくなる可能性がある。さらに、病院マネージャには、明示的に述べることが困難である多くの暗黙の目的および制約を考慮することが求められる。

手動チューニングを回避し、病院マネージャの意図の取り得る時間変化の性質、およびパラメータ変化の性質を自動的に捕捉するために、本発明は、良好なスケジュールを生成するために必要とされる複雑な意思決定を自動化する順方向最適化器を調整する目的で、病院問題データおよび対応する看護師割り当てを使用して、オンライン方式または逐次的な方式で、マネージャの目的および制約を学習することを提案する。

病院の問題データには、患者の数、ある条件の季節性、患者の身体状態等の情報が含まれていてもよい。病院マネージャの決定には、特定の患者、シフト、および各看護師に割り当てられた時間の数が含まれる。このシフトは、上述したような病院内の多くの要因に依存してもよい。

順方向最適化器またはスケジューラは、病院への特定のシフト割り当ての結果として得られるコスト、または生成されたスケジュールに基づいた看護師に関する患者、医師の満足感等の、病院への関心のある量に基づいて手動で選択可能な目的および制約を要する。ハード制約は、各看護師の許容可能な最大シフトおよび最小シフトに関連してもよい。ソフト制約のためのいくつかの特徴は、特定の患者の条件、および同じシフトにおける他のスタッフに対する各看護師のスキルおよび互換性を含んでもよい。他の特徴はまた、看護スタッフの全体のあるスケジュールまたは割り当てのより詳細な特徴付けを得るために、割り当てデータから手動的に設計または自動的に形成可能である。

学習処理の開始時に、目的および制約の重みがランダムに初期化されてもよく、順方向最適化器は、目的および制約、およびそれらの相対的な重要性に使用される特徴の意味に最適なスケジュールまたはシフト割り当てを生成する。結果として得られるスケジュール、および病院マネージャによって作成されたスケジュールは、類似性または偏差を測定し、目的および制約を更新するために、逆方向最適化器において使用可能である。この処理は、病院マネージャのスケジュールのより多くのサンプルが利用可能になるまで、または収束が達成されるまで継続される。

以下、本発明の概要を説明する。図４は、本発明によるオンライン確率逆方向最適化システムの概要を示すブロック図である。本発明によるオンライン確率逆方向最適化システム１０は、変化する問題データおよび対応するエージェントの決定からオンライン方式で目的および制約を推論し、オンライン確率逆方向最適化システム１０は、目的、制約、およびパラメータを含むことができる問題データを用いて、順方向最適化問題に基づいて最適解または決定を算出する算出部１１（例えば、順方向最適化器１０１）と、エージェントの決定を用いて逆方向最適化問題を求解する求解部１２（例えば、逆方向最適化器１０３）とを備える。

そのような構成により、オンライン確率逆方向最適化システムは、経時的に変化する問題データ、ストリーミング問題データ、および対応するエージェントの決定が与えられたときに、オンライン方式で目的および制約を学習できる。

さらに、求解部１２は、エージェントの解と、１つ以上の類似度を用いて算出部１１により算出された最適解または決定との間の類似度または偏差を測定してもよい。

そのような構成により、オンライン確率逆方向最適化システムは、目的および制約をより効果的に学習できる。

さらに、求解部１２は、逆方向最適化問題を求解するためのエージェントの決定が与えられたとき、モデルの尤度を最大化するオンライン機械学習を使用してもよい。

そのような構成により、オンライン確率逆方向最適化システムは、より効率的に逆方向最適化問題を求解できる。

さらに、求解部１２は、最大尤度定式化と、求解部１２で使用される測定された類似度または偏差とに基づいて、目的および制約を更新してもよい。

そのような構成により、オンライン確率逆方向最適化システムは、学習の精度を高めることができる。

さらに、求解部１２は、目的および制約を更新するために、ラグランジュ緩和および双対性のギャップ条件を採用した拡張オンライン最大尤度問題として、逆方向最適化問題を求解してもよい。

そのような構成により、オンライン確率逆方向最適化システムは、エージェント、またはいくつかの種類の技能または専門知識を提示するいくつかのエージェントによって、変化する問題データおよび対応する解または決定が与えられたときに、オンライン方式で目的および制約を学習し、更新できる。

好ましい代わりの実施形態の前述の説明は、本開示の発明の概念の範囲または適用性を限定または制限することを意図しない。当業者は、以下の特許請求の範囲に定義された開示の精神および範囲から逸脱することなく、様々な変更、修正、および変形が可能であることを、このような説明および添付の図面および特許請求の範囲から容易に認識するであろう。

１０、１００オンライン確率逆方向最適化システム
１１算出部
１２求解部
１０１順方向最適化器
１０２システム
１０３逆方向最適化器
１１０エージェント

Claims

変化する問題データおよび対応するエージェントの決定からオンライン方式で目的および制約を推論するオンライン確率逆方向最適化システムであって、
前記オンライン確率逆方向最適化システムは、
目的、制約、およびパラメータを含むことができる前記問題データを用いて、順方向最適化問題に基づいて最適解または決定を算出する算出部と、
前記エージェントの決定を用いて逆方向最適化問題を求解する求解部とを備える
ことを特徴とするオンライン確率逆方向最適化システム。
求解部は、エージェントの解と、１つ以上の類似度を用いて算出部により算出された最適解または決定との間の類似度または偏差を測定する
請求項１記載のオンライン確率逆方向最適化システム。
求解部は、逆方向最適化問題を求解するためのエージェントの決定が与えられたとき、モデルの尤度を最大化するオンライン機械学習を使用する
請求項２記載のオンライン確率逆方向最適化システム。
求解部は、最大尤度定式化と、前記求解部で使用される測定された類似度または偏差とに基づいて、目的および制約を更新する
請求項３記載のオンライン確率逆方向最適化システム。
求解部は、目的および制約を更新するために、ラグランジュ緩和および双対性のギャップ条件を採用した拡張オンライン最大尤度問題として、逆方向最適化問題を求解する
請求項４記載のオンライン確率逆方向最適化システム。
変化する問題データおよび対応するエージェントの決定からオンライン方式で目的および制約を推論するオンライン確率逆方向最適化システムで実行されるオンライン確率逆方向最適化方法であって、
前記オンライン確率逆方向最適化システムが、
目的、制約、およびパラメータを含むことができる前記問題データを用いて、順方向最適化問題に基づいて最適解または決定を算出し、
前記エージェントの決定を用いて逆方向最適化問題を求解する
ことを特徴とするオンライン確率逆方向最適化方法。
オンライン確率逆方向最適化システムが、
エージェントの解と、１つ以上の類似度を用いて算出された最適解または決定との間の類似度または偏差を測定する
請求項６記載のオンライン確率逆方向最適化方法。
コンピュータに搭載され、変化する問題データおよび対応するエージェントの決定からオンライン方式で目的および制約を推論するオンライン確率逆方向最適化プログラムであって、
前記コンピュータに、
目的、制約、およびパラメータを含むことができる前記問題データを用いて、順方向最適化問題に基づいて最適解または決定を算出する算出処理、および
前記エージェントの決定を用いて逆方向最適化問題を求解する求解処理
を実行させるためのオンライン確率逆方向最適化プログラム。
コンピュータに、
エージェントの解と、１つ以上の類似度を用いて算出された最適解または決定との間の類似度または偏差を測定する測定処理を実行させる
請求項８記載のオンライン確率逆方向最適化プログラム。