JP6981539B2 - モデル推定システム、モデル推定方法およびモデル推定プログラム - Google Patents

モデル推定システム、モデル推定方法およびモデル推定プログラム Download PDF

Info

Publication number
JP6981539B2
JP6981539B2 JP2020508787A JP2020508787A JP6981539B2 JP 6981539 B2 JP6981539 B2 JP 6981539B2 JP 2020508787 A JP2020508787 A JP 2020508787A JP 2020508787 A JP2020508787 A JP 2020508787A JP 6981539 B2 JP6981539 B2 JP 6981539B2
Authority
JP
Japan
Prior art keywords
model
objective function
behavior
data
behavior data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020508787A
Other languages
English (en)
Other versions
JPWO2019186996A1 (ja
Inventor
力 江藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2019186996A1 publication Critical patent/JPWO2019186996A1/ja
Application granted granted Critical
Publication of JP6981539B2 publication Critical patent/JP6981539B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/043Distributed expert systems; Blackboards
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0206Price or cost determination based on market factors

Description

本発明は、環境の状態に応じた行動を決定するモデルを推定するモデル推定システム、モデル推定方法およびモデル推定プログラムに関する。
オペレーションズリサーチの一分野として、数理最適化が発展している。数理最適化は、例えば、小売の分野では、最適な価格を決定する際に利用され、自動運転の分野では、適切な経路を決定する際に利用される。さらに、シミュレータに代表される予測モデルを用いることで、より最適な情報を決定する方法も知られている。
例えば、特許文献1には、実世界の環境に応じた制御学習を効率的に実現する情報処理装置が記載されている。特許文献1に記載された情報処理装置は、実世界の環境情報である環境パラメータを複数のクラスタに分類し、クラスタごとに生成モデルを学習する。また、特許文献1に記載された情報処理装置は、コストを低減するため、物理シミュレータを利用した制御学習を実現することで、各種の制限を排除する。
国際公開第2017/163538号
一方、数理最適化における目的関数の設定は難しいことも知られている。例えば、小売りにおける価格設定において、価格に基づく売上の予測モデルを生成したとする。短期的には、その予測モデルにより予測される売上数から適切な価格を設定できたとしても、中期的にどのように売り上げを積み重ねていけばよいかを設定することは難しい。
また、自動運転での経路設定において、ハンドルやアクセスの操作に基づく車の運動を予測するモデルを生成したとする。その予測モデルに加え、手作業で作成した目的関数を用いてある一区間での適切な経路を設定できたとしても、時々刻々と変化する運転環境やドライバの主観の差異を考慮すると、全体の運転区間を通してどのような基準(目的関数)で経路を設定すればよいか判断することも難しい。
このような問題に対し、専門家の行動履歴と予測モデルとをもとに、ある状態に対する行動の良さを推定する逆強化学習が知られている。行動の良さを定量的に定義することで、専門家に似た行動を模倣することが可能になる。例えば、自動走行の場合、ドライバの走行データを用いて逆強化学習を行うことで、モデル予測制御を行う目的関数を生成できる。この逆強化学習では、モデル予測制御を実行(シミュレーション)することで、自律走行データを生成できるため、この自律走行データとドライバの走行データとを近づけるように適切な目的関数を生成することが可能になる。
一方、ドライバの走行データの中には、特徴の異なるドライバの走行データや、運転シーンの異なる状況での走行データが含まれることが一般的である。そのため、これらの走行データを様々な状況や特徴で分類して学習させようとすると、非常にコストがかかってしまうという問題がある。
特許文献1に記載された情報処理装置では、優良なエキスパート情報が、目的地に速く到着することができるドライバや、安全運転を行うドライバなど、種々のポリシに応じて定義される。しかし、ドライバによって、保守的か攻撃的かの意図(性格)は異なり、その意図(性格)も、運転シーンによって異なることが一般的である。そのため、特許文献1に記載されているようにユーザが恣意的に分類する条件を定義することも難しく、また、分類する条件ごと(例えば、保守的か攻撃的かを示すユーザの意図)にデータを分けて学習させるのもコストがかかってしまうという問題がある。
そこで、本発明は、条件に応じて適用する目的関数を選択可能なモデルを効率よく推定できるモデル推定システム、モデル推定方法およびモデル推定プログラムを提供することを目的とする。
本発明のモデル推定システムは、環境の状態とその環境の元で行われる行動とを対応付けたデータである行動データ、行動データに基づいて行動に応じた状態を予測する予測モデル、および、状態と行動とを合わせて評価する目的関数の説明変数とを入力する入力部と、階層混合エキスパートモデルの最下層のノードに目的関数が配される分岐構造を設定する構造設定部と、分岐構造に従って分割される行動データに対して予測モデルを適用して予測される状態に基づいて、階層混合エキスパートモデルのノードにおける分岐条件および説明変数を含む目的関数を学習する学習部とを備えたことを特徴とする。
本発明のモデル推定方法は、環境の状態とその環境の元で行われる行動とを対応付けたデータである行動データ、行動データに基づいて行動に応じた状態を予測する予測モデル、および、状態と行動とを合わせて評価する目的関数の説明変数とを入力し、階層混合エキスパートモデルの最下層のノードに目的関数が配される分岐構造を設定し、分岐構造に従って分割される行動データに対して予測モデルを適用して予測される状態に基づいて、階層混合エキスパートモデルのノードにおける分岐条件および説明変数を含む目的関数を学習することを特徴とする。
本発明のモデル推定プログラムは、コンピュータに、環境の状態とその環境の元で行われる行動とを対応付けたデータである行動データ、行動データに基づいて行動に応じた状態を予測する予測モデル、および、状態と行動とを合わせて評価する目的関数の説明変数とを入力する入力処理、階層混合エキスパートモデルの最下層のノードに目的関数が配される分岐構造を設定する構造設定処理、および、分岐構造に従って分割される行動データに対して予測モデルを適用して予測される状態に基づいて、階層混合エキスパートモデルのノードにおける分岐条件および説明変数を含む目的関数を学習する学習処理を実行させることを特徴とする。
本発明によれば、条件に応じて適用する目的関数を選択可能なモデルを効率よく学習できる。
本発明によるモデル推定システムの一実施形態の構成例を示すブロック図である。 分岐構造の例を示す説明図である。 モデル推定結果の例を示す説明図である。 モデル推定システムの動作例を示すフローチャートである。 本発明によるモデル推定システムの概要を示すブロック図である。
以下、本発明の実施形態を図面を参照して説明する。本発明において推定するモデルは、階層混合エキスパートモデル(HME(Hierarchical Mixtures of Experts)モデル)の最下層のノードに目的関数が配される分岐構造をもつものである。すなわち、本発明において推定するモデルは、複数のエキスパートネットワークがツリー状の階層構造で連結されたモデルである。各分岐ノードには、入力に応じて分岐を振り分ける条件(分岐条件)が設けられる。
具体的には、各分岐ノードに門関数と呼ばれるノードが割り当てられ、入力データに対して各門で分岐確率が算出され、辿り着く確率が最も高い葉ノードに対応する目的関数が選択される。
図1は、本発明によるモデル推定システムの一実施形態の構成例を示すブロック図である。本実施形態のモデル推定システム100は、データ入力装置101と、構造設定部102と、データ分割部103と、モデル学習部104と、モデル推定結果出力装置105とを備えている。
モデル推定システム100は、入力データ111が入力されると、その入力データ111に対してデータの場合分けおよび各場合における目的関数および分岐条件を学習し、学習された分岐条件および各場合における目的関数をモデル推定結果112として出力する。
データ入力装置101は、入力データ111を入力するための装置である。データ入力装置101は、モデル推定に必要な各種データを入力する。具体的には、データ入力装置101は、入力データ111として、環境の状態とその環境の元で行われる行動とを対応付けたデータ(以下、行動データと記す。)を入力する。
本実施形態では、ある環境の下で専門家が意思決定した履歴データを行動データとして用いることにより逆強化学習が行われる。このような行動データを用いることで、専門家の行動を模倣したモデル予測制御を行うことが可能になる。また、目的関数を報酬関数と読み替えることで、強化学習を行うことが可能になる。以下では、行動データのことを、専門家の意思決定履歴データと記すこともある。なお、環境の状態には、様々な状態を想定できる。例えば、自動運転に関する環境の状態として、運転手自身の状態や、現在の走行速度や加速度、渋滞状況や天気の状況などが挙げられる。また、小売に関する環境の状態として、天気やイベントの有無、週末か否かなどが挙げられる。
また、例えば、自動運転に関する行動データの例として、優良ドライバの走行履歴(例えば、加速度や、ブレーキのタイミング、移動レーンや、車線変更状況、など)が挙げられる。また、例えば、小売に関する行動データの例として、店舗マネージャの発注履歴や価格設定の履歴などが挙げられる。ただし、行動データの内容は、これらの内容に限定されない。模倣する行動を表す任意の情報が行動データとして利用可能である。
また、ここでは、専門家の意思決定を行動データとして用いる場合を例示している。ただし、行動データの主体は、必ずしも専門家に限定されない。行動データとして、模倣したい主体が意思決定した履歴データが用いられれば良い。
また、データ入力装置101は、入力データ111として、行動データに基づいて行動に応じた状態を予測する予測モデルを入力する。予測モデルは、例えば、行動に応じて変化する状態を示す予測式で表されていてもよい。例えば、自動運転に関する予測モデルの例として、車の運動モデルなどが挙げられる。また、例えば、小売に関する予測モデルの例として、設定価格や発注量に基づく売上の予測モデルなどが挙げられる。
また、データ入力装置101は、状態と行動とを合わせて評価する目的関数に用いられる説明変数を入力する。説明変数の内容も任意であり、具体的には、行動データに含まれる内容が説明変数として用いられてもよい。例えば、小売に関する説明変数として、カレンダー情報や駅からの距離、天気、価格情報、発注数などが挙げられる。また、自動運転に関する説明変数として、速度や位置情報、加速度などが挙げられる。さらに、自動運転に関する説明変数として、センターラインからの距離やステアリングの位相、前方の車両との距離などが用いられてもよい。
さらに、データ入力装置101は、HMEモデルの分岐構造を入力する。ここで、HMEモデルではツリー状の階層構造を想定しているため、分岐構造は、分岐ノードと葉ノードとを結合させた構造で表される。図2は、分岐構造の例を示す説明図である。図2に例示する分岐構造では、角丸四角形が分岐ノードを表わし、丸が葉ノードを表わす。図2に例示する分岐構造B1と分岐構造B2は、いずれも葉ノードが3つになる構造である。ただし、この2つの分岐構造は、異なる構造として解釈される。なお、分岐構造から葉ノードの数が特定できるため、分類する目的関数の数は特定される。
構造設定部102は、入力されたHMEモデルの分岐構造を設定する。構造設定部102は、入力されたHMEモデルの分岐構造を内部のメモリ(図示せず)に記憶するようにしてもよい。
データ分割部103は、設定された分岐構造に基づいて行動データを分割する。具体的には、データ分割部103は、HMEモデルの最下層のノードに対応させて行動データを分割する。すなわち、データ分割部103は、設定された分岐構造の各葉ノード数に対応させて行動データを分割する。なお、行動データの分割方法は任意である。データ分割部103は、例えば、入力された行動データをランダムに分割してもよい。
モデル学習部104は、分割された行動データに対して予測モデルを適用して、その状態を予測する。そして、モデル学習部104は、HMEモデルの分岐ノードにおける分岐条件および葉ノードにおける各目的関数を分割された行動データごとに学習する。具体的には、モデル学習部104は、EM(Expectation-Maximization)アルゴリズムおよび逆強化学習により、分岐条件および目的関数を学習する。モデル学習部104は、例えば、最大エントロピー逆強化学習、ベイジアン逆強化学習または最大尤度逆強化学習により目的関数を学習してもよい。また、分岐条件には、入力された説明変数を用いた条件が含まれていてもよい。
モデル学習部104によって学習されたモデルは、階層的に分岐した葉ノードに目的関数が配置されている構造であることから、階層型目的関数モデルということができる。例えば、データ入力装置101が行動データとして店舗における発注履歴または価格設定履歴を入力した場合、モデル学習部104は、価格の最適化に用いられる目的関数を学習してもよい。また、例えばデータ入力装置101が行動データとしてドライバの走行履歴を入力した場合、モデル学習部104は、車両運転の最適化に用いられる目的関数を学習してもよい。
モデル推定結果出力装置105は、モデル学習部104によるモデルの学習が完了した(十分である)と判断された場合、学習された分岐条件および各場合における目的関数などをモデル推定結果112として出力する。一方、モデルの学習が完了していない(不十分である)と判断された場合、データ分割部103へ処理が移され、上述する処理が同様に行われる。
具体的には、モデル推定結果出力装置105は、分岐条件および目的関数が学習された階層型目的関数モデルに行動データを適用した結果と、その行動データとの乖離度合いを評価する。モデル推定結果出力装置105は、乖離度合を計算する方法として、例えば、最小二乗法などを用いてもよい。この乖離度が予め定めた基準を満たす(例えば、乖離度が閾値以下である)場合、モデル推定結果出力装置105は、モデルの学習が完了した(十分である)と判断してもよい。一方、この乖離度が予め定めた基準を満たさない(例えば、乖離度が閾値よりも大きい)場合、モデル推定結果出力装置105は、モデルの学習が完了していない(不十分である)と判断してもよい。この場合、乖離度合いが予め定めた基準を満たすまで、データ分割部103およびモデル学習部104は処理を繰り返す。
なお、モデル学習部104が、データ分割部103およびモデル推定結果出力装置105の処理を行ってもよい。
図3は、モデル推定結果112の例を示す説明図である。図3では、図2に例示する分岐構造が与えられたときのモデル推定結果の一例を示す。図に示す例では、最上位のノードに「視界良好か否か」を判断する分岐条件が設けられ、「Yes」と判断された場合に、目的関数1が適用されることを示す。同様に、「視界良好か否か」を判断する分岐条件において「No」と判断された場合に、さらに、「渋滞か否か」を判断する分岐条件が設けられ、「Yes」と判断された場合に目的関数2が、「No」と判断された場合に目的関数3がそれぞれ適用されることを示す。
例えば、上述する自動運転の例の場合、本実施形態では、様々な走行データを一括して与えることで、シーン(追い越し、合流など)ごと、ドライバ特徴ごとに目的関数を学習できる。すなわち、攻撃的な追い越しの目的関数、保守的な合流の目的関数、省エネな合流の目的関数などを生成できるとともに、これらの目的関数を切り替えるロジックも併せて生成できる。すなわち、複数の目的関数を切り替えることによって、様々な条件下での適切な行動を選択できる。具体的には、分岐条件および生成された目的関数が示す特性に応じて、各目的関数の内容が判断されることになる。
データ入力装置101と、構造設定部102と、データ分割部103と、モデル学習部104と、モデル推定結果出力装置105とは、プログラム(モデル推定プログラム)に従って動作するコンピュータのCPUによって実現される。例えば、プログラムは、モデル推定システムが備える記憶部(図示せず)に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、データ入力装置101、構造設定部102、データ分割部103、モデル学習部104およびモデル推定結果出力装置105として動作してもよい。また、本モデル推定システムの機能がSaaS(Software as a Service )形式で提供されてもよい。
また、データ入力装置101と、構造設定部102と、データ分割部103と、モデル学習部104と、モデル推定結果出力装置105とは、それぞれが専用のハードウェアで実現されていてもよい。データ入力装置101と、構造設定部102と、データ分割部103と、モデル学習部104と、モデル推定結果出力装置105とは、それぞれが汎用または専用の回路(circuitry )により実現されていてもよい。ここで、汎用または専用の回路(circuitry )は、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。また、各装置の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、 集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
次に、本実施形態のモデル推定システムの動作を説明する。図4は、本実施形態のモデル推定システムの動作例を示すフローチャートである。
まず、データ入力装置101は、行動データ、予測モデル、説明変数および分岐構造を入力する(ステップS11)。構造設定部102は、分岐構造を設定する(ステップS12)。分岐構造は、HMEモデルの最下層のノードに目的関数が配される構造である。データ分割部103は、分岐構造に従って行動データを分割する(ステップS13)。モデル学習部104は、分割された行動データに対して予測モデルを適用して予測される状態に基づいて、HMEモデルのノードにおける分岐条件および目的関数を学習する(ステップS14)。
モデル推定結果出力装置105は、行動データをモデルに適用した結果とその行動データとの乖離度が予め定めた基準を満たすか否か判断する(ステップS15)。乖離度が予め定めた基準を満たす場合(ステップS15におけるYes)、モデル推定結果出力装置105は、学習された分岐条件および各場合における目的関数をモデル推定結果112として出力する(ステップS16)。一方、乖離度が予め定めた基準を満たさない場合(ステップS15におけるNo)、ステップS13以降の処理が繰り返される。
以上のように、本実施形態では、データ入力装置101が、行動データ、予測モデル、説明変数を入力し、構造設定部102が、HMEモデルの最下層のノードに目的関数が配される分岐構造を設定する。そして、モデル学習部104が、分岐構造に従って分割される行動データに対して予測モデルを適用して予測される状態に基づいて、HMEのノードにおける分岐条件および目的関数を学習する。
そのような構成により、行動データを一括で与えても特徴ごとに目的関数を学習できる。さらに、本実施形態では、一般的なHMEモデルの学習に、シミュレータのような予測モデルを併せて利用する。そのため、行動データから、階層的な分岐条件とともに適切な目的関数を学習できる。よって、条件に応じて適用する目的関数を選択可能なモデルを推定できる。
さらに、本実施形態では、分岐条件には、目的関数の説明変数や、分岐条件のためだけの説明変数を用いた条件が含まれる。そのため、ユーザにとって、条件に応じて選択される目的関数が解釈容易になる。自動運転の例において、分岐条件に「雨か否か」が示されているとする。この場合、「Yes」の場合に選択される目的関数と、「No」の場合に選択される目的関数の説明変数を比較することも容易になる。このような事例の場合、例えば、「ステアリングの変化度」の係数は、雨の場合の方が晴れの場合に比べて小さくなると考えられるが、このような情報もモデル推定結果から判断し易くなる。
次に、本発明の概要を説明する。図5は、本発明によるモデル推定システムの概要を示すブロック図である。本発明によるモデル推定システム80(例えば、モデル推定システム100)は、環境の状態とその環境の元で行われる行動とを対応付けたデータである行動データ(例えば、運転履歴、発注履歴など)、行動データに基づいて行動に応じた状態を予測する予測モデル(例えば、シミュレータなど)、および、状態と行動とを合わせて評価する目的関数の説明変数とを入力する入力部81(例えば、データ入力装置101)と、階層混合エキスパートモデル(すなわち、HMEモデル)の最下層のノードに目的関数が配される分岐構造を設定する構造設定部82(例えば、構造設定部102)と、分岐構造に従って分割される行動データに対して予測モデルを適用して予測される状態に基づいて、階層混合エキスパートモデルのノードにおける分岐条件および説明変数を含む目的関数を学習する学習部83(例えば、モデル学習部104)とを備えている。
そのような構成により、条件に応じて適用する目的関数を選択可能なモデルを効率よく推定できる。
また、学習部83は、EMアルゴリズムおよび逆強化学習により、分岐条件および目的関数を学習してもよい。
具体的には、学習部83は、最大エントロピー逆強化学習、ベイジアン逆強化学習または、最大尤度逆強化学習により目的関数を学習してもよい。
また、学習部83は、分岐条件および目的関数が学習された階層混合エキスパートモデルに行動データを適用した結果とその行動データとの乖離度合いを評価し、乖離度合いが所定の閾値以内(例えば、乖離度合が所定の閾値以内)になるまで学習を繰り返してもよい。
また、学習部83は、階層混合エキスパートモデルの最下層のノードに対応させて行動データを分割し、予測モデルおよび分割された行動データを用いて、分割された行動データごとに目的関数および分岐条件を学習してもよい。
また、分岐条件は、説明変数を用いた条件を含んでいてもよい。
また、入力部81は、店舗における発注履歴または価格設定履歴を行動データとして入力し、学習部83は、価格の最適化に用いられる目的関数を学習してもよい。
他にも、入力部81は、ドライバの走行履歴を行動データとして入力し、学習部83は、車両運転の最適化に用いられる目的関数を学習してもよい。
100 モデル推定システム
101 データ入力装置
102 構造設定部
103 データ分割部
104 モデル学習部
105 モデル推定結果出力装置

Claims (10)

  1. 環境の状態と当該環境の元で行われる行動とを対応付けたデータである行動データ、前記行動データに基づいて前記行動に応じた状態を予測する予測モデル、および、前記状態と行動とを合わせて評価する目的関数の説明変数とを入力する入力部と、
    階層混合エキスパートモデルの最下層のノードに前記目的関数が配される分岐構造を設定する構造設定部と、
    前記分岐構造に従って分割される前記行動データに対して前記予測モデルを適用して予測される状態に基づいて、前記階層混合エキスパートモデルのノードにおける分岐条件および前記説明変数を含む前記目的関数を学習する学習部とを備えた
    ことを特徴とするモデル推定システム。
  2. 学習部は、EMアルゴリズムおよび逆強化学習により、分岐条件および目的関数を学習する
    請求項1記載のモデル推定システム。
  3. 学習部は、最大エントロピー逆強化学習、ベイジアン逆強化学習または最大尤度逆強化学習により目的関数を学習する
    請求項1または請求項2記載のモデル推定システム。
  4. 学習部は、分岐条件および目的関数が学習された階層混合エキスパートモデルに行動データを適用した結果と当該行動データとの乖離度合いを評価し、前記乖離度合いが所定の閾値以内になるまで学習を繰り返す
    請求項1から請求項3のうちのいずれか1項に記載のモデル推定システム。
  5. 学習部は、階層混合エキスパートモデルの最下層のノードに対応させて行動データを分割し、予測モデルおよび分割された行動データを用いて、分割された行動データごとに目的関数および分岐条件を学習する
    請求項1から請求項4のうちのいずれか1項に記載のモデル推定システム。
  6. 分岐条件は、説明変数を用いた条件を含む
    請求項1から請求項5のうちのいずれか1項に記載のモデル推定システム。
  7. 入力部は、店舗における発注履歴または価格設定履歴を行動データとして入力し、
    学習部は、価格の最適化に用いられる目的関数を学習する
    請求項1から請求項6のうちのいずれか1項に記載のモデル推定システム。
  8. 入力部は、ドライバの走行履歴を行動データとして入力し、
    学習部は、車両運転の最適化に用いられる目的関数を学習する
    請求項1から請求項6のうちのいずれか1項に記載のモデル推定システム。
  9. 環境の状態と当該環境の元で行われる行動とを対応付けたデータである行動データ、前記行動データに基づいて前記行動に応じた状態を予測する予測モデル、および、前記状態と行動とを合わせて評価する目的関数の説明変数とを入力し、
    階層混合エキスパートモデルの最下層のノードに前記目的関数が配される分岐構造を設定し、
    前記分岐構造に従って分割される前記行動データに対して前記予測モデルを適用して予測される状態に基づいて、前記階層混合エキスパートモデルのノードにおける分岐条件および前記説明変数を含む前記目的関数を学習する
    ことを特徴とするモデル推定方法。
  10. コンピュータに、
    環境の状態と当該環境の元で行われる行動とを対応付けたデータである行動データ、前記行動データに基づいて前記行動に応じた状態を予測する予測モデル、および、前記状態と行動とを合わせて評価する目的関数の説明変数とを入力する入力処理、
    階層混合エキスパートモデルの最下層のノードに前記目的関数が配される分岐構造を設定する構造設定処理、および、
    前記分岐構造に従って分割される前記行動データに対して前記予測モデルを適用して予測される状態に基づいて、前記階層混合エキスパートモデルのノードにおける分岐条件および前記説明変数を含む前記目的関数を学習する学習処理
    を実行させるためのモデル推定プログラム。
JP2020508787A 2018-03-30 2018-03-30 モデル推定システム、モデル推定方法およびモデル推定プログラム Active JP6981539B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/013589 WO2019186996A1 (ja) 2018-03-30 2018-03-30 モデル推定システム、モデル推定方法およびモデル推定プログラム

Publications (2)

Publication Number Publication Date
JPWO2019186996A1 JPWO2019186996A1 (ja) 2021-03-11
JP6981539B2 true JP6981539B2 (ja) 2021-12-15

Family

ID=68062622

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020508787A Active JP6981539B2 (ja) 2018-03-30 2018-03-30 モデル推定システム、モデル推定方法およびモデル推定プログラム

Country Status (3)

Country Link
US (1) US20210150388A1 (ja)
JP (1) JP6981539B2 (ja)
WO (1) WO2019186996A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11410558B2 (en) * 2019-05-21 2022-08-09 International Business Machines Corporation Traffic control with reinforcement learning
US20220390909A1 (en) * 2019-11-14 2022-12-08 Nec Corporation Learning device, learning method, and learning program
US20220318917A1 (en) * 2019-12-25 2022-10-06 Nec Corporation Intention feature value extraction device, learning device, method, and program
WO2021130915A1 (ja) * 2019-12-25 2021-07-01 日本電気株式会社 学習装置、学習方法および学習プログラム
CN113525400A (zh) * 2021-06-21 2021-10-22 上汽通用五菱汽车股份有限公司 变道提醒方法、装置、车辆及可读存储介质
CN115952073B (zh) * 2023-03-13 2023-06-13 广州市易鸿智能装备有限公司 工控机性能评估方法、装置、电子设备及存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6671661B1 (en) * 1999-05-19 2003-12-30 Microsoft Corporation Bayesian principal component analysis
US7809704B2 (en) * 2006-06-15 2010-10-05 Microsoft Corporation Combining spectral and probabilistic clustering
US8538795B2 (en) * 2007-02-12 2013-09-17 Pricelock, Inc. System and method of determining a retail commodity price within a geographic boundary
US7953676B2 (en) * 2007-08-20 2011-05-31 Yahoo! Inc. Predictive discrete latent factor models for large scale dyadic data
JP2011118777A (ja) * 2009-12-04 2011-06-16 Sony Corp 学習装置および学習方法、予測装置および予測方法、並びにプログラム
JP2011252844A (ja) * 2010-06-03 2011-12-15 Sony Corp データ処理装置、データ処理方法、およびプログラム
US9047559B2 (en) * 2011-07-22 2015-06-02 Sas Institute Inc. Computer-implemented systems and methods for testing large scale automatic forecast combinations
US9043261B2 (en) * 2012-05-31 2015-05-26 Nec Corporation Latent variable model estimation apparatus, and method
JP6011788B2 (ja) * 2012-09-03 2016-10-19 マツダ株式会社 車両用制御装置
EP3171321A4 (en) * 2014-07-14 2017-12-27 Nec Corporation Commercial message planning assistance system and sales prediction assistance system
US10627813B2 (en) * 2015-04-21 2020-04-21 Panasonic Intellectual Property Management Co., Ltd. Information processing system, information processing method, and program
US20190026660A1 (en) * 2016-02-03 2019-01-24 Nec Corporation Optimization system, optimization method, and recording medium
CN108885722A (zh) * 2016-03-25 2018-11-23 索尼公司 信息处理设备
US10902349B2 (en) * 2016-06-21 2021-01-26 Sri International Systems and methods for machine learning using a trusted model
JP6848230B2 (ja) * 2016-07-01 2021-03-24 日本電気株式会社 処理装置、処理方法及びプログラム
JP6827197B2 (ja) * 2016-07-22 2021-02-10 パナソニックIpマネジメント株式会社 情報推定システム及び情報推定方法
WO2018085643A1 (en) * 2016-11-04 2018-05-11 Google Llc Mixture of experts neural networks
US20190272465A1 (en) * 2018-03-01 2019-09-05 International Business Machines Corporation Reward estimation via state prediction using expert demonstrations

Also Published As

Publication number Publication date
JPWO2019186996A1 (ja) 2021-03-11
US20210150388A1 (en) 2021-05-20
WO2019186996A1 (ja) 2019-10-03

Similar Documents

Publication Publication Date Title
JP6981539B2 (ja) モデル推定システム、モデル推定方法およびモデル推定プログラム
Eom et al. The traffic signal control problem for intersections: a review
Jin et al. A group-based traffic signal control with adaptive learning ability
Daganzo et al. A general model of demand-responsive transportation services: From taxi to ridesharing to dial-a-ride
Wiering et al. Intelligent traffic light control
CN112400192B (zh) 多模态深度交通信号控制的方法和系统
de Oliveira et al. Reinforcement Learning based Control of Traffic Lights in Non-stationary Environments: A Case Study in a Microscopic Simulator.
Prothmann et al. Organic control of traffic lights
Sun et al. Interpretable modelling of driving behaviors in interactive driving scenarios based on cumulative prospect theory
US20220036122A1 (en) Information processing apparatus and system, and model adaptation method and non-transitory computer readable medium storing program
Lamouik et al. Smart multi-agent traffic coordinator for autonomous vehicles at intersections
Miletić et al. A review of reinforcement learning applications in adaptive traffic signal control
Liu et al. A three-level game-theoretic decision-making framework for autonomous vehicles
Castro et al. Biologically-inspired neural network for traffic signal control
Shamsi et al. Reinforcement learning for traffic light control with emphasis on emergency vehicles
Sur UCRLF: unified constrained reinforcement learning framework for phase-aware architectures for autonomous vehicle signaling and trajectory optimization
Sathyan et al. Decentralized cooperative driving automation: a reinforcement learning framework using genetic fuzzy systems
Han et al. Exploiting beneficial information sharing among autonomous vehicles
Abdelhameed et al. A hybrid fuzzy-genetic controller for a multi-agent intersection control system
Valiente et al. Learning-based social coordination to improve safety and robustness of cooperative autonomous vehicles in mixed traffic
Zhang et al. A Bi-level Network-wide Cooperative Driving Approach Including Deep Reinforcement Learning-based Routing
Vidhate et al. Exploring cooperative multi-agent reinforcement learning algorithm (cmrla) for intelligent traffic signal control
Jin et al. Voluntary lane-change policy synthesis with control improvisation
Tomás et al. An agent-based platform to evaluate V2X routing road traffic scenarios
Alms et al. Reinforcement learning-based traffic control: Mitigating the adverse impacts of control transitions

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200925

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211019

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211101

R150 Certificate of patent or registration of utility model

Ref document number: 6981539

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150