JP7332425B2 - 計算機システム - Google Patents

計算機システム Download PDF

Info

Publication number
JP7332425B2
JP7332425B2 JP2019190398A JP2019190398A JP7332425B2 JP 7332425 B2 JP7332425 B2 JP 7332425B2 JP 2019190398 A JP2019190398 A JP 2019190398A JP 2019190398 A JP2019190398 A JP 2019190398A JP 7332425 B2 JP7332425 B2 JP 7332425B2
Authority
JP
Japan
Prior art keywords
machine learning
computer system
episode
learning model
phase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019190398A
Other languages
English (en)
Other versions
JP2021067971A (ja
JP2021067971A5 (ja
Inventor
ユヨ オウ
正啓 間瀬
正史 恵木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2019190398A priority Critical patent/JP7332425B2/ja
Priority to US17/071,482 priority patent/US20210117831A1/en
Publication of JP2021067971A publication Critical patent/JP2021067971A/ja
Publication of JP2021067971A5 publication Critical patent/JP2021067971A5/ja
Application granted granted Critical
Publication of JP7332425B2 publication Critical patent/JP7332425B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示は計算機システムに関する。
本開示の背景技術として、例えば、特開2017-072882号公報(特許文献1)が知られている。特許文献1は、「情報処理装置10は、時系列に連続する複数の単位期間ごとの、管理対象のシステム1の状態を示す状態情報を、所定の条件でクラスタリングする。次に情報処理装置10は、クラスタリングにより生成された複数のクラスタそれぞれを状態の遷移元および遷移先とする。さらに情報処理装置10は、複数の単位期間それぞれの状態情報が属するクラスタの時間変化に基づいて、遷移元と遷移先との組ごとの、遷移元から遷移先へのシステム1の状態の遷移確率を示す、遷移確率行列2を生成する。そして情報処理装置10は、遷移確率行列2に基づいて、複数の単位期間のうちの第1の単位期間の状態情報に示される状態から、第1の単位期間よりも後の第2の単位期間の状態情報に示される状態への、システム1の状態の遷移が、アノマリか否かを判定する。」ことを開示する(例えば要約参照)。
機械学習モデルは大きな進歩を遂げ、上記例のように、様々な分野に適用されている。一方で、機械学習モデルはブラックボックスであり、その入力から結果を与える根拠が不明である。そのため、機械学習モデルの解釈可能性の要求が高まっている。機械学習モデルの解釈可能性は、機械学習モデルの効率的な改善、機械学習モデルの推定結果の信頼性の向上、機械学習モデルとの連携による人のより適切な意思決定等を可能とする。
特開2017-072882号公報
機械学習モデルが出力した推定の根拠(以下、機械学習モデルの根拠とも呼ぶ)を解釈するためのいくつかの手法がこれまで提案されているが、時系列データを入力とする機械学習モデルにおいて、各時刻における機械学習モデルの推定根拠を適切に解釈し説明できる手法は知られていない。
本開示の一態様は、機械学習モデルの根拠の説明を生成する計算機システムであって、1以上のプロセッサと、前記1以上のプロセッサが実行するプログラムを格納する1以上の記憶装置と、を含み、前記機械学習モデルは、状態が変化する環境において適切な出力を推定し、前記1以上のプロセッサは、エピソードを取得し、前記エピソードは異なる時刻のステップを含み、前記ステップの各ステップは前記環境の状態及び前記状態における前記機械学習モデルの選択した出力を示し、前記エピソードにおいて、変化する1以上の指標に基づき1以上の連続するステップからなる複数のフェーズを構成し、前記複数のフェーズにおける前記機械学習モデルの根拠を説明するデータを生成する。
本開示の一態様によれば、変化する状態に対する適切な出力を推定する機械学習モデルにおける推定根拠を、より適切に説明することができる。前述した以外の課題、構成及び効果は、以下の実施例の説明によって明らかにされる。
計算機システムのハードウェア構成例を示す図である。ができる。 計算機システムのソフトウェア構成例を示す図である。 ポリシモデル及び環境モデルの動作を模式的に示している。 エピソードデータベースの構成例を示す。 計算機システムにおけるプログラムモジュール間の動作の一例を示す図である。 ベースライン選択テーブルの構成例を示す。 説明生成サーバの一つのエピソードに対する処理のフローチャートを示す。 図7のフローチャートにおける、ベースライン選択テーブル作成ステップの詳細のフローチャートを示す。 図7のフローチャートにおける、クラスタリングステップの詳細のフローチャートを示す。 クレーンシミュレーションにおけるクレーンを模式的に示す。 ポリシモデルへの入力及び出力の一部の時間変化の例を示す。 クレーン制御におけるエピソードテーブルの構成例を示す。 ユーザデータを入力するためのGUI画像の例を示す。 クレーン制御の例における、ユーザ入力データの例を示す。 クレーン制御の例における、ベースライン選択テーブルの例を示す。 図15に示すベースライン選択テーブルに従って、エピソードにおいて複数のフェーズを構成する例を示す。 説明データから生成される説明画像の例を示す。 説明データから生成されるサリエンシビデオの一つのフレーム画像を示す。 工場及び工場へ投入するアイテムを制御するシステムの構成例を模式的に示す。 アイテム投入順序制御の例における、ユーザ入力データの例を示す。 アイテム投入順序制御の例における、ベースライン選択テーブルの例を示す。 図21に示すベースライン選択テーブルに従って、エピソードにおいて複数のフェーズを構成する例を示す。
以下、本発明の実施例を、図面を用いて説明する。ただし、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。以下に説明する発明の構成において、同一又は類似する構成又は機能には同一の符号を付し、重複する説明は省略する。図面等において示す各構成の位置、大きさ、形状、及び範囲等は、発明の理解を容易にするため、実際の位置、大きさ、形状、及び範囲等を表していない場合がある。したがって、本発明は、図面等に開示された位置、大きさ、形状、及び範囲等に限定されない。
図1は、計算機システムのハードウェア構成例を示す図である。図1に示す計算機システムは、強化学習サーバ100、説明生成サーバ110、及びユーザ端末120を含む。各装置はネットワーク140を介して互いに接続される。なお、ネットワーク140の種類は任意であり、例えば、WAN(Wide Area Network)及びLAN(Local Area Network)等である。また、ネットワーク140の接続方式は有線又は無線のいずれでもよい。
強化学習サーバ100は、強化学習により生成されたポリシモデル(エージェント又は強化学習モデル)及びポリシモデルが動作する環境を提供する環境モデルを格納する。ポリシモデルは、訓練データを使用して訓練済みである。強化学習サーバ100は、1回のシミュレーション処理において、所定の終了条件を満たすまでポリシモデルと環境モデルとの間の相互作用を複数回実行する。以下において、シミュレーション処理の回数の単位をエピソードと呼び、シミュレーション処理におけるエージェント及び環境間の相互作用の回数の単位をステップと呼ぶ。
強化学習サーバ100のハードウェア構成は、CPU101、メモリ102、ストレージ装置103、及びネットワークインタフェース104を含む。ハードウェア構成要素は内部バスを介して通信する。CPU101は、メモリ102に格納されるプログラムを実行する。メモリ102は、CPU101が実行するプログラム及び当該プログラムに必要な情報を格納する。また、メモリ102は、プログラムが一時的に使用するワークエリアを含む。
ストレージ装置103は、データを永続的に格納する。ストレージ装置103は、HDD(Hard Disk Drive)及びSSD(Solid State Drive)等の記憶媒体、又は不揮発性メモリ等が考えられる。なお、メモリ102に格納されるプログラム及び情報は、ストレージ装置103に格納されてもよい。この場合、CPU101は、ストレージ装置103からプログラム及び情報を読み出し、メモリ102にプログラム及び情報をロードし、また、メモリ102にロードされたプログラムを実行する。ネットワークインタフェース104は、ネットワークを介して他の装置と接続する。
説明生成サーバ110は、ポリシモデルの推定根拠(ポリシモデルの根拠とも呼ぶ)を解釈し、その説明を生成する。説明生成サーバ110のハードウェア構成は、CPU111、メモリ112、ストレージ装置113、及びネットワークインタフェース114を含む。ハードウェア構成要素は内部バス等を介して通信する。
CPU111、メモリ112、ストレージ装置113、及びネットワークインタフェース114は、CPU101、メモリ102、ストレージ装置103、及びネットワークインタフェース104と同様のハードウェア構成要素である。
ユーザ端末120は、ユーザが使用する端末である。ユーザ端末120は、ポリシモデルの説明文を生成するためのユーザ入力を受け付け、ポリシモデルの推定根拠の説明をユーザに提示する。ユーザ端末120のハードウェア構成は、CPU121、メモリ122、ストレージ装置123、ネットワークインタフェース124、入力装置125、及び出力装置126を含む。ハードウェア構成要素は内部バスを介して通信する。
CPU121、メモリ122、ストレージ装置123、及びネットワークインタフェース124は、CPU101、メモリ102、ストレージ装置103、及びネットワークインタフェース104と同様のハードウェア構成要素である。
入力装置125は、データ等を入力するための装置であり、キーボード、マウス、及びタッチパネル等を含む。出力装置126は、データ等を出力するための装置であり、ディスプレイ及びタッチパネル等を含む。
上記装置において、CPUがプログラムにしたがって処理を実行することによって、所定の機能を有する機能部として動作する。以下の説明では、プログラムを主語に処理を説明する場合、CPU又はCPUが実装されている装置が、当該機能部を実現するプログラムを実行していることを表す。
図1の構成例において、異なる計算機が、シミュレーションの実行、及び、説明文の生成のタスクをそれぞれ実行する。他の例において、一つの計算機が二つのタスクを実行してもよい。例えば、強化学習サーバ100及び説明生成サーバ110を一つの計算機上で稼働する仮想計算機として実現してもよい。
上述のように、計算機システムは、1以上のプロセッサ及び非一過性の記憶媒体を含む1以上の記憶装置を含む1以上の計算機で構成することができる。メモリ、ストレージ装置又はそれらの組み合わせは記憶装置である。CPUはプロセッサの例である。プロセッサは、単一の処理ユニットまたは複数の処理ユニットで構成することができ、単一もしくは複数の演算ユニット、又は複数の処理コアを含むことができる。プロセッサは、1又は複数の中央処理装置、マイクロプロセッサ、マイクロ計算機、マイクロコントローラ、デジタル信号プロセッサ、ステートマシン、ロジック回路、グラフィック処理装置、チップオンシステム、及び/又は制御指示に基づき信号を操作する任意の装置として実装することができる。
図2は、計算機システムのソフトウェア構成例を示す図である。強化学習サーバ100は、シミュレータ200及びエピソードデータベース204を格納する。シミュレータ200は、メモリ102に格納され、CPU101により実行されるプログラムモジュールであり、ポリシモデル201及び環境モデル202を含む。
図3は、ポリシモデル201及び環境モデル202の動作を模式的に示している。ポリシモデル201は、強化学習におけるエージェントとして機能する。図3は、深層Q学習の例を示す。ポリシモデル201は、深層Qネットワーク301及びargmax関数302を含む。深層Qネットワーク301は深層ニューラルネットワークであり、入力層、中間層及び出力層を含む。
ポリシモデル201は、環境モデル202から出力される環境の状態Sの情報を取得し、取得した情報及び施策に基づいて行動を選択する。また、ポリシモデル201は、選択した行動に関する情報を環境モデル202に出力する。具体的には、ポリシモデル201は、環境の状態Sを表す複数の特徴量S_1~S_Nを、入力層への入力として受け付ける。出力層の各ノードの値は、行動候補のQ値である。argmax関数302は、行動候補のQ値に基づき出力する行動Aを選択する。
環境モデル202は、ポリシモデル201が動作する環境として機能する。環境モデル202は、ポリシモデル201から出力される行動に関する情報を取得し、取得した情報及び現在の環境の状態に基づいて、状態の遷移のシミュレーションを実行する。また、環境モデル202は、シミュレーションの結果として遷移後の環境の状態を示す情報をポリシモデル201に出力する。
なお、本明細書で開示する機械学習モデルの説明手法は、深層強化学習による深層Qネットワークと異なる機械学習のモデルに適用することができ、例えば、模倣学習によるモデルや決定木、出力が行動と異なる機械学習モデル等に適用することができる。
図4は、エピソードデータベース204の構成例を示す。エピソードデータベース204は、シミュレータ200によるシミュレーション結果を格納している。エピソードデータベース204は、1エピソード単位のシミュレーション実行結果を示すエピソードテーブル350を複数含む。エピソードテーブル350にはエピソードの順番が付与される。
エピソードテーブル350は、ステップ351、状態352、行動353、報酬354、及びKPI(Key Performance Indicator)355を含む、複数のエントリを含む。エピソードテーブル350は、1エピソード内で行われた相互作用(ステップ)の数のエントリを含む。
ステップ351は、ステップの識別番号を格納するフィールドである。ステップ351に設定される識別番号と、エントリに対応する相互作用の実行順番とは一致する。状態352は、環境の状態を示す値を格納するフィールドである。行動353は、状態352に対応する環境の状態の下で行われた行動を示す情報を格納するフィールドである。報酬354は、状態352に対応する環境の状態の下で行動353に対する行動を行った場合に得られた報酬を格納するフィールドである。
KPI355は、行動が行われた後のKPIを格納するフィールド群である。KPIは、何らかの目的のために参照される指標である。格納されているKPIは、ポリシモデル201の根拠の説明の生成のために参照され得るインデックス(パラメータ)を含む。例えば、後述するエピソードのステップのクラスタリングにおいて使用されるKPI、ユーザに指定され得るKPI、説明画像に含まれ得るKPI等が含まれる。
本例において、エピソードデータベース204は環境モデル202を使用したシミュレーション結果を格納している。他の例において、実際の環境におけるポリシモデル201の実行結果が格納されていてもよく、シミュレーション環境と実際環境のエピソードが格納されていてもよい。エピソードは、所定の開始条件を満たすステップから、所定の終了条件を満たすステップまでの、ステップの時系列を示す。また、計算機システムにおいて、シミュレータ200は、省略されてもよい。
図2に戻って、説明生成サーバ110は、クラスタリング部211、ベースライン選択部212、寄与度算出部213、及び説明生成部214を含む。これらは、メモリ112に格納され、CPU111により実行されるプログラムモジュールである。説明生成サーバ110は、さらに、ユーザ入力データ215及びベースライン選択テーブル216を格納している。
クラスタリング部211は、エピソードデータベース204から取得されたエピソードにおいて、ステップの複数のクラスタを構成する。クラスタは連続する1以上のステップで構成される。後述するように、一つのクラスタは、環境の状態遷移における一つの状態(フェーズ)のステップで構成される。環境における状態及びその状態のクラスタをフェーズとも呼ぶ。ベースライン選択部212は、各フェーズにおいて、寄与度を算出するためのベースラインを決定する。
寄与度算出部213は、各フェーズ内の各ステップにおける行動に対する入力特徴量のそれぞれの寄与度を、各ステップにおけるその入力特徴量の値と、指定されたベースラインの入力特徴量の値(入力基準データ)に基づき決定する。寄与度算出部213は、入力特徴量の寄与度を、ベースラインの値を基準とする、ステップでのその入力特徴量の相対的な値に基づき決定する。説明生成部214は、寄与度算出部213が計算した寄与度に基づいて、ポリシモデル201の根拠を説明するための説明データを生成する。
寄与度算出部213は、任意のアルゴリズムにより寄与度を計算してよい。例えば、寄与度算出部213は、SHAP(Shapley Additive Explanation)、LIME(Local Interpretable Model-Agnostic Explanations)、Integrated gradient等を利用することができる。
ユーザ入力データ215は、ユーザ端末120から入力されたデータであり、説明生成サーバ110がポリシモデル201の根拠の説明を生成するために使用される。ベースライン選択テーブル216は、フェーズとベースラインとの関係を示す。
ユーザ端末120は、説明生成サーバ110が提供するインタフェースを操作するためのアプリケーション221を格納する。アプリケーション221はプログラムモジュールであり、メモリ122に格納されて、CPU121に実行される。ユーザ端末120は、説明生成サーバ110がポリシモデル201の根拠を説明するために使用するユーザデータの入力を、入力装置125を介して受け付ける。ユーザ端末120は、説明生成サーバ110が生成したポリシモデル201の根拠についての説明を、出力装置126において出力する。
図5は、計算機システムにおけるプログラムモジュール間の動作の一例を示す図である。ベースライン選択部212は、ユーザ入力データ215に基づいて、ベースライン選択テーブル216を生成する。ユーザ入力データ215は、エピソードにおけるフェーズを特定するための情報を含む。ユーザ入力データ215の詳細は後述する。
図6は、ベースライン選択テーブル216の構成例を示す。ベースライン選択テーブル216は、フェーズ種別361、フェーズ特定方法362及びベースライン363から構成されるエントリを複数含む。フェーズ種別361は、エピソードに適用可能なフェーズの種別を示すフィールドである。
フェーズ特定方法362は、フェーズ種別361が示す各フェーズ種別を特定するための方法を示すフィールドである。フェーズ特定方法362は、各フェーズ種別を特定するために参照すべきKPI(パラメータ)、数式、基準値等を示す。ベースライン363は、フェーズ種別361が示す各フェーズ種別における寄与度の計算で使用するベースラインを示す。
図5に戻って、クラスタリング部211は、エピソードデータベース204から一つのエピソードを取得して、ベースライン選択テーブル216が示す方法に従って、エピソードにおいて複数のフェーズを構成する。複数フェーズを含むエピソード217が生成される。一つのフェーズは、1以上のステップで構成されている。フェーズは互いに部分的にも重複することなく分離されており、一つのステップは一つのフェーズのみに含まれる。一部のステップは、いずれのフェーズにも含まれていなくてもよい。
寄与度算出部213は、複数フェーズを含むエピソード217において、各ステップにおける行動に対する入力特徴量それぞれの寄与度を計算する。寄与度算出部213は、ステップが含まれるフェーズに対応するベースラインをベースライン選択テーブル216から選択し、そのベースラインの入力特徴量の値(入力基準データ)を取得する。寄与度算出部213は、入力基準データに基づき、各ステップにおける行動に対する入力特徴量それぞれの寄与度を計算する。
例えば、寄与度算出部213は、ポリシモデル201に基づき、寄与度を出力する説明用モデルを生成する。寄与度算出部213は、ステップの入力特徴量の値と、ベースラインのその入力特徴量の値とから、相対的な値を計算する。寄与度算出部213は、入力特徴量それぞれの相対的な値を説明用モデルに入力して、ステップにおける入力特徴量それぞれの行動に対する寄与度を計算する。なお、ベースラインが全てのフェーズに共通であってもよく、ベースラインをベースライン選択テーブル216においてベースライン363が省略されていてもよい。
説明生成部214は、寄与度算出部213により計算された寄与度と共に、複数フェーズを含むエピソード217を取得する。説明生成部214は、取得したデータから、説明データ220を生成する。説明生成部214は、さらに、ユーザ入力データ215に基づいて、説明データ220を生成してもよい。
説明データ220は、例えば、文章、グラフ、静止画像、動画像等のデータを含むことができる。説明データは、例えば、寄与度の高い特徴量を強調するサリエンシビデオ、フェーズの遷移を示す状態遷移図、各フェーズにおける寄与度の説明文、寄与度の変化を示すグラフ等のデータを含むことができる。
図7は、説明生成サーバ110の一つのエピソードに対する処理のフローチャートを示す。説明生成サーバ110は、ユーザ端末120を介して、ユーザ入力データ215を受け付ける(S101)。なお、説明生成サーバ110は、ユーザ端末120からの新たなユーザ入力データに代えて、予め記憶装置に格納されているユーザ入力データのファイルを使用してもよい。
ベースライン選択部212は、ユーザ入力データ215に基づき、ベースライン選択テーブル216を生成する(S102)。クラスタリング部211は、エピソードデータベース204から取得したエピソードにおいて、ベースライン選択テーブル216に応じて、ステップを複数フェーズにクラスタリングする(S103)。上述のように、ベースライン選択テーブル216は、エピソードにおいて形成されるフェーズの情報を示す。
説明生成サーバ110は、ステップS104及びS105を、エピソードの各フェーズに対して実行する。寄与度算出部213は、ベースライン選択テーブル216を参照して現在フェーズのベースラインを選択する(S104)。寄与度算出部213は、現在フェーズのステップそれぞれにおける入力特徴量それぞれの寄与度を、選択したベースラインの入力基準データに基づき算出する(S105)。上述のように、寄与度算出部213は、ポリシモデル201に基づき寄与度を出力する説明用モデルを生成し、入力基準データに対する入力特徴量の相対的な値を説明用モデルに入力して、寄与度を得ることができる。
説明生成部214は、寄与度算出部213により計算された寄与度と共に、複数フェーズを含むエピソード217を取得する。説明生成部214は、取得したデータから、説明データ220を生成する(S106)。説明生成部214は、説明データ220をユーザ端末120に送信し、説明画像を出力装置126において表示させる(S107)。
図8は、図7のフローチャートにおける、ベースライン選択テーブル作成ステップS102の詳細のフローチャートを示す。ベースライン選択部212は、ユーザ入力データ215を取得する(S121)。ユーザ入力データ215は、例えば、ポリシモデル201の説明のために参照すべきKPIを示す。ベースライン選択部212は、ユーザ入力データ215が示す情報に基づいて、エピソードに適用するフェーズを決定する(S122)。例えば、ユーザ入力データ215が示すKPIについての情報に対して、直接又は間接に、エピソードに適用するフェーズが予め関連付けられている。
ベースライン選択部212は、選択したフェーズそれぞれに対応するフェーズ特定方法及びベースラインの情報を決定する(S123)。フェーズ特定方法及びベースラインは、フェーズに対して予め関連付けられている。ベースライン選択部212は、決定したフェーズ特定方法及びベースラインの情報をベースライン選択テーブル216に格納する(S124)。
図9は、図7のフローチャートにおける、クラスタリングステップS103の詳細のフローチャートを示す。クラスタリング部211は、エピソードデータベース204から、一つのエピソードを取得する(S141)。クラスタリング部211は、ベースライン選択テーブル216を参照する(S142)。
ベースライン選択テーブル216は、エピソードに適用するフェーズ種別361及びそれらの特定方法362を示す。フェーズ特定方法362は、例えば、フェーズ種別を特定する基準となるクラスタリング用KPIを示す。クラスタリング部211は、フェーズ特定方法362に従って、エピソードのステップから複数フェーズを形成する(S143)。
上記例は、ユーザ入力データ215を参照してベースライン選択テーブル216を作成する。他の例において、ベースライン選択テーブル216は予め設定されていてもよい。クラスタリング部211は、ベースライン選択テーブル216が示す予め設定されたルールに従って、エピソードにおいて複数のフェーズを構成する。
上述のように、エピソードにおいて複数のフェーズを構成し、フェーズ毎に根ベースラインを決定することで、時間変化する環境の状態に対するポリシモデルの根拠を、より適切に説明することが可能となる。特定のKPIに基づいてエピソードにおいて複数のフェーズを構成することで、KPIの観点からより適切な説明が可能となる。また、ユーザ入力データを参照してエピソードに適用するフェーズ種別を決定することで、ユーザによって理解がより容易な説明が可能となる。
以下において、本明細書のポリシモデルの根拠の説明手法を適用した例を説明する。まず、機械操作の一例であるクレーン制御を説明する。図10は、クレーンシミュレーションにおけるクレーンを模式的に示す。クレーン370は、台車371及び台車に固定されたワイヤ372を含む。物体373は、ワイヤ372の先端に固定されている。
クレーン370は、レール375上を、スタート位置376からゴール位置377に向かって移動して、物体373を運ぶ。ポリシモデル201は、スタート位置376からゴール位置377に物体373を運ぶために、台車371の速度を制御する。ポリシモデル201は、台車371をスタート位置376からゴール位置377への方向においてのみ移動させることができる。
また、ポリシモデル201は、台車371の加速及び減速のみ制御でき、台車371を一定大きさで加速させる、又は、同一の大きさで減速させることのみ可能である。台車371は、規定の最高速度より速く移動することは不可能である。台車371が最高速度で移動しているとき、加速操作が行われると最高速度が維持され、減速操作が行われると速度が低下する。
台車371が移動を開始すると、ワイヤ372に固定されている物体373が、振り子のように振動する。台車371の制御の目的は、できるだけ速く物体373をゴール位置377に運び、かつ、ゴール時に物体373が振動していないことである。
より具体的には、台車371は、ゴール位置377を含む所定のゴール領域378で停止することが求められ、ゴール時の物体373の振幅が閾値未満であることが求められる。ポリシモデル201は、ゴール時の物体373の振幅を最小化し、移動時間を最小化し、ゴール位置377と最終的な停止位置との差を最小化する、ように台車371の加速度(速度)を制御する。
クレーン370及び物体373の状態が、ポリシモデル201へ入力される。具体的には、台車371の移動距離x、台車371の速度v、ワイヤ372の角度φ、物体373の角速度ωである。ポリシモデル201は、入力データに応じて、加速又は減速のいずれか一方の行動を適切な行動と推定して、出力する。
図11は、ポリシモデル201への入力及び出力の一部の時間変化の例を示す。図11に示すグラフにおいて、線391はポリシモデル201の出力(行動)の時間変化を示す。線391は交互に繰り返される高レベルと低レベルで構成され、高レベルが加速を示し、低レベルが減速を示す。線392は台車371の速度vの時間変化を示す。線393は台車371の移動距離xの時間変化を示す。線394はワイヤ372の角度φの時間変化を示す。
図12は、本例のクレーン制御におけるエピソードテーブル350の構成例を示す。上述のように、一つのエピソードは、スタート位置376から台車371の移動を開始し、ゴール位置377の近くで台車371を停止させるまで、のステップで構成される。各ステップにおいて、現在の状態(特徴量)352の値がポリシモデル201に入力され、ポリシモデル201が入力に対して行動を出力する。
状態352は、台車371の移動距離x、台車371の速度v、ワイヤ372の角度φ、物体373の角速度ωを格納する。行動353は加速又は減速を示す。KPI355は、例えば、ゴール位置377への到達推定時間、ワイヤ372の角度φ、最終停止位置のゴール位置377からの誤差等である。
図13は、ユーザデータを入力するためのGUI(Graphical User Interface)画像400の例を示す。例えば、アプリケーション221が、ユーザ端末120の出力装置126(表示装置)において、画像400を表示する。フィールド401は、1又は複数のKPIを選択するための選択リストを表示する。
フィールド402は、選択された1又は複数のKPIに対応する状況及びユーザ行動の1以上の組み合わせを入力するためのフィールドである。例えば、アプリケーション221は、状況及びユーザ行動の組み合わせのリストを表示し、ユーザにいくつかの組み合わせを選択させる。状況及びユーザ行動の入力は、省略されてもよい。
計算機システムは、ユーザが説明を要求するポリシモデル201を指定するGUI画像をユーザに適用してもよい。GUI画像は、ユーザ説明を要求するエピソードの指定を受け付けてもよい。指定されるエピソードは、予めエピソードデータベース204に格納されていてもよく、強化学習サーバ100により新たに生成されたエピソードでもよい。強化学習サーバ100は、ユーザからの指示に応じて、シミュレータ200を実行して、新たなエピソードを生成する。
図14は、図10を参照して説明したクレーン制御の例における、ユーザ入力データ215の例を示す。ユーザ入力データ215は、指定されたKPIのリスト421及び状況とユーザ行動の組み合わせのリスト422を含む。図14の例において、KPIは、台車371の推定到達時間及びワイヤ372の振動角度である。また、状況と行動の三つの組み合わせが示されている。
図15は、図10を参照して説明したクレーン制御の例における、ベースライン選択テーブル216の例を示す。ベースライン選択部212は、ユーザ入力データ215に基づき、ベースライン選択テーブル216を生成する。例えば、ベースライン選択部212は、予め定義されているフェーズから、状況とユーザ行動の組み合わせに対して予め関連付けられているフェーズを選択する。または、ベースライン選択テーブル216は、ユーザが入力したKPIに対して予め関連付けられていてもよく、状況と行動の入力が省略されてもよい。
図15の例において、フェーズ種別361は、三つのフェーズを示し、それらは、加速フェーズ、速度維持フェーズ及び減速フェーズである。それらは、それぞれ、移動開始及び加速の組み合わせ、クレーンが最高速に到達及び速度維持の組み合わせ、ゴール位置近くに到着及び減速の組み合わせ、に関連付けられる。
フェーズ特定方法362は、エピソードにおいて上記三つのフェーズそれぞれを特定する方法を示す。フェーズ特定方法は、フェーズ種別361が示すフェーズに対して予め関連付けられている。ベースライン363は、上記三つのフェーズそれぞれにおけるベースラインを示す。ベースラインは、フェーズ種別361が示すフェーズに対して予め関連付けられている。
加速フェーズ及び減速フェーズのベースラインは、スタート位置である。スタート位置におけるポリシモデル201への入力値が、寄与度算出の基準として使用される。速度維持フェーズのベースラインは平均値である。エピソードにおけるポリシモデル201への入力値の平均値が、寄与度算出の基準として使用される。
クラスタリング部211は、ベースライン選択テーブル216に従って、エピソードにおいて複数のフェーズを構成する。クラスタリング部211は、フェーズ特定方法362が示す方法に従って、エピソードにおけるフェーズを決定する。本例において、図16が示すように、エピソードは、加速フェーズ(フェーズ(1))、速度維持フェーズ(フェーズ(2))及び減速フェーズ(フェーズ(3))に分割される。速度維持フェーズ(フェーズ(2))が加速フェーズ(フェーズ(1))に続き、減速フェーズ(フェーズ(3))が速度維持フェーズ(フェーズ(2))に続く。
本例において、クラスタリング部211は、台車371の速度に基づきフェーズを決定する。台車371の速度は、エピソードにおいてフェーズを構成するためのKPIである。クラスタリングのためのKPIは、フェーズ特定方法362に示されており、上述のように、ユーザ指定されるKPIから導出される。本例において、ユーザ指定されたKPIとクラスタリングのためのKPIが異なるが、これらが一致していることもある。
寄与度算出部213は、ベースライン選択テーブル216が示す三つのフェーズそれぞれにおいて、対応するベースラインの入力基準データをエピソードから取得し、各ステップにおける入力特徴量(状態要素)それぞれの寄与度を算出する。説明生成部214は、エピソードのフェーズ毎の寄与度に基づいて、ポリシモデル201の説明データ220を生成する。
図17は、説明データ220から生成される説明画像の例450を示す。説明画像450は、それぞれ異なる種類の説明画像を示す複数のセクションを含む。複数の種類の説明画像を表示することで、ユーザの理解を深めることができる。なお、以下に説明するセクションの一部は省略されていてもよい。
セクション451は、行動の時間変化のグラフ、特定の入力特徴量(状態の要素)の時間変化、及び特定のKPIの時間変化のグラフを示す。特定のKPIは、例えば、GUI画像400においてユーザにより指定されたKPIや、クラスタリングにおいて使用されたKPIである。グラフにおいて、フェーズが矩形で示されている。セクション451におけるグラフは模式図であり、図11が示すグラフとは一致していない。これらグラフにより、ポリシモデル201が動作する環境の時間変化及びそれに対する行動を、ユーザが容易に認識することができる。
セクション452は、フェーズの変化を示す状態遷移図を示す。セクション452は、複数のフェーズ、それらの順序及びフェーズ変化のトリガの情報を示す。示されるフェーズは、クラスタリング部211によるエピソードのクラスタリングにより決まるフェーズに対応する。フェーズ遷移のトリガは、例えば、遷移前後のフェーズの組み合わせに対して予め設定されている。フェーズ遷移を示す状態遷移図により、ユーザが、説明の基準となるフェーズを容易に認識できる。
セクション453は、入力特徴量の寄与度の時間変化のグラフを示す。図17は、模式的に、二つの入力特徴量(状態要素)S_1、S_2の寄与度の時間変化を示している。これにより、ユーザが寄与度の時間変化及び寄与度間の関係を容易に認識することができる。
セクション454は、ポリシモデル201の根拠の説明文を示す。セクション454は、例えば、指定されたステップにおけるポリシモデル201の根拠を説明する。ステップの指定は、例えば、セクション451における行動の時間変化のグラフにおいて、特定の点にポインタ置くことによりなされる。説明文は、例えば、行動が選択された理由を寄与度の観点から説明する。説明文は、例えば、寄与度が大きい入力特徴量の情報とフェーズの情報を提示する。説明文により、ユーザは、より容易にポリシモデル201の行動の理由を理解することができる。
図18は、説明データ220から生成されるサリエンシビデオの一つのフレーム画像470を示す。サリエンシビデオは、ポリシモデルの根拠を説明する画像(動画像)の例である。サリエンシビデオは、移動する台車371及び物体373の動きを表現する。サリエンスビデオは、その時々の寄与度が高い入力特徴量を示すように、画像内の一部を強調して表示する。図18の画像470において、台車371及びレール375(の一部)が強調表示されている。
図18の例において、台車371は速度vと対応付けられ、レール375は移動距離xと対応付けられている。また、例えば、ワイヤ372はワイヤの角度φと対応付けられ、物体373は物体の角速度ωと対応付けられる。図18に示す画像470は、ポリシモデル201によるこの時の行動の決定に対して、台車371の速度と移動距離の寄与度が大きいことを示す。例えば、寄与度が所定の閾値を超える場合に、その寄与度に対応する画像要素が強調表示される。
サリエンシビデオにより、ユーザは直感的に、容易に、ポリシモデル201の行動に大きき寄与している要素を認識することができる。サリエンシビデオは、図17に示す画像450と同時表示されてもよい。また、図17に示す画像450及びサリエンシビデオの一方のみが提供されてもよい。図17及び図18が示す説明画像は一例であって、計算機システムは、他の任意の態様で、ポリシモデル201の根拠を説明する画像を生成してもよい。
次に、複数の装置を含む工場に投入するアイテムの順序を制御する例を説明する。図19は、工場及び工場へ投入するアイテムを制御するシステムの構成例を模式的に示す。ディスパッチャ510は、ポリシモデル201の出力にしたがって、複数の装置501を有する工場500に投入するアイテム521をキュー520から選択する。キュー520からのアイテム521の選択が、ポリシモデル201が出力する行動である。装置501、アイテム521、及び工場500の状態等が環境として定義され、環境モデル202によりシミュレートされる。
図19に示すシステムでは、装置501毎に、投入時間、投入されたアイテム521の種別、アイテム521の温度、装置501の状態、装置501への次のアイテム521の投入待ち時間等の状態データが取得される。また、各アイテム521に、納期や種別等の属性情報が与えられている。KPIとしては、アイテム521の処理に要する処理時間及び納期余裕時間等のアイテム521個々のKPIや、平均処理時間及び納期順守率等のシステム全体のKPIが考えられる。
図20は、図19を参照して説明したアイテム投入順序制御の例における、ユーザ入力データ215の例を示す。上述のように、図13に示すGUI画像400を介して又は予め格納されているファイルから、ユーザ入力データ215が取得される。ユーザ入力データ215は、指定されたKPIのリスト421及び状況とユーザ行動の組み合わせのリスト422を含む。
図20の例において、KPIは、工場500内のアイテムの総待機時間と、工場500内のアイテムの総納期遅れ時間である。一つのアイテムの待機時間は、アイテムが工場500に投入されてから、現在までの装置501での待機時間の合計である。総待機時間は、工場500内に存在する全てのアイテムの待機時間の合計である。一つのアイテムの納期遅れ時間は、当該アイテムの納期からの経過時間である。現在時刻が納期前である場合、納期遅れ時間はゼロである。総納期遅れ時間は、工場500内に存在する全てのアイテムの納期遅れ時間の合計である。
ユーザ入力データ215は、状況と行動の四つの組み合わせを示している。総待機時間が減少し、総納期遅れ時間が減少する状況において、ユーザ行動は現在プランを維持する。総待機時間が減少し、総納期遅れ時間が増加する状況において、ユーザ行動は現在プランを一部変更する。総待機時間が増加し、総納期遅れ時間が減少する状況において、ユーザ行動は現在プランを一部変更する。総待機時間が増加し、総納期遅れ時間が増加する状況において、ユーザ行動は現在プランを大きく変更する。
図21は、図19を参照して説明したアイテム投入順序制御の例における、ベースライン選択テーブル216の例を示す。上述のように、ベースライン選択部212は、図20に示すユーザ入力データ215に基づき、図21に示すベースライン選択テーブル216を生成する。図21の例において、フェーズ種別361は、四つのフェーズを示す。
フェーズ(L-、R-)において、総待機時間Lが減少し、総納期遅れ時間Rが減少する。フェーズ(L-、R+)において、総待機時間Lが減少し、総納期遅れ時間Rが増加する。フェーズ(L+、R-)において、総待機時間Lが増加し、総納期遅れ時間Rが減少する。フェーズ(L+、R+)において、総待機時間Lが増加し、総納期遅れ時間Rが増加する。フェーズは、それぞれ、ユーザ入力データ215の状況に対応している。
フェーズ特定方法362は、フェーズ種別361の各フェーズを特定するために使用するKPIとして、総待機時間L及び総納期遅れ時間Rを示す。本例において、二つのKPIがエピソードをフェーズに分割するために使用され、それらはユーザ指定されたKPIと一致している。ベースライン363は、各フェーズのベースラインとして、所定のフェーズを指定する。寄与度の計算において、例えば、ベースラインフェーズにおける入力特徴量の平均値が使用される。
フェーズ特定方法及びベースラインの組み合わせは、フェーズ種別それぞれに、予め関連付けられている。関連付けは、KPIの種別毎に定義されていてもよく、複数のKPIに対して共通の関連付け定義が適用されてもよい。例えば、フェーズ種別、フェーズ特定方法及びベースラインの組み合わせは、任意のKPIに対して定義される。ベースライン選択テーブル216は、ユーザが入力したKPIに対して予め関連付けられていてもよく、状況と行動の入力が省略されてもよい。
クラスタリング部211は、図21に示すベースライン選択テーブル216に従って、エピソードにおいて複数のフェーズを構成する。総待機時間L及び総納期遅れ時間Rの変化の傾向は、連続するステップにおける総待機時間L及び総納期遅れ時間Rの値に基づき決定することができる。クラスタリング部211は、エピソードにおける総待機時間L及び総納期遅れ時間Rの変化を予め定められたルールに従って解析して、エピソードにおけるフェーズを構成するステップ及びフェーズの種類を決定することができる。
図22は、図21に示すベースライン選択テーブル216に従って、クラスタリング部211が、エピソードにおいて複数のフェーズを構成する例を示す。クラスタリング部211は、総待機時間L及び総納期遅れ時間Rに基づきフェーズを決定する。図22の例において、四つのフェーズが構成されている。それらは、初期フェーズ、フェーズ(L+、R+)、フェーズ(L-、R+)及びフェーズ(L-、R-)である。この順で、フェーズが遷移している。図22に示す例において、ベースライン選択テーブル216が示す四つのフェーズの内の三つが適用されている。
寄与度算出部213は、初期フェーズに対して予め設定されているベースライン、ベースライン選択テーブル216が示すフェーズそれぞれに対応するベースライン、の入力基準データをエピソードから取得する。初期フェーズの入力基準データは、例えば初期フェーズにおける入力特徴量の平均値である。寄与度算出部213は、各ステップにおける入力特徴量(状態要素)それぞれの寄与度を算出する。
説明生成部214は、エピソードのフェーズ毎の寄与度に基づいて、ポリシモデル201の説明データ220を生成する。説明生成部214は、ポリシモデルの根拠を説明するため、図17を参照して説明したような様々なグラフや文章を含む画像を作成してもよく、図18を説明したようなサリエンシビデオを生成してもよい。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。
100 強化学習サーバ、101 CPU、102 メモリ、103 ストレージ装置、104 ネットワークインタフェース、110 説明生成サーバ、112 メモリ、113 ストレージ装置、114 ネットワークインタフェース、120 ユーザ端末、122 メモリ、123 ストレージ装置、124 ネットワークインタフェース、125 入力装置、126 出力装置、140 ネットワーク、200 シミュレータ、201 ポリシモデル、202 環境モデル、204 エピソードデータベース、211 クラスタリング部、212 ベースライン選択部、213 寄与度算出部、214 説明生成部、215 ユーザ入力データ、216 ベースライン選択テーブル、217 複数フェーズを含むエピソード、220 説明データ、221 アプリケーション、301 ネットワーク、302 argmax関数、350 エピソードテーブル、370 クレーン、371 台車、372 ワイヤ、373 物体、375 レール、376 スタート位置、377 ゴール位置、378 ゴール領域、400 ユーザ入力画像、450 説明画像、470 サリエンシビデオの画像、500 工場、501 装置、510 ディスパッチャ、520 キュー、521 アイテム

Claims (12)

  1. 機械学習モデルの根拠の説明を生成する計算機システムであって、
    1以上のプロセッサと、
    前記1以上のプロセッサが実行するプログラムを格納する1以上の記憶装置と、を含み、
    前記機械学習モデルは、状態が変化する環境において適切な出力を推定し、
    前記1以上のプロセッサは、
    エピソードを取得し、前記エピソードは異なる時刻のステップを含み、前記ステップの各ステップは前記環境の状態及び前記状態における前記機械学習モデルの選択した出力を示し、
    前記エピソードにおいて、変化する1以上の指標に基づき1以上の連続するステップからなる複数のフェーズを構成し、
    前記複数のフェーズにおける前記機械学習モデルの根拠を説明するデータを生成する、計算機システム。
  2. 請求項1に記載の計算機システムであって、
    前記1以上のプロセッサは、前記複数のフェーズそれぞれに対して前記機械学習モデルの根拠を説明するための基準を決定し、前記基準に基づいて前記機械学習モデルの根拠を説明するデータを生成する、計算機システム。
  3. 請求項2に記載の計算機システムであって、
    前記1以上のプロセッサは、ユーザ入力に従って前記1以上の指標を決定する、計算機システム。
  4. 請求項3に記載の計算機システムであって、
    前記1以上のプロセッサは、前記エピソードに適用するフェーズ種別、前記フェーズ種別を特定する方法及び前記フェーズ種別それぞれの基準を示す情報を、前記ユーザ入力に応じて生成する、計算機システム。
  5. 請求項1に記載の計算機システムであって、
    出力装置をさらに含み、
    前記出力装置は、前記機械学習モデルの根拠を説明するサリエンシビデオを表示する、計算機システム。
  6. 請求項1に記載の計算機システムであって、
    出力装置をさらに含み、
    前記出力装置は、前記機械学習モデルの根拠を説明する、フェーズの変化の状態遷移図を表示する、計算機システム。
  7. 計算機システムが、機械学習モデルの根拠の説明を生成する方法であって、
    前記機械学習モデルは、状態が変化する環境において適切な出力を推定し、
    前記方法は、前記計算機システムが
    エピソードを取得し、前記エピソードは異なる時刻のステップを含み、前記ステップの各ステップは前記環境の状態及び前記状態における前記機械学習モデルの選択した出力を示し、
    前記エピソードにおいて、変化する1以上の指標に基づき1以上の連続するステップからなる複数のフェーズを構成し、
    前記複数のフェーズにおける前記機械学習モデルの根拠を説明するデータを生成する、方法。
  8. 請求項7に記載の方法であって、
    前記計算機システムが、前記複数のフェーズそれぞれに対して前記機械学習モデルの根拠を説明するための基準を決定し、前記基準に基づいて前記機械学習モデルの根拠を説明するデータを生成する、方法。
  9. 請求項8に記載の方法であって、
    前記計算機システムが、ユーザ入力に従って前記1以上の指標を決定する、方法。
  10. 請求項9に記載の方法であって、
    前記計算機システムが、前記エピソードに適用するフェーズ種別、前記フェーズ種別を特定する方法及び前記フェーズ種別それぞれの基準を示す情報を、前記ユーザ入力に応じて生成する、方法。
  11. 請求項7に記載の方法であって、
    前記計算機システムが、前記機械学習モデルの根拠を説明するサリエンシビデオを表示する、方法。
  12. 請求項7に記載の方法であって、
    前記計算機システムが、前記機械学習モデルの根拠を説明する、フェーズの変化の状態遷移図を表示する、方法。
JP2019190398A 2019-10-17 2019-10-17 計算機システム Active JP7332425B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019190398A JP7332425B2 (ja) 2019-10-17 2019-10-17 計算機システム
US17/071,482 US20210117831A1 (en) 2019-10-17 2020-10-15 Computer System

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019190398A JP7332425B2 (ja) 2019-10-17 2019-10-17 計算機システム

Publications (3)

Publication Number Publication Date
JP2021067971A JP2021067971A (ja) 2021-04-30
JP2021067971A5 JP2021067971A5 (ja) 2022-08-26
JP7332425B2 true JP7332425B2 (ja) 2023-08-23

Family

ID=75491285

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019190398A Active JP7332425B2 (ja) 2019-10-17 2019-10-17 計算機システム

Country Status (2)

Country Link
US (1) US20210117831A1 (ja)
JP (1) JP7332425B2 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018147489A (ja) 2017-03-08 2018-09-20 富士通株式会社 複数のq学習カテゴリーを使う交通信号制御

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7254524B1 (en) * 2001-07-12 2007-08-07 Cisco Technology, Inc. Method and system for a simulation authoring environment implemented in creating a simulation application
US8290885B2 (en) * 2008-03-13 2012-10-16 Sony Corporation Information processing apparatus, information processing method, and computer program
JP2012079178A (ja) * 2010-10-04 2012-04-19 Sony Corp データ処理装置、データ処理方法、及び、プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018147489A (ja) 2017-03-08 2018-09-20 富士通株式会社 複数のq学習カテゴリーを使う交通信号制御

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
森啓介 ほか,"Attention Branch Networkによる一貫学習・強化学習におけるアテンションの獲得",第36回日本ロボット学会学術講演会,2018年09月04日
長嶺一輝 ほか,"深層強化学習エージェントの行動別顕著性マップの生成に関する考察", 2019年度人工知能学会全国大会(第33回),2019年06月04日

Also Published As

Publication number Publication date
US20210117831A1 (en) 2021-04-22
JP2021067971A (ja) 2021-04-30

Similar Documents

Publication Publication Date Title
JP7413580B2 (ja) ニューラルネットワークを使用した集積回路フロアプランの生成
US9198577B2 (en) Display processing method and apparatus
Ernst et al. Fast falsification of hybrid systems using probabilistically adaptive input
JP7215077B2 (ja) 予測プログラム、予測方法及び予測装置
JP2019204490A (ja) 自動電磁干渉フィルタ設計システム、その方法およびコンピュータ可読媒体
US20170061804A1 (en) Air vehicle navigation systems and methods using a common runtime aircraft intent data structure
EP3086229A1 (en) Managing hydrocarbon energy production while proactively maintaining a balanced workload
JP6944386B2 (ja) 故障診断支援装置
US11537872B2 (en) Imitation learning by action shaping with antagonist reinforcement learning
US11501157B2 (en) Action shaping from demonstration for fast reinforcement learning
JP6222225B2 (ja) 仮想マシン配置決定装置、仮想マシン配置決定方法および仮想マシン配置決定プログラム
JP6094593B2 (ja) 情報システム構築装置、情報システム構築方法および情報システム構築プログラム
US11702101B2 (en) Automatic scenario generator using a computer for autonomous driving
JP5910499B2 (ja) 拡張性評価装置、拡張性評価方法および拡張性評価プログラム
JP2014132419A (ja) 仮想化システムの性能予測装置、性能予測方法およびコンピュータ・プログラム
WO2015173903A1 (ja) シミュレーション実行装置及びシミュレーション実行方法
JP7332425B2 (ja) 計算機システム
KR102568392B1 (ko) 동적 상황판 시스템
JP2005049922A (ja) ジョブ実行計画の評価システム
WO2017109821A1 (ja) 計算機システムの管理システム及び管理方法
JP2014174609A (ja) ハードウェア構成見積システム、ハードウェア構成見積方法及びハードウェア構成見積プログラム
JP6108343B2 (ja) 物理量シミュレーション方法及びそれを用いた物理量シミュレーションシステム
KR102520732B1 (ko) 유동해석 데이터 처리장치 및 그 장치에서 각 기능을 실행시키기 위해 매체에 저장된 컴퓨터 프로그램
JP5412305B2 (ja) モデルベースの性能予測システム
JP5691529B2 (ja) 性能評価システム、性能評価方法および性能評価用プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220818

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220818

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230630

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230810

R150 Certificate of patent or registration of utility model

Ref document number: 7332425

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150