JP2019016025A - 情報処理システム - Google Patents

情報処理システム Download PDF

Info

Publication number
JP2019016025A
JP2019016025A JP2017130811A JP2017130811A JP2019016025A JP 2019016025 A JP2019016025 A JP 2019016025A JP 2017130811 A JP2017130811 A JP 2017130811A JP 2017130811 A JP2017130811 A JP 2017130811A JP 2019016025 A JP2019016025 A JP 2019016025A
Authority
JP
Japan
Prior art keywords
learning
unit
learning model
input
model unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017130811A
Other languages
English (en)
Other versions
JP6802118B2 (ja
Inventor
忠幸 松村
Tadayuki Matsumura
忠幸 松村
篤志 宮本
Atsushi Miyamoto
篤志 宮本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2017130811A priority Critical patent/JP6802118B2/ja
Priority to US16/008,128 priority patent/US20190012611A1/en
Publication of JP2019016025A publication Critical patent/JP2019016025A/ja
Application granted granted Critical
Publication of JP6802118B2 publication Critical patent/JP6802118B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems

Abstract

【課題】機械学習のための教師データを装置により自動的に生成する。【解決手段】情報処理システムは、学習モデル部と前記学習モデル部を学習させるトレーナ部と、記憶部と、を含み、前記記憶部は、入力値に対する前記学習モデル部の出力値が真と判定される条件を示す、予め設定されている検証ルールを格納し、前記トレーナ部は、前記学習モデル部に対して、複数の入力値を入力し、前記複数の入力値に対する前記学習モデル部の複数の出力値を取得し、前記検証ルールを参照して、前記複数の出力値が、それぞれ、前記複数の入力値に対して真であるか判定し、前記複数の出力値において真であると判定された出力値と対応する入力値とのペアを、教師あり学習のための新規訓練データとして前記記憶部に格納する。【選択図】図1

Description

本発明は、機械学習の訓練データを生成する技術に関する。
システム開発コストの増加と機械学習ベースプログラミング要求仕様の高度化、不確実性が高まっており、システム開発コストが高騰している。そこで、入力xに対して出力yを返すモジュール(y=f(x))を人手でプログラミングするのではなく、機械学習による推定モデルとして一連のプログラム開発フローに取込む動き(Machine Learning as Programming)が活発化しつつある。
特に、画像処理応用で成功を収めた人工ニューラルネットワーク(ANN)の技術において、シーケンスデータや構造データに対するアルゴリズムの学習でも成功例(DNC: Differential Neural Computer、NPI: Neural program interpreterなど)が報告され始めている。今後この流れは従来の画像処理用途にとどまらず、より広い応用分野で適用されると予想される。
ANNをはじめとする機械学習モデルは、大量かつ網羅的な教師データを必要とする。例えば、米国特許出願公開第2011/0167027号(特許文献1)は、外部入力された訓練データを、ルールにより選別・重み付けする技術を開示する。具体的には、情報解析装置は、テキスト情報の複数の文からなる解析単位毎に、解析単位に対象情報が含まれる度合いを示す密度を推定する密度推定部と、各分析単位に含まれる各文がターゲット情報に対応する度合いを示す評価値を、その分析単位の推定密度から取得し、その評価値に基づきその情報が対象情報に該当するか否かを判定する判定部を含む。
米国特許出願公開第2011/0167027号
上述のように、機械学習モデルは、大量かつ網羅的な教師データを必要とする。しかし、必要な学習を終了していないモデル(アルゴリズム)は、正確な教師データを生成することは基本的に不可能である。モデルが正確な教師データを生成できることは、そのモデルの必要な学習が終了していることを意味する。
特許文献1に開示の技術は、外部から入力されるデータから訓練データを選別・重み付することはできるが、機械学習に使用できる教師データを自動的に生成することはできない。
したがって、機械学習のための教師データを装置により自動的に生成することができる技術が望まれる。
本発明の一態様は、学習モデル部と前記学習モデル部を学習させるトレーナ部と、記憶部と、を含み、前記記憶部は、入力値に対する前記学習モデル部の出力値が真と判定される条件を示す、予め設定されている検証ルールを格納し、前記トレーナ部は、前記学習モデル部に対して、複数の第1の入力値を入力し、前記複数の第1の入力値に対する前記学習モデル部の複数の第1の出力値を取得し、前記検証ルールを参照して、前記複数の第1の出力値が、それぞれ、前記複数の第1の入力値に対して真であるか判定し、前記複数の第1の出力値において真であると判定された第1の出力値と対応する第1の入力値とのペアを、教師あり学習のための新規訓練データとして前記記憶部に格納する、情報処理システムである。
本発明の一態様によれば、機械学習のための教師データを装置により自動的に生成することができる。
本実施形態の情報処理システムの構成例を示す。 計算機の構成例を示す。 セルフトレーナ部が学習モデル部に学習させるための処理のフローチャートを示す。 ソート問題に対する自己訓練ルールに含まれる情報の例を示す。 検証ルールの例を示す。 学習モデル部への入力ネットワークの例を示す。 学習モデル部からの出力フローの例を示す。エッジの数字は流量を示す 入力ネットワークと出力フローから生成された、残余ネットワークを示す。 図5Cに示す残余ネットワークから、残余容量が0の有方エッジ(実線矢印)を削除して得られる残余ネットワークを示す。 学習モデル部への入力ネットワークの例を示す。 フロー保存則を説明するため、一つの交差点に接続する四つの道路を示す。 フロー保存則を説明するため、一つの交差点に接続する四つの道路を示す。 施設内の人流制御に適用された、情報処理システムの他の構成例を示す。 本実施形態の機械学習システムのECHO問題に対する評価における、シーケンス長が5の学習が完了した時の結果を示す。 本実施形態の機械学習システムのECHO問題に対する評価における、シーケンス長が6の学習の途中結果を示す。 本実施形態の機械学習システムのECHO問題に対する評価における、シーケンス長が6の学習が完了した時の結果を示す。 本実施形態の機械学習システムのECHO問題に対する評価における、シーケンス長が10の学習が完了した時の結果を示す。 本実施形態の機械学習システムのECHO問題に対する評価における、シーケンス長が19の学習が完了した時の結果を示す。
以下、添付図面を参照して本発明の実施形態を説明する。本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。各図において共通の構成については同一の参照符号が付されている。
以下に開示される一実施形態の情報処理システムは、機械学習に使用される教師データを自動的に生成する。情報処理システムは、機械学習のモデルを利用して、教師データを生成する。機械学習により得られるモデル(アルゴリズム)は、基本的に与えられたデータに対するフィッティングモデルであり、学習サンプルの近傍の入力にのみ適切に反応でき、未知の入力データに対する汎化性/外挿性は低い。
一方、機械学習のシステム設計者は、プログラミング(手続き的知識の生成)の際に宣言的知識を予め持っている。つまり、システム設計者は、目的の問題を解決する手続き的知識(モデル)を有していなくても、その宣言的知識を予め持っている。例えば、数列をソートする問題の例において、システム設計者は、正しいソート結果を得る手続き的知識(モデル)を有していなくとも、数列の順序を入れ替えた結果が正しいソート結果であるか判定できる。例えば、システム設計者は、入力[1、3、2]に対して、出力(応答)[1、2、3]が目的の結果か判定できる。
本開示の情報処理システムにおいて、モデルの出力が正解であるか否かを判定するための検証ルールが予め定義されている。検証ルールは、出力(応答)が入力に対して正解であるための条件を示す。システム設計者は、モデルが解決することを目的とする問題の宣言的知識に基づき、検証ルールを情報処理システムに予め定義する。
情報処理システムは、正解が不明なテストデータをモデルに入力し、その出力を取得する。情報処理システムは、入力と出力のペア(サンプル)を、教師データ候補として保持する。情報処理システムは、予め設定されている検証ルールに基づき、教師データ候補のペアそれぞれの出力が正解であるか判定する。情報処理システムは、出力が正解であるペアを新たな教師データとして保存する。
上述のように、学習モデルを使用して教師候補データを生成し、検証ルールに基づき教師候補データから教師データを選択することで、情報システムが自律的に教師データを生成することができる。
情報処理システムは、さらに、新たに生成した教師データを使用して、モデルを学習させる。このように、情報処理システムは、自律的に、教師データの生成とモデルの教師あり学習を繰り返し行うことができる。
例えば、情報処理システムは、モデルに、簡単なタスクを学習させる。簡単なタスクの教師データは、例えば、システム設計者によって予め用意されている。簡単なタスクは、計算理論における計算複雑性が低いタスクである。例えば、ソート問題において、数列の要素数が多い程、タスクの難易度は高い。同一問題の異なるタスクが存在し、また、異なる問題のタスクは異なるタスクである。
このように、簡単なタスクで学習したモデルを使用してより難しいタスクの教師データを生成することで、効率的に教師データを生成することができる。あるモデルが生成した教師データを、当該モデル(同一問題のモデル)の学習に使用することができ、当該モデルと異なるモデル(異なる問題のモデル)に使用することもできる。
モデルの教師あり学習と、新たな教師データの生成を繰り返すことで、多量の教師データを用意することなく、情報処理システムが自律的にモデルの教師あり学習を進めることができる。システム設計者が簡単な教師データを与えると、情報処理システムは、自律的に訓練データ(教師データ)の生成と再学習を繰り返し、より複雑なタスクに適応可能である。
図1は、本実施形態の情報処理システム1の構成例を示す。情報処理システム1は、機械学習システム10を含む。機械学習システム10は、セルフトレーナ部110、セルフトレーナ部110が使用する制御データ、学習モデル部(単にモデルとも呼ぶ)120、及び学習モデル部120の学習に使用される訓練データ(学習データとも呼ぶ)を含む。訓練データは、教師あり学習のための教師データである。教師データの各サンプルは、入力値(入力データ)と出力値(出力データ)のペアで構成される。入力値は、例えば、ベクトルである。
学習モデル部120は、教師あり学習の任意のモデルでよい。セルフトレーナ部110例えば、決定木、サポートベクタマシン、ディープニューラルネットワーク(深層学習)、ロジスティック回帰等を含む、任意のモデルタイプの学習モデル部120を、が学習させることができる。
セルフトレーナ部110は、教師データを使用して、目的の問題を解決することができるように学習モデル部120を学習させる。セルフトレーナ部110は、訓練データ生成部113、訓練データ管理部115、及び訓練管理部117を含む。
セルフトレーナ部110は、初期データの入力を受信する。初期データは、初期構成パラメータ141、自己訓練ルール145、及び検証ルール147を含む初期制御データと、初期訓練データ143とを含む。訓練管理部117は、初期制御データの入力を受信し、ルール・構成データデータベース(DB)105に格納する。訓練データ管理部115、入力された初期訓練データ143を、訓練データDB101に格納する。
初期構成パラメータ141は、学習モデル部120の学習で参照される構成パラメータを含む。初期構成パラメータ141は、例えば、損失関数、最適化法(例えば勾配効果法の特定のアルゴリズム)、及び最適化パラメータを含む。セルフトレーナ部110は、学習モデル部120の教師あり学習において、指定された最適化方法に従って、学習モデル部120の出力と正解との誤差に対する損失関数の値に基づき、最適化パラメータを更新する。
自己訓練ルール145は、学習モデル部120の学習のための、教師データの生成及び学習タスクに関するルールを示す。セルフトレーナ部110は、自己訓練ルール145に従って、学習モデル部120を使用して新たな教師データを生成し、生成した教師データを使用して学習モデル部120の再学習を行う。再学習の前の学習モデル部120の情報は、モデルDB103に格納される。
自己訓練ルール145は、具体的には、次の学習タスクのための教師データの候補を生成するための新たな入力データを生成する手続き、学習タスクの終了判定条件、及び、学習タスクの内容を更新する手続きを規定する。セルフトレーナ部110は、新たな学習タスクのために、学習モデル部120を使用して、新たな教師データを生成する。
検証ルール147は、学習モデル部120への入力に対する出力が、正解であるか否かを判定する方法(判定基準)を示す。検証ルール147により、セルフトレーナ部110は、学習モデル部120が生成した教師データ候補から、正しい教師データを選択できる。
セルフトレーナ部110は、学習モデル部120が生成した教師データ候補サンプルのうち、入力値に対する出力値が正解のサンプルを、検証ルール147に従って、選択する。上述のように、検証ルール147は、システム設計者が宣言的知識に基づいて定義、作成して、情報処理システム1に予め設定する。
機械学習システム10は、例えば、所定のプログラム及びデータがインストールされた1又は複数の計算機からなる計算機システムで構成することができる。図2は、計算機200の構成例を示す。計算機200は、プロセッサ210、メモリ220、補助記憶装置230、入出力インタフェース240を含む。上記構成要素は、バスによって互いに接続されている。メモリ220、補助記憶装置230又はこれらの組み合わせは記憶装置の例である。
メモリ220は、例えば半導体メモリから構成され、主にプログラムやデータを一時的に保持するために利用される。メモリ220は、セルフトレーナ部110及び学習モデル部120を構成するためのプログラムを格納する。
プロセッサ210は、メモリ220に格納されているプログラムに従って、様々な処理を実行する。プロセッサ210がプログラムに従って動作することで、様々な機能部が実現される。例えば、プロセッサ210は、プログラムそれぞれに従って、セルフトレーナ部110及び学習モデル部120として動作する。
補助記憶装置230は、例えばハードディスクドライブやソリッドステートドライブなどの大容量の記憶装置から構成され、プログラムやデータを長期間保持するために利用される。本例において、補助記憶装置230は、訓練データDB101、モデルDB103、及びルール・構成データDB105を格納している。
補助記憶装置230に格納されたプログラムが起動時又は必要時にメモリ220にロードされ、このプログラムをプロセッサ210が実行することにより、機械学習システム10の各種処理が実行される。したがって、プログラムにより実行される処理は、プロセッサ210又は機械学習システム10による処理である。
入出力インタフェース240は、周辺機器との接続のためのインタフェースであり、例えば、入力装置242及び表示装置244とが接続される。入力装置242は、ユーザが文章作成装置100に指示や情報などを入力するためのハードウェアデバイスであり、表示装置244は、入出力用の各種画像を表示するハードウェアデバイスである。
機械学習システム10は、学習モデル部120のための、学習モードと運用モード(処理モード)を有する。運用モードにおいて、学習モデル部120は、入力データ(例えば測定データ)に対して出力データを生成する。出力データは、所定のデバイスに送信される。
学習モードにおいて、セルフトレーナ部110は、上述のように、訓練データ(教師データ)を学習モデル部120によって生成し、それを使用して当該学習モデル部120を学習させる。学習モードは、学習フェーズとテストフェーズを含む。学習フェーズは、訓練データを学習モデル部120に入力し、その最適化パラメータを更新する。テストフェーズは、学習モデル部120にテストデータ(教師データ)を入力し、出力と正解とを比較して、学習モデル部120の学習度を検証する。
以下において、図3のフローチャートを参照して、セルフトレーナ部110が学習モデル部120に学習させるための処理を説明する。まず、セルフトレーナ部110の訓練データ管理部115は、訓練データDB101から外部入力された初期訓練データ143を取得する。訓練管理部117は、初期訓練データ143を学習モデル部120に入力し、初期構成パラメータ141に基づいて、初期学習タスクを学習させる(S101)。学習モデル部120の学習方法は広く知られており、説明を省略する。
訓練管理部117は、自己訓練ルール145が示す学習終了判定条件に基づいて、初期学習タスクが完了しているか判定する(S102)。初期学習タスクが完了していない場合(S102:NO)、訓練管理部117は、ステップS101に戻って、初期学習タスクを再開する。
初期学習タスクが完了している場合(S102:YES)、訓練管理部117は、学習済みモデル(学習モデル部のプログラムを含むデータ)のコピーを生成して、モデルDB103に格納する。さらに、訓練管理部117は、学習タスクの内容を、自己訓練ルール145が規定する学習内容更新手続きに従って更新する(S103)。例えば、学習タスクは、より計算複雑性が高い内容に更新される。
訓練データ生成部113は、新しい学習タスクの訓練データ(教師データ)候補を生成するための入力データを生成する(S104)。訓練データ生成部113は、更新された学習タスクの内容に対応する、入力データを生成する。
訓練データ生成部113は、学習済みの学習モデル部120によって、新たに生成された入力データから、新しい学習タスクの訓練データ(教師データ)候補を生成する(S105)。
訓練データ生成部113は、外部入力された訓練データの検証ルール147に基づいて、生成された訓練データ候補から、新たな訓練データ(教師データ)を選択する(S106)。訓練データ生成部113は、生成された全ての訓練データ候補サンプルについて、検証ルール147に基づき、出力が正解であるか判定する。
訓練データ生成部113は、正解の出力を含む全てのサンプル(入力と出力のペア)を、新たらしい訓練データ(教師データ)に含める。訓練データ管理部115は、新たな訓練データ(教師データ)を訓練データDB101に格納する(S107)。
訓練管理部117は、初期構成パラメータ141に基づき、新たに生成された訓練データにより、又は、新しい訓練データと既存訓練データにより、学習モデル部120の再学習を実行する(S108)。上述のように、訓練データを使用した学習の方法は公知の技術であり、説明を省略する。
訓練管理部117は、自己訓練ルール145が示す学習終了判定条件に基づいて、現在の学習タスクが完了しているか判定する(S109)。これにより、適切に次の学習タスクに移ることができる。例えば、訓練管理部117は、学習モデル部120にテストデータを入力し、その正解率に基づき、現在の学習内容の学習タスクを終了するか判定する。例えば、所定入力数に対する正解率が所定値以上である場合に、学習タスクが終了すると判定される。
現在の学習タスクが完了していない場合(S109:NO)、訓練管理部117は、ステップS104に戻る。訓練データ生成部113は、新たな訓練データ候補を生成するための入力データを生成する(S104)。この入力データは、前回生成した入力データと同じ学習タスク(内容が同一)のためのものである。
訓練データ生成部113は、学習中の学習モデル又はモデルDB103に格納されている最新の学習済みモデルを使用して、新たな訓練データ候補を生成する(S105)。訓練データ生成部113は、既存の訓練データに含まれない新たな訓練データを生成する。訓練管理部117は、例えば、既存訓練データに含まれない入力データを生成して、訓練データ候補を生成する。同一入力値に対して正解と見なされる複数の出力値が存在する場合、既存訓練データに含まれる入力データが、訓練データ候補生成のために使用されてもよい。
訓練データ生成部113は、外部入力された訓練データの検証ルール147に基づいて、生成された訓練データ候補から、新たな訓練データ(教師データ)を選択する(S106)。訓練データ管理部115は、新たな訓練データ(教師データ)を訓練データDB101に格納する(S107)。訓練管理部117は、新たに生成された訓練データを使用して、学習モデル部120の再学習を実行する(S108)。
現在の学習タスクが完了している場合(S109:YES)、訓練管理部117は、自己訓練ルール145が示す学習終了条件に基づいて、学習モデル部120の学習を終了すべきか判定する(S110)。学習を続行すべき場合(S110:NO)、訓練管理部117は、ステップS103に戻って、学習済みの学習モデルをモデルDB103に格納し、学習タスクの内容を更新して、学習タスクを再開する。
上記例は、学習モデル部120で生成した新規訓練データを、学習モデル部120の再学習に使用する。新規訓練データは、学習モデル部120以外の学習モデルの学習に使用することができる。例えば、特定の問題を解決することを目的とする学習モデルにより生成された訓練データを、他の問題を解決することを目的とする学習モデルの学習に使用することができる。
上記例は、外部から入力された初期訓練データにより、学習モデル部120の学習を行う。学習済みの学習モデル部により効率的に新規訓練データを生成することができる。これと異なり、初期訓練データにより予め学習済みの学習モデル部120を使用して、初期訓練データによる学習を省略してもよい。外部から入力された初期訓練データによる学習により、学習済みの学習モデル部120を用意する必要がない。
以下において、ソート問題を例として、学習モデル部120の学習を説明する。ソート問題は、入力された数列の数字を、降順又は昇順に再配列する。図4Aは、ソート問題に対する自己訓練ルール145に含まれる情報の例を示す。自己訓練ルール145は、新しい訓練データの入力データを生成する手続き451、学習終了判定条件452、及び学習内容更新手続き453を規定する。図4Bは、検証ルール147の例を示す。
本例において、ソート順序は、昇順である。新しい訓練データの入力データを生成する手続き451は、新しい入力データxを生成する関数を示す。関数は、所定長さ「length」の乱数列を返す。
検証ルール147は、入力データxsと出力データysの要素集合が等しく、全隣接要素間の大小関係が適切であることを規定する。昇順における適切な大小関係は、後ろの要素の値が前の要素の値以上であることである。
学習終了判定条件452は、ランダムな所定数のテストデータサンプルを正解すること(正解率100%)を規定する。本例での所定数は100である。学習内容更新手続き453は、学習タスク完了時に、数列の長さを更新して返すことを示す。本例は、数列の長さをインクリメントする。
ソート問題の学習方法の例を説明する。訓練データ管理部115は、訓練データDB101から初期訓練データ143を取得する。初期訓練データ143は、所定の要素数、例えば、5要素の数列の教師データである。
訓練管理部117は、初期訓練データ143によって、学習モデル部120を学習させる(S101)。その後、訓練管理部117は、初期訓練データ143と同じ要素数の100の入力サンプルをランダムに生成し、学習モデル部120をテストする。訓練管理部117は、は、検証ルール147により、出力が正解か否か判定する。学習モデル部120が全てのサンプルに対して正解を出力する場合、初期学習タスクは完了である(S102:YES)。
訓練管理部117は、学習済みの学習モデルのコピーをモデルDB103に格納する。訓練管理部117は、学習タスクの内容を、学習内容更新手続き453に従って更新する(S103)。訓練管理部117は、新しい訓練データの入力データを生成する手続き451の「length」を、インクリメントする。「length」の初期値は、初期訓練データ143の要素数に一致する。
訓練データ生成部113は、新しい訓練データの入力データを生成する手続き451に従って、所定数の長さ「length」の乱数列を生成する(S104)。乱数列は、教師データ候補を生成するための入力データである。長さ「length」は、例えば、6である。
訓練データ生成部113は、学習済みの学習モデル部120に生成した乱数列を入力し、それぞれの出力値(数列)を取得する(S105)。乱数列と出力値とのペアが、訓練データサンプルの候補である。
訓練データ生成部113は、検証ルール147に基づいて、生成された訓練データサンプル候補から、新たな訓練データ(教師データ)サンプルを選択する(S106)。訓練データとして選択される各サンプルは、出力数列の要素が入力乱数列の要素と一致し、さらに、出力数列における全隣接要素間で、後ろの要素の値が前の要素の値以上である。訓練データ管理部115は、新たな訓練データを訓練データDB101に格納する(S107)。
訓練管理部117は、新たに生成された要素数6の訓練データのみ、又は、要素数5の既存訓練データ(初期訓練データ)と要素数6の新たな訓練データとにより、学習モデル部120の再学習を実行する(S108)。要素数6の訓練データは、要素数5の訓練データよりも計算複雑性が高いデータである。
その後、訓練管理部117は、自己訓練ルール145が示す学習終了判定条件に基づいて、現在の学習タスクが完了しているか判定する(S109)。例えば、訓練管理部117は、要素数5又は要素数6の乱数列を繰り返し生成して、合計100のテスト用入力乱数列を生成する。各乱数列の要素数は、例えば、ランダムに決定される。訓練管理部117は、100の入力乱数列を学習モデル部120に入力し、出力それぞれが正確であるか検証ルール147に従って判定する。学習方法によっては、要素数6の乱数列のみが生成される。
学習モデル部120からの全ての出力が正解であれば(S109:YES)、本学習タスクは終了である。学習モデル部120の学習を続行すべき場合(S110:NO)、訓練管理部117は、学習済みの学習モデルのコピーをモデルDB103に格納し、長さ「length」をインクリメントする(S103)。次の学習タスクのための新たな訓練データの生成及び学習モデル部120の学習(再学習)を実行する(S104〜109)。
いずれかの出力が不正解である場合(S109:NO)、訓練データ生成部113は、学習モデル部120を使用して、要素数6の新たな訓練データを生成する(S105)。訓練管理部117は、新たに生成した要素数6の訓練データを使用して、学習モデル部120の再学習を行う(S106〜S109)。
次に、最大流量問題の例を説明する。最大流量問題は、容量付グラフにおいて、ソースからシンクへの最大流量フローを求める問題である。図5Aから5Dは、最大フロー問題及びその解法を模式的に示す。
図5Aは、学習モデル部120への入力ネットワークの例511を示す。Sノードはソースを示し、Tノードはシンクを示す。エッジの矢印は流れの方向を示し、エッジの数字は容量を示す。図5Bは、学習モデル部120からの出力フローの例513を示す。エッジの数字は流量を示す。
図5Cは、入力ネットワーク511と出力フロー513から生成された、残余ネットワーク515を示す。各実線矢印(エッジ)の数字は、入力ネットワーク511の容量から出力フロー513の流量を引いた値を示し、当該エッジでさらに流すことが可能な流量を示す。各破線矢印の数字は、当該エッジにおいて反対方向に流すことができる流量を示す。各破線矢印の数字は、出力フロー513における当該エッジの流量に一致する。
図5Dは、図5Cに示す残余ネットワーク515から、残余容量が0の有方エッジ(実線矢印)を削除して得られる残余ネットワーク517を示す。残余ネットワーク515と残余ネットワーク517とは、同一の残余ネットワークの異なる表現である。図5Dに示す残余ネットワーク517において、SノードからTノードへのパスは存在しない。パスは、残余ネットワーク517に残されている有向エッジ(実線矢印及び破線矢印)で構成される。
残余ネットワーク517においてSノードからTノードへのパスが存在しないことは、出力フロー513が、SノードからTノードへの最大流量を示していることを、意味する。したがって、残余ネットワークにおいてSノードからTノードへのパスが存在しないことは、最大流量問題の検証ルール147として使用することができる。
以下において、最大流量問題のための、自己訓練ルール145及び検証ルール147の例を説明する。上述のように、自己訓練ルール145は、新しい訓練データの入力データを生成する手続き、学習終了判定条件、及び、学習内容更新手続きを規定する。
新しい訓練データの入力データを生成する手続きは、例えば、所定数のノード及び所定数のエッジから、異なる構成のグラフを、所定数生成することを指示する。新しい訓練データの入力データを生成する手続きは、さらに、各グラフから、容量の異なる組み合わせのネットワークを所定数生成することを指示する。各エッジの流量は、例えば、所定範囲内の乱数が割り当てられる。
新しい訓練データの入力データを生成する手続きは、一つのノードに接続されるエッジの最大数を規定する。グラフは、ノードとノード間を接続するエッジからなり、エッジ又はノードへの容量を定義しない。エッジは方向を持つことができる。ここで、グラフは、ソースノードとシンクノードを定義し、さらに、ソースノードからシンクノードへのパスを含む。
学習終了判定条件は、例えば、所定数の入力ネットワークの全てに対して、正解を出力することである。入力ネットワークのノード数及びエッジ数は、学習タスクで使用された訓練データのノード数及びエッジ数に対応する。
学習内容更新手続きは、例えば、現在の入力ネットワークのエッジの数が所定数未満である場合にエッジの数を増加させ、エッジの数が所定数に達している場合にノードの数を増加させる、ことを指示する。エッジ数又はノード数の増加に伴い、計算複雑性が増加する。特定ノード数に対するエッジ数の初期値は、予め規定されている。
検証ルール147は、例えば、残余ネットワークにおいてソースノードとシンクノードとの間にパスが存在しないことを、正解の条件として示す。
セルフトレーナ部110は、上記の自己訓練ルール145及び検証ルール147に基づいて、図3に示すフローチャートに沿って、学習モデル部120の学習及び訓練データの生成を繰り返す。
次に、交通量推測問題の例を説明する。図6は、学習モデル部120への入力ネットワークの例611を示す。ネットワーク611は、道路網及びその交通量を示す。黒点ノードは交差点を表し、エッジは道路を表す。エッジの矢印は、道路の通行方向を示す。ネットワーク611における交差点間の全ての道路は、一方通行である。
エッジの数字は、当該道路における特定時間内の交通量を示す。交通量の一部データが欠損している。「?」は、当該道路の交通量のデータが存在せず、不明であることを示す。道路が双方向である場合、ノード間において双方向の交通量が示される。道路の交通量は、例えば、道路に設置されている測定装置により計測される。
学習モデル部120は、入力されたネットワークにおける全ての欠損交通量を推定し、全ての道路の交通量を示すネットワークを出力する。検証ルール147は、フロー保存則を利用する。フロー保存則は、一つのノードにおける流入量の総和は、当該ノードからの流出量の総和に等しいことを示す。
図7A及び7Bは、フロー保存則を説明するため、一つの交差点に接続する四つの道路を示す。道路711から714が、交差点701に接続している。図7Aにおいて、一つの道路の交通量が不明であり、図7Bにおいて二つの道路の交通量が不明である。
具体的には、図7Aにおいて、道路711から交差点701への流入量は9である。道路712から交差点701への流入量は3である。交差点701から道路713への流出量は8である。交差点701から道路714への流出量は不明(「?」)である。フロー保存則は、道路714への流出量は4であることを示す。
一方、図7Bにおいて、道路714への流出量に加え、道路711からの流入量が不明である。フロー保存則は、道路714及び道路711の交通量の複数の組が正解であり得ることを示す。具体的には、道路711の交通量と道路714への交通量との和が、+5である任意の組み合わせが正解である。なお、交差点701への流入は正の数字で表わされ、交差点からの流出は負の数字で表わされるものとする。
以下において、交通量推測問題の自己訓練ルール145及び検証ルール147の例を説明する。上述のように、自己訓練ルール145は、新しい訓練データの入力データを生成する手続き、学習終了判定条件、及び学習内容更新手続きを規定する。
新しい訓練データの入力データを生成する手続きは、例えば、所定数のノード及び所定数のエッジから、異なる構成のグラフを、所定数生成することを指示する。例えば、各エッジはいずれかの一方向を持つ(一方通行)、又は、双方向を持つ(双方向通行)。
新しい訓練データの入力データを生成する手続きは、さらに、各グラフから、交通量の異なる組み合わせのネットワークを所定数生成することを指示する。ネットワークにおいて、ランダムに所定数のエッジを選択し、交通量未設定のエッジと決定することを指示する。
新しい訓練データの入力データを生成する手続きは、ノードごとに、交通量未設定と決定されたるエッジを除く全てのエッジそれぞれに対して、交通量を所定範囲内の乱数に設定することを指示する。ただし、交通量未設定のエッジが一つも接続されないノードに関しては、そのノードに接続するエッジの集合に割り当てられる交通量の総和が、フロー保存則を満たすまで、乱数による割り当てを繰り返すことを指示する。
上記他の問題のための学習において、新しい訓練データの入力データを生成する手続きは、既存訓練データにおける入力データと異なる入力データを使用して訓練データ候補を生成する。本問題においては、一つの入力オブジェクトに対して正解と見なされる複数の出力値が存在し得る。同一学習タスクの訓練データ生成ために異なるパラメータセットの学習モデル部を使用され、新たな訓練データ候補の生成において、既存訓練データに含まれる入力データが使用されてもよい。
学習終了判定条件は、例えば、所定数の入力ネットワークの全てに対して、正解を出力することである。上述のように、一つのノードに接続する複数のエッジの流量が不明の場合、複数の正解が存在する。入力ネットワークのノード数及びエッジ数は、学習タスクで使用された訓練データのノード数及びエッジ数に対応する。
学習内容更新手続きは、例えば、現在の入力ネットワークのエッジの数が所定数未満である場合にエッジの数を増加させ、エッジの数が所定数に達している場合にノードの数を増加させる、ことを指示する。エッジ数又はノード数の増加に伴い、計算複雑性が増加する。特定ノード数に対するエッジ数の初期値は、予め規定されている。検証ルール147は、各ノードにおいて、フロー保存則が満たされていることを示す。
本実施形態の情報処理システム1は、上記三つの問題例以外の問題にも適用可能である。上記三つの問題例に対してそれぞれ示した検証ルールは例であって、他の可能な検証ルールを使用することができる。
以下において、情報処理システム1の運用の例を説明する。最大フロー問題の学習モデル部120の運用の例を説明する。最大フロー問題の学習モデル部120は、例えば、生産ラインにおける各バルブの開閉量制御、都市における交通流制御、施設内の人流制御等に適用することができる。
図8は、施設内の人流制御に適用された、情報処理システム1の他の構成例を示す。図8に示す情報処理システム1は、例えば、駅において、改札周辺やホームの混雑状況に応じて電子看板で人の流れを誘導する、又は、商業施設において、混雑予測情報をモニタに映し出すことにより効率的に施設を利用させることができる。
機械学習システム10は、図1に示す構成に加え、ネットワーク生成部161及びオペレーショントランスレータ部163を含む。これらは、例えば、プログラムに従って動作する210により構成することができる。
情報処理システム1は、基本的に、学習部と運用部に分けることができる。学習部は、学習モデル部120を学習させる機能部であり、運用部は、実際の施設内の人流制御を実行する機能部である。
ネットワーク生成部161は、外部から入力される情報、例えば、平均歩行速度171、通路幅173、及びカメラ映像175から、対象となるネットワークを生成する。生成したネットワークは、学習後の学習モデル部120に入力される。学習モデル部120は、最大フローを算出する。オペレーショントランスレータ部163は、算出された最大フローの情報を、例えば、施設配置案165、スタッフガイダンス166、デジタルサイネージデータ167等に解釈して出力する。
学習部の動作は、基本的に、上述の通りである。セルフトレーナ部110は、例えば、現在の入力データであるネットワーク情報に基づき、学習モデル部120の再学習を制御してもよい。例えば、過去の学習におけるネットワークよりもサイズが大きいネットワークの入力の検知に応答して、セルフトレーナ部110は、学習モデル部120の再学習を開始してもよい。
以下において、本実施形態の機械学習システム10の評価結果の例を示す。発明者らは、シーケンスデータのECHO問題(タスク)のため、短いシーケンス長(L=5)の訓練データ(教師データ)を用意した。ECHO問題は、入力シーケンスを出力シーケンスとして出力する問題である。発明者らは、本実施形態の機械学習システム10が、学習モデル部120を、自律的により長いシーケンス長(L=19)のデータに対して適応させることができるか評価した。
機械学習システム10は、用意された訓練データで学習モデル部120を学習させた後、新たな訓練データの生成と学習モデル部120の再学習を繰り返した(学習モデル部120の自己学習)。本実施形態の機械学習システム10は、長いシーケンス長(L=19)のデータに対して適応した学習モデル部120を自律的に生成することができた。
図9A〜9Eは、上記評価結果を示す。図9A〜9Fは、それぞれ、ECHO問題における、入力値、目標値(真値)、予測値(出力値)、及び目標値と予測値との間の差分を示す。
図9Aは、シーケンス長が5の学習が完了した時の結果を示す。入力値321は、シーケンス幅3、シーケンス長5の、0/1の2値データである。入力値321に対して、スタートフラグ301とエンドフラグ303が付随している。学習モデル部120が出力した予測値325は、目標値323と一致しており、それらの差分はゼロである。
図9Bは、シーケンス長が6の学習の途中結果を示す。学習モデル部120が、入力値331に対して、出力した予測値335は、目標値333と異なっている。予測値335と目標値333との間の差分337が存在する。図9Cは、シーケンス長が6の学習が完了した時の結果を示す。学習モデル部120が、入力値341に対して出力した予測値345は、目標値343と一致しており、それらの差分はゼロである。
図9Dは、シーケンス長が10の学習が完了した時の結果を示す。学習モデル部120が、入力値351に対して出力した予測値355は、目標値353と一致しており、それらの差分はゼロである。図9Eは、シーケンス長が19の学習が完了した時の結果を示す。学習モデル部120が、入力値361に対して出力した予測値365は、目標値363と一致しており、それらの差分はゼロである。
以上のように、本実施形態の機械学習システム10は、外部から入力された短いシーケンスデータ(L=5)から、自律的に、より複雑なデータに対する学習を実現していくことができた。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。
1 情報処理システム、10 機械学習システム、110 セルフトレーナ部、120 学習モデル部、113 訓練データ生成部、115 訓練データ管理部、117 訓練管理部、141 初期構成パラメータ、145 自己訓練ルール、147 検証ルール、
210 プロセッサ、220 メモリ、230 補助記憶装置、240 入出力インタフェース、242 入力装置、244 表示装置、451 入力データを生成する手続き、453 学習内容更新手続き、452 学習終了判定条件

Claims (9)

  1. 学習モデル部と
    前記学習モデル部を学習させるトレーナ部と、
    記憶部と、を含み、
    前記記憶部は、入力値に対する前記学習モデル部の出力値が真と判定される条件を示す、予め設定されている検証ルールを格納し、
    前記トレーナ部は、
    前記学習モデル部に対して、複数の第1の入力値を入力し、
    前記複数の第1の入力値に対する前記学習モデル部の複数の第1の出力値を取得し、
    前記検証ルールを参照して、前記複数の第1の出力値が、それぞれ、前記複数の第1の入力値に対して真であるか判定し、
    前記複数の第1の出力値において真であると判定された第1の出力値と対応する第1の入力値とのペアを、教師あり学習のための新規訓練データとして前記記憶部に格納する、情報処理システム。
  2. 請求項1に記載の情報処理システムであって、
    前記トレーナ部は、前記新規訓練データを利用して、前記学習モデル部を学習させる、情報処理システム。
  3. 請求項2に記載の情報処理システムであって、
    前記トレーナ部は、初期訓練データによる学習済みの前記学習モデル部に、前記複数の第1の入力値を入力して、前記新規訓練データを生成する、情報処理システム。
  4. 請求項3に記載の情報処理システムであって、
    前記トレーナ部は、
    外部から入力された前記初期訓練データを使用して前記学習モデル部を学習させた後、前記学習モデル部に前記複数の第1の入力値を入力する、情報処理システム。
  5. 請求項3に記載の情報処理システムであって、
    前記複数の第1の入力値は、前記初期訓練データよりも計算複雑性が高い学習のデータである、情報処理システム。
  6. 請求項3に記載の情報処理システムであって、
    前記トレーナ部は、
    前記新規訓練データを使用した前記学習モデル部の学習の後、前記学習モデル部に複数の第2の入力値を入力して複数の第2の出力値を取得し、
    前記検証ルールを参照して、前記複数の第2の出力値が、それぞれ、前記複数の第2の入力値に対して真であるか判定し、
    前記複数の第2の出力値において真であると判定された第2の出力値と対応する第2の入力値とのペアを、前記学習モデル部の再学習ための訓練データとして使用する、情報処理システム。
  7. 請求項6に記載の情報処理システムであって、
    前記トレーナ部は
    前記新規訓練データを使用した前記学習モデル部の学習の後、前記学習モデル部にテストデータを入力し、
    前記テストデータに対する正解率を前記検証ルールに基づき決定し、
    前記正解率及び予め定められている判定条件に基づき、前記学習モデル部の現在の学習内容の学習を継続するか判定し、
    前記現在の学習内容での学習を終了すると判定した場合に、前記学習モデル部に前記複数の第2の入力値を入力して前記第2の出力値を取得する、情報処理システム。
  8. 請求項7に記載の情報処理システムであって、
    前記複数の第2の入力値は、前記複数の第1の入力値よりも計算複雑性が高い学習のデータである、情報処理システム。
  9. 学習モデル部と、前記学習モデル部を学習させるトレーナ部と、記憶部と、を含む、情報処理システムにおいて実行される方法であって、
    前記記憶部は、入力値に対する前記学習モデル部の出力値が真と判定される条件を示す、予め設定されている検証ルールを格納し、
    前記方法は、前記トレーナ部が、
    前記学習モデル部に対して、複数の入力値を入力し、
    前記複数の入力値に対する前記学習モデル部の複数の出力値を取得し、
    前記検証ルールを参照して、前記複数の出力値が、それぞれ、前記複数の入力値に対して真であるか判定し、
    前記複数の出力値において真であると判定された出力値と対応する入力値とのペアを、教師あり学習のための新規訓練データとして前記記憶部に格納する、ことを含む、方法。
JP2017130811A 2017-07-04 2017-07-04 情報処理システム Active JP6802118B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017130811A JP6802118B2 (ja) 2017-07-04 2017-07-04 情報処理システム
US16/008,128 US20190012611A1 (en) 2017-07-04 2018-06-14 Information processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017130811A JP6802118B2 (ja) 2017-07-04 2017-07-04 情報処理システム

Publications (2)

Publication Number Publication Date
JP2019016025A true JP2019016025A (ja) 2019-01-31
JP6802118B2 JP6802118B2 (ja) 2020-12-16

Family

ID=64903844

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017130811A Active JP6802118B2 (ja) 2017-07-04 2017-07-04 情報処理システム

Country Status (2)

Country Link
US (1) US20190012611A1 (ja)
JP (1) JP6802118B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020179438A (ja) * 2019-04-24 2020-11-05 株式会社日立製作所 計算機システム及び機械学習方法
WO2022013954A1 (ja) * 2020-07-14 2022-01-20 富士通株式会社 機械学習プログラム、機械学習方法および情報処理装置
WO2022102532A1 (ja) * 2020-11-13 2022-05-19 株式会社エンビジョンAescジャパン データ処理装置、モデル生成装置、データ処理方法、モデル生成方法、及びプログラム
JP2023502817A (ja) * 2020-10-26 2023-01-26 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 領域熱度予測モデルを確立する方法、領域熱度予測の方法、及び装置
US11699038B2 (en) 2020-09-18 2023-07-11 Fujifilm Business Innovation Corp. Information processing apparatus
JP7348488B2 (ja) 2019-08-07 2023-09-21 横浜ゴム株式会社 物性データ予測方法及び物性データ予測装置
JP7348489B2 (ja) 2019-08-09 2023-09-21 横浜ゴム株式会社 物性データ予測方法及び装置物性データ予測装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11625533B2 (en) * 2018-02-28 2023-04-11 Charles Northrup System and method for a thing machine to perform models

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03105663A (ja) * 1989-09-20 1991-05-02 Fujitsu Ltd 強化学習処理方式
JPH0594554A (ja) * 1991-09-30 1993-04-16 Toshiba Corp ニユ−ラルネツトワ−ク装置
JPH05314090A (ja) * 1992-05-14 1993-11-26 Hitachi Ltd ニューラルネットを用いたパターン認識方法およびその装置
JPH1152992A (ja) * 1997-07-31 1999-02-26 Seiko Epson Corp 音声認識用ニューラルネットワークの学習方法
JP2005092253A (ja) * 2003-09-11 2005-04-07 Fuji Xerox Co Ltd 機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム
JP2005100011A (ja) * 2003-09-24 2005-04-14 Nec Tohoku Sangyo System Kk ニューラルネットワークの学習方法及び学習システム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10915798B1 (en) * 2018-05-15 2021-02-09 Adobe Inc. Systems and methods for hierarchical webly supervised training for recognizing emotions in images

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03105663A (ja) * 1989-09-20 1991-05-02 Fujitsu Ltd 強化学習処理方式
JPH0594554A (ja) * 1991-09-30 1993-04-16 Toshiba Corp ニユ−ラルネツトワ−ク装置
JPH05314090A (ja) * 1992-05-14 1993-11-26 Hitachi Ltd ニューラルネットを用いたパターン認識方法およびその装置
JPH1152992A (ja) * 1997-07-31 1999-02-26 Seiko Epson Corp 音声認識用ニューラルネットワークの学習方法
JP2005092253A (ja) * 2003-09-11 2005-04-07 Fuji Xerox Co Ltd 機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム
JP2005100011A (ja) * 2003-09-24 2005-04-14 Nec Tohoku Sangyo System Kk ニューラルネットワークの学習方法及び学習システム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020179438A (ja) * 2019-04-24 2020-11-05 株式会社日立製作所 計算機システム及び機械学習方法
JP7179672B2 (ja) 2019-04-24 2022-11-29 株式会社日立製作所 計算機システム及び機械学習方法
JP7348488B2 (ja) 2019-08-07 2023-09-21 横浜ゴム株式会社 物性データ予測方法及び物性データ予測装置
JP7348489B2 (ja) 2019-08-09 2023-09-21 横浜ゴム株式会社 物性データ予測方法及び装置物性データ予測装置
WO2022013954A1 (ja) * 2020-07-14 2022-01-20 富士通株式会社 機械学習プログラム、機械学習方法および情報処理装置
JP7364083B2 (ja) 2020-07-14 2023-10-18 富士通株式会社 機械学習プログラム、機械学習方法および情報処理装置
US11699038B2 (en) 2020-09-18 2023-07-11 Fujifilm Business Innovation Corp. Information processing apparatus
JP2023502817A (ja) * 2020-10-26 2023-01-26 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 領域熱度予測モデルを確立する方法、領域熱度予測の方法、及び装置
WO2022102532A1 (ja) * 2020-11-13 2022-05-19 株式会社エンビジョンAescジャパン データ処理装置、モデル生成装置、データ処理方法、モデル生成方法、及びプログラム
JP7443218B2 (ja) 2020-11-13 2024-03-05 株式会社Aescジャパン データ処理装置、モデル生成装置、データ処理方法、モデル生成方法、及びプログラム

Also Published As

Publication number Publication date
JP6802118B2 (ja) 2020-12-16
US20190012611A1 (en) 2019-01-10

Similar Documents

Publication Publication Date Title
JP6802118B2 (ja) 情報処理システム
Corso et al. A survey of algorithms for black-box safety validation of cyber-physical systems
WO2018125337A2 (en) Automated generation of workflows
Martin The cost of restoration as a way of defining resilience: a viability approach applied to a model of lake eutrophication
Wyatt Exploration and inference in learning from reinforcement
KR20200052444A (ko) 신경망을 이용하여 예측 결과를 출력하는 방법, 신경망을 생성하는 방법 및 그 장치들
CN110278175A (zh) 图结构模型训练、垃圾账户识别方法、装置以及设备
Lin et al. Metareasoning for planning under uncertainty
US11809977B2 (en) Weakly supervised reinforcement learning
Meng et al. Microscopic traffic simulation model-based optimization approach for the contraflow lane configuration problem
CN110119860A (zh) 一种垃圾账号检测方法、装置以及设备
KR101584314B1 (ko) 가상 교육 훈련 시스템에서 실시간으로 발생하는 학습자 상황 정보를 추론하기 위한 온톨로지 추론 교육 방법, 이를 이용한 시스템 및 컴퓨터 판독 가능한 기록 매체
KR101855360B1 (ko) 신경망의 학습 최적화를 위한 신경망 구성 방법 및 장치
CN114787831B (zh) 改进分类模型的准确性
Say A unified framework for planning with learned neural network transition models
CN112434817B (zh) 构建通信算法数据库的方法、装置和计算机存储介质
US11475371B2 (en) Learned model integration method, apparatus, program, IC chip, and system
Fu Verifying probabilistic systems: new algorithms and complexity results
Luo et al. Dynamic simplex: Balancing safety and performance in autonomous cyber physical systems
Belfadil et al. Leveraging Deep Reinforcement Learning for Water Distribution Systems with Large Action Spaces and Uncertainties: DRL-EPANET for Pressure Control
Gouveia et al. Model Revision of Boolean Logical Models of Biological Regulatory Networks
Schaffeld et al. Towards robust models of Cyber-Physical Systems
Grimstad et al. Reinforcement Learning and Graph Neural Networks for Probabilistic Risk Assessment
JP2018112659A (ja) 異なる基準に基づく質問を混在させたユーザ適応型のテストプログラム、装置及び方法
Peters A POMDP AT AIL E

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200909

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201126

R150 Certificate of patent or registration of utility model

Ref document number: 6802118

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150