JP7456512B2 - 学習装置、学習方法および学習プログラム - Google Patents

学習装置、学習方法および学習プログラム Download PDF

Info

Publication number
JP7456512B2
JP7456512B2 JP2022545247A JP2022545247A JP7456512B2 JP 7456512 B2 JP7456512 B2 JP 7456512B2 JP 2022545247 A JP2022545247 A JP 2022545247A JP 2022545247 A JP2022545247 A JP 2022545247A JP 7456512 B2 JP7456512 B2 JP 7456512B2
Authority
JP
Japan
Prior art keywords
objective function
learning
discrimination result
parameter
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022545247A
Other languages
English (en)
Other versions
JPWO2022044315A5 (ja
JPWO2022044315A1 (ja
Inventor
力 江藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2022044315A1 publication Critical patent/JPWO2022044315A1/ja
Publication of JPWO2022044315A5 publication Critical patent/JPWO2022044315A5/ja
Application granted granted Critical
Publication of JP7456512B2 publication Critical patent/JP7456512B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、逆強化学習を行う学習装置、学習方法および学習プログラムに関する。
機械学習の分野において、逆強化学習の技術が知られている。逆強化学習では、熟練者の意思決定履歴データを利用して、目的関数における特徴量ごとの重み(パラメータ)を学習する。
非特許文献1には、逆強化学習の一つである最大エントロピー逆強化学習について記載されている。非特許文献1に記載された方法では、熟練者のデータD={τ,τ,…τ}(ただし、τ=((s,a),(s,a),…,(s,a)))からただ1つの報酬関数R(s,a)=θ・f(s,a)を推定する。この推定されたθを用いることで、熟練者の意思決定を再現できる。
B. D. Ziebart, A. Maas, J. A. Bagnell, and A. K. Dey, "Maximum entropy inverse reinforcement learning", In AAAI, AAAI’08, 2008.
非特許文献1に記載されたような逆強化学習を含む機械学習で用いられるアルゴリズムでは、例えば、尤度最大化や誤差関数最小化など、一般に、学習時の目的関数を最大化または最小化する計算が行われる。しかし、学習時の目的関数が、必ずしも、意図する行為を十分に表しきれていない場合も存在する。
例えば、正常と異常などの二値判別を行う状況を想定する。一般的な方法で収集されたデータに基づいて判別方法を学習する状況において、正常のデータを正常と判別する場合と、異常のデータを異常と判別する場合とは、通常、平等に扱われる。一方、熟練者などの観点から、判別結果を意図的にいずれかの結果に偏重させたい状況も考えられる。しかし、判別結果に対してどの程度の偏重を持たせるかを考慮して目的関数を設計することは困難である。
そこで、本発明は、判別結果を偏重させる度合いを学習できる学習装置、学習方法および学習プログラムを提供することを目的とする。
本発明による学習装置は、判別分析の目的関数における各判別結果のスコアを示す各項に、その各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付ける入力手段と、拡張目的関数のロジスティック回帰の重みを最適化する最適化手段と、最適化された重みが設定されたロジスティック回帰の拡張目的関数を用いて、逆強化学習により、偏重パラメータを推定する推定手段とを備えたことを特徴とする。
本発明による学習方法は、コンピュータが、判別分析の目的関数における各判別結果のスコアを示す各項に、その各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付け、コンピュータが、拡張目的関数のロジスティック回帰の重みを最適化し、コンピュータが、最適化された重みが設定されたロジスティック回帰の拡張目的関数を用いて、逆強化学習により、偏重パラメータを推定することを特徴とする。
本発明による学習プログラムは、コンピュータに、判別分析の目的関数における各判別結果のスコアを示す各項に、その各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付ける入力処理、拡張目的関数のロジスティック回帰の重みを最適化する最適化処理、および、最適化された重みが設定されたロジスティック回帰の拡張目的関数を用いて、逆強化学習により、偏重パラメータを推定する推定処理を実行させることを特徴とする。
本発明によれば、判別結果を偏重させる度合いを学習できる。
本発明による学習装置の一実施形態の構成例を示すブロック図である。 学習装置の動作例を示すフローチャートである。 本発明による学習装置の概要を示すブロック図である。 少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
はじめに、本発明で想定する状況を説明する。通常、判別を行うモデルを構築する場合、学習データに基づいて定量的にモデルが構築される。例えば、二値判別を行うモデルを学習する際に用いられる目的関数として、交差エントロピー誤差関数が知られている。交差エントロピー誤差関数は、例えば、以下に例示する式1で表わされる。
Figure 0007456512000001
式1において、aは、判別を行う予測モデル(予測モデルの出力)であり、yは、異常または正常などの二値判別結果を示す正解データである。上記式1に示す例では、右辺のΣ内の第一項が、異常を異常と判定すると上昇するスコアを示す項であり、右辺のΣ内の第二項が、正常を正常と判定すると上昇するスコアを示す項である。式1に示すように、一般的な方法では、「異常を異常と判定するスコア」と「正常を正常と判定するスコア」とを平等に扱う。
一方、このような判別に際し、どちらか一方の判別精度を向上させたい状況(すなわち、判別結果を意図的にいずれかの結果に偏重させたい状況)が考えられる。例えば、「異常」と「正常」の二値を判別する場合、どちらかの結果を他方の結果より優遇したい場合がある。
例えば、感染症の診断を行うような場合、熟練者であれば、正常のデータを正常と判定する精度よりも、異常のデータを異常と判定する精度を向上させたいと考えることが通常である。しかし、上述するように、一般的な方法では、「異常を異常と判定するスコア」と「正常を正常と判定するスコア」を平等に扱ってしまうため、判別結果を意図的にいずれかの結果に偏重させることは難しい。
例えば、異常を異常と判定するスコアの算出精度を向上させるため、正常のデータを除外することで異常と正常の学習データの数を偏重させ、異常を示す学習データを多くすることも考えられる。しかし、学習データを偏重させることも意図的であり、例えば、どの正常データを学習データから除外して学習すべきか判断することは困難である。そのため、サンプル数に基づいて二値判別の結果を偏重させることも困難である。
そこで、本実施形態では、最適化に用いる目的関数に、各判別結果のスコアの偏重度合いを示すパラメータ(以下、偏重パラメータと記す。)を導入する。この偏重パラメータは、判別結果のスコアそのものの重みを示す既存のハイパーパラメータとは異なり、判別結果を重視する度合いを示すパラメータである。
また、いわゆる熟練者の観点での判別結果の重視度合いを推定するため、本実施形態では、逆強化学習により、導入した偏重パラメータを推定する。
以下、本発明の実施形態を図面を参照して説明する。
図1は、本発明による学習装置の一実施形態の構成例を示すブロック図である。本実施形態の学習装置100は、対象者の行動から報酬(関数)を推定する逆強化学習を行う装置である。学習装置100は、記憶部10と、入力部20と、学習部30と、出力部40とを備えている。
記憶部10は、学習装置100が各種処理を行うために必要な情報を記憶する。記憶部10は、後述する学習部30が学習に用いる熟練者の意思決定履歴データ(トラジェクトリと言うこともある。)や、学習に用いる目的関数、予測モデルを記憶していてもよい。目的関数および予測モデルの態様は予め定められる。
本実施形態では、二値判別分析の目的関数である交差エントロピー誤差関数をベースとし、偏重パラメータを各判別結果の項に対して乗じた目的関数を例示する。具体的には、偏重パラメータをλおよびλとした場合、偏重パラメータを導入した目的関数(以下、拡張目的関数と記すこともある。)は、以下に例示する式2で表わされる。以下に例示する式2は、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する第一の項と、第二の判別結果に基づくスコアを算出する第二の項のそれぞれに、偏重パラメータλおよびλを乗じた拡張目的関数を示す。
Figure 0007456512000002
また、本実施形態では、予測モデルとして、ロジスティック回帰を例示する。ロジスティック回帰は、以下に例示する式3で表わされる。式3において、xは、特徴量ベクトルであり、wは各特徴量に対する重みである。
Figure 0007456512000003
例えば、二値判別問題の一例として、有望な顧客判定が挙げられる。これは、顧客データを入力として、特定の製品を購入するか否か判定する問題である。この場合、購入の可能性が少しでもある顧客については、より注視して判定することが好ましいと言える。この場合、逆強化学習に用いる意思決定履歴データには、例えば、住所や性別、過去に特定の製品を購入したか否か、年収、家族の有無、既婚の有無、特定のコマーシャルの視聴有無、インターネット環境の有無、などの特徴量を含むデータが用いられる。
ただし、偏重パラメータを導入した目的関数(すなわち、拡張目的関数)の態様は、上記式2に例示するような、交差エントロピー誤差関数をベースとした関数に限定されず、また、予測モデルの態様も、上記式3に例示するロジスティック回帰に限定されない。すなわち、予測モデルによる各予測結果(分類結果)との誤差に応じて算出されるスコアそれぞれ対して重み付けを行う偏重パラメータが含まれる目的関数であれば、その関数の態様は任意である。具体的には、拡張目的関数として、判別分析の目的関数(ここでは、交差エントロピー誤差関数)における各判別結果のスコアを示す各項に、その各判別結果のスコアの偏重度合いを示すパラメータ(偏重パラメータ)を乗じた拡張目的関数が用いられる。
また、記憶部10は、後述する学習部30を実現するための数理最適化ソルバを記憶していてもよい。なお、数理最適化ソルバの内容は任意であり、実行する環境や装置に応じて決定されればよい。記憶部10は、例えば、磁気ディスク等により実現される。
入力部20は、学習装置100が各種処理を行うために必要な情報の入力を受け付ける。入力部20は、例えば、上述する意思決定履歴データの入力を受け付けてもよい。また、入力部20は、後述する学習部30が学習に用いる目的関数の入力を受け付ける。なお、目的関数の内容は後述される。入力部20は、記憶部10に記憶されている目的関数を読み取ることにより、目的関数の入力を受け付けてもよい。
学習部30は、入力された意思決定履歴データに基づいて逆強化学習を行うことにより、目的関数(報酬関数)を推定する。具体的には、本実施形態の学習部30は、逆強化学習の順問題として、目的関数を拡張目的関数とするロジスティック回帰問題を設定し、その逆問題として、偏重パラメータを推定する。
まず、学習部30は、入力部20が拡張目的関数を受け付けると、偏重パラメータに値を設定した目的関数を生成する。初期状態では、学習部30は、任意の値の偏重パラメータλ(例えば、λ=1)を目的関数に設定すればよい。ここでは、学習部30は、拡張目的関数として、交差エントロピー誤差関数における各判別結果のスコアを示す各項に偏重パラメータを乗じた拡張目的関数を用いるものとする。
次に、学習部30は、偏重パラメータを固定して予測モデルを学習する。具体的には、学習部30は、偏重パラメータλを固定し、設定されたロジスティック回帰問題について最適化する。学習部30は、例えば、以下に例示する式4を用いた(具体的には、ロジスティック回帰の重みの偏微分を用いた勾配降下法により、ロジスティック回帰の重みwを更新してもよい。
Figure 0007456512000004
そして、学習部30は、生成された予測モデルに基づいて意思決定内容を推定する。具体的には、学習部30は、入力された意思決定履歴データを最適化されたロジスティック回帰に適用して、熟練者の意思決定内容を推定する。
その後、学習部30は、意思決定履歴データに、推定した意思決定内容を近づけるように偏重パラメータを推定して、拡張目的関数を更新する。なお、意思決定履歴データに意思決定内容を近づける方法は、一般的な逆強化学習で用いる方法と同様であるため、詳細な説明は省略する。
以降、学習部30は、予測モデルの学習および偏重パラメータの更新処理を、予め定めた条件を満たすまで繰り返すことで、最終的な目的関数(拡張目的関数)を生成する。
出力部40は、生成された目的関数に関する情報を出力する。出力部40は、生成された目的関数そのものを出力してもよく、予測結果に応じて設定された偏重パラメータを出力してもよい。
入力部20と、学習部30と、出力部40とは、プログラム(学習プログラム)に従って動作するコンピュータのプロセッサ(例えば、CPU(Central Processing Unit )、GPU(Graphics Processing Unit))によって実現される。
例えば、プログラムは、学習装置100が備える記憶部10に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、入力部20、学習部30および出力部40として動作してもよい。また、学習装置100の機能がSaaS(Software as a Service )形式で提供されてもよい。
また、入力部20と、学習部30と、出力部40とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry )、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。
また、学習装置100の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
次に、本実施形態の学習装置100の動作を説明する。図2は、本実施形態の学習装置100の動作例を示すフローチャートである。
まず、入力部20は、拡張目的関数の入力を受け付ける(ステップS11)。次に、学習部30は、拡張目的関数のロジスティック回帰の重みを最適化し(ステップS12)、最適化された重みが設定されたロジスティック回帰の拡張目的関数を用いて、逆強化学習により、偏重パラメータを推定する(ステップS13)。予め定めた条件が満たされない場合(ステップS14におけるYes)、ステップS12からステップS13の処理が繰り返される。一方、予め定めた条件を満たす場合、出力部40は、最終的な拡張目的関数に関する情報を出力する(ステップS15)。
以上のように、本実施形態では、入力部20が拡張目的関数の入力を受け付け、学習部30が、拡張目的関数のロジスティック回帰の重みを最適化し、最適化された重みが設定されたロジスティック回帰の拡張目的関数を用いて、逆強化学習により、偏重パラメータを推定する。よって、判別結果を偏重させる度合いを学習できる。
次に、本発明の概要を説明する。図3は、本発明による学習装置の概要を示すブロック図である。本発明による学習装置80(例えば、学習装置100)は、判別分析(例えば、二値判別分析)の目的関数(例えば、交差エントロピー誤差関数)における各判別結果のスコアを示す各項に、その各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータ(例えば、λ,λ)を乗じた拡張目的関数(例えば、上記式2に示す目的関数)の入力を受け付ける入力手段81(例えば、入力部20)と、拡張目的関数のロジスティック回帰(例えば、上記式3)の重み(例えば、上記式3におけるw)を最適化する最適化手段82(例えば、学習部30)と、最適化された重みが設定されたロジスティック回帰の拡張目的関数を用いて、逆強化学習により、偏重パラメータを推定する推定手段83(例えば、学習部30)とを備えている。
そのような構成により、判別結果を偏重させる度合いを学習できる。
また、入力手段81は、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項(例えば、式2における第一の項)と、第二の判別結果に基づくスコアを算出する項(例えば、式2における第二の項)のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付けてもよい。
具体的には、入力手段81は、拡張目的関数として、交差エントロピー誤差関数における各判別結果のスコアを示す各項に偏重パラメータを乗じた拡張目的関数(例えば、上記に示す式3)の入力を受け付けてもよい。
また、最適化手段82は、拡張目的関数のロジスティック回帰の重みを、そのロジスティック回帰の重みの偏微分を用いた勾配降下法で更新して(例えば、上記に示す式4を用いて)最適化してもよい。
また、推定手段83は、意思決定履歴データから意思決定内容を推定し、逆強化学習により、推定された意思決定内容を意思決定履歴データに近づけるように偏重パラメータを推定してもよい。
図4は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ1000は、プロセッサ1001、主記憶装置1002、補助記憶装置1003、インタフェース1004を備える。
上述の学習装置80は、コンピュータ1000に実装される。そして、上述した各処理部の動作は、プログラム(学習プログラム)の形式で補助記憶装置1003に記憶されている。プロセッサ1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、当該プログラムに従って上記処理を実行する。
なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM(Compact Disc Read-only memory )、DVD-ROM(Read-only memory)、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が当該プログラムを主記憶装置1002に展開し、上記処理を実行してもよい。
また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であってもよい。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)判別分析の目的関数における各判別結果のスコアを示す各項に、当該各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付ける入力手段と、前記拡張目的関数のロジスティック回帰の重みを最適化する最適化手段と、最適化された重みが設定された前記ロジスティック回帰の拡張目的関数を用いて、逆強化学習により、前記偏重パラメータを推定する推定手段とを備えたことを特徴とする学習装置。
(付記2)入力手段は、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項と、第二の判別結果に基づくスコアを算出する項のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付ける付記1記載の学習装置。
(付記3)入力手段は、拡張目的関数として、交差エントロピー誤差関数における各判別結果のスコアを示す各項に偏重パラメータを乗じた拡張目的関数の入力を受け付ける付記1または付記2記載の学習装置。
(付記4)最適化手段は、拡張目的関数のロジスティック回帰の重みを、当該ロジスティック回帰の重みの偏微分を用いた勾配降下法で更新して最適化する付記1から付記3のうちのいずれか1つに記載の学習装置。
(付記5)推定手段は、意思決定履歴データから意思決定内容を推定し、逆強化学習により、推定された意思決定内容を前記意思決定履歴データに近づけるように偏重パラメータを推定する付記1から付記4のうちのいずれか1つに記載の学習装置。
(付記6)コンピュータが、判別分析の目的関数における各判別結果のスコアを示す各項に、当該各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付け、前記コンピュータが、前記拡張目的関数のロジスティック回帰の重みを最適化し、前記コンピュータが、最適化された重みが設定された前記ロジスティック回帰の拡張目的関数を用いて、逆強化学習により、前記偏重パラメータを推定することを特徴とする学習方法。
(付記7)コンピュータが、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項と、第二の判別結果に基づくスコアを算出する項のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付ける付記6記載の学習方法。
(付記8)コンピュータに、判別分析の目的関数における各判別結果のスコアを示す各項に、当該各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付ける入力処理、前記拡張目的関数のロジスティック回帰の重みを最適化する最適化処理、および、最適化された重みが設定された前記ロジスティック回帰の拡張目的関数を用いて、逆強化学習により、前記偏重パラメータを推定する推定処理を実行させるための学習プログラムを記憶するプログラム記憶媒体。
(付記9)コンピュータに、入力処理で、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項と、第二の判別結果に基づくスコアを算出する項のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付けさせる学習プログラムを記憶する付記8記載のプログラム記憶媒体。
(付記10)コンピュータに、判別分析の目的関数における各判別結果のスコアを示す各項に、当該各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付ける入力処理、前記拡張目的関数のロジスティック回帰の重みを最適化する最適化処理、および、最適化された重みが設定された前記ロジスティック回帰の拡張目的関数を用いて、逆強化学習により、前記偏重パラメータを推定する推定処理を実行させるための学習プログラム。
(付記11)コンピュータに、入力処理で、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項と、第二の判別結果に基づくスコアを算出する項のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付けさせる付記10記載の学習プログラム。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
10 記憶部
20 入力部
30 学習部
40 出力部
100 学習装置

Claims (9)

  1. 判別分析の目的関数における各判別結果のスコアを示す各項に、当該各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付ける入力手段と、
    前記拡張目的関数のロジスティック回帰の重みを最適化する最適化手段と、
    最適化された重みが設定された前記ロジスティック回帰の拡張目的関数を用いて、逆強化学習により、前記偏重パラメータを推定する推定手段とを備えた
    ことを特徴とする学習装置。
  2. 入力手段は、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項と、第二の判別結果に基づくスコアを算出する項のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付ける
    請求項1記載の学習装置。
  3. 入力手段は、拡張目的関数として、交差エントロピー誤差関数における各判別結果のスコアを示す各項に偏重パラメータを乗じた拡張目的関数の入力を受け付ける
    請求項1または請求項2記載の学習装置。
  4. 最適化手段は、拡張目的関数のロジスティック回帰の重みを、当該ロジスティック回帰の重みの偏微分を用いた勾配降下法で更新して最適化する
    請求項1から請求項3のうちのいずれか1項に記載の学習装置。
  5. 推定手段は、意思決定履歴データから意思決定内容を推定し、逆強化学習により、推定された意思決定内容を前記意思決定履歴データに近づけるように偏重パラメータを推定する
    請求項1から請求項4のうちのいずれか1項に記載の学習装置。
  6. コンピュータが、判別分析の目的関数における各判別結果のスコアを示す各項に、当該各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付け、
    前記コンピュータが、前記拡張目的関数のロジスティック回帰の重みを最適化し、
    前記コンピュータが、最適化された重みが設定された前記ロジスティック回帰の拡張目的関数を用いて、逆強化学習により、前記偏重パラメータを推定する
    ことを特徴とする学習方法。
  7. コンピュータが、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項と、第二の判別結果に基づくスコアを算出する項のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付ける
    請求項6記載の学習方法。
  8. コンピュータに、
    判別分析の目的関数における各判別結果のスコアを示す各項に、当該各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付ける入力処理、
    前記拡張目的関数のロジスティック回帰の重みを最適化する最適化処理、および、
    最適化された重みが設定された前記ロジスティック回帰の拡張目的関数を用いて、逆強化学習により、前記偏重パラメータを推定する推定処理
    を実行させるための学習プログラム。
  9. コンピュータに、
    入力処理で、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項と、第二の判別結果に基づくスコアを算出する項のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付けさせ
    請求項8記載の学習プログラム
JP2022545247A 2020-08-31 2020-08-31 学習装置、学習方法および学習プログラム Active JP7456512B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/032849 WO2022044315A1 (ja) 2020-08-31 2020-08-31 学習装置、学習方法および学習プログラム

Publications (3)

Publication Number Publication Date
JPWO2022044315A1 JPWO2022044315A1 (ja) 2022-03-03
JPWO2022044315A5 JPWO2022044315A5 (ja) 2023-04-28
JP7456512B2 true JP7456512B2 (ja) 2024-03-27

Family

ID=80354994

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022545247A Active JP7456512B2 (ja) 2020-08-31 2020-08-31 学習装置、学習方法および学習プログラム

Country Status (3)

Country Link
US (1) US20230316132A1 (ja)
JP (1) JP7456512B2 (ja)
WO (1) WO2022044315A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102132375B1 (ko) 2019-07-05 2020-07-09 한국과학기술원 딥 러닝 모델을 활용한 영상 진단 장치 및 그 방법
WO2020158609A1 (ja) 2019-01-31 2020-08-06 国立大学法人東京工業大学 立体構造判定装置、立体構造判定方法、立体構造の判別器学習装置、立体構造の判別器学習方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020158609A1 (ja) 2019-01-31 2020-08-06 国立大学法人東京工業大学 立体構造判定装置、立体構造判定方法、立体構造の判別器学習装置、立体構造の判別器学習方法及びプログラム
KR102132375B1 (ko) 2019-07-05 2020-07-09 한국과학기술원 딥 러닝 모델을 활용한 영상 진단 장치 및 그 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
今井 拓司,「専門家の意図が分かる模倣学習を逆強化学習でNECが単発の意思決定問題から実用へ」,NIKKEI Robotics,日経BP,2019年09月10日,第51号,pp.22-26,ISSN 2189-5783

Also Published As

Publication number Publication date
WO2022044315A1 (ja) 2022-03-03
JPWO2022044315A1 (ja) 2022-03-03
US20230316132A1 (en) 2023-10-05

Similar Documents

Publication Publication Date Title
Dejaeger et al. Data mining techniques for software effort estimation: a comparative study
TWI631518B (zh) 具有一或多個計算裝置的電腦伺服系統及訓練事件分類器模型的電腦實作方法
WO2017159403A1 (ja) 予測システム、方法およびプログラム
EP3371764A1 (en) Systems and methods for pricing optimization with competitive influence effects
JP6821614B2 (ja) モデル学習装置、モデル学習方法、プログラム
CA3088689C (en) Finite rank deep kernel learning for robust time series forecasting and regression
JP6311851B2 (ja) 共クラスタリングシステム、方法およびプログラム
WO2017070558A1 (en) Systems and methods for analytics based pricing optimization with competitive influence effects
US20140379310A1 (en) Methods and Systems for Evaluating Predictive Models
US20200265307A1 (en) Apparatus and method with multi-task neural network
US20210117840A1 (en) Causation learning apparatus, causation estimation apparatus, causation learning method, causation estimation method and program
Toyama et al. Reinforcement learning with parsimonious computation and a forgetting process
CN113537630A (zh) 业务预测模型的训练方法及装置
WO2018088277A1 (ja) 予測モデル生成システム、方法およびプログラム
JP7207540B2 (ja) 学習支援装置、学習支援方法、及びプログラム
Rath et al. Modern approach for loan sanctioning in banks using machine learning
JP7456512B2 (ja) 学習装置、学習方法および学習プログラム
CA3119351C (en) Extending finite rank deep kernel learning to forecasting over long time horizons
JP7044153B2 (ja) 評価システム、評価方法および評価用プログラム
WO2018088276A1 (ja) 予測モデル生成システム、方法およびプログラム
US20220366101A1 (en) Information processing device, information processing method, and computer program product
JP7231027B2 (ja) 異常度推定装置、異常度推定方法、プログラム
JP6947229B2 (ja) 最適化装置、最適化方法および最適化プログラム
JP2021174330A (ja) 異種機械学習のアンサンブル学習による予測装置
JP7283548B2 (ja) 学習装置、予測システム、方法およびプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230215

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240226

R151 Written notification of patent or utility model registration

Ref document number: 7456512

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151