JP7456512B2

JP7456512B2 - 学習装置、学習方法および学習プログラム

Info

Publication number: JP7456512B2
Application number: JP2022545247A
Authority: JP
Inventors: 力江藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2024-03-27
Anticipated expiration: 2040-08-31
Also published as: WO2022044315A1; JPWO2022044315A1; US20230316132A1

Description

本発明は、逆強化学習を行う学習装置、学習方法および学習プログラムに関する。

機械学習の分野において、逆強化学習の技術が知られている。逆強化学習では、熟練者の意思決定履歴データを利用して、目的関数における特徴量ごとの重み（パラメータ）を学習する。

非特許文献１には、逆強化学習の一つである最大エントロピー逆強化学習について記載されている。非特許文献１に記載された方法では、熟練者のデータＤ＝｛τ_１，τ_２，…τ_Ｎ｝（ただし、τ_ｉ＝（（ｓ_１，ａ_１），（ｓ_２，ａ_２），…，（ｓ_Ｎ，ａ_Ｎ）））からただ１つの報酬関数Ｒ（ｓ，ａ）＝θ・ｆ（ｓ，ａ）を推定する。この推定されたθを用いることで、熟練者の意思決定を再現できる。

B. D. Ziebart, A. Maas, J. A. Bagnell, and A. K. Dey, "Maximum entropy inverse reinforcement learning", In AAAI, AAAI’08, 2008.

非特許文献１に記載されたような逆強化学習を含む機械学習で用いられるアルゴリズムでは、例えば、尤度最大化や誤差関数最小化など、一般に、学習時の目的関数を最大化または最小化する計算が行われる。しかし、学習時の目的関数が、必ずしも、意図する行為を十分に表しきれていない場合も存在する。

例えば、正常と異常などの二値判別を行う状況を想定する。一般的な方法で収集されたデータに基づいて判別方法を学習する状況において、正常のデータを正常と判別する場合と、異常のデータを異常と判別する場合とは、通常、平等に扱われる。一方、熟練者などの観点から、判別結果を意図的にいずれかの結果に偏重させたい状況も考えられる。しかし、判別結果に対してどの程度の偏重を持たせるかを考慮して目的関数を設計することは困難である。

そこで、本発明は、判別結果を偏重させる度合いを学習できる学習装置、学習方法および学習プログラムを提供することを目的とする。

本発明による学習装置は、判別分析の目的関数における各判別結果のスコアを示す各項に、その各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付ける入力手段と、拡張目的関数のロジスティック回帰の重みを最適化する最適化手段と、最適化された重みが設定されたロジスティック回帰の拡張目的関数を用いて、逆強化学習により、偏重パラメータを推定する推定手段とを備えたことを特徴とする。

本発明による学習方法は、コンピュータが、判別分析の目的関数における各判別結果のスコアを示す各項に、その各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付け、コンピュータが、拡張目的関数のロジスティック回帰の重みを最適化し、コンピュータが、最適化された重みが設定されたロジスティック回帰の拡張目的関数を用いて、逆強化学習により、偏重パラメータを推定することを特徴とする。

本発明による学習プログラムは、コンピュータに、判別分析の目的関数における各判別結果のスコアを示す各項に、その各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付ける入力処理、拡張目的関数のロジスティック回帰の重みを最適化する最適化処理、および、最適化された重みが設定されたロジスティック回帰の拡張目的関数を用いて、逆強化学習により、偏重パラメータを推定する推定処理を実行させることを特徴とする。

本発明によれば、判別結果を偏重させる度合いを学習できる。

本発明による学習装置の一実施形態の構成例を示すブロック図である。学習装置の動作例を示すフローチャートである。本発明による学習装置の概要を示すブロック図である。少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。

はじめに、本発明で想定する状況を説明する。通常、判別を行うモデルを構築する場合、学習データに基づいて定量的にモデルが構築される。例えば、二値判別を行うモデルを学習する際に用いられる目的関数として、交差エントロピー誤差関数が知られている。交差エントロピー誤差関数は、例えば、以下に例示する式１で表わされる。

式１において、ａ_ｉは、判別を行う予測モデル（予測モデルの出力）であり、ｙ_ｉは、異常または正常などの二値判別結果を示す正解データである。上記式１に示す例では、右辺のΣ内の第一項が、異常を異常と判定すると上昇するスコアを示す項であり、右辺のΣ内の第二項が、正常を正常と判定すると上昇するスコアを示す項である。式１に示すように、一般的な方法では、「異常を異常と判定するスコア」と「正常を正常と判定するスコア」とを平等に扱う。

一方、このような判別に際し、どちらか一方の判別精度を向上させたい状況（すなわち、判別結果を意図的にいずれかの結果に偏重させたい状況）が考えられる。例えば、「異常」と「正常」の二値を判別する場合、どちらかの結果を他方の結果より優遇したい場合がある。

例えば、感染症の診断を行うような場合、熟練者であれば、正常のデータを正常と判定する精度よりも、異常のデータを異常と判定する精度を向上させたいと考えることが通常である。しかし、上述するように、一般的な方法では、「異常を異常と判定するスコア」と「正常を正常と判定するスコア」を平等に扱ってしまうため、判別結果を意図的にいずれかの結果に偏重させることは難しい。

例えば、異常を異常と判定するスコアの算出精度を向上させるため、正常のデータを除外することで異常と正常の学習データの数を偏重させ、異常を示す学習データを多くすることも考えられる。しかし、学習データを偏重させることも意図的であり、例えば、どの正常データを学習データから除外して学習すべきか判断することは困難である。そのため、サンプル数に基づいて二値判別の結果を偏重させることも困難である。

そこで、本実施形態では、最適化に用いる目的関数に、各判別結果のスコアの偏重度合いを示すパラメータ（以下、偏重パラメータと記す。）を導入する。この偏重パラメータは、判別結果のスコアそのものの重みを示す既存のハイパーパラメータとは異なり、判別結果を重視する度合いを示すパラメータである。

また、いわゆる熟練者の観点での判別結果の重視度合いを推定するため、本実施形態では、逆強化学習により、導入した偏重パラメータを推定する。

以下、本発明の実施形態を図面を参照して説明する。

図１は、本発明による学習装置の一実施形態の構成例を示すブロック図である。本実施形態の学習装置１００は、対象者の行動から報酬（関数）を推定する逆強化学習を行う装置である。学習装置１００は、記憶部１０と、入力部２０と、学習部３０と、出力部４０とを備えている。

記憶部１０は、学習装置１００が各種処理を行うために必要な情報を記憶する。記憶部１０は、後述する学習部３０が学習に用いる熟練者の意思決定履歴データ（トラジェクトリと言うこともある。）や、学習に用いる目的関数、予測モデルを記憶していてもよい。目的関数および予測モデルの態様は予め定められる。

本実施形態では、二値判別分析の目的関数である交差エントロピー誤差関数をベースとし、偏重パラメータを各判別結果の項に対して乗じた目的関数を例示する。具体的には、偏重パラメータをλ_１およびλ_２とした場合、偏重パラメータを導入した目的関数（以下、拡張目的関数と記すこともある。）は、以下に例示する式２で表わされる。以下に例示する式２は、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する第一の項と、第二の判別結果に基づくスコアを算出する第二の項のそれぞれに、偏重パラメータλ_１およびλ_２を乗じた拡張目的関数を示す。

また、本実施形態では、予測モデルとして、ロジスティック回帰を例示する。ロジスティック回帰は、以下に例示する式３で表わされる。式３において、ｘ_ｉは、特徴量ベクトルであり、ｗは各特徴量に対する重みである。

例えば、二値判別問題の一例として、有望な顧客判定が挙げられる。これは、顧客データを入力として、特定の製品を購入するか否か判定する問題である。この場合、購入の可能性が少しでもある顧客については、より注視して判定することが好ましいと言える。この場合、逆強化学習に用いる意思決定履歴データには、例えば、住所や性別、過去に特定の製品を購入したか否か、年収、家族の有無、既婚の有無、特定のコマーシャルの視聴有無、インターネット環境の有無、などの特徴量を含むデータが用いられる。

ただし、偏重パラメータを導入した目的関数（すなわち、拡張目的関数）の態様は、上記式２に例示するような、交差エントロピー誤差関数をベースとした関数に限定されず、また、予測モデルの態様も、上記式３に例示するロジスティック回帰に限定されない。すなわち、予測モデルによる各予測結果（分類結果）との誤差に応じて算出されるスコアそれぞれ対して重み付けを行う偏重パラメータが含まれる目的関数であれば、その関数の態様は任意である。具体的には、拡張目的関数として、判別分析の目的関数（ここでは、交差エントロピー誤差関数）における各判別結果のスコアを示す各項に、その各判別結果のスコアの偏重度合いを示すパラメータ（偏重パラメータ）を乗じた拡張目的関数が用いられる。

また、記憶部１０は、後述する学習部３０を実現するための数理最適化ソルバを記憶していてもよい。なお、数理最適化ソルバの内容は任意であり、実行する環境や装置に応じて決定されればよい。記憶部１０は、例えば、磁気ディスク等により実現される。

入力部２０は、学習装置１００が各種処理を行うために必要な情報の入力を受け付ける。入力部２０は、例えば、上述する意思決定履歴データの入力を受け付けてもよい。また、入力部２０は、後述する学習部３０が学習に用いる目的関数の入力を受け付ける。なお、目的関数の内容は後述される。入力部２０は、記憶部１０に記憶されている目的関数を読み取ることにより、目的関数の入力を受け付けてもよい。

学習部３０は、入力された意思決定履歴データに基づいて逆強化学習を行うことにより、目的関数（報酬関数）を推定する。具体的には、本実施形態の学習部３０は、逆強化学習の順問題として、目的関数を拡張目的関数とするロジスティック回帰問題を設定し、その逆問題として、偏重パラメータを推定する。

まず、学習部３０は、入力部２０が拡張目的関数を受け付けると、偏重パラメータに値を設定した目的関数を生成する。初期状態では、学習部３０は、任意の値の偏重パラメータλ_ｉ（例えば、λ_ｉ＝１）を目的関数に設定すればよい。ここでは、学習部３０は、拡張目的関数として、交差エントロピー誤差関数における各判別結果のスコアを示す各項に偏重パラメータを乗じた拡張目的関数を用いるものとする。

次に、学習部３０は、偏重パラメータを固定して予測モデルを学習する。具体的には、学習部３０は、偏重パラメータλを固定し、設定されたロジスティック回帰問題について最適化する。学習部３０は、例えば、以下に例示する式４を用いた（具体的には、ロジスティック回帰の重みの偏微分を用いた勾配降下法により、ロジスティック回帰の重みｗを更新してもよい。

そして、学習部３０は、生成された予測モデルに基づいて意思決定内容を推定する。具体的には、学習部３０は、入力された意思決定履歴データを最適化されたロジスティック回帰に適用して、熟練者の意思決定内容を推定する。

その後、学習部３０は、意思決定履歴データに、推定した意思決定内容を近づけるように偏重パラメータを推定して、拡張目的関数を更新する。なお、意思決定履歴データに意思決定内容を近づける方法は、一般的な逆強化学習で用いる方法と同様であるため、詳細な説明は省略する。

以降、学習部３０は、予測モデルの学習および偏重パラメータの更新処理を、予め定めた条件を満たすまで繰り返すことで、最終的な目的関数（拡張目的関数）を生成する。

出力部４０は、生成された目的関数に関する情報を出力する。出力部４０は、生成された目的関数そのものを出力してもよく、予測結果に応じて設定された偏重パラメータを出力してもよい。

入力部２０と、学習部３０と、出力部４０とは、プログラム（学習プログラム）に従って動作するコンピュータのプロセッサ（例えば、ＣＰＵ（Central Processing Unit ）、ＧＰＵ（Graphics Processing Unit））によって実現される。

例えば、プログラムは、学習装置１００が備える記憶部１０に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、入力部２０、学習部３０および出力部４０として動作してもよい。また、学習装置１００の機能がＳａａＳ（Software as a Service ）形式で提供されてもよい。

また、入力部２０と、学習部３０と、出力部４０とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路（circuitry ）、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。

また、学習装置１００の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

次に、本実施形態の学習装置１００の動作を説明する。図２は、本実施形態の学習装置１００の動作例を示すフローチャートである。

まず、入力部２０は、拡張目的関数の入力を受け付ける（ステップＳ１１）。次に、学習部３０は、拡張目的関数のロジスティック回帰の重みを最適化し（ステップＳ１２）、最適化された重みが設定されたロジスティック回帰の拡張目的関数を用いて、逆強化学習により、偏重パラメータを推定する（ステップＳ１３）。予め定めた条件が満たされない場合（ステップＳ１４におけるＹｅｓ）、ステップＳ１２からステップＳ１３の処理が繰り返される。一方、予め定めた条件を満たす場合、出力部４０は、最終的な拡張目的関数に関する情報を出力する（ステップＳ１５）。

以上のように、本実施形態では、入力部２０が拡張目的関数の入力を受け付け、学習部３０が、拡張目的関数のロジスティック回帰の重みを最適化し、最適化された重みが設定されたロジスティック回帰の拡張目的関数を用いて、逆強化学習により、偏重パラメータを推定する。よって、判別結果を偏重させる度合いを学習できる。

次に、本発明の概要を説明する。図３は、本発明による学習装置の概要を示すブロック図である。本発明による学習装置８０（例えば、学習装置１００）は、判別分析（例えば、二値判別分析）の目的関数（例えば、交差エントロピー誤差関数）における各判別結果のスコアを示す各項に、その各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータ（例えば、λ_１，λ_２）を乗じた拡張目的関数（例えば、上記式２に示す目的関数）の入力を受け付ける入力手段８１（例えば、入力部２０）と、拡張目的関数のロジスティック回帰（例えば、上記式３）の重み（例えば、上記式３におけるｗ^Ｔ）を最適化する最適化手段８２（例えば、学習部３０）と、最適化された重みが設定されたロジスティック回帰の拡張目的関数を用いて、逆強化学習により、偏重パラメータを推定する推定手段８３（例えば、学習部３０）とを備えている。

そのような構成により、判別結果を偏重させる度合いを学習できる。

また、入力手段８１は、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項（例えば、式２における第一の項）と、第二の判別結果に基づくスコアを算出する項（例えば、式２における第二の項）のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付けてもよい。

具体的には、入力手段８１は、拡張目的関数として、交差エントロピー誤差関数における各判別結果のスコアを示す各項に偏重パラメータを乗じた拡張目的関数（例えば、上記に示す式３）の入力を受け付けてもよい。

また、最適化手段８２は、拡張目的関数のロジスティック回帰の重みを、そのロジスティック回帰の重みの偏微分を用いた勾配降下法で更新して（例えば、上記に示す式４を用いて）最適化してもよい。

また、推定手段８３は、意思決定履歴データから意思決定内容を推定し、逆強化学習により、推定された意思決定内容を意思決定履歴データに近づけるように偏重パラメータを推定してもよい。

図４は、少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ１０００は、プロセッサ１００１、主記憶装置１００２、補助記憶装置１００３、インタフェース１００４を備える。

上述の学習装置８０は、コンピュータ１０００に実装される。そして、上述した各処理部の動作は、プログラム（学習プログラム）の形式で補助記憶装置１００３に記憶されている。プロセッサ１００１は、プログラムを補助記憶装置１００３から読み出して主記憶装置１００２に展開し、当該プログラムに従って上記処理を実行する。

なお、少なくとも１つの実施形態において、補助記憶装置１００３は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース１００４を介して接続される磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ（Compact Disc Read-only memory ）、ＤＶＤ－ＲＯＭ（Read-only memory）、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ１０００に配信される場合、配信を受けたコンピュータ１０００が当該プログラムを主記憶装置１００２に展開し、上記処理を実行してもよい。

また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置１００３に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル（差分プログラム）であってもよい。

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）判別分析の目的関数における各判別結果のスコアを示す各項に、当該各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付ける入力手段と、前記拡張目的関数のロジスティック回帰の重みを最適化する最適化手段と、最適化された重みが設定された前記ロジスティック回帰の拡張目的関数を用いて、逆強化学習により、前記偏重パラメータを推定する推定手段とを備えたことを特徴とする学習装置。

（付記２）入力手段は、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項と、第二の判別結果に基づくスコアを算出する項のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付ける付記１記載の学習装置。

（付記３）入力手段は、拡張目的関数として、交差エントロピー誤差関数における各判別結果のスコアを示す各項に偏重パラメータを乗じた拡張目的関数の入力を受け付ける付記１または付記２記載の学習装置。

（付記４）最適化手段は、拡張目的関数のロジスティック回帰の重みを、当該ロジスティック回帰の重みの偏微分を用いた勾配降下法で更新して最適化する付記１から付記３のうちのいずれか１つに記載の学習装置。

（付記５）推定手段は、意思決定履歴データから意思決定内容を推定し、逆強化学習により、推定された意思決定内容を前記意思決定履歴データに近づけるように偏重パラメータを推定する付記１から付記４のうちのいずれか１つに記載の学習装置。

（付記６）コンピュータが、判別分析の目的関数における各判別結果のスコアを示す各項に、当該各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付け、前記コンピュータが、前記拡張目的関数のロジスティック回帰の重みを最適化し、前記コンピュータが、最適化された重みが設定された前記ロジスティック回帰の拡張目的関数を用いて、逆強化学習により、前記偏重パラメータを推定することを特徴とする学習方法。

（付記７）コンピュータが、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項と、第二の判別結果に基づくスコアを算出する項のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付ける付記６記載の学習方法。

（付記８）コンピュータに、判別分析の目的関数における各判別結果のスコアを示す各項に、当該各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付ける入力処理、前記拡張目的関数のロジスティック回帰の重みを最適化する最適化処理、および、最適化された重みが設定された前記ロジスティック回帰の拡張目的関数を用いて、逆強化学習により、前記偏重パラメータを推定する推定処理を実行させるための学習プログラムを記憶するプログラム記憶媒体。

（付記９）コンピュータに、入力処理で、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項と、第二の判別結果に基づくスコアを算出する項のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付けさせる学習プログラムを記憶する付記８記載のプログラム記憶媒体。

（付記１０）コンピュータに、判別分析の目的関数における各判別結果のスコアを示す各項に、当該各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付ける入力処理、前記拡張目的関数のロジスティック回帰の重みを最適化する最適化処理、および、最適化された重みが設定された前記ロジスティック回帰の拡張目的関数を用いて、逆強化学習により、前記偏重パラメータを推定する推定処理を実行させるための学習プログラム。

（付記１１）コンピュータに、入力処理で、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項と、第二の判別結果に基づくスコアを算出する項のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付けさせる付記１０記載の学習プログラム。

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

１０記憶部
２０入力部
３０学習部
４０出力部
１００学習装置

Claims

判別分析の目的関数における各判別結果のスコアを示す各項に、当該各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付ける入力手段と、
前記拡張目的関数のロジスティック回帰の重みを最適化する最適化手段と、
最適化された重みが設定された前記ロジスティック回帰の拡張目的関数を用いて、逆強化学習により、前記偏重パラメータを推定する推定手段とを備えた
ことを特徴とする学習装置。
入力手段は、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項と、第二の判別結果に基づくスコアを算出する項のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付ける
請求項１記載の学習装置。
入力手段は、拡張目的関数として、交差エントロピー誤差関数における各判別結果のスコアを示す各項に偏重パラメータを乗じた拡張目的関数の入力を受け付ける
請求項１または請求項２記載の学習装置。
最適化手段は、拡張目的関数のロジスティック回帰の重みを、当該ロジスティック回帰の重みの偏微分を用いた勾配降下法で更新して最適化する
請求項１から請求項３のうちのいずれか１項に記載の学習装置。
推定手段は、意思決定履歴データから意思決定内容を推定し、逆強化学習により、推定された意思決定内容を前記意思決定履歴データに近づけるように偏重パラメータを推定する
請求項１から請求項４のうちのいずれか１項に記載の学習装置。
コンピュータが、判別分析の目的関数における各判別結果のスコアを示す各項に、当該各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付け、
前記コンピュータが、前記拡張目的関数のロジスティック回帰の重みを最適化し、
前記コンピュータが、最適化された重みが設定された前記ロジスティック回帰の拡張目的関数を用いて、逆強化学習により、前記偏重パラメータを推定する
ことを特徴とする学習方法。
コンピュータが、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項と、第二の判別結果に基づくスコアを算出する項のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付ける
請求項６記載の学習方法。
コンピュータに、
判別分析の目的関数における各判別結果のスコアを示す各項に、当該各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付ける入力処理、
前記拡張目的関数のロジスティック回帰の重みを最適化する最適化処理、および、
最適化された重みが設定された前記ロジスティック回帰の拡張目的関数を用いて、逆強化学習により、前記偏重パラメータを推定する推定処理
を実行させるための学習プログラム。
コンピュータに、
入力処理で、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項と、第二の判別結果に基づくスコアを算出する項のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付けさせる
請求項８記載の学習プログラム。