JP7279821B2 - 意図特徴量抽出装置、学習装置、方法およびプログラム - Google Patents

意図特徴量抽出装置、学習装置、方法およびプログラム Download PDF

Info

Publication number
JP7279821B2
JP7279821B2 JP2021566648A JP2021566648A JP7279821B2 JP 7279821 B2 JP7279821 B2 JP 7279821B2 JP 2021566648 A JP2021566648 A JP 2021566648A JP 2021566648 A JP2021566648 A JP 2021566648A JP 7279821 B2 JP7279821 B2 JP 7279821B2
Authority
JP
Japan
Prior art keywords
learning
subject
model
objective function
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021566648A
Other languages
English (en)
Other versions
JPWO2021130916A1 (ja
JPWO2021130916A5 (ja
Inventor
力 江藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2021130916A1 publication Critical patent/JPWO2021130916A1/ja
Publication of JPWO2021130916A5 publication Critical patent/JPWO2021130916A5/ja
Application granted granted Critical
Publication of JP7279821B2 publication Critical patent/JP7279821B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Human Resources & Organizations (AREA)
  • Molecular Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Technology Law (AREA)
  • Medical Informatics (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Description

本発明は、対象者の意図を表わす特徴量を抽出する意図特徴量抽出装置、意図特徴量抽出方法および意図特徴量抽出プログラム、並びに、抽出された特徴量を用いて学習を行うモデル学習システム、学習装置、学習方法および学習プログラムに関する。
近年、様々な業務における最適な意思決定を自動で定式化し、機械化する技術がより重要視されている。一般に、最適な意思決定を行うためには、最適化対象を数理最適化問題として定式化し、その問題を解くことで、最適な行動を決定する。その際、数理最適化問題の定式化がポイントになるが、人手でこの定式化を行うことは難しい。そこで、この定式化を簡素にすることで、技術をさらに発展させる試みが行われている。
数理最適化問題を定式化する方法の一つとして、逆強化学習が知られている。逆強化学習は、熟練者が行った意思決定の履歴に基づいて、状態ごとに行動を評価する目的関数(報酬関数)を学習する方法である。逆強化学習では、意思決定の履歴を熟練者のものへ近づけるように目的関数を更新していくことで、熟練者の目的関数を推定する。
なお、熟練者が想定する意図は複雑であり、状況に応じて様々に変化する。そのため、複数の意図を単純にモデル化した場合、目的関数も複雑化するため、推定された目的関数から熟練者の意図を判断することは難しい。そこで、複雑な意図を複数のシンプルな意図の組合せという、人間にとって解釈可能な形で表現された目的関数として学習する方法が求められている。
解釈可能な形で表現された目的関数として学習する方法に関し、非特許文献1には、場合に応じた予測モデルを選択可能な区分疎線形回帰モデルについて記載されている。非特許文献1に記載された区分疎線形回帰モデルは、階層型混合エキスパートモデル(HME:Hierarchical Mixtures of Experts)の一種であり、葉ノードにコンポーネント(目的関数、予測モデル)、それ以外のノードに門関数と呼ばれるノードを割り当てた木構造で表される。
Riki Eto, Ryohei Fujimakiy, Satoshi Morinaga, Hiroshi Tamano, "Fully-Automatic Bayesian Piecewise Sparse Linear Models", AISTATS, pp.238-246, 2014.
様々な状況下で取得される意思決定履歴は、熟練者の様々な意図を含むデータと言える。例えば、ドライバの走行データの中には、特徴の異なるドライバの走行データや、運転シーンの異なる状況での走行データが含まれる。しかし、意思決定履歴は、熟練者の意図そのものを表わすデータではなく、熟練者の意図に基づいて行われた行動の結果を表わすデータである。そのため、意思決定履歴そのものを参照しても、熟練者の意図を把握することは難しい。
非特許文献1に記載された方法により、解釈性の高い予測モデルを学習することは可能である。しかし、非特許文献1に記載された方法により学習される予測モデルから予測結果に影響する要因を判断することは可能であるが、対象者の意図そのものを解釈することは難しい。
一方、逆強化学習により得られる目的関数を用いることで、熟練者の行動を模倣することは可能である。しかし、行動そのものが熟練者の意図を反映したものであったとしても、その行動そのものを参照しても、熟練者の意図を客観的に判断することは困難である。そこで、対象者の意図を解釈可能な態様で把握できることが好ましい。
そこで、本発明は、解釈可能な特徴量として対象者の意図を抽出できる意図特徴量抽出装置、意図特徴量抽出方法および意図特徴量抽出プログラム、並びに、その特徴量を用いたモデル学習システム、学習装置、学習方法および学習プログラムを提供することを目的とする。
本発明による意図特徴量抽出装置は、対象者の意思決定履歴の入力を受け付ける入力部と、意思決定履歴に基づいて、その対象者が意図する行動の要因を説明変数とする目的関数を学習する学習部と、学習された目的関数の説明変数の重みを対象者の意図を表わす特徴量として抽出する特徴量抽出部とを備え、学習部が、モデルフリー逆強化学習と、階層型混合エキスパートモデル学習とを組み合わせた学習方法により、目的関数を学習することを特徴とする。
本発明による学習装置は、対象者の意思決定履歴に基づいて学習された、その対象者が意図する行動の要因を説明変数とする目的関数をもとに抽出される特徴量を学習データとして入力する入力部と、入力された学習データを用いた機械学習により予測モデルを学習するモデル学習部と、学習した予測モデルを出力する出力部とを備え、入力部が、モデルフリー逆強化学習と、階層型混合エキスパートモデル学習とを組み合わせた学習方法により、対象者の意思決定履歴に基づいて学習された目的関数をもとに抽出される特徴量を学習データとして入力することを特徴とする。
本発明によるモデル学習システムは、対象者の意思決定履歴に基づいて、その対象者が意図する行動の要因を説明変数とする目的関数を学習する学習部と、学習された目的関数の説明変数の重みを対象者の意図を表わす特徴量として抽出する特徴量抽出部と、抽出された特徴量を学習データとして用いた機械学習により予測モデルを学習するモデル学習部と、学習した予測モデルを出力する出力部とを備え、学習部が、モデルフリー逆強化学習と、階層型混合エキスパートモデル学習とを組み合わせた学習方法により、目的関数を学習することを特徴とする
本発明による意図特徴量抽出方法は、対象者の意思決定履歴の入力を受け付け、モデルフリー逆強化学習と、階層型混合エキスパートモデル学習とを組み合わせた学習方法により、意思決定履歴に基づいて、その対象者が意図する行動の要因を説明変数とする目的関数を学習し、学習された目的関数の説明変数の重みを対象者の意図を表わす特徴量として抽出することを特徴とする。
本発明による学習方法は、モデルフリー逆強化学習と、階層型混合エキスパートモデル学習とを組み合わせた学習方法により、対象者の意思決定履歴に基づいて学習された、その対象者が意図する行動の要因を説明変数とする目的関数をもとに抽出される特徴量を学習データとして入力し、入力された学習データを用いた機械学習により予測モデルを学習し、学習した予測モデルを出力することを特徴とする。
本発明による意図特徴量抽出プログラムは、コンピュータに、対象者の意思決定履歴の入力を受け付ける入力処理、意思決定履歴に基づいて、その対象者が意図する行動の要因を説明変数とする目的関数を学習する学習処理、および、学習された目的関数の説明変数の重みを対象者の意図を表わす特徴量として抽出する特徴量抽出処理を実行させ、学習処理で、モデルフリー逆強化学習と、階層型混合エキスパートモデル学習とを組み合わせた学習方法により、目的関数を学習させることを特徴とする。
本発明による学習プログラムは、コンピュータに、モデルフリー逆強化学習と、階層型混合エキスパートモデル学習とを組み合わせた学習方法により、対象者の意思決定履歴に基づいて学習された、その対象者が意図する行動の要因を説明変数とする目的関数をもとに抽出される特徴量を学習データとして入力する入力処理、入力された学習データを用いた機械学習により予測モデルを学習するモデル学習処理、および、学習した予測モデルを出力する出力処理を実行させることを特徴とする。
本発明によれば、解釈可能な特徴量として対象者の意図を抽出できる。
本発明による意図特徴量抽出装置の一実施形態の構成例を示すブロック図である。 階層型混合エキスパートモデルの概要を説明する説明図である。 目的関数の例を示す説明図である。 意図特徴量抽出装置の動作例を示す説明図である。 学習装置の動作例を示す説明図である。 本発明による意図特徴量抽出装置の概要を示すブロック図である。 本発明による学習装置の概要を示すブロック図である。 本発明によるモデル学習システムの概要を示すブロック図である。 少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
以下、本発明の実施形態を図面を参照して説明する。
図1は、本発明による意図特徴量抽出装置の一実施形態の構成例を示すブロック図である。本実施形態の意図特徴量抽出装置100は、記憶部10と、入力部20と、学習部30と、抽出部40と、出力部50とを備えている。
意図特徴量抽出装置100は、対象者の意思決定履歴から、その対象者の意図を示す目的関数を学習し、その目的関数から解釈可能な対象者の意図を、その対象者の特徴量として抽出する装置である。また、図1に例示するように、意図特徴量抽出装置100が、学習装置200に接続されていてもよい。
記憶部10は、意図特徴量抽出装置100が各種処理を行うために必要な情報を記憶する。記憶部10は、後述する学習部30が処理に用いる各種パラメータを記憶してもよい。また、記憶部10は、後述する入力部20が受け付けた対象者の意思決定履歴を記憶してもよい。記憶部10は、例えば、磁気ディスク等により実現される。
入力部20は、対象者の意思決定履歴(トラジェクトリ)の入力を受け付ける。例えば、自動運転を目的とした学習を行う場合、入力部20は、ドライバの複雑な意図に基づく大量の運転履歴データの入力を意思決定履歴として受け付けてもよい。具体的には、意思決定履歴は、時刻tでの状態sと、時刻tでの行動aとの組み合わせの時系列データ{s,at=1 として表される。
学習部30は、対象者の意思決定履歴に基づいて、その対象者が意図する行動の要因を説明変数とする目的関数を学習する。具体的には、学習部30は、対象者の行動から報酬(関数)を推定する逆強化学習により、線形回帰式で表される目的関数を学習する。
逆強化学習では、通常、熟練者の意思決定履歴、実際に動作させた場合の状態を表わすシミュレータもしくは実機、および、状態に応じて予測される遷移先を表わす状態遷移(予測)モデルを用いて学習が行われる。
そこで、学習部30は、熟練者の意思決定履歴に基づいて一の目的関数を推定し、この目的関数に基づく意思決定履歴と、熟練者の意思決定履歴との差を小さくするように目的関数を更新する。目的関数が更新されると、学習部30は、この目的関数を用いて意思決定シミュレーションを行う。具体的には、学習部30は、意思決定シミュレーションにおいて、状態遷移モデルと目的関数とを用いて方策を決定する最適化計算を行い、最適化計算の結果出力される行動をシミュレータで評価することで、意思決定履歴を決定する。そして、学習部30は、この決定された意思決定履歴を目的関数の更新にさらに利用し、上記処理を繰り返すことにより、目的関数と熟練者の意思決定との差をなくすように熟練者の目的関数を推定する。
なお、状態遷移モデルの精緻化は困難であることが多い。そこで、学習部30は、状態遷移モデルを用いずに目的関数を推定可能なモデルフリー逆強化学習を行ってもよい。モデルフリー逆強化学習では、制御対象の数学的モデルである環境ダイナミクスを事前に知る必要はない。そのため、モデル化に伴う誤差の影響をなくすことができ、さらに、上述する学習時の意思決定シミュレーションが不要になるため、計算コストを削減することも可能になる。
さらに、各場合に応じた目的関数を学習するため、学習部30は、上述するモデルフリー逆強化学習と、階層型混合エキスパートモデル学習とを組み合わせた学習方法を用いてもよい。具体的には、学習部30は、ランダム方策に基づく重点サンプリングを用いた相対エントロピー逆強化学習により階層型混合エキスパートモデルを学習してもよい。
相対エントロピー逆強化学習は、ランダム方策による意思決定履歴からのサンプリングを用いて、状態遷移モデルを用いずに(すなわち、モデルフリーで)報酬関数を学習する方法である。この学習方法では、学習部30は、熟練者の意思決定履歴を場合分けし、各場合の目的関数および分岐ルールの学習を、熟練者の意思決定履歴を精度よく再現できるまで交互に繰り返すことで、分岐条件および各場合における目的関数を推定する。
図2は、階層型混合エキスパートモデルの概要を説明する説明図である。図2に例示する階層型混合エキスパートモデルは、状態・観測情報に応じて目的関数を1つ選択するモデルである。図2に示す例では、入力される状態・観測情報が条件1を満たし、条件2を満たさずに、スパースな線形目的関数2が選択されたことを示す。
図3は、目的関数の例を示す説明図である。図3に示す例では、ドライバの運転履歴データを意思決定履歴として用いて学習されたモデル予測制御における目的関数の例を示す説明図である。図3に例示する目的関数において、各説明変数の重み係数は、運転時に「何をどれくらい重視するのか」を表わす。
例えば、図3に例示する目的関数において、λは、現在地と目的地との距離の差を重視する程度を表わす係数である。同様に、λは、現在の速度と目的とする速度との差を重視する程度を表わす係数である。また、λは、ステアリングの角度、λは、加速度、λは、危険回避、λは、燃費を、それぞれ重視する程度を表わす係数である。このように学習された目的関数は、対象者の意図を表わしていると言える。
また、解釈可能な目的関数を学習するため、学習部30は、階層型混合エキスパートモデル学習として、異種混合学習を利用してもよい。異種混合学習では、各葉ノードに配される目的関数が線形回帰式で表されるため、目的変数に対する説明変数の影響度合いを解釈することが容易になる。
なお、学習部30が、学習に用いる対象とする意思決定履歴の範囲は任意である。学習部30は、例えば、時間や状況、場所等に応じて、意思決定履歴を分割し、分割された意思決定履歴ごとに目的関数を学習してもよい。
抽出部40は、学習された目的関数の説明変数の重みを、対象者の意図を表わす特徴量として抽出する。例えば、入力部20が受け付けた意思決定履歴が、対象者の運転履歴であった場合、抽出部40は、対象者の運転の意図を示す特徴量として目的変数の重みを抽出してもよい。また、例えば、入力部20が受け付けた意思決定履歴が、対象者の発注履歴であった場合、抽出部40は、対象者の発注の意図を示す特徴量として目的変数の重みを抽出してもよい。また、他にも、入力部20が受け付けた意思決定履歴が、対象者の指導履歴であった場合、抽出部40は、対象者の指導の意図を示す特徴量として目的変数の重みを抽出してもよい。
出力部50は、抽出された特徴量を出力する。その際、出力部50は、抽出された特徴量に教師ラベルを対応付けて出力してもよい。出力部50は、例えば、学習時に用いられた意思決定履歴から特定可能な情報を教師ラベルとして対応付けてもよい。例えば、意思決定履歴が運転履歴の場合、出力部50は、事故発生の有無を教師ラベルとして対応付けてもよい。また、例えば、意思決定履歴が発注履歴の場合、出力部50は、売上数量や利益を教師ラベルとして対応付けてもよい。また、例えば、意思決定履歴が指導履歴の場合、出力部50は、退職者数を教師ラベルとして対応付けてもよい。
なお、特徴量と教師ラベルとが対応付けられたデータは、後述する学習装置200が学習を行う際の学習データとして用いることが可能である。そのため、このようなデータを出力する意図特徴量抽出装置100のことを、学習データ生成装置ということができる。また、このような意図特徴量抽出装置100と、学習装置200とを含むシステムを、モデル学習システムということもできる。
入力部20と、学習部30と、抽出部40と、出力部50とは、プログラム(意図特徴量抽出プログラム)に従って動作するコンピュータのプロセッサ(例えば、CPU(Central Processing Unit )、GPU(Graphics Processing Unit))によって実現される。
例えば、プログラムは、意図特徴量抽出装置100が備える記憶部10に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、入力部20、学習部30、抽出部40および出力部50として動作してもよい。また、意図特徴量抽出装置100の機能がSaaS(Software as a Service )形式で提供されてもよい。
入力部20と、学習部30と、抽出部40と、出力部50とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry )、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。
また、意図特徴量抽出装置100の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
学習装置200は、入力部210と、モデル学習部220と、出力部230とを備えている。
入力部210は、学習データの入力を受け付ける。入力部210は、例えば、意図特徴量抽出装置100が生成した情報を、学習データとして受け付けてもよい。
モデル学習部220は、入力された学習データを用いた機械学習により予測モデルを学習する。なお、モデル学習部220が機械学習を行う方法は任意である。また、モデル学習部220は、入力された学習データの内容および用途に応じたモデルを学習すればよい。
例えば、学習データが運転履歴の場合、その学習データが示す特徴は、対象者の運転特徴と言える。そこで、モデル学習部220は、事故発生の有無や自動車保険料を目的変数とする予測モデルを学習してもよい。また、例えば、学習データが発注履歴の場合、その学習データが示す特徴は、対象者の発注特徴と言える。そこで、モデル学習部220は、利益率や廃棄数などを目的変数とする予測モデルを学習してもよい。また、他にも、学習データが指導履歴の場合、その学習データが示す特徴は、対象者の指導特徴と言える。そこで、モデル学習部220は、退職者数や評価度合いを目的変数とする予測モデルを学習してもよい。
出力部230は、生成されたモデルを出力する。
入力部210と、モデル学習部220と、出力部230とは、プログラム(学習プログラム)に従って動作するコンピュータのプロセッサによって実現される。
次に、本実施形態の意図特徴量抽出装置100の動作を説明する。図4は、本実施形態の意図特徴量抽出装置100の動作例を示す説明図である。入力部20は、対象者の意思決定履歴の入力を受け付ける(ステップS11)。学習部30は、入力された意思決定履歴に基づいて、その対象者が意図する行動の要因を説明変数とする目的関数を学習する(ステップS12)。そして、抽出部40は、学習された目的関数の説明変数の重みを対象者の意図を表わす特徴量として抽出する(ステップS13)。
次に、本実施形態の学習装置200の動作を説明する。図5は、本実施形態の学習装置200の動作例を示す説明図である。入力部210は、対象者の意思決定履歴に基づいて学習された目的関数をもとに抽出される特徴量を学習データとして入力する(ステップS21)。モデル学習部220は、入力された学習データを用いた機械学習により予測モデルを学習する(ステップS22)。そして、出力部230は、学習した予測モデルを出力する(ステップS23)。
以上のように、本実施形態では、入力部20が、対象者の意思決定履歴の入力を受け付け、学習部30が、意思決定履歴に基づいて、その対象者が意図する行動の要因を説明変数とする目的関数を学習する。そして、抽出部40が、学習された目的関数の説明変数の重みを対象者の意図を表わす特徴量として抽出する。よって、対象者の意図を解釈可能な特徴量として抽出できる。
また、本実施形態では、入力部210が、上述する意図特徴量抽出装置100により抽出される特徴量を学習データとして入力し、モデル学習部220が、入力された学習データを用いた機械学習により予測モデルを学習し、出力部230が、学習された予測モデルを出力する。そのため、対象者の意思決定履歴から、その対象者の意図を考慮した予測モデルを学習することが可能になる。
次に、本発明の概要を説明する。図6は、本発明による意図特徴量抽出装置の概要を示すブロック図である。本発明による意図特徴量抽出装置80(例えば、意図特徴量抽出装置100)は、対象者の意思決定履歴の入力を受け付ける入力部81(例えば、入力部20)と、意思決定履歴に基づいて、その対象者が意図する行動の要因を説明変数とする目的関数を学習する学習部82(例えば、学習部30)と、学習された目的関数の説明変数の重みを対象者の意図を表わす特徴量として抽出する特徴量抽出部83(例えば、抽出部40)とを備えている。
そのような構成により、解釈可能な特徴量として対象者の意図を抽出できる。
また、学習部82は、逆強化学習により線形回帰式で表される目的関数を学習してもよい。この場合、各線形回帰式に含まれる説明変数の各係数を特徴量として抽出できる。
また、学習部82は、モデルフリー逆強化学習と、階層型混合エキスパートモデル学習とを組み合わせた学習方法により、目的関数を学習してもよい。このような構成により、各場合を考慮した目的関数を学習することが可能になる。
具体的には、入力部81は、対象者の運転履歴を意思決定履歴として受け付けてもよい。そして、特徴量抽出部83は、学習された説明変数の重みを、対象者の運転の意図を示す特徴量として抽出してもよい。そのような構成により、運転手の意図を示す特徴量を運転特徴として抽出することが可能になる。
また、学習部82は、モデルフリー逆強化学習と、異種混合学習とを組み合わせた学習方法により、目的関数を学習してもよい。この場合、各場合の目的関数を、線形回帰式で学習することが可能になる。
図7は、本発明による学習装置の概要を示すブロック図である。本発明による学習装置90(例えば、学習装置200)は、対象者の意思決定履歴に基づいて学習された、その対象者が意図する行動の要因を説明変数とする目的関数をもとに抽出される特徴量を学習データとして入力する入力部91(例えば、入力部210)と、入力された学習データを用いた機械学習により予測モデルを学習するモデル学習部92(例えば、モデル学習部220)と、学習した予測モデルを出力する出力部93(例えば、出力部230)とを備えている。
そのような構成により、対象者の意思決定履歴から、その対象者の意図を考慮した予測モデルを学習することが可能になる。
具体的には、入力部91は、対象者の運転履歴に基づいて学習された目的関数をもとに抽出される特徴量を説明変数とし、その運転履歴に基づく事故発生の有無または自動車保険料を目的変数とする学習データを入力してもよい。そして、モデル学習部92は、その学習データを用いた機械学習により、自動車保険料を予測する予測モデルを学習してもよい。
なお、図8は、本発明によるモデル学習システムの概要を示すブロック図である。本発明によるモデル学習システム70(例えば、図1に例示する意図特徴量抽出装置100と学習装置200との組み合わせ)は、対象者の意思決定履歴に基づいて、その対象者が意図する行動の要因を説明変数とする目的関数を学習する学習部71(例えば、学習部30)と、学習された目的関数の説明変数の重みを対象者の意図を表わす特徴量として抽出する特徴量抽出部72(例えば、抽出部40)と、抽出された特徴量を学習データとして用いた機械学習により予測モデルを学習するモデル学習部73(例えば、モデル学習部220)と、学習した予測モデルを出力する出力部74(例えば、出力部230)とを備えている。
このような構成によっても、対象者の意思決定履歴から、その対象者の意図を考慮した予測モデルを学習することが可能になる。
図9は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ1000は、プロセッサ1001、主記憶装置1002、補助記憶装置1003、インタフェース1004を備える。
上述の意図特徴量抽出装置80および学習装置90は、コンピュータ1000に実装される。そして、上述した各処理部の動作は、プログラム(意図特徴量抽出プログラム、学習プログラム)の形式で補助記憶装置1003に記憶されている。プロセッサ1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、当該プログラムに従って上記処理を実行する。
なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM(Compact Disc Read-only memory )、DVD-ROM(Read-only memory)、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が当該プログラムを主記憶装置1002に展開し、上記処理を実行してもよい。
また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であってもよい。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)対象者の意思決定履歴の入力を受け付ける入力部と、前記意思決定履歴に基づいて、当該対象者が意図する行動の要因を説明変数とする目的関数を学習する学習部と、
学習された目的関数の説明変数の重みを前記対象者の意図を表わす特徴量として抽出する特徴量抽出部とを備えたことを特徴とする意図特徴量抽出装置。
(付記2)学習部は、逆強化学習により線形回帰式で表される目的関数を学習する付記1記載の意図特徴量抽出装置。
(付記3)学習部は、モデルフリー逆強化学習と、階層型混合エキスパートモデル学習とを組み合わせた学習方法により、目的関数を学習する付記1または付記2記載の意図特徴量抽出装置。
(付記4)入力部は、対象者の運転履歴を意思決定履歴として受け付け、特徴量抽出部は、学習された説明変数の重みを、対象者の運転の意図を示す特徴量として抽出する付記1から付記3のうちのいずれか1つに記載の意図特徴量抽出装置。
(付記5)学習部は、モデルフリー逆強化学習と、異種混合学習とを組み合わせた学習方法により、目的関数を学習する付記1から付記4のうちのいずれか1つに記載の意図特徴量抽出装置。
(付記6)対象者の意思決定履歴に基づいて、当該対象者が意図する行動の要因を説明変数とする目的関数を学習する学習部と、学習された目的関数の説明変数の重みを前記対象者の意図を表わす特徴量として抽出する特徴量抽出部と、抽出された特徴量を学習データとして用いた機械学習により予測モデルを学習するモデル学習部と、学習した予測モデルを出力する出力部とを備えたことを特徴とするモデル学習システム。
(付記7)対象者の意思決定履歴に基づいて学習された、当該対象者が意図する行動の要因を説明変数とする目的関数をもとに抽出される特徴量を学習データとして入力する入力部と、入力された学習データを用いた機械学習により予測モデルを学習するモデル学習部と、学習した予測モデルを出力する出力部とを備えたことを特徴とする学習装置。
(付記8)入力部は、対象者の運転履歴に基づいて学習された目的関数をもとに抽出される特徴量を説明変数とし、当該運転履歴に基づく事故発生の有無または自動車保険料を目的変数とする学習データを入力し、モデル学習部は、前記学習データを用いた機械学習により、自動車保険料を予測する予測モデルを学習する付記7記載の学習装置。
(付記9)対象者の意思決定履歴の入力を受け付け、前記意思決定履歴に基づいて、当該対象者が意図する行動の要因を説明変数とする目的関数を学習し、学習された目的関数の説明変数の重みを前記対象者の意図を表わす特徴量として抽出することを特徴とする意図特徴量抽出方法。
(付記10)逆強化学習により線形回帰式で表される目的関数を学習する付記9記載の意図特徴量抽出方法。
(付記11)対象者の意思決定履歴に基づいて学習された、当該対象者が意図する行動の要因を説明変数とする目的関数をもとに抽出される特徴量を学習データとして入力し、入力された学習データを用いた機械学習により予測モデルを学習し、学習した予測モデルを出力することを特徴とする学習方法。
(付記12)対象者の運転履歴に基づいて学習された目的関数をもとに抽出される特徴量を説明変数とし、当該運転履歴に基づく事故発生の有無または自動車保険料を目的変数とする学習データを入力し、前記学習データを用いた機械学習により、自動車保険料を予測する予測モデルを学習する付記11記載の学習方法。
(付記13)コンピュータに、対象者の意思決定履歴の入力を受け付ける入力処理、前記意思決定履歴に基づいて、当該対象者が意図する行動の要因を説明変数とする目的関数を学習する学習処理、および、学習された目的関数の説明変数の重みを前記対象者の意図を表わす特徴量として抽出する特徴量抽出処理を実行させるための意図特徴量抽出プログラム。
(付記14)コンピュータに、学習処理で、逆強化学習により線形回帰式で表される目的関数を学習させる付記13記載の意図特徴量抽出プログラム。
(付記15)コンピュータに、対象者の意思決定履歴に基づいて学習された、当該対象者が意図する行動の要因を説明変数とする目的関数をもとに抽出される特徴量を学習データとして入力する入力処理、入力された学習データを用いた機械学習により予測モデルを学習するモデル学習処理、および、学習した予測モデルを出力する出力処理を実行させるための学習プログラム。
(付記16)コンピュータに、入力処理で、対象者の運転履歴に基づいて学習された目的関数をもとに抽出される特徴量を説明変数とし、当該運転履歴に基づく事故発生の有無または自動車保険料を目的変数とする学習データを入力させ、学習処理で、前記学習データを用いた機械学習により、自動車保険料を予測する予測モデルを学習させる付記15記載の学習プログラム。
10 記憶部
20 入力部
30 学習部
40 抽出部
50 出力部
100 意図特徴量抽出装置
200 学習装置
210 入力部
220 モデル学習部
230 出力部

Claims (9)

  1. 対象者の意思決定履歴の入力を受け付ける入力部と、
    前記意思決定履歴に基づいて、当該対象者が意図する行動の要因を説明変数とする目的関数を学習する学習部と、
    学習された目的関数の説明変数の重みを前記対象者の意図を表わす特徴量として抽出する特徴量抽出部とを備え
    前記学習部は、モデルフリー逆強化学習と、階層型混合エキスパートモデル学習とを組み合わせた学習方法により、前記目的関数を学習する
    ことを特徴とする意図特徴量抽出装置。
  2. 学習部は、逆強化学習により線形回帰式で表される目的関数を学習する
    請求項1記載の意図特徴量抽出装置。
  3. 入力部は、対象者の運転履歴を意思決定履歴として受け付け、
    特徴量抽出部は、学習された説明変数の重みを、対象者の運転の意図を示す特徴量として抽出する
    請求項1または請求項2記載の意図特徴量抽出装置。
  4. 対象者の意思決定履歴に基づいて、当該対象者が意図する行動の要因を説明変数とする目的関数を学習する学習部と、
    学習された目的関数の説明変数の重みを前記対象者の意図を表わす特徴量として抽出する特徴量抽出部と、
    抽出された特徴量を学習データとして用いた機械学習により予測モデルを学習するモデル学習部と、
    学習した予測モデルを出力する出力部とを備え
    前記学習部は、モデルフリー逆強化学習と、階層型混合エキスパートモデル学習とを組み合わせた学習方法により、前記目的関数を学習する
    ことを特徴とするモデル学習システム。
  5. 対象者の意思決定履歴に基づいて学習された、当該対象者が意図する行動の要因を説明変数とする目的関数をもとに抽出される特徴量を学習データとして入力する入力部と、
    入力された学習データを用いた機械学習により予測モデルを学習するモデル学習部と、
    学習した予測モデルを出力する出力部とを備え
    前記入力部は、モデルフリー逆強化学習と、階層型混合エキスパートモデル学習とを組み合わせた学習方法により、対象者の意思決定履歴に基づいて学習された前記目的関数をもとに抽出される特徴量を学習データとして入力する
    ことを特徴とする学習装置。
  6. 対象者の意思決定履歴の入力を受け付け、
    モデルフリー逆強化学習と、階層型混合エキスパートモデル学習とを組み合わせた学習方法により、前記意思決定履歴に基づいて、当該対象者が意図する行動の要因を説明変数とする目的関数を学習し、
    学習された目的関数の説明変数の重みを前記対象者の意図を表わす特徴量として抽出する
    ことを特徴とする意図特徴量抽出方法。
  7. モデルフリー逆強化学習と、階層型混合エキスパートモデル学習とを組み合わせた学習方法により、対象者の意思決定履歴に基づいて学習された、当該対象者が意図する行動の要因を説明変数とする目的関数をもとに抽出される特徴量を学習データとして入力し、
    入力された学習データを用いた機械学習により予測モデルを学習し、
    学習した予測モデルを出力する
    ことを特徴とする学習方法。
  8. コンピュータに、
    対象者の意思決定履歴の入力を受け付ける入力処理、
    前記意思決定履歴に基づいて、当該対象者が意図する行動の要因を説明変数とする目的関数を学習する学習処理、および、
    学習された目的関数の説明変数の重みを前記対象者の意図を表わす特徴量として抽出する特徴量抽出処理を実行させ、
    前記学習処理で、モデルフリー逆強化学習と、階層型混合エキスパートモデル学習とを組み合わせた学習方法により、前記目的関数を学習させる
    ための意図特徴量抽出プログラム。
  9. コンピュータに、
    モデルフリー逆強化学習と、階層型混合エキスパートモデル学習とを組み合わせた学習方法により、対象者の意思決定履歴に基づいて学習された、当該対象者が意図する行動の要因を説明変数とする目的関数をもとに抽出される特徴量を学習データとして入力する入力処理、
    入力された学習データを用いた機械学習により予測モデルを学習するモデル学習処理、および、
    学習した予測モデルを出力する出力処理
    を実行させるための学習プログラム。
JP2021566648A 2019-12-25 2019-12-25 意図特徴量抽出装置、学習装置、方法およびプログラム Active JP7279821B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/050882 WO2021130916A1 (ja) 2019-12-25 2019-12-25 意図特徴量抽出装置、学習装置、方法およびプログラム

Publications (3)

Publication Number Publication Date
JPWO2021130916A1 JPWO2021130916A1 (ja) 2021-07-01
JPWO2021130916A5 JPWO2021130916A5 (ja) 2022-05-02
JP7279821B2 true JP7279821B2 (ja) 2023-05-23

Family

ID=76573773

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021566648A Active JP7279821B2 (ja) 2019-12-25 2019-12-25 意図特徴量抽出装置、学習装置、方法およびプログラム

Country Status (4)

Country Link
US (1) US20220318917A1 (ja)
EP (1) EP4083872A4 (ja)
JP (1) JP7279821B2 (ja)
WO (1) WO2021130916A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023062665A1 (ja) * 2021-10-11 2023-04-20 日本電気株式会社 支援システム、支援方法および支援プログラム
WO2023170919A1 (ja) * 2022-03-11 2023-09-14 日本電気株式会社 可視化方法、可視化装置、および記録媒体
WO2023170918A1 (ja) * 2022-03-11 2023-09-14 日本電気株式会社 可視化方法、可視化装置、および記録媒体

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016009599A1 (ja) 2014-07-14 2016-01-21 日本電気株式会社 Cm計画支援システムおよび売上予測支援システム
WO2017163277A1 (ja) 2016-03-25 2017-09-28 日本電気株式会社 情報処理システム、情報処理方法および情報処理プログラム
WO2018207259A1 (ja) 2017-05-09 2018-11-15 日本電気株式会社 情報処理システム、情報処理装置、予測モデル抽出方法および予測モデル抽出プログラム
WO2019044642A1 (ja) 2017-08-30 2019-03-07 日本電気株式会社 医療情報処理装置、医療情報処理方法および記憶媒体
JP2019093896A (ja) 2017-11-22 2019-06-20 日本電気株式会社 情報処理装置、分類方法およびコンピュータ・プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003005934A2 (en) * 2001-07-10 2003-01-23 California Institute Of Technology Cognitive state machine for prosthetic systems
US7209938B2 (en) * 2001-12-17 2007-04-24 Lockheed Martin Corporation Kalman filter with adaptive measurement variance estimator
US20110105897A1 (en) * 2008-04-15 2011-05-05 Giora Kornblau Hybrid medical device localization system
JP6981539B2 (ja) * 2018-03-30 2021-12-15 日本電気株式会社 モデル推定システム、モデル推定方法およびモデル推定プログラム
CN109063304B (zh) * 2018-07-25 2020-04-28 中南大学 一种用于高速列车吸能结构设计的多目标优化决策方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016009599A1 (ja) 2014-07-14 2016-01-21 日本電気株式会社 Cm計画支援システムおよび売上予測支援システム
WO2017163277A1 (ja) 2016-03-25 2017-09-28 日本電気株式会社 情報処理システム、情報処理方法および情報処理プログラム
WO2018207259A1 (ja) 2017-05-09 2018-11-15 日本電気株式会社 情報処理システム、情報処理装置、予測モデル抽出方法および予測モデル抽出プログラム
WO2019044642A1 (ja) 2017-08-30 2019-03-07 日本電気株式会社 医療情報処理装置、医療情報処理方法および記憶媒体
JP2019093896A (ja) 2017-11-22 2019-06-20 日本電気株式会社 情報処理装置、分類方法およびコンピュータ・プログラム

Also Published As

Publication number Publication date
US20220318917A1 (en) 2022-10-06
JPWO2021130916A1 (ja) 2021-07-01
EP4083872A1 (en) 2022-11-02
WO2021130916A1 (ja) 2021-07-01
EP4083872A4 (en) 2023-01-04

Similar Documents

Publication Publication Date Title
JP7279821B2 (ja) 意図特徴量抽出装置、学習装置、方法およびプログラム
US20180349757A1 (en) Learning service providing apparatus
CN114139637B (zh) 多智能体信息融合方法、装置、电子设备及可读存储介质
JP5070574B2 (ja) 局所交通量予測プログラム生成装置、局所交通量予測装置、局所交通量予測プログラム生成方法、局所交通量予測方法及びプログラム
JP6506360B2 (ja) 教師データを生成する方法、学習済みモデルを生成する方法、学習済みモデル、コンピュータおよびプログラム
KR102293791B1 (ko) 반도체 소자의 시뮬레이션을 위한 전자 장치, 방법, 및 컴퓨터 판독가능 매체
JP2019505889A (ja) コスト関数設計システム、コスト関数設計方法、およびコスト関数設計プログラム
US20210150388A1 (en) Model estimation system, model estimation method, and model estimation program
US20220343180A1 (en) Learning device, learning method, and learning program
WO2019225011A1 (ja) 学習装置、情報処理システム、学習方法、および学習プログラム
CN113614743A (zh) 用于操控机器人的方法和设备
CN114565255A (zh) 一种企业集群协同的供应链管理方法及系统
JP7111177B2 (ja) 学習装置、学習方法、および学習プログラム
KR20170140625A (ko) 운전자의 주행 패턴 인식 시스템 및 방법
CN109743200B (zh) 基于资源特征的云计算平台计算任务成本预测方法及系统
KR102413588B1 (ko) 학습 데이터에 따른 객체 인식 모델 추천 방법, 시스템 및 컴퓨터 프로그램
WO2021130915A1 (ja) 学習装置、学習方法および学習プログラム
JP7063397B2 (ja) 回答統合装置、回答統合方法および回答統合プログラム
JP2019101979A (ja) 強化学習装置
KR20230038136A (ko) 가지치기 기반 심층 신경망 경량화에 특화된 지식 증류 방법 및 시스템
JP2022000940A (ja) データ圧縮評価システム、データ圧縮システム、及びデータ圧縮評価方法
WO2020115904A1 (ja) 学習装置、学習方法、および学習プログラム
JP7529028B2 (ja) 学習装置、学習方法および学習プログラム
JP7529145B2 (ja) 学習装置、学習方法および学習プログラム
KR102283237B1 (ko) 데이터 주도 기계학습 기반 차량 조향 특성 모델 실시간 규명 장치 및 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220217

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230324

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230424

R151 Written notification of patent or utility model registration

Ref document number: 7279821

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151