JP2021140749A

JP2021140749A - 人間の知能を人工知能に移植するための精密行動プロファイリングのための電子装置およびその動作方法

Info

Publication number: JP2021140749A
Application number: JP2020208693A
Authority: JP
Inventors: イ・サンワン; Sang Wan Lee; キム・ドンジェ; Dongjae Kim; シン・ジェフン; Jae Hoon Shin
Original assignee: Korea Advanced Institute of Science and Technology KAIST
Current assignee: Korea Advanced Institute of Science and Technology KAIST
Priority date: 2020-03-09
Filing date: 2020-12-16
Publication date: 2021-09-16
Anticipated expiration: 2040-12-16
Also published as: JP7283774B2; US20210279547A1; WO2021182723A1

Abstract

【課題】人間の行動プロファイルを予測する人工知能を開発するための電子装置およびその動作方法を提供する。【解決手段】電子装置の動作方法は、人間の知能を人工知能に移植するための精密行動プロファイリングのためのものであって、理論的に少なくとも１つの環境変数を設計し、環境変数に基づき、タスクに対する人間の処理データから１次モデルをフィッティングし、環境変数に基づき、タスクに対する１次モデルの処理データから２次モデルをフィッティングし、１次モデルと２次モデルに対するプロファイリングにより、１次モデルと２次モデルの相関度に基づき、２次モデルを人間の知能に対する移植モデルとして決定する。人間の処理データは、人間がタスクを処理する間に発生する行動データまたは脳信号のうちの少なくともいずれか１つを含む。【選択図】図２

Description

多様な実施形態は、人間の知能を人工知能に移植するための精密行動プロファイリングのための電子装置およびその動作方法に関する。

人間知能に関する従来の研究は、これに含まれる意思決定の過程が内在的で隠れたものであるため、このような過程を模倣するモデルに基づいて分析することが主な研究方法論となる。このような方法論では、最尤度（ｍａｘｉｍｕｍｌｉｋｅｌｉｈｏｏｄ）によって人間の行動を説明するための最適モデルを選定し、このモデルに基づいて脳内で繰り広げられる人間知能を説明する。しかし、このような過程は、最適モデルの選定基準が実際の作業に必要な特性と独立している上に、内在的に存在する過剰適合（ｏｖｅｒｆｉｔｔｉｎｇ）の危険を判断することができず、特に、過剰適合の危険性が高い深層神経網ベースの人工知能への移植は不可能であるという限界を抱えている。

多様な実施形態は、人間の行動プロファイルを予測する人工知能を開発するための電子装置およびその動作方法を提供する。

多様な実施形態は、人間の知能を人工知能に移植するための精密行動プロファイリングのための電子装置およびその動作方法を提供する。

多様な実施形態に係る電子装置の動作方法は、タスクに対する人間の処理データに基づき、１次モデルをフィッティングする動作、前記タスクに対する前記１次モデルの処理データに基づき、２次モデルをフィッティングする動作、および前記１次モデルと前記２次モデルに対するプロファイリングにより、前記２次モデルを前記人間の知能に対する移植モデルとして決定する動作を含んでよい。

多様な実施形態に係る電子装置は、メモリ、および前記メモリに接続され、前記メモリに記録される少なくとも１つの命令を実行するように構成されたプロセッサを含み、前記プロセッサは、タスクに対する人間の処理データに基づき、１次モデルをフィッティングし、前記タスクに対する前記１次モデルの処理データに基づき、２次モデルをフィッティングし、前記１次モデルと前記２次モデルに対するプロファイリングにより、前記２次モデルを前記人間の知能に対する移植モデルとして決定するように構成されてよい。

多様な実施形態に係るコンピュータプログラムは、コンピュータ装置に結合され、前記コンピュータ装置によって読み取り可能な記録媒体に記録され、タスクに対する人間の処理データに基づき、１次モデルをフィッティングする動作、前記タスクに対する前記１次モデルの処理データに基づき、２次モデルをフィッティングする動作、および前記１次モデルと前記２次モデルに対するプロファイリングにより、前記２次モデルを前記人間の知能に対する移植モデルとして決定する動作を実行してよい。

多様な実施形態によると、人間の知能と類似の人工知能を開発することができる。人間の知能に対する高レベル指標である精密行動プロファイルを模写する移植モデルを開発することにより、過剰適合の危険なく、移植モデルを人工知能に移植する。これにより、人工知能が人間の行動プロファイルを復元することが可能となり、ＩｏＴ分野を含むＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）秘書のような人間補助システムの全般にわたり、人間の行動範囲内で人間の行動を理解および予測することが可能となる。

多様な実施形態における、電子装置を示した図である。多様な実施形態における、電子装置の動作方法を示した図である。図２の強化学習理論に基づく環境設計動作を説明するための図である。図２の強化学習理論に基づく環境設計動作を説明するための図である。図２の１次モデルのフィッティング動作を示した図である。図２の１次モデルのフィッティング動作を説明するための図である。図２の２次モデルのフィッティング動作を示した図である。図２の２次モデルのフィッティング動作を説明するための図である。図２の２次プロファイリング動作を説明するための図である。図２の２次プロファイリング動作を説明するための図である。図２の移植モデル決定動作を示した図である。図２の移植モデル決定動作を説明するための図である。多様な実施形態における、一般化可能な人間模写型強化学習モデルの設計のための定量化方法を示したフローチャートである。多様な実施形態における、一般化可能な人間模写型強化学習モデルの設計のための定量化装置を概略的に示したブロック図である。多様な実施形態における、人間の潜在政策学習、信頼度試験、および経験的一般化試験を説明するための図である。多様な実施形態における、実験に使用されたＲＬモデルの構造を説明するための図である。多様な実施形態における、各ＲＬモデルの一般化試験のためのシミュレーション環境を説明するための図である。多様な実施形態における、ＲＬモデルの適応能力に対するシミュレーション結果を示した図である。

以下、本文書の多様な実施形態について、添付の図面を参照しながら説明する。

多様な実施形態によると、人間の作業実行特性と同じ特性を有するモデルが提供される。（１）人間の作業実行過程に対する精密プロファイリングによるモデルの開発：人間の作業実行特性を分析し、これに基づいて計算モデルを開発、実際の作業実行に必要な特性を復元するモデルを開発する。（２）精密行動プロファイルの比較によって過剰適合（ｏｖｅｒｆｉｔｔｉｎｇ）を判断：実際の行動プロファイルと（１）で開発したモデルの行動プロファイルの比較により、過剰適合を評価する。（３）人間知能を人工知能に移植：人間知能に対する高レベル指標である精密行動プロファイルを模写するモデルにより、過剰適合の危険なく、人工知能に移植する。

多様な実施形態によると、人間の作業実行過程の精密プロファイリングと、これに基づく人間知能モデルの開発技術、および過剰適合の危険を排除して人工知能に移植する技術が提供される。このような作業実行過程の精密プロファイリングに基づいて人間知能を人工知能に移植する技術は、脳認知および脳模写型の人工知能開発において核心的な技術であり、過去には類似の研究事例がない技術である。

具体的に、（１）人間の作業実行特性を用いたモデルの開発は、人間の実際の行動から環境変化に対応して変化していく作業実行特性を行動プロファイルとして抽出し、これによって候補モデルを生成し、これを互いに比較して最適モデルを選定する。選定された最適モデルは、作業実行に対する人間の行動プロファイルをそのまま復元する。（２）行動プロファイルの比較による過剰適合の判断は、（１）で選定された最適モデルが作業を実行しながら見せる行動からモデルのプロファイルを再び抽出し、これを実際の行動プロファイルと比較する。２つの行動プロファイルは定性的・定量的に比較されてよいが、定性的には単に２つのプロファイルの傾向を比較するものであり、定量的には行動に影響を及ぼす核心パラメータの分布に関する相関関係の分析などを比較するものであってよい。（３）人間知能の人工知能への移植は、（２）の定性的・定量的判断基準にしたがい、過剰適合の危険なく、深層神経網に基づいてよい。

多様な実施形態は、（１）作業実行過程に対する精密行動プロファイリングとこれによる人間知能モデルの開発、（２）行動プロファイリングによる人間知能モデルの過剰適合の検定を目的としており、最終的には、これに基づいて（３）人間知能を人工知能に移植するにあたり、過剰適合の危険なく、深層神経網ベースの人工知能に移植することを目的とする。

図１は、多様な実施形態における、電子装置１００を示した図である。

図１を参照すると、多様な実施形態に係る電子装置１００は、入力モジュール１１０、出力モジュール１２０、メモリ１３０、またはプロセッサ１４０のうちの少なくともいずれか１つを含んでよい。一実施形態によっては、電子装置１００の構成要素のうちの少なくともいずれか１つが省略されてもよいし、少なくとも１つの他の構成要素が追加されてもよい。一実施形態によっては、電子装置１００の構成要素のうちの少なくともいずれか２つが、１つの統合された回路として実現されてもよい。

入力モジュール１１０は、電子装置１００の少なくとも１つの構成要素に使用される信号を入力してよい。入力モジュール１１０は、ユーザが電子装置１００に信号を直接入力するように構成される入力装置、周辺の変化を感知して信号を発生するように構成されるセンサ装置、または外部機器から信号を受信するように構成される受信装置のうちの少なくとも１つの含んでよい。例えば、入力装置は、マイクロフォン（ｍｉｃｒｏｐｈｏｎｅ）、マウス（ｍｏｕｓｅ）、またはキーボード（ｋｅｙｂｏａｒｄ）のうちの少なくともいずれか１つを含んでよい。一実施形態によっては、入力装置は、タッチを感知するように設定されたタッチ回路（ｔｏｕｃｈｃｉｒｃｕｉｔｒｙ）、またはタッチによって発生する力の強度を測定するように設定されたセンサ回路のうちの少なくともいずれか１つを含んでよい。

出力モジュール１２０は、電子装置１００の外部に情報を出力してよい。出力モジュール１２０は、情報を視覚的に出力するように構成される表示装置、情報をオーディオ信号で出力するオーディオ出力装置、または情報を無線で送信する送信装置のうちの少なくともいずれか１つを含んでよい。例えば、表示装置は、ディスプレイ、ホログラム装置、またはプロジェクタのうちの少なくともいずれか１つを含んでよい。一例として、表示装置は、入力モジュール１１０のタッチ回路またはセンサ回路のうちの少なくともいずれか１つと組み立てられて、タッチスクリーンとして実現されてよい。例えば、オーディオ出力装置は、スピーカまたはレシーバのうちの少なくともいずれか１つを含んでよい。

一実施形態によると、受信装置と送信装置は、通信モジュールとして実現されてよい。通信モジュールは、電子装置１００で外部機器との通信を実行してよい。通信モジュールは、電子装置１００と外部機器との間に通信チャネルを樹立し、通信チャネルを介して外部機器との通信を実行してよい。ここで、外部機器は、衛星、基地局、サーバ、または他の電子装置のうちの少なくともいずれか１つを含んでよい。通信モジュールは、有線通信モジュールまたは無線通信モジュールのうちの少なくともいずれか１つを含んでよい。有線通信モジュールは、外部機器と有線で接続し、有線で通信してよい。無線通信モジュールは、近距離通信モジュールまたは遠距離通信モジュールのうちの少なくともいずれか１つを含んでよい。近距離通信モジュールは、外部機器と近距離通信方式で通信してよい。例えば、近距離通信方式は、ブルートゥース（登録商標）（Ｂｌｕｅｔｏｏｔｈ）、Ｗｉ-Ｆｉダイレクト、または赤外線通信（ＩｒＤＡ：ｉｎｆｒａｒｅｄｄａｔａａｓｓｏｃｉａｔｉｏｎ）のうちの少なくともいずれか１つを含んでよい。遠距離通信モジュールは、外部機器と遠距離通信方式で通信してよい。ここで、遠距離通信モジュールは、ネットワークを介して外部機器と通信してよい。例えば、ネットワークは、セルラネットワーク、インターネット、またはＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）やＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）のようなコンピュータネットワークのうちの少なくともいずれか１つを含んでよい。

メモリ１３０は、電子装置１００の少なくとも１つの構成要素によって使用される多様なデータを記録してよい。例えば、メモリ１３０は、揮発性メモリまたは不揮発性メモリのうちの少なくともいずれか１つを含んでよい。データは、少なくとも１つのプログラム、およびこれと関連する入力データまたは出力データを含んでよい。プログラムは、メモリ１３０に少なくとも１つの命令を含むソフトウェアとして記録されてよく、例えば、オペレーティングシステム、ミドルウェア、またはアプリケーションのうちの少なくともいずれか１つを含んでよい。

プロセッサ１４０は、メモリ１３０のプログラムを実行し、電子装置１００の少なくとも１つの構成要素を制御してよい。これにより、プロセッサ１４０は、データ処理または演算を実行してよい。このとき、プロセッサ１４０は、メモリ１３０に記録された命令を実行してよい。

プロセッサ１４０は、人間の知能を人工知能に移植するための強化学習理論に基づく環境を設計してよい。このとき、プロセッサ１４０は、人間のタスク処理と関連する環境を設計してよい。ここで、プロセッサ１４０は、例えば、ベルマン方程式（Ｂｅｌｌｍａｎｅｑｕａｔｉｏｎ）に基づいて少なくとも１つの環境変数（ｅｎｖｉｒｏｎｍｅｎｔａｌｆａｃｔｏｒ）を決定し、その値を最適化してよい。例えば、環境変数は、状態遷移の不確実性（ｓｔａｔｅ−ｔｒａｎｓｉｔｉｏｎｕｎｃｅｒｔａｉｎｔｙ）、状態空間の複雑性（ｓｔａｔｅ−ｓｐａｃｅｃｏｍｐｌｅｘｉｔｙ）、新規性（ｎｏｖｅｌｔｙ）、状態予測エラー（ｓｔａｔｅｐｒｅｄｉｃｔｉｏｎｅｒｒｏｒ）、または報酬予測エラー（ｒｅｗａｒｄｐｒｅｄｉｃｔｉｏｎｅｒｒｏｒ）のうちの少なくともいずれか１つを含んでよい。

プロセッサ１４０は、環境変数に基づき、１次モデル（ｆｉｒｓｔｌｅｖｅｌｍｏｄｅｌ）をフィッティング（ｆｉｔｔｉｎｇ）してよい。プロセッサ１４０は、環境変数に基づき、タスクに対する人間の処理データから１次モデルをフィッティングしてよい。このとき、タスクに対する人間の処理データは、人間がタスクを処理する間に発生する行動データまたは脳信号のうちの少なくともいずれか１つを含んでよい。また、プロセッサ１４０は、人間と１次モデルに対するプロファイリング、すなわち、１次プロファイリングを実行してよい。これにより、プロセッサ１４０は、人間と１次モデルの相関度を分析してよい。例えば、相関度の最大は１であり、人間と１次モデルが同じときには、相関度は１であってよい。このとき、プロセッサ１４０は、タスクに対する人間の処理データに対し、１次モデルの過剰適合（ｏｖｅｒｆｉｔｔｉｎｇ）を判断してよい。このために、プロセッサ１４０は、人間がタスクを処理するときの行動プロファイルと１次モデルの行動プロファイルを比較してよい。一方、プロセッサ１４０は、人間がタスクを処理するときのパラメータと１次モデルのパラメータを比較してよい。

プロセッサ１４０は、２次モデル（ｓｅｃｏｎｄｌｅｖｅｌｍｏｄｅｌ）をフィッティングしてよい。プロセッサ１４０は、環境変数に基づき、タスクに対する１次モデルの処理データから２次モデルをフィッティングしてよい。この後、プロセッサ１４０は、２次プロファイルを実行してよい。これにより、電子装置１００は、１次モデルと２次モデルの相関度を分析してよい。このとき、プロセッサ１４０は、１次モデルの行動プロファイルと２次モデルの行動プロファイルを比較してよい。一方、プロセッサ１４０は、１次モデルのパラメータと２次モデルのパラメータを比較してよい。これにより、プロセッサ１４０は、１次モデルと２次モデルの相関度を検出してよい。

プロセッサ１４０は、人間知能に対する移植モデルを決定してよい。プロセッサ１４０は、１次モデルと２次モデルの相関度に基づき、２次モデルを移植モデルとして決定してよい。このとき、１次モデルと２次モデルの相関度とは、１次モデルと２次モデルの類似の程度を示してよい。これにより、１次モデルと２次モデルが一定の水準以上に類似すれば、プロセッサ１４０は、２次モデルを移植モデルとして決定してよい。例えば、相関度の最大は１であり、１次モデルと２次モデルが同じときには、相関度は１であってよい。

図２は、多様な実施形態における、電子装置１００の動作方法を示した図であり、図３〜図１１は、多様な実施形態における、電子装置１００の動作方法の例を説明するための図である。

図２を参照すると、動作２１０で、電子装置１００は、人間の知能を人工知能に移植するための強化学習理論に基づく環境を設計してよい。このとき、プロセッサ１４０は、人間のタスク処理と関連する環境を設計してよい。例えば、プロセッサ１４０は、人間がタスクを処理するときの作業実行過程または問題解決過程のうちの少なくともいずれか１つを説明する強化学習理論に基づき、人間のための標準作業環境を設計してよい。ここで、プロセッサ１４０は、例えば、ベルマン方程式（Ｂｅｌｌｍａｎｅｑｕａｔｉｏｎ）に基づいて少なくとも１つの環境変数（ｅｎｖｉｒｏｎｍｅｎｔａｌｆａｃｔｏｒ）を決定し、その値を最適化してよい。例えば、環境変数は、状態遷移の不確実性（ｓｔａｔｅ−ｔｒａｎｓｉｔｉｏｎｕｎｃｅｒｔａｉｎｔｙ）、状態空間の複雑性（ｓｔａｔｅ−ｓｐａｃｅｃｏｍｐｌｅｘｉｔｙ）、新規性（ｎｏｖｅｌｔｙ）、状態予測エラー（ｓｔａｔｅｐｒｅｄｉｃｔｉｏｎｅｒｒｏｒ）、または報酬予測エラー（ｒｅｗａｒｄｐｒｅｄｉｃｔｉｏｎｅｒｒｏｒ）のうちの少なくともいずれか１つを含んでよい。これについては、図３ａおよび図３ｂを参照しながらより詳しく説明する。

図３ａおよび図３ｂは、図２の強化学習理論に基づく環境設計動作２１０を説明するための図である。

図３ａを参照すると、強化学習理論に基づく環境は、人間がタスクを処理するときに発生し得る少なくとも１つの状態（ｓｔａｔｅ）、各状態で人間によってなされる少なくとも１つの意思決定（ｃｈｏｉｃｅ）、および各意思決定による少なくとも１つの状態遷移（ｓｔａｔｅ−ｔｒａｎｓｉｔｉｏｎ）によって表現されてよい。このとき、各ノードは各状態を示し、各矢印は各意思決定を示し、各実線は各状態遷移を示してよい。図３ｂに示すように、ある状態（Ｓ_ｔ）での意思決定に基づき、他の状態（Ｓ_ｔ＋１）への状態遷移がなされてよい。各状態遷移は、状態遷移の可能性（ｓｔａｔｅ−ｔｒａｎｓｉｔｉｏｎｐｒｏｂａｂｉｌｉｔｙ）を有してよい。例えば、各状態に対して複数の意思決定が可能であるため、図３ｂに示すように、状態空間の複雑性が定義されてよい。ここで、各状態に対する意思決定の数が多いほど、状態空間の複雑性は高まってよい。例えば、各意思決定に対して複数の状態遷移が可能であるため、図３ｂに示すように、状態遷移の不確実性が定義されてよい。ここで、各意思決定に対する状態遷移の可能性の差値が大きいほど、状態遷移の不確実性は低下してよい。

再び図２を参照すると、動作２２０で、電子装置１００は、環境変数に基づき、１次モデル（ｆｉｒｓｔｌｅｖｅｌｍｏｄｅｌ）をフィッティング（ｆｉｔｔｉｎｇ）してよい。プロセッサ１４０は、環境変数に基づき、タスクに対する人間の処理データから１次モデルをフィッティングしてよい。このとき、タスクに対する人間の処理データは、人間がタスクを処理する間に発生する行動データまたは脳信号のうちの少なくともいずれか１つを含んでよい。これについては、図４および図５を参照しながらより詳しく説明する。

図４は、図２の１次モデルのフィッティング動作２２０を示した図であり、図５は、図２の１次モデルのフィッティング動作２２０を説明するための図である。

図４を参照すると、動作４１０で、電子装置１００は、タスクに対する人間の処理データを収集してよい。プロセッサ１４０は、人間が実質的にタスクを処理する過程を追跡しながら、タスクに対する人間の処理データを収集してよい。ここで、プロセッサ１４０は、入力モジュール１１０によって人間の処理データを収集してよい。例えば、プロセッサ１４０は、入力装置または通信モジュールによって人間の行動データ（ｂｅｈａｖｉｏｒａｌｄａｔａ）を収集し、センサ装置によって人間の脳信号を収集してよい。一例として、脳信号は、機能的ＭＲＩ（ＦＭＲＩ：ｆｕｎｃｔｉｏｎａｌｍａｇｎｅｔｉｃｒｅｓｏｎａｎｃｅｉｍａｇｉｎｇ）信号を含んでよい。

動作４２０で、電子装置１００は、タスクに対する人間の処理データに基づき、１次モデルを学習してよい。プロセッサ１４０は、環境変数に基づき、タスクに対する人間の処理データから１次モデルを学習してよい。このとき、１次モデルの行動プロファイルまたは少なくとも１つのパラメータのうちの少なくともいずれか１つが検出されてよい。例えば、プロセッサ１４０は、図５（ａ）に示すように、１次モデルの行動プロファイルを検出してよい。ここで、１次モデルの行動プロファイルは、状態空間の複雑性または状態遷移の不確実性のうちの少なくともいずれか１つから検出されてよい。例えば、プロセッサ１４０は、図５（ｂ）に示すように、１次モデルのパラメータを検出してよい。ここで、１次モデルのパラメータは、状態遷移の不確実性、状態空間の複雑性、以前の状態からの状態遷移による報酬（ｒｅｗａｒｄ）、以前の状態からの状態遷移による反応（ａｃｔｉｏｎ）、または最大目標値のうちの少なくともいずれか１つを含んでよい。この後、電子装置１００は、図２にリターンし、動作２３０に進んでよい。

再び図２を参照すると、動作２３０で、電子装置１００は、人間と１次モデルに対するプロファイリング、すなわち、１次プロファイリングを実行してよい。これにより、電子装置１００は、人間と１次モデルの相関度を分析してよい。例えば、相関度の最大は１であり、人間と１次モデルが同じときには、相関度は１であってよい。このとき、プロセッサ１４０は、タスクに対する人間の処理データに対し、１次モデルの過剰適合（ｏｖｅｒｆｉｔｔｉｎｇ）を判断してよい。このために、プロセッサ１４０は、人間がタスクを処理するときの行動プロファイルと１次モデルの行動プロファイルを比較してよい。一方、プロセッサ１４０は、人間がタスクを処理するときのパラメータと１次モデルのパラメータを比較してよい。

動作２４０で、電子装置１００は、２次モデル（ｓｅｃｏｎｄｌｅｖｅｌｍｏｄｅｌ）をフィッティングしてよい。プロセッサ１４０は、環境変数に基づき、タスクに対する１次モデルの処理データから２次モデルをフィッティングしてよい。これについては、図６および図７を参照しながらより詳しく説明する。

図６は、図２の２次モデルのフィッティング動作２４０を示した図であり、図７は、図２の２次モデルのフィッティング動作２４０を説明するための図である。

図６を参照すると、動作６１０で、電子装置１００は、タスクに対する１次モデルの処理データを収集してよい。プロセッサ１４０は、１次モデルがタスクを処理する過程を追跡しながら、タスクに対する１次モデルの処理データを収集してよい。このとき、プロセッサ１４０は、動作４１０で人間が実行したタスクを１次モデルによって再び処理し、これにより、タスクに対する１次モデルの処理データを収集してよい。

動作６２０で、電子装置１００は、タスクに対する１次モデルの処理データに基づき、２次モデルを学習してよい。プロセッサ１４０は、環境変数に基づき、タスクに対する１次モデルの処理データから２次モデルを学習してよい。このとき、２次モデルの行動プロファイルまたは少なくとも１つのパラメータのうちの少なくともいずれか１つが検出されてよい。例えば、プロセッサ１４０は、図７（ａ）に示すように、２次モデルの行動プロファイルを検出してよい。ここで、２次モデルの行動プロファイルは、状態空間の複雑性または状態遷移の不確実性のうちの少なくともいずれか１つから検出されてよい。例えば、プロセッサ１４０は、図７（ｂ）に示すように、２次モデルのパラメータを検出してよい。ここで、２次モデルのパラメータは、状態遷移の不確実性、状態空間の複雑性、以前の状態からの状態遷移による報酬、以前の状態からの状態遷移による反応、または最大目標値のうちの少なくともいずれか１つを含んでよい。この後、電子装置１００は、図２にリターンし、動作２５０に進んでよい。

再び図２を参照すると、動作２５０で、電子装置１００は、２次プロファイルを実行してよい。これにより、電子装置１００は、１次モデルと２次モデルの相関度を分析してよい。このとき、プロセッサ１４０は、１次モデルの行動プロファイルと２次モデルの行動プロファイルを比較してよい。一方、プロセッサ１４０は、１次モデルのパラメータと２次モデルのパラメータを比較してよい。これにより、プロセッサ１４０は、１次モデルと２次モデルの相関度を検出してよい。

これについては、図８および図９を参照しながらより詳しく説明する。

図８および図９は、図２の２次プロファイリング動作２５０を説明するための図である。

図８および図９を参照すると、プロセッサ１４０は、１次モデルと２次モデルを比較して、１次モデルと２次モデルの相関度を検出してよい。このために、プロセッサ１４０は、図８（ａ）に示すような１次モデルの行動プロファイルと、図８（ｂ）に示すような２次モデルの行動プロファイルを定性的に（ｑｕａｌｉｔａｔｉｖｅｌｙ）比較してよい。ここで、プロセッサ１４０は、１次モデルの行動プロファイルと２次モデルの行動プロファイルを比較して、プロファイル相関度を検出してよい。一方、プロセッサ１４０は、図９（ａ）と（ｂ）にそれぞれ示すように、１次モデルのパラメータと２次モデルのパラメータを定量的に（ｑｕａｎｔｉｔａｔｉｖｅｌｙ）それぞれ比較してよい。ここで、プロセッサ１４０は、１次モデルのパラメータと２次モデルのパラメータを比較して、パラメータ相関度を検出してよい。この後、プロセッサ１４０は、プロファイル相関度またはパラメータ相関度のうちの少なくともいずれか１つに基づき、１次モデルと２次モデルの相関度を検出してよい。

再び図２を参照すると、動作２６０で、電子装置１００は、人間知能に対する移植モデルを決定してよい。プロセッサ１４０は、１次モデルと２次モデルの相関度に基づき、２次モデルを移植モデルとして決定してよい。このとき、１次モデルと２次モデルの相関度とは、１次モデルと２次モデルの類似の程度を示してよい。これにより、１次モデルと２次モデルが一定の水準以上に類似すれば、プロセッサ１４０は、２次モデルを移植モデルとして決定してよい。例えば、相関度の最大は１であり、１次モデルと２次モデルが同じときには、相関度は１であってよい。これについては、図１０および図１１を参照しながらより詳しく説明する。

図１０は、図２の移植モデルの決定動作２６０を示した図であり、図１１は、図２の移植モデルの決定動作２６０を説明するための図である。

図１０を参照すると、動作１０１０で、電子装置１００は、１次モデルと２次モデルの相関度を予め設定された閾値と比較してよい。プロセッサ１４０は、１次モデルと２次モデルの相関度が１以下でありながら、閾値を超過するかを判断してよい。一例として、１次モデルと２次モデルの相関度が高ければ、１次モデルと２次モデルは、図１１（ａ）に示すような関係を示してよい。他の例として、１次モデルと２次モデルの相関度が低ければ、１次モデルと２次モデルは、図１１（ｂ）に示すような関係を示してよい。

動作１０１０で、１次モデルと２次モデルの相関度が閾値以下であると判断されれば、電子装置１００は、図２にリターンし、動作２２０に戻ってよい。すなわち、１次モデルと２次モデルが一定の水準未満として異なるものであれば、プロセッサ１４０は、２次モデルを移植モデルとして決定せず、動作２２０に戻ってよい。この後、プロセッサ１４０は、動作２２０〜２６０の実行を繰り返してよい。

一方、動作１０１０で、１次モデルと２次モデルの相関度が閾値を超過すると判断されれば、動作１０２０で、電子装置１００は、２次モデルを移植モデルとして決定してよい。すなわち、１次モデルと２次モデルが一定の水準以上に類似すれば、プロセッサ１４０は、２次モデルを移植モデルとして決定してよい。これにより、移植モデルは、人間の知能に対する人工知能として移植されてよい。このとき、移植モデルが電子機器、例えば、ロボットに移植されることにより、移植モデルによる人工知能が、人間と同じように作業を実行したり、問題を解決したりすることが可能となる。

多様な実施形態は、以下で説明する多様な分野への適用および応用が可能である。

１．人間−ロボット／コンピュータ相互作用分野：
人間の作業実行／問題解決に伴う行動は、高次元の認知過程に基づいて起こるものであるため、人間の行動を予測して活用する価値があるすべての分野で応用されてよい。一例として、感情コンピューティング（ａｆｆｅｃｔｉｖｅｃｏｍｐｕｔｉｎｇ）分野では、人間の認知状態のうちから１つの感情を読み出し、状況に合うように人間の行動を補助することを目的とする。本システムは、単なる感情の読み出しを超越し、コンピュータが認識することのできる感情と脈絡的に類似する他の認知状態（例：覚醒と非覚醒）を予測することで人間行動の補助において効率的に対応するシステムを構築し、人間が優れた成果を納めることができるように補助してよい。また、このような技術は、人間−ロボット／コンピュータの相互作用を含むすべての応用に基礎技術として使用されてよい。人間の準最適（ｓｕｂｏｐｔｉｍａｌ）な意思決定過程を模倣するため、最適（ｏｐｔｉｍａｌ）な人工知能に比べて人間との自然な相互作用を可能にする。

２．スマートＩｏＴ分野：
特にＩｎｔｅｒｎｅｔ−ｏｆ−ｔｈｉｎｇｓ（ＩｏＴ）分野では、多様な機器をコントロールしなければならないため、各機器のコントロールに活用される認知機能も多様となる。このとき、本システムの汎用性は、各機器を制御するときに求められる認知状態の差に関係なく人間を補助できるだけでなく、既に構築されたＩｏＴ生態系に新たな機器が含まれるときでも、過剰適合なく行動を予測するＡＩを開発することができる。

３．専門家プロファイリングおよびスマート教育分野：
核心高位の認知過程は人間の作業実行知能と直結するため、本技術によれば、複雑な意思決定が重要となる裁判官、医者、金融専門家、軍事作戦指揮官などに対する作業実行能力のプロファイリングが可能となる。また、スマート教育のためのカスタマイズシステムのための辞書プロファイリングが可能となる。さらに、作業実行能力のモニタリングによる作業実行能力の向上も可能となる。

４．ＡＩ−人間共振化型のアプリケーション（Ａｐｐｌｉｃａｔｉｏｎ）分野：
人間知能に対する理解は、人間の神経レベルで報酬を最大化するための意思決定過程を理解することにも適用される。従来のＡＩにはこのような人間の意思決定過程に対する理解が存在しないが、人間の行動特性をそのまま予測するＡＩの開発により、ロボティックス分野では人間の行動をより適切に予測するＡＩを開発することができ、ゲーム分野ではより知能的なＡＩエンジンを開発することができる。

５．ユーザーターゲット型のＡＤ分野：
現在の広告自動推薦技術は、人間の過去の検索記録に基づいて新たな広告を推薦している。しかし、このような広告提案技術は、個人の行動特性に対する理解に欠けており、ユーザの関心範囲からまったく掛け離れた広告を提案することが多い。本技術を活用すれば、ユーザの行動／認知に直接的な影響を及ぼす広告を推薦することができるため、広告の効率性を極大化することができる。

多様な実施形態に係る電子装置１００の動作方法は、タスクに対する人間の処理データに基づき、１次モデルをフィッティングする動作、タスクに対する１次モデルの処理データに基づき、２次モデルをフィッティングする動作、および１次モデルと２次モデルに対するプロファイリングにより、２次モデルを人間の知能に対する移植モデルとして決定する動作を含んでよい。

多様な実施形態によると、人間の処理データは、人間がタスクを処理する間に発生する行動データまたは脳信号のうちの少なくともいずれか１つを含んでよい。

多様な実施形態によると、移植モデルとして決定する動作は、１次モデルと２次モデルの相関度を検出する動作、および相関度に基づき、２次モデルを移植モデルとして決定するかを判断する動作を含んでよい。

多様な実施形態によると、電子装置１００の動作方法は、理論的に少なくとも１つの環境変数を設計する動作をさらに含んでよい。

多様な実施形態によると、１次モデルをフィッティングする動作は、環境変数に基づき、人間の処理データから１次モデルをフィッティングしてよい。

多様な実施形態によると、２次モデルをフィッティングする動作は、環境変数に基づき、１次モデルの処理データから２次モデルをフィッティングしてよい。

多様な実施形態によると、１次モデルをフィッティングする動作は、人間の処理データに基づき、１次モデルを学習する動作を含み、これにより、１次モデルの行動プロファイルまたは少なくとも１つのパラメータのうちの少なくともいずれか１つが環境変数に基づいて検出されてよい。

多様な実施形態によると、２次モデルをフィッティングする動作は、１次モデルの処理データに基づき、２次モデルを学習する動作を含み、これにより、２次モデルの行動プロファイルまたは少なくとも１つのパラメータのうちの少なくともいずれか１つが環境変数に基づいて検出されてよい。

多様な実施形態によると、相関度を検出する動作は、１次モデルの行動プロファイルと２次モデルの行動プロファイルを比較して、プロファイル相関度を検出する動作、または１次モデルのパラメータと２次モデルのパラメータを比較して、パラメータ相関度を検出する動作のうちの少なくともいずれか１つ、およびプロファイル相関度またはパラメータ相関度のうちの少なくともいずれか１つに基づき、相関度を検出する動作を含んでよい。

多様な実施形態によると、移植モデルとして決定するかを判断する動作は、相関度が予め設定された閾値を超過すれば、２次モデルを移植モデルとして決定する動作を含んでよい。

多様な実施形態によると、環境変数は、状態遷移の不確実性、状態空間の複雑性、新規性、状態予測エラー、または報酬予測エラーのうちの少なくともいずれか１つを含んでよい。

多様な実施形態に係る電子装置は、メモリ１３０、およびメモリ１３０に接続され、メモリ１３０に記録される少なくとも１つの命令を実行するように構成されたプロセッサ１４０を含んでよい。

多様な実施形態によると、プロセッサ１４０は、タスクに対する人間の処理データに基づき、１次モデルをフィッティングし、タスクに対する１次モデルの処理データに基づき、２次モデルをフィッティングし、１次モデルと２次モデルに対するプロファイリングにより、２次モデルを人間の知能に対する移植モデルとして決定するように構成されてよい。

多様な実施形態によると、プロセッサ１４０は、１次モデルと２次モデルの相関度を検出し、相関度に基づき、２次モデルを移植モデルとして決定するかを判断するように構成されてよい。

多様な実施形態によると、プロセッサ１４０は、理論的に少なくとも１つの環境変数を設計し、環境変数に基づき、人間の処理データから１次モデルをフィッティングし、環境変数に基づき、１次モデルの処理データから２次モデルをフィッティングするように構成されてよい。

多様な実施形態によると、プロセッサ１４０は、人間の処理データに基づき、１次モデルを学習するように構成され、これにより、１次モデルの行動プロファイルまたは少なくとも１つのパラメータのうちの少なくともいずれか１つが環境変数に基づいて検出されてよい。

多様な実施形態によると、プロセッサ１４０は、１次モデルの処理データに基づき、２次モデルを学習するように構成され、これにより、２次モデルの行動プロファイルまたは少なくとも１つのパラメータのうちの少なくともいずれか１つが環境変数に基づいて検出されてよい。

多様な実施形態によると、プロセッサ１４０は、１次モデルの行動プロファイルと２次モデルの行動プロファイルを比較して、プロファイル相関度を検出し、１次モデルのパラメータと２次モデルのパラメータを比較して、パラメータ相関度を検出し、プロファイル相関度またはパラメータ相関度のうちの少なくともいずれか１つに基づき、相関度を検出するように構成されてよい。

多様な実施形態によると、プロセッサ１４０は、相関度が予め設定された閾値を超過すれば、２次モデルを移植モデルとして決定するように構成されてよい。

強化学習（ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ：ＲＬ）の急速な発展は、多くの複雑な問題を解決するためのアルゴリズムの開発に多くの潜在力を提供した。例えば、階層構造は、稀少報酬によって探求を効果的に促進することを立証した。モデルベースＲＬ（ｍｏｄｅｌ−ｂａｓｅｄＲＬ）は、多くの状況でサンプル効率を改善する能力を立証した。ＲＬアルゴリズムも生物学的関連性を確立し、人間らしい知能をもつモデル構築に対する楽観論を育てた。多様な課題を解決することのできる力量があるにもかかわらず、サンプル効率性の向上、適応性、一般化のようないくつかの核心課題が残っている。例えば、ＲＬアルゴリズムは、環境の構造を迅速に学習する能力が足りない。さらに、その行動政策は極めて偏向的であるため、変化する環境に適応したり、その作業知識を一般状況に伝達したりすることが困難であった。

過去の研究では、価値に基づく意思決定が報酬予測エラー（ＲｅｗａｒｄＰｒｅｄｉｃｔｉｏｎＥｒｒｏｒ：ＲＰＥ）によって誘導され、中脳ドーパミンニューロンがこのような情報を暗号化するということを示した。後者の研究は、人間の脳がａｃｔｏｒ−ｃｒｉｔｉｃ方式を実行するように見えるということを発見した。このような研究は、脳が経験から学ぶという方式が、モデルなしＲＬ（ｍｏｄｅｌ−ｆｒｅｅＲＬ）と類似するという考えを裏付ける。言い換えれば、単一のモデルなしＲＬは、行動と神経データの比較的小さな変動性を説明することができる。このような慣習的な見解は、脳が１つ以上のＲＬを実現するという考えによって挑戦を受けた。実際に人間の脳は、モデルなしＲＬとモデルベースＲＬを結合するだけでなく、文脈変化によって異なる戦略よりも１つの戦略を適応的に選択することができる。このような適応過程は、外側前頭前皮質の一部によって誘導されることが確認されたし、モデルなしＲＬおよびモデルベースＲＬ戦略に基づいて各予測の信頼性を総合する。また、脳は、モデルなしＲＬのように計算的に高価でない戦略を追求する傾向にあるが、特に、極めて安定的であるか揮発性の高い環境ではよりそうなる。この反面、前頭前皮質は、性能信頼性を下げてモデルベース学習のサンプル効率を画期的に向上させることに関与する。これは、脳が、性能、サンプル効率性、および計算費用間の折衷を処理する先天的な能力をもつことを意味する。批判的に、これは、頭脳が環境の新たな挑戦に最適に対応する方法として学習戦略を探求するという理論的暗示に繋がる。

適応ＲＬに対する頭脳とアルゴリズムソリューションにはいくつかの共通点があるが、実質的な差は、依然として、これらの問題への接近方式である。さらに、ＲＬの難題を効果的に取り扱う脳の能力は、ＲＬアルゴリズムによっては完全に開発されなかった。これに基づき、次のような興味深い質問を提議してみる。ＲＬモデルが人間の行動データから人間ＲＬに関する情報を直接収集することができるか？そうであれば、この模写モデルは人間と類似の政策を備えているか？多くの作品が模写によって政策学習の効果を成功的に立証したが、このような政策が人間の潜在政策と類似するか、あるいは政策が他の課題に一般化されるかについては殆ど知られていない。また、他の潜在的なイシューとして過剰適合が挙げられる。特に、人間行動の回復性を調査する近年の研究では、モデルが、本来は適合していた人間行動データに基づいて研究結果を複製することができないケースが度々あるということを示した。これは、コンピュータモデルの学習された行動政策が、人間ＲＬの先天的エネルギーを完全には反映することができないということを示唆するものである。

現在の強化学習（ＲＬ）アルゴリズムは、一部の問題に対しては人間知能を超えるだけの解決能力を発揮するが、以下のような側面では人間の強化学習の方が優れている。

人間の強化学習は、データ数が足りなくても、学習される最小指導（ｍｉｎｉｍａｌｓｕｐｅｒｖｉｓｉｏｎ）学習が可能であることが多く、生物の認知能力（ｃｏｇｎｉｔｉｖｅｒｅｓｏｕｒｃｅ）の限界に対応してエネルギーの低消耗と高性能を示す高効率学習が起こる。このような学習能力により、人間の強化学習は、究極的には、多様な作業（ｍｕｌｔｉ−ｔａｓｋ）への一般化（ｇｅｎｅｒａｌｉｚａｔｉｏｎ）を可能にする。

以下の多様な実施形態は、自律的、高効率、一般化能力をもつ人間模写型強化学習アルゴリズムの設計に必須となる多角的定量化プロセスを提案する。

−プロセス１．政策信頼度定量化プロセス：
文脈依存的な人間の強化学習行動データには極めて複雑な時間空間的相関関係があり、逆強化学習過程において過剰適合が起こりやすい。これを防ぐために、強化学習アルゴリズムの政策信頼度を次のように定量化する。作業媒介変数と人間の行動プロファイルのマッピング関数を近似化し、作業媒介変数と強化学習アルゴリズムの行動プロファイルのマッピング関数を近似化した後、２つのマッピング関数を比較する定量化プロセス（図１４（ｂ））を実行する。

−プロセス２．一般化能力検証プロセス：
人間の強化学習過程模写型アルゴリズムの究極的な目的である一般化能力の精密な検証のために、実際の問題の複雑度と文脈変化を媒介変数化させた連続的作業空間でサンプリングされた一連の作業に対する性能（作業一般化可能性）を検証するプロセス（図１４（ｃ））を提供する。

−プロセス３．問題解決情報処理効率定量化プロセス：
文脈変化によって問題解決政策を変化させる人間強化学習模写型アルゴリズムの適応能力（上述した政策信頼度定量化プロセス（プロセス１）によって定量化）と、多様な問題解決のための一般化能力（上述した一般化能力検証プロセス（プロセス２））との「有機的連結性」を確認するために、マルコフ連鎖（Ｍａｒｋｏｖｃｈａｉｎ）の観点で定量化（エピソードエンコード効率）プロセスを提供する。問題解決過程で生じる過去のエピソードが強化学習政策に反映される情報圧縮効率と強化学習政策から導き出される行動の最適性の割合を、エピソード−政策−行動のように繋がるマルコフ連鎖上の相互情報量（ｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎ）を利用して計算する。この割合は、最適な問題解決／作業実行のためにエピソード情報を強化学習政策決定に反映する情報伝達体系を示す指標となる。

上述した３つのプロセスはすべて、過去には存在しない新たな技術である。本発明は、「一般化可能な人間の強化学習能力」を過剰適合なくアルゴリズム化できることを実際に示した最初の事例である。

このような一連のプロセスにより、過剰適合のない高信頼度の一般化可能な人間の強化学習模写型アルゴリズムの設計が可能であることと、これは従来の単純な逆強化学習過程だけでは実現することができないことを示した。

プロセス１の指標である政策信頼度（ｒｅｌｉａｂｉｌｉｔｙ）の側面では、最新の強化学習アルゴリズムに比べて５倍以上も向上させることができる。プロセス２の指標である一般化能力（ｇｅｎｅｒａｌｉｚａｂｉｌｉｔｙ）は、１２．８％も向上させることができる。プロセス３の指標であるエピソードエンコード効率に対する最適行動効果は、約１００％も向上させることができる。これについては、提案技術を利用した実証研究結果を参照しながら、以下でより詳しく説明する。

強化学習アルゴリズムは、生物のドーパミンシステムと同じように、価値に基づく（ｖａｌｕｅ−ｂａｓｅｄ）学習によって学習問題を解決する。近年の研究として深層学習ベースの強化学習アルゴリズム（例えば、アルファ碁、アルファゼロなど）の登場は、囲碁のような複雑な問題に対しても人間の知能を越える性能を見せつけた。しかし、このような高性能強化学習アルゴリズムは、人間知能の特性をすべて逃しているため、その性能には明らかに限界があった。

一般的な人工知能強化学習アルゴリズムは、学習において多くのデータを必要とし、効率よりは性能を高めることを目標とし、特定の問題状況を解決することに特化しているため、多様な問題への一般化は不可能であった。しかし、人間の強化学習過程は、これとは反対であり、少量のデータ数に比べて学習可能な優れた最小指導学習（ｍｉｎｉｍａｌｓｕｐｅｒｖｉｓｉｏｎｌｅａｒｎｉｎｇ）の特性があり、生物学的認知能力の限界によってエネルギー消費を減らしながら学習する高効率の特性があり、特に、特定の問題状況だけに限定されず多様な状況に対する一般的知能があるという特性がある。

このような人間の強化学習過程の長所だけを人工知能強化学習アルゴリズムに移植するためには、次のような接近方法が必要となる。（１）人間強化学習模写型強化学習アルゴリズムを最適化する。（２）強化学習アルゴリズムの人間知能的特徴を確認（行動水準）する：該当の強化学習アルゴリズムによってシミュレーションされた行動が人間知能の行動と類似する形態であるかを、多様な行動プロファイルによって直接比較することができる。（３）強化学習アルゴリズムの人間知能特徴を確認（媒介変数水準）する：各強化学習アルゴリズムによって抽出されたシミュレーション行動は、各強化学習アルゴリズムに再学習され、媒介変数水準における変化の有無によって人間知能の特徴を維持するかを検証することができる。（４）情報理論レベルで人間知能の特性を検証する：行動と環境の相互情報量（ｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎ）の比較により、自然知能の特性を分析する。特に、相互情報量は、その分布により、特定の強化学習アルゴリズムが各自然知能の特性に対してどれほど高い信頼度のあるアルゴリズムであるかを分析することができる。

このように提案された本発明は、人工知能強化学習アルゴリズムには足りなかった人間知能の長所を涵養するように強化学習アルゴリズムを開発して検証する技術を取り扱う。このような開発および他の強化学習アルゴリズムとの比較による検証方法は、過去には類似の研究事例がない、独自的な技術である。

本発明は、人間の強化学習過程にある一般化能力を強化学習アルゴリズムに移植するのに必須となる定量化プロセスを含む。（１）逆強化学習によって導き出されたモデルが作業の文脈変化の政策にどれほど反映されているかに対する定量化、（２）媒介変数化された作業空間からサンプリングされた作業に対する一般化能力の定量化、最後に、（３）情報理論の観点において環境から行動に連結される情報の転換および移動過程が、核心的な人間知能の行動原理を適切に反映しているかを定量化することにより、高信頼度の一般化可能な強化学習アルゴリズムの設計が可能となる。

図１２は、多様な実施形態における、一般化可能な人間模写型強化学習モデルの設計のための定量化方法を示したフローチャートである。

図１２を参照すると、多様な実施形態に係るコンピュータによって実行される一般化可能な人間模写型強化学習モデルの設計のための定量化方法は、人間の強化学習過程にある一般化能力を強化学習モデルに移植するために、逆強化学習によって導き出された強化学習モデルが作業の文脈変化を政策にどれほど反映しているかを定量化する政策信頼度定量化段階１２１０を含んでよい。

また、一般化能力の精密な検証のために、作業の実際問題の複雑度と文脈変化を媒介変数化した作業空間でサンプリングされた作業に対する一般化可能性を検証する一般化能力検証段階１２２０をさらに含んでよい。

さらに、環境から行動に連結される情報の転換または移動過程が、核心的な人間知能の行動原理を適切に反映しているかを定量化する問題解決情報処理効率定量化段階１２３０をさらに含んでよい。

以下では、多様な実施形態に係るコンピュータによって実行される一般化可能な人間模写型強化学習モデルの設計のための定量化方法の各段階について、より詳しく説明する。

多様な実施形態に係る一般化可能な人間模写型強化学習モデルの設計のための定量化方法については、一般化可能な人間模写型強化学習モデルの設計のための定量化装置を例示しながら説明する。

図１３は、多様な実施形態における、一般化可能な人間模写型強化学習モデルの設計のための定量化装置を概略的に示したブロック図である。

図１３を参照すれば、多様な実施形態に係る一般化可能な人間模写型強化学習モデルの設計のための定量化装置１３００は、政策信頼度定量化部１３１０を含んでよく、実施形態によっては、一般化能力検証部１３２０と、問題解決情報処理効率定量化部１３３０をさらに含んでもよい。

政策信頼度定量化段階１２１０で、政策信頼度定量化部１３１０は、人間の強化学習過程にある一般化能力を強化学習モデルに移植するために、逆強化学習によって導き出された強化学習モデルが作業の文脈変化を政策にどれほど反映しているかを定量化してよい。

作業、すなわち、人間が学習を経験するすべての状況において、人間の強化学習は、多様な文脈（例えば、環境の不確実性、複雑度、報酬条件など）の変化によって特定の行動様式を示すといった政策の変化によって対応する。例えば、環境の不確実性が高くなる文脈変化が生じる場合、人間が目標志向的行動を示すことの効用性がないため、これを止揚する政策を選択する。逆強化学習によって人間を模写した強化学習モデルも同じ政策を示すか、これを検証することが必要となる。文脈変化による行動様式変化（すなわち、政策の変化）を定量化するために多様な方法が提示されてよいが、代表的には、回帰分析によって特定の文脈変化が政策変化に寄与する影響を回帰係数によって定量化してよい。

より具体的に、政策信頼度定量化段階１２１０は、作業の作業媒介変数と人間の行動プロファイルのマッピング関数を近似化する段階、作業媒介変数と強化学習アルゴリズムの行動プロファイルのマッピング関数を近似化する段階、および近似化された２つのマッピング関数を比較する段階を含んでよい。

ここで、強化学習モデルは、人間が学習した政策情報を信頼性あるようにエンコードするモデルベース制御とモデルなし（ｍｏｄｅｌ−ｆｒｅｅ）制御を結合した計算モデルであってよい。また、強化学習モデルは、目標マッチング（ｇｏａｌｍａｔｃｈｉｎｇ：ＧＭ）、行動模倣（ｂｅｈａｖｉｏｒｃｌｏｎｉｎｇ：ＢＣ）、および政策マッチング（ｐｏｌｉｃｙｍａｔｃｈｉｎｇ：ＰＭ）の学習方法によって構築されてよい。これについては、以下でより詳しく説明する。

一般化能力検証段階１２２０で、一般化能力検証部１３２０は、一般化能力の精密な検証のために、作業の実際問題の複雑度と文脈変化を媒介変数化した作業空間でサンプリングされた作業に対する一般化可能性を検証してよい。

一般化能力とは、人間がもつ学習特性であって、ある作業で示した文脈変化による政策変化特性を、他の作業においても同じように示すことを言う。特定の作業を学習して報酬を最大化するために見せた人間の強化学習の特性、すなわち、文脈変化による政策変化を成功的に反映したモデル（すなわち、段階１２１０で検証された）は、問題の複雑度などのように他の文脈が変化する作業においても、人間が見せた特性によって一般化可能な性能を示すことを確認することができる。これを幅広く検証するために、問題の複雑度および文脈変化を媒介変数化、およびこれを調節して多様な作業を生成してこれに表示させ、その性能によって一般化能力を検証することができる。

問題解決情報処理効率定量化段階１２３０で、問題解決情報処理効率定量化部１３３０は、環境から行動に連結される情報の転換または移動過程が核心的である人間知能の行動原理を適切に反映しているかを定量化してよい。

人間知能の行動原理は、資源の効率的分配にある。文脈の変化によって多くの認知的努力が必要とはなるが、確実な高性能を示す目標志向的行動を見せるときもあり、効率性を強調した習慣的行動を見せるときもある。一般的に、人間は、２つの政策の適切な分配により、高性能かつ高効率な行動様式を備える。このような適切な政策の変化が起こるかを定量化するために、２つの相互情報量（ｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎ）が活用されてよい。１つ目は、過去の経験と現在の選択との間の相互情報量であって、この値が低ければ情報の圧縮による効率的選択として理解される（効率性指標）。２つ目は、現在の選択と現在の選択肢のうちの最高の報酬値をもつ選択（最適選択）との間の相互情報量であって、この値が高ければ高性能であると見なされる（性能指標）。２つの相互情報量の割合（性能指標／効率性指標）により、人間知能の行動原理を復元するか、その情報処理の効率を定量化してよい。

問題解決情報処理効率定量化部１３３０は、文脈変化によって問題解決政策を変化させる人間模写型強化学習モデルの政策信頼度定量化部１３１０による適応能力と、一般化能力検証部１３２０による問題解決のために検証された一般化能力との連結性確認のために、マルコフ連鎖（Ｍａｒｋｏｖｃｈａｉｎ）を利用して定量化してよい。

また、問題解決情報処理効率定量化部１３３０は、問題解決過程で発生する過去のエピソードが強化学習政策に反映される情報圧縮効率と強化学習政策から導き出される行動の最適性の割合を、エピソード−政策−行動のように繋がるマルコフ連鎖上の相互情報量（ｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎ）を利用して計算してよい。

ここで、行動の最適性の割合は、最適な問題解決のためにエピソード情報を強化学習政策決定に反映する情報伝達体系を示す指標となってよい。

以下では、多様な実施形態に係る一般化可能な人間模写型強化学習モデルの設計のための定量化方法および装置について、より詳しく説明する。

深層強化学習（ｄｅｅｐＲＬ）モデルは、最小限の指導（ｓｕｐｅｒｖｉｓｉｏｎ）によって多様な作業を解決する高い潜在力を見せつけたが、制限的な経験から迅速に学習をし、環境変化に適応し、単一作業で学習を一般化するという側面においてはいくつかの核心課題が残っている。意思決定神経科学の近年の証拠では、人間の脳にはこのような問題を解決できる先天的な能力があるということが示されており、これは、サンプル効率的かつ適応的であり、一般化可能なＲＬアルゴリズムに対する神経科学からインスピレーションを受けた解決策開発の楽観論に繋がった。

ここでは、前頭前（ｐｒｅｆｒｏｎｔａｌ）ＲＬと呼ばれるモデルベース制御とモデルなし（ｍｏｄｅｌ−ｆｒｅｅ）制御を適応的に結合した計算モデルが、人間が学習した高水準の政策情報を信頼性あるようにエンコードすることを示す。このモデルは、学習された政策を広範囲な作業に一般化することができる。

先ず、被験者が２段階のマルコフ意思決定課題を実行する間に収集された８２名の被験者データに対して前頭前ＲＬ、深層ＲＬ、メタＲＬアルゴリズムを訓練させ、この過程において目標、状態変換の不確実性、状態空間の複雑性を実験的に操作した。潜在的行動プロファイルと媒介変数回復性試験を組み合わせた信頼度試験において、前頭前ＲＬは人間被験者の潜在された政策を信頼性あるように学習した反面、他のすべてのモデルはこの試験を通過できなかったという結果を示した。２つ目に、このようなモデルが本来の作業で学んだことを一般化する能力を実証的に試験するために、これらを環境変動性文脈に配置した。具体的には、１０種類の異なるマルコフ意思決定作業によって大規模シミュレーションを実行したが、この作業において潜在的文脈変数は時間の経過によって変化する。多様な実施形態に係る情報理論的分析では、前頭前ＲＬが最も高い水準の適応性と成功的エンコード効果を示すことが分かった。これは、頭脳が一般的な問題を解決する方法を模倣したコンピュータモデルが、機械学習の主要難題に対する実質的な解決策に繋がる可能性を公式的に試験するための最初の試みである。

本発明は、次のような根本的な質問を検討する。アルゴリズムが人間から一般化可能な政策を学ぶことはできるのか？このために、このような問題を信頼度試験と経験的一般化試験の前提條件として２つの公式試験とする。本発明の作業は次のように要約される。

人間の潜在政策学習：
ここでは８２名の被験者データを多様なＲＬモデルに装着したが、各モデルは、深層ＲＬ、メタＲＬ、前頭前ＲＬなどのような多様な方式によってモデルなし制御およびモデルベース制御を実現する。ここで、目標、状態変換の不確実性、状態空間の複雑性が実験的に操作される２段階のマルコフ意思決定課題を実行する人間参加者から収集したデータを使用した。

信頼度試験：
厳格な潜在的行動プロファイル回復性試験を使用し、モデルベース制御とモデルなし制御（前頭前ＲＬとする）とを適応的に結合した計算モデルの潜在政策は人間被験者と質的に類似するが、他のすべてのモデルは効果を再現することができない。

経験的一般化能力試験：
本来の作業で学習した内容を一般化するモデルの能力を試験するために、時間によって潜在的状況変数が変化する１０種類のマルコフ意思決定作業によって大規模シミュレーションを行った。ここで、前頭前ＲＬが最も高い水準の適応性と成功的エンコード効能を示すことを発見した。

この作業は、コンピューティングモデルが人間の潜在された政策を信頼性あるように学習する可能性を公式的に試験するための最初の試みである。さらに、このような処理方式は、機械学習の主要難題に対する実質的な解決策を提供し、より人間らしい知能を設計することを可能にする。

人間の潜在政策学習
図１４は、多様な実施形態における、人間の潜在政策学習、信頼度試験、および経験的一般化試験を説明するための図である。

図１４（ａ）を参照すると、人間と類似の方式で作業を学んで実行するＲＬモデルを構築するために、目標マッチング（ｇｏａｌｍａｔｃｈｉｎｇ：ＧＭ）、行動模倣（ｂｅｈａｖｉｏｒｃｌｏｎｉｎｇ：ＢＣ）、政策マッチング（ｐｏｌｉｃｙｍａｔｃｈｉｎｇ：ＰＭ）などのような３種類の訓練方法が考えられる。ここで、人間の潜在政策学習とも呼ばれるこの過程は、人間の行動データから行動政策を直接学習するためのものである。

ＲＬモデルは、作業環境と相互作用して以後に予想される報酬の量を最大化するため、訓練には人間の行動データを使用しない。しかし、モデルの訓練に使用される作業（目標）は、人間被験者が実行する課題と正確に同じである。したがって、この方法を目標マッチング（ＧＭ）と呼ぶ。

政策マッチング（ＰＭ）は、目標マッチング（ＧＭ）と行動模倣（ＢＣ）が結合されたものであり、目標マッチングと行動模倣の両方を達成することができる。具体的に、ＲＬモデルは、人間が報酬極大化を実行する方式を模倣する方式によって訓練される。各訓練エポック（ｅｐｏｃｈ）には、ＲＬモデルが報酬（目標マッチング）を極大化するための作業のエピソードを完成し、以後にモデルの行動と人間対象行動の差を損失関数（行動模倣）として換算する。この方法は、過去には、神経データを説明するための計算モデルを訓練するために使用された。標準逆ＲＬ方法は、迅速な文脈変化のある作業に直接適用することができないため、ここでは標準逆ＲＬ方法は考慮しない点に注目しなければならない。実際には、時間の経過によって報酬価値と環境統計はすべて変化し、サンプルが極めて小さい報酬関数を逆ＲＬ方法によって推定することはほぼ不可能である（課題あたり約４００回の実験）。

図１５は、多様な実施形態における、実験に使用されたＲＬモデルの構造を説明するための図である。

図１５を参照すると、実験のために、深層ＲＬ、メタＲＬ、前頭前ＲＬという３種類のＲＬモデルを使用した。１つ目は、ＤＤＱＮとも知られたＤｏｕｂｌｅＤＱＮ（深層ＲＬ）によって実現され、モデルなしＲＬに近い代表的な深層ＲＬモデルの１つである。このモデル（それぞれ、ＧＭ−ＤＤＱＮ、ＰＭ−ＤＤＱＮ）を訓練するために、目標マッチングと政策マッチング方法の両方を使用した。

２つ目は、メタＲＬ（ｍｅｔａＲＬ）によって実現された。このモデルは、モデルなしＲＬおよびモデルベースＲＬの両方を受容する。特に、メタＲＬは、環境文脈変化に適応的に反応するものとして知られている。このモデル（それぞれ、ＧＭ−ｍｅｔａＲＬ、ＰＭ−ｍｅｔａＲＬ）を教育するために、目標マッチングと政策マッチング方法の両方を使用した。

３つ目のＲＬモデルは、外側前頭前皮質および腹側線条体（前頭前ＲＬ）の神経活動を説明するために演算モデルによって実現された。このモデルには、基準モデルと適応型モデルの２つのバージョンがある。このモデルは、モデルなしＲＬとモデルベースＲＬの間で動的に仲裁することによって作業を学習する。具体的には、モデルなしＲＬおよびモデルベースＲＬの戦略に割り当てられた制御の程度を試験ごとに調整し、この下向き調整信号は各ＲＬ戦略の予測信頼度に基づいて計算する。政策マッチング方法により、このような２つのモデル（ＰＭ−ｐｆｃＲＬ１とＰＭ−ｐｆｃＲＬ２）を学習した。過去の研究では、このようなモデルをデータに適合させるにあたってこのような方法が効果的でないということを明らかにしたため、この場合には目標マッチングは使用しなかった。

脳からインスピレーションを受けたＲＬモデルの信頼度
図１４（ｂ）に示すように、ＲＬモデルが人間行動と潜在政策をどれほど信頼性あるように模倣するかを評価するために信頼度試験を実施した。この試験は、人間が課題を実行しながら学習した高度の政策情報をエンコードする能力を検証する。この過程は、潜在行動プロファイリングと回復性試験によって構成される。

人間が作業路から学ぶ潜在政策を評価する一般的な方法の１つとして、潜在的作業媒介変数（例：目標および状態変換の不確実性）が行動に及ぼす影響を定量化することが挙げられる。この尺度は、学習エージェントが環境構造の変化に対応してどのように行動を変化させるかを反映する。それぞれ与えられた作業媒介変数θと行動データｘに対する潜在行動プロファイルｈは、次の式のように定義される。

・・・（１）

ここで、ｈは、多項式機能や神経網のような媒介変数化された機能であってよい。エージェントの作業実行が文脈変更とは関係ないか、エージェントが任意に選択する場合、効果の大きさ（すなわち、ｈの媒介変数値）は０となる。ここでは、一般線形モデルをｈとして簡単に使用する。

潜在動作プロファイル回復性試験の目的は、人間の潜在政策とＲＬモデルの潜在政策の一貫性を評価することにある。モデルの媒介変数を人間被験者のデータｘ_{Ｈｕｍａｎ}に合わせた後、本来の作業で本来のフィッティングモデルによってシミュレーションを行い、シミュレーションしたデータｘ_{Ｍｏｄｅｌ}を生成する。この後、ｘ_{Ｈｕｍａｎ}とｘ_{Ｍｏｄｅｌ}に対してそれぞれ潜在行動プロファイリングを実施する。このような２つの潜在的プロファイル間の有意味な量の相関関係は、ＲＬモデルが学習した潜在政策が人間の潜在政策と類似するということを示す。

信頼度試験のために、潜在行動プロファイルの回復性を調査するために６種類のＲＬモデル（図１５）と任意エージェントを制御条件として一連の実験を実施した。最初の段階では、８２名の被験者データ（図１４（ｂ）のｘ_{Ｈｕｍａｎ}）に対する前頭前ＲＬ、メタＲＬ、深層ＲＬを教育した。被験者が２段階のマルコフ意思決定作業を実行する間にデータ集合が収集された。２つ目の段階では、すべてのＲＬモデルが同じである２段階のマルコフ意思決定作業を実行する他のシミュレーション集合を実行し、また他の行動データ集合（図１４（ｂ）のｘ_{Ｍｏｄｅｌ}）を収集した。この後、潜在的行動プロファイルｈ^{Ｈｕｍａｎ}、ｈ_{Ｍｏｄｅｌ}を次の式のように計算した。

・・・（２）

ここで、θ_Ｔａｓｋは、作業媒介変数を示す。これは、１０００個以上のモデルフィッティング工程を含んだ大規模実験である。

７（モデル）×８２（対象）×２（訓練および再教育）

多様な実施形態に係る信頼度試験結果において、ＲＬモデルと被験者対象の動作マッチングを定量化するモデルフィッティング面では、ＰＭ−ｍｅｔａＲＬが最も高い性能を示し、前頭前ＲＬと深層ＲＬがその後を継いだ。予想どおり、目標マッチングによって訓練されたＲＬモデルは、相対的にフィッティング性能が低下した。

しかし、潜在行動プロファイルの体系的な回復分析において、前頭前ＲＬモデル（ＰＭ−ｐｆｃＲＬ２）の潜在行動プロファイルは人間被験者と質的に類似する反面、他のすべてのＲＬモデルは効果を複製することができなかった。ＰＭ方法によって訓練されたメタＲＬの場合は偽の相関関係を示したが、このモデルが作業を実行する方式が人間のそれと根本的に異なることを示す、負の相関関係がある。相関関係の勾配と有意性の両方を考慮した適合度統計量を計算するときには、この効果はより劇的に現れる。前頭前ＲＬモデル（ＰＭ−ｐｆｃＲＬ２）の効果は、他のすべてのＲＬモデルの効果よりも３倍以上高い。このような結果は、単に人間の行動を模倣することは、エージェントが実際に人間の潜在政策を学習することを意味しないということを示唆する。

脳からインスピレーションを受けたＲＬモデルの経験的一般化能力
図１６は、多様な実施形態における、各ＲＬモデルの一般化試験のためのシミュレーション環境を説明するための図である。

図１６を参照すると、モデルが本来の作業で他の作業として学んだことを一般化する能力を経験的に試験するために（図１４（ｃ））、環境変動性の文脈でモデルを配置した。上述したものと同じＲＬモデル集合を使用し、それぞれ異なる方式で潜在的状況変数を操作する１０種類の互いに異なるマルコフ意思決定課題によって大規模シミュレーションを行った。作業は、作業構造（梯子（Ｌａｄｄｅｒ）およびツリー（Ｔｒｅｅ））と、作業不確実性（固定（Ｆｉｘｅｄ）、ドリフト（Ｄｒｉｆｔ）、スイッチ（Ｓｗｉｔｃｈ）、ドリフト＋スイッチ（Ｄｒｉｆｔ＋Ｓｗｉｔｃｈ））の２つの作業媒介変数を体系的に操作して生成された。図１６（ｂ）に示すように、作業構造は、梯子とツリータイプを使用した。図１６（ｃ）に示すように、作業不確実性変動に対して４つの異なる類型の状態転換関数を検討したが、それぞれの状態転換確率値は試験ごとに異なる方式によって変更された。

最初の類型（「固定」）は、固定状態変換確率を使用する。２つ目の類型（「ドリフト」）は、ランダム歩行による状態変換確率を使用し、状態変換確率値は相対的に遅く変更される。３つ目の類型（「スイッチ」）は、それぞれ低い不確実性と高い不確実性をもつ条件であるという、２つの異なる状態変換条件が交互に現れる。この作業において、学習エージェントは、作業構造の急激な変化を経験し、迅速に適応する必要がある。４つ目の類型（「ドリフト＋スイッチ」）は、２つ目と３つ目の類型の混合物である。図１６（ｄ）に示すように、各作業の全体構成を示すことができる。Ｔａｓｋ１とＴａｓｋ１０は、脳のＲＬ過程を調査する過去の研究で使用された作業に該当する。

図１７は、多様な実施形態における、ＲＬモデルの適応能力に対するシミュレーション結果を示した図である。

経験的一般化能力を試験するために、本来のデータ集合に対して訓練された６つのＲＬモデル（上述したＲＬモデル）が１０個のマルコフ意思決定課題を実行するシミュレーションを行った。ここには、合計４，９２０個のシミュレーション（＝８２個の課題（ｓｕｂｊｅｃｔ）×６ＲＬモデル×１０個の作業（ｔａｓｋ））が含まれた。全作業にわたる平均性能は経験的一般化能力を示し、各作業に対する性能は互いに異なる状況における該当のモデルの適応能力を示す。図１７を参照すると、前頭前ＲＬモデルが最も高い水準の一般化能力を示すことを発見した。

特に、表１を参照すると、ＰＭ−ｐｆｃＲＬ２は、１０個の作業のうちの９個の作業を成功的に解決し、９個の作業のうちの８個の作業で正規化報酬として最も高い点数を受けた。ＧＭ−ｍｅｔａＲＬとＰＭ−ｐｆｃＲＬ１は、２番目に優れた性能を示した。ＰＭ−ｐｆｃＲＬ１の性能はＧＭ−ｍｅｔａＲＬと同じであったが、ＰＭ−ｐｆｃＲＬ１は６個の作業のうちの５個の作業で極めて優れた成績をおさめた。このような結果を総合するとき、前頭前ＲＬモデル（ＰＭ−ｐｆｃＲＬ１およびＰＭ−ｐｆｃＲＬ２）は、本来の作業で学んだことを一般化することが可能な最高の能力をもつことを示唆する。

ＲＬモデルの一般化能力を定量化するために、潜在的情報−理論的尺度を提供してよい。一般化能力の性質をさらに理解するために情報理論的分析を実施した。この分析は、（１）事件の過去のエピソードの観測においてＲＬモデルの作用によって伝達される情報の量と、（２）その作用の最適性の程度を定量化するために設計された。一般性が高いほどＲＬモデルがエピソード情報をより効果的にエンコードして最適の作用を発生させるという仮説を立てた。このように、モデルの一般化能力を、（１）エピソード事件およびエージェントの行動（「エピソードエンコード効果」）から得た相互情報だけでなく、（２）エージェントの行動と最適の行動（「選択的最適性」）によって定量化することができることに期待する。最適の行動は、作業の媒介変数変更に対して十分に理解していると仮定した上で、理想的なエージェントが取った行動として定義された。エピソードエンコード効果は

として定義され、Ｆ_ｔ−１とａ_ｔは、試みｔ−１におけるエピソード変数および試みｔにおける行動である。選択最適性は

として定義され、ａ_ｔとａ_ｔ＊はそれぞれ、ＲＬエージェントと理想的なエージェントの選択（行動）である。ここで、一般化可能なＲＬエージェントの１つ基本的な要求事項は、過去のエピソードでそれの行動と作業実行に情報を送信する能力であると仮定した。したがって、「ｅｐｉｓｏｄｉｃｅｎｃｏｄｉｎｇｅｆｆｉｃａｃｙ」と呼ばれるエピソードエンコード効果と選択的最適性の相関関係は、ＲＬモデルの一般化能力を示す１つの潜在的情報−理論的指標となってよい。

多様な実施形態に係るエピソードエンコード効果検証のために、この後、この尺度を使用して割合

およびエピソードエンコード効果の代用として適合度統計量を計算した。ここで、前頭前ＲＬ（ＰＭ−ｐｆｃＲＬ１とＰＭ−ｐｆｃＲＬ２の両方）が最も高い水準のエピソードエンコード効果を示すことを発見した。特に、最も一般化可能なモデルであるＰＭ−ｐｆｃＲＬ２は、１０個の作業のうちの８個の作業でエピソードエンコード効果と選択的最適性との間に有意味な相関関係を示した。また、経験的一般化能力（図１７）は、その大部分が成功的エンコード効果のＲ２と一致するという点に注目する。このような結果は３つの重要な意味をもつ。１つ目に、エピソードエンコード効果は、一般化能力の性質をさらに理解するための助けとなる。２つ目に、エピソードエンコード効果は、エージェントの一般化能力を計量化する優れた候補となる。この尺度は、極めて一般化が可能なＲＬアルゴリズムの設計に直接使用されてよい。

多様な実施形態によると、人間の強化学習過程にある一般化能力を強化学習アルゴリズムで過剰適合なくアルゴリズム化することのできる、一般化可能な人間模写型強化学習アルゴリズムの設計のための政策信頼度、情報処理効率、および一般化能力の定量化方法および装置を提供することができる。

多様な実施形態は、人間知能のすべての行動は高次元的な認知機能に基づいて起こるため、この行動を予測して活用する価値があるすべての分野で応用することができる。一例として、人間の文脈依存的な強化学習過程を模写するモデルを利用することで、人間行動の補助において効率的に対応するシステムを構築し、人間が優れた成果をおさめるように補助することができる。

モノのインターネット（Ｉｎｔｅｒｎｅｔ−ｏｆ−Ｔｈｉｎｇｓ：ＩｏＴ）分野では、多様な機器をコントロールしなければならないため、各機器のコントロールに活用される認知機能も多様となる。このとき、多様な実施形態に係るシステムの汎用性は、各機器を制御するときに求められる認知状態の差にかかわらずに人間を補助できるだけでなく、既に構築されたＩｏＴ生態系に新たな機器が含まれたときでも、過剰適合なく行動を予測するＡＩを開発することができる。

また、多様な問題に対する一般化能力は、人間の作業実行知能とも直結するため、多様な実施形態に係る技術により、複雑な意思決定が重要となる裁判官、医者、金融専門家、軍事作戦指揮官などに対する作業実行能力プロファイリングが可能となる。また、スマート教育のためのカスタマイズシステムに基づく技術でも活用が可能となる。

多様な実施形態に係る技術を利用して導き出される人間の強化学習模写型アルゴリズムは、人間の意思決定の核心過程を理解するツールとして活用されてもよい。過去のＡＩには、このような人間の意思決定過程に対する理解が存在しなかったが、人間の行動特性をそのまま予測するＡＩの開発により、ロボティックス分野では人間の行動をより適切に予測して補助するＡＩを開発することが可能となり、ゲーム分野では人間と自然な相互作用が可能であるより知能的なＡＩエンジンを開発することが可能となる。

一方、現行の広告提案技術は、人間の過去の検索記録に基づいて新たな広告を推薦している。しかし、このような広告提案技術は、個人の行動特性に対する理解に欠けており、ユーザの関心範囲からまったく掛け離れた広告を提案するケースが多かった。多様な実施形態に係る技術を活用すれば、人間とＡＩの共振化により、ユーザの行動範囲内に存在する広告を推薦することが可能となる。

以上のように、人間知能の特性を涵養する人間模倣型人工知能の設計は、単に人間の行動と類似するように予測するだけでなく、その特性が学習と性能の効率にあるため、より少ない努力でより優れた結果が得られるという点において、人工知能産業の全般にわたって適用可能な有益な技術である。特に、強化学習は、問題解決および意思決定に大きく役立つため、人間を含んだ知能的判断を必要とするすべての人工知能開発に重要となる。

人工知能の開発は、特定の問題状況を解決のために相当な計算と時間資源の投資が必要であるにもかかわらず、その人工知能が、多様な問題解決ではなく特定の問題解決だけにしか適用できないという大きな短所があった。これとは反対に、本システムは、一般化可能なアルゴリズムの開発を可能とし、多様な問題解決への適用が可能である。

開発中あるいは開発済みのすべての人工知能の自然知能的特性検証に適用可能である。人間知能を模写することで人間の認知過程を予測しようとするモデルは、過剰適合のエラーに陥りやすく、このような過剰適合のエラーは必ず排除しなければならない。

多様な実施形態に係るコンピュータによって実行される一般化可能な人間模写型強化学習モデルの設計のための定量化方法は、人間の強化学習過程にある一般化能力を強化学習モデルに移植するために、逆強化学習によって導き出された強化学習モデルが作業の文脈変化を政策にどれほど反映しているかを定量化する政策信頼度定量化段階を含んでよい。

多様な実施形態によると、政策信頼度定量化段階は、作業の作業媒介変数と人間の行動プロファイルのマッピング関数を近似化する段階、作業媒介変数と強化学習アルゴリズムの行動プロファイルのマッピング関数を近似化する段階、および近似化された２つのマッピング関数を比較する段階を含んでよい。

多様な実施形態によると、前記定量化方法は、一般化能力の精密な検証のために、作業の実際問題の複雑度と文脈変化を媒介変数化した作業空間でサンプリングされた作業に対する一般化可能性を検証する一般化能力検証段階をさらに含んでよい。

多様な実施形態によると、前記定量化方法は、環境から行動に連結される情報の転換または移動過程が核心的な人間知能の行動原理を適切に反映しているかを定量化する問題解決情報処理効率定量化段階をさらに含んでよい。

多様な実施形態によると、問題解決情報処理効率定量化段階は、文脈変化によって問題解決政策を変化させる人間模写型強化学習モデルの政策信頼度定量化による適応能力と問題解決のために検証された一般化能力の連結性確認のために、マルコフ連鎖（Ｍａｒｋｏｖｃｈａｉｎ）を利用して定量化を行ってよい。

多様な実施形態によると、問題解決情報処理効率定量化段階は、問題解決過程で発生する過去のエピソードが強化学習政策に反映される情報圧縮効率と強化学習政策から導き出される行動の最適性の割合を、エピソード−政策−行動のように繋がるマルコフ連鎖上の相互情報量（ｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎ）を利用して計算してよい。

多様な実施形態によると、行動の最適性の割合は、最適な問題解決のためにエピソード情報を強化学習政策決定に反映する情報伝達体系を示す指標となってよい。

多様な実施形態によると、強化学習モデルは、人間が学習した政策情報を信頼性あるようにエンコードするモデルベース制御とモデルなし（ｍｏｄｅｌ−ｆｒｅｅ）制御を結合した計算モデルであってよい。

多様な実施形態によると、強化学習モデルは、目標マッチング（ｇｏａｌｍａｔｃｈｉｎｇ：ＧＭ）、行動模倣（ｂｅｈａｖｉｏｒｃｌｏｎｉｎｇ：ＢＣ）、および政策マッチング（ｐｏｌｉｃｙｍａｔｃｈｉｎｇ：ＰＭ）の学習方法によって構築されてよい。

多様な実施形態に係る一般化可能な人間模写型強化学習モデルの設計のための定量化装置１３００は、人間の強化学習過程にある一般化能力を強化学習モデルに移植するために、逆強化学習によって導き出された強化学習モデルが作業の文脈変化を政策にどれほど反映しているかを定量化する政策信頼度定量化部１３１０を含んでよい。

多様な実施形態によると、政策信頼度定量化部１３１０は、作業の作業媒介変数と人間の行動プロファイルのマッピング関数を近似化し、作業媒介変数と強化学習アルゴリズムの行動プロファイルのマッピング関数を近似化した後、近似化された２つのマッピング関数を比較してよい。

多様な実施形態によると、前記定量化装置１３００は、一般化能力の精密な検証のために、作業の実際問題の複雑度と文脈変化を媒介変数化した作業空間でサンプリングされた作業に対する一般化可能性を検証する一般化能力検証部１３２０をさらに含んでよい。

多様な実施形態によると、前記定量化装置１３００は、環境から行動に連結される情報の転換または移動過程が核心的な人間知能の行動原理を適切に反映しているかを定量化する問題解決情報処理効率定量化部１３３０をさらに含んでよい。

多様な実施形態によると、問題解決情報処理効率定量化部１３３０は、文脈変化によって問題解決政策を変化させる人間模写型強化学習モデルの政策信頼度定量化部による適応能力と一般化能力検証部による問題解決のために検証された一般化能力との連結性確認のために、マルコフ連鎖（Ｍａｒｋｏｖｃｈａｉｎ）を利用して定量化を行ってよい。

多様な実施形態によると、問題解決情報処理効率定量化部１３３０は、問題解決過程で発生する過去のエピソードが強化学習政策に反映される情報圧縮効率と強化学習政策から導き出される行動の最適性の割合を、エピソード−政策−行動のように繋がるマルコフ連鎖上の相互情報量（ｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎ）を利用して計算してよい。

本明細書の多様な実施形態は、コンピュータ装置によって読み取り可能な記録媒体（ｓｔｏｒａｇｅｍｅｄｉｕｍ）に記録された１つ以上の命令を含むコンピュータプログラムによって実現されてよい。例えば、コンピュータ装置のプロセッサ（例：プロセッサ１４０）は、記録媒体から記録された１つ以上の命令のうちの少なくとも１つを呼び出し、これを実行してよい。これは、コンピュータ装置が呼び出しされた少なくとも１つの命令にしたがって少なくとも１つの機能を実行するように制御されることを可能にする。１つ以上の命令は、コンパイラによって生成されたコード、またはインタプリタによって実行されることのできるコードを含んでよい。コンピュータ装置によって読み取り可能な記録媒体は、非一時的（ｎｏｎ−ｔｒａｎｓｉｔｏｒｙ）記録媒体の形態で提供されてよい。ここで、「非一時的」とは、記録媒体が実在（ｔａｎｇｉｂｌｅ）する装置であって、信号（ｓｉｇｎａｌ）（例：電磁波）を含まないものを意味し、この用語は、データが記録媒体に半永久的に記録される場合と一次的に記録される場合とを区分しない。

本明細書の多様な実施形態およびこれに使用される用語は、本明細書に記載された技術を特定の実施形態に対して限定するためのものではなく、該当の実施例の多様な変更、均等物、および／または置換物を含むものと解釈されなければならない。図面の説明に関し、類似する構成要素に対しては類似する参照符号を付与した。単数の表現は、文脈で明らかに異なる意図を示さない限り、複数の表現も含んでよい。本明細書において、「ＡまたはＢ」、「Ａおよび／またはＢのうちの少なくとも１つ」、「Ａ、Ｂ、またはＣ」、または「Ａ、Ｂ、および／またはＣのうちの少なくとも１つ」などの表現は、羅列される項目のすべての可能な組み合わせを含んでよい。「第１」、「第２」または「１つ目」、「２つ目」などの表現は、該当の構成要素を順序または重要度とは関係なく修飾するものであり、ある構成要素を他の構成要素と区分するためだけに使用されるものであって、該当の構成要素を限定するものではない。ある（例：第１）構成要素が他の（例：第２）構成要素に「（機能的にまたは通信的に）連結され」ていたり「接続され」ているという記載は、ある構成要素が他の構成要素に直接的に連結することはもちろん、他の構成要素（例：第３構成要素）を介して連結してもよい。

本明細書で使用される用語「モジュール」は、ハードウェア、ソフトウェア、またはファームウェアで構成されたユニットを含み、例えば、ロジック、論理ブロック、部品、または回路などの用語と相互互換的に使用されてよい。モジュールは、一体で構成された部品、または１つまたはそれ以上の機能を実行する最小単位またはその一部であってよい。例えば、モジュールは、ＡＳＩＣ（ａｐｐｌｉｃａｔｉｏｎ−ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）で構成されてよい。

多様な実施形態によると、記載した構成要素のそれぞれの構成要素（例：モジュールまたはプログラム）は、単数または複数の個体を含んでよい。多様な実施形態によると、上述した該当の構成要素のうちの１つ以上の構成要素または動作が省略されてもよいし、１つ以上の他の構成要素または動作が追加されてもよい。大体的にまたは追加的に、複数の構成要素（例：モジュールまたはプログラム）は、１つの構成要素として統合されてよい。このような場合、統合された構成要素は、複数の構成要素それぞれの構成要素の１つ以上の機能を統合する前に、複数の構成要素のうちの該当の構成要素によって実行されるものと同一または類似するように実行してよい。多様な実施形態によると、モジュール、プログラム、または他の構成要素によって実行される動作は、順次的、並列的、反復的、または発見的（ｈｅｕｒｉｓｔｉｃ）に実行されたり、動作のうちの１つ以上が他の順序で実行されたり、省略されたり、または１つ以上の他の動作が追加されたりしてよい。

１００：電子装置
１１０：入力モジュール
１２０：出力モジュール
１３０：メモリ
１４０：プロセッサ

Claims

電子装置の動作方法であって、
タスクに対する人間の処理データに基づき、１次モデルをフィッティングする動作、
前記タスクに対する前記１次モデルの処理データに基づき、２次モデルをフィッティングする動作、および
前記１次モデルと前記２次モデルに対するプロファイリングにより、前記２次モデルを前記人間の知能に対する移植モデルとして決定する動作を含む、方法。
前記人間の処理データは、
前記人間が前記タスクを処理する間に発生する行動データまたは脳信号のうちの少なくともいずれか１つを含む、請求項１に記載の方法。
前記移植モデルとして決定する動作は、
前記１次モデルと前記２次モデルの相関度を検出する動作、および
前記相関度に基づき、前記２次モデルを前記移植モデルとして決定するかを判断する動作を含む、請求項１に記載の方法。
理論的に少なくとも１つの環境変数を設計する動作をさらに含み、
前記１次モデルをフィッティングする動作は、
前記環境変数に基づき、前記人間の処理データから前記１次モデルをフィッティングし、
前記２次モデルをフィッティングする動作は、
前記環境変数に基づき、前記１次モデルの処理データから前記２次モデルをフィッティングする、請求項３に記載の方法。
前記１次モデルをフィッティングする動作は、
前記人間の処理データに基づき、前記１次モデルを学習する動作を含み、
これにより、前記１次モデルの行動プロファイルまたは少なくとも１つのパラメータのうちの少なくともいずれか１つが前記環境変数に基づいて検出される、請求項４に記載の方法。
前記２次モデルをフィッティングする動作は、
前記１次モデルの処理データに基づき、前記２次モデルを学習する動作を含み、
これにより、前記２次モデルの行動プロファイルまたは少なくとも１つのパラメータのうちの少なくともいずれか１つが前記環境変数に基づいて検出される、請求項５に記載の方法。
前記相関度を検出する動作は、
前記１次モデルの行動プロファイルと前記２次モデルの行動プロファイルを比較して、プロファイル相関度を検出する動作、または
前記１次モデルのパラメータと前記２次モデルのパラメータを比較して、パラメータ相関度を検出する動作のうちの少なくともいずれか１つ、および
前記プロファイル相関度または前記パラメータ相関度のうちの少なくともいずれか１つに基づき、前記相関度を検出する動作を含む、請求項６に記載の方法。
前記移植モデルとして決定するかを判断する動作は、
前記相関度が予め設定された閾値を超過すれば、前記２次モデルを前記移植モデルとして決定する動作を含む、請求項３に記載の方法。
前記環境変数は、
状態遷移の不確実性、状態空間の複雑性、新規性、状態予測エラー、または報酬予測エラーのうちの少なくともいずれか１つを含む、請求項４に記載の方法。
電子装置であって、
メモリ、および
前記メモリに接続され、前記メモリに記録された少なくとも１つの命令を実行するように構成されたプロセッサを含み、
前記プロセッサは、
タスクに対する人間の処理データに基づき、１次モデルをフィッティングし、
前記タスクに対する前記１次モデルの処理データに基づき、２次モデルをフィッティングし、
前記１次モデルと前記２次モデルに対するプロファイリングにより、前記２次モデルを前記人間の知能に対する移植モデルとして決定するように構成される、装置。
前記人間の処理データは、
前記人間が前記タスクを処理する間に発生する行動データまたは脳信号のうちの少なくともいずれか１つを含む、請求項１０に記載の装置。
前記プロセッサは、
前記１次モデルと前記２次モデルの相関度を検出し、
前記相関度に基づき、前記２次モデルを前記移植モデルとして決定するかを判断するように構成される、請求項１０に記載の装置。
前記プロセッサは、
理論的に少なくとも１つの環境変数を設計し、
前記環境変数に基づき、前記人間の処理データから前記１次モデルをフィッティングし、
前記環境変数に基づき、前記１次モデルの処理データから前記２次モデルをフィッティングするように構成される、請求項１２に記載の装置。
前記プロセッサは、
前記人間の処理データに基づき、前記１次モデルを学習するように構成され、
これにより、前記１次モデルの行動プロファイルまたは少なくとも１つのパラメータのうちの少なくともいずれか１つが前記環境変数に基づいて検出される、請求項１３に記載の装置。
前記プロセッサは、
前記１次モデルの処理データに基づき、前記２次モデルを学習するように構成され、
これにより、前記２次モデルの行動プロファイルまたは少なくとも１つのパラメータのうちの少なくともいずれか１つが前記環境変数に基づいて検出される、請求項１４に記載の装置。
前記プロセッサは、
前記１次モデルの行動プロファイルと前記２次モデルの行動プロファイルを比較して、プロファイル相関度を検出し、
前記１次モデルのパラメータと前記２次モデルのパラメータを比較して、パラメータ相関度を検出し、
前記プロファイル相関度または前記パラメータ相関度のうちの少なくともいずれか１つに基づき、前記相関度を検出するように構成される、請求項１５に記載の装置。
前記プロセッサは、
前記相関度が予め設定された閾値を超過すれば、前記２次モデルを前記移植モデルとして決定するように構成される、請求項１２に記載の装置。
前記環境変数は、
状態遷移の不確実性、状態空間の複雑性、新規性、状態予測エラー、または報酬予測エラーのうちの少なくともいずれか１つを含む、請求項１３に記載の装置。
コンピュータ装置と結合され、前記コンピュータ装置によって読み取り可能な記録媒体に記録されたコンピュータプログラムであって、
タスクに対する人間の処理データに基づき、１次モデルをフィッティングする動作、
前記タスクに対する前記１次モデルの処理データに基づき、２次モデルをフィッティングする動作、および
前記１次モデルと前記２次モデルに対するプロファイリングにより、前記２次モデルを前記人間の知能に対する移植モデルとして決定する動作を実行するための、コンピュータプログラム。
前記移植モデルとして決定する動作は、
前記１次モデルと前記２次モデルの相関度を検出する動作、および
前記相関度に基づき、前記２次モデルを前記移植モデルとして決定するかを判断する動作を含む、請求項１９に記載のコンピュータプログラム。