JP2021140749A - 人間の知能を人工知能に移植するための精密行動プロファイリングのための電子装置およびその動作方法 - Google Patents

人間の知能を人工知能に移植するための精密行動プロファイリングのための電子装置およびその動作方法 Download PDF

Info

Publication number
JP2021140749A
JP2021140749A JP2020208693A JP2020208693A JP2021140749A JP 2021140749 A JP2021140749 A JP 2021140749A JP 2020208693 A JP2020208693 A JP 2020208693A JP 2020208693 A JP2020208693 A JP 2020208693A JP 2021140749 A JP2021140749 A JP 2021140749A
Authority
JP
Japan
Prior art keywords
model
human
primary
correlation
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020208693A
Other languages
English (en)
Other versions
JP7283774B2 (ja
Inventor
イ・サンワン
Sang Wan Lee
キム・ドンジェ
Dongjae Kim
シン・ジェフン
Jae Hoon Shin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Korea Advanced Institute of Science and Technology KAIST
Original Assignee
Korea Advanced Institute of Science and Technology KAIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020200126999A external-priority patent/KR102514799B1/ko
Application filed by Korea Advanced Institute of Science and Technology KAIST filed Critical Korea Advanced Institute of Science and Technology KAIST
Publication of JP2021140749A publication Critical patent/JP2021140749A/ja
Application granted granted Critical
Publication of JP7283774B2 publication Critical patent/JP7283774B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/015Input arrangements based on nervous system activity detection, e.g. brain waves [EEG] detection, electromyograms [EMG] detection, electrodermal response detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Human Resources & Organizations (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Pure & Applied Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Marketing (AREA)

Abstract

【課題】人間の行動プロファイルを予測する人工知能を開発するための電子装置およびその動作方法を提供する。【解決手段】電子装置の動作方法は、人間の知能を人工知能に移植するための精密行動プロファイリングのためのものであって、理論的に少なくとも1つの環境変数を設計し、環境変数に基づき、タスクに対する人間の処理データから1次モデルをフィッティングし、環境変数に基づき、タスクに対する1次モデルの処理データから2次モデルをフィッティングし、1次モデルと2次モデルに対するプロファイリングにより、1次モデルと2次モデルの相関度に基づき、2次モデルを人間の知能に対する移植モデルとして決定する。人間の処理データは、人間がタスクを処理する間に発生する行動データまたは脳信号のうちの少なくともいずれか1つを含む。【選択図】図2

Description

多様な実施形態は、人間の知能を人工知能に移植するための精密行動プロファイリングのための電子装置およびその動作方法に関する。
人間知能に関する従来の研究は、これに含まれる意思決定の過程が内在的で隠れたものであるため、このような過程を模倣するモデルに基づいて分析することが主な研究方法論となる。このような方法論では、最尤度(maximum likelihood)によって人間の行動を説明するための最適モデルを選定し、このモデルに基づいて脳内で繰り広げられる人間知能を説明する。しかし、このような過程は、最適モデルの選定基準が実際の作業に必要な特性と独立している上に、内在的に存在する過剰適合(overfitting)の危険を判断することができず、特に、過剰適合の危険性が高い深層神経網ベースの人工知能への移植は不可能であるという限界を抱えている。
多様な実施形態は、人間の行動プロファイルを予測する人工知能を開発するための電子装置およびその動作方法を提供する。
多様な実施形態は、人間の知能を人工知能に移植するための精密行動プロファイリングのための電子装置およびその動作方法を提供する。
多様な実施形態に係る電子装置の動作方法は、タスクに対する人間の処理データに基づき、1次モデルをフィッティングする動作、前記タスクに対する前記1次モデルの処理データに基づき、2次モデルをフィッティングする動作、および前記1次モデルと前記2次モデルに対するプロファイリングにより、前記2次モデルを前記人間の知能に対する移植モデルとして決定する動作を含んでよい。
多様な実施形態に係る電子装置は、メモリ、および前記メモリに接続され、前記メモリに記録される少なくとも1つの命令を実行するように構成されたプロセッサを含み、前記プロセッサは、タスクに対する人間の処理データに基づき、1次モデルをフィッティングし、前記タスクに対する前記1次モデルの処理データに基づき、2次モデルをフィッティングし、前記1次モデルと前記2次モデルに対するプロファイリングにより、前記2次モデルを前記人間の知能に対する移植モデルとして決定するように構成されてよい。
多様な実施形態に係るコンピュータプログラムは、コンピュータ装置に結合され、前記コンピュータ装置によって読み取り可能な記録媒体に記録され、タスクに対する人間の処理データに基づき、1次モデルをフィッティングする動作、前記タスクに対する前記1次モデルの処理データに基づき、2次モデルをフィッティングする動作、および前記1次モデルと前記2次モデルに対するプロファイリングにより、前記2次モデルを前記人間の知能に対する移植モデルとして決定する動作を実行してよい。
多様な実施形態によると、人間の知能と類似の人工知能を開発することができる。人間の知能に対する高レベル指標である精密行動プロファイルを模写する移植モデルを開発することにより、過剰適合の危険なく、移植モデルを人工知能に移植する。これにより、人工知能が人間の行動プロファイルを復元することが可能となり、IoT分野を含むAI(Artificial Intelligence)秘書のような人間補助システムの全般にわたり、人間の行動範囲内で人間の行動を理解および予測することが可能となる。
多様な実施形態における、電子装置を示した図である。 多様な実施形態における、電子装置の動作方法を示した図である。 図2の強化学習理論に基づく環境設計動作を説明するための図である。 図2の強化学習理論に基づく環境設計動作を説明するための図である。 図2の1次モデルのフィッティング動作を示した図である。 図2の1次モデルのフィッティング動作を説明するための図である。 図2の2次モデルのフィッティング動作を示した図である。 図2の2次モデルのフィッティング動作を説明するための図である。 図2の2次プロファイリング動作を説明するための図である。 図2の2次プロファイリング動作を説明するための図である。 図2の移植モデル決定動作を示した図である。 図2の移植モデル決定動作を説明するための図である。 多様な実施形態における、一般化可能な人間模写型強化学習モデルの設計のための定量化方法を示したフローチャートである。 多様な実施形態における、一般化可能な人間模写型強化学習モデルの設計のための定量化装置を概略的に示したブロック図である。 多様な実施形態における、人間の潜在政策学習、信頼度試験、および経験的一般化試験を説明するための図である。 多様な実施形態における、実験に使用されたRLモデルの構造を説明するための図である。 多様な実施形態における、各RLモデルの一般化試験のためのシミュレーション環境を説明するための図である。 多様な実施形態における、RLモデルの適応能力に対するシミュレーション結果を示した図である。
以下、本文書の多様な実施形態について、添付の図面を参照しながら説明する。
多様な実施形態は、人間の知能を人工知能に移植するための精密行動プロファイリングのための電子装置およびその動作方法を提供する。
多様な実施形態によると、人間の作業実行特性と同じ特性を有するモデルが提供される。(1)人間の作業実行過程に対する精密プロファイリングによるモデルの開発:人間の作業実行特性を分析し、これに基づいて計算モデルを開発、実際の作業実行に必要な特性を復元するモデルを開発する。(2)精密行動プロファイルの比較によって過剰適合(overfitting)を判断:実際の行動プロファイルと(1)で開発したモデルの行動プロファイルの比較により、過剰適合を評価する。(3)人間知能を人工知能に移植:人間知能に対する高レベル指標である精密行動プロファイルを模写するモデルにより、過剰適合の危険なく、人工知能に移植する。
多様な実施形態によると、人間の作業実行過程の精密プロファイリングと、これに基づく人間知能モデルの開発技術、および過剰適合の危険を排除して人工知能に移植する技術が提供される。このような作業実行過程の精密プロファイリングに基づいて人間知能を人工知能に移植する技術は、脳認知および脳模写型の人工知能開発において核心的な技術であり、過去には類似の研究事例がない技術である。
具体的に、(1)人間の作業実行特性を用いたモデルの開発は、人間の実際の行動から環境変化に対応して変化していく作業実行特性を行動プロファイルとして抽出し、これによって候補モデルを生成し、これを互いに比較して最適モデルを選定する。選定された最適モデルは、作業実行に対する人間の行動プロファイルをそのまま復元する。(2)行動プロファイルの比較による過剰適合の判断は、(1)で選定された最適モデルが作業を実行しながら見せる行動からモデルのプロファイルを再び抽出し、これを実際の行動プロファイルと比較する。2つの行動プロファイルは定性的・定量的に比較されてよいが、定性的には単に2つのプロファイルの傾向を比較するものであり、定量的には行動に影響を及ぼす核心パラメータの分布に関する相関関係の分析などを比較するものであってよい。(3)人間知能の人工知能への移植は、(2)の定性的・定量的判断基準にしたがい、過剰適合の危険なく、深層神経網に基づいてよい。
多様な実施形態は、(1)作業実行過程に対する精密行動プロファイリングとこれによる人間知能モデルの開発、(2)行動プロファイリングによる人間知能モデルの過剰適合の検定を目的としており、最終的には、これに基づいて(3)人間知能を人工知能に移植するにあたり、過剰適合の危険なく、深層神経網ベースの人工知能に移植することを目的とする。
図1は、多様な実施形態における、電子装置100を示した図である。
図1を参照すると、多様な実施形態に係る電子装置100は、入力モジュール110、出力モジュール120、メモリ130、またはプロセッサ140のうちの少なくともいずれか1つを含んでよい。一実施形態によっては、電子装置100の構成要素のうちの少なくともいずれか1つが省略されてもよいし、少なくとも1つの他の構成要素が追加されてもよい。一実施形態によっては、電子装置100の構成要素のうちの少なくともいずれか2つが、1つの統合された回路として実現されてもよい。
入力モジュール110は、電子装置100の少なくとも1つの構成要素に使用される信号を入力してよい。入力モジュール110は、ユーザが電子装置100に信号を直接入力するように構成される入力装置、周辺の変化を感知して信号を発生するように構成されるセンサ装置、または外部機器から信号を受信するように構成される受信装置のうちの少なくとも1つの含んでよい。例えば、入力装置は、マイクロフォン(microphone)、マウス(mouse)、またはキーボード(keyboard)のうちの少なくともいずれか1つを含んでよい。一実施形態によっては、入力装置は、タッチを感知するように設定されたタッチ回路(touch circuitry)、またはタッチによって発生する力の強度を測定するように設定されたセンサ回路のうちの少なくともいずれか1つを含んでよい。
出力モジュール120は、電子装置100の外部に情報を出力してよい。出力モジュール120は、情報を視覚的に出力するように構成される表示装置、情報をオーディオ信号で出力するオーディオ出力装置、または情報を無線で送信する送信装置のうちの少なくともいずれか1つを含んでよい。例えば、表示装置は、ディスプレイ、ホログラム装置、またはプロジェクタのうちの少なくともいずれか1つを含んでよい。一例として、表示装置は、入力モジュール110のタッチ回路またはセンサ回路のうちの少なくともいずれか1つと組み立てられて、タッチスクリーンとして実現されてよい。例えば、オーディオ出力装置は、スピーカまたはレシーバのうちの少なくともいずれか1つを含んでよい。
一実施形態によると、受信装置と送信装置は、通信モジュールとして実現されてよい。通信モジュールは、電子装置100で外部機器との通信を実行してよい。通信モジュールは、電子装置100と外部機器との間に通信チャネルを樹立し、通信チャネルを介して外部機器との通信を実行してよい。ここで、外部機器は、衛星、基地局、サーバ、または他の電子装置のうちの少なくともいずれか1つを含んでよい。通信モジュールは、有線通信モジュールまたは無線通信モジュールのうちの少なくともいずれか1つを含んでよい。有線通信モジュールは、外部機器と有線で接続し、有線で通信してよい。無線通信モジュールは、近距離通信モジュールまたは遠距離通信モジュールのうちの少なくともいずれか1つを含んでよい。近距離通信モジュールは、外部機器と近距離通信方式で通信してよい。例えば、近距離通信方式は、ブルートゥース(登録商標)(Bluetooth)、Wi-Fiダイレクト、または赤外線通信(IrDA:infrared data association)のうちの少なくともいずれか1つを含んでよい。遠距離通信モジュールは、外部機器と遠距離通信方式で通信してよい。ここで、遠距離通信モジュールは、ネットワークを介して外部機器と通信してよい。例えば、ネットワークは、セルラネットワーク、インターネット、またはLAN(local area network)やWAN(wide area network)のようなコンピュータネットワークのうちの少なくともいずれか1つを含んでよい。
メモリ130は、電子装置100の少なくとも1つの構成要素によって使用される多様なデータを記録してよい。例えば、メモリ130は、揮発性メモリまたは不揮発性メモリのうちの少なくともいずれか1つを含んでよい。データは、少なくとも1つのプログラム、およびこれと関連する入力データまたは出力データを含んでよい。プログラムは、メモリ130に少なくとも1つの命令を含むソフトウェアとして記録されてよく、例えば、オペレーティングシステム、ミドルウェア、またはアプリケーションのうちの少なくともいずれか1つを含んでよい。
プロセッサ140は、メモリ130のプログラムを実行し、電子装置100の少なくとも1つの構成要素を制御してよい。これにより、プロセッサ140は、データ処理または演算を実行してよい。このとき、プロセッサ140は、メモリ130に記録された命令を実行してよい。
プロセッサ140は、人間の知能を人工知能に移植するための強化学習理論に基づく環境を設計してよい。このとき、プロセッサ140は、人間のタスク処理と関連する環境を設計してよい。ここで、プロセッサ140は、例えば、ベルマン方程式(Bellman equation)に基づいて少なくとも1つの環境変数(environmental factor)を決定し、その値を最適化してよい。例えば、環境変数は、状態遷移の不確実性(state−transition uncertainty)、状態空間の複雑性(state−space complexity)、新規性(novelty)、状態予測エラー(state prediction error)、または報酬予測エラー(reward prediction error)のうちの少なくともいずれか1つを含んでよい。
プロセッサ140は、環境変数に基づき、1次モデル(first level model)をフィッティング(fitting)してよい。プロセッサ140は、環境変数に基づき、タスクに対する人間の処理データから1次モデルをフィッティングしてよい。このとき、タスクに対する人間の処理データは、人間がタスクを処理する間に発生する行動データまたは脳信号のうちの少なくともいずれか1つを含んでよい。また、プロセッサ140は、人間と1次モデルに対するプロファイリング、すなわち、1次プロファイリングを実行してよい。これにより、プロセッサ140は、人間と1次モデルの相関度を分析してよい。例えば、相関度の最大は1であり、人間と1次モデルが同じときには、相関度は1であってよい。このとき、プロセッサ140は、タスクに対する人間の処理データに対し、1次モデルの過剰適合(overfitting)を判断してよい。このために、プロセッサ140は、人間がタスクを処理するときの行動プロファイルと1次モデルの行動プロファイルを比較してよい。一方、プロセッサ140は、人間がタスクを処理するときのパラメータと1次モデルのパラメータを比較してよい。
プロセッサ140は、2次モデル(second level model)をフィッティングしてよい。プロセッサ140は、環境変数に基づき、タスクに対する1次モデルの処理データから2次モデルをフィッティングしてよい。この後、プロセッサ140は、2次プロファイルを実行してよい。これにより、電子装置100は、1次モデルと2次モデルの相関度を分析してよい。このとき、プロセッサ140は、1次モデルの行動プロファイルと2次モデルの行動プロファイルを比較してよい。一方、プロセッサ140は、1次モデルのパラメータと2次モデルのパラメータを比較してよい。これにより、プロセッサ140は、1次モデルと2次モデルの相関度を検出してよい。
プロセッサ140は、人間知能に対する移植モデルを決定してよい。プロセッサ140は、1次モデルと2次モデルの相関度に基づき、2次モデルを移植モデルとして決定してよい。このとき、1次モデルと2次モデルの相関度とは、1次モデルと2次モデルの類似の程度を示してよい。これにより、1次モデルと2次モデルが一定の水準以上に類似すれば、プロセッサ140は、2次モデルを移植モデルとして決定してよい。例えば、相関度の最大は1であり、1次モデルと2次モデルが同じときには、相関度は1であってよい。
図2は、多様な実施形態における、電子装置100の動作方法を示した図であり、図3〜図11は、多様な実施形態における、電子装置100の動作方法の例を説明するための図である。
図2を参照すると、動作210で、電子装置100は、人間の知能を人工知能に移植するための強化学習理論に基づく環境を設計してよい。このとき、プロセッサ140は、人間のタスク処理と関連する環境を設計してよい。例えば、プロセッサ140は、人間がタスクを処理するときの作業実行過程または問題解決過程のうちの少なくともいずれか1つを説明する強化学習理論に基づき、人間のための標準作業環境を設計してよい。ここで、プロセッサ140は、例えば、ベルマン方程式(Bellman equation)に基づいて少なくとも1つの環境変数(environmental factor)を決定し、その値を最適化してよい。例えば、環境変数は、状態遷移の不確実性(state−transition uncertainty)、状態空間の複雑性(state−space complexity)、新規性(novelty)、状態予測エラー(state prediction error)、または報酬予測エラー(reward prediction error)のうちの少なくともいずれか1つを含んでよい。これについては、図3aおよび図3bを参照しながらより詳しく説明する。
図3aおよび図3bは、図2の強化学習理論に基づく環境設計動作210を説明するための図である。
図3aを参照すると、強化学習理論に基づく環境は、人間がタスクを処理するときに発生し得る少なくとも1つの状態(state)、各状態で人間によってなされる少なくとも1つの意思決定(choice)、および各意思決定による少なくとも1つの状態遷移(state−transition)によって表現されてよい。このとき、各ノードは各状態を示し、各矢印は各意思決定を示し、各実線は各状態遷移を示してよい。図3bに示すように、ある状態(S)での意思決定に基づき、他の状態(St+1)への状態遷移がなされてよい。各状態遷移は、状態遷移の可能性(state−transition probability)を有してよい。例えば、各状態に対して複数の意思決定が可能であるため、図3bに示すように、状態空間の複雑性が定義されてよい。ここで、各状態に対する意思決定の数が多いほど、状態空間の複雑性は高まってよい。例えば、各意思決定に対して複数の状態遷移が可能であるため、図3bに示すように、状態遷移の不確実性が定義されてよい。ここで、各意思決定に対する状態遷移の可能性の差値が大きいほど、状態遷移の不確実性は低下してよい。
再び図2を参照すると、動作220で、電子装置100は、環境変数に基づき、1次モデル(first level model)をフィッティング(fitting)してよい。プロセッサ140は、環境変数に基づき、タスクに対する人間の処理データから1次モデルをフィッティングしてよい。このとき、タスクに対する人間の処理データは、人間がタスクを処理する間に発生する行動データまたは脳信号のうちの少なくともいずれか1つを含んでよい。これについては、図4および図5を参照しながらより詳しく説明する。
図4は、図2の1次モデルのフィッティング動作220を示した図であり、図5は、図2の1次モデルのフィッティング動作220を説明するための図である。
図4を参照すると、動作410で、電子装置100は、タスクに対する人間の処理データを収集してよい。プロセッサ140は、人間が実質的にタスクを処理する過程を追跡しながら、タスクに対する人間の処理データを収集してよい。ここで、プロセッサ140は、入力モジュール110によって人間の処理データを収集してよい。例えば、プロセッサ140は、入力装置または通信モジュールによって人間の行動データ(behavioral data)を収集し、センサ装置によって人間の脳信号を収集してよい。一例として、脳信号は、機能的MRI(FMRI:functional magnetic resonance imaging)信号を含んでよい。
動作420で、電子装置100は、タスクに対する人間の処理データに基づき、1次モデルを学習してよい。プロセッサ140は、環境変数に基づき、タスクに対する人間の処理データから1次モデルを学習してよい。このとき、1次モデルの行動プロファイルまたは少なくとも1つのパラメータのうちの少なくともいずれか1つが検出されてよい。例えば、プロセッサ140は、図5(a)に示すように、1次モデルの行動プロファイルを検出してよい。ここで、1次モデルの行動プロファイルは、状態空間の複雑性または状態遷移の不確実性のうちの少なくともいずれか1つから検出されてよい。例えば、プロセッサ140は、図5(b)に示すように、1次モデルのパラメータを検出してよい。ここで、1次モデルのパラメータは、状態遷移の不確実性、状態空間の複雑性、以前の状態からの状態遷移による報酬(reward)、以前の状態からの状態遷移による反応(action)、または最大目標値のうちの少なくともいずれか1つを含んでよい。この後、電子装置100は、図2にリターンし、動作230に進んでよい。
再び図2を参照すると、動作230で、電子装置100は、人間と1次モデルに対するプロファイリング、すなわち、1次プロファイリングを実行してよい。これにより、電子装置100は、人間と1次モデルの相関度を分析してよい。例えば、相関度の最大は1であり、人間と1次モデルが同じときには、相関度は1であってよい。このとき、プロセッサ140は、タスクに対する人間の処理データに対し、1次モデルの過剰適合(overfitting)を判断してよい。このために、プロセッサ140は、人間がタスクを処理するときの行動プロファイルと1次モデルの行動プロファイルを比較してよい。一方、プロセッサ140は、人間がタスクを処理するときのパラメータと1次モデルのパラメータを比較してよい。
動作240で、電子装置100は、2次モデル(second level model)をフィッティングしてよい。プロセッサ140は、環境変数に基づき、タスクに対する1次モデルの処理データから2次モデルをフィッティングしてよい。これについては、図6および図7を参照しながらより詳しく説明する。
図6は、図2の2次モデルのフィッティング動作240を示した図であり、図7は、図2の2次モデルのフィッティング動作240を説明するための図である。
図6を参照すると、動作610で、電子装置100は、タスクに対する1次モデルの処理データを収集してよい。プロセッサ140は、1次モデルがタスクを処理する過程を追跡しながら、タスクに対する1次モデルの処理データを収集してよい。このとき、プロセッサ140は、動作410で人間が実行したタスクを1次モデルによって再び処理し、これにより、タスクに対する1次モデルの処理データを収集してよい。
動作620で、電子装置100は、タスクに対する1次モデルの処理データに基づき、2次モデルを学習してよい。プロセッサ140は、環境変数に基づき、タスクに対する1次モデルの処理データから2次モデルを学習してよい。このとき、2次モデルの行動プロファイルまたは少なくとも1つのパラメータのうちの少なくともいずれか1つが検出されてよい。例えば、プロセッサ140は、図7(a)に示すように、2次モデルの行動プロファイルを検出してよい。ここで、2次モデルの行動プロファイルは、状態空間の複雑性または状態遷移の不確実性のうちの少なくともいずれか1つから検出されてよい。例えば、プロセッサ140は、図7(b)に示すように、2次モデルのパラメータを検出してよい。ここで、2次モデルのパラメータは、状態遷移の不確実性、状態空間の複雑性、以前の状態からの状態遷移による報酬、以前の状態からの状態遷移による反応、または最大目標値のうちの少なくともいずれか1つを含んでよい。この後、電子装置100は、図2にリターンし、動作250に進んでよい。
再び図2を参照すると、動作250で、電子装置100は、2次プロファイルを実行してよい。これにより、電子装置100は、1次モデルと2次モデルの相関度を分析してよい。このとき、プロセッサ140は、1次モデルの行動プロファイルと2次モデルの行動プロファイルを比較してよい。一方、プロセッサ140は、1次モデルのパラメータと2次モデルのパラメータを比較してよい。これにより、プロセッサ140は、1次モデルと2次モデルの相関度を検出してよい。
これについては、図8および図9を参照しながらより詳しく説明する。
図8および図9は、図2の2次プロファイリング動作250を説明するための図である。
図8および図9を参照すると、プロセッサ140は、1次モデルと2次モデルを比較して、1次モデルと2次モデルの相関度を検出してよい。このために、プロセッサ140は、図8(a)に示すような1次モデルの行動プロファイルと、図8(b)に示すような2次モデルの行動プロファイルを定性的に(qualitatively)比較してよい。ここで、プロセッサ140は、1次モデルの行動プロファイルと2次モデルの行動プロファイルを比較して、プロファイル相関度を検出してよい。一方、プロセッサ140は、図9(a)と(b)にそれぞれ示すように、1次モデルのパラメータと2次モデルのパラメータを定量的に(quantitatively)それぞれ比較してよい。ここで、プロセッサ140は、1次モデルのパラメータと2次モデルのパラメータを比較して、パラメータ相関度を検出してよい。この後、プロセッサ140は、プロファイル相関度またはパラメータ相関度のうちの少なくともいずれか1つに基づき、1次モデルと2次モデルの相関度を検出してよい。
再び図2を参照すると、動作260で、電子装置100は、人間知能に対する移植モデルを決定してよい。プロセッサ140は、1次モデルと2次モデルの相関度に基づき、2次モデルを移植モデルとして決定してよい。このとき、1次モデルと2次モデルの相関度とは、1次モデルと2次モデルの類似の程度を示してよい。これにより、1次モデルと2次モデルが一定の水準以上に類似すれば、プロセッサ140は、2次モデルを移植モデルとして決定してよい。例えば、相関度の最大は1であり、1次モデルと2次モデルが同じときには、相関度は1であってよい。これについては、図10および図11を参照しながらより詳しく説明する。
図10は、図2の移植モデルの決定動作260を示した図であり、図11は、図2の移植モデルの決定動作260を説明するための図である。
図10を参照すると、動作1010で、電子装置100は、1次モデルと2次モデルの相関度を予め設定された閾値と比較してよい。プロセッサ140は、1次モデルと2次モデルの相関度が1以下でありながら、閾値を超過するかを判断してよい。一例として、1次モデルと2次モデルの相関度が高ければ、1次モデルと2次モデルは、図11(a)に示すような関係を示してよい。他の例として、1次モデルと2次モデルの相関度が低ければ、1次モデルと2次モデルは、図11(b)に示すような関係を示してよい。
動作1010で、1次モデルと2次モデルの相関度が閾値以下であると判断されれば、電子装置100は、図2にリターンし、動作220に戻ってよい。すなわち、1次モデルと2次モデルが一定の水準未満として異なるものであれば、プロセッサ140は、2次モデルを移植モデルとして決定せず、動作220に戻ってよい。この後、プロセッサ140は、動作220〜260の実行を繰り返してよい。
一方、動作1010で、1次モデルと2次モデルの相関度が閾値を超過すると判断されれば、動作1020で、電子装置100は、2次モデルを移植モデルとして決定してよい。すなわち、1次モデルと2次モデルが一定の水準以上に類似すれば、プロセッサ140は、2次モデルを移植モデルとして決定してよい。これにより、移植モデルは、人間の知能に対する人工知能として移植されてよい。このとき、移植モデルが電子機器、例えば、ロボットに移植されることにより、移植モデルによる人工知能が、人間と同じように作業を実行したり、問題を解決したりすることが可能となる。
多様な実施形態によると、人間の知能と類似の人工知能を開発することができる。人間の知能に対する高レベル指標である精密行動プロファイルを模写する移植モデルを開発することにより、過剰適合の危険なく、移植モデルを人工知能に移植する。これにより、人工知能が人間の行動プロファイルを復元することが可能となり、IoT分野を含むAI(Artificial Intelligence)秘書のような人間補助システムの全般にわたり、人間の行動範囲内で人間の行動を理解および予測することが可能となる。
多様な実施形態は、以下で説明する多様な分野への適用および応用が可能である。
1.人間−ロボット/コンピュータ相互作用分野:
人間の作業実行/問題解決に伴う行動は、高次元の認知過程に基づいて起こるものであるため、人間の行動を予測して活用する価値があるすべての分野で応用されてよい。一例として、感情コンピューティング(affective computing)分野では、人間の認知状態のうちから1つの感情を読み出し、状況に合うように人間の行動を補助することを目的とする。本システムは、単なる感情の読み出しを超越し、コンピュータが認識することのできる感情と脈絡的に類似する他の認知状態(例:覚醒と非覚醒)を予測することで人間行動の補助において効率的に対応するシステムを構築し、人間が優れた成果を納めることができるように補助してよい。また、このような技術は、人間−ロボット/コンピュータの相互作用を含むすべての応用に基礎技術として使用されてよい。人間の準最適(suboptimal)な意思決定過程を模倣するため、最適(optimal)な人工知能に比べて人間との自然な相互作用を可能にする。
2.スマートIoT分野:
特にInternet−of−things(IoT)分野では、多様な機器をコントロールしなければならないため、各機器のコントロールに活用される認知機能も多様となる。このとき、本システムの汎用性は、各機器を制御するときに求められる認知状態の差に関係なく人間を補助できるだけでなく、既に構築されたIoT生態系に新たな機器が含まれるときでも、過剰適合なく行動を予測するAIを開発することができる。
3.専門家プロファイリングおよびスマート教育分野:
核心高位の認知過程は人間の作業実行知能と直結するため、本技術によれば、複雑な意思決定が重要となる裁判官、医者、金融専門家、軍事作戦指揮官などに対する作業実行能力のプロファイリングが可能となる。また、スマート教育のためのカスタマイズシステムのための辞書プロファイリングが可能となる。さらに、作業実行能力のモニタリングによる作業実行能力の向上も可能となる。
4.AI−人間共振化型のアプリケーション(Application)分野:
人間知能に対する理解は、人間の神経レベルで報酬を最大化するための意思決定過程を理解することにも適用される。従来のAIにはこのような人間の意思決定過程に対する理解が存在しないが、人間の行動特性をそのまま予測するAIの開発により、ロボティックス分野では人間の行動をより適切に予測するAIを開発することができ、ゲーム分野ではより知能的なAIエンジンを開発することができる。
5.ユーザーターゲット型のAD分野:
現在の広告自動推薦技術は、人間の過去の検索記録に基づいて新たな広告を推薦している。しかし、このような広告提案技術は、個人の行動特性に対する理解に欠けており、ユーザの関心範囲からまったく掛け離れた広告を提案することが多い。本技術を活用すれば、ユーザの行動/認知に直接的な影響を及ぼす広告を推薦することができるため、広告の効率性を極大化することができる。
多様な実施形態に係る電子装置100の動作方法は、タスクに対する人間の処理データに基づき、1次モデルをフィッティングする動作、タスクに対する1次モデルの処理データに基づき、2次モデルをフィッティングする動作、および1次モデルと2次モデルに対するプロファイリングにより、2次モデルを人間の知能に対する移植モデルとして決定する動作を含んでよい。
多様な実施形態によると、人間の処理データは、人間がタスクを処理する間に発生する行動データまたは脳信号のうちの少なくともいずれか1つを含んでよい。
多様な実施形態によると、移植モデルとして決定する動作は、1次モデルと2次モデルの相関度を検出する動作、および相関度に基づき、2次モデルを移植モデルとして決定するかを判断する動作を含んでよい。
多様な実施形態によると、電子装置100の動作方法は、理論的に少なくとも1つの環境変数を設計する動作をさらに含んでよい。
多様な実施形態によると、1次モデルをフィッティングする動作は、環境変数に基づき、人間の処理データから1次モデルをフィッティングしてよい。
多様な実施形態によると、2次モデルをフィッティングする動作は、環境変数に基づき、1次モデルの処理データから2次モデルをフィッティングしてよい。
多様な実施形態によると、1次モデルをフィッティングする動作は、人間の処理データに基づき、1次モデルを学習する動作を含み、これにより、1次モデルの行動プロファイルまたは少なくとも1つのパラメータのうちの少なくともいずれか1つが環境変数に基づいて検出されてよい。
多様な実施形態によると、2次モデルをフィッティングする動作は、1次モデルの処理データに基づき、2次モデルを学習する動作を含み、これにより、2次モデルの行動プロファイルまたは少なくとも1つのパラメータのうちの少なくともいずれか1つが環境変数に基づいて検出されてよい。
多様な実施形態によると、相関度を検出する動作は、1次モデルの行動プロファイルと2次モデルの行動プロファイルを比較して、プロファイル相関度を検出する動作、または1次モデルのパラメータと2次モデルのパラメータを比較して、パラメータ相関度を検出する動作のうちの少なくともいずれか1つ、およびプロファイル相関度またはパラメータ相関度のうちの少なくともいずれか1つに基づき、相関度を検出する動作を含んでよい。
多様な実施形態によると、移植モデルとして決定するかを判断する動作は、相関度が予め設定された閾値を超過すれば、2次モデルを移植モデルとして決定する動作を含んでよい。
多様な実施形態によると、環境変数は、状態遷移の不確実性、状態空間の複雑性、新規性、状態予測エラー、または報酬予測エラーのうちの少なくともいずれか1つを含んでよい。
多様な実施形態に係る電子装置は、メモリ130、およびメモリ130に接続され、メモリ130に記録される少なくとも1つの命令を実行するように構成されたプロセッサ140を含んでよい。
多様な実施形態によると、プロセッサ140は、タスクに対する人間の処理データに基づき、1次モデルをフィッティングし、タスクに対する1次モデルの処理データに基づき、2次モデルをフィッティングし、1次モデルと2次モデルに対するプロファイリングにより、2次モデルを人間の知能に対する移植モデルとして決定するように構成されてよい。
多様な実施形態によると、人間の処理データは、人間がタスクを処理する間に発生する行動データまたは脳信号のうちの少なくともいずれか1つを含んでよい。
多様な実施形態によると、プロセッサ140は、1次モデルと2次モデルの相関度を検出し、相関度に基づき、2次モデルを移植モデルとして決定するかを判断するように構成されてよい。
多様な実施形態によると、プロセッサ140は、理論的に少なくとも1つの環境変数を設計し、環境変数に基づき、人間の処理データから1次モデルをフィッティングし、環境変数に基づき、1次モデルの処理データから2次モデルをフィッティングするように構成されてよい。
多様な実施形態によると、プロセッサ140は、人間の処理データに基づき、1次モデルを学習するように構成され、これにより、1次モデルの行動プロファイルまたは少なくとも1つのパラメータのうちの少なくともいずれか1つが環境変数に基づいて検出されてよい。
多様な実施形態によると、プロセッサ140は、1次モデルの処理データに基づき、2次モデルを学習するように構成され、これにより、2次モデルの行動プロファイルまたは少なくとも1つのパラメータのうちの少なくともいずれか1つが環境変数に基づいて検出されてよい。
多様な実施形態によると、プロセッサ140は、1次モデルの行動プロファイルと2次モデルの行動プロファイルを比較して、プロファイル相関度を検出し、1次モデルのパラメータと2次モデルのパラメータを比較して、パラメータ相関度を検出し、プロファイル相関度またはパラメータ相関度のうちの少なくともいずれか1つに基づき、相関度を検出するように構成されてよい。
多様な実施形態によると、プロセッサ140は、相関度が予め設定された閾値を超過すれば、2次モデルを移植モデルとして決定するように構成されてよい。
多様な実施形態によると、環境変数は、状態遷移の不確実性、状態空間の複雑性、新規性、状態予測エラー、または報酬予測エラーのうちの少なくともいずれか1つを含んでよい。
強化学習(Reinforcement Learning:RL)の急速な発展は、多くの複雑な問題を解決するためのアルゴリズムの開発に多くの潜在力を提供した。例えば、階層構造は、稀少報酬によって探求を効果的に促進することを立証した。モデルベースRL(model−based RL)は、多くの状況でサンプル効率を改善する能力を立証した。RLアルゴリズムも生物学的関連性を確立し、人間らしい知能をもつモデル構築に対する楽観論を育てた。多様な課題を解決することのできる力量があるにもかかわらず、サンプル効率性の向上、適応性、一般化のようないくつかの核心課題が残っている。例えば、RLアルゴリズムは、環境の構造を迅速に学習する能力が足りない。さらに、その行動政策は極めて偏向的であるため、変化する環境に適応したり、その作業知識を一般状況に伝達したりすることが困難であった。
過去の研究では、価値に基づく意思決定が報酬予測エラー(Reward Prediction Error:RPE)によって誘導され、中脳ドーパミンニューロンがこのような情報を暗号化するということを示した。後者の研究は、人間の脳がactor−critic方式を実行するように見えるということを発見した。このような研究は、脳が経験から学ぶという方式が、モデルなしRL(model−free RL)と類似するという考えを裏付ける。言い換えれば、単一のモデルなしRLは、行動と神経データの比較的小さな変動性を説明することができる。このような慣習的な見解は、脳が1つ以上のRLを実現するという考えによって挑戦を受けた。実際に人間の脳は、モデルなしRLとモデルベースRLを結合するだけでなく、文脈変化によって異なる戦略よりも1つの戦略を適応的に選択することができる。このような適応過程は、外側前頭前皮質の一部によって誘導されることが確認されたし、モデルなしRLおよびモデルベースRL戦略に基づいて各予測の信頼性を総合する。また、脳は、モデルなしRLのように計算的に高価でない戦略を追求する傾向にあるが、特に、極めて安定的であるか揮発性の高い環境ではよりそうなる。この反面、前頭前皮質は、性能信頼性を下げてモデルベース学習のサンプル効率を画期的に向上させることに関与する。これは、脳が、性能、サンプル効率性、および計算費用間の折衷を処理する先天的な能力をもつことを意味する。批判的に、これは、頭脳が環境の新たな挑戦に最適に対応する方法として学習戦略を探求するという理論的暗示に繋がる。
適応RLに対する頭脳とアルゴリズムソリューションにはいくつかの共通点があるが、実質的な差は、依然として、これらの問題への接近方式である。さらに、RLの難題を効果的に取り扱う脳の能力は、RLアルゴリズムによっては完全に開発されなかった。これに基づき、次のような興味深い質問を提議してみる。RLモデルが人間の行動データから人間RLに関する情報を直接収集することができるか?そうであれば、この模写モデルは人間と類似の政策を備えているか?多くの作品が模写によって政策学習の効果を成功的に立証したが、このような政策が人間の潜在政策と類似するか、あるいは政策が他の課題に一般化されるかについては殆ど知られていない。また、他の潜在的なイシューとして過剰適合が挙げられる。特に、人間行動の回復性を調査する近年の研究では、モデルが、本来は適合していた人間行動データに基づいて研究結果を複製することができないケースが度々あるということを示した。これは、コンピュータモデルの学習された行動政策が、人間RLの先天的エネルギーを完全には反映することができないということを示唆するものである。
現在の強化学習(RL)アルゴリズムは、一部の問題に対しては人間知能を超えるだけの解決能力を発揮するが、以下のような側面では人間の強化学習の方が優れている。
人間の強化学習は、データ数が足りなくても、学習される最小指導(minimal supervision)学習が可能であることが多く、生物の認知能力(cognitive resource)の限界に対応してエネルギーの低消耗と高性能を示す高効率学習が起こる。このような学習能力により、人間の強化学習は、究極的には、多様な作業(multi−task)への一般化(generalization)を可能にする。
以下の多様な実施形態は、自律的、高効率、一般化能力をもつ人間模写型強化学習アルゴリズムの設計に必須となる多角的定量化プロセスを提案する。
−プロセス1.政策信頼度定量化プロセス:
文脈依存的な人間の強化学習行動データには極めて複雑な時間空間的相関関係があり、逆強化学習過程において過剰適合が起こりやすい。これを防ぐために、強化学習アルゴリズムの政策信頼度を次のように定量化する。作業媒介変数と人間の行動プロファイルのマッピング関数を近似化し、作業媒介変数と強化学習アルゴリズムの行動プロファイルのマッピング関数を近似化した後、2つのマッピング関数を比較する定量化プロセス(図14(b))を実行する。
−プロセス2.一般化能力検証プロセス:
人間の強化学習過程模写型アルゴリズムの究極的な目的である一般化能力の精密な検証のために、実際の問題の複雑度と文脈変化を媒介変数化させた連続的作業空間でサンプリングされた一連の作業に対する性能(作業一般化可能性)を検証するプロセス(図14(c))を提供する。
−プロセス3.問題解決情報処理効率定量化プロセス:
文脈変化によって問題解決政策を変化させる人間強化学習模写型アルゴリズムの適応能力(上述した政策信頼度定量化プロセス(プロセス1)によって定量化)と、多様な問題解決のための一般化能力(上述した一般化能力検証プロセス(プロセス2))との「有機的連結性」を確認するために、マルコフ連鎖(Markov chain)の観点で定量化(エピソードエンコード効率)プロセスを提供する。問題解決過程で生じる過去のエピソードが強化学習政策に反映される情報圧縮効率と強化学習政策から導き出される行動の最適性の割合を、エピソード−政策−行動のように繋がるマルコフ連鎖上の相互情報量(mutual information)を利用して計算する。この割合は、最適な問題解決/作業実行のためにエピソード情報を強化学習政策決定に反映する情報伝達体系を示す指標となる。
上述した3つのプロセスはすべて、過去には存在しない新たな技術である。本発明は、「一般化可能な人間の強化学習能力」を過剰適合なくアルゴリズム化できることを実際に示した最初の事例である。
このような一連のプロセスにより、過剰適合のない高信頼度の一般化可能な人間の強化学習模写型アルゴリズムの設計が可能であることと、これは従来の単純な逆強化学習過程だけでは実現することができないことを示した。
プロセス1の指標である政策信頼度(reliability)の側面では、最新の強化学習アルゴリズムに比べて5倍以上も向上させることができる。プロセス2の指標である一般化能力(generalizability)は、12.8%も向上させることができる。プロセス3の指標であるエピソードエンコード効率に対する最適行動効果は、約100%も向上させることができる。これについては、提案技術を利用した実証研究結果を参照しながら、以下でより詳しく説明する。
強化学習アルゴリズムは、生物のドーパミンシステムと同じように、価値に基づく(value−based)学習によって学習問題を解決する。近年の研究として深層学習ベースの強化学習アルゴリズム(例えば、アルファ碁、アルファゼロなど)の登場は、囲碁のような複雑な問題に対しても人間の知能を越える性能を見せつけた。しかし、このような高性能強化学習アルゴリズムは、人間知能の特性をすべて逃しているため、その性能には明らかに限界があった。
一般的な人工知能強化学習アルゴリズムは、学習において多くのデータを必要とし、効率よりは性能を高めることを目標とし、特定の問題状況を解決することに特化しているため、多様な問題への一般化は不可能であった。しかし、人間の強化学習過程は、これとは反対であり、少量のデータ数に比べて学習可能な優れた最小指導学習(minimal supervision learning)の特性があり、生物学的認知能力の限界によってエネルギー消費を減らしながら学習する高効率の特性があり、特に、特定の問題状況だけに限定されず多様な状況に対する一般的知能があるという特性がある。
このような人間の強化学習過程の長所だけを人工知能強化学習アルゴリズムに移植するためには、次のような接近方法が必要となる。(1)人間強化学習模写型強化学習アルゴリズムを最適化する。(2)強化学習アルゴリズムの人間知能的特徴を確認(行動水準)する:該当の強化学習アルゴリズムによってシミュレーションされた行動が人間知能の行動と類似する形態であるかを、多様な行動プロファイルによって直接比較することができる。(3)強化学習アルゴリズムの人間知能特徴を確認(媒介変数水準)する:各強化学習アルゴリズムによって抽出されたシミュレーション行動は、各強化学習アルゴリズムに再学習され、媒介変数水準における変化の有無によって人間知能の特徴を維持するかを検証することができる。(4)情報理論レベルで人間知能の特性を検証する:行動と環境の相互情報量(mutual information)の比較により、自然知能の特性を分析する。特に、相互情報量は、その分布により、特定の強化学習アルゴリズムが各自然知能の特性に対してどれほど高い信頼度のあるアルゴリズムであるかを分析することができる。
このように提案された本発明は、人工知能強化学習アルゴリズムには足りなかった人間知能の長所を涵養するように強化学習アルゴリズムを開発して検証する技術を取り扱う。このような開発および他の強化学習アルゴリズムとの比較による検証方法は、過去には類似の研究事例がない、独自的な技術である。
本発明は、人間の強化学習過程にある一般化能力を強化学習アルゴリズムに移植するのに必須となる定量化プロセスを含む。(1)逆強化学習によって導き出されたモデルが作業の文脈変化の政策にどれほど反映されているかに対する定量化、(2)媒介変数化された作業空間からサンプリングされた作業に対する一般化能力の定量化、最後に、(3)情報理論の観点において環境から行動に連結される情報の転換および移動過程が、核心的な人間知能の行動原理を適切に反映しているかを定量化することにより、高信頼度の一般化可能な強化学習アルゴリズムの設計が可能となる。
図12は、多様な実施形態における、一般化可能な人間模写型強化学習モデルの設計のための定量化方法を示したフローチャートである。
図12を参照すると、多様な実施形態に係るコンピュータによって実行される一般化可能な人間模写型強化学習モデルの設計のための定量化方法は、人間の強化学習過程にある一般化能力を強化学習モデルに移植するために、逆強化学習によって導き出された強化学習モデルが作業の文脈変化を政策にどれほど反映しているかを定量化する政策信頼度定量化段階1210を含んでよい。
また、一般化能力の精密な検証のために、作業の実際問題の複雑度と文脈変化を媒介変数化した作業空間でサンプリングされた作業に対する一般化可能性を検証する一般化能力検証段階1220をさらに含んでよい。
さらに、環境から行動に連結される情報の転換または移動過程が、核心的な人間知能の行動原理を適切に反映しているかを定量化する問題解決情報処理効率定量化段階1230をさらに含んでよい。
以下では、多様な実施形態に係るコンピュータによって実行される一般化可能な人間模写型強化学習モデルの設計のための定量化方法の各段階について、より詳しく説明する。
多様な実施形態に係る一般化可能な人間模写型強化学習モデルの設計のための定量化方法については、一般化可能な人間模写型強化学習モデルの設計のための定量化装置を例示しながら説明する。
図13は、多様な実施形態における、一般化可能な人間模写型強化学習モデルの設計のための定量化装置を概略的に示したブロック図である。
図13を参照すれば、多様な実施形態に係る一般化可能な人間模写型強化学習モデルの設計のための定量化装置1300は、政策信頼度定量化部1310を含んでよく、実施形態によっては、一般化能力検証部1320と、問題解決情報処理効率定量化部1330をさらに含んでもよい。
政策信頼度定量化段階1210で、政策信頼度定量化部1310は、人間の強化学習過程にある一般化能力を強化学習モデルに移植するために、逆強化学習によって導き出された強化学習モデルが作業の文脈変化を政策にどれほど反映しているかを定量化してよい。
作業、すなわち、人間が学習を経験するすべての状況において、人間の強化学習は、多様な文脈(例えば、環境の不確実性、複雑度、報酬条件など)の変化によって特定の行動様式を示すといった政策の変化によって対応する。例えば、環境の不確実性が高くなる文脈変化が生じる場合、人間が目標志向的行動を示すことの効用性がないため、これを止揚する政策を選択する。逆強化学習によって人間を模写した強化学習モデルも同じ政策を示すか、これを検証することが必要となる。文脈変化による行動様式変化(すなわち、政策の変化)を定量化するために多様な方法が提示されてよいが、代表的には、回帰分析によって特定の文脈変化が政策変化に寄与する影響を回帰係数によって定量化してよい。
より具体的に、政策信頼度定量化段階1210は、作業の作業媒介変数と人間の行動プロファイルのマッピング関数を近似化する段階、作業媒介変数と強化学習アルゴリズムの行動プロファイルのマッピング関数を近似化する段階、および近似化された2つのマッピング関数を比較する段階を含んでよい。
ここで、強化学習モデルは、人間が学習した政策情報を信頼性あるようにエンコードするモデルベース制御とモデルなし(model−free)制御を結合した計算モデルであってよい。また、強化学習モデルは、目標マッチング(goal matching:GM)、行動模倣(behavior cloning:BC)、および政策マッチング(policy matching:PM)の学習方法によって構築されてよい。これについては、以下でより詳しく説明する。
一般化能力検証段階1220で、一般化能力検証部1320は、一般化能力の精密な検証のために、作業の実際問題の複雑度と文脈変化を媒介変数化した作業空間でサンプリングされた作業に対する一般化可能性を検証してよい。
一般化能力とは、人間がもつ学習特性であって、ある作業で示した文脈変化による政策変化特性を、他の作業においても同じように示すことを言う。特定の作業を学習して報酬を最大化するために見せた人間の強化学習の特性、すなわち、文脈変化による政策変化を成功的に反映したモデル(すなわち、段階1210で検証された)は、問題の複雑度などのように他の文脈が変化する作業においても、人間が見せた特性によって一般化可能な性能を示すことを確認することができる。これを幅広く検証するために、問題の複雑度および文脈変化を媒介変数化、およびこれを調節して多様な作業を生成してこれに表示させ、その性能によって一般化能力を検証することができる。
問題解決情報処理効率定量化段階1230で、問題解決情報処理効率定量化部1330は、環境から行動に連結される情報の転換または移動過程が核心的である人間知能の行動原理を適切に反映しているかを定量化してよい。
人間知能の行動原理は、資源の効率的分配にある。文脈の変化によって多くの認知的努力が必要とはなるが、確実な高性能を示す目標志向的行動を見せるときもあり、効率性を強調した習慣的行動を見せるときもある。一般的に、人間は、2つの政策の適切な分配により、高性能かつ高効率な行動様式を備える。このような適切な政策の変化が起こるかを定量化するために、2つの相互情報量(mutual information)が活用されてよい。1つ目は、過去の経験と現在の選択との間の相互情報量であって、この値が低ければ情報の圧縮による効率的選択として理解される(効率性指標)。2つ目は、現在の選択と現在の選択肢のうちの最高の報酬値をもつ選択(最適選択)との間の相互情報量であって、この値が高ければ高性能であると見なされる(性能指標)。2つの相互情報量の割合(性能指標/効率性指標)により、人間知能の行動原理を復元するか、その情報処理の効率を定量化してよい。
問題解決情報処理効率定量化部1330は、文脈変化によって問題解決政策を変化させる人間模写型強化学習モデルの政策信頼度定量化部1310による適応能力と、一般化能力検証部1320による問題解決のために検証された一般化能力との連結性確認のために、マルコフ連鎖(Markov chain)を利用して定量化してよい。
また、問題解決情報処理効率定量化部1330は、問題解決過程で発生する過去のエピソードが強化学習政策に反映される情報圧縮効率と強化学習政策から導き出される行動の最適性の割合を、エピソード−政策−行動のように繋がるマルコフ連鎖上の相互情報量(mutual information)を利用して計算してよい。
ここで、行動の最適性の割合は、最適な問題解決のためにエピソード情報を強化学習政策決定に反映する情報伝達体系を示す指標となってよい。
以下では、多様な実施形態に係る一般化可能な人間模写型強化学習モデルの設計のための定量化方法および装置について、より詳しく説明する。
深層強化学習(deep RL)モデルは、最小限の指導(supervision)によって多様な作業を解決する高い潜在力を見せつけたが、制限的な経験から迅速に学習をし、環境変化に適応し、単一作業で学習を一般化するという側面においてはいくつかの核心課題が残っている。意思決定神経科学の近年の証拠では、人間の脳にはこのような問題を解決できる先天的な能力があるということが示されており、これは、サンプル効率的かつ適応的であり、一般化可能なRLアルゴリズムに対する神経科学からインスピレーションを受けた解決策開発の楽観論に繋がった。
ここでは、前頭前(prefrontal)RLと呼ばれるモデルベース制御とモデルなし(model−free)制御を適応的に結合した計算モデルが、人間が学習した高水準の政策情報を信頼性あるようにエンコードすることを示す。このモデルは、学習された政策を広範囲な作業に一般化することができる。
先ず、被験者が2段階のマルコフ意思決定課題を実行する間に収集された82名の被験者データに対して前頭前RL、深層RL、メタRLアルゴリズムを訓練させ、この過程において目標、状態変換の不確実性、状態空間の複雑性を実験的に操作した。潜在的行動プロファイルと媒介変数回復性試験を組み合わせた信頼度試験において、前頭前RLは人間被験者の潜在された政策を信頼性あるように学習した反面、他のすべてのモデルはこの試験を通過できなかったという結果を示した。2つ目に、このようなモデルが本来の作業で学んだことを一般化する能力を実証的に試験するために、これらを環境変動性文脈に配置した。具体的には、10種類の異なるマルコフ意思決定作業によって大規模シミュレーションを実行したが、この作業において潜在的文脈変数は時間の経過によって変化する。多様な実施形態に係る情報理論的分析では、前頭前RLが最も高い水準の適応性と成功的エンコード効果を示すことが分かった。これは、頭脳が一般的な問題を解決する方法を模倣したコンピュータモデルが、機械学習の主要難題に対する実質的な解決策に繋がる可能性を公式的に試験するための最初の試みである。
本発明は、次のような根本的な質問を検討する。アルゴリズムが人間から一般化可能な政策を学ぶことはできるのか?このために、このような問題を信頼度試験と経験的一般化試験の前提條件として2つの公式試験とする。本発明の作業は次のように要約される。
人間の潜在政策学習:
ここでは82名の被験者データを多様なRLモデルに装着したが、各モデルは、深層RL、メタRL、前頭前RLなどのような多様な方式によってモデルなし制御およびモデルベース制御を実現する。ここで、目標、状態変換の不確実性、状態空間の複雑性が実験的に操作される2段階のマルコフ意思決定課題を実行する人間参加者から収集したデータを使用した。
信頼度試験:
厳格な潜在的行動プロファイル回復性試験を使用し、モデルベース制御とモデルなし制御(前頭前RLとする)とを適応的に結合した計算モデルの潜在政策は人間被験者と質的に類似するが、他のすべてのモデルは効果を再現することができない。
経験的一般化能力試験:
本来の作業で学習した内容を一般化するモデルの能力を試験するために、時間によって潜在的状況変数が変化する10種類のマルコフ意思決定作業によって大規模シミュレーションを行った。ここで、前頭前RLが最も高い水準の適応性と成功的エンコード効能を示すことを発見した。
この作業は、コンピューティングモデルが人間の潜在された政策を信頼性あるように学習する可能性を公式的に試験するための最初の試みである。さらに、このような処理方式は、機械学習の主要難題に対する実質的な解決策を提供し、より人間らしい知能を設計することを可能にする。
人間の潜在政策学習
図14は、多様な実施形態における、人間の潜在政策学習、信頼度試験、および経験的一般化試験を説明するための図である。
図14(a)を参照すると、人間と類似の方式で作業を学んで実行するRLモデルを構築するために、目標マッチング(goal matching:GM)、行動模倣(behavior cloning:BC)、政策マッチング(policy matching:PM)などのような3種類の訓練方法が考えられる。ここで、人間の潜在政策学習とも呼ばれるこの過程は、人間の行動データから行動政策を直接学習するためのものである。
RLモデルは、作業環境と相互作用して以後に予想される報酬の量を最大化するため、訓練には人間の行動データを使用しない。しかし、モデルの訓練に使用される作業(目標)は、人間被験者が実行する課題と正確に同じである。したがって、この方法を目標マッチング(GM)と呼ぶ。
政策マッチング(PM)は、目標マッチング(GM)と行動模倣(BC)が結合されたものであり、目標マッチングと行動模倣の両方を達成することができる。具体的に、RLモデルは、人間が報酬極大化を実行する方式を模倣する方式によって訓練される。各訓練エポック(epoch)には、RLモデルが報酬(目標マッチング)を極大化するための作業のエピソードを完成し、以後にモデルの行動と人間対象行動の差を損失関数(行動模倣)として換算する。この方法は、過去には、神経データを説明するための計算モデルを訓練するために使用された。標準逆RL方法は、迅速な文脈変化のある作業に直接適用することができないため、ここでは標準逆RL方法は考慮しない点に注目しなければならない。実際には、時間の経過によって報酬価値と環境統計はすべて変化し、サンプルが極めて小さい報酬関数を逆RL方法によって推定することはほぼ不可能である(課題あたり約400回の実験)。
図15は、多様な実施形態における、実験に使用されたRLモデルの構造を説明するための図である。
図15を参照すると、実験のために、深層RL、メタRL、前頭前RLという3種類のRLモデルを使用した。1つ目は、DDQNとも知られたDouble DQN(深層RL)によって実現され、モデルなしRLに近い代表的な深層RLモデルの1つである。このモデル(それぞれ、GM−DDQN、PM−DDQN)を訓練するために、目標マッチングと政策マッチング方法の両方を使用した。
2つ目は、メタRL(meta RL)によって実現された。このモデルは、モデルなしRLおよびモデルベースRLの両方を受容する。特に、メタRLは、環境文脈変化に適応的に反応するものとして知られている。このモデル(それぞれ、GM−metaRL、PM−metaRL)を教育するために、目標マッチングと政策マッチング方法の両方を使用した。
3つ目のRLモデルは、外側前頭前皮質および腹側線条体(前頭前RL)の神経活動を説明するために演算モデルによって実現された。このモデルには、基準モデルと適応型モデルの2つのバージョンがある。このモデルは、モデルなしRLとモデルベースRLの間で動的に仲裁することによって作業を学習する。具体的には、モデルなしRLおよびモデルベースRLの戦略に割り当てられた制御の程度を試験ごとに調整し、この下向き調整信号は各RL戦略の予測信頼度に基づいて計算する。政策マッチング方法により、このような2つのモデル(PM−pfcRL1とPM−pfcRL2)を学習した。過去の研究では、このようなモデルをデータに適合させるにあたってこのような方法が効果的でないということを明らかにしたため、この場合には目標マッチングは使用しなかった。
脳からインスピレーションを受けたRLモデルの信頼度
図14(b)に示すように、RLモデルが人間行動と潜在政策をどれほど信頼性あるように模倣するかを評価するために信頼度試験を実施した。この試験は、人間が課題を実行しながら学習した高度の政策情報をエンコードする能力を検証する。この過程は、潜在行動プロファイリングと回復性試験によって構成される。
人間が作業路から学ぶ潜在政策を評価する一般的な方法の1つとして、潜在的作業媒介変数(例:目標および状態変換の不確実性)が行動に及ぼす影響を定量化することが挙げられる。この尺度は、学習エージェントが環境構造の変化に対応してどのように行動を変化させるかを反映する。それぞれ与えられた作業媒介変数θと行動データxに対する潜在行動プロファイルhは、次の式のように定義される。
Figure 2021140749
・・・(1)
ここで、hは、多項式機能や神経網のような媒介変数化された機能であってよい。エージェントの作業実行が文脈変更とは関係ないか、エージェントが任意に選択する場合、効果の大きさ(すなわち、hの媒介変数値)は0となる。ここでは、一般線形モデルをhとして簡単に使用する。
潜在動作プロファイル回復性試験の目的は、人間の潜在政策とRLモデルの潜在政策の一貫性を評価することにある。モデルの媒介変数を人間被験者のデータxHumanに合わせた後、本来の作業で本来のフィッティングモデルによってシミュレーションを行い、シミュレーションしたデータxModelを生成する。この後、xHumanとxModelに対してそれぞれ潜在行動プロファイリングを実施する。このような2つの潜在的プロファイル間の有意味な量の相関関係は、RLモデルが学習した潜在政策が人間の潜在政策と類似するということを示す。
信頼度試験のために、潜在行動プロファイルの回復性を調査するために6種類のRLモデル(図15)と任意エージェントを制御条件として一連の実験を実施した。最初の段階では、82名の被験者データ(図14(b)のxHuman)に対する前頭前RL、メタRL、深層RLを教育した。被験者が2段階のマルコフ意思決定作業を実行する間にデータ集合が収集された。2つ目の段階では、すべてのRLモデルが同じである2段階のマルコフ意思決定作業を実行する他のシミュレーション集合を実行し、また他の行動データ集合(図14(b)のxModel)を収集した。この後、潜在的行動プロファイルhHuman、hModelを次の式のように計算した。
Figure 2021140749
・・・(2)
ここで、θTaskは、作業媒介変数を示す。これは、1000個以上のモデルフィッティング工程を含んだ大規模実験である。
7(モデル)×82(対象)×2(訓練および再教育)
多様な実施形態に係る信頼度試験結果において、RLモデルと被験者対象の動作マッチングを定量化するモデルフィッティング面では、PM−meta RLが最も高い性能を示し、前頭前RLと深層RLがその後を継いだ。予想どおり、目標マッチングによって訓練されたRLモデルは、相対的にフィッティング性能が低下した。
しかし、潜在行動プロファイルの体系的な回復分析において、前頭前RLモデル(PM−pfcRL2)の潜在行動プロファイルは人間被験者と質的に類似する反面、他のすべてのRLモデルは効果を複製することができなかった。PM方法によって訓練されたメタRLの場合は偽の相関関係を示したが、このモデルが作業を実行する方式が人間のそれと根本的に異なることを示す、負の相関関係がある。相関関係の勾配と有意性の両方を考慮した適合度統計量を計算するときには、この効果はより劇的に現れる。前頭前RLモデル(PM−pfcRL2)の効果は、他のすべてのRLモデルの効果よりも3倍以上高い。このような結果は、単に人間の行動を模倣することは、エージェントが実際に人間の潜在政策を学習することを意味しないということを示唆する。
脳からインスピレーションを受けたRLモデルの経験的一般化能力
図16は、多様な実施形態における、各RLモデルの一般化試験のためのシミュレーション環境を説明するための図である。
図16を参照すると、モデルが本来の作業で他の作業として学んだことを一般化する能力を経験的に試験するために(図14(c))、環境変動性の文脈でモデルを配置した。上述したものと同じRLモデル集合を使用し、それぞれ異なる方式で潜在的状況変数を操作する10種類の互いに異なるマルコフ意思決定課題によって大規模シミュレーションを行った。作業は、作業構造(梯子(Ladder)およびツリー(Tree))と、作業不確実性(固定(Fixed)、ドリフト(Drift)、スイッチ(Switch)、ドリフト+スイッチ(Drift+Switch))の2つの作業媒介変数を体系的に操作して生成された。図16(b)に示すように、作業構造は、梯子とツリータイプを使用した。図16(c)に示すように、作業不確実性変動に対して4つの異なる類型の状態転換関数を検討したが、それぞれの状態転換確率値は試験ごとに異なる方式によって変更された。
最初の類型(「固定」)は、固定状態変換確率を使用する。2つ目の類型(「ドリフト」)は、ランダム歩行による状態変換確率を使用し、状態変換確率値は相対的に遅く変更される。3つ目の類型(「スイッチ」)は、それぞれ低い不確実性と高い不確実性をもつ条件であるという、2つの異なる状態変換条件が交互に現れる。この作業において、学習エージェントは、作業構造の急激な変化を経験し、迅速に適応する必要がある。4つ目の類型(「ドリフト+スイッチ」)は、2つ目と3つ目の類型の混合物である。図16(d)に示すように、各作業の全体構成を示すことができる。Task1とTask10は、脳のRL過程を調査する過去の研究で使用された作業に該当する。
図17は、多様な実施形態における、RLモデルの適応能力に対するシミュレーション結果を示した図である。
経験的一般化能力を試験するために、本来のデータ集合に対して訓練された6つのRLモデル(上述したRLモデル)が10個のマルコフ意思決定課題を実行するシミュレーションを行った。ここには、合計4,920個のシミュレーション(=82個の課題(subject)×6RLモデル×10個の作業(task))が含まれた。全作業にわたる平均性能は経験的一般化能力を示し、各作業に対する性能は互いに異なる状況における該当のモデルの適応能力を示す。図17を参照すると、前頭前RLモデルが最も高い水準の一般化能力を示すことを発見した。
Figure 2021140749
特に、表1を参照すると、PM−pfcRL2は、10個の作業のうちの9個の作業を成功的に解決し、9個の作業のうちの8個の作業で正規化報酬として最も高い点数を受けた。GM−metaRLとPM−pfcRL1は、2番目に優れた性能を示した。PM−pfcRL1の性能はGM−metaRLと同じであったが、PM−pfcRL1は6個の作業のうちの5個の作業で極めて優れた成績をおさめた。このような結果を総合するとき、前頭前RLモデル(PM−pfcRL1およびPM−pfcRL2)は、本来の作業で学んだことを一般化することが可能な最高の能力をもつことを示唆する。
RLモデルの一般化能力を定量化するために、潜在的情報−理論的尺度を提供してよい。一般化能力の性質をさらに理解するために情報理論的分析を実施した。この分析は、(1)事件の過去のエピソードの観測においてRLモデルの作用によって伝達される情報の量と、(2)その作用の最適性の程度を定量化するために設計された。一般性が高いほどRLモデルがエピソード情報をより効果的にエンコードして最適の作用を発生させるという仮説を立てた。このように、モデルの一般化能力を、(1)エピソード事件およびエージェントの行動(「エピソードエンコード効果」)から得た相互情報だけでなく、(2)エージェントの行動と最適の行動(「選択的最適性」)によって定量化することができることに期待する。最適の行動は、作業の媒介変数変更に対して十分に理解していると仮定した上で、理想的なエージェントが取った行動として定義された。エピソードエンコード効果は
Figure 2021140749
として定義され、Ft−1とaは、試みt−1におけるエピソード変数および試みtにおける行動である。選択最適性は
Figure 2021140749
として定義され、aとat*はそれぞれ、RLエージェントと理想的なエージェントの選択(行動)である。ここで、一般化可能なRLエージェントの1つ基本的な要求事項は、過去のエピソードでそれの行動と作業実行に情報を送信する能力であると仮定した。したがって、「episodic encoding efficacy」と呼ばれるエピソードエンコード効果と選択的最適性の相関関係は、RLモデルの一般化能力を示す1つの潜在的情報−理論的指標となってよい。
多様な実施形態に係るエピソードエンコード効果検証のために、この後、この尺度を使用して割合
Figure 2021140749
およびエピソードエンコード効果の代用として適合度統計量を計算した。ここで、前頭前RL(PM−pfcRL1とPM−pfcRL2の両方)が最も高い水準のエピソードエンコード効果を示すことを発見した。特に、最も一般化可能なモデルであるPM−pfcRL2は、10個の作業のうちの8個の作業でエピソードエンコード効果と選択的最適性との間に有意味な相関関係を示した。また、経験的一般化能力(図17)は、その大部分が成功的エンコード効果のR2と一致するという点に注目する。このような結果は3つの重要な意味をもつ。1つ目に、エピソードエンコード効果は、一般化能力の性質をさらに理解するための助けとなる。2つ目に、エピソードエンコード効果は、エージェントの一般化能力を計量化する優れた候補となる。この尺度は、極めて一般化が可能なRLアルゴリズムの設計に直接使用されてよい。
多様な実施形態によると、人間の強化学習過程にある一般化能力を強化学習アルゴリズムで過剰適合なくアルゴリズム化することのできる、一般化可能な人間模写型強化学習アルゴリズムの設計のための政策信頼度、情報処理効率、および一般化能力の定量化方法および装置を提供することができる。
多様な実施形態は、人間知能のすべての行動は高次元的な認知機能に基づいて起こるため、この行動を予測して活用する価値があるすべての分野で応用することができる。一例として、人間の文脈依存的な強化学習過程を模写するモデルを利用することで、人間行動の補助において効率的に対応するシステムを構築し、人間が優れた成果をおさめるように補助することができる。
モノのインターネット(Internet−of−Things:IoT)分野では、多様な機器をコントロールしなければならないため、各機器のコントロールに活用される認知機能も多様となる。このとき、多様な実施形態に係るシステムの汎用性は、各機器を制御するときに求められる認知状態の差にかかわらずに人間を補助できるだけでなく、既に構築されたIoT生態系に新たな機器が含まれたときでも、過剰適合なく行動を予測するAIを開発することができる。
また、多様な問題に対する一般化能力は、人間の作業実行知能とも直結するため、多様な実施形態に係る技術により、複雑な意思決定が重要となる裁判官、医者、金融専門家、軍事作戦指揮官などに対する作業実行能力プロファイリングが可能となる。また、スマート教育のためのカスタマイズシステムに基づく技術でも活用が可能となる。
多様な実施形態に係る技術を利用して導き出される人間の強化学習模写型アルゴリズムは、人間の意思決定の核心過程を理解するツールとして活用されてもよい。過去のAIには、このような人間の意思決定過程に対する理解が存在しなかったが、人間の行動特性をそのまま予測するAIの開発により、ロボティックス分野では人間の行動をより適切に予測して補助するAIを開発することが可能となり、ゲーム分野では人間と自然な相互作用が可能であるより知能的なAIエンジンを開発することが可能となる。
一方、現行の広告提案技術は、人間の過去の検索記録に基づいて新たな広告を推薦している。しかし、このような広告提案技術は、個人の行動特性に対する理解に欠けており、ユーザの関心範囲からまったく掛け離れた広告を提案するケースが多かった。多様な実施形態に係る技術を活用すれば、人間とAIの共振化により、ユーザの行動範囲内に存在する広告を推薦することが可能となる。
以上のように、人間知能の特性を涵養する人間模倣型人工知能の設計は、単に人間の行動と類似するように予測するだけでなく、その特性が学習と性能の効率にあるため、より少ない努力でより優れた結果が得られるという点において、人工知能産業の全般にわたって適用可能な有益な技術である。特に、強化学習は、問題解決および意思決定に大きく役立つため、人間を含んだ知能的判断を必要とするすべての人工知能開発に重要となる。
人工知能の開発は、特定の問題状況を解決のために相当な計算と時間資源の投資が必要であるにもかかわらず、その人工知能が、多様な問題解決ではなく特定の問題解決だけにしか適用できないという大きな短所があった。これとは反対に、本システムは、一般化可能なアルゴリズムの開発を可能とし、多様な問題解決への適用が可能である。
開発中あるいは開発済みのすべての人工知能の自然知能的特性検証に適用可能である。人間知能を模写することで人間の認知過程を予測しようとするモデルは、過剰適合のエラーに陥りやすく、このような過剰適合のエラーは必ず排除しなければならない。
多様な実施形態に係るコンピュータによって実行される一般化可能な人間模写型強化学習モデルの設計のための定量化方法は、人間の強化学習過程にある一般化能力を強化学習モデルに移植するために、逆強化学習によって導き出された強化学習モデルが作業の文脈変化を政策にどれほど反映しているかを定量化する政策信頼度定量化段階を含んでよい。
多様な実施形態によると、政策信頼度定量化段階は、作業の作業媒介変数と人間の行動プロファイルのマッピング関数を近似化する段階、作業媒介変数と強化学習アルゴリズムの行動プロファイルのマッピング関数を近似化する段階、および近似化された2つのマッピング関数を比較する段階を含んでよい。
多様な実施形態によると、前記定量化方法は、一般化能力の精密な検証のために、作業の実際問題の複雑度と文脈変化を媒介変数化した作業空間でサンプリングされた作業に対する一般化可能性を検証する一般化能力検証段階をさらに含んでよい。
多様な実施形態によると、前記定量化方法は、環境から行動に連結される情報の転換または移動過程が核心的な人間知能の行動原理を適切に反映しているかを定量化する問題解決情報処理効率定量化段階をさらに含んでよい。
多様な実施形態によると、問題解決情報処理効率定量化段階は、文脈変化によって問題解決政策を変化させる人間模写型強化学習モデルの政策信頼度定量化による適応能力と問題解決のために検証された一般化能力の連結性確認のために、マルコフ連鎖(Markov chain)を利用して定量化を行ってよい。
多様な実施形態によると、問題解決情報処理効率定量化段階は、問題解決過程で発生する過去のエピソードが強化学習政策に反映される情報圧縮効率と強化学習政策から導き出される行動の最適性の割合を、エピソード−政策−行動のように繋がるマルコフ連鎖上の相互情報量(mutual information)を利用して計算してよい。
多様な実施形態によると、行動の最適性の割合は、最適な問題解決のためにエピソード情報を強化学習政策決定に反映する情報伝達体系を示す指標となってよい。
多様な実施形態によると、強化学習モデルは、人間が学習した政策情報を信頼性あるようにエンコードするモデルベース制御とモデルなし(model−free)制御を結合した計算モデルであってよい。
多様な実施形態によると、強化学習モデルは、目標マッチング(goal matching:GM)、行動模倣(behavior cloning:BC)、および政策マッチング(policy matching:PM)の学習方法によって構築されてよい。
多様な実施形態に係る一般化可能な人間模写型強化学習モデルの設計のための定量化装置1300は、人間の強化学習過程にある一般化能力を強化学習モデルに移植するために、逆強化学習によって導き出された強化学習モデルが作業の文脈変化を政策にどれほど反映しているかを定量化する政策信頼度定量化部1310を含んでよい。
多様な実施形態によると、政策信頼度定量化部1310は、作業の作業媒介変数と人間の行動プロファイルのマッピング関数を近似化し、作業媒介変数と強化学習アルゴリズムの行動プロファイルのマッピング関数を近似化した後、近似化された2つのマッピング関数を比較してよい。
多様な実施形態によると、前記定量化装置1300は、一般化能力の精密な検証のために、作業の実際問題の複雑度と文脈変化を媒介変数化した作業空間でサンプリングされた作業に対する一般化可能性を検証する一般化能力検証部1320をさらに含んでよい。
多様な実施形態によると、前記定量化装置1300は、環境から行動に連結される情報の転換または移動過程が核心的な人間知能の行動原理を適切に反映しているかを定量化する問題解決情報処理効率定量化部1330をさらに含んでよい。
多様な実施形態によると、問題解決情報処理効率定量化部1330は、文脈変化によって問題解決政策を変化させる人間模写型強化学習モデルの政策信頼度定量化部による適応能力と一般化能力検証部による問題解決のために検証された一般化能力との連結性確認のために、マルコフ連鎖(Markov chain)を利用して定量化を行ってよい。
多様な実施形態によると、問題解決情報処理効率定量化部1330は、問題解決過程で発生する過去のエピソードが強化学習政策に反映される情報圧縮効率と強化学習政策から導き出される行動の最適性の割合を、エピソード−政策−行動のように繋がるマルコフ連鎖上の相互情報量(mutual information)を利用して計算してよい。
多様な実施形態によると、行動の最適性の割合は、最適な問題解決のためにエピソード情報を強化学習政策決定に反映する情報伝達体系を示す指標となってよい。
多様な実施形態によると、強化学習モデルは、人間が学習した政策情報を信頼性あるようにエンコードするモデルベース制御とモデルなし(model−free)制御を結合した計算モデルであってよい。
本明細書の多様な実施形態は、コンピュータ装置によって読み取り可能な記録媒体(storage medium)に記録された1つ以上の命令を含むコンピュータプログラムによって実現されてよい。例えば、コンピュータ装置のプロセッサ(例:プロセッサ140)は、記録媒体から記録された1つ以上の命令のうちの少なくとも1つを呼び出し、これを実行してよい。これは、コンピュータ装置が呼び出しされた少なくとも1つの命令にしたがって少なくとも1つの機能を実行するように制御されることを可能にする。1つ以上の命令は、コンパイラによって生成されたコード、またはインタプリタによって実行されることのできるコードを含んでよい。コンピュータ装置によって読み取り可能な記録媒体は、非一時的(non−transitory)記録媒体の形態で提供されてよい。ここで、「非一時的」とは、記録媒体が実在(tangible)する装置であって、信号(signal)(例:電磁波)を含まないものを意味し、この用語は、データが記録媒体に半永久的に記録される場合と一次的に記録される場合とを区分しない。
本明細書の多様な実施形態およびこれに使用される用語は、本明細書に記載された技術を特定の実施形態に対して限定するためのものではなく、該当の実施例の多様な変更、均等物、および/または置換物を含むものと解釈されなければならない。図面の説明に関し、類似する構成要素に対しては類似する参照符号を付与した。単数の表現は、文脈で明らかに異なる意図を示さない限り、複数の表現も含んでよい。本明細書において、「AまたはB」、「Aおよび/またはBのうちの少なくとも1つ」、「A、B、またはC」、または「A、B、および/またはCのうちの少なくとも1つ」などの表現は、羅列される項目のすべての可能な組み合わせを含んでよい。「第1」、「第2」または「1つ目」、「2つ目」などの表現は、該当の構成要素を順序または重要度とは関係なく修飾するものであり、ある構成要素を他の構成要素と区分するためだけに使用されるものであって、該当の構成要素を限定するものではない。ある(例:第1)構成要素が他の(例:第2)構成要素に「(機能的にまたは通信的に)連結され」ていたり「接続され」ているという記載は、ある構成要素が他の構成要素に直接的に連結することはもちろん、他の構成要素(例:第3構成要素)を介して連結してもよい。
本明細書で使用される用語「モジュール」は、ハードウェア、ソフトウェア、またはファームウェアで構成されたユニットを含み、例えば、ロジック、論理ブロック、部品、または回路などの用語と相互互換的に使用されてよい。モジュールは、一体で構成された部品、または1つまたはそれ以上の機能を実行する最小単位またはその一部であってよい。例えば、モジュールは、ASIC(application−specific integrated circuit)で構成されてよい。
多様な実施形態によると、記載した構成要素のそれぞれの構成要素(例:モジュールまたはプログラム)は、単数または複数の個体を含んでよい。多様な実施形態によると、上述した該当の構成要素のうちの1つ以上の構成要素または動作が省略されてもよいし、1つ以上の他の構成要素または動作が追加されてもよい。大体的にまたは追加的に、複数の構成要素(例:モジュールまたはプログラム)は、1つの構成要素として統合されてよい。このような場合、統合された構成要素は、複数の構成要素それぞれの構成要素の1つ以上の機能を統合する前に、複数の構成要素のうちの該当の構成要素によって実行されるものと同一または類似するように実行してよい。多様な実施形態によると、モジュール、プログラム、または他の構成要素によって実行される動作は、順次的、並列的、反復的、または発見的(heuristic)に実行されたり、動作のうちの1つ以上が他の順序で実行されたり、省略されたり、または1つ以上の他の動作が追加されたりしてよい。
100:電子装置
110:入力モジュール
120:出力モジュール
130:メモリ
140:プロセッサ

Claims (20)

  1. 電子装置の動作方法であって、
    タスクに対する人間の処理データに基づき、1次モデルをフィッティングする動作、
    前記タスクに対する前記1次モデルの処理データに基づき、2次モデルをフィッティングする動作、および
    前記1次モデルと前記2次モデルに対するプロファイリングにより、前記2次モデルを前記人間の知能に対する移植モデルとして決定する動作を含む、方法。
  2. 前記人間の処理データは、
    前記人間が前記タスクを処理する間に発生する行動データまたは脳信号のうちの少なくともいずれか1つを含む、請求項1に記載の方法。
  3. 前記移植モデルとして決定する動作は、
    前記1次モデルと前記2次モデルの相関度を検出する動作、および
    前記相関度に基づき、前記2次モデルを前記移植モデルとして決定するかを判断する動作を含む、請求項1に記載の方法。
  4. 理論的に少なくとも1つの環境変数を設計する動作をさらに含み、
    前記1次モデルをフィッティングする動作は、
    前記環境変数に基づき、前記人間の処理データから前記1次モデルをフィッティングし、
    前記2次モデルをフィッティングする動作は、
    前記環境変数に基づき、前記1次モデルの処理データから前記2次モデルをフィッティングする、請求項3に記載の方法。
  5. 前記1次モデルをフィッティングする動作は、
    前記人間の処理データに基づき、前記1次モデルを学習する動作を含み、
    これにより、前記1次モデルの行動プロファイルまたは少なくとも1つのパラメータのうちの少なくともいずれか1つが前記環境変数に基づいて検出される、請求項4に記載の方法。
  6. 前記2次モデルをフィッティングする動作は、
    前記1次モデルの処理データに基づき、前記2次モデルを学習する動作を含み、
    これにより、前記2次モデルの行動プロファイルまたは少なくとも1つのパラメータのうちの少なくともいずれか1つが前記環境変数に基づいて検出される、請求項5に記載の方法。
  7. 前記相関度を検出する動作は、
    前記1次モデルの行動プロファイルと前記2次モデルの行動プロファイルを比較して、プロファイル相関度を検出する動作、または
    前記1次モデルのパラメータと前記2次モデルのパラメータを比較して、パラメータ相関度を検出する動作のうちの少なくともいずれか1つ、および
    前記プロファイル相関度または前記パラメータ相関度のうちの少なくともいずれか1つに基づき、前記相関度を検出する動作を含む、請求項6に記載の方法。
  8. 前記移植モデルとして決定するかを判断する動作は、
    前記相関度が予め設定された閾値を超過すれば、前記2次モデルを前記移植モデルとして決定する動作を含む、請求項3に記載の方法。
  9. 前記環境変数は、
    状態遷移の不確実性、状態空間の複雑性、新規性、状態予測エラー、または報酬予測エラーのうちの少なくともいずれか1つを含む、請求項4に記載の方法。
  10. 電子装置であって、
    メモリ、および
    前記メモリに接続され、前記メモリに記録された少なくとも1つの命令を実行するように構成されたプロセッサを含み、
    前記プロセッサは、
    タスクに対する人間の処理データに基づき、1次モデルをフィッティングし、
    前記タスクに対する前記1次モデルの処理データに基づき、2次モデルをフィッティングし、
    前記1次モデルと前記2次モデルに対するプロファイリングにより、前記2次モデルを前記人間の知能に対する移植モデルとして決定するように構成される、装置。
  11. 前記人間の処理データは、
    前記人間が前記タスクを処理する間に発生する行動データまたは脳信号のうちの少なくともいずれか1つを含む、請求項10に記載の装置。
  12. 前記プロセッサは、
    前記1次モデルと前記2次モデルの相関度を検出し、
    前記相関度に基づき、前記2次モデルを前記移植モデルとして決定するかを判断するように構成される、請求項10に記載の装置。
  13. 前記プロセッサは、
    理論的に少なくとも1つの環境変数を設計し、
    前記環境変数に基づき、前記人間の処理データから前記1次モデルをフィッティングし、
    前記環境変数に基づき、前記1次モデルの処理データから前記2次モデルをフィッティングするように構成される、請求項12に記載の装置。
  14. 前記プロセッサは、
    前記人間の処理データに基づき、前記1次モデルを学習するように構成され、
    これにより、前記1次モデルの行動プロファイルまたは少なくとも1つのパラメータのうちの少なくともいずれか1つが前記環境変数に基づいて検出される、請求項13に記載の装置。
  15. 前記プロセッサは、
    前記1次モデルの処理データに基づき、前記2次モデルを学習するように構成され、
    これにより、前記2次モデルの行動プロファイルまたは少なくとも1つのパラメータのうちの少なくともいずれか1つが前記環境変数に基づいて検出される、請求項14に記載の装置。
  16. 前記プロセッサは、
    前記1次モデルの行動プロファイルと前記2次モデルの行動プロファイルを比較して、プロファイル相関度を検出し、
    前記1次モデルのパラメータと前記2次モデルのパラメータを比較して、パラメータ相関度を検出し、
    前記プロファイル相関度または前記パラメータ相関度のうちの少なくともいずれか1つに基づき、前記相関度を検出するように構成される、請求項15に記載の装置。
  17. 前記プロセッサは、
    前記相関度が予め設定された閾値を超過すれば、前記2次モデルを前記移植モデルとして決定するように構成される、請求項12に記載の装置。
  18. 前記環境変数は、
    状態遷移の不確実性、状態空間の複雑性、新規性、状態予測エラー、または報酬予測エラーのうちの少なくともいずれか1つを含む、請求項13に記載の装置。
  19. コンピュータ装置と結合され、前記コンピュータ装置によって読み取り可能な記録媒体に記録されたコンピュータプログラムであって、
    タスクに対する人間の処理データに基づき、1次モデルをフィッティングする動作、
    前記タスクに対する前記1次モデルの処理データに基づき、2次モデルをフィッティングする動作、および
    前記1次モデルと前記2次モデルに対するプロファイリングにより、前記2次モデルを前記人間の知能に対する移植モデルとして決定する動作を実行するための、コンピュータプログラム。
  20. 前記移植モデルとして決定する動作は、
    前記1次モデルと前記2次モデルの相関度を検出する動作、および
    前記相関度に基づき、前記2次モデルを前記移植モデルとして決定するかを判断する動作を含む、 請求項19に記載のコンピュータプログラム。
JP2020208693A 2020-03-09 2020-12-16 人間の知能を人工知能に移植するための精密行動プロファイリングのための電子装置およびその動作方法、並びにコンピュータプログラム Active JP7283774B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2020-0028772 2020-03-09
KR20200028772 2020-03-09
KR10-2020-0126999 2020-09-29
KR1020200126999A KR102514799B1 (ko) 2020-09-29 2020-09-29 일반화 가능한 인간 모사형 강화학습 알고리즘 설계를 위한 정책 신뢰도, 정보처리 효율 및 일반화 능력의 정량화 방법 및 장치

Publications (2)

Publication Number Publication Date
JP2021140749A true JP2021140749A (ja) 2021-09-16
JP7283774B2 JP7283774B2 (ja) 2023-05-30

Family

ID=77555816

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020208693A Active JP7283774B2 (ja) 2020-03-09 2020-12-16 人間の知能を人工知能に移植するための精密行動プロファイリングのための電子装置およびその動作方法、並びにコンピュータプログラム

Country Status (3)

Country Link
US (1) US20210279547A1 (ja)
JP (1) JP7283774B2 (ja)
WO (1) WO2021182723A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220180230A1 (en) * 2020-12-07 2022-06-09 International Business Machines Corporation Hybrid Decision Making Automation
CN115407750B (zh) * 2022-08-12 2023-11-21 北京津发科技股份有限公司 人机协同智能系统决策能力的测评方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019121141A (ja) * 2017-12-29 2019-07-22 大日本印刷株式会社 デバイス、セキュアエレメント、プログラム、情報処理システム及び情報処理方法
JP2019159654A (ja) * 2018-03-12 2019-09-19 国立研究開発法人情報通信研究機構 時系列情報の学習システム、方法およびニューラルネットワークモデル

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130071734A (ko) * 2011-12-21 2013-07-01 한국과학기술원 오차 보정 가능한 지능 시스템 및 그 방법
US9280745B1 (en) * 2015-07-08 2016-03-08 Applied Underwriters, Inc. Artificial intelligence expert system for screening
KR102132529B1 (ko) * 2018-07-31 2020-07-09 한국과학기술원 뇌 기반 인공지능 기술을 이용한 행동 및 신경 수준에서의 인간의 학습/추론 과정 비침습적 제어 방법 및 시스템
KR20190106861A (ko) * 2019-08-27 2019-09-18 엘지전자 주식회사 학습 데이터를 생성하는 인공 지능 장치, 인공 지능 서버 및 그 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019121141A (ja) * 2017-12-29 2019-07-22 大日本印刷株式会社 デバイス、セキュアエレメント、プログラム、情報処理システム及び情報処理方法
JP2019159654A (ja) * 2018-03-12 2019-09-19 国立研究開発法人情報通信研究機構 時系列情報の学習システム、方法およびニューラルネットワークモデル

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
FREDERICK TUNG, ET AL.: ""Similarity-Preserving Knowledge Distillation"", PROCEEDINGS OF THE IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), JPN6023014099, October 2019 (2019-10-01), pages 1365 - 1374, ISSN: 0005033692 *
ドッサ ルスラン フェルナン ジュリアン(外4名): "「強化学習と模倣学習の融合による人間らしいエージェント」", 第33回人工知能学会全国大会論文集, vol. セッションID: 1Q2-J-2-01, JPN6023014096, 1 June 2019 (2019-06-01), JP, pages 4, ISSN: 0005033689 *
人工知能学会 編集,西田 豊明(外2名)著, 「知の科学 社会知デザイン」, vol. 第1版, JPN6023014097, 10 June 2009 (2009-06-10), JP, pages 95 - 97, ISSN: 0005033690 *
岩澤 有祐(外2名): "「半教師あり蒸留による深層学習に基づく行動認識モデルのユーザ適応」", 人工知能学会論文誌, vol. 32, no. 3, JPN6023014098, 1 May 2017 (2017-05-01), JP, pages 82 - 1, ISSN: 0005033691 *
高木 純平(外1名): "「自己蒸留によるDNNの蒸留の効率化」", 電気学会論文誌C, vol. 139, no. 12, JPN6022008445, 1 December 2019 (2019-12-01), JP, pages 1509 - 1516, ISSN: 0004722362 *

Also Published As

Publication number Publication date
JP7283774B2 (ja) 2023-05-30
US20210279547A1 (en) 2021-09-09
WO2021182723A1 (ko) 2021-09-16

Similar Documents

Publication Publication Date Title
Vecerik et al. Leveraging demonstrations for deep reinforcement learning on robotics problems with sparse rewards
US11507802B2 (en) Recursive learning for artificial intelligent agents
JP7283774B2 (ja) 人間の知能を人工知能に移植するための精密行動プロファイリングのための電子装置およびその動作方法、並びにコンピュータプログラム
CN111709754A (zh) 一种用户行为特征提取方法、装置、设备及系统
Liu et al. Efficient preference-based reinforcement learning using learned dynamics models
CN117591870A (zh) 一种基于深度强化学习的情感感知智能教学方法及系统
Paulauskaite-Taraseviciene et al. The usage of artificial neural networks for intelligent lighting control based on resident’s behavioural pattern
Bailly et al. Computational model of the transition from novice to expert interaction techniques
Celemin et al. Knowledge-and ambiguity-aware robot learning from corrective and evaluative feedback
KR20210113939A (ko) 인간의 지능을 인공 지능으로 이식하기 위한 정밀 행동 프로파일링을 위한 전자 장치 및 그의 동작 방법
Campuzano et al. Generation of human computational models with machine learning
Wu et al. A framework of improving human demonstration efficiency for goal-directed robot skill learning
WO2023089097A1 (en) Scalable, data-driven digital marketplace providing a standardized secured data system for interlinking sensitive risk-related data, and method thereof
US20220164659A1 (en) Deep Learning Error Minimizing System for Real-Time Generation of Big Data Analysis Models for Mobile App Users and Controlling Method for the Same
Chien et al. Stochastic curiosity maximizing exploration
WO2021140698A1 (ja) 情報処理装置、方法及びプログラム
JP2023090591A (ja) 共進化神経常微分方程式基盤の人工知能神経網装置及び方法
KR102514799B1 (ko) 일반화 가능한 인간 모사형 강화학습 알고리즘 설계를 위한 정책 신뢰도, 정보처리 효율 및 일반화 능력의 정량화 방법 및 장치
Ruvolo et al. Building a more effective teaching robot using apprenticeship learning
Tzima et al. Strength-based learning classifier systems revisited: Effective rule evolution in supervised classification tasks
Lončarević et al. Learning of Robotic Throwing at a Target using a Qualitative Learning Reward
KR102529726B1 (ko) 인공지능 기반의 근력 예측 방법 및 장치
KR102669921B1 (ko) 사용자의 개념 이해도에 관한 정보를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
KR20230018569A (ko) 개체 상태 예측 장치, 개체 상태 예측 방법 및 개체 상태 예측 방법을 실행시키도록 기록매체에 저장된 컴퓨터 프로그램
US20230306238A1 (en) Multi-level coordinated internet of things artificial intelligence

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201216

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20201223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220601

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230124

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20230124

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230201

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20230207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230511

R150 Certificate of patent or registration of utility model

Ref document number: 7283774

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150