JP2024070488A - 情報処理装置、プログラム、及び情報処理方法 - Google Patents

情報処理装置、プログラム、及び情報処理方法 Download PDF

Info

Publication number
JP2024070488A
JP2024070488A JP2022181014A JP2022181014A JP2024070488A JP 2024070488 A JP2024070488 A JP 2024070488A JP 2022181014 A JP2022181014 A JP 2022181014A JP 2022181014 A JP2022181014 A JP 2022181014A JP 2024070488 A JP2024070488 A JP 2024070488A
Authority
JP
Japan
Prior art keywords
learning
neural network
image
visual cortex
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022181014A
Other languages
English (en)
Inventor
裕子 石若
Yuko ISHIWAKA
和人 須田
Kazuto SUDA
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SoftBank Corp
Original Assignee
SoftBank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SoftBank Corp filed Critical SoftBank Corp
Priority to JP2022181014A priority Critical patent/JP2024070488A/ja
Priority to PCT/JP2023/033865 priority patent/WO2024100995A1/ja
Publication of JP2024070488A publication Critical patent/JP2024070488A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)

Abstract

【課題】視覚野の視覚路の構成に基づく学習を実行することによって生成した視覚路層を有する情報処理装置、プログラム及び情報処理方法を提供する。【解決手段】ニューラルネットワークを生成する学習装置100は、視覚野の視覚路の構成に基づく学習を実行することによって生成した視覚路層を有する画像を入力とし、前記画像に含まれる対象に関する情報を出力とするニューラルネットワークを生成する学習実行部130と、学習実行部130において生成されたニューラルネットワークを記憶する記憶部110と、を備える。【選択図】図3

Description

本発明は、情報処理装置、プログラム、及び情報処理方法に関する。
特許文献1には、ユーザの顔画像を取得し、顔画像に含まれる特徴点に関する情報を用いてユーザを認証する技術が記載されている。
[先行技術文献]
[特許文献]
[特許文献1]特開2021-170205号公報
本発明の一実施態様によれば、情報処理装置が提供される。前記情報処理装置は、視覚野の視覚路の構成に基づく学習を実行することによって生成した視覚路層を有する、画像を入力とし、前記画像に含まれる対象に関する情報を出力とするニューラルネットワークを生成する学習実行部を備えてよい。前記情報処理装置は、前記学習実行部によって生成された前記ニューラルネットワークを記憶する記憶部を備えてよい。
前記情報処理装置において、前記学習実行部は、1次視覚野における方位選択性を再現するように学習した1次視覚野層を含む前記視覚路層を有する前記ニューラルネットワークを生成してよい。前記学習実行部は、画像に含まれるエッジの角度毎に発火すべきニューロンが対応付けて登録された学習データを用いて、入力された画像に含まれるエッジに対応するニューロンが発火する前記1次視覚野層を生成してよい。前記学習実行部は、動画像に対して、前記エッジの角度毎に異なる前記ニューロンの反応速度に従ってウェイトを変更する強化学習を実行して、前記1次視覚野層を生成してよい。
前記いずれかの情報処理装置において、前記学習実行部は、前記1次視覚野における方位選択性よりも細かい2次視覚野における方位選択性を再現するように学習した2次視覚野層を含む前記視覚路層を有する前記ニューラルネットワークを生成してよい。前記学習実行部は、5次視覚野における方向選択性を再現するように学習した5次視覚野層を含む前記視覚路層を有する前記ニューラルネットワークを生成してよい。
前記いずれかの情報処理装置において、前記学習実行部は、スパイキングニューラルネットワークによって構成された前記視覚路層を有する前記ニューラルネットワークを生成してよい。
前記いずれかの情報処理装置において、前記学習実行部は、前記視覚路層と、アノテーション付きのトレーニングデータを用いた学習によって生成されたトレーニング層とを有する前記ニューラルネットワークを生成してよい。前記情報処理装置は、入力された画像を取得する画像取得部と、前記画像取得部が取得した前記画像を前記記憶部に記憶されているニューラルネットワークに入力することによって、前記画像に含まれる対象に関する情報を出力する処理部とを備えてよい。
本発明の一実施態様によれば、コンピュータを、前記情報処理装置として機能させるためのプログラムが提供される。
本発明の一実施態様によれば、コンピュータによって実行される情報処理方法が提供される。前記情報処理方法は、視覚野の視覚路の構成に基づく学習を実行することによって生成した視覚路層を有する、画像を入力とし、前記画像に含まれる対象に関する情報を出力とするニューラルネットワークを生成する学習実行段階を備えてよい。前記情報処理方法は、前記学習実行段階において生成された前記ニューラルネットワークを記憶する記憶段階を備えてよい。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。
システム10の一例を概略的に示す。 学習装置100によって生成されるニューラルネットワーク300について説明するための説明図である。 学習装置100の機能構成の一例を概略的に示す。 ある角度のエッジに対するニューロンの反応についての、反応速度と平均発火率との関係を示す。 学習装置100又は認証装置200として機能するコンピュータ1200のハードウェア構成の一例を概略的に示す。
従来の顔認証システムでは、CNN(Convolutional Neural Network)を用いた大規模なDeep Neural Networkを用いて、大量のトレーニングデータを使用し、特徴量を学習させたものが使用されている。しかし、この手法は、いわば力技であり、人がどのようにして人を認識しているか、ということを考慮していない。本実施形態に係る学習装置100は、例えば、人間の視覚野の視覚路を模倣したニューラルネットワークを用いることで、トレーニング量を低減可能とし、少量のトレーニングデータによって、人と同等あるいはそれ以上の検知、認識を行い、認証に必要な精度を得ることに貢献し得る。なお、学習装置100は、顔認証に限らず、画像を用いた任意の対象の検知、認識を実現可能であってよい。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、システム10の一例を概略的に示す。本実施形態では、システム10が顔認証システムである場合を主に例に挙げて説明する。
システム10は、学習装置100を備える。学習装置100は、情報処理装置の一例であってよい。システム10は、認証装置200を備えてよい。システム10は、カメラ30を備えてもよい。
学習装置100と認証装置200は、ネットワーク20を介して通信してよい。学習装置100とカメラ30は、ネットワーク20を介して通信してよい。認証装置200とカメラ30は、ネットワーク20を介して通信してよい。
ネットワーク20は、インターネットを含んでよい。ネットワーク20は、LAN(Local Area Network)を含んでよい。ネットワーク20は、移動体通信ネットワークを含んでよい。移動体通信ネットワークは、3G(3rd Generation)通信方式、LTE(Long Term Evolution)通信方式、5G(5th Generation)通信方式、及び6G(6th Generation)通信方式以降の通信方式のいずれに準拠していてもよい。
学習装置100は、ネットワーク20に有線接続されてよい。学習装置100は、ネットワーク20に無線接続されてよい。学習装置100は、無線基地局を介してネットワーク20に接続されてよい。学習装置100は、Wi-Fi(登録商標)アクセスポイントを介してネットワーク20に接続されてよい。
認証装置200は、ネットワーク20に有線接続されてよい。認証装置200は、ネットワーク20に無線接続されてよい。認証装置200は、無線基地局を介してネットワーク20に接続されてよい。認証装置200は、Wi-Fi(登録商標)アクセスポイントを介してネットワーク20に接続されてよい。
カメラ30は、ネットワーク20に有線接続されてよい。カメラ30は、ネットワーク20に無線接続されてよい。カメラ30は、無線基地局を介してネットワーク20に接続されてよい。カメラ30は、Wi-Fiアクセスポイントを介してネットワーク20に接続されてよい。
認証装置200とカメラ30とは直接接続されてもよい。また、認証装置200が、カメラ30を内蔵してもよい。
学習装置100は、学習を実行することによってニューラルネットワークを生成する。学習装置100は、画像を入力とし、画像に含まれる対象に関する情報を出力とするニューラルネットワークを生成してよい。学習装置100は、視覚野の視覚路の構成に基づく学習を実行することによって生成した視覚路層を有するニューラルネットワークを生成してよい。本例において、学習装置100は、顔認証を行うためのニューラルネットワークを生成する。
認証装置200は、学習装置100によって生成されたニューラルネットワークを用いて、顔認証を行う。認証装置200は、カメラ30によって撮像された撮像画像を、カメラ30から受信する。カメラ30は、顔認証の対象となる人40を撮像した撮像画像を認証装置200に送信する。当該撮像画像は、動画像であってよい。
カメラ30は、人40の認証を要する任意の場所に設置される。認証装置200がカメラ30を内蔵する場合、認証装置200が、人40の認証を要する任意の場所に設置されてよい。
なお、学習装置100と認証装置200は一体であってもよい。すなわち、学習装置100が認証装置200を兼ねてもよい。この場合、学習装置100は、認証装置200の機能を備える。
また、本実施形態では、システム10が顔認証システムである場合を主に例に挙げて説明するが、これに限られない。システム10は、画像を用いた任意の対象についての、検知、認識、及び認証の少なくともいいずれかを行うシステムであってよい。この場合、学習装置100は、任意の対象の検知、認識、及び認証の少なくともいずれかを行うためのニューラルネットワークを生成してよい。
図2は、学習装置100によって生成されるニューラルネットワーク300について説明するための説明図である。ニューラルネットワーク300は、入力層310、視覚路層320、トレーニング層330、及びソフトマックス340を有する。
外界からの光の情報が眼球網膜の視細胞で受容された後、視覚情報は処理される。視覚情報の流れを視覚路と呼ぶ場合がある。脳が視覚情報をどのように処理して対象を判定しているかについて、様々な研究が行われており、視覚路の構成は解明が進んでいる。本実施形態に係る学習装置100は、視覚野の視覚路のうち、解明されている部分の構成をニューラルネットワーク300に反映する。
視覚野は、1次視覚野(V1)、2次視覚野(V2)、3次視覚野(V3)、4次視覚野(V4)、及び5次視覚野(V5)を含む。V5は、MT野(Middle temporal)と呼ばれる場合もある。V1、V2、V3、V4、V5は、複雑に連携しており、それぞれの機能を一概に規定することは難しいが、代表的な機能として、V1は、方位選択性を有する。方位選択性とは、ニューロンが視覚刺激の中で特定の傾きに対して選択的に応答する性質を示す。V2は、V1よりも細かい方位選択性と、エッジの太さ、細さに対する反応性と、白黒に対する反応性とを有する。V5は、方向選択性を有する。方向選択性とは、ニューロンが視覚刺激の中のある運動方向に対して選択的に応答する性質を示す。
例えば、「Receptive fields of single neurones in the cat's striate cortex. Journal of Physiology,pp.574-591,1959」等の研究において、1次視覚野における方位選択性について解明されている。1次視覚野には、視覚刺激の中に含まれるエッジの角度毎に発火するニューロンが存在する。
学習装置100は、1次視覚野における方位選択性を再現するように学習することによって、1次視覚野層322を生成する。学習装置100は、例えば、画像に含まれるエッジの角度毎に発火すべきニューロンが対応付けて登録された学習データを用いて、入力された画像に含まれるエッジの角度に対応するニューロンが発火する1次視覚野層322を生成する。
また、例えば、「Representation of angles embedded within contour stimuli in area V2 of macaque monkeys. The journal of neuroscience: the official journal of the Society for Neuroscience, pp.3313-24, 2004」では、2次視覚野の性質が解明されている。2次視覚野には、1次視覚野の方位選択性よりも細かい方位選択性を有するニューロンが存在する。また、2次視覚野には、エッジの太さ、細さに反応するニューロンと、白黒に反応するニューロン、空間周波数に反応するニューロン、色に反応するニューロン性とが存在する。
学習装置100は、2次視覚野の性質を再現するように学習することによって、2次視覚野層324を生成する。学習装置100は、例えば、2次視覚野における、1次視覚野における方位選択性よりも細かい方位選択性を再現するように学習することによって、2次視覚野層324を生成する。
また、例えば、「Functional properties of neurons in middle temporal visual area of the macaque monkey. I. Selectivity For stimulus direction, speed, and orientation. Journal of Neurophysilology. pp.1127-1147, 1983」では、5次視覚野について解明されている。5次視覚野には、視覚刺激の中に含まれるエッジの運動方向毎に発火するニューロン、エッジの移動スピードに反応するニューロン、が存在する。
学習装置100は、5次視覚野における方向選択性を再現するように学習することによって、5次視覚野層326を生成する。学習装置100は、例えば、画像に含まれるエッジの運動方向毎に発火すべきニューロンが対応付けて登録された学習データを用いて、入力された画像に含まれるエッジの運動方向に対応するニューロンが発火する5次視覚野層326を生成する。学習装置100は、例えば、右と左が反応したら、上に反応、というcomplexを取り扱う層とする。
学習装置100は、目的に応じたアノテーション付きのトレーニングデータを用いた学習によって、トレーニング層330を生成する。例えば、顔認証を目的とする場合、学習装置100は、アノテーション付きの大量の顔画像をトレーニングデータとして用いた学習を実行する。
本例のように、顔認証のような分類問題を対象とする場合、ニューラルネットワーク300は、ソフトマックス340を有する。ニューラルネットワーク300は、目的に応じて、ソフトマックス340を有さなくてもよい。例えば、回帰問題を対象とする場合、ニューラルネットワーク300は、ソフトマックス340に代えて、恒等関数を有してよい。
大量のトレーニングデータを用いてニューラルネットワーク300の全体を生成することもできるが、計算に非常に多くの時間を要する。また、トレーニングデータを収集する負荷が非常に大きくなる。それに対して、本実施形態に係る学習装置100によれば、視覚野の視覚路を模倣したニューラルネットワークを用いることによって、無駄なトレーニングを省き、トレーニングによって全体を生成する場合と比較して少量のトレーニングで、人と同等又はそれ以上の検知、認識を行い、認証に必要な精度を得ることが出来る。
なお、視覚路層320は、1次視覚野層322及び2次視覚野層324のみを含んでもよい。すなわち、学習装置100は、1次視覚野層322及び2次視覚野層324を生成し、それ以降の層を、トレーニングデータを用いて生成することによって、ニューラルネットワーク300を生成してもよい。
また、視覚路層320は、1次視覚野層322のみを含んでもよい。すなわち、学習装置100は、1次視覚野層322を生成し、それ以降の層を、トレーニングデータを用いて生成することによって、ニューラルネットワーク300を生成してもよい。
図3は、学習装置100の機能構成の一例を概略的に示す。図3では、学習装置100が認証装置200を兼ねる場合の機能構成を例示する。学習装置100は、記憶部110、学習データ取得部122、報酬関連データ取得部124、トレーニングデータ取得部126、学習実行部130、学習結果出力部132、画像取得部134、及び処理部136を備える。なお、学習装置100がこれらの全てを備えることは必須とは限らない。
記憶部110は、各種データを記憶する。記憶部110は、学習データ記憶部112、報酬関連データ記憶部114、トレーニングデータ記憶部116、及び学習結果記憶部118を有する。
学習データ取得部122は、学習データを取得する。学習データ取得部122は、学習装置100において、学習装置100の利用者等によって生成された学習データを取得してよい。学習データ取得部122は、他の装置から学習データを受信してもよい。学習データ取得部122は、取得した学習データを学習データ記憶部112に記憶させる。
学習データ取得部122は、1次視覚野層322を生成するために用いる学習データを取得してよい。学習データ取得部122は、画像に含まれるエッジの角度毎に発火すべきニューロンが対応付けて登録された学習データを取得してよい。
学習データ取得部122は、2次視覚野層324を生成するために用いる学習データを取得してよい。学習データ取得部122は、画像に含まれるエッジの角度毎に発火すべきニューロンが対応付けて登録された学習データを取得してよい。学習データ取得部122は、画像に含まれるエッジの太さ毎に発火すべきニューロンが対応付けて登録された学習データを取得してよい。
学習データ取得部122は、5次視覚野層326を生成するために用いる学習データを取得してよい。学習データ取得部122は、画像に含まれるエッジの運動方向毎に発火すべきニューロンが対応付けて登録された学習データを取得してよい。
報酬関連データ取得部124は、視覚路層320の学習時における報酬に関連する報酬関連データを取得する。報酬関連データについては後述する。報酬関連データ取得部124は、学習装置100において、学習装置100の利用者等によって生成された報酬関連データを取得してよい。報酬関連データ取得部124は、他の装置から報酬関連データを受信してもよい。報酬関連データ取得部124は、取得した報酬関連データを報酬関連データ記憶部114に記憶させる。
トレーニングデータ取得部126は、トレーニングデータを取得する。トレーニングデータ取得部126は、トレーニング層330を生成するための用いるトレーニングデータ取得部126は、学習装置100の利用者等によって用意されたトレーニングデータを取得してよい。トレーニングデータ取得部126は、他の装置からトレーニングデータを受信してもよい。トレーニングデータ取得部126は、取得したトレーニングデータをトレーニングデータ記憶部116に記憶させる。
学習実行部130は、学習を実行してニューラルネットワークを生成する。学習実行部130は、視覚野の視覚路の構成に基づく学習を実行することによって生成した視覚路層を有する、画像を入力とし、画像に含まれる対象に関する情報を出力とするニューラルネットワークを生成する。学習実行部130は、視覚路層と、アノテーション付きのトレーニングデータを用いた学習によって生成されたトレーニング層とを有するニューラルネットワークを生成してよい。学習実行部130は、生成したニューラルネットワークを学習結果記憶部118に記憶させる。
学習実行部130は、1次視覚野における方位選択性を再現するように学習した1次視覚野層を含む視覚路層を有するニューラルネットワークを生成してよい。これにより、方位選択性に相当する能力をニューラルネットワークが得るために必要な分のトレーニングデータを不要とすることができ、学習を効率化させることができる。
学習実行部130は、学習データ記憶部112に記憶されている、画像に含まれるエッジの角度毎に発火すべきニューロンが対応付けて登録された学習データを用いて、入力された画像に含まれるエッジに対応するニューロンが発火する1次視覚野層を生成してよい。
学習実行部130は、例えば、当該学習データを用いて、オートエンコーダによって1次視覚野層を学習する。学習データが示すように、どの角度のときにどのニューロンが発火しなければいけないかは解明されており、学習実行部130は、それを再現できるようにオートエンコーダによって学習する。
具体的に、学習実行部130は、例えば、予め設定した角度(0,90,180, -90等)に対して、出力ノードを(0,90,180, -90等)に設定し、0を入れた時に、0のノードのみが反応するように、上限の閾値を超えたものを1、下限の閾値以下のものは0とし、1つ、あるいは設定した個数のニューロンのみが発火するように、loss functionを設定し、オートエンコーダにてウエイトの変更を行う。
学習実行部130は、オートエンコーダではなく、求める入力と求める出力は同じだが、それに基づくシナプスのウェイトの変更をタイムディレイ報酬付きの強化学習によって、1次視覚野層を学習してもよい。学習実行部130は、確率的勾配降下法(SGD:stochastic gradient descent)を用いてウェイトを変更してよい。例えば、学習実行部130は、エッジの角度毎に異なるニューロンの反応速度に従ってウェイトを変更する強化学習を実行して、1次視覚野層を生成する。
図4は、ある角度のエッジに対するニューロンの反応についての、反応速度と平均発火率との関係を示す。図4が示すように、ニューロンの反応にはタイムディレイが発生する。そのため、ニューロンが正しい反応を示したときに、報酬を与えるべきは、そのタイミングの入力ではなく、それよりも前のタイミングの入力ということになる。学習実行部130は、当該角度のエッジに対するニューロンの反応について、図4に示す関係に基づいて、入力に対して報酬を与える。
反応速度と平均発火率との関係は、エッジの角度によって異なる。報酬関連データ取得部124は、エッジの角度毎の、反応速度と平均発火率との関係を示す報酬関連データを取得してよい。学習実行部130は、報酬関連データ記憶部114に記憶されている報酬関連データを用いて、エッジの角度毎のニューロンの反応について、入力に対して報酬を与える。
具体的に、学習実行部130は、V1にて学習済の層(典型的な角度と反応ニューロン)よりも細かい角度(例えば10度ごと)に対して、反応するようにウエイトを変更する。具体的には、左10度と左20度の時には、複数のニューロンがオーバーラップして、発火するようにネットワークのウエイトの更新を行う。左0度と右0度が反応した場合(180度)、90度のニューロンが発火するようにウエイト更新する。これらの細いデータセットは、空間周波数データセットとして、予めトレーニングデータとして用意する。
学習実行部130は、1次視覚野における方位選択性よりも細かい2次視覚野における方位選択性を再現するように学習した2次視覚野層を含む視覚路層を有するニューラルネットワークを生成してもよい。すなわち、学習実行部130は、1次視覚野層及び2次視覚野層を含む視覚路層を有するニューラルネットワークを生成してもよい。これにより、1次視覚野の方位選択性及び2次視覚野の方位選択性に相当する能力をニューラルネットワークが得るために必要な分のトレーニングデータを不要とすることができ、学習を効率化させることができる。
学習実行部130は、学習データ記憶部112に記憶されている、2次視覚野層を生成するための、画像に含まれるエッジの角度毎に発火すべきニューロンが対応付けて登録された学習データを用いて、入力された画像に含まれるエッジに対応するニューロンが発火する2次視覚野層を生成してよい。
学習実行部130は、1次視覚野層と同様に、オートエンコーダによって2次視覚野層を学習してよい。学習実行部130は、1次視覚野層と同様に、オートエンコーダではなく、求める入力と求める出力は同じだが、それに基づくシナプスのウェイトの変更をタイムディレイ報酬付きの強化学習によって、2次視覚野層を学習してもよい。
具体的に、学習実行部130は、ニューロンの結合とニューロンの発火を状態行動対とし、オートエンコーダと同じ学習セットに対して、発火すべきニューロンが発火した場合に、報酬を与える。報酬によって、あらかじめ設定している遅れ時間に遡った状態の時の状態行動対の値を強化学習の更新式によって、更新する。強化学習の更新式は、Q学習でもよく、Deep Reinforcement Learningによる学習を用いてもよい。
学習実行部130は、5次視覚野における方向選択性を再現するように学習した5次視覚野層を含む視覚路層を有するニューラルネットワークを生成してもよい。すなわち、学習実行部130は、1次視覚野層、2次視覚野層、及び5次視覚野層を含む視覚路層を有するニューラルネットワークを生成してもよい。これにより、1次視覚野の方位選択性、2次視覚野の方位選択性、及び5次視覚野の方向選択性に相当する能力をニューラルネットワークが得るために必要な分のトレーニングデータを不要とすることができ、学習を効率化させることができる。
学習実行部130は、学習データ記憶部112に記憶されている、5次視覚野層を生成するための、画像に含まれるエッジの運動方向毎に発火すべきニューロンが対応付けて登録された学習データを用いて、入力された画像に含まれるエッジの運動方向に対応するニューロンが発火する5次視覚野層を生成してよい。
学習実行部130は、1次視覚野層と同様に、オートエンコーダによって5次視覚野層を学習してよい。学習実行部130は、1次視覚野層と同様に、オートエンコーダではなく、求める入力と求める出力は同じだが、それに基づくシナプスのウェイトの変更をタイムディレイ報酬付きの強化学習によって、5次視覚野層を学習してもよい。
具体的に、学習実行部130は、ニューロンの結合とニューロンの発火を状態行動対とし、オートエンコーダと同じ学習セットに対して、発火すべきニューロンが発火した場合に、報酬を与える。報酬によって、あらかじめ設定している遅れ時間に遡った状態の時の状態行動対の値を強化学習の更新式によって、更新する。強化学習の更新式は、Q学習でもよく、Deep Reinforcement Learningによる学習を用いてもよい。
学習実行部130は、学習モデルとして、RNN(Recurrent Neural Network)を用いてよい。学習実行部130は、学習として、スパイキングニューラルネットワークを用いてもよい。学習実行部130は、スパイキングニューラルネットワークによって構成された視覚路層を有するニューラルネットワークを生成してよい。学習実行部130は、スパイキングニューラルネットワークによって構成された視覚路層及びトレーニング層を有するニューラルネットワークを生成してもよい。スパイキングニューラルネットワークを用いることによって、学習実行部130が生成するニューラルネットワークのロバスト性を高めることができる。なお、学習実行部130は、他の学習モデルを用いてもよい。
学習結果出力部132は、学習結果記憶部118に記憶されているニューラルネットワークを出力する。学習結果出力部132は、例えば、学習結果記憶部118に記憶されているニューラルネットワークを他の装置に対して送信する。
画像取得部134は、画像を取得する。画像取得部134は、解析対象として入力された動画像を取得する。
処理部136は、画像取得部134が取得した画像を、学習結果記憶部118に記憶されているニューラルネットワークに入力することによって、当該画像に含まれる対象に関する情報を出力する。処理部136は、例えば、画像を入力した装置に対して、当該画像に含まれる対象に関する情報を送信する。
図5は、学習装置100又は認証装置200として機能するコンピュータ1200のハードウェア構成の一例を概略的に示す。コンピュータ1200にインストールされたプログラムは、コンピュータ1200を、本実施形態に係る装置の1又は複数の「部」として機能させ、又はコンピュータ1200に、本実施形態に係る装置に関連付けられるオペレーション又は当該1又は複数の「部」を実行させることができ、及び/又はコンピュータ1200に、本実施形態に係るプロセス又は当該プロセスの段階を実行させることができる。そのようなプログラムは、コンピュータ1200に、本明細書に記載のフローチャート及びブロック図のブロックのうちのいくつか又はすべてに関連付けられた特定のオペレーションを実行させるべく、CPU1212によって実行されてよい。
本実施形態によるコンピュータ1200は、CPU1212、RAM1214、及びグラフィックコントローラ1216を含み、それらはホストコントローラ1210によって相互に接続されている。コンピュータ1200はまた、通信インタフェース1222、記憶装置1224、DVDドライブ、及びICカードドライブのような入出力ユニットを含み、それらは入出力コントローラ1220を介してホストコントローラ1210に接続されている。DVDドライブは、DVD-ROMドライブ及びDVD-RAMドライブ等であってよい。記憶装置1224は、ハードディスクドライブ及びソリッドステートドライブ等であってよい。コンピュータ1200はまた、ROM1230及びキーボードのようなレガシの入出力ユニットを含み、それらは入出力チップ1240を介して入出力コントローラ1220に接続されている。
CPU1212は、ROM1230及びRAM1214内に格納されたプログラムに従い動作し、それにより各ユニットを制御する。グラフィックコントローラ1216は、RAM1214内に提供されるフレームバッファ等又はそれ自体の中に、CPU1212によって生成されるイメージデータを取得し、イメージデータがディスプレイデバイス1218上に表示されるようにする。
通信インタフェース1222は、ネットワークを介して他の電子デバイスと通信する。記憶装置1224は、コンピュータ1200内のCPU1212によって使用されるプログラム及びデータを格納する。DVDドライブは、プログラム又はデータをDVD-ROM等から読み取り、記憶装置1224に提供する。ICカードドライブは、プログラム及びデータをICカードから読み取り、及び/又はプログラム及びデータをICカードに書き込む。
ROM1230はその中に、アクティブ化時にコンピュータ1200によって実行されるブートプログラム等、及び/又はコンピュータ1200のハードウェアに依存するプログラムを格納する。入出力チップ1240はまた、様々な入出力ユニットをUSBポート、パラレルポート、シリアルポート、キーボードポート、マウスポート等を介して、入出力コントローラ1220に接続してよい。
プログラムは、DVD-ROM又はICカードのようなコンピュータ可読記憶媒体によって提供される。プログラムは、コンピュータ可読記憶媒体から読み取られ、コンピュータ可読記憶媒体の例でもある記憶装置1224、RAM1214、又はROM1230にインストールされ、CPU1212によって実行される。これらのプログラム内に記述される情報処理は、コンピュータ1200に読み取られ、プログラムと、上記様々なタイプのハードウェアリソースとの間の連携をもたらす。装置又は方法が、コンピュータ1200の使用に従い情報のオペレーション又は処理を実現することによって構成されてよい。
例えば、通信がコンピュータ1200及び外部デバイス間で実行される場合、CPU1212は、RAM1214にロードされた通信プログラムを実行し、通信プログラムに記述された処理に基づいて、通信インタフェース1222に対し、通信処理を命令してよい。通信インタフェース1222は、CPU1212の制御の下、RAM1214、記憶装置1224、DVD-ROM、又はICカードのような記録媒体内に提供される送信バッファ領域に格納された送信データを読み取り、読み取られた送信データをネットワークに送信し、又はネットワークから受信した受信データを記録媒体上に提供される受信バッファ領域等に書き込む。
また、CPU1212は、記憶装置1224、DVDドライブ(DVD-ROM)、ICカード等のような外部記録媒体に格納されたファイル又はデータベースの全部又は必要な部分がRAM1214に読み取られるようにし、RAM1214上のデータに対し様々なタイプの処理を実行してよい。CPU1212は次に、処理されたデータを外部記録媒体にライトバックしてよい。
様々なタイプのプログラム、データ、テーブル、及びデータベースのような様々なタイプの情報が記録媒体に格納され、情報処理を受けてよい。CPU1212は、RAM1214から読み取られたデータに対し、本開示の随所に記載され、プログラムの命令シーケンスによって指定される様々なタイプのオペレーション、情報処理、条件判断、条件分岐、無条件分岐、情報の検索/置換等を含む、様々なタイプの処理を実行してよく、結果をRAM1214に対しライトバックする。また、CPU1212は、記録媒体内のファイル、データベース等における情報を検索してよい。例えば、各々が第2の属性の属性値に関連付けられた第1の属性の属性値を有する複数のエントリが記録媒体内に格納される場合、CPU1212は、当該複数のエントリの中から、第1の属性の属性値が指定されている条件に一致するエントリを検索し、当該エントリ内に格納された第2の属性の属性値を読み取り、それにより予め定められた条件を満たす第1の属性に関連付けられた第2の属性の属性値を取得してよい。
上で説明したプログラム又はソフトウエアモジュールは、コンピュータ1200上又はコンピュータ1200近傍のコンピュータ可読記憶媒体に格納されてよい。また、専用通信ネットワーク又はインターネットに接続されたサーバシステム内に提供されるハードディスク又はRAMのような記録媒体が、コンピュータ可読記憶媒体として使用可能であり、それによりプログラムを、ネットワークを介してコンピュータ1200に提供する。
本実施形態におけるフローチャート及びブロック図におけるブロックは、オペレーションが実行されるプロセスの段階又はオペレーションを実行する役割を持つ装置の「部」を表わしてよい。特定の段階及び「部」が、専用回路、コンピュータ可読記憶媒体上に格納されるコンピュータ可読命令と共に供給されるプログラマブル回路、及び/又はコンピュータ可読記憶媒体上に格納されるコンピュータ可読命令と共に供給されるプロセッサによって実装されてよい。専用回路は、デジタル及び/又はアナログハードウェア回路を含んでよく、集積回路(IC)及び/又はディスクリート回路を含んでよい。プログラマブル回路は、例えば、フィールドプログラマブルゲートアレイ(FPGA)、及びプログラマブルロジックアレイ(PLA)等のような、論理積、論理和、排他的論理和、否定論理積、否定論理和、及び他の論理演算、フリップフロップ、レジスタ、並びにメモリエレメントを含む、再構成可能なハードウェア回路を含んでよい。
コンピュータ可読記憶媒体は、適切なデバイスによって実行される命令を格納可能な任意の有形なデバイスを含んでよく、その結果、そこに格納される命令を有するコンピュータ可読記憶媒体は、フローチャート又はブロック図で指定されたオペレーションを実行するための手段を作成すべく実行され得る命令を含む、製品を備えることになる。コンピュータ可読記憶媒体の例としては、電子記憶媒体、磁気記憶媒体、光記憶媒体、電磁記憶媒体、半導体記憶媒体等が含まれてよい。コンピュータ可読記憶媒体のより具体的な例としては、フロッピー(登録商標)ディスク、ディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROM又はフラッシュメモリ)、電気的消去可能プログラマブルリードオンリメモリ(EEPROM)、静的ランダムアクセスメモリ(SRAM)、コンパクトディスクリードオンリメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、ブルーレイ(登録商標)ディスク、メモリスティック、集積回路カード等が含まれてよい。
コンピュータ可読命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又はSmalltalk(登録商標)、JAVA(登録商標)、C++等のようなオブジェクト指向プログラミング言語、及び「C」プログラミング言語又は同様のプログラミング言語のような従来の手続型プログラミング言語を含む、1又は複数のプログラミング言語の任意の組み合わせで記述されたソースコード又はオブジェクトコードのいずれかを含んでよい。
コンピュータ可読命令は、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサ、又はプログラマブル回路が、フローチャート又はブロック図で指定されたオペレーションを実行するための手段を生成するために当該コンピュータ可読命令を実行すべく、ローカルに又はローカルエリアネットワーク(LAN)、インターネット等のようなワイドエリアネットワーク(WAN)を介して、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサ、又はプログラマブル回路に提供されてよい。プロセッサの例としては、コンピュータプロセッサ、処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、コントローラ、マイクロコントローラ等を含む。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更又は改良を加えることが可能であることが当業者に明らかである。その様な変更又は改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
特許請求の範囲、明細書、及び図面中において示した装置、システム、プログラム、及び方法における動作、手順、ステップ、及び段階などの各処理の実行順序は、特段「より前に」、「先立って」などと明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、及び図面中の動作フローに関して、便宜上「まず、」、「次に、」などを用いて説明したとしても、この順で実施することが必須であることを意味するものではない。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更又は改良を加えることが可能であることが当業者に明らかである。その様な変更又は改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
特許請求の範囲、明細書、及び図面中において示した装置、システム、プログラム、及び方法における動作、手順、ステップ、及び段階などの各処理の実行順序は、特段「より前に」、「先立って」などと明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、及び図面中の動作フローに関して、便宜上「まず、」、「次に、」などを用いて説明したとしても、この順で実施することが必須であることを意味するものではない。
10 システム、20 ネットワーク、30 カメラ、40 人、100 学習装置、110 記憶部、112 学習データ記憶部、114 報酬関連データ記憶部、116 トレーニングデータ記憶部、118 学習結果記憶部、122 学習データ取得部、124 報酬関連データ取得部、126 トレーニングデータ取得部、130 学習実行部、132 学習結果出力部、134 画像取得部、136 処理部、200 認証装置、300 ニューラルネットワーク、310 入力層、320 視覚路層、322 1次視覚野層、324 2次視覚野層、326 5次視覚野層、330 トレーニング層、340 ソフトマックス、1200 コンピュータ、1210 ホストコントローラ、1212 CPU、1214 RAM、1216 グラフィックコントローラ、1218 ディスプレイデバイス、1220 入出力コントローラ、1222 通信インタフェース、1224 記憶装置、1230 ROM、1240 入出力チップ

Claims (11)

  1. 視覚野の視覚路の構成に基づく学習を実行することによって生成した視覚路層を有する、画像を入力とし、前記画像に含まれる対象に関する情報を出力とするニューラルネットワークを生成する学習実行部と、
    前記学習実行部によって生成された前記ニューラルネットワークを記憶する記憶部と
    を備える情報処理装置。
  2. 前記学習実行部は、1次視覚野における方位選択性を再現するように学習した1次視覚野層を含む前記視覚路層を有する前記ニューラルネットワークを生成する、請求項1に記載の情報処理装置。
  3. 前記学習実行部は、画像に含まれるエッジの角度毎に発火すべきニューロンが対応付けて登録された学習データを用いて、入力された画像に含まれるエッジに対応するニューロンが発火する前記1次視覚野層を生成する、請求項2に記載の情報処理装置。
  4. 前記学習実行部は、動画像に対して、前記エッジの角度毎に異なる前記ニューロンの反応速度に従ってウェイトを変更する強化学習を実行して、前記1次視覚野層を生成する、請求項3に記載の情報処理装置。
  5. 前記学習実行部は、前記1次視覚野における方位選択性よりも細かい2次視覚野における方位選択性を再現するように学習した2次視覚野層を含む前記視覚路層を有する前記ニューラルネットワークを生成する、請求項2に記載の情報処理装置。
  6. 前記学習実行部は、5次視覚野における方向選択性を再現するように学習した5次視覚野層を含む前記視覚路層を有する前記ニューラルネットワークを生成する、請求項5に記載の情報処理装置。
  7. 前記学習実行部は、スパイキングニューラルネットワークによって構成された前記視覚路層を有する前記ニューラルネットワークを生成する、請求項1に記載の情報処理装置。
  8. 前記学習実行部は、前記視覚路層と、アノテーション付きのトレーニングデータを用いた学習によって生成されたトレーニング層とを有する前記ニューラルネットワークを生成する、請求項1に記載の情報処理装置。
  9. 入力された画像を取得する画像取得部と、
    前記画像取得部が取得した前記画像を前記記憶部に記憶されているニューラルネットワークに入力することによって、前記画像に含まれる対象に関する情報を出力する処理部と
    を備える、請求項8に記載の情報処理装置。
  10. コンピュータを、請求項1から9のいずれか一項に記載の情報処理装置として機能させるためのプログラム。
  11. コンピュータによって実行される情報処理方法であって、
    視覚野の視覚路の構成に基づく学習を実行することによって生成した視覚路層を有する、画像を入力とし、前記画像に含まれる対象に関する情報を出力とするニューラルネットワークを生成する学習実行段階と、
    前記学習実行段階において生成された前記ニューラルネットワークを記憶する記憶段階と
    を備える情報処理方法。
JP2022181014A 2022-11-11 2022-11-11 情報処理装置、プログラム、及び情報処理方法 Pending JP2024070488A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022181014A JP2024070488A (ja) 2022-11-11 2022-11-11 情報処理装置、プログラム、及び情報処理方法
PCT/JP2023/033865 WO2024100995A1 (ja) 2022-11-11 2023-09-19 情報処理装置、プログラム、及び情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022181014A JP2024070488A (ja) 2022-11-11 2022-11-11 情報処理装置、プログラム、及び情報処理方法

Publications (1)

Publication Number Publication Date
JP2024070488A true JP2024070488A (ja) 2024-05-23

Family

ID=91032224

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022181014A Pending JP2024070488A (ja) 2022-11-11 2022-11-11 情報処理装置、プログラム、及び情報処理方法

Country Status (2)

Country Link
JP (1) JP2024070488A (ja)
WO (1) WO2024100995A1 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7519452B2 (en) * 2004-04-15 2009-04-14 Neurosciences Research Foundation, Inc. Mobile brain-based device for use in a real world environment
WO2021241261A1 (ja) * 2020-05-27 2021-12-02 ソニーグループ株式会社 情報処理装置、情報処理方法、プログラム、及び、学習方法

Also Published As

Publication number Publication date
WO2024100995A1 (ja) 2024-05-16

Similar Documents

Publication Publication Date Title
JP6983937B2 (ja) 畳み込みニューラルネットワークにおける構造学習
US12005579B2 (en) Robot reacting on basis of user behavior and control method therefor
US11544524B2 (en) Electronic device and method of obtaining emotion information
Basnin et al. An integrated CNN-LSTM model for Bangla lexical sign language recognition
EP3820369B1 (en) Electronic device and method of obtaining emotion information
US20210406695A1 (en) Systems and Methods for Training an Autoencoder Neural Network Using Sparse Data
US11151456B1 (en) Predicting brain data using machine learning models
US20220270756A1 (en) Image diagnosis apparatus using deep learning model and method therefor
CN110827236B (zh) 基于神经网络的脑组织分层方法、装置、计算机设备
KR20230111126A (ko) 혼합 테스트에 기초하여 치매를 식별하는 기법
Nihalani et al. Long Short-Term Memory (LSTM) model for Indian sign language recognition
US11666266B2 (en) Source localization of EEG signals
WO2024100995A1 (ja) 情報処理装置、プログラム、及び情報処理方法
KR20190119205A (ko) 전자 장치 및 그 제어 방법
KR102531719B1 (ko) 어린이를 위한 숏폼콘텐츠 공유 및 추천 서비스 제공 장치 및 방법
CN113785310A (zh) 用于通过用户界面操作应用的方法和系统
US20210056247A1 (en) Pose detection of objects from image data
Tran et al. Augmentation-Enhanced Deep Learning for Face Detection and Emotion Recognition in Elderly Care Robots
Altaf et al. Evaluation of Dilated CNN for Hand Gesture Classification
Mulyono et al. Hiragana Character Classification Using Convolutional Neural Networks Methods based on Adam, SGD, and RMSProps Optimizer
Jayasekera Real-time New Zealand sign language translator using convolution neural network
CN110414515A (zh) 基于信息融合处理的汉字图像识别方法、装置及存储介质
US20240362906A1 (en) Efficient Temporal Networks for Streaming Data
KR102681279B1 (ko) 소아 근시 진행 예측 모델의 구축 장치 및 예측 모델을 이용한 근시 진행 예측 장치, 방법 및 프로그램
WO2024044695A1 (en) Segmenting and detecting amyloid-related imaging abnormalites (aria) in alzheimer's patients

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231101