JP7219788B2 - 情報処理装置、情報処理方法、学習方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、学習方法、およびプログラム Download PDF

Info

Publication number
JP7219788B2
JP7219788B2 JP2021066697A JP2021066697A JP7219788B2 JP 7219788 B2 JP7219788 B2 JP 7219788B2 JP 2021066697 A JP2021066697 A JP 2021066697A JP 2021066697 A JP2021066697 A JP 2021066697A JP 7219788 B2 JP7219788 B2 JP 7219788B2
Authority
JP
Japan
Prior art keywords
person
image
sight
line
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021066697A
Other languages
English (en)
Other versions
JP2022161690A (ja
Inventor
輝 金原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2021066697A priority Critical patent/JP7219788B2/ja
Priority to US17/674,472 priority patent/US20220326768A1/en
Priority to CN202210176018.1A priority patent/CN115205829A/zh
Publication of JP2022161690A publication Critical patent/JP2022161690A/ja
Application granted granted Critical
Publication of JP7219788B2 publication Critical patent/JP7219788B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Ophthalmology & Optometry (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は、人物の視線を推定する技術に関する。
特許文献1には、運転者の眼球あるいは顔を撮影して得られた撮影画像に基づいて、運転者の視線を検出する技術が提案されている。
特開2005-278898号公報
人物の視線は、当該人物の顔の向きに応じて変わることがあるため、当該人物の顔の向きに応じて当該人物の視線を精度よく推定する技術が望まれている。
そこで、本発明は、人物の目の画像に基づいて当該人物の視線を推定する際の推定精度を向上させるために有利な技術を提供することを目的とする。
上記目的を達成するために、本発明の一側面としての情報処理装置は、人物の視線を推定する情報処理装置であって、前記人物の顔の画像を入力すると前記人物の顔の向きの演算結果を出力するように構成された第1モデルを用いて、前記人物の顔の向きを推定する第1演算手段と、前記人物の目の画像を入力すると前記人物の視線の演算結果を出力するように構成された第2モデルを用いて、前記人物の視線を推定する第2演算手段と、を備え、前記第2モデルは、前記目の画像の特徴量マップに重み付けを行うAttention機構を有し、前記第2演算手段は、前記第1演算手段により推定された顔の向きに応じて、前記Attention機構における重み付け係数を変更する、ことを特徴とする。
本発明によれば、例えば、人物の目の画像に基づいて当該人物の視線を推定する際の推定精度を向上させるために有利な技術を提供することができる。
本発明に係る情報処理装置を用いたシステムの構成例を示す図 撮影画像、抽出画像および入力画像の一例を示す図 情報処理装置で適用される学習モデルを説明するための図 情報処理装置で行われる推定処理を示すフローチャート 機械学習における入出力の構造を示す概念図 情報処理装置における学習方法を示すフローチャート
以下、本発明の実施形態について図を参照しながら説明する。本発明は、以下の実施形態に限定されるものではなく、本発明の趣旨の範囲内での構成の変更や変形も含む。また、本実施形態で説明されている特徴の組み合わせの全てが本発明に必須のものとは限らない。なお、同一の構成要素には同一の参照番号を付して、その説明を省略する。
図1は、本発明に係る一実施形態の情報処理装置1を用いたシステムAの構成例を示すブロック図である。本実施形態のシステムAは、情報処理装置1と、撮影部2と、外部装置3とを備える。撮影部2は、例えばカメラを含み、画像内に人物の顔が含まれるように当該人物を撮影する。例えば、本実施形態のシステムAが車両に適用される場合、撮影部2は、当該車両の運転席に着座している運転者を撮影するように配置されうる。また、外部装置3は、情報処理装置1で推定された人物の視線情報を取得し、当該視線情報に基づいて各種の処理を行う装置である。例えば、本実施形態のシステムAが車両に適用される場合、外部装置3は、当該車両を制御する制御ユニット(一例としてECU(Electronic Control Unit))であり、情報処理装置1で推定された運転者(人物)の視線情報に基づいて、運転者が運転中にどこを向いているのかを検出する。外部装置3は、車両の自動運転を制御する制御ユニットであってもよい。
情報処理装置1は、CPUに代表されるプロセッサ、半導体メモリ等の記憶デバイス、外部デバイスとのインタフェース等を含むコンピュータであり、撮影部2で得られた人物の画像に基づいて当該人物の視線を推定(決定、算出)する推定処理を実行する。「人物の視線」は、当該人物が見ている方向として定義され、視線方向または視線ベクトルとして理解されてもよい。本実施形態の場合、情報処理装置1は、記憶部1aと、通信部1bと、生成部1cと、モデル演算部1dとを含みうる。記憶部1aには、プロセッサが実行するプログラムや各種のデータに加えて、後述する学習モデルや学習データ等が格納されており、情報処理装置1は、記憶部1aに格納されたプログラム等を読み出して実行することにより、上記の推定処理を行うことができる。ここで、情報処理装置1が実行するプログラムは、CD-ROMやDVD等の記憶媒体に記憶させておき、当該記憶媒体から情報処理装置1にインストールすることも可能である。
情報処理装置1の通信部1bは、撮影部2および/または外部装置3との間で情報やデータの通信を行うインタフェースであり、入出力インタフェースおよび/または通信インタフェースを含む。通信部1bは、撮影部2で得られた人物の画像を撮影部2から取得する取得部として理解されてもよいし、後述するモデル演算部1dで推定された人物の視線の情報を外部装置3に出力(供給)する出力部(供給部)として理解されてもよい。なお、以下では、撮影部2で得られた人物の画像を「撮影画像」と表記することがある。
情報処理装置1の生成部1cは、通信部1bを介して撮影部2から取得された人物の撮影画像に対して公知の画像処理技術を適用することにより、当該撮影画像から、当該人物の顔(顔全体)の画像、当該人物の左目の画像、および当該人物の右目の画像を抽出する。そして、撮影画像からそれぞれ抽出した顔の画像、左目の画像および右目の画像から、モデル演算部1dに入力するための画像を生成する。以下では、撮影画像から抽出された画像を「抽出画像」と表記することがあり、モデル演算部1dに入力される画像を「入力画像」と表記することがある。
本実施形態の場合、生成部1cは、左目の抽出画像および右目の抽出画像のうち一方の抽出画像に対してミラー反転処理を行うことにより、当該一方の抽出画像を左右方向にミラー反転した反転画像をモデル演算部1dに入力する。一方、左目の抽出画像および右目の抽出画像のうち他方の抽出画像についてはミラー反転処理を行わずに、左右方向にミラー反転させていない非反転画像をモデル演算部1に入力する。顔の抽出画像についてもミラー反転処理を行わずに、左右方向へミラー反転させていない非反転画像をモデル演算部1に入力する。以下では、右目の抽出画像に対してミラー反転処理を行う例について説明する。なお、「左右方向」とは、人物の撮影画像において左目と右目とが並ぶ方向(即ち、人物を基準とした左右の方向)として定義されうる。
図2は、撮影画像、抽出画像および入力画像の一例を示す図である。図2(a)は、車両の運転席に着座している人物(運転者)を撮影部2で撮影することで得られた撮影画像10を示している。生成部1cは、図2(a)に示す撮影画像10を通信部1を介して撮影部2から取得するとともに、当該撮影画像10に対して公知の画像処理技術を適用することにより、顔の画像、左目の画像、および右目の画像をそれぞれ抽出画像として抽出する。図2(b-1)~(b-3)は、顔の抽出画像11a、左目の抽出画像12a、および右目の抽出画像13aをそれぞれ示している。また、生成部1cは、図2(b-3)に示される右目の抽出画像13aに対してミラー反転処理を行うことで、図2(c-3)に示されるように、右目の抽出画像13aを左右方向にミラー反転した反転画像を右目の入力画像13bとして生成する。一方、生成部1cは、顔の抽出画像11aおよび左目の抽出画像12aに対してはミラー反転処理を行わずに(例えば加工せずに)、抽出画像(非反転画像)を入力画像として生成する。つまり、生成部1cは、図2(c-1)に示されるように、顔の抽出画像11aを顔の入力画像11bとして生成し、図2(c-2)に示されるように、左目の抽出画像12aを左目の入力画像12bとして生成する。
情報処理装置1のモデル演算部1dは、所定の学習モデル(ニューラルネットワーク)を用いた機械学習アルゴリズムの演算を行うことで、生成部1cにより入力された左目の入力画像12bおよび右目の入力画像13bから、左目の視線および右目の視線をそれぞれ推定(決定、算出)する。本実施形態では、学習モデル(ニューラルネットワーク)が、例えば1以上の畳み込み層、プーリング層および全結合層を含む、CNN(Convolutional Neural Network)と呼ばれるネットワーク構造を含む例について説明するが、ネットワーク構造はCNNに限られず、他の構成であってもよい。また、ResNet(Residual Network)のようにスキップコネクションを更に有する構成であってもよい。あるいは、例えばオートエンコーダのように、CNNの構造を有するエンコーダの構成に加えて、更にデコーダの構成を有してもよい。もちろん、これらの構造に限らず、画像のような空間的に分布する信号に対して用いられるニューラルネットワークの構造であれば、他の構造であってもよい。
本実施形態のモデル演算部1dは、左目の入力画像12bから左目の視線を推定する処理と、右目の入力画像13bから右目の視線を推定する処理とを、共通の(同じ)学習モデルを用いて、それぞれ個別に(独立して)行う。共通の学習モデルとは、入力画像から視線を推定するための学習モデルの構成および関数が共通している(同じである)と理解されてもよく、より具体的には、学習モデルの係数(即ち、ニューロン間の重み付け係数)が共通している(同じである)と理解されてもよい。このように左目の入力画像12bと右目の入力画像13bとで共通の学習モデルを用いることができるのは、前述したように、左目の抽出画像12aおよび右目の抽出画像13のうち一方の抽出画像(本実施形態では右目の抽出画像13b)を左右方向にミラー反転してモデル演算部1d(学習モデル)に入力するからである。そして、共通の学習モデルを用いることにより、1つの撮影画像10から得られる2つの抽出画像(左目、右目)を、当該学習モデルを生成する際の機械学習の入力データとして使用することができる。つまり、従来では、1つの撮影画像10から左目または右目の一方の抽出画像を入力データとして使用していたのに対し、本実施形態では、1つの撮影画像10から2つの抽出画像(左目、右目)を入力データとして使用することができる。そのため、機械学習の学習精度(視線の推定精度)および学習効率を向上させることが可能となる。
また、本実施形態のモデル演算部1dは、所定の学習モデル(ニューラルネットワーク)を用いた機械学習アルゴリズムの演算を行うことにより、生成部1cにより入力された顔の入力画像11bから、人物の顔の向き(向いている方向)を推定する。そして、モデル演算部1dは、顔の向きの推定結果を、各目の入力画像12b,13bから各目の視線を推定するための学習モデルに入力し、当該学習モデルの係数(即ち、ニューロン間の重み付け係数)を変更する。これにより、各目の視線を、顔の向きに応じて精度よく推定することが可能となる。ここで、顔の向きの推定結果と係数の変更との相関は、機械学習によって設定されうる。また、学習モデルの係数を変更する機構としては、Attention機構(注意機構)が適用されうる。
次に、本実施形態の情報処理装置1で適用される学習モデルについて説明する。図3は、本実施形態の情報処理装置1(モデル演算部1d)で適用される学習モデルを説明するためのブロック図である。本実施形態の情報処理装置1は、図3に示されるように、顔の入力画像11bから顔の向きを推定する学習モデルM1と、左目の入力画像12bから左目の視線を推定する学習モデルM2と、右目の入力画像13bから右目の視線を推定する学習モデルM3を含みうる。学習モデルM1~M3は、1つの学習モデルとして理解されてもよい。
学習モデルM1には、顔の入力画像11bが入力される。入力画像11bは、前述したように、顔の抽出画像11aに対してミラー反転処理を行わずに得られる画像であり、本実施形態では抽出画像11aがそのまま適用される。まず、学習モデルM1は、例えばCNNを通じて、顔の入力画像11bから、顔に関する特徴量マップの抽出処理21を行う。特徴量としては、左目、右目、鼻および口の位置が挙げられる。そして、学習モデルM1は、抽出された特徴量マップから顔の向きを算出する演算処理22を行う。演算処理22で算出された顔の向きを示すデータは、学習モデルM2のAttention機構25、および学習モデルM3のAttention機構29にそれぞれ供給される。但し、学習モデルM3のAttention機構29には、演算処理22で算出された顔の向きに対してミラー反転処理23を行うことによって当該顔の向きを左右方向にミラー反転したデータが供給される。
学習モデルM2には、左目の入力画像12bが入力される。入力画像12bは、前述したように、左目の抽出画像12aに対してミラー反転処理を行わずに得られる画像であり、本実施形態では抽出画像12aがそのまま適用される。学習モデルM2は、まず、例えばCNNを通じて、左目の入力画像12bから、目に関する特徴量マップの抽出処理24を行う。一例として、抽出処理24では、CNNが目的とする機能(本実施形態の場合、視線方向の推定)を実現するために必要な複数の特徴量を当該特徴量マップとして自動的に構成する。抽出処理24では、目の大きさ、目の幅、目の向き、目における瞳孔(黒目)の位置などを、視線方向を推定するための補助情報として追加してもよい。そして、学習モデルM2は、抽出処理24で抽出された特徴量マップに対し、Attention機構25で各特徴量に重み付けを行うことにより、重み付き特徴量マップを生成し、この重み付き特徴量マップから視線を算出する演算処理26を行う。このようにして学習モデルM2において視線の演算が行われる。情報処理装置1は、学習モデルM2で算出された視線の情報を、左目の視線の推定結果を示す情報32(以下では、左目の視線推定情報と表記することがある)として出力する。ここで、学習モデルM2では、Attention機構25において特徴量マップに付与する重み(重み付け係数)が、学習モデルM1から供給されたデータに基づいて変更される。
学習モデルM3には、右目の入力画像13bが入力される。入力画像13bは、前述したように、右目の抽出画像13aに対してミラー反転処理27を行うことで得られる画像である。学習モデルM3は、学習モデルM2と同じモデルであり、具体的には、モデル構造および重み付け係数が学習モデルM2と共通している(同じである)。学習モデルM3は、まず、例えばCNNを通じて、右目の入力画像13bから、目に関する特徴量マップの抽出処理28を行う。一例として、抽出処理28では、CNNが目的とする機能(本実施形態の場合、視線方向の推定)を実現するために必要な複数の特徴量を当該特徴量マップとして自動的に構成する。抽出処理28では、目の大きさ、目の幅、目の向き、目における瞳孔(黒目)の位置などを、視線方向を推定するための補助情報として追加してもよい。そして、学習モデルM3は、抽出された特徴量マップに対し、Attention機構29で各特徴量に重み付けを行うことにより、重み付き特徴量マップを生成し、この重み付き特徴量マップから視線を算出する演算処理30を行う。このようにして学習モデルM3において視線の演算が行われる。情報処理装置1は、学習モデルM3で算出された視線に対してミラー反転処理31を行うことにより当該視線を左右方向にミラー反転し、ミラー反転後の視線の情報を、右目の視線の推定結果を示す情報33(以下では、右目の視線推定情報と表記することがある)として出力する。ここで、学習モデルM3では、Attention機構29において特徴量マップに付与する重み(重み付け係数)が、学習モデルM1から供給されたデータに基づいて変更される。
次に、本実施形態の情報処理装置1で行われる推定処理について説明する。図4は、本実施形態の情報処理装置1で行われる推定処理を示すフローチャートである。
ステップS11では、情報処理装置1(通信部1b)は、人物の撮影画像10を撮影部2から取得する。次いで、ステップS12では、情報処理装置1(生成部1c)は、ステップS11で取得した撮影画像10に対して公知の画像処理技術を適用することにより、撮影画像10から、人物の顔を含む部分画像を抽出画像11aとして、人物の左目を含む部分画像を抽出画像12aとして、および、人物の右目を含む部分画像を抽出画像13aとしてそれぞれ抽出する。
ステップS13では、情報処理装置1(生成部1c)は、ステップS12で得られた抽出画像11a,12a,13aから、学習モデルM1~M3に入力するための入力画像を生成する。前述したように、情報処理装置1は、左目の抽出画像12および右目の抽出画像13aのうち一方の抽出画像に対してはミラー反転処理を行って入力画像を生成し、他方の抽出画像に対してはミラー反転処理を行わずに入力画像を生成する。本実施形態の場合、情報処理装置1は、右目の抽出画像13aに対してミラー反転処理を行うことにより右目の入力画像13bを生成し、左目の抽出画像12aに対してはミラー反転処理を行わずに当該抽出画像12aをそのまま用いて左目の入力画像12bを生成する。また、情報処理装置1は、顔の抽出画像11aに対してもミラー反転処理を行わずに当該抽出画像11aをそのまま用いて顔の入力画像11bを生成する。
ステップS14では、情報処理装置1(モデル演算部1d)は、ステップS13で生成された入力画像11b,12b,13bを学習モデルM1~M3に入力することにより、左目の視線および右目の視線を個別に(独立して)演算する。左目の視線および右目の視線の演算方法については、図3を用いて前述したとおりである。次いで、ステップS15では、情報処理装置1(モデル演算部1d)は、ステップS14で算出された左目の視線の情報および右目の視線の情報に基づいて、左目および右目の各々について視線推定情報を個別に(独立して)決定する。情報処理装置1は、左目および右目のうちステップS13でミラー反転処理が行われた一方の視線に対し、ミラー反転処理を行って左右方向の反転を元に戻すことにより、当該一方の視線推定情報を生成する。本実施形態の場合、情報処理装置1は、ステップS14で算出された右目の視線に対してミラー反転処理を行い、ミラー反転後の視線の情報を、右目の視線推定情報として決定する。一方で、ステップS14で算出された左目の視線に対してはミラー反転処理を行わずに、算出された左目の視線の情報をそのまま左目の視線推定情報として決定する。次いで、ステップS16では、情報処理装置1は、ステップS15で決定された左目の視線推定情報および右目の視線推定情報を、例えば外部装置3に出力する。
次に、本実施形態の情報処理装置1における学習方法について説明する。図5は、学習モデルを生成するための機械学習における入出力の構造を示す概念図である。入力データX1(41)および入力データX2(42)は、学習モデル43の入力層のデータである。入力データX1(41)としては、顔の画像(本実施形態では、顔の入力画像11b)が適用される。入力データX2(42)としては、左目および右目のうち一方の画像(本実施形態では、左目の入力画像12b)、および/または、ミラー反転処理が行われた他方の画像(本実施形態では、右目の入力画像13b)が適用される。本実施形態では、1つの撮影画像10から得られる2つの画像(左目、右目)を入力データX2としてそれぞれ適用することができるため、即ち、1つの撮影画像10から2回分の機械学習を行うことができるため、機械学習の学習精度(視線の推定精度)および学習効率を向上させることが可能となる。
入力データX1(41)および入力データX2(42)を学習モデルM(43)に入力することで、視線の演算結果としての出力データY(44)が学習モデルM(43)から出力される。学習モデルM(43)は、図3の学習モデルM1およびM2、あるいは、図3の学習モデルM1およびM3を含むものとして理解されてもよい。また、機械学習時には、入力データXから算出される視線の正解データとして教師データT(45)が与えられ、出力データY(44)と教師データT(45)とを損失関数f(46)に与えることにより、視線の正解からのずれ量L(47)が得られる。多数の学習データ(入力データ)に対してずれ量Lが低減するように、学習モデルM(43)の係数(重み付け係数)などを更新することで、当該学習モデルM(43)が最適化される。
ここで、教師データT(45)としては、人物の視線の計測結果が用いられる。例えば、人物の視線の計測として、当該人物の視線を所定箇所(目標箇所)に向けさせた状態で撮影部2により当該人物を撮影する。このときの当該人物の視線が教師データTとして用いられ、撮影部2で得られた撮影画像から抽出される顔の画像が入力データX1(41)として用いられ、当該撮影画像から抽出される目の画像が入力データX2(42)として用いられうる。
図6は、本実施形態の情報処理装置1における学習方法を示すフローチャートである。
ステップS21では、撮影部2に人物を撮影させることで得られた撮影画像と、そのときの当該人物の視線の情報とを取得する。例えば、前述したように、人物の視線を所定箇所(目標箇所)に向けさせた状態で撮影部2に当該人物を撮影させることにより、撮影画像と人物の視線の情報とを取得することができる。本ステップS21で取得された人物の視線の情報は、教師データT(45)として用いられる。
ステップS22では、ステップS21で取得された撮影画像から、人物の顔の部分画像を入力データX1(41)として抽出するとともに、人物の目の部分画像を入力データX2(42)として抽出する。ここで、入力データX42)としては、抽出された人物の目の部分画像を左右方向に反転させて得られる反転画像であってもよいし、抽出された人物の目の部分画像を反転させずに得られる非反転画像であってもよい。
ステップS23では、ステップS22で入力データX1(41)として抽出された人物の顔の部分画像と、入力データX2(42)として抽出された人物の目の部分画像とに基づいて、学習モデルM(43)により人物の視線を情報処理装置1に推定させる。本ステップで推定される人物の視線は、図5の出力データY(44)に対応する。次いで、ステップS24では、ステップS23で出力データY(44)として推定された人物の視線と、ステップS21で教師データT(45)として取得された人物の視線とのずれ量L(47)が低減するように、情報処理装置1に学習させる。
上述したように、本実施形態の情報処理装置1は、人物の左目および右目のうち一方の画像を反転させた反転画像を用いて当該一方の視線を推定する処理(第1処理)と、当該人物の左目および右目のうち他方の画像を反転させていない非反転画像を用いて当該他方の視線を推定する処理(第2処理)とを、共通の学習モデルを用いて個別に行う。これにより、当該共通の学習モデルを生成する際の機械学習を、1つの撮影画像10から得られる2つの画像(左目、右目)を用いて行うことができるため、機械学習の学習精度(視線の推定精度)および学習効率を向上させることが可能となる。
また、本実施形態の情報処理装置1は、学習モデルM1により人物の顔の画像から当該人物の顔の向きを推定し、人物の目の画像から当該人物の視線を推定するための学習モデル(M2および/またはM3)の係数を、学習モデルM1により推定した人物の顔の向きに応じて変更する。これにより、人物の顔の向きに応じて変わりうる当該人物の視線を精度よく推定することが可能となる。
<その他の実施形態>
また、上記実施形態で説明された1以上の機能を実現するプログラムは、ネットワーク又は記憶媒体を介してシステム又は装置に供給され、該システム又は装置のコンピュータにおける1以上のプロセッサは、このプログラムを読み出して実行することができる。このような態様によっても本発明は実現可能である。
<実施形態のまとめ>
1.上記実施形態の情報処理装置は、
人物の視線を推定する情報処理装置(例えば1)であって、
前記人物の顔の画像(例えば11b)を入力すると前記人物の顔の向きの演算結果を出力するように構成された第1モデル(例えばM1)を用いて、前記人物の顔の向きを推定する第1演算手段(例えば1d)と、
前記人物の目の画像(例えば12b、13b)を入力すると前記人物の視線の演算結果を出力するように構成された第2モデル(例えばM2、M3)を用いて、前記人物の視線を推定する第2演算手段(例えば1d)と、
を備え、
前記第2演算手段は、前記第1演算手段により推定された顔の向きに応じて、前記第2モデルの係数を変更する。
この実施形態によれば、人物の顔の向きに応じて変わりうる当該人物の視線を精度よく推定することが可能となる。
2.上記実施形態において、
前記第2モデルは、前記目の画像の特徴量マップに重み付けを行うAttention機構(例えば25、29)を有し、
前記第2演算手段は、前記第1演算手段により推定された顔の向きに応じて、前記Attention機構における重み付け係数を変更する。
この実施形態によれば、人物の顔の向きに応じて変わりうる当該人物の視線を精度よく推定することが可能となる。
3.上記実施形態において、
撮影手段(例えば2)で得られた前記人物の画像(例えば10)を取得する取得手段(例えば1b、1c)と、
前記取得手段で取得された前記人物の画像から、前記第1モデルに入力される前記人物の顔の画像(例えば11b)を生成するとともに、前記第2モデルに入力される前記人物の目の画像(例えば12b、13b)を生成する生成手段(例えば1c)と、を更に備える。
この実施形態によれば、撮影手段(カメラ)で得られた1つの人物の画像から、人物の顔の画像および目の画像をそれぞれ得ることができ、それらの画像に基づいて当該人物の画像を精度よく推定することが可能となる。
4.上記実施形態において、
前記第2演算手段は、前記人物の目の画像を反転させた反転画像(例えば13b)を前記第2モデル(例えばM3)に入力し、前記第2モデルから出力された視線情報を反転させて得られる情報(例えば33)に基づいて、前記人物の視線を推定する。
この実施形態によれば、人物の左目の視線と右目の視線とを共通のモデルを用いて推定することができ、その場合であっても、左目の視線および右目の視線を、当該人物の顔の向きに応じて精度よく推定することができる。
5.上記実施形態において、
前記第2演算手段は、前記第1演算手段により推定された顔の向きを反転させて(例えば23)得られる顔の向きに応じて、前記第2モデルの係数を変更する。
この実施形態によれば、人物の左目の視線と右目の視線とを共通のモデルを用いて推定する場合において、左目の視線および右目の視線を、当該人物の顔の向きに応じて精度よく推定することができる。
本発明は上記実施の形態に制限されるものではなく、本発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。
1:情報処理装置、1a:記憶部、1b:通信部、1c:生成部、1d:モデル演算部、2:撮影部、3:外部装置

Claims (8)

  1. 人物の視線を推定する情報処理装置であって、
    前記人物の顔の画像を入力すると前記人物の顔の向きの演算結果を出力するように構成された第1モデルを用いて、前記人物の顔の向きを推定する第1演算手段と、
    前記人物の目の画像を入力すると前記人物の視線の演算結果を出力するように構成された第2モデルを用いて、前記人物の視線を推定する第2演算手段と、
    を備え、
    前記第2モデルは、前記目の画像の特徴量マップに重み付けを行うAttention機構を有し、
    前記第2演算手段は、前記第1演算手段により推定された顔の向きに応じて、前記Attention機構における重み付け係数を変更する、
    ことを特徴とする情報処理装置。
  2. 撮影手段で得られた前記人物の画像を取得する取得手段と、
    前記取得手段で取得された前記人物の画像から、前記第1モデルに入力される前記人物の顔の画像を生成するとともに、前記第2モデルに入力される前記人物の目の画像を生成する生成手段と、
    を更に備えることを特徴とする請求項に記載の情報処理装置。
  3. 前記第2演算手段は、前記人物の目の画像を反転させた反転画像を前記第2モデルに入力し、前記第2モデルから出力された視線情報を反転させて得られる情報に基づいて、前記人物の視線を推定する、ことを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記第2演算手段は、前記第1演算手段により推定された顔の向きを反転させて得られる顔の向きに応じて、前記第2モデルの係数を変更する、ことを特徴とする請求項に記載の情報処理装置。
  5. 情報処理装置により人物の視線を推定する情報処理方法であって、
    前記人物の顔の画像を入力すると顔の向きの演算結果を出力するように構成された第1モデルを用いて、前記人物の顔の向きを推定する第1演算工程と、
    前記人物の目の画像を入力すると視線の演算結果を出力するように構成された第2モデルを用いて、前記人物の視線を推定する第2演算工程と、
    を含み、
    前記第2モデルは、前記目の画像の特徴量マップに重み付けを行うAttention機構を有し、
    前記第2演算工程では、前記第1演算工程で推定された顔の向きに応じて、前記Attention機構における重み付け係数を変更する、
    ことを特徴とする情報処理方法。
  6. 請求項に記載の情報処理方法の各工程をコンピュータに実行させるためのプログラム。
  7. 人物の視線を推定する情報処理装置における学習方法であって、
    前記人物の画像から、前記人物の顔の画像と、前記人物の目の画像とを抽出する抽出工程と、
    請求項5に記載の情報処理方法により、前記抽出工程で抽出された前記顔の画像および前記目の画像に基づいて、前記人物の視線を前記情報処理装置に推定させる推定工程と、
    前記人物の画像が得られたときの前記人物の視線の情報を教師データとして取得する取得工程と、
    前記推定工程で推定された前記人物の視線と、前記教師データとしての前記取得工程で取得された前記人物の視線とのずれ量が低減するように、前記情報処理装置に学習させる学習工程と、
    を含むことを特徴とする学習方法。
  8. 請求項に記載の学習方法の各工程をコンピュータに実行させるためのプログラム。
JP2021066697A 2021-04-09 2021-04-09 情報処理装置、情報処理方法、学習方法、およびプログラム Active JP7219788B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021066697A JP7219788B2 (ja) 2021-04-09 2021-04-09 情報処理装置、情報処理方法、学習方法、およびプログラム
US17/674,472 US20220326768A1 (en) 2021-04-09 2022-02-17 Information processing apparatus, information processing method, learning method, and storage medium
CN202210176018.1A CN115205829A (zh) 2021-04-09 2022-02-25 信息处理装置、信息处理方法、学习方法以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021066697A JP7219788B2 (ja) 2021-04-09 2021-04-09 情報処理装置、情報処理方法、学習方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2022161690A JP2022161690A (ja) 2022-10-21
JP7219788B2 true JP7219788B2 (ja) 2023-02-08

Family

ID=83509265

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021066697A Active JP7219788B2 (ja) 2021-04-09 2021-04-09 情報処理装置、情報処理方法、学習方法、およびプログラム

Country Status (3)

Country Link
US (1) US20220326768A1 (ja)
JP (1) JP7219788B2 (ja)
CN (1) CN115205829A (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007265367A (ja) 2006-03-30 2007-10-11 Fujifilm Corp 視線検出方法および装置ならびにプログラム
JP2010282339A (ja) 2009-06-03 2010-12-16 Seiko Epson Corp 目における瞳の位置を補正する画像処理装置、画像処理方法、画像処理プログラム、および、印刷装置
WO2018078857A1 (ja) 2016-10-31 2018-05-03 日本電気株式会社 視線推定装置、視線推定方法及びプログラム記録媒体
JP2019028843A (ja) 2017-08-01 2019-02-21 オムロン株式会社 人物の視線方向を推定するための情報処理装置及び推定方法、並びに学習装置及び学習方法
JP2019519859A (ja) 2016-06-29 2019-07-11 シーイング マシーンズ リミテッド 視線追跡を実行するシステム及び方法
WO2019206038A1 (zh) 2018-04-24 2019-10-31 北京市商汤科技开发有限公司 一种关注信息的处理方法及装置、存储介质、电子设备
JP2020038432A (ja) 2018-09-03 2020-03-12 Zホールディングス株式会社 画像解析装置、画像解析方法、およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101644015B1 (ko) * 2009-11-27 2016-08-01 삼성전자주식회사 시스템과 다수 사용자 간의 대화 인터페이스 장치
US11301677B2 (en) * 2019-06-14 2022-04-12 Tobil AB Deep learning for three dimensional (3D) gaze prediction
JP7219787B2 (ja) * 2021-04-09 2023-02-08 本田技研工業株式会社 情報処理装置、情報処理方法、学習方法、およびプログラム
CN115393388A (zh) * 2021-05-24 2022-11-25 南京大学 一种基于位置不确定性估计的单目标跟踪方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007265367A (ja) 2006-03-30 2007-10-11 Fujifilm Corp 視線検出方法および装置ならびにプログラム
JP2010282339A (ja) 2009-06-03 2010-12-16 Seiko Epson Corp 目における瞳の位置を補正する画像処理装置、画像処理方法、画像処理プログラム、および、印刷装置
JP2019519859A (ja) 2016-06-29 2019-07-11 シーイング マシーンズ リミテッド 視線追跡を実行するシステム及び方法
WO2018078857A1 (ja) 2016-10-31 2018-05-03 日本電気株式会社 視線推定装置、視線推定方法及びプログラム記録媒体
JP2019028843A (ja) 2017-08-01 2019-02-21 オムロン株式会社 人物の視線方向を推定するための情報処理装置及び推定方法、並びに学習装置及び学習方法
WO2019206038A1 (zh) 2018-04-24 2019-10-31 北京市商汤科技开发有限公司 一种关注信息的处理方法及装置、存储介质、电子设备
JP2020038432A (ja) 2018-09-03 2020-03-12 Zホールディングス株式会社 画像解析装置、画像解析方法、およびプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Anjith George et al.,"Real-time Eye Gaze Direction Classification Using Convolutional Neural Network",2016 International Conference on Signal Processing and Communications (SPCOM),米国,IEEE,2016年06月12日,pp.1-6
渡邉 隆介、外4名,"インナーミラー内蔵撮像システムによる視線の検出",電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2006年05月18日,Vol.106, No.72,pp.65-69

Also Published As

Publication number Publication date
CN115205829A (zh) 2022-10-18
JP2022161690A (ja) 2022-10-21
US20220326768A1 (en) 2022-10-13

Similar Documents

Publication Publication Date Title
JP2021503134A (ja) 画像深度とエゴモーション予測ニューラルネットワークの教師なし学習
JP2019028843A (ja) 人物の視線方向を推定するための情報処理装置及び推定方法、並びに学習装置及び学習方法
KR20190098003A (ko) 장치의 자세 추정 방법 및 그 장치
JP7345664B2 (ja) 不確実性を有するランドマーク位置推定のための画像処理システムおよび方法
JP7219787B2 (ja) 情報処理装置、情報処理方法、学習方法、およびプログラム
WO2020150077A1 (en) Camera self-calibration network
JP2018097573A (ja) 顔向き推定用コンピュータプログラム、顔向き推定装置及び顔向き推定方法
CN111680573B (zh) 人脸识别方法、装置、电子设备和存储介质
JP5062531B2 (ja) 画像処理装置および画像処理方法
JP7219788B2 (ja) 情報処理装置、情報処理方法、学習方法、およびプログラム
JPWO2020085028A1 (ja) 画像認識装置および画像認識方法
JP2018149990A (ja) 運転者の着座判定装置
JP2021051347A (ja) 距離画像生成装置及び距離画像生成方法
JP6737212B2 (ja) 運転者状態推定装置、及び運転者状態推定方法
JP2022018333A (ja) プログラム、情報処理方法、情報処理装置及びモデル生成方法
CN114078155A (zh) 用未标记成对图像训练神经网络以得出对象视角的方法及系统
JP5215615B2 (ja) 3次元位置情報復元装置およびその方法
CN116934829B (zh) 无人机目标深度估计的方法、装置、存储介质及电子设备
JP2021033938A (ja) 顔向き推定装置及び方法
JP7371154B2 (ja) 顔の姿勢を検出する装置及び方法、画像処理システム、並びに記憶媒体
JP7419993B2 (ja) 信頼度推定プログラム、信頼度推定方法、および信頼度推定装置
JP7124746B2 (ja) 物体の部分位置推定プログラム、物体の部分位置推定用ニューラルネットワーク構造、物体の部分位置推定方法、および物体の部分位置推定装置
WO2023155043A1 (zh) 一种基于历史信息的场景深度推理方法、装置及电子设备
CN117456124B (zh) 一种基于背靠背双目鱼眼相机的稠密slam的方法
US11443455B2 (en) Prior informed pose and scale estimation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230123

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230127

R150 Certificate of patent or registration of utility model

Ref document number: 7219788

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150