JP7219788B2

JP7219788B2 - 情報処理装置、情報処理方法、学習方法、およびプログラム

Info

Publication number: JP7219788B2
Application number: JP2021066697A
Authority: JP
Inventors: 輝金原
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2023-02-08
Anticipated expiration: 2041-04-09
Also published as: CN115205829A; US12013980B2; JP2022161690A; US20220326768A1

Description

本発明は、人物の視線を推定する技術に関する。

特許文献１には、運転者の眼球あるいは顔を撮影して得られた撮影画像に基づいて、運転者の視線を検出する技術が提案されている。

特開２００５－２７８８９８号公報

人物の視線は、当該人物の顔の向きに応じて変わることがあるため、当該人物の顔の向きに応じて当該人物の視線を精度よく推定する技術が望まれている。
そこで、本発明は、人物の目の画像に基づいて当該人物の視線を推定する際の推定精度を向上させるために有利な技術を提供することを目的とする。

上記目的を達成するために、本発明の一側面としての情報処理装置は、人物の視線を推定する情報処理装置であって、前記人物の顔の画像を入力すると前記人物の顔の向きの演算結果を出力するように構成された第１モデルを用いて、前記人物の顔の向きを推定する第１演算手段と、前記人物の目の画像を入力すると前記人物の視線の演算結果を出力するように構成された第２モデルを用いて、前記人物の視線を推定する第２演算手段と、を備え、前記第２モデルは、前記目の画像の特徴量マップに重み付けを行うAttention機構を有し、前記第２演算手段は、前記第１演算手段により推定された顔の向きに応じて、前記Attention機構における重み付け係数を変更する、ことを特徴とする。

本発明によれば、例えば、人物の目の画像に基づいて当該人物の視線を推定する際の推定精度を向上させるために有利な技術を提供することができる。

本発明に係る情報処理装置を用いたシステムの構成例を示す図撮影画像、抽出画像および入力画像の一例を示す図情報処理装置で適用される学習モデルを説明するための図情報処理装置で行われる推定処理を示すフローチャート機械学習における入出力の構造を示す概念図情報処理装置における学習方法を示すフローチャート

以下、本発明の実施形態について図を参照しながら説明する。本発明は、以下の実施形態に限定されるものではなく、本発明の趣旨の範囲内での構成の変更や変形も含む。また、本実施形態で説明されている特徴の組み合わせの全てが本発明に必須のものとは限らない。なお、同一の構成要素には同一の参照番号を付して、その説明を省略する。

図１は、本発明に係る一実施形態の情報処理装置１を用いたシステムＡの構成例を示すブロック図である。本実施形態のシステムＡは、情報処理装置１と、撮影部２と、外部装置３とを備える。撮影部２は、例えばカメラを含み、画像内に人物の顔が含まれるように当該人物を撮影する。例えば、本実施形態のシステムＡが車両に適用される場合、撮影部２は、当該車両の運転席に着座している運転者を撮影するように配置されうる。また、外部装置３は、情報処理装置１で推定された人物の視線情報を取得し、当該視線情報に基づいて各種の処理を行う装置である。例えば、本実施形態のシステムＡが車両に適用される場合、外部装置３は、当該車両を制御する制御ユニット（一例としてＥＣＵ（Electronic Control Unit））であり、情報処理装置１で推定された運転者（人物）の視線情報に基づいて、運転者が運転中にどこを向いているのかを検出する。外部装置３は、車両の自動運転を制御する制御ユニットであってもよい。

情報処理装置１は、ＣＰＵに代表されるプロセッサ、半導体メモリ等の記憶デバイス、外部デバイスとのインタフェース等を含むコンピュータであり、撮影部２で得られた人物の画像に基づいて当該人物の視線を推定（決定、算出）する推定処理を実行する。「人物の視線」は、当該人物が見ている方向として定義され、視線方向または視線ベクトルとして理解されてもよい。本実施形態の場合、情報処理装置１は、記憶部１ａと、通信部１ｂと、生成部１ｃと、モデル演算部１ｄとを含みうる。記憶部１ａには、プロセッサが実行するプログラムや各種のデータに加えて、後述する学習モデルや学習データ等が格納されており、情報処理装置１は、記憶部１ａに格納されたプログラム等を読み出して実行することにより、上記の推定処理を行うことができる。ここで、情報処理装置１が実行するプログラムは、ＣＤ－ＲＯＭやＤＶＤ等の記憶媒体に記憶させておき、当該記憶媒体から情報処理装置１にインストールすることも可能である。

情報処理装置１の通信部１ｂは、撮影部２および／または外部装置３との間で情報やデータの通信を行うインタフェースであり、入出力インタフェースおよび／または通信インタフェースを含む。通信部１ｂは、撮影部２で得られた人物の画像を撮影部２から取得する取得部として理解されてもよいし、後述するモデル演算部１ｄで推定された人物の視線の情報を外部装置３に出力（供給）する出力部（供給部）として理解されてもよい。なお、以下では、撮影部２で得られた人物の画像を「撮影画像」と表記することがある。

情報処理装置１の生成部１ｃは、通信部１ｂを介して撮影部２から取得された人物の撮影画像に対して公知の画像処理技術を適用することにより、当該撮影画像から、当該人物の顔（顔全体）の画像、当該人物の左目の画像、および当該人物の右目の画像を抽出する。そして、撮影画像からそれぞれ抽出した顔の画像、左目の画像および右目の画像から、モデル演算部１ｄに入力するための画像を生成する。以下では、撮影画像から抽出された画像を「抽出画像」と表記することがあり、モデル演算部１ｄに入力される画像を「入力画像」と表記することがある。

本実施形態の場合、生成部１ｃは、左目の抽出画像および右目の抽出画像のうち一方の抽出画像に対してミラー反転処理を行うことにより、当該一方の抽出画像を左右方向にミラー反転した反転画像をモデル演算部１ｄに入力する。一方、左目の抽出画像および右目の抽出画像のうち他方の抽出画像についてはミラー反転処理を行わずに、左右方向にミラー反転させていない非反転画像をモデル演算部１ｄに入力する。顔の抽出画像についてもミラー反転処理を行わずに、左右方向へミラー反転させていない非反転画像をモデル演算部１に入力する。以下では、右目の抽出画像に対してミラー反転処理を行う例について説明する。なお、「左右方向」とは、人物の撮影画像において左目と右目とが並ぶ方向（即ち、人物を基準とした左右の方向）として定義されうる。

図２は、撮影画像、抽出画像および入力画像の一例を示す図である。図２（ａ）は、車両の運転席に着座している人物（運転者）を撮影部２で撮影することで得られた撮影画像１０を示している。生成部１ｃは、図２（ａ）に示す撮影画像１０を通信部１ｂを介して撮影部２から取得するとともに、当該撮影画像１０に対して公知の画像処理技術を適用することにより、顔の画像、左目の画像、および右目の画像をそれぞれ抽出画像として抽出する。図２（ｂ－１）～（ｂ－３）は、顔の抽出画像１１ａ、左目の抽出画像１２ａ、および右目の抽出画像１３ａをそれぞれ示している。また、生成部１ｃは、図２（ｂ－３）に示される右目の抽出画像１３ａに対してミラー反転処理を行うことで、図２（ｃ－３）に示されるように、右目の抽出画像１３ａを左右方向にミラー反転した反転画像を右目の入力画像１３ｂとして生成する。一方、生成部１ｃは、顔の抽出画像１１ａおよび左目の抽出画像１２ａに対してはミラー反転処理を行わずに（例えば加工せずに）、抽出画像（非反転画像）を入力画像として生成する。つまり、生成部１ｃは、図２（ｃ－１）に示されるように、顔の抽出画像１１ａを顔の入力画像１１ｂとして生成し、図２（ｃ－２）に示されるように、左目の抽出画像１２ａを左目の入力画像１２ｂとして生成する。

情報処理装置１のモデル演算部１ｄは、所定の学習モデル（ニューラルネットワーク）を用いた機械学習アルゴリズムの演算を行うことで、生成部１ｃにより入力された左目の入力画像１２ｂおよび右目の入力画像１３ｂから、左目の視線および右目の視線をそれぞれ推定（決定、算出）する。本実施形態では、学習モデル（ニューラルネットワーク）が、例えば１以上の畳み込み層、プーリング層および全結合層を含む、ＣＮＮ（Convolutional Neural Network）と呼ばれるネットワーク構造を含む例について説明するが、ネットワーク構造はＣＮＮに限られず、他の構成であってもよい。また、ＲｅｓＮｅｔ（Residual Network）のようにスキップコネクションを更に有する構成であってもよい。あるいは、例えばオートエンコーダのように、ＣＮＮの構造を有するエンコーダの構成に加えて、更にデコーダの構成を有してもよい。もちろん、これらの構造に限らず、画像のような空間的に分布する信号に対して用いられるニューラルネットワークの構造であれば、他の構造であってもよい。

本実施形態のモデル演算部１ｄは、左目の入力画像１２ｂから左目の視線を推定する処理と、右目の入力画像１３ｂから右目の視線を推定する処理とを、共通の（同じ）学習モデルを用いて、それぞれ個別に（独立して）行う。共通の学習モデルとは、入力画像から視線を推定するための学習モデルの構成および関数が共通している（同じである）と理解されてもよく、より具体的には、学習モデルの係数（即ち、ニューロン間の重み付け係数）が共通している（同じである）と理解されてもよい。このように左目の入力画像１２ｂと右目の入力画像１３ｂとで共通の学習モデルを用いることができるのは、前述したように、左目の抽出画像１２ａおよび右目の抽出画像１３ａのうち一方の抽出画像（本実施形態では右目の抽出画像１３ｂ）を左右方向にミラー反転してモデル演算部１ｄ（学習モデル）に入力するからである。そして、共通の学習モデルを用いることにより、１つの撮影画像１０から得られる２つの抽出画像（左目、右目）を、当該学習モデルを生成する際の機械学習の入力データとして使用することができる。つまり、従来では、１つの撮影画像１０から左目または右目の一方の抽出画像を入力データとして使用していたのに対し、本実施形態では、１つの撮影画像１０から２つの抽出画像（左目、右目）を入力データとして使用することができる。そのため、機械学習の学習精度（視線の推定精度）および学習効率を向上させることが可能となる。

また、本実施形態のモデル演算部１ｄは、所定の学習モデル（ニューラルネットワーク）を用いた機械学習アルゴリズムの演算を行うことにより、生成部１ｃにより入力された顔の入力画像１１ｂから、人物の顔の向き（向いている方向）を推定する。そして、モデル演算部１ｄは、顔の向きの推定結果を、各目の入力画像１２ｂ，１３ｂから各目の視線を推定するための学習モデルに入力し、当該学習モデルの係数（即ち、ニューロン間の重み付け係数）を変更する。これにより、各目の視線を、顔の向きに応じて精度よく推定することが可能となる。ここで、顔の向きの推定結果と係数の変更との相関は、機械学習によって設定されうる。また、学習モデルの係数を変更する機構としては、Attention機構（注意機構）が適用されうる。

次に、本実施形態の情報処理装置１で適用される学習モデルについて説明する。図３は、本実施形態の情報処理装置１（モデル演算部１ｄ）で適用される学習モデルを説明するためのブロック図である。本実施形態の情報処理装置１は、図３に示されるように、顔の入力画像１１ｂから顔の向きを推定する学習モデルＭ１と、左目の入力画像１２ｂから左目の視線を推定する学習モデルＭ２と、右目の入力画像１３ｂから右目の視線を推定する学習モデルＭ３を含みうる。学習モデルＭ１～Ｍ３は、１つの学習モデルとして理解されてもよい。

学習モデルＭ１には、顔の入力画像１１ｂが入力される。入力画像１１ｂは、前述したように、顔の抽出画像１１ａに対してミラー反転処理を行わずに得られる画像であり、本実施形態では抽出画像１１ａがそのまま適用される。まず、学習モデルＭ１は、例えばＣＮＮを通じて、顔の入力画像１１ｂから、顔に関する特徴量マップの抽出処理２１を行う。特徴量としては、左目、右目、鼻および口の位置が挙げられる。そして、学習モデルＭ１は、抽出された特徴量マップから顔の向きを算出する演算処理２２を行う。演算処理２２で算出された顔の向きを示すデータは、学習モデルＭ２のAttention機構２５、および学習モデルＭ３のAttention機構２９にそれぞれ供給される。但し、学習モデルＭ３のAttention機構２９には、演算処理２２で算出された顔の向きに対してミラー反転処理２３を行うことによって当該顔の向きを左右方向にミラー反転したデータが供給される。

学習モデルＭ２には、左目の入力画像１２ｂが入力される。入力画像１２ｂは、前述したように、左目の抽出画像１２ａに対してミラー反転処理を行わずに得られる画像であり、本実施形態では抽出画像１２ａがそのまま適用される。学習モデルＭ２は、まず、例えばＣＮＮを通じて、左目の入力画像１２ｂから、目に関する特徴量マップの抽出処理２４を行う。一例として、抽出処理２４では、ＣＮＮが目的とする機能（本実施形態の場合、視線方向の推定）を実現するために必要な複数の特徴量を当該特徴量マップとして自動的に構成する。抽出処理２４では、目の大きさ、目の幅、目の向き、目における瞳孔（黒目）の位置などを、視線方向を推定するための補助情報として追加してもよい。そして、学習モデルＭ２は、抽出処理２４で抽出された特徴量マップに対し、Attention機構２５で各特徴量に重み付けを行うことにより、重み付き特徴量マップを生成し、この重み付き特徴量マップから視線を算出する演算処理２６を行う。このようにして学習モデルＭ２において視線の演算が行われる。情報処理装置１は、学習モデルＭ２で算出された視線の情報を、左目の視線の推定結果を示す情報３２（以下では、左目の視線推定情報と表記することがある）として出力する。ここで、学習モデルＭ２では、Attention機構２５において特徴量マップに付与する重み（重み付け係数）が、学習モデルＭ１から供給されたデータに基づいて変更される。

学習モデルＭ３には、右目の入力画像１３ｂが入力される。入力画像１３ｂは、前述したように、右目の抽出画像１３ａに対してミラー反転処理２７を行うことで得られる画像である。学習モデルＭ３は、学習モデルＭ２と同じモデルであり、具体的には、モデル構造および重み付け係数が学習モデルＭ２と共通している（同じである）。学習モデルＭ３は、まず、例えばＣＮＮを通じて、右目の入力画像１３ｂから、目に関する特徴量マップの抽出処理２８を行う。一例として、抽出処理２８では、ＣＮＮが目的とする機能（本実施形態の場合、視線方向の推定）を実現するために必要な複数の特徴量を当該特徴量マップとして自動的に構成する。抽出処理２８では、目の大きさ、目の幅、目の向き、目における瞳孔（黒目）の位置などを、視線方向を推定するための補助情報として追加してもよい。そして、学習モデルＭ３は、抽出された特徴量マップに対し、Attention機構２９で各特徴量に重み付けを行うことにより、重み付き特徴量マップを生成し、この重み付き特徴量マップから視線を算出する演算処理３０を行う。このようにして学習モデルＭ３において視線の演算が行われる。情報処理装置１は、学習モデルＭ３で算出された視線に対してミラー反転処理３１を行うことにより当該視線を左右方向にミラー反転し、ミラー反転後の視線の情報を、右目の視線の推定結果を示す情報３３（以下では、右目の視線推定情報と表記することがある）として出力する。ここで、学習モデルＭ３では、Attention機構２９において特徴量マップに付与する重み（重み付け係数）が、学習モデルＭ１から供給されたデータに基づいて変更される。

次に、本実施形態の情報処理装置１で行われる推定処理について説明する。図４は、本実施形態の情報処理装置１で行われる推定処理を示すフローチャートである。
ステップＳ１１では、情報処理装置１（通信部１ｂ）は、人物の撮影画像１０を撮影部２から取得する。次いで、ステップＳ１２では、情報処理装置１（生成部１ｃ）は、ステップＳ１１で取得した撮影画像１０に対して公知の画像処理技術を適用することにより、撮影画像１０から、人物の顔を含む部分画像を抽出画像１１ａとして、人物の左目を含む部分画像を抽出画像１２ａとして、および、人物の右目を含む部分画像を抽出画像１３ａとしてそれぞれ抽出する。

ステップＳ１３では、情報処理装置１（生成部１ｃ）は、ステップＳ１２で得られた抽出画像１１ａ，１２ａ，１３ａから、学習モデルＭ１～Ｍ３に入力するための入力画像を生成する。前述したように、情報処理装置１は、左目の抽出画像１２ａおよび右目の抽出画像１３ａのうち一方の抽出画像に対してはミラー反転処理を行って入力画像を生成し、他方の抽出画像に対してはミラー反転処理を行わずに入力画像を生成する。本実施形態の場合、情報処理装置１は、右目の抽出画像１３ａに対してミラー反転処理を行うことにより右目の入力画像１３ｂを生成し、左目の抽出画像１２ａに対してはミラー反転処理を行わずに当該抽出画像１２ａをそのまま用いて左目の入力画像１２ｂを生成する。また、情報処理装置１は、顔の抽出画像１１ａに対してもミラー反転処理を行わずに当該抽出画像１１ａをそのまま用いて顔の入力画像１１ｂを生成する。

ステップＳ１４では、情報処理装置１（モデル演算部１ｄ）は、ステップＳ１３で生成された入力画像１１ｂ，１２ｂ，１３ｂを学習モデルＭ１～Ｍ３に入力することにより、左目の視線および右目の視線を個別に（独立して）演算する。左目の視線および右目の視線の演算方法については、図３を用いて前述したとおりである。次いで、ステップＳ１５では、情報処理装置１（モデル演算部１ｄ）は、ステップＳ１４で算出された左目の視線の情報および右目の視線の情報に基づいて、左目および右目の各々について視線推定情報を個別に（独立して）決定する。情報処理装置１は、左目および右目のうちステップＳ１３でミラー反転処理が行われた一方の視線に対し、ミラー反転処理を行って左右方向の反転を元に戻すことにより、当該一方の視線推定情報を生成する。本実施形態の場合、情報処理装置１は、ステップＳ１４で算出された右目の視線に対してミラー反転処理を行い、ミラー反転後の視線の情報を、右目の視線推定情報として決定する。一方で、ステップＳ１４で算出された左目の視線に対してはミラー反転処理を行わずに、算出された左目の視線の情報をそのまま左目の視線推定情報として決定する。次いで、ステップＳ１６では、情報処理装置１は、ステップＳ１５で決定された左目の視線推定情報および右目の視線推定情報を、例えば外部装置３に出力する。

次に、本実施形態の情報処理装置１における学習方法について説明する。図５は、学習モデルを生成するための機械学習における入出力の構造を示す概念図である。入力データＸ１（４１）および入力データＸ２（４２）は、学習モデル４３の入力層のデータである。入力データＸ１（４１）としては、顔の画像（本実施形態では、顔の入力画像１１ｂ）が適用される。入力データＸ２（４２）としては、左目および右目のうち一方の画像（本実施形態では、左目の入力画像１２ｂ）、および／または、ミラー反転処理が行われた他方の画像（本実施形態では、右目の入力画像１３ｂ）が適用される。本実施形態では、１つの撮影画像１０から得られる２つの画像（左目、右目）を入力データＸ２としてそれぞれ適用することができるため、即ち、１つの撮影画像１０から２回分の機械学習を行うことができるため、機械学習の学習精度（視線の推定精度）および学習効率を向上させることが可能となる。

入力データＸ１（４１）および入力データＸ２（４２）を学習モデルＭ（４３）に入力することで、視線の演算結果としての出力データＹ（４４）が学習モデルＭ（４３）から出力される。学習モデルＭ（４３）は、図３の学習モデルＭ１およびＭ２、あるいは、図３の学習モデルＭ１およびＭ３を含むものとして理解されてもよい。また、機械学習時には、入力データＸから算出される視線の正解データとして教師データＴ（４５）が与えられ、出力データＹ（４４）と教師データＴ（４５）とを損失関数ｆ（４６）に与えることにより、視線の正解からのずれ量Ｌ（４７）が得られる。多数の学習データ（入力データ）に対してずれ量Ｌが低減するように、学習モデルＭ（４３）の係数（重み付け係数）などを更新することで、当該学習モデルＭ（４３）が最適化される。

ここで、教師データＴ（４５）としては、人物の視線の計測結果が用いられる。例えば、人物の視線の計測として、当該人物の視線を所定箇所（目標箇所）に向けさせた状態で撮影部２により当該人物を撮影する。このときの当該人物の視線が教師データＴとして用いられ、撮影部２で得られた撮影画像から抽出される顔の画像が入力データＸ１（４１）として用いられ、当該撮影画像から抽出される目の画像が入力データＸ２（４２）として用いられうる。

図６は、本実施形態の情報処理装置１における学習方法を示すフローチャートである。
ステップＳ２１では、撮影部２に人物を撮影させることで得られた撮影画像と、そのときの当該人物の視線の情報とを取得する。例えば、前述したように、人物の視線を所定箇所（目標箇所）に向けさせた状態で撮影部２に当該人物を撮影させることにより、撮影画像と人物の視線の情報とを取得することができる。本ステップＳ２１で取得された人物の視線の情報は、教師データＴ（４５）として用いられる。

ステップＳ２２では、ステップＳ２１で取得された撮影画像から、人物の顔の部分画像を入力データＸ１（４１）として抽出するとともに、人物の目の部分画像を入力データＸ２（４２）として抽出する。ここで、入力データＸ２（４２）としては、抽出された人物の目の部分画像を左右方向に反転させて得られる反転画像であってもよいし、抽出された人物の目の部分画像を反転させずに得られる非反転画像であってもよい。

ステップＳ２３では、ステップＳ２２で入力データＸ１（４１）として抽出された人物の顔の部分画像と、入力データＸ２（４２）として抽出された人物の目の部分画像とに基づいて、学習モデルＭ（４３）により人物の視線を情報処理装置１に推定させる。本ステップで推定される人物の視線は、図５の出力データＹ（４４）に対応する。次いで、ステップＳ２４では、ステップＳ２３で出力データＹ（４４）として推定された人物の視線と、ステップＳ２１で教師データＴ（４５）として取得された人物の視線とのずれ量Ｌ（４７）が低減するように、情報処理装置１に学習させる。

上述したように、本実施形態の情報処理装置１は、人物の左目および右目のうち一方の画像を反転させた反転画像を用いて当該一方の視線を推定する処理（第１処理）と、当該人物の左目および右目のうち他方の画像を反転させていない非反転画像を用いて当該他方の視線を推定する処理（第２処理）とを、共通の学習モデルを用いて個別に行う。これにより、当該共通の学習モデルを生成する際の機械学習を、１つの撮影画像１０から得られる２つの画像（左目、右目）を用いて行うことができるため、機械学習の学習精度（視線の推定精度）および学習効率を向上させることが可能となる。

また、本実施形態の情報処理装置１は、学習モデルＭ１により人物の顔の画像から当該人物の顔の向きを推定し、人物の目の画像から当該人物の視線を推定するための学習モデル（Ｍ２および／またはＭ３）の係数を、学習モデルＭ１により推定した人物の顔の向きに応じて変更する。これにより、人物の顔の向きに応じて変わりうる当該人物の視線を精度よく推定することが可能となる。

＜その他の実施形態＞
また、上記実施形態で説明された１以上の機能を実現するプログラムは、ネットワーク又は記憶媒体を介してシステム又は装置に供給され、該システム又は装置のコンピュータにおける１以上のプロセッサは、このプログラムを読み出して実行することができる。このような態様によっても本発明は実現可能である。

＜実施形態のまとめ＞
１．上記実施形態の情報処理装置は、
人物の視線を推定する情報処理装置（例えば１）であって、
前記人物の顔の画像（例えば１１ｂ）を入力すると前記人物の顔の向きの演算結果を出力するように構成された第１モデル（例えばＭ１）を用いて、前記人物の顔の向きを推定する第１演算手段（例えば１ｄ）と、
前記人物の目の画像（例えば１２ｂ、１３ｂ）を入力すると前記人物の視線の演算結果を出力するように構成された第２モデル（例えばＭ２、Ｍ３）を用いて、前記人物の視線を推定する第２演算手段（例えば１ｄ）と、
を備え、
前記第２演算手段は、前記第１演算手段により推定された顔の向きに応じて、前記第２モデルの係数を変更する。
この実施形態によれば、人物の顔の向きに応じて変わりうる当該人物の視線を精度よく推定することが可能となる。

２．上記実施形態において、
前記第２モデルは、前記目の画像の特徴量マップに重み付けを行うAttention機構（例えば２５、２９）を有し、
前記第２演算手段は、前記第１演算手段により推定された顔の向きに応じて、前記Attention機構における重み付け係数を変更する。
この実施形態によれば、人物の顔の向きに応じて変わりうる当該人物の視線を精度よく推定することが可能となる。

３．上記実施形態において、
撮影手段（例えば２）で得られた前記人物の画像（例えば１０）を取得する取得手段（例えば１ｂ、１ｃ）と、
前記取得手段で取得された前記人物の画像から、前記第１モデルに入力される前記人物の顔の画像（例えば１１ｂ）を生成するとともに、前記第２モデルに入力される前記人物の目の画像（例えば１２ｂ、１３ｂ）を生成する生成手段（例えば１ｃ）と、を更に備える。
この実施形態によれば、撮影手段（カメラ）で得られた１つの人物の画像から、人物の顔の画像および目の画像をそれぞれ得ることができ、それらの画像に基づいて当該人物の画像を精度よく推定することが可能となる。

４．上記実施形態において、
前記第２演算手段は、前記人物の目の画像を反転させた反転画像（例えば１３ｂ）を前記第２モデル（例えばＭ３）に入力し、前記第２モデルから出力された視線情報を反転させて得られる情報（例えば３３）に基づいて、前記人物の視線を推定する。
この実施形態によれば、人物の左目の視線と右目の視線とを共通のモデルを用いて推定することができ、その場合であっても、左目の視線および右目の視線を、当該人物の顔の向きに応じて精度よく推定することができる。

５．上記実施形態において、
前記第２演算手段は、前記第１演算手段により推定された顔の向きを反転させて（例えば２３）得られる顔の向きに応じて、前記第２モデルの係数を変更する。
この実施形態によれば、人物の左目の視線と右目の視線とを共通のモデルを用いて推定する場合において、左目の視線および右目の視線を、当該人物の顔の向きに応じて精度よく推定することができる。

本発明は上記実施の形態に制限されるものではなく、本発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。

１：情報処理装置、１ａ：記憶部、１ｂ：通信部、１ｃ：生成部、１ｄ：モデル演算部、２：撮影部、３：外部装置

Claims

人物の視線を推定する情報処理装置であって、
前記人物の顔の画像を入力すると前記人物の顔の向きの演算結果を出力するように構成された第１モデルを用いて、前記人物の顔の向きを推定する第１演算手段と、
前記人物の目の画像を入力すると前記人物の視線の演算結果を出力するように構成された第２モデルを用いて、前記人物の視線を推定する第２演算手段と、
を備え、
前記第２モデルは、前記目の画像の特徴量マップに重み付けを行うAttention機構を有し、
前記第２演算手段は、前記第１演算手段により推定された顔の向きに応じて、前記Attention機構における重み付け係数を変更する、
ことを特徴とする情報処理装置。
撮影手段で得られた前記人物の画像を取得する取得手段と、
前記取得手段で取得された前記人物の画像から、前記第１モデルに入力される前記人物の顔の画像を生成するとともに、前記第２モデルに入力される前記人物の目の画像を生成する生成手段と、
を更に備えることを特徴とする請求項１に記載の情報処理装置。
前記第２演算手段は、前記人物の目の画像を反転させた反転画像を前記第２モデルに入力し、前記第２モデルから出力された視線情報を反転させて得られる情報に基づいて、前記人物の視線を推定する、ことを特徴とする請求項１又は２に記載の情報処理装置。
前記第２演算手段は、前記第１演算手段により推定された顔の向きを反転させて得られる顔の向きに応じて、前記第２モデルの係数を変更する、ことを特徴とする請求項３に記載の情報処理装置。
情報処理装置により人物の視線を推定する情報処理方法であって、
前記人物の顔の画像を入力すると顔の向きの演算結果を出力するように構成された第１モデルを用いて、前記人物の顔の向きを推定する第１演算工程と、
前記人物の目の画像を入力すると視線の演算結果を出力するように構成された第２モデルを用いて、前記人物の視線を推定する第２演算工程と、
を含み、
前記第２モデルは、前記目の画像の特徴量マップに重み付けを行うAttention機構を有し、
前記第２演算工程では、前記第１演算工程で推定された顔の向きに応じて、前記Attention機構における重み付け係数を変更する、
ことを特徴とする情報処理方法。
請求項５に記載の情報処理方法の各工程をコンピュータに実行させるためのプログラム。
人物の視線を推定する情報処理装置における学習方法であって、
前記人物の画像から、前記人物の顔の画像と、前記人物の目の画像とを抽出する抽出工程と、
請求項５に記載の情報処理方法により、前記抽出工程で抽出された前記顔の画像および前記目の画像に基づいて、前記人物の視線を前記情報処理装置に推定させる推定工程と、
前記人物の画像が得られたときの前記人物の視線の情報を教師データとして取得する取得工程と、
前記推定工程で推定された前記人物の視線と、前記教師データとしての前記取得工程で取得された前記人物の視線とのずれ量が低減するように、前記情報処理装置に学習させる学習工程と、
を含むことを特徴とする学習方法。
請求項７に記載の学習方法の各工程をコンピュータに実行させるためのプログラム。