JP2019219988A

JP2019219988A - 意味情報付与装置、意味情報付与方法、およびプログラム

Info

Publication number: JP2019219988A
Application number: JP2018117749A
Authority: JP
Inventors: 鮎美松本; Ayumi Matsumoto; 弾三上; Dan Mikami; 木全　英明; Hideaki Kimata; 英明木全; 慶人目加田; Yasuto Mekata; 恵介道満; Keisuke Domitsu
Original assignee: Nippon Telegraph and Telephone Corp; Umemura Educational Institutions
Current assignee: Nippon Telegraph and Telephone Corp; Umemura Educational Institutions
Priority date: 2018-06-21
Filing date: 2018-06-21
Publication date: 2019-12-26

Abstract

【課題】利用者が視聴しているオブジェクトを推定する。【解決手段】世界カメラ画像取得部１１は、利用者の視界に対応する画像を取得する。視線位置取得部１２は、利用者の視線位置に対応する画像中の座標を取得する。ピクセル毎オブジェクト推定部２３は、利用者の視界に対応する画像中の各座標に位置するオブジェクトを推定する。視聴対象オブジェクト推定部２４は、利用者の視線位置に対応する画像中の座標に位置するオブジェクトを利用者が視聴する視聴対象オブジェクトとして推定する。【選択図】図１

Description

この発明は視線推定技術に関し、特に利用者が視聴しているオブジェクトを表す意味情報を付与する技術に関する。

視線計測装置のひとつに、メガネ式視線推定装置と呼ばれる方式がある（例えば、非特許文献１参照）。メガネ式視線推定装置は一般的に、メガネから外界を撮影する世界カメラと、メガネ式視線推定装置を利用している利用者の視点を計測するカメラとからなり、時々刻々、利用者が視聴している世界カメラ中の座標を表すピクセル値を出力する。すなわち、メガネ式視線推定装置を利用することで、世界カメラ中の視聴位置を得ることができる。

トビー・テクノロジー株式会社、"Tobii Pro グラス2｜トビー・テクノロジー"、［online］、［平成30年5月25日検索］、インターネット<URL: https://www.tobiipro.com/ja/product-listing/tobii-pro-glasses-2/>

しかしながら、メガネ式視線推定装置により取得される情報は、世界カメラで取得した画像中のピクセル情報であり、利用者が画像中のどのオブジェクトを視聴しているかは不明である。実際に、視線計測した後に、利用者が何を見ているかを明らかにすることは、多くのアプリケーションで求められる機能である。

この発明の目的は、上記のような技術的課題に鑑みて、利用者が視聴しているオブジェクトを推定することができる意味情報付与技術を提供することである。

上記の課題を解決するために、この発明の一態様の意味情報付与装置は、利用者の視界に対応する画像中の各座標に位置するオブジェクトを推定するピクセル毎オブジェクト推定部と、利用者の視線位置に対応する画像中の座標に位置するオブジェクトを利用者が視聴する視聴対象オブジェクトとして推定する視聴対象オブジェクト推定部と、を含む。

この発明の意味情報付与技術は、利用者の視界に対応する画像から利用者が視聴しているオブジェクトを推定することができるため、利用者の視線位置に対して利用者がどのオブジェクトを視聴しているかという意味情報を付与することができる。

図１は、意味情報付与装置の機能構成を例示する図である。図２は、人物姿勢推定によるオブジェクト認識を説明するための図である。図３は、セマンティックセグメンテーションと人物姿勢推定とを組み合わせたオブジェクト認識を説明するための図である。図４は、視聴対象オブジェクトを推定する流れを説明するための図である。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

この発明では、メガネ型視線推定装置で取得した世界カメラ画像を対象に映像シーン理解（例えば人物姿勢推定あるいはセマンティックセグメンテーションなど）を行い、世界カメラ画像と同時に取得した視線位置のピクセル値に加えて、利用者が世界カメラ画像中のどのオブジェクトを視聴しているかを示す意味情報を出力する。一般的なメガネ型視線推定装置は、世界カメラ画像中の視線位置を得ることができる。また、世界カメラ画像に対する画像処理により世界カメラ画像中に存在するオブジェクトを認識することができ、世界カメラ画像中の座標とオブジェクトとの関係を得ることができる。これを利用し、メガネ型視線推定装置の利用者が視聴しているオブジェクトを推定することが可能となる。

実施形態の意味情報付与装置は、主にスポーツなど人物により実施される事象を対象として、リアルタイムに別の選手やコーチが、あるいは記録されたビデオによりその人物自身が、その事象を視聴する際に、視聴している対象を分析することを目的としている。本形態は、図１に示すように、メガネ型視線推定装置１と意味情報付与装置２とからなる情報処理システムである。本形態のメガネ型視線推定装置１は、世界カメラ画像取得部１１および視線位置取得部１２を備える。本形態の意味情報付与装置２は、世界カメラ画像記憶部２１、視線位置記憶部２２、ピクセル毎オブジェクト推定部２３、および視聴対象オブジェクト推定部２４を備える。この意味情報付与装置２が後述する各ステップの処理を行うことにより本形態の意味情報付与方法が実行される。

意味情報付与装置２は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。意味情報付与装置２は、例えば、中央演算処理装置の制御のもとで各処理を実行する。意味情報付与装置２に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。意味情報付与装置２の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。意味情報付与装置２が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。

メガネ型視線推定装置１が備える世界カメラ画像取得部１１は、利用者の視聴する対象を撮影する世界カメラを用いて、利用者の視界に対応する画像（以下、「世界カメラ画像」とも呼ぶ）を取得する。世界カメラ画像取得部１１は、撮影した世界カメラ画像を世界カメラ画像記憶部２１へ時系列に蓄積する。このとき、世界カメラ画像取得部１１は、世界カメラ画像を取得したタイムスタンプをその世界カメラ画像に付与して世界カメラ画像記憶部２１へ記憶する。

メガネ型視線推定装置１が備える視線位置取得部１２は、利用者の眼球を観測し、世界カメラ画像中での視線位置を推定する。視線位置は、例えば、世界カメラ画像中の座標を表すピクセル値で表される。視線位置取得部１２は、取得した視線位置を視線位置記憶部２２へ時系列に蓄積する。このとき、視線位置取得部１２は、視線位置を取得したタイムスタンプをその視線位置に付与して視線位置記憶部２２へ記憶する。

意味情報付与装置２が備えるピクセル毎オブジェクト推定部２３は、世界カメラ画像記憶部２１に記憶されている世界カメラ画像を読み込み、その世界カメラ画像に対してオブジェクト認識を行う。その後、世界カメラ画像中の各ピクセルについて、その位置に存在するオブジェクトを推定する。

オブジェクト認識の例（以下、「方法１」と呼ぶ）として、参考文献１に記載された人物姿勢推定が挙げられる。人物姿勢推定は、人物が撮影された画像から身体の関節点を検出する手法であり、例えば肩、肘、手首など様々な関節点を検出することができる。

〔参考文献１〕CMU-Perceptual-Computing-Lab、“OpenPose: Real-time multi-person keypoint detection library for body, face, and hands estimation”、［online］、［平成30年5月25日検索］、インターネット<URL: https://github.com/CMU-Perceptual-Computing-Lab/openpose>

方法１によるオブジェクト認識は、以下の２ステップで行われる。
ステップ１：世界カメラ画像に対して２Ｄ姿勢推定を行う。
ステップ２：２Ｄ姿勢に基づいて世界カメラ画像中の各ピクセルと撮影されている人物の身体部位とを対応付ける。２Ｄ姿勢推定により得られた身体部位それぞれに対して予め設定された領域を、利用者が視聴している範囲とする。この領域は、例えば図２に示すようにして設定することができる。まず、図２Ａに示すように、２Ｄ姿勢推定により得られた関節点を結んで各身体部位に対応する線分を生成する。次に、図２Ｂに示すように、各身体部位に対応する線分から身体部位毎に定めた所定の太さの領域を生成する。ここで、各身体部位に対する太さはピクセル値で設定してもよいし、線分の長さに比例する値で設定してもよい。

オブジェクト認識の別の例（以下、「方法２」と呼ぶ）として、方法１の人物姿勢推定と、参考文献２に記載されたセマンティックセグメンテーションとを組み合わせて利用することも考えられる。セマンティックセグメンテーションとは、画像を領域（セグメント）に分割し、各セグメントに対してラベルを付与するものである。付与するラベルとしては、例えば人、車、芝など、用途に合わせて様々なセマンティックセグメンテーションが提案されている。

〔参考文献２〕University of Oxford、“CRF as RNN Semantic Image Segmentation Live Demo”、［online］、［平成30年5月25日検索］、インターネット<URL: http://www.robots.ox.ac.uk/~szheng/crfasrnndemo/>

方法２によるオブジェクト認識は、以下の３ステップで行われる。
ステップ１：世界カメラ画像に対してセマンティックセグメンテーションを行い、世界カメラ中の人物領域を推定する。
ステップ２：世界カメラ画像に対して２Ｄ姿勢推定を行う。
ステップ３：セマンティックセグメンテーションにより得られた人物領域と、２Ｄ姿勢推定により得られた２Ｄ姿勢とを重畳し、世界カメラ画像のピクセル毎に撮影されている人物の身体部位を対応付ける。

対応付けた結果は、図３に示すように、ピクセル毎オブジェクト推定結果テーブルに保持される。図３の例では、世界カメラ画像のすべての座標(x, y)に対応するピクセルに対して、対応付けられた身体部位（例えば頭、足など）がオブジェクト推定結果として保持されている。このとき、オブジェクト推定結果は１つのピクセルに対して複数の値（例えば腕と肘など）を持つこともある。

意味情報付与装置２が備える視聴対象オブジェクト推定部２４は、視線位置記憶部２２に記憶されている視線位置を読み出し、ピクセル毎オブジェクト推定結果テーブルの中からその視線位置に対応するピクセルに対応付けられたオブジェクトを参照することで、利用者が視聴している視聴対象オブジェクトを推定する。このとき、視線位置に付与されたタイムスタンプと同じタイムスタンプが付与された世界カメラ画像から推定されたオブジェクト推定結果を用いる。すなわち、タイムスタンプに基づいて視線位置とオブジェクト推定結果との同期を行う。

本発明により視聴対象オブジェクトを推定する具体的な処理の流れを図４に示す。図４の例は棒高跳びを行う選手の画像である。入力された世界カメラ画像に対して、視線位置取得部１２が視線位置の推定を行う。また、ピクセル毎オブジェクト推定部２４が世界カメラ画像中のピクセル毎にオブジェクトを推定する。視聴対象オブジェクト推定部２４は視線位置に対応するピクセルが属する領域を求め、その領域に対応するオブジェクト（身体部位）を視聴対象オブジェクトとして出力する。

このようにして本形態の意味情報付与装置２によれば、世界カメラから取得した世界カメラ画像中の視線位置から、利用者が視聴している視聴対象オブジェクト（例えば人物の身体部位など）を推定し、利用者がどのオブジェクトを視聴しているかという意味情報を付与することが可能となる。

以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１メガネ型視線推定装置
１１世界カメラ画像取得部
１２視線位置取得部
２意味情報付与装置
２１世界カメラ画像記憶部
２２視線位置記憶部
２３ピクセル毎オブジェクト推定部
２４視聴対象オブジェクト推定部

Claims

利用者の視界に対応する画像中の各座標に位置するオブジェクトを推定するピクセル毎オブジェクト推定部と、
上記利用者の視線位置に対応する上記画像中の座標に位置する上記オブジェクトを上記利用者が視聴する視聴対象オブジェクトとして推定する視聴対象オブジェクト推定部と、
を含む意味情報付与装置。
請求項１に記載の意味情報付与装置であって、
上記ピクセル毎オブジェクト推定部は、上記画像中に撮影された人物の姿勢推定を行い、姿勢推定結果に基づいて得た身体部位を上記オブジェクトとして推定するものである、
意味情報付与装置。
請求項１に記載の意味情報付与装置であって、
上記ピクセル毎オブジェクト推定部は、上記画像に対するセマンティックセグメンテーションにより得た人物領域と上記画像に対する姿勢推定により得た姿勢推定結果とを重畳することで得た身体部位を上記オブジェクトとして推定するものである、
意味情報付与装置。
ピクセル毎オブジェクト推定部が、利用者の視界に対応する画像中の各座標に位置するオブジェクトを推定し、
視聴対象オブジェクト推定部が、上記利用者の視線位置に対応する上記画像中の座標に位置する上記オブジェクトを上記利用者が視聴する視聴対象オブジェクトとして推定する、
意味情報付与方法。
請求項１から３のいずれかに記載の意味情報付与装置としてコンピュータを機能させるためのプログラム。