JP2019219988A - 意味情報付与装置、意味情報付与方法、およびプログラム - Google Patents
意味情報付与装置、意味情報付与方法、およびプログラム Download PDFInfo
- Publication number
- JP2019219988A JP2019219988A JP2018117749A JP2018117749A JP2019219988A JP 2019219988 A JP2019219988 A JP 2019219988A JP 2018117749 A JP2018117749 A JP 2018117749A JP 2018117749 A JP2018117749 A JP 2018117749A JP 2019219988 A JP2019219988 A JP 2019219988A
- Authority
- JP
- Japan
- Prior art keywords
- pixel
- user
- information providing
- program
- world camera
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Image Analysis (AREA)
Abstract
【課題】利用者が視聴しているオブジェクトを推定する。【解決手段】世界カメラ画像取得部11は、利用者の視界に対応する画像を取得する。視線位置取得部12は、利用者の視線位置に対応する画像中の座標を取得する。ピクセル毎オブジェクト推定部23は、利用者の視界に対応する画像中の各座標に位置するオブジェクトを推定する。視聴対象オブジェクト推定部24は、利用者の視線位置に対応する画像中の座標に位置するオブジェクトを利用者が視聴する視聴対象オブジェクトとして推定する。【選択図】図1
Description
この発明は視線推定技術に関し、特に利用者が視聴しているオブジェクトを表す意味情報を付与する技術に関する。
視線計測装置のひとつに、メガネ式視線推定装置と呼ばれる方式がある(例えば、非特許文献1参照)。メガネ式視線推定装置は一般的に、メガネから外界を撮影する世界カメラと、メガネ式視線推定装置を利用している利用者の視点を計測するカメラとからなり、時々刻々、利用者が視聴している世界カメラ中の座標を表すピクセル値を出力する。すなわち、メガネ式視線推定装置を利用することで、世界カメラ中の視聴位置を得ることができる。
トビー・テクノロジー株式会社、"Tobii Pro グラス2|トビー・テクノロジー"、[online]、[平成30年5月25日検索]、インターネット<URL: https://www.tobiipro.com/ja/product-listing/tobii-pro-glasses-2/>
しかしながら、メガネ式視線推定装置により取得される情報は、世界カメラで取得した画像中のピクセル情報であり、利用者が画像中のどのオブジェクトを視聴しているかは不明である。実際に、視線計測した後に、利用者が何を見ているかを明らかにすることは、多くのアプリケーションで求められる機能である。
この発明の目的は、上記のような技術的課題に鑑みて、利用者が視聴しているオブジェクトを推定することができる意味情報付与技術を提供することである。
上記の課題を解決するために、この発明の一態様の意味情報付与装置は、利用者の視界に対応する画像中の各座標に位置するオブジェクトを推定するピクセル毎オブジェクト推定部と、利用者の視線位置に対応する画像中の座標に位置するオブジェクトを利用者が視聴する視聴対象オブジェクトとして推定する視聴対象オブジェクト推定部と、を含む。
この発明の意味情報付与技術は、利用者の視界に対応する画像から利用者が視聴しているオブジェクトを推定することができるため、利用者の視線位置に対して利用者がどのオブジェクトを視聴しているかという意味情報を付与することができる。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
この発明では、メガネ型視線推定装置で取得した世界カメラ画像を対象に映像シーン理解(例えば人物姿勢推定あるいはセマンティックセグメンテーションなど)を行い、世界カメラ画像と同時に取得した視線位置のピクセル値に加えて、利用者が世界カメラ画像中のどのオブジェクトを視聴しているかを示す意味情報を出力する。一般的なメガネ型視線推定装置は、世界カメラ画像中の視線位置を得ることができる。また、世界カメラ画像に対する画像処理により世界カメラ画像中に存在するオブジェクトを認識することができ、世界カメラ画像中の座標とオブジェクトとの関係を得ることができる。これを利用し、メガネ型視線推定装置の利用者が視聴しているオブジェクトを推定することが可能となる。
実施形態の意味情報付与装置は、主にスポーツなど人物により実施される事象を対象として、リアルタイムに別の選手やコーチが、あるいは記録されたビデオによりその人物自身が、その事象を視聴する際に、視聴している対象を分析することを目的としている。本形態は、図1に示すように、メガネ型視線推定装置1と意味情報付与装置2とからなる情報処理システムである。本形態のメガネ型視線推定装置1は、世界カメラ画像取得部11および視線位置取得部12を備える。本形態の意味情報付与装置2は、世界カメラ画像記憶部21、視線位置記憶部22、ピクセル毎オブジェクト推定部23、および視聴対象オブジェクト推定部24を備える。この意味情報付与装置2が後述する各ステップの処理を行うことにより本形態の意味情報付与方法が実行される。
意味情報付与装置2は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。意味情報付与装置2は、例えば、中央演算処理装置の制御のもとで各処理を実行する。意味情報付与装置2に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。意味情報付与装置2の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。意味情報付与装置2が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
メガネ型視線推定装置1が備える世界カメラ画像取得部11は、利用者の視聴する対象を撮影する世界カメラを用いて、利用者の視界に対応する画像(以下、「世界カメラ画像」とも呼ぶ)を取得する。世界カメラ画像取得部11は、撮影した世界カメラ画像を世界カメラ画像記憶部21へ時系列に蓄積する。このとき、世界カメラ画像取得部11は、世界カメラ画像を取得したタイムスタンプをその世界カメラ画像に付与して世界カメラ画像記憶部21へ記憶する。
メガネ型視線推定装置1が備える視線位置取得部12は、利用者の眼球を観測し、世界カメラ画像中での視線位置を推定する。視線位置は、例えば、世界カメラ画像中の座標を表すピクセル値で表される。視線位置取得部12は、取得した視線位置を視線位置記憶部22へ時系列に蓄積する。このとき、視線位置取得部12は、視線位置を取得したタイムスタンプをその視線位置に付与して視線位置記憶部22へ記憶する。
意味情報付与装置2が備えるピクセル毎オブジェクト推定部23は、世界カメラ画像記憶部21に記憶されている世界カメラ画像を読み込み、その世界カメラ画像に対してオブジェクト認識を行う。その後、世界カメラ画像中の各ピクセルについて、その位置に存在するオブジェクトを推定する。
オブジェクト認識の例(以下、「方法1」と呼ぶ)として、参考文献1に記載された人物姿勢推定が挙げられる。人物姿勢推定は、人物が撮影された画像から身体の関節点を検出する手法であり、例えば肩、肘、手首など様々な関節点を検出することができる。
〔参考文献1〕CMU-Perceptual-Computing-Lab、“OpenPose: Real-time multi-person keypoint detection library for body, face, and hands estimation”、[online]、[平成30年5月25日検索]、インターネット<URL: https://github.com/CMU-Perceptual-Computing-Lab/openpose>
方法1によるオブジェクト認識は、以下の2ステップで行われる。
ステップ1:世界カメラ画像に対して2D姿勢推定を行う。
ステップ2:2D姿勢に基づいて世界カメラ画像中の各ピクセルと撮影されている人物の身体部位とを対応付ける。2D姿勢推定により得られた身体部位それぞれに対して予め設定された領域を、利用者が視聴している範囲とする。この領域は、例えば図2に示すようにして設定することができる。まず、図2Aに示すように、2D姿勢推定により得られた関節点を結んで各身体部位に対応する線分を生成する。次に、図2Bに示すように、各身体部位に対応する線分から身体部位毎に定めた所定の太さの領域を生成する。ここで、各身体部位に対する太さはピクセル値で設定してもよいし、線分の長さに比例する値で設定してもよい。
ステップ1:世界カメラ画像に対して2D姿勢推定を行う。
ステップ2:2D姿勢に基づいて世界カメラ画像中の各ピクセルと撮影されている人物の身体部位とを対応付ける。2D姿勢推定により得られた身体部位それぞれに対して予め設定された領域を、利用者が視聴している範囲とする。この領域は、例えば図2に示すようにして設定することができる。まず、図2Aに示すように、2D姿勢推定により得られた関節点を結んで各身体部位に対応する線分を生成する。次に、図2Bに示すように、各身体部位に対応する線分から身体部位毎に定めた所定の太さの領域を生成する。ここで、各身体部位に対する太さはピクセル値で設定してもよいし、線分の長さに比例する値で設定してもよい。
オブジェクト認識の別の例(以下、「方法2」と呼ぶ)として、方法1の人物姿勢推定と、参考文献2に記載されたセマンティックセグメンテーションとを組み合わせて利用することも考えられる。セマンティックセグメンテーションとは、画像を領域(セグメント)に分割し、各セグメントに対してラベルを付与するものである。付与するラベルとしては、例えば人、車、芝など、用途に合わせて様々なセマンティックセグメンテーションが提案されている。
〔参考文献2〕University of Oxford、“CRF as RNN Semantic Image Segmentation Live Demo”、[online]、[平成30年5月25日検索]、インターネット<URL: http://www.robots.ox.ac.uk/~szheng/crfasrnndemo/>
方法2によるオブジェクト認識は、以下の3ステップで行われる。
ステップ1:世界カメラ画像に対してセマンティックセグメンテーションを行い、世界カメラ中の人物領域を推定する。
ステップ2:世界カメラ画像に対して2D姿勢推定を行う。
ステップ3:セマンティックセグメンテーションにより得られた人物領域と、2D姿勢推定により得られた2D姿勢とを重畳し、世界カメラ画像のピクセル毎に撮影されている人物の身体部位を対応付ける。
ステップ1:世界カメラ画像に対してセマンティックセグメンテーションを行い、世界カメラ中の人物領域を推定する。
ステップ2:世界カメラ画像に対して2D姿勢推定を行う。
ステップ3:セマンティックセグメンテーションにより得られた人物領域と、2D姿勢推定により得られた2D姿勢とを重畳し、世界カメラ画像のピクセル毎に撮影されている人物の身体部位を対応付ける。
対応付けた結果は、図3に示すように、ピクセル毎オブジェクト推定結果テーブルに保持される。図3の例では、世界カメラ画像のすべての座標(x, y)に対応するピクセルに対して、対応付けられた身体部位(例えば頭、足など)がオブジェクト推定結果として保持されている。このとき、オブジェクト推定結果は1つのピクセルに対して複数の値(例えば腕と肘など)を持つこともある。
意味情報付与装置2が備える視聴対象オブジェクト推定部24は、視線位置記憶部22に記憶されている視線位置を読み出し、ピクセル毎オブジェクト推定結果テーブルの中からその視線位置に対応するピクセルに対応付けられたオブジェクトを参照することで、利用者が視聴している視聴対象オブジェクトを推定する。このとき、視線位置に付与されたタイムスタンプと同じタイムスタンプが付与された世界カメラ画像から推定されたオブジェクト推定結果を用いる。すなわち、タイムスタンプに基づいて視線位置とオブジェクト推定結果との同期を行う。
本発明により視聴対象オブジェクトを推定する具体的な処理の流れを図4に示す。図4の例は棒高跳びを行う選手の画像である。入力された世界カメラ画像に対して、視線位置取得部12が視線位置の推定を行う。また、ピクセル毎オブジェクト推定部24が世界カメラ画像中のピクセル毎にオブジェクトを推定する。視聴対象オブジェクト推定部24は視線位置に対応するピクセルが属する領域を求め、その領域に対応するオブジェクト(身体部位)を視聴対象オブジェクトとして出力する。
このようにして本形態の意味情報付与装置2によれば、世界カメラから取得した世界カメラ画像中の視線位置から、利用者が視聴している視聴対象オブジェクト(例えば人物の身体部位など)を推定し、利用者がどのオブジェクトを視聴しているかという意味情報を付与することが可能となる。
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1 メガネ型視線推定装置
11 世界カメラ画像取得部
12 視線位置取得部
2 意味情報付与装置
21 世界カメラ画像記憶部
22 視線位置記憶部
23 ピクセル毎オブジェクト推定部
24 視聴対象オブジェクト推定部
11 世界カメラ画像取得部
12 視線位置取得部
2 意味情報付与装置
21 世界カメラ画像記憶部
22 視線位置記憶部
23 ピクセル毎オブジェクト推定部
24 視聴対象オブジェクト推定部
Claims (5)
- 利用者の視界に対応する画像中の各座標に位置するオブジェクトを推定するピクセル毎オブジェクト推定部と、
上記利用者の視線位置に対応する上記画像中の座標に位置する上記オブジェクトを上記利用者が視聴する視聴対象オブジェクトとして推定する視聴対象オブジェクト推定部と、
を含む意味情報付与装置。 - 請求項1に記載の意味情報付与装置であって、
上記ピクセル毎オブジェクト推定部は、上記画像中に撮影された人物の姿勢推定を行い、姿勢推定結果に基づいて得た身体部位を上記オブジェクトとして推定するものである、
意味情報付与装置。 - 請求項1に記載の意味情報付与装置であって、
上記ピクセル毎オブジェクト推定部は、上記画像に対するセマンティックセグメンテーションにより得た人物領域と上記画像に対する姿勢推定により得た姿勢推定結果とを重畳することで得た身体部位を上記オブジェクトとして推定するものである、
意味情報付与装置。 - ピクセル毎オブジェクト推定部が、利用者の視界に対応する画像中の各座標に位置するオブジェクトを推定し、
視聴対象オブジェクト推定部が、上記利用者の視線位置に対応する上記画像中の座標に位置する上記オブジェクトを上記利用者が視聴する視聴対象オブジェクトとして推定する、
意味情報付与方法。 - 請求項1から3のいずれかに記載の意味情報付与装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018117749A JP2019219988A (ja) | 2018-06-21 | 2018-06-21 | 意味情報付与装置、意味情報付与方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018117749A JP2019219988A (ja) | 2018-06-21 | 2018-06-21 | 意味情報付与装置、意味情報付与方法、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019219988A true JP2019219988A (ja) | 2019-12-26 |
Family
ID=69096639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018117749A Pending JP2019219988A (ja) | 2018-06-21 | 2018-06-21 | 意味情報付与装置、意味情報付与方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019219988A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111427373A (zh) * | 2020-03-24 | 2020-07-17 | 上海商汤临港智能科技有限公司 | 一种位姿确定方法、装置、介质和设备 |
-
2018
- 2018-06-21 JP JP2018117749A patent/JP2019219988A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111427373A (zh) * | 2020-03-24 | 2020-07-17 | 上海商汤临港智能科技有限公司 | 一种位姿确定方法、装置、介质和设备 |
CN111427373B (zh) * | 2020-03-24 | 2023-11-24 | 上海商汤临港智能科技有限公司 | 一种位姿确定方法、装置、介质和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102293008B1 (ko) | 정보 디스플레이 방법, 디바이스, 및 시스템 | |
CN109891189B (zh) | 策划的摄影测量 | |
US10204264B1 (en) | Systems and methods for dynamically scoring implicit user interaction | |
US10535160B2 (en) | Markerless augmented reality (AR) system | |
US10282913B2 (en) | Markerless augmented reality (AR) system | |
US9571726B2 (en) | Generating attention information from photos | |
CN111327788B (zh) | 相机组的同步方法、测温方法、装置及电子系统 | |
CN110866977B (zh) | 增强现实处理方法及装置、系统、存储介质和电子设备 | |
CN113658211B (zh) | 一种用户姿态的评估方法、装置以及处理设备 | |
CN107765842A (zh) | 一种增强现实方法及系统 | |
US20200242800A1 (en) | Determination apparatus and method for gaze angle | |
CN112419388A (zh) | 深度检测方法、装置、电子设备和计算机可读存储介质 | |
JP2015219879A (ja) | 画像認識システム、画像認識方法およびプログラム | |
US20160110909A1 (en) | Method and apparatus for creating texture map and method of creating database | |
JP2019219988A (ja) | 意味情報付与装置、意味情報付与方法、およびプログラム | |
US10122996B2 (en) | Method for 3D multiview reconstruction by feature tracking and model registration | |
JP6377566B2 (ja) | 視線計測装置、視線計測方法、およびプログラム | |
CN116403285A (zh) | 动作识别方法、装置、电子设备以及存储介质 | |
Teng et al. | Facial expressions recognition based on convolutional neural networks for mobile virtual reality | |
Fiorentino et al. | Magic mirror interface for augmented reality maintenance: an automotive case study | |
US11127218B2 (en) | Method and apparatus for creating augmented reality content | |
Pham et al. | A low cost system for 3d motion analysis using Microsoft Kinect | |
KR20120090866A (ko) | 모바일 기기를 이용하는 증강현실 환경에서 복수 객체 추적방법 및 이를 이용한 시스템 | |
CN113711164A (zh) | 用于应用和对应设备的用户控制的方法和装置 | |
Suh et al. | Monocular eye tracking system using webcam and zoom lens |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20180621 |