JP2016048467A

JP2016048467A - 運動視差再現方法、装置およびプログラム

Info

Publication number: JP2016048467A
Application number: JP2014173170A
Authority: JP
Inventors: 浩嗣三功; Hiroshi Sanko
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2014-08-27
Filing date: 2014-08-27
Publication date: 2016-04-07

Abstract

【課題】画像レンダリングに十分な奥行推定精度を確保し、画像合成によるアーティファクトを低減できる運動視差再現方法、装置およびプログラムを提供する。【解決手段】オブジェクト画像補間部２０３は、オブジェクト画像の輪郭部分をカメラ画像に基づいて補間する。奥行データ補間部２０４は、エッジ補間後のオブジェクト画像に基づいて奥行データを補間する。三次元モデル生成部２０５は、補間後の奥行データに基づいてオブジェクト領域の三次元ポリゴンモデルを生成する。仮想視点検出部２０６は、カメラ画像に基づいてユーザの仮想視点を検出する。仮想視点画像生成部２０７は、三次元ポリゴンモデルを仮想視点でレンダリングして現在の仮想視点画像を生成する。仮想視点画像補間部２０９は、過去の仮想視点画像を利用して、今回の仮想視点画像のオクルージョン領域を補間する。【選択図】図３

Description

本発明は、運動視差再現方法、装置およびプログラムに係り、特に、映像コミュニケーションにおける対話相手の映像上でユーザの運動視差を再現する運動視差再現方法、装置およびプログラムに関する。

ビデオ会議システムにおける運動視差を再現する手法として、非特許文献１には、撮影時にステレオカメラ等を用いて対象シーンの奥行データを生成し、ユーザが注視するディスプレイ中央から観測した場合の映像を合成する手法が開示されている。

また、近年ではMicrosoft Kinectのような安価な距離画像センサが急速に普及しており、各視点における映像およびその高精度な奥行データを安定して取得可能な環境が整備されつつある。

特許文献１には、被写体を距離画像センサで撮影してカメラ画像およびその深度マップを取得し、カメラ画像および深度マップに基づいて被写体のポリゴンモデルを生成し、ポリゴンモデルの各ポリゴンにカメラ画像の対応する各局所領域からテクスチャを射影して三次元のポリゴンテクスチャモデルを生成する技術が開示されている。

特開2014-67372号公報

Yo-Sung Ho et al., ``Gaze-corrected view generation using stereo camera system for immersive videoconferencing,'' IEEE Trans. Consumer Electronics, August 2011

非特許文献１では、運動視差の再現によりユーザの視線を一致させることはできるものの、奥行データの精度不足から、画像合成によるアーティファクトが大きくなり、映像品質として不十分であるという技術課題があった。

特許文献１で用いられる距離画像センサは、ジェスチャー認識等の動き予測に用いるうえでは十分な精度であるものの、カメラが存在しない視点での見え方をレンダリングするという目的においては、特にエッジ部分等で十分な奥行推定精度が得られず、ステレオマッチングによる奥行データ推定に基づく手法と同様、画像合成によるアーティファクトの問題が避けられない。

また、仮想視点を合成する際に、人物の腕で隠れる胴体領域（セルフオクルージョン）等を再現することができないため、ダイナミックな視点変更を行うと合成品質が著しく低下するという技術課題があった。

本発明の目的は、上記の技術課題を解決し、画像レンダリングに十分な奥行推定精度を確保し、画像合成によるアーティファクトを低減できる運動視差再現方法、装置およびプログラムを提供することにある。

上記の目的を達成するために、本発明は、対話相手の映像上でユーザの運動視差を実現する運動視差再現装置において、以下のような構成を具備した点に特徴がある。

(1) オブジェクトのカメラ画像およびその深度マップを取得する手段と、深度マップの奥行データに基づいてオブジェクト領域を抽出する手段と、オブジェクト領域をカメラ画像にマッピングしてオブジェクト画像を抽出する手段と、オブジェクト画像のエッジ領域をカメラ画像に基づいて補間する手段と、補間後のオブジェクト画像に基づいて奥行データを補間する手段と、補間後の奥行データに基づいてオブジェクト領域の三次元モデルを生成する手段と、三次元モデルをユーザの仮想視点でレンダリングして仮想視点画像を生成する手段とを具備した。

(2) 各時刻で生成された仮想視点画像を蓄積する手段と、仮想視点画像のオクルージョン領域を検出するオクルージョン検出手段と、仮想視点画像のオクルージョン領域を、前記蓄積されている過去の仮想視点画像に基づいて補間する手段とを具備した。

本発明によれば、以下のような効果が発生される。
(1) オブジェクト画像のエッジ領域をカメラ画像に基づいて補間し、補間後のオブジェクト画像に基づいて奥行データを補間し、補間後の奥行データに基づいてオブジェクト領域の三次元モデルが生成されるので、画像レンダリングに十分な奥行推定精度を確保し、画像合成によるアーティファクトを低減できる。したがって、距離画像（RGB-D）カメラを1セット用意するだけで、画像合成によるアーティファクトを最小限に抑えた運動視差を再現することが可能となり、ビデオ会議システムにおけるコミュニケーションの活性化を実現できる。

(2) 過去の仮想視点画像またはカメラ画像を蓄積しておき、今回の仮想視点画像のオクルージョン領域を、蓄積されている過去の仮想視点画像等に基づいて補間できるので、運動視差再現により生じ得るオクルージョンを解消できるようになる。

本発明の運動視差再現装置が適用されるテレビ会議システムの構成を示した図である。テレビ会議端末の主要部の構成を示したブロック図である。テレビ会議端末および距離画像カメラの機能ブロック図である距離画像カメラから出力されるカメラ画像[同図(a)]および当該カメラ画像に対応する深度マップ[同図(b)]の一例を示した図である。エッジ補間前後の各オブジェクト画像の一例を示した図である。奥行データがデプス補間された深度マップを示した図である。奥行データとその三次元ポリゴンモデルの例を示した図である。ポリゴンの作成方法を示した図である。仮想視点画像のオクルージョン領域を補間する方法を示した図である。

以下、図面を参照して本発明の実施の形態について詳細に説明する。図１は、本発明の運動視差再現装置が適用されるテレビ会議システムの構成を示した図であり、ここでは、本発明の説明に不要な構成は図示が省略されている。

テレビ会議システムは、複数の拠点Aに複数のテレビ会議端末１を分散配置し、各拠点Aでは各テレビ会議端末１が内部ネットワーク（LAN）で相互接続され、拠点同士は広域ネットワーク（WAN）で接続されている。各テレビ会議端末１は、汎用のコンピュータ（サーバ、スマートフォン、PDA）に各機能を実現するアプリケーション（プログラム）を実装して構成しても良いし、あるいはアプリケーションの一部がハードウェア化またはROM化された専用機や単能機として構成しても良い。

図２は、前記テレビ会議端末１の主要部の構成を示したブロック図であり、HDD１０１には、オペレーティングシステムや各種のアプリケーション、データが記憶されている。ROM１０２には、各種のデータやプログラムが不揮発に記憶されている。CPU１０５は、前記アプリケーションやプログラムを実行して視線一致画像を生成す。

RAM１０３は、前記CPU１０５にワークエリアを提供する。通信インタフェース１０４は、各テレビ会議端末１とLANとの接続を制御する。入力インタフェース１０６には、距離画像カメラ５、マイク６、キーボード７等の入力デバイスが接続される。出力インタフェース１０７には、スピーカ８、ディスプレイ９などの出力デバイスが接続される。

図３は、前記テレビ会議端末１および距離画像カメラ５の主要部の構成を示した機能ブロック図である。

距離画像（RGB-D）カメラ５において、撮像部５０１は、CCDまたはCMOSなどの画像センサ５０３からオブジェクトのカメラ画像（RGBカラー画像）を取得する。深度マップ作成部５０２は、光源５０４から照射されたLED光またはレーザ光の反射光を画像センサ５０３で検知し、到達時間を画素ごとに計測することにより、各画素と奥行データとを対応付ける深度マップを作成する。図４は、距離画像カメラ５から出力されるカメラ画像[同図(a)]および当該カメラ画像に対応する深度マップ[同図(b)]の一例を示している。

テレビ会議端末１において、オブジェクト領域抽出部２０１は、前記深度マップに基づいてオブジェクト領域を抽出する。本実施形態では、深度マップの奥行データに閾値を設定し、奥行データが閾値以下の領域がオブジェクト領域（ここでは、人物領域）と判定され、それ以外の領域は背景領域と判定される。

オブジェクト画像抽出部２０２は、カメラ画像から前記オブジェクト領域に対応するオブジェクト画像（ここでは、人物画像）を抽出する。図５(a)は、カメラ画像[図４(a)]からオブジェクト領域に基づいて抽出されたオブジェクト画像の一例を示している。

オブジェクト画像補間部２０３は、オブジェクト画像の輪郭部分をカメラ画像に基づいて補間する。本実施形態では、オブジェクト画像の輪郭近傍を一定の画素数だけ膨らませる形で探索し、色情報に基づくエッジ検出を行い、検出されるエッジの輪郭を正確なオブジェクト画像として再現する。

図５(b)は、エッジ補間後のオブジェクト画像を示した図であり、図５(a)の補間前と比較すれば、オブジェクト画像のエッジ部分、特に右手部分や胴体左側部分の画素が補間されて、より正確なオブジェクト画像が再現されていることが判る。

奥行データ補間部２０４は、エッジ補間後のオブジェクト画像に基づいて奥行データを補間する。本実施形態では、補間後のオブジェクト画像に対応する深度マップの領域を特定し、当該領域内でオブジェクト領域に対応する値を示さない奥行データを、その近傍でオブジェクト領域に対応する値を示す奥行データに基づいて補間（デプス補間）する。

図６は、デプス補間処理後の奥行データによる深度マップを示した図であり、オブジェクト領域の、特に破線で囲った腕や胴体のエッジ部分、頭頂部分および右手部分において奥行データが補間され、より正確な奥行データが再現されていることが判る。

三次元モデル生成部２０５は、補間後の奥行データに基づいてオブジェクト領域の三次元ポリゴンモデルを生成する。本実施形態では、オブジェクト領域に対応する補間済み奥行データ[図７(a)]を対象に各画素の隣接関係に基づいて3次元ポリゴンモデル化を行うことで三次元ポリゴンモデル[図７(b)]が作成される。

例えば、図８に示したように、カメラ画像の各２×２＝４の画素ブロックから選択される３つの画素の組み合わせごとに、各画素の三次元座標をカメラ画像上での二次元座標および奥行き値から算出し、各三次元座標を頂点座標とする三角形のポリゴンを生成する。そして、補完後の深度マップから生成された全てのポリゴンを連結してポリゴンモデルを生成する。このとき、頂点座標間の距離が閾値以上のパターンはノイズと見なされて排除される。

仮想視点検出部２０６は、センサのヘッドトラッキング機能等を用いることでユーザの仮想視点を検出する。仮想視点画像生成部２０７は、前記三次元ポリゴンモデルを前記仮想視点でレンダリングして現在の仮想視点画像を生成する。生成された仮想視点画像はHDD１０１に蓄積され、将来の仮想視点画像において検出されたオクルージョン領域を補間するために利用される。

オクルージョン検出部２０８は、現在の仮想視点画像のうち、セルフオクルージョンにより撮影画像からテクスチャ情報を取得することができず、表示に欠落が生じている領域をオクルージョン領域として検出する。仮想視点画像補間部２０９は、HDD１０１に蓄積されている過去の仮想視点画像に対して、今回のオクルージョン領域に対応する画素の画素値を参照し、表示に欠落が生じていないフレームを特定する。そして、オクルージョン領域に対応する画素情報を当該仮想視点画像から切出して現在の仮想視点画像のオクルージョン領域に貼り付ける。

図９は、仮想視点画像補間部２０９の機能を説明するための図であり、同図(a)に示したカメラ画像が得られている状態でユーザが視点を上方へ移動させると、前記仮想視点画像生成部２０７により生成される仮想視点画像は同図(b)のようになり、右手によるセルフオクルージョンが腹部近傍に発生してしまう。

ここで、例えば図５に示したようにユーザの腹部近傍が写っているオブジェクト画像の仮想視点画像が履歴情報としてHDD１０１に蓄積されていれば、当該画像からオクルージョン領域の対応領域を切り出して現在の仮想視点画像のオクルージョン領域に貼り付けることにより、同図(c)に示したように、セルフオクルージョン領域の補間された完全な仮想視点画像を再現できるようになる。

本実施形態によれば、オブジェクト画像のエッジ領域をカメラ画像に基づいて補間し、補間後のオブジェクト画像に基づいて奥行データを補間し、補間後の奥行データに基づいてオブジェクト領域の三次元モデルが生成されるので、画像レンダリングに十分な奥行推定精度を確保し、画像合成によるアーティファクトを低減できる。したがって、距離画像（RGB-D）カメラを1セット用意するだけで、画像合成によるアーティファクトを最小限に抑えた運動視差を再現することが可能となり、ビデオ会議システムにおけるコミュニケーションの活性化を実現できる。

また、本実施形態によれば、過去の仮想視点画像またはカメラ画像を蓄積しておき、今回の仮想視点画像のオクルージョン領域を、蓄積されている過去の仮想視点画像等に基づいて補間できるので、運動視差再現により生じ得るオクルージョンを解消できるようになる。

１…テレビ会議端末，４…LEDライト，５…カメラ，６…マイク，７…キーボード，８…スピーカ，９…ディスプレイ，１０１…HDD，１０２…ROM，１０３…RAM，１０４…通信インタフェース，１０５…CPU，１０６…入力インタフェース，１０７…出力インタフェース，２０１…オブジェクト領域抽出部，２０２…オブジェクト画像抽出部，２０３…オブジェクト画像補間部，２０４…奥行データ補間部，２０５…三次元モデル生成部，２０６…仮想視点検出部，２０７…仮想視点画像生成部，２０８…オクルージョン検出部，２０９…仮想視点画像補間部

Claims

対話相手の映像上でユーザの運動視差を実現する運動視差再現装置において、
ユーザの仮想視点を検知する手段と、
オブジェクトのカメラ画像およびその深度マップを取得する手段と、
深度マップの奥行データに基づいてオブジェクト領域を抽出する手段と、
オブジェクト領域をカメラ画像にマッピングしてオブジェクト画像を抽出する手段と、
オブジェクト画像のエッジ領域をカメラ画像に基づいて補間する手段と、
補間後のオブジェクト画像に基づいて奥行データを補間する手段と、
補間後の奥行データに基づいてオブジェクト領域の三次元モデルを生成する手段と、
三次元モデルを仮想視点でレンダリングして仮想視点画像を生成する手段とを具備したことを特徴とする運動視差再現装置。
各時刻で生成された仮想視点画像を蓄積する手段と、
仮想視点画像のオクルージョン領域を検出するオクルージョン検出手段と、
仮想視点画像のオクルージョン領域を、前記蓄積されている過去の仮想視点画像に基づいて補間する手段とを具備したことを特徴とする請求項１に記載の運動視差再現装置。
前記オブジェクト画像のエッジ領域を補間する手段は、オブジェクト画像の輪郭近傍を探索し、色情報に基づくエッジ補間を行うことを特徴とする請求項１または２に記載の運動視差再現装置。
前記奥行データを補間する手段は、補間後のオブジェクト画像に対応する深度マップの領域内でオブジェクト領域に対応する値を示さない奥行データを、その近傍でオブジェクト領域に対応する値を示す奥行データに基づいて補間することを特徴とする請求項１ないし３のいずれかに記載の運動視差再現装置。
前記三次元モデルを生成する手段は、前記補間後のオブジェクト領域に対応する奥行データにおける各画素の隣接関係に基づいて三次元ポリゴンモデルを生成することを特徴とする請求項１ないし４のいずれかに記載の運動視差再現装置。
対話相手の映像上でユーザの運動視差を実現する運動視差再現方法において、
オブジェクトのカメラ画像およびその深度マップを入力する手順と、
深度マップの奥行データに基づいてオブジェクト領域を抽出する手順と、
オブジェクト領域をカメラ画像にマッピングしてオブジェクト画像を抽出する手順と、
オブジェクト画像のエッジ領域をカメラ画像に基づいて補間する手順と、
補間後のオブジェクト画像に基づいて奥行データを補間する手順と、
補間後の奥行データに基づいてオブジェクト領域の三次元モデルを生成する手順と、
三次元モデルを仮想視点でレンダリングして仮想視点画像を生成する手順とを含むことを特徴とする運動視差再現方法。
各時刻で生成された仮想視点画像を蓄積する手順と、
仮想視点画像のオクルージョン領域を検出する手順と、
仮想視点画像のオクルージョン領域を、前記蓄積されている過去の仮想視点画像に基づいて補間する手順とをさらに含むことを特徴とする請求項６に記載の運動視差再現方法。
対話相手の映像上でユーザの運動視差を実現する運動視差再現プログラムにおいて、
オブジェクトのカメラ画像およびその深度マップを入力する手順と、
深度マップの奥行データに基づいてオブジェクト領域を抽出する手順と、
オブジェクト領域をカメラ画像にマッピングしてオブジェクト画像を抽出する手順と、
オブジェクト画像のエッジ領域をカメラ画像に基づいて補間する手順と、
補間後のオブジェクト画像に基づいて奥行データを補間する手順と、
補間後の奥行データに基づいてオブジェクト領域の三次元モデルを生成する手順と、
三次元モデルを仮想視点でレンダリングして仮想視点画像を生成する手順とを、コンピュータに実行させる運動視差再現プログラム。
各時刻で生成された仮想視点画像を蓄積する手順と、
仮想視点画像のオクルージョン領域を検出する手順と、
仮想視点画像のオクルージョン領域を、前記蓄積されている過去の仮想視点画像に基づいて補間する手順とをさらに含むことを特徴とする請求項８に記載の運動視差再現プログラム。