JP2017207818A

JP2017207818A - 画像処理装置、画像処理方法、プログラム

Info

Publication number: JP2017207818A
Application number: JP2016098065A
Authority: JP
Inventors: 小林　正明; Masaaki Kobayashi; 正明小林
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-05-16
Filing date: 2016-05-16
Publication date: 2017-11-24

Abstract

【課題】入力した映像の被写体（主に背景）の動きをトラッキングし、トラッキング結果から三次元空間上のカメラの位置・姿勢を推定し、その推定したカメラの位置と被写体の相対位置関係から、三次元空間マップを生成処理において、少ない処理負荷で、トラッキング性能を向上する画像処理装置、画像処理方法及びプログラムを提供する。【解決手段】ＣＰＵ１０３は、連続した撮像により取得された複数の画像を画像解析の対象画像と非対象画像とに分類する。動き解析部１０９は、対象画像を使って画像解析を行って動き情報を生成する。三次元空間マップ生成部１１０は、動き情報であるトラッキング結果から三次元空間上のカメラの位置と姿勢を推定し、その推定したカメラの位置と被写体等の相対位置関係に基づく三次元空間マップを生成する。【選択図】図１

Description

本発明は、画像解析を行う画像処理装置、画像処理方法、プログラム、及び画像処理システムに関する。

近年、被写体等の動きを追跡するトラッキング技術の応用が増えている。トラッキング方法には、特徴点の動きを検出する方法やミーンシフトなどがある。特徴点の検出方法には、ＳＩＦＴ（非特許文献１）やＦＡＳＴ（非特許文献２）などがある。また、トラッキング技術の応用としては、ＭＲ（ＭｉｘｅｄＲｅａｌｉｔｙ）／ＡＲ（ＡｒｇｕｍｅｎｅｔｅｄＲｅａｌｉｔｙ）がある。これらの技術は、ＣＧ（ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ）オブジェクトが実空間上に存在するかのような映像を作る技術である。ＭＲ／ＡＲを実現するには、ＳｆＭ（ＳｔｒｕｃｔｕｒｅｆｒｏｍＭｏｔｉｏｎ）と呼ばれる技術があり、その具体的なアルゴリズムの一つとしてＰＴＡＭ（非特許文献３）がある。ＳｆＭ（ＰＴＡＭ）では、入力した映像の被写体（主に背景）の動きをトラッキングし、トラッキング結果から三次元空間上のカメラの位置・姿勢を推定し、その推定したカメラの位置と被写体の相対位置関係から、三次元空間マップを生成する。そして、三次元空間マップ情報を使って、ＣＧオブジェクトの位置と向きを決定し、入力した映像に重畳することによって、実空間内にＣＧオブジェクトが存在するような映像が得られる。

"ＤｉｓｔｉｎｃｔｉｖｅＩｍａｇｅＦｅａｔｕｒｅｓｆｒｏｍＳｃａｌｅ−ＩｎｖａｒｉａｎｔＫｅｙｐｏｉｎｔｓ" ＤａｖｉｄＧ．Ｌｏｗｅ，ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＩＪＣＶ），Ｖｏｌ．６０，Ｎｏ．２，ｐｐ．９１−１１０，２００４ "Ｍａｃｈｉｎｅｌｅａｒｎｉｎｇｆｏｒｈｉｇｈ−ｓｐｅｅｄｃｏｒｎｅｒｄｅｔｅｃｔｉｏｎ" ＥｄｗａｒｄＲｏｓｔｅｎａｎｄＴｏｍＤｒｕｍｍｏｎｄ，ＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，２００６ＧｅｏｒｇＫｌｅｉｎａｎｄＤａｖｉｄＭｕｒｒａｙＰａｒａｌｌｅｌＴｒａｃｋｉｎｇａｎｄＭａｐｐｉｎｇｏｎａＣａｍｅｒａＰｈｏｎｅＩｎＰｒｏｃ．ＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＭｉｘｅｄａｎｄＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ（ＩＳＭＡＲ´０９，Ｏｒｌａｎｄｏ） "Ｅｆｆｉｃｉｅｎｔｂｕｎｄｌｅａｄｊｕｓｔｍｅｎｔｗｉｔｈｖｉｒｔｕａｌｋｅｙｆｒａｍｅｓ：ａｈｉｅｒａｒｃｈｉｃａｌａｐｐｒｏａｃｈｔｏｍｕｌｔｉ−ｆｒａｍｅｓｔｒｕｃｔｕｒｅｆｒｏｍｍｏｔｉｏｎ" Ｈｅｕｎｇ−ＹｅｕｎｇＳｈｕｍ，ＱｉｆａＫｅ，ＺｈｅｎｇｙｏｕＺｈａｎｇ，ＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，１９９９．ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙＣｏｎｆｅｒｅｎｃｅｏｎ．

ここで、前述したトラッキング処理の性能は、画像の特性に大きく依存する。例えば、速いシャッタースピード（高速シャッター）で撮影された映像は、視聴時にジャダーと呼ばれる動体の動きの不連続性ができるものの、一つのフレームを静止画として観察した場合、動体領域のエッジやコーナーが鮮鋭になる。一方、遅いシャッタースピード（低速シャッター）で撮影された映像は、ジャダーは少ないもの、動体領域のエッジやコーナーでは動き量に応じて鮮鋭度が低下する（画像がボケる）。また、前述した特徴点を利用したトラッキング処理の場合、コーナー（特徴点）が鮮明となる高速シャッターで撮影された映像を利用することが好ましい。すなわち、低速シャッターで撮像された映像の場合、被写体やカメラが速く動くと、動きボケと呼ばれる鮮鋭度の劣化が生じ、トラッキングなどコンピュータビジョン系の処理性能が低下してしまうため、高速シャッターで撮影することが望まれる。また、高速シャッターの撮影で生じ易いジャダーを減らすために、フレームレートを高くする手段もありうるが、高速フレームレートになると処理負荷が増大してしまう。

そこで、本発明は、少ない処理負荷で、トラッキング性能を向上させることを目的とする。

本発明は、連続した撮像により取得された複数の画像を画像解析の対象画像と非対象画像とに分類し、前記対象画像を使って画像解析を行って動き情報を生成することを特徴とする。

本発明によれば、少ない処理負荷で、トラッキング性能を向上させることが可能となる。

第１、第２の実施形態のＨＭＤの概略的な構成例を示す図である。第１の実施形態のＨＭＤの動作のフローチャートである。画像の時間的なズレを説明する図である。第２の実施形態のＨＭＤの動作のフローチャートである。第３の実施形態のＭＲシステムの概略的な構成を示す図である。第３の実施形態のＨＭＤ側の動作のフローチャートである。第３の実施形態のホストコンピュータ側の動作のフローチャートである。

以下、図面を参照しながら本発明の一実施形態について説明する。
＜第１の実施形態＞
実施形態の画像処理装置の一適用例として、カメラとディスプレイを内蔵し、ＭＲ（ＭｉｘｅｄＲｅａｌｉｔｙ）／ＡＲ（ＡｒｇｕｍｅｎｅｔｅｄＲｅａｌｉｔｙ）機能を備えたヘッドマウントディスプレイ（以下、ＨＭＤ１００とする。）について説明する。図１（ａ）は、第１の実施形態のＨＭＤ１００の概略構成例を示す図である。本実施形態のＨＭＤ１００は、撮像部１０２のカメラにて撮像した映像から被写体等の動きをトラッキングし、そのトラッキング結果から三次元空間上のカメラの位置と姿勢を推定する。さらに、ＨＭＤ１００は、その推定したカメラの位置と被写体等の相対位置関係に基づく三次元空間マップを生成し、その三次元空間マップを基にＣＧオブジェクトの位置と向きを決定する。そして、ＨＭＤ１００は、そのＣＧオブジェクトを、撮像された映像に重畳してディスプレイに表示することにより、実空間内にＣＧオブジェクトが存在するような映像を生成可能となされている。

以下、第１の実施形態のＨＭＤ１００が備えている各モジュールとそれら各モジュールの動作の概要について、図１（ａ）を参照しながら説明する。
撮像部１０２は、例えばレンズ、撮像センサ、レンズ制御部を有するカメラである。撮像部１０２のレンズは、ズームレンズ、フォーカスレンズを含み、レンズ制御部がそれらズームレンズやフォーカスレンズを駆動制御して、ズームやフォーカスを制御する。撮像部１０２の撮像センサは、レンズから取り込んだ光を受光し、受光信号をＲＧＢ画像データに変換する。バス１０１は、ＨＭＤ１００内でのデータが流れる経路である。

ＣＰＵ１０３は、オペレーティングシステム（ＯＳ）やアプリケーションプログラム等のコンピュータプログラムに基づいて、計算処理を行ったり、機器全体の動作を制御したりする。なお、本実施形態では、特別な記述がない場合、ＣＰＵ１０３がＨＭＤ１００内のモジュール制御を行うものとする。また、本実施形態ではＣＰＵが一つであるとして説明するが、これに限定されず複数のＣＰＵが存在する構成をとってもよい。本実施形態の場合、ＣＰＵ１０３が制御手段の一例である。

フラッシュメモリ１０８は、不揮発メモリであり、プログラムやデータをファイルとして記憶している。ＲＡＭ１０４は、データ等の読み書きが可能なメモリであり、ＣＰＵ１０３や他のモジュールの情報を一時的に格納するワークエリア等としても機能する。本実施形態では、プラグラムや各種データはフラッシュメモリ１０８に記録されており、これらがバス１０１を介してＲＡＭ１０４へ入力され、ＣＰＵ１０３がプログラムの実行及び各種処理を行う構成をとる。

画像フィルタ部１０５は、ＲＡＭ１０４に記憶された撮像画像データにノイズ除去などのフィルタ処理を施し、そのフィルタ処理後の画像データをＲＡＭ１０４に記憶する。本実施形態ではフィルタ処理はバイラテラルフィルタ処理とする。

グラフィックプロセッサ１０６は、ディスプレイ１０７に映像を表示する際に必要な処理を実行する。また、このグラフィックプロセッサ１０６は、汎用的な二次元・三次元画像処理をプログラマブルに実行できる。本実施形態の場合、グラフィックプロセッサ１０６は、画像合成手段としての機能も備えている。ディスプレイ１０７は、グラフィックプロセッサ１０６が処理した映像を表示する表示装置である。本実施形態の画像処理装置はＨＭＤ１００であるため、ディスプレイ１０７は両眼用の２つのディスプレイとなされている。なお、本実施形態では、両眼用の二つのディスプレイに表示する像は同一であるものとして説明する。

動き解析部１０９は、ＲＡＭ１０４内の撮像画像データから、いわゆるＦＡＳＴ特徴点検出方式により特徴点を検出した後、その特徴点を中心とするパッチ領域を使ったブロックマッチングによる動き探索を実行することにより、特徴点の動きベクトルを得る。動き解析部１０９により得られた動きベクトルは動き情報として、ＲＡＭ１０４に記憶される。

三次元空間マップ生成部１１０は、ＲＡＭ１０４に記憶された特徴点の動き情報を読み出し、その動き情報に基づいて三次元空間マップを生成するモジュールである。ＣＧ位置計算部１１１は、位置生成手段の一例であり、ＣＧオブジェクトを三次元空間マップ上に配置（描画）する位置と向きを算出する。ＣＧ生成部１１２は、ＣＧ生成手段の一例であり、ＣＧ位置計算部１１１により算出された位置と向きに、ＣＧオブジェクトが配置されたＣＧ情報を生成する。

以下、第１の実施形態のＨＭＤ１００における全体的な動作と各モジュールの詳細な動作について説明する。
ここで、一般に、動画の映像は、５０ｆｐｓ（フレーム毎秒）若しくは６０ｆｐｓのフレームレートで撮像されて表示される。これに対し、本実施形態の場合、撮像部１０２は、１２０ｆｐｓで画像を連続的に撮像した動画の各フレーム画像のデータを、順次、ＲＡＭ１０４へ記憶する。撮像部１０２において１２０ｆｐｓ（フレーム毎秒）で画像を撮像している理由についての説明は後述する。また、本実施形態において、画像サイズは横×縦が１９２０×１０８０画素であるとする。なお、画像サイズやフレームレートは、この例に限定されるものではない。

また、本実施形態のＨＭＤ１００において、内部フォーマットは、各チャンネル８ビットのＲＧＢ画像を扱うフォーマットであるとし、また、画像データのレンジは、各チャンネルの色の強度が１６から２３５のレンジで表されるリミティッドレンジとする。リミティッドレンジでは、（Ｒ，Ｇ，Ｂ）＝（１６，１６，１６）が黒色、（Ｒ，Ｇ，Ｂ）＝（２３５，２３５，２３５）が白色、（Ｒ，Ｇ，Ｂ）＝（１６，２３５，１６）が青色のように色が表現され、８ビットのレンジの全ては使われない。なお、画像フォーマットは、これに限定されずＹＵＶ画像、モノクロの輝度画像のようなフォーマットでもよい。

ＣＰＵ１０３は、前述した１２０ｆｐｓで撮像された画像データの各フレーム画像を、フレーム番号により、動き解析部１０９の動き解析の対象となされる対象画像と、動き解析の対象とされない非対象画像とに分類する。本実施形態の場合、ＣＰＵ１０３は、各フレーム画像のフレーム番号により、偶数フレーム画像を対象画像とし、奇数フレーム画像を非対象画像として分類する。これは、画像データの各フレームを所定の周期毎（この場合は１フレームおきの周期毎）に対象画像としていることに相当する。言い換えれば、これは奇数フレームを間引いて処理することに相当する。そして、ＣＰＵ１０３は、対象画像である偶数フレーム画像のデータをＲＡＭ１０４から読み出し、その偶数フレーム画像データに対するノイズ除去フィルタ処理を画像フィルタ部１０５に行わせる。このフィルタ処理後の画像データは、ＲＡＭ１０４に記憶される。

なお、本実施形態では、対象画像として偶数フレームを選択する例を挙げたが、これには限定されず、奇数フレームが対象画像として選択されてもよい。また、本実施形態において、画像フィルタ部１０５のフィルタ処理は、バイラテラルフィルタ処理としており、これはノイズ除去処理を目的としている。ガウシアンフィルタなどの一般的な平滑化フィルタ処理は、動き解析や三次元空間マップ作製処理の性能をかえって低下させてしまうことがある。これに対し、バイラテラルフィルタ処理のようなエッジ保存型のフィルタ処理は、ノイズ除去をしつつエッジの鮮鋭性を維持して、動き解析や三次元空間マップ作製処理を行うことができるため、本実施形態ではバイラテラルフィルタ処理を採用している。なお、フィルタ処理は、バイラテラルフィルタ処理に限定されるものではない。例えば、輪郭補正フィルタ処理や、画素がエッジと平坦部のどちらに含まれるかを判定してフィルタ処理を切り替えるタイプのフィルタ処理でもエッジ保存性があり、これらも本実施形態のフィルタ処理の目的に適している。その他にも、フィルタ処理は、重み付きメディアンフィルタ処理のようなコーナー保存性の高いフィルタ処理であってもよい。これは、特徴点検出処理の性能低下を抑えるためには、コーナー保存性が重要なファクターであるからである。

動き解析部１０９は、動き解析処理を行って特徴点の動きベクトル情報（動き情報）を生成する。この動きベクトルは、撮像画像内の被写体等の動きをトラッキングしたトラッキング結果に相当する。ここで、本実施形態において、動き解析部１０９による動き解析処理は、輝度の画像成分を用いて行うものとし、内部フォーマットがＲＧＢ画像、又はＹＵＶ画像の場合には、自動的に輝度画像に変換されるものとして説明する。動き解析部１０９による動き解析により生成された動き情報は、ＲＡＭ１０４を介して三次元空間マップ生成部１１０に送られる。

三次元空間マップ生成部１１０は、動き情報に基づいて三次元空間マップを生成する。具体的には、三次元空間マップ生成部１１０は、動き情報であるトラッキング結果から三次元空間上のカメラの位置と姿勢を推定し、その推定したカメラの位置と被写体等の相対位置関係に基づく三次元空間マップを生成する。三次元空間マップ情報は、ＣＧ生成部１１２とＣＧ位置計算部１１１に送られる。

ＣＧ位置計算部１１１は、三次元空間マップ上のどの位置にＣＧオブジェクトを配置するかを決定し、その決定した配置位置情報をＣＧ生成部１１２に送る。なお、動き解析部１０９、三次元空間マップ生成部１１０、ＣＧ位置計算部１１１の動作については、いわゆるＳｆＭ技術を基に行われるものとする。その方法については、例えば非特許文献３や非特許文献４などに公開されているため、ここではその詳細な説明は省略する。本実施形態における三次元空間マップ生成に関しては、ここに挙げた方式に限定されず、あらゆるＳｆＭ技術が適用可能である。

ＣＧ生成部１１２は、ＣＧオブジェクトデータと三次元空間マップ情報及び配置位置情報を基に、三次元空間の所定の位置（ＣＧ位置計算部１１１により決定された位置）にＣＧオブジェクトが存在するようにＣＧオブジェクトを描画するＣＧ情報を生成する。このＣＧ情報はグラフィックプロセッサ１０６に送られる。ＣＧオブジェクトデータは、ＣＧの形状を決定する三次元の頂点座標情報とテクスチャ情報からなり、これらの情報は例えばフラッシュメモリ１０８に用意されていて、予めＲＡＭ１０４に読み込まれているものとする。また、本実施形態では、生成されたＣＧ情報は、いわゆるクロマキー付きの画像データとなされている。ただし、これには限定されず、透明領域とその透明度を示すαチャンネル画像と実画像との双方を扱う構成であってもよい。以下の説明では、ＣＧ情報をＣＧ画像とする。

グラフィックプロセッサ１０６は、前述した１２０ｆｐｓで撮像されてＲＡＭ１０４に記憶された画像データの隣り合った偶数フレームと奇数フレームの画像データを加算平均してベース画像データを生成する。加算平均は下記式（１）のように表せる。なお、式（１）の（ｘ，ｙ）は画素の座標、ｎ'は出力フレーム番号レート、ｎ（＝２×ｎ'）は入力されるフレーム番号、ｃはカラーチャンネルである。また、式（１）のＳ_c（ｘ，ｙ，ｎ）はベース画像、Ｉ_c（ｘ，ｙ，ｎ）は偶数フレームの画像、Ｉ_c（ｘ，ｙ，ｎ＋１）は奇数フレームの画像を表し、カラーチャンネルｃは（Ｒ，Ｇ，Ｂ）で表される。

更に、グラフィックプロセッサ１０６は、ベース画像に対し、ＣＧ生成部１１２にて生成されたＣＧ画像を重畳する。本実施形態では、（Ｒ，Ｇ，Ｂ）が（０，２５５，０）に近い色を透明色として扱い、ベース画像とＣＧ画像を重畳するものとする。ここで、透明色と判定するための閾値をＴ₀，Ｔ₁，Ｔ₂とすると、重畳処理は下記式（２）で表される。本実施形態では、各チャンネル８ビットの場合には、例えばＴ₀＝８，Ｔ₁＝２４８，Ｔ₂＝８とする。なお、式（２）において、Ｏ_c（ｘ，ｙ，ｎ'）は重畳処理後の画像を示す。また、式（２）のＧ_c（ｘ，ｙ，ｎ）はＣＧ画像であり、Ｇ₀（ｘ，ｙ，ｎ）は赤色に対応したＣＧ画像、Ｇ₁（ｘ，ｙ，ｎ）は緑色に対応したＣＧ画像、Ｇ₂（ｘ，ｙ，ｎ）は青色に対応したＣＧ画像である。

グラフィックプロセッサ１０６によりベース画像にＣＧ画像が重畳されたＣＧ重畳画像（以下、ＣＧ合成画像と表記する）のデータは、ディスプレイ１０７に送られる。ディスプレイ１０７は、グラフィックプロセッサ１０６から供給されたＣＧ合成画像データから６０ｆｐｓの映像を生成して表示する。

次に、上述した第１の実施形態のＨＭＤ１００における一連の動作について図２のフローチャートを参照しながら説明する。
図２は、連続した隣り合う偶数フレームと奇数フレームの２フレームを一組として合成した合成画像（ベース画像）に対してＣＧ画像を重畳することでＣＧ合成画像を生成する場合を例に挙げたフローチャートである。図２のフローチャートの各処理は、ＣＰＵ１０３による制御の下で、ＨＭＤ１００の各モジュールにより行われる。以下の説明では、図２のフローチャートの各処理のステップＳ２０１〜ステップＳ２０９をＳ２０１〜Ｓ２０９と略記し、これは以降のフローチャートにおいても同様とする。なお、Ｓ２０１〜Ｓ２０９の各処理のステップは順番に実行されるが、データの入出力に依存関係のない処理は順番を変えて実行されてもよい。

Ｓ２０１では、ＣＰＵ１０３は、撮像部１０２により撮像されてＲＡＭ１０４に格納されたフレーム画像のうち、偶数フレームであるフレーム番号ｎの画像データ（対象画像のデータ）を取得する。ここで、撮像部１０２による撮像は１２０ｆｐｓのフレームレートで行われるが、本実施形態では、２フレームを一組としてベース画像を生成するため、Ｓ２０１で画像データを取得する際のフレーム番号のｎは二つずつインクリメントされる。Ｓ２０１で取得された画像データは画像フィルタ部１０５とグラフィックプロセッサ１０６に送られる。Ｓ２０１の後、ＣＰＵ１０３は、Ｓ２０２に処理を進める。

Ｓ２０２では、ＣＰＵ１０３は、画像フィルタ部１０５を制御して、Ｓ２０１で取得された画像データに対するノイズ除去フィルタ処理を行わせる。このフィルタ処理後の画像データは、動き解析部１０９に送られる。Ｓ２０２の後、ＣＰＵ１０３は、Ｓ２０３に処理を進める。

Ｓ２０３では、ＣＰＵ１０３は、動き解析部１０９を制御して、Ｓ２０２のフィルタ処理後の画像データに対する動き解析処理を行わせる。この動き解析処理による動き解析結果（動き情報）は、三次元空間マップ生成部１１０に送られる。Ｓ２０３の後、ＣＰＵ１０３は、Ｓ２０４に処理を進める。

Ｓ２０４では、ＣＰＵ１０３は、三次元空間マップ生成部１１０を制御して、Ｓ２０３の動き解析結果（動き情報）に基づいて三次元空間マップを生成させる。この三次元空間マップ生成処理による三次元空間マップ情報は、ＣＧ生成部１１２に送られる。Ｓ２０４の後、ＣＰＵ１０３は、Ｓ２０５に処理を進める。

Ｓ２０５では、ＣＰＵ１０３は、撮像部１０２により撮像されてＲＡＭ１０４に格納されたフレーム画像のうち、奇数フレームであるフレーム番号ｎ＋１の画像データ（非対象画像のデータ）を取得する。Ｓ２０１で取得された画像データは、グラフィックプロセッサ１０６に送られる。Ｓ２０５の後、ＣＰＵ１０３は、Ｓ２０６に処理を進める。

Ｓ２０６では、ＣＰＵ１０３は、グラフィックプロセッサ１０６を制御して、Ｓ２０１で取得された偶数フレームのフレーム番号ｎの画像と、Ｓ２０５で取得された奇数フレームのフレーム番号ｎ＋１の画像とを合成させてベース画像を生成させる。このときの合成処理は、前述した式（１）で示される計算式により行われる。Ｓ２０６の後、ＣＰＵ１０３は、Ｓ２０７に処理を進める。

Ｓ２０７では、ＣＰＵ１０３は、フラッシュメモリ１０８に予め用意されているＣＧオブジェクトデータを読み込んで、ＣＧ生成部１１２に送る。ＣＧオブジェクトデータには、オブジェクトの座標、形状、テクスチャ情報が含まれる。Ｓ２０７の後、ＣＰＵ１０３は、Ｓ２０８に処理を進める。

Ｓ２０８では、ＣＰＵ１０３は、ＣＧ生成部１１２を制御して、Ｓ２０４で生成された三次元空間マップ情報と、Ｓ２０７で取得されたＣＧオブジェクトデータとを用いて、フレーム番号ｎの画像に対応した二次元空間に射影されるＣＧ画像を生成させる。Ｓ２０８で生成されたＣＧ画像のデータは、グラフィックプロセッサ１０６に送られる。なお、本実施形態では、Ｒ値が０、Ｇ値が２５５、Ｂ値が０である画素を透明であるものとして扱う。Ｓ２０８の後、ＣＰＵ１０３は、Ｓ２０９に処理を進める。

Ｓ２０９では、ＣＰＵ１０３は、グラフィックプロセッサ１０６を制御して、Ｓ２０６で生成されたベース画像に、Ｓ２０８で生成されたＣＧ画像を重畳させて、ＣＧ合成画像を生成させる。このときの重畳処理は、前述した式（２）に基づいて行われる。すなわち、ＣＧ画像の画素が前述したように透明である場合には、ベース画像の絵が透過的に残り、ＣＧオブジェクトが前景で、ベース画像が背景となるように描画されたＣＧ合成画像が生成される。Ｓ２０９の後、ＣＰＵ１０３は、図２のフローチャートの処理を終了する。次の２フレームを一組とする画像についての処理が行われるとき、図２のフローチャートの処理が実行される。

上述した各処理は、ＣＰＵ１０３による制御の下でＨＭＤ１００の各モジュールにより行われているが、ＣＰＵ１０３に十分な演算能力がある場合には、各モジュールの処理の一部、又は全てをＣＰＵ１０３が行ってもよい。この場合、上述した各処理をＣＰＵ１０３が実行する際のプログラムは、フラッシュメモリ１０８等の記録媒体に予め用意されていてもよいし、また、インターネット等を介してダウンロードされてＲＡＭ１０４等にロードされてもよい。

本実施形態の画像処理装置は、カメラとディスプレイを内蔵したＨＭＤ１００に適用される例を挙げたが、これに限定されず、例えば、カメラ装置、組込みシステム、タブレット端末、スマートフォン、シースルー型のＨＭＤ等の情報機器にも適用可能である。また、本実施形態では、二つのディスプレイに同じ画像を表示する例を挙げたが、例えば両眼視差技術にも適用可能である。両眼視差を用いる場合、撮像部を複数（少なくとも二つ）備え、それら撮像部が撮像した複数の画像から視差のある二つの画像を生成し、それら画像に前述したようなＣＧ画像を合成して、二つのディスプレイに表示する構成を用いることができる。

＜本実施形態における動き解析処理の説明＞
ここで、前述したように、一般に、映像は５０ｆｐｓ若しくは６０ｆｐｓのフレームレートで撮像して表示されることが多い。これは、人間の臨界融合周波数（人間が光の明滅を認識可能な周波数の上限）が３０Ｈｚから６０Ｈｚの間にあることに起因する。また、映像撮影が行われる際、撮像される各フレームの最長のシャッタースピードは、フレームレートの逆数になる。つまり、６０ｆｐｓの映像であれば最長のシャッタースピードは１／６０秒（＝約１６ミリ秒）、１２０ｆｐｓであれば最長のシャッタースピードは１／１２０秒（約８ミリ秒）になる。そして、一般に、映像の撮影は、最長のシャッタースピードで行われることが多い。これは、ノイズの発生を抑え、ジャダーと呼ばれる動きの不連続を視認し難くするためである。特に、例えばシャッタースピードが４ミリ秒や１ミリ秒のように速くなるにつれて、ジャダーが視認されやすくなる。

一方、近年は、コンピュータビジョン技術の発達により、画像をコンピュータで解析することが重要となってきている。ここで、６０ｆｐｓの映像でもあっても、画像一枚一枚には、撮像ボケと呼ばれる、被写体の動きやカメラの移動などに起因する鮮鋭度の低下が発生することがある。撮像ボケは、被写体が動いている場合や、カメラが手振れなどで動いたことなどにより発生し、それら被写体の動きやカメラの動きが速いほど大きくなる。そして、この撮像ボケは、動き解析処理を含む画像の解析性能を低下させる要因となっている。

このようなことから、本実施形態のＨＭＤ１００では、１２０ｆｐｓの高速フレームレートで且つ高速シャッタースピードによる撮影を行っている。そして、本実施形態のＨＭＤ１００は、その１２０ｆｐｓの映像からフレーム画像を間引いた６０ｆｐｓの映像を利用することにより、８ミリ秒の高速シャッタースピードの撮影に相当した撮像ボケの少ない映像を得るようにしている。また、本実施形態のＨＭＤ１００では、１２０ｆｐｓの映像からフレーム画像を間引いた６０ｆｐｓの画像データに対して解析処理等が行われるため、処理負荷は少ない。

ただし、高速シャッタースピードで撮影された画像は、ノイズが多くなり、ジャダーが発生し易い。これに対し、本実施形態の場合は、２フレームを一組として合成したベース画像にＣＧ画像を重畳して生成したＣＧ合成画像を表示することで、シャッタースピードが１６ミリ秒相当のジャダーとノイズが少ない画像を生成している。したがって、ユーザは、ノイズとジャダーの少ない映像を視聴することができる。なお、本実施形態では１２０ｆｐｓのフレームレートで撮像された映像を６０ｆｐｓのフレームレートに落として解析処理等を行う例を挙げたが、これには限定されない。例えば、２４０ｆｐｓのフレームレートで撮像し、これを例えば４フレームおきの所定の周期毎に選択すること、つまりフレーム数を四分の一に間引くことで６０ｆｐｓのフレームレートに落として解析処理等を行うことなども可能である。

また、高速シャッタースピードで撮像した画像を使った解析処理においても、ノイズは性能低下の要因になるが、本実施形態では、画像フィルタ部１０５により、解析用の画像にエッジ保存型のフィルタ処理を施すことによりこの問題を解決している。一般に、画像にフィルタ処理を施すと、フィルタ処理の工夫によりエッジは保存できても、テクスチャの再現性は低下する。しかし、エッジや特徴点を利用したコンピュータでの画像解析では、テクスチャの再現性の低下による解析性能の低下は軽微である。また、これらの処理は、最終的にユーザにより視聴される画像のテクスチャの再現性に影響を与えない。

＜第２の実施形態＞
以下、第２の実施形態の画像処理装置の一適用例として、カメラの動きを検出し、その動きに応じてＣＧオブジェクトの位置を変更する仕組みを有するＨＭＤについて説明する。図１（ｂ）は、第２の実施形態のＨＭＤ１２０の概略構成例を示す図である。図１（ｂ）のＨＭＤ１２０は、前述した図１（ａ）の構成に慣性センサ１１３が追加された例である。なお、図１（ｂ）において、前述した図１（ａ）と同じモジュールには同じ参照符号を付して、それらの詳細な説明については省略する。

第２の実施形態のＨＭＤ１２０は、慣性センサ１１３の出力と、画像データから計算される画面全体の動き量とから、撮像部１０２のカメラの移動量を計算することができるものとする。移動量を求める技術は、参考文献"ＭＥＭＳジャイロセンサと単眼カメラを利用した高精度で頑健な姿勢推定、計測自動制御学会論文集、ＶＯＬ．４７，ＮＯ．１０，４４２／４４９（２０１１）"等に広く公開されているため、その詳細な説明は省略する。なお、慣性センサは、ジャイロセンサには限定されず、例えば加速度センサ、ジャイロセンサと加速度センサのハイブリッドセンサなどであってもよい。また、三次元空間内におけるカメラの移動量の計算方法についても様々な方法があり、上述の参考文献の例には限定されない。第２の実施形態では、三次元空間内におけるカメラの移動量を用いてＣＧ画像の重畳位置を補正する動作が異なる以外は、第１の実施形態での動作と同じであるとする。

以下、第２の実施形態のＨＭＤ１２０のグラフィックプロセッサ１０６が行うＣＧ画像の重畳処理について説明する。ＣＰＵ１０３は、撮像部１０２のカメラがフレーム番号ｎとフレーム番号ｎ＋２の画像を撮像した際のカメラの動き（ブレ等、以下、グローバルモーションとする。）を二次元ベクトルとして求める。この二次元ベクトルを（ｄｘ，ｄｙ）とすると、グラフィックプロセッサ１０６によるＣＧ画像の重畳処理は、下記式（３）の計算式で表される。

（ｄｘ，ｄｙ）の計算方法について図３を参照しながら説明する。図３は、画像の時間的なズレを説明する図である。図３において、フレーム番号ｎ（ｎは整数）の画像３００は、撮像部１０２のカメラが時間ｔｎに撮像したフレーム画像であり、フレーム番号ｎ＋１の画像３０１は時間ｔｎ＋１に撮像したフレーム画像であるとする。以下同様に、フレーム番号ｎ＋２の画像３０２は時間ｔｎ＋２、フレーム番号ｎ＋３の画像３０３は時間ｔｎ＋３、フレーム番号ｎ＋４の画像３０４は時間ｔｎ＋４に撮影したフレーム画像であるとする。また、図３の例では、画像３００，３０２，３０４が対象画像、画像３０１，３０３が間引きされる非対象画像であるとする。ここで、フレーム番号ｎの画像３００が撮影された時間ｔｎから、フレーム番号ｎ＋２の画像３０２が撮像された時間ｔｎ＋２までの間にカメラが移動した三次元移動量は、慣性センサ１１３の出力と各フレーム画像から得られる動き量とから算出される。このように、カメラの三次元移動量は、フレーム番号ｎ＋１が間引かれた状態の、フレーム番号ｎとフレーム番号ｎ＋２から得られる。同様に、フレーム番号ｎ＋３は間引かれて、フレーム番号ｎ＋２の画像が撮影された時間ｔｎ＋２から、フレーム番号ｎ＋４の画像が撮像された時間ｔｎ＋４までの間にカメラが移動した三次元移動量が算出される。そして、ＣＰＵ１０３は、この三次元的な動きを、撮像画像の二次元の座標系に射影して、二次元のベクトルＶを求め、この二次元ベクトルＶを四分の一にしてベクトル（ｄｘ，ｄｙ）を求める。

また、グラフィックプロセッサ１０６は、前述の第１の実施形態で説明したように偶数フレームと奇数フレームの画像データを加算平均して、前述したベース画像を生成する。つまり、図３において、ベース画像（３２０）は、フレーム番号ｎの画像３００とフレーム番号ｎ＋１の画像３０１との加算平均により求められる。同様に、ベース画像（３２１）は、フレーム番号ｎ＋２の画像３０２とフレーム番号ｎ＋３の画像３０３との加算平均により求められる。ただし、ベース画像（３２０）の時間的な中心位置は、フレーム番号ｎの時間軸上の中心位置からずれており、フレーム番号ｎの画像３００とフレーム番号ｎ＋１の画像３０１との間の時間軸上の中心位置と略々一致する。同様に、ベース画像（３２１）の時間的な中心位置は、フレーム番号ｎ＋２の時間軸上の中心位置からずれており、フレーム番号ｎ＋２の画像３０２とフレーム番号ｎ＋３の画像３０３との間の時間軸上の中心位置と略々一致する。

一方、ＣＧ生成部１１２は、第１の実施形態で説明したように、ＣＧオブジェクトデータと三次元空間マップ情報及び配置位置情報を基に、三次元空間の所定の位置にＣＧオブジェクトが存在するようにＣＧオブジェクトを描画したＣＧ画像を生成する。図３の例では、ベース画像（３２０）に対してはＣＧ画像３４０が生成され、ベース画像（３２１）に対してはＣＧ画像３４１が生成される。そして、グラフィックプロセッサ１０６は、それらベース画像にＣＧ画像を重畳してＣＧ合成画像を生成するが、ここで前述したようにベース画像の時間的な中心位置はフレーム画像の時間軸上の中心位置からずれている。

このため、第２の実施形態において、ＣＰＵ１０３は、前述のようにしてもとめたグローバルモーションに応じた二次元ベクトルＶを四分の一にしたベクトル（ｄｘ，ｄｙ）を基に、ＣＧ画像に対する位置補正を行って、位置補正済みのＣＧ画像を生成する。図３の例の場合、ＣＧ画像３４０については位置補正３５０により位置補正済みのＣＧ画像３６０が生成され、ＣＧ画像３４１については位置補正３５１により位置補正済みのＣＧ画像３６１が生成される。これにより、グラフィックプロセッサ１０６では、ベース画像に位置補正後のＣＧ画像（３６０，３６１）を重畳してＣＧ合成画像３２０，３２１が生成される。

図４は、第２の実施形態のＨＭＤ１２０における一連の動作を示すフローチャートである。図４のフローチャートは、偶数フレームと奇数フレームの２フレームを一組として生成されたベース画像に対し、前述のように位置補正を行ったＣＧ画像を重畳してＣＧ合成画像を生成する処理のフローチャートである。なお、図４のフローチャートにおいて、前述した図２のフローチャートと同じ処理には同じ参照符号を付して、その詳細な説明については省略する。図４のフローチャートは、前述の図２のフローチャートのＳ２０９に代えて、Ｓ２１０とＳ２１１の処理が行われる。

図４のフローチャートの場合、Ｓ２０８の後、ＣＰＵ１０３は、Ｓ２１０に処理を進める。Ｓ２１０では、ＣＰＵ１０３は、フレーム番号ｎとフレーム番号ｎ＋２の撮影がなされた間の画面全体の動き（カメラの動き）を示すグローバルモーションを求める。グローバルモーションは、ＣＰＵ１０３が前述したように慣性センサ１１３の出力と画像データから求める。Ｓ２１０の後、ＣＰＵ１０３は、Ｓ２１１に処理を進める。

Ｓ２１１では、ＣＰＵ１０３は、前述したようにＣＧ生成部１１２で生成されたＣＧ画像の三次元空間内における配置位置を、グローバルモーション分に相当する位置だけ補正して、ベース画像に重畳することにより、ＣＧ合成画像を生成させる。この場合、具体的には、フレーム番号ｎの画像に対しては、三次元空間内で０．５フレーム分だけ未来の時間に存在すべき位置にＣＧオブジェクトが重畳されることになる。このＳ２１１の後、ＣＰＵ１０３は、図４のフローチャートの処理を終了する。

なお、グローバルモーション算出は、慣性センサ１１３の出力から計算される例には限定されず、以下のような方法によっても算出可能である。例えば、画像から画素毎の動きベクトル（いわゆるオプティカルフロー）を算出し、その動きベクトルの水平成分と垂直成分のヒストグラムを算出する。そして、それぞれの最頻値を、グローバルモーションの二次元ベクトルを表現する動きベクトルの水平と垂直の成分とする。

このように、第２の実施形態では、ＨＭＤ１２０の撮像部１０２に搭載されているカメラの三次元移動量を計算し、その三次元移動量を使ってＣＧ画像の重畳位置を補正することにより、時間的なズレを抑制している。なお、本実施形態では二次元に射影した空間で位置を補正したがこれには限定されない。例えば、カメラの三次元移動量を三次元空間マップの空間に射影して、ＣＧオブジェクトの描画位置を、射影されたカメラの三次元移動量を使って補正して、描画する構成をとってもよい。この方式の場合も前述同様の効果を得ることができる。

＜第３の実施形態＞
図５は、第３の実施形態の画像処理システムの一構成例を示す図である。本実施形態の画像処理システムは、撮像及び表示を行う画像処理装置の一例であるＨＭＤ１５０と、ＣＧ画像とベース画像を生成してＣＧ合成画像を生成する情報処理装置の一例であるホストコンピュータ５００とからなる。ＨＭＤ１５０とホストコンピュータ５００は、例えば無線ネットワークにより論理的に接続されている。なお、図５において、前述した図１（ａ）と同じモジュールには同じ参照符号を付して、それらの詳細な説明については省略する。

図５のＭＲシステムのＨＭＤ１５０において、画像符号化部１５１は、例えばＨ．２６４の規格に従って映像を符号化して符号化ストリームを生成する。以後、符号化ストリームは、Ｈ．２６４により符号化されているものとして説明する。画像復号部１５２は、符号化ストリームを復号する。なお、Ｈ．２６４ではＹＵＶデータの符号化・復号が行われるのに対し、本実施形態のＨＭＤ１５０ではＲＧＢ画像データを扱っている。このため、画像符号化部１５１と画像復号部１５２は、入出力されるＲＧＢ画像データを内部でＹＵＶデータに変換して処理するものとする。

ネットワーク品質計算部１５３は、ネットワーク品質を検出する品質検出手段の一例であり、後述するようにネットワーク品質を計算する。ＨＭＤ１５０のネットワークＩ／Ｆ１５４、ホストコンピュータ５００のネットワークＩ／Ｆ５０５は、無線ネットワークのインターフェース（Ｉ／Ｆ）モジュールである。無線ネットワークの方式には、ＩＥＥＥ８０２．１１ｎなど様々な方式が存在するが、本実施形態では何れの方式であってもよい。

図５のＭＲシステムのホストコンピュータ５００において、バス５０１はホストコンピュータ内のデータが流れる経路である。ホストコンピュータ５００のＣＰＵ５０６は、各種の計算処理を行い、また、機器全体の動作等を制御する。特に説明がない限り、ホストコンピュータ５００内の各モジュールの制御はＣＰＵ５０６が行うものとする。ＲＡＭ５０８は、ＣＰＵ５０６が扱うデータや他のモジュールが扱うデータ等を一時的に格納するワークエリア等として機能する。グラフィックプロセッサ５０７は、三次元ＣＧを生成する機能、画像を合成する機能等を有する。詳細は後述するが、第３の実施形態では、図１（ａ）や図２（ｂ）の三次元空間マップ生成部１１０〜ＣＧ生成部１１２が実行していた処理を、ＣＰＵ５０６とグラフィックプロセッサ５０７が協調して行うようになされている。外部ストレージ５０９は、不揮発性の記録媒体を備え、例えばプログラムやデータをファイルとして記録等する。

以下、第３の実施形態のＭＲシステムにおいて、ＨＭＤ１５０の各モジュールと、ホストコンピュータ５００の各モジュールとの、協調的な基本動作について説明する。本実施形態では、動き解析の際には、前述した第１，第２の実施形態の場合と同様にして、撮像部１０２により撮像された映像データから動き情報を生成しているものとする。また、第３の実施形態の場合、ＨＭＤ１５０の撮像部１０２により撮像された映像データは、ホストコンピュータ５００に伝送される。本実施形態では、ＨＭＤ１５０は、撮像部１０２により撮像された映像データから６０ｆｐｓのフレームレートの左右両眼用の映像データを生成し、その映像データを符号化してホストコンピュータ５００に伝送する例を挙げて説明する。

ＨＭＤ１５０の画像符号化部１５１は、６０ｆｐｓのフレームレートの左右両眼用の映像データを符号化して、７０Ｍｂｐｓ（ビット毎秒）のビットレートの符号化ストリームを生成する。そして、ＣＰＵ１０３は、その符号化ストリームを、ＭＰＥＧＴｒａｎｓｐｏｒｔＳｔｒｅａｍ（ＩＳＯ／ＩＥＣｓｔａｎｄａｒｄ１３８１８−１）とＲＴＰ（ＲＦＣ３５５０）にてパケタイズし、ネットワークＩ／Ｆ１５４へ出力する。ネットワークＩ／Ｆ１５４は、その符号化ストリームのパケットを、無線ネットワークを介して、ホストコンピュータ５００のネットワークＩ／Ｆ５０５へ伝送する。

また同様に、ＨＭＤ１５０の動き解析部１０９が生成した動き情報についても、無線ネットワークを介してホストコンピュータ５００へ伝送される。ここで、動き情報である動きベクトルは、始点のＸＹ座標とベクトルのＸＹ成分の各要素から構成され、それら各要素は１１ビットのデータであるとする。また、動きベクトルの数は１フレームあたり最大２０００本とする。そのため、６０ｆｐｓの映像では、動きベクトルの伝送に、最大で５．２８Ｍｂｐｓ（＝１１×４×２０００×６０／１００００００）が必要となる。

ホストコンピュータ５００のＣＰＵ５０６は、受信したパケットから、Ｈ．２６４の符号化ストリームを抽出して復号し、グラフィックプロセッサ５０７へ出力する。本実施形態では、図１（ａ）や図２（ｂ）の三次元空間マップ生成部１１０〜ＣＧ生成部１１２が実行していた処理を、ＣＰＵ５０６とグラフィックプロセッサ５０７が協調して行う。詳細については後述するが、ＣＰＵ５０６とグラフィックプロセッサ５０７の協調動作により、前述したベース画像とクロマキー付きのＣＧ画像を生成し、ベース画像にＣＧ画像を重畳させてＣＧ合成画像を生成する。なお、ＣＧ画像を生成する際の動きベクトルは、ＨＭＤ１５０から無線ネットワークを介して得られた動きベクトルを用いる。

ホストコンピュータ５００のＣＰＵ５０６は、生成したＣＧ合成画像をＨ．２６４の規格に従って符号化し、ＭＰＥＧＴｒａｎｓｐｏｒｔＳｔｒｅａｍとＲＴＰにてパケタイズして、ネットワークＩ／Ｆ５０５へ出力する。ネットワークＩ／Ｆ５０５は、パケタイズされた符号化ストリームを、無線ネットワークを介して、ＨＭＤ１５０のネットワークＩ／Ｆ１５４へ伝送する。

ＨＭＤ１５０のＣＰＵ１０３は、ネットワークＩ／Ｆ１５４が受信した符号化ストリームを画像復号部１５２に送り、画像復号部１５２での復号処理によりＣＧ合成画像データを復元し、そのＣＧ合成画像のデータがグラフィックプロセッサ１０６に送られる。グラフィックプロセッサ１０６は、画像復号部１５２で復号されたＣＧ合成画像データに対し、ディスプレイ１０７に映像を表示する際に必要な処理を実行してディスプレイ１０７に出力する。これにより、ディスプレイ１０７にはＣＧ合成画像が表示される。

このように、第３の実施形態では、ＨＭＤ１５０は撮像された映像データと動き情報をホストコンピュータ５００へ伝送し、ホストコンピュータ５００はＣＧ合成画像データをＨＭＤ１５０へ送り返すことにより、一連のＭＲ処理が実現されている。なお、第３の実施形態では、ホストコンピュータ５００が生成するＣＧ画像は、クロマキー付き画像としたが、これに限定されず、別途αチャンネル画像を持っていてもよい。また、別途αチャンネル画像を生成した場合、そのαチャンネル画像のデータを符号化してＨＭＤ１５０へ伝送してもよい。

ここで、第３の実施形態の場合、映像データの伝送の際には、特に間引き等がなされることなく、ＨＭＤ１５０からホストコンピュータ５００へ映像データが伝送されている。しかしながら、例えば移動体が無線ネットワークの電波を遮蔽したり、無線ネットワークに接続するデバイスが増加したりして、データ伝送品質が低下した場合、映像データの伝送が正常に出来なくなる場合がある。以下、第３の実施形態のＭＲシステムにおいて、ネットワーク品質が低下した場合の動作について説明する。

ＨＭＤ１５０のネットワーク品質計算部１５３は、ネットワークＩ／Ｆ１５４を介して伝送されるデータから無線ネットワークの通信品質を計算し、そのネットワーク品質情報をＣＰＵ１０３に送る。このときのＣＰＵ１０３は、ネットワーク品質情報を基に、画像データから対象画像として分類する画像の割合を制御する。例えば、ＣＰＵ１０３は、ネットワーク品質情報から、６０ｆｐｓの映像伝送が困難であると判定した場合には、画像データから対象画像として分類する画像の割合を低下させるように制御する。より具体的には、ＣＰＵ１０３は、６０ｆｐｓのフレームレートの映像からフレーム画像を間引いて、例えば３０ｆｐｓのフレームレートに落とし、その３０ｆｐｓのフレームレートに落とされた映像を画像符号化部１５１に符号化させる。このときの画像符号化部１５１による符号化後の符号化ストリームのビットレートは３５Ｍｂｐｓとする。そして、その符号化ストリームが、ネットワークＩ／Ｆ１５４を介してホストコンピュータ５００へ伝送される。またこのとき、動き解析部１０９では、対象画像を用いて動き解析処理が行われるため、ＨＭＤ１５０からホストコンピュータ５００へ送られる動きベクトルは、伝送したフレームに対応するもののみとなる。このため、フレームレートが６０ｆｐｓのときの動きベクトルの伝送に必要なビットレートが５．２８Ｍｂｐｓであった場合、フレームレートが３０ｆｐｓに落とされたときには、動きベクトルの伝送に必要なビットレートは半分の２．６４Ｍｂｐｓとなる。

このように、第３の実施形態では、ネットワークの伝送品質が不安定なときに、伝送される映像データについて間引き処理を実行してフレームレートを落とすことにより、安定的に映像データと動きベクトルをホストコンピュータ５００へ伝送可能としている。

そして、ホストコンピュータ５００において、ＣＰＵ５０６は、伝送されてきた符号化ストリームと動きベクトルを復号し、その復号した動きベクトルを基にＣＧ画像を生成する。また、グラフィックプロセッサ５０７は、符号化ストリームが復号された映像を基にベース画像を生成し、そのベース画像のＣＧ画像を重畳させてＣＧ合成画像を生成する。ＣＰＵ５０６は、その生成されたＣＧ合成画像のデータを符号化して、ネットワークＩ／Ｆ５０５に送り、無線ネットワークを介してＨＭＤ１５０に伝送させる。このときのＨＭＤ１５０は、伝送されてきたＣＧ合成画像の符号化ストリームを画像復号部１５２に復号させ、その復号されたＣＧ合成画像データをグラフィックプロセッサ１０６に送る。グラフィックプロセッサ１０６は、その復号されたＣＧ合成画像データを処理してディスプレイ１０７に送る。

また、本実施形態において、ネットワーク品質計算部１５３が利用する通信品質の指標は、例えばＢＥＲ（ＢｉｔＥｒｒｏｒＲａｔｅ：ビット誤り率）を用いるものとする。通常、無線ネットーワークシステムでは、ＬＤＰＣ（ＬｏｗＤｅｎｓｉｔｙＰａｒｉｔｉｙＣｈｅｃｋ）などの誤り訂正機能を有し、データを冗長化することによって、一定程度ビットに誤りが存在しても回復できる。回復可能な誤りの度合いは、データを冗長化した度合いによる。無線ネットーワークシステムは、ネットワーク品質が低下し、ビットの誤り率が増えると、誤り訂正におけるビットの冗長度を上げる。そのため、伝送可能な実データのレートは低下することになる。そこで、本実施形態では、ネットワーク品質計算部１５３がＢＥＲを監視し、ＣＰＵ１０３は、そのＢＥＲが、映像を６０ｆｐｓで伝送することが不可能となる比率に達した場合、６０ｆｐｓの伝送が不可能と判断する。なお、６０ｆｐｓの伝送が不可能となる比率は、システムとして、ネットワーク品質の低下による入力データ不足により処理が停止する度合いが、例えば１００時間に１回となる値を事前に測定し、決めておくものとする。

なお、本実施形態において、ネットワーク品質計算部１５３が利用する通信品質の指標は、ネットワーク品質を測定できるものであればよく、前述したＢＥＲには限定されない。通信品質の指標は、例えば、ＰＥＲ（ＰａｃｋｅｔＥｒｒｏｒＲａｔｅ：パケット誤り率）、又はＢＬＥＲ（ＢｌｏｃｋＥｒｒｏｒＲａｔｅ：ブロック誤り率）を用いてもよい。また、ネットワーク品質計算部１５３は、チャネルを共有する端末がネットワークに接続された場合、それを感知して、その感知結果の情報をＣＰＵ１０３に出力してもよい。この場合のＣＰＵ１０３は、その検知結果を基に、伝送可能な帯域が低下して映像の６０ｆｐｓ伝送ができないと判断した場合、前述したように映像のフレームレートを落とすようにしてもよい。

これらの通信品質の指標の計算は、ネットワーク品質計算部１５３でなく、ＣＰＵ１０３が行ってもよい。また、ホストコンピュータ５００側で通信指標の計算を行い、この指標の情報、或いは、６０ｆｐｓ伝送が可能か否かの判定結果をＨＭＤ１５０との間で共有する構成であってもよい。なお、本実施形態において、ＣＰＵ１０３は、通信品質が回復したと判断した場合には、画像の間引き処理を止めて、通常動作に復帰するものとする。

また、本実施形態では、映像をＨ．２６４で符号化して伝送するものとして説明したが、これに限定されず、ＪＰＥＧを使って画像を符号化してもよい。この例でもαチャンネルが存在する場合には同様に圧縮する。また、ＩＥＥＥ８０２．１１ａｄなどの広帯域の無線規格を用いて、非圧縮の映像を伝送してもよい。

本実施形態において、フレームレートが変更された場合、その変更されたフレームレートを伝える方法には様々な方法があるが、本実施形態では以下の第１の通知方法と第２の通知方法の２つの通知方法の何れかを用いる。

第１の通知方法は、Ｈ．２６４のストリーム、又は、ＲＴＰ（ＲＦＣ３５５０）、ＭＰＥＧＴｒａｎｓｐｏｒｔＳｔｒｅａｍ（ＩＳＯ／ＩＥＣｓｔａｎｄａｒｄ１３８１８−１）のタイムスタンプを利用する方法である。すなわち、Ｈ．２６４のストリーム、又は、ＲＴＰ（ＲＦＣ３５５０）、ＭＰＥＧＴｒａｎｓｐｏｒｔＳｔｒｅａｍは、映像の経過時間を示すタイムスタンプを表現する機能を有している。この場合、６０ｆｐｓの映像伝送時には１６ミリ秒ごとにタイムスタンプを打ち、３０ｆｐｓの映像伝送時には３３ミリ秒ごとにタイムスタンプを打つことにより、フレームの間引きを表現することができる。したがって、このタイムスタンプにより、フレームレートが変更されたことを伝えることが可能となる。

第２の通知方法は、ヘッダ情報に含まれるフレームレート情報を変更する方法である。Ｈ．２６４の場合には、フレームレート情報はＳｅｑｕｅｎｃｅＰａｒａｍｅｔｅｒＳｅｔに含まれる。このフレームレート情報を変更することで、フレームレートが変更されたことを伝えることが可能となる。

また、第３の実施形態は、例えば、ＣＧ描画用のコマンドとテクスチャ画像を、ネットワークを介して送信し、ＨＭＤ１５０のグラフィックプロセッサ１０６がそれらコマンドとテクスチャ画像を取得してＣＧ画像を描画する構成でもよい。一般に、コンピュータ用のグラフィックプロセッサと、ＨＭＤ等の組み込み用のグラフィックプロセッサとでは、前者の方が同じ時間でより緻密なＣＧ画像を描画することができる。また、緻密な画像ほど多くのＣＧ描画用コマンドを発行する必要がある。このことから、より緻密なＣＧ画像を描画する場合には、ホストコンピュータ５００でＣＧ画像を生成する。一方、ＣＧ画像に緻密性が求められず少ない帯域でデータ送信する場合には、ホストコンピュータ５００からＣＧ描画用コマンドとテクスチャをＨＭＤ１５０へ送信する。これにより、コマンドとテクスチャを受信したＨＭＤ１５０は、内部でＣＧ画像を描画することができる。

図６は、第３の実施形態のシステムにおける一連の動作を示すフローチャートであり、前述したようにネットワーク品質に応じてフレームレートを制御するＨＭＤ１５０側の処理の流れを示している。なお、図６のフローチャートにおいて、前述した図２のフローチャートと同じ処理には同じ参照符号を付して、その詳細な説明については省略する。

図６のフローチャートにおいて、Ｓ２０３の後、ＣＰＵ１０３は、Ｓ６０１に処理を進める。Ｓ６０１では、ＨＭＤ１５０のＣＰＵ１０３は、ネットワーク品質計算部１５３からのネットワーク品質情報を基に、ネットワーク品質は十分か否かを判定する。具体的には、ＣＰＵ１０３は、前述したＢＥＲが所定の閾値より大きい場合に、ネットワーク品質が不十分と判定し、ＢＥＲが所定の閾値より小さい場合にはネットワーク品質は十分であると判定する。なお、前述したように、ＢＥＲの代わりに、ＰＥＲ、ＢＬＥＲを使ってネットワーク品質の判定を行ってもよい。

Ｓ６０１において、ＣＰＵ１０３は、ネットワーク品質が十分であると判定した場合にはＳ６０５に処理を進め、Ｓ６０５ではフレーム番号ｎ＋１の画像を取得した後、Ｓ６０４に処理を進める。そして、Ｓ６０４では、ＣＰＵ１０３は、前述したように画像符号化部１５１に６０ｆｐｓで符号化（フレーム番号ｎ，ｎ＋１の各画像データの符号化）を行わせて左右両眼用の映像データの符号化ストリームを生成する。このとき、前述したタイムスタンプは、１６ｍｓずつ増加するタイムスタンプとなされる。なお、前述したようにヘッダ情報にフレームレートが６０ｆｐｓであることを示す情報を埋め込んでもよい。Ｓ６０４の後、ＣＰＵ１０３は、Ｓ６０７に処理を進める。

一方、Ｓ６０１において、ネットワーク品質が不十分であると判定した場合、ＣＰＵ１０３は、Ｓ６０２に処理を進める。Ｓ６０２では、ＣＰＵ１０３は、画像符号化部１５１に３０ｆｐｓで符号化（間引かれた後のフレーム番号ｎの画像データの符号化）を行わせて符号化ストリームを生成させる。このとき、前述したタイムスタンプは、３３ｍｓずつ増加するタイムスタンプとする。なお、ヘッダ情報にフレームレートが３０ｆｐｓである情報を埋め込んでもよい。Ｓ６０２の後、ＣＰＵ１０３は、Ｓ６０７に処理を進める。

Ｓ６０７では、ＣＰＵ１０３は、前述した動き解析結果の動き情報と符号化ストリームを、ネットワークＩ／Ｆ１５４を介してホストコンピュータ５００へ伝送させる。このＳ６０７の後、ＣＰＵ１０３は、図６のフローチャートの処理を終了する。

図７は、第３の実施形態のシステムにおける一連の動作を示すフローチャートであり、ネットワーク品質に応じてフレームレートが制御される場合のホストコンピュータ５００側の処理の流れを示している。図７のフローチャートは、ホストコンピュータ５００がベース画像を生成して、そのベース画像にＣＧ画像を重畳してＣＧ合成画像を生成し、そのＣＧ合成画像を符号化してＨＭＤ１５０に伝送する場合の流れを示している。

図７のフローチャートにおいて、ホストコンピュータ５００のＣＰＵ５０６は、Ｓ７０１において、フレーム番号ｎの画像データを取得する。ここで、図７のフローチャートの場合の画像データの取得とは、ネットワークＩ／Ｆ５０５を介して受信した符号化ストリームを、ＣＰＵ５０６が復号してＲＡＭ５０８に記憶させた画像データを取得することを意味するものとする。Ｓ７０１の後、ＣＰＵ５０６は、Ｓ７０２に処理を進める。

Ｓ７０２において、ＣＰＵ５０６は、ネットワークＩ／Ｆ５０５を介して、ＨＭＤ１５０からフレーム番号ｎに対応する動き解析結果の動き情報を取得する。Ｓ７０２の後、ＣＰＵ５０６は、Ｓ７０３に処理を進める。

Ｓ７０３では、ＣＰＵ５０６は、前述の図２のＳ２０４と同様な処理により、動き解析結果の情報に基づいて三次元空間マップを生成する。Ｓ７０３の後、ＣＰＵ１０３は、Ｓ７０４に処理を進める。

Ｓ７０４では、ＣＰＵ５０６は、映像が６０ｆｐｓのフレームレートか否かを判定する。Ｓ７０４において、ＣＰＵ５０６は、６０ｆｐｓのフレームレートであると判定した場合にはＳ７０６に処理を進め、６０ｆｐｓのフレームレートでないと判定した場合にはＳ７０５に処理を進める。Ｓ７０４におけるフレームレートの判定方法は、前述したようなフレームに付加されたタイムスタンプをみること、或いは、ヘッダに記載されたフレームレートを読み取ることにより行う。

Ｓ７０５の処理に進んだ場合、ＣＰＵ５０６は、フレーム番号ｎをベース画像とする。Ｓ７０５の後、ＣＰＵ５０６は、Ｓ７０８に処理を進める。また、Ｓ７０６の処理に進んだ場合、ＣＰＵ５０６は、フレーム番号ｎ＋１の画像データを取得する。このＳ７０６における画像データの取得は、Ｓ７０１の場合と同様に、ネットワークＩ／Ｆ５０５を介して受信した符号化ストリームを、ＣＰＵ５０６が復号してＲＡＭ５０８に記憶させた画像データを取得することを意味する。Ｓ７０６の後、ＣＰＵ５０６は、Ｓ７０７に処理を進める。

Ｓ７０７では、ＣＰＵ５０６は、前述の図２のＳ２０６と同様な処理により、Ｓ７０１で取得したフレーム番号ｎの画像と、Ｓ７０６で取得したフレーム番号ｎ＋１の画像とを合成させてベース画像を生成させ、その後、Ｓ７０８に処理を進める。Ｓ７０８において、ＣＰＵ５０６は、前述の図２のＳ２０７と同様な処理により、予めＲＡＭ５０８等に読み込んでおいたＣＧオブジェクトデータを取得し、その後、Ｓ７０９に処理を進める。

Ｓ７０９では、ＣＰＵ５０６は、前述の図４のＳ２０８と同様な処理により、Ｓ７０３で生成された三次元空間マップ情報と、Ｓ７０８で取得されたＣＧオブジェクトデータとを用い、フレーム番号ｎの画像に対応した二次元空間に射影されるＣＧ画像を生成する。Ｓ７０９で生成されたＣＧ画像のデータは、グラフィックプロセッサ５０７に送られる。Ｓ７０９の後、ＣＰＵ５０６は、Ｓ７１０に処理を進める。

Ｓ７１０では、ＣＰＵ５０６は、フレーム番号ｎとフレーム番号ｎ＋２の画像間の画面全体の動きを示す前述したグローバルモーションを求める。この図７のフローチャートの場合、画像から画素毎の動きベクトルを算出し、その動きベクトルの水平成分と垂直成分のヒストグラムを求め、それぞれの最頻値をグローバルモーションの二次元ベクトルを表現する動きベクトルの水平と垂直の成分とする。Ｓ７１０の後、ＣＰＵ５０６は、Ｓ７１１に処理を進める。

Ｓ７１１では、ＣＰＵ５０６は、グラフィックプロセッサ５０７を制御して、ベース画像にＣＧ画像を重畳させてＣＧ合成画像を生成させる。具体的には、グラフィックプロセッサ５０７は、前述の図４のＳ２１１と同様な処理により、ＣＧ画像の三次元空間内の位置をグローバルモーションに相当する移動量の分、位置を補正して、ベース画像に重畳することによりＣＧ合成画像を生成する。Ｓ７１１の後、ＣＰＵ５０６は、Ｓ７１２に処理を進める。

Ｓ７１２では、ＣＰＵ５０６は、グラフィックプロセッサ５０７にて生成されたＣＧ合成画像データを符号化して、ネットワークＩ／Ｆ５０５を介してＨＭＤ１５０に伝送する。このＳ７１２の後、ＣＰＵ５０６は、図７のフローチャートの処理を終了する。

なお、本実施形態では、ＨＭＤ１５０が６０ｆｐｓの映像データを符号化してホストコンピュータ５００へ伝送する例を挙げたが、この例に限定されるものではない。例えば、ＨＭＤ１５０で１２０ｆｐｓのフレームレートで撮像された映像データをホストコンピュータ５００へ伝送するようにしてもよい。この場合、ネットワークの伝送品質が低下したときには、１２０ｆｐｓの映像データに間引き処理を行って６０ｆｐｓのフレームレートに落としてからホストコンピュータ５００に伝送する。さらに、それでもネットワーク品質が低い場合には、更に画像を間引いて３０ｆｐｓにフレームレートを落として伝送してもよい。その他、本実施形態では、動き解析処理をＨＭＤ１５０側で行っているがこれには限定されず、ホストコンピュータ５００側において、復号した画像を使って動き解析をしてもよい。

また、第３の実施形態では、ホストコンピュータ５００は、ベース画像とＣＧ画像を合成したＣＧ合成画像データをＨＭＤ１５０へ伝送する例を挙げたが、ＣＧ合成画像の生成を行わずにＣＧ画像とベース画像のデータを伝送してもよい。また、ホストコンピュータ５００はＣＧ画像のみ生成し、ベース画像は前述の第１、第２の実施形態の場合と同様にＨＭＤ１５０により生成されてもよい。ただし、例えばＨＭＤ１５０側でベース画像を生成し、ホストコンピュータ５００から伝送されたＣＧ画像を重畳する例の場合、例えばネットワーク品質によりフレームレートが落とされることでＣＧ画像とベース画像のフレームレートが異なることがある。例えばベース画像が６０ｆｐｓでＣＧ画像が３０ｆｐｓであった場合に、それらからＣＧ合成画像を生成する方法としては以下のような方法が考えられる。一例として、６０ｆｐｓのベース画像に３０ｆｐｓのＣＧ画像を重畳する方法としては、ベース画像の連続するフレーム画像に同じＣＧ画像を二回重畳する方法が考えられる。ただしこの場合、例えばＨＭＤ１５０のカメラがパンされているときには、背景は滑らかに動いているにもかかわらず、重畳されたＣＧ画像の移動のレートが低いため、ジャダーが目立つ映像となる。このため、本実施形態では、ベース画像を生成する際に、撮像画像の連続するフレーム画像を前述した第１、第２の実施形態の例から更に加算平均により合成して３０ｆｐｓ化する。そして、３０ｆｐｓ化により生成されたベース画像に対してＣＧ画像を重畳することにより、背景（ベース画像）とＣＧ画像の動きの違いによる違和感をなくし、より自然な映像を生成する。なおこのとき、第２の実施形態で説明したように、ＣＧ画像の位置を補正して、その位置補正後のＣＧ画像を合成してもよい。

＜その他の実施形態＞
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

上述の実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。即ち、本発明は、その技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

１００，１２０，１５０：ＨＭＤ、１０１：バス、１０２：撮像部、１０３，５０６：ＣＰＵ、１０４，５０８：ＲＡＭ、１０５：画像フィルタ部、１０６，５０７：グラフィックプロセッサ、１０７：ディスプレイ、１０８：フラッシュメモリ、１０９：動き解析部、１１０：三次元空間マップ生成部、１１１：ＣＧ位置計算部、１１２：ＣＧ生成部、１１３：慣性センサ、１５１：画像符号化部、１５２：画像復号部、１５３：ネットワーク品質計算部、１５４，５０５：ネットワークＩ／Ｆ、５０９：外部ストレージ、５００：ホストコンピュータ

Claims

連続した撮像により取得された複数の画像を画像解析の対象画像と非対象画像とに分類する制御手段と、
前記対象画像を使って画像解析を行って動き情報を生成する動き生成手段と、
を有することを特徴とする画像処理装置。
前記制御手段は、前記連続した撮像により取得された複数の画像を、所定の周期ごとに前記対象画像に分類することを特徴とする請求項１に記載の画像処理装置。
画像のエッジ保存性を有するフィルタ処理を行うフィルタ手段を有し、
前記フィルタ手段は前記対象画像に対して前記フィルタ処理を施すことを特徴とする請求項１又は２に記載の画像処理装置。
前記動き生成手段は、前記フィルタ処理が施された後の前記対象画像の画像解析を行って前記動き情報を生成することを特徴とする請求項３に記載の画像処理装置。
前記動き情報を基に、前記撮像を行っているカメラの位置と姿勢の情報を生成して、前記位置と姿勢の情報からＣＧオブジェクトの描画位置を決める位置生成手段と、
前記描画位置に前記ＣＧオブジェクトが配置されたＣＧ情報を生成するＣＧ生成手段と、
を有することを特徴とする請求項１乃至４の何れか１項に記載の画像処理装置。
前記撮像された画像と前記ＣＧ情報とを用いてＣＧ合成画像を生成する画像合成手段を有することを特徴とする請求項５に記載の画像処理装置。
前記画像合成手段は、前記対象画像と前記非対象画像とを合成した画像に対し、前記ＣＧ情報によるＣＧ画像を重畳して、前記ＣＧ合成画像を生成することを特徴とする請求項６に記載の画像処理装置。
前記位置生成手段は、前記対象画像と前記非対象画像とが合成された合成画像の時間軸上の中心位置に応じて、前記ＣＧオブジェクトを描画する位置を補正することを特徴とする請求項７に記載の画像処理装置。
前記撮像を行っているカメラの動きを検出する検出手段を有し、
前記位置生成手段は、前記検出されたカメラの動きの情報に基づいて、前記ＣＧオブジェクトの描画位置を補正することを特徴とする請求項５乃至８の何れか１項に記載の画像処理装置。
前記複数の画像のデータと動き情報とを、情報処理装置へ伝送する請求項１乃至４の何れか１項に記載の画像処理装置と、
前記動き情報を基に、前記撮像を行っているカメラの位置と姿勢の情報を生成し、前記位置と姿勢の情報からＣＧオブジェクトの描画位置を決め、前記描画位置に前記ＣＧオブジェクトが配置されたＣＧ情報を前記撮像された画像に重畳したＣＧ合成画像のデータを、前記画像処理装置へ伝送する情報処理装置と、
を有することを特徴とする画像処理システム。
前記画像処理装置の制御手段は、前記情報処理装置との間の伝送品質に応じて、前記複数の画像を前記対象画像に分類する割合を制御し、前記割合に応じて、前記情報処理装置へ伝送する前記複数の画像のデータと動き情報を制御することを特徴とする請求項１０に記載の画像処理システム。
前記画像処理装置の制御手段は、前記伝送品質が所定の閾値より低下する場合には、前記複数の画像を前記対象画像に分類する際の割合を下げることを特徴とする請求項１１に記載の画像処理システム。
連続した撮像により取得された複数の画像を画像解析の対象画像と非対象画像とに分類する制御ステップと、
前記対象画像を使って画像解析を行って動き情報を生成する動き生成ステップと、
を含むことを特徴とする画像処理装置の画像処理方法。
コンピュータを、請求項１乃至９の何れか１項に記載の画像処理装置の各手段として機能させるためのプログラム。