JP2018011198A

JP2018011198A - 映像符号化装置、映像符号化方法及び映像符号化プログラム

Info

Publication number: JP2018011198A
Application number: JP2016138869A
Authority: JP
Inventors: 亀田　明男; Akio Kameda; 明男亀田; 豊國田; Yutaka Kunida; 越智　大介; Daisuke Ochi; 大介越智; 愛磯貝; Ai Isogai; 明小島; Akira Kojima
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-07-13
Filing date: 2016-07-13
Publication date: 2018-01-18

Abstract

【課題】注目領域の映像の符号化を行う際に、重複した領域の符号化処理の効率化を図り、符号化時の予測画像と異なることに起因する画質劣化を防止する。【解決手段】映像符号化装置は、符号化対象の映像を入力する映像入力部と、映像を所定の大きさの部分領域に分割し、部分領域の映像を含み、かつ、符号化処理において部分領域以外からの予測が行われないように部分領域の映像を加工する映像加工部３４と、加工を行った部分領域の映像のそれぞれを符号化したビットストリームを出力する符号化部３２とを備えた。【選択図】図６

Description

本発明は、映像符号化装置、映像符号化方法及び映像符号化プログラムに関する。

従来から、入力映像を複数解像度に変換し、それらをタイルと呼ばれる部分領域ごとに分割して符号化しておくことにより、限られた帯域で全体映像と高解像度映像を配信することができる映像配信システムが知られている（例えば、非特許文献１参照）。この映像配信システムは、視聴者からの注目領域の要求に応じて、全体の低解像度タイルと、注目領域の高解像度タイルを配信し、再生端末側で表示する際、低解像度タイルの注目領域部分のみの画素を高解像度タイルの画素と置き換えることで、注目領域が変更された場合にも映像が途切れることを防止することができる。

ここで領域に関する言葉を定義しておく。注目領域とは、ＲＯＩ（Region of Interest）と呼ばれ、大きなサイズの映像のうち、視聴者が注目している映像の一部の領域のことである。ただし、注目領域の大きさは視聴者によって変更可能であり、注目領域を最大の注目領域とした場合は、注目領域と映像サイズが一致する場合もある。タイルとは、全領域の映像を複数の小さい部分領域に分けたものである。部分領域とは、全領域を予め決められた数の小さな矩形領域に分割したものであり、複数の部分領域を組み合わせてタイルが構成される場合もある。最小範囲領域とは、注目領域に対応するビットストリームを得る際に分割する必要がない映像の部分領域を纏めた映像の部分領域の集合または部分領域そのものである。スライスとは、隣接する複数の部分領域（タイル）を組み合わせたものである。例えば、全領域の映像を縦方向に分割した短冊状の部分領域の集合などをスライスとして扱う。ただし、スライスの形状は短冊状に限るものではない。

図１３は、非特許文献１に記載の映像配信システムの構成を示す図である。この図において、符号１は、映像を配信する配信サーバである。符号２１は、ヘッドマウントディスプレイで構成されたクライアント端末である。符号２２は、液晶ディスプレイ等で構成されたデスクトップ型のクライアント端末である。符号２３は、スマートフォンを挿入して簡易型のヘッドマウントディスプレイを構成するクライアント端末である。

配信サーバ１では、図１３に示すように、入力映像を複数解像度に変換し、それらをタイルと呼ばれる領域ごとに分割して符号化しておく（図１３に示す（１）エンコード）。そして、配信サーバ１は、クライアント端末２１〜２３のいずれかからのタイル配信要求に応じて、２枚のタイルを配信する（図１３に示す（２）配信）。配信された２枚のタイルを表示する際に、低解像度タイルの注目領域部分のみの画素を高解像度タイルの画素と置き換えてクライアント端末２１〜２３の画面に表示する。

図１３においては、タイルＡは高解像度のタイルであり、これが注目領域となる。一方、タイルＢは低解像度の注目領域を含む注目領域以上の広範囲のタイルであり、注目領域が変更された場合に、高解像度のタイルが配信されるまでの間の映像としても用いられる。このようにすることにより、注目領域の変更があった場合でも映像が途切れることなる映像表示を行うことが可能となる。

図１４は、タイル分割の例を示す図である。この図において、実線で示す矩形が巨大パノラマ映像の１フレームを表している。また、破線で示す矩形が１つのタイルである。図１４に示す例では、高精細映像（最高解像度）のフレームはタイル番号１〜２４の２４枚のタイルで構成されている。また、中解像度のフレームは、タイル番号２５〜３０の６枚のタイルで構成されている。また、低解像度のフレームは、タイル番号３１の１枚のタイルで構成されている。

次に、映像配信動作を説明する。図１５は、図１３に示す映像配信システムの映像配信動作を示す説明図である。非特許文献１の映像配信システムは、巨大なパノラマ映像を、まず複数の解像度に分割した上で、さらに、各解像度の映像を一定サイズの矩形を少しずつずらしたタイルに分割し、それぞれのタイル単位で映像符号化を行っている。さらに、国際標準規格であるＨ．２６４／ＭＶＣフォーマットに従って、各タイルの映像符号化データをまとめて１つのパノラマ映像ストリームを構成している。

その上で、視聴者が、巨大なパノラマ映像から、注目領域の位置や大きさを自由に操作しながら視聴する場合は、この１つのパノラマ映像ストリームから、視聴者の視聴している領域（表示領域）を含む最適な解像度のタイルと、パノラマ映像全体を含んだ最低解像度のタイルの２つのタイルを読み込んで復号される。そして、これらの最適な解像度の映像と最低解像度の映像の復号結果を表示する際に、低解像度タイルの注目領域部分のみの画素を高解像度タイルの画素と置き換えたうえで、１枚のフレームからクリッピングしてクライアント端末への表示が行なわれる。

なお、視聴者の操作により注目領域に基づく表示画像の位置や大きさが変化した場合は、これに追随して読み込む最適な解像度のタイルの位置を変更（位置変化時）や、あるいは最適な解像度を変更（大きさ変化時）して、これらを復号化することで、映像が時間的にも、空間的にも途切れることなく表示を継続可能とするシステムとなっている。

この処理例を図１５を参照して説明する。まず、クライアント端末（ここでは、タブレット端末）２４は、映像の表示領域が含まれる適切な高解像度のタイル（図１５のタイルＡ）と最低解像度のタイル（図１５のタイルＢ）とを配信要求する（図１５（ｉ））。要求する表示領域は、視聴者の操作に応じた注目領域に基づいて決定される。次に、配信サーバ１は、クライアント端末２４から要求されたタイルＡとタイルＢとを配信する（図１５（ｉｉ））。

これを受けて、クライアント端末２４は、適切な高解像度のタイル（タイルＡ）と最低解像度のタイル（タイルＢ）を同時にデコード（２つのタイルを復号）して低解像度タイル（タイルＢ）の注目領域部分のみの画素を高解像度タイル（タイルＡ）の画素と置き換えた映像を得る（図１５（ｉｉｉ））。そして、クライアント端末２４は、得られた映像から視聴者の要求する位置、大きさの映像をクリッピングして、画面表示する（図１５（ｉｖ））。そして、クライアント端末２４は、視聴者の要求する位置、大きさ（注目領域）が変更された場合は、適切な高解像度のタイルを変更して（ｉ）に戻る。

次に、図１３に示す映像配信システムの詳細な構成と動作を説明する。図１６は、映像配信システムの詳細な構成を示すブロック図である。この図において、符号１は、映像配信を行う配信サーバである。符号２５は、形態を特定しないクライアント端末である。クライアント端末２５は、例えば、ヘッドマウントディスプレイ等である。

符号１１は、注目領域に対応するビットストリームを選択して配信するビットストリーム選択部である。符号１２は、ＲＯＩ候補領域毎のビットストリームを蓄積するビットストリーム蓄積部である。ビットストリーム選択部１１は、ビットストリーム蓄積部１２に蓄積されたビットストリームのうち、ＲＯＩ候補領域のビットストリームを選択して配信する。

符号２６は、視聴者の注目領域を特定する情報に基づいて、注目領域の配信要求を出す配信要求部である。符号２７は、注目領域のビットストリームを復号して、注目領域の映像を得る復号部である。符号２８は、低解像度タイルの注目領域部分のみの画素を高解像度タイルの画素と置き換えた映像を表示して提示する表示部である。

次に、ビットストリーム蓄積部１２に符号化したビットストリームを出力する符号化装置について説明する。図１７は、配信サーバ１に符号化装置３を接続した構成を示すブロック図である。図１７においては、符号化装置３に関係する構成のみが図示されており、クライアント端末２５やビットストリーム選択部１１等は省略されている。符号化装置３は、８分割された部分領域を含む全領域の映像を入力する。ＲＯＩ映像取得部３１は、全領域の映像から、予め定めた複数個（ここでは３個）のＲＯＩ候補領域それぞれの映像を切り出して取得する。ここでいうＲＯＩ候補領域とは、ＲＯＩの候補となる領域であり、各ＲＯＩ候補領域は事前に映像中の領域と対応付けてある。

次に、符号化部３２は、各ＲＯＩ候補領域の映像を、所定の符号化方式で符号化して、各ＲＯＩ候補領域に対応するビットストリームを得て、このビットストリームをビットストリーム蓄積部１２に蓄積する。図１７においては、ＲＯＩ候補領域が４つの部分領域であるタイルで構成される場合の例を示している。

従来の符号化方式では、注目領域（ＲＯＩ）以外の部分領域を含んで符号化してしまうと、注目領域（ＲＯＩ）以外の部分を用いて注目領域（ＲＯＩ）部分を符号化する、イントラ予測等の処理が行われる。このため、ＲＯＩ候補領域を符号化するためには、ＲＯＩ候補領域の周辺領域を含めて符号化対象とする必要がある。

Hideaki Kimata, Daisuke Ochi, Akio Kameda, Hajime Noto, Katsuhiko Fukazawa, and Akira Kojima, "Mobile and Multi-device Interactive Panorama Video Distribution System,"IEEE GCCE 2012,2012.

前述したように、従来技術による符号化装置では、各タイルに重なりを持たせている。そのため、図１７に示す符号化装置３にあっては、３つのＲＯＩ候補領域を切り出してそれぞれを符号化する構成であり、同じ部分領域の符号化を複数回符号化してしまう。図１７に示すように、従来の符号化装置３は、部分領域１、２、５、６からなるＲＯＩ候補領域Ｒ１と、部分領域２、３、６、７からなるＲＯＩ候補領域Ｒ２と、部分領域３、４、７、８からなるＲＯＩ候補領域Ｒ３とをそれぞれ符号化する。この場合、部分領域２、６からなるタイルと部分領域３、７からなるタイルとは、同じ部分領域であるにもかかわらず、２回符号化処理が実行されてしまう。

そこで、重複の無いタイル構成の映像符号化結果から、各スライスの映像符号化結果を合成することで、重複領域において、同一の符号化処理が実行されることを防止することが考えられる。このような合成手法により、符号化処理の効率化を図ることができるとともに、注目領域別の各タイルを高速に生成することができる。

ここで、上記の高速化処理では、各タイルの相互依存性を可能な限り排除するため、例えばＨ．２６４のスライスの概念を導入すると、画面内（イントラ）予測はスライス内に閉じて符号化することができる。

しかしながら、符号化方式自体はＨ．２６４等の従来のものを用いることができるものの、符号化対象（例えばＨ．２６４のスライスといった部分領域）はは、当然、映像の大きさや形状が元の映像（映像全体）と異なってしまう。このため、画面間(インター)予測を用いる場合は、従来の符号化処理のモジュールそのものを使って符号化装置を実装する際には、画面間（インター）予測において、動ベクトル探索範囲の制約が発生する。仮に、制約を設けず実装してしまうと、画面間（インター）予測で問題が生じる。具体的には、画面間（インター）予測では、動ベクトルの参照画像の領域として、このスライスの領域外を参照することが許容される。このため、スライスの概念での従来の処理において、注目領域別のタイルで構成される各ストリームで領域外参照が発生した場合で、かつ、タイルの構成要素に参照先のスライスの領域が含まれていないケースでは、参照画像が無く、予測画像に誤差が生じるため、符号化時の予測画像と異なることに起因する画質劣化が発生するという問題がある。

本発明は、このような事情に鑑みてなされたもので、注目領域の映像の符号化を行う際に、重複した領域の符号化処理の効率化を図り、符号化時の予測画像と異なることに起因する画質劣化を防止することができる映像符号化装置、映像符号化方法及び映像符号化プログラムを提供することを目的とする。

本発明の一態様は、符号化対象の映像を入力する映像入力部と、前記映像を所定の大きさの部分領域に分割し、前記部分領域の映像を含み、かつ符号化処理において前記部分領域以外からの予測が行われないように前記部分領域の映像を加工する映像加工部と、加工を行った前記部分領域の映像のそれぞれを符号化したビットストリームを出力する符号化部とを備えた映像符号化装置である。

本発明の一態様は、前記映像符号化装置であって、前記符号化部は、前記ビットストリームを、前記映像を表示する端末装置から要求された注目領域に対応するビットストリームに再構成された前記ビットストリームを前記端末装置に対して配信するための符号化を行う。

本発明の一態様は、前記映像符号化装置であって、前記映像を表示する端末装置に対して配信するために、前記ビットストリームを、前記映像を表示する端末装置から要求された注目領域に対応するビットストリームに再構成するトランスコード部をさらに備えた。

本発明の一態様は、前記映像符号化装置であって、前記部分領域が前記映像を縦方向または横方向にスライスしたスライス領域であり、前記映像加工部は、隣り合う前記スライス同士が相反する色となるように、前記映像を加工する。

本発明の一態様は、前記映像符号化装置であって、前記部分領域が前記映像を縦方向または横方向にスライスしたスライス領域であり、前記映像加工部は、符号化対象の前記スライス以外のスライスを、符号化対象の前記スライスに対して相反する色となるように、前記映像を加工する。

本発明の一態様は、前記映像符号化装置であって、前記部分領域が前記映像を縦方向または横方向にスライスしたスライス領域であり、前記映像加工部は、符号化対象の前記スライス周辺領域を、符号化対象の前記スライスに対して相反する色となるように、前記映像を加工する。

本発明の一態様は、映像を符号化する映像符号化装置が行う映像符号化方法であって、符号化対象の前記映像を入力する映像入力ステップと、前記映像を所定の大きさの部分領域に分割し、前記部分領域の映像を含み、かつ符号化処理において前記部分領域以外からの予測が行われないように前記部分領域の映像を加工する映像加工ステップと、加工を行った前記部分領域の映像のそれぞれを符号化したビットストリームを出力する符号化ステップとを有する映像符号化方法である。

本発明の一態様は、前記映像符号化方法であって、前記符号化ステップは、前記ビットストリームを、前記映像を表示する端末装置から要求された注目領域に対応するビットストリームに再構成された前記ビットストリームを前記端末装置に対して配信するための符号化を行う。

本発明の一態様は、前記映像符号化方法であって、前記映像を表示する端末装置に対して配信するために、前記ビットストリームを、前記映像を表示する端末装置から要求された注目領域に対応するビットストリームに再構成するトランスコードステップをさらに有する。

本発明の一態様は、コンピュータを、前記映像符号化装置として機能させるための映像符号化プログラムである。

本発明によれば、符号化対象となる映像の大きさや形状を変えずに、映像の各部分領域に対応するビットストリームを、部分領域の相互依存性を抑制して生成することができる。これにより、重複を許して複数の領域に分割された映像の、複数の領域それぞれのビットストリームを生成する際の符号化処理の効率化を図ることができる。

本発明の第１実施形態による映像符号化装置の構成を示すブロックである。図１に示す符号化装置３の動作を示すフローチャートである。タイル指定による並列処理ができないＨＥＶＣエンコーダを活用して符号化を行う動作を示す説明図である。タイル指定による並列処理が可能なＨＥＶＣエンコーダを活用して符号化を行う動作を示す説明図である。図４に示す方法を用いて実時間配信する映像配信システムの構成例を示す模式図である。本発明の第２実施形態による映像符号化装置の構成を示すブロックである。図６に示す符号化装置３の動作を示すフローチャートである。タイル指定による並列処理が可能なＨ．２６４エンコーダを活用して符号化を行う基本動作を示す説明図である。図６に示す映像加工部３４の動作の詳細を示す説明図である。図６に示す映像加工部３４の動作の詳細の変形例を示す説明図である。第１実施形態と第２実施形態との符号化装置３における共通概念を示すブロック図である。本発明の第３実施形態による映像符号化装置の構成を示すブロックである。非特許文献１に記載の映像配信システムの構成を示す図である。タイル分割の例を示す図である。図１３に示す映像配信システムの映像配信動作を示す説明図である。映像配信システムの詳細な構成を示すブロック図である。配信サーバ１に符号化装置３を接続した構成を示すブロック図である。

＜第１実施形態＞
以下、図面を参照して、本発明の第１実施形態による映像符号化装置を説明する。図１は同実施形態の構成を示すブロック図である。この図において、図１６、図１７に示す従来の装置と同一の部分には同一の符号を付し、その説明を省略する。この図に示す装置が従来の装置と異なる点は、トランスコード部３３が新たに設けられていることと、符号化装置３の動作が異なる点である。トランスコード部３３は、符号化済みの映像をそれぞれクライアント端末に応じた仕様の映像を生成して出力する。

次に、図１に示す映像配信システムの動作を説明する。ここで、ビットストリーム選択部１１、配信要求部２６、復号部２７、表示部２８の動作は、図１６に示す装置と同様であるので、ここでは詳細な動作の説明を省略する。図１に示す映像配信システムにおいて、従来の映像配信システムと異なる点は、符号化装置３の動作であるので、この動作について説明する。図２は、図１に示す符号化装置３の動作を示すフローチャートである。

まず、ＲＯＩ映像取得部３１は、ソースとなる全領域の映像を入力する（ステップＳ１）。例えば、図１に示す１〜８の部分領域を含む全領域の映像を入力する。続いて、ＲＯＩ映像取得部３１は、全領域の映像から、ＲＯＩ候補領域に必要な最小単位の部分領域ごとの映像を切り出す（ステップＳ２）。例えば、ＲＯＩ映像取得部３１は、図１に示すように、４つの最小単位領域それぞれの映像を切り出して出力する。

ここで、最小単位として、部分領域１と５、部分領域２と６、部分領域３と７、部分領域４と８は、何れのＲＯＩ候補領域のビットストリームを作る際にも分ける必要が無いので、纏めたものを「最小単位」にしている。もちろん、更に細かい部分領域１〜８それぞれを最小単位としてもよい。このようにすれば、重複のない最小単位とすることにより、複数回符号化される部分領域を無くすことができる。

次に、符号化部３２は、ＲＯＩ映像取得部３１が出力した各最小単位領域の映像を入力とし、各最小単位領域の映像をそれぞれ符号化して、各最小単位領域それぞれに対応するビットストリームを出力する（ステップＳ３）。例えば、図１に示すように、部分領域１と５からなる領域、部分領域２と６からなる領域、部分領域３と７からなる領域、部分領域４と８からなる領域、の４つの最小単位領域それぞれに対応するビットストリームを出力する。なお、符号化は、例えばＨ．２６４やＨＥＶＣなどの一般的な規格で行われ、ビットストリームにはそれらに準拠したヘッダが付与されるものとする。

次に、トランスコード部３３は、符号化部３２から出力された各最小単位領域それぞれに対応するビットストリームを入力とし、各ＲＯＩ候補領域について、ＲＯＩ候補領域を構成する各最小単位領域のビットストリームからヘッダを切り離し、ＲＯＩ候補領域を再構成する順に並べて統合した上でヘッダを付与し、ＲＯＩ候補領域に対応するビットストリームを得る（ステップＳ４）。例えば、図１に示す例では、３つのＲＯＩ候補領域に対応するビットストリームを得る。具体的には、部分領域１と５からなる領域、部分領域２と６からなる領域、部分領域３と７からなる領域、部分領域４と８からなる領域、の４つの最小単位領域のビットストリームを再構成して、部分領域１と２と５と６からなる領域、部分領域２と３と６と７からなる領域、部分領域３と４と７と８からなる領域、の３つのＲＯＩ候補領域に対応するビットストリームを得る。

ビットストリーム蓄積部１２は、トランスコード部３３から出力されたビットストリームを蓄積する（ステップＳ５）。この動作によって、図１に示す３つのＲＯＩ候補領域（図１に示す例では、部分領域１と２と５と６からなる領域、部分領域２と３と６と７からなる領域、部分領域３と４と７と８からなる領域、の３つのＲＯＩ候補領域）に対応するビットストリームがビットストリーム蓄積部１２に蓄積される。

次に、具体例を挙げて、符号化の動作を説明する。図３は、ＲＯＩ候補領域に含まれる複数の部分領域であるタイルを指定して同時に並列処理ができないＨＥＶＣエンコーダを活用して符号化を行う動作を示す説明図である。まず、ＲＯＩ映像取得部３１は、全体映像を部分領域であるタイル毎に分割する。ここでは、例えば、縦４つ、横８つの３２分割とし、３２の部分領域であるタイルを最小単位領域とする。

そして、符号化部３２は、タイルごとに順次符号化する（エンコードする）。これによって、タイル毎にヘッダが付与されたタイル毎のビットストリームが生成される。

次に、トランスコード部３３は、ＲＯＩ候補領域に対応するタイルを組み合わせてＲＯＩ候補領域毎のビットストリームを再構成する。この再構成されたＲＯＩ候補領域毎のビットストリームをビットストリーム蓄積部１２へ蓄積する。ＲＯＩ候補領域と対応する最小単位領域（または部分領域）の組み合わせは、予め定めてあるものとする。

図４は、最小単位領域を部分領域（タイル）とし、ＲＯＩ候補領域に含まれる複数の部分領域であるタイルを指定して同時に並列処理が可能なＨＥＶＣエンコーダを活用して符号化を行う動作を示す説明図である。まず符号化部３２は、全体映像を入力し、ヘッダを付与した１つのビットストリームとして符号化を行う。全体映像は、図４の例では、縦４つ、横８つの３２個のタイルから構成する。

次に、トランスコード部３３は、１つのビットストリームからヘッダを切り離し、ＲＯＩ候補領域を構成する各タイルのビットストリームを、このＲＯＩ候補領域を再構築する順に統合した上でこのＲＯＩ候補領域に対応したヘッダを付与し、ＲＯＩ候補領域毎のビットストリームを得る。この再構成されたＲＯＩ候補領域毎のビットストリームをビットストリーム蓄積部１２へ蓄積する。

次に、図４に示す方法（ＲＯＩ候補領域に含まれる複数の部分領域であるタイルを指定して同時に並列処理が可能なＨＥＶＣエンコーダを活用して符号化を行う方法）を用いて実時間配信する映像配信システムの構成例を説明する。図５は、図４に示す方法を用いて実時間配信する映像配信システムの構成例を示す模式図である。

この図において、符号１００は、全天球カメラである。符号２００は、全天球カメラの映像を実時間で符号化してビットストリームを出力するライブエンコーダである。全天球カメラ１００とライブエンコーダ２００は、撮影現場（例えば、スポーツ競技会場など）に設置される。

符号３００は、ライブエンコーダ２００との間が専用線または安定したネットワーク（ＮＷ）で接続され、ビットストリームの再構成を行うトランスコーダである。符号４００は、配信要求に応じてビットストリームを選択してクライアント端末へ配信する配信サーバである。トランスコーダ３００と配信サーバ４００は、データセンタに設置される。

符号５００は、インターネット網やＣＤＮ（コンテンツデリバリネットワーク）である。符号６００は、スポーツバーやパブリックビューイングなどのクライアント端末に表示した映像である。符号７００は、家庭のクライアント端末に表示した映像である。符号８００は、会場のクライアント端末に表示した映像である。

次に、図５に示す映像配信システムの動作を説明する。まず、ライブエンコーダ２００は、全天球カメラで撮影した映像全体を部分領域であるタイルに分割し、分割したタイル毎に符号化を行い、映像全体に対するヘッダを付与した１つのビットストリームを出力する。図５では最小単位領域をタイルとして説明している。このビットストリームは、全体データ量は小さいが、１ストリームあたりのデータ量は大きくなる。このビットストリームは、トランスコーダ３００へ転送される。

トランスコード３００は、映像全体を表す１つのビットストリームを入力とし、当該ビットストリームからヘッダを外した後、各タイル毎のビットストリームに分割する。トランスコード３００は、分割された各タイル毎のビットストリームから、各ＲＯＩ候補領域に対応するタイルのビットストリームを並べてＲＯＩ候補領域毎のビットストリームを生成する。言い換えれば、映像全体を表す１つのビットストリームから、ＲＯＩ候補領域毎のビットストリームに各ＲＯＩ候補領域に対するヘッダを付与したものに分割して、ＲＯＩ候補領域毎のビットストリームを生成する。このビットストリームは、全体データ量は、大きくなるが、１ストリームあたりのデータ量は小さくなる。この複数のビットストリームは配信サーバ４００へ転送され、配信サーバ４００内に蓄積される。

そして、クライアント端末から要求された注目領域の配信要求に応じて、蓄積されているＲＯＩ候補領域のうち、クライアント端末から要求された注目領域に対応するＲＯＩ候補領域のビットストリームを配信する。これによって、各クライアント端末において、注目領域の映像を視聴することができる。

以上説明したように、第１実施形態では、映像全体の領域の部分集合となる複数の注目領域を符号化する際、領域の重なりで重複する符号化演算量を低減することができる。また、重複する部分の符号量の増大による伝送帯域および蓄積容量を低減することができる。

＜第２実施形態＞
次に、本発明の第２実施形態による映像符号化装置を説明する。図６は同実施形態の構成を示すブロック図である。この図において、図１に示す装置と同一の部分には同一の符号を付し、その説明を省略する。この図に示す装置が図１に示す装置と異なる点は、ＲＯＩ映像取得部３１に代えて、映像加工部３４が新たに設けられていることと、符号化装置３の動作が異なる点である。

次に、図６に示す映像配信システムの動作を説明する。ここで、ビットストリーム選択部１１、配信要求部２６、復号部２７、表示部２８の動作は、図１６に示す装置と同様であるので、ここでは詳細な動作の説明を省略する。図６に示す映像配信システムにおいて、従来の映像配信システムと異なる点は、符号化装置３の動作であるので、この動作について説明する。図７は、図６に示す符号化装置３の動作を示すフローチャートである。

まず、映像加工部３４は、ソースとなる全領域の映像を入力する（ステップＳ１１）。例えば、図６に示す１〜８の部分領域を含む全領域の映像を入力する。

次に、映像加工部３４は、全領域の映像から、少なくともＲＯＩ候補領域に必要な最小単位領域ごとの映像が含まれ、かつ、符号化処理で最小単位領域以外からの予測が行われないように加工した映像を得る（ステップＳ１２）。例えば、図６に示す符号Ｒ４、Ｒ５で示す２つの映像を得る。

この例では、部分領域１と５については、隣り合う部分領域２と６であった領域からのイントラ予測（例えば一般的なＨ．２６４やＨＥＶＣ符号化で用いられるＰｌａｎａｒ予測，ＤＣ予測，Ａｎｇｕｌａｒ予測等）が行われないように、映像中の部分領域２と６の部分を相反色に置き換えるような加工（例えば、部分領域１と５が白色に近い色であれば部分領域２と６を黒色でマスキング）を施した加工済み映像を生成し、加工済み映像を用いて符号化する。隣接する領域を相反色に置き換えるような加工を施した加工済み映像を用いて符号化すると、他の領域からの予測、部分領域１と５の領域の符号化であれば部分領域２と６からの予測が行われない。映像のビットストリームから、他の領域からの予測が行われない状態で符号化したビットストリーム、ここでは部分領域１と５に対応するビットストリームを切り出しても、他の領域、ここでは部分領域２と６からの予測情報がなくても復号できるビットストリーム、すなわち、部分領域１と５に対応するビットストリームそのものとなる。他の領域についても加工済み映像を用いて符号化することで、同様に当該領域そのもののビットストリームが得られる。符号化対象の映像の一部を相反色に置き換え、加工済み映像とする方法についての詳細は、後述する。図６に示す例であれば、部分領域１と５に対応するビットストリームそのものを作成するための加工を施した加工済み映像、部分領域２と６に対応するビットストリームそのものを作成するための加工を施した加工済み映像、というように、複数の加工済み映像を生成する。

次に、符号化部３２は、映像加工部３４が出力した各加工済み映像を入力とし、各加工済み映像それぞれ符号化して、各加工済み映像それぞれに対応するビットストリームを得る（ステップＳ１３）。例えば、図６に示す符号Ｂ１、Ｂ２で示すビットストリームを得る。

次に、トランスコード部３３は、符号化部３２が出力した加工済み映像のビットストリームを入力とし、加工済み映像のビットストリームからＲＯＩ候補領域に含まれる部分領域に対応するビットストリームを切り出し、切り出したビットストリームを統合して、ＲＯＩ候補領域に対応するビットストリームを得る（ステップＳ１４）。

そして、トランスコード部３３は、例えば、３つのＲＯＩ候補領域に対応するビットストリームＢ３、Ｂ４、Ｂ５をビットストリーム蓄積部１２に蓄積する（ステップＳ１５）。

次に、具体例を挙げて、符号化の動作を説明する。はじめに、ＲＯＩ候補領域に含まれる複数の部分領域であるスライスを指定して同時に並列処理ができないＨＥＶＣエンコーダを活用して符号化を行う基本動作を説明する。図８は、ＲＯＩ候補領域に含まれる複数の部分領域であるスライスを指定して同時に並列処理ができないＨＥＶＣエンコーダを活用して符号化を行う基本動作を示す説明図である。ここでいうスライスとは、隣接する複数の部分領域（タイル）を組み合わせたものである。

まず、符号化部３２は、スライス分割された全領域の映像を入力する。このスライス分割は、可能な限りイントラ予測をさせないようにする。そして、符号化部３２は、各スライスに対して、ヘッダを付与した１つのビットストリームとして符号化を行う。なお、各スライスは、１枚のタイルと等価であってもよい。

次に、トランスコード部３３は、１つのビットストリームを入力し、必要なタイルを組み合わせてＲＯＩ候補領域毎のビットストリームを再構成する。この例では、３つのタイル（スライス）で１つのＲＯＩ候補領域を構成している。この複数のビットストリームはビットストリーム蓄積部１２に蓄積される。

次に、図９を参照して、図６に示す映像加工部３４の動作の詳細を説明する。図９は、図６に示す映像加工部３４の動作の詳細を示す説明図である。

まず、ある映像がフレーム１〜Ｎまで、各フレームの中でスライスが１〜ｎで構成されているとする。ここで、符号化対象の奇数スライスのイントラ予測時には、参照画像において偶数スライスを別の輝度／色（相反色）に置き換える（図９（１）−１参照）。また、偶数スライスでは、奇数スライスを同様に相反色に置き換える（図９（１）−２参照）。ここでは、相反色を黒で表現している。

ここで相反色は、参照元のフレーム全体の特徴と相反するようにする。すなわち、イントラ予測で参照されづらいようにする。例えば、輝度信号が８ｂｉｔ（０〜２５５）で表現されているとして、参照元のフレームの輝度値の平均ｘを取り、相反色（輝度値）を
平均ｘ＞１２７ならば、相反色＝０（黒）
平均ｘ≦１２７ならば、相反色＝２５５（白）
とする。

これにより、参照元のフレームの特徴として明るい場合は、相反色＝黒に、暗い場合は相反色＝白になり、フレームの特徴の相反色を使用することで、イントラ予測として参照しづらいようにする。

また、ＲＧＢ信号が各８ｂｉｔで表現されているとして、参照元のフレームの各ＲＧＢ信号の平均をそれぞれｒ，ｇ，ｂとし、相反色をｒ’，ｇ’，ｂ’とすると、
ｒ’＝ｚ−ｒ
ｇ’＝ｚ−ｇ
ｂ’＝ｚ−ｂ
とする。
ここで、ｚ＝ｍａｘ（ｒ，ｇ，ｂ）＋ｍｉｎ（ｒ，ｇ，ｂ）で、ｍａｘは要素の最大値、ｍｉｎは要素の最小値を表す。これにより参照元のフレームの補色が相反色となり、動ベクトルとして参照しづらいようにする。なお、前述した説明はある映像の特定のフレームに対する処理について説明したが、それを映像（特定のフレームの前後フレーム）にも適用し、複数フレーム間の動ベクトル探索時にも適用できることは明白である。

＜変形例１＞
次に、図６に示す映像加工部３４の動作の詳細の変形例１を説明する。変形例１においてもある映像がフレーム１〜Ｎまで、各フレームの中でスライス１〜ｎで構成されているとする。ここで、符号化対象のスライスにおける、動ベクトルの参照画像の当該スライス領域以外は相反色に置き換える（図９（２）参照）。

ここで相反色は、参照元のスライスの特徴と相反するようにする。すなわち、イントラ予測で参照されづらいようにする。例えば、輝度信号が８ｂｉｔ（０〜２５５）で表現されているとして、参照元のスライスの輝度値の平均ｘを取り、相反色（輝度値）を
平均ｘ＞１２７ならば、相反色＝０（黒）
平均ｘ≦１２７ならば、相反色＝２５５（白）
とする。

これにより、参照元のスライスの特徴として明るい場合は、相反色＝黒に、暗い場合は相反色＝白になり、スライスの特徴の相反色を使用することで、動ベクトルとして参照しづらいようにする。

また、ＲＧＢ信号が各８ｂｉｔで表現されているとして、参照元のスライスの各ＲＧＢ信号の平均をそれぞれｒ，ｇ，ｂとし、相反色をｒ’，ｇ’，ｂ’とすると、
ｒ’＝ｚ−ｒ
ｇ’＝ｚ−ｇ
ｂ’＝ｚ−ｂ
とする。
ここで、ｚ＝ｍａｘ（ｒ，ｇ，ｂ）＋ｍｉｎ（ｒ，ｇ，ｂ）で、ｍａｘは要素の最大値、ｍｉｎは要素の最小値を表す。

これにより参照元のスライスの補色が相反色となり、動ベクトルとして参照しづらいようにする。なお、前述した説明はある映像の特定のフレームに対する処理について説明したが、それを映像（特定のフレームの前後フレーム）にも適用し、複数フレーム間の動ベクトル探索時にも適用できることは明白である。

＜変形例２＞
次に、図１０を参照して、図６に示す映像加工部３４の動作の詳細の変形例を説明する。図１０は、図６に示す映像加工部３４の動作の詳細の変形例を示す説明図である。この変形例においてもある映像がフレーム１〜Ｎまで、各フレームの中でスライス１〜ｎで構成されているとする。ここで、符号化対象のスライスｍにおける、イントラ予測時の参照画像のこのスライス領域の周辺領域を相反色に置き換える（図１０参照）。

これにより、参照元のスライスの特徴として明るい場合は、相反色＝黒に、暗い場合は相反色＝白になり、スライスの特徴の相反色を使用することで、イントラ予測として参照しづらいようにする。

以上説明したように、第２実施形態では、映像全体を領域の重複の無いスライスで分割／符号化した後、各スライスからＲＯＩ領域候補別のタイルを作成する手法において、符号化装置への簡易な改造で実施可能な手法として動ベクトルの参照画像を一部変更する加工を行う。参照画像の一部変更においては、イントラ予測または動ベクトルの参照元のフレーム全体の特徴と、スライスそれぞれの特徴を使用したそれぞれの相反色の導出手法を用いている。

また、第２実施形態では、スライスの相互依存性をさらに抑制するため、領域外参照の防止を行う。各スライスの画面間予測での依存性を排除するため、イントラ予測または動ベクトルの参照画像において、相反色で参照画像を一部変更することで、該当するスライスの領域外参照を抑止することができる。また、相反色で参照画像の一部変更することは、あわせて、エンコーダ改修の容易となる。すなわち、可変ブロックサイズ動き補償でのブロック位置／サイズに基づき、それぞれのブロックでの探索範囲計算をせず、参照画像の一部変更のみで対応可能となる。

また、第２の実施形態では、ＲＯＩ候補領域別のタイルで構成される各ストリームを生成する際に、映像全体を領域の重複の無いスライスで分割／符号化する。その後、各スライスからＲＯＩ候補領域別のタイルを作成する手法において、スライス単位の符号化時の相互依存性を抑制することで、領域外参照による画質低下を低減することができる。また、インタラクティブ映像配信に適用することで、従来のタイルで構成される各ストリームを、領域外参照による画質低下を低減しつつ、より高速に生成することが可能となる。

図１１は、第１実施形態と第２実施形態との符号化装置３における共通概念を示すブロック図である。ここで、ビットストリーム選択部１１、配信要求部２６、復号部２７、表示部２８の動作は、図１６に示す装置と同様であるので、ここでは詳細な動作の説明を省略する。符号化処理部３５は、全領域の映像を入力する。ここで入力される全領域の映像は、部分領域１〜８を含む映像である。

次に、符号化処理部３５は、前述した処理によって符号化処理を行う。符号化処理部３５は、全領域の映像から、ＲＯＩ候補領域に必要な最小単位の部分領域ごとの映像を切り出す。符号化処理部３５は、各最小単位領域の映像をそれぞれ符号化して、各最小単位領域それぞれに対応するビットストリームを出力する。各最小単位領域の映像をそれぞれ符号化する際、最小単位領域を、最小単位領域外からの予測を含まないように符号化して、最小単位領域毎に独立したビットストリームを得る。

符号化処理部３５によって得られるビットストリームは、図１１に示すように、例えば、４つの最小単位領域それぞれに対応するビットストリームを含むビットストリームである。

次に、トランスコード部３３は、符号化処理部３５から出力された、最小単位領域毎に独立したビットストリームを入力とし、各ＲＯＩ候補領域について、ＲＯＩ候補領域に含まれる最小単位領域に対応するビットストリームを統合して、ＲＯＩ候補領域に対応するビットストリームを得る。

トランスコード部３３によって得られるビットストリームは、図１１に示すように、例えば、３つのＲＯＩ候補領域に対応するビットストリームである。このビットストリームは、ビットストリーム蓄積部１２に蓄積される。

＜第３実施形態＞
次に、本発明の第３実施形態による映像符号化装置を説明する。図１２は同実施形態の構成を示すブロック図である。この図において、図１１に示す装置と同一の部分には同一の符号を付し、その説明を省略する。この図に示す装置が図１に示す装置と異なる点は、トランスコード部３３に代えて、トランスコード部１３が配信サーバ１内に設けられている点である。トランスコード部１３が、配信サーバ１内に設けられたことで、ビットストリームを選択後にトランスコードを行う。

次に、図１２に示す装置の動作を説明する。まず、符号化処理部３５は、全領域の映像を入力する。続いて、符号化処理部３５は、最小単位領域を、最小単位領域外からの予測を含まないように符号化して最小単位領域毎に独立したビットストリームを得るように符号化する。符号化処理部３５は、このビットストリームを出力し、ビットストリーム蓄積部１２に蓄積する。ストリーム蓄積部１２には、ＲＯＩ候補領域に対応するビットストリームではなく、最小単位領域それぞれに対応するビットストリームを含むビットストリームが蓄積される。

ビットストリーム選択部１１は、配信要求に応じて、ビットストリーム蓄積部１２に蓄積されたビットストリームのうち、注目領域に含まれる最小単位領域のビットストリームを選択して出力する。これを受けて、トランスコード部１３は、ビットストリーム選択部１１が選択した注目領域に含まれる最小単位領域に対応するビットストリームを統合して、注目領域に対応するビットストリームを得て、クライアント端末２６に対して配信する。

以上説明したように、第３実施形態では、ストリーム蓄積部１２には、注目領域に対応するビットストリームではなく、最小単位領域それぞれに対応するビットストリームを含むビットストリームが蓄積される。この構成によれば、符号化装置３内において、ＲＯＩ候補領域毎のトランスコード処理を行わなくても済むようになる。この結果、符号化装置３の構成を簡単にすることができる。また、配信サーバ１内に設けたトランスコード部１３は、配信要求された注目領域についてのみトランスコードを行えばいため、トランスコード部１３の能力が高くなくとも適用可能となる。

前述した実施形態における映像符号化装置の全部または一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されるものであってもよい。

以上、図面を参照して本発明の実施の形態を説明してきたが、上記実施の形態は本発明の例示に過ぎず、本発明が上記実施の形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行ってもよい。

注目領域の映像の符号化を行う際に、重複した領域の符号化処理の効率化を図り、符号化時の予測画像と異なることに起因する画質劣化を防止することが不可欠な用途にも適用できる。

１・・・配信サーバ、１１・・・ビットストリーム選択部、１２・・・ビットストリーム蓄積部、１３・・・トランスコード部、２１〜２５・・・クライアント端末、２６・・・配信要求部、２７・・・復号部、２８・・・表示部、３・・・符号化装置、３１・・・ＲＯＩ映像取得部、３２・・・符号化部、３３トランスコード部、３４・・・映像加工部、３５・・・符号化処理部

Claims

符号化対象の映像を入力する映像入力部と、
前記映像を所定の大きさの部分領域に分割し、前記部分領域の映像を含み、かつ符号化処理において前記部分領域以外からの予測が行われないように前記部分領域の映像を加工する映像加工部と、
加工を行った前記部分領域の映像のそれぞれを符号化したビットストリームを出力する符号化部と
を備えた映像符号化装置。
前記符号化部は、前記ビットストリームを、前記映像を表示する端末装置から要求された注目領域に対応するビットストリームに再構成された前記ビットストリームを前記端末装置に対して配信するための符号化を行う請求項１に記載の映像符号化装置。
前記映像を表示する端末装置に対して配信するために、前記ビットストリームを、前記映像を表示する端末装置から要求された注目領域に対応するビットストリームに再構成するトランスコード部をさらに備えた請求項１に記載の映像符号化装置。
前記部分領域が前記映像を縦方向または横方向にスライスしたスライス領域であり、
前記映像加工部は、隣り合う前記スライス同士が相反する色となるように、前記映像を加工する
請求項１に記載の映像符号化装置。
前記部分領域が前記映像を縦方向または横方向にスライスしたスライス領域であり、
前記映像加工部は、符号化対象の前記スライス以外のスライスを、符号化対象の前記スライスに対して相反する色となるように、前記映像を加工する
請求項１に記載の映像符号化装置。
前記部分領域が前記映像を縦方向または横方向にスライスしたスライス領域であり、
前記映像加工部は、符号化対象の前記スライス周辺領域を、符号化対象の前記スライスに対して相反する色となるように、前記映像を加工する
請求項１に記載の映像符号化装置。
映像を符号化する映像符号化装置が行う映像符号化方法であって、
符号化対象の前記映像を入力する映像入力ステップと、
前記映像を所定の大きさの部分領域に分割し、前記部分領域の映像を含み、かつ符号化処理において前記部分領域以外からの予測が行われないように前記部分領域の映像を加工する映像加工ステップと、
加工を行った前記部分領域の映像のそれぞれを符号化したビットストリームを出力する符号化ステップと
を有する映像符号化方法。
前記符号化ステップは、前記ビットストリームを、前記映像を表示する端末装置から要求された注目領域に対応するビットストリームに再構成された前記ビットストリームを前記端末装置に対して配信するための符号化を行う請求項７に記載の映像符号化方法。
前記映像を表示する端末装置に対して配信するために、前記ビットストリームを、前記映像を表示する端末装置から要求された注目領域に対応するビットストリームに再構成するトランスコードステップをさらに有する請求項７に記載の映像符号化方法。
コンピュータを、請求項１から３のいずれか一項に記載の映像符号化装置として機能させるための映像符号化プログラム。