JP2013078100A

JP2013078100A - 画像処理サーバ、画像処理端末及びビデオ会議システム

Info

Publication number: JP2013078100A
Application number: JP2012015056A
Authority: JP
Inventors: yi-qing Huang; 異青黄
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2011-09-15
Filing date: 2012-01-27
Publication date: 2013-04-25

Abstract

【課題】システム全体の負荷を低減するとともに、消費電力を低減する。
【解決手段】サーバ２７は、端末Ａ２１及び端末Ｂ２４から受信した映像ストリームをシンタックス解析し、シンタックス解析結果を用いて、映像フレームの前景と背景を判定して背景マップ情報を生成し、シンタックス解析結果及び背景マップ情報を用いて、映像ストリームをデコードするデコーダ２７ａ、２７ｂと、デコードされた映像を合成する画像合成部２７ｃと、合成された映像をエンコードするエンコーダ２７ｄ、２７ｅを備える。
【選択図】図４−１

Description

本発明は、画像処理を行う画像処理サーバ、画像処理端末及びそれを具備するビデオ会議システムに関する。

ビデオ会議システムにおいて、各端末と通信を中継するサーバには、動画像コーデックが必要である。近年、動画像圧縮技術として、Ｈ．２６４／ＡＶＣやＨ．２６４／ＳＶＣ等が広く用いられている。ビデオ会議システムでは、端末で撮影した映像をエンコーダで符号化してサーバに送信する。また、サーバで符号化されたビットストリームを端末のデコーダで復号化する。サーバは複数コーデックを利用して、各端末からの映像を１つに合成して、それぞれの端末に配信する。しかし、Ｈ．２６４／ＡＶＣやＨ．２６４／ＳＶＣ等の複雑度の高いコーデックをシステムに導入すると、端末とサーバの両方が高負荷になってしまい、ビデオ会議の高品質や低遅延の要求に応えることが難しい。そこで、端末やサーバの負荷又は消費電力を下げることができるビデオ会議システムが考えられている。

従来のビデオ会議システムでは、撮影された映像内容に関わらず、圧縮技術を使って全ての映像フレームを端末からサーバに送信する。ビデオ会議の特徴は、会議用のカメラは長時間固定されて、画面に背景の部分が多くなることである。もしその背景部分の検知ができれば、低負荷のビデオ会議システムが実現可能となる。しかし、現在の背景検知技術は高複雑度のアルゴリズムを利用しているので、ビデオ会議システムにネガティブな影響を与える。例えば、ＧＭＭ（Gaussian Mixture Model）という背景検知技術では、各ピクセルのガウシアン分布を計算するので、最低３つのフレームを保存することが必要である。更に、ＧＭＭのような背景検知技術は演算量が多く、低負荷のビデオ会議システムを目標としても、逆に高負荷の背景検知処理が追加されるので、システム全体の負荷又は消費電力が増加するという問題があった。

関連する技術として、特許文献１には、異種のネットワーク環境／端末上で低遅延と高品質のビデオ会議を行う目的で、サーバ側でスケーラブルなビデオ符号化（ＳＶＣ）フォーマットを用いて、各端末からの映像情報を１つに合成する技術が開示されている。スケーラブルなビデオ符号化としては、サーバ側の合成した映像ストリーム中に複数レイヤを含める技術を用い、この複数レイヤを使って、エラーや帯域不足やパケットロスのような問題による各端末への映像ストリームへの影響が低減される。これにより、ビデオ会議の遅延時間の増加やエラーを抑制するビデオ会議システムが開示されている。しかしながら、特許文献１掲載のビデオ会議システムでは、上述した高演算量や高負荷や高消費電力という問題は解消できていない。

本発明は、上記に鑑みてなされたものであって、システム全体の負荷を低減するとともに、消費電力を低減することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、画像処理端末から受信した映像ストリームをシンタックス解析するシンタックス解析手段と、前記シンタックス解析手段による前記映像ストリームのシンタックス解析結果を用いて、映像フレームの前景と背景を判定し、判定結果を表す背景マップ情報を生成する背景生成手段と、前記シンタックス解析手段による前記映像ストリームのシンタックス解析結果及び前記背景マップ情報を用いて、前記映像フレームの画素を回復する画素回復手段と、前記背景マップ情報を前記画像処理端末に送信する送信手段と、を備えたことを特徴とする。

また、本発明は、画像処理端末から受信した映像ストリームをシンタックス解析するシンタックス解析手段と、前記シンタックス解析手段による前記映像ストリームのシンタックス解析結果を用いて、映像フレームの前景と背景を判定し、判定結果を表す背景マップ情報を生成する背景生成手段と、前記シンタックス解析手段による前記映像ストリームのシンタックス解析結果及び前記背景マップ情報を用いて、前記映像フレームの画素を回復する画素回復手段と、前記背景マップ情報を前記画像処理端末に送信する送信手段と、入力情報として複数の画像を合成した合成画像と前記背景マップ情報を受け取り、前記背景マップ情報に従って、エンコード方法を切り換えて前記合成画像のエンコードを行うエンコーダ手段と、を備えた画像処理サーバから前記背景マップ情報を受信する背景マップ情報受信手段と、前記背景マップ情報に従ってデコード方法を切り換えて、前記画像処理サーバによってエンコードされた映像ストリームを受信してデコードするデコーダ手段と、を備えることを特徴とする。

また、本発明は、画像処理サーバと、画像処理端末とを備えるビデオ会議システムであって、前記画像処理サーバは、画像処理端末から受信した映像ストリームをシンタックス解析するシンタックス解析手段と、前記シンタックス解析手段による前記映像ストリームのシンタックス解析結果を用いて、映像フレームの前景と背景を判定し、判定結果を表す背景マップ情報を生成する背景生成手段と、前記シンタックス解析手段による前記映像ストリームのシンタックス解析結果及び前記背景マップ情報を用いて、前記映像フレームの画素を回復する画素回復手段と、前記背景マップ情報を前記画像処理端末に送信する送信手段と、入力情報として複数の画像を合成した合成画像と前記背景マップ情報を受け取り、前記背景マップ情報に従って、エンコード方法を切り換えて前記合成画像のエンコードを行うエンコーダ手段と、を備え、前記画像処理端末は、前記画像処理サーバから前記背景マップ情報を受信する背景マップ情報受信手段と、前記背景マップ情報に従ってデコード方法を切り換えて、前記画像処理サーバによってエンコードされた映像ストリームを受信してデコードするデコーダ手段と、を備えることを特徴とする。

本発明によれば、システム全体の負荷を低減するとともに、消費電力を低減することができるという効果を奏する。

図１−１は、本発明の比較例のビデオ会議システムの構成を示す図である。図１−２は、図１のデコーダの内部構成を示す図である。図２は、本発明の比較例のビデオ会議システムの処理を示すフローチャートである。図３は、本発明の実施の形態にかかるビデオ会議システムの構成を示す図である。図４−１は、本発明の実施の形態にかかるビデオ会議システムの構成を示す図である。図４−２は、図４−１のデコーダの内部構成を示す図である。図５は、背景マップ情報の一例を示す図である。図６は、本発明の実施の形態にかかるビデオ会議システムの処理を示すフローチャートである。図７は、本発明の実施の形態にかかるビデオ会議システムの処理を示すフローチャートである。図８−１は、背景マップ情報の修正を行うケースを示す図である。図８−２は、背景マップ情報の修正を行うケースを示す図である。図８−３は、背景マップ情報の修正を行うケースを示す図である。図９は、本発明の実施の形態にかかるビデオ会議システムの処理を示すフローチャートである。

以下に添付図面を参照して、この発明にかかるビデオ会議システムの最良な実施の形態を詳細に説明する。

図１−１及び図１−２は、本実施の形態の比較例としてのビデオ会議システムの構成を示す図である。このビデオ会議システムは、端末Ａ１、カメラ２、ディスプレイ３、端末Ｂ４、カメラ５、ディスプレイ６及びサーバ７を含んでいる。ビデオ会議を行う際、カメラ２、５がリアルタイムで撮影した所在地の映像がサーバ７に送信される。また、ディスプレイ３、６には、サーバ７から送信される合成画像が表示される。

端末Ａ１は、符号化処理を行うエンコーダ１ａと、復号化処理を行うデコーダ１ｃと、コーデック（エンコーダ及びデコーダ）の参照フレームを保存するためのコーデックフレームバッファ１ｂと、を備えている。同様に、端末Ｂ４は、符号化処理を行うエンコーダ４ａと、復号化処理を行うデコーダ４ｃと、コーデックの参照フレームを保存するためのコーデックフレームバッファ４ｂと、を備えている。サーバ７は、端末Ａ１及び端末Ｂ４の要求によって、複数の入力画像を１つに合成して、端末Ａ１及び端末Ｂ４に送信する。そのため、サーバ７は、デコーダ７ａ、７ｂと、画像合成部７ｃと、エンコーダ７ｄ、７ｅと、を含んでいる。

Ａさんが利用する端末Ａ１は、カメラ２で撮影された画像信号Ｓ１をエンコーダ１ａで符号化したストリームＳ３をサーバ７に送信する。同様に、Ｂさんが利用する端末Ｂ４は、カメラ５で撮影された画像信号Ｓ２をエンコーダ４ａで符号化したストリームＳ４をサーバ７に送信する。

サーバ７は、端末Ａ１から受信したストリームＳ３をデコーダ７ａで復号化してピクセルレベル映像信号Ｓ５を生成する。図１−２は、デコーダ７ａの内部構成を示す図である。デコーダ７ａは、画像回復部８と、デコーダフレームバッファ９と、を含んでいる。画像回復部８は、シンタックス解析部８ａと、画素回復部８ｂと、を含んでいる。デコーダ７ａによるストリームＳ３の復号化の際、まず、シンタックス解析部８ａは、ストリームＳ３をシンタックス単位で解析する。シンタックス解析部８ａは、復号化用のマクロブロック（ＭＢ）モードや動きベクトル（Motion Vector）や非零係数（Coefficient）等の情報Ｓ１３を生成する。画素回復部８ｂは、デコーダフレームバッファ９に記憶される前フレームのＭＢの情報Ｓ１４と情報Ｓ１３を用いて、フレームの画素を回復する。デコーダ７ｂの内部構成も、デコーダ７ａと同様であり、デコーダ７ｂは、ストリームＳ４を復号化してピクセルレベル映像信号Ｓ６を生成する。

画像合成部７ｃは、端末Ａ１及び端末Ｂ４の合成フォーマットによる会議画面を合成し、合成結果の信号Ｓ７、Ｓ８をエンコーダ７ｄ、７ｅに出力する。エンコーダ７ｄ、７ｅは、信号Ｓ７、Ｓ８をそれぞれ符号化し、端末Ａ１及び端末Ｂ４への合成ビットストリームＳ９、Ｓ１０をそれぞれ生成する。生成された合成ビットストリームＳ９、Ｓ１０は、端末Ａ１及び端末Ｂ４にそれぞれ送信される。端末Ａ１は、デコーダ１ｃで合成ビットストリームＳ９を復号化して得られた信号Ｓ１１に基づく画像をディスプレイ３に表示する。同様に、端末Ｂ４は、デコーダ４ｃで合成ビットストリームＳ１０を復号化して得られた信号Ｓ１２に基づく画像をディスプレイ６に表示する。

図２は、このビデオ会議システムの処理を示すフローチャートである。まず、端末Ａ１及び端末Ｂ４は、ステップＳ１１０として、カメラ２、５を使用して会議画面を撮影する。次に、端末Ａ１及び端末Ｂ４は、ステップＳ１１２として、撮影された映像をエンコーダ１ａ、４ａで符号化し、ストリームにする。次に、端末Ａ１及び端末Ｂ４は、ステップＳ１１４として、符号化されたストリームをサーバ７に送信する。上記ステップＳ１１０〜ステップＳ１１４は、端末Ａ１及び端末Ｂ４で実行される。

次に、サーバ７は、ステップＳ１１６として、シンタックス解析部８ａで入力ビットストリームのシンタックスを解析する。次に、サーバ７は、ステップＳ１１８として、画素回復部８ｂで入力フレームのピクセルを回復する。次に、サーバ７は、ステップＳ１２０として、端末Ａ１からの画像と端末Ｂ４からの画像とを画像合成部７ｃで合成する。次に、サーバ７は、ステップＳ１２２として、合成された画像をエンコーダ７ｄ、７ｅで符号化し、ストリームにする。次に、サーバ７は、ステップＳ１２４として、合成して符号化されたストリームを端末Ａ１及び端末Ｂ４に送信する。上記ステップＳ１１６〜ステップＳ１２４は、サーバ７で実行される。

次に、端末Ａ１及び端末Ｂ４は、ステップＳ１２６として、受信したストリームをデコーダ１ｃ、４ｃで復号化し、得られた画像をディスプレイ３、６に表示する。このステップＳ１２６は、端末Ａ１及び端末Ｂ４で実行される。

このビデオ会議システムにおいては、ビデオ会議の特徴が考慮されていないので、端末Ａ１、端末Ｂ４及びサーバ７はいつも満負荷で動作している。実際は、ビデオ会議の過程中、前景として動いている画像部分と背景として動かない画像部分とが存在しているので、いつも満負荷で動作する必要はない。

次に、本発明の実施の形態にかかるビデオ会議システムについて説明する。図３は、本発明の実施の形態にかかるビデオ会議システムの構成を示す図である。このビデオ会議システム２０は、端末Ａ２１と、カメラ２２と、ディスプレイ２３と、端末Ｂ２４と、カメラ２５と、ディスプレイ２６と、サーバ２７と、を備えている。端末Ａ２１、端末Ｂ２４及びサーバ２７は、有線又は無線の通信回線Ｃを介して通信可能である。ビデオ会議を行う際、カメラ２２、２５がリアルタイムで撮影した所在地の映像が、サーバ２７に送信される。また、ディスプレイ２３、２６にはサーバ２７から送信される合成画像が表示される。

図４−１及び図４−２は、ビデオ会議システム２０の内部構成を示す図である。端末Ａ２１は、符号化処理を行うエンコーダ２１ａと、復号化処理を行うデコーダ２１ｃと、コーデック（エンコーダ及びデコーダ）の参照フレームを保存するためのコーデックフレームバッファ２１ｂと、を備えている。同様に、端末Ｂ２４は、符号化処理を行うエンコーダ２４ａと、復号化処理を行うデコーダ２４ｃと、コーデックの参照フレームを保存するためのコーデックフレームバッファ２４ｂと、を備えている。サーバ２７は、端末Ａ２１及び端末Ｂ２４の要求によって、複数の入力画像を１つに合成して、端末Ａ２１及び端末Ｂ２４に送信する。そのため、サーバ２７は、デコーダ２７ａ，２７ｂと、画像合成部２７ｃと、エンコーダ２７ｄ、２７ｅと、を含んでいる。

Ａさんが利用する端末Ａ２１は、カメラ２２で撮影された画像信号Ｓ１をエンコーダ２１ａで符号化したストリームＳ３をサーバ２７に送信する。同様に、Ｂさんが利用する端末Ｂ２４は、カメラ２５で撮影された画像信号Ｓ２をエンコーダ２４ａで符号化したストリームＳ４をサーバ２７に送信する。

サーバ２７は、端末Ａ２１から受信したストリームＳ３をデコーダ２７ａで復号化してピクセルレベル映像信号Ｓ５を生成する。図４−２は、デコーダ２７ａの内部構成を示す図である。デコーダ２７ａは、画像回復部２８と、デコーダフレームバッファ２９と、背景生成部３０と、背景情報バッファ３１と、を含んでいる。画像回復部２８は、シンタックス解析部２８ａと、画素回復部２８ｂと、を含んでいる。

デコーダ２７ａによるストリームＳ３の復号化の際、まず、シンタックス解析部２８ａは、ストリームＳ３をシンタックス単位で解析する。シンタックス解析部２８ａは、復号化用のマクロブロック（ＭＢ）モードや動きベクトル（Motion Vector）や非零係数（Coefficient）等の情報Ｓ１３を生成し、画素回復部２８ｂに出力する。また、シンタックス解析部２８ａは、復号化用のマクロブロック（ＭＢ）モード情報やＭＶＰ（Motion Vector Predictor）や非零係数の数（Total Coefficient、以下ＴＣｏｅｆｆという。）等の情報Ｓ１５を生成し、背景生成部３０に出力する。

Ｈ．２６４／ＡＶＣやＨ．２６４／ＳＶＣ等で符号化された映像ストリームには、符号化情報（Syntax Element：ＳＥ）と呼ばれる情報が含まれている。例えば、マクロブロックモードは、１つのＳＥである。各ＳＥは符号化されたストリーム中の並べる順番が規格書で決められている。符号化情報によって、ビット化プロセスが異なっている。ここで、ビット化プロセスとは、ある情報（例えば、マクロブロック分割モードは２）を符号化ツールで二進法（例えば、１０１ｂのような形式）のアウトプットに変換することである。現在存在している符号化ツールは、ＵＶＬＣ（Universal Variable Length Coding）、ＣＡＶＬＣ（Context Adaptive Variable Length Coding）、ＣＡＢＡＣ（Context Adaptive Binary Arithmetic Coding）の３種類である。デコーダ２７ａは、入力ストリームを受信して、規格書で決められた通りの順番で各ＳＥの解析を１つずつ行う（対応する符号化ツールの逆処理で、二進法ビット列から符号化情報に戻す。）。

背景生成部３０は、情報Ｓ１５に基づいて、今のフレームの一時的な背景マップ情報を表す一時背景マップ情報Ｓ１８を生成し、生成した一時背景マップ情報Ｓ１８を背景情報バッファ３１に保存する。

背景マップ情報とは、各ＭＢが背景であるか前景であるかを判定した結果を表す情報である。図５は、背景マップ情報の一例を示す図である。図５は、１フレームが１６個のＭＢを含む場合の例を示す。また、図５は、内側の４個のＭＢが前景であり、他の１２個のＭＢが背景であると判定された場合の例を示す。このように判定された場合、背景マップ情報には、例えば、背景と判定されたＭＢに対して「０」、前景と判定されたＭＢに対して「１」が設定される。なお、図５の背景マップ情報は一例であり、各ＭＢが背景であるか前景であるかを判定した結果を表す情報であればどのような形式であってもよい。背景マップ情報は、例えばＭＢの個数に応じたビット数で表現できる。図５では、１６個のＭＢの判定結果を表す１６ビットの背景マップ情報の例が示されている。

背景生成部３０は、次に、一時背景マップ情報Ｓ１８中の前景ＭＢと背景ＭＢの分布を分析して、一時背景マップ情報Ｓ１８を更新する。背景生成部３０は、更新した一時背景マップ情報Ｓ１８を、今のフレームの最終の背景マップ情報Ｓ１６として、背景情報バッファ３１に保存する。

画素回復部２８ｂは、情報Ｓ１３及び背景マップ情報Ｓ１６を参照して、アダプティブにフレームの画素を回復する。なお、生成された背景マップ情報Ｓ１６をサーバ２７のエンコーダ２７ｄ、２７ｅと端末Ａ２１のエンコーダ２１ａと端末Ｂ２４側のエンコーダ２４ａとに送信して、低負荷処理ができる。そうすると、ビデオ会議画面の特徴を考慮して、端末Ａ２１、端末Ｂ２４及びサーバ２７を低消費電力化することができる。デコーダ２７ｂの内部構成も、デコーダ２７ａと同様であり、デコーダ２７ｂは、ストリームＳ４を復号化してピクセルレベル映像信号Ｓ６及び背景マップ情報Ｓ１７を生成する。

図６は、背景生成部３０の処理を示すフローチャートである。Ｈ．２６４／ＡＶＣやＨ．２６４／ＳＶＣ等の圧縮標準により、フレームには、イントラフレームとインターフレームが存在する。イントラフレームでは、全てのマクロブロック（ＭＢ）はイントラＭＢである。インターフレームでは、イントラＭＢとインターＭＢの両方が存在する。背景生成部３０は、処理単位がＭＢで、インターフレームに向けて、イントラフレームを前景フレームにする。図６を参照すると、背景生成部３０は、ステップＳ３０として、処理対象であるＭＢがインターＭＢか否かを判定する。背景生成部３０は、ステップＳ３０で処理対象であるＭＢがインターＭＢであると判定したら（Ｙｅｓ）、ステップＳ３２として、Ｓｋｉｐモードであるか否かを判定する。Ｓｋｉｐモードは、インターモードの１つの種類であって、符号化された残差が無く、ＭＶＰの情報だけが残っているモードである。

背景生成部３０は、ステップＳ３２でＳｋｉｐモードであると判定したら（Ｙｅｓ）、ステップＳ３４として、ＭＶＰが所定値より小さいか否かを判定する。背景生成部３０は、ステップＳ３４でＭＶＰが所定値より小さくないと判定したら（Ｎｏ）、ステップＳ３６として、処理対象であるＭＢを前景ＭＢにする。背景生成部３０は、ステップＳ３４でＭＶＰが所定値より小さいと判定したら（Ｙｅｓ）、ステップＳ３８として、処理対象であるＭＢを背景ＭＢにする。

背景生成部３０は、ステップＳ３０でインターＭＢではないと判定したら（Ｎｏ）、又は、ステップＳ３２でＳｋｉｐモードではないと判定したら（Ｎｏ）、ステップＳ４０として、前背景ＭＢ判断サブルーチンを実行する。

図７は、前背景ＭＢ判断サブルーチンの処理を示すフローチャートである。Ｈ．２６４／ＡＶＣ等の圧縮技術では、空間特性におけるイントラモードと時間特性におけるインターモードが含まれている。ビデオ会議への応用について、イントラモードはイントラ１６ｘ１６（Ｉ１６ＭＢ）とイントラ４ｘ４（Ｉ４ＭＢ）とが使われ、インターモードはＳｋｉｐモード、インター１６ｘ１６からイントラ４ｘ４までの７つの非Ｓｋｉｐモードが使われている。符号化プロセスのエントロピーコーディング前に、トランスフォームと量子化が順番に行われる。トランスフォームは４ｘ４単位で実行して、１つのＭＢは１６個の４ｘ４ブロックに分けている。トランスフォームした４ｘ４ブロックは、左上の値が直流（ＤＣ）係数で、残った部分が交流（ＡＣ）係数としている。トランスフォームした４ｘ４ブロックは量子化して、ＣＡＶＬＣ（Context Adaptive Variable Length Coding）のようなエントロピーツールでエントロピーコーディングを実行してビットストリームができあがる。特には、Ｉ１６ＭＢはトランスフォームした１６個の４ｘ４ブロックのＤＣ係数を抽出されて、独立の４ｘ４サイズのＤＣブロックになって、符号化処理を実行される。前背景ＭＢ判断サブルーチンでは、このＩ１６ＭＢのＤＣブロックの係数（以下、Ｉ１６ＭＢ＿ＤＣ＿ＴＣｏｅｆｆという。）をチェックする。

図７を参照すると、背景生成部３０は、ステップＳ５０として、処理対象ＭＢがＩ１６ＭＢであるか否かを判定する。背景生成部３０は、ステップＳ５０で処理対象ＭＢがＩ１６ＭＢであると判定したら（Ｙｅｓ）、ステップＳ５２として、Ｉ１６ＭＢ＿ＤＣ＿ＴＣｏｅｆｆがゼロであるか否かを判定する。背景生成部３０は、ステップＳ５２でＩ１６ＭＢ＿ＤＣ＿ＴＣｏｅｆｆがゼロであると判定したら（Ｙｅｓ）、ステップＳ５６として、処理対象ＭＢを背景ＭＢにする。

背景生成部３０は、ステップＳ５０で処理対象ＭＢがＩ１６ＭＢではないと判定したら（Ｎｏ）、ステップＳ５４として、処理対象ＭＢがＩ４ＭＢであるか否かを判定する。背景生成部３０は、ステップＳ５２でＩ１６ＭＢ＿ＤＣ＿ＴＣｏｅｆｆがゼロではないと判定したら（Ｎｏ）、又は、ステップＳ５４で処理対象ＭＢがＩ４ＭＢであると判定したら（Ｙｅｓ）、ステップＳ５８として、処理対象ＭＢを前景ＭＢにする。

背景生成部３０は、ステップＳ５４で処理対象ＭＢがＩ４ＭＢではないと判定したら（Ｎｏ）、ステップＳ６０として、ＭＢモードが３より大きいか否かを判定する。インターＭＢとしては、モード１は１６ｘ１６モード、モード２は１６ｘ８モード、モード３は８ｘ１６モードである。モード３以降は８ｘ８モードから４ｘ４モードまで更に小さいモードに分かれていく。一般に、運動が複雑なら、モードが小さくなるということが知られている。そこで、本実施の形態では、処理対象ＭＢがインターＭＢなら、そのＭＢのモードとＴＣｏｅｆｆ情報をチェックする。

背景生成部３０は、ステップＳ６０でＭＢモードが３より大きくないと判定したら（Ｎｏ）、ステップＳ６２として、インターＭＢのＴＣｏｅｆｆはゼロであるか否かを判定する。背景生成部３０は、ステップＳ６２でインターＭＢのＴＣｏｅｆｆはゼロであると判定したら（Ｙｅｓ）、ステップＳ６４として、処理対象ＭＢを背景ＭＢにする。本実施の形態において、ＴＣｏｅｆｆは全部輝度のＴＣｏｅｆｆとしている。

背景生成部３０は、ステップＳ６０でＭＢモードが３より大きいと判定したら（Ｙｅｓ）、又は、ステップＳ６２でインターＭＢのＴＣｏｅｆｆはゼロではないと判定したら（Ｎｏ）、ステップＳ６６として、処理対象ＭＢを前景ＭＢにする。背景生成部３０は、以上の前背景ＭＢ判断サブルーチンを実行したら、図６のステップＳ４０にリターンする。

背景生成部３０は、例えば、ステップＳ３６、Ｓ３８、又は、Ｓ４０の実行により、各処理対象ＭＢの判定結果を表す一時背景マップ情報を生成する。すなわち、背景生成部３０は、例えば、背景ＭＢと判定した処理対象ＭＢに対して「０」、前景ＭＢと判定した処理対象ＭＢに対して「１」を設定した一時背景マップ情報を生成する。

再び図６を参照すると、背景生成部３０は、ステップＳ３６、Ｓ３８、又は、Ｓ４０を実行したら、ステップＳ４２として、フレームが終了したか否かを判定する。背景生成部３０は、ステップＳ４２でフレームが終了していないと判定したら（Ｎｏ）、処理をステップＳ３０に進める。

背景生成部３０は、ステップＳ４２でフレームが終了したと判定したら（Ｙｅｓ）、ステップＳ４４として、背景マップ情報（一時背景マップ情報Ｓ１８）の修正を行う。先に説明した前背景ＭＢ判断サブルーチン（図７参照）では、ＭＢ単位で１フレームの背景と前景を判定した。通常、ビデオ会議を行うときに画面中の人物は前景としてフレームに連続ＭＢ空間を占めている。しかし、ＭＢモードとＴＣｏｅｆｆ情報での前背景ＭＢ判断はビデオ会議の前景連続性を必ず守るわけではない。また、カメラ撮影するときのノイズのため、背景の部分が前景になってしまう可能性もある。そのため、本実施の形態では、３つのケースに対して背景マップ情報の修正を行う。

図８−１〜図８−３は、背景マップ情報の修正を行う３つのケースを示す図である。まず図８−１を参照すると、これはノイズ防止向けの背景マップ情報の修正を示している。或る前景ＭＢ１０１があり、その周囲の８個のＭＢが全て背景ＭＢである場合、背景生成部３０は、前景ＭＢ１０１を背景ＭＢに修正する。

次に図８−２を参照すると、これはビデオ会議の行内連続性向けの背景マップ情報の修正を示している。或る１行の中に前景ＭＢ１１１、背景ＭＢ１１２、背景ＭＢ１１３、前景ＭＢ１１４、前景ＭＢ１１５、背景ＭＢ１１６、前景ＭＢ１１７が順に位置している場合、背景生成部３０は、最も先頭の前景ＭＢ１１１から最も後の前景ＭＢ１１７までを全て前景ＭＢに修正する。つまり、背景生成部３０は、背景ＭＢ１１２、背景ＭＢ１１３、背景ＭＢ１１６を前景ＭＢに修正する。

次に図８−３を参照すると、これはビデオ会議の行間連続性向けの背景マップ情報の修正を示している。背景生成部３０は、或る１行の中のＭＢが全て背景ＭＢなら、当該行の上の行と下の行をチェックする。そして、背景生成部３０は、当該行の上の行と下の行に前景ＭＢが存在すれば、当該行の一部を前景ＭＢに変更する。その場合、当該行の前景ＭＢの開始位置は、当該行の上の行の前景ＭＢの開始位置と当該行の下の行の前景ＭＢの開始位置との平均にする。同様に、当該行の前景ＭＢの終了位置は、当該行の上の行の前景ＭＢの終了位置と当該行の下の行の前景ＭＢの終了位置との平均にする。図８−３では、第２行目の中のＭＢが全て背景ＭＢである。そして、第１行目及び第３行目の中には前景ＭＢが存在する。そのため、背景生成部３０は、第２行目の中のＭＢの一部を前景ＭＢに修正する。具体的には、第１行目の第４列のＭＢ１２１〜第１０列のＭＢ１２７が前景ＭＢであり、第３行目の第２列のＭＢ１４１〜第８列のＭＢ１４７が前景ＭＢである。そこで、背景生成部３０は、第２行目の第３列のＭＢ１３１〜第９列のＭＢ１３７を前景ＭＢに修正する。背景生成部３０は、以上で図６の処理を終了する。

図９は、ビデオ会議システム２０の全体の処理を示すフローチャートである。まず、端末Ａ２１及び端末Ｂ２４は、ステップＳ２００として、会議画面を撮影し、次いでステップＳ２０２として、撮影された映像をエンコーダ２１ａ、２４ａを利用して符号化する。次に、端末Ａ２１及び端末Ｂ２４は、ステップＳ２０４として、符号化されたストリームをサーバ２７に送信する。なお、この際、端末Ａ２１及び端末Ｂ２４は、端末側で表示したい画面構成スペック（フォーマット）を一緒にサーバ２７に送信しても良い。上記ステップＳ２００〜ステップＳ２０４は、端末Ａ２１及び端末Ｂ２４で実行される。

次に、サーバ２７は、ステップＳ２０６として、入力ビットストリームのシンタックスをシンタックス解析部２８ａで解析し、次いでステップＳ２０８として、解析された情報の一部を抽出する。解析された情報の一部とは、例えば、復号化用のＭＢモード、ＭＶＰ、および、非零係数の数等の情報Ｓ１５である。次に、サーバ２７は、ステップＳ２１０として、抽出された情報と背景情報バッファ３１に保存された背景マップ情報とを利用して、入力フレームの背景マップ情報を背景生成部３０で生成する。次に、サーバ２７は、ステップＳ２１２として、生成された背景マップ情報を背景情報バッファ３１に保存する。

次に、サーバ２７は、ステップＳ２１４として、フレームの回復が完了したか否かを判定する。サーバ２７は、ステップＳ２１４でフレームの回復が完了していないと判定したら（Ｎｏ）、ステップＳ２１６として、現在のＭＢが背景ＭＢであるか否かを判定する。サーバ２７は、ステップＳ２１６で現在のＭＢが背景ＭＢであると判定したら（Ｙｅｓ）、ステップＳ２１８として、デコーダフレームバッファ２９を利用して、アダプティブに画素回復を実行する。例えば、画素回復部２８ｂは、デコーダフレームバッファ２９に保存された前フレームの対応するＭＢの情報Ｓ１４を、現在のＭＢの情報として画素を回復する。すなわち、画素回復部２８ｂは、ビットストリームから復号化用の動きベクトルや予測モード等を算出する処理、および、残差を取得するための逆トランスフォームや逆量子化等の計算処理を全部省略させる。一方、サーバ２７は、ステップＳ２１６で現在のＭＢが背景ＭＢではないと判定したら（Ｎｏ）、ステップＳ２２０として、通常の画素回復を実行する。

サーバ２７は、ステップＳ２１４でフレームの回復が完了したと判定したら（Ｙｅｓ）、ステップＳ２２２として、端末Ａ２１からの画像と端末Ｂ２４からの画像とを合成する。次に、サーバ２７は、ステップＳ２２４として、合成された画像の符号化が完了したか否かを判定する。サーバ２７は、ステップＳ２２４で合成された画像の符号化が完了していないと判定したら（Ｎｏ）、ステップＳ２２６として、現在のＭＢが背景ＭＢであるか否かを判定する。サーバ２７は、ステップＳ２２６で現在のＭＢが背景ＭＢであると判定したら（Ｙｅｓ）、ステップＳ２２８として、現在のＭＢを符号化せずスキップする。一方、サーバ２７は、ステップＳ２２６で現在のＭＢが背景ＭＢではないと判定したら（Ｎｏ）、ステップＳ２３０として、現在のＭＢに通常の符号化を実行する。

サーバ２７は、ステップＳ２２４で合成された画像の符号化が完了したと判定したら（Ｙｅｓ）、ステップＳ２３２として、合成して符号化したビットストリームと背景マップ情報を端末Ａ２１及び端末Ｂ２４に送信する。上記ステップＳ２０６〜ステップＳ２３２は、サーバ２７で実行される。

端末Ａ２１及び端末Ｂ２４は、ステップＳ２３４として、合成されたフレームの回復が完了したか否かを判定する。端末Ａ２１及び端末Ｂ２４は、ステップＳ２３４で合成されたフレームの回復が完了していないと判定したら（Ｎｏ）、ステップＳ２３６として、現在のＭＢが背景ＭＢであるか否かを判定する。端末Ａ２１及び端末Ｂ２４は、ステップＳ２３６で現在のＭＢが背景ＭＢであると判定したら（Ｙｅｓ）、ステップＳ２３８として、受信したビットストリームの背景マップ情報を参考にし、それぞれコーデックフレームバッファ２１ｂ及び２４ｂに保存された前フレームの情報を利用して、現在のＭＢをアダプティブに復号化する。例えば、端末Ａ２１及び端末Ｂ２４は、コーデックフレームバッファ２１ｂ及び２４ｂに保存された前フレームの対応するＭＢの情報を、現在のＭＢの情報として復号化する。すなわち、端末Ａ２１及び端末Ｂ２４は、ビットストリームから復号化用の動きベクトルや予測モード等を算出する処理、および、残差を取得するための逆トランスフォームや逆量子化等の計算処理を全部省略させる。一方、端末Ａ２１及び端末Ｂ２４は、ステップＳ２３６で現在のＭＢが背景ＭＢではないと判定したら（Ｎｏ）、ステップＳ２４０として、現在のＭＢに通常の画素回復を実行する。端末Ａ２１及び端末Ｂ２４は、ステップＳ２３４で合成されたフレームの回復が完了したと判定したら（Ｙｅｓ）、処理を終了する。上記ステップＳ２３４〜ステップＳ２４０は、端末Ａ２１及び端末Ｂ２４で実行される。

以上説明したように、本実施の形態によれば、背景ＭＢに対しては、符号化及び復号化を行わず、バッファに保存された前フレームの情報を利用することで、端末Ａ２１及び端末Ｂ２４の状況と映像の特徴が考慮されているので、端末Ａ２１及び端末Ｂ２４及びサーバ２７の処理負荷を軽減するとともに消費電力を低減することができる。

一般に、ビデオ会議画面の作成として、サーバは各端末からのストリームを復号化し、ピクセルレベルで映像を合成して、合成した結果の画像を符号化して、各端末に送信する。これにより、高品質の合成画面を提供することができるが、これではビデオ会議システムの特徴が考慮されていない。ビデオ会議の進行時には、会議用のカメラが長時間固定され、被写体にスポーツのような大きい動きが少なく、背景の部分が多い。よって、各入力画面の背景を軽い処理で検知できれば、システム全体の処理負荷の低減及び消費電力の低減ができる。Ｈ．２６４／ＡＶＣやＨ．２６４／ＳＶＣ等の圧縮標準では、符号化情報はシンタックスとしてビットストリームに保存されている。これらのシンタックスの値は上述したビデオ会議の特徴と関連しているので、サーバ側で復号化するときに解析されたシンタックス情報を利用して画面の前景と背景の情報を低負荷で検知することができる。本実施の形態では、サーバ２７で復号化するときに解析されたシンタックス情報を利用してフレームの前景と背景を低負荷で検知する。検知された情報を参考にして、サーバ２７のデコーダ２７ａ、２７ｂや端末Ａ２１のデコーダ２１ｃや端末Ｂ２４のデコーダ２４ｃにおいて、背景の部分を処理せずに、バッファされたデータを活用しているので、端末Ａ２１及び端末Ｂ２４及びサーバ２７の処理負荷を軽減するとともに消費電力を低減することができる。

本実施の形態のサーバ２７は、ＣＰＵなどの制御装置と、ＲＯＭ（Read Only Memory）やＲＡＭなどの記憶装置と、ＨＤＤ、ＣＤドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置を備えており、通常のコンピュータを利用したハードウェア構成となっている。本実施の形態のサーバ２７で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録されて提供される。また、本実施の形態のサーバ２７で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施の形態のサーバ２７で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。また、本実施の形態のプログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

本実施の形態のサーバ２７で実行されるプログラムは、上述した各部（デコーダ２７ａ、２７ｂ、画像合成部２７ｃ、エンコーダ２７ｄ、２７ｅ）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ（プロセッサ）が上記記憶媒体からプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、デコーダ２７ａ、２７ｂ、画像合成部２７ｃ、エンコーダ２７ｄ、２７ｅが主記憶装置上に生成されるようになっている。

１、４、２１、２４端末
２、５、２２、２５カメラ
３、６、２３、２６ディスプレイ
７、２７サーバ
２０ビデオ会議システム
２１ａ、２４ａ、２７ｄ、２７ｅエンコーダ
２１ｃ、２４ｃ、２７ａ、２７ｂデコーダ
２７ｃ画像合成部
２８画像回復部
２８ａシンタックス解析部
２８ｂ画素回復部
２９デコーダフレームバッファ
３０背景生成部
３１背景情報バッファ

特表２００９−５２１８８０号公報

Claims

画像処理端末から受信した映像ストリームをシンタックス解析するシンタックス解析手段と、
前記シンタックス解析手段による前記映像ストリームのシンタックス解析結果を用いて、映像フレームの前景と背景を判定し、判定結果を表す背景マップ情報を生成する背景生成手段と、
前記シンタックス解析手段による前記映像ストリームのシンタックス解析結果及び前記背景マップ情報を用いて、前記映像フレームの画素を回復する画素回復手段と、
前記背景マップ情報を前記画像処理端末に送信する送信手段と、
を備えたことを特徴とする画像処理サーバ。
前記画素回復手段は、前記背景マップ情報に従ってデコード方法を切り換えて、前記シンタックス解析結果及び前記背景マップ情報を用いて前記映像フレームの画素を回復すること、
を特徴とする請求項１に記載の画像処理サーバ。
前記画素回復手段は、前記背景マップ情報に従って、前記映像フレームの背景と判定された部分の画素を、該映像フレームの前の映像フレームの画素により回復すること、
を特徴とする請求項２に記載の画像処理サーバ。
入力情報として複数の画像を合成した合成画像と前記背景マップ情報を受け取り、前記背景マップ情報に従って、エンコード方法を切り換えて前記合成画像のエンコードを行うエンコーダ手段をさらに備えること、
を特徴とする請求項１に記載の画像処理サーバ。
画像処理端末から受信した映像ストリームをシンタックス解析するシンタックス解析手段と、前記シンタックス解析手段による前記映像ストリームのシンタックス解析結果を用いて、映像フレームの前景と背景を判定し、判定結果を表す背景マップ情報を生成する背景生成手段と、前記シンタックス解析手段による前記映像ストリームのシンタックス解析結果及び前記背景マップ情報を用いて、前記映像フレームの画素を回復する画素回復手段と、前記背景マップ情報を前記画像処理端末に送信する送信手段と、入力情報として複数の画像を合成した合成画像と前記背景マップ情報を受け取り、前記背景マップ情報に従って、エンコード方法を切り換えて前記合成画像のエンコードを行うエンコーダ手段と、を備えた画像処理サーバから前記背景マップ情報を受信する背景マップ情報受信手段と、
前記背景マップ情報に従ってデコード方法を切り換えて、前記画像処理サーバによってエンコードされた映像ストリームを受信してデコードするデコーダ手段と、
を備えること
を特徴とする画像処理端末。
画像処理サーバと、画像処理端末とを備えるビデオ会議システムであって、
前記画像処理サーバは、
画像処理端末から受信した映像ストリームをシンタックス解析するシンタックス解析手段と、
前記シンタックス解析手段による前記映像ストリームのシンタックス解析結果を用いて、映像フレームの前景と背景を判定し、判定結果を表す背景マップ情報を生成する背景生成手段と、
前記シンタックス解析手段による前記映像ストリームのシンタックス解析結果及び前記背景マップ情報を用いて、前記映像フレームの画素を回復する画素回復手段と、
前記背景マップ情報を前記画像処理端末に送信する送信手段と、
入力情報として複数の画像を合成した合成画像と前記背景マップ情報を受け取り、前記背景マップ情報に従って、エンコード方法を切り換えて前記合成画像のエンコードを行うエンコーダ手段と、
を備え、
前記画像処理端末は、
前記画像処理サーバから前記背景マップ情報を受信する背景マップ情報受信手段と、
前記背景マップ情報に従ってデコード方法を切り換えて、前記画像処理サーバによってエンコードされた映像ストリームを受信してデコードするデコーダ手段と、
を備えること
を特徴とするビデオ会議システム。