JP2007520973A

JP2007520973A - 携帯ネットワークを通した送信のための画像圧縮

Info

Publication number: JP2007520973A
Application number: JP2006552101A
Authority: JP
Inventors: カーマン、シェリフ
Original assignee: ソニーエリクソンモバイルコミュニケーションズ，エービー
Priority date: 2004-02-03
Filing date: 2004-10-05
Publication date: 2007-07-26
Also published as: WO2005084034A1; CN1914925A; CN1914925B; EP1747674A1; US20050169537A1

Abstract

携帯電話が送信する画像のビットレートを携帯電話が低減できるようにする方法およびその方法を実行するための装置である。この方法は、まず元の画像フレームの一部を除去し、画像フレーム内にデッドクラスターを発生する。次にこれらデッドクラスターをデータで満たし、元の画像フレームよりも少ないビットレートを有する新しい画像フレームを作成する。次に、新しい画像フレームが元の画像フレームを送信するのに必要であったよりも、送信中により狭いバンド幅ですむように、新しいバンド幅を狭くする。

Description

（背景）
現在の携帯無線システムは、マルチメディアサービスをよりサポートできるように変化している。特にほとんどの携帯デバイスには埋め込まれたカメラまたはカメラアクセサリーをプラグインし、これを使用できる能力がある。これによってビデオクリップおよび画像の交換、並びにリアルタイムのビデオ会議セッションを含む個人間のビデオ通信が可能となっている。しかしながら、現在の状態のセルラーネットワークは比較的高いデータレートを利用していないので、画質、機能およびその双方がかなり限られている。次世代ネットワークでも、より高いバンド幅は重要な資源に留まっており、この、より高いバンド幅を効率的に使用する技術が有効である。

（概要）
本発明は共通する、例えばかなり静止している背景を有する主題の画像またはビデオクリップのケースを解決するものである。かかるデータはマルチメディアメッセージ（ＭＭＳ）として送られる前に、またはビデオフォンセッション中はリアルタイムで通常（画像のためのＪＰＥＧ、すなわちＨ.２６３またはビデオクリップまたはビデオフォンビットストリームのためのＭＰＥＧ−４となるように）符号化される。本発明は画像データのための、結果として生じるビットストリームのビットレートを下げるために、現在のアルゴリズムのユニークで、かつ新規な組み合わせがどのように使用され得るかを示すものである。

この目的を達成するために、携帯電話は、プロセッサと、プロセッサで読み取り可能な記憶媒体と、プロセッサで読み取り可能な記憶媒体に記憶される符号とを含む。プロセッサで読み取り可能な記憶媒体に記憶される符号は、元の画像フレームの一部を除いて、画像フレーム内にデッドクラスターを作成するための符号を含む。次にこれらデッドクラスターは元の画像フレームよりも低いビットレートを有する新しい画像フレームを作成するためのデータで満たされる。次に、元の画像フレームが必要とするよりも、送信中のバンド幅が狭くてすむように、新しい画像フレームが符号化される。デッドクラスターを満たすのに使用されるデータは白色データでもよいし、黒色データでもよい。

受信機が送信された画像を再構成するのをアシストするために、送信側携帯電話は新しい画像フレームと共に元の画像フレームの除去された部分の表示をオプションとして含むことができる。

本方法は画像フレーム内の中心にある主要主題を含む画像に対して最良に機能する。したがって、本発明は元の画像フレームに対し、ビットレート低減ソフトウェアアプリケーションを実行する前に、元の画像内の中心に主題があるかどうかを自動的に検出するためのステップまたはプロセスを含む。中心に主題がある場合、携帯電話はビットレート低減ソフトウェアアプリケーションを自動的に実行する。元の画像フレーム内の中心に主題があるかどうかを自動的に判断するために、画像フレーム内のデータに対し、輪郭検出技術が使用される。

（詳細な説明）
図１は、代表的な携帯電話１１０の正面図である。この携帯電話１１０は本明細書では本発明の説明を助けるように示されている。図２は埋め込みカメラ２１０を備えるように示された代表的な携帯電話１１０の背面図である。カメラ２１０は静止画像を撮影することができ、ビデオクリップを記録することも可能である。次に、これら画像および／またはビデオクリップは他の携帯電話またはコンピュータ装置に送信できる。

ユーザーに対し、満足できる結果を提供することに対する主な技術的な障害は、画像が過度に乱れないよう、またはユーザーにとって過度に長い時間がかからないよう、ビデオ画像を送受信するために必要となるバンド幅にある。携帯電話ネットワーク、すなわち無線ネットワークはデータを交換する際にバンド幅が制限される。したがって、画像送信に関して改良することは多いに価値がある。バンド幅を最大にする共通する方法は、画質を過度に低下することなく、画像またはビデオをできるだけ圧縮することである。しかしながら、データ圧縮は識別できるようにしなければならない、そうしないと、ユーザーは、楽しむことができない程度までのデータの劣化を経験することになる。

図３は本発明の機能を示すブロック図である。埋め込まれたカメラ（またはカメラアタッチメント）２１０は、画像（静止画像またはビデオ画像）３５０を発生し、携帯電話１１０に常駐するビットレート低減ソフトウェアアプリケーション３４０へ画像を転送する。このビットレート低減ソフトウェアアプリケーションは３つのフェーズに分割される。最初の２つのフェーズは捕捉した画像の符号化および送信を扱い、第３のフェーズは前のフェーズにしたがって符号化された受信画像データのプレゼンテーションを扱う。このソフトウェアアプリケーションは記憶媒体３２０およびＲＦ部品３１０にアクセスし、これらを制御するプロセッサ３３０によって実行される。

フェーズ１（３５０）は対応しないエリアを除去するために符号化前に画像または捕捉したビデオストリームのフレームを予備的に処理することに関係する。このフェーズ１は背景を除去すること、および除去されたエリア（デッドクラスター）を適当なデータで満たすことを含む。デッドクラスターを適当なデータで満たすことにより、アップカミング符号化フェーズ中のバンド幅の効率化が可能となる。フェーズ２（３６０）は従来の技術を使ってデータを符号化することに関係し、これによって前のフェーズでデッドクラスター満たされたと仮定した場合、より効率的となることを証明できる。フェーズ３（３９０）は、除去されたエリアの影響を最小にする方法で送信データのプレゼンテーションをする。

埋め込みカメラ（または取り付け可能なカメラアクセサリー）を使って１つのフレームが捕捉されると、フレーム内の画像データに対して背景除去アルゴリズムが適用される。この背景除去アルゴリズムは当技術分野で周知のものであり、例えば１９９９年、イタリア、ユディンにおける、画像分析および処理に関する第１０回国際会議の論文“ＢａｃｋｇｒｏｕｎｄＲｅｍｏｖａｌｉｎＩｍａｇｅＩｎｄｅｘｉｎｇａｎｄＲｅｔｒｉｅｖａｌ”に記載されている。このアルゴリズムの結果、画像の背景に対応する、本明細書でＣＬ−リストと記載する一組のクラスターが得られる。画像のこの部分は別の携帯電話に送信するのに特に適したものではない。

一般に、画像符号化方式はブロックをベースとする。画像の符号化がブロック（例えばＪＰＥＧまたはＭＰＥＧ−４では８×８ブロック）をベースとする場合、ＣＬ−リストのクラスター内に含まれる８×８ブロックの最大の組が推定され、クラスターの新しいリスト（ＣＬ−リスト−Ｂ）が発生される。このことは、背景エリアのエッジにある部分的ブロックを検討しなくてもよいことを保証するものである。その理由は、これら部分ブロックは符号化アルゴリズムでは無視されるからである。この段階では、符号化アルゴリズムが使用するブロック形状に形状が適合する四角形のクラスターのリストが存在する。ここで、符号化アルゴリズムがブロックをベースとしない場合、ＣＬ−リストはそのままに維持される。

次のステップは、ＣＬ−リスト−Ｂに含まれるすべてのブロック（または元のＣＬ−リストのすべてのクラスター）を純白色のピクセルで満たすことである。フェーズ２で示されるように、これらすべて白色のエリアを最適に符号化する。このステップを「デッドクラスターの充満：ｄｅａｄｃｌｕｓｔｅｒｆｉｌｌｉｎｇ」と称す。現在では、すべての背景データを純白色データで置換した画像フレームの新しいバージョンが存在する。

ＪＰＥＧ、ＭＰＥＧ−１、ＭＰＥＧ−２、ＭＰＥＧ−４およびＨ.２６３のようなＤＣＴに基づく符号化アルゴリズムのケースでは、すべて黒色で満たされた部分が過度に作動することに留意すべきである。次のステップで分かるように、発生されたビットストリームが最適なエントロピーまたは演算符号化、すなわち連続的な冗長ビットをシュリンクする任意のビットをベースとする無損失符号化を可能にすることが最も重要である。

（静止画像に対し）ＪＰＥＧを使用し、または（クリップに対し）ＭＰＥＧ−またはＨ.２６３を使用して符号化を実行するとき、符号化のうちの離散的コサイン変換（ＤＣＴ）は、黒色、すなわち０にセットされたカラー成分しか含まないブロックとしてＣＬ−リスト−Ｂのすべての背景ブロックに遭遇する。従って、このブロックは変更されない。シリアル化すると、このブロックは圧縮アルゴリズムの最後の処理ステップとして、ＬｅｍｐｅｌＺｉｖＷｅｌｃｈ（ＬＺＷ）、ハフマンまたは算術的符号化方式を使用して最適に符号化される連続ゼロビットストリームを発生する。これによって０でないカラー成分を含むだけでなく、不連続的となりやすい（すなわち極めて少数の、接続されたカラーが一様な領域を含む、実際の背景と比較してかなりのビットストリームの低減を達成できる）。

符号化アルゴリズムの将来の展開を検討すると、すべてのリニア変換（例えばフーリエ変換）は０ベクトルに変換し、変換が非縮退的であるとき、それらの核は専ら０ベクトルに縮小される。このことは、通常高速フーリエ変換（ＦＦＴ）から推定されるＤＣＴのような離散的形態のケースである。従って、本発明の技術を使用し、任意の種類のリニアデジタルブロック変換により同じバンド幅の改良を得ることが可能である。

このアルゴリズムはフラクタル圧縮のようにブロックに基づかない非ＤＣＴをベースとする技術にも適用できる。フラクタル圧縮は、選択された基本形状（通常三角形）から構成されたメッシュとなるように画像をセグメント化する。この場合、フェーズ１はブロックではなく、これら形状を使って元のＣＬ−リストからＣＬ−リスト−Ｂを推定する。その後の符号化も最適な結果を生じさせる。その理由は、背景に含まれるすべての基本形状は自らアフィン変換に類似し、フラクタル圧縮原理で高度の圧縮を達成できるからである。

ＭＰＥＧ−４符号化または非四角形対象を使用する同様な技術の高度プロフィルを使用するときに、ブロックをベースとするケースの改良点を追加できる。かかるケースでは、画像内のクラスターを補足する非四角形対象（すなわちしゃべっている人の実際の輪郭）を自ら非四角形対象として視覚化し、符号化されたビットストリームから背景全体を剥離する（すなわちこのケースではデッドクラスターを満たすことは不要である）。

符号化を行うと、画像をすぐに送信できる状態となる。非四角形対象（不要の場合）を有する改善されたＭＰＥＧ−４のケースを除き、符号化されたデータと共にクラスターリストＣＬ−リスト−Ｂを送り、受信されたデータのより良好なプレゼンテーションが可能となるが、技術を使用するにはこのことは不要である。

この時点でデータはすぐに送信できる状態にある。送信技術は本明細書に説明する発明には適当ではなく、ビットサイズ、ビットレートを低減することによって（ＭＭＳのような）非同期送信モードおよび（ビデオフォンセッションのような）同期送信モードは利益を享受できる。この技術はビデオ電話または（ニュースキャスト、スピーチ、サンプル物品の広告などのような）前景の中心にあるオブジェクトクリップに対してより適すように見えるが、ＭＭＳの現在のバージョンのように送信されるデータサイズの上限の境界が定められている場合、（例えばＭＭＳによる）静止画像の送信も、サイズの低減から利益を享受できる。

送信の他方の端部で画像データが受信されると、復号されたときの各フレーム（または静止画像である場合には単一フレーム）は、純白色に設定された除去された背景を有する対応するデータしか含んでいない（または高度ＭＰＥＧ−４プロフィルのケースでは、背景を全く含まない）。この時点で各画像に対応するＣＬ−リスト−Ｂを送ることもできるし、送らなくてもよい。ＣＬ−リスト−Ｂは比較的小さく、大きな四角形のエリアのリストしか記述しないので、送信バンド幅に極めて低いオーバーヘッドしかもたらさない。特にこのオーバーヘッドは背景を除去することによって得られるゲインと比較して極めて小さい。

携帯ユーザーに受信された画像のプレゼンテーションをするためのオプションは多数存在する。本明細書では数種のオプションについて説明する。最初の最も簡単なオプションは、まさに受信した画像フレームを提供すること、すなわち純白色背景を有する画像フレームを提供するか、または携帯電話により適した無地色（または無地のテクスチャー）となるように背景を置換することである。この背景は受信携帯電話デバイスに記憶された所定の組となるように背景に置き換えてもよい。ユーザーはテーマが定められた背景のリストから選択するオプションを有することができる。別のオプションは、純白色の背景を透明なカラーと見なし、受信したフレームと現在の携帯電話の背景とをアルファブレンドすることである。または背景がビューエリアのノイズレベルに適合するように、背景に人工的なノイズパターンを追加してもよい。例えば可視エリアの信号対ノイズ比（ＳＮＲ）を選択し、その特定のＳＮＲに適合するよう、（ぼかしアルゴリズムのような）人工ノイズパターンを適用できる。更に別のオプションは、背景を除くことにより、画像の対応する部分のエッジで生じるブロッキング効果を防止するために、フレーム前景のエッジをスムーズにするか、またはぼかすことである。別の可能性は、前景上で輪郭検出を行うことである。しゃべっている人物の輪郭を越えるエリアを除くか、またはスムーズ化するか、ぼかすか、または背景と融合することができる。スムーズ化はメジアンフィルタを使って実行できる。輪郭検出は、古典的なカニアルゴリズムまたはシェン−キャスタン（Ｓｈｅｎ−Ｃａｓｔａｎ）を使って実行できる。ぼかしは小さいパッチにゼロ平均ガウスノイズを使用することにより達成でき、このガウスノイズのレベルは予め決定した値に容易に設定でき（ＳＮＲはガウス偏差に関連する）、すべてのパッチでこのプロセスを繰り返す。

上記オプションでは、ユーザーが良好な視界を経験できるようにするために、これら技術のうちの１つ以上を組み合わせることができる。すべてのオプションは複雑さが異なり、異なるレベルの視覚上の画質を発生する。関連する妥協は、製品の設計上の事項である。

比較的静止した背景に対してメインオブジェクトが中心のフレームとなっている場合、本発明の効果が高くなる。ソフトウェアアプリケーション内のマン／マシンインターフェース（ＭＭＩ）機能は、この設定時に限り効率的な圧縮を起動することをユーザーに明らかに求めることができる。この技術の改善はフェーズワンに先立つフェーズ０を含み、このことは、このユーザーのケースのオプションを自動的に検出し、従って必要なときにアルゴリズムを自動的に起動する手段を記述する。

本発明は無線ネットワークを通して送信するために、携帯電話ユーザーに対して作成されたニュースキャストで使用できることにも留意されたい。この場合、ニュースキャストの編集者はニュースアンカーが視聴者に話しかけるときに、明らかにこの機能を起動し、その他の場面が含まれるときにはこの機能を不能にできる。このケースでは、フェーズ０は不要である。

フェーズ０の目的は、画像を補足したカメラの中心に前景オブジェクトが存在するような低速移動クリップのケースを自動的に判断することである。このことは主にビデオフォンセッションのケースまたはニュースキャストスピーチのケースに対応する。比較的静止している背景および当該中心にあるオブジェクト（例えば比較的静止した自動車）がある他のケースも、この技術から利点を享受できる。

フレーム内の中心に主題が存在するかどうかを検出するために、本発明は輪郭検出アルゴリズムを使用する。画像内の中心にある最もマッシブな形状（例えば最大の慣性を有する形状）が存在し、背景の近くの形状の慣性が小さい場合、画像フレーム内の中心にオブジェクトが存在する。例えばカニアンドドレッチェ演算子またはシェンアンドキャスタン演算子のような技術を使用して輪郭検出を行うことができる。当技術分野で周知のその他の輪郭検出技術も同じように使用できる。

フェーズ０の改善は携帯電話のより低い処理パワーに適合できる。これまで説明した検出アルゴリズムは、各フレームに対してではなく、必要なときに間欠的に起動される。携帯電話はユーザーがセッションをオープンした時に、最初のフレームで検出を起動する。第１結果に応じて、背景の除去を行う状態（ステートＡ）となったり、または除去を行わない状態（ステートＢ）となったりする。

その後のフレームに対して同じステートを維持するが、各フレームに対して前のフレームとの差を計算する。この差がソフトウェアアプリケーションを構築したときにエンジアリングテストによって設定した所定のスレッショルドを下回る場合、同じステートを示す同様な動きレベルを処理するものとしてこれらフレームをみなす。従って、初期ステートＡまたはＢを維持する。

このスレッショルドが動き内のギャップを示す所定の値よりも上であると、ユーザーは（景色を記録するような）別の記録モードに切り替えることができたはずである。従って、別のステートへの切り換えが必要であるかどうかを判断するために再び検出アルゴリズムを作動させる。この結果、ケースに応じて背景除去モードを起動したり、または除勢することになる。

フェーズ０へのこのような改善状態の元で動きレベルギャップが認識されたときに限り、検出アルゴリズムを起動する。画像間の動きレベルを検出する他の技術も同じように使用できることに留意されたい。本発明で使用する技術（フレーム差スレッショルド）は実現の可能性を実証するだけである。本発明はこのような技術だけに限定されるものではない。

これまでの説明は、圧縮し、符号化し、送信すべき画像は埋め込みカメラまたは取り付けカメラから携帯電話に取得したものと見なしている。最も共通する状況が生じる間、本発明は携帯電話に関連するカメラによって捕捉された画像に対する操作だけに限定されるものではない。携帯電話において、作成された、または他のソースから取得された画像および／またはビデオクリップは、本発明の技術を容易に活用できる。ＲＦ接続、例えばブルートゥース（商標）または赤外線接続を使ってパソコンと直接データを交換することは、多くの携帯電話で可能なことである。これら機構によって携帯電話のユーザーは携帯電話ネットワークを使うことなく、別の計算デバイスと、テキスト、ビデオ、画像および／またはオーディオを交換することができる。

携帯電話ユーザーが上記機構のうちの１つを使って自分のパソコンから自分の携帯電話に画像を送ったり、ＭＭＳメッセージ内の画像が別の携帯電話に含まれるようにすることは一般的なことである。このシナリオでは、画像のＭＭＳ送信をするのに、本発明の技術を容易に使用し、ＭＭＳ送信のバンド幅条件を狭くすることができる。

本発明のコンピュータプログラム要素がハードウェアおよび／または（ファームウェア、常駐ソフトウェア、マイクロコードなどを含む）ソフトウェアで具現化できる。本発明はコンピュータプログラム製品の形態をとることができ、このコンピュータプログラム製品は、命令実行システムにより使用するよう、またはこの命令実行システムに関連し、メディア内で具現化される、コンピュータで使用可能な、またはコンピュータによって読み取り可能なプログラム命令、「符号」または「コンピュータプログラム」を有するコンピュータで使用可能な、またはコンピュータで読み取り可能な記憶媒体によって具現化できる。本明細書に関連し、コンピュータで使用可能な媒体またはコンピュータで読み取り可能な媒体は、命令実行システム、装置またはデバイスによって使用するための、またはこれらシステム、装置またはデバイスに関連して使用するためのプログラムを含み、記憶し、伝送し、伝搬させ、またはトランスポートすることができる任意の媒体でよい。コンピュータで使用可能な媒体またはコンピュータで読み取り可能な媒体とは、例えば電子、磁気、光、電磁気、赤外線または半導体システム、装置、デバイスまたはインターネットのような伝搬媒体でよいが、これらだけに限定されるものではない。コンピュータで使用可能な媒体またはコンピュータで読み取り可能な媒体は、紙またはその他の媒体を光学的に操作することにより、プログラムを電子的に捕捉し、編集し、解読し、またはその他の方法で適当な態様で処理できれば、プログラムがプリントされた紙またはその他の適当な媒体でもよいことに留意されたい。本明細書に説明したコンピュータプログラム製品およびソフトウェア並びにハードウェアは、実施例において本発明の機能を実行するための種々の手段を形成する。

本明細書に、本発明の特定の実施例について開示したが、当業者であれば本発明は他の環境でも別の用途を有し得ることが容易に認識できよう。実際に多くの実施例および実現例が可能である。特許請求の範囲は本発明の範囲を、これまで説明した特定の実施例だけに限定するものではなく、実際に「〜をするための手段」なる記載は、要素および請求項の手段プラス機能（means-plus-function）を記述するものであるが、特に「〜をするための手段」なる記載を特に使用しない要素は、別段請求の範囲が「手段」なる用語を含んでも手段プラス機能要素として解釈すべきではない。

代表的な携帯電話の正面図である。埋め込みカメラを有するように示された代表的な携帯電話の背面図である。本発明の部品および機能を示すブロック図である。

Claims

携帯電話が送信すべき画像のビットフレームを携帯電話が低減できるようにする方法において、
元の画像フレームの一部を除去し（３６０）、画像フレーム内にデッドクラスターを作成するステップと、
前記画像フレームの前記除去された部分の前記デッドクラスターをデータで満たし（３６０）、元の画像フレームよりも少ないビットレートを有する新しい画像フレームを作成するステップと、
新しい画像フレームが、元の画像フレームが必要としたよりも送信中に少ないバンド幅ですむように、新しい画像フレームを符号化する（３７０）ステップとを備えた方法。
前記デッドクラスターを満たすのに使用されるデータが白色データである、請求項１記載の方法。
前記デッドクラスターを満たすのに使用されるデータが黒色データである、請求項１記載の方法。
前記元の画像フレームの前記除去された部分を前記新しい画像フレームの送信中に前記新しい画像フレームと共にプレセンテーションし、受信した画像フレーム内に新しい画像フレームフレームを一体化することにより新しい画像フレームフレームを受信機で利用し受信した画像フレームのプレゼンテーションを改善するためのステップを更に含む、請求項１記載の方法。
前記元の画像フレームに対するビットレート低減ソフトウェアアプリケーションを実行する（３４０）前に元の画像フレーム内の中心に主題があるかどうか自動的に判断するステップと、
前記画像フレーム内の中心に主要オブジェクトがあると前記元の画像が判断された場合にビットレート低減ソフトウェアアプリケーションを実行する（３４０）ステップとを更に備えた、請求項７記載の方法。
前記画像フレーム内のデータに対して使用される輪郭検出技術を使用して前記元の画像フレーム内の中心に主題があるかどうかを自動的に判断する前記ステップを実行する、請求項５記載の方法。
携帯電話が送信すべき画像のビットフレームを携帯電話が低減できるようにする装置において、
元の画像フレームの一部を除去し（３６０）、画像フレーム内にデッドクラスターを作成するため手段と、
前記画像フレームの前記除去された部分の前記デッドクラスターをデータで満たし（３６０）、元の画像フレームよりも少ないビットレートを有する新しい画像フレームを作成するため手段と、
新しい画像フレームが、元の画像フレームが必要としたよりも送信中に少ないバンド幅ですむように、新しい画像フレームを符号化する（３７０）ための手段とを備えた装置。
前記デッドクラスターを満たすのに使用されるデータが白色データである、請求項７記載の装置。
前記デッドクラスターを満たすのに使用されるデータが黒色データである、請求項７記載の装置。
前記元の画像フレームの前記除去された部分を前記新しい画像フレームの送信中に前記新しい画像フレームと共にプレセンテーションし、受信した画像フレーム内に新しい画像フレームフレームを一体化することにより新しい画像フレームフレームを受信機で利用し、受信した画像フレームのプレゼンテーションを改善するための手段を更に含む、請求項７記載の装置。
前記元の画像フレームに対するビットレート低減ソフトウェアアプリケーションを実行する（３４０）前に元の画像フレーム内の中心に主題があるかどうか自動的に判断する手段と、
前記画像フレーム内の中心に主要オブジェクトがあると前記元の画像が判断された場合にビットレート低減ソフトウェアアプリケーションを実行する（３４０）ための手段を更に備えた、請求項７記載の装置。
前記画像フレーム内のデータに対して使用される輪郭検出技術を使用して前記元の画像フレーム内の中心に主題があるかどうかを自動的に判断することを実行する、請求項１１記載の装置。