JP2009501476A

JP2009501476A - ビデオ時間アップコンバージョンを用いた処理方法及び装置

Info

Publication number: JP2009501476A
Application number: JP2008521006A
Authority: JP
Inventors: ハルムベルト
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2005-07-13
Filing date: 2006-07-07
Publication date: 2009-01-15
Also published as: US20100060783A1; EP1905243A1; RU2008105303A; CN101223786A; KR20080031408A; WO2007007257A1

Abstract

本発明は、ビデオアプリケーションにおけるディジタル画像の視覚的な改善のための改善された方法及び装置を提供する。とりわけ本発明は、ビデオ会議通話の間の改善された知覚品質及び状況認識を達成するため、ビジュアル画面上の１以上の参加者の視覚的強調又は参加者の群のなかで発話している人物の視覚的強調に後続される、顔又は人物を見出すための多様式場面解析に関する。前記解析は、セグメント化モジュール２２により実行され、少なくとも１つの関心領域ＲＯＩ及び非関心領域ＲＯＮＩを定義することを可能とする。

Description

本発明は、ビジュアル通信システムに関し、特に本発明は、ビジュアル画像の改善された品質のための、ビデオ電話システムにおける時間アップコンバージョンを提供するための方法及び装置に関する。

一般に、ビデオ品質は、ビデオ電話アプリケーションの世界的な採用のための重要な特性である。ユーザの状況認識及び従ってビデオ通話の知覚される品質を改善するため、ビデオ電話システムがエンドユーザに対して相手側の状況を可能な限り正確に与えることが、極めて重要である。

ビデオ会議システムは、何年も前に最初に導入されて以来かなりの注目を集めてきたが、極めて人気のあるものとはなっておらず、これらシステムの幅広い進歩は未だない。このことは一般に、低解像度、むらのある画像及び長い遅延といった、許容できないほど低いビデオ及びオーディオ通信の品質に導く、通信帯域の不十分な利用可能性によるものであった。

しかしながら、十分な通信帯域を提供することが可能な最近の技術革新が、ますます多くのエンドユーザにとって、広く利用可能となっている。更に、ディスプレイ、カメラ、マイクロフォン、及びスピーカを組み込まれたＰＣやモバイル装置等のような強力なコンピュータシステムの利用可能性が、急速に増大している。前述した理由により、ビデオ会議方法のオーディオビジュアル品質が、要求の厳しい市場において最も重要な差別要因の１つとなるため、消費者向けビデオ会議システムの使用及び適用において進歩及び高い品質の期待が予想され得る。

一般的に言えば、ビデオ会議画像を改善するための多くの従来のアルゴリズム及び手法が、提案され実装されてきた。例えば、ビデオのエンコード効率を改善するため、種々の効率的なビデオエンコード手法が適用されてきた。とりわけ、斯かる提案（例えばS. Dalyらによる「Face-Based Visually-Optimized Image Sequence Coding」, 0-8186-8821-1/98、443-447頁、IEEE）は、関心領域（region of interest、ＲＯＩ）及び非関心領域（region of no interest、ＲＯＮＩ）の選択に基づいてビデオエンコード効率を改善することを目的とする。具体的には、該提案されるエンコードは、殆どのビットがＲＯＩに割り当てられ、少ないビットがＲＯＮＩに割り当てられるように実行される。従って、全体のビットレートは一定のままであるが、デコードの後、ＲＯＩ画像の品質はＲＯＮＩにおける画像の品質よりも高い。Boberらによる米国特許出願公開US2004/0070666A1のような他の手法は、ビデオエンコードが適用される前に、重要でない背景画像部分が伝送されないようにディジタル手段によってカメラの視界における人物がズームインされるような高度なズーム手法を、主に提案する。換言すれば、該方法は、各捕捉された画像の選択された関心領域のみをコーディングすることにより、画像を送信する。

しかしながら、上述した従来の手法は、幾つかの要因により、しばしば満足なものとならない。ビデオ通信システムの伝送における画質に対する悪影響に対処するための更なる処理又は解析は、捕捉された画像に対して実行されない。更に、改善されたコーディング方式は、許容可能な結果を与え得るものの、全てのコーディング方式に対して全面的に独立して適用されることができず、斯かる手法は、特性のビデオエンコード及びデコード手法が最初に実装されることを必要とする。また、これらの手法はいずれも、ビデオ会議通話の低い状況認識及び低い知覚品質という問題に適切に対処しない。

従って、本発明の目的は、上述の問題に対処し、コスト効率が高く、実装が容易な、画質改善に効率的に対応する、新たな改善された方法及び装置を提供することにある。

この目的のため、本発明は、ビデオ画像を処理する方法であって、ビデオアプリケーションの画像における少なくとも１人の人物を検出するステップと、前記画像における前記検出された人物に関連する動きを推定するステップと、前記画像を、前記画像における前記検出された人物を含む少なくとも１つの関心領域と、少なくとも１つの非関心領域とにセグメント化するステップと、前記非関心領域において適用されるフレームレートよりも高いフレームレートを前記関心領域において利用することにより、前記画像を含むビデオ信号に時間フレーム処理を適用するステップと、を有する方法に関する。

１以上の以下の特徴もまた、含められ得る。

本発明の一態様においては、前記時間フレーム処理は、前記関心領域に適用される時間フレームアップコンバージョン処理を含む。他の態様においては、前記時間フレーム処理は、前記非関心領域に適用される時間フレームダウンコンバージョン処理を含む。

更に他の態様においては、本方法はまた、前記時間フレームアップコンバージョン処理のステップからの出力情報を、前記時間フレームダウンコンバージョン処理のステップからの出力情報と組み合わせ、拡張された出力画像を生成するステップを更に含む。更に、ビジュアル画像品質改善ステップは、前記画像に関連するビデオ信号の送信側において又は受信側において実行されても良い。

更に、前記ビデオアプリケーションの画像における特定された人物を検出するステップは、前記画像における唇アクティビティを検出するステップを含んでも良く、前記画像におけるオーディオ発話アクティビティを検出するステップを含んでも良い。また、前記関心領域に時間フレームアップコンバージョン処理を適用するステップは、唇アクティビティ及び／又はオーディオ発話アクティビティが検出された場合にのみ実行されても良い。

他の態様においては、本方法はまた、前記画像を少なくとも１つの第１の関心領域と第２の関心領域とにセグメント化するステップと、フレームレートを増大させることにより時間フレームアップコンバージョンを適用する前記第１の関心領域を選択するステップと、前記第２の関心領域のフレームレートを不変のままとするステップと、を含む。

本発明はまた、ビデオ画像を処理するように構成された装置であって、ビデオアプリケーションの画像における少なくとも１人の人物を検出するように構成された検出モジュールと、前記画像における前記検出された人物に関連する動きを推定するように構成された動き推定モジュールと、前記画像を、前記画像における前記検出された人物を含む少なくとも１つの関心領域と、少なくとも１つの非関心領域とにセグメント化するように構成されたセグメント化モジュールと、前記非関心領域において適用されるフレームレートよりも高いフレームレートを前記関心領域において利用することにより、前記画像を含むビデオ信号に時間フレーム処理を適用するように構成された少なくとも１つの処理モジュールと、を有する装置に関する。

本方法及び装置の他の特徴は、従属請求項に更に記載される。

本発明の実施は、１以上の以下の利点を持ち得る。

本発明は有利にも、重要な画像部分についてビデオ会議システムの視覚的な知覚を改善し、発話している参加者又は人物に関連するビジュアル画像を画像の残りの部分に比べてより明瞭にすることにより状況認識のレベルを増大させる。

更に、本発明は送信側で適用されることができ、このことはより高いビデオ圧縮効率に帰着する。なぜなら、より多くのビットが拡張された関心領域（ＲＯＩ）に割り当てられ、比較的少ないビットが非関心領域に割り当てられ、それにより、同一のビットレートに対して、顔の表情等のような重要なビデオデータの改善された伝送処理に帰着するからである。

加えて、本発明の方法及び装置は、ビデオ電話実装において利用され得るいずれのコーディング方式からも独立した利用を可能とする。本発明は、ビデオエンコードもデコードも必要としない。また本方法は、改善されたカメラ信号のため、ビデオ電話におけるカメラ側において適用されることができ、又は改善された表示信号のため、表示側で適用されることができる。それ故、本発明は、送信側及び受信側の双方において適用されることができる。

更に他の利点として、唇アクティビティ検出器及び／又はオーディオ位置特定アルゴリズムのような種々の顔検出手法又は様式を組み合わせることにより、顔の検出のための識別処理がより頑強且つフェールプルーフなものとされることができる。また他の利点として、動き補償された補間がＲＯＩにおいてのみ適用されるため、計算が保護され節約される。

それ故、本発明の実装により、ビデオ品質が大きく改善され、人物の状況認識及びそれによりビデオ通話の知覚される品質を増大させることにより、ビデオ電話アプリケーションのより優れた許容可能性をもたらす。具体的には本発明は、画像の改善された理解度のため、及び種々のタイプの顔による感情及び表情を伝達するため、より高い品質の顔の表情を伝送することが可能である。今日のグループビデオ会議アプリケーションにおけるこのタイプの状況認識を増大させることは、特に会議通話における参加者又は人物が例えば他の参加者と親しくない場合には、増大された使用性と信頼性と等価である。

本発明のこれらの及びその他の態様は、請求項から、並びに以下の説明及び図面において説明される実施例を参照しながら説明され、明らかとなるであろう。

本発明は例えば、ビデオ電話システムにおける画像中の人物の知覚的な拡張、及びビデオ会議セッションの状況認識の改善に対処する。

図１を参照すると、例として１人の人物のビデオ会議セッションに対して画像品質改善を適用することに関連して、本発明の本質的な特徴が説明される。送信側において、「ビデオ入力」信号１０（Ｖ_ｉｎ）がカメラに入力され、記録カメラ信号となる。一方「ビデオ出力」信号１２は、コーディングされ送信される信号Ｖ_ｏｕｔである。換言すれば、受信側において、信号１０は受信されデコードされた信号であり、信号１２はエンドユーザのためのディスプレイに送信される。

本発明を実装するため、会議通話の参加者を含むＲＯＩの選択のために、画像セグメント化手法が適用される必要がある。それ故、顔の位置及びサイズに関する情報２０を画像において見出すために、顔追跡モジュール１４が利用されても良い。種々の顔検出アルゴリズムが、本分野において良く知られている。例えば、画像における人物の顔を見つけ出すため、肌色検出アルゴリズム又は肌色検出と楕円形オブジェクト境界探索との組み合わせが利用されても良い。代替として、画像における重要な特徴のための顔探索を特定するための付加的な方法が利用されても良い。それ故、効率的にオブジェクトを分類するものを見出し適用するための多くの利用可能な頑強な方法が、本発明に組み入れられても良い。

画像における参加者の顔の特定に続いて、動きベクトル場１８を算出するため、動き推定モジュール１６が利用される。その後、顔の位置及びサイズに関する情報２０を利用して、例えば単純な頭部及び肩部モデルを用いて、参加者の周囲でＲＯＩ／ＲＯＮＩセグメント化モジュール２２が実行される。代替として、ブロック毎に動き検出（動き推定ではない）を利用してＲＯＩが追跡されても良い。換言すれば、最も動くブロックを持つオブジェクトであるＲＯＩを伴う動きが検出されたブロックをグループ化することによりオブジェクトが形成される。加えて、動き検出を用いる方法は、画像処理技術のための計算の複雑さを不要とする。

次いで、ＲＯＩ／ＲＯＮＩ処理が実行される。ＲＯＩセグメント２４について、視覚的な拡張のため、時間フレームレートアップコンバージョンモジュール２６によりＲＯＩセグメント２４内の画素が視覚的に強調される。このことは、ＲＯＮＩセグメント２８について、強調されないべきである残りの画像部分の時間フレームダウンコンバージョンモジュール３０と組み合わせられる。次いで、ＲＯＩ及びＲＯＮＩの処理された出力が再結合モジュール３２において結合され、「出力」信号１２（Ｖ_ｏｕｔ）を形成する。ＲＯＩ／ＲＯＮＩ処理を利用して、ＲＯＩセグメント２４は視覚的に改善され、あまり重要でないＲＯＮＩセグメント２８に対して重要な前景へと至らされる。

ここで図２を参照すると、フロー図４０が図１において示された本発明の基本ステップを示す。最初の「入力」ステップ４２において、ビデオ信号がカメラに入力され、記録カメラ信号となる。次いで、顔追跡モジュール１４（図１に示される）において、幾つかの既存のアルゴリズムを利用して顔検出ステップ４４が実行される。更に、ＲＯＩ又はＲＯＮＩをそれぞれアップコンバート又はダウンコンバートするために後に必要とされる動きベクトルを生成する（４８）ために、動き推定ステップ４６が実行される。

ステップ４４において顔が検出された場合には、ＲＯＩ／ＲＯＮＩセグメント化ステップ５０が実行され、ＲＯＩセグメントについての生成ステップ５２及びＲＯＮＩについての生成ステップ５４に帰着する。ＲＯＩセグメントは次いで、ステップ４８により生成された動きベクトルを利用して、動き補償されたフレームアップコンバージョンステップ５６を通過させられる。同様にＲＯＮＩセグメントは、フレームダウンコンバージョンステップ５８を通過させられる。続いて、処理されたＲＯＩ及びＲＯＮＩセグメントは結合ステップ６０において結合され、ステップ６２において出力信号を生成する。加えて、顔検出ステップ４４において、顔が検出されていない場合には、ステップ６４において（「ダウンコンバージョン」か否かをテストする）画像がダウンコンバージョン処理を実行されるべきであるならば、ダウンコンバージョンステップ６６が実行される。一方で、該画像が処理されないままであるべき場合には、ステップ６６を通過せずに単純にステップ６２へと進み（直接接続）、処理されていない出力信号を生成する。

ここで図３乃至５を参照すると、図２の方法ステップに対する更なる最適化が提供される。ビデオ会話の参加者が発話しているか否かに応じて、ＲＯＩアップコンバージョン処理が変更され最適化されることができる。図３において、フロー図７０は図２に示されたフロー図４０におけるものと同一のステップを示すが、更に顔検出ステップ４４に続く付加的な唇検出ステップ７１を伴う。換言すれば、誰が発話しているかを特定するため、ビデオ画像において唇アクティビティ検出を適用しても良く、画像シーケンスにおける唇アクティビティ検出を利用して発話アクティビティ検出が評価されても良い。例えば、自動読唇のための従来技術又は種々のビデオ唇アクティビティ検出アルゴリズムを利用して、唇アクティビティが測定されても良い。かくして、唇アクティビティ検出メカニズムのためのステップ７１の追加が、他の様式と組み合わせられたときに、顔追跡又は検出ステップ４４をより頑強なものとし、このことは送信側及び受信側のいずれにおいても利用されることができる。このように、人物又は参加者が発話している場合にのみ、ＲＯＩセグメントに増大させられたフレームレートを与えることにより、発話アクティビティの出現を視覚的に支援することが目的である。

図３はまた、ＲＯＩアップコンバージョンステップ５６が、唇検出ステップ７１がポジティブである場合（Ｙ）にのみ実行されることを示す。唇検出がない場合、フロー図７０はダウンコンバージョンステップ６４に進み、最終的にビデオ出力信号を生成するステップ６２へと導く。

ここで図４を参照すると、フロー図８０において、更なる様式が実装される。顔追跡又は検出ステップ４４は、誤った顔検出が常にないことを保証できないため、実際の人物が見出されない場所において顔を特定し得る。しかしながら、顔追跡及び検出の手法を、唇アクティビティ（図３）及びオーディオ位置特定アルゴリズムのような様式と組み合わせることにより、顔追跡ステップ４４はより頑強なものとされることができる。それ故、図４は、オーディオ検出ステップ８２により後続されるオーディオ入力ステップ８１を用いる最適化を追加し、該最適化はビデオ入力ステップ４２及び顔検出ステップ４４と並行して同時に動作する。

換言すれば、人物が話しているためオーディオが利用可能である場合に、発話アクティビティ検出器が利用され得る。例えば、ピッチ検出器と組み合わせられた、オーディオ信号における非静的事象の検出に基づく発話アクティビティ検出器が利用されても良い。送信側において、即ちオーディオ入力ステップ８１において、「オーディオ入力」信号はマイクロフォン入力である。受信側において、「オーディオ入力」信号は受信されデコードされた信号である。それ故、オーディオアクティビティ検出の増大された確実性のため、個々の検出器出力における論理ＡＮＤにより、組み合わせられたオーディオ／ビデオ音声アクティビティ検出が実行される。

同様に、図４は、オーディオ検出ステップ８２がオーディオ信号を検出した場合にのみ、フロー図８０におけるＲＯＩアップコンバージョンステップ５６が実行されることを示している。オーディオ信号が検出された場合、次いで顔の検出に続いて、ＲＯＩ／ＲＯＮＩセグメント化ステップ５０が実行され、ＲＯＩアップコンバージョンステップ５６により後続される。しかしながら、オーディオ発話が検出されなかった場合には、フロー図８０はダウンコンバージョンステップ６４に進み、最終的にビデオ出力信号を生成するステップ６２に導く。

図５を参照すると、フロー図９０は、オーディオ発話アクティビティ及びビデオ唇アクティビティ検出処理の実装の組み合わせを示す。かくして、図３及び図４は併せてフロー図９０に帰着し、関心のある人物又は参加者を特定又は検出し、ＲＯＩを正確に解析するための、非常に頑強な手段を提供する。

更に、図６は、オーディオ発話検出ステップ及びビデオ唇アクティビティ検出ステップの両方を実行する、１人の人物のビデオ会議セッションに適用された画像品質改善のためのフロー図９０の、模式的な機能ブロック図を示す。図１に示される機能的な特徴と同様に、送信側において、入力信号１０（Ｖ_ｉｎ）がカメラ／入力機器に入力され、記録カメラ信号となる。同様に、「オーディオ入力」信号（Ａ_ｉｎ）１１が入力され、いずれかの発話信号が検出されるか否かを検出するためオーディオアルゴリズムモジュール１３が適用される。同時に、受信された信号においていずれかの唇アクティビティがあるか否かを決定するため、唇アクティビティ検出モジュール１５が、ビデオ入力信号を解析する。続いて、オーディオアルゴリズムモジュール１３が真又は偽の発話アクティビティフラグ１７を生成し、真であると分かった場合、ＲＯＩアップコンバージョンモジュール２６が、ＲＯＩセグメント２４の受信に応じて、ＲＯＩセグメント２４に対してフレームレートのアップコンバージョンを実行する。同様に、唇アクティビティ検出モジュール１５が、真又は偽の唇アクティビティフラグ１９が真であることを検出した場合、ＲＯＩセグメント２４の受信に応じて、モジュール２６がＲＯＩセグメント２４に対してフレームレートのアップコンバージョンを実行する。

ここで図７を参照すると、送信側において複数のマイクロフォンが利用可能である場合、発話している人物の位置を見出すための非常に頑強で効率的な方法が実行されることができる。即ち、人物の検出及び特定、特に発話している複数の人物又は参加者の特定を改善するためには、オーディオアルゴリズムとビデオアルゴリズムとの組み合わせが非常に強力である。このことは、特に送信側において、（モノラルのオーディオではなく）多感覚オーディオデータが利用可能である場合に適用されることができる。代替として、本システムをより頑強なものとするために、及び誰が発話しているのかを正確に特定することを可能とするために、送信側及び受信側の双方において適用可能な、ビデオにおける唇アクティビティ検出を適用することもできる。

図７において、複数人物のビデオ電話会議セッションについての画像品質改善のための模式的な機能ブロック図が示される。送信側において、複数の人物又は参加者が存在し、顔追跡モジュール１４が１つよりも多い（例えば全体でＮ個の）顔を見出す。顔追跡モジュール１４により検出されたＮ個の顔のそれぞれについて、即ちＮ個の位置及びサイズのそれぞれについて、ここでもまた例えば頭部及び肩部モデルに基づいて、Ｎ個の顔について生成されたＲＯＩ及びＲＯＮＩセグメントのそれぞれについて、複数人物ＲＯＩ／ＲＯＮＩセグメント化モジュール２２Ｎ（２２−１、２２−２、…、２２Ｎ）が生成される。

２つのＲＯＩが検出された場合には、唇アクティビティ検出モジュール１５の結果即ち唇アクティビティフラグ１９を含む、発話アクティビティフラグ１７を含む音源の位置（ｘ，ｙ座標）を出力する（接続２１が音源の（ｘ，ｙ）位置を与える）オーディオアルゴリズムモジュール１３の結果に基づいて、画像品質改善のために処理される必要があるＲＯＩの選択をＲＯＩ選択モジュール２３が実行する。換言すれば、複数マイクロフォン会議システムを用いると、複数のオーディオ入力が受信側で利用可能である。このとき、オーディオアルゴリズムと共に唇アクティビティアルゴリズムを適用して、音声又はオーディオが来る方向及び位置（ｘ，ｙ座標）もが決定されることができる。該情報は、画像において現在発話している参加者である、意図されるＲＯＩを目標とするために重要であり得る。

このように、２以上のＲＯＩが顔追跡モジュール１４により検出された場合、ＲＯＩ選択モジュール２３が発話している人物に関連するＲＯＩを選択し、該発話している人物が最も強い視覚的な強調を与えられるようにし、一方で会議セッションの残りの人物又は参加者がＲＯＮＩ背景に対して僅かな強調を受けるようにする。

その後、別個のＲＯＩ及びＲＯＮＩセグメントが、動き推定モジュール１６により出力された情報を用いて、ＲＯＩに対してのフレームレートアップコンバージョンにおいてＲＯＩアップコンバージョンモジュール２６により、及びＲＯＮＩに対してのフレームレートダウンコンバージョンにおいてＲＯＩダウンコンバージョンモジュール３０により、画像処理ステップが実行される。更に、ＲＯＩセグメントは、顔追跡モジュール１４により検出された人物の総数を含んでも良い。発話者から離れた人物はビデオ会議通話に参加していないと仮定すると、ＲＯＩは、検出された顔のサイズの検査により十分に近く、且つ画像サイズの特定のパーセンテージよりも大きな顔サイズを持つ、検出された顔又は人物のみを含んでも良い。代替として、ＲＯＩセグメントは、発話している人物、又は最後に発話した人物であってそれ以来他の誰も発話していないような人物のみを含んでも良い。

ここで図８を参照すると、複数人物のビデオ会議セッションについて示された画像品質改善のための他の模式的な機能ブロック図が示されている。ＲＯＩ選択モジュール２３が、２つのＲＯＩを選択する。このことは、第１のＲＯＩセグメント２４−１が発話している参加者又は人物に関連し、第２のＲＯＩセグメント２４−２が検出された残りの参加者に関連しているため、２つのＲＯＩが区別されたという事実により引き起こされる。示されているように、第１のＲＯＩセグメント２４−１はＲＯＩ＿１アップコンバージョンモジュール２６−１により時間アップコンバージョンされ、一方で第２のＲＯＩセグメント２４−２は変化させられないままとされる。上述した図５及び６においてそうであったように、ＲＯＮＩセグメント２８は、ＲＯＮＩダウンコンバージョンモジュール３０により時間ダウンコンバージョンされても良い。

図９を参照すると、フロー図１００が、図８を参照しながら上述したような画像品質改善のための方法の一実施例において利用されるステップを示している。実際にはフロー図１００は、図８において示され、図２乃至５を参照しながらも説明された、種々のモジュールにより辿られる基本的なステップを示している。これらのステップを基に、最初の「ビデオ入力」ステップ４２において、ビデオ信号がカメラに入力され、記録カメラ信号となる。該ステップは、顔検出ステップ４４及びＲＯＩ／ＲＯＮＩセグメント化ステップ５０により後続され、ＲＯＩセグメントについてのＮ個の生成ステップ５２及びＲＯＮＩセグメントについての生成ステップ５４に帰着する。ＲＯＩセグメントについての生成ステップ５２は、ＲＯＩ＿１セグメントについてのステップ５２ａ、ＲＯＩ＿２セグメントについてのステップ５２ｂ等、及びＲＯＩ＿Ｎセグメントについてのステップ５２Ｎを含む。

次いで、顔検出ステップ４４及びＲＯＩ／ＲＯＮＩセグメント化ステップ５０に続いて、唇検出ステップ７１が実行される。図８にも示されるように、唇検出ステップ７１がポジティブ（Ｙ）である場合、ＲＯＩ／ＲＯＮＩ選択ステップ１０２が実行される。同様にして、「オーディオ入力」ステップ８１はオーディオ検出ステップ８２により後続され、オーディオ検出ステップ８２はビデオ入力ステップ４２及び顔検出ステップ４４、並びに唇検出ステップ７１と同時に動作し、関心のあるＲＯＩ領域を正確に検出するため、より頑強なメカニズム及び処理を提供する。結果として得られる情報は、ＲＯＩ／ＲＯＮＩ選択ステップ１０２において利用される。

続いて、ＲＯＩ／ＲＯＮＩ選択ステップ１０２は、選択されたＲＯＩセグメント（１０４）を生成し、該セグメントに対してフレームアップコンバージョンステップ５６が実行される。ＲＯＩ／ＲＯＮＩ選択１０２はまた他のＲＯＩセグメント（１０６）を生成し、該セグメントに対しては、ステップ６４において画像に対してダウンコンバージョン解析を実行する決定がポジティブである場合には、ダウンコンバージョンステップ６６が実行される。一方で、画像が変化させられないままであるべき場合には、単純にステップ６０へと進み、ステップ５６により生成された時間アップコンバージョンされたＲＯＩ画像並びにステップ５４及び６６により生成されたＲＯＮＩ画像と結合し、最終的にステップ６２において、圧縮されていない「ビデオ出力」信号を得る。

ここで図１０乃至１５を参照すると、画像品質改善を達成するために利用される手法及び方法が示される。例えば、動き推定の処理、顔追跡及び検出、ＲＯＩ／ＲＯＮＩセグメント化、並びにＲＯＩ／ＲＯＮＩ時間コンバージョン処理が、更に詳細に説明される。

図１０乃至１２を参照すると、例えばウェブカメラを用いたシーケンスショットよりとられた画像１１０が示されている。例えば、画像１１０は、今日のモバイルアプリケーションにおいて典型的である、１７６ｘ１４４又は３２０ｘ２４０画素の解像度、及び７．５Ｈｚと１５Ｈｚとの間のフレームレートを持っていても良い。

動き推定
画像１１０は、８ｘ８の輝度値のブロックに分割されることができる。動き推定のため、例えば３次元再帰的探索法が利用されても良い。その結果は、８ｘ８ブロックのそれぞれについての２次元の動きベクトルである。該動きベクトルは、

により示され得る。ここで、２次元ベクトル

は８ｘ８ブロックの空間的なｘ及びｙ座標を含み、ｎは時間インデクスである。動きベクトル場は、２つの元の入力フレーム間の、特定の時間インスタンスにおいて評価される。２つの元の入力フレーム間の他の時間インスタンスにおいて動きベクトル場を有効なものとするため、動きベクトルのリタイミング（retiming）を実行しても良い。

顔検出
ここで図１１を参照すると、顔追跡メカニズムが、人物１１２及び１１４の顔を追跡するために利用される。顔追跡メカニズムは、人物１１２及び１１４（顔が暗く示されている）の肌色を見出すことにより、顔を見出す。従って、肌検出手法が利用され得る。楕円１２０及び１２２は、見出され特定された人物１１２及び１１４の顔を示す。代替としては、顔検出は、P. Viola及びM. Jonesによる「Robust Real-time Object Detection」（「Second International Workshop on Statistical and Computational Theories of Vision - Modeling, Learning, Computing, and Sampling」のプロシーディング、Vancouver、カナダ、2001年7月13日）に提示されているような、学習分類子（classifier）に基づいて実行される。分類子ベースの方法は、変化する照明状況に対してより頑強であるという利点を持つ。加えて、見出された顔に近い顔のみが検出される。人物１１８の顔は、画像１１０のサイズに比べて頭部のサイズが小さ過ぎるため、見出されない。それ故人物１１８は、いずれのビデオ会議通話にも参加していないと（本例においては）正しく推定される。

上述したように、顔追跡メカニズムの頑強さは、顔追跡メカニズムが、送信側及び受信側の双方で利用可能なビデオ唇アクティビティ検出器からの情報と組み合わせられる場合、及び／又は複数のマイクロフォンチャネルを必要とし送信側で実装されるオーディオ源追跡器と組み合わせられる場合に、改善され得る。これらの手法の組み合わせを利用することにより、顔追跡メカニズムにより誤って見出された顔でないものは、適切に却下されることができる。

ＲＯＩ及びＲＯＮＩセグメント化
図１２を参照すると、ＲＯＩ／ＲＯＮＩセグメント化処理が画像１１０に適用される。顔検出処理に続いて、画像１１０における各検出された顔を用いて、頭部及び肩部モデルに基づいてＲＯＩ／ＲＯＮＩセグメント化処理が利用される。人物１２４の頭部及び胴部を含む人物１１２の頭部及び肩部の輪郭１２４が、特定され分離される。この粗い頭部及び肩部の輪郭１２４のサイズは重要ではないが、人物１１２の胴部が輪郭１２４内に完全に含まれることを確実にするために十分に大きいべきである。その後、該ＲＯＩ（頭部及び肩部の輪郭１２４内の領域でもある）における画素にのみ、時間アップコンバージョンが適用される。

ＲＯＩ及びＲＯＮＩフレームレート変換
ＲＯＩ／ＲＯＮＩフレームレート変換は、元の画像の動きベクトルに基づく動き推定処理を利用する。

ここで図１３を参照すると、例えば、元の入力画像又は映像１３２Ａ（ｔ＝（ｎ−１）Ｔにおける）及び１３２Ｂ（ｔ＝ｎＴにおける）についての３つの図１３０Ａ乃至１３０Ｃにおいて、図１２を参照しながら説明された頭部及び肩部モデルに基づくＲＯＩ／ＲＯＮＩセグメント化が示されている。補間された映像１３４（ｔ＝（ｎ−α）Ｔにおけるもの。図の１３０Ｂ）については、特定の位置における画素は、同一の場所において先行する元入力映像１３２Ａにおける当該画素が当該映像のＲＯＩに属する場合、若しくは同一の場所において後続する元入力映像１３２Ｂにおける当該画素が当該映像のＲＯＩに属する場合、又はその両方である場合に、ＲＯＩに属する。換言すれば、補間された映像１３４におけるＲＯＩ領域１３８Ｂは、前の及び次の元入力映像１３２Ａ及び１３２Ｂの、それぞれのＲＯＩ領域１３８Ａ及びＲＯＩ領域１３８Ｃの両方を含む。

ＲＯＮＩ領域１４０については、補間された映像１３４について、ＲＯＮＩ領域１４０に属する画素は単に前の元入力映像１３２Ａからコピーされ、ＲＯＩにおける画素は動き推定を用いて補間される。

このことは、図１４を参照しながら更に説明される。ここでＴはシーケンスのフレーム期間を表し、ｎは整数のフレームインデクスを示す。例えば、パラメータα（０＜α＜１）は、例えば２つの元の入力画像１３２Ａと１３２Ｂとの間の補間された画像１３４Ａの相対的なタイミングを与える（本例においては、α＝１／２が利用され得る）。

図１４において、例えば補間された映像１３４Ａについて（及び同様に補間された画像１３４Ｂについて）は、「ｐ」及び「ｑ」と示された画素ブロックがＲＯＮＩ領域１４０において存在し、これらブロックにおける画素が、前の元映像における同一の位置からコピーされる。補間された映像１３４Ａについて、ＲＯＩ領域１３８における画素値は、１以上の後続する及び先行する入力元映像（１３２Ａ、１３２Ｂ）の動き補償された平均として算出される。図１４においては、２フレーム補間が示されている。ｆ（ａ，ｂ，α）は、動き補償された補間結果を示している。動き補償された補間手法については、種々の方法が利用されることができる。かくして図１４は、ＲＯＩ領域１３８における画素が動き補償された補間によって得られ、ＲＯＮＩ領域１４０における画素がフレーム複写により得られる、フレームレート変換手法を示している。

加えて、画像又は映像の背景が静的である場合には、結果として得られる出力画像において、ＲＯＩ領域とＲＯＮＩ領域との間の遷移境界は可視ではない。なぜなら、ＲＯＩ領域内の背景画像は、ゼロの動きベクトルにより補間されるからである。しかしながら、ディジタルカメラにおいてしばしば起こるように背景が動く場合（例えば不安定な手の動き）には、ＲＯＩ領域とＲＯＮＩ領域との間の境界は可視となる。なぜなら、背景画素はＲＯＩ領域内で動き補償を用いて算出され、一方で該背景画素はＲＯＮＩ領域における前の入力フレームからコピーされるからである。

ここで図１５を参照すると、背景が静的でない場合に、図の１５０Ａ及び１５０Ｂにおいて示されるように、ＲＯＩ領域とＲＯＮＩ領域との間の境界における画像品質の改善に関して、最適化手法が実装されることができる。

とりわけ、図１５は、ＲＯＩ／ＲＯＮＩセグメント化を用いた、ｔ＝（ｎ−α）Ｔにおいて推定される動きベクトル場の実装を示す。図１５０Ａは、ＲＯＮＩ領域１４０において背景における動きがある、元の状況を示す。ＲＯＮＩ領域１４０における２次元動きベクトルは小文字の英字（ａ、ｂ、ｃ、ｄ、ｅ、ｆ、ｇ、ｈ、ｋ、ｌ）により示され、ＲＯＩ領域１３８における動きベクトルは大文字の英字（Ａ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆ、Ｇ、Ｈ）により表される。図の１５０Ｂは、背景が動き始めた際にＲＯＩ／ＲＯＮＩ境界１５２Ｂの可視性を改善するために、ＲＯＩ１３８が線形に補間された動きベクトルを用いて拡張された、最適化された状況を示す。

図１５に示されるように、境界領域１５２Ｂの知覚的な可視性は、ブロックのグリッド（図の１５０Ｂ）においてＲＯＩ領域１３８を拡張し、漸進的な動きベクトル遷移を実行し、拡張領域における画素について動き補償された補間解析を適用することにより、改善されることができる。更に、背景に動きがある場合に強調を解除するためには、ＲＯＩ拡張領域１５４における画素に対して、水平に及び垂直にぼかしフィルタ（例えば[1 2 1]/4）を適用しても良い。

本発明の好適な実施例であると現在考えられるものが示され説明されたが、本発明の真の範囲から逸脱することなく、他の種々の変更が為され得、同等のものが代用され得ることは、当業者には理解されるであろう。

特に、上述の説明は主にビデオ会議に関連したが、説明された画像品質改善方法は、モバイル電話装置及びプラットフォームに実装されたものや、ＰＣのような家庭用オフィスプラットフォームに実装されたもの等のような、いずれのタイプのビデオアプリケーションにも適用されることができる。

加えて、ここで説明された発明の中心概念から逸脱することなく特定の状況を本発明の教示に適合させるため、多くの高度なビデオ処理の変更が為されても良い。更に、本発明の実施例は、上述した特徴の全てを含むものではない。それ故、本発明は開示された実施例に限定されるものではなく、本発明は添付する請求項の範囲内となる全ての実施例及びそれらと同等のものを含むことが意図される。

本発明による画像品質改善のための改善された方法の一実施例の模式的な機能ブロック図である。図１による画像品質改善のための改善された方法の一実施例のフロー図である。本発明による画像品質改善のための改善された方法の他の実施例のフロー図である。本発明による画像品質改善のための改善された方法の他の実施例のフロー図である。本発明による画像品質改善のための改善された方法の他の実施例のフロー図である。本発明による画像品質改善のための改善された方法の他の実施例の模式的な機能ブロック図である。本発明による、多人数ビデオ会議セッションについて示された、画像品質改善のための模式的な機能ブロック図である。本発明による、多人数ビデオ会議セッションについて示された、画像品質改善のための他の模式的な機能ブロック図である。図８に示された、画像品質改善のための改善された方法の一実施例において利用される方法ステップを示すフロー図である。ビデオアプリケーションからとられた典型的な画像を例として示す。本発明による顔追跡メカニズムの実装を示す。ＲＯＩ／ＲＯＮＩセグメント化処理の適用を示す。頭部及び肩部モデルに基づくＲＯＩ／ＲＯＮＩセグメント化を示す。本発明の一実施例によるフレームレート変換を示す。ＲＯＩ領域とＲＯＮＩ領域との間の境界領域において実装される最適化手法を示す。

Claims

ビデオ画像を処理する方法であって、
ビデオアプリケーションの画像における少なくとも１人の人物を検出するステップと、
前記画像における前記少なくとも１人の検出された人物に関連する動きを推定するステップと、
前記画像を、前記画像における前記少なくとも１人の検出された人物を有する少なくとも１つの関心領域と、少なくとも１つの非関心領域とにセグメント化するステップと、
前記少なくとも１つの非関心領域において適用されるフレームレートよりも高いフレームレートを前記少なくとも１つの関心領域において利用することにより、前記画像を含むビデオ信号に時間フレーム処理を適用するステップと、
を有する方法。
前記時間フレーム処理は、前記少なくとも１つの関心領域に適用される時間フレームアップコンバージョン処理を有する、請求項１に記載の方法。
前記時間フレーム処理は、前記少なくとも１つの非関心領域に適用される時間フレームダウンコンバージョン処理を有する、請求項１又は２に記載の方法。
前記時間フレームアップコンバージョン処理のステップからの出力情報を、前記時間フレームダウンコンバージョン処理のステップからの出力情報と組み合わせ、拡張された出力画像を生成するステップを更に有する、請求項３に記載の方法。
ビジュアル画像品質改善ステップが、前記画像に関連するビデオ信号の送信側において又は受信側において実行される、請求項１乃至４のいずれか一項に記載の方法。
前記ビデオアプリケーションの画像における少なくとも１人の特定された人物を検出するステップは、前記画像における唇アクティビティを検出するステップを有する、請求項１乃至５のいずれか一項に記載の方法。
前記ビデオアプリケーションの画像における少なくとも１人の特定された人物を検出するステップは、前記画像におけるオーディオ発話アクティビティを検出するステップを有する、請求項１乃至６のいずれか一項に記載の方法。
前記関心領域に時間フレームアップコンバージョン処理を適用するステップは、唇アクティビティ及び／又はオーディオ発話アクティビティが検出された場合にのみ実行される、請求項６又は７に記載の方法。
前記画像を少なくとも１つの第１の関心領域と第２の関心領域とにセグメント化するステップと、
フレームレートを増大させることにより時間フレームアップコンバージョンを適用する前記第１の関心領域を選択するステップと、
前記第２の関心領域のフレームレートを不変のままとするステップと、
を更に有する、請求項１乃至８のいずれか一項に記載の方法。
前記関心領域に時間フレームアップコンバージョン処理を適用するステップは、前記関心領域に関連する画素のフレームレートを増大させるステップを有する、請求項１乃至９のいずれか一項に記載の方法。
前記画像のブロックグリッドにおける前記関心領域を拡張し、前記拡張された関心領域における画素に対して動き補償された補間を適用することにより、漸進的な動きベクトル遷移を実行するステップを更に有する、請求項１乃至１０のいずれか一項に記載の方法。
前記拡張された関心領域における画素に対して垂直及び水平にぼかしフィルタを適用することにより、境界領域の強調を解除するステップを更に有する、請求項１１に記載の方法。
ビデオ画像を処理するように構成された装置であって、
ビデオアプリケーションの画像における少なくとも１人の人物を検出するように構成された検出モジュールと、
前記画像における前記少なくとも１人の検出された人物に関連する動きを推定するように構成された動き推定モジュールと、
前記画像を、前記画像における前記少なくとも１人の検出された人物を有する少なくとも１つの関心領域と、少なくとも１つの非関心領域とにセグメント化するように構成されたセグメント化モジュールと、
前記少なくとも１つの非関心領域において適用されるフレームレートよりも高いフレームレートを前記少なくとも１つの関心領域において利用することにより、前記画像を含むビデオ信号に時間フレーム処理を適用するように構成された少なくとも１つの処理モジュールと、
を有する装置。
前記処理モジュールは、前記少なくとも１つの関心領域に時間フレームアップコンバージョン処理を適用するように構成された関心領域アップコンバージョンモジュールを有する、請求項１３に記載の装置。
前記処理モジュールは、前記少なくとも１つの非関心領域に時間フレームダウンコンバージョン処理を適用するように構成された非関心領域ダウンコンバージョンモジュールを有する、請求項１３又は１４に記載の装置。
前記関心領域アップコンバージョンモジュールから導出された出力情報を、前記非関心領域ダウンコンバージョンモジュールから導出された出力情報と組み合わせるように構成された結合モジュールを更に有する、請求項１５に記載の装置。
唇アクティビティ検出モジュールを更に有する、請求項１３乃至１６のいずれか一項に記載の装置。
オーディオ発話アクティビティモジュールを更に有する、請求項１３乃至１７のいずれか一項に記載の装置。
時間フレームアップコンバージョンのための第１の関心領域を選択するように構成された関心領域選択モジュールを更に有する、請求項１３乃至１８のいずれか一項に記載の装置。
請求項１３乃至１９のいずれか一項に記載の装置と関連するコンピュータ読み取り可能な媒体であって、前記媒体には命令のシーケンスが保存され、前記命令のシーケンスは、前記装置のマイクロプロセッサにより実行されたときに、前記プロセッサに、
ビデオアプリケーションの画像における少なくとも１人の人物を検出させ、
前記画像における前記少なくとも１人の検出された人物に関連する動きを推定させ、
前記画像を、前記画像における前記少なくとも１人の検出された人物を有する少なくとも１つの関心領域と、少なくとも１つの非関心領域とにセグメント化させ、
前記少なくとも１つの非関心領域において適用されるフレームレートよりも高いフレームレートを前記少なくとも１つの関心領域において利用することにより、前記画像を含むビデオ信号に時間フレーム処理を適用させる、コンピュータ読み取り可能な媒体。