JP4988770B2

JP4988770B2 - モード間の関心領域画像オブジェクト区分

Info

Publication number: JP4988770B2
Application number: JP2008554492A
Authority: JP
Inventors: ワン、ハオホン; エル−マレー、クハレド・ヘルミ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2006-02-07
Filing date: 2007-02-07
Publication date: 2012-08-01
Anticipated expiration: 2027-02-07
Also published as: CN101375608A; JP2009526495A; EP1994761A2; US20070183663A1; WO2007092905A2; KR20080099296A; US8265349B2; JP2012155727A; KR101023733B1; WO2007092905A3

Description

本開示は、画像オブジェクト区分に関し、より詳細には、マルチメディア・アプリケーションのための画像シーケンスからの関心領域（ＲＯＩ）画像オブジェクトの自動区分のための技術に関する。

自動関心領域（ＲＯＩ）画像オブジェクト区分は、画像シーケンスを利用する幅広いマルチメディア・アプリケーションにとって有用であり得る。ＲＯＩオブジェクトは、画像フレーム内の「前景」オブジェクトと呼ばれる場合があり、非ＲＯＩ範囲は、画像フレーム内の「背景」範囲と呼ばれる場合がある。ＲＯＩオブジェクト区分は、視聴者にとって関心あるものであり得る画像シーケンスの選択された前景オブジェクトが画像シーケンスの背景から抽出されることを可能にする。マルチメディア・アプリケーションは、その場合、画像シーケンスから区分されたＲＯＩオブジェクトを優先的に利用することができる。ＲＯＩオブジェクトの典型的な例は、人の顔または頭、および人体の肩の範囲である。

例えば、画像監視アプリケーションでは、捕捉された画像シーケンスから区分されたＲＯＩオブジェクトは、顔のデータベース・システム内へのインプットであり得る。顔のデータベース・システムは、データベース内に記憶された目標顔オブジェクトに正確に整合させるために、区分されたＲＯＩオブジェクト（例えば、人の顔）を使用することができる。警察は、監視画像シーケンスから容疑者を識別するために、ＲＯＩオブジェクト区分のこの応用例を利用することができる。

もう１つの例として、画像電話（ＶＴ）アプリケーションでは、捕捉された画像シーケンスから区分されたＲＯＩオブジェクトは、画像シーケンスエンコーダ内へのインプットであり得る。画像シーケンスエンコーダは、受信者への伝送のために、より高い品質を用いてＲＯＩを符号化する目的で、より多くのリソースを区分されたＲＯＩオブジェクトに割り当てることが可能である。ＶＴアプリケーションは、テレビ会議などのアプリケーションをサポートするために、ユーザが画像および音声の情報を共有することを可能にする。ＶＴシステムでは、ユーザは画像情報を送ることおよび受信すること、単に画像情報を受信すること、または単に画像情報を送ることが可能である。受信者は、一般に、送信者から送信された形式で受信された画像情報を閲覧する。区分されたＲＯＩオブジェクトの優先的な符号化により、受信者は、画像シーケンスの非ＲＯＩ範囲よりも、より明確にＲＯＩオブジェクトを閲覧することが可能である。

その他の例は、人物が、生放送もしくは事前記録されたニュース放送または娯楽放送など、情報画像を提示する画像放送アプリケーションを含む。かかるアプリケーションでは、取材記者またはトークショーの司会者など、司会者の顔に対応するＲＯＩオブジェクトを優先的にエンコードすることが望まれる可能性がある。

従来、自動ＲＯＩオブジェクト区分は、一般に、動作分析、動作区分、および領域区分に重点を置く。１つの事例では、統計的なモデル・ベースのオブジェクト・区分アルゴリズムは、ＲＯＩオブジェクトをブラブベースの統計的な領域モデルと形状モデルとに切り離す。したがって、ＲＯＩオブジェクト区分問題は、モデル検出およびトラッキング問題に変換され得る。もう１つの事例では、前景オブジェクトは、ステレオ・カメラ・セット・アップからの２つのビューの間の不整合推定に基づいて、画像フレームから抽出されることが可能である。別の事例は、領域ベースの切出手法および特徴ベースの区分手法の両方を含むＲＯＩオブジェクト区分アルゴリズムを提案する。アルゴリズムは、動作、色、およびテクスチャの特徴に関して同種のオブジェクト領域を表すために領域記述子を使用して、画像シーケンスの全域でそれらの領域記述子を追跡する。

発明の概要

本開示は、画像シーケンスからの関心領域（ＲＯＩ）画像オブジェクトの自動区分のための技術に関する。ＲＯＩオブジェクト区分は、画像シーケンスの非ＲＯＩ、すなわち「背景」範囲から、画像シーケンスの選択されたＲＯＩ、すなわち「前景」オブジェクトが抽出されることを可能にする。ＲＯＩオブジェクトの例は、人の顔または頭、および人体の肩の範囲である。開示された技術は、ＲＯＩ特徴検出と、領域区分と、背景減算とを組み合わせるハイブリッド技術を含む。このようにして、開示された技術は、正確な前景オブジェクトの生成と、画像シーケンスからの前景オブジェクトの低複雑性の抽出とを提供することができる。

開示された技術はまた、対称位置特性および形状特性など、顔の特徴の固有の属性に基づいて、画像シーケンスの画像フレーム内で検出された顔の特徴の検証のための技術も含む。加えて、開示された技術は、画像シーケンスの画像フレーム内の複数の個々の顔に関して検出された顔の特徴の分離のための技術を含む。本明細書で説明されるように、複数の顔の分離技術は、計算処理上の複雑性を指数関数的なものから多項式的なものに低減する最大整合方式問題にマップされ得る。このようにして、これらの技術は、画像シーケンスのフレーム内の各顔に関して正確な特徴検出を提供する。

ＲＯＩオブジェクト区分システムは、例えば、本明細書で説明される技術を実施することができる。ＲＯＩオブジェクト・区分システムは、モード内区分とモード間区分とをサポートする。モード内区分は、ＲＯＩオブジェクト動作情報を使用せずに、画像シーケンス内のその他のフレームから独立して画像シーケンスのフレームを処理する。モード間区分は、現在のフレームと画像シーケンスのこれまでのフレームまたは後続のフレームとの間の動作を表示するＲＯＩオブジェクトに関する動作情報に基づいて、画像シーケンスのフレームを処理する。ＲＯＩオブジェクト区分システムは、１つまたは複数の区分モード決定係数に基づいて、受信されたフレームに対して、モード内区分を実行するか、またはモード間区分を実行するかを決定することができる。

開示された技術は、フレーム全体内の候補領域のセットから、ＲＯＩオブジェクト形状内に配置された画像フレームの定義された領域を自動的に選択することによって、モード内区分の間の前景オブジェクトの生成のための技術をさらに含む。開示された技術はまた、背景モデル形成と減算とに基づいて、モード間区分の間、前景オブジェクト内の移動領域を検出するための技術も含む。移動前景領域を首尾よく検出することにより、モード間区分の間、ＲＯＩ特徴検出の性能速度を改善することができる。

１つの実施形態では、本開示は、画像シーケンスの画像フレームを受信することと、画像フレーム内のＲＯＩ特徴を検出することと、検出されたＲＯＩ特徴に基づいて、画像フレーム内のＲＯＩオブジェクト形状を概算することとを備える方法を提供する。この方法は更に、検出されたＲＯＩ特徴に基づいて、画像フレームを、多数の候補領域へ区分することと、画像フレームのＲＯＩオブジェクト形状内に位置する候補領域のうちの１または複数を、ＲＯＩオブジェクトとして選択することとを備える。

別の実施形態では、本開示は、コンピュータ読取可能媒体を備える。このコンピュータ読取可能媒体は、画像シーケンスの画像フレームを受信することと、画像フレーム内のＲＯＩ特徴を検出することと、検出されたＲＯＩ特徴に基づいて、画像フレーム内のＲＯＩオブジェクト形状を概算することとを、プログラム可能なプロセッサに実行させる。これら命令群はまた、検出されたＲＯＩ特徴に基づいて、画像フレームを、多数の候補領域へ区分することと、画像フレームのＲＯＩオブジェクト形状内に位置する候補領域のうちの１または複数を、ＲＯＩオブジェクトとして選択することとを、プログラム可能なプロセッサに実行させる。

別の実施形態では、本開示は、画像シーケンスの受信された画像フレーム内のＲＯＩ特徴を検出するＲＯＩ特徴検出器と、検出されたＲＯＩ特徴に基づいて、受信された画像フレーム内のＲＯＩオブジェクト形状を概算するオブジェクト形状概算モジュールとを備える自動ＲＯＩオブジェクト区分システムを提供する。この自動ＲＯＩオブジェクト区分システムはまた、検出されたＲＯＩ特徴に基づいて、受信した画像フレームを、多数の候補領域へ区分する領域区分モジュールと、受信した画像フレームのＲＯＩオブジェクト形状内に位置する候補領域のうちの１または複数をＲＯＩオブジェクトとして選択するオブジェクト生成モジュールとを備える。

更なる実施形態では、本開示は、画像シーケンスの画像フレームを受信することと、前記画像フレーム内の、目の特徴と口の特徴とを含む顔面を含む関心領域（ＲＯＩ）特徴を検出することと、検出されたＲＯＩ特徴に基づいて、画像フレームを多数の候補領域へ区分することとを備える方法を提供する。この方法はまた、目の特徴候補と口の特徴候補とを目と口との三角形へ組み合わせることと、画像フレーム内の目と口との三角形の方向に基づいて目と口との三角形を検証することと、この検証に基づいて、候補領域のうちの１または複数をＲＯＩオブジェクトとして選択することとを備える。

別の実施形態では、本開示は、画像シーケンスの画像フレームを受信することと、画像フレーム内の、目の特徴と口の特徴とを含む顔面を含む関心領域（ＲＯＩ）特徴を検出することと、検出されたＲＯＩ特徴に基づいて、画像フレームを多数の候補領域へ区分することとを、プログラム可能なプロセッサに実行させる命令群を備えたコンピュータ読取可能媒体を提供する。これら命令群はまた、目の特徴候補と口の特徴候補とを目と口との三角形へ組み合わせることと、画像フレーム内の目と口との三角形の方向に基づいて、目と口との三角形を検証することと、この検証に基づいて、候補領域のうちの１または複数をＲＯＩオブジェクトとして選択することとを、プログラム可能なプロセッサに実行させる。

別の実施形態では、本開示は、画像シーケンスの画像フレーム内のＲＯＩ特徴を検出するＲＯＩ特徴検出器を備えるシステムを提供する。ここで、ＲＯＩ特徴は、目の特徴と口の特徴とを含む顔面を含む。このシステムはまた、検出されたＲＯＩ特徴に基づいて、画像フレームを、多数の候補領域へ区分する領域区分モジュールと、目の特徴候補と口の特徴候補とを目と口との三角形へ組み合わせ、画像フレーム内の目と口との三角形の方向に基づいて、目と口との三角形を検証する特徴検証モジュールと、この検証に基づいて、候補領域のうちの１または複数をＲＯＩオブジェクトとして選択するオブジェクト生成モジュールとを備える。

本明細書で説明される技術は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実施され得る。ソフトウェアで実施される場合、技術は、単一のプロセッサまたはプロセッサの任意の組合せを含めて、プログラム可能プロセッサによって実行された場合、本明細書で開示される方法の１つまたは複数を実行する命令を含むプログラム・コードを備えるコンピュータ可読媒体によって一部実施され得る。

１つまたは複数の実施形態の詳細は、添付の図面および下の説明で記載される。その他の特徴機能、オブジェクト、および利点は、説明および図面から、ならびに特許請求の範囲から明らかになるであろう。

詳細な説明

図１は、画像シーケンスからのＲＯＩ画像オブジェクトの自動区分のための技術を実施する関心領域（ＲＯＩ）オブジェクト区分システム１４を例示するブロック図である。ＲＯＩオブジェクト区分は、画像電話（ＶＴ）アプリケーションおよび画像監視アプリケーションなど、画像シーケンスを利用する幅広いマルチメディア・アプリケーションで有用であり得る。

例えば、画像監視アプリケーションでは、捕捉された画像シーケンスから区分されたＲＯＩオブジェクトは、顔のデータベース・システム内へのインプットであり得る。顔のデータベース・システムは、データベース内に記憶された目標顔オブジェクトに正確に整合させるために、区分されたＲＯＩオブジェクト（例えば、人の顔）を使用することができる。

もう１つの例として、ＶＴアプリケーションでは、捕捉された画像シーケンスから区分されたＲＯＩオブジェクトは、画像シーケンスエンコーダ内へのインプットであり得る。画像シーケンスエンコーダは、受信者への伝送のために、より高い品質を用いてＲＯＩを符号化する目的で、区分されたＲＯＩオブジェクトにより多くのリソースを割り当てることが可能である。

その他の例は、人物が、生放送もしくは事前記録されたニュース放送または娯楽放送など、情報画像を提示する画像放送アプリケーションを含む。かかるアプリケーションでは、取材記者またはトークショーの司会者など、司会者の顔に対応するＲＯＩオブジェクトを優先的に符号化することが所望される可能性がある。

図１で示されるように、システム１４は、画像源１２から画像シーケンスを受信する。画像源１２は、カメラなど、画像シーケンスを取得する画像捕捉装置、または事前記録された画像シーケンスを記憶する画像アーカイブであり得る。システム１４は、受信された画像シーケンスからＲＯＩオブジェクトを自動的に区分する。ＲＯＩオブジェクト区分システム１４は、ＲＯＩオブジェクト区分処理の間に、画像源１２から取得された画像シーケンスの画像フレームを画像メモリ１６内に記憶する。画像シーケンスの各フレームが処理された後、システム１４は、区分された画像フレームのアウトプット画像をマルチメディア・アプリケーション１８に送る。

例えば、ＲＯＩオブジェクトは、人の顔または頭、および人体の肩の範囲を備え得る。ＲＯＩオブジェクトは、画像フレーム内の「前景」オブジェクトと呼ばれる場合があり、非ＲＯＩ範囲は、画像フレーム内の「背景」範囲と呼ばれる場合がある。ＲＯＩオブジェクト・区分システム１４は、マルチメディア・アプリケーション１８のユーザにとって関心あるものであり得る画像シーケンス内のフレームの１つまたは複数の選択された前景オブジェクトを画像シーケンスの背景範囲から抽出する。マルチメディア・アプリケーション１８は、画像シーケンスから区分されたＲＯＩオブジェクトを優先的に利用することができる。一つの実施形態では、マルチメディア・アプリケーション１８は、顔のデータベース・システムを組み込んだ画像監視アプリケーションを備え得る。もう１つの実施形態では、マルチメディア・アプリケーション１８は、ＲＯＩ動作可能にされた画像エンコーダエンコーダ・デコーダ（ＣＯＤＥＣ）を組み込んだ、画像電話（ＶＴ）アプリケーションを備え得る。

マルチメディア・アプリケーション１８が、画像監視アプリケーションを備える実施形態では、捕捉された画像シーケンスから区分されたＲＯＩオブジェクトは、顔のデータベース・システム内へのインプットであり得る。この場合、画像源１２は、監視カメラからの事前記録された画像シーケンスを記憶する画像アーカイブであり得る。顔のデータベース・システムは、データベース内に記憶された目標顔オブジェクトに正確に整合させるために、区分されたＲＯＩオブジェクト（例えば、人の顔）を使用することができる。警察は、監視画像シーケンスから容疑者を識別するために、顔のデータベース・システムを有するＲＯＩオブジェクト区分システム１４を利用することができる。

マルチメディア・アプリケーション１８がＶＴアプリケーションを備える実施形態では、捕捉された画像シーケンスから区分されたＲＯＩオブジェクトは、ＲＯＩ動作可能にされた画像エンコーダエンコーダへのインプットであり得る。ＶＴアプリケーションは、テレビ会議などのアプリケーションをサポートするために、ユーザが画像および音声の情報を共有することを可能にする。ＶＴシステムでは、ユーザは画像情報を送ることおよび受信すること、単に画像情報を受信すること、または単に画像情報を送ることが可能である。この場合、画像源１２は、カメラなど、画像シーケンスを取得する画像捕捉装置であり得る。例えば、画像源１２は、もう１つの通信装置と画像電話に参加することが可能な通信装置内に含まれたビデオカメラを備え得る。

ＲＯＩ動作可能にされた画像エンコーダは、有線または無線の通信をサポートするために適切な送信電子工学、受信電信工学、モデム電信工学、および処理電子工学をさらに含む通信装置内に常駐し得る。例えば、ＲＯＩ動作可能にされた画像エンコーダは、その他の端末と通信するために装備された無線移動体端末内または有線端末内に常駐し得る。無線移動体端末の例は、移動体無線電話、移動体パーソナル・デジタル・アシスタント（ＰＤＡ）、移動体コンピュータ、または無線通信能力と画像エンコード能力および／またはデコード能力とを備えたその他の移動体装置を含む。例えば、ＲＯＩ動作可能にされた画像エンコーダエンコーダは、ＶＴアプリケーションで使用される、いわゆる、カメラ電話内または画像電話内に常駐し得る。有線端末の例は、デスクトップ・コンピュータ、画像電話、ネットワーク装置、セット・トップ・ボックス、インタラクティブ・テレビなどを含む。

ＲＯＩ動作可能にされた画像エンコーダは、ＲＯＩオブジェクト区分システム１４から受信されたアウトプット画像内に含まれた、区分されたＲＯＩオブジェクトを優先的にエンコードすることができる。例えば、ＲＯＩ動作可能にされた画像エンコーダは、追加のコーディング・ビットを画像フレームのＲＯＩオブジェクトに割り当て、減じられた数のコーディング・ビットを画像フレームの非ＲＯＩ領域に割り当てることができる。移動体アプリケーションでは、特に、画像フレームをエンコードするために利用可能なエンコードビットの量は、少なく、かつ無線チャネル条件に従って変化する可能性がある。したがって、ＲＯＩオブジェクトへのコーディング・ビットの優先的な割り当ては、適用可能なビットレート要件に効率的に準拠すると同時に、ＲＯＩオブジェクトの視覚的品質を改善するのに役立つ可能性がある。したがって、ＲＯＩオブジェクトの優先的なエンコードにより、受信者は、画像シーケンスの非ＲＯＩ領域よりも、より明確にＲＯＩオブジェクトを閲覧することが可能である。エンコードされた画像フレームは、次いで、有線または無線の通信チャネル上でもう１つの通信装置に送信されることが可能である。

上記のように説明したように、ＲＯＩオブジェクト区分システム１４は、画像シーケンスからのＲＯＩ画像オブジェクトの自動区分のための技術を実施することが可能である。開示された技術は、画像シーケンスの画像フレーム内のＲＯＩ特徴（すなわち、顔面および顔の特徴）を検出することと、画像フレームを複数の候補領域に区分することと、画像フレームおよび画像シーケンスのこれまでの画像フレームに基づいて、背景（非ＲＯＩ）減算を実行することとを組み合わせるハイブリッド技術を含む。このようにして、開示された技術は、正確な前景（ＲＯＩ）オブジェクトの生成と、画像シーケンス内のフレームからの前景オブジェクトの低複雑性の抽出とを提供することができる。

開示された技術はまた、対称位置特性および形状特性など、顔の特徴の固有の属性に基づいて、画像シーケンスの画像フレーム内で検出された顔の特徴の検証のための技術も含む。加えて、開示された技術は、画像シーケンスの画像フレーム内の複数の個々の顔に関して検出された顔の特徴の分離のための技術を含む。本明細書で説明されるように、複数の顔の分離技術は、計算処理上の複雑性を指数関数的なものから多項式的なものに低減する最大整合方式問題にマップされ得る。このようにして、これらの技術は、低減された処理要件により、画像シーケンスのフレーム内の各顔に関して正確な特徴検出を提供する。

ＲＯＩオブジェクト区分システム１４は、区分の複数の（例えば、２つの）モード、すなわち、モード内とモード間とをサポートする。モード内区分は、画像シーケンス内のその他のフレームから独立して画像シーケンスのフレームを処理する。この場合、ＲＯＩオブジェクト動作情報は使用されない。モード内区分は、第１の、高複雑性の区分モードである。モード間区分は、これまでのフレーム情報または後続のフレーム情報に基づいて、画像シーケンスのフレームを処理し、一般に、より低い複雑性の区分モードである、第２の、低複雑性の区分モードである。モード間区分は、現在のフレームと画像シーケンスの１つまたは複数のこれまでのフレームまたは後続のフレームの間のＲＯＩオブジェクトに関する動作情報を使用する。したがって、モード間区分は、比較的低複雑性の区分モードである。

ＲＯＩオブジェクト区分システム１４は、１つまたは複数の区分モード決定係数に基づいて、受信されたフレームに対して、モード内区分を実行するか、またはモード間区分を実行するかについて決定することができる。画像フレームに関する動作情報の参照を伴わない画像フレームからのＲＯＩオブジェクトの区分、すなわち、モード内区分は、高複雑性の区分モードが選択された場合に適用される。画像フレームおよび画像シーケンスの異なる画像フレームに関する動作情報に基づく画像フレームからのＲＯＩオブジェクトの区分は、低複雑性の区分モードが選択された場合に適用される。

開示された技術は、フレーム全体の候補領域のセットから、ＲＯＩオブジェクト形状内に配置された画像フレームの定義された領域を自動的に選択することによって、モード内区分の間の前景オブジェクトの生成のための技術をさらに含む。開示された技術はまた、背景モデル形成と減算とに基づいて、モード間区分の間、前景オブジェクト内の移動領域を検出するための技術も含む。移動前景領域を首尾よく検出することは、モード間区分の間、ＲＯＩ特徴検出の性能速度を改善する可能性がある。背景モデル形成および減算技術は、雑音と移動背景領域とに関して頑強である。技術はまた、計算処理上集中的な動作推定演算を用いる移動オブジェクト区分手法よりも、実質的により効率的である。

モード内区分の場合、ＲＯＩオブジェクト区分システム１４は、まず、画像フレーム内の顔面を検出し、次いで、人の目および口など、顔面内の顔の特徴を検出する。システム１４は、次いで、擬似の顔の特徴検出を除去するために、人の顔の特徴の幾何学的属性と形状特性とに基づいて特徴検証を実行する。その後、システム１４は、フレームが２つ以上の人の顔を含むかどうかを判断して、検出された顔の特徴を個々の顔に関するグループに分離する。顔の特徴の幾何学的位置およびＲＯＩ幾何モデルに基づいて、ＲＯＩオブジェクトが概算される。例えば、ＲＯＩ幾何モデルは、人の頭および肩の幾何学モデルを備え得る。

システム１４は、候補領域のセットを生成するために画像フレームに対して領域増大を実行する。システム１４は、次いで、フレーム全体向けの候補領域のセットから、結果として生じるＲＯＩオブジェクト形状内に配置された領域を選択することによって前景オブジェクトを生成する。システム１４は、次いで、２個以上の前景オブジェクトが存在するかどうかを判断して、アウトプット画像向けの組み合わされた前景オブジェクトを形成するために、複数の前景オブジェクトを一緒に統合する。複数の前景オブジェクトを統合すると、適用可能である場合、システム１４は、例えば、監視アプリケーションでの個人識別検出またはＶＴアプリケーションでの優先的なエンコードのために、区分されたフレームのアウトプット画像をマルチメディア・アプリケーション１８に送る。

モード間区分の場合、ＲＯＩオブジェクト区分システム１４は、画像シーケンスの連続する画像フレームの時間的相関性を活かすために、背景モデル形成および減算技術を使用する。このようにして、本明細書で説明される技術は、拡張された効率を提供する。システム１４は、現在のフレームとこれまでのフレームの間のＲＯＩオブジェクト内の移動画素を前景画素として分類する。システム１４は、次いで、前景画素に基づいて、移動前景領域を生成する。システム１４は、次いで、移動前景領域内のＲＯＩ特徴と、これまでのフレーム内の顔面および顔の特徴位置とを検出することができる。このようにして、システム１４は、画像シーケンスの各フレームのための領域区分を実行することの計算処理上の複雑性を低減する。システム１４は、次いで、アウトプット画像にから移動前景領域をこれまでのフレームの前景オブジェクトと統合し、区分されたフレームのアウトプット画像をマルチメディア・アプリケーション１８に送る。

ＲＯＩオブジェクト区分システム１４は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実施され得る。例えば、ＲＯＩオブジェクト区分システム１４の様々な態様は、１つまたは複数のデジタル信号プロセッサ（ＤＳＰ）、マイクロプロセッサ、特定アプリケーション向け集積回路（ＡＳＩＣ）、フィールド・プログラム可能な論理アレイ（ＦＰＧＡ）、または任意のその他の等価の集積論理回路または離散的論理回路、ならびにかかる成分の任意の組合せの範囲内で実施され得る。用語「プロセッサ」は、一般に、単独でまたはその他の論理回路との組合せで、前述の論理回路のいずれかを指す場合があり、かかるプロセッサの１つまたは複数を指す場合がある。ソフトウェアで実施された場合、ＲＯＩオブジェクト区分システム１４に帰される機能性は、ランダム・アクセス・メモリ（ＲＡＭ）、読出し専用メモリ（ＲＯＭ）、不揮発性ランダム・アクセス・メモリ（ＮＶＲＡＭ）、電気的に消去可能でプログラム可能な読取り専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリ、磁気媒体、光媒体など、コンピュータ可読媒体上の命令として実施され得る。命令は、本開示で説明される機能性の１つまたは複数の態様をサポートするために実行される。

図２Ａおよび２Ｂは、画像シーケンスの画像フレーム２２内のＲＯＩオブジェクト２４および非ＲＯＩ領域２５の定義を例示するブロック図である。図２Ｂの例では、ＲＯＩオブジェクトは頭および肩のＲＯＩオブジェクト２４として示される。その他の実施形態では、ＲＯＩオブジェクトは、長方形のＲＯＩオブジェクトまたは曲線的なもしくは不規則な形状を有する可能性がある非長方形のＲＯＩオブジェクトを備え得る。ＲＯＩオブジェクト２４は、画像フレーム２２内に提示された人物の顔２６を含む。非ＲＯＩ領域２５、すなわち、背景は、図２Ｂで影によって強調表示される。

ＲＯＩオブジェクト２４は、図１からのＲＯＩオブジェクト区分システム１４によって画像シーケンスから自動的に区分されることが可能である。ＶＴアプリケーションの場合、通信装置は、ＲＯＩ動作可能にされたエンコーダを用いてＲＯＩオブジェクト２４を優先的にエンコードすることができる。その場合、ＲＯＩオブジェクト２４は、テレビ会議の参加者の顔２６を含む、画像フレーム２２の部分を包括し得る。その他の例は、ストリーミング画像（例えば、情報画像またはニュース放送もしくは娯楽放送）内の情報を提示する人物の顔を優先的にエンコードすることを含む。ＲＯＩオブジェクト２４のサイズ、形状、および位置は、固定され得、または調整可能であり得、様々な方法で定義、説明または調整され得る。

ＲＯＩオブジェクト２４は、画像の送信者が、人物の顔２６など、送信された画像フレーム２２内の個々のオブジェクトを強調することを可能にする。逆に、ＲＯＩオブジェクト２４は、画像の受信者が、受信された画像フレーム２２内の所望されるオブジェクトをより明確に閲覧することを可能にする。いずれの場合も、ＲＯＩオブジェクト２４内の顔２６は、画像フレーム２２の背景領域など、非ＲＯＩ領域２５に対してより高い画像品質でエンコードされる。このようにして、ユーザは顔の表情、唇の動き、目の動きなどをより明確に閲覧することができる。いくつかの実施形態では、ＲＯＩオブジェクトはまた、追加のコーディング・ビットだけでなく、拡張された擬似検出および耐障害性も用いてエンコードされることも可能である。

図３は、画像シーケンスのＲＯＩオブジェクト内に提示されたオブジェクトに関するオブジェクト移動／回転と、形状変形の変化を例示する。特に、図３のフレーム０および１内に描写された人物の頭は、その位置をかなり変える。図３の例では、人物の頭は、フレーム０に対してフレーム１内で傾いている。図４は、画像シーケンスのＲＯＩオブジェクト内の人物に関する顔の表情の変化を例示する。特に、フレーム０および１内に描写された人物の口は、かなり閉じた位置から大きく開いた位置に変化する。したがって、図３および４は、画像シーケンスのＲＯＩオブジェクトの大量の移動の事例を表す。

図５Ａは、図１からのＲＯＩオブジェクト区分システム１４の例示的な動作を示すフローチャートである。ＲＯＩオブジェクト区分システム１４は、画像シーケンスからのＲＯＩオブジェクトの自動的区分のための技術を実施する。上で説明されたように、ＲＯＩオブジェクト区分システム１４は、画像シーケンスを処理するために、モード内区分およびモード間区分の両方をサポートする。

ＲＯＩオブジェクト区分システム１４は、画像源１２から画像シーケンスの第１のフレームを受信する（３０）。ＲＯＩオブジェクト区分システム１４は、受信されたフレームに対してモード内区分を実行する（３２）。モード内区分は、画像シーケンス内のその他のフレームから独立して画像シーケンスの現在のフレームを処理する。モード内区分の場合、ＲＯＩオブジェクト区分システム１４は、ＲＯＩオブジェクト移動情報を使用しない。モード内区分を実行する間、ＲＯＩオブジェクト区分システム１４は、画像シーケンスの受信されたフレームを画像メモリ１６内に記憶する。ＲＯＩオブジェクト区分システム１４は、次いで、区分されたフレームのアウトプット画像をマルチメディア・アプリケーション１８に送る（３４）。

ＲＯＩオブジェクト区分システム１４は、画像源１２から画像シーケンスの次のフレームを受信する（３６）。システム１４は、次いで、受信されたフレームに対して、モード内区分を実行するか、またはモード間区分を実行するかを判断するために、モード決定を行う（３７）。モード決定は、１つまたは複数の区分モード決定係数に基づくことが可能である。例えば、システム１４は、受信されたフレームの計算処理上の複雑性、受信されたフレームのための区分の所望される品質、受信されたフレームとこれまでのフレームの間の類似性の量、受信されたフレームとこれまでのフレームの間の移動活動の量、これまでのフレームのために使用された区分モード、および最後のモード内処理以来、区分されたフレームの数など、区分モード決定係数に基づいて、どの区分モードが受信されたフレームに対して実行されるかを決定することができる。その他の実施形態では、区分モード決定は、追加の区分モード決定計係数に基づくことが可能である。

システム１４がモード内区分を実行しないことを決定する場合（３７の「いいえ」ブランチ）、ＲＯＩオブジェクト区分システム１４は、これまでのフレームに基づいて、受信されたフレームに対してモード間区分を実行する（３８）。この場合、ＲＯＩオブジェクト区分システム１４は、画像シーケンスのこれまでのフレームから（例えば、画像メモリ１６から）動作情報を取り出して、動作情報を現在のフレームとこれまでのフレームの間のＲＯＩオブジェクトのために使用する。モード間区分を実行する間、ＲＯＩオブジェクト区分システム１４は、画像シーケンスの受信されたフレームを画像メモリ１６内に記憶する。ＲＯＩオブジェクト区分システム１４は、次いで、区分されたフレームのアウトプット画像をマルチメディア・アプリケーション１８に送る（４０）。

ＲＯＩオブジェクト区分システム１４は、引き続き画像源１２から画像シーケンスのフレームを受信する。システム１４がモード間区分を実行することを決定した場合（３７の「はい」ブランチ）、ＲＯＩ区分システム１４は、受信されたフレームに対してモード内区分を再び実行する（３２）。したがって、ＲＯＩオブジェクト区分システム１４は、画像源１２から受信された画像シーケンスのフレームのいくつかに対してモード内区分を実行して、画像シーケンスのその他のフレームに対してモード間区分を実行する。

図５Ｂは、図５Ａからの区分モード決定（ステップ３７）をより詳細に例示するフローチャートである。ＲＯＩオブジェクト区分システム１４は、１つまたは複数の区分モード決定係数に基づいて区分モード決定を行うことができる。システム１４は、受信されたフレームに対して実行するための区分のモードを決定するために、図５で例示されたステップの１つまたは複数を実行することができる。いくつかの実施形態では、システム１４は、ステップを個々に実行すること、または任意の順序でステップの１つまたは複数を組み合わせることが可能である。その他の実施形態では、ＲＯＩオブジェクト区分システム１４は、受信されたフレームに対してモード内区分を実行するか、またはモード間区分を実行するかを決定する場合、追加の区分モード決定係数を考慮することができる。

システム１４は、受信されたフレームの計算処理上の複雑性を決定することができる（４６）。例えば、システム１４は、受信されたフレーム内に含まれたＲＯＩ特徴候補の数を決定するために受信されたフレームを調査することができる。フレームが大量のＲＯＩ特徴を含む場合、受信されたフレームは、モード間区分処理がフレームからＲＯＩオブジェクトを正確に区分するにはあまりにも複雑すぎる可能性がある。したがって、システム１４は、高複雑性の画像フレームを処理するために計算処理上の複雑性が所定のレベルより高い場合、モード内区分を実行することを決定することができる。システム１４はまた、最終利用者から区分の所望される品質を決定することもできる（４８）。例えば、ＲＯＩ区分システム１４を実施する画像通信装置の最終利用者が、受信された画像フレームに関して所定のレベルより高い品質の区分を要求する場合、システム１４は、受信されたフレームに対してモード内区分を実行することができる。逆に、最終利用者が受信された画像フレームに関して所定のレベル未満の品質の区分を要求する場合、システム１４は、受信されたフレームに対してモード間区分を実行することができる。

加えて、システム１４は、受信されたフレームとこれまでのフレームの間の類似性の量を決定することが可能である（５０）。例えば、システム１４は、２個のフレームのカラー・ヒストグラム間の類似性の量が所定のレベルより高いかどうかを判断するために、受信されたフレームをこれまでのフレームと比較することができる。２個のフレーム間の大きな色変化は、シーンの変化を表示する可能性がある。この場合、システム１４は、受信されたフレーム内の潜在的な新しいＲＯＩオブジェクトを区分するために、モード内区分を実行することができる。カラー・ヒストグラムが２個のフレーム間で依然として実質的に類似する場合、システム１４はモード間区分を実行することができる。

システム１４は、受信されたフレームとこれまでのフレームの間の動作活動の量を決定することが可能である（５２）。例えば、システム１４は、フレーム内のＲＯＩオブジェクトの位置の間の移動量が所定のレベルより高いかどうかを判断するために、受信されたフレームをこれまでのフレームと比較することができる。ＲＯＩオブジェクトが、２個のフレーム内の実質的に異なる領域または位置を占有する場合、システム１４は、モード内区分を実行することができる。ＲＯＩオブジェクトが、２個のフレーム内の実質的に同じ領域または位置を占有する場合、システム１４はモード間区分を実行することができる。

上のステップで、画像シーケンスのＲＯＩ区分処理は、任意の順序で画像シーケンスの画像フレームに対して実行される任意の数のモード内区分と任意の数のモード間区分とを含み得る。例えば、モード内区分は０として表されることが可能であり、モード間区分は１として表されることが可能である。例示的な画像シーケンス区分において、フレームのセットのモード内区分（０）およびモード間区分状態（１）は、００１１０１１１１０として表されることが可能である。この場合、区分モード決定は、受信されたフレームの属性、または受信されたフレームとこれまでのフレームの間の属性に単に基づく。

システム１４はまた、これまでのフレームを区分するために使用された区分モードに基づいて、受信されたフレームに対してどの区分モードが実行されるかを判断することも可能である。システム１４は、これまでのフレームがモード内処理によって区分されたかどうかを判断することができる（５４）。これまでのフレームがモード内処理によって区分された場合、システム１４は、受信されたフレームをモード間処理によって区分することを決定することができる。このステップでは、画像シーケンスのＲＯＩ区分処理は、モード間区分が常にモード内区分に続くように、画像シーケンスの画像フレームに対して実行される任意の数のモード内区分と任意の数のモード間区分とを含み得る。例示的な画像シーケンス区分において、フレームのセットのモード内（０）およびモード間状態（１）は、０１１０１１１１０１として表されることが可能である。この場合、区分モード決定は、これまでのフレームの区分モードに単に基づく。

さらに、システム１４は、最後のモード内区分されたフレーム以来、区分されたフレームの数を決定することが可能である（５６）。例えば、システム１４は、Ｎ個のフレームごとになど、周期ベースでモード内区分を実行することを決定することができる。場合によっては、第Ｎ番目のフレームは、第１０番目のフレームを備える可能性がある。その他の実施形態では、Ｎは１０個のフレーム以上または以下であり得る。このステップでは、画像シーケンスのＲＯＩ区分処理は、モード内区分が周期的に実行されるように、画像シーケンスの画像フレームに対して実行される任意の数のモード内区分と任意の数のモード間区分とを含み得る。例示的な画像シーケンス区分において、フレームのセットのモード内（０）およびモード間状態（１）は、０１１１０１１１０１として表されることが可能である。この場合、区分モード決定は、第４番目のフレームごとにモード内区分を実行することに基づく。

図６は、画像源１２から受信された画像シーケンスのフレームに対してモード内区分を実行する場合のＲＯＩオブジェクト区分システム１４を例示するブロック図である。この場合、ＲＯＩオブジェクト区分システム１４は、画像シーケンスのその他のフレームから独立して、かつ動作情報なしに、画像シーケンスのフレームを処理する。図７〜１３は、モード内区分の間、ＲＯＩオブジェクト区分システム１４によって実施される技術の例示的な結果を示すスクリーン・ショットである。

図６内に例示された実施形態では、画像シーケンス１２は、クロミナンス・ブルー・チャネル（Ｃｂ）６０と、クロミナンス・レッド・チャネル（Ｃｒ）６１と、輝度チャネル（Ｙ）６２とを含む。ＲＯＩオブジェクト区分システム１４は、画像源１２から受信された画像シーケンスの画像フレームから、人の頭および肩の範囲など、ＲＯＩオブジェクトを自動的に区分するための技術を実施する。開示された技術は、モード内区分の間、特徴ベースおよびモデル・ベースの検出を領域区分と組み合わせるハイブリッド技術を含む。

ＲＯＩオブジェクト区分システム１４は、画像源１２のクロミナンス・ブルー・チャネル６０とクロミナンス・レッド・チャネル６１とから受信されたブルー・チャネルとレッド・チャネルのクロミナンス値に基づいて、画像フレーム内の皮膚色領域を検出する顔面検出器６４を含む。顔面検出器６４は、次いで、検出された皮膚色領域の画素を顔の画素として分類する。このようにして、顔面検出器６４は、受信されたフレーム内の顔の画素でない画素を除去することによって顔面を取得することができる。顔面が取得された後で、顔面検出器６４は、目および口の領域など、顔の特徴による顔面内の雑音およびホールを除外するために膨張および侵食の数学的な形態的演算を使用する。図７は、標準「母と娘」画像テスト系列のフレームに関する迅速な顔面検出の例を示す。

一般に、顔面検出器６４は、ＹＣｂＣｒ色空間内に狭くかつ一貫して分布されたクロミナンス値のある種のセットの存在によって、画像フレーム内の皮膚色領域を識別することが可能な皮膚色マップを使用する。皮膚色マップは、異なる種類の皮膚色に対してロバストである。人類の皮膚色は、主に皮膚の黒さと白さによって異なって認識される。すなわち、皮膚色は、ＣｒまたはＣｂではなく、Ｙによって支配される色の明るさの違いによって特徴付けられる。したがって、効果のある皮膚色マップは、受信されたフレームのＣｒおよびＣｂの成分だけに基づいて実現され得る。顔面検出器６４は、受信された画像フレーム内の皮膚色領域を検出するために、Ｃｒ∈［１３３，１７３］およびＣｂ∈［７７，１２７］の範囲の有するＣｂＣｒ皮膚色マップを利用することが可能である。Ｃｒ範囲およびＣｂ範囲は、限定的なものと考えるべきではなく、顔面検出器６４は、異なるＣｒ範囲およびＣｂ範囲を有する皮膚色マップを利用することが可能である。

場合によっては、顔面検出器６４は、人の顔を排他的に取得することができない可能性がある。図７で例示されたように、フレーム内の母と娘の衣類の領域は、皮膚の色調マップによって定義されるものに類似した色調を有するようである。したがって、顔面検出器６４は、衣類の領域を誤って顔面の一部として選択する可能性がある。本明細書で説明される迅速な顔面検出ステップは、フレーム内の顔でない一部の領域を除外するが、正確な顔の領域を取得および検証するためにさらなる処理が必要とされる可能性がある。

システム１４は、顔面内の顔の特徴候補を検出する目検出器６６および口検出器６７と、目および口の候補から顔の特徴を選択する特徴検証モジュール６８とを含む。顔フィルタは、一般に、顔の領域の楕円形状、および顔の特徴の中の全体的な空間的関係制約など、人の顔およびそれらの特徴の一般知識に基づいて構築される。したがって、これらの顔の特徴の位置を突き止めることは、画像フレーム内のおよその顔の位置を導出する際に有用である。

目検出器６６は、顔面検出器６４によって取得された顔面内の目の特徴候補を検出する。目検出器６６は、２つの考察に基づいて目の特徴候補を検出する。第１に、目の周りのクロミナンス成分は、通常、高いＣｂ値と低いＣｒ値とを含む。したがって、目検出器６６は、下で提示される方程式（１）に基づいてフレームのクロミナンス目マップを構築することができる。

クロミナンス目マップが取得されると、目検出器６６は、目の候補に関して目マップ内の最も明るい領域の位置を突き止めるために、しきい値を目マップ内の各画素のクロミナンス（Ｃ）目マップ値に適用することができる。目検出器６６は、次いで、実質的に近接した最も明るい領域を単一の目の候補に統合するために、形態的演算を適用する。図８Ａは「母と娘」画像テスト系列のフレームのクロミナンス目マップ内の目の検出の例を示す。

第２に、目は、通常、輝度成分内に黒い画素および明るい画素の両方を含む。したがって、目の領域の回りの輝度成分内のより明るい画素とより暗い画素とを強調するために、グレー・スケール形態的演算が使用され得る。目検出器６６は、下で提示される方程式（２）に基づいてフレームの輝度目マップを構築することができる。

輝度目マップが取得されると、目検出器６６は、目の候補に関して目マップ内の最も明るい領域の位置を突き止めるために、しきい値を目マップ内の各画素の輝度（Ｌ）目マップ値に適用することができる。目検出器６６は、次いで、実質的に近接した最も明るい領域を単一の目の候補に統合するために、形態的演算を適用する。図８Ｂは、「母と娘」画像テスト系列のフレームの輝度目マップ内の目の検出の例を示す。

目検出器６６は、顔面内の最終的な目の候補を見つけるために、（図８Ａで示された）クロミナンス目マップ内で検出された目の候補を、（図８Ｂで示された）輝度目マップ内で検出された目の候補と組み合わせる。しかし、場合によっては、最終的な目の候補は、依然として不正確な目の候補を含む場合がある。これらの異質の目の候補は、後に特徴検証処理の間に除外され得る。

口検出器６７は、顔面検出器６４によって取得された顔面内の口の特徴候補を検出する。一般に、口領域の色は、その他の顔の領域よりも、より強い赤色成分と、より弱い青色成分とを含む。したがって、口領域では、クロミナンス成分Ｃｒはクロミナンス成分Ｃｂよりも多いはずである。しかし、口領域は、Ｃｒ／Ｃｂ特徴内で比較的低い反応を有するが、Ｃｒ^２特徴内で比較的高い反応を有する。口検出器６７は、下で提示される方程式（３）および（４）に基づいてフレームの口マップを構築することができる。

口マップが取得されると、口検出器６７は、口の候補に関して口マップ内の最も明るい領域の位置を突き止めるために、しきい値を口マップ内の各画素の口（Ｍ）値に適用することができる。口検出器６７は、次いで、実質的に近接した最も明るい領域を単一の口の候補に統合するために、形態的演算を適用する。図９は、「母と娘」画像テスト系列のフレームの口マップ内の口の検出の例を示す。

特徴検証モジュール６８は、目および口の候補から正確な顔の特徴を選択するために、目検出器６６と口検出器６７とによって顔面内で検出された顔の特徴候補を検証する。特徴検出モジュール６８は、頑強なＲＯＩ特徴検出処理を確実にする。上で説明された目および口のマップ処理は、目および口の領域を分類する際に効果があるが、いくつかの誤った分類は、依然として、擬似の顔の特徴検出という結果をもたらす可能性がある。特徴検証モジュール６８は、顔面内で顔の特徴候補を検証して、任意の擬似の顔の特徴検出を除去するために、３つの検証ステップを実行する。

第１に、顔の形態学の点から、顔の特徴は、一般に、領域内の高輝度コントラストによって特徴付けられる「くぼみ」領域、すなわち、陥凹領域内に配置されることが観察される。したがって、特徴検出モジュール６８は、グレー・スケール近接・膨張形態的演算を実行することによって、くぼみ領域を識別する。特徴検証モジュール６８は、次いで、フレーム内の顔の特徴候補の位置をフレーム内のくぼみ領域の位置と比較する。顔の特徴候補が、検出されたくぼみ領域の範囲に少なくとも一部重複しない場合、特徴検証モジュール６８は、その顔の特徴候補を考慮から除外することになる。したがって、顔の特徴候補を保持するために、特徴検証モジュール６８は、特徴と識別されたくぼみ領域のうちの１つとの相関性を要求する。図１０Ａは、「母と娘」画像シーケンスのフレーム内で識別されたくぼみ領域を例示する。

第２に、特徴検証モジュール６８は、フレーム内の対称位置および形状特徴など、目の対の固有の属性に基づいて目の特徴候補を検証する。図１０Ｂは、それぞれの重心Ｏ_１およびＯ_２を有する目の対の固有の属性を例示する。例えば、２つの目は、｜ＡＯ_１｜＝｜ＡＯ_２｜であるように、顔の主軸Ａに関して対称であり、両目は類似範囲を有し、両目は、軸ＯＡに対して投影することによって比較され得る類似の形状を有する。２つの目はまた、それぞれのＰＣＡ（主成分分析）軸、すなわち、ＰＣＡ_１およびＰＣＡ_２に関しても対称である。加えて、眉は、通常、２つの目の上に検出され得る。

特徴検証モジュール６８は、顔面内の目の特徴候補を検証するために、重み付けされた得点システムを利用することができる。この場合、特徴検出モジュール６８は、目の対の属性に基づいていくつかの基準をチェックして、基準の各々に関して得点を提供する。例えば、特徴検証モジュール６８は、目の重心位置がくぼみ領域内部にあるかどうかを判断する。次に、特徴検証モジュール６８は、目の重心の位置と検出された虹彩とが実質的に近接しているかどうかを判断する。虹彩の位置は、目の中の輝度値を横軸と縦軸とに投影して、累算された最低総輝度値に対応するポイントを識別することによって発見され得る。特徴検証モジュール６８は、次いで、眉が目の上に発見されるかどうかを判断する。次に、特徴検証モジュール６８は、目のＰＣＡ軸が合理的な方向の範囲内にあるかどうかを判断するが、これは典型的な人の目の対の経験的な特徴から判断され得る。特徴検証モジュール６８は、次いで、目が合理的な距離内に目の対を有するかどうかを判断するが、これも経験的な特徴から判断され得る。次に、特徴検証モジュール６８は、軸ＯＡに従って、目の対が対称的なＰＣＡ軸を有するかどうかを判断する。特徴検証モジュール６８は、次いで、軸ＯＡに従って、目の対が対称的形状を有するかどうかを判断する。

特徴検証モジュール６８は、候補から正確な顔の特徴を選択して、画像フレームの顔の特徴マップを構築するために、上で説明された各基準からの得点を累算する。様々な個々の基準に関して決定された得点は、等しく重み付けされることが可能であり、またはその他の基準に対して１つまたは複数の基準を強調するために、異なって重み付けされることも可能である。特徴検証モジュール６８は、事前設定されたしきい値未満の累積得点を有するそれらの顔の特徴候補として擬似検出を識別する。特徴検証モジュール６８は、次いで、それらの誤って検出された顔の特徴候補を除外する。

第３に、特徴検証モジュール６８は、顔の特徴マップ内の２つの目の候補および１つの口の候補のあらゆる可能な組合せから目と口の三角形を検証する。特徴検証モジュール６８は、まず、目と口の三角形の幾何学的形状と方向性とを精査して、合理的でない目と口の三角形をさらなる考察から除外する。合理的でないと見なされる目と口の三角形は、典型的な人に関して経験的に決定された目と口の三角形形状の範囲に実質的に整合しないそれらのものである。図１０Ｃは、「母と娘」画像シーケンスのフレームの顔の特徴マップ内の２つの可能な目と口の三角形（破線）を例示する。特徴検証モジュール６８は、次いで、目と口の三角形範囲の勾配特性を検証するためにテンプレートを使用する。人の顔は３次元（３Ｄ）オブジェクトであるため、顔の領域の全体にわたる輝度は不均等になりがちである。正規の目と口の三角形範囲は、顎など、その他の顔の範囲よりも勾配情報をより複雑にする鼻を含むべきである。目と口の三角形範囲から利用可能なより識別可能な勾配情報を使用して、特徴検証モジュール６８は、画像フレーム内の顔に関して正確な目および口の候補を選択することができる。

システム１４はまた、特徴検証モジュール６８によって選択された顔の特徴をフレーム内の個々の顔に関するグループに分離する複数の顔分離モジュール７０も含む。画像フレーム内に２つ以上の顔を含む母と娘系列などの画像シーケンスでは、複数の顔分離モジュール７０は、目および口の候補のセットを異なる顔に対応するグループに分離する。このタスクの困難は三重である。第１に、画像フレーム内に含まれる顔の総数は知られていない。第２に、いくつかの顔の特徴は、画像フレーム内で検出されていない可能性がある。第３に、すべての潜在的な顔の特徴グループの組合せの網羅的なチェックは、指数関数的な計算処理上の複雑性を有する。問題を、目を口と対にするタスクに簡素化することによって、元の問題は多項式的な計算処理上の複雑性を有するグラフ理論問題にマップされ得る。結果として生じる、計算処理上の複雑性の抑圧は、限定された電力および処理リソースを有する移動体アプリケーション、ならびに高速の、場合によっては、リアルタイムの結果を要求するその他のアプリケーションを含めて、多くのアプリケーションにとって非常に望ましい可能性がある。

グラフ理論を適用して、複数の顔分離モジュール７０は、頂点セットＶ＝｛口｝＋｛目の対｝と輪郭線セットＥ＝｛（ｖ_ｉ，ｖ_ｊ）｝とを有する偶グラフＧ＝（Ｖ，Ｅ）を考慮し、ｖ_ｉおよびｖ_ｊは異なるセットに属し、ノードｖ_ｉおよびｖ_ｊの間の距離は合理的な範囲内である。整合するＳが、Ｓ内の２つの輪郭線が同じ頂点に付随するものまたは直接的に連結された頂点でないように、Ｅのサブセットとして定義された場合、問題は最大整合方式問題になる。このように、元の最大整合方式問題定義では、整合に対する制約は、Ｓ内の２つの輪郭線が同じ頂点に付随しないことだけを要求するため、複数の顔分離処理は元の最大整合方式問題の可変要素である。

複数の顔分離問題を元の最大整合方式問題に変換する可能性を観察することは重要である。（ｖ_ｉ，ｖ_ｋ）∈Ｅ，（ｖ_ｊ，ｖ_ｋ）∈Ｅであるが

であるようにｖ_ｋが存在する、輪郭線セットＥ’＝｛（ｖ_ｉ，ｖ_ｊ）｝が輪郭線セットをＥからＥ∪Ｅ’に拡張した後で定義された場合、結果として生じる整合がＥ∪Ｅ’の代わりにＥのサブセットでなければならないように、追加の制約が含まれなければならない点を除いて、問題は元の最大整合方式問題になる。したがって、複数の顔分離モジュール７０は、多項式時間の複雑性における複数の顔分離問題を解決することができる。

システム１４は、ＲＯＩオブジェクト幾何モデルに基づいて、画像フレーム内の各顔に関してＲＯＩオブジェクト形状を概算するオブジェクト形状概算モジュール７２を含む。例えば、ＲＯＩオブジェクト形状は、人の頭および肩の幾何モデルに基づいて、フレーム内で概算され得る。特徴検証モジュール６８が顔に関して正確な目と口の三角形を取得した後で、オブジェクト形状概算モジュール７２は、目と口の三角形のノード間の幾何学的関係に基づいて、ＲＯＩオブジェクト形状（例えば、頭および肩のモデル）を構築することができる。

モード内区分の間の性能を加速するために、オブジェクト形状概算モジュール７２は、人の頭および肩のオブジェクト形状など、ＲＯＩオブジェクト形状を概算するために簡単な長方形モデルを使用することが可能である。画像フレーム内に２つ以上の顔を含む画像シーケンスの場合、複数の顔分離モジュール７０が目および口の候補を異なる顔に関するグループに分離した後、オブジェクト形状概算モジュール７２は、個別の目と口の三角形に基づいて顔の各々に関してＲＯＩオブジェクト形状を概算する。例えば、オブジェクト形状概算モジュール７２は、画像フレーム内に含まれた各顔に関して頭および肩のオブジェクト形状を概算することができる。図１１は、「母と娘」画像テスト系列のフレーム内で各顔に関して定義された頭および肩のオブジェクト形状を例示する。

ＲＯＩオブジェクト区分システム１４はまた、フレーム全体に対してスプリット・統合領域増大を実行する領域区分モジュール７４も含む。領域区分モジュール７４は、元のフレームを複数の同種の候補領域に分割する。スプリット・統合領域増大を実行する場合、領域区分モジュール７４は、画像フレーム内の隣り合う画素間の関係を、類似するクラスと異なるクラスとに分類する。領域類似性は、領域内の平均画素輝度値に基づいて決定され得る。領域区分モジュール７４は、次いで、連結された類似する画素を小さな領域にクラスタ化して、最低数の候補領域を形成するために、それらの領域を統合し続ける。図１２は、画像フレームが当初１１９５個の領域に分割され、次いで、２２個の候補領域が生成されるまで領域が統合される領域増大処理を例示する。

システム１４は、フレーム全体内の候補領域から、概算されたＲＯＩオブジェクト形状内に配置されたフレームの領域を自動的に選択するオブジェクト生成モジュール７６をさらに含む。選択された領域は前景領域と見なされることが可能であり、選択されなかった領域は、背景領域と見なされることが可能である。オブジェクト生成モジュール７６は、次いで、前景領域に基づいて前景オブジェクトを生成する。

オブジェクト生成モジュール７６は、オブジェクト形状概算モジュール７２によって概算されたＲＯＩオブジェクト形状内に配置された、領域区分モジュール７４によって生成された候補領域のセットだけから領域を選択する。上で説明されたように、ＲＯＩオブジェクト形状は、ＲＯＩオブジェクト（例えば、顔）を含む長方形範囲を備えることが可能であり、ＲＯＩオブジェクト形状のサイズは、顔に関して選択された目と口の三角形に基づいて推定され得る。このようにして、さらなる処理は、画像フレーム全体内での代わりにＲＯＩオブジェクト形状内で行われ得る。

オブジェクト生成モジュール７６は、領域区分モジュール７４によって生成された画像フレーム内の候補領域の各々を調査して、領域がＲＯＩオブジェクト形状内に配置されるかどうかを判断する。オブジェクト生成モジュール７６は、ＲＯＩオブジェクト形状内の総画素の事前定義された割合（例えば、６０％）を超える総画素を有する領域を前景領域と見なすことができる。オブジェクト生成モジュール７６は、次いで、ＲＯＩオブジェクト形状内の総画素の事前定義された割合未満の総画素を有する画像フレーム内の残りの領域を背景領域と見なすことができる。このようにして、オブジェクト生成モジュール７６は、画像フレーム内の前景領域から前景オブジェクトを生成する。

最後に、システム１４は、フレーム内の複数の前景オブジェクトを最終的なアウトプット画像に統合するオブジェクト融合モジュール７８を含む。２個以上の前景オブジェクトを含む画像シーケンスの場合、オブジェクト融合モジュール７８は、アウトプット画像を形成するために前景オブジェクトを統合する。図１３は、画像フレーム内の顔の各々に関する前景オブジェクトの生成と、２個の前景オブジェクトを統合することによるアウトプット画像の生成とを例示する。ＲＯＩオブジェクト区分システム１４は、次いで、区分されたフレームのアウトプット画像をマルチメディア・アプリケーション１８に送る。

図１４は、モード内区分を実行するＲＯＩオブジェクト区分システム１４の動作を例示するフローチャートである。動作は、本明細書で、図７で例示されたＲＯＩオブジェクト区分システム１４を参照して説明される。ＲＯＩオブジェクト区分システム１４は、画像源１２から画像シーケンスのフレームを受信する（８０）。モード内区分の場合、ＲＯＩオブジェクト区分システム１４は、画像シーケンスのその他のフレームから独立して、かつ動作情報なしに、画像シーケンスの受信されたフレームを処理する。

顔面検出器６４は、画像フレーム内で識別された皮膚色領域に基づいて、受信されたフレーム内の顔面を検出する（８２）。顔面検出器６４は、次いで、識別された皮膚色領域の画素を顔の画素として分類する。このようにして、顔面検出器６４は、受信されたフレーム内の顔の画素ではない画素を除去することによって顔面を取得することができる。

目検出器６６および口検出器６７は、次いで、顔面内の顔の特徴候補を検出する（８４）。目検出器６６は、顔面内の画素のクロミナンス値と輝度値とに基づいて、目の特徴候補を検出することができる。装着検出器６７は、顔面内の画素のクロミナンス値に基づいて、口の特徴候補を検出することができる。特徴検証モジュール６８は、正確な顔の特徴を選択するために、目検出器６６と口検出器６７とによって検出された顔の特徴候補の検証を実行する。

ＲＯＩオブジェクト区分システム１４は、次いで、受信された画像フレームが２つ以上の顔を含むか否かを判断する（８７）。画像フレームが２つ以上の顔を含む場合、複数の顔分離モジュール７０は、特徴検証モジュール６８によって選択された顔の特徴をフレーム内に含まれた個々の顔に関するグループに分離する（８８）。オブジェクト形状概算モジュール７２は、次いで、特徴検証モジュール６８によって選択された顔の特徴によって定義されたＲＯＩオブジェクト幾何モデルに基づいて、画像フレーム内の各顔に関してＲＯＩオブジェクト形状を概算する（９０）。例えば、頭および肩のオブジェクト形状は、正確な目と口の三角形の位置に基づいて、フレーム内の各顔に関して概算され得る。

領域区分モジュール７４は、フレーム全体に対してスプリット・統合領域増大を実行する（９２）。領域区分モジュール７４は、元のフレームを複数の同種の候補領域に分割する。オブジェクト生成モジュール７６は、次いで、フレーム全体内の候補領域から、概算されたＲＯＩオブジェクト形状内に配置されたフレームの領域を選択する。選択された領域は前景領域と見なされることが可能であり、選択されなかった領域は背景領域と見なされることが可能である。オブジェクト生成モジュール７６は、次いで、前景領域に基づいて前景オブジェクトを生成する（９４）。

ＲＯＩオブジェクト区分システム１４は、画像フレームが２個以上の前景オブジェクトを含むかどうかを判断する（９５）。画像フレームが２個以上の前景オブジェクトを含む場合、オブジェクト融合モジュール７８は、フレーム内の前景オブジェクトを最終的なアウトプット画像に統合する（９６）。ＲＯＩオブジェクト区分システム１４は、次いで、区分されたフレームのアウトプット画像をマルチメディア・アプリケーション１８に送る（９８）。

図１５は、画像源１２から受信された画像シーケンスのフレームに対してモード間区分を実行する場合のＲＯＩオブジェクト区分システム１４を例示するブロック図である。この場合、ＲＯＩオブジェクト区分システム１４は、現在のフレームと画像メモリ１６内に記憶されたこれまでのフレームまたは後続のフレームの間のＲＯＩオブジェクトに関する動作情報に基づいて画像シーケンスのフレームを処理する。図１６および１７は、モード間区分の間、ＲＯＩオブジェクト区分システム１４によって実施された技術の例示的な結果を示すスクリーン・ショットである。いくつかの実施形態では、ＲＯＩオブジェクト区分システム１４は、画像シーケンスのフレームのいくつかに対して、図６〜１４で説明されたように、モード内区分を実行し、１つまたは複数の区分モード決定係数に基づいて、画像シーケンスのその他のフレームに対して、下で説明されるように、モード間区分を実行することができる。

上で説明されたように、ＲＯＩオブジェクト区分システム１４は、画像源１２から受信された画像シーケンスの画像フレームから、人の頭および肩の範囲など、ＲＯＩオブジェクトを自動的に区分するための技術を実施する。ＲＯＩオブジェクト区分システム１４は、ＲＯＩオブジェクトに関する動作情報に基づいて、モード間区分を実行する。開示された技術は、背景モデル形成と減算とに基づいて、前景オブジェクト内の移動領域を検出するための技術を含む。移動前景領域を首尾よく検出することは、モード間区分の間、ＲＯＩ特徴検出の性能速度を改善する可能性がある。

図１５で例示された実施形態では、画像源１２は、この場合も、クロミナンス・ブルー・チャネル（Ｃｂ）１００と、クロミナンス・レッド・チャネル（Ｃｒ）１０１と、輝度チャネル（Ｙ）１０２とを含む。ＲＯＩオブジェクト区分システム１４は、図１５で例示されたように、モード間区分を実行する場合、背景減算モジュール１１２をさらに含む。この場合、ＲＯＩオブジェクト区分システム１４はまた、図６で例示されたモード内区分を実行する場合に使用される成分も含む。例えば、ＲＯＩオブジェクト区分システム１４は、図６からの顔面検出器６４と、目検出器６８と、口検出器６７とを備える、ＲＯＩ特徴検出器１０４を含む。加えて、ＲＯＩオブジェクト区分モジュール１４は、図６で対応する成分に類似した方法で動作することが可能な、特徴検証モジュール１０６、複数の顔分離モジュール１０８、オブジェクト形状概算モジュール１１０、領域区分モジュール１１４、オブジェクト生成モジュール１１６、およびオブジェクト融合モジュール１１８も含む。

背景減算モジュール１１２は、モード間区分をサポートするために、ＲＯＩ特徴検出器１０４および領域区分モジュール１１４と相互作用する。背景減算モジュール１１２を用いて、システム１４は、画像シーケンス内の異なる画像フレームに対する移動を表す、画像フレームの移動前景領域を識別する。特に、移動前景領域を識別するために、背景減算モジュール１１２は、画像フレームのＲＯＩオブジェクト内の画素の第１の位置を異なる画像フレーム（例えば、画像シーケンス内のこれまでのフレーム）内の画素の第２の位置と比較する。

背景減算モジュール１１２は、次いで、第２の位置から移動していない画素を背景画素として分類して、第２の位置から移動した画素を前景画素として分類する。移動前景領域は、識別された前景画素に基づいて識別される。システム１４は、次いで、移動前景領域と異なる（例えば、これまでの）画像フレーム内でこれまで識別された前景領域とに対応する画像フレームの組み合わされた前景領域内のＲＯＩ特徴を検出する。検出されたＲＯＩ特徴に基づいて、形状概算モジュール１１０は、画像フレーム内のＲＯＩオブジェクトの形状を概算する。

背景減算モジュール１１２は、画像シーケンスの連続する画像フレームの時間的相関性を活かす。背景減算モジュール１１２は、画像源１２から受信された画像シーケンスのＲＯＩオブジェクト内の画素の画素単位の分類処理を行う。このようにして、背景減算モジュール１１２は、現在のフレームと画像メモリ１６から取り出された画像シーケンスのこれまでのフレームまたは後続のフレームの間の動作情報に基づいて、現在のフレームのどの画素が背景画素であるかを判断する。すなわち、背景減算モジュール１１２は、前景オブジェクトの移動領域を迅速かつ効率的に発見するために、モード間動作で利用可能な追加の情報を使用する。この場合も、背景減算モジュール１１２は、それらのこれまでの位置から移動していない、現在のフレームのそれらの画素を背景画素として分類する。背景減算モジュール１１２は、次いで、それらのこれまでの位置から移動したそれらの画素を前景画素として分類する。このように、背景減算モジュール１１２は、より効率的であり、かつより低い複雑性を有する。

背景減算モジュール１１２は、１つまたは複数の利点を提供することが可能である。例えば、顔面の探索空間は、画像全体から、移動前景領域に加えて組み合わされた前景領域と見なされ得る、これまでのフレームからの顔面領域に低減され得る。加えて、顔の特徴は、移動前景領域内にあるかまたはこれまでのフレームと同じ位置内にあることになる。もう１つの可能な利点として、連結された移動前景領域は、同種の領域として処理されることが可能である。

図１６は、「母と娘」画像シーケンスのフレーム間の画素動作に基づく、前景画素分類の例を示す。図１６で、フレーム８から１０までの前景オブジェクトの移動はやや小さいため、背景減算モジュール１１２は、頭の画素の部分だけを前景画素として分類し、一方、体の画素は初めの１０個のフレームの間、静的である。

画素単位の分類処理を実行するために、背景減算モジュール１１２は背景モデルを適用する。特に、背景減算モジュール１１２は、画素輝度（例えば、Ｋ＝５）をモデル形成するために、Ｋガウス分布の混合を適合させ、各ガウスは、それにより観察された背景を説明する周波数に従って重み付けされる。したがって、前景領域内の一定の画素が時間ｔの時点で輝度Ｘ_ｔを有する確率は、

として推定され、ｗ_ｉ，ｔは、正規化された重みμ_ｉであり、σ_ｉは第ｉ番目の分布の平均値かつ標準偏移である。

各画素変化の混合モデルのパラメータとして、背景減算モジュール１１２は、混合のどのガウスが背景処理によって生み出される可能性が最も高いかを判断する。発見的情報に基づいて、背景減算モジュール１１２は、最もサポートする証拠と最小の分散とを有するガウス分布を選択する。Ｋ分布がｗ／σの値に基づいて順序付けられるのはこの理由からである。モデルのこの順序付けは、効果的に順序付けられたリストであり、最も可能性のある背景分布は上にとどまり、可能性の低い過渡背景分布は下に引き付けられる。背景減算モジュール１１２は、下に提示された方程式（６）に基づいて、最も可能性のある分布モデルを発見することができる。

しきい値Ｔは、背景に与えられたわずかな総重みである。

次いで、背景減算モジュール１１２は、整合が発見されるまで、既存のＫガウス分布に対して新しい画素をチェックする。背景減算モジュール１１２は、分布の平均値と新しい画素値の間の距離が、分布の２．５平均偏移内である場合、整合を発見する。Ｋ分布のいずれも現在の画素値と整合しない場合、ｗ／σの最も小さい値を有する、可能性が最も低い分布は、平均値として現在の新しい画素値と、当初の高い分散と、低い先行重みとを有する新しい分布と取り替えられる。一般に、新しい画素値は、Ｋガウス分布の混合モデルの主な成分のうちの１つによって常に表されることが可能である。この整合された分布がＢ背景分布のうちの１つである場合、新しい画素は背景として印される。そうでない場合、画素は前景として印される。

混合モデルをアダプティブに維持するために、背景減算モジュール１１２は、新しい画素値を用いてモデルパラメータを連続的に更新する。整合されたガウス分布の場合、背景減算モジュール１１２は、この新しい画素値Ｘ_ｉを用いて時間ｔですべてのパラメータを更新する。加えて、背景減算モジュール１１２は、先行重みを、

として更新し、平均値と分散とは、

として更新され、αは学習レート制御適合速度であり、１／αは変化を決定する時間定数を定義し、ρは、学習レートαによって基準化された現在の画素に関連する確率性である。したがって、ρは、

によって表されることが可能である。整合されない分布の場合、平均値μ_ｔと分散σ_ｔとは、依然として変化せず、一方、背景減算モジュール１１２は先行重みを、

として更新する。

この更新方法の１つの利点は、背景減算モジュール１１２が、オブジェクトが背景の一部になることを可能にする場合、元の背景モデルが破棄されないことである。すなわち、元の背景分布は、可能性が最も低い分散になり、新しい色が観察されるまで混合の形で残る。したがって、この静的オブジェクトが偶然再び移動する場合、背景減算モジュール１１２は、これまでの背景分布をモデルに迅速に再度組み込むことになる。

背景減算モジュール１１２が移動画素を前景画素として分類すると、領域区分モジュール１１４は、画像フレームの移動前景領域を生み出すために、前景画素に対してスプリット・統合領域増大を実行することが可能である。このようにして、分類された前景画素は、領域増大手法から取得された領域を統合するために、かつそれにより前景領域を形成するために使用される。特に、スプリット・統合増大技術を用いた背景減算の結果として生じた移動前景領域を融合することによって、前景オブジェクトの移動領域が取得され得る。

前景画素を検出して、移動前景領域を生み出すことは、モード間区分処理の頑強さを高めて、ＲＯＩ特徴検出の性能を加速する可能性がある。ＲＯＩ特徴に関する探索は、移動前景領域とこれまでのフレームの顔面によって形成された前景領域とを含めて、組み合わされた前景領域に限定され得る。図１７は、「母と娘」画像シーケンスの画像フレームの背景範囲から抽出された移動前景領域を例示する。

ＲＯＩオブジェクト区分システム１４は、次いで、モード間区分処理を完了するために、上で説明されたモード内区分を実行するために使用されたのと実質的に類似の技術を使用することが可能である。例えば、ＲＯＩ特徴検出器１００は、移動前景領域によって形成された組み合わされた前景領域内の顔面および顔の特徴と、これまでのフレーム内の顔面および顔の特徴の位置とを検出する。このようにして、背景減算モジュール１１２は、画像フレーム全体内でＲＯＩ特徴検出を実行することの計算処理上の複雑性を低減する。オブジェクト融合モジュール１１８は、次いで、アウトプット画像を形成するために前景オブジェクトを統合する。ＲＯＩオブジェクト区分モジュール１４は、区分されたフレームのアウトプット画像をマルチメディア・アプリケーション１８に送る。

例示された実施形態では、新しい顔または新しい顔の特徴は画像シーケンスの間に導入されない。したがって、ＲＯＩオブジェクト区分システム１４は、ＲＯＩ特徴検出器１０４とオブジェクト形状概算モジュール１１０の間で拡張する破線によって表示されるように、モード間区分を実行する場合、特徴検証モジュール１０８と、複数の顔分離モジュール１０８とを省略することができる。特に、これまでのフレーム内のオブジェクトがかなりの移動を提示しないことを意味する、検出された顔の特徴がこれまでのフレーム内の特徴に近接して配置される場合、現在のフレームのオブジェクトは、特徴検証モジュール１０６および複数の顔分離モジュール１０８の機能を適用する必要なしに、オブジェクト形状概算モジュール１１０とオブジェクト生成モジュール１１６とを使用して迅速に生成され得る。

その他の点では、新しい顔または新しい顔の特徴が導入される場合、処理全体が適用される。すなわち、特徴検証モジュール１０６と、複数の顔分離モジュール１０８と、オブジェクト形状概算モジュール１１０と、オブジェクト生成モジュール１１６とが適用される。オブジェクト生成モジュール１１６では、連結された移動前景領域は同種の領域として処理される。オブジェクト融合モジュール１１８は、アウトプット画像を形成するために、前景オブジェクトを統合する。ＲＯＩオブジェクト区分システム１４は、区分されたフレームの画像をマルチメディア・アプリケーション１８に送る。

顔面および顔の特徴検出器１００は、モード間区分の間、画像フレーム内の追加のＲＯＩ特徴を検出することが可能である。この場合、ＲＯＩオブジェクト区分システム１４は、新たに検出された顔の特徴を検証するために、特徴検証モジュール１０６を使用することができる。加えて、システム１４は、画像フレーム内に含まれた新しい顔に関して、複数の顔分離モジュール１０８と、その後に続く、オブジェクト形状概算モジュール１１０と、オブジェクト生成モジュール１１６とを使用することができる。

図１８は、モード間区分を実行するＲＯＩオブジェクト区分システム１４の動作を例示するフローチャートである。動作は、本明細書で、図１５で例示されたＲＯＩオブジェクト区分システム１４を参照して説明され、ＲＯＩオブジェクト区分システム１４は、画像源１２から画像シーケンスのフレームを受信して、画像メモリ１６から画像シーケンスのこれまでのフレームを取り出す（１２０）。モード間区分の場合、ＲＯＩオブジェクト区分システム１４は、現在のフレームと画像シーケンスのこれまでのフレームの間のＲＯＩオブジェクトに関する動作情報に基づいて画像シーケンスのフレームを処理する。いくつかの実施形態では、ＲＯＩオブジェクト区分システム１４は、あるいはまたは加えて、後続の画像フレームに関するＲＯＩオブジェクト動作を表示する動作情報を使用する。

背景減算モジュール１１２は、これまでのフレームと現在のフレームの間のＲＯＩオブジェクト内の移動画素を前景画素として分類するために、受信された画像フレームに対して背景減算を実行する（１２２）。背景減算モジュール１１２は、現在のフレームのどの画素がこれまでのフレーム内のそれらのこれまでの位置から移動したかを決定するために、画素単位の分類処理を行う。背景減算モジュール１１２が移動画素を前景画素として分類すると、領域区分モジュール１１４は、画像フレームの移動前景領域を生み出すために、前景画素に対してスプリット・統合領域増大を実行することができる（１２４）。

ＲＯＩオブジェクト区分システム１４は、次いで、モード間区分処理を完了するために、上で説明されたモード内区分を実行するために使用されたのと実質的に類似の技術を使用することが可能である。ＲＯＩ特徴検出器１０４は、移動前景領域およびこれまでのフレームからの顔面位置の両方を含む領域内、すなわち、組み合わされた前景領域内の顔面を検出する（１２６）。さらに、ＲＯＩ特徴検出器１０４は、移動前景領域を含めて、組み合わされた前景領域内の顔の特徴（例えば、目および口の候補）を検出し、これまでのフレーム内で顔の特徴位置を検出する（１２８）。

ＲＯＩ特徴検出器１０４によって検出された顔の特徴がこれまでのフレーム内で検出された顔の特徴に近接して配置される（１３０）場合、これまでのフレーム内のオブジェクトはかなりの移動を提示しない。この場合、現在のフレームのオブジェクトは、特徴検証モジュール１０６（１３２）および複数の顔分離モジュール１０８（１３４）の機能を省略すると同時に、オブジェクト形状概算モジュール１１０（１３６）とオブジェクト生成モジュール１１６（１３８）とを使用することによって迅速に生成され得る。

その他の点では、ＲＯＩ特徴検出器１０４によって検出された顔の特徴が、これまでのフレーム内で検出された顔の特徴に近接して配置されない場合、これまでのフレーム内のオブジェクトはかなり移動した。この場合、処理全体が適用される。特に、特徴検証モジュール１０６は検出された特徴を検証して（１３２）、複数の顔分離モジュール１０８は顔の分離を実行する（１３４）。次いで、オブジェクト形状概算モジュール１１０（１３６）と、その後に続くオブジェクト生成モジュール１１６（１３８）とが適用される。オブジェクト生成モジュール１１６で、連結された移動前景領域は、オブジェクトを生成する（１３８）ために同種の領域として処理される。オブジェクト融合モジュール１１８は、次いで、アウトプット画像を形成するために前景オブジェクトを統合する（１４０）。ＲＯＩオブジェクト区分システム１４は、区分されたフレームのアウトプット画像をマルチメディア・アプリケーション１８に送る（１４２）。

本明細書で説明された技術は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実施され得る。ソフトウェアで実施される場合、技術は、実行された場合、上で説明された方法の１つまたは複数を実行する命令を含むプログラム・コードを備えるコンピュータ可読媒体によって一部実施され得る。この場合、コンピュータ可読媒体は、同時ダイナミック・ランダム・アクセス・メモリ（ＳＤＲＡＭ）、読出し専用メモリ（ＲＯＭ）、不揮発性ランダム・アクセス・メモリ（ＮＶＲＡＭ）、電気的に消去可能でプログラム可能な読取り専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリ、磁気データ記憶媒体または光データ記憶媒体など、ランダム・アクセス・メモリ（ＲＡＭ）を備え得る。

プログラム・コードは、１つまたは複数のデジタル信号プロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定アプリケーション向け集積回路（ＡＳＩＣ）、フィールド・プログラム可能論理アレイ（ＦＰＧＡ）、または等価の集積論理回路または離散的論理回路のその他の組合せによって実施され得るプログラム可能プロセッサによって実施されることが可能である。いくつかの実施形態では、本明細書で説明される機能性は、自動オブジェクト切出のために構成された専用のソフトウェア・モジュール内もしくはハードウェア装置内で提供されること、または自動オブジェクト区分システム内に組み込まれることが可能である。

この開示では、画像シーケンスからのＲＯＩオブジェクトの自動区分のための様々な技術が説明された。ＲＯＩオブジェクト区分システムは、ＶＴアプリケーション、画像ストリーミング・アプリケーション、または画像監視用となど、マルチメディア・アプリケーションでの使用のために正確に区分されたＲＯＩオブジェクトを提供する目的で、開示された技術のうちの１つまたは複数を個々にまたは組み合わせて実施することが可能である。

開示された技術は、ＲＯＩ特徴検出と、領域区分と、背景減算とを含むハイブリッド技術を含む。開示された技術は、モード内およびモード間のオブジェクト区分を含み得る。モード間区分は、ＲＯＩオブジェクト区分システムの実行を加速するために、通常の計算処理上集中的な動作推定演算の代わりに、背景モデル形成と減算とを使用することによって、画像シーケンスの連続する画像フレームの時間的相関性を活かす。開示された技術はまた、ＲＯＩオブジェクト区分システムによるモード内区分の性能を加速するために、顔の特徴検証、複数の顔分離、およびＲＯＩオブジェクト区分も含む。これらのおよびその他の実施形態は、特許請求の範囲の範囲内である。

画像シーケンスからのＲＯＩ画像オブジェクトの自動区分のための技術を実施する関心領域（ＲＯＩ）オブジェクト区分システムを例示するブロック図。画像シーケンスの画像フレーム内のＲＯＩオブジェクトおよび非ＲＯＩオブジェクトの定義を例示するブロック図。画像シーケンスの画像フレーム内のＲＯＩオブジェクトおよび非ＲＯＩオブジェクトの定義を例示するブロック図。画像シーケンスのＲＯＩオブジェクト内に提示されるオブジェクトに関してオブジェクト移動／回転、および形状変形の変化を例示する図。画像シーケンスのＲＯＩオブジェクト内の人物に関して顔の表情の変更を例示する図。図１からのＲＯＩオブジェクト区分システムの例示的な動作を示すフローチャート。図５Ａからの区分モード決定をより詳細に例示するフローチャート。画像源から受信された画像シーケンスのフレームに関してモード内区分を実行する場合のＲＯＩオブジェクト区分システムを例示するブロック図。モード内区分の間、ＲＯＩオブジェクト区分システムによって実施される技術の例示的な結果を示すスクリーン・ショット。モード内区分の間、ＲＯＩオブジェクト区分システムによって実施される技術の例示的な結果を示すスクリーン・ショット。モード内区分の間、ＲＯＩオブジェクト区分システムによって実施される技術の例示的な結果を示すスクリーン・ショット。モード内区分の間、ＲＯＩオブジェクト区分システムによって実施される技術の例示的な結果を示すスクリーン・ショット。モード内区分の間、ＲＯＩオブジェクト区分システムによって実施される技術の例示的な結果を示すスクリーン・ショット。モード内区分の間、ＲＯＩオブジェクト区分システムによって実施される技術の例示的な結果を示すスクリーン・ショット。モード内区分の間、ＲＯＩオブジェクト区分システムによって実施される技術の例示的な結果を示すスクリーン・ショット。モード内区分の間、ＲＯＩオブジェクト区分システムによって実施される技術の例示的な結果を示すスクリーン・ショット。モード内区分の間、ＲＯＩオブジェクト区分システムによって実施される技術の例示的な結果を示すスクリーン・ショット。モード内区分の間、ＲＯＩオブジェクト区分システムによって実施される技術の例示的な結果を示すスクリーン・ショット。モード内区分を実行するＲＯＩオブジェクト区分システムの動作を例示するフローチャート。画像源から受信された画像シーケンスのフレームに対してモード間区分を実行する場合のＲＯＩオブジェクト区分システムを例示するブロック図。モード間区分の間、ＲＯＩオブジェクト区分システムによって実施される技術の例示的な結果を示すスクリーン・ショット。モード間区分の間、ＲＯＩオブジェクト区分システムによって実施される技術の例示的な結果を示すスクリーン・ショット。モード間区分を実行するＲＯＩオブジェクト区分システムの動作を例示するフローチャート。

Claims

関心領域（ＲＯＩ）オブジェクトを自動的に区分する装置によって実行される方法であって、
前記ＲＯＩオブジェクトを自動的に区分する装置で、画像シーケンスの画像フレームを受信することと、
前記ＲＯＩオブジェクトを自動的に区分する装置で、前記画像フレーム内の関心領域（ＲＯＩ）特徴を、前記画像シーケンスの他の画像フレームから独立して検出することと、
検出されたＲＯＩ特徴の幾何学的な関係に基づいて、前記画像フレーム内の検出されたＲＯＩ特徴を検証することと、
前記ＲＯＩオブジェクトを自動的に区分する装置で、前記検出されたＲＯＩ特徴および前記検出されたＲＯＩ特徴の幾何学的な関係に基づいて、画像フレーム内のＲＯＩオブジェクト形状を概算することとを備え、
ＲＯＩオブジェクト形状を概算することは、前記検出されたＲＯＩ特徴の位置によって定義された幾何学モデルに基づいて前記ＲＯＩオブジェクト形状を概算することを備え、
前記ＲＯＩオブジェクトを自動的に区分する装置で、前記画像フレームを、多数の候補領域へ区分することであって、前記区分することは、隣接した画素に対する類似性に基づいて、前記画像フレーム内の画素を分類することを備える、ことと、
前記ＲＯＩオブジェクトを自動的に区分する装置で、前記画像フレームの概算されたＲＯＩオブジェクト形状内に位置する候補領域のうちの１または複数をＲＯＩオブジェクトとして選択することと
を備える方法。
前記ＲＯＩオブジェクトを識別するアウトプット画像を生成することと、
前記画像フレームの非ＲＯＩ領域に対するＲＯＩオブジェクトを優先的にエンコードすることと
を更に備える請求項１に記載の方法。
１または複数の候補領域を選択することは、前記ＲＯＩオブジェクトとして、前記候補領域のうちの１または複数を選択することを備える請求項１に記載の方法。
ＲＯＩ特徴を検出することは、
前記画像フレーム内の皮膚色領域のクロミナンス値に基づいて、前記画像フレーム内の顔面を検出することと、
前記検出された顔面内の画素のクロミナンス値と輝度値との両方に基づいて、前記画像フレーム内の目の特徴を検出することと、
前記検出された顔面内の画素のクロミナンス値に基づいて、前記画像フレーム内の口の特徴を検出することと
を備える請求項１に記載の方法。
前記検出されたＲＯＩ特徴は、前記画像フレーム内で検出された顔の特徴候補を備え、前記検出されたＲＯＩ特徴を検証することは、前記検出された顔の特徴候補のセットから、前記ＲＯＩオブジェクトの正しい顔の特徴を選択するために、前記検出された顔の特徴候補を検証することを更に備える、請求項１に記載の方法。
前記検出された顔の特徴候補を検証することは、
前記画像フレーム内のくぼみ領域を検出することと、
前記画像フレーム内の検出された顔の特徴候補の位置を、前記画像フレーム内のくぼみ領域の位置と比較することと、
顔の特徴が、前記画像フレーム内の検出されたくぼみ領域のうちの１つと少なくとも部分的に重複しない場合に、前記顔の特徴候補のセットから前記顔の特徴を取り除くことと
を備える請求項５に記載の方法。
前記検出された顔の特徴候補を検証することは、
前記検出された顔の特徴候補の各々を、目の特徴の対称特性および幾何学特性に基づく複数の基準と比較することと、
前記複数の基準に対応するレベルに基づいて、前記検出された顔の特徴候補の各々に得点を割り当てることと、
顔の特徴に割り当てられた得点がしきい値未満である場合、前記顔の特徴候補のセットから前記顔の特徴を取り除くことと
を備える請求項５に記載の方法。
前記検出された顔の特徴候補を検証することは、
目の特徴候補と口の特徴候補とを目と口との三角形へ組み合わせることと、
前記画像フレーム内の目と口との三角形の方向と、前記目と口との三角形内のＲＯＩオブジェクトの勾配特性とに基づいて前記目と口との三角形を検証することと
を備える請求項５に記載の方法。
前記画像フレームは、１を越えるＲＯＩオブジェクトを含み、前記方法は更に、
前記検出されたＲＯＩ特徴を、個々のＲＯＩオブジェクトのグループへ分離することと、
前記画像フレーム内の検出されたＲＯＩ特徴へ、最大整合グラフ理論を適用することとを備える請求項１に記載の方法。
ＲＯＩオブジェクト形状を概算することは、前記検出されたＲＯＩ特徴の位置によって定義された幾何学モデルに基づいて前記ＲＯＩオブジェクト形状を概算することを備え、
前記概算されたＲＯＩオブジェクト形状は、前記画像フレーム内に人間の頭と肩のオブジェクト形状を備える請求項１に記載の方法。
前記画像フレームを区分することは、
隣接した画素に対する強度の類似性に基づいて、前記画像フレーム内の各画素を分類することと、
前記類似の画素を、前記画像フレーム内の最小数の候補領域へ統合することと
を備える請求項１に記載の方法。
前記候補領域のうちの１または複数を選択することは、前記画像フレームのＲＯＩオブジェクト形状内に位置する事前定義された割合の画素を有する候補領域のうちの１または複数を選択することを備え、
前記方法は更に、
前記候補領域のうちの選択された１または複数を統合することによって、前景オブジェクトを生成することを備える請求項１に記載の方法。
前記画像フレームは、１を超える前景オブジェクトを含み、
前記方法は更に、
前記１を超える前景オブジェクトを統合して、アウトプット画像を生成することと、
前記アウトプット画像をマルチメディア・アプリケーションへ送ることと
を備える請求項１２に記載の方法。
画像シーケンスの画像フレームを受信することと、
前記画像フレーム内の関心領域（ＲＯＩ）特徴を、前記画像シーケンスの他の画像フレームから独立して検出することと、
検出されたＲＯＩ特徴の幾何学的な関係に基づいて、前記画像フレーム内の検出されたＲＯＩ特徴を検証することと、
前記検出されたＲＯＩ特徴に基づいて、画像フレーム内のＲＯＩオブジェクト形状を概算することとを、プログラム可能なプロセッサに対して実行させる命令群を備えたコンピュータ読取可能記録媒体であって、
前記ＲＯＩオブジェクト形状は、前記検出されたＲＯＩ特徴の位置によって定義された幾何学モデル、および前記検出されたＲＯＩ特徴の幾何学的な関係に基づいて概算され、
前記画像フレームを、多数の候補領域へ区分することであって、前記区分することは、隣接した画素に対する類似性に基づいて、前記画像フレーム内の画素を分類することを含む、ことと、
前記画像フレームの概算されたＲＯＩオブジェクト形状内に位置する候補領域のうちの１または複数をＲＯＩオブジェクトとして選択することと
を、プログラム可能なプロセッサに対して実行させる命令群を備えたコンピュータ読取可能記録媒体。
前記命令群は、
前記ＲＯＩオブジェクトを識別するアウトプット画像を生成することと、
前記画像フレームの非ＲＯＩ領域に対するＲＯＩオブジェクトを優先的にエンコードすることと
を前記プロセッサに対して実行させる請求項１４に記載のコンピュータ読取可能記録媒体。
前記ＲＯＩオブジェクトとして、前記候補領域のうちの１または複数を選択することを前記プロセッサに対して実行させる命令群を更に備える請求項１４に記載のコンピュータ読取可能記録媒体。
前記プログラム可能なプロセッサに対してＲＯＩ特徴を検出させる命令群は、
前記画像フレーム内の皮膚色領域のクロミナンス値に基づいて、前記画像フレーム内の顔面を検出することと、
前記検出された顔面内の画素のクロミナンス値と輝度値との両方に基づいて、前記画像フレーム内の目の特徴を検出することと、
前記検出された顔面内の画素のクロミナンス値に基づいて、前記画像フレーム内の口の特徴を検出することと
を前記プログラム可能なプロセッサに対して実行させる請求項１４に記載のコンピュータ読取可能記録媒体。
前記検出されたＲＯＩ特徴は、前記画像フレーム内で検出された顔の特徴候補を備え、
前記コンピュータ読取可能記録媒体は更に、
前記顔の特徴候補のセットから、前記ＲＯＩオブジェクトの正しい顔の特徴を選択するために、前記検出された顔の特徴候補を検証することを、前記プログラム可能なプロセッサに対して実行させる命令群を備える請求項１４に記載のコンピュータ読取可能記録媒体。
前記命令群は、前記プログラム可能なプロセッサに対して、
前記画像フレーム内のくぼみ領域を検出することと、
前記画像フレーム内の検出された顔の特徴候補の位置を、前記画像フレーム内のくぼみ領域の位置と比較することと、
顔の特徴が、前記画像フレーム内の検出されたくぼみ領域のうちの１つと少なくとも部分的に重複しない場合に、前記顔の特徴候補のセットから前記顔の特徴を取り除くことと
を実行させる請求項１８に記載のコンピュータ読取可能記録媒体。
前記命令群は、前記プログラム可能なプロセッサに対して、
前記検出された顔の特徴候補の各々を、目の特徴の対称特性および幾何学特性に基づく複数の基準と比較することと、
前記複数の基準に対応するレベルに基づいて、前記検出された顔の特徴候補の各々に得点を割り当てることと、
顔の特徴に割り当てられた得点がしきい値未満である場合、前記顔の特徴候補のセットから前記顔の特徴を取り除くことと
を実行させる請求項１８に記載のコンピュータ読取可能記録媒体。
前記命令群は、前記プログラム可能なプロセッサに対して、
目の特徴候補と口の特徴候補とを目と口との三角形へ組み合わせることと、
前記画像フレーム内の目と口との三角形の方向と、前記目と口との三角形内のＲＯＩオブジェクトの勾配特性とに基づいて前記目と口との三角形を検証することと
を実行させる請求項１８に記載のコンピュータ読取可能記録媒体。
前記画像フレームは、１を越えるＲＯＩオブジェクトを含み、
前記コンピュータ読取可能記録媒体は更に、
前記検出されたＲＯＩ特徴を、個々のＲＯＩオブジェクトのグループへ分離することと、
前記画像フレーム内の検出されたＲＯＩ特徴へ、最大整合グラフ理論を適用することとを、前記プログラム可能なプロセッサに対して実行させる命令群を備える請求項１４に記載のコンピュータ読取可能記録媒体。
前記命令群は、前記検出されたＲＯＩ特徴の位置によって定義された幾何学モデルに基づいて前記ＲＯＩオブジェクト形状を概算することを、前記プログラム可能なプロセッサに対して実行させる請求項１４に記載のコンピュータ読取可能記録媒体。
前記プログラム可能なプロセッサに対して、前記画像フレームを区分することを実行させる命令群は、
隣接した画素に対する強度の類似性に基づいて、前記画像フレーム内の各画素を分類することと、
前記類似の画素を、前記画像フレーム内の最小数の候補領域へ統合することと
を、前記プログラム可能なプロセッサに対して実行させる請求項１４に記載のコンピュータ読取可能記録媒体。
前記命令群は、前記プログラム可能なプロセッサに対して、前記画像フレームのＲＯＩオブジェクト形状内に位置する事前定義された割合の画素を有する候補領域のうちの１または複数を選択することを実行させ、
前記コンピュータ読取可能記録媒体は更に、
前記候補領域のうちの選択された１または複数を統合することによって、前景オブジェクトを生成することを、前記プログラム可能なプロセッサに対して実行させる命令群を備える請求項１７に記載のコンピュータ読取可能記録媒体。
前記画像フレームは、１を超える前景オブジェクトを含み、
前記コンピュータ読取可能記録媒体は更に、
前記１を超える前景オブジェクトを統合して、アウトプット画像を生成することと、
前記アウトプット画像をマルチメディア・アプリケーションへ送ることと
を、前記プログラム可能なプロセッサに対して実行させる命令群を備える請求項２５に記載のコンピュータ読取可能記録媒体。
関心領域（ＲＯＩ）オブジェクトを自動的に区分するシステムであって、
画像シーケンスの画像フレーム内のＲＯＩ特徴を、前記画像シーケンスの他の画像フレームから独立して検出するＲＯＩ特徴検出器と、
検出されたＲＯＩ特徴の幾何学的な関係に基づいて、前記画像フレーム内の検出されたＲＯＩ特徴を検証する特徴検証モジュールと、
前記検出されたＲＯＩ特徴および前記検出されたＲＯＩ特徴の幾何学的な関係に基づいて、画像フレーム内のＲＯＩオブジェクト形状を概算するオブジェクト形状概算モジュールとを備え、前記ＲＯＩオブジェクト形状は、前記検出されたＲＯＩ特徴の位置によって定義された幾何学モデルに基づいて概算され、
前記画像フレームを、多数の候補領域へ区分する領域区分モジュールであって、前記領域区分モジュールによる区分は、隣接した画素に対する類似性に基づいて前記画像フレーム内の各画素を分類することを備える、領域区分モジュールと、
前記画像フレームの概算されたＲＯＩオブジェクト形状内に位置する候補領域のうちの１または複数をＲＯＩオブジェクトとして選択するオブジェクト生成モジュールと
を備えるシステム。
前記ＲＯＩオブジェクトを識別するアウトプット画像を生成するオブジェクト融合モジュールと、
前記画像フレームの非ＲＯＩ領域に対するＲＯＩオブジェクトを優先的にエンコードするエンコーダと
を更に備える請求項２７に記載のシステム。
前記オブジェクト生成モジュールは、前記ＲＯＩオブジェクトとして、前記候補領域のうちの１または複数を選択する請求項２７に記載のシステム。
前記ＲＯＩ特徴検出器は、
前記画像フレーム内の皮膚色領域のクロミナンス値に基づいて、前記画像フレーム内の顔面を検出する顔面検出器と、
前記検出された顔面内の画素のクロミナンス値と輝度値との両方に基づいて、前記画像フレーム内の目の特徴を検出する目検出器と、
前記検出された顔面内の画素のクロミナンス値に基づいて、前記画像フレーム内の口の特徴を検出する口検出器と
を含む請求項２７に記載のシステム。
請求項２７に記載のシステムにおいて、前記検出されたＲＯＩ特徴は、前記画像フレーム内で検出された顔の特徴候補を備え、
前記特徴検証モジュールは、前記顔の特徴候補のセットから、前記ＲＯＩオブジェクトの正しい顔の特徴を選択するために、前記検出された顔の特徴候補を検証し、
前記特徴検証モジュールは、前記画像フレーム内のくぼみ領域を検出し、前記画像フレーム内の検出された顔の特徴候補の位置を、前記画像フレーム内のくぼみ領域の位置と比較し、顔の特徴が、前記画像フレーム内の検出されたくぼみ領域のうちの１つと少なくとも部分的に重複しない場合に、前記顔の特徴候補のセットから前記顔の特徴を取り除く請求項２７に記載のシステム。
前記特徴検証モジュールは、
前記検出された顔の特徴候補の各々を、目の特徴の対称特性および幾何学特性に基づく複数の基準と比較し、
前記複数の基準に対応するレベルに基づいて、前記検出された顔の特徴候補の各々に得点を割り当て、
顔の特徴に割り当てられた得点がしきい値未満である場合、前記顔の特徴候補のセットから前記顔の特徴を取り除く
請求項３１に記載のシステム。
前記特徴検証モジュールは、目の特徴候補と口の特徴候補とを目と口との三角形へ組み合わせ、前記画像フレーム内の目と口との三角形の方向と、前記目と口との三角形内のＲＯＩオブジェクトの勾配特性とに基づいて前記目と口との三角形を検証する請求項３１に記載のシステム。
請求項２７に記載のシステムにおいて、前記画像フレームは、１を越えるＲＯＩオブジェクトを含み、
前記システムは更に、
前記検出されたＲＯＩ特徴を、個々のＲＯＩオブジェクトのグループへ分離し、前記画像フレーム内の検出されたＲＯＩ特徴を分離するために、前記検出されたＲＯＩ特徴へ、最大整合グラフ理論を適用する複数顔分離モジュールを備えるシステム。
前記オブジェクト形状概算モジュールは、
前記検出されたＲＯＩ特徴の位置によって定義された幾何学モデルに基づいて前記ＲＯＩオブジェクト形状を概算し、前記概算されたＲＯＩオブジェクト形状は、前記画像フレーム内に人間の頭と肩のオブジェクト形状を備える請求項２７に記載のシステム。
前記領域区分モジュールは、隣接した画素に対する強度の類似性に基づいて、前記画像フレーム内の各画素を分類し、前記類似の画素を、前記画像フレーム内の最小数の候補領域へ統合する請求項２７に記載のシステム。
前記画像フレームのＲＯＩオブジェクト形状内に位置する事前定義された割合の画素を有する候補領域のうちの１または複数を選択するオブジェクト生成モジュールを更に備え、
前記オブジェクト生成モジュールは、前記候補領域のうちの選択された１または複数を統合することによって、前景オブジェクトを生成する請求項２７に記載のシステム。
前記画像フレームは、１を超える前景オブジェクトを含み、
前記オブジェクト融合モジュールは、前記１を超える前景オブジェクトを統合して、アウトプット画像を生成し、前記アウトプット画像をマルチメディア・アプリケーションへ送る請求項３７に記載のシステム。