JP2022528294A

JP2022528294A - 深度を利用した映像背景減算法

Info

Publication number: JP2022528294A
Application number: JP2021573206A
Authority: JP
Inventors: ジョウ、グアンユ; チェン、チャン; エンボーム、ニクラス
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-07-15
Filing date: 2020-04-15
Publication date: 2022-06-09
Anticipated expiration: 2040-04-15
Also published as: US20220067946A1; EP3814985A1; JP7110502B2; KR20220006657A; WO2021011040A1; KR102469295B1; US11195283B2; US20210019892A1; US11727577B2; CN114072850A

Abstract

前景映像をレンダリングする方法、システム、およびコンピュータ可読媒体に関する。方法は、深度データと色データとを備えている複数の映像フレームを受け取る工程を備える。映像のフレームをダウンサンプリングする。各フレームについて、フレームの各画素を前景画素または背景画素に分類する初期セグメンテーションマスクを生成する。フレームの各画素を既知背景、既知前景、または未知に分類するトライマップを決定する。未知に分類された各画素について、重みを算出して重みマップに格納する。各フレームのバイナリマスクを取得するべく微細セグメンテーションを実行する。各フレームのバイナリマスクに基づき、複数のフレームをアップサンプリングして前景映像を取得する。

Description

本開示は、深度を利用した映像背景減算法に関する。

画像を前景部分（ｆｏｒｅｇｒｏｕｎｄ）と背景部分（ｂａｃｋｇｒｏｕｎｄ）とに分割（セグメンティング）することは、多くの画像（イメージ）および映像（ビデオ）アプリケーションで使用されている。例えば、映像会議、ＶＲ（仮想現実：ＶｉｒｔｕａｌＲｅａｌｉｔｙ）やＡＲ（拡張現実：ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）でのテレプレゼンスなどの映像アプリケーションでは、背景を除去して新背景に置き換える必要がある場合がある。別の例では、画像の背景部分をぼかすポートレートモードやボケ（ｂｏｋｅｈ）には、セグメンテーションがよく使われる。

画像や映像のセグメンテーションには多くの課題がある。１つの課題は色（カラー）カモフラージュであり、映像や画像に、背景色に似た色（カラー）を持つ前景オブジェクトが含まれている場合に発生する。その他の課題としては、動く背景や変化する背景や、色の影や、前景部分がないシーン（ｓｃｅｎｅ。例えば、人物がいない映像会議）や、画像や映像がキャプチャ（撮影）されている間のシーンの照明変化などがある。

米国特許第９４４３３１６号明細書

いくつかの画像キャプチャ装置（例えば、デスクトップカメラ、モバイル装置のカメラなど）は、画像または映像の色（カラー）データと一緒に深度データ（ｄｅｐｔｈｄａｔａ）をキャプチャすることができる。そのような深度データは、セグメンテーションに使用することができる。しかし、このような深度データは、深度センサの品質、照明条件、撮影シーンのオブジェクトなどによって、しばしば不正確になる。不正確なデータは、深度データを使用して画像または映像をセグメント化する際の、別の課題である。

本明細書に記載されている背景の説明は、本開示の文脈を一般的に示すことを目的としている。本願の発明者の仕事は、この背景欄に記載されている範囲であり、また、出願時に先行技術として他に適格でない可能性がある記述の側面は、本開示に対する先行技術として明示的にも暗黙的にも認められない。

本明細書に記載されている実装は、前景映像（フォアグラウンドビデオ）を取得するための方法、システム、およびコンピュータ可読媒体に関する。いくつかの実装では、コンピュータが実装する方法（コンピュータ実装方法）は、映像（ビデオ）の複数のフレームを受け取る工程を備えている。映像の各フレームは、複数の画素の深度データおよび色データを備えていることができる。本方法はさらに、映像の複数のフレームの各フレームをダウンサンプリングする工程を備えている。本方法はさらに、ダウンサンプリングの後、各フレームについて、深度データに基づきフレームの各画素を前景画素または背景画素に分類する初期セグメンテーションマスクを生成する工程を備えている。本方法はさらに、各フレームについて、フレームの各画素を既知背景、既知前景、または未知（不明。ｕｎｋｎｏｗｎ）のうちの一つに分類するトライマップを決定する工程を備えている。この方法はさらに、各フレームおよび未知に分類されたフレームの各画素について、その画素に対する重みを算出するとともに、その重みを重みマップに格納する工程を備えている。本方法はさらに、フレームのバイナリマスクを取得するべく、各フレームについて、色データ、トライマップ、および重みマップに基づき微細セグメンテーションを実行する工程を備えている。本方法はさらに、前景映像を取得するべく、各フレームのバイナリマスクに基づき、複数のフレームをアップサンプリングする工程を備えている。

いくつかの実装では、初期セグメンテーションマスクを生成する工程は、画素に関連付けられた深度値が深度範囲の内に存在する場合、画素を前景画素として設定し、画素に関連付けられた深度値が深度範囲の外に存在する場合、画素を背景画素として設定する工程を備えていることができる。いくつかの実装では、初期セグメンテーションマスクを生成する工程はさらに、モルフォロジカルオープニング処理またはモルフォロジカルクロージング処理のうちの１つまたは複数を実行する工程を備えていることができる。

いくつかの実装では、本方法はさらに、色データまたは初期セグメンテーションマスクのうちの１つまたは複数に基づき、頭部バウンディングボックスを検出する工程を備えていることができる。いくつかの実装では、頭部バウンディングボックスを検出する工程は、フレームをグレースケールに変換する工程と、ヒストグラム均等化を実行する工程とを備えていることができる。本方法はさらに、Ｈａａｒカスケード顔検出によってフレーム内の１つまたは複数の顔を検出する工程を備えていることができる。１つまたは複数の顔のうちの各顔は、その顔の顔画素を備えている顔エリアに関連付けられることができる。

いくつかの実装形態では、本方法はさらに、１つまたは複数の顔のうちの各顔が有効であるかどうかを判定する工程を備えていることができる。いくつかの実装では、顔のための顔エリアの画素の閾値割合が初期セグメンテーションマスクにおいて前景画素に分類されるとともに、顔のための顔エリアの画素の少なくとも閾値パーセントが肌色基準を満たすことが検証される場合、顔は有効であると判定される。いくつかの実装では、本方法はさらに、有効であると判定された各顔について、その顔に対応する頭部エリアを取得するべく、各顔の顔エリアを拡大する工程を備えていることができる。頭部バウンディングボックスは、有効であると判定された各顔の頭部エリアを備えていることができる。一部の実装では、顔が有効ではないと判定された場合、本方法はさらに、頭部を検出するべく初期セグメンテーションマスクを分析する工程と、頭部の肌色検証に基づき頭部が有効であるかどうかを判定する工程とを備えていることができる。頭部が有効であると判定された場合、本方法はさらに、頭部に関連するバウンディングボックスを頭部バウンディングボックスとして選択する工程を備えていることができる。

いくつかの実装形態では、初期セグメンテーションマスクを生成する工程は、各画素にマスク値を割り当てる工程を備えていることができる。初期セグメンテーションマスクにおいて、各前景画素には「２５５」のマスク値を割り当てられることができ、各背景画素には「０」のマスク値を割り当てられることができる。これらの実装において、トライマップを決定する工程は、頭部バウンディングボックス内に存在しないフレームの各画素について、画素の画素位置と、初期セグメンテーションマスクのマスク境界との間のＬＩ距離を算出する工程を備えていることができ、マスク境界は、少なくとも１つの前景画素が初期セグメンテーションマスク内の少なくとも１つの背景画素に隣接する位置を備えている。ＬＩ距離が前景距離閾値を満たすとともに、画素が前景画素に分類される場合、本方法はさらに、画素を既知前景に分類する工程を備えていることができる。ＬＩ距離が背景距離閾値を満たすとともに、画素が背景画素に分類される場合、本方法はさらに、画素を既知背景に分類する工程を備えていることができ、画素が既知前景に分類されないとともに、既知背景に分類されない場合、本方法はさらに、画素を未知に分類する工程を備えていることができる。

トライマップを決定する工程はさらに、頭部バウンディングボックス内の各画素について、その画素が既知前景であるか、既知背景であるか、または未知であるかを識別する工程を備えていることができる。画素が既知前景であるか、既知背景であるか、または未知であるかを識別する工程は、画素が頭部バウンディングボックスに対して決定された内方マスク内に存在する場合には画素を既知前景に分類する工程と、画素が頭部バウンディングボックスに対して決定された外方マスクの外方に存在する場合には画素を既知背景に分類する工程と、および画素が既知前景および既知背景に分類されない場合には画素を未知に分類する工程とを備えていることができる。

いくつかの実装では、本方法はさらに、頭部バウンディングボックス内の頭部の髪エリア付近に均一な明るさの背景が存在するかどうかを検出する工程と、均一な明るさの背景が検出された場合、頭部バウンディングボックス、色データ、および初期セグメンテーションマスクに基づき、頭部の髪エリアの拡張を実行する工程とを備えていることができる。これらの実装では、髪エリア拡張を実行した後、外方マスクの拡張サイズ（ｄｉｌａｔｉｏｎｓｉｚｅ）は増加される。

いくつかの実装では、本方法はさらに、映像の背景画像を維持する工程を備えていることができ、背景画像は、映像の各フレームと同じサイズの色画像である。本方法はさらに、微細セグメンテーションを実行する前に、トライマップに基づき背景画像を更新する工程を備えていることができる。これらの実装において、画素に対する重みを算出する工程は、画素色と背景画像の背景色との間のユークリッド距離を算出する工程と、ユークリッド距離に基づき、画素が背景画素である確率を決定する工程と、確率が背景確率閾値を満たす場合、重みマップにおいて画素に背景重みを割り当てる工程とを備えていることができる。

いくつかの実装では、本方法はさらに、肌色検出に基づき、フレーム内の１つまたは複数の肌領域を識別する工程を備えていることができる。１つまたは複数の肌領域は、顔エリアを除外する。これらの実装では、方法はさらに、１つまたは複数の肌領域内に存在するフレームの各画素について、画素を未知に分類するとともに、重みマップにおいて画素にゼロの重みを割り当てる工程を備えていることができる。前記方法はさらに、前記画素色と前記背景画像の背景色とが類似度閾値を満たす場合、前記画素に前記重みマップにおける背景重みを割り当てる工程を備えていることができる。前記方法はさらに、前記画素色が肌色である場合、前記重みマップにおいて前景重みを前記画素に割り当てる工程を備えていることができる。前記方法はさらに、画素色と背景画像の背景色とが非類似度閾値を満たす場合、重みマップにおいて画素に前景重みを割り当てる工程を備えていることができる。

いくつかの実装形態では、映像の複数のフレームは、シーケンスであり得る。これらの実装では、本方法はさらに、各フレームについて、先行フレームの画素に類似すると分類されているフレームの画素の割合を決定するべく、初期セグメンテーションマスクをシーケンス内の直前フレームの先行フレームバイナリマスクと比較する工程を備えていることができる。本方法はさらに、割合に基づき、グローバルコヒーレンス重みを算出する工程を備えていることができる。これらの実装では、画素に対する重みを算出するとともに、重みを重みマップに格納する工程は、グローバルコヒーレンス重みと、画素と先行フレームバイナリマスクのマスク境界との間の距離とに基づき、重みを決定する工程を備えていることができる。いくつかの実装では、対応する画素が先行フレームバイナリマスクにおいて前景画素に分類された場合には、画素に対する重みは正であり、対応する画素が先行フレームバイナリマスクにおいて前景画素に分類されなかった場合には、画素に対する重みは負である。

いくつかの実装では、微細セグメンテーションを実行する工程は、フレームにグラフカット技術を適用する工程を備えていることができ、グラフカット技術は、未知に分類される画素に適用される。

いくつかの実装では、本方法はさらに、微細セグメンテーションを実行した後に、時間的ローパスフィルタをバイナリマスクに適用する工程を備えていることができる。時間的ローパスフィルタを適用する工程は、１つまたは複数の先行フレームと、フレームとの間の類似度に基づき、バイナリマスクを更新することができる。

いくつかの実装は、その上に格納された命令を有する非一時的なコンピュータ可読媒体を備えていることができる。命令は、１つまたは複数のハードウェアプロセッサによって実行されると、プロセッサに、映像の複数のフレームを受け取る工程を備えている動作（ｏｐｅｒａｔｉｏｎｓ）を実行させる。映像の各フレームは、複数の画素の深度データおよび色データを備えていることができる。動作はさらに、映像の複数のフレームの各フレームをダウンサンプリングする工程を備えている。動作はさらに、ダウンサンプリングの後、各フレームについて、深度データに基づきフレームの各画素を前景画素または背景画素に分類する初期セグメンテーションマスクを生成する工程を備えている。前記動作はさらに、各フレームについて、フレームの各画素を既知背景、既知前景、または未知のうちの一つに分類するトライマップを決定する工程を備えている。前記動作はさらに、各フレームおよび未知に分類されたフレームの各画素について、その画素に対する重みを算出するとともに、その重みを重みマップに格納する工程を備えている。前記動作はさらに、各フレームについて、フレームのバイナリマスクを取得するべく、色データ、トライマップ、および重みマップに基づき微細セグメンテーションを実行する工程を備えている。動作はさらに、前景映像を取得するべく、それぞれのフレームのバイナリマスクに基づき複数のフレームをアップサンプリングする工程を備えている。

いくつかの実装では、非一時的なコンピュータ可読媒体は、１つまたは複数のハードウェアプロセッサによって実行されると、プロセッサに、映像の各フレームと同じサイズの色画像である映像の背景画像を維持する工程を備えている動作を実行させるさらなる命令を備えていることができる。この動作はさらに、微細セグメンテーションを実行する前に、トライマップに基づき背景画像を更新する工程を備えていることができる。これらの実装において、画素の重みを算出する動作は、画素色と背景画像の背景色との間のユークリッド距離を算出する工程と、ユークリッド距離に基づき、画素が背景画素である確率を決定する工程と、前記確率が背景確率閾値を満たす場合、前記重みマップにおいて前記画素に背景重みを割り当てる工程と、を備えていることができる。

いくつかの実装は、メモリに結合された１つまたは複数のハードウェアプロセッサを備えているシステムを備えていることができる。メモリは、その上に格納された命令を備えていることができる。命令は、１つまたは複数のハードウェアプロセッサによって実行されると、プロセッサに、映像の複数のフレームを受け取る工程を備えている動作を実行させる。映像の各フレームは、複数の画素の深度データおよび色データを備えていることができる。動作はさらに、映像の複数のフレームの各フレームをダウンサンプリングする工程を備えている。動作はさらに、ダウンサンプリングの後、各フレームについて、深度データに基づきフレームの各画素を前景画素または背景画素に分類する初期セグメンテーションマスクを生成する工程を備えている。前記動作はさらに、各フレームについて、フレームの各画素を既知背景、既知前景、または未知のうちの一つに分類するトライマップを決定する工程を備えている。前記動作はさらに、各フレームについておよび未知に分類されたフレームの各画素について、その画素に対する重みを算出するとともに、その重みを重みマップに格納する工程を備えている。前記動作はさらに、各フレームについて、フレームのバイナリマスクを取得するべく、色データ、トライマップ、および重みマップに基づき微細セグメンテーションを実行する工程を備えている。動作はさらに、前景映像を取得するべく、それぞれのフレームのバイナリマスクに基づき複数のフレームをアップサンプリングする工程を備えている。

本特許または出願ファイルは、色で実行される少なくとも１つの図面を備えている。色図面を備えている本特許または特許出願公開のコピーは、要求および必要な手数料の支払いに応じて、事務局によって提供される。

本明細書に記載されている１つまたは複数の実装に使用することができる例示的なネットワーク環境のブロック図。いくつかの実装に従った、前景マスクを決定する例示的な方法を示すフロー図。いくつかの実装による、頭部バウンディングボックスを検出するための例示的な方法を示すフロー図。いくつかの実装による、頭部領域のためのトライマップを生成するための例示的な方法を示すフロー図。例示的な映像フレームと、対応する初期セグメンテーションマスクとを示す図。トライマップを使用せずに、前景と背景を分離した２つの例示的な画像を示す。トライマップの一部が識別された画像の例を示す。いくつかの実装による、入力映像の４つのフレームと、入力映像をセグメント化することで生成された前景を備えている出力映像の対応する出力フレームとを示す図。本明細書に記載された１つまたは複数の実装に使用され得る、例示的なコンピューティング装置のブロック図。

本明細書に記載されている実施形態は一般に映像または画像を、背景部分と前景部分とにセグメント化する工程に関する。特に実施形態は、映像または画像の、前景部分を取得する工程に関する。

本明細書で説明する１つまたは複数の実施形態は、前景映像を取得するための命令を有する方法、装置、およびコンピュータ可読媒体を備えている。いくつかの実装では、前景映像は、空白背景を有してもよい。さらに、いくつかの実装は、キャプチャされたシーンからセグメント化された前景映像を、元のキャプチャされた背景とは異なる背景に重ねて備えている合成映像を生成してもよい。いくつかの実装では、例えば、映像会議で前景映像を提供するべく、前景映像を取得するためのセグメンテーションはリアルタイムで実行される。

図１は、本明細書に記載されたいくつかの実装で使用され得る、例示的なネットワーク環境１００のブロック図を示す。いくつかの実装では、ネットワーク環境１００は、１つまたは複数のサーバシステム、例えば、図１のサーバシステム１０２を備えている。サーバシステム１０２は、例えば、ネットワーク１３０に通信することができる。サーバシステム１０２は、サーバ装置１０４と、データベース１０６または他の記憶装置とを備えていることができる。いくつかの実装では、サーバ装置１０４は、映像アプリケーション１５２ｂ、例えば、映像通話（ｖｉｄｅｏｃａｌｌｉｎｇ）アプリケーション、拡張現実アプリケーション、仮想現実アプリケーションなどを提供することができる。

ネットワーク環境１００はまた、１つまたは複数のクライアント装置、例えば、クライアント装置１２０、１２２、１２４、および１２６を備えていることができ、これらのクライアント装置は、ネットワーク１３０を介して互いにおよび／またはサーバシステム１０２に通信することができる。ネットワーク１３０は、インターネット、ローカルエリアネットワーク（ＬＡＮ）、無線ネットワーク、スイッチまたはハブ接続などのうちの１つまたは複数を備えている、任意のタイプの通信ネットワークとすることができる。任意のタイプの通信ネットワークであることができる。いくつかの実装では、ネットワーク１３０は、例えば、ピアツーピアの無線プロトコル（例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ－ＦｉＤｉｒｅｃｔなど）などを使用して、装置同士間のピアツーピア通信を備えていることができる。２つのクライアント装置１２０および１２２間のピアツーピア通信の一例が、矢印１３２によって示されている。

図示を容易にするべく、図１は、サーバシステム１０２、サーバ装置１０４、データベース１０６のための１つのブロックを示し、クライアント装置１２０、１２２、１２４、１２６のための４つのブロックを示している。サーバブロック１０２、１０４、および１０６は、複数のシステム、サーバ装置、およびネットワークデータベースを表すことができ、ブロックは、示されたものとは異なる構成で提供することができる。例えば、サーバシステム１０２は、ネットワーク１３０を介して他のサーバシステムに通信可能な複数のサーバシステムを表すことができる。いくつかの実施例では、サーバシステム１０２は、例えば、クラウドホストサーバを備えていることができる。いくつかの例では、データベース１０６および／または他のストレージ装置は、サーバ装置１０４とは別個であって、ネットワーク１３０を介してサーバ装置１０４および他のサーバシステムに通信することができるサーバシステムブロック（複数可）に提供することができる。

また、任意の数のクライアント装置が存在してもよい。各クライアント装置は、任意のタイプの電子装置、例えば、デスクトップコンピュータ、ラップトップコンピュータ、ポータブル装置またはモバイル装置、携帯電話、スマートフォン、タブレットコンピュータ、テレビ、テレビセットトップボックスまたはエンターテイメント装置、ウェアラブル装置（例えば、ディスプレイ眼鏡（グラス）またはゴーグル、腕時計、ヘッドセット、アームバンド、ジュエリーなど）、パーソナルデジタルアシスタント（ＰＤＡ）、メディアプレイヤー、ゲーム装置などであってもよい。また、いくつかのクライアント装置は、データベース１０６または他のストレージと同様のローカルデータベースを有していてもよい。いくつかの実装では、ネットワーク環境１００は、示されたすべての構成要素を有していなくてもよく、および／または、本明細書に記載されたものの代わりに、またはそれに加えて、他のタイプの要素を備えている他の要素を有していてもよい。

様々な実装において、エンドユーザＵｌ、Ｕ２、Ｕ３、およびＵ４は、それぞれのクライアント装置１２０、１２２、１２４、および１２６を使用して、サーバシステム１０２および／または互いに通信することができる。いくつかの例では、ユーザＵｌ、Ｕ２、Ｕ３、およびＵ４は、それぞれのクライアント装置および／またはサーバシステム１０２上で実行されているアプリケーションを介して、および／またはサーバシステム１０２上に実装されているネットワークサービスを介して、例えば、ソーシャルネットワークサービスまたは他のタイプのネットワークサービスを介して、お互いに対話することができる。例えば、それぞれのクライアント装置１２０、１２２、１２４、１２６は、１つまたは複数のサーバシステムとの間で、例えば、システム１０２との間でデータを通信することができる。

いくつかの実装では、サーバシステム１０２は、通信されたコンテンツまたはサーバシステム１０２および／またはネットワークサービスにアップロードされた共有されたコンテンツを各クライアント装置が受け取ることができるように、クライアント装置に適切なデータを提供してもよい。いくつかの例では、ユーザＵ１～Ｕ４は、オーディオ／映像通話、オーディオ、映像、もしくはテキストチャット、または他の通信モードもしくはアプリケーションを介して、対話（相互作用）することができる。サーバシステム１０２によって実装されるネットワークサービスは、ユーザが様々な通信を実行したり、リンクや関連を形成したり、画像、テキスト、映像、オーディオなどの共有コンテンツおよび他のタイプのコンテンツをアップロードおよび投稿したり、および／または他の機能を実行したりすることを可能にするシステムを備えていることができる。例えば、クライアント装置は、サーバおよび／またはネットワークサービスを介して（または異なるクライアント装置から直接）、別のクライアント装置から発信された、クライアント装置に送信またはストリームされたコンテンツ投稿などの受取データを表示することができる。いくつかの実装では、クライアント装置は、例えば、上述のようなクライアント装置同士間のピアツーピア通信を使用して、互いに直接通信することができる。いくつかの実装では、「ユーザ」は、１つまたは複数のプログラムまたは仮想エンティティを含んだり、システムまたはネットワークとインタフェースする人物を含んだりすることができる。

いくつかの実装では、クライアント装置１２０、１２２、１２４、および／または１２６のいずれかは、１つまたは複数のアプリケーションを提供することができる。例えば、図１に示すように、クライアント装置１２０は、映像アプリケーション１５２ａおよび１つまたは複数の他のアプリケーション１５４を提供してもよい。また、クライアント装置１２２～１２６は、同様のアプリケーションを提供してもよい。

例えば、映像アプリケーション１５２は、それぞれのクライアント装置のユーザ（例えば、ユーザＵ１～Ｕ４）に、１人または複数の他のユーザとの映像通話に参加する能力を提供してもよい。映像通話では、ユーザの許可を得て、クライアント装置は、ローカルにキャプチャされた映像を、映像通話に参加する他の装置に送信することができる。例えば、そのような映像は、クライアント装置のカメラ（例えば、前面カメラ、背面カメラ、および／または１つまたは複数の他のカメラ）を使用してキャプチャされたライブ映像を備えていることができる。いくつかの実装では、カメラは、クライアント装置とは別個であってもよく、例えば、ネットワークを介して、クライアント装置のハードウェアポートを介してなどで、クライアント装置に結合されてもよい。映像アプリケーション１５２は、クライアント装置１２０上で実行されるソフトウェアアプリケーションであってもよい。いくつかの実装では、映像アプリケーション１５２は、ユーザインタフェースを提供してもよい。例えば、ユーザインタフェースは、ユーザが、１人または複数の他のユーザに映像通話をかけること、他のユーザから映像通話を受け取ること、他のユーザに映像メッセージを残すこと、他のユーザからの映像メッセージを閲覧することなどを可能にしてもよい。

映像アプリケーション１５２ａは、図９を参照して説明したように、クライアント装置１２０のハードウェアおよび／またはソフトウェアを使用して実装されてもよい。異なる実装において、映像アプリケーション１５２ａは、例えば、クライアント装置１２０～１２４のいずれかで実行されるスタンドアロンのクライアントアプリケーションであってもよいし、サーバシステム１０２上で提供される映像アプリケーション１５２ｂと連携して動作してもよい。映像アプリケーション１５２ａおよび映像アプリケーション１５２ｂは、映像通話（２人以上の参加者との映像通話を含む）機能、オーディオまたは映像メッセージング機能、アドレス帳機能などを提供してもよい。

いくつかの実装では、クライアント装置１２０は、１つまたは複数の他のアプリケーション１５４を備えてもよい。例えば、他のアプリケーション１５４は、様々な種類の機能を提供するアプリケーションであってもよく、例えば、カレンダー、アドレス帳、電子メール、ウェブブラウザ、ショッピング、交通機関（例えば、タクシー、列車、航空会社の予約など）、娯楽（例えば、音楽プレーヤ、映像プレーヤ、ゲームアプリケーションなど）、ソーシャルネットワーキング（例えば、メッセージングまたはチャット、オーディオ／映像通話、画像／映像の共有など）、画像キャプチャおよび編集（例えば、画像または映像キャプチャ、映像編集など）などである。いくつかの実装では、他のアプリケーション１５４の１つまたは複数は、クライアント装置１２０上で実行されるスタンドアロンアプリケーションであってもよい。いくつかの実装では、他のアプリケーション１５４の１つまたは複数は、アプリケーション１５４のデータおよび／または機能を提供するサーバシステムにアクセスしてもよい。

クライアント装置１２０、１２２、１２４、および／または１２６上のユーザインタフェースは、画像、映像、データ、および他のコンテンツ、ならびに通信、プライバシー設定、通知、および他のデータを備えている、ユーザコンテンツおよび他のコンテンツの表示を可能にすることができる。このようなユーザインタフェースは、クライアント装置上のソフトウェア、サーバ装置上のソフトウェア、および／またはサーバ装置１０４上で実行されるクライアントソフトウェアとサーバソフトウェアの組み合わせ、例えば、サーバシステム１０２に通信するアプリケーションソフトウェアまたはクライアントソフトウェアを使用して、表示することができる。ユーザインタフェースは、クライアント装置またはサーバ装置のディスプレイ装置、例えば、タッチスクリーンまたは他の表示画面、プロジェクタなどによって表示することができる。いくつかの実装では、サーバシステム上で実行されるアプリケーションプログラムは、クライアント装置に通信して、クライアント装置でユーザ入力を受け取り、クライアント装置で視覚データ、音声データなどのデータを出力することができる。

本明細書に記載の機能の他の実装は、任意のタイプのシステムおよび／またはサービスを使用することができる。例えば、ソーシャルネットワーキングサービスの代わりに、またはソーシャルネットワーキングサービスに加えて、他のネットワークサービス（例えば、インターネットに接続されたもの）を使用することができる。任意のタイプの電子装置が、本明細書に記載された機能を利用することができる。いくつかの実装では、コンピュータネットワークから切り離された、またはコンピュータネットワークに断続的に接続された１つまたは複数のクライアント装置またはサーバ装置上で、本明細書に記載された１つまたは複数の機能を提供することができる。いくつかの例では、ディスプレイ装置（表示装置）を備えている、またはディスプレイ装置に接続されたクライアント装置は、クライアント装置にローカルな記憶装置に格納された、例えば、通信ネットワークを介して以前に受け取ったコンテンツ投稿を表示することができる。

図２は、いくつかの実装形態による、前景映像を取得するための方法２００の一例を示すフロー図である。いくつかの実装では、方法２００は、例えば、図１に示されるようなサーバシステム１０２上で実装することができる。いくつかの実装では、方法２００の一部または全部は、図１に示すような１つまたは複数のクライアント装置１２０、１２２、１２４、または１２６で、１つまたは複数のサーバ装置で、および／またはサーバ装置（複数可）とクライアント装置（複数可）との両方で、実装することができる。説明した例では、実装システムは、１つまたは複数のデジタルプロセッサまたは処理回路（「プロセッサ」）、および１つまたは複数のストレージ装置（例えば、データベース１０６または他のストレージ）を備えている。いくつかの実施例では、１つまたは複数のサーバおよび／またはクライアントの異なる構成要素が、方法２００の異なるブロックまたは他の部分を実行することができる。いくつかの例では、第１装置が方法２００のブロックを実行するように記載されている。いくつかの実装では、第１装置に結果またはデータを送信することができる１つまたは複数の他の装置（例えば、他のクライアント装置またはサーバ装置）によって実行される方法２００の１つまたは複数のブロックを有することができる。

いくつかの実装形態では、方法２００、または方法の一部は、システムによって自動的に開始され得る。いくつかの実施形態では、実施システムは第１装置である。例えば、方法（またはその一部）は、定期的に実行されるか、１つまたは複数の特定のイベントまたは条件、例えば、アプリケーション（例えば、映像通話アプリケーション）がユーザによって開始されること、ユーザ装置のカメラが映像をキャプチャするべく起動されること、映像編集アプリケーションが起動されること、および／または、方法によって読み取られる設定で指定され得る１つまたは複数の他の条件が発生すること、に基づき実行され得る。いくつかの実装では、そのような条件は、保存されたユーザのカスタムプリファレンスでユーザが指定することができる。

一例では、第１装置は、カメラ、携帯電話、スマートフォン、タブレットコンピュータ、ウェアラブル装置、または映像をキャプチャすることができる他のクライアント装置であることができ、方法２００を実行することができる。別の例ではサーバ装置は、映像に対して方法２００を実行することができ、例えばクライアント装置は、サーバ装置によって処理される映像フレームをキャプチャすることができる。いくつかの実装では、ユーザ入力に基づき方法２００を開始することができる。ユーザ（例えば、オペレータまたはエンドユーザ）は、例えば、表示されたユーザインタフェース、例えば、アプリケーションユーザインタフェースまたは他のユーザインタフェースから、方法２００の開始を選択したかもしれない。いくつかの実装では、方法２００は、クライアント装置によって実装されてもよい。いくつかの実装では、方法２００は、サーバ装置によって実装されてもよい。

本明細書で言及する「映像」は、フレームとも呼ばれる画像フレームの、シーケンスを備えていることができる。各画像フレームは、複数の画素に対する色データおよび深度データを備えてもよい。例えば、色データは、各画素の色値を備えてもよく、深度データは、深度値、例えば、映像をキャプチャ（撮影）したカメラからの距離を備えてもよい。例えば、映像は、映像の各画像フレームが１９２０×１０８０のサイズを有し、合計１，９５８，４００個（百九十五万八千四百個）の画素を有する高精細映像であってもよい。本明細書で説明する技術は、他の映像解像度、例えば、標準画質映像、４Ｋ映像、８Ｋ映像などに使用することができる。例えば、映像は、モバイル装置のカメラ、例えば、スマートフォンのカメラ、タブレットのカメラ、ウェアラブルのカメラなどでキャプチャ（撮影）されてもよい。別の例では、映像は、コンピュータカメラ、例えば、ラップトップカメラ、デスクトップカメラなどでキャプチャ（撮影）されてもよい。さらに別の例では、映像は、スマートスピーカ、スマートホームアプライアンス、専用の映像通話装置などの、映像通話アプライアンスまたは装置によってキャプチャ（撮影）されてもよい。いくつかの実装では、映像（ビデオ）はオーディオデータも備えていてもよい。方法２００は、ブロック２０２で開始してもよい。

ブロック２０２では、方法２００の実施において、ユーザデータを使用するためのユーザの同意（コンセント。例えば、ユーザの許可）が得られたかどうかが確認される。例えば、ユーザデータは、クライアント装置を使用してユーザが撮影した映像、例えばクライアント装置を使用してユーザが保存またはアクセスした映像、映像メタデータ、映像通話アプリケーションの使用に関連するユーザデータ、ユーザの好みなどを備えていることができる。本明細書に記載された方法の１つまたは複数のブロックは、いくつかの実装において、そのようなユーザデータを使用することができる。

方法２００においてユーザデータが使用される可能性がある関連ユーザから、ユーザの同意が得られている場合、ブロック２０４において、本明細書の方法の各ブロックは、それらのブロックについて説明されているようなユーザデータの使用の可能性がある状態で実施できると判定され、方法はブロック２１０へと続く。ユーザの同意が得られていない場合、ブロック２０６において、ユーザデータを使用せずに各ブロックを実施することが決定され、方法はブロック２１０へと続く。いくつかの実装では、ユーザの同意が得られなかった場合、各ブロックは、ユーザデータを使用せず、合成データおよび／または一般的なデータ、公的にアクセス可能で公的に使用可能なデータを使用して実装される。いくつかの実施形態では、ユーザの同意が得られていない場合、方法２００は実行されない。

方法２００のブロック２１０では、映像の複数の映像フレームが受け取られる。例えば、複数の映像フレームは、クライアント装置によってキャプチャ（撮影）されてもよい。いくつかの実装では、複数の映像フレームは、例えば映像通話アプリケーションを介してクライアント装置が参加しているライブ映像通話の歳にキャプチャされてもよい。いくつかの実装では、複数の映像フレームは、以前に記録されたもの、例えば、記録された映像の一部であってもよい。映像は、シーケンスの（一連の）複数のフレームを備えていてもよい。いくつかの実装では、各フレームは、複数の画素の色データと深度データとを備えてもよい。

いくつかの実装では、色データは毎秒３０フレームでキャプチャされてもよく、深度データは毎秒１５フレームでキャプチャされてもよく、キャプチャされたフレームの半分のみがキャプチャ時に深度データを備えているようになる。例えば、深度データは、交互のフレームに対してキャプチャされてもよい。キャプチャされたフレームの１つまたは複数が深度データを持たない実装では、隣接するフレームの深度データが、例えば、先行フレームの深度データが、深度データとして利用されてもよい。例えば、映像フレームを受け取ると、１つまたは複数のフレームが深度データを持っていないかどうかを判定してもよい。フレームが深度データを欠いている場合、隣接するフレームの深度データを、例えば、映像のフレームのシーケンスにおける直前フレームの深度データを、そのフレームの深度データとして利用してもよい。ブロック２１０の後に、ブロック２１２が続いてもよい。

ブロック２１２では、映像がダウンサンプリングされる。いくつかの実装では、ダウンサンプリングは、映像をより小さなサイズにリサイズする工程を備えている。例えば、映像が１９２０×１０８０である場合、映像はその４分の１のサイズである４８０×２７０にリサイズされてもよい。リサイズは、処理される総データも４分の１に減少するので、例えば、方法２００を実行するための計算複雑性を低減する。例えば、いくつかの実装では、方法２００を実行するための処理時間は、ダウンサンプリング後、フレームあたり約９０ｍｓであってもよい。いくつかの実装では、例えば、方法２００を実装する装置が高い計算能力を有する場合、ダウンサンプリングは行われなくてもよい。いくつかの実装では、ダウンサンプリングされた映像のサイズは、受け取られた映像のサイズや、方法２００を実行する装置の計算能力などに基づき選択されてもよい。様々な実装において、フレームの色データおよび深度データは、直接にダウンサンプリングされる。様々な実装において、色データと深度データとのビット深度は、ダウンサンプリング後も変化しない。ダウンサンプリング比、例えば、元の映像フレームの画素数に対する、ダウンサンプリングされたフレームの画素数の比の選択は、処理時間と、セグメンテーションの品質との間のトレードオフに基づいてもよい。いくつかの実装では、ダウンサンプリング比は、適切なトレードオフを達成するべく、方法２００が実装される装置の利用可能な処理能力に基づき選択されることができる。いくつかの実装では、ダウンサンプリング比は、ヒューリスティックに決定されてもよい。ブロック２１２の後に、ブロック２１３が続いてもよい。

ブロック２１３では、ダウンサンプリングされた映像のフレームが選択される。ブロック２１３は、ブロック２１４へと続いてもよい。
ブロック２１４において、選択されたフレームまたは画像の各画素を、前景画素または背景画素に分類する初期セグメンテーションマスクが生成される。いくつかの実装では、初期セグメンテーションマスクは、深度範囲に基づく。各画素の深度値を深度範囲と比較して、深度値が深度範囲の内に存在するかどうかを判定してもよい。深度値が深度範囲の内に存在する場合、その画素は前景画素に分類される。深度値が深度範囲の外であれば、その画素は背景画素に分類される。このようにして生成された初期セグメンテーションマスクは、選択されたフレームの各画素について、その画素が前景画素であるか背景画素であるかを示す値を備えている。いくつかの実装では、深度範囲は、０．５メートルから１．５メートルであってもよい。例えば、この深度範囲は、方法２００が映像通話アプリケーション、または映像通話に参加する１人または複数のユーザが、例えば、会議室、机などで、映像をキャプチャするカメラの近くにいる他のアプリケーションに対して実行される場合に適しているかもしれない。異なるアプリケーションでは、異なる深度範囲が使用されてもよく、例えば、それらのアプリケーションの前景オブジェクトとカメラとの間の典型的な距離に基づき深度範囲が選択される。

いくつかの実装では、初期セグメンテーションマスクは、フレームの各画素に対するマスク値を備えてもよい。例えば、或る画素が背景画素であると決定された場合、「０」のマスク値がその画素に割り当てられてもよく、或る画素が前景画素であると決定された場合、「２５５」のマスク値がその画素に割り当てられてもよい。

いくつかの実装形態では、初期セグメンテーションマスクを生成する工程はさらに、モルフォロジカルオープニング処理を実行する工程を備えてもよい。モルフォロジカルオープニング処理は、初期セグメンテーションマスクからノイズを除去してもよい。いくつかの実装形態では、画像をセグメント化する工程はさらに、モルフォロジカルクロージング処理を実行する工程を備えてもよい。モルフォロジカルクロージング処理は、初期セグメンテーションマスクの１つまたは複数の穴（ホール。ｈｏｌｅ）を埋めてもよい。

セグメンテーションマスク内のノイズおよび／または穴は、様々な理由によって生じる可能性がある。例えば、深度対応のカメラを使用してクライアント装置によって映像フレームがキャプチャされる場合、１つまたは複数の画素の深度値が不正確に決定される場合がある。このような不正確さは、例えば、フレームがキャプチャされる照明条件に起因して、センサエラーに起因して、キャプチャされるシーン（ｓｃｅｎｅ）の特徴に起因して、生じる可能性がある。例えば、１つまたは複数の画素についてカメラで深度値が取り込まれていない場合、穴が生じる可能性がある。例えば、カメラが反射型センサを使用して深度を測定する場合、シーンからの反射光が検出されないと、１つまたは複数の画素の深度値が無限大になることがある。このような画素は、セグメンテーションマスクの穴につながる可能性がある。ブロック２１４は、ブロック２１６へと続いてもよい。

ブロック２１６では、頭部バウンディングボックスが検出されてもよい。頭部バウンディングボックスは、頭部を備えている、または頭部を備えている可能性が高いフレームの領域を指定してもよい。例えば、映像が人物を備えている場合、頭部バウンディングボックスは、人物の頭に対応するフレームの画素を指定してもよい。いくつかの実装では、例えば映像に複数の人物が含まれる場合、頭部バウンディングボックスはフレームの複数の領域を指定してもよく、各領域は特定の人物に対応する。いくつかの実装では、頭部バウンディングボックスは、色データ、初期セグメンテーションマスク、またはその両方に基づき検出されてもよい。頭部バウンディングボックスの検出は、任意の適切な方法を用いて実行してもよい。頭部バウンディングボックスを検出する例示的な方法は、図３を参照して説明される。ブロック２１６の後に、ブロック２１８が続いてもよい。

ブロック２１８では、フレームの非頭部部分、例えば、頭部バウンディングボックスの外方に存在するフレームの部分について、トライマップ（ｔｒｉｍａｐ）が生成される。いくつかの実装では、トライマップは、初期セグメンテーションマスクに基づき生成されてもよい。トライマップは、画像の各画素を、既知前景、既知背景、および未知のうちの１つに分類してもよい。

いくつかの実装では、初期セグメンテーションマスクを生成する工程は、フレームの各画素のうち非頭部部分（頭部バウンディングボックスの外方）の画素位置と、初期セグメンテーションマスクのマスク境界との間のＬＩ距離を算出する工程を備えてもよい。マスク境界は、例えば、画素座標で表され、少なくとも１つの前景画素が初期セグメンテーションマスクの少なくとも１つの背景画素に隣接する位置に対応してもよい。

いくつかの実装では、ＬＩ距離が前景距離閾値を満たし、初期セグメンテーションマスクで画素が「前景画素」に分類された場合、その画素は「既知前景」としてトライマップに分類される。例えば、いくつかの実装では、前景距離閾値を「２４」とすることができる。これらの実装では、マスク境界からのＬＩ距離が「２４」よりも大きく、マスク値が「２５５」（前景画素）である画素は、「既知前景」に分類される。異なる実装では、異なる前景距離閾値を使用してもよい。

さらに、ＬＩ距離が背景距離閾値を満たし、且つ初期セグメンテーションマスクにおいて画素が背景画素に分類される場合、その画素は「既知背景」としてトライマップに分類される。例えば、いくつかの実装では、背景距離閾値を「８」と設定することができる。これらの実装では、マスク境界からのＬＩ距離が「８」よりも大きく、マスク値が「０」（背景画素）である画素は、「既知前景」に分類される。異なる実装では、異なる背景距離の閾値を使用してもよい。いくつかの実装では、閾値は、初期セグメンテーションマスクの品質および／またはダウンサンプリング比に基づいてもよい。いくつかの実装では、初期セグメンテーションマスクの品質が低い場合には高い閾値を選択し、初期セグメンテーションマスクの品質が高い場合には低い閾値を選択してもよい。いくつかの実装では、閾値は、ダウンサンプリング比に比例して減少してもよい。

さらに、「既知前景」に分類されず、「既知背景」としても分類されない各画素は、「未知」としてトライマップに分類される。生成されたトライマップは、頭部バウンディングボックスの外方に存在するフレームの部分の「既知前景」、「既知背景」、および「未知」の領域を示してもよい。ブロック２１８の後には、ブロック２２０が続いてもよい。

ブロック２２０では、フレームの頭部部分、例えば、頭部バウンディングボックス内に存在するフレームの部分について、トライマップが生成される。いくつかの実装では、トライマップの生成工程は、頭部バウンディングボックス内の各画素について、その画素が既知前景であるか、既知背景であるか、または未知であるかを識別する工程を備えてもよい。

いくつかの実装では、画素を既知前景として識別する工程は、頭部バウンディングボックスに対して決定された内方マスク内に画素が存在する場合、画素を既知前景に分類する工程を備えてもよい。さらに、これらの実装では、既知背景として画素を識別する工程は、頭部バウンディングボックスに対して決定された外方マスクの外方に画素が存在する場合、既知背景として画素を分類する工程を備えてもよい。さらに、これらの実装では、画素を未知と識別する工程は、既知前景に分類されず、既知背景に分類されない画素を未知に分類する工程を備えてもよい。生成されたトライマップは、頭部バウンディングボックス内に存在するフレームの部分の既知前景、既知背景、および未知の領域を示してもよい。異なる実装では、内方マスクと外方マスクは、任意の適切な技術を使用して取得することができる。内方マスクと外方マスクを取得する方法の一例を、図４を参照して説明する。

フレームの頭部部分のトライマップを生成した後、それを画像の非頭部部分（頭部以外の部分）のトライマップに結合（ｍｅｒｇｅ）することで、フレーム全体のトライマップを取得することができる。このようにして、生成されたトライマップは、フレームの各画素を既知背景（ＢＧＤ）、既知前景（ＦＧＤ）、または未知に分類する。ブロック２２０の後に、ブロック２２２が続いてもよい。

頭部部分のトライマップの別個の生成、例えば、トライマップ生成のために内方マスクおよび外方マスクを利用することで、頭部部分のトライマップ生成における頭部特有の特徴の認識および取り込みに起因して、改善されたセグメンテーション結果を提供することができる。

ブロック２２２では、生成済みトライマップが精製（リファイン）され、重みマップが算出される。例えば、重みマップは、トライマップにおいて未知に分類された画素に対して算出されてもよい。重みマップは、未知に分類された各画素が、フレーム内の前景または背景に傾くレベルまたは程度を表してもよい。背景画像は、映像に対して決定され、維持される。例えば、ユーザが会議室、デスクトップコンピュータ、またはモバイル装置から映像通話（または映像ゲーム）に参加しているときなどの多くの状況では、装置のカメラは静止していてもよく、シーンは静的であってもよく、例えば、フレームの背景部分はフレームからフレームへと変化しなくてもよい。

背景画像は、映像の１つまたは複数のフレームのバイナリマスクに基づき決定されてもよい。維持された背景画像は、映像（またはダウンサンプリングされた映像）の各フレームと同じサイズの色画像であってもよい。例えば、維持された背景画像は、映像の１つまたは複数の先行フレームバイナリマスクで「背景」として識別された各画素の色値を備えていてもよい。このように、維持された背景画像は、様々な画素位置におけるシーンの背景色を示す情報を備えている。いくつかの実装では、各画素の移動平均値は、フレームのシーケンスにおける先行フレーム、例えば、２つ前のフレーム、５つ前のフレーム、１０つ前のフレームなどから決定されてもよい。これらの実装では、ガウスモデルを使用して、先行フレームからの移動平均値に基づき、現在のフレームの画素が背景である可能性を推定してもよい。

いくつかの実装では、背景画像を維持する工程は、トライマップに基づき背景画像を更新する工程を、例えば、フレームのトライマップで背景（ＢＧＤ）に分類される画素を更新する工程を備えてもよい。例えば、背景画像は、以下の式を用いて更新されてもよい。

［維持された背景］＝０．８×［先行背景］＋０．２×［新背景］。
ここで、「先行背景」は、更新前の背景の画素の色値であり、「新背景」は、トライマップの対応する画素の色値である。「維持された背景」は、更新された背景画像である。先行背景（０．８）と新背景（０．２）との係数は、アプリケーションに応じて選択することができる。いくつかの実装では、係数は、カメラの安定性に関する先行推定値に基づき選択することができる。例えば、固定カメラの場合、先行背景には係数値「０．８」を選択し、新背景には係数値「０．２」を選択してもよい。別の例では、例えば、ハンドヘルドカメラまたは動きを経験する他のカメラの場合、カメラの動きのために履歴データの価値が低くなる可能性があるので、先行背景に対して「０．５」の係数値を選択し、新背景に対して「０．５」の係数値を選択してもよい。

維持された背景画像は、トライマップ内の各画素に対する重みを指定する重みマップを決定するべく利用されてもよい。いくつかの実装では、重みマップを決定する工程は、トライマップにおいて未知（アンノウン）に分類されたフレームの各画素に対する重みを算出する工程を備えてもよい。いくつかの実装では、画素に対する重みを算出する工程は、画素色（カラー）と、背景画像の背景色（バックグラウンドカラー）との間のユークリッド距離を算出する工程を備えてもよい。重みを算出する工程はさらに、ユークリッド距離に基づき、画素が背景画素である確率を決定する工程を備えてもよい。いくつかの実装では、確率（ｐ）は、以下の式を使用して算出されてもよい。

ｐ＝ｅｘｐ（－０．０１×｜［画素色］－［維持された背景色］｜^２）。
いくつかの実装では、画素色と、維持された背景色とは、赤－緑－青（ＲＧＢ）色空間であってもよい。確率に基づき重みを算出する工程はさらに、確率が背景確率閾値を満たすかどうかを判定する工程を備えている。例えば、ｐ＞０．５の画素が背景確率閾値を満たすように、背景確率閾値は０．５として設定されてもよい。画素が背景確率閾値を満たす場合、重みマップ内の画素に背景重み（例えば、負の値）が割り当てられる。いくつかの実装では、重み値は、カメラの安定性の推定値に基づいてもよく、例えば、カメラが安定している場合には、より高い重み値が使用され、映像のキャプチャ（撮影）中にカメラに動きがある場合には、より低い重み値が使用されてもよい。

さらに、顔領域を除いて、フレーム内の１つまたは複数の肌領域を識別するべく、肌色検出を実行してもよい。例えば、顔領域は、頭部バウンディングボックス内に存在するフレームの部分を除いて、フレームに対して肌色検出を実行することで除外されてもよい。例えば、１つまたは複数の肌領域は、フレームに描かれている手、腕、または身体の他の部分に対応していてもよい。

いくつかの実装では、フレームの色データ内の画素の色値は、ＲＧＢ値であってもよい。いくつかの実装では、肌色検出は、式を使用して、肌色である可能性があるかどうかを判定するべく、各画素に対して実行されてもよい。

［肌である］＝［Ｒ＞９５］ＡＮＤ［Ｇ＞４０］ＡＮＤ［Ｂ＞２０］ＡＮＤ［（Ｒ－Ｇ）＞１５］ＡＮＤ［Ｒ＞Ｂ］。
ここでＲ、Ｇ、Ｂは、画素の赤、緑、青の色チャンネル値を意味する。

肌色の可能性が高いと識別された画素に基づき、１つまたは複数の肌領域が識別されてもよい。例えば、１つまたは複数の肌領域は、肌色画素の閾値距離内に存在する画素を備えている領域として識別されてもよい。例えば、閾値距離は４０であってもよい。

いくつかの実装では、１つまたは複数の肌領域を識別した後、その１つまたは複数の肌領域の各画素を「未知」として設定するべく、トライマップを更新してもよい。さらに、そのような各画素にゼロ重みを割り当ててもよい。さらに、画素色を、背景画像の背景色と比較してもよい。画素色と背景色とが類似度閾値を満たす場合、その画素は、重みマップにおいて背景重み（例えば、負の値）を割り当てられる。例えば、類似度閾値は、上述したような確率閾値（例えば、ｐ＞０．５）であってもよい。

画素が（肌色検出を用いて識別された）肌色画素である場合、その画素は、重みマップにおいて前景重み（例えば、正の値）を割り当てられる。さらに、画素色と背景色とが非類似度閾値を満たす場合、その画素は、重みマップにおいて前景重み（例えば、正の値）を割り当てられる。例えば、非類似度閾値は、確率閾値（例えば、ｐ＜０．００２５）であってもよい。肌領域の他の画素は、ゼロ重みを保持してもよい。ブロック２２２の後に、ブロック２２４が続いてもよい。

ブロック２２４では、トライマップで未知に分類された画素に対して、インコヒーレンスペナルティ重みを算出してもよい。いくつかの実装では、初期セグメンテーションマスクは、フレームのシーケンスにおける直前フレームの先行フレームバイナリマスクと比較されて、先行フレームの画素に類似して分類されるフレームの画素の割合を判定してもよい。この割合は、フレーム同士間の類似度として定義されてもよい。例えば、シーンに大きな動きがある場合には類似度が低く、ほとんど静止したシーンの場合には類似度が高くなることがある。類似度に基づき、グローバルコヒーレンス重みを算出してもよい。例えば、いくつかの実装では、グローバルコヒーレンス重みは、以下の式を用いて算出されてもよい。

ｗ＝Ａ×２／ｌ＋ｅｘｐ（５０×（ｌ－類似度））。
ここで、ｗはグローバルコヒーレンス重みであり、Ａは予め定義された定数である。
この式は、類似度が低いときにグローバルコヒーレンス重みが指数関数的に低下することを保証しており、例えば、ゼロに近い状態になる。この場合、グローバルコヒーレンス重みは、重みマップの影響を受けない。一方、類似度が高い場合には、グローバルコヒーレンス重みを高くしてもよい。このように、本明細書で説明するグローバルコヒーレンス重みは、フレームの類似度の関数である。

さらに、トライマップにおいて未知に分類される画素に対する重みは、グローバルコヒーレンス重みに基づき算出されてもよい。いくつかの実装では、画素に対する重みは、グローバルコヒーレンス重みと、画素と先行フレームバイナリマスクのマスク境界との間の距離とに基づき決定されてもよい。バイナリマスク内の対応する画素が、先行フレームバイナリマスク内の前景画素に分類される場合、その画素に対して算出される重みは正である。バイナリマスク内の対応する画素が、先行フレームバイナリマスク内の背景画素に分類される場合、その画素に対して算出される重みは負である。いくつかの実装では、重みは、距離に比例してもよい。いくつかの実装では、グローバルコヒーレンス重みを重みのカットオフ値として使用してもよく、例えば、距離がカットオフ距離値に等しいかより大きい場合、重み値をグローバルコヒーレンス重みに等しいものとして設定してもよい。算出された重みは、重みマップに格納されてもよい。いくつかの実装では、カットオフ距離値は、実験的に、例えば、多数の映像について得られたセグメンテーション結果に基づき決定されてもよい。いくつかの実装では、より高いカットオフ距離値は、隣接するフレーム同士のセグメンテーションが異なる可能性に対応し、連続するフレーム同士間のコヒーレンスが弱いことに対応する可能性がある。

この方法でトライマップで未知に分類された画素に対する重みを算出するとともに、重みマップを格納することは、連続するフレーム同士のセグメンテーション間の一貫性を確保することができ、例えば、フレーム同士が類似している場合、連続するフレームの対応する画素同士は、バイナリマスクで類似の分類を有する可能性が高くなる。これによって、そのような画素が連続するフレームのバイナリマスクにおいて異なる分類を有する場合に発生する可能性のあるフリッカーの視覚効果を低減することができる。ブロック２２４は、ブロック２２６へと続いてもよい。

ブロック２２６では、色データ、トライマップ、および重みマップに基づき微細（ｆｉｎｅ）セグメンテーションを実行することで、フレームのバイナリマスクが得られる。いくつかの実装では、微細セグメンテーションを実行する工程は、フレームにグラフカット技術を適用する工程を備えてもよい。色データ、トライマップ、および重みマップは、グラフカット技法を適用する際の入力として提供されてもよい。

グラフカット技術では、背景および前景の色モデルをグローバルに作成するべく、色データが利用される。例えば、ガウス混合モデル（ＧＭＭ）が、そのような色モデルを構築するべく使用されてもよい。ガウス混合モデルＧＭＭは、例えば、ユーザ入力によって得られた前景画素および背景画素の初期ラベリングを利用する。ガウス混合モデルＧＭＭは、各未知の画素の色値（例えば、ＲＧＢ値）と、初期ラベリングで前景または背景としてラベル付けされた画素との類似度レベルに基づき、未知の画素を背景の可能性が高いか前景の可能性が高いかにラベル付けする新しい画素分布を生成する。

グラフカット技術では、画像の各画素に対応するノードを備えているグラフが生成される。グラフはさらに、前景としてラベル付けされた各画素に接続されたソースノードと、背景としてラベル付けされた各画素に接続されたシンクノードとである２つの追加ノードを備えている。さらに、グラフカット技術は、各画素について、その画素が背景または前景である可能性を示す重みを算出する工程も備えている。重みは、画素をソースノード／シンクノードに接続するエッジに割り当てられる。グラフカット技術では、画素同士間の重みは、エッジ情報または画素類似度（色の類似度）によって定義される。２つの画素の画素色に大きな差がある場合、２つの画素を結ぶエッジには低い重みが割り当てられる。エッジを除去することで前景と背景とを分離するべく、例えば、コスト関数を最小化することで反復（ｉｔｅｒａｔｉｖｅ）カットを実行する。例えば、コスト関数は、カットされるエッジの重みの合計とすることができる。

いくつかの実装では、グラフカット技術は、トライマップで未知に分類されたフレームの画素に適用される。これらの実装では、既知前景および既知背景として識別された画素は、グラフカットから除外される。いくつかの実装では、グラフカット技法を適用する際に、グローバル色モデルが無効化される。グローバル色モデルを無効にすると、例えば、上述のように前景および背景のためのグローバル色モデルを構築する必要がなくなり、代わりにトライマップからの分類を使用することで、算出資源を節約することができる。

フレームの小さな割合（トライマップの未知の部分）に対してグラフカット技術を適用し、トライマップの既知前景および既知背景を除外すると、既知前景および既知背景の画素がグラフに追加されないので、セグメンテーションのパフォーマンスを向上させることができる。例えば、バイナリマスクを取得するべく処理されるグラフのサイズは、上述したような色モデルベースのグラフカット技術が利用されるときのグラフのサイズよりも小さくてもよい。一例では、既知前景および既知背景を除外することで、既知前景および既知背景が含まれる場合の計算負荷の約３３％であるグラフカットの計算負荷を得ることができる。ブロック２２６は、ブロック２２８へと続いてもよい。

ブロック２２８において、時間的ローパスフィルタが、例えば、グラフカット技術によって生成されるバイナリマスクに適用されてもよい。時間的ローパスフィルタを適用する工程は、微細セグメンテーションを実行することの一部として実行されてもよい。映像でキャプチャ（撮影）されたシーンが静止していても、対応する画素の深度値は、連続するフレーム同士間で変化することがある。これは、センサでキャプチャされる深度データが不完全であることによって起こる可能性がある。時間的ローパスフィルタは、１つまたは複数の先行フレームと、現在のフレームとの類似度に基づき、バイナリマスクを更新する。例えば、複数の映像フレームでキャプチャ（撮影）されたシーンが静止している場合、連続したフレームは、対応する画素について同様の深度値を備えている可能性がある。シーンが静止している間に、対応する画素の深度値に変動がある場合、そのような深度値は誤っている可能性があり、時間的ローパスフィルタを使用して更新される。１つまたは複数の先行フレームと現在のフレームとの間の類似度が高い場合、時間的ローパスフィルタを適用することで、現在のフレームのセグメンテーションが、１つまたは複数の先行フレームのセグメンテーションに一致するようになる。類似度が低い場合、例えば、シーンが静止していない場合には、時間的ローパスフィルタによって生成される一貫性は弱くなる。ブロック２２８の後には、ブロック２３０が続いてもよい。

ブロック２３０では、微細セグメンテーションを実行することの一部として、ガウス（ガウシアン）フィルタがバイナリマスクに適用されてもよい。ガウスフィルタは、バイナリマスクにおけるセグメンテーション境界を平滑化してもよい。ガウスフィルタを適用することは、アルファマットを提供することができ、例えば、毛の生えたまたはファジーな前景オブジェクトを、バイナリマスクが背景から分離することを保証することができる。ブロック２３０は、ブロック２３２へと続いてもよい。

ブロック２３２では、バイナリマスクが決定されるべき映像のフレームがさらに存在するかどうかが判定される。処理すべき別のフレームがあると判定された場合、ブロック２３２はブロック２１３へと続いて、フレームを、例えば、フレームのシーケンスにおける次のフレームを選択してもよい。残りのフレームがない（映像全体が処理された）場合、ブロック２３２の後にブロック２３４が続いてもよい。

ブロック２３４では、複数のフレームのそれぞれについて得られたそれぞれのバイナリマスクが、例えば、元の映像のサイズにアップサンプリングされ、前景映像を取得するべく利用される。例えば、映像の各フレームに対する前景マスクは、それぞれのアップサンプリングされたバイナリマスクを用いて決定されてもよく、前景映像に含まれるべき映像の画素を識別するべく利用されてもよい。ブロック２３４の後には、ブロック２３６が続いてもよい。

ブロック２３６では、前景映像がレンダリングされてもよい。いくつかの実装では、前景映像をレンダリングする工程は、バイナリマスクを用いてセグメント化された、前景を備えている複数のフレームを生成する工程を備えてもよい。いくつかの実装では、レンダリングはさらに、前景映像を備えているユーザインタフェースを表示する工程を備えてもよい。例えば、前景映像は、映像通話アプリケーションまたは他のアプリケーションに表示されてもよい。いくつかの実装では、前景映像は、背景無しで、例えば、空白背景で表示されてもよい。いくつかの実装では、映像の元の背景とは異なる背景が、前景映像とともに提供されてもよい。

背景を減算して前景映像を取得することで、任意の適切なまたはユーザが好む背景を、映像に提供することができる。例えば、映像通話アプリケーションにおいて、ユーザは、背景を特定のシーンで置換するという好みを示すことができ、そのような背景が前景映像とともに表示されてもよい。例えば、このように背景を置換することで映像通話の参加者は、背景部分を置換することで、参加者が映像通話に参加した部屋の乱雑さを映像から取り除くことができる。

いくつかの実装では、方法２００は、マルチスレッド方式で実装されてもよく、例えば、方法２００またはその一部を実装する複数のスレッドが、例えば、マルチコアプロセッサ、グラフィックプロセッサなどで同時に実行されてもよい。さらに、方法２００のスレッドは、他のスレッド、例えば、映像をキャプチャする１つまたは複数のスレッド、および／または、セグメント化後の映像を表示する１つまたは複数のスレッドと同時に実行されてもよい。いくつかの実装では、セグメンテーションはリアルタイムで実行される。いくつかの実装では、毎秒３０フレームのレートで、リアルタイムのセグメント化を実行することができる。

頭部バウンディングボックスを検出することで、フレームのセグメンテーションの品質を向上させることができる。多くのアプリケーション、例えば、映像通話アプリケーションでは、人物の頭部は、例えば映像通話の参加者の頭部は、他の参加者の注目の的である。よって、頭部の境界を正確に検出することは、高品質な前景映像を提供するべく貴重である。例えば、高品質の前景映像は、参加者の頭部を備えているすべての（またはほぼすべての）画素を備えており、同時に背景画素を除外することができる。高品質の前景映像では、髪や首などの微細エリアが正確にセグメント化される。頭部バウンディングボックスを検出することで、前景映像を高品質な映像とすることができる。

いくつかの実装では、図２に図示されたブロックの１つまたは複数が、組み合わされてもよい。例えば、ブロック２１８および２２０は結合されてもよく、または並行して実行されてもよい。別の例では、ブロック２２２をブロック２２４と組み合わせてもよい。いくつかの実装では、１つまたは複数のブロックが実行されなくてもよい。例えば、いくつかの実施態様では、ブロック２２４は実行されない。これらの実装では、インコヒーレンスペナルティ重みは算出されない。別の例では、いくつかの実装では、ブロック２２８は実行されなくてもよい。いくつかの実装では、ガウスフィルタを適用した後に得られたバイナリマスクが、前景映像を取得するべくブロック２３４で直接使用されるように、ブロック２３２が実行されなくてもよい。

いくつかの実装では、方法２００のブロックは、図２に図示されているのと並行して、または異なる順序で実行されてもよい。例えば、いくつかの実装では、受け取られた映像は、それぞれが映像フレームのサブセットを備えている複数の映像セグメントに分割されてもよい。そして、各映像セグメントは、前景セグメントを取得するべく方法２００を用いて処理されてもよい。これらの実装では、異なる映像セグメント同士が並行して処理されてもよく、得られた前景セグメント同士は、前景映像を形成するべく結合されてもよい。

いくつかの実装では、例えば、映像のキャプチャと、前景映像のレンダリングまたは表示との間にほとんどまたは全く知覚可能なラグがないように、前景映像はリアルタイムでレンダリングされてもよい。いくつかの実装では、アップサンプリングおよび前景映像のレンダリング（ブロック２３４および２３６）は、映像の一部分に対して、映像の後続部分に対するブロック２１３～２３２と並行して実行されてもよい。

前景映像のレンダリングと並行して方法２００またはその一部を実行することで、ユーザが知覚できるラグ無しに、前景映像をリアルタイムで表示することができる場合がある。さらに、並列実行（例えば、マルチスレッドアプローチを使用して）は、利用可能なハードウェアリソース、例えば、マルチコアプロセッサの複数のコア、グラフィックスプロセッサなどを有利に利用することができる。

方法２００は、クライアント装置（例えば、クライアント装置１２０～１２６のいずれか）および／またはサーバ装置（例えば、サーバ装置１０４）によって実行されてもよい。例えば、いくつかの実装では、クライアント装置は、映像をキャプチャし、方法２００を実行して前景映像をローカルにレンダリングしてもよい。例えば、方法２００は、クライアント装置が適切な処理ハードウェア、例えば、専用のグラフィックス処理ユニット（ＧＰＵ）または他の画像処理ユニット、例えば、ＡＳＩＣ、ＦＰＧＡなどを有する場合、ローカルで実行されてもよい。別の例では、いくつかの実装において、クライアント装置は、映像をキャプチャし、その映像を、前景映像をレンダリングするべく方法２００を実行するサーバ装置に送信してもよい。例えば、方法２００は、クライアント装置が方法２００を実行するための処理能力を欠いている場合や、その他の状況、例えば、クライアント装置で利用可能なバッテリ電力が閾値を下回っている場合、サーバ装置によって実行されてもよい。いくつかの実装では、方法２００は、映像をキャプチャした装置以外のクライアント装置によって実行されてもよい。例えば、映像通話の送信装置は、映像フレームをキャプチャして受取装置に送信してもよい。受取装置は、前景映像をレンダリングするべく方法２００を実行してもよい。このような実装は、送信装置が方法２００をリアルタイムで実行する能力を欠いている場合に有利である。

図３は、いくつかの実装による、頭部バウンディングボックスを検出する例示的な方法３００を示すフロー図である。例えば、方法３００は、ブロック２１６において、映像フレームのために頭部バウンディングボックスを検出するべく利用されてもよい。

方法３００は、ブロック３０２で開始してもよい。ブロック３０２では、色画像（例えば、映像のフレーム）と、対応するセグメンテーションマスクとを受け取ってもよい。例えば、セグメンテーションマスクは、例えば、方法２００のブロック２１４で決定されたように、映像フレームの深度データから決定された、初期セグメンテーションマスクであってもよい。初期セグメンテーションマスクはバイナリであってもよく、例えば、初期セグメンテーションマスクは、色画像の各画素を、前景画素または背景画素に分類してもよい。ブロック３０２の後に、ブロック３０４が続いてもよい。

ブロック３０４では、受け取られた画像（フレーム）をグレースケールに変換する。ブロック３０４から続いて、ブロック３０６があってもよい。
ブロック３０６では、グレースケール画像に対してヒストグラム均等化が行われる。ブロック３０６には、ブロック３０８が続いてもよい。

ブロック３０８において、Ｈａａｒカスケード顔検出が、画像内の１つまたは複数の顔を検出するべく実行される。検出された各顔に対して、その顔に対応する顔画素を備えている顔エリアが識別される。ブロック３０８には、ブロック３１０が続いてもよい。

ブロック３１０において、検出された顔は、初期セグメンテーションマスクを使用して検証される。いくつかの実装では、検出された各顔について、顔エリアの画素の少なくとも閾値の割合が、初期セグメンテーションマスクにおいて前景画素に分類されているかどうかが判定される。ブロック３１０の後に、ブロック３１２が続いてもよい。

ブロック３１２では、検出された顔が、十分な肌エリアを有するかどうかも判定される。検出された顔が十分な肌エリアを有するかどうかの判定は、顔エリアの画素の少なくとも閾値の割合が、肌色であるかどうかを判定することを備えてもよい。例えば、画素が肌色であるかどうかの判定は、画素の色値に基づき実行されてもよい。いくつかの実装では、フレームの色データ内の画素の色値は、ＲＧＢ値であってもよい。いくつかの実装では、式で与えられる肌色基準を使用して、肌色である可能性があるかどうかを判定するべく、各画素に対して肌色検出が実行されてもよい。

［肌である］＝［Ｒ＞９５］ＡＮＤ［Ｇ＞４０］ＡＮＤ［Ｂ＞２０］ＡＮＤ［（Ｒ－Ｇ）＞１５］ＡＮＤ［Ｒ＞Ｂ］。
ここでＲ、Ｇ、およびＢは画素の赤、緑、および青の色チャンネル値を指す。

いくつかの実装では、ブロック３１０および３１２は、画像内の検出された各顔に対して実行されてもよい。ブロック３１２の後には、ブロック３１４が続いてもよい。
ブロック３１４では、画像が少なくとも１つの有効な顔を備えているかどうかが判定される。例えば、ブロック３１４は、検出された各顔に対して実行されてもよい。いくつかの実装では、顔のための顔エリアが、前景画素に分類された画素の少なくとも閾値割合を備えており、顔の顔エリアの画素の少なくとも閾値パーセントが肌色であることが検証された場合、顔が有効であると判定される。いくつかの実装では、前景画素に分類された画素の閾値割合は０．６（６０％）であってもよく、肌色である顔の顔エリアの画素の閾値パーセントは０．２（２０％）であってもよい。ブロック３１４で少なくとも有効な顔が検出された場合、ブロック３１４の後にブロック３１６が続いてもよい。顔が検出されない場合、ブロック３１４はブロック３２０へと続いてもよい。

ブロック３１６では、各有効な顔の顔エリアは、頭部エリアをカバーするように拡大される。いくつかの実装では、拡大は、有効な顔のための顔バウンディングボックスを特定パーセントで拡大して実行されてもよい。ブロック３１６の後には、ブロック３３０が続いてもよい。

ブロック３３０では、頭部バウンディングボックスを取得してもよい。例えば、頭部バウンディングボックスは、顔エリアと、さらに、髪領域、首領域、または襟領域を備えてもよい。頭部バウンディングボックスは、例えば、画像が複数の有効な顔を備えている場合には、画像の複数の異なる領域を識別してもよい。

ブロック３２０では、初期セグメンテーションマスクを分析して、画像内の頭部を検出する。いくつかの実装では、初期セグメンテーションマスクに基づく水平スキャンラインが、最初に算出される。スキャンラインの接続が分析され、接続に基づき、頭部エリアの位置を検出するべく、位置および／またはサイズが決定される。ブロック３２０の後に、ブロック３２２が続いてもよい。

ブロック３２２では、検出された頭部が有効であるかどうかが判定される。例えば、判定は、例えば、ブロック３１２における顔の肌色の検証と同様に、頭部の肌色の検証を実行することに基づいてもよい。ブロック３２２の後には、ブロック３２４が続いてもよい。

ブロック３２４では、画像内に有効な頭部が検出されたかどうかが判定される。有効な頭部が検出された場合、ブロック３２４は、ブロック３３０へと続いてもよい。頭部が検出されない場合、ブロック３２４の後にブロック３２６が続いてもよい。

ブロック３２６では、画像の画素が頭部バウンディングボックス内に存在しないように、頭部バウンディングボックスを空（から）またはヌルに設定してもよい。空の頭部バウンディングボックスは、画像内に頭部が検出されなかったことを示してもよい。頭部が検出されない場合、非頭部部分のトライマップは、フレームのトライマップとなる。いくつかの実装では、頭部の検出をオフにして、画像のすべてのエリアがトライマップで同様に扱われるようにしてもよい。

方法３００は、いくつかの技術的利点を提供することができる。例えば、Ｈａａｒカスケード顔検出技術の使用は、例えば、フレーム内に複数の人物が存在する場合、複数の頭部を検出することができる。さらに、ブロック３１０および３１２を参照して説明したような顔の検証は、偽陽性（ブロック３０８のＨａａｒカスケード顔検出中に顔エリアとして誤って識別された非顔エリア）が排除されることを確実にすることができる。さらに、ブロック３１６を参照して説明したような顔エリアの拡大は、髪、首、襟などの領域がトライマップ内の既知前景として識別されることを確実にすることができ、よって高品質のセグメンテーションを可能にする。

さらに、Ｈａａｒ顔検出によって顔が検出されない場合（または検出された顔が検証されない場合）、ブロック３２０および３２２を参照して説明したように、初期セグメンテーションマスクのマスク分析および検証によって、頭部バウンディングボックスを構築することができる。このようにして、本技術は、例えば、Ｈａａｒカスケード顔検出が顔を検出できない状況などの偽陰性を補償することができる。いくつかの実装では、マスク分析に基づく頭部検出は、高い検出比（例えば、Ｈａａｒカスケード顔検出よりも高い）を提供することができ、より低い計算コストを有する。

図４は、いくつかの実装形態による、頭部領域のためのトライマップを生成する例示的な方法４００を示すフロー図である。方法４００は、ブロック４０２で開始してもよい。
ブロック４０２では、色画像、深度マスク（例えば、初期セグメンテーションマスク）、および頭部バウンディングボックスを受け取ってもよい。例えば、色画像は、映像のフレームに対応していてもよく、フレームの画素の色データを備えていてもよい。ブロック４０２には、ブロック４０４が続いてもよい。

ブロック４０４では、頭部エリア（例えば、頭部バウンディングボックスによって識別される）の近くの背景が、存在するどうかが検出される。例えば、頭部エリアの近く、例えば髪エリアの近くに存在する画像の画素が、明るく均一であるかどうかが検出されてもよい。このような背景では、カメラの深度センサが髪エリアの深度を検出できなかったり、髪エリアの誤った深度を検出してしまったりすることが多い。頭部エリア付近に均一な明るさの背景が検出された場合、髪エリアの拡張を実行する。髪エリアの拡張は、外方マスクを作成するための拡張（ｄｉｌａｔｉｏｎ）サイズの増加を引き起こす。ブロック４０４は、ブロック４０６へと続いてもよい。

ブロック４０６では、首エリアおよび／または肩エリアのための内方マスク縮小が実行され、内方マスクが得られる。内方マスクでは、首（または肩）の周りのエリアが消去される。このような消去は、首のエリア付近の誤ったまたは信頼性のない深度データを補償することができる。ブロック４０６は、ブロック４０８へと続いてもよい。

ブロック４０８では、内方マスクの拡大が行われる。例えば、肌色であって内方マスクの近くの画素は、画素が肌色であるかどうかを判定するべく分析されてもよい。画素が肌色である場合、そのような画素は内方マスクに追加され、これによって、例えばブロック４０６を実行する際に発生する可能性のある過度の浸食を回避することができる。ブロック４０８は、ブロック４１０へと続いてもよい。

ブロック４１０では、内方マスクの色領域を拡大することができる。これによっても、例えば色エリアに対してブロック４０６を実行する際に発生する可能性のある過度の侵食を回避することができる。ブロック４１０は、ブロック４１２へと続いてもよい。

ブロック４１２では、マスクのモルフォロジカル（形態的）拡張が実行されて、外方マスクが得られる。ブロック４１２は、ブロック４１４へと続いてもよい。方法４００は、カメラによってキャプチャされた深度データが他の部分よりも信頼性が低いことが多い頭部領域、例えば首領域および襟領域のトライマップを改善してもよい。前景エリアを識別するべく肌色を使用することで、トライマップを改善することができる。

図５は、色部分（５０２）および対応するマスク（５０４）を有する映像フレームの例を示す。図５に見られるように、映像フレーム（５０２）の前景は、腕を上げた人物を備えている。映像フレームの背景には、ホワイトボードと、前景の人物に背を向けてワークステーションにいる別の人物とを有するオフィス環境が含まれる。

マスク（５０４）は、初期セグメンテーションマスクであってもよい。例えば、マスク（５０４）は、フレーム（５０２）の各画素を前景画素または背景画素に分類するセグメンテーションマスクであってもよい。図５では、マスクの前景画素は白色であり、背景画素は黒色である。見て分かるように、セグメンテーションマスクは、フレームの画素を正確に分類していない。

例えば、画像の左上象限にいくつかの白い画素が見られる。これらの画素は画像の背景部分に相当するが、マスクでは「前景」に分類されている。また、前景の人物の左腕付近に存在するガラス窓やホワイトボードの一部が、誤って「前景」に分類されている。また、色画像では人物の個々の指が見えているが、マスクでは指の領域が正確に描かれていない。よって、図５のマスクを使って得られる前景フレームは、このようなセグメンテーションエラーによって低品質になってしまう。

図６は、上述したようなトライマップを使用せずに、前景と背景を分離した２つの例示的な画像を示す。第１画像（６０２）では、画像の残りの部分が、人物を備えている前景から、背景（薄い灰色）を正しく分離する一方で、人物の首の近くのエリア（６０４）は、前景として誤って識別されていることがわかる。第２画像（６１２）では、画像の他の部分が背景（薄いグレー）を、人物を備えている前景から正しく分離しているのに対し、人物の挙げた手の近くのエリア（６１４）は、前景として誤って認識されていることがわかる。各画像（６０２、６１２）において、背景の一部が前景として誤って認識されているので、前景の一部は、例えば人物の首の領域（６０４）や指や手の領域（６１４）は、このように正しくセグメント化されていない。

図７は、トライマップの一部が識別された画像（７０２）の例を示している。図７では、元の画像の画素色とは異なる、修正された色を持つ画像の画素が、トライマップの未知の部分に分類される。３つの別々の色は、異なる重みを持つトライマップの部分を示すべく利用される。画像７０２の赤色部分は、重みマップの中で前景重みを持っている。画像７０２の青色部分は、重みマップにおいて背景重みを持っている。画像７０２の緑色部分は、重みマップにおいてニュートラル（例えば、ゼロ）の重みを有しており、未知に分類される。

図７に見られるように、赤色部分は、トライマップの他の部分よりも人物の身体に近く、例えば、赤色画素は、緑色部分および青色部分よりも、右腕および右脇の領域の内半分の近くに見られる。また、人物の身体に近い緑色部分は、例えば、画像中の人物の左腕の外方に見られるようになる。トライマップで背景に分類されている青色部分は、人物の身体からさらに離れていることがわかる。

グラフカットアルゴリズムへの入力として提供されるトライマップと重みマップとには、前景領域（腕の外方部分や、人物の身体の他の部分）を背景に分類することにペナルティを課す重みと、背景重みによって背景を正しく除去することを可能にする重みとが含まれている。頭部に特化した最適化を備えている特別に生成されたトライマップの使用によって、例えば、頭部バウンディングボックスを使用した頭部部分トライマップの生成、および肌エリア検出（例えば、手領域）によって、グラフカット出力を可能にし、よって画像の改善されたセグメンテーションを提供することを可能にする。例えば、未知に分類された画素のみにグラフカットを実行することを可能にする、グラフカットのカスタム実装が利用される。グラフカットは、画像のごく一部、例えば、トライマップで未知に分類された画素（図７の修正色部分）のみに適用され、他の画素はグラフに追加されないので、グラフカットを実行するための計算コストは削減される。いくつかの実装では、トライマップを用いたグラフカットの処理時間は、画像全体の処理時間の約３分の１以下になることがある。

図８は、入力映像の４つのフレーム（８０２、８１２、８２２、８３２）を示すとともに、いくつかの実装に従って入力映像をセグメント化することで生成された前景を備えている出力映像の対応する出力フレーム（８０４、８１４、８２４、８３４）を示す図である。見ることができるように出力フレームのそれぞれにおいて前景は、山のシーンに置き換えられた会議室の背景から分離されている。特に、このセグメンテーションは、動きが存在しても正確である。例えば、前景の人物がフレーム８０２と８１２の間で動き、フレーム８２２では指を離して手を挙げ、フレーム８３２では手を回している。いずれの場合でも、対応する出力フレームには元の背景の部分が見られない（または最小限の部分のみが見られる）ので、対応する出力フレームは前景を正しくセグメント化する。

図９は、本明細書に記載された１つまたは複数の機能を実装するべく使用され得る例示的な装置９００のブロック図である。一例では、装置９００は、クライアント装置、例えば、図１に示されたクライアント装置のいずれかを実装するべく使用され得る。あるいは、装置９００は、サーバ装置、例えば、サーバシステム１０２またはサーバ装置１０４を実装することができる。いくつかの実装では、装置９００は、クライアント装置、サーバ装置、またはクライアント装置とサーバ装置の両方を実装するべく使用することができる。装置９００は、上述したように、任意の適切なコンピュータシステム、サーバ、または他の電子装置もしくはハードウェア装置であり得る。

本明細書に記載された１つまたは複数の方法は、任意のタイプのコンピューティング装置上で実行可能なスタンドアロンプログラム、ウェブブラウザ上で実行されるプログラム、モバイルコンピューティング装置、例えば、携帯電話、スマートフォン、タブレットコンピュータ、ウェアラブル装置（腕時計、アームバンド、ジュエリー、ヘッドウェア、仮想現実（バーチャルリアリティ）ゴーグルまたはグラス、拡張現実（オーグメンテッドリアリティ）ゴーグルまたはグラス、ヘッドマウントディスプレイなど）、ラップトップコンピュータなど上で実行されるモバイルアプリケーション（「アプリ」）プログラムで実行することができる。一例では、クライアント／サーバアーキテクチャを使用することができ、例えば、モバイルコンピューティング装置（クライアント装置として）は、ユーザ入力データをサーバ装置に送信し、サーバから出力用（例えば、表示用）の最終出力データを受け取る。別の例では、すべての計算は、モバイルコンピューティング装置上のモバイルアプリ（および／または他のアプリ）内で実行することができる。別の例では、計算は、モバイルコンピューティング装置と、１つまたは複数のサーバ装置との間で分割することができる。

いくつかの実装では、装置９００は、プロセッサ９０２、メモリ９０４、入出力（Ｉ／Ｏ）インタフェース９０６、およびカメラ９１４を備えている。プロセッサ９０２は、プログラムコードを実行し、装置９００の基本動作を制御する１つまたは複数のプロセッサおよび／または処理回路であり得る。「プロセッサ」は、データ、信号、または他の情報を処理する任意の適切なハードウェアシステム、機構、または構成要素を備えている。プロセッサは、１つまたは複数のコア（例えば、シングルコア、デュアルコア、またはマルチコア構成）を有する汎用中央処理装置（ＣＰＵ）、複数の処理ユニット（例えば、マルチプロセッサ構成）、グラフィック処理ユニット（ＧＰＵ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、複合プログラマブルロジック装置（ＣＰＬＤ）、機能を実現するための専用回路、ニューラルネットワークモデルベースの処理を実装するための特殊目的プロセッサ、ニューラル回路、行列計算（例えば、行列乗算）に最適化されたプロセッサを有するシステム、または他のシステムを備えていることができる。

いくつかの実装では、プロセッサ９０２は、ＣＰＵおよびＧＰＵ（または他の並列プロセッサ）を備えてもよい。実装では、ＧＰＵまたは並列プロセッサは、並列に計算を実行することができる複数の処理コア、例えば、１００個のコア、１０００個のコアなどを備えてもよい。さらに、ＧＰＵまたは並列プロセッサは、メインメモリ９０４とは別のＧＰＵメモリを備えてもよい。ＧＰＵメモリは、各ＧＰＵコアによってアクセス可能であってもよい。メインメモリ９０４とＧＰＵメモリとの間でデータを転送することを可能にする、インタフェースが提供されてもよい。

いくつかの実装では、ＧＰＵは、方法２００、３００、もしくは４００、またはその一部を実装するべく利用されてもよい。特に、ＧＰＵは、背景と前景のセグメンテーションに基づき映像フレームをレンダリングするべく、例えば、背景を減算した後に前景映像をレンダリングするべく利用されてもよい。また、ＧＰＵは、背景を別の背景で置き換えてもよい。いくつかの実装では、色データおよび深度データは、ＧＰＵメモリ（ＧＰＵバッファとも呼ばれる）に格納されてもよい。これらの実装では、色データおよび深度データは、ＣＰＵを使用してデータを処理するよりも高速である可能性があるＧＰＵによって、処理されてもよい。

いくつかの実装では、プロセッサ９０２は、ニューラルネットワーク処理を実装する１つまたは複数のコプロセッサを備えてもよい。いくつかの実装では、プロセッサ９０２は、確率的な出力を生成するべくデータを処理するプロセッサであってもよく、例えば、プロセッサ９０２によって生成される出力は、不正確であってもよく、予想される出力からの範囲内で正確であってもよい。処理は、特定の地理的位置に限定される必要はなく、また、時間的な制限を有する必要もない。例えば、プロセッサは、「リアルタイム」、「オフライン」、「バッチモード」などでその機能を実行してもよい。処理の一部は、異なる時間に、異なる場所で、異なる（または同じ）処理システムによって実行されてもよい。コンピュータは、メモリに通信する任意のプロセッサであってもよい。

メモリ９０４は、典型的には、プロセッサ９０２によるアクセスのために装置９００に設けられており、ランダムアクセスメモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）、電気的消去可能読取専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリなどの任意の適切なプロセッサ可読記憶媒体であってもよく、プロセッサによる実行のための命令を記憶するのに適しており、プロセッサ９０２とは別個に配置され、および／またはプロセッサ９０２と統合されている。メモリ９０４は、オペレーティングシステム９０８、映像通話アプリケーション９１０、およびアプリケーションデータ９１２を備えているサーバ装置９００上で、プロセッサ９０２によって動作するソフトウェアを格納することができる。また、１つまたは複数の他のアプリケーションがメモリ９０４に格納されてもよい。例えば、他のアプリケーションは、データ表示エンジン、ウェブホスティングエンジン、画像表示エンジン、通知エンジン、ソーシャルネットワーキングエンジン、画像／映像編集アプリケーション、メディア共有アプリケーションなどのアプリケーションを備えてもよい。いくつかの実装では、映像通話アプリケーション９１０および／または他のアプリケーションはそれぞれ、プロセッサ９０２が本明細書に記載された機能、例えば、図２、図３、または図４の方法の一部またはすべてを実行することを可能にする命令を備えていることができる。本明細書に開示される１つまたは複数の方法は、いくつかの環境およびプラットフォームで動作することができ、例えば、任意のタイプのコンピューティング装置上で実行可能なスタンドアロンコンピュータプログラムとして、ウェブページを有するウェブアプリケーションとして、モバイルコンピューティング装置上で実行されるモバイルアプリケーション（「アプリ」）として、などである。

アプリケーションデータ９１２は、映像を、例えば、映像フレームのシーケンスを備えていることができる。特に、アプリケーションデータ９１２は、映像の複数の映像フレームのうちの各フレームの色データおよび深度データを備えていることができる。

メモリ９０４内のソフトウェアのいずれかは、代替的に、任意の他の適切な記憶（ストレージ）場所またはコンピュータ可読媒体に格納することができる。さらに、メモリ９０４（および／または他の接続されたストレージ装置（複数可））は、１つまたは複数のメッセージ、１つまたは複数の分類法、電子百科事典、辞書、シソーラス、知識ベース、メッセージデータ、文法、ユーザプリファレンス、および／または本明細書に記載された機能で使用される他の命令およびデータを格納することができる。メモリ９０４および他のあらゆるタイプのストレージ（磁気ディスク、光ディスク、磁気テープ、または他の有形メディア）は、「ストレージ」または「ストレージ装置」とみなすことができる。

入出力インタフェース９０６は、装置９００を他のシステムおよび装置とインタフェースすることを可能にする機能を提供することができる。インタフェースされた装置は、装置９００の一部として含まれることができ、または別個のものであり、装置９００に通信することができる。例えば、ネットワーク通信装置、記憶（ストレージ）装置（例えば、メモリおよび／またはデータベース１０６）、および入出力装置は、入出力インタフェース９０６を介して通信することができる。いくつかの実装では、入出力インタフェースは、入力装置（キーボード、ポインティング装置、タッチスクリーン、マイク、カメラ、スキャナ、センサなど）および／または出力装置（ディスプレイ装置、スピーカ装置、プリンタ、モータなど）などのインタフェース装置に接続することができる。

入出力インタフェース９０６に接続することができるインタフェース化された装置のいくつかの例は、コンテンツ、例えば、画像を、映像を、および／または本明細書に記載されるような出力アプリケーションのユーザインタフェースを、表示するべく使用することができる１つまたは複数のディスプレイ装置９３０を備えていることができる。ディスプレイ装置９３０は、ローカル接続（例えば、ディスプレイバス）を介しておよび／またはネットワーク接続を介して装置９００に接続することができ、任意の適切なディスプレイ装置とすることができる。ディスプレイ装置９３０は、ＬＣＤ、ＬＥＤ（ＯＬＥＤを備えている）、またはプラズマディスプレイスクリーン、ＣＲＴ、テレビ、モニタ、タッチスクリーン、３Ｄディスプレイスクリーン、または他の視覚的ディスプレイ装置などの任意の適切なディスプレイ装置を備えていることができる。例えば、ディスプレイ装置９３０は、モバイル装置に設けられたフラットなディスプレイ画面、ゴーグルやヘッドセット装置に設けられた複数のディスプレイ画面、またはコンピュータ装置のモニタ画面とすることができる。

入出力インタフェース９０６は、他の入力および出力装置にインタフェースすることができる。いくつかの例は、画像および／または映像をキャプチャすることができるカメラ９３２を備えている。特に、カメラ９３２は、映像の各映像フレームの色データおよび深度データをキャプチャ（捕捉）することができる。いくつかの実装は、音（例えば、キャプチャされた画像、音声コマンドなどの一部として）をキャプチャするためのマイクロフォン、音を出力するためのオーディオスピーカ装置、または他の入出力装置を提供することができる。

図示を容易にするべく、図９は、プロセッサ９０２、メモリ９０４、入出力インタフェース９０６、ソフトウェアブロック９０８および９１０、ならびにアプリケーションデータ９１２のそれぞれについて１つのブロックを示している。これらのブロックは、１つまたは複数のプロセッサまたは処理回路、オペレーティングシステム、メモリ、入出力インタフェース、アプリケーション、および／またはソフトウェアモジュールを表してもよい。他の実装では、装置９００は、示されたすべての構成要素を有していなくてもよく、および／または、本明細書に示されたものの代わりに、またはそれに加えて、他のタイプの要素を備えている他の要素を有していてもよい。いくつかの構成要素は、本明細書のいくつかの実装で説明されているようなブロックおよび動作を実行するものとして説明されているが、環境１００、装置９００、同様のシステム、任意の適切なプロセッサ、またはそのようなシステムに関連するプロセッサの、任意の適切な構成要素、または構成要素の組み合わせは、説明されているブロックおよび動作を実行することができる。

本明細書に記載の方法は、コンピュータプログラム命令またはコードによって実装することができ、これらはコンピュータ上で実行することができる。例えば、コードは、１つまたは複数のデジタルプロセッサ（例えば、マイクロプロセッサまたは他の処理回路）によって実装することができ、半導体またはソリッドステートメモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、フラッシュメモリ、リジッド磁気ディスク、光ディスク、ソリッドステートメモリドライブなどを備えている、磁気、光学、電磁、または半導体記憶媒体などの非一時的な（非一過性の）コンピュータ可読媒体（例えば、記憶媒体）を備えているコンピュータプログラム製品に格納することができる。また、プログラム命令は、例えば、サーバ（例えば、分散型システムおよび／またはクラウドコンピューティングシステム）から配信されるＳａａＳ（ＳｏｆｔｗａｒｅａｓａＳｅｒｖｉｃｅ）の形で、電子信号に含まれ、電子信号として提供することもできる。あるいは、１つまたは複数の方法を、ハードウェア（論理ゲートなど）で、またはハードウェアとソフトウェアの組み合わせで実装することができる。ハードウェアの例としては、プログラマブルなプロセッサ（例えば、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、ＣｏｍｐｌｅｘＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、汎用プロセッサ、グラフィックスプロセッサ、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔｓ）などを挙げることができる。１つまたは複数の方法は、システム上で動作するアプリケーションの一部または構成要素として、または他のアプリケーションやオペレーティングシステムと連携して動作するアプリケーションまたはソフトウェアとして実行することができる。

本明細書では、その特定の実装に関して説明してきたが、これらの特定の実装は単に例示的なものであり、制限的なものではない。実施例で説明した概念は、他の実施例および実装に適用することができる。

本明細書で議論した特定の実装が、ユーザに関する個人情報（例えば、ユーザデータ、ユーザのソーシャルネットワークに関する情報、ユーザの場所およびその場所での時間、ユーザのバイオメトリック情報、ユーザの活動および人口統計学的情報）を収集または使用する可能性がある状況では、ユーザは、情報が収集されるかどうか、個人情報が保存されるかどうか、個人情報が使用されるかどうか、およびユーザについて情報が収集され、保存され、使用される方法を、制御する１つまたは複数の機会を提供される。すなわち、本明細書で説明するシステムおよび方法は、ユーザの個人情報を収集、保存および／または使用することについて、関連するユーザから明示的な承認を受けた上で、具体的に収集、保存および／または使用する。例えば、プログラムや機能が、その特定のユーザや、プログラムや機能に関連する他のユーザに関するユーザ情報を収集するかどうかを、ユーザが制御できるようになっている。個人情報が収集される各ユーザには、そのユーザに関連する情報収集の制御を可能にする１つまたは複数のオプションが提示され、情報が収集されるかどうか、および情報のどの部分が収集されるかに関する許可または承認を提供する。例えば、ユーザには、通信ネットワークを介して１つまたは複数のそのような制御オプションを提供することができる。さらに、特定のデータは、保存または使用される前に、１つまたは複数の方法で処理され、個人を特定できる情報が削除される場合がある。一例として、ユーザのアイデンティティは、個人を特定できるような情報が判定されないように処理される。別の例として、ユーザ装置の地理的な位置は、ユーザの特定の位置を決定できないように、より大きな地域に一般化されてもよい。

本開示に記載されている機能ブロック、動作（操作）、特徴、方法、装置、およびシステムは、当業者に知られているように、システム、装置、および機能ブロックの異なる組み合わせに統合または分割することができることに留意されたい。特定の実装のルーチンを実装するべく、任意の適切なプログラミング言語およびプログラミング技術を使用することができる。例えば、手続き型やオブジェクト指向など、異なるプログラミング技術を採用してもよい。ルーチンは、単一の処理装置で実行してもよいし、複数のプロセッサで実行してもよい。工程、動作（操作）、または計算は、特定の順序で提示されてもよいが、異なる特定の実装では順序が変更されてもよい。いくつかの実装では、本明細書で逐次的に示される複数の工程または動作（操作）が同時に実行されてもよい。

Claims

コンピュータが実装するコンピュータ実装方法であって、前記コンピュータ実装方法は、
映像の複数のフレームを受け取る工程であって、各フレームは複数の画素の深度データと色データとを備えている、前記複数のフレームを受け取る工程と、
前記映像の前記複数のフレームの各フレームをダウンサンプリングする工程と、
前記ダウンサンプリングの後、各フレームについて、
前記深度データに基づき、前記フレームの各画素を前景画素または背景画素に分類する初期セグメンテーションマスクを生成する工程と、
前記フレームの各画素を、既知背景、既知前景、または未知のうちの一つに分類するトライマップを決定する工程と、
前記未知に分類された各画素について、その画素の重みを算出するとともに、前記重みを重みマップに格納する工程と、および
前記フレームのバイナリマスクを取得するべく、前記色データ、前記トライマップ、および前記重みマップに基づき微細セグメンテーションを実行する工程と、および
前景映像を取得するべく、各フレームの前記バイナリマスクに基づき前記複数のフレームをアップサンプリングする工程と、
を備えている、コンピュータ実装方法。
前記初期セグメンテーションマスクを生成する工程は、
前記画素に関連付けられた深度値が深度範囲の内に存在する場合には前記画素を前記前景画素として設定し、
前記画素に関連付けられた前記深度値が前記深度範囲の外に存在する場合には前記画素を前記背景画素として設定する工程を備えている、
請求項１に記載のコンピュータ実装方法。
前記初期セグメンテーションマスクを生成する工程はさらに、モルフォロジカルオープン処理またはモルフォロジカルクロージング処理のうちの１つまたは複数を実行する工程を備えている、
請求項２に記載のコンピュータ実装方法。
前記コンピュータ実装方法はさらに、前記色データまたは前記初期セグメンテーションマスクのうちの１つまたは複数に基づき、頭部バウンディングボックスを検出する工程を備えている、
請求項１に記載のコンピュータ実装方法。
前記頭部バウンディングボックスを検出する工程は、
前記フレームをグレースケールに変換する工程と、
前記変換後にヒストグラム均等化を実行する工程と、
前記ヒストグラム均等化の後、前記フレーム内の１つまたは複数の顔を、Ｈａａｒカスケード顔検出によって検出する工程であって、前記１つまたは複数の顔のうちの各顔は、その顔の顔画素を備えている顔エリアに関連付けられる、前記１つまたは複数の顔を前記Ｈａａｒカスケード顔検出によって検出する工程と、
を備えている、請求項４に記載のコンピュータ実装方法。
前記コンピュータ実装方法はさらに、前記１つまたは複数の顔のうちの各顔が有効であるかどうかを判定する工程を備えており、
前記顔の前記顔エリアの画素の閾値割合が初期セグメンテーションマスクにおいて前景画素に分類されるとともに、前記顔の前記顔エリアの画素の少なくとも閾値パーセントが肌色基準を満たすことが検証される場合、前記顔は有効であると判定される、
請求項５に記載のコンピュータ実装方法。
前記コンピュータ実装方法はさらに、有効であると判定された各顔について、前記顔に対応する頭部エリアを取得するべく各顔の前記顔エリアを拡大する工程を備えており、
前記頭部バウンディングボックスは、有効であると判定された各顔についての前記頭部エリアを備えている、
請求項６に記載のコンピュータ実装方法。
前記コンピュータ実装方法はさらに、前記顔が有効ではないと判定された場合、
頭部を検出するべく前記初期セグメンテーションマスクを分析する工程と、
前記頭部の肌色検証に基づき、前記頭部が有効であるかどうかを判定する工程と、
前記頭部が有効である場合、前記頭部に関連するバウンディングボックスを前記頭部バウンディングボックスとして選択する工程と、
を備えている、請求項６に記載のコンピュータ実装方法。
前記初期セグメンテーションマスクを生成する工程は、各画素にマスク値を割り当てる工程を備えており、各前景画素には「２５５」のマスク値が割り当てられており、各背景画素には「０」のマスク値が割り当てられており、
前記トライマップを決定する工程は、前記頭部バウンディングボックス内に存在しない前記フレームの各画素について、
前記画素の画素位置と、前記初期セグメンテーションマスクのマスク境界との間のＬＩ距離を算出する工程であって、少なくとも１つの前記前景画素が前記初期セグメンテーションマスク内の少なくとも１つの前記背景画素に隣接する位置を前記マスク境界は備えている、前記ＬＩ距離を算出する工程と、
前記ＬＩ距離が前景距離閾値を満たすとともに、前記画素が前記前景画素に分類される場合、前記画素を前記既知前景に分類する工程と、
前記ＬＩ距離が背景距離閾値を満たすとともに、前記画素が前記背景画素に分類される場合、前記画素を前記既知背景に分類する工程と、
前記画素が前記既知前景に分類されないとともに前記既知背景に分類されない場合、前記画素を前記未知に分類する工程と、
を備えている、請求項４に記載のコンピュータ実装方法。
前記トライマップを決定する工程はさらに、前記頭部バウンディングボックス内の各画素について、前記画素が前記既知前景であるか、前記既知背景であるか、または前記未知であるかを識別する工程を備えており、
前記識別する工程は、
前記頭部バウンディングボックスに対して決定された内方マスク内に前記画素が存在する場合、前記画素を前記既知前景に分類する工程と、
前記頭部バウンディングボックスに対して決定された外方マスクの外方に前記画素が存在する場合、前記画素を前記既知背景に分類する工程と、
前記画素が前記既知前景および前記既知背景に分類されない場合、前記画素を前記未知に分類する工程と、
を備えている、請求項９に記載のコンピュータ実装方法。
前記コンピュータ実装方法はさらに前記識別の前に、
前記頭部バウンディングボックス内の前記頭部の髪エリアの近くに、均一な明るさの背景が存在するかどうかを検出する工程と、
前記均一な明るさの背景が検出された場合、前記頭部バウンディングボックス、前記色データ、および前記初期セグメンテーションマスクに基づき、前記頭部の前記髪エリアの拡張を実行する工程であって、前記髪エリアの拡張を実行した後、前記外方マスクの拡張サイズは増大される、前記髪エリアの拡張を実行する工程と、
を備えている、請求項１０に記載のコンピュータ実装方法。
前記コンピュータ実装方法はさらに、
前記映像の背景画像を維持する工程であって、前記背景画像は前記映像の各フレームと同じサイズの色画像である、前記背景画像を維持する工程と、
前記微細セグメンテーションを実行する前に、前記トライマップに基づき前記背景画像を更新する工程と、
を備えており、
前記画素の前記重みを算出する工程は、
画素色と、前記背景画像の背景色との間のユークリッド距離を算出する工程と、
前記ユークリッド距離に基づき、前記画素が前記背景画素である確率を決定する工程と、
前記確率が背景確率閾値を満たす場合、前記重みマップにおいて前記画素に背景重みを割り当てる工程と、
を備えている、請求項１に記載のコンピュータ実装方法。
前記コンピュータ実装方法はさらに、
肌色検出に基づき、前記フレーム内の１つまたは複数の肌領域を特定する工程であって、前記１つまたは複数の肌領域は顔領域を除外する、前記１つまたは複数の肌領域を特定する工程と、
前記１つまたは複数の肌領域内に存在する前記フレームの各画素に対して、
前記画素を前記未知に分類するとともに、前記重みマップにおいて前記画素にゼロ重みを割り当てる工程と、
前記画素色と、前記背景画像の前記背景色とが類似度閾値を満たしている場合、前記重みマップにおいて前記画素に背景重みを割り当てる工程と、
前記画素色が肌色である場合、前記重みマップにおいて前記画素に前景重みを割り当てる工程と、および
前記画素色と、前記背景画像の前記背景色とが非類似度閾値を満たす場合、前記重みマップにおいて前記画素に前記前景重みを割り当てる工程と、
を備えている、請求項１２に記載のコンピュータ実装方法。
前記複数のフレームはシーケンスであり、
前記コンピュータ実装方法は各フレームについてさらに、
先行フレームの画素に類似すると分類された前記フレームの画素の割合を決定するべく、前記初期セグメンテーションマスクを、前記シーケンスの直前フレームの先行フレームバイナリマスクと比較する工程と、
前記割合に基づき、グローバルコヒーレンス重みを算出する工程と、
を備えており、
前記画素に対する前記重みを算出するとともに、前記重みを前記重みマップに格納する工程は、前記グローバルコヒーレンス重みと、前記画素と前記先行フレームバイナリマスクのマスク境界との間の距離とに基づき、前記重みを決定する工程を備えている、
請求項１に記載のコンピュータ実装方法。
前記画素に対する前記重みは、
対応する画素が前記先行フレームバイナリマスクにおいて前記前景画素に分類された場合には正であり、
前記対応する画素が前記先行フレームバイナリマスクにおいて前記前景画素に分類されなかった場合には負である、
請求項１４に記載のコンピュータ実装方法。
前記微細セグメンテーションを実行する工程は、前記フレームにグラフカット技術を適用する工程を備えており、
前記グラフカット技術は、前記未知に分類される画素に適用される、
請求項１に記載のコンピュータ実装方法。
前記コンピュータ実装方法はさらに、前記微細セグメンテーションを実行した後に、時間的ローパスフィルタを前記バイナリマスクに適用する工程を備えており、
前記時間的ローパスフィルタは、１つまたは複数の先行フレームと、前記フレームとの間の類似度に基づき前記バイナリマスクを更新する、
請求項１に記載のコンピュータ実装方法。
１つまたは複数のハードウェアプロセッサによって実行されると、前記１つまたは複数のハードウェアプロセッサに動作を実行させる命令が格納された非一時的なコンピュータ可読媒体であって、前記動作は、
映像の複数のフレームを受け取る工程であって、各フレームは複数の画素の深度データと色データとを備えている、前記複数のフレームを受け取る工程と、
前記映像の前記複数のフレームの各フレームをダウンサンプリングする工程と、
前記ダウンサンプリングの後、各フレームについて、
前記深度データに基づき、前記フレームの各画素を前景画素または背景画素に分類する初期セグメンテーションマスクを生成する工程と、
前記フレームの各画素を、既知背景、既知前景、または未知のうちの一つに分類するトライマップを決定する工程と、
前記未知に分類された各画素について、その画素の重みを算出するとともに、前記重みを重みマップに格納する工程と、および
前記フレームのバイナリマスクを取得するべく、前記色データ、前記トライマップ、および前記重みマップに基づき微細セグメンテーションを実行する工程と、および
前景映像を取得するべく、各フレームの前記バイナリマスクに基づき前記複数のフレームをアップサンプリングする工程と、
を備えている、非一時的なコンピュータ可読媒体。
前記コンピュータ可読媒体には、前記１つまたは複数のハードウェアプロセッサによって実行されると、前記１つまたは複数のハードウェアプロセッサに動作を実行させるさらなる命令が格納されており、前記動作は、
前記映像の背景画像を維持する工程であって、前記背景画像は前記映像の各フレームと同じサイズの色画像である、前記背景画像を維持する工程と、
前記微細セグメンテーションを実行する前に、前記トライマップに基づき前記背景画像を更新する工程と、
を備えており、
前記画素の前記重みを算出する工程は、
画素色と、前記背景画像の背景色との間のユークリッド距離を算出する工程と、
前記ユークリッド距離に基づき、前記画素が前記背景画素である確率を決定する工程と、
前記確率が背景確率閾値を満たす場合、前記重みマップにおいて前記画素に背景重みを割り当てる工程と、
を備えている、請求項１８に記載の非一時的なコンピュータ可読媒体。
１つまたは複数のハードウェアプロセッサと、および、
前記１つまたは複数のハードウェアプロセッサに結合されたメモリであって、前記１つまたは複数のハードウェアプロセッサによって実行されたときに動作を実行する命令が格納される前記メモリと、
を備えているシステムであって、前記動作は、
映像の複数のフレームを受け取る工程であって、各フレームは複数の画素の深度データと色データとを備えている、前記複数のフレームを受け取る工程と、
前記映像の前記複数のフレームの各フレームをダウンサンプリングする工程と、
前記ダウンサンプリングの後、各フレームについて、
前記深度データに基づき、前記フレームの各画素を前景画素または背景画素に分類する初期セグメンテーションマスクを生成する工程と、
前記フレームの各画素を、既知背景、既知前景、または未知のうちの一つに分類するトライマップを決定する工程と、
前記未知に分類された各画素について、その画素の重みを算出するとともに、前記重みを重みマップに格納する工程と、および
前記フレームのバイナリマスクを取得するべく、前記色データ、前記トライマップ、および前記重みマップに基づき微細セグメンテーションを実行する工程と、および
前景映像を取得するべく、各フレームの前記バイナリマスクに基づき前記複数のフレームをアップサンプリングする工程と、
を備えている、システム。