JP2023157856A

JP2023157856A - 深度マップの生成方法及びシステム

Info

Publication number: JP2023157856A
Application number: JP2023061992A
Authority: JP
Inventors: カインスコマル; Kainth Komal; デイヴィッドギブソンジョエル; David Gibson Joel
Original assignee: Blackmagic Design Pty Ltd
Current assignee: Blackmagic Design Pty Ltd
Priority date: 2022-04-15
Filing date: 2023-04-06
Publication date: 2023-10-26
Also published as: CN116912303A; EP4261780A1; US20230334685A1

Abstract

【課題】ビデオクリップ内のフレームシーケンスのフレームに対応する深度マップを生成する方法とシステムを提供する。【解決手段】ビデオクリップ内のフレームシーケンスのフレームに対応する深度マップを生成する方法は、複数のフレームのそれぞれの単一画像の深度マップを生成することと、該単一画像の深度マップをスケーリングすることと、ビデオクリップ内のフレームシーケンスのフレームに対応する前記深度マップを生成するためにスケーリングされた単一画像の深度マップの時間シーケンスを処理することと、を含む。【選択図】図２

Description

本開示は、フレームの時間シーケンスを含むビデオクリップのフレーム内などの画像における深度推定に関する方法およびシステムに関する。

デジタルムービーのポストプロダクションでは、ビデオのフレームで目視できる１または複数の要素の深度を推定することが必要な場合がある。例えば、その深度に基づいて要素に所定の画像処理技術を適用すること、または適用しないことが必要な場合があり、あるいは画像処理技術を深度とともに変化させて適用することが必要な場合がある。同様のニーズは、コンピュータビジョンの分野でも一般に生じる。深度とは、画像をキャプチャするカメラ、または人工的に生成された画像の仮想視点からオブジェクト（またはオブジェクト上の点）までの実際の距離または「黙示」の距離を意味する。

発明者らは深度推定の技術について認識している。そのような技術は、画像内の各ピクセルの推定深度値を含む深度マップを生成する。これらの深度は、色またはグレーレベルに対応して、深さを示すカラーまたはグレースケールイメージとして視覚的に表すことができる。例えば、図１は、画像（ａ）のムービークリップの画像フレームと、それに対応する画像（ｂ）の深度マップを示している。深度マップの画像（ｂ）では、各ピクセルの深度がグレーレベルで表されている。明るいピクセルは暗いピクセルより深度が浅く、画像をキャプチャしたカメラから白いピクセルが最も近く、黒いピクセルが最も遠い。

深度推定のいくつかの技術は、三角測量による深度決定を可能にするために、両眼画像または立体画像に依存している。ただし、立体画像は通常利用できない。単眼深度推定技術も存在する。単眼深度推定技術は通常、単一の画像（写真や映画の単一フレームなど）に対して深度推定を実行する。しかしながら、ムービークリップを構成するフレームの時間シーケンスにおいて各フレームに単一画像の深度推定技術が適用される場合、深度マップに「ちらつき」が発生するのが一般的である。ちらつきは、あるフレームから次のフレームに変化する、オブジェクトまたは領域（またはオブジェクトまたは領域内のポイント）の深度推定によってもたらされる。絶対深度の小さな変化は許容されるが、誤った相対的な変化はより大きな問題になり得る。最も顕著なのは、（大幅なシーンの変化やカメラの動きを伴うことなく）２つのオブジェクトの相対的な深度がフレーム間で変化し、以前は別のオブジェクトの後ろまたは前にあった１つのオブジェクトが該別のオブジェクトの前または後ろに移動する場合である。

本明細書に記載のシステム、デバイス、方法およびアプローチ、およびそれらのコンポーネントは発明者らに知られるものである。したがって、別段の指示がない限り、記載されるそのようなシステム、デバイス、方法、アプローチ、またはそれらのコンポーネントのいずれも、単に明細書に含まれているという理由だけで、先行技術として引用が可能であると想定されるべきでなく、すなわち、そのようなシステム、デバイス、方法、アプローチ、およびコンポーネントが、当業者に普通に知られていると想定されるべきではない。

第１の態様では、ビデオクリップ内のフレームシーケンスのフレームに対応する深度マップを生成する方法が提供される。この方法は：
複数のフレームの各フレームに対して単一画像の深度マップを生成することと；
前記各フレームに対してスケーリングされた単一画像の深度マップを生成するために、スケール値を前記単一画像の深度マップの各ピクセルに適用することにより、各フレームに対して単一画像の深度マップをスケーリングすることと；
ビデオクリップ内のフレームシーケンスのフレームに対応する前記深度マップを生成するために、スケーリングされた単一画像の深度マップの時間シーケンスを処理することと；
を含む。

単一画像の深度マップの各ピクセルに対応するスケール値は：フレームにわたって配置された複数の格子点の各格子点に対して、
前記格子点の深度値と、複数の時間的に関連するフレームの同一の格子点に対応する深度値とを使用して初期スケール値を生成することと；
前記格子点の初期スケール値および１または複数の隣接する格子点の初期スケール値に基づいて、前記格子点の最終スケール値を生成することと；
前記格子点の最終スケール値から、前記単一画像の深度マップの各ピクセルに適用するための対応するスケール値を決定することと；
を含む方法を使用して生成される。

格子点の深度値と、複数の時間的に関連するフレームの同一の格子点の深度値とを使用して初期スケール値を生成するステップは、該格子点を含む領域の平均深度値を決定することにより、前記フレームの該格子点の深度値を決定することを含み、および複数の時間的に関連するフレームの同一の格子点に対応する深度値を決定することは、前記格子点に対応する位置が複数の時間的に関連するフレームのそれぞれについて決定されるように前記フレームのコンテンツと前記時間的に関連するフレームのコンテンツとの間の対応付けを決定することと、および各時間的に関連するフレームの前記格子点に対応する深度値を決定するために時間的に関連する各フレームの前記位置を含む領域の平均深度値を決定することと、を含む。

各格子点の初期スケール値は、該格子点の深度値に対する、複数の時間的に関連するフレームの同一の格子点の深度値を少なくとも含む一群の深度値の中心傾向尺度（ｍｅａｓｕｒｅｏｆｃｅｎｔｒａｌｔｅｎｄｅｎｃｙ）の比率を使って決定することができる。たとえば、中心傾向尺度は中央値であってもよい。該一群の深度値は該格子点の深度値を含むこともあり得る。

該方法は、前記フレームのピクセルを含むマスクを定義することを含み、それにより単一画像の深度マップが、複数のフレームのオプティカルフロー解析に基づいて信頼できないか、またはしきい値深度よりも深い深度を有するかのいずれかまたは両方であると判定される。

いくつかの実施形態では、前記フレームのコンテンツと前記時間的に関連するフレームのコンテンツとの間の対応付けを決定することは、時間的に隣接するフレーム間のオプティカルフローを分析することと、および該オプティカルフローに従って前記複数の時間的に関連するフレームのそれぞれのワープされた深度マップを生成することとを含むことができる。これにより、前記格子点に対応する前記位置が前記格子点と位置合わせされ、ワープされた深度マップを使用して、時間的に関連する各フレーム内の前記位置の周囲の領域の平均深度値を決定できる。

いくつかの実施形態では、前記フレームのコンテンツと前記時間的に関連するフレームのコンテンツとの間の対応付けを決定することは、時間的に隣接するフレーム間のオプティカルフローを分析することと、前記オプティカルフローを使って前記時間的に関連するフレームのそれぞれにおける前記格子点の位置をトラッキングすることと、各時間的に関連するフレーム内の前記位置の周囲の領域の平均深度値を決定することと、を含んでもよい。

いくつかの実施形態では、マスクに含まれるピクセルは、格子点を含む領域の平均深度値を決定することにより格子点の深度値を決定すること、および／または複数の時間的に関連するフレームの同一の格子点に対応する深度値を決定することのいずれかまたは両方から除外される。

いくつかの実施形態では、前記格子点の初期スケール値および１または複数の隣接する格子点の初期スケール値に基づいて前記格子点の最終スケール値を生成するステップは、前記１または複数の隣接する格子点のそれぞれと前記格子点の初期スケール値の相対的寄与度を決定することを含む。前記１または複数の隣接する格子点の相対的寄与度は、いくつかの実施形態では、前記マスクを使用して決定することができる。

いくつかの実施形態では、前記格子点の初期スケール値および１または複数の隣接する格子点の初期スケール値に基づいて前記格子点の最終スケール値を生成することは、前記格子点のそれぞれの初期スケール値とおよび前記格子点の隣接格子点のそれぞれの初期スケール値とを表す一連の一次方程式を解くことを含む。

いくつかの実施形態では、格子点の最終スケール値から前記単一画像の深度マップの各ピクセルに適用するためのスケール値を決定することは、前記格子点間の各ピクセルのスケール値を補間によって生成することを含むことができる。上記格子点の外側にピクセルがある場合、これらのピクセルは外挿によってスケール値を決定できる。

いくつかの実施形態では、格子点の最終スケール値からの前記単一画像の深度マップの各ピクセルに適用するためのスケール値は、前記格子点に対する位置に基づいて各ピクセルにスケール値を割り当てることによって決定することができる。例えば、各格子点の周囲の領域内のすべてのピクセルは、格子点に対応するスケール値とすることができる。

フレームごとに単一画像の深度マップを生成するために機械学習技術を使用することができる。例えば、前記単一画像の深度マップを生成するために、機械学習技術はディープラーニングモデルの使用を含んでもよい。ディープラーニングモデルは、畳み込みニューラルネットワークまたは他の適切なモデルであってもよい。

この方法が繰り返されまたは継続されることで、ビデオクリップの少なくとも１つの追加フレームの深度マップを生成することができる。

いくつかの実施形態では、深度マップは、フレームよりも低い解像度で生成することができる。例えば、１／２、１／４解像度のような分数解像度で実行されてもよい。他の実施形態では、深度マップは、フレームと同じ解像度で生成することができる。

さらなる態様では、非一時的記憶媒体に記憶された実行命令に従って動作するプロセッサを含むコンピュータシステムが提供され、該命令の実行により、本明細書に記載の方法の実施形態を実行するコンピュータシステムを構成する。該コンピュータシステムを、ビデオおよびオプションでオーディオメディアを編集する際に使用するノンリニアエディタにすることができる。

さらに、プロセッサによって実行されると、本明細書に記載の方法の実施形態をプロセッサに実行させる実行命令を格納する非一時的コンピュータ可読記憶媒体が提供される。

さらなる態様では、プロセッサによって実行されると、本明細書に記載の方法の実施形態をプロセッサに実行させる実行命令を内蔵するコンピュータソフトウェア製品が提供される。該コンピュータソフトウェア製品は、ノンリニア編集ソフトウェア製品またはビデオ効果ソフトウェア製品を含むことができ、例えば、出願人のＤａｖｉｎｃｉＲｅｓｏｌｖｅまたはＦｕｓｉｏｎソフトウェアは、本明細書に記載の方法の実施形態を実行することができる。

本明細書に開示された発明は、様々な修正および代替の形態を受け入れることができる一方、特定の実施形態が、例として図面に示され、詳細に説明される。しかし、図面および詳細な説明は、本発明を、開示された特定の形態に限定することを意図していない。さらに、明細書または図面に記載された、またはそれらから明らかな個々の特徴の２以上のすべての代替の組み合わせは、追加の態様または発明の開示を含み、請求項の対象となり得る。

（ａ）は、ムービークリップのフレームを示し、（ｂ）は、グレーレベルで推定深度を表す対応する深度マップを示す。ビデオクリップのフレームの深度マップを生成する方法の一実施形態の概要を示すフローチャートである。図２の概要にしたがった実施形態のさらなる詳細を示すフローチャートである。ビデオクリップの一連のフレームを示す。図４のフレームに対応する一連の単一画像の深度マップを示す。格子点の配置例を示す３個の実施形態のうち１つを示す。格子点の配置例を示す３個の実施形態のうち１つを示す。格子点の配置例を示す３個の実施形態のうち１つを示す。（ａ）は、フレームを示し、（ｂ）は、図６Ｂの格子を重ねたフレームを示す。時間的に関連するフレームの格子点に対応する領域を表す。時間的に関連するフレームの格子点に対応する領域のワーピングを使用するさらなる実施形態を表す。オプティカルフロー推定のプロセスを表す。複数の時間的に関連するフレームに適用されるオプティカルフロー推定を表す。一連のフレームｎ－２～ｎ＋２を表し、逆方向ワーピングを使用してワープされたＳＩＤＭがいかに創出されるか概略的に表す。少なくとも１つの実施形態で使用されるマスクを表す。いくつかの実施形態の最終スケール値を決定するために使用される回路図形式のモデルを表す。フレームｎの最終深度マップを生成するためにｓＳＩＤＭに時空間フィルタリングを用いるプロセスの概要を表す。本明細書に開示される実施形態に従ったコンピュータシステムの第１実施形態の概略ブロック図である。

以下の説明では、本開示を十分に理解できるように、多くの具体例が示される。しかし、本開示がこれら詳細な具体例がなくとも実施可能であることは明らかであろう。いくつかの例では、重要事項が不必要に複雑化され理解困難になるのを避けるために、構成やデバイスをブロック図で示している。

発明者らが知っているムービークリップの深度推定に向けての１つのアプローチは、時間的ちらつきの問題に対処するものであり、それは、ＪｏｈａｎｎｅｓＫｏｐｆ、ＸｕｅｊｉａｎＲｏｎｇ、Ｊｉａ－ＢｉｎＨｕａｎｇの「ＲｏｂｕｓｔＣｏｎｓｉｓｔｅｎｔＶｉｄｅｏＤｅｐｔｈＥｓｔｉｍａｔｉｏｎ」；ＩＥＥＥ／ＣＶＦＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），２０２１，ｐｐ．１６１１－１６２１の議事録で提案されており、その内容はその目的が何であれ引用することにより本明細書に組み込まれる。しかし出願人は、前記文献またはそこに引用されるその他の文献が当業者によって知られていることを認めるものではない。このアプローチには、計算コストが高く、出力される深度マップを生成するためにフレームあたり数秒かかるという欠点がある。以下に説明する実施形態はこの欠点に対処するものであり、または少なくとも上記アプローチの代替案を提供するものである。

図２はビデオクリップ内のフレームシーケンスのフレームｎに対応する深度マップを生成する方法の一実施形態の概要を表すフローチャートである。

方法１０は、複数のフレーム（フレームｎ－ｘ…フレームｎ＋ｙ）を有するビデオクリップ１１０から始まり、最後にフレームｎ（ＤＭｎ）の深度マップを生成する。この方法を再度実行して、任意の他のフレーム（たとえば、フレームｎ＋１、ｎ－１など）の深度マップが生成される。ただし、データはあるフレームから次のフレームに再利用される可能性があるため、すべてのステップ、アクション、サブステップを完全に繰り返す必要はないことが明らかになる。

ステップ１２において、フレームｎ、およびフレームｎに時間的に隣接する少なくともいくつかのフレームについて単一画像の深度マップ（ＳＩＤＭ）を生成するためにベースラインの深度推定が実行される。いくつかの実施形態では、ベースラインの深度推定１２は、クリップのすべてのフレームに対して、またはフレームｎに関して上記方法を完了するのに必要なフレームのみに対して実行することができる。

次に、ステップ１４は、ステップ１２のベースラインの深度推定にスカラー場を適用することを含む。ベースラインのＳＩＤＭ値は、スカラー場の対応する値で乗算される。少なくとも１つの実施形態では、スカラー場は、フレーム（フレームｎを含む）の時間シーケンスのＳＩＤＭ値を使用して計算される。これは、あるフレームから次のフレームにわたるＳＩＤＭの大きな領域のちらつきに対処するのに役立つ。

ステップ１６では、フレームｎ（ＤＭｎ）の深度マップを生成するために、複数のフレームのスケーリングされた単一画像の深度マップを使用して、時空間フィルタリングが実行される。このステップでは、複数のフレームにわたるスケーリングされた深度マップの対応する空間領域の加重平均を取り入れてもよい。

図３は、図２の方法の実施形態に従って深度マップを生成する方法におけるステップを示すフローチャートである。

図２と同様に、方法１００は、ビデオクリップ１１０を取得することから始まる。ビデオクリップは、例えば、メモリから読み取ることにより、有線または無線ネットワークにより伝送チャネルを介して受信することにより、またはカメラで直接キャプチャすることにより取得できる。ビデオクリップ１１０は、複数のフレームを含む。該複数のフレーム１１０は、フレームｎの前のｘ個のフレーム（それに対して深度マップが作成される）とフレームｎの後のｙ個のフレーム、（フレームｎ－ｘ…ｎ…ｎ＋ｙ）を含む。ｘとｙはフレームの任意の数であり、ｘとｙは等しくても等しくなくてもよい。図４は、ビデオクリップの一部として一連の画像を示す。図４の画像はクマが歩いている様子を示しており、合計７フレームで構成されている。深度マップが創出されるフレーム（フレームｎ）の前には３フレーム（フレームｎ－３～ｎ－１）後ろには３フレーム（フレームｎ＋１～ｎ＋３）がある。

ステップ１２０では、複数のフレームのそれぞれに対して単一画像の深度マップ（ＳＩＤＭ）を生成することによって、ベースラインの深度推定が実行される。このステップで処理される複数のフレームは、ビデオクリップ１１０内のすべてのフレームであってもよいし、フレームｎを処理するために必要なフレームだけであってもよい。フレームｎに対応する単一画像の深度マップには、ＳＩＤＭｎというラベルが付けられる。図５は、図４のクリップのフレームに対応する単一画像の深度マップを示す。７つの単一画像の深度マップにはラベルが付けられている（ＳＩＤＭｎ－３．．．ＳＩＤＭｎ＋３）。他のフレームと単一画像の深度マップについても同じネーミングルールが適用される。さらに、明細書および特許請求の範囲全体を通して、エンティティ（物）またはアクションが特定のフレーム（たとえば、フレームｎ）に関連する場合、「ｎ」のラベルが付けられるネーミングルールが適用される。同様に、所定のフレームに関連するエンティティおよびアクションは、対応するラベルでネーミングされる。

いくつかの実施形態では、ＭｉＤａＳなどの畳み込みニューラルネットワークを使用して、単一画像の深度推定を実行することができる。ＭｉＤａｓについては、ＲｅｎｅＲａｎｆｔｌ、ＫａｔｒｉｎＬａｓｉｎｇｅｒ、ＫｏｎｒａｄＳｃｈｉｎｄｌｅｒ、およびＶｌａｄｌｅｎＫｏｌｔｕｎによって「Ｔｏｗａｒｄｓｒｏｂｕｓｔｍｏｎｏｃｕｌａｒｄｅｐｔｈｅｓｔｉｍａｔｉｏｎ：Ｍｉｘｉｎｇｄａｔａｓｅｔｓｆｏｒｚｅｒｏ－ｓｈｏｔｃｒｏｓｓ－ｄａｔａｓｅｔｔｒａｎｓｆｅｒ」ＴＰＡＭＩ、２０２０に詳細に説明されており、リポジトリとしてｈｔｐｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｉｓｌ－ｏｒｇ／ＭｉＤａＳでアクセスできる。

元のフレームは、３８４×ｎにスケーリングすることができ、ここでｎは、入力されるクリップのアスペクト比によって決まり、画像フレームの短辺の長さを表す。ＭｉＤａＳの出力は、出力が１／深度に等しくなるように、逆数の深度を生成する。これは各ＳＩＤＭのグレースケール画像で図５に表され、ここでは、画像コンテンツの推定深度がグレーレベルとして表されており、明るいピクセルは暗いピクセルよりも推定深度が低く、白いピクセルは画像がキャプチャされる視点（実際のシーンの画像のカメラ、または人工的に作成された画像の選択されたポイント）から最も近いと見なされる領域であり、黒いピクセルは最も遠いと見なされる領域である。

図３に戻ると、ステップ１３０において、単一画像の深度マップ（ＳＩＤＭｎ）がスケーリングされて、スケーリングされた単一画像の深度マップ（ｓＳＩＤＭｎ）が生成される。この実施形態では、ステップ１３０は、以下のサブプロセスを含む：
ステップ１５０で、フレームにわたって配置された複数の格子点の初期スケール値が生成される。

ステップ１６０で、（ステップ１５０で決定される）格子点の初期スケール値および１または複数の隣接する格子点の初期スケール値（それらの格子点に関連してステップ１５０で決定される）に基づいて、各格子点の最終スケール値が生成される。

単一画像の深度マップのピクセルよりも格子点が少ないため、ステップ１７０で、格子点の最終スケール値から単一画像の深度マップの各ピクセルに対してスケール値が決定される。これには、格子点間のスケール値の補間および必要に応じてそれらの外側のスケール値の外挿が含まれる。実施形態によって、フレームのフル解像度までスケール値を補間する必要性を回避するために、ピクセルの集団がスケール値を共有してもよい。

これらのサブプロセスの詳細については後述する。

初期スケール値の生成
ステップ１５０では、フレームにわたって配置された複数の格子点の初期スケール値が生成される。格子点は、フレームにわたって規則的なパターンまたはアレイで配置されるか、フレームの一面に不規則な分布で配置されるか、または画像に基づく特定の位置に配置される。図６Ａから６Ｃは、フレームおよびその単一画像の深度マップ（通常は同じ寸法またはアスペクト比を有する）に対して格子点が配置されるいくつかの方法を示す。図６Ａおよび図６Ｂは、格子点がフレームに対して規則的な配列で配置される例を示す。図６Ａは、フレームｎ（ＳＩＤＭｎ）の単一イメージの深度マップに格子線を重ねたものを示している。垂直線（２００Ｖ）と水平線（２００Ｈ）との各交点は、格子点２００Ｐなどの格子点を定義する。格子線（２００Ｖおよび２００Ｈ）の数と位置によって、格子点の位置と数が決まる。図６Ｂは、格子点が、図６Ａのものに対してオフセットされた垂直および水平格子線によって配置されることを除けば、図６Ａと同様の格子点（例えば、２００Ｑ）の配置を示す。従って、図６Ｂはフレームの端に位置する格子点を有するが、図６Ａではその最も外側の格子点はフレームの端から内側に離間している。いくつかの実施形態では、他の格子形状、または水平または垂直に対してある角度で設定された格子線とすることが可能である。格子点は、通常のｎ×ｍの配列に配置できる。便宜上「格子点」という用語を使用しているが、一部の実施形態は、格子上にない格子点、非直線格子を使用する格子点、不規則な間隔またはランダムに配置された格子点を有する場合があり、または（画像解析に基づいて選択された点など）他の所定のスキームによって配置された格子点を有する場合がある。図６Ｃは、格子点（例えば、２００Ｒ）がフレームの一面にランダムに配置されている例を示している。図７に示される例示的な実施形態では、格子点は、２５×１４のレイアウトを有するｎ×ｍの配列に配置される。図７では、フレームは、水際を走るジョガーを表すクリップのパネル（ａ）のフレームを示している。パネル（ｂ）は、フレームにわたって２５本の（垂直）線と画像に対して適度に間隔をあけた１４本の（水平）線を持つ格子が重ねられたフレームを示している。この格子線は、２５×１４の配列に配置されて線の交点に位置する３７５個の格子点を定義する。この実施形態では、図６Ｂの例に従ってフレームの端に格子点を含むことに留意されたい。

少なくとも１つの実施形態では、所定の格子点の初期スケール値を生成するステップでは、格子点の深度値および複数の時間的に関連するフレームの同一の格子点の深度値を使用する。

前記フレーム内の格子点の深度値を決定することは、該格子点を含む領域の平均深度値を決定することを含んでもよい。図８は、少なくとも１つの実施形態で、格子点を含む領域がどのように定義されるかを示している。図８は、ｎ－ｉからｎ＋ｉまでのフレームに対し一連の単一画像の深度マップを概略的に表している。ＳＩＤＭｎでは、格子点２００Ｑが、深度値を包含するその周囲の領域２０２Ｑとともに示されている。領域２０２Ｑは、交差して格子点２００Ｑを定義する垂直線と水平線とそれらの隣接する水平線および垂直線の間の中間点まで拡がっている。したがって、該領域は、格子点を定義する格子と同じ形状であるが、格子点がその領域の中心になるようにオフセットされている。該領域の形状は、格子の間隔に応じて正方形または長方形であってもよく、または実施形態によって、領域が格子点を中心とする半径によって定義される場合、円形などの別の形状であってもよい。図８は時間的に関連するフレームｎ－ｉおよびｎ＋ｉの深度マップも示している。この例では、各フレームは、２００Ｑに対応する格子点とそれに対応する領域またはエリア２０２Ｑを有する。これらは、領域２０２Ｑ－ｉおよび２０２Ｑ＋ｉによって囲まれた格子点２００Ｑ－ｉおよび２００Ｑ＋ｉとして、ＳＩＤＭｎ－ｉおよびＳＩＤＭｎ＋ｉに示されている。

一実施形態では、領域に対するＳＩＤＭの平均値を決定し、格子点に割り当てることができる。複数の時間的に関連するフレームについて、同一の格子点に対して、この同じプロセスを実行できる。少なくとも１つの実施形態では、時間的に関連するフレームは、フレームｎの前または後に来る一連のフレームであってもよい。少なくとも１つの実施形態では、前後を含めて３つのフレームが使用されるが、使用するフレームはそれより多くとも少なくともよい。

画像のコンテンツはフレームからフレームへと変化し、深度分析は、コンテンツを一貫して処理して深度マップ内のちらつきを確実に回避することを目的とするので、１または複数の実施形態は、最初に前記フレームのコンテンツと前記時間的に関連するフレームとの間の対応付けを判定し、いくつかの実施形態では、対応付けが弱いピクセルまたはピクセル群については異なる処理を行うか、または所定の処理ステップから除外することができる。

前記フレームのコンテンツと前記時間的に関連するフレームのコンテンツとの間の対応付けをチェックすることは、時間的に隣接するフレーム間のオプティカルフローを分析することを含むことができる。これは、畳み込みニューラルネットワーク（ＣＮＮ）などのＡＩツールを使用して実行できる。そのようなツールの適切な例の１つは、Ｐ．Ｌｉｕ、Ｍ．Ｌｙｕ、Ｉ．Ｋｉｎｇ、Ｊ．Ｘｕによって２０１９ＩＥＥＥ／ＣＶＦＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），ＬｏｎｇＢｅａｃｈ，ＣＡ，ＵＳＡ，２０１９，ｐｐ．４５６６－４５７５に「ＳｅｌＦｌｏｗ：Ｓｅｌｆ－ＳｕｐｅｒｖｉｓｅｄＬｅａｒｎｉｎｇｏｆＯｐｔｉｃａｌＦｌｏｗ」として説明されている、ＳｅｌＦｌｏｗである。そのようなツールは、フレームｎと、時間的に関連するフレームのそれぞれとの間のオプティカルフローを決定するために使用できる。図１０で概略的に示されるように、オプティカルフロー推定器３０１は、入力として３つのフレーム（フレームｎ－１、フレームｎ、フレームｎ＋１）を取り込み、２つの出力（フローｎ→ｎ＋１、フローｎ→ｎ－１）を出力する。ここで、フローｎ→ｎ＋１は、「中央」のフレーム（図１０のフレームｎ）から後のフレーム（フレームｎ＋１）への順方向オプティカルフロー推定であり、フローｎ→ｎ－１は、中央のフレーム（フレームｎ）から前のフレーム（フレームｎ－１）への逆方向オプティカルフロー推定である。この例では、各フレームと中央フレームとの間のオプティカルフロー推定を生成するために、中央フレーム（フレームｎ）と、該中央フレームの前後に等間隔に配置されたフレームのペアを入力とする複数の時間的に関連するフレームを使用してプロセスが実行される。しかし、フレームが等間隔であることに限定されず、いくつかの実施形態では不等間隔を使用することもできる。

図１１では、６個のオプティカルフロー推定の生成を表すためのプロセスが概略的に示されている。図１１は、図４に示すフレームに適用された図１０のオプティカルフロー推定プロセスを示している。この例では、中央フレーム（フレームｎ）と中央フレームの後のいずれかのフレーム（フレームｎ＋１、ｎ＋２、ｎ＋３）との間、中央フレームと中央フレームの前のフレーム（フレームｎ－１、ｎ－２、ｎ－３）との間のそれぞれに６個のオプティカルフロー推定が生成される。この場合、オプティカルフロー推定器３０１は、３個のフレーム群に対して３回使用される。すなわち、オプティカルフロー推定器は、フレームの第１セット（フレームｎ－１、フレームｎ、フレームｎ＋１）を使って第１セットの推定を実行し、２個のオプティカルフロー推定を出力（フローｎ→ｎ＋１、フローｎ→ｎ－１）として出力する。オプティカルフロー推定器３０１は、さらにフレームの第２セット（フレームｎ－２、フレームｎ、フレームｎ＋２）を使って第２推定を実行し、２個のオプティカルフロー出力（フローｎ→ｎ＋２、フローｎ→ｎ－２）を出力する。また、オプティカルフロー推定器は、フレームの第３セット（フレームｎ－３、フレームｎ、フレームｎ＋３）を使って第３セットの推定を実行し、２個のオプティカルフロー出力（フローｎ→ｎ＋３、フローｎ→ｎ－３）を出力する。

次に、オプティカルフロー推定を使用して、前記複数の時間的に関連するフレームのそれぞれについてワープされた深度マップを生成する。この結果、ワープされた一組の深度マップが得られ、それにより格子点（理論上の）が画像内の同じコンテンツに対応付けられて各ワープされた深度マップの格子点の周囲の領域が直接比較可能になる。図１２は、一連のフレームｎ－２からｎ＋２（１２０２）を示している。ＳＩＤＭ１２０４はフレームごとに作成され、オプティカルフローを使用して逆方向ワーピングを実行し、ワープされた深度マップ１２０６「ワープＳＩＤＭｎ－１→ｎ」、「ワープＳＩＤＭｎ＋１→ｎ」、「ワープＳＩＤＭｎ－２→ｎ」および「ワープＳＩＤＭｎ＋２→ｎ」を生成する。

しかし、オプティカルフロー推定には限界があり、その計算自体に難題がある。そのため、オプティカルフローのエラーは、ワープされた深度マップにアーティファクトをもたらす。これらのアーティファクトに対処し、それらの影響を除去するために、そのようなアーティファクトが生じる領域を特定してマスクを作成することができる。少なくとも１つの実施形態では、マスクは、現在時刻のステップ（フレームｎ）における深度マップと各ワープされた深度マップとの間のピクセル単位の差分をチェックすることによって作成される。差分が所定のしきい値（例えば、いくつかの実施形態では３．０）より大きい場合、その領域はマスクされる。差分がしきい値を超えると、それらのピクセルは事実上「信頼できない」と見なされる。

所定のしきい値（例えば、２５．０）よりも高い深度値を有するピクセル位置もマスクされる。これは、遠くにあるオブジェクト（例えば空など）の深度が近くのオブジェクト（例えば図１２の画像のランナーなど）よりも桁違いに大きくなるからである。ごく少数であっても遠方のピクセルを後続の計算に含めると、（例えば、空のピクセルとランナーのピクセルを含み得る格子点の周囲の平均深度を受け入れると）、領域の残りの部分に前景のコンテンツがある場合でも、平均を遠くのピクセル側に極度に歪めてしまう。

したがって、「信頼できない」ピクセルおよび所定のしきい値を超える深度を有するピクセルはマスクされる。図１３は、図１２のフレームから生成されたそのようなマスクの例を示す。白い領域（すなわち、マスクされたピクセル）は、信頼できない遠方のピクセルを示し、黒い領域は、マスクされていない信頼できる近くのピクセルを示す。定性的には、図１３において、マスクは空１３０２と、ランナーの周りの領域１３０４を含むことがわかるが、空はそれが遠方にあるからであり、領域１３０４は、移動するランナーと比較的に安定した背景との境界部分を表すために現在の時間ステップ（フレームｎ）における深度とワープされた深度マップのフレームの深度との間で最も大きい変動を含むからである。

いくつかの実施形態では、遠方のピクセルのみを除外するマスクを使用することもできる。

状況によって、マスクは、現在のフレーム（フレームｎ）のＳＩＤＭと単一の時間的に関連するフレームのＳＩＤＭから生成される「単一フレームマスク」であってもよい。そのようなマスクは、格子点の初期スケール値をその単一の時間的に関連するフレームを使用して計算する場合に有用である。他の状況では、マスクは、複数の単一フレームマスクの組み合わせによって作成された「複数フレームマスク」であってもよい。これは、「ＯＲ」演算により複数のマスクを組み合わせることで実行され、それにより単一フレームマスクでマスクされるいずれのピクセルも該複数フレームマスクでマスクされる。

上述のように、所定の格子点の初期スケール値を生成することは、該格子点の深度値と、複数の時間的に関連するフレームからの同一の格子点の深度値とを使用する。フレームの格子点に対する深度値を決定することは、格子点を含む領域の平均深度値を決定することを含むが、マスクされたピクセルは除外する。マスクされたピクセルを除外するのは、例えば、それらが所定の深度よりも深い距離にあるためである。時間的に関連するフレームに対しても、それぞれワープされた深度マップに対して同様のプロセスが実行される。すなわち、格子点ごとに深度値が計算される。深度値は、ワープされた深度マップ内の領域の平均深度値であるが、マスクされたピクセルは除外される（例えば、所定の深度よりも深い距離にあるためである）。したがって、２５×１４の格子点と７つの時間的に関連するフレーム（フレームｎと６つの時間的に関連するフレーム）を使用するこの例では、７×２５×１４の行列の平均深度値が計算される。次に、格子点ごとの初期スケール値が、現在のフレームの格子点の深度値を、時間的に関連するフレームの対応する格子点の一群の深度値と比較することによって計算される。これには、該格子点の深度値に対する、一群の深度値の中心傾向尺度（ｍｅａｓｕｒｅｏｆｃｅｎｔｒａｌｔｅｎｄｅｎｃｙ）の比率を決定することを含む。例えば、初期スケール値は次のように計算される：
初期スケール値＝（一群の深度値の中央値）／（フレームｎの深度値）
時間的に関連するフレームの一群の深度値は、通常、格子点の深度値を含む。すなわち、この例示的な実施形態では、一群の深度値は７つの平均値を含む。

別の実施形態では、フレームからフレームへ格子点が正確に一致しなくともよい選択をすることができる。この場合、格子点を定義する「格子」を（例えば、オプティカルフローなどの画像解析技術を使用して）ワープすることができ、対応する格子点が画像コンテンツとともにフレームからフレームへと移動し、同様にフレームｎの最初の形状である対応の領域は、そのようなワーピングによって、時間的に関連するフレームにおいて異なる形状または異なる向きになる場合がある。図９は、このことを概略的に示しており、ＳＩＤＭｎ、ＳＩＤＭｎ－ｉ、およびＳＩＤＭｎ＋ｉは、領域２０２Ｑ、２０２Ｑ－ｉ、および２０２Ｑ＋ｉによって囲まれた格子点２００Ｑ、２００Ｑ－ｉ、および２００Ｑ＋ｉで示されている。しかし、見てわかるように、フレームｎ＋ｉとｎ－ｉの格子はもはや規則的な正方形の格子ではなく、領域２０２Ｑ－ｉと２０２Ｑ＋ｉは格子で歪められており、それらは２０２Ｑに比べてわずかに変位し、回転し、おそらく形が変わっている。この変動を受け入れるために、他のプロセスを、必要とする変更を加えて、変えることができる。

最終スケール値の生成
連続するフレームの各初期スケール値は、それを決定する際にいくつか共通のフレームを共有するため、初期スケール値はフレームからフレームへの時間的一貫性を有する。ただし、フレームの空間的に対応する部分のみがその生成に使用されるため、初期スケール値は空間的一貫性には考慮しない。これについては、前記格子点の初期スケール値とそれに隣接する格子点の初期スケール値に基づいて、各格子点の最終スケール値を生成することによって対処される。

このプロセスは、隣接する格子点のそれぞれと前記格子点の初期スケール値の相対的寄与度を決定することを含む。いくつかの実施形態では、前記マスクを使用して、前記１または複数の隣接する格子点の相対的寄与度を決定することができる。

このようなシナリオで一組の数値を決定するタスクは、抵抗器のネットワークにおける各ノードの電圧を決定するように（または、ばねのネットワークのノードにおける力と同様に）モデル化できる。図１４は、この問題を表す抵抗器のモデルネットワークの一例を示している。

図１４の図形において、各初期スケール値は、初期スケール値に等しい電圧（ｂ）を有するバッテリ１４０１として表されている。初期スケール値に対応する最終スケール値は、初期スケール値を表すバッテリに最も近いネットワーク内のノードの電圧である。これらの２つの値は、初期値が最終値に対してどの程度の影響を与えるかを表す「弾力性」によって結び付けられ、それらの間の抵抗１４０２としてモデル化される。最終スケール値（ノード電圧（ｕ）として表される）に対する各隣接するノードの影響は、隣接ノードを結合する抵抗器１４０３として表される「重み」によって設定される。便宜上および明確化のために、ノード間の「対角線」接続は、そのノードに対してのみ「ｃ」とラベル付けされ、その隣接するノードには「ｎ」とラベル付けされる。他のすべての「対角線」接続も同じ方法で重み付けされるが表示されていない。以下の例としてノードｃを使用する。

電圧（ｕ）は、以下に示すモデル回路を表す一組の一次方程式を解くことによって計算することができる：
Ａ^ＴＣＡｕ＝Ａ^ＴＣｂ（ＥＱ１）

Ａは、ノード間の接続を定義する接続行列である。上記のように、すべての隣接ノードは接続されている。Ａ^Ｔは行列Ａの転置行列である。

ｕは、各ノードの電圧を含むベクトルである。

ｂは、初期スケール値を表すバッテリ電圧を含むベクトルである。

Ｃはコンダクタンス行列である。これは、次のように計算された値を持つ行列である。

ノードごとに第１の重みが計算される。図１４の回路の灰色で強調表示された部分１４１０を使用して、ノード「ｃ」の重みを以下のように決定することができる：

各ノードの重みは、ノード「ｃ」の影響範囲内のピクセルの加重平均である。このプロセスでは、変動や距離などによる問題が潜在するピクセルを除外するために「複数フレームマスク」を使用することができる。

この影響領域は、隣接するノードによって定義される領域内のすべてのピクセルを含むー例えばノードｃについていえば、ラベル「ｎ」の８個のノードで定義される正方形内のすべてのピクセルを含む。定性的には、影響範囲に大多数のマスクされたピクセルが含まれている場合、そのピクセルの初期スケール値は信頼できないものとなり、その近隣はそれに伴って最終スケール値に対する影響力を増すことになる。これにより、ノードとその隣接するノードとを接続する重みのコンダクタンスが高くなる。逆に、マスクされたピクセルがほとんどない「信頼できる」初期値は、その近隣へのコンダクタンスが少なくなり、その初期値の近くにとどまっている。

ノード周辺の各領域の重みは、以下ように計算される：
ｗ^ｃ＝α_１＋α_２＊１／ＮｐΣ_ｐＭａｓｋ（ｐ）ｂ（ｐ）（ＥＱ２）
ここで、ｗ^ｃは所定のノードｃに対する重み付けであり、該ノードの影響範囲内のすべてのピクセルの合計である。

α_１は例えば０．１のスカラー値である。

α_２は例えば１０．０のスカラー値であり、α_１とα_２の相対値はマスクされたピクセルとマスクされていないピクセルの相対的な重要性を設定する。

Ｎ_ｐは影響の範囲内にあるピクセル数である。

Ｍａｓｋ（ｐ）はピクセル（ｐ）位置のマスク値であり、１はマスクされ、０はマスクされていない。従ってマスクされないピクセルは合計に対する寄与度０である。

ｂ（ｐ）は、位置（ｐ）のピクセルの双一次係数であり、ピクセル位置（ｐ）とノード位置（ｃ）の間の距離を使って導出される。

ノード（ｃ）に対してｗ^ｃが計算されると、ノード（ｃ）と各隣接ノード（ｎ）の間のコンダクタンスＣ_ｃｎは以下のように計算される：
Ｃ_ｃｎ＝ｍａｘ（ｗ^ｃ、ｗ^ｎ）（ＥＱ３）

従って、各ノードは、（図１４の各「抵抗器」１４０３を該ノードに隣接するノードのそれぞれにリンクさせる）８つのコンダクタンスと、その初期値に対する１つのコンダクタンスを有する。ノードの初期スケール値に対するコンダクタンスは、この例では１などに固定することができる。

それにより、コンダクタンス行列Ｃが生成され、ＥＱ１を解くことで、フレームｎの格子点の最終スケール値を表すｕベクトルを生成する。これは一組の一次方程式を解くだけで済むので、先行技術の最適化アプローチと比較して比較的容易かつ高速である。

すべてのピクセルの最終スケール値の決定
上述のように、ステップ１６０で最終スケール値が計算される格子点は、フレームの単一画像の深度マップ内のピクセルよりも少ない。従って、いくつかの実施形態では、ＳＩＤＭの各ピクセルに適用されるスケール値を決定するには格子点の最終スケール値を使用する必要がある。いくつかの実施形態では、これは、（例えば、双一次補間を使用して）格子点間のスケール値を補間することを含む。ＳＩＤＭ内のピクセルが最も外側の格子点の外側にある場合、これらのピクセルに適用するスケール値を生成するために格子点の最終スケール値の外挿を使用することができる。ただし、フレームのＳＩＤＭ内のすべてのピクセルに個々のスケール値を設定することが厳密に必要というわけではない。したがって、いくつかの実施形態では、補間または外挿は、フレームまたはＳＩＤＭのフル解像度に一致させるようにスケール値の数を増加させない場合がある。他の実施形態では、格子点の最終スケール値から前記ＳＩＤＭの各ピクセルに適用するためのスケール値は、前記格子点に対するピクセルの位置に基づいてピクセルごとにスケール値を割り当てることによって決定される。例えば、各格子点の周囲の領域内のすべてのピクセルは、該格子点に対応するスケール値を取り入れることができる。

ＳＩＤＭ内の各ピクセルのスケール値が決定されると、該スケール値はそれらに対応するＳＩＤＭ深度ピクセル値が乗算されて、フレームｎのスケーリングされたＳＩＤＭが決定される。

好都合なことは、いくつかの実施形態では、図２のステップ１２から１６または図３の１２０から１７０の部分が繰り返し実行されて、ビデオクリップ１１０のその他のフレームに対しスケーリングされたＳＩＤＭ（ｓＳＩＤＭ）を生成できることである。これらの追加のｓＳＩＤＭがその後ステップ１４０でフレームｎ（ＤＭｎ）の最終深度マップを生成するために使用され、ビデオクリップの深度マップのちらつきをさらに低減することができる。

ここで再び図３に戻ると、ステップ１４０において、スケーリングされた単一画像の深度マップｓＳＩＤＭの時間シーケンスが処理されて、フレームｎ（ＤＭｎ）に対応する深度マップが生成される。時空間フィルタリングステップは、Ｋｏｐｆｅｔ．ａｌによる「ＲｏｂｕｓｔＣｏｎｓｉｓｔｅｎｔＶｉｄｅｏＤｅｐｔｈＥｓｔｉｍａｔｉｏｎ」の方程式（７）および（８）で提示されるプロセスを使って実行される。時間シーケンスのスケーリングされた単一画像の深度マップの数は選択可能である。いくつかの実施形態では、フレームｎの前後に１～５フレームを含むことができる。図１５は、サブプロセス１４０の一実施形態におけるステップを示す。ステップ１４０は、１４１において、ステップ１３０で生成されたスケーリングされた単一画像の深度マップの時間シーケンスから始まる。この例では、５個のｓＳＩＤＭのグループ、すなわち、ｓＳＩＤＭｎ、ｓＳＩＤＭｎ＋１、ｓＳＩＤＭｎ－１、ｓＳＩＤＭｎ＋２、ｓＳＩＤＭｎ－２が使われる。フレーム数は、望ましい時間的平滑化の範囲を達成するために、計算バジェット（ｃｏｍｐｕｔａｔｉｏｎａｌｂｕｄｇｅｔ）に基づいて選択できる。Ｋｏｐｆｅｔ．ａｌによる「ＲｏｂｕｓｔＣｏｎｓｉｓｔｅｎｔＶｉｄｅｏＤｅｐｔｈＥｓｔｉｍａｔｉｏｎ」は、ターゲットフレームの４個の各辺（τ＝４）を使用する。次に、ステップ１４２で、以前に計算されたオプティカルフロー推定を使用して、各ｓＳＩＤＭがｓＳＩＤＭｎにワープされる。これにより、一連のワープされたｓＳＩＤＭフレームが生成される。ワープされたｓＳＩＤＭフレームは、その後、ステップ１４３でＫｏｐｆｅｔ．ａｌによる「ＲｏｂｕｓｔＣｏｎｓｉｓｔｅｎｔＶｉｄｅｏＤｅｐｔｈＥｓｔｉｍａｔｉｏｎ」の方程式（７）および（８）を用いて処理され、各ピクセルの周囲の近傍でワープされたｓＳＩＤＭの時間シーケンスにわたって加重平均を生成することにより、時空間フィルタリングを実行する。少なくとも１つの実施形態では、３×３ピクセルの近傍を使用することができる。しかし、フィルタ近傍のサイズを変更し、計算要件を相応に変化させて空間フィルタ処理特性を修正することができる。最終出力ＤＭｎは、ビデオクリップ１１０の後続する処理での使用に適した平滑化された深度マップである。

図１６は、本開示の実施形態が実装されるコンピュータシステム１０００の一例を示すブロック図を提供する。コンピュータシステム１０００は、情報を通信するためのバス１００２または他の通信メカニズムと、バス１００２に結合されて情報を処理するためのハードウェアプロセッサ１００４とを含む。ハードウェアプロセッサ１００４は、例えば、１または複数の汎用マイクロプロセッサ、１または複数のグラフィックスプロセッシングユニット、または他のタイプのプロセッシングユニット、またはそれらの組み合わせであってもよい。

コンピュータシステム１０００は、さらに、プロセッサ１００４によって実行される情報および命令を記憶するためにバス１００２に結合された、ランダムアクセスメモリ（ＲＡＭ）または他の動的記憶装置などのメインメモリ１００６を含む。メインメモリ１００６はプロセッサ１００４によって実行される命令の実行中に一時変数または他の中間情報を格納するために使用されてもよい。そのような命令がプロセッサ１００４にとってアクセス容易な非一時的記憶媒体に格納されると、コンピュータシステム１０００はカスタマイズされ、命令に指定された動作を実行するように構成された専用マシンになる。

コンピュータシステム１０００は、プロセッサ１００４のための静的情報および命令を記憶するためにバス１００２に結合されたリードオンリーメモリ（ＲＯＭ）１００８または他の静的記憶装置をさらに含むことができる。磁気ディスクまたは光ディスクなどの記憶装置１０１０が提供され、上記のビデオ編集ソフトウェアアプリケーションを含む情報および命令を格納するために、バス１００２に接続されてもよい。

コンピュータシステム１０００は、コンピュータユーザに情報を表示するために、バス１００２を介してディスプレイ１０１２（１または複数のＬＣＤ、ＬＥＤ、タッチスクリーンディスプレイ、またはその他のディスプレイなど）に結合される。情報や選択されるコマンドをプロセッサ１００４に伝達するために、英数字やその他のキーを含む入力デバイス１０１４がバス１００２に結合される。別のタイプのユーザ入力デバイスは、方向情報や選択されるコマンドをプロセッサ１００４に伝達するための、およびディスプレイ１０１２上のカーソルの移動を制御するための、マウス、トラックボール、またはカーソル方向キーなどのカーソルコントロール１０１６である。

少なくとも１つの実施形態によれば、本明細書に記載の技術は、プロセッサ１００４がメインメモリ１００６に含まれる１または複数の命令の１または複数のシーケンスを実行することに応答して、コンピュータシステム１０００によって実行される。そのような命令はリモートデータベースなどの別の記憶媒体からメインメモリ１００６に読み込まれてもよい。メインメモリ１００６に含まれる命令のシーケンスを実行することにより、プロセッサ１００４は本明細書に記載するプロセスステップを実行する。別の実施形態では、ソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて、ハードワイヤード回路が使用されてもよい。

本明細書で使用される「ｓｔｏｒａｇｅｍｅｄｉａ」または「ｓｔｏｒａｇｅｍｅｄｉｕｍ」（記憶媒体）という用語は、マシンを特定の方法で動作させるデータおよび／または命令を格納する任意の非一時的媒体を指す。そのような記憶媒体は、不揮発性媒体および／または揮発性媒体を含む。不揮発性媒体は、例えば、記憶装置１０１０などの光学または磁気ディスクを含む。揮発性媒体は、メインメモリ１００６などの動的メモリを含む。記憶媒体の一般的な形態は、例えば、フロッピーディスク、ハードディスクドライブ、ソリッドステートドライブ、磁気テープ、またはその他の磁気データ記憶媒体、ＣＤ－ＲＯＭ、その他の光データ記憶媒体、穴パターンを備えた物理メディア、ＲＡＭ、ＰＲＯＭ、およびＥＰＲＯＭ、ＦＬＡＳＨ－ＥＰＲＯＭ、ＮＶＲＡＭ、その他のメモリチップまたはカートリッジを含む。

コンピュータシステム１０００はさらにバス１００２に結合された通信インターフェース１０１８を含んでもよい。通信インターフェース１０１８は、ネットワーク１０５０に接続されたネットワークリンク１０２０に結合する双方向データ通信を提供する。例えば、通信インターフェース１０１８は、統合サービスデジタルネットワーク（ＩＳＤＮ）カード、ケーブルモデム、衛星モデムなどであってもよい。別の例として、通信インターフェース１０１８は、互換性のあるＬＡＮへのデータ通信接続を提供するローカルエリアネットワーク（ＬＡＮ）カードであってもよい。無線リンクも実装できる。そのような実装のいずれにおいても、通信インターフェース１０１８は、様々なタイプの情報を表すデジタルデータストリームを搬送する電気信号、電磁気信号、または光信号を送受信する。

添付の特許請求の範囲に含まれる用語に対し本明細書で明確に記載される定義は、特許請求の範囲で使用されるそれらの用語の意味を決定するものとする。特許請求の範囲に明確に記載されない限定、要素、特性、特徴、利点、または属性は、いかなる方法であっても特許請求の範囲を限定するものではない。

本明細書で使用される用語「ｉｎｃｌｕｄｅ」および「ｃｏｍｐｒｉｓｅ」（および「ｉｎｃｌｕｄｉｎｇ」、「ｉｎｃｌｕｄｅｓ」、「ｃｏｍｐｒｉｓｉｎｇ」、「ｃｏｍｐｒｉｓｅｓ」、「ｃｏｍｐｒｉｓｅｄ」などのこれらの用語の変化形）は、包括的であることが意図され、さらなる機能、コンポーネント、整数、またはステップを除外することは意図されていない。

フローチャートを用いて説明された本開示の態様について、所定のフローチャートステップは、様々な方法で、様々なデバイス、システム、またはシステムモジュールによって実行可能である。特段の記載がない限り、所定のフローチャートのステップを複数のステップに分割することも、複数のフローチャートのステップを１つのステップに結合することもできる。さらに、特段の記載がない限り、ステップの順序は、本開示の範囲から逸脱することなく変更することができる。

上記の様々な実施形態を組み合わせて、さらに別の実施形態を提供することができる。

以上の詳細な説明に照らして、様々な変更を実施形態に加えることができる。一般に、以下の特許請求の範囲では、使用される用語が、該特許請求の範囲を明細書および特許請求の範囲に開示された特定の実施形態に限定すると解釈されるべきではなく、そのような特許請求の範囲が及ぶ均等物の全範囲とともにすべての可能な実施形態を含むと解釈されるべきである。

Claims

ビデオクリップ内のフレームシーケンスのフレームに対応する深度マップを生成する方法であって、
複数のフレームの各フレームに対して単一画像の深度マップを生成することと；
前記各フレームに対してスケーリングされた単一画像の深度マップ生成するために、前記単一画像の深度マップの各ピクセルにスケール値を適用することによって、各フレームに対して単一画像の深度マップをスケーリングすることと；
前記ビデオクリップ内のフレームシーケンスのフレームに対応する前記単一画像の深度マップを生成するために、スケーリングされた単一画像の深度マップの時間シーケンスを処理することと；
を含み、
前記単一画像の深度マップの各ピクセルのスケール値は：
前記フレームにわたって配置された複数の格子点の各格子点について、
前記格子点の深度値と、複数の時間的に関連するフレームの同一の格子点に対応する深度値とを使用して、初期スケール値を生成することと；
前記格子点の初期スケール値と１または複数の隣接する格子点の初期スケール値に基づいて、前記格子点の最終スケール値を生成することと；
格子点の前記最終スケール値から、前記単一画像の深度マップの各ピクセルに適用するための対応するスケール値を決定することと；
を含む方法を使って生成される、方法。
前記格子点の深度値と、複数の時間的に関連するフレームの同一の格子点の深度値とを使用して初期スケール値を生成するステップは：
前記格子点を含む領域の平均深度値を決定することにより、前記フレームの格子点の深度値を決定することを含み；
複数の時間的に関連するフレームの同一の格子点に対応する深度値を決定することは、前記格子点に対応する位置が複数の時間的に関連するフレームのそれぞれについて決定されるように前記フレームのコンテンツと前記時間的に関連するフレームのコンテンツとの間の対応付けを決定することと、および各時間的に関連するフレームの前記格子点に対応する深度値を決定するために時間的に関連する各フレームの前記位置を含む領域の平均深度値を決定することと、を含む、請求項１に記載の方法。
各格子点の初期スケール値は：
前記格子点の深度値に対する、複数の時間的に関連するフレームの同一の格子点の深度値を少なくとも含む一群の深度値の中心傾向尺度の比率を使って決定される、請求項２に記載の方法。
前記方法は、前記フレームのピクセルを含むマスクを定義することを含み、それにより前記単一画像の深度マップが、複数のフレームのオプティカルフロー解析に基づいて信頼できないか、またはしきい値深度よりも深い深度を有するかのいずれかまたは両方であると判定される、請求項１に記載の方法。
（原請求項９）格子点を含む領域の平均深度値を決定することにより格子点の深度値を決定すること、および／または複数の時間的に関連するフレームの同一の格子点に対応する深度値を決定することのうち少なくとも１つが、前記マスクに含まれるピクセルを除外する、請求項４に記載の方法。
前記フレームのコンテンツと前記時間的に関連するフレームのコンテンツとの間の対応付けを決定することは、時間的に隣接するフレーム間のオプティカルフローを分析することと、およびオプティカルフローに従って前記複数の時間的に関連するフレームのそれぞれのワープされた深度マップを生成することとを含み、これにより、前記格子点に対応する前記位置が前記格子点と位置合わせされ、ワープされた深度マップを使用して、時間的に関連する各フレーム内の前記位置の周囲の領域の平均深度値を決定する、請求項５に記載の方法。
前記フレームのコンテンツと前記時間的に関連するフレームのコンテンツとの間の対応付けを決定することは、時間的に隣接するフレーム間のオプティカルフローを分析することと、前記オプティカルフローを使って前記複数の時間的に関連するフレームのそれぞれの前記格子点の位置をトラッキングすることと、各時間的に関連するフレーム内の前記位置の周囲の領域の平均深度値を決定することと、を含む、請求項５に記載の方法。
前記格子点の初期スケール値および１または複数の隣接する格子点の初期スケール値に基づいて前記格子点の最終スケール値を生成するステップは：
前記１または複数の隣接する格子点のそれぞれと前記格子点の初期スケール値の相対的寄与度を、オプションで前期マスクに基づいて決定することを含む、請求項１に記載の方法。
前記格子点の初期スケール値および１または複数の隣接する格子点の初期スケール値に基づいて前記格子点の最終スケール値を生成することは、前記格子点のそれぞれの初期スケール値と前記格子点の隣接格子点のそれぞれの初期スケール値とを表す一連の一次方程式を解くことを含む、請求項１に記載の方法。
格子点の最終スケール値から前記単一画像の深度マップの各ピクセルに適用するためのスケール値を決定することは：
前記格子点間の各ピクセルのスケール値を補間によって生成することと；
前記格子点に対する位置に基づいて各ピクセルにスケール値を割り当てることと；
の１または両方を含む、請求項１に記載の方法。
各フレームの単一画像の深度マップを生成することは、前記単一画像の深度マップを生成するために、ディープラーニングモデル例えば畳み込みニューラルネットワークを用いることを含む、請求項１に記載の方法。
非一時的記憶媒体に記憶された実行命令に従って動作するプロセッサを含み、前記命令が実行されるとき、請求項１～１１のいずれか１項に記載の方法を実行するように構成される、コンピュータシステム。
ノンリニア編集システムを含む、請求項１２に記載のコンピュータシステム。
プロセッサによって実行されると請求項１～１１のいずれか１項に記載の方法を前記プロセッサに実行させる実行命令を記憶する、非一時的なコンピュータ可読記憶媒体。
ノンリニア編集コンピュータソフトウェア製品またはビデオ効果ソフトウェア製品のいずれかをオプションで含み、プロセッサによって実行されると請求項１～１１のいずれか１項に記載の方法を前記プロセッサに実行させる実行命令を内蔵する、コンピュータソフトウェア製品。