JP2023518307A

JP2023518307A - 顔復元に基づくビデオ会議のためのフレームワーク

Info

Publication number: JP2023518307A
Application number: JP2022556612A
Authority: JP
Inventors: ウェイ・ジアン; ウェイ・ワン; シャン・リュウ
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2021-01-06
Filing date: 2021-10-01
Publication date: 2023-04-28
Also published as: US11659193B2; EP4085375A4; WO2022150078A1; KR20220123101A; US20220217371A1; EP4085375A1; CN115298710A

Abstract

1つまたは複数のプロセッサに、ビデオデータを取得することと、ビデオデータの少なくとも1つのフレームから少なくとも1つの顔を検出することと、ビデオデータの少なくとも1つのフレームから少なくとも1つの顔の顔ランドマーク特徴のセットを決定することと、顔ランドマーク特徴の決定されたセットに基づいてニューラルネットワークによって少なくとも部分的にビデオデータをコーディングすることとを行わせるように構成された、コンピュータコードを含む方法および装置が含まれる。

Description

関連出願の相互参照
本出願は、2021年1月6日に出願された米国仮特許出願第63／134，522号、および2021年9月30日に出願された米国特許出願第17／490，103号の優先権を主張し、その全体が参照により本願に明示的に組み込まれる。

本開示は、ランドマーク特徴に基づいて現実の低品質（LQ）顔から高品質（HW）のものへと写実的な細部を回復し得る顔復元（または顔幻覚）を伴うビデオ会議に関する。

国際標準化機構ISO／IEC／IEEEは、ディープ・ニューラル・ネットワーク（DNN）に基づく技術に特に焦点を当てて、AIベースのビデオコーディング技術を積極的に探している。ニューラルネットワーク圧縮（NNR）、機械用ビデオコーディング（VCM）、ニューラルネットワークベースのビデオコーディング（NNVC）などを調査するために、さまざまな専門家班が形成されてきた。中国のAITISAおよびAVSもまた、同様の技術の標準化を研究するために、対応する専門家グループを設立した。

ビデオ会議は、最近ますます重要になっており、それは通常、複数のエンドユーザの合同会議をサポートするために低帯域幅伝送を必要とする。一般的なビデオ圧縮タスクと比較して、会議シナリオにおけるビデオは、主として同様の内容、すなわち、ビデオの主題でありシーン全体の大部分を占める、1人または数人の話者を有する。拘束されない背景は、任意に複雑で、屋内または屋外であり得るが、それほど重要ではない。最近、Nvidia社のMaxineビデオ会議プラットフォームは、顔再現技術に基づくAIベースのフレームワークを提案した。（鼻、顎、目、均整、場所、しわ、耳、幾何学的形状など、およびまたはそれらのデータのうちのいずれか1つまたは複数などの）2Dまたは3D顔ランドマーク（「顔ランドマーク」および「顔ランドマーク特徴」は、本明細書では交換可能な用語とみなすことができる）が、人間の顔の姿勢および感情情報を取り込むためにDNNから抽出される。顔の形状およびテクスチャを取り込むために低周波数で算出された高品質特徴とともにそのような特徴は、デコーダ側に送られ、各復元されたフレームからの姿勢および表情情報に従って形状およびテクスチャを転送することによって、高品質の顔がデコーダ側で再構成される。大部分のフレームについて、元の画素を伝送する代わりに、姿勢および表情関連のランドマーク特徴のみが伝送されるので、このフレームワークは、伝送ビット消費量を大幅に低減した。しかしながら、再現ベースのフレームワークは、元の顔外観への忠実度を保証することができず、多くの場合著しい義信号をもたらす可能性がある。例えば、それは、一般に、オクルージョン、大きな動きなどに非常に敏感であり、実用的なビデオ会議製品でロバストに使用することはできない。

したがって、圧縮率の欠如、精度、およびその他の点でニューラルネットワークに関連した情報を不必要に捨てることを含む、さらなる技術的欠陥がある。

例示的な実施形態によれば、コンピュータプログラムコードを記憶するように構成されたメモリと、コンピュータプログラムコードにアクセスし、コンピュータプログラムコードによって命令されると動作するように構成された1つまたは複数のプロセッサとを備える方法および装置が含まれる。コンピュータプログラムコードは、少なくとも1つのプロセッサに取得させるように構成された、取得するコードと、少なくとも1つのプロセッサに、ビデオデータの少なくとも1つのフレームから少なくとも1つの顔を検出させるように構成された、検出するコードと、少なくとも1つのプロセッサに、ビデオデータの少なくとも1つのフレームから少なくとも1つの顔の顔ランドマークのセットを決定させるように構成された、決定するコードと、少なくとも1つのプロセッサに、顔ランドマークの決定されたセットに基づいてニューラルネットワークによって少なくとも部分的にビデオデータをコーディングさせるように構成された、コーディングするコードとを含む。

例示的な実施形態によれば、ビデオデータは、ビデオデータの符号化されたビットストリームを含み、顔ランドマークのセットを決定することは、符号化されたビットストリームを解凍することによって取得された少なくとも1つのダウンサンプリングされたシーケンスをアップサンプリングすることを含む。

例示的な実施形態によれば、コンピュータプログラムコードは、少なくとも1つのプロセッサに、ビデオデータの少なくとも1つのフレームから検出された少なくとも1つの顔の領域から拡張された境界領域を含む拡張顔領域（EFA）を決定して、EFAからEFA特徴のセットを決定させるように構成された、さらなる決定するコードと、少なくとも1つのプロセッサに、顔ランドマークの決定されたセットに基づいてニューラルネットワークによって少なくとも部分的にビデオデータをコーディングさせるように構成された、さらなるコーディングするコードとをさらに含む。

例示的な実施形態によれば、EFAを決定すること、およびEFA特徴のセットを決定することは、符号化されたビットストリームを解凍することによって取得された少なくとも1つのダウンサンプリングされたシーケンスをアップサンプリングすることを含む。

例示的な実施形態によれば、EFAを決定すること、およびEFA特徴のセットを決定することは、敵対的生成ネットワークによって顔ランドマークのセットの顔ランドマークの1つにそれぞれ対応するEFA特徴を再構成することをさらに含む。

例示的な実施形態によれば、顔ランドマークの決定されたセットに基づいてニューラルネットワークによって少なくとも部分的にビデオデータをコーディングすることは、顔ランドマークのセット、再構成されたEFA特徴、および少なくとも1つのダウンサンプリングされたシーケンスをアップサンプリングすることからアップサンプリングされたシーケンスを集約することによって、顔ランドマークの決定されたセットに基づいてニューラルネットワークによって少なくとも部分的にビデオデータをコーディングすることをさらに含む。

例示的な実施形態によれば、ビデオデータの少なくとも1つのフレームからの少なくとも1つの顔は、ビデオデータの少なくとも1つのフレーム内の複数の顔の中で最大の顔であると決定される。

例示的な実施形態によれば、決定するコードは、プロセッサに、ビデオデータの少なくとも1つのフレーム内の複数の顔のそれぞれに対して、ビデオデータの少なくとも1つのフレームからの少なくとも1つの顔の顔ランドマークのセット以外に、顔ランドマークの複数のセットを決定させるようにさらに構成され、コーディングするコードは、プロセッサに、顔ランドマークの決定されたセットおよび顔ランドマークの決定された複数のセットに基づいてニューラルネットワークによって少なくとも部分的にビデオデータをコーディングさせるようにさらに構成される。

開示された主題のさらなる特徴、性質、およびさまざまな利点は、以下の詳細な説明および添付の図面からより明らかになるであろう。

実施形態による概略図の簡略図である。実施形態による概略図の簡略図である。実施形態による概略図の簡略図である。実施形態による概略図の簡略図である。実施形態による図の簡略図である。実施形態による図の簡略図である。実施形態による図の簡略図である。実施形態による図の簡略図である。実施形態による図の簡略図である。実施形態による図の簡略図である。実施形態によるフローチャートの簡略図である。実施形態によるフローチャートの簡略図である。実施形態によるブロック図の簡略図である。実施形態によるブロック図の簡略図である。実施形態による概略図の簡略図である。

以下で考察する提案された特徴は、別々に使用されてもよいし、任意の順序で組み合わされてもよい。さらに、実施形態は、処理回路（例えば、1つもしくは複数のプロセッサまたは1つもしくは複数の集積回路）によって実施されてもよい。一例では、1つまたは複数のプロセッサは、非一時的コンピュータ可読媒体に格納されたプログラムを実行する。

図1は、本開示の一実施形態による通信システム100の簡略化されたブロック図を例示する。通信システム100は、ネットワーク105を介して相互接続された少なくとも2つの端末102、103を含み得る。データの単方向伝送のために、第1の端末103は、ネットワーク105を介して他方の端末102に送信するためにローカル位置でビデオデータをコーディングし得る。第2の端末102は、ネットワーク105から他方の端末のコーディングされたビデオデータを受信し、コーディングされたデータを復号し、復元ビデオデータを表示し得る。単方向データ伝送は、メディアサービング用途などで一般的であり得る。

図1は、例えばビデオ会議中に発生する可能性があるコーディングされたビデオの双方向伝送をサポートするために提供される端末101および104の第2のペアを例示する。データの双方向伝送のために、各端末101および104は、ネットワーク105を介して他方の端末に送信するためにローカル位置で、取り込んだビデオデータをコーディングし得る。各端末101および104もまた、他方の端末によって送信されたコーディングされたビデオデータを受信し得、コーディングされたデータを復号し得、復元ビデオデータをローカルの表示装置に表示し得る。

図1では、端末101、102、103および104は、サーバ、パーソナルコンピュータおよびスマートフォンとして例示され得るが、本開示の原理はそのように限定されるものではない。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤ、および／または専用のビデオ会議機器を伴う用途を見出す。ネットワーク105は、例えば有線および／または無線通信ネットワークを含む、端末101、102、103および104間で、コーディングされたビデオデータを伝達する任意の数のネットワークを表す。通信ネットワーク105は、回路交換および／またはパケット交換チャネルにおいてデータを交換し得る。代表的なネットワークは、電気通信ネットワーク、ローカル・エリア・ネットワーク、広域ネットワークおよび／またはインターネットを含む。本考察の目的のために、ネットワーク105のアーキテクチャおよびトポロジは、本明細書で以下に説明されない限り、本開示の動作にとって重要ではない場合がある。

図2は、開示される主題の用途の一例として、ストリーミング環境におけるビデオエンコーダおよびビデオデコーダの配置を例示する。開示された主題は、例えば、ビデオ会議、デジタルTV、ならびにCD、DVD、およびメモリスティックなどを含むデジタル媒体への圧縮ビデオの記憶などを含む他のビデオ対応用途に等しく適用可能とすることができる。

ストリーミングシステムは、例えば非圧縮ビデオ・サンプル・ストリーム213を作成する、例えばデジタルカメラなどのビデオソース201を含むことができるキャプチャサブシステム203を含み得る。そのサンプルストリーム213は、符号化されたビデオビットストリームと比較して高いデータボリュームとして強調されてもよく、カメラ201に結合されたエンコーダ202によって処理することができる。エンコーダ202は、以下でより詳細に説明するように、開示される主題の態様を可能にするか、または実施するために、ハードウェア、ソフトウェア、またはそれらの組み合わせを含むことができる。符号化されたビデオビットストリーム204は、サンプルストリームと比較してより低いデータボリュームとして強調されてもよく、将来の使用のためにストリーミングサーバ205に格納することができる。1つまたは複数のストリーミングクライアント212および207は、ストリーミングサーバ205にアクセスして、符号化されたビデオビットストリーム204のコピー208および206を取り出すことができる。クライアント212は、符号化されたビデオビットストリームの着信コピー208を復号し、ディスプレイ209または他のレンダリングデバイス（図示せず）上にレンダリングすることができる送出ビデオ・サンプル・ストリーム210を作成するビデオデコーダ211を含むことができる。一部のストリーミングシステムでは、ビデオビットストリーム204、206および208は、特定のビデオコーディング／圧縮規格に従って符号化することができる。これらの規格の例は、上記で言及されており、本明細書でさらに説明される。

図3は、本発明の一実施形態によるビデオデコーダ300の機能ブロック図であり得る。

受信器302は、デコーダ300によって復号される1つまたは複数のコーデック・ビデオ・シーケンスを受信してもよく、同じまたは別の実施形態では、一度に1つのコーディングされたビデオシーケンスを受信してもよく、各コーディングされたビデオシーケンスの復号は、他のコーディングされたビデオシーケンスから独立している。コーディングされたビデオシーケンスは、チャネル301から受信され得、チャネルは、符号化されたビデオデータを格納する記憶装置へのハードウェア／ソフトウェアリンクであり得る。受信器302は、それぞれの使用エンティティ（図示せず）に転送され得る他のデータ、例えばコーディングされたオーディオデータおよび／または補助データストリームとともに、符号化されたビデオデータを受信し得る。受信器302は、コーディングされたビデオシーケンスを他のデータから分離し得る。ネットワークジッタに対抗するために、バッファメモリ303が、受信器302とエントロピーデコーダ／パーサ304（以後「パーサ」）との間に結合され得る。受信器302が十分な帯域幅および制御性の格納／転送装置から、またはアイソシンクロナスネットワークからデータを受信しているとき、バッファ303は必要ない場合があり、または小さくすることができる。インターネットなどのベスト・エフォート・パケット・ネットワークで使用する場合、バッファ303が必要とされる場合があり、比較的大きくすることができ、有利には適応サイズとすることができる。

ビデオデコーダ300は、エントロピーコーディングされたビデオシーケンスからシンボル313を再構成するためのパーサ304を含み得る。これらのシンボルのカテゴリは、デコーダ300の動作を管理するために使用される情報、および潜在的に、デコーダの不可欠な部分ではないが、それに結合することができるディスプレイ312などのレンダリング装置を制御するための情報を含む。レンダリング装置の制御情報は、補足拡張情報（SEIメッセージ）またはビデオユーザビリティ情報パラメータ・セット・フラグメント（図示せず）の形式であり得る。パーサ304は、受信したコーディングされたビデオシーケンスを解析／エントロピー復号し得る。コーディングされたビデオシーケンスのコーディングは、ビデオコーディング技術または規格に従うことができ、可変長コーディング、ハフマンコーディング、文脈依存性を伴うまたは伴わない算術コーディングなどを含む、当業者に周知の原理に従うことができる。パーサ304は、コーディングされたビデオシーケンスから、そのグループに対応する少なくとも1つのパラメータに基づいて、ビデオデコーダ内のピクセルのサブグループのうちの少なくとも1つのサブグループパラメータのセットを抽出することができる。サブグループは、ピクチャのグループ（GOP）、ピクチャ、タイル、スライス、マクロブロック、コーディングユニット（CU）、ブロック、変換ユニット（TU）、予測ユニット（PU）などを含むことができる。エントロピーデコーダ／パーサはまた、変換係数、量子化器パラメータ値、動きベクトルなどのコーディングされたビデオシーケンス情報から抽出し得る。

パーサ304は、シンボル313を作成するために、バッファ303から受信したビデオシーケンスに対してエントロピー復号／解析動作を行い得る。パーサ304は、符号化されたデータを受信し、特定のシンボル313を選択的に復号し得る。さらに、パーサ304は、特定のシンボル313が、動き補償予測ユニット306、スケーラ／逆変換ユニット305、イントラ予測ユニット307、またはループフィルタ311に提供されるべきかどうかを決定し得る。

シンボル313の再構成には、コーディングされたビデオピクチャまたはその一部（インターピクチャおよびイントラピクチャ、インターブロックおよびイントラブロックなど）のタイプ、ならびにその他の要因に応じて、複数の異なるユニットを関与させることができる。どのユニットがどのように関与しているかは、パーサ304によって、コーディングされたビデオシーケンスから解析されたサブグループ制御情報によって管理することができる。パーサ304と以下の複数のユニットとの間のそのようなサブグループ制御情報の流れは、明確にするために図示されていない。

すでに言及した機能ブロックの他に、デコーダ300は、以下で説明するように、いくつかの機能ユニットに概念的に細分化することができる。商業的な制約の下で動作する実際の実施態様では、これらのユニットの多くは互いに密接に相互作用し、少なくとも部分的に互いに統合させることができる。しかしながら、開示されている主題を説明する目的のために、以下の機能ユニットへの概念的な細分化が適切である。

第1のユニットは、スケーラ／逆変換ユニット305である。スケーラ／逆変換ユニット305は、量子化された変換係数、および使用する変換、ブロックサイズ、量子化因子、量子化スケーリングマトリクスなどを含む制御情報をパーサ304からシンボル313として受け取る。それは、アグリゲータ310に入力することができるサンプル値を含むブロックを出力することができる。

場合によっては、スケーラ／逆変換305の出力サンプルは、イントラコーディングされたブロック、すなわち、以前に再構成されたピクチャからの予測情報を使用していないが、現在のピクチャの以前に再構成された部分からの予測情報を使用することができるブロック、に関係することがある。そのような予測情報は、イントラピクチャ予測ユニット307によって提供することができる。場合によっては、イントラピクチャ予測ユニット307は、現在の（部分的に再構成された）ピクチャ309からフェッチされた周囲のすでに再構成された情報を使用して、再構成中のブロックと同じサイズおよび形状のブロックを生成する。アグリゲータ310は、場合によっては、サンプルごとに、イントラ予測ユニット307が生成した予測情報を、スケーラ／逆変換ユニット305によって提供される出力サンプル情報に追加する。

他の場合には、スケーラ／逆変換ユニット305の出力サンプルは、インターコーディングされ、潜在的に動き補償されたブロックに関係することがある。そのような場合、動き補償予測ユニット306は、参照ピクチャメモリ308にアクセスして、予測に使用されるサンプルをフェッチすることができる。フェッチされたサンプルをブロックに関係するシンボル313に従って動き補償した後に、これらのサンプルは、出力サンプル情報を生成するために、アグリゲータ310によってスケーラ／逆変換ユニットの出力に追加することができる（この場合、残差サンプルまたは残差信号と呼ばれる）。動き補償ユニットが予測サンプルをフェッチする参照ピクチャメモリ形式内のアドレスは、動きベクトルによって制御することができ、例えば、X、Y、および参照ピクチャ成分を有することができるシンボル313の形式で動き補償ユニットに利用可能とすることができる。動き補償はまた、サブサンプルの正確な動きベクトルが使用されているときに参照ピクチャメモリからフェッチされたサンプル値の補間、動きベクトル予測機構などを含むことができる。

アグリゲータ310の出力サンプルは、ループ・フィルタ・ユニット311におけるさまざまなループフィルタリング技術の適用を受けることができる。ビデオ圧縮技術は、コーディングされたビデオビットストリームに含まれるパラメータによって制御され、パーサ304からのシンボル313としてループ・フィルタ・ユニット311で利用可能とされるループ内フィルタ技術を含むことができるが、コーディングされたピクチャまたはコーディングされたビデオシーケンスの以前の（復号順で）部分の復号中に取得されたメタ情報に応答したり、以前に再構成およびループフィルタされたサンプル値に応答したりすることもできる。

ループ・フィルタ・ユニット311の出力は、レンダリング装置312に出力することができるだけでなく、将来のインターピクチャ予測で使用するために参照ピクチャメモリ557に格納することができるサンプルストリームとすることができる。

特定のコーディングされたピクチャは、完全に再構成されると、将来の予測のための参照ピクチャとして使用することができる。コーディングされたピクチャが完全に再構成され、コーディングされたピクチャが（例えば、パーサ304によって）参照ピクチャとして識別されていると、現在の参照ピクチャ309は参照ピクチャバッファ308の一部になることができ、以下のコーディングされたピクチャの再構成を開始する前に、新しい現在のピクチャメモリを再配分することができる。

ビデオデコーダ300は、ITU－T Rec．H．265などの規格に文書化され得る所定のビデオ圧縮技術に従って復号動作を行い得る。コーディングされたビデオシーケンスは、ビデオ圧縮技術文書または規格、具体的にはその中のプロファイル文書に指定されるように、ビデオ圧縮技術または規格の構文に忠実であるという意味において、使用されているビデオ圧縮技術または規格によって指定された構文に準拠し得る。また、コンプライアンスのために必要なのは、コーディングされたビデオシーケンスの複雑さが、ビデオ圧縮技術または規格のレベルによって定義された範囲内にあることであり得る。場合によっては、レベルは、最大ピクチャサイズ、最大フレームレート、最大再構成サンプルレート（例えば毎秒メガサンプルで測定される）、最大参照ピクチャサイズなどを制限する。レベルによって設定された限界は、場合によっては、仮想参照デコーダ（HRD）仕様、およびコーディングされたビデオシーケンスでシグナリングされるHRDバッファ管理のメタデータによってさらに制限されることがある。

一実施形態では、受信器302は、符号化されたビデオとともに追加の（冗長な）データを受信し得る。追加のデータは、コーディングされたビデオシーケンスの一部として含まれ得る。追加のデータは、データを適切に復号するため、および／または元のビデオデータをより正確に再構成するために、ビデオデコーダ300によって使用され得る。追加のデータは、例えば、時間層、空間層、または信号対雑音比（SNR）強化層、冗長スライス、冗長ピクチャ、前方誤り訂正符号などの形式にすることができる。

図4は、本開示の一実施形態によるビデオエンコーダ400の機能ブロック図であり得る。

エンコーダ400は、エンコーダ400によってコーディングすべきビデオ画像を取り込み得るビデオソース401（エンコーダの一部ではない）からビデオサンプルを受信し得る。

ビデオソース401は、エンコーダ（303）によってコーディングすべきソース・ビデオ・シーケンスを、任意の適切なビット深度（例えば、8ビット、10ビット、12ビット、…）、任意の色空間（例えば、BT．601 Y CrCB、RGB、…）および任意の適切なサンプリング構造（例えば、Y CrCb 4：2：0、Y CrCb 4：4：4）とすることができるデジタル・ビデオ・サンプル・ストリームの形式で提供し得る。メディアサービングシステムでは、ビデオソース401は、以前に準備されたビデオを格納する記憶装置であり得る。ビデオ会議システムでは、ビデオソース401は、ローカル画像情報をビデオシーケンスとして取り込むカメラであり得る。ビデオデータは、順番に見たときに動きを与える複数の個別のピクチャとして提供され得る。ピクチャ自体は、画素の空間的配列として編成され得、各画素は、使用中のサンプリング構造、色空間などに応じて1つまたは複数のサンプルを含むことができる。当業者であれば、画素とサンプルとの関係を容易に理解することができる。以下の説明は、サンプルに焦点を当てている。

一実施形態によれば、エンコーダ400は、リアルタイムで、または用途によって必要とされる他の任意の時間制約下で、ソース・ビデオ・シーケンスのピクチャをコーディングされたビデオシーケンス410にコーディングおよび圧縮し得る。適切なコーディング速度にすることが、コントローラ402の1つの機能である。コントローラは、以下に説明するように他の機能ユニットを制御し、これらのユニットに機能的に結合される。結合は、明確にするために図示されていない。コントローラによって設定されるパラメータは、レート制御関連パラメータ（ピクチャスキップ、量子化器、レート歪み最適化技術のラムダ値、・・・）、ピクチャサイズ、ピクチャグループ（GOP）レイアウト、最大動きベクトル検索範囲、などを含み得る。当業者であれば、コントローラ402の他の機能は、それらが特定のシステム設計のために最適化されたビデオエンコーダ400に関係し得るため、容易に識別することができる。

一部のビデオエンコーダは、当業者が「コーディングループ」として容易に認識するもので動作する。過度に簡略化した説明として、コーディングループは、エンコーダ402の符号化部分（以後「ソースコーダ」）（コーディングすべき入力ピクチャ、および参照ピクチャに基づいてシンボルを作成する役割を果たす）、およびシンボルを再構成して（リモート）デコーダも作成することになるサンプルデータを作成するエンコーダ400に組み込まれた（ローカル）デコーダ406からなることができる（シンボルとコーディングされたビデオビットストリームとの間の任意の圧縮は、開示された主題で考慮されているビデオ圧縮技術では可逆的であるため）。その再構成されたサンプルストリームは、参照ピクチャメモリ405に入力される。シンボルストリームの復号は、デコーダの場所（ローカルまたはリモート）に関係なくビットイグザクト結果をもたらすため、参照ピクチャバッファ内容もまた、ローカルエンコーダとリモートエンコーダとの間でビットイグザクトである。換言すれば、エンコーダの予測部分は、復号中に予測を使用するときにデコーダが「見る」ことになるのとまったく同じサンプル値を参照ピクチャサンプルとして「見る」。参照ピクチャの同期性（および、例えばチャネル誤りのために同期性を維持できない場合に結果として生じるドリフト）のこの基本原理は、当業者には周知である。

「ローカル」デコーダ406の動作は、「リモート」デコーダ300の動作と同じにすることができ、これは、図3に関連して上記ですでに詳細に説明されている。しかしながら、図4も簡単に参照すると、シンボルが利用可能であり、エントロピーコーダ408およびパーサ304によるコーディングされたビデオシーケンスへのシンボルの符号化／復号は可逆的であり得るため、チャネル301、受信器302、バッファ303およびパーサ304を含むデコーダ300のエントロピー復号部分は、ローカルデコーダ406で完全には実施されない場合がある。

この時点で述べることができる所見は、デコーダに存在する解析／エントロピー復号以外の任意のデコーダ技術もまた、実質的に同一の機能形式で、対応するエンコーダに必ず存在する必要があるということである。エンコーダ技術の説明は、包括的に説明されているデコーダ技術の逆であるため、省略することができる。特定の領域に関してのみ、より詳細な説明が必要とされ、以下に提供される。

その動作の一部として、ソースコーダ403は、動き補償予測コーディングを行い得、これは、「参照フレーム」として指定された、ビデオシーケンスからの1つまたは複数の以前にコーディングされたフレームを参照して入力フレームを予測的にコーディングする。このようにして、コーディングエンジン407は、入力フレームの画素ブロックと、入力フレームへの予測参照として選択され得る参照フレームの画素ブロックとの差をコーディングする。

ローカル・ビデオ・デコーダ406は、ソースコーダ403によって作成されたシンボルに基づいて、参照フレームとして指定され得るフレームのコーディングされたビデオデータを復号し得る。コーディングエンジン407の動作は、有利には、非可逆プロセスであり得る。コーディングされたビデオデータがビデオデコーダ（図4には示されていない）で復号され得るとき、再構成されたビデオシーケンスは、通常、多少の誤差を伴うソース・ビデオ・シーケンスの複製であり得る。ローカル・ビデオ・デコーダ406は、参照フレームに対してビデオデコーダによって行われ得る復号プロセスを複製し、再構成された参照フレームを参照ピクチャキャッシュ405に格納させ得る。このようにして、エンコーダ400は、（伝送エラーのない）遠端のビデオデコーダによって取得されることになる再構成された参照フレームとして共通の内容を有する再構成された参照フレームのコピーをローカルに格納し得る。

予測器404は、コーディングエンジン407のための予測検索を行い得る。すなわち、コーディングすべき新しいフレームに対して、予測器404は、サンプルデータ（候補参照画素ブロックとして）、または新しいピクチャの適切な予測参照として機能し得る、参照ピクチャ動きベクトル、ブロック形状などの特定のメタデータを求めて参照ピクチャメモリ405を検索し得る。予測器404は、適切な予測参照を見出すために、画素ブロックごとのサンプルブロックに基づいて動作し得る。場合によっては、予測器404によって取得された検索結果によって決定されるように、入力ピクチャは、参照ピクチャメモリ405に格納された複数の参照ピクチャから引き出された予測参照を有し得る。

コントローラ402は、例えば、ビデオデータを符号化するために使用されるパラメータおよびサブグループパラメータの設定を含む、ビデオコーダ403のコーディング動作を管理し得る。

すべての前述の機能ユニットの出力は、エントロピーコーダ408でエントロピーコーディングを受け得る。エントロピーコーダは、例えばハフマンコーディング、可変長コーディング、算術コーディングなどの、当業者に既知の技術に従ってシンボルを可逆圧縮することにより、さまざまな機能ユニットによって生成されたシンボルをコーディングされたビデオシーケンスに変換する。

送信器409は、エントロピーコーダ408によって作成されたコーディングされたビデオシーケンスをバッファに入れて、符号化されたビデオデータを格納することになる記憶装置へのハードウェア／ソフトウェアリンクであり得る通信チャネル411を介した送信のためにそれを準備し得る。送信器409は、ビデオコーダ403からのコーディングされたビデオデータを、送信すべき他のデータ、例えば、コーディングされた音声データおよび／または補助データストリーム（ソースは図示せず）とマージし得る。

コントローラ402は、エンコーダ400の動作を管理し得る。コーディング中に、コントローラ405は、各コーディングされたピクチャに特定のコーディングされたピクチャタイプを割り当て得、これは、それぞれのピクチャに適用され得るコーディング技術に影響を及ぼし得る。例えば、ピクチャは、多くの場合、以下のフレームタイプのうちの1つとして割り当てられ得る。

イントラピクチャ（Iピクチャ）は、シーケンス内の任意の他のフレームを予測のソースとして使用せずにコーディングおよび復号され得るピクチャであり得る。いくつかのビデオコーデックは、例えば独立デコーダリフレッシュピクチャなどを含む、さまざまなタイプのイントラピクチャを可能にする。当業者は、Iピクチャのそれらの変形形態ならびにそれらのそれぞれの用途および特徴を認識している。

予測ピクチャ（Pピクチャ）は、各ブロックのサンプル値を予測するために最大で1つの動きベクトルおよび参照インデックスを使用するイントラ予測またはインター予測を使用してコーディングおよび復号され得るピクチャであり得る。

双方向予測ピクチャ（Bピクチャ）は、各ブロックのサンプル値を予測するために、最大で2つの動きベクトルおよび参照インデックスを使用するイントラ予測またはインター予測を使用してコーディングおよび復号され得るものであり得る。同様に、複数の予測ピクチャは、単一のブロックの再構成のために3つ以上の参照ピクチャおよび関連メタデータを使用することができる。

ソースピクチャは、一般に、複数のサンプルブロック（例えば、それぞれ4×4、8×8、4×8、または16×16サンプルのブロック）に空間的に細分化され、ブロックごとにコーディングされ得る。ブロックは、ブロックのそれぞれのピクチャに適用されるコーディング割当てによって決定されるように他の（すでにコーディングされた）ブロックを参照して予測的にコーディングされ得る。例えば、Iピクチャのブロックは、非予測的にコーディングされ得るか、または同じピクチャのすでにコーディングされたブロックを参照して予測的にコーディングされ得る（空間予測またはイントラ予測）。Pピクチャの画素ブロックは、空間予測を介して、または以前にコーディングされた1つの参照ピクチャを参照する時間予測を介して、非予測的にコーディングされ得る。Bピクチャの画素ブロックは、空間予測を介して、または以前にコーディングされた1つまたは2つの参照ピクチャを参照する時間予測を介して、非予測的にコーディングされ得る。

ビデオコーダ400は、ITU－T Rec．H．265などの所定のビデオコーディング技術または規格に従ってコーディング動作を行い得る。その動作において、ビデオコーダ400は、入力ビデオシーケンスにおける時間的および空間的冗長性を活用する予測コーディング動作を含む、さまざまな圧縮動作を行い得る。したがって、コーディングされたビデオデータは、使用されているビデオコーディング技術または規格によって指定された構文に準拠し得る。

一実施形態では、送信器409は、符号化されたビデオとともに追加のデータを送信し得る。ソースコーダ403は、そのようなデータを、コーディングされたビデオシーケンスの一部として含み得る。追加のデータは、時間層／空間層／SNR強化層、冗長なピクチャおよびスライスなどの他の形式の冗長データ、補足拡張情報（SEI）メッセージ、視覚ユーザビリティ情報（VUI）パラメータ・セット・フラグメントなどを含み得る。

図5は、HEVCおよびJEMで使用されるイントラ予測モードを例示する。自然なビデオに提示される任意のエッジ方向を捕捉するために、指向性イントラモードの数は、HEVCで使用される33から65に拡張される。HEVCの上のJEMにおける追加の指向性モードは、図1（b）において点線矢印として図示されており、平面モードおよびDCモードは同じままである。これらのより高密度の指向性イントラ予測モードは、すべてのブロックサイズに、および輝度と彩度の両方のイントラ予測に適用される。図5に示すように、奇数イントラ予測モードインデックスに関連付けられた、点線矢印によって識別される指向性イントラ予測モードは、奇数イントラ予測モードと呼ばれる。偶数イントラ予測モードインデックスに関連付けられた、実線矢印で識別される指向性イントラ予測モードは、偶数イントラ予測モードと呼ばれる。本明細書では、図5の実線または点線矢印で示される指向性イントラ予測モードは角度モードとも呼ばれる。

JEMでは、輝度イントラ予測に合計67個のイントラ予測モードが使用される。イントラモードをコーディングするために、サイズ6の最確モード（MPM）リストが、隣接ブロックのイントラモードに基づいて構築される。イントラモードがMPMリストからのものでない場合、イントラモードが選択されたモードに属するかどうかを示すフラグがシグナリングされる。JEM－3．0では、16個の選択されたモードがあり、これらは4つ目の角度モードごとに一様に選択される。JVET－D0114およびJVET－G0060では、一様に選択されたモードを置き換えるために16個の二次MPMが導出される。

図6は、イントラ指向性モードのために活用されるN個の参照階層を例示する。ブロックユニット611、セグメントA 601、セグメントB 602、セグメントC 603、セグメントD 604、セグメントE 605、セグメントF 606、第1の参照階層610、第2の参照階層609、第3の参照階層608および第4の参照階層607が存在する。

HEVCおよびJEMの両方、ならびにH．264／AVCなどの他のいくつかの規格では、現在のブロックを予測するために使用される参照サンプルは、最も近い参照ライン（行または列）に制限される。複数の参照ラインイントラ予測の方法では、候補参照ライン（行または列）の数は、イントラ指向性モードに対して1（すなわち、最も近い）からNに増加され、この場合Nは1以上の整数である。図2は、複数ラインのイントラ指向性予測方法の概念を示すために、一例として4×4予測ユニット（PU）を引用する。イントラ指向性モードは、予測器を生成するためにN個の参照階層のうちの1つを任意に選択することができる。換言すれば、予測器p（x、y）は、参照サンプルS1、S2、．．．、およびSNのうちの1つから生成される。どの参照階層がイントラ指向性モードのために選択されるかを示すために、フラグがシグナリングされる。Nが1に設定される場合、イントラ指向性予測方法は、JEM2．0の従来の方法と同じである。図6では、参照ライン610、609、608および607は、左上参照サンプルとともに6つのセグメント601、602、603、604、605および606から構成される。本明細書では、参照階層は参照ラインとも呼ばれる。現在のブロックユニット内の左上画素の座標は（0，0）であり、第1の参照ラインの左上画素は（－1，－1）である。

JEMでは、輝度成分について、イントラ予測サンプル生成に使用される隣接サンプルは、生成プロセスの前にフィルタリングされる。フィルタリングは、所与のイントラ予測モードおよび変換ブロックサイズによって制御される。イントラ予測モードがDCであるか、または変換ブロックサイズが4×4に等しい場合、隣接サンプルはフィルタリングされない。所与のイントラ予測モードと垂直モード（または水平モード）との間の距離が所定の閾値よりも大きい場合、フィルタリングプロセスは有効にされる。隣接サンプルのフィルタリングには、［1，2，1］フィルタおよびバイリニアフィルタが使用される。

位置依存イントラ予測合成（PDPC）方法は、フィルタリングされていない境界参照サンプルと、フィルタリングされた境界参照サンプルを有するHEVCスタイルのイントラ予測との組み合わせを引き起こすイントラ予測方法である。（x，y）に位置する各予測サンプルpred［x］［y］は、以下の通りに計算される。
pred［x］［y］＝（wL＊R_－1，y＋wT＊R_x，－1＋wTL＊R_－1，－1＋（64－wL－wT－wTL）＊pred［x］［y］＋32）＞＞6 （式2－1）
式中、R_x，－1、R_－1，yは、現在のサンプル（x，y）の上及び左にそれぞれ位置する、フィルタリングされていない参照サンプルを表し、R_－1，－1は、現在のブロックの左上隅に位置する、フィルタリングされていない参照サンプルを表す。重み付けは、以下の通りに計算される。
wT＝32＞＞（（y＜＜1）＞＞shift）（式2－2）
wL＝32＞＞（（x＜＜1）＞＞shift）（式2－3）
wTL＝－（wL＞＞4）－（wT＞＞4）（式2－4）
shift＝（log2（width）＋log2（height）＋2）＞＞2 （式2－5）

図7は、1つの4×4ブロック内の（0，0）および（1，0）位置に対してDCモードPDPCが（wL、wT、wTL）重み付けする図700を例示する。PDPCがDC、平面、水平、および垂直イントラモードに適用される場合、HEVC DCモード境界フィルタまたは水平／垂直モードエッジフィルタなどの追加の境界フィルタは必要ない。図7は、右上対角モードに適用されたPDPCの参照サンプルRx，－1、R－1，yおよびR－1，－1の定義を例示する。予測サンプルpred（x’，y’）は、予測ブロック内の（x’，y’）に位置する。参照サンプルRx，－1の座標xは、x＝x’＋y’＋1によって与えられ、参照サンプルR－1，yの座標yも同様に、y＝x’＋y’＋1によって与えられる。

図8は、局所照明補償（LIC）図800を例示し、スケーリング係数aおよびオフセットbを使用した、照明変化の線形モデルに基づいている。そしてそれは、インターモードでコーディングされたコーディングユニット（CU）ごとに適応的に有効または無効にされる。

LICがCUに適用されるとき、最小二乗誤差法を使って、現在のCUの隣接サンプルおよびそれらの対応する参照サンプルを使用することによってパラメータaおよびbを導出する。より具体的には、図8に例示されるように、CUのサブサンプリング（2：1サブサンプリング）された隣接サンプル、および参照ピクチャ内の（現在のCUまたはサブCUの動き情報によって識別される）対応するサンプルが使用される。ICパラメータは、予測方向ごとに別々に導出され適用される。

CUがマージモードでコーディングされる場合、LICフラグは、マージモードにおける動き情報コピーと同様の方法で、隣接ブロックからコピーされ、そうでない場合、LICが適用されるかどうかを示すために、LICフラグがCUに対してシグナリングされる。

図9Aは、HEVCで使用されるイントラ予測モード900を例示する。HEVCには、合計35のイントラ予測モードがあり、そのうちモード10は水平モードであり、モード26は垂直モードであり、モード2、モード18、およびモード34は対角モードである。イントラ予測モードは、3つの最確モード（MPM）および残りの32個のモードによってシグナリングされる。

図9Bは、VVCの実施形態において、モード18が水平モードであり、モード50が垂直モードであり、モード2、モード34およびモード66が対角モードである合計87個のイントラ予測モードがあることを例示する。モード－1～－10およびモード67～76は、広角イントラ予測（WAIP）モードと呼ばれる。

位置（x，y）に位置する予測サンプルpred（x，y）は、イントラ予測モード（DC、平面、角度）および参照サンプルの線形結合を使用してPDPC表現に従って予測される。
pred（x，y）＝（wL×R－1，y＋wT×Rx，－1－wTL×R－1，－1＋（64－wL－wT＋wTL）×pred（x，y）＋32）＞＞6
式中、Rx，－1、R－1，yは、それぞれ現在のサンプル（x，y）の上および左に位置する参照サンプルを表し、R－1，－1は、現在のブロックの左上隅に位置する参照サンプルを表す。

DCモードの場合、重みは、幅および高さの寸法を有するブロックについて以下の通りに計算される。
wT＝32＞＞（（y＜＜1）＞＞nScale）、wL＝32＞＞（（x＜＜1）＞＞nScale）、wTL＝（wL＞＞4）＋（wT＞＞4）、
ここで、nScale＝（log2（幅）－2＋log2（高さ）－2＋2）＞＞2であり、式中、wTは、同じ水平座標を有する上記の参照ラインに位置する参照サンプルの重み付け係数を表し、wLは、同じ垂直座標を有する左の参照ラインに位置する参照サンプルの重み付け係数を表し、wTLは、現在のブロックの左上の参照サンプルの重み付け係数を表し、nScaleは、軸に沿って重み付け係数がどれだけ速く減少する（wLが左から右に減少する、またはwTが上から下に減少する）かを指定する、すなわち重み付け係数減少率を指定し、それは、現在の設計におけるx軸（左から右）およびy軸（上から下）に沿って同じである。また、32は隣接サンプルの初期重み付け係数を表し、初期重み付け係数はまた、現在のCBにおいて左上のサンプルに割り当てられた上（左または左上）の重み付けであり、PDPCプロセスにおける隣接サンプルの重み付け係数は、この初期重み付け係数以下とするべきである。

平面モードの場合、wTL＝0であり、一方、水平モードの場合、wTL＝wTであり、垂直モードの場合、wTL＝wLである。PDPC重みは、加算およびシフトのみで計算することができる。pred（x，y）の値は、式1を使用して単一ステップで算出することができる。

本明細書では、提案された方法は、別々に使用されてもよいし、任意の順序で組み合わされてもよい。さらに、方法（または実施形態）、エンコーダ、およびデコーダのそれぞれは、処理回路（例えば、1つもしくは複数のプロセッサまたは1つもしくは複数の集積回路）によって実施されてもよい。一例では、1つまたは複数のプロセッサは、非一時的コンピュータ可読媒体に格納されたプログラムを実行する。実施形態によれば、ブロックという用語は、予測ブロック、コーディングブロック、またはコーディングユニット（すなわち、CU）として解釈され得る。

図10は、例示的なフローチャート1000を例示しており、例示的な実施形態による例示的なフレームワークのワークフロー1200を例示する図12をさらに参照して説明されることになる。ワークフロー1200は、顔検出および顔ランドマーク抽出モジュール122、空間－時間（ST）ダウンサンプルモジュール123、ランドマーク特徴圧縮および送信モジュール126、拡張顔領域（EFA）特徴圧縮および送信モジュール127、顔詳細再構成モジュール130、EFA再構成モジュール131、ビデオ圧縮および送信モジュール135、STアップサンプルモジュール137、および融合モジュール139などのモジュールを含み、ワークフロー1200はまた、さまざまなデータ121、124、125、128、129、132、133、134、136、138、および140を含む。

S101のように、データ121などの入力ビデオシーケンスX＝x₁，x₂，・・・を与えられると、顔検出および顔ランドマーク抽出モジュール122は、最初に、S102において、各ビデオフレームx_iから1つまたは複数の有効な顔を決定する。1つの実施形態では、最も目立つ（例えば、最も大きい）顔のみが検出され、別の実施形態では、条件を満たす（例えば、閾値を超える十分に大きいサイズを持つ）フレーム内のすべての顔が検出される。S103において、x_i内のj番目の顔について、顔ランドマークのセットが決定され、顔ランドマーク特徴f_l，i，jのセットがそれに応じて算出され、それは、x_i内のj番目の顔を復元するためにデコーダによって使用されることになる。S103において、すべての顔のすべての顔ランドマーク特徴がF_l，i＝f_l，i，1，f_l，i，2，・・・、データ124として組み立てられ、それは、ランドマーク特徴圧縮および送信モジュール126によって符号化および送信される。S105において、同時に、x_i内のj番目の顔について、元の検出された顔の境界領域（長方形、エクリプス、またはきめの細かいセグメンテーション境界）を拡張することによって拡張顔領域（EFA）を算出して、追加の髪、身体の部分、または背景さえも含めることができる。S106およびS107において、EFA特徴f_b，i，jのセットは、それに応じて算出することができ、x_i内のj番目の顔のEFAを復元するためにデコーダによって使用されることになる。S107において、すべての顔のすべてのEFA特徴がF_b，i＝f_b，i，1，f_b，i，2，・・・、データ125として組み立てられ、それは、EFA圧縮および送信モジュール127によって符号化および送信される。

例示的な実施形態によれば、顔検出および顔ランドマーク抽出モジュール122は、各ビデオフレームx_i内の顔領域を特定するために、人間の顔を特別なオブジェクトカテゴリとして扱うことによって任意のオブジェクト検出DNN、または人間の顔を特定するために特別に設計された他のDNNアーキテクチャなど、任意の顔検出器を使用することができる。顔検出および顔ランドマーク抽出モジュール122もまた、検出された顔ごとの予め決定された顔ランドマークのセット（例えば、左／右目、鼻、口などの周りのランドマーク）を特定するために、任意の顔ランドマーク検出器を使用することができる。いくつかの実施形態では、1つのマルチタスクDNNを使用して、顔および関連ランドマークを同時に特定することができる。顔ランドマーク特徴f_l，i，jは、顔ランドマーク検出器によって算出される、中間潜在表現とすることができ、j番目の顔のランドマークを特定するために直接使用される。中間潜在表現をさらに処理し、顔ランドマーク特徴f_l，i，jを算出するために追加のDNNを適用することもできる。例えば、顔部分、例えば、右目の周りの個別のランドマークに対応する特徴マップからの情報をその顔部分に関する共同特徴に集約することができる。類似度、EFA特徴f_b，i，jは、j番目の顔に対応する顔検出器によって算出される中間潜在表現とすることができる。例えば、実際の顔領域以外の背景領域を強調することによって、中間潜在表現に基づいてf_b，i，jを算出するために追加のDNNを使用することもできる。さまざまな例示的な実施形態は、顔検出器、顔ランドマーク検出器、顔ランドマーク特徴抽出器、またはEFA特徴抽出器特徴の方法またはDNNアーキテクチャに関して制限されない可能性がある。

例示的な実施形態によれば、ランドマーク特徴圧縮および送信モジュール126は、顔ランドマーク特徴を効率的に圧縮するためにさまざまな方法を使用することができる。好ましい実施形態では、顔部分（例えば、右目）ごとにコードブックを生成することができる、コードブックベースの機構が使用される。それから、特定の顔の特定の顔部分（例えば、現在フレーム内の現在の顔の右目）について、その顔ランドマーク特徴は、このコードブック内の符号語の重み付き組み合わせによって表すことができる。そのような場合、コードブックはデコーダ側において格納され、顔ランドマーク特徴を復元するためにデコーダ側に符号語の重み係数を転送する必要のみがあり得る。同様に、EFA圧縮および送信モジュール127もまた、EFA特徴を圧縮するためにさまざまな方法を使用することができる。好ましい実施形態では、特定のEFA特徴がEFA符号語の重み付き組み合わせによって表されるEFAコードブックも使用され、そのとき、EFA特徴を復元するために符号語の重み係数を転送する必要のみがあり得る。

他方、入力ビデオシーケンスX＝x₁，x₂，…、データ121は、STダウンサンプルモジュール123によって

に空間－時間（ST）ダウンサンプリングされる。Xと比較して、X’は、空間的、時間的、または空間的および時間的の両方に、ダウンサンプリングすることができる。Xが空間的にダウンサンプリングされるとき、各x_iおよび

は、同じタイムスタンプを有し、

は、例えば、従来のまたはDNNベースの補間によって、低減解像度でx_iから算出される。Xが時間的にダウンサンプリングされるとき、各

は、異なるタイムスタンプにおいてx_kiに対応し、ここでkはダウンサンプル周波数である（X’を生成するために、Xのkフレームごとに1フレームがサンプリングされる）。Xが空間的および時間的の両方にダウンサンプリングされるとき、各

は、例えば、従来のまたはDNNベースの補間によって、低減解像度で異なるタイムスタンプにおいてx_kiから算出される。それから、ダウンサンプリングされたシーケンス

、データ134は、元のHQ入力X＝x₁，x₂，…のLQバージョンとして扱うことができる。

は、それから、ビデオ圧縮および送信モジュール135によって符号化および送信することができる。例示的な実施形態に従って、HEVC、VVC、NNVC、またはエンドツーエンドビデオ圧縮など、任意のビデオ圧縮フレームワークが、ビデオ圧縮および送信モジュール135によって使用され得る。

デコーダ側では、例えば図11のフローチャート1100および図12のさまざまなモジュールに関して説明したように、S111において、受信された符号化されたビットストリームは、S112において、復号されたダウンサンプリングされたシーケンス

、データ136、復号されたEFA特徴

、データ129、および復号された顔ランドマーク特徴

、データ128を取得するために最初に解凍される。各復号されたフレーム

は、ダウンサンプリングされた

に対応する。各復号されたEFA特徴

は、EFA特徴F_b，iに対応する。各復号されたランドマーク特徴

は、ランドマーク特徴F_l，iに対応する。S113において、復号されたダウンサンプリングされたシーケンス

は、アップサンプリングされたシーケンス

、データ138を生成するためにSTアップサンプルモジュール137を通過する。エンコーダサイズに対応して、このSTアップサンプルモジュールは、空間的、時間的、または時間的および空間的の両方のアップサンプリングをSTダウンサンプルモジュール123におけるダウンサンプリングプロセスの逆演算として行う。空間的ダウンサンプリングがエンコーダ側で使用されるとき、空間的アップサンプリングがここで使用され、各

は、例えば、従来の補間またはDNNベースの超解像法によって、同じタイムスタンプにおいて

にアップサンプリングされ、

は、x_iと同じ解像度を有することになる。時間的ダウンサンプリングがエンコーダ側で使用されるとき、時間的アップサンプリングがここで使用され、各

は

であり、

および

の間の追加の（k－1）フレームは、例えば、従来の動き補間または

および

に基づくDNNベースのフレーム合成法を使用することによって算出される。空間的および時間的の両方のダウンサンプリングがエンコーダ側で使用されるとき、空間的および時間的アップサンプリングがここで使用され、各

は、従来の補間またはDNNベースの超解像法を使用して

を空間的にアップサンプリングすることによって

から算出され、

および

の間の追加のフレームは、

および

に基づいて従来の動き補間またはDNNベースのフレーム合成法を使用することによってさらに生成される。

S114において、復号されたEFA特徴

は、再構成されたEFAのシーケンス

、データ133を算出するためにEFA再構成モジュール131を通過し、各

は、EFAのセットを含み、

は、フレーム

内のj番目の顔のEFAである。復号されたランドマーク特徴

、データ128は、復元された顔詳細

、データ132のシーケンスを算出するために顔詳細再構成モジュール130を通過する。各

は顔詳細表現のセットを含み、

は、フレーム

内のj番目の顔に対応する。好ましい実施形態では、EFA再構成モジュール131は、残差ブロックのスタックおよび畳み込み層によって構成されるDNNである。顔詳細再構成モジュール130は、さまざまな顔部分に対応するランドマーク特徴を条件とする条件付き敵対的生成ネットワーク（GAN）である。タイムスタンプiに対する

を算出するために、EFA再構成モジュール131は、このタイムスタンプの復号されたEFA特徴

のみを使用してもよく、または数個の隣接タイムスタンプのEFA

（n、mは任意の正の整数）を使用してもよい。同様に、タイムスタンプiに対する

を算出するために、顔詳細再構成モジュール130は、このタイムスタンプの復号されたランドマーク特徴

を使用してもよい。その後、S115において、復元された顔詳細

、再構成されたEFA

、およびアップサンプリングされたシーケンス

は、最終的な再構成されたビデオシーケンス

、データ140を生成するために融合モジュール139によって集約される。融合モジュールは、小さいDNNとすることができ、タイムスタンプiにおいて

を生成するために、融合モジュールは、同じタイムスタンプからの

、

および

のみを使用することができ、または

を使用することができ、数個の隣接タイムスタンプからの

を使用することができる。例示的な実施形態は、顔詳細再構成モジュール130、EFA再構成モジュール131、および／または融合モジュール139のDNNアーキテクチャについていかなる制限も含み得ない。

EFA特徴を使用する目的は、拡張顔領域（髪、身体の部分など）の再構成品質を改善することである。いくつかの実施形態では、EFAに関連したプロセスは、再構成品質と計算および伝送コストの間のトレードオフに応じて任意選択とすることができる。したがって、図12では、そのような任意選択プロセスは、要素125、127、129、131、および133の間などの点線によってマークされている。

また、例示的な実施形態によれば、提案されたフレームワークに訓練する必要があるいくつかの構成要素があり、そのような訓練について、例示的な実施形態による例示的な訓練プロセスのワークフロー1300を例示する図13に関して説明する。ワークフロー1300は、顔検出および顔ランドマーク抽出モジュール223、STダウンサンプルモジュール222、ランドマーク特徴雑音モデリングモジュール226、EFA特徴雑音モデリングモジュール227、顔詳細再構成モジュール230、EFA再構成モジュール231、ビデオ雑音モデリングモジュール235、STアップサンプルモジュール237、融合モジュール、敵対的損失算出モジュール241、再構成損失算出モジュール242、知覚損失算出モジュール243などのモジュールを含み、ワークフロー1300はまた、さまざまなデータ221、224、225、229、228、232、233、236、238、および240を含む。

例示的な実施形態によれば、提案されたフレームワークに、顔検出および顔ランドマーク抽出モジュール122内の顔検出器、顔ランドマーク検出器、顔ランドマーク特徴抽出器、およびEFA特徴抽出器、EFA再構成モジュール131、ならびに顔詳細再構成モジュール130を含む、配備前に訓練する必要があるいくつかの構成要素がある。任意選択的に、STダウンサンプル123モジュールおよびSTアップサンプルモジュール137もまた、学習ベースのダウンサンプリングまたはアップサンプリング方法が使用される場合に事前訓練する必要がある。1つの好ましい実施形態では、これらすべての構成要素は、DNNベースの方法を使用し、これらのDNNの重みパラメータは、訓練する必要がある。他の実施形態では、これらの構成要素の一部が、従来の顔ランドマーク検出器などの従来の学習ベースの方法を使用することができ、対応するモデルパラメータもまた、訓練する必要がある。DNNベースまたは従来の、各学習ベースの構成要素は、最初に個別に事前訓練され、次いで本開示に説明された訓練プロセスを通して共同で調整される。

例えば、図13は、訓練プロセスの好ましい実施形態の全体的なワークフロー1300を与える。訓練のために、ビデオ雑音モデリングモジュール235による実際のビデオ圧縮および送信モジュール135。これは、実際のビデオ圧縮は、量子化などの微分不可能なプロセスを含むためである。ビデオ雑音モデリングモジュール235は、ダウンサンプリングされたシーケンス

に不規則雑音を追加して、復号されたダウンサンプリングされたシーケンス

を訓練プロセスで生成し、復号されたダウンサンプリングされたシーケンスの真のデータ分布を最終試験段階で模倣する。したがって、ビデオ雑音モデリングモジュール235によって使用される雑音モデルは、通常、実践で使用される実際のビデオ圧縮方法に依存する。同様に、EFA特徴圧縮および送信モジュール127をEFA特徴雑音モデリングモジュール227で置き換え、それは、F_b，1，F_b，2，…に雑音を追加して、復号されたEFA特徴

を訓練段階で生成し、実際の復号されたEFA特徴のデータ分布を実践で模倣する。また、ランドマーク特徴圧縮および送信モジュール126は、ランドマーク特徴雑音モデリングモジュール226で置き換えられ、それは、F_l，1，F_l，2，…に雑音を追加して、復号されたランドマーク特徴

を訓練段階で生成し、復号されたランドマーク特徴の真の分布を実践で模倣する。例示的な実施形態が訓練のために以下の損失関数を算出する。

学習可能な構成要素を学習するために、いくつかのタイプの損失が訓練プロセスで算出される。歪み損失

は、元の訓練シーケンスと再構成された訓練シーケンスとの差を測定するために再構成損失算出モジュール242で算出することができ、例えば、

であり、式中

は、x_iと

との間のMAEまたはSSIMとすることができる。再構成された顔領域または顔領域のさまざまな部分の歪みを強調するために重要度重みマップを使用することもできる。また、知覚損失

は、知覚損失算出モジュールで算出することができ、例えば、

であり、特徴抽出DNN（例えば、VGG基幹ネットワーク）が、それぞれx_iおよび

に基づいて特徴表現を算出する。x_iおよび

に基づいて算出される特徴表現の差（例えば、MSE）は、知覚損失として使用される。敵対的損失

は、例えば、敵対的損失算出モジュール241によって算出することができ、例えば、

であり、再構成された入力

がどれほど自然に見えるかを測定することができる。これは、真のxまたは再構成された

のいずれかを識別器（それは通常ResNetのような分類DNNである）に送り込むことによってなされて、それが本来のものであるか再構成されたものであるかを分類し、分類誤差（例えば、交差エントロピー損失）を

として使用することができる。歪み損失

、知覚損失

、および敵対的損失

は、共同損失

として重み付きで組み合わせることができ、その勾配を算出して、バックプロパゲーションを通してモデルパラメータを更新することができる。

式中、αおよびβは、異なる損失項の重要度のバランスをとるハイパーパラメータである。

異なる構成要素は異なる更新頻度で異なるときに更新することができることに留意されたい。新しい訓練データが利用可能なとき一部の構成要素のみが配備後に周期的または頻繁に更新される場合がある。モデルパラメータの一部のみが配備後に更新される場合がある。本開示は、最適化方法、モデル更新の頻度、または更新すべきモデルパラメータのパーセンテージにいかなる制限も加えない。

したがって、ワークフロー1200および1300のいずれかの例示的な実施形態は、LQフレームおよび顔特徴を送信することによってコーディング効率が改善された顔復元に基づくビデオ会議におけるビデオ圧縮および送信のための新規のフレームワーク、空間的、時間的または空間－時間的にダウンサンプリングされたフレームのための柔軟かつ一般的なフレームワーク、異なるDNNアーキテクチャのための柔軟かつ一般的なフレームワーク、および任意の背景を持つ複数の顔を受け入れるための柔軟かつ一般的なフレームワークを表す。

実施形態は、現実の低品質（LQ）顔から高品質（HQ）のものへと写実的な細部を回復する顔復元（または顔幻覚）に基づくビデオ会議フレームワークをさらに表す。顔再現方法におけるような誤差の発生しやすい形状およびテクスチャ転送に頼る代わりに、発明者らは、LQ顔および顔ランドマーク特徴に基づいてHQ顔の詳細を復元する。本明細書に開示された例示的なフレームワークは、復元された顔のロバストな品質を保証し得、それは現実の製品の鍵である。例えば、伝送コストを低減するために、ダウンサンプリングされたフレームおよび顔特徴のみが伝送され得、HQフレームは、ダウンサンプリングされたフレームおよび顔特徴に基づいてデコーダ側で復元され得る。

上述した技術は、コンピュータ可読命令を使用し、1つまたは複数のコンピュータ可読媒体に物理的に格納されたコンピュータソフトウェアとして、または具体的に構成された1つまたは複数のハードウェアプロセッサによって実施することができる。例えば、図14は、開示されている主題の特定の実施形態を実施するのに適したコンピュータシステム1400を示す。

コンピュータソフトウェアは、コンピュータ中央処理装置（CPU）、グラフィック処理装置（GPU）などによって、直接、または解釈、マイクロコードの実行などを介して実行できる命令を含むコードを作成するために、アセンブリ、コンパイル、リンクなどの機構の適用を受け得る、任意の適切な機械コードまたはコンピュータ言語を使用してコーディングすることができる。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーム機、インターネット・オブ・シングス装置などを含むさまざまなタイプのコンピュータまたはその構成要素で実行することができる。

コンピュータシステム1400に関して図14に示されている構成要素は、本質的に例示であり、本開示の実施形態を実施するコンピュータソフトウェアの使用または機能の範囲に関する限定を示唆することを意図されていない。構成要素の構成も、コンピュータシステム1400の例示的な実施形態に例示される構成要素のいずれか1つまたは組み合わせに関連する依存関係または要件を有すると解釈されるべきではない。

コンピュータシステム1400は、特定のヒューマンインターフェース入力デバイスを含み得る。そのようなヒューマンインターフェース入力デバイスは、例えば、触覚入力（キーストローク、スワイプ、データグローブの動きなど）、音声入力（声、拍手など）、視覚入力（ジェスチャなど）、嗅覚入力（図示せず）を介して、1人または複数の人間ユーザによる入力に応答することができる。ヒューマン・インターフェース・デバイスを用いて、音声（発話、音楽、周囲音など）、画像（スキャン画像、静止画像カメラから取得される写真画像など）、ビデオ（二次元ビデオ、立体ビデオを含む三次元ビデオなど）など、人間による意識的な入力に必ずしも直接関係ない特定の媒体を取り込むこともできる。

入力ヒューマン・インターフェース・デバイスは、キーボード1401、マウス1402、トラックパッド1403、タッチスクリーン1410、ジョイスティック1405、マイク1406、スキャナ1408、カメラ1407のうちの1つまたは複数（それぞれの1つのみが図示される）を含み得る。

コンピュータシステム1400は、特定のヒューマンインターフェース出力デバイスも含み得る。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、および臭い／味を通じて、1人または複数の人間のユーザの感覚を刺激し得る。そのようなヒューマンインターフェース出力デバイスは、触覚出力デバイス（例えば、タッチスクリーン1410、またはジョイスティック1405による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスが存在する可能性もある）、音声出力デバイス（スピーカ1409、ヘッドホン（図示せず）など）、視覚的出力デバイス（CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含むスクリーン1410などであり、それぞれにタッチスクリーン入力機能を備えたものと備えていないものがあり、それぞれに触覚フィードバック機能の備えたものと備えていないものがあり、その一部は、ステレオグラフィック出力、仮想現実の眼鏡（図示せず）、ホログラフィックディスプレイおよびスモークタンク（図示せず）などの手段を介して二次元の視覚的出力、または三次元を超える出力を出力することが可能であり得る）、ならびにプリンタ（図示せず）を含み得る。

コンピュータシステム1400はまた、人間がアクセス可能な記憶装置と、それらに関連付けられた媒体、例えば、CD／DVD1411または同様の媒体を備えたCD／DVD ROM／RW1420、サムドライブ1422、取り外し可能なハードドライブまたはソリッドステートドライブ1423、テープおよびフロッピーディスク（図示せず）などのレガシー磁気媒体、セキュリティドングル（図示せず）などの専用のROM／ASIC／PLDベースのデバイスを含めた光学媒体などを含むこともできる。

当業者はまた、ここで開示される主題に関連して使用される「コンピュータ可読媒体」という用語は、送信媒体、搬送波、または他の一時的な信号を包含しないことを理解するべきである。

コンピュータシステム1400は、1つまたは複数の通信ネットワーク1498へのインターフェース1499も含むことができる。ネットワーク1498は、例えば、無線、有線、光とすることができる。さらに、ネットワーク1498は、ローカル、広域、大都市圏、車両および産業、リアルタイム、遅延耐性などである場合がある。ネットワーク1498の例は、イーサネットなどのローカル・エリア・ネットワーク、無線LAN、GSM、3G、4G、5G、LTEなどを含むセルラネットワーク、ケーブルテレビ、衛星テレビおよび地上波放送テレビを含むTV有線または無線広域デジタルネットワーク、CANBusなどを含む車両用および産業用などを含む。特定のネットワーク1498は一般に、特定の汎用目的のデータポートまたは周辺バス（1450および1451）（例えば、コンピュータシステム1400のUSBポートなど）に連結された外部のネットワーク・インターフェース・アダプタを必要とし、その他のものは一般に、以下に説明するようにシステムバスへの連結によってコンピュータシステム1400のコアに統合される（例えば、PCコンピュータシステムへのイーサネットインターフェースまたはスマートフォン・コンピュータ・システムへのセルラ・ネットワーク・インターフェース）。これらのネットワーク1498のいずれかを使用して、コンピュータシステム1400は他のエンティティと通信することができる。そのような通信は、単方向の受信のみ（例えば、放送TV）、単方向送信のみ（例えば、特定のCANbusデバイスへのCANbus）、または双方向、例えばローカルエリアまたは広域デジタルネットワークを使用する他のコンピュータシステムへの通信であり得る。特定のプロトコルおよびプロトコルスタックは、上記で説明したように、それらのネットワークおよびネットワークインターフェースのそれぞれで使用することができる。

前述のヒューマン・インターフェース・デバイス、ヒューマンアクセス可能な記憶装置、およびネットワークインターフェースは、コンピュータシステム1400のコア1440に連結することができる。

コア1440は、1つまたは複数の中央処理装置（CPU）1441、グラフィック処理装置（GPU）1442、グラフィックアダプタ1417、フィールドプログラマブルゲート領域（FPGA）1443の形式の専用のプログラマブル処理装置、特定のタスク用のハードウェアアクセラレータ1444などを含むことができる。これらのデバイスは、読み取り専用メモリ（ROM）1445、ランダムアクセスメモリ1446、ユーザがアクセスすることができない内部ハードドライブ、SSDなどの内部大容量記憶装置1447とともに、システムバス1448を介して接続され得る。一部のコンピュータシステムでは、システムバス1448に、1つまたは複数の物理的プラグの形式でアクセスして、追加のCPU、GPUなどによる拡張を可能にすることができる。周辺デバイスは、コアのシステムバス1448に直接、または周辺バス1451を介して連結することができる。周辺バスのアーキテクチャは、PCI、USBなどを含む。

CPU 1441、GPU 1442、FPGA 1443、およびアクセラレータ1444は、組み合わせて、前述のコンピュータコードを構成することができる特定の命令を実行することができる。そのコンピュータコードは、ROM 1445またはRAM 1446に格納することができる。移行データもまたRAM 1446に格納することができるが、永続的データは、例えば内部大容量記憶装置1447に格納することができる。1つまたは複数のCPU 1441、GPU 1442、大容量記憶装置1447、ROM 1445、RAM 1446などと密接に関連付けることができるキャッシュメモリを使用することにより、メモリデバイスのいずれかへの高速記憶および高速取り出しを可能にすることできる。

コンピュータ可読媒体は、さまざまなコンピュータ実施動作を行うためのコンピュータコードを有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構成されたものであってもよいし、またはコンピュータソフトウェア技術の当業者に周知の利用可能な種類のものであってもよい。

一例として、限定としてではなく、アーキテクチャ、具体的にはコア1440を有するコンピュータシステム1400は、1つまたは複数の有形のコンピュータ可読媒体で具体化されたソフトウェアを実行するプロセッサ（CPU、GPU、FPGA、アクセラレータなどを含む）の結果として機能を提供することができる。そのようなコンピュータ可読媒体は、上記で紹介したようにユーザがアクセス可能な大容量記憶装置のほか、コア内部大容量記憶装置1447またはROM 1445などの非一時的性質のコア1440の特定の記憶装置にも関連付けられた媒体とすることができる。本開示のさまざまな実施形態を実施するソフトウェアは、そのようなデバイスに格納し、コア1440によって実行することができる。コンピュータ可読媒体は、特定の必要性に応じて、1つまたは複数のメモリデバイスまたはチップを含むことができる。ソフトウェアは、コア1440、具体的にはその中のプロセッサ（CPU、GPU、FPGAなどを含む）に、RAM 1446に格納されたデータ構造を定義すること、およびソフトウェアによって定義されたプロセスに従って、そのようなデータ構造を変更することを含む、本明細書に記載の特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。加えて、または代替として、コンピュータシステムは、本明細書に記載の特定のプロセスまたは特定のプロセスの特定の部分を実行するためにソフトウェアの代わりにまたはそれと一緒に動作することができる回路（例えば、アクセラレータ1444）に配線された、または他の方法で具体化されたロジックの結果として機能を提供することができる。ソフトウェアへの参照にはロジックを包含することができ、必要に応じてその逆も可能である。必要に応じて、コンピュータ可読媒体への言及は、実行のためのソフトウェアを格納する回路（集積回路（IC：integrated circuit）など）、実行のためのロジックを具体化する回路、またはこれらの両方を包含することができる。本開示は、ハードウェアとソフトウェアの任意の適切な組み合わせを包含する。

本開示はいくつかの例示的な実施形態を説明してきたが、本開示の範囲内にある修正例、置換例、およびさまざまな代替均等例がある。したがって、当業者は、本明細書では明示的に示されていないか、または記載されていないが、本開示の原理を具体化し、したがってその趣旨および範囲内にある多数のシステムおよび方法を考案できることが理解されよう。

105 ネットワーク
1417 グラフィックアダプタ
1444 アクセラレータ
1448 システムバス
1499 ネットワークインターフェース

場合によっては、スケーラ／逆変換ユニット305の出力サンプルは、イントラコーディングされたブロック、すなわち、以前に再構成されたピクチャからの予測情報を使用していないが、現在のピクチャの以前に再構成された部分からの予測情報を使用することができるブロック、に関係することがある。そのような予測情報は、イントラピクチャ予測ユニット307によって提供することができる。場合によっては、イントラピクチャ予測ユニット307は、現在の（部分的に再構成された）ピクチャ309からフェッチされた周囲のすでに再構成された情報を使用して、再構成中のブロックと同じサイズおよび形状のブロックを生成する。アグリゲータ310は、場合によっては、サンプルごとに、イントラ予測ユニット307が生成した予測情報を、スケーラ／逆変換ユニット305によって提供される出力サンプル情報に追加する。

一部のビデオエンコーダは、当業者が「コーディングループ」として容易に認識するもので動作する。過度に簡略化した説明として、コーディングループは、エンコーダ400の符号化部分（以後「ソースコーダ」）（コーディングすべき入力ピクチャ、および参照ピクチャに基づいてシンボルを作成する役割を果たす）、およびシンボルを再構成して（リモート）デコーダも作成することになるサンプルデータを作成するエンコーダ400に組み込まれた（ローカル）デコーダ406からなることができる（シンボルとコーディングされたビデオビットストリームとの間の任意の圧縮は、開示された主題で考慮されているビデオ圧縮技術では可逆的であるため）。その再構成されたサンプルストリームは、参照ピクチャメモリ405に入力される。シンボルストリームの復号は、デコーダの場所（ローカルまたはリモート）に関係なくビットイグザクト結果をもたらすため、参照ピクチャバッファ内容もまた、ローカルエンコーダとリモートエンコーダとの間でビットイグザクトである。換言すれば、エンコーダの予測部分は、復号中に予測を使用するときにデコーダが「見る」ことになるのとまったく同じサンプル値を参照ピクチャサンプルとして「見る」。参照ピクチャの同期性（および、例えばチャネル誤りのために同期性を維持できない場合に結果として生じるドリフト）のこの基本原理は、当業者には周知である。

図5は、HEVCおよびJEMで使用されるイントラ予測モードを例示する。自然なビデオに提示される任意のエッジ方向を捕捉するために、指向性イントラモードの数は、HEVCで使用される33から65に拡張される。HEVCの上のJEMにおける追加の指向性モードは、図5において点線矢印として図示されており、平面モードおよびDCモードは同じままである。これらのより高密度の指向性イントラ予測モードは、すべてのブロックサイズに、および輝度と彩度の両方のイントラ予測に適用される。図5に示すように、奇数イントラ予測モードインデックスに関連付けられた、点線矢印によって識別される指向性イントラ予測モードは、奇数イントラ予測モードと呼ばれる。偶数イントラ予測モードインデックスに関連付けられた、実線矢印で識別される指向性イントラ予測モードは、偶数イントラ予測モードと呼ばれる。本明細書では、図5の実線または点線矢印で示される指向性イントラ予測モードは角度モードとも呼ばれる。

S101において、データ121などの入力ビデオシーケンスX＝x₁，x₂，・・・を与えられると、顔検出および顔ランドマーク抽出モジュール122は、最初に、S102において、各ビデオフレームx_iから1つまたは複数の有効な顔を決定する。1つの実施形態では、最も目立つ（例えば、最も大きい）顔のみが検出され、別の実施形態では、条件を満たす（例えば、閾値を超える十分に大きいサイズを持つ）フレーム内のすべての顔が検出される。S103において、x_i内のj番目の顔について、顔ランドマークのセットが決定され、顔ランドマーク特徴f_l，i，jのセットがそれに応じて算出され、それは、x_i内のj番目の顔を復元するためにデコーダによって使用されることになる。S104において、すべての顔のすべての顔ランドマーク特徴がF_l，i＝f_l，i，1，f_l，i，2，・・・、データ124として組み立てられ、それは、ランドマーク特徴圧縮および送信モジュール126によって符号化および送信される。S105において、同時に、x_i内のj番目の顔について、元の検出された顔の境界領域（長方形、楕円、またはきめの細かいセグメンテーション境界）を拡張することによって拡張顔領域（EFA）を算出して、追加の髪、身体の部分、または背景さえも含めることができる。S106およびS107において、EFA特徴f_b，i，jのセットは、それに応じて算出することができ、x_i内のj番目の顔のEFAを復元するためにデコーダによって使用されることになる。S107において、すべての顔のすべてのEFA特徴がF_b，i＝f_b，i，1，f_b，i，2，・・・、データ125として組み立てられ、それは、EFA圧縮および送信モジュール127によって符号化および送信される。

例示的な実施形態によれば、顔検出および顔ランドマーク抽出モジュール122は、各ビデオフレームx_i内の顔領域を特定するために、人間の顔を特別なオブジェクトカテゴリとして扱うことによって任意のオブジェクト検出DNN、または人間の顔を特定するために特別に設計された他のDNNアーキテクチャなど、任意の顔検出器を使用することができる。顔検出および顔ランドマーク抽出モジュール122もまた、検出された顔ごとの予め決定された顔ランドマークのセット（例えば、左／右目、鼻、口などの周りのランドマーク）を特定するために、任意の顔ランドマーク検出器を使用することができる。いくつかの実施形態では、1つのマルチタスクDNNを使用して、顔および関連ランドマークを同時に特定することができる。顔ランドマーク特徴f_l，i，jは、顔ランドマーク検出器によって算出される、中間潜在表現とすることができ、j番目の顔のランドマークを特定するために直接使用される。中間潜在表現をさらに処理し、顔ランドマーク特徴f_l，i，jを算出するために追加のDNNを適用することもできる。例えば、顔部分、例えば、右目の周りの個別のランドマークに対応する特徴マップからの情報をその顔部分に関する共同特徴に集約することができる。同様に、EFA特徴f_b，i，jは、j番目の顔に対応する顔検出器によって算出される中間潜在表現とすることができる。例えば、実際の顔領域以外の背景領域を強調することによって、中間潜在表現に基づいてf_b，i，jを算出するために追加のDNNを使用することもできる。さまざまな例示的な実施形態は、顔検出器、顔ランドマーク検出器、顔ランドマーク特徴抽出器、またはEFA特徴抽出器特徴の方法またはDNNアーキテクチャに関して制限されない可能性がある。