JP2023551158A

JP2023551158A - 低帯域幅伝送における高精細度ビデオ（ＨｉｇｈＤｅｆｉｎｉｔｉｏｎＶｉｄｅｏ）のライブ・ストリーミングのための非顕著性圧縮を用いたビデオ・エンコード

Info

Publication number: JP2023551158A
Application number: JP2023530212A
Authority: JP
Inventors: アシフ、ウマル; メヘディ、レニン; タン、ジアンビン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-11-25
Filing date: 2021-10-19
Publication date: 2023-12-07
Also published as: CN116457819A; US20220167005A1; US11758182B2; US20240022759A1; WO2022111140A1; GB2616998A; DE112021006157T5

Abstract

低帯域幅伝送のためにビデオ・ストリームをエンコードする、コンピュータに実装された方法は、高解像度ビデオ・ストリーム内の顕著データおよび非顕著データを特定することを含む。顕著データと非顕著データとが区分される。非顕著データは、より低い解像度に圧縮される。顕著データおよび圧縮された非顕著データは、低帯域幅伝送において伝送される。

Description

本開示は、全般的に、ビデオの圧縮に関し、特に、低帯域幅伝送用途におけるビデオ増強（video enhancement）のための手法に関する。

インターネット上の高解像度ビデオ・データの量は、特によりパワフルなデバイスのコストが低下したこと、ならびにコンテンツを作成、閲覧、および伝送するためのアプリケーションが発達すると共に、爆発的に増加してきている。高解像度ビデオ・データを伝送する人々の数は１億人を超え、大きな帯域幅コストを必要としていると推定される。特に、同時にライブ・イベントを視聴するユーザの数がますます増加するのに伴い、良好なサービスを非常に多くのユーザに提供するための帯域幅コストが増大し続けている。

現在、帯域幅コストを削減しようと試行する中で、効率的なビデオ・コーデックに基づくデコード手法が作り出されている。例として、Ｈ．２６４などのビデオ符号化／デコード手法は、かなり多くの時間冗長性を有するビデオのビデオ・サイズを効果的に圧縮することができる。しかしながら、そのようなタイプのビデオ符号化／デコード手法には課題があり、圧縮－展開プロセス中に情報の欠落が生じてビデオの品質が低下する。そのようなタイプのビデオ符号化／デコード手法のもう１つの問題は、計算の複雑性である。そのようなビデオ符号化／デコード手法を実装するためにはパワフルなハードウェアが必要であり、このことが、モバイル電話などのデバイス上での実装に関し課題をもたらす。

帯域幅コストの課題に対処しようとする一部の試行には、アプリケーション・メタデータを使用したグラフィック・ユーザ・インターフェースの適応型ビデオ圧縮を含むものがある。ビデオ信号の構造的部分または意味的部分が、特定された画像領域の適応型符号化ユニットの対象とされる。このプロトコルもやはり、アプリケーション・メタデータの分析に従って複雑な展開およびスムージングを実行できるユーザ側デバイスを必要とする。

他の試行としては、事例参照型超解像を使用するビデオ圧縮のためのデータ・プルーニングが挙げられる。ビデオのパッチが入力ビデオから抽出され、クラスタリング法でグループ化され、代表的なパッチがパッチ・フレームに詰め込まれる。もとのビデオは縮小され、パッチ・フレームとともに、またはそれに加えて送信される。デコード側では、通常のビデオ・フレームが拡大され、低解像度のパッチがパッチ・ライブラリからのパッチにより置き換えられる。適切なパッチが利用可能である場合のみ置き換えが行われる。

ビデオ増強および伝送における課題に対処するために、人工知能（ＡＩ：ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）を使用する試行もされてきた。例として、ビデオ・ソース側にて高精細度ビデオのダウンサンプリングが実行され、低精細度ビデオが得られる。低精細度ビデオは、既存のビデオ符号化モードで圧縮されてから伝送され、ビデオ・トラフィックを大きく削減する。受信側では、５０％削減されたビデオ伝送帯域幅コストで、ユーザが低精細度ビデオを受信し、超解像度画像再構築方法に深層学習を応用することにより再構築して低精細度ビデオを高解像度ビデオに回復する。よって、ビデオ全体に対する圧縮および再構築は、顕著情報および非顕著情報の知識なしに実行される。

低帯域幅伝送用途におけるビデオの圧縮／エンコードおよび増強のための手法を開発する必要性が依然としてある。

一実施形態によれば、低帯域幅伝送のためにビデオ・ストリームをエンコードする、コンピュータに実装された方法は、高解像度ビデオ・ストリーム内の顕著データおよび非顕著データを特定するステップを含む。顕著データと非顕著データとが区分され、非顕著データは、より低い解像度に圧縮される。顕著データおよび圧縮された非顕著データは、低帯域幅伝送において伝送される。コンピュータに実装された方法は、有利には、非顕著データを圧縮する、複雑性がより低いプロセスを用いて、低帯域幅伝送において高解像度データを伝送することを可能にする。

一実施形態において、コンピュータに実装された方法は、非顕著データの圧縮を実行する前に非顕著データをエンコードするステップをさらに含む。エンコードは、データを低帯域幅での伝送に適したフォーマットにする。

一実施形態において、コンピュータに実装された方法は、顕著データおよび圧縮された非顕著データを伝送する前に非顕著データに比べてより低い圧縮比の顕著データをさらに含む。顕著データは、多くの場合、最も注意深く観られるデータであり、帯域幅の問題が理由でその高解像度形式で伝送されない場合は、非顕著データよりも弱い圧縮とすることで受信側での再構築を促進することができる。

一実施形態において、コンピュータに実装された方法は、機械学習モデルによりビデオ・ストリーム内の非顕著データおよび顕著データのうちの少なくとも一方を特定するステップをさらに含む。機械学習モデルの使用は、効率性の増大と、ドメイン知識を使用した顕著データおよび非顕著データの特定とをもたらす。

一実施形態において、機械学習モデルは敵対的生成ネットワーク（ＧＡＮ：ＧｅｎｅｒａｌＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）であり、コンピュータに実装された方法は、以前記録されたビデオ・ストリームから非顕著特徴のデータを用いて、非顕著データを特定することを実行するようＧＡＮ機械学習モデルを訓練するステップをさらに含む。ＧＡＮ機械学習モデルは、顕著データおよび非顕著データの正確な特定を実行する際に特に効果的である。

一実施形態において、コンピュータに実装された方法は、ビデオ・ストリームの顕著データおよび圧縮された非顕著データをユーザ・デバイスに伝送する前に、ＧＡＮ機械学習モデルをユーザ・デバイスに提供するステップをさらに含む。ユーザは、ＧＡＮモデルへのアクセスを得ることで、より低い解像度の非顕著データを高解像度の非顕著データに再構築する際、および顕著データと結合して高解像度ビデオを再構築するために、利点を有する。

一実施形態において、顕著データの特定は、ビデオ・ストリーム内のオブジェクトのドメイン固有特性を特定するステップを含む。特定のオブジェクトの特性は、顕著データを特定する速度および精度を増大させることができる。

一実施形態において、顕著データの特定は、顔認識またはオブジェクト認識のうちの１つ以上のためのドメイン固有人工知能（ＡＩ）モデルを適用するステップを含む。顔認識のためのＡＩモデルは、顕著データおよび非顕著データを特定する動作の効率性および速度を増大させる。

一実施形態において、ドメイン固有ＡＩモデルの適用は、ビデオ・ストリームの残りの情報を非顕著データとして特定するステップを含む。

一実施形態において、１つ以上のオブジェクトのそれぞれ異なるビューを有する複数のビデオ・ストリームが受信され、顕著データと非顕著データとの特定および区分は、伝送されるそれぞれ異なる少なくとも２つのビューに対して個別に実行される。異なるカメラ・ビューは、より大きな柔軟性をユーザ・ビューにもたらし、ビデオ・データの特定および区分を個別に実行することは、効率性および特定のビューの選択を増大させる。

或る実施形態において、複数の解像度フォーマットのビデオ・データをデコードするコンピュータに実装された方法は、顕著データおよび非顕著データを有するビデオ・ストリームを受信するステップを含む。顕著データは、非顕著データに比べてより高い解像度フォーマットである。再構築が、解像度フォーマットを増大させるために非顕著データに対して実行される。顕著データと、再構築された非顕著データとが、顕著データのより高い解像度フォーマットのビデオ・ストリームを形成するために再結合される。デコードは、受信された圧縮後の非顕著データが、高解像度ビデオにおいて顕著データと結合されるようにその解像度を増大されることを可能にする。

一実施形態において、コンピュータに実装された方法は、以前記録されたビデオ・ストリームに基づき非顕著特徴を特定するように訓練された敵対的生成ネットワーク（ＧＡＮ）機械学習モデルにアクセスするためのリンクまたはＧＡＮ機械学習モデルをロードするための実行可能コードのうちの１つ以上を受信するステップをさらに含む。非顕著データは、ＧＡＮ機械学習モデルを使用して、増大した解像度で再構築され、ＧＡＮ機械学習モデルは、高精細度解像度にビデオを再構築する際に増大した効率性を有する。

一実施形態において、受信されたビデオ・ストリームは、複数のビューポイントから捕捉された（captured）顕著データおよび非顕著データを含み、ＧＡＮ機械学習モデルは、複数のビューポイントに基づき顕著データを特定するように訓練される。非顕著データは、複数のビューポイントに対して訓練されたＧＡＮ機械学習モデルを使用して顕著データのより高い解像度に再構築される。複数のビューポイントを有することができることには利点が、特にスポーツ・イベントではあり、ＧＡＮ機械学習は、顕著データと非顕著データとを区別する効率性を増大させる。

一実施形態において、コンピュータに実装された方法は、それぞれのビューポイントごとに顕著データおよび非顕著データの複数の伝送を受信するステップと、選択に応答して表示される特定のビューポイントを再構築するステップとをさらに含む。異なるビューポイントの選択可能性は、データ視聴の増大した有用性を生み出す。

一実施形態において、コンピュータに実装された方法は、位置情報を１つ以上の登録済みユーザと共有するステップと、１つ以上の登録済みユーザにより捕捉された顕著データおよび非顕著データの選択可能なビューを受信するステップとをさらに含む。ユーザは、有利には、試合場、劇場などの中の種々のポジションからユーザ間でビューを共有できる。

実施形態において、低帯域幅伝送のためにビデオ・ストリームをエンコードするコンピューティング・デバイスは、プロセッサと、プロセッサに連結されたメモリとを含み、メモリは、ビデオ・ストリーム内の顕著データおよび非顕著データを特定することと、ビデオ・ストリームを顕著データと非顕著データとに区分することとを含む動作をプロセッサに実行させる命令を記憶する。非顕著データは、エンコードおよび圧縮され、顕著データおよび圧縮された非顕著データが伝送される。コンピュータ・デバイスは、有利には、複雑性がより低い動作を用いて非顕著データを圧縮し、低帯域幅伝送において高解像度データを伝送することを可能にする。処理能力および伝送に必要な帯域幅の節約が可能である。

一実施形態において、コンピューティング・デバイスは、メモリと通信する敵対的生成ネットワーク（ＧＡＮ）機械学習モデルを含み、命令は、少なくとも非顕著データの特定を実行するために以前記録されたビデオ・ストリームに基づく非顕著特徴の訓練データを用いてＧＡＮ機械学習モデルを訓練することを含む追加の動作をプロセッサに実行させる。ＧＡＮ機械学習モデルは、処理要件および能力要件が削減された、より効率的な動作を生み出す。

一実施形態において、コンピューティング・デバイスは顕著データの特定を含む追加の動作をプロセッサに実行させ、顔認識またはオブジェクト認識のうちの１つ以上のためのドメイン固有人工知能（ＡＩ）モデルを適用することを含む。顔認識またはオブジェクト認識におけるＡＩの使用は、顕著データおよび非顕著データの特定において増大した精度および効率性を提供する。

一実施形態において、コンピューティング・デバイスは、顕著データおよび非顕著データの異なるカメラ・ビューをそれぞれの受信デバイスに伝送することを含む追加の動作をプロセッサに実行させる追加の命令を含む。異なるカメラ・ビューは、捕捉されているイベントの異なるビューを提供することにより、関連する任意のユーザ・デバイスの効果を増大させる。

これらの特徴およびその他の特徴は、その例示の実施形態の以下の詳細な記載を添付の図面との関連で読むことで明らかになるであろう。

図面は、例示の実施形態のものである。図面は、すべての実施形態を示すものではない。他の実施形態が、追加で、または代わりに使用されてもよい。スペースを節約するため、またはより効果的な例示のために、明白または不必要であろう詳細事項が省略されていることがある。一部の実施形態は、追加のコンポーネントもしくはステップを用いて、もしくは示されているすべてのコンポーネントもしくはステップは用いずに、またはその両方で実施されてもよい。同じ数字が別々の図面に出てくる場合は、同じかまたは類似のコンポーネントまたはステップを指す。

例示の実施形態に従う、低帯域幅伝送のためにビデオ・ストリームをエンコードするシステムのアーキテクチャの概要を示す。例示の実施形態に従う、顕著データが特定される第１のスポーツ・イベントのビデオのデータ区分動作を示す。例示の実施形態に従う、顕著データが特定される第２のスポーツ・イベントのビデオのデータ区分動作を示す。例示の実施形態に従う、複数のビューポイントから顕著データを検出する動作を示す。例示の実施形態に従う、図４Ａにおいて検出された顕著データの複数のビューポイントのデコードおよび再構築を示す。例示の実施形態に従う、マルチビュー顕著性増強を含むユーザ側のデコードを示す。例示される実施形態に従う、低帯域幅伝送のためにビデオ・ストリームをエンコードする、コンピュータに実装された方法を示すフローチャートである。例示される実施形態に従う、低帯域幅伝送における高精細度ビデオのビデオ・ストリームをエンコードする、コンピュータに実装された方法のための機械学習モデルの使用を示すフローチャートである。例示の実施形態に従う、デコードおよび再構築のための動作を示すフローチャートである。例示の実施形態に従う、共同タスクを実行する際にエージェントと通信できるコンピュータ・ハードウェア・プラットフォームの機能ブロック図の例示である。例示の実施形態に従う、例示のクラウド・コンピューティング環境を示す。例示の実施形態に従う、クラウド・コンピューティング環境により提供される機能抽象化層のセットを示す。

概要
以下の詳細な説明では、関連する教示の完全な理解を提供するために、具体的な詳細が多数、例として記載される。なお、当然のことながら、本教示は、そうした詳細を用いずに実施されてもよい。他の場合には、本教示の側面を不必要にわかりにくくするのを避けるために、周知の方法、手順、コンポーネント、もしくは回路、またはそのいずれかの組み合わせは、詳細を伴わず、相対的に概略的に記載されている。

本開示において、「低帯域幅」という用語は、約２ｋｂｐｓでのワイヤレス通信（例えば１Ｇ）に対応する。「高帯域幅レンジ」は、１Ｇｂｐｓまでまたはそれ以上の有線／ワイヤレス通信（例えばＥｔｈｅｒｎｅｔまたは５Ｇ）に対応する。本願明細書におけるビデオ解像度への言及は、低解像度の場合はＱＶＧＡ（２４０×３２０ピクセル）、高解像度の場合は４Ｋ（３８４０×２１６０ピクセル）に対応する。

本開示のコンピュータに実装された方法およびデバイスは、特に、顕著データを圧縮せず、且つユーザ側で品質の損失を生じずに、低帯域幅伝送により高精細度ビデオ・データの顕著データの部分を伝送することによる、画像処理およびビデオ伝送の分野における改善を提供する。非顕著データを圧縮して、伝送される顕著データをその高精細度形式のままにすることにより、ビデオ・データの効率性と品質が高まる。本開示のシステムおよび方法は、複雑性がより低く、その結果、伝送のためにビデオ・ストリーム全体を圧縮するのと比較して電力使用量が削減され、必要とされる処理能力が低下する。ビデオ品質には、従来のビデオ・ストリーム全体の圧縮で生じるであろう形の損失が生じない。本開示の教示を使用すると、より少ないデータが圧縮および展開されるので、時間の節約も実現される。

例として、本開示の特定の例示の実施形態において、ドメイン固有情報（例えば顕著情報）は、エンド・ユーザに対する関連性が高く、したがって、そのもとの解像度に維持される。ビデオの他の情報は、圧縮され、伝送され、ユーザ側で再構築される。本開示は、ドメイン知識なしにパッチを抽出して当該のパッチをビデオのアップサンプリングに使用する方法に比べた改善である。

アーキテクチャの例
図１は、例示の実施形態に従う、低帯域幅伝送のためにビデオ・ストリームをエンコードするシステムのアーキテクチャの概要１００を示す。

図１は、本開示による、低帯域幅伝送のために高精細度データをエンコードするサーバ側１０５を示す。高精細度ビデオ捕捉１１０は、典型的にはカメラだが、イベントが以前記録されていれば、捕捉されたビデオは、ストレージ・デバイスまたはビデオ・プレーヤにより提供されることが可能であろう。１１５にて、データを顕著データ１２０と非顕著データ１２５とに区分するデータ区分が発生する。顕著データは、関心対象のオブジェクト、またはユーザがマークした関心対象の領域など、ドメイン関連データを含むことができる。顕著データはさらに、動いているオブジェクトであってもよい。例として、サッカー競技では、少なくとも選手およびボールが顕著データとみなされると考えられ、それに対して、観客および試合場は非顕著データとみなされると考えられる。非顕著データは、限定はされないが、例えばビデオ・フレーム内の静的情報、観客シーン、背景など、重要性の低いデータである。エンコーダ１３０は、非顕著データに対してエンコードおよび圧縮を実行するように構成されている。

その結果、エンコードおよび圧縮された非顕著データは、特に圧縮プロセスが理由で、今度は低解像度非顕著データとなる。一方、この例示の実施形態における顕著データは、高解像度顕著データの形式のままとなる。よって、顕著データには、データが圧縮されると発生する可能性がある圧縮損失が生じず、視聴者は典型的には顕著データを観て背景データには焦点を合わせないことが多いので、知覚されるビデオ品質は高いままとなる。非顕著データを圧縮することによる削減は、低帯域幅ストリーミングを使用してビデオを伝送するのに十分である。さらに多くの場合、（図２および図３に示されているように）非顕著データは視野の大部分を占める傾向があり、図１に示されているものなどの本開示のサーバによるエンコードおよび圧縮は、低帯域幅ストリーミングにより高精細度ビデオを伝送する効率的な形を提供する。本願明細書で上述されたサーバ側のエンコードおよび圧縮は、従来の高精細度ビデオの圧縮に必要な大量の計算リソースを要求しない。

さらに図１を参照すると、ユーザ側１５５は、低帯域幅伝送１４０を受信し、デコードおよび再構築を実行する。単一のカメラ１６０を用いて捕捉された単一ビューの伝送において、ユーザ側デバイスは、ビデオ・ストリームをより低い解像度フォーマットの非顕著データおよびより高い解像度フォーマットの顕著データ（顕著データは伝送のためにエンコードされたが圧縮されていないと仮定）にデコードすることになる。非顕著データは、顕著データのより高い解像度フォーマットに再構築される。顕著データと、再構築された非顕著データとが、顕著データのより高い解像度フォーマットのビデオ・ストリーム１８５を形成するために結合され、それが出力される。

特定の例示の実施形態において、人工知能（ＡＩ）は、サーバ側もしくはユーザ側またはその両方で役割を有する。サーバ側では、顕著データおよび非顕著データを特定（例えばデータ区分）するために機械学習モデルが訓練される。機械学習モデルは、非顕著情報の以前記録されたビデオ／画像を用いて訓練可能である。例として、サッカー競技がストリーミングされる場合、観客、試合場、グラウンドなどの以前の記録を、顕著データを特定するよう機械学習モデルを訓練するだけでなく、捕捉されたどのビデオ・データが非顕著データなのかについて機械学習モデルを訓練するために使用可能である。顕著データを検出する１つの形は、動きを検出することによる。例として、サッカー競技では、選手、サッカー・ボール、および審判が通常は動いている。

顕著データは、ドメイン固有特性（例えばサッカー競技に出ている選手）に対応し、これはユーザ・インターフェース（例えばビデオでのハイライト／アノテーション）を介してシステムに提供されることが可能であり、または顔／オブジェクト認識のためのドメイン固有ＡＩモデルを介して自動検出されることが可能である。ビデオ内の残りの情報は、非顕著または背景とみなされる。具体的にはサーバ側で、敵対的生成ネットワーク（ＧＡＮ）の機械学習モデルが、非顕著特徴（例えば試合場の観客）を検出するよう訓練される。

さらにユーザ側１５５に関し、例示の実施形態では、ユーザがシステムに登録するとシステムは、非顕著特徴を後で再構築できるように、訓練されたモデル（ＧＡＮ）をユーザに送信する。ユーザ側１５５には、ＧＡＮを受信して動作させるためのストレージ・スペースまたは処理能力がないかもしれないので、ユーザがＧＡＮにアクセスできる別の形は、リンクを用いることである。

引き続き図１を参照すると、複数のカメラ１６０を、深層学習１７０のプロセスに関連するマルチビュー顕著性増強１６５のために使用可能であることが示されている。マルチビュー顕著性増強１６５は、複数のビューポイントの顕著情報を結合し、顕著データの画像品質を改善するようＡＩモデル（深層学習モデル１７０）を訓練することにより生じる。さらに、カメラ１８０の複数のビューポイントから収集されたデータが、低解像度から高解像度への画像の再構築を改善するように深層学習モデル１７０を訓練するために結合されることも可能である。

図２は、例示の実施形態に従う、顕著データが特定される第１のスポーツ・イベントのビデオのデータ区分動作２００を示す。図２は、サッカー競技の画像２０５を示し、理解を容易にするために選手２１５が丸で囲まれている。この事例において、選手は顕著データであり、背景の観客２２５および試合場（ならびにすべての旗および看板）は非顕著データである。ウォッシュアウト画像２５５に示されているように、顕著データ２６０がデータ区分のために特定される。図１の記載に従い、顕著データは、その高精細度フォーマットでの伝送のために抽出され、それに対して背景データは、エンコードおよび圧縮にかけられる。顕著データおよび非顕著データは、低帯域幅伝送を介して１つ以上のユーザ・デバイスに伝送される。ここで、非顕著データ２２５は、選手２１５（顕著データ）と比較して画像の大部分であることがわかり、したがって、非顕著データのエンコードおよび圧縮は、画像のデータ・サイズの大幅な削減をもたらす。

図３は、例示の実施形態に従う、顕著データが特定される第２のスポーツ・イベントのビデオのデータ区分動作３００を示す。図３は、テニス競技を３０５に示し、二人の選手３１５が丸で囲まれている。ウォッシュアウト・ビュー３５５において、二人の選手はフォーマットを変更した伝送のために抽出された顕著データであり、それに対して、画像の残りの部分は非顕著データ３６５である。非顕著データは、低伝送帯域幅での伝送のためにエンコードおよび圧縮される。

図４Ａは、例示の実施形態に従う、複数のビューポイント４００Ａから顕著データを検出する動作を示す。第１のビューポイント（viewpoint）４０５、第２のビューポイント４１０、および第３のビューポイント４１５の３つのビューポイントがあることが示されている。第１のビューポイント４０５は、第２のビューポイント４１０に対して約４５度の角度で見え、第３のビューポイント４１５は、第２のビューポイント４１０に対して約９０度の角度で見える。それぞれのカメラ４０６、４０７、４０８が、各々ビューポイント４０５、４１０、４１５を捕捉した。各ビューポイントの顕著データが丸で囲まれている。下の４３５、４４５、および４５０にあるのは、圧縮される非顕著データである。

図４Ｂは、例示の実施形態に従う、図４Ａにおいて検出された顕著データの複数のビューポイントの、ユーザ側のデコードおよび再構築４００Ｂを示す。顕著ポイント４５５が図４Ｂに示されている。顕著データ４５５（図４Ｂの例の６つのオブジェクト）の量は、図４Ａに示されたのと同じであることがわかる。マルチビュー顕著性増強は、顕著データを用いてＡＩモデル（例えば深層学習４６０）を訓練することにより生じ、オブジェクトの異なるビュー４６５が出力されることが示されている。図４Ｂはさらに、マルチビュー背景再構築のために深層学習４６０がどのように使用されるかを示す。ビュー４７０、４７５、４８０が深層学習４６０に入力され、結果として生じる、再構築に基づく画像４８５が示されている。

図５は、例示の実施形態に従う、マルチビュー顕著性増強を含むユーザ側のデコードを示す。図５は、複数のカメラ・ビューの伝送および共有のために構成された例示の実施形態である。サーバ５０５ならびに３つのユーザ側デバイス５１０、５１５、および５２０が示されている。当然のことながら、ユーザ側デバイス５１０、５１５、５２０の数は、示されているよりも多くすること、または少なくすることができる。ユーザ側デバイスは、同じイベント中に異なる位置にあってもよい。各ユーザ側デバイス５１０、５１５、５２０は、サーバ５０５とも、相互にも通信することができる。この例示の実施形態において、ユーザ側デバイス５１０、５１５、５２０は、Ｗｉ－Ｆｉ（登録商標）またはＢｌｕｅｔｏｏｔｈ（登録商標）を使用して相互に通信し、セルラ（４Ｇ）を使用してサーバ５０５と通信することができる。図５においてサーバ５０５は、１つ以上のビューを各ユーザに送信し、ユーザ側デバイスは、ビデオの再構築を改善するために複数のビューをローカルで共有する。複数のカメラ・ビューポイントから収集されたデータを、低解像度から高解像度への非顕著画像の再構築を改善するようにＡＩモデルを訓練するために、結合可能である。さらに、異なるカメラ・ビューポイントからの顕著情報を結合し、顕著データの画像品質を改善するようにＡＩモデルを訓練することにより、顕著画像はその品質を改善されることが可能である。

ユーザ側デバイス５１０、５１５、および５２０は、相互に発見して、ネゴシエーションを通して高帯域幅ネットワークにおいて利用可能なチャンネルを確立することができる（例えばＷｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標））。さらにユーザ側デバイスは、任意のビューを表示することができ、例えば、或る位置に地理的に近接しているユーザは、他のユーザ側デバイスの任意のカメラを選んで任意の所望のビューを楽しむことができる。サーバは、ユーザの移動性およびネットワーク帯域幅の利用可能性に基づきユーザ・グループを動的に作成してもよい。

プロセスの例
アーキテクチャの例の概要を前述したが、以下ではプロセスの例の概略的な説明を検討することが役に立つであろう。その目的で、図１～図５に関連して、図６、図７、および図８はフローチャート６００、７００、および８００を示し、例示の実施形態に従う、コンピュータに実装された方法の様々な側面を示す。プロセス６００、７００、および８００は各々論理的な順序のブロックの集合として示されており、ハードウェア、ソフトウェア、またはその組み合わせにおいて実装可能な一連の動作を表現する。ソフトウェアの文脈では、各ブロックは、１つ以上のプロセッサにより実行されると記載された動作を実行するコンピュータ実行可能命令を表現する。一般に、コンピュータ実行可能命令は、関数を実行するかまたは抽象データ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造、および同様のものを含んでもよい。各プロセスにおいて、動作が記載される順序は、限定として解釈されるよう意図されてはおらず、記載された任意の数のブロックが、任意の順序で結合されること、もしくはプロセスを実装するために並列実行されること、またはその両方が可能である。

図６は、例示される実施形態に従う、低帯域幅伝送のためにビデオ・ストリームをエンコードする、コンピュータに実装された方法を示すフローチャート６００である。動作６０５にて、顕著データが高解像度ビデオ・ストリームにおいて特定される。図１、図２、および図３に示されているように、高解像度ビデオは、スポーツ・イベント、音楽イベントなどを含むが、限定はされない。

動作６１０にて、顕著データと非顕著データとのデータ区分が実行される。ＡＩモデルを、顕著データを構成する画像内のオブジェクトを特定するために使用可能である。非限定的な例として、顕著データは、図２および図３に関して説明された人々、場所、オブジェクトなどとすることができるであろう。

動作６１５にて非顕著データは、エンコードされ、捕捉された高解像度ビデオにおけるのに比べてより低い解像度に圧縮される。顕著データは圧縮されず、エンコードされてもよい。極めて低帯域幅のシナリオ（例えば約２ｋｂｐｓ未満の帯域幅でのワイヤレス通信を使用する、人々または車両のリモート・ビデオ監視）では、顕著データも圧縮可能であると考えられるが、非顕著データに比べてより低い圧縮比とする。圧縮は画像品質に影響する可能性があり、それが、この例示の実施形態において非顕著データは圧縮されるが顕著データは圧縮されない理由である。

６２０にて、圧縮された非顕著データおよび顕著データがユーザ・デバイスに伝送される。図１も、サーバ側プロセスの例の概要を示している。

図７は、例示される実施形態に従う、低帯域幅伝送における高精細度ビデオのビデオ・ストリームをエンコードする、コンピュータに実装された方法のための機械学習モデルの使用を示すフローチャートである。

動作７０５にて、敵対的生成ネットワーク（ＧＡＮ）機械学習モデルが、以前記録された非顕著特徴のデータを用いて、非顕著情報の特定を支援するように訓練される。非顕著情報は、背景情報もしくは静的情報またはその両方を含んでもよい。

動作７１０にて、顔認識またはオブジェクト認識のうちの１つ以上のためのドメイン固有機械学習モデルが、顕著データを特定するためにビデオ・データに適用される。顔認識は、例として、テニス競技のテニス選手を特定するために使用可能である。オブジェクト認識は、テニス・ラケットおよびテニス・ボールとすることができる。

動作７２０にて、ビデオ・ストリーム内の非顕著データおよび顕著データのうちの一方が、それぞれの機械学習モデルの動作により特定される。非顕著データは、エンコードおよび圧縮されることが可能であり、顕著データは、伝送に向けて準備されることが可能である。

図８は、例示の実施形態に従う、デコードおよび再構築のための動作を示すフローチャートである。

動作８０５にて、ユーザ・デバイス（図１参照）は、高解像度フォーマットの顕著データおよび低解像度フォーマットの非顕著データを含むビデオ・データ・ストリームを受信する。

動作８１０にて、ビデオ・ストリームがデコードおよび展開され、ビデオ・データが非顕著データと顕著データとに区分される。ＧＡＮモデルなどのＡＩモデルまたは深層学習が、データを特定および区分するために使用されてもよい。

動作８１５にて、非顕著データが顕著データのより高い解像度フォーマットに再構築される。この場合もやはり、ユーザ側デバイスは、深層学習またはＧＡＮを使用してこのプロセスを支援してもよい。再構築を支援するために深層学習モデルにより使用可能な複数のカメラ・ビューがあってもよく、またはなくてもよい。

動作８２０にて、顕著データのより高い解像度フォーマットのビデオ・ストリームを形成するために、顕著データと再構築された非顕著データとが再結合される。このように、非顕著情報がエンコードおよび圧縮されるため、高精細度の顕著ビデオ・データは圧縮されることなく低帯域幅を使用してユーザ側により受信可能である。

図９は、コンピュータ・ハードウェア・プラットフォームの機能ブロック図の例示９００を示す。具体的には図９は、図６、図７、および図８に示された方法を実装するために使用され得る、特別に構成されたネットワークまたはホスト・コンピュータ・プラットフォーム９００を示す。

コンピュータ・プラットフォーム９００は、システム・バス９０２に接続されている、中央処理ユニット（ＣＰＵ：ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）９０４、ハード・ディスク・ドライブ（ＨＤＤ：ｈａｒｄｄｉｓｋｄｒｉｖｅ）９０６、ランダム・アクセス・メモリ（ＲＡＭ：ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）もしくは読み取り専用メモリ（ＲＯＭ：ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ）またはその両方９０８、キーボード９１０、マウス９１２、ディスプレイ９１４、ならびに通信インターフェース９１６を含んでもよい。ＨＤＤ９０６は、データ・ストアを含むことができる。

一実施形態において、ＨＤＤ９０６はプログラムを記憶することを含む能力を有し、そのプログラムは、本願明細書において上述された形で、説明のように、低帯域幅伝送のためのエンコード・モジュール９２０などの様々なプロセスを実行でき、全般的なプロセスを管理するように構成されている。

データ区分モジュール９２５は、高解像度ビデオ内の特定された顕著データと非顕著データとを区分するように構成される。データ区分モジュールは、敵対的生成ネットワーク（ＧＡＮ）機械学習モデルなどの機械学習モデルを含むことができる。

圧縮モジュール９３０は、顕著データとともに伝送するために特定された非顕著データを圧縮する。顕著データは、その高解像度形式のままであってもよく、顕著データおよび非顕著データの両方をともに１つ以上のユーザに伝送可能である。非顕著データの圧縮は、非顕著データの解像度をより低い解像度に削減する。顕著データに比べて著しく多くの非顕著データがあることは多いので、非顕著データのみを圧縮することで、低帯域幅伝送が生じることができるようにビデオ・データのサイズが削減される。ただし、顕著データも、同じ圧縮比または非顕著データに比べてより低い圧縮比で、圧縮モジュール９３０により圧縮されてもよい。

機械学習モデル（ＭＬＭ：ｍａｃｈｉｎｅｌｅａｒｎｉｎｇｍｏｄｅｌ）モジュール９３５は、顕著データおよび非顕著データのうちの１つ以上を特定するように構成される。本開示は、本願明細書において上述のとおり、様々なタイプの機械学習モジュールに応用可能であるが、例示の実施形態に従い敵対的生成ネットワーク（ＧＡＮ）機械学習モデルが使用される。ＭＬＭモジュール９３５の訓練は、ビデオ・ストリームに似た非顕著データがある、以前記録されたシーンの訓練データ９４５を用いて実行可能である。例として、ライブ・スポーツ・イベントのストリーミングにおいて、サッカー競技、バスケットボールの試合、テニス競技での観客の以前の画像を、機械学習モデルを訓練するために使用可能である。例としてテニス競技では、顕著データは、少なくとも二人の選手およびそのラケット、テニス・ボール、および場合によってはネットとなるであろう。残りは、低帯域幅伝送における伝送のためより低い解像度に圧縮可能な非顕著データとすることができる。当然のことながら、深層学習などの他のタイプの機械学習も、受信された画像のストリームをユーザ側でもとの高解像度に再構築するために使用可能である。

デコード９４０は、より低い解像度フォーマットの非顕著データおよびより高い解像度フォーマットの顕著データにビデオ・ストリームをデコードするように構成される。

再構築モジュール９５０は、顕著データのより高い解像度フォーマットに非顕著データを再構築し、顕著データと再構築された非顕著データとを結合して、顕著データのより高い解像度フォーマットのビデオ・ストリームを形成するように構成されている。非顕著データを顕著データのより高い解像度に再構築し、再構築された非顕著データを顕著データと結合するために、機械学習が例示の実施形態において使用される。複数のカメラ・ビューのケースでは、それぞれのビューポイントごとに顕著データおよび非顕著データの複数の伝送が受信される。デコード後、再構築モジュール９５０は、表示のために特定のビューポイントまたは複数のビューポイントを再構築する。特定のビューポイントの構築は、選択に応答して実行されてもよい。ビューポイントは、再構築後に表示されなくてもよく、将来の選択のために記憶されてもよい。

クラウド・プラットフォームの例
上述のとおり、高精細度ビデオ・データの低帯域幅伝送に関する機能は、クラウドを含んでもよい。当然のことながら、本開示は、本願明細書において後述されるとおりクラウド・コンピューティングの詳細な記載を含むものの、本願明細書に記載される教示の実装はクラウド・コンピューティング環境に限定されない。むしろ、本開示の実施形態は、現在周知の、または後に開発される、ほかの任意のタイプのコンピューティング環境に関連して実装することができる。

クラウド・コンピューティングは、最小限の管理作業またはサービスのプロバイダとの対話で迅速にプロビジョニングおよびリリースできる構成可能なコンピューティング・リソース（例えばネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス）の共有プールに対する、オンデマンドの便利なネットワーク・アクセスを実現する、サービス提供のモデルである。このクラウド・モデルは、少なくとも５つの特性と、少なくとも３つのサービス・モデルと、少なくとも４つのデプロイ・モデルとを含み得る。

特性は以下のとおりである。
オンデマンド・セルフサービス：クラウド消費者は、サーバ時間およびネットワーク・ストレージなどのコンピューティング能力を、必要に応じて自動的に、サービスのプロバイダとの人的対話の必要なく一方的にプロビジョニングできる。

広範なネットワーク・アクセス：各能力はネットワーク上で利用可能であり、異種のシン・クライアント・プラットフォームまたはシック・クライアント・プラットフォーム（例えばモバイル電話、ラップトップ、およびＰＤＡ（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ：携帯情報端末））による使用を促進する標準のメカニズムを通してアクセスされる。

リソース・プーリング：プロバイダのコンピューティング・リソースは、マルチ・テナント・モデルを使用して複数の消費者にサービスを提供するようプールされ、種々の物理リソースおよび仮想リソースが需要に応じて動的に割り当ておよび再割り当てされる。一般に、消費者は、提供されるリソースの正確な位置についての制御権または知識を有しないという点で、非位置依存の感覚があるが、より高い抽象化レベルでは位置（例えば国、州、またはデータセンター）を指定できることもある。

迅速な伸縮性：各能力は、一部のケースでは自動的に、迅速且つ伸縮自在にプロビジョニングされ素早くスケール・アウトすること、および迅速にリリースされ素早くスケール・インすることができる。多くの場合、消費者には、プロビジョニングに利用可能な各能力は無制限であるように見え、任意の量をいつでも購入できる。

測定されるサービス：クラウド・システムは、サービスのタイプに適した或る抽象化レベル（例えばストレージ、処理、帯域幅、およびアクティブなユーザ・アカウント）での計測能力を活用することによって、リソースの使用を自動的に制御および最適化する。リソース使用量は、監視、制御、およびレポート可能であり、利用されるサービスのプロバイダおよび消費者の双方に透明性が提供される。

サービス・モデルは以下のとおりである。
ソフトウェア・アズ・ア・サービス（ＳａａＳ：ＳｏｆｔｗａｒｅａｓａＳｅｒｖｉｃｅ）：消費者に提供される能力は、クラウド・インフラストラクチャ上で実行されているプロバイダのアプリケーションの使用である。アプリケーションは、ウェブ・ブラウザなどのシン・クライアント・インターフェース（例えばウェブ・ベースの電子メール）を通して様々なクライアント・デバイスからアクセス可能である。消費者は、ネットワーク、サーバ、オペレーティング・システム、ストレージを含む基礎をなすクラウド・インフラストラクチャも、個別のアプリケーションの能力さえも、管理または制御しないが、限定的なユーザ別のアプリケーション構成設定は例外とされることもある。

プラットフォーム・アズ・ア・サービス（ＰａａＳ：ＰｌａｔｆｏｒｍａｓａＳｅｒｖｉｃｅ）：消費者に提供される能力は、プロバイダによってサポートされるプログラミング言語およびツールを使用して作成された、消費者が作成または入手したアプリケーションの、クラウド・インフラストラクチャ上へのデプロイである。消費者は、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む基礎をなすクラウド・インフラストラクチャの管理または制御は行わないが、デプロイされたアプリケーション、さらに場合によってはアプリケーション・ホスティング環境の構成を制御する。

インフラストラクチャ・アズ・ア・サービス（ＩａａＳ：ＩｎｆｒａｓｔｒｕｃｔｕｒｅａｓａＳｅｒｖｉｃｅ）：消費者に提供される能力は、処理、ストレージ、ネットワーク、およびその他基本的なコンピューティング・リソースのプロビジョニングであり、消費者はそこで、オペレーティング・システムおよびアプリケーションを含み得る任意のソフトウェアをデプロイし実行することができる。消費者は、基礎をなすクラウド・インフラストラクチャの管理または制御は行わないが、オペレーティング・システム、ストレージ、デプロイされたアプリケーションを制御し、場合によっては、選ばれたネットワーキング・コンポーネント（例えばホスト・ファイアウォール）を限定的に制御する。

デプロイ・モデルは以下のとおりである。
プライベート・クラウド：クラウド・インフラストラクチャは、１つの組織のみのために運用される。組織またはサード・パーティによって管理可能であり、構内または構外に存在し得る。

コミュニティ・クラウド：クラウド・インフラストラクチャは、いくつかの組織によって共有され、共有される関心事（例えばミッション、セキュリティ要件、ポリシ、およびコンプライアンス意識）を有する特定のコミュニティをサポートする。組織またはサード・パーティによって管理可能であり、構内または構外に存在し得る。

パブリック・クラウド：クラウド・インフラストラクチャは、公衆または大規模業界団体に利用可能にされ、クラウド・サービスを販売する組織によって所有される。

ハイブリッド・クラウド：クラウド・インフラストラクチャは、２つ以上のクラウド（プライベート、コミュニティ、またはパブリック）の複合であり、各クラウドは一意のエンティティのままであるが、データおよびアプリケーションの移植性（例えばクラウド間のロード・バランシングのためのクラウド・バースト）を実現する標準または専有技術によってバインドされる。

クラウド・コンピューティング環境は、サービス指向であり、ステートレス性、疎結合性、モジュール性、および意味的相互運用性に焦点を合わせる。クラウド・コンピューティングの中心には、相互接続されたノードのネットワークを含むインフラストラクチャがある。

以下、図１０を参照すると、クラウド・コンピューティングを利用する例示のクラウド・コンピューティング環境１０００が示されている。図のように、クラウド・コンピューティング環境１０００は、１つ以上のクラウド・コンピューティング・ノード１０１０を有するクラウド１０５０を含み、例えば携帯情報端末（ＰＤＡ）または携帯電話１０５４Ａ、デスクトップ・コンピュータ１０５４Ｂ、ラップトップ・コンピュータ１０５４Ｃ、もしくは自動車用コンピュータ・システム１０５４Ｎ、またはそのいずれかの組み合わせなど、クラウド消費者により使用されるローカル・コンピューティング・デバイスが、クラウド・コンピューティング・ノード１０１０と通信できる。ノード１０１０は、相互に通信してもよい。ノード１０１０は、上述のプライベート・クラウド、コミュニティ・クラウド、パブリック・クラウド、もしくはハイブリッド・クラウド、またはその組み合わせなどの１つ以上のネットワークにおいて物理的または仮想的にグループ化され得る（図示せず）。これにより、クラウド・コンピューティング環境１０００は、インフラストラクチャ、プラットフォーム、もしくはソフトウェア、またはそのいずれかの組み合わせをサービスとして提供することができ、それらのためにクラウド消費者がローカル・コンピューティング・デバイス上にリソースを保持する必要はない。当然のことながら、図１０に示されているコンピューティング・デバイス１０５４Ａ～Ｎのタイプは、例示のみを意図しており、コンピューティング・ノード１０１０およびクラウド・コンピューティング環境１０５０は、任意のタイプのネットワークもしくはネットワーク・アドレス指定可能な接続（例えばウェブ・ブラウザを使用）またはその両方によって任意のタイプのコンピュータ化デバイスと通信できる。

以下、図１１を参照すると、クラウド・コンピューティング環境１０００（図１０）により提供される機能抽象化層１１００のセットが示されている。図１１に示されているコンポーネント、層、および機能は、例示のみを意図しており、本開示の実施形態はそれに限定されないことをあらかじめ理解されたい。示されているように、以下の層および対応する機能が提供される。

ハードウェアおよびソフトウェア層１１６０は、ハードウェア・コンポーネントおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例には、メインフレーム１１６１、ＲＩＳＣ（ＲｅｄｕｃｅｄＩｎｓｔｒｕｃｔｉｏｎＳｅｔＣｏｍｐｕｔｅｒ（縮小命令セット・コンピュータ））アーキテクチャ・ベースのサーバ１１６２、サーバ１１６３、ブレード・サーバ１１６４、ストレージ・デバイス１１６５、ならびにネットワークおよびネットワーキング・コンポーネント１１６６が含まれる。一部の実施形態において、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア１１６７およびデータベース・ソフトウェア１１６８を含む。

仮想化層１１７０は、仮想サーバ１１７１、仮想ストレージ１１７２、仮想プライベート・ネットワークを含む仮想ネットワーク１１７３、仮想アプリケーションおよびオペレーティング・システム１１７４、ならびに仮想クライアント１１７５を例とする仮想エンティティが提供され得る、抽象化層を提供する。

一例において、管理層１１８０は、後述の機能を提供してもよい。リソース・プロビジョニング１１８１は、クラウド・コンピューティング環境内でタスクを実行するために利用されるコンピューティング・リソースおよびその他のリソースの動的な調達を提供する。計測および価格決定１１８２は、クラウド・コンピューティング環境内でリソースが利用されるときのコストの追跡と、こうしたリソースの消費に対する請求またはインボイスの作成とを提供する。一例において、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを含んでもよい。セキュリティは、クラウド消費者およびタスクのアイデンティティ確認、ならびにデータおよびその他のリソースの保護を提供する。ユーザ・ポータル１１８３は、消費者およびシステム管理者に、クラウド・コンピューティング環境に対するアクセスを提供する。サービス・レベル管理１１８４は、必要なサービス・レベルが満たされるようにクラウド・コンピューティング・リソースの割り当ておよび管理を提供する。サービス・レベル合意（ＳＬＡ：ＳｅｒｖｉｃｅＬｅｖｅｌＡｇｒｅｅｍｅｎｔ）計画および達成１１８５は、ＳＬＡに従い将来の要求が予想されるクラウド・コンピューティング・リソースの事前準備および調達を提供する。

ワークロード層１１９０は、クラウド・コンピューティング環境が利用される目的となり得る機能性の例を提供する。この層から提供され得るワークロードおよび機能の例は、マッピングおよびナビゲーション１１９１、ソフトウェア開発およびライフサイクル管理１１９２、仮想教室教育配信１１９３、データ解析処理１１９４、トランザクション処理１１９５、ならびに本願明細書において説明されたとおり顕著データおよび非顕著データを特定し低帯域幅伝送のために高解像度ビデオをエンコードするように構成された、データ特定およびエンコード・モジュール１１９６を含む。

結論
本教示の様々な実施形態の記載は、例示のために示されたものであるが、包括的であることも、開示された実施形態に限定されることも意図していない。当業者には、記載された実施形態の範囲から逸脱することのない多数の変更および変形が明らかであろう。本願明細書で使用された用語は、実施形態の原理、実際の応用、もしくは市場にある技術に比べた技術的改善を最もよく説明するよう、または当業者が本願明細書に開示された実施形態を理解できるよう選ばれた。

前述のものは、最良の状態もしくはその他の例、またはその両方とみなされるものを記載しているが、当然のことながら、そこには様々な変更が加えられてもよく、本願明細書において開示された主題は様々な形態および例において実装されてもよく、本教示は多数の用途に応用されてもよく、その一部のみが本願明細書には記載された。添付の特許請求の範囲により、本教示の真の範囲内に入るあらゆる応用、変更、および変形を特許請求することが意図されている。

本願明細書において説明されたコンポーネント、ステップ、特徴、目的、メリット、および利点は、単なる例である。それら、またはそれらに関する説明のいずれも、保護の範囲を限定するよう意図されてはいない。本願明細書において様々な利点が説明されたが、当然のことながら、すべての実施形態が必ずしもすべての利点を含むとは限らない。別段の記載がない限り、添付の特許請求の範囲を含め、本明細書に記載されているすべての測定値、値、評価、ポジション、規模、サイズ、およびその他明細はおおよそであり、厳密なものではない。それらは、関係する機能、および関連する技術において通例のものに従う、合理的な範囲を有するものとする。

その他多数の実施形態も意図されている。これらは、より少数の、追加の、もしくは異なる、またはそのいずれかの組み合わせのコンポーネント、ステップ、特徴、目的、メリット、および利点を有する実施形態を含む。これらはさらに、コンポーネントもしくはステップまたはその両方が別様に配置もしくは順序づけまたはその両方をされた実施形態を含む。

フローチャート、および本願明細書の各図面の図は、本開示の様々な実施形態による考えられる実装のアーキテクチャ、機能性、および動作を示す。

前述の事項は、例示的実施形態に関連して記載されたが、当然のことながら、「ｅｘｅｍｐｌａｒｙ（例示的）」という用語は、最良または最適ではなく単なる例として意図されている。直前に記載した以外の記載または例示事項のいずれも、特許請求の範囲にそれが列挙されているかどうかにかかわらず、いずれのコンポーネント、ステップ、特徴、目的、メリット、利点、または等価物の公衆への提供も生じるよう意図されてはおらず、そのように解釈されてもならない。

当然のことながら、本願明細書で使用される用語および表現は、本願明細書に別途特定の意味が記載されている場合を除き、かかる用語および表現の対応するそれぞれの調査および研究分野に関してその用語および表現に与えられる通常の意味を有する。第１および第２および同様のものなどの関係語は、１つのエンティティまたはアクションを別のものから区別するためだけに使用されることもあり、必ずしもそのようなエンティティまたはアクション間に何かそうした実際の関係または順序があることを要求または示唆するものではない。「ｃｏｍｐｒｉｓｅｓ（含む）」、「ｃｏｍｐｒｉｓｉｎｇ（含んでいる）」という用語、またはこのほかその任意の変形は、非排他的な包含を対象とするものとし、構成要素のリストを含むプロセス、方法、物品、または装置は、当該の構成要素のみを含むのではなく、明示的に列挙されていない、またはかかるプロセス、方法、物品、もしくは装置に固有でないほかの構成要素を含んでもよい。「ａ（或る）」または「ａｎ（或る）」が前につく構成要素は、さらなる制約なしに、その構成要素を含むプロセス、方法、物品、または装置内に同一の構成要素が追加で存在することを排除しない。

読者が技術的な開示の性質を迅速に確認できるように、本開示の要約が提供される。これは、特許請求の範囲に記載の範囲または意味を解釈または限定するために使用されないという理解のもとで提示される。さらに、前述の発明を実施するための形態において、本開示を簡素化する目的で様々な実施形態において様々な特徴がグループ化されていることがわかる。開示のこの方法は、特許請求される実施形態が各請求項に明示的に記載されるよりも多くの特徴を有するとの意図を反映したものであるとは解釈されてはならない。むしろ、添付の特許請求の範囲が示すように、本発明の主題は開示された単一の実施形態のすべての特徴より少ない特徴にある。よって、以下の特許請求の範囲は、これにより発明を実施するための形態に組み込まれ、各請求項は別々に特許請求される主題として自立している。

Claims

低帯域幅伝送における高精細度ビデオのビデオ・ストリームをエンコードする、コンピュータに実装された方法であって、前記方法は、
高解像度ビデオ・ストリーム内の顕著データおよび非顕著データを特定するステップと、
前記顕著データと前記非顕著データとを区分するステップと、
前記非顕著データをより低い解像度に圧縮するステップと、
前記顕著データおよび圧縮された前記非顕著データを伝送するステップと、
を含む、コンピュータに実装された方法。
前記非顕著データの前記圧縮を実行する前に前記非顕著データをエンコードするステップをさらに含む、請求項１に記載のコンピュータに実装された方法。
前記顕著データおよび圧縮された前記非顕著データを伝送する前に前記非顕著データに比べてより低い圧縮比で前記顕著データを圧縮するステップをさらに含む、請求項１に記載のコンピュータに実装された方法。
前記ビデオ・ストリーム内の前記非顕著データおよび前記顕著データのうちの少なくとも一方を、機械学習モデルにより特定するステップをさらに含む、請求項１に記載のコンピュータに実装された方法。
前記機械学習モデルは、敵対的生成ネットワーク（ＧＡＮ）機械学習モデルを含み、前記方法は、
前記非顕著データを特定するために、以前記録されたビデオ・ストリームからの１つ以上の非顕著特徴のデータを用いて、前記ＧＡＮ機械学習モデルを訓練するステップ
をさらに含む、請求項４に記載のコンピュータに実装された方法。
前記ビデオ・ストリームの前記顕著データおよび圧縮された前記非顕著データをユーザ・デバイスに伝送する前に、前記ＧＡＮ機械学習モデルにアクセスするためのリンクまたは前記ＧＡＮ機械学習モデルを実行するためのコードのうちの１つ以上を、前記ユーザ・デバイスに提供するステップをさらに含む、請求項５に記載のコンピュータに実装された方法。
前記顕著データの前記特定は、前記ビデオ・ストリーム内のオブジェクトの１つ以上のドメイン固有特性を特定するステップを含む、請求項１に記載のコンピュータに実装された方法。
前記顕著データの前記特定は、顔認識またはオブジェクト認識のうちの１つ以上のためのドメイン固有人工知能（ＡＩ）モデルを適用するステップを含む、請求項１に記載のコンピュータに実装された方法。
前記ドメイン固有ＡＩモデルの前記適用は、前記ビデオ・ストリームの残りの情報を前記非顕著データとして特定するステップをさらに含む、請求項８に記載のコンピュータに実装された方法。
前記方法は、複数のビデオ・ストリームを受信するステップをさらに含み、各ビデオ・ストリームは、１つ以上のオブジェクトのそれぞれ異なるビューを有し、前記顕著データおよび非顕著データの前記特定および区分は、伝送されるそれぞれ異なる少なくとも２つのビューに対して個々に実行される、請求項１に記載のコンピュータに実装された方法。
複数の解像度フォーマットのビデオ・データをデコードする、コンピュータに実装された方法であって、前記コンピュータに実装された方法は、
顕著データおよび非顕著データを含むエンコードされたビデオ・ストリームを受信するステップであって、前記顕著データは、前記非顕著データに比べてより高い解像度フォーマットを有する、前記受信するステップと、
前記ビデオ・ストリームをより低い解像度フォーマットの前記非顕著データおよび前記より高い解像度フォーマットの前記顕著データにデコードするステップと、
前記非顕著データをより高い解像度フォーマットに再構築するステップと、
前記顕著データの前記より高い解像度フォーマットのビデオ・ストリームを形成するために、前記顕著データと再構築された前記非顕著データとを結合するステップと、
を含む、コンピュータに実装された方法。
以前記録されたビデオ・ストリームに基づき非顕著特徴を特定するように訓練された敵対的生成ネットワーク（ＧＡＮ）機械学習モデルの動作にアクセスするためのリンク、または前記ＧＡＮ機械学習モデルのためのロード実行可能コードのうちの１つ以上を受信するステップと、
前記ＧＡＮ機械学習モデルを使用して、増大された解像度で前記非顕著データを再構築するステップと、
をさらに含む、請求項１１に記載のコンピュータに実装された方法。
受信された前記ビデオ・ストリームは、複数のビューポイントから捕捉された顕著データおよび非顕著データを含み、前記コンピュータに実装された方法は、
前記複数のビューポイントに基づき前記顕著データを特定するように前記ＧＡＮ機械学習モデルを訓練するステップと、
前記複数のビューポイントに対して訓練された前記ＧＡＮ機械学習モデルを使用して前記顕著データの前記より高い解像度に前記非顕著データを再構築するステップと、
をさらに含む、請求項１２に記載のコンピュータに実装された方法。
各ビューポイントそれぞれの前記顕著データおよび前記非顕著データの複数の伝送を受信するステップと、
選択に応答して表示される特定のビューポイントを再構築するステップと、
をさらに含む、請求項１３に記載のコンピュータに実装された方法。
位置情報を１つ以上の登録済みユーザと共有するステップと、
前記１つ以上の登録済みユーザにより捕捉された前記顕著データおよび前記非顕著データの選択可能なビューを受信するステップと、
をさらに含む、請求項１４に記載のコンピュータに実装された方法。
低帯域幅伝送における高精細度ビデオのビデオ・ストリームをエンコードするコンピューティング・デバイスであって、前記コンピューティング・デバイスは、
プロセッサと、
前記プロセッサに連結されたメモリと、
を含み、前記メモリは、
ビデオ・ストリーム内の顕著データおよび非顕著データを特定することと、
前記顕著データと前記非顕著データとを区分することと、
前記非顕著データをエンコードおよび圧縮することと、
前記顕著データおよび前記圧縮された非顕著データを伝送することと、
を含む動作を前記プロセッサに実行させる命令を記憶する、コンピューティング・デバイス。
前記コンピューティング・デバイスは、
前記メモリと通信する敵対的生成ネットワーク（ＧＡＮ）機械学習モデル
をさらに含み、
前記命令は、少なくとも前記非顕著データの前記特定を実行するために、以前記録されたビデオ・ストリームに基づく非顕著特徴の訓練データを用いて前記ＧＡＮ機械学習モデルを訓練することを含む追加の動作を前記プロセッサに実行させる、請求項１６に記載のコンピューティング・デバイス。
前記命令は、
融合されたパラメータに基づき選択されたエージェントから精緻化された結果を受信することと、
前記精緻化された結果に基づきグローバル訓練モデルを生成することと、
を含む追加の動作を前記プロセッサに実行させる、請求項１７に記載のコンピューティング・デバイス。
前記命令は、
前記顕著データを特定するために顔認識またはオブジェクト認識のうちの１つ以上を含むドメイン固有人工知能（ＡＩ）モデルを適用すること
を含む追加の動作を前記プロセッサに実行させる、請求項１６に記載のコンピューティング・デバイス。
前記命令は、前記顕著データおよび前記非顕著データの異なるカメラ・ビューを複数の受信デバイスに伝送することを含む追加の動作を前記プロセッサに実行させる、請求項１６に記載のコンピューティング・デバイス。
コンピュータ・プログラムがコンピュータ上で実行されると請求項１～１５のいずれかに記載の前記方法のステップを実行するようになっているプログラム・コードを含む、前記コンピュータ・プログラム。