JP2023549210A

JP2023549210A - ビデオフレーム圧縮方法、ビデオフレーム伸長方法及び装置

Info

Publication number: JP2023549210A
Application number: JP2023528362A
Authority: JP
Inventors: シ，イボ; ワン，ジン; ゴォ，ユンイン
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-11-13
Filing date: 2021-08-11
Publication date: 2023-11-22
Also published as: WO2022100140A1; US20230281881A1; EP4231644A1; WO2022100173A1; CN114501031B; EP4231644A4; CN114501031A; CN116918329A

Abstract

本願の実施形態は、ビデオフレーム圧縮方法、ビデオフレーム伸長方法、及び機器を開示している。方法は、ネットワーク選択ポリシに従って、複数のニューラルネットワークから目標ニューラルネットワークを決定するステップと、目標ニューラルネットワークを使用して、現在のビデオフレームに対応する圧縮情報を生成するステップと、を含む。第１ニューラルネットワークを用いて圧縮情報を取得した場合、圧縮情報には現在のビデオフレームの第１特徴の第１圧縮情報が含まれ、現在のビデオフレームの参照フレームが現在のビデオフレームの第１特徴の圧縮処理に使用される。第２ニューラルネットワークを用いて圧縮情報を取得した場合、圧縮情報には現在のビデオフレームの第２特徴の第２圧縮情報が含まれ、現在のビデオフレームの参照フレームが現在のビデオフレームの第２特徴の生成処理に使用される。第１ニューラルネットワークを用いて圧縮情報を取得した場合、フレームごとにエラーが蓄積されるのを防ぎ、ビデオフレームの再構成フレームの品質を向上させる。第１ニューラルネットワークと第２ニューラルネットワークの利点を組み合わせ、送信する必要のあるデータ量を最小限に抑える。

Description

［関連出願］
本願は、参照により全体がここに組み込まれる、中国特許出願番号２０２０１１２７１２１７.８号、中国国家知識産権局に２０２０年１１月１３日に出願、名称「COMPRESSION ENCODING METHOD, DECOMPRESSION METHOD, AND APPARATUS」の優先権を主張する。

［技術分野］
本願は、人工知能の分野に関し、特に、ビデオフレーム圧縮方法、ビデオフレーム伸長方法、及び機器に関する。

人工知能（Artificial Intelligence, AI）とは、デジタルコンピュータやデジタルコンピュータによって制御された機械を用いて、人間の知能をシミュレートし、拡大し、及び拡張し、その知識を用いて環境を知覚し、知識を得て最適な結果を得るための理論、手法、技術、応用システムである。つまり、人工知能はコンピュータ科学の一分野であり、知能の本質を理解し、人間の知能と同様の反応をすることができる新しい知能機械を生み出すことを目的としている。人工知能とは、様々な知能機械の設計原理や実装方法を研究し、機械が知覚、推論、意思決定の機能を持つようにすることである。

現在、人工知能の一般的な応用方法は、深層学習（deep learning）に基づくニューラルネットワークを用いてビデオフレームを圧縮することである。具体的には、エンコーダは、ニューラルネットワークを用いて現在のビデオフレームの参照フレームに対する現在のビデオフレームのオプティカルフローを計算し、参照フレームに対する元の現在のビデオフレームのオプティカルフローを生成する。エンコーダはオプティカルフローに圧縮符号化を行い、圧縮されたオプティカルフローを得る。現在のビデオフレームの参照フレームと現在のビデオフレームの両方が現在のビデオシーケンスに属し、現在のビデオフレームの参照フレームは、現在のビデオフレームに圧縮符号化を行うとき、参照する必要があるビデオフレームである。圧縮されたオプティカルフローを伸長して伸長されたオプティカルフローを得て、伸長されたオプティカルフローと参照フレームに基づいて予測された現在のビデオフレームを生成する。ニューラルネットワークを使用して、元の現在のビデオフレームと予測された現在のビデオフレームの間の残差を計算し、その残差に対して圧縮符号化を実行する。圧縮されたオプティカルフローと圧縮された残差はデコーダに送られる。したがって、デコーダはニューラルネットワークを使用することによって、伸長された参照フレーム、伸長されたオプティカルフロー、及び伸長された残差に基づき、伸長された現在のビデオフレームを得ることができる。

ニューラルネットワークを使用して伸長されたビデオフレームを取得する処理は、伸長された参照フレームの品質に過度に依存し、フレームごとにエラーが蓄積される。そのため、ビデオフレームの再構成フレームの品質を向上させるソリューションが緊急に必要とされている。

本願は、ビデオフレーム圧縮方法、ビデオフレーム伸長方法、及び機器を開示している。第１ニューラルネットワークを用いて圧縮情報を得る場合、現在のビデオフレームの再構成フレームの品質は、現在のビデオフレームの参照フレームの再構成フレームの品質に依存しないため、フレームごとにエラーが蓄積されるのを防ぎ、ビデオフレームの再構成フレームの品質を向上させることができる。また、第１ニューラルネットワークと第２ニューラルネットワークの利点を組み合わせることで、送信する必要のあるデータ量を最小限に抑え、ビデオフレームの再構成フレームの品質を向上させることができる。

前述の技術的問題を解決するために、本願は、以下の技術的ソリューションを提供する。

第１態様によると、本願は、ビデオフレーム圧縮方法を提供する。この方法では、人工知能技術をビデオフレームの符号化／復号の分野に適用することができる。方法は、以下を含んでよい：エンコーダは、ネットワーク選択ポリシに従って、複数のニューラルネットワークから目標ニューラルネットワークを決定し、複数のニューラルネットワークは、第１ニューラルネットワークと第２ニューラルネットワークを含み、目標ニューラルネットワークを使用して現在のビデオフレームに圧縮符号化を行い、現在のビデオフレームに対応する圧縮情報を得る。

第１ニューラルネットワークを用いて圧縮情報を取得した場合、圧縮情報には現在のビデオフレームの第１特徴の第１圧縮情報が含まれ、現在のビデオフレームの参照フレームが現在のビデオフレームの第１特徴の圧縮処理に使用され、現在のビデオフレームの参照フレームは現在のビデオフレームの第１特徴の生成処理に使用されない。つまり、現在のビデオフレームの第１特徴は現在のビデオフレームにのみ基づいて取得でき、現在のビデオフレームの参照フレームは現在のビデオフレームの第１特徴の生成処理では必要ない。第２ニューラルネットワークを用いて圧縮情報を取得した場合、圧縮情報には現在のビデオフレームの第２特徴の第２圧縮情報が含まれ、現在のビデオフレームの参照フレームが現在のビデオフレームの第２特徴の生成処理に使用される。

現在のビデオフレームは、現在のビデオシーケンスに含まれる元のビデオフレームである。現在のビデオフレームの参照フレームは、現在のビデオシーケンスの中の元のビデオフレームである場合とそうでない場合がある。現在のビデオフレームの参照フレームは、符号化ネットワークを使用して元の参照フレームに変換符号化を行い、次に復号ネットワークを使用して逆変換復号を行った後に取得されたビデオフレームである場合がある。代替として、現在のビデオフレームの参照フレームは、エンコーダが元の参照フレームに圧縮符号化と伸長を行った後に取得されたビデオフレームである。

この実装では、第１ニューラルネットワークを用いて圧縮情報を取得した場合、圧縮情報は現在のビデオフレームの第１特徴の圧縮情報を運び、現在のビデオフレームの参照フレームが現在のビデオフレームの第１特徴の圧縮処理にのみ使用され、現在のビデオフレームの第１特徴の生成処理に使用されない。したがって、デコーダが第１圧縮情報に基づいて伸長を実行した後、現在のビデオフレームの第１特徴を取得するために、現在のビデオフレームの参照フレームなしで現在のビデオフレームの再構成フレームを取得できる。したがって、第１ニューラルネットワークを用いて圧縮情報を得る場合、現在のビデオフレームの再構成フレームの品質は、現在のビデオフレームの参照フレームの再構成フレームの品質に依存しないため、フレームごとにエラーが蓄積されるのを防ぎ、ビデオフレームの再構成フレームの品質を向上させることができる。また、現在のビデオフレームの参照フレームに基づいて現在のビデオフレームの第２特徴が生成され、第２特徴の第２圧縮情報に対応するデータ量が第１特徴の第１圧縮情報に対応するデータ量よりも少ないため、エンコーダは、第１ニューラルネットワークと第２ニューラルネットワークを使用して現在のビデオシーケンスの異なるビデオフレームを処理し、送信する必要のあるデータ量を最小限に抑え、ビデオフレームの再構成フレームの品質を向上させるために、第１ニューラルネットワークと第２ニューラルネットワークの利点を組み合わせることができる。

第１態様の可能な実装では、第１ニューラルネットワークは、符号化（encoding）ネットワークとエントロピー符号化層を含み、符号化ネットワークを使用して現在のビデオフレームから現在のビデオフレームの第１特徴を取得し、エントロピー符号化層を使用して現在のビデオフレームの第１特徴に対してエントロピー符号化を実行し、第１圧縮情報を出力する。さらに、現在のビデオフレームの第１特徴は、第１符号化ネットワークを使用して変換符号化及び量子化が現在のビデオフレームに対して実行された後に取得され、量子化は変換符号化の後に実行される。

第１態様の可能な実装では、第２ニューラルネットワークは、畳み込みネットワークとエントロピー符号化層を含み、畳み込みネットワークは、複数の畳み込み層と活性化ReLU層を含み、畳み込みネットワークは、現在のビデオフレームの参照フレームに基づいて現在のビデオフレームの残差を取得するために使用され、エントロピー符号化層は、現在のビデオフレームの残差に対してエントロピー符号化を実行して、第２圧縮情報を出力するために使用される。

第１態様の可能な実装では、圧縮情報が第２ニューラルネットワークを使用して取得される場合、エンコーダが目標ニューラルネットワークを使用して現在のビデオフレームに対して圧縮符号化を実行し、現在のビデオフレームに対応する圧縮情報を取得するには、次のことが含まれる場合がある：エンコーダは、現在のビデオフレームの参照フレームに対する元の現在のビデオフレームのオプティカルフローを生成し、オプティカルフローに対して圧縮符号化を実行して、圧縮されたオプティカルフローを取得する。現在のビデオフレームの第２特徴には、現在のビデオフレームの参照フレームに対する元の現在のビデオフレームのオプティカルフローが含まれる。

任意的に、エンコーダは、更に、圧縮されたオプティカルフローを伸長して、伸長されたオプティカルフローを取得し、伸長されたオプティカルフローと現在のビデオフレームの参照フレームに基づいて、予測された現在のビデオフレームを生成すし、元の現在のビデオフレームと予測された現在のビデオフレームの間の残差を計算することができる。現在のビデオフレームの第２特徴には、現在のビデオフレームの参照フレームに対する元の現在のビデオフレームのオプティカルフロー、及び元の現在のビデオフレームと予測された現在のビデオフレームとの間の残差が含まれる。

第１態様の可能な実装では、ネットワーク選択ポリシが、現在のビデオフレームの位置情報又は現在のビデオフレームで運ばれるデータ量のいずれか１つ以上に関連する。

第１態様の可能な実装では、エンコーダがネットワーク選択ポリシに従って複数のニューラルネットワークから目標ニューラルネットワークを決定することには、次のものが含まれる：エンコーダは、現在のビデオシーケンス内の現在のビデオフレームの位置情報を取得する。位置情報は、現在のビデオフレームが現在のビデオシーケンス内の第Xフレームであることを示し、現在のビデオシーケンス内の現在のビデオフレームの位置情報はインデックス番号として具体的に表される場合があり、インデックス番号は文字列として具体的に表される場合がある。エンコーダは、位置情報に基づいて複数のニューラルネットワークから目標ニューラルネットワークを選択する。代替として、エンコーダがネットワーク選択ポリシに従って複数のニューラルネットワークから目標ニューラルネットワークを決定することには、次のものが含まれる：エンコーダは、現在のビデオフレームの属性に基づいて複数のニューラルネットワークから目標ニューラルネットワークを選択する。現在のビデオフレームの属性は、現在のビデオフレームで伝送されるデータ量を示し、現在のビデオフレームの属性には、現在のビデオフレームのエントロピー、コントラスト、及び彩度のいずれか又は任意の組み合わせが含まれる。

この実装では、現在のビデオシーケンスにおける現在のビデオフレームの位置情報に基づいて、複数のニューラルネットワークから目標ニューラルネットワークを選択する。代替として、現在のビデオの少なくとも１つの属性に基づいて、目標ニューラルネットワークを複数のニューラルネットワークから選択し、目標ニューラルネットワークを使用して現在のビデオフレームの圧縮情報を生成することもできる。これにより、簡易且つ操作が容易な複数の実装ソリューションが提供され、ソリューションの実装の柔軟性が向上する。

第１態様の可能な実装では、方法は、更に以下を含む：エンコーダは、１つ以上の圧縮情報に１対１に対応する少なくとも１つの指示情報を生成して送信する。各指示情報は、第１ニューラルネットワーク又は第２ニューラルネットワークのいずれかである目標ニューラルネットワークを使用して１つの圧縮情報が得られることを示す。つまり、指示情報は、第１ニューラルネットワーク又は第２ニューラルネットワークのいずれかを使用して圧縮情報が得られることを示す。

この実装では、デコーダは、複数の圧縮情報に対応する複数の指示情報を得ることができるため、デコーダは、現在のビデオシーケンスの各ビデオフレームを伸長するために、第１ニューラルネットワーク又は第２ニューラルネットワークのいずれかを使用することを知ることができる。これは、デコーダが圧縮情報を復号する時間を短縮するのに役立つ。つまり、これは、エンコーダとデコーダによって実行されるビデオフレーム送信全体の効率を向上させるのに役立つ。

第１態様の可能な実装では、圧縮情報が第１ニューラルネットワークを使用して取得される場合、エンコーダが目標ニューラルネットワークを使用して現在のビデオフレームに対して圧縮符号化を実行し、現在のビデオフレームに対応する圧縮情報を取得するには、次のことが含まれる場合がある：エンコーダは、符号化ネットワークを使用して現在のビデオフレームから現在のビデオフレームの第１特徴を取得し、エントロピー符号化層を使用して、現在のビデオフレームの参照フレームに基づいて現在のビデオフレームの特徴を予測し、現在のビデオフレームの予測された特徴を生成する。現在のビデオフレームの予測特徴は、現在のビデオフレームの第１特徴の予測結果であり、現在のビデオフレームの予測特徴のデータ形状は、現在のビデオフレームの第１特徴のデータ形状と同じである。エンコーダは、エントロピー符号化層を使用して、現在のビデオフレームの予測特徴に基づいて、現在のビデオフレームの第１特徴の確率分布を生成する。現在のビデオフレームの第１特徴の確率分布には、現在のビデオフレームの第１特徴の平均と現在のビデオフレームの第１特徴の分散が含まれる。エンコーダは、現在のビデオフレームの第１特徴の確率分布に基づいて、現在のビデオフレームの第１特徴に対して、エントロピー符号化層を使用してエントロピー符号化を実行し、第１圧縮情報を取得する。

この実装では、エンコーダは、現在のビデオフレームの予測された特徴に基づいて、現在のビデオフレームの第１特徴の確率分布を生成し、次に、現在のビデオフレームの第１特徴の確率分布に基づいて、現在のビデオフレームの第１特徴に対して圧縮符号化を実行し、現在のビデオフレームの第１圧縮情報を取得する。現在のビデオフレームの予測された特徴と第１特徴の間の類似性が高いことは、第１特徴の圧縮率が大きく、最終的に取得される第１圧縮情報が小さいことを示す。現在のビデオフレームの予測された特徴は、現在のビデオフレームの参照フレームに基づいて現在のビデオフレームの特徴を予測することによって得られ、現在のビデオフレームの予測された特徴と現在のビデオフレームの第１特徴の間の類似性を改善する。これにより、圧縮された第１圧縮情報のサイズが小さくなる。つまり、デコーダによって得られる再構成フレームの品質を確保し、エンコーダとデコーダ間で伝送されるデータ量を減らすことができる。

第１態様の可能な実装では、第１ニューラルネットワークと第２ニューラルネットワークの両方がトレーニングされたニューラルネットワークであり、第１ニューラルネットワークのモデルパラメータが第１ニューラルネットワークの第１損失関数に従って更新される。第１損失関数は、第１トレーニングビデオフレームと第１トレーニング再構成フレームとの類似性の損失項と、第１トレーニングビデオフレームの圧縮情報のデータサイズの損失項を含み、第１トレーニング再構成フレームは、第１トレーニングビデオフレームの再構成フレームである。第１損失関数のトレーニング目的は、第１トレーニングビデオフレームと第１トレーニング再構成フレームとの類似性を高めることを含み、さらに第１トレーニングビデオフレームの第１圧縮情報のサイズを小さくすることを含む。１つ以上の第２トレーニングビデオフレーム、第２トレーニングビデオフレームの参照フレーム、及び第２損失関数に基づいて、第２ニューラルネットワークをトレーニングする間、第２損失関数は、第２トレーニングビデオフレームと第２トレーニング再構成フレームとの間の類似性の損失項と、第２トレーニングビデオフレームの圧縮情報のデータサイズの損失項を含む。第２トレーニング再構成フレームは、第２トレーニングビデオフレームの再構成フレームであり、第２トレーニングビデオフレームの参照フレームは、第１ニューラルネットワークによって処理されたビデオフレームである。第２損失関数のトレーニング目的は、第２トレーニングビデオフレームと第２トレーニング再構成フレームとの類似性を高めることを含み、さらに第２トレーニングビデオフレームの第２圧縮情報のサイズを小さくすることを含む。

この実装では、実行フェーズで、第２ニューラルネットワークによって使用される参照フレームが第１ニューラルネットワークによって処理される可能性があるため、第１ニューラルネットワークによって処理された参照フレームが第２ニューラルネットワークのトレーニングに使用される。これは、トレーニングフェーズと実行フェーズの間の一貫性を維持し、実行フェーズの精度を向上させるのに役立つ。

第２態様によると、本願の一実施形態は、ビデオフレーム圧縮方法を提供する。この方法では、人工知能技術をビデオフレームの符号化／復号の分野に適用することができる。エンコーダは、第１ニューラルネットワークを使用して現在のビデオフレームに圧縮符号化を実行し、現在のビデオフレームの第１特徴の第１圧縮情報を取得し、現在のビデオフレームの参照フレームは現在のビデオフレームの第１特徴の圧縮処理に使用され、第１ニューラルネットワークを使用して第１ビデオフレームを生成し、第１ビデオフレームは現在のビデオフレームの再構成フレームである。

エンコーダは、第２ニューラルネットワークを使用して現在のビデオフレームに対して圧縮符号化を実行し、現在のビデオフレームの第２特徴の第２圧縮情報を取得し、現在のビデオフレームの参照フレームは、現在のビデオフレームの第２特徴の生成処理に使用され、第２ニューラルネットワークを使用して第２ビデオフレームを生成し、第２ビデオフレームは現在のビデオフレームの再構成フレームである。

エンコーダは、第１圧縮情報、第１ビデオフレーム、第２圧縮情報、及び第２ビデオフレームに基づいて、現在のビデオフレームに対応する圧縮情報を決定する。決定された圧縮情報は、第１ニューラルネットワークを使用して取得され、決定された圧縮情報が第１圧縮情報になる。代替として、決定された圧縮情報は、第２ニューラルネットワークを使用して取得され、決定された圧縮情報が第２圧縮情報になる。

この実装では、最終的に送信する必要がある圧縮情報は、少なくとも１つの現在のビデオフレームの第１圧縮情報、第１ビデオフレーム、現在のビデオフレームの第２圧縮情報、及び第２ビデオフレームに基づいて、第１圧縮情報と第２圧縮情報から選択される。この実装では、ネットワーク選択ポリシに従って複数のニューラルネットワークから目標ニューラルネットワークを決定し、次に目標ニューラルネットワークを使用して目標圧縮情報を生成する方法と比較して、現在のビデオシーケンス全体に対応する圧縮情報のパフォーマンスを可能な限り向上させることができる。

第２態様の可能な実装では、現在のビデオシーケンス内の異なるビデオフレームに対して、エンコーダは同じ方法を使用して目標圧縮情報を選択することができる。具体的には、エンコーダは、第１圧縮情報と第１ビデオフレームに基づいて、第１圧縮情報に対応する第１スコア（すなわち、第１ニューラルネットワークに対応する第１スコア）を計算し、第２圧縮情報と第２ビデオフレームに基づいて、第２圧縮情報に対応する第２スコア（すなわち、第２ニューラルネットワークに対応する第２スコア）を計算し、第１スコアと第２スコアのうち小さいスコアを選択し、第１圧縮情報と第２圧縮情報から、現在のビデオフレームの圧縮情報として小さいスコアに対応する圧縮情報を決定する、つまり、小さいスコアに対応するニューラルネットワークを目標ニューラルネットワークとして決定する。

この実装では、現在のビデオシーケンスの各ビデオフレームについて、エンコーダは最初に第１ニューラルネットワークと第２ニューラルネットワークを使用して現在のビデオフレームを圧縮し、第１圧縮情報に対応する第１スコア、及び第２圧縮情報に対応する第２スコアを取得し、ビデオシーケンス全体のすべてのビデオフレームのスコアを最小化するために、第１スコアと第２スコアのうち小さいスコアを決定する。これにより、現在のビデオシーケンス全体に対応する圧縮情報のパフォーマンスが向上する。

第２態様の可能な実装では、エンコーダは計算単位として１つの期間を使用することができ、期間内の第１２つの現在のビデオフレームに対応する２つの第１スコアに基づいて、期間内の複数の第１スコアに対応する第１フィッティング式の係数とオフセットを生成し、期間内の第１２つの現在のビデオフレームに対応する２つの第２スコアに基づいて、期間内の複数の第２スコアに対応する第２フィッティング式の係数とオフセットを生成する。エンコーダは、第１フィッティング式と第２フィッティング式に従って、第１圧縮情報と第２圧縮情報から現在のビデオフレームの圧縮情報を決定する。最適化の目的は、期間内の合計スコアの平均値を最小化すること、つまり、最適化の目的は、期間内の合計スコアを最小化することである。

本願の実施例では、当業者は、研究中に１つの期間内の第１スコアと第２スコアの変更ルールを発見し、１つの期間内の全てのスコアの最小平均値を最適化の目的として使用する。つまり、現在の各ビデオフレームに対応する目標圧縮情報を決定する場合、現在のビデオフレームのスコアと全期間のスコアの平均値の両方を考慮して、現在のビデオシーケンス全体のすべてのビデオフレームに対応するスコアをさらに削減する必要がある。これにより、現在のビデオシーケンス全体に対応する圧縮情報のパフォーマンスが更に向上する。

本願のこの実施形態における第２態様では、エンコーダは、第１態様の可能な実装においてエンコーダによって実行されるステップをさらに実行することができる。本願のこの実施形態における第２態様、用語の意味、第２態様と本願の第２態様の可能な実装の特定の実装ステップ、及び可能な各実装によってもたらされる有益な効果については、第１態様の可能な実装の説明を参照のこと。詳細はここで再び記載されない。

第３態様によると、本願の一実施形態は、ビデオフレーム圧縮方法を提供する。この方法では、人工知能技術をビデオフレームの符号化／復号の分野に適用することができる。方法は、以下を含んでよい：エンコーダは、
第１ニューラルネットワークを使用して第３ビデオフレームに圧縮符号化を実行し、第３ビデオフレームに対応する第１圧縮情報を取得するステップであって、前記第１圧縮情報が前記第３ビデオフレームの第１特徴の圧縮情報を含み、前記第３ビデオフレームの参照フレームが前記第３ビデオフレームの前記第１特徴の圧縮処理に使用される、ステップと、
第２ニューラルネットワークを使用して第４ビデオフレームに圧縮符号化を実行し、第４ビデオフレームに対応する第２圧縮情報を取得するステップであって、前記第２圧縮情報が前記第４ビデオフレームの第２特徴の圧縮情報を含み、前記第４ビデオフレームの参照フレームが前記第４ビデオフレームの前記第２特徴の生成処理に使用され、前記第３ビデオフレームと前記第４ビデオフレームが同じビデオシーケンスの異なるビデオフレームであるステップと、
を含む方法。

本願のこの実施形態における第３態様では、エンコーダは、第１態様の可能な実装においてエンコーダによって実行されるステップをさらに実行することができる。本願のこの実施形態における第３態様、第３態様における用語の意味、可能な実装における特定の実装ステップ、及び可能な各実装によってもたらされる有益な効果については、第１態様の可能な実装における説明を参照のこと。詳細はここで再び記載されない。

第４の態様によると、本願の一実施形態は、ビデオフレーム伸長方法を提供する。この方法では、人工知能技術をビデオフレームの符号化／復号の分野に適用することができる。デコーダは、現在のビデオフレームの圧縮情報を取得し、現在のビデオフレームの圧縮情報に基づいて、目標ニューラルネットワークを使用して伸長を実行し、現在のビデオフレームの再構成フレームを取得する。目標ニューラルネットワークは、複数のニューラルネットワークから選択されたニューラルネットワークであり、複数のニューラルネットワークには、第３ニューラルネットワークと第４ニューラルネットワークが含まれる。目標ニューラルネットワークが第３ニューラルネットワークである場合、圧縮情報には、現在のビデオフレームの第１特徴の第１圧縮情報が含まれる。現在のビデオフレームの参照フレームは、現在のビデオフレームの第１特徴を得るために、第１圧縮情報の伸長処理に使用される。現在のビデオフレームの第１特徴は、現在のビデオフレームの再構成フレームの生成処理に使用される。目標ニューラルネットワークが第４ニューラルネットワークである場合、圧縮情報には現在のビデオフレームの第２特徴の第２圧縮情報が含まれ、第２圧縮情報はデコーダによって伸長を実行するために使用され、現在のビデオフレームの第２特徴を取得する。現在のビデオフレームの参照フレームと現在のビデオフレームの第２特徴は、現在のビデオフレームの再構成フレームの生成処理に使用され、現在のビデオシーケンスには、現在のビデオフレームの再構成フレームと現在のビデオフレームの参照フレームが含まれる。

第４の態様の可能な実装では、第３ニューラルネットワークは、エントロピー復号層と復号（decoding）ネットワークを含み、エントロピー復号層は、現在のビデオフレームの参照フレームに基づいて現在のビデオフレームの第１圧縮情報に対してエントロピー復号を実行するために使用され、復号ネットワークは、現在のビデオフレームの第１特徴に基づいて現在のビデオフレームの再構成フレームを生成するために使用される。

さらに、圧縮情報が第３ニューラルネットワークを使用して伸長される場合、デコーダは、現在のビデオフレームの圧縮情報に基づいて、目標ニューラルネットワークを使用して伸長を実行し、現在のビデオフレームの再構成フレームを取得することには、次のことが含まれる場合がある：デコーダは、現在のビデオフレームの予測された特徴に基づいて、第１特徴の確率分布を生成する。現在のビデオフレームの予測された特徴は、現在のビデオフレームの参照フレームに基づいて第１特徴を予測することによって得られる。デコーダは、第１特徴の確率分布に基づいて圧縮情報に対してエントロピー復号を実行し、第１特徴を取得し、第１特徴に対して逆変換復号を実行し、現在のビデオフレームの再構成フレームを取得する。

第４の態様の可能な実装では、第４ニューラルネットワークは、エントロピー復号層と畳み込みネットワークを含み、エントロピー復号層は、第２圧縮情報に対してエントロピー復号を実行するために使用され、畳み込みネットワークは、現在のビデオフレームの参照フレームと現在のビデオフレームの第２特徴に基づいて、現在のビデオフレームの再構成フレームの生成処理を実行するために使用される。

さらに、圧縮情報が第４ニューラルネットワークを使用して伸長される場合、デコーダは、現在のビデオフレームの圧縮情報に基づいて、目標ニューラルネットワークを使用して伸長を実行し、現在のビデオフレームの再構成フレームを取得することには、次のことが含まれる場合がある：デコーダは、第２圧縮情報を伸長し、第４ビデオフレームの第２特徴を得ること、すなわち、現在のビデオフレームの第２特徴を取得する、つまり、現在のビデオフレームの参照フレームに対する元の現在のビデオフレームのオプティカルフロー、及び元の現在のビデオフレームと予測された現在のビデオフレームとの間の残差を取得する。エンコーダは、現在のビデオフレームの参照フレームと、現在のビデオフレームの参照フレームに対する元の現在のビデオフレームのオプティカルフローに基づいて、現在のビデオフレームを予測して、予測された現在のビデオフレームを取得し、予測された現在のビデオフレーム、及び元の現在のビデオフレームと予測された現在のビデオフレームとの間の残差に基づいて、現在のビデオフレームの再構成フレームを生成する。

第４の態様の可能な実装では、方法は、更に以下を含む場合がある：デコーダは、少なくとも１つの圧縮情報に１対１に対応する少なくとも１つの指示情報を取得し、少なくとも１つの指示情報と現在のビデオフレームの圧縮情報に基づいて、第３ニューラルネットワークと第４ニューラルネットワークを含む複数のニューラルネットワークから、現在のビデオフレームに対応する目標ニューラルネットワークを決定する。

本願のこの実施形態における第４の態様、第４の態様における用語の意味、及び可能な各実装によってもたらされる有益な効果については、第１態様の可能な実装における説明を参照のこと。詳細はここで再び記載されない。

第５の態様によると、本願の一実施形態は、ビデオフレーム伸長方法を提供する。この方法では、人工知能技術をビデオフレームの符号化／復号の分野に適用することができる。デコーダは、第３ニューラルネットワークを使用して第３ビデオフレームの第１圧縮情報を伸長し、第３ビデオフレームの再構成フレームを取得する。第１圧縮情報には第３ビデオフレームの第１特徴の圧縮情報が含まれ、第３ビデオフレームの参照フレームは、第３ビデオフレームの第１特徴を得るために、第１圧縮処理の伸長処理に使用され、第３ビデオフレームの第１特徴は第３ビデオフレームの再構成フレームの生成処理に使用される。デコーダは、第４ニューラルネットワークを使用して第４ビデオフレームの第２圧縮情報を伸長し、伸長された第４ビデオフレームを取得する。第２圧縮情報には、第４ビデオフレームの第２特徴の圧縮情報が含まれ、第２圧縮情報はデコーダによって伸長を実行するために使用され、第４ビデオフレームの第２特徴を取得し、第４ビデオフレームの参照フレームと第４ビデオフレームの第２特徴は、第４ビデオフレームの再構成フレームの生成処理に使用される。

本願のこの実施形態における第５の態様では、デコーダは、第４の態様の可能な実装においてデコーダによって実行されるステップをさらに実行することができる。本願のこの実施形態における第５の態様、第５の態様における用語の意味、可能な実装における特定の実装ステップ、及び可能な各実装によってもたらされる有益な効果については、第４の態様の可能な実装における説明を参照のこと。詳細はここで再び記載されない。

第６の態様によると、本願の一実施形態は、第１態様、第２態様、第３態様、第４の態様、又は第５の態様のいずれかの方法を実行するように構成された処理回路を含むエンコーダを提供する。

第７の態様によると、本願の一実施形態は、第１態様、第２態様、第３態様、第４の態様、又は第５の態様のいずれかの方法を実行するように構成された処理回路を含むデコーダを提供する。

第８の態様によると、本願の実施形態は、コンピュータプログラムプロダクトを提供する。コンピュータプログラムプロダクトをコンピュータ上で実行すると、コンピュータは、第１態様、第２態様、第３態様、第４の態様、又は第５の態様のいずれかの方法を実行できるようになる。

第９の態様によると、本願の一実施形態は、エンコーダであって、１つ以上のプロセッサと、プロセッサに結合されプロセッサによって実行されるプログラム命令を格納する非一時的コンピュータ可読記憶媒体と、を含むエンコーダを提供する。プログラム命令がプロセッサによって実行されると、エンコーダは、第１態様、第２態様、又は第３態様のいずれかでビデオフレーム圧縮方法を実行できるようになる。

第１０の態様によると、本願の一実施形態は、デコーダであって、プロセッサに結合されプロセッサによって実行されるプログラム命令を格納する１つ以上の非一時的コンピュータ可読記憶媒体を含むデコーダを提供する。プログラム命令がプロセッサによって実行されると、デコーダは、第４の態様又は第５の態様のいずれかのビデオフレームの伸長方法を実行できるようになる。

第１１の態様によると、本願の一実施形態は、非一時的コンピュータ可読記憶媒体を提供する。非一時的コンピュータ可読記憶媒体は、プログラムコードを含み、プログラムコードをコンピュータ上で実行すると、コンピュータは、第１態様、第２態様、第３態様、第４の態様、又は第５の態様のいずれかの方法を実行できるようになる。

第１２の態様によれば、本願の実施形態は、回路システムを更に提供する。回路システムは処理回路を含み、処理回路は第１態様、第２態様、第３態様、第４の態様、又は第５の態様のいずれかの方法を実行するように構成される。

第１３の態様によると、本願の一実施形態は、チップシステムを提供する。チップシステムはプロセッサを含み、例えば、前述の方法においてデータ及び／又は情報を送信又は処理するなど、前述の態様の機能を実装するように構成されている。可能な設計では、チップシステムは、メモリを更に含む。メモリは、サーバ又は通信装置に必要なプログラム命令とデータを格納するように構成される。。チップシステムは、チップを含んでよく、又はチップ及び別の個別コンポーネントを含んでよい。

本願の実施形態による人工知能の主な枠組みの構造の概略図である。

本願の実施形態によるビデオフレーム圧縮方法及びビデオフレーム伸長方法の適用シナリオの図である。

本願の実施形態によるビデオフレーム圧縮方法及びビデオフレーム伸長方法の別の適用シナリオの図である。

本願の実施形態によるビデオフレーム圧縮方法の原理の概略図である;

本願の実施形態によるビデオフレーム圧縮方法の概略フローチャートである。

本願の実施形態によるビデオフレーム圧縮方法における現在のビデオフレームの位置と使用されている目標ニューラルネットワークとの対応の概略図である。

本願の実施形態による第１ニューラルネットワークの構造の概略図である。

本願の実施形態による第２ニューラルネットワークの構造の概略図である。

本願の実施形態によるビデオフレーム圧縮方法における第１特徴と第２特徴との比較の概略図である。

本願の実施形態によるビデオフレーム圧縮方法の別の原理の概略図である。

本願の実施形態によるビデオフレーム圧縮方法の別の概略フローチャートである。

本願の実施形態によるビデオフレーム圧縮方法における第１スコアと第２スコアの概略図である。

本願の実施形態によるビデオフレーム圧縮方法の第１フィッティング式の係数とオフセット及び第２フィッティング式の係数とオフセットの計算の概略図である。

本願の実施形態によるビデオフレーム圧縮方法の概略図である。

本願の実施形態によるビデオフレーム伸長方法の概略フローチャートである。

本願の実施形態によるビデオフレーム伸長方法の別の概略フローチャートである。

本願の実施形態によるビデオフレーム圧縮及び伸長システムのトレーニング方法の概略フローチャートである。

本願の実施形態によるビデオ符号化/復号システムのシステムアーキテクチャの図である。

本願の実施形態によるビデオ符号化/復号システムの別のシステムアーキテクチャの図である。

本願の実施形態によるビデオコーディング装置の概略図である。

本願の実施形態による機器の簡略ブロック図である。

本願の明細書、請求項、及び添付の図面では、用語「第１」、「第２」、等は、同様のオブジェクトを区別することを意図しており、必ずしも特定の順序又はシーケンスを示さない。理解されるべきことに、そのような方法で使用される用語は、適正な環境において交換可能であり、これは単に、同じ属性を有するオブジェクトが本願の実施形態で説明されるときに使用される区別の方法である。更に、用語「含む」、「有する」、及び任意の他の変形は非排他的包含をカバーすることを意味し、ユニットのシリーズを含む処理、方法、システム、プロダクト、又は装置は、それらのユニットに限定されず、明示的にリストされない又はそのような処理、方法、システム、プロダクト、又は装置に固有である他のユニットを含んでよい。

以下は、添付の図面を参照して、本願の実施形態を説明する。当業者は技術が進化し新しいシナリオが出現するとき、本願の実施形態において提供される技術的ソリューションが同様の技術的問題にも適用可能であることを理解し得る。

まず、人工知能システムの全体的な動作手順を説明する。図１Aは、人工知能の主な枠組みの構造の概略図である。以下では、人工知能の主な枠組みを「インテリジェント情報チェーン」（横軸）と「ITバリューチェーン」（縦軸）の２つの次元から説明する。「インテリジェント情報チェーン」には、データの取得から処理までの一連の処理が反映されている。例えば、処理は、インテリジェントな情報知覚、インテリジェントな情報の表現と形成、インテリジェントな推論、インテリジェントな意思決定、インテリジェントな実行と出力の一般的な処理である可能性がある。これらの処理では、データは「データ－情報－知識－インテリジェンス」の洗練処理を経る。「ITバリューチェーン」は、基盤となるインフラや人間の知覚の情報（実装を提供し処理する技術）からシステムの産業生態学的処理に至るまで、人工知能が情報技術産業にもたらした価値を反映している。

（１）インフラ

インフラは、人工知能システムのコンピューティング能力をサポートし、外部との通信を実装し、基本的なプラットフォームを使用してサポートを実装する。インフラは、センサを使用して外部と通信する。計算能力はスマートチップによって提供される。例えば、スマートチップには、中央処理装置（central processing unit, CPU）、ニューラルネットワーク処理装置（neural network processing unit, NPU）、グラフィックス処理装置（graphics processing unit, GPU）、特定用途向け集積回路（application-specific integrated circuit, ASIC）、又はフィールドプログラマブルゲートアレイ（field programmable gate array, FPGA）などのハードウェアアクセラレーションチップが含まれる。基本プラットフォームには、クラウドストレージとコンピューティング、相互接続ネットワークなどを含む保証とサポートのための関連プラットフォーム、例えば分散コンピューティングフレームワークとネットワークが含まれる。例えば、センサは外部と通信してデータを取得し、そのデータはコンピューティングのために基本プラットフォームによって提供される分散コンピューティングシステムのスマートチップに提供される。

（２）データ

インフラの上位層にあるデータは、人工知能分野のデータソースを示す。データは、グラフ、写真、音声、テキストに関連し、さらに従来のデバイスのIoT（Internet of things）データに関連し、既存システムのサービスデータと、力、変位、液面、温度、湿度などの知覚データを含む。

（３）データ処理

データ処理には通常、データトレーニング、機械学習、深層学習、検索、推論、又は意思決定などの方法が含まれる。

機械学習と深層学習は、データに対してシンボリックで形式化された知的情報モデリング、抽出、前処理、トレーニングなどを実行することを意味する場合がある。

推論は、人間の知的な推論方法をコンピュータやインテリジェントシステムでシミュレートし、推論制御ポリシに従って形式的な情報を用いて機械的な思考や問題解決を行う処理である。代表的な機能は検索とマッチングである。

意思決定は、知的な情報を推測した上で意思決定を行う処理であり、通常は分類、ランク付け、予測などの機能を提供する。

（４）一般的な能力

上記のデータ処理をデータに対して行った後、翻訳、テキスト解析、コンピュータビジョン処理、音声認識、画像認識など、アルゴリズムや一般的なシステムなどのデータ処理結果に基づいて、さらに幾つかの一般的な能力が形成されることがある。

（５）スマート製品及び産業用アプリケーション

スマート製品及び産業用アプリケーションは、様々な分野における人工知能システムの製品及びアプリケーションであり、人工知能の全体的なソリューションのパッケージであるため、知的情報の意思決定が製品化され、アプリケーションが実装される。アプリケーション分野には、主にスマート端末、スマート製造、スマート交通、スマートホーム、スマートヘルスケア、スマートセキュリティ保護、自動運転、スマートシティなどがある。

本願の実施形態は、主に、上記の様々なアプリケーション分野において、ビデオのビデオフレームに対して符号化/復号を行う必要があるシナリオに適用される。具体的には、ソリューションの適用シナリオをより直感的に理解するために、図１Bは、本願の実施形態によるビデオフレーム圧縮方法及びビデオフレーム伸長方法の適用シナリオの図である。図１Bを参照する。例えば、クライアントのアルバムに動画が格納されている場合、アルバム内のビデオをクラウドサーバに送信するための要件が格納される。次に、クライアント（すなわち、エンコーダ）がAI技術を用いてビデオフレームに圧縮符号化を行い、各ビデオフレームに対応する圧縮情報を取得する場合がある。各ビデオフレームに対応する圧縮情報はクラウドサーバに送信される。これに対応して、クラウドサーバ（すなわち、デコーダ）はAI技術を用いて伸長を行い、ビデオフレームの再構成フレームを得ることができる。図１Bの例は、単にソリューションを理解しやすくするためのものであり、ソリューションを限定するものではないことを理解すべきである。

別の例では、スマートシティ分野では、モニタは収集したビデオを管理センタに送信する必要がある。ビデオを管理センタに送信する前に、モニタ（すなわち、エンコーダ）はビデオのビデオフレームを圧縮する必要がある。これに対応して、管理センタ（すなわち、デコーダ）はビデオのビデオフレームを伸長して、ビデオフレームを取得する必要がある。

別の例として、ソリューションの適用シナリオをより直感的に理解するために、図１Cは、本願の実施形態によるビデオフレーム圧縮方法及びビデオフレーム伸長方法の別の適用シナリオの図である。図１Cは、本願の実施形態を生放送シナリオに適用する例を用いて説明される。アンカーはクライアントを使用してビデオを収集し、クライアントは収集したビデオをサーバに送信する必要があり、サーバはビデオをユーザに配信する。クライアント（すなわち、エンコーダ）がビデオをサーバに送信する前に、AI技術を使用してビデオのビデオフレームに対して圧縮符号化を実行する必要がある。これに対応して、クライアント（すなわち、デコーダ）はAI技術を用いて伸長を行い、ビデオフレームの再構成フレームを得ることができる、等である。図１Cの例は、単にソリューションを理解しやすくするためのものであり、ソリューションを限定するものではないことを理解すべきである。

なお、この例は、本願の実施形態の適用シナリオを理解しやすくするためのものであり、本願の実施形態の適用シナリオは列挙されていない。

本願の実施形態では、AI技術（すなわち、ニューラルネットワーク）を用いてビデオフレーム上で圧縮符号化及び伸長を行う。したがって、本願の実施形態には、ニューラルネットワークの推論フェーズとニューラルネットワークのトレーニングフェーズが含まれる。ニューラルネットワークの推論フェーズとニューラルネットワークのトレーニングフェーズの処理は異なる。以下では、推論フェーズとトレーニングフェーズについて個別に説明する。

１．推論フェーズ

上記の説明から、本願の実施形態で提供されている圧縮符号化方法及び伸長方法では、エンコーダが圧縮符号化を行い、デコーダが伸長を行うことが分かる。以下では、エンコーダとデコーダの動作を分けて説明する。また、エンコーダに複数のニューラルネットワークを構成する場合、現在のビデオに対応した目標圧縮情報をエンコーダが生成する処理について説明する。実装では、エンコーダは、まずネットワーク選択ポリシに従って複数のニューラルネットワークから目標ニューラルネットワークを決定し、目標ニューラルネットワークを使用して現在のビデオフレームに対応した目標圧縮情報を生成する。別の実装では、エンコーダは、複数のニューラルネットワークを使用して現在のビデオフレームの複数の圧縮情報を個別に生成し、生成された複数の圧縮情報に基づいて現在のビデオフレームに対応した目標圧縮情報を決定する。前述の２つの実装は実装手順が異なるため、以下では２つの実装について個別に説明する。

１．エンコーダは、先ず、複数のニューラルネットワークから目標ニューラルネットワークを選択する。

本願の幾つかの実施例では、エンコーダは、先ず、ネットワーク選択ポリシに従って複数のニューラルネットワークから、現在のビデオフレームを処理するために使用される目標ニューラルネットワークを選択する。このソリューションをより直感的に理解するために、図２は、本願の実施形態によるビデオフレーム圧縮方法の原理の概略図である。図２に示すように、エンコーダは、現在のビデオシーケンス内の任意のビデオフレーム（すなわち、図２の現在のビデオフレーム）について、ネットワーク選択ポリシに従って複数のニューラルネットワークから目標ニューラルネットワークを選択し、目標ニューラルネットワークを使用して現在のビデオフレームに対して圧縮符号化を実行し、現在のビデオフレームに対応する目標圧縮情報を取得する。図２の例は、単にソリューションを理解しやすくするためのものであり、ソリューションを限定するものではないことを理解すべきである。具体的に、図３は、本願の実施形態によるビデオフレーム圧縮方法の概略フローチャートである。本願の実施形態によるビデオフレーム圧縮方法は、以下のステップを含むことができる：

３０１：エンコーダがネットワーク選択ポリシに従って複数のニューラルネットワークから目標ニューラルネットワークを決定する。

本願の実施形態では、エンコーダ用に複数のニューラルネットワークを構成する。複数のニューラルネットワークは、少なくとも第１ニューラルネットワーク、第２ニューラルネットワーク、又は圧縮を実行するために使用される別のニューラルネットワークを含む。第１ニューラルネットワーク、第２ニューラルネットワーク、及び別の種類のニューラルネットワークは、すべてトレーニングされたニューラルネットワークである。エンコーダは、現在のビデオシーケンス内の任意のビデオフレームを処理するとき、ネットワーク選択ポリシに従って複数のニューラルネットワークから目標ニューラルネットワークを決定し、目標ニューラルネットワークを使用して現在のビデオフレームに対して圧縮符号化を実行し、現在のビデオフレームに対応する目標圧縮情報を取得することができる。目標圧縮情報は、エンコーダが最終的にデコーダに送信することを決定した圧縮情報である。つまり、目標圧縮情報は、複数のニューラルネットワークの中の１つの目標ニューラルネットワークによって生成される。

なお、本願の以降の実施形態では、複数のニューラルネットワークに第１ニューラルネットワークと第２ニューラルネットワークのみが含まれる例を用いて説明する。複数のニューラルネットワークに３つ以上のニューラルネットワークが含まれる場合については、本願の実施形態における複数のニューラルネットワークに第１ニューラルネットワークと第２ニューラルネットワークが含まれる場合の説明を参照のこと。詳細は、本願の本実施形態において再び説明されない。

ビデオ符号化は通常、ビデオ又はビデオシーケンスを形成するピクチャシーケンスを処理することを意味する。ビデオ符号化の分野では、「ピクチャ（picture）」、「ビデオフレーム（frame）」、又は「画像（image）」という用語が同義語として使用される場合がある。ビデオ符号化はソース側で行われ、通常は、ビデオフレームを表すために必要なデータ量を減らすために、元のビデオフレームの処理（例えば圧縮）が含まれる（したがって、記憶及び／又は送信の効率を向上する）。ビデオ復号は、宛先側で実行され、通常、ビデオフレームを再構成するために、エンコーダと比べたとき逆の処理を含む。符号化部及び復号部は、符号化／復号（encoding and decoding, CODEC）とも呼ばれる。

ネットワーク選択ポリシが、現在のビデオフレームの位置情報又は現在のビデオフレームで運ばれるデータ量のいずれか１つ以上に関連する。

具体的には、以下は、ネットワーク選択ポリシに従って複数のニューラルネットワークから目標ニューラルネットワークを選択する処理について説明する。実装では、ステップ３０１は以下を含むことができる：エンコーダは、現在のビデオシーケンス内の現在のビデオフレームの位置情報を取得することができ、位置情報は、現在のビデオフレームが現在のビデオシーケンス内の第Xフレームであることを示し、ネットワーク選択ポリシに従って、第１ニューラルネットワークと第２ニューラルネットワークを含む複数のニューラルネットワークから、現在のビデオシーケンスの位置情報に対応する目標ニューラルネットワークを選択することができる。

現在のビデオシーケンス内の現在のビデオフレームの位置情報は、インデックス番号として具体的に表される場合があり、インデックス番号は文字列として具体的に表される場合がある。例えば、現在のビデオフレームのインデックス番号は、具体的には０００００２２３、０００００３６８、又は別の文字列である場合があり、ここでは列挙されない。

ネットワーク選択ポリシは、特定のルールに従って、第１ニューラルネットワーク又は第２ニューラルネットワークを交互に選択する場合がある。つまり、エンコーダは、第１ニューラルネットワークを使用して現在のビデオフレームのn個のビデオフレームに対して圧縮符号化を実行し、次に、第２ニューラルネットワークを使用して現在のビデオフレームのm個のビデオフレームに対して圧縮符号化を実行する。代替として、第２ニューラルネットワークを使用して現在のビデオフレームのm個のビデオフレームに対して圧縮符号化を実行した後、エンコーダは、第１ニューラルネットワークを使用して現在のビデオフレームのn個のビデオフレームに対して圧縮符号化を実行する。nとmの両方の値は１以上の整数であってもよく、nとmの値は同じであっても異なっていてもよい。

例えば、nとmの値が１の場合、ネットワーク選択ポリシは、第１ニューラルネットワークを使用して現在のビデオシーケンスの奇数フレームに圧縮符号化を実行し、第２ニューラルネットワークを使用して現在のビデオシーケンスの偶数フレームに圧縮符号化を実行することができる。代替として、ネットワーク選択ポリシは、第２ニューラルネットワークを使用して現在のビデオシーケンスの奇数フレームに圧縮符号化を実行し、第１ニューラルネットワークを使用して現在のビデオシーケンスの偶数フレームに圧縮符号化を実行することができる。別の例では、例えばnの値は１で、mの値は３である。ネットワーク選択ポリシは、第１ニューラルネットワークを使用して現在のビデオシーケンスの１つのビデオフレームで圧縮符号化が実行された後、第２ニューラルネットワークを使用して現在のビデオシーケンスの３つの連続するビデオフレームで圧縮符号化が実行するなどである。これは、ここでは列挙されない。

より直感的にソリューションを理解するために、図４は、本願の実施形態によるビデオフレーム圧縮方法における現在のビデオフレームの位置と使用されている目標ニューラルネットワークとの対応の概略図である。図３は、nの値を１、mの値を３とした例を用いて説明される。図４に示すように、第１ニューラルネットワークを用いて第tビデオフレームで圧縮符号化を行った後、エンコーダは、第２ニューラルネットワークを用いて、第（t+１）ビデオフレーム、第（t+２）ビデオフレーム、及び第（t+３）ビデオフレームで別々に圧縮符号化を行い、別の時間に、第１ニューラルネットワークを用いて、第（t+４）ビデオフレームで圧縮符号化を行う。つまり、第１ニューラルネットワークを用いて１つの現在のビデオフレームで圧縮符号化を行った後、第２ニューラルネットワークを用いて３つの現在のビデオフレームで圧縮符号化を行う。図４の例は、単にソリューションを理解しやすくするためのものであり、ソリューションを限定するものではないことを理解すべきである。

別の実装では、ステップ３０１は以下を含むことができる：エンコーダは、現在のビデオフレームの属性を取得し、第１ニューラルネットワークと第２ニューラルネットワークから目標ニューラルネットワークを選択する。現在のビデオフレームの属性は、現在のビデオフレームで伝送されるデータ量を示し、現在のビデオフレームの属性には、現在のビデオフレームのエントロピー、コントラスト、彩度、及び別の種類の属性のいずれか又は任意の組み合わせが含まれる。これは、ここでは列挙されない。

さらに、現在のビデオフレームのエントロピーが大きいほど、現在のビデオフレームで運ばれるデータ量が大きいこと、及び目標ニューラルネットワークが第２ニューラルネットワークである確率が大きいことを示している。現在のビデオフレームのエントロピーが小さいほど、目標ニューラルネットワークが第２ニューラルネットワークである確率が小さいことを示している。現在のビデオフレームのコントラストが大きいほど、現在のビデオフレームで運ばれるデータ量が大きいこと、及び目標ニューラルネットワークが第２ニューラルネットワークである確率が大きいことを示している。現在のビデオフレームのコントラストが小さいほど、目標ニューラルネットワークが第２ニューラルネットワークである確率が小さいことを示している。

本願のこの実装では、現在のビデオシーケンスにおける現在のビデオフレームの位置情報に基づいて、複数のニューラルネットワークから目標ニューラルネットワークを選択する。代替として、現在のビデオの少なくとも１つの属性に基づいて、目標ニューラルネットワークを複数のニューラルネットワークから選択し、目標ニューラルネットワークを使用して現在のビデオフレームの圧縮情報を生成することもできる。これにより、簡易且つ操作が容易な複数の実装ソリューションが提供され、ソリューションの実装の柔軟性が向上する。

別の実装では、エンコーダは、目標ニューラルネットワークとして第１ニューラルネットワーク又は第２ニューラルネットワークのいずれかを選択し、目標ニューラルネットワークを使用して現在のビデオフレームの目標圧縮情報を生成することができる。任意的に、エンコーダは、第１ニューラルネットワークの第１選択確率と第２ニューラルネットワークの第２選択確率を別々に構成することができ、第２選択確率の値が第１選択確率の値以上であり、第１選択確率と第２選択確率に基づいて目標ニューラルネットワークを選択することができる。例えば、第１選択確率の値は０．２、第２選択確率の値は０．８である。別の例では、第１選択確率の値は０．３、第２選択確率の値は０．７である。第１選択確率と第２選択確率の値はここでは列挙しない。

３０２：エンコーダは、現在のビデオフレームに対して、目標ニューラルネットワークを使用して圧縮符号化を行い、現在のビデオフレームに対応する目標圧縮情報を取得する。

本願のこの実施形態では、目標ニューラルネットワークは、第１ニューラルネットワーク、第２ニューラルネットワーク、ビデオフレームの圧縮に使用される別のネットワークなどであってよい。第１ニューラルネットワークを用いて圧縮情報を取得した場合、目標圧縮情報には現在のビデオフレームの第１特徴の第１圧縮情報が含まれ、現在のビデオフレームの参照フレームが現在のビデオフレームの第１特徴の圧縮処理に使用され、現在のビデオフレームの参照フレームは現在のビデオフレームの第１特徴の生成処理に使用されない。

現在のビデオフレームの参照フレームと現在のビデオフレームの両方が、現在のビデオシーケンスからのものである。現在のビデオフレームは、現在のビデオシーケンスに含まれる元のビデオフレームである。実装では、現在のビデオフレームの参照フレームは、現在のビデオシーケンスの元のビデオフレームである場合があり、現在のビデオシーケンスの参照フレームのソート位置は、現在のビデオフレームの前又は後に位置する場合がある。つまり、現在のビデオシーケンスを再生すると、参照フレームは現在のビデオフレームよりも前に表示される場合もあれば、現在のビデオフレームよりも後に表示される場合もある。

別の実装では、現在のビデオフレームの参照フレームは、現在のビデオシーケンスの元のビデオフレームではない場合があり、現在のビデオシーケンスの中の、現在のビデオフレームの参照フレームに対応するの元の参照フレームのソート位置は、現在のビデオフレームの前又は後に位置する場合がある。現在のビデオフレームの参照フレームは、エンコーダが元の参照フレームで変換符号化及び逆変換復号を実行した後に取得されたビデオフレームである場合がある。代替として、現在のビデオフレームの参照フレームは、エンコーダが元の参照フレームに圧縮符号化と伸長を行った後に取得されたビデオフレームである。さらに、第１ニューラルネットワーク又は第２ニューラルネットワークを使用して圧縮を実施することもできる。

特許出願番号CN２０２０１１２７１２１７．８の記述を参照のこと。第１ニューラルネットワークは、少なくとも符号化（encoding）ネットワークとエントロピー符号化層を含み、符号化ネットワークを使用して現在のビデオフレームから現在のビデオフレームの第１特徴を取得し、エントロピー符号化層を使用して、現在のビデオフレームの参照フレームに基づき現在のビデオフレームの第１特徴の圧縮処理を実行し、現在のビデオフレームに対応する第１圧縮情報を出力する。

このソリューションをより直感的に理解するために、図５Aは、本願の実施形態による第１ニューラルネットワークの構造の概略図である。図５Aに示すように、符号化ネットワークは、現在のビデオフレームを符号化して量子化を実行し、現在のビデオフレームの第１特徴を得るために使用される。エントロピー符号化層は、現在のビデオフレームの参照フレームに基づいて現在のビデオフレームの第１特徴を圧縮し、現在のビデオフレームに対応する第１圧縮情報（すなわち、現在のビデオフレームに対応する目標圧縮情報の例）を出力するために使用される。図５Aの例は、単にソリューションを理解しやすくするためのものであり、ソリューションを限定するものではないことを理解すべきである。

具体的に、以下は、エンコーダが第１ニューラルネットワークを使用して、現在のビデオフレームに対応する第１圧縮情報を生成する処理について説明する。エンコーダは、第１符号化ネットワーク（encoding network）を使用して現在のビデオフレームに対して変換符号化を実行し、変換符号化が実行された後に量子化を実行して、現在のビデオフレームの第１特徴を得ることができる。つまり、現在のビデオフレームの第１特徴は現在のビデオフレームにのみ基づいて取得でき、現在のビデオフレームの参照フレームは第１特徴の生成処理では必要ない。

さらに、第１符号化ネットワークは、具体的には多層畳み込みネットワークとして表される場合がある。第１特徴は、M個のピクセルの特徴を含み、具体的には、１次元テンソル（すなわち、ベクトル）、２次元テンソル（すなわち、行列）、３次元テンソル、又はより高次元のテンソルなどのL次元テンソルとして表される場合がある。これは、ここでは列挙されない。

エンコーダは、現在のビデオフレームのN個の参照フレームに基づいて現在のビデオフレームの特徴を予測し、現在のビデオフレームの第１予測された特徴を生成し、現在のビデオフレームの第１予測された特徴に基づいて、現在のビデオフレームの第１特徴の確率分布を生成する。エンコーダは、現在のビデオフレームの第１特徴の確率分布に基づいて、現在のビデオフレームの第１特徴に対して、エントロピー符号化を実行し、第１圧縮情報を取得する。

現在のビデオフレームの第１予測された特徴は、現在のビデオフレームの第１特徴の予測結果であり、現在のビデオフレームの第１予測された特徴にはM個のピクセルの特徴も含まれ、現在のビデオフレームの第１予測された特徴は特にテンソルとして表される場合がある。現在のビデオフレームの第１予測された特徴のデータ形状は、現在のビデオフレームの第１特徴のデータ形状と同じであり、第１予測された特徴の形状が第１特徴の形状と同じであることは、第１予測された特徴と第１特徴の両方がL次元テンソルであり、第１予測された特徴のL次元のうちの第１次元のサイズは、第１特徴のL次元のうちの第２次元のサイズと同じであることを意味する。Lは１以上の整数であり、第１次元は第１予測された特徴のL個の次元のうちの任意の次元であり、第２次元は第１特徴のL個の次元のうちの次元であり、第１次元と同じ次元である。

現在のビデオフレームの第１特徴の確率分布には、現在のビデオフレームの第１特徴の平均と現在のビデオフレームの第１特徴の分散が含まれる。さらに、第１特徴の平均と第１特徴の方法の両方をL次元テンソルとして表すことができ、第１特徴の平均のデータ形状は第１特徴のデータ形状と同じであり、第１特徴の分散の形状は第１特徴のデータ形状と同じである。したがって、第１特徴の平均にはM個のピクセルの各々に対応する値が含まれ、第１特徴の分散にはM個のピクセルの各々に対応する値が含まれる。

エンコーダが、現在のビデオフレームのN個の参照フレームに基づいて現在のビデオフレームの特徴を予測し、現在のビデオフレームの第１予測された特徴を生成する特定の実装、及び、エンコーダが、現在のビデオフレームの第１予測された特徴に基づいて、現在のビデオフレームの第１特徴の確率分布を生成する特定の実装については、特許出願番号CN２０２０１１２７１２１７．８の説明を参照のこと。

特許出願番号CN２０２０１１２７１２１７．８では、N個の第２ビデオフレームに基づいて第１ビデオフレームの特徴を予測し、第１ビデオフレームの第１予測された特徴を生成し、第１ビデオフレームの第１特徴の確率分布を第１ビデオフレームの第１予測された特徴に基づいて生成するという違いがある。本願の実施形態では、現在のビデオフレームのN個の参照フレームに基づいて現在のビデオフレームを予測し、現在のビデオフレームの第１予測された特徴を生成し、現在のビデオフレームの第１特徴の確率分布を現在のビデオフレームの第１予測された特徴に基づいて生成する。つまり、本願の実施形態では、特許出願番号CN２０２０１１２７１２１７．８の「第１ビデオフレーム」を「現在のビデオフレーム」に置き換え、特許出願番号CN２０２０１１２７１２１７．８の「第２ビデオフレーム」を「現在のビデオフレームの参照フレーム」に置き換える特定の実装については特許出願番号CN２０２０１１２７１２１７．８の記述を参照のこと。詳細はここに説明されない。

本願のこの実装では、エンコーダは、現在のビデオフレームに対応する第１予測された特徴に基づいて、現在のビデオフレームの第１特徴の確率分布を生成し、次に、現在のビデオフレームの第１特徴の確率分布に基づいて、現在のビデオフレームの第１特徴に対して圧縮符号化を実行し、現在のビデオフレームの第１圧縮情報を取得する。第１予測された特徴と第１特徴の間の類似性が高いことは、第１特徴の圧縮率が大きく、最終的に取得される第１圧縮情報が小さいことを示す。現在のビデオフレームの第１予測された特徴は、現在のビデオフレームのN個の参照フレームに基づいて現在のビデオフレームの特徴を予測することによって得られ、現在のビデオフレームの第１予測された特徴と現在のビデオフレームの第１特徴の間の類似性を改善する。これにより、圧縮された第１圧縮情報のサイズが小さくなる。つまり、デコーダによって得られる再構成フレームの品質を確保し、エンコーダとデコーダ間で伝送されるデータ量を減らすことができる。

第２ニューラルネットワークを用いて目標圧縮情報を取得した場合、目標圧縮情報には現在のビデオフレームの第２特徴の第２圧縮情報が含まれ、現在のビデオフレームの参照フレームが現在のビデオフレームの第２特徴の生成処理に使用される。第２ニューラルネットワークは、畳み込みネットワークとエントロピー符号化層を含み、畳み込みネットワークは、複数の畳み込み層と活性化ReLU層を含み、畳み込みネットワークは、現在のビデオフレームの参照フレームに基づいて現在のビデオフレームの第２特徴の生成処理を実行するために使用され、エントロピー符号化層は、現在のビデオフレームの第２特徴を圧縮して、現在のビデオフレームに対応する第２圧縮情報を出力するために使用される。

本願のこの実施形態では、第１ニューラルネットワークと第２ニューラルネットワークの特定のネットワーク構造が提供される。これにより、ソリューションと特定の適用シナリオとの統合が改善される。

具体的には、現在のビデオフレームの参照フレームに対して元の現在のビデオフレームのオプティカルフローを生成した後、エンコーダはオプティカルフローに対して圧縮符号化を実行して、圧縮されたオプティカルフローを得ることができる。現在のビデオフレームの第２特徴には、現在のビデオフレームの参照フレームに対する元の現在のビデオフレームのオプティカルフローのみが含まれる。

任意で、エンコーダは、代替として、現在のビデオフレームの参照フレームと、現在のビデオフレームの参照フレームに対する元の現在のビデオフレームのオプティカルフローに基づいて、予測された現在のビデオフレームを生成し、元の現在のビデオフレームと予測された現在のビデオフレームの間の残差を計算し、現在のビデオフレームの参照フレームに対する元の現在のビデオフレームのオプティカルフローと、元の現在のビデオフレームと予測された現在のビデオフレームの間の残差に対して、圧縮符号化を実行し、現在のビデオフレームに対応する第２圧縮情報を出力することもできる。現在のビデオフレームの第２特徴には、現在のビデオフレームの参照フレームに対する元の現在のビデオフレームのオプティカルフロー、及び元の現在のビデオフレームと予測された現在のビデオフレームとの間の残差が含まれる。

さらに、エンコーダが現在のビデオフレームの第２特徴を取得した後、現在のビデオフレームの第２特徴のデータ量が少ないため、エンコーダは現在のビデオフレームの第２特徴を直接圧縮して、現在のビデオフレームに対応する第２圧縮情報を取得できる。圧縮は、ニューラルネットワークを使用して実装することも、非ニューラルネットワークの方法で実装することもできる。例えば、圧縮符号化はエントロピー符号化である場合がある。

このソリューションをより直感的に理解するために、図５Bは、本願の実施形態による第２ニューラルネットワークの構造の概略図である。図５Bに示すように、エンコーダは、現在のビデオフレームと現在のビデオフレームの参照フレームを畳み込みネットワークに入力し、畳み込みネットワークを使用してオプティカルフロー推定を行い、現在のビデオフレームの参照フレームに対する現在のビデオフレームのオプティカルフローを得る。エンコーダは、畳み込みネットワークを使用して、現在のビデオフレームの参照フレームと現在のビデオフレームの参照フレームに対する現在のビデオフレームのオプティカルフローに基づいて、現在のビデオフレームの再構成フレームを生成し、現在のビデオの再構成フレームと現在のビデオフレームの間の残差を取得する。エンコーダは、現在のビデオフレームの参照フレームに対する現在のビデオフレームのオプティカルフロー、及び現在のビデオの再構成フレームと現在のビデオフレームとの間の残差を、エントロピー符号化層を使用して圧縮し、現在のビデオフレームの第２圧縮情報を出力することができる。図５Bの例は、単にソリューションを理解しやすくするためのものであり、ソリューションを限定するものではないことを理解すべきである。

第１特徴と第２特徴の違いをより直感的に理解するために、図５Cは、本願の実施形態によるビデオフレーム圧縮方法における第１特徴と第２特徴の比較の概略図である。図５Cは、（a）と（b）の２つのサブグラフを含む。図５Cの（a）は、現在のビデオフレームの第１特徴を生成する概略図であり、図５Cの（b）は、現在のビデオフレームの第２特徴を生成する概略図である。図５Aの（a）を参照する。現在のビデオフレームが符号化ネットワークに入力され、符号化ネットワークを使用して変換符号化と量子化（quantization, Q）が行われ、現在のビデオフレームの第１特徴が得られる。変換符号化の後に量子化が行われる。

図５Cの（b）を参照する。図５Cの（b）の破線ボックスの内容は、現在のビデオフレームの第２特徴を示している。図５Cの（b）は、現在のビデオフレームの第２特徴には、現在のビデオフレームの参照フレームに対する元の現在のビデオフレームのオプティカルフロー、及び元の現在のビデオフレームと予測された現在のビデオフレームとの間の残差、の両方が含まれることを詳細に示している。ここでは、現在のビデオフレームの第２特徴の生成処理については説明しない。図５Cの（a）と図５Cの（b）を比較すると、現在のビデオフレームの参照フレームは、現在のビデオフレームの第１特徴の生成処理では必要ではないが、現在のビデオフレームの第２特徴の生成処理で必要であることが分かる。図５Cの例は、単に第１特徴と第２特徴の概念を理解しやすくするためのものであり、ソリューションを制限することを意図していないことを理解する必要がある。

なお、ビデオフレームに圧縮符号化を実行するために使用される別のニューラルネットワーク（説明を簡単にするために「第５ニューラルネットワーク」と呼ばれる）もエンコーダに構成することができるが、エンコーダは少なくとも第１ニューラルネットワークと第２ニューラルネットワークと共に構成される。第１ニューラルネットワークと第２ニューラルネットワークを使用して圧縮符号化を実行する詳細な処理については、以降の実施形態の説明を参照のこと。詳細はここに説明されない。例えば、第５ニューラルネットワークは、現在のビデオフレームを直接圧縮するニューラルネットワークである場合がある。つまり、エンコーダは、現在のビデオフレームを第５ニューラルネットワークに入力し、第５ニューラルネットワークを使用して現在のビデオフレームを直接圧縮して、第５ニューラルネットワークによって出力される、現在のビデオフレームに対応する第３圧縮情報を取得する場合がある。さらに、第５ニューラルネットワークは、具体的には畳み込みニューラルネットワークである場合がある。

３０３：エンコーダは、目標圧縮情報に対応する指示情報を生成し、この指示情報は、目標圧縮情報が第１ニューラルネットワーク又は第２ニューラルネットワークのいずれかである目標ニューラルネットワークを使用して得られたことを示す。

本願のこの実施形態では、エンコーダは、１つ以上の現在のビデオフレームの目標圧縮情報を取得した後、少なくとも１つの現在のビデオフレームの目標圧縮情報に１対１に対応する少なくとも１つの指示情報をさらに生成することができる。少なくとも１つの指示情報は、第１ニューラルネットワーク又は第２ニューラルネットワークのいずれかである目標ニューラルネットワークを使用して各々の目標圧縮情報が得られることを示す。つまり、指示情報は、第１ニューラルネットワーク又は第２ニューラルネットワークのいずれかを使用して目標圧縮情報が得られることを示す。

現在のビデオシーケンスにおける複数のビデオフレームの目標圧縮情報に対応する複数の指示情報は、具体的に文字列として又は別の形式で表すこともできる。例えば、現在のビデオシーケンスにおける複数のビデオフレームの目標圧縮情報に対応する複数の指示情報は、具体的に００１０１１０１０１であってよい。文字列中の１文字は、１つの指示情報を示す。１つの指示情報が０の場合は、指示情報に対応する現在のビデオフレームが第１ニューラルネットワークを用いて圧縮されていることを示す。１つの指示情報が１の場合は、指示情報に対応する現在のビデオフレームが第２ニューラルネットワークを用いて圧縮されていることを示す。

具体的には、実装では、エンコーダが１つの現在のビデオフレームの目標圧縮情報を取得するたびに、エンコーダは現在のビデオフレームの目標圧縮情報に対応する１つの指示情報を生成する場合がある。つまり、エンコーダはステップ３０３とステップ３０１とステップ３０２を交互に実行する場合がある。

別の実装では、エンコーダは、代替として、ステップ３０１を使用して、予め設定された数の現在のビデオフレームの目標圧縮情報を生成し、次に、予め設定された数の現在のビデオフレームに対応する、予め設定された数の指示情報を生成することができ、予め設定された数が１より大きい整数、例えば、３、４、５、６、又は別の値である。これは、ここでは限定されない。

別の実装では、エンコーダは、代替として、ステップ３０１とステップ３０２を使用して、現在のビデオシーケンス全体に対応する複数の目標圧縮情報を生成し、次にステップ３０３を使用して、現在のビデオシーケンス全体に対応する複数の指示情報を生成してもよい。具体的な実装はここで限定されない。

３０４：エンコーダは、現在のビデオフレームの目標圧縮情報を送信する。

本願のこの実施形態では、エンコーダは、ファイル転送プロトコル（file transfer protocol, FTP）の制約下で、現在のビデオシーケンス内の少なくとも１つの現在のビデオフレームの目標圧縮情報をデコーダに送信することができる。

具体的には、幾つかの実装では、エンコーダは、少なくとも１つの目標圧縮情報をデコーダに直接送信することができる。別の実装では、エンコーダは、代替として、サーバや管理センタなどの中間装置に少なくとも１つの目標圧縮情報を送信することができ、中間装置は、デコーダに目標圧縮情報を送信する。

任意で、第１ニューラルネットワークを使用して目標圧縮情報を生成する場合は、特許出願番号CN２０２０１１２７１２１７．８の説明を参照する。現在のビデオフレームの第１圧縮情報をデコーダに送信するとき、エンコーダは、現在のビデオフレームの第１予測された特徴を生成する方法で、現在のビデオフレームに対応する１つ又は２つのタイプの第１インターサイド情報、第２インターサイド情報、第１イントラサイド情報、及び第２イントラサイド情報をさらにデコーダに送信することができる。対応して、デコーダは、現在のビデオフレームに対応する１つ又は２つのタイプの第１インターサイド情報、第２インターサイド情報、第１イントラサイド情報、及び第２イントラサイド情報を受信することができる。送信される特定のタイプの情報は、現在のビデオフレームの第１圧縮情報の伸長中に必要な情報のタイプに基づいて決定する必要がある。

また、第１インターサイド情報、第２インターサイド情報、第１イントラサイド情報、第２イントラサイド情報の意味と機能については、特許出願番号CN２０１１２７１２１７．８の記述を参照のこと。詳細はここに説明されない。

３０５：エンコーダは、現在のビデオフレームの目標圧縮情報に対応する指示情報を送信する。

本願の本実施形態では、ステップ３０５は任意的ステップである。ステップ３０３が実行されない場合、ステップ３０５は実行されない。ステップ３０３が実行される場合、ステップ３０５は実行される。ステップ３０５が実行された場合、ステップ３０５とステップ３０４が同時に実行される場合がある。つまり、エンコーダは、FTPプロトコル（ファイル転送プロトコルの略）の制約下で、デコーダに、現在のビデオシーケンス内の少なくとも１つの現在のビデオフレームの目標圧縮情報と、少なくとも１つの現在のビデオフレームの目標圧縮情報に１対１で対応する少なくとも１つの指示情報を送信する。代替として、ステップ３０４とステップ３０５を別々に実行してもよい。本願の実施形態では、ステップ３０４とステップ３０５の実行順序は制限されない。

したがって、デコーダは、複数の目標圧縮情報に対応する複数の指示情報を得ることができるため、デコーダは、現在のビデオシーケンスの各ビデオフレームを伸長するために、第１ニューラルネットワーク又は第２ニューラルネットワークのいずれかを使用することを知ることができる。これは、デコーダが圧縮情報を復号する時間を短縮するのに役立つ。つまり、これは、エンコーダとデコーダによって実行されるビデオフレーム送信全体の効率を向上させるのに役立つ。

本願のこの実装では、第１ニューラルネットワークを用いて圧縮情報を取得した場合、圧縮情報は現在のビデオフレームの第１特徴の圧縮情報を運び、現在のビデオフレームの参照フレームが現在のビデオフレームの第１特徴の圧縮処理にのみ使用され、現在のビデオフレームの第１特徴の生成処理に使用されない。したがって、デコーダが第１圧縮情報に基づいて伸長を実行した後、現在のビデオフレームの第１特徴を取得するために、現在のビデオフレームの参照フレームなしで現在のビデオフレームの再構成フレームを取得できる。したがって、第１ニューラルネットワークを用いて圧縮情報を得る場合、現在のビデオフレームの再構成フレームの品質は、現在のビデオフレームの参照フレームの再構成フレームの品質に依存しないため、フレームごとにエラーが蓄積されるのを防ぎ、ビデオフレームの再構成フレームの品質を向上させることができる。また、現在のビデオフレームの参照フレームに基づいて現在のビデオフレームの第２特徴が生成され、第２特徴の第２圧縮情報に対応するデータ量が第１特徴の第１圧縮情報に対応するデータ量よりも少ないため、エンコーダは、第１ニューラルネットワークと第２ニューラルネットワークを使用して現在のビデオシーケンスの異なるビデオフレームを処理し、送信する必要のあるデータ量を最小限に抑え、ビデオフレームの再構成フレームの品質を向上させるために、第１ニューラルネットワークと第２ニューラルネットワークの利点を組み合わせることができる。

２．エンコーダは、複数のニューラルネットワークを用いて個別に圧縮符号化を行い、目標圧縮情報を決定する。

本願の幾つかの実施形態では、エンコーダは、複数のニューラルネットワークを用いて現在のビデオフレームに対して個別に圧縮符号化を行い、次に現在のビデオフレームに対応する目標圧縮情報を決定する。このソリューションをより直感的に理解するために、図６は、本願の実施形態によるビデオフレーム圧縮方法の別の原理の概略図である。図６は、複数のニューラルネットワークに第１ニューラルネットワークと第２ニューラルネットワークのみが含まれる例を用いて説明される。エンコーダは、第１ニューラルネットワークを用いて現在のビデオフレームに圧縮符号化を行い、現在のビデオフレームの第１特徴の第１圧縮情報（すなわち、図６のr_p）を取得し、第１圧縮情報に基づいて現在のビデオフレームの再構成フレーム（すなわち、図６のd_p）を生成する。エンコーダは、第２ニューラルネットワークを用いて現在のビデオフレームに圧縮符号化を行い、現在のビデオフレームの第２特徴の第２圧縮情報（すなわち、図６のr_r）を取得し、第２圧縮情報に基づいて現在のビデオフレームの再構成フレーム（すなわち、図６のd_r）を生成する。エンコーダは、r_p、d_p、r_r、d_r、及びネットワーク選択ポリシに基づいて、第１圧縮情報と第２圧縮情報から現在のビデオフレームに対応する目標圧縮情報を決定する。図６の例は、単にソリューションを理解しやすくするためのものであり、ソリューションを限定するものではないことを理解すべきである。

具体的に、図７Aは本願の実施形態によるビデオフレーム圧縮方法の別の概略フローチャートである。本願の実施形態によるビデオフレーム圧縮方法は、以下のステップを含むことができる：

７０１：エンコーダは、第１ニューラルネットワークを使用して現在のビデオフレームに圧縮符号化を実行し、現在のビデオフレームの第１特徴の第１圧縮情報を取得する。ここで、現在のビデオフレームの参照フレームは、現在のビデオフレームの第１特徴の圧縮処理に使用される。

本願のこの実施形態では、現在のビデオフレームを取得した後、エンコーダは、複数のニューラルネットワークのうちの第１ニューラルネットワークを使用して現在のビデオフレームに圧縮符号化を実行し、現在のビデオフレームの第１特徴の第１圧縮情報を取得する。現在のビデオフレームの第１特徴の意味、現在のビデオフレームの第１特徴の第１圧縮情報の意味、及びステップ７０１の具体的な実装については、図３に対応する実施形態の説明を参照のこと。詳細はここで再び記載されない。

７０２：エンコーダは、第１ニューラルネットワークを使用して第１ビデオフレームを生成する。ここで、第１ビデオフレームは現在のビデオフレームの再構成フレームである。

本願の幾つかの実施形態では、第１ニューラルネットワークを使用して現在のビデオフレームの第１特徴の第１圧縮情報を生成した後、エンコーダは、第１ニューラルネットワークを使用してさらに伸長を実行して、第１ビデオフレームを生成し、ここで、第１ビデオフレームは現在のビデオフレームの再構成フレームである。

第１圧縮情報には現在のビデオフレームの第１特徴の圧縮情報が含まれ、現在のビデオフレームの参照フレームは、現在のビデオフレームの第１特徴を取得するために、第１圧縮情報の伸長処理に使用され、現在のビデオフレームの第１特徴は、現在のビデオフレームの再構成フレームの生成処理に使用される。つまり、エンコーダは、第１圧縮情報を伸長した後、現在のビデオフレームの参照フレームなしで、現在のビデオフレームの再構成フレームを取得できる。

第１ニューラルネットワークは、さらに、エントロピー復号層と復号（Decoding）ネットワークを含み、エントロピー復号層は、現在のビデオフレームの参照フレームに基づいて現在のビデオフレームの第１圧縮情報を伸長するために使用され、復号ネットワークは、現在のビデオフレームの第１特徴に基づいて現在のビデオフレームの再構成フレームを生成するために使用される。

具体的には、エンコーダは、エントロピー復号層を使用することによって、現在のビデオフレームのN個の参照フレームの再構成フレームに基づいて現在のビデオフレームの特徴を予測し、現在のビデオフレームの第１予測された特徴を得ることができ、エントロピー復号層を使用することによって、現在のビデオフレームの第１予測された特徴に基づいて、現在のビデオフレームの第１特徴の確率分布を生成することができる。エンコーダは、現在のビデオフレームの第１特徴の確率分布に基づいて、現在のビデオフレームの第１圧縮情報に対して、エントロピー復号層を使用してエントロピー復号を実行し、現在のビデオフレームの第１特徴を取得する。エンコーダは、さらに、現在のビデオフレームの第１特徴に対して、第１復号（decoding）ネットワークを使用して逆変換復号を実行し、現在のビデオフレームの再構成フレームを取得する。第１復号ネットワークは第１符号化ネットワークに対応し、第１復号ネットワークは多層畳み込みネットワークとして表すこともできる。

より具体的には、エンコーダが現在のビデオフレームのN個の参照フレームの再構成フレームに基づいて現在のビデオフレームの第１予測された特徴を生成する特定の実装は、エンコーダが現在のビデオフレームのN個の参照フレームの再構成フレームに基づいて現在のビデオフレームの第１予測された特徴を生成する特定の実装と似ている。エンコーダが現在のビデオフレームの第１予測された特徴に基づいて現在のビデオフレームの第１特徴の確率分布を生成する特定の実装は、エンコーダが現在のビデオフレームの第１予測された特徴に基づいて現在のビデオフレームの第１特徴の確率分布を生成する特定の実装と似ている。上記のステップの具体的な実装については、図３に対応する実施形態のステップ３０２の説明を参照のこと。詳細はここで再び記載されない。

７０３：エンコーダは、第２ニューラルネットワークを使用して現在のビデオフレームに圧縮符号化を実行し、現在のビデオフレームの第２特徴の第２圧縮情報を取得する。ここで、現在のビデオフレームの参照フレームは、現在のビデオフレームの第２特徴の生成処理に使用される。

本願のこの実施形態では、現在のビデオフレームを取得した後、エンコーダは、複数のニューラルネットワークのうちの第２ニューラルネットワークを使用して現在のビデオフレームに圧縮符号化を実行し、現在のビデオフレームの第２特徴の第２圧縮情報を取得する。現在のビデオフレームの第２特徴の意味、現在のビデオフレームの第２特徴の第２圧縮情報の意味、及びステップ７０１の具体的な実装については、図３に対応する実施形態の説明を参照のこと。詳細はここで再び記載されない。

７０４：エンコーダは、第２ニューラルネットワークを使用して第２ビデオフレームを生成する。ここで、第２ビデオフレームは現在のビデオフレームの再構成フレームである。

本願の幾つかの実施形態では、第２ニューラルネットワークを使用して現在のビデオフレームの第２特徴の第２圧縮情報を生成した後、エンコーダは、第２ニューラルネットワークを使用してさらに伸長を実行して、第２ビデオフレームを生成し、ここで、第２ビデオフレームは現在のビデオフレームの再構成フレームである。

第２ニューラルネットワークは、エントロピー復号層と畳み込みネットワークを更に含むことができ、エントロピー復号層は、第２圧縮情報に対してエントロピー復号を実行するために使用され、畳み込みネットワークは、現在のビデオフレームの参照フレームと現在のビデオフレームの第２特徴に基づいて、現在のビデオフレームの再構成フレームの生成処理を実行するために使用される。

具体的には、エンコーダは、エントロピー復号層を使用して第２圧縮情報に対してエントロピー復号を実行し、現在のビデオフレームの第２特徴、つまり、現在のビデオフレームの参照フレームに対する元の現在のビデオフレームのオプティカルフローを取得することができる。任意で、現在のビデオフレームの第２特徴には、元の現在のビデオフレームと予測された現在のビデオフレームの間の残差がさらに含まれる。

エンコーダは、現在のビデオフレームの参照フレームと、現在のビデオフレームの参照フレームに対する元の現在のビデオフレームのオプティカルフローに基づいて、現在のビデオフレームを予測して、予測された現在のビデオフレームを取得し、更に、予測された現在のビデオフレーム、及び元の現在のビデオフレームと予測された現在のビデオフレームとの間の残差に基づいて、第２ビデオフレーム（つまり、現在のビデオフレームの再構成フレーム）を生成する。

７０５：エンコーダは、第１圧縮情報、第１ビデオフレーム、第２圧縮情報、第２ビデオフレームに基づいて、現在のビデオフレームに対応する目標圧縮情報を決定し、決定された目標圧縮情報が第１ニューラルネットワークを使用して得られ、決定された目標圧縮情報が第１圧縮情報である、又は、決定された目標圧縮情報が第２ニューラルネットワークを使用して得られ、決定された目標圧縮情報が第２圧縮情報である。

本願のこの実施形態では、エンコーダは、第１圧縮情報と第１ビデオフレームに基づいて、第１圧縮情報に対応する第１スコア（すなわち、第１ニューラルネットワークに対応する第１スコア）を計算し、第２圧縮情報と第２ビデオフレームに基づいて、第２圧縮情報に対応する第２スコア（すなわち、第２ニューラルネットワークに対応する第２スコア）を計算し、第１スコアと第２スコアに基づいて、現在のビデオフレームに対応する目標圧縮情報を決定することができる。決定された目標圧縮情報が、第１ニューラルネットワークを使用して得られた第１圧縮情報である場合、目標ニューラルネットワークは第１ニューラルネットワークである。代替として、決定された目標圧縮情報が、第２ニューラルネットワークを使用して得られた第２圧縮情報である場合、目標ニューラルネットワークは第２ニューラルネットワークである。

第１スコアは第１ニューラルネットワークを用いて現在のビデオフレームを圧縮する性能を示し、第２スコアは第２ニューラルネットワークを用いて現在のビデオフレームを圧縮する性能を示す。さらに、第１スコアが小さいほど第１ニューラルネットワークを用いて現在のビデオフレームを処理する性能が良く、第１スコアが大きいほど第１ニューラルネットワークを用いて現在のビデオフレームを処理する性能が悪いことを示す。第２スコアが小さいほど第２ニューラルネットワークを用いて現在のビデオフレームを処理する性能が良く、第２スコアが大きいほど第２ニューラルネットワークを用いて現在のビデオフレームを処理する性能が悪いことを示す。

以下では、第１スコアと第２スコアの計算処理について説明する。具体的には、エンコーダは、第１圧縮情報と第１ビデオフレームを取得した後、第１圧縮情報のデータ量を取得し、現在のビデオフレームに対する第１圧縮情報の第１圧縮率を計算し、第１ビデオフレームの画質を計算し、現在のビデオフレームに対する第１圧縮情報の第１圧縮率と第１ビデオフレームの画質に基づいて第１スコアを生成することができる。第１圧縮情報のデータ量が多いほど第１スコアが大きく、第１圧縮情報のデータ量が少ないほど第１スコアが小さくなる。第１ビデオフレームの画質が低いほど第１スコアが大きく、第１ビデオフレームの画質が高いほど第１スコアが小さくなる。

また、現在のビデオフレームに対する第１圧縮情報の第１圧縮率は、第１圧縮情報のデータ量と現在のビデオフレームのデータ量との比であってもよい。

エンコーダは、現在のビデオフレームと第１ビデオフレームとの間の構造的類似性指標（structural similarity index, SSIM）を計算することがあり、ここで、「構造的類似性指標」は第１ビデオフレームの画質を示す。エンコーダは、別の指標を使用して、第１ビデオフレームの画質をさらに測定する場合があることに注意する。例えば、「構造的類似性指標」は、マルチスケール構造的類似性指標（multi-scale structural similarity index, MS-SSIM）、ピーク信号対雑音比（peak signal-to-noise ratio, PSNR）、別の指標などに置き換えることができる。ここでは指標は列挙されない。

現在のビデオフレームに対する第１圧縮情報の第１圧縮率と第１ビデオフレームの画質を取得した後、エンコーダは、第１圧縮率と第１ビデオフレームの画質に対して加重和を実行して、第１ニューラルネットワークに対応する第１スコアを生成することができる。なお、エンコーダは、第１圧縮率と第１ビデオフレームの画質を取得した後、代替として、第１圧縮率に第１ビデオフレームの画質を乗算するなど、別の方法で第１スコアを取得することもできる。第１圧縮率と第１ビデオフレームの画質に基づいて第１スコアを取得する具体的な方法は、実際の適用シナリオに基づいて柔軟に決定することができる。これは、ここでは列挙されない。

これに対応して、エンコーダは、第２圧縮情報と第２ビデオフレームを取得した後、第２圧縮情報のデータ量と第２ビデオフレームの画質を計算し、次に、第２圧縮情報のデータ量と第２ビデオフレームの画質に基づいて第２スコアを生成する場合がある。第２スコアの生成方法は、第１スコアの生成方法と同様である。詳細については、上述の説明を参照する。詳細はここで再び記載されない。

ここでは、第１スコアと第２スコアを基に、現在のビデオフレームに対応する目標圧縮情報を決定する処理について説明する。具体的には、実装において、エンコーダは、第１圧縮情報に対応する算出された第１スコアと、第２圧縮情報に対応する算出された第２スコアを取得した後、第１スコアと第２スコアのうち小さい方のスコアを目標スコアとして選択し、目標スコアに対応する圧縮情報を目標圧縮情報として決定する場合がある。エンコーダは、ビデオシーケンス内の各ビデオフレームに対して上記の操作を行い、各ビデオフレームに対応する目標圧縮情報を取得する。

当業者が研究中に得た知見については、図７Bを参照のこと。別の実装では、図７Bは本願の実施形態によるビデオフレーム圧縮方法における第１スコアと第２スコアの概略図である。図７Bにおいて、水平座標は現在のビデオシーケンスにおける１つのビデオフレームの位置情報を示し、垂直座標は各ビデオフレームに対応するスコアを示し、A１は現在のビデオシーケンスにおける複数のビデオフレームを圧縮する処理における第１スコアに対応する破線を示し、A２は現在のビデオシーケンスにおける複数のビデオフレームを圧縮する処理における第２スコアに対応する破線を示す。A３は第１ニューラルネットワークと第２ニューラルネットワークを用いてビデオフレーム１を別々に圧縮して得られる第１スコアと第２スコアを示す。図７Bから、第１ニューラルネットワークを用いてビデオフレーム１を処理して得られるスコアの方が小さいことが分かる。したがって、エンコーダは第１ニューラルネットワークを用いてビデオフレーム１を処理する。ビデオフレーム１が第１ニューラルネットワークを用いて処理された後、ビデオフレーム２（すなわち、現在のビデオシーケンス内のビデオフレーム１の次のビデオフレーム）に対応する第１スコアと第２スコアの両方が大きく減少する。つまり、第１ニューラルネットワークを用いて１つのビデオフレームを圧縮するたびに、新しい期間の開始がトリガされる。ある期間では、第１スコアの値は直線的に増加し、第２スコアの値も直線的に増加し、第２スコアの成長率は第１スコアの成長率よりも大きくなる。図７Bの例は、単にソリューションを理解しやすくするためのものであり、ソリューションを限定するものではないことを理解すべきである。

ソリューションをより直感的に理解するために、１つの期間で、複数の第１スコアを次の式に当てはめることができる：

L_piは、１つの期間の複数の第１スコアに対応する直線の始点、すなわち、複数の第１スコアに対応する第１フィッティング式のオフセットを示し、k_piは、１つの期間の複数の第１スコアに対応する直線の傾き、すなわち、複数の第１スコアに対応する第１フィッティング式の係数を示し、tは、１つの期間の第１ビデオフレームとその期間の任意の現在のビデオフレームとの間のビデオフレームの数を示す。例えば、１つの期間の第２ビデオフレームに対応するtの値は１である。

１つの期間で、複数の第２スコアを次の式に当てはめることができる：

L_piは、１つの期間の複数の第２スコアに対応する直線の始点、すなわち、複数の第２スコアに対応する第２フィッティング式のオフセットを示し、k_piは、１つの期間の複数の第２スコアに対応する直線の傾き、すなわち、複数の第２スコアに対応する第２フィッティング式の係数を示す。tの意味については、式（１）の説明を参照のこと。

１つの期間に対応する全体スコアは、次の式に当てはめることができる：

lossは、１つの期間の全スコアの合計を示し、Tは１つの期間のビデオフレームの総数を示す。第１ニューラルネットワークを使用して１つのビデオフレームを圧縮すると、新しい期間に入るようトリガされ、１つの期間の第１（T－１）個のビデオフレームが第２ニューラルネットワークを使用して圧縮され、最後のビデオフレームが第１ニューラルネットワークを使用して圧縮される。従って、次式は、１つの期間の第２ニューラルネットワークを使用して圧縮されたすべてのビデオフレームに対応する少なくとも第２スコアの合計を示し：

次式は１つの期間の最後のビデオフレームに対応する第１スコアを示す：

次に、エンコーダは１つの期間を計算単位として使用し、各期間の合計スコアの平均値を最小化することを目的とする。ソリューションをより直感的に理解するために、次の式を使用する。

T及びlossの意味については、式（３）の説明を参照のこと。詳細はここで再び記載されない。次式は、１つの期間の合計スコアの平均値を最小化することを目的としていることを示している：

式（４）に式（３）を代入すると、次式が得られる：

当業者は研究中に以下を発見した：

そのため、以下の場合：

各期間の合計スコアの平均値が最も小さくなる。

数式に従って推論が行われる。具体的には、実装では、現在のビデオシーケンスに対応する複数の期間のいずれか１つについて、エンコーダは、先ず、１つの期間の第１２つの現在のビデオフレームに対応する２つの第１スコアを取得し、その期間の第１２つの現在のビデオフレームに対応する２つの第２スコアを取得する。現在のビデオフレームに対応する第１スコアと現在のビデオフレームに対応する第２スコアを取得する方法については、前述の説明を参照のこと。詳細はここで再び記載されない。

エンコーダは、期間内の第１２つの現在のビデオフレームに対応する２つの第１スコアに基づいて、期間内の複数の第１スコアに対応する第１フィッティング式の係数とオフセット、すなわちl_piとk_piの値を生成することができる。エンコーダは、１つの期間内の第１２つの現在のビデオフレームに対応する２つの第２スコアに基づいて、１つの期間内の複数の第２スコアに対応する第２フィッティング式の係数とオフセット、すなわちl_prとk_prの値を生成する。

以下は、第１フィッティング式の係数とオフセット、及び第２フィッティング式の係数とオフセットを取得した後、エンコーダが現在のビデオフレームの目標圧縮情報を決定する処理について説明する。実装では、tが０に等しい場合、エンコーダは、その期間の第１ビデオフレームに対応する第２圧縮情報を、現在のビデオフレーム（すなわち、その期間の第１ビデオフレーム）の目標圧縮情報として決定し、つまり、その期間の第１ビデオフレームに対応する目標ニューラルネットワークを、第２ニューラルネットワークとして決定し、そして、tが１に等しい場合の処理を続ける。

tが１に等しい場合、つまり、期間内の第１２つの現在のビデオフレームに対応する２つの第１スコアを取得し、期間内の第１２つの現在のビデオフレームに対応する２つの第２スコアを取得した後、エンコーダは式（５）に従ってTの値を計算できる。T<３の場合、エンコーダは、その期間の第２ビデオフレームに対応する第１圧縮情報を、現在のビデオフレーム（すなわち、その期間の第２ビデオフレーム）の目標圧縮情報として決定し、つまり、その期間の第２ビデオフレームに対応する目標ニューラルネットワークを、第１ニューラルネットワークとして決定する。次の期間に入るようトリガされる。

T≧３の場合、エンコーダは、その期間の第２ビデオフレームに対応する第２圧縮情報を、現在のビデオフレーム（すなわち、その期間の第２ビデオフレーム）の目標圧縮情報として決定し、つまり、その期間の第２ビデオフレームに対応する目標ニューラルネットワークを、第２ニューラルネットワークとして決定し、そして、tが２に等しい場合の処理を続ける。

tが２に等しい場合、エンコーダは、１つの期間で第３ビデオフレーム（すなわち、現在のビデオフレームの例）に対応する第１スコアと第２スコアを取得する。現在のビデオフレームに対応する第１スコアと第２スコアを生成する具体的な方法については、前述の説明を参照のこと。詳細はここで再び記載されない。エンコーダは、１つの期間の第１３つのビデオフレームに対応する３つの第１スコアに基づいて、第１フィッティング式の係数とオフセットを再計算し（つまり、l_piとk_piの値を再計算する）、期間の第１３つのビデオフレームに対応する３つの第２スコアに基づいて、第２フィッティング式の係数とオフセットを再計算し（つまり、l_prとk_prの値を再計算する）、第１フィッティング式の再計算された係数と再計算されたオフセット、及び第２フィッティング式の再計算された係数と再計算されたオフセットに基づいてTの値を再計算する。

T<t+２の場合、エンコーダは、その期間の第３ビデオフレームに対応する第１圧縮情報を、現在のビデオフレーム（すなわち、その期間の第３ビデオフレーム）の目標圧縮情報として決定し、つまり、その期間の第３ビデオフレームに対応する目標ニューラルネットワークを、第１ニューラルネットワークとして決定する。次の期間に入るようトリガされる。

T≧t+２の場合、エンコーダは、その期間の第３ビデオフレームに対応する第２圧縮情報を、現在のビデオフレーム（すなわち、その期間の第３ビデオフレーム）の目標圧縮情報として決定し、つまり、その期間の第３ビデオフレームに対応する目標ニューラルネットワークを、第２ニューラルネットワークとして決定し、そして、tが３に等しい場合の処理を続ける。

tの値が３、４、又はそれ以上の場合、エンコーダの処理方法はtが２に等しい場合の処理方法と同様である。詳細はここで再び記載されない。

別の実装では、tが０に等しい場合、エンコーダは、その期間の第１ビデオフレームに対応する第２圧縮情報を、現在のビデオフレーム（すなわち、その期間の第１ビデオフレーム）の目標圧縮情報として決定し、つまり、その期間の第１ビデオフレームに対応する目標ニューラルネットワークを、第２ニューラルネットワークとして決定し、そして、tが１に等しい場合の処理を続ける。

tが１に等しい場合、１つの期間内の第１２つの現在のビデオフレームに対応する２つの第１スコアを取得し、期間内の第１２つの現在のビデオフレームに対応する２つの第２スコアを取得した後、エンコーダは、第１フィッティング式の係数とオフセット（すなわち、l_piとk_piの値）、及び第２フィッティング式の係数とオフセット（すなわち、l_prとk_prの値）を計算し、式（５）に従って、期間内の第２ビデオフレーム（すなわち、現在のビデオフレームの例）を第１ニューラルネットワークを使用して圧縮して得られた、期間の合計スコアの第１平均値を計算し、期間内の第２ビデオフレーム（すなわち、現在のビデオフレームの例）を第２ニューラルネットワークを使用して圧縮し及び期間内の第３ビデオフレームを第１ニューラルネットワークを使用して圧縮して得られた、期間の合計スコアの第２平均値を計算することができる。

第１平均値が第２平均値より大きい場合、エンコーダは、期間内の第２ビデオフレームに対応する目標圧縮情報を現在のビデオフレームの第１圧縮情報として決定する、つまり、期間内の第２ビデオフレームに対応する目標圧縮情報を第１ニューラルネットワークとして決定する。新しい期間に入るようトリガされる。

第１平均値が第２平均値と等しい場合、エンコーダは、期間内の第２ビデオフレームに対応する第１圧縮情報を現在のビデオフレームの目標圧縮情報として決定する、つまり、期間内の第２ビデオフレームに対応する目標ニューラルネットワークを第１ニューラルネットワークとして決定する。新しい期間に入るようトリガされる。代替として、エンコーダは、期間内の第２ビデオフレームに対応する第２圧縮情報を現在のビデオフレームの目標圧縮情報として決定する、つまり、期間内の第２ビデオフレームに対応する目標ニューラルネットワークを第２ニューラルネットワークとして決定し、tが２に等しい場合の処理を続行することができる。

第１平均値が第２平均値より小さい場合、エンコーダは、その期間の第２ビデオフレームに対応する第２圧縮情報を現在のビデオフレームの目標圧縮情報として決定し、つまり、その期間の第２ビデオフレームに対応する目標ニューラルネットワークを第２ニューラルネットワークとして決定し、tが２に等しい場合の処理を続行することができる。

tが２に等しい場合、エンコーダは、期間内の第３ビデオフレームに対応する第１スコアを取得し、期間内の第１２つの現在のビデオフレームに対応する第２スコアを取得できる。現在のビデオフレームに対応する第１スコアと第２スコアを生成する具体的な方法は、ここで再び説明されない。エンコーダは、１つの期間の第１３つのビデオフレームに対応する３つの第１スコアに基づいて、第１フィッティング式の係数とオフセットを再計算し（つまり、l_piとk_piの値を再計算する）、期間の第１３つのビデオフレームに対応する３つの第２スコアに基づいて、第２フィッティング式の係数とオフセットを再計算し（つまり、l_prとk_prの値を再計算する）、第１フィッティング式の再計算された係数と再計算されたオフセット、及び第２フィッティング式の再計算された係数と再計算されたオフセットに基づいて、更新された第１平均値と更新された第２平均値を計算する。更新された第１平均値は、期間の第３ビデオフレーム（すなわち、現在のビデオフレームの例）を第１ニューラルネットワークを使用して圧縮して得られた期間の合計スコアの平均値であり、更新された第２平均値は、期間の第３ビデオフレーム（すなわち、現在のビデオフレームの例）を第２ニューラルネットワークを使用して圧縮し、及び期間の第４ビデオフレームを第１ニューラルネットワークを使用して圧縮して得られた期間の合計スコアの平均値である。

更新された第１平均値が更新された第２平均値より大きい場合、エンコーダは、期間内の第３ビデオフレームに対応する目標圧縮情報を現在のビデオフレームの第１圧縮情報として決定する、つまり、期間内の第３ビデオフレームに対応する目標圧縮情報を第１ニューラルネットワークとして決定する。新しい期間に入るようトリガされる。

更新された第１平均値が更新された第２平均値と等しい場合、エンコーダは、期間内の第３ビデオフレームに対応する第１圧縮情報を現在のビデオフレームの目標圧縮情報として決定する、つまり、期間内の第３ビデオフレームに対応する目標ニューラルネットワークを第１ニューラルネットワークとして決定する。新しい期間に入るようトリガされる。代替として、エンコーダは、期間内の第３ビデオフレームに対応する第２圧縮情報を現在のビデオフレームの目標圧縮情報として決定する、つまり、期間内の第３ビデオフレームに対応する目標ニューラルネットワークを第２ニューラルネットワークとして決定し、tが３に等しい場合の処理を続行することができる。

更新された第１平均値が更新された第２平均値より小さい場合、エンコーダは、その期間の第３ビデオフレームに対応する第２圧縮情報を現在のビデオフレームの目標圧縮情報として決定し、つまり、その期間の第３ビデオフレームに対応する目標ニューラルネットワークを第２ニューラルネットワークとして決定し、tが３に等しい場合の処理を続行することができる。

本願の実施例では、当業者は、研究中に１つの期間内の第１スコアと第２スコアの変更ルールを発見し、１つの期間内の全てのスコアの最小平均値を最適化の目的として使用する。つまり、現在の各ビデオフレームに対応する目標圧縮情報を決定する場合、現在のビデオフレームのスコアと全期間のスコアの平均値の両方を考慮して、現在のビデオシーケンス全体のすべてのビデオフレームに対応するスコアをさらに削減する必要がある。これにより、現在のビデオシーケンス全体に対応する圧縮情報のパフォーマンスが更に向上する。さらに、ソリューションの実装の柔軟性を向上させるために、２つの異なる実装が提供されている。

別の実装では、エンコーダは、代替として、１つの期間を計算単位として使用でき、各期間の合計スコアの平均値を最小化することを目的とする。tが０に等しい場合の特定の実装とtが１に等しい場合の特定の実装については、Bの場合の第１実装の説明を参照のこと。詳細はここで再び記載されない。

t=２の場合、エンコーダは、期間内の第３ビデオフレーム（すなわち、現在のビデオフレームの例）に対応する第１スコアと第２スコアを取得せず、第１フィッティング式の係数とオフセット、及び第２フィッティング式の係数とオフセットを再計算しない。ただし、t=１の場合、エンコーダは計算によって得られたTの値を直接取得する。T<t+２の場合、エンコーダは、その期間の第３ビデオフレームに対応する第１圧縮情報を、現在のビデオフレーム（すなわち、その期間の第３ビデオフレーム）の目標圧縮情報として決定し、つまり、その期間の第３ビデオフレームに対応する目標ニューラルネットワークを、第１ニューラルネットワークとして決定する。次の期間に入るようトリガされる。

より直感的にソリューションを理解するために、図７Cは、本願の実施形態によるビデオフレーム圧縮方法の第１フィッティング式の係数とオフセット及び第２フィッティング式の係数とオフセットの計算の概略図である。図７cに示すように、１つの期間のビデオフレームを垂直方向の２本の破線の間で処理する。期間中、第２ニューラルネットワークを用いて複数のビデオフレームに対して圧縮符号化を行い、第１ニューラルネットワークを用いて期間中の最後のビデオフレームに対して圧縮符号化を行う。まず、エンコーダは、１つの期間内の第１２つの現在のビデオフレーム（すなわち、第１ビデオフレームと第２ビデオフレーム）に対応する２つの第１スコアを取得し、期間内の第１２つの現在のビデオフレームに対応する２つの第２スコアを取得し、エンコーダは、第１フィッティング式の係数とオフセット（すなわち、l_piとk_piの値）、及び第２フィッティング式の係数とオフセット（すなわち、l_prとk_prの値）を計算し、式（５）に従って、期間内のTの最適値を計算することができる。t=２の場合、エンコーダは、期間内の第３ビデオフレームに対応する第１スコアと第２スコアを取得せず、第１フィッティング式の係数とオフセット、及び第２フィッティング式の係数とオフセットを再計算しない。図７Cの例は、単にソリューションを理解しやすくするためのものであり、ソリューションを限定するものではないことを理解すべきである。

本願のこの実施形態では、１つの期間において、第１フィッティング式の係数とオフセット、及び第２フィッティング式の係数とオフセットは、期間内の第１２つのビデオフレームに対応する２つの第１スコアと２つの第２スコアのみに基づいて計算によって得られる。次に、期間内の合計スコアの最小平均値を最適化の目的として使用し、現在の期間内の最適なビデオフレームの数を得る。期間内の合計スコアの最小平均値は、引き続き最適化の目的として使用されるため、現在のビデオシーケンス内のすべてのビデオフレームに対応するスコアをさらに減らすことができる。また、tが２以上の場合、第１フィッティング式の係数とオフセット、及び第２フィッティング式の係数とオフセットは更新されない。これにより、第１フィッティング式と第２フィッティング式のパラメータを計算する時間が節約され、現在のビデオシーケンスの圧縮情報の生成効率がさらに向上する。

別の実装では、エンコーダは、代替として、１つの期間を計算単位として使用でき、各期間の合計スコアの平均値を最小化することを目的とする。tが０に等しい場合の特定の実装と、tが１に等しい場合の特定の実装については、Bの場合の第１実装の説明を参照のこと。詳細は、ここでは再度説明しない。

t=２の場合、エンコーダは、期間内の第３ビデオフレーム（すなわち、現在のビデオフレームの例）に対応する第２スコアのみを取得し、期間内の第３ビデオフレーム（すなわち、現在のビデオフレームの例）に対応する第１スコアは取得しない。また、エンコーダは、第２フィッティング式の係数とオフセットのみを再計算し、第１フィッティング式の係数とオフセットは再計算しない。エンコーダは、更新されていない第１フィッティング式と更新された第２フィッティング式に従って、t=２のときのTの値を計算する。T<t+２の場合、エンコーダは、その期間の第３ビデオフレームに対応する第１圧縮情報を、現在のビデオフレーム（すなわち、その期間の第３ビデオフレーム）の目標圧縮情報として決定し、つまり、その期間の第３ビデオフレームに対応する目標ニューラルネットワークを、第１ニューラルネットワークとして決定する。次の期間に入るようトリガされる。

tの値が３、４、又はそれ以上の場合、エンコーダの処理方法はtが２に等しい場合の処理方法と同様である。詳細は、ここでは再度説明しない。

この実装では、最終的に送信する必要がある圧縮情報は、少なくとも１つの現在のビデオフレームの第１圧縮情報、第１ビデオフレーム、現在のビデオフレームの第２圧縮情報、及び第２ビデオフレームに基づいて、選択される。この実装では、予め設定されたネットワーク選択ポリシに従って、第１ニューラルネットワークと第２ニューラルネットワークから目標ニューラルネットワークを決定し、次に目標ニューラルネットワークを使用して目標圧縮情報を生成する方法と比較して、現在のビデオシーケンス全体に対応する圧縮情報のパフォーマンスを可能な限り向上させることができる。

７０６：エンコーダは、目標圧縮情報に対応する指示情報を生成し、この指示情報は、目標圧縮情報が第１ニューラルネットワーク又は第２ニューラルネットワークのいずれかである目標ニューラルネットワークを使用して得られたことを示す。

７０７：エンコーダは、現在のビデオフレームの目標圧縮情報を送信する。

７０８：エンコーダは、現在のビデオフレームの目標圧縮情報に対応する指示情報を送信する。

本願のこの実施形態では、ステップ７０６及びステップ７０８は必須のステップである。ステップ７０６～ステップ７０８を具体的な実装については、図３に対応する実施形態におけるステップ３０３～ステップ３０５の説明を参照する。詳細は、ここでは再度説明しない。本願の実施形態では、ステップ７０７とステップ７０８の実行順序は制限されないことに留意すべきである。ステップ７０７とステップ７０８は同時に実行してもよく、ステップ７０７はステップ７０８の前に実行してもよく、ステップ７０８はステップ７０７の前に実行してもよい。

本願のこの実施形態では、最終的に送信する必要がある圧縮情報は、少なくとも１つの現在のビデオフレームの第１圧縮情報、第１ビデオフレーム、現在のビデオフレームの第２圧縮情報、及び第２ビデオフレームに基づいて、第１圧縮情報と第２圧縮情報から選択される。この実装では、ネットワーク選択ポリシに従って複数のニューラルネットワークから目標ニューラルネットワークを決定し、次に目標ニューラルネットワークを使用して目標圧縮情報を生成する方法と比較して、現在のビデオシーケンス全体に対応する圧縮情報のパフォーマンスを可能な限り向上させることができる。

本願の実施形態では、図８は本願の実施形態によるビデオフレーム圧縮方法の別の概略フローチャートである。本願の実施形態によるビデオフレーム圧縮方法は、以下のステップを含むことができる：

８０１：エンコーダは、第１ニューラルネットワークを用いて第３ビデオフレームに圧縮符号化を行い、第３ビデオフレームに対応する第１圧縮情報を取得し、第１圧縮情報には第３ビデオフレームの第１特徴の圧縮情報が含まれ、第３ビデオフレームの参照フレームは第３ビデオフレームの第１特徴の圧縮処理に使用される。

本願のこの実施形態では、現在のビデオフレームの第３ビデオフレームを処理するとき、エンコーダは、第３ビデオフレームの目標圧縮情報が、第１ニューラルネットワークによって生成された、第３ビデオフレームに対応する第１圧縮情報であると決定する。第３ビデオフレームは現在のビデオシーケンスのビデオフレームであり、第３ビデオフレームの概念は現在のビデオフレームの概念と同様である。第３ビデオフレームの第１特徴の意味については、図３に対応する実施形態の「現在のビデオフレームの第１特徴」の意味の説明を参照のこと。「第３ビデオフレームの参照フレーム」の意味、第３ビデオフレームに対応する第１圧縮情報をエンコーダが生成する特定の実装、及び最終的にデコーダに送信する必要がある第３ビデオフレームの圧縮情報をエンコーダが決定する特定の実装については、図３に対応する実施形態の説明を参照のこと。詳細は、ここでは再度説明しない。

８０２：エンコーダは、第２ニューラルネットワークを使用して第４ビデオフレームに圧縮符号化を実行して、第４ビデオフレームに対応する第２圧縮情報を得る。第２圧縮情報は、第４ビデオフレームの第２特徴の圧縮情報を含み、第４ビデオフレームの参照フレームが第４ビデオフレームの第２特徴の生成処理に使用され、第３ビデオフレームと第４ビデオフレームが同じビデオシーケンスの異なるビデオフレームである。

本願のこの実施形態では、現在のビデオフレームの第４ビデオフレームを処理するとき、エンコーダは、第４ビデオフレームの目標圧縮情報が、第４ビデオフレームに対応する第２ニューラルネットワークによって生成された第２圧縮情報であると決定する。第４ビデオフレームは現在のビデオシーケンスのビデオフレームであり、第４ビデオフレームの概念は現在のビデオフレームの概念と同様であり、第３ビデオフレームと第４ビデオフレームは同じ現在のビデオシーケンスの異なるビデオフレームである。

第４ビデオフレームの第２特徴の意味については、図３に対応する実施形態の「現在のビデオフレームの第２特徴」の意味の説明を参照のこと。「第４ビデオフレームの参照フレーム」の意味、第４ビデオフレームに対応する第２圧縮情報をエンコーダが生成する特定の実装、及び最終的にデコーダに送信する必要がある第４ビデオフレームの圧縮情報をエンコーダが決定する特定の実装については、図３に対応する実施形態の説明を参照のこと。詳細は、ここでは再度説明しない。

本願のこの実施形態では、ステップ８０１とステップ８０２の特定の実施順序は制限されないことに留意すべきである。ステップ８０２の前にステップ８０１を実行してもよいし、ステップ８０１の前にステップ８０２を実行してもよい。具体的な順序は、実際の適用シナリオに基づいて決定する必要があり、ここでは制限されない。

８０３：エンコーダは指示情報を生成する。指示情報は、第１圧縮情報が第１ニューラルネットワークを用いて得られたものであり、第２圧縮情報が第２ニューラルネットワークを用いて得られたものであることを示す。

本願のこの実施形態では、ステップ８０３は、図３に対応する実施形態のステップ３０３と同様である。現在のビデオシーケンス内の１つ以上の現在のビデオフレームの目標圧縮情報を生成した後、エンコーダは、１つ以上の目標圧縮情報に１対１に対応する指示情報を生成する場合がある。目標圧縮情報は、具体的には第１圧縮情報又は第２圧縮情報である。目標圧縮情報及び指示情報の意味については、図３に対応する実施形態のステップ３０３の説明を参照のこと。詳細は、ここでは再度説明しない。

具体的には、エンコーダは、まずステップ８０１とステップ８０２を複数回実行し、次にステップ８０３を使用して、現在のビデオシーケンスの各ビデオフレームの目標圧縮情報に１対１に対応する指示情報を生成する。代替として、エンコーダは、ステップ８０１が実行されるか又はステップ８０２が実行されるたびに、ステップ８０３を実行することもできる。代替として、エンコーダは、ステップ８０１及び／又はステップ８０２が事前に設定された回数実行された後に、ステップ８０３を１回実行することもできる。事前に設定された回数は、１より大きい整数、例えば、３、４、５、６、又は別の値である。これは、ここでは限定されない。

なお、ステップ８０１又はステップ８０２において、エンコーダが図７Aに対応する実施形態に示す方法で現在のビデオフレーム（すなわち、第３ビデオフレーム又は第４ビデオフレーム）の目標圧縮情報を決定する場合、ステップ８０３は必須のステップである。、ステップ８０１又はステップ８０２において、エンコーダが図３に対応する実施形態に示す方法で現在のビデオフレーム（すなわち、第３ビデオフレーム又は第４ビデオフレーム）の目標圧縮情報を取得する場合、ステップ８０３は任意的なステップである。ステップ８０３の具体的な実装については、図３に対応する実施形態のステップ３０３の説明を参照のこと。詳細は、ここでは再度説明しない。

８０４：エンコーダは、現在のビデオフレームに対応する目標圧縮情報を送信する。目標圧縮情報は第１圧縮情報又は第２圧縮情報である。

本願のこの実施形態では、少なくとも１つの第３ビデオフレームに１対１に対応する少なくとも１つの第１圧縮情報を生成した後、及び／又は少なくとも１つの第４ビデオフレームに１対１に対応する少なくとも１つの第２圧縮情報を生成した後、エンコーダは、FTPプロトコルの制約下でデコーダに、少なくとも１つの現在のビデオフレーム（すなわち、第３ビデオフレーム及び／又は第４ビデオフレーム）に１対１に対応する少なくとも１つの目標圧縮情報（すなわち、第１圧縮情報及び／又は第２圧縮情報）を送信することができる。ステップ８０４の具体的な実装については、図３に対応する実施形態のステップ３０４の説明を参照のこと。詳細は、ここでは再度説明しない。

このソリューションをより直感的に理解するために、図９は、本願の実施形態によるビデオフレーム圧縮方法の概略図である。図９に示すように、エンコーダは、第３ニューラルネットワークを使用して現在のビデオシーケンスの一部のビデオフレームに圧縮符号化を実行し、第４ニューラルネットワークを使用して現在のビデオシーケンスの他のビデオフレームに圧縮符号化を実行し、次に、現在のビデオシーケンスのすべての現在のビデオフレームに対応する目標圧縮情報を送信する。目標圧縮情報は、第１圧縮情報又は第２圧縮情報である。図９の例は、単にソリューションを理解しやすくするためのものであり、ソリューションを限定するものではないことを理解すべきである。

８０５：エンコーダは、現在のビデオフレームに対応する指示情報を送信する。

本願の本実施形態では、ステップ８０５は任意的ステップである。ステップ８０３が実行されない場合、ステップ８０５は実行されない。ステップ８０３が実行される場合、ステップ８０５は実行される。ステップ８０５が実行された場合、ステップ８０５とステップ８０４が同時に実行される場合がある。ステップ８０５の具体的な実装については、図３に対応する実施形態のステップ３０５の説明を参照のこと。詳細は、ここでは再度説明しない。

本願のこの実施形態では、第１ニューラルネットワークを使用して現在のビデオシーケンスの第３ビデオフレームに圧縮符号化を実行する場合、第１圧縮情報は現在のビデオフレームの第１特徴の圧縮情報を伝達し、現在のビデオフレームの参照フレームは現在のビデオフレームの第１特徴の圧縮処理にのみ使用され、現在のビデオフレームの第１特徴の生成処理には使用されない。したがって、デコーダが第１圧縮情報に基づいて伸長を実行した後、現在のビデオフレームの第１特徴を取得するために、現在のビデオフレームの参照フレームなしで現在のビデオフレームの再構成フレームを取得できる。したがって、第１ニューラルネットワークを用いて目標圧縮情報を得る場合、現在のビデオフレームの再構成フレームの品質は、現在のビデオフレームの参照フレームの再構成フレームの品質に依存しないため、フレームごとにエラーが蓄積されるのを防ぎ、ビデオフレームの再構成フレームの品質を向上させることができる。第２ニューラルネットワークを使用して第４ビデオフレームに対して圧縮符号化を実行する場合、第４ビデオフレームの参照フレームに基づいて第４ビデオフレームの第２特徴が生成されるため、第２圧縮情報に対応するデータ量は、第１圧縮情報に対応するデータ量よりも少なくなる。また、第１ニューラルネットワークと第２ニューラルネットワークの両方を使用して、現在のビデオシーケンスの異なるビデオフレームを処理し、第１ニューラルネットワークと第２ニューラルネットワークの利点を組み合わせて、送信する必要のあるデータ量を最小限に抑え、ビデオフレームの再構成フレームの品質を向上させる。

次に、図１０Aから図１２を参照して、デコーダによって実行されるステップを詳細に説明する。図１０Aは、本願の実施形態によるビデオフレーム伸長方法の概略フローチャートである。本願のこの実施形態によるビデオフレーム伸長方法は、以下のステップを含むことができる：

１００１：デコーダは、少なくとも１つの現在のビデオフレームに対応する目標圧縮情報を受信する。

本願のこの実施形態では、エンコーダは、FTPプロトコルの制約下でデコーダに、現在のビデオフレームの少なくとも１つの現在のビデオフレームに対応する少なくとも１つの目標圧縮情報を送信することができる。対応して、デコーダは、現在のビデオフレームの少なくとも１つの現在のビデオフレームに対応する少なくとも１つの目標圧縮情報を受信することができる。

具体的には、実装では、デコーダは、エンコーダから、少なくとも１つの現在のビデオフレームに対応する目標圧縮情報を直接受信することができる。別の実装では、デコーダは、代替として、サーバや管理センタなどの中間装置から、少なくとも１つの現在のビデオフレームに対応する目標圧縮情報を受信することができる。

１００２：デコーダは、目標圧縮情報に対応する指示情報を受信する。

本願の幾つかの実施形態では、エンコーダは、少なくとも１つの目標圧縮情報に１対１に対応する少なくとも１つの指示情報を送信する。対応して、デコーダは、少なくとも１つの目標圧縮情報に１対１に対応する少なくとも１つの指示情報を受信できる。指示情報の意味については、図３に対応する実施形態の説明を参照のこと。詳細は、ここでは再度説明しない。

なお、ステップ１００２は任意のステップである。ステップ１００２を実行する場合、本願のこの実施形態ではステップ１００１とステップ１００２の実行順序は限定されず、ステップ１００１とステップ１００２を同時に実行してもよい。

１００３：デコーダは、複数のニューラルネットワークから、現在のビデオフレームに対応する目標ニューラルネットワークを選択し、複数のニューラルネットワークには第３ニューラルネットワークと第４ニューラルネットワークが含まれる。

本願のこの実施形態では、デコーダは、少なくとも１つの現在のビデオフレームに対応する少なくとも１つの目標圧縮情報を取得した後、複数のニューラルネットワークから目標ニューラルネットワークを選択して伸長を行い、各現在のビデオフレームの再構成フレームを取得する必要がある。複数のニューラルネットワークは、第３ニューラルネットワークと第４ニューラルネットワークを含み、第３ニューラルネットワークと第４ニューラルネットワークは両方とも伸長を行うために使用されるニューラルネットワークである。

また、第３ニューラルネットワークは第１ニューラルネットワークに相当する。つまり、現在のビデオフレームの目標圧縮情報が、第１ニューラルネットワークを用いて得られた現在のビデオフレームの第１圧縮情報である場合、デコーダは、現在のビデオフレームの再構成フレームを得るために、第３ニューラルネットワークを用いて現在のビデオフレームの第１圧縮情報を伸長する必要がある。

第４ニューラルネットワークは第２ニューラルネットワークに相当する。つまり、現在のビデオフレームの目標圧縮情報が、第２ニューラルネットワークを用いて得られた現在のビデオフレームの第２圧縮情報である場合、デコーダは、現在のビデオフレームの再構成フレームを得るために、第４ューラルネットワークを用いて現在のビデオフレームの第２圧縮情報を伸長する必要がある。

なお、デコーダが第３ニューラルネットワーク又は第４ニューラルネットワークを用いて目標圧縮情報を伸長する具体的な実装については、以降の実施形態で説明し、詳細についてはここでは説明しない。

以下では、デコーダが目標ニューラルネットワークを決定する処理について説明する。具体的には、実装において、ステップ１００２を実行する場合、デコーダは、複数の目標圧縮情報に１対１で対応する複数の指示情報に基づいて、各目標圧縮情報に対応する目標ニューラルネットワークが第１ニューラルネットワーク又は第２ニューラルネットワークであることを直接決定することができる。

より直感的にソリューションを理解するために、図１０Bは、本願の実施形態によるビデオフレーム伸長方法の別の概略フローチャートである。図１０Bに示すように、デコーダは、現在のビデオフレームに対応する目標圧縮情報と目標圧縮情報に対応する指示情報を取得した後、目標圧縮情報に対応する指示情報に基づいて、第３ニューラルネットワークと第４ニューラルネットワークから目標ニューラルネットワークを決定し、目標ニューラルネットワークを使用して、現在のビデオフレームに対応する目標圧縮情報を伸長し、現在のビデオフレームの再構成フレームを取得することができる。図１０Bの例は、単にソリューションを理解しやすくするためのものであり、ソリューションを限定するものではないことを理解すべきである。

別の実装では、ステップ１００２が実行されなかった場合、デコーダは、現在のビデオシーケンスで、各目標圧縮情報に１対１に対応する現在のビデオフレームの位置情報を取得し、位置情報は、各目標圧縮情報に１対１に対応する現在のビデオフレームが、現在のビデオシーケンスの中の第Xフレームであることを示し、事前に設定されたルールに従って、第３ニューラルネットワークと第４ニューラルネットワークから、現在のビデオシーケンスの位置情報に対応する目標ニューラルネットワークを選択することができる。

位置情報の意味については、図３に対応する実施形態の説明を参照のこと。詳細は、ここでは再度説明しない。事前に設定されたルールは、特定のルールに従って、第３ニューラルネットワーク又は第４ニューラルネットワークを交互に選択する場合がある。つまり、デコーダは、第３ニューラルネットワークを使用して現在のビデオフレームのn個のビデオフレームに対して圧縮符号化を実行し、次に、第４ニューラルネットワークを使用して現在のビデオフレームのm個のビデオフレームに対して圧縮符号化を実行する。代替として、第４ニューラルネットワークを使用して現在のビデオフレームのm個のビデオフレームに対して圧縮符号化を実行した後、エンコーダは、第３ニューラルネットワークを使用して現在のビデオフレームのn個のビデオフレームに対して圧縮符号化を実行する。nとmの両方の値は１以上の整数であってもよく、nとmの値は同じであっても異なっていてもよい。

デコーダが、事前に設定されたルールに従って、第３ニューラルネットワークと第４ニューラルネットワークを含む複数のニューラルネットワークから現在のビデオシーケンスの位置情報に対応する目標ニューラルネットワークを選択する特定の実装は、エンコーダが、ネットワーク選択ポリシに従って、第１ニューラルネットワークと第２ニューラルネットワークを含む複数のニューラルネットワークから現在のビデオシーケンスの位置情報に対応する目標ニューラルネットワークを選択する特定の実装と同様である。相違点は、図３に対応する実施形態の「第１ニューラルネットワーク」が本実施形態では「第３ニューラルネットワーク」に置き換えられ、図３に対応する実施形態の「第２ニューラルネットワーク」が本実施形態では「第４ニューラルネットワーク」に置き換えられていることである。詳細については、図３に対応する実施形態における説明を参照のこと。詳細は、ここでは再度説明しない。

１００４：デコーダは、目標圧縮情報に基づいて、目標ニューラルネットワークを使用して伸長を実行し、現在のビデオフレームの再構成フレームを取得する。目標ニューラルネットワークが第３ニューラルネットワークである場合、目標圧縮情報には、現在のビデオフレームの第１特徴の第１圧縮情報が含まれる。現在のビデオフレームの参照フレームは、現在のビデオフレームの第１特徴を得るために、第１圧縮情報の伸長処理に使用される。現在のビデオフレームの第１特徴は、現在のビデオフレームの再構成フレームの生成処理に使用される。目標ニューラルネットワークが第４ニューラルネットワークである場合、目標圧縮情報には現在のビデオフレームの第２特徴の第２圧縮情報が含まれ、第２圧縮情報はデコーダによって伸長を実行するために使用され、現在のビデオフレームの第２特徴を取得する。現在のビデオフレームの参照フレームと現在のビデオフレームの第２特徴は、現在のビデオフレームの再構成フレームの生成処理に使用される。

本願のこの実施形態では、目標ニューラルネットワークが第３ニューラルネットワークである場合、目標圧縮情報には現在のビデオフレームの第１特徴の第１圧縮情報が含まれ、第３ニューラルネットワークにはエントロピー復号層と復号ネットワークが含まれる。エントロピー復号層は、現在のビデオフレームの参照フレームに基づいて現在のビデオフレームの第１圧縮情報を伸長するために使用され、復号ネットワークは、現在のビデオフレームの第１特徴に基づいて現在のビデオフレームの再構成フレームを生成するために使用される。

具体的には、目標ニューラルネットワークが第３ニューラルネットワークである場合、デコーダがステップ１００４を実行する特定の実装については、図７Aに対応する実施形態のステップ７０２の説明を参照のこと。違いは、ステップ７０２で、エンコーダが現在のビデオフレームに対応する第１圧縮情報に基づいて、第１ニューラルネットワークを使用して伸長を実行し、現在のビデオフレームの再構成フレームを取得することである。しかし、ステップ１００４で、デコーダは、現在のビデオフレームに対応する第１圧縮情報に基づいて、第３ニューラルネットワークを使用して伸長を実行し、現在のビデオフレームの再構成フレームを取得する。

目標ニューラルネットワークが第４ニューラルネットワークである場合、目標圧縮情報には現在のビデオフレームの第２特徴の第２圧縮情報が含まれ、第４ニューラルネットワークにはエントロピー復号層と畳み込みネットワークが含まれる。エントロピー復号層は、第２圧縮情報に対してエントロピー復号を実行するために使用され、畳み込みネットワークは、現在のビデオフレームの参照フレームと現在のビデオフレームの第２特徴に基づいて、現在のビデオフレームの再構成フレームの生成処理を実行するために使用される。

具体的には、目標ニューラルネットワークが第４ニューラルネットワークである場合、デコーダがステップ１００４を実行する特定の実装については、図７Aに対応する実施形態のステップ７０４の説明を参照のこと。違いは、ステップ７０４で、エンコーダが現在のビデオフレームに対応する第２圧縮情報に基づいて、第２ニューラルネットワークを使用して伸長を実行し、現在のビデオフレームの再構成フレームを取得することである。しかし、ステップ１００４で、デコーダは、現在のビデオフレームに対応する第２圧縮情報に基づいて、第４ニューラルネットワークを使用して伸長を実行し、現在のビデオフレームの再構成フレームを取得する。

本願の実施形態は、ビデオフレーム伸長方法をさらに提供する。図１１は、本願の実施形態によるビデオフレーム伸長方法の別の概略フローチャートである。本願のこの実施形態によるビデオフレーム伸長方法は、以下のステップを含むことができる：

１１０１：デコーダは、現在のビデオフレームに対応する目標圧縮情報を受信する。目標圧縮情報は第１圧縮情報又は第２圧縮情報である。

１１０２：デコーダは、現在のビデオフレームに対応する指示情報を受信する。指示情報は、第１圧縮情報が第３ニューラルネットワークを使用した伸長によって得られ、第２圧縮情報は第４ニューラルネットワークを使用した伸長によって得られたことを示す。

本願のこの実施形態のステップ１１０１とステップ１１０２の具体的な実装については、図１０Aに対応する実施形態におけるステップ１００１とステップ１００２の説明を参照する。詳細は、ここでは再度説明しない。

１１０３：デコーダは、第３ニューラルネットワークを使用して第３ビデオフレームの第１圧縮情報を伸長し、第３ビデオフレームの再構成フレームを取得する。

本願のこの実施形態では、デコーダは、複数のニューラルネットワークから第３ニューラルネットワークを選択し、第３ビデオフレームの第１圧縮情報を伸長する。「複数のニューラルネットワークから第３ビデオフレームに対応する第３ニューラルネットワークを選択する」具体的な実装処理については、図１０Aに対応する実施形態のステップ１００３の説明を参照のこと。詳細は、ここでは再度説明しない。

、第３ニューラルネットワークは、エントロピー復号層と復号ネットワークを含み、エントロピー復号層は、現在のビデオフレームの参照フレームに基づいて現在のビデオフレームの第１圧縮情報に対してエントロピー復号を実行するために使用され、復号ネットワークは、現在のビデオフレームの第１特徴に基づいて現在のビデオフレームの再構成フレームを生成するために使用される。デコーダが第３ニューラルネットワークを使用して第３ビデオフレームの第１圧縮情報を伸長する具体的な実装については、図７Aに対応する実施形態のステップ７０２の説明を参照のこと。詳細は、ここでは再度説明しない。

第１圧縮情報には第３ビデオフレームの第１特徴の圧縮情報が含まれ、第３ビデオフレームの参照フレームは、第３ビデオフレームの第１特徴を得るために、第１圧縮処理の伸長処理に使用され、第３ビデオフレームの第１特徴は第３ビデオフレームの再構成フレームの生成処理に使用される。現在のビデオシーケンスは、第３ビデオフレームの再構成フレームと第３ビデオフレームの参照フレームの両方を含む。つまり、デコーダは、第１圧縮情報を伸長した後、第３ビデオフレームの参照フレームなしで、第３ビデオフレームの再構成フレームを取得できる。

更に、「第３ビデオフレームの第１特徴」の意味については、「現在のビデオフレームの第１特徴」の意味の説明を参照のこと。「第３ビデオフレームの参照フレーム」の意味については、「現在のビデオフレームの参照フレーム」の意味の説明を参照のこと。詳細は、ここでは再度説明しない。第３ビデオフレームの再構成フレームは、第１圧縮情報を伸長して得られる、第３ビデオフレームに対応するビデオフレームである。

１１０４：デコーダは、第４ニューラルネットワークを使用して第４ビデオフレームの第２圧縮情報を伸長し、第４ビデオフレームの再構成フレームを取得する。

本願のこの実施形態では、デコーダは、複数のニューラルネットワークから第４ニューラルネットワークを選択し、第４ビデオフレームの第１圧縮情報を伸長する。「複数のニューラルネットワークから第４ビデオフレームに対応する第４ニューラルネットワークを選択する」具体的な実装処理については、図１０Aに対応する実施形態のステップ１００３の説明を参照のこと。詳細は、ここでは再度説明しない。

第４ニューラルネットワークは、エントロピー復号層と畳み込みネットワークを更に含み、エントロピー復号層は、第２圧縮情報に対してエントロピー復号を実行するために使用され、畳み込みネットワークは、現在のビデオフレームの参照フレームと現在のビデオフレームの第２特徴に基づいて、現在のビデオフレームの再構成フレームの生成処理を実行するために使用される。デコーダが第４ニューラルネットワークを使用して第４ビデオフレームの第２圧縮情報を伸長する具体的な実装については、図７Aに対応する実施形態のステップ７０４の説明を参照のこと。詳細は、ここでは再度説明しない。

第２圧縮情報には、第４ビデオフレームの第２特徴の圧縮情報が含まれ、第２圧縮情報はデコーダによって伸長を実行して第４ビデオフレームの第２特徴を取得するために使用され、第４ビデオフレームの参照フレームと第４ビデオフレームの第２特徴は、第４ビデオフレームの再構成フレームの生成処理に使用される。現在のビデオシーケンスは、第４ビデオフレームの再構成フレームと第４ビデオフレームの参照フレームの両方を含む。

更に、「第４ビデオフレームの第２特徴」の意味については、「現在のビデオフレームの第２特徴」の意味の説明を参照のこと。「第４ビデオフレームの参照フレーム」の意味については、「現在のビデオフレームの参照フレーム」の意味の説明を参照のこと。詳細は、ここでは再度説明しない。第４ビデオフレームの再構成フレームは、第２圧縮情報を伸長して得られる、第４ビデオフレームに対応するビデオフレームである。

２．トレーニングフェーズ

図１２は、実施形態によるビデオフレーム圧縮及び伸長システムのトレーニング方法の概略フローチャートである。本願のこの実施形態によるビデオフレーム圧縮及び伸長システムをトレーニングする方法は、以下のステップを含むことができる：

１２０１：トレーニング装置は、現在のビデオフレームに対して、第１ニューラルネットワークを使用して第１トレーニングビデオフレームに圧縮符号化を行い、第１トレーニングフレームに対応する第１圧縮情報を取得する。

本願のこの実施形態では、トレーニング装置はトレーニングデータセットを事前に保存し、トレーニングデータセットは複数の第１トレーニングビデオフレームを含む。ステップ１２０１の具体的な実装については、図８に対応する実施形態のステップ８０１の説明を参照のこと。詳細は、ここでは再度説明しない。違いは、ステップ８０１の「第３ビデオフレーム」が、この実施形態では「第１トレーニングビデオフレーム」に置き換えられ、ステップ１２０１では、トレーニング装置が第１ニューラルネットワークと第２ニューラルネットワークから目標ニューラルネットワークを選択する必要がないことである。つまり、ステップ１２０１では、トレーニング装置は、第１圧縮情報と第２圧縮情報から目標圧縮情報を選択する必要がない。

１２０２：トレーニング装置は、第３ニューラルネットワークを使用して第１トレーニングビデオフレームの第１圧縮情報を伸長し、第１トレーニング再構成フレームを取得する。

本願のこの実施形態でトレーニング装置がステップ１２０２を実行する具体的な実装については、図１１に対応する実施形態のステップ１１０３の説明を参照のこと。詳細は、ここでは再度説明しない。違いは、ステップ１１０３の「第３ビデオフレーム」が、この実施形態では「第１トレーニングビデオフレーム」に置き換えられ、ステップ１２０２では、トレーニング装置が第３ニューラルネットワークと第４ニューラルネットワークから目標ニューラルネットワークを選択する必要がないことである。

１２０３：トレーニング装置は、事前設定された条件が満たされるまで、第１トレーニングビデオフレーム、第１トレーニング再構成フレーム、第１圧縮情報、及び第１損失関数に基づいて、第１ニューラルネットワークと第３ニューラルネットワークをトレーニングする。

本願のこの実施形態では、トレーニング装置は、第１損失関数の収束条件が満たされるまで、第１トレーニングビデオフレーム、第１トレーニング再構成フレーム、第１トレーニングビデオフレームに対応する第１圧縮情報、及び第１損失関数に基づいて、第１ニューラルネットワークと第３ニューラルネットワークに対して反復トレーニングを実行できる。

第１損失関数は、第１トレーニングビデオフレームと第１トレーニング再構成フレームとの類似性の損失項と、第１トレーニングビデオフレームの第１圧縮情報のデータサイズの損失項を含み、第１トレーニング再構成フレームは、第１トレーニングビデオフレームの再構成フレームである。第１損失関数のトレーニング目的は、第１トレーニングビデオフレームと第１トレーニング再構成フレームの類似性を高めることを含む。第１損失関数のトレーニング目的は、さらに、第１トレーニングビデオフレームの第１圧縮情報のサイズを小さくすることを含む。第１ニューラルネットワークは、ビデオフレーム上で圧縮符号化を実行するために使用されるニューラルネットワークである。第１ニューラルネットワークは、、圧縮情報に基づいて伸長を実行するために使用されるニューラルネットワークである。

具体的には、トレーニング装置は、第１トレーニングビデオフレーム、第１トレーニング再構成フレーム、及び第１トレーニングビデオフレームに対応する第１圧縮情報に基づいて、第１損失関数の関数値を計算し、第１損失関数の関数値に基づいて勾配値を生成し、第１ニューラルネットワークと第３ニューラルネットワークの重みパラメータに対して逆更新を行い、第１ニューラルネットワークと第３ニューラルネットワークの１回のトレーニングを完了することができる。トレーニング装置は、ステップ１２０１からステップ１２０３を繰り返し実行して、第１ニューラルネットワークと第３ニューラルネットワークの反復トレーニングを実装する。

１２０４：トレーニング装置は、第２ニューラルネットワークを使用して、第２トレーニングビデオフレームの参照フレームに基づいて、第２トレーニングビデオフレームに圧縮符号化を実行し、第２トレーニングビデオフレームに対応する第２圧縮情報を取得する。ここで、第２トレーニングビデオフレームの参照フレームは、トレーニングされた第１ニューラルネットワークによって処理されたビデオフレームである。

本願のこの実施形態でトレーニング装置がステップ１２０２を実行する具体的な実装については、図８に対応する実施形態のステップ８０２の説明を参照のこと。詳細は、ここでは再度説明しない。違いは、ステップ８０２の「第４ビデオフレーム」が、この実施形態では「第２トレーニングビデオフレーム」に置き換えられ、ステップ１２０４では、トレーニング装置が第１ニューラルネットワークと第２ニューラルネットワークから目標ニューラルネットワークを選択する必要がないことである。つまり、ステップ１２０４では、トレーニング装置は、第１圧縮情報と第２圧縮情報から目標圧縮情報を選択する必要がない。

第２トレーニングビデオフレームの参照フレームは、トレーニングデータセット内の元のビデオフレームである場合もあれば、成熟した第１ニューラルネットワーク（すなわち、トレーニングされた第１ニューラルネットワーク）によって処理されるビデオフレームである場合もある。

具体的には、実装では、第１ニューラルネットワークには第１符号化ネットワークが含まれ、第３ニューラルネットワークには第１復号ネットワークが含まれるため、トレーニング装置は、第２トレーニングビデオフレームの元の参照フレームを成熟した第１ニューラルネットワーク（すなわち、トレーニングされた第１ニューラルネットワーク）内の第１符号化ネットワークに入力して、第２トレーニングビデオフレームを符号化し、符号化結果を得ることができ、符号化結果を成熟した第３ニューラルネットワーク（すなわち、トレーニングされた第３ニューラルネットワーク）内の第１復号ネットワークに入力して、符号化結果を復号し、第２トレーニングビデオフレームの処理済み参照フレームを得ることができる。さらに、トレーニング装置は、第２トレーニングビデオフレームと第２トレーニングビデオフレームの処理済み参照フレームを第２ニューラルネットワークに入力し、第２ニューラルネットワークを使用して、第２トレーニングビデオフレームに対応する第２圧縮情報を生成する。

別の実装では、トレーニング装置は、第２トレーニングビデオフレームの元の参照フレームを成熟した第１ニューラルネットワークに入力し、成熟した第１ニューラルネットワークを使用して、第２トレーニングビデオフレームの元の参照フレームに対応する第１圧縮情報を生成し、成熟した第３ニューラルネットワークを使用して、第２トレーニングビデオフレームの元の参照フレームに対応する第１圧縮情報に基づいて伸長を実行し、第２トレーニングビデオフレームの処理された参照フレームを取得できる。さらに、トレーニング装置は、第２トレーニングビデオフレームと第２トレーニングビデオフレームの処理済み参照フレームを第２ニューラルネットワークに入力し、第２ニューラルネットワークを使用して、第２トレーニングビデオフレームに対応する第２圧縮情報を生成する。

本願のこの実装では、実行フェーズで、第２ニューラルネットワークによって使用される参照フレームが第１ニューラルネットワークによって処理される可能性があるため、第１ニューラルネットワークによって処理された参照フレームが第２ニューラルネットワークのトレーニングに使用される。これは、トレーニングフェーズと実行フェーズの間の一貫性を維持し、実行フェーズの精度を向上させるのに役立つ。

１２０５：トレーニング装置は、第４ニューラルネットワークを使用して第２トレーニングビデオフレームの第２圧縮情報を伸長し、第２トレーニング再構成フレームを取得する。

本願のこの実施形態でトレーニング装置がステップ１２０２を実行する具体的な実装については、図１１に対応する実施形態のステップ１１０４の説明を参照のこと。詳細は、ここでは再度説明しない。違いは、この実施形態ではステップ１１０４の「第４ビデオフレーム」が「第２トレーニングビデオフレーム」に置き換えられ、ステップ１２０５では、トレーニング装置が第３ニューラルネットワークと第４ニューラルネットワークから目標ニューラルネットワークを選択する必要がないことである。

１２０６：トレーニング装置は、事前設定された条件が満たされるまで、第２トレーニングビデオフレーム、第２トレーニング再構成フレーム、第２圧縮情報、及び第２損失関数に基づいて、第２ニューラルネットワークと第４ニューラルネットワークをトレーニングする。

本願のこの実施形態では、トレーニング装置は、第２損失関数の収束条件が満たされるまで、第２トレーニングビデオフレーム、第２トレーニング再構成フレーム、第２トレーニングビデオフレームに対応する第２圧縮情報、及び第２損失関数に基づいて、第２ニューラルネットワークと第４ニューラルネットワークに対して反復トレーニングを実行できる。

第２損失関数は、第２トレーニングビデオフレームと第２トレーニング再構成フレームとの類似性の損失項と、第２トレーニングビデオフレームの第２圧縮情報のデータサイズの損失項を含み、第２トレーニング再構成フレームは、第２トレーニングビデオフレームの再構成フレームである。第２損失関数のトレーニング目的は、第２トレーニングビデオフレームと第２トレーニング再構成フレームの類似性を高めることを含む。第２損失関数のトレーニング目的は、さらに、第２トレーニングビデオフレームの第２圧縮情報のサイズを小さくすることを含む。第２ニューラルネットワークは、ビデオフレーム上で圧縮符号化を実行するために使用されるニューラルネットワークである。第４ニューラルネットワークは、、圧縮情報に基づいて伸長を実行するために使用されるニューラルネットワークである。

具体的には、トレーニング装置は、第２トレーニングビデオフレーム、第２トレーニング再構成フレーム、及び第２トレーニングビデオフレームに対応する第２圧縮情報に基づいて、第２損失関数の関数値を計算し、第２損失関数の関数値に基づいて勾配値を生成し、第２ニューラルネットワークと第４ニューラルネットワークの重みパラメータに対して逆更新を行い、第２ニューラルネットワークと第４ニューラルネットワークの１回のトレーニングを完了することができる。トレーニング装置は、ステップ１２０４からステップ１２０６を繰り返し実行して、第２ニューラルネットワークと第４ニューラルネットワークの反復トレーニングを実装する。

第１ニューラルネットワークと第３ニューラルネットワークの両方が複数の独立したニューラルネットワークモジュールを含むため、対応して、第２ニューラルネットワークと第４ニューラルネットワークも複数の独立したニューラルネットワークモジュールを含む。独立したニューラルネットワークモジュールは、独立した機能を持つニューラルネットワークモジュールである。例えば、第１ニューラルネットワークにおける第１符号化ネットワークは、独立したニューラルネットワークモジュールである。別の例として、第２ニューラルネットワークにおける第１復号ネットワークは、独立したニューラルネットワークモジュールである。

任意で、第２ニューラルネットワークと第４ニューラルネットワークが第１ニューラルネットワークと第３ニューラルネットワークと同じニューラルネットワークモジュールを持つ場合、第２ニューラルネットワークと第４ニューラルネットワークのパラメータは、トレーニングされた第１ニューラルネットワークとトレーニングされた第３ニューラルネットワークに基づいて最初に初期化される場合がある。つまり、トレーニングされた第１ニューラルネットワークとトレーニングされた第３ニューラルネットワークのパラメータは同じニューラルネットワークモジュールに割り当てられ、第２ニューラルネットワークと第４ニューラルネットワークのトレーニング処理において同じニューラルネットワークモジュールのパラメータは変化しない。第２ニューラルネットワークと第４ニューラルネットワークのトレーニング処理の合計時間を短縮し、第２ニューラルネットワークと第４ニューラルネットワークのトレーニング効率を向上させるために、第２ニューラルネットワークと第４ニューラルネットワークの残りのニューラルネットワークモジュールのパラメータが調整される。

本願の実施形態には、ニューラルネットワークの実行処理とニューラルネットワークのトレーニング処理の両方を提供する。これは、ソリューションの適用シナリオを拡張し、ソリューションの包括性を向上させる。

本願の実施形態によってもたらされる有益な効果をより直感的に理解するために、以下では、本願の実施形態によってもたらされる有益な効果について、添付の図面を参照してさらに説明する。本実験では、例えば、第１ニューラルネットワークを使用してビデオフレームを圧縮するたびに、第２ニューラルネットワークを使用してビデオフレームを圧縮する。表１に実験データを示す。

表１

表１を参照する。解像度の異なるビデオシーケンスの３つのグループでは、本願の実施形態のソリューションを使用して圧縮されたビデオシーケンスのビデオフレームは、第２ニューラルネットワークのみを使用して圧縮されたビデオシーケンスのビデオフレームよりも高画質であることを学習できる。

この実験では、例えば、第１フィッティング式のオフセットと傾きを生成し、第２フィッティング式のオフセットと傾きを生成し、第１フィッティング式のオフセットと傾き及び第２フィッティング式のオフセットと傾きを継続的に更新する。表２に実験データを示す。

表２

表２を参照する。解像度の異なるビデオシーケンスの２つのグループでは、本願の実施形態のソリューションを使用して圧縮されたビデオシーケンスのビデオフレームは、第２ニューラルネットワークのみを使用して圧縮されたビデオシーケンスのビデオフレームよりも高画質であることを学習できる。

本願の実施形態は、ビデオ符号化／復号システムを更に提供する。図１３は、本願の実施形態によるビデオ符号化/復号システムのシステムアーキテクチャの図である。図１３は、ビデオ符号化/復号システム１０の例の概略ブロック図である。ビデオ符号化／復号システム１０のビデオエンコーダ２０（又は、略してエンコーダ２０）とビデオデコーダ３０（又は、略してデコーダ３０）は、本願に記述された様々な例に基づいて様々な技術を実行するために使用できる装置を表す。

図１３に示すように、ビデオ符号化／復号システム１０は、ソース装置１２を含む。ソース装置１２は、符号化されたピクチャなどの符号化ピクチャデータ２１を、符号化ピクチャデータ２１を復号するように構成された宛先装置１４に提供するように構成される。

ソース装置１２は、エンコーダ２０を含み、任意で、ピクチャソース１６、ピクチャプリプロセッサなどのプリプロセッサ（又は前処理ユニット）１８、及び通信インタフェース（又は通信ユニット）２２を含むことができる。

ピクチャソース１６は、実世界でピクチャをキャプチャするように構成された任意のタイプのピクチャキャプチャ装置、及び／又は任意のタイプのピクチャ生成装置、例えば、コンピュータアニメーションピクチャを生成するように構成されたコンピュータグラフィックスプロセッサ、又は実世界のピクチャ、コンピュータ生成ピクチャ（例えば、スクリーン上のコンテンツ、仮想現実（virtual reality, VR）のピクチャ、及び／又はそれらの組み合わせ（例えば、拡張現実（augmented reality, AR）ピクチャ）を取得する及び／又は提供するように構成された任意のタイプの装置を含むことができる。ピクチャソースは、前述のピクチャのうちのいずれかを格納する任意のタイプのメモリ又は記憶装置であってよい。

プリプロセッサ（又は前処理ユニット）１８によって行われる処理を区別するために、ピクチャ（又はピクチャデータ１７）を元のピクチャ（又は元のピクチャデータ）１７と呼ぶこともある。

プリプロセッサ１８は、（元の）ピクチャデータ１７を受信し、ピクチャデータ１７を前処理して、前処理済みピクチャ（又は前処理済みピクチャデータ）１９を取得するよう構成される。例えば、プリプロセッサ１８により実行される前処理は、トリミング、色形式変換（例えば、ＲＧＢからＹＣｂＣｒへの変換）、色補正、又はノイズ除去を含んでよい。前処理ユニット１８は光コンポーネントであってよいことが理解できる。

ビデオエンコーダ（又はエンコーダ）２０は、前処理済みピクチャデータ１９を受信し、符号化ピクチャデータ２１を提供するよう構成される。

ソース装置１２の通信インタフェース２２は、符号化ピクチャデータ２１を受信し、符号化ピクチャデータ２１（又はその他の処理されたバージョン）を、記憶又は直接再構成のために通信チャネル１３を介して宛先装置１４又はその他の装置などの別の装置に送信するように構成されてもよい。

宛先装置１４は、デコーダ３０を含み、任意で、通信インタフェース（又は通信ユニット）２８、ポストプロセッサ（又は後処理ユニット）３２、及びディスプレイ装置３４を含んでよい。

宛先装置１４の通信インタフェース２８は、符号化ピクチャデータ２１（又はその他の処理されたバージョン）を、例えばソース装置１２から又は任意の他の装置装置、例えば記憶装置から直接受信するよう構成される。例えば、記憶装置は、符号化ピクチャデータを格納する装置であり、符号化ピクチャデータ２１をデコーダ３０に提供する。

通信インタフェース２２及び通信インタフェース２８は、符号化ピクチャデータ（又は符号化データ）２１を、ソース装置１２と宛先装置１４の間の直接通信リンク、例えば有線又は無線接続、又は有線ネットワーク、無線ネットワーク、又は有線ネットワークと無線ネットワークの任意の組み合わせ、任意のタイプのプライベートネットワーク、任意のタイプのパブリックネットワーク、又はプライベートネットワークとパブリックネットワークの任意の組み合わせを介して送信又は受信するように構成することができる。

例えば、通信インタフェース２２は、例えば、符号化ピクチャデータ２１を適切な形式、例えばパケットにカプセルし、及び／又は通信リンク又は通信ネットワークを介して送信するために、任意のタイプの送信符号化若しくは処理を用いて符号化ピクチャデータを処理するよう構成されてよい。

通信インタフェース２８は、通信インタフェース２２に対応し、例えば、送信データを受信し、任意のタイプの対応する伝送復号又は処理及び／又はカプセル化解除を通じて送信データを処理し、符号化ピクチャデータ２１を取得するように構成される。

通信インタフェース２２及び通信インタフェース２８の両方は、図１３でソース装置１２から宛先装置１４を指す通信チャネル１３の矢印により示されるように、単方向通信インタフェース、又は、双方向通信インタフェースとして構成されてよく、例えば接続を確立するため、通信リンク及び／又はデータ送信、例えば符号化ピクチャデータ送信に関連する任意の他の情報に確認応答し及び交換するために、例えばメッセージを送信及び受信するよう構成されてよい。

ビデオデコーダ（又はデコーダ）３０は、符号化ピクチャデータ２１を受信し、復号ピクチャデータ（又は復号されたピクチャデータ）３１を提供するよう構成される。復号ピクチャデータは、再構成ピクチャデータ、ビデオフレームの再構成フレーム、又は別名で呼ばれることもあり、符号化ピクチャデータ２１に基づいて伸長が行われた後に得られるピクチャデータである。

ポストプロセッサ３２は、復号されたピクチャなどの復号ピクチャデータ３１に対して後処理を行い、後処理されたピクチャなどの後処理済みピクチャデータ３３を得るように構成されている。ポストプロセッサ３２により実行される後処理は、例えば色形式変換（例えば、ＹＣｂＣｒからＲＧＢへの変換）、色補正、トリミング、又は再サンプリング又は、例えばディスプレイ装置３４により表示される復号ピクチャデータ３１を生成するための任意の他の処理、を含んでよい。

ディスプレイ装置３４は、ユーザ、ビューア、等にピクチャを表示するために、後処理ピクチャデータ３３を受信するよう構成される。ディスプレイ装置３４は、再構成ピクチャを表示するように構成された、例えば、統合又は外部ディスプレイ画面やディスプレイなど、任意のタイプのディスプレイであってもよく、またそれを含んでもよい。例えば、ディスプレイ画面は、液晶ディスプレイ（liquid crystal display, LCD）、有機発光ダイオード（organic light emitting diode, OLED）ディスプレイ、プラズマディスプレイ、プロジェクタ、マイクロＬＥＤディスプレイ、シリコン上の液晶（liquid crystal on silicon, LCoS）、デジタル光プロセッサ（digital light processor, DLP）、又は任意のタイプの別のディスプレイ画面、を含んで画面よい。

ビデオ符号化／復号システム１０は、トレーニングエンジン２５も含んでよい。トレーニングエンジン２５は、ニューラルネットワーク、すなわち、方法の実施形態に示された第１ニューラルネットワーク、第２ニューラルネットワーク、第３ニューラルネットワーク、及び第４ニューラルネットワークを、エンコーダ２０又はデコーダ３０においてトレーニングするように構成される。トレーニングデータはデータベース（示されていない）に格納することができ、トレーニングエンジン２５はトレーニングデータに基づいてトレーニングを実行し、ニューラルネットワークを取得する。なお、本願のこの実施形態では、トレーニングデータのソースは限定されない。例えば、ニューラルネットワークをトレーニングするために、クラウドや他の場所からトレーニングデータを取得することができる。

トレーニングエンジン２５によるトレーニングによって得られたニューラルネットワークは、例えば、図１３に示すソース装置１２（例えば、エンコーダ２０）又は宛先装置１４（例えば、デコーダ３０）に適用されるビデオ符号化/復号システム１０及びビデオ符号化/復号システム４０に適用することができる。トレーニングエンジン２５は、クラウド上でトレーニングを実行してニューラルネットワークを取得し、その後、ビデオ符号化/復号システム１０はクラウドからニューラルネットワークをダウンロードし、ニューラルネットワークを使用することができる。

図１３は、ソース装置１２と宛先装置１４を独立した装置として示しているが、装置の実施形態は、代わりにソース装置１２と宛先装置１４の両方を含むことも、ソース装置１２と宛先装置１４の両方の機能、つまり、ソース装置１２又は対応する機能と宛先装置１４又は対応する機能の両方を含むこともできる。これらの実施形態では、ソース装置１２又は対応する機能及び宛先装置１４又は対応する機能は、同じハードウェア及び／又はソフトウェア使用し別個のハードウェア及び／又はソフトウェアを用いて又はそれらの任意の組み合わせを用いて実装されてよい。

説明に基づくと、図１３に示すソース装置１２及び／又は宛先装置１４の異なるユニット又は機能の存在及び（正確な）分割は、実際の装置及びアプリケーションによって異なる場合がある。これは、当業者には明らかである。

図１４は、本願の実施形態によるビデオ符号化/復号システムの別のシステムアーキテクチャの図である。以下は、図１３を参照して記載される。エンコーダ２０（例えば、ビデオエンコーダ２０）、デコーダ３０（例えば、ビデオデコーダ３０）、又はエンコーダとデコーダの両方は、例えば、図１４に示す処理回路、例えば、１つ以上のマイクロプロセッサ、デジタル信号プロセッサ（digital signal processor, DSP）、特定用途向け集積回路（application-specific integrated circuit, ASIC）、フィールドプログラマブルゲートアレイ（field programmable gate array, FPGA）、個別ロジック、ハードウェア、ビデオ符号化専用プロセッサ、又はそれらの任意の組み合わせを使用して実装することができる。エンコーダ２０は、処理回路４６を使用して、図１４のエンコーダ２０を参照して記述された様々なモジュール及び／又は本明細書に記述された他のデコーダシステム又はサブシステムを含むように実装することができる。デコーダ３０は、処理回路４６を使用して、図１５のデコーダ３０を参照して記述された様々なモジュール及び／又は本明細書に記述された他のデコーダシステム又はサブシステムを含むように実装することができる。処理回路４６は、以下の種々の動作を実行するよう構成されてよい。図１６に示すように、ソフトウェアを使用して幾つかの技術を実装する場合、装置は、ソフトウェアの命令を適切な非一時的コンピュータ可読記憶媒体に格納し、その命令を１つ以上のプロセッサを使用してハードウェアで実行して、本願の技術を実行することができる。図１４に示すように、ビデオエンコーダ２０とビデオデコーダ３０のいずれかを、結合されたエンコーダ/デコーダ（encoder/decoder, CODEC）の一部として単一の装置に統合することができる。

ソース装置１２及び宛先装置１４は、任意のタイプのハンドヘルド又は固定装置、例えばノートブック又はラップトップコンピュータ、移動電話機、スマートフォン、タブレット又はタブレットコンピュータ、カメラ、デスクトップコンピュータ、セットトップボックス、テレビジョン、ディスプレイ装置、デジタルメディアプレイヤ、ビデオゲーム端末、（コンテンツサービスサーバ、又はコンテンツ配信サーバのような）ビデオストリーミング装置、ブロードキャスト受信装置、ブロードキャスト送信装置、を含む、種々の装置のうちのいずれかを含んでよく、任意のタイプのオペレーティングシステムを使用してよく又は使用しなくてよい。幾つかの場合には、ソース装置１２及び宛先装置１４は、無線通信のコンポーネントを装備されてよい。従って、ソース装置１２及び宛先装置１４は、無線通信装置であってよい。

場合によっては、図１３に示すビデオ符号化/復号システム１０は単なる例である。本願で提供する技術は、ビデオ符号化設定（例えば、ビデオ符号化又はビデオ復号）にも適用可能であり、設定は必ずしも符号化装置と復号装置との間のデータ通信を含まない。また、ローカルメモリからデータを取得し、ネットワークを利用して送信する例もある。ビデオ符号化装置は、データを符号化し、データをメモリに格納してよく、及び／又はビデオ復号装置は、メモリからデータを読み出し、データを復号してよい。幾つかの例では、符号化及び復号は、互いに通信しないがデータをメモリへと符号化し及び／又はメモリからデータを読み出しデータを復号する装置により実行される。

図１４は、例示的な実施形態による、ビデオエンコーダ２０及び／又はビデオデコーダ３０を含むビデオ符号化／復号システム４０の例の図である。ビデオ符号化／復号システム４０は、画像装置４１、ビデオエンコーダ２０、ビデオデコーダ３０（及び／又は処理回路４６を使用して実装されるビデオエンコーダ／デコーダ）、アンテナ４２、１つ以上のプロセッサ４３、１つ以上のメモリ４４、及び／又はディスプレイ装置４５を含んでよい。

図１４示されるように、画像装置４１、アンテナ４２、処理回路４６、ビデオエンコーダ２０、ビデオデコーダ３０、プロセッサ４３、メモリ４４、及び／又はディスプレイ装置４５は、互いに通信できる。異なる例では、ビデオ符号化/復号システム４０は、ビデオエンコーダ２０のみを含むことも、ビデオデコーダ３０のみを含むこともできる。

幾つかの例では、アンテナ４２は、ビデオデータの符号化ビットストリームを送信又は受信するよう構成されてよい。更に、幾つかの例では、ディスプレイ装置４５は、ビデオデータを提示するよう構成されてよい。処理回路４６は、特定用途向け集積回路（application-specific integrated circuit, ASIC）ロジック、グラフィックプロセッサ、汎用プロセッサ、等を含んでよい。ビデオ符号化／復号システム４０は、任意的なプロセッサ４３も含んでよい。同様に、任意的なプロセッサ４３は、特定用途向け集積回路（application-specific integrated circuit, ASIC）ロジック、グラフィックプロセッサ、汎用プロセッサ、等を含んでよい。更に、メモリ４４は、任意のタイプのメモリ、例えば、性（不揮発性性メモリ（例えば、静的ランダムアクセスメモリ（Static Random Access Memory, SRAM）、又は動的ランダムアクセスメモリ（Dynamic Random Access Memory, DRAM）又は不揮発性メモリ（例えば、フラッシュメモリ）であってよい。非限定的な例では、メモリ４４はキャッシュメモリにより実装されてよい。別の例では、処理回路４６は、ピクチャバッファを実装するよう構成されるメモリ（例えば、キャッシュ）を含んでよい。

幾つかの例では、論理回路を用いて実装されるビデオエンコーダ２０は、（例えば、処理回路４６又はメモリ４４により実装される）ピクチャバッファ、及び（例えば、処理回路４６により実装される）グラフィック処理ユニットを含んでよい。グラフィック処理ユニットは、ピクチャバッファに通信可能に接続されてよい。グラフィックス処理ユニットは、処理回路４６を使用して実装されたビデオエンコーダ２０を含み、図１４に示すビデオデコーダ２０及び／又は本明細書に記述された他のエンコーダシステム又はサブシステムを参照して記述された各種モジュールを実装してもよい。論理回路は、本明細書における種々の動作を実行するよう構成されてよい。

幾つかの例では、ビデオデコーダ３０は、同様に処理回路４６を使用して実装され、図１４に示すビデオデコーダ３０及び／又は本明細書に記述された他のデコーダシステム又はサブシステムを参照して記述された各種モジュールを実装してもよい。幾つかの例では、論理回路を用いて実装されるビデオデコーダ３０は、（例えば、処理回路４６又はメモリ４４により実装される）ピクチャバッファ、及び（例えば、処理回路４６により実装される）グラフィック処理ユニットを含んでよい。グラフィック処理ユニットは、ピクチャバッファに通信可能に接続されてよい。グラフィック処理ユニットは、処理回路４６により実装されるビデオデコーダ３０を含んでよい。

幾つかの例では、アンテナ４２は、ビデオデータの符号化ビットストリームを受信するよう構成されてよい。前述のように、符号化ビットストリームには、データ、指標、インデックス値、モード選択データなどが含まれることがあり、例えば、符号化パーティションに関連するデータ（例えば、変換係数又は量子化済み変換係数、（記述された）任意的な指標、及び／又は符号化パーティションを定義するデータ）は、ビデオフレームの符号化に関連している。ビデオ符号化／復号システム４０は、アンテナ４２に結合され符号化ビットビットストリームを復号するよう構成されるビデオデコーダ３０を更に含んでよい。ディスプレイ装置４５は、ビデオフレームを提示するよう構成される。

理解されるべきことに、本願のこの実施形態におけるビデオエンコーダ２０を参照して説明した例に対して、ビデオデコーダ３０は、逆の処理を実行するよう構成されてよい。シグナリングシンタックス要素に関して、ビデオデコーダ３０は、これらのシンタックス要素を受信しパースし、相応して関連するビデオデータを復号するよう構成できる。幾つかの例では、ビデオエンコーダ２０は、シンタックス要素にエントロピー符号化して、符号化ビデオビットビットストリームを取得してよい。例では、ビデオデコーダ３０は、シンタックス要素をパースし、相応して関連関連られたビデオデータを復号してよい。

本願で説明されている符号化/復号処理は、H.２６３、H.２６４、MPEG-２、MPEG-４、VP８、VP９、及びAIに基づくエンドツーエンドピクチャ符号化など、ほとんどのビデオエンコーダ/デコーダに存在することに注意する必要がある。

図１５は、本開示の実施形態によるビデオコーディング装置４００の概略図である。ビデオコーディング装置４００は、本明細書で説明した開示された実施形態を実装するのに適する。実施形態では、ビデオ符号化装置４００は、ビデオデコーダ、例えば図１４のビデオデコーダ３０であってよく、又はエンコーダ、例えば、図１４のビデオエンコーダ２０であってよい。

ビデオ符号化装置４００は、データを受信するよう構成されるイングレスポート４１０（又は入力ポート４１０）及び受信機ユニット（receiver unit, Rx）４２０と、データを処理するよう構成されるプロセッサ、論理ユニット、又は中央処理ユニット（central processing unit, CPU）４３０と、データを送信するよう構成される送信機ユニット（transmitter unit, Ｔｘ）４４０及びイグレスポート（又は出力ポート４５０）と、データを格納するよう構成されるメモリ４６０と、を含む。例えば、処理ユニット４３０はニューラルネットワーク処理ユニット４３０であってよい。ビデオコーディング装置４００は、イングレスポート４１０、受信機ユニット４２０、送信機ユニット４４０、及びイグレスポート４５０に結合され、光信号又は電気信号の出口又は入口として使用される、光-電気（optical-to-electrical, OE）コンポーネント及び電気-光（electrical-to-optical, EO）コンポーネントを含むこともできる。

処理ユニット４３０は、ハードウェア及びソフトウェアを使用して実装される。処理ユニット４３０は、１つ以上のプロセッサチップ、コア（例えば、マルチコアプロセッサ）、FPGA、ASIC、及びDSPとして実装されてよい。処理ユニット４３０は、イングレスポート４１０、受信機ユニット４２０、送信機ユニット４４０、イグレスポート４５０、及びメモリ４６０と通信する。処理ユニット４３０は、コーディングモジュール４７０（例えば、ニューラルネットワークNNに基づくコーディングモジュール４７０）を含む。コーディングモジュール４７０は、上述の実施形態を実装する。例えば、コーディングモジュール４７０は、種々の符号化動作を実行し、処理し、準備し、又は提供する。そのため、ビデオコーディング装置４００の機能にコーディングモジュール４７０を使用することで大幅な改善がもたらされ、ビデオコーディング装置４００の異なる状態への切り換えが影響を受ける。代替として、コーディングモジュール４７０は、メモリ４６０に格納され処理ユニット４３０により実行される命令として実装される。

メモリ４６０は、１つ以上のディスク、テープドライブ、及び固体ドライブを含み、オーバーフローデータ記憶装置として使用することができ、プログラムが実行されるときプログラムを格納し、プログラムが実行されるとき読み取られる命令とデータを格納するように構成される。メモリ４６０は、不揮発性性及び／又は不揮発性であってよく、読み出し専用メモリ（read-only memory, ROM）、ランダムアクセスメモリ（random access memory, RAM）、三値連想メモリ（ternary content-addressable memory, TCAM）、及び／又は静的ランダムアクセスメモリ（static random access memory, SRAM）であってよい。

図１６は、例示的な実施形態による機器５００の簡略ブロック図である。機器５００は、図１３のソース装置１２と宛先装置１４のいずれか１つ又は２つとして使用されてよい。

機器５００のプロセッサ５０２は、中央処理ユニットであってよい。代替として、プロセッサ５０２は、現在存在する又は将来開発される情報を操作し又は処理できる任意の他の種類の装置又はの複数の装置であり得る。開示されている実装は、図に示されているプロセッサ５０２のような単一のプロセッサを使用して実装することができるが、複数のプロセッサを使用する方が高速で効率的である。

実装では、機器５００内のメモリ５０４は、読み出し専用メモリ（read -only memory（ROM））装置又はランダムアクセスメモリ（random access memory（RAM））装置であり得る。任意の他の適切なタイプの記憶装置が、メモリ５０４として使用できる。メモリ５０４は、バス５１２を用いてプロセッサ５０２によりアクセスされるコード及びデータ５０６を含み得る。メモリ５０４は、オペレーティングシステム５０８及びアプリケーションプログラム５１０を更に含んでよい。アプリケーションプログラム５１０は、プロセッサ５０２が本明細書に記載の方法を実行することを可能にする少なくとも１つのプログラムを含む。例えば、アプリケーションプログラム５１０は、アプリケーション１～Ｎを含んでよく、アプリケーション１～Ｎは、本明細書に記載の方法を実行するビデオコーディングアプリケーションを更に含む。

機器５００は、ディスプレイ５１８のような１つ以上の出力装置も含み得る。更なる例では、ディスプレイ５１８は、タッチ入力を感知するよう動作するタッチ-感応要素とディスプレイを結合するタッチ-感応ディスプレイであってよい。ディスプレイ５１８は、バス５１２を用いてプロセッサ５０２に結合され得る。

機器５００のバス５１２は、ここでは単一のバスとして示されるが、バス５１２は、複数のバスを含む場合がある。また、補助メモリは、装置５００内の他のコンポーネントに直接結合されていても、ネットワークを介してアクセスされていてもよく、メモリカードのような単一の統合ユニットを含むことも、複数のメモリカードのような複数のユニットを含むこともできる。したがって、機器５００は様々な構成を有することができる。

Claims

ビデオフレーム圧縮方法であって、
ネットワーク選択ポリシに従って複数のニューラルネットワークから目標ニューラルネットワークを決定するステップであって、前記複数のニューラルネットワークが第１ニューラルネットワークと第２ニューラルネットワークを含む、ステップと、
前記目標ニューラルネットワークを使用して現在のビデオフレームに圧縮符号化を実行して、前記現在のビデオフレームに対応する圧縮情報を取得するステップと、
を含み、
前記圧縮情報が前記第１ニューラルネットワークを使用して得られる場合、前記圧縮情報は前記現在のビデオフレームの第１特徴の第１圧縮情報を含み、前記現在のビデオフレームの参照フレームは前記現在のビデオフレームの前記第１特徴の圧縮処理に使用される、又は、
前記圧縮情報が前記第２ニューラルネットワークを使用して得られる場合、前記圧縮情報は前記現在のビデオフレームの第２特徴の第２圧縮情報を含み、前記現在のビデオフレームの参照フレームは前記現在のビデオフレームの前記第２特徴の生成処理に使用される、方法。
前記第１ニューラルネットワークが符号化符号化ネットワークとエントロピー符号化層を含み、前記符号化ネットワークを使用して前記現在のビデオフレームから前記現在のビデオフレームの前記第１特徴を取得し、前記エントロピー符号化層を使用して前記現在のビデオフレームの前記参照フレームに基づいて前記現在のビデオフレームの前記第１特徴に対してエントロピー符号化を実行して、前記第１圧縮情報を出力する、及び／又は、
前記第２ニューラルネットワークが畳み込みネットワークとエントロピー符号化層を含み、前記畳み込みネットワークが複数の畳み込み層と活性化ReLU層を含み、前記畳み込みネットワークを使用して前記現在のビデオフレームの前記参照フレームに基づいて前記現在のビデオフレームの残差を取得し、前記エントロピー符号化層を使用して前記現在のビデオフレームの前記残差に対してエントロピー符号化を実行して、前記第２圧縮情報を出力し、前記第２特徴が前記残差である、請求項１に記載の方法。
前記ネットワーク選択ポリシが、前記現在のビデオフレームの位置情報又は前記現在のビデオフレームで運ばれるデータ量のいずれか１つ以上に関連する、請求項１又は２に記載の方法。
ネットワーク選択ポリシに従って、複数のニューラルネットワークから目標ニューラルネットワークを決定するステップは、
現在のビデオシーケンスの中の前記現在のビデオフレームの前記位置情報に基づいて、前記複数のニューラルネットワークから前記目標ニューラルネットワークを選択するステップであって、前記位置情報は、前記現在のビデオフレームが前記現在のビデオシーケンスにおける第Xフレームであることを示す、ステップを含む、又は、
ネットワーク選択ポリシに従って、複数のニューラルネットワークから目標ニューラルネットワークを決定するステップは、
前記現在のビデオフレームの属性に基づいて、前記複数のニューラルネットワークから前記目標ニューラルネットワークを選択するステップであって、前記現在のビデオフレームの属性は、前記現在のビデオフレームで運ばれるデータ量を示し、前記現在のビデオフレームの属性は、前記現在のビデオフレームのエントロピー、コントラスト、及び彩度のいずれか１つ又は組み合わせを含む、ステップを含む、請求項３に記載の方法。
前記方法は、
前記圧縮情報に対応する指示情報を生成し送信するステップであって、前記指示情報は、前記圧縮情報が、前記第１ニューラルネットワーク又は前記第２ニューラルネットワークのいずれかである前記目標ニューラルネットワークを用いてを取得されることを示す、ステップ、
を更に含む請求項１～４のいずれか一項に記載の方法。
前記目標ニューラルネットワークが前記第１ニューラルネットワークである場合、前記目標ニューラルネットワークを用いて現在のビデオフレームに圧縮符号化を実行して、前記現在のビデオフレームに対応する圧縮情報を取得するステップは、
前記符号化ネットワークを用いて前記現在のビデオフレームから前記現在のビデオフレームの前記第１特徴を取得するステップと、
前記エントロピー符号化層を用いて、前記現在のビデオフレームの前記参照フレームに基づいて前記現在のビデオフレームの前記第１特徴を予測して、前記現在のビデオフレームの予測特徴を生成するステップであって、前記現在のビデオフレームの前記予測特徴は、前記現在のビデオフレームの前記第１特徴の予測結果である、ステップと、
前記エントロピー符号化層を用いて、前記現在のビデオフレームの前記予測特徴に基づいて前記現在のビデオフレームの前記第１特徴の確率分布を生成するステップと、
前記エントロピー符号化層を用いて、前記現在のビデオフレームの前記第１特徴の確率分布に基づいて、前記現在のビデオフレームの前記第１特徴にエントロピー符号化を実行して、前記第１圧縮情報を取得するステップと、
を含む、請求項１～５のいずれか一項に記載の方法。
ビデオフレーム圧縮方法であって、
第１ニューラルネットワークを用いて、現在のビデオフレームに圧縮符号化を実行して、前記現在のビデオフレームの第１特徴の第１圧縮情報を取得するステップであって、前記現在のビデオフレームの参照フレームは、前記現在のビデオフレームの前記第１特徴の圧縮処理に使用される、ステップと、
前記第１ニューラルネットワークを用いて第１ビデオフレームを生成するステップであって、前記第１ビデオフレームは前記現在のビデオフレームの再構成フレームである、ステップと、
第２ニューラルネットワークを用いて前記現在のビデオフレームに圧縮符号化を実行して、前記現在のビデオフレームの第２特徴の第２圧縮情報を取得するステップであって、前記現在のビデオフレームの前記参照フレームは前記現在のビデオフレームの前記第２特徴の生成処理に使用される、ステップと、
前記第２ニューラルネットワークを用いて第２ビデオフレームを生成するステップであって、前記第２ビデオフレームは前記現在のビデオフレームの再構成フレームであるステップと、
前記第１圧縮情報、前記第１ビデオフレーム、前記第２圧縮情報、及び前記第２ビデオフレームに基づいて、前記現在のビデオフレームに対応する圧縮情報を決定するステップであって、決定される圧縮情報は前記第１ニューラルネットワークを用いて取得され、決定された圧縮情報は前記第１圧縮情報である、又は、決定される圧縮情報は前記第２ニューラルネットワークを用いて取得され、決定される圧縮情報は前記第２圧縮情報である、ステップと、
を含む方法。
前記第１ニューラルネットワークが符号化符号化ネットワークとエントロピー符号化層を含み、前記符号化ネットワークを使用して前記現在のビデオフレームから前記現在のビデオフレームの前記第１特徴を取得し、前記エントロピー符号化層を使用して前記現在のビデオフレームの前記第１特徴に対してエントロピー符号化を実行して、前記第１圧縮情報を出力する、及び／又は、
前記第２ニューラルネットワークが畳み込みネットワークとエントロピー符号化層を含み、前記畳み込みネットワークが複数の畳み込み層と活性化ReLU層を含み、前記畳み込みネットワークを使用して前記現在のビデオフレームの前記参照フレームに基づいて前記現在のビデオフレームの残差を取得し、前記エントロピー符号化層を使用して前記現在のビデオフレームの前記残差に対してエントロピー符号化を実行して、前記第２圧縮情報を出力する、請求項７に記載の方法。
ビデオフレーム圧縮方法であって、
第１ニューラルネットワークを使用して第３ビデオフレームに圧縮符号化を実行し、前記第３ビデオフレームに対応する第１圧縮情報を取得するステップであって、前記第１圧縮情報が前記第３ビデオフレームの第１特徴の圧縮情報を含み、前記第３ビデオフレームの参照フレームが前記第３ビデオフレームの前記第１特徴の圧縮処理に使用される、ステップと、
第２ニューラルネットワークを使用して第４ビデオフレームに圧縮符号化を実行し、前記第４ビデオフレームに対応する第２圧縮情報を取得するステップであって、前記第２圧縮情報が前記第４ビデオフレームの第２特徴の圧縮情報を含み、前記第４ビデオフレームの参照フレームが前記第４ビデオフレームの前記第２特徴の生成処理に使用され、前記第３ビデオフレームと前記第４ビデオフレームが同じビデオシーケンスの異なるビデオフレームであるステップと、
を含む方法。
前記第１ニューラルネットワークが符号化符号化ネットワークとエントロピー符号化層を含み、前記符号化ネットワークを使用して現在のビデオフレームから前記現在のビデオフレームの前記第１特徴を取得し、前記エントロピー符号化層を使用して前記現在のビデオフレームの前記第１特徴に対してエントロピー符号化を実行して、前記第１圧縮情報を出力する、及び／又は、
前記第２ニューラルネットワークが畳み込みネットワークとエントロピー符号化層を含み、前記畳み込みネットワークが複数の畳み込み層と活性化ReLU層を含み、前記畳み込みネットワークを使用して前記現在のビデオフレームの参照フレームに基づいて前記現在のビデオフレームの残差を取得し、前記エントロピー符号化層を使用して前記現在のビデオフレームの前記残差に対してエントロピー符号化を実行して、前記第２圧縮情報を出力する、請求項９に記載の方法。
ビデオフレーム伸長方法であって、
現在のビデオフレームの圧縮情報を取得するステップと、
複数のニューラルネットワークから、前記現在のビデオフレームに対応する目標ニューラルネットワークを選択するステップであって、前記複数のニューラルネットワークは、第３ニューラルネットワークと第４ニューラルネットワークを含む、ステップと、
前記目標ニューラルネットワークを用いて、前記圧縮情報に基づき、伸長を実行し、前記現在のビデオフレームの再構成フレームを取得するステップであって、
前記目標ニューラルネットワークが前記第３ニューラルネットワークである場合、前記圧縮情報は前記現在のビデオフレームの第１特徴の第１圧縮情報を含み、前記現在のビデオフレームの参照フレームは、前記第１圧縮情報の伸長処理に使用され、前記現在のビデオフレームの前記第１特徴を取得し、前記現在のビデオフレームの前記第１特徴は、前記現在のビデオフレームの前記再構成フレームの生成処理に使用される、又は、
前記目標ニューラルネットワークが前記第４ニューラルネットワークである場合、前記圧縮情報は前記現在のビデオフレームの第２特徴の第２圧縮情報を含み、前記第２圧縮情報はデコーダによって伸長を実行して前記現在のビデオフレームの前記第２特徴を取得するために使用され、前記現在のビデオフレームの参照フレームと前記現在のビデオフレームの前記第２特徴は、前記現在のビデオフレームの前記再構成フレームの生成プロセスに使用される、ステップと、
を含む方法。
前記第３ニューラルネットワークがエントロピー復号層と復号復号ネットワークを含み、前記エントロピー復号層を使用して前記現在のビデオフレームの前記参照フレームに基づいて前記現在のビデオフレームの前記第１圧縮情報に対してエントロピー復号を実行し、前記復号ネットワークを使用して前記現在のビデオフレームの前記第１特徴に基づいて前記現在のビデオフレームの前記再構成フレームを生成し、及び／又は、
前記第４ニューラルネットワークがエントロピー復号層と畳み込みネットワークを含み、前記エントロピー復号層を使用して前記第２圧縮情報に対してエントロピー復号を実行し、前記畳み込みネットワークを使用して前記現在のビデオフレームの前記参照フレームと前記現在のビデオフレームの前記第２特徴に基づいて前記現在のビデオフレームの前記再構成フレームの生成処理を実行する、請求項１１に記載の方法。
前記方法は、
前記圧縮情報に対応する指示情報を取得するステップを更に含み、
複数のニューラルネットワークから、前記現在のビデオフレームに対応する目標ニューラルネットワークを選択するステップは、
前記指示情報に基づいて、前記複数のニューラルネットワークから前記目標ニューラルネットワークを決定するステップを含む、請求項１１又は１２に記載の方法。
ビデオフレーム伸長方法であって、
第３ニューラルネットワークを使用して、第３ビデオフレームの第１圧縮情報を伸長し、前記第３ビデオフレームの再構成フレームを取得するステップであって、前記第１圧縮情報が前記第３ビデオフレームの第１特徴の圧縮情報を含み、前記第３ビデオフレームの参照フレームが前記第１圧縮情報の伸長処理に用いられ、前記第３ビデオフレームの前記第１特徴を取得し、前記第３ビデオフレームの前記第１特徴が前記第３ビデオフレームの前記再構成フレームの生成処理に用いられる、ステップと、
第４ニューラルネットワークを使用して、第４ビデオフレームの第２圧縮情報を伸長し、前記第４ビデオフレームの再構成フレームを取得するステップであって、前記第２圧縮情報は前記第４ビデオフレームの第２特徴の圧縮情報を含み、前記第２圧縮情報はデコーダによって伸長を実行して前記第４ビデオフレームの前記第２特徴を取得するために使用され、前記第４ビデオフレームの参照フレームと前記第４ビデオフレームの前記第２特徴は、前記第４ビデオフレームの前記再構成フレームの生成処理に使用される、ステップと、
を含む方法。
前記第３ニューラルネットワークがエントロピー復号層と復号復号ネットワークを含み、前記エントロピー復号層を使用して現在のビデオフレームの前記参照フレームに基づいて前記現在のビデオフレームの前記第１圧縮情報に対してエントロピー復号を実行し、前記復号ネットワークを使用して前記現在のビデオフレームの前記第１特徴に基づいて前記現在のビデオフレームの前記再構成フレームを生成し、及び／又は、
前記第４ニューラルネットワークがエントロピー復号層と畳み込みネットワークを含み、前記エントロピー復号層を使用して前記第２圧縮情報に対してエントロピー復号を実行し、前記畳み込みネットワークを使用して前記現在のビデオフレームの前記参照フレームと前記現在のビデオフレームの前記第２特徴に基づいて前記現在のビデオフレームの前記再構成フレームの生成処理を実行する、請求項１４に記載の方法。
エンコーダであって、処理回路を含み、請求項１～１０のいずれか一項に記載の方法を実行するよう構成されるエンコーダ。
デコーダであって、処理回路を含み、請求項１１～１５のいずれか一項に記載の方法を実行するよう構成されるデコーダ。
コンピュータプログラムプロダクトであって、プログラムコードを含み、前記プログラムコードがコンピュータ又はプロセッサにより実行されると、請求項１～１５のいずれか一項に記載の方法が実行される、コンピュータプログラムプロダクト。
エンコーダであって、
１つ以上のプロセッサと、
前記プロセッサに結合され前記プロセッサにより実行されるプログラム命令を格納する非一時的コンピュータ可読記憶媒体であって、前記プログラム命令が前記プロセッサにより実行されると、前記エンコーダは請求項１～１０のいずれか一項に記載の方法を実行可能にされる、非一時的コンピュータ可読記憶媒体と、
を含むエンコーダ。
デコーダであって、
１つ以上のプロセッサと、
前記プロセッサに結合され前記プロセッサにより実行されるプログラム命令を格納する非一時的コンピュータ可読記憶媒体であって、前記プログラム命令が前記プロセッサにより実行されると、前記デコーダは請求項１１～１５のいずれか一項に記載の方法を実行可能にされる、非一時的コンピュータ可読記憶媒体と、
を含むデコーダ。
非一時的コンピュータ可読記憶媒体であって、プログラムコードを含み、前記プログラムコードがコンピュータ装置により実行されると、請求項１～１５のいずれか一項に記載の方法が実行される、非一時的コンピュータ可読記憶媒体。