JP2023543762A

JP2023543762A - ビデオコーディングのためのニューラルネットワークベースフィルタ処理プロセスにおける活性化関数設計

Info

Publication number: JP2023543762A
Application number: JP2023518813A
Authority: JP
Inventors: ワン、ホンタオ; チェン、ジャンレー; カルチェビチ、マルタ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2020-09-30
Filing date: 2021-09-30
Publication date: 2023-10-18
Also published as: KR20230078658A; US20220103845A1; CN116325729A; EP4222954A1; US11778213B2; US20230012661A1; WO2022072684A1; US11647212B2

Abstract

ビデオデータをコーディングする方法であって、本方法は、ビデオデータのブロックを再構築することと、再構築されたブロックに畳み込みニューラルネットワーク（ＣＮＮ）ベースフィルタを適用することと、ここにおいて、ＣＮＮベースフィルタが、ＬｅａｋｙＲｅＬＵ活性化関数を使用する、を備える、方法。

Description

[0001] 本出願は、各々の内容全体が参照により組み込まれる、２０２１年９月２９日に出願された米国特許出願第１７／４８９，４５９号と、２０２０年９月３０日に出願された米国仮特許出願第６３／０８５，９３６号との優先権を主張する。２０２１年９月２９日に出願された米国特許出願第１７／４８９，４５９号は、２０２０年９月３０日に出願された米国仮特許出願第６３／０８５，９３６号の利益を主張する。

[0002] 本開示は、ビデオ符号化（video encoding）およびビデオ復号（video decoding）に関する。

[0003] デジタルビデオ能力は、デジタルテレビジョン、デジタルダイレクトブロードキャストシステム、ワイヤレスブロードキャストシステム、携帯情報端末（ＰＤＡ）、ラップトップまたはデスクトップコンピュータ、タブレットコンピュータ、電子ブックリーダー、デジタルカメラ、デジタル記録デバイス、デジタルメディアプレーヤ、ビデオゲーミングデバイス、ビデオゲームコンソール、セルラー電話または衛星無線電話、いわゆる「スマートフォン」、ビデオ遠隔会議デバイス、ビデオストリーミングデバイスなどを含む、広範囲のデバイスに組み込まれ得る。デジタルビデオデバイスは、ＭＰＥＧ－２、ＭＰＥＧ－４、ＩＴＵ－ＴＨ．２６３、ＩＴＵ－ＴＨ．２６４／ＭＰＥＧ－４，Ｐａｒｔ１０，アドバンストビデオコーディング（ＡＶＣ）、ＩＴＵ－ＴＨ．２６５／高効率ビデオコーディング（ＨＥＶＣ）によって定義された規格、およびそのような規格の拡張に記載されているビデオコーディング技法など、ビデオコーディング技法を実装する。ビデオデバイスは、そのようなビデオコーディング技法を実装することによって、デジタルビデオ情報をより効率的に送信、受信、符号化、復号、および／または記憶し得る。

[0004] ビデオコーディング技法は、ビデオシーケンスに固有の冗長性を低減または除去するための空間（イントラピクチャ）予測および／または時間（インターピクチャ）予測を含む。ブロックベースビデオコーディングでは、ビデオスライス（たとえば、ビデオピクチャまたはビデオピクチャの一部分）が、コーディングツリーユニット（ＣＴＵ）、コーディングユニット（ＣＵ）および／またはコーディングノードと呼ばれることもある、ビデオブロックに区分され得る。ピクチャのイントラコーディングされた（Ｉ）スライス中のビデオブロックは、同じピクチャ中の隣接ブロック中の参照サンプルに対する空間予測を使用して符号化される。ピクチャのインターコーディングされた（ＰまたはＢ）スライス中のビデオブロックは、同じピクチャ中の隣接ブロック中の参照サンプルに対する空間予測、または他の参照ピクチャ中の参照サンプルに対する時間予測を使用し得る。ピクチャはフレームと呼ばれることがあり、参照ピクチャは参照フレームと呼ばれることがある。

[0005] 概して、本開示は、ひずんだピクチャのためのフィルタ処理プロセスに関する技法について説明する。フィルタ処理プロセスは、ニューラルネットワーク技術に基づき得る。たとえば、フィルタ処理プロセスは、ビデオデータ（video data）の再構築されたブロック（block）に畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）ベースフィルタを適用し得る。ＣＮＮベースフィルタ（CNN-based filter）は、漏洩正規化線形ユニット（ＲｅＬＵ）（Leaky Rectified Linear Unit）活性化関数（activation function）を使用し得る。ＬｅａｋｙＲｅＬＵ活性化関数の使用は、トレーニング中に、正規化線形ユニット（ＲｅＬＵ）活性化関数よりも良い性能につながり、パラメトリック正規化線形ユニット（ＰＲｅＬＵ）活性化関数よりも大きい安定性につながり得る。フィルタ処理プロセスは、汎用ビデオコーディング（ＶＶＣ）の拡張または次世代のビデオコーディング規格、および任意の他のビデオコーデックなど、高度ビデオコーデックのコンテキストにおいて使用され得る。

[0006] 一例では、本開示は、ビデオデータをコーディングする方法であって、本方法は、ビデオデータのブロックを再構築する（reconstruct）ことと、再構築されたブロックに畳み込みニューラルネットワーク（ＣＮＮ）ベースフィルタを適用することと、ここにおいて、ＣＮＮベースフィルタが、ＬｅａｋｙＲｅＬＵ活性化関数を使用する、を備える、方法について説明する。

[0007] 別の例では、ビデオデータをコーディングするためのデバイス（device）が、ビデオデータを記憶するためのメモリと、回路中に実装された１つまたは複数のプロセッサ（processor）とを備え、１つまたは複数のプロセッサは、ビデオデータのブロックを再構築することと、再構築されたブロックに畳み込みニューラルネットワーク（ＣＮＮ）ベースフィルタを適用することと、ここにおいて、ＣＮＮベースフィルタが、ＬｅａｋｙＲｅＬＵ活性化関数を使用する、を行うように構成される。

[0008] 別の例では、本開示は、ビデオデータをコーディングするためのデバイスであって、本デバイスは、ビデオデータのブロックを再構築するための手段と、再構築されたブロックに畳み込みニューラルネットワーク（ＣＮＮ）ベースフィルタを適用するための手段と、ここにおいて、ＣＮＮベースフィルタが、ＬｅａｋｙＲｅＬＵ活性化関数を使用する、を備える、デバイスについて説明する。

[0009] 別の例では、本開示は、命令（instruction）を記憶したコンピュータ可読記憶媒体（computer-readable storage medium）であって、命令は、実行されたとき、１つまたは複数のプロセッサに、ビデオデータのブロックを再構築することと、再構築されたブロックに畳み込みニューラルネットワーク（ＣＮＮ）ベースフィルタを適用することと、ここにおいて、ＣＮＮベースフィルタが、ＬｅａｋｙＲｅＬＵ活性化関数を使用する、を行わせる、コンピュータ可読記憶媒体について説明する。

[0010] １つまたは複数の例の詳細が添付の図面および以下の説明に記載される。他の特徴、目的、および利点は、説明、図面、および特許請求の範囲から明らかになろう。

[0011] 本開示の技法を実施し得る例示的なビデオ符号化および復号システムを示すブロック図。 [0012] 例示的なクワッドツリーバイナリツリー（ＱＴＢＴ）構造を示す概念図。対応するコーディングツリーユニット（ＣＴＵ）を示す概念図。 [0013] 例示的なハイブリッドビデオコーディングフレームワークを示すブロック図。 [0014] ピクチャグループ（ＧＯＰ）サイズが１６に等しい例示的な階層予測構造を示す概念図。 [0015] ４つの層をもつ畳み込みニューラルネットワーク（ＣＮＮ）ベースフィルタを示す概念図。 [0016] ＲｅＬＵ活性化関数を示す概念図。 [0017] ＰＲｅＬＵ活性化関数を示す概念図。 [0018] 本開示の１つまたは複数の技法による、１４個の層と活性化関数としてのＬｅａｋｙＲｅＬＵとをもつ例示的なＣＮＮベースフィルタを示す概念図。 [0019] 本開示の技法を実施し得る例示的なビデオエンコーダを示すブロック図。 [0020] 本開示の技法を実施し得る例示的なビデオデコーダを示すブロック図。 [0021] 本開示の技法による、現在ブロックを符号化する（encode）ための例示的な方法を示すフローチャート。 [0022] 本開示の技法による、現在ブロックを復号するための例示的な方法を示すフローチャート。 [0023] 本開示の１つまたは複数の技法による、ビデオコーダの例示的な動作を示すフローチャート。

[0024] ビデオエンコーダ（Video encoder）およびビデオデコーダ（video decoder）は、再構築されたピクチャの品質を改善し得るインループフィルタを実装し得る。一般的なタイプのインループフィルタは、デブロッキングフィルタと適応ループフィルタ（ＡＬＦ）とを含む。最近、ニューラルネットワーク（ＮＮ：neural network）ベースフィルタが提案された。ＮＮベースフィルタは、再構築されたピクチャのブロックを入力としてとるニューラルネットワークを含む。ニューラルネットワークは、フィルタ処理されたブロックを出力する。

[0025] ニューラルネットワークベースフィルタは、入力層（an input layer）と、１つまたは複数の隠れ層（hidden layer）と、出力層（an output layer）とを含み得る。それらの層は、入力を受信し、出力を生成するニューロン（neuron）のセットを含み得る。入力層と隠れ層の各々とは、層のニューロンの出力に適用される活性化関数に関連する。正規化線形ユニット（ＲｅＬＵ：Rectified Linear Unit）およびパラメトリックＲｅＬＵ（ＰＲｅＬＵ）は、活性化関数の例である。ニューラルネットワークにおいて使用される活性化関数は、ニューラルネットワークの性能およびトレーニング可能性に著しい影響を及ぼし得る。たとえば、ＰＲｅＬＵは、ＲｅＬＵよりも良い性能を有し得る。しかしながら、ＰＲｅＬＵは、ＰＲｅＬＵ自体が、極端になり得るトレーニング可能変数を含むので、ニューラルネットワークのトレーニングプロセスを不安定にし得る。

[0026] 本開示は、ビデオコーディング（video coding）における前に提案されたＮＮベースフィルタに関するこれらの技術的問題に対処し得る技法について説明する。たとえば、ビデオコーダ（たとえば、ビデオエンコーダまたはビデオデコーダ）は、ビデオデータのブロックを再構築し得る。さらに、ビデオコーダは、再構築されたブロックに畳み込みニューラルネットワーク（ＣＮＮ）ベースフィルタを適用し得る。ＣＮＮベースフィルタは、ＬｅａｋｙＲｅＬＵ活性化関数を使用する。ＬｅａｋｙＲｅＬＵ活性化関数の使用は、ＣＮＮベースフィルタが、トレーニングプロセス中に不安定性を回避しながらＰＲｅＬＵよりも良い性能を有することを可能にし得る。ＬｅａｋｙＲｅＬＵ活性化関数の使用は、他のタイプの活性化関数とは対照的に、再構築されたピクチャのフィルタ処理中に呈される特定の特性に基づき、性能と安定性の両方に関してビデオコーディングの予期しない著しい改善をもたらし得る。

[0027] 図１は、本開示の技法を実施し得る例示的なビデオ符号化および復号システム１００を示すブロック図である。本開示の技法は、概して、ビデオデータをコーディング（符号化および／または復号）することを対象とする。概して、ビデオデータは、ビデオを処理するための何らかのデータを含む。したがって、ビデオデータは、生の符号化されていないビデオ、符号化されたビデオ、復号された（たとえば、再構築された）ビデオ、およびシグナリングデータなどのビデオメタデータを含み得る。

[0028] 図１に示されているように、システム１００は、この例では、宛先デバイス１１６によって復号および表示されるべき符号化されたビデオデータを提供するソースデバイス１０２を含む。特に、ソースデバイス１０２は、コンピュータ可読媒体１１０を介して宛先デバイス１１６にビデオデータを提供する。ソースデバイス１０２と宛先デバイス１１６とは、デスクトップコンピュータ、ノートブック（すなわち、ラップトップ）コンピュータ、モバイルデバイス、タブレットコンピュータ、セットトップボックス、スマートフォンなどの電話ハンドセット、テレビジョン、カメラ、ディスプレイデバイス、デジタルメディアプレーヤ、ビデオゲーミングコンソール、ビデオストリーミングデバイス、ブロードキャスト受信機デバイスなどを含む、広範囲のデバイスのいずれかを備え得る。いくつかの場合には、ソースデバイス１０２と宛先デバイス１１６とは、ワイヤレス通信のために装備され得、したがって、ワイヤレス通信デバイスと呼ばれることがある。

[0029] 図１の例では、ソースデバイス１０２は、ビデオソース１０４と、メモリ１０６と、ビデオエンコーダ２００と、出力インターフェース１０８とを含む。宛先デバイス１１６は、入力インターフェース１２２と、ビデオデコーダ３００と、メモリ１２０と、ディスプレイデバイス１１８とを含む。本開示によれば、ソースデバイス１０２のビデオエンコーダ２００と、宛先デバイス１１６のビデオデコーダ３００とは、ニューラルネットワークベースフィルタを使用するための技法を適用するように構成され得る。したがって、ソースデバイス１０２はビデオ符号化デバイスの一例を表し、宛先デバイス１１６はビデオ復号デバイスの一例を表す。他の例では、ソースデバイスおよび宛先デバイスは、他の構成要素または配置を含み得る。たとえば、ソースデバイス１０２は、外部カメラなどの外部ビデオソースからビデオデータを受信し得る。同様に、宛先デバイス１１６は、一体型ディスプレイデバイスを含むのではなく、外部ディスプレイデバイスとインターフェースし得る。

[0030] 図１に示されているシステム１００は一例にすぎない。概して、いかなるデジタルビデオ符号化および／または復号デバイスも、ニューラルネットワークベースフィルタを使用するための技法を実施し得る。ソースデバイス１０２と宛先デバイス１１６とは、ソースデバイス１０２が宛先デバイス１１６への送信のためにコーディングされたビデオデータを生成するようなコーディングデバイスの例にすぎない。本開示は、データのコーディング（符号化および／または復号）を実施するデバイスとして「コーディング」デバイスに言及する。したがって、ビデオエンコーダ２００およびビデオデコーダ３００は、コーディングデバイス、特に、それぞれビデオエンコーダおよびビデオデコーダの例を表す。いくつかの例では、ソースデバイス１０２および宛先デバイス１１６は、ソースデバイス１０２および宛先デバイス１１６の各々がビデオ符号化構成要素およびビデオ復号構成要素を含むように、実質的に対称的に動作し得る。したがって、システム１００は、たとえば、ビデオストリーミング、ビデオ再生、ビデオブロードキャスティング、またはビデオテレフォニーのために、ソースデバイス１０２と宛先デバイス１１６との間の一方向または二方向ビデオ送信をサポートし得る。

[0031] 概して、ビデオソース１０４は、ビデオデータ（すなわち、生の符号化されていないビデオデータ）のソースを表し、ビデオデータの連続的な一連のピクチャ（「フレーム」とも呼ばれる）をビデオエンコーダ２００に提供し、ビデオエンコーダ２００は、ピクチャのためにデータを符号化する。ソースデバイス１０２のビデオソース１０４は、ビデオカメラ、前にキャプチャされた生のビデオを含んでいるビデオアーカイブ、および／またはビデオコンテンツプロバイダからビデオを受信するためのビデオフィードインターフェースなど、ビデオキャプチャデバイスを含み得る。さらなる代替として、ビデオソース１０４は、ソースビデオとしてのコンピュータグラフィックスベースデータ、またはライブビデオとアーカイブされたビデオとコンピュータ生成されたビデオとの組合せを生成し得る。各場合において、ビデオエンコーダ２００は、キャプチャされたビデオデータ、プリキャプチャされたビデオデータ、またはコンピュータ生成されたビデオデータを符号化する。ビデオエンコーダ２００は、ピクチャを、（「表示順序」と呼ばれることがある）受信順序から、コーディングのためのコーディング順序に再配置し得る。ビデオエンコーダ２００は、符号化されたビデオデータを含むビットストリーム（bitstream）を生成し得る。ソースデバイス１０２は、次いで、たとえば、宛先デバイス１１６の入力インターフェース１２２による受信および／または取出しのために、出力インターフェース１０８を介して、符号化されたビデオデータをコンピュータ可読媒体１１０上に出力し得る。

[0032] ソースデバイス１０２のメモリ１０６と、宛先デバイス１１６のメモリ１２０とは、汎用メモリを表す。いくつかの例では、メモリ１０６、１２０は、生のビデオデータ、たとえば、ビデオソース１０４からの生のビデオ、およびビデオデコーダ３００からの生の復号されたビデオデータを記憶し得る。追加または代替として、メモリ１０６、１２０は、たとえば、それぞれ、ビデオエンコーダ２００およびビデオデコーダ３００によって実行可能なソフトウェア命令を記憶し得る。メモリ１０６およびメモリ１２０は、この例ではビデオエンコーダ２００およびビデオデコーダ３００とは別個に示されているが、ビデオエンコーダ２００およびビデオデコーダ３００は、機能的に同様のまたは等価な目的で内部メモリをも含み得ることを理解されたい。さらに、メモリ１０６、１２０は、符号化されたビデオデータ、たとえば、ビデオエンコーダ２００からの出力、およびビデオデコーダ３００への入力を記憶し得る。いくつかの例では、メモリ１０６、１２０の部分は、たとえば、生の復号および／または符号化されたビデオデータを記憶するために、１つまたは複数のビデオバッファとして割り振られ得る。

[0033] コンピュータ可読媒体１１０は、ソースデバイス１０２から宛先デバイス１１６に符号化されたビデオデータを移送することが可能な任意のタイプの媒体またはデバイスを表し得る。一例では、コンピュータ可読媒体１１０は、ソースデバイス１０２が、たとえば、無線周波数ネットワークまたはコンピュータベースネットワークを介して、符号化されたビデオデータを宛先デバイス１１６にリアルタイムで直接送信することを可能にするための通信媒体を表す。出力インターフェース１０８は、符号化されたビデオデータを含む送信信号を変調し得、入力インターフェース１２２は、ワイヤレス通信プロトコルなどの通信規格に従って、受信された送信信号を復調し得る。通信媒体は、無線周波数（ＲＦ）スペクトルまたは１つまたは複数の物理伝送線路など、任意のワイヤレスまたはワイヤード通信媒体を備え得る。通信媒体は、ローカルエリアネットワーク、ワイドエリアネットワーク、またはインターネットなどのグローバルネットワークなど、パケットベースネットワークの一部を形成し得る。通信媒体は、ルータ、スイッチ、基地局、またはソースデバイス１０２から宛先デバイス１１６への通信を容易にするのに有用であり得る任意の他の機器を含み得る。

[0034] いくつかの例では、ソースデバイス１０２は、出力インターフェース１０８からストレージデバイス１１２に符号化されたデータを出力し得る。同様に、宛先デバイス１１６は、入力インターフェース１２２を介してストレージデバイス１１２からの符号化されたデータにアクセスし得る。ストレージデバイス１１２は、ハードドライブ、Ｂｌｕ－ｒａｙ（登録商標）ディスク、ＤＶＤ、ＣＤ－ＲＯＭ、フラッシュメモリ、揮発性または不揮発性メモリ、あるいは符号化されたビデオデータを記憶するための任意の他の好適なデジタル記憶媒体など、様々な分散されたまたはローカルにアクセスされるデータ記憶媒体のいずれかを含み得る。

[0035] いくつかの例では、ソースデバイス１０２は、ソースデバイス１０２によって生成された符号化されたビデオデータを記憶し得るファイルサーバ１１４または別の中間ストレージデバイスに符号化されたビデオデータを出力し得る。宛先デバイス１１６は、ストリーミングまたはダウンロードを介してファイルサーバ１１４からの記憶されたビデオデータにアクセスし得る。

[0036] ファイルサーバ１１４は、符号化されたビデオデータを記憶し、その符号化されたビデオデータを宛先デバイス１１６に送信することが可能な任意のタイプのサーバデバイスであり得る。ファイルサーバ１１４は、（たとえば、ウェブサイトのための）ウェブサーバ、（ファイル転送プロトコル（ＦＴＰ）またはファイル配信オーバー単方向トランスポート（ＦＬＵＴＥ：File Delivery over Unidirectional Transport）プロトコルなどの）ファイル転送プロトコルサービスを提供するように構成されたサーバ、コンテンツ配信ネットワーク（ＣＤＮ）デバイス、ハイパーテキスト転送プロトコル（ＨＴＴＰ）サーバ、マルチメディアブロードキャストマルチキャストサービス（ＭＢＭＳ）または拡張ＭＢＭＳ（ｅＭＢＭＳ）サーバ、および／あるいはネットワーク接続ストレージ（ＮＡＳ）デバイスを表し得る。ファイルサーバ１１４は、追加または代替として、動的適応ストリーミングオーバーＨＴＴＰ（ＤＡＳＨ）、ＨＴＴＰライブストリーミング（ＨＬＳ）、リアルタイムストリーミングプロトコル（ＲＴＳＰ）、ＨＴＴＰ動的ストリーミングなど、１つまたは複数のＨＴＴＰストリーミングプロトコルを実装し得る。

[0037] 宛先デバイス１１６は、インターネット接続を含む任意の標準的なデータ接続を通してファイルサーバ１１４からの符号化されたビデオデータにアクセスし得る。これは、ファイルサーバ１１４に記憶された符号化されたビデオデータにアクセスするのに好適であるワイヤレスチャネル（たとえば、Ｗｉ－Ｆｉ（登録商標）接続）、ワイヤード接続（たとえば、デジタル加入者回線（ＤＳＬ）、ケーブルモデムなど）、またはその両方の組合せを含み得る。入力インターフェース１２２は、ファイルサーバ１１４からメディアデータを取り出すまたは受信するための上記で説明された様々なプロトコル、あるいはメディアデータを取り出すための他のそのようなプロトコルのうちのいずれか１つまたは複数に従って動作するように構成され得る。

[0038] 出力インターフェース１０８および入力インターフェース１２２は、ワイヤレス送信機／受信機、モデム、ワイヤードネットワーキング構成要素（たとえば、イーサネット（登録商標）カード）、様々なＩＥＥＥ８０２．１１規格のいずれかに従って動作するワイヤレス通信構成要素、または他の物理的構成要素を表し得る。出力インターフェース１０８および入力インターフェース１２２がワイヤレス構成要素を備える例では、出力インターフェース１０８および入力インターフェース１２２は、４Ｇ、４Ｇ－ＬＴＥ（登録商標）（ロングタームエボリューション）、ＬＴＥアドバンスト、５Ｇなど、セルラー通信規格に従って、符号化されたビデオデータなどのデータを転送するように構成され得る。出力インターフェース１０８がワイヤレス送信機を備えるいくつかの例では、出力インターフェース１０８および入力インターフェース１２２は、ＩＥＥＥ８０２．１１仕様、ＩＥＥＥ８０２．１５仕様（たとえば、ＺｉｇＢｅｅ（登録商標））、Ｂｌｕｅｔｏｏｔｈ（登録商標）規格など、他のワイヤレス規格に従って、符号化されたビデオデータなどのデータを転送するように構成され得る。いくつかの例では、ソースデバイス１０２および／または宛先デバイス１１６は、それぞれのシステムオンチップ（ＳｏＣ）デバイスを含み得る。たとえば、ソースデバイス１０２は、ビデオエンコーダ２００および／または出力インターフェース１０８に帰属する機能を実施するためのＳｏＣデバイスを含み得、宛先デバイス１１６は、ビデオデコーダ３００および／または入力インターフェース１２２に帰属する機能を実施するためのＳｏＣデバイスを含み得る。

[0039] 本開示の技法は、オーバージエアテレビジョン放送、ケーブルテレビジョン送信、衛星テレビジョン送信、動的適応ストリーミングオーバーＨＴＴＰ（ＤＡＳＨ）などのインターネットストリーミングビデオ送信、データ記憶媒体上に符号化されたデジタルビデオ、データ記憶媒体に記憶されたデジタルビデオの復号、または他の適用例など、様々なマルチメディア適用例のいずれかをサポートするビデオコーディングに適用され得る。

[0040] 宛先デバイス１１６の入力インターフェース１２２は、コンピュータ可読媒体１１０（たとえば、通信媒体、ストレージデバイス１１２、ファイルサーバ１１４など）から符号化されたビデオビットストリームを受信する。符号化されたビデオビットストリームは、ビデオブロックまたは他のコーディングされたユニット（たとえば、スライス、ピクチャ、ピクチャグループ、シーケンスなど）の特性および／または処理を記述する値を有するシンタックス要素（syntax element）など、ビデオデコーダ３００によっても使用される、ビデオエンコーダ２００によって定義されるシグナリング情報を含み得る。ディスプレイデバイス１１８は、復号されたビデオデータの復号されたピクチャをユーザに表示する。ディスプレイデバイス１１８は、液晶ディスプレイ（ＬＣＤ）、プラズマディスプレイ、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、または別のタイプのディスプレイデバイスなど、様々なディスプレイデバイスのいずれかを表し得る。

[0041] 図１には示されていないが、いくつかの例では、ビデオエンコーダ２００およびビデオデコーダ３００は各々、オーディオエンコーダおよび／またはオーディオデコーダと統合され得、共通のデータストリーム中にオーディオとビデオの両方を含む多重化ストリームをハンドリングするために、適切なＭＵＸ－ＤＥＭＵＸユニット、あるいは他のハードウェアおよび／またはソフトウェアを含み得る。適用可能な場合、ＭＵＸ－ＤＥＭＵＸユニットは、ＩＴＵＨ．２２３マルチプレクサプロトコル、またはユーザデータグラムプロトコル（ＵＤＰ）などの他のプロトコルに準拠し得る。

[0042] ビデオエンコーダ２００およびビデオデコーダ３００は各々、１つまたは複数のマイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、ディスクリート論理、ソフトウェア、ハードウェア、ファームウェアなど、様々な好適なエンコーダおよび／またはデコーダ回路のいずれか、あるいはそれらの任意の組合せとして実装され得る。本技法が部分的にソフトウェアで実装されるとき、デバイスは、好適な非一時的コンピュータ可読媒体にソフトウェアのための命令を記憶し、本開示の技法を実施するために１つまたは複数のプロセッサを使用してその命令をハードウェアで実行し得る。ビデオエンコーダ２００およびビデオデコーダ３００の各々は、１つまたは複数のエンコーダまたはデコーダに含まれ得、そのいずれも、それぞれのデバイスにおいて複合エンコーダ／デコーダ（コーデック）の一部として統合され得る。ビデオエンコーダ２００および／またはビデオデコーダ３００を含むデバイスは、集積回路、マイクロプロセッサ、および／またはセルラー電話などのワイヤレス通信デバイスを備え得る。

[0043] ビデオエンコーダ２００およびビデオデコーダ３００は、高効率ビデオコーディング（ＨＥＶＣ）とも呼ばれるＩＴＵ－ＴＨ．２６５、あるいはマルチビューおよび／またはスケーラブルビデオコーディング拡張などのそれらの拡張など、ビデオコーディング規格に従って動作し得る。代替的に、ビデオエンコーダ２００およびビデオデコーダ３００は、汎用ビデオコーディング（ＶＶＣ）とも呼ばれるＩＴＵ－ＴＨ．２６６など、他のプロプライエタリ規格または業界規格に従って動作し得る。ＶＶＣ仕様のバージョン１がファイナライズされており（以下でＶＶＣＦＤＩＳと呼ばれる）、ｈｔｔｐ：／／ｐｈｅｎｉｘ．ｉｎｔ－ｅｖｒｙ．ｆｒ／ｊｖｅｔ／ｄｏｃ＿ｅｎｄ＿ｕｓｅｒ／ｄｏｃｕｍｅｎｔｓ／１９＿Ｔｅｌｅｃｏｎｆｅｒｅｎｃｅ／ｗｇ１１／ＪＶＥＴ－Ｓ２００１－ｖ１７．ｚｉｐから入手可能である。ただし、本開示の技法は、いかなる特定のコーディング規格にも限定されない。

[0044] 概して、ビデオエンコーダ２００およびビデオデコーダ３００は、ピクチャのブロックベースコーディングを実施し得る。「ブロック」という用語は、概して、処理されるべき（たとえば、符号化されるべき、復号されるべき、あるいは、符号化および／または復号プロセスにおいて他の方法で使用されるべき）データを含む構造を指す。たとえば、ブロックは、ルミナンスおよび／またはクロミナンスデータのサンプルの２次元行列を含み得る。概して、ビデオエンコーダ２００およびビデオデコーダ３００は、ＹＵＶ（たとえば、Ｙ、Ｃｂ、Ｃｒ）フォーマットで表されるビデオデータをコーディングし得る。すなわち、ピクチャのサンプルのために赤色、緑色、および青色（ＲＧＢ）データをコーディングするのではなく、ビデオエンコーダ２００およびビデオデコーダ３００は、ルミナンス成分とクロミナンス成分とをコーディングし得、ここで、クロミナンス成分は、赤色相と青色相の両方のクロミナンス成分を含み得る。いくつかの例では、ビデオエンコーダ２００は、符号化より前に、受信されたＲＧＢフォーマットのデータをＹＵＶ表現にコンバートし、ビデオデコーダ３００は、ＹＵＶ表現をＲＧＢフォーマットにコンバートする。代替的に、前処理および後処理ユニット（図示せず）が、これらのコンバージョンを実施し得る。

[0045] 本開示は、概して、ピクチャのデータを符号化または復号するプロセスを含むように、ピクチャのコーディング（たとえば、符号化および復号）に言及することがある。同様に、本開示は、ブロックのためのデータを符号化または復号するプロセス、たとえば、予測および／または残差コーディングを含むように、ピクチャのブロックのコーディングに言及することがある。符号化されたビデオビットストリームは、概して、コーディング決定（たとえば、コーディングモード）とブロックへのピクチャの区分とを表すシンタックス要素についての一連の値を含む。したがって、ピクチャまたはブロックをコーディングすることへの言及は、概して、ピクチャまたはブロックを形成するシンタックス要素についての値をコーディングすることとして理解されるべきである。

[0046] ＨＥＶＣは、コーディングユニット（ＣＵ）、予測ユニット（ＰＵ）、および変換ユニット（ＴＵ）を含む、様々なブロックを定義する。ＨＥＶＣに従って、（ビデオエンコーダ２００などの）ビデオコーダは、クワッドツリー構造に従ってコーディングツリーユニット（ＣＴＵ）をＣＵに区分する。すなわち、ビデオコーダは、ＣＴＵとＣＵとを４つの等しい重複しない正方形に区分し、クワッドツリーの各ノードは、０個または４つのいずれかの子ノードを有する。子ノードなしのノードは、「リーフノード」と呼ばれることがあり、そのようなリーフノードのＣＵは、１つまたは複数のＰＵおよび／または１つまたは複数のＴＵを含み得る。ビデオコーダは、ＰＵとＴＵとをさらに区分し得る。たとえば、ＨＥＶＣでは、残差クワッドツリー（ＲＱＴ）は、ＴＵの区分を表す。ＨＥＶＣでは、ＰＵはインター予測データを表し、ＴＵは残差データを表す。イントラ予測されるＣＵは、イントラモード指示などのイントラ予測情報を含む。

[0047] 別の例として、ビデオエンコーダ２００およびビデオデコーダ３００は、ＶＶＣに従って動作するように構成され得る。ＶＶＣに従って、（ビデオエンコーダ２００などの）ビデオコーダは、ピクチャを複数のコーディングツリーユニット（ＣＴＵ）に区分する。ビデオエンコーダ２００は、クワッドツリーバイナリツリー（ＱＴＢＴ）構造またはマルチタイプツリー（ＭＴＴ）構造など、ツリー構造に従ってＣＴＵを区分し得る。ＱＴＢＴ構造は、ＨＥＶＣのＣＵとＰＵとＴＵとの間の分離など、複数の区分タイプの概念を除去する。ＱＴＢＴ構造は、２つのレベル、すなわち、クワッドツリー区分に従って区分される第１のレベルと、バイナリツリー区分に従って区分される第２のレベルとを含む。ＱＴＢＴ構造のルートノードは、ＣＴＵに対応する。バイナリツリーのリーフノードは、コーディングユニット（ＣＵ）に対応する。

[0048] ＭＴＴ区分構造では、ブロックは、クワッドツリー（ＱＴ）区分と、バイナリツリー（ＢＴ）区分と、１つまたは複数のタイプのトリプルツリー（ＴＴ）（ターナリツリー（ＴＴ）とも呼ばれる）区分とを使用して区分され得る。トリプルツリーまたはターナリツリー区分は、ブロックが３つのサブブロックにスプリットされる区分である。いくつかの例では、トリプルツリーまたはターナリツリー区分は、中心を通して元のブロックを分割することなしにブロックを３つのサブブロックに分割する。ＭＴＴにおける区分タイプ（たとえば、ＱＴ、ＢＴ、およびＴＴ）は、対称または非対称であり得る。

[0049] いくつかの例では、ビデオエンコーダ２００およびビデオデコーダ３００は、ルミナンス成分とクロミナンス成分との各々を表すために単一のＱＴＢＴまたはＭＴＴ構造を使用し得、他の例では、ビデオエンコーダ２００およびビデオデコーダ３００は、ルミナンス成分のための１つのＱＴＢＴ／ＭＴＴ構造、および両方のクロミナンス成分のための別のＱＴＢＴ／ＭＴＴ構造（またはそれぞれのクロミナンス成分のための２つのＱＴＢＴ／ＭＴＴ構造）など、２つまたはそれ以上のＱＴＢＴまたはＭＴＴ構造を使用し得る。

[0050] ビデオエンコーダ２００およびビデオデコーダ３００は、ＨＥＶＣに従うクワッドツリー区分、ＱＴＢＴ区分、ＭＴＴ区分、または他の区分構造を使用するように構成され得る。説明の目的で、本開示の技法の説明はＱＴＢＴ区分に関して提示される。しかしながら、本開示の技法は、クワッドツリー区分、または同様に他のタイプの区分を使用するように構成されたビデオコーダにも適用され得ることを理解されたい。

[0051] いくつかの例では、ＣＴＵは、ルーマサンプルのコーディングツリーブロック（ＣＴＢ）、３つのサンプルアレイを有するピクチャのクロマサンプルの２つの対応するＣＴＢ、あるいはモノクロームピクチャ、またはサンプルをコーディングするために使用される３つの別個の色プレーンとシンタックス構造とを使用してコーディングされるピクチャのサンプルのＣＴＢを含む。ＣＴＢは、ＣＴＢへの成分の分割が区分になるような何らかの値のＮについて、サンプルのＮ×Ｎブロックであり得る。成分は、ピクチャを４：２：０、４：２：２、または４：４：４色フォーマットに構成する３つのアレイ（ルーマおよび２つのクロマ）のうちの１つからのアレイまたは単一のサンプル、あるいはピクチャをモノクロームフォーマットに構成するアレイまたはアレイの単一のサンプルである。いくつかの例では、コーディングブロックは、コーディングブロックへのＣＴＢの分割が区分になるような何らかの値のＭとＮとについて、サンプルのＭ×Ｎブロックである。

[0052] ブロック（たとえば、ＣＴＵまたはＣＵ）は、ピクチャ中で様々な方法でグループ化され得る。一例として、ブリックは、ピクチャ中の特定のタイル内のＣＴＵ行の矩形領域を指し得る。タイルは、ピクチャ中の特定のタイル列および特定のタイル行内のＣＴＵの矩形領域であり得る。タイル列は、ピクチャの高さに等しい高さと、（たとえば、ピクチャパラメータセット中などの）シンタックス要素によって指定された幅とを有するＣＴＵの矩形領域を指す。タイル行は、（たとえば、ピクチャパラメータセット中などの）シンタックス要素によって指定された高さと、ピクチャの幅に等しい幅とを有するＣＴＵの矩形領域を指す。

[0053] いくつかの例では、タイルは複数のブリックに区分され得、それらの各々は、タイル内に１つまたは複数のＣＴＵ行を含み得る。複数のブリックに区分されないタイルもブリックと呼ばれることがある。しかしながら、タイルの真のサブセットであるブリックは、タイルと呼ばれないことがある。

[0054] ピクチャ中のブリックはまた、スライス中に配置され得る。スライスは、もっぱら単一のネットワークアブストラクションレイヤ（ＮＡＬ）ユニット中に含まれていることがあるピクチャの整数個のブリックであり得る。いくつかの例では、スライスは、いくつかの完全なタイル、または１つのタイルの完全なブリックの連続シーケンスのみのいずれかを含む。

[0055] 本開示は、垂直寸法と水平寸法とに関して（ＣＵまたは他のビデオブロックなどの）ブロックのサンプル寸法を指すために、「Ｎ×Ｎ（NxN）」および「Ｎ×Ｎ（N by N）」、たとえば、１６×１６サンプル（16x16 samples）または１６×１６サンプル（16 by 16 samples）を互換的に使用し得る。概して、１６×１６のＣＵは、垂直方向に１６個のサンプルを有し（ｙ＝１６）、水平方向に１６個のサンプルを有する（ｘ＝１６）。同様に、Ｎ×ＮのＣＵは、概して、垂直方向にＮ個のサンプルを有し、水平方向にＮ個のサンプルを有し、ここで、Ｎは非負整数値を表す。ＣＵ中のサンプルは、行と列とに配置され得る。その上、ＣＵは、必ずしも、水平方向において垂直方向と同じ数のサンプルを有する必要があるとは限らない。たとえば、ＣＵはＮ×Ｍサンプルを備え得、ここで、Ｍは必ずしもＮに等しいとは限らない。

[0056] ビデオエンコーダ２００は、予測および／または残差情報、ならびに他の情報を表す、ＣＵのためのビデオデータを符号化する。予測情報は、ＣＵについて予測ブロックを形成するためにＣＵがどのように予測されるべきかを示す。残差情報は、概して、符号化より前のＣＵのサンプルと予測ブロックとの間のサンプルごとの差分を表す。

[0057] ＣＵを予測するために、ビデオエンコーダ２００は、概して、インター予測またはイントラ予測を通してＣＵについて予測ブロックを形成し得る。インター予測は、概して、前にコーディングされたピクチャのデータからＣＵを予測することを指すが、イントラ予測は、概して、同じピクチャの前にコーディングされたデータからＣＵを予測することを指す。インター予測を実施するために、ビデオエンコーダ２００は、１つまたは複数の動きベクトルを使用して予測ブロックを生成し得る。ビデオエンコーダ２００は、概して、たとえば、ＣＵと参照ブロックとの間の差分に関して、ＣＵにぴったり一致する参照ブロックを識別するために動き探索を実施し得る。ビデオエンコーダ２００は、参照ブロックが現在ＣＵにぴったり一致するかどうかを決定するために、絶対差分和（ＳＡＤ）、２乗差分和（ＳＳＤ）、平均絶対差（ＭＡＤ）、平均２乗差（ＭＳＤ）、または他のそのような差分計算を使用して差分メトリックを計算し得る。いくつかの例では、ビデオエンコーダ２００は、単方向予測または双方向予測を使用して現在ＣＵを予測し得る。

[0058] ＶＶＣのいくつかの例はまた、インター予測モードと見なされ得るアフィン動き補償モードを提供する。アフィン動き補償モードでは、ビデオエンコーダ２００は、ズームインまたはアウト、回転、パースペクティブの動き、あるいは他の変則の動きタイプなど、非並進の動きを表す２つまたはそれ以上の動きベクトルを決定し得る。

[0059] イントラ予測を実施するために、ビデオエンコーダ２００は、予測ブロックを生成するようにイントラ予測モードを選択し得る。ＶＶＣのいくつかの例は、様々な方向性モード、ならびにプレーナ（planar）モードおよびＤＣモードを含む、６７個のイントラ予測モードを提供する。概して、ビデオエンコーダ２００は、現在ブロック（たとえば、ＣＵのブロック）のサンプルをそれから予測すべき、現在ブロックに対する隣接サンプルを記述するイントラ予測モードを選択する。そのようなサンプルは、ビデオエンコーダ２００がラスタ走査順序で（左から右に、上から下に）ＣＴＵとＣＵとをコーディングすると仮定すると、概して、現在ブロックと同じピクチャ中の現在ブロックの上、左上、または左にあり得る。

[0060] ビデオエンコーダ２００は、現在ブロックについて予測モードを表すデータを符号化する。たとえば、インター予測モードでは、ビデオエンコーダ２００は、様々な利用可能なインター予測モードのうちのどれが使用されるか、ならびに対応するモードのための動き情報を表すデータを符号化し得る。たとえば、単方向または双方向インター予測では、ビデオエンコーダ２００は、高度動きベクトル予測（ＡＭＶＰ）またはマージモードを使用して動きベクトルを符号化し得る。ビデオエンコーダ２００は、アフィン動き補償モードのための動きベクトルを符号化するために、同様のモードを使用し得る。

[0061] ブロックのイントラ予測またはインター予測などの予測に続いて、ビデオエンコーダ２００は、ブロックについて残差データを計算し得る。残差ブロックなどの残差データは、ブロックと、対応する予測モードを使用して形成された、ブロックについての予測ブロックとの間の、サンプルごとの差分を表す。ビデオエンコーダ２００は、サンプル領域ではなく変換領域中に変換されたデータを作り出すために、残差ブロックに１つまたは複数の変換を適用し得る。たとえば、ビデオエンコーダ２００は、離散コサイン変換（ＤＣＴ）、整数変換、ウェーブレット変換、または概念的に同様の変換を残差ビデオデータに適用し得る。さらに、ビデオエンコーダ２００は、第１の変換に続いて、モード依存非分離可能２次変換（ＭＤＮＳＳＴ：mode-dependent non-separable secondary transform）、信号依存変換、カルーネンレーベ変換（ＫＬＴ）などの２次変換を適用し得る。ビデオエンコーダ２００は、１つまたは複数の変換の適用に続いて変換係数を作り出す。

[0062] 上述のように、変換係数を作り出すための任意の変換に続いて、ビデオエンコーダ２００は変換係数の量子化を実施し得る。量子化は、概して、変換係数を表すために使用されるデータの量をできるだけ低減するために変換係数が量子化され、さらなる圧縮を行うプロセスを指す。量子化プロセスを実施することによって、ビデオエンコーダ２００は、変換係数の一部または全部に関連するビット深度を低減し得る。たとえば、ビデオエンコーダ２００は、量子化中にｎビット値をｍビット値に丸めることがあり、ここで、ｎはｍよりも大きい。いくつかの例では、量子化を実施するために、ビデオエンコーダ２００は、量子化されるべき値のビット単位右シフトを実施し得る。

[0063] 量子化に続いて、ビデオエンコーダ２００は、変換係数を走査して、量子化された変換係数を含む２次元行列から１次元ベクトルを作り出し得る。走査は、より高いエネルギー（したがって、より低い頻度）の変換係数をベクトルの前方に配置し、より低いエネルギー（したがって、より高い頻度）の変換係数をベクトルの後方に配置するように設計され得る。いくつかの例では、ビデオエンコーダ２００は、シリアル化されたベクトルを作り出すために、量子化された変換係数を走査するために、あらかじめ定義された走査順序を利用し、次いで、ベクトルの量子化された変換係数をエントロピー符号化し得る。他の例では、ビデオエンコーダ２００は適応型走査を実施し得る。量子化された変換係数を走査して１次元ベクトルを形成した後に、ビデオエンコーダ２００は、たとえば、コンテキスト適応型バイナリ算術コーディング（ＣＡＢＡＣ）に従って、１次元ベクトルをエントロピー符号化し得る。ビデオエンコーダ２００はまた、ビデオデータを復号する際のビデオデコーダ３００による使用のために、符号化されたビデオデータに関連するメタデータを記述するシンタックス要素についての値をエントロピー符号化し得る。

[0064] ＣＡＢＡＣを実施するために、ビデオエンコーダ２００は、コンテキストモデル内のコンテキストを、送信されるべきシンボルに割り当て得る。コンテキストは、たとえば、シンボルの隣接値が０値であるか否かに関係し得る。確率決定は、シンボルに割り当てられたコンテキストに基づき得る。

[0065] ビデオエンコーダ２００は、さらに、ブロックベースシンタックスデータ、ピクチャベースシンタックスデータ、およびシーケンスベースシンタックスデータなどのシンタックスデータを、たとえば、ピクチャヘッダ、ブロックヘッダ、スライスヘッダ、あるいはシーケンスパラメータセット（ＳＰＳ）、ピクチャパラメータセット（ＰＰＳ）、またはビデオパラメータセット（ＶＰＳ）などの他のシンタックスデータ中で、ビデオデコーダ３００に対して生成し得る。ビデオデコーダ３００は、対応するビデオデータをどのように復号すべきかを決定するために、そのようなシンタックスデータを同様に復号し得る。

[0066] このようにして、ビデオエンコーダ２００は、符号化されたビデオデータ、たとえば、ブロック（たとえば、ＣＵ）へのピクチャの区分ならびにブロックについての予測および／または残差情報を記述するシンタックス要素を含むビットストリームを生成し得る。最終的に、ビデオデコーダ３００は、ビットストリームを受信し、符号化されたビデオデータを復号し得る。

[0067] 概して、ビデオデコーダ３００は、ビットストリームの符号化されたビデオデータを復号するために、ビデオエンコーダ２００によって実施されたものの逆プロセスを実施する。たとえば、ビデオデコーダ３００は、ビデオエンコーダ２００のＣＡＢＡＣ符号化プロセスと逆ではあるが、それと実質的に同様の様式でＣＡＢＡＣを使用してビットストリームのシンタックス要素についての値を復号し得る。シンタックス要素は、ＣＴＵのＣＵを定義するために、ピクチャをＣＴＵに区分するための区分情報と、ＱＴＢＴ構造などの対応する区分構造に従う、各ＣＴＵの区分とを定義し得る。シンタックス要素は、ビデオデータのブロック（たとえば、ＣＵ）についての予測および残差情報をさらに定義し得る。

[0068] 残差情報は、たとえば、量子化された変換係数によって表され得る。ビデオデコーダ３００は、ブロックのための残差ブロックを再生するために、ブロックの量子化された変換係数を逆量子化し、逆変換し得る。ビデオデコーダ３００は、ブロックのための予測ブロックを形成するために、シグナリングされた予測モード（イントラまたはインター予測）と、関連する予測情報（たとえば、インター予測のための動き情報）とを使用する。ビデオデコーダ３００は、次いで、元のブロックを再生するために（サンプルごとに）予測ブロックと残差ブロックとを組み合わせ得る。ビデオデコーダ３００は、ブロックの境界に沿って視覚的アーティファクトを低減するためにデブロッキングプロセスを実施することなど、追加の処理を実施し得る。

[0069] 本開示は、概して、シンタックス要素など、ある情報を「シグナリング」することに言及することがある。「シグナリング」という用語は、概して、符号化されたビデオデータを復号するために使用されるシンタックス要素および／または他のデータについての値の通信を指し得る。すなわち、ビデオエンコーダ２００は、ビットストリーム中でシンタックス要素についての値をシグナリングし得る。概して、シグナリングは、ビットストリーム中で値を生成することを指す。上述のように、ソースデバイス１０２は、実質的にリアルタイムでビットストリームを宛先デバイス１１６に移送するか、または、宛先デバイス１１６による後の取出しのためにシンタックス要素をストレージデバイス１１２に記憶するときに行われ得るように、非リアルタイムでビットストリームを宛先デバイス１１６に移送し得る。

[0070] 図２Ａおよび図２Ｂは、例示的なクワッドツリーバイナリツリー（ＱＴＢＴ）構造１３０と、対応するコーディングツリーユニット（ＣＴＵ）１３２とを示す概念図である。実線はクワッドツリースプリッティングを表し、点線はバイナリツリースプリッティングを示す。バイナリツリーの各スプリット（すなわち、非リーフ）ノードでは、どのスプリッティングタイプ（すなわち、水平または垂直）が使用されるかを示すために１つのフラグがシグナリングされ、ここで、この例では、０は水平スプリッティングを示し、１は垂直スプリッティングを示す。クワッドツリースプリッティングでは、クワッドツリーノードが、ブロックを、等しいサイズをもつ４つのサブブロックに水平および垂直にスプリットするので、スプリッティングタイプを示す必要がない。したがって、ＱＴＢＴ構造１３０の領域ツリーレベル（すなわち、実線）についての（スプリッティング情報などの）シンタックス要素と、ＱＴＢＴ構造１３０の予測ツリーレベル（すなわち、破線）についての（スプリッティング情報などの）シンタックス要素とを、ビデオエンコーダ２００は符号化し得、ビデオデコーダ３００は復号し得る。ＱＴＢＴ構造１３０の端末リーフノードによって表されるＣＵについての、予測および変換データなどのビデオデータを、ビデオエンコーダ２００は符号化し得、ビデオデコーダ３００は復号し得る。

[0071] 概して、図２ＢのＣＴＵ１３２は、第１および第２のレベルにおいてＱＴＢＴ構造１３０のノードに対応するブロックのサイズを定義するパラメータに関連付けられ得る。これらのパラメータは、（サンプル中のＣＴＵ１３２のサイズを表す）ＣＴＵサイズと、最小クワッドツリーサイズ（最小許容クワッドツリーリーフノードサイズを表すＭｉｎＱＴＳｉｚｅ）と、最大バイナリツリーサイズ（最大許容バイナリツリールートノードサイズを表すＭａｘＢＴＳｉｚｅ）と、最大バイナリツリー深度（最大許容バイナリツリー深度を表すＭａｘＢＴＤｅｐｔｈ）と、最小バイナリツリーサイズ（最小許容バイナリツリーリーフノードサイズを表すＭｉｎＢＴＳｉｚｅ）とを含み得る。

[0072] ＣＴＵに対応するＱＴＢＴ構造のルートノードは、ＱＴＢＴ構造の第１のレベルにおいて４つの子ノードを有し得、それらの各々は、クワッドツリー区分に従って区分され得る。すなわち、第１のレベルのノードは、（子ノードを有しない）リーフノードであるか、または４つの子ノードを有するかのいずれかである。ＱＴＢＴ構造１３０の例は、分岐のために実線を有する親ノードと子ノードとを含むようなノードを表す。第１のレベルのノードが最大許容バイナリツリールートノードサイズ（ＭａｘＢＴＳｉｚｅ）よりも大きくない場合、ノードは、それぞれのバイナリツリーによってさらに区分され得る。１つのノードのバイナリツリースプリッティングは、スプリットから生じるノードが最小許容バイナリツリーリーフノードサイズ（ＭｉｎＢＴＳｉｚｅ）または最大許容バイナリツリー深度（ＭａｘＢＴＤｅｐｔｈ）に達するまで反復され得る。ＱＴＢＴ構造１３０の例は、分岐のために破線を有するようなノードを表す。バイナリツリーリーフノードはコーディングユニット（ＣＵ）と呼ばれ、ＣＵは、さらなる区分なしに予測（たとえば、イントラピクチャまたはインターピクチャ予測）および変換のために使用される。上記で説明されたように、ＣＵは「ビデオブロック」または「ブロック」と呼ばれることもある。

[0073] ＱＴＢＴ区分構造の一例では、ＣＴＵサイズは、１２８×１２８（ルーマサンプルおよび２つの対応する６４×６４クロマサンプル）として設定され、ＭｉｎＱＴＳｉｚｅは１６×１６として設定され、ＭａｘＢＴＳｉｚｅは６４×６４として設定され、（幅と高さの両方について）ＭｉｎＢＴＳｉｚｅは４として設定され、ＭａｘＢＴＤｅｐｔｈは４として設定される。クワッドツリー区分は、クワッドツリーリーフノードを生成するために、最初にＣＴＵに適用される。クワッドツリーリーフノードは、１６×１６（すなわち、ＭｉｎＱＴＳｉｚｅ）から１２８×１２８（すなわち、ＣＴＵサイズ）までのサイズを有し得る。クワッドツリーリーフノードが１２８×１２８である場合、リーフクワッドツリーノードは、サイズがＭａｘＢＴＳｉｚｅ（すなわち、この例では、６４×６４）を超えるので、バイナリツリーによってさらにスプリットされない。他の場合、クワッドツリーリーフノードは、バイナリツリーによってさらに区分される。したがって、クワッドツリーリーフノードはまた、バイナリツリーのためのルートノードであり、０としてのバイナリツリー深度を有する。バイナリツリー深度がＭａｘＢＴＤｅｐｔｈ（この例では４）に達したとき、さらなるスプリッティングは許可されない。ＭｉｎＢＴＳｉｚｅ（この例では、４）に等しい幅を有するバイナリツリーノードは、そのバイナリツリーノードのためにさらなる垂直スプリッティング（すなわち、幅の分割）が許可されないことを暗示する。同様に、ＭｉｎＢＴＳｉｚｅに等しい高さを有するバイナリツリーノードは、そのバイナリツリーノードのためにさらなる水平スプリッティング（すなわち、高さの分割）が許可されないことを暗示する。上述のように、バイナリツリーのリーフノードは、ＣＵと呼ばれ、さらなる区分なしに予測および変換に従ってさらに処理される。

[0074] Ｈ．２６１からの大部分のビデオコーディング規格は、図３に示されている、いわゆるハイブリッドビデオコーディング原理に基づいている。ハイブリッドという用語は、ビデオ信号における冗長を低減するための２つの手段の組合せ、すなわち、予測残差の量子化との予測および変換コーディングの組合せを指す。予測および変換は無相関化によってビデオ信号における冗長を低減するが、量子化は、変換係数表現のデータを、それらの精度を低減することによって、理想的には無関係な詳細のみを除去することによって減少させる。このハイブリッドビデオコーディング設計原理は、２つの直近の規格、ＨＥＶＣおよびＶＶＣにおいても使用される。

[0075] 現代のハイブリッドビデオコーダは、図３の例に示されているように、以下のビルディングブロックから構成され得る。言い換えれば、図３は、例示的なハイブリッドビデオコーディングフレームワーク３２０を示すブロック図である。図３の例では、フレームワーク３２０は、入力ビデオデータのピクチャ３２２を受信し、ピクチャ３２２をブロックにスプリットする。ブロック区分は、予測および変換プロセスの動作のために、画像をより小さいブロックに分割するために使用される。早期ビデオコーディング規格は、固定ブロックサイズ、一般に１６×１６サンプルを使用した。ＨＥＶＣおよびＶＶＣなどの最近の規格は、たとえば、図２Ａおよび図２Ｂに示されているように、フレキシブルな区分を提供するためにツリーベース区分構造を採用する。

[0076] フレームワーク３２０は、動き推定ユニット３２４と、イントラ予測ユニット３２６と、インター予測ユニット３２８とを含む。動き推定ユニット３２４は、ビデオデータの前に再構築されたピクチャ３３０に基づいて動き推定を実施し得る。インター予測ユニット３２８は、予測ブロックを生成するために、動き推定ユニット３２４によって生成された動き情報を使用し得る。動き補償予測またはインターピクチャ予測（すなわち、インター予測）は、ビデオシーケンスのピクチャ間（したがって「インター（inter）」）に存在する冗長を利用する。現代のビデオコーデックにおいて使用されるブロックベース動き補償では、１つまたは複数の前に復号されたピクチャ、すなわち（１つまたは複数の）参照ピクチャから、予測は達成される。インター予測を生成するための対応するエリアは、動きベクトルと参照ピクチャインデックスとを含む、動き情報によって示される。

[0077] イントラ予測ユニット３２６は、予測ブロックを生成するためにイントラ予測を使用し得る。イントラピクチャ予測は、すでにコーディングされた／復号された、空間的に隣接する（参照）サンプルから、ブロックについての予測を導出することによって、ピクチャ内（したがって「イントラ（intra）」）に存在する空間冗長性を活用する。方向性角度予測、ＤＣ予測、およびプレーンまたはプレーナ予測が、ＡＶＣとＨＥＶＣとＶＶＣとを含む、直近のビデオコーデックにおいて使用される。フレームワーク３２０は、インター予測ユニット３２８によって生成された予測ブロックと、イントラ予測ユニット３２６によって生成された予測ブロックとの間で選択し得る。

[0078] フレームワーク３２０の残差生成ユニット３３２が、予測ブロックとピクチャ３２２の対応するブロックとに基づいて、残差データを生成し得る。変換ユニット３３４が、変換係数を生成するために、残差データに変換を適用し得る。ハイブリッドビデオコーディング規格は、（予測残差がインターピクチャ予測から来るのかイントラピクチャ予測から来るのかにかかわらず）予測残差にブロック変換を適用する。Ｈ．２６１／２６２／２６３を含む早期規格では、離散コサイン変換（ＤＣＴ）が採用される。ＨＥＶＣおよびＶＶＣでは、ＤＣＴのほかのより多くの変換カーネルが、特定のビデオ信号における異なる統計値を考慮するために適用され得る。

[0079] 量子化ユニット３３６が、次いで、変換係数に量子化を適用し得る。量子化は、入力値または入力値のセットの精度を、それらの値を表すために必要とされるデータの量を減少させるために、低減することを目的とする。ハイブリッドビデオコーディングでは、量子化は、一般に、個々の変換された残差サンプルに、すなわち変換係数に適用され、整数係数レベルを生じる。最近のビデオコーディング規格では、量子化において使用されるステップサイズは、忠実度とビットレートとを制御する、いわゆる量子化パラメータ（ＱＰ）から導出される。より大きいステップサイズは、ビットレートを低下させるが、品質をも劣化させ、これは、ビデオピクチャが、ブロッキングアーティファクトと、ぼけた詳細とを呈することを生じ得る。

[0080] エントロピー符号化ユニット３３８が、変換係数を表すシンタックス要素にエントロピー符号化を適用し得る。フレームワーク３２０は、エントロピー符号化されたシンタックス要素をビットストリーム中に出力し得る。コンテキスト適応型バイナリ算術コーディング（ＣＡＢＡＣ）などのエントロピーコーディング技法は、それの高効率により、最近のビデオコーデック、たとえば、ＡＶＣ、ＨＥＶＣおよびＶＶＣにおいて使用され得る。

[0081] さらに、図３の例では、逆量子化ユニット３４０が、変換係数を逆量子化し得る。逆変換ユニット３４２が、残差データを生成するために、逆量子化された変換係数に逆変換を適用し得る。再構築ユニット３４４が、予測ブロックと残差データとに基づいて、ブロックを再構築し得る。ループフィルタユニット３４６が、再構築されたブロックを含んでいるピクチャに、１つまたは複数のフィルタを適用し得る。

[0082] 最近のビデオコーデックでは、ピクチャグループ（ＧＯＰ）内の階層予測構造が、コーディング効率を改善するために適用される。図４は、ピクチャグループ（ＧＯＰ）サイズが１６に等しい例示的な階層予測構造４００を示す概念図である。図４の例では、ピクチャＩ０は、インター予測を使用して符号化されないイントラピクチャである。図４中の他のピクチャ（すなわち、ピクチャＢ１～Ｂ１６）は、インター予測を使用して符号化され得る。詳細には、第１のピクチャから第２のピクチャを指す図４中の各矢印は、第２のピクチャが第１のピクチャを使用して符号化され得ることを示す。

[0083] ポストループ／インループフィルタ処理は、コーディングアーティファクトを低減するために、再構築されたピクチャに適用される、フィルタ処理プロセス（またはそのようなプロセスの組合せ）である。フィルタ処理プロセスの入力は、概して、（量子化誤差を含む）再構築された残差信号と予測との組合せである、再構築されたピクチャである。図３に示されているように、インループフィルタ処理の後の再構築されたピクチャ３３０は記憶され、後でコーディングされるピクチャのインターピクチャ予測のための参照として使用される。コーディングアーティファクトは、大部分がＱＰによって決定され、したがって、ＱＰ情報は、概して、フィルタ処理プロセスの設計において使用される。ＨＥＶＣでは、インループフィルタは、デブロッキングフィルタ処理とサンプル適応オフセット（ＳＡＯ）フィルタ処理とを含む。ＶＶＣでは、適応ループフィルタ（ＡＬＦ）が、第３のフィルタとして導入された。ＡＬＦのフィルタ処理プロセスは、以下で示されているものである。

式（１）では、Ｒ（ｉ，ｊ）はフィルタ処理プロセスの適用の前のサンプルであり、Ｒ’（ｉ，ｊ）はフィルタ処理プロセスの適用の後のサンプル値であり、ｆ（ｋ，ｌ）はフィルタ係数を示し、Ｋ（ｘ，ｙ）はクリッピング関数であり、ｃ（ｋ，ｌ）はクリッピングパラメータを示す。変数ｋおよびｌは、

から

の間で変動し、ここで、Ｌはフィルタ長を示す。クリッピング関数Ｋ（ｘ，ｙ）＝ｍｉｎ（ｙ，ｍａｘ（－ｙ，ｘ））であり、これは、関数Ｃｌｉｐ３（－ｙ，ｙ，ｘ）に対応する。クリッピング動作は、現在サンプル値とあまりに異なる隣接サンプル値の影響を低減することによってＡＬＦをより効率的にするために、非線形性を導入する。ＶＶＣでは、フィルタ処理パラメータは、ビットストリーム中でシグナリングされ得るか、または、フィルタ処理パラメータは、あらかじめ定義されたフィルタセットから選択され得る。ＡＬＦフィルタ処理プロセスは、以下の式としても要約され得る。

[0084] いくつかの研究は、ハイブリッドビデオコーディングフレームワークにニューラルネットワーク（ＮＮ）を埋め込むことが圧縮効率を改善することができることを示す。ニューラルネットワークは、予測効率を改善するために、イントラ予測およびインター予測のためのモジュールにおいて使用されている。ＮＮベースインループフィルタも、近年、アクティブな調査トピックとなっている。いくつかの例では、フィルタ処理プロセスは、ポストフィルタとして適用される。フィルタ処理プロセスがポストフィルタとして適用される場合、フィルタ処理プロセスは、出力ピクチャにのみ適用され、フィルタ処理されていないピクチャが、参照ピクチャとして使用される。対照的に、フィルタ処理プロセスがインループフィルタとして適用されるとき、フィルタ処理プロセスは、出力のために使用されるおよび参照ピクチャとして使用される、再構築されたピクチャに適用される。

[0085] ＮＮベースフィルタが、デブロッキングフィルタ、ＳＡＯ、またはＡＬＦなど、既存のフィルタの上にさらに適用され得る。ＮＮベースフィルタはまた、排他的に適用され得、ここで、ＮＮベースフィルタは、すべての既存のフィルタを置き換えるように設計される。

[0086] 図５は、４つの層をもつ畳み込みニューラルネットワーク（ＣＮＮ）ベースフィルタ５００を示す概念図である。ＣＮＮベースフィルタ５００は、畳み込み層（convolutional layer）を使用する特定のタイプのＮＮベースフィルタである。図５に示されているように、ＮＮベースフィルタ処理プロセスは、再構築されたサンプルを入力としてとり得、中間出力５０１は、入力サンプルを改良するために入力に加算される残差サンプルである。ＣＮＮベースフィルタ５００は、成分間相関（cross-component correlation）を活用するために、すべての色成分（たとえば、ルーマ、Ｃｂクロマ、Ｃｒクロマ）を入力として使用し得る。異なる色成分は、（ネットワーク構造とモデルパラメータとを含む）同じフィルタを共有し得るか、または、各色成分が、それ自体の特定のフィルタを有し得る。

[0087] 詳細には、ＣＮＮベースフィルタ５００への入力は、再構築されたピクチャの複数のサンプルブロック５０２を含む。サンプルブロック５０２の各々は、サイズＮ×Ｎを有する。サンプルブロック５０２は、サンプルの矩形アレイである。サンプルブロック５０２は、コーディングブロック、予測ブロック、変換ブロック、コーディングツリーブロック、またはコーディングプロセスにおいて使用される他のタイプのブロックに対応することも対応しないこともある。しかしながら、本開示は、正方形サンプルブロックに限定されず、概して、サイズＮ×Ｍをもつ矩形サンプルブロックに適用され得る。クロマブロックは、垂直方向においてルーマブロックの半数のサンプルを有し、水平方向においてルーマブロックの半数のサンプルを有する。したがって、各Ｎ×Ｎクロマブロックについて、フィルタ５００への入力は、４つのＮ×Ｎルーマブロックを含み得る。図５の例では、ルーマブロックは影付きであり、クロマブロックは白色である。したがって、フィルタ５００への入力として受信されるサンプルブロックは、Ｙ×４＋Ｕ＋Ｖとして表され得、ここで、Ｙはルーマに対応し、Ｕは第１のクロマ成分に対応し、Ｖは第２のクロマ成分に対応する。

[0088] さらに、ＣＮＮベースフィルタ５００は、入力層５０４と、隠れ層５０６Ａ～５０６Ｂ（まとめて「隠れ層５０６」）と、出力層５０８とを含む。詳細には、図５の例では、ＣＮＮベースフィルタ５００は、合計４つの層について２つの隠れ層を含む。入力層５０４、隠れ層５０６、および出力層５０８の各々は、畳み込み層５１０Ａ～５１０Ｄ（まとめて「畳み込み層５１０」）のうちの１つを含む。さらに、入力層５０４と隠れ層５０６の各々とは、ＰＲｅＬＵ活性化層５１２Ａ～５１２Ｃ（まとめて「ＰＲｅＬＵ活性化層５１２」）のうちの１つを含む。ＰＲｅＬＵ活性化層５１２の各々は、畳み込み層の出力を入力としてとり、入力にＰＲｅＬＵ活性化関数を適用する。

[0089] 本開示全体にわたって、畳み込み層について説明するために、記法ａ×ｂ×ｃ×ｄが使用される。値ａおよびｂは、入力ロケーションの２次元アレイの幅および高さに対応し得る。入力ロケーションの各々は、ｃ個の入力チャネルを有する。したがって、畳み込み層は、ａ×ｂ×ｃ個の入力値を受信する。値ｄは、畳み込み層の出力チャネルの数を示す。各出力チャネルは、畳み込み層によって適用されるトレーニング可能重みの異なるセットに対応する。出力チャネルに対応する重みのセット中の重みの数は、ａ×ｂ×ｃに等しい。出力チャネルの値（すなわち、出力値（output value））は、入力値と、出力チャネルに対応する重みのセットとを畳み込むことによって算出され得る。たとえば、出力チャネルの値は、入力値と、出力チャネルに対応する重みのセットとのドット積として算出され得る。ｄ個の出力チャネルがあるので、畳み込み層は、ａ×ｂ×ｃ×ｄ個の重みに関連する。

[0090] 図５の例に関してこれを示すために、畳み込み層５１０Ａは、３×３×６×８として説明される。したがって、畳み込み層５１０Ａの入力は、現在クロマサンプルロケーションを中心とするクロマサンプルロケーションの３×３正方形中の各クロマサンプルロケーションに対応する６つの値のセットであり得る。各クロマサンプルロケーションは、ブロック５０２中のクロマサンプルのロケーションに対応する。この例では、クロマブロックは、ルーマブロックの半分の幅および半分の高さである。したがって、各クロマサンプルロケーションについて、４つのルーマサンプルロケーションがある。各クロマサンプルロケーションについて、２つのタイプのクロマサンプルがあり、各クロマサンプルロケーションについて、６つのサンプル値を生じる。畳み込み層５１０Ａは、８つの出力チャネルを有し、したがって、８つの出力値を生成する。図５の例では、ＰＲｅＬＵ活性化層５１２Ａが、畳み込み層５１０Ａによって生成された８つの出力値に、ＰＲｅＬＵ活性化関数を適用する。畳み込み層５１０Ａは、ブロック５０２のクロマサンプルロケーションの全部または一部を現在クロマサンプルロケーションとして、この動作を繰り返し得る。ＰＲｅＬＵ活性化層５１２Ａによって出力された８つの値のセットは、畳み込み層５１０Ｂのための入力として使用されるロケーションの２次元アレイ中の単一のロケーションに対応する値として扱われ得る。畳み込み層５１０Ｂ、５１０Ｃ、および５１０Ｄは、同様の様式で動作する。畳み込み層５１０Ｄは、現在クロマサンプルロケーションに対応する６つのサンプル値（すなわち、４つのルーマおよび２つのクロマ）に対応する、６つの出力チャネルを有する。他の例では、畳み込み層５１０Ａは、３、３、６、および８とは異なる、ａ、ｂ、ｃ、およびｄの値を有し得る。言い換えれば、しかしながら、本開示は、３×３クロマサンプルロケーションのフィルタカーネルに限定されず、非矩形フィルタカーネルを含む、一般的なａ×ｂフィルタカーネルに適用され得る。さらに、パディングが、ブロック境界、ＣＴＵ境界、および／またはピクチャ境界において使用され得る。

[0091] ＣＮＮベースフィルタ５００の出力層５０８が、中間出力５０１を生成する。中間出力５０１は、残差サンプルを含み得る。これらの残差サンプルは、残差生成ユニット３３２によって生成される残差サンプルとは異なり得る。ＣＮＮベースフィルタ５００は、サンプルブロック５０２の対応するサンプルに中間出力５０１の残差サンプルを加算することによって、フィルタ処理されたブロック５１４を生成する。フィルタ処理されたブロック５１４は、サイズＮ×Ｎの２つのクロマブロックと、サイズＮ×Ｎの４つのルーマブロックとを含み得る。

[0092] 図５のフィルタ処理プロセスは、以下のように一般化され得る。

[0093] 図６Ａは、ＲｅＬＵ活性化関数６００を示す概念図である。図６Ａに示されているように、ＲｅＬＵ活性化関数６００は、

として定義され得る。

[0094] 図６Ｂは、ＰＲｅＬＵ活性化関数６５０を示す概念図である。図６Ｂに示されているように、ＰＲｅＬＵ活性化関数６５０は、

として定義され得る。
式５では、ａは、ＰＲｅＬＵ活性化関数を含むニューラルネットワークをトレーニングすることの一部としてトレーニングされる値である。

[0095] ＮＮベースフィルタのモデル構造およびモデルパラメータは、あらかじめ定義され、ビデオエンコーダ２００およびビデオデコーダ３００において記憶され得る。ＮＮベースフィルタのモデル構造およびモデルパラメータはまた、（たとえば、ビデオエンコーダ２００によって）ビットストリーム中でシグナリングされ得る。たとえば、（たとえば、ＮＮベースフィルタの）モデル構造およびモデルパラメータを示す値を有する１つまたは複数のシンタックス要素を、ビデオエンコーダ２００は符号化し得、ビデオデコーダ３００は復号し得る。ビデオエンコーダ２００は、シーケンスパラメータセット（ＳＰＳ）、ピクチャパラメータセット（ＰＰＳ）、ビデオパラメータセット（ＶＰＳ）、スライドヘッダなど、任意の好適なシンタックス構造におけるシンタックス要素を符号化し得る。

[0096] ＰＲｅＬＵの性能は、たいていの場合、ＲｅＬＵよりも良いことがわかっている。しかしながら、ＰＲｅＬＵは、トレーニングプロセスを不安定にすることもある。したがって、ＰＲｅＬＵ活性化関数を使用するＮＮベースフィルタのトレーニングは、より長くかかり得るか、または最適解から発散し得る。

[0097] 本開示では、ＮＮベースフィルタ処理プロセスにおける活性化関数として、ＬｅａｋｙＲｅＬＵを使用することが提案される。ＬｅａｋｙＲｅＬＵは、以下の式（６）に示されている。

式（６）では、パラメータＡｌｐｈａは固定値である。言い換えれば、パラメータＡｌｐｈａは、ＬｅａｋｙＲｅＬＵ活性化関数を含むニューラルネットワークのトレーニングプロセス中に変化しない。対照的に、ＰＲｅＬＵにおけるパラメータａは、トレーニングプロセス中に変化することができるトレーニング可能変数である。

[0098] 一例として、図７の例において示されているＣＮＮベースフィルタが提案される。図７は、本開示の１つまたは複数の技法による、１４個の層と活性化関数としての漏洩ＲｅＬＵとをもつ例示的なＣＮＮベースフィルタ７００を示す概念図である。図７の例では、ＣＮＮベースフィルタ７００への入力は、再構築されたピクチャの複数のサンプルブロック７０２を含む。いくつかの例では、サンプルブロック７０２の各々は、サイズＮ×Ｎをもつ正方形サンプルブロックであり得る。しかしながら、本開示は、正方形サンプルブロックに限定されず、概して、サイズＮ×Ｍをもつ矩形サンプルブロックに適用され得る。図７の例では、クロマブロックは、垂直方向においてルーマブロックの半数のサンプルを有し、水平方向においてルーマブロックの半数のサンプルを有する。したがって、各Ｎ×Ｎクロマブロックについて、ＣＮＮベースフィルタ７００への入力は、４つのＮ×Ｎルーマブロックを含み得る。図７の例では、ルーマブロックは影付きであり、クロマブロックは白色である。したがって、フィルタ７００への入力として受信されるサンプルブロック７０２は、Ｙ×４＋Ｕ＋Ｖとして表され得、ここで、Ｙはルーマに対応し、Ｕは第１のクロマ成分に対応し、Ｖは第２のクロマ成分に対応する。

[0099] さらに、ＣＮＮベースフィルタ７００は、入力層７０４と、隠れ層７０６Ａ～７０６Ｎ（まとめて「隠れ層７０６」）と、出力層７０８とを含む。詳細には、図７の例では、ＣＮＮベースフィルタ７００は、合計１４個の層について１２個の隠れ層を含む。他の例では、ＣＮＮベースフィルタ７００は、１４よりも大きいまたは小さい層の量を有し得る。入力層７０４、隠れ層７０６、および出力層７０８の各々は、畳み込み層７１０Ａ～７１０Ｎ（まとめて「畳み込み層７１０」）のうちの１つを含む。さらに、入力層７０４と隠れ層７０６の各々とは、ＬｅａｋｙＲｅＬＵ活性化層７１２Ａ～７１２Ｍ（まとめて「ＬｅａｋｙＲｅＬＵ活性化層７１２」）のうちの１つを含む。ＬｅａｋｙＲｅＬＵ活性化層７１２の各々は、畳み込み層の出力を入力としてとり、入力にＬｅａｋｙＲｅＬＵ活性化関数を適用する。

[0100] ＣＮＮベースフィルタ７００の出力層７０８が、中間出力７０１を生成する。中間出力７０１は、残差サンプルを含み得る。これらの残差サンプルは、残差生成ユニット３３２によって生成される残差サンプルとは異なり得る。ＣＮＮベースフィルタ７００は、サンプルブロック７０２の対応するサンプルに中間出力７０１の残差サンプルを加算することによって、フィルタ処理されたブロック７１４を生成する。フィルタ処理されたブロック７１４は、サイズＮ×Ｎの２つのクロマブロックと、サイズＮ×Ｎの４つのルーマブロックとを含み得る。

[0101] 一例では、Ａｌｐｈａの最適値が、ＰＲｅＬＵのトレーニング可能値の統計値によって達成され、同じＡｌｐｈａ値がすべての層のために使用される。たとえば、ビデオエンコーダ２００およびビデオデコーダ３００は、ＣＮＮベースフィルタ７００のＬｅａｋｙＲｅＬＵ活性化層７１２のすべてにおいて、Ａｌｐｈａの同じあらかじめ決定された値を使用し得る。この例では、ビデオエンコーダ２００が、ビットストリーム中でＡｌｐｈａの値（a value of Alpha）をシグナリングすることは必要でないことがある。いくつかの例では、ＰＲｅＬＵのトレーニング可能値（たとえば、ａ）の値の統計値に基づいてＡｌｐｈａの最適値を取得するために、（たとえば、ビデオエンコーダ２００、ビデオデコーダ３００、あるいは別のデバイスまたはシステムによる）システムが、トレーニングが収束するまで、ＰＲｅＬＵ活性化関数を使用してネットワークをトレーニングし得る。システムは、次いで、各層のＰＲｅＬＵ活性化関数のトレーニング可能値（たとえば、ａ）に関する統計値を使用し得る。たとえば、システムは、層のＰＲｅＬＵ活性化関数のトレーニング可能値の平均として、Ａｌｐｈａの最適値を決定し得る。

[0102] 別の例として、Ａｌｐｈａの最適値が、各層についてのＰＲｅＬＵのトレーニング可能値の値の統計値によって達成され、各層は、それ自体の固定Ａｌｐｈａ値を使用し得る。たとえば、ＬｅａｋｙＲｅＬＵ活性化層７１２の各々について、ビデオエンコーダ２００およびビデオデコーダ３００は、ＬｅａｋｙＲｅＬＵ活性化層において、Ａｌｐｈａの同じあらかじめ決定された層固有値を使用し得るが、Ａｌｐｈａの異なるあらかじめ決定された値が、異なるＬｅａｋｙＲｅＬＵ活性化層７１２において使用され得る。この例では、ビデオエンコーダ２００が、ビットストリーム中でＡｌｐｈａの値をシグナリングすることは必要でないことがある。いくつかの例では、各層についてのＰＲｅＬＵのトレーニング可能値（たとえば、ａ）の値の統計値に基づいてＡｌｐｈａの最適値を取得するために、（たとえば、ビデオエンコーダ２００、ビデオデコーダ３００、あるいは別のデバイスまたはシステムによる）システムが、トレーニングが収束するまで、ＰＲｅＬＵ活性化関数を使用してネットワークをトレーニングし得る。システムは、次いで、各層のＰＲｅＬＵ活性化関数のトレーニング可能値（たとえば、ａ）に関する統計値を使用し得る。たとえば、システムは、対応する層のＰＲｅＬＵ活性化関数のトレーニング可能値に等しいものとして、層についてのＡｌｐｈａの最適値を決定し得る。別の例では、システムは、層のうちの２つまたはそれ以上のＰＲｅＬＵ活性化関数のトレーニング可能値のうちの２つまたはそれ以上の平均に等しいものとして、層についてのＡｌｐｈａの最適値を決定し得る。

[0103] 別の例として、ＮＮベースフィルタ（たとえば、ＣＮＮベースフィルタ７００）におけるＡｌｐｈａの値は、ピクチャにＮＮベースフィルタを適用するときに指定され得るパラメータである。たとえば、ビデオコーディングを伴う１つの可能な使用事例では、エンコーダ側において、ビデオエンコーダ２００は、どんなＡｌｐｈａ値が使用されるべきであるかに関する決定を行う。たとえば、ビデオエンコーダ２００は、複数の異なるあらかじめ決定されたＡｌｐｈａ値を用いてＮＮベースフィルタを適用し、Ａｌｐｈａ値のうちのどの１つが最良の結果を生じるかを選択し得る。ビデオエンコーダ２００は、異なるＡｌｐｈａ値を使用して生成された再構築されたブロックまたはピクチャを（たとえば、絶対差分和などで）比較することによって、どのＡｌｐｈａ値が最良の結果を生じるかを決定し得る。さらに、ビデオエンコーダ２００は、ビットストリーム中のシンタックス要素として、Ａｌｐｈａ値を導出する（derive）ために必要とされる情報（information）を符号化し得る。ビデオデコーダ３００は、ビデオエンコーダ２００によって選択されたＡｌｐｈａ値を再構築し、フィルタ処理プロセスを実施する。Ａｌｐｈａ値をシグナリングするための方法の例は、ビットストリーム中でＡｌｐｈａ値をシグナリングすること、またはあらかじめ定義されたセット内の選択されたＡｌｐｈａ値のインデックス（index）をシグナリングすることを含む。Ａｌｐｈａ値の一般的な値は１／４であり得るが、他の値が可能であり得る。

[0104] 図８は、本開示の技法を実施し得る例示的なビデオエンコーダ２００を示すブロック図である。図８は、説明の目的で提供されており、本開示において広く例示され、説明される技法を限定するものと見なされるべきではない。説明の目的で、本開示は、ＶＶＣ（ＩＴＵ－ＴＨ．２６６）およびＨＥＶＣ（ＩＴＵ－ＴＨ．２６５）の技法に従って、ビデオエンコーダ２００について説明する。しかしながら、本開示の技法は、他のビデオコーディング規格に構成されたビデオ符号化デバイスによって実施され得る。

[0105] 図８の例では、ビデオエンコーダ２００は、ビデオデータメモリ８３０と、モード選択ユニット８０２と、残差生成ユニット８０４と、変換処理ユニット８０６と、量子化ユニット８０８と、逆量子化ユニット８１０と、逆変換処理ユニット８１２と、再構築ユニット８１４と、フィルタユニット８１６と、復号ピクチャバッファ（ＤＰＢ）８１８と、エントロピー符号化ユニット８２０とを含む。ビデオデータメモリ８３０、モード選択ユニット８０２、残差生成ユニット８０４、変換処理ユニット８０６、量子化ユニット８０８、逆量子化ユニット８１０、逆変換処理ユニット８１２、再構築ユニット８１４、フィルタユニット８１６、ＤＰＢ８１８、およびエントロピー符号化ユニット８２０のうちのいずれかまたはすべては、１つまたは複数のプロセッサまたは処理回路において実装され得る。たとえば、ビデオエンコーダ２００のユニットは、１つまたは複数の回路または論理要素として、ハードウェア回路の一部として、あるいはプロセッサ、ＡＳＩＣ、またはＦＰＧＡの一部として実装され得る。その上、ビデオエンコーダ２００は、これらおよび他の機能を実施するための追加または代替のプロセッサまたは処理回路を含み得る。

[0106] ビデオデータメモリ８３０は、ビデオエンコーダ２００の構成要素によって符号化されるべきビデオデータを記憶し得る。ビデオエンコーダ２００は、たとえば、ビデオソース１０４（図１）から、ビデオデータメモリ８３０に記憶されるビデオデータを受信し得る。ＤＰＢ８１８は、ビデオエンコーダ２００による後でコーディングされるビデオデータの予測において使用するための参照ビデオデータを記憶する参照ピクチャメモリとして働き得る。ビデオデータメモリ８３０とＤＰＢ８１８とは、同期ダイナミックランダムアクセスメモリ（ＤＲＡＭ）（ＳＤＲＡＭ）を含むＤＲＡＭ、磁気抵抗ＲＡＭ（ＭＲＡＭ）、抵抗性ＲＡＭ（ＲＲＡＭ（登録商標））、または他のタイプのメモリデバイスなど、様々なメモリデバイスのいずれかによって形成され得る。ビデオデータメモリ８３０とＤＰＢ８１８とは、同じメモリデバイスまたは別個のメモリデバイスによって提供され得る。様々な例では、ビデオデータメモリ８３０は、図示のように、ビデオエンコーダ２００の他の構成要素とともにオンチップであるか、またはそれらの構成要素に対してオフチップであり得る。

[0107] 本開示では、ビデオデータメモリ８３０への言及は、特にそのように説明されない限り、ビデオエンコーダ２００の内部のメモリに限定されるものとして解釈されるべきではなく、または特にそのように説明されない限り、ビデオエンコーダ２００の外部のメモリに限定されるものとして解釈されるべきではない。そうではなく、ビデオデータメモリ８３０への言及は、ビデオエンコーダ２００が符号化のために受信するビデオデータ（たとえば、符号化されるべきである現在ブロックのためのビデオデータ）を記憶する参照メモリとして理解されるべきである。図１のメモリ１０６はまた、ビデオエンコーダ２００の様々なユニットからの出力の一時的記憶を提供し得る。

[0108] 図８の様々なユニットは、ビデオエンコーダ２００によって実施される動作を理解するのを支援するために示されている。ユニットは、固定機能回路、プログラマブル回路、またはそれらの組合せとして実装され得る。固定機能回路は、特定の機能を提供する回路を指し、実施され得る動作に関してプリセットされる。プログラマブル回路は、様々なタスクを実施するように、および実施され得る動作においてフレキシブルな機能を提供するようにプログラムされ得る回路を指す。たとえば、プログラマブル回路は、ソフトウェアまたはファームウェアの命令によって定義された様式でプログラマブル回路を動作させるソフトウェアまたはファームウェアを実行し得る。固定機能回路は、（たとえば、パラメータを受信するかまたはパラメータを出力するために）ソフトウェア命令を実行し得るが、固定機能回路が実施する動作のタイプは、概して不変である。いくつかの例では、ユニットのうちの１つまたは複数は、別個の回路ブロック（固定機能またはプログラマブル）であり得、いくつかの例では、ユニットのうちの１つまたは複数は、集積回路であり得る。

[0109] ビデオエンコーダ２００は、算術論理ユニット（ＡＬＵ）、基本機能ユニット（ＥＦＵ）、デジタル回路、アナログ回路、および／またはプログラマブル回路から形成されるプログラマブルコアを含み得る。ビデオエンコーダ２００の動作が、プログラマブル回路によって実行されるソフトウェアを使用して実施される例では、メモリ１０６（図１）は、ビデオエンコーダ２００が受信し、実行するソフトウェアの命令（たとえば、オブジェクトコード）を記憶し得るか、またはビデオエンコーダ２００内の別のメモリ（図示せず）が、そのような命令を記憶し得る。

[0110] ビデオデータメモリ８３０は、受信されたビデオデータを記憶するように構成される。ビデオエンコーダ２００は、ビデオデータメモリ８３０からビデオデータのピクチャを取り出し、ビデオデータを残差生成ユニット８０４とモード選択ユニット８０２とに提供し得る。ビデオデータメモリ８３０中のビデオデータは、符号化されるべきである生のビデオデータであり得る。

[0111] モード選択ユニット８０２は、動き推定ユニット８２２と、動き補償ユニット８２４と、イントラ予測ユニット８２６とを含む。モード選択ユニット８０２は、他の予測モードに従ってビデオ予測を実施するための追加の機能ユニットを含み得る。例として、モード選択ユニット８０２は、パレットユニット、（動き推定ユニット８２２および／または動き補償ユニット８２４の一部であり得る）イントラブロックコピーユニット、アフィンユニット、線形モデル（ＬＭ）ユニットなどを含み得る。

[0112] モード選択ユニット８０２は、概して、符号化パラメータの組合せと、そのような組合せについての得られたレートひずみ値とをテストするために、複数の符号化パスを協調させる。符号化パラメータは、ＣＵへのＣＴＵの区分、ＣＵのための予測モード、ＣＵの残差データのための変換タイプ、ＣＵの残差データのための量子化パラメータなどを含み得る。モード選択ユニット８０２は、他のテストされた組合せよりも良好であるレートひずみ値を有する符号化パラメータの組合せを最終的に選択し得る。

[0113] ビデオエンコーダ２００は、ビデオデータメモリ８３０から取り出されたピクチャを一連のＣＴＵに区分し、スライス内の１つまたは複数のＣＴＵをカプセル化し得る。モード選択ユニット８０２は、上記で説明されたＨＥＶＣのＱＴＢＴ構造またはクワッドツリー構造など、ツリー構造に従ってピクチャのＣＴＵを区分し得る。上記で説明されたように、ビデオエンコーダ２００は、ツリー構造に従ってＣＴＵを区分することから１つまたは複数のＣＵを形成し得る。そのようなＣＵは、概して「ビデオブロック」または「ブロック」と呼ばれることもある。

[0114] 概して、モード選択ユニット８０２はまた、現在ブロック（たとえば、現在ＣＵ、またはＨＥＶＣでは、ＰＵとＴＵとの重複する部分）についての予測ブロックを生成するように、それの構成要素（たとえば、動き推定ユニット８２２、動き補償ユニット８２４、およびイントラ予測ユニット８２６）を制御する。現在ブロックのインター予測のために、動き推定ユニット８２２は、１つまたは複数の参照ピクチャ（たとえば、ＤＰＢ８１８に記憶された１つまたは複数の前にコーディングされたピクチャ）中で１つまたは複数のぴったり一致する参照ブロックを識別するために動き探索を実施し得る。特に、動き推定ユニット８２２は、たとえば、絶対差分和（ＳＡＤ）、２乗差分和（ＳＳＤ）、平均絶対差（ＭＡＤ）、平均２乗差（ＭＳＤ）などに従って、現在ブロックに対して潜在的参照ブロックがどのくらい類似しているかを表す値を計算し得る。動き推定ユニット８２２は、概して、現在ブロックと考慮されている参照ブロックとの間のサンプルごとの差分を使用してこれらの計算を実施し得る。動き推定ユニット８２２は、現在ブロックに最もぴったり一致する参照ブロックを示す、これらの計算から得られた最も低い値を有する参照ブロックを識別し得る。

[0115] 動き推定ユニット８２２は、現在ピクチャ中の現在ブロックの位置に対して参照ピクチャ中の参照ブロックの位置を定義する１つまたは複数の動きベクトル（ＭＶ）を形成し得る。動き推定ユニット８２２は、次いで、動きベクトルを動き補償ユニット８２４に提供し得る。たとえば、単方向インター予測では、動き推定ユニット８２２は、単一の動きベクトルを提供し得るが、双方向インター予測では、動き推定ユニット８２２は、２つの動きベクトルを提供し得る。動き補償ユニット８２４は、次いで、動きベクトルを使用して予測ブロックを生成し得る。たとえば、動き補償ユニット８２４は、動きベクトルを使用して参照ブロックのデータを取り出し得る。別の例として、動きベクトルが部分サンプル精度を有する場合、動き補償ユニット８２４は、１つまたは複数の補間フィルタに従って予測ブロックについての値を補間し得る。その上、双方向インター予測では、動き補償ユニット８２４は、それぞれの動きベクトルによって識別された２つの参照ブロックについてデータを取り出し、たとえば、サンプルごとの平均化または重み付き平均化を通して、取り出されたデータを組み合わせ得る。

[0116] 別の例として、イントラ予測、またはイントラ予測コーディングのために、イントラ予測ユニット８２６は、現在ブロックに隣接しているサンプルから予測ブロックを生成し得る。たとえば、方向性モードでは、イントラ予測ユニット８２６は、概して、予測ブロックを作り出すために、隣接サンプルの値を数学的に組み合わせ、現在ブロックにわたって定義された方向にこれらの計算された値をポピュレートし得る。別の例として、ＤＣモードでは、イントラ予測ユニット８２６は、現在ブロックに対する隣接サンプルの平均を計算し、予測ブロックの各サンプルについてこの得られた平均を含むように予測ブロックを生成し得る。

[0117] モード選択ユニット８０２は、予測ブロックを残差生成ユニット８０４に提供する。残差生成ユニット８０４は、ビデオデータメモリ８３０から現在ブロックの生の符号化されていないバージョンを受信し、モード選択ユニット８０２から予測ブロックを受信する。残差生成ユニット８０４は、現在ブロックと予測ブロックとの間のサンプルごとの差分を計算する。得られたサンプルごとの差分は、現在ブロックについての残差ブロックを定義する。いくつかの例では、残差生成ユニット８０４はまた、残差差分パルスコード変調（ＲＤＰＣＭ）を使用して残差ブロックを生成するために、残差ブロック中のサンプル値間の差分を決定し得る。いくつかの例では、残差生成ユニット８０４は、バイナリ減算を実施する１つまたは複数の減算器回路を使用して形成され得る。

[0118] モード選択ユニット８０２がＣＵをＰＵに区分する例では、各ＰＵは、ルーマ予測ユニットと、対応するクロマ予測ユニットとに関連付けられ得る。ビデオエンコーダ２００およびビデオデコーダ３００は、様々なサイズを有するＰＵをサポートし得る。上記で示されたように、ＣＵのサイズは、ＣＵのルーマコーディングブロックのサイズを指し得、ＰＵのサイズは、ＰＵのルーマ予測ユニットのサイズを指し得る。特定のＣＵのサイズが２Ｎ×２Ｎであると仮定すると、ビデオエンコーダ２００は、イントラ予測のための２Ｎ×２ＮまたはＮ×ＮのＰＵサイズと、インター予測のための２Ｎ×２Ｎ、２Ｎ×Ｎ、Ｎ×２Ｎ、Ｎ×Ｎ、または同様のものの対称ＰＵサイズとをサポートし得る。ビデオエンコーダ２００およびビデオデコーダ３００はまた、インター予測のための２Ｎ×ｎＵ、２Ｎ×ｎＤ、ｎＬ×２Ｎ、およびｎＲ×２ＮのＰＵサイズに対して非対称区分をサポートし得る。

[0119] モード選択ユニット８０２がＣＵをＰＵにさらに区分しない例では、各ＣＵは、ルーマコーディングブロックと、対応するクロマコーディングブロックとに関連付けられ得る。上記のように、ＣＵのサイズは、ＣＵのルーマコーディングブロックのサイズを指し得る。ビデオエンコーダ２００およびビデオデコーダ３００は、２Ｎ×２Ｎ、２Ｎ×Ｎ、またはＮ×２ＮのＣＵサイズをサポートし得る。

[0120] いくつかの例として、イントラブロックコピーモードコーディング、アフィンモードコーディング、および線形モデル（ＬＭ）モードコーディングなどの他のビデオコーディング技法では、モード選択ユニット８０２は、コーディング技法に関連付けられたそれぞれのユニットを介して、符号化されている現在ブロックについての予測ブロックを生成する。パレットモードコーディングなど、いくつかの例では、モード選択ユニット８０２は、予測ブロックを生成せず、代わりに、選択されたパレットに基づいてブロックを再構築すべき様式を示すシンタックス要素を生成し得る。そのようなモードでは、モード選択ユニット８０２は、符号化されるべきこれらのシンタックス要素をエントロピー符号化ユニット８２０に提供し得る。

[0121] 上記で説明されたように、残差生成ユニット８０４は、現在ブロックのためのビデオデータと、対応する予測ブロックとを受信する。残差生成ユニット８０４は、次いで、現在ブロックについての残差ブロックを生成する。残差ブロックを生成するために、残差生成ユニット８０４は、予測ブロックと現在ブロックとの間のサンプルごとの差分を計算する。

[0122] 変換処理ユニット８０６は、（本明細書では「変換係数ブロック」と呼ばれる）変換係数のブロックを生成するために、残差ブロックに１つまたは複数の変換を適用する。変換処理ユニット８０６は、変換係数ブロックを形成するために、残差ブロックに様々な変換を適用し得る。たとえば、変換処理ユニット８０６は、離散コサイン変換（ＤＣＴ）、方向性変換、カルーネンレーベ変換（ＫＬＴ）、または概念的に同様の変換を残差ブロックに適用し得る。いくつかの例では、変換処理ユニット８０６は、残差ブロックに複数の変換、たとえば、回転変換など、１次変換および２次変換を実施し得る。いくつかの例では、変換処理ユニット８０６は、残差ブロックに変換を適用しない。

[0123] 量子化ユニット８０８は、量子化された変換係数ブロックを作り出すために、変換係数ブロック中の変換係数を量子化し得る。量子化ユニット８０８は、現在ブロックに関連付けられた量子化パラメータ（ＱＰ）値に従って変換係数ブロックの変換係数を量子化し得る。ビデオエンコーダ２００は（たとえば、モード選択ユニット８０２を介して）、ＣＵに関連付けられたＱＰ値を調整することによって、現在ブロックに関連付けられた変換係数ブロックに適用される量子化の程度を調整し得る。量子化は、情報の損失をもたらし得、したがって、量子化された変換係数は、変換処理ユニット８０６によって作り出された元の変換係数よりも低い精度を有し得る。

[0124] 逆量子化ユニット８１０および逆変換処理ユニット８１２は、変換係数ブロックから残差ブロックを再構築するために、それぞれ、量子化された変換係数ブロックに逆量子化および逆変換を適用し得る。再構築ユニット８１４は、再構築された残差ブロックと、モード選択ユニット８０２によって生成された予測ブロックとに基づいて、（潜在的にある程度のひずみを伴うが）現在ブロックに対応する再構築されたブロックを作り出し得る。たとえば、再構築ユニット８１４は、再構築されたブロックを作り出すために、モード選択ユニット８０２によって生成された予測ブロックからの対応するサンプルに、再構築された残差ブロックのサンプルを加算し得る。

[0125] フィルタユニット８１６は、再構築されたブロックに対して１つまたは複数のフィルタ動作を実施し得る。たとえば、フィルタユニット８１６は、ＣＵのエッジに沿ってブロッキネスアーティファクト（blockiness artifact）を低減するためのデブロッキング動作（deblocking operation）を実施し得る。フィルタユニット８１６の動作は、いくつかの例では、スキップされ得る。いくつかの例では、フィルタユニット８１６は、ＣＮＮベースフィルタ７００など、ＬｅａｋｙＲｅＬＵ活性化関数を使用するＣＮＮベースフィルタを適用し得る。したがって、いくつかの例では、再構築ユニット８１４は、ピクチャのブロックを再構築し得、ここで、ブロックは、ピクチャの正方形または矩形エリアであり得、コーディングブロック、予測ブロックなどに対応することも対応しないこともある。フィルタユニット８１６は、ブロックにＣＮＮベースフィルタ７００を適用し得、ここで、ＣＮＮベースフィルタ７００は、ＬｅａｋｙＲｅＬＵ活性化関数を使用する。

[0126] ビデオエンコーダ２００は、再構築されたブロックをＤＰＢ８１８に記憶する。たとえば、フィルタユニット８１６の動作が実施されない例では、再構築ユニット８１４は、再構築されたブロックをＤＰＢ８１８に記憶し得る。フィルタユニット８１６の動作が実施される例では、フィルタユニット８１６は、フィルタ処理された再構築されたブロックをＤＰＢ８１８に記憶し得る。動き推定ユニット８２２および動き補償ユニット８２４は、後で符号化されるピクチャのブロックをインター予測するために、再構築（および潜在的にフィルタ処理）されたブロックから形成された参照ピクチャをＤＰＢ８１８から取り出し得る。さらに、イントラ予測ユニット８２６は、現在ピクチャ中の他のブロックをイントラ予測するために、現在ピクチャのＤＰＢ８１８中の再構築されたブロックを使用し得る。

[0127] 概して、エントロピー符号化ユニット８２０は、ビデオエンコーダ２００の他の機能構成要素から受信されたシンタックス要素をエントロピー符号化し得る。たとえば、エントロピー符号化ユニット８２０は、量子化ユニット８０８からの量子化された変換係数ブロックをエントロピー符号化し得る。別の例として、エントロピー符号化ユニット８２０は、モード選択ユニット８０２からの予測シンタックス要素（たとえば、インター予測のための動き情報、またはイントラ予測のためのイントラモード情報）をエントロピー符号化し得る。エントロピー符号化ユニット８２０は、エントロピー符号化されたデータを生成するために、ビデオデータの別の例であるシンタックス要素に対して１つまたは複数のエントロピー符号化動作を実施し得る。たとえば、エントロピー符号化ユニット８２０は、コンテキスト適応型可変長コーディング（ＣＡＶＬＣ）動作、ＣＡＢＡＣ動作、可変対可変（Ｖ２Ｖ）長コーディング動作、シンタックスベースコンテキスト適応型バイナリ算術コーディング（ＳＢＡＣ）動作、確率間隔区分エントロピー（ＰＩＰＥ）コーディング動作、指数ゴロム符号化動作、または別のタイプのエントロピー符号化動作をデータに対して実施し得る。いくつかの例では、エントロピー符号化ユニット８２０は、シンタックス要素がエントロピー符号化されないバイパスモードで動作し得る。

[0128] ビデオエンコーダ２００は、スライスまたはピクチャのブロックを再構築するために必要とされるエントロピー符号化されたシンタックス要素を含むビットストリームを出力し得る。たとえば、エントロピー符号化ユニット８２０は、ビットストリームを出力し得る。

[0129] 上記で説明された動作は、ブロックに関して説明されている。そのような説明は、ルーマコーディングブロックおよび／またはクロマコーディングブロックのための動作であるものとして理解され得る。上記で説明されたように、いくつかの例では、ルーマコーディングブロックおよびクロマコーディングブロックは、ＣＵのルーマ成分およびクロマ成分である。いくつかの例では、ルーマコーディングブロックおよびクロマコーディングブロックは、ＰＵのルーマ成分およびクロマ成分である。

[0130] いくつかの例では、ルーマコーディングブロックに関して実施される動作は、クロマコーディングブロックのために繰り返される必要はない。一例として、ルーマコーディングブロックのための動きベクトル（ＭＶ）と参照ピクチャとを識別するための動作は、クロマブロックのためのＭＶと参照ピクチャとを識別するために繰り返される必要はない。むしろ、ルーマコーディングブロックのためのＭＶは、クロマブロックのためのＭＶを決定するためにスケーリングされ得、参照ピクチャは同じであり得る。別の例として、イントラ予測プロセスは、ルーマコーディングブロックとクロマコーディングブロックとについて同じであり得る。

[0131] ビデオエンコーダ２００は、ビデオデータを記憶するように構成されたメモリと、回路において実装された１つまたは複数の処理ユニットとを含む、ビデオデータを符号化するように構成されたデバイスの一例を表し、１つまたは複数の処理ユニットは、ビデオデータのブロックを再構築することと、ブロックにＣＮＮベースフィルタを適用することと、ここにおいて、ＣＮＮベースフィルタが、ＬｅａｋｙＲｅＬＵ活性化関数を使用する、を行うように構成される。

[0132] 図９は、本開示の技法を実施し得る例示的なビデオデコーダ３００を示すブロック図である。図９は、説明の目的で提供されており、本開示において広く例示され、説明される技法を限定するものではない。説明の目的で、本開示は、ＶＶＣ（開発中のＩＴＵ－ＴＨ．２６６）、およびＨＥＶＣ（ＩＴＵ－ＴＨ．２６５）の技法に従って、ビデオデコーダ３００について説明する。しかしながら、本開示の技法は、他のビデオコーディング規格に構成されたビデオコーディングデバイスによって実施され得る。

[0133] 図９の例では、ビデオデコーダ３００は、コード化ピクチャバッファ（ＣＰＢ）メモリ９２０と、エントロピー復号ユニット９０２と、予測処理ユニット９０４と、逆量子化ユニット９０６と、逆変換処理ユニット９０８と、再構築ユニット９１０と、フィルタユニット９１２と、復号ピクチャバッファ（ＤＰＢ）９１４とを含む。ＣＰＢメモリ９２０と、エントロピー復号ユニット９０２と、予測処理ユニット９０４と、逆量子化ユニット９０６と、逆変換処理ユニット９０８と、再構築ユニット９１０と、フィルタユニット９１２と、ＤＰＢ９１４とのいずれかまたはすべては、１つまたは複数のプロセッサにおいてまたは処理回路において実装され得る。たとえば、ビデオデコーダ３００のユニットは、１つまたは複数の回路または論理要素として、ハードウェア回路の一部として、あるいはプロセッサ、ＡＳＩＣ、またはＦＰＧＡの一部として実装され得る。その上、ビデオデコーダ３００は、これらおよび他の機能を実施するための追加または代替のプロセッサまたは処理回路を含み得る。

[0134] 予測処理ユニット９０４は、動き補償ユニット９１６と、イントラ予測ユニット９１８とを含む。予測処理ユニット９０４は、他の予測モードに従って予測を実施するための追加のユニットを含み得る。例として、予測処理ユニット９０４は、パレットユニット、（動き補償ユニット９１６の一部を形成し得る）イントラブロックコピーユニット、アフィンユニット、線形モデル（ＬＭ）ユニットなどを含み得る。他の例では、ビデオデコーダ３００は、より多数の、より少数の、または異なる機能構成要素を含み得る。

[0135] ＣＰＢメモリ９２０は、ビデオデコーダ３００の構成要素によって復号されるべき、符号化されたビデオビットストリームなどのビデオデータを記憶し得る。ＣＰＢメモリ９２０に記憶されるビデオデータは、たとえば、コンピュータ可読媒体１１０（図１）から取得され得る。ＣＰＢメモリ９２０は、符号化されたビデオビットストリームからの符号化されたビデオデータ（たとえば、シンタックス要素）を記憶するＣＰＢを含み得る。また、ＣＰＢメモリ９２０は、ビデオデコーダ３００の様々なユニットからの出力を表す一時データなど、コーディングされたピクチャのシンタックス要素以外のビデオデータを記憶し得る。ＤＰＢ９１４は、概して、符号化されたビデオビットストリームの後続のデータまたはピクチャを復号するときにビデオデコーダ３００が参照ビデオデータとして出力および／または使用し得る、復号されたピクチャを記憶する。ＣＰＢメモリ９２０およびＤＰＢ９１４は、ＳＤＲＡＭを含むＤＲＡＭ、ＭＲＡＭ、ＲＲＡＭ、または他のタイプのメモリデバイスなど、様々なメモリデバイスのいずれかによって形成され得る。ＣＰＢメモリ９２０およびＤＰＢ９１４は、同じメモリデバイスまたは別個のメモリデバイスによって提供され得る。様々な例では、ＣＰＢメモリ９２０は、ビデオデコーダ３００の他の構成要素とともにオンチップであるか、またはそれらの構成要素に対してオフチップであり得る。

[0136] 追加または代替として、いくつかの例では、ビデオデコーダ３００は、メモリ１２０（図１）からコーディングされたビデオデータを取り出し得る。すなわち、メモリ１２０は、ＣＰＢメモリ９２０とともに上記で説明されたようにデータを記憶し得る。同様に、メモリ１２０は、ビデオデコーダ３００の機能の一部または全部が、ビデオデコーダ３００の処理回路によって実行されるべきソフトウェアにおいて実装されたとき、ビデオデコーダ３００によって実行されるべき命令を記憶し得る。

[0137] 図９に示されている様々なユニットは、ビデオデコーダ３００によって実施される動作を理解するのを支援するために示されている。ユニットは、固定機能回路、プログラマブル回路、またはそれらの組合せとして実装され得る。図８と同様に、固定機能回路は、特定の機能を提供する回路を指し、実施され得る動作に関してプリセットされる。プログラマブル回路は、様々なタスクを実施するように、および実施され得る動作においてフレキシブルな機能を提供するようにプログラムされ得る回路を指す。たとえば、プログラマブル回路は、ソフトウェアまたはファームウェアの命令によって定義された様式でプログラマブル回路を動作させるソフトウェアまたはファームウェアを実行し得る。固定機能回路は、（たとえば、パラメータを受信するかまたはパラメータを出力するために）ソフトウェア命令を実行し得るが、固定機能回路が実施する動作のタイプは、概して不変である。いくつかの例では、ユニットのうちの１つまたは複数は、別個の回路ブロック（固定機能またはプログラマブル）であり得、いくつかの例では、ユニットのうちの１つまたは複数は、集積回路であり得る。

[0138] ビデオデコーダ３００は、ＡＬＵ、ＥＦＵ、デジタル回路、アナログ回路、および／またはプログラマブル回路から形成されるプログラマブルコアを含み得る。ビデオデコーダ３００の動作が、プログラマブル回路上で実行するソフトウェアによって実施される例では、オンチップまたはオフチップメモリは、ビデオデコーダ３００が受信し、実行するソフトウェアの命令（たとえば、オブジェクトコード）を記憶し得る。

[0139] エントロピー復号ユニット９０２は、ＣＰＢから、符号化されたビデオデータを受信し、シンタックス要素を再生するためにビデオデータをエントロピー復号し得る。予測処理ユニット９０４、逆量子化ユニット９０６、逆変換処理ユニット９０８、再構築ユニット９１０、およびフィルタユニット９１２は、ビットストリームから抽出されたシンタックス要素に基づいて、復号されたビデオデータを生成し得る。いくつかの例では、フィルタユニット９１２は、ＬｅａｋｙＲｅＬＵ活性化関数を使用するＣＮＮベースフィルタを適用し得る。

[0140] 概して、ビデオデコーダ３００は、ブロックごとにピクチャを再構築する。ビデオデコーダ３００は、各ブロックに対して個々に再構築動作を実施し得る（ここで、現在再構築されている、すなわち、復号されているブロックは、「現在ブロック」と呼ばれることがある）。

[0141] エントロピー復号ユニット９０２は、量子化された変換係数ブロックの量子化された変換係数を定義するシンタックス要素、ならびに量子化パラメータ（ＱＰ）および／または（１つまたは複数の）変換モード指示などの変換情報をエントロピー復号し得る。逆量子化ユニット９０６は、量子化の程度と、同様に、逆量子化ユニット９０６が適用すべき逆量子化の程度とを決定するために、量子化された変換係数ブロックに関連付けられたＱＰを使用し得る。逆量子化ユニット９０６は、量子化された変換係数を逆量子化するために、たとえば、ビット単位左シフト動作を実施し得る。逆量子化ユニット９０６は、それにより、変換係数を含む変換係数ブロックを形成し得る。

[0142] 逆量子化ユニット９０６が変換係数ブロックを形成した後に、逆変換処理ユニット９０８は、現在ブロックに関連付けられた残差ブロックを生成するために、変換係数ブロックに１つまたは複数の逆変換を適用し得る。たとえば、逆変換処理ユニット９０８は、逆ＤＣＴ、逆整数変換、逆カルーネンレーベ変換（ＫＬＴ）、逆回転変換、逆方向変換、または別の逆変換を変換係数ブロックに適用し得る。

[0143] さらに、予測処理ユニット９０４は、エントロピー復号ユニット９０２によってエントロピー復号された予測情報シンタックス要素に従って予測ブロックを生成する。たとえば、予測情報シンタックス要素が、現在ブロックがインター予測されることを示す場合、動き補償ユニット９１６は予測ブロックを生成し得る。この場合、予測情報シンタックス要素は、参照ブロックをそれから取り出すべきＤＰＢ９１４中の参照ピクチャ、ならびに現在ピクチャ中の現在ブロックのロケーションに対する参照ピクチャ中の参照ブロックのロケーションを識別する動きベクトルを示し得る。動き補償ユニット９１６は、概して、動き補償ユニット８２４（図８）に関して説明されたものと実質的に同様である様式で、インター予測プロセスを実施し得る。

[0144] 別の例として、予測情報シンタックス要素が、現在ブロックがイントラ予測されることを示す場合、イントラ予測ユニット９１８は、予測情報シンタックス要素によって示されるイントラ予測モードに従って予測ブロックを生成し得る。この場合も、イントラ予測ユニット９１８は、概して、イントラ予測ユニット８２６（図８）に関して説明されたものと実質的に同様である様式で、イントラ予測プロセスを実施し得る。イントラ予測ユニット９１８は、ＤＰＢ９１４から、現在ブロックに対する隣接サンプルのデータを取り出し得る。

[0145] 再構築ユニット９１０は、予測ブロックと残差ブロックとを使用して現在ブロックを再構築し得る。たとえば、再構築ユニット９１０は、現在ブロックを再構築するために、予測ブロックの対応するサンプルに残差ブロックのサンプルを加算し得る。

[0146] フィルタユニット９１２は、再構築されたブロックに対して１つまたは複数のフィルタ動作を実施し得る。たとえば、フィルタユニット９１２は、再構築されたブロックのエッジに沿ってブロッキネスアーティファクト（blockiness artifact）を低減するためのデブロッキング動作（deblocking operation）を実施し得る。フィルタユニット９１２の動作は、必ずしもすべての例において実施されるとは限らない。いくつかの例では、フィルタユニット９１２は、ＣＮＮベースフィルタ７００など、ＬｅａｋｙＲｅＬＵ活性化関数を使用するＣＮＮベースフィルタを適用し得る。したがって、いくつかの例では、再構築ユニット９１０は、ピクチャのブロックを再構築し得、ここで、ブロックは、ピクチャの正方形または矩形エリアであり得、コーディングブロック、予測ブロックなどに対応することも対応しないこともある。フィルタユニット９１２は、ブロックにＣＮＮベースフィルタ７００を適用し得、ここで、ＣＮＮベースフィルタ７００は、ＬｅａｋｙＲｅＬＵ活性化関数を使用する。

[0147] ビデオデコーダ３００は、再構築されたブロックをＤＰＢ９１４に記憶し得る。たとえば、フィルタユニット９１２の動作が実施されない例では、再構築ユニット９１０は、再構築されたブロックをＤＰＢ９１４に記憶し得る。フィルタユニット９１２の動作が実施される例では、フィルタユニット９１２は、フィルタ処理された再構築されたブロックをＤＰＢ９１４に記憶し得る。上記で説明されたように、ＤＰＢ９１４は、イントラ予測のための現在ピクチャのサンプル、および後続の動き補償のための前に復号されたピクチャなど、参照情報を、予測処理ユニット９０４に提供し得る。その上、ビデオデコーダ３００は、ＤＰＢ９１４からの復号されたピクチャ（たとえば、復号されたビデオ）を、図１のディスプレイデバイス１１８などのディスプレイデバイス上での後続の提示のために、出力し得る。

[0148] このようにして、ビデオデコーダ３００は、ビデオデータを記憶するように構成されたメモリと、回路において実装された１つまたは複数の処理ユニットとを含む、ビデオ復号デバイスの一例を表し、１つまたは複数の処理ユニットは、ビデオデータのブロックを再構築することと、ブロックにＣＮＮベースフィルタを適用することと、ここにおいて、ＣＮＮベースフィルタが、ＬｅａｋｙＲｅＬＵ活性化関数を使用する、を行うように構成される。

[0149] 図１０は、本開示の技法による、現在ブロックを符号化するための例示的な方法を示すフローチャートである。現在ブロックは現在ＣＵを備え得る。ビデオエンコーダ２００（図１および図８）に関して説明されるが、他のデバイスが図１０の方法と同様の方法を実施するように構成され得ることを理解されたい。

[0150] この例では、ビデオエンコーダ２００は、最初に、現在ブロックを予測する（３５０）。たとえば、ビデオエンコーダ２００は、現在ブロックのための予測ブロックを形成し得る。ビデオエンコーダ２００は、次いで、現在ブロックのための残差ブロックを計算し得る（３５２）。残差ブロックを計算するために、ビデオエンコーダ２００は、元の符号化されていないブロックと、現在ブロックのための予測ブロックとの間の差分を計算し得る。ビデオエンコーダ２００は、次いで、残差ブロックを変換し、残差ブロックの変換係数を量子化し得る（３５４）。次に、ビデオエンコーダ２００は、残差ブロックの量子化された変換係数を走査し得る（３５６）。走査中に、または走査に続いて、ビデオエンコーダ２００は、変換係数をエントロピー符号化し得る（３５８）。たとえば、ビデオエンコーダ２００は、ＣＡＶＬＣまたはＣＡＢＡＣを使用して変換係数を符号化し得る。ビデオエンコーダ２００は、次いで、ブロックのエントロピー符号化されたデータを出力し得る（３６０）。

[0151] 図１１は、本開示の技法による、ビデオデータの現在ブロックを復号するための例示的な方法を示すフローチャートである。現在ブロックは現在ＣＵを備え得る。ビデオデコーダ３００（図１および図９）に関して説明されるが、他のデバイスが図１１の方法と同様の方法を実施するように構成され得ることを理解されたい。

[0152] ビデオデコーダ３００は、エントロピー符号化された予測情報、および現在ブロックに対応する残差ブロックの変換係数についてのエントロピー符号化されたデータなど、現在ブロックについてのエントロピー符号化されたデータを受信し得る（３７０）。ビデオデコーダ３００は、現在ブロックのための予測情報を決定するために、および残差ブロックの変換係数を再生するために、エントロピー符号化されたデータをエントロピー復号し得る（３７２）。ビデオデコーダ３００は、現在ブロックのための予測ブロックを計算するために、たとえば、現在ブロックのための予測情報によって示されるイントラ予測またはインター予測モードを使用して、現在ブロックを予測し得る（３７４）。ビデオデコーダ３００は、次いで、量子化された変換係数のブロックを作成するために、再生された変換係数を逆走査し得る（３７６）。ビデオデコーダ３００は、次いで、残差ブロックを作り出すために、変換係数を逆量子化し、変換係数に逆変換を適用し得る（３７８）。ビデオデコーダ３００は、予測ブロックと残差ブロックとを組み合わせることによって、最終的に現在ブロックを復号し得る（３８０）。いくつかの例では、ビデオデコーダ３００は、復号されたブロックにＣＮＮベースフィルタをさらに適用し得、ここにおいて、ＣＮＮベースフィルタは、ＬｅａｋｙＲｅＬＵ活性化関数を使用する。

[0153] 図１２は、本開示の１つまたは複数の技法による、ビデオコーダ（たとえば、ビデオエンコーダ２００またはビデオデコーダ３００）の例示的な動作を示すフローチャートである。図１２の例では、ビデオコーダは、ビデオデータのブロックを再構築する（１２００）。ビデオデータのブロックは、サンプルの矩形アレイであり得る。ブロックは、変換ブロック、予測ブロック、コーディングブロック、コーディングツリーブロック、またはコーディングプロセスにおいて使用されるタイプのブロックに対応することも対応しないこともある。たとえば、ビデオコーダ（たとえば、再構築ユニット８１４（図８）または再構築ユニット９１０（図９））は、対応する予測ブロックに残差データを加算することによって、ブロックを含むピクチャを再構築し得る。

[0154] さらに、ビデオコーダは、再構築されたブロックにＣＮＮベースフィルタ（たとえば、ＣＮＮベースフィルタ７００）を適用する（１２０２）。ＣＮＮベースフィルタは、ＬｅａｋｙＲｅＬＵ活性化関数を使用する。上述のように、ＬｅａｋｙＲｅＬＵ活性化関数は、

として定義され、ここで、ｙはＣＮＮの畳み込み層の出力値であり、Ａｌｐｈａは固定パラメータ（fixed parameter）である。いくつかの例では、ＣＮＮベースフィルタは複数の畳み込み層を含み、Ａｌｐｈａの値が、畳み込み層の各々について同じである。いくつかの例では、ＣＮＮベースフィルタは複数の畳み込み層を含み、Ａｌｐｈａの値が、畳み込み層のうちの２つまたはそれ以上について異なる。

[0155] ビデオコーダがビデオデコーダ３００であるいくつかの例では、ビデオデコーダ３００は、ビデオデータの符号化された表現（encoded representation）を備えるビットストリーム中でシグナリングされる１つまたは複数のシンタックス要素に基づいて、Ａｌｐｈａの値を決定し得る。たとえば、Ａｌｐｈａの値は、ビットストリーム中でシグナリングされ得る。言い換えれば、シンタックス要素が、Ａｌｐｈａの値を直接指定し得る。別の例では、あらかじめ定義されたセット中のＡｌｐｈａのインデックスが、ビットストリーム中でシグナリングされる。この例では、ビデオデコーダ３００は、Ａｌｐｈａのインデックスが対応する、あらかじめ定義されたセット中のＡｌｐｈａの値を決定し得る。

[0156] ビデオコーダがビデオエンコーダ２００であるいくつかの例では、ＣＮＮベースフィルタは、複数の畳み込み層（たとえば、畳み込み層７１０）を含み、ビデオエンコーダ２００は、畳み込み層の出力値に適用されるＬｅａｋｙＲｅＬＵ活性化関数において使用するためのＡｌｐｈａの単一の値を決定し得る。ビデオエンコーダ２００は、ビデオデータの符号化された表現を備えるビットストリーム中で、Ａｌｐｈａの値を導出するためにビデオデコーダによって必要とされる情報を提供する１つまたは複数シンタックス要素を符号化し得る。いくつかの例では、ビデオエンコーダ２００は、ビットストリーム中で、あらかじめ定義されたセット中のＡｌｐｈａのインデックスをシグナリングする。この例では、ビデオエンコーダ２００は、Ａｌｐｈａのインデックスが対応する、あらかじめ定義されたセット中のＡｌｐｈａの値を決定し得る。他の例では、ビデオエンコーダ２００は、複数の畳み込み層（たとえば、畳み込み層７１０）のうちの２つまたはそれ以上の異なる畳み込み層の出力値に適用されるＬｅａｋｙＲｅＬＵ活性化関数において使用するためのＡｌｐｈａの複数の値を決定し得る。そのような例では、ビデオエンコーダ２００は、ビデオデータの符号化された表現を備えるビットストリーム中で、Ａｌｐｈａの値を導出するためにビデオデコーダによって必要とされる情報を提供する１つまたは複数シンタックス要素を符号化し得る。

[0157] 以下は、本開示の１つまたは複数の態様によるものであり得る態様の非限定的なリストである。

[0158] 態様１Ａ．ビデオデータをコーディングする方法であって、方法は、ビデオデータのブロックを再構築することと、ブロックに畳み込みニューラルネットワーク（ＣＮＮ）ベースフィルタを適用することと、ここにおいて、ＣＮＮベースフィルタが、ＬｅａｋｙＲｅＬＵ活性化関数を使用する、を備える、方法。

[0159] 態様２Ａ．ＬｅａｋｙＲｅＬＵ活性化関数が、

として定義され、ここで、ｙがＣＮＮの畳み込み層の出力値であり、Ａｌｐｈａが固定パラメータである、態様１Ａに記載の方法。

[0160] 態様３Ａ．ＣＮＮが複数の畳み込み層を含み、Ａｌｐｈａの値が、畳み込み層の各々について同じである、態様２Ａに記載の方法。

[0161] 態様４Ａ．ＣＮＮが複数の畳み込み層を含み、Ａｌｐｈａの値が、畳み込み層のうちの２つまたはそれ以上について異なる、態様２Ａに記載の方法。

[0162] 態様５Ａ．ビデオデータの符号化された表現を備えるビットストリーム中でシグナリングされる１つまたは複数のシンタックス要素に基づいて、Ａｌｐｈａの値を決定することをさらに備える、態様２Ａから４Ａのいずれかに記載の方法。

[0163] 態様６Ａ．Ａｌｐｈａの値が、ビットストリーム中でシグナリングされる、態様５Ａに記載の方法。

[0164] 態様７Ａ．あらかじめ定義されたセット内のＡｌｐｈａのインデックスが、ビットストリーム中でシグナリングされる、態様５Ａに記載の方法。

[0165] 態様８Ａ．コーディングすることが復号することを備える、態様１Ａから７Ａのいずれかに記載の方法。

[0166] 態様９Ａ．コーディングすることが符号化することを備える、態様１Ａから７Ａのいずれかに記載の方法。

[0167] 態様１０Ａ．ビデオデータをコーディングするためのデバイスであって、デバイスが、態様１Ａから９Ａのいずれかに記載の方法を実施するための１つまたは複数の手段を備える、デバイス。

[0168] 態様１１Ａ．１つまたは複数の手段が、回路中に実装された１つまたは複数のプロセッサを備える、態様１０Ａに記載のデバイス。

[0169] 態様１２Ａ．ビデオデータを記憶するためのメモリをさらに備える、態様１０Ａおよび１１Ａのいずれかに記載のデバイス。

[0170] 態様１３Ａ．復号されたビデオデータを表示するように構成されたディスプレイをさらに備える、態様１０Ａから１２Ａのいずれかに記載のデバイス。

[0171] 態様１４Ａ．デバイスが、カメラ、コンピュータ、モバイルデバイス、ブロードキャスト受信機デバイス、またはセットトップボックスのうちの１つまたは複数を備える、態様１０Ａから１３Ａのいずれかに記載のデバイス。

[0172] 態様１５Ａ．デバイスがビデオデコーダを備える、態様１０Ａから１４Ａのいずれかに記載のデバイス。

[0173] 態様１６Ａ．デバイスがビデオエンコーダを備える、態様１０Ａから１５Ａのいずれかに記載のデバイス。

[0174] 態様１７Ａ．実行されたとき、１つまたは複数のプロセッサに、態様１Ａから９Ａのいずれかに記載の方法を実施させる命令を記憶したコンピュータ可読記憶媒体。

[0175] 態様１Ｂ：ビデオデータを符号化または復号する方法が、ビデオデータのブロックを再構築することと、再構築されたブロックに畳み込みニューラルネットワーク（ＣＮＮ）ベースフィルタを適用することと、ここにおいて、ＣＮＮベースフィルタが、ＬｅａｋｙＲｅＬＵ活性化関数を使用する、を含む。

[0176] 態様２Ｂ：ＬｅａｋｙＲｅＬＵ活性化関数が、

として定義され、ここで、ｙがＣＮＮベースフィルタのＣＮＮの畳み込み層の出力値であり、Ａｌｐｈａが固定パラメータである、態様１Ｂに記載の方法。

[0177] 態様３Ｂ：ＣＮＮが複数の畳み込み層を含み、Ａｌｐｈａの値が、畳み込み層の各々について同じである、態様２Ｂに記載の方法。

[0178] 態様４Ｂ：ＣＮＮが複数の畳み込み層を含み、Ａｌｐｈａの値が、畳み込み層のうちの２つまたはそれ以上について異なる、態様２Ｂに記載の方法。

[0179] 態様５Ｂ：ビデオデータの符号化された表現を備えるビットストリーム中でシグナリングされる１つまたは複数のシンタックス要素に基づいて、Ａｌｐｈａの値を決定することをさらに備える、態様２Ｂに記載の方法。

[0180] 態様６Ｂ：Ａｌｐｈａの値が、ビットストリーム中でシグナリングされる、態様５Ｂに記載の方法。

[0181] 態様７Ｂ：あらかじめ定義されたセット内のＡｌｐｈａのインデックスが、ビットストリーム中でシグナリングされ、ここにおいて、Ａｌｐｈａの値を決定することは、Ａｌｐｈａのインデックスが対応する、あらかじめ定義されたセット中のＡｌｐｈａの値を決定することを備える、態様５Ｂに記載の方法。

[0182] 態様８Ｂ：ＣＮＮが複数の畳み込み層を含み、方法が、畳み込み層の出力値に適用されるＬｅａｋｙＲｅＬＵ活性化関数において使用するためのＡｌｐｈａの単一の値を決定することと、ビデオデータの符号化された表現を備えるビットストリーム中で、Ａｌｐｈａの値を導出するためにビデオデコーダによって必要とされる情報を提供する１つまたは複数シンタックス要素を符号化することとをさらに備える、態様２Ｂに記載の方法。

[0183] 態様９Ｂ．１つまたは複数のシンタックス要素が、Ａｌｐｈａの値を直接指定する（directly specify）、態様８Ｂに記載の方法。

[0184] 態様１０Ｂ．１つまたは複数のシンタックス要素が、あらかじめ定義されたセット内のＡｌｐｈａのインデックスを指定する、態様８Ｂに記載の方法。

[0185] 態様１１Ｂ：ＣＮＮが複数の畳み込み層を含み、方法が、複数の畳み込み層のうちの２つまたはそれ以上の異なる畳み込み層の出力値に適用されるＬｅａｋｙＲｅＬＵ活性化関数において使用するためのＡｌｐｈａの複数の値を決定することと、ビデオデータの符号化された表現を備えるビットストリーム中で、Ａｌｐｈａの値を導出するためにビデオデコーダによって必要とされる情報を提供する１つまたは複数シンタックス要素を符号化することとをさらに備える、態様２Ｂに記載の方法。

[0186] 態様１２Ｂ．１つまたは複数のシンタックス要素が、Ａｌｐｈａの値を直接指定する、態様１１Ｂに記載の方法。

[0187] 態様１３Ｂ．１つまたは複数のシンタックス要素が、あらかじめ定義されたセット内のＡｌｐｈａのインデックスを指定する、態様１１Ｂに記載の方法。

[0188] 態様１４Ｂ：方法が、ビデオデータを復号することを備え、ビデオデータを復号することが、ビデオデータのブロックを再構築することと、再構築されたブロックにＣＮＮベースフィルタを適用することとを含む、態様１Ｂに記載の方法。

[0189] 態様１５Ｂ：方法が、ビデオデータを符号化することを備え、ビデオデータを符号化することが、ビデオデータのブロックを再構築することと、再構築されたブロックにＣＮＮベースフィルタを適用することとを含む、態様１Ｂに記載の方法。

[0190] 態様１６Ｂ：ビデオデータを符号化または復号するためのデバイスが、ビデオデータを記憶するためのメモリと、回路中に実装された１つまたは複数のプロセッサとを含み、１つまたは複数のプロセッサは、ビデオデータのブロックを再構築することと、再構築されたブロックに畳み込みニューラルネットワーク（ＣＮＮ）ベースフィルタを適用することと、ここにおいて、ＣＮＮベースフィルタが、ＬｅａｋｙＲｅＬＵ活性化関数を使用する、を行うように構成される。

[0191] 態様１７Ｂ：ＬｅａｋｙＲｅＬＵ活性化関数が、

として定義され、ここで、ｙがＣＮＮベースフィルタのＣＮＮの畳み込み層の出力値であり、Ａｌｐｈａが固定パラメータである、態様１６Ｂに記載のデバイス。

[0192] 態様１８Ｂ：ＣＮＮが複数の畳み込み層を含み、Ａｌｐｈａの値が、畳み込み層の各々について同じである、態様１７Ｂに記載のデバイス。

[0193] 態様１９Ｂ：ＣＮＮが複数の畳み込み層を含み、Ａｌｐｈａの値が、畳み込み層のうちの２つまたはそれ以上について異なる、態様１７Ｂに記載のデバイス。

[0194] 態様２０Ｂ：１つまたは複数のプロセッサが、ビデオデータの符号化された表現を備えるビットストリーム中でシグナリングされる１つまたは複数のシンタックス要素に基づいて、Ａｌｐｈａの値を決定するようにさらに構成された、態様１７Ｂに記載のデバイス。

[0195] 態様２１Ｂ：Ａｌｐｈａの値が、ビットストリーム中でシグナリングされる、態様２０Ｂに記載のデバイス。

[0196] 態様２２Ｂ：あらかじめ定義されたセット内のＡｌｐｈａのインデックスが、ビットストリーム中でシグナリングされ、ここにおいて、Ａｌｐｈａの値を決定することは、Ａｌｐｈａのインデックスが対応する、あらかじめ定義されたセット中のＡｌｐｈａの値を決定することを備える、態様２０Ｂに記載のデバイス。

[0197] 態様２３Ｂ：ＣＮＮベースフィルタが複数の畳み込み層を含み、１つまたは複数のプロセッサが、畳み込み層の出力値に適用されるＬｅａｋｙＲｅＬＵ活性化関数において使用するためのＡｌｐｈａの単一の値を決定することと、ビデオデータの符号化された表現を備えるビットストリーム中で、Ａｌｐｈａの値を導出するためにビデオデコーダによって必要とされる情報を提供する１つまたは複数シンタックス要素を符号化することとを行うようにさらに構成された、態様１７Ｂに記載のデバイス。

[0198] 態様２４Ｂ：ＣＮＮが複数の畳み込み層を含み、１つまたは複数のプロセッサが、複数の畳み込み層のうちの２つまたはそれ以上の異なる畳み込み層の出力値に適用されるＬｅａｋｙＲｅＬＵ活性化関数において使用するためのＡｌｐｈａの複数の値を決定することと、ビデオデータの符号化された表現を備えるビットストリーム中で、Ａｌｐｈａの値を導出するためにビデオデコーダによって必要とされる情報を提供する１つまたは複数シンタックス要素を符号化することとを行うようにさらに構成された、態様１７Ｂに記載のデバイス。

[0199] 態様２５Ｂ：復号されたビデオデータを表示するように構成されたディスプレイをさらに備える、態様１６Ｂに記載のデバイス。

[0200] 態様２６Ｂ：デバイスが、カメラ、コンピュータ、モバイルデバイス、ブロードキャスト受信機デバイス、またはセットトップボックスのうちの１つまたは複数を備える、態様１６Ｂに記載のデバイス。

[0201] 態様２７Ｂ：デバイスがビデオデコーダを備える、態様１６Ｂに記載のデバイス。

[0202] 態様２８Ｂ：デバイスがビデオエンコーダを備える、態様１６Ｂに記載のデバイス。

[0203] 態様２９Ｂ：ビデオデータをコーディングするためのデバイスが、ビデオデータのブロックを再構築するための手段と、再構築されたブロックに畳み込みニューラルネットワーク（ＣＮＮ）ベースフィルタを適用するための手段と、ここにおいて、ＣＮＮベースフィルタが、ＬｅａｋｙＲｅＬＵ活性化関数を使用する、を含む。

[0204] 態様３０Ｂ：命令を記憶したコンピュータ可読記憶媒体であって、命令は、実行されたとき、１つまたは複数のプロセッサに、ビデオデータのブロックを再構築することと、再構築されたブロックに畳み込みニューラルネットワーク（ＣＮＮ）ベースフィルタを適用することと、ここにおいて、ＣＮＮベースフィルタが、ＬｅａｋｙＲｅＬＵ活性化関数を使用する、を行わせる、コンピュータ可読記憶媒体。

[0205] 態様１Ｃ：ビデオデータを符号化または復号する方法が、ビデオデータのブロックを再構築することと、再構築されたブロックに畳み込みニューラルネットワーク（ＣＮＮ）ベースフィルタを適用することと、ここにおいて、ＣＮＮベースフィルタが、ＬｅａｋｙＲｅＬＵ活性化関数を使用する、を含む。

[0206] 態様２Ｃ：ＬｅａｋｙＲｅＬＵ活性化関数が、

として定義され、ここで、ｙがＣＮＮベースフィルタのＣＮＮの畳み込み層の出力値であり、Ａｌｐｈａが固定パラメータである、態様１Ｃに記載の方法。

[0207] 態様３Ｃ：ＣＮＮが複数の畳み込み層を含み、Ａｌｐｈａの値が、畳み込み層の各々について同じである、態様２Ｃに記載の方法。

[0208] 態様４Ｃ：ＣＮＮが複数の畳み込み層を含み、Ａｌｐｈａの値が、畳み込み層のうちの２つまたはそれ以上について異なる、態様２Ｃに記載の方法。

[0209] 態様５Ｃ：ビデオデータの符号化された表現を備えるビットストリーム中でシグナリングされる１つまたは複数のシンタックス要素に基づいて、Ａｌｐｈａの値を決定することをさらに備える、態様２Ｃから４Ｃのいずれかに記載の方法。

[0210] 態様６Ｃ：Ａｌｐｈａの値が、ビットストリーム中でシグナリングされる、態様５Ｃに記載の方法。

[0211] 態様７Ｃ：あらかじめ定義されたセット内のＡｌｐｈａのインデックスが、ビットストリーム中でシグナリングされ、ここにおいて、Ａｌｐｈａの値を決定することは、Ａｌｐｈａのインデックスが対応する、あらかじめ定義されたセット中のＡｌｐｈａの値を決定することを備える、態様５Ｃに記載の方法。

[0212] 態様８Ｃ：ＣＮＮが複数の畳み込み層を含み、方法が、畳み込み層の出力値に適用されるＬｅａｋｙＲｅＬＵ活性化関数において使用するためのＡｌｐｈａの単一の値を決定することと、ビデオデータの符号化された表現を備えるビットストリーム中で、Ａｌｐｈａの値を導出するためにビデオデコーダによって必要とされる情報を提供する１つまたは複数シンタックス要素を符号化することとをさらに備える、態様２Ｃから３Ｃまたは５Ｃから７Ｃのいずれかに記載の方法。

[0213] 態様９Ｃ．１つまたは複数のシンタックス要素が、Ａｌｐｈａの値を直接指定する、態様８Ｃに記載の方法。

[0214] 態様１０Ｃ．１つまたは複数のシンタックス要素が、あらかじめ定義されたセット内のＡｌｐｈａのインデックスを指定する、態様８Ｃに記載の方法。

[0215] 態様１１Ｃ：ＣＮＮが複数の畳み込み層を含み、方法が、複数の畳み込み層のうちの２つまたはそれ以上の異なる畳み込み層の出力値に適用されるＬｅａｋｙＲｅＬＵ活性化関数において使用するためのＡｌｐｈａの複数の値を決定することと、ビデオデータの符号化された表現を備えるビットストリーム中で、Ａｌｐｈａの値を導出するためにビデオデコーダによって必要とされる情報を提供する１つまたは複数シンタックス要素を符号化することとをさらに備える、態様２Ｃまたは４Ｃから７Ｃのいずれかに記載の方法。

[0216] 態様１２Ｃ．１つまたは複数のシンタックス要素が、Ａｌｐｈａの値を直接指定する、態様１１Ｃに記載の方法。

[0217] 態様１３Ｃ．１つまたは複数のシンタックス要素が、あらかじめ定義されたセット内のＡｌｐｈａのインデックスを指定する、態様１１Ｃに記載の方法。

[0218] 態様１４Ｃ：方法が、ビデオデータを復号することを備え、ビデオデータを復号することが、ビデオデータのブロックを再構築することと、再構築されたブロックにＣＮＮベースフィルタを適用することとを含む、態様１Ｃから１３Ｃのいずれかに記載の方法。

[0219] 態様１５Ｃ：方法が、ビデオデータを符号化することを備え、ビデオデータを符号化することが、ビデオデータのブロックを再構築することと、再構築されたブロックにＣＮＮベースフィルタを適用することとを含む、態様１Ｂから１４Ｃのいずれかに記載の方法。

[0220] 態様１６Ｃ：ビデオデータを符号化または復号するためのデバイスが、ビデオデータを記憶するためのメモリと、回路中に実装された１つまたは複数のプロセッサとを含み、１つまたは複数のプロセッサは、ビデオデータのブロックを再構築することと、再構築されたブロックに畳み込みニューラルネットワーク（ＣＮＮ）ベースフィルタを適用することと、ここにおいて、ＣＮＮベースフィルタが、ＬｅａｋｙＲｅＬＵ活性化関数を使用する、を行うように構成される。

[0221] 態様１７Ｃ：ＬｅａｋｙＲｅＬＵ活性化関数が、

として定義され、ここで、ｙがＣＮＮベースフィルタのＣＮＮの畳み込み層の出力値であり、Ａｌｐｈａが固定パラメータである、態様１６Ｃに記載のデバイス。

[0222] 態様１８Ｃ：ＣＮＮベースフィルタが複数の畳み込み層を含み、Ａｌｐｈａの値が、畳み込み層の各々について同じである、態様１７Ｃに記載のデバイス。

[0223] 態様１９Ｃ：ＣＮＮベースフィルタが複数の畳み込み層を含み、Ａｌｐｈａの値が、畳み込み層のうちの２つまたはそれ以上について異なる、態様１７Ｃに記載のデバイス。

[0224] 態様２０Ｃ：１つまたは複数のプロセッサが、ビデオデータの符号化された表現を備えるビットストリーム中でシグナリングされる１つまたは複数のシンタックス要素に基づいて、Ａｌｐｈａの値を決定するようにさらに構成された、態様１７Ｃから１９Ｃに記載のデバイス。

[0225] 態様２１Ｃ：Ａｌｐｈａの値が、ビットストリーム中でシグナリングされる、態様２０Ｃに記載のデバイス。

[0226] 態様２２Ｃ：あらかじめ定義されたセット内のＡｌｐｈａのインデックスが、ビットストリーム中でシグナリングされ、ここにおいて、Ａｌｐｈａの値を決定することは、Ａｌｐｈａのインデックスが対応する、あらかじめ定義されたセット中のＡｌｐｈａの値を決定することを備える、態様２０Ｃに記載のデバイス。

[0227] 態様２３Ｃ：ＣＮＮベースフィルタが複数の畳み込み層を含み、１つまたは複数のプロセッサが、畳み込み層の出力値に適用されるＬｅａｋｙＲｅＬＵ活性化関数において使用するためのＡｌｐｈａの単一の値を決定することと、ビデオデータの符号化された表現を備えるビットストリーム中で、Ａｌｐｈａの値を導出するためにビデオデコーダによって必要とされる情報を提供する１つまたは複数シンタックス要素を符号化することとを行うようにさらに構成された、態様１７Ｃから１８Ｃまたは２０Ｃから２２Ｃのいずれかに記載のデバイス。

[0228] 態様２４Ｃ：ＣＮＮが複数の畳み込み層を含み、１つまたは複数のプロセッサが、複数の畳み込み層のうちの２つまたはそれ以上の異なる畳み込み層の出力値に適用されるＬｅａｋｙＲｅＬＵ活性化関数において使用するためのＡｌｐｈａの複数の値を決定することと、ビデオデータの符号化された表現を備えるビットストリーム中で、Ａｌｐｈａの値を導出するためにビデオデコーダによって必要とされる情報を提供する１つまたは複数シンタックス要素を符号化することとを行うようにさらに構成された、態様１７Ｃまたは１８Ｃから２２Ｃのいずれかに記載のデバイス。

[0229] 態様２５Ｃ：復号されたビデオデータを表示するように構成されたディスプレイ（display）をさらに備える、態様１６Ｃから２４Ｃのいずれかに記載のデバイス。

[0230] 態様２６Ｃ：デバイスが、カメラ、コンピュータ、モバイルデバイス、ブロードキャスト受信機デバイス、またはセットトップボックスのうちの１つまたは複数を備える、態様１６Ｃから２５Ｃのいずれかに記載のデバイス。

[0231] 態様２７Ｃ：デバイスがビデオデコーダを備える、態様１６Ｃから２６Ｃのいずれかに記載のデバイス。

[0232] 態様２８Ｃ：デバイスがビデオエンコーダを備える、態様１６Ｃから２７Ｃのいずれかに記載のデバイス。

[0233] 態様２９Ｃ：ビデオデータをコーディングするためのデバイスが、ビデオデータのブロックを再構築するための手段と、再構築されたブロックに畳み込みニューラルネットワーク（ＣＮＮ）ベースフィルタを適用するための手段と、ここにおいて、ＣＮＮベースフィルタが、ＬｅａｋｙＲｅＬＵ活性化関数を使用する、を含む。

[0234] 態様２９Ｃ’：請求項１Ｃから１１Ｃのいずれかに記載の方法を実施するための手段を備える、態様２９Ｃに記載のデバイス。

[0235] 態様３０Ｃ：命令を記憶したコンピュータ可読記憶媒体であって、命令は、実行されたとき、１つまたは複数のプロセッサに、ビデオデータのブロックを再構築することと、再構築されたブロックに畳み込みニューラルネットワーク（ＣＮＮ）ベースフィルタを適用することと、ここにおいて、ＣＮＮベースフィルタが、ＬｅａｋｙＲｅＬＵ活性化関数を使用する、を行わせる、コンピュータ可読記憶媒体。

[0236] 態様３０Ｃ’：請求項１Ｃから１５Ｃのいずれかに記載の方法を実施するための手段を備える、態様２６Ｃに記載のコンピュータ可読記憶媒体。

[0237] 上記例に応じて、本明細書で説明された技法のいずれかのいくつかの行為またはイベントは、異なるシーケンスで実施され得、追加、マージ、または完全に除外され得る（たとえば、すべての説明された行為またはイベントが本技法の実践のために必要であるとは限らない）ことを認識されたい。その上、いくつかの例では、行為またはイベントは、連続的にではなく、たとえば、マルチスレッド処理、割込み処理、または複数のプロセッサを通して同時に実施され得る。

[0238] １つまたは複数の例では、説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装される場合、機能は、１つまたは複数の命令またはコードとして、コンピュータ可読媒体上に記憶されるか、あるいはコンピュータ可読媒体を介して送信され、ハードウェアベース処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記憶媒体などの有形媒体に対応する、コンピュータ可読記憶媒体を含み得るか、または、たとえば、通信プロトコルに従って、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含む通信媒体を含み得る。このようにして、コンピュータ可読媒体は、概して、（１）非一時的である有形コンピュータ可読記憶媒体、あるいは（２）信号または搬送波などの通信媒体に対応し得る。データ記憶媒体は、本開示で説明された技法の実装のための命令、コードおよび／またはデータ構造を取り出すために、１つまたは複数のコンピュータまたは１つまたは複数のプロセッサによってアクセスされ得る、任意の利用可能な媒体であり得る。コンピュータプログラム製品は、コンピュータ可読媒体を含み得る。

[0239] 限定ではなく例として、そのようなコンピュータ可読記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ（登録商標）、ＣＤ－ＲＯＭまたは他の光ディスクストレージ、磁気ディスクストレージ、または他の磁気ストレージデバイス、フラッシュメモリ、あるいは、命令またはデータ構造の形態の所望のプログラムコードを記憶するために使用され得、コンピュータによってアクセスされ得る、任意の他の媒体を備えることができる。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、命令が、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、およびマイクロ波などのワイヤレス技術は媒体の定義に含まれる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体が、接続、搬送波、信号、または他の一時的媒体を含むのではなく、代わりに非一時的な有形の記憶媒体を対象とすることを理解されたい。本明細書で使用されるディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザーディスク（登録商標）（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピー（登録商標）ディスク（disk）およびＢｌｕ－ｒａｙディスク（disc）を含み、ここで、ディスク（disk）は通常、データを磁気的に再生し、ディスク（disc）は、データをレーザーで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲に含まれるべきである。

[0240] 命令は、１つまたは複数のＤＳＰ、汎用マイクロプロセッサ、ＡＳＩＣ、ＦＰＧＡ、あるいは他の等価な集積回路またはディスクリート論理回路など、１つまたは複数のプロセッサによって実行され得る。したがって、本明細書で使用される「プロセッサ」および「処理回路」という用語は、上記の構造、または本明細書で説明された技法の実装に好適な任意の他の構造のいずれかを指し得る。さらに、いくつかの態様では、本明細書で説明された機能は、符号化および復号のために構成された専用ハードウェアおよび／またはソフトウェアモジュール内に提供されるか、あるいは複合コーデックに組み込まれ得る。また、本技法は、１つまたは複数の回路または論理要素において十分に実装され得る。

[0241] 本開示の技法は、ワイヤレスハンドセット、集積回路（ＩＣ）またはＩＣのセット（たとえば、チップセット）を含む、多種多様なデバイスまたは装置において実装され得る。本開示では、開示される技法を実施するように構成されたデバイスの機能的態様を強調するために、様々な構成要素、モジュール、またはユニットが説明されたが、それらの構成要素、モジュール、またはユニットは、必ずしも異なるハードウェアユニットによる実現を必要とするとは限らない。むしろ、上記で説明されたように、様々なユニットが、好適なソフトウェアおよび／またはファームウェアとともに、上記で説明された１つまたは複数のプロセッサを含めて、コーデックハードウェアユニットにおいて組み合わせられるか、または相互動作可能なハードウェアユニットの集合によって提供され得る。

[0242] 様々な例が説明された。これらおよび他の例は以下の特許請求の範囲内に入る。

Claims

ビデオデータを符号化または復号する方法であって、前記方法は、
前記ビデオデータのブロックを再構築することと、
前記再構築されたブロックに畳み込みニューラルネットワーク（ＣＮＮ）ベースフィルタを適用することと、ここにおいて、前記ＣＮＮベースフィルタが、ＬｅａｋｙＲｅＬＵ活性化関数を使用する、
を備える、方法。
前記ＬｅａｋｙＲｅＬＵ活性化関数が、

として定義され、ここで、ｙが前記ＣＮＮベースフィルタのＣＮＮの畳み込み層の出力値であり、Ａｌｐｈａが固定パラメータである、請求項１に記載の方法。
前記ＣＮＮが複数の畳み込み層を含み、Ａｌｐｈａの値が、前記畳み込み層の各々について同じである、請求項２に記載の方法。
ＣＮＮフィルタが複数の畳み込み層を含み、Ａｌｐｈａの値が、前記畳み込み層のうちの２つまたはそれ以上について異なる、請求項２に記載の方法。
前記ビデオデータの符号化された表現を備えるビットストリーム中でシグナリングされる１つまたは複数のシンタックス要素に基づいて、Ａｌｐｈａの値を決定することをさらに備える、請求項２に記載の方法。
Ａｌｐｈａの前記値が、前記ビットストリーム中でシグナリングされる、請求項５に記載の方法。
あらかじめ定義されたセット内のＡｌｐｈａのインデックスが、前記ビットストリーム中でシグナリングされ、
ここにおいて、Ａｌｐｈａの前記値を決定することは、Ａｌｐｈａの前記インデックスが対応する、前記あらかじめ定義されたセット中のＡｌｐｈａの前記値を決定することを備える、
請求項５に記載の方法。
前記ＣＮＮが複数の畳み込み層を含み、前記方法が、
前記畳み込み層の出力値に適用される前記ＬｅａｋｙＲｅＬＵ活性化関数において使用するためのＡｌｐｈａの単一の値を決定することと、
前記ビデオデータの符号化された表現を備えるビットストリーム中で、Ａｌｐｈａの前記値を導出するためにビデオデコーダによって必要とされる情報を提供する１つまたは複数のシンタックス要素を符号化することと
をさらに備える、請求項２に記載の方法。
前記１つまたは複数のシンタックス要素が、Ａｌｐｈａの前記値を直接指定する、請求項８に記載の方法。
前記１つまたは複数のシンタックス要素が、あらかじめ定義されたセット内のＡｌｐｈａのインデックスを指定する、請求項８に記載の方法。
前記ＣＮＮが複数の畳み込み層を含み、前記方法が、
前記複数の畳み込み層のうちの２つまたはそれ以上の異なる畳み込み層の出力値に適用される前記ＬｅａｋｙＲｅＬＵ活性化関数において使用するためのＡｌｐｈａの複数の値を決定することと、
前記ビデオデータの符号化された表現を備えるビットストリーム中で、Ａｌｐｈａの前記値を導出するためにビデオデコーダによって必要とされる情報を提供する１つまたは複数のシンタックス要素を符号化することと
をさらに備える、請求項２に記載の方法。
前記１つまたは複数のシンタックス要素が、Ａｌｐｈａの前記値を直接指定する、請求項１１に記載の方法。
前記１つまたは複数のシンタックス要素が、あらかじめ定義されたセット内のＡｌｐｈａのインデックスを指定する、請求項１１に記載の方法。
前記方法が、前記ビデオデータを復号することを備え、前記ビデオデータを復号することが、前記ビデオデータの前記ブロックを再構築することと、前記再構築されたブロックに前記ＣＮＮベースフィルタを適用することとを含む、請求項１に記載の方法。
前記方法が、前記ビデオデータを符号化することを備え、前記ビデオデータを符号化することが、前記ビデオデータの前記ブロックを再構築することと、前記再構築されたブロックに前記ＣＮＮベースフィルタを適用することとを含む、請求項１に記載の方法。
ビデオデータを符号化または復号するためのデバイスであって、前記デバイスが、
前記ビデオデータを記憶するためのメモリと、
回路中に実装された１つまたは複数のプロセッサとを備え、前記１つまたは複数のプロセッサは、
前記ビデオデータのブロックを再構築することと、
前記再構築されたブロックに畳み込みニューラルネットワーク（ＣＮＮ）ベースフィルタを適用することと、ここにおいて、前記ＣＮＮベースフィルタが、ＬｅａｋｙＲｅＬＵ活性化関数を使用する、
を行うように構成された、デバイス。
前記ＬｅａｋｙＲｅＬＵ活性化関数が、

として定義され、ここで、ｙが前記ＣＮＮベースフィルタのＣＮＮの畳み込み層の出力値であり、Ａｌｐｈａが固定パラメータである、請求項１６に記載のデバイス。
前記ＣＮＮが複数の畳み込み層を含み、Ａｌｐｈａの値が、前記畳み込み層の各々について同じである、請求項１７に記載のデバイス。
前記ＣＮＮが複数の畳み込み層を含み、Ａｌｐｈａの値が、前記畳み込み層のうちの２つまたはそれ以上について異なる、請求項１７に記載のデバイス。
前記１つまたは複数のプロセッサが、前記ビデオデータの符号化された表現を備えるビットストリーム中でシグナリングされる１つまたは複数のシンタックス要素に基づいて、Ａｌｐｈａの値を決定するようにさらに構成された、請求項１７に記載のデバイス。
Ａｌｐｈａの前記値が、前記ビットストリーム中でシグナリングされる、請求項２０に記載のデバイス。
あらかじめ定義されたセット内のＡｌｐｈａのインデックスが、前記ビットストリーム中でシグナリングされ、
ここにおいて、Ａｌｐｈａの前記値を決定することは、Ａｌｐｈａの前記インデックスが対応する、前記あらかじめ定義されたセット中のＡｌｐｈａの前記値を決定することを備える、
請求項２０に記載のデバイス。
前記ＣＮＮが複数の畳み込み層を含み、前記１つまたは複数のプロセッサが、
前記畳み込み層の出力値に適用される前記ＬｅａｋｙＲｅＬＵ活性化関数において使用するためのＡｌｐｈａの単一の値を決定することと、
前記ビデオデータの符号化された表現を備えるビットストリーム中で、Ａｌｐｈａの前記値を導出するためにビデオデコーダによって必要とされる情報を提供する１つまたは複数のシンタックス要素を符号化することと
を行うようにさらに構成された、請求項１７に記載のデバイス。
前記ＣＮＮが複数の畳み込み層を含み、前記１つまたは複数のプロセッサが、
前記複数の畳み込み層のうちの２つまたはそれ以上の異なる畳み込み層の出力値に適用される前記ＬｅａｋｙＲｅＬＵ活性化関数において使用するためのＡｌｐｈａの複数の値を決定することと、
前記ビデオデータの符号化された表現を備えるビットストリーム中で、Ａｌｐｈａの前記値を導出するためにビデオデコーダによって必要とされる情報を提供する１つまたは複数のシンタックス要素を符号化することと
を行うようにさらに構成された、請求項１７に記載のデバイス。
復号されたビデオデータを表示するように構成されたディスプレイをさらに備える、請求項１６に記載のデバイス。
前記デバイスが、カメラ、コンピュータ、モバイルデバイス、ブロードキャスト受信機デバイス、またはセットトップボックスのうちの１つまたは複数を備える、請求項１６に記載のデバイス。
前記デバイスがビデオデコーダを備える、請求項１６に記載のデバイス。
前記デバイスがビデオエンコーダを備える、請求項１６に記載のデバイス。
ビデオデータを符号化または復号するためのデバイスであって、前記デバイスは、
前記ビデオデータのブロックを再構築するための手段と、
前記再構築されたブロックに畳み込みニューラルネットワーク（ＣＮＮ）ベースフィルタを適用するための手段と、ここにおいて、前記ＣＮＮベースフィルタが、ＬｅａｋｙＲｅＬＵ活性化関数を使用する、
を備える、デバイス。
命令を記憶したコンピュータ可読記憶媒体であって、前記命令は、実行されたとき、１つまたは複数のプロセッサに、
ビデオデータのブロックを再構築することと、
前記再構築されたブロックに畳み込みニューラルネットワーク（ＣＮＮ）ベースフィルタを適用することと、ここにおいて、前記ＣＮＮベースフィルタが、ＬｅａｋｙＲｅＬＵ活性化関数を使用する、
を行わせる、コンピュータ可読記憶媒体。