JP2024516809A - ニューラルネットワークベースのイントラ予測モードと通常イントラ予測モードとの間の相互作用 - Google Patents
ニューラルネットワークベースのイントラ予測モードと通常イントラ予測モードとの間の相互作用 Download PDFInfo
- Publication number
- JP2024516809A JP2024516809A JP2023564532A JP2023564532A JP2024516809A JP 2024516809 A JP2024516809 A JP 2024516809A JP 2023564532 A JP2023564532 A JP 2023564532A JP 2023564532 A JP2023564532 A JP 2023564532A JP 2024516809 A JP2024516809 A JP 2024516809A
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- prediction mode
- intra
- block
- intra prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001537 neural effect Effects 0.000 title description 8
- 230000003993 interaction Effects 0.000 title description 6
- 238000013528 artificial neural network Methods 0.000 claims abstract description 417
- 238000000034 method Methods 0.000 claims abstract description 72
- 230000015654 memory Effects 0.000 claims description 41
- 238000004590 computer program Methods 0.000 claims description 4
- 230000011664 signaling Effects 0.000 abstract description 54
- 238000004891 communication Methods 0.000 description 55
- 238000009795 derivation Methods 0.000 description 37
- 239000013598 vector Substances 0.000 description 33
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 32
- 241000023320 Luma <angiosperm> Species 0.000 description 31
- 230000006870 function Effects 0.000 description 28
- 238000012545 processing Methods 0.000 description 28
- 238000005516 engineering process Methods 0.000 description 27
- 230000008569 process Effects 0.000 description 26
- 238000012360 testing method Methods 0.000 description 16
- 238000003860 storage Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 238000010801 machine learning Methods 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 11
- 238000013507 mapping Methods 0.000 description 8
- 230000002093 peripheral effect Effects 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000007726 management method Methods 0.000 description 7
- 230000017105 transposition Effects 0.000 description 7
- 238000013139 quantization Methods 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 230000000644 propagated effect Effects 0.000 description 5
- 239000000969 carrier Substances 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 4
- 241000760358 Enodes Species 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 101100172132 Mus musculus Eif3a gene Proteins 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000004873 anchoring Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 229910001416 lithium ion Inorganic materials 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- QELJHCBNGDEXLD-UHFFFAOYSA-N nickel zinc Chemical compound [Ni].[Zn] QELJHCBNGDEXLD-UHFFFAOYSA-N 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000003936 working memory Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000005355 Hall effect Effects 0.000 description 1
- HBBGRARXTFLTSG-UHFFFAOYSA-N Lithium ion Chemical compound [Li+] HBBGRARXTFLTSG-UHFFFAOYSA-N 0.000 description 1
- 241000700159 Rattus Species 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- OJIJEKBXJYRIBZ-UHFFFAOYSA-N cadmium nickel Chemical compound [Ni].[Cd] OJIJEKBXJYRIBZ-UHFFFAOYSA-N 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 229910052987 metal hydride Inorganic materials 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 229910052759 nickel Inorganic materials 0.000 description 1
- PXHVJJICTQNCMI-UHFFFAOYSA-N nickel Substances [Ni] PXHVJJICTQNCMI-UHFFFAOYSA-N 0.000 description 1
- -1 nickel metal hydride Chemical class 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000000411 transmission spectrum Methods 0.000 description 1
- 229910052721 tungsten Inorganic materials 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/11—Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/46—Embedding additional information in the video signal during the compression process
- H04N19/463—Embedding additional information in the video signal during the compression process by compressing encoding parameters before transmission
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/12—Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
ニューラルネットワークベースのイントラ予測が有効化されるとき、ルミナンスコーディングブロック及び/又はクロミナンスコーディングブロックのイントラ予測と、関連するシグナリングと、を実行するためのシステム、方法、及び手段が開示される。現在コーディングブロックについて、ニューラルネットワークベースの予測モード及びブロックコンテキストを表す情報が取得され得る。ニューラルネットワークベースの予測子は、ブロックコンテキスト及びニューラルネットワークベースの予測モードに基づいて、現在コーディングブロックのために生成され得る。生成されたニューラルネットワークベースの予測子に対応する非ニューラルネットワークベースのイントラ予測モードが決定され得る。隣接ブロックについての予測モードは、非ニューラルネットワークベースのイントラ予測モードに基づいて決定され得る。
Description
(関連出願の相互参照)
本出願は、2021年4月28日に出願された欧州仮特許出願第21305546.0号、2021年6月11日に出願された欧州仮特許出願第21305806.8号、2021年9月20日に出願された欧州仮特許出願第21306297.9号、及び2021年12月21日に出願された欧州仮特許出願第21306892.7号の利益を主張し、その内容は、参照により本明細書に組み込まれる。
本出願は、2021年4月28日に出願された欧州仮特許出願第21305546.0号、2021年6月11日に出願された欧州仮特許出願第21305806.8号、2021年9月20日に出願された欧州仮特許出願第21306297.9号、及び2021年12月21日に出願された欧州仮特許出願第21306892.7号の利益を主張し、その内容は、参照により本明細書に組み込まれる。
高い圧縮効率を実現するために、画像及びビデオのコーディングスキームは、デオコンテンツ内の空間冗長性及び時間冗長性を活用するために、予測及び変換を用い得る。イントラ予測又はインター予測は、イントラフレーム相関又はインターフレーム相関を活用するために使用され得る。しばしば予測誤差又は予測残差として示される、元のブロックと予測されたブロックとの間の差は、変換、量子化、及びエントロピコーディングされ得る。ビデオを再構成するために、エントロピコーディング、量子化、変換、及び予測に対応する逆プロセスによって、圧縮データが復号され得る。
ニューラルネットワークベースのイントラ予測が有効化されるとき、ルミナンスコーディングブロック及び/又はクロミナンスコーディングブロックのイントラ予測と、関連するシグナリングとを実行するためのシステム、方法、及び手段が開示される。現在コーディングブロックについて、ニューラルネットワークベースの予測モード及びブロックコンテキストを表す情報が取得され得る。ニューラルネットワークベースの予測子は、ブロックコンテキスト及びニューラルネットワークベースの予測モードに基づいて、現在コーディングブロックのために生成され得る。生成されたニューラルネットワークベースの予測子に対応する非ニューラルネットワークベースのイントラ予測モードが決定され得る。隣接ブロックについての予測モードは、非ニューラルネットワークベースのイントラ予測モードに基づいて決定され得る。
本明細書に説明されるシステム、方法、及び手段は、デコーダを含み得る。いくつかの実施例では、本明細書に説明されるシステム、方法、及び手段は、エンコーダを含み得る。いくつかの実施例では、本明細書に説明されるシステム、方法、及び手段は、(例えば、エンコーダからの、及び/又はデコーダによって受信された)信号を含み得る。コンピュータ可読媒体は、1つ以上のプロセッサに、本明細書に説明される方法を実行させるための命令を含み得る。コンピュータプログラム製品は命令を含み得、命令は、プログラムが1つ以上のプロセッサによって実行されるときに、1つ以上のプロセッサに本明細書に説明される方法を行わせ得る。
より詳細な理解は、例示として添付の図面と併せて与えられる、以下の詳細な説明から得られ得る。
図1Aは、1つ以上の開示された実施形態が実装され得る、例示的な通信システム100を例解する図である。通信システム100は、音声、データ、ビデオ、メッセージ伝達、ブロードキャストなどのコンテンツを、複数の無線ユーザに提供する、多重アクセスシステムであり得る。通信システム100は、複数の無線ユーザが、無線帯域幅を含むシステムリソースの共有を通じて、上記のようなコンテンツにアクセスすることを可能にし得る。例えば、通信システム100は、コード分割多重アクセス(code division multiple access、CDMA)、時分割多重アクセス(time division multiple access、TDMA)、周波数分割多重アクセス(frequency division multiple access、FDMA)、直交FDMA(orthogonal FDMA、OFDMA)、シングルキャリアFDMA(single-carrier FDMA、SC-FDMA)、ゼロテールユニークワードDFT-Spread OFDM(zero-tail unique-word DFT-Spread OFDM、ZT UW DTS-s OFDM)、ユニークワードOFDM(unique word OFDM、UW-OFDM)、リソースブロックフィルタ処理OFDM、フィルタバンクマルチキャリア(filter bank multicarrier、FBMC)などの、1つ以上のチャネルアクセス方法を用い得る。
図1Aに示されるように、通信システム100は、無線送信/受信ユニット(WTRU)102a、102b、102c、102dと、RAN104/113と、CN106/115と、公衆交換電話網(public switched telephone network、PSTN)108と、インターネット110と、他のネットワーク112とを含み得るが、開示される実施形態は、任意の数のWTRU、基地局、ネットワーク、及び/又はネットワーク要素を企図していることが理解されよう。WTRU102a、102b、102c、102dの各々は、無線環境において動作し、かつ/又は通信するように構成された、任意のタイプのデバイスであり得る。例として、それらのいずれも「局」及び/又は「STA」と称され得るWTRU102a、102b、102c、102dは、無線信号を送信及び/又は受信するように構成され得、ユーザ機器(user equipment、UE)、移動局、固定又は移動加入者ユニット、加入ベースのユニット、ページャ、セルラ電話、携帯情報端末(personal digital assistant、PDA)、スマートフォン、ラップトップ、ネットブック、パーソナルコンピュータ、無線センサ、ホットスポット又はMi-Fiデバイス、モノのインターネット(Internet of Things、IoT)デバイス、ウォッチ又は他のウェアラブル、ヘッドマウントディスプレイ(head-mounted display、HMD)、車両、ドローン、医療デバイス及びアプリケーション(例えば、遠隔手術)、工業用デバイス及びアプリケーション(例えば、工業用及び/又は自動処理チェーンコンテキストで動作するロボット及び/又は他の無線デバイス)、家電デバイス、商業用及び/又は工業用無線ネットワークで動作するデバイスなどを含み得る。WTRU102a、102b、102c、及び102dのいずれも、互換的にUEと称され得る。
通信システム100はまた、基地局114a及び/又は基地局114bを含み得る。基地局114a、114bの各々は、CN106/115、インターネット110、及び/又は他のネットワーク112など、1つ以上の通信ネットワークへのアクセスを容易にするために、WTRU102a、102b、102c、102dのうちの少なくとも1つと無線でインターフェース接続するように構成された、任意のタイプのデバイスであり得る。例として、基地局114a、114bは、基地局トランシーバ(base transceiver station、BTS)、ノードB、eノードB、ホームノードB、ホームeノードB、gNB、NRノードB、サイトコントローラ、アクセスポイント(access point、AP)、無線ルータなどであり得る。基地局114a、114bは各々単一の要素として描示されているが、基地局114a、114bは、任意の数の相互接続された基地局及び/又はネットワーク要素を含み得ることが理解されるであろう。
基地局114aは、基地局コントローラ(base station controller、BSC)、無線ネットワークコントローラ(radio network controller、RNC)、リレーノードなど、他の基地局及び/又はネットワーク要素(図示せず)も含み得る、RAN104/113の一部であり得る。基地局114a及び/又は基地局114bは、セル(図示せず)と称され得る、1つ以上のキャリア周波数で無線信号を送信及び/又は受信するように構成され得る。これらの周波数は、認可スペクトル、未認可スペクトル、又は認可スペクトル及び未認可スペクトルの組み合わせであり得る。セルは、相対的に固定され得るか又は経時的に変化し得る特定の地理的エリアに、無線サービスのカバレッジを提供し得る。セルは、セルセクタに更に分けられ得る。例えば、基地局114aと関連付けられたセルは、3つのセクタに分けられ得る。したがって、一実施形態では、基地局114aは、3つのトランシーバを、すなわち、セルのセクタごとに1つのトランシーバを含み得る。一実施形態では、基地局114aは、多重入力多重出力(multiple-input multiple output、MIMO)技術を用い得、セルのセクタごとに複数のトランシーバを利用し得る。例えば、ビームフォーミングを使用して、所望の空間方向に信号を送信及び/又は受信し得る。
基地局114a、114bは、エアインターフェース116を介して、WTRU102a、102b、102c、102dのうちの1つ以上と通信し得るが、このエアインターフェース116は、任意の好適な無線通信リンク(例えば、無線周波数(radio frequency、RF)、マイクロ波、センチメートル波、マイクロメートル波、赤外線(infrared、IR)、紫外線(ultraviolet、UV)、可視光など)であり得る。エアインターフェース116は、任意の好適な無線アクセス技術(radio access technology、RAT)を使用して確立され得る。
より具体的には、上記のように、通信システム100は、多重アクセスシステムであり得、例えば、CDMA、TDMA、FDMA、OFDMA、SC-FDMAなどの、1つ以上のチャネルアクセススキームを用い得る。例えば、RAN104/113内の基地局114a、及びWTRU102a、102b、102cは、ユニバーサル移動体通信システム(Universal Mobile Telecommunications System、UMTS)地上無線アクセス(UMTS Terrestrial Radio Access、UTRA)などの無線技術を実装し得、これは広帯域CDMA(wideband CDMA、WCDMA)を使用してエアインターフェース115/116/117を確立し得る。WCDMAは、高速パケットアクセス(High-Speed Packet Access、HSPA)及び/又は進化型HSPA(HSPA+)などの通信プロトコルを含み得る。HSPAは、高速ダウンリンク(Downlink、DL)パケットアクセス(High-Speed Downlink Packet Access、HSDPA)及び/又は高速アップリンクパケットアクセス(High-Speed UL Packet Access、HSUPA)を含み得る。
一実施形態では、基地局114a及びWTRU102a、102b、102cは、進化型UMTS地上無線アクセス(Evolved UMTS Terrestrial Radio Access、E-UTRA)などの無線技術を実装し得、これは、ロングタームエボリューション(Long Term Evolution、LTE)及び/又はLTE-Advanced(LTE-A)及び/又はLTE-Advanced Pro(LTE-A Pro)を使用してエアインターフェース116を確立し得る。
一実施形態では、基地局114a及びWTRU102a、102b、102cは、NR無線アクセスなどの無線技術を実装することができ、この技術は、新しい無線(New Radio、NR)を使用してエアインターフェース116を確立することができる。
一実施形態では、基地局114a及びWTRU102a、102b、102cは、複数の無線アクセス技術を実装し得る。例えば、基地局114a及びWTRU102a、102b、102cは、例えば、デュアルコネクティビティ(dual connectivity、DC)原理を使用して、LTE無線アクセス及びNR無線アクセスを一緒に実装し得る。したがって、WTRU102a、102b、102cによって利用されるエアインターフェースは、複数のタイプの基地局(例えば、eNB及びgNB)に/から送信される複数のタイプの無線アクセス技術及び/又は送信によって特徴付けられ得る。
他の実施形態では、基地局114a及びWTRU102a、102b、102cは、IEEE802.11(すなわち、無線フィデリティ(Wireless Fidelity、WiFi)、IEEE802.16(すなわち、ワイマックス(Worldwide Interoperability for Microwave Access、WiMAX)、CDMA2000、CDMA2000 1X、CDMA2000 EV-DO、暫定規格2000(IS-2000)、暫定規格95(IS-95)、暫定規格856(IS-856)、汎欧州デジタル移動電話方式(Global System for Mobile communications、GSM)、GSM進化型高速データレート(Enhanced Data rates for GSM Evolution、EDGE)、GSM EDGE(GERAN)などの無線技術を実装し得る。
図1Aの基地局114bは、例えば、無線ルータ、HomeノードB、Home eノードB又はアクセスポイントであり得、事業所、家庭、車両、キャンパス、工業施設、(例えば、ドローンによる使用のための)空中回廊、道路などの場所などの局所的エリアにおける無線接続を容易にするために、任意の好適なRATを利用し得る。一実施形態では、基地局114b及びWTRU102c、102dは、IEEE802.11などの無線技術を実装して、無線ローカルエリアネットワーク(wireless local area network、WLAN)を確立し得る。一実施形態では、基地局114b及びWTRU102c、102dは、IEEE802.15などの無線技術を実装して、無線パーソナルエリアネットワーク(wireless personal area network、WPAN)を確立し得る。更に別の一実施形態では、基地局114b及びWTRU102c、102dは、セルラベースのRAT(例えば、WCDMA、CDMA2000、GSM、LTE、LTE-A、LTE-A Pro、NRなど)を利用して、ピコセル又はフェムトセルを確立し得る。図1Aに示すように、基地局114bは、インターネット110への直接接続を有し得る。したがって、基地局114bは、CN106/115を介してインターネット110にアクセスする必要がない場合がある。
RAN104/113は、CN106/115と通信し得、これは、音声、データ、アプリケーション、及び/又はボイスオーバインターネットプロトコル(voice over internet protocol、VoIP)サービスをWTRU102a、102b、102c、102dのうちの1つ以上に提供するように構成された、任意のタイプのネットワークであり得る。データは、例えば、異なるスループット要件、待ち時間要件、エラー許容要件、信頼性要件、データスループット要件、モビリティ要件などの、様々なサービス品質(quality of service、QoS)要件を有し得る。CN106/115は、呼制御、支払い請求サービス、移動体位置ベースのサービス、プリペイド呼、インターネット接続性、ビデオ配信などを提供し、かつ/又はユーザ認証などの高レベルセキュリティ機能を実行し得る。図1Aには示されていないが、RAN104/113及び/又はCN106/115は、RAN104/113と同じRAT又は異なるRATを採用する他のRANと、直接又は間接的に通信し得ることが理解されよう。例えば、NR無線技術を利用し得るRAN104/113に接続されていることに加えて、CN106/115はまた、GSM、UMTS、CDMA2000、WiMAX、E-UTRA、又はWiFi無線技術を採用して別のRAN(図示せず)と通信し得る。
CN106/115はまた、PSTN108、インターネット110、及び/又は他のネットワーク112にアクセスするために、WTRU102a、102b、102c、102dのためのゲートウェイとしての機能を果たし得る。PSTN108は、従来型電話サービス(Plain Old Telephone Service、POTS)を提供する回線交換電話網を含み得る。インターネット110は、相互接続されたコンピュータネットワーク及びデバイスのグローバルシステムを含み得るが、これらのネットワーク及びデバイスは、送信制御プロトコル(transmission control protocol、TCP)、ユーザデータグラムプロトコル(user datagram protocol、UDP)、及び/又はTCP/IPインターネットプロトコルスイートのインターネットプロトコル(internet protocol、IP)などの、共通通信プロトコルを使用する。ネットワーク112は、他のサービスプロバイダによって所有及び/又は運営される、有線及び/又は無線通信ネットワークを含み得る。例えば、ネットワーク112は、RAN104/113と同じRAT又は異なるRATを採用し得る、1つ以上のRANに接続された別のCNを含み得る。
通信システム100におけるWTRU102a、102b、102c、102dのいくつか又は全ては、マルチモード能力を含み得る(例えば、WTRU102a、102b、102c、102dは、異なる無線リンクを介して異なる無線ネットワークと通信するための複数のトランシーバを含み得る)。例えば、図1Aに示されるWTRU102cは、セルラベースの無線技術を用い得る基地局114a、及びIEEE802無線技術を用い得る基地局114bと通信するように構成され得る。
図1Bは、例示的なWTRU102を例解するシステム図である。図1Bに示すように、WTRU102は、とりわけ、プロセッサ118、トランシーバ120、送信/受信要素122、スピーカ/マイクロフォン124、キーパッド126、ディスプレイ/タッチパッド128、非リムーバブルメモリ130、リムーバブルメモリ132、電源134、全地球測位システム(global positioning system、GPS)チップセット136、及び/又は他の周辺機器138を含み得る。WTRU102は、一実施形態との一貫性を有したまま、前述の要素の任意の部分的組み合わせを含み得ることが理解されよう。
プロセッサ118は、汎用プロセッサ、専用プロセッサ、従来のプロセッサ、デジタル信号プロセッサ(digital signal processor、DSP)、複数のマイクロプロセッサ、DSPコアと関連付けられた1つ以上のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array、FPGA)回路、任意の他のタイプの集積回路(integrated circuit、IC)、状態機械などであり得る。プロセッサ118は、信号コーディング、データ処理、電力制御、入力/出力処理、及び/又はWTRU102が無線環境で動作することを可能にする任意の他の機能を実行し得る。プロセッサ118は、送信/受信要素122に結合され得るトランシーバ120に結合され得る。図1Bは、プロセッサ118及びトランシーバ120を別個のコンポーネントとして描示するが、プロセッサ118及びトランシーバ120は、電子パッケージ又はチップにおいて一緒に統合され得るということが理解されよう。
送信/受信要素122は、エアインターフェース116を介して基地局(例えば、基地局114a)に信号を送信するか又は基地局(例えば、基地局114a)から信号を受信するように構成され得る。例えば、一実施形態では、送信/受信要素122は、RF信号を送信及び/又は受信するように構成されたアンテナであり得る。一実施形態では、送信/受信要素122は、例えば、IR、UV又は可視光信号を送信及び/又は受信するように構成されたエミッタ/検出器であり得る。更に別の実施形態では、送信/受信要素122は、RF信号及び光信号の両方を送信及び/又は受信するように構成され得る。送信/受信要素122は、無線信号の任意の組み合わせを送信及び/又は受信するように構成され得るということが理解されよう。
送信/受信要素122は、単一の要素として図1Bに描示されているが、WTRU102は、任意の数の送信/受信要素122を含み得る。より具体的には、WTRU102は、MIMO技術を用い得る。したがって、一実施形態では、WTRU102は、エアインターフェース116を介して無線信号を送受信するための2つ以上の送信/受信要素122(例えば、複数のアンテナ)を含み得る。
トランシーバ120は、送信/受信要素122によって送信される信号を変調し、送信/受信要素122によって受信される信号を復調するように構成され得る。上記のように、WTRU102は、マルチモード能力を有し得る。したがって、トランシーバ120は、例えば、NR及びIEEE802.11などの複数のRATを介してWTRU102が通信することを可能にするための複数のトランシーバを含み得る。
WTRU102のプロセッサ118は、スピーカ/マイクロフォン124、キーパッド126、及び/又はディスプレイ/タッチパッド128(例えば、液晶ディスプレイ(liquid crystal display、LCD)表示ユニット若しくは有機発光ダイオード(organic light-emitting diode、OLED)表示ユニット)に結合され得、これらからユーザが入力したデータを受信し得る。プロセッサ118はまた、ユーザデータをスピーカ/マイクロフォン124、キーパッド126、及び/又はディスプレイ/タッチパッド128に出力し得る。加えて、プロセッサ118は、非リムーバブルメモリ130及び/又はリムーバブルメモリ132などの任意のタイプの好適なメモリから情報にアクセスし、かつ当該メモリにデータを記憶し得る。非リムーバブルメモリ130は、ランダムアクセスメモリ(random-access memory、RAM)、読み取り専用メモリ(read-only memory、ROM)、ハードディスク、又は任意の他のタイプのメモリ記憶デバイスを含み得る。リムーバブルメモリ132は、加入者識別モジュール(subscriber identity module、SIM)カード、メモリスティック、セキュアデジタル(secure digital、SD)メモリカードなどを含み得る。他の実施形態では、プロセッサ118は、サーバ又はホームコンピュータ(図示せず)上など、WTRU102上に物理的に配置されていないメモリから情報にアクセスし、かつ当該メモリにデータを記憶し得る。
プロセッサ118は、電源134から電力を受信し得るが、WTRU102における他のコンポーネントに電力を分配し、かつ/又は制御するように構成され得る。電源134は、WTRU102に電力を供給するための任意の好適なデバイスであり得る。例えば、電源134は、1つ以上の乾電池(例えば、ニッケルカドミウム(nickel-cadmium、NiCd)、ニッケル亜鉛(nickel-zinc、NiZn)、ニッケル金属水素化物(nickel metal hydride、NiMH)、リチウムイオン(lithium-ion、Li-ion)など)、太陽電池、燃料電池などを含み得る。
プロセッサ118はまた、GPSチップセット136に結合され得、これは、WTRU102の現在の場所に関する場所情報(例えば、経度及び緯度)を提供するように構成され得る。GPSチップセット136からの情報に加えて又はその代わりに、WTRU102は、基地局(例えば、基地局114a、114b)からエアインターフェース116を介して場所情報を受信し、かつ/又は2つ以上の近くの基地局から受信されている信号のタイミングに基づいて、その場所を判定し得る。WTRU102は、一実施形態との一貫性を有したまま、任意の好適な位置判定方法によって位置情報を取得し得るということが理解されよう。
プロセッサ118は、他の周辺機器138に更に結合され得、他の周辺機器138には、追加の特徴、機能、及び/又は有線若しくは無線接続を提供する1つ以上のソフトウェア及び/又はハードウェアモジュールが含まれ得る。例えば、周辺機器138には、加速度計、電子コンパス、衛星トランシーバ、(写真及び/又はビデオのための)デジタルカメラ、ユニバーサルシリアルバス(universal serial bus、USB)ポート、振動デバイス、テレビトランシーバ、ハンズフリーヘッドセット、Bluetooth(登録商標)モジュール、周波数変調(frequency modulated、FM)無線ユニット、デジタル音楽プレーヤ、メディアプレーヤ、ビデオゲームプレーヤモジュール、インターネットブラウザ、仮想現実及び/又は拡張現実(Virtual Reality/Augmented Reality、VR/AR)デバイス、アクティビティトラッカなどが含まれ得る。周辺機器138は、1つ以上のセンサを含み得、センサは、ジャイロスコープ、加速度計、ホール効果センサ、磁力計、方位センサ、近接センサ、温度センサ、時間センサ、ジオロケーションセンサ、高度計、光センサ、タッチセンサ、磁力計、気圧計、ジェスチャセンサ、生体認証センサ、及び/又は湿度センサのうちの1つ以上であり得る。
WTRU102は、(例えば、UL(例えば、送信用)及びダウンリンク(例えば、受信用)の両方のための特定のサブフレームと関連付けられた)信号のいくつか又は全ての送信及び受信が並列及び/又は同時であり得る、全二重無線機を含み得る。全二重無線機は、ハードウェア(例えば、チョーク)又はプロセッサを介した信号処理(例えば、別個のプロセッサ(図示せず)又はプロセッサ118を介して)のいずれかを介して自己干渉を低減し、かつ又は実質的に排除するための干渉管理ユニットを含み得る。一実施形態では、WRTU102は、(例えば、UL(例えば、送信用)又はダウンリンク(例えば、受信用)のいずれかのための特定のサブフレームと関連付けられた)信号のうちのいくつか又は全てのうちのどれかの送信及び受信のための半二重無線機を含み得る。
図1Cは、一実施形態によるRAN104及びCN106を例解するシステム図である。上記のように、RAN104は、E-UTRA無線技術を用いて、エアインターフェース116を介してWTRU102a、102b、102cと通信し得る。RAN104はまた、CN106と通信し得る。
RAN104は、eノード-B160a、160b、160cを含み得るが、RAN104は、一実施形態との一貫性を有しながら、任意の数のeノード-Bを含み得るということが理解されよう。eノード-B160a、160b、160cは各々、エアインターフェース116を介してWTRU102a、102b、102cと通信するための1つ以上のトランシーバを含み得る。一実施形態では、eノード-B160a、160b、160cは、MIMO技術を実装し得る。したがって、eノード-B160aは、例えば、複数のアンテナを使用して、WTRU102aに無線信号を送信し、かつ/又はWTRU102aから無線信号を受信し得る。
eノード-B160a、160b、160cの各々は、特定のセル(図示せず)と関連付けられ得、UL及び/又はDLにおいて、無線リソース管理決定、ハンドオーバ決定、ユーザのスケジューリングなどを処理するように構成され得る。図1Cに示すように、eノード-B160a、160b、160cは、X2インターフェースを介して互いに通信し得る。
図1Cに示されるCN106は、モビリティ管理エンティティ(mobility management entity、MME)162、サービングゲートウェイ(serving gateway、SGW)164、及びパケットデータネットワーク(packet data network、PDN)ゲートウェイ(又はPGW)166を含み得る。前述の要素の各々は、CN106の一部として描示されているが、これらの要素のいずれも、CNオペレータ以外のエンティティによって所有及び/又は操作され得ることが理解されよう。
MME162は、S1インターフェースを介して、RAN104におけるeノード-B162a、162b、162cの各々に接続され得、かつ制御ノードとして機能し得る。例えば、MME162は、WTRU102a、102b、102cのユーザを認証すること、ベアラのアクティブ化/非アクティブ化、WTRU102a、102b、102cの初期アタッチ中に特定のサービス中のゲートウェイを選択すること、などの役割を果たし得る。MME162は、RAN104と、GSM及び/又はWCDMAなどの他の無線技術を採用する他のRAN(図示せず)との間で切り替えるための制御プレーン機能を提供し得る。
SGW164は、S1インターフェースを介してRAN104におけるeノード-B160a、160b、160cの各々に接続され得る。SGW164は、概して、ユーザデータパケットをWTRU102a、102b、102cに/それらからルーティングし、かつ転送し得る。SGW164は、eノードB間ハンドオーバ中にユーザプレーンをアンカする機能、DLデータがWTRU102a、102b、102cに利用可能であるときにページングをトリガする機能、WTRU102a、102b、102cのコンテキストを管理かつ記憶する機能などの、他の機能を実行し得る。
SGW164は、PGW166に接続され得、PGW166は、WTRU102a、102b、102cとIP対応デバイスとの間の通信を容易にするために、インターネット110などのパケット交換ネットワークへのアクセスをWTRU102a、102b、102cに提供し得る。
CN106は、他のネットワークとの通信を容易にし得る。例えば、CN106は、WTRU102a、102b、102cと従来の地上回線通信デバイスとの間の通信を容易にするために、PSTN108などの回路交換ネットワークへのアクセスをWTRU102a、102b、102cに提供し得る。例えば、CN106は、CN106とPSTN108との間のインターフェースとして機能するIPゲートウェイ(例えば、IPマルチメディアサブシステム(IP multimedia subsystem、IMS)サーバ)を含み得るか、又はそれと通信し得る。加えて、CN106は、WTRU102a、102b、102cに他のネットワーク112へのアクセスを提供し得、他のネットワーク112は、他のサービスプロバイダによって所有される、かつ/又は動作される他の有線及び/又は無線ネットワークを含み得る。
WTRUは、無線端末として図1A~図1Dに説明されているが、特定の代表的な実施形態では、そのような端末は、通信ネットワークとの(例えば、一時的又は永久的に)有線通信インターフェースを使用し得ることが企図される。
代表的な実施形態では、他のネットワーク112は、WLANであり得る。
インフラストラクチャ基本サービスセット(Basic Service Set、BSS)モードのWLANは、BSSのアクセスポイント(Access Point、AP)及びAPと関連付けられた1つ以上のステーション(station、STA)を有し得る。APは、配信システム(Distribution System、DS)若しくはBSSに入る、かつ/又はBSSから出るトラフィックを搬送する別のタイプの有線/無線ネットワークへのアクセス又はインターフェースを有し得る。BSS外から生じる、STAへのトラフィックは、APを通って到達し得、STAに配信され得る。STAからBSS外の宛先への生じるトラフィックは、APに送信されて、それぞれの宛先に送信され得る。BSS内のSTA間のトラフィックは、例えば、APを介して送信され得、ソースSTAは、APにトラフィックを送信し得、APは、トラフィックを宛先STAに配信し得る。BSS内のSTA間のトラフィックは、ピアツーピアトラフィックとしてみなされ得る、かつ/又は称され得る。ピアツーピアトラフィックは、ソースSTAと宛先STAとの間で(例えば、それらの間で直接的に)、直接リンクセットアップ(direct link setup、DLS)で送信され得る。特定の代表的な実施形態では、DLSは、802.11e DLS又は802.11zトンネル化DLS(tunneled DLS、TDLS)を使用し得る。独立BSS(Independent BSS、IBSS)モードを使用するWLANは、APを有しない場合があり、IBSS内又はそれを使用するSTA(例えば、STAの全部)は、互いに直接通信し得る。通信のIBSSモードは、本明細書では、「アドホック」通信モードと称され得る。
802.11acインフラストラクチャ動作モード又は同様の動作モードを使用するときに、APは、プライマリチャネルなどの固定チャネル上にビーコンを送信し得る。プライマリチャネルは、固定幅(例えば、20MHz幅の帯域幅)又はシグナリングを介して動的に設定される幅であり得る。プライマリチャネルは、BSSの動作チャネルであり得、APとの接続を確立するためにSTAによって使用され得る。特定の代表的な実施形態では、例えば、802.11システムにおいて、衝突回避を備えたキャリア感知多重アクセス(Carrier Sense Multiple Access/Collision Avoidance、CSMA/CA)が実装され得る。CSMA/CAの場合、APを含むSTA(例えば、全てのSTA)は、プライマリチャネルを感知し得る。プライマリチャネルが特定のSTAによってビジーであると感知され/検出され、かつ/又は判定される場合、特定のSTAは、バックオフされ得る。1つのSTA(例えば、1つのステーションのみ)は、所与のBSSにおいて、任意の所与の時間に送信し得る。
高スループット(High Throughput、HT)STAは、通信のための40MHz幅のチャネルを使用し得るが、この40MHz幅のチャネルは、例えば、プライマリ20MHzチャネルと、隣接又は非隣接の20MHzチャネルとの組み合わせを介して形成され得る。
非常に高いスループット(Very High Throughput、VHT)のSTAは、20MHz、40MHz、80MHz、及び/又は160MHz幅のチャネルをサポートし得る。上記の40MHz及び/又は80MHz幅のチャネルは、連続する複数の20MHzチャネルを組み合わせることによって形成され得る。160MHzチャネルは、8つの連続する20MHzチャネルを組み合わせることによって、又は80+80構成と称され得る2つの連続していない80MHzチャネルを組み合わせることによって、形成され得る。80+80構成の場合、チャネル符号化後、データは、データを2つのストリームに分割し得るセグメントパーサを通過し得る。逆高速フーリエ変換(Inverse Fast Fourier Transform、IFFT)処理及び時間ドメイン処理は、各ストリームで別個に行われ得る。ストリームは、2つの80MHzチャネルにマッピングされ得、データは、送信STAによって送信され得る。受信STAの受信機では、80+80構成に対する上記で説明される動作は逆にされ得、組み合わされたデータを媒体アクセス制御(Medium Access Control、MAC)に送信し得る。
サブ1GHzの動作モードは、802.11af及び802.11ahによってサポートされる。チャネル動作帯域幅及びキャリアは、802.11n及び802.11acで使用されるものと比較して、802.11af及び802.11ahでは低減される。802.11afは、TVホワイトスペース(TV White Space、TVWS)スペクトルにおいて、5MHz、10MHz及び20MHz帯域幅をサポートし、802.11ahは、非TVWSスペクトルを使用して、1MHz、2MHz、4MHz、8MHz、及び16MHz帯域幅をサポートする。代表的な実施形態によれば、802.11ahは、マクロカバレッジエリア内のMTCデバイスなど、メータタイプの制御/マシンタイプ通信をサポートし得る。MTCデバイスは、例えば、特定の、かつ/又は限定された帯域幅のためのサポート(例えば、そのためのみのサポート)を含む、特定の能力を有し得る。MTCデバイスは、(例えば、非常に長いバッテリ寿命を維持するために)閾値を超えるバッテリ寿命を有するバッテリを含み得る。
複数のチャネル、並びに802.11n、802.11ac、802.11af、及び802.11ahなどのチャネル帯域幅をサポートし得るWLANシステムは、プライマリチャネルとして指定され得るチャネルを含む。プライマリチャネルは、BSSにおける全てのSTAによってサポートされる最大共通動作帯域幅に等しい帯域幅を有し得る。プライマリチャネルの帯域幅は、最小帯域幅動作モードをサポートするBSSで動作する全てのSTAの中から、STAによって設定され、かつ/又は制限され得る。802.11ahの例では、プライマリチャネルは、AP及びBSSにおける他のSTAが2MHz、4MHz、8MHz、16MHz、及び/又は他のチャネル帯域幅動作モードをサポートする場合であっても、1MHzモードをサポートする(例えば、それのみをサポートする)STA(例えば、MTCタイプデバイス)に対して1MHz幅であり得る。キャリア感知及び/又はネットワーク配分ベクトル(Network Allocation Vector、NAV)設定は、プライマリチャネルの状態に依存し得る。例えば、APに送信する(1MHz動作モードのみをサポートする)STAに起因してプライマリチャネルがビジーである場合、周波数帯域の大部分がアイドルのままであり、利用可能であり得るとしても、利用可能な周波数帯域全体がビジーであるとみなされ得る。
米国では、802.11ahにより使用され得る利用可能な周波数帯域は、902MHz~928MHzである。韓国では、利用可能な周波数帯域は917.5MHz~923.5MHzである。日本では、利用可能な周波数帯域は916.5MHz~927.5MHzである。802.11ahに利用可能な総帯域幅は、国のコードに応じて6MHz~26MHzである。
図1Dは、一実施形態によるRAN113及びCN115を例解するシステム図である。上記のように、RAN113は、NR無線技術を使用して、エアインターフェース116を介してWTRU102a、102b、102cと通信し得る。RAN113はまた、CN115と通信し得る。
RAN113は、gNB180a、180b、180cを含み得るが、RAN113は、一実施形態との一貫性を維持しながら、任意の数のgNBを含み得ることが理解されよう。gNB180a、180b、180cは各々、エアインターフェース116を介してWTRU102a、102b、102cと通信するための1つ以上のトランシーバを含み得る。一実施形態では、gNB180a、180b、180cは、MIMO技術を実装し得る。例えば、gNB180a、108bは、ビームフォーミングを利用して、gNB180a、180b、180cに信号を送信及び/又は受信し得る。したがって、gNB180aは、例えば、複数のアンテナを使用して、WTRU102aに無線信号を送信し得る、かつ/又はWTRU102aから無線信号を受信し得る。一実施形態では、gNB180a、180b、180cは、キャリアアグリゲーション技術を実装し得る。例えば、gNB180aは、複数のコンポーネントキャリアをWTRU102a(図示せず)に送信し得る。これらのコンポーネントキャリアのサブセットは、未認可スペクトル上にあり得、残りのコンポーネントキャリアは、認可スペクトル上にあり得る。一実施形態では、gNB180a、180b、180cは、協調マルチポイント(Coordinated Multi-Point、CoMP)技術を実装し得る。例えば、WTRU102aは、gNB180a及びgNB180b(及び/又はgNB180c)からの協調送信を受信し得る。
WTRU102a、102b、102cは、拡張可能なヌメロロジと関連付けられた送信を使用して、gNB180a、180b、180cと通信し得る。例えば、OFDMシンボル間隔及び/又はOFDMサブキャリア間隔は、無線送信スペクトルの異なる送信、異なるセル、及び/又は異なる部分に対して変化し得る。WTRU102a、102b、102cは、(例えば、様々な数のOFDMシンボルを含み、かつ/又は様々な長さの絶対時間が持続する)様々な又はスケーラブルな長さのサブフレーム又は送信時間間隔(transmission time interval、TTI)を使用して、gNB180a、180b、180cと通信し得る。
gNB180a、180b、180cは、スタンドアロン構成及び/又は非スタンドアロン構成でWTRU102a、102b、102cと通信するように構成され得る。スタンドアロン構成では、WTRU102a、102b、102cは、他のRAN(例えば、eノード-B160a、160b、160cなど)にアクセスすることなく、gNB180a、180b、180cと通信し得る。スタンドアロン構成では、WTRU102a、102b、102cは、モビリティアンカポイントとしてgNB180a、180b、180cのうちの1つ以上を利用し得る。スタンドアロン構成では、WTRU102a、102b、102cは、未認可バンドにおける信号を使用して、gNB180a、180b、180cと通信し得る。非スタンドアロン構成では、WTRU102a、102b、102cは、gNB180a、180b、180cと通信し、これらに接続する一方で、eノード-B160a、160b、160cなどの別のRANとも通信し、これらに接続し得る。例えば、WTRU102a、102b、102cは、1つ以上のgNB180a、180b、180c及び1つ以上のeノード-B160a、160b、160cと実質的に同時に通信するためのDC原理を実装し得る。非スタンドアロン構成では、eノード-B160a、160b、160cは、WTRU102a、102b、102cのモビリティアンカとして機能し得るが、gNB180a、180b、180cは、WTRU102a、102b、102cをサービス提供するための追加のカバレッジ及び/又はスループットを提供し得る。
gNB180a、180b、180cの各々は、特定のセル(図示せず)と関連付けられ得、無線リソース管理意思決定、ハンドオーバ意思決定、UL及び/又はDLにおけるユーザのスケジューリング、ネットワークスライシングのサポート、デュアルコネクティビティ、NRとE-UTRAとの間のインターワーキング、ユーザプレーン機能(User Plane Function、UPF)184a、184bへのユーザプレーンデータのルーティング、アクセス及びモビリティ管理機能(Access and Mobility Management Function、AMF)182a、182bへの制御プレーン情報のルーティングなどを処理するように構成され得る。図1Dに示すように、gNB180a、180b、180cは、Xnインターフェースを介して互いに通信し得る。
図1Dに示されるCN115は、少なくとも1つのAMF182a、182b、少なくとも1つのUPF184a、184b、少なくとも1つのセッション管理機能(Session Management Function、SMF)183a、183b、及び場合によってはデータネットワーク(Data Network、DN)185a、185bを含み得る。前述の要素の各々は、CN115の一部として描示されているが、これらの要素のいずれも、CNオペレータ以外のエンティティによって所有及び/又は操作され得ることが理解されよう。
AMF182a、182bは、N2インターフェースを介してRAN113におけるgNB180a、180b、180cのうちの1つ以上に接続され得、制御ノードとして機能し得る。例えば、AMF182a、182bは、WTRU102a、102b、102cのユーザの認証、ネットワークスライシングのサポート(例えば、異なる要件を有する異なるPDUセッションの処理)、特定のSMF183a、183bの選択、登録エリアの管理、NASシグナリングの終了、モビリティ管理などの役割を果たすことができる。ネットワークスライスは、WTRU102a、102b、102cを利用しているサービスのタイプに基づいて、WTRU102a、102b、102cのCNサポートをカスタマイズするために、AMF182a、182bによって使用され得る。例えば、異なるネットワークスライスは、高信頼低遅延(ultra-reliable low latency、URLLC)アクセスに依存するサービス、高速大容量(enhanced massive mobile broadband、eMBB)アクセスに依存するサービス、マシンタイプ通信(machine type communication、MTC)アクセスのためのサービス、及び/又は同様のものなどの異なる使用事例のために確立され得る。AMF162は、RAN113と、LTE、LTE-A、LTE-A Pro及び/又はWiFiなどの非3GPPアクセス技術などの他の無線技術を採用する他のRAN(図示せず)との間で切り替えるための制御プレーン機能を提供し得る。
SMF183a、183bは、N11インターフェースを介して、CN115内のAMF182a、182bに接続され得る。SMF183a、183bはまた、N4インターフェースを介して、CN115内のUPF184a、184bに接続され得る。SMF183a、183bは、UPF184a、184bを選択及び制御し、UPF184a、184bを通るトラフィックのルーティングを構成し得る。SMF183a、183bは、UE IPアドレスを管理して割り当てること、PDUセッションを管理すること、ポリシー執行及びQoSを制御すること、ダウンリンクデータ通知を提供することなど、他の機能を実行し得る。PDUセッションタイプは、IPベース、非IPベース、イーサネットベースなどであり得る。
UPF184a、184bは、N3インターフェースを介して、RAN113内のgNB180a、180b、180cのうちの1つ以上に接続され得、これにより、WTRU102a、102b、102cとIP対応デバイスとの間の通信を容易にするために、インターネット110などのパケット交換ネットワークへのアクセスをWTRU102a、102b、102cに提供し得る。UPF184、184bは、パケットをルーティングして転送すること、ユーザプレーンポリシーを執行すること、マルチホームPDUセッションをサポートすること、ユーザプレーンQoSを処理すること、ダウンリンクパケットをバッファすること、モビリティアンカリングを提供することなど、他の機能を実行し得る。
CN115は、他のネットワークとの通信を容易にし得る。例えば、CN115は、CN115とPSTN108との間のインターフェースとして機能するIPゲートウェイ(例えば、IPマルチメディアサブシステム(IP multimedia subsystem、IMS)サーバ)を含み得るか、又はそれと通信し得る。加えて、CN115は、WTRU102a、102b、102cに他のネットワーク112へのアクセスを提供し得、他のネットワーク112は、他のサービスプロバイダによって所有される、かつ/又は動作される他の有線及び/又は無線ネットワークを含み得る。一実施形態では、WTRU102a、102b、102cは、UPF184a、184bへのN3インターフェース、及びUPF184a、184bとDN185a、185bとの間のN6インターフェースを介して、UPF184a、184bを通じてローカルデータネットワーク(DN)185a、185bに接続され得る。
図1A~図1D、及び図1A~図1Dの対応する説明から見て、WTRU102a~d、基地局114a~b、eノード-B160a~c、MME162、SGW164、PGW166、gNB180a~c、AMF182a~b、UPF184a~b、SMF183a~b、DN185a~b、及び/又は本明細書に説明される任意の他のデバイスのうちの1つ以上に関する、本明細書に説明される機能のうちの1つ以上又は全ては、1つ以上のエミュレーションデバイス(図示せず)によって実行され得る。エミュレーションデバイスは、本明細書に説明される機能の1つ以上又は全てをエミュレートするように構成された1つ以上のデバイスであり得る。例えば、エミュレーションデバイスを使用して、他のデバイスを試験し、かつ/又はネットワーク及び/若しくはWTRU機能をシミュレートし得る。
エミュレーションデバイスは、ラボ環境及び/又はオペレータネットワーク環境における他のデバイスの1つ以上の試験を実装するように設計され得る。例えば、1つ以上のエミュレーションデバイスは、通信ネットワーク内の他のデバイスを試験するために、有線及び/又は無線通信ネットワークの一部として完全に若しくは部分的に実装され、かつ/又は展開されている間、1つ以上若しくは全ての機能を実行し得る。1つ以上のエミュレーションデバイスは、有線及び/又は無線通信ネットワークの一部として一時的に実装/展開されている間、1つ以上若しくは全ての機能を実行し得る。エミュレーションデバイスは、試験を目的として別のデバイスに直接結合され得、かつ/又は地上波無線通信を使用して試験を実行し得る。
1つ以上のエミュレーションデバイスは、有線及び/又は無線通信ネットワークの一部として実装/展開されていない間、全てを含む1つ以上の機能を実行し得る。例えば、エミュレーションデバイスは、1つ以上のコンポーネントの試験を実装するために、試験実験室での試験シナリオ、並びに/又は展開されていない(例えば、試験用の)有線及び/若しくは無線通信ネットワークにおいて利用され得る。1つ以上のエミュレーションデバイスは、試験機器であり得る。RF回路(例えば、1つ以上のアンテナを含み得る)を介した直接RF結合及び/又は無線通信は、データを送信する、かつ/又は受信するように、エミュレーションデバイスによって使用され得る。
本出願では、ツール、特徴、実施例、モデル、手法などを含む様々な態様について説明している。これらの態様のうちの多くは、具体的に説明され、少なくとも個々の特性を示すために、しばしば限定的に聞こえ得るように説明される。しかしながら、これは、説明を明確にすることを目的としており、それらの態様の適用又は範囲を限定するものではない。実際、異なる態様の全てが組み合わされ、交換されて、更なる態様を提供し得る。その上、態様は、同様に、先の出願に説明される態様と組み合わされ、かつ交換され得る。
本出願において説明及び企図される態様は、多くの異なる形態で実装され得る。本明細書に説明される図5~図15は、いくつかの実施例を提供し得るが、他の実施例も企図される。図5~図15の考察は、実装形態の範囲を限定するものではない。態様のうちの少なくとも1つは、概して、ビデオ符号化及び復号に関し、少なくとも1つの他の態様は、概して、生成又は符号化されたビットストリームを送信することに関する。これら及び他の態様は、方法、装置、説明される方法のうちのいずれかに従ってビデオデータを符号化又は復号するための命令を記憶したコンピュータ可読記憶媒体、及び/又は説明される方法のうちのいずれかに従って生成されたビットストリームを記憶したコンピュータ可読記憶媒体として実装され得る。
本出願では、「再構成された(reconstructed)」及び「復号された(decoded)」という用語は、交換可能に使用され得、「ピクセル(pixel)」及び「サンプル(sample)」という用語は、交換可能に使用され得、「画像(image)」、「ピクチャ(picture)」、及び「フレーム(frame)」という用語は、交換可能に使用され得る。
様々な方法が本明細書に説明されており、本方法の各々は、説明された方法を達成するための1つ以上のステップ又はアクションを含む。ステップ又はアクションの特定の順序が方法の適切な動作のために必要とされない限り、特定のステップ及び/又はアクションの順序及び/又は使用は、修正又は組み合わされ得る。加えて、「第1の(first)」、「第2の(second)」などの用語は、様々な実施例において、例えば、「第1の復号(first decoding)」及び「第2の復号(second decoding)」などの要素、コンポーネント、ステップ、動作などを修正するために使用され得る。かかる用語の使用は、具体的に必要とされない限り、修正された動作に対する順序付けを意味するものではない。そのため、この実施例では、第1の復号は、第2の復号の前に実行される必要はなく、例えば、第2の復号の前、第2の復号の間、又は第2の復号と重複する時間中に発生し得る。
本出願に記載の様々な方法及び他の態様は、図2及び図3に示すように、ビデオエンコーダ200及びデコーダ300のモジュール、例えば、復号モジュールを修正するために使用され得る。その上、本明細書で開示される主題は、例えば、標準又は推奨に記載されているかどうかにかかわらず、既存の又は将来開発されるかどうかにかかわらず、任意のタイプ、形式、又はバージョンのビデオコーディング、並びに任意のかかる標準及び推奨の拡張に適用され得る。別段の指示がない限り、又は技術的に除外されない限り、本出願に記載の態様は、個々に又は組み合わせて使用され得る。
本出願に説明される実施例では、ビット数、ビット深度など、様々な数値が使用される。これら及び他の特定の値は、例を説明するためのものであり、説明する態様は、これらの特定の値に限定されない。
図2は、例示的なビデオエンコーダを示す図である。例示的なエンコーダ200の変形例が企図されるが、エンコーダ200は、全ての予想される変形例を説明することなく、明確にする目的で以下に記載される。
ビデオシーケンスは、符号化される前に、符号化前処理201、例えば、入力カラーピクチャに色変換を適用すること(例えば、RGB4:4:4からYCbCr4:2:0への変換)、又は圧縮に対してより耐性のある信号分布を得るために入力ピクチャコンポーネントの再マッピングを実行すること(例えば、色成分の1つのヒストグラム等化を使用する)を経得る。メタデータは、その前処理と関連付けられ、ビットストリームに添付され得る。
エンコーダ200では、以下に説明されるように、ピクチャは、エンコーダ要素によって符号化される。符号化されるピクチャは、分割され202、例えば、コーディングユニット(coding unit、CU)の単位で処理される。各単位は、例えば、イントラモード又はインターモードのいずれかを使用して符号化される。ユニットがイントラモードで符号化される場合、このユニットは、イントラ予測を実行する260。インターモードでは、動き推定275及び動き補償270を実行する。エンコーダは、ユニットを符号化するためにイントラモード又はインターモードのどちらを使用すべきかを決定205し、例えば、予測モードフラグによって、イントラ/インターの決定を示す。例えば、元画像ブロックから予測ブロックを減算210することによって、予測残差を計算する。
次に、この予測残差を変換225し、量子化する230。量子化後の変換係数、並びに動きベクトル及び他の構文要素をエントロピコーディング245して、ビットストリームを出力する。エンコーダは、変換をスキップし、量子化を非変換残差信号に直接適用することができる。エンコーダは、変換及び量子化の両方をバイパスすることができ、すなわち、残差は、変換プロセス又は量子化プロセスを適用することなく直接コーディングされる。
エンコーダは、符号化されたブロックを復号して、更なる予測のための参照を提供する。量子化後の変換係数を逆量子化240し、逆変換250して、予測残差を復号する。復号後の予測残差と予測ブロックとを組み合わせて255、画像ブロックを再構成する。ループ内フィルタ265を再構成後のピクチャに適用して、例えば、符号化アーチファクトを低減するための非ブロック化/SAO(サンプル適応オフセット)フィルタリングを実行する。フィルタリングされた画像は、参照ピクチャバッファ(280)に記憶される。
図3は、ビデオデコーダの実施例を示す図である。例示的なデコーダ300では、ビットストリームは、以下に説明されるように、デコーダ要素によって復号される。ビデオデコーダ300は、図2に説明されるように、一般に、符号化パスとは逆の復号パスを実行する。エンコーダ200も又、概して、ビデオデータを符号化することの一部としてビデオ復号を実行する。
特に、デコーダの入力は、ビデオビットストリームを含み、ビデオエンコーダ200によって生成され得る。最初に、ビットストリームをエントロピ復号330して、変換係数、動きベクトル、及び他のコーディングされた情報を取得する。ピクチャ分割情報は、ピクチャがどのように分割されているかを示す。したがって、デコーダは、復号後のピクチャ分割情報に従って、ピクチャを分割する335ことができる。変換係数を逆量子化340し、逆変換350して、予測残差を復号する。復号後の予測残差と予測ブロックとを組み合わせて355、画像ブロックを再構成する。予測されたブロックは、イントラ予測360から又は動き補償予測(すなわち、インター予測)375から取得され得る370。ループ内フィルタ365を、再構成後の画像に適用する。フィルタ処理後の画像を参照ピクチャバッファに記憶する380。
復号されたピクチャは、復号後処理385、例えば、逆カラー変換(例えば、YCbCr4:2:0からRGB4:4:4への変換)、又は符号化前処理201において実行された再マッピングプロセスの逆を実行する逆再マッピングを更に経ることができる。復号後処理は、符号化前処理において導出され、ビットストリームにおいてシグナリングされたメタデータを使用することができる。実施例では、復号された画像(例えば、復号後処理が使用される場合、ループ内フィルタ365の適用後及び/又は復号後処理385の後)は、ユーザへのレンダリングのためにディスプレイデバイスに送信され得る。
図4は、本明細書に説明される様々な態様及び実施例が実装され得るシステムの実施例を示す図である。システム400は、以下に説明される様々なコンポーネントを含むデバイスとして具体化され得、本明細書に説明される態様のうちの1つ以上を実行するように構成されている。かかるデバイスの実施例としては、これらに限定されないが、パーソナルコンピュータ、ラップトップコンピュータ、スマートフォン、タブレットコンピュータ、デジタルマルチメディアセットトップボックス、デジタルテレビ受信機、パーソナルビデオ記録システム、コネクテッド家電、及びサーバなどの様々な電子デバイスが挙げられる。システム400の要素は、単独で、又は組み合わせて、単一の集積回路(IC)、複数のIC、及び/又は別個のコンポーネントに具現化され得る。例えば、少なくとも1つの実施例では、システム400の処理及びエンコーダ/デコーダ要素は、複数のIC及び/又は別個のコンポーネントにわたって分散される。様々な実施例では、システム400は、例えば、通信バスを介して、又は専用の入力ポート及び/若しくは出力ポートを通じて、1つ以上の他のシステム又は他の電子デバイスに通信可能に結合される。様々な実施例では、システム400は、本明細書に説明される態様のうちの1つ以上を実装するように構成されている。
システム400は、例えば、本明細書に説明される様々な態様を実装するために、それ自体にロードされた命令を実行するように構成された少なくとも1つのプロセッサ410を含む。プロセッサ410は、埋め込みメモリ、入出力インターフェース、及び当該技術分野において知られている様々な他の回路を含むことができる。システム400は、少なくとも1つのメモリ420(例えば、揮発性メモリデバイス及び/又は不揮発性メモリデバイス)を含む。システム400は、記憶デバイス440を含み、これは、不揮発性メモリ及び/又は揮発性メモリを含むことができ、これらのメモリとしては、電気的消去可能なプログラマブル読み出し専用メモリ(Electrically Erasable Programmable Read-Only Memory、EEPROM)、読み出し専用メモリ(ROM)、プログラマブル読み出し専用メモリ(Programmable Read-Only Memory、PROM)、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(Dynamic Random Access Memory、DRAM)、スタティックランダムアクセスメモリ(Static Random Access Memory、SRAM)、フラッシュ、磁気ディスクドライブ、及び/又は光ディスクドライブが挙げられるが、これらに限定されない。記憶デバイス440は、非限定的な例として、内部記憶デバイス、付属記憶デバイス(取り外し可能及び取り外し不可能な記憶デバイスを含む)、及び/又はネットワークアクセス可能な記憶デバイスを含むことができる。
システム400は、例えば、符号化されたビデオ又は復号されたビデオを提供するためにデータを処理するように構成されたエンコーダ/デコーダモジュール430を含み、エンコーダ/デコーダモジュール430は、それ自体のプロセッサ及びメモリを含むことができる。エンコーダ/デコーダモジュール430は、符号化機能及び/又は復号機能を実行するためにデバイス内に含まれ得るモジュールを表す。既知であるように、デバイスは、符号化モジュール及び復号モジュールのうちの一方又は両方を含むことができる。加えて、エンコーダ/デコーダモジュール430は、システム400の別個の要素として実装され得るか、又は当業者に知られているように、ハードウェアとソフトウェアの組み合わせとしてプロセッサ410内に組み込まれ得る。
本明細書に説明される様々な態様を実行するためにプロセッサ410又はエンコーダ/デコーダ430にロードされるプログラムコードは、記憶デバイス440に記憶され、その後、プロセッサ410による実行のためにメモリ420上にロードされ得る。様々な実施例によれば、プロセッサ410、メモリ420、記憶デバイス440、及びエンコーダ/デコーダモジュール430のうちの1つ以上は、本明細書に説明されるプロセスの実行中に様々なアイテムのうちの1つ以上を記憶することができる。かかる格納されたアイテムは、これらに限定されないが、入力ビデオ、復号されたビデオ、又は復号されたビデオの部分、ビットストリーム、マトリックス、変数、並びに、方程式、式、動作、及び動作論理の処理からの中間結果又は最終結果を含むことができる。
いくつかの実施例では、プロセッサ410及び/又はエンコーダ/デコーダモジュール430の内部のメモリは、命令を記憶し、符号化又は復号中に必要な処理のための作業メモリを提供するために使用される。ただし、他の実施例では、処理デバイスの外部のメモリ(例えば、処理デバイスは、プロセッサ410又はエンコーダ/デコーダモジュール430のいずれかであり得る)が、これらの機能のうちの1つ以上のために使用される。外部メモリは、メモリ420及び/又は記憶デバイス440、例えば、ダイナミック揮発性メモリ及び/又は不揮発性フラッシュメモリであり得る。いくつかの実施例では、外部不揮発性フラッシュメモリが、例えば、テレビのオペレーティングシステムを記憶するために使用される。少なくとも1つの実施例では、RAMなどの高速外部ダイナミック揮発性メモリが、ビデオ符号化及び復号動作のためのワーキングメモリとして使用される。
システム400の要素への入力は、ブロック445に示されるように、様々な入力デバイスを通して提供され得る。かかる入力デバイスとしては、これらに限定されないが、(i)例えば、放送局によって地上波で送信されるRF信号を受信する無線周波数(radio frequency、RF)部分、(ii)コンポーネント(COMP)入力端子(又は一組のCOMP入力端子)、(iii)ユニバーサルシリアルバス(USB)入力端子、及び/又は(iv)高解像度マルチメディアインターフェース(High Definition Multimedia Interface、HDMI)入力端子が挙げられる。図4に示されていない他の実施例は、コンポジットビデオを含む。
様々な実施例では、ブロック445の入力デバイスは、当該技術分野で知られているように、関連付けられたそれぞれの入力処理要素を有する。例えば、RF部分は、(i)所望の周波数を選択すること(信号を選択すること、又は信号をある帯域の周波数に帯域制限することとも称される)、(ii)選択された信号をダウンコンバートすること、(iii)(例えば)ある特定の実施例ではチャネルと称され得る信号周波数帯域を選択するために、より狭い周波数帯域に再び帯域制限すること、(iv)ダウンコンバートされ帯域制限された信号を復調することと、(v)誤り訂正を実行すること、及び/又は(vi)所望のデータパケットストリームを選択するために逆多重化することと、に好適な要素と関連付けられ得る。様々な実施例のRF部分は、これらの機能を実行するための1つ以上の要素、例えば、周波数セレクタ、信号セレクタ、帯域リミッタ、チャネルセレクタ、フィルタ、ダウンコンバータ、復調器、誤り訂正器、及び多重分離器を含む。RF部分は、様々なこれらの機能を実行するチューナを含むことができ、例えば、受信した信号をより低い周波数(例えば、中間周波数又は近ベースバンド周波数)に又はベースバンドにダウンコンバートすることを含む。1つのセットトップボックスの実施例では、RF部分及びその関連付けられた入力処理要素は、有線(例えば、ケーブル)媒体によって送信されたRF信号を受信し、フィルタ処理、ダウンコンバート、及び所望の周波数帯域への再度のフィルタ処理によって周波数選択を実行する。様々な実施例は、上で説明される(及び他の)要素の順序を再配列し、これらの要素のいくつかを除去し、並びに/又は他の要素を追加して、類似の機能若しくは異なる機能を実行する。要素を追加することは、例えば、増幅器及びアナログ-デジタル変換器を挿入するなど、既存の要素間に要素を挿入することを含み得る。様々な実施例では、RF部分は、アンテナを含む。
USB端子及び/又はHDMI端子は、システム400をUSB接続及び/又はHDMI接続を介して他の電子デバイスに接続するためのそれぞれのインターフェースプロセッサを含むことができる。入力処理の様々な態様、例えば、リードソロモン誤り訂正は、例えば、必要に応じて、別個の入力処理IC内又はプロセッサ410内に実装され得ることを理解されたい。同様に、USB又はHDMIインターフェース処理の態様は、必要に応じて、別個のインターフェースIC内又はプロセッサ410内に実装され得る。例えば、プロセッサ410、並びにメモリ及び記憶要素と組み合わせて動作するエンコーダ/デコーダ430を含む様々な処理要素に、復調され、誤差訂正され、逆多重化されたストリームを提供して、出力デバイス上に提示するために、必要に応じて、データストリームを処理する。
システム400の様々な要素は、統合型ハウジング内に提供され得る。統合型ハウジング内では、様々な要素が相互接続され、好適な接続配列425、例えば、Inter-IC(I2C)バス、配線、及びプリント回路基板を含む当該技術分野で知られている内部バスを使用して、それらの間でデータを送信し得る。
システム400は、通信チャネル460を介して他のデバイスとの通信を可能にする通信インターフェース450を含む。通信インターフェース450は、通信チャネル460によってデータを送信及び受信するように構成されたトランシーバを含むことができるが、これに限定されない。通信インターフェース450は、モデム又はネットワークカードを含むことができるが、これに限定されず、通信チャネル460は、例えば、有線及び/又は無線媒体内に実装され得る。
データは、様々な実施例において、Wi-Fiネットワーク、例えば、IEEE802.11(IEEEは、the Institute of Electrical and Electronics Engineersを指す)などの無線ネットワークを使用して、システム400にストリーミングされるか、又は他の方法で提供される。これらの実施例のWi-Fi信号は、Wi-Fi通信用に適合された通信チャネル460及び通信インターフェース450を介して受信される。これらの実施例の通信チャネル460は、典型的には、ストリーミングアプリケーション及び他のオーバートップ通信を可能にするためにインターネットを含む外部ネットワークへのアクセスを提供するアクセスポイント又はルータに接続される。他の実施例は、入力ブロック445のHDMI接続によってデータを提供するセットトップボックスを使用して、ストリーミングされたデータをシステム400に提供する。更に他の実施例は、入力ブロック445のRF接続を使用して、ストリーミングされたデータをシステム400に提供する。上記のように、様々な実施例は、非ストリーミング方式でデータを提供する。加えて、様々な実施例は、Wi-Fi以外の無線ネットワーク、例えば、セルラーネットワーク又はBluetooth(登録商標)ネットワークを使用する。
システム400は、ディスプレイ475、スピーカ485、及び他の周辺デバイス495を含む様々な出力デバイスに出力信号を提供することができる。様々な実施例のディスプレイ475は、例えば、タッチスクリーンディスプレイ、有機発光ダイオード(organic light-emitting diode、OLED)ディスプレイ、湾曲ディスプレイ、及び/又は折り畳み式ディスプレイのうちの1つ以上を含む。ディスプレイ475は、テレビ、タブレット、ラップトップ、携帯電話(モバイルフォン)、又は他のデバイスのためのものであり得る。ディスプレイ475はまた、他のコンポーネントと統合することができる(例えば、スマートフォンのように)か、又は別個にすることもできる(例えば、ラップトップ用の外部モニタ)。他の周辺デバイス495は、様々な実施例において、スタンドアロンデジタルビデオディスク(若しくはデジタル多用途ディスク)(両方の用語についてDVD)、ディスクプレーヤ、ステレオシステム、及び/又は照明システムのうちの1つ以上を含む。様々な実施例は、システム400の出力に基づいて機能を提供する1つ以上の周辺デバイス495を使用する。例えば、ディスクプレーヤは、システム400の出力を再生する機能を実行する。
様々な実施例では、制御信号は、AV.Link、コンシューマエレクトロニクス制御(Consumer Electronics Control、CEC)、又はユーザ介入の有無を問わずデバイス間の制御を可能にする他の通信プロトコルなどのシグナリングを使用して、システム400とディスプレイ475、スピーカ485、又は他の周辺デバイス495との間で通信される。出力デバイスは、それぞれのインターフェース470、480、及び490を通じた専用接続を介してシステム400に通信可能に結合され得る。代替的に、出力デバイスは、通信インターフェース450を介し、通信チャネル460を使用して、システム400に接続され得る。ディスプレイ475及びスピーカ485は、例えば、テレビなどの電子デバイス内のシステム400の他のコンポーネントと単一のユニットに統合され得る。様々な実施例では、ディスプレイインターフェース470は、例えば、タイミングコントローラ(timing controller、TCon)チップなどのディスプレイドライバを含む。
ディスプレイ475及びスピーカ485は、代替的に、例えば、入力445のRF部分が別個のセットトップボックスの一部分である場合、他のコンポーネントのうちの1つ以上とは別個であり得る。ディスプレイ475及びスピーカ485が外部コンポーネントである様々な実施例では、出力信号は、例えば、HDMIポート、USBポート、又はCOMP出力を含む専用の出力接続を介して提供され得る。
これらの実施例は、プロセッサ410によって、又はハードウェアによって、又はハードウェア及びソフトウェアの組み合わせによって実装されるコンピュータソフトウェアによって実行され得る。非限定的な実施例として、これらの実施例は、1つ以上の集積回路によって実装され得る。メモリ420は、技術環境に適切な任意のタイプであり得、非限定的な例として、光メモリデバイス、磁気メモリデバイス、半導体ベースのメモリデバイス、固定メモリ、及びリムーバブルメモリなどの任意の適切なデータ記憶技術を使用して実装され得る。プロセッサ410は、技術環境に適切な任意のタイプのものであり得、非限定的な例として、マイクロプロセッサ、汎用コンピュータ、専用コンピュータ、及びマルチコアアーキテクチャに基づくプロセッサのうちの1つ以上を包含することができる。
様々な実装形態は、復号することを含む。本出願で使用する際、「復号」は、例えば、ディスプレイに好適な最終出力をもたらすために、受信した符号化されたシーケンスに対して実行されるプロセスの全て又は一部を包含することができる。様々な実施例では、かかるプロセスは、典型的には、デコーダによって実行されるプロセス、例えば、エントロピ復号、逆量子化、逆変換、及び差分復号のうちの1つ以上を含む。様々な実施例では、そのようなプロセスは、同じく、又は代替的に、本出願に説明される様々な実装形態のデコーダによって実行されるプロセス、例えば、逆量子化、逆変換、並びに現在コーディングブロックについて、ニューラルネットワークベースの予測モード及びブロックコンテキストを表す情報を取得すること、ブロックコンテキスト及びニューラルネットワークベースの予測モードに基づいて現在コーディングブロックについてのニューラルネットワークベースの予測子を生成すること、生成されたニューラルネットワークベースの予測子に対応する非ニューラルネットワークベースのイントラ予測モードを決定すること、非ニューラルネットワークベースのイントラ予測モードに基づいて隣接ブロックについての予測モードを決定することなどを含む。
更なる実施例として、一実施例では、「復号(decoding)」はエントロピ復号のみを指し、別の実施例では、「復号(decoding)」は、差分復号のみを指し、別の実施例では、「復号(decoding)」は、エントロピ復号及び差分復号の組み合わせを指す。「復号プロセス」という句が、具体的に動作のサブセットを指すか、又は全体としてより広範な復号プロセスを指すことを意図するものであるかは、具体的な説明の背景に基づいて明らかになり、当業者によって十分に理解されると考えられる。
様々な実装形態は、符号化することを含む。「復号(decoding)」に関する上記の考察と同様に、本出願で使用される「符号化(encoding)」は、例えば、符号化されたビットストリームを作り出すために入力ビデオシーケンスに対して実行されるプロセスの全て又は一部を包含することができる。様々な実施例では、かかるプロセスは、典型的には、エンコーダによって実行されるプロセス、例えば、分割、差動符号化、変換、量子化、及びエントロピ符号化のうちの1つ以上を含む。様々な実施例では、かかるプロセスは、また、又は代替的に、本出願に説明される様々な実装形態のエンコーダによって実行されるプロセス、例えば、量子化、変換を実行すること、並びに現在コーディングブロックについて、ニューラルネットワークベースの予測モード及びブロックコンテキストを表す情報を取得すること、ブロックコンテキスト及びニューラルネットワークベースの予測モードに基づいて現在コーディングブロックについてのニューラルネットワークベースの予測子を生成すること、生成されたニューラルネットワークベースの予測子に対応する非ニューラルネットワークベースのイントラ予測モードを決定すること、非ニューラルネットワークベースのイントラ予測モードに基づいて隣接ブロックについての予測モードを決定することなどを含む。
更なる実施例として、一実施例では、「符号化(encoding)」は、エントロピ符号化のみを指し、別の実施例では、「符号化(encoding)」は、差分符号化のみを指し、別の実施例では、「符号化(encoding)」は、差分符号化及びエントロピ符号化の組み合わせを指す。「符号化プロセス」という句が、具体的に動作のサブセットを指すか、又は全体としてより広範な符号化プロセスを指すことを意図するものであるかは、具体的な説明の背景に基づいて明らかになり、当業者によって十分に理解されると考えられる。
本明細書で使用されるシンタックス要素、例えば、イントラ予測モードインデックス、確率、ブロックコンテキストなどに関するコーディングシンタックスは、説明的用語であることに留意されたい。したがって、これらは他のシンタックス要素名の使用を排除するものではない。
図がフローチャートとして提示されている場合、その図は対応する装置のブロック図も提供するものと理解されたい。同様に、図がブロック図として提示されている場合、その図は対応する方法/プロセスのフローチャートも提供するものと理解されたい。
本明細書に説明される実装形態及び態様は、例えば、方法又はプロセス、装置、ソフトウェアプログラム、データストリーム、又は信号において実装され得る。たとえ単一の形態の実装形態の文脈でのみ考察される場合でも(例えば、方法としてのみ考察される)、考察された特徴の実装形態は、他の形態(例えば、装置又はプログラム)でも実装することができる。装置は、例えば、適切なハードウェア、ソフトウェア、及びファームウェアで実装され得る。本方法は、例えば、プロセッサで実装され得るが、プロセッサは、一般に処理デバイスを指し、例えば、コンピュータ、マイクロプロセッサ、集積回路、又はプログラマブル論理デバイスが含まれる。プロセッサには、例えば、エンドユーザ間の情報の通信を容易にする、コンピュータ、携帯電話、ポータブル/携帯情報端末(「Personal Digital Assistant、PDA」)などのデバイスなどの通信デバイスも含まれる。
「一実施例(one example)」若しくは「実施例(an example)」又は「一実装形態(one implementation)」若しくは「実装形態(an implementation)」、並びにそれらの他の変形例への言及は、実施例に関連して説明される特定の特徴、構造、特性などが少なくとも1つの実施例に含まれることを意味する。そのため、本出願全体を通して様々な場所に現れる「一実施例では(in one example)」若しくは「実施例では(in an example)」又は「一実装形態では(in one implementation)」若しくは「実装形態では(in an implementation)」という句、並びに任意の他の変形例の出現は、必ずしも全てが同じ実施例を指すとは限らない。
加えて、本出願は、様々な情報を「判定すること」に言及し得る。情報を判定することは、例えば、情報を推定すること、情報を計算すること、情報を予測すること、又は情報をメモリから取り出すことのうちの1つ以上を含むことができる。取得することは、受信すること、取り出すこと、構築すること、生成すること、及び/又は判定することを含み得る。
更に、本出願は、様々な情報に「アクセスすること」に言及し得る。情報にアクセスすることは、例えば、情報を受信すること、(例えば、メモリから)情報を取得すること、情報を記憶すること、情報を移動すること、情報をコピーすること、情報を計算すること、情報を判定すること、情報を予測すること、又は情報を推定することのうちの1つ以上を含むことができる。
加えて、本出願は、様々な情報を「受信すること」に言及し得る。受信することは、「アクセスすること」と同様に、広義の用語であることを意図している。情報を受信することは、例えば、情報にアクセスすること、又は(例えば、メモリから)情報を取得することのうちの1つ以上を含むことができる。更に、「受信すること」は、典型的には、例えば、情報を記憶する、情報を処理する、情報を送信する、情報を移動する、情報をコピーする、情報を消去する、情報を計算する、情報を判定する、情報を予測する、又は情報を推定するなどの操作時に、何とかして関与する。
例えば、「A/B」、「A及び/又はB(A and/or B)」及び「A及びBのうちの少なくとも1つ(at least one of A and B)」の場合、次の「/」、「及び/又は(and/or)」、及び「のうちの少なくとも1つ(at least one of)」のいずれかの使用は、第1のリストされた選択肢(A)のみの選択、又は第2のリストされた選択肢(B)のみの選択、又は両方の選択肢(A及びB)の選択を包含することが意図されていることを理解されるべきである。更なる実施例として、「A、B、及び/又はC(A,B,and/or C)」及び「A、B、及びCのうちの少なくとも1つ(at least one of A,B,and C)」の場合、かかる表現は、第1のリストされた選択肢(A)のみの選択、又は第2のリストされた選択肢(B)のみの選択、又は第3のリストされた選択肢(C)のみの選択、又は第1及び第2のリストされた選択肢(A及びB)のみの選択、又は第1及び第3のリストされた選択肢(A及びC)のみの選択、又は第2及び第3のリストされた選択肢のみの選択(B及びC)のみ、又は3つ全ての選択肢の選択(A及びB及びC)を包含することが意図される。このことは、当該技術分野及び関連技術分野の当業者に明らかであるように、リストされたアイテムの数だけ拡張され得る。
また、本明細書で使用されるとき、「シグナリングする」という語は、特に、対応するデコーダに対して何かを示すことを指す。エンコーダ信号は、例えば、予測モードなどを使用するブロックのための入力に対する符号化関数を含み得る。このようにして、一実施例では、同じパラメータがエンコーダ側とデコーダ側の両方で使用される。したがって、例えば、エンコーダは、デコーダが同じ特定のパラメータを使用することができるように、特定のパラメータをデコーダに送信することができる(明示的シグナリング)。逆に、デコーダが既に特定のパラメータ並びに他のパラメータを有する場合、シグナリングを使用して、送信(暗黙的なシグナリング)することなく、単にデコーダが特定のパラメータを知り選択することを可能にし得る。あらゆる実際の機能の送信を回避することによって、様々な実施例においてビット節約が実現される。シグナリングは、様々な方式で達成され得ることが理解されるべきである。例えば、様々な実施例では、1つ以上のシンタックス要素、フラグなどを使用して、対応するデコーダに情報をシグナリングする。上記は、「信号」という語の動詞形に関連し、「信号」という語は、本明細書では名詞としても使用され得る。
当業者には明らかであるように、実装形態は、例えば、記憶又は送信され得る情報を搬送するようにフォーマットされた様々な信号を生成し得る。情報は、例えば、方法を実行するための命令、又は説明されている実装形態の1つによって生成されるデータを含むことができる。例えば、信号は、説明される実施例のビットストリームを搬送するようにフォーマットされ得る。かかる信号は、例えば、(例えば、スペクトルの無線周波数部分を使用して)電磁波として、又はベースバンド信号としてフォーマットされ得る。フォーマットすることは、例えば、データストリームを符号化し、符号化されたデータストリームで搬送波を変調することを含み得る。信号が搬送する信号は、例えば、アナログ情報又はデジタル情報であり得る。信号は、知られているように、様々な異なる有線又は無線リンクによって送信され得る。信号は、プロセッサ可読媒体に記憶されるか、プロセッサ可読媒体からアクセス若しくは受信され得る。
多くの実施例が、本明細書に説明されている。実施例の特徴は、様々な特許請求のカテゴリ及びタイプにわたって単独で又は任意の組み合わせで提供され得る。更に、実施例は、本明細書に説明される特徴、デバイス、又は態様のうちの1つ以上を、単独で又は任意の組み合わせで、様々な特許請求のカテゴリ及びタイプにわたって含み得る。例えば、本明細書に説明される特徴は、本明細書に説明されるように生成された情報を含むビットストリーム又は信号に実装され得る。情報により、デコーダが、説明される実施形態のいずれかに従って、ビットストリーム、エンコーダ、ビットストリーム、及び/又はデコーダを復号することが可能になり得る。例えば、本明細書に記載の特徴は、ビットストリーム又は信号を作成及び/又は送信及び/又は受信及び/又は受信及び/又は復号することによって実装され得る。例えば、本明細書に記載の特徴が実装され得、方法、プロセス、装置、データを記憶する媒体、命令を記憶する媒体、又は信号。例えば、本明細書に記載の特徴は、TV、セットトップボックス、携帯電話、タブレット、又は復号を実行する他の電子デバイスによって実装され得る。TV、セットトップボックス、携帯電話、タブレット、又は他の電子デバイスは、結果として得られる画像(例えば、ビデオビットストリームの残差再構成からの画像)を(例えば、モニタ、スクリーン、又は他のタイプのディスプレイを使用して)表示し得る。TV、セットトップボックス、携帯電話、タブレット、又は他の電子デバイスは、符号化された画像を含む信号を受信し、復号を実行し得る。
ブロックベースのビデオコーデックにおけるニューラルネットワークベースのイントラ予測モードがシグナリングされ得る。通常イントラ予測モードは、65の指向性イントラ予測モード、PLANARモード及びDCモードなどの非指向性モード、マトリックスベースのイントラ予測(matrix-based intra prediction、MIP)モードなどの非ニューラルネットワークベースのイントラ予測モードを指す場合がある。相互作用は、現在ブロックを予測するために選択されたイントラ予測モードと、現在ブロックを囲むブロック(例えば、現在ブロックの隣接ブロック)を予測するために選択されたイントラ予測モードとの間の相互作用を意味し得る。相互作用は、現在ブロックを予測するために選択されたイントラ予測モードのシグナリングコストが、現在ブロックの周りのブロックを予測するために選択されたイントラ予測モードによってどのように影響され得るかに関係し得る。
ニューラルネットワークベースのイントラ予測モードと関連付けられたニューラルネットワークは、現在ブロックのニューラルネットワーク予測を表す(例えば、最もよく表す)通常イントラ予測モード(例えば、非ニューラルネットワークイントラ予測モード)を決定する(例えば、そのインデックスを推測する)際に訓練され得る。例えば、ニューラルネットワークベースの予測子は、ブロックコンテキスト及びニューラルネットワークベースのイントラ予測モードに基づいて、現在ブロックについて生成され得る。ニューラルネットワークベースのイントラ予測モードによって予測されたブロックは、ニューラルネットワーク予測を最もよく表す通常イントラ予測モードのインデックスを介して表され得る。例えば、MPMのリストの導出が、現在ルミナンスCBを予測するために選択されたイントラ予測モードをシグナリングするために使用される場合、導出は、現在ルミナンスCBに隣接するルミナンスCB(例えば、隣接ルミナンスCB)を予測するとき、ニューラルネットワークベースのイントラ予測モードによって推測された通常イントラ予測モードインデックスを使用し得る(例えば、非ニューラルネットワークベースのイントラ予測モードのインデックスが、導出されたMPMリストに追加され得る)。
ニューラルネットワークベースのイントラ予測モードに属するニューラルネットワークは、現在ブロックのニューラルネットワーク予測を表す(例えば、最もよく表す)複数(例えば、k個)の通常イントラ予測モードのインデックスを推測する際に訓練され得る。ニューラルネットワークベースのイントラ予測モードと関連付けられたニューラルネットワークは、通常イントラ予測モード(例えば、各通常イントラ予測モード)が現在ブロックのニューラルネットワーク予測(例えば、生成されたニューラルネットワークベースの予測子)をどのように(例えば、どれだけ良好に)表すかに基づいて、ランク付けにおいて訓練され得る。ニューラルネットワークベースのイントラ予測モードによって予測されたブロックは、例えば、k個の推測されたインデックスを介して表され得る。例えば、現在ルミナンスCBを予測するために選択されたイントラ予測モードをシグナリングするために、MPMのリストが使用される場合、ニューラルネットワークベースのイントラ予測モードを使用して、複数の非ニューラルネットワークベースのイントラ予測モードインデックス(例えば、k個の通常イントラ予測モードインデックス)が推測され得る。例えば、インデックスは、現在ルミナンスCBに隣接するルミナンスCB(例えば、隣接ルミナンスCB)を予測するとき、導出されたMPMリストに追加され得る。
機械学習ベースのイントラ予測モード及び通常イントラ予測モードは、ビデオコンテンツを符号化及び復号するときに使用され得る。機械学習ベースのイントラ予測モードインデックス(例えば、各機械学習ベースのイントラ予測モードインデックス)と通常イントラ予測モードインデックスとの間のマッピングは、例えば、機械学習ベースのイントラ予測モードと通常イントラ予測モードとの間の相互作用を容易にするために使用され得る。機械学習ベースのイントラ予測モードは、例えば、機械学習ベースのイントラ予測モードと通常のイントラ予測モードとの間の相互作用を容易にするために、無視及び/又は無効化され得る。
機械学習ベースのイントラ予測モードインデックス(例えば、各機械学習ベースのイントラ予測モードインデックス)と通常イントラ予測モードのインデックスとの間のマッピングが取得され得る。MIPモードは、例えば、MIPモードのマトリックスが学習される場合、機械学習ベースのイントラ予測モードのグループに属し得る。MIPモードは、エンコーダ側及び/又はデコーダ側で固定され得る。実施例では、マッピングは、例えば、現在ルミナンスCB(例えば、MPMのリストの導出における現在ルミナンスCB)より上に位置するか又は左側に位置するルミナンスCBを予測するために選択されたイントラ予測モードが、MIPモードである場合、MIPモードのインデックスを(例えば、MPMのリストの導出によって使用される)通常イントラ予測モードのインデックスに変えることができる。
以下の実施例では、PU:getIntraDirLumaの引数は、は予測ユニット(prediction unit、PU)(例えば、以下の実施例ではpuとして示される)であり得る。PUは、PUのコーディングユニット(coding unit、CU)と同等であり得る。実施例では、PU;getIntraDirLumaに供給されるPU(例えば、以下の実施例においてpuとして示される)は、現在ルミナンスCBより上に位置するか又は現在ルミナンスCBの左側に位置するルミナンスCBのCUのPUであり得る。MIPモードインデックス(例えば、各MIPモードインデックス)から通常イントラ予測モードのインデックスへのマッピングは、MIPモードインデックス(例えば、各MIPモードインデックス)からPLANARインデックスへのマッピングによって置き換えられ得る。
上記の実施例では、ファイルUnitTools.cppにおけるPU:getIntraDirLumaが提供され得る。isMipは、例えば、isMipの引数PU(例えば、上記の実施例ではpuとして示される)がMIPモードを介して予測される場合、真を返し得る。上記の実施例では、pu.intraDir[CHANNEL_TYPE_LUMA]は、(例えば、上記の実施例でpuとして示される)PUのルミナンス成分を予測するために選択されたイントラ予測モードのインデックスであり得る。上記の実施例では、g_mapMipToAngular65は、MIPモードインデックス(例えば、各MIPモードインデックス)から通常イントラ予測モードのインデックスへのマッピングであり得る。
上記の実施例は、線形及び/又はアフィン機械学習ベースのイントラ予測モードに適用され得る。機械学習ベースのイントラ予測モードインデックス(例えば、各機械学習ベースのイントラ予測モードインデックス)から通常イントラ予測モードのインデックスへのマッピング(例えば、固定マッピング)が構築され得る。
現在ルミナンスCBについて(例えば、MPMのリストの導出において)、例えば、現在ルミナンスCBより上に位置するルミナンスCBがニューラルネットワークベースのイントラ予測モードによって予測される場合、ニューラルネットワークベースのイントラ予測モードを介した予測と関連した情報は破棄され得る。MPMのリストの導出は、残りの情報に依存するように適合され得る。例えば、現在ルミナンスCBの左側に位置するルミナンスCBがニューラルネットワークベースのイントラ予測モードによって予測される場合、ニューラルネットワークベースのイントラ予測モードによる予測と関連した情報は無視され得る。MPMのリストの導出は、残りの情報に依存し得る。以下の実施例では、現在ルミナンスCBについて、例えば、L==A==NN_IDXである場合、MPMのデフォルトリストが導出され得る。2つの隣接ルミナンスCB(例えば、2つの隣接ルミナンスCBの各々)を予測するために選択されたイントラ予測モードのインデックスは、MPMのリストを導出するための情報を提供しない場合がある。
以下の実施例のセマンティクスは、以下を含み得る。
Lは、
Lは、
Aは、
offsetは、61の数値を示し得る。
modは、64の数値を示し得る。
NN_IDXは、ニューラルネットワークベースのイントラ予測モードのインデックス(例えば、72)を示し得る。及び
multiRefldxは、{0,1,2}に属し得る複数の基準線(MRL)インデックスであり得る。
MPMリストの初期化は、例えば、以下のように提供され得る。
上記の実施例では、ニューラルベースのイントラ予測モードは、現在ルミナンスCBを予測することができるニューラルネットワークを含み得る。例えば、ニューラルネットワークイントラ予測モードのフラグnnFlag特性を含む、S0と示されるイントラ予測モードシグナリングが使用され得、isSignaling0は、真として示され得る。そうでない場合、フラグnnFlagを含まない、S1と示されるイントラ予測モードシグナリングが使用され得、isSignaling0は、偽として示され得る。
上記の実施例では、現在ルミナンスCBについて、MPMのリストの導出は、例えば、隣接ルミナンスCB(例えば、2つの隣接CB)がニューラルネットワークベースのイントラ予測モードを介して予測される場合、あるルミナンスCBから後続のルミナンスCB(例えば、次のルミナンスCB)への選択された予測モードインデックスにおける相関を考慮しない(例えば、もはや考慮しない)場合がある。
クロミナンスにおけるニューラルネットワークベースのイントラ予測モードが、シグナリングされ得る。実施例では、ニューラルネットワークベースのイントラ予測モードは、ブロックベースのビデオコーデックにニューラルネットワークベースのイントラ予測モードを追加する場合、ルミナンスブロックに排他的に適用するように構築され得る。
ルミナンスブロック及びクロミナンスブロック(例えば、ルミナンスブロックとクロミナンスブロックの両方)のためのニューラルネットワークベースのモードが提供され得る。ルミナンスブロック及びクロミナンスブロック(例えば、ルミナンスブロックとクロミナンスブロックの両方)のためのニューラルネットワークモードと関連付けられたイントラ予測シグナリングが提供され得る。現在クロミナンスCBのイントラ予測シグナリングは、例えば、同じイントラ予測シグナリングを共有する現在CUのクロミナンスCB(例えば、2つのクロミナンスCB)を記述するために使用され得る。
ルミナンス及びクロミナンスにおけるニューラルネットワークベースのモードの統一されたシグナリングが提供され得る。実施例では、イントラ予測シグナリングは、ニューラルネットワークベースのイントラ予測モード(例えば、追加のニューラルネットワークベースのイントラ予測モード)がルミナンスブロックとクロミナンスブロックの両方に適用される場合、CUレベルでニューラルネットワークフラグを設定することを含み得る。現在CUについて、現在CU中の変換ユニット(TU)(例えば、ルミナンスTB及びクロミナンスTB)は、例えば、フラグが1に等しい場合、ニューラルネットワークベースのイントラ予測モードを選択し得る。ルミナンスとクロミナンスとの間の別個のツリー中のCUでは、ルミナンスにおけるローカルパーティショニングは、クロミナンスにおけるローカルパーティショニングとは異なり得る。
ダイレクトモード(direct mode、DM)を介したクロミナンスにおけるニューラルネットワークベースのモードのシグナリングが提供され得る。現在クロミナンスCBでは、ニューラルネットワークベースのイントラ予測モードを介した予測は、DMを介して(例えば、排他的にDMを介して)可能にされ得る。DMは、例えば、現在クロミナンスCBとコロケートされるルミナンスCBがニューラルネットワークベースのイントラ予測モードを介して予測される場合、例えば、エンコーダ側でクロミナンスにおけるレート歪み探索の候補であるニューラルネットワークベースのイントラ予測モードになり得る。
図5は、予測される矩形ブロックを囲むコンテキストの一例を示す図である。実施例では、ニューラルネットワークベースのイントラ予測モードにおいて、θH,Wによってパラメータ化されたニューラルネットワークfH,W(.;θH,W)は、W×HブロックYの周りの復号されたピクセル(例えば、デコーダ側では再構成されたピクセル、符号化側では既に符号化されたピクセルであり、両方とも現在CBYに隣接する)のコンテキストXを取り込んで(例えば取得して)、Yの予測を返し得る。
図6は、現在W×HクロミナンスCBに対するニューラルネットワークベースのイントラ予測モードのシグナリングの一例を示す図である。CBの左上ピクセルは、現在フレーム中の(x,y)に位置し得る。NN_IDXは、ニューラルネットワークベースのイントラ予測モードのインデックス(例えば、72)であり得る。現在W×HクロミナンスCBとコロケートされたルミナンスCBは、ニューラルネットワークベースのイントラ予測モードによって予測され得る。Tは、ブロックの高さ及び幅のペアのセットを示し得、例えば、ここで、各高さH及び幅Wについて、ニューラルネットワークベースのイントラ予測モードは、サイズW×Hのブロックを予測することができるニューラルネットワークを含み得る。例えば、左上ピクセルが現在フレーム中の(x,y)に位置する所与のW×HクロミナンスCBについて、例えば、クロミナンスCBとコロケートされたルミナンスCBがニューラルネットワークベースのイントラ予測モードによって予測され、(H,W)∈Tかつx≧nlかつy≧naである場合、DMは、ニューラルネットワークイントラ予測モードのインデックスになり得る。実施例では、DMは、PLANARに設定され得る。
現在ブロックのニューラルネットワーク予測を表す(例えば、最もよく表す)通常イントラ予測(例えば、非ニューラルネットワークイントラ予測モード)のインデックスが決定され得る。
図7は、エンコーダ側で現在ブロックのニューラルネットワーク予測(例えば、生成されたニューラルネットワークベースの予測子)を最もよく表す通常イントラ予測モード(例えば、非ニューラルネットワークベースのイントラ予測モード)のインデックスを推測する例を示している700。ニューラルネットワークベースのイントラ予測モードは、現在ブロックYに隣接するコンテキストX(例えば、コンテキストXは、ブロックYに隣接し、既に符号化されているピクセルであり得る)を取り込んで(例えば、取得して)、Yの予測(例えば、コンテキストXの隣接ピクセル上で潜在的なニューラルベースの予測モードをテストすることによって、ニューラルネットワークベースの予測子を生成する)
実施例では、ブロックベースのビデオコーデックは、m∈N*通常イントラ予測モード(例えば、非ニューラルネットワークベースのイントラ予測モード)を含み得る。所与のブロックについて、ニューラルネットワークベースのイントラ予測モードは、ベクトルP∈[0,1]mを(例えば、1つ以上の他の出力の中から返す(例えば、計算する)ことができ、このインデックスiの係数は、インデックスiの通常イントラ予測モード(例えば、非ニューラルネットワークベースのイントラ予測モード)がブロックのニューラルネットワーク予測を表す(例えば、最もよく表す)確率に対応し得る。実施例では、それぞれの非ニューラルネットワークベースのイントラ予測モード(例えば、非ニューラルネットワークベースのイントラ予測モード)と関連付けられた複数の確率(例えば、表現確率)が、ブロックコンテキスト(例えば、生成されたニューラルネットワークベースの予測子を最もよく表するモードがどれであるかを確認するために、隣接ピクセルに非ニューラルネットワークベースのイントラ予測モードを適用することによって)、及びニューラルネットワークベースの予測モードに基づいて取得(例えば、計算)され得る。Pから、ブロックのニューラルネットワーク予測(例えば、生成されたニューラルネットワークベースの予測子)に対応する(例えば、最もよく表す)通常イントラ予測モード(例えば、非ニューラルネットワークベースのイントラ予測モード)のインデックスrepIdx∈[|0,m-1|]が、選択(例えば、それぞれの非ニューラルネットワークベースのイントラ予測モードから選択)され得る。実施例では、通常イントラ予測モード(例えば、非ニューラルネットワークベースのイントラ予測モード)のサブセットについての確率が計算され得、非ニューラルネットワークベースのイントラ予測モードがサブセットから選択され得る。実施例では、ブロックがイントラ内で予測された隣接ブロック間の依存性に関与するとき、repIdxが代用として使用され得る。
本明細書に説明される方法、システム、及び手段は、符号化デバイス、図2に関して説明されるそのようなエンコーダ200の上で実装され得る。実施例では、ニューラルネットワークベースのイントラ予測モード705及び現在ブロックYのコンテキストXに基づいて、Yの予測
図8は、デコーダ側で現在ブロックのニューラルネットワーク予測(例えば、生成されたニューラルネットワークベースの予測子)を最もよく表す通常イントラ予測モード(例えば、非ニューラルネットワークベースのイントラ予測モード)のインデックスを推測する例を示している800。ニューラルネットワークベースのイントラ予測モードは、現在Yに隣接するコンテキストX(例えば、コンテキストXは、ブロックYに隣接し、既に再コンスタクトされているピクセルであり得る)を取り込んで(例えば、取得して)、Yの予測(例えば、コンテキストXの隣接ピクセル上で潜在的なニューラルベースの予測モードをテストすることによって、ニューラルネットワークベースの予測子を生成する)
本明細書に説明される方法、システム、及び手段は、図3に関して説明されるデコーダ300などの復号デバイス上で実装され得る。図8に示すように、Yの予測
図7及び図8に示されるように、例示的なブロックベースのビデオコーデックにおけるブロックについて、一次変換及び二次変換が適用され得る。実施例では、変換(例えば、一次変換、二次変換、及び三次変換)の組み合わせが適用され得る。
通常モードインデックスのセットのサブセット中の通常イントラ予測モードインデックスが推測され得る。実施例では、推測された通常イントラ予測モードインデックスは、例示的なブロックベースのビデオコーデックにおける通常イントラ予測モードインデックスのセットのサブセットに属し得る。例えば、card(S)=1となるように、S⊂[|0,m-1|]が提供され得る。例えば、図7及び図8では、P∈[0,1]l及びrepIdx∈Sである。
実施例では、S=[|0,66|]は、65個の方向イントラ予測モード、PLANAR及びDCのインデックスのセットを示し得る。実施例では、lは67に等しくなり得る。例えば、Sを除くイントラ予測モードインデックス(例えば、例示的なコーデックにおけるイントラ予測モードインデックス)のセットは、MIPモードインデックスのセットに等しくなり得る。
隣接ブロックのためのMPMは、(例えば、ニューラルネットワークベースの予測を使用して符号化/復号されると予測される)現在ブロックのために推測された非ニューラルネットワークベースのイントラ予測モードインデックスに基づいて導出され得る。例えば、生成されたニューラルネットワークベースの予測子に対応する(例えば、最もよく表す)非ニューラルネットワークベースのイントラ予測モードと関連付けられたインデックスが取得され得る。インデックスは、隣接ブロックのMPMリストに追加され得る。現在ルミナンスCBについて、現在ルミナンスCBより上に位置するルミナンスCBを予測するために選択されたイントラ予測モードのインデックスAの計算、及び現在ルミナンスCBの左側に位置するルミナンスCBを予測するために選択されたイントラ予測モードのインデックスLの計算は、次のような例で示され得る。
上の例において示されるように、現在ルミナンスCBより上に位置するルミナンスCBを予測するために選択されたイントラ予測モードのインデックスAの計算、及び現在ルミナンスCBの左側に位置するルミナンスCBを予測するために選択されたイントラ予測モードのインデックスLの計算が実行され得る。実施例では、A及びLは、例えば、計算(例えば、2つの計算)の後に、現在ルミナンスCBのためのMPMのリストを導出するために使用され得る。‘puLeft’は、左PUへのポインタであり得る。NULLにおける‘puLeft’は、現在ルミナンスCBの左側にPUがない(例えば、CUがない)ことを示し得る。‘puAbove’は、上のPUへの5月ポインタであり得る。NULLにおける‘puAbove’は、現在ルミナンスCBより上にPUがない(例えば、CUがない)ことを示し得る。NN_IDXは、ニューラルネットワークベースのイントラ予測モードのインデックスを示し得る。‘PU::getIntraDirLuma’は、引数PUのCUのルミナンスCBを予測するために選択されたイントラ予測モードのインデックスを返し得る。‘PU::getIntraDirLuma’は、例えば、引数PUのCUのルミナンスCBを予測するためにMIPモードが使用される場合、MIPモードインデックスをPLANAR_IDXに置き換え得る。実施例では、repIdxleft∈[|0,66|]は、例えば、ニューラルネットワークベースのイントラ予測モードが現在ルミナンスCBの左側のルミナンスCBを予測するために使用される場合、ニューラルネットワークベースのイントラ予測モードが推測する通常イントラ予測モードのインデックスを示し得る。実施例では、repIdxabove∈[|0,66|]は、例えば、ニューラルネットワークベースのイントラ予測モードが現在ルミナンスCBより上のルミナンスCBを予測する場合、ニューラルネットワークベースのイントラ予測モードが推測する通常イントラ予測モードのインデックスを示し得る。
ニューラルネットワークベースのイントラ予測モードを有するビデオコーデックでは、現在ルミナンスCBについて、MPMのリスト(例えば、本明細書に説明されるMPMのリスト)の導出の適応が適用され得る。例えば、AとNN_IDXとの間の比較、及びLとNN_IDXとの間の比較(例えば、その両方が図3に示されている)は、バイパスされ得る。
以下の実施例のセマンティクスは、以下を含み得る。
Lは、左のルミナンスCBのイントラ予測モードのインデックスを示し得、これは、
Lは、左のルミナンスCBのイントラ予測モードのインデックスを示し得、これは、
Aは、上のルミナンスCBのイントラ予測モードのインデックスを示し得、これは
offsetは、61の数値を示し得る。
modは、64の数値を示し得る。
NN_IDXは、ニューラルネットワークベースのイントラ予測モードのインデックス(例えば、72)を示し得る。及び
multiRefldxは、{0,1,2}に属し得る複数の基準線(MRL)インデックスであり得る。
MPMリストの初期化は、例えば、以下のように提供され得る。
上の実施例に示されているように、MPMのリストは、例えば、左ルミナンスCBを予測するために選択されたイントラ予測モードのインデックスL、及び上のルミナンスCBを予測するために選択されたイントラ予測モードのインデックスAが、本明細書に説明される1つ以上の実施例から生じる場合、導出され得る。実施例では、ニューラルネットワークベースのイントラ予測モードは、現在ルミナンスCBを予測するために使用され得るニューラルネットワークを含み得る。例えば、指示は、ニューラルベースのイントラ予測モードが現在ルミナンスCBを予測することができるニューラルネットワークを含む場合、現在ルミナンスCBを予測するために使用され得るニューラルネットワークベースのイントラ予測モードにおけるニューラルネットワークの存在を示し得る。例えば、ニューラルネットワークベースのイントラ予測モードのフラグnnFlag特性を含み得る、S0と示されるイントラ予測モードシグナリングが、使用され得る。例えば、ニューラルベースのイントラ予測モードが、現在ルミナンスCBを予測することができるニューラルネットワークを含む場合、ニューラルネットワークイントラ予測モードのフラグnnFlag特性を含む、S0と示されるイントラ予測モードシグナリングが、が使用され得、isSignaling0は、真として示され得る。そうでない場合、フラグnnFlagを含まない、S1と示されるイントラ予測モードシグナリングが使用され得、isSignaling0は、偽として示され得る。
ニューラルネットワーク予測を表す(例えば、最もよく表す)通常イントラ予測モード(例えば、非ニューラルネットワークベースのイントラ予測モード)のインデックスが計算され得る、異なる出力ベクトルが計算され得る。実施例では、ニューラルネットワークベースのイントラ予測モードの出力は変化し得る。実施例では、所与のブロックについて、ニューラルネットワークベースのイントラ予測モードは、ブロックを囲むコンテキストに基づいて、少なくとも1つのベクトルを計算するために使用され得、このインデックスiの係数は、repIdx=iである確率である。実施例では、ニューラルネットワークベースのイントラ予測モードは、repIdxが計算され得るスカラー、ベクトル、及び/又はテンソルを返し得る。例えば、ニューラルネットワークベースのイントラ予測モードが、インデックスiの係数がrepIdx=iである対数確率と反対の対数確率である、ベクトル
図9は、エンコーダ側で、現在ブロックのニューラルネットワーク予測(例えば、生成されたニューラルネットワークベースの予測子)を最もよく表す通常イントラ予測モード(例えば、非ニューラルネットワークベースのイントラ予測モード)のインデックスを推測する例を示している。ニューラルネットワークベースのイントラ予測モードは、現在ブロックYに隣接するコンテキストX(例えば、コンテキストXは、ブロックYに隣接し、既に符号化されているピクセルであり得る)を取り込んで(例えば、取得して)、Yの予測(例えば、コンテキストXの隣接ピクセルについて、潜在的なニューラルネットワークベースの予測モードをテストすることによってニューラルネットワークベースの予測子を生成すること)
図10は、デコーダ側で現在ブロックのニューラルネットワーク予測(例えば、生成されたニューラルネットワークベースの予測子)に対応する通常イントラ予測モード(例えば、非ニューラルネットワークベースのイントラ予測モード)のインデックスを推測する例を示している。ニューラルネットワークベースのイントラ予測モードは、現在ブロックYに隣接するコンテキストX(例えば、コンテキストXは、ブロックYに隣接し、既に再構成されているピクセルであり得る)を取り込んで、Yの予測(例えば、コンテキストXの隣接ピクセルについて、潜在的なニューラルネットワークベースの予測モードをテストすることによってニューラルネットワークベースの予測子を生成すること)
ニューラルネットワークベースのイントラ予測モードは、ニューラルネットワークベースのイントラ予測モードによって返される予測を表し(例えば、最もよく表し)得る、複数の通常イントラ予測モードのインデックスを推測するために使用され得る。
図11は、エンコーダ側で、現在ブロックのニューラルネットワーク予測(例えば、生成されたニューラルネットワークベースの予測子)を最もよく表す通常イントラ予測モード(例えば、k個の非ニューラルネットワークベースのイントラ予測モード)のインデックスを推測する例を示している900。推測された通常イントラ予測モードは、隣接ブロックのMPMリストに追加され得る。
ニューラルネットワークベースのイントラ予測モードは、現在ブロックYに隣接するコンテキストX(例えば、コンテキストXは、ブロックYに隣接し、既に符号化されているピクセルであり得る)を取り込んで(例えば、取得して)、Yの予測(例えば、コンテキストXの隣接ピクセル上で潜在的なニューラルベースの予測モードをテストすることによって、ニューラルネットワークベースの予測子を生成する)
本明細書に説明される方法、システム、及び手段は、符号化デバイス、例えば、図2に関して説明されるエンコーダ上で実装され得る。実施例では、ニューラルネットワークベースのイントラ予測モード905及び現在ブロックYのコンテキストXに基づいて、Yの予測
図12は、デコーダ側で、現在ブロックのニューラルネットワーク予測(例えば、生成されたニューラルネットワークベースの予測子)を最もよく表す通常イントラ予測モード(例えば、非ニューラルネットワークイントラ予測モード)の例示的なインデックスを示している1000。
ニューラルネットワークベースのイントラ予測モードは、現在ブロックYに隣接するコンテキストX(例えば、コンテキストXは、ブロックYに隣接し、既に再構成されているピクセルであり得る)を取り込んで(例えば、取得して)、Yの予測(例えば、コンテキストXの隣接ピクセル上で潜在的なニューラルベースの予測モードをテストすることによって、ニューラルネットワークベースの予測子を生成する)
本明細書に説明される方法、システム、及び手段は、復号デバイス、例えば、図3に関して説明されるデコーダ上で実装され得る。図10に示されるように、Yの予測
現在ルミナンスCBについて、MPMのリストが導出され得る。例えば、k=2である場合、現在ルミナンスCBの左側に位置するルミナンスCB及び現在ルミナンスCBより上に位置するルミナンスCBを予測するためにニューラルネットワークベースのイントラ予測モードが選択され、現在ルミナンスCBの左側に位置するルミナンスCBの予測時に2つの通常イントラ予測モードのインデックスが推測され得、現在ルミナンスCBより上に位置するルミナンスCBの予測時に2つの通常イントラ予測モードのインデックスが推測され得る。
この実施例のセマンティクスは、以下を含み得る。
Lは、例えば、
この実施例のセマンティクスは、以下を含み得る。
Lは、例えば、
Aは、例えば、
offsetは、61の数値を示し得る。
modは、64の数値を示し得る。
NN_IDXは、ニューラルネットワークベースのイントラ予測モードのインデックス(例えば、72)を示し得る。
multiRefldxは、例えば、{0,1,2}に属し得る、多重基準線(Multiple Reference Line、MRL)インデックスであり得る。
‘ptrIndicesRepNNLeft’は、現在ルミナンスCBの左側に位置するルミナンスCBの予測中に推測されたニューラルネットワークベースのイントラ予測モードの通常イントラ予測モードの2つのインデックスを含むバッファへのポインタであり得る。実施例では、現在ルミナンスCBの左側に位置するルミナンスCBを予測するために、ニューラルネットワークベースのイントラ予測モードとは異なるイントラ予測モードが選択された場合、‘ptrIndicesRepNNLeft’はNULLであり得る。
‘ptrIndicesRepNNAbove’は、現在ルミナンスCBより上に位置するルミナンスCBの予測中に推測されたニューラルネットワークベースのイントラ予測モードの通常イントラ予測モードの2つのインデックスを含むバッファへのポインタであり得る。実施例では、現在ルミナンスCBより上に位置するルミナンスCBを予測するために、ニューラルネットワークベースのイントラ予測モードとは異なるイントラ予測モードが選択された場合、‘ptrIndicesRepNNAbove’はNULLであり得る。
A及びLの計算は、以下のとおりであり得る。
現在ルミナンスCBについて、MPMのリストが以下のように導出され得る。
実施例では、‘fillListMPMsNNLeftAbove’は、本明細書に説明されるように挙動し得る。MPMのリスト内の優先度は、以下に例解されるように、‘ptrIndicesRepNNLeft[0]’、‘ptrIndicesRepNNAbove[0]’、‘ptrIndicesRepNNLeft[1]’、及び‘ptrIndicesRepNNAbove[1]」’であり得る。
上で例解されるように、条件‘isIdx0Redundant’&&‘isIdx1Redundant’は、セット{‘ptrIndicesRepNNAbove[0]’,‘ptrIndicesRepNNAbove[1]’}がセット{‘ptrIndicesRepNNLeft[0]’,‘ptrIndicesRepNNLeft[1]’}と冗長であることを示し得る。「冗長」とは、セットの順序を考慮せずに、言及された2つのセットが等しいことを意味し得る(プログラミング言語Pythonにおけるセット同等性の概念を参照)。{‘ptrIndicesRepNNAbove[0]’,‘ptrIndicesRepNNAbove[1]’}がセット{‘ptrIndicesRepNNLeft[0]’,‘ptrIndicesRepNNLeft[1]’}と冗長であるという決定に基づいて、‘ptrIndicesRepNNAbove[0]’及び‘ptrIndicesRepNNAbove[1]’が、MPMの導出リストから除外され得る。
‘fillUpToSix’は、リストインデックス‘idxInc’から5までの‘MPM’によって指されるMPMのリストを埋めるために使用され得る。‘fillUpToSix’は、埋めることを実行するための手順を使用し得る。実施例では、‘fillUpToSix’は、異なるイントラ予測モードインデックスを含むMPMのリストを生成し得る。
実施例では、MPMのリストは、現在ルミナンスCBの左側に位置するルミナンスCBの予測中に推測された2つの通常イントラ予測モードのインデックスが、MPMの導出されたリスト中に現れ得るように導出され得る。例えば、現在ルミナンスCBの左側に位置するルミナンスCBを予測するためにニューラルネットワークベースのイントラ予測モードが選択され、現在ルミナンスCBより上に位置するルミナンスCBを予測するために通常イントラ予測モード(例えば、非ニューラルネットワークベースのイントラ予測モード)が選択される場合、現在ルミナンスCBの左側に位置するルミナンスCBの予測時に推測された2つの通常イントラ予測モードのインデックスは、MPMの導出リストに含まれ得る。上の例解図では、‘fillListMPMsWithoutInitialization’は、以下のようになり得る。
実施例では、MPMのリストは、現在ルミナンスCBより上に位置するルミナンスCBの予測中に推測された2つの通常イントラ予測モード(例えば、非ニューラルネットワークベースのイントラ予測モード)のインデックスが、MPMの導出されたリストに含まれ得るように導出され得る。例えば、現在ルミナンスCBより上に位置するルミナンスCBを予測するためにニューラルネットワークベースのイントラ予測モードが選択され、現在ルミナンスCBの左側に位置するルミナンスCBを予測するために通常イントラ予測モード(例えば、非ニューラルネットワークベースのイントラ予測モード)が選択される場合、現在ルミナンスCBより上に位置するルミナンスCBの予測時に推測された2つの通常イントラ予測モードのインデックスは、MPMの導出リストに含まれ得る。例解図では、fillListMPMsWithoutInitialization’は以下のようになり得る。
クロミナンスにおけるイントラ予測におけるニューラルネットワークベースのモードに関連する指示がシグナリングされ得る。実施例では、ニューラルネットワークベースのイントラ予測モードの特性を示し得る、フラグnnFlagChrominanceなどの指示が、現在クロミナンスCBのイントラ予測シグナリングにおけるdirectFlagの前に配置され得る。ニューラルネットワークベースのイントラ予測モードは、例えば、nnFlagChrominanceが1に等しい場合、現在クロミナンスCBを予測するために使用され得る。冗長性を低減するために、エンコーダは、1つ以上の条件に基づいて、現在クロミナンスCBのイントラ予測シグナリングにおけるニューラルネットワークベースのイントラ予測モードのシグナリングに指示(例えば、フラグnnFlagChrominance)を含めるかどうかを決定し得る。デコーダは、1つ以上の条件に基づいて、現在クロミナンスCBのイントラ予測シグナリングにおけるニューラルネットワークベースのイントラモードのシグナリングにおける指示(例えば、フラグnnFlagChrominance)を解析するかどうかを決定し得る。1つ以上の条件は、例えば、DMが(例えば、図14及び図15に示されているように)ニューラルネットワークベースのイントラ予測モードになる場合、nnFlagChrominanceが現在クロミナンスCBのイントラ予測シグナリングに現れないことを保証し得る。ビットを節約するために、例えば、ニューラルネットワークベースのイントラ予測モードを介した現在クロミナンスCBの予測が実行され得ない場合、条件は、nnFlagChrominanceが現在クロミナンスCBのイントラ予測シグナリングに現れないことを保証し得る。ニューラルネットワークベースのイントラ予測モードは、現在クロミナンスCBのコンテキストが抽出され得ないこと、及び/又は現在クロミナンスCBを予測するために使用され得るニューラルネットワークベースのイントラ予測モードにニューラルネットワークが存在しないこと(例えば、図14及び図15に示すように)、のうちの1つ以上に基づいて実行されない場合がある。
図13は、その左上ピクセルが現在フレーム中の(x,y)に位置する現在W×HクロミナンスCBのための例示的なイントラ予測シグナリング及びDMを示している。現在クロミナンスCBのコンテキストのパラメータnl及びnaが、指定され得る(例えば、図5に示されるように)。NNIDXは、ニューラルネットワークベースのイントラ予測モードのインデックスを示し得る。C10,C11,及びC0に関連するシグナリングが取得され得る(例えば、図15に示されるように)。
図14は、現在クロミナンスCBについての例示的なイントラ予測シグナリングを示している。状態S101の場合、4個の非DMモードのうち非DMのトランケートされたバイナリ符号化がシグナリングされ得る。図示するように、ニューラルネットワークベースのモードのフラグ特性は、directFlagの前に配置され得る。
図15は、現在クロミナンスCBのための例示的なイントラ予測シグナリングを示している。実施例では、ニューラルネットワークベースのイントラ予測モードのnnFlagChrominance特性は、現在クロミナンスCBのイントラ予測シグナリングにおけるdirectFlagの後に配置され得る。イントラ予測シグナリングは、本明細書に説明される例に従い得る。状態S101の場合、4個の非DMモードのうち非DMのトランケートされたバイナリ符号化がシグナリングされ得る。図15に示されるように、現在クロミナンスCBのイントラ予測シグナリングにおいて、directFlagの後に、ニューラルネットワークベースのイントラ予測モードの特性を示し得るフラグnnFlagChrominanceなどの指示子が配置され得る。ニューラルネットワークベースのイントラ予測モードは、例えば、nnFlagChrominanceが1に等しい場合、現在クロミナンスCBを予測するために使用され得る。フラグnnFlagChrominanceをシグナリングするかどうかは、directFlagの値に基づいて決定され得る。directFlagが、ニューラルネットワークベースのイントラ予測モードを介した現在クロミナンスCBの予測が実行され得ない(例えば、directFlag=1、直接モードが使用される)ことを示す場合、フラグnnFlagChrominanceのシグナリングはスキップされ得る。directFlagが、ニューラルネットワークベースのイントラ予測モードを介した現在クロミナンスCBの予測が実行され得ることを示す(例えば、directFlag=0、ダイレクトモードが使用されない)場合、フラグnnFlagChrominanceは、ビットストリーム中に含まれ得る。デコーダ側では、フラグnnFlagChrominanceを解析するかどうかは、directFlagの値に基づいて決定され得る。directFlagが、ニューラルネットワークベースのイントラ予測モードを介した現在クロミナンスCBの予測が実行され得ない(例えば、directFlag=1、直接モードが使用される)ことを示す場合、フラグnnFlagChrominanceの解析はスキップされ得る。directFlagが、ニューラルネットワークベースのイントラ予測モードを介した現在クロミナンスCBの予測が実行され得ることを示す(例えば、directFlag=0、ダイレクトモードが使用されない)場合、フラグnnFlagChrominanceは、ビットストリームから解析され得る。
図16は、デコーダ側で現在ブロックのニューラルネットワーク予測に対応する(例えば、最もよく表す)通常イントラ予測モード(例えば、非ニューラルネットワークベースのイントラ予測モード)のインデックスの一例を示している。
1600において、ニューラルネットワークベースの予測及び/又はブロックコンテキストを表す情報が取得され得る。実施例では、情報は、ピクチャ及び/又はビデオ中の現在ブロックについて取得され得る。情報は、図5及び図6を参照しながら説明されるように取得され得る。例えば、ブロックコンテキストは、現在ブロックを囲む復号されたピクセルのセットを含み得る。
1605において、ニューラルネットワークベースのイントラ予測が実行され得る。例えば、ニューラルネットワークベースのイントラ予測は、ブロックコンテキスト及び/又はニューラルネットワークベースのイントラ予測モードに基づいて現在ブロックに対して実行され得る。ニューラルネットワークベースのイントラ予測は、図8及び図10に関して説明されるように実行され得る。実施例では、ニューラルネットワークベースのイントラ予測は、現在ブロックのルミナンス成分及び/又はクロミナンス成分において実行され得る。ビットストリームからのシグナリング情報が復号され得る。シグナリング情報は、例えば、図14及び図15を参照しながら説明されるように、ニューラルネットワークベースの予測モードが現在ブロックを予測するかどうかを示すフラグを含み得る。
1610において、非ニューラルネットワークベースのイントラ予測モードが決定され得る。例えば、非ニューラルネットワークベースのイントラ予測モードは、実行されたニューラルネットワークベースのイントラ予測に対応し得る。非ニューラルネットワークベースのイントラ予測モードは、図8及び図10を参照して説明されるように決定され得る。実施例では、複数の非ニューラルネットワークベースのイントラ予測モードが、図12に関して説明されるように決定され得る。非ニューラルネットワークベースのイントラ予測モードは、ニューラルネットワークベースのイントラ予測を表す非ニューラルネットワークベースのイントラ予測モードと関連付けられたメトリックに基づいて決定され得る。メトリックは、図8に関して説明されるような確率を含み得る。例えば、確率は、ブロックコンテキスト及び/又はニューラルネットワークベースの予測モードに基づいて決定され得る。実施例では、決定された非ニューラルネットワークベースのイントラ予測モードは、例えば、複数の非ニューラルネットワークベースのイントラ予測モードと関連付けられた複数の表現確率の中の最大確率と関連付けられ得る。
1615において、予測モードが決定され得る。決定された非ニューラルネットワークベースのイントラ予測モードに基づいて予測モードが決定され得る。予測モードは、現在ブロックに隣接したブロックについて決定され得る。実施例では、MPMは、決定された非ニューラルネットワークベースのイントラ予測モードに基づいて、隣接ブロックについて決定され得る。
例示的なニューラルネットワークベースのイントラ予測モードでは、予測されるべき現在ブロックのコンテキストとブロックのニューラルネットワーク予測とを転置する(例えば、任意選択的に転置する)ことによって、かつ/又は現在ブロックのコンテキストをダウンサンプリングし、ブロックのニューラルネットワーク予測を補間することによって、異なるサイズのブロックを予測するために、ニューラルネットワークが使用され得る。例えば、予測されるべき現在ブロックのコンテキストとブロックのニューラルネットワーク予測とが転置される場合、現在ブロックのニューラルネットワーク予測を表す(例えば、最もよく表す)通常イントラ予測モードの推測されたインデックスrepIdxが転置され(例えば、同じく転置され)得る。
図17は、ニューラルネットワークベースのイントラ予測モードによる予測の例を示している。実施例では、ブロックの高さH及び幅Wの所与のペアについて、ニューラルネットワークベースのイントラ予測モードは、サイズW×Hのブロックを予測するニューラルネットワークを含む場合、又は含まない場合がある。垂直ダウンサンプリング係数γ∈N*及び水平ダウンサンプリング係数δ∈N*について、ニューラルネットワークベースのイントラ予測モードは、
実施例では、推測された通常イントラ予測モードインデックスが65方向の通常イントラ予測モード、PLANAR、及び/又はDC(例えば、m=67)のインデックスのセットに属する場合、推測されたインデックスの転置は、左上から右下への対角線に関する推測された通常イントラ予測モード方向の転置に対応し得る。例えば、推測されたインデックスの転置は、以下のように取得され得る。
PLANAR_IDXは、PLANARのインデックス(例えば、0)を示し得る。DC_IDXは、DCのインデックス(例えば、1)を示し得る。68は、通常イントラ予測モード(例えば、非ニューラルネットワークベースのイントラ予測モード)の数に対応し得る。コーデック内のイントラ予測モードの数に基づいて、異なるコーデックに対して異なる数が使用され得る。例えば、この数は、MIPモード及び/又はCCLMモードに1を加えたものを除外し得る。上で説明される推測された通常イントラ予測モードインデックスの転置は、図17の2780と同様であり得る。
実施例では、図17は、図11及び図12に関して説明されるように、現在ブロックのニューラルネットワーク予測を表す(例えば、最もよく表す)通常イントラ予測モード(例えば、非ニューラルネットワークベースのイントラ予測モード)の複数のインデックスが推測される場合に適合され得る。例えば、2780は、同じ転置を使用する推測された通常イントラ予測モードインデックスrepIdxiの転置を含み得る。例えば、2780において、repIdxiは、repIdxTriに変えられ得る。repIdxTriは、例えば、現在ブロックに隣接するブロックのMPMのリストを導出するために使用され得る。
実施例では、図17は、ニューラルネットワーク
図18は、ニューラルネットワークベースのイントラ予測モードによる予測の例を示している。実施例では、ニューラルネットワーク
ニューラルネットワークベースのイントラ予測モードを介して予測されるべきブロックについて、ブロックのニューラルネットワーク予測を表す(例えば、最もよく表す)通常イントラ予測モードのインデックスのニューラルネットワークベースのモードによる推測は、ニューラルネットワーク予測の残差に適用されるべき変換のための暗黙的変換シグナリングのニューラルネットワークベースのモードによる推測及び/又は予測と組み合わされ得る。例えば、ニューラルネットワークベースのイントラ予測モードは、ニューラルネットワーク予測の残差への離散コサイン変換2(DCT2)の水平方向及びDCT2の垂直方向の適用から生じる一次変換係数のブロックに適用されるべき低周波非分離変換(low-frequency non-separable transform、LFNST)のための暗黙的変換シグナリングを予測するために使用され得る。予測されるべき現在ルミナンスCBのコンテキストとCBのニューラルネットワーク予測とが転置される場合、CBのニューラルネットワーク予測を表す(例えば、最もよく表す)通常イントラ予測モードの推測されたインデックスrepIdxは転置され(例えば、同じく転置され)得、lfnstIdxY=i,i∈{1,2}のLFNSTグループインデックスの予測pIdxi
Yが転置され(例えば、同じく転置され)得る。lfnstIdxY∈{0,1,2}は、現在ルミナンスCBのLFNSTインデックスを示し得る。例えば、lfnstIdxY=0は、LFNSTが現在ルミナンスCBに適用されないことを示し得る。lfnstIdxY∈{1,2}は、例えば、LFNSTグループインデックスによって与えられるLFNSTカーネルのペアにおいてインデックスlfnstIdxY-1のLFNSTカーネルを使用して、DCT2を水平に、DCT2を垂直に、ニューラルネットワーク予測の残差に適用することから生じる一次変換係数のブロックにLFNSTが適用されることを示し得る。LFNSTグループインデックスは、考慮されるべきLFNSTカーネルのペアのインデックスと、ニューラルネットワーク予測の残差へのDCT2の水平方向及びDCTの垂直方向の適用から生じる一次変換係数のブロックが転置され得るかどうかとを示し得る。
図19は、ニューラルネットワークベースのイントラ予測モードによる予測の例を示している。実施例では、ブロックのニューラルネットワーク予測は、ニューラルネットワーク予測の残差に適用されるべき変換のための暗黙的変換シグナリングのニューラルネットワークベースのイントラ予測モードによる推測及び/若しくは予測、並びに/又はブロックのニューラルネットワーク予測を表す(例えば、最もよく表す)通常イントラ予測モードのインデックスのニューラルネットワークベースのイントラ予測モードによる推測と組み合わされ得る。ニューラルネットワーク
実施例では、lfnstIdxY=i,i∈{1,2}に対するLFNSTグループインデックスの予測pIdxi
Yの転置は、以下のように取得され得る。
上で説明されるlfnstIdxY=i,i∈{1,2}に対するLFNSTグループインデックスの予測の転置は、図19に関して本明細書に説明される3001及び3002と同様であり得る。
実施例では、図18は、ニューラルネットワーク
図20は、ニューラルネットワークベースのイントラ予測モードによる予測の例を示している。実施例では、ニューラルネットワークによって返されるベクトルP1
Yは転置され得る。例えば、3003において、[|1,6|]に属するインデックスのP1
Yにおける係数(例えば、各係数)は、P1
Y[1:7]の中間に関してその対称である係数と入れ替えられ得る。実施例では、ニューラルネットワークによって返されるベクトルP2
Yは転置され得る。3004において、[|1,6|]に属するインデックスのP2
Yにおける係数(例えば、各係数)は、P2
Y[1:7]の中間に関してその対称である係数と入れ替えられ得る。図19に関して説明される現在ブロックの最終予測値、repIdxTrの値、及びpredTrGrpIdxYの値は、図20のものとそれぞれ等しくなり得る。
ブロックのニューラルネットワーク予測を表す(例えば、最もよく表す)通常イントラ予測モードのインデックスのニューラルネットワークベースのイントラ予測モードによる推測と、ニューラルネットワーク予測の残差に適用されるべき変換のための暗黙的変換シグナリングのニューラルネットワークベースのイントラ予測モードによる推測及び/又は予測との組み合わせにおいて、推測及び/又は予測によって対象とされる変換は、一次、二次、三次、及び/又は別のレベルの変換であり得る。推測及び/又は予測によってターゲットとされる変換(例えば、各変換)は、ニューラルネットワーク予測の残差、又はルミナンスブロック若しくはクロミナンスブロックと関連する異なる変換(例えば、前の変換)の出力である変換係数のブロックに適用され得る。
図21は、ニューラルネットワークベースのイントラ予測モードによる予測の例を示している。実施例では、ここで、ブロックの高さH及び幅Wのペアについて、ニューラルネットワークベースのイントラ予測モードは、サイズW×Hのブロックを予測するニューラルネットワークを含む場合、又は含まない場合がある。垂直ダウンサンプリング係数γ∈N*及び水平ダウンサンプリング係数δ∈N*について、ニューラルネットワークベースのイントラ予測モードは、
図22は、エンコーダ側上のニューラルネットワークベースのパイプラインの一例を示している4100。4101において、ニューラルネットワークベースのパイプラインは、現在ブロックYのコンテキストXから、Yの予測
図23は、デコーダ側上のニューラルネットワークベースのパイプラインの一例を示している4200。4201において、ニューラルネットワークベースのパイプラインは、コンテキストXから、現在ブロックの予測
現在ブロックがイントラモードでコーディングされ、ニューラルネットワークベースのイントラ予測モードが、選択されたLFNSTグループインデックスの予測predTrGrpIdxを返す場合、ニューラルネットワークベースのモードは、LFNSTの暗黙的シグナリングを予測するために使用され得る。図24は、ビットBremainderをもたらす、predTrGrpIdxに対するtrGrpIdxの予測符号化を表す例示的な決定木を示している。他の予測符号化スキームは、図22に関して説明される例と互換性であり得る。
現在ブロックがイントラモードでコーディングされ、ニューラルネットワークベースのイントラ予測モードが、選択されたLFNSTグループインデックスの予測predTrGrpIdxを返す場合、予測復号が実行され得る。図25は、図24に関して本明細書で説明されるような予測符号化と関連する例示的な予測復号を示す。
ニューラルネットワークベースのイントラ予測モードによって予測された所与のブロックについて、ブロックのニューラルネットワーク予測を表す(例えば、最もよく表す)通常イントラ予測モードのインデックスは、ブロックのイントラ予測を表すために、例えば、ビデオ符号化中又はビデオ復号中のいずれかの任意の時間に使用され得る。ブロックのニューラルネットワーク予測を表す通常イントラ予測モードのインデックスは、通常イントラ予測モードインデックスが、前のブロックをホストするコーディングツリーユニット(coding tree unit、CTU)とは異なるCTU内に位置し得る別のブロックの符号化又は復号のいずれかの間に使用されるとしても、使用され得る。ブロックのニューラルネットワークベースの予測を表す通常イントラ予測モードのインデックスは、通常イントラ予測モードインデックスが、前のブロックをホストするフレームとは異なるフレーム中に位置する別のブロックの符号化又は復号のいずれかの間に使用されるとしても、使用され得る。これは、所与のルミナンスCBについてのMPMのリストの導出のコンテキストにおいて例解され得る。MPMのリストの導出は、例えば、ソフトウェアを実行するコンピューティングシステムによって実装され得る。図26、図27、図28、図29、及び図30は、現在ルミナンスCBについてのMPMのリストの導出を描示しており、ニューラルネットワークベースのイントラ予測モードを含むシステムにおいて、MPMのリストが現在ルミナンスCBについてどのように導出され得るかを例解する。
図26は、現在ルミナンスCBについてのMPMのリストの例示的な導出を描示している。導出は、例えば、コンピューティングシステム上で実行されるソフトウェアを使用して実装され得る。導出は、22個のMPMの一般的リストを埋めることを含み得る。図26において、現在ルミナンスCBに直接隣接するルミナンスCBは、イントラ内で予測されると仮定され得る。これは、現在ルミナンスCBがイントラフレーム内にある場合に当てはまり得る。MPMの一般的リストを埋めるとき、イントラ予測モードインデックスがインデックスkのセルを埋めるために提案されるとき、イントラ予測モードインデックスがMPMの一般的リストにまだ存在しない場合、インデックスはインデックスkのセルに配置され得、埋めることは、インデックスk+1のセルで再開し得る。そうでない場合(例えば、イントラ予測モードインデックスがMPMの一般リスト中に既に存在する場合)、イントラ予測モードインデックスは無視され得、埋めることはインデックスkのセルにおいて再開し得る。図26を参照すると、4300において、PLANARIDXは、MPMのリストのインデックス0のセルを埋めるように提案され得る。4301において、現在ルミナンスCBの高さがその幅よりも大きい場合、上記CBと称され得る、正方形「1」に重なるルミナンスCBを予測するイントラ予測モードのインデックスが、MPMの一般的リストを埋めるために提案され得る。そうでない場合、左CBと称され得る、正方形「2」に重なるルミナンスCBを予測するイントラ予測モードのインデックスが、MPMの一般的リストを埋めるために提案され得る。4302において、現在ルミナンスCBの高さがその幅よりも大きい場合、正方形「2」に重なるルミナンスCBを予測するイントラ予測モードのインデックスが、MPMの一般的リストを埋めるために提案され得る。そうでない場合、正方形「1」に重なるルミナンスCBを予測するイントラ予測モードのインデックスが、MPMの一般的リストを埋めるために提案され得る。4303において、左下CBと称され得る、正方形「4」に重なるルミナンスCBを予測するイントラ予測モードのインデックスが、MPMの一般的リストを埋めるために提案され得る。4304において、右上CBと称され得る、正方形「3」に重なるルミナンスCBを予測するイントラ予測モードのインデックスが、MPMの一般的リストを埋めるために提案され得る。4305において、左上CBと称され得る、正方形「0」に重なるルミナンスCBを予測するイントラ予測モードのインデックスが、MPMの一般的リストを埋めるために提案され得る。
4306において、デコーダ側イントラモード導出(decoder side intra mode derivation、DIMD)によって導出された第1のイントラ予測モードのインデックスが、MPMの一般的リストを埋めるために提案され得る。4307において、DIMDによって導出された第2のイントラ予測モードのインデックスが、MPMの一般的リストを埋めるために提案され得る。4308において、MPMの現在の一般的リスト中の第2のイントラ予測モードインデックスがPLANAR_IDXでもDC_IDXでもない場合、指向性に関してMPMの現在の一般的リスト中のこの第2のイントラ予測モードの近隣である8つの方向イントラ予測モード(例えば、8つの方向イントラ予測モードの各々)のインデックスが、MPMの一般的リストを埋めるために提案され得る。4309において、MPMの現在の一般的リスト中の第3のイントラ予測モードインデックスがPLANAR_IDXでもDC_IDXでもない場合、指向性に関してMPMの現在の一般的リスト中のこの第3のイントラ予測モードの近隣である8つの方向イントラ予測モード(例えば、8つの方向イントラ予測モードの各々)のインデックスが、MPMの一般的リストを埋めるために提案され得る。4310において、MPMの現在の一般的リスト中の第2のイントラ予測モードインデックス又は第3のイントラ予測モードインデックスがDCIDXに等しく、MPMの現在の一般的リスト中の第4のイントラ予測モードインデックスがPLANAR_IDXでもDC_IDXでもない場合、指向性に関してMPMの現在の一般的リスト中のこの第4のイントラ予測モードに隣接する6つの方向イントラ予測モードのインデックス(例えば、6つの方向イントラ予測モードの各々)が、MPMの一般的リストを埋めるために提案され得る。4311において、MPMの一般的リスト中の残りのセルは、デフォルトイントラ予測モードインデックスで埋められ得る。22個のMPMの一般的リストが埋められると、最初の6個のMPMは一次MPMのリストにグループ化され得、最後の16個のMPMは二次MPMのリストに集約され得る。
図27は、現在ブロックのニューラルネットワーク予測を表すために通常イントラ予測モードのインデックスを推測することを伴う、本明細書に説明される実装形態の図26に描示される導出への例示的な適用を描示している。図27は、例えば、ニューラルネットワークベースのイントラ予測モードを含むビデオコーデックにおける、現在ルミナンスCBについてのMPMのリストの導出を伴う。導出は、例えば、ソフトウェアを実行するコンピューティングシステム上で実装され得る。図27では、図26と同様に、現在ルミナンスCBに直接隣接するルミナンスCBが、イントラ内で予測され得る。図27の例示的な導出は、図26における導出と同様に進むが、例えば、現在ルミナンスCBを囲み、それぞれ正方形「0」、「1」、「2」、「3」、及び「4」に重なる5つのルミナンスCB(例えば、5つのルミナンスCBの各々)について、CBを予測するために選択されたイントラ予測モードのインデックスがニューラルネットワークベースのイントラ予測モードのインデックスNN_IDXに等しい場合、インデックスは、隣接ルミナンスCBのニューラルネットワーク予測を表す、例えば、最もよく表す通常イントラ予測モードのインデックスrepIdxによって置き換えられ得ることを除く。これらの5つのルミナンスCB(例えば、5つのルミナンスCBの各々)について、この潜在的な置き換えは、MPMの一般的リストを埋めるために、隣接ルミナンスCBを予測するために選択されたイントラ予測モードのインデックスを提案する前に実行され得る。
図28は、現在ルミナンスCBに直接隣接する複数のルミナンスCBがインター内で予測される場合の、現在ルミナンスCBについてのMPMのリストの例示的な導出を描示している。実装形態は、例えば、ソフトウェアを実行するコンピューティングシステム上で実行され得る。図28は、正方形「2」及び「4」にそれぞれ重なる現在ルミナンスCBの周りの(例えば、隣接する)ルミナンスCBがインター内で予測され得るが、正方形「0」、「1」、及び「3」にそれぞれ重なる現在ルミナンスCBの周りの(例えば、隣接する)ルミナンスCBがイントラ内で予測され得る例示的な事例を描示している。現在ルミナンスCBの幅は、その高さよりも大きくあり得る。図28を参照すると、4400において、PLANAR_IDXは、MPMのリストのインデックス0のセルを埋めるように提案され得る。4401において、上CBと称され得る、正方形「1」に重なるルミナンスCBを予測するイントラ予測モードのインデックスが、MPMの一般的リストを埋めるために提案され得る。4402において、例えば、「getIpmInfo」と称され得るコード(例えば、サブルーチン)の一部は、左CBと称され得る正方形「2」に重なるルミナンスCBに対して動作し得る。「getIpmInfo」によって返されるイントラ予測モードインデックスは、MPMの一般的リストを埋めるために提案され得る。「getIpmInfo」は、復号された動きベクトルを使用して、動きを介して「getIpmInfo」のルミナンスCB引数にリンクされ、イントラ内で予測される最後に復号されたCUを過去の復号されたフレームにおいて見つけ得る。「getIpmInfo」は、「getIpmInfo」のルミナンスCB引数を生じさせる動きベクトルの履歴を探して、イントラ内で予測される最後のCUを探し得る。「getIpmInfo」は、見つかったCUのルミナンスCBを予測するために選択されたイントラ予測モードのインデックスを返し得る。4403において、右上CBと称され得る、正方形「3」に重なるルミナンスCBを予測するイントラ予測モードのインデックスが、MPMの一般的リストを埋めるために提案され得る。4404において、左上CBと称され得る、正方形「0」に重なるルミナンスCBを予測するイントラ予測モードのインデックスが、MPMの一般的リストを埋めるために提案され得る。4405において、「getIpmInfo」は、左下CBと称され得る正方形「4」に重なるルミナンスCB上で呼び出され得、返されたイントラ予測モードインデックスは、MPMの一般的リストを埋めるように提案され得る。図28の4406、4407、4408、4409、4410、及び4411における処理は、それぞれ、図26の4306、4307、4308、4309、4310、及び4311に関連して説明されるものと一致して進み得る。
図29は、現在ブロックのニューラルネットワーク予測を表すために通常イントラ予測モードのインデックスを推測することを伴う、本明細書に説明される実装形態の、図28に描示された導出への適用を描示している。図29は、ニューラルネットワークベースのイントラ予測モードを含む現在ルミナンスCBについてのMPMのリストの導出を伴う。図29では、例えば、図28と同様に、それぞれ、正方形「2」及び「4」に重なる現在ルミナンスCBの周りの(例えば、隣接する)ルミナンスCBは、インター内で予測され得、それぞれ、正方形「0」、「1」、及び「3」に重なる現在ルミナンスCBの周りの(例えば、隣接する)ルミナンスCBは、イントラ内で予測され得る。現在ルミナンスCBの幅は、その高さよりも大きくあり得る。図28と比較して、図29では、第1の違いは、現在ルミナンスCBに隣接し、それぞれ正方形「0」、「1」、及び「3」に重複する3つのルミナンスCB(例えば、3つのルミナンスCBの各々)について、このCBを予測するために選択されたイントラ予測モードのインデックスがニューラルネットワークベースのイントラ予測モードのインデックスNN_IDXに等しい場合、インデックスは、隣接ルミナンスCBのニューラルネットワーク予測を表す(例えば、最もよく表す)通常イントラ予測モード(例えば、非ニューラルネットワークベースのイントラ予測モード)のインデックスrepIdxによって置き換えられ得ることであり得る。第2の違いは、現在ルミナンスCBに隣接し、それぞれ正方形「2」及び「4」に重なる2つのルミナンスCB(例えば、2つのルミナンスCBの各々)について、「getIpmInfo」への呼び出し中に、イントラ内で予測された最後に見つかったCUについて、この見つかったCUのルミナンスCBを予測するために選択されたイントラ予測モードのインデックスがニューラルネットワークベースのイントラ予測モードのインデックスNN_IDXに等しい場合、このインデックスは、見つかったCUのルミナンスCBのニューラルネットワーク予測を表す(例えば、最もよく表す)通常のイントラ予測モード(例えば、非ニューラルネットワークベースのイントラ予測モード)のインデックスrepIdxによって置き換えられ得ることであり得る。
図28及び図29は、それぞれ、正方形「2」及び「4」と重複する現在ルミナンスCBの周りの(例えば、隣接する)ルミナンスCBがインター内で予測され、それぞれ、正方形「0」、「1」、及び「3」と重複する現在ルミナンスCBの周りのルミナンスCBがイントラ内で予測され、現在ルミナンスCBの幅がその高さよりも大きいとき、現在ルミナンスCBのためのMPMのリストの導出を例解するが、例示的な導出(例えば、これらの図に描示される)は、インター及び/又はイントラ内で予測される現在ルミナンスCBの周りの(例えば、隣接する)異なるルミナンスCBを伴う他の事例に適用され得る。例えば、図30は、現在ブロックのニューラルネットワーク予測を表すために通常イントラ予測モード(例えば、非ニューラルネットワークベースのイントラ予測モード)のインデックスを推測することを伴う、本明細書に説明される実装形態の図28に描示された導出に対する別の例示的な適用を描示している。図30は、例えば、ニューラルネットワークベースのイントラ予測モードを含むビデオコーデックにおける現在ルミナンスCBのためのMPMのリストの例示的な導出を描示している。導出は、例えば、コンピューティングシステム上で実行されるソフトウェアによって実行され得る。それぞれ、正方形「1」及び「3」と重複する現在ルミナンスCBの周りの(例えば、隣接する)ルミナンスCBは、インター内で予測され得、正方形「0」、「2」、及び「4」とそれぞれ重複する現在ルミナンスCBの周りのルミナンスCBは、イントラ内で予測され得る。現在ルミナンスCBの高さは、その高さよりも大きくあり得る。
図26、図27、図28、図29、及び図30に示された原理は、現在ブロックのニューラルネットワーク予測を表す(例えば、最もよく表す)通常イントラ予測のインデックスを推測する代わりに、ニューラルネットワークベースのイントラ予測モードが、現在ブロックのニューラルネットワーク予測を表す(例えば、最もよく表す)k個の通常イントラ予測モードのインデックスを推測し得る場合に適用され得る。
一実施例では、「getIpmInfo」は、異なる動作を実行するようにプログラムされ得る。例えば、所与のビデオの符号化中に、所与の再構成されたイントラフレームに続く第1の非イントラフレームについて、所与の再構成されたイントラフレーム中のルミナンスCB(例えば、各ルミナンスCB)について、ルミナンスCBを予測するために選択されたイントラ予測モードのインデックスは、関連する動きベクトルに続く非イントラフレーム中でインター内で予測されたルミナンスCBに伝搬され得る。この処理は、イントラ予測モードインデックスのマップをもたらし得、非イントラフレーム内のインター内で予測されるルミナンスCB(例えば、各ルミナンスCB)は、その伝搬されたイントラ予測モードインデックスを所有する。このプロセスは、非イントラフレームに対して繰り返され得る。「getIpmInfo」は、その偏角ルミナンスCBの動きベクトルを使用して、動き補償に関与するCUを決定し、その偏角ルミナンスCBの予測と、見つかったCUの伝搬されたイントラ予測モードインデックスとをもたらし得る。「getIpmInfo」は、伝搬されたイントラ予測モードインデックスを返し得る。同様の処理が、所与のビデオの復号に適用され得る。実施例では、所与のルミナンスCBについて、ルミナンスCBのニューラルネットワーク予測を表す(例えば、最もよく表す)通常イントラ予測モード(例えば、非ニューラルネットワークベースの予測モード)のインデックスrepIdxによるニューラルネットワークベースのイントラ予測モードのインデックスNN_IDXの置換は、「getIpmInfo」への呼び出し中に実行されない場合がある。実施例では、それは、ビデオフレームから次のビデオフレームに移動するときに、伝搬イントラ予測モードインデックスのマップの作成中に実行され得る。図31は、MPMのリストの対応する例示的な導出を描示している。
符号化段階中に、ニューラルネットワークベースのイントラ予測モードによって予測された所与のブロックについて、ブロックのニューラルネットワーク予測を表す(例えば、最もよく表す)通常イントラ予測モードのインデックスが、例えば、イントラ予測工程に続くブロックの符号化中にいつでも使用され得る。ブロックの符号化中に適用されるべき変換のインデックスの暗黙的シグナリングが、選択されたイントラ予測モードのインデックスを使用する場合、推測された通常イントラ予測モードのインデックスは、ニューラルネットワークベースのイントラ予測モードのインデックスを置き換え得る。同様に、復号段階中に、ニューラルネットワークベースのイントラ予測モードによって予測された所与のブロックについて、ブロックのニューラルネットワーク予測を表す(例えば、最もよく表す)通常イントラ予測モードのインデックスが、例えば、イントラ予測工程に続くブロックの復号中にいつでも使用され得る。ブロックの復号中に適用されるべき変換のインデックスの暗黙的シグナリングが、選択されたイントラ予測モードのインデックスを使用する場合、推測された通常イントラ予測モードのインデックスは、ニューラルネットワークベースのイントラ予測モードのインデックスを置き換え得る。図32は、そのような実装形態への図8の適応を提示する。図32は、デコーダ側で現在ブロックのニューラルネットワーク予測を表し得る(例えば、最もよく表し得る)通常イントラ予測モード(例えば、非ニューラルネットワークベースのイントラ予測モード)のインデックスを推測する例を示している4500。ニューラルネットワークベースのイントラ予測モードは、Yを囲むコンテキストXを取り込んで(例えば、取得して)、Yの予測Y^及びベクトルPを提供し得、このインデックスiの係数は、デコーダ側で、インデックスiの通常のイントラ予測(例えば、非ニューラルネットワークベースのイントラ予測モード)がニューラルネットワーク予測Y^を表す(例えば、最もよく表す)確率に対応し得る4501。repIdxは、argmax(P)を等しいものとし得る4502。実施例では、逆量子化器4505は、再構成された二次変換係数
図32に提示される原理は、現在ブロックのニューラルネットワーク予測に対応する(例えば、最もよく表す)複数の通常イントラ予測モードのインデックスに適用され得る。特徴及び要素は、特定の組み合わせにおいて上で説明されているが、当業者は、各特徴又は要素が単独で又は他の特徴及び要素との任意の組み合わせで使用され得ることを理解されよう。加えて、本明細書に説明される方法は、コンピュータ又はプロセッサによる実行のためにコンピュータ可読媒体に組み込まれたコンピュータプログラム、ソフトウェア又はファームウェアにおいて実施され得る。コンピュータ可読媒体の例には、電子信号(有線又は無線接続を介して送信される)及びコンピュータ可読記憶媒体が含まれる。コンピュータ可読記憶媒体の例としては、読み取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、レジスタ、キャッシュメモリ、半導体メモリデバイス、内部ハードディスク及びリムーバブルディスクなどの磁気媒体、磁気光学媒体及びCD-ROMディスク及びデジタル多用途ディスク(digital versatile disk、DVD)などの光学媒体が挙げられるが、これらに限定されない。ソフトウェアと関連付けられたプロセッサを使用して、WTRU、UE、端末、基地局、RNC又は任意のホストコンピュータにおいて使用するための無線周波数トランシーバを実装し得る。
Claims (27)
- デバイスであって、
プロセッサを備え、前記プロセッサは、
現在コーディングブロックについて、ニューラルネットワークベースの予測モード及びブロックコンテキストを表す情報を取得することと、
前記ブロックコンテキスト及び前記ニューラルネットワークベースの予測モードに基づいて、前記現在コーディングブロックについてのニューラルネットワークベースの予測子を生成することと、
前記生成されたニューラルネットワークベースの予測子に対応する非ニューラルネットワークベースのイントラ予測モードを決定することと、
前記非ニューラルネットワークベースのイントラ予測モードに基づいて、隣接ブロックのための予測モードを決定することと、を行うように構成されている、デバイス。 - 前記ブロックコンテキストが、前記現在コーディングブロックに隣接するピクセルのセットを含む、請求項1に記載のデバイス。
- 前記現在コーディングブロックが、現在ルミナンスブロック及び現在クロミナンスブロックを含み、前記生成されたニューラルネットワークベースの予測子が、前記現在ルミナンスブロックについてのルミナンス予測子及び前記現在クロミナンスブロックについてのクロミナンス予測子を含む、請求項1に記載のデバイス。
- 前記非ニューラルネットワークベースのイントラ予測モードを決定することが、
前記ブロックコンテキスト及び前記ニューラルネットワークベースの予測モードに基づいて、複数の非ニューラルネットワークベースのイントラ予測モードと関連付けられた複数の表現確率を取得することと、
前記複数の表現確率に基づいて、前記複数の非ニューラルネットワークベースのイントラ予測モードから、前記決定された非ニューラルネットワークベースのイントラ予測モードを選択することと、を更に含む、請求項1に記載のデバイス。 - 第1の非ニューラルネットワークベースのイントラ予測モードと関連付けられた第1の表現確率は、前記現在ブロックに対して前記第1の非ニューラルネットワークベースのイントラ予測モードを使用することが、前記生成されたニューラルネットワークベースの予測子の表現をもたらす確率を示すように構成されており、より高い確率が、より低い確率と比較したとき、前記表現が前記生成されたニューラルネットワークベースの予測子により類似していることを示す、請求項4に記載のデバイス。
- 最も高い表現確率と関連付けられた非ニューラルネットワークベースのイントラ予測モードが選択される、請求項5に記載のデバイス。
- 前記プロセッサが、
前記生成されたニューラルネットワークベースの予測子に対応する、前記決定された非ニューラルネットワークベースのイントラ予測モードと関連付けられたイントラ予測インデックスを取得することと、
前記決定された非ニューラルネットワークベースのイントラ予測モードと関連付けられた前記イントラ予測インデックスを、前記隣接ブロックの最確モード(MPM)リストに追加することと、を行うように更に構成されている、請求項1に記載のデバイス。 - 前記プロセッサが、
前記非ニューラルネットワークベースのイントラ予測モードに基づいて、一次逆変換又は二次逆変換のうちの少なくとも1つを適用するように更に構成されている、請求項1に記載のデバイス。 - 前記プロセッサが、
前記決定された非ニューラルネットワークベースのイントラ予測モードに基づいて、前記隣接ブロックのための最確モード(MPM)を導出するように更に構成されている、請求項1に記載のデバイス。 - 前記デバイスが、符号化デバイスである、請求項1~9のいずれか一項に記載のデバイス。
- 前記デバイスが、復号デバイスである、請求項1~9のいずれか一項に記載のデバイス。
- 前記デバイスが、メモリを更に備える、請求項1~11のいずれか一項に記載のデバイス。
- 前記デバイスが、ディスプレイ、アンテナ、又は帯域制限器のうちの1つ以上を更に備える、請求項1~12のいずれか一項に記載のデバイス。
- 方法であって、
現在コーディングブロックについて、ニューラルネットワークベースの予測モード及びブロックコンテキストを表す情報を取得することと、
前記ブロックコンテキスト及び前記ニューラルネットワークベースの予測モードに基づいて、前記現在コーディングブロックについてのニューラルネットワークベースの予測子を生成することと、
前記生成されたニューラルネットワークベースの予測子に対応する非ニューラルネットワークベースのイントラ予測モードを決定することと、
前記非ニューラルネットワークベースのイントラ予測モードに基づいて、隣接ブロックのための予測モードを決定することと、含む、方法。 - 前記ブロックコンテキストが、前記現在コーディングブロックに隣接するピクセルのセットを含む、請求項1に記載の方法。
- 前記現在コーディングブロックが、現在ルミナンスブロック及び現在クロミナンスブロックを含み、前記生成されたニューラルネットワークベースの予測子が、前記現在ルミナンスブロックについてのルミナンス予測子及び前記現在クロミナンスブロックについてのクロミナンス予測子を含む、請求項1に記載の方法。
- 前記非ニューラルネットワークベースのイントラ予測モードを決定することが、
前記ブロックコンテキスト及び前記ニューラルネットワークベースの予測モードに基づいて、複数の非ニューラルネットワークベースのイントラ予測モードと関連付けられた複数の表現確率を取得することと、
前記複数の表現確率に基づいて、前記複数の非ニューラルネットワークベースのイントラ予測モードから、前記決定された非ニューラルネットワークベースのイントラ予測モードを選択することと、を更に含む、請求項1に記載の方法。 - 第1の非ニューラルネットワークベースのイントラ予測モードと関連付けられた第1の表現確率は、前記現在ブロックに対して前記第1の非ニューラルネットワークベースのイントラ予測モードを使用することが、前記生成されたニューラルネットワークベースの予測子の表現をもたらす確率を示すように構成されており、より高い確率が、より低い確率と比較したとき、前記表現が前記生成されたニューラルネットワークベースの予測子により類似していることを示す、請求項17に記載の方法。
- 最も高い表現確率と関連付けられた非ニューラルネットワークベースのイントラ予測モードが選択される、請求項18に記載の方法。
- 前記生成されたニューラルネットワークベースの予測子に対応する、前記決定された非ニューラルネットワークベースのイントラ予測モードと関連付けられたイントラ予測インデックスを取得することと、
前記決定された非ニューラルネットワークベースのイントラ予測モードと関連付けられた前記イントラ予測インデックスを、前記隣接ブロックの最確モード(MPM)リストに追加することと、を更に含む、請求項14に記載の方法。 - 前記非ニューラルネットワークベースのイントラ予測モードに基づいて、一次逆変換又は二次逆変換のうちの少なくとも1つを適用することを更に含む、請求項14に記載の方法。
- 前記決定された非ニューラルネットワークベースのイントラ予測モードに基づいて、前記隣接ブロックのための最確モード(MPM)を導出することを更に含む、請求項14に記載の方法。
- 前記方法が、符号化デバイスにおいて実行される、請求項14~22のいずれか一項に記載の方法。
- 前記方法が、復号デバイスにおいて実行される、請求項14~22のいずれか一項に記載の方法。
- 非一時的コンピュータ可読媒体に記憶されており、プロセッサによって実行されるときに、請求項14~24の少なくとも一項に記載の方法の工程を実装するためのプログラムコード命令を含む、コンピュータプログラム製品。
- プロセッサによって実行されるときに、請求項14~24のうちの少なくとも一項に記載の方法の工程を実装するためのプログラムコード命令を含む、コンピュータプログラム。
- 請求項14~24のいずれか一項に記載の方法のうちの1つに従って符号化された前記ニューラルネットワークベースの予測モードを表す情報を含む、ビットストリーム。
Applications Claiming Priority (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP21305546.0 | 2021-04-28 | ||
EP21305546 | 2021-04-28 | ||
EP21305806 | 2021-06-11 | ||
EP21305806.8 | 2021-06-11 | ||
EP21306297.9 | 2021-09-20 | ||
EP21306297 | 2021-09-20 | ||
EP21306892 | 2021-12-21 | ||
EP21306892.7 | 2021-12-21 | ||
PCT/IB2022/000252 WO2022229707A1 (en) | 2021-04-28 | 2022-04-28 | Interactions between neural network-based intra prediction modes and regular intra prediction modes |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024516809A true JP2024516809A (ja) | 2024-04-17 |
Family
ID=83847822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023564532A Pending JP2024516809A (ja) | 2021-04-28 | 2022-04-28 | ニューラルネットワークベースのイントラ予測モードと通常イントラ予測モードとの間の相互作用 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP4331233A1 (ja) |
JP (1) | JP2024516809A (ja) |
WO (1) | WO2022229707A1 (ja) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11252410B2 (en) * | 2019-06-11 | 2022-02-15 | Tencent America LLC | Method and apparatus for video coding |
-
2022
- 2022-04-28 WO PCT/IB2022/000252 patent/WO2022229707A1/en active Application Filing
- 2022-04-28 EP EP22734676.4A patent/EP4331233A1/en active Pending
- 2022-04-28 JP JP2023564532A patent/JP2024516809A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4331233A1 (en) | 2024-03-06 |
WO2022229707A1 (en) | 2022-11-03 |
WO2022229707A8 (en) | 2022-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220377344A1 (en) | Systems and methods for versatile video coding | |
US20220191502A1 (en) | Methods and apparatus for prediction refinement for decoder side motion vector refinement with optical flow | |
US20220394298A1 (en) | Transform coding for inter-predicted video data | |
US20220345701A1 (en) | Intra sub-partitions related infra coding | |
US20220150486A1 (en) | Intra sub-partitions in video coding | |
US20240214558A1 (en) | Interactions between neural network-based intra prediction modes and regular intra prediction modes | |
JP2024516809A (ja) | ニューラルネットワークベースのイントラ予測モードと通常イントラ予測モードとの間の相互作用 | |
US20240196007A1 (en) | Overlapped block motion compensation | |
WO2024133043A1 (en) | Decoder side intra mode derivation with contextual adjustment of the number of derived modes | |
WO2024079193A1 (en) | Extended angular prediction modes with decoder side refinement | |
WO2023118048A1 (en) | Most probable mode list generation with template-based intra mode derivation and decoder-side intra mode derivation | |
CN117652140A (zh) | 基于神经网络的帧内预测模式与常规帧内预测模式之间的交互 | |
WO2023057487A2 (en) | Transform unit partitioning for cloud gaming video coding | |
WO2023194193A1 (en) | Sign and direction prediction in transform skip and bdpcm | |
WO2023046955A1 (en) | Template-based syntax element prediction | |
WO2024133058A1 (en) | Gradual decoding refresh padding | |
WO2023057501A1 (en) | Cross-component depth-luma coding | |
WO2023194558A1 (en) | Improved subblock-based motion vector prediction (sbtmvp) | |
WO2024003115A1 (en) | Chroma multiple transform selection | |
WO2024133762A1 (en) | Extension of spatial geometric prediction mode | |
WO2024002895A1 (en) | Template matching prediction with sub-sampling | |
WO2024133767A1 (en) | Motion compensation for video blocks | |
WO2023194138A1 (en) | Transform index determination | |
WO2023194395A1 (en) | Chroma direct mode | |
WO2024002947A1 (en) | Intra template matching with flipping |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231225 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20231227 |