JP2013537381A

JP2013537381A - ビデオ圧縮のための動き補償学習型超解像を用いてビデオ信号を復号する方法と装置

Info

Publication number: JP2013537381A
Application number: JP2013528306A
Authority: JP
Inventors: ザン，ドン−チン; ジョージヤコブ，ミトゥン; バガヴァシー，シタラム
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2010-09-10
Filing date: 2011-09-09
Publication date: 2013-09-30
Also published as: CN103210645B; WO2012033963A3; US20130163676A1; US20130163673A1; KR101906614B1; CN103141092B; KR20130143566A; CN103141092A; KR101878515B1; WO2012033963A8; WO2012033962A3; WO2012033963A2; JP2013537380A; EP2614641A2; CN103210645A; KR20130105827A; BR112013004107A2; WO2012033962A2; EP2614642A2; JP6042813B2

Abstract

ビデオ圧縮のために動き補償学習型超解像を用いてビデオ信号を復号する方法及び装置を提供する。装置は、動きのある入力ビデオシーケンスの静的バージョンから生成された高解像度置き換えパッチ画像のうちの一又は複数を受け取り、学習型超解像を行って、一又は複数の高解像度置き換えパッチ画像から入力ビデオシーケンスの静的バージョンの再構成バージョンを生成する学習型超解像プロセッサ（８２０）を有する。入力ビデオシーケンスの静的バージョンの再構成バージョンは複数の画像を含む。装置は、さらに、入力ビデオシーケンスの動きパラメータを受け取り、動きパラメータに基づいて逆画像ワーピングプロセスを行って、複数の画像のうち一又は複数を変換して、動きを有する入力ビデオシーケンスの再構成を生成する逆画像ワーパー（８３０）とを有する。

Description

本原理は、概してビデオの符号化及び復号に関し、より具体的には、ビデオ圧縮のための動き報償学習型超解像（example-based super-resolution）の方法及び装置に関する。

本願は、２０１０年９月１０日出願の米国仮出願第６１／４０３０８６号（発明の名称「MOTION COMPENSATED EXAMPLE-BASED SUPER- RESOLUTION FOR VIDEO COMPRESSION」、Technicolor Docket No. PU１００１９０）の利益を主張するものである。

この出願は以下の同時係属中の共有に係る特許出願に関連している：
（１）国際出願第PCT/US/１１/０００１０７号（２０１１年１月２０日出願、発明の名称「A SAMPLING-BASED SUPER-RESOLUTION APPROACH FOR EFFICIENT VIDEO COMPRESSION」、Technicolor Docket No. PU１００００４）；
（２）国際出願第PCT/US/１１/０００１１７号（２０１１年１月２１日出願、発明の名称「DATA PRUNING FOR VIDEO COMPRESSION USING EXAMPLE-BASED SUPER- RESOLUTION」、Technicolor Docket No. PU１０００１４）；
（３）国際出願第ＸＸＸＸ号（２０１１年９月ＸＸ日出願、発明の名称「METHODS AND APPARATUS FOR ENCODING VIDEO SIGNALS USING MOTION COMPENSATED EXAMPLE-BASED SUPER-RESOLUTION FOR VIDEO COMPRESSION」、Technicolor Docket No. PU１００１９０）；
（４）国際出願第ＸＸＸＸ号（２０１１年９月ＸＸ日出願、発明の名称「METHODS AND APPARATUS FOR ENCODING VIDEO SIGNALS USING EXAMPLE-BASED DATA PRUNING FOR IMPROVED VIDEO COMPRESSION EFFICIENCY」、Technicolor Docket No. PU１００１９３）；
（５）国際出願第ＸＸＸＸ号（２０１１年９月ＸＸ日出願、発明の名称「METHODS AND APPARATUS FOR DECODING VIDEO SIGNALS USING EXAMPLE-BASED DATA PRUNING FOR IMPROVED VIDEO COMPRESSION EFFICIENCY」、Technicolor Docket No. PU１００２６７）；
（６）国際出願第ＸＸＸＸ号（２０１１年９月ＸＸ日出願、発明の名称「METHODS AND APPARATUS FOR ENCODING VIDEO SIGNALS FOR BLOCK-BASED MIXED-RESOLUTION DATA PRUNING」、Technicolor Docket No. PU１００１９４）；
（７）国際出願第ＸＸＸＸ号（２０１１年９月ＸＸ日出願、発明の名称「METHODS AND APPARATUS FOR DECODING VIDEO SIGNALS FOR BLOCK-BASED MIXED-RESOLUTION DATA PRUNING」、Technicolor Docket No. PU１００２６８）；
（８）国際出願第ＸＸＸＸ号（２０１１年９月ＸＸ日出願、発明の名称「METHODS AND APPARATUS FOR EFFICIENT REFERENCE DATA ENCODING FOR VIDEO COMPRESSION BY IMAGE CONTENT BASED SEARCH AND RANKING」、Technicolor Docket No. PU１００１９５）；
（９）国際出願第ＸＸＸＸ号（２０１１年９月ＸＸ日出願、発明の名称「METHOD AND APPARATUS FOR EFFICIENT REFERENCE DATA DECODING FOR VIDEO COMPRESSION BY IMAGE CONTENT BASED SEARCH AND RANKING」、Technicolor Docket No. PU１１０１０６）；
（１０）国際出願第ＸＸＸＸ号（２０１１年９月ＸＸ日出願、発明の名称「METHOD AND APPARATUS FOR ENCODING VIDEO SIGNALS FOR EXAMPLE-BASED DATA PRUNING USING INTRA-FRAME PATCH SIMILARITY」、Technicolor Docket No. PU１００１９６）；
（１１）国際出願第ＸＸＸＸ号（２０１１年９月ＸＸ日出願、発明の名称「METHOD AND APPARATUS FOR DECODING VIDEO SIGNALS WITH EXAMPLE-BASED DATA PRUNING USING INTRA-FRAME PATCH SIMILARITY」、Technicolor Docket No. PU１００２６９）；
（１２）国際出願第ＸＸＸＸ号（２０１１年９月ＸＸ日出願、発明の名称「PRUNING DECISION OPTIMIZATION IN EXAMPLE-BASED DATA PRUNING COMPRESSION」、Technicolor Docket No. PU１０１９７）。

特許文献１などに記載された従来のアプローチにおいて、学習型超解像（ＳＲ）を用いる、圧縮のためのビデオデータのプルーニング（pruning）が提案された。データプルーニング（data pruning）のための学習型超解像では、高解像度の事例パッチと低解像度フレームとをデコーダに送信する。デコーダは、低解像度パッチを事例の高解像度パッチで置き換えて、高解像度フレームを復元する。

図１を参照するに、従前のアプローチの一態様を説明する。より具体的には、学習型超解像のエンコーダ側の処理を、参照数字１００で示す。入力ビデオは、ステップ１１０において、（パッチ抽出及びクラスタ器１５１による）パッチ抽出及びクラスタリングにかけられ、クラスタリングされたパッチを求める。さらに、入力ビデオは、ステップ１１５において、（ダウンサイザ１５３により）ダウンサイジングされ、ダウンサイズされたフレームが出力される。クラスタリングされたパッチは、ステップ１２０において（パッチパッカー１５２により）パッチフレームにパッキングされ、パッキングされたパッチフレームが出力される。

図２を参照するに、従前のアプローチの他の一態様を説明する。より具体的には、学習型超解像のデコーダ側の処理を、参照数字２００で示す。復号されたパッチフレームは、ステップ２１０において（パッチ抽出・処理器２５１により）パッチ抽出と処理がなされ、処理されたパッチを求める。処理されたパッチは、ステップ２１５において（パッチライブラリ２５２により）記憶される。復号されダウンサイジングされたフレームは、ステップ２２０において（アップサイザー２５３により）、アップサイズされる。アップサイジングされたフレームは、ステップ２２５において（パッチ検索・置換器２５４により）パッチ検索及び置換をされ、置換パッチを求める。置換パッチは、ステップ２３０において（後処理器２５５により）後処理され、高解像度フレームが得られる。

従前のアプローチの方法は、静的ビデオ（背景又は前景のオブジェクトに大きな動きがないビデオ）ではうまく行く。例えば、実験によると、ある種の静的ビデオの場合、圧縮効率は、学習型超解像を用いると、スタンドアロンのビデオエンコーダを用いる場合と比べて高くなる。スタンドアロンのビデオエンコーダとは、例えば、International Organization for Standardization / International Electro Technical Commission (ISO/IEC) Moving Picture Experts Group-４ (MPEG-４) Part １０ Advanced Video Coding (AVC) Standard / International Telecommunication Union, Telecommunication Sector (ITU-T) H.２６４ Recommendation（以下、MPEG-４ AVC Standardと呼ぶ）。

しかし、オブジェクト又は背景の動きが大きいビデオの場合、学習型超解像を用いた圧縮効率は、スタンドアロンMPEG-４ AVCエンコーダを用いた圧縮効率より悪くなることが多い。これは、動きが大きいビデオの場合、代表的なパッチを抽出するクラスタリングプロセスにおいては、パッチシフティングやその他の変換（例えば、ズーミング、回転など）非常に多くの冗長的な代表的パッチが生成され、パッチフレーム数が多くなり、パッチフレームの圧縮効率が低下するからである。

図３を参照するに、学習型超解像（example-based super-resolution）に対する従前のアプローチで用いられるクラスタリングプロセスを参照数字３００で示した。図３の例では、クラスタリングプロセスは６つのフレーム（フレーム１乃至フレーム６）に係わる。図３では、（動いている）オブジェクトが曲線で示されている。クラスタリングプロセス３００は、図３の上部と下部で示した。上部には、入力ビデオシーケンスの連続フレームからの入力パッチ３１０が示されている。下部には、クラスタに対応する代表的パッチ３２０が示されている。具体的に、下部には、クラスタ１の代表的パッチ３２１と、クラスタ２の代表的パッチ３２２とが示されている。

要するに、データプルーニング（data pruning）用の学習型超解像では、デコーダ（図１参照）に、高解像度事例パッチと低解像度フレームとを送信する。デコーダは、低解像度パッチを事例の高解像度パッチで置き換えて、高解像度フレームを復元する（図２参照）。しかし、上記の通り、動きが大きいビデオの場合、代表的なパッチを抽出するクラスタリングプロセスにおいては、パッチシフティング（図３参照）やその他の変換（例えば、ズーミング、回転など）非常に多くの冗長的な代表的パッチが生成され、パッチフレーム数が多くなり、パッチフレームの圧縮効率が低下する。

米国仮特許出願第６１／３３６５１６号（２０１０年１月２２日出願、出願人Dong-Qing Zhang, Sitaram Bhagavathy, and Joan Llach、発明の名称「Data pruning for video compression using example-based super-resolution」、Technicolor docket number PU １０００１４）

本願は、圧縮効率が改善されたビデオ圧縮のための動き補償学習型超解像の方法及び装置を開示する。

本原理の一態様によると、学習型超解像（example-based super-resolution）装置が提供される。本装置は、動きを有する入力ビデオシーケンスの動きパラメータを推定する動きパラメータ推定器を含む。入力ビデオシーケンスは複数の画像を含む。本装置は、複数の画像のうちの一又は複数を変換する画像ワーピングプロセスを行って、動きパラメータに基づき動き量を低減することにより、入力ビデオシーケンスの静的バージョンを提供する画像ワーパーも含む。本装置は、さらに、学習型超解像を行って、ビデオシーケンスの静的バージョンから一又は複数の高解像度置き換えパッチ画像を生成する学習型超解像プロセッサを含む。一又は複数の高解像度置き換えパッチ画像は、入力ビデオシーケンスの再構成の時に、一又は複数の低解像度パッチ画像を置き換えるものである。本原理の他の一態様によると、学習型超解像（example-based super-resolution）方法が提供される。本方法は、動きを有する入力ビデオシーケンスの動きパラメータを推定するステップを含む。入力ビデオシーケンスは複数の画像を含む。本方法は、複数の画像のうちの一又は複数を変換する画像ワーピングプロセスを行って、動きパラメータに基づき動き量を低減することにより、入力ビデオシーケンスの静的バージョンを提供するステップも含む。本方法は、さらに、学習型超解像を行って、ビデオシーケンスの静的バージョンから一又は複数の高解像度置き換えパッチ画像を生成するステップを含む。一又は複数の高解像度置き換えパッチ画像は、入力ビデオシーケンスの再構成の時に、一又は複数の低解像度パッチ画像を置き換えるものである。

本原理の他の一態様によると、学習型超解像（example-based super-resolution）装置が提供される。本装置は、動きのある入力ビデオシーケンスの静的バージョンから生成された高解像度置き換えパッチ画像のうちの一又は複数を受け取り、学習型超解像を行って、前記一又は複数の高解像度置き換えパッチ画像から前記入力ビデオシーケンスの静的バージョンの再構成バージョンを生成する学習型超解像プロセッサを有する。入力ビデオシーケンスの静的バージョンの再構成バージョンは複数の画像を含む。装置は、さらに、前記入力ビデオシーケンスの動きパラメータを受け取り、前記動きパラメータに基づいて逆画像ワーピングプロセスを行って、前記複数の画像のうち一又は複数を変換して、前記動きを有する入力ビデオシーケンスの再構成を生成する逆画像ワーパーとを有する。

本原理のさらに他の一態様によると、学習型超解像（example-based super-resolution）方法が提供される。本方法は、動きを有する入力ビデオシーケンスの動きパラメータと、前記入力ビデオシーケンスの静的バージョンから生成された一又は複数の高解像度置き換えパッチ画像とを受け取るステップを含む。また、本方法は、学習型超解像を行って、一又は複数の高解像度置き換えパッチ画像から、入力ビデオシーケンスの静的バージョンの再構成バージョンを生成するステップを含む。入力ビデオシーケンスの静的バージョンの再構成バージョンは複数の画像を含む。本方法は、さらに、前記動きパラメータに基づき逆画像ワーピングプロセスを行って、前記複数の画像のうちの一又は複数を変換して、前記動きを有する入力ビデオシーケンスの再構成を生成するステップを有する。

本原理のさらに他の一態様によると、学習型超解像（example-based super-resolution）装置が提供される。本装置は、動きを有する入力ビデオシーケンスの動きパラメータを推定する手段を含む。入力ビデオシーケンスは複数の画像を含む。本装置は、複数の画像のうちの一又は複数を変換する画像ワーピングプロセスを行って、動きパラメータに基づき動き量を低減することにより、入力ビデオシーケンスの静的バージョンを提供する手段も含む。本装置は、さらに、学習型超解像を行って、ビデオシーケンスの静的バージョンから一又は複数の高解像度置き換えパッチ画像を生成する手段を含む。一又は複数の高解像度置き換えパッチ画像は、入力ビデオシーケンスの再構成の時に、一又は複数の低解像度パッチ画像を置き換えるものである。

本原理の別の一態様によると、学習型超解像（example-based super-resolution）装置が提供される。本装置は、動きを有する入力ビデオシーケンスの動きパラメータと、前記入力ビデオシーケンスの静的バージョンから生成された一又は複数の高解像度置き換えパッチ画像とを受け取る手段を含む。また、本装置は、学習型超解像を行って、一又は複数の高解像度置き換えパッチ画像から、入力ビデオシーケンスの静的バージョンの再構成バージョンを生成する手段を含む。入力ビデオシーケンスの静的バージョンの再構成バージョンは複数の画像を含む。本装置は、さらに、前記動きパラメータに基づき逆画像ワーピングプロセスを行って、前記複数の画像のうちの一又は複数を変換して、前記動きを有する入力ビデオシーケンスの再構成を生成する手段を有する。

本原理の上記その他の態様、特徴、及び有利性は、添付した図面を参照して読むと、実施形態の詳細な説明から明らかとなるであろう。

本原理は以下の図面を参照してよりよく理解することができる。
従前のアプローチによる学習型超解像のエンコーダ側の処理を示すブロック図である。従前のアプローチによる学習型超解像のデコーダ側の処理を示すブロック図である。従前のアプローチによる学習型超解像に用いられるクラスタリングプロセスを示す図である。本原理の一実施形態による、オブジェクトの動きがあるビデオの静的ビデオへの変換例を示す図である。本原理の一実施形態によるエンコーダで用いられる、フレームワーピングを有する動き補償学習型超解像の装置例を示すブロック図である。本原理の一実施形態による、本原理を適用できるビデオエンコーダの一例を示すブロック図である。本原理の一実施形態による、エンコーダにおける動き補償学習型超解像の方法例を示すフロー図である。本原理の一実施形態によるデコーダにおける、逆フレームワーピングを有する動き補償学習型超解像の装置例を示すブロック図である。本原理の一実施形態による、本原理を適用できるビデオデコーダの一例を示すブロック図である。本原理の一実施形態による、デコーダにおける動き補償学習型超解像の方法例を示すフロー図である。

本原理は、ビデオ圧縮のための動き補償学習型超解像の方法と装置とに関する。

この説明は本原理を例示するものである。言うまでもなく、当業者は、ここには明示的に説明や図示はしていないが、本原理を化体し、その精神と範囲内に含まれる様々な構成を工夫することができる。

ここに記載したすべての例と条件付きの言葉は、発明者が技術発展に対してなした本原理とコンセプトとを、読者が理解しやすいようにするためのものであり、その解釈は具体的に記載した実施例や条件に限定されるべきではない。

さらに、本原理の原理、態様、実施形態、及びその実施例のすべての記載は、その構成的等価物及び機能的等価物の両方を含むものである。また、かかる等価物は、現在知られている等価物及び将来開発される等価物を含み、すなわち、構成にかかわらず同じ機能を発揮する開発されるすべての要素を含む。

よって、例えば、当業者には言うまでもなく、ここに説明したブロック図は本原理を化体する回路を概念的に示すものである。同様に、言うまでもなく、フローチャート、フロー図、状態遷移図、擬似コード等は、様々な方法（processes）を表し、これらの方法をコンピュータ読み取り可能媒体に実質的に表しても、（明示的に示していようがいまいが）コンピュータやプロセッサで実行してもよい。

図示した様々な要素の機能は、専用ハードウェアを用いても、ソフトウェアを実行可能なハードウェアと適当なソフトウェアとを組み合わせても提供できる。プロセッサを設けるとき、機能を単一の専用プロセッサで提供してもよいし、共有された単一のプロセッサで提供してもよいし、一部が共有された複数の個別プロセッサで提供してもよい。さらに、「プロセッサ」または「コントローラ」という用語を明示的に使用した場合、ソフトウェアを実行できるハードウェアのみをいうと解釈してはならず、限定はされないが、デジタルシグナルプロセッサ（ＤＳＰ）、ソフトウェアを記憶するＲＯＭ、ＲＡＭ、不揮発性記憶装置を黙示的に含んでもよい。

その他のハードウェアを従来のものでもカスタムのものであっても含んでもよい。同様に、図面に示したスイッチは概念的なものである。スイッチの機能は、プログラムロジックの動作、専用ロジックの動作、プログラム制御や専用ロジックのインターラクション、またはマニュアルで実行されてもよく、具体的な方法は実施者が文脈から判断して選択できる。

請求項において、特定の機能を実行する手段として表した要素は、その機能を実行するいかなる方法も含み、例えば、ａ）その機能を実行する回路要素の組合せと、ｂ）ファームウェアやマイクロコード等を含む任意の形式のソフトウェア及びそれと組み合わせたその機能を実行する適当な回路とを含む。請求項に記載した本原理は、記載した様々な手段が提供する機能を、請求項に記載したように組み合わせることにある。よって、これらの機能を提供できる手段はどれでも、ここに示したものと等化であると見なせる。

明細書において、本発明の「一実施形態」、またはそのバリエーションと言う場合、本発明の少なくとも１つの実施形態に含まれるその実施形態に関して説明する具体的な特徴、構造、特性などを意味する。それゆえ、本明細書を通していろいろなところに記載した「一実施形態において」またはそのバリエーションは、必ずしもすべてが同じ実施形態を参照するものではない。

言うまでもなく、例えば、「Ａ／Ｂ」、「Ａ及び／又はＢ」、および「ＡとＢの少なくとも一方」のうちの「及び／又は」および「少なくとも一方」などと言うとき、第１のオプション（Ａ）のみを選択する場合、第２のオプション（Ｂ）のみを選択する場合、又は両方のオプション（ＡとＢ）を選択する場合を含むものとする。別の例として、例えば、「Ａ、Ｂ、及び／又はＣ」、および「Ａ、Ｂ、及びＣの少なくとも一方」などと言うとき、第１のオプション（Ａ）のみを選択する場合、第２のオプション（Ｂ）のみを選択する場合、第３のオプション（Ｃ）のみを選択する場合、第１と第２のオプション（ＡとＢ）のみを選択する場合、第２と第３のオプション（ＢとＣ）を選択する場合、第１と第３のオプション（ＡとＣ）を選択する場合、又は３つすべてのオプション（ＡとＢとＣ）を選択する場合を含むものとする。本技術分野及び関連技術分野の当業者には明らかなように、これは多数の場合にも拡張できる。

また、ここで、「ピクチャ（picture）」と「画像（image）」との用語は、交換可能に使い、静止画像とビデオシーケンスの画像とを言う。知られているように、ピクチャはフレーム又はフィールドであってもよい。

上記の通り、本原理は、ビデオ圧縮のための動き補償学習型超解像の方法と装置とに関する。有利にも、本原理は、冗長な代表パッチの数を減らし、圧縮効率を上げる方法を提供する。

本原理により、本願は、背景及びオブジェクトの動きが大きいビデオセグメントを、比較的静的なビデオセグメントに変換するコンセプトを開示する。より具体的に、図４において、オブジェクトの動きがあるビデオの静的ビデオへの変換の一例を、参照数字４００で示した。変換４００は、オブジェクトの動き４１０を有するビデオのフレーム１、フレーム２、及びフレーム３に適用して、静的ビデオ４２０のフレーム１、フレーム２、及びフレーム３を求めるフレームワーピング変換を含む。変換４００は、クラスタリングプロセス（すなわち、学習型超解像の方法のエンコーダ側の処理コンポーネント）と符号化プロセスの前に行われる。変換パラメータは、復元のためデコーダ側に送信される。学習型超解像方法により、静的ビデオの圧縮効率は高くなり、変換パラメータデータのサイズは通常は非常に小さいので、動きのあるビデオを静的ビデオに変換することにより、動きのあるビデオでも圧縮効率を潜在的に上げることができる。

図５を参照して、エンコーダで用いるフレームワーピングを有する動き補償学習型超解像の装置例を、参照数字５００で示した。装置５００は、画像ワーパー５２０の入力と信号通信し得る第１の出力を有する動きパラメータ推定器５１０を含む。画像ワーパー５２０の出力は、学習型超解像エンコーダ側プロセッサ５３０の入力と信号通信可能に接続されている。学習型超解像エンコーダ側プロセッサ５３０の第１の出力は、エンコーダ５４０の入力と信号通信可能に接続され、それにダウンサイズされたフレームを供給する。学習型超解像エンコーダ側プロセッサ５３０の第２の出力は、エンコーダ５４０の入力と信号通信可能に接続され、それにパッチフレームを供給する。動きパラメータ推定器５１０の第２の出力は、装置５００の出力となり、動きパラメータを供給する。動きパラメータ推定器５１０の入力は、装置５００の入力となり、入力ビデオを受け取る。エンコーダ５４０の出力（図示せず）は、装置５００の第２の出力となり、ビットストリームを出力する。ビットストリームには、例えば、符号化されたダウンサイズされたフレーム、エンコーダパッチフレーム、及び動きパラメータを含む。

言うまでもなく、エンコーダ５４０により行われる機能すなわち符号化を行わずに、ダウンサイズされたフレーム、パッチフレーム、及び動きパラメータを、圧縮せずにデコーダ側に送信してもよい。しかし、ビットレートを節約するため、ダウンサイズされたフレームとパッチフレームは、デコーダ側に送信される前に、（エンコーダ５４０により）圧縮されることが好ましい。さらに、他の一実施形態では、動きパラメータ推定器５１０、画像ワーパー５２０、及び学習型超解像エンコーダ側プロセッサ５３０は、ビデオエンコーダに、又はその一部に含まれていても良い。

よって、エンコーダ側では、クラスタリングプロセスを行う前に、（動きパラメータ推定器５１０により）動き推定を行い、（画像ワーパー５２０により）フレームワーピングプロセスを用いて、オブジェクト又は背景の動きを有するフレームを比較的静的なビデオに変換する。動き推定プロセスで抽出されたパラメータは、別のチャンネルを通じてデコーダ側に送信される。

図６を参照して、本原理を適用できるビデオエンコーダを参照数字６００で示した。ビデオエンコーダ６００は、コンバイナ６８５の非反転入力と信号通信している出力を有するフレーム順序付けバッファ６１０を含む。コンバイナ６８５の出力は変換器及び量子化器６２５の第１の入力と接続され信号通信している。変換器及び量子化器６２５の出力は、エントロピーコーダ６４５の第１の入力及び逆変換器及び逆量子化器６５０の第１の入力と接続され信号通信している。エントロピーコーダ６４５の出力は、コンバイナ６９０の第１の非反転入力と接続され信号通信している。コンバイナ６９０の出力は出力バッファ６３５の第１の入力と接続され信号通信している。

エンコーダコントローラ６０５の第１の出力は、フレーム順序付けバッファ６１０の第２の入力と、逆変換器及び逆量子化器６５０の第２の入力と、ピクチャタイプ決定モジュール６１５の入力と、マクロブロックタイプ（ＭＢタイプ）決定モジュール６２０の第１の入力と、イントラ予測モジュール６６０の第２の入力と、デブロッキングフィルタ６６５の第２の入力と、動き補償器６７０の第１の入力と、動き推定器６７５の第１の入力と、基準ピクチャバッファ６８０の第２の入力と接続され、信号通信している。

エンコーダコントローラ６０５の第２の出力は、サプリメンタルエンハンスメント情報（ＳＥＩ）挿入器６３０の第１の入力と、変換器及び量子化器６２５の第２の入力と、エントロピーコーダ６４５の第２の入力と、出力バッファ６３５の第２の入力と、シーケンスパラメータセット（ＳＰＳ）及びピクチャパラメータセット（ＰＰＳ）挿入器６４０の入力とに接続され、信号通信している。

ＳＥＩ挿入器６３０の出力は、コンバイナ６９０の第２の非反転入力と接続され信号通信している。

ピクチャタイプ決定モジュール６１５の第１の出力は、フレーム順序付けバッファ６１０の第３の入力に接続され信号通信している。ピクチャタイプ決定モジュール６１５の第２の出力は、マクロブロックタイプ決定モジュール６２０の第２の入力に接続され信号通信している。

シーケンスパラメータセット（ＳＰＳ）及びピクチャパラメータセット（ＰＰＳ）挿入器６４０の出力は、コンバイナ６９０の第３の非反転入力と接続され信号通信している。

逆量子化及び逆変換器６５０の出力は、コンバイナ６１９の第１の非反転入力と接続され信号通信している。コンバイナ６１９の出力は、イントラ予測モジュール６６０の第１の入力と、及びデブロッキングフィルタ６６５の第１の入力と接続され、信号通信している。デブロッキングフィルタ６６５の出力は基準ピクチャバッファ６８０の第１の入力と接続され、信号通信している。基準ピクチャバッファ６８０の出力は、動き推定器６７５の第２の入力と、及び動き補償器６７０の第３の入力と接続され、信号通信している。動き推定器６７５の第１の出力は動き補償器６７０の第２の入力と接続され、信号通信している。動き推定器６７５の第２の出力はエントロピーコーダ６４５の第３の入力と接続され、信号通信している。

動き補償器６７０の出力はスイッチ６９７の第１の入力と接続され、信号通信している。イントラ予測モジュール６６０の出力はスイッチ６９７の第２の入力と接続され、信号通信している。マクロブロックタイプ決定モジュール６２０の出力はスイッチ６９７の第３の入力と接続され、信号通信している。スイッチ６９７の第３の入力は、スイッチの「データ」入力が、（制御入力すなわち第３の入力と比較して）動き補償器６７０から提供されるか、又はイントラ予測モジュール６６０から提供されるか、判断する。スイッチ６９７の出力は、コンバイナ６１９の第２の非反転入力と、及びコンバイナ６８５の反転入力と接続され、信号通信している。

フレーム順序付けバッファ６１０の第１の入力と、エンコーダコントローラ６０５の入力は、入力ピクチャを受け取る、エンコーダ６００の入力としても利用可能である。さらに、サプリメンタルエンハンスメント情報（ＳＥＩ）挿入器６３０の第２の入力は、メタデータを受け取る、エンコーダ６００の入力としても利用可能である。出力バッファ６３５の出力は、ビットストリームを出力する、エンコーダ１００の出力として利用できる。

言うまでもなく、図５のエンコーダは、エンコーダ６００として実施してもよい。

図７を参照して、エンコーダで用いる動き補償学習型超解像の方法例を、参照数字７００で示した。方法７００は、開始ブロック７０５を含み、開始ブロック７１０は機能ブロック７１０に制御を渡す。機能ブロック７１０は、オブジェクトの動きを有するビデオを入力して、機能ブロック７１５に制御を渡す。機能ブロック７１５は、オブジェクトの動きを有する入力ビデオの動きパラメータを推定して保存し、ループ制限ブロック７２０に制御を渡す。ループ制限ブロック７２０は、各フレームについてループを行い、機能ブロック７２５に制御を渡す。機能ブロック７２５において、推定された動きパラメータを用いて、現在のフレームをワープし、決定ブロック７３０に制御を渡す。決定ブロック７３０は、すべてのフレームの処理が終わったか判断する。すべてのフレームの処理が終われば、機能ブロック７３５に制御を渡す。終わっていなければ、機能ブロック７２０に制御を戻す。機能ブロック７３５において、学習型超解像エンコーダ側処理を行い、機能ブロック７５０に制御を渡す。機能ブロック７４０は、ダウンサイズされたフレームと、パッチフレームと、動きパラメータとを出力し、終了ブロック７９９に制御を渡す。

図８を参照して、デコーダにおける逆フレームワーピングを有する動き補償学習型超解像の装置例を、参照数字８００で示した。装置８００は、デコーダ８１０を含み、上記のエンコーダ５４０を含む装置５００により生成された信号を処理する。装置８００は、学習型超解像デコーダ側プロセッサ８２０の第１の入力及び第２の入力と信号通信可能な出力を有するデコーダ８１０を含み、学習型超解像デコーダ側プロセッサ８２０に、（復号され）ダウンサイズされたフレームとパッチフレームをそれぞれ供給する。学習型超解像デコーダ側プロセッサ８２０の出力は、逆フレームワーパー８３０の入力と信号通信可能に接続され、それに超解像ビデオを供給する。逆フレームワーパー８３０の出力は、ビデオを出力する装置８００の出力となる。逆フレームワーパー８３０の入力は、動きパラメータの受け取りに使える。

言うまでもなく、デコーダ８１０により行われる機能すなわち復号を行わずに、ダウンサイズされたフレーム及びパッチフレームを、圧縮せずにデコーダ側で受信してもよい。しかし、ビットレートを節約するため、ダウンサイズされたフレームとパッチフレームは、デコーダ側に送信される前に、エンコーダ側で圧縮されることが好ましい。さらに、他の一実施形態では、学習型超解像デコーダ側プロセッサ８２０と逆フレームワーパーは、ビデオデコーダ又はその一部に含まれても良い。

よって、デコーダ側では、フレームが学習型超解像により復元された後、逆ワーピングプロセスを行って、復元されたビデオセグメントを元のビデオの座標系に変換する。逆ワーピングプロセスは、エンコーダ側で推定され送信された動きパラメータを用いる。

図９を参照して、本原理を適用できるビデオデコーダの一例を参照数字９００で示した。ビデオデコーダ９００は入力バッファ９１０を含む。入力バッファ６１０の出力は、エントロピーデコーダ９４５の第１の入力と接続され、信号通信している。エントロピーデコーダ９４５の第１の出力は逆変換及び逆量子化器９５０の第１の入力と接続され、信号通信している。逆量子化及び逆変換器９５０の出力は、コンバイナ９２５の第２の非反転入力と接続され、信号通信している。コンバイナ９２５の出力は、デブロッキングフィルタ９６５の第２の入力と、及びイントラ予測モジュール９６０の第１の入力と接続され、信号通信している。デブロッキングフィルタ９６５の第２の出力は基準ピクチャバッファ９８０の第１の入力と接続され、信号通信している。基準ピクチャバッファ９８０の出力は動き補償器９７０の第２の入力と接続され、信号通信している。

エントロピーデコーダ９４５の第２の出力は、動き報償器９７０の第３の入力と、デブロッキングフィルタ９６５の第１の入力と、及びイントラ予測器９６０の第３の入力と接続され、信号通信している。エントロピーデコーダ９４５の第３の出力はデコーダコントローラ９０５の入力と接続され、信号通信している。デコーダコントローラ９０５の第１の出力はエントロピーデコーダ９４５の第２の入力と接続され、信号通信している。デコーダコントローラ９０５の第２の出力は逆変換及び逆量子化器９５０の第２の入力と接続され、信号通信している。デコーダコントローラ９０５の第３の出力はデブロッキングフィルタ９６５の第３の入力と接続され、信号通信している。デコーダコントローラ９０５の第４の出力はイントラ予測モジュール９６０の第２の入力と、動き補償器９７０の第１の入力と、基準ピクチャバッファ９８０の第２の入力と接続され、信号通信している。

動き補償器９７０の出力はスイッチ９９７の第１の入力と接続され、信号通信している。イントラ予測モジュール９６０の出力はスイッチ９９７の第２の入力と接続され、信号通信している。スイッチ９９７の出力は、コンバイナ９２５の第１の非反転入力と接続され、信号通信している。

入力バッファ９１０の入力は、入力ビットストリームを受け取る、デコーダ９００の入力として利用できる。デブロッキングフィルタ９６５の第１の出力は、出力ピクチャを出力する、デコーダ９００の出力として利用できる。

言うまでもなく、図８のデコーダは、デコーダ９００として実施してもよい。

図１０を参照して、デコーダで用いる動き補償学習型超解像の方法例を、参照数字１０００で示した。方法１０００は、開始ブロック１００５を含み、開始ブロック１００５は機能ブロック１０１０に制御を渡す。機能ブロック１０１０は、ダウンサイズされたフレームと、パッチフレームと、動きパラメータとを出力し、機能ブロック１０１５に制御を渡す。機能ブロック１０１５において、学習型超解像デコーダ側処理を行い、ループ制限ブロック１０２０に制御を渡す。ループ制限ブロック１０２０は、各フレームについてループを行い、機能ブロック１０２５に制御を渡す。機能ブロック１０２５において、受信した動きパラメータを用いて逆フレームワーピングし、決定ブロック１０３０に制御を渡す。決定ブロック１０３０は、すべてのフレームの処理が終わったか判断する。すべてのフレームの処理が終われば、機能ブロック１０３５に制御を渡す。終わっていなければ、機能ブロック１０２０に制御を戻す。機能ブロック１０３５において、復元したビデオを出力し、終了ブロック１０９９に制御を渡す。

入力ビデオはグループオブフレーム（ＧＯＦ）に分割される。各ＧＯＦは、動き推定、フレームワーピング、及び学習型超解像のための基本単位である。ＧＯＦの複数のフレームのうちの一フレーム（例えば、中間又は始めのフレーム）が、動き推定の基準フレームとして選択される。ＧＯＦの長さは固定でも可変でもよい。

動き推定
動き推定を用いて、フレーム中の画素の基準フレームに対する変位を推定する。動きパラメータをデコーダ側に送信しなければならないので、動きパラメータの数はできるだけ少ない方がよい。それゆえ、少数のパラメータにより制御できる、あるパラメトリック動きモデルを選択することが好ましい。例えば、ここに開示する現在のシステムでは、８個のパラメータで特徴付けられる平面動きモデルを利用する。かかるパラメトリック動きモデルは、並進、回転、アフィンワープ（affine warp）、投影変換などのフレーム間のグローバルな動きをモデル化できる。これらの動きは異なる多くのタイプのビデオに共通のものである。例えば、カメラがパンするとき、カメラパニング（camera panning）は並進運動となる。このモデルでは、前景のオブジェクトの動きはよくキャプチャできないこともあるが、前景のオブジェクトが小さく、背景の動きが大きい場合、変換後のビデオはほとんど静的なものとなる。もちろん、８個のパラメータにより特徴付けられるパラメトリック動きモデルは、単なる例示であり、本原理の教示により、本原理の精神を維持しつつ、８個より多い又は少ないパラメータで、又は８個のパラメータで特徴付けられる他のパラメトリック動きモデルを用いてもよい。

一般性を失わずに、基準フレームをＨ_１、ＧＯＦ中の残りのフレームをＨ_ｉ（ｉ＝２，３，．．．，Ｎ）とする。２つのフレームＨ_ｉとフレームＨ_ｊとの間のグローバルな動きは、Ｈ_ｉ中の画素をＨ_ｊ中の対応する画素の位置に、又はその逆に動かす変換により、特徴付けられる。Ｈ_ｉからＨ_ｊへの変換をΘ_ｉｊと記し、そのパラメータをθ_ｉｊと記す。変換Θ_ｉｊを用いてＨ_ｉをＨ_ｊに（又は逆モデルΘ_ｊｉ＝Θ_ｉｊ ^−１を用いてその逆に）アライメント（すなわちワープ）することができる。

グローバルな動きは、いろいろなモデルと方法を用いて推定でき、そのため、本原理は、グローバルな動きを推定する特定の方法及び／又はモデルに限定されない。一例として、よく使われる一モデル（ここで参照する現在のシステムで用いられるモデル）は、

で与えられる投影変換である。

上記の式により、Ｈ_ｉ中の位置（ｘ，ｙ）にある画素が移った、Ｈ_ｊ中の新しい位置（ｘ’，ｙ’）が与えられる。このように、８個のモデルパラメータθ_ｉｊ＝｛ａ_１，ａ_２，ａ_３，ｂ_１，ｂ_２，ｂ_３，ｃ_１，ｃ_２｝がＨ_ｉからＨ_ｊへの動きを記述する。通常、パラメータは、最初に２つのフレーム間の一組の点対応を決定し、次にRANdom SAmple Consensus (RANSAC)又はそのバリエーションを用いて、ロバスト推定フレームワークを用いることにより、推定される。このバリエーションは、例えば次の文献に記載されているものである：M. A. Fischler and R. C. Bolles, "Random Sample Consensus: A Paradigm for Model Fitting with Applications to Image Analysis and Automated Cartography," Communications of the ACM, vol. ２４, １９８１, pp. ３８１-３９５、及びP. H. S. Torr and A. Zisserman, "MLESAC: A New Robust Estimator with Application to Estimating Image Geometry," Journal of Computer Vision and Image Understanding, vol. ７８, no. １, ２０００, pp. １３８-１５６。フレーム間の点対応は、多数の方法で決定できる。例えば、文献D. G. Lowe, "Distinctive image features from scale- invariant keypoints," International Journal of Computer Vision, vol. ２, no. ６０, ２００４, pp. ９１-１１０に記載されているような、SIFT（Scale-InvariantFeature Transform）特性を抽出してマッチングすることにより、又は、文献M. J. Black and P. Anandan, "The robust estimation of multiple motions: Parametric and piecewise-smooth flow fields," Computer Vision and Image Understanding, vol. ６３, no. １, １９９６, pp. ７５-１０４に記載されているようなオプティカルフロー（optical flow）を用いることにより、決定できる。

グローバルな動きパラメータを用いて、ＧＯＦ中の（基準フレームを除く）フレームをワープ（warp）して、基準フレームとアライメント（align）する。それゆえ、各フレームＨ_ｉ（ｉ＝２，３，．．．，Ｎ）と基準フレーム（Ｈ_１）との間の動きパラメータを推定しなければならない。変換は可逆であり、逆変換Θ_ｊｉ＝Θ_ｉｊ ^−１はＨ_ｊからＨ_ｉへの動きを記述する。変換結果のフレームを元のフレームにワープするために逆変換を用いる。元のビデオセグメントを復元するため、デコーダ側で逆変換を用いる。変換パラメータは圧縮され、サイドチャンネルを通じてデコーダ側に送信され、ビデオ復元プロセスを促進する。

本原理により、グローバル動きモデルの他に、ブロックベース法などの動き推定方法を用いて、より高い精度を達成できる。ブロックベースの方法により、フレームを複数のブロックに分割して、各ブロックの動きモデルを推定する。しかし、ブロックベースモデルを用いて動きを記述するには、非常に多いビットが必要である。

フレームワーピング及び逆フレームワーピング
動きパラメータを推定した後、エンコーダ側において、フレームワーピングプロセスを行い、非基準フレームを基準フレームにアライメント（align）する。しかし、ビデオフレーム中のあるエリアが、上記のグローバル動きモデルに従わない可能性もある。フレームワーピングを用いることにより、これらのエリアは、そのフレーム中の残りのエリアとともに変換される。しかし、このエリアが小さければ、これは大きな問題とはならない。このエリアのワーピングにより、ワープされたフレーム中のこのエリアにだけに人工的な動きが生じるからである。人工的な動きを有するこのエリアが小さい限り、そのための代表パッチが大幅に増加することにはならない。全体的に、ワーピングプロセスにより、代表パッチの総数を低減することができる。また、小さいエリアの人工的な動きは、逆ワーピングプロセスにより可逆される。

逆フレームワーピングプロセスは、デコーダ側で行われ、学習型超解像コンポーネントからの復元されたフレームをワープして元の座標系に戻す。

本原理の上記その他の特徴と利点は、当業者はここに開示した教示に基づき容易に確認できるであろう。言うまでもなく、本原理の教示は、ハードウェア、ソフトウェア、ファームウェア、特殊用途プロセッサ、またはこれらの組み合わせなどのいろいろな形体で実施することができる。

最も好ましくは、本原理の教示をハードウェアとソフトウェアの組合せとして実施する。また、ソフトウェアはプログラム記録装置に実態的に化体されたアプリケーションプログラムとして実施してもよい。そのアプリケーションプログラムは、好適なアーキテクチャを有する機械にアップロードされ、実行される。好ましくは、機械は、中央処理装置（ＣＰＵ）、ランダムアクセスメモリ（ＲＡＭ）、及び入出力（Ｉ／Ｏ）インターフェイス等のハードウェアを有するコンピュータプラットフォームで実施される。コンピュータプラットフォームはオペレーティングシステムとマイクロコードも含んでもよい。ここに説明した様々なプロセスや機能は、ＣＰＵが実行できる、マイクロ命令コードの一部やアプリケーションプログラムの一部であってもよく、これらのいかなる組合せであってもよい。また、追加的データ記憶装置や印刷装置等その他の様々な周辺装置をコンピュータプラットフォームに接続してもよい。

さらに言うまでもなく、添付した図面に示したシステム構成要素や方法の一部はソフトウェアで実施されることが好ましいが、システム構成要素（または方法）間の実際的な結合は本原理をプログラムするそのプログラム方法に応じて異なる。ここに開示された本発明の教示を受けて、関連技術分野の当業者は、本原理の同様な実施形態や構成を考えることができるであろう。

例示した実施形態を添付した図面を参照して説明したが、言うまでもなく、本原理はこれらの実施形態には限定されず、当業者は、本原理の範囲と精神から逸脱することなく、様々な変化と修正を施すことができるであろう。かかる変更や修正はすべて添付した請求項に記載した本原理の範囲内に含まれるものである。

Claims

動きのある入力ビデオシーケンスの静的バージョンから生成された高解像度置き換えパッチ画像のうちの一又は複数を受け取り、学習型超解像を行って、前記一又は複数の高解像度置き換えパッチ画像から前記入力ビデオシーケンスの静的バージョンの再構成バージョンを生成する、前記入力ビデオシーケンスの静的バージョンの再構成バージョンは複数の画像を含む学習型超解像プロセッサと、
前記入力ビデオシーケンスの動きパラメータを受け取り、前記動きパラメータに基づいて逆画像ワーピングプロセスを行って、前記複数の画像のうち一又は複数を変換して、前記動きを有する入力ビデオシーケンスの再構成を生成する逆画像ワーパーとを有する、
装置。
前記学習型超解像プロセッサは、前記入力ビデオシーケンスからの一又は複数のダウンサイズされた画像を受け取り、前記一又は複数のダウンサイズされた画像は、前記動きを有する入力ビデオシーケンスの再構成の生成に用いる、
請求項１に記載の装置。
ビットストリームから前記動きパラメータと前記一又は複数の高解像度置き換えパッチ画像を復号するデコーダをさらに有する、
請求項１に記載の装置。
前記装置はビデオデコーダモジュールに含まれている、
請求項１に記載の装置。
前記逆画像ワーピングプロセスは、前記複数の画像よりなるグループオブピクチャ中の基準画像を、前記グループオブピクチャ中の非基準画像とアライメントする、
請求項１に記載の装置。
動きを有する入力ビデオシーケンスの動きパラメータと、前記入力ビデオシーケンスの静的バージョンから生成された一又は複数の高解像度置き換えパッチ画像とを受け取るステップと、
学習型超解像を行って、前記一又は複数の高解像度置き換えパッチ画像から前記入力ビデオシーケンスの静的バージョンの再構成バージョンを生成する、前記入力ビデオシーケンスの静的バージョンの再構成バージョンは複数の画像を有するステップと、
前記動きパラメータに基づき逆画像ワーピングプロセスを行って、前記複数の画像のうちの一又は複数を変換して、前記動きを有する入力ビデオシーケンスの再構成を生成するステップとを有する、方法。
前記学習型超解像を行うステップは、前記入力ビデオシーケンスからの一又は複数のダウンサイズされた画像を受け取るステップを有し、前記一又は複数のダウンサイズされた画像は、前記動きを有する入力ビデオシーケンスの再構成の生成に用いる、
請求項６に記載の方法。
ビットストリームから前記動きパラメータと前記一又は複数の高解像度置き換えパッチ画像を復号するステップをさらに有する、
請求項６に記載の方法。
前記方法はビデオデコーダで行われる、
請求項６に記載の方法。
前記逆画像ワーピングプロセスは、前記複数の画像よりなるグループオブピクチャ中の基準画像を、前記グループオブピクチャ中の非基準画像とアライメントする、
請求項６に記載の方法。
動きを有する入力ビデオシーケンスの動きパラメータと、前記入力ビデオシーケンスの静的バージョンから生成された一又は複数の高解像度置き換えパッチ画像とを受け取る手段と、
学習型超解像を行って、前記一又は複数の高解像度置き換えパッチ画像から前記入力ビデオシーケンスの静的バージョンの再構成バージョンを生成する、前記入力ビデオシーケンスの静的バージョンの再構成バージョンは複数の画像を有する手段と、
前記動きパラメータに基づき逆画像ワーピングプロセスを行って、前記複数の画像のうちの一又は複数を変換して、前記動きを有する入力ビデオシーケンスの再構成を生成する手段とを有する、装置。
前記学習型超解像を行う手段は、前記入力ビデオシーケンスからの一又は複数のダウンサイズされた画像を受け取り、前記一又は複数のダウンサイズされた画像は、前記動きを有する入力ビデオシーケンスの再構成の生成に用いる、
請求項１１に記載の装置。
ビットストリームから前記動きパラメータと前記一又は複数の高解像度置き換えパッチ画像を復号する手段をさらに有する、
請求項１１に記載の装置。
前記逆画像ワーピングプロセスは、前記複数の画像よりなるグループオブピクチャ中の基準画像を、前記グループオブピクチャ中の非基準画像とアライメントする、
請求項１１に記載の装置。