JP6425219B2 - 映像符号化のための学習に基づく分割 - Google Patents

映像符号化のための学習に基づく分割 Download PDF

Info

Publication number
JP6425219B2
JP6425219B2 JP2017511723A JP2017511723A JP6425219B2 JP 6425219 B2 JP6425219 B2 JP 6425219B2 JP 2017511723 A JP2017511723 A JP 2017511723A JP 2017511723 A JP2017511723 A JP 2017511723A JP 6425219 B2 JP6425219 B2 JP 6425219B2
Authority
JP
Japan
Prior art keywords
frame
classifier
option
cost
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2017511723A
Other languages
English (en)
Other versions
JP2017529780A (ja
Inventor
ストーバウ、ジョン、デイビッド
ラトナー、エドワード
Original Assignee
リリカル ラブズ ビデオ コンプレッション テクノロジー、エルエルシー
リリカル ラブズ ビデオ コンプレッション テクノロジー、エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by リリカル ラブズ ビデオ コンプレッション テクノロジー、エルエルシー, リリカル ラブズ ビデオ コンプレッション テクノロジー、エルエルシー filed Critical リリカル ラブズ ビデオ コンプレッション テクノロジー、エルエルシー
Publication of JP2017529780A publication Critical patent/JP2017529780A/ja
Application granted granted Critical
Publication of JP6425219B2 publication Critical patent/JP6425219B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/192Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding the adaptation method, adaptation tool or adaptation type being iterative or recursive
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Description

[関連出願の相互参照]
本願は、2014年8月26日に出願された米国実用特許出願第14/737,401号、及び米国特許仮出願第62/042,188号の優先権を主張し、これによりその全体は全ての目的の参照により本明細書に組み込まれる。
符号化のために映像フレームをより小さいブロックに細分化する技術は、h.261の公開以来、h.26xファミリの映像符号化規格に共通している。最新バージョンのh.265は、64サンプルまでのサイズのブロックを用い、これまでのバージョンより多数の参照フレームと大きい動きベクトル範囲とを利用する。更に、これらのブロックは、より小さいサブブロックに分割され得る。h.265のフレームサブブロックは、符号化ツリー単位(CTU)と呼ばれている。H.264及びVP8では、これらはマクロブロックとして知られており、16×16である。これらのCTUは、符号化単位(CU)と呼ばれるより小さいブロックに細分化され得る。CUは異なるフレームの位置を参照するときにより大きな柔軟性を提供するが、複数のCU候補に対して実行される複数のコスト計算に起因して、CUはまた位置を探し出すのに計算コストが高くなり得る。多くの場合、最終的な符号化において、多数のCU候補は用いられない。
最終的なCTUを選択するための一般的な方法はクアッドツリー、つまり再帰的構造を用いる。CUの動きベクトル及びコストが計算される。CUは複数の(例えば4つの)部分に分割され得、類似のコスト調査がそれぞれに対して実行され得る。この細分化及び調査は、各CUのサイズが4×4のサンプルになるまで継続し得る。全ての実行可能な動きベクトルの各サブブロックのコストが計算されると、これらが組み合わされて新たなCU候補を形成する。次に新たな候補は元のCU候補と比較され、より高いレート歪みコストを有するCU候補が破棄される。このプロセスは、最終的なCTUが符号化用に生成されるまで繰り返し行われ得る。上述の手法を用いると、各CTUにおいて、分割済みCU候補と未分割CU候補との両方に対して、不要な計算が行われ得る。更に、従来のエンコーダはローカル情報のみを調査し得る。
例1において、映像を符号化するための方法は、フレームを有する映像データを受信する段階と、分割オプションを識別する段階と、分割オプションに対応する少なくとも1つの特性を識別する段階と、少なくとも1つの特性を入力としてクラシファイアに提供する段階と、識別された分割オプションに従ってフレームを分割するかどうかを、クラシファイアに基づいて決定する段階とを備える。
例1の方法である例2において、分割オプションは符号化ツリー単位(CTU)を含む。
例2の方法である例3において、分割オプションを識別する段階は、第1の候補符号化単位(CU)と第2の候補CUとを識別する段階と、第1の候補CUに関連する第1のコスト及び第2の候補CUに関連する第2のコストを決定する段階と、第1のコストが第2のコストより低いことを決定する段階とを有する。
例3の方法である例4において、少なくとも1つの特性は、第1の候補CUの少なくとも1つの特性を含む。
例1〜例4の何れかの方法である例5において、分割オプションに対応する少なくとも1つの特性を識別する段階は、以下のうち少なくとも1つを決定する段階を有し、それらは、第1の候補CUと、セグメント、オブジェクト、及び複数のオブジェクトのグループのうち少なくとも1つとの間のオーバーラップ、映像フレームの平均符号化コストに対する第1の候補CUの符号化コストの比、隣接するCTUの分割決定履歴、及び第1の候補CUに対応するCTUクアッドツリー構造のレベルである。
例1〜例5の何れかの方法である例6において、少なくとも1つの特性を入力としてクラシファイアに提供する段階は、特性ベクトルをクラシファイアに提供する段階を有し、特性ベクトルは少なくとも1つの特性を含む。
例1〜例6の何れかの方法である例7において、クラシファイアはニューラルネットワーク又はサポートベクターマシンを含む。
例8において、例1〜例7の何れかの方法は、複数のテスト映像を受信する段階と、トレーニングデータを生成すべく複数のテスト映像のそれぞれを分析する段階と、生成されたトレーニングデータを用いてクラシファイアをトレーニングする段階とを更に備える。
例8の方法である例9において、トレーニングデータは、ローカライズされたフレーム情報、グローバルフレーム情報、オブジェクトグループ分析からの出力、及びセグメント化からの出力のうち少なくとも1つを含む。
例8〜例9の何れかの方法である例10において、トレーニングデータは、ローカルCUのコストに対するテストフレームの平均コストの比をテストフレームに含む。
例8〜例10の何れかの方法である例11において、トレーニングデータは、ローカルCTUのコスト決定履歴をテストフレームに含む。
例11の方法である例12において、ローカルCTUのコスト決定履歴は、分割されたCUが、対応する最終的なCTUに用いられる回数のカウントを含む。
例8〜例12の何れかの方法である例13において、トレーニングデータは初期符号化単位決定を含む。
例8〜例13の何れかの方法である例14において、トレーニングデータはCUに対応するCTUツリー構造のレベルを含む。
例15において、例1〜例16の何れかの方法は、フレームに対してセグメント化を実行して複数のセグメント化結果を生成する段階と、フレームに対してオブジェクトグループ分析を実行して複数のオブジェクトグループ分析結果を生成する段階と、クラシファイア、複数のセグメント化結果、及び複数のオブジェクトグループ分析結果に基づいて、識別された分割オプションに従ってフレームを分割するかどうかを決定する段階とを更に備える。
例16において、1つ又は複数のコンピュータ可読媒体は、映像を符号化するためにそこに具現化されたコンピュータ実行可能命令を含み、命令は、候補符号化単位を含む分割オプションを識別し且つ分割オプションに従ってフレームを分割するよう構成されたパーティショナと、識別された分割オプションに従ってフレームを分割するかどうかに関する決定を容易にするよう構成されたクラシファイアであって、候補符号化単位に対応する少なくとも1つの特性を入力として受信するよう構成されるクラシファイアと、分割されたフレームを符号化するよう構成されたエンコーダとを備える。
例16の媒体である例17において、クラシファイアは、ニューラルネットワーク及びサポートベクターマシンのうち少なくとも1つを含む。
例16及び例17の何れかの媒体である例18において、命令は、映像フレームを複数のセグメントにセグメント化し且つ複数のセグメントに関連する情報を入力としてクラシファイアに提供するよう構成されたセグメンタを更に含む。
例19において、映像を符号化するためのシステムは、映像フレームを受信し、映像フレームに対応する第1の分割オプションと映像フレームに対応する第2の分割オプションとを識別し、第1の分割オプションに関連するコストが第2の分割オプションに関連するコストより低いことを決定し、第1の分割オプションに従って映像フレームを分割するよう構成されたパーティショナを備える。システムはまた、メモリに格納されたクラシファイアを含み、パーティショナは、第1の分割オプションの少なくとも1つの特性を入力としてクラシファイアに提供し且つ第1の分割オプションに関連するコストが第2の分割オプションに関連するコストより低いことを容易に決定すべくクラシファイアからの出力を用いるよう更に構成され、エンコーダは分割された映像フレームを符号化するよう構成される。
例19のシステムである例20において、クラシファイアは、ニューラルネットワーク又はサポートベクターマシンを含む。
本発明の複数の実施形態に従って動作環境(いくつかの実施形態では、本発明の複数の態様)を例示するブロック図である。
本発明の複数の実施形態に従って映像を符号化する例示となる方法を図示するフロー図である。
本発明の複数の実施形態に従って映像フレームを分割する例示となる方法を図示するフロー図である。
本発明の複数の実施形態に従って映像を符号化する例示となる方法を図示するフロー図である。
本発明の複数の実施形態に従って映像フレームを分割する別の例示となる方法を図示するフロー図である。
本発明は様々な変更及び代替的な形態に対応可能であるが、複数の特定の実施形態が例として図面に示されており、以下に詳細に説明される。しかし、本発明は説明される複数の特定の実施形態に限定されるものではない。それどころか、本発明は、添付の特許請求の範囲によって定められる本発明の範囲に含まれる全ての変更例、均等例、及び代替例を包含するよう意図されている。
「ブロック」という用語は、例として利用される複数の異なる要素を意味するのに本明細書において用いられ得るが、この用語は、個々の段階の順序に明確に言及しない限り、及びそうする場合を除いて、本明細書に開示される様々な段階のあらゆる要件、あるいはそれらの中又はそれらの間のあらゆる特定の順序を示唆するものと解釈されるべきではない。
本発明の複数の実施形態は、効率的な符号化単位(CU)調査を容易にするクラシファイアを用いる。本クラシファイアは、例えば、ニューラルネットワーククラシファイア、サポートベクターマシン、ランダムフォレスト、複数の弱クラシファイアの線形結合などを含み得る。本クラシファイアは、例えば、オブジェクトグループ分析、セグメント化、ローカライズされたフレーム情報、及びグローバルフレーム情報など、様々な入力を用いてトレーニングされ得る。静止フレームのセグメント化が、任意の数の技術を用いて生成され得る。例えば、複数の実施形態において、エッジ検出に基づく方法が用いられ得る。更に、映像シーケンスが、後で参照するためのオブジェクトとして分類され得る一貫したフレーム間の動きの領域を確認すべく分析され得る。複数の実施形態において、調査されるCUと複数のオブジェクト及びセグメントとの間の関係が、クラシファイアの入力になり得る。
複数の実施形態によると、フレーム情報がグローバルスケール及びローカルスケールの両方で調査され得る。例えば、フレーム全体を符号化する平均コストはローカルCU符号化コストと比較され得、複数の実施形態において、この比は入力としてクラシファイアに提供され得る。本明細書に用いられるとき、「コスト」という用語は、特定の分割決定用の動き補償による誤差に関連するコスト、及び/又は特定の分割決定用の動きベクトルを符号化することに関連するコストを意味し得る。これら及び様々な他の類似したタイプのコストが当技術分野で知られており、これらは本明細書の「コスト」という用語に含まれ得る。これらのコストの複数の例が、2013年4月23日に出願され「オブジェクト分析を用いた映像圧縮用のマクロブロック分割及び動き推定(MACROBLOCK PARTITIONING AND MOTION ESTIMATION USING OBJECT ANALYSIS FOR VIDEO COMPRESSION)」と題された米国特許出願第13/868,749に定められており、この開示は参照によって本明細書に明確に組み込まれる。
クラシファイアへの別の入力が、既に処理されたローカルCTUのコスト決定履歴を含み得る。これは例えば、分割されたCUが、フレームの特定の領域内の最終的なCTUで用いられた回数のカウントであってよい。複数の実施形態において、合同映像チームの映像符号化HEVCテストモデル12で開発された初期符号化単位決定が、入力としてクラシファイアに提供され得る。更に、クアッドツリー構造の特定のCUのレベルが入力としてクラシファイアに提供され得る。
複数の実施形態によると、複数のテスト映像からの情報が、今後の符号化に用いられるクラシファイアをトレーニングするのに用いられ得る。複数の実施形態において、クラシファイアはまた、実際の符号化中にトレーニングされ得る。つまり、例えば、クラシファイアは新たな映像シーケンスの特性に適合し得、このことによって、クラシファイアは不要な計算を回避するかどうかについてのエンコーダの決定にその後影響を与え得る。
本発明の様々な実施形態によると、実用的な分割分析が利用され得、CU選択プロセスを導くのに役立つクラシファイアを用いる。セグメント化、オブジェクトグループ分析、及びクラシファイアの組み合わせを用いると、コスト決定は、人の視覚品質が高められるとともにビット消費を低下させ得るような方法で影響を与えられ得る。例えば、これは、低活動の領域に割り当てられるよりも多くのビットを高活動の領域に割り当てることで行われ得る。更に、本発明の複数の実施形態は、より多くの情報に基づくグローバルな決定を行うべく、複数のCTU間の相関情報を活用し得る。このようにして、本発明の複数の実施形態は、人の視覚品質により敏感な領域に一層の重きを置くことを容易にし得、これによってエンドユーザに、より高品質の結果を可能性として示す。
図1は、本発明の複数の実施形態に従って動作環境100(いくつかの実施形態では、本発明の複数の態様)を例示するブロック図である。動作環境100は、映像データ104を符号化して符号化された映像データ106を生成するよう構成され得る符号化デバイス102を含む。図1に示されるように、符号化デバイス102はまた、通信リンク110を介して、符号化された映像データ106を復号化デバイス108に通信するよう構成され得る。複数の実施形態において、通信リンク110はネットワークを含み得る。ネットワークは、任意の数の異なるタイプの通信ネットワーク、例えば、ショートメッセージングサービス(SMS)、ローカルエリアネットワーク(LAN)、無線LAN(WLAN)、ワイドエリアネットワーク(WAN)、インターネット、P2Pネットワークなどであり得る、又はこれらを含み得る。ネットワークは、複数のネットワークの組み合わせを含み得る。
図1に示されるように、符号化デバイス102は、プロセッサ112、メモリ114、及び入力/出力(I/O)デバイス116を含むコンピューティングデバイス上に実装され得る。符号化デバイス102は本明細書では単数で言及されるが、符号化デバイス102は複数のインスタンスで実装され、複数のコンピューティングデバイスにわたって分散され、複数の仮想マシン内にインスタンス化されるなどであってよい。複数の実施形態において、プロセッサ112はメモリ114に格納される様々なプログラムコンポーネントを実行し、映像データ106の符号化を容易にし得る。複数の実施形態において、プロセッサ112は、1つのプロセッサ又は複数のプロセッサであり得る、又はこれらを含み得る。複数の実施形態において、I/Oデバイス116は、任意の数の異なるタイプのデバイス、例えば、モニタ、キーボード、プリンタ、ディスクドライブ、ユニバーサル・シリアル・バス(USB)ポート、スピーカ、ポインタデバイス、トラックボール、ボタン、スイッチ、タッチスクリーンなどであり得る、又はこれらを含み得る。
複数の実施形態によると、上述のように、図1に例示される動作環境100の様々なコンポーネントは、1つ又は複数のコンピューティングデバイス上に実装され得る。コンピューティングデバイスは、本発明の複数の実施形態を実装するのに適切な任意のタイプのコンピューティングデバイスを含み得る。コンピューティングデバイスの例には、専用のコンピューティングデバイス、又は、例えば、「ワークステーション」、「サーバ」、「ラップトップ」、「デスクトップ」、「タブレットコンピュータ」、「ハンドヘルドデバイス」などの汎用のコンピューティングデバイスが含まれ、これらの全ては、動作環境100の様々なコンポーネントに関連して図1の範囲内に企図される。例えば、複数の実施形態によると、符号化デバイス102(及び/又は映像復号化デバイス108)は、汎用のコンピューティングデバイス(例えば、デスクトップコンピュータ、ラップトップ、モバイルデバイスなど)、特別に設計されたコンピューティングデバイス(例えば、専用映像符号化デバイス)などであり得る、又はこれらを含み得る。
更に、本明細書では例示されないが、復号化デバイス108は、符号化デバイス102、示されても説明されてもいない複数のコンポーネント、及び/又はこれらの組み合わせに関連して本明細書に説明される複数のコンポーネントの任意の組み合わせを含み得る。複数の実施形態において、符号化デバイス102は、2012年3月23日に出願され「映像符号化システム及び方法(VIDEO ENCODING SYSTEM AND METHOD)」と題された米国特許出願第13/428,707号、及び/又は、2013年4月23日に出願され「オブジェクト分析を用いた映像圧縮用のマクロブロック分割及び動き推定(MACROBLOCK PARTITIONING AND MOTION ESTIMATION USING OBJECT ANALYSIS FOR VIDEO COMPRESSION)と題された米国特許出願第13/868,749号に説明される符号化コンピューティングシステムを含み得る、又はこれらと類似であり得る。これらの特許出願のそれぞれの開示は参照によって本明細書に明確に組み込まれる。
複数の実施形態において、コンピューティングデバイスは、プロセッサ、メモリ、入力/出力(I/O)ポート、I/Oコンポーネント、及び電源といったデバイスを直接に及び/又は間接的に結合するバスを含む。任意の数の追加のコンポーネント、異なるコンポーネント、及び/又は複数のコンポーネントの組み合わせもまた、コンピューティングデバイスに含まれてよい。バスは、1つ又は複数のバス(例えば、アドレスバス、データバス、又はこれらの組み合わせなど)であり得るものを表す。同様に、複数の実施形態において、コンピューティングデバイスは、複数のプロセッサ、複数のメモリコンポーネント、複数のI/Oポート、複数のI/Oコンポーネント、及び/又は複数の電源を含み得る。更に、任意の数のこれらのコンポーネント、又はこれらの組み合わせが、複数のコンピューティングデバイスにわたって分散され得る、及び/又は複製され得る。
複数の実施形態において、メモリ114は、揮発性メモリ及び/又は不揮発性メモリの形態でコンピュータ可読媒体を含み、着脱可能、着脱できない、又はこれらの組み合わせであってよい。媒体の例には、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、電子的に消去可能なプログラマブルリードオンリメモリ(EEPROM)、フラッシュメモリ、光媒体又はホログラフィック媒体、磁気カセット、磁気テープ、磁気ディスクストレージ、又は他の磁気ストレージデバイス、データ送信、又は情報を格納するのに用いられ得る、例えば量子状態メモリなどのコンピューティングデバイスによってアクセスされ得る任意の他の媒体が含まれる。複数の実施形態において、メモリ114は、本明細書で論じられるシステムコンポーネントの実施形態の複数の態様をプロセッサ112に実装させるための、及び/又は本明細書で論じられる方法及び手順の実施形態の複数の態様をプロセッサ112に実行させるための複数のコンピュータ実行可能命令を格納する。複数のコンピュータ実行可能命令は、例えば、コンピュータコード、マシンが使用できる命令、及び同様のもの、例えば、コンピューティングデバイスに関連する1つ又は複数のプロセッサによって実行されることが可能なプログラムコンポーネントなどを含み得る。そのようなプログラムコンポーネントの例には、セグメンタ118、動き推定器120、パーティショナ122、クラシファイア124、エンコーダ126、及び通信コンポーネント128が含まれる。本明細書で企図される機能のいくつか又は全てはまた、あるいは代替的に、ハードウェア及び/又はファームウェアで実装され得る。
複数の実施形態において、セグメンタ118は、映像フレームを複数のセグメントにセグメント化するよう構成され得る。セグメントは、例えば、オブジェクト、グループ、スライス、タイルなどを含み得る。セグメンタ118は、この分野で知られる任意の数の様々な自動画像セグメント化方法を利用し得る。複数の実施形態において、セグメンタ118は、類似の色及びテクスチャを有する複数のセグメントに画像を細分化すべく、画像の色及び対応する階調度を用い得る。画像セグメント化技術の2つの例は、ピクセル連結性グラフの最適カット分割及び分水嶺(watershed)アルゴリズムを含む。例えば、セグメンタ118は、最適カット分割のために映像フレームのエッジを検出すべくキャニーエッジ検出を用い、結果として生じるピクセル連結性グラフの最適カット分割を用いて複数のセグメントを生成し得る。
複数の実施形態において、動き推定器120は、映像フレームに対して動き推定を実行するよう構成される。例えば、複数の実施形態において、動き推定器はセグメントに基づく動き推定を実行し得、セグメンタ118によって決定される複数のセグメントのフレーム間の動きが決定される。動き推定器120は、この分野で知られる任意の数の様々な動き推定技術を利用し得る。2つの例は、オプティカルピクセルフロー及び特徴点追跡である。例えば、複数の実施形態において、動き推定器120は特徴点追跡を用い得、そこでは、頑健な特徴量の高速化(Speeded Up Robust Features(SURF))が、ソース画像(例えば、第1のフレーム)及びターゲット画像(例えば、第2の次のフレーム)の両方から抽出される。次に2つの画像の個々の特徴点は、対応を確立すベくユークリッド計量を用いて比較され得、これにより、各特徴点の動きベクトルを生成する。そのような場合において、セグメントの動きベクトルは、例えば、セグメントの各特徴点の全ての動きベクトルの中央値であり得る。
複数の実施形態において、符号化デバイス102は、映像フレームに対してオブジェクトグループ分析を実行し得る。例えば、各セグメントはその動きプロパティに基づいて(例えば、動いている又は静止しているとして)分類され得、隣接する複数のセグメントがオブジェクト内に組み合わされ得る。複数の実施形態において、複数のセグメントが動いている場合、それらは動きの類似度に基づいて組み合わされ得る。複数のセグメントが静止している場合、それらは色の類似度及び/又は共有境界の割合に基づいて組み合わされ得る。
複数の実施形態において、パーティショナ122は、映像フレームを複数の区画に分割するよう構成され得る。例えば、パーティショナ122は、映像フレームを複数の符号化ツリー単位(CTU)に分割するよう構成され得る。CTUは、複数の符号化単位(CU)に更に分割され得る。各CUは、1つの輝度符号化ブロック(CB)、2つの色差CB、及び1つの関連シンタックスを含み得る。複数の実施形態において、各CUは、複数の予測単位(PU)及び複数の変換単位(TU)に更に分割され得る。複数の実施形態において、パーティショナ122は、映像フレームに対応する複数の分割オプションを識別し得る。例えば、パーティショナ122は、第1の分割オプションと第2の分割オプションとを識別し得る。
分割オプションの選択を容易にすべく、パーティショナ122は、各オプションのコストを決定し得、例えば、第1の分割オプションに関連するコストが第2の分割オプションに関連するコストより低いことを決定し得る。複数の実施形態において、分割オプションは、候補CU、CTUなどを含み得る。複数の実施形態において、分割オプションに関連するコストは、動き補償による誤差に関連するコスト、動きベクトルの符号化に関連するコストなどを含み得る。
パーティショナ122によって行われるコスト計算の回数を最小限に抑えるべく、クラシファイア124が複数の分割オプションの分類を容易にするのに用いられ得る。このようにして、クラシファイア124は、識別された分割オプションに従ってフレームを分割するかどうかに関する決定を容易にするよう構成され得る。様々な実施形態によると、クラシファイアは、ニューラルネットワーク、サポートベクターマシンなどであってよく、又はこれらを含んでよい。クラシファイアは、符号化に実際に用いられる前に、及び/又は符号化に実際に用いられる間に、複数のテスト映像を用いてトレーニングされ得る。
複数の実施形態において、クラシファイア124は、候補符号化単位に対応する少なくとも1つの特性を入力として受信するよう構成され得る。例えば、パーティショナ122は、分割オプションに対応する特性ベクトルを入力としてクラシファイア124に提供するよう更に構成され得る。特性ベクトルは、第1の分割オプションに関連するコストが第2の分割オプションに関連するコストより低いことを決定するのを容易にすべく、クラシファイアによって出力を提供するのに用いられ得る複数の特徴パラメータを含み得る。例えば、特性ベクトルは、ローカライズされたフレーム情報、グローバルフレーム情報、オブジェクトグループ分析からの出力、及びセグメント化からの出力のうち1つ又は複数を含み得る。特性ベクトルは、映像フレームのローカルCUのコストに対する映像フレームの平均コストの比、初期符号化単位決定、CUに対応するCTUツリー構造のレベル、映像フレームのローカルCTUのコスト決定履歴を含み得る。例えば、ローカルCTUのコスト決定履歴は、分割されたCUが、対応する最終的なCTUに用いられる回数のカウントを含み得る。
図1に示されるように、符号化デバイス102はまた、分割された複数の映像フレームのエントロピ符号化のために構成されるエンコーダ126と、通信コンポーネント128とを含む。複数の実施形態において、通信コンポーネント128は、符号化された映像データ106を通信するよう構成される。例えば、複数の実施形態において、通信コンポーネント128は、符号化された映像データ106を復号化デバイス108に通信するのを容易にし得る。
図1に示される例示の動作環境100は、本発明の複数の実施形態の使用又は機能の範囲に関するいかなる限定も示唆するよう意図されることはない。例示の動作環境100は、本明細書に例示される任意の単一のコンポーネント又は複数のコンポーネントの組み合わせに関連する任意の依存性又は要件を有すると解釈されるべきではない。更に、図1に図示される複数のコンポーネントのうち任意の1つ又は複数は、複数の実施形態において、本明細書に図示される他の複数のコンポーネント(及び/又は例示されていない複数のコンポーネント)のうち様々なコンポーネントと統合され得る。これらの全ては、本発明の範囲内にあるとみなされる。
図2は、映像を符号化する例示となる方法200を図示するフロー図である。複数の実施形態において、方法200の複数の態様が符号化デバイス(例えば、図1に図示される符号化デバイス102)によって実行され得る。図2に示されるように、例示となる方法200の複数の実施形態は、映像フレームを受信する段階(ブロック202)を含む。複数の実施形態において、1つ又は複数の映像フレームが、符号化デバイスによって別のデバイス(例えば、メモリデバイス、サーバなど)から受信され得る。符号化デバイスは、映像フレームに対してセグメント化を実行して(ブロック204)複数のセグメント化結果を生成し、映像フレームに対してオブジェクトグループ分析を実行して(ブロック206)複数のオブジェクトグループ分析結果を生成し得る。
方法200の複数の実施形態は、複数の符号化単位又は他の複数の分割構造のそれぞれに対して実行されるプロセス207を更に含む。例えば、プロセス207の第1の繰り返しが、各段階で生成される次の段階を通知する情報を用いて、64×64ブロックのピクセルであり得る第1のCUに対して、その後4つの32×32ブロックのCUのそれぞれに対して実行され得る。この繰り返しは、例えば、各32×32ブロックを構成する各16×16ブロックにこのプロセスを実行することで継続し得る。この繰り返しのプロセス207は、閾値又は他の基準が満たされるまで継続し得、満たされた時点で方法200は構造的階層の更なるどの分岐においても適用されない。
図2に示されるように、例えば、第1符号化単位(CU)について、分割オプションを識別する(ブロック208)。分割オプションは、例えば、符号化ツリー単位(CTU)、符号化単位などを含み得る。複数の実施形態において、分割オプションを識別する段階は、第1の候補符号化単位(CU)と第2の候補CUとを識別する段階と、第1の候補CUに関連する第1のコスト、及び第2の候補CUに関連する第2のコストを決定する段階と、第1のコストが第2のコストより低いことを決定する段階とを含み得る。
図2に示されるように、例示となる方法200の複数の実施形態は、分割オプションに対応する複数の特性を識別する段階(ブロック210)を更に含む。分割オプションに対応する複数の特性を識別する段階は、以下の特性のうち1つ又は複数を有する特性ベクトルを決定する段階を含み得、それらの特性は、第1の候補CUと、セグメント、オブジェクト、及び複数のオブジェクトのグループのうち少なくとも1つとの間のオーバーラップ、映像フレームの平均符号化コストに対する第1の候補CUの符号化コストの比、隣接するCTUの分割決定履歴、第1の候補CUに対応するCTUクアッドツリー構造のレベルである。複数の実施形態において、特性ベクトルはまた、複数のセグメント化結果及び複数のオブジェクトグループ分析結果を含み得る。
図2に示されるように、符号化デバイスは特性ベクトルをクラシファイアに提供し(ブロック212)、クラシファイアからの出力を受信する(ブロック214)。クラシファイアからの出力は(例えば、図1に図示されるパーティショナ124などのパーティショナによって)分割オプションに従ってフレームを分割するかどうかの決定(ブロック216)を容易にするのに用いられ得る。様々な実施形態によると、クラシファイアは、ニューラルネットワーク、サポートベクターマシンなどであってよく、又はこれらを含んでよい。クラシファイアは、複数のテスト映像を用いてトレーニングされ得る。例えば、複数の実施形態において、トレーニングデータを生成すべく様々な特性を有する複数のテスト映像が分析され得、トレーニングデータはクラシファイアをトレーニングするのに用いられ得る。トレーニングデータは、ローカライズされたフレーム情報、グローバルフレーム情報、オブジェクトグループ分析からの出力、及びセグメント化からの出力のうち1つ又は複数を含み得る。トレーニングデータは、テストフレームのローカルCUのコストに対するテストフレームの平均コストの比、初期符号化単位決定、CUに対応するCTUツリー構造のレベル、テストフレームのローカルCTUのコスト決定履歴を含み得る。例えば、ローカルCTUのコスト決定履歴は、分割されたCUが、対応する最終的なCTUに用いられる回数のカウントを含み得る。図2に示されるように、決定されたCTUを用いて映像フレームが分割され(ブロック218)、分割された映像フレームは符号化される(ブロック220)。
図3は、映像フレームを分割する例示となる方法300を図示するフロー図である。複数の実施形態において、方法300の複数の態様が符号化デバイス(例えば、図1に図示される符号化デバイス102)によって実行され得る。図3に示されるように、例示となる方法300の複数の実施形態は、他の複数の符号化単位候補と比較すると、クアッドツリーにおいて与えられるCUの特性ベクトルを生成する(ブロック302)のに必要とされる複数のコンピューティングエンティティを含む。符号化デバイスは特性ベクトルを決定し(ブロック304)、その特性ベクトルをクラシファイアに提供する(ブロック306)。図3に示されるように、方法300は結果として生じる分類を更に用い、与えられたレベルのクアッドツリーに対する計算を省略して次のレベルに進むかどうか、又はクアッドツリーを検索するのを止めるかどうかを決定する(ブロック308)。
図4は、映像を符号化するための例示となる方法400を図示する概略図である。複数の実施形態において、方法400の複数の態様が符号化デバイス(例えば、図1に図示される符号化デバイス102)によって実行され得る。図4に示されるように、例示となる方法400の複数の実施形態は、映像データを符号化する間に、特性ベクトル及びグラウンドトルースを計算する段階(ブロック402)を含む。方法400は、特性ベクトル及びグラウンドトルースを用いてクラシファイアをトレーニングする段階(ブロック404)と、誤差が閾値を下回る場合にクラシファイアを用いる段階(ブロック406)とを更に含む。
図5は、映像フレームを分割する例示となる方法500を図示するフロー図である。複数の実施形態において、方法500の複数の態様が符号化デバイス(例えば、図1に図示される符号化デバイス102)によって実行され得る。図5に示されるように、例示となる方法500の複数の実施形態は、映像フレームを受信する段階(ブロック502)を含む。符号化デバイスは映像フレームをセグメント化し(ブロック504)、映像フレームに対してオブジェクトグループ分析を実行する(ブロック506)。示されるように、最も低いコストを有する符号化単位候補が識別される(ブロック508)。次に符号化デバイスは、符号化単位候補と、セグメント及び/又はオブジェクトグループのうち1つ又は複数との間のオーバーラップ量を決定し得る(ブロック510)。
図5に示されるように、方法500の複数の実施形態はまた、平均フレームコストに対する候補CUに関連した符号化コストの比を決定する段階(ブロック512)を含む。符号化デバイスはまた、隣接するCTU分割決定履歴を決定し得(ブロック514)、CU候補に対応するクアッドツリーレベルのレベルを決定し得る(ブロック516)。示されるように、結果として生じる特性ベクトルはクラシファイアに提供され(ブロック518)、クラシファイアからの出力が、更なる分割されたCU候補を検索し続けるかどうかを決定するのに用いられる(ブロック520)。
本発明の複数の実施形態が具体的に説明されているが、説明そのものは本特許の範囲を限定するよう意図されるものではない。従って、請求項に係る本発明はまた、異なる複数の段階又は特徴、あるいはこの文献に説明されるものに類似した複数の段階又は特徴の組み合わせを含む他の複数の方法で、他の複数の技術と併用して具現化され得ると、本発明者らは企図している。
[項目1]
映像を符号化するための方法であって、
フレームを含む映像データを受信する段階と、
分割オプションを識別する段階と、
上記分割オプションに対応する少なくとも1つの特性を識別する段階と、
上記少なくとも1つの特性を入力としてクラシファイアに提供する段階と、
識別された上記分割オプションに従って上記フレームを分割するかどうかを、上記クラシファイアに基づいて決定する段階と
を備える
方法。
[項目2]
上記分割オプションは符号化ツリー単位(CTU)を有する、
項目1に記載の方法。
[項目3]
上記分割オプションを識別する段階は、
第1の候補符号化単位(第1の候補CU)と第2の候補CUとを識別する段階と、
上記第1の候補CUに関連する第1のコスト、及び上記第2の候補CUに関連する第2のコストを決定する段階と、
上記第1のコストが上記第2のコストより低いことを決定する段階と
を有する、
項目2に記載の方法。
[項目4]
上記少なくとも1つの特性は、上記第1の候補CUの少なくとも1つの特性を含む、
項目3に記載の方法。
[項目5]
上記分割オプションに対応する少なくとも1つの特性を識別する段階は、以下のうち少なくとも1つを決定する段階を有し、それらは、
第1の候補CUと、セグメント、オブジェクト、及び複数のオブジェクトのグループのうち少なくとも1つとの間のオーバーラップと、
上記フレームの平均符号化コストに対する上記第1の候補CUの符号化コストの比と、
隣接するCTUの分割決定履歴と、
上記第1の候補CUに対応するCTUクアッドツリー構造のレベルと
である、
項目1から4の何れか一項に記載の方法。
[項目6]
上記少なくとも1つの特性を入力として上記クラシファイアに提供する段階は、特性ベクトルを上記クラシファイアに提供する段階を有し、
上記特性ベクトルは上記少なくとも1つの特性を含む、
項目1から5の何れか一項に記載の方法。
[項目7]
上記クラシファイアは、ニューラルネットワーク又はサポートベクターマシンを含む、
項目1から6の何れか一項に記載の方法。
[項目8]
複数のテスト映像を受信する段階と、
トレーニングデータを生成すべく上記複数のテスト映像のそれぞれを分析する段階と、
生成された上記トレーニングデータを用いて上記クラシファイアをトレーニングする段階と
を更に備える、
項目1から7の何れか一項に記載の方法。
[項目9]
上記トレーニングデータは、ローカライズされたフレーム情報、グローバルフレーム情報、オブジェクトグループ分析からの出力、及びセグメント化からの出力のうち少なくとも1つを含む、
項目8に記載の方法。
[項目10]
上記トレーニングデータは、ローカルCUのコストに対するテストフレームの平均コストの比を上記テストフレームに含む、
項目8に記載の方法。
[項目11]
上記トレーニングデータは、ローカルCTUのコスト決定履歴をテストフレームに含む、
項目8に記載の方法。
[項目12]
上記ローカルCTUの上記コスト決定履歴は、分割されたCUが、対応する最終的なCTUに用いられる回数のカウントを含む、
項目11に記載の方法。
[項目13]
上記トレーニングデータは初期符号化単位決定を含む、
項目8に記載の方法。
[項目14]
上記トレーニングデータはCUに対応するCTUツリー構造のレベルを含む、
項目8に記載の方法。
[項目15]
上記フレームに対してセグメント化を実行して複数のセグメント化結果を生成する段階と、
上記フレームに対してオブジェクトグループ分析を実行して複数のオブジェクトグループ分析結果を生成する段階と、
上記クラシファイア、上記複数のセグメント化結果、及び上記複数のオブジェクトグループ分析結果に基づいて、識別された上記分割オプションに従って上記フレームを分割するかどうかを決定する段階と
を更に備える
項目1から14の何れか一項に記載の方法。
[項目16]
候補符号化単位を含む分割オプションを識別し、
上記分割オプションに従ってフレームを分割する
パーティショナと、
識別された上記分割オプションに従って上記フレームを分割するかどうかに関する決定を容易にし、上記候補符号化単位に対応する少なくとも1つの特性を入力として受信するクラシファイアと、
分割された上記フレームを符号化するエンコーダと
をコンピュータに実行させる
プログラム。
[項目17]
上記クラシファイアは、ニューラルネットワーク又はサポートベクターマシンを含む、
項目16に記載のプログラム。
[項目18]
上記フレームを複数のセグメントにセグメント化し、
上記複数のセグメントに関連する情報を入力として上記クラシファイアに提供するセグメンタを上記コンピュータに更に実行させる、
項目16に記載のプログラム。
[項目19]
映像を符号化するためのシステムであって、
映像フレームを受信し、
上記映像フレームに対応する第1の分割オプションと上記映像フレームに対応する第2の分割オプションとを識別し、
上記第1の分割オプションに関連するコストが上記第2の分割オプションに関連するコストより低いことを決定し、
上記第1の分割オプションに従って上記映像フレームを分割するパーティショナと、
メモリに格納されたクラシファイアであって、上記パーティショナは更に、上記第1の分割オプションのうち少なくとも1つの特性を入力として上記クラシファイアに提供し、上記第1の分割オプションに関連する上記コストが上記第2の分割オプションに関連する上記コストより低いことを容易に決定すべく上記クラシファイアからの出力を用いる、クラシファイアと、
分割された上記映像フレームを符号化するエンコーダと
を備える
システム。
[項目20]
上記クラシファイアは、ニューラルネットワーク又はサポートベクターマシンを含む、
項目19に記載のシステム。

Claims (25)

  1. 映像を符号化するための方法であって、
    フレームを含む映像データを受信する段階と、
    分割オプションを識別する段階と、
    前記分割オプションに対応する少なくとも1つの特性を識別する段階と、
    前記少なくとも1つの特性を入力としてクラシファイアに提供する段階と、
    識別された前記分割オプションに従って前記フレームを分割するかどうかを、前記クラシファイアに基づいて決定する段階と
    を備え
    前記少なくとも1つの特性は、隣接する符号化ツリー単位(CTU)の分割決定履歴を含む、
    方法。
  2. 前記分割オプションはCTUを有する、
    請求項1に記載の方法。
  3. 前記分割オプションを識別する段階は、
    第1の候補符号化単位(第1の候補CU)と第2の候補CUとを識別する段階と、
    前記第1の候補CUに関連する第1のコスト、及び前記第2の候補CUに関連する第2のコストを決定する段階と、
    前記第1のコストが前記第2のコストより低いことを決定する段階と
    を有する、
    請求項2に記載の方法。
  4. 前記少なくとも1つの特性は、前記第1の候補CUの少なくとも1つの特性を含む、
    請求項3に記載の方法。
  5. 前記少なくとも1つの特性は、複数の特性を含む、
    請求項1から4の何れか一項に記載の方法。
  6. 前記少なくとも1つの特性は、
    第1の候補CUと、セグメント、オブジェクト、及び複数のオブジェクトのグループのうち少なくとも1つとの間のオーバーラップと、
    前記フレームの平均符号化コストに対する前記第1の候補CUの符号化コストの比と、
    前記第1の候補CUに対応するCTUクアッドツリー構造のレベルと
    のうち少なくとも1つを更に含む、
    請求項1から5の何れか一項に記載の方法。
  7. 前記少なくとも1つの特性を入力として前記クラシファイアに提供する段階は、特性ベクトルを前記クラシファイアに提供する段階を有し、
    前記特性ベクトルは前記少なくとも1つの特性を含む、
    請求項1からの何れか一項に記載の方法。
  8. 前記クラシファイアは、ニューラルネットワーク又はサポートベクターマシンを含む、
    請求項1からの何れか一項に記載の方法。
  9. 複数のテスト映像を受信する段階と、
    トレーニングデータを生成すべく前記複数のテスト映像のそれぞれを分析する段階と、
    生成された前記トレーニングデータを用いて前記クラシファイアをトレーニングする段階と
    を更に備える、
    請求項1からの何れか一項に記載の方法。
  10. 前記トレーニングデータは、ローカライズされたフレーム情報、グローバルフレーム情報、オブジェクトグループ分析からの出力、及びセグメント化からの出力のうち少なくとも1つを含む、
    請求項に記載の方法。
  11. 前記トレーニングデータは、テストフレーム内のローカルCUのコストに対する前記テストフレームの平均コストの比を含む、
    請求項9または10に記載の方法。
  12. 前記トレーニングデータは、テストフレーム内のローカルCTUのコスト決定履歴を含む、
    請求項9から11の何れか一項に記載の方法。
  13. 前記ローカルCTUの前記コスト決定履歴は、分割されたCUが、対応する最終的なCTUに用いられる回数のカウントを含む、
    請求項12に記載の方法。
  14. 前記トレーニングデータは初期符号化単位決定を含む、
    請求項9から13の何れか一項に記載の方法。
  15. 前記トレーニングデータはCUに対応するCTUツリー構造のレベルを含む、
    請求項9から14の何れか一項に記載の方法。
  16. 前記フレームに対してセグメント化を実行して複数のセグメント化結果を生成する段階と、
    前記フレームに対してオブジェクトグループ分析を実行して複数のオブジェクトグループ分析結果を生成する段階と、
    前記クラシファイア、前記複数のセグメント化結果、及び前記複数のオブジェクトグループ分析結果に基づいて、識別された前記分割オプションに従って前記フレームを分割するかどうかを決定する段階と
    を更に備える
    請求項1から15の何れか一項に記載の方法。
  17. 候補符号化単位を含む分割オプションを識別し、
    前記分割オプションに従ってフレームを分割する
    パーティショナと、
    識別された前記分割オプションに従って前記フレームを分割するかどうかに関する決定を容易にし、前記候補符号化単位に対応する少なくとも1つの特性を入力として受信するクラシファイアと、
    分割された前記フレームを符号化するエンコーダと
    をコンピュータに実行させ
    前記少なくとも1つの特性は、隣接する符号化ツリー単位(CTU)の分割決定履歴を含む、
    プログラム。
  18. 前記少なくとも1つの特性は、複数の特性を含む、
    請求項17に記載のプログラム。
  19. 前記少なくとも1つの特性は、
    前記候補符号化単位と、セグメント、オブジェクト、及び複数のオブジェクトのグループのうち少なくとも1つとの間のオーバーラップと、
    前記フレームの平均符号化コストに対する前記候補符号化単位の符号化コストの比と、
    前記候補符号化単位に対応するCTUクアッドツリー構造のレベルと
    のうち少なくとも1つを更に含む、
    請求項17又は18に記載のプログラム。
  20. 前記クラシファイアは、ニューラルネットワーク又はサポートベクターマシンを含む、
    請求項17から19の何れか一項に記載のプログラム。
  21. 前記フレームを複数のセグメントにセグメント化し、
    前記複数のセグメントに関連する情報を入力として前記クラシファイアに提供するセグメンタを前記コンピュータに更に実行させる、
    請求項17から20の何れか一項に記載のプログラム。
  22. 映像を符号化するためのシステムであって、
    映像フレームを受信し、
    前記映像フレームに対応する第1の分割オプションと前記映像フレームに対応する第2の分割オプションとを識別し、
    前記第1の分割オプションに関連するコストが前記第2の分割オプションに関連するコストより低いことを決定し、
    前記第1の分割オプションに従って前記映像フレームを分割するパーティショナと、
    メモリに格納されたクラシファイアであって、前記パーティショナは更に、前記第1の分割オプションのうち少なくとも1つの特性を入力として前記クラシファイアに提供し、前記第1の分割オプションに関連する前記コストが前記第2の分割オプションに関連する前記コストより低いことを容易に決定すべく前記クラシファイアからの出力を用いる、クラシファイアと、
    分割された前記映像フレームを符号化するエンコーダと
    を備え
    前記少なくとも1つの特性は、隣接する符号化ツリー単位(CTU)の分割決定履歴を含む、
    システム。
  23. 前記少なくとも1つの特性は、複数の特性を含む、
    請求項22に記載のシステム。
  24. 前記少なくとも1つの特性は、
    前記第1の分割オプションと、セグメント、オブジェクト、及び複数のオブジェクトのグループのうち少なくとも1つとの間のオーバーラップと、
    前記映像フレームの平均符号化コストに対する前記第1の分割オプションの符号化コストの比と、
    前記第1の分割オプションに対応するCTUクアッドツリー構造のレベルと
    のうち少なくとも1つを更に含む、
    請求項22又は23に記載のシステム。
  25. 前記クラシファイアは、ニューラルネットワーク又はサポートベクターマシンを含む、
    請求項22から24の何れか一項に記載のシステム。
JP2017511723A 2014-08-26 2015-08-26 映像符号化のための学習に基づく分割 Expired - Fee Related JP6425219B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201462042188P 2014-08-26 2014-08-26
US62/042,188 2014-08-26
US14/737,401 2015-06-11
US14/737,401 US20160065959A1 (en) 2014-08-26 2015-06-11 Learning-based partitioning for video encoding
PCT/US2015/046988 WO2016033209A1 (en) 2014-08-26 2015-08-26 Learning-based partitioning for video encoding

Publications (2)

Publication Number Publication Date
JP2017529780A JP2017529780A (ja) 2017-10-05
JP6425219B2 true JP6425219B2 (ja) 2018-11-21

Family

ID=54140654

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017511723A Expired - Fee Related JP6425219B2 (ja) 2014-08-26 2015-08-26 映像符号化のための学習に基づく分割

Country Status (7)

Country Link
US (1) US20160065959A1 (ja)
EP (1) EP3186963A1 (ja)
JP (1) JP6425219B2 (ja)
KR (1) KR20170041857A (ja)
AU (1) AU2015306605A1 (ja)
CA (1) CA2959352A1 (ja)
WO (1) WO2016033209A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9501837B2 (en) * 2014-10-01 2016-11-22 Lyrical Labs Video Compression Technology, LLC Method and system for unsupervised image segmentation using a trained quality metric
US9532080B2 (en) 2012-05-31 2016-12-27 Sonic Ip, Inc. Systems and methods for the reuse of encoding information in encoding alternative streams of video data
US9357210B2 (en) 2013-02-28 2016-05-31 Sonic Ip, Inc. Systems and methods of encoding multiple video streams for adaptive bitrate streaming
US10382770B2 (en) * 2017-02-06 2019-08-13 Google Llc Multi-level machine learning-based early termination in partition search for video encoding
WO2018187622A1 (en) * 2017-04-05 2018-10-11 Lyrical Labs Holdings, Llc Video processing and encoding
US10911757B2 (en) * 2017-09-08 2021-02-02 Mediatek Inc. Methods and apparatuses of processing pictures in an image or video coding system
US11412220B2 (en) 2017-12-14 2022-08-09 Interdigital Vc Holdings, Inc. Texture-based partitioning decisions for video compression
CN108200442B (zh) * 2018-01-23 2021-11-12 北京易智能科技有限公司 一种基于神经网络的hevc帧内编码单元划分方法
US10460156B2 (en) * 2018-03-06 2019-10-29 Sony Corporation Automated tracking and retaining of an articulated object in a sequence of image frames
KR101938311B1 (ko) 2018-06-27 2019-01-14 주식회사 다누시스 기계학습을 이용한 객체정보 기반 고속 고효율 비디오 코덱 영상 부호화 시스템
US10869036B2 (en) 2018-09-18 2020-12-15 Google Llc Receptive-field-conforming convolutional models for video coding
US10674152B2 (en) * 2018-09-18 2020-06-02 Google Llc Efficient use of quantization parameters in machine-learning models for video coding
US11025907B2 (en) 2019-02-28 2021-06-01 Google Llc Receptive-field-conforming convolution models for video coding
KR102152144B1 (ko) * 2018-09-28 2020-09-04 강원호 기계학습을 이용한 객체정보 기반 고속 고효율 비디오 코덱 영상 부호화 방법
US11080835B2 (en) 2019-01-09 2021-08-03 Disney Enterprises, Inc. Pixel error detection system
WO2021057771A1 (en) * 2019-09-24 2021-04-01 Mediatek Inc. Method and apparatus of separated coding tree coding with constraints on minimum cu size
US11508143B2 (en) 2020-04-03 2022-11-22 Disney Enterprises, Inc. Automated salience assessment of pixel anomalies
WO2022114669A2 (ko) * 2020-11-25 2022-06-02 경북대학교 산학협력단 신경망을 이용한 영상 부호화
CN112437310B (zh) * 2020-12-18 2022-07-08 重庆邮电大学 一种基于随机森林的vvc帧内编码快速cu划分决策方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4752631B2 (ja) * 2006-06-08 2011-08-17 株式会社日立製作所 画像符号化装置、及び画像符号化方法
US20080123959A1 (en) * 2006-06-26 2008-05-29 Ratner Edward R Computer-implemented method for automated object recognition and classification in scenes using segment-based object extraction
EP2373034A4 (en) * 2008-12-08 2012-11-21 Sharp Kk BILDCODER AND IMAGE DECODER
US20130188717A1 (en) * 2012-01-20 2013-07-25 Qualcomm Incorporated Motion prediction in svc using partition mode without split flag
KR20150021922A (ko) * 2012-04-24 2015-03-03 리리컬 랩스 비디오 컴프레션 테크놀로지, 엘엘씨 객체 분석을 이용한 영상 압축을 위한 매크로블록 파티션-분할 및 동작 추정
TW201419862A (zh) * 2012-11-13 2014-05-16 Hon Hai Prec Ind Co Ltd 影像切割系統及方法
US9171213B2 (en) * 2013-03-15 2015-10-27 Xerox Corporation Two-dimensional and three-dimensional sliding window-based methods and systems for detecting vehicles
JP2014236264A (ja) * 2013-05-31 2014-12-15 ソニー株式会社 画像処理装置、画像処理方法及びプログラム
KR102179383B1 (ko) * 2013-08-09 2020-11-16 삼성전자주식회사 병합 모드 결정 방법 및 장치

Also Published As

Publication number Publication date
CA2959352A1 (en) 2016-03-03
EP3186963A1 (en) 2017-07-05
KR20170041857A (ko) 2017-04-17
WO2016033209A1 (en) 2016-03-03
US20160065959A1 (en) 2016-03-03
AU2015306605A1 (en) 2017-04-06
JP2017529780A (ja) 2017-10-05

Similar Documents

Publication Publication Date Title
JP6425219B2 (ja) 映像符号化のための学習に基づく分割
Min et al. Joint histogram-based cost aggregation for stereo matching
US7046850B2 (en) Image matching
KR102216585B1 (ko) 깊이 영상의 부호화 장치 및 복호화 장치, 부호화 방법 및 복호화 방법
CN107396112B (zh) 一种编码方法及装置、计算机装置、可读存储介质
JP6605581B2 (ja) ビデオ符号化のための適応検索ウィンドウの配置
Cen et al. A fast CU depth decision mechanism for HEVC
US10304192B2 (en) Fast, progressive approach to supervoxel-based spatial temporal video segmentation
US20150116597A1 (en) Trajectory Features and Distance Metrics for Hierarchical Video Segmentation
CN106464900A (zh) 图像编码方法、图像解码方法、图像编码装置、图像解码装置及内容发布方法
JP2018508910A (ja) フラクタル次元測定を用いた前景検出
Bairagi et al. Texture-based medical image compression
KR20150021922A (ko) 객체 분석을 이용한 영상 압축을 위한 매크로블록 파티션-분할 및 동작 추정
Kushwaha et al. Adaptive real-time motion segmentation technique based on statistical background model
Song et al. Noise robust image matching using adjacent evaluation census transform and wavelet edge joint bilateral filter in stereo vision
EP3225028A1 (en) Video encoding and decoding with selection of prediction units
Brinda et al. Enhancing the compression performance in medical images using a novel hex-directional chain code (Hex DCC) representation
US8571342B2 (en) Image processing and generation of focus information
Yao et al. A fast DEA-based intra-coding algorithm for HEVC
US10194157B2 (en) Encoder, decoder, system and methods for video coding
Srinivasan et al. RETRACTED ARTICLE: An Improvised video coding algorithm for deep learning-based video transmission using HEVC
US20200068214A1 (en) Motion estimation using pixel activity metrics
WO2014060248A2 (en) Layered (segmented) block match for motion or disparity (3d) estimation
WO2022047144A1 (en) Methods and systems for combined lossless and lossy coding
Shao et al. Analysis‐aware microscopy video compression

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180220

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180518

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180718

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180820

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180925

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181015

R150 Certificate of patent or registration of utility model

Ref document number: 6425219

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees