JP2012505600A - 特徴を基礎とするビデオ圧縮 - Google Patents

特徴を基礎とするビデオ圧縮 Download PDF

Info

Publication number
JP2012505600A
JP2012505600A JP2011531110A JP2011531110A JP2012505600A JP 2012505600 A JP2012505600 A JP 2012505600A JP 2011531110 A JP2011531110 A JP 2011531110A JP 2011531110 A JP2011531110 A JP 2011531110A JP 2012505600 A JP2012505600 A JP 2012505600A
Authority
JP
Japan
Prior art keywords
feature
model
video
video data
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011531110A
Other languages
English (en)
Other versions
JP2012505600A5 (ja
JP5567021B2 (ja
Inventor
ペース・チャールズ・ピー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Euclid Discoveries LLC
Original Assignee
Euclid Discoveries LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Euclid Discoveries LLC filed Critical Euclid Discoveries LLC
Publication of JP2012505600A publication Critical patent/JP2012505600A/ja
Publication of JP2012505600A5 publication Critical patent/JP2012505600A5/ja
Application granted granted Critical
Publication of JP5567021B2 publication Critical patent/JP5567021B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • H04N19/54Motion estimation other than block-based using feature points or meshes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/23Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with coding of regions that are present throughout a whole video segment, e.g. sprites, background or mosaic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • H04N19/543Motion estimation other than block-based using regions

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

【課題】従来のビデオ圧縮を拡張した、ビデオデータを処理するシステムを提供する。
【解決手段】候補特徴の1つ以上のインスタンスがビデオフレームにおいて検出される。以前に復号化されたビデオフレームが処理されて、候補特徴の潜在的な一致が識別される。以前に復号化されたビデオフレームの相当量の部分が候補特徴のインスタンスを含む場合、候補特徴のインスタンスはセットに集合させられる。候補特徴のセットは、特徴基礎モデルを生成するのに用いられる。特徴基礎モデルは、候補特徴のインスタンスの変形変化モデルおよび外観変化モデルを有する。特徴基礎モデルの圧縮効率は、従来のビデオ圧縮効率と比較される。
【選択図】図1

Description

関連出願
本願は、2008年10月7日出願の米国仮特許出願第61/103,362号の優先権を主張する。本願はまた、2007年1月23日出願の米国特許仮出願第60/881,966号の優先権を主張する、2008年1月4日出願の米国特許出願第12/522,322号の一部継続出願である。上記仮特許出願第60/881,966号は、2006年6月8日出願の米国仮特許出願第60/811,890号に関連し、また、現在は特許第7,158,680号である、2005年7月28日出願の米国特許出願第11/191,562号の一部継続出願である、2005年9月20日出願の米国特許出願第11/230,686号の一部継続出願である、2005年11月16日出願の米国特許出願第11/280,625号の一部継続出願である、2006年1月20日出願の米国特許出願第11/336,366号の一部継続出願である、2006年3月31出願の米国特許出願第11/396,010号の一部継続出願である。米国特許出願第11/396,010号はまた、2005年3月31日出願の米国特許仮出願第60/667,532号および2005年4月13日出願の米国仮特許出願第60/670,951号の優先権を主張する。上記各出願の全教示内容は参照により本明細書に引用したものとする。
本発明はビデオ信号の圧縮に関する。
<予測セグメント化(第1次)>
従来のビデオ圧縮、例えばMPEG−4およびH.264は、現在のフレームを予測するために、動き補償された予測プロセス中に、使用する複数の参照フレームを指定する機能を有する。これらの規格は典型的には、参照フレームを、1つ以上の連続する過去のフレーム、および場合によっては、以前にデコードされたフレームの任意のセットに制限している。通常、参照フレームの数には制限があり、また、選択プロセスにおいて、デコードされたフレームのストリームをどの程度までさかのぼって取り込むかについて制限がある。
<圧縮センシング(CS(Compressed Sensing))>
画像およびビデオの圧縮技法は一般に、データにおける冗長さを利用することによって、データにおける最も重要な情報が「少ない」数のパラメータに取り込まれることを試みる。「少ない」は、元の生データのサイズを基準として定義される。所定のデータセットについていずれのパラメータが重要であるかは、事前に分からない。このために、従来の画像/ビデオ圧縮技法では、比較的多数のパラメータを算出(または測定)した後に、最もコンパクトなエンコード化をもたらすパラメータを選択する。例えば、JPEGおよびJPEG 2000画像圧縮の規格は、画像の画素を変換係数に変換する線形変換(典型的には、離散コサイン変換(DCT)または離散ウェーブレット変換(DWT))に基づく。これにより、変換係数の数は、元の画素数に等しくなる。次に、変換空間において、重要な係数は様々な技法により選択できる。1つの例はスカラー量子化である。極端な場合は、これは、強度のしいき値処理(magnitude thresholding)と等価である。DCTおよびDWTは効率的に計算できるが、データ削減の前に完全な変換を計算する必要があるため、効率が低下する。この計算には、これら2つの変換(すなわちDCTおよびDWT)に対する入力データのサイズに等しい数の測定を必要とする。従来の画像/ビデオ圧縮技法のこの特性のために、高い計算効率が要求される場合、従来の技法は役に立たなくなる。
従来の圧縮は、現在のフレームの領域を予測するために、多数のフレームからの多数の一致(マッチ(match))を混合することを許容している。混合は、一致の線形結合またはログスケールの線形結合であることが多い。この2つからなる予測の方法が有効である場合の1つの例は、ある画像から別の画像へ経時的に漸移する場合である。この漸移のプロセス2つの画像の線形混合であり、このプロセスは、2つからなる予測を用いて効果的にモデル化できる場合もある。さらに、MPEG−2内挿モードは、多くのフレームにわたって2つからなる予測のモデルを合成するために、線形パラメータの補間を許容する。
従来の圧縮では、1つ以上の参照フレームを指定することができ、そのフレームから現在のフレームのエンコード化に対する予測値を引き出すことができる。参照フレームは典型的には、現在のフレームに時間的に隣接しているが、時間的に隣接するフレームのセット以外からの参照フレームの指定にも適応できる。
従来の変換に基づく画像/ビデオ圧縮アルゴリズムとは対照的に、圧縮センシング(CS)アルゴリズムは、測定(「センシング」)ステップの間に、データにおける冗長さの大部分を直接利用する。時間領域、空間領域およびスペクトル領域における冗長さが、高い圧縮率に対する主な寄与要素である。すべての圧縮センシングのアルゴリズムにおける重要な結果は、圧縮可能な信号が、比較的少数の無作為の測定であって、従来の圧縮アルゴリズムに必要とされるよりも極めて少数の無作為の測定を用いて検出できることである。次に、画像は正確かつ確実に再構成できる。公知の統計学的特性を考慮すると、視覚情報のサブセットを用いてデータの残りを推定することができる。
所与のCSアルゴリズムに必要とされる測定の正確な数は、信号の種類ならびに測定(係数)から信号を再構成する「復元アルゴリズム」に依存する。なお、ある程度の確実性で信号を再構成するためにCSアルゴリズムに必要な測定の数は、アルゴリズムの計算の複雑性には直接関連しない。例えば、信号を復元するのにL1最小化を用いるCSアルゴリズムのクラスは、必要とされる測定は比較的少数であるが、L1最小化アルゴリズムは極めて遅い(リアルタイムではない)。そのため、実際的な圧縮センシング・アルゴリズムは、必要な測定の数と、再構成の正確性および計算の複雑性との調和点を探求する。CSは、従来のコーデックと比べて根本的に異なるコーデック設計のモデルを提供する。
一般に、典型的なCSアルゴリズムにおいては3つの主要なステップ、すなわち、(1)計測行列(測定行列)Mを作成すること、(2)データのエンコードを作成するとしても公知である、計測行列を用いてデータの測定値を得ること、および(3)デコード化ステップとしても公知である、エンコードされたデータから元のデータを復元すること、がある。復元アルゴリズム(デコーダ)は複雑である可能性があり、受信機における演算能力に対する制限がほどんとないため、全体的なCSアルゴリズムは、通常、このデコーダの後に指定される。従来技術において注目すべきCSアルゴリズムの実際的な応用は3つある。すなわち、OMP(Orthogonal Matching Pursuit:直交性一致追跡)、L1M(L1 Minimization:L1最小化)およびCP(Chaining Pursuit:連鎖追求)への応用である。一般に、実際のところL1Mは、大多数のビデオ処理用途については計算効率が極めて悪い。より効率的なOMPおよびCPアルゴリズムが、L1Mと同じ利点の大部分を提供する。そのため、OMPおよびCPは、L1Mの大部分の用途に対して選択される2つのCSアルゴリズムである。
<逆合成アルゴリズム(Inverse Compositional Algorithm)による画像の整列>
以後LRLSと称する、BasriおよびJacobs(「ランベルト反射および線形部分空間」("Lambertian Reflectances and Linear Subspaces,") IEEE Trans. Pattern Analysis and Machine Intelligence, 2/03)は、ランベルト・オブジェクト(その表面が全方向に光を反射する)が、球面調和関数に基づいてLRLS「基底画像」の小さい(9次元の)線形部分空間によって精度良く近似できることを示している。LRLSの基底画像は、様々な照明条件およびテクスチャの下において、オブジェクトの様々なバージョンとして視覚化される。そのため、LRLSの基底画像はオブジェクトの構造(オブジェクトの表面法線を通した構造)と、オブジェクトの様々な反射点におけるそのオブジェクトのアルベド(albedo)と、照明モデル(ランベルトの余弦則に従い、球面調和関数を作成するために、方向に沿って積分される)とに依存する。モデルの仮定の下に、9次元の部分空間は、オブジェクト画像におけるエネルギ強度の99%以上を取り込む。外観(アピアランス)が低次元数である部分空間は、データにおける、従来の圧縮方式に利用可能な冗長さに比べてより大きい冗長さを示す。
逆合成アルゴリズム(IC)は最初に、2次元動き予測および画像位置合わせに対する、Lucas-Kanadaアルゴリズムの有効な実現形態として提案された。これに続くアルゴリズムの実現形態では、顔の画像に対して、AAM(Active Appearance Model(アクティブ外観モデル))および3DDM(3D morphable model(3次元のモーフィング可能なモデル))などの、3次元モデルにフィットする(適合する)ICアルゴリズムが用いられている。
<ISVD(Incremental Singular Value Decomposition:インクリメンタル特異値分解)アルゴリズムの適用>
通常の次元数低減技法は、ノルム保存基礎の線形変換の利用を含む。SDV(特異値分解)表現の低減は、より高い計算効率および表現効率のデータ表現を生成するために、SDVにおける特定の特異値/特異ベクトルの対を削除することを意味する。最も一般的には、SDVの因数分解は、特定のしきい値を下回るすべての特異値をゼロにし、対応する特異ベクトルを削除することによって、効果的に低減される。この強度のしきい値処理によって、L2−ノルムの観点からデータ行列Dの最良のr次元近似であるr特異値(r<N)を有する、低減されたSDVが得られる。低減されたSDVは、以下の式で与えられる。
ただし、UrはM×r、Srはr×r対角行列、VrはN×rである。
特異値分解(SVD)は、データの最小(コンパクトな)記述に必然的につながる、データ行列の因数分解である。サイズM×Nのデータ行列Dを仮定すると、SVD因数分解は、D=U*S*V’により与えられる。ただし、Uは(左)特異ベクトルのM×N列の直交行列であり、Sは対角線に沿った特異値(sl,s2,…sN)を備えるN×N対角行列であり、Vは(右)特異ベクトルのN×N直交行列である。
<コンパクトな多様体の予測>
MP(Matching pursuit:一致追跡)は、効果的な信号表現を導出する反復的アルゴリズムである。基底関数(必ずしも直交ではない)の辞書Dによって信号ベクトルsを表現する問題を考えると、MPはここで説明される反復的プロセスによる表現のための関数を選択する。表現における第1基底関数(d1として示される)が、信号ベクトルとの最大の相関関係を有する関数として選択される。次に、残差ベクトルr1が、信号自体から信号上のd1の射影を減算することにより(r1=s−(d1’*s)*d1)、計算される。次に、表現における次の関数(d2)が、残差r1との最大の相関関係を有する関数として選択される。別の残差r2を形成するために、r1上へのd2の射影がr1から減算される。次に、残差のノルムが一定のしきい値を下回るまで、同一のプロセスが繰り返される。
OMP(直交性一致追跡)が、追加のステップを用いて、表現集合体において残差が既にすべての関数に対して直交していることを保証することを除いて、MPと同一の反復的手順に従う。OMPの再帰はMPの再帰に比べて複雑であるが、追加の計算は、OMPがわずかNdステップで解に収束することを保証する。ただし、Ndは辞書Dにおける関数の数である。
本発明は、従来のビデオ圧縮を拡張し、特に、視覚現象の冗長さが従来のビデオ・コーデックのモデル化能力を超える場合における、従来のビデオ圧縮を拡張する。本発明は、ロバストな(robust:頑健な)コンピュータビジョンおよびパターン認識アルゴリズムを採用することによって、従来のビデオ圧縮の既存の方法を拡張し、さらにはこの既存の方法に完全に取って代わるかもしれない。詳細には、本発明は、ビデオの以前にデコードされたフレームの1つ以上において発生する特徴のセグメント化、正規化および統合に重点を置く、特徴モデル化方法およびシステムを含む。特徴を基礎とするビデオ圧縮は、以前にデコードされた多数のフレームを考慮し、これらのフレームのそれぞれ内で、少数のフレーム、小さい領域および少数の画素を考慮する従来の圧縮と比べて、より大きな領域およびより多数の画素を考慮する。
従来の圧縮は、複数の参照フレーム、マクロブロック分割、サブマクロブロック分割および動き補償予測を利用することにより、マクロブロックレベルで暗黙的形式(陰形式)のセグメント化を提供する。さらに、従来の圧縮は、動き補償予測を利用して、ビデオに発生する空間変形をモデル化し、かつ、変換コーディングを利用して、外観変化をモデル化する。本発明は、より複雑なモデルを有する、本質的に異なる信号要素のこれらモデル化技法を拡張する。より複雑なモデルには、空間セグメント化マスク、正規メッシュ変形、特徴アフィン動き、三次元特徴動き、三次元照明、ならびに他のコンピュータビジョンおよびパターン認識モデル化技術が含まれる。なお、本文の全体を通して、「個別モード」と「本質的に異なる信号要素」とは同義である。
本発明は、ビデオ信号の個別モードの識別およびセグメント化を容易にする。本発明は、この識別およびセグメント化を容易にするために、従来の動き補償予測に用いられている、参照フレームの処理概念を利用する。従来の動き補償予測プロセスは、マクロブロックレベルで、1つ以上の参照フレームから信号部分を選択する。なお、従来の動き補償予測プロセスは典型的には、いくつかのレート歪(rate distortion)基準に基づいて、このような選択を行う。本発明は、過去のフレームに分析を適用することができ、現在のフレームに一致する確率が最も高いフレームを判別する。さらに、参照フレームの数は、従来の圧縮において見られる、典型的には1から最大16の参照フレームに比べて、大幅に多くすることができる。システムリソースに依存して、参照フレームの数は、これらのフレームに十分な数の有効な一致が存在すると仮定すると、システムメモリの制限まで達する数であってもよい。さらに、本発明により生成されるデータの中間形式は、同じ数の参照フレームを格納するのに必要なメモリ量を低減することができる。
一実施形態では、本発明は、この参照フレーム処理に基づいてビデオ信号のセグメント化を推定する。現在のフレーム内のマクロブロック(画素のブロック)が、動き補償予測プロセスによって、以前にデコードされたフレームから画素のタイルを選択して、これらのタイルが空間的および時間的に分離されるようにする。これは、動き補償予測プロセスにおいて用いられるタイルは異なるフレームをソース(源)としているかもしれないことを意味する。現在のフレームのマクロブロックを予測するために、異なるフレームからのソースのタイルの選択によって暗黙的に定義される分離は、異なる信号モードが識別されている可能性を示す。識別された個別の信号モードをよりコンパクトにエンコードできる場合、これはさらに、個別のモードが識別されていることを確実にする。本発明では、これらの個別のモードは「特徴」と称される。これら特徴がビデオの多くのフレームにわたって永続的であり、特徴が相関関係を有する場合、ビデオ内に新しい種類の冗長さが識別されている。本発明は、従来の圧縮に利用可能な圧縮を超えるさらなる圧縮を実現するために、外観モデルおよび変形モデルを作成することによって、この冗長さを活用する。さらに、特徴が参照フレーム内で識別されると、参照フレームの処理は、特徴を含む参照フレームを使用する方向に移される。これにより、参照フレームの処理が、信号内に存在するモードのセグメント化をさらにもたらす確率を高める。
ビデオデータを処理するための、システムおよび方法が提供される。一連のビデオフレームから構成されたビデオデータが、受信されてエンコードされる。候補特徴(候補である特徴)の1つ以上のインスタンスが、1つ以上のビデオフレーム内で検出されてもよい。候補となる特徴の検出は、1つ以上の以前にデコードされたビデオフレーム(ビデオデータを構成するビデオフレームのうち、既に復号化されたビデオフレーム)におけるインスタンスの位置情報を判別することを含む。位置情報は、フレーム番号、フレーム内の位置、およびインスタンスの空間外周(空間的な境界)を含む。候補特徴は、1つ以上の検出されたインスタンスのセットであってもよい。1つ以上の以前にデコードされたビデオフレームを用いて、一連の現在のビデオフレームの一部分を予測するために、動き補償予測プロセスを用いることができる。動き補償予測は、位置予測を用いて初期設定される。位置予測は、以前にデコードされたビデオフレーム内の検出された特徴インスタンスから、位置情報を提供することができる。1つ以上のインスタンスが、動き補償予測プロセスを拡張することによって変換できる。変換されたインスタンスとともに、特徴が定義される。線形変換を用いて1つ以上のインスタンスが変換されてもよい。変換されたインスタンスを含む定義された特徴は、第1の特徴を基礎とするモデルを作成するのに用いることができる。第1の特徴を基礎とするモデルは、実質的に(ほぼ)一致する特徴インスタンスの外観およびソース位置の現在のフレームにおける予測を可能にする。好ましくは、実質的に一致する特徴は、レート歪基準を用いて判別される最高の一致である。実質的に一致する特徴インスタンスが、キー特徴のインスタンスであってもよい。キー特徴のインスタンスは、第1の特徴を基礎とするモデルの現在のフレームの特徴インスタンスの合成であってもよい。第1の特徴を基礎とするモデルは、定義された1つ以上の特徴の従来のビデオ符号化モデル(ビデオ・エンコード・モデル)と比較することができ、この比較を用いて、いずれのモデルがより大きい符号化圧縮(エンコード圧縮)を可能にするかを判別できる。比較ステップおよび判別ステップの結果を用いて符号化プロセス(エンコード・プロセス)を誘導し、特徴を基礎とする符号化(エンコード)を1つ以上のビデオフレームの部分に適用し、および従来のビデオ符号化を1つ以上のビデオフレームの他の部分に適用する。
候補特徴のインスタンスは、実質的に近く空間的に密接した画素の空間的に連続したグループを識別することによって検出できる。識別された画素を用いて、1つ以上のビデオフレームの一部分を定義できる。画素のグループは、1つ以上のマクロブロックまたは1つ以上のマクロブロックの部分を含むことができる。
動き補償予測プロセスを用いて、複数の候補特徴のインスタンスから、効率的な符号化(エンコード)を提供すると予測される1つ以上のインスタンスを選択できる。候補特徴の現在のインスタンスのセグメント化は、現在のビデオフレーム内の他の特徴および特徴以外から判別できる。セグメント化は、特有の以前にデコードされたビデオフレームから、動き補償予測プロセスでの予測値を選択することに基づく。動き補償予測プロセスは、1つ以上の特徴(このような特徴は、ビデオ部分に一致する現在のフレーム内にインスタンスを有する)に属する特徴のインスタンスに関する位置情報を用いて初期設定される。ただし、ビデオ部分は現在のフレーム内に存在し、位置情報は、以前にデコードされたビデオフレーム内の同じ特徴に関連する特徴のインスタンスに対応する。
第2の特徴を基礎とするモデルを作成できる。第2の特徴を基礎とするモデルは、1つ以上の特徴のインスタンスから、1つ以上の動き補償予測のための予測の目標として、第1の特徴を基礎とするモデルを用いて作成される。この第2の特徴を基礎とするモデルは、第1の特徴を基礎とするモデルの予測のセットをもたらす。予測のセットが第1の特徴を基礎とするモデルと結合されると、予測のセットは第2の特徴を基礎とするモデルとなる。第2の特徴基礎のモデルを用いて、第1の特徴を基礎とするモデルからの残差をモデル化することができる。構造的変化および外観変化は、残差に対する第2の特徴を基礎とするモデルからモデル化される。特徴のインスタンスを用いて残差をエンコードして、外観および変形のパラメータを得ることができる。パラメータを用いて残差の符号化サイズを低減することができる。
1つ以上の特徴が、1つ以上の集合特徴を含んでもよい。集合特徴は候補特徴の1つ以上のインスタンスに基づく。集合特徴は、様々な候補特徴のインスタンスを集合候補特徴に集約することによって作成される。集合候補特徴のインスタンスのセットは、非集合候補の特徴の元々のインスタンスよりも実質的に大きい領域を形成するのに使用できる。より大きい領域は、セット内の候補特徴のインスタンス間のコヒーレンス(緊密さ)を識別することによって形成できる。コヒーレンスは、より低いパラメータ(少ないパラメータ)の動きモデルによって実質的に近似される、インスタンスにおける外観の相関関係として定義される。第2の特徴を基礎とするモデルは、空間位置に対して、デコードされたフレーム内のそのインスタンスに関連する画素の随意の矩形領域範囲を提供することができる。第2の特徴モデルは、先に正規化された特徴のインスタンスをモデル化することによって導出できる。先に正規化されるインスタンスは、現在のフレーム内のインスタンス、以前(時間的にほぼ最近、すなわち直前)にデコードされたフレームからのインスタンス、または以前(時間的にほぼ最近、すなわち直前)にデコードされたビデオフレームのインスタンスの平均、のうちの任意の1つであってもよい。
外観モデルは、正規化された第2の特徴を基礎とするモデルのインスタンスのPCA分解によって表現されることができる。変形モデルは、これらの第2の特徴を基礎とするモデルのインスタンスと比較して、各セットの特徴のインスタンスにおける相関関係の空間的変化を用いて決定できる。セット内の各特徴のインスタンスに対しては、動き補償予測プロセス、メッシュ変形、および実質的に低減されたパラメータを用いる動きモデルのうちの1つ以上を用いて、変形モデルに対する変形インスタンスにおける変化を近似できる。変形インスタンスを統合して変形モデルを作成できる。変形モデルにおける変化はPCA分解によって表すことができる。
外観パラメータおよび変形パラメータが予測されてもよい。予測されたパラメータは、特徴を基礎とするモデルを用いる現在のインスタンスの合成中に使用できる。外観および変形モデルならびに時間的に最近のパラメータを用いて、特徴を基礎とするモデルからのパラメータを内挿(補間)および外挿(補外)することにより、現在のフレーム内の画素を予測することができる。時間的に最近の特徴のインスタンスに対する合成値は、これらのインスタンスに対する最も正確な近似を得る方法に基づいて、線形内挿または線形外挿のいずれかが行われてもよい。モデルに対する実際のパラメータは、予測されるパラメータに対して随意に異なるように符号化できる。
動き補償予測プロセスは、従来のビデオデータ符号化に比べて、より多数の以前にデコードされたビデオフレームを選択して動作できる。以前にデコードされたビデオフレームの選択は、ユーザが管理する必要はない。
現在のフレームの一部の予測を作成すると、従来のビデオコード化は、メモリ内の1つ以上のビデオフレームの一部のより大きい圧縮を可能にする、インスタンスの予測処理によって強化される。つまり、従来のビデオ符号化の効率が高められる。インスタンス予測プロセスは、特徴を基礎とするモデルを使用して、符号化される目標のマクロブロックに生じる、定義される特徴の1つ以上のインスタンスを決定することができる。このようにして、インスタンス予測プロセスは、現在のフレーム内の予測される部分を作成できる。特徴を基礎とするモデルを用いて画素を合成して、現在のフレームの部分を予測することができる。
以前にデコードされたビデオフレームに対する確率(蓋然性、見込み)を割り当てることができる。確率は、フレームについての、組み合わせた予測される符号化性能の改良に基づくこともできる。これは、動き補償予測プロセスからの位置の予測を用いて判別される。確率は、動き補償予測プロセスの組み合わせた符号化性能として定義できる。このプロセスは、現在のフレームに対する第1の特徴を基礎とするモデルおよび第2の特徴を基礎とするモデルの分析の間に利用されるものである。以前にデコードされたビデオフレームの並べ替え(ソート)に基づく索引付け(インデックス化)は、最高から最低まで、これらの確率に基づいて作成される。索引付けされたリストは、計算およびメモリの必要条件に基づいて切り捨てられることもある。
特徴を基礎とするモデルは、定義される特徴の1つ以上を用いて形成される。特徴を基礎とするモデルは、定義される特徴に対する位置情報を含んでもよい。位置情報は、以前にデコードされたビデオフレームからの定義される特徴の位置および空間外周を含んでもよい。例えば、位置情報は、特定のフレーム内の領域の空間位置に関する情報、およびそのフレーム内の上記領域の矩形の範囲に関する情報を含んでもよい。特徴を基礎とするモデルは、以前にデコードされたビデオフレーム(またはビデオフレームの一部)のいずれが定義される特徴に関連付けられているかを指定する。
定義される特徴は、マクロブロック動き補償予測を用いてビデオデータから正規化およびセグメント化される。定義される特徴は、特徴を基礎とするモデルを用いて正規化されてもよい。マクロブロック動き補償予測は、位置の予測として以前にデコードされた画像フレーム内の特徴の位置を用いてもよい。結果として得られる正規化は、現在のビデオフレーム内の特徴の予測を提供する。
特徴を基礎とするモデルは、同じビデオデータの従来の符号化から得られる別のモデルと比較されてもよい。この比較を用いて、いずれのモデルがより大きい符号化圧縮効率を実現できるかを判別できる。様々な符号化技法が、符号化比較の結果に応じて、ビデオデータの様々な部分に適用されてもよい。このようにして、差分符号化により、システムは、特徴を基礎とする符号化または従来の符号化がさらに圧縮の効率化を可能にするか否かに依存して、ビデオデータの各部分に対して異なるビデオ符号化方式を選択することが可能になる。
定義される特徴は、1つ以上のビデオフレーム内の特徴のインスタンスのセットとして表現される。各インスタンスは、インスタンスが発生するフレームに対する参照と、当該フレーム内のインスタンスに関連する空間位置と、空間位置に対する、当該フレーム内の当該インスタンスの画素の随意の矩形領域範囲とを含んでもよい。空間位置は、1つ以上のビデオフレーム内の符号化部分に対する一致の予測を提供できる。定義される各特徴に対して外観モデルを提供して、セット内のインスタンスごとの、定義される特徴の変化をモデル化してもよい。外観モデルは、先に正規化される特徴のインスタンスをモデル化することによって導出されてもよい。先に正規化されるインスタンスは、動き補償予測プロセスと、メッシュ変形と、減少したパラメータの動きモデル化(例えばアフィン)との任意の組み合わせを用いて正規化されてもよい。
正規化を用いて変形モデルを構築することができ、この変形モデルは、各セットの特徴のインスタンスにおける相関関係の空間的変化をモデル化するのに用いられる。セット内の各特徴のインスタンスに対しては、動き補償予測プロセスと、メッシュ変形と、減少したパラメータの動きモデルとのうちの1つ以上を用いて、変形モデルに対する変形インスタンスを判別してもよい。変形インスタンスは変形モデルに統合されてもよい。変形モデルは、主成分分析(PCA)を用いる分解によって表現されてもよい。変形モデルは、任意の分解アルゴリズムを用いる分解によって表現されてもよい。動き補償予測プロセスは、管理されることなく、従来のビデオデータ符号化に比べて、より多数の以前にデコードされたビデオフレームに作用してもよい。
従来のビデオ符号化は動き補償ブロックに基づく圧縮を含んでもよい。従来のビデオ符号化は、残差フレームを形成すると、メモリ内のビデオフレームの部分のより大きい圧縮を可能にする、残差低減プロセスによって強化される。残差低減プロセスは、残差フレームを形成するために符号化される目標のマクロブロックに生じる、定義される特徴の1つ以上のインスタンスを判別するために、特徴を基礎とするモデルを含む。残差フレームを予測するために、特徴を基礎とするモデルを用いて画素が合成されてもよい。特徴を基礎とするモデルは、参照フレームの索引予測に用いられる。合成画素は、定義される特徴の1つ以上のインスタンスが現在のフレーム内の2つ以上のマクロブロックと重複することを判別すると、他の残差低減に対して再使用される。合成画素は、定義される特徴の1つ以上のインスタンスが現在のフレーム内のマクロブロックに対する位置情報に実質的に一致する場合、定義される特徴の1つ以上のインスタンスが1つのマクロブロックを表現することを判別すると、他の残差低減に対して再使用される。外観および変形は特徴を基礎とするモデルに基づいてモデル化されてもよい。外観モデルおよび変形モデルを、これらモデル内のパラメータの履歴セットとともに用いて、特徴を基礎とするモデルからパラメータを内挿および外挿し、現在のフレーム内の画素を予測できる。さらに、高次の2次およびさらに拡張されたカルマンフィルタモデルを用いて、外観および変形パラメータを予測することができる。特徴を基礎とするモデルからのパラメータの予測によって、残差パラメータの大きさが低減される。その結果、より低い精度となり、したがって現在のフレーム内の画素を予測するのに必要なパラメータのより低いビットレート表現をもたらす。
動き補償予測プロセスを用いて、1つ以上のフレームからの1つ以上のマクロブロックが選択される。PCAモデルにおけるマクロブロックからの画素は線形結合された画素であってもよく、PCAモデルパラメータは内挿されてもよい。同様に、PCAの代わりに、任意の分解アルゴリズムを用いることもでき、そのアルゴリズムの実質的な相対的利点に基づいて利用されてもよい。
実質的に小さい空間領域がビデオフレーム内で識別されてもよい。コヒーレンシの基準は、空間領域を識別するのに用いられ、この空間領域は結合されて、実質的により大きい空間領域を形成することができる。より大きい空間領域については、より大きい空間領域の定義される特徴であることへの適合性が、より大きい空間領域の特徴を基礎とするモデルを符号化することによって判別される。より小さい領域は、定義される特徴であってもよく、より大きい領域が定義される特徴であってもよい。
特徴を基礎とする圧縮は、オブジェクトに基づく圧縮プロセスを含む。オブジェクトに基づく検出、追跡およびセグメント化が、現在のフレームまたは以前にデコードされたフレーム内の特徴インスタンスに適用される。特徴インスタンスの中間形態が、空間セグメント化を用いて導出される。例えば、空間セグメント化プロセスは、非オブジェクト背景から前景オブェクトをセグメント化してもよい。セグメント化の結果、特徴インスタンスにおける所与のオブジェクトの画素レベルの相関関係が提供される。この相関関係は、画素があるフレームに存在し、次のフレームにおけるその画素の発生への相関関係である。オブジェクトに関連する画素データは再サンプリングされ、その後、再サンプリングされた画素データの空間位置は、モデルを用いて復元される。再サンプリングは効果的に、1つのフレームから次のフレームにオブジェクトの画素データを正規化し、これにより、ビデオ処理目的に対する計算および分析上の利点を有する、ビデオデータの中間形態を提供する。このようにして、オブジェクトに基づく正規化およびモデル化のプロセスは、特徴を基礎とする符号化プロセスの間において、現在のフレーム内または以前にデコードされたフレーム内の特徴インスタンス(または特徴インスタンスの一部)に適用されてもよい。相関関係モデル化、変形モデル化、外観モデル化、輪郭モデル化および構造モデル化を用いて、現在のフレーム内または以前にデコードされたフレーム内の特徴インスタンス(または特徴インスタンスの一部)をモデル化してもよい。
定義される特徴は、顕著なエンティティ(オブジェクト、サブオブジェクト)に対する相関関係がなくてもよい。例えば、検出された特徴のラベル付けを管理することにより、顕著なエンティティが、あるオブジェクトに属するかまたは属さないかを判別してもよい。定義される特徴は、2つ以上の顕著なオブジェクト、背景またはビデオフレームの他の部分の要素を含んでもよい。1つ以上の特徴が1つのオブジェクトを構成してもよい。また、定義される特徴がオブジェクトに対応しなくてもよい。定義される特徴がいずれかのオブジェクトに含まれなくてもよい。このようにして、特徴を基礎とする圧縮は、オブジェクトに基づく検出よりも柔軟であり汎用性がある。定義される特徴はオブジェクトを含み、かつオブジェクトに含まれることができるが、定義される特徴はオブジェクトに基づく必要はなく、任意の形態をとることができる。
別の実施形態では、圧縮センシング(CS)が、特徴を基礎とする符号化技法に適用される。CSは、役立つ特徴または定義される特徴を有するビデオフレーム内の画素に適用されてもよい。CSはまた、ビデオフレームの残りの画素に対する従来の符号化に適用されてもよい。CS適用の有効性(効率)を向上させるために、ビデオデータはスパースにされる(疎にされる)。モデル(外観モデルおよび変形モデル)形成の間に、CSを適用して、部分的なパラメータ測定値からモデルパラメータを求めてもよい。
CSが、第2の特徴を基礎とする予測の残差に適用されることができる。CSの適用は、測定値として平均外観を利用し、その平均外観からビデオ信号を予測する。CS予測に関連する変化は、第2の特徴を基礎とするモデルから除去されることができる。特徴を基礎とするモデルは、残りの画素のよりコンパクトな符号化に集中するために使用される。CS符号化は、1つ以上のビデオフレーム内の残りの画素および残りのビデオフレームに適用できる。
特徴を基礎とする分解を用いてビデオデータをデコードする、ハイブリッド・コーデック・デコーダが提供される。エンコードされるビデオデータは、エンコードされるビデオデータ内にエンコードされる特徴が存在するか否かを、マクロブロックレベルにおいて(マクロブロックを単位として)判別することによってデコードされる。エンコードされる特徴は特徴を基礎とするモデルを含む。エンコードされる特徴が存在しない場合、エンコードされるビデオデータ内のマクロブロックは従来のビデオ分解を用いてデコードされてもよい。エンコードされる特徴が存在する場合、デコーダは、エンコードされるビデオデータから特徴のエンコードされる部分を分離することによって、エンコードされるビデオデータ内のエンコードされる特徴の検出に応答してもよい。特徴のエンコードされる部分を分離することによって、システムは、ビデオストリーム内の従来方法でエンコードされた部分から分離して、エンコードされた特徴を合成することができる。エンコードされた特徴部分からの特徴パラメータは、エンコードされた特徴に含まれた特徴モデルに関連付けられる。エンコードされた特徴を合成するために、特徴パラメータがデコーダによって使用される。元のビデオフレームを再構成するために、ビデオデータの従来方法で圧縮された部分/一部が、合成された特徴と結合される。
別の実施形態では、ビデオ・コーデックが、複数の圧縮ビデオ信号モードを扱うことができる。ビデオ信号モードの1つでは、コーデック・エンコーダ(コーデック符号器)は、特徴を基礎とするビデオ圧縮を提供する。別のモードでは、コーデック・エンコーダは従来のビデオ圧縮を提供する。同様に、コーデック・デコーダ(コーデック復号器)は様々なビデオ信号モードに対応し、ビデオ信号の内容(例えば、ビデオ信号モード)に応じて、特徴を基礎とするビデオ分解および従来のビデオ圧縮を提供することができる。
コーデックは、特徴を基礎とする符号化または従来の符号化がビデオ信号のビデオフレーム内の1つ以上の特徴に対して、より高い圧縮効率を提供するか否かに基づいて、いずれのビデオ圧縮の種類が適切であるかを判別する。
上記は、添付図面に示されるように、本発明の例としての実施形態の以下のより詳細な説明から明らかになるであろう。添付図面では、同一参照符号はそれぞれの図全体を通して同一部分を指す。図面は必ずしも縮尺どおりでなく、本発明の実施形態を説明することに重点が置かれている。
本発明の実施形態(ハイブリッド・コーデック)の概略図である。 本発明のエンコーダに組み込まれたビデオ圧縮アーキテクチャのブロック図である。 本発明の実施形態が実現されるコンピュータネットワーク環境の概略図である。 図3のネットワークにおけるコンピュータノードのブロック図である。 本発明の一実施形態を表す特徴モデル化を示す図である。 本発明の実施形態による予測プロセスを説明する図である。 本発明の実施形態(コーデック)のブロック図である。 本発明の実施形態による特徴追跡を示す図である。
<序文>
本発明の例示的な実施形態の説明を以下に示す。全ての特許、公開された出願およびここに引用された参考文献の教示は、参照により本明細書に引用したものとする。
<ディジタル処理環境およびネットワーク>
好ましくは、本発明は、ソフトウェアまたはハードウェア環境において実現される。図3にはこのような環境の1つが示されており、本発明を実現できる、コンピュータネットワークまたは同様のディジタル処理環境を示している。
クライアント・コンピュータ/装置350およびサーバ・コンピュータ360は、アプリケーションプログラムなどを実行する、処理、記憶および入力/出力装置を提供する。クライアント・コンピュータ/装置350はまた、他のクライアント装置/処理装置350およびサーバ・コンピュータ360を含む、他の計算装置に、通信ネットワーク370を介してリンクされる。通信ネットワーク370は、現在はそれぞれのプロトコル(TCP/IP、Bluetoothなど)を用いて相互に通信する、リモート・アクセス・ネットワーク、グローバルネットワーク(例えばインターネット)、世界規模のコンピュータ集合体、ローカルエリアまたはワイドエリアのネットワーク、およびゲートウェイの一部であってもよい。他の電子装置/コンピュータ・ネットワークアーキテクチャを利用することもできる。
図4は、図3のコンピュータ・システムにおけるコンピュータ(例えばクライアント・プロセッサ/装置350またはサーバ・コンピュータ360)の内部構造を示す。各コンピュータ350、360はシステム・バス479を含み、このバスは、コンピュータまたは処理システムのコンポーネント間のデータ転送に使用される、実際または仮想のハードウェア配線のセットである。バス479は、基本的には、コンピュータシステムの異なる構成要素(例えば、プロセッサ、ディスク記憶装置、メモリ、入力/出力ポートなど)を接続する、共有の電線路であり、構成要素間の情報の転送を可能にする。システム・バス479には、様々な入力および出力装置(例えば、キーボード、マウス、ディスプレイ、プリンタ、スピーカなど)をコンピュータ350、360に接続する、I/O装置インタフェース482が接続されている。ネットワークインタフェース486によって、コンピュータを、ネットワーク(例えば、図3の符号370で示されたネットワーク)に接続された様々な他の装置に接続できる。メモリ490は、本発明の実施形態(例えば、上述のハイブリッド・コーデック、ビデオ・エンコーダ圧縮コードおよびデコーダ・コード/プログラム・ルーチン)を実現するのに使用される、コンピュータソフトウェア命令92およびデータ494を記憶する揮発性記憶を提供する。ディスク記憶装置495は、本発明の実施形態を実現するのに用いられるコンピュータソフトウェア命令492(すなわち「OSプログラム」)およびデータ494を記憶する不揮発性記憶装置である。中央処理装置484もまたシステム・バス479に接続され、コンピュータ命令を実行する。本文書の全体を通して、「コンピュータソフトウェア命令」と「OSプログラム」とは同義であることに留意されたい。
一実施形態では、プロセッサルーチン492およびデータ494は、本発明のシステムに対してソフトウェア命令の少なくとも一部を提供する、コンピュータ可読媒体(例えば、1つ以上の、DVD‐ROM、CD‐ROM、ディスケット、テープなどの、着脱可能な記憶媒体)を含む、コンピュータプログラム製品(総称的に符号492とする)である。コンピュータプログラム製品492は、当技術分野で周知のように、適切なソフトウェア・インストール手順によってインストールされる。別の実施形態では、ソフトウェア命令の少なくとも一部が、有線通信および/または無線通信でダウンロードされてもよい。他の実施形態では、本発明のプログラムは、伝播媒体(例えば、ラジオ電波、赤外線、レーザ光線、音波、またはインターネットのようなグローバルネットワークもしくは他のネットワークを介して伝播される電気信号波)上の伝播信号に埋め込まれた、コンピュータプログラム伝播信号製品307である。このようなキャリア媒体または信号は、本発明のルーチン/プログラム492に対するソフトウェア命令の少なくとも一部を提供する。
代替実施形態では、伝播信号は、伝播媒体上で運ばれるアナログキャリア波またはディジタル信号である。例えば、伝播信号は、グローバルネットワーク(例えば、インターネット)、電気通信ネットワークまたは他のネットワークを伝播されるディジタル信号であってもよい。一実施形態では、伝播信号は所定期間に伝播媒体を転送される信号であって、例えば、ミリ秒、秒、分またはそれ以上の期間にわたってネットワークをパケットで送信されるソフトウェアアプリケーションの命令である。別の実施形態では、コンピュータプログラム製品492のコンピュータ読み取り可能な媒体は、コンピュータシステム350が、例えば、伝播媒体を受信し、上述のコンピュータプログラム伝播信号製品用の、伝播媒体に組み込まれた伝播信号を特定することによって、受信および読み取りをコンピュータシステムが行なう、伝播媒体であってもよい。
一般的に言えば、用語「キャリア媒体」すなわち一過性キャリアは、上述の一過性信号、伝播信号、伝播媒体、記憶媒体などを包含する。
<特徴を基礎とするビデオ圧縮の概要>
本発明は、ハイブリッド(特徴を基礎とする方法と共に従来の方法による)コーデック方法(図1)を提供する。そして、この方法は、ビデオ内の特徴を、検出すること(113)、分離すること(115)、モデル化すること(117)、符号化すること(111)および復号化すること(124)の手段を備える一方、従来のコーデック118が、非特徴と、特徴エンコーダ/デコーダによっては効果的に処理できない特徴とを符号化および復号化することを可能にする。図1は、対象のビデオ信号入力(一連の画像フレームから形成されたビデオデータ)110が本発明のハイブリッド・コーデック121によってエンコード(符号化)されることを示している。ハイブリッド・コーデックは、エンコード化決定ヒューリスティックス(heuristic:発見的手法)を含み、以下のようにビデオ信号を処理する。すなわち、ステップ113では、特徴の検出は、複雑性を示す、極めて接近した画素(近接近画素)のグループを識別することによって、主として達成される。複雑性は一般に、画素のエンコード化(符号化)が、従来のビデオ圧縮により効果的にエンコードされるレベルを超えることを示す、任意の基準として定義される。極めて接近した画素のこのグループ分けは、背景および他の特徴から検出された特徴(ステップ115において検出)のセグメント化を提供する。その後、グループ分けを分析して、複雑性が、本発明の特徴モデル(117)を用いて有利にモデル化されることが可能か否かを判別する。
特徴が検出および追跡され、特徴のモデルが作成されると(ステップ117)、特徴モデル化と従来のモデル化とを比較して(コンパレータ119において比較)、いずれのモデル化がより大きい利点を有するかを判別する。現在のフレームの動き補償予測に用いられる参照フレーム処理を採用する従来のビデオ符号化メカニズム(118における)が、このプロセスにおいて利用される。比較(119)は従来の参照フレーム処理を採用しているため、現在のフレームのセグメント化がもたらされる(様々な参照フレームからの予測の選択に基づく)。別の参照フレームに対比して1つの参照フレーム内の画素(より典型的には、マクロブロックとして)を選択することは、フレーム内および対象ビデオ110自体内の特徴のセグメント化であることを意味する。対象ビデオ信号入力110の結果として得られる符号化(120)は、参照フレーム内の特徴を再生するのに必要とされる追加のエンコードされた情報が伴う、従来のビデオ符号化ストリーム(従来のエンコーダ118の出力)を含む。
ハイブリッド・コーデック・デコーダ122は、入力ビデオ信号110を合成する(近似する)ために、エンコードされたビデオをデコード(復号化)することを示す。エンコードされたビデオに含まれる情報のストリームを検査すると、ハイブリッド・コーデック・デコーダは、エンコードされたビデオ内にエンコードされた特徴が存在するか否かを、サブフレームレベル、マクロブロックレベルにおいて、判別する(123)。エンコードされた特徴が存在しない場合、従来のマクロブロックまたは非特徴のマクロブロックが従来の方法でデコードされる。エンコードされた特徴が、エンコードされたビデオストリーム内に存在する場合、ハイブリッド・コーデックは、それぞれ別個に合成するために、従来の方法でエンコードされた部分から特徴に基づきエンコードされた部分を分離し(125)、合成後にそれら部分を結合する。ハイブリッド・コーデックは、デコーダによって作成された特徴モデル(正確に作成され、エンコーダにおいて作成されたモデルと並列のモデル)を用いて、エンコードされた特徴パラメータを使用して、特徴を合成する(124)。次に、従来の方法でエンコードされた特徴部分および特徴に基づいてエンコードされた部分を複合して(126)、完全な特徴合成を作成する。次に127において、ハイブリッド・コーデックは、非特徴合成と特徴合成を結合して、完全な合成ビデオ信号128を得る。
図7は、特徴を基礎とする符号化を、従来の符号化に対する一部分の置換え、場合によっては完全な置換えとして利用する、本発明の実施形態を表している。図7には、ビデオ信号内の特徴の検出710、追跡720、比較730、モデル化740、符号化750およびデコード化760が示されている。
ステップ710では、113(図1)と同様に、特徴の検出は、複雑性を示す、空間的に近接する画素グループを識別することによって主として達成される。これにより、これら特徴は従来の方法よりも効果的に符号化/モデル化される。これらの画素のグループは、115(図1)においても示されるように、検出された特徴(710)をその周囲の非特徴である画素から分離する。検出された特徴、または特徴のインスタンスの候補、または単に特徴の候補が、さらに、2つ以上のフレームにわたって画素のグループに相関させるために分析される。この相関性によって、追跡できるビデオフレーム(720)内の離散したエンティティを特徴のインスタンスが表現していることが確実となる。これにより、特徴をモデル化すること(740)で低減できる可能性のある、ビデオ内のさらなる冗長さを確認できる。ステップ720では、特徴は、117(図1)にも示されるように、1つ以上の他のフレーム内の特徴のインスタンスとともに現在のフレーム内の特徴のインスタンス(すなわち領域)を識別することによって、追跡される。本文の全体を通して「特徴のインスタンス」は「領域」と同義であることに留意されたい。また、「インスタンス」は、「特徴のインスタンス」および「領域」(これらを参照する場合)と同義である。
各個別の特徴のインスタンスは、候補特徴と考えられ、そして特徴セットまたは単に特徴にグループ分けすることによって結合されて、完全な特徴(単なる候補から抜け出した、真の特徴)になる。これらのインスタンスは、ステップ730において、インスタンスの間の相関関係を識別することにより、分析および比較されて、特徴セットに分類される。
本文では、特徴候補と特徴インスタンスとは同義である。特徴セットは、特徴インスタンスの変形の変化および外観変化のモデルを取得するために分析される。特徴インスタンス間の変形の変化は、変形モデル化プロセスによって判別される。インスタンス間の画素当たりの差を低減するのに必要とされる、空間画素再サンプリングを判別するために、変形モデル化プロセスが2つ以上のインスタンスを比較する。
特徴候補はステップ740でモデル化される。ステップ740では、複数の分析技法を適用して、サンプリングされた領域を厳選する(絞り込む)。ビデオストリームの特徴の符号化(750)は特徴モデルを利用し、従来のビデオ符号化を用いずに、ビデオストリームを部分的または完全に符号化する。デコード化760は、モデル化操作750の逆で、特徴モデルを用いて特徴を合成して、エンコードされた特徴をデコードして各特徴のインスタンスの画素の合成(770)を生成し、ビデオ内に元々現れていた特徴に近づける。
<予測セグメント化(第1次)>
図6は、1つ以上の参照フレーム内に置かれた1つ以上の過去のフレーム内に含まれる情報を利用することにより、現在のビデオフレーム内の要素を予測するプロセスを示す。一実施形態では、予測の方法1,640は、1つ以上の以前にデコードされたフレーム610から参照フレーム620に領域を複製する。方法2,650はさらに、特徴領域630‐1,630‐2,…630‐nからなる特徴のインスタンス660を、参照フレーム内に置く。直接参照フレームに特徴のインスタンスを挿入することは、本発明の簡単な形態を示しており、ここで、さらなる一実施形態では、セグメント化は単に矩形の領域であり、特徴のモデルは特徴インスタンスである。さらなる圧縮率の増加は、さらなるモデル化技法を、識別された特徴660に適用し、参照フレーム内で用いることによって実現できる。
予測セグメント化は、従来の圧縮の動き補償予測方法を拡張して、より正確な予測を可能にする方法である。従来の圧縮は、本発明の特徴モデル化方法を用いて作成される追加の参照フレームを用いて、正確性を向上させる。従来の圧縮方式においてこれらの特徴参照フレームの一部が利用されると、特徴符号化の圧縮率が従来の符号化の圧縮率よりも小さい場合に、圧縮率の増加が達成される。
一実施形態では、要素または特徴インスタンスのセットとして特徴が表現される。一実施形態では、特徴インスタンスは矩形の領域として実現され、各特徴インスタンスは、固有(unique)フレームに対する参照、その固有フレーム内の空間位置、およびその固有フレーム内の矩形の領域範囲を提供する。特徴のインスタンスはそれぞれ、特徴のサンプリングされた画像を表現する。インスタンスごとの特徴の外観の変化は、特徴モデル化方法によってモデル化される。
一実施形態では、参照フレームには、以前に合成されたフレームからの1つ以上のサブフレームサンプルが備えられている。サブフレームサンプルは、以前に合成された(デコードされた)フレーム内および現在のフレーム内のサブフレーム領域間の特徴インスタンスの相関関係に基づく。
さらなる実施形態では、複数の画像平面が少数の画像平面に統合される。これらの少数の画像平面は、予測されるフレーム内の予想される位置に近接して位置する特徴を有する。フレームの低減は、重複しない特徴、または空間的重複がほぼゼロに近い特徴を同一平面に統合することに基づく。
出願人によるフレームの低減はさらに、特徴の情報(以前の一致、追跡情報、モデル化情報)について特徴を基礎とする境界ボックスを推定することにより、上の方法により同様に実施された。
別の限定されない実施形態では、各統合されるフレームは、予測されるフレームのサイズと等しく、また特徴は、従来の動き補償予測メカニズムによって予想される位置に正確に存在しない場合は、空間的に近接している。
<特徴の検出>
図5は、1つ以上のビデオフレーム520‐1,520‐2,…520‐nで検出された、特徴510‐1,510‐2,…510‐nを示す。典型的には、このような特徴は、画素から導出される構造的な情報と、従来の圧縮が過度のリソースを利用して特徴をエンコードすることを示す複雑性の基準とに基づいて、いくつかの異なる基準を用いて検出される。特徴符号化と比較されて、各特徴はさらに、「領域」530‐1,530‐2,…530‐nとして図に示されている、対応する空間的範囲、外周によって、フレーム520‐1,520‐2,…520‐n内で空間的に識別される。
これらの領域530‐1,530‐2,…530‐nは、画素データの単純な矩形領域としてのインスタンスについて抽出されて、集合体540内に置かれることができる。集合体全体は特徴を表す。
フレーム内の特徴の各インスタンスはそれぞれ、特徴の外観のサンプルである。なお、十分な数のこれらサンプルが集合体に統合されると、それらサンプルを使用して、特徴がサンプリングされるフレーム内、およびまた特徴がサンプリングされていない他のフレーム内の特徴の外観をモデル化できる。このようなモデルは、逆モデルによってデコードして特徴の合成を作成できる、エンコードされたパラメータのセットに外観を変換できる。
小さい空間領域は、あるコヒーレンシ基準に基づいてこれら領域を結合して大きい空間領域を形成できるか否かを判別するために、識別されて分析される。これら大きい空間領域は次に、候補特徴としてのこれらの適合性を判別するために分析される。領域の特徴のモデル化が有利な符号化を提供しない場合、候補特徴は廃棄されるか、その特徴の将来のインスタンスを次のフレームでモデル化するために維持されるかのいずれかが行われる。検出プロセスは、有利なモデル化を示すこれら候補特徴のみが維持されるまで進行する。
空間領域のサイズは、画素の小グループまたはサブ画素からより大きい面積に変化する。この大きな面積は、従来のビデオ圧縮アルゴリズムによって決定されるような、マクロブロックまたはサブマクロブロックの分割ステップによって、暗黙的にセグメント化される傾向があるので、実際のオブジェクトまたはそれらオブジェクトの一部に相当することもある。しかし、検出される特徴は、オブジェクトおよびサブオブジェクトなどの、離散的に固有で分離可能なエンティティに一致しなくてもよいことに留意することが重要である。特徴がこのようなエンティティに一致する必要はない。単一の特徴が、2つ以上のオジェクトの要素を含むか、またはオブジェクトの要素を全く含まなくてもよい。重要なファクタは、本発明が、従来の方法よりも優れた効率でこれらの単一の構成要素を処理する能力を有し、特徴を基礎とするビデオ圧縮技法による効率的なモデル化に基づくだけで、特徴の定義を十分に満たすことである。
より大きい空間領域を特徴として識別するために、小さい空間領域をより大きい領域に集合してもよい。小さい領域は、これらの間のコヒーレンシを識別することにより、より大きい領域に集合される。コヒーレント運動、動き補償予測および符号化の複雑性を含む、コヒーレンシを識別できるいくつかの方法がある。
コヒーレント運動は、より高次の動きモデルによって明らかにされる。例えば、各個別の小さい領域についての並進運動は、小さい領域のそれぞれに対するより簡単な動きモデルを近似できる、アフィン動きモデルに統合される。
小さい領域の動きを、一致性に基づいてより複雑なモデルに統合できる場合、これは、従来の動き補償予測方法に勝る利点を提供する可能性のある、そしてまた、特徴モデル化において活用できる小さい領域間のコヒーレンシを示す、領域間の依存性を意味する。
符号化(エンコード化)の複雑性は、1つ以上の小さい領域を表すために従来の圧縮によって要求される帯域幅を分析することにより、判別できる。従来の符号化が効果的に圧縮できず、さらにフレームごとに冗長さがあるために相互に関連付けることができない、ある特定の小さい領域のセットに対して、帯域幅の過度の割当てが存在する場合、これらの領域は、1つの特徴に集合される可能性があり、その特徴の符号化の複雑性は、特徴のモデル化がより良好に表現する現象の存在を示すかもしれない。
既知フレームのセットにおける各フレームは、重複しないパターンに整列された均一なタイルに完全に空間分割される。各タイルは、特徴を特定するのに十分な情報を含むと実際に判別された、画素の別々のサンプリング領域として分析される。本発明は、これらのサンプリング領域を用いて複数の分類を作成し、次に、この分類を用いて分類器(classifier:クラシファイア)を訓練する。なお、任意の特徴の最終的な位置はこの最初の位置とは異なる場合もある。
さらなる実施形態では、定義されるタイル(tile)およびこれらのタイルと重複するタイル(tiling)からサンプリング領域を生成する。重複するタイルの中心が、下側に位置するタイルの4つのコーナーの各交差点に位置するように、重複するサンプリングをずらしてもよい。このように過度に完全な空間分割を行うことは、最初のサンプリング位置が検出される特徴をもたらす可能性を高めることを意味する。複雑になる可能性もあるが、他の位相分割(topological partitioning)方法も考えられる。
特徴モデル化予測では、サンプリング領域をクラスタに分類する。この分類では、ある1つの領域がその領域と同一のクラスタ内の他の領域に対して相関関係を有する確率が高い。特徴モデル化予測は、サンプリング領域から導出されるパターンの例を使用する。
好ましい実施形態では、特徴は、空間プロファイリング(詳細は、空間プロファイリングのセクションにおいて後述する)の助けによって検出される。空間プロファイリングは、単一の特徴の一部であってもよい、フレームの領域を提供する。これは、サンプリング領域を特徴に結合する手段として使用される。
一実施形態では、パターン特徴はスペクトル特徴として定義される。スペクトル特徴は、カラー空間からHSVカラー空間に領域を変換することによって発見される。変換された領域は次に、導出された領域の画像ベクトル空間が元の領域の画像ベクトル空間よりもさらに小さい寸法になるまで、繰り返しサブサンプリングされる。これらの導出された領域はスペクトル特徴と見なされる。スペクトル特徴は、改良されたK平均アルゴリズムを用いてクラスタ化される。K平均クラスタは、それらのスペクトル分類に基づいて元の領域をラベル付けするのに使用される。
一実施形態では、分類器は、サンプリング領域のエッジ・コンテンツに基づいて構築される。各領域は、DCT空間に変換される。導出された特徴のDCT係数は次に、合計して上三角行列および下三角行列が求められる。次に、これらの合計を用いてエッジの特徴空間を形成する。特徴空間は次に、K平均を用いてクラスタ化され、元の領域は、これらの導出された領域のクラスタの分類にしたがってラベル付けされる。
さらに別の実施形態では、スペクトル特徴およびエッジパターン特徴の分類器が、各領域に対して複数の分類を作成するのに使用される。
<特徴の追跡>
一実施形態では、現在のフレーム内の同一の対応する特徴のインスタンスを判別するための基礎として、新しく検出された特徴と以前に追跡された特徴の組み合わせを用いる。現在のフレーム内のこの特徴のインスタンスを識別することと、領域の以前に発生したインスタンスとともに現在のフレーム内のこのインスタンスを含むこととが、特徴の追跡を構成する。
図8は、新しく検出された特徴と以前に追跡された特徴810の組み合わせとともに特徴のトラッカ(tracker:追跡器)830を使用して、特徴820‐1,820‐2,…820‐nを追跡および分類することを示す。最初に、一般的な特徴検出器850が特徴を識別するのに使用される。相関関係は、以前に検出された特徴810に一致する、現在のフレーム840に基づいて判別される。追跡された特徴は、特徴のセットにまとめられるかまたは、以前に構成された特徴セットもしくは新しい特徴セットに属するように分類される。
特徴の相関関係は最初に、平均2乗エラーの推定値を最小化する従来の勾配降下法によって判別される。結果として得られる空間変位は、現在のフレーム内の特徴の近似位置を提供する。検索に用いられるテンプレートは特徴の単一の領域である必要はないが、特徴に関連するいずれかの領域である。最終の一致は次に、MSEしきい値に一致する、重複しない領域のタイルの数として確実な方法で評価される。
2つ以上の領域の一致に空間的制約を課すことにより、トラッカは追跡される特徴の数を減らすことができる。そのため、追跡の計算の効率が向上する。2つ以上の特徴の空間的一致はまた、追加の特徴の事例を示し、この場合、特徴は実際には、過去または他の複雑な特徴の空間配列(トポロジー)内の2つの特徴であってもよい。トラッカモードは追跡状態を一時的に低下させることができ、これにより、特徴を追跡できるが、追跡される領域の優先度をより低くすることができる。
<特徴のモデル化>
領域予測モデルを構成するのに用いられる、モデル内の領域を判別するために、分析のいくつかの段階中に、予測しようとする領域を用いて領域相関関係モデル(RCM)をトラバースする(traverse)。
一実施形態では、目標の領域はRCMを更新するために用いられ、これにより、RCMおよび目標の領域内に含まれる、他の領域間の並進運動および中間点正規化相関関係を生成する。結果として得られる領域のペアワイズ相関関係は、目標領域に対する予測モデルをもたらす可能性がもっとも高い他の領域を識別する。
本発明は、領域の集合体と称されるセット内に、特定の目標の領域に対して、1つ以上の最も強い相関関係のアセンブリを含む。領域の集合体は、集合体内の1つの主領域(キー領域)に対して、空間的に正規化される。一実施形態では、目標領域に最も近い領域が一時的に主領域として選択される。これらの正規化を実行するのに必要な変形体は変形体の集合体に収集され、結果として得られる正規化画像は、すべて譲受人に譲渡された、米国特許番号第7,508,990号、7,457,472号、7,457,435号、7,426,285号、7,158,680号、7,424,157号、および7,436,981号ならびに米国特許出願第12/522,322号に記載されているように、外観の集合体内に収集される。上記の特許の全教示内容は、参照により本明細書に引用したものとする。
外観集合体は外観モデルを得るために処理され、変形集合体は変形モデルを得るために処理される。外観モデルと変形モデルを組み合わせると、目標の領域に対する特徴モデルとなる。一実施形態では、モデル作成の方法は、集合体を主成分分析(PCA)分解し、その後、結果として得られる基底ベクトルを切り捨てる。さらなる実施形態では、切捨ての基準は集合体内の再構成であってもよい。
別の実施形態では、モデル作成(外観および変形モデル)の方法は、本文の別の箇所で説明されている、圧縮センシング(CS)であり、この方法ではモデルパラメータは部分的なパラメータ測定から決定される。
目標の領域は、特徴パラメータをもたらす特徴モデル上に射影される。これらパラメータは、領域の変形モデル化および外観モデル化用である。また、特徴パラメータは、目標の領域の符号化である。
集合体内の2つ以上の領域に対する特徴モデルパラメータは、時間基準を用いて選択される。これらのパラメータは、領域自体と目標領域の間の既知の間隔を条件として、目標領域の状態を予測するために使用される。状態モデルの一例は、時間ステップを条件として、2つ以上の特徴パラメータの線形外挿である。線形モデルは、目標の領域に対して特徴のパラメータを予測するのに用いられる。
外挿値が目標の領域の適切な合成(デコード化)を提供する場合、目標領域の特徴パラメータの詳細は必要とされないか、またはこれらは外挿パラメータに対して特異的に指定が可能である。
外挿のための状態モデルは簡単な線形モデルよりも高次である。一実施形態では、拡張カルマンフィルタは特徴パラメータの状態を予測するのに用いられる。
<領域相関関係モデル>
分類、位置合わせおよび変形分析の組み合わせは、2つ以上の領域を結合して、領域相関関係モデル(RCM)と称される、外観および変形の結合モデルを作成できる可能性を示す、情報のセットを提供する。
好ましい一実施形態では、上述した特徴検出方法が新規な特徴を増加的に分析する。この分析の1つの結果は、1つの領域が、特徴検出器の1つを構成するために使用される他の領域に一致する確率がより高い。
上述の特徴の検出と同様に、領域がクラスタに分類され、それぞれのクラスタ・ラベルがこれら領域に与えられると、領域のペア間の1つの領域当たりの相関関係を判別するために、クラスタ内領域が分析される。
好ましい実施形態では、上述の分類器は、サンプリング領域のクラスタを定義するために使用され、これらクラスタの領域のソースの画素はさらに、後述する領域並進絞込み(region translational refinement)によって分析されて定義される。
さらに、好ましい実施形態では、並進領域絞込みの後に、領域の相関関係はさらに、これらの領域の後述する変形分析を用いて定義される。
一実施形態では、RCMの構成は増加的に達成される。2つ以上の領域は、結合された分類器/変形分析メカニズムを最初に導入するために使用される。RCMは次に、分類器および変形分析要素を変更する、新しい領域を用いて更新される。
一実施形態では、上述のRCMの増加的な更新は、所与のモデルに対する領域の相関関係が、以下に詳細に説明される基本的複雑性分析に依存して、トラバース順に処理されるようにして構成される。
一実施形態では、後述する基本的複雑性の分析に依存する上述のトラバース順序は、トラバース終了基準を用いてRCMを更新する反復的プロセスの一部である。終了基準は、完了した処理をRCMの能力を最大化するレベルに維持し、外観/変形モデルが相関関係から導出されると、複雑性を低減する、最大の可能性で相関関係を表現する。
<領域並進絞込み(region translational refinement)>
一実施形態では、サンプリング領域は、訓練するサンプリング領域のセットに共に集められる。各フレーム内のこれらの領域の空間位置は、絞り込まれる(厳選される)。
絞込みは、すべての他のサンプリング領域に対する各サンプリング領域の徹底的な比較を含む。この比較は、2つのタイル位置合わせから成る。1つの位置合わせは、第1領域の第2領域に対する比較である。第2位置合わせは、第1領域に対する第2領域の比較である。各位置合わせは、これらのそれぞれの画像内の領域の位置で実行される。対応する位置のずれとともに結果として生じる位置合わせのずれは維持され、相関関係と称される。
相関関係は、サンプリング領域の位置を絞り込む必要があることを複数の位置合わせが示しているか否かを決定するために分析される。ソースフレーム内の絞り込まれた位置が、1つ以上の他の領域に対して小さいエラーで一致をもたらす場合、この領域の位置は絞り込まれた位置に調整される。
ソースフレーム内の領域の絞り込まれた位置は、ソースフレーム内の領域まで一時的に広がる、他の領域の相関関係の位置の線形内挿によって決定される。
<スペクトルプロファイリング>
スペクトルプロファイリング法は統計学的な「平均追跡および適合(mean tracking and fitting)である。文献に記載されたこのような方法の他の例としては、CAMSHIFT、平均シフト、メドイド(medoid)シフト、ならびにそれらから導出される方法であって、画像およびビデオフレームに発生する空間確率分布の検出、追跡およびモデル化に適用される方法である。本発明のスペクトルプロファイリング法は、1つ以上のフレームにわたって、画像平面の領域のスペクトル(カラー)平面の強度要素、画素を分析して開始される。強度要素は、ヒストグラム・ビンニング(histgram binning)法による値の離散化で最初に処理される。次に、追跡メカニズムにおいて領域のヒストグラムを使用して、同様のヒストグラムを有する後続のフレーム内のより対応する領域を識別する。要素の領域のセット(位置、離散化基準およびヒストグラム)は、このセットがこれら要素の共通セットに収束するように、反復的に絞り込まれる。絞り込まれた要素セットはスペクトルプロファイルである。スペクトルプロファイル法は特徴検出法である。
1次元のK平均分類を用いることには利点があり、そのため分類器の形成において、HSV色空間のHueチャネルが利用される。さらに、画素が識別され、ヒストグラムビンが満たされ、空間不変モーメントが判別される。
本発明に対するコア基底関数は既存のデータを利用して、新しいデータに対するモデルを導出する。既存のデータは、任意の符号化(エンコード化)/デコード化方式によって取得され、利用可能であると見なされる。本発明はこのデータを分析して、特徴データと称される、候補パターンデータのセットを決定する。この特徴データは、ビデオ信号の空間的に局所的なコンポーネントの外観および変形の両方についてのデータを含む。
既存の特徴データおよび新規の目標データ点の特定のセットを条件として、分析が実行されて目標のデータ点を表現するためにモデルを構築するのに必要な特徴データの最小の記述を決定する。普遍性を損なうことなく、既存の特徴データは候補特徴ベクトルと称され、目標データ点は目標ベクトルと称される。さらに、このプロセスは1つ以上の目標ベクトルに適用される。
目標ベクトルおよび候補特徴ベクトルのセット(同じ特徴の一部であると考えられるすべて)を条件として、候補特徴ベクトルの最小サブセットは、小さいエラーで目標ベクトルを合成するために選択されるため、コンパクトで正確な多種の表現が得られる。
本発明は、候補特徴ベクトルのセットを集合して、特徴集合体と称される物を作成する。一実施形態では、特徴集合体を作成する第1ステップは、主ベクトル(キー・ベクトル)と、目標ベクトルの優れた近似であると判別される特徴ベクトルとを選択する。主ベクトルは特徴集合体内の第1ベクトルである。他の候補特徴ベクトルは、主ベクトルとの相関性の強さの順に特徴集合体に選択される(そのため、特徴集合体内の第2ベクトルは、主ベクトルの次に高い相関性を有する特徴ベクトルである)。このように特徴集合体を順序付けることは、KCO(key-correlation ordered:主の相関性で順序付けられた)と称される。
別の実施形態では、特徴集合体は、目標ベクトル自体を用いて作成される。候補特徴ベクトルが、目標ベクトルとの相関性に基づいて特徴集合体に選択される。目標ベクトルの相関性を使用する任意の順序付け方法は、TCO(target-correlation ordered:目標の相関性で順序付けられた)と称される。TCO特徴集合体内の第1特徴ベクトルは、目標ベクトルと最も相関性を有する候補特徴である。好ましい実施形態では、特徴ベクトルが集合体に「入る」たびに、集合体−データ(Ur)による近似目標の再構成が、Ur*Ur*tとして計算され、次に残差ベクトルを作成するために目標ベクトルtから減算される。その後、集合体に次に入る特徴ベクトルは、残差ベクトルと最も相関性を有する候補特徴として選択される。残差ベクトルを計算し、次にこの残差ベクトルとの最良一致を選択する、この反復プロセスは、そのため、STCO(sequencial target-correlation ordering:連続的な目標の相関性による順序付け)と称される。STCOは、所与の集合体サイズについての目標ベクトルの最も効果的な表現を保証する。STCOはOMP(直交性一致追跡)と機能的に同等であるが(従来技術を参照すること)、小さい集合体サイズに対する計算効率が高くなる。
別の実施形態では、残差ベクトルは計算されず、すべての候補特徴ベクトルが、目標ベクトル自体との相関性に基づいて特徴集合体に対して選択される。GTCO(globa target-correlation ordering:全体的な目標の相関性による順序付け)と称されるこのTCO法は、STCOよりも高速で単純であるが、集合体内に冗長性をもたらす可能性がある。しかし、集合体を選択するためには、両方のTCO法は一般に、KCO法よりもはるかに優れている。
ビットマスクは、特徴集合体に対して選択された特徴ベクトルを転送するのに使用される。
一実施形態では、特徴集合体内の特徴ベクトルおよび目標ベクトル自体が、SVDを基礎とする符号化の前に、離散ウェーブレット変換(DWT)を通過する。これにより、目標ベクトルの情報は、SVDベクトルの小さい部分空間で、よりコンパクトかつより簡単に表現される。DWTは、複数のスケールで信号情報をコンパクト化する公知の方法である。好ましい実施形態では、DWTは、Daubechies 9-7双直交ウェーブレットで適用される。DWTは、特徴ベクトルがYUV色空間に存在すると、個別に各コンポーネントに適用される。例えば、長さ384のYUVベクトルは、Yコンポーネントには長さ256のDWTを必要とし、UおよびVコンポーネントには長さ64のDWTを必要とする。
<圧縮センシング(CS)>
本発明の一実施形態では、圧縮センシング(CS)は、特徴モデル化(本明細書の別の箇所で説明される)プロセスにおけるモデル作成(外観モデルおよび変形モデル)の方法として採用される。
本発明において対象とするCSアルゴリズムの実際の適用は3つある。すなわち、OMP(直交性一致追跡)、L1M(L1最小化)およびCP(連鎖追跡)である。各アルゴリズムは独自の強みおよび弱点を有しているが、L1Mは、大部分のビデオ処理用途には許容不可能な程遅いため、この分野では、OMPおよびCPが適切な2つのCSアルゴリズムであって、L1Mが使用されるのは稀である。
CSアルゴリズムの有効性は、計算時間、メモリ制限または測定の合計数により、実際には制限される。これらの制限をなくして、実際にCSアルゴリズムの性能を改善するために、本発明は、いくつかの考えられる方法のうちの1つ以上を用いる。簡単に記載すると、この方法は、(1)文献に指定されている測定数を低減して、適切な再構成を達成すること、(2)特定のデータを低減する1つ以上の技法によって入力データのスパース性(疎であること)を増加させること、(3)メモリ制限を軽減するためにデータを空間分割すること、および(4)再構成アルゴリム内にエラー予想機能を適応的に構築することによって、利点をもたらす。
一実施形態は、典型的には、再構成のための数学的条件が、必要以上に厳しいという事実を利用する。文献に指定されるよりも少ない数の測定と整合性を有する(矛盾のない)、画像データの「優れた」再構成を達成することが可能である。「優れた」再構成とは、人間の眼に対して、「完全な」再構成と比較して視覚的な違いがほとんどないことを意味する。例えば、指定された測定数の半分の回数でCP(連鎖追跡)を適用しても、依然として「優れた」再構成を達成する。
別の実施形態では、入力データは、スパース化されるため(疎にされるため)に「低減」されて、必要とされる測定数を低減する。データ低減技法は、データが多くの場合ウェーブレット領域においてより疎であるため、データを離散ウェーブレット変換(DWT)に通すこと、またダウンサンプリングとして知られる、切り捨てにより入力データの合計サイズを物理的に低減すること、およびデータをしきい値処理すること(特定のしきい値よりも小さいすべてのコンポーネントを除去すること)を含む。データ低減技法の中では、DWT変換が、最も「侵入性(invasive)」が小さく、理論的に入力データの完全な復元が可能である。他の2つの低減技法は「損失がある(不可逆である)」ため、完全な信号復元は不可能である。DWTはCPでは良好に作用するが、OMP(直交性一致追跡)またはL1M(L1最小化)では良好に作用しない。そのため、このデータ低減の実施形態に対する理想の組み合わせは、連鎖追求アルゴリズムと離散ウェーブレット変換データ低減技法の組み合わせである。
平行処理アーキテクチャに特に良好に適した別の実施形態では、入力データはセグメントに空間分割され(すなわち、2次元画像をタイルに)、各セグメントは、必要な測定のより少ない回数だけ個別に処理される。この方法は、典型的にはメモリ制限により妨げられる、OMPおよびL1Mの両方に対して良好に作用する。必要な計測行列のサイズは、OMPおよびL1Mの両方に対するメモリ制限を引き起こす。システムのメモリをメモリマトリクスが超過する量を計算できる。この超過メモリの必要条件は「オーバーサンプリング」ファクタである。このファクタが、信号が分割されるセグメントの数の下限を設定する。
別の実施形態では、プロセスは、再構成アルゴリズムにエラーの予測機能を組み込んでいる。予測されるエラーは、上記通常雑音または不正確な測定に起因する可能性がある。プロセスは、最適化の制約を緩和するか、または再構成プロセスの完了よりも前に反復を停止するか、のいずれかによって補償を行う。次に、再構成とはデータに対して近似的に適合することであるが、このような近似解は、十分であるか、または入力データに雑音があるかもしくは不正確である場合に可能な唯一の解である。
図2は、エンコーダにおいて圧縮センシング測定を実現する、概念的なビデオ圧縮アーキテクチャを示す。生ビデオストリーム200は、データ203を位置合わせするために、動き補償予測アルゴリズム202を介して送信される。これにより、複数フレーム内の画素のグループ間の相関関係を確定して、動きによる冗長性が除外される。前処理204は、データを可能な限り疎にする(205において)ために適用され、これによりCS測定およびその後の再構成が可能な限り有効となるようにする。CS測定は206で実行され、207でCS符号化される(転送の準備が整う)。後の合成において、CSアルゴリズムは測定をデコードするのに用いられる。
本発明は、生ビデオストリームからの信号コンポーネントを、識別、分離および前処理して、CS処理に良好に適したスパース信号(疎にされた信号)を生成する。CSアルゴリズムはもちろん本発明の実施形態に適合する。図2に示された特定の構成は、すべて譲受人に譲渡された、米国特許第7,508,990号、第7,457,472号、第7,457,435号、第7,426,285号、第7,158,680号、第7,424,157号および第7,436,981号ならびに米国特許出願第12/522,322号に記載された実施形態に関連することに留意されたい。上記の特許の全教示内容は、参照により本明細書に引用したものとする。
ビデオ圧縮においては、入力画像がスパーシティ(疎性)または圧縮性を有する場合、CSが著しい利益を提供する。入力画像が高密度である場合、CSは、圧縮または再構成に対する正しい手法ではない。CSアルゴリズムは、画像の画素数に等しい測定数を必要とする、従来の圧縮アルゴリズムによって要求されるよりも少ない測定数で、スパースな(疎の)入力画像を圧縮して再構成する。大部分の圧縮技法は信号のスパーシティまたは圧縮性を仮定しているため、CSが改善をもたらす画像は、大部分の圧縮技法が設計の対象とする画像であることに留意されたい。
スパース画像に雑音を加えるとその画像は数学的に高密度になるが、「情報として」はスパース性の減少は生じない。依然としてスパースな信号であり、上記の実際の実現形態の1つ以上でCSを用いることにより、これらの種類の信号の有効な再構成が可能になる。
<基本的な複雑性分析>
代表的なサンプリングされるビデオ領域は、基本的な方法を用いて分析できる。このような方法の1つは、MPEG‐4と同様の従来のブロック基礎の圧縮である。
<逆合成アルゴリズムによる画像の配列>
XuおよびRoy‐Chowdhury(「ビデオシーケンスにおける動き、明るさおよび構造の統合」"Integrating Motion, Illumination, and Structure in Video Sequences ...," IEEE Trans. Pattern Analysis and Machine Intelligence, May 2007)は、LRLSフレームワークを動くオブジェクト(例えば、ビデオシーケンス内の)に拡張して、このようなオブジェクトが、9個の明るさ関数(illumination function)(元のLRLS基底画像)と、LRLS基底画像における運動の影響を反映する6個の動き関数(motion function)からなる15次元のバイリニヤの基礎によって良好に近似されることを示す。
XuおよびRoy‐Chowdhuryにより最近提案されたIC実装(発表対象の「動的シーンにおける3D姿勢および照明の逆合成予測」"Inverse Compositional Estimation of 3D Pose and Lighting in Dynamic Scenes," IEEE Trans. Pattern Analysis and Machine Intelligence)は、逆合成(IC)アルゴリズムを用いて、ビデオフレームのシーケンスから3D動きおよび照明パラメータを推定する。2Dから3Dへ、3Dから2Dへ(2D-to-3D-to-2D)のねじりの関数は、基本姿勢(canonical pose)において異なるフレームからの(目標)画像を「キー」フレーム(テンプレート)に整列するために用いられる。画像データのフレームと画像化されるオブジェクトの基本3Dモデルを条件として、2Dから3Dへのマップは、3Dモデルにおける3D点(ファセット/頂点)がいずれの画像画素に対応するかを決定する。2Dから3Dへのマップが定義されると、オブジェクトの姿勢は、以前のフレームの姿勢の推定により3Dにシフトされる。これにより、現在のフレームをキー・フレームに整列する。3Dにおいてシフトされるオブジェクトは、3Dから2D(投影)へのマップを用いて、2Dに逆マッピングされて、「姿勢正規化」画像フレームを作成する。
目標フレームが、2Dから3Dへ、3Dから2Dへのマップを用いてテンプレート(キー・フレーム)に位置合わせされると、結果として得られる姿勢正規化フレーム(PNF)を用いて、9個の明るさ変数および6個の動き変数に対応する、15個の運動パラメータが推定される。明るさ変数は、LRLS(明るさ)基底画像に対するPNFの最小二乗適合によって推定される。一実施形態では、LRLS基底画像により推定される明るさコンポーネントは次に、PNFから減算され、残差は、動き関数に対する最小二乗適合によって6個の動きパラメータ(3つの並進および3つの回転)を推定するために用いられる。PNFは次に、15次元の「バイリニヤ」の明るさ/動き基礎およびその対応するパラメータベクトルから再構成される。
本発明は、Xu/Roy‐ChowdhuryのIC実装の構成を使用して、画像位置合わせアプリケーションを支援する。一実施形態では、2Dから3Dへ、3Dから2Dへのマッピングは、特徴領域の中間点正規化に対して計算的に有効な代替法として用いられる。マッピング・プロセスは特に、正確な3Dモデル(例えば、顔に対するVetterモデル)が存在する特徴に対して有効である。この実施形態では、モデル点は、ある姿勢(「モデル姿勢」)において指定され、キー・フレーム(テンプレート)および現在のフレーム(または目標フレーム)の両方が、モデル姿勢に位置合わせされる。
<インクリメンタル特異値分解(ISVD)アルゴリズムの適用>
本発明では、ここではパーセンテージしきい値化と称される、ありふれた大きさのばらつきのしきい値化処理方法を用いて、SVDが低減される。一実施形態では、所定のSVD因数分解における特異値の合計エネルギEは特異値の合計として計算される。本明細書では「低減セット」と称される、特異値のグループが、低減セット内の特異値の合計があるパーセンテージしきい値(E)を超えるまで、特異値を順次加える(最大から最小まで、大きさについての降順に)ことで作成される。この低減方法は、大きさのしきい値を前もって知る必要がないことを除いて、大きさのしきい値化(従来技術参照)と同等である。
本発明では、データを特徴付けるために、特異値分解(SVD)が以下のように適用される。M×Nのデータ行列Dは、所与のビデオ画像フレームの領域(タイル)から導出される、特徴ベクトルの集合体から成る。M×1の特徴ベクトルは、2D画像タイルから列ベクトル化され、結合されてデータ行列Dの列を形成する。一実施形態では、次に、データ行列はSVDに因数分解され、その後Dr=Ur*Sr*Vr’に低減される。ただし、低減はパーセンテージしきい値化を用いてなされる。次に左の特異ベクトルを用いて、M×1の目標ベクトルt(転送される特徴)を、Ur’*tにより与えられる最終の符号化によりエンコードする。一般的な次元は、M=384、N=20、およびr=10であるため、長さ384の目標ベクトルが10個の係数で圧縮(符号化)される。
集合体データ行列D内のすべての特徴ベクトルが即座に利用可能であるとは限らないため、既存の特異値分解およびデータ更新に基づいてSVDを更新するのに、インクリメンタル特異値分解(ISVD)が用いられる。一実施形態では、最初のデータ行列D0(この行列に対して、従来のSVDは容易に計算される)を作成するために、少数の特徴ベクトルが共にグループ化される。次に、追加の特徴データベクトルが集合体データ行列に加えられると、ISVDを用いて拡大データ行列に対してSVDを更新する。さらなる実施形態では、新しい特徴データベクトルは、集合体データ行列においてすでに表現されている部分空間を有するために冗長である場合もあるため、新しいデータベクトルを既存の集合体に加える前に、線形独立試験が新しいデータベクトルに適用される。特徴データベクトルの完全なセットが集合体に加えられると、SVDは、(パーセンテージしきい値化により)更新および低減され、最終のSVD基礎の符号化を提供する。
別の実施形態では、SVDは、左の特異ベクトル(Urの列)と目標ベクトルtとの相関性を用いて低減される。合計の相関エネルギCEは相関性の合計として計算される。本明細書では「低減セット」と称される、特異値のグループが、低減セット内の相関性の合計があるパーセンテージしきい値(CE)を超えるまで、相関性を順次加える(最大から最小まで、大きさについての降順に)ことで作成される。目標相関性のパーセンテージしきい値化と称される、SVDを低減するこの方法は、計算のために特異値の代わりに目標相関性(左の特異ベクトルの目標ベクトルとの相関性)を用いることを除いて、パーセンテージしきい値化の基本的SVD低減方法と同一の方法に従う。
<変換基礎の処理>
本発明は、変換空間においてビデオ・フレーム・データに経験的な特徴分類を実行する。一実施形態では、参照フレームからのNt特徴のセットが分類器に対する入力として表される。特徴のそれぞれは、最適な線形変換を用いて、画素空間から変換空間に変換される(可能な変換には、離散ウェーブレット変換(DWT)およびカーブレット変換(CuT)が含まれる)。次に、各特徴に対する最大P係数に対応する索引は表形式にされ、すべての係数リストにわたって最も共通して発生する係数Pを用いて、各特徴に対する(P×1)分類ベクトル(CV)が作成される(全体の中のNt「参照」CVの合計)。次に、新しい特徴ベクトルvはそれぞれ、ベクトルを変換して、vに対するCV索引を抽出し、vに対するCVと参照CVのそれぞれの間の類似性の程度を計算することにより、分類される。試験特徴は、その参照CVが類似性の程度を最大化する特徴として分類される。
OMP(直交性一致追跡)を用いて、異なる強さおよび弱さを有する、2つ以上の線形変換からの情報を結合し、経験的な変換基礎の特徴分類器の性能を改善することができる。一実施形態では、テクスチャを表現するのに有効なDWTからの基底ベクトルと、エッジを表現するのに有効なCuTからの基底ベクトルとが、辞書Dに結合される。次に、Nt特徴のそれぞれに対するD内の関数を用いる信号表現と、「試験」特徴ベクトルに対する表現とを計算するために、OMPが用いられる。次に、分類器は上述の基本的な変換基礎の分類器と同様に動作する。このように複数の変換からの情報を結合することにより、個別の分類器のそれぞれによって達成される性能を上回るように、分類器性能を改善できる。
特徴の圧縮およびコード化に、線形変換(例えばDWTおよびCuT)を用いることができる。一実施形態では、特徴が変換されると、変換係数は、大きさによって順序付けられ、エネルギ保持基準に従ってしきい値化される(例えば、特徴エネルギの99%が保持されるように、十分な係数が維持される)。典型的には、信号エネルギの99%を保持するには、画素が画素空間において必要とされるよりもずっと少ない数の変換係数しか必要とされない。変換係数値は特徴のエンコード化を表現し、圧縮利得は、特徴内の画素数に対する、維持される変換係数の割合によって与えられる。さらなる実施形態では、複数の変換からの情報をOMPを用いて再度結合し、圧縮利得を改善することができる。
本発明を、本発明の例示的な実施形態に関して具体的に示し、説明してきたが、当業者であれば、添付の特許請求の範囲に包含される本発明の範囲から逸脱することなく、形態および細部に様々な変更が可能であることが理解されよう。

Claims (35)

  1. コンピュータによるビデオデータの処理方法であって、
    前記コンピュータに実装される各工程であって、
    一連のビデオフレームからなるビデオデータを受信する、受信工程と、
    前記ビデオフレームの一部分を符号化する、符号化工程とを備え、
    前記符号化工程は、
    1つ以上の前記ビデオフレームにおける候補特徴の1つ以上のインスタンスを検出する、検出工程、
    以前に復号化された1つ以上のビデオフレームにおけるインスタンスの位置情報を、前記検出工程が判別する工程であって、前記位置情報は、フレーム番号、当該フレーム内の位置、および当該インスタンスの空間外周を含み、
    前記候補特徴は1つ以上の検出されたインスタンスのセットである、検出判別工程、
    動き補償予測プロセスが、以前に復号化された1つ以上のビデオフレームを用いて、前記一連のビデオフレームにおける現在のビデオフレームの一部を予測する工程であって、
    前記動き補償予測プロセスは位置予測で初期化され、当該位置予測は、以前に復号化されたビデオフレームにおける、検出された特徴のインスタンスから、前記位置情報を提供する、予測工程、
    前記動き補償予測プロセスを拡張することによって変換される1つ以上のインスタンスを用い、第1の特徴基礎モデルを作成するように、この変換されたインスタンスと共に特徴を画定する工程であって、前記第1の特徴基礎モデルは、実質的に一致する特徴インスタンスの外観およびソースの位置の前記現在のフレームにおける予測を可能にし、前記実質的に一致する特徴インスタンスはキー特徴インスタンスである、画定工程、
    前記第1の特徴基礎モデルを、前記1つ以上の画定された特徴の従来のビデオ符号化モデルと比較する、比較工程、
    前記比較から、いずれのモデルがより大きい符号化圧縮を可能とするかを判別する、モデル判別工程、ならびに、
    前記比較工程および前記モデル判別工程の結果を用いて、特徴基礎の符号化を1つ以上の前記ビデオフレームの一部分に適用し、従来のビデオ符号化を前記1つ以上のビデオフレームの他部分に適用する、適用工程によって、符号化を実行する、ビデオデータ処理方法。
  2. 請求項1において、1つ以上の前記ビデオフレームにおける候補特徴の1つ以上のインスタンスを検出する前記検出工程が、
    実質的に密接した空間近接を有する、空間的に連続する画素グループを識別することによって、候補特徴の少なくとも1つのインスタンスを検出する工程、および
    前記識別された画素は前記1つ以上のビデオフレームの一部分を画定する工程を有する、ビデオデータ処理方法。
  3. 請求項2において、1つ以上の前記ビデオフレームにおける候補特徴の1つ以上のインスタンスを検出する前記検出工程が、
    前記動き補償予測プロセスを用いて、複数の候補特徴インスタンスから、符号化効率を提供するように、予測される1つ以上のインスタンスを選択する工程、および、
    固有の以前に復号化されたビデオフレームからの予測のうち、前記動き補償予測プロセスの選択に基づいて、前記現在のビデオフレームにおける、他の特徴および非特徴からの前記候補特徴の前記現在のインスタンスのセグメント化を判別する工程を有する、ビデオデータ処理方法。
  4. 請求項2において、前記動き補償予測プロセスは、1つ以上の特徴に属する特徴インスタンスを用いて、さらに初期化され、前記1つ以上の特徴に属する特徴インスタンスの特徴は、前記ビデオの一部分と一致する現在のフレームにおけるインスタンスを有し、前記ビデオの一部分は前記現在のフレームに存在する、ビデオデータ処理方法。
  5. 請求項2において、前記画素グループは、さらに、1つ以上のマクロブロックまたは1つ以上のマクロブロック部分を含む、ビデオデータ処理方法。
  6. 請求項1において、さらに、
    1つ以上の特徴インスタンスからの1つ以上の動き補償予測に対する予測目標として、前記第1の特徴基礎モデルを用いて、前記第1の特徴基礎モデルの予測セットを得る工程であって、
    前記予測セットは、結合されると第2の特徴基礎モデルになる、工程によって、第2の特徴基礎モデルを作成する工程を備えた、ビデオデータ処理方法。
  7. 請求項6において、前記第2の特徴基礎モデルは、前記第1の特徴基礎モデルのモデル残差に用いられ、
    前記残差に対する前記第2の特徴基礎モデルの構造変化および外観変化をモデル化する工程と、
    外観パラメータおよび変形パラメータを生じさせるモデルによって前記残差を符号化する工程と、
    前記残差の前記符号化のサイズを低減するように、前記パラメータを用いる工程とを備えた、ビデオデータ処理方法。
  8. 請求項1において、前記1つ以上の特徴を画定する前記画定工程は、
    異なる候補特徴のインスタンスを集合候補特徴に集合させる工程、および
    集合されていない候補特徴のオリジナルのインスタンスよりも実質的に大きい領域を形成するように、前記集合候補特徴のインスタンスのセットを用いる工程であって、前記セットにおける前記候補特徴の前記インスタンスの間のコヒーレンスの識別によって、前記大きい領域が形成される、工程によって、前記候補特徴の1つ以上の前記インスタンスに基づいて、1つ以上の集合特徴を画定する工程を有する、ビデオデータ処理方法。
  9. 請求項8において、前記コヒーレンスは、低いパラメータの動きモデルによって実質的に近似された前記インスタンスにおける外観の相関性として定義されている、ビデオデータ処理方法。
  10. 請求項7において、前記第2の特徴モデルは、前記空間位置に対する前記復号化されたフレームにおける該当インスタンスの画素の随意の矩形領域範囲を提供する、ビデオデータ処理方法。
  11. 請求項10において、前記第2の特徴モデルは、先に正規化された特徴のインスタンスをモデル化することによって導出されるものであり、
    前記先に正規化されたインスタンスは、前記現在のフレームにおける前記インスタンス、以前に復号化されたフレームであって、実質的に最近に復号化されたフレームからのインスタンス、および前記以前に復号化されたビデオフレームからのインスタンスの平均のうちのいずれか1つである、ビデオデータ処理方法。
  12. 請求項11において、前記外観モデルは、前記第2の特徴基礎モデルの前記正規化されたインスタンスのPCA分解によって表現される、ビデオデータ処理方法。
  13. 請求項10において、さらに、
    各セットの特徴インスタンスにおける相関性の空間変化の変形モデルを、それらの第2の特徴基礎モデルのインスタンスと比較して判別する工程と、
    前記セットの各特徴インスタンスについて、前記変形モデルに対する前記変形インスタンスにおける変化を近似するために、動き補償予測プロセス、メッシュ変形、および実質的に低減されたパラメータ表現を有する動きモデルのうちの1つ以上を用いる工程と、
    前記変形インスタンスを前記変形モデルに統合する工程であって、
    前記変形モデルの変化はPCA分解によって表現される、工程とを備えた、ビデオデータ処理方法。
  14. 請求項1において、前記動き補償予測プロセスは、従来のビデオデータ符号化におけるよりも実質的に大きい数の以前に復号化されたビデオフレームを選択して動作し、
    以前に復号化されたビデオフレームの前記選択は、ユーザ管理に依拠するものではない、ビデオデータ処理方法。
  15. 請求項1において、前記比較工程および前記モデル判別工程に応答して、従来のビデオ符号化を適用する前記適用工程が、さらに、
    前記現在のフレームの一部分の予測を作成すると、メモリに、1つ以上の前記ビデオフレームの一部分のより大きい圧縮を可能とする、インスタンス予測プロセスによって、前記圧縮ビデオ符号化を強化する工程であって、
    前記インスタンス予測プロセスは、さらに、
    前記現在のフレームの前記予測された一部分を作成するように符号化された目標マクロブロックに生じている前記画定された特徴の1つ以上のインスタンスを判別するために、前記特徴基礎モデルを用いる工程、および
    前記特徴基礎モデルを用いて、前記現在のフレームの一部分を予測するように、画素を合成する工程を有する、工程を備えた、ビデオデータ処理方法。
  16. 請求項15において、前記比較工程および前記モデル判別工程に応答して、1つ以上の前記ビデオフレームの一部分に従来のビデオ符号化を適用する前記適用工程が、さらに、
    前記以前に復号化されたビデオフレームに対して確率を割り当てる工程であって、前記動き補償予測プロセスからの位置予測を用いて判別された前記フレームに対する、結合されて予測された符号化性能向上に、前記確率が基づく、工程と、
    前記現在のフレームについての前記第1の特徴基礎モデルおよび第2の特徴基礎モデルを解析する間に利用される動き補償予測プロセスの前記結合された符号化性能として、前記確率を定義する工程と、
    前記以前に復号化されたビデオフレームの最大から最小までの確率を根拠とした当該ビデオフレームの並べ替えに基づいた索引付けを判定する工程と、
    演算およびメモリの必要条件に基づいて、前記索引付けられたリストを切り捨てる工程とを備えた、ビデオデータ処理方法。
  17. 請求項15において、さらに、
    前記特徴インスタンスの予測された画素を、前記現在のフレームにおける他の特徴インスタンスを予測するために、再利用する工程であって、
    前記現在のフレームにおける2つ以上のマクロブロックに、前記画定された特徴の1つ以上のインスタンスが部分的に重なること、または、
    前記画定された特徴の1つ以上のインスタンスが、前記現在のフレームにおけるマクロブロックについての位置情報に実質的に一致する場合、前記画定された特徴の1つ以上のインスタンスが1つのマクロブロックを表現することを判別することに応答して、前記特徴インスタンスの予測された画素を再利用する、工程を備えた、ビデオデータ処理方法。
  18. 請求項10において、さらに、
    特徴基礎モデルの現在のインスタンスの合成についての外観パラメータおよび変形パラメータを予測し、前記現在のフレームにおける画素を予測するように、前記特徴基礎モデルからパラメータを内挿および外挿するために、時間的に最近のパラメータと共に前記外観モデルおよび変形モデルを用いる工程であって、
    時間的に最近の特徴インスタンスについての合成値が線形内挿されたものか線形外挿されたものかを、いずれの方法が前記インスタンスに対して最も正確な近似をもたらすかに基づいて、判別する工程、
    高次の二次法を利用して、前記線形内挿法および前記線形外挿法の前記実質的に減少された有効性を検出する工程、ならびに、
    前記二次法の前記実質的に減少された有効性を検出し、前記外観パラメータおよび変形パラメータを予測するように、拡張カルマンフィルタを含む、より進歩した状態基礎の方法を使用する工程であって、
    前記モデルについての前記実際のパラメータは、前記予測されたパラメータに対して随意に区別して符号化される、工程を有する工程を備えた、ビデオデータ処理方法。
  19. 請求項18において、前記特徴基礎モデルからの前記パラメータが、前記現在のフレームにおける画素を予測するのに必要とされる演算資源の低減を可能にするため、前記以前に復号化されたビデオフレームの1つ以上の一部分を用いて、現在のフレームにおける画素を予測するように、従来のビデオ圧縮を用いる際には、より多くの演算資源が必要とされる、ビデオデータ処理方法。
  20. 請求項1において、前記特徴基礎符号化は、従来のビデオ符号化内に埋め込まれている、ビデオデータ処理方法。
  21. 請求項1において、前記1つ以上の画定された特徴は、前記1つ以上のビデオフレームにおける明確に顕著なエンティティ(オブジェクト、サブオブジェクト)との相関性を有しない、ビデオデータ処理方法。
  22. 請求項1において、検出された特徴がオブジェクトに属しているか属していないかについてのラベル付けであって、ユーザ管理によるラベル付けを通じて、前記顕著なエンティティは判別される、ビデオデータ処理方法。
  23. 請求項1において、前記画定された特徴は、2つ以上の顕著なエンティティの要素、背景、または前記ビデオフレームの他の部分を含む、ビデオデータ処理方法。
  24. 請求項1において、画定された特徴はオブジェクトに対応していない、ビデオデータ処理方法。
  25. 請求項11において、特徴基礎の符号化を1つ以上の前記ビデオフレームの一部分に適用し、従来のビデオ符号化を前記1つ以上のビデオフレームの他部分に適用する、前記適用工程が、
    前記第2の特徴基礎モデル予測の前記残差に圧縮センシングを適用する工程であって、
    圧縮センシングの前記適用は、測定に前記平均外観を利用し、前記測定からの信号を予測し、
    前記圧縮センシング予測に関連する変化は、前記第2の特徴基礎モデルから取り除かれ、
    特徴基礎モデル化は、前記残りの残差のよりコンパクトな符号化に焦点を当てる、工程、および
    従来のビデオ符号化を前記1つ以上のビデオフレームの残りの画素および残りのビデオフレームに適用する工程を有する、ビデオデータ処理方法。
  26. 請求項25において、さらに、
    圧縮センシングを適用する前記工程の有効性を向上させるように、前記ビデオデータのスパースを作成する工程を備えた、ビデオデータ処理方法。
  27. 請求項1において、前記1つ以上の前記インスタンスが、線形変換を用いて変換される、ビデオデータ処理方法。
  28. 請求項1において、前記実質的に一致する特徴は、レート歪基準を用いて、最高の一致が判別される、ビデオデータ処理方法。
  29. 請求項1において、さらに、
    符号化されたビデオデータを復号化する工程を備え、
    この復号化は、
    符号化された特徴が前記符号化されたビデオデータに存在するか否かを、マクロブロックを基準として判別する工程、
    前記符号化されたビデオデータにおいて符号化された特徴が存在しないと判別されると、従来のビデオ復号化を用いて復号化を実行する工程、
    前記符号化されたビデオデータにおいて符号化された特徴が存在するすると判別されると、前記従来の方法で符号化された前記ビデオデータの一部分とは別に、前記符号化された特徴を合成するために、前記符号化された特徴を前記符号化されたビデオデータから分離する工程、
    特徴基礎モデル、および前記符号化された特徴に関連する特徴パラメータを判別する工程、
    前記符号化された特徴インスタンスを合成するように、前記判別された特徴基礎モデルおよび特徴パラメータを用いる工程、ならびに、
    オリジナルのビデオデータを再構成するように、前記ビデオデータの従来の方法で符号化された部分を、前記合成された特徴インスタンスと結合する工程によって、実行される、ビデオデータ処理方法。
  30. 請求項1において、前記特徴基礎の符号化は、前記1つ以上のビデオフレームの部分にオブジェクト基礎の符号化を適用する、ビデオデータ処理方法。
  31. 1つ以上のビデオフレームを有するビデオデータを処理するディジタル処理システムであって、
    エンコーダを実現する1つ以上のコンピュータ・プロセッサを備え、
    前記エンコーダは、前記ビデオフレームの一部分を符号化するように、特徴基礎の符号化を用い、この符号化は、
    1つ以上の前記ビデオフレームにおける候補特徴の1つ以上のインスタンスを検出する工程、
    動き補償予測プロセスを用いて、前記1つ以上のビデオフレームにおける非特徴から、前記候補特徴の前記1つ以上のインスタンスをセグメント化する工程であって、前記動き補償予測プロセスは、前記候補特徴の前記1つ以上のインスタンスに対応する特徴を有する、以前に復号化されたビデオフレームを選択する、工程、
    前記候補特徴の1つ以上の前記インスタンスを用いて、1つ以上の特徴インスタンスを画定する工程であって、従来のビデオ符号化に比べて、前記特徴基礎の符号化におけるコンパクトさが比較的向上するように、前記1つ以上の画定された特徴インスタンスが予測される、工程、
    前記1つ以上の以前に復号化されたビデオフレームからの位置情報を判別する工程であって、前記位置情報は、前記1つ以上の以前に復号化されたビデオフレームにおける前記1つ以上の定義された特徴インスタンスの位置および空間外周を含む、工程、
    前記1つ以上の画定された特徴インスタンスを用いて特徴基礎モデルを形成する工程であって、前記特徴基礎モデルは、前記以前に復号化されたビデオフレームからの前記位置情報を含む、工程と、
    前記特徴基礎モデルを用いて前記1つ以上の画定された特徴インスタンスを正規化する工程であって、前記正規化は、位置予測として、前記1つ以上の以前に復号化されたビデオフレームからの前記位置情報を用い、この結果、正規化は、前記現在のビデオフレームにおける前記1つ以上の定義された特徴インスタンスの予測である、工程、
    前記特徴基礎モデルを、1つ以上の前記定義された特徴についての従来のビデオ符号化モデルと比較し、この比較結果から、いずれのモデルがより大きい符号化圧縮を可能にするかを判定する、工程、ならびに、
    前記比較および判定の工程の結果を用いて、1つ以上の前記ビデオフレームの一部分に特徴基礎の符号化を適用し、前記1つ以上のビデオフレームの他部分に従来のビデオ符号化を適用する、工程によって、実行される、ディジタル処理システム。
  32. 一連のビデオフレームを有するビデオデータを受信する工程と、
    1つ以上の前記ビデオフレームにおける候補特徴を検出する工程と、
    動き補償予測プロセスに用いられる参照フレーム処理を使用することにより、前記ビデオフレームにおける非特徴から前記候補特徴をセグメント化する工程と、
    前記候補特徴の潜在的な一致を識別するように、以前に復号化されたビデオフレームの前記1つ以上の一部分を処理する工程と、
    以前に復号化されたビデオフレームの前記一部分の相当な部分が前記候補特徴のインスタンスを含むことを判別する工程と、
    前記候補特徴のインスタンスを前記候補特徴のインスタンスのセットに集合させる工程と、
    特徴基礎モデルを作成するように、前記候補特徴セットを処理する工程であって、前記特徴基礎モデルは、前記候補特徴の前記インスタンスの変形変化のモデルおよび外観変化のモデルを含み、前記外観変化のモデルは前記候補特徴の前記インスタンスの画素変化をモデル化することによって作成され、前記構造変化モデルは前記候補特徴の前記インスタンスの画素相関性変化をモデル化することによって作成される、工程と、
    前記候補特徴セットをモデル化するように、前記特徴基礎モデルを用いて、関連する圧縮効率を判定する工程と、
    前記候補特徴セットをモデル化するように、従来のビデオ圧縮を用いて、関連する圧縮効率を判定する工程と、
    前記特徴基礎モデル圧縮効率を前記従来のビデオモデル化圧縮効率と比較し、いずれの圧縮効率が大きいかを判定する工程と、
    いずれの圧縮効率が大きいかに基づいて、前記特徴基礎モデルおよび従来のビデオ符号化を用いて、前記ビデオデータを符号化する工程とを備えた、ビデオデータ処理方法。
  33. 1つ以上のビデオフレームを有するビデオデータを処理するディジタル処理システムであって、
    エンコーダを実現する1つ以上のコンピュータ・プロセッサを備え、
    前記エンコーダは、前記ビデオフレームの一部分を符号化するように、特徴基礎の符号化を用い、この符号化は、
    1つ以上の前記ビデオフレームにおける候補特徴を検出する工程、
    動き補償予測プロセスに用いられる参照フレーム処理を使用することにより、前記ビデオフレームにおける非特徴から前記候補特徴をセグメント化する工程、
    前記候補特徴の潜在的な一致を識別するように、以前に復号化されたビデオフレームの前記1つ以上の一部分を処理する工程、
    以前に復号化されたビデオフレームの前記一部分の相当な部分が前記候補特徴のインスタンスを含むことを判別する工程、
    前記候補特徴の前記インスタンスを前記候補特徴のインスタンスのセットに集合させる工程、
    特徴基礎モデルを作成するように、前記候補特徴のセットを処理する工程であって、前記特徴基礎モデルは、前記候補特徴の前記インスタンスの変形変化のモデルおよび外観変化のモデルを含み、前記外観変化のモデルは前記候補特徴の前記インスタンスの画素変化をモデル化することによって作成され、前記構造変化のモデルは前記候補特徴の前記インスタンスの画素相関性変化をモデル化することによって作成される、工程
    前記候補特徴のセットをモデル化するように、前記特徴基礎モデルを用いて、関連する圧縮効率を判定する工程、
    前記候補特徴のセットをモデル化するように、従来のビデオ圧縮を用いて、関連する圧縮効率を判定する工程、
    前記特徴基礎モデル圧縮効率を前記従来のビデオモデル化圧縮効率と比較し、いずれの圧縮効率が大きいかを判定する工程、ならびに
    いずれの圧縮効率が大きいかに基づいて、前記特徴基礎モデルおよび従来のビデオ符号化を用いて、前記ビデオデータを符号化する工程によって、実行される、ディジタル処理システム。
  34. 符号化された特徴が符号化されたビデオデータに存在するか否かを、マクロブロックを基準として判別することにより、前記符号化されたビデオデータを復号化する工程と、
    前記符号化されたビデオデータにおいて符号化された特徴が存在しないと判別されると、従来のビデオ復号化を用いて復号化を実行する工程と、
    前記符号化されたビデオデータにおいて符号化された特徴が存在するすると判別されると、前記従来の方法で符号化された前記ビデオデータの一部分とは別に、前記符号化された特徴インスタンスを合成するために、前記符号化された特徴を前記符号化されたビデオデータから分離する工程と、
    特徴基礎モデル、および前記符号化された特徴に関連する特徴パラメータを判別する工程と、
    前記符号化された特徴インスタンスを合成するように、前記判別された特徴基礎モデルおよび特徴パラメータを用いる工程と、
    オリジナルのビデオデータを再構成するように、前記ビデオデータの従来の方法で符号化された部分を、前記合成された特徴インスタンスと結合する工程とを備えた、ビデオデータ処理方法。
  35. ビデオデータを処理するデータ処理システムであって、
    ハイブリッド・コーデック・デコーダを実現する1つ以上のコンピュータ・プロセッサを備え、
    前記ハイブリッド・コーデック・デコーダは、
    符号化された特徴が符号化されたビデオデータに存在するか否かを、マクロブロックを基準として判別することにより、前記符号化されたビデオデータを復号化する工程、
    前記符号化されたビデオデータにおいて符号化された特徴が存在しないと判別されると、従来のビデオ復号化を用いて復号化を実行する工程、
    前記符号化されたビデオデータにおいて符号化された特徴が存在すると判別されると、前記従来の方法で符号化された前記ビデオデータの部分とは別に、前記符号化された特徴インスタンスを合成するために、前記符号化された特徴を前記符号化されたビデオデータから分離する工程、
    特徴基礎モデル、および前記符号化された特徴に関連する特徴パラメータを判別する工程、
    前記符号化された特徴インスタンスを合成するように、前記判別された特徴基礎モデルおよび特徴パラメータを用いる工程、ならびに、
    オリジナルのビデオデータを再構成するように、前記ビデオデータの従来の方法で符号化された一部分を、前記ビデオデータの前記合成された特徴と結合する工程によって、ビデオデータ復号化を用いることができる、データ処理システム。
JP2011531110A 2008-10-07 2009-10-06 特徴を基礎とするビデオ圧縮 Expired - Fee Related JP5567021B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10336208P 2008-10-07 2008-10-07
US61/103,362 2008-10-07
PCT/US2009/059653 WO2010042486A1 (en) 2008-10-07 2009-10-06 Feature-based video compression

Publications (3)

Publication Number Publication Date
JP2012505600A true JP2012505600A (ja) 2012-03-01
JP2012505600A5 JP2012505600A5 (ja) 2012-10-25
JP5567021B2 JP5567021B2 (ja) 2014-08-06

Family

ID=41528424

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011531110A Expired - Fee Related JP5567021B2 (ja) 2008-10-07 2009-10-06 特徴を基礎とするビデオ圧縮

Country Status (7)

Country Link
US (3) US8942283B2 (ja)
EP (1) EP2345256B1 (ja)
JP (1) JP5567021B2 (ja)
CN (1) CN102172026B (ja)
CA (1) CA2739482C (ja)
TW (1) TW201016016A (ja)
WO (1) WO2010042486A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014514709A (ja) * 2012-03-05 2014-06-19 エンパイア テクノロジー ディベロップメント エルエルシー 一体化された占有センサおよび環境光センサ
JP2015515806A (ja) * 2012-03-26 2015-05-28 ユークリッド・ディスカバリーズ・エルエルシーEuclid Discoveries,Llc コンテキストベースの映像符号化及び映像復号化
JP2015536092A (ja) * 2012-09-28 2015-12-17 ユークリッド・ディスカバリーズ・エルエルシーEuclid Discoveries,Llc 標準に準拠した、モデルベースの映像符号化及び映像復号化
JP2017512420A (ja) * 2014-02-25 2017-05-18 アルカテル−ルーセント モデルを使用して動画配信における遅延を低減するためのシステムおよび方法

Families Citing this family (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9532069B2 (en) 2004-07-30 2016-12-27 Euclid Discoveries, Llc Video compression repository and model reuse
WO2008091483A2 (en) * 2007-01-23 2008-07-31 Euclid Discoveries, Llc Computer method and apparatus for processing image data
US9578345B2 (en) 2005-03-31 2017-02-21 Euclid Discoveries, Llc Model-based video encoding and decoding
US8902971B2 (en) 2004-07-30 2014-12-02 Euclid Discoveries, Llc Video compression repository and model reuse
WO2007050593A2 (en) * 2005-10-25 2007-05-03 William Marsh Rice University Method and apparatus for signal detection, classification, and estimation from compressive measurements
EP2106663A2 (en) 2007-01-23 2009-10-07 Euclid Discoveries, LLC Object archival systems and methods
EP2106664A2 (en) 2007-01-23 2009-10-07 Euclid Discoveries, LLC Systems and methods for providing personal video services
US8503523B2 (en) * 2007-06-29 2013-08-06 Microsoft Corporation Forming a representation of a video item and use thereof
US20100014755A1 (en) * 2008-07-21 2010-01-21 Charles Lee Wilson System and method for grid-based image segmentation and matching
JP5567021B2 (ja) 2008-10-07 2014-08-06 ユークリッド・ディスカバリーズ・エルエルシー 特徴を基礎とするビデオ圧縮
US8401075B2 (en) * 2008-12-31 2013-03-19 General Instrument Corporation Hybrid video encoder including real-time and off-line video encoders
FR2959037A1 (fr) * 2010-04-14 2011-10-21 Orange Vallee Procede de creation d'une sequence media par groupes coherents de fichiers medias
US9106933B1 (en) 2010-05-18 2015-08-11 Google Inc. Apparatus and method for encoding video using different second-stage transform
US8860835B2 (en) 2010-08-11 2014-10-14 Inview Technology Corporation Decreasing image acquisition time for compressive imaging devices
US8929456B2 (en) * 2010-09-30 2015-01-06 Alcatel Lucent Video coding using compressive measurements
JP5652097B2 (ja) * 2010-10-01 2015-01-14 ソニー株式会社 画像処理装置、プログラム及び画像処理方法
KR20120040015A (ko) * 2010-10-18 2012-04-26 한국전자통신연구원 벡터 분류기 및 그것의 벡터 분류 방법
US9210442B2 (en) 2011-01-12 2015-12-08 Google Technology Holdings LLC Efficient transform unit representation
US9380319B2 (en) 2011-02-04 2016-06-28 Google Technology Holdings LLC Implicit transform unit representation
US9154799B2 (en) 2011-04-07 2015-10-06 Google Inc. Encoding and decoding motion via image segmentation
US20130002715A1 (en) * 2011-06-28 2013-01-03 Tidman James M Image Sequence Reconstruction based on Overlapping Measurement Subsets
US9014493B2 (en) * 2011-09-06 2015-04-21 Intel Corporation Analytics assisted encoding
US9262670B2 (en) 2012-02-10 2016-02-16 Google Inc. Adaptive region of interest
FR2989805A1 (fr) * 2012-04-19 2013-10-25 France Telecom Procede de codage et de decodage d'images integrales, dispositif de codage et de decodage d'images integrales et programmes d'ordinateur correspondants
US9473780B2 (en) 2012-07-13 2016-10-18 Apple Inc. Video transmission using content-based frame search
US9286648B2 (en) * 2012-08-03 2016-03-15 Nadar Mariappan S Zero communication block partitioning
TW201421423A (zh) 2012-11-26 2014-06-01 Pixart Imaging Inc 影像感測器及其運作方法
US9219915B1 (en) 2013-01-17 2015-12-22 Google Inc. Selection of transform size in video coding
US9544597B1 (en) 2013-02-11 2017-01-10 Google Inc. Hybrid transform in video encoding and decoding
US9967559B1 (en) 2013-02-11 2018-05-08 Google Llc Motion vector dependent spatial transformation in video coding
US9349072B2 (en) * 2013-03-11 2016-05-24 Microsoft Technology Licensing, Llc Local feature based image compression
US9674530B1 (en) 2013-04-30 2017-06-06 Google Inc. Hybrid transforms in video coding
US10728298B2 (en) * 2013-09-12 2020-07-28 Qualcomm Incorporated Method for compressed sensing of streaming data and apparatus for performing the same
CN104750697B (zh) * 2013-12-27 2019-01-25 同方威视技术股份有限公司 基于透视图像内容的检索系统、检索方法以及安全检查设备
WO2015138008A1 (en) 2014-03-10 2015-09-17 Euclid Discoveries, Llc Continuous block tracking for temporal prediction in video encoding
US10091507B2 (en) 2014-03-10 2018-10-02 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
US10097851B2 (en) 2014-03-10 2018-10-09 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
US9392272B1 (en) 2014-06-02 2016-07-12 Google Inc. Video coding using adaptive source variance based partitioning
US9578324B1 (en) 2014-06-27 2017-02-21 Google Inc. Video coding using statistical-based spatially differentiated partitioning
US9565451B1 (en) 2014-10-31 2017-02-07 Google Inc. Prediction dependent transform coding
US10142647B2 (en) 2014-11-13 2018-11-27 Google Llc Alternating block constrained decision mode coding
US9769499B2 (en) 2015-08-11 2017-09-19 Google Inc. Super-transform video coding
US10277905B2 (en) 2015-09-14 2019-04-30 Google Llc Transform selection for non-baseband signal coding
US9807423B1 (en) 2015-11-24 2017-10-31 Google Inc. Hybrid transform scheme for video coding
ES2912310T3 (es) 2016-01-05 2022-05-25 Reald Spark Llc Corrección de la mirada en imágenes multivista
TWI577178B (zh) * 2016-01-06 2017-04-01 睿緻科技股份有限公司 影像處理裝置及其影像壓縮方法
US10542267B2 (en) 2016-01-21 2020-01-21 Samsung Display Co., Ltd. Classification preserving image transform compression
US10140734B2 (en) * 2016-01-29 2018-11-27 Wisconsin Alumni Research Foundation System and method for simulataneous image artifact reduction and tomographic reconstruction of images depicting temporal contrast dynamics
US10339235B1 (en) * 2016-03-23 2019-07-02 Emc Corporation Massively parallel processing (MPP) large-scale combination of time series data
US9946933B2 (en) * 2016-08-18 2018-04-17 Xerox Corporation System and method for video classification using a hybrid unsupervised and supervised multi-layer architecture
WO2018066980A1 (ko) * 2016-10-04 2018-04-12 김기백 영상 데이터 부호화/복호화 방법 및 장치
GB2556923B (en) * 2016-11-25 2020-04-15 Canon Kk Generation of VCA Reference results for VCA Auto-setting
US20180189143A1 (en) * 2017-01-03 2018-07-05 International Business Machines Corporation Simultaneous compression of multiple stored videos
CN117014632A (zh) * 2017-04-27 2023-11-07 松下电器(美国)知识产权公司 解码装置、编码装置以及非暂时性记录介质
KR102256110B1 (ko) * 2017-05-26 2021-05-26 라인 가부시키가이샤 영상 압축 방법 및 영상 복원 방법
JP7313330B2 (ja) * 2017-07-05 2023-07-24 レッド.コム,エルエルシー 電子機器でのビデオ画像データ処理
CN111183405A (zh) 2017-08-08 2020-05-19 瑞尔D斯帕克有限责任公司 调整头部区域的数字表示
WO2019191892A1 (zh) * 2018-04-02 2019-10-10 北京大学 用于视频编解码的方法和设备
CN108832934B (zh) * 2018-05-31 2022-02-18 安徽大学 一种基于奇异值分解的二维正交匹配追踪优化算法
EP3836548A4 (en) * 2018-09-26 2021-08-04 Huawei Technologies Co., Ltd. PROCESS AND APPARATUS FOR COMPRESSION AND DECOMPRESSION OF 3D GRAPHIC DATA
US11109065B2 (en) 2018-09-26 2021-08-31 Google Llc Video encoding by providing geometric proxies
US10405005B1 (en) 2018-11-28 2019-09-03 Sherman McDermott Methods and systems for video compression based on dynamic vector wave compression
CN109447921A (zh) * 2018-12-05 2019-03-08 重庆邮电大学 一种基于重构误差的图像测量矩阵优化方法
CN110458902B (zh) * 2019-03-26 2022-04-05 华为技术有限公司 3d光照估计方法及电子设备
CN110113607B (zh) * 2019-04-25 2022-02-01 长沙理工大学 一种基于局部与非局部约束的压缩感知视频重建方法
US11122297B2 (en) 2019-05-03 2021-09-14 Google Llc Using border-aligned block functions for image compression
US10911775B1 (en) * 2020-03-11 2021-02-02 Fuji Xerox Co., Ltd. System and method for vision-based joint action and pose motion forecasting
JP7017596B2 (ja) * 2020-03-17 2022-02-08 本田技研工業株式会社 情報処理装置、情報処理システム、情報処理方法およびプログラム
US11451480B2 (en) * 2020-03-31 2022-09-20 Micron Technology, Inc. Lightweight artificial intelligence layer to control the transfer of big data
US20230156212A1 (en) * 2020-04-03 2023-05-18 Lg Electronics Inc. Video transmission method, video transmission device, video reception method, and video reception device
US11375204B2 (en) * 2020-04-07 2022-06-28 Nokia Technologies Oy Feature-domain residual for video coding for machines
US11227396B1 (en) * 2020-07-16 2022-01-18 Meta Platforms, Inc. Camera parameter control using face vectors for portal
CN112559618B (zh) * 2020-12-23 2023-07-11 光大兴陇信托有限责任公司 一种基于金融风控业务的外部数据整合方法
US11917162B2 (en) * 2021-04-30 2024-02-27 Tencent America LLC Content-adaptive online training with feature substitution in neural image compression
US20230024288A1 (en) * 2021-07-13 2023-01-26 Tencent America LLC Feature-based multi-view representation and coding
CN114422805B (zh) * 2022-03-30 2022-09-02 浙江智慧视频安防创新中心有限公司 一种视频编解码方法、装置及设备
CN115115970B (zh) * 2022-05-19 2024-09-13 大连理工大学 基于自适应匹配的视频显著性检测方法、装置及存储介质
US12026220B2 (en) * 2022-07-08 2024-07-02 Predict Hq Limited Iterative singular spectrum analysis
WO2024025280A1 (en) * 2022-07-27 2024-02-01 Samsung Electronics Co., Ltd. Method and system for content-based scaling for artificial intelligence based in-loop filters
CN115941966B (zh) * 2022-12-30 2023-08-22 深圳大学 一种视频压缩方法及电子设备
CN116760983B (zh) * 2023-08-09 2023-11-28 中国科学技术大学 用于视频编码的环路滤波方法及装置
CN117979049A (zh) * 2023-11-22 2024-05-03 北京汇畅数宇科技发展有限公司 一种基于动作驱动的视频压缩存储与解压缩方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03253190A (ja) * 1990-03-02 1991-11-12 Kokusai Denshin Denwa Co Ltd <Kdd> 動画像のハイブリッド符号化方法及びその装置
JPH0795587A (ja) * 1993-06-30 1995-04-07 Ricoh Co Ltd 動きベクトル検出方法
JP2004356747A (ja) * 2003-05-27 2004-12-16 Kddi Corp 画像のマッチング方法および装置
WO2006055512A2 (en) * 2004-11-17 2006-05-26 Euclid Discoveries, Llc Apparatus and method for processing video data
WO2006105470A1 (en) * 2005-03-31 2006-10-05 Euclid Discoveries, Llc Apparatus and method for processing video data
WO2007146102A2 (en) * 2006-06-08 2007-12-21 Euclid Discoveries, Llc Apparatus and method for processing video data
WO2008091484A2 (en) * 2007-01-23 2008-07-31 Euclid Discoveries, Llc Object archival systems and methods
WO2008091483A2 (en) * 2007-01-23 2008-07-31 Euclid Discoveries, Llc Computer method and apparatus for processing image data
WO2008091485A2 (en) * 2007-01-23 2008-07-31 Euclid Discoveries, Llc Systems and methods for providing personal video services
JP2009284298A (ja) * 2008-05-23 2009-12-03 Hitachi Ltd 動画像符号化装置、動画像復号化装置、動画像符号化方法及び動画像復号化方法

Family Cites Families (178)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2606523B2 (ja) 1992-02-28 1997-05-07 日本ビクター株式会社 予測符号化装置及び復号化装置
JPH0738873B2 (ja) 1992-07-14 1995-05-01 株式会社日本水処理技研 タイル目地の抗菌処理方法及び抗菌処理具
US6018771A (en) 1992-11-25 2000-01-25 Digital Equipment Corporation Dynamic assignment of multicast network addresses
US5592228A (en) 1993-03-04 1997-01-07 Kabushiki Kaisha Toshiba Video encoder using global motion estimation and polygonal patch motion estimation
US5586200A (en) * 1994-01-07 1996-12-17 Panasonic Technologies, Inc. Segmentation based image compression system
JPH07288789A (ja) 1994-04-15 1995-10-31 Hitachi Ltd 知的符号化装置及び画像通信装置
US5710590A (en) 1994-04-15 1998-01-20 Hitachi, Ltd. Image signal encoding and communicating apparatus using means for extracting particular portions of an object image
KR100235343B1 (ko) 1994-12-29 1999-12-15 전주범 영역분할 기법을 이용한 동영상신호 부호화기의 움직임 벡터 측정장치
JP2739444B2 (ja) 1995-03-01 1998-04-15 株式会社エイ・ティ・アール通信システム研究所 3次元モデルによる動き生成装置
KR0171151B1 (ko) 1995-03-20 1999-03-20 배순훈 곡률 계산 기법을 이용한 이미지 윤곽 근사화 장치
JP2727066B2 (ja) 1995-03-20 1998-03-11 株式会社エイ・ティ・アール通信システム研究所 可塑性物体特徴検出装置
DE69608781T2 (de) * 1995-09-12 2000-12-28 Koninkl Philips Electronics Nv Hybride wellenform- und modellbasierte kodierung und dekodierung von bildsignalen
US5933535A (en) * 1995-10-05 1999-08-03 Microsoft Corporation Object-based video compression process employing arbitrarily-shaped features
US5774591A (en) 1995-12-15 1998-06-30 Xerox Corporation Apparatus and method for recognizing facial expressions and facial gestures in a sequence of images
US5969755A (en) 1996-02-05 1999-10-19 Texas Instruments Incorporated Motion based event detection system and method
US6037988A (en) 1996-03-22 2000-03-14 Microsoft Corp Method for generating sprites for object-based coding sytems using masks and rounding average
US6614847B1 (en) * 1996-10-25 2003-09-02 Texas Instruments Incorporated Content-based video compression
US6088484A (en) 1996-11-08 2000-07-11 Hughes Electronics Corporation Downloading of personalization layers for symbolically compressed objects
US6044168A (en) * 1996-11-25 2000-03-28 Texas Instruments Incorporated Model based faced coding and decoding using feature detection and eigenface coding
US6047088A (en) 1996-12-16 2000-04-04 Sharp Laboratories Of America, Inc. 2D mesh geometry and motion vector compression
US5826165A (en) 1997-01-21 1998-10-20 Hughes Electronics Corporation Advertisement reconciliation system
EP2369847B1 (en) 1997-02-13 2016-04-20 Mitsubishi Denki Kabushiki Kaisha Moving picture decoding method
US5991447A (en) 1997-03-07 1999-11-23 General Instrument Corporation Prediction and coding of bi-directionally predicted video object planes for interlaced digital video
IL122194A0 (en) 1997-11-13 1998-06-15 Scidel Technologies Ltd Method and apparatus for personalized images inserted into a video stream
US6061400A (en) * 1997-11-20 2000-05-09 Hitachi America Ltd. Methods and apparatus for detecting scene conditions likely to cause prediction errors in reduced resolution video decoders and for using the detected information
US6625316B1 (en) 1998-06-01 2003-09-23 Canon Kabushiki Kaisha Image processing apparatus and method, and image processing system
JP3413720B2 (ja) 1998-06-26 2003-06-09 ソニー株式会社 画像符号化方法及び装置、並びに画像復号方法及び装置
US6711278B1 (en) 1998-09-10 2004-03-23 Microsoft Corporation Tracking semantic objects in vector image sequences
US6256423B1 (en) 1998-09-18 2001-07-03 Sarnoff Corporation Intra-frame quantizer selection for video compression
US7124065B2 (en) 1998-10-26 2006-10-17 Speech Technology And Applied Research Corporation Determining a tangent space and filtering data onto a manifold
US6546117B1 (en) 1999-06-10 2003-04-08 University Of Washington Video object segmentation using active contour modelling with global relaxation
KR20010108159A (ko) 1999-01-29 2001-12-07 다니구찌 이찌로오, 기타오카 다카시 화상 특징 부호화 방법 및 화상 검색 방법
US6751354B2 (en) 1999-03-11 2004-06-15 Fuji Xerox Co., Ltd Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models
US6774917B1 (en) 1999-03-11 2004-08-10 Fuji Xerox Co., Ltd. Methods and apparatuses for interactive similarity searching, retrieval, and browsing of video
GB9909362D0 (en) 1999-04-23 1999-06-16 Pace Micro Tech Plc Memory database system for encrypted progarmme material
US6307964B1 (en) 1999-06-04 2001-10-23 Mitsubishi Electric Research Laboratories, Inc. Method for ordering image spaces to represent object shapes
US7352386B1 (en) * 1999-06-22 2008-04-01 Microsoft Corporation Method and apparatus for recovering a three-dimensional scene from two-dimensional images
US6870843B1 (en) 1999-06-22 2005-03-22 World Multicast.Com, Inc. Self implementing multicast level escalation
KR100611999B1 (ko) 1999-08-27 2006-08-11 삼성전자주식회사 그리디 알고리듬을 이용한 객체 기반 콰드 트리 메쉬 움직임 보상방법
JP2001100731A (ja) 1999-09-28 2001-04-13 Toshiba Corp オブジェクト映像表示装置
US6731813B1 (en) 1999-10-07 2004-05-04 World Multicast.Com, Inc. Self adapting frame intervals
US6792154B1 (en) 1999-10-07 2004-09-14 World Multicast.com, Inc Video compression system and method using time
WO2001041451A1 (en) 1999-11-29 2001-06-07 Sony Corporation Video/audio signal processing method and video/audio signal processing apparatus
JP3694888B2 (ja) * 1999-12-03 2005-09-14 ソニー株式会社 復号装置および方法、符号化装置および方法、情報処理装置および方法、並びに記録媒体
US6738424B1 (en) 1999-12-27 2004-05-18 Objectvideo, Inc. Scene model generation from video for use in video processing
US6574353B1 (en) 2000-02-08 2003-06-03 University Of Washington Video object tracking using a hierarchy of deformable templates
EP1124379A3 (en) 2000-02-09 2011-08-17 Canon Kabushiki Kaisha Method and apparatus for inhibiting reproduction of parts of a recording
US6661004B2 (en) 2000-02-24 2003-12-09 Massachusetts Institute Of Technology Image deconvolution techniques for probe scanning apparatus
JP4443722B2 (ja) 2000-04-25 2010-03-31 富士通株式会社 画像認識装置及び方法
US6731799B1 (en) 2000-06-01 2004-05-04 University Of Washington Object segmentation with background extraction and moving boundary techniques
US6795875B2 (en) * 2000-07-31 2004-09-21 Microsoft Corporation Arbitrating and servicing polychronous data requests in direct memory access
US8005145B2 (en) * 2000-08-11 2011-08-23 Nokia Corporation Method and apparatus for transferring video frame in telecommunication system
FR2814312B1 (fr) * 2000-09-07 2003-01-24 France Telecom Procede de segmentation d'une surface image video par objets elementaires
GB2367966B (en) 2000-10-09 2003-01-15 Motorola Inc Method and apparatus for determining regions of interest in images and for image transmission
JP4310916B2 (ja) 2000-11-08 2009-08-12 コニカミノルタホールディングス株式会社 映像表示装置
JP2002182961A (ja) 2000-12-13 2002-06-28 Nec Corp データベースの同期化システムとその同期化の方法
WO2002052508A2 (en) 2000-12-22 2002-07-04 Anthropics Technology Limited Image processing system
US20020085633A1 (en) 2001-01-03 2002-07-04 Kim Hyun Mun Method of performing video encoding rate control
US7061483B2 (en) 2001-02-08 2006-06-13 California Institute Of Technology Methods for computing barycentric coordinates generalized to irregular n-gons and applications of the same
US6614466B2 (en) 2001-02-22 2003-09-02 Texas Instruments Incorporated Telescopic reconstruction of facial features from a speech pattern
US6625310B2 (en) 2001-03-23 2003-09-23 Diamondback Vision, Inc. Video segmentation using statistical pixel modeling
US7043058B2 (en) 2001-04-20 2006-05-09 Avid Technology, Inc. Correcting motion vector maps for image processing
US20020164068A1 (en) 2001-05-03 2002-11-07 Koninklijke Philips Electronics N.V. Model switching in a communication system
US6909745B1 (en) 2001-06-05 2005-06-21 At&T Corp. Content adaptive video encoder
US6496217B1 (en) 2001-06-12 2002-12-17 Koninklijke Philips Electronics N.V. Video communication system using model-based coding and prioritzation techniques
US7173925B1 (en) 2001-07-18 2007-02-06 Cisco Technology, Inc. Method and system of control signaling for a wireless access network
US7003039B2 (en) 2001-07-18 2006-02-21 Avideh Zakhor Dictionary generation method for video and image compression
US7457359B2 (en) 2001-09-26 2008-11-25 Mabey Danny L Systems, devices and methods for securely distributing highly-compressed multimedia content
GB2382289B (en) 2001-09-28 2005-07-06 Canon Kk Method and apparatus for generating models of individuals
EP1309181A1 (en) 2001-11-06 2003-05-07 Thomson Licensing S.A. Device, method and system for multimedia content adaption
US7130446B2 (en) 2001-12-03 2006-10-31 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues
US20030122966A1 (en) 2001-12-06 2003-07-03 Digeo, Inc. System and method for meta data distribution to customize media content playback
US6842177B2 (en) 2001-12-14 2005-01-11 University Of Washington Macroblock padding
US7673136B2 (en) 2002-02-26 2010-03-02 Stewart Ian A Method for secure multicast repeating on the public Internet
JP2003253190A (ja) 2002-03-06 2003-09-10 Kansai Paint Co Ltd 缶内面用水性塗料組成物
US6950123B2 (en) 2002-03-22 2005-09-27 Intel Corporation Method for simultaneous visual tracking of multiple bodies in a closed structured environment
US7136505B2 (en) 2002-04-10 2006-11-14 National Instruments Corporation Generating a curve matching mapping operator by analyzing objects of interest and background information
US7203356B2 (en) 2002-04-11 2007-04-10 Canesta, Inc. Subject segmentation and tracking using 3D sensing technology for video compression in multimedia applications
US7483487B2 (en) 2002-04-11 2009-01-27 Microsoft Corporation Streaming methods and systems
KR100491530B1 (ko) 2002-05-03 2005-05-27 엘지전자 주식회사 모션 벡터 결정 방법
US7505604B2 (en) * 2002-05-20 2009-03-17 Simmonds Precision Prodcuts, Inc. Method for detection and recognition of fog presence within an aircraft compartment using video images
US7386049B2 (en) 2002-05-29 2008-06-10 Innovation Management Sciences, Llc Predictive interpolation of a video signal
US8752197B2 (en) 2002-06-18 2014-06-10 International Business Machines Corporation Application independent system, method, and architecture for privacy protection, enhancement, control, and accountability in imaging service systems
JP3984191B2 (ja) 2002-07-08 2007-10-03 株式会社東芝 仮想化粧装置及びその方法
US7031499B2 (en) 2002-07-22 2006-04-18 Mitsubishi Electric Research Laboratories, Inc. Object recognition system
US6925122B2 (en) 2002-07-25 2005-08-02 National Research Council Method for video-based nose location tracking and hands-free computer input devices based thereon
EP1387588A2 (en) 2002-08-02 2004-02-04 KDDI Corporation Image matching device and method for motion estimation
US20040028139A1 (en) 2002-08-06 2004-02-12 Andre Zaccarin Video encoding
US20040113933A1 (en) 2002-10-08 2004-06-17 Northrop Grumman Corporation Split and merge behavior analysis and understanding using Hidden Markov Models
TW200407799A (en) 2002-11-05 2004-05-16 Ind Tech Res Inst Texture partition and transmission method for network progressive transmission and real-time rendering by using the wavelet coding algorithm
KR100455294B1 (ko) 2002-12-06 2004-11-06 삼성전자주식회사 감시 시스템에서의 사용자 검출 방법, 움직임 검출 방법및 사용자 검출 장치
WO2004061702A1 (en) 2002-12-26 2004-07-22 The Trustees Of Columbia University In The City Of New York Ordered data compression system and methods
US7003117B2 (en) 2003-02-05 2006-02-21 Voltage Security, Inc. Identity-based encryption system for secure data distribution
US7606305B1 (en) 2003-02-24 2009-10-20 Vixs Systems, Inc. Method and system for transcoding video data
FR2852773A1 (fr) 2003-03-20 2004-09-24 France Telecom Procedes et dispositifs de codage et de decodage d'une sequence d'images par decomposition mouvement/texture et codage par ondelettes
US7574406B2 (en) 2003-03-31 2009-08-11 Satyam Computer Services Limited Of Mayfair Centre System and method maximizing video license utilization using billboard services
US7184073B2 (en) 2003-04-11 2007-02-27 Satyam Computer Services Limited Of Mayfair Centre System and method for warning drivers based on road curvature
US7424164B2 (en) 2003-04-21 2008-09-09 Hewlett-Packard Development Company, L.P. Processing a detected eye of an image to provide visual enhancement
US7956889B2 (en) 2003-06-04 2011-06-07 Model Software Corporation Video surveillance system
US7415527B2 (en) 2003-06-13 2008-08-19 Satyam Computer Services Limited Of Mayfair Centre System and method for piecewise streaming of video using a dedicated overlay network
US7603022B2 (en) 2003-07-02 2009-10-13 Macrovision Corporation Networked personal video recording system
US8306113B2 (en) * 2003-07-09 2012-11-06 Nec Corporation Moving picture encoding method, moving picture decoding method, moving picture encoding device, moving picture decoding device, and computer program
US7296030B2 (en) * 2003-07-17 2007-11-13 At&T Corp. Method and apparatus for windowing in entropy encoding
US7383180B2 (en) * 2003-07-18 2008-06-03 Microsoft Corporation Constant bitrate media encoding techniques
KR20050040712A (ko) 2003-10-28 2005-05-03 삼성전자주식회사 명령어 기반 그래픽 출력 가속 기능이 포함된 2차원그래픽 디코더, 그 그래픽 출력 가속 방법 및 영상 재생장치
WO2005055602A1 (en) 2003-12-04 2005-06-16 Telefonaktiebolaget Lm Ericsson (Publ) Video application node
GB2409029A (en) 2003-12-11 2005-06-15 Sony Uk Ltd Face detection
US7535515B2 (en) 2003-12-23 2009-05-19 Ravi Ananthapur Bacche Motion detection in video signals
US8175412B2 (en) * 2004-02-17 2012-05-08 Yeda Research & Development Co. Ltd. Method and apparatus for matching portions of input images
US7447331B2 (en) 2004-02-24 2008-11-04 International Business Machines Corporation System and method for generating a viewable video index for low bandwidth applications
JP2005244585A (ja) 2004-02-26 2005-09-08 Alps Electric Co Ltd アイソレータ
WO2006002299A2 (en) * 2004-06-22 2006-01-05 Sarnoff Corporation Method and apparatus for recognizing 3-d objects
US7508990B2 (en) 2004-07-30 2009-03-24 Euclid Discoveries, Llc Apparatus and method for processing video data
US7436981B2 (en) 2005-01-28 2008-10-14 Euclid Discoveries, Llc Apparatus and method for processing video data
US7457435B2 (en) 2004-11-17 2008-11-25 Euclid Discoveries, Llc Apparatus and method for processing video data
US9578345B2 (en) 2005-03-31 2017-02-21 Euclid Discoveries, Llc Model-based video encoding and decoding
AU2005269310C1 (en) 2004-07-30 2010-05-20 Euclid Discoveries, Llc Apparatus and method for processing video data
US7426285B2 (en) 2004-09-21 2008-09-16 Euclid Discoveries, Llc Apparatus and method for processing video data
US8902971B2 (en) 2004-07-30 2014-12-02 Euclid Discoveries, Llc Video compression repository and model reuse
US9743078B2 (en) 2004-07-30 2017-08-22 Euclid Discoveries, Llc Standards-compliant model-based video encoding and decoding
US7457472B2 (en) 2005-03-31 2008-11-25 Euclid Discoveries, Llc Apparatus and method for processing video data
US8724891B2 (en) 2004-08-31 2014-05-13 Ramot At Tel-Aviv University Ltd. Apparatus and methods for the detection of abnormal motion in a video stream
US20060120571A1 (en) 2004-12-03 2006-06-08 Tu Peter H System and method for passive face recognition
US7623676B2 (en) * 2004-12-21 2009-11-24 Sarnoff Corporation Method and apparatus for tracking objects over a wide area using a network of stereo sensors
US7715597B2 (en) 2004-12-29 2010-05-11 Fotonation Ireland Limited Method and component for image recognition
EP1846892A4 (en) 2005-01-28 2011-04-06 Euclid Discoveries Llc DEVICES AND METHODS FOR PROCESSING VIDEO DATA
US20060274949A1 (en) 2005-06-02 2006-12-07 Eastman Kodak Company Using photographer identity to classify images
US20100060783A1 (en) 2005-07-13 2010-03-11 Koninklijke Philips Electronics, N.V. Processing method and device with video temporal up-conversion
US7672306B2 (en) 2005-07-18 2010-03-02 Stewart Ian A Method for secure reliable point to multi-point bi-directional communications
WO2007018688A1 (en) * 2005-07-22 2007-02-15 Thomson Licensing Method and apparatus for weighted prediction for scalable video coding
US7689021B2 (en) * 2005-08-30 2010-03-30 University Of Maryland, Baltimore Segmentation of regions in measurements of a body based on a deformable model
US20080232477A1 (en) * 2005-09-01 2008-09-25 Koninklijke Philips Electronics, N.V. Method and Device For Coding and Decoding of Video Error Resilience
CA2622744C (en) 2005-09-16 2014-09-16 Flixor, Inc. Personalizing a video
US9258519B2 (en) 2005-09-27 2016-02-09 Qualcomm Incorporated Encoder assisted frame rate up conversion using various motion models
JP4654864B2 (ja) 2005-09-30 2011-03-23 パナソニック株式会社 プラズマディスプレイパネルの製造方法
US8019170B2 (en) 2005-10-05 2011-09-13 Qualcomm, Incorporated Video frame motion-based automatic region-of-interest detection
US20070153025A1 (en) * 2005-12-29 2007-07-05 Mitchell Owen R Method, apparatus, and system for encoding and decoding a signal on a viewable portion of a video
US8150155B2 (en) 2006-02-07 2012-04-03 Qualcomm Incorporated Multi-mode region-of-interest video object segmentation
US7630522B2 (en) 2006-03-08 2009-12-08 Microsoft Corporation Biometric measurement using interactive display systems
US20070268964A1 (en) 2006-05-22 2007-11-22 Microsoft Corporation Unit co-location-based motion estimation
US20080027917A1 (en) * 2006-07-31 2008-01-31 Siemens Corporate Research, Inc. Scalable Semantic Image Search
KR101267178B1 (ko) * 2006-09-30 2013-05-24 톰슨 라이센싱 비디오에 대하여 색 인핸스먼트 계층을 인코딩 및 디코딩하기 위한 방법 및 디바이스
CN102761744B (zh) * 2006-10-13 2015-10-28 汤姆逊许可公司 用于多视点视频编码的参考图像列表管理语法
US8452113B2 (en) 2006-12-11 2013-05-28 Thomson Licensing Method of encoding an image and device implementing said method
EP2105029A2 (en) * 2006-12-15 2009-09-30 Thomson Licensing Distortion estimation
US8804829B2 (en) 2006-12-20 2014-08-12 Microsoft Corporation Offline motion description for video generation
KR101366242B1 (ko) * 2007-03-29 2014-02-20 삼성전자주식회사 움직임 모델 파라메터의 부호화, 복호화 방법 및 움직임모델 파라메터를 이용한 영상의 부호화, 복호화 방법 및장치
WO2009024926A1 (en) 2007-08-20 2009-02-26 Nokia Corporation Segmented metadata and indexes for streamed multimedia data
US8036464B2 (en) 2007-09-07 2011-10-11 Satyam Computer Services Limited System and method for automatic segmentation of ASR transcripts
US8065293B2 (en) 2007-10-24 2011-11-22 Microsoft Corporation Self-compacting pattern indexer: storing, indexing and accessing information in a graph-like data structure
US8091109B2 (en) 2007-12-18 2012-01-03 At&T Intellectual Property I, Lp Set-top box-based TV streaming and redirecting
CN101960491A (zh) 2008-03-18 2011-01-26 汤姆森许可贸易公司 自适应感兴趣特征颜色模型参数估计的方法和设备
JP5429445B2 (ja) 2008-04-08 2014-02-26 富士フイルム株式会社 画像処理システム、画像処理方法、およびプログラム
US8140550B2 (en) 2008-08-20 2012-03-20 Satyam Computer Services Limited Of Mayfair Centre System and method for bounded analysis of multimedia using multiple correlations
US8259794B2 (en) * 2008-08-27 2012-09-04 Alexander Bronstein Method and system for encoding order and frame type selection optimization
US8065302B2 (en) 2008-08-27 2011-11-22 Satyam Computer Services Limited System and method for annotation aggregation
US8086692B2 (en) 2008-08-27 2011-12-27 Satyam Computer Services Limited System and method for efficient delivery in a multi-source, multi destination network
US8090670B2 (en) 2008-09-19 2012-01-03 Satyam Computer Services Limited System and method for remote usage modeling
US8392942B2 (en) 2008-10-02 2013-03-05 Sony Corporation Multi-coded content substitution
JP5567021B2 (ja) 2008-10-07 2014-08-06 ユークリッド・ディスカバリーズ・エルエルシー 特徴を基礎とするビデオ圧縮
WO2010063100A1 (en) 2008-12-01 2010-06-10 Nortel Networks Limited Method and apparatus for providing a video representation of a three dimensional computer-generated virtual environment
US8386318B2 (en) 2008-12-30 2013-02-26 Satyam Computer Services Ltd. System and method for supporting peer interactions
EP2216750A1 (en) 2009-02-06 2010-08-11 Thomson Licensing Method and apparatus for encoding 3D mesh models, and method and apparatus for decoding encoded 3D mesh models
WO2010118254A1 (en) 2009-04-08 2010-10-14 Watchitoo, Inc. System and method for image compression
US20100316131A1 (en) 2009-06-12 2010-12-16 Motorola, Inc. Macroblock level no-reference objective quality estimation of video
TWI442777B (zh) 2009-06-23 2014-06-21 Acer Inc 空間性錯誤隱藏方法
US8068677B2 (en) 2009-08-25 2011-11-29 Satyam Computer Services Limited System and method for hierarchical image processing
US8848802B2 (en) 2009-09-04 2014-09-30 Stmicroelectronics International N.V. System and method for object based parametric video coding
US20110087703A1 (en) 2009-10-09 2011-04-14 Satyam Computer Services Limited Of Mayfair Center System and method for deep annotation and semantic indexing of videos
EP2502184A4 (en) 2009-11-19 2017-03-22 Nokia Corporation Method and apparatus for tracking and recognition with rotation invariant feature descriptors
US8290038B1 (en) 2009-11-30 2012-10-16 Google Inc. Video coding complexity estimation
WO2011156250A1 (en) 2010-06-07 2011-12-15 Thomson Licensing Learned transform and compressive sensing for video coding
US8577179B2 (en) 2010-08-19 2013-11-05 Stmicroelectronics International N.V. Image processing arrangement illuminating regions of an image based on motion
US9338477B2 (en) 2010-09-10 2016-05-10 Thomson Licensing Recovering a pruned version of a picture in a video sequence for example-based data pruning using intra-frame patch similarity
US8661076B2 (en) 2010-09-23 2014-02-25 Salesforce.Com, Inc. Business networking information feed alerts
US8531535B2 (en) 2010-10-28 2013-09-10 Google Inc. Methods and systems for processing a video for stabilization and retargeting
US8804815B2 (en) 2011-07-29 2014-08-12 Dialogic (Us) Inc. Support vector regression based video quality prediction
US20130035979A1 (en) 2011-08-01 2013-02-07 Arbitron, Inc. Cross-platform audience measurement with privacy protection

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03253190A (ja) * 1990-03-02 1991-11-12 Kokusai Denshin Denwa Co Ltd <Kdd> 動画像のハイブリッド符号化方法及びその装置
JPH0795587A (ja) * 1993-06-30 1995-04-07 Ricoh Co Ltd 動きベクトル検出方法
JP2004356747A (ja) * 2003-05-27 2004-12-16 Kddi Corp 画像のマッチング方法および装置
WO2006055512A2 (en) * 2004-11-17 2006-05-26 Euclid Discoveries, Llc Apparatus and method for processing video data
JP2008537391A (ja) * 2005-03-31 2008-09-11 ユークリッド・ディスカバリーズ・エルエルシー ビデオデータを処理する装置および方法
WO2006105470A1 (en) * 2005-03-31 2006-10-05 Euclid Discoveries, Llc Apparatus and method for processing video data
WO2007146102A2 (en) * 2006-06-08 2007-12-21 Euclid Discoveries, Llc Apparatus and method for processing video data
JP2009540675A (ja) * 2006-06-08 2009-11-19 ユークリッド・ディスカバリーズ・エルエルシー ビデオデータを処理する装置および方法
WO2008091484A2 (en) * 2007-01-23 2008-07-31 Euclid Discoveries, Llc Object archival systems and methods
WO2008091483A2 (en) * 2007-01-23 2008-07-31 Euclid Discoveries, Llc Computer method and apparatus for processing image data
WO2008091485A2 (en) * 2007-01-23 2008-07-31 Euclid Discoveries, Llc Systems and methods for providing personal video services
JP2010526455A (ja) * 2007-01-23 2010-07-29 ユークリッド・ディスカバリーズ・エルエルシー 画像データを処理するコンピュータ方法および装置
JP2009284298A (ja) * 2008-05-23 2009-12-03 Hitachi Ltd 動画像符号化装置、動画像復号化装置、動画像符号化方法及び動画像復号化方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014514709A (ja) * 2012-03-05 2014-06-19 エンパイア テクノロジー ディベロップメント エルエルシー 一体化された占有センサおよび環境光センサ
US9253857B2 (en) 2012-03-05 2016-02-02 Empire Technology Development Llc Integrated occupancy and ambient light sensors
US9693426B2 (en) 2012-03-05 2017-06-27 Empire Technology Development Llc Integrated occupancy and ambient light sensors
JP2015515806A (ja) * 2012-03-26 2015-05-28 ユークリッド・ディスカバリーズ・エルエルシーEuclid Discoveries,Llc コンテキストベースの映像符号化及び映像復号化
JP2015536092A (ja) * 2012-09-28 2015-12-17 ユークリッド・ディスカバリーズ・エルエルシーEuclid Discoveries,Llc 標準に準拠した、モデルベースの映像符号化及び映像復号化
JP2017512420A (ja) * 2014-02-25 2017-05-18 アルカテル−ルーセント モデルを使用して動画配信における遅延を低減するためのシステムおよび方法

Also Published As

Publication number Publication date
WO2010042486A1 (en) 2010-04-15
US20110182352A1 (en) 2011-07-28
EP2345256A1 (en) 2011-07-20
CA2739482C (en) 2017-03-14
EP2345256B1 (en) 2018-03-14
CA2739482A1 (en) 2010-04-15
US8964835B2 (en) 2015-02-24
CN102172026A (zh) 2011-08-31
CN102172026B (zh) 2015-09-09
US20150189318A1 (en) 2015-07-02
US20120155536A1 (en) 2012-06-21
JP5567021B2 (ja) 2014-08-06
US8942283B2 (en) 2015-01-27
TW201016016A (en) 2010-04-16

Similar Documents

Publication Publication Date Title
JP5567021B2 (ja) 特徴を基礎とするビデオ圧縮
JP6732152B1 (ja) 点群エンコーダ
US7508990B2 (en) Apparatus and method for processing video data
CA2676219C (en) Computer method and apparatus for processing image data
JP4928451B2 (ja) ビデオデータを処理する装置および方法
KR101216161B1 (ko) 비디오 데이터를 프로세싱하는 장치 및 방법
KR101278224B1 (ko) 비디오 데이터를 처리하기 위한 장치 및 방법
JP2009540675A (ja) ビデオデータを処理する装置および方法
KR20070107722A (ko) 비디오 데이터를 프로세싱하는 장치 및 방법
Dost et al. Reduced reference image and video quality assessments: review of methods
CN115130571A (zh) 特征编码及解码方法、装置、电子设备及存储介质
US20240046527A1 (en) End-to-end optimization of adaptive spatial resampling towards machine vision
Nagendran et al. Lossless hyperspectral image compression by combining the spectral decorrelation techniques with transform coding methods
Zhang et al. Progressive distributed coding of multispectral images
Zhang et al. Distributed coding techniques for onboard lossless compression of multispectral images
Hachani et al. Rate-Distortion Optimized Compression Algorithm for 3D Triangular Mesh Sequences.
WO2023069337A1 (en) Systems and methods for optimizing a loss function for video coding for machines
Mansouri et al. Parallel Stroked Multi Line: a model-based method for compressing large fingerprint databases
Fracastoro Design and Optimization of Graph Transform for Image and Video Compression.
Georgiadis et al. Encoding scene structures for video compression
Georgiadis Scene representations for video compression
Sasikumar et al. Cutting Edge Techniques of Adaptive Machine Learning for Image Processing and Computer

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120904

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120904

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130226

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130502

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130513

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140318

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140526

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140610

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140618

R150 Certificate of patent or registration of utility model

Ref document number: 5567021

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees