JP2006518158A - 知覚モデルに基づく映像圧縮の方法及び装置 - Google Patents

知覚モデルに基づく映像圧縮の方法及び装置 Download PDF

Info

Publication number
JP2006518158A
JP2006518158A JP2006503586A JP2006503586A JP2006518158A JP 2006518158 A JP2006518158 A JP 2006518158A JP 2006503586 A JP2006503586 A JP 2006503586A JP 2006503586 A JP2006503586 A JP 2006503586A JP 2006518158 A JP2006518158 A JP 2006518158A
Authority
JP
Japan
Prior art keywords
bit rate
frame
perceptual model
encoding
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006503586A
Other languages
English (en)
Inventor
モロゾヴ,アンドレイ
アスニス,イルヤ
Original Assignee
エックスヴイディー コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エックスヴイディー コーポレイション filed Critical エックスヴイディー コーポレイション
Publication of JP2006518158A publication Critical patent/JP2006518158A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • H04N19/198Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters including smoothing of a sequence of encoding parameters, e.g. by averaging, by choice of the maximum, minimum or median value
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/115Selection of the code volume for a coding unit prior to coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • H04N19/197Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters including determination of the initial value of an encoding parameter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Algebra (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

知覚モデルに基づく映像圧縮の方法及び装置は、前フレームの実際のビットレートの後に安定化遅延を伴って続くビットレート値を計算する。現在の量子化係数は計算されたビットレート及び知覚モデルを用いて決定される。現在の量子化係数の変化率は前の量子化係数に基づいて制限される。現在の量子化係数が計算され、制限された後、現在フレームは制限された現在の量子化係数で符号化される。

Description

発明の分野
[0001]本発明は映像圧縮の分野に関する。より詳細には、本発明は知覚モデルに基づく静止画像及び/又は映像データ圧縮に関する。
発明の背景
[0002]デジタル映像は大量の情報を非圧縮フォーマットで収容する。この大量の情報の操作及び/又は蓄積は時間と資源の両方を消費する。これに対して、情報の量が多くなるほど、より優れた視覚的な品質が得られる。圧縮技術の目標は、典型的に、視覚的な品質の維持と、映像を表示するため必要な情報の量の削減との間で最適バランスを見つけることである。
[0003]映像を表示するために必要な情報の量を削減するため、圧縮技術は人間の視覚系を巧みに利用する。人間の視覚によって知覚され得ない情報は典型的に除去される。その上、情報は映像シーケンス内の複数のフレームに亘って繰り返されることがよくある。情報の量を削減するため、冗長な情報は同様に映像シーケンスから除去される。映像圧縮技術は、ISO/IEC 13818−2、“Information technology−generic coding of moving picture and associated audio information: Video, 1996”に記載された動画像専門家グループ−2(MPEG−2)規格に詳細に記載されている。
[0004]典型的には、MPEG−2エンコーダは、映像ストリームの平均レートが始めから終わりまで殆ど同一である固定ビットレート(CBR)モードで機能するように開発された。映像ストリームは、MPEG−2規格によって定義されるように、Iピクチャタイプ、Bピクチャタイプ及びPピクチャタイプのような種々のタイプからなる複数のピクチャ又はフレームを含む。ピクチャは、そのタイプに応じて、映像ストリームの設定された目標レートよりも増減するビットを消費する。CBRレート制御戦略は、所望の平均ビットレートが充たされ、高品質の映像シーケンスが表示されるように、ストリームの種々のピクチャタイプの間でビットレートを維持する責任がある。
[0005]他のMPEG−2エンコーダを含むその他のエンコーダは、可変ビットレート(VBR)モードで機能する。可変ビットレート符号化は、圧縮されたピクチャのそれぞれが、ピクチャ内及びピクチャ間の特性の複雑度に基づいて異なる量のビットを有することを可能にさせる。例えば、単純なピクチャ内容を含むシーンの符号化は、複雑なピクチャ内容を含むシーンよりも、同程度に知覚されるピクチャ品質を実現するために、著しく少ないビットを消費する。
[0006]従来のVBR符号化は、符号化プロセスを効果的に高めるため、映像を特徴化するのに必要な情報の量と情報を解釈するのに必要なアルゴリズムの複雑度の理由から、2つ以上のパスを使用して非リアルタイムで達成される。第1のパスにおいて、符号化が実行され、統計値が収集され解析される。第2のパスにおいて、解析の結果が符号化プロセスを制御するため使用される。これは高品質圧縮映像ストリームを生成するが、リアルタイム動作が可能でなく、単一パス符号化も可能としない。
発明の概要
[0007]知覚モデルに基づく映像圧縮の方法及び装置が記載される。本発明の一態様によれば、前フレームの実際のビットレートの後に安定化遅延を伴って続くビットレート値が計算される。現在の量子化係数は計算されたビットレート及び知覚モデルを用いて決定される。現在の量子化係数の変化率は前の量子化係数に基づいて制限される。現在の量子化係数が計算され、制限された後、現在フレームは制限された現在の量子化係数で符号化される。
[0008]本発明の上記及びその他の態様は、詳細な説明及び添付図面を参照してよりよく説明される。
[0009]本発明は、本発明の実施形態を明らかにするため使用される以下の説明及び添付図面を参照することによって最もよく理解される。
発明の詳細説明
[0022]以下の説明中、多数の具体的な細部は本発明の完全な理解を与えるため示される。しかし、本発明はこれらの具体的な細部を用いることなく実施できることを理解されたい。他の例では、周知の回路、構造、規格及び技術は、本発明を曖昧にすることがないように詳細には示されない。
[概略]
[0023]知覚モデルに基づく映像圧縮の方法及び装置について説明される。本発明の種々の実施形態によれば、圧縮(符号化とも称される)のため使用される符号化複雑度制御スカラー(例えば、量子化係数)は、知覚モデルに基づいて決定される。前に符号化されたフレームに基づく1個以上のパラメータのセットは、現在フレームを符号化する符号化複雑度制御スカラーを決定するため使用される知覚モデルを定義する。
[0024]本発明の一実施形態によれば、符号化複雑度制御スカラーを決定するため使用される知覚モデルは、安定化された前の符号化に基づくビットレートを含むパラメータのセットによって定義される。安定化された前の符号化に基づくビットレートは、変化フレームビットレートを補正することにより安定化された、過去の不変フレームビットレートの時間加重平均から計算される。知覚モデルに基づく符号化を用いて圧縮された映像シーケンスは、典型的に映像シーケンスの視覚的な品質に顕著な変化を生じさせるフレーム間の差にもかかわらず、不変性の視覚的な品質を有するものとして、人間の視覚によって知覚される。現在フレームを符号化する符号化複雑度制御スカラーを生成するために前の符号化からの情報を使用することは、リアルタイムの単一パスのVBR符号化を可能にさせる。
[0025]本発明の別の実施形態によれば、符号化複雑度制御スカラーを決定するため使用される知覚モデルは、シーケンスビット割当量内の残りの利用可能な符号化ビットから計算された知覚モデル定義用符号化複雑度制御スカラーと、知覚モデル修正パラメータと、によって定義される。現在及び/又は未来のビット利用率をある範囲内に保つために過去のビット利用率を考慮して知覚モデルを再定義又は調整することにより、滑らかなビット利用率と知覚的な完全性が得られる。
[0026]本発明の別の実施形態では、知覚モデルは、安定化され時間加重された前の符号化に基づくビットレートと、知覚モデル定義用符号化複雑度制御スカラーとに応じて、定義又は調整される。知覚モデル定義用符号化複雑度制御スカラーは、知覚的な完全性を維持する一様なビット利用率を与えるために、ビット利用率に応じて知覚モデルをシフトする。シフトする知覚モデルから決定された符号化複雑度制御スカラーと、安定化され時間加重された前の符号化に基づくビットレートは、不変性の視覚的な品質をもつものとして知覚される映像シーケンスの現在フレームを符号化する符号化複雑度制御スカラーを与える。
[前のビットレートに基づく符号化複雑度制御スカラーの生成]
[0027]上述のように、映像シーケンス内のフレームを符号化するため使用される符号化複雑度制御スカラーは知覚モデルに基づいて決定される。知覚モデルは、座標がビットレートと符号化複雑度制御スカラーとによって定められたグラフに描くことができる。ビットレートは前の符号化ビットレートに基づいて計算される。前の符号化に基づくビットレートが計算された後、知覚モデルに応じて計算された前の符号化に基づくビットレートに対応する符号化複雑度制御スカラーが決定される。
[0028]図1は本発明の一実施形態による知覚モデルを説明するグラフである。図1において、x軸はビットレート(R)によって定められ、y軸は符号化複雑度制御スカラー(Q)によって定められる。グラフは、ソフトフレームテーラード(tailored)知覚モデル、ノンテーラード(non−tailored)知覚モデル、及びハードフレームテーラード知覚モデルを含む。本発明の一実施形態によれば、知覚モデルのそれぞれは、次式:
CALC=QPM*(RCALC/RPM
によって定義される。知覚モデルを定義する式は次の形:
CALC=(QPM/RPM )*RCALC
で表現することも可能である。知覚モデルパラメータQCALCは、y軸に沿って位置する計算された符号化複雑度制御スカラーである。知覚モデルパラメータQPMは、一実施形態において予め定義され、本発明の別の実施形態では映像シーケンスの符号化中に動的に調整される知覚モデル定義用符号化複雑度制御スカラーである。知覚モデルパラメータRCALCは、前のビットレートから計算されたビットレートである。知覚モデルパラメータRPMは予め定義された知覚モデル定義用ビットレートである。本発明の別の実施形態では、知覚モデルパラメータRPMは、映像シーケンスが符号化されるときに動的に修正される。知覚モデルパラメータPは、知覚モデルの曲線を定義する予め定められた値である。例えば、Pが1.0であるならば、知覚モデルはノンテーラード知覚モデルである。Pが1.0よりも大きい(例えば、2.0である)ならば、知覚モデルはソフトフレームテーラード知覚モデルである。Pが1.0未満である(例えば、0.5である)ならば、知覚モデルはハードフレームテーラード知覚モデルである。
[0029]本発明の別の実施形態によれば、知覚モデルパラメータQPM及びRPMは、次式:
CALC=(PM)*RCALC (ここで、PMは単一知覚モデル定義用パラメータである)
のように、単一知覚モデル定義用パラメータによって表現される。本発明の一実施形態では、単一知覚モデル定義用パラメータは静的であり、一方、本発明の別の実施形態では、単一知覚モデル定義用パラメータは動的である。
[0030]ソフトフレームは、そのソフトフレームを符号化するため必要なビット数が少ない低複雑度の映像シーケンス内のフレームである。ハードフレームは、そのハードフレームを符号化するためより多数のビットを必要とする高複雑度の映像シーケンス内のフレームである。図1に示されたグラフは、対照として固定ビットレート(CBR)モデル及び従来の可変ビットレート(VBR)モデルをさらに含む。
[0031]CBRモデルはy軸と平行に通る直線であり、同じビット数で複雑度とは無関係に様々なフレームの符号化を示す。従来のVBRモデルはx軸と平行に通る直線であり、映像シーケンス内の様々なフレームを符号化するための同じ符号化複雑度制御スカラーの使用を示す。ノンテーラード知覚モデルは、y軸とx軸の両方から等距離にある点により構成された直線である。ノンテーラード知覚モデルは、適当に均衡のとれた個数のハードフレームとソフトフレームとにより構成された映像シーケンスの滑らかで、かつ、不変性の知覚を与える、ビットレートと符号化複雑度制御スカラー値との組み合わせを示す。ソフトフレームテーラード知覚モデルは、最初に、ノンテーラード知覚モデルの上方で平行に通り、次に、ビットレートが増加すると共にy軸の方へ曲がり始める。ソフトフレームテーラード知覚モデルは、かなり多数のソフトフレームを含む映像シーケンスの滑らかで、かつ、不変性の知覚を与える、ビットレートと符号化複雑度制御スカラーとの組み合わせを示す。ハードフレームテーラード知覚モデルは、最初に、ノンテーラード知覚モデルの下方を通り、符号化複雑度制御スカラーが増加すると共にx軸の方へ曲がる。ハードフレームテーラード知覚モデルは、かなり多数のハードフレームを含み映像シーケンスの滑らかで、かつ、不変性の知覚を与える、ビットレートと符号化複雑度制御スカラーとの組み合わせを示す。
[0032]図2は、本発明の一実施形態によるノンテーラード知覚モデルに基づく符号化複雑度制御スカラーの決定を説明する図である。図2において、3点がビットレートを表現するx軸上に示される。x軸上の最も左側の点(RN−2として表される)は、フレームN−2のビットレートを示し、ここで、Nは符号化されるべき現在フレームを表し、N−2は現在フレームよりも2フレーム前の符号化されたフレームを表す。x軸上の最も右側の点(RN−1として表される)は、現在フレームの直前に符号化されたフレームであるフレームN−1のビットレートを示す。
[0033]図2に示された実施例では、ビットレート(Rとして表される)は、RN−2とRN−1との間でx軸上に位置する。点Rは、図3に説明される安定化された前の符号化に基づくビットレートである。Rを計算した後、ノンテーラード知覚モデルに従って計算されたRに対応する符号化複雑度制御スカラーが決定される。本発明の一実施形態では、この対応する符号化複雑度制御スカラーは現在フレームを符号化するため与えられる。本発明の別の実施形態では、符号化複雑度制御スカラーは拘束される。例えば、決定された符号化複雑度制御スカラーは、次式:
0.5*QN−1<=QCALC<=2*QN−1 (QN−1は前フレームに対して決定されたQ)
の通り拘束される。
[0034]図3は、本発明の一実施形態による安定化された前の符号化に基づくビットレートを決定する典型的なフローチャートである。ブロック301において、前フレーム(すなわち、符号化されるべき現在フレームよりも先行する既に符号化されたフレーム)のビットレート及びフレームタイプが受信される。ステップ305において、前フレームが変化フレーム(例えば、シーン変化フレーム)であるかどうかが決定される。前フレームが変化フレームではないならば、制御はブロック307へ進む。前フレームが変化フレームであるならば、制御はブロック309へ進む。
[0035]ブロック307で、不変フレームビットレート平均は受信されたビットレートで更新される。ブロック307から、制御はブロック311へ進む。不変フレームビットレート平均は、前に符号化された時間的にフィルタ処理されたフレームのビットレートを平均化することにより計算される。例えば、前の符号化された不変フレームは、符号化されるべき現在フレームに時間的に接近するほど、現在フレームに時間的にあまり接近していないフレームよりも大きい加重(例えば、それらの値の100%)が与えられる。時間加重は、連続時間フィルタ、離散時間フィルタなどである。本発明の一実施形態によれば、時間加重された前の不変フレームビットレート平均は、
RNT=RNTN−1*K1+RN*K2
によって計算され、式中、K1及びK2は、システムが突然の映像難易度変化にどれだけ高速に反応するかを決める係数である。RNは直前に符号化された不変フレームビットレートに等しい。
[0036]ブロック309において、変化フレーム補正ビットレートが受信されたビットレートで更新される。変化フレーム補正ビットレートは、映像シーケンスのある期間に亘って変化フレームのビットレートを平均化し、時間加重された前の不変フレームビットレート平均に加算されるべき補正値を決定することにより計算される。一実施形態の発明によれば、前の変化フレーム補正ビットレートは、次式:
RL−RNTL.RL=RLN−1*K3+R*K4
によって計算され、式中、Rは前に符号化されたフレームビットレートであり、K3及びK4は、反応が遅い無限応答フィルタを定義する係数である。
RNTL=RNTLN−1*K3+RN*K4
であり、式中、RNは前に符号化された不変フレームビットレートであり、K3及びK4は、反応が遅い無限応答フィルタを定義する上記の係数と同じ係数である。
[0037]ブロック311において、安定化された前の符号化に基づくビットレートは、前の符号化された変化フレームに基づく補正ビットレート及び前の符号化された不変フレームに基づくビットレート平均を用いて決定される。前の符号化された変化フレーム補正ビットレートの加算は、決定された値を安定化する(すなわち、安定化された前の符号化に基づくビットレートは、異なるフレームタイプの間の変動を補正するため、遅延及び安定化を含むビットレート平均に続く。)。ブロック313において、安定化された時間加重された前の符号化に基づくビットレートは符号化複雑度制御スカラーを計算するため準備する。
[0038]図4は、本発明の一実施形態による符号化複雑度制御スカラー発生ユニット及びエンコーダの典型的な図である。映像シーケンスのフレームは圧縮ユニット407によって符号化される。図4では、符号化されたフレームN−1 411及び符号化されたフレームN−2 413は、圧縮ユニット407によって符号化されている。圧縮ユニット407が符号化されたフレームN−1 411を符号化した後、圧縮ユニット407は、符号化されたフレームN−1 411のビットレート、及び符号化されたフレームN−1 411のフレームタイプを、符号化複雑度制御スカラー発生ユニット405へ送信する。符号化複雑度制御スカラー発生ユニット405は、図3において説明されたように、安定化された時間加重された前の符号化に基づくビットレートを計算するため圧縮ユニット407から受信されたビットレートを使用する。符号化複雑度制御スカラー発生ユニット405は、次に、図2において説明されたような知覚モデルの式と、安定化された時間加重された前の符号化に基づくビットレートとを用いて、符号化複雑度制御スカラーを決定する。符号化複雑度制御スカラー発生ユニット405は、次に、符号化複雑度制御スカラーを圧縮ユニット407へ送信する。圧縮ユニット407は、次に、符号化されていないフレームN 403を符号化するため受信された符号化複雑度制御スカラーを使用し、符号化されたフレームN409を発生する。
[0039]図5は本発明の一実施形態による符号化複雑度制御スカラー発生ユニットの典型的な図である。符号化複雑度制御スカラー発生ユニット501は、マルチプレクサ513、前の符号化された不変フレーム平均ビットレート計算モジュール503、及び前の符号化された変化ビットレート補正計算モジュール505を含む。前の符号化された不変フレーム平均ビットレート計算モジュール503及び前の符号化された変化ビットレート補正計算モジュール505は共にマルチプレクサ513と接続される。符号化複雑度制御スカラー発生ユニット501は、知覚モデルパラメータモジュール509及び符号化複雑度制御スカラー計算モジュール507をさらに含む。前の符号化された不変フレーム平均ビットレート計算モジュール503、前の符号化された変化ビットレート補正計算モジュール505、及び知覚モデルパラメータモジュール509は、すべてが符号化複雑度制御スカラー計算モジュール507と接続される。
[0040]符号化複雑度制御スカラー発生ユニット501は、前の符号化されたフレームのビットレート及び前の符号化されたフレームのフレームタイプを受信する。本発明の別の実施形態では、フレームタイプは受信されない。その代わりに、符号化複雑度制御スカラー(Q)発生ユニット501は受信されたビットレートからフレームタイプを決定する。マルチプレクサ513はビットレートを受信し、フレームが不変フレームであるならば、そのビットレートを前の符号化された不変フレーム平均ビットレート計算モジュール503へ送信し、フレームが変化フレームであるならば、そのビットレートを前の符号化された変化フレームビットレート補正計算モジュール505へ送信する。前の符号化された不変フレーム平均ビットレート計算モジュール503及び前の符号化された変化フレームビットレート補正計算モジュール505の出力は加えられ、Q計算モジュール507へ送信される。本発明の代替の実施形態では、前の符号化された不変フレーム平均ビットレート計算モジュール503及び前の符号化された変化フレームビットレート補正計算モジュール505の出力は修正なくQ計算モジュール507へ送信される。
[0041]知覚モデルパラメータモジュール509は、符号化複雑度制御スカラーを計算するため使用される知覚モデルを定義するパラメータを出力する。Q計算モジュール507は、次に、現在フレームを符号化するため安定化された前の符号化に基づくビットレートを用いて計算された符号化複雑度制御スカラーを、符号化複雑度制御スカラー発生ユニット501の出力として生ずる。
[滑らかなビット利用率を得るための知覚モデルのシフト]
[0042]映像シーケンスの不変性の視覚的な品質を得るための別の技術はビット利用率を制御することである。目標ビット利用率レンジは映像シーケンスの特性(例えば、映像シーケンスを符号化する総ビット数(「ビット割当量」)、映像シーケンス期間、映像シーケンスの複雑度など)に基づいて定められる。定められた目標ビット利用率レンジに基づいて、QPMのような、少なくとも1個の知覚モデル定義用パラメータを修正するため変数が計算される。知覚モデル定義用パラメータは、目標ビット利用率レンジの範囲内で多数のビットを用いて現在フレームを符号化するため使用される符号化複雑度制御スカラーを生じる位置へ知覚モデルをシフトするため修正される。
[0043]図6は、本発明の一実施形態による映像シーケンスに亘る目標ビット利用率レンジを説明するグラフである。図6において、y軸はビット(B)として定義され、x軸は時間(T)に関して定義される。x軸と平行に通る破線601は映像シーケンスに対するビット割当量を示す。y軸と平行に通る破線603は映像シーケンス期間を示す。x軸から45度で通る斜め実線607は呼知恵ビットレート(CBR)ビット利用率を示す。CBRビット利用率線607に従って符号化された映像シーケンスは、映像シーケンスの各フレームを同じビット数で符号化する。破線605及び破線609はそれぞれ、映像シーケンスに対する目標ビット利用率レンジの目標ビット利用率最大値及び目標ビット利用率最小値を示す。目標ビット利用率最大値線605はCBRビット利用率線607の上方で平行に通る。目標ビット利用率最小値線609はCBRビット利用率線607の下方で平行に通る。図6において、目標ビット利用率最大値605及び目標ビット利用率最小値609によって定められる目標ビット利用率レンジは映像シーケンスの全体に亘って一定である。図6に示された本発明の別の実施形態は、先が細くなる目標ビット利用率レンジを表す。映像シーケンスの最初の部分で、目標ビット利用率レンジは増加する。映像シーケンスの最後の部分で、目標ビット利用率レンジは減少する。映像シーケンスを符号化するビット利用率を目標ビット利用率の範囲に制限すると、符号化複雑度制御スカラーは徐々に変化し、同時に、予め決められたビットレート拘束条件を満たし、CBRビット利用から生じる視覚的な品質における知覚できる変動とは対照的に視覚的な品質を不変に保つ。
[0044]図7は、本発明の一実施形態によるビット利用率グラフと知覚モデルとの間の概念的な相互作用を説明する図である。図7には、映像シーケンスのためのビット利用率グラフ701が示されている。ビット利用率グラフ701は一定の目標ビット利用率レンジを有する。その上、映像シーケンスのための実際のビット利用率は、線702としてビット利用率グラフ701に示されている。時間的な3点(T1,T2,T3)は時間軸に沿ってビット利用率グラフ701内で確認される。
[0045]図7は時間的に変化する知覚モデルグラフをさらに含む。ビット利用率グラフ701上の時点T1に対応する知覚モデルグラフ703は、時点T1より前の開始位置からこの知覚モデルの開始点の左上の位置までの知覚モデルの斜めシフトを表す。知覚モデルグラフ703は、知覚モデルのシフトに起因する単一ビットレート値に対する種々の対応する符号化複雑度制御スカラーをさらに示す。知覚モデルグラフ705は知覚モデルの別のシフトを示す。知覚モデルグラフ705に示された知覚モデルのシフトは時点T2に対応する。ビット利用率グラフ701上の時点T2において、ビット利用率は減少するが、線の勾配は増加する。時点T2におけるビット利用率線702は減少し、CBRビット利用率線よりも下がるが、知覚モデルグラフ705の知覚モデルは、ビット利用率線702内での勾配の変化のために右下へシフトする。この知覚モデルのシフトは映像シーケンスに亘るビット利用率の大幅な変化を回避し、滑らかなビット利用率線702を与える。知覚モデルグラフ703及び705に示されたこの知覚モデルのシフトは典型的に小さいシフトであり、符号化複雑度制御スカラーに小さい変化を生じさせる。
[0046]図8は、本発明の一実施形態による知覚モデル定義用パラメータを計算する典型的なフローチャートである。図8では、知覚モデル定義用パラメータは、本発明の説明を助けるための一例として、知覚モデル定義用符号化複雑度制御スカラーであると仮定される。ブロック801で、映像シーケンスの初期フレームは、初期化符号化複雑度制御スカラーと、残りの利用可能な映像シーケンスビット割当量とを用いて符号化される。ブロック803で、目標ビット利用率レンジのローカルビット利用率レンジによるモデル反応パラメータ(すなわち、所与の時点の目標ビット利用率レンジ内の領域)は残りの利用可能な映像シーケンスビット割当量に基づいて計算される。
[モデル反応パラメータ=1フレーム当たりのバイト数/ローカルビット利用率レンジ]
[0047]ブロック805で、知覚モデル訂正パラメータ(すなわち、振動知覚モデル訂正パラメータ、又は、対数知覚モデル訂正パラメータ)は現在ビットレートのための現在フレーム割当及び残りの利用可能な映像シーケンスビット割当量に基づいて計算される。
=モデル反応パラメータ/1フレーム当たりのバイト数(Dはビットレート振動減衰変数)
=(モデル反応パラメータ)/1フレーム当たりのバイト数(Dはビット割当量制御変数)
[0048]ブロック807で、知覚モデル定義用符号化複雑度制御スカラー修正子が、知覚モデル訂正パラメータ、前フレームのビットレート、及び残りの利用可能な映像シーケンスビット割当量を用いて計算される。
mod=RN−1*D+B*D(Bは現在ビット割当使用量と理想ビット割当使用量との間の差である)
[0049]ブロック809で、新しい知覚モデル定義用符号化複雑度制御スカラーは、現在知覚モデル定義用符号化複雑度制御スカラー及び知覚モデル定義用符号化複雑度制御スカラー修正子を用いて計算される。
PM=Qmod*QPM+QPM
[0050]図8に記載されたビット利用制御技術は単一パスのVBR環境を仮定する。ビット利用制御技術は、或いは、マルチパスのVBR環境にも適用される。例えば、2つのパスのうちの1番目のパスで、知覚モデル定義用符号化複雑度制御スカラーは、映像シーケンスに関して知られた情報(例えば、ビット割当量、分解能など)に基づく所定の値である。2番目のパスで、知覚モデル定義用符号化複雑度制御スカラーは、1番目のパスの知覚モデル定義用符号化複雑度制御スカラーと、1番目のパスに基づく最終的な前の符号化とを用いて決定され、以下の式:
pass2=Qpass1*(RQ1/RPMP+1(RQ1は1番目のパスからの安定化された時間加重ビットレートであり、RPMは知覚モデル定義用ビットレートパラメータである)
で示される。
[滑らかなビット利用のための動的知覚モデルに基づく符号化複雑度制御スカラーの生成]
[0051]図9Aは、本発明の一実施形態によるビット利用率制御適応知覚モデルに基づいて符号化複雑度制御スカラーを計算するフローチャートである。ブロック901で、初期符号化複雑度制御スカラーはフレームを符号化するエンコーダへ送信される。ブロック903で、フレームを符号化するため使用されるビット数及びフレームのタイプが受信される。ブロック905で、前の符号化に基づく時間加重不変フレームビットレート又は前の符号化に基づく時間加重変化フレーム補正ビットレートが計算される。ブロック907で、主要フレームが符号化されたかどうかを判定する。本発明の種々の実施形態は、それとは別に主要フレームを定義可能である(例えば、ある特定のフレーム数、ある時間の経過など)。すべての主要フレームが符号化されたならば、制御はブロック909へ進む。主要フレームの全部はまだ符号化されていないならば、制御はブロック903へ戻る。
[0052]ブロック909で、安定化された時間加重された前の符号化に基づくビットレートが計算される。ブロック911で、新しい知覚モデル定義用符号化複雑度制御スカラーは、図8の説明と同様に、現在の知覚モデル定義用符号化複雑度制御スカラー及び知覚モデル符号化複雑度制御スカラー修正子を用いて計算される。ブロック913で、新しい知覚モデル定義用符号化複雑度制御スカラーを用いて調整された知覚モデルと、安定化された時間加重された前の符号化に基づくビットレートと、に基づく符号化複雑度制御スカラーが計算される。ブロック915で、調整された知覚モデル及び安定化された時間加重された前の符号化に基づくビットレートに基づいて計算された符号化複雑度制御スカラーは、現在フレームを符号化するエンコーダへ供給される。ブロック915から図9Bのブロック917へ進む。
[0053]図9Bは、本発明の一実施形態による図9Aのフローチャートから続くフローチャートである。ブロック917で、映像シーケンスが終了したかどうかが判定される。映像シーケンスが終了していないならば、制御はブロック909へ戻る。映像シーケンスが終了しているならば、制御はブロック919へ進み、そこで処理が終了する。
[0054]図10は、本発明の一実施形態による知覚モデル定義用パラメータモジュールを備えた符号化複雑度制御スカラー発生ユニットの典型的な図である。符号化複雑度制御スカラー発生ユニット1001は、マルチプレクサ1013、前の符号化された不変フレーム平均ビットレート計算モジュール1003、及び前の符号化された変化ビットレート補正計算モジュール1005を含む。前の符号化された不変フレーム平均ビットレート計算モジュール1003及び前の符号化された変化フレームビットレート補正計算モジュール1005はマルチプレクサ1013と接続される。符号化複雑度制御スカラー発生ユニット1001は、知覚モデル定義用パラメータモジュール1009及び符号化複雑度制御スカラー計算モジュール1007をさらに含む。知覚モデル定義用パラメータモジュール1009は同様にマルチプレクサ1013と接続される。前の符号化された不変フレーム平均ビットレート計算モジュール1003、前の符号化された変化フレームビットレート補正計算モジュール1005、及び知覚モデルパラメータモジュール1009はすべて符号化複雑度制御スカラー計算モジュール1007と接続される。
[0055]符号化複雑度制御スカラー発生ユニット1001は、前の符号化フレームのビットレート及び前の符号化されたフレームのフレームタイプを受信する。本発明の代替の実施形態では、フレームタイプは受信されない。その代わりに、符号化複雑度制御スカラー(Q)発生ユニット1001は受信されたビットレートからフレームタイプを決定する。マルチプレクサ1013はビットレートを受信し、フレームが不変フレームであるならば、そのビットレートを前の符号化された不変フレーム平均ビットレート計算モジュール1003へ送信し、フレームが変化フレームであるならば、そのビットレートを前の符号化された変化フレームビットレート補正計算モジュール1005へ送信する。前のフレームを符号化するため使用されたビット数は同様に知覚モジュール定義パラメータモジュール1009へ送信される。前の符号化された不変フレーム平均ビットレート計算モジュール1003及び前の符号化された変化フレームビットレート補正計算モジュール1005の出力は加えられ、Q計算モジュール1007へ送信される。本発明の代替の実施形態では、前の符号化された不変フレーム平均ビットレート計算モジュール1003及び前の符号化された変化フレームビットレート補正計算モジュール1005の出力は修正なくQ計算モジュール1007へ送信される。
[0056]知覚モデル定義用パラメータモジュール1009は、マルチプレクサ1013から受信されたビット数を用いて計算された知覚モデル定義用パラメータを出力する。知覚モデル定義用パラメータモジュール1009によって実行される動作は、図8に記載されたそれらの動作と類似している。Q計算モジュール1007は、符号化複雑度制御スカラー発生ユニット1001からの出力として、現在フレームを符号化するための安定化された前の時間加重符号化に基づくビットレートを用いて計算された符号化複雑度制御スカラーを供給する。
[0057]図11は、本発明の一実施形態による符号化複雑度制御スカラー発生ユニットを備えたシステムの典型的な図である。図11において、システム1100は、映像入力データ装置1101、1台又は複数台のバッファ1103、圧縮ユニット1105、及び符号化複雑度制御スカラー発生ユニット1107を含む。映像入力データ装置1101は入力ビットストリームを受信する。映像入力データ装置1101は入力ビットストリームをバッファ1103へ渡し、バッファはビットストリーム内のフレームを一時記憶する。フレームは圧縮ユニット1105へ流れ、圧縮ユニットは、符号化複雑度制御スカラー発生ユニット1107からの入力を用いてフレームを圧縮する。圧縮ユニット1105は、圧縮ユニット1105へ供給された符号化複雑度制御スカラーを計算するため、データを符号化複雑度発生ユニット1107へさらに供給する。圧縮ユニット1105は圧縮された映像データを出力する。
[0058]上記のシステムは、メモリ、プロセッサ、及び/又は、ASICを含む。このようなメモリは、本明細書に記載された方法のいずれか1つ又は全部を具体化する命令のセット(すなわち、ソフトウェア)が格納された機械読み取り可能な媒体を含む。ソフトウェアは、完全に、又は、少なくとも部分的に、このメモリの内部、及び/又は、プロセッサとASICの両方若しくは一方の内部に存在する。この明細書の目的のため、用語「機械読み取り可能な媒体」は、機械(例えば、コンピュータ)によって読み取り可能な形式で情報を供給(すなわち、蓄積及び/又は送信)する任意のメカニズムを包含するものと解釈されるべきである。例えば、機械読み取り可能な媒体は、読み出し専用メモリ(「ROM」)と、ランダムアクセスメモリ(「RAM」)と、磁気ディスク記憶媒体と、光記憶媒体と、フラッシュメモリ装置と、電気、光、音響若しくはその他の形式の伝搬信号(例えば、搬送波、赤外線信号、デジタル信号など)などを含む。
[代替の実施形態]
[0059]本発明は複数の実施形態に関して記載されているが、当業者は本発明が記載された実施形態に限定されないことがわかる。例えば、フローチャートは、本発明のある実施形態によって実行される特別な動作順序を表すが、このような順序は典型例であることが理解されるべきである(例えば、代替の実施形態は、異なる順序で動作を実行する、一部の動作を組み合わせる、一部の動作を重ね合わせるなどである。)。例えば、図9を参照すると、ブロック911は本発明の他の実施形態ではブロック909の前に実行される。本発明の別の実施形態において、ブロック909及び911は並列に実行される。
[0060]さらに、図面は変化フレーム及び不変フレームに関して記載されているが、本発明の別の実施形態は、様々なフレームタイプ(例えば、Iフレーム、Pフレーム及びBフレーム)を含む映像シーケンスを圧縮する。本発明の一実施形態では、あるスレッショルドの範囲内のビットレートは前の符号化に基づくビットレート平均を計算する際に利用され、一方、スレッショルドを上回るビットレートは補正ビットレートを計算する際に利用される。
[0061]このように、本発明の方法及び装置は、請求項に記載された事項の精神及び範囲に含まれる変形と変更を加えて実施することが可能である。したがって、明細書の記述は本発明の限定ではなく例示であると考えられるべきである。
本発明の一実施形態による知覚モデルを説明するグラフである。 本発明の一実施形態によるノンテーラード知覚モデルに基づく符号化複雑度制御スカラーの決定を説明する図である。 本発明の一実施形態による安定化された前の符号化に基づくビットレートを決定する典型的なフローチャートである。 本発明の一実施形態による符号化複雑度制御スカラー発生ユニット及びエンコーダの典型的な図である。 本発明の一実施形態による符号化複雑度制御スカラー発生ユニットの典型的な図である。 本発明の一実施形態による映像シーケンスに対する目標ビット利用率レンジを説明するグラフである。 本発明の一実施形態によるビット利用率と知覚モデルとの間の概念的な相互作用を説明する図である。 本発明の一実施形態による任意の知覚モデル定義用パラメータを計算する典型的なフローチャートである。 本発明の一実施形態によるビット利用率制御適応知覚モデルに基づいて符号化複雑度制御スカラーを計算するフローチャートである。 本発明の一実施形態による図9Aのフローチャートから続くフローチャートである。 本発明の一実施形態による知覚モデル定義用パラメータモジュールを備えた符号化複雑度制御スカラー発生ユニットの典型的な図である。 本発明の一実施形態による符号化複雑度制御スカラー発生ユニットを備えたシステムの典型的な図である。

Claims (37)

  1. 前フレームの実際のビットレートの後に安定化遅延を伴って続くビットレート値を計算するステップと、
    前記計算されたビットレート値及び知覚モデルを用いて現在の量子化係数を決定するステップと、
    前の量子化係数に基づいて前記現在の量子化係数の変化率を制限するステップと、
    前記制限された現在の量子化係数を用いてフレームを符号化するステップと、
    を含む、コンピュータで実施される方法。
  2. 前記知覚モデルが次式:
    PM*(RCALC/RPM
    によって定義される、請求項1記載のコンピュータで実施される方法。
  3. 前記現在の量子化係数の変化率が、QN−1が前フレームに対して決定されたQであるとして、
    0.5*QN−1<=QCALC<=2*QN−1
    の範囲内に制限される、請求項1記載のコンピュータで実施される方法。
  4. 前記ビットレート値=RNT+RL−RNTLであり、
    RNT=RNTN−1*K1+RN*K2であり、
    K1及びK2が、システムがフレーム間の突然の難易度変化にどれだけ高速に反応するかを決める係数であり、
    RNが直前に符号化された不変フレームビットレートに一致し、
    RL=RLN−1*K3+R*K4であり、
    が前に符号化されたフレームビットレートであり、
    K3及びK4が反応が遅い無限応答フィルタを定義する係数であり、
    RNTL=RNTLN−1*K3+RN*K4である、
    請求項1記載のコンピュータで実施される方法。
  5. 安定化された時間加重された前の符号化に基づくビットレートを用いて知覚モデルに基づいて符号化複雑度制御スカラーを決定するステップと、
    1個以上の前フレームのセットを符号化するため使用された1個以上の前の符号化複雑度制御スカラーのセットに基づいて前記決定された符号化複雑度制御スカラーを拘束するステップと、
    前記拘束された符号化複雑度制御スカラーを使用して現在フレームを符号化するステップと、
    を含む、コンピュータで実施される方法。
  6. 前記知覚モデルが次式:
    PM*(RCALC/RPM
    によって定義される、請求項5記載のコンピュータで実施される方法。
  7. 前記符号化複雑度制御スカラーが、QN−1が前フレームに対して決定されたQであるとして、
    0.5*QN−1<=QCALC<=2*QN−1
    によって拘束される、請求項5記載のコンピュータで実施される方法。
  8. 前記安定化された時間加重された前の符号化に基づくビットレート=RNT+RL−RNTLであり、
    RNT=RNTN−1*K1+RN*K2であり、
    K1及びK2が、システムがフレーム間の突然の難易度変化にどれだけ高速に反応するかを決める係数であり、
    RNが直前に符号化された不変フレームビットレートに一致し、
    RL=RLN−1*K3+R*K4であり、
    が前に符号化されたフレームビットレートであり、
    K3及びK4が、反応が遅い無限応答フィルタを定義する係数であり、
    RNTL=RNTLN−1*K3+RN*K4である、
    請求項5記載のコンピュータで実施される方法。
  9. 複数の映像フレームの期間のための目標ビット利用率レンジを前記複数の映像フレームに関して知られている情報に基づいて設定するステップと、
    前記複数の映像フレームの残りの利用可能なビットに基づいて前記目標ビット利用率レンジの範囲内でモデル反応パラメータを計算するステップと、
    計算された現在フレームの割当量及び前記複数の映像フレームの前記残りの利用可能なビットを用いて知覚モデル訂正パラメータを計算するステップと、
    前記計算された知覚モデル訂正パラメータ、前フレームのビットレート、及び前記複数の映像フレームの前記残りの利用可能なビットに応じて、現在の知覚モデル定義用パラメータを修正するステップと、
    を含む、コンピュータで実施される方法。
  10. 前記モデル反応パラメータが1フレーム当たりのビット数のローカルビット利用率レンジによる量である、請求項9記載のコンピュータで実施される方法。
  11. 前記知覚モデル訂正パラメータが次式:
    =モデル反応パラメータ/1フレーム当たりのバイト数(Dがビットレート振動減衰変数)、及び
    =(モデル反応パラメータ)/1フレーム当たりのバイト数(Dがビット割当量制御変数)
    に従って計算されるビットレート振動減衰変数(D)及びビット割当量制御変数(D)を含む、請求項9記載のコンピュータで実施される方法。
  12. 映像内の1個以上のフレームのセットを符号化するため知覚モデル及び前の符号化に基づくビットレートを用いて符号化複雑度制御スカラーを決定するステップと、
    前記映像内の前記フレームのセットの各フレームを符号化した後に前記前の符号化に基づくビットレートを更新するステップと、
    前記映像の期間に亘るビット利用率の制御に応じて前記知覚モデルをシフトするステップと、
    を含む、コンピュータで実施される方法。
  13. 前記知覚モデルが次式:
    PM*(RCALC/RPM
    によって定義される、請求項12記載のコンピュータで実施される方法。
  14. 前記安定化された時間加重された前の符号化に基づくビットレート=RNT+RL−RNTLであり、
    RNT=RNTN−1*K1+RN*K2であり、
    K1及びK2が、システムがフレーム間の突然の難易度変化にどれだけ高速に反応するかを決める係数であり、
    RNが直前に符号化された不変フレームビットレートに一致し、
    RL=RLN−1*K3+R*K4であり、
    が前に符号化されたフレームビットレートであり、
    K3及びK4が反応が遅い無限応答フィルタを定義する係数であり、
    RNTL=RNTLN−1*K3+RN*K4である、
    請求項12記載のコンピュータで実施される方法。
  15. 映像の視覚的な品質が変わらずに知覚されるように、知覚モデルに応じて計算され、1個以上の前の符号化されたフレームの、あるスレッショルドを上回るビットレートを含む前の符号化されたフレームを補正するため調整された平均ビットレートに応じて前記複数のフレームのそれぞれに対して調整された、符号化複雑度制御スカラーを用いて、映像の複数のフレームを符号化するステップと、
    前記映像を符号化するビット利用率を制御するため前記知覚モデルを修正するステップと、
    を含む、コンピュータで実施される方法。
  16. 前記知覚モデルが次式:
    PM*(RCALC/RPM
    によって定義される、請求項15記載のコンピュータで実施される方法。
  17. 前記平均ビットビットレートが=RNT+RL−RNTLであり、
    RNT=RNTN−1*K1+RN*K2であり、
    K1及びK2が、システムがフレーム間の突然の難易度変化にどれだけ高速に反応するかを決める係数であり、
    RNが直前に符号化された不変フレームビットレートに一致し、
    RL=RLN−1*K3+R*K4であり、
    が前に符号化されたフレームビットレートであり、
    K3及びK4が反応が遅い無限応答フィルタを定義する係数であり、
    RNTL=RNTLN−1*K3+RN*K4である、
    請求項15記載のコンピュータで実施される方法。
  18. 知覚モデルパラメータを提供する知覚モデルパラメータユニット、
    前に符号化されたフレームのビットレートに基づいて入力ビットレートを計算する入力ビットレート計算ユニット、及び
    前記知覚モデルパラメータユニットと前記入力ビットレート計算ユニットとに接続され、前記知覚モデルパラメータユニットからの知覚モデルパラメータと前記入力ビットレート計算ユニットからの入力ビットレートとを用いて符号化複雑度制御スカラーを計算する符号化複雑度制御スカラー計算ユニット
    を備えた符号化複雑度制御スカラー発生ユニットと、
    前記符号化複雑度発生ユニットに接続され、符号化複雑度制御スカラーを受信し、映像を圧縮し、
    量子化ユニット、
    動き補償ユニット、及び
    符号化ユニット
    を備えた映像圧縮ユニットと、
    を備える装置。
  19. 前記量子化ユニットがDCTユニットである、請求項18記載の装置。
  20. 前記映像圧縮ユニットに接続されたえ光媒体読み取りモジュールをさらに備える、請求項18記載の装置。
  21. 前フレームの実際のビットレートの後に安定化遅延を伴って続くビットレート値を計算することと、
    前記計算されたビットレート値及び知覚モデルを用いて現在の量子化係数を決定することと、
    前の量子化係数に基づいて前記現在の量子化係数の変化率を制限することと、
    前記制限された現在の量子化係数を用いてフレームを符号化することと、
    を装置に実行させる命令のセットを有する機械読み取り可能な媒体。
  22. 前記知覚モデルが次式:
    PM*(RCALC/RPM
    によって定義される、請求項21記載の機械読み取り可能な媒体。
  23. 前記現在の量子化係数の変化率が、QN−1が前フレームに対して決定されたQであるとして、
    0.5*QN−1<=QCALC<=2*QN−1
    の範囲内に制限される、請求項21記載の機械読み取り可能な媒体。
  24. 前記ビットレート値=RNT+RL−RNTLであり、
    RNT=RNTN−1*K1+RN*K2であり、
    K1及びK2が、システムがフレーム間の突然の難易度変化にどれだけ高速に反応するかを決める係数であり、
    RNが直前に符号化された不変フレームビットレートに一致し、
    RL=RLN−1*K3+R*K4であり、
    が前に符号化されたフレームビットレートであり、
    K3及びK4が反応が遅い無限応答フィルタを定義する係数であり、
    RNTL=RNTLN−1*K3+RN*K4である、
    請求項21記載の機械読み取り可能な媒体。
  25. 安定化された時間加重された前の符号化に基づくビットレートを用いて知覚モデルに基づいて符号化複雑度制御スカラーを決定することと、
    1個以上の前フレームのセットを符号化するため使用された1個以上の前の符号化複雑度制御スカラーのセットに基づいて前記決定された符号化複雑度制御スカラーを拘束することと、
    前記拘束された符号化複雑度制御スカラーを使用して現在フレームを符号化することと、
    を装置に実行させる命令のセットを有する機械読み取り可能な媒体。
  26. 前記知覚モデルが次式:
    PM*(RCALC/RPM
    によって定義される、請求項25記載の機械読み取り可能な媒体。
  27. 前記符号化複雑度制御スカラーが、QN−1が前フレームに対して決定されたQであるとして、
    0.5*QN−1<=QCALC<=2*QN−1
    によって拘束される、請求項25記載の機械読み取り可能な媒体。
  28. 前記安定化された時間加重された前の符号化に基づくビットレート=RNT+RL−RNTLであり、
    RNT=RNTN−1*K1+RN*K2であり、
    K1及びK2が、システムがフレーム間の突然の難易度変化にどれだけ高速に反応するかを決める係数であり、
    RNが直前に符号化された不変フレームビットレートに一致し、
    RL=RLN−1*K3+R*K4であり、
    が前に符号化されたフレームビットレートであり、
    K3及びK4が反応が遅い無限応答フィルタを定義する係数であり、
    RNTL=RNTLN−1*K3+RN*K4である、
    請求項25記載の機械読み取り可能な媒体。
  29. 複数の映像フレームの期間のための目標ビット利用率レンジを前記複数の映像フレームに関して知られている情報に基づいて設定することと、
    前記複数の映像フレームの残りの利用可能なビットに基づいて前記目標ビット利用率レンジの範囲内でモデル反応パラメータを計算することと、
    計算された現在フレームの割当量及び前記複数の映像フレームの前記残りの利用可能なビットを用いて知覚モデル訂正パラメータを計算することと、
    前記計算された知覚モデル訂正パラメータ、前フレームのビットレート、及び前記複数の映像フレームの前記残りの利用可能なビットに応じて、現在の知覚モデル定義用パラメータを修正することと、
    を装置に実行させる命令のセットを有する機械読み取り可能な媒体。
  30. 前記モデル反応パラメータが1フレーム当たりのビット数のローカルビット利用率レンジによる量である、請求項29記載の機械読み取り可能な媒体。
  31. 前記知覚モデル訂正パラメータが次式:
    =モデル反応パラメータ/1フレーム当たりのバイト数(Dがビットレート振動減衰変数)、及び
    =(モデル反応パラメータ)/1フレーム当たりのバイト数(Dがビット割当量制御変数)
    に従って計算されるビットレート振動減衰変数(D)及びビット割当量制御変数(D)を含む、請求項29記載の機械読み取り可能な媒体。
  32. 映像内の1個以上のフレームのセットを符号化するため知覚モデル及び前の符号化に基づくビットレートを用いて符号化複雑度制御スカラーを決定することと、
    前記映像内の前記フレームのセットの各フレームを符号化した後に前記前の符号化に基づくビットレートを更新することと、
    前記映像の期間に亘るビット利用率の制御に応じて前記知覚モデルをシフトすることと、
    を装置に実行させる命令のセットを有する機械読み取り可能な媒体。
  33. 前記知覚モデルが次式:
    PM*(RCALC/RPM
    によって定義される、請求項32記載の機械読み取り可能な媒体。
  34. 前記安定化された時間加重された前の符号化に基づくビットレート=RNT+RL−RNTLであり、
    RNT=RNTN−1*K1+RN*K2であり、
    K1及びK2が、システムがフレーム間の突然の難易度変化にどれだけ高速に反応するかを決める係数であり、
    RNが直前に符号化された不変フレームビットレートに一致し、
    RL=RLN−1*K3+R*K4であり、
    が前に符号化されたフレームビットレートであり、
    K3及びK4が反応が遅い無限応答フィルタを定義する係数であり、
    RNTL=RNTLN−1*K3+RN*K4である、
    請求項32記載の機械読み取り可能な媒体。
  35. 映像の視覚的な品質が変わらずに知覚されるように、知覚モデルに応じて計算され、1個以上の前の符号化されたフレームの、あるスレッショルドを上回るビットレートを含む前の符号化されたフレームを補正するため調整された平均ビットレートに応じて前記複数のフレームのそれぞれに対して調整された、符号化複雑度制御スカラーを用いて、映像の複数のフレームを符号化することと、
    前記映像を符号化するビット利用率を制御するため前記知覚モデルを修正することと、
    を装置に実行させる命令のセットを有する機械読み取り可能な媒体。
  36. 前記知覚モデルが次式:
    PM*(RCALC/RPM
    によって定義される、請求項35記載の機械読み取り可能な媒体。
  37. 前記平均ビットビットレートが=RNT+RL−RNTLであり、
    RNT=RNTN−1*K1+RN*K2であり、
    K1及びK2が、システムがフレーム間の突然の難易度変化にどれだけ高速に反応するかを決める係数であり、
    RNが直前に符号化された不変フレームビットレートに一致し、
    RL=RLN−1*K3+R*K4であり、
    が前に符号化されたフレームビットレートであり、
    K3及びK4が反応が遅い無限応答フィルタを定義する係数であり、
    RNTL=RNTLN−1*K3+RN*K4である、
    請求項35記載の機械読み取り可能な媒体。
JP2006503586A 2003-02-14 2004-02-13 知覚モデルに基づく映像圧縮の方法及び装置 Pending JP2006518158A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/366,863 US20040161034A1 (en) 2003-02-14 2003-02-14 Method and apparatus for perceptual model based video compression
PCT/US2004/004384 WO2004075532A2 (en) 2003-02-14 2004-02-13 Method and apparatus for perceptual model based video compression

Publications (1)

Publication Number Publication Date
JP2006518158A true JP2006518158A (ja) 2006-08-03

Family

ID=32849830

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006503586A Pending JP2006518158A (ja) 2003-02-14 2004-02-13 知覚モデルに基づく映像圧縮の方法及び装置

Country Status (4)

Country Link
US (1) US20040161034A1 (ja)
EP (1) EP1602232A2 (ja)
JP (1) JP2006518158A (ja)
WO (1) WO2004075532A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180119105A (ko) * 2017-04-24 2018-11-01 엑시스 에이비 비디오 인코더의 출력 비트레이트를 제어하기 위한 비디오 카메라, 콘트롤러 및 방법

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7584475B1 (en) * 2003-11-20 2009-09-01 Nvidia Corporation Managing a video encoder to facilitate loading and executing another program
JP5198869B2 (ja) * 2004-12-02 2013-05-15 トムソン ライセンシング ビデオエンコーダのレート制御のための量子化パラメータの決定
US9667980B2 (en) * 2005-03-01 2017-05-30 Qualcomm Incorporated Content-adaptive background skipping for region-of-interest video coding
US20080159403A1 (en) * 2006-12-14 2008-07-03 Ted Emerson Dunning System for Use of Complexity of Audio, Image and Video as Perceived by a Human Observer
US20090201380A1 (en) * 2008-02-12 2009-08-13 Decisive Analytics Corporation Method and apparatus for streamlined wireless data transfer
US8787447B2 (en) * 2008-10-30 2014-07-22 Vixs Systems, Inc Video transcoding system with drastic scene change detection and method for use therewith
US8458105B2 (en) * 2009-02-12 2013-06-04 Decisive Analytics Corporation Method and apparatus for analyzing and interrelating data
US20100235314A1 (en) * 2009-02-12 2010-09-16 Decisive Analytics Corporation Method and apparatus for analyzing and interrelating video data
US8897370B1 (en) * 2009-11-30 2014-11-25 Google Inc. Bitrate video transcoding based on video coding complexity estimation

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6192075B1 (en) * 1997-08-21 2001-02-20 Stream Machine Company Single-pass variable bit-rate control for digital video coding
US6480539B1 (en) * 1999-09-10 2002-11-12 Thomson Licensing S.A. Video encoding method and apparatus

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180119105A (ko) * 2017-04-24 2018-11-01 엑시스 에이비 비디오 인코더의 출력 비트레이트를 제어하기 위한 비디오 카메라, 콘트롤러 및 방법
KR102413080B1 (ko) 2017-04-24 2022-06-24 엑시스 에이비 비디오 인코더의 출력 비트레이트를 제어하기 위한 비디오 카메라, 콘트롤러 및 방법

Also Published As

Publication number Publication date
WO2004075532A2 (en) 2004-09-02
WO2004075532A3 (en) 2005-03-10
EP1602232A2 (en) 2005-12-07
US20040161034A1 (en) 2004-08-19

Similar Documents

Publication Publication Date Title
JP2005192193A (ja) ビデオエンコーダレート制御用装置、システムおよび方法
CN101252689A (zh) 一种自适应的码率控制方法
JP2003018603A (ja) 動画像符号化方法及び装置
US20110075730A1 (en) Row Evaluation Rate Control
US7424058B1 (en) Variable bit-rate encoding
JP2006518158A (ja) 知覚モデルに基づく映像圧縮の方法及び装置
US9071837B2 (en) Transcoder for converting a first stream to a second stream based on a period conversion factor
US11778199B2 (en) Systems and methods for deferred post-processes in video encoding
JP4908943B2 (ja) 画像符号化装置及び画像符号化方法
US7451080B2 (en) Controlling apparatus and method for bit rate
US7714751B2 (en) Transcoder controlling generated codes of an output stream to a target bit rate
CN112437301A (zh) 一种面向视觉分析的码率控制方法、装置、存储介质及终端
US8615040B2 (en) Transcoder for converting a first stream into a second stream using an area specification and a relation determining function
US8780977B2 (en) Transcoder
JP4343667B2 (ja) 画像符号化装置及び画像符号化方法
JPH06113271A (ja) 画像信号符号化装置
JPH11252572A (ja) 符号量配分装置
CN100471272C (zh) 数据处理设备及其方法和编码装置
JP2000115786A (ja) 符号化装置、記録装置および符号化方法
JP4755239B2 (ja) 映像符号量制御方法,映像符号化装置,映像符号量制御プログラムおよびその記録媒体
JP2007134758A (ja) ビデオストリーミング用ビデオデータ圧縮装置
JPH0918874A (ja) 画質の制御方法
JP4478480B2 (ja) 動画像符号化装置及びその方法
KR20060019801A (ko) 동영상 부호화기의 비트율 제어장치 및 방법
JP2000083255A (ja) デ―タ符号化方法及び装置