JP7123910B2 - インデックスコーディング及びビットスケジューリングを備えた量子化器 - Google Patents
インデックスコーディング及びビットスケジューリングを備えた量子化器 Download PDFInfo
- Publication number
- JP7123910B2 JP7123910B2 JP2019512006A JP2019512006A JP7123910B2 JP 7123910 B2 JP7123910 B2 JP 7123910B2 JP 2019512006 A JP2019512006 A JP 2019512006A JP 2019512006 A JP2019512006 A JP 2019512006A JP 7123910 B2 JP7123910 B2 JP 7123910B2
- Authority
- JP
- Japan
- Prior art keywords
- pyramid
- encoded
- unsigned
- signed
- encoded values
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 claims description 126
- 230000005236 sound signal Effects 0.000 claims description 68
- 238000000034 method Methods 0.000 claims description 57
- 238000013139 quantization Methods 0.000 claims description 50
- 238000012545 processing Methods 0.000 claims description 28
- 238000012856 packing Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims 2
- 238000005457 optimization Methods 0.000 claims 2
- 230000005540 biological transmission Effects 0.000 description 11
- 238000009499 grossing Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 238000007796 conventional method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3082—Vector coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0012—Smoothing of parameters of the decoder interpolation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
本出願は、引用により文書全体が本明細書に組み込まれる、2016年8月30日出願の米国仮出願第62/381,479号の利益を主張する。
正の整数n、kに関して、符号付きピラミッドS(n,k)は、
からのベクトルの部分集合を表し、L1ノルムはkに等しく、式中
は整数の集合を表す:
式(1)
が実数の集合を表す場合、
のベクトルをS(n,k)のベクトルにマッピングする。従来のコーディング用途では、ベクトル
がベクトル
に量子化され、この量子化されたベクトルが符号化されてデコーダに送られ、ここでプロセスが反転される。
が一意のインデックスIS(y), 0 ≦IS(y) < |S(n, k)|を有するようにして、式中、|S|は集合Sの濃度(cardinality)を表す。次いで、yを符号化するために、このインデックスIS(y)が送られる。受信側では、デコーダが、同じ列挙法を用いて、インデックスからyを復元する。実施可能な応用では、所与のベクトルyに対して、そのインデックスIS(y)を効率的に計算することができ、逆に、所与のインデックスIS(y)に対して、対応するベクトルyを効率的に計算できるように、列挙は、効率的に計算可能とすべきである。このようなS(n,k)の効率的な列挙は、PVQのコーディングの当業者には既知である。インデックス自体の符号化は、例えば、
ビット(すなわち、底を2とする対数の整数上界)においてIS(y)の2進表現による固定長コードを用いることによって実現することができる。代替的に、幾らかより効率的な符号化は、最適な長さ2のコードを用いることによって実現することができ、幾つかのインデックスを
ビットにおいてコーディングして、残りのインデックスを
(すなわち、底を2とする対数の整数下界)ビットにおいてコーディングし、ここで、この手法は、S(n,k)におけるベクトル上の一様確率分布を前提とする。
のサイズの整数に対する算術演算を含む。効率的なコンピュータ実装において、使用中のプロセッサの基本ワードサイズmにこれらの整数を当てはめさせることが好ましいことになる(例えば、m=32又はm=64ビット)。このことは、
となるように、PVQの実行パラメータn,kに制約を課す。実施可能な応用では、比較的長いベクトルを量子化して符号化する必要が多くあり、そのためビットの所与のバジェットBを有する。B>mの場合、サイズ2Bのピラミッドは、単一符号化には大きすぎるので、これは、1回の符号化では行うことができない。一般的な解決策は、ベクトルを2等分に分けて、例えば、B=B1+B2-Cのように、バジェットを2等分(必ずしも等分とは限らない)に分割することであり、ここでcは、デコーダに対するバジェット割当て又は区分の他の特性を記述することの考えられる損失を表す。次に、これら2等分の各々に対して量子化/符号化を試みることができ、プロセスは、符号化されるベクトルの各部分のバジェットbiが
を満たすまで再帰的に継続することができる。
以下で詳細に議論するように、特定の実施形態は、n及びkに対する上記の制約を緩和して、これにより2mよりも大きいサイズのピラミッドを可能にし、したがって、分割数を上述の再帰分割プロセスで低減できるようになる。正の整数n、kに関して、符号なしピラミッドP(n,k)は、S(n,k)内の全てが非負であるベクトルの部分集合を表す:
式(2)
として定義される対応するベクトル
を決定する。次に、P(n,k)の列挙内で対応するインデックスIP(y’)を見つけて符号化する。P(n,k)におけるベクトルの一様分布を前提として、これは、
ビットを必要とし、式中、
は、
を満たす。符号化されたベクトルの第1の部分は、インデックスIP(y’)である。
mビットマシンによる典型的な高解像度コーディング応用では、ビットのバジェットb及び長さnのベクトルxが与えられて、高レベルの量子化のために利用可能な最大の量子化パラメータkで量子化し符号化する。固定長符号化によるS(n,k)の列挙に基づく上述の従来の方法のケースでは、b≦mの場合、|S(n,k)| ≦ 2bを満たすkの最大値が求まる。b>mの場合には、ベクトルは、上述のように分割することができる。
式(3)
式中、Z(n,k)は、P(n,k)からランダムに選択されたベクトル内のゼロ成分の期待数である。
がbに最も近くなるようなkの値として定義され、同じ場合は、より大きなkの値が選ばれる。一部の動作設定において、この関数の所定の推定値は、アクセスを好都合にするために格納することができる。例えば、特定の実施形態は、kの最適値への近似のため以下の関数形式を含む。
式(6)
式中、係数C0(n)及びC1(n)は、関連する値の範囲にわたるK(n,b)への近似のための最小二乗適合を通じて取得することができる。この近似は、ベクトル長n及びビットバジェットbの所与の値のための量子化パラメータkの効率的な評価を可能にする。図2は、n及びbの選択された値に対する整数下界
の例示的な値を含む表を示している。図1の表に関して上述したように、これは、符号化の平均にわたって所与のビットバジェットのためのより高い量子化レベルを可能にする。
特定の実施形態について、本明細書ではオーディオ信号に関して説明しているが、データ処理の当業者であれば、代替のデータセット(例えばビデオ信号)への拡張は理解されるであろう。図3は、例示的な実施形態による、オーディオ信号を処理する方法300を示している。第1の動作302は、音源(例えばマイクロフォン)からの入力オーディオ信号にアクセスする段階を含む。
図11は、本明細書で議論する方法論の何れか1又は複数をマシンに実施させるための命令を実行することができるコンピュータシステム1000の例示的な形態のマシンを示している。代替の実施形態において、マシンは、スタンドアロンデバイスとして動作し、又は他のマシンに接続(例えば、ネットワーク接続)することができる。ネットワーク配置において、マシンは、サーバ-クライアントネットワーク環境ではサーバ又はクライアントマシンとして、或いはピアツーピア(又は分散)ネットワーク環境ではピアマシンとして動作することができる。マシンは、パーソナルコンピュータ(PC)、タブレットPC、セットトップボックス(STB)、携帯情報端末(PDA)、携帯電話、ウェブアプライアンス、ネットワークルータ、スイッチ又はブリッジ、或いはそのマシンによって行われるべき動作を指定する命令(シーケンシャルに又は他の方法で)を実行することができる何れかのマシンとすることができる。更に、1つのマシンのみが図示されているが、「マシン」という用語は、本明細書で議論する方法論の何れか1又は複数を実行するための命令セット(又は複数のセット)を個別に又は共同で実行するあらゆるマシン集合も含むものと解釈するべきである。
上記では、特定の実施形態のみについて詳細に説明したが、当業者であれば、本開示の新規の教示から著しく逸脱することなく、多くの修正が可能であることは容易に理解されるであろう。例えば、上記に開示する実施形態の態様を、他の組み合わせで結合して、付加的な実施形態を形成することができる。したがって、このような全ての修正が、本開示の範囲内に含まれるものとする。
Claims (16)
- オーディオ信号を処理する方法であって、
音源からの入力オーディオ信号にアクセスする段階と、
複数の符号化された値を決定することによって、前記入力オーディオ信号を符号化する段階であって、前記複数の符号化された値のうちの符号化された値は、第1の部分及び第2の部分を含み、前記第1の部分は、ベクトルサイズ及び量子化パラメータによって定義される符号なしピラミッドの要素のインデックスを含み、前記第1の部分は、第1のビットシーケンスを更に含み、前記第1のシーケンスの長さは、前記符号なしピラミッドのサイズに基づいて1又は複数の値から選択され、前記第2の部分は、前記符号なしピラミッドの要素の各非ゼロ成分に対する対応する符号値を含み、前記第2の部分は、第2のビットシーケンスを更に含み、前記第2のシーケンスの可変長は、前記ベクトルサイズ及び前記量子化パラメータによって定義される関連する符号付きピラミッドの対応する要素の非ゼロ成分の数に基づく、段階と、
前記入力オーディオ信号の前記符号化に従って前記複数の符号化された値を復号して、出力オーディオ信号を生成する段階と、
前記出力オーディオ信号をオーディオプレーヤに供給する段階と、
を含む方法。 - 前記符号なしピラミッドは、前記ベクトルサイズの複数のベクトルを含み、前記符号なしピラミッドの前記複数のベクトルの各々は、非負の整数ベクトル成分を有し、該非負の整数ベクトル成分の和が前記量子化パラメータに等しい、請求項1に記載の方法。
- 前記複数の符号化された値のうちの前記符号化された値は、前記ベクトルサイズ及び前記量子化パラメータによって定義される符号付きピラミッドの要素を識別し、前記符号なしピラミッド要素の非ゼロ成分は、大きさの値及び符号値を有し、該大きさの値は、前記符号化された値の前記第1の部分によってインデックスを付けられた前記符号付きピラミッド要素の対応する成分から識別され、該符号値は、前記符号化された値の前記第2の部分から識別される、請求項1に記載の方法。
- 前記符号なしピラミッドは、前記ベクトルサイズの複数のベクトルを含み、前記符号なしピラミッドの前記複数のベクトルの各々は、非負の整数ベクトル要素を有し、該非負の整数ベクトル要素の和が前記量子化パラメータに等しく、
前記関連する符号付きピラミッドは、前記ベクトルサイズの複数のベクトルを含み、前記符号付きピラミッドの前記複数のベクトルの各々は、整数ベクトル要素を有し、該整数ベクトル要素の大きさの和が前記量子化パラメータに等しい、請求項1に記載の方法。 - 前記複数の符号化された値のうちの前記符号化された値を決定する段階は、
前記ベクトルサイズ及び前記量子化パラメータによって定義される符号付きピラミッドの要素を識別する段階と、
前記符号なしピラミッド要素の非ゼロ成分の大きさが、前記符号付きピラミッド要素の対応する成分の大きさに等しくなるように、前記符号化された値の前記第1の部分を決定して前記符号なしピラミッド要素を識別する段階と、
前記符号なしピラミッド要素の前記非ゼロ成分に関連する前記符号値が、前記符号付きピラミッド要素の前記対応する成分のための符号値に等しくなるように、前記符号化された値の前記第2の部分を決定する段階と、
を含む、請求項1に記載の方法。 - 前記複数の符号化された値のうちの前記符号化された値を決定する段階は、
前記入力オーディオ信号を修正離散コサイン変換(MDCT)に適用することに基づいて周波数変換係数を計算する段階と、
前記周波数変換係数のベクトルを前記量子化パラメータで量子化して、前記ベクトルサイズ及び前記量子化パラメータによって定義される符号付きピラミッドの要素を決定する段階と、
前記符号付きピラミッドの前記要素から、前記符号化された値の前記第1の部分及び前記第2の部分を決定する段階と、
を含み、前記第1の部分は、前記符号なしピラミッドの対応する要素を識別し、前記第2の部分は、前記符号付きピラミッドの前記要素の非ゼロ成分のための符号値の特性を示す、請求項1に記載の方法。 - 前記複数の符号化された値を復号する段階は、
前記複数の符号化された値から量子化された周波数変換係数を決定する段階であって、対応する量子化された周波数変換係数は、前記符号化された値の前記第1の部分及び前記第2の部分を用いることによって、前記複数の符号化された値のうちの前記符号化された値から決定されて、前記ベクトルサイズ及び量子化パラメータのための前記符号なしピラミッドに対応する符号付きピラミッドの要素を識別し、該符号付きピラミッドの該識別された要素は、前記符号化された値の前記第2の部分から識別される符号値を含む、段階と、
前記量子化された周波数変換係数から前記出力オーディオ信号を生成する段階と、
を含む、請求項1に記載の方法。 - 前記符号化に関連する第1の位置において、前記複数の符号化された値をビットストリームにパックする段階と、
前記符号化に関連する前記第1の位置から、前記復号に関連する第2の位置に前記ビットストリームを送信する段階と、
前記復号に関連する前記第2の位置において、前記ビットストリームから前記複数の符号化された値をアンパックする段階と、
を更に含む、請求項1に記載の方法。 - オーディオ信号を処理するためのシステムであって、前記システムは、
音源からの入力オーディオ信号にアクセスするように構成された入力ユニットと、
複数の符号化された値を決定することによって前記入力オーディオ信号を符号化することを含む動作を実行するように構成された1又は複数のプロセッサを含むエンコーダであって、前記複数の符号化された値のうちの符号化された値は、第1の部分及び第2の部分を含み、前記第1の部分は、ベクトルサイズ及び量子化パラメータによって定義される符号なしピラミッドの要素のインデックスを含み、前記第1の部分は、第1のビットシーケンスを更に含み、前記第1のシーケンスの長さは、前記符号なしピラミッドのサイズに基づいて1又は複数の値から選択され、前記第2の部分は、前記符号なしピラミッドの要素の各非ゼロ成分に対する対応する符号値を含み、前記第2の部分は、第2のビットシーケンスを更に含み、前記第2のシーケンスの可変長は、前記ベクトルサイズ及び前記量子化パラメータによって定義される関連する符号付きピラミッドの対応する要素の非ゼロ成分の数に基づく、エンコーダと、
前記入力オーディオ信号の前記符号化に従って前記複数の符号化された値を復号して出力オーディオ信号を生成することを含む動作を実行するように構成された1又は複数のプロセッサを含むデコーダと、
前記出力オーディオ信号をオーディオプレーヤに供給するように構成された出力ユニットと、
を備えるシステム。 - 前記複数の符号化された値を復号することは、
前記複数の符号化された値から量子化された周波数変換係数を決定することであって、対応する量子化された周波数変換係数は、前記符号化された値の前記第1の部分及び前記第2の部分を用いることによって、前記複数の符号化された値のうちの前記符号化された値から決定されて、前記ベクトルサイズ及び量子化パラメータのための前記符号なしピラミッドに対応する符号付きピラミッドの要素を識別し、該符号付きピラミッドの該識別された要素は、前記符号化された値の前記第2の部分から識別される符号値を含む、量子化された周波数変換係数を決定することと、
前記量子化された周波数変換係数から前記出力オーディオ信号を生成することと、
を含む、請求項9に記載のシステム。 - オーディオ信号を処理する方法であって、前記方法は、
入力オーディオ信号の複数の符号化された値にアクセスする段階であって、前記複数の符号化された値のうちの符号化された値は、第1の部分及び第2の部分を含み、前記第1の部分は、ベクトルサイズ及び量子化パラメータによって定義される符号なしピラミッドの要素のインデックスを含み、前記第1の部分は、第1のビットシーケンスを更に含み、前記第1のシーケンスの長さは、前記符号なしピラミッドのサイズに基づいて1又は複数の値から選択され、前記第2の部分は、前記符号なしピラミッドの要素の各非ゼロ成分に対する対応する符号値を含み、前記第2の部分は、第2のビットシーケンスを更に含み、前記第2のシーケンスの可変長は、前記ベクトルサイズ及び前記量子化パラメータによって定義される関連する符号付きピラミッドの対応する要素の非ゼロ成分の数に基づく、段階と、
前記複数の符号化された値から量子化された周波数変換係数を決定する段階であって、対応する周波数変換係数は、前記符号化された値の前記第1の部分及び前記第2の部分を用いることによって、前記複数の符号化された値のうちの前記符号化された値から決定されて、前記ベクトルサイズ及び量子化パラメータのための前記符号なしピラミッドに対応する符号付きピラミッドの要素を識別し、該符号付きピラミッドの該識別された要素は、前記符号化された値の前記第2の部分から識別される符号値を含む、段階と、
前記量子化された周波数変換係数から出力オーディオ信号を生成する段階と、
を含む、方法。 - 前記符号なしピラミッドは、前記ベクトルサイズの複数のベクトルを含み、前記符号なしピラミッドの前記複数のベクトルの各々は、非負の整数ベクトル成分を有し、該非負の整数ベクトル成分の和が前記量子化パラメータに等しい、請求項11に記載の方法。
- 前記複数の符号化された値のうちの前記符号化された値は、前記ベクトルサイズ及び前記量子化パラメータによって定義される符号付きピラミッドの要素を識別し、前記符号なしピラミッド要素の非ゼロ成分は、大きさの値及び符号値を有し、該大きさの値は、前記符号化された値の前記第1の部分によってインデックスを付けられた前記符号付きピラミッド要素の対応する成分から識別され、該符号値は、前記符号化された値の前記第2の部分から識別される、請求項11に記載の方法。
- 前記符号なしピラミッドは、前記ベクトルサイズの複数のベクトルを含み、前記符号なしピラミッドの前記複数のベクトルの各々は、非負の整数ベクトル要素を有し、該非負の整数ベクトル要素の和が前記量子化パラメータに等しく、
前記関連する符号付きピラミッドは、前記ベクトルサイズの複数のベクトルを含み、前記符号付きピラミッドの前記複数のベクトルの各々は、整数ベクトル要素を有し、該整数ベクトル要素の大きさの和が前記量子化パラメータに等しい、請求項11に記載の方法。 - 変換ベースのエンコーダであって、
入力オーディオ信号から周波数変換係数を計算するように構成された周波数変換回路と、
前記周波数変換係数の複数の係数ブロックを決定するように構成された係数処理回路であって、前記係数処理回路は、前記複数の係数ブロックに関して、個別の周波数バンドへの前記周波数変換係数の直交変換及び置換を実行するように更に構成される、係数処理回路と、
前記複数の係数ブロックのうちの係数ブロックに関して、符号化された値を決定するように構成された量子化器回路であって、該符号化された値は、第1の部分及び第2の部分を含み、該第1の部分は、前記係数ブロックのベクトルサイズ及び前記量子化器回路の解像度に対応する量子化パラメータによって定義される符号なしピラミッドの要素のインデックスを含み、該第2の部分は、前記符号なしピラミッドの要素の各非ゼロ成分に対する対応する符号値を含む、量子化器回路と、
前記複数の係数ブロックに関して前記量子化器回路によって決定された複数の符号化された値から、符号化されたビットストリームを生成するように構成されたビットストリームパッキング回路と、
を備える、変換ベースのエンコーダ。 - 変換ベースのデコーダであって、
符号化されたビットストリームから複数の符号化された値を決定するように構成されたビットストリームアンパッキング回路であって、前記複数の符号化された値のうちの符号化された値は、第1の部分及び第2の部分を含み、該第1の部分は、ベクトルサイズ及び量子化パラメータによって定義される符号なしピラミッドの要素のインデックスを含み、該第2の部分は、該符号なしピラミッドの要素の各非ゼロ成分に対する対応する符号値を含む、ビットストリームアンパッキング回路と、
前記複数の符号化された値のうちの前記符号化された値から、前記量子化パラメータに対応する解像度についての前記ベクトルサイズに対応する係数ブロックを決定するように構成された逆量子化器回路であって、該係数ブロックは、前記符号化された値の前記第1の部分及び前記第2の部分を用いることによって、前記複数の符号化された値のうちの前記符号化された値から決定されて、前記ベクトルサイズ及び量子化パラメータのための前記符号なしピラミッドに対応する符号付きピラミッドの要素を識別し、該符号付きピラミッドの該識別された要素は、前記符号化された値の前記第2の部分から識別された符号値を含む、逆量子化器回路と、
前記複数の符号化された値に関して前記逆量子化器回路によって決定された複数の係数ブロックから、複数の周波数変換係数を決定するように構成された逆係数処理回路であって、前記逆係数処理回路は、前記複数の係数ブロックの逆直交変換及び置換を実行して、前記複数の周波数変換係数を決定するように更に構成される、逆係数処理回路と、
前記複数の周波数変換係数からオーディオ信号を生成するように構成されたオーディオ回路と、
を備える変換ベースのデコーダ。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662381479P | 2016-08-30 | 2016-08-30 | |
US62/381,479 | 2016-08-30 | ||
PCT/US2017/049130 WO2018044897A1 (en) | 2016-08-30 | 2017-08-29 | Quantizer with index coding and bit scheduling |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019529979A JP2019529979A (ja) | 2019-10-17 |
JP7123910B2 true JP7123910B2 (ja) | 2022-08-23 |
Family
ID=61243263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019512006A Active JP7123910B2 (ja) | 2016-08-30 | 2017-08-29 | インデックスコーディング及びビットスケジューリングを備えた量子化器 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10366698B2 (ja) |
EP (1) | EP3507799A4 (ja) |
JP (1) | JP7123910B2 (ja) |
KR (1) | KR20190040063A (ja) |
CN (1) | CN110249384B (ja) |
WO (1) | WO2018044897A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9774854B2 (en) | 2014-02-27 | 2017-09-26 | Telefonaktiebolaget L M Ericsson (Publ) | Method and apparatus for pyramid vector quantization indexing and de-indexing of audio/video sample vectors |
US10366698B2 (en) | 2016-08-30 | 2019-07-30 | Dts, Inc. | Variable length coding of indices and bit scheduling in a pyramid vector quantizer |
EP3913626A1 (en) | 2018-04-05 | 2021-11-24 | Telefonaktiebolaget LM Ericsson (publ) | Support for generation of comfort noise |
US10586546B2 (en) | 2018-04-26 | 2020-03-10 | Qualcomm Incorporated | Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding |
US10573331B2 (en) * | 2018-05-01 | 2020-02-25 | Qualcomm Incorporated | Cooperative pyramid vector quantizers for scalable audio coding |
US10734006B2 (en) | 2018-06-01 | 2020-08-04 | Qualcomm Incorporated | Audio coding based on audio pattern recognition |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120166189A1 (en) | 2009-01-06 | 2012-06-28 | Skype | Speech Coding |
US20140358978A1 (en) | 2013-06-03 | 2014-12-04 | Jean-Marc Valin | Vector quantization with non-uniform distributions |
JP2017516121A (ja) | 2014-02-27 | 2017-06-15 | テレフオンアクチーボラゲット エルエム エリクソン(パブル) | オーディオ/ビデオサンプルベクトルのピラミッドベクトル量子化インデクシング及びデインデクシングの方法及び装置 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5271089A (en) | 1990-11-02 | 1993-12-14 | Nec Corporation | Speech parameter encoding method capable of transmitting a spectrum parameter at a reduced number of bits |
JP3170193B2 (ja) | 1995-03-16 | 2001-05-28 | 松下電器産業株式会社 | 画像信号の符号化装置及び復号装置 |
CA2239294A1 (en) | 1998-05-29 | 1999-11-29 | Majid Foodeei | Methods and apparatus for efficient quantization of gain parameters in glpas speech coders |
KR20020075592A (ko) | 2001-03-26 | 2002-10-05 | 한국전자통신연구원 | 광대역 음성 부호화기용 lsf 양자화기 |
US6690307B2 (en) * | 2002-01-22 | 2004-02-10 | Nokia Corporation | Adaptive variable length coding of digital video |
JP4181887B2 (ja) | 2002-05-29 | 2008-11-19 | キヤノン株式会社 | 可変長符号化装置、及びその方法 |
CA2388358A1 (en) | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for multi-rate lattice vector quantization |
US7539612B2 (en) * | 2005-07-15 | 2009-05-26 | Microsoft Corporation | Coding and decoding scale factor information |
US7889103B2 (en) * | 2008-03-13 | 2011-02-15 | Motorola Mobility, Inc. | Method and apparatus for low complexity combinatorial coding of signals |
CA2972808C (en) | 2008-07-10 | 2018-12-18 | Voiceage Corporation | Multi-reference lpc filter quantization and inverse quantization device and method |
US8175888B2 (en) * | 2008-12-29 | 2012-05-08 | Motorola Mobility, Inc. | Enhanced layered gain factor balancing within a multiple-channel audio coding system |
JP2011024066A (ja) | 2009-07-17 | 2011-02-03 | Sony Corp | 画像処理装置および方法 |
CN102081926B (zh) | 2009-11-27 | 2013-06-05 | 中兴通讯股份有限公司 | 格型矢量量化音频编解码方法和系统 |
WO2012122299A1 (en) | 2011-03-07 | 2012-09-13 | Xiph. Org. | Bit allocation and partitioning in gain-shape vector quantization for audio coding |
WO2012141635A1 (en) | 2011-04-15 | 2012-10-18 | Telefonaktiebolaget L M Ericsson (Publ) | Adaptive gain-shape rate sharing |
US20130132100A1 (en) | 2011-10-28 | 2013-05-23 | Electronics And Telecommunications Research Institute | Apparatus and method for codec signal in a communication system |
US20140357978A1 (en) * | 2013-06-04 | 2014-12-04 | Akshay Pai | Computer Based Method for Determining the Size of an Object in an Image |
PL2992529T3 (pl) | 2014-07-28 | 2017-03-31 | Telefonaktiebolaget Lm Ericsson (Publ) | Wyszukiwanie kształtu przez piramidowy kwantyzator wektorowy |
US20160093308A1 (en) * | 2014-09-26 | 2016-03-31 | Qualcomm Incorporated | Predictive vector quantization techniques in a higher order ambisonics (hoa) framework |
US9747910B2 (en) | 2014-09-26 | 2017-08-29 | Qualcomm Incorporated | Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework |
US10366698B2 (en) | 2016-08-30 | 2019-07-30 | Dts, Inc. | Variable length coding of indices and bit scheduling in a pyramid vector quantizer |
US10146500B2 (en) | 2016-08-31 | 2018-12-04 | Dts, Inc. | Transform-based audio codec and method with subband energy smoothing |
-
2017
- 2017-06-01 US US15/611,362 patent/US10366698B2/en active Active
- 2017-08-29 KR KR1020197008708A patent/KR20190040063A/ko not_active Application Discontinuation
- 2017-08-29 WO PCT/US2017/049130 patent/WO2018044897A1/en unknown
- 2017-08-29 JP JP2019512006A patent/JP7123910B2/ja active Active
- 2017-08-29 EP EP17847372.4A patent/EP3507799A4/en not_active Withdrawn
- 2017-08-29 CN CN201780066469.7A patent/CN110249384B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120166189A1 (en) | 2009-01-06 | 2012-06-28 | Skype | Speech Coding |
US20140358978A1 (en) | 2013-06-03 | 2014-12-04 | Jean-Marc Valin | Vector quantization with non-uniform distributions |
JP2017516121A (ja) | 2014-02-27 | 2017-06-15 | テレフオンアクチーボラゲット エルエム エリクソン(パブル) | オーディオ/ビデオサンプルベクトルのピラミッドベクトル量子化インデクシング及びデインデクシングの方法及び装置 |
Also Published As
Publication number | Publication date |
---|---|
EP3507799A4 (en) | 2020-02-26 |
US10366698B2 (en) | 2019-07-30 |
CN110249384A (zh) | 2019-09-17 |
KR20190040063A (ko) | 2019-04-16 |
CN110249384B (zh) | 2024-01-26 |
JP2019529979A (ja) | 2019-10-17 |
WO2018044897A9 (en) | 2019-01-24 |
EP3507799A1 (en) | 2019-07-10 |
US20180061428A1 (en) | 2018-03-01 |
WO2018044897A1 (en) | 2018-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7123910B2 (ja) | インデックスコーディング及びビットスケジューリングを備えた量子化器 | |
US11205121B2 (en) | Efficient encoding and decoding sequences using variational autoencoders | |
TW201545485A (zh) | 用於音訊/視訊樣本向量之錐型向量量化檢索/解檢索之方法及裝置 | |
JP7389651B2 (ja) | デジタルオーディオ信号における可変アルファベットサイズ | |
JP7257965B2 (ja) | デジタルオーディオ信号における差分データ | |
JP6647340B2 (ja) | 改善されたファイルの圧縮及び暗号化 | |
EP3507800B1 (en) | Transform-based audio codec and method with subband energy smoothing | |
US9583113B2 (en) | Audio compression using vector field normalization | |
WO2022242534A1 (zh) | 编解码方法、装置、设备、存储介质及计算机程序 | |
WO2024085903A1 (en) | Non-windowed dct-based audio coding using advanced quantization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200826 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210921 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210929 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20211228 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20220228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220329 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220713 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220810 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7123910 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |