JP5247937B2 - オーディオ信号符号器、オーディオ信号復号器、エイリアシング消去を用いたオーディオ信号の符号化又は復号化方法 - Google Patents
オーディオ信号符号器、オーディオ信号復号器、エイリアシング消去を用いたオーディオ信号の符号化又は復号化方法 Download PDFInfo
- Publication number
- JP5247937B2 JP5247937B2 JP2012534673A JP2012534673A JP5247937B2 JP 5247937 B2 JP5247937 B2 JP 5247937B2 JP 2012534673 A JP2012534673 A JP 2012534673A JP 2012534673 A JP2012534673 A JP 2012534673A JP 5247937 B2 JP5247937 B2 JP 5247937B2
- Authority
- JP
- Japan
- Prior art keywords
- domain
- encoded
- audio
- linear prediction
- audio content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims description 170
- 238000000034 method Methods 0.000 title claims description 72
- 230000003595 spectral effect Effects 0.000 claims description 201
- 230000007704 transition Effects 0.000 claims description 163
- 230000005284 excitation Effects 0.000 claims description 118
- 238000007493 shaping process Methods 0.000 claims description 81
- 230000015572 biosynthetic process Effects 0.000 claims description 79
- 238000003786 synthesis reaction Methods 0.000 claims description 79
- 239000002131 composite material Substances 0.000 claims description 67
- 230000004044 response Effects 0.000 claims description 39
- 238000003379 elimination reaction Methods 0.000 claims description 28
- 230000008030 elimination Effects 0.000 claims description 27
- 238000001228 spectrum Methods 0.000 claims description 27
- 238000001914 filtration Methods 0.000 claims description 24
- 102100040006 Annexin A1 Human genes 0.000 claims description 20
- 101000959738 Homo sapiens Annexin A1 Proteins 0.000 claims description 20
- 101000929342 Lytechinus pictus Actin, cytoskeletal 1 Proteins 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 19
- 101000959200 Lytechinus pictus Actin, cytoskeletal 2 Proteins 0.000 claims description 17
- 230000002829 reductive effect Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 13
- 230000009466 transformation Effects 0.000 claims description 7
- 230000002123 temporal effect Effects 0.000 claims description 6
- 230000000638 stimulation Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 description 105
- 238000012545 processing Methods 0.000 description 60
- 238000013139 quantization Methods 0.000 description 48
- 239000013598 vector Substances 0.000 description 43
- 238000004364 calculation method Methods 0.000 description 30
- 238000010586 diagram Methods 0.000 description 25
- 230000003044 adaptive effect Effects 0.000 description 21
- 238000006243 chemical reaction Methods 0.000 description 14
- 238000012805 post-processing Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 8
- 239000000203 mixture Substances 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 238000002360 preparation method Methods 0.000 description 6
- 238000012937 correction Methods 0.000 description 5
- 239000003623 enhancer Substances 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 101000799321 Lytechinus pictus Actin, cytoskeletal 4 Proteins 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000009432 framing Methods 0.000 description 4
- 238000009499 grossing Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000001131 transforming effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000011049 filling Methods 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000011045 prefiltration Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000000746 purification Methods 0.000 description 2
- 230000000153 supplemental effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 1
- 101000797296 Lytechinus pictus Actin, cytoskeletal 3 Proteins 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000000465 moulding Methods 0.000 description 1
- 238000009377 nuclear transmutation Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- FEPMHVLSLDOMQC-UHFFFAOYSA-N virginiamycin-S1 Natural products CC1OC(=O)C(C=2C=CC=CC=2)NC(=O)C2CC(=O)CCN2C(=O)C(CC=2C=CC=CC=2)N(C)C(=O)C2CCCN2C(=O)C(CC)NC(=O)C1NC(=O)C1=NC=CC=C1O FEPMHVLSLDOMQC-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/03—Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0007—Codebook element generation
- G10L2019/0008—Algebraic codebooks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
図1は本発明の一実施形態に従うオーディオ信号符号器100のブロック図である。オーディオ信号符号器100はオーディオコンテンツ110の入力表現を受信し、それを基に、オーディオコンテンツの符号化された表現112を提供するよう構成されている。オーディオコンテンツの符号化された表現112は、スペクトル係数の第1セット112aと、複数の線形予測ドメインパラメータ112bと、エイリアシング消去刺激信号の表現112cとを含む。
図2は本発明の一実施形態に従うオーディオ信号復号器200のブロック概略図である。オーディオ信号復号器200はオーディオコンテンツの符号化された表現210を受信して、それを基に、例えばエイリアシング低減済み時間ドメイン信号の形式でオーディオコンテンツの復号化された表現212を提供する。
以下に、図3aと図3bを参照しながらマルチモード・オーディオ信号復号器の概念を簡単に説明する。
図3aは参照マルチモード・オーディオ信号復号器のブロック概略図であり、図3bは本発明の一実施形態に従うマルチモード・オーディオ信号復号器のブロック概略図である。換言すれば、図3aは(例えばUSAC草案標準の作業中の草案4に従う)参照システムの基本的な復号器信号フローを示し、図3bは本発明の一実施形態に従う提案システムの基本的な復号器信号フローを示す。
図4を参照しながら、遷移窓処理350についてさらに詳細に説明する。まず、オーディオ信号復号器300の一般的なフレーミング構造を説明する。しかし、微小な差異しかない非常に良く似たフレーミング構造、又は同一の一般的フレーミング構造が、本明細書で説明する他のオーディオ信号符号器又は復号器において使用されることに留意すべきである。また、オーディオフレームは典型的にはN個のサンプルの長さを持ち、そのNは2048と同一であっても良いことにも留意すべきである。オーディオコンテンツの連続するフレームは、およそ50%の割合で、例えばN/2個のオーディオサンプル分だけオーバーラップしていても良い。オーディオフレームは、1つのオーディオフレームのN個の時間ドメインサンプルが、例えばN/2個のスペクトル係数からなる1セットによって表現されるように、周波数ドメインで符号化されても良い。代替的に、1つのオーディオフレームのN個の時間ドメインサンプルが、複数のセット、例えば各128個のスペクトル係数からなる例えば8つのセットによって表現されても良い。それにより、一層高い時間的分解能を得ることができる。
以下に、本発明の実施形態に従うオーディオ信号復号器360について説明する。
図5は、想定される窓処理スキームの例を図式的に表現したものであり、本発明に従うオーディオ信号復号器360又は他の任意のオーディオ信号符号器及び復号器に対して適用可能である。図5は、異なるモードで符号化されたフレーム又はサブフレーム間で起こり得る遷移における窓処理を表す。横軸502a−502iはオーディオサンプルに関する時間を示し、縦軸504a−504iは窓関数又はオーディオコンテンツの時間ドメイン表現を提供するサブフレームを示す。
以下に、全ての窓関数タイプの概略を示す。その目的で、様々な窓関数タイプとその特性を図式化して表す図6を参照されたい。図6の表では、縦列610は左側遷移傾斜の長さに等しくても良い左側オーバーラップ長を示す。縦列612は、変換長すなわち各窓関数によって窓処理された時間ドメイン表現を生成するために使用されるスペクトル係数の個数を示す。縦列614は右側遷移傾斜の長さに等しくても良い右側オーバーラップ長を示す。縦列616は窓関数の名前を示す。縦列618は各窓関数を図式化したものである。
以下に、図7を参照しながら許可された窓関数シーケンスについて説明する。図7は許可された窓関数シーケンスを表で示したものである。図7の表から分かるように、周波数ドメインモードで符号化されたオーディオフレームであってその時間ドメインサンプルがタイプ“AAC Stop”の窓関数を用いて窓処理されたフレームの次には、周波数ドメインモードで符号化されたオーディオフレームであってその時間ドメインサンプルがタイプ“AAC Long”の窓関数か又はタイプ“AAC Start”の窓関数を用いて窓処理されたフレームが続いても良い。
以下に、図8を参照しながらマルチモード・オーディオ信号符号器800について説明する。
以下に、図9に従うオーディオ信号復号器900について説明する。
以下に、周波数ドメイン経路910に関して詳細に説明する。この周波数ドメイン経路がオーディオ復号器300の周波数ドメイン経路に類似していることに注目すべきであり、ゆえに、上述した説明を参照されたい。周波数ドメイン分枝910は、符号化済みスペクトル係数912を受け取り、それに基づいて復号化済みスペクトル係数920aを提供する算術復号化手段920と、その復号化済みスペクトル係数920aを受け取り、それに基づいて逆量子化されたスペクトル係数921aを提供する逆量子化手段921と、を含む。周波数ドメイン分枝910は、符号化済みスケールファクタ情報914を受け取り、それに基づいて復号化されたスケールファクタ情報922aを提供する、スケールファクタ復号化手段922をさらに含む。周波数ドメイン分枝はスケール手段923を含み、このスケール手段923は、逆量子化されたスペクトル係数921aを受け取り、その逆量子化されたスペクトル係数をスケールファクタ922aに従ってスケールし、スケールされたスペクトル係数923aを取得する。例えば、スケールファクタ922aは複数の周波数帯域のために提供されても良く、スペクトル係数921aの複数の周波数binが各周波数帯域に関連付けられても良い。このようにして、スペクトル係数921aの周波数帯域毎のスケーリングが実行されても良い。従って、1つのオーディオフレームに関連付けられたスケールファクタの個数は、典型的にはそのオーディオフレームに関連付けられたスペクトル係数921aの個数よりも少ない。周波数ドメイン分枝910は、逆MDCT924をさらに含み、この逆MDCT924は、スケールされたスペクトル係数923aを受け取り、それに基づいて、現時点のオーディオフレームのオーディオコンテンツの時間ドメイン表現924aを提供する。周波数ドメイン分枝910は、任意ではあるが結合手段925をさらに含み、その結合手段925は、時間ドメイン表現924aとエイリアシング消去合成信号929aとを結合し、時間ドメイン表現918を取得する。しかし、他の幾つかの実施形態においては、結合手段925は省略されても良く、その場合は、時間ドメイン表現924aがオーディオコンテンツの時間ドメイン表現918として提供される。
以下に、オーディオ信号復号器900のTCX−LPD経路について簡単に説明し、その後、更なる詳細について説明する。
以下に、オーディオ信号復号器900のACELP分枝980について簡単に説明する。ACELP経路980は、符号化済みACELP励起信号982の復号化988を含み、復号化されたACELP励起信号988aを得る。次に、励起信号の計算と励起の後処理989が実行され、後処理された励起信号989aが得られる。ACELP分枝980は、線形予測ドメインパラメータ984の復号化990を含み、復号化された線形予測ドメインパラメータ990aを得る。その線形予測ドメインパラメータ990aに依存して、後処理された励起信号989aに対して合成フィルタ処理991が実行され、その結果、合成されたACELP信号991aが得られる。合成されたACELP信号991aは、次に後処理992を用いて処理され、ACELPモードで符号化されたオーディオサブフレームについての時間ドメイン表現986が得られる。
最後に、周波数ドメインモードで符号化されたオーディオフレームについての時間ドメイン表現918と、TCX−LPDモードで符号化されたオーディオフレームについての時間ドメイン表現938と、ACELPモードで符号化されたオーディオフレームについての時間ドメイン表現986とを結合するための結合996が実行され、その結果、オーディオコンテンツの時間ドメイン表現998が得られる。
8.1 LPCフィルタ
8.1.1 ツールの説明
以下に、線形予測符号化フィルタ係数を使用する符号化と復号化に関する詳細を述べる。
いくつかの定義について、以下に説明する。
ビットストリーム内での符号化されたLPCフィルタの実際の数“nb_lpc”は、スーパーフレームのACELP/TCXモードの組合せに依存し、ここで1つのスーパーフレームは複数のサブフレームを含む1つのフレームと同じでも良い。ACELP/TCXモードの組合せはフィールド“lpc_mode”から抽出され、このフィールド“lpc_mode”は次に、スーパーフレームを構成している4つの(サブフレームとも称される)フレームの各々に対して符号化モード“mod[k]”(ここでk=0〜3)を決定する。モード値0はACELPを、1は短いTCX(256サンプル)を、2は中間サイズのTCX(512サンプル)を、3は長いTCX(1024サンプル)を、それぞれ示す。ここで注目すべきは、ビットフィールド“mode”として考えられても良いビットストリームパラメータ“lpc_mode”は、線形予測ドメイン・チャネルストリームの1つのスーパーフレーム内の4つのフレームの各々(例えば高圧縮率オーディオ符号化フレーム又はAACフレームのような、1つの周波数ドメインモード・オーディオフレームに対応する)に対して符号化モードを定義することである。符号化モードはアレイ“mod[]”内に記憶され、0〜3の値を取る。ビットストリームパラメータ“LPC_mode”からアレイ“mod[]”へのマッピングは、表7から決定可能である。
復号器950又は復号器990内で実行されても良いLPCフィルタの逆量子化は、図13に示すように実行される。LPCフィルタは線スペクトル周波数(LSF)表現を用いて量子化される。8.1.6.章で後述するように、第1ステージの近似がまず計算される。次に、8.1.7章で後述するように、任意の代数ベクトル量子化(AVQ)精製(refinement)1330が計算される。量子化されたLSFべクトルは、第1ステージの近似と逆重み付きAVQ寄与1342との加算1350により再構築される。AVQ精製の存在は、8.1.5章で説明するように、LPCフィルタの実際の量子化モードに依存する。逆量子化されたLSFベクトルは、後にLSP(線スペクトルペア)パラメータのベクトルへと変換され、さらにその後に補間されて再度LPCパラメータへと変換される。
復号化950又は復号化990の一部であっても良い、LPC量子化モードの復号化について以下に説明する。
各LPCフィルタのために、図13の第1ステージの近似をどのように計算するかについては、その量子化モードが決定する。
8.1.7.1.概略
ビットストリームから抽出される次の情報は、逆量子化されたLSFベクトルを構築するために必要とされるAVQ精製に関連している。しかし、LPC1は唯一の例外である。つまり、このフィルタが(LPC0+LPC2)/2に対して相対的に符号化されたとき、ビットストリームはAVQ精製を含まない。
の復号化を含む。
AVQ精製を復号化するためにビットストリームから抽出される1番目のパラメータは、上述した2つのサブべクトルの各々のための2つのコードブック番号nk,k=1,2である。コードブック番号を符号化する方法は、LPCフィルタ(LPC0〜LPC4)と、その量子化モード(絶対又は相対)に依存する。次の表3に示すように、nkを符号化するために4つの異なる方法がある。nkのために使用されるコードについての詳細は、以下に述べる。
コードブック番号nkは可変長コードqnkとして以下のように符号化される:
Q2→nkのためのコードは00
Q3→nkのためのコードは01
Q4→nkのためのコードは10
その他の場合:nkのためのコードは 11の後に以下の番号が続く:
Q5→0
Q6→10
Q0→110
Q7→1110
Q8→11110
など。
コードブック番号nkはユーナリーコードqnkとして以下のように符号化される:
Q0→nk のためのユーナリーコードは0
Q2→nk のためのユーナリーコードは10
Q3→nk のためのユーナリーコードは110
Q4→nk のためのユーナリーコードは1110
など。
コードブック番号nkは可変長コードqnkとして以下のように符号化される:
Q2→nkのためのコードは00
Q3→nkのためのコードは01
Q4→nkのためのコードは10
その他の場合:nk のためのコードは、11の後に以下の番号が続く:
Q0→0
Q5→10
Q6→110
など。
LPCフィルタの復号化には、重み付きの残余LSFべクトルの各量子化されたサブべクトル
を記述する代数VQパラメータの復号化が含まれる。各ブロックBkは、上述のように次元8を持つ。各ブロック
のために、3セットのバイナリインデックスが復号器により受け取られる。
a)上述したようにエントロピーコード“qnk”を使用して伝送されるコードブック番号nk;
b)格子点zを得るために特定のリーダー(leader)に対して何の順列を適用すべきかを示す、いわゆるベースコードブックの中の選択された格子点zのランク(rank)Ik;
c)量子化されたブロック
(格子点)がベースコードブックの中になかった場合には、ボロノイ拡張(Voronoi extension)インデックスべクトルkの8個のインデックス;このボロノイ拡張インデックスから、拡張べクトルvが計算できる。インデックスべクトルkの各要素内のビット数は、インデックスnkのコード値から得られる拡張オーダーrによって与えられる。ボロノイ拡張のスケーリングファクタMは、M=2rにより与えられる。
が次式により計算される。
が十分な大きさを持つためにボロノイ拡張が使用された場合には、非特許文献2に示されたQ3又はQ4だけがベースコードブックとして使用される。Q3又はQ4の選択は、コードブック番号nkの中に内在している。
符号器においては、AVQ量子化の前に残余LSFべクトルの要素に対して次式のような重みが適用される。
最初に、8.1.7.2章及び8.1.7.3章で説明したように復号化された2つのAVQ精製サブべクトル
とを連結して単一の重み付き残余LSFべクトルを形成し、次に、この重み付き残余LSFべクトルに対して8.1.7.4章で説明したように計算された重みの逆を適用して残余LSFべクトルを形成し、次に、再度この残余LSFべクトルを8.1.6章に示すように計算された第1ステージの近似に対して加算することで、逆量子化されたLSFべクトルが取得される。
逆量子化されたLSFはリオーダーされ、それらが使用される前に50Hzの隣接するLSF間の最小距離が導入される。
これまで説明してきた逆量子化の手順の結果、LSFドメインのLPCパラメータのセットがもたらされる。次に、LSFは、次式を用いてコサインドメイン(LSP)へと変換される。
qi=cos(ωi),i=1,...,16
ここで、ωiは線スペクトル周波数(LSF)である。
各ACELPフレーム(又はサブフレーム)のために、そのフレームの末尾に対応するただ一つのLPCフィルタが伝送されるが、各サブフレーム(又は1つのサブフレームの一部)内で異なるフィルタ(ACELPフレーム又はサブフレーム毎に4つのフィルタ)を取得するために線形補間が使用される。この補間は、先行するフレーム(又はサブフレーム)の末尾に対応するLPCフィルタと、(現時点の)ACELPフレームの末尾に対応するLPCフィルタとの間で実行される。LSP(new)が新たな有効LSPべクトルを示し、LSP(old)が以前の有効LSPべクトルを示すとすると、Nsfr=4のサブフレームのための補間されたLSPべクトルは、次式で求められる。
各サブフレームのために、補間されたLSP係数はLPフィルタ係数ak,950a,990aへと変換され、それらの係数はサブフレーム内で再構築される信号を合成するために使用される。定義により、16次のLPフィルタのLSPは次の2つの多項式の根である。
以下に、エイリアシング消去メカニズムの理解を促すため、オーディオ信号復号器900のACELP分枝980によって実行される処理の詳細を説明する。
以下に、いくつかの定義を設ける。
以下に、ブロック990bで実行されても良い、ACELP励起バッファの任意の初期化について説明する。
とが、過去の(FACを含む)FD合成とLPC0(即ち、フィルタ係数セットLPC0のLPCフィルタ係数)とを使用して更新される。そのため、前置強調フィルタ(1−0.68z-1)を適用することでFD合成が前置強調され、その結果は
に対してコピーされる。結果として得られた前置強調済み合成は、次に分析フィルタ
によりLPC0を用いて分析され、励起信号u(n)が得られる。
もしフレーム内のモードがCELPモードであれば、励起は、スケールされた適応型コードブックと固定コードブックのべクトルの加算で構成される。各サブフレーム内で、以下のステップを反復することで励起が構築される。
受け取られたピッチインデックス(適応型コードブックインデックス)は、ピッチ・ラグの整数部及び少数部を見つけるために使用される。
v(n)=V'(n)
であるか、又は
v(n)=0.18v'(n)+0.64v'(n−1)+0.18v'(n−2)
であるかを決定するために使用される。
受け取られた代数コードブックインデックスは、励起パルスの位置及び振幅(符号)を抽出し、次式で代数コードベクトルを見つけるために使用される。
サブフレーム毎に受け取られた7ビットインデックスは、適応型コードブックゲイン
と、固定コードブックゲイン修正ファクタ
とを、直接的に提供する。次にそのゲイン修正ファクタに対して推定された固定コードブックゲインを乗算することで、その固定コードブックゲインが計算される。推定された固定コードブックゲインg'cは、以下のようにして得られる。まず、平均イノベーションエネルギーが次式により見つけられる。
は、フレーム毎の復号化された平均励起エネルギーを示す。1フレーム内の平均イノベーティブ励起エネルギー
は、“mean_energy”として各フレーム(18,30,42又は54dB)毎に2ビットで符号化される。
以下にn=0,...,63のためのステップを示す。全体の励起は、次式により構築される。
8.3.1 概略
以下に、ブロック989で実行されても良い励起信号後処理について説明する。換言すれば、信号合成のために、励起要素の後処理が次のように実行されても良い。
ノイズ内の励起を強調するために、非線形ゲイン平滑化の技術が固定コードブックゲイン
に対して適用される。スピーチセグメントの安定性及び発声(voicing)に基づいて、固定コードブックべクトルのゲインが平滑化され、静的な信号の場合における励起エネルギーの変動が低減される。これにより、静的な背景ノイズの場合における性能が向上する。発声ファクタ(voicing factor)は次式で与えられる。
λ=0.5(1−rv)
ただし、
rv=(Ev−Ec)/(Ev+Ec)
である。ここで、Ev及びEcは、スケールされたピッチコードべクトル及びスケールされたイノベーション・コードべクトルのエネルギーをそれぞれ示す(rvは信号周期性の値である)。rvの値は−1から1の間であることから、λの値は0から1の間となることに注意されたい。また、ファクタλは非発声の量に関係し、純粋な発声 (voiced) セグメントは値0に、純粋な非発声 (unvoiced) セグメントは値1になることに注意されたい。
Sm=λθ
と、先行するサブフレームからの最初の修正済みゲインg-1によって与えられる閾値と、を比較することで、最初の修正済みゲインg0が計算される。もし
がg-1以上である場合には、g0は、
を1.5dB分だけ減少させることで計算される。但し、g0≧g-1である。もし
がg_1よりも小さい場合には、g0は、
を1.5dB分だけ増分させることで計算される。但し、g0≦g-1である。
ピッチ強調器のスキームは、イノベーション・フィルタを通じて固定コードブック励起をフィルタ処理することで全体の励起u'(n)を修正する。イノベーション・フィルタは、その周波数応答が高周波を強調し、イノベーティブ・コードべクトルの低周波部分のエネルギーを減少させる。また、そのフィルタの係数は、信号内の周期性に関係している。次式の形式を持つフィルタが使用され、
ここで、cpe=0.125(1+rv)であり、rvは上述のように
rv=(Ev−Ec)/(Ev+Ec)
で与えられる周期性ファクタである。フィルタ処理された固定コードブック・コードべクトルは、次式で与えられ、
更新された後処理済の励起は次式で与えられる。
以下に、合成フィルタ処理991と後処理992とについて説明する。
LP合成は、後処理された励起信号989a,u(n)をLP合成フィルタ
を通じてフィルタ処理することで実行される。サブフレーム毎の補間されたLPフィルタがLP合成フィルタ処理に使用され、サブフレーム内で再構築された信号は次式で与えられる。
LP合成の後で、再構築された信号は低周波ピッチ強調を用いて後処理される。2帯域分割が使用され、適応型フィルタ処理が低帯域に対してのみ適用される。その結果、合成されたスピーチ信号の第1ハーモニックに近い周波数にほぼ目標付けられた全体後処理が行われる。信号は2つの分枝において処理される。高域側分枝では、復号化済み信号は高域通過フィルタによってフィルタ処理され、高帯域信号SHが生成される。低域側分枝では、復号化済み信号はまず適応型ピッチ強調器により処理され、次に低域通過フィルタによりフィルタ処理され、低帯域の後処理された信号SLEFが得られる。その低帯域の後処理された信号と高帯域信号とを加算することで、後処理された復号化済み信号が得られる。ピッチ強調器の目的は、復号化された信号においてハーモニック間のノイズを低減することであり、その目的は、次式で示す伝達関数
を備え、以下の式
に示されたような、時間的に変化する線形フィルタによって達成される。ここで、αはハーモニック間の減衰を制御する係数であり、Tは入力信号
のピッチ周期であり、SLE(n)はピッチ強調器の出力信号である。パラメータT及びαは時間とともに変化し、ピッチトラッキングモジュールによって与えられる。α=0.5の値の場合、1/(2T),3/(2T),5/(2T)等の周波数において、即ち、1/T,3/T,5/T等のハーモニック周波数間の中央点において、フィルタのゲインは正確に0となる。αが0に近づくにつれて、フィルタによって生成されるハーモニック間の減衰が小さくなる。
ここで、PLT(z)は次式によって与えられる長期間予測フィルタ(long-term predictor filter)の伝達関数
であり、HLP(z)は低域通過フィルタの伝達関数である。
以下に、TCX−LPD分枝930の主信号合成940によって実行される、MDCTベースのTCXについて詳細に説明する。
ビットストリームの変数“core_mode”が1に等しいとき、即ち符号化が線形予測ドメインパラメータを使用して行われたことを示し、かつ3つのTCXモードのうちの1つ以上が「線形予測ドメイン」符号化として選択されたとき、即ち、mod[]の4つのアレイエントリーのうちの1つが0よりも大きい場合には、MDCTベースのTCXが使用される。そのMDCTベースのTCXは、算術復号器941から量子化されたスペクトル係数941aを受け取る。その量子化されたスペクトル係数941a(又はその逆量子化されたバージョン942a)は、まずコンフォートノイズによって充填される(ノイズ充填943)。次に、その結果として得られたスペクトル係数943a(又はそのスペクトル的に逆成形されたバージョン944a)に対し、LPCベースの周波数ドメインノイズ成形945が適用され、その後、逆MDCT変換946が実行されて、時間ドメイン合成信号946aが取得される。
いくつかの定義を以下に記載する。変数“lg”は算術復号器から出力される量子化されたスペクトル係数の数を示し、ビットストリーム要素“noise_factor”はノイズレベル量子化インデックスを示す。変数“noise level”は再構築されたスペクトル内に注入されたノイズのレベルを示す。変数“noise[]”は生成されたノイズのべクトルを示す。ビットストリーム要素“global_gain”は、再スケーリングゲイン量子化インデックスを示し、変数“g”は再スケーリングゲインを示す。変数“rms”は合成された時間ドメイン信号x[]の二乗平均平方根(root mean square)を示し、変数“x[]”は合成された時間ドメイン信号を示す。
MDCTベースのTCXは、mod[]の値により決定される量子化されたスペクトル係数の数であるlgを、算術復号器941から求める。この値(lg)は、逆MDCTに対して適用される窓関数の長さ及び形状をも定義する。逆MDCT946の間又はその後で適用されても良い窓関数は、3つの部分、即ち、L個のサンプルからなる左側オーバーラップと、M個のサンプルの1からなる中間部分と、R個のサンプルからなる右オーバーラップ部分とで構成されている。長さ2*lgのMDCT窓関数を得るために、ZL個のゼロが左側に追加され、ZR個のゼロが右側に追加される。SHORT_WINDOWから又はSHORT_WINDOWへの遷移の場合には、そのSHORT_WINDOWの短い窓傾斜に適応させるために、対応するオーバーラップ領域L又はRは128へと減少させる必要があるかもしれない。その結果、領域Mとそれに対応するゼロ領域ZL又はZRは、それぞれ64個のサンプル分だけ拡張させる必要があるかもしれない。
noise_level = 0.0625*(8-noise_factor)
noise[i] = random_sign()*noise_level
1.スペクトルの初めの1/4の各8次元ブロックについて、インデックスmの8次元ブロックのエネルギーEmを計算する。
2.比率Rm=sqrt(Em/EI)を計算する。ここで、Iは全てのEmの最大値を持つブロックインデックスである。
3.もしRm<0.1ならば、Rm=0.1にセットする
4.もしRm<Rm-1ならば、Rm=Rm-1にセットする
の重み付きLPC合成スペクトル951aは、以下の式で計算される。
rr[i]=a[i]・r[i]+b[i]・rr[i-1], i=0...lg,
ここで、a[i]とb[i],945bとは、次式を使用して、左と右のゲインg1[k],g2[k],952aから導出される。
a[i]=2・g1[k]・g2[k]/(g1[k]+g2[k]),
b[i]=(g2[k]−g1[k])/(g1[k]+g2[k]).
によってフィルタ処理され、励起信号が取得される。計算された励起はACELP適応型コードブックを更新し、後続のフレームにおいてTCXからACELPへの切替を可能にする。その信号は、フィルタ1/(1−0.68z-1)を適用し、前置強調された合成を逆強調させることで、最終的に再構築される。分析フィルタ係数はサブフレームベースで補間されていることに注意されたい。
8.6.1 前方エイリアシング消去(FAC)ツールの説明
以下に、最終的な合成信号を取得するために、ACELPと(例えば周波数ドメインモード又はTCX−LPDモードのような)変換符号化(TC)との間における遷移の期間中に実行される、前方エイリアシング消去(FAC)操作について説明する。FACの目的は、TCによって導入されかつ先行の又は後続のACELPフレームによって消去できないような、時間ドメインエイリアシングを消去することである。ここでのTCの概念は、長いブロックと短いブロック(周波数ドメインモード)に亘るMCDTと、MDCTベースのTCX(TCX−LPDモード)とを含む。
次に、幾つかの定義を示す。ビットストリーム要素“fac_gain”は、7ビットのゲインインデックスを記述する。ビットストリーム要素“nq[i]”は、コードブック番号を記述する。シンタックス要素“FAC[i]”は、前方エイリアシング消去データを記述する。変数“fac_length”は、前方エイリアシング消去変換の長さを記述し、タイプ“EIGHT_SHORT_SEQUENCES”の窓関数から及びその窓関数への変換については64であっても良く、その他の場合には128であっても良い。変数“use_gain”は明白なゲイン情報の使用を示す。
以下に、復号化処理について説明する。その目的で、異なるステップについて簡単に説明する。
−LPCフィルタ(8.1章を参照)の符号化のためのツールと同じ代数べクトル量子化(AVQ)ツールを使用して、FAC情報が符号化される。
−i=0...FAC変換長のために、
・コードブック番号nq[i]が修正されたユーナリコードを用いて符号化される。
・対応するFACデータFAC[i]が4*nq[i]ビットで符号化される。
−i=0,...,fac_lengthのためのべクトルFAC[i]が、ビットストリームから抽出される。
−MDCTベースのTCX(wLPC)を用いた遷移のために、対応する“tcx_coding”要素のゲインが使用される。
−その他の遷移のために、ゲイン情報“fac_gain”が(7ビットのスカラー量子化器を用いて符号化された)ビットストリームから回復されている。そのゲイン情報を使用して、ゲインgはg=10fac_gain/28として計算される。
−FAC変換の長さfac_lengthは、デフォルトにより128と等しい。
−短いブロックを用いた遷移については、この長さは64へと低減される。
を適用する(ブロック964)。結果として得られた信号は図10のライン(a)に示す。
−重み付き合成フィルタは、折り返し点に対応するLPCフィルタに基づいている。(図10ではACELPからTCX−LPDへの遷移のためのLPC1、及びwLPD TC(TCX−LPD)からACELPへの遷移のためのLPC2、又はFD TC(周波数コード変換符号化)からACELPへの遷移のためのLPC0として認識されている)。
−同じLPC重み付けファクタが次のACELP操作について使用される。
−FAC合成信号964aを計算するために、重み付き合成フィルタ964の初期メモリが0に設定される。
−ACELPからの遷移については、FAC合成信号1050は、重み付き合成フィルタ(128個のサンプル)のゼロ入力応答(ZIR)1050bを追加することでさらに拡張される。
sine[n+fac_length]*sine[fac_length-1-n], n=-fac_length ... -1,
であり、ZIRに対して適用された窓関数は、
1-sine[n+fac_length]2, n=0... fac_length-1,
であり、ここで、sine[n]はサイン周期の1/4である。
sine[n]=sin(n*π/(2*fac_length)), n=0... 2*fac_length-1.
結果として得られた信号は、図10のライン(c)により表現され、ACELP寄与(信号寄与1060,1062)として示される.
以下に、前方エイリアシング消去に必要な情報の符号化に関する詳細を説明する。特に、エイリアシング消去係数936の計算及び符号化について説明する。
以下に、本発明の理解を促すために、ビットストリームについての詳細を説明する。ここで、ビットストリーム内には、有意な量の構成情報(configuration information)が含まれても良いことに留意すべきである。
これまで装置を説明する文脈で幾つかの態様を示してきたが、これらの態様は対応する方法の説明でもあることは明らかであり、そのブロック又は装置が方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応する装置の対応するブロック又は項目若しくは特徴を表している。方法ステップの幾つか又は全ては、例えばマイクロプロセッサ、プログラム可能なコンピュータ、又は電子回路等のハードウエアにより(を使用して)実行されても良い。幾つかの実施形態においては、最も重要な方法ステップの内の1つ又は複数のステップは、そのような装置によって実行されても良い。
以下に、統一されたスピーチ及びオーディオ符号化(USAC)窓処理とフレーム遷移との統合のための本発明の提案をまとめる。
(1)前方エイリアシング消去(FAC)窓処理;及び
(2)(TCX、TCX−LPD又はwLPTとしても知られる)LPDコアコーデックにおける変換符号化分枝のための周波数ドメインノイズ成形(FDNS)
現状の構成において、本発明が提案する新たな技術は品質の点において譲歩するものではないことを示すため、2つのリスニングテストが行われたことに留意されたい。やがて、本発明に従う実施形態が、以前はサンプルが捨てられた場所におけるビット削減によって品質の向上をもたらすことが期待されている。他の副次効果として、モード遷移が非臨界サンプリングによる悪影響から逃れられるため、符号器における分類器制御の柔軟性を大きく高めることができる。
要約すれば、本明細書では、USACの草案標準の作業中の草案4で使用される現存のスキームと比較して複数の利点を持つ、想定される窓処理と遷移スキームについて説明した。ここで提案された窓処理と遷移スキームは、全ての変換符号化されたフレームにおいて臨界サンプリングを維持し、2の冪でない変換を不要とし、全ての変換符号化されたフレームを適切に整列させる。その提案は2つの新たなツールに基づいている。第1のツールはエイリアシング消去(FAC)であり、非特許文献3に説明されている。第2のツールは周波数ドメインノイズ成形(FDNS)であり、量子化ノイズ成形において不連続を発生させずに同一のドメインにおける周波数ドメインフレーム及びwLPTフレームの処理を可能にする。そのため、USAC内における全てのモード遷移がこれら2つの基本的ツールを用いて処理可能となり、全ての変換符号化されたモードについて調和のとれた窓処理が可能となる。本発明が提案するツールは、USACの草案標準の作業中の草案4に従う参照概念と比較して、同等又はそれ以上の品質を提供するという、主観的なテスト結果も本明細書の中で示された。
Claims (17)
- オーディオコンテンツの符号化済み表現(210;361;901)に基づいて、そのオーディオコンテンツの復号化済み表現(212;399;998)を提供するオーディオ信号復号器(200;360;900)であって、
スペクトル係数の第1セット(220;382;944a)とエイリアシング消去刺激信号の表現(224;936)と複数の線形予測ドメインパラメータ(222;384;950a)とに基づいて、変換ドメインモードで符号化された前記オーディオコンテンツの一部の時間ドメイン表現(212;386;938)を得るための変換ドメイン経路(230;240;250;260;270;280;380;930)を備え、
前記変換ドメイン経路は、
前記線形予測ドメインパラメータの少なくとも1つのサブセットに依存して前記スペクトル係数の第1セット(944a)に対してスペクトル成形を適用し、前記スペクトル係数の第1セットのスペクトル成形済みバージョン(232;380g;945a)を得るスペクトル処理器(230;380e;945)と、
前記スペクトル係数の第1セットのスペクトル成形済みバージョンに基づいて前記オーディオコンテンツの時間ドメイン表現を得るための第1の周波数ドメイン/時間ドメイン変換器(240;380h;946)と、
前記線形予測ドメインパラメータ(222;384;934)の少なくとも1つのサブセットに基づいてエイリアシング消去刺激信号(224;963a)をフィルタ処理し、前記エイリアシング消去刺激信号からエイリアシング消去合成信号(252;964a)を導出するエイリアシング消去刺激フィルタ(250;964)と、
前記オーディオコンテンツの時間ドメイン表現(242;940a)と前記エイリアシング消去合成信号(252;964)又はその後処理済みバージョンとを結合し、エイリアシング低減済み時間ドメイン信号を得るための結合器(260;978)と、を含むことを特徴とするオーディオ信号復号器。 - 請求項1に記載のオーディオ信号復号器において、
前記オーディオ信号復号器は、複数の符号化モードの間で切替可能なマルチモードオーディオ信号復号器であり、
前記変換ドメイン経路(230;240;250;260;270;280;380;930)は、エイリアシング消去・オーバラップ加算操作を許可しないようなオーディオコンテンツの部分を先行部分(1010)として持つオーディオコンテンツの部分(1020)、又はエイリアシング消去・オーバラップ加算操作を許可しないようなオーディオコンテンツの部分を後続部分(1030)として持つオーディオコンテンツの部分(1020)について、前記エイリアシング消去合成信号(252;964a)を選択的に得ることを特徴とする、オーディオ信号復号器。 - 請求項1又は2に記載のオーディオ信号復号器において、
前記オーディオ信号復号器は、変換符号化励起情報(932)及び線形予測ドメインパラメータ情報(934)を使用する変換符号化励起線形予測ドメインモードと、スペクト係数情報(912)及びスケールファクタ情報(914)を使用する周波数ドメインモードとの間で切替を行うものであり、
前記変換ドメイン経路(930)は、前記変換符号化励起情報(932)に基づいてスペクトル係数の第1セット(944a)を得ると共に、前記線形予測ドメインパラメータ情報(934)に基づいて線形予測ドメインパラメータ(950a)を得るものであり、
前記オーディオ信号復号器は、前記スペクトル係数情報(912)によって記述されたスペクトル係数の周波数ドメインモードの1セット(921a)に基づいて、かつ前記スケールファクタ情報(914)によって記述されたスケールファクタ(922)の1セット(922a)に依存して、前記周波数ドメインモードで符号化されたオーディオコンテンツの時間ドメイン表現(918)を得る周波数ドメイン経路(910)を備え、
前記周波数ドメイン経路(910)は、スペクトル係数の周波数ドメインモードの前記セット(921a)又はそのセットの前処理済みバージョンに対してスケールファクタの前記セット(922a)に依存してスペクトル成形を適用し、スペクトル係数のスペクトル的に成形された周波数ドメインモードのセット(923a)を得るスペクトル処理器(923)を含み、
前記周波数ドメイン経路(910)は、前記スペクトル係数のスペクトル的に成形された周波数ドメインモードの前記セット(923a)に基づいて、前記オーディオコンテンツの時間ドメイン表現(924)を得る周波数ドメイン/時間ドメイン変換器(924a)を備え、
前記オーディオコンテンツの2つの連続する部分の時間ドメイン表現であって、その連続する部分のうちの1つが前記変換符号化励起線形予測ドメインモードで符号化されており、他の1つが前記周波数ドメインモードで符号化されているような2つの連続する部分の時間ドメイン表現が、周波数ドメインから時間ドメインへの変換に起因する時間ドメインエイリアシングを消去するための時間的オーバーラップを含むよう構成されていることを特徴とする、オーディオ信号復号器。 - 請求項1乃至3のいずれかに記載のオーディオ信号復号器において、
前記オーディオ信号復号器は、変換符号化励起情報(932)及び線形予測ドメインパラメータ情報(934)を使用する変換符号化励起線形予測ドメインモードと、代数符号励起情報(982)及び線形予測ドメインパラメータ情報(984)を使用する代数符号励起線形予測(ACELP)モードとの間で切替を行うものであり、
前記変換ドメイン経路(930)は、前記変換符号化励起情報(932)に基づいてスペクトル係数の第1セット(944a)を取得し、かつ前記線形予測ドメインパラメータ情報(934)に基づいて線形予測ドメインパラメータ(950a)を取得するよう構成され、
前記オーディオ信号復号器は、前記代数符号励起情報(982)及び前記線形予測ドメインパラメータ情報(984)に基づいて、前記ACELPモードで符号化されたオーディオコンテンツの時間ドメイン表現(986)を取得する、代数符号励起線形予測経路(980)を備え、
前記代数符号励起線形予測経路(980)は、前記代数符号励起情報(982)に基づいて時間ドメイン励起信号(989a)を提供するACELP励起処理器(988,989)と、前記時間ドメイン励起信号(989a)に基づいて、かつ前記線形予測ドメインパラメータ情報(984)に基づいて得られた線形予測ドメインフィルタ係数(990a)に依存して、再構築された信号(991a)を提供するよう前記時間ドメイン励起信号の時間ドメインフィルタ処理を実行する合成フィルタ(991)とを含み、
前記変換ドメイン経路(930)は、前記ACELPモードで符号化されたオーディオコンテンツの一部分に続く、前記変換符号化励起線形予測ドメインモードで符号化されたオーディオコンテンツの一部分と、前記ACELPモードで符号化されたオーディオコンテンツの一部分に先行する、前記変換符号化励起線形予測ドメインモードで符号化されたオーディオコンテンツの一部分とのために、前記エイリアシング消去合成信号(964)を選択的に提供するよう構成されていることを特徴とする、オーディオ信号復号器。 - 請求項4に記載のオーディオ信号復号器において、
前記エイリアシング消去刺激フィルタ(964)は、前記ACELPモードで符号化されたオーディオコンテンツの一部分に続く、前記変換符号化励起線形予測ドメインモードで符号化されたオーディオコンテンツの一部分については、前記第1の周波数ドメイン/時間ドメイン変換器(946)の左側エイリアシング折り返し点に対応する線形予測ドメインフィルタパラメータ(950a;LPC1)に依存して、前記エイリアシング消去刺激信号(963a)をフィルタ処理し、
前記エイリアシング消去刺激フィルタ(964)は、前記ACELPモードで符号化されたオーディオコンテンツの一部分に先行する、前記変換符号化励起線形予測ドメインモードで符号化されたオーディオコンテンツの一部分については、前記第1の周波数ドメイン/時間ドメイン変換器(946)の右側エイリアシング折り返し点に対応する線形予測ドメインフィルタパラメータ(950a;LPC2)に依存して、前記エイリアシング消去刺激信号(963a)をフィルタ処理することを特徴とする、オーディオ信号復号器。 - 請求項4又は5に記載のオーディオ信号復号器において、
前記オーディオ信号復号器は、前記エイリアシング消去合成信号を生成するために前記エイリアシング消去刺激フィルタ(964)のメモリ値をゼロに初期化し、さらに前記エイリアシング消去刺激信号のM個のサンプルを前記エイリアシング消去刺激フィルタ(964)へと供給することで、前記エイリアシング消去合成信号(964a)の対応する非ゼロ入力応答サンプルを取得し、更に前記エイリアシング消去合成信号の複数のゼロ入力応答サンプルを取得するよう構成され、
前記結合器は、前記オーディオコンテンツの時間ドメイン表現(940a)を前記非ゼロ入力応答サンプル及び後続のゼロ入力応答サンプルと結合し、前記ACELPモードで符号化されたオーディオコンテンツの一部分から前記変換符号化励起線形予測ドメインモードで符号化されたオーディオコンテンツの後続部分への遷移において、前記エイリアシング低減済み時間ドメイン信号を取得するよう構成されていることを特徴とする、オーディオ信号復号器。 - 請求項4乃至6のいずれかに記載のオーディオ信号復号器において、
前記オーディオ信号復号器は、少なくとも部分的にエイリアシングを消去するため、前記ACELPモードを使用して得られた時間ドメイン表現の少なくとも一部分の窓処理されかつ折り返されたバージョン(973a;1060)と、前記変換符号化励起線形予測ドメインモードを使用して得られたオーディオコンテンツの後続部分の時間ドメイン表現(940;1050a)とを結合する、ことを特徴とするオーディオ信号復号器。 - 請求項4乃至7のいずれかに記載のオーディオ信号復号器において、
前記オーディオ信号復号器は、少なくとも部分的にエイリアシングを消去するため、前記ACELP経路の前記合成フィルタのゼロ入力応答の窓処理済みバージョン(976a;1062)と、前記変換符号化励起線形予測ドメインモードを使用して得られたオーディオコンテンツの後続部分の時間ドメイン表現(940a;1058)とを結合する、ことを特徴とするオーディオ信号復号器。 - 請求項4乃至8のいずれかに記載のオーディオ信号復号器において、
前記オーディオ信号復号器は、ラップされた周波数ドメイン/時間ドメイン変換が使用される変換符号化励起線形予測ドメインモードと、ラップされた周波数ドメイン/時間ドメイン変換が使用される周波数ドメインモードと、代数符号励起線形予測モードとの間で切替を行うよう構成され、
前記オーディオ信号復号器は、前記変換符号化励起線形予測ドメインモードで符号化されたオーディオコンテンツの一部分と前記周波数ドメインモードで符号化されたオーディオコンテンツの一部分との間の遷移において、オーディオコンテンツの連続するオーバーラップ部分の時間ドメインサンプルの間でオーバーラップ加算操作を実行することにより、少なくとも部分的にエイリアシングを消去するよう構成され、
さらに前記オーディオ信号復号器は、前記変換符号化励起線形予測ドメインモードで符号化されたオーディオコンテンツの一部分と前記代数符号励起線形予測モードで符号化されたオーディオコンテンツの一部分との間の遷移において、前記エイリアシング消去合成信号(964a)を使用して、少なくとも部分的にエイリアシングを消去するよう構成されている、ことを特徴とするオーディオ信号復号器。 - 請求項1乃至9のいずれかに記載のオーディオ信号復号器において、
前記オーディオ信号復号器は、前記変換ドメイン経路(930)の第1の周波数ドメイン/時間ドメイン変換器(946)により提供された時間ドメイン表現(946a)のゲインスケーリング(947)と、前記エイリアシング消去刺激信号(963a)又は前記エイリアシング消去合成信号(964a)のゲインスケーリング(961)とについて、共通のゲイン値(g)を適用する、ことを特徴とするオーディオ信号復号器。 - 請求項1乃至10のいずれかに記載のオーディオ信号復号器において、
前記オーディオ信号復号器は、線形予測ドメインパラメータの少なくとも前記サブセットに依存して実行されるスペクトル成形に加え、スペクトル係数の第1セットの少なくとも1つのサブセットに対してスペクトル逆成形(944)を適用し、
前記オーディオ信号復号器は、前記エイリアシング消去刺激信号(963a)が導出されたエイリアシング消去スペクトル係数のセットの少なくとも1つのサブセットに対しスペクトル逆成形(962)を適用する、ことを特徴とするオーディオ信号復号器。 - 請求項1乃至11のいずれかに記載のオーディオ信号復号器において、
前記オーディオ信号復号器は、前記エイリアシング消去刺激信号を表現するスペクトル係数(960a)のセットに依存して前記エイリアシング消去刺激信号(963a)の時間ドメイン表現を得る、第2の周波数ドメイン/時間ドメイン変換器(963)を備え、
前記第1の周波数ドメイン/時間ドメイン変換器は、時間ドメインエイリアシングを含むラップされた変換を実行するよう構成され、
前記第2の周波数ドメイン/時間ドメイン変換器は、ラップされていない変換を実行するよう構成されている、ことを特徴とするオーディオ信号復号器。 - 請求項1乃至12のいずれかに記載のオーディオ信号復号器において、
前記エイリアシング消去刺激信号のフィルタリングを調整するために使用された同じ線形予測ドメインパラメータに依存して、スペクトル係数の第1セットに対してスペクトル成形を適用するよう構成されている、ことを特徴とするオーディオ信号復号器。 - オーディオコンテンツ110の入力表現(110;810)に基づいて、スペクトル係数の第1セット(112a;852)とエイリアシング消去刺激信号(112c;856)の表現と複数の線形予測ドメインパラメータ(112b;854)とを含むオーディオコンテンツの符号化済み表現(112;812)を提供するオーディオ信号符号器(100;800)であって、
前記オーディオコンテンツの入力表現を処理して前記オーディオコンテンツの周波数ドメイン表現(112;861)を得る時間ドメイン/周波数ドメイン変換器(120;860)と、
線形予測ドメインで符号化されるべきオーディオコンテンツの一部分のための線形予測ドメインパラメータのセット(140;863)に依存して、前記オーディオコンテンツの周波数ドメイン表現又はその前処理済みバージョンに対してスペクトル成形を適用し、前記オーディオコンテンツのスペクトル的に成形された周波数ドメイン表現(132;867)を得るスペクトル処理器(130;866)と、
エイリアシング消去刺激信号の表現(112c;856)を提供するエイリアシング消去情報提供器(150;870;874;875;876)であって、オーディオ信号復号器において前記線形予測ドメインパラメータの少なくとも1つのサブセットに依存して前記エイリアシング消去刺激信号をフィルタ処理することで、エイリアシング・アーチファクトを消去するエイリアシング消去合成信号をもたらすような、エイリアシング消去情報提供器と、
を備えるオーディオ信号符号器。 - オーディオコンテンツの符号化済み表現に基づいて、そのオーディオコンテンツの復号化済み表現を提供する方法であって、
スペクトル係数の第1セットとエイリアシング消去刺激信号の表現と複数の線形予測ドメインパラメータとに基づいて、変換ドメインモードで符号化された前記オーディオコンテンツの一部の時間ドメイン表現を得るステップを含み、
前記線形予測ドメインパラメータの少なくとも1つのサブセットに依存して前記スペクトル係数の第1セットに対するスペクトル成形を適用し、前記スペクトル係数の第1セットのスペクトル成形済みバージョンを取得し、
前記スペクトル係数の第1セットのスペクトル成形済みバージョンに基づいて、周波数ドメインから時間ドメインへの変換を適用し、前記オーディオコンテンツの時間ドメイン表現を取得し、
前記線形予測ドメインパラメータの少なくとも1つのサブセットに基づいて前記エイリアシング消去刺激信号をフィルタ処理し、前記エイリアシング消去刺激信号からエイリアシング消去合成信号を導出し、
前記オーディオコンテンツの時間ドメイン表現と前記エイリアシング消去合成信号又はその後処理済みバージョンとを結合し、エイリアシング低減済み時間ドメイン信号を得る、
ことを特徴とする方法。 - オーディオコンテンツの入力表現に基づいて、スペクトル係数の第1セットとエイリアシング消去刺激信号の表現と複数の線形予測ドメインパラメータとを含むオーディオコンテンツの符号化済み表現を提供する方法であって、
前記オーディオコンテンツの入力表現を処理して前記オーディオコンテンツの周波数ドメイン表現を得る時間ドメイン/周波数ドメイン変換を実行するステップと、
線形予測ドメインで符号化されるべきオーディオコンテンツの一部分のための線形予測ドメインパラメータのセットに依存して、前記オーディオコンテンツの周波数ドメイン表現又はその前処理済みバージョンに対してスペクトル成形を適用し、前記オーディオコンテンツのスペクトル的に成形された周波数ドメイン表現を得るステップと、
オーディオ信号復号器において前記線形予測ドメインパラメータの少なくとも1つのサブセットに依存して前記エイリアシング消去刺激信号をフィルタ処理することで、エイリアシング・アーチファクトを消去するエイリアシング消去合成信号をもたらすような、エイリアシング消去刺激信号の表現を提供するステップと、
を備える方法。 - コンピュータに請求項15又は16に記載の方法を実行させる、コンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US25346809P | 2009-10-20 | 2009-10-20 | |
US61/253,468 | 2009-10-20 | ||
PCT/EP2010/065752 WO2011048117A1 (en) | 2009-10-20 | 2010-10-19 | Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013508765A JP2013508765A (ja) | 2013-03-07 |
JP5247937B2 true JP5247937B2 (ja) | 2013-07-24 |
Family
ID=43447730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012534673A Active JP5247937B2 (ja) | 2009-10-20 | 2010-10-19 | オーディオ信号符号器、オーディオ信号復号器、エイリアシング消去を用いたオーディオ信号の符号化又は復号化方法 |
Country Status (15)
Country | Link |
---|---|
US (1) | US8484038B2 (ja) |
EP (3) | EP2491556B1 (ja) |
JP (1) | JP5247937B2 (ja) |
KR (1) | KR101411759B1 (ja) |
CN (1) | CN102884574B (ja) |
AR (1) | AR078704A1 (ja) |
AU (1) | AU2010309838B2 (ja) |
BR (1) | BR112012009447B1 (ja) |
CA (1) | CA2778382C (ja) |
MX (1) | MX2012004648A (ja) |
MY (1) | MY166169A (ja) |
RU (1) | RU2591011C2 (ja) |
TW (1) | TWI430263B (ja) |
WO (1) | WO2011048117A1 (ja) |
ZA (1) | ZA201203608B (ja) |
Families Citing this family (70)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2515704C2 (ru) * | 2008-07-11 | 2014-05-20 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Аудиокодер и аудиодекодер для кодирования и декодирования отсчетов аудиосигнала |
MX2011000369A (es) * | 2008-07-11 | 2011-07-29 | Ten Forschung Ev Fraunhofer | Codificador y decodificador de audio para codificar marcos de señales de audio muestreadas. |
MX2011000375A (es) * | 2008-07-11 | 2011-05-19 | Fraunhofer Ges Forschung | Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada. |
EP2144230A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
US8457975B2 (en) * | 2009-01-28 | 2013-06-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program |
JP4977157B2 (ja) | 2009-03-06 | 2012-07-18 | 株式会社エヌ・ティ・ティ・ドコモ | 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム |
RU2557455C2 (ru) * | 2009-06-23 | 2015-07-20 | Войсэйдж Корпорейшн | Прямая компенсация наложения спектров во временной области с применением в области взвешенного или исходного сигнала |
MX2012004116A (es) * | 2009-10-08 | 2012-05-22 | Fraunhofer Ges Forschung | Decodificador multimodo para señal de audio, codificador multimodo para señal de audio, metodo y programa de computacion que usan un modelado de ruido en base a linealidad-prediccion-codi ficacion. |
EP3998606B8 (en) * | 2009-10-21 | 2022-12-07 | Dolby International AB | Oversampling in a combined transposer filter bank |
EP2524374B1 (en) * | 2010-01-13 | 2018-10-31 | Voiceage Corporation | Audio decoding with forward time-domain aliasing cancellation using linear-predictive filtering |
CN105355209B (zh) * | 2010-07-02 | 2020-02-14 | 杜比国际公司 | 音高增强后置滤波器 |
MY155997A (en) * | 2010-10-06 | 2015-12-31 | Fraunhofer Ges Forschung | Apparatus and method for processing an audio signal and for providing a higher temporal granularity for a combined unified speech and audio codec (usac) |
US8868432B2 (en) * | 2010-10-15 | 2014-10-21 | Motorola Mobility Llc | Audio signal bandwidth extension in CELP-based speech coder |
ES2639646T3 (es) | 2011-02-14 | 2017-10-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificación y decodificación de posiciones de impulso de pistas de una señal de audio |
SG185519A1 (en) | 2011-02-14 | 2012-12-28 | Fraunhofer Ges Forschung | Information signal representation using lapped transform |
TWI488177B (zh) | 2011-02-14 | 2015-06-11 | Fraunhofer Ges Forschung | 使用頻譜域雜訊整形之基於線性預測的編碼方案 |
MX2013009304A (es) | 2011-02-14 | 2013-10-03 | Fraunhofer Ges Forschung | Aparato y metodo para codificar una porcion de una señal de audio utilizando deteccion de un transiente y resultado de calidad. |
ES2529025T3 (es) * | 2011-02-14 | 2015-02-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y método para procesar una señal de audio decodificada en un dominio espectral |
CA2827000C (en) | 2011-02-14 | 2016-04-05 | Jeremie Lecomte | Apparatus and method for error concealment in low-delay unified speech and audio coding (usac) |
MX2013011131A (es) | 2011-03-28 | 2013-10-30 | Dolby Lab Licensing Corp | Transformada con complejidad reducida para canal de efectos de baja frecuencia. |
AR088059A1 (es) * | 2012-03-19 | 2014-05-07 | Dolby Lab Licensing Corp | Metodo de transformada con complejidad reducida para canal de efectos de baja frecuencia |
JP6126006B2 (ja) * | 2012-05-11 | 2017-05-10 | パナソニック株式会社 | 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法 |
CN111145767B (zh) * | 2012-12-21 | 2023-07-25 | 弗劳恩霍夫应用研究促进协会 | 解码器及用于产生和处理编码频比特流的系统 |
CN105976830B (zh) * | 2013-01-11 | 2019-09-20 | 华为技术有限公司 | 音频信号编码和解码方法、音频信号编码和解码装置 |
CN117392990A (zh) * | 2013-01-29 | 2024-01-12 | 弗劳恩霍夫应用研究促进协会 | 用于码激励线性预测类编码器的无边信息的噪声填充 |
PT3451334T (pt) | 2013-01-29 | 2020-06-29 | Fraunhofer Ges Forschung | Conceito de preenchimento de ruído |
MX346927B (es) | 2013-01-29 | 2017-04-05 | Fraunhofer Ges Forschung | Énfasis de bajas frecuencias para codificación basada en lpc (codificación de predicción lineal) en el dominio de frecuencia. |
US9842598B2 (en) * | 2013-02-21 | 2017-12-12 | Qualcomm Incorporated | Systems and methods for mitigating potential frame instability |
EP2965315B1 (en) * | 2013-03-04 | 2019-04-24 | Voiceage Evs Llc | Device and method for reducing quantization noise in a time-domain decoder |
TWI546799B (zh) * | 2013-04-05 | 2016-08-21 | 杜比國際公司 | 音頻編碼器及解碼器 |
MY169132A (en) * | 2013-06-21 | 2019-02-18 | Fraunhofer Ges Forschung | Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals |
FR3008533A1 (fr) * | 2013-07-12 | 2015-01-16 | Orange | Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences |
EP2830065A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency |
US9418671B2 (en) * | 2013-08-15 | 2016-08-16 | Huawei Technologies Co., Ltd. | Adaptive high-pass post-filter |
CN105556601B (zh) * | 2013-08-23 | 2019-10-11 | 弗劳恩霍夫应用研究促进协会 | 用于使用交叠范围中的组合来处理音频信号的装置及方法 |
FR3011408A1 (fr) * | 2013-09-30 | 2015-04-03 | Orange | Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard |
WO2015071173A1 (en) | 2013-11-13 | 2015-05-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder for encoding an audio signal, audio transmission system and method for determining correction values |
EP2887350B1 (en) | 2013-12-19 | 2016-10-05 | Dolby Laboratories Licensing Corporation | Adaptive quantization noise filtering of decoded audio data |
EP2916319A1 (en) * | 2014-03-07 | 2015-09-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for encoding of information |
JP6035270B2 (ja) * | 2014-03-24 | 2016-11-30 | 株式会社Nttドコモ | 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム |
EP2980791A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions |
EP3000110B1 (en) * | 2014-07-28 | 2016-12-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selection of one of a first encoding algorithm and a second encoding algorithm using harmonics reduction |
EP2980794A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
EP2980796A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for processing an audio signal, audio decoder, and audio encoder |
CN104143335B (zh) | 2014-07-28 | 2017-02-01 | 华为技术有限公司 | 音频编码方法及相关装置 |
EP2980797A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition |
EP2980795A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
FR3024581A1 (fr) | 2014-07-29 | 2016-02-05 | Orange | Determination d'un budget de codage d'une trame de transition lpd/fd |
FR3024582A1 (fr) * | 2014-07-29 | 2016-02-05 | Orange | Gestion de la perte de trame dans un contexte de transition fd/lpd |
EP2988300A1 (en) | 2014-08-18 | 2016-02-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Switching of sampling rates at audio processing devices |
TWI602172B (zh) * | 2014-08-27 | 2017-10-11 | 弗勞恩霍夫爾協會 | 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法 |
AU2015326856B2 (en) * | 2014-10-02 | 2021-04-08 | Dolby International Ab | Decoding method and decoder for dialog enhancement |
WO2016142002A1 (en) * | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
EP3067886A1 (en) * | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
TW202242853A (zh) * | 2015-03-13 | 2022-11-01 | 瑞典商杜比國際公司 | 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流 |
EP3107096A1 (en) | 2015-06-16 | 2016-12-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Downscaled decoding |
WO2017050398A1 (en) * | 2015-09-25 | 2017-03-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding |
WO2017049397A1 (en) * | 2015-09-25 | 2017-03-30 | Voiceage Corporation | Method and system using a long-term correlation difference between left and right channels for time domain down mixing a stereo sound signal into primary and secondary channels |
WO2020094263A1 (en) | 2018-11-05 | 2020-05-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and audio signal processor, for providing a processed audio signal representation, audio decoder, audio encoder, methods and computer programs |
CN111210831B (zh) * | 2018-11-22 | 2024-06-04 | 广州广晟数码技术有限公司 | 基于频谱拉伸的带宽扩展音频编解码方法及装置 |
US10847172B2 (en) * | 2018-12-17 | 2020-11-24 | Microsoft Technology Licensing, Llc | Phase quantization in a speech encoder |
US10957331B2 (en) | 2018-12-17 | 2021-03-23 | Microsoft Technology Licensing, Llc | Phase reconstruction in a speech decoder |
WO2020164753A1 (en) | 2019-02-13 | 2020-08-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder and decoding method selecting an error concealment mode, and encoder and encoding method |
CN117499644A (zh) * | 2019-03-14 | 2024-02-02 | 北京字节跳动网络技术有限公司 | 环路整形信息的信令和语法 |
CN110297357B (zh) | 2019-06-27 | 2021-04-09 | 厦门天马微电子有限公司 | 一种曲面背光模组的制备方法、曲面背光模组及显示装置 |
US11488613B2 (en) * | 2019-11-13 | 2022-11-01 | Electronics And Telecommunications Research Institute | Residual coding method of linear prediction coding coefficient based on collaborative quantization, and computing device for performing the method |
KR20210158108A (ko) | 2020-06-23 | 2021-12-30 | 한국전자통신연구원 | 양자화 잡음을 줄이는 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기 |
KR20220117019A (ko) | 2021-02-16 | 2022-08-23 | 한국전자통신연구원 | 학습 모델을 이용한 오디오 신호의 부호화 및 복호화 방법과 그 학습 모델의 트레이닝 방법 및 이를 수행하는 부호화기 및 복호화기 |
CN115050377A (zh) * | 2021-02-26 | 2022-09-13 | 腾讯科技(深圳)有限公司 | 音频转码方法、装置、音频转码器、设备以及存储介质 |
CN117977635B (zh) * | 2024-03-27 | 2024-06-11 | 西安热工研究院有限公司 | 熔盐耦合火电机组的调频方法、装置、电子设备及介质 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19730130C2 (de) * | 1997-07-14 | 2002-02-28 | Fraunhofer Ges Forschung | Verfahren zum Codieren eines Audiosignals |
CA2388439A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
AU2003208517A1 (en) * | 2003-03-11 | 2004-09-30 | Nokia Corporation | Switching between coding schemes |
RU2316059C2 (ru) * | 2003-05-01 | 2008-01-27 | Нокиа Корпорейшн | Способ и устройство для квантования усиления в широкополосном речевом кодировании с переменной битовой скоростью передачи |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
WO2005096273A1 (fr) * | 2004-04-01 | 2005-10-13 | Beijing Media Works Co., Ltd | Ameliorations apportees a un procede et un dispositif de codage/decodage audio |
JP4977471B2 (ja) * | 2004-11-05 | 2012-07-18 | パナソニック株式会社 | 符号化装置及び符号化方法 |
ES2327566T3 (es) * | 2005-04-28 | 2009-10-30 | Siemens Aktiengesellschaft | Procedimiento y dispositivo para la supresion de ruidos. |
RU2351024C2 (ru) * | 2005-04-28 | 2009-03-27 | Сименс Акциенгезелльшафт | Способ и устройство для подавления шумов |
BRPI0718738B1 (pt) * | 2006-12-12 | 2023-05-16 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Codificador, decodificador e métodos para codificação e decodificação de segmentos de dados representando uma corrente de dados de domínio de tempo |
CN101231850B (zh) * | 2007-01-23 | 2012-02-29 | 华为技术有限公司 | 编解码方法及装置 |
PL2165328T3 (pl) * | 2007-06-11 | 2018-06-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Kodowanie i dekodowanie sygnału audio zawierającego część impulsową i część stacjonarną |
AU2009267518B2 (en) * | 2008-07-11 | 2012-08-16 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme |
KR101622950B1 (ko) * | 2009-01-28 | 2016-05-23 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 그 장치 |
RU2557455C2 (ru) * | 2009-06-23 | 2015-07-20 | Войсэйдж Корпорейшн | Прямая компенсация наложения спектров во временной области с применением в области взвешенного или исходного сигнала |
-
2010
- 2010-10-19 RU RU2012119260/08A patent/RU2591011C2/ru active
- 2010-10-19 CA CA2778382A patent/CA2778382C/en active Active
- 2010-10-19 TW TW099135560A patent/TWI430263B/zh active
- 2010-10-19 MX MX2012004648A patent/MX2012004648A/es active IP Right Grant
- 2010-10-19 BR BR112012009447-5A patent/BR112012009447B1/pt active IP Right Grant
- 2010-10-19 KR KR1020127012548A patent/KR101411759B1/ko active IP Right Grant
- 2010-10-19 EP EP10771705.0A patent/EP2491556B1/en active Active
- 2010-10-19 JP JP2012534673A patent/JP5247937B2/ja active Active
- 2010-10-19 EP EP24160719.1A patent/EP4362014A1/en active Pending
- 2010-10-19 CN CN201080058348.6A patent/CN102884574B/zh active Active
- 2010-10-19 EP EP24160714.2A patent/EP4358082A1/en active Pending
- 2010-10-19 WO PCT/EP2010/065752 patent/WO2011048117A1/en active Application Filing
- 2010-10-19 MY MYPI2012001753A patent/MY166169A/en unknown
- 2010-10-19 AU AU2010309838A patent/AU2010309838B2/en active Active
- 2010-10-20 AR ARP100103831A patent/AR078704A1/es unknown
-
2012
- 2012-04-18 US US13/449,949 patent/US8484038B2/en active Active
- 2012-05-17 ZA ZA2012/03608A patent/ZA201203608B/en unknown
Also Published As
Publication number | Publication date |
---|---|
US8484038B2 (en) | 2013-07-09 |
EP4362014A1 (en) | 2024-05-01 |
US20120271644A1 (en) | 2012-10-25 |
CA2778382C (en) | 2016-01-05 |
BR112012009447B1 (pt) | 2021-10-13 |
JP2013508765A (ja) | 2013-03-07 |
ZA201203608B (en) | 2013-01-30 |
EP2491556B1 (en) | 2024-04-10 |
RU2591011C2 (ru) | 2016-07-10 |
CN102884574B (zh) | 2015-10-14 |
EP2491556A1 (en) | 2012-08-29 |
CA2778382A1 (en) | 2011-04-28 |
AR078704A1 (es) | 2011-11-30 |
KR20120128123A (ko) | 2012-11-26 |
CN102884574A (zh) | 2013-01-16 |
AU2010309838A1 (en) | 2012-05-31 |
WO2011048117A1 (en) | 2011-04-28 |
MX2012004648A (es) | 2012-05-29 |
EP4358082A1 (en) | 2024-04-24 |
TW201129970A (en) | 2011-09-01 |
KR101411759B1 (ko) | 2014-06-25 |
AU2010309838B2 (en) | 2014-05-08 |
EP2491556C0 (en) | 2024-04-10 |
MY166169A (en) | 2018-06-07 |
BR112012009447A2 (pt) | 2020-12-01 |
TWI430263B (zh) | 2014-03-11 |
RU2012119260A (ru) | 2013-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5247937B2 (ja) | オーディオ信号符号器、オーディオ信号復号器、エイリアシング消去を用いたオーディオ信号の符号化又は復号化方法 | |
JP5555707B2 (ja) | マルチ分解能切替型のオーディオ符号化及び復号化スキーム | |
JP6173288B2 (ja) | マルチモードオーディオコーデックおよびそれに適応されるcelp符号化 | |
KR101250309B1 (ko) | 에일리어싱 스위치 기법을 이용하여 오디오 신호를 인코딩/디코딩하는 장치 및 방법 | |
US8447620B2 (en) | Multi-resolution switched audio encoding/decoding scheme | |
US9047859B2 (en) | Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion | |
JPWO2013061584A1 (ja) | 音信号ハイブリッドデコーダ、音信号ハイブリッドエンコーダ、音信号復号方法、及び音信号符号化方法 | |
US9984696B2 (en) | Transition from a transform coding/decoding to a predictive coding/decoding | |
AU2009301358B2 (en) | Multi-resolution switched audio encoding/decoding scheme |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130312 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130409 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5247937 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160419 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |