JP5308519B2 - 改善されたオーディオ符号化のマルチモード方式 - Google Patents
改善されたオーディオ符号化のマルチモード方式 Download PDFInfo
- Publication number
- JP5308519B2 JP5308519B2 JP2011514524A JP2011514524A JP5308519B2 JP 5308519 B2 JP5308519 B2 JP 5308519B2 JP 2011514524 A JP2011514524 A JP 2011514524A JP 2011514524 A JP2011514524 A JP 2011514524A JP 5308519 B2 JP5308519 B2 JP 5308519B2
- Authority
- JP
- Japan
- Prior art keywords
- mode
- output
- input signal
- frequency domain
- domain representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000012545 processing Methods 0.000 claims description 53
- 238000013139 quantization Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 11
- 238000012546 transfer Methods 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 description 23
- 239000013598 vector Substances 0.000 description 17
- 238000001228 spectrum Methods 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
AR auto-regrressive 自己回帰
BWE bandwidth extension 帯域幅拡張
DFT discrete Fourier transform 離散フーリエ変換
GMM Gaussian mixture models 混合正規分布モデル
KLT Karhunen Loeve transform KL変換
MDCT modified descrete cosine transform 修正離散コサイン変換
SBR spectral band replication スペクトル帯域複製
SQ scalar quantizer スカラー量子化器
VQ vector quantizer ベクトル量子化器
図面は、理解しやすいように概略的であり簡略化されたものであり、本発明を理解するのに必須な箇所の詳細のみを示し、その他の詳細は省略する。図中、同一の符号は、同一の部分又は対応する部分に用いるものとする。
ただし、m(*)は最適モード、Dは歪み、m=(1, ..., M)はM個のモードにわたるインデックス、X=(x0, ..., xN-1)は入力信号、Y m,proc=(y0, ..., yN-1)m,procはモードmでの処理出力である。
ただし、m(*)は最適モード、Dは歪み、mはM個のモードのサブセットにわたるインデックス、X=(x0, ..., xN-1)は入力信号、Y m,proc=(y0, ..., yN-1)m,procはモードmでの処理出力である。
ただし、Nは入力信号における係数の数、
全ての1≦n<Nに対して、x0 *=|x0|及びxn *=(1−αn)|xn|+αnx* n-1,
全ての1≦n<Nに対して、y0 *=|y0|及びyn *=(1−αn)|yn|+αny* n-1 である。
ただし、Nは入力信号における係数の数、Iは0〜N-1の整数の部分集合、NIはIにおける要素数、
全ての1≦n<Nに対して、x0 *=|x0|及びxn *=(1−αn)|xn|+αnx* n-1,
全ての1≦n<Nに対して、y0 *=|y0|及びyn *=(1−αn)|yn|+αny* n-1 である。
ただし、Nは入力信号における係数の数、すなわちベクトルの次元であり、
全ての1≦n<Nに対して、x0 *=|x0|及びxn *=(1−αn)|xn|+αnx* n-1,
全ての1≦n<Nに対して、y0 *=|y0|及びyn *=(1−αn)|yn|+αny* n-1、
である。
ただし、Nは入力信号における係数の数、すなわちベクトルの次元数、
全ての1≦n<Nに対して、x0 *=|x0|及びxn *=(1−αn)|xn|+αnx* n-1,
全ての1≦n<Nに対して、y0 *=|y0|及びyn *=(1−αn)|yn|+αny* n-1、
である。
Claims (11)
- 符号化システムにおいて入力信号を符号化するための方法であって、
前記入力信号の周波数領域表現のうち第1モードを特徴付ける量子化閾値までの第1の部分を量子化することにより、前記入力信号の周波数領域表現(X)に前記第1モードを適用して第1の出力(Y 1)を形成するステップ(102)と、
前記入力信号の周波数領域表現のうち第2モードを特徴付ける量子化閾値までの第2の部分を量子化することにより、前記入力信号の周波数領域表現(X)に前記第2モードを適用して第2の出力(Y 2)を形成するステップ(104)と、
前記第1の出力(Y 1)の少なくとも一部から第1の処理出力(Y 1,proc)を形成するとともに、前記第2の出力(Y 2)の少なくとも一部から第2の処理出力(Y 2,proc)を形成するステップ(105)であって、前記第2の処理出力を形成するステップは、帯域幅拡張を用いて、前記入力信号の周波数領域表現のうち前記第2モードを特徴付ける量子化閾値を超える部分を再構成することにより、前記第2の出力(Y 2)の少なくとも一部から前記入力信号の周波数領域表現の一部を推定するステップを含むステップ(105)と、
前記第1の処理出力(Y 1,proc)及び前記第2の処理出力(Y 2,proc)に基づいて、かつ、前記入力信号の周波数領域表現と前記第1及び第2の処理出力とから算出される選択基準に基づいて、最適モードを判定するステップ(106)と、
前記最適モードに従って前記出力(Y 1、Y 2)を選択するステップ(108)と、
を有し、
m(*)を最適モード、Dを歪み、m=(1, ..., M)をM個のモードにわたるインデックス、X=(x0, ..., xN-1)を前記入力信号の周波数領域表現、Y m,proc=(y0, ..., yN-1)m,procをモードmでの前記処理出力とするとき、前記選択基準は、
で与えられる最小化問題として定義されることを特徴とする方法。 - 前記入力信号の周波数領域表現にM個(M>2)のモードを適用してM個の出力を形成することを特徴とする請求項1に記載の方法。
- 前記歪みDは、少なくとも1つのモードに対して推定されることを特徴とする請求項1乃至4のいずれか1項に記載の方法。
- 前記最適モードに関する情報を送信するステップを更に有することを特徴とする請求項1乃至5のいずれか1項に記載の方法。
- コントローラ(4、4’)と、該コントローラ(4、4’)に接続された符号化部(6、6’)とを有する符号化装置(2、2’、2”)であって、
前記符号化部は、前記入力信号の周波数領域表現のうち第1モードを特徴付ける量子化閾値までの第1の部分を量子化することにより、前記入力信号の周波数領域表現(X)に前記第1モードを適用して第1の出力(Y 1)を形成するとともに、前記入力信号の周波数領域表現のうち第2モードを特徴付ける量子化閾値までの第2の部分を量子化することにより、前記入力信号の周波数領域表現(X)に前記第2モードを適用して第2の出力(Y 2)を形成するように構成され、
前記コントローラ(4、4’)は、前記第1の出力(Y 1)の少なくとも一部から第1の処理出力(Y 1,proc)を形成するとともに、前記第2の出力(Y 2)の少なくとも一部から第2の処理出力(Y 2,proc)を形成するように構成され、該第2の処理出力を形成する処理は、帯域幅拡張を用いて、前記入力信号の周波数領域表現のうち前記第2モードを特徴付ける量子化閾値を超える部分を再構成することにより、前記第2の出力(Y 2)の少なくとも一部から前記入力信号の周波数領域表現の一部を推定する処理と、前記第1の処理出力及び前記第2の処理出力に基づいて、かつ、前記入力信号の周波数領域表現と前記第1及び第2の処理出力とから算出される選択基準に基づいて、最適モードを判定する処理と、前記最適モードに従って前記出力(Y 1、Y 2)を選択する処理とを含み、
m(*)を最適モード、Dを歪み、m=(1, ..., M)をM個のモードにわたるインデックス、X=(x0, ..., xN-1)を前記入力信号の周波数領域表現、Y m,proc=(y0, ..., yN-1)m,procをモードmでの前記処理出力とするとき、前記選択基準は、
で与えられる最小化問題として定義されることを特徴とする符号化装置。 - 前記符号化部(6)は、前記第1モード及び前記第2モードを順番に適用し、前記第1の出力及び前記第2の出力を第1の接続(10)を介して前記コントローラ(4、4’)にシリアルに転送するように構成されるエンコーダ(22)を含むことを特徴とする請求項7に記載の符号化装置。
- 前記符号化部(6)は、第1のエンコーダ(28)と、第2のエンコーダ(30)とを含み、前記第1のエンコーダは、前記第1モードを適用して前記第1の出力を第1の接続を介して前記コントローラに転送するように構成され、前記第2のエンコーダは、前記第2モードを適用して前記第2の出力を第2の接続を介して前記コントローラに転送するように構成されることを特徴とする請求項7に記載の符号化装置。
- 前記コントローラ(4、4’)は、それぞれ前記第1モード及び前記第2モードに従って前記第1の処理出力及び前記第2の処理出力を形成するように構成された少なくとも1つのデコーダと、前記入力信号の周波数領域表現並びに前記第1の処理出力及び前記第2の処理出力から算出された選択基準に基づいて前記最適モードを判定するように構成されたプロセッサと、を含むことを特徴とする請求項7乃至9のいずれか1項に記載の符号化装置。
- 請求項7乃至10のいずれか1項に記載の符号化装置を含む符号化システム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/SE2008/050758 WO2009157824A1 (en) | 2008-06-24 | 2008-06-24 | Multi-mode scheme for improved coding of audio |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011525636A JP2011525636A (ja) | 2011-09-22 |
JP5308519B2 true JP5308519B2 (ja) | 2013-10-09 |
Family
ID=41444744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011514524A Expired - Fee Related JP5308519B2 (ja) | 2008-06-24 | 2008-06-24 | 改善されたオーディオ符号化のマルチモード方式 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8494864B2 (ja) |
EP (1) | EP2313885B1 (ja) |
JP (1) | JP5308519B2 (ja) |
ES (1) | ES2406422T3 (ja) |
WO (1) | WO2009157824A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101441897B1 (ko) * | 2008-01-31 | 2014-09-23 | 삼성전자주식회사 | 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치 |
AU2014211586B2 (en) | 2013-01-29 | 2017-02-16 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for coding mode switching compensation |
EP3550562B1 (en) * | 2013-02-22 | 2020-10-28 | Telefonaktiebolaget LM Ericsson (publ) | Methods and apparatuses for dtx hangover in audio coding |
US9741349B2 (en) * | 2014-03-14 | 2017-08-22 | Telefonaktiebolaget L M Ericsson (Publ) | Audio coding method and apparatus |
CN105719660B (zh) * | 2016-01-21 | 2019-08-20 | 宁波大学 | 一种基于量化特性的语音篡改定位检测方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5651090A (en) * | 1994-05-06 | 1997-07-22 | Nippon Telegraph And Telephone Corporation | Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor |
FR2852172A1 (fr) * | 2003-03-04 | 2004-09-10 | France Telecom | Procede et dispositif de reconstruction spectrale d'un signal audio |
CN101124626B (zh) * | 2004-09-17 | 2011-07-06 | 皇家飞利浦电子股份有限公司 | 用于最小化感知失真的组合音频编码 |
CN101053018A (zh) * | 2004-11-01 | 2007-10-10 | 皇家飞利浦电子股份有限公司 | 包括幅度包络的参数音频编码 |
WO2007043642A1 (ja) * | 2005-10-14 | 2007-04-19 | Matsushita Electric Industrial Co., Ltd. | スケーラブル符号化装置、スケーラブル復号装置、およびこれらの方法 |
US20070192086A1 (en) * | 2006-02-13 | 2007-08-16 | Linfeng Guo | Perceptual quality based automatic parameter selection for data compression |
-
2008
- 2008-06-24 EP EP08767224A patent/EP2313885B1/en active Active
- 2008-06-24 JP JP2011514524A patent/JP5308519B2/ja not_active Expired - Fee Related
- 2008-06-24 US US12/996,959 patent/US8494864B2/en active Active
- 2008-06-24 ES ES08767224T patent/ES2406422T3/es active Active
- 2008-06-24 WO PCT/SE2008/050758 patent/WO2009157824A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
ES2406422T3 (es) | 2013-06-06 |
EP2313885A1 (en) | 2011-04-27 |
WO2009157824A1 (en) | 2009-12-30 |
JP2011525636A (ja) | 2011-09-22 |
EP2313885A4 (en) | 2011-12-14 |
US8494864B2 (en) | 2013-07-23 |
US20110153336A1 (en) | 2011-06-23 |
EP2313885B1 (en) | 2013-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11990147B2 (en) | Adaptive transition frequency between noise fill and bandwidth extension | |
US10311884B2 (en) | Advanced quantizer | |
JP6321072B2 (ja) | オーディオ/音声符号化方法およびオーディオ/音声復号方法 | |
US12027175B2 (en) | Transform encoding/decoding of harmonic audio signals | |
US9728195B2 (en) | Noise signal processing method, noise signal generation method, encoder, decoder, and encoding and decoding system | |
JP5308519B2 (ja) | 改善されたオーディオ符号化のマルチモード方式 | |
RU2505921C2 (ru) | Способ и устройство кодирования и декодирования аудиосигналов (варианты) | |
EP2727105A1 (en) | Transform audio codec and methods for encoding and decoding a time segment of an audio signal | |
CN101853664B (zh) | 一种信号去噪的方法和装置及音频解码系统 | |
EP2581904B1 (en) | Audio (de)coding apparatus and method | |
KR101387808B1 (ko) | 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치 | |
EP2309493A1 (en) | Coding and decoding of source signals using constrained relative entropy quantization | |
CN102074243A (zh) | 一种基于比特平面的感知音频分级编码系统及方法 | |
JP4796583B2 (ja) | 量子化雑音を低減する方法 | |
Madhukumar et al. | A novel method for wavelet quantization of noisy speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120730 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121025 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130312 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130523 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130614 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130628 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5308519 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |