JP2016526695A - 分配量子化及び符号化を使用した累積和表現のモデル化によるオーディオ信号包絡符号化、処理及び復号化の装置と方法 - Google Patents

分配量子化及び符号化を使用した累積和表現のモデル化によるオーディオ信号包絡符号化、処理及び復号化の装置と方法 Download PDF

Info

Publication number
JP2016526695A
JP2016526695A JP2016518979A JP2016518979A JP2016526695A JP 2016526695 A JP2016526695 A JP 2016526695A JP 2016518979 A JP2016518979 A JP 2016518979A JP 2016518979 A JP2016518979 A JP 2016518979A JP 2016526695 A JP2016526695 A JP 2016526695A
Authority
JP
Japan
Prior art keywords
value
envelope
signal envelope
argument
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016518979A
Other languages
English (en)
Other versions
JP6224827B2 (ja
Inventor
ベックストローム,トム
シューベルト,ベンヤミン
ムルトルス,マルクス
デッシュ,サッシャ
シュミット,コンスタンチン
ピートルチック,グルツェゴルツ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of JP2016526695A publication Critical patent/JP2016526695A/ja
Application granted granted Critical
Publication of JP6224827B2 publication Critical patent/JP6224827B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

1つ以上の符号化値からオーディオ信号包絡を生成する装置であって、この装置は、1つ以上の符号化値を受信する入力インターフェース(1610)と、1つ以上の符号化値に依存してオーディオ信号包絡を生成する包絡生成部(1620)とを含む。包絡生成部(1620)は1つ以上の符号化値に依存して集計関数を生成し、集計関数は複数の集計点を含み、集計点の各々は引数値と集計値とを含み、集計関数は単調増加し、1つ以上の符号化値の各々は集計関数の集計点の1つの引数値及び集計値の少なくとも1つを示す。包絡生成部(1620)はオーディオ信号包絡が複数の包絡点を含むようにオーディオ信号包絡を生成し、包絡点の各々が引数値と包絡値とを含み、包絡点の引数値が集計点の引数値と等しくなるようにオーディオ信号包絡の包絡点が集計関数の集計点の各々に割り当てられる。包絡生成部(1620)は、オーディオ信号包絡の包絡点の各々の包絡値が集計関数の少なくとも1つの集計点の集計値に依存するようにオーディオ信号包絡を生成する。【選択図】 図16

Description

本発明はオーディオ信号包絡符号化、処理及び復号化の装置及び方法に関し、特に、分配量子化(distribution quantization)及び符号化を使用したオーディオ信号包絡符号化、処理ならびに復号化の装置と方法に関する。
線形予測符号化(LPC)は、スピーチコーデックにおいてコア帯域幅のスペクトル包絡をモデル化するための伝統的なツールである。LPCモデルを量子化する際の最も一般的なドメインは線スペクトル周波数(LSF)ドメインである。それはLPC多項式を、根が単位円上にある2つの多項式へと分解することに基づいており、それら根が角度又は周波数だけで記述される得る。
[1] Makhoul, John. "Linear prediction: A tutorial review." Proceedings of the IEEE 63.4 (1975): 561-580. [2] Soong, Frank, and B. Juang. "Line spectrum pair (LSP) and speech data compression." Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP'84.. Vol. 9. IEEE, 1984. [3] Pan, Davis. "A tutorial on MPEG/Audio compression." Multimedia, IEEE 2.2 (1995): 60-74. [4] M. Neuendorf, P. Gournay, M. Multrus, J. Lecomte, B. Bessette, R. Geiger, S. Bayer, G. Fuchs, J. Hilpert, N. Rettelbach, R. Salami, G. Schuller, R. Lefebvre, B. Grill. "Unified speech and audio coding scheme for high quality at low bitrates". In Acoustics, Speech and Signal Processing, 2009. ICASSP 2009. IEEE International Conference on (pp. 1-4). IEEE. April, 2009. [5] Kuntz, A., Disch, S., Baeckstrom, T., & Robilliard, J. "The Transient Steering Decorrelator Tool in the Upcoming MPEG Unified Speech and Audio Coding Standard". In Audio Engineering Society Convention 131, October 2011. [6] Herre, Juergen, and James D. Johnston. "Enhancing the performance of perceptual audio coders by using temporal noise shaping (TNS)." Audio Engineering Society Convention 101. 1996.
本発明の目的は、オーディオ信号包絡符号化及び復号化のための改善された概念を提供することである。請求項1に記載の装置と、請求項9に記載の装置と、請求項15に記載の方法と、請求項16に記載の方法と、請求項17に記載のコンピュータプログラムとによって達成される。
1つ以上の符号化値からオーディオ信号包絡を生成する装置が提供される。この装置は、1つ以上の符号化値を受信する入力インターフェースと、1つ以上の符号化値(coding value)に依存してオーディオ信号包絡を生成する包絡生成部と、を含む。包絡生成部は、1つ以上の符号化値に依存して集計関数(aggregation function)を生成するよう構成され、集計関数は複数の集計点(aggregation points)を含み、集計点の各々は引数値(argument values)と集計値(aggregated value)とを含み、集計関数は単調増加し、1つ以上の符号化値の各々は、集計関数の集計点の1つの引数値及び集計値の少なくとも1つを示す。更に、包絡生成部は、オーディオ信号包絡が複数の包絡点(envelope point)を含むようにオーディオ信号包絡を生成するよう構成されており、その場合、包絡点の各々が引数値と包絡値(envelope value)とを含み、包絡点の引数値が集計点の引数値と等しくなるように、オーディオ信号包絡の1つの包絡点が集計関数の集計点の各々に対して割り当てられる。更に、包絡生成部は、オーディオ信号包絡の包絡点の各々の包絡値が集計関数の少なくとも1つの集計点の集計値に依存するように、オーディオ信号包絡を生成するよう構成されている。
一実施形態によれば、包絡生成部は、例えば1つ以上の符号化値の各々について、集計点の1つを前記符号化値に依存して決定することにより、かつ1つ以上の符号化値の各々の集計点に依存して集計関数を得るために補間を適用することにより、集計関数を決定するよう構成されてもよい。
一実施形態において、包絡生成部は、例えば集計関数の複数の集計点において、集計関数の一次導関数(first derivate)を決定するよう構成されてもよい。
一実施形態によれば、包絡生成部は、例えば集計関数が連続的な一次導関数(first derivative)を持つように、符号化値に依存して集計関数を生成するよう構成されてもよい。
一実施形態において、包絡生成部は、例えば次式を適用することでオーディオ信号包絡を決定するよう構成されてもよい。
[数1]
Figure 2016526695
ここで、tilt(k)はk番目の符号化値における集計信号包絡の導関数を示し、c(k)は集計関数のk番目の集計点の集計値であり、f(k)は集計関数のk番目の集計点の引数値である。
一実施形態によれば、入力インターフェースは、1つ以上の分割値を1つ以上の符号化値として受信するよう構成されてもよい。包絡生成部は、1つ以上の分割値に依存して集計関数を生成するよう構成されてもよく、1つ以上の分割値の各々は集計関数の集計点の1つの集計値を示す。更に、包絡生成部は、1つ以上の分割点が、再生オーディオ信号包絡を2つ以上のオーディオ信号包絡部分へと分割するように、再生オーディオ信号包絡を生成するよう構成されてもよく、予め定義された割当規則が、前記信号包絡部分に依存して、2つ以上の信号包絡部分の各信号包絡部分についての信号包絡部分値を定義している。更に、包絡生成部は、2つ以上の信号包絡部分の各々について、その信号包絡部分値の絶対値が他の信号包絡部分の各々の信号包絡部分値の絶対値の半分よりも大きくなるように、再生オーディオ信号包絡を生成するよう構成されてもよい。
オーディオ信号包絡を符号化するための1つ以上の符号化値を決定する装置が提供される。この装置は、複数の引数値の各々について集計値を決定するための集計部(aggregator)を含み、複数の引数値は、それら複数の引数値の第1引数値とそれら複数の引数値の第2引数値とが異なるとき、前記第1引数値が前記第2引数値に先行又は後続するように順序付けられており、引数値の各々に対してある包絡値が割り当てられ、引数値の各々の包絡値はオーディオ信号包絡に依存し、集計部は、複数の引数値の各引数値のための集計値を、前記引数値の包絡値に依存し、かつ前記引数値に先行する複数の引数値の各々の包絡値に依存して、決定するよう構成されている。さらに、この装置は、複数の引数値の1つ以上の集計値に依存して1つ以上の符号化値を決定する符号化ユニットを含む。
一実施形態に従えば、集計部は、例えば複数の引数値の各引数値についての集計値を、その引数値の包絡値とその引数値に先行する引数値の包絡値とを加算することで、決定するよう構成されてもよい。
一実施形態において、引数値の各々の包絡値は、例えばオーディオ信号包絡を信号包絡として有する、オーディオ信号包絡のエネルギー値を示してもよい。
一実施形態に従えば、引数値の各々の包絡値は、例えばオーディオ信号包絡を信号包絡として有する、オーディオ信号包絡のスペクトル値のn乗(n-th power)を示してもよく、ここで、nはゼロよりも大きい整数の偶数である。
一実施形態において、引数値の各々の包絡値は、例えば時間ドメインで表現されかつオーディオ信号包絡を信号包絡として有する、オーディオ信号包絡の振幅値のn乗を示してもよく、ここで、nはゼロよりも大きい整数の偶数である。
一実施形態によれば、符号化ユニットは、例えば引数値の1つ以上の集計値に依存し、かつ1つ以上の符号化値として何個の値が符号化ユニットによって決定されるべきかを示す符号化値の数(coding values number)に依存して、1つ以上の符号化値を決定するよう構成されてもよい。
一実施形態において、符号化ユニットは、例えば前記1つ以上の符号化値を次式に従って決定してもよく、
[数2]
Figure 2016526695
ここで、c(k)は符号化ユニットによって決定されるべきk番目の符号化値を示し、jは複数の引数値のj番目の引数値を示し、a(j)はそのj番目の引数値に割り当てられた集計値を示し、max(a)は引数値のうちの1つに割り当てられた集計値のうちの1つである最大値であり、引数値のうちの1つに割り当てられた集計値はいずれも前記最大値を上回らず、
[数11]
Figure 2016526695
は、
[数12]
Figure 2016526695
が最小となる、前記引数値のうちの1つである最小値を示す。
さらに、1つ以上の符号化値からオーディオ信号包絡を生成する方法が提供される。この方法は、
−1つ以上の符号化値を受信するステップと、
−1つ以上の符号化値に依存してオーディオ信号包絡を生成するステップと、
を含む。
オーディオ信号包絡を生成するステップは、1つ以上の符号化値に依存して集計関数を生成することにより実行され、その集計関数は複数の集計点を含み、それら集計点の各々は引数値と集計値とを含み、集計関数は単調に増大するものであり、1つ以上の符号化値の各々は、集計関数の集計点のうちの1つの引数値及び集計値の少なくとも1つを示す。更に、オーディオ信号包絡を生成するステップは、オーディオ信号包絡が複数の包絡点を含むように実行され、包絡点の各々が引数値と包絡値とを含み、前記包絡点の引数値が前記集計点の引数値と等しくなるように、オーディオ信号包絡の1つの包絡点が集計関数の集計点の各々に割り当てられる。更に、オーディオ信号包絡を生成するステップは、オーディオ信号包絡の包絡点の各々の包絡値が集計関数の少なくとも1つの集計点の集計値に依存するように、実行される。
さらに、オーディオ信号包絡を符号化するための1つ以上の符号化値を決定する方法が提供される。この方法は、
−複数の引数値の各々について集計値を決定するステップであって、複数の引数値は、それら複数の引数値の第1引数値とそれら複数の引数値の第2引数値とが異なるとき、前記第1引数値が前記第2引数値に先行又は後続するように、順序付けられており、引数値の各々に対して1つの包絡値が割り当てられ、引数値の各々の包絡値はオーディオ信号包絡に依存しており、集計部は、前記引数値の包絡値に依存し、かつ前記引数値に先行する複数の引数値の各々の包絡値に依存して、複数の引数値の各引数値についての集計値を決定するステップと、
−複数の引数値の1つ以上の集計値に依存して1つ以上の符号化値を決定するステップと、
を含む。
更に、コンピュータ又は信号プロセッサ上で作動されたとき、上述した方法の1つを実行するためのコンピュータプログラムが提供される。
再生オーディオ信号包絡を得るために復号化する装置が提供される。この装置は、再生オーディオ信号包絡を1つ以上の分割点に依存して生成する信号包絡再生部と、再生オーディオ信号包絡を出力する出力インターフェースと、を含む。信号包絡再生部は、1つ以上の分割点が再生オーディオ信号包絡を2つ以上のオーディオ信号包絡部分へと分割するように、再生オーディオ信号包絡を生成するよう構成されており、予め定義された割当規則が、2つ以上の信号包絡部分の各信号包絡部分についての信号包絡部分値を前記信号包絡部分に依存して定義している。さらに、信号包絡再生部は、2つ以上の信号包絡部分の各々について、その信号包絡部分値の絶対値が他の信号包絡部分の各々の信号包絡部分値の絶対値の半分よりも大きくなるように、再生オーディオ信号包絡を生成するよう構成されている。
一実施形態によれば、信号包絡再生部は、例えば2つ以上の信号包絡部分の各々について、その信号包絡部分値の絶対値が他の信号包絡部分の各々の信号包絡部分値の絶対値の90%よりも大きくなるように、再生オーディオ信号包絡を生成するよう構成されている。
一実施形態において、信号包絡再生部は、例えば2つ以上の信号包絡部分の各々について、その信号包絡部分値の絶対値が他の信号包絡部分の各々の信号包絡部分値の絶対値の99%よりも大きくなるように、再生オーディオ信号包絡を生成するよう構成されてもよい。
他の実施形態において、信号包絡再生部110は、例えば2つ以上の信号包絡部分の各々の信号包絡部分値がそれら2つ以上の信号包絡部分の他の信号包絡部分の各々の信号包絡部分値と等しくなるように、再生オーディオ信号包絡を生成するよう構成されてもよい。
一実施形態によれば、2つ以上の信号包絡部分の各信号包絡部分の信号包絡部分値は、例えば前記信号包絡部分の1つ以上のエネルギー値、又は1つ以上のパワー値に依存してもよい。又は、2つ以上の信号包絡部分の各信号包絡部分の信号包絡部分値は、オーディオ信号包絡のオリジナルレベル又は目標レベルを再生するために適切な他の如何なる値に依存してもよい。
包絡のスケーリングは、種々の方法で実行されてもよい。特に、そのスケーリングは信号エネルギー、スペクトルマス(spectral mass)若しくは類似の値(絶対サイズ)に対応することができ、又は、スケーリングファクタ若しくはゲインファクタ(相対サイズ)でもあり得る。従って、包絡のスケーリングは、絶対値又は相対値として符号化されることができ、又は、先行値もしくは先行値の組合せに対する差によって符号化されることができる。幾つかの場合、スケーリングはまた、他の使用可能なデータから独立していてもよく、又はそのデータから導出されてもよい。包絡はそのオリジナルレベル又は目標レベルへと再生されるべきである。従って、一般的に、信号包絡部分値は、オーディオ信号包絡のオリジナルレベル又は目標レベルを再生するために適切な任意の値に依存する。
一実施形態において、この装置は、ある復号化規則に従って1つ以上の符号化された点を復号化して1つ以上の分割点の各々の位置を取得する、分割点復号器を更に含む。分割点復号器は、可能な分割点位置の全体数を示す全体位置数と、1つ以上の分割点の数を示す分割点数と、分割点状態数とを分析するよう構成されてもよい。更に、分割点復号器は、例えば全体位置数と分割点数と分割点状態数とを使用して、1つ以上の分割点の各々の位置の指示を生成するよう構成されてもよい。
一実施形態によれば、信号包絡再生部は、例えば再生オーディオ信号包絡の全体エネルギーを示す全体エネルギー値に依存して、又はオーディオ信号包絡のオリジナル若しくは目標レベルを再生するのに適切な他の如何なる値にも依存して、再生オーディオ信号包絡を生成するよう構成されてもよい。
更に、再生オーディオ信号包絡を得るために復号化する、他の実施形態に係る装置が提供される。この装置は、再生オーディオ信号包絡を1つ以上の分割点に依存して生成する信号包絡再生部と、再生オーディオ信号包絡を出力する出力インターフェースと、を含む。信号包絡再生部は、1つ以上の分割点が再生オーディオ信号包絡を2つ以上のオーディオ信号包絡部分へと分割するように、再生オーディオ信号包絡を生成するよう構成されており、予め定義された割当規則が、2つ以上の信号包絡部分の各信号包絡部分についての信号包絡部分値を前記信号包絡部分に依存して定義している。所定の包絡部分値が2つ以上の信号包絡部分の各々に対して割り当てられる。信号包絡再生部は、2つ以上の信号包絡部分の各信号包絡部分について、前記信号包絡部分の信号包絡部分値の絶対値が前記信号包絡部分に割り当てられた所定の包絡部分値の絶対値の90%よりも大きくなるように、かつ前記信号包絡部分の信号包絡部分値の絶対値が前記信号包絡部分に割り当てられた所定の包絡部分値の絶対値の110%よりも小さくなるように、再生オーディオ信号包絡を生成するよう構成されている。
一実施形態において、信号包絡再生部は、2つ以上の信号包絡部分の各々の信号包絡部分値が前記信号包絡部分に割り当てられた所定の包絡部分値と等しくなるように、再生オーディオ信号包絡を生成するよう構成されている。
一実施形態において、信号包絡部分の少なくとも2つの所定の包絡部分値は互いに異なっている。
他の実施形態において、信号包絡部分の各々の所定の包絡部分値は他の信号包絡部分の各々の所定の包絡部分値と異なっている。
更に、オーディオ信号を再生する装置が提供される。この装置は、オーディオ信号の再生オーディオ信号包絡を得るために、上述の実施形態の1つに従って復号化する装置と、オーディオ信号のオーディオ信号包絡に依存しかつオーディオ信号の更なる信号特性に依存して、オーディオ信号を生成する信号生成部と、を含み、その更なる信号特性はオーディオ信号包絡とは異なるものである。
更に、オーディオ信号包絡を符号化する装置が提供される。この装置は、オーディオ信号包絡を受信するオーディオ信号包絡インターフェースと、予め定義された割当規則に依存して、少なくとも2つの分割点構成の各々のために、2つ以上のオーディオ信号包絡部分の少なくとも1つのオーディオ信号包絡部分についての信号包絡部分値を決定する分割点決定部と、を含む。少なくとも2つの分割点構成の各々は1つ以上の分割点を含み、その2つ以上の分割点構成の各々の1つ以上の分割点は、オーディオ信号包絡を2つ以上のオーディオ信号包絡部分へと分割する。分割点決定部は、少なくとも2つの分割点構成の1つの1つ以上の分割点を、オーディオ信号包絡を符号化するための1つ以上の選択された分割点として選択するよう構成されており、その分割点決定部は、少なくとも2つの分割点構成の各々の2つ以上のオーディオ信号包絡部分の少なくとも1つのオーディオ信号包絡部分の各々の信号包絡部分値に依存して、1つ以上の分割点を選択するよう構成されている。
一実施形態によれば、2つ以上の信号包絡部分の各信号包絡部分の信号包絡部分値は、例えば前記信号包絡部分の1つ以上のエネルギー値又は1つ以上のパワー値に依存してもよい。あるいは、2つ以上の信号包絡部分の各信号包絡部分の信号包絡部分値は、オーディオ信号包絡のオリジナルレベル又は目標レベルを再生するために適切な他の任意の値に依存する。
上述したように、包絡のスケーリングは様々な方法で実行され得る。特に、包絡のスケーリングは、信号エネルギー若しくはスペクトルマス又は類似の値(絶対サイズ)に対応することができ、又は、それはスケーリング若しくはゲインのファクタ(相対サイズ)であり得る。従って、包絡のスケーリングは、絶対値又は相対値として符号化されることができ、又はそれは、先行値もしくは先行値の組合せに対する差によって符号化されることができる。幾つかの場合、スケーリングはまた、他の使用可能なデータから独立していてもよく、又はそこから導出されてもよい。包絡はそのオリジナルレベル又は目標レベルへと再生されるべきである。従って、一般的に信号包絡部分値は、オーディオ信号包絡のオリジナルレベル又は目標レベルを再生するための適切な任意の値に依存する。
一実施形態において、この装置は、例えば1つ以上の符号化された点を得るために、1つ以上の分割点の各々の位置を符号化する分割点符号器を更に含んでもよい。その分割点符号器は、例えば分割点状態数を符号化することにより、1つ以上の分割点の各々の位置を符号化するよう構成されてもよい。更に、分割点符号器は、例えば可能な分割点位置の全体数を示す全体位置数と、1つ以上の分割点の数を示す分割点数とを提供するよう構成されてもよい。分割点状態数と全体位置数と分割点数とは共に、1つ以上の分割点の各々の位置を示す。
一実施形態によれば、この装置は、例えばオーディオ信号包絡の全体エネルギーを決定し、かつオーディオ信号包絡のその全体エネルギーを符号化するためのエネルギー決定部を更に含んでもよい。あるいは、この装置は、例えばオーディオ信号包絡のオリジナルレベル又は目標レベルを再生するのに適した他の任意の値を決定するようさらに構成されてもよい。
更に、オーディオ信号を符号化する装置が提供される。この装置は、オーディオ信号のオーディオ信号包絡を符号化するための上述した実施形態の1つに従って符号化する装置と、オーディオ信号の更なる信号特性を符号化するための二次的信号特性符号器とを含み、その更なる信号特性は、オーディオ信号包絡とは異なるものである。
更に、再生オーディオ信号包絡を得るために復号化する方法が提供される。その方法は、
−1つ以上の分割点に依存して再生オーディオ信号包絡を生成するステップと、
−再生オーディオ信号包絡を出力するステップと、
を含む。
再生オーディオ信号包絡を生成するステップは、1つ以上の分割点が再生オーディオ信号包絡を2つ以上のオーディオ信号包絡部分へと分割するように実行され、予め定義された割当規則が、2つ以上の信号包絡部分の各信号包絡部分についての信号包絡部分値を前記信号包絡部分に依存して定義する。更に、再生オーディオ信号包絡を生成するステップは、2つ以上の信号包絡部分の各々について、その信号包絡部分値の絶対値が他の信号包絡部分の各々の信号包絡部分値の絶対値の半分よりも大きくなるように、実行される。
更に、再生オーディオ信号包絡を得るために復号化する方法が提供される。その方法は、
−1つ以上の分割点に依存して再生オーディオ信号包絡を生成するステップと、
−再生オーディオ信号包絡を出力するステップと、
を含む。
再生オーディオ信号包絡を生成するステップは、1つ以上の分割点が、再生オーディオ信号包絡を2つ以上のオーディオ信号包絡部分へと分割するように実行され、予め定義された割当規則が、2つ以上の信号包絡部分の各信号包絡部分についての信号包絡部分値を、前記信号包絡部分に依存して定義する。所定の包絡部分値が2つ以上の信号包絡部分の各々に対して割り当てられる。更に、再生オーディオ信号包絡を生成するステップは、2つ以上の信号包絡部分の各信号包絡部分について、前記信号包絡部分の信号包絡部分値の絶対値が前記信号包絡部分に割り当てられた所定の包絡部分値の絶対値の90%よりも大きくなるように、かつ前記信号包絡部分の信号包絡部分値の絶対値が前記信号包絡部分に割り当てられた所定の包絡部分値の絶対値の110%よりも小さくなるように、実行される。
更に、オーディオ信号包絡を符号化する方法が提供される。その方法は、
−オーディオ信号包絡を受信するステップと、
−予め定義された割当規則に依存して、少なくとも2つの分割点構成の各々のために、2つ以上のオーディオ信号包絡部分の少なくとも1つのオーディオ信号包絡部分についての信号包絡部分値を決定するステップであって、少なくとも2つの分割点構成の各々は1つ以上の分割点を含み、その2つ以上の分割点構成の各々の1つ以上の分割点はオーディオ信号包絡を2つ以上のオーディオ信号包絡部分へと分割する、ステップと、
−少なくとも2つの分割点構成の1つの1つ以上の分割点を、オーディオ信号包絡を符号化するための1つ以上の選択された分割点として選択するステップであって、前記1つ以上の分割点を選択するステップは、少なくとも2つの分割点構成の各々の2つ以上のオーディオ信号包絡部分の少なくとも1つのオーディオ信号包絡部分の各々の信号包絡部分値に依存して実行されるステップと、
を含む。
更に、コンピュータ又は信号プロセッサ上で実行されたとき、上述した方法の1つを行うためのコンピュータプログラムが提供される。
線スペクトル周波数5(LSF5)の発見的ではあるがやや不正確な記述は、周波数軸に沿った信号エネルギーの分配を記述している。LSF5は、高い確率で、信号が大きなエネルギーを有する周波数において存在するであろう。実施形態は、この発見的な記述を文字通りにとらえ、信号エネルギーの実際の分配を量子化するという知見に基づいている。LSF(複数)はこのアイデアを近似的にだけ適用するので、実施形態によれば、LSFの概念は省略されて、代わりに周波数の分配が量子化され、滑らかな包絡形状がその分配から構築され得るようになる。このような発見的な概念は、以下においては分配量子化と称される。
実施形態は、スピーチ及びオーディオ符号化において使用されるべきスペクトル包絡の量子化及び符号化に基づいている。実施形態は、例えばコア帯域幅及び帯域幅拡張方法の両方の包絡において適用されてもよい。
実施形態にしたがって、スケールファクタバンド(非特許文献3、4)及び線形予測モデル(非特許文献1)のような標準的な包絡モデル化技術を、例えば置き換え及び/又は改善することが可能である。
実施形態の目的は、線形予測の手法とスケールファクタバンド・ベースの手法との両方の利点を組み合わせた量子化を達成し、他方でそれらの欠点を排除することである。
実施形態によれば、滑らかではあるがやや正確なスペクトル包絡を持つ一方で、他方では低量のビットで(任意選択的には固定ビットレートで)符号化することができ、更には合理的な演算量で実現できる、概念が提供される。
以下に、本発明の実施形態を、図面を参照しながらより詳細に説明する。
再生オーディオ信号包絡を得るための一実施形態に係る復号化装置を示す。 他の実施形態に係る復号化装置であって、分割点復号器を更に含む装置を示す。 オーディオ信号包絡を符号化する、一実施形態に係る装置を示す。 オーディオ信号包絡を符号化する他の実施形態に係る装置であって、分割点符号器を更に含む装置を示す。 オーディオ信号包絡を符号化する別の実施形態に係る装置であって、エネルギー決定部を更に含む、オーディオ信号包絡の符号化装置を示す。 実施形態に係る、一定のエネルギーブロックによって表された3つの信号包絡を示す。 実施形態に係る、図6のスペクトルの累積表現を示す。 オリジナル表現と累積マスドメイン表現との両方における補間されたスペクトルマス包絡を示す。 一実施形態に従って分割点位置を復号化する復号化処理を示す。 一実施形態に従って分割点位置の復号化を実行する疑似コードを示す。 分割点位置を符号化するための一実施形態にかかる符号化処理を示す。 分割点位置の符号化を実行する、本発明の一実施形態にかかる疑似コードを示す。 一実施形態に係る分割点復号器を示す。 一実施形態に係るオーディオ信号を符号化する装置を示す。 一実施形態に係るオーディオ信号を再生する装置を示す。 1つ以上の符号化値からオーディオ信号包絡を生成する、一実施形態に係る装置を示す。 オーディオ信号包絡を符号化するために1つ以上の符号化値を決定する、一実施形態に係る装置を示す。 第1の実施例に係る集計関数を示す。 第2の実施例に係る集計関数を示す。
図3は、オーディオ信号包絡を符号化する一実施形態に係る装置を示す。
この装置は、オーディオ信号包絡を受信するオーディオ信号包絡インターフェース210を含む。
更に、この装置は、予め定義された割当規則に依存して、少なくとも2つの分割点構成の各々のために、2つ以上のオーディオ信号包絡部分の少なくとも1つのオーディオ信号包絡部分についての信号包絡部分値を決定する、分割点決定部220を含む。
少なくとも2つの分割点構成の各々は1つ以上の分割点を含み、その2つ以上の分割点構成の各々の1つ以上の分割点は、オーディオ信号包絡を2つ以上のオーディオ信号包絡部分へと分割する。分割点決定部220は、少なくとも2つの分割点構成の1つの1つ以上の分割点を、オーディオ信号包絡を符号化するための1つ以上の選択された分割点として選択するよう構成されており、その分割点決定部220は、1つ以上の分割点を、少なくとも2つの分割点構成の各々の2つ以上のオーディオ信号包絡部分の少なくとも1つのオーディオ信号包絡部分の各々の信号包絡部分値に依存して、選択するよう構成されている。
1つの分割点構成は1つ以上の分割点を含み、分割点構成はその分割点によって定義される。例えば、1つのオーディオ信号包絡が20個のサンプル0,…,19を含んでもよく、2つの分割点を有する1つの構成が、サンプル3の位置にあるその第1分割点とサンプル8の位置にあるその第2分割点とによって定義されてもよく、例えばその分割点構成が組(3,8)によって示されてもよい。1つの分割点だけが決定されるべきである場合には、単一の分割点がその分割点構成を示すことになる。
適切な1つ以上の分割点が1つ以上の選択された分割点として決定されるべきである。この目的のために、少なくとも2つの分割点構成であって各々が1つ以上の分割点を含むものが考慮される。最適な分割点構成の1つ以上の分割点が選択される。ある分割点構成が他の分割点構成よりも適切かどうかの判断は、決定された信号包絡部分値であってそれ自身が予め定義された割当規則に依存する信号包絡部分値に依存して、決定される。
各分割点構成がN個の分割点を有する実施形態において、分割点を有する全ての可能な各分割点構成が考慮されてもよい。しかしながら、幾つかの実施形態においては、全ての可能な分割点構成ではなく、2つの分割点構成だけが考慮され、最適な分割点構成の分割点が1つ以上の選択された分割点として選択される。
ただ1つの分割点だけが決定されるべき実施形態では、各分割点構成は単一の分割点だけを含む。2つの分割点が決定されるべき実施形態では、各分割点構成は2つの分割点を含む。同様に、N個の分割点が決定されるべき実施形態では、各分割点構成はN個の分割点を含む。
単一の分割点を有する分割点構成は、オーディオ信号包絡を2つのオーディオ信号包絡部分へと分割する。2つの分割点を有する分割点構成は、オーディオ信号包絡を3つのオーディオ信号包絡部分へと分割する。N個の分割点を有する分割点構成は、オーディオ信号包絡をN+1個のオーディオ信号包絡部分へと分割する。
1つの信号包絡部分値をオーディオ信号包絡部分の各々に割り当てる、予め定義された割当規則が存在する。その予め定義された割当規則は、オーディオ信号包絡部分に依存する。
幾つかの実施形態においては、オーディオ信号包絡を分割している1つ以上の分割点から生じるオーディオ信号包絡部分の各々が予め定義された割当規則によって割り当てられた凡そ等しい信号包絡部分値を有するように、分割点が決定される。このように、1つ以上の分割点がオーディオ信号包絡と割当規則とに依存するので、割当規則と分割点とが復号器において既知である場合、オーディオ信号包絡が復号器で推定され得る。これは、例えば図6によって示される。
図6(a)において、信号包絡610のための単一の分割点が決定される。そのため、この実施例においては、異なる可能な分割点構成が単一の分割点によって定義される。図6(a)の実施形態においては、分割点631が最良の分割点として見出される。分割点631は、オーディオ信号包絡610を2つの信号包絡部分へと分割する。矩形ブロック611は、分割点631によって定義される第1信号包絡部分のエネルギーを表す。矩形ブロック612は、分割点631によって定義される第2信号包絡部分のエネルギーを表す。図6(a)の実施形態において、ブロック611と612の上縁は信号包絡610の推定を表す。そのような推定は、例えば情報としての分割点631(例えば唯一の分割点が値s=12を有する場合には、分割点sは位置12に配置される)と、どこで信号包絡が開始するかについての情報(ここでは点638)と、どこで信号包絡が終了するかについての情報(ここでは点639)とを使用しながら、復号器において実行され得る。信号包絡は固定値で開始及び終了してもよく、この情報は固定情報として受信機で使用可能であってもよい。又は、この情報は受信機に対して伝達されてもよい。復号器側において、オーディオ信号包絡を分割している分割点631からもたらされる信号包絡部分が、予め定義された割当規則から割り当てられた同じ値を得るように、復号器は信号包絡の推定を再生してもよい。図6(a)において、ブロック611と612の上縁によって定義されている信号包絡の信号包絡部分は、割当規則によって割り当てられた同じ値を持ち、信号包絡610の良好な推定を表している。分割点631を使用する代わりに、値621もまた分割点として使用されてもよい。更に、開始値638の代わりに値628が開始値として使用されてもよく、また、終了値639の代わりに終了値629が終了値として使用されてもよい。しかしながら、横座標の値だけでなく縦座標の値をも符号化することは、より多くの符号化資源を要求することになり、必ずしも必要でない。
図6(b)においては、信号包絡640のための3個の分割点が決定される。従って、この実施例において、異なる可能な分割点構成が3個の分割点によって定義される。図6(b)の実施形態において、分割点661,662,663が最良の分割点として見出される。分割点661,662,663は、オーディオ信号包絡640を4個の信号包絡部分へと分割する。矩形ブロック641は、分割点によって定義される第1信号包絡部分のエネルギーを表している。矩形ブロック642は、分割点によって定義される第2信号包絡部分のエネルギーを表す。矩形ブロック643は、分割点によって定義される第3信号包絡部分のエネルギーを表す。そして、矩形ブロック644は、分割点によって定義される第4信号包絡部分のエネルギーを表す。図6(b)の実施例では、ブロック641,642,643,644の上縁は信号包絡640の推定を表す。そのような推定は、例えば情報としての分割点661,662,663と、どこで信号包絡が開始するかについての情報(ここでは点668)と、どこで信号包絡が終了するかについての情報(ここでは点669)とを使用しながら、復号器において実行され得る。信号包絡は、固定値で開始及び終了してもよく、この情報は固定情報として受信機において使用可能であってもよい。又は、この情報は受信機に対して伝達されてもよい。復号器側において、オーディオ信号包絡を分割している分割点661,662,663からもたらされる信号包絡部分が、予め定義された割当規則から割り当てられた同じ値を得るように、復号器は信号包絡の推定を再生してもよい。図6(b)では、ブロック641,642,643,644の上縁によって定義されている信号包絡の信号包絡部分は、割当規則によって割り当てられた同じ値を持ち、信号包絡640の良好な推定を表している。分割点661,662,663を使用する代わりに、値651,652,653もまた分割点として使用され得る。更に、開始値668の代わりに値658が開始値として使用されてもよく、また、終了値669の代わりに終了値659が終了値として使用されてもよい。しかしながら、横座標の値だけでなく縦座標の値をも符号化することは、より多くの符号化資源を要求することになり、必ずしも必要でない。
図6(c)においては、信号包絡670のための4個の分割点が決定される。従って、この実施例において、異なる可能な分割点構成が4個の分割点によって定義される。図6(c)の実施形態において、分割点691,692,693,694は最良の分割点として見出される。分割点691,692,693,694は、オーディオ信号包絡670を5個の信号包絡部分へと分割する。矩形ブロック671は、分割点によって定義される第1信号包絡部分のエネルギーを表している。矩形ブロック672は、分割点によって定義される第2信号包絡部分のエネルギーを表す。矩形ブロック673は、分割点によって定義される第3信号包絡部分のエネルギーを表す。矩形ブロック674は、分割点によって定義される第4信号包絡部分のエネルギーを表す。更に、矩形ブロック675は、分割点によって定義される第5信号包絡部分のエネルギーを表す。図6(c)において、ブロック671,672,673,674,675の上縁は、信号包絡670の推定を表す。そのような推定は、情報としての分割点691,692,693,694と、どこで信号包絡が開始するかについての情報(ここでは点698)と、どこで信号包絡が終了するかについての情報(ここでは点699)と、を使用しながら、復号器において実行され得る。信号包絡は、固定値で開始及び終了してもよく、この情報は固定情報として受信機において使用可能であってもよい。又は、この情報は受信機に対して伝達されてもよい。復号器側において、オーディオ信号包絡を分割している分割点691,692,693,694からもたらされる信号包絡部分が、予め定義された割当規則から割り当てられた同じ値を得るように、復号器は信号包絡の推定を再生してもよい。図6(c)では、ブロック671,672,673,674の上縁によって定義されている信号包絡の信号包絡部分は、割当規則によって割り当てられた同じ値を持ち、信号包絡670の良好な推定を表している。分割点691,692,693,694を使用する代わりに、値681,682,683,684もまた分割点として使用されてもよい。更に、開始値698の代わりに値688が開始値として使用されてもよく、また、終了値699の代わりに終了値689が終了値として使用されてもよい。しかしながら、横座標の値だけでなく縦座標の値をも符号化することは、より多くの符号化資源を要求することになり、必ずしも必要でない。
更なる特別な実施形態として、以下の実施例が考慮されてもよい。
スペクトルドメインで表現された信号包絡が符号化される。その信号包絡は、例えばn個のスペクトル値を含んでもよい(例えばn=33)。
様々な信号包絡部分についてここで考察する。例えば、第1信号包絡部分は、最初の10個のスペクトル値νi(i=0,…,9;但しiはスペクトル値のインデックスである)を含み、第2信号包絡部分は、最後の23個のスペクトル値νi(i=10,…,32)を含んでもよい。
一実施形態において、予め定義された割当規則は、例えば、スペクトル値ν0,ν1,…,νS-1を有するスペクトル信号包絡部分mの信号包絡部分値p(m)がスペクトル信号包絡部分のエネルギー、例えば
[数3]
Figure 2016526695
である、としてもよい。ここで、「lowerbound」は信号包絡部分mの下限値であり、「upperbound」は信号包絡部分mの上限値である。
信号包絡部分値決定部110は、上記のような式に従う信号包絡部分値をオーディオ信号包絡部分の一つ又は複数に対して割り当ててもよい。
次に、分割点決定部220は、予め定義された割当規則に従って1つ以上の信号包絡部分値を決定するよう構成されている。特に、分割点決定部220は、2つ以上の信号包絡部分の各々の信号包絡部分値が2つ以上の信号包絡部分の他の信号包絡部分の各々の信号包絡部分値と(凡そ)等しくなるように、割当規則に依存して1つ以上の信号包絡部分値を決定するよう構成されている。
例えば、ある特別な実施形態において、分割点決定部220は単一の分割点だけを決定するよう構成されてもよい。そのような実施形態においては、2つの信号包絡部分、例えば信号包絡部分1(m=1)及び信号包絡部分2(m=2)が例えば次式に従って分割点sによって定義される。
[数4]
Figure 2016526695
ここで、nはオーディオ信号包絡のサンプルの個数、例えばオーディオ信号包絡のスペクトル値の個数を示す。上述の実施例において、nは例えばn=33でもよい。
信号包絡部分値決定部110は、そのような信号包絡部分値p(1)をオーディオ信号包絡部分1に対して割り当て、そのような信号包絡部分値p(2)をオーディオ信号包絡部分2に対して割り当ててもよい。
幾つかの実施形態においては、両方の信号包絡部分値p(1),p(2)が決定される。しかし、ある実施形態においては、両方の信号包絡部分値の一方だけが考慮される。例えば、全体エネルギーが既知である場合、p(1)が全体エネルギーのほぼ50%となるように分割点を決定するだけで十分である。
幾つかの実施形態において、s(k)は、可能な値のセット、例えば整数のインデックス値のセット、例えば{0;1;2;…;32}から選択されてもよい。他の実施形態において、s(k)は、可能な値のセット、例えば周波数帯域のセットを示す周波数値のセットから選択されてもよい。
2つ以上の分割点が決定されるべき実施形態では、サンプルエネルギーを分割点sの直前まで累積している累積エネルギーを表す式が考慮されてもよい。
[数5]
Figure 2016526695
N個の分割点が決定されるべき場合には、その分割点s(1),s(2),…,s(N)は次式を満足するように決定される。
[数6]
Figure 2016526695
ここで、 totalenergy は信号包絡の全体エネルギーである。
一実施形態において、分割点s(k)は、
[数7]
Figure 2016526695
が最小となるように選択されてもよい。
従って、一実施形態によれば、分割点決定部220は、次式が最小となるように1つ以上の分割点s(k)を決定するよう構成されてもよく、
[数8]
Figure 2016526695
ここで、totalenergy は全体エネルギーを示し、kは1つ以上の分割点のk番目の分割点を示し、Nは1つ以上の分割点数を示す。
他の実施形態において、分割点決定部220が1つの分割点sだけを選択するよう構成されている場合には、その分割点決定部220は全ての可能な分割点s=1,…,32を検査してもよい。
幾つかの実施形態において、分割点決定部220は、分割点sのための最良の値、例えば次式
[数9]
Figure 2016526695
が最小となる分割点sを選択してもよい。
一実施形態によれば、2つ以上の信号包絡部分の各信号包絡部分の信号包絡部分値は、例えば前記信号包絡部分の1つ以上のエネルギー値又は1つ以上のパワー値に依存してもよい。又は、2つ以上の信号包絡部分の各信号包絡部分の信号包絡部分値は、例えば、オーディオ信号包絡のオリジナルレベル又は目標レベルを再生するために適切な他の如何なる値に依存してもよい。
一実施形態によれば、オーディオ信号包絡は、例えばスペクトルドメイン又は時間ドメインで表現されてもよい。
図4は、他の実施形態に係るオーディオ信号包絡を符号化する装置を示し、この装置は、1つ以上の分割点を例えばある符号化規則に従って符号化し、1つ以上の符号化された点を取得する、分割点符号器225を更に含む。
分割点符号器225は、例えば、1つ以上の分割点の各々の位置を符号化して1つ以上の符号化された点を取得するよう構成されてもよい。分割点符号器225は、例えば分割点状態数を符号化することにより、1つ以上の分割点の各々の位置を符号化するよう構成されてもよい。更に、分割点符号器225は、例えば、可能な分割点位置の全体数を示す全体位置数と、1つ以上の分割点の数を示す分割点数と、を提供するよう構成されてもよい。分割点状態数と全体位置数と分割点数とは共に、1つ以上の分割点の各々の位置を示す。
図5は、他の実施形態に係る、オーディオ信号包絡を符号化する装置を示し、そのオーディオ信号包絡を符号化する装置は、エネルギー決定部230を更に含む。
一実施形態によれば、この装置は、例えば、オーディオ信号包絡の全体エネルギーを決定しかつオーディオ信号包絡のその全体エネルギーを符号化するための、エネルギー決定部(230)を更に含んでもよい。
しかし、他の実施形態においては、この装置は、オーディオ信号包絡のオリジナルレベル又は目標レベルを再生するために適切な他の任意の値を決定するよう更に構成されてもよい。全体エネルギーの代わりに、複数の他の値がオーディオ信号包絡のオリジナルレベル又は目標レベルを再生するために適切と言える。例えば、上述したように、包絡のスケーリングは種々の方法で実行されてもよく、また、そのスケーリングは信号エネルギー若しくはスペクトルマス又は類似の値(絶対サイズ)に対応することができ、又は、それはスケーリング若しくはゲインのファクタ(相対サイズ)であり得ることから、包絡のスケーリングは絶対値又は相対値として符号化されることができ、又はそれは、先行値もしくは先行値の組合せに対する差によって符号化されることができる。幾つかの場合、そのスケーリングはまた、他の使用可能なデータとは無関係でもよく、又はそこから推論されてもよい。包絡はそのオリジナルレベル又は目標レベルへと再生されるべきである。
図14は、オーディオ信号を符号化する装置を示す。この装置は、1つ以上の分割点を生成することにより、オーディオ信号のオーディオ信号包絡を上述した実施形態の1つに従って符号化する装置1410と、オーディオ信号の更なる信号特性を符号化するための二次的信号特性符号器1420とを含み、その更なる信号特性はオーディオ信号包絡とは異なるものである。当業者であれば、オーディオ信号の信号包絡及びオーディオ信号の更なる信号特性から、オーディオ信号それ自体を再生できることを知っているであろう。一例として、信号包絡は、例えばオーディオ信号のサンプルのエネルギーを示してもよい。更なる信号特性は、一例として、例えば時間ドメインオーディオ信号の各サンプルについて、そのサンプルが正の値又は負の値を持つかを示してもよい。
図1は、一実施形態に係る、再生オーディオ信号包絡を得るための復号化装置を示す。
この装置は、1つ以上の分割点に依存して再生オーディオ信号包絡を生成する信号包絡再生部110を含む。
更に、この装置は、再生オーディオ信号包絡を出力するための出力インターフェース120を含む。
信号包絡再生部110は、1つ以上の分割点が再生オーディオ信号包絡を2つ以上のオーディオ信号包絡部分へと分割するように、再生オーディオ信号包絡を生成するよう構成されている。
予め定義された割当規則は、2つ以上の信号包絡部分の各信号包絡部分についての信号包絡部分値を、前記各信号包絡部分に依存して定義する。
更に、信号包絡再生部110は、2つ以上の信号包絡部分の各々について、その信号包絡部分値の絶対値が他の信号包絡部分の各々の信号包絡部分値の絶対値の半分よりも大きくなるように、再生オーディオ信号包絡を生成するよう構成されている。
信号包絡部分値の絶対値に関し、xは、
x≧0のときa=x;
x<0のときa=−x;
を意味する。
全ての信号包絡部分値が正の値である場合、上述した式は、2つ以上の信号包絡部分の各々について、その信号包絡部分値が他の信号包絡部分の各々の信号包絡部分値の絶対値の半分よりも大きくなるように、再生オーディオ信号包絡が生成されることを意味している。
特別な実施形態において、信号包絡部分の各々の信号包絡部分値は、2つ以上の信号包絡部分の他の信号包絡部分の各々の信号包絡部分値と等しい。
しかしながら、図1のより一般的な実施形態においては、信号包絡部分の信号包絡部分値同士が必ずしも正確に等しい必要はないように、オーディオ信号包絡が再生される。その代わり、ある程度の許容度(いくらかの余裕)が許容されている。
「2つ以上の信号包絡部分の各々について、その信号包絡部分値の絶対値が他の信号包絡部分の各々の信号包絡部分値の絶対値の半分よりも大きくなるように」という記載は、例えば次のように理解されてもよい。即ち、全ての信号包絡部分値の最大絶対値が、全ての信号包絡部分値の最小絶対値の2倍のサイズを有しない限り、この要件が満たされるという意味である。
例えば、4つの信号包絡部分値{0.23;0.28;0.19;0.30}の組は、上述の要件を満足する。なぜなら、0.30<2×0.19=0.38だからである。しかし、他の4つの信号包絡部分値{0.24;0.16;0.35;0.25}の組は、上述の要件を満足しない。なぜなら、0.35>2×0.16=0.32だからである。
復号器側において、信号包絡再生部110は、再生オーディオ信号包絡を分割する分割点から生じるオーディオ信号包絡部分がほぼ等しい信号包絡部分値を持つように、再生オーディオ信号包絡を再生するよう構成されている。そのため、2つ以上の信号包絡部分の各々の信号包絡部分値は、2つ以上の信号包絡部分の他の信号包絡部分の各々の信号包絡部分値の半分よりも大きい。
そのような実施形態において、信号包絡部分の信号包絡部分値同士はほぼ等しくあるべきであるが、しかし必ずしも厳密に等しい必要はない。
信号包絡部分の信号包絡部分値が全く同一であるべきであると要求することは、復号器に対し、その信号がどのように再生されるべきであるかを指示することになる。信号包絡部分値が厳密に等しくなるように信号包絡部分が再生される場合には、復号器側においてその信号を再生する際の自由度が厳しく制限される。
信号包絡部分値の相互のずれが大きいほど、復号器側における仕様に沿って復号器がオーディオ信号包絡を調整する自由度が増大する。例えば、あるスペクトルオーディオ信号包絡が符号化された場合、ある復号器は低周波数帯域に対して例えばより大きなエネルギーを加えようとする一方で、他の復号器は高周波数帯域に対して例えばより大きなエネルギーを加えようとする可能性もある。ここで、ある程度の許容度を許可することで、例えば量子化及び/又は逆量子化に起因する限定的な量の丸め誤差も、許容可能となり得る。
信号包絡再生部110が非常に正確に再生しているような一実施形態において、信号包絡再生部110は、2つ以上の信号包絡部分の各々について、その信号包絡部分値の絶対値が他の信号包絡部分の各々の信号包絡部分値の絶対値の90%よりも大きくなるように、再生オーディオ信号包絡を生成するよう構成されている。
一実施形態において、信号包絡再生部110は、例えば、2つ以上の信号包絡部分の各々について、その信号包絡部分値の絶対値が他の信号包絡部分の各々の信号包絡部分値の絶対値の99%よりも大きくなるように、再生オーディオ信号包絡を生成するよう構成されてもよい。
しかし、他の実施形態において、信号包絡再生部110は、例えば、2つ以上の信号包絡部分の各々の信号包絡部分値がそれら2つ以上の信号包絡部分の他の信号包絡部分の各々の信号包絡部分値と等しくなるように、再生オーディオ信号包絡を生成するよう構成されてもよい。
一実施形態において、2つ以上の信号包絡部分の各信号包絡部分の信号包絡部分値は、例えば、その信号包絡部分の1つ以上のエネルギー値、又は1つ以上のパワー値に依存してもよい。
一実施形態によれば、再生オーディオ信号包絡は例えばスペクトルドメイン又は時間ドメインで表現されてもよい。
図2は、更なる実施形態に係る復号化装置を示し、この装置は、ある復号化規則に従って1つ以上の符号化された点を復号化して1つ以上の分割点を取得する、分割点復号器105を更に含む。
一実施形態によれば、信号包絡再生部110は、例えば、再生オーディオ信号包絡の全体エネルギーを示す全体エネルギー値に依存して、又はオーディオ信号包絡のオリジナルレベル若しくは目標レベルを再生するのに適切な他の如何なる値に依存して、再生オーディオ信号包絡を生成するよう構成されてもよい。
ここで、本発明をより詳細に説明するために、ある特別な実施形態を提供する。
ある特別な実施形態によれば、その概念は、周波数帯域を2つの部分へ、それら半分の両方が等しいエネルギーを持つように分割することである。この考えは図6(a)に示され、ここでは、包絡、即ち全体形状が一定のエネルギーブロックによって表されている。
次に、この考えは繰り返し適用可能であり、その結果、前記半分の両方がさらに2つの半分へ、それら2つの半分が等しいエネルギーを有するように分割される。この手法は図6(b)に示される。
より一般的には、スペクトルは、各ブロックがエネルギーの1/Nを持つように、N個のブロックへと分割可能である。図6(c)に、N=5の場合の例が示されている。
これらブロック毎に一定のスペクトル包絡を復号器内で再生するために、ブロックの周波数境界と、例えば全体エネルギーとが、例えば伝送されてもよい。その場合、周波数境界は、発見的な意味においてだけであるが、LPCのLSF表現に対応する。
これまで信号xのエネルギー包絡abs(x)2に関して説明してきた。しかし、他の実施形態においては、振幅包絡(magnitude envelope) abs(x)、スペクトルの他の何らかのパワーabs(x)n、又は、知覚的に動機付けられた何らかの表現(例えばラウドネスなど)がモデル化される。エネルギーの代わりに、「スペクトルマス」という用語を、それがスペクトルの適切な表現を記述すると仮定した場合、使用することもできる。ただ重要な点は、スペクトル表現の累積和を計算できるという点、即ち、その表現が正の値だけを有する点である。
しかしながら、シーケンスが正でない場合、十分に大きな定数を加算すること、その累積和をとること、又は他の適切な操作によって、それを正のシーケンスへと変換することができる。同様に、複素数値のシーケンスは、以下のように変換することができる。例えば、
(1)2つのシーケンスであって、そのうちの1つは純粋に実数であり、1つは純粋に虚数である。又は
(2)2つのシーケンスであって、そのうちの1番目は振幅を表現し、2番目は位相を表現する。
次に、両方の場合におけるこれら2つのシーケンスは2つの別個の包絡としてモデル化され得る。
モデルはスペクトル包絡モデルに限定する必要もなく、如何なる包絡形状であっても現状のモデルを用いて記述可能である。例えば、時間的ノイズ整形(Temporal Noise Shaping:TNS)(非特許文献6)はオーディオコーデックにおける標準的ツールであり、信号の時間的包絡をモデル化する。本発明の方法は包絡をモデル化するので、時間ドメイン信号に対しても同様に良好に適用可能である。
同様に、帯域幅拡張(BWE)方法は、高周波のスペクトル形状をモデル化するためにスペクトル包絡を適用するので、本提案の方法はBWEに対しても同様に適用可能である。
図17は、オーディオ信号包絡を符号化して1つ以上の符号化値を決定するための、一実施形態に係る装置を示す。
この装置は、複数の引数値の各々について集計値を決定するための集計部1710を含む。複数の引数値は、それら複数の引数値の第1引数値と第2引数値とが異なるとき、前記第1引数値が前記第2引数値に先行又は後続するように順序付けられている。
引数値の各々に対してある包絡値が割り当てられ、引数値の各々の包絡値はオーディオ信号包絡に依存し、集計部は、複数の引数値の各引数値のための集計値を、前記引数値の包絡値に依存し、かつ前記引数値に先行する複数の引数値の各々の包絡値に依存して、決定するよう構成されている。
更に、この装置は、複数の引数値の1つ以上の集計値に依存して1つ以上の符号化値を決定する符号化ユニット1720を含む。例えば、符号化ユニット1720は、上述したように1つ以上の分割点を1つ以上の符号化値として生成してもよい。
図18は第1の実施例に係る集計関数1810を示す。
特に、図18は、オーディオ信号包絡の16個の包絡点を示す。例えば、オーディオ信号包絡の4番目の包絡点は参照符号1824によって示されており、8番目の包絡点は参照符号1828によって示されている。各包絡点は引数値と包絡値とを含む。換言すれば、xy座標系において、引数値は包絡点のx成分として考えることができ、包絡値は包絡点のy成分として考えることができる。よって、図18に見られるように、4番目の包絡点1824の引数値は4であり、4番目の包絡点の包絡値は3である。他の例として、8番目の包絡点1828の引数値は8であり、4番目の包絡点の包絡値は2である。他の実施形態において、引数値は図18内のようなインデックス数を示さなくてもよく、代わりに、引数値が例えばスペクトル帯域の中心周波数を示してもよい。例えば、第1引数値が300Hzであり、第2引数値が500Hzなどのように、スペクトル包絡が考慮される場合である。又は、例えば他の実施形態において、例えば時間的包絡が考慮される場合には、引数値が時点を示してもよい。
集計関数1810は複数の集計点を含む。例えば、4番目の集計点1814と8番目の集計点1818とについて考察する。各集計点は引数値と集計値とを含む。上述の説明と同様に、xy座標系において、引数値は集計点のx成分として考えることができ、集計値は集計点のy成分として考えることができる。図18において、4番目の集計点1814の引数値は4であり、4番目の集計点1818の集計値は7である。他の例として、8番目の包絡点の引数値は8であり、4番目の包絡点の包絡値は13である。
集計関数1810の各集計点の集計値は、考慮対象の集計点と同じ引数値を有する包絡点の包絡値に依存し、更に、その引数値に先行する複数の引数値の各々の包絡値に依存する。図18の実施例の場合、4番目の集計点1814に関し、その集計値は4番目の包絡点1824の包絡値に依存する。なぜなら、この包絡点はその集計点と同じ引数値を有するからである。4番目の集計点1814は更に、包絡点1821,1822,1823の包絡値にも依存する。なぜなら、これらの包絡点1821,1822,1823の引数値は包絡点1824の引数値に先行しているからである。
図18の実施例において、各集計点の集計値は、対応する包絡点の包絡値とその先行する包絡点の包絡値とを合計することによって決定される。つまり、4番目の集計点の集計値は、1+2+1+3=7となる(なぜなら、1番目の包絡点の包絡値は1であり、2番目の包絡点の包絡値は2であり、3番目の包絡点の包絡値は1であり、4番目の包絡点の包絡値は3であるため)。これと同様に、8番目の集計点の集計値は、1+2+1+3+1+2+1+2=13となる。
集計関数は単調増加している。これは、例えば、集計関数の(先行値を有する)各集計点が、その直前の先行する集計点の集計値以上の集計値を有することを意味する。例えば、集計関数1810に関し、例えば4番目の集計点1814の集計値は3番目の集計点の集計値以上であり、8番目の集計点1818の集計値は7番目の集計点1817の集計値以上である、等であり、このことは集計関数の全ての集計点について当てはまる。
図19は集計関数の他の実施例、即ち集計関数1910を示す。図19の実施例において、各集計点の集計値は、対応する包絡点の包絡値の二乗とその先行する包絡点の包絡値の二乗とを合計することで決定される。そのため、例えば、4番目の集計点1914の集計値を取得するために、対応する包絡点1924の包絡値の二乗と、その先行する包絡点1921,1922,1923の包絡値の二乗とが合計され、その結果が22+12+22+12=10となる。従って、図19における4番目の集計点1914の集計値は10である。図19において、参照符号1931,1933,1935,1936は、個々の包絡点の包絡値の二乗をそれぞれ示している。
図18と図19から更に分かることは、集計関数が分割点を決定するための効率的な方法を提供するということである。分割点は符号化値のための1つの例である。図18において、全ての分割点の最大集計値(これは例えば全体エネルギーであってもよい)は20である。
例えば、1つの分割点だけが決定されるべき場合には、例えば10(20の50%)と同一又は近い集計点の引数値が分割点として選択されてもよい。図18では、この引数値は6であり、単一の分割点は例えば6になるであろう。
3つの分割点が決定されるべき場合には、例えば5,10及び15(20の25%,50%及び75%)と同一又は近い集計点の引数値がそれぞれ分割点として選択されてもよい。図18では、これらの引数値は3又は4,6及び11となるであろう。従って、選択された分割点は、3,6及び11、又は4,6及び11となるであろう。他の実施形態において、非整数値が分割点として許可されてもよく、その場合、図18では、決定された分割点は例えば3.33,6及び11となるであろう。
このように、幾つかの実施形態に従えば、集計部は、複数の引数値の各引数値についての集計値を、例えば前記引数値の包絡値と前記引数値に先行する引数値の包絡値とを加算することで、決定するよう構成されてもよい。
一実施形態において、引数値の各々の包絡値は、例えばオーディオ信号包絡を信号包絡として有するオーディオ信号包絡のエネルギー値を示してもよい。
一実施形態によれば、引数値の各々の包絡値は、例えばオーディオ信号包絡を信号包絡として有する、オーディオ信号包絡のスペクトル値のn乗を示してもよく、ここで、nはゼロより大きい整数の偶数である。
一実施形態において、引数値の各々の包絡値は、例えば時間ドメインで表現されかつオーディオ信号包絡を信号包絡として有する、オーディオ信号包絡の振幅値のn乗を示してもよく、ここで、nはゼロより大きい整数の偶数である。
一実施形態によれば、符号化ユニットは、例えば引数値の1つ以上の集計値に依存し、かつ1つ以上の符号化値として何個の値が符号化ユニットによって決定されるべきかを示す符号化値の数に依存して、1つ以上の符号化値を決定するよう構成されてもよい。
一実施形態において、符号化ユニットは、例えば1つ以上の符号化値を次式に従って決定してもよい。
[数10]
Figure 2016526695
ここで、c(k)は符号化ユニットによって決定されるべきk番目の符号化値を示し、jは複数の引数値のj番目の引数値を示し、a(j)はそのj番目の引数値に割り当てられた集計値を示し、max(a)は引数値のうちの1つに割り当てられた集計値のうちの1つである最大値であり、引数値のうちの1つに割り当てられた集計値はいずれも前記最大値を上回らず、
[数11]
Figure 2016526695
は、
[数12]
Figure 2016526695
が最小となる、前記引数値のうちの1つである最小値を示す。
図16は、1つ以上の符号化値からオーディオ信号包絡を生成する、一実施形態に係る装置を示す。
この装置は、1つ以上の符号化値を受信する入力インターフェース1610と、その1つ以上の符号化値に依存してオーディオ信号包絡を生成する包絡生成部1620と、を含む。
包絡生成部1620は、1つ以上の符号化値に依存して集計関数を生成するよう構成されており、その集計関数は複数の集計点を含み、それら集計点の各々は引数値と集計値とを含み、集計関数は単調増加する。
1つ以上の符号化値の各々は、集計関数の集計点のうちの1つの引数値及び集計値の少なくとも1つを示す。これは、符号化値の各々が、集計点のうちの1つの引数値を特定するか、集計点のうちの1つの集計値を特定するか、又は、集計関数の集計点のうちの1つの引数値と集計値との両方を特定することを意味する。換言すれば、1つ以上の符号化値の各々は、集計関数の集計点のうちの1つの引数値及び/又は集計値を示す。
更に、包絡生成部1620は、オーディオ信号包絡が複数の包絡点を含むように、オーディオ信号包絡を生成するよう構成されており、その場合、包絡点の各々が引数値と包絡値とを含み、集計関数の集計点の各々について、前記包絡点の引数値が前記集計点の引数値と等しくなるように、オーディオ信号包絡の包絡点の1つが前記集計点に割り当てられる。更に、包絡生成部1620は、オーディオ信号包絡の包絡点の各々の包絡値が集計関数の少なくとも1つの集計点の集計値に依存するように、オーディオ信号包絡を生成するよう構成されている。
一実施形態によれば、包絡生成部1620は、例えば、1つ以上の符号化値の各々について、集計点の1つを前記符号化値に依存して決定することにより、かつ、1つ以上の符号化値の各々の集計点に依存して、集計関数を得るために補間を適用することにより、集計関数を決定するよう構成されてもよい。
一実施形態によれば、入力インターフェース1610は、1つ以上の分割値を1つ以上の符号化値として受信するよう構成されてもよい。包絡生成部1620は、1つ以上の分割値に依存して集計関数を生成するよう構成されてもよく、1つ以上の分割値の各々は、集計関数の集計点の1つの集計値を示す。更に、包絡生成部1620は、1つ以上の分割点が再生オーディオ信号包絡を2つ以上のオーディオ信号包絡部分へと分割するように、再生オーディオ信号包絡を生成するよう構成されてもよい。予め定義された割当規則が、前記信号包絡部分に依存して、2つ以上の信号包絡部分の各信号包絡部分のための信号包絡部分値を定義する。更に、包絡生成部1620は、2つ以上の信号包絡部分の各々について、その信号包絡部分値の絶対値が他の信号包絡部分の各々の信号包絡部分値の絶対値の半分よりも大きくなるように、再生オーディオ信号包絡を生成するよう構成されてもよい。
一実施形態によれば、包絡生成部1620は、例えば、集計関数の複数の集計点において、集計関数の一次導関数を決定するよう構成されてもよい。
一実施形態によれば、包絡生成部1620は、例えば、集計関数が連続的な一次導関数を持つように、符号化値に依存して集計関数を生成するよう構成されてもよい。
他の実施形態によれば、あるLPCモデルが量子化されたスペクトル包絡から導出されてもよい。パワースペクトルabs(x)2の逆フーリエ変換を行うことで、自己相関が得られる。この自己相関から、LPCモデルが従来方法によって容易に計算され得る。そのようなLPCモデルは、次に、滑らかな包絡を作成するために使用され得る。
幾つかの実施形態によれば、スプライン又は他の補間方法を用いてブロックをモデル化することで、滑らかな包絡を得ることができる。その補間法は、スペクトルマスの累積和をモデル化することにより、最も好都合に実行される。
図7は、図6と同じスペクトルを示すが、それらの累積マスを用いて表されている。線710は、オリジナル信号包絡の累積マス線を示す。(a)内の点721、(b)内の点751,752,753、(c)内の点781,782,783,784は、分割点がどこに配置されるべきかを示す。
(a)における点738,721,729の間のy軸上のステップサイズは一定である。同様に、(b)における点768,751,752,753,759の間のy軸上のステップサイズは一定である。同様に、(c)における点798,781,782,783,784,789の間のy軸上のステップサイズも一定である。点729と739の間の破線は全体値を示す。
(a)において、点721はx軸上の分割点731の位置を示す。(b)において、点751,752,753はx軸上の分割点761,762,763の位置を示す。同様に、(c)において、点781,782,783,784はx軸上の分割点791,792,793,794の位置をそれぞれ示す。点729と739の間、点759と769の間、点789と799の間の破線は、それぞれ全体値を示す。
分割点731;761,762,763; 791,792,793,794の位置を示す点721;751,752,753; 781,782,783,784は、それぞれ常にオリジナル信号包絡の累積マス線上にあること、及び、y軸上のステップサイズは一定であることに留意されたい。
このドメインでは、累積スペクトルマスは従来の如何なる補間アルゴリズムによっても補間され得る。
オリジナルドメインにおける連続的な表現を得るために、累積ドメインは連続的な一次導関数を持つ必要がある。例えば、k番目のブロックについて、スプラインの終点がkE/Nと(k+1)E/Nであり、ここでEがスペクトルの全体マスであるように、補間はスプラインを使用して実行することができる。更に、終点におけるスプラインの導関数が、オリジナルドメインにおいて連続的な包絡を得るために特定されてもよい。
1つの可能性は、分割点kについての導関数(傾き)を次式のように特定することである。
[数13]
Figure 2016526695
ここで、c(k)は分割点kにおける累積エネルギーであり、f(k)は分割点kの周波数である。
更に一般的には、点k−1,k,k+1は、如何なる種類の符号化値でもよい。
一実施形態によれば、包絡生成部1620は、第1差分と第2差分との比を決定することで、オーディオ信号包絡を決定するよう構成されてもよい。前記第1差分は、集計関数の(複数の)集計点のうちの第1集計点の第1集計値(c(k+1))と、集計関数の(複数の)集計点のうちの第2集計点の第2集計値(c(k-1)又はc(k))との差である。前記第2差分は、集計関数の(複数の)集計点のうちの第1集計点の第1引数値(f(k+1))と、集計関数の(複数の)集計点のうちの第2集計点の第2引数値(f(k-1)又はf(k))との差である。
ある特別な実施形態において、包絡生成部1620は、次式を適用することでオーディオ信号包絡を決定するよう構成されている。
[数13]
Figure 2016526695
ここで、tilt(k)はk番目の符号化値における集計関数の導関数を示し、c(k+1)は前記第1集計値であり、f(k+1)は前記第1引数値であり、c(k-1)は前記第2集計値であり、f(k-1)は前記第2引数値であり、kは1つ以上の符号化値のうちの1つのインデックスを示す整数であり、c(k+1)-c(k-1)は2つの集計値c(k+1)及びc(k-1)の第1差分であり、f(k+1)-f(k-1)は2つの引数値f(k+1)及びf(k-1)の第2差分である。
例えば、c(k+1)は前記第1集計値であり、k+1番目の符号化値に割り当てられている。f(k+1)は前記第1引数値であり、k+1番目の符号化値に割り当てられている。c(k-1)は前記第2集計値であり、k−1番目の符号化値に割り当てられている。f(k-1)は前記第2引数値であり、k−1番目の符号化値に割り当てられている。
他の実施形態において、包絡生成部1620は、次式を適用してオーディオ信号包絡を決定するよう構成されている。
[数14]
Figure 2016526695
ここで、tilt(k)はk番目の符号化値における集計関数の導関数を示し、c(k+1)は前記第1集計値であり、f(k+1)は前記第1引数値であり、c(k)は前記第2集計値であり、f(k)は前記第2引数値であり、c(k-1)は集計関数の(複数の)集計点のうちの第3集計点の第3集計値であり、f(k-1)は集計関数の(複数の)集計点のうちの第3集計点の第3引数値であり、kは1つ以上の符号化値のうちの1つのインデックスを示す整数であり、c(k+1)-c(k)は2つの集計値c(k+1)及びc(k)の第1差分であり、f(k+1)-f(k)は2つの引数値f(k+1)及びf(k)の第2差分である。
例えば、c(k+1)は前記第1集計値であり、k+1番目の符号化値に割り当てられている。f(k+1)は前記第1引数値であり、k+1番目の符号化値に割り当てられている。c(k)は前記第2集計値であり、k番目の符号化値に割り当てられている。f(k)は前記第2引数値であり、k番目の符号化値に割り当てられている。c(k-1)は前記第3集計値であり、k−1番目の符号化値に割り当てられている。f(k-1)は前記第3引数値であり、k−1番目の符号化値に割り当てられている。
ある集計値がk番目の符号化値に割り当てられていると特定することにより、例えば、そのk番目の符号化値が前記集計値を示すという意味になり、及び/又は、そのk番目の符号化値は、前記集計値が帰属する集計点の引数値を示すという意味になる。
ある引数値がk番目の符号化値に割り当てられていると特定することにより、例えば、そのk番目の符号化値が前記引数値を示すという意味になり、及び/又は、そのk番目の符号化値は、前記引数値が帰属する集計点の集計値を示すという意味になる。
特定の実施形態において、符号化値k−1,k,k+1は、例えば上述したような分割点である。
例えば、一実施形態において、図1の信号包絡再生部110は例えば1つ以上の分割点に依存して集計関数を生成するよう構成されてもよく、集計関数は複数の集計点を含み、それら集計点の各々は引数値と集計値とを含み、集計関数は単調増加し、1つ以上の分割点の各々は集計関数の集計点のうちの1つの引数値及び集計値の少なくとも1つを示す。
そのような実施形態において、信号包絡再生部110は、例えばオーディオ信号包絡が複数の包絡点を含むようにオーディオ信号包絡を生成するよう構成されてもよく、その場合、包絡点の各々が引数値と包絡値とを含み、前記包絡点の引数値が前記集計点の引数値と等しくなるように、オーディオ信号包絡の1つの包絡点が集計関数の集計点の各々に対して割り当てられる。
更に、そのような実施形態において、信号包絡再生部110は、例えばオーディオ信号包絡の包絡点の各々の包絡値が集計関数の少なくとも1つの集計点の集計値に依存するように、オーディオ信号包絡を生成するよう構成されてもよい。
ある特別な実施形態において、信号包絡再生部110は、例えば第1差分と第2差分との比を決定することで、オーディオ信号包絡を決定するよう構成されてもよく、第1差分は、集計関数の(複数の)集計点のうちの第1集計点の第1集計値(c(k+1))と、集計関数の(複数の)集計点のうちの第2集計点の第2集計値(c(k-1);c(k))との差であり、第2差分は、集計関数の(複数の)集計点のうちの前記第1集計点の第1引数値(f(k+1))と、集計関数の(複数の)集計点のうちの第2集計点の第2引数値(f(k-1);f(k))との差である。この目的で、信号包絡再生部110は、包絡生成部1620について説明したような上述の概念の1つを実現するよう構成されてもよい。
c(k)及びf(k)はそれらの定義の範囲外では使用できないため、最左端部と最右端部では上述した傾きについての式を使用できない。その場合、kの範囲外のそのようなc(k)及びf(k)は、端部自身における値によって次式のように置き換えられる。
[数15]
Figure 2016526695
及び
[数16]
Figure 2016526695
4個の制約(両端部における累積マスと傾き)があるので、対応するスプラインは4次多項式となるよう選択され得る。
図8は、補間されたスペクトルマス包絡の一例を(a)オリジナル及び(b)累積のマスドメインで示す。
(a)において、オリジナル信号包絡は810により示され、補間されたスペクトルマス包絡は820により示される。分割点は831,832,833,834によりそれぞれ示される。838は信号包絡の始点を示し、839は信号包絡の終点を示す。
(b)において、840は累積されたオリジナル信号包絡を示し、850は累積されたスペクトルマス包絡を示す。分割点は861,862,863,864によりそれぞれ示される。分割点の位置は、累積されたオリジナル信号包絡840上の点851,852,853,854によりそれぞれ示される。868はオリジナル信号包絡の始点を示し、869はオリジナル信号包絡のx軸上の終点を示す。869と859との間の線は、全体値を示す。
実施形態は、ブロックを分離している周波数の符号化のための概念を提供する。周波数はスカラーfkの順序リストを表し、即ちfk<fk+1である。K+1個のブロックがある場合、K個の分割点が存在する。
更に、N個の量子化レベルが存在する場合、
Figure 2016526695
個の可能な量子化が存在する。例えば、32個の量子化レベルと5個の分割点がある場合、18ビットで符号化され得る201376個の可能な量子化が存在する。
MPEG USAC(非特許文献5)における過渡ステアリング・デコリレータ(TSD)ツールが、0〜N−1の領域を有するK個の位置を符号化する類似の問題を持つことに注目すべきである。従って、同一又は類似の計数技術が現在の問題の周波数を符号化するために使用されてもよい。この符号化アルゴリズムの利点は、一定のビット消費量を有することである。
代替的に、更に正確性を向上させるため、又はビットレートを低減するために、LSFの量子化に使用されるような従来のベクトル量子化技術が使用されてもよい。そのような手法により、更に多くの量子化レベルを達成することができ、平均歪みに関する量子化が最適化され得る。その場合の欠点は、例えばコードブックが記憶されなければならないことであり、その一方で、TDSの手法はコンステレーションの代数的な計数を使用する。
以下に、実施例に従うアルゴリズムについて説明する。
最初に、一般的なアプリケーションの場合を考察する。
特に、SBR状シナリオにおけるスペクトル包絡を符号化するための提案された分配量子化方法の実際のアプリケーションについて以下に説明する。
幾つかの実施形態によれば、符号器は次のように構成される。
−オリジナルオーディオ信号からHF帯域のスペクトル振幅(spectral magnitude)又はエネルギー値を計算すること、及び/又は、
−スペクトル包絡を等しいブロックマスのK+1個のブロックへと分割するK個のサブバンド・インデックスの所定の(又は任意かつ伝送された)個数を計算すること、及び/又は、
−TSD(非特許文献5)と同じアルゴリズムを用いてインデックスを符号化すること、及び/又は、
−HF帯域の全体マスの(例えばハフマンを介する)量子化及び符号化と、全体マス及びインデックスのビットストリームへの書き込み。
幾つかの実施形態によれば、復号器は次のように構成される。
−ビットストリームからの全体マスとインデックスとの読み出し、及び後続の復号化、及び/又は、
−スプライン補間を介する滑らかな累積マス曲線の近似、及び/又は、
−累積マス曲線の一次導関数を行ってスペクトル包絡を再生すること。
幾つかの実施形態は、さらに任意選択の追加処理を含む。
例えば、幾つかの実施形態はワーピング能力を提供する。つまり、可能な量子化レベルの数を減少させることは、分割点の符号化に必要なビットを削減し、さらに演算複雑性を低減する。この効果は、例えば聴覚心理的特性の助けを借りてスペクトル包絡をワーピングすることによって、又は分配量子化を適用する前に符号器内で隣接する周波数帯域を単純に合計することによって、利用可能である。復号器側で分割点インデックス及び全体マスからスペクトル包絡を再生した後で、その包絡は逆特性によって逆ワープされなければならない。
幾つかのさらなる実施形態は、適応型包絡変換を提供する。つまり、前述のように、スペクトル包絡のエネルギー(即ち、信号Xのabs(X)2)に対し分配量子化を適用する必要はないが、全ての他の(正で実数の)表現が実現可能である(例えば、abs(X)、sqrt(abs(x))など)。種々の包絡表現の異なる形状適合型特性を利用できるように、適応型変換技術を使用することが合理的である。したがって、分配量子化が適用される前に、現時点の包絡について(固定され、所定のセットの)最適な変換を検出することが前処理段階として実行される。使用された変換は、復号器側で正確な再変換を可能にするため、信号化されかつビットストリームを介して伝送されなければならない。
さらなる実施形態はブロックの適応的な数をサポートするよう構成される。すなわち、提案されたモデルの一層高度な柔軟性を獲得するために、各スペクトル包絡について異なる数のブロックの間で切り替えを可能にすることが有用である。現時点で選択されたブロックの数は、信号化のために必要なビットを最小化するための所定のセットか、又は最高の柔軟性を可能にするために明示的に伝送されたものかのいずれかであり得る。一方で、このことは、全体のビットレートを低減する。なぜなら、安定した包絡形状については、高い適応性が必要ないからである。他方では、より少数のブロックはより大きなブロックマスをもたらし、急峻な傾斜を持つ強い単一のピークのより正確なフィッティングを可能にする。
幾つかの実施形態は、包絡安定化を提供するよう構成されている。例えばスケールファクタ帯域ベースの手法に比べて、本提案の分配量子化モデルの高い柔軟性により、時間的に隣接する包絡間の上下変動は所望でない不安定を招き得る。この効果を相殺するために、信号−適応型包絡安定化技術が前処理段階として適用される。すなわち、僅かな上下変動しか発生しない安定な信号部分については、包絡は時間的に近隣の包絡値を平滑化することで安定化される。例えば過渡や歯音/摩擦音のオンセット/オフセットのような、本質的に強い時間的変化を含む信号部分については、平滑化が適用されないか又はごく弱い平滑化が適用される。
以下では、一実施形態に従って包絡分配量子化と符号化とを実現するアルゴリズムを説明する。
SBR状シナリオにおいてスペクトル包絡を符号化するための提案された分配量子化方法の実際の実現を説明する。アルゴリズムの以下の記述は、例えば1つの特定の包絡を処理するために実行され得る、符号器側のステップと復号器側のステップとについて説明する。
以下では、対応する符号器を説明する。
包絡決定及び前処理が、例えば次のように実行され得る。
−スペクトル・エネルギー目標包絡曲線(例えば20個のサブバンドサンプルによって表現される)とその対応する全体エネルギーとの決定
−値の総数を削減する(例えば上側の8サブバンド値を平均化し、それにより20から16へと総数を削減する)ために、サブバンド値をペア毎に平均化することによる包絡ワーピングの適用
−包絡モデル性能と知覚的品質基準との間の良好な一致のための、包絡振幅変換の適用(例えば各サブバンド値についての4次ルート
Figure 2016526695
の抽出)
分配量子化と符号化は、例えば次のように実行されてもよい。
−等しいマスの所定数のブロックへと包絡を分割するサブバンド・インデックスの複数回の決定(例えば、包絡を3、4、6及び8ブロックへ分割するための決定を4回繰り返す)
−分配量子化された包絡の全体の再生(「分析と合成」の手法、以下参照)
−包絡の最も正確な記述をもたらすブロック数の判定と決定(例えば分配量子化された包絡とオリジナルとのクロス相関を比較することによって)
−オリジナルと分配量子化された包絡との比較によるラウドネス修正と、それに応じた全体エネルギーの適応
−TSDツール(非特許文献5参照)と同様のアルゴリズムを用いた分割インデックスの符号化
−分配量子化に使用されたブロック数の信号化(例えば4個の所定数のブロックを2ビットで信号化)
−全体エネルギーの量子化と符号化(例えばハフマン符号化を用いて)
次に、対応する復号器について説明する。
復号化と逆量子化は、例えば次のように実行されてもよい。
−分配量子化に使用されるべきブロック数の復号化と全体エネルギーの復号化
−TSDツール(非特許文献5参照)と同様のアルゴリズムを用いた分割インデックスの復号化
−スプライン補間を介する滑らかな累積マス曲線の近似
−一次導関数を介した累積ドメインからのスペクトル包絡の再生(例えば連続したサンプルの差を取ることによって)
後処理は、例えば以下のように実行されてもよい。
−量子化エラーに起因する後続の包絡間の変動を相殺するための包絡安定化の適用(例えば、再生サブバンド値を次式により時間的に平滑化すること、
Figure 2016526695
ここで、過渡信号部分を含むフレームについてはα=0.1であり、その他の場合にはα=0.25である)
−符号器におけるアプリケーションに従う包絡変換の逆転
−符号器におけるアプリケーションに従う包絡ワーピングの逆転
以下では、分割点の効率的な符号化及び復号化について説明する。図4及び図5の分割点符号器225は、例えば以下に説明するような効率的符号化を実行するよう構成されてもよい。図2の分割点復号器105は、例えば以下に説明するような効率的復号化を実行するよう構成されてもよい。
図2に示す実施形態では、復号化装置はさらに、復号化規則に従って1つ以上の符号化された点を復号化し、1つ以上の分割点とするための分割点復号器を含んでも良い。分割点復号器105は、可能な分割点位置の全体の数を示す全体位置数と、分割点の数を示す分割点数と、分割点状態数とを分析するよう構成されている。さらに、分割点復号器105は、全体位置数と分割点数と分割点状態数とを使用して、分割点の1つ以上の位置の指示を生成するよう構成されている。特別な実施形態では、分割点復号器105は、例えば全体位置数と分割点数と分割点状態数とを使用して、分割点の2つ以上の位置の指示を生成するように構成されてもよい。
図4及び図5によって示された実施形態では、この装置はさらに、1つ以上の分割点の各々の位置を符号化して1つ以上の符号化された位置を得る、分割点符号器225を備えている。分割点符号器225は、分割点状態数を符号化することによって1つ以上の分割点の各々の位置を符号化するよう構成されている。さらに、分割点符号器225は、可能な分割点位置の全体の数を示す全体位置数と、1つ以上の分割点の数を示す分割点数とを提供するよう構成されている。分割点状態数と全体位置数と分割点数とは共に、1つ以上の分割点の各位置を示している。
図15は一実施形態に従うオーディオ信号を再生するための装置を示す。この装置は、オーディオ信号の再生オーディオ信号包絡を得るために、上述の実施形態の1つに従って、又は以下に説明する実施形態に従って復号化を行う装置1510と、オーディオ信号のオーディオ信号包絡及び更なる信号特性に依存してオーディオ信号を生成するための信号生成部1520とを含み、前記更なる信号特性とはオーディオ信号包絡とは異なるものである。上述したように、当業者であれば、オーディオ信号の信号包絡及びオーディオ信号の更なる信号特性から、オーディオ信号それ自体を再生できることを知っているであろう。例えば、信号包絡とはオーディオ信号のサンプルのエネルギーを示しても良い。前述の更なる信号特性とは、例えば時間ドメインオーディオ信号の各サンプルについて、そのサンプルが正の値又は負の値を有するかどうかを示しても良い。
幾つかの特別な実施形態は、可能な分割点位置の全体の数を示す全体位置数と、分割点の全体の数を示す分割点数とが、本発明に係る復号化装置の中で利用可能であってもよいという点に基づいている。例えば符号器は、全体位置数及び/又は分割点数を復号化装置に対して伝送してもよい。
これら仮説に基づいて、幾つかの実施形態は以下の概念を実行する:
Nを可能な分割点位置の(全体)数とし、かつPを分割点の(全体)数とする。
符号化装置と復号化装置との双方がN及びPの値を既知であると仮定する。
N及びPを認識していることで、可能な分割点位置の
Figure 2016526695
個だけの異なる組合せが存在することが導出され得る。
例えば、可能な分割点位置の位置が0からN−1まで番号付けられ、P=8である場合、事象を伴う分割点位置の第1の可能な組合せが(0,1,2,3,4,5,6,7)であり、第2の可能な組合せが(0,1,2,3,4,5,6,8)などであり、組合せ(N−8,N−7,N−6,N−5,N−4,N−3,N−2,N−1)まで続き、その結果、全体として
Figure 2016526695
個の異なる組合せがある。
更なる知見、即ち分割点状態数が符号化装置によって符号化されてもよく、かつその分割点状態数が復号器へと伝送されるという知見が活用される。
Figure 2016526695
個の可能な組合せの各々がある独特の分割点状態数によって表現されており、どの分割点状態数が分割点位置のどの組合せを表しているかを復号化装置が認識している場合、その復号化装置は、N,P及び分割点状態数を使用して、分割点の位置を復号化することができる。N及びPの多くの典型的な値について、そのような符号化技術は、他の概念に比べて、事象の分割点位置を符号化するためにより少ないビットを使用する。
換言すれば、分割点位置の符号化の問題は、領域[0...N−1]上の位置pkの離散数Pを、それらの位置がオーバーラップしないように、即ちk≠hについてpk≠phとなるように、できるだけ少数のビットで符号化することで解決できる。位置の順序付けは問題でないため、結果的に、位置の独特の組合せの数は二項係数
Figure 2016526695
となる。従って、必要となるビットの数は次の通りである。
[数17]
Figure 2016526695
幾つかの実施形態は、位置ごとの復号化概念を使用する。即ち、ポジション・バイ・ポジション復号化概念である。この概念は、以下のような知見に基づいている:
Nは可能な分割点位置の(全体)数であり、Pは分割点の数であると仮定する(これは、Nが全体位置数FSNであり、Pが分割点数ESONであり得ることを意味する)。第1の可能な分割点位置が考慮対象となる。2つの場合が区別されてもよい。
第1の可能な分割点位置が分割点を含まない位置である場合、残りのN−1個の可能な分割点位置に関し、P個の分割点の
Figure 2016526695
個の異なる可能な組合せだけが存在する。
しかしながら、第1の可能な分割点位置が分割点を含む位置である場合、残りのN−1個の可能な分割点位置に関し、残りのP−1個の可能な分割点位置の
Figure 2016526695
個の異なる可能な組合せだけが存在する。
この知見に基づいて、実施形態は、更に次のような知見にも基づいている。即ち、分割点が配置されていない第1の可能な分割点位置を有する全ての組合せは、ある閾値以下の分割点状態数によって符号化されるべきであるという知見である。更に、分割点が配置されている第1の可能な分割点位置を有する全ての組合せは、ある閾値より大きい分割点状態数によって符号化されるべきである。ある実施形態において、全ての分割点状態数は正の整数又は0であってもよく、第1の可能な分割点位置に関する適切な閾値は、
Figure 2016526695
であってもよい。
一実施形態において、あるフレームの第1の可能な分割点位置が分割点を含むかどうかは、その分割点状態数がある閾値より大きいか否かを検査することにより決定される。(代替的に、実施形態の符号化/復号化の処理は、分割点状態数が、ある閾値以上であるか否か、ある閾値以下であるか否か、又は、ある閾値よりも小さいか否か、を検査することでも実現し得る)。
第1の可能な分割点位置を分析した後で、復号化は、調整された値を使用して、第2の可能な分割点位置について続行される。つまり、考慮対象となる分割点位置の数(1ずつ減少する)を調整するだけでなく、分割点数もまた1ずつ減少し、分割点状態数は、その分割点状態数が閾値より大きかった場合には、第1の可能な分割点位置に関係している部分をその分割点状態数から削除するように、調整される。復号化処理は、更なる可能な分割点位置について、同様の方法で続行されてもよい。
一実施形態において、領域[0...N−1]上の位置pkの離散数Pは、それらの位置がオーバーラップしないように、即ちk≠hについてpk≠phとなるように、符号化される。この場合、所与の領域上の位置の独特な各組合せは、状態と称され、その領域内の各位置は、可能な分割点位置(pspp)と称される。復号化装置の一実施形態によれば、その領域内の第1の可能な分割点位置が考慮対象となる。その可能な分割点位置が分割点を持たない場合、その領域はN−1へと減少されることができ、可能な状態数は
Figure 2016526695
へ減少する。逆に、その状態が
Figure 2016526695
よりも大きい場合、第1の可能な分割点位置に分割点が配置されていると結論付けることが可能である。このことから、以下の復号化アルゴリズムが導かれる:
[数18]
Figure 2016526695
各繰り返しにおける二項係数の計算は、高コストとなるであろう。従って、実施形態によれば、以下の規則を使用して、先行する繰り返しからの値を用いて二項係数を更新してもよい。
[数19]
Figure 2016526695
これらの式を使用すれば、二項係数の各更新は、1つの乗算と1つの除算だけが必要となるが、一方、明確な評価には、各繰り返しにおいてP個の乗算及び除算というコストが掛かるであろう。
この実施形態において、復号器の全体の演算量は、二項係数の初期化のためのP個の乗算及び除算と、各繰り返し当り1つの乗算、除算及びif条件文と、各符号化された位置当り1つの乗算、加算及び除算と、である。理論上は、初期化のために必要な除算の数を1へと減少させることが可能であろう、という点に注意されたい。しかし現実には、この手法は、取り扱いが困難な非常に大きい整数をもたらすであろう。それゆえ、復号器の最悪の場合の演算量は、N+2P個の除算及びN+2P個の乗算と、P個の加算(MACオペレーションが使用された場合には無視できる)と、N個のif条件文とである。
一実施形態において、符号化装置によって使用される符号化アルゴリズムは、全ての可能な分割点位置にわたって繰り返す必要はなく、位置を割り当てられている可能な分割点位置だけにわたって繰り返すだけよい。従って、次式となる。
[数20]
Figure 2016526695
符号器の最悪の場合の演算量は、P・(P−1)個の乗算及びP・(P−1)個の除算と、P−1個の加算とである。
図9は、本発明の一実施形態に係る復号化処理を示す。この実施形態では、復号化はポジション・バイ・ポジションのベースで実行される。
ステップ110において、値が初期化される。復号化装置は、入力値として受信した分割点状態数を変数s内に記憶する。更に、分割点数により示される分割点の(全体の)数は、変数p内に記憶される。更に、全体位置数により示されるフレーム内に含まれる可能な分割点位置の全体数は、変数N内に記憶される。
ステップ120において、spSepData[t]の値は、全ての可能な分割点位置について0で初期化される。ビットアレイspSepDataは生成されるべき出力データである。それは、各可能な分割点位置tについて、その可能な分割点位置が分割点を含む(spSepData[t]=1)か、又は含まない(spSepData[t]=0)か、を示す。ステップ120において、全ての可能な分割点位置の対応する値が0で初期化される。
ステップ130において、変数kが値N−1を用いて初期化される。この実施形態において、N個の可能な分割点位置は、0,1,2,...,N−1と番号付けされている。k=N−1と設定することは、最高番号を有する可能な分割点位置が最初に考慮されることを意味する。
ステップ140において、k≧0か否かが考慮される。k<0の場合、分割点位置の復号化は完了となり、処理は終了する。その他の場合には、処理はステップ150で続行する。
ステップ150において、p>kか否かが検査される。pがkよりも大きい場合、これは、残りの全ての可能な分割点位置が分割点を含むことを意味する。その処理はステップ230において続行し、そこでは、残りの可能な分割点位置0,1,...,kの全てのspSepDataフィールド値が1に設定され、それは、残りの可能な分割点位置の各々がある分割点を含むことを示している。この場合、処理はその後に終了する。しかし、ステップ150でpがkを超えないことが判明すると、復号化処理はステップ160で続行する。
ステップ160では、値
Figure 2016526695
が計算される。cは閾値として使用される。
ステップ170において、分割点状態数sの実際の値がc以上である否かが検査される。ここで、cはステップ160において計算された正にその閾値である。
sがcよりも小さい場合、これは考慮対象の可能な分割点位置(分割点kを有する)が分割点を含まないことを意味する。この場合、spSepData[k]は既にステップ140において、この可能な分割点位置について0に設定されているため、更なる行動を取る必要はない。この処理は次にステップ220で続行し、kはk:=k-1に設定され、次の可能な分割点位置が考慮される。
しかし、ステップ170における検査が、sはc以上であると示す場合、これは考慮対象の可能な分割点位置kが分割点を含むことを意味する。この場合、分割点状態数sは更新され、ステップ180で値s:=s-cに設定される。更に、ステップ190でspSepData[k] は、可能な分割点位置kが分割点を含むことを示す1に設定される。更に、ステップ200においてpはp−1に設定され、いま調査されるべき残りの可能な分割点位置が分割点を有するp−1個の可能な分割点位置だけを含むことを示す。
ステップ210において、pが0と等しいか否かが検査される。pが0と等しい場合、残りの可能な分割点位置は分割点を含まず、復号化処理は終了する。
その他の場合には、残りの可能な分割点位置の少なくとも1つがある事象を含み、処理はステップ220で続行し、ここで、復号化処理は次の可能な分割点位置(k−1)を用いて続行する。
図9に示す実施形態の復号化処理は、出力値としてアレーspSepDataを生成し、そのアレーは、各可能な分割点位置kについて、その可能な分割点位置が分割点を含む(spSepData[k]=1)か又は含まない(spSepData[k]=0)かを示している。
図10は、分割点位置の復号化を実行する一実施形態に係る疑似コードを示す。
図11は、分割点を符号化する一実施形態に係る符号化処理を示す。この実施形態において、符号化はポジション・バイ・ポジションのベースで実行される。図11に示す実施形態に係る符号化処理の目的は、分割点状態数を生成することである。
ステップ310において、値が初期化される。p_sは0に初期化される。分割点状態数は、連続的に変数p_sを更新することで生成される。符号化処理を終了したとき、p_sは分割点状態数を有しているであろう。ステップ310はまた、kをk:=分割点の数-1に設定することで、変数kを初期化する。
ステップ320では変数「pos」がpos:=spPos[k]に設定され、ここで、spPosは分割点を含む可能な分割点位置を保持しているアレーである。
このアレー内の分割点位置は、昇順で記憶される。
ステップ330において、k≧posか否かの検査が実行される。この不等式が当てはまる場合、処理は終了する。その他の場合、処理はステップ340で続行する。
ステップ340では、値
Figure 2016526695
が計算される。
ステップ350では変数p_sが更新され、p_s:=p_s+cに設定される。
ステップ360では、kがk:=k-1に設定される。
次に、ステップ370において、k≧0か否かの検査が実行される。この不等式が当てはまる場合、次の可能な分割点位置k−1が考慮される。その他の場合、処理は終了する。
図12は、本発明の一実施形態に係る、分割点位置の符号化を実行する疑似コードを示す。
図13は、一実施形態に係る分割点復号器410を示す。
可能な分割点位置の全体数を示す全体位置数FSNと、分割点の(全体)数を示す分割点数ESONと、分割点状態数ESTNとが、分割点復号器410へと入力される。分割点復号器410は、区分器440を含む。区分器440は、可能な分割点位置の第1セットを含む第1区分と、可能な分割点位置の第2セットを含む第2区分とに、フレームを分割するよう構成されており、分割点を含む可能な分割点位置は、区分の各々について個別に決定される。これにより、分割点の位置は、区分を更に小さな区分へと繰り返し分割することによって決定されてもよい。
この実施形態の分割点復号器410の「区分ベースの」復号化は、以下の概念に基づいている。
区分ベースの復号化が基礎とする考えは、全ての可能な分割点位置のセットが2つの区分A及びBへと分割され、各区分が可能な分割点位置の1セットを含み、区分AはNa個の可能な分割点位置を含み、区分BはNb個の可能な分割点位置を含み、Na+Nb=Nである。全ての可能な分割点位置のセットは、2つの区分へと任意に分割することができ、好ましくは、区分Aと区分Bとが、ほぼ同じ全体数の可能な分割点位置を持つ(例えばNa=Nb又はNa=Nb−1)ように分割され得る。全ての可能な分割点位置のセットを2つの区分へと分割することで、実際の分割点位置を決定する作業もまた2つのサブ作業、即ち、フレーム区分A内での実際の分割点位置の決定と、フレーム区分B内での実際の分割点位置の決定という2つのサブ作業に分けられる。
この実施形態において、分割点復号器105は、可能な分割点位置の全体数と、分割点の全体数と、分割点状態数とを認識していることが再度想定される。両方のサブ作業を解決するために、分割点復号器105はまた、各区分の可能な分割点位置の数と、各区分内の分割点数と、各区分の分割点状態数(1区分のそのような分割点状態数をここでは「分割点サブ状態数」と称する)と、を認識していなければならない。
分割点復号器それ自体が全ての可能な分割点のセットを2つの区分へと分割するので、分割点復号器自体は、区分AがNa個の可能な分割点位置を含み、区分BがNb個の可能な分割点位置を含むことを認識している。両区分の各々についての実際の分割点数を決定することは、以下の知見に基づいている。
全ての可能な分割点位置のセットが2つの区分へと分割されているので、実際の分割点位置の各々は、区分A内又は区分B内のいずれかに配置されている。更に、Pがある区分の分割点の数であり、Nがその区分の可能な分割点位置の全体数であり、f(P,N)が分割点位置の異なる組合せの数をリターンする関数であると仮定すると、可能な分割点位置の全体セット(区分Aと区分Bとに分割されている)の分割の異なる組合せの数は、以下のようになる。
Figure 2016526695
上述の考察に基づくと、一実施形態によれば、区分Aが0個の分割点を有しかつ区分BがP個の分割点を有する第1の構成を持つ全ての組合せは、第1閾値よりも小さい分割点状態数を用いて符号化されるべきである。分割点状態数は、正の整数値又は0として符号化されてもよい。第1の構成を持つ組合せはf(0,Na)・f(P,Nb)個しかないため、適切な第1閾値はf(0,Na)・f(P,Nb)であってもよい。
区分Aが1個の分割点を有しかつ区分BがP−1個の分割点を有する第2の構成を持つ全ての組合せは、第1閾値以上ではあるが第2閾値以下の分割点状態数を用いて符号化されるべきである。第2の構成を持つ組合せはf(1,Na)・f(P-1,Nb)個しかないため、適切な第2の値は、f(0,Na)・f(P,Nb)+f(1,Na)・f(P-1,Nb)であってもよい。他の構成を持つ組合せについての分割点状態数は、同様にして決定される。
一実施形態によれば、復号化が全ての可能な分割点位置のセットを2つの区分A及びBへと分割することにより実行される。次に、分割点状態数が第1閾値よりも小さいかどうかが検査される。好ましい実施形態において、第1閾値はf(0,Na)・f(P,Nb)であってもよい。
分割点状態数が第1閾値よりも小さい場合、区分Aは0個の分割点を含み、区分BはP個の全ての分割点を含むと結論付けられる。よって、復号化は、両方の区分について、対応する区分の分割点数を表現するそれぞれ決定された数を用いて実行される。更に、区分Aについて第1の分割点状態数が決定され、かつ区分Bについて第2の分割点状態数が決定され、それぞれが新たな分割点状態数として使用される。本明細書の中では、1区分の分割点状態数は、「分割点サブ状態数」として言及される。
しかし、分割点状態数が第1閾値以上である場合、分割点状態数は更新されてもよい。好ましい実施形態において、分割点状態数は、その分割点状態数からある値を減算することにより、好ましくは第1閾値、例えばf(0,Na)・f(P,Nb)を減算することにより、更新されてもよい。次のステップでは、更新された分割点状態数が第2閾値よりも小さいか否かが検査される。好ましい実施形態において、第2閾値はf(1,Na)・f(P-1,Nb)であってもよい。分割点状態数が第2閾値よりも小さい場合、区分Aは1個の分割点を有し、区分BがP−1個の分割点を有することが導かれ得る。
次に、復号化が、両方の区分について、各区分の分割点のそれぞれ決定された数を用いて実行される。第1分割点サブ状態数が区分Aの復号化のために使用され、第2分割点サブ状態数が区分Bの復号化のために使用される。しかし、分割点状態数が第2閾値以上である場合、分割点状態数は更新されてもよい。好ましい実施形態において、分割点状態数は、その分割点状態数からある値、好ましくはf(1,Na)・f(P-1,Nb)を減算することにより、更新されてもよい。復号化処理は、この2つの区分に関する分割点の残りの分配可能性について同様に適用される。
一実施形態において、区分Aについての分割点サブ状態数と区分Bについての分割点サブ状態数とが、区分Aと区分Bの復号化のために使用されてもよく、両方の事象サブ状態数は、以下の除算を実行することで決定される。
分割点状態数/f(区分Bの分割点数,Nb
好ましくは、区分Aの分割点サブ状態数は、上述の除算の整数部分であり、区分Bの分割点サブ状態数は、その除算の余りである。この除算において使用される分割点状態数は、フレームのオリジナル分割点状態数、又は更新された分割点状態数、例えば上述のように1つ以上の閾値を減算することにより更新されたものであってもよい。
上述した区分ベースの復号化の概念を説明するために、全ての可能な分割点位置のセットが2つの分割点を有する場合を考える。更に、f(p,N)が1区分の分割点位置の異なる組合せの数をリターンする関数であり、pがあるフレーム区分の分割点数であり、Nがその区分の分割点の全体数である場合である。その場合、位置の可能な分配の各々について、以下の可能な組合せの数がもたらされる。
Figure 2016526695
このように、フレームの符号化された分割点状態数がf(0,Na)・f(2,Nb)よりも小さい場合、分割点の位置は0及び2として分配されなければならない。その他の場合、f(0,Na)・f(2,Nb)が分割点状態数から減算されて、その結果がf(1,Na)・f(1,Nb)と比較される。その結果の方が小さい場合、位置は1及び1として分配される。その他の場合、残りの分配は2及び0だけであり、よって位置は2及び0として分配される。
以下に、分割点(ここでは“sp”)の位置を復号化する一実施形態に従って、疑似コードが提供される。この疑似コードにおいて、“sp_a”は区分A内の分割点の(想定された)数であり、“sp_b”は区分B内の分割点の(想定された)数である。この疑似コードでは、(例えば更新された)分割点状態数は“state”と称される。区分A及びBの分割点サブ状態数は、合同して“state”変数内に符号化される。一実施形態のジョイント符号化スキームによれば、Aの分割点サブ状態数(ここでは“state_a”と称される)は、除算state/f(sp_b,Nb)の整数部分であり、Bの分割点サブ状態数(ここでは”state_b”と称される)は、その除算の余りである。これにより、両方の区分の長さ(区分の分割点の全体数)と符号化された位置の数(区分内の分割点数)とは、同じ手法によって復号化され得る。
[数21]
Figure 2016526695
このアルゴリズムの出力は、各符号化された位置(即ち、分割点位置)において1(1)を有し、かつその他の位置(即ち、分割点を含まない可能な分割点位置)においてゼロ(0)を有する、ベクトルである。
以下に、一実施形態に従って、分割点位置を符号化するための疑似コードが提供される。ここでは、上述した疑似コードと同様の意味を持つ同様の可変ネームを使用する。
[数22]
Figure 2016526695
ここでは、復号化アルゴリズムと同様に、各符号化された位置(即ち、分割点位置)は、ベクトルxにおける1(1)によって識別され、その他の成分はゼロ(0)(例えば分割点を含まない可能な分割点位置)である。
疑似コード内に定式化された上述の再帰的方法は、標準的な方法を用いて非再帰的な方法で容易に実行し得る。
一実施形態によれば、関数f(p,N)はルックアップテーブルとして実現されてもよい。現在の文脈におけるように、位置がオーバーラップしていない場合、状態数の関数f(p,N)は、オンラインで計算され得る単純な二項関数である。次式に示す。
[数23]
Figure 2016526695
本発明の一実施形態によれば、符号器と復号器との両方が、kの連続的な値について積f(p-k,Na)*f(k,Nb)を計算するfor-loopを有する。効率的な計算のために、これは以下のように書くことができる。
[数24]
Figure 2016526695
換言すれば、減算/加算の連続項(復号器におけるステップ2bと2c、及び符号器におけるステップ4a)は、各繰り返しにつき3個の乗算と1個の除算によって計算され得る。
図1に戻ると、代替的な実施形態が、再生オーディオ信号包絡を異なる方法で取得するために図1の復号化装置を構成する。そのような実施形態において、既に上述したように、この装置は、1つ以上の分割点に基づいて再生オーディオ信号包絡を生成する信号包絡再生部110と、再生オーディオ信号包絡を出力するための出力インターフェース120とを含む。
ここでも、信号包絡再生部110は、1つ以上の分割点が再生オーディオ信号包絡を2つ以上のオーディオ信号包絡部分へと分割するように、再生オーディオ信号包絡を生成するよう構成されており、予め定義された割当規則が、2つ以上の信号包絡部分の各信号包絡部分についての信号包絡部分値を、前記信号包絡部分に依存して定義する。
しかし、そのような代替的な実施形態においては、所定の包絡部分値が2つ以上の信号包絡部分の各々に対して割り当てられる。
そのような実施形態において、信号包絡再生部110は、2つ以上の信号包絡部分の各信号包絡部分について、前記信号包絡部分の信号包絡部分値の絶対値が前記信号包絡部分に割り当てられた所定の包絡部分値の絶対値の90%よりも大きくなるように、かつ、前記信号包絡部分の信号包絡部分値の絶対値が前記信号包絡部分に割り当てられた所定の包絡部分値の絶対値の110%よりも小さくなるように、再生オーディオ信号包絡を生成するよう構成されている。これにより、所定の包絡部分値からのある種のずれを許容する。
しかし、特定の実施形態において、信号包絡再生部110は、2つ以上の信号包絡部分の各々の信号包絡部分値が前記信号包絡部分に割り当てられた所定の包絡部分値と等しくなるように、再生オーディオ信号包絡を生成するよう構成されている。
一例として、オーディオ信号包絡を4個のオーディオ信号包絡部分へと分割する3個の分割点が受け取られてもよい。割当規則は、第1信号包絡部分の所定の包絡部分値が0.15であり、第2信号包絡部分の所定の包絡部分値が0.25であり、第3信号包絡部分の所定の包絡部分値が0.25であり、第1信号包絡部分の所定の包絡部分値が0.35であると特定してもよい。これら3個の分割点を受け取ると、信号包絡再生部110は次に上述した概念に従って信号包絡をしかるべく再生する。
他の実施形態において、オーディオ信号包絡を2個のオーディオ信号包絡部分へと分割する1個の分割点が受け取られてもよい。割当規則は、第1信号包絡部分の所定の包絡部分値がpであり、第2信号包絡部分の所定の包絡部分値が1−pである、と特定してもよい。例えば、p=0.4であるとき、1−p=0.6となる。ここでも、分割点を受け取ると、信号包絡再生部110は次に上述した概念に従って信号包絡をしかるべく再生する。
所定の包絡部分値を使用するそのような代替的な実施形態は、これまで説明した概念をそれぞれ使用することができる。
一実施形態では、信号包絡部分の少なくとも2つの所定の包絡部分値は互いに異なっている。
他の実施形態では、信号包絡部分の各々の所定の包絡部分値は他の信号包絡部分の各々の所定の包絡部分値と異なっている。
これまで装置の文脈で幾つかの態様を示してきたが、これらの態様は対応する方法の説明をも表しており、そのブロック又は装置が方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応する装置の対応するブロックもしくは項目又は特徴を表している。
本発明の分解された信号は、デジタル記憶媒体に記憶されることができ、又は、インターネットのような無線伝送媒体もしくは有線伝送媒体などの伝送媒体を介して伝送されることもできる。
所定の構成要件にもよるが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、その中に格納される電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働可能な)、デジタル記憶媒体、例えばフレキシブルディスク,DVD,CD,ROM,PROM,EPROM,EEPROM,フラッシュメモリなどのデジタル記憶媒体を使用して実行することができる。
本発明に従う幾つかの実施形態は、上述した方法の1つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有する非一時的なデータキャリアを含む。
一般的に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として構成することができ、そのプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動可能である。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されていても良い。
本発明の他の実施形態は、上述した方法の1つを実行するための、機械読み取り可能なキャリアに格納されたコンピュータプログラムを含む。
換言すれば、本発明の方法のある実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
本発明の他の実施形態は、上述した方法の1つを実行するために記録されたコンピュータプログラムを含む、データキャリア(又はデジタル記憶媒体、又はコンピュータ読み取り可能な媒体)である。
本発明の他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットを介するデータ通信接続を介して伝送されるよう構成されても良い。
他の実施形態は、上述した方法の1つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。
他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
幾つかの実施形態においては、(例えば書換え可能ゲートアレイのような)プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の1つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。
上述した実施形態は、本発明の原理を単に例示的に示したに過ぎない。本明細書に記載した構成及び詳細について修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。
特に、図18は、オーディオ信号包絡の16個の包絡点を示す。例えば、オーディオ信号包絡の4番目の包絡点は参照符号1824によって示されており、8番目の包絡点は参照符号1828によって示されている。各包絡点は引数値と包絡値とを含む。換言すれば、xy座標系において、引数値は包絡点のx成分として考えることができ、包絡値は包絡点のy成分として考えることができる。よって、図18に見られるように、4番目の包絡点1824の引数値は4であり、4番目の包絡点の包絡値は3である。他の例として、8番目の包絡点1828の引数値は8であり、8番目の包絡点の包絡値は2である。他の実施形態において、引数値は図18内のようなインデックス数を示さなくてもよく、代わりに、引数値が例えばスペクトル帯域の中心周波数を示してもよい。例えば、第1引数値が300Hzであり、第2引数値が500Hzなどのように、スペクトル包絡が考慮される場合である。又は、例えば他の実施形態において、例えば時間的包絡が考慮される場合には、引数値が時点を示してもよい。
集計関数1810は複数の集計点を含む。例えば、4番目の集計点1814と8番目の集計点1818とについて考察する。各集計点は引数値と集計値とを含む。上述の説明と同様に、xy座標系において、引数値は集計点のx成分として考えることができ、集計値は集計点のy成分として考えることができる。図18において、4番目の集計点1814の引数値は4であり、4番目の集計点1814の集計値は7である。他の例として、8番目の集計点の引数値は8であり、8番目の集計点の集計値は13である。
sがcよりも小さい場合、これは考慮対象の可能な分割点位置(分割点kを有する)が分割点を含まないことを意味する。この場合、spSepData[k]は既にステップ120において、この可能な分割点位置について0に設定されているため、更なる行動を取る必要はない。この処理は次にステップ220で続行し、kはk:=k-1に設定され、次の可能な分割点位置が考慮される。
区分Aが1個の分割点を有しかつ区分BがP−1個の分割点を有する第2の構成を持つ全ての組合せは、第1閾値以上ではあるが第2閾値以下の分割点状態数を用いて符号化されるべきである。第2の構成を持つ組合せはf(1,Na)・f(P-1,Nb)個しかないため、適切な第2閾値は、f(0,Na)・f(P,Nb)+f(1,Na)・f(P-1,Nb)であってもよい。他の構成を持つ組合せについての分割点状態数は、同様にして決定される。
一例として、オーディオ信号包絡を4個のオーディオ信号包絡部分へと分割する3個の分割点が受け取られてもよい。割当規則は、第1信号包絡部分の所定の包絡部分値が0.15であり、第2信号包絡部分の所定の包絡部分値が0.25であり、第3信号包絡部分の所定の包絡部分値が0.25であり、第4信号包絡部分の所定の包絡部分値が0.35であると特定してもよい。これら3個の分割点を受け取ると、信号包絡再生部110は次に上述した概念に従って信号包絡をしかるべく再生する。

Claims (17)

  1. 1つ以上の符号化値からオーディオ信号包絡を生成する装置であって、
    前記1つ以上の符号化値を受信する入力インターフェース(1610)と、
    前記1つ以上の符号化値に依存して前記オーディオ信号包絡を生成する包絡生成部(1620)と、を含み、
    前記包絡生成部(1620)は前記1つ以上の符号化値に依存して集計関数を生成するよう構成され、前記集計関数は複数の集計点を含み、前記集計点の各々は引数値と集計値とを含み、前記集計関数は単調増加し、前記1つ以上の符号化値の各々は前記集計関数の集計点の1つの前記引数値及び集計値の少なくとも1つを示しており、
    前記包絡生成部(1620)は、前記オーディオ信号包絡が複数の包絡点を含むように前記オーディオ信号包絡を生成するよう構成され、前記包絡点の各々が引数値と包絡値とを含み、前記集計関数の集計点の各々について、前記包絡点の引数値が前記集計点の引数値と等しくなるように、前記オーディオ信号包絡の包絡点の1つが前記集計点に割り当てられており、
    前記包絡生成部(1620)は、前記オーディオ信号包絡の包絡点の各々の包絡値が前記集計関数の少なくとも1つの集計点の集計値に依存するように、前記オーディオ信号包絡を生成するよう構成されている、装置。
  2. 請求項1に記載の装置であって、前記包絡生成部(1620)は、前記1つ以上の符号化値の各々について前記符号化値に依存して前記集計点の1つを決定することにより、かつ、前記1つ以上の符号化値の各々の前記集計点に依存して前記集計関数を得るために補間を適用することにより、前記集計関数を決定するよう構成されている、装置。
  3. 請求項1又は2に記載の装置であって、前記包絡生成部(1620)は、前記集計関数の複数の集計点において、前記集計関数の一次導関数を決定するよう構成されている、装置。
  4. 請求項1乃至3のいずれか一項に記載の装置であって、前記包絡生成部(1620)は、前記集計関数が連続的な一次導関数を持つように、前記符号化値に依存して前記集計関数を生成するよう構成されている、装置。
  5. 請求項1乃至4のいずれか一項に記載の装置であって、前記包絡生成部(1620)は、第1差分と第2差分との比を決定することで前記オーディオ信号包絡を決定するよう構成されており、前記第1差分は、前記集計関数の集計点のうちの第1の集計点の第1集計値(c(k+1))と、前記集計関数の集計点のうちの第2の集計点の第2集計値(c(k-1);c(k))との差であり、前記第2差分は、前記集計関数の集計点のうちの前記第1の集計点の第1引数値(f(k+1))と、前記集計関数の集計点のうちの第2の集計点の第2引数値(f(k-1);f(k))との差である、装置。
  6. 請求項5に記載の装置であって、前記包絡生成部(1620)は、次式を適用して前記オーディオ信号包絡を決定するよう構成されており、
    [数13]
    Figure 2016526695
    ここで、tilt(k)はk番目の符号化値における前記集計関数の導関数を示し、
    c(k+1)は前記第1集計値であり、
    f(k+1)は前記第1引数値であり、
    c(k-1)は前記第2集計値であり、
    f(k-1)は前記第2引数値であり、
    kは前記1つ以上の符号化値のうちの1つのインデックスを示す整数であり、
    c(k+1)-c(k-1)は前記2つの集計値c(k+1)及びc(k-1)の第1差分であり、
    f(k+1)-f(k-1)は前記2つの引数値f(k+1)及びf(k-1)の第2差分である、装置。
  7. 請求項5に記載の装置であって、前記包絡生成部(1620)は、次式を適用して前記オーディオ信号包絡を決定するよう構成されており、
    [数14]
    Figure 2016526695
    ここで、tilt(k)はk番目の符号化値における前記集計関数の導関数を示し、
    c(k+1)は前記第1集計値であり、
    f(k+1)は前記第1引数値であり、
    c(k)は前記第2集計値であり、
    f(k)は前記第2引数値であり、
    c(k-1)は前記集計関数の集計点のうちの第3の集計点の第3集計値であり、
    f(k-1)は前記集計関数の集計点のうちの第3の集計点の第3引数値であり、
    kは前記1つ以上の符号化値のうちの1つのインデックスを示す整数であり、
    c(k+1)-c(k)は前記2つの集計値c(k+1)及びc(k)の第1差分であり、
    f(k+1)-f(k)は前記2つの引数値f(k+1)及びf(k)の第2差分である、装置。
  8. 請求項1乃至7のいずれか一項に記載の装置であって、
    前記入力インターフェース(1610)は、1つ以上の分割値を前記1つ以上の符号化値として受信するよう構成されており、
    前記包絡生成部(1620)は、前記1つ以上の分割値に依存して前記集計関数を生成するよう構成されており、前記1つ以上の分割値の各々は前記集計関数の集計点の1つの集計値を示し、
    前記包絡生成部(1620)は、前記1つ以上の分割点が再生オーディオ信号包絡を2つ以上のオーディオ信号包絡部分へと分割するように、前記再生オーディオ信号包絡を生成するよう構成されており、予め定義された割当規則が前記2つ以上の信号包絡部分の各信号包絡部分についての信号包絡部分値を前記信号包絡部分に依存して定義しており、
    前記包絡生成部(1620)は、前記2つ以上の信号包絡部分の各々について、その信号包絡部分値の絶対値が他の信号包絡部分の各々の信号包絡部分値の絶対値の半分よりも大きくなるように、前記再生オーディオ信号包絡を生成するよう構成されている、装置。
  9. オーディオ信号包絡を符号化するための1つ以上の符号化値を決定する装置であって、
    複数の引数値の各々のために集計値を決定する集計部(1710)を含み、
    前記複数の引数値は、それら複数の引数値の第1引数値と第2引数値とが異なるとき、前記第1引数値が前記第2引数値に先行又は後続するように順序付けられており、
    前記引数値の各々に対して1つの包絡値が割り当てられ、
    前記引数値の各々の前記包絡値は前記オーディオ信号包絡に依存しており、
    前記集計部(1710)は、前記複数の引数値の各引数値のための前記集計値を、前記引数値の包絡値に依存しかつ前記引数値に先行する複数の引数値の各々の包絡値に依存して、決定するよう構成されており、
    前記複数の引数値の1つ以上の集計値に依存して1つ以上の符号化値を決定する、符号器ユニット(1720)を更に含む、装置。
  10. 請求項9に記載の装置であって、前記集計部(1710)は、前記複数の引数値の各引数値についての前記集計値を、前記引数値の包絡値と前記引数値に先行する引数値の包絡値とを加算することで、決定するよう構成されている、装置。
  11. 請求項9又は10に記載の装置であって、前記引数値の各々の包絡値は、前記オーディオ信号包絡を信号包絡として有する、オーディオ信号包絡のスペクトル値のn乗を示しており、nはゼロよりも大きい整数の偶数である、装置。
  12. 請求項9又は10に記載の装置であって、前記引数値の各々の包絡値は、時間ドメインで表現されかつ前記オーディオ信号包絡を信号包絡として有する、オーディオ信号包絡の振幅値のn乗を示しており、nはゼロよりも大きい整数の偶数である、装置。
  13. 請求項9乃至12のいずれか一項に記載の装置であって、前記符号化ユニット(1720)は、前記引数値の1つ以上の集計値に依存し、かつ前記1つ以上の符号化値として何個の値が前記符号化ユニット(1720)によって決定されるべきかを示す符号化値の数に依存して、前記1つ以上の符号化値を決定するよう構成されている、装置。
  14. 請求項13に記載の装置であって、前記符号化ユニットは、前記1つ以上の符号化値を、
    [数2]
    Figure 2016526695
    に従って決定するよう構成され、
    ここで、c(k)は前記符号化ユニットによって決定されるべきk番目の符号化値を示し、
    jは前記複数の引数値のj番目の引数値を示し、
    a(j)は前記j番目の引数値に割り当てられた集計値を示し、
    max(a)は前記引数値のうちの1つに割り当てられた前記集計値のうちの1つである最大値であり、前記引数値のうちの1つに割り当てられた前記集計値はいずれも前記最大値を上回らず、
    [数11]
    Figure 2016526695
    は、
    [数12]
    Figure 2016526695
    が最小となる、前記引数値のうちの1つである最小値を示す、装置。
  15. 1つ以上の符号化値からオーディオ信号包絡を生成する方法であって、
    前記1つ以上の符号化値を受信するステップと、
    前記1つ以上の符号化値に依存して前記オーディオ信号包絡を生成するステップと、を含み、
    前記オーディオ信号包絡を生成するステップは前記1つ以上の符号化値に依存して集計関数を生成することにより実行され、前記集計関数は複数の集計点を含み、前記集計点の各々は引数値と集計値とを含み、前記集計関数は単調増加し、前記1つ以上の符号化値の各々は前記集計関数の集計点のうちの1つの前記引数値及び集計値の少なくとも1つを示しており、
    前記オーディオ信号包絡を生成するステップは、前記オーディオ信号包絡が複数の包絡点を含むように実行され、前記包絡点の各々が引数値と包絡値とを含み、前記集計関数の集計点の各々について、前記包絡点の引数値が前記集計点の引数値と等しくなるように、前記オーディオ信号包絡の包絡点の1つが前記集計点に割り当てられており、
    前記オーディオ信号包絡を生成するステップは、前記オーディオ信号包絡の包絡点の各々の包絡値が前記集計関数の少なくとも1つの集計点の集計値に依存するように実行される、方法。
  16. オーディオ信号包絡を符号化するための1つ以上の符号化値を決定する方法であって、
    複数の引数値の各々のために集計値を決定するステップを含み、
    前記複数の引数値は、それら複数の引数値の第1引数値と第2引数値とが異なるとき、前記第1引数値が前記第2引数値に先行又は後続するように順序付けられており、
    前記引数値の各々に対して1つの包絡値が割り当てられ、
    前記引数値の各々の前記包絡値は前記オーディオ信号包絡に依存しており、
    前記集計部(1710)は、前記複数の引数値の各引数値のための前記集計値を、前記引数値の包絡値に依存しかつ前記引数値に先行する複数の引数値の各々の包絡値に依存して、決定するよう構成されており、
    前記複数の引数値の1つ以上の集計値に依存して1つ以上の符号化値を決定するステップを更に含む、方法。
  17. コンピュータ又は信号プロセッサ上で作動されたとき、請求項15又は16に記載の方法を実行するためのコンピュータプログラム。
JP2016518979A 2013-06-10 2014-06-10 分配量子化及び符号化を使用した累積和表現のモデル化によるオーディオ信号包絡符号化、処理及び復号化の装置と方法 Active JP6224827B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP13171314 2013-06-10
EP13171314.1 2013-06-10
EP14167070 2014-05-05
EP14167070.3 2014-05-05
PCT/EP2014/062034 WO2014198726A1 (en) 2013-06-10 2014-06-10 Apparatus and method for audio signal envelope encoding, processing and decoding by modelling a cumulative sum representation employing distribution quantization and coding

Publications (2)

Publication Number Publication Date
JP2016526695A true JP2016526695A (ja) 2016-09-05
JP6224827B2 JP6224827B2 (ja) 2017-11-01

Family

ID=50928114

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016518979A Active JP6224827B2 (ja) 2013-06-10 2014-06-10 分配量子化及び符号化を使用した累積和表現のモデル化によるオーディオ信号包絡符号化、処理及び復号化の装置と方法

Country Status (16)

Country Link
US (2) US9953659B2 (ja)
EP (1) EP3008726B1 (ja)
JP (1) JP6224827B2 (ja)
KR (1) KR101789083B1 (ja)
CN (1) CN105431902B (ja)
AU (1) AU2014280258B9 (ja)
BR (1) BR112015030686B1 (ja)
CA (1) CA2914771C (ja)
ES (1) ES2646021T3 (ja)
HK (1) HK1223725A1 (ja)
MX (1) MX353042B (ja)
PL (1) PL3008726T3 (ja)
PT (1) PT3008726T (ja)
RU (1) RU2662921C2 (ja)
SG (1) SG11201510162WA (ja)
WO (1) WO2014198726A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6224827B2 (ja) 2013-06-10 2017-11-01 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 分配量子化及び符号化を使用した累積和表現のモデル化によるオーディオ信号包絡符号化、処理及び復号化の装置と方法
JP6224233B2 (ja) 2013-06-10 2017-11-01 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 分配量子化及び符号化を使用したオーディオ信号包絡の分割によるオーディオ信号包絡符号化、処理及び復号化の装置と方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05281995A (ja) * 1992-03-31 1993-10-29 Sony Corp 音声符号化方法
JPH09153811A (ja) * 1995-11-30 1997-06-10 Hitachi Ltd 符号化復号方法、符号化復号装置およびそれを用いたテレビ会議装置
JP2016518977A (ja) * 2013-04-16 2016-06-30 マサチューセッツ インスティテュート オブ テクノロジー エマルションまたは他の混合物の単極分離のためのシステムおよび方法

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5765127A (en) 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
JP3237089B2 (ja) * 1994-07-28 2001-12-10 株式会社日立製作所 音響信号符号化復号方法
US5710863A (en) * 1995-09-19 1998-01-20 Chen; Juin-Hwey Speech signal quantization using human auditory models in predictive coding systems
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
CN1494055A (zh) 1997-12-24 2004-05-05 ������������ʽ���� 声音编码方法和声音译码方法以及声音编码装置和声音译码装置
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
CN1202514C (zh) * 2000-11-27 2005-05-18 日本电信电话株式会社 编码和解码语音及其参数的方法、编码器、解码器
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
KR100477699B1 (ko) 2003-01-15 2005-03-18 삼성전자주식회사 양자화 잡음 분포 조절 방법 및 장치
EP1638083B1 (en) * 2004-09-17 2009-04-22 Harman Becker Automotive Systems GmbH Bandwidth extension of bandlimited audio signals
US7573912B2 (en) 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
CN101138274B (zh) 2005-04-15 2011-07-06 杜比国际公司 用于处理去相干信号或组合信号的设备和方法
US7630882B2 (en) 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
KR100803205B1 (ko) * 2005-07-15 2008-02-14 삼성전자주식회사 저비트율 오디오 신호 부호화/복호화 방법 및 장치
WO2007080211A1 (en) 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
EP1989707A2 (fr) * 2006-02-24 2008-11-12 France Telecom Procede de codage binaire d'indices de quantification d'une enveloppe d'un signal, procede de decodage d'une enveloppe d'un signal et modules de codage et decodage correspondants
DE602006021347D1 (de) 2006-03-28 2011-05-26 Fraunhofer Ges Forschung Verbessertes verfahren zur signalformung bei der mehrkanal-audiorekonstruktion
US8392176B2 (en) 2006-04-10 2013-03-05 Qualcomm Incorporated Processing of excitation in audio coding and decoding
US8532984B2 (en) 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
DE102006049154B4 (de) 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
US8417532B2 (en) * 2006-10-18 2013-04-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
CN101743586B (zh) * 2007-06-11 2012-10-17 弗劳恩霍夫应用研究促进协会 音频编码器、编码方法、解码器、解码方法
WO2009038136A1 (ja) 2007-09-19 2009-03-26 Nec Corporation 雑音抑圧装置、その方法及びプログラム
GB2453117B (en) 2007-09-25 2012-05-23 Motorola Mobility Inc Apparatus and method for encoding a multi channel audio signal
CN101430880A (zh) 2007-11-07 2009-05-13 华为技术有限公司 一种背景噪声的编解码方法和装置
CN101521010B (zh) 2008-02-29 2011-10-05 华为技术有限公司 一种音频信号的编解码方法和装置
JP5010743B2 (ja) 2008-07-11 2012-08-29 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトル傾斜で制御されたフレーミングを使用して帯域拡張データを計算するための装置及び方法
EP2301028B1 (en) 2008-07-11 2012-12-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus and a method for calculating a number of spectral envelopes
MY160260A (en) 2008-07-11 2017-02-28 Fraunhofer Ges Forschung Audio encoder and audio decoder
CN102081926B (zh) 2009-11-27 2013-06-05 中兴通讯股份有限公司 格型矢量量化音频编解码方法和系统
CN102081927B (zh) 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
CN103155033B (zh) 2010-07-19 2014-10-22 杜比国际公司 高频重建期间的音频信号处理
WO2012146757A1 (en) * 2011-04-28 2012-11-01 Dolby International Ab Efficient content classification and loudness estimation
DE102013104921A1 (de) 2013-05-14 2014-11-20 A. Monforts Textilmaschinen Gmbh & Co. Kg Vorrichtung zum Beschichten und/oder Imprägnieren einer textilen Warenbahn
JP6224827B2 (ja) 2013-06-10 2017-11-01 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 分配量子化及び符号化を使用した累積和表現のモデル化によるオーディオ信号包絡符号化、処理及び復号化の装置と方法
JP6224233B2 (ja) 2013-06-10 2017-11-01 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 分配量子化及び符号化を使用したオーディオ信号包絡の分割によるオーディオ信号包絡符号化、処理及び復号化の装置と方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05281995A (ja) * 1992-03-31 1993-10-29 Sony Corp 音声符号化方法
JPH09153811A (ja) * 1995-11-30 1997-06-10 Hitachi Ltd 符号化復号方法、符号化復号装置およびそれを用いたテレビ会議装置
US5983172A (en) * 1995-11-30 1999-11-09 Hitachi, Ltd. Method for coding/decoding, coding/decoding device, and videoconferencing apparatus using such device
JP2016518977A (ja) * 2013-04-16 2016-06-30 マサチューセッツ インスティテュート オブ テクノロジー エマルションまたは他の混合物の単極分離のためのシステムおよび方法

Also Published As

Publication number Publication date
US20180204582A1 (en) 2018-07-19
RU2662921C2 (ru) 2018-07-31
RU2015156490A (ru) 2017-07-14
AU2014280258A1 (en) 2016-01-28
CA2914771A1 (en) 2014-12-18
EP3008726B1 (en) 2017-08-23
BR112015030686A2 (pt) 2017-08-22
AU2014280258B2 (en) 2016-11-24
US20160155451A1 (en) 2016-06-02
AU2014280258B9 (en) 2017-04-20
US10734008B2 (en) 2020-08-04
US9953659B2 (en) 2018-04-24
JP6224827B2 (ja) 2017-11-01
MX353042B (es) 2017-12-18
HK1223725A1 (zh) 2017-08-04
KR101789083B1 (ko) 2017-10-23
PL3008726T3 (pl) 2018-01-31
WO2014198726A1 (en) 2014-12-18
PT3008726T (pt) 2017-11-24
CN105431902A (zh) 2016-03-23
EP3008726A1 (en) 2016-04-20
SG11201510162WA (en) 2016-01-28
KR20160022338A (ko) 2016-02-29
ES2646021T3 (es) 2017-12-11
CN105431902B (zh) 2020-03-31
BR112015030686B1 (pt) 2021-12-28
MX2015016984A (es) 2016-04-25
CA2914771C (en) 2018-07-17

Similar Documents

Publication Publication Date Title
KR101953648B1 (ko) 오디오 신호 디코딩 또는 인코딩을 위한 시간 도메인 레벨 조정
TW201405549A (zh) 使用改良機率分布估計之基於線性預測的音訊寫碼技術
KR20240036029A (ko) 장기 예측 및/또는 고조파 후치 필터링에 기초하여 예측 스펙트럼을 생성하기 위한 프로세서
JP6224827B2 (ja) 分配量子化及び符号化を使用した累積和表現のモデル化によるオーディオ信号包絡符号化、処理及び復号化の装置と方法
JP6224233B2 (ja) 分配量子化及び符号化を使用したオーディオ信号包絡の分割によるオーディオ信号包絡符号化、処理及び復号化の装置と方法
JP2023507073A (ja) 音声符号化のための周波数領域における階調信号の長期予測のための符号化器、復号化器、符号化方法及び復号化方法
KR102569784B1 (ko) 오디오 코덱의 장기 예측을 위한 시스템 및 방법
JP5786044B2 (ja) 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体
KR20240042449A (ko) 오디오 신호의 펄스 및 잔차 부분의 코딩 및 디코딩
JP5800920B2 (ja) 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A132

Effective date: 20170221

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170516

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170818

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171005

R150 Certificate of patent or registration of utility model

Ref document number: 6224827

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250