JP2017516125A - エンコーダ、デコーダ並びに符号化及び復号方法 - Google Patents

エンコーダ、デコーダ並びに符号化及び復号方法 Download PDF

Info

Publication number
JP2017516125A
JP2017516125A JP2016557212A JP2016557212A JP2017516125A JP 2017516125 A JP2017516125 A JP 2017516125A JP 2016557212 A JP2016557212 A JP 2016557212A JP 2016557212 A JP2016557212 A JP 2016557212A JP 2017516125 A JP2017516125 A JP 2017516125A
Authority
JP
Japan
Prior art keywords
residual signal
matrix
signal
audio signal
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016557212A
Other languages
English (en)
Other versions
JP6543640B2 (ja
Inventor
トム・ヴェックストローム
ヨハネス・フィッシャー
クリスティアン・ヘルムリッヒ
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2017516125A publication Critical patent/JP2017516125A/ja
Application granted granted Critical
Publication of JP6543640B2 publication Critical patent/JP6543640B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • G10L19/107Sparse pulse excitation, e.g. by using algebraic codebook

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

オーディオ信号をデータストリームに符号化するためのエンコーダは、予測子と、ファクトライザと、トランスフォーマと、量子化及び符号化ステージとを備えている。予測子は、オーディオ信号のスペクトルアナログ又はオーディオ信号の基本周波数を記述する予測係数を得るためにオーディオ信号を分析し、かつオーディオ信号の残余信号を出力するために予測係数に依存してオーディオ信号を分析フィルタ関数にかけるように構成されている。ファクトライザは、因数分解された行列を得るために、予測係数により定義される合成フィルタ関数の自己相関又は共分散行列上へ行列因数分解を適用するように構成されている。トランスフォーマは、変換された残余信号を得るために、残余信号を、因数分解された行列を基礎として変換するように構成されている。量子化及び復号ステージは、量子化された変換残余信号又は符号化された量子化変換残余信号を得るために、変換残余信号を量子化するように構成されている。

Description

本発明の実施形態は、オーディオ信号を符号化してデータストリームを得るためのエンコーダと、データストリームを復号してオーディオ信号を得るためのデコーダとに関する。さらなる実施形態は、対応する、オーディオ信号を符号化するためと、データストリームを復号するための方法に関する。さらなる実施形態は、符号化及び/又は復号するための方法ステップを実行するコンピュータプログラムに関する。
符号化されるべきオーディオ信号は、例えば、音声信号であってもよく、即ち、エンコーダは、音声エンコーダに相当し、デコーダは、音声デコーダに相当する。音声符号化において最も頻繁に使用されるパラダイムは、代数符号励振線形予測(ACELP)であり、AMR−ファミリ、G.718及びMPEG USAC等の規格に使用されている。これは、スペクトル包絡線をモデリングするための線形予測子(LP)、基本周波数をモデリングするための長時間予測子(LTP)及び残余のための代数コードブックより成る、ソースモデルを用いる音声モデリングを基礎とする。コードブックのパラメータは、知覚加重合成領域において最適化される。知覚モデルは、フィルタを基礎とし、よって、残余から加重出力へのマッピングは、線形予測子と加重フィルタとの組合せによって記述される。
ACELPコーデックにおける計算複雑性の最大部分は、残余の量子化器に対して行われる、代数コードブックエントリの選定に対して費やされる。残余領域から加重合成領域へのマッピングは、事実上、サイズNxNの行列による乗算である。ここで、Nはベクトルの長さである。このマッピングに起因して、加重出力SNR(信号対雑音比)に関連して、残余サンプルが相関され、独立的な量子化はされ得ない。よって、最良エントリを決定するためには、潜在的なコードブックベクトルを悉く、加重合成領域において明示的に評価しなければならないことになる。この手法は、合成による分析アルゴリズムとして知られる。しかしながら、最適なパフォーマンスは、コードブックの総当たり探索によってのみ可能である。コードブックのサイズはビットレートに依存するが、ビットレートBを所与とすると、全体複雑性O(2B2)に関しては、評価すべき2B個のエントリが存在し、Bが11以上である場合、これが非現実的であることは明らかである。したがって、実際には、コーデックは、複雑性と品質とを均衡させる非最適な量子化を使用する。精度を代償に複雑性を制限する、最良な量子化を求めるためのこれらの反復的なアルゴリズムは、幾つか提示されている。よって、この制限を克服するための新規手法が必要とされている。
[1] B. Bessette, R. Salami, R. Lefebvre, M. Jelinek, J. Rotola-Pukkila, J. Vainio, H. Mikkola, and K. Jaervinen, "The adaptive multirate wideband speech codec (AMR-WB)," Speech and Audio Processing, IEEE Transactions on, vol. 10, no. 8, pp. 620-636, 2002. [2] ITU-T G.718, "Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s," 2008. [3] M. Neuendorf, P. Gournay, M. Multrus, J. Lecomte, B. Bessette, R. Geiger, S. Bayer, G. Fuchs, J. Hilpert, N. Rettelbach, R. Salami, G. Schuller, R. Lefebvre, and B. Grill, "Unied speech and audio coding scheme forhigh quality at low bitrates," in Acoustics, Speech and Signal Processing. ICASSP 2009. IEEE Int Conf, 2009, pp. 1-4. [4] J.-P. Adoul, P. Mabilleau, M. Delprat, and S. Morissette, "Fast CELP coding based on algebraic codes," in Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP''87., vol. 12. IEEE, 1987, pp. 1957-1960. [5] C. Laamme, J. Adoul, H. Su, and S. Morissette, "On reducing computational complexity of codebook search in CELP coder through the use of algebraic codes," in Acoustics, Speech, and Signal Processing, 1990. ICASSP-90., 1990 International Conference on. IEEE, 1990, pp. 177-180. [6] F.-K. Chen and J.-F. Yang, "Maximum-take-precedence ACELP: a low complexity search method," in Acoustics, Speech, and Signal Processing, 2001. Proceedings.(ICASSP'01). 2001 IEEE International Conference on, vol. 2. IEEE, 2001, pp. 693-696. [7] K. J. Byun, H. B. Jung, M. Hahn, and K. S. Kim, "A fast ACELP codebook search method," in Signal Processing, 2002 6th International Conference on, vol. 1. IEEE, 2002, pp. 422-425. [8] N. K. Ha, "A fast search method of algebraic codebook by reordering search sequence," in Acoustics, Speech, and Signal Processing, 1999. Proceedings., 1999 IEEE International Conference on, vol. 1. IEEE, 1999, pp. 21-24. [9] M. A. Ramirez and M. Gerken, "Efficient algebraic multipulse search," in Telecommunications Symposium, 1998. ITS'98 Proceedings. SBT/IEEE International. IEEE, 1998, pp. 231-236. [10] T. Baeckstroem, "Computationally efficient objective function for algebraic codebook optimization in ACELP," in Interspeech 2013, August 2013. [11] ・"Vandermonde factorization of Toeplitz matrices and applications in filtering and warping," IEEE Trans. Signal Process., vol. 61, no. 24, pp. 6257-6263, 2013. [12] G. H. Golub and C. F. van Loan, Matrix Computations, 3rd ed. John Hopkins University Press, 1996. [13] T. Baeckstroem, J. Fischer, and D. Boley, "Implementation and evaluation of the Vandermonde transform," in submitted to EUSIPCO 2014 (22nd European Signal Processing Conference 2014) (EUSIPCO 2014), Lisbon, Portugal, Sep. 2014. [14] T. Baeckstroem, G. Fuchs, M. Multrus, and M. Dietz, "Linear prediction based audio coding using improved probability distribution estimation," US Provisional Patent US 61/665 485, 6, 2013. [15] K. Hermus, P. Wambacq et al., "A review of signal subspace speech enhancement and its application to noise robust speech recognition," EURASIP Journal on Applied Signal Processing, vol. 2007, no. 1, pp. 195-195, 2007.
本発明の目的は、上述の欠点を回避しつつ、オーディオ信号を符号化しかつ復号するためのコンセプトを提供することにある。
この目的は、独立請求項によって解決される。
第1の実施形態は、オーディオ信号を符号化してデータストリームにするためのエンコーダを提供する。本エンコーダは、(線形又は長期)予測子と、ファクトライザと、トランスフォーマと、量子化符号化ステージとを備える。予測子は、オーディオ信号のスペクトル包絡線又はオーディオ信号の基本周波数を記述する(線形又は長期)予測係数を得るためにオーディオ信号を分析し、かつオーディオ信号の残余信号を出力するために予測係数に依存してオーディオ信号を分析フィルタ関数にかけるように構成されている。ファクトライザは、因数分解された行列を得るために、予測係数により定義される合成フィルタ関数の自己相関又は共分散行列上に行列因数分解を適用するように構成されている。トランスフォーマは、変換された残余信号を得るために、因数分解された行列を基礎として残余信号を変換するように構成されている。量子化及び符号化ステージは、量子化された変換残余信号又は符号化された量子化変換残余信号を得るために、変換残余信号を量子化するように構成されている。
別の実施形態は、データストリームをオーディオ信号に復号するためのデコーダを提供する。本デコーダは、復号ステージと、再トランスフォーマと、合成ステージとを含む。復号ステージは、着信する量子化変換残余信号を基礎として、又は入ってくる符号化された量子化変換残余信号を基礎として、変換残余信号を出力するように構成されている。再トランスフォーマは、因数分解された行列を得るために、オーディオ信号のスペクトル包絡線又はオーディオ信号の基本周波数を記述する予測係数により定義される合成フィルタ関数の自己相関又は共分散行列の行列因数分解から結果的に生じる因数分解された行列を基礎として、変換残余信号から残余信号を再変換するように構成されている。合成ステージは、オーディオ信号を、残余信号を基礎とし、予測係数により定義される合成フィルタ関数を用いて合成するように構成されている。
これらの2つの実施形態から分かるように、符号化及び復号は、本コンセプトをACELPに比肩し得るものにする2段階プロセスである。第1のステップは、スペクトル包絡線又は基本周波数に対する合成の量子化を可能にし、第2のステージは、励振信号とも称されかつオーディオ信号のスペクトル包絡線又は基本周波数を有する信号をフィルタリングした後の信号を表す残余信号の(直接)量子化又は合成を可能にする。また、ACELPと同様に、残余信号又は励振信号の量子化は、最適化問題に対応するが、本明細書に開示する教示による最適化問題の目的関数は、実質的に、ACELPとは異なる。詳述すれば、本発明による教示は、行列因数分解を用いて最適化問題の目的関数を脱相関し、これにより、高価な反復計算を回避することができ、かつ最適なパフォーマンスが保証される、という原理を基礎とする。記載している実施形態の1つの中心的なステップである行列因数分解は、エンコーダの実施形態に包含され、かつ好ましくは、デコーダの実施形態にも包含されてもよいが、この限りではない。
行列因数分解は、異なる技術、例えば固有値分解、バンデルモンド因数分解又は他の任意の因数分解を基礎とするものであってもよく、選ばれる技術ごとに、因数分解の対象は、符号化又は復号の第1のステージ(線形予測子又は長期予測子)において第1のオーディオにより検出される(線形又は長期)予測係数によって定義される行列、例えば自己相関又は共分散行列である。
別の実施形態によれば、ファクトライザは、行列を用いて記憶される予測係数を含む合成フィルタ関数を因数分解し、又は、加重バージョンの合成フィルタ関数行列を因数分解する。例えば、因数分解は、バンデルモンド行列V、対角行列D及び変換結合バージョンのバンデルモンド行列V*を用いて実行されてもよい。バンデルモンド行列は、公式R=V*DV、又はC=V*DVを用いて因数分解されてもよく、自己相関行列R又は共分散行列Cは、変換結合バージョンの合成フィルタ関数行列H*及び正規バージョンの合成関数行列H、即ちR=H*H又はC=H*H、によって定義される。
さらなる実施形態によれば、トランスフォーマは、先に決定された対角行列D及び先に決定されたバンデルモンド行列Vから開始して、残余信号xを公式y=D1/2Vx、又は公式y=DVxを用いて変換残余信号yに変換する。
さらなる実施形態によれば、量子化及び符号化ステージは、これで、変換残余信号yを量子化して量子化変換残余信号
Figure 2017516125
を得ることができる。この変換は、先に論じたように、最適化問題であり、目的関数
Figure 2017516125
が使用される。この場合は、この目的関数が、ACELPエンコーダ内で使用される目的関数等の、異なる符号化方法又は復号方法に使用される目的関数と比較すると複雑性がより低減されることが効果的である。
ある実施形態によれば、デコーダは、エンコーダから因数分解された行列を、例えばデータストリームと共に受信し、又は、別の実施形態によれば、デコーダは、行列因数分解を実行する随意選択のファクトライザを備えている。ある好適な実施形態によれば、デコーダは、因数分解された行列を直接受信し、かつこれらの因数分解された行列から、行列の起源が予測係数にあることに起因して(エンコーダ参照)、予測係数を逸脱させる。この実施形態によりデコーダの複雑性をさらに低減することができる。
さらなる実施形態は、オーディオ信号をデータストリームに符号化するためと、データストリームをオーディオ信号へ復号するための対応方法を提供する。ある追加的な実施形態によれば、符号化方法並びに復号方法は、コンピュータのCPU等のプロセッサによって実行されてもよく、又は少なくとも部分的に実行されてもよい。
図1aは、第1の実施形態による、オーディオ信号を符号化するためのエンコーダを示す略ブロック図である。 図1bは、第1の実施形態による、オーディオ信号を符号化するための対応する方法を示す略フローチャートである。 図2aは、第2の実施形態による、データストリームを復号するためのデコーダを示す略ブロック図である。 図2bは、第2の実施形態による、データストリームを復号するための対応する方法を示す略フローチャートである。 図3aは、異なる量子化方法に関する、信号対雑音比の知覚的平均を1フレームあたりのビット数の関数として示す略図である。 図3bは、異なる量子化方法の正規化された実行時間を1フレームあたりのビット数の関数として示す略図である。 図3cは、バンデルモンド変換の特性を示す略図である。
以下、添付の図面を参照して、本発明の実施形態について論じる。
続いて以下、添付の図面を参照して、本発明の実施形態について論じる。本明細書では、説明が交換可能であるように、又は相互に適用できるように、同じ機能又は類似する機能を有するオブジェクトには同じ参照数字を当てている。
図1aは基本構造のエンコーダ10を示す。エンコーダ10は、ここでは線形予測子12として実装される予測子12と、ファクトライザ14と、トランスフォーマ16と、量子化及び符号化ステージ18とを備えている。
線形予測子12は、オーディオ信号ASを、好ましくはパルスコード変調信号(PCM)等のデジタルオーディオ信号を受信するために、入力に配置される。線形予測子12は、ファクトライザ14へ結合され、かつ所謂LPC−チャネルLPCを介してエンコーダの出力、参照数字DSLPC/DSDV参照、へ結合される。さらに、線形予測子12は、所謂残余チャネルを介してトランスフォーマ16へ結合される。逆に、トランスフォーマ16は(残余チャネルに加えて)、その入力側でファクトライザ14へ結合される。トランスフォーマの出力側は、量子化及び符号化ステージ18へ結合され、量子化及び符号化ステージ18は、出力(参照数字
Figure 2017516125
参照)へ結合される。2つのデータストリームDSLPC/DSDV及び
Figure 2017516125
は、出力されるべきデータストリームDSを形成する。
以下、符号化方法100を記述する図1bをさらに参照して、エンコーダ10の機能について論じる。図1bから分かるように、オーディオ信号ASをデータストリームDSに符号化するための基本的な方法100は、ユニット12、14、16及び18によって実行される4つの基本ステップ120、140、160及び180を含む。第1のステップ120において、線形予測子12は、オーディオ信号ASを分析して線形予測係数LPCを得る。線形予測係数LPCは、後に所謂合成フィルタ関数Hを用いてオーディオ信号を基本的に合成できるようにする、オーディオ信号ASのスペクトル包絡線を記述する。合成フィルタ関数Hは、LPC係数により定義される合成フィルタ関数の重み付け値を備えてもよい。線形予測係数LPCは、LPC−チャネルLPCを用いてファクトライザ14へ出力され、並びにエンコーダ10の出力へ送られる。線形予測子12は、さらに、オーディオ信号ASを、線形予測係数LPCにより定義される分析フィルタ関数Hにかける。このプロセスは、デコーダにより実行されるLPC係数を基礎とするオーディオ信号の合成に対応するものである。このサブステップの結果、残余信号xは、フィルタ関数Hによって説明できる信号部分なしでトランスフォーマ16へ出力される。このステップは、フレーム関連で実行されること、即ち、振幅及び時間領域を有するオーディオ信号ASは、例えば長さ5msを有する時間窓(サンプル)に分割又はサンプリングされ、かつ周波数領域において量子化されることに留意されたい。
これに続くステップは、トランスフォーマ16により実行される残余信号xの変換(方法ステップ160参照)である。トランスフォーマ16は、残余信号xを変換して、量子化及び符号化ステージ18へ出力される変換残差信号yを得るように構成されている。例えば、変換160は、公式y=D1/2Vx、又はy=DVxを基礎としてもよい。ここで、行列D及びVは、ファクトライザ14によって提供される。したがって、残余信号xの変換は、少なくとも2つの因数分解された行列、即ち例示的にバンデルモンド行列と称するVと、例示的に対角行列と称するDとを基礎とする。
適用される行列因数分解は、例えば、固有分解、バンデルモンド因数分解、コレスキー分解又はこれらに類似するものとして自由に選択することができる。バンデルモンド因数分解は、自己相関行列等の対称正定値トプリッツ行列の、バンデルモンド行列V及びV*の積への因数分解として使用されてもよい。目的関数における自己相関行列の場合、これは、典型的にはバンデルモンド変換と呼ばれるワープ離散フーリエ変換に対応する。ファクトライザ14によって実行されかつ本発明の基本的な部分を表すこの行列因数分解ステップ140については、量子化及び符号化ステージ18の機能を論じた後に詳述する。
量子化及び符号化ステージ18は、トランスフォーマ16から受信される変換残余信号yを量子化して、量子化された変換残余信号
Figure 2017516125
を得るように構成されている。この量子化された変換残余信号
Figure 2017516125
は、データストリームの一部
Figure 2017516125
として出力される。データストリームDS全体は、DSLPC/DSDVと称するLPC部分、及び
Figure 2017516125
と称する
Figure 2017516125
部分を備えていることに留意されたい。
変換残余信号yの量子化は、例えば、目的関数を用いて、例えば
Figure 2017516125
に関して実行されてもよい。この目的関数は、ACELPエンコーダの典型的な目的関数と比較すると複雑性が低減されており、その結果、符号化のパフォーマンスが効果的に向上する。このパフォーマンスの向上は、より高い分解能を有するオーディオ信号ASを符号化するために、又は必要なリソースを減らすために使用することができる。
信号
Figure 2017516125
は、符号化された信号であってもよく、符号化は、量子化及び符号化ステージ18によって実行されることは留意されるべきである。したがって、さらなる実施形態によれば、量子化及び符号化ステージ18は、算術符号化するように構成され得るエンコーダを備えていてもよい。量子化及び符号化ステージ18のエンコーダは、線形量子化ステップ(即ち、等距離)を用いても、対数等の可変量子化ステップを用いてもよい。あるいは、エンコーダは、別の(ロスレス)エントロピー符号化を実行するように構成されてもよく、コード長さは、特異入力信号ASの確率の関数として変化する。したがって、最適なコード長さを得るためには、入力信号の確率を、合成包絡線を基礎として、延てはLPC係数を基礎として検出することが1つの代替オプションであり得る。したがって、量子化符号化ステージは、LPCチャネル用の入力も有してもよい。
以下、目的関数
Figure 2017516125
の複雑性低減を可能にする背景について論じる。先に述べたように、向上した符号化は、ファクトライザ14によって実行される行列因数分解のステップ140を基礎とする。ファクトライザ14は、行列、例えば線形予測係数LPC(LPCチャネル参照)により定義されるフィルタ合成関数Hの自己相関行列R又は共分散行列C、を因数分解する。この因数分解の結果、2つの因数分解された行列、例えば、特異LPC係数を含む原行列Hを表すバンデルモンド行列V及び対角行列Dが得られる。これに起因して、残余信号xのサンプルが脱相関される。よって、変換残余信号の直接量子化(ステップ180参照)が最適な量子化であって、これにより、計算複雑性は、ビットレートとはほぼ無関係ということになる。これに比較すると、ACELPコードブックを最適化する従来手法は、計算複雑性と、特に高いビットレートにおける精度とを均衡させなければならない。したがって、背景に関しては、実際には、従来のACELP手順から論じていく。
ACELPの従来の目的関数は、共分散行列の形式をとる。向上した手法の場合、重み付け合成関数の自己相関行列を使用する代替的な目的関数が存在する。ACELPを基礎とするコーデックは、知覚加重合成領域における信号対雑音比(SNR)を最適化している。目的関数は、次式のように表すことができる。
Figure 2017516125
ここで、xは、標的残余であり、
Figure 2017516125
は、量子化された残余であり、Hは、重み付け合成フィルタに対応するコンボリューション行列であり、かつγは、スケール利得係数である。最適な量子化
Figure 2017516125
を求めるために、標準的な手法は、η(x,y)の導関数のゼロにおける、γ*で示されるγの最適値を求める。方程式(1)に、最適なγ*を代入すると、次式のような新たな目的関数が得られる。
Figure 2017516125
ここで、H*は、関数Hによる合成の、変換された共役バージョンである。
従来手法のHは、正方下三角畳み込み行列であり、よって、共分散行列C=H*Hは、対称共分散行列であることに留意されたい。下三角行列の、フルサイズの畳み込み行列による置換、よって、自己相関行列R=H*Hが対称テプリッツ行列であること、は、重み付け合成フィルタの他の相関に対応する。この置換により、品質に対する最小限の影響で、複雑性が大幅に低減される。
線形予測子14は、行列因数分解に共分散行列C又は自己相関行列Rのいずれを用いてもよい。以下の論考は、LPC係数に依存する行列の因数分解により目的関数を修正するために自己相関Rが使用される、という仮定に基づいて行う。R等の対称正定値トプリッツ行列は、固有値分解を含む幾つかの方法を介して次式のように分解することができる。
R=V*DV (3)
ここで、V*は、変換共役バージョンのバンデルモンド行列Vである。共分散行列Cを用いる従来手法では、特異値分解C=USV等の他の因数分解を適用することができる。
自己相関行列に対しては、同じく方程式(3)の形式である、本明細書においてバンデルモンド因数分解と称する代替因数分解が使用されてもよい。バンデルモンド因数分解は、因数分解/変換を可能にする新規概念である。バンデルモンド行列は、値|Vk|=1を有するVを有し、かつ、
Figure 2017516125
であり、Dは、狭義正の成分を有する対角行列である。分解は、複雑性がO(N3)である任意の精度で計算することができる。直接分解は、典型的には、
Figure 2017516125
の計算複雑性を有するが、ここでは、これを
Figure 2017516125
まで減らすことができ、あるいは、近似因数分解で足りる場合、複雑性をO(N log N)まで減らすことができる。選択される分解に関しては、
y=D1/2Vx及び
Figure 2017516125
のように定義してもよい。ここで、x=V-1-1/2 yであり、式(2)への代入によって次式を得ることができる。
Figure 2017516125
この場合、yのサンプルは、互いに相関せず、また上述の目的関数は、標的残余と量子化された残余との正規化相関であるに過ぎないことに留意されたい。よって、yのサンプルは、独立した量子化が可能であり、全てのサンプルの精度が等しければ、この量子化が、考えられる最良の精度を生み出すことになる。
バンデルモンド因数分解の場合、Vの値が|Vk|=1であることから、これは、ワープ離散フーリエ変換に対応し、yの要素は残余の周波数成分に対応する。さらに、対角行列Dによる乗算は周波数帯域のスケーリングに対応し、よって、yは、残余の周波数領域表現であることになる。
一方で、固有分解は、固有分解とフーリエ変換とが一致して窓長さが無限大に近づくときにのみ、物理的解釈を有する。したがって、有限長さの固有分解は、信号の周波数表現に緩く関連づけられるが、成分を周波数にラベリングすることは、困難である。それでもなお、固有分解は、最適な基礎であることが知られ、よって、事例によっては、最適パフォーマンスを与えることができる。
これらの2つの因数分解された行列V及びDから開始して、トランスフォーマ16は、残余信号xが方程式(5)により定義される脱相関ベクトルを用いて変換されるように、変換160を実行する。
xが無相関の白色雑音であるとすれば、Vxのサンプルも等しいエネルギー期待値を有する。その結果、値を符号化するために算術エンコーダ、又は代数コードブックを用いるエンコーダが使用されてもよい。しかしながら、Vxの量子化は、対角行列D1/2を除外することに起因して、目的関数にとって最適ではない。一方で、全変換y=D1/2Vxは、対角行列Dによるスケーリングを含み、これにより、yのサンプルのエネルギー期待値が変わる。分散が不均一な代数コードブックを作成することは自明ではない。したがって、代数コードブックを代わりに用いて最適なビット消費を達成することは、1つのオプションであり得る。次には、[14]で明らかにされているように、算術コーディングを精確に定義することができる。
バンデルモンド変換又は別の複素変換等の分解が使用されれば、実数部及び虚数部は、独立した確率変数であることに留意されたい。複素変数のバリアントがσ2であれば、実数部及び虚数部は、分散σ2/2を有する。固有値分解等の実数値分解は、実数値のみを提供し、よって、実数部及び虚数部の分離は不要である。複素数値変換を用いてパフォーマンスを高める場合、従来の複素数値の算術コーディング方法を適用することができる。
上述の実施形態によれば、予測係数LPC(DSLPC参照)は、LSF信号(線スペクトル周波数信号)として出力されるが、代替オプションとして、予測係数LPCを因数分解された行列V及びD(DSDV参照)内で出力することがある。この代替オプションは、V、Dで記されている破線によって示されており、DSDVがファクトライザ14の出力から結果的に生じることが示されている。
したがって、本発明の別の実施形態は、2つの因数分解された行列(DSVD)の形式である予測係数LPCを備えるデータストリーム(DS)を参照している。
図2に関連して、デコーダ20及び対応する復号方法200について論じる。
図2aは、復号ステージ22と、任意のファクトライザ24と、再トランスフォーマ26と、合成ステージ28と、を備えたデコーダ20を示す。復号ステージ22並びにファクトライザ24は、デコーダ20の入力に配置され、よって、データストリームDSを受信するように構成されている。詳述すれば、データストリームDSの第1の部分、即ち線形予測係数は、任意のファクトライザ24へ提供され(DSLPC/DSDV参照)、第2の部分、即ち量子化変換残余信号
Figure 2017516125
又は符号化された量子化変換残余信号
Figure 2017516125
は、復号ステージ22へ提供される(
Figure 2017516125
参照)。合成ステージ28は、デコーダ20の出力に配置され、オーディオ信号ASに類似するが全く同じではないオーディオ信号AS’を出力するように構成されている。
オーディオ信号AS’の合成は、LPC係数を基礎とし(DSLPC/DSDV参照)、かつ残余信号xを基礎とする。したがって、合成ステージ28は、DSLPC信号を受信するための入力へ、かつ残余信号xを提供する再トランスフォーマ26へ結合される。再トランスフォーマ26は、変換残余信号yを基礎とし、かつ少なくとも2つの因数分解された行列V及びDを基礎として残余信号xを計算する。したがって、再トランスフォーマ26は、少なくとも2つの入力、即ち、V及びDを例えばファクトライザ24から受信するための第1の入力、及び変換残余信号yを復号ステージから受信するための1つの入力、を有する。
以下、図2bに示されている対応する方法200を参照して、デコーダ20の機能について詳述する。デコーダ20は、(エンコーダから)データストリームDSを受信する。このデータストリームDSは、デコーダ20がオーディオ信号AS’を合成できるようにするが、DSLPC/DSDVで参照されるデータストリーム部分は、基本信号の合成を可能にし、
Figure 2017516125
で参照される部分は、オーディオ信号AS’の詳細部分の合成を可能にする。第1のステップ220において、復号ステージ22は、入ってきた信号
Figure 2017516125
を復号し、変換残余信号yを再トランスフォーマ26(ステップ260参照)へ出力する。
これに並行して又は連続して、ファクトライザ24は、因数分解を実行する(ステップ240参照)。ステップ140に関連して論じたように、ファクトライザ24は、合成フィルタ関数Hの自己相関行列R又は共分散行列Cに行列因数分解を適用する。即ち、デコーダ20により使用される因数分解は、符号化の側面において述べた因数分解(方法100参照)に類似又はほぼ類似し、よって、先に論じたように、固有値分解又はコレスキー因数分解であってもよい。ここで、合成フィルタ関数Hは、着信するデータストリームDSLPC/DSDVから外される。さらに、ファクトライザ24は、2つの因数分解された行列V及びDを再トランスフォーマ26へ出力する。
2つの行列V及びDを基礎として、再トランスフォーマ26は、変換残余信号yから残余信号xを再変換し、xを合成ステージ28(ステップ280参照)へ出力する。合成ステージ28は、残余信号xを基礎とし、かつデータストリームDSLPC/DSDVとして受信されるLPC係数LPCを基礎としてオーディオ信号AS’を合成する。エンコーダ10が実行する量子化がロスレスではないことから、オーディオ信号AS’は、オーディオ信号ASに類似するものであるが、全く同じではない点に留意すべきである。
別の実施形態によれば、因数分解された行列V及びDは、再トランスフォーマ26へ別のエンティティから、例えば、エンコーダ10から直に(データストリームの一部として)提供されてもよい。したがって、デコーダ20のファクトライザ24並びに行列因数分解ステップ240は任意のエンティティ/ステップであり、よって、破線で示されている。ここでは、入ってくる因数分解された行列V及びDから(合成280を実行する基礎となる)予測係数LPCを導出し得ることを代替オプションとすることができる。言い替えれば、これは、データストリームDSが
Figure 2017516125
とDSLPCではなく、
Figure 2017516125
と行列V及びD(即ち、DSDV)を備えていることを意味する。
以下、図3a及び図3bに関連して、上述の符号化(並びに復号)のパフォーマンス向上について論じる。
図3aは、知覚的信号対雑音比平均を、受信可能な長さでありかつ等しい64フレームを符号化するために使用されるビット数の関数として示す線図である。線図には、5つの異なる量子化手法に関する5つの曲線が示されているが、そのうちの2つの手法、即ち最適量子化及びペアワイズな反復量子化、は、従来手法である。公式(1)は、この比較の基礎を成す。提案する脱相関方法の量子化パフォーマンスと、残余信号の従来の時間領域表現との比較として、ACELPコーデックを次のように実装した。入力信号を12.8kHzにリサンプルし、各フレームでセンタリングされた長さ32msのハミング窓によって線形予測子を推定した。次に、AMR−WBコーデックのサブフレームに対応する長さ5msのフレームについて、予測残余を計算した。網羅探索により、32サンプルと150サンプルとの間の整数ラグにおいて、長期予測子を最適化した。最適値を用いて、量子化を行うことなくLTPを得た。
入力信号へ、かつAMR−WBの場合と同様に合成において、フィルタ(1−0.68z-1)によるプリエンファシスを適用した。適用した知覚加重は、A(0.92z-1)であった。ただし、A(z)は、線形予測フィルタである。
パフォーマンスを評価するためには、提案する量子化と従来手法(最適量子化及びペアワイズな反復量子化)とを比較する必要がある。最も頻繁に使用される手法は、長さ64フレームより成るフレームの残余信号をインタレースされた4トラックに分割する。この手法を、2つの方法、即ち、網羅探索において全ての組合せを試行する最適量子化(Opt参照)手法、又は、可能性のあるあらゆるポジションにおいて2パルスの連続加算を試行するペアワイズな反復量子化(Pair参照)、によって適用した。
前者は、1フレームあたりのビット数15を超えるビットレートで計算が実行不可能なほど複雑になり、後者は、部分最適となる。後者は、AMR−WB等のコーデックに適用される最新技術方法より複雑でもあるが、それ故に、おそらくはより優れた信号対雑音比をも生み出すことに留意されたい。これらの従来方法を、上述の量子化アルゴリズムと比較する。
バンデルモンド量子化(Vand参照)は、残余ベクトルxをy=D1/2Vxによって変換する。ここで、行列V及びDは、バンデルモンド因数分解から得られ、量子化には、算術コーダを用いる。固有値の量子化(Eig参照)は、バンデルモンド量子化に類似するものであるが、行列V及びDは、固有値分解によって求める。さらに、FFT量子化(FFT参照)が適用されてもよく、即ち、さらなる実施形態によれば、y=D1/2Vxの変換におけるフィルタを用いるウィンドウイングの組合せを、離散フーリエ変換(DFT)、離散コサイン変換(DCT)、修正離散コサイン変換(MDCT)又は信号処理アルゴリズムにおける他の変換の代わりに用いることができる。バンデルモンド量子化の場合と同じ算術コーダを適用する場合には、残余信号のFFT(高速フーリエ変換)が採用される。FFT手法は、方程式(2)におけるサンプル間の相関の考慮が重要である点が周知であって、品質を下げることは明らかである。したがって、この量子化の基準点は低い。
長期知覚的信号対雑音比平均及び方程式(1)が定義するような方法の複雑性を評価する、記述している方法のパフォーマンスの実証を図3aに示す。明らかに、期待の通り、FFT−領域における量子化は、最悪の信号対雑音比をもたらすことが分かる。低いパフォーマンスの理由としては、この量子化が残余サンプル間の相関を考慮していないということを挙げることができる。さらに、時間領域残余信号の最適量子化は、1フレームあたり5ビットから10ビットまでのビット数におけるペアワイズ最適化に等しい、と述べることもできるが、その理由は、これらのビットレートでは僅か1又は2パルスしか存在せず、よって双方の方法が全く同じであることにある。1フレームあたりのビット数が15である場合、最適方法は、期待通り、ペアワイズ最適化より僅かに優れている。
1フレームあたり10ビット以上では、バンデルモンド領域における量子化が時間領域の量子化より優れ、バンデルモンド領域よりも固有値領域の方が1ステップ分優れている。1フレームあたり5ビットでは、算術コーダのパフォーマンスが、おそらくは著しく疎な信号に対して部分最適であることが知られている点に起因して、急速に下がる。
また、1フレームあたり80ビットを超えると、ペアワイズ方法がペアワイズ方法から逸脱し始めることも観察されたい。非公式の実験は、ビットレートが高くなるほどこの傾向が高まり、よって、最終的には、FFT方法及びペアワイズ方法が、固有値方法及びバンデルモンド方法より遙かに低い値で同じ信号対雑音比に達することを示している。一方で、固有値及びバンデルモンド値は、多かれ少なかれビットレートの線形関数であり続ける。固有値方法は、一貫して、バンデルモンド方法より約0.36dBだけ優れている。仮説として、この差分のうちの少なくとも一部は、算術コーダにおける実数部及び複素部の分離によって説明される。最適パフォーマンスのためには、実数部及び複素部は、一緒に符号化されるべきである。
図3bは、異なるアルゴリズムの複雑性の推定を例示するための、各ビットレートにおける各手法の実行時間測定値を示す。最適時間領域手法(Opt参照)の複雑性は、低いビットレートにおいて既に急増することが分かる。時間領域残余のペアワイズ最適化(Pair参照)は、次に、ビットレートの関数として線形的に増加する。最新技術による方法は、ペアワイズ手法の複雑性を、高いビットレートに対して一定となるように制限するが、図3aが示す実験の信号対雑音比の競合的な結果は、こうした制限に達し得ないことに留意されたい。さらに、脱相関手法(Eig及びVand参照)並びにFFT手法(FFT参照)は、共に、ビットレート全体で略一定である。バンデルモンド変換は、上述の実装において、固有分解法より約50%高い複雑性を有するが、その理由は、MATLABにより提供される高度最適化バージョンの固有分解の使用によって説明することができる。一方で、バンデルモンド因数分解は、最適な実装ではない。しかしながら、重要な点として、1フレームあたり100ビットのビットレートにおいて、ペアワイズ最適化ACELPは、各々バンデルモンド及び固有分解ベースアルゴリズムの約30倍及び50倍複雑である。唯一、FFTが固有分解法より高速であるが、FFTは、信号対雑音比が低いことから実行可能なオプションではない。
要約すると、上述の方法には、2つの重大な優位点がある。第1に、知覚領域において量子化を適用することにより、知覚信号対雑音比が向上する。第2に、残余信号が(目的関数に関して)脱相関されることから、量子化を、高度に複雑な合成による分析ループなしに直接適用することができる。よって、提案方法の計算複雑性は、ビットレートに対してほぼ一定であるが、従来手法は、ビットレートの増加に伴ってますます複雑になる、ということになる。
先に提示した手法は、従来の音声及びオーディオコーディング方法では全く動作不能である。具体的には、目的関数の脱相関は、MPEG USAC又はAMR−WB+等のACELPモードのコードにおいて、コーデック内に存在する他のツールへの制約なしに適用される可能性もある。コア帯域幅又は帯域幅拡張方法を適用する方法は変わることがなく、ACELPにおける長期予測、フォルマント強調、バス・ポスト・フィルタリング、他の方法も変える必要がなく、異なる符号化モード(ACELP及びTCX等)の実装方法は、目的関数の脱相関によって影響されない。
一方で、同じ目的関数(方程式(1)参照)を用いる全てのツール(即ち、少なくとも全てのACELP実装)が、脱相関を利用して容易に再定式化され得ることは明らかである。したがって、さらなる実施形態によれば、脱関数を、例えば長期予測寄与に適用することができ、よって、脱相関信号を用いて利得係数を計算することができる。
さらに、提示している変換領域は、周波数領域表現であることから、さらなる実施形態によれば、周波数領域の音声及びオーディオコーデックの古典的方法も、この新規領域へ適用されてもよい。特殊な実施形態によれば、スペクトル線の量子化において、効率を高めるためのデッドゾーンが適用されてもよい。別の実施形態によれば、スペクトルホールを回避するためにノイズ注入が適用されてもよい。
符号化に関する上述の実施形態(図1a及び図1b参照)は、線形予測子を用いるエンコーダの側面で論じられているが、予測子は、オーディオ信号ASの基本周波数を記述する長期予測係数を決定するため、そして、長期予測係数により定義されるフィルタ関数を基礎としてオーディオ信号ASをフィルタリングして、さらなる処理のための残余信号xを出力するために、長期予測子を含むようにも構成され得ることは留意されるべきである。さらなる実施形態によれば、予測子は、線形予測子と長期予測子との組合せであってもよい。
提案している変換が、音声強調等の音声及びオーディオ処理における他のタスクへ容易に適用可能であることは、明らかである。第1に、部分空間ベースの方法は、信号の固有値分解又は特異値分解を基礎とする。提示している手法は、類似の分解を基礎とすることから、さらなる実施形態によれば、部分空間分析を基礎とする音声強調方法は、提案している領域へ適応されてもよい。従来の部分空間方法との相違は、信号モデルが、ACELPにおける適用のように、線形予測及び残余領域におけるウィンドウイングを基礎として適用される場合に存在する。一方で、伝統的な部分空間方法は、時間的に一定である(非適応)重なり合う窓を適用する。
第2に、バンデルモンド脱相関を基礎とする脱相関は、離散フーリエ、コサイン又は他の類似する変換によって提供されるものと同様の周波数領域を提供する。したがって、通常フーリエ、コサイン又は類似の変換領域において実行される音声処理アルゴリズムはいずれも、最小限の修正により、先に述べた手法の変換領域においても適用可能である。したがって、変換領域において、スペクトル減算を用いる音声強調が適用されてもよく、即ち、これは、さらなる実施形態によれば、提案している変換を、音声又はオーディオ強調において、例えばスペクトル減算法、部分空間分析又はこれらの導関数及び変形によって使用できることを意味する。この場合の利点は、この手法がACELPと同じウィンドウイングを使用し、よって、音声強調アルゴリズムを厳密に音声コーデックへ統合できることにある。さらに、ACELPの窓は、従来の部分空間分析において使用されるものより低いアルゴリズム的遅延を有する。したがって、必然的に、ウィンドウイングは、より高いパフォーマンスの信号モデルを基礎とする。
トランスフォーマ14に使用される、即ちステップ140において使用される方程式(5)を参照すると、その生成もまた、例えばy=DVxという形式において相違し得ることは留意されるべきである。
さらなる実施形態によれば、エンコーダ10は、その出力に、2つのデータストリーム、DSLPC/DSDV及び
Figure 2017516125
、を共通のパケットDSにパケット化するように構成されるパッカを備えてもよい。逆もまた同様に、デコーダ20は、データストリームDSを2つのパック、DSLPC/DSDV及び
Figure 2017516125
、に分割するように構成されるデパケッタイザを備えてもよい。
幾つかの態様を、装置のコンテキストにおいて記述してきたが、これらの態様が、対応する方法の説明を表現するものでもあり、ブロック又はデバイスが方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップの側面において記述されている態様は、対応する装置の対応するブロック、アイテム又は特徴の説明をも表現している。方法ステップのうちの幾つか又は全ては、例えば、マイクロプロセッサ、プログラマブルコンピュータ又は電子回路のようなハードウェア装置によって(又は、これを用いて)実行されてもよい。実施形態によっては、最も重要な方法ステップのうちのいずれか1つ又はそれ以上が、このような装置によって実行されてもよい。
本発明による符号化されたオーディオ信号は、デジタル記憶媒体に記憶されることが可能であり、又は、無線伝送媒体若しくはインターネット等の有線伝送媒体などの伝送媒体上で伝送されることが可能である。
所定の実装要件に依存して、本発明の実施形態は、ハードウェア又はソフトウェアに実装することができる。実装は、個々の方法が実装されるようにプログラム可能コンピュータシステムと共働する(又は、共働することができる)、電子読取り可能制御信号を格納しているデジタル記憶媒体、例えば、フロッピーディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROM又はフラッシュメモリ、を用いて実行することができる。したがって、デジタル記憶媒体は、コンピュータ読取り可能であってもよい。
本発明による幾つかの実施形態は、本明細書に記述している方法のうちの1つが実行されるようにプログラム可能コンピュータシステムと共働することができる、電子読取り可能制御信号を有するデータキャリアを備える。
概して、本発明の実施形態は、プログラムコードを有するコンピュータ・プログラム・プロダクトとしての実装が可能であり、プログラムコードは、コンピュータ上でコンピュータ・プログラム・プロダクトが実行されると方法のうちの1つを実行するように作動する。プログラムコードは、例えば、機械読取り可能キャリア上に記憶されてもよい。
他の実施形態は、機械読取り可能キャリア上に記憶される、本明細書に記述している方法のうちの1つを実行するためのコンピュータプログラムを含む。
したがって、言い替えれば、本発明方法の一実施形態は、コンピュータ上でコンピュータプログラムが実行されると本明細書に記述している方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
したがって、本発明方法のさらなる実施形態は、本明細書に記述している方法のうちの1つを実行するためのコンピュータプログラムを記録して備えるデータキャリア(又は、デジタル記憶媒体、若しくはコンピュータ読取り可能媒体)である。データキャリア、デジタル記憶媒体又は記録媒体は、典型的には、有形及び/又は非遷移性である。
したがって、本発明方法のさらなる実施形態は、本明細書に記述している方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリーム又は信号シーケンスである。データストリーム又は信号シーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成されてもよい。
さらなる実施形態は、本明細書に記述している方法のうちの1つを実行するように構成又は適合化される処理手段、例えばコンピュータ、又はプログラマブル論理デバイス、を含む。
さらなる実施形態は、本明細書に記述している方法のうちの1つを実行するためのコンピュータプログラムをインストールしているコンピュータを含む。
本発明によるさらなる実施形態は、本明細書に記述している方法のうちの1つを実行するためのコンピュータプログラムを受信機へ(例えば、電子的又は光学的に)転送するように構成される装置又はシステムを備える。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイス又はこれらに類似するものであってもよい。装置又はシステムは、例えば、コンピュータプログラムを受信機へ転送するためのファイルサーバを備えてもよい。
実施形態によっては、プログラマブル論理デバイス(例えば、フィールド・プログラマブル・ゲート・アレイ)は、本明細書に記述している方法の機能のうちの一部又は全てを実行するために使用されてもよい。実施形態によっては、フィールド・プログラマブル・ゲート・アレイは、本明細書に記述している方法のうちの1つを実行するために、マイクロプロセッサと共働してもよい。概して、本方法は、好ましくは、あらゆるハードウェア装置によって実行される。
以下、上述の教示を、異なる文言により、かつ本発明の背景を浮き彫りにする手助けとなり得る幾つかのさらなる詳細によって論じる。バンデルモンド変換は、最近、離散フーリエ変換とは異なり、同じく信号を脱相関する時間−周波数変換として提示された。フーリエが提供する近似的又は漸近的脱相関は、多くの事例において十分なものであるが、短い窓を使用するアプリケーションでは、パフォーマンスが不十分である。したがって、バンデルモンド変換は、経時的に入力信号が急激に変化するために短い分析窓を用いなければならない音声及びオーディオ処理アプリケーションにおいて有益であろう。このようなアプリケーションは、計算容量が制限されるメモリデバイスに対して使用される場合が多く、よって、効率的な計算が決定的に重要である。
しかしながら、バンデルモンド変換の実装は、相当な骨折り仕事であることが判明していて、複雑性及び精度に合わせてパフォーマンスが最適化される高度な数値ツールを必要とする。この寄与は、このタスクに対して、パフォーマンス評価を含むベースライン解を提供する。索引語−時間−周波数変換、脱相関、バンデルモンド行列、テプリッツ行列、ワープ離散フーリエ変換
離散フーリエ変換は、デジタル信号処理における最も基本的なツールの1つである。これは、入力信号の物理的に動機づけされた表現を周波数成分の形式で提供する。高速フーリエ変換(FFT)は、離散フーリエ変換をやはり超低計算複雑性
Figure 2017516125
で計算することから、デジタル信号処理の最も重要なツールの1つとなっている。
有名ではあるが、離散フーリエ変換には欠点があり、信号成分を完全には脱相関しない(数値例に関しては、セクション4を参照されたい)。変換長が無限大に収束する場合にのみ、成分は直交になる。多くのアプリケーションでは、このような近似脱相関で充分である。しかしながら、多くの音声及びオーディオ処理アプリケーション等の比較的小さい変換を使用するアプリケーションでは、この近似の精度がアルゴリズムの全体効率を制限する。例えば、音声符号化規格AMR−WBは、
Figure 2017516125
の窓を使用する。実践により、離散フーリエ変換のパフォーマンスは、この場合不十分であることが分かっており、したがって、主流の音声コーデックのほとんどは、時間領域符号化を用いている。
図3cは、バンデルモンド変換の特性を示す。51で示されている太線は、信号の(非ワープ)フーリエスペクトルを示し、線52、線53及び線54は、入力信号でフィルタリングされた、選択された3周波数の通過帯域フィルタの応答である。バンデルモンド因数分解のサイズは、64である。
当然ながら、入力信号の脱相関を提供する変換は、カルーネン−レーベ変換(KLT)等、多数存在する。しかしながら、KLTの成分は、フーリエ変換のように単純な物理的解釈のない抽象的エンティティである。一方で、物理的に動機づけされた領域は、物理的に動機づけされた基準を処理方法へ単純に実装することを可能にする。したがって、物理的解釈及び脱相関の双方を提供する変換が望まれる。
私達は、最近、これらの好ましい特性の双方を有する、バンデルモンド変換と呼ばれる変換を提示した。これは、エルミートテプリッツ行列を対角行列とバンデルモンド行列との積へ分解することを基礎とする。この因数分解は、事実上、共分散行列のカラテオドリのパラメータ化としても知られ、ハンケル行列のバンデルモンド因数分解に酷似している。
正定値エルミートテプリッツ行列という特殊な事例の場合、バンデルモンド因数分解は、周波数ワープ離散フーリエ変換に相当する。言い替えれば、これは、必ずしも均一に分散されていない周波数においてサンプリングされる信号成分を提供する時間−周波数変換である。したがって、バンデルモンド変換は、所望される性質、即ち、脱相関及び物理的解釈、の双方を提供する。
バンデルモンド変換の存在及び性質は、分析的に実証されているが、現在の作業の目的は、第1に、バンデルモンド変換の既存の実用アルゴリズムを収集しかつ記録することにある。これらの方法は、数値代数、数値解析、システム識別、時間−周波数解析及び信号処理を含む極めて多様な分野に現出していて、発見しにくいことが多い。したがって、本稿は、結果の解析及び論考の共同プラットフォームを提供する方法を再検討するものである。第2に、異なる方法のパフォーマンスをさらに評価するためのベースラインとして、数値例を提供する。
本セクションでは、バンデルモンド変換について簡単に紹介する。アプリケーションに関するより包括的な動機付け及び論考のために、以下を参照する。
バンデルモンド行列Vは、スカラvkによって次式のように定義される。
Figure 2017516125
スカラvkが区別的(k≠hのとき、vk≠vh)であれば、これは最大階数であり、その逆数は、明示公式を有する。
対称テプリッツ行列Tは、スカラτkによって次式のように定義される。
Figure 2017516125
Tが正定値であれば、これは、
T=V*ΛV (3z)
のように因数分解することができる。ここで、Λは、実数かつ狭義正の成分λkk>0を有する対角行列であり、指数級数Vは、全て単位円上にあって、νk=exp(iβk)である。この形式は、テプリッツ行列のカラテオドリのパラメータ化としても知られる。
ここでは、バンデルモンド変換の2つの使用法、即ち、脱相関変換又は畳み込み行列の置換の何れかとしての使用法を提示する。まず、自己相関行列E[xx*]=Rxを有する信号xについて考察する。この自己相関行列は、正定値の対称性かつテプリッツであることから、これを、R=V*ΛVのように因数分解することができる。よって、変換、
d=V-*x (4z)
但し、V-*はVの逆エルミート、を適用すれば、ydの自己相関行列は、次式のようになる。
Figure 2017516125
したがって、変換信号ydは、無相関である。逆変換は、次式の通りである。
x=V*d (6z)
発見的記述として、前方変換V-*は、そのk番目の行に、通過帯域が周波数−βkであるフィルタを含み、かつxの阻止帯域出力は、低エネルギーを有する、と言うことができる。具体的には、出力のスペクトル形状は、単位円上に単極を有するAR−フィルタのそれに近い。このフィルタバンクは、信号適応的であることから、ここでは、基底関数の周波数応答ではなく、フィルタ出力について考察することに留意されたい。
次に、後方変換V*は、その列内に指数級数を有し、よって、xは、指数級数の加重和である。言い替えれば、この変換は、ワープ時間−周波数変換である。図3cは、入力信号xの離散(非ワープ)フーリエスペクトル、及びV-*の選択された行の周波数応答を明示している。
畳み込み領域における信号を評価するためのバンデルモンド変換は、次のように構成することができる。Cを畳み込み行列、xを入力信号とする。畳み込み信号yc=Cxの評価を目的とする事例について考察されたい。このような評価は、例えば、量子化誤差エネルギーが知覚領域において評価され、かつ知覚領域へのマッピングがフィルタによって記述される、ACELPを使用する音声コーデックにおいて現出する。
cのエネルギーは、次式の通りである。
Figure 2017516125
したがって、ycのエネルギーは、変換されかつスケーリングされた信号のエネルギーに等しい。
Figure 2017516125
したがって、畳み込み領域又は変換領域における信号エネルギーを同等に評価することができ、
Figure 2017516125
である。明らかに、逆変換は、次式の通りである。
x=V-1Λ-1/2v (9z)
前方変換Vは、その行内に指数級数を有し、よって、これは、ワープフーリエ変換である。その逆変換V-1は、その列内に、βkに通過帯域を有するフィルタを有する。この形式において、フィルタバンクの周波数応答は、離散フーリエ変換に等しい。通常エイリアシング成分のように見えるものを使用して完全再構成を可能にするのは、逆変換のみである。
バンデルモンド変換を用いるためには、変換を決定し、並びに変換を適用するための効果的なアルゴリズムが必要である。本セクションでは、利用可能なアルゴリズムについて論じる。まずは、より単純なタスクであることから、変換のアプリケーションについて論じる。
V及びV*による乗算は、単純であり、よってO(N2)に実装することができる。記憶要件を減らすために、ここに、h>1について指数
Figure 2017516125
を明示的に評価する必要のないアルゴリズムを示す。即ち、y=Vxであり、かつxの要素がξkであれば、yの要素ηkは、次の再帰を用いて決定することができる。
Figure 2017516125
ここで、τh,kは、一時スカラであり、記憶する必要があるのはそのカレント値のみである。全体再帰は、N個の成分に関してNステップを有し、よって、全体複雑性はO(N2)でありかつ記憶不変である。y=V*xについても、類似のアルゴリズムを即座に書くことができる。
バンデルモンドの逆行列V-1及びV-*による乗算は、もう少し複雑なタスクであるが、幸運にも、既に文献から比較的効率的な方法を利用可能である。アルゴリズムは、実装が簡単であり、かつx=V-1y及びx=V-*yの双方で複雑性はO(N2)であり、記憶線形的O(N)である。しかしながら、このアルゴリズムは、ステップ毎に除算を含み、よって多くのアーキテクチャにおいて固定費が高くなる。
逆数による乗算の上記アルゴリズムは、解析的には精確であるが、実用的実装では、
Figure 2017516125
値が大きければ数値的に不安定になる。したがって、経験的に、
Figure 2017516125
のサイズが64までの行列による計算は、場合によって可能であるが、これを超えると、これらのアルゴリズムは、数値的不安定によって役に立たなくなる。実用解は、軸選択形ガウス消去に等しい、根vkのLejaによる順序付けである。Lejaによる順序付けの背後にある主たる考案は、根を、根vkとその前の根0...(k−1)との距離が最大化されるようにして再配列する、というものである。このような再配置により、アルゴリズムに現出する分母が最大化され、かつ中間変数の値が最小化され、よって、切り捨て誤差による寄与分も最小化される。Lejaによる順序付けの実装は単純であって、複雑性O(N2)及び記憶O(N)で達成することができる。
よって、最終的なハードルは、因数分解、即ち根vk、及び必要であれば、対角値λkkを求めることである。知り得る限り、根は、次式、
Ra=[1 1...1]T (11z)
を解くことにより求めることができる。ここで、aは、要素αkを有する。よって、v0=1であり、かつ残りの根v1...vNは、多項式
Figure 2017516125
の根である。これが、ハンケル系、
Figure 2017516125
の解法に等しいことは、容易に証明することができる。ここで、
Figure 2017516125
である。よって、根vkは、
Figure 2017516125
の根となる。
原初のテプリッツ系方程式11zは、方程式12zと等価であることから、ハンケル行列の因数分解に高速アルゴリズムを用いることができる。このアルゴリズムは、固有値が
Figure 2017516125
の根に一致する三重対角行列を返す。次には、O(N2)においてLRアルゴリズムを適用することにより、又は、O(N3)において標準非対称QRアルゴリズムによって、固有値を求めることができる。こうして求める根は、近似値であり、よって、単位円から僅かに外れる場合もある。よって、根の絶対値を1に正規化し、かつニュートン法による2又は3回の反復によって精緻化することが有益である。完全プロセスは、O(N2)の計算コストを有する。
因数分解の最終ステップは、対角値Λを求めることである。次式、
Re=V*ΛVe=V*λ (13z)
を観察されたい。ここで、e=[1 0...0]Tであり、λは、Λの対角値を含むベクトルである。言い替えれば、
λ=V-*(Re) (14z)
を計算することにより、対角値λkkを求める。この逆は、先に論じた方法で計算することができ、よって、対角値は、複雑性O(N2)で得られる。
要するに、行列Rの因数分解に必要なステップは、下記の通りである。
1.レビンソン−ダーバン法又は他の古典的方法を用いて、方程式11zのaを解く。
2.自己相関数列を
Figure 2017516125
で拡張する。
3.数列τkに三重対角化アルゴリズムを適用する。
4.LR−アルゴリズム又は対称QR−アルゴリズムの何れかを用いて固有値vkを解く。
5.vkの1へのスケーリング及びニュートン法の数回の反復によって、根位置を精緻化する。
6.方程式14zを用いて対角値λkkを決定する。
まず、使用する概念を実証する数値例から開始する。ここで、行列Cは、自明なフィルタ1+z-1に対応する畳み込み行列であり、行列Rは、その自己相関であり、行列Vは、セクション3におけるアルゴリズムにより求めた対応するバンデルモンド行列であり、行列Fは、離散フーリエ変換行列であり、かつ行列ΛV及びΛFは、2変換の対角化精度を明示する。よって、次式、
Figure 2017516125
を定義することができ、これにより、対角化を次式によって評価することができる。
Figure 2017516125
ここでは、バンデルモンド変換によって完全対角行列ΛVが得られることが分かる。離散フーリエ変換のパフォーマンスは、非対角値が明らかに非ゼロであることから、最適とはほど遠い。パフォーマンスの尺度として、非対角値及び対角値の絶対和の割合を計算することができるが、バンデルモンド因数分解のそれは、ゼロであり、フーリエ変換のそれは、0.444である。
次に、セクション3に記述している実装の評価に進む。MATLABにおける各アルゴリズムの実装は、将来の研究との比較対象になるパフォーマンスベースラインを提供し、かつ最終的なパフォーマンスボトルネックを発見することを目的として行った。パフォーマンスを、複雑性及び精度に関連して考察していく。
因数分解のパフォーマンスを決定するために、バンデルモンド因数分解を離散フーリエ変換及びカルーネン−レーベ変換と比較する。後者は、固有値分解によって適用する。バンデルモンド因数分解の適用は、2つの方法、即ち第1の、本稿に記載しているアルゴリズム(V1)及び第2の、MATLABにより提供される組み込み求根関数の使用において記述している手法(V2)、を用いて行った。このMATLAB関数は、細かく調整された汎用アルゴリズムであることから、精確な結果は得られるものの、複雑性は私達の専用アルゴリズムより高いことが予想される。
全実験用のデータとして、MPEG USAC規格の評価に使用される音声、オーディオ及び混合音サンプルの集合を12.8kHzのサンプリング速度で用いた。オーディオサンプルをハミング窓によって所望される長さにウィンドウ処理し、その自己相関を計算した。自己相関行列が確実に正定値であるように、主対角に(1+10-5)を乗じた。
パフォーマンスの尺度として、正規化された実行時間に対する計算複雑性、及び非対角要素及び対角要素の絶対和の割合により測定される、
Figure 2017516125
と対角行列との接近性に関する精度を用いた。結果を、表1及び表2に記す。
表1.正規化された実行時間に対する異なる窓長さNの因数分解アルゴリズムの複雑性
Figure 2017516125
表2.
Figure 2017516125
の非対角値及び対角値の絶対和の割合のlog10に対する異なる窓長さ
Figure 2017516125
Nの因数分解アルゴリズムの精度
Figure 2017516125
この場合、組み込みMATLAB関数は、私達固有のアルゴリズムとは異なる言語で実装されていることから、単にフレームサイズの関数としての複雑性増加でしかないアルゴリズム間の実行時間を比較することは、賢明でない点に留意されたい。提案アルゴリズムV1の複雑性は、KLTと比肩し得る速度で増大し、一方で、MATLABV2の求根関数を使用するアルゴリズムでは、さらに増大することが分かる。提案している因数分解アルゴリズムV1の精度は、いまだ最適ではない。しかしながら、MATLAB V2の求根関数は、KLTに匹敵する精度をもたらすことから、アルゴリズムの改良によって改善が可能であると結論付ける。
第2の実験は、精度及び複雑性を決定するための変換適用である。まず、方程式4z及び方程式9zを適用する。これらの方程式の複雑性は、表3に記されている。KLTの行列乗算、及びMATLAB V2の行列系の組み込み解は、略同じ複雑性増加速度を有するが、方程式4z及び方程式9zに関する提案方法は、遙かに低い増加であることが分かる。当然ながら、FFTは、他の全ての手法より速い。
最後に、バンデルモンド解の精度を求めるために、前方変換及び後方変換を順に適用する。原ベクトルと再構成ベクトルとの間のユークリッド距離を、表4に記す。まず、FFT及びKLTアルゴリズムは、直交変換を基礎とすることから、予想通り最も精確であることが観察できる。第2に、提案アルゴリズムV1の精度は、MATLAB V2の組み込み解より僅かに低いが、これらのアルゴリズムは共に、十分な精度を提供することが分かる。
利用可能なアルゴリズムを精査し、並びにさらなる開発のためのパフォーマンスベースラインを提供することを目的として、バンデルモンド因数分解を用いて時間−周波数変換を脱相関する実装の詳細を提示した。原則的には、アルゴリズムは、先行する研究から入手可能であるが、実行のためのシステムを得る必要があることが分かっている。
表3.正規化された実行時間に対する異なる窓長さ
Figure 2017516125
のバンデルモンド解の複雑性
本表において、
Figure 2017516125
は、各提案アルゴリズムによる方程式4z及び方程式9zの解を示す。
Figure 2017516125
表4.
Figure 2017516125
により測定した前方及び後方変換の精度
、ここで、
Figure 2017516125
は、原ベクトル及び再構成ベクトルである。
Figure 2017516125
相当な努力。主たる課題は、数値精度及び計算複雑性である。実験により、複雑性O(N2)で方法を利用可能であることが確認されているが、低い複雑性を数値安定性と同時に達成することは、難題である。しかしながら、一般的なMATLAB実装は、精確な解を提供することから、実装をさらに調整すれば、高精度の達成が可能であることを断言する。
結論として、実験は、バンデルモンド解の場合、提案しているアルゴリズムが良好な精度及び十分に低い複雑性を有することを示している。因数分解に関しては、専用の因数分解であれば、適度な複雑性でFFTより優れた脱相関を提供するが、精度に関しては、改良の余地がある。MATLABの組み込み実装は、十分な精度を与え、よって、結論として、精度O(N2)のアルゴリズムは、実装が可能である。
上述の実施形態は、本発明の原理を単に例示したものである。他の当業者には、本明細書に記述している装置及び詳細の改変及び変形が明らかとなることは理解される。したがって、本発明は、本明細書における実施形態の記述及び説明により提示される具体的詳細ではなく、添付の特許請求の範囲に記載される範囲によってのみ限定されることが意図されている。

Claims (23)

  1. オーディオ信号(AS)をデータストリーム(DS)に符号化するためのエンコーダ(10)であって、
    前記オーディオ信号(AS)のスペクトル包絡線又は前記オーディオ信号(AS)の基本周波数を記述する予測係数(LPC)を得るために前記オーディオ信号(AS)を分析し、かつ前記オーディオ信号(AS)の残余信号(x)を出力するために前記予測係数(LPC)に依存して前記オーディオ信号(AS)を分析フィルタ関数(H)にかけるように構成された線形予測子(12)と、
    因数分解された行列(V、D)を得るために、前記予測係数(LPC)により定義される合成フィルタ関数(H)の自己相関又は共分散行列(R、C)上へ行列因数分解を適用するように構成されたファクトライザ(14)と、
    変換された残余信号(y)を得るために、前記残余信号(x)を、前記因数分解された行列(V、D)を基礎として変換するように構成されたトランスフォーマ(16)と、
    量子化された変換残余信号
    Figure 2017516125
    又は符号化された量子化変換残余信号
    Figure 2017516125
    を得るために、前記変換された残余信号(y)を量子化するように構成された量子化及び符号化ステージ(18)と、を備えているエンコーダ(10)。
  2. 前記合成フィルタ関数(H)は、前記合成フィルタ関数(H)の重み付け値を有する行列(H)によって定義される請求項1に記載のエンコーダ(10)。
  3. 前記ファクトライザ(14)は、前記自己相関又は共分散行列(R、C)を、変換共役バージョンの前記合成フィルタ関数(H*)と正規バージョンの前記合成フィルタ関数(H)との積を基礎として計算する、請求項1又は2に記載のエンコーダ(10)。
  4. 前記ファクトライザ(14)は、前記自己相関又は共分散行列(R、C)を、公式C=V*DVを基礎として、又は公式R=V*DVを基礎として因数分解し、
    Vはバンデルモンド行列であり、V*は変換共役バージョンの前記バンデルモンド行列であり、Dは狭義正の成分を有する対角行列である請求項1から3のいずれか一項に記載のエンコーダ(10)。
  5. 前記ファクトライザ(14)は、バンデルモンド因数分解を実行するように構成されている請求項4に記載のエンコーダ(10)。
  6. 前記ファクトライザ(14)は、固有値分解及び/又はコレスキー因数分解を実行するように構成されている請求項1から5のいずれか一項に記載のエンコーダ(10)。
  7. 前記トランスフォーマ(16)は、前記残余信号(x)を、公式y=D1/2Vxを基礎として、又は公式y=DVxを基礎として変換する請求項4又は5に記載のエンコーダ(10)。
  8. 量子化及び符号化ステージ(18)は、前記量子化された変換残余信号
    Figure 2017516125
    を求めるために、目的関数
    Figure 2017516125
    を基礎として前記変換残余信号(y)を量子化する請求項1から7のいずれか一項に記載のエンコーダ(10)。
  9. 前記量子化及び符号化ステージ(18)は、ノイズ注入を適用して、前記オーディオ信号(AS)、前記残余信号(x)又は前記変換残余信号(y)のノイズ注入されたスペクトル表現を提供することにより、及び/又は、デッドゾーンに関する、又は他の量子化パラメータに関する前記量子化変換残余信号
    Figure 2017516125
    を最適化することにより、前記量子化を最適化するための手段を含む請求項1から8のいずれか一項に記載のエンコーダ(10)。
  10. 前記残余信号(x)の前記変換は、前記残余信号(x)の時間領域から前記変換残余信号(y)の周波数様領域への変換である請求項1から9のいずれか一項に記載のエンコーダ(10)。
  11. 前記量子化及び符号化ステージは、符号化された量子化変換残余信号
    Figure 2017516125
    を得るために、前記量子化変換残余信号
    Figure 2017516125
    を符号化するように構成されるコーダを備えている請求項1から10のいずれか一項に記載のエンコーダ(10)。
  12. 前記コーダにより実行される前記符号化は、算術コーディング、代数コーディング又は別のエントロピーコーディングを含むグループから実行される請求項11に記載のエンコーダ(10)。
  13. 前記エンコーダ(10)は、前記量子化変換残余信号
    Figure 2017516125
    及び前記予測係数(LPC)を、前記エンコーダ(10)により出力されるべき前記データストリーム(DS)にパケット化するように構成されるパッカをさらに備えている請求項11又は12に記載のエンコーダ(10)。
  14. 前記予測子(12)は、線形予測子及び/又は長期予測子を含む請求項1から13のいずれか一項に記載のエンコーダ(10)。
  15. オーディオ信号(AS)をデータストリーム(DS)に符号化するための方法(100)であって、
    前記オーディオ信号(AS)の前記スペクトル包絡線又は前記オーディオ信号(AS)の基本周波数を記述する予測係数(LPC)を得るために前記オーディオ信号(AS)を分析し、かつ前記オーディオ信号(AS)の残余信号(x)を出力するために前記予測係数(LPC)に依存して前記オーディオ信号(AS)を分析フィルタ関数(H)にかけるステップ(120)と、
    因数分解された行列(V、D)を得るために、前記予測係数(LPC)により定義される合成フィルタ関数(H)の自己相関又は共分散行列(R、C)上へ行列因数分解を適用するステップ(140)と、
    変換された残余信号(y)を得るために、前記残余信号(x)を、前記因数分解された行列(V、D)を基礎として変換するステップ(160)と、
    量子化された変換残余信号
    Figure 2017516125
    又は符号化された量子化変換残余信号
    Figure 2017516125
    を得るために、前記変換された残余信号(y)を量子化しかつ符号化するステップ(180)と、を含む方法(100)。
  16. 離散フーリエ変換、離散コサイン変換、修正離散コサイン変換又は信号処理アルゴリズムにおける別の変換に代える請求項15に記載の方法(100)の使用。
  17. データストリーム(DS)をオーディオ信号(AS’)に復号するためのデコーダ(20)であって、
    着信する量子化変換残余信号
    Figure 2017516125
    を基礎として、又は着信する符号化された量子化変換残余信号
    Figure 2017516125
    を基礎として、変換残余信号(y)を出力するように構成された復号ステージ(22)と、
    前記オーディオ信号(AS)のスペクトル包絡線又は前記オーディオ信号(AS)の基本周波数を記述する予測係数(LPC)により定義される合成フィルタ関数(H)の自己相関又は共分散行列(R、C)の行列因数分解の結果を表す因数分解された行列(V、D)を基礎として、前記変換残余信号(y)から残余信号(x)を再変換するように構成された再トランスフォーマ(26)と、
    前記オーディオ信号(AS’)を、前記残余信号(x)を基礎とし、前記予測係数(LPC)により定義される前記合成フィルタ関数(H)を用いて合成するように構成された合成ステージ(28)と、を備えているデコーダ(20)。
  18. 前記デコーダ(20)は、因数分解された行列(V、D)を得るために、入ってきた(inbound)予測係数(LPC)により定義される前記合成フィルタ関数(H)の前記自己相関又は共分散行列(R、C)上に前記行列因数分解を適用するように構成されているファクトライザ(24)を備えている請求項17に記載のデコーダ(20)。
  19. 前記デコーダ(20)は、入ってきた因数分解された行列(V、D)を基礎として、前記予測係数(LPC)を逸脱させる(deviate)ように構成される予測係数生成器を備えている請求項17に記載のデコーダ(20)。
  20. 前記復号ステージ(22)は、入ってきたコーディング規則及び/又はコーディングパラメータから逸脱される既知の規則及び/又は符号化パラメータを基礎として、前記復号を実行する請求項17から19のいずれか一項に記載のデコーダ(20)。
  21. データストリーム(DS)をオーディオ信号(AS’)に復号するための方法(200)であって、
    入ってきた量子化変換残余信号
    Figure 2017516125
    を基礎として、又は入ってきた符号化された量子化変換残余信号
    Figure 2017516125
    を基礎として、変換残余信号(y)を出力するステップ(220)と、
    予測係数(LPC)により定義される合成フィルタ関数(H)の自己相関又は共分散行列(R、C)上に行列因数分解を適用するとともに、因数分解された行列(V、D)を得るために、前記オーディオ信号(AS)のスペクトル包絡線又は前記オーディオ信号(AS)の基本周波数を記述するステップ(240)と、
    前記因数分解された行列(V、D)を基礎として、前記再変換された残余信号(y)から残余信号(x)を再変換するステップ(260)と、
    前記オーディオ信号(AS’)を、前記残余信号(x)を基礎とし、前記予測係数(LPC)により定義される前記合成フィルタ関数(H)を用いて合成するステップ(280)と、を含む方法(200)。
  22. コンピュータ上で実行されると、請求項15に記載の方法(100、200)又は請求項21に記載の方法を実行するためのプログラムコードを有するコンピュータプログラムを格納しているコンピュータ読取り可能デジタル記憶媒体。
  23. 符号化されたオーディオ信号(AS)を含むデータストリーム(DS)であって、
    予測係数(LPC)により定義される合成フィルタ関数(H)の自己相関又は共分散行列(R、C)に対する行列因数分解の結果として生じる因数分解された行列(V、D)と、前記オーディオ信号(AS)のスペクトル包絡線又は前記オーディオ信号(AS)の基本周波数を記述する前記予測係数(LPC)とを含む第1の部分(DSVD)と、
    量子化変換残余信号
    Figure 2017516125
    又は符号化された量子化変換残余信号
    Figure 2017516125
    の形式である、前記予測係数(LPC)に依存して前記オーディオ信号(AS)を分析フィルタ関数(H)にかけた後の、前記オーディオ信号(AS)の残余信号(x)を含む第2の部分
    Figure 2017516125
    と、を含むデータストリーム(DS)。
JP2016557212A 2014-03-14 2015-03-03 エンコーダ、デコーダ並びに符号化及び復号方法 Active JP6543640B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP14159811.0 2014-03-14
EP14159811 2014-03-14
EP14182047.2A EP2919232A1 (en) 2014-03-14 2014-08-22 Encoder, decoder and method for encoding and decoding
EP14182047.2 2014-08-22
PCT/EP2015/054396 WO2015135797A1 (en) 2014-03-14 2015-03-03 Encoder, decoder and method for encoding and decoding

Publications (2)

Publication Number Publication Date
JP2017516125A true JP2017516125A (ja) 2017-06-15
JP6543640B2 JP6543640B2 (ja) 2019-07-10

Family

ID=50280219

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016557212A Active JP6543640B2 (ja) 2014-03-14 2015-03-03 エンコーダ、デコーダ並びに符号化及び復号方法

Country Status (10)

Country Link
US (1) US10586548B2 (ja)
EP (2) EP2919232A1 (ja)
JP (1) JP6543640B2 (ja)
KR (1) KR101885193B1 (ja)
CN (1) CN106415716B (ja)
BR (1) BR112016020841B1 (ja)
CA (1) CA2942586C (ja)
MX (1) MX363348B (ja)
RU (1) RU2662407C2 (ja)
WO (1) WO2015135797A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MY194208A (en) * 2012-10-05 2022-11-21 Fraunhofer Ges Forschung An apparatus for encoding a speech signal employing acelp in the autocorrelation domain
US10860683B2 (en) 2012-10-25 2020-12-08 The Research Foundation For The State University Of New York Pattern change discovery between high dimensional data sets
EP3185587B1 (en) * 2015-12-23 2019-04-24 GN Hearing A/S Hearing device with suppression of sound impulses
US10236989B2 (en) * 2016-10-10 2019-03-19 Nec Corporation Data transport using pairwise optimized multi-dimensional constellation with clustering
US11176954B2 (en) * 2017-04-10 2021-11-16 Nokia Technologies Oy Encoding and decoding of multichannel or stereo audio signals
EP3616196A4 (en) 2017-04-28 2021-01-20 DTS, Inc. AUDIO ENCODER WINDOW AND TRANSFORMATION IMPLEMENTATIONS
GB201718341D0 (en) * 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
CN107947903A (zh) * 2017-12-06 2018-04-20 南京理工大学 基于飞行自组网的wvefc快速编码方法
WO2019121980A1 (en) * 2017-12-19 2019-06-27 Dolby International Ab Methods and apparatus systems for unified speech and audio decoding improvements
CN110324622B (zh) 2018-03-28 2022-09-23 腾讯科技(深圳)有限公司 一种视频编码码率控制方法、装置、设备及存储介质
CN109036452A (zh) * 2018-09-05 2018-12-18 北京邮电大学 一种语音信息处理方法、装置、电子设备及存储介质
WO2020089302A1 (en) 2018-11-02 2020-05-07 Dolby International Ab An audio encoder and an audio decoder
US11764940B2 (en) 2019-01-10 2023-09-19 Duality Technologies, Inc. Secure search of secret data in a semi-trusted environment using homomorphic encryption
CN112289327A (zh) * 2020-10-29 2021-01-29 北京百瑞互联技术有限公司 一种lc3音频编码器后置残差优化方法、装置和介质
CN113406385B (zh) * 2021-06-17 2022-01-21 哈尔滨工业大学 一种基于时域空间的周期信号基频确定方法
CN116309446B (zh) * 2023-03-14 2024-05-07 浙江固驰电子有限公司 用于工业控制领域的功率模块制造方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005530205A (ja) * 2002-06-17 2005-10-06 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スペクトルホール充填を用いるオーディオコーディングシステム
JP2005283692A (ja) * 2004-03-29 2005-10-13 Korg Inc オーディオ信号圧縮方法
WO2014001182A1 (en) * 2012-06-28 2014-01-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Linear prediction based audio coding using improved probability distribution estimation

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4868867A (en) * 1987-04-06 1989-09-19 Voicecraft Inc. Vector excitation speech or audio coder for transmission or storage
US5293448A (en) * 1989-10-02 1994-03-08 Nippon Telegraph And Telephone Corporation Speech analysis-synthesis method and apparatus therefor
FR2729245B1 (fr) * 1995-01-06 1997-04-11 Lamblin Claude Procede de codage de parole a prediction lineaire et excitation par codes algebriques
JP3246715B2 (ja) * 1996-07-01 2002-01-15 松下電器産業株式会社 オーディオ信号圧縮方法,およびオーディオ信号圧縮装置
GB9915842D0 (en) * 1999-07-06 1999-09-08 Btg Int Ltd Methods and apparatus for analysing a signal
JP4506039B2 (ja) * 2001-06-15 2010-07-21 ソニー株式会社 符号化装置及び方法、復号装置及び方法、並びに符号化プログラム及び復号プログラム
US7065486B1 (en) * 2002-04-11 2006-06-20 Mindspeed Technologies, Inc. Linear prediction based noise suppression
US7292647B1 (en) * 2002-04-22 2007-11-06 Regents Of The University Of Minnesota Wireless communication system having linear encoder
FR2863422A1 (fr) * 2003-12-04 2005-06-10 France Telecom Procede d'emission multi-antennes d'un signal precode lineairement,procede de reception, signal et dispositifs correspondants
EP1810422A1 (en) * 2004-11-09 2007-07-25 ETH Zürich Method for calculating functions of the channel matrices in linear mimo-ofdm data transmission
KR20070092240A (ko) * 2004-12-27 2007-09-12 마츠시타 덴끼 산교 가부시키가이샤 음성 부호화 장치 및 음성 부호화 방법
MY146431A (en) * 2007-06-11 2012-08-15 Fraunhofer Ges Forschung Audio encoder for encoding an audio signal having an impulse-like portion and stationary portion, encoding methods, decoder, decoding method, and encoded audio signal
CN101609680B (zh) * 2009-06-01 2012-01-04 华为技术有限公司 压缩编码和解码的方法、编码器和解码器以及编码装置
WO2012144128A1 (ja) * 2011-04-20 2012-10-26 パナソニック株式会社 音声音響符号化装置、音声音響復号装置、およびこれらの方法
US9173025B2 (en) * 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
MY194208A (en) * 2012-10-05 2022-11-21 Fraunhofer Ges Forschung An apparatus for encoding a speech signal employing acelp in the autocorrelation domain

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005530205A (ja) * 2002-06-17 2005-10-06 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スペクトルホール充填を用いるオーディオコーディングシステム
JP2005283692A (ja) * 2004-03-29 2005-10-13 Korg Inc オーディオ信号圧縮方法
WO2014001182A1 (en) * 2012-06-28 2014-01-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Linear prediction based audio coding using improved probability distribution estimation

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TOM BACKSTROM: ""Vandermonde factorization of Toeplitz matrices and applications in filtering and warping,"", IEEE TRANSACTIONS ON SIGNAL PROCESSING.,, vol. vol. 61, no. 24,, JPN6017040266, 15 December 2013 (2013-12-15), US, pages 6257 - 6263, ISSN: 0003665684 *
守谷健弘: "10.3 励振ベクトルの探索の改善 10.3.1 相関,周波数領域の探索", 音声符号化, vol. 初版, JPN6017040270, 20 October 1998 (1998-10-20), JP, pages 96 - 99, ISSN: 0003665685 *

Also Published As

Publication number Publication date
US10586548B2 (en) 2020-03-10
RU2662407C2 (ru) 2018-07-25
US20160372128A1 (en) 2016-12-22
KR101885193B1 (ko) 2018-08-03
WO2015135797A1 (en) 2015-09-17
EP3117430A1 (en) 2017-01-18
BR112016020841A2 (ja) 2017-08-15
MX363348B (es) 2019-03-20
CN106415716A (zh) 2017-02-15
MX2016011692A (es) 2017-01-06
CA2942586A1 (en) 2015-09-17
RU2016140233A (ru) 2018-04-16
BR112016020841B1 (pt) 2023-02-23
KR20160122212A (ko) 2016-10-21
JP6543640B2 (ja) 2019-07-10
CN106415716B (zh) 2020-03-17
CA2942586C (en) 2021-11-09
EP2919232A1 (en) 2015-09-16

Similar Documents

Publication Publication Date Title
JP6543640B2 (ja) エンコーダ、デコーダ並びに符号化及び復号方法
JP6654237B2 (ja) 線形予測符号化を使用して低減された背景ノイズを有するオーディオ信号を符号化する符号器および方法
US11264043B2 (en) Apparatus for encoding a speech signal employing ACELP in the autocorrelation domain
RU2716911C2 (ru) Способ и устройство для кодирования множественных аудиосигналов и способ и устройство для декодирования смеси множественных аудиосигналов с улучшенным разделением
Bäckström Computationally efficient objective function for algebraic codebook optimization in ACELP.
Kassim et al. Compressive sensing based low bit rate speech encoder

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171006

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171024

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181002

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20181219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190528

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190617

R150 Certificate of patent or registration of utility model

Ref document number: 6543640

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250