JP2023507073A - 音声符号化のための周波数領域における階調信号の長期予測のための符号化器、復号化器、符号化方法及び復号化方法 - Google Patents

音声符号化のための周波数領域における階調信号の長期予測のための符号化器、復号化器、符号化方法及び復号化方法 Download PDF

Info

Publication number
JP2023507073A
JP2023507073A JP2022531448A JP2022531448A JP2023507073A JP 2023507073 A JP2023507073 A JP 2023507073A JP 2022531448 A JP2022531448 A JP 2022531448A JP 2022531448 A JP2022531448 A JP 2022531448A JP 2023507073 A JP2023507073 A JP 2023507073A
Authority
JP
Japan
Prior art keywords
current frame
spectral coefficients
encoder
harmonic
harmonic components
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022531448A
Other languages
English (en)
Inventor
ニン グオ
ベルント エドラー
Original Assignee
フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2023507073A publication Critical patent/JP2023507073A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

音声符号化のための周波数領域における階調信号の長期予測のための符号化器、復号化器、符号化方法及び復号化方法である。実施形態に係る音声信号の1つ以上の前のフレームに応じて音声信号の現在のフレームを符号化するための符号化器(100)が提供される。1つ以上の前のフレームは現在のフレームに先行し、現在のフレーム及び1つ以上の前のフレームの各々は音声信号の1つ以上の高調波成分を含み、現在のフレーム及び1つ以上の前のフレームの各々は周波数領域又は変換領域における複数のスペクトル係数を含む。現在のフレームを符号化したものを生成するために、符号化器(100)は、1つ以上の前のフレームのうち最も前のフレームの1つ以上の高調波成分のそれぞれについての2つの高調波パラメータの推定を決定する。さらに、符号化器(100)は、音声信号の1つ以上の前のフレームの各々の複数のスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループを使用して、最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータの推定を決定する。【選択図】図1

Description

本発明は、音声信号符号化、音声信号処理、及び音声信号復号化に関し、特に、音声符号化のための階調信号(tonal signal)の周波数領域長期予測装置及び方法に関するものである。
音声符号化の分野では、音声信号の冗長性を除去するために予測を用いている。元のデータから予測されたデータを差し引き、より低いエントロピーを通常示す残差を量子化して符号化することで、音声信号の送信と保存のためにビットレートを削減することができる[1]。LTP(Long-Term Prediction)は、音声信号の周期成分を除去することを目的とした予測手法の一種である[2]。
MPEG-2 Advanced Audio Coding (AAC)標準では、時間-周波数変換としてMDCT (Modified Discrete Cosine Transform)を用い、後方適応型LTPを用いた知覚的音声符号化器(perceptual audio coder)が採用されている[3]。
図4は、後方適応型LTPを用いた変換型知覚的音声符号化器の構成を示す図である。図4の音声符号化器は、MDCT部410、音響心理モデル部420、ピッチ推定部430、長期予測部440、量子化器450、量子化器再構成部460を含む。
図4に示すように、予測ユニットには、再構成後のMDCTフレームが入力される。従来の時間領域長期予測(TDLTP)を実行するためには、まず、再構成後の信号のMDCT係数を時間領域に変換する必要がある。次に、予測された時間領域セグメントは、残差計算のためにMDCT領域に変換し直される。
MDCTはオーバーラップした分析ウィンドウを使用して、ブロッキングの影響を軽減し、逆変換の合成段階でオーバーラップ加算(OLA)手順を通して完全な再構成を提供する[4]。現在のフレームの後半のエイリアスフリーの再構成は、将来のフレームの前半を必要とするため[4]、予測遅延は慎重に選択される必要がある[2]。
バッファ内の完全に再構成されたサンプルだけが予測に使用される場合、選択された前のピッチラグと予測されるピッチラグとの間に整数倍のピッチ周期の遅延が存在する可能性がある。音声信号の非定常性のため、遅延が長くなると予測が安定しなくなる可能性がある。高い基本周波数の信号の場合、ピッチ周期は短いので、この追加遅延による予測への悪影響はより顕著になる可能性がある。
MDCT領域で直接動作する周波数領域予測(FDP:Frequency Domain Prediction)のコンセプトが[5]で提案された([13]も参照)。その方法では、諧調信号の各高調波成分は、予測中に個別に扱われる。現在のフレームにおけるビンの予測は、前のフレームにおけるそのスペクトルの隣接ビンの正弦波(サイン波)的な進行を計算することによって得られる。
しかし、これらのMDCT係数の周波数分解能が諧調信号の基本周波数に対して比較的低い場合、高調波成分がビン上で互いに大きく重なり、その周波数領域アプローチの悪い性能につながる可能性がある。
本発明の目的は、音声信号の符号化、処理及び復号化のための改良されたコンセプトを提供することである。本発明の目的は、請求項1による符号化器によって、請求項23による復号化器によって、請求項45による装置によって、請求項52による方法によって、請求項53による方法によって、請求項54による方法によって、及び請求項55によるコンピュータプログラムによって、解決される。
実施形態に係る音声信号の1つ以上の前のフレームに応じて音声信号の現在のフレームを符号化するための符号化器が提供される。1つ以上の前のフレームは、現在のフレームに先行し、現在のフレーム及び1つ以上の前のフレームの各々は、音声信号の1つ以上の高調波成分を含み、現在のフレーム及び1つ以上の前のフレームの各々は、周波数領域又は変換領域における複数のスペクトル係数を含む。現在のフレームを符号化したものを生成するために、符号化器は、1つ以上の前のフレームのうちの最も前のフレームの1つ以上の高調波成分の各々について、2つの高調波パラメータの推定を決定することである。さらに、符号化器は、音声信号の1つ以上の前のフレームの各々の複数のスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループを使用して、最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータの推定を決定する。
さらに、実施形態に係る音声信号の現在のフレームを再構成するための復号化器が提供される。音声信号の1つ以上の前のフレームは現在のフレームに先行し、現在のフレーム及び1つ以上の前のフレームの各々は、音声信号の1つ以上の高調波成分を含み、現在のフレーム及び1つ以上の前のフレームの各々は、周波数領域又は変換領域における複数のスペクトル係数を含む。復号化器は、現在のフレームを符号化したものを受信する。復号化器は、1つ以上の前のフレームのうち最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータの推定を決定する。最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータは、音声信号の1つ以上の前のフレームの各々についての複数の再構成後のスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループに依存する。さらに、復号化器は、現在のフレームを符号化したものに応じて、かつ、最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータの推定に応じて、現在のフレームを再構成する。
さらに、実施形態に係るフレーム損失隠蔽のための装置が提供される。音声信号の1つ以上の前のフレームは、音声信号の現在のフレームに先行する。現在のフレーム及び1つ以上の前のフレームの各々は、音声信号の1つ以上の高調波成分を含み、現在のフレーム及び1つ以上の前のフレームの各々は、周波数領域又は変換領域における複数のスペクトル係数を含む。装置は、1つ以上の前のフレームのうちの最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータの推定を決定し、最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータは、音声信号の1つ以上の前のフレームの各々についての複数の再構成後の(再構成された)スペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループに依存する。装置が現在のフレームを受信しない場合、又は現在のフレームが破損した状態で装置によって受信される場合、装置は、最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータの推定に応じて現在のフレームを再構成する。
さらに、実施形態に係る音声信号の1つ以上の前のフレームに応じて音声信号の現在のフレームを符号化するための方法が提供される。1つ以上の前のフレームは、現在のフレームに先行する。現在のフレーム及び1つ以上の前のフレームの各々は、音声信号の1つ以上の高調波成分を含む。現在のフレーム及び1つ以上の前のフレームの各々は、周波数領域又は変換領域における複数のスペクトル係数を含む。現在のフレームを符号化したものを生成するために、本方法は、1つ以上の前のフレームのうち最も前のフレームの1つ以上の高調波成分の各々について2つの高調波パラメータの推定を決定するステップを含む。最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータの推定を決定することは、音声信号の1つ以上の前のフレームの各々の複数のスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループを使用して実施される。
さらに、実施形態に係る音声信号の現在のフレームを再構成する方法が提供される。音声信号の1つ以上の前のフレームは、現在のフレームに先行する。現在のフレーム及び1つ以上の前のフレームの各々は、音声信号の1つ以上の高調波成分を含む。現在のフレーム及び1つ以上の前のフレームの各々は、周波数領域又は変換領域における複数のスペクトル係数を含む。本方法は、現在のフレームを符号化したものを受信することを含む。さらに、本方法は、1つ以上の前のフレームのうち最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータの推定を決定するステップを含み、最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータは、音声信号の1つ以上の前のフレームの各々についての複数の再構成されたスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループに依存するステップを含む。さらに、本方法は、現在のフレームを符号化したものに応じて、かつ、最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータの推定に応じて、現在のフレームを再構成するステップを含む。
さらに、実施形態に係るフレーム損失隠蔽のための方法が提供される。音声信号の1つ以上の前のフレームは、音声信号の現在のフレームに先行し、現在のフレーム及び1つ以上の前のフレームの各々は、音声信号の1つ以上の高調波成分を含み、現在のフレーム及び1つ以上の前のフレームの各々は、周波数領域又は変換領域における複数のスペクトル係数を含む。本方法は、1つ以上の以前のフレームのうちの最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータの推定を決定するステップを含み、最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータは、音声信号の1つ以上の前のフレームの各々についての複数の再構成後のスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループに依存する。さらに、この方法は、現在のフレームが受信されない場合、又は現在のフレームが破損状態によって受信される場合、現在のフレームを、最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータに応じて再構成するステップを含む。
さらに、コンピュータプログラムがコンピュータ又は信号処理装置によって実行される場合に、上述した方法の1つを実施するための実施形態に係るコンピュータプログラムが提供される。
従来、時間領域において一定の周期性を有する信号を予測するために、LTP(Long-Term Prediction)が使用されている。音声符号器における後方適応を伴う変換符号化の場合、復号化器ユニットは、一般に、手元に周波数係数のみを有し、したがって、予測の前に逆変換が必要とされる。実施形態は、修正離散コサイン変換(MDCT:Modified Discrete Cosine Transform)領域で直接動作し、例えば、非常に低い周波数分解能の下でさえ、音声符号化のためのビットレートを顕著に減少させる周波数領域最小二乗予測(FDLMSP:Frequency Domain Least Mean Square Prediction)コンセプトを提供する。したがって、いくつかの実施形態は、例えば、特に低遅延音声符号化シナリオにおいて符号化効率を高めるために変換コーデックにおいて採用され得る。
いくつかの実施形態は、MDCT領域で直接LTPを実行する周波数領域最小二乗予測(FDLMSP:Frequency Domain Least Mean Square Prediction)コンセプトを提供する。しかしながら、各ビンに対して個別に予測を行うのではなく、この新しいコンセプトは、実数値線形方程式系(real-valued linear equation system)を使用して、変換領域において諧調信号の高調波成分をモデル化する。予測は、線形方程式系を最小平均二乗法(LMS:Least Mean Squares)で解いた後に行われる。そして、高調波の位相進行の性質に基づいて、高調波のパラメータを使用して、現在のフレームを予測する。この予測コンセプトは、異なるタイプの離散コサイン変換(DCT)や多相直交フィルタ(PQF:Polyphase Quadrature Filter)など、他の実数値線形変換又はフィルタバンクにも適用できることに留意する必要がある[6]。
以下では、信号モデルを示し、高調波成分推定と予測プロセスを詳細に説明し、TDLTPとFDPと比較してFDLMSPコンセプトを評価する実験を説明し、その結果を示して議論する。
以下、本発明の実施形態について図を参照しながらより詳細に説明する。
図1は、実施形態に係る音声信号の1つ以上の前のフレームに応じて音声信号の現在のフレームを符号化するための符号化器を示す図である。 図2は、実施形態に係る音声信号の現在のフレームを符号化したものを復号化するための復号化器を示す図である。 図3は、実施形態に係るシステムを説明するための図である。 図4は、後方適応型LTPを有する変換知覚的音声符号化器の構造を示す図である。 図5は、異なる予測帯域幅及びMDCT長を有する3つの予測コンセプトを使用する単一のノート予測で節約されるビットレートを示す図である。 図6は、帯域幅を4kHzに制限し、MDCTフレーム長を64と512とした6つの異なる項目で、4つの異なる作業モードにおいて節約されるビットレートを示す図である。 図7は、ある実施形態に係るフレーム損失隠蔽のための装置を示す図である。 図8は、ある実施例に係るFDP予測コンセプトの音声信号を符号化するための符号化器の概略ブロック図である。 図9は、一例に係るFDP予測コンセプトの符号化信号120を復号化するための復号化器201の概略ブロック図である。
図1は、実施形態に係る、音声信号の1つ以上の前のフレームに応じて音声信号の現在のフレームを符号化するための符号化器100を示す図である。
1つ以上の前のフレームは現在のフレームに先行し、現在のフレーム及び1つ以上の前のフレームの各々は、音声信号の1つ以上の高調波成分を含み、現在のフレーム及び1つ以上の前のフレームの各々は、周波数領域又は変換領域における複数のスペクトル係数を含む。
現在のフレームを符号化したものを生成するために、符号化器100は、1つ以上の前のフレームのうちの最も前のフレームの1つ以上の高調波成分の各々について2つの高調波パラメータの推定を決定する。さらに、符号化器100は、音声信号の1つ以上の前のフレームの各々の複数のスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループを使用して、最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータの推定を決定する。
最も前のフレームは、例えば、現在のフレームに対して最も前のフレームであることができる。
最も前のフレームは、例えば、直前のフレームであることができる(直前のフレームとして言及することができる)。直前のフレームは、例えば、現在のフレームの直前に先行するものであることができる。
現在のフレームは、音声信号の1つ以上の高調波成分を含む。1つ以上の前のフレームの各々は、音声信号の1つ以上の高調波成分を含むことができる。現在のフレーム及び1つ以上の前のフレームにおける1つ以上の高調波成分の基本周波数は、同じであると仮定される。
実施形態によれば、符号化器100は、例えば、1つ以上の前のフレームの各々の複数のスペクトル係数の別の1つ以上のスペクトル係数からなる第2のグループを使用せずに、最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータを推定するように構成されることができる。
実施形態によれば、符号化器100は、例えば、現在のフレームを符号化したものとして、現在のフレーム及び1つ以上の前のフレームの1つ以上の高調波成分の基本周波数に応じて、かつ、最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータの推定に応じて、利得係数及び残差を決定するよう構成されることができる。符号化器100は、例えば、現在のフレームを符号化したものが利得係数と残差信号とを含むように、現在のフレームを符号化したものを生成するように構成されることができる。
実施形態において、符号化器100は、例えば、最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータの推定に応じて、かつ現在のフレーム及び1つ以上の前のフレームの1つ以上の高調波成分の基本周波数に応じて、現在のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータの推定を決定するよう構成され得る。基本周波数は、例えば、現在のフレーム及び1つ以上の前のフレームにわたって不変であると仮定されることができる。
実施形態によれば、1つ以上の高調波成分の各々についての2つの高調波パラメータは、1つ以上の高調波成分の各々についてのコサイン副成分に対する第1のパラメータと、サイン副成分に対する第2のパラメータである。
実施形態において、符号化器100は、例えば、少なくとも3つの方程式を含む線形方程式系を解くことによって、最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータを推定するように構成されることができ、少なくとも3つの方程式の各々は、1つ以上の前のフレームの各々の複数のスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループのスペクトル係数に依存する。
実施形態によれば、符号化器100は、例えば、最小平均二乗アルゴリズムを使用して線形方程式系を解くように構成されることができる。
Figure 2023507073000002
ある実施形態において、r≧1である。
Figure 2023507073000003
Figure 2023507073000004
Figure 2023507073000005
実施形態において、符号化器100は、例えば、高調波成分の基本周波数、窓関数、利得係数、及び残差信号を符号化することができる。
実施形態によれば、符号化器100は、例えば、音声信号の1つ以上の前のフレームの各々の複数のスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループを使用して、最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータを推定する前に、最も前のフレームの1つ以上の高調波成分の数及び最も前のフレームの1つ以上の高調波成分の基本周波数を決定するように構成されることができる。
実施形態によれば、符号化器100は、例えば、1つ以上の高調波成分から1つ以上の高調波成分のグループを決定し、1つ以上の高調波成分のグループに音声信号の予測を適用するように構成されることができる。符号化器100は、例えば、最も前のフレームの1つ以上の高調波成分のグループ各々についての次数(order)を符号化するように構成されることができる。
Figure 2023507073000006
実施形態によれば、符号化器100は、例えば、周波数領域又は変換領域における現在のフレームの複数のスペクトル係数に応じて、かつ現在のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータの推定に応じて、残差信号を決定するように構成されることができ、符号化器100は、例えば、残差信号を符号化するように構成されることができる。
実施形態において、符号化器100は、例えば、現在のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータの推定に応じて、現在のフレームの複数のスペクトル係数のうちの1つ以上のスペクトル係数のスペクトル予測を決定するように構成されることができる。符号化器100は、例えば、周波数領域又は変換領域における現在のフレームの複数のスペクトル係数に応じて、かつ現在のフレームの複数のスペクトル係数のうちの3つ以上のスペクトル係数のスペクトル予測に応じて、残差信号及び利得係数を決定するように構成されることができる。ここで、符号化器100は、例えば、現在のフレームを符号したもの化が残差信号及び利得係数を含むように、現在のフレームを符号化したものを生成するように構成されることができる。
Figure 2023507073000007
図2は、実施形態に係る音声信号の現在のフレームを再構成するための復号化器200を示す図である。
音声信号の1つ以上の前のフレームは現在のフレームに先行し、現在のフレーム及び1つ以上の前のフレームの各々は音声信号の1つ以上の高調波成分を含み、現在のフレーム及び1つ以上の前のフレームの各々は周波数領域又は変換領域における複数のスペクトル係数を含む。
復号化器200は、現在のフレームを符号化したものを受信する。
さらに、復号化器200は、1つ以上の前のフレームのうち最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータの推定を決定する。最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータは、音声信号の1つ以上の前のフレームの各々についての複数の再構成後のスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループに依存する。
さらに、復号化器200は、現在のフレームを符号化したものに応じて、かつ、最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータの推定に応じて、現在のフレームを再構成する。
最も前のフレームは、例えば、現在のフレームに対して最も前のフレームであることができる。
最も前のフレームは、例えば、直前のフレームであることができる(直前のフレームとして言及することができる)。直前のフレームは、例えば、現在のフレームの直前に先行するものであることができる。
現在のフレームは、音声信号の1つ以上の高調波成分を含む。1つ以上の前のフレームの各々は、音声信号の1つ以上の高調波成分を含むことができる。現在のフレーム及び1つ以上の前のフレームにおける1つ以上の高調波成分の基本周波数は、同じであると仮定される。
実施形態によれば、最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータは、1つ以上の前のフレームの複数のスペクトル係数のうちの1つ以上の更なるスペクトル係数からなる第2のグループに依存しない。
実施形態において、復号化器200は、例えば、現在のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータの推定を、最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータの推定に応じて、かつ現在のフレーム及び1つ以上の前のフレームの1つ以上の高調波成分の基本周波数に応じて決定することができる。
実施形態によれば、復号化器100は、例えば、利得係数と残差信号とを含む現在のフレームを符号化したものを受信するように構成されることができる。復号化器200は、例えば、利得係数に応じて、残差信号に応じて、かつ、現在のフレーム及び1つ以上の前のフレームの1つ以上の高調波成分の基本周波数に応じて、現在のフレームを再構成するように構成されることができる。基本周波数は、例えば、現在のフレーム及び1つ以上の前のフレームにわたって変化しないと仮定されることができる。
実施形態によれば、1つ以上の高調波成分の各々についての2つの高調波パラメータは1つ以上の高調波成分の各々についてのコサイン副成分についての第1のパラメータと、サイン副成分についての第2のパラメータとである。
実施形態において、最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータは、少なくとも3つの方程式を含む線形方程式系に依存し、少なくとも3つの方程式の各々は、1つ以上の前のフレームの各々についての複数の再構成後のスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループのスペクトル係数に依存する。
一実施形態によれば、線形方程式系は、最小平均二乗アルゴリズムを用いて解くことができる。
Figure 2023507073000008
ある実施形態において、r≧1である。
Figure 2023507073000009
Figure 2023507073000010
Figure 2023507073000011
実施形態において、復号化器200は、例えば、高調波成分の基本周波数、窓関数、利得係数、及び残差信号を受信するように構成されることができる。復号化器200は、例えば、最も前のフレームの1つ以上の高調波成分の基本周波数に応じて、高調波成分の次数(order)に応じて、窓関数に応じて、利得係数に応じて、及び残差信号に応じて、現在のフレームを再構成するように構成されることができる。
基本周波数、高調波成分の次数、窓関数、利得係数、及び残差のみが送信される必要がある。復号化器200は、例えば、この受信した情報に基づいてUを計算し、高調波パラメータ推定及び現在フレーム予測を実施することができる。次に、復号化器は、例えば、送信された残差スペクトルを、送信された利得係数によってスケーリングされた予測されたスペクトルに加えることによって、現在のフレームを再構成することができる。
実施形態によれば、復号化器200は、たとえば、最も前のフレームの1つ以上の高調波成分の数及び最も前のフレームの1つ以上の高調波成分の基本周波数を受信するように構成されることができる。復号化器200は、たとえば、最も前のフレームの1つ以上の高調波成分の数に応じて、及び現在のフレーム及び1つ以上の前のフレームの1つ以上の高調波成分の基本周波数に応じて、現在のフレームを符号化したものを復号化するよう構成されることができる。
実施形態によれば、復号化器200は、1つ以上の高調波成分のグループに応じて現在のフレームを符号化したものを復号化し、復号化器200は、1つ以上の高調波成分のグループにおいて音声信号の予測を適用する。
実施形態によれば、復号化器200は、例えば、現在のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータを、最も前のフレームの1つ以上の高調波成分のうちの1つの高調波成分の各々についての2つの高調波パラメータに応じて決定するように構成されることができる。
Figure 2023507073000012
実施形態によれば、復号化器200は、例えば、残差信号を受信するように構成されていることができ、残差信号は、周波数領域又は変換領域における現在のフレームの複数のスペクトル係数に依存し、残差信号は、現在のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータの推定に依存する。
実施形態において、復号化器200は、例えば、現在のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータの推定に応じて、現在のフレームの複数のスペクトル係数のうちの1つ以上のスペクトル係数のスペクトル予測を決定するように構成されることができ、復号化器200は、例えば、現在のフレームのスペクトル予測に応じて、残差信号に応じて、かつ利得係数に応じて音声信号の現在のフレームを決定するように構成されることができる。
Figure 2023507073000013
図3は、実施形態に係るシステムを示す図である。
このシステムは、音声信号の現在フレームを符号化するための上述した実施形態のうちの1つによる符号化器100を具備する。
さらに、このシステムは、音声信号の現在のフレームを符号化したものを復号化するための、上述した実施形態のうちの1つによる復号化器200を具備している。
図7は、実施形態に係るフレーム損失隠蔽のための装置700を示す図である。
音声信号の1つ以上の前のフレームは、音声信号の現在のフレームに先行する。現在のフレーム及び1つ以上の前のフレームの各々は、音声信号の1つ以上の高調波成分を含み、現在のフレーム及び1つ以上の前のフレームの各々は、周波数領域又は変換領域における複数のスペクトル係数を含む。
装置700は、1つ以上の前のフレームのうちの最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータの推定を決定し、最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータは、音声信号の1つ以上の前のフレームの各々についての複数の再構成後のスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループに依存する。
装置700が現在のフレームを受信しない場合、又は現在のフレームが破損した状態で装置700によって受信される場合、装置700は、最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータの推定に応じて現在のフレームを再構成する。
最も前のフレームは、例えば、現在のフレームに対して最も前のフレームであることができる。
最も前のフレームは、例えば、直前のフレームであることができる(直前のフレームとして言及することができる)。直前のフレームは、例えば、現在のフレームの直前に先行するものであることができる。
現在のフレームは、音声信号の1つ以上の高調波成分を含む。1つ以上の前のフレームの各々は、音声信号の1つ以上の高調波成分を含むことができる。現在のフレーム及び1つ以上の前のフレームにおける1つ以上の高調波成分の基本周波数は、同じであると仮定することができる。
実施形態によれば、装置700は、例えば、最も前のフレームの1つ以上の高調波成分の数を受信するように構成されることができる。装置700は、例えば、最も前のフレームの1つ以上の高調波成分の数に応じて、かつ、現在のフレーム及び1つ以上の前のフレームの1つ以上の高調波成分の基本周波数に応じて、現在のフレームを符号化したものを復号化することができる。
実施形態において、現在のフレームを再構成するために、装置700は、例えば、現在のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータの推定を、最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータの推定に応じて決定するように構成されることができる。
Figure 2023507073000014
実施形態によれば、装置700は、例えば、現在のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータの推定に応じて、現在のフレームの複数のスペクトル係数のうちの3つ以上のスペクトル係数のスペクトル予測を決定するように構成されることができる。
以下において、好ましい実施形態が提供される。
最初に、信号モデルについて説明する。
Figure 2023507073000015
Figure 2023507073000016
Figure 2023507073000017
Figure 2023507073000018
以下では、高調波推定と予測について説明する。
式(3)~(8)による上述した想定信号モデルに基づき、高調波成分の周波数が隣接するフレーム間で急激に変化しないという仮定を追加すると、提案するFDLMSPアプローチは3つのステップに分けることができる。例えば、m番目のフレームを予測するために、まずm番目のフレームに含まれる全ての高調波成分の周波数情報を推定する。この周波数情報は、後に、復号化器200での予測を支援するためのサイド情報の一部として送信される。次に、m-1番目のフレームにおける各高調波成分のパラメータ(h=[1,...,H]で、ah、bhで示される)が、先行フレームのみを用いて推定される。
最後に、推定された高調波パラメータに基づいてm番目のフレームが予測される。そして、残差スペクトルが計算され、さらに処理される(例えば、量子化され、送信される)。各フレームのピッチ情報は、ピッチ推定器によって得ることができる。
はじめに、高調波推定について詳しく説明する。
Figure 2023507073000019
Figure 2023507073000020
Figure 2023507073000021
Figure 2023507073000022
推定すべきパラメータの数が高調波が及ぶMDCTビンの数を超える場合、線形方程式の未決定系が生じることになる。これは、行列Uを縦に、ベクトルXを横に、より前のフレームからの対応する値を積み重ねることで回避される。しかし、(ほとんどの)前のフレームがすでにバッファにあるため、余分な遅延は発生しない。逆に、この拡張により、この提案手法は、高調波成分が高密度に配置された極端に低い周波数分解能のシナリオに適用可能である。また、採用した前フレームの数にスケーリング係数を適用して、線形方程式の過剰決定系を保証することも可能である。これにより、信号中のノイズに対するこの予測コンセプトのロバスト性も向上する。
さて、予測の詳細を説明する。
Figure 2023507073000023
Figure 2023507073000024
予測が行われないビンでは、予測値はゼロに設定される。
しかし、信号の非定常性に起因して、高調波の振幅は連続するフレーム間でわずかに変化することがある。その振幅変化に対応するために利得係数が導入され、復号化器200にサイド情報の一部として送信されることになる。
Figure 2023507073000025
以下では、提供された上記のコンセプトの評価を行う。
本提案のFDLMSPコンセプトの性能を評価するために、図4に従って、パイソン(Python)による符号化器環境を構築した。提供するコンセプトは、上記の説明に従い、rを2として実装している。比較のため、TDLTPとFDPは参考文献[2],[5]に従って再実装している。これは、3つの予測コンセプトを、(i)MDCT係数の異なる周波数解像度に関する性能、(ii)テスト材料の非調和性[7]に対する感度、(iii)同一の符号化シナリオで互いに比較した総合性能と能力、という3つの側面で評価する実験を使用することを目的としたものである。音色の非調和性は、通常、その高次高調波がもはや等間隔でないことを意味する。高次の帯域の高調波は知覚的にあまり重要ではないので[8]、異なる予測帯域幅を使用することによるこの要因の影響を評価した。
実験では、16kHzのサンプリング周波数、64、128、256、512のMDCTフレーム長を使用した。予測は1kHz,2kHz,4kHz,8kHzの限られた帯域幅で行われた。解析窓には、完全な再構成のための制約を満たす正弦窓(sine window)が選ばれている[9]。この方法は、異なるフレーム長に切り替えた場合、非対称な窓を扱うこともできる。高調波推定の精度を向上させるため、解析窓の伝達関数を補間してF(ω)関数を計算する。TDLTPでは、完全に再構成されたデータと元の時間領域信号を用いて、自己相関のコンセプトに基づいて各フレームごとに3タップの予測フィルタを計算する。バッファデータから以前の完全に再構成されたピッチラグを探索する際、ピッチラグがサンプリング間隔の整数倍でない可能性も考慮されている。FDPにおける時間的又はスペクトル的な隣接ビンの数は2個に制限されている。
ピッチ推定にはYINアルゴリズム[10]が使用されている。foの探索範囲は[20,...,1000]Hzに設定され、高調波閾値は0.25である。量子化のためのマスキング閾値の計算には、[11]で提案された無限インパルス応答IIR(Infinite Impulse Response)フィルタバンクに基づく知覚モデルを使用する。YIN推定値付近のより細かいピッチ探索(±0.5Hz、ステップサイズ0.02Hz)と[0.5,...,2],ステップサイズ0.01の最適利得係数探索は、量子化後の(量子化された)残差の知覚エントロピー(PE)[12](知覚モデルを考慮した量子化後の残差スペクトルのエントロピー近似)を最小化することによって各フレームにおいて同時に行われる。
符号化器には4つの動作モードがある。それぞれ「FDLMSP」、「TDLTP」、「FDP」、「Adaptive MDCT LTP(AMLTP)」である。「AMLTP」モードでは、符号化器は、PE最小化を基準として、フレーム単位で異なる予測コンセプトを切り替える。4つの動作モードすべてにおいて、残差スペクトルのPEが元の信号スペクトルよりも高い場合、フレーム内で予測は行われない。
各モードにおいて、符号化器は6つの異なる素材に対してテストされた。1~2秒の持続時間の3つの単音:ベース音(f0は約50Hz)、ハープシコード音(f0は約88Hz)、ピッチパイプ音(f0は約290Hz)である。これらのテスト素材は、比較的規則的な高調波構造とゆっくりと変化する時間エンベロープを持っている。符号化器は、より複雑なテスト素材でもテストされる。トランペット曲(~5秒、f0は300Hzから700Hzの間で変化)、女性ボーカル(~10秒、f0は200Hzから300Hzの間で変化)、男性スピーチ(~8秒、f0は100Hzから220Hzの間で変化)である。これらの3つのテスト素材は、エンベロープが大きく変化し、ピッチが時間と共に速く変化し、調和構造があまり規則的ではない。実験中、ベース音は1次高調波よりも2次高調波が強く、常に誤ったピッチ推定をしてしまうことが判明した。そこで、正しいピッチ推定のために、YINピッチ推定器におけるこのベース音のf0探索範囲が調整された。
量子化後の(量子化された)残差スペクトルと量子化後の(量子化された)元の信号のスペクトルの平均PEが推定された。推定されたPEを基に、予測を適用することにより信号を送信する際に節約できるビットレート(BS)[ビット/秒]を計算した(サイド情報のビットレート消費は考慮されていない)。まず、各コンセプトの挙動を検討し、合理的な推論・分析を行うため、1音予測に限定して比較を行った。次に、4つのモードの性能を同一のパラメータ構成で比較した。
図5は、予測帯域幅とMDCT長が異なる3つの予測コンセプトを用いて、1音予測で節約できるビットレートを示す図である。
まず、先行技術によるFDP予測コンセプトについて説明する。FDP予測コンセプトは、[5]及び[13](WO 2016 142357 A1、2016年9月公開)において、より詳細に説明されている。
図8は、一例によるFDP予測コンセプトの音声信号102を符号化するための符号化器101の概略ブロック図である。符号化器101は、変換領域又はフィルタバンク領域104(例えば、周波数領域、又はスペクトル領域)で音声信号102を符号化するように構成され、符号化器101は、現在のフレーム108_t0に対する音声信号102のスペクトル係数106_t0_f1~106_t0_f6と、少なくとも1つの前のフレーム108_t-1に対する音声信号のスペクトル係数106_t-1_f1~106_t-1_f6とを決定するように構成されている。さらに、符号化器101は、複数の個別スペクトル係数106_t0_f2又はスペクトル係数106_t0_f4及び106_t0_f5のグループに予測符号化を選択的に適用するように構成され、符号化器101は、間隔値を決定するように構成される。ここで、符号化器101は、間隔値に基づいて、予測符号化が適用される複数の個別スペクトル係数106_t0_f2又はスペクトル係数106_t0_f4及び106_t0_f5のグループを選択するように構成されている。
言い換えれば、符号化器101は、サイド情報として送信される単一の間隔値に基づいて選択された複数の個別スペクトル係数106_t0_f2又はスペクトル係数106_t0_f4、106_t0_f5のグループに選択的に予測符号化を適用するように構成される。
この間隔値は、予測が適用されるスペクトル係数のすべてのグループの中心をその整数倍とともに定義する周波数(例えば、(音声信号102の)高調波の音色の基本周波数)に対応し得る。第1グループはこの周波数を中心とすることができ、第2グループはこの周波数を2倍したものを中心とすることができ、第3グループはこの周波数を3倍したものを中心とすることができる、といった具合である。これらの中心周波数を知ることで、対応する正弦波信号成分(高調波信号の基本波や倍音など)を予測するための予測係数の算出が可能になる。このため、複雑で誤差が生じやすい予測係数の逆適応が不要になる。
例では、符号化器101は、フレームごとに1つの間隔値を決定するように構成することができる。
実施例では、複数の個別スペクトル係数106_t0_f2又はスペクトル係数106_t0_f4及び106_t0_f5のグループは、少なくとも1つのスペクトル係数106_t0_f3によって分離することができる。
例では、符号化器101は、少なくとも1つのスペクトル係数によって分離されている複数の個別スペクトル係数、例えば、少なくとも1つのスペクトル係数によって分離されている2つの個別スペクトル係数に予測符号化を適用するように構成することができる。さらに、符号化器101は、少なくとも1つのスペクトル係数によって分離されているスペクトル係数の複数のグループ(グループの各々は少なくとも2つのスペクトル係数を含む)、例えば少なくとも1つのスペクトル係数によって分離されているスペクトル係数の2つのグループに予測符号化を適用するように構成されることができる。さらに、符号化器101は、少なくとも1つのスペクトル係数によって分離されている複数の個別スペクトル係数及び/又はスペクトル係数のグループ、例えば、少なくとも1つのスペクトル係数によって分離されている少なくとも1つの個別スペクトル係数及び少なくとも1つのスペクトル係数のグループに予測符号化を適用するように構成することができる。
図8に示す例では、符号化器101は、現在のフレーム108_t0の6つのスペクトル係数106_t0_f1~106_t0_f6と、(最も)前のフレーム108_t-1の6つのスペクトル係数106_t-1_f1~106_t-1_f6とを決定するよう構成されている。それにより、符号化器101は、現在のフレームの個別第2のスペクトル係数106_t0_f2と、現在のフレーム108_t0の第4のスペクトル係数106_t0_f4及び第5のスペクトル係数106_t0_f5からなるスペクトル係数のグループとに選択的に予測符号化を適用するよう構成される。見て分かるように、個別第2のスペクトル係数106_t0_f2と、第4及び第5のスペクトル係数106_t0_f4及び106_t0_f5からなるスペクトル係数のグループとは、第3のスペクトル係数106_t0_f3によって互いに分離されている。
本明細書で使用される「選択的に」という用語は、選択されたスペクトル係数(のみ)に予測符号化を適用することを意味することに留意されたい。言い換えれば、予測符号化は、必ずしも全てのスペクトル係数に適用されるわけではなく、むしろ、選択された個別スペクトル係数またはスペクトル係数のグループのみに適用され、選択された個別スペクトル係数および/または少なくとも1つのスペクトル係数によって互いに分離可能なスペクトル係数のグループのみに適用される。言い換えれば、予測符号化は、選択された複数の個別スペクトル係数またはスペクトル係数のグループが分離される少なくとも1つのスペクトル係数に対して無効化され得る。
例では、符号化器101は、前のフレーム108_t-1の、少なくとも、対応する複数の個別スペクトル係数106_t-1_f2又はスペクトル係数106_t-1_f4及び106_t-1_f5のグループに基づいて、現在のフレーム108_t0の複数の個別スペクトル係数106_t0_f2又はスペクトル係数106_t0_f4及び106_t0_f5のグループに対して選択的に予測符号化を適用するように構成されることができる。
例えば、符号化器101は、現在のフレーム108_t0の複数の予測(された)個別スペクトル係数110_t0_f2又は予測スペクトル係数110_t0_f4及び110_t0_f5のグループと、現在のフレームの複数の個別スペクトル係数106_t0_f2又はスペクトル係数106_t0_f4及び106_t0_f5のグループ(又はその量子化後の(量子化された)バージョン)との間の予測誤差を符号化することによって、現在のフレーム108_t0の複数の個別スペクトル係数106_t0_f2又はスペクトル係数106_t0_f4及び106_t0_f5のグループを予測符号化するように構成することができる。
図8では、符号化器101は、現在のフレーム108_t0の予測個別スペクトル係数110_t0_f2と現在のフレーム108_t0の個別スペクトル係数106_t0_f2との間の予測誤差、及び現在のフレームの予測スペクトル係数110_t0_f4及び110_t0_f5のグループと現在のフレームのスペクトル係数106_t0_f4及び106_t0_f5のグループとの間の予測誤差を符号化することによって、個別スペクトル係数106_t0_f2と、スペクトル係数106_t0_f4及び106_t0_f5からなるスペクトル係数のグループとを符号化する。
言い換えれば、第2のスペクトル係数106_t0_f2は、予測第2のスペクトル係数110_t0_f2と(実際の又は決定された)第2のスペクトル係数106_t0_f2との間の予測誤差(又は差)を符号化することにより符号化される。第4のスペクトル係数106_t0_f4が、予測第4のスペクトル係数110_t0_f4と(実際の又は決定された)第4のスペクトル係数106_t0_f4との間の予測誤差(又は差)を符号化することによって符号化される。第5のスペクトル係数106_t0_f5は、予測第5のスペクトル係数110_t0_f5と(実際の又は決定された)第5のスペクトル係数106_t0_f5との間の予測誤差(又は差)を符号化することにより符号化される。
一例では、符号化器101は、現在のフレーム108_t0の複数の予測個別スペクトル係数110_t0_f2又は予測スペクトル係数110_t0_f4、110_t0_f5のグループを、(前のフレーム108_t-1の)複数の個別スペクトル係数106_t-1_f2又はスペクトル係数106_t-1_f4、106_t-1_f5のグループの対応の実バージョンにより決定するよう構成されることが可能である。
すなわち、符号化器101は、上記決定処理において、前のフレーム108_t-1の複数の実際の個別スペクトル係数106_t-1_f2又は実際のスペクトル係数106_t-1_f4、106_t-1_f5のグループを直接用いることができ、ここで106_t-1_f2、106_t-1_f4、106_t-1_f5は、元のまだ量子化されていないスペクトル係数又はスペクトル係数のグループをそれぞれ表し、それらは、前記符号化器が変換領域又はフィルタバンク領域104において動作し得るように、符号化器101によって得られる。
例えば、符号化器101は、前のフレーム10 108_t-1の第2のスペクトル係数106_t-1_f2の対応するまだ量子化されていないバージョンに基づいて、現在のフレーム108_t0の第2の予測スペクトル係数110_t0_f2を決定するように構成され得、前のフレーム108_t-1の第4のスペクトル係数106_t-1_f4の対応するまだ量子化されていないバージョンに基づいて、現在のフレーム108_t0の予測第4のスペクトル係数110_t0_f4を決定するように構成され得、及び前のフレームの第5のスペクトル係数106_t-1_f5の対応するまだ量子化されていないバージョンに基づいて、現在のフレーム108_t0の予測第5のスペクトル係数110_t0_f5を決定するように構成され得る。
このアプローチによって、予測符号化および復号化方式は、量子化ノイズの一種の高調波シェーピングを示すことができる。これは、その例は図11に関して後述するが、対応する復号化器は、上述の決定ステップにおいて、予測復号化のために、前のフレーム108_t-1の複数の個別スペクトル係数106_t-1_f2またはスペクトル係数106_t-1_f4および106_t-1_f5の複数のグループの送信された量子化後のバージョンを採用できるだけであるためである。
このような高調波ノイズシェーピングは、例えば、時間領域における長期予測(LTP:long-term prediction)によって従来から行われているように、予測符号化にとって主観的に有利であり得るが、場合によっては、復号化された音声信号に導入される不要な過剰量の調性をもたらすことがあるので好ましくないこともあり得る。このため、対応する復号化と完全に同期し、そのため、あらゆる可能な予測利得を利用するだけで、量子化ノイズシェーピングをもたらさない代替的な予測符号化方式を、以下に説明する。この代替的な符号化例によれば、符号化器101は、前のフレーム108_t-1の複数の個別スペクトル係数106_t-1_f2又はスペクトル係数106_t-1_f4、106_t-1_f5のグループの対応する量子化後のバージョンを用いて、現在のフレーム108_t0の複数の予測個別スペクトル係数110_t0_f2又は予測スペクトル係数110_t0_f4、110_t0_f5のグループを決定するよう構成されることが可能である。
例えば、符号化器101は、前のフレーム108_t-1の第2のスペクトル係数106_t-1_f2の対応する量子化後のバージョンに基づいて、現在のフレーム108_t0の第2の予測スペクトル係数110_t0_f2を決定するように構成されることが可能であり、前のフレーム108_t-1の第4のスペクトル係数106_t-1_f4の対応する量子化後のバージョンに基づいて現在のフレーム108_t0の予測された第4のスペクトル係数110_t0_f4を決定するように構成されることが可能であり、及び前のフレームの第5のスペクトル係数106_t-1_f5の対応する量子化後のバージョンに基づいて現在のフレーム108_t0の予測された第5のスペクトル係数110_t0_f5を決定するように構成されることが可能である。
さらに、符号化器101は、間隔値から予測係数112_f2、114_f2、112_f4、114_f4、112_f5及び114_f5を導出するように構成することができ、少なくとも2つの前のフレーム108_t-1及び108_t-2の複数の個別スペクトル係数106_t-1_f2及び106_t-2_f2又はスペクトル係数106_t-1_f4、106_t-2_f4、106_t-1_f5、及び106_t-2_f5のグループの対応する量子化後のバージョンを用いて、かつ、導出された予測係数112_f2、114_f2、112_f4、114_f4、112_f5及び114_f5を用いて、現在のフレーム108_t0に対する複数の予測個別スペクトル係数110_t0_f2又は予測スペクトル係数110_t0_f4、_t0_f5のグループを計算するように構成することができる。
例えば、符号化器101は、間隔値から第2のスペクトル係数106_t0_f2に対する予測係数112_f2及び114_f2を導出し、間隔値から第4のスペクトル係数106_t0_f4に対する予測係数112_f4及び114_f4を導出し、間隔値から第5のスペクトル係数106_t0_f5に対する予測係数112_f5及び114_f5を導出するよう構成することが可能である。
例えば、予測係数の導出は、次のように行うことができる。間隔値が周波数f0又はその符号化(された)バージョンに対応する場合、予測が可能なスペクトル係数のK番目のグループの中心周波数はfc=K*f0である。サンプリング周波数がfsで、変換ホップサイズ(連続するフレーム間のシフト)がNの場合、周波数fcの正弦波信号を想定したK番目のグループの理想的な予測係数は次のようになる。
p1=2*cos(N*2*pi*fc/fs)及びp2=-1
例えば、スペクトル係数106_t0_f4と106_t0_f5の両方がこのグループ内にある場合、予測係数は、以下のようになる。
112_f4=112_f5=2*cos(N*2*pi*fc/fs)
及び 114_f4=114_f5=-1
安定性の理由から、減衰係数dを導入し、予測係数を修正することができる。
112_f4’=112_f5’=d*2*cos(N*2*pi*fc/fs)、
114_f4’=114_f5’=d2
間隔値は符号化音声信号120で送信されるので、復号化器は全く同じ予測係数212_f4=212_f5=2*cos(N*2*pi*fc/fs)及び114_f4=114_f5=-1を導出できる。ダンピング係数が用いられる場合、係数はそれに応じて修正されることが可能である。
図8に示されるように、符号化器101は、符号化音声信号120を提供するように構成することができる。それによって、符号化器101は、予測符号化が適用される複数の個別スペクトル係数106_t0_f2又はスペクトル係数106_t0_f4及び106_t0_f5のグループに対する予測誤差の量子化後のバージョンを符号化音声信号120に含めるように構成することができる。さらに、符号化器101は、予測係数112_f2~114_f5を符号化音声信号120に含めないように構成することもできる。
このように符号化器101は、予測係数112_f2~114_f5のみを、複数の予測(された)個別スペクトル係数110_t0_f2又は予測スペクトル係数110_t0_f4、110_t0_f5のグループの計算のために、そこから予測個別スペクトル係数110_t0_f2又は予測スペクトル係数110_t0_f4及び110_t0_f5のグループと、現在のフレームの個別スペクトル係数106_t0_f2又は予測スペクトル係数110_t0_f4及び110_t0_f5のグループとの間における予測誤差の計算のために、使用することができる。しかし、符号化器101は、符号化音声信号120において、個別スペクトル係数106_t0_f4(又はその量子化後のバージョン)又はスペクトル係数106_t0_f4及び106_t0_f5のグループ(又はその量子化後のバージョン)及び予測係数112_f2~114_f5のいずれも提供することはないだろう。したがって、図11に関して後述する一例の復号化器は、現在のフレームに対する複数の予測個別スペクトル係数又は予測スペクトル係数のグループを計算するための予測係数112_f2~114_f5を間隔値から導出することができる。
言い換えれば、符号化器101は、予測符号化が適用される複数の個別スペクトル係数106_t0_f2又はスペクトル係数106_t0_f4及び106_t0_f5のグループに対する複数の個別スペクトル係数106_t0_f2又はスペクトル係数106_t0_f4及び106_t0_f5のグループの量子化後のバージョンの代わりに、予測誤差の量子化後のバージョンを含む符号化音声信号120を提供するように構成され得る。
さらに、符号化器101は、複数の個別スペクトル係数106_t0_f2又はスペクトル係数106_t0_f4及び106_t0_f5のグループが分離されたスペクトル係数106_t0_f3の量子化後のバージョンを含む符号化音声信号102を提供するように構成することが可能である。それにより、予測誤差の量子化後のバージョンが符号化音声信号120に含まれるスペクトル係数106_t0_f2又はスペクトル係数106_t0_f4及び106_t0_f5のグループと、予測符号化を使用せずに量子化後のバージョンが提供されるスペクトル係数106_t0_f3又はスペクトル係数のグループが交互に存在する。
例では、符号化器101は、予測誤差の量子化後のバージョンと、複数の個別スペクトル係数106_t0_f2又はスペクトル係数106_t0_f4及び106_t0_f5のグループが分離されたスペクトル係数106_t0_f3の量子化後のバージョンとをエントロピー符号化し、エントロピー符号化されたバージョンを(その非エントロピー符号化バージョンではなく)符号化音声信号120に含むようさらに構成されることが可能である。
実施例では、符号化器101は、予測符号化のために、間隔値によって定義される高調波グリッドに従ってスペクトル的に配置されたスペクトル係数(又は個別スペクトル係数)のグループ116_1~116_6を選択するように構成され得る。これにより、間隔値によって定義される高調波グリッドは、音声信号102における高調波の周期的なスペクトル分布(等距離間隔)を記述している。言い換えれば、間隔値によって定義される高調波グリッドは、音声信号の高調波の等距離間隔を記述する間隔値のシーケンスとすることができる。
さらに、予測符号化のために、符号化器101は、スペクトル係数(例えば、それらのスペクトル係数のみ)を選択するように構成されることができ、スペクトルインデックスは、間隔値に基づいて導出された複数のスペクトルインデックスと等しいか、またはその(例えば、予め決められたまたは可変)範囲内にある。
間隔値から、音声信号102の高調波を表すスペクトル係数のインデックス(又は番号)を導出することができる。例えば、第4のスペクトル係数106_t0_f4が音声信号102の瞬時基本周波数を表すと仮定し、間隔値を5とすると、間隔値に基づいて、インデックス9を有するスペクトル係数を導出することができる。このように導出されたインデックス9を有するスペクトル係数、すなわち9番目のスペクトル係数106_t0_f9は、第2高調波を表している。同様に、インデックス14、19、24、29を有するスペクトル係数を導出することができ、第3~第6高調波124_3~124_6を表している。ただし、間隔値に基づいて導出された複数のスペクトルインデックスに等しいインデックスを有するスペクトル係数だけでなく、間隔値に基づいて導出された複数のスペクトルインデックスの周囲の所定の範囲内のインデックスを有するスペクトル係数も予測符号化することができる。
さらに、符号化器101は、予測符号化が適用されるスペクトル係数(又は複数の個別スペクトル係数)のグループ116_1~116_6を、予測符号化が適用されるスペクトル係数(又は複数の個別スペクトル係数)のグループ116_1~116_6と、予測符号化が適用されるスペクトル係数(又は複数の個別スペクトル係数)のグループが分離されるスペクトル係数との間にある、±1スペクトル係数の許容度で周期的に交替するように選択するように構成することができる。音声信号102の2つの高調波間の距離が整数の間隔値(スペクトル係数のインデックス又は数に関して整数)に等しいのではなく、その分数又は倍数に等しい場合に、±1スペクトル係数の許容度が必要となる場合がある。
言い換えれば、音声信号102は、少なくとも2つの高調波信号成分124_1~124_6を含むことができ、符号化器101は、少なくとも2つの高調波信号成分124_1~124_6又は音声信号102の少なくとも2つの高調波信号成分124_1~124_6の周囲のスペクトル環境を表すスペクトル係数(又は個別スペクトル係数)の複数のグループ116_1~116_6に予測符号化を選択的に適用するよう構成されることができる。少なくとも2つの高調波信号成分124_1~124_6の周囲のスペクトル環境は、例えば、±1、2、3、4又は5スペクトル成分であることができる。
それにより、符号化器101は、音声信号102の少なくとも2つの高調波信号成分124_1~124_6又は少なくとも2つの高調波信号成分124_1~124_6のスペクトル環境を表さないスペクトル係数(又は複数の個別スペクトル係数)のそれらのグループ118_1~118_5に対して、予測符号化を適用しないように構成されることができる。言い換えれば、符号化器101は、信号高調波124_1~124_6間の非調和バックグラウンドノイズに属するスペクトル係数(又は個別スペクトル係数)のそれらの複数のグループ118_1~118_5に対して予測符号化を適用しないように構成されることができる。
さらに、符号化器101は、音声信号102の少なくとも2つの高調波信号成分124_1~124_6の間のスペクトル間隔を示す高調波間隔値を決定するようにように構成されることができ、その高調波間隔値は、音声信号102の少なくとも2つの高調波信号成分124_1~124_6を表すそれらの複数の個別スペクトル係数又はスペクトル係数のグループを示す。
さらに、符号化器101は、符号化音声信号120が間隔値(例えば、フレームごとに1つの間隔値)又は(代替的に)間隔値を直接導出することができるパラメータを含むように、符号化音声信号120を提供するように構成されることが可能である。
実施例は、符号化器(送信機)101からそれぞれの復号化器(受信機)へ、両者が完全に同期して動作できるように信号化された高調波間隔値をFDPプロセスに導入することによって、FDP法の上述の2つの問題に対処する。前記高調波間隔値は、符号化されるフレームに関連する1つ以上のスペクトルの瞬時基本周波数(又はピッチ)の指標として機能し、どのスペクトルビン(スペクトル係数)を予測しなければならないかを特定することができる。より具体的には、(高調波間隔値によって定義されるように)(それらのインデックスに関して)基本ピッチの整数倍に位置する高調波信号成分周辺のスペクトル係数のみが、予測の対象となるものとする。
図9は、実施例によるFDP予測コンセプトの符号化信号120を復号化するための復号化器201の概略ブロック図である。復号化器201は、変換領域又はフィルタバンク領域204において符号化音声信号120を復号化するように構成され、復号化器201は、現在のフレーム208_t0についての音声信号の符号化スペクトル係数206_t0_f1~206_t0_f6と少なくとも1つの前のフレーム208_t-1についての符号化スペクトル係数206_t-1_f0~206_t-1_f6とを得るために符号化音声信号120を解析するように構成され、復号化器201は、少なくとも1つの符号化スペクトル係数によって分離されている複数の個別符号化スペクトル係数又は符号化スペクトル係数のグループに選択的に予測復号化を適用するように構成される。
例では、復号化器201は、少なくとも1つの符号化スペクトル係数によって分離されている複数の個別符号化スペクトル係数、例えば、少なくとも1つの符号化スペクトル係数によって分離されている2つの個別符号化スペクトル係数に予測復号化を適用するように構成することができる。さらに、復号化器201は、少なくとも1つの符号化スペクトル係数によって分離されている符号化スペクトル係数の複数のグループ(グループの各々は、少なくとも2つの符号化スペクトル係数を含む)、例えば、少なくとも1つの符号化スペクトル係数によって分離されている符号化スペクトル係数の2つのグループに予測復号化を適用するように構成されることが可能である。さらに、復号化器201は、少なくとも1つの符号化スペクトル係数によって分離されている複数の個別符号化スペクトル係数及び/又は符号化スペクトル係数のグループ、例えば、少なくとも1つの符号化スペクトル係数によって分離されている少なくとも1つの個別符号化スペクトル係数及び符号化スペクトル係数の少なくとも1つのグループに予測復号化を適用するように構成されることが可能である。
図9に示す例では、復号化器201は、現在のフレーム208_t0についての6つの符号化スペクトル係数206_t0_f1~206_t0_f6と、前のフレーム208_t-1についての6つの符号化スペクトル係数206_t-1_f1~206_t-1_f6とを決定するように構成される。それによって、復号化器201は、現在のフレームの個別第2の符号化スペクトル係数206_t0_f2と、現在のフレーム208_t0の第4及び第5の符号化スペクトル係数206_t0_f4及び206_t0_f5からなる符号化スペクトル係数のグループとに選択的に予測復号化を適用するように構成される。見て分かるように、個別第2の符号化スペクトル係数206_t0_f2と、第4及び第5の符号化スペクトル係数206_t0_f4及び206_t0_f5からなる符号化スペクトル係数のグループは、第3の符号化スペクトル係数206_t0_f3により互いに分離される。
本明細書で使用される「選択的に」という用語は、選択された符号化スペクトル係数に予測復号化(のみ)を適用することを指すことに留意されたい。言い換えれば、予測復号化は、全ての符号化スペクトル係数に適用されるのではなく、選択された個別符号化スペクトル係数又は符号化スペクトル係数のグループのみに適用され、選択された個別符号化スペクトル係数及び/又は符号化スペクトル係数のグループは、少なくとも1つの符号化スペクトル係数によって互いに分離されている。言い換えれば、予測復号化は、選択された複数の個別符号化スペクトル係数又は符号化スペクトル係数のグループを分離する少なくとも1つの符号化スペクトル係数に適用されない。
例では、復号化器201は、個別符号化スペクトル係数206_t0_f2又はスペクトル係数206_t0_f4及び206_t0_f5のグループを分離する少なくとも1つの符号化スペクトル係数206_t0_f3に予測復号化を適用しないように構成されることができる。
復号化器201は、符号化スペクトル係数をエントロピー復号化し、予測復号化が適用されるべきスペクトル係数206_t0_f2、2016_t0_f4及び206_t0_f5に対する量子化後の(量子化された)予測誤差と、予測復号化が適用されない少なくとも1つのスペクトル係数に対する量子化後のスペクトル係数206_t0_f3が得られるように構成されることが可能である。それによって、復号化器201は、量子化後の(量子化された)予測誤差を複数の予測個別スペクトル係数210_t0_f2又は予測スペクトル係数210_t0_f4及び210_t0_f5のグループに適用して、現在のフレーム208_t0について、予測復号化が適用される符号化スペクトル係数206_t0_f2、206_t0_f4及び206_t0_f5に関連付けられた復号化スペクトル係数を取得するよう構成することが可能である。
たとえば、復号化器201は、第2の量子化後のスペクトル係数206_t0_f2に対する第2の量子化後の予測誤差を取得し、第2の量子化後の予測誤差を予測第2のスペクトル係数210_t0_f2に適用し、第2の符号化スペクトル係数206_t0_f2に関連付けられた第2の復号化スペクトル係数を取得するように構成されることができる。ここで、復号化器201は、第4の量子化後のスペクトル係数206_t0_f4に対する第4の量子化後の予測誤差を取得し、第4の量子化後の予測誤差を予測第4のスペクトル係数210_t0_f4に適用し、第4の符号化スペクトル係数206_t0_f4に関連する第4の復号化スペクトル係数を取得するように構成されることができる。ここで、復号化器201は、第5の量子化後のスペクトル係数206_t0_f5に対する第5の量子化後の予測誤差を取得し、第5の量子化後の予測誤差を予測第5のスペクトル係数210_t0_f5に適用し、第5の符号化スペクトル係数206_t0_f5に関連する第5の復号化スペクトル係数を得るよう構成されることができる。
さらに、復号化器201は、現在のフレーム208_t0に対する複数の予測個別スペクトル係数210_t0_f2又は予測スペクトル係数210_t0_f4及び210_t0_f5のグループを、前のフレーム208_t-1の、(例えば、複数の個別符号化スペクトル係数206_t-1_f2に関連付けられた以前に復号化された複数のスペクトル係数を用いる)対応する複数の個別符号化スペクトル係数206_t-1_f2に基づいて、又は(例えば、符号化スペクトル係数206_t-1_f4及び206_t-1_f5のグループに関連付けられた以前に復号化されたスペクトル係数のグループを用いる)符号化スペクトル係数206_t-1_f4及び206_t-1_f5のグループに基づいて、決定するように構成されることができる。
例えば、復号化器201は、前のフレーム208_t-1の第2の符号化スペクトル係数206_t-1_f2に関連する以前に復号化された(量子化された)第2のスペクトル係数を用いて、現在のフレーム208_t0の第2の予測スペクトル係数210_t0_f2を決定するように構成されることができ、前のフレーム208_t-1の第4の符号化スペクトル係数206_t-1_f4に関連する以前に復号化された(量子化された)第4のスペクトル係数を用いて、現在のフレーム208_t0の第4の予測スペクトル係数210_t0_f4を決定するように構成されることができ、前のフレーム208_t-1の第5の符号化スペクトル係数206_t-1_f5に関連する以前に復号化された(量子化された)第5のスペクトル係数を用いて、現在のフレーム208_t0の第5の予測スペクトル係数210_t0_f5を決定するように構成されることができる。
さらに、復号化器201は、間隔値から予測係数を導出するように構成することができる。そして、復号化器201は、少なくとも2つの前のフレーム208_t-1および208_t-2の対応する複数の以前に復号化された個別スペクトル係数または以前に復号化されたスペクトル係数のグループを使用して、かつ、導出された予測係数を使用して、現在のフレーム208_t0に対する複数の予測個別スペクトル係数210_t0_f2または予測スペクトル係数210_t0_f4および210_t0_f5のグループを計算するよう構成されることが可能である。
たとえば、復号化器201は、間隔値から第2の符号化スペクトル係数206_t0_f2に対する予測係数212_f2及び214_f2を導出し、間隔値から第4の符号化スペクトル係数206_t0_f4に対する予測係数212_f4及び214_f4を導出し、間隔値から第5の符号化スペクトル係数206_t0_f5に対する予測係数212_f5及び214_f5を導出するするように構成されることが可能である。
なお、復号化器201は、予測復号化が適用される複数の個別符号化スペクトル係数又は符号化スペクトル係数のグループに対して、複数の個別量子化後のスペクトル係数又は量子化後のスペクトル係数のグループの代わりに量子化後の予測誤差を得るために符号化音声信号120を復号化するよう構成することが可能である。
さらに、復号化器201は、複数の個別スペクトル係数又はスペクトル係数のグループを分離する量子化後のスペクトル係数を得るために、符号化音声信号120を復号化するように構成されることができる。そうして、量子化後の予測誤差が得られる符号化スペクトル係数206_t0_f2又は符号化スペクトル係数206_t0_f4、206_t0_f5のグループと、量子化後のスペクトル係数が得られる符号化スペクトル係数206_t0_f3又は符号化スペクトル係数のグループとが交互に存在する。
復号化器201は、予測復号化が適用される符号化スペクトル係数206_t0_f2、206_t0_f4及び206_t0_f5に関連付けられた復号化スペクトル係数を使用して、及び予測復号化が適用されていない符号化スペクトル係数206_t0_f1、206_t0_f3及び206_t0_f6に関連付けられたエントロピ復号化スペクトル係数を使用して復号化音声信号220を提供するように構成されることができる。
例では、復号化器201は、間隔値を取得するように構成することができ、復号化器201は、間隔値に基づいて、予測復号化が適用される複数の個別符号化スペクトル係数206_t0_f2又は符号化スペクトル係数206_t0_f4及び206_t0_f5のグループを選択するように構成することができる。
対応する符号化器101の説明に関して既に上述したように、間隔値は、例えば、音声信号の2つの特性周波数間の間隔(又は距離)とすることができる。さらに、間隔値は、音声信号の2つの特性周波数の間の間隔を近似するスペクトル係数(又はスペクトル係数のインデックス)の整数値であり得る。当然ながら、間隔値は、音声信号の2つの特性周波数の間の間隔を記述するスペクトル係数の整数値の分数又は倍数であることも可能である。
復号化器201は、予測復号化のために、間隔値によって定義される高調波グリッドに従ってスペクトル的に配置された個別スペクトル係数又はスペクトル係数のグループを選択するように構成されることができる。間隔値によって定義される高調波グリッドは、音声信号102における高調波の周期的なスペクトル分布(等距離間隔)を記述することができる。言い換えれば、間隔値によって定義される高調波グリッドは、音声信号102の高調波の等距離間隔を記述する間隔値のシーケンスであり得る。
さらに、復号化器201は、予測復号化のために、スペクトル係数(例えば、それらのスペクトル係数のみ)を選択するように構成されることができ、そのスペクトルインデックスが、間隔値に基づいて導出された複数のスペクトルインデックスの周囲の範囲(例えば、所定の範囲又は可変範囲)と等しいか又はその範囲内にある。これにより、復号化器201は、間隔値に応じて範囲の幅を設定するように構成することができる。
例では、符号化音声信号は、間隔値又はその符号化バージョン(例えば、間隔値を直接導出することができるパラメータ)を含むことができ、復号化器201は、間隔値を得るために符号化音声信号から間隔値又はその符号化バージョンを抽出するように構成されることができる。
あるいは、復号化器201は、自身で間隔値を決定するように構成されることができ、すなわち、符号化音声信号が間隔値を含まないように構成されることができる。その場合、復号化器201は、(音声信号102を表す符号化音声信号120の)瞬時基本周波数を決定し、瞬時基本周波数又はその分数もしくは倍数から間隔値を導出するように構成されることができる。
例では、復号化器201は、予測復号化が適用される複数の個別スペクトル係数又はスペクトル係数のグループと、予測復号化が適用される複数の個別スペクトル係数又はスペクトル係数のグループを分離するスペクトル係数との間において±1スペクトル係数の許容度で周期的な交替があるように、予測復号化が適用される複数の個別スペクトル係数又はスペクトル係数のグループを選択するように構成されることができる。
例では、符号化音声信号120によって表現される音声信号102は、少なくとも2つの高調波信号成分を含み、復号化器201は、音声信号102の少なくとも2つの高調波信号成分又は少なくとも2つの高調波信号成分の周囲のスペクトル環境を表すそれら複数の個別符号化スペクトル係数206_t0_f2又は符号化スペクトル係数206_t0_f4及び206_t0_f5のグループに選択的に予測復号化を適用するよう構成される。少なくとも2つの高調波信号成分の周囲のスペクトル環境は、例えば、±1、2、3、4又は5個のスペクトル成分であり得る。
それによって、復号化器201は、少なくとも2つの高調波信号成分を識別し、識別された高調波信号成分に関連する、(例えば、識別された高調波信号成分を表す、又は識別された高調波信号成分を囲む)それらの複数の個別符号化スペクトル係数206_t0_f2又は符号化スペクトル係数206_t0_f4及び206_t0_f5のグループに選択的に予測復号化を適用するよう構成されることが可能である。
あるいは、符号化音声信号120は、少なくとも2つの高調波信号成分を特定する情報(例えば、間隔値)を含むことができる。その場合、復号化器201は、識別された高調波信号成分に関連する、(例えば、識別された高調波信号成分を表す、又は識別された高調波信号成分を取り囲む)それらの複数の個別符号化スペクトル係数206_t0_f2又は符号化スペクトル係数206_t0_f4及び206_t0_f5のグループに選択的に予測復号化を適用するよう構成され得る。
前述の代替案の両方において、復号化器201は、音声信号102の少なくとも2つの高調波信号成分又は少なくとも2つの高調波信号成分のスペクトル環境を表さないそれらの複数の個別符号化スペクトル係数206_t0_f3、206_t0_f1、206_t0_f6又は符号化スペクトル係数のグループに対して予測復号化を適用しないように構成されることができる。
言い換えれば、復号化器201は、音声信号102の信号高調波間の非調和バックグラウンドノイズに属するそれら複数の個別符号化スペクトル係数206_t0_f3、206_t0_f1、206_t0_f6又は符号化スペクトル係数のグループに予測復号化を適用しないように構成されることが可能である。
特定の実施形態のアイデアは、今2つは、異なる動作モードを有する符号化器及び復号化器を提供する。
実施形態によれば、符号化器100は、例えば、第1モードで動作可能であってもよく、例えば、第2モードと第3モードと第4モードとのうちの少なくとも1つで動作可能であってもよい。
符号化器100が第1のモードである場合、符号化器100は、例えば、音声信号の1つ以上の前のフレームの各々の複数のスペクトル係数のうち3つ以上のスペクトル係数からなる第1のグループを使用して、最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータの推定を決定することにより現在のフレームを符号化するように構成されることができる。
符号化器100が第2のモードである場合、符号化器100は、例えば、変換領域又はフィルタバンク領域で音声信号を符号化するように構成されることができ、符号化器は、例えば、現在のフレーム108_t0及び少なくとも前のフレーム108_t-1についての音声信号102の複数のスペクトル係数106_t0_f1:106_t0_f6;106_t-1_f1:106_t-1_f6を決定するように構成されることができ、符号化器100は、たとえば、複数の個別スペクトル係数106_t0_f2又はスペクトル係数106_t0_f4、106_t0_f5のグループに予測符号化を選択的に適用するように構成されることができ、符号化器100は、例えば、間隔値を決定するように構成されることができ、符号化器100は、例えば、予測符号化が、例えば、間隔値に基づいて適用され得る複数の個別スペクトル係数106_t0_f2又はスペクトル係数106_t0_f4、106_t0_f5のグループを選択するように構成されることができる。
実施形態において、第1のモードと第2のモードと第3のモードと第4のモードの各々において、符号化器100は、たとえば、基本周波数をリファインメント処理してリファインメント処理済み基本周波数を得るように構成されることができ、最小化基準に応じてフレームベースで利得係数を適応させて適応済み利得係数を得る。さらに、符号化器100は、例えば、元の基本周波数及び利得係数の代わりに、リファインメント処理済み基本周波数及び適応済み利得係数を符号化するように構成されることができる。
実施形態において、符号化器100は、例えば、音声信号の現在のフレームに応じて、自身を第1のモードに設定するか、又は第2のモードと第3のモードと第4のモードとの少なくとも1つに設定するように構成されることができる。符号化器100は、例えば、現在のフレームが第1のモードで符号化されたか、第2のモードで符号化されたか、第3のモードで符号化されたか、第4のモードで符号化されたかを、符号化するよう構成されることができる。
復号化器に関して、実施形態によれば、復号化器200は、例えば、第1のモードで動作可能であることができ、例えば、第2のモードと第3のモードと第4のモードとのうちの少なくとも1つで動作可能であることができる。
復号化器200が第1のモードである場合、復号化器200は、例えば、最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータの推定を決定するように構成されることができ、最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータは、音声信号の1つ以上の前のフレームの各々についての複数の再構成後のスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループに依存し、復号化器200は、例えば、最も前のフレームの1つ以上の高調波成分の各々についての2つの高調波パラメータの推定に応じて、現在のフレームを符号化したものを復号化するように構成されることができる。
復号化器200が第2のモードである場合、復号化器200は、例えば、現在のフレーム208_t0及び少なくとも前のフレーム208_t-1についての音声信号120の符号化スペクトル係数206_t0_f1:206_t0_f6;206_t-1_f1:206_t-1_f6を取得するために音声信号120を符号化したものを解析するように構成することができ、復号化器200は、例えば、複数の個別符号化スペクトル係数206_t0_f2又は符号化スペクトル係数206_t0_f4、206_t0_f5のグループに選択的に予測復号化を適用するように構成されることができ、復号化器200は、例えば、間隔値を取得するように構成されることができ、復号化器200は、例えば、例えば、予測復号化が間隔値に基づいて適用され得る複数の個別符号化スペクトル係数206_t0_f2又は符号化スペクトル係数206_t0_f4、206_t0_f5のグループを選択するように構成されることができる。
復号化器200が第3のモードである場合、復号化器200は、例えば、時間領域長期予測(Time Domain Long-term Prediction)を採用することによって音声信号を復号化するように構成されることができる。
復号化器200が第4のモードである場合、復号化器200は、例えば、適応型修正離散コサイン変換長期予測(Adaptive Modified Discrete Cosine Transform Long-Term Prediction)を採用して音声信号を復号化することができ、復号化器200が適応型修正離散コサイン変換長期予測を採用する場合、例えば、最小化基準に応じてフレームベースにおける予測方法として時間領域長期予測又は周波数領域予測(Frequency Domain Prediction)又は周波数領域最小平均二乗予測(Frequency Domain Least Mean Square Prediction)いずれかを選択するよう構成されることができる。
実施形態によれば、第1モードと第2モードと第3モードと第4モードの各々において、復号化器200は、例えば、フレームベースで決定された、リファインメント処理済み基本周波数に応じて、かつ適合済み利得係数に応じて、音声信号を復号化するように構成されることができる。
実施形態において、復号化器200は、例えば、現在のフレームが第1のモードで符号化されたか、第2のモードで符号化されたか、第3のモードで符号化されたか、第4のモードで符号化されたかに関する表示を含む符号化したものを受信して復号化することができる。復号化器200は、例えば、表示に応じて、自身を第1のモードに設定するか、第2のモードに設定するか、第3のモードに設定するか、第4のモードに設定することができる。
図5では、フレーム長が増加すると、元の信号の冗長性が変換自体によって大きく除去されているため、3つのコンセプトのすべてのBSがパイプノート(pipe note)について大きく低下することが分かる。FDPは、低ピッチのベースノート(low-pitched bass note)に対して、MDCT係数の高調波が大きく重なるので、その性能が大きく低下している。TDLTPの性能は全体的に良好である。しかし、フレーム長が大きい場合、一致する前のピッチ期間を見つけるのに大きな遅延が必要となり、性能が低下する。FDLMSPは、異なるノートと異なるフレーム長に関して、比較的良好で安定した性能を提供する。また、図5では、予測帯域幅が8kHzに増加するとBSが低下しているが、これは高い周波数帯の音に非調和性があるためである。非調和性は個別音素材のスペクトル特性に依存するため、より高い符号化効率を得るために、ビットレート消費量を帯域別に事前計算及び比較することができる。そして、予測決定が行われ、サイド情報として各フレームで信号化されることができる。
図6は、帯域幅を4kHzに制限し、MDCTフレーム長を64と512とした6つの異なる項目で、4つの異なる作業モードで保存されたビットレートを示している。
図6に示すように、FDLMSPは多くのシナリオでTDLTPとFDPを上回り、全般的に良好な性能を示している。AMLTPは最も性能が高く、ほとんどのケースでFDLMSPとTDLTPのどちらかを選択し、FDLMSPをTDLTPと組み合わせることで、BSを大幅に強化できることを示している。
MDCT領域におけるLTPのための新しいアプローチが提供された。この新しいアプローチは、各MDCTフレームを高調波成分の仮定としてモデル化し、LMSのコンセプトを用いて前のフレームからすべての高調波成分のパラメータを推定する。そして、予測は推定された高調波パラメータに基づいて行われる。このアプローチは、同種のコンセプトと比較して競争力のある性能を提供し、また、音声符号化の効率を高めるために共同で使用することができる。
上記のコンセプトは、例えば、異なるピッチ推定アルゴリズムを使用することによって、又は異なる量子化ステップサイズを適用することによって、ピッチ情報の精度が予測に及ぼす影響を分析するために採用されることができる。また、上記のコンセプトは、最小化基準を用いてフレームベースで音声信号のピッチ情報を決定するため、又はリファインメント処理するために採用されることができる。非調和性及び他の複雑な信号特性が予測に与える影響は、例えば、考慮されてもよい。上記のコンセプトは、例えば、誤り隠蔽のために採用されることができる。
いくつかの態様を装置の文脈で説明してきたが、これらの態様は、ブロック又は装置が方法ステップ又は方法ステップの特徴に対応する、対応する方法の説明も表していることは明らかである。同様に、方法ステップの文脈で説明される側面は、対応するブロック又は項目又は対応する装置の特徴の説明も表す。方法ステップのいくつか又はすべては、例えばマイクロプロセッサ、プログラマブルコンピュータ、又は電子回路のようなハードウェア装置によって(又はそれを使用して)実行されてもよい。いくつかの実施形態では、最も重要な方法ステップの1つ又はそれ以上が、そのような装置によって実行されてもよい。
特定の実装要件に応じて、本発明の実施形態は、ハードウェアで、又はソフトウェアで、あるいは少なくとも部分的にハードウェアで、又は少なくとも部分的にソフトウェアで実装することができる。実装は、デジタル記憶媒体、例えばフロッピー(登録商標)ディスク、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM又はFLASHメモリであって、その上に格納された電子的に読み取り可能な制御信号を有し、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働できる)ものを使用して実行することができる。したがって、デジタル記憶媒体は、コンピュータ可読であってもよい。
本発明によるいくつかの実施形態は、電子的に読み取り可能な制御信号を有するデータキャリアであって、本明細書に記載の方法の1つが実行されるように、プログラム可能なコンピュータシステムと協働することが可能であるデータキャリアを含む。
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに、方法の1つを実行するために動作可能である。プログラムコードは、例えば、機械読み取り可能な担体に格納することができる。
他の実施形態は、本明細書に記載された方法の1つを実行するためのコンピュータプログラムを、機械可読キャリアに格納することからなる。
言い換えれば、本発明方法の実施形態は、したがって、コンピュータプログラムがコンピュータ上で実行される場合、本明細書に記載された方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
本発明方法のさらなる実施形態は、したがって、本明細書に記載の方法の1つを実行するためのコンピュータプログラムをその上に記録してなるデータキャリア(又はデジタル記憶媒体、又はコンピュータ読取可能な媒体)である。データキャリア、デジタル記憶媒体、又は記録媒体は、典型的には、有形及び/又は非一時的である。
したがって、本発明方法のさらなる実施形態は、本明細書に記載された方法の1つを実行するためのコンピュータプログラムを表すデータストリーム又は信号のシーケンスである。データストリーム又は信号のシーケンスは、例えば、データ通信接続、例えば、インターネットを介して転送されるように構成されることができる。
さらなる実施形態は、本明細書に記載された方法の1つを実行するように構成された、又は適合された、例えばコンピュータ、又はプログラマブルロジックデバイスなどの処理手段を含む。
さらなる実施形態は、本明細書に記載された方法の1つを実行するためのコンピュータプログラムをその上にインストールしたコンピュータを具備する。
本発明による更なる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを受信機に(例えば、電子的又は光学的に)転送するように構成された装置又はシステム含む。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイス等であってもよい。装置又はシステムは、例えば、コンピュータ・プログラムを受信機に転送するためのファイル・サーバを含んでいてもよい。
いくつかの実施形態では、プログラマブルロジックデバイス(例えば、フィールドプログラマブルゲートアレイ)を使用して、本明細書に記載の方法の機能性の一部又は全部を実行してもよい。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載される方法の1つを実行するためにマイクロプロセッサと協働してよい。一般に、本方法は、任意のハードウェア装置によって実行されることが好ましい。
本明細書に記載された装置は、ハードウェア装置を用いて、又はコンピュータを用いて、又はハードウェア装置とコンピュータの組合せを用いて実施されてもよい。
本明細書に記載された方法は、ハードウェア装置を用いて、又はコンピュータを用いて、又はハードウェア装置とコンピュータの組合せを用いて実行されてもよい。
上述した実施形態は、本発明の原理を単に例示するものである。本明細書に記載された配置及び詳細の修正及び変形は、当業者には明らかであることが理解される。したがって、差し迫った特許請求の範囲の範囲によってのみ限定され、本明細書における実施形態の説明及び解説によって提示される特定の詳細によって限定されないことが意図される。
参考文献
[1] Jurgen Herre and Sascha Dick, "Psychoacoustic models for perceptual audio c oding a tutorial review," Applied Sciences, vol. 9, pp. 2854, ITT 2019.
[2] Juha Ojanpera, Mauri Vaananen, and Lin Yin, "Long Term Predictor for Transf orm Domain Perceptual Audio Coding," in Audio Engineering Society Convention 107, Sep 1999.
[3] Hendrik Fuchs, "Improving mpeg audio coding by backward adaptive linear ste reo prediction," in Audio Engineering Society Convention 99, Oct 1995.
[4] J. Princen, A. Johnson, and A. Bradley, "Subband/transform coding using fil ter bank designs based on time domain aliasing cancellation," in ICASSP '87. IEEE International Conference on Acoustics, Speech, and Signal Processing, April 1987, vol. 12, pp. 2161-2164.
[5] Christian Helmrich, Efficient Perceptual Audio Coding Using Cosine and Sine Modulated Lapped Transforms, doctoral thesis, Friedrich-Alexander-Universit at Erlangen-Nurnberg (FAU), 2017, Chapter 3.3: Frequency-Domain Prediction w ith Very Low Complexity.
[6] J. Rothweiler, "Polyphase quadrature filters-a new subband coding technique ," in ICASSP '83. IEEE International C01iference on Acoustics, Speech, and S ignal Processing, April 1983, vol. 8, pp. 1280--1283.
[7] Albrecht Schneider and Klaus Frieler, "Perception of harmonic and inharmoni c sounds: Results from ear models;・ in Computer Music Modeling and Retrieva l. Genesis of Meaning in Sound and Music, Solvi Ystad, Richard Kronland-Mart inet, and Kristoffer Jensen, Eds., Berlin, Heidelberg, 2009, pp. 18-44, Spri nger Berlin Heidelberg.
[8] Hugo Fast! and Eberhard Zwicker, Psychoacoustics: Facts and Models, Springe r-Verlag, Berlin, Heidelberg, 2006, Chapter 7.2: Just-Noticeable Changes in Frequency.
[9] John P. Princen and Alan Bernard Bradley, "Analysis/synthesis filter bank d esign based on time domain aliasing cancellation," IEEE Transactions on Acou stics, Speech, and Signal Processing, vol. 34, no. 5, pp. 1153-1161, October 1986.
[10] Alain de Cheveign and Hideki Kawahara, "Yin, a fundamental frequency e stimator for speech and music;・ The Journal of the Acoustical Society of Am erica, vol. 111, pp. 1917-30, 05 2002.
[11] Armin Taghipour, Psychoacoustics of detection of tonality and asymmetr y of masking: implementation of tonality estimation methods in a psychoacous tic model for perceptual audio coding, doctoral thesis, Friedrich-Alexander- Universitat Erlangen-Nurnberg (FAU), 2016, Chapter 4: The Psychoacoustic mod el.
[12] J. D. Johnston, "Estimation of perceptual entropy using noise masking criteria," in ICASSP-88? International Conference on Acoustics, Speech, an d Signal Processing, April 1988, pp. 2524--2527 vol.5.
[13] WO 2016 142357A1, published September 2016.

Claims (55)

  1. 音声信号の1つ以上の前のフレームに応じて前記音声信号の現在のフレームを符号化するための符号化器(100)であって、前記1つ以上の前のフレームが前記現在のフレームに先行し、前記現在のフレーム及び前記1つ以上の前のフレームの各々が前記音声信号の1つ以上の高調波成分を含み、前記現在のフレーム及び前記1つ以上の前のフレームの各々が周波数領域又は変換領域において複数のスペクトル係数を含み、
    前記現在のフレームを符号化したものを生成するために、前記符号化器(100)は、前記1つ以上の前のフレームのうちの最も前のフレームの前記1つ以上の高調波成分の各々について2つの高調波パラメータの推定を決定し、前記符号化器(100)は、前記音声信号の前記1つ以上の前のフレームの各々の前記複数のスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループを使用して前記最も前のフレームの前記1つ以上の高調波成分の各々について前記2つの高調波パラメータの前記推定を決定する、符号化器(100)。
  2. 前記符号化器(100)は、前記1つ以上の前のフレームの各々の前記複数のスペクトル係数のうちのさらなる1つ以上のスペクトル係数からなる第2のグループを使用せずに、前記最も前のフレームの前記1つ以上の高調波成分の各々について前記2つの高調波パラメータを推定する、請求項1に記載の符号化器(100)。
  3. 前記符号化器(100)が、前記現在のフレーム及び前記1つ以上の前のフレームの前記1つ以上の高調波成分の基本周波数に応じて、かつ、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定に応じて、前記現在のフレームを符号化したものとして利得係数及び残差信号を決定し、
    前記符号化器(100)は、前記現在のフレームを符号化したものが前記利得係数及び前記残差信号を含むように、前記現在のフレームを符号化したものを生成する、請求項1又は2に記載の符号化器(100)。
  4. 前記符号化器(100)は、前記現在のフレームの1つ以上の高調波成分の各々についての前記2つの高調波パラメータの推定を、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定に応じて、かつ、前記現在のフレーム及び前記1つ以上の前のフレームの前記1つ以上の高調波成分の前記基本周波数に応じて決定する、請求項3に記載の符号化器(100)。
  5. 前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータは、前記1つ以上の高調波成分の各々の、コサイン副成分についての第1のパラメータとサイン副成分についての第2のパラメータである、請求項3又は4に記載の符号化器(100)。
  6. 前記符号化器(100)は、少なくとも3つの方程式を含む線形方程式系を解くことによって、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータを推定し、前記少なくとも3つの方程式の各々が、前記1つ以上の前のフレームの各々の前記複数のスペクトル係数のうちの前記3つ以上のスペクトル係数からなる第1のグループに依存する、請求項3乃至5のいずれかに記載の符号化器(100)。
  7. 前記符号化器(100)は、最小平均二乗アルゴリズムを用いて前記線形方程式系を解く、請求項6に記載の符号化器(100)。
  8. Figure 2023507073000026
  9. r≧1である、請求項8に記載の符号化器(100)。
  10. Figure 2023507073000027
    Figure 2023507073000028
  11. Figure 2023507073000029
  12. 前記符号化器(100)は、高調波成分の基本周波数と、窓関数と、前記利得係数と、前記残差信号とを符号化するものである、請求項3乃至11のいずれかに記載の符号化器(100)。
  13. 前記符号化器(100)は、前記音声信号の前記1つ以上の前のフレームの各々の前記複数のスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループを使用して前記最も前のフレームの前記1つ以上の前記高調波成分の各々について前記2つの高調波パラメータを推定する前に、前記最も前のフレームの前記1つ以上の高調波成分の前記数を決定する、請求項12に記載の符号化器(100)。
  14. 前記符号化器(100)は、前記1つ以上の高調波成分から1つ以上の高調波成分のグループを決定し、前記1つ以上の高調波成分のグループに対して前記音声信号の予測を適用し、ここで、前記符号化器(100)は、前記最も前のフレームの前記1つ以上の高調波成分のグループの各々について前記次数を符号化する、請求項13に記載の符号化器(100)。
  15. 前記符号化器(100)は、前記現在のフレームの1つ以上の高調波成分の各々についての前記2つの高調波パラメータを、前記最も前のフレームの前記1つ以上の高調波成分のうちの該高調波成分の各々についての前記2つの高調波パラメータに応じて決定する、請求項3乃至14のいずれかに記載の符号化器(100)。
  16. Figure 2023507073000030
  17. 前記符号化器(100)が、前記周波数領域又は前記変換領域における前記現在のフレームの前記複数のスペクトル係数に応じて、かつ、前記現在のフレームの1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定に応じて、前記残差信号を決定し、かつ、
    前記符号化器(100)が、前記残差信号を符号化する、請求項3乃至16のいずれかに記載の符号化器(100)。
  18. 前記符号化器(100)が、前記現在のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定に応じて、前記現在のフレームの前記複数のスペクトル係数のうちの1つ以上のスペクトル係数のスペクトル予測を決定し、及び
    前記符号化器(100)が、前記周波数領域又は前記変換領域における前記現在のフレームの前記複数のスペクトル係数に応じて、かつ、前記現在のフレームの前記複数のスペクトル係数のうちの前記3つ以上のスペクトル係数の前記スペクトル予測に応じて、前記残留信号及び利得係数を決定し、前記符号化器(100)が、前記最も前のフレームの前記1つ以上の高調波成分のグループの各々について前記次数を符号化する、請求項17に記載の符号化器(100)。
  19. Figure 2023507073000031
  20. 前記符号化器(100)が、第1のモードで動作可能であり、また第2のモードと第3のモードと第4のモードのうちの少なくとも1つで動作可能であり、
    前記符号化器(100)が前記第1のモードである場合、前記符号化器(100)は、前記音声信号の前記1つ以上の前のフレームの各々の前記複数のスペクトル係数のうちの3つ以上のスペクトル係数からなる前記第1のグループを使用して前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定を決定することによって、前記現在のフレームを符号化し、
    前記符号化器(100)が前記第2のモードである場合、前記符号化器(100)は、前記変換領域又は前記フィルタバンク領域において前記音声信号を符号化し、前記符号化器は、前記現在のフレーム(108_t0)及び少なくとも前記最も前のフレーム(108_t-1)についての前記音声信号(102)の前記複数のスペクトル係数(106_t0_f1:106_t0_f6;106_t-1_f1:106_t-1_f6)を決定するように構成され、前記符号化器(100)は、複数の個別スペクトル係数(106_t0_f2)又はスペクトル係数(106_t0_f4,106_t0_f5)のグループに予測符号化を選択的に適用するように構成され、前記符号化器(100)は、間隔値(spacing value)を決定するように構成され、前記符号化器(100)は、予測符号化が適用される前記複数の個別スペクトル係数(106_t0_f2)又はスペクトル係数(106_t0_f4,106_t0_f5)のグループを前記間隔値に基づいて選択するように構成され、
    前記符号化器(100)が前記第3モードである場合、前記符号化器(100)は、時間領域長期予測を採用することにより前記音声信号を符号化し、及び、
    前記符号化器(100)が前記第4のモードである場合、前記符号化器(100)は、適応型修正離散コサイン変換長期予測を採用することによって前記音声信号を符号化し、前記符号化器(100)が適応型修正離散コサイン変換長期予測を採用する場合、前記符号化器(100)は、フレームベースにおける予測方法として時間領域長期予測又は周波数領域予測又は周波数領域最小平均二乗予測のいずれかを最小化基準に応じて選択するよう構成される、請求項1乃至19のいずれかに記載の符号化器(100)。
  21. 前記第1モードと前記第2モードと前記第3モードと前記第4モードの各々において、前記符号化器(100)は、前記基本周波数をリファインメント処理してリファインメント処理済み基本周波数を得て、最小化基準に応じてフレームベースで前記利得係数を適合させて適合された利得係数を得て、
    前記符号化器(100)は、前記元の基本周波数及び利得係数の代わりに、前記リファインメント処理済み基本周波数及び前記適合済み利得係数を符号化する、請求項20に記載の符号化器(100)。
  22. 前記符号化器(100)は、自身を前記第1のモードに設定するか、又は前記第2のモードと前記第3のモードと前記第4のモードのうちの少なくとも1つに設定し、及び、
    前記符号化器(100)は、前記現在のフレームが前記第1のモードで符号化されたか又は前記第2のモードで符号化されたか又は前記第3のモードで符号化されたか又は前記第4のモードで符号化されたかを符号化する、請求項20又は21に記載の符号化器(100)。
  23. 音声信号の現在のフレームを再構成するための復号化器(200)であって、前記音声信号の1つ以上の前のフレームが前記現在のフレームに先行し、前記現在のフレーム及び前記1つ以上の前のフレームの各々が前記音声信号の1つ以上の高調波成分を含み、前記現在のフレーム及び前記1つ以上の前のフレームの各々が周波数領域又は変換領域において複数のスペクトル係数を含み、
    前記復号化器(200)が、前記現在のフレームを符号化したものを受信し、
    前記復号化器(200)が、前記1つ以上の前のフレームのうちの最も前のフレームの前記1つ以上の高調波成分の各々についての2つの高調波パラメータの推定を決定し、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータが、前記音声信号の前記1つ以上の前のフレームの各々についての前記複数の再構成後のスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループに依存し、
    前記復号化器(200)は、前記現在のフレームを符号化したものに応じて、かつ、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定に応じて、前記現在のフレームを再構成する、復号化器(200)。
  24. 前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータは、前記1つ以上の前のフレームの各々についての前記複数の再構成後のスペクトル係数のうちの1つ以上の別のスペクトル係数からなる第2のグループに依存しない、請求項23に記載の復号化器(200)。
  25. 前記復号化器(100)が、利得係数及び残差信号を含む前記現在のフレームを符号化したものを受信し、
    前記復号化器(200)は、前記利得係数に応じて、前記残差信号に応じて、ならびに、前記現在のフレーム及び1つ以上の前のフレームの前記1つ以上の高調波成分の基本周波数に応じて、前記現在のフレームを再構成する、請求項23又は24に記載の復号化器(200)。
  26. 前記復号化器(200)は、前記現在のフレームの1つ以上の高調波成分の各々についての前記2つの高調波パラメータの推定を、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定に応じて、かつ前記現在のフレーム及び前記1つ以上の前のフレームの前記1つ以上の高調波成分の前記基本周波数に応じて決定する、請求項25に記載の復号化器(200)。
  27. 前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータは、前記1つ以上の高調波成分の各々についてのコサイン副成分についての第1のパラメータ及びサイン副成分についての第2のパラメータである、請求項25又は26に記載の復号化器(200)。
  28. 前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータは、少なくとも3つの方程式を含む線形方程式系に依存し、前記少なくとも3つの方程式の各々は、前記1つ以上の前のフレームの各々についての前記複数の再構成後のスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループのスペクトル係数に依存する、請求項25乃至27のいずれかに記載の復号化器(200)。
  29. 前記線形方程式系は、最小平均二乗アルゴリズムを用いて解くことができる、請求項28に記載の復号化器(200)。
  30. Figure 2023507073000032
  31. r≧1である、請求項30に記載の復号化器(200)。
  32. Figure 2023507073000033
    Figure 2023507073000034
  33. Figure 2023507073000035
  34. 前記復号化器(200)が、高調波成分の基本周波数、窓関数、前記利得係数、及び前記残差信号を受信し、
    前記復号化器(200)は、前記最も前のフレームの前記1つ以上の高調波成分の前記基本周波数に応じて、前記窓関数に応じて、前記利得係数に応じて、及び前記残留信号に応じて、前記現在のフレームを再構成する、請求項25乃至33のいずれかに記載の復号化器(200)。
  35. 前記復号化器(200)が、前記最も前のフレームの前記1つ以上の高調波成分の前記数を受信し、及び
    前記復号化器(200)は、前記最も前のフレームの前記1つ以上の高調波成分の前記数に応じて、前記現在のフレームを符号化したものを復号化する、請求項34に記載の復号化器(200)。
  36. 前記復号化器(200)が、1つ以上の高調波成分のグループに応じて、前記現在のフレームを符号化したものを復号化し、
    前記復号化器(200)は、前記1つ以上の高調波成分のグループに前記音声信号の予測を適用する、請求項35に記載の復号化器(200)。
  37. 前記復号化器(200)は、前記現在のフレームの1つ以上の高調波成分の各々についての前記2つの高調波パラメータを、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータに応じて決定する、請求項25乃至36のいずれかに記載の復号化器(200)。
  38. Figure 2023507073000036
  39. 前記復号化器(200)は、前記残差信号を受信し、前記残差信号は、前記周波数領域又は前記変換領域における前記現在のフレームの前記複数のスペクトル係数に依存し、前記残差信号は、前記現在のフレームの1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定に依存する、請求項25乃至38のいずれかに記載の復号化器(200)。
  40. 前記復号化器(200)は、前記現在のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定に応じて、前記現在のフレームの前記複数のスペクトル係数のうちの1つ以上のスペクトル係数のスペクトル予測を決定し、前記復号化器(200)は、前記現在のフレームの前記スペクトル予測に応じて、前記残差信号に応じて、かつ利得係数に応じて、前記音声信号の前記現在のフレームを決定する、請求項39に記載の復号化器(200)。
  41. Figure 2023507073000037
  42. 前記復号化器(200)は、第1のモードで動作可能であり、第2のモードと第3のモードと第4のモードのうちの少なくとも1つで動作可能であり、
    前記復号化器(200)が前記第1のモードである場合、前記復号化器(200)は、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定を決定し、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータは、前記音声信号の前記1つ以上の前のフレームの各々についての前記複数の再構成後のスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループに依存し、前記復号化器(200)は、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定に応じて前記現在のフレームを符号化したものを復号化し、
    前記復号化器(200)が前記第2モードである場合、前記復号化器(200)は、前記音声信号(120)の符号化したものを解析して、前記現在のフレーム(208_t0)及び少なくとも前記最も前のフレーム(208_t-1)についての前記音声信号(120)の符号化スペクトル係数(206_t0_f1:206_t0_f6;206_t-1_f1:206_t-1_f6)を取得し、前記復号化器(200)は、複数の個別符号化スペクトル係数(206_t0_f2)又は符号化スペクトル係数(206_t0_f4,206_t0_f5)のグループに予測復号化を選択的に適用するように構成され、前記復号化器(200)は、間隔値(spacing value)を取得するように構成され、前記復号化器(200)は、前記間隔値に基づいて、予測復号化が適用される前記複数の個別符号化スペクトル係数(206_t0_f2)又は符号化スペクトル係数(206_t0_f4,206_t0_f5)のグループを選択するように構成され、
    前記復号化器(200)が前記第3のモードにある場合、前記復号化器(200)は、時間領域長期予測を採用することによって前記音声信号を復号化し、及び、
    前記復号化器(200)が前記第4のモードである場合、前記復号化器(200)は、適応型修正離散コサイン変換長期予測を採用することによって前記音声信号を復号化し、前記復号化器(200)が適応型修正離散コサイン変換長期予測を採用する場合、前記復号化器(200)は、最小化基準に応じて、フレームベースにおける予測方法として時間領域長期予測又は周波数領域予測又は周波数領域最小平均二乗予測のいずれかを選択するよう構成される、請求項23乃至41のいずれかに記載の復号化器(200)。
  43. 前記第1のモードと前記第2のモードと前記第3のモードと前記第4のモードの各々において、前記復号化器(200)は、フレームベースで決定された、リファインメント処理済み基本周波数に応じて、かつ適合済み利得係数に応じて前記音声信号を復号化する、請求項42に記載の復号化器(200)。
  44. 前記復号化器(200)が、前記現在のフレームが前記第1のモードで符号化されたか、前記第2のモードで符号化されたか、前記第3のモードで符号化されたか、前記第4のモードで符号化されたかに関する表示を含む符号化されたものを受信して復号化し、及び、
    前記復号化器(200)は、前記表示に応じて、自身を前記第1のモード又は前記第2のモード又は前記第3のモード又は前記第4のモードに設定する、請求項42又は43に記載の復号化器(200)。
  45. フレーム損失隠蔽のための装置(700)であって、前記音声信号の1つ以上の前のフレームが前記音声信号の現在のフレームに先行し、前記現在のフレーム及び前記1つ以上の前のフレームの各々が前記音声信号の1つ以上の高調波成分を含み、前記現在のフレーム及び前記1つ以上の前のフレームの各々が、周波数領域又は変換領域において複数のスペクトル係数を含み、
    前記装置(700)が、前記1つ以上の前のフレームのうちの最も前のフレームの前記1つ以上の高調波成分の各々についての2つの高調波パラメータの推定を決定し、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータが、前記音声信号の前記1つ以上の前のフレームの各々についての前記複数の再構成後のスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループに依存し、
    前記装置(700)が前記現在のフレームを受信しない場合、又は前記現在のフレームが破損した状態で前記装置(700)によって受信される場合、前記装置(700)は、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定に応じて前記現在のフレームを再構成する、装置(700)。
  46. 前記装置(700)が、前記最も前のフレームの前記1つ以上の高調波成分の前記数を受信し、
    前記装置(700)は、前記最も前のフレームの前記1つ以上の高調波成分の前記数に応じて、かつ前記現在のフレーム及び前記1つ以上の前のフレームの前記1つ以上の高調波成分の基本周波数に応じて、前記現在のフレームを符号化したものを復号化する、請求項45に記載の装置(700)。
  47. 前記現在のフレームを再構成するために、前記装置(700)は、前記現在のフレームの1つ以上の高調波成分の各々についての前記2つの高調波パラメータの推定を、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定に応じて決定する、請求項45又は46に記載の装置(700)。
  48. 前記復号化器(200)は、前記現在のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータを、前記最も前のフレームの前記1つ以上の高調波成分のうちの前記1つの各々についての前記2つの高調波パラメータに応じて決定する、請求項47に記載の装置(700)。
  49. Figure 2023507073000038
  50. 前記装置(700)は、前記現在のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定に応じて、前記現在のフレームの前記複数のスペクトル係数のうちの1つ以上のスペクトル係数のスペクトル予測を決定する、請求項48又は49に記載の装置(700)。
  51. システムであって、
    音声信号の現在のフレームを符号化するための請求項1乃至22のいずれかに記載の符号化器(100)と、
    前記音声信号の前記現在のフレームを符号化したものを復号化するための請求項23乃至44のいずれかに記載の復号化器(200)と、を備えるシステム。
  52. 音声信号の現在のフレームを前記音声信号の1つ以上の前のフレームに応じて符号化するための方法であって、前記1つ以上の前のフレームが前記現在のフレームに先行し、前記現在のフレーム及び前記1つ以上の前のフレームの各々が前記音声信号の1つ以上の高調波成分を含み、前記現在のフレーム及び前記1つ以上の前のフレームの各々が周波数領域又は変換領域において複数のスペクトル係数を含み、
    前記方法は、前記現在のフレームを符号化したものを生成するために、前記1つ以上の前のフレームのうちの最も前のフレームの前記1つ以上の高調波成分の各々について2つの高調波パラメータの推定を決定するステップを含み、
    前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定を決定することは、前記音声信号の前記1つ以上の前のフレームの各々の前記複数のスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループを使用して実施される、方法。
  53. 音声信号の現在のフレームを再構成する方法であって、前記音声信号の1つ以上の前のフレームが前記現在のフレームに先行し、前記現在のフレーム及び前記1つ以上の前のフレームの各々が前記音声信号の1つ以上の高調波成分を含み、前記現在のフレーム及び前記1つ以上の前のフレームの各々が周波数領域又は変換領域において複数のスペクトル係数を含み、
    前記現在のフレームを符号化したものを受信するステップと、
    前記1つ以上の前のフレームのうちの最も前のフレームの前記1つ以上の高調波成分の各々についての2つの高調波パラメータの推定を決定するステップと、を備え、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータが、前記音声信号の前記1つ以上の前のフレームの各々についての前記複数の再構成後のスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループに依存しており、
    前記現在のフレームを符号化したものに応じて、かつ、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定に応じて、前記現在のフレームを再構成するステップと、を備える、方法。
  54. フレーム損失隠蔽のための方法であって、前記音声信号の1つ以上の前のフレームが前記音声信号の現在のフレームに先行し、前記現在のフレーム及び前記1つ以上の前のフレームの各々が前記音声信号の1つ以上の高調波成分を含み、前記現在のフレーム及び前記1つ以上の前のフレームの各々が周波数領域又は変換領域において複数のスペクトル係数を含み、
    前記方法は、前記1つ以上の前のフレームのうち最も前のフレームの前記1つ以上の高調波成分の各々についての2つの高調波パラメータの推定を決定するステップを備え、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータが前記音声信号の前記1つ以上の前のフレームの各々についての前記複数の再構成後のスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループに依存し、
    前記現在のフレームが受信されない場合、又は前記現在のフレームが破損した状態で受信される場合、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータに応じて前記現在のフレームを再構成するステップ備える、方法。
  55. コンピュータプログラムがコンピュータ又は信号処理装置によって実行される際に、請求項52乃至54のいずれかに記載の方法を実施するための、コンピュータプログラム。
JP2022531448A 2019-11-27 2019-11-27 音声符号化のための周波数領域における階調信号の長期予測のための符号化器、復号化器、符号化方法及び復号化方法 Pending JP2023507073A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2019/082802 WO2021104623A1 (en) 2019-11-27 2019-11-27 Encoder, decoder, encoding method and decoding method for frequency domain long-term prediction of tonal signals for audio coding

Publications (1)

Publication Number Publication Date
JP2023507073A true JP2023507073A (ja) 2023-02-21

Family

ID=68808298

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022531448A Pending JP2023507073A (ja) 2019-11-27 2019-11-27 音声符号化のための周波数領域における階調信号の長期予測のための符号化器、復号化器、符号化方法及び復号化方法

Country Status (9)

Country Link
US (1) US20220284908A1 (ja)
EP (1) EP4066242A1 (ja)
JP (1) JP2023507073A (ja)
KR (1) KR20220104049A (ja)
CN (1) CN115004298A (ja)
BR (1) BR112022010062A2 (ja)
CA (1) CA3162929A1 (ja)
MX (1) MX2022006398A (ja)
WO (1) WO2021104623A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220066749A (ko) * 2020-11-16 2022-05-24 한국전자통신연구원 잔차 신호의 생성 방법과 그 방법을 수행하는 부호화기 및 복호화기

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6496798B1 (en) * 1999-09-30 2002-12-17 Motorola, Inc. Method and apparatus for encoding and decoding frames of voice model parameters into a low bit rate digital voice message
BR122019023709B1 (pt) * 2009-01-28 2020-10-27 Dolby International Ab sistema para gerar um sinal de áudio de saída a partir de um sinal de áudio de entrada usando um fator de transposição t, método para transpor um sinal de áudio de entrada por um fator de transposição t e meio de armazenamento
US20130282373A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
CN107481725B (zh) * 2012-09-24 2020-11-06 三星电子株式会社 时域帧错误隐藏设备和时域帧错误隐藏方法
RU2740690C2 (ru) * 2013-04-05 2021-01-19 Долби Интернешнл Аб Звуковые кодирующее устройство и декодирующее устройство
WO2016142357A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal

Also Published As

Publication number Publication date
US20220284908A1 (en) 2022-09-08
WO2021104623A1 (en) 2021-06-03
BR112022010062A2 (pt) 2022-09-06
CA3162929A1 (en) 2021-06-03
CN115004298A (zh) 2022-09-02
KR20220104049A (ko) 2022-07-25
MX2022006398A (es) 2022-08-17
EP4066242A1 (en) 2022-10-05

Similar Documents

Publication Publication Date Title
US6134518A (en) Digital audio signal coding using a CELP coder and a transform coder
US8862463B2 (en) Adaptive time/frequency-based audio encoding and decoding apparatuses and methods
CN105453175B (zh) 对编码音频信号进行解码的设备、方法及计算机可读介质
US20190272839A1 (en) Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
CN106796798B (zh) 用于使用独立噪声填充生成增强信号的装置和方法
CA2978815C (en) Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
KR20120121928A (ko) 오디오 코덱 포스트 필터
JP2019506633A (ja) 改良されたミッド/サイド決定を持つ包括的なildを持つmdct m/sステレオのための装置および方法
US20220284908A1 (en) Encoder, decoder, encoding method and decoding method for frequency domain long-term prediction of tonal signals for audio coding
Rohlfing et al. NMF-based informed source separation
RU2662921C2 (ru) Устройство и способ для кодирования, обработки и декодирования огибающей аудиосигнала путем моделирования представления совокупной суммы с использованием квантования и кодирования распределения
JP6224233B2 (ja) 分配量子化及び符号化を使用したオーディオ信号包絡の分割によるオーディオ信号包絡符号化、処理及び復号化の装置と方法
RU2806121C1 (ru) Кодер, декодер, способ кодирования и способ декодирования для долговременного предсказания в частотной области тональных сигналов для кодировки аудио
CN110291583B (zh) 用于音频编解码器中的长期预测的系统和方法
WO2019173195A1 (en) Signals in transform-based audio codecs
EP2215630B1 (en) A method and an apparatus for processing an audio signal
WO2016142357A1 (en) Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220708

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230801

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20231027

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240201

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240514