JP2011521304A - 音声信号復号器、時間軸圧縮曲線データ提供装置、復号化された音声信号の提供方法、およびコンピュータプログラム - Google Patents

音声信号復号器、時間軸圧縮曲線データ提供装置、復号化された音声信号の提供方法、およびコンピュータプログラム Download PDF

Info

Publication number
JP2011521304A
JP2011521304A JP2011510908A JP2011510908A JP2011521304A JP 2011521304 A JP2011521304 A JP 2011521304A JP 2011510908 A JP2011510908 A JP 2011510908A JP 2011510908 A JP2011510908 A JP 2011510908A JP 2011521304 A JP2011521304 A JP 2011521304A
Authority
JP
Japan
Prior art keywords
axis compression
compression curve
time
time axis
curve
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011510908A
Other languages
English (en)
Other versions
JP5323180B2 (ja
Inventor
シュテファン バイエル
サッシャ ディスヒ
ラルフ ガイガー
ギヨーム フックス
マクス ノイエンドルフ
ゲラルド シューラー
ベルント エドラー
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=41131685&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2011521304(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2011521304A publication Critical patent/JP2011521304A/ja
Application granted granted Critical
Publication of JP5323180B2 publication Critical patent/JP5323180B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Stereophonic System (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Synchronisation In Digital Transmission Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

音声信号復号器300は、時間軸圧縮計算機320と、時間軸圧縮曲線データ再スケーラ330と、圧縮復号器340と、を備えている。時間軸圧縮計算機320は、時間軸圧縮曲線の時間的進展を説明する時間軸圧縮曲線進展情報316に基づいて、予め決められた時間軸圧縮曲線開始値から繰り返して再開始する時間軸圧縮曲線データを発生するように構成されている。時間軸圧縮曲線データ再スケーラ330は、時間軸圧縮曲線データの少なくとも一部を再スケールするように構成され、その結果、再開始位置での不連続が、時間軸圧縮曲線の再スケールされたバージョン332の中で、避けられる、もしくは、減少する、もしくは、排除される。圧縮復号器340は、時間軸圧縮曲線の再スケールされたバージョン332を使用して、符号化された音声信号表現310に基づいて、復号化された音声信号表現312を提供するように構成されている。
【選択図】図3

Description

本発明は、音声信号復号器、時間軸圧縮曲線データ提供装置、復号化された音声信号の提供方法、およびコンピュータプログラムに関する。
本発明に係るいくつかの実施形態は、時間軸圧縮MDCT変換符号器のための方法に関係する。
以下において、時間軸圧縮(time warped)音声符号化の分野への簡単な紹介が与えられる。その概念は、本発明のいくつかの実施形態に関係して適用される。
近年、技術は、音声信号を周波数領域表現に変換して、例えば、知覚のマスキング閾値を考慮に入れて、この周波数領域表現を効率良く符号化するように発展してきた。仮に、1セットの符号化されたスペクトル係数が伝送されるブロック長が長いならば、この音声信号符号化の概念は特に効率が良い。そして、仮に、比較的少ない数のスペクトル係数のみが、全体のマスキング閾値を十分に超えるならば、多くのスペクトル係数は、全体のマスキング閾値の近くまたは下にあり、無視される(または、最小符号長で符号化される)。
例えば、余弦を基礎とする、または、正弦を基礎とする変調重複変換は、そのエネルギー圧縮特性により、ソース符号化の応用の中でしばしば使用される。すなわち、一定の基本周波数(ピッチ)を有する倍音に対して、変調重複変換は、効率の良い信号表現に導く、低い数のスペクトル成分(副帯域)に、信号エネルギーを集中する。
一般に、信号の(基本)ピッチは、信号のスペクトルから区別可能な、最も低い優位周波数である、と理解される。一般のスピーチモデルでは、ピッチは、人間ののどによって変調された励磁信号の周波数である。仮に、単一の信号基本周波数のみが存在するならば、スペクトルは、基本周波数と倍音のみを含む非常に簡単なものとなる。そのようなスペクトルは、高い効率で符号化される。しかしながら、変化するピッチを有する信号に対して、各倍音成分に対応するエネルギーは、いくつかの変換係数に広げられ、その結果、符号化効率の減少をもたらす。
符号化効率のこの減少を克服するために、符号化されるべき音声信号は、不均等な時間格子上で効果的に再サンプルされる。その後の処理において、不均等な再サンプル抽出によって得られたサンプル位置は、まるで均等な時間格子上の値を表すかのように処理される。この操作は、一般的に「時間軸圧縮」という用語によって示される。サンプル時間は、ピッチの時間的変化に依存して有利に選ばれる。その結果、音声信号の時間軸圧縮バージョンのピッチ変化は、時間軸圧縮の前の音声信号の元のバージョンのピッチ変化より小さい。音声信号の時間軸圧縮の後、音声信号の時間軸圧縮バージョンは、周波数領域に変換される。ピッチ依存する時間軸圧縮は、時間軸圧縮された音声信号の周波数領域表現が、通常、元の(非時間軸圧縮の)音声信号の周波数領域表現よりはるかに少ない数のスペクトル成分の中に、エネルギーを圧縮することを示す、という効果がある。
L.ビルモエス、「音声信号の時間軸圧縮変換符号化」、PCT/EP2006/010246、国際特許出願、2005年11月(L.Villemoes,“Time Warped Transform Coding of Audio Signals”,PCT/EP2006/010246,Int. patent application,November 2005)
映画および関係した音声の一般的符号化:進化した音声符号化国際規格13818−7、ISO/IECJTC1/SC29/WG11映画の専門家グループ、1997年(Generic Coding of Moving Pictures and Associated Audio:Advanced Audio Coding. International Standard 13818−7,ISO/IECJTC1/SC29/WG11 Moving Pictures Expert Group,1997)
復号器側では、時間軸圧縮音声信号の周波数領域表現が、時間領域に変換して戻され、その結果、時間軸圧縮音声信号の時間領域表現が、復号器側で利用可能である。しかしながら、復号器側で再構成された時間軸圧縮音声信号の時間領域表現の中に、符号器側の入力音声信号の元のピッチ変化は含まれていない。従って、時間軸圧縮音声信号の復号器側の再構成された時間領域表現の再サンプル抽出によって、さらに別の時間軸圧縮が適用される。復号器にて符号器側の入力音声信号の良好な再構成を得るために、復号器側の時間軸圧縮は、符号器側の時間軸圧縮に関して、少なくともほぼ正確に逆操作であることが望ましい。適切な時間軸圧縮を得るために、復号器側の時間軸圧縮の調整を許す復号器で、利用可能な情報を持つことが望ましい。
そのような情報を、音声信号符号器から音声信号復号器に伝送することは、通常、必要であるので、復号器側で必要な時間軸圧縮情報の信頼される再構成を許している間は、この伝送に必要なビット伝送速度を小さく維持することが望ましい。
それゆえ、本発明の主たる目的は、時間軸圧縮情報の効率の良い符号化された表現に基づいて、時間軸圧縮情報の信頼される再構成を許す音声信号復号器、時間軸圧縮曲線データ提供装置、復号化された音声信号の提供方法、およびコンピュータプログラムを提供することである。
本発明による実施形態は、時間軸圧縮曲線進展情報を含む符号化された音声信号表現に基づいて、復号化された音声信号表現を提供するように構成された音声信号復号器を提供する。音声信号復号器は、時間軸圧縮曲線の時間的進展を説明する時間軸圧縮曲線進展情報に基づいて、予め決められた時間軸圧縮曲線開始値から繰り返して再開始する時間軸圧縮曲線データを発生するように構成された、時間軸圧縮曲線計算機を含む。また、音声信号復号器は、時間軸圧縮曲線データの少なくとも一部を再スケールするように構成され、その結果、再開始位置での不連続が、時間軸圧縮曲線の再スケールされたバージョンの中で、避けられる、もしくは、減少する、もしくは、排除される、時間軸圧縮曲線データ再スケーラを含む。また、音声信号復号器は、時間軸圧縮曲線の再スケールされたバージョンを使用して、符号化された音声信号表現に基づいて、復号化された音声信号表現を提供するように構成された時間軸圧縮復号器を含む。
本発明では、時間軸圧縮曲線が、時間軸圧縮曲線の時間的進展または相対的変化を説明する表現を使用することにより、高効率で符号化されるという発見に基づいている。なぜなら、時間軸圧縮曲線の時間的変化(「時間的進展」としても示される)は、実際に、時間軸圧縮曲線の特徴ある量であるからである。一方、その絶対値は、時間軸圧縮された音声信号の符号化/復号化に対して、重要でない。しかしながら、時間軸圧縮曲線進展情報(それは、時間全体にわたる時間軸圧縮曲線の変化を説明する)に基づいた時間軸圧縮曲線の再構成は、復号器の中の許容範囲の値が、例えば、数値アンダーフローまたは数値オーバーフローの形で超える、という問題をもたらす。これは、復号器が、通常、制限された解像度を有する数値表現を含むという事実のためである。さらに、予め決められた時間軸圧縮曲線開始値から、時間軸圧縮曲線の再構成を繰り返して再開始することによって、復号器のアンダーフローまたはオーバーフローの危険を排除されることがわかる。それにもかかわらず、時間軸圧縮曲線の再構成の単なる再開始は、再開始の時において、時間軸圧縮曲線の中に不連続が存在するという問題をもたらす。従って、再スケールが、再開始の時間におけるこの不連続を避ける、または、排除する、または、少なくとも減少させるために、使用されることがわかる。ここで、時間軸圧縮曲線の再構成は、予め決められた時間軸圧縮曲線開始値から繰り返して再開始される。
以上をまとめると、仮に、時間軸圧縮曲線の再構成が、予め決められた時間軸圧縮曲線開始値から繰り返して再開始され、そして、再開始から生じる不連続が、時間軸圧縮曲線の少なくとも一部分の再スケールによって、減少する、または、排除されるならば、ブロック類の連続した時間軸圧縮曲線は、数値オーバーフローまたは数値アンダーフローの危険を冒さないで再構成されることがわかる。
従って、時間軸圧縮曲線は、常に、再開始時間の所定の時間環境の中で、時間軸圧縮曲線開始値の周囲の明確な範囲の値の中に存在することが達成される。通常、音声信号再構成の現在の時間に相対して定義された、時間軸圧縮曲線の時間時の部分のみが、ブロック類の音声信号再構成に必要であるので、多くの場合、これで十分である。一方、時間軸圧縮曲線の「より古い」部分は、現在の音声信号再構成に必要ない。
以上をまとめると、本発明は、時間軸圧縮曲線の時間的進展を説明する相対的な時間軸圧縮曲線情報の効率の良い用法を許す。復号器の数値オーバーフローまたは数値アンダーフローは、時間軸圧縮曲線の繰り返しの再開始によって避けられる。音声信号再構成にしばしば必要である、時間軸圧縮曲線の連続は、適切な再スケールによって、再開始時点でさえ達成される。
以下では、いくつかの好ましい実施形態が、本発明の品位の実施形態と比較して論じられる。
本発明の実施形態において、時間軸圧縮曲線計算機は、予め決められた時間軸圧縮曲線開始値から開始して、先ず相対的変化情報を使用して、時間軸圧縮曲線の第2の部分の時間的進展を計算し、次に、予め決められた時間軸圧縮曲線開始値から開始して、相対的変化情報を使用して、時間軸圧縮曲線の第3の部分の時間的進展を計算するように構成され、時間軸圧縮曲線の第2の部分と第3の部分とは、時間軸圧縮曲線の連続した部分である。好ましくは、時間軸圧縮曲線データ再スケーラは、時間軸圧縮曲線の第1の部分および第2の部分の1つを再スケールして、第2の部分の再スケールされたバージョンと第3の部分との間の安定した転移を得るように構成される。
この概念を使用すると、時間軸圧縮曲線の第2の部分および第3の部分の両方が、明確な予め決められた開始値からの開始を発生し、第2の部分の再構成および第3の部分の再構成に対して一致する。相対的変化情報が、制限された範囲の時間軸圧縮曲線の相対的変化を説明すると想定すると、時間軸圧縮曲線の第2の部分と時間軸圧縮曲線の第3の部分とが、制限された範囲の値を示すことは、確実である。従って、数値アンダーフローまたは数値オーバーフローが避けられる。
さらに、時間軸圧縮曲線の部分の1つを再スケールすることによって、時間軸圧縮曲線の第2の部分から第3の部分への転移位置(すなわち、再開始位置)における不連続が、減少する、または、排除さえされる。
また、好ましい実施形態において、時間軸圧縮曲線データ再スケーラは、時間軸圧縮曲線の第2の部分を再スケールするように構成され、その結果、第2の部分の再スケールされたバージョンの終了値が、予め決められた時間軸圧縮曲線開始値である、もしくは、予め決められた許容値以内で予め決められた時間軸圧縮曲線開始値から外れている。
本発明では、第2の部分から第3の部分への転移位置に存在する時間軸圧縮曲線の値は、予め決められた値を取ることが達成される。従って、中心値が固定されるので(または、予め決められた値にスケールされるので)、時間軸圧縮曲線の値の範囲は特に小さく維持される。例えば、仮に、時間軸圧縮曲線の第2の部分と時間軸圧縮曲線の第3の部分の両方が上昇しているならば、第2の部分の再スケールされたバージョンの最小値は、予め決められた開始値の下にあり、そして、第3の部分の終了値は、予め決められた開始値の上にある。しかしながら、予め決められた開始値からの最大ズレは、第2の部分の上昇と第3の部分の上昇との最大値によって決定される。対照的に、仮に、第2の部分と第3の部分とが、開始値から開始しないで、かつ、再スケールなしで、連続して共に置かれるならば、第3の部分の終端は、第2の部分の上昇と第3の部分の上昇との合計値だけ、開始値から外れる。
従って、時間軸圧縮曲線の値の範囲(開始値からの最大ズレ)は、第2の部分と第3の部分との間の転移位置において、中心値をスケーリングすることによって減少され、開始値を取ることがわかる。値の範囲のこの減少は、制限された数値範囲を持つ、比較的低い解像度データ形式の使用を支持するので、特に有利である。それは、同様に、音声符号化の分野で絶え間なく挑戦している、安価でパワー効率の良い民生装置の設計を許す。
また、好ましい実施形態において、再スケーラは、時間軸圧縮曲線データ値に規格化係数を乗算して、時間軸圧縮曲線の第2の部分を再スケールするように、もしくは、時間軸圧縮曲線データ値を規格化係数によって除算して、時間軸圧縮曲線の第2の部分を再スケールするように構成されている。本発明では、例えば、時間軸圧縮曲線の付加的なシフトより、むしろ線形スケーリングの方が、特に適切であることがわかる。なぜなら、乗算スケーリングまたは除算スケーリングは、時間軸圧縮曲線の相対的変化を維持するからである。時間軸圧縮曲線の相対的変化は、重要ではない時間軸圧縮曲線の絶対値を除いて、時間軸圧縮に関係している。
また、別の好ましい実施形態において、時間軸圧縮曲線計算機は、時間軸圧縮曲線の特定の部分の圧縮曲線合計値を得るように構成され、かつ、共通のスケーリング値を使用して、時間軸圧縮曲線の特定の部分および時間軸圧縮曲線の特定の部分の圧縮曲線合計値をスケーリングするように構成されている。
本発明では、圧縮曲線から圧縮曲線合計値を引き出すことが好ましいことがわかる。なぜなら、圧縮曲線合計値は、時間曲線を時間軸圧縮曲線から引き出すために、使用されるからである。従って、第1の時間曲線の計算のために、特定の時間軸圧縮曲線および対応する圧縮曲線合計値を使用することは可能である。さらに、時間軸圧縮曲線のスケーリングされたバージョンおよび対応するスケーリングされた合計値が、別の時間曲線の連続した計算のために必要であることがわかる。従って、新たに、特定の時間軸圧縮曲線の再スケールされたバージョンのための圧縮曲線合計値を再計算することは必要でないことがわかる。なぜなら、圧縮曲線の特定の部分のオリジナルのバージョンの圧縮曲線合計値を再スケールすることによって、圧縮曲線の特定の部分の再スケールされたバージョンの時間軸圧縮曲線合計値を、引き出すことが可能だからである。
また、好ましい実施形態において、音声信号復号器は、時間軸圧縮曲線の第1の部分の再スケールされたバージョン、第2の部分の再スケールされたバージョンおよび第3の部分の時間軸圧縮曲線データ値を使用して、第1の時間曲線を計算するように構成され、かつ、時間軸圧縮曲線の第2の部分の二度再スケールしたバージョン、第3の部分の一度再スケールしたバージョン、および第4の部分の時間軸圧縮曲線データ値を使用して、第2の時間曲線を計算するように構成された時間軸曲線計算機を更に備える。換言すれば、時間軸圧縮曲線の第1の複数の部分(3つの部分を含む)が、第1の時間曲線の計算のために使用され、そして、時間軸圧縮曲線の第2の複数の部分(3つの部分を含む)が、第2の時間曲線の計算のために使用される。そこでは、第1の複数の部分が、第2の複数の部分に重複している。時間軸圧縮曲線計算機は、第1の部分の時間的進展について説明する時間軸圧縮曲線進展情報に基づいて、予め決められた時間軸圧縮曲線開始値から開始している第1の部分の時間軸圧縮曲線データを発生するように構成される。さらに、時間軸圧縮曲線データ再スケーラは、時間軸圧縮曲線の第1の部分を再スケールするように構成され、その結果、時間軸圧縮曲線の第1の部分の終了値は、予め決められた時間軸圧縮曲線開始値を含み、第2の部分の時間的進展について説明する時間軸圧縮曲線進展情報に基づいて、予め決められた時間軸圧縮曲線開始値から開始している時間軸圧縮曲線の第2の部分の時間軸圧縮曲線データを発生するように構成され、時間軸圧縮曲線データ再スケーラは、共通のスケール係数を使用して、第1の部分および第2の部分を共に再スケールするように構成され、その結果、第2の部分の再スケールされたバージョンの終了値は、予め決められた時間軸圧縮曲線開始値を含み、共に第1および第2の部分の再スケールされたバージョンの時間軸圧縮曲線データ値を得る。時間軸圧縮曲線計算機は、時間軸圧縮曲線の第3の部分の時間軸圧縮曲線進展情報に基づいて、予め決められた時間軸圧縮曲線開始値から開始している時間軸圧縮曲線の第3の部分の元の時間軸圧縮曲線データ値を発生させるように構成される。
従って、時間軸圧縮曲線の第1の部分、第2の部分および第3の部分は、時間軸圧縮曲線の連続した区域を形成するように、発生する。従って、時間軸曲線計算機は、第1および第2の部分の再スケールされたバージョンの時間軸圧縮曲線データ値と、時間軸圧縮曲線の第3の部分の前記時間軸圧縮曲線データ値とを使用して、第1の時間曲線を計算するように構成される。
続いて、時間軸圧縮曲線データ再スケーラは、別の共通のスケール係数を使用して、第2の部分、再スケールされた部分および第3の、時間軸圧縮曲線のオリジナル部分を共に再スケールするように構成され、その結果、時間軸圧縮曲線の第3の部分の終了値は、予め決められた時間軸圧縮曲線開始値を含み、時間軸圧縮曲線の第2の部分の二度再スケールしたバージョンおよび時間軸圧縮曲線の第3の部分の一度再スケールしたバージョンの時間軸圧縮曲線データ値を得る。さらに、時間軸圧縮曲線計算機は、時間軸圧縮曲線の第4の部分の時間軸圧縮曲線進展情報に基づいて、予め決められた時間軸圧縮曲線開始値から開始している時間軸圧縮曲線の第4の部分のオリジナルの時間軸圧縮曲線データ値を発生させるように構成される。さらに、時間軸曲線計算機は、第2の部分の二度再スケールしたバージョン、第3の部分の一度再スケールしたバージョン、および、時間軸圧縮曲線の第4の部分のオリジナルバージョンの時間軸圧縮曲線データ値を使用して、第2の時間曲線を計算するように構成される。
また、時間軸圧縮曲線の第2の部分および第3の部分が、第1の時間曲線の計算および第2の時間曲線の計算のために、共に使用されることがわかる。それにもかかわらず、十分に小さい値の使用範囲を維持するために、第1の時間曲線の計算と第2の時間曲線の計算との間には、第2の部分および第3の部分の再スケールが存在する。一方、それぞれの時間曲線の計算のために考慮される時間軸圧縮曲線区域の連続は、確実である。
また、別の好ましい実施形態において、音声信号復号器は、時間軸圧縮曲線の複数の部分を使用して、時間軸圧縮制御情報を計算するように構成された時間軸圧縮制御情報計算機を備える。時間軸圧縮制御情報計算機は、時間軸圧縮曲線の第1の複数の部分の時間軸圧縮曲線データ値に基づいて、音声信号の第1のフレームの再構成のための時間軸圧縮制御情報を計算するように構成され、かつ、時間軸圧縮曲線の第2の複数の部分の時間軸圧縮曲線データ値に基づいて、音声信号の第2のフレームの再構成のための時間軸圧縮制御情報を計算するように構成され、第2のフレームは、第1のフレームと重複し、もしくは、重複しない。時間軸圧縮曲線の第2の複数の部分と比較したとき、時間軸圧縮曲線の第1の複数の部分が、時間に関してシフトしている。時間軸圧縮曲線の第1の複数の部分は、時間軸圧縮曲線の第2の複数の部分と共に、少なくとも1つの共通部分を含む。本発明では、仮に、時間軸圧縮曲線の重複区域(第1の複数の部分および第2の複数の部分)が、異なる音声フレーム(第1の音声フレームおよび第2の音声フレーム)の再構成のための時間軸圧縮制御情報を得るために使用されるならば、再スケールのアプローチが、特別の利点をもたらすことがわかる。仮に、時間軸圧縮曲線の重複区域が、時間軸圧縮制御情報を得るために使用されるならば、再スケールによって得られる時間軸圧縮曲線の連続は、特別の利点をもたらす。なぜなら、仮に、時間軸圧縮曲線の不連続が存在するならば、時間軸圧縮曲線の重複区域の使用は、厳しく悪い結果をもたらす。
また、別の好ましい実施形態において、時間軸圧縮曲線計算機は、時間軸圧縮曲線が、第1の複数の部分内の位置において、もしくは、第2の複数の部分内の位置において、予め決められた時間軸圧縮曲線開始値から再開始するように、新しい時間軸圧縮曲線を発生させるように構成され、その結果、時間軸圧縮曲線の不連続は、再開始の位置に存在する。補償するために、時間軸圧縮曲線データ再スケーラは、第1および第2の複数の部分のうちの所定の部分を再スケールするように構成され、その結果、不連続は減少する、もしくは、排除される。
また、別の好ましい実施形態において、時間軸圧縮曲線計算機は、第1の複数の部分内の位置において、予め決められた時間軸圧縮曲線開始値からの時間軸圧縮曲線の第1の再開始が存在するように、時間軸圧縮曲線を発生させるように構成され、その結果、第1の不連続は第1の再開始の位置に存在する。この場合、時間軸圧縮曲線データ再スケーラは、時間軸圧縮曲線を再スケールするように構成され、その結果、第1の不連続は減少する、もしくは、排除される。更に、時間軸圧縮曲線計算機は、予め決められた時間軸圧縮曲線開始値からの時間軸圧縮曲線の第2の再開始が存在するように、時間軸圧縮曲線を発生させるように構成され、その結果、第2の不連続は第2の再開始の位置に存在する。再スケーラは、時間軸圧縮曲線を再スケールするように構成され、その結果、第2の不連続は減少する、もしくは、排除される。
換言すれば、時間軸圧縮曲線の高い再開始数、例えば、1つの音声フレーム当たり1つの再開始をもつことが、時々好ましい。このように、アルゴリズムの処理は、非常に周期的になされる。また、値の範囲は、非常に小さく維持される。
また、更なる好ましい実施形態において、時間軸圧縮曲線計算機は、予め決められた時間軸圧縮曲線開始値からの時間軸圧縮曲線開始を周期的に再開始するように構成され、その結果、再開始の位置において、周期的な不連続が存在する。再スケーラは、時間軸圧縮曲線の少なくとも1つの部分を連続して再スケールするように適合され、再開始の位置における時間軸圧縮曲線の不連続を、連続して減少させ、もしくは、排除する。音声信号復号器は、時間軸圧縮制御情報を得るために、再開始の前後からの再スケールされた時間軸圧縮曲線データ値を結合するように構成された時間軸圧縮制御情報計算機を含む。
また、更なる好ましい実施形態において、時間軸圧縮曲線計算機は、符号化された時間軸圧縮比率情報を受信するように構成され、符号化された時間軸圧縮比率情報から時間軸圧縮比率値の系列を引き出して、時間軸圧縮曲線開始値から開始している時間軸圧縮曲線ノード値を得る。時間軸圧縮曲線開始ノードに関係している時間軸圧縮曲線開始値と、時間軸圧縮曲線ノード値と、の間の比率は、時間軸圧縮比率値によって決定される。本発明では、圧縮比率値の系列に基づいた時間軸圧縮曲線の再構成が、非常に良い結果をもたらすことが示される。なぜなら、圧縮比率値は、非常に効率の良い方法で、時間軸圧縮の応用のための重要な情報である、時間軸圧縮曲線の相対的変化を符号化するからである。従って、圧縮比率情報は、時間軸圧縮曲線進展の非常に効率の良い記述であることがわかる。
また、別の好ましい実施形態において、時間軸圧縮曲線計算機は、特定の時間軸圧縮曲線ノードの時間軸圧縮曲線ノード値を計算するように構成され、特定の時間軸圧縮曲線ノードは、係数として、時間軸圧縮曲線開始値と中間の時間軸圧縮曲線ノードの時間軸圧縮曲線ノード値との間の比率、および、中間の時間軸圧縮曲線ノードの時間軸圧縮曲線ノード値と特定の時間軸圧縮曲線ノードの時間軸圧縮曲線ノード値との間の比率を含む乗算形式に基づいて、中間の時間軸圧縮曲線ノードによって時間軸圧縮曲線開始ノードから区切られる。圧縮曲線ノード値は、複数の圧縮比率値の乗算法を使用して、特に効率の良い方法で計算されることがわかる。また、このような乗算法の使用は、圧縮曲線の再構成を許し、圧縮曲線の理想の特性に良く適合する。
また、本発明による更なる実施形態は、時間軸圧縮曲線進展情報に基づいて、音声信号の相対的ピッチの時間的進展を表す時間軸圧縮曲線データを提供するための時間軸圧縮曲線データ提供装置を提供する。時間軸圧縮曲線データ提供装置は、時間軸圧縮曲線の時間的進展を説明する時間軸圧縮曲線進展情報に基づいて、時間軸圧縮曲線データを発生させるように構成する時間軸圧縮曲線計算機を含む。時間軸圧縮曲線計算機は、再開始の位置において、予め決められた時間軸圧縮曲線開始値から時間軸圧縮曲線データの計算を、反復的もしくは周期的に再開始するように構成され、その結果、時間軸圧縮曲線の不連続を作成して、時間軸圧縮曲線データ値の範囲を減少させる。更に、時間軸圧縮曲線データ提供装置は、時間軸圧縮曲線の部分を繰り返して再スケールして、時間軸圧縮曲線の再スケールされた区域の中の再開始位置において不連続を減少する、もしくは、排除するように構成された時間軸圧縮曲線再スケーラを含む。時間圧縮曲線データ提供装置は、上述したような音声信号復号器としての同様の間に基づく。
また、本発明による更なる実施形態は、符号化された音声信号表現に基づいて、復号化された音声信号表現を提供するための方法を提供する。
またさらに、本発明による別の実施形態は、符号化された音声信号表現に基づいて、復号化された音声信号を提供するためのコンピュータプログラムを提供する。
この発明の上述の目的,その他の目的,特徴および利点は、図側を参照して行う以下の発明を実施するための形態の説明から一層明らかとなろう。
時間軸圧縮音声信号符号器を示すブロック概略図である。 時間軸圧縮音声信号復号器を示すブロック概略図である。 発明の実施形態による音声信号復号器を示すブロック概略図である。 発明の実施形態による復号化された音声信号表現を提供する方法を示すフローチャート図である。 発明の実施形態による音声信号復号器の一部を示すブロック概略図である。 発明の実施形態による音声信号復号器の一部を示すブロック概略図である。 発明の実施形態による復号化された音声信号表現を提供する方法の一部を示すフローチャート図である。 発明の実施形態による復号化された音声信号表現を提供する方法の一部を示すフローチャート図である。 発明の実施形態による時間軸圧縮曲線の再構成の手順を示すグラフである。 発明の実施形態による時間軸圧縮曲線の再構成の手順を示すグラフである。 発明の実施形態による別の時間軸圧縮曲線の再構成を示すグラフである。 時間軸圧縮曲線の計算のためのアルゴリズムを示す図である。 図9a−1に続く時間軸圧縮曲線の計算のためのアルゴリズムを示す図である。 時間軸圧縮曲線の計算のためのアルゴリズムを示す図である。 時間軸圧縮比率インデックスから時間軸圧縮比率値へのマッピング表である。 時間曲線、サンプル位置、転移長、「第1の位置」および「最後の位置」の計算のためのアルゴリズムを示す図である。 時間曲線、サンプル位置、転移長、「第1の位置」および「最後の位置」の計算のためのアルゴリズムを示す図である。 窓形状計算のためのアルゴリズムを示す図である。 窓の応用のためのアルゴリズムを示す図である。 図10d−1に続く、窓の応用のためのアルゴリズムを示す図である。 窓の応用のためのアルゴリズムを示す図である。 時間変化再サンプル抽出のためのアルゴリズムを示す図である。 後時間軸圧縮フレーム処理のため、および、重複化と加算化とのためのアルゴリズムを示す図である。 表記の索引を示す説明図である。 表記の索引を示す説明図である。 表記の索引を示す説明図である。 時間軸圧縮曲線から引き出される時間曲線を示すグラフである。 発明の実施形態による圧縮曲線を提供するための装置を示すブロック概略図である。 発明の別の実施形態による音声信号復号器を示すブロック概略図である。 発明の実施形態による別の時間軸圧縮曲線計算機を示すブロック概略図である。 発明の実施形態による時間軸圧縮ノード値の計算結果を示すグラフである。 発明の実施形態による時間軸圧縮ノード値の計算結果を示すグラフである。 発明の実施形態による別の音声信号符号器を示すブロック概略図である。 発明の実施形態による別の音声信号復号器を示すブロック概略図である。 発明の実施形態による音声ストリームの構文要素を示す図である。 発明の実施形態による音声ストリームの構文要素を示す図である。 発明の実施形態による音声ストリームの構文要素を示す図である。 発明の実施形態による音声ストリームの構文要素を示す図である。 発明の実施形態による音声ストリームの構文要素を示す図である。 発明の実施形態による音声ストリームの構文要素を示す図である。
(図1の時間軸圧縮音声信号符号器)
本発明は、時間軸圧縮音声信号の符号化および時間軸圧縮音声信号の復号化に関するので、本発明が適用される原型の時間軸圧縮音声信号符号器および時間軸圧縮音声信号復号器の短い概観が与えられる。
図1は、本発明のいくつかの様相および実施形態が集積された時間軸圧縮音声信号符号器のブロック概略図を示す。図1の音声信号符号器100は、入力音声信号110を受信して、フレームの系列の中に入力音声信号110の符号化表現を提供するように構成されている。音声信号符号器100はサンプル抽出器104を含む。サンプル抽出器104は、入力音声信号110をサンプル抽出して、周波数領域変換の基礎として使用される信号ブロック(サンプル抽出された表現)105を引き出すように適合させられる。音声信号符号器100はさらに変換窓計算機106を含む。変換窓計算機106は、サンプル抽出器104からサンプル抽出された表現105の出力のためのスケーリング窓を引き出すように適合させられる。スケーリング窓は、窓器(windower)108に入力される。窓器108は、サンプル抽出器104によって引き出された、サンプル抽出された表現105にスケーリング窓を適用するように適合させられる。いくつかの実施形態において、音声信号符号器100は、さらに、抽出されてスケーリングされた表現105の周波数領域表現(例えば、変換係数の形式で)を引き出すために、周波数領域変換器108aを含んでもよい。周波数領域表現は、音声信号110の符号化された表現として、処理される、または、さらに伝送される。
音声信号符号器100は、さらに、音声信号110のピッチ曲線112を使用する。ピッチ曲線112は、音声信号符号器100に提供される、または、音声信号符号器100によって引き出される。従って、音声信号符号器100は、ピッチ曲線112を引き出すために、任意にピッチ評価器を含む。サンプル抽出器104は、入力音声信号110の連続した表現上で動作する。あるいは、サンプル抽出器104は、入力音声信号110の既にサンプル抽出された表現上で動作する。後者の場合において、サンプル抽出器104は音声信号110を再サンプル抽出する。例えば、サンプル抽出器104は、時間軸圧縮された隣接して重複している音声ブロックに適合させられる。その結果、重複部分は、サンプル抽出の後のそれぞれの入力ブロックの中で、一定のピッチまたは減少しているピッチ変化をもつ。
変換窓計算機106は、サンプル抽出器104によって実行された時間軸圧縮に依存している音声ブロックのためのスケーリング窓を引き出す。このために、任意のサンプル抽出速度調整器114が、サンプル抽出器104によって使用される時間軸圧縮規則を定義するために存在する。時間軸圧縮規則は、変換窓計算機106にも提供される。代わりの実施形態では、サンプル抽出速度調整器114が省略され、そして、ピッチ曲線112が、直接に変換窓計算機106に提供される。変換窓計算機106は、それ自体で適切な計算を実行する。さらに、サンプル抽出器104は、適切なスケーリング窓の計算を可能にするために、適用されるサンプル抽出を変換窓計算機106に通信する。
時間軸圧縮は、サンプル抽出器104によって時間軸圧縮されてサンプル抽出された音声ブロックのピッチ曲線が、入力ブロック内の元の音声信号110のピッチ曲線より一定であるように、実行される。
(図2の時間軸圧縮音声信号復号器)
図2は時間軸圧縮音声信号復号器200のブロック概略図を示す。時間軸圧縮音声信号復号器200は、第2のフレームが第1のフレームに続くフレームの系列を有する音声信号の第1および第2のフレームの、第1の時間軸圧縮されてサンプル抽出された表現、または、第1の単に時間軸圧縮された表現を処理する。時間軸圧縮音声信号復号器200は、さらに、音声信号の第2のフレームおよびフレーム系列の中の第2のフレームに続く第3のフレームの、第2の時間軸圧縮された表現を処理する。音声信号復号器200は変換窓計算機210を含む。変換窓計算機210は、第1および第2のフレームのピッチ曲線212の情報を使用して、第1の時間軸圧縮された表現211aのための第1のスケーリング窓を引き出すように適合される。さらに、変換窓計算機210は、第2および第3のフレームのピッチ曲線の情報を使用して、第2の時間軸圧縮された表現211bのための第2のスケーリング窓を引き出すように適合される。ここで、スケーリング窓は同じ数のサンプルを有し、第1のスケーリング窓をフェードアウトするために使用される1番目のサンプルは、第2のスケーリング窓をフェードインするために使用される2番目のサンプルと異なる。音声信号復号器200は更に窓化器216を含む。窓化器216は、第1のスケーリング窓を第1の時間軸圧縮された表現に適用するように、そして、第2のスケーリング窓を第2の時間軸圧縮された表現に適用するように適合させられる。さらに、音声信号復号器200は再サンプル抽出器218を含む。再サンプル抽出器218は、第1および第2のフレームのピッチ曲線の情報を使用して、第1のサンプル抽出された表現を引き出すために、第1のスケーリングされて時間軸圧縮された表現を、逆に時間軸圧縮するように適合させられる。さらに、再サンプル抽出器218は、第1および第2のフレームのピッチ曲線の情報を使用して、第2のサンプル抽出された表現を引き出すために、第2のスケーリングされて時間軸圧縮された表現を、逆に時間軸圧縮するように適合させられる。その結果、第2のフレームに対応する第1のサンプル抽出された表現の部分は、予め決められた許容範囲内で、第2のフレームに対応する第2のサンプル抽出された表現の部分のピッチ曲線と等しいピッチ曲線を含む。スケーリング窓を引き出すために、変換窓計算機210は、直接にピッチ曲線212を受信するか、または、任意のサンプル抽出速度調整器220から時間軸圧縮の情報を受信する。サンプル抽出速度調整器220は、ピッチ曲線212を受信して、ピッチが重複領域の中で同じになるような、そして、任意に、逆時間軸圧縮の前には、重複窓の一部分の異なるフェード長が、逆時間軸圧縮の後には、同じ長さになるような、逆時間軸圧縮方法を引き出す。
さらに、音声信号復号器200は任意の加算器230を含む。加算器230は、第2のフレームに対応する第1のサンプル抽出された表現の部分と、第2のフレームに対応する第2のサンプル抽出された表現の部分とを加算して、出力信号232として音声信号の第2のフレームの再構成された表現を引き出すように適合させられる。本実施形態では、第1の時間軸圧縮された表現と第2の時間軸圧縮された表現とが、入力として音声信号復号器200に提供される。別の実施形態では、音声信号復号器200は、任意に、逆周波数領域変換器240を含んでもよい。逆周波数領域変換器240は、逆周波数領域変換器240の入力に提供される第1および第2の時間軸圧縮された表現の周波数領域表現から、第1および第2の時間軸圧縮された表現を引き出す。
(図3の時間軸圧縮音声信号復号器)
以下では、簡易型の音声信号復号器が説明される。図3はこの簡易型の音声信号復号器300のブロック概略図を示す。音声信号復号器300は、符号化された音声信号表現310を受信して、それに基づいて、復号された音声信号表現312を提供するように構成されている。符号化された音声信号表現310は、時間軸圧縮曲線進展情報316を含む。音声信号復号器300は、時間軸圧縮曲線進展情報316に基づいて、時間軸圧縮曲線データ322を発生するように構成された、時間軸圧縮曲線計算機320を含む。時間軸圧縮曲線進展情報316は、時間軸圧縮曲線の時間的進展を説明し、符号化された音声信号表現310に含まれている。時間軸圧縮曲線データ322を時間軸圧縮曲線進展情報316から引き出すとき、時間軸圧縮曲線計算機320は、以下で詳細に説明されるように、予め決められた時間軸圧縮曲線開始値から繰り返して再開始する。再開始は、時間軸圧縮曲線が不連続(時間軸圧縮曲線進展情報316によって符号化されたステップより大きい階段状変化)を含むという結果を有する。音声信号復号器300は、さらに、少なくとも時間軸圧縮曲線データ322の一部分を再スケールするように構成されている、時間軸圧縮曲線データ再スケーラ330を含む。その結果、時間軸圧縮曲線計算の再開始時点における不連続が、時間軸圧縮曲線の再スケールバージョン332において、避けられる、または、減少する、または、排除される。
また、音声信号復号器300は、符号化された音声信号表現310に基づいて、かつ、時間軸圧縮曲線の再スケールバージョン332を使用して、復号化された音声信号表現312を提供するように構成されている圧縮復号器340を含む。
時間軸圧縮音声復号の文脈の中に音声信号復号器300を入れるために、符号化された音声信号表現310が、変換係数211の符号化された表現と、ピッチ曲線212(時間軸圧縮曲線としても示される)の符号化された表現と、を含むことに注目するべきである。時間軸圧縮曲線計算機320と時間軸圧縮曲線データ再スケーラ330とは、時間軸圧縮曲線の再スケールバージョン332の形式の中に、ピッチ曲線212の再構成された表現を提供するように構成されている。例えば、圧縮復号器340は、窓化(窓化器)216、再サンプル抽出器218、サンプル抽出速度調整器220、および窓形状調整(変換窓計算機)210の機能を引き継ぐ。さらに、圧縮復号器340は、例えば、任意に、逆変換(逆周波数領域変換器)240および重複/加算(加算器)230の機能を含む。その結果、復号された音声信号表現312は、時間軸圧縮音声復号器200の出力音声信号232と同等である。
時間軸圧縮曲線データ322に再スケールを適用することによって、時間軸圧縮曲線の連続した(少なくとも殆んど連続した)再スケールバージョン332が得られる。その結果、符号化のために効率の良い相対的時間軸圧縮曲線進展情報を使用するときでさえ、数値オーバフローまたは数値アンダーフローが確実に避けられる。
(図4の復号化された音声信号表現を提供する方法)
図4は、符号化された音声信号表現に基づいて復号化された音声信号表現を提供する方法のフローチャート図を示す。符号化された音声信号表現は、図3の音声信号復号器300によって実行される時間軸圧縮曲線進展情報を含む。方法400は時間軸圧縮曲線データを発生させる第1のステップ410を含む。第1のステップ410は、時間軸圧縮曲線の時間的進展を説明する時間軸圧縮曲線進展情報に基づいて、予め決められた時間軸圧縮曲線開始値から繰り返して再開始する。
方法400は、さらに、再開始のうちの1つの再開始における不連続が、時間軸圧縮曲線の再スケールバージョンの中で、避けられる、または、減少する、または、排除されるように、少なくとも時間軸圧縮制御データの一部分を再スケールするステップ420を含む。
方法400は、さらに、時間軸圧縮曲線の再スケールバージョンを使用して、符号化された音声信号表現に基づいて復号化された音声信号表現を提供するステップ430を含む。
(図5a〜図9cの本発明に係る実施形態の詳細な説明)
以下において、本発明に係る実施形態が、図5a〜図9cを参照して詳細に説明される。
図5aおよび図5bは、時間軸圧縮曲線進展情報510に基づいて時間軸圧縮制御情報512を提供する装置500のブロック概略図を示す。装置500は、時間軸圧縮曲線進展情報510に基づいて再構成された時間軸圧縮曲線情報522を提供するための手段520、および、再構成された時間軸圧縮曲線情報522に基づいて時間軸圧縮制御情報512を提供するための時間軸圧縮制御情報計算機530を含む。
(再構成された時間軸圧縮曲線情報を提供するための手段520)
以下では、手段520の構造と機能が説明される。手段520は時間軸圧縮曲線計算機540を含む。時間軸圧縮曲線計算機540は、時間軸圧縮曲線進展情報510を受信して、それに基づいて、新しい時間軸圧縮曲線部分情報542を提供するように構成されている。例えば、時間軸圧縮曲線進展情報510の1セットが、再構成されるべき音声信号の各フレームごとに装置500に伝送される。それにも関わらず、再構成されるべき一つの音声信号のフレームに関係した時間軸圧縮曲線進展情報510の1セットは、音声信号の複数のフレームの再構成のために使用される。同様に、時間軸圧縮曲線進展情報510の複数のセットが、以下で詳細に議論するように、音声信号の単一のフレームの音声内容の再構成のために使用される。結論として、いくつかの実施形態において、時間軸圧縮曲線進展情報510は、再構成または更新されるべき音声信号の変換領域係数のセットと同じ速度(音声信号の1フレーム当たり1つの時間軸圧縮曲線部分)で更新されると主張される。
時間軸圧縮曲線計算機540は圧縮ノード値計算機544を含む。圧縮ノード値計算機544は、複数(または、時系列)の時間軸圧縮曲線比率値(または、時間軸圧縮比率インデックス)に基づいて、複数(または、時系列)の圧縮曲線ノード値を計算するように構成されている。時間軸圧縮曲線比率値は時間軸圧縮曲線進展情報510によって構成されている。このために、圧縮ノード値計算機544は、予め決められた開始値(例えば、1)で、時間軸圧縮曲線ノード値の提供を開始して、以下で議論するように、時間軸圧縮曲線比率値を使用して、その後の時間軸圧縮曲線ノード値を計算するように構成されている。
さらに、時間軸圧縮曲線計算機540は、任意に、連続した時間軸圧縮曲線ノード値の間を補間するように構成された補間器548を含む。従って、新しい時間軸圧縮曲線部分の記述542が得られる。新しい時間軸圧縮曲線部分は、通常、圧縮ノード値計算機544によって使用される、予め決められた開始値から開始する。さらに、手段520は、完全な時間軸圧縮曲線部分の提供のために、追加時間軸圧縮曲線部分、すなわち、いわゆる「最後の時間軸圧縮曲線部分」および「現在の時間軸圧縮曲線部分」を考慮するように構成されている。このために、手段520は、「最後の時間軸圧縮曲線部分」および「現在の時間軸圧縮曲線部分」を、図5aに図示しないメモリの中に格納するように構成されている。
しかしながら、手段520は再スケーラ550も含む。再スケーラ550は、「最後の時間軸圧縮曲線部分」および「現在の時間軸圧縮曲線部分」を再スケールして、完全な時間軸圧縮曲線部分の不連続を避ける(または、減少する、または、排除する)ように構成されている。完全な時間軸圧縮曲線部分は、「最後の時間軸圧縮曲線部分」、「現在の時間軸圧縮曲線部分」および「新しい時間軸圧縮曲線部分」に基づいている。このために、再スケーラ550は、「最後の時間軸圧縮曲線部分」および「現在の時間軸圧縮曲線部分」の格納された記述を受信して、「最後の時間軸圧縮曲線部分」および「現在の時間軸圧縮曲線部分」を共に再スケールし、「最後の時間軸圧縮曲線部分」および「現在の時間軸圧縮曲線部分」の再スケールバージョンを得るように構成されている。再スケーラ550によって実行される再スケールに関する詳細が、図7a、図7bおよび図8を参照して、以下で議論される。
また、再スケーラ550は、例えば、図5aに図示しないメモリから、「最後の時間軸圧縮曲線部分」に関係している合計値と、「現在の時間軸圧縮曲線部分」に関係している別の合計値と、を受信するように構成されている。これらの合計値は、それぞれ、「last_warp_sum」および「cur_warp_sum」としても示される。再スケーラ550は、対応する時間軸圧縮曲線部分が再スケールされるのと同じ再スケール係数を使用して、時間軸圧縮曲線部分に関係している合計値を再スケールするように構成されている。従って、再スケールされた合計値が得られる。
いくつかの場合において、手段520は更新器560を含む。更新器560は、再スケーラ550に入力する時間軸圧縮曲線部分および合計値を繰り返して更新するように構成されている。例えば、更新器560は、フレーム速度で前述の情報を更新するように構成されている。例えば、現在のフレームサイクルの「新しい時間軸圧縮曲線部分」は、次のフレームサイクルの中の「現在の時間軸圧縮曲線部分」として役立つ。同様に、現在のフレームサイクルの再スケールされた「現在の時間軸圧縮曲線部分」は、次のフレームサイクルの中の「最後の時間軸圧縮曲線部分」として役立つ。従って、メモリの効率の良い実行が創出される。なぜなら、現在のフレームサイクルの「最後の時間軸圧縮曲線部分」は、現在のフレームサイクルが終了すると、廃却されるからである。
以上をまとめると、手段520は、それぞれのフレームサイクル(いくつかの特別なフレームサイクル、例えば、フレーム系列の開始のフレームサイクル、フレーム系列の終わりのフレームサイクル、または、時間軸圧縮が不活発であるフレームサイクルを除いて)ごとに、「新しい時間軸圧縮曲線部分」、「再スケールされた現在の時間軸圧縮曲線部分」および「再スケールされた最後の時間軸圧縮曲線部分」の記述を含む時間軸圧縮曲線区間の記述を提供するように構成されている。さらに、手段520は、それぞれのフレームサイクル(上記の特別なフレームサイクルを除いて)ごとに、例えば、「新しい時間軸圧縮曲線部分合計値」、「再スケールされた現在の時間軸圧縮曲線部分合計値」および「再スケールされた最後の時間軸圧縮曲線部分合計値」を含む時間軸圧縮曲線部分合計値の表現を提供する。
時間軸圧縮制御情報計算機530は、手段520によって提供された、再構成された時間軸圧縮曲線情報522に基づいて、時間軸圧縮制御情報512を計算するように構成されている。例えば、時間軸圧縮制御情報計算機530は、時間軸曲線計算機570を含む。時間軸曲線計算機570は、再構成された時間軸圧縮制御情報に基づいて、時間軸曲線572を計算するように構成されている。さらに、時間軸圧縮曲線情報計算機530は、サンプル位置計算機574を含む、サンプル位置計算機574は、時間軸曲線572を受信して、それに基づいて、例えば、サンプル位置ベクトル576の形式で、サンプル位置情報を提供するように構成されている。サンプル位置ベクトル576は、例えば、再サンプル抽出器218によって実行された時間軸圧縮を説明する。
また、時間軸圧縮制御情報計算機530は、転移長計算機580を含む。転移長計算機580は、再構成された時間軸圧縮制御情報から転移長情報582を引き出すように構成されている。例えば、転移長情報582は、左転移長を説明する情報と右転移長を説明する情報とを含む。例えば、転移長は「最後の時間軸圧縮曲線部分」、「現在の時間軸圧縮曲線部分」および「新しい時間軸圧縮曲線部分」によって説明された時間区間の長さに依存する。例えば、仮に、「最後の時間軸圧縮曲線部分」によって説明された時間区間の時間拡張が、「現在の時間軸圧縮曲線部分」によって説明された時間区間の時間拡張より短いならば、または、仮に、「新しい時間軸圧縮曲線部分」によって説明された時間区間の時間拡張が、「現在の時間軸圧縮曲線部分」によって説明された時間区間の時間拡張より短いならば、転移長は、初期設定の転移長と比較して、短くされる。
さらに、時間軸圧縮制御情報計算機530は、最初および最後の位置計算機584含む。最初および最後の位置計算機584は、左右の転移長情報582に基づいて、いわゆる「最初の位置」および「最後の位置」586を計算するように構成されている。「最初の位置」および「最後の位置」586は、再サンプル抽出器218の効率を増加させる。なぜなら、これらの位置の外側領域は、窓化後にゼロに一致し、従って、時間軸圧縮の間、考慮する必要がないからである。ここで、サンプル位置ベクトル576が、例えば、再サンプル抽出器218によって実行された時間軸圧縮によって要求される情報を含むことに注目するべきである。さらに、左右の転移長情報582、「最初の位置」および「最後の位置」586は、例えば、窓器216によって要求される情報を構成する。
従って、手段520および時間軸圧縮制御情報計算機530は、サンプル抽出速度調整器220、変換窓計算機210およびサンプル抽出位置計算器219の機能を共に引き継ぐ、と言える。
以下において、手段520および時間軸圧縮制御情報計算機530を含む音声信号復号器の機能が、図6a、図6b、図7a、図7b、図8、図10a〜図10g、図11a、図11b−1、図11b−2及び図12を参照して説明される。
図6aは、本発明に係る実施形態の、音声信号の符号化された表現を復号化するための方法のフローチャートを示す。方法600は、再構成された時間軸圧縮曲線情報522を提供するステップと、時間軸圧縮ノード値の間を補間するステップ620と、1つ以上前に計算された時間軸圧縮曲線部分および1つ以上前に計算された時間軸圧縮曲線部分合計値を再スケールするステップ630と、を含む。再構成された時間軸圧縮曲線情報522を提供するステップは、時間軸圧縮ノード値を計算するステップ610を含む。方法600は、さらに、ステップ610,620の中で得られた「新しい時間軸圧縮曲線部分」、ならびに、再スケールされた、一つ以上前に計算された時間軸圧縮曲線部分(「現在の時間軸圧縮曲線部分」と「最後の時間軸圧縮曲線部分」)を使用して、また、任意に、再スケールされた、一つ以上前に計算された圧縮曲線合計値を使用して、時間軸圧縮制御情報を計算するステップ640を含む。その結果、時間軸曲線情報、サンプル位置情報、転移長情報、および/または、最初および最後の位置情報が、ステップ640で得られる。
方法600は、さらに、ステップ640で得られた時間軸圧縮制御情報を使用して、時間軸圧縮された信号の再構成を実行するステップ650を含む。時間軸圧縮された信号の再構成に関する詳細は、次に説明される。
また、方法600は、以下で説明されるように、メモリを更新するステップ660を含む。
(時間軸圧縮曲線部分の計算)
以下では、時間軸圧縮曲線部分の計算に関する詳細が、図7a、図7b、図8、図9a、図9b及び図9cを参照して説明される。
初期状態は図7aのグラフ表示710に記載されている状態であると想定する。第1の時間軸圧縮曲線部分716と第2の時間軸圧縮曲線部分718とが存在している。それぞれの時間軸圧縮曲線部分716,718は、通常、メモリに格納されている複数の離散的な時間軸圧縮曲線データ値を含む。異なる時間軸圧縮曲線データ値は時間値に関係している。時間は横軸712で示されている。時間軸圧縮曲線データ値の大きさは縦軸714で示されている。第1の時間軸圧縮曲線部分716は、終了値が1である。そして、第2の時間軸圧縮曲線部分は、開始値が1である。ここでは、1の値が「予め決められた値」であると見做される。第1の時間軸圧縮曲線部分716は、「最後の時間軸圧縮曲線部分」(「last_warp_contour」としても示される)と考えられ、一方、第2の時間軸圧縮曲線部分718は、「現在の時間軸圧縮曲線部分」(「cur_warp_contour」としても示される)と考えられることに注目すべきである。
初期状態から開始して、例えば、方法600のステップ610、620の中で、新しい時間軸圧縮曲線部分722が計算される。従って、第3の時間軸圧縮曲線部分(「新しい時間軸圧縮曲線部分」または「new_warp_contour」としても示される)の時間軸圧縮曲線データ値が計算される。例えば、計算は、図9a−1に示されている、アルゴリズム910に従う時間軸圧縮ノード値の計算と、アルゴリズム920に従う圧縮ノード値の間の補間620の計算と、に分離される。従って、新しい時間軸圧縮曲線部分722が得られる。新しい時間軸圧縮曲線部分722は、予め決められた値(例えば、1)から開始し、図7aのグラフ表示720の中に示されている。第1の時間軸圧縮曲線部分716、第2の時間軸圧縮曲線部分718および第3の新しい時間軸圧縮曲線部分722が、連続かつ隣接の時間間隔で関係している。さらに、第2の時間軸圧縮曲線部分718の終了点718bと第3の時間軸圧縮曲線部分722の開始点722aとの間には、不連続724があることが認められる。
ここで、不連続724は、通常、時間軸圧縮曲線部分の中で、時間軸圧縮曲線のどんな2つの時間的に隣接している時間軸圧縮曲線データ値の間の変化より大きい大きさを含む、ことに注目すべきである。これは、第3の時間軸圧縮曲線部分722の開始値722aが、予め決められた値(例えば、1)に強く影響され、第2の時間軸圧縮曲線部分718の終了値718bから独立している、という事実のためである。従って、不連続724が、2つの隣接する離散的な時間軸圧縮曲線データ値の間の避けられない変化より大きい、ことに注目すべきである。
それにも関わらず、第2の時間軸圧縮曲線部分718と第3の時間軸圧縮曲線部分722との間のこの不連続724は、時間軸圧縮曲線データ値の更なる使用に対して有害である。
従って、第1の時間軸圧縮曲線部分716および第2の時間軸圧縮曲線部分718が、方法600のステップ630で共に再スケールされる。例えば、第1の時間軸圧縮曲線部分716の時間軸圧縮曲線データ値と、第2の時間軸圧縮曲線部分718の時間軸圧縮曲線データ値とが、再スケール係数(「norm_fac」としても示される)で乗算されて再スケールされる。従って、第1の時間軸圧縮曲線部分716の再スケールバージョン716´と、第2の時間軸圧縮曲線部分718の再スケールバージョン718´が得られる。対照的に、第3の時間軸圧縮曲線部分722は、図7aのグラフ表示730で示すように、通常、この再スケールするステップの中で、影響を受けないで維持される。再スケールは、再スケールされた終了点718b´が、第3の時間軸圧縮曲線部分722の開始点722aと少なくとも殆んど同じデータ値を含むように、実行される。従って、第1の時間軸圧縮曲線部分716の再スケールバージョン716´、第2の時間軸圧縮曲線部分718の再スケールバージョン718´および第3の時間軸圧縮曲線部分722が、(殆んど)連続した時間軸圧縮曲線区間を共に形成する。特に、スケーリングは、再スケールされた終了点718b´と開始点722aのデータ値の間の差が、時間軸圧縮曲線部分716´,718´,722のどんな2つの隣接データ値の間の最大差よりも大きくならないように、実行される。
従って、再スケールされた時間軸圧縮曲線部分716´,718´を含む、殆んど連続した時間軸圧縮曲線区間と、元の時間軸圧縮曲線部分722とが、ステップ640で実行される時間軸圧縮制御情報の計算のために使用される。例えば、時間軸圧縮制御情報は、第2の時間軸圧縮曲線部分718に時間的に関係した音声フレームに対して計算される。
しかしながら、ステップ640における時間軸圧縮制御情報の計算において、時間軸圧縮された信号の再構成が、ステップ650で実行される。ステップ650は、以下でさらに詳細に説明される。
続いて、次の音声フレームのための時間軸圧縮制御情報を得ることが必要である。このために、第1の時間軸圧縮曲線部分716の再スケールバージョン716´が、メモリを確保するために廃却される。もはや必要ないからである。しかしながら、再スケールバージョン716´は、どんな目的のためにも自然に保存される。さらに、第2の時間軸圧縮曲線部分718の再スケールバージョン718´は、図7bのグラフ表示740で示すように、新しい計算のために、「最後の時間軸圧縮曲線部分716」に代わる。さらに、前の計算の中で「新しい時間軸圧縮曲線部分」に代わった、第3の時間軸圧縮曲線部分722が、次の計算のために、「現在の時間軸圧縮曲線部分」の役割をする。関係はグラフ表示740の中に示されている。
メモリのこの更新(方法600のステップ660)に続いて、グラフ表示750で示すように、新しい時間軸圧縮曲線部分752が計算される。このために、方法600のステップ610,620が、新しい入力データで再実行される。第4の時間軸圧縮曲線部分752が、当分、「新しい時間軸圧縮曲線部分」の役割をする。第3の時間軸圧縮曲線部分722の終了点722bと第4の時間軸圧縮曲線部分752の開始点752aとの間には、通常、不連続754がある。この不連続754は、第2の時間軸圧縮曲線部分718の再スケールバージョン718´と、第3の時間軸圧縮曲線部分722の元のバージョンとの連続した再スケール(方法600のステップ630)によって、減少する、または、排除される。従って、第2の時間軸圧縮曲線部分718の二度再スケールバージョン718´´と、第3の時間軸圧縮曲線部分722の一度再スケールバージョン722´とが、図7bのグラフ表示760に示すように、得られる。時間軸圧縮曲線部分718´´,722´,752は、少なくとも殆んど連続した時間軸圧縮曲線区間を形成し、ステップ640の再実行の中で、時間軸圧縮制御情報の計算のために使用される。例えば、時間軸圧縮制御情報が、時間軸圧縮曲線部分718´´,722´,752に基づいて計算される。ここで、時間軸圧縮制御情報は、第2の時間軸圧縮曲線部分718を中心とした音声信号時間フレームに関係している。
いくつかの場合において、時間軸圧縮曲線部分ごとに、関係した時間軸圧縮曲線合計値を有することが望ましいことに注目すべきである。例えば、第1の時間軸圧縮曲線合計値は、第1の時間軸圧縮曲線部分に関係し、第2の時間軸圧縮曲線合計値は、第2の時間軸圧縮曲線部分に関係しているなどです。例えば、時間軸圧縮曲線合計値は、ステップ640の中の時間軸圧縮制御情報の計算のために使用される。
例えば、時間軸圧縮曲線合計値は、それぞれの時間軸圧縮曲線部分の時間軸圧縮曲線データ値の合計を表す。しかしながら、時間軸圧縮曲線部分がスケーリングされるときは、時間軸圧縮曲線合計値もスケーリングすることが、しばしば望ましい。その結果、時間軸圧縮曲線合計値が、それに関係している時間軸圧縮曲線部分の特性に従う。従って、第2の時間軸圧縮曲線部分718が、再スケールバージョン718´を得るためにスケーリングされるとき、第2の時間軸圧縮曲線部分718に関係した時間軸圧縮曲線合計値は、例えば、同じスケール係数でスケーリングされる。同様に、第1の時間軸圧縮曲線部分716が、再スケールバージョン716´を得るためにスケーリングされるとき、仮に望むならば、第1の時間軸圧縮曲線部分716に関係した時間軸圧縮曲線合計値が、例えば、同じスケール係数でスケーリングされる。
さらに、新しい時間軸圧縮曲線部分の考慮を進展する場合、再関係(または、メモリ再配分)が実行される。例えば、第2の時間軸圧縮曲線部分718のスケーリングされたバージョン718´に関係している時間軸圧縮曲線合計値は、時間軸圧縮曲線部分716´,718´,722に関係している時間軸圧縮制御情報の計算のためには、「現在の時間軸圧縮合計値」の役割をするが、時間軸圧縮曲線部分718´,722´,752に関係している時間軸圧縮制御情報の計算のためには、「最後の時間軸圧縮合計値」として考えられる。同様に、第3の時間軸圧縮曲線部分722に関係している時間軸圧縮曲線合計値は、時間軸圧縮曲線部分716´,718´,722に関係している時間軸圧縮制御情報の計算のためには、「新しい時間軸圧縮合計値」として考えられるが、時間軸圧縮曲線部分718´´,722´,752に関係している時間軸圧縮制御情報の計算のためには、「現在の時間軸圧縮合計値」として機能するように写像される。さらに、第4の時間軸圧縮曲線部分752の新たに計算された時間軸圧縮曲線合計値が、時間軸圧縮曲線部分718´´,722´,752に関係している時間軸圧縮制御情報の計算のために、「新しい時間軸圧縮曲線合計値」の役割をする。
(図8の実施例)
図8は、本発明に係る実施形態によって解決される問題を例証するグラフ表示を示す。第1のグラフ表示810は、いくつかの従来例で得られる、再構成された相対的ピッチの時間的進展を示す。横軸812は時間を表し、縦軸814は相対的ピッチを表す。曲線816は、時間が経過するにつれての相対的ピッチの時間的進展を示す。相対的ピッチの時間的進展は、相対的ピッチ情報から再構成される。相対的ピッチ曲線の再構成に関して、時間軸圧縮された変形離散余弦変換(MDCT)の応用には、実際のフレーム内のピッチの相対的変化に関する知識のみが必要であることに注目すべきである。これを理解するために、相対的ピッチ曲線から時間軸曲線を得るための計算ステップを参照する。計算ステップは、同じ相対的ピッチ曲線のスケーリングされたバージョンに対して一致した時間軸曲線に導く。従って、絶対的ピッチの値の代わりに相対的ピッチの値を符号化するだけで十分である。それは、符号化効率を増加させる。符号化効率をさらに増加させるために、実際の量子化された値は、相対的ピッチではなく、ピッチの相対的変化、すなわち、前の相対的ピッチに対する現在の相対的ピッチの比率(以下で詳細に議論する)である。例えば、信号が倍音構造を全く示さない、いくつかのフレームの中で、時間軸圧縮は望まれない。そのような場合、追加フラグは、任意に、前述した方法で平坦なピッチ曲線の符号化の代わりに、平坦なピッチ曲線を示す。実際の世界の信号の中で、そのようなフレームの量が、通常、十分高いので、いつも加えられる追加ビットと非圧縮フレーム毎に保存されたビットとの間の交換取引は、ビット保存に有利である。
ピッチ変化(相対的ピッチ曲線、または、時間軸圧縮曲線)の計算のための開始値は、恣意的に選択され、符号器と復号器とで異なる。時間軸圧縮MDCT(TW−MDCT)の本質のため、ピッチ変化の異なる開始値は、TW−MDCTを実行するために、同じサンプル位置および適合した窓形状をもたらす。
例えば、(音声)符号器は、あらゆるノードのためのピッチ曲線を得る。ピッチ曲線は、任意の有声/無声の仕様に関係するサンプルの中の、実際のピッチ立ち遅れとして表される。ピッチ曲線は、例えば、音声符号化から知られている、ピッチ評価と有声/無声の決定とを適用することによって得られる。仮に、現在のノードに対して、有声の決定または無声の決定に設定される分類が、利用可能であるならば、符号器は、実際のピッチ立ち遅れの間の比率を計算して、その比率を量子化する。あるいは、仮に無声であるならば、その比率を1に設定する。別の例では、ピッチ変化が、適切な方法(例えば、信号変化評価)によって、直接に評価される。
復号器では、符号化された音声の開始位置での第1の相対的ピッチの開始値は、任意の値、例えば1に設定される。従って、復号化された相対的ピッチ曲線は、もはや符号器ピッチ曲線の同じ絶対的範囲内に存在しないが、符号器ピッチ曲線のスケーリングされたバージョン内に存在する。それでも、前述したように、TW−MDCTアルゴリズムは同じサンプル位置および窓形状に導く。さらに、仮に、符号化されたピッチ比率が、平坦なピッチ曲線を発生させるならば、符号器は、完全に符号化された曲線を送ることは決定しないが、代わりに、アクティブピッチデータ(「activePitchData」)フラグを0に設定することを決定し、このフレームの中のビット(例えば、「numPitchbits*numPitches」ビット)を保存する。
以下では、本発明の逆ピッチ曲線の再規格化がないときに起こる問題が、議論される。前述のように、TW−MDCTに対して、現在のブロックの周囲の所定の制限時間内の相対的ピッチ変化だけが、時間軸圧縮および正しい窓形状適合の計算に必要である(前述の説明を参照)。時間軸圧縮は、ピッチ変化が検出されて、他のすべての場合において一定に維持している区域(図8のグラフ表示810を参照)の復号化された曲線に従う。1ブロックの窓とサンプル抽出位置の計算のために、3つの連続した相対的ピッチ曲線区域(例えば、3つの時間軸圧縮曲線部分)が必要である。第3の相対的ピッチ曲線区域は、フレームの中で新しく伝送された相対的ピッチ曲線区域(「新しい時間軸圧縮曲線部分」としても示される)である。そして、他の2つの相対的ピッチ曲線区域は、過去(例えば、「最後の時間軸圧縮曲線部分」と「現在の時間軸圧縮曲線部分」としても示される)から一時的にメモリに移動される。
実施例を得るために、例えば、図7a、図7bおよび図8のグラフ表示810,860を参照して説明が成される。例えば、フレーム1の(または、フレーム1に関係した)窓のサンプル抽出位置を計算するために、フレーム0、1および2の(または、フレーム0、1および2に関係した)ピッチ曲線が必要である。フレーム1は、フレーム0からフレーム2に延びる。ビットストリームの中で、フレーム2のピッチ情報だけが、現在のフレームに送られる。そして、他の2つのフレーム0,1は、過去から取られる。ここで説明したように、ピッチ曲線は、第1の復号化された相対的ピッチ比率を、フレーム1の最後のピッチに適用して、フレーム2の第1のノードなどでのピッチを得ることによって連続する。信号の特性のため、仮に、ピッチ曲線が簡単に連続するならば(すなわち、ピッチ曲線の新たに伝送された部分が、少しの変更もなく、既存の2つの部分に繋がるならば)、符号化器の内部の番号形式の中の領域オーバーフローが、所定の時間後に発生するということは、可能である。例えば、信号は、強い倍音特性の区域から開始し、区域の至る所で減少している開始位置における高いピッチ値は、相対的ピッチの減少をもたらす。次に、ピッチ情報を有さない区域が続き、その結果、相対的ピッチが一定値を維持する。次に、倍音区域は、再び、前の区域の最後の絶対的ピッチより高い絶対的ピッチから開始して、再び下方に向かう。しかしながら、仮に、相対的ピッチが簡単に連続するならば、最後の倍音区域の終了点と同じであり、さらに、下方に向かう。仮に、信号が十分強く、図8のグラフ表示810で示すように、倍音の区域の中で上昇または下降する全体的な傾向を有するならば、遅かれ早かれ、相対的ピッチは、内部の番号形式の領域の境界に達する。スピーチ信号が、実際にそのような特性を示すことは、スピーチ符号化から、よく知られている。従って、前述した従来の方法を使用するとき、スピーチを含んでいる実世界の信号の連結したセットの符号化が、比較的短い時間の後に、相対的ピッチのために使用される浮遊値の範囲を実際に超えることが、驚くことなく、もたらされる。
以上をまとめると、ピッチが決定される音声信号区域(または、音声信号フレーム)に対して、相対的ピッチ曲線(または、時間軸圧縮曲線)の適切な進展が、決定される。例えば、音声信号区域が雑音のようであるので、ピッチが決定されない音声信号区域(または、音声信号フレーム)に対して、相対的ピッチ曲線(または、時間軸圧縮曲線)が、一定値に維持される。従って、仮に、増加するピッチを有する音声信号区域と減少するピッチを有する音声信号区域との間の不均衡があれば、相対的ピッチ曲線(または、時間軸圧縮曲線)は、数値アンダーフローまたは数値オーバーフローのいずれか一方となる。
例えば、グラフ表示810では、相対的ピッチ曲線が、減少するピッチを有する複数の音声信号区域(相対的ピッチ曲線部分)820a,820b,820c、820dと、減少するピッチを有さない、いくつかの音声信号区域822a,822bと、が存在し、増加するピッチを有する音声信号区域が全く無い場合のものが示されている。従って、相対的ピッチ曲線816が、数値アンダーフロー(少なくとも非常に不利な状況)となることが分る。
以下では、この問題の解決策が説明される。前述の問題、特に、数値アンダーフローまたは数値オーバーフローを防ぐために、本発明の観点に従って、周期的な相対的ピッチ曲線の再規格が導入される。ここで説明されるように、圧縮された時間曲線と窓形状との計算のみが、前述の3つの相対的ピッチ曲線区域(「時間軸圧縮曲線部分」としても示される)の上の相対的変化を当てにするので、(例えば音声信号の)あらゆるフレーム毎に、この曲線(例えば「時間軸圧縮曲線部分」の3つの要素で構成されている時間軸圧縮曲線)を、同じ結果で新しく規格化することが可能である。
このために、参照が、例えば、第2の相対的ピッチ曲線区域(第2の「時間軸圧縮曲線部分」としても示される)の最後のサンプルになるように選択される。曲線が、そのような方法で、(例えば、線形領域の中で乗法的に)規格化される。その結果、このサンプルは、1.0の値を有する(図8のグラフ表示860を参照)。
図8のグラフ表示860は、相対的ピッチ曲線の規格化を表す。横軸862はフレーム(フレーム0,1,2)で細分された時間を示す。縦軸864は相対的ピッチ曲線の値を示す。規格化前の相対的ピッチ曲線は、符号870で指定され、2つのフレーム(例えば、フレーム番号0とフレーム番号1)に適用される。予め決められた相対的ピッチ曲線開始値(または、時間軸圧縮曲線開始値)から開始する、新しい相対的ピッチ曲線区域(「時間軸圧縮曲線部分」としても示される)は、符号874で指定される。予め決められた相対的なピッチ曲線開始値(例えば、1)からの新しい相対的ピッチ曲線区域874の再開始は、時間内の再開始点に先行する相対的ピッチ曲線区域870と新しい相対的ピッチ曲線区域874との間の不連続をもたらす。不連続は符号878で指定される。この不連続は、時間軸圧縮制御情報を相対的ピッチ曲線から引き出すための厳しい問題をもたらし、音声歪みを結果としてもたらす。従って、再開始時間内の再開始点に先行する、以前に得られた相対的ピッチ曲線区域870は、再スケールされた相対的ピッチ曲線区域870´を得るために、再スケールされる(または、規格化される)。規格化は、相対的ピッチ曲線区域870の最後のサンプルが、予め決められた相対的ピッチ曲線開始値(例えば、1.0)に合わせてスケールされるように実行される。
(アルゴリズムの詳細な説明)
以下では、本発明の実施形態に係る音声復号器によって実行されるアルゴリズムのいくつかが詳細に説明される。このために、図5a、図5b、図6a、図6b、図9a、図9b、図9c、図10a〜図10gを参照する。さらに、図11a、図11b−1及び図11b−2のデータ要素、補助要素および定数に関する説明を参照する。
一般的に、ここで説明された方法は、時間軸圧縮された変形離散余弦変換(TW−MDCT)に従って符号化された音声ストリームを、復号化するために使用される、と言うことができる。従って、TW−MDCTが音声ストリームに対して有効であるとき、時間軸圧縮のフィルタバンクおよびブロック切り換えは、標準のフィルタバンクおよびブロック切り換えに代わる。音声ストリームは、フラグ、例えば「twMdct」と称されるフラグによって示され、特定構造情報の中に含まれている。さらに、逆変形離散余弦変換(IMDCT)に対して、時間軸圧縮のフィルタバンクおよびブロック切り換えは、任意に区切られた時間グリッドから規格で周期的に区切られた時間グリッドに時間領域写像するための時間領域と、対応する窓形状の適合と、を含む。
以下において、復号化過程が説明される。第1のステップでは、時間軸圧縮曲線が復号化される。例えば、時間軸圧縮曲線は、時間軸圧縮曲線ノードのコード表インデックスリストを使用して符号化される。時間軸圧縮曲線ノードのコード表インデックスリストは、例えば、図9a−1のグラフ表示910で示されたアルゴリズムを使用して、復号化される。前記アルゴリズムによると、圧縮比率値(warp_value_tbl)が、例えば、図9cの写像表990によって定義された写像を使用して、圧縮比率コード表インデックスリスト(tw_ratio)から引き出される。符号910として示されたアルゴリズムから分るように、仮に、フラグ(tw_data_present)が、時間軸圧縮データが存在していないことを示すならば、時間軸圧縮ノード値は、一定の予め決められた値に設定される。対照的に、仮に、フラグが、時間軸圧縮データが存在していることを示すならば、1番目の圧縮ノード値は、予め決められた時間軸圧縮曲線開始値(例えば、1)に設定される。次に、時間軸圧縮曲線部分の圧縮ノード値は、複数の時間軸圧縮比率値の積の形成に基づいて決定される。例えば、1番目の圧縮ノード(i=0)直後のノードの圧縮ノード値は、1番目の圧縮比率値と等しい(開始値が1であれば)、または、1番目の圧縮比率値と開始値との積と等しい。その後の時間軸圧縮ノード値(i=2、3、…num_tw_nodes)は、複数の時間軸圧縮比率値の積を形成することによって計算される。仮に、開始値が1と異なるならば、開始値を任意に考慮する。当然のことながら、積の形成の順は任意である。しかしながら、i番目の圧縮ノード値と、時間軸圧縮曲線の2つの連続したノード値の間の比率を説明する、単一の圧縮比率値と、を乗算することによって、i番目の圧縮ノード値から(i+1)番目の圧縮ノード値を引き出すことが有利である。
符号910で示されたアルゴリズムから分るように、1つの音声フレーム当たり1つの時間軸圧縮曲線部分に対して、複数の圧縮比率コード表インデックスが存在する。時間軸圧縮曲線部分と音声フレームとの間には、1対1の対応が存在する。
以上をまとめると、複数の時間軸圧縮ノード値が、例えば、圧縮ノード値計算機544を使用して、ステップ610における特定の時間軸圧縮曲線部分(または、特定の音声フレーム)ごとに得られる。次に、線形補間が、時間軸圧縮ノード値(warp_node_values[i])の間で実行される。例えば、「新しい時間軸圧縮曲線部分」の時間軸圧縮曲線データ値(new_warp_contour)を得るために、図9a−1の符号920に示されたアルゴリズムが使用される。例えば、新しい時間軸圧縮曲線部分のサンプルの数は、逆変形離散余弦変換の時間領域のサンプルの数の半分と等しい。この問題に関して、隣接している音声信号フレームが、通常、MDCTまたはIMDCTの時間領域のサンプルの数の半分だけ、シフトする(少なくとも、近似的に)ことに注目すべきである。言い換えれば、サンプル(N_long samples)の「新しい時間軸圧縮曲線部分」の時間軸圧縮曲線データ値(new_warp_contour[])を得るために、時間軸圧縮ノード値(warp_node_values[])が、符号920で示されたアルゴリズムを使用して、等しく区切られた(interp_dist apart)ノードの間に線形的に補間される。
例えば、補間は、図5aの補間器548によって、または、アルゴリズム600のステップ620の中で実行される。
このフレーム(すなわち、現在、考慮中のフレーム)のために完全な圧縮曲線を得る前に、過去からのバッファ値が再スケールされる。その結果、「過去の圧縮曲線(past_warp_contour[])」の最後の圧縮値は、1(または、望ましくは、新しい時間軸圧縮曲線部分の開始値と等しい、別の予め決められた値)と等しい。
ここで、用語「過去の圧縮曲線」は、望ましくは、前述の「最後の時間軸圧縮曲線部分」と「現在の時間軸圧縮曲線部分」とを含むことに注目すべきである。また、「過去の圧縮曲線」は、通常、IMDCTの時間領域のサンプル数と等しい長さを含むことに注目すべきである。その結果、「過去の圧縮曲線」の値は、0と2*n_long−1との間のインデックスで指定される。従って、「past_warp_contour[2*n_long−1]」は、「過去の圧縮曲線」の最後の圧縮値を指定する。従って、規格化係数(norm_fac)が、図9a−2における符号930に示された方程式によって、計算される。従って、過去の圧縮曲線(「最後の時間軸圧縮曲線部分」および「現在の時間軸圧縮曲線部分」を含む)が、図9a−2における符号932に示された方程式によって、乗法的に再スケールされる。さらに、「最後の圧縮曲線合計値(last_warp_sum)」および「現在の圧縮曲線合計値(cur_warp_sum)」が、図9a−2の符号934と936に示されるように、乗法的に再スケールされる。再スケールは、図5aの再スケール器550によって、または、図6aの方法600のステップ630の中で、実行される。
例えば、符号930にて説明した規格化は、「1」の開始値を別の所望の予め決められた値に替えることによって、変更されることに注目すべきである。
規格化を適用することによって、「時間軸圧縮曲線区域」としても示される「full warp_contour[]」は、「past_warp_contour」と「new_warp_contour」を連結することによって得られる。従って、3つの時間軸圧縮曲線部分(「最後の時間軸圧縮曲線部分」、「現在の時間軸圧縮曲線部分」および「新しい時間軸圧縮曲線部分」)は、「完全な圧縮曲線」を形成し、計算の更なるステップで適用される。
さらに、圧縮曲線合計値((new_warp_sum)が、すべての「new_warp_contour[]」値の合計として計算される。例えば、新しい圧縮曲線合計値が、図9a−2における符号940に示されたアルゴリズムによって、計算される。
以上の説明された計算に続いて、時間軸圧縮制御情報計算機530によって、または、方法600のステップ640によって要求される入力情報は、利用可能である。従って、時間軸圧縮制御情報の計算640は、例えば、時間軸圧縮制御情報計算機530によって実行される。また、時間軸圧縮信号再構成650は、音声復号器によって実行される。計算640および時間軸圧縮信号再構成650は、共に、以下でさらに詳細に説明される。
しかしながら、現在のアルゴリズムが繰り返して続くことに注目することは、重要である。従って、メモリを更新することは、計算上効率が良い。例えば、最後の時間軸圧縮曲線部分に関する情報を廃却することは、可能である。さらに、次の計算サイクルの中に、「最後の時間軸圧縮曲線部分」として、現在の「現在の時間軸圧縮曲線部分」を使用することは、推薦される。さらに、次の計算サイクルの中に、「現在の時間軸圧縮曲線部分」として、現在の「新しい時間軸圧縮曲線部分」を使用することは、推薦される。この課題は、図9bにおける符号950に示された方程式を使用することで作られる。ここで、「warp_contour[n]」は、「2*n_long≦n<3・n_long」に対して、現在の「新しい時間軸圧縮曲線部分」を示す。
適切な課題が、図9bの符号952,954で見られる。
言い換えれば、次のフレームを復号化するために使用されるメモリバッファが、符号950,952,954で示された方程式によって、更新される。
仮に、適切な情報が、前のフレームに対して発生していないならば、方程式950,952,954に従った更新が、妥当な結果を提供しないことに注意するべきである。従って、1番目のフレームを復号化する前に、または、仮に、最後のフレームが、切り換えられた符号器の文脈の中で異なるタイプの符号器(例えば、LPC領域符号器)で符号化されるならば、メモリの状態が、図9bの符号960,962,964に示された方程式によって、設定される。
(時間軸圧縮制御情報の計算)
以下では、時間軸圧縮制御情報が、時間軸圧縮曲線(例えば、3つの時間軸圧縮曲線部分を含む)および圧縮曲線合計値に基づいて、どのように計算されるかを簡潔に説明される。
例えば、時間軸圧縮曲線を使用して、時間曲線を再構成することが望まれる。このために、図10aの符号1010,1012に示されているアルゴリズムが使用される。時間曲線は、インデックスi(0≦i≦3・n_long)を、対応する時間軸圧縮値の上に写像する。そのような写像の一例が、図12に示されている。
時間曲線の計算に基づいて、線形時間スケールの時間軸圧縮サンプルの位置を示すサンプル位置(「sample_pos[]」)を計算することが、通常、必要である。そのような計算が、図10bの符号1030で示されているアルゴリズムを使用して実行される。アルゴリズム1030において、図10aの符号1020と1022で示されている補助関数が使用される。従って、サンプル時間の情報が得られる。
さらに、いくつかの時間軸圧縮転移長(「warped_trans_len_left」;「warped_trans_len_right」)が、例えば、図10bに示されているアルゴリズム1032を使用して計算される。任意に、時間軸圧縮転移長は、例えば、図10bの符号1034に示されたアルゴリズムを使用して、窓のタイプ、または、変換長さに依存して適合される。さらに、いわゆる「最初の位置」および「最後の位置」が、例えば、図10bの符号1036に示されたアルゴリズムを使用して、転移長の情報に基づいて計算される。まとめると、サンプル位置および窓長の調整は、時間軸圧縮制御情報計算機530によって、または、方法600のステップ640の中で実行される。「warp_contour[]」から、線形時間スケールで時間軸圧縮されたサンプルのサンプル位置ベクトル(sample_pos[])が、計算される。このため、先ず、時間曲線が、符号1010,1012で示されたアルゴリズムを使用して発生する。符号1020,1022で示された補助関数「warp_in_vec()」および「warp_time_inv()」と共に、サンプル位置ベクトル(「sample_pos[]」)および転移長(「warped_trans_len_left」と「warped_trans_len_right」)が、例えば、符号1030,1032,1034,1036で示されたアルゴリズムを使用して、計算される。従って、時間軸圧縮制御情報512が得られる。
(時間軸圧縮信号再構成)
以下では、時間軸圧縮制御情報512に基づいて実行される時間軸圧縮信号再構成が、簡潔に議論され、時間軸圧縮曲線の計算が、適切な文脈の中に入れられる。
音声信号の再構成は、逆変形離散余弦変換の実現(当業者に周知であるので、ここでは詳細に説明しない)を含む。逆変形離散余弦変換は、1セットの周波数領域係数に基づいて、圧縮時間領域サンプルを再構成する。例えば、IMDCTの実現は、フレーム類を実行する。それは、例えば、2048個の圧縮時間領域サンプルの1フレームが、1セットの1024個の周波数領域係数に基づいて、再構成されていることを意味する。正しい再構成のために、3つ以上の連続した窓が重複しないことが必要である。TW−MDCTの特性によれば、1つのフレームの逆時間軸圧縮部分が非隣接フレームに拡張することが起こる。従って、前記前提条件に違反する。故に、窓形状のフェード長が、前述の適切な「warped_trans_len_left」値および「warped_trans_len_right」値を計算することによって、短くされる必要がある。
次に、窓化およびブロック切り替えステップ650Bが、IMDCTから得られた時間領域サンプルに適用される。窓化とブロック切り換えは、時間軸圧縮制御情報に依存してIMDCTステップ650Aによって提供された、圧縮時間領域サンプルに適用されて、窓付けされた圧縮時間領域サンプルを得る。例えば、「窓形状(「window_shape」)」情報または要素によって、異なる過剰サンプル抽出された変換窓の原型が使用される。過剰サンプル抽出された窓の長さは、図10cの符号1040で示された方程式で与えられる。例えば、第1の型の窓形状(例えば、「window_shape」=1)に対して、窓係数は、図10cの符号1042で示された定義に従って、カイザー−ベッセル派生(KBD)窓によって与えられる。ここで、「カイザー−ベッセル・カーネル窓関数」である「W´」は、図10cの符号1044で示されているように定義される。
別の方法は、異なる窓形状が使用されるとき(例えば、仮に、「window_shape」=0であれば)、正弦窓が符号1046の定義に従って使われる。すべての種類の窓系列(「window_sequences」)に対して、左側窓形状のために使用される原型は、前のブロックの窓形状によって決定される。図10cの符号1048で示された公式は、この事実を表現する。同様に、右側窓形状のための原型は、図10cの符号1050で示された公式によって決定される。
以下では、前述の窓の、IMDCTによって提供された圧縮時間領域サンプルへの応用が説明される。いくつかの実施形態において、フレームの情報は、複数の短い系列(例えば、8つの短系列)によって提供される。別の実施形態では、フレームの情報は、異なる長さのブロックを使用して提供される。この場合、特別な処理が、開始系列、終了系列、および/または、標準的でない長さの系列に必要である。しかしながら、転移長は、前述したように決定されるので、8つの短系列(「eight_short_sequence」という適切なフレーム型情報によって示される)を使用して符号化されたフレームと他の全てのフレームとを区別することは、十分である。
例えば、8つの短系列によって説明されたフレームにおいて、図10d−1の符号1060で示されたアルゴリズムは、窓化のために適用される。対照的に、他の情報を使用して符号化されたフレームに対しては、図10eの符号1064で示されたアルゴリズムが適用される。言い換えれば、図10d−1の符号1060で示されたCコードのような部分は、窓化、および、いわゆる「8つの短系列」の内部重複加算を説明する。対照的に、図10dの符号1064で示されたCコードのような部分は、他の場合における窓化を説明する。
(再サンプル抽出)
以下では、時間軸圧縮制御情報に依存した、窓付けされた圧縮時間領域サンプルの逆時間軸圧縮ステップ650Cが説明される。そこでは、周期的にサンプル抽出された時間領域サンプル、または、単なる時間領域サンプルが、時間変化している再サンプル抽出によって得られる。時間変化している再サンプル抽出において、窓付けされたブロック「z[]」は、例えば、図10fの符号1070で示されたインパルス応答を使用して、抽出位置に従って再サンプル抽出される。再サンプル抽出の前に、窓付けされたブロックは、図10fの符号1072で示されるように、両端にゼロを入れる。再サンプル抽出自体は、図10fの符号1074で示された仮コード区域によって説明される。
(後再サンプル抽出器のフレーム処理)
以下では、時間領域サンプルの任意の後ステップ650Dが説明される。いくつかの実施形態では、後再サンプル抽出フレーム処理が、窓系列の型に依存して実行される。パラメータ「window_sequence」によって、所定の更なる処理ステップが適用される。
例えば、仮に、窓系列が、いわゆる「8つの短系列(EIGHT_SHORT_SEQUENCE)」、「長い開始系列(LONG_START_SEQUENCE)」、「停止開始系列(STOP_START_SEQUENCE)」、「停止開始1152系列(STOP_START_1152_SEQUENCE)」、「LPD系列(LPD_SEQUENCE)」であるならば、符号1080a,1080b,1082で示された後処理が実行される。
例えば、仮に、次の窓系列がいわゆる「LPD系列」であれば、修正窓Wcorr(n)は、符号1080bで示された定義を考慮に入れて、符号1080aで示されているように計算される。また、修正窓Wcorr(n)は、図10gの符号1082で示されているように適用される。
他のすべての場合に対しては、図10gの符号1084で見るように、何も成されない。
(前の窓系列との重複および加算)
さらに、現在の時間領域サンプルと1つ以上の前の時間領域サンプルとの重複および加算ステップ650Eが、実行される。重複および加算ステップ650Eは、すべての系列に対して同じであり、図10gの符号1086で示されているように、数学的に説明される。
(説明)
また、与えられた表記に関して、その索引が図11a、図11b−1及び図11b−2に示された説明図に成されている。通常、逆変換の合成窓長Nは、特に、構文要素「窓系列(window_sequence)」とアルゴリズムの文脈との関数である。例えば、それは、図11b−2の符号1190で示されるように定義される。
(図13の実施形態)
図13は、再構成された時間軸圧縮曲線情報を提供するための手段1300のブロック概略図を示す。手段1300は、図5aを参照して説明された手段520の機能を引き継ぐ。しかしながら、データ経路とバッファが、さらに詳細に示される。手段1300は、圧縮ノード値計算機544の機能を取る圧縮ノード値計算機1344を含む。圧縮ノード値計算機1344は、符号化された圧縮比率情報として、圧縮比率のコード表インデックス「tw_ratio[]」を受信する。圧縮ノード値計算機1344は、例えば、図9cに表された時間軸圧縮比率値上への時間軸圧縮比率インデックスの写像を表す、圧縮値表を含む。圧縮ノード値計算機1344は、さらに、図9a−1の符号910で表されたアルゴリズムを実行するための乗算器を含む。従って、圧縮ノード値計算機1344は、圧縮ノード値「warp_node_values[i]」を提供する。さらに、手段1300は、圧縮曲線補間器1348を含む。圧縮曲線補間器1348は、補間器540aの機能を取り、図9a−1の符号920で示されたアルゴリズムを実行するように構成されている。その結果、新しい圧縮曲線(「new_warp_contour」)の値を得る。手段1300は、さらに、新しい圧縮曲線バッファ1350を含む。新しい圧縮曲線バッファ1350は、新しい圧縮曲線(すなわち、「warp_contour[i]」、2・n_long≦i<3・n_long)の値を格納する。手段1300は、さらに、過去の圧縮曲線バッファ/更新器1360を含む。過去の圧縮曲線バッファ/更新器1360は、「最後の時間軸圧縮曲線部分」と「現在の時間軸圧縮曲線部分」を格納して、再スケールおよび現在のフレームの処理の完成に対応して、記憶内容を更新する。従って、過去の圧縮曲線バッファ/更新器1360は、過去の圧縮曲線再スケーラ1370と協働する。その結果、過去の圧縮曲線バッファ/更新器1360と過去の圧縮曲線再スケーラ1370とは、共にアルゴリズム930,932,934,936,950,960の機能を十分に満たす。また、任意に、過去の圧縮曲線バッファ/更新器1360は、アルゴリズム932,936,952,954,962,964の機能を引き継ぐ。
従って、手段1300は、圧縮曲線(「warp_contour」)を提供して、圧縮曲線合計値を最適に提供する。
(図14の音声信号符号器)
以下では、本発明に係る音声信号符号器が説明される。図14の音声信号符号器は、符号1400でその全体が指定される。音声信号符号器1400は、音声信号1410と、音声信号1410に関係した、任意に外部的に提供された圧縮曲線情報1412と、を受信するように構成されている。さらに、音声信号符号器1400は、音声信号1410の符号化された表現1414を提供するように構成されている。
音声信号符号器1400は時間軸圧縮曲線符号器1420を含む。時間軸圧縮曲線符号器1420は、音声信号1410に関係した時間軸圧縮曲線情報1422を受信して、自身に基づいて、符号化した時間軸圧縮曲線情報1424を提供するように構成されている。
音声信号符号器1400は、さらに、時間軸圧縮信号処理器(または、時間軸圧縮信号符号器)1430を含む。時間軸圧縮信号処理器1430は、音声信号1410を受信して、自身に基づいて、時間軸圧縮曲線情報1422によって説明された時間軸圧縮を考慮に入れて、音声信号1410の時間軸圧縮符号化表現1432を提供するように構成されている。音声信号1410の符号化された表現1414は、符号化された時間軸圧縮曲線情報1424と、音声信号1410のスペクトルの時間軸圧縮符号化表現1432と、を含む。
任意に、音声信号符号器1400は圧縮曲線情報計算機1440を含む。圧縮曲線情報計算機1440は、音声信号1410に基づいて時間軸圧縮曲線情報1422を提供するように構成されている。しかしながら、時間軸圧縮曲線情報1422は、2者択一的に、外部的に提供された圧縮曲線情報1412に基づいても提供される。
時間軸圧縮曲線符号器1420は、時間軸圧縮曲線情報1424によって説明された時間軸圧縮曲線の連続したノード値の間の比率を、計算するように構成されている。例えば、ノード値は、時間軸圧縮曲線情報1424によって表された時間軸圧縮曲線のサンプル値である。例えば、仮に、時間軸圧縮曲線情報1424が、音声信号1410の各フレームごとに、複数の値を含むならば、時間軸圧縮ノード値は、この時間軸圧縮曲線情報1424の真の部分集合である。例えば、時間軸圧縮ノード値は、時間軸圧縮曲線値の周期的な真の部分集合である。時間軸圧縮曲線ノード値は、N個の音声サンプルごとに存在する。ここで、Nは2以上である。
時間軸圧縮曲線ノード値比率計算機は、時間軸圧縮曲線の連続した時間軸圧縮ノード値の間の比率を計算して、時間軸圧縮曲線の連続したノード値の間の比率を説明する情報を提供するように、構成されている。時間軸圧縮曲線符号器1420の比率符号器は、時間軸圧縮曲線の連続したノード値の間の比率を符号化するように、構成されている。例えば、比率符号器は、異なる比率を、異なるコード表インデックスに写像する。例えば、写像化は、時間軸圧縮曲線ノード値比率計算機によって提供された比率が、0.9〜1.1の範囲内、または、0.95〜1.05の範囲内にさえあるように、選ばれる。従って、比率符号器は、この範囲を、異なるコード表インデックスに写像するように構成されている。例えば、図9cの表に示された対応は、この写像化の中で補助点として機能する。その結果、例えば、1の比率が、3のコード表インデックスに写像される。一方、1.0057の比率が、4のコード表インデックスに写像される(図9cを比較してください)。図9cの表に示された対応の間の比率値は、適したコード表インデックスに、例えば、図9cの表の中で与えられる最も近い比率値のコード表インデックスに、写像される。
当然のことながら、異なる符号化が使用されてもよい。その結果、例えば、利用可能なコード表インデックスの数字は、ここで示された数字より大きい数字、または、より小さい数字が選ばれてもよい。また、圧縮曲線ノード値とコード表値のインデックスとの間の関連が、適切に選ばれてもよい。また、例えば、コード表インデックスは、二進符号化を使用して、任意にエントロピー符号化を使用して、符号化されてもよい。
従って、時間軸圧縮曲線情報(符号化された比率)1424が得られる。
時間軸圧縮信号処理器1430は、時間軸圧縮時間領域−周波数領域変換器1434を含む。変換器1434は、音声信号1410と音声信号1410(または、その符号化されたバージョン)に関係した時間軸圧縮曲線情報1422aとを受信して、それ自身に基づいて、スペクトル領域(周波数領域)表現1436を提供するように構成されている。
時間軸圧縮曲線情報1422aは、望ましくは、圧縮復号器1425を使用して、時間軸圧縮曲線符号器1420によって提供された時間軸圧縮曲線情報1424から引き出される。このようにして、符号器(特に時間軸圧縮信号処理器1430自身)と復号器(音声信号の符号化された表現1414を受信する)とが、同じ圧縮曲線、すなわち、復号化された(時間軸)圧縮曲線上で作動することが、達成される。しかしながら、簡素な実施形態においては、時間軸圧縮信号処理器1430によって使用される時間軸圧縮曲線情報1422aは、時間軸圧縮曲線符号器1420によって入力された時間軸圧縮曲線情報1422と同一のものである。
時間軸圧縮時間領域−周波数領域変換器1434は、例えば、音声信号1410の時間変化再サンプル抽出操作を使用して、スペクトル領域表現1436を形成するとき、時間軸圧縮を考える。しかしながら、2者択一的に、時間変化再サンプル抽出と時間領域−周波数領域変換とは、1つの処理ステップの中に合成されてもよい。また、時間軸圧縮信号処理器1430は、スペクトル領域表現1436を符号化するように構成されているスペクトル値符号器1438を含む。スペクトル値符号器1438は、例えば、知覚マスキングを考慮するように構成されている。また、スペクトル値符号器1438は、周波数帯域の知覚関係に符号化精度を適合させて、エントロピー符号化を適用するように構成されている。従って、音声信号1410の符号化された表現1432が得られる。
(図15の時間軸圧縮曲線計算機)
図15は、本発明の別の実施形態に係る時間軸圧縮曲線計算機1500のブロック概略図を示す。時間軸圧縮曲線計算機1500は、符号化された圧縮比率情報1510を受信して、自身に基づいて、複数の圧縮曲線ノード値1512を提供するように構成されている。時間軸圧縮曲線計算機1500は、例えば、圧縮比率復号器1520を含む。圧縮比率復号器1520は、圧縮比率値1522の系列を、符号化された圧縮比率情報1510から引き出すように構成されている。また、時間軸圧縮曲線計算機1500は、圧縮曲線ノード値計算機1530を含む。圧縮曲線ノード値計算機1530は、圧縮曲線ノード値1512の系列を、圧縮比率値1522の系列から引き出すように構成されている。例えば、圧縮曲線ノード値計算機1530は、圧縮曲線開始値から開始する圧縮曲線開始ノード値を得るように構成されている。圧縮曲線ノード値計算機1530の中で、圧縮曲線開始ノードに関係した圧縮曲線開始値と圧縮曲線ノード値との間の比率が、圧縮比率値1522によって決定される。また、圧縮曲線ノード値計算機1530は、乗算形成に基づいて、特定の圧縮曲線ノードの圧縮曲線ノード値1512を計算するように構成されている。特定の圧縮曲線ノードは、中間圧縮曲線ノードによって、圧縮曲線開始ノードから区切られている。前記乗算形成は、係数として、圧縮曲線開始値(例えば、1)と中間圧縮曲線ノードの圧縮曲線ノード値との間の比率、ならびに、中間圧縮曲線ノードの圧縮曲線ノード値と特定の圧縮曲線ノードの圧縮曲線ノード値との間の比率を含む。
以下では、時間軸圧縮曲線計算機1500の操作が、図16aと図16bに従って簡潔に議論される。
図16aは時間軸圧縮曲線の連続した計算のグラフ表示を示す。第1のグラフ表示1610は、時間軸圧縮比率コード表インデックス1510(インデックス=0、インデックス=1、インデックス=2、インデックス=3、インデックス=7)の系列を示す。さらに、グラフ表示1610は、コード表インデックス1510に関係した圧縮比率値(0.983,0.988,0.994,1.000,1.023)の系列を示す。さらに、1番目の圧縮ノード値1621(i=0)が1に選ばれていることがわかる(ここで、1は開始値である)。2番目の圧縮ノード値1622(i=1)は、開始値1と、1番目の圧縮比率値0.983(1番目のインデックス0に関係している)と、を積算することによって得られる。さらに、3番目の圧縮ノード値1623(i=2)は、2番目の圧縮ノード値1622の0.983と、2番目の圧縮比率値0.988(2番目のインデックス1に関係している)と、を積算することによって得られる。同様にして、4番目の圧縮ノード値1624(i=3)は、3番目の圧縮ノード値1623と、3番目の圧縮比率値0.994(3番目のインデックス2に関係している)と、を積算することによって得られる。
従って、圧縮ノード値1621〜1626の系列が得られる。
それぞれの圧縮ノード値1622〜1626が、開始値(例えば、1)と全ての中間圧縮比率値(開始圧縮ノード1621とそれぞれの圧縮ノード値1622〜1626との間に存在する)との積となるように、効率良く得られる。
グラフ表示1640は、圧縮ノード値1621〜1626の間の線形補間を例証する。例えば、補間値1621a,1621b,1621cは、例えば、線形補間を利用して、音声信号復号器の中で、2つの隣接する時間軸圧縮ノード値1621と1622との間で得られる。
図16bは、予め決められた開始値からの周期的な再開始を使用した、時間軸圧縮曲線再構成のグラフ表示を示す。時間軸圧縮曲線再構成は、任意に、時間軸圧縮曲線計算機1500の中で実行される。言い換えれば、符号器側における、または、復号器側における、他の適切な測定によって、数値オーバーフローを避けることが提供されるならば、繰り返し、または、周期的な再開始は、基本的な特徴ではない。圧縮曲線部分は、圧縮曲線ノード1661,1662,1663,1664が決定される開始ノード1660から開始することができる。このために、圧縮比率値(0.983,0.988,0.965,1.000)が考えられ、その結果、第1の時間軸圧縮曲線部分の隣接圧縮曲線ノード1661〜1664が、これらの圧縮比率値によって決定された比率によって離される。しかしながら、第2の時間軸圧縮曲線部分は、第1の圧縮曲線部分(ノード1660〜1664を含む)の終了ノード1664に達した後に、開始させられる。第2の時間軸圧縮曲線部分は、新しい開始ノード1665から開始する。新しい開始ノード1665は、予め決められた開始値(1)を取り、どんな圧縮比率値からも、独立している。従って、第2の時間軸圧縮曲線部分の圧縮ノード値は、第2の時間軸圧縮曲線部分の圧縮比率値に基づいて、第2の時間軸圧縮曲線部分の開始ノード1665からの開始を計算する。その後、第3の時間軸圧縮曲線部分は、対応する開始ノード1670から開始する。開始ノード1670は、再び、どんな圧縮比率値からも独立した、予め決められた開始値(1)を取る。従って、時間軸圧縮曲線部分の周期的な再開始が得られる。任意に、繰り返しの再規格化が、前述で詳細に説明したように、適用される。
(図17の音声信号符号器)
以下では、本発明の別の実施形態に係る音声信号符号器が、図17を参照して簡潔に説明される。音声信号符号器1700は、マルチチャンネル音声信号1710を受信して、マルチチャンネル音声信号1710の符号化された音声表現1712を提供するように構成されている。音声信号符号器1700は、符号化音声表現提供装置1720を含む。符号化音声表現提供装置1720は、共通してマルチチャンネル音声信号の複数の音声チャンネルに関係した共通圧縮曲線情報を含む音声表現、または、複数の音声チャンネルの異なる音声チャンネルに個別に関係した個々の圧縮曲線情報を含む符号化音声表現を、選択的に提供するように構成されている。それらの表現は、複数の音声チャンネルの音声チャンネルに関係した圧縮曲線の間の類似または相違を説明する情報に依存している。
例えば、音声信号符号器1700は、圧縮曲線類似計算機または圧縮曲線相違計算機1730を含む。圧縮曲線類似計算機または圧縮曲線相違計算機1730は、音声チャンネルに関係した圧縮曲線の間の類似または相違を説明する情報1732を提供するように構成されている。符号化音声表現提供装置1720は、例えば、時間軸圧縮曲線情報1724および情報1732を受信するように構成された選択的時間軸圧縮曲線符号器1722を含む。時間軸圧縮曲線情報1724は、外部から提供される、または、任意の時間軸圧縮曲線情報計算機1734によって提供される。仮に、情報1732が、2つ以上の音声チャンネルの時間軸圧縮曲線が十分に類似であることを示すならば、選択的時間軸圧縮曲線符号器1722は、共通符号化時間軸圧縮曲線情報を提供するように構成されている。共通符号化時間軸圧縮曲線情報は、例えば、2つ以上のチャンネルの圧縮曲線情報の平均に基づいている。しかしながら、2者択一的に、共通符号化時間軸圧縮曲線情報は、一つの音声チャンネルの単一の圧縮曲線情報であるが、複数のチャンネルに共通して関係している圧縮曲線情報に基づいている。
しかしながら、仮に、情報1732が、複数の音声チャンネルの圧縮曲線が十分類似でないことを示すならば、選択的時間軸圧縮曲線符号器1722は、異なった時間軸圧縮曲線の別々の符号化情報を提供する。
また、符号化音声表現提供装置1720は、時間軸圧縮信号処理器1726を含む。時間軸圧縮信号処理器1726は、時間軸圧縮曲線情報1724とマルチチャンネル音声信号1710を受信して、音声信号1710の複数のチャンネルを符号化するように構成されている。時間軸圧縮信号処理器1726は、異なる操作モードを含む。例えば、時間軸圧縮信号処理器1726は、相互チャネル類似性を利用して、選択的に個別に音声チャンネルを符号化する、または、共通してそれらを符号化するように構成される。いくつかの場合、時間軸圧縮信号処理器1726は、共通の時間軸圧縮曲線情報を持つ複数の音声チャンネルを、共通して符号化できることが好ましい。左の音声チャンネルと右の音声チャンネルとは、同じピッチ進展を示すが、別の異なる信号特性、例えば、異なる絶対基本周波数または異なるスペクトルエンベロープ(包絡線)を、持つ場合がある。この場合、左の音声チャンネルと右の音声チャンネルとの間の著しい相違のため、左の音声チャンネルと右の音声チャンネルとを共同して符号化することは、望ましくない。それにもかかわらず、左の音声チャンネルおよび右の音声チャンネルにおける相対的ピッチ進展は、並列である。その結果、共通時間軸圧縮の応用は、非常に効率の良い解決策である。そのような音声信号の例は多音音楽である。多音音楽においては、複数の音声チャンネルの内容が、例えば、異なる歌手や楽器によって支配される著しい相違を示すが、類似のピッチ変化を示す。従って、符号化効率は、複数の音声チャンネルの時間軸圧縮曲線を共同して符号化させる可能性を提供することによって、非常に向上される。一方、共通のピッチ曲線情報が提供される、異なる音声チャンネルの周波数スペクトルを別々に符号化する選択肢は、維持される。
符号化音声表現提供装置1720は、任意に、サイド情報符号器1728を含む。サイド情報符号器1728は、情報1732を受信して、共通の符号化された圧縮曲線を複数の音声チャンネルに提供するか否か、または、個々の符号化された圧縮曲線を複数の音声チャンネルに提供するか否かを示すサイド情報を提供する、ように構成されている。例えば、そのようなサイド情報は、1ビットフラグ(「common_tw」と称する)の形式で提供される。
以上をまとめると、選択的時間軸圧縮曲線符号器1722は、複数の音声信号に関係した時間軸圧縮音声曲線の個々の符号化された表現、または、複数の音声チャンネルに関係した単一の共通時間軸圧縮曲線を表す、共同して符号化された時間軸圧縮曲線表現を、選択的に提供する。サイド情報符号器1728は、任意に、個々の時間軸圧縮曲線表現、または、共通時間軸圧縮曲線表現のいずれか一方が提供されることを示すサイド情報を提供する。時間軸圧縮信号処理器1726は、複数の音声チャンネルの符号化された表現を提供する。任意に、共通符号化情報は、複数の音声チャンネルに提供される。しかしながら、通常、共通時間軸圧縮曲線表現が利用可能である複数の音声チャンネルの、個々の符号化された表現を提供することは、可能である。従って、異なる音声内容を持つが、同じ時間軸圧縮を持っている異なる音声チャンネルが、適切に表現される。その結果、符号化された音声表現1712は、選択的時間軸圧縮曲線符号器1722と、時間軸圧縮信号処理器1726と、任意のサイド情報符号器1728と、によって提供された符号化された情報を含む。
(図18の音声信号復号器)
図18は、本発明の実施形態に係る音声信号復号器のブロック概略図を示す。音声信号復号器1800は、符号化された音声信号表現1810(例えば、符号化された表現1712)を受信して、自身に基づいて、マルチチャンネル音声信号の復号化された表現1812を提供するように構成されている。音声信号復号器1800は、サイド情報抽出器1820と時間軸圧縮復号器1830とを含む。サイド情報抽出器1820は、時間軸圧縮曲線応用情報1822および圧縮曲線情報1824を、符号化された音声信号表現1810から引き出すように構成されている。例えば、サイド情報抽出器1820は、単一の共通の時間軸圧縮情報が、符号化された音声信号の複数のチャンネルに利用可能であるか否か、または、別々の時間軸圧縮曲線情報が、複数のチャンネルに利用可能であるか否か、を識別するように構成されている。従って、サイド情報抽出器1820は、時間軸圧縮曲線応用情報1822(共通のまたは個々の時間軸圧縮曲線情報が利用可能であるか否かを示す)と、時間軸圧縮曲線情報1824(共通(共同)時間軸圧縮曲線または個々の時間軸圧縮曲線の時間的進展を説明する)と、を共に提供する。時間軸圧縮復号器1830は、情報1822,1824によって説明された時間軸圧縮を考慮に入れて、符号化された音声信号表現1810に基づいて、マルチチャンネル音声信号の復号化された表現1812を再構成するように構成されている。例えば、時間軸圧縮復号器1830は、個々の符号化された周波数領域情報が利用可能である異なる音声チャンネルを復号化するために、共通の時間軸圧縮曲線を適用するように構成されている。従って、時間軸圧縮復号器1830は、例えば、類似の、または、同じ時間軸圧縮を含むが、異なるピッチを含むマルチチャンネル音声信号の、異なるチャンネルを再構成する。
(図19a〜図19eの音声ストリーム)
以下では、1つ以上の音声信号チャンネルと1つ以上の時間軸圧縮曲線との符号化された表現を含む音声ストリームが説明される。
図19aは、いわゆる「usac_raw_data_block」データストリーム要素のグラフ表示を示す。「usac_raw_data_block」データストリーム要素は、単一チャンネル要素(single channel element)、チャンネルペア要素(channel pair element)、または、1つ以上の単一チャンネル要素、および/または、1つ以上のチャンネルペア要素の結合を含む。
「usac_raw_data_block」は、通常、符号化された音声データのブロックを含む。一方、追加時間軸圧縮曲線情報は、分離データストリーム要素の中に提供される。それにもかかわらず、通常、いくつかの時間軸圧縮曲線データを「usac_raw_data_block」の中に符号化することは、可能である。
図19bから分るように、単一チャンネル要素は、通常、周波数領域チャンネルストリーム(「fd_channel_stream」)を含む。周波数領域チャンネルストリームは、図19dを参照して詳細に説明される。
図19cから分るように、チャンネルペア要素(「channel_pair_element」)は、通常、複数の周波数領域チャンネルストリームを含む。また、チャンネルペア要素は時間軸圧縮情報を含む。例えば、構成データストリーム要素、または、「usac_raw_data_block」の中に伝送される、時間軸圧縮起動フラグ(「tw_MDCT」フラグ)は、時間軸圧縮情報がチャンネルペア要素の中に含まれているか否かを決定する。例えば、仮に、「tw_MDCT」フラグが、時間軸圧縮が起動していることを示すならば、チャンネルペア要素は、チャンネルペア要素の音声チャンネルのための共通時間軸圧縮が存在するか否かを示すフラグ(「common_tw」)を含む。仮に、前記フラグ(common_tw)が、複数の音声チャンネルのための共通の時間軸圧縮が存在することを示すならば、共通の時間軸圧縮情報(tw_data)は、チャンネルペア要素の中に含まれ、例えば、周波数領域チャンネルストリームから分離される。
図19dを参照して、周波数領域チャンネルストリームが説明される。図19dから分るように、周波数領域チャンネルストリームは、例えば、全体利得情報を含む。また、仮に、時間軸圧縮が起動し(フラグ「tw_MDCT」が起動し)、かつ、複数の音声信号チャンネルのための共通の時間軸圧縮情報が存在しなければ(フラグ「common_tw」が不起動であれば)、周波数領域チャンネルストリームは、時間軸圧縮データを含む。
さらに、周波数領域チャンネルストリームは、スケール係数データ(「scale_factor_data」)と、符号化されたスペクトルデータ(例えば、算術的に符号化されたスペクトルデータ「ac_spectral_data」)と、を含む。
図19eを参照して、時間軸圧縮データの構文が簡潔に議論される。時間軸圧縮データは、例えば、任意に、時間軸圧縮データが存在するか否かを示すフラグ(例えば、「tw_data_present」または「active Pitch Data」)を含む。仮に、時間軸圧縮データが存在するならば(すなわち、時間軸圧縮曲線は平坦でないならば)、時間軸圧縮データは、複数の符号化された時間軸圧縮比率値の系列(例えば、「tw_ratio [i]」または「pitchIdx[i]」)を含む。前記時間軸圧縮比率値の系列は、例えば、図9cのコード表テーブルに従って符号化される。
従って、仮に、時間軸圧縮曲線が一定であるならば(時間軸圧縮比率が1.000に殆んど等しいならば)、時間軸圧縮データは、利用可能な時間軸圧縮データが存在しないことを示すフラグを含む。フラグは、音声信号符号器によって設定される。対照的に、仮に、時間軸圧縮曲線が変化するならば、連続した時間軸圧縮曲線ノードの間の比率は、「tw_ratio」情報を作るコード表インデックスを使用して、符号化される。
(結論)
以上をまとめると、本発明に係る実施形態は、時間軸圧縮の分野の中で異なる改良をもたらす。
ここで説明した発明の様相は、時間軸圧縮MDCT変換符号器(例えば、特許文献1を参照)の文脈の中にある。本発明に係る実施形態は、時間軸圧縮MDCT変換符号化器の性能を向上させるための方法を提供する。
本発明の様相によれば、特に効率の良いビットストリーム形式が提供される。ビットストリーム形式の記述は、MPEG−2AACビットストリーム構文(例えば、非特許文献1を参照)に基き、そして、それを高める。しかし、ビットストリーム形式の記述は、もちろん、ストリームの開始位置の概説ヘッダーと、個々のフレームの情報構文と、を有する全てのビットストリーム形式に適用できる。
例えば、以下のサイド情報はビットストリームの中に伝送される。
一般に、1ビットのフラグ(例えば、「tw_MDCT」と称する)は、時間軸圧縮が起動しているか否かを示す一般的な音声特定構成(GASC)の中に存在する。ピッチデータは、図19eに示した構文、または、図19fに示した構文を使用して、伝送される。図19fの構文では、ピッチの数(「numPitches」)は16と等しい。そして、「numPitchBits」の中のピッチビットの数は3と等しい。言い換えれば、時間軸圧縮曲線部分(または音声信号フレーム)当たり16個の符号化された圧縮比率値が存在する。そして、それぞれの圧縮曲線比率値は、3ビットを使用して符号化される。
さらに、単一チャンネル要素(SCE)の場合において、仮に、時間軸圧縮が起動されているならば、ピッチデータ(「pitch_data[]」)は、個々のチャンネルの中において、区域データの前に位置する。
チャンネルペア要素(CPE)の場合において、仮に、両方のチャンネルのための共通ピッチデータが存在するならば、共通ピッチフラグ信号は、区域データの後に続く。仮に、両方のチャンネルのための共通ピッチデータが存在しないならば、個々のピッチ曲線は、個々のチャンネルの中に見つけられる。
以下では、チャンネルペア要素のために提出された例である。1つの例が、ステレオパノラマの中に置かれた、単一倍音源の信号である。この場合、第1のチャンネルおよび第2の代チャンネルのための相対的ピッチ曲線は、等しい、または、変化に関する評価におけるいくつかの小さい誤りのため僅かだけ異なる。この場合、符号器は、各チャンネルのために2つの分離符号化ピッチ曲線を送信する代わりに、第1および第2のチャンネルのピッチ曲線の平均である1つのピッチ曲線だけを送信して、両方のチャンネル上のTW−MDCTを適用する際に、同じ曲線を使用することを決定する。他方で、ピッチ曲線に関する評価が第1および第2のチャンネルそれぞれのために異なる結果をもたらす信号が、存在する。この場合、個々に符号化されたピッチ曲線は、対応するチャンネルの中に送信される。
以下では、ピッチ曲線データの有利な復号化が、本発明の様相に従って説明される。例えば、仮に、「active PitchData」フラグが0であれば、ピッチ曲線は、フレームの中の全てのサンプルに対して1に設定される。さもなければ、個々のピッチ曲線ノードは、以下の通り計算される。
1.(「numPitches」+1)個のノードが存在する。
2.「node [0]」は常に1.0である。
3.関係式node [i]=node[i−1]・relChange[i] (i=1..「numPitches」+1)
ここで、「relChange[i]」は、「pitchIdx[i]」の逆量子化によって得られる。
ピッチ曲線は、ノード間の線形補間によって発生される。ここで、ノードサンプル位置は、「0:frameLen/numPitches:frameLen」である。
(2者択一の実施例)
所定の実施例の要求に依存して、本発明の実施形態が、ハードウェアまたはソフトウェアの中で実行される。実施例は、電子的に読み込み可能な制御信号を格納するデジタル格納媒体、例えば、フロッピー(登録商標)ディスク、DVD、CD、ROM、PROM、EPROM、EEPROM、または、フラッシュメモリを使用して実行される。デジタル格納媒体は、プログラマブルコンピュータシステムと協働する(または、共に操作できる)。その結果、それぞれの方法が実行される。
本発明に係るいくつかの実施形態は、電子的に読み込み可能な制御信号を有するデータキャリアを含む。データキャリアは、プログラマブルコンピュータシステムと共に操作できる。その結果、ここで説明された方法の1つが実行される。
一般に、本発明に係る実施形態は、プログラムコードを有するコンピュータプログラム製品として実行される。コンピュータプログラム製品が、コンピュータ上で稼動するとき、プログラムコードは、方法の1つを実行するために操作される。プログラムコードは、例えば、機械読み込み可能なキャリヤー上に格納される。
別の実施形態は、ここで説明された方法の1つを実行するためのコンピュータプログラムを含む。コンピュータプログラムは、機械読み込み可能なキャリヤー上に格納される。
言い換えれば、本発明の方法に係る実施形態は、コンピュータプログラムが、コンピュータ上で稼動するとき、ここで説明した方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
本発明の方法の別の実施形態は、その上に記録された、ここで説明された方法の1つを実行するためのコンピュータプログラムを含む、データキャリア(または、デジタル格納媒体、または、コンピュータ読み込み可能な媒体)ある。
本発明の方法の別の実施形態は、ここで説明された方法の1つを実行するためのコンピュータプログラムを表示するデータストリームまたは信号系列である。データストリームまたは信号系列は、データ通信接続、例えば、インターネットを通して、伝送されるように構成されている。
別の実施形態は、ここで説明された方法の1つを実行するように構成された、または適合させた処理手段(例えば、コンピュータ、または、プログラム可能論理回路装置)を含む。
別の実施形態は、ここで説明された方法の1つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。
いくつかの実施形態において、プログラム可能論理回路装置(例えば、電界プログラマブルゲートアレイ)は、ここで説明された方法のいくつかの、または、全ての機能を実行するように使用される。いくつかの実施形態において、電界プログラマブルゲートアレイは、ここで説明された方法の1つを実行するために、マイクロ処理器と協働する。

Claims (14)

  1. 時間軸圧縮曲線進展情報(212;316)を含む符号化された音声信号表現(211,212;310)に基づいて、復号化された音声信号表現(232;312)を提供するように構成された音声信号復号器(200;300)であって、
    時間軸圧縮曲線の時間的進展を説明する前記時間軸圧縮曲線進展情報(212;316;tw_ratio[k])に基づいて、予め決められた時間軸圧縮曲線開始値(1)から繰り返して再開始する時間軸圧縮曲線データ(last_warp_contour,cur_warp_contour,new_warp_contour,716,718,722)を発生するように構成された、時間軸圧縮曲線計算機(210,219,220;320)と、
    前記時間軸圧縮曲線データの少なくとも一部(past_warp_contour,716,718)を再スケールするように構成され、その結果、再開始位置での不連続が、時間軸圧縮曲線の再スケールされたバージョン(332,716´,718´,722)の中で、避けられる、もしくは、減少する、もしくは、排除される、時間軸圧縮曲線データ再スケーラ(330)と、
    前記時間軸圧縮曲線の再スケールされたバージョン(332,716´,718´,722)を使用して、前記符号化された音声信号表現(211,212;310)に基づいて、前記復号化された音声信号表現(232;312)を提供するように構成された圧縮復号器(340)と、
    を備えたことを特徴とする、音声信号復号器。
  2. 前記時間軸圧縮曲線計算機(320)は、前記予め決められた時間軸圧縮曲線開始値(1)から開始して、先ず、相対的変化情報(316,tw_ratio[k])を使用して、前記時間軸圧縮曲線の第2の部分(718)の時間的進展を計算し、次に、前記予め決められた時間軸圧縮曲線開始値(1)から開始して、相対的変化情報(316,tw_ratio[k])を使用して、前記時間軸圧縮曲線の第3の部分(722)の時間的進展を計算するように構成され、前記時間軸圧縮曲線の前記第2の部分(718)と前記第3の部分(722)とは、前記時間軸圧縮曲線の連続した部分であり、
    前記時間軸圧縮曲線データ再スケーラ(330)は、前記時間軸圧縮曲線の第1の部分(716)および前記第2の部分(718)の1つ(718)を再スケールして、前記第2の部分(718)の再スケールされたバージョン(718´)と前記第3の部分(722)との間の安定した転移(718b´,722a)を得るように構成されていること、
    を特徴とする、請求項1に記載の音声信号復号器。
  3. 前記時間軸圧縮曲線データ再スケーラ(330)は、前記時間軸圧縮曲線の前記第2の部分(718)を再スケールするように構成され、その結果、前記第2の部分(718)の再スケールされたバージョン(718´)の終了値が、前記予め決められた時間軸圧縮曲線開始値(1)である、もしくは、予め決められた許容値以内で前記予め決められた時間軸圧縮曲線開始値(1)から外れていること、
    を特徴とする、請求項2に記載の音声信号復号器。
  4. 前記時間軸圧縮曲線データ再スケーラ(330)は、時間軸圧縮曲線データ値(past_warp_contour[i])に規格化係数(norm_fac)を乗算して、前記時間軸圧縮曲線の前記第2の部分(718)を再スケールするように、もしくは、時間軸圧縮曲線データ値(past_warp_contour[i])を規格化係数(norm_fac)によって除算して、前記時間軸圧縮曲線の前記第2の部分(718)を再スケールするように構成されていること、を特徴とする、請求項1〜請求項3のいずれかに記載の音声信号復号器。
  5. 時間軸圧縮曲線計算機(320)は、時間軸圧縮曲線の特定の部分(last_warp_contour,cur_warp_contour,716,718)の圧縮曲線合計値(last_warp_sum,cur_warp_sum)を得るように構成され、かつ、共通のスケーリング値(norm_fac)を使用して、前記時間軸圧縮曲線の特定の部分(last_warp_contour)および前記時間軸圧縮曲線の前記特定の部分の圧縮曲線合計値(last_warp_sum,cur_warp_sum)をスケーリングするように構成されていること、を特徴とする、請求項1〜請求項4のいずれかに記載の音声信号復号器。
  6. 前記時間軸圧縮曲線の前記第1の部分(716)の再スケールされたバージョン(716´)、前記第2の部分(718)の再スケールされたバージョン(718´)および第3の部分(722)の時間軸圧縮曲線データ値を使用して、第1の時間曲線を計算するように構成され、かつ、前記時間軸圧縮曲線の前記第2の部分(718)の二度再スケールしたバージョン(718´´)、前記第3の部分(722)の一度再スケールしたバージョン(722´)、および第4の部分(752)の時間軸圧縮曲線データ値を使用して、第2の時間曲線を計算するように構成された時間軸曲線計算機(570)を更に備え、
    前記時間軸圧縮曲線計算機(320)は、前記時間軸圧縮曲線の前記第1の部分(716)の時間的進展について説明する時間軸圧縮曲線進展情報に基づいて、予め決められた時間軸圧縮曲線開始値(1)から開始している前記時間軸圧縮曲線の前記第1の部分(716)の時間軸圧縮曲線データを発生するように構成され、
    前記時間軸圧縮曲線データ再スケーラ(330)は、前記時間軸圧縮曲線の前記第1の部分(716)を再スケールするように構成され、その結果、前記時間軸圧縮曲線の前記第1の部分(716)の終了値は、前記予め決められた時間軸圧縮曲線開始値(1)を含み、
    前記時間軸圧縮曲線計算機(320)は、前記時間軸圧縮曲線の前記第2の部分(718)の時間的進展について説明する時間軸圧縮曲線進展情報に基づいて、前記予め決められた時間軸圧縮曲線開始値(1)から開始している前記時間軸圧縮曲線の前記第2の部分(718)の時間軸圧縮曲線データを発生するように構成され、
    前記時間軸圧縮曲線データ再スケーラ(330)は、共通のスケール係数を使用して、前記時間軸圧縮曲線の前記第1の部分(716)および前記時間軸圧縮曲線の前記第2の部分(718)を共に再スケールするように構成され、その結果、前記時間軸圧縮曲線の前記第2の部分(718)の再スケールされたバージョン(718´)の終了値(718b)は、前記予め決められた時間軸圧縮曲線開始値(1)を含み、共に前記第1および第2の部分(716,718)の再スケールされたバージョン(716´,718´)の時間軸圧縮曲線データ値を得て、
    前記時間軸圧縮曲線計算機(320)は、前記時間軸圧縮曲線の前記第3の部分(722)の時間軸圧縮曲線進展情報に基づいて、前記予め決められた時間軸圧縮曲線開始値(1)から開始している前記時間軸圧縮曲線の前記第3の部分(722)の元の時間軸圧縮曲線データ値を発生させるように構成され、
    前記時間軸曲線計算機(570)は、前記第1および第2の部分(716,718)の再スケールされたバージョン(716´,718´)の時間軸圧縮曲線データ値と、前記時間軸圧縮曲線の前記第3の部分(722)の前記時間軸圧縮曲線データ値とを使用して、第1の時間曲線を計算するように構成され、
    前記時間軸圧縮曲線データ再スケーラ(330)は、別の共通のスケール係数を使用して、前記時間軸圧縮曲線の前記第2の部分(718)の再スケールされたバージョン(718´)の時間軸圧縮曲線データ値、および、前記時間軸圧縮曲線の前記第3の部分(722)の時間軸圧縮曲線データ値を共に再スケールするように構成され、その結果、前記時間軸圧縮曲線の前記第3の部分(722)の終了値は、前記予め決められた時間軸圧縮曲線開始値(1)を含み、前記時間軸圧縮曲線の前記第2の部分(718)の二度再スケールしたバージョン(718´´)および前記時間軸圧縮曲線の前記第3の部分(722)の一度再スケールしたバージョン(722´)の時間軸圧縮曲線データ値を得て、
    前記時間軸圧縮曲線計算機(320)は、前記時間軸圧縮曲線の前記第4の部分(752)の時間軸圧縮曲線進展情報に基づいて、前記予め決められた時間軸圧縮曲線開始値(1)から開始している前記時間軸圧縮曲線の前記第4の部分(752)のオリジナルの時間軸圧縮曲線データ値を発生させるように構成され、
    前記時間軸曲線計算機(570)は、前記時間軸圧縮曲線の前記第2の部分(718)の前記二度再スケールしたバージョン(718´´)、前記時間軸圧縮曲線の前記第3の部分(722)の前記一度再スケールしたバージョン(722´)、および、前記時間軸圧縮曲線の前記第4の部分のオリジナルバージョン(752)の時間軸圧縮曲線データ値を使用して、前記第2の時間曲線を計算するように構成されていること、
    を特徴とする、請求項1〜請求項5のいずれかに記載の音声信号復号器。
  7. 前記時間軸圧縮曲線の複数の部分を使用して、時間軸圧縮制御情報(512)を計算するように構成された時間軸圧縮制御情報計算機(530)を更に備え、
    前記時間軸圧縮制御情報計算機(530)は、前記時間軸圧縮曲線の第1の複数の部分(716,718,722)の時間軸圧縮曲線データ値に基づいて、前記音声信号の第1のフレームの再構成のための時間軸圧縮制御情報を計算するように構成され、かつ、前記時間軸圧縮曲線の第2の複数の部分(718,722,752)の時間軸圧縮曲線データ値に基づいて、前記音声信号の第2のフレームの再構成のための時間軸圧縮制御情報を計算するように構成され、前記第2のフレームは、前記第1のフレームと重複し、もしくは、重複せず、
    前記時間軸圧縮曲線の前記第2の複数の部分(718´´,722´,752)と比較したとき、前記時間軸圧縮曲線の前記第1の複数の部分(716´,718´,722)が、時間に関してシフトしており、
    前記時間軸圧縮曲線の前記第1の複数の部分(716´,718´,722)は、前記時間軸圧縮曲線の前記第2の複数の部分(718´´,722´,752)と共に、少なくとも1つの共通部分(718,722)を含むこと、
    を特徴とする、請求項1〜請求項6のいずれかに記載の音声信号復号器。
  8. 前記時間軸圧縮曲線計算機(320)は、前記時間軸圧縮曲線が、前記第1の複数の部分(716,718,722)内の位置(724)において、もしくは、前記第2の複数の部分(718,722,752)内の位置(754))において、前記予め決められた時間軸圧縮曲線開始値(1)から再開始するように、前記時間軸圧縮曲線を発生させるように構成され、その結果、前記時間軸圧縮曲線の不連続(724,754)は、前記再開始の位置に存在し、 前記時間軸圧縮曲線データ再スケーラ(330)は、前記第1および第2の複数の部分のうちの所定の部分(716,718;718´,722)の1つ以上を再スケールするように構成され、その結果、不連続(724,754)は減少する、もしくは、排除されること、
    を特徴とする、請求項7に記載の音声信号復号器。
  9. 前記時間軸圧縮曲線計算機(320)は、前記第1の複数の部分(716´,718´,722)内の位置(724)において、前記予め決められた時間軸圧縮曲線開始値(1)からの前記時間軸圧縮曲線の第1の再開始が存在するように、前記時間軸圧縮曲線を発生させるように構成され、その結果、第1の不連続(724)は前記第1の再開始の位置に存在し、
    前記時間軸圧縮曲線データ再スケーラ(330)は、前記時間軸圧縮曲線を再スケールするように構成され、その結果、前記第1の不連続(724)は減少し、
    前記時間軸圧縮曲線計算機(320)は、前記第2の複数の部分(718,722,752)内の位置において、前記予め決められた時間軸圧縮曲線開始値(1)からの前記時間軸圧縮曲線の第2の再開始が存在するように、前記時間軸圧縮曲線を発生させるように構成され、その結果、第2の不連続(754)は前記第2の再開始の位置に存在し、
    前記時間軸圧縮曲線データ再スケーラ(330)は、前記時間軸圧縮曲線を再スケールするように構成され、その結果、前記第2の不連続(754)は減少する、もしくは、排除されること、
    を特徴とする、請求項8に記載の音声信号復号器。
  10. 前記時間軸圧縮曲線計算機(320)は、前記予め決められた時間軸圧縮曲線開始値(1)からの前記時間軸圧縮曲線開始を周期的に再開始するように構成され、その結果、前記再開始の位置において、周期的な不連続が存在し、
    前記時間軸圧縮曲線データ再スケーラ(330)は、どんな時にも前記時間軸圧縮曲線の少なくとも1つの部分を連続して再スケールするように適合され、前記再開始の位置における前記時間軸圧縮曲線の不連続を、連続して減少させ、もしくは、排除し、
    時間軸圧縮制御情報を得るために、再開始の前後からの時間軸圧縮曲線データ値を結合するように構成された時間軸圧縮制御情報計算機(530)を含むこと、
    を特徴とする、請求項1〜請求項9のいずれかに記載の音声信号復号器。
  11. 前記時間軸圧縮曲線計算機(320)は、符号化された時間軸圧縮比率情報(tw_ratio[k])を受信するように構成され、前記符号化された時間軸圧縮比率情報(tw_ratio[k])から時間軸圧縮比率値(warp_value_tbl)の系列を引き出して、前記時間軸圧縮曲線開始値(1)から開始している時間軸圧縮曲線ノード値を得て、
    時間軸圧縮曲線開始ノードに関係している前記時間軸圧縮曲線開始値(1)と、連続した時間軸圧縮ノードの前記時間軸圧縮曲線ノード値と、の間の比率は、前記時間軸圧縮比率値によって決定され、
    前記時間軸圧縮曲線計算機(320)は、特定の時間軸圧縮曲線ノードの時間軸圧縮曲線ノード値を計算するように構成され、前記特定の時間軸圧縮曲線ノードは、係数として、前記時間軸圧縮曲線開始値(1)と中間の時間軸圧縮曲線ノードの時間軸圧縮曲線ノード値との間の比率、および、前記中間の時間軸圧縮曲線ノードの時間軸圧縮曲線ノード値と前記特定の時間軸圧縮曲線ノードの時間軸圧縮曲線ノード値との間の比率を含む乗算形式に基づいて、前記中間の時間軸圧縮曲線ノードによって前記時間軸圧縮曲線開始ノードから区切られていること、
    を特徴とする、請求項1〜請求項10のいずれかに記載の音声信号復号器。
  12. 時間軸圧縮曲線進展情報を含む符号化された音声信号に基づいて、復号化された音声信号の提供方法であって、
    時間軸圧縮曲線の時間的進展を説明する時間軸圧縮曲線進展情報(tw_ratio[k])に基づいて、予め決められた時間軸圧縮曲線開始値(1)から繰り返して再開始しながら、時間軸圧縮曲線データ(warp_node_values)を発生させるステップと、
    再開始の位置における不連続が、前記時間軸圧縮曲線の再スケールされたバージョンの中で、避けられる、もしくは、減少する、もしくは、排除されるように、時間軸圧縮曲線データの少なくとも一部分を再スケールするステップと、
    前記符号化された音声信号に基づいて、前記復号化された音声信号を提供して、前記時間軸圧縮曲線の前記再スケールされたバージョンを使用するステップと、
    を備えたこと、を特徴とする、復号化された音声信号の提供方法。
  13. コンピュータが稼働したとき、請求項12の方法を実行すること、を特徴とする、コンピュータプログラム。
  14. 時間軸圧縮曲線進展情報に基づいて、音声信号の相対的ピッチの時間的進展を表す時間軸圧縮曲線データを提供するための時間軸圧縮曲線データ提供装置であって、
    前記時間軸圧縮曲線の時間的進展を説明する時間軸圧縮曲線進展情報に基づいて、時間軸圧縮曲線データを発生させるように構成され、かつ、再開始位置において、予め決められた時間軸圧縮曲線開始値(1)から時間軸圧縮曲線データの計算を、反復的もしくは周期的に再開始するように構成され、その結果、時間軸圧縮曲線の不連続を作成して、時間軸圧縮曲線データ値の範囲を減少させる時間軸圧縮曲線計算機と、
    前記時間軸圧縮曲線の部分を繰り返して再スケールして、前記時間軸圧縮曲線の再スケールされた区域の中の前記再開始位置において不連続を減少する、もしくは、排除するように構成された時間軸圧縮曲線データ再スケーラと、
    を備えたこと、を特徴とする、時間軸圧縮曲線データ提供装置。
JP2011510908A 2008-07-11 2009-07-01 音声信号復号器、時間軸圧縮曲線データ生成装置、復号化された音声信号の生成方法、およびコンピュータプログラム Active JP5323180B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US7987308P 2008-07-11 2008-07-11
US61/079,873 2008-07-11
US10382008P 2008-10-08 2008-10-08
US61/103,820 2008-10-08
PCT/EP2009/004757 WO2010003582A1 (en) 2008-07-11 2009-07-01 Audio signal decoder, time warp contour data provider, method and computer program

Publications (2)

Publication Number Publication Date
JP2011521304A true JP2011521304A (ja) 2011-07-21
JP5323180B2 JP5323180B2 (ja) 2013-10-23

Family

ID=41131685

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2011510908A Active JP5323180B2 (ja) 2008-07-11 2009-07-01 音声信号復号器、時間軸圧縮曲線データ生成装置、復号化された音声信号の生成方法、およびコンピュータプログラム
JP2011510909A Active JP5551686B2 (ja) 2008-07-11 2009-07-01 音声信号復号器、復号化されたマルチチャンネル音声信号表現の生成方法およびコンピュータプログラム
JP2011510907A Active JP5323179B2 (ja) 2008-07-11 2009-07-01 時間軸圧縮曲線計算機、音声信号符号器、復号化された音声信号表現の生成方法、符号化された音声信号表現の生成方法、およびコンピュータプログラム
JP2014012379A Active JP6041815B2 (ja) 2008-07-11 2014-01-27 音声信号復号器、音声信号符号器、復号化されたマルチチャンネル音声信号表現の生成方法、符号化されたマルチチャンネル音声信号表現の生成方法およびコンピュータプログラム

Family Applications After (3)

Application Number Title Priority Date Filing Date
JP2011510909A Active JP5551686B2 (ja) 2008-07-11 2009-07-01 音声信号復号器、復号化されたマルチチャンネル音声信号表現の生成方法およびコンピュータプログラム
JP2011510907A Active JP5323179B2 (ja) 2008-07-11 2009-07-01 時間軸圧縮曲線計算機、音声信号符号器、復号化された音声信号表現の生成方法、符号化された音声信号表現の生成方法、およびコンピュータプログラム
JP2014012379A Active JP6041815B2 (ja) 2008-07-11 2014-01-27 音声信号復号器、音声信号符号器、復号化されたマルチチャンネル音声信号表現の生成方法、符号化されたマルチチャンネル音声信号表現の生成方法およびコンピュータプログラム

Country Status (18)

Country Link
US (3) US9025777B2 (ja)
EP (3) EP2260485B1 (ja)
JP (4) JP5323180B2 (ja)
KR (3) KR101205644B1 (ja)
CN (3) CN102007531B (ja)
AR (3) AR072500A1 (ja)
AT (2) ATE532177T1 (ja)
AU (3) AU2009267485B2 (ja)
BR (3) BRPI0906319A2 (ja)
CA (3) CA2718859C (ja)
ES (3) ES2376974T3 (ja)
HK (3) HK1151619A1 (ja)
MX (3) MX2010010748A (ja)
MY (1) MY154452A (ja)
PL (3) PL2257944T3 (ja)
RU (3) RU2486484C2 (ja)
TW (3) TWI451402B (ja)
WO (3) WO2010003581A1 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
EP2107556A1 (en) * 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
CN102150201B (zh) 2008-07-11 2013-04-17 弗劳恩霍夫应用研究促进协会 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码
MX2012004116A (es) * 2009-10-08 2012-05-22 Fraunhofer Ges Forschung Decodificador multimodo para señal de audio, codificador multimodo para señal de audio, metodo y programa de computacion que usan un modelado de ruido en base a linealidad-prediccion-codi ficacion.
CA2792500C (en) * 2010-03-10 2016-05-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal decoder, audio signal encoder, methods and computer program using a sampling rate dependent time-warp contour encoding
EP2372704A1 (en) * 2010-03-11 2011-10-05 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Signal processor and method for processing a signal
SG184230A1 (en) * 2010-03-26 2012-11-29 Agency Science Tech & Res Methods and devices for providing an encoded digital signal
US9711158B2 (en) * 2011-01-25 2017-07-18 Nippon Telegraph And Telephone Corporation Encoding method, encoder, periodic feature amount determination method, periodic feature amount determination apparatus, program and recording medium
MX2013009304A (es) 2011-02-14 2013-10-03 Fraunhofer Ges Forschung Aparato y metodo para codificar una porcion de una señal de audio utilizando deteccion de un transiente y resultado de calidad.
CA2827335C (en) 2011-02-14 2016-08-30 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Audio codec using noise synthesis during inactive phases
MY159444A (en) 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
CA2827000C (en) 2011-02-14 2016-04-05 Jeremie Lecomte Apparatus and method for error concealment in low-delay unified speech and audio coding (usac)
ES2529025T3 (es) 2011-02-14 2015-02-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para procesar una señal de audio decodificada en un dominio espectral
SG192721A1 (en) 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion
TWI488177B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 使用頻譜域雜訊整形之基於線性預測的編碼方案
ES2639646T3 (es) 2011-02-14 2017-10-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificación y decodificación de posiciones de impulso de pistas de una señal de audio
SG185519A1 (en) 2011-02-14 2012-12-28 Fraunhofer Ges Forschung Information signal representation using lapped transform
TWI480860B (zh) 2011-03-18 2015-04-11 Fraunhofer Ges Forschung 音訊編碼中之訊框元件長度傳輸技術
TWI450266B (zh) * 2011-04-19 2014-08-21 Hon Hai Prec Ind Co Ltd 電子裝置及音頻資料的解碼方法
US9967600B2 (en) * 2011-05-26 2018-05-08 Nbcuniversal Media, Llc Multi-channel digital content watermark system and method
EP2704142B1 (en) * 2012-08-27 2015-09-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for reproducing an audio signal, apparatus and method for generating a coded audio signal, computer program and coded audio signal
CN102855884B (zh) * 2012-09-11 2014-08-13 中国人民解放军理工大学 基于短时连续非负矩阵分解的语音时长调整方法
CN105976824B (zh) 2012-12-06 2021-06-08 华为技术有限公司 信号解码的方法和设备
WO2014096236A2 (en) * 2012-12-19 2014-06-26 Dolby International Ab Signal adaptive fir/iir predictors for minimizing entropy
PT3058566T (pt) 2013-10-18 2018-03-01 Fraunhofer Ges Forschung Codificação de coeficientes espectrais de um espectro de um sinal de áudio
FR3015754A1 (fr) * 2013-12-20 2015-06-26 Orange Re-echantillonnage d'un signal audio cadence a une frequence d'echantillonnage variable selon la trame
EP2980791A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions
RU2718418C2 (ru) * 2015-11-09 2020-04-02 Сони Корпорейшн Устройство декодирования, способ декодирования и программа
US10074373B2 (en) * 2015-12-21 2018-09-11 Qualcomm Incorporated Channel adjustment for inter-frame temporal shift variations
CN117238300A (zh) 2016-01-22 2023-12-15 弗劳恩霍夫应用研究促进协会 使用帧控制同步来编码或解码多声道音频信号的装置和方法
CN107749304B (zh) * 2017-09-07 2021-04-06 电信科学技术研究院 有限冲激响应滤波器系数矢量的可持续更新方法及装置
TWI752551B (zh) * 2020-07-13 2022-01-11 國立屏東大學 迅吃偵測方法、迅吃偵測裝置與電腦程式產品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0784597A (ja) * 1993-09-20 1995-03-31 Fujitsu Ltd 音声符号化装置および音声復号化装置
JP2003122400A (ja) * 2001-06-29 2003-04-25 Microsoft Corp 低ビットレートcelp符号化のための連続タイムワーピングに基づく信号の修正
WO2006079813A1 (en) * 2005-01-27 2006-08-03 Synchro Arts Limited Methods and apparatus for use in sound modification
WO2007051548A1 (en) * 2005-11-03 2007-05-10 Coding Technologies Ab Time warped modified transform coding of audio signals

Family Cites Families (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5054075A (en) 1989-09-05 1991-10-01 Motorola, Inc. Subband decoding method and apparatus
JP3076859B2 (ja) 1992-04-20 2000-08-14 三菱電機株式会社 ディジタルオーディオ信号の信号処理装置
US5408580A (en) 1992-09-21 1995-04-18 Aware, Inc. Audio compression system employing multi-rate signal analysis
US5717823A (en) * 1994-04-14 1998-02-10 Lucent Technologies Inc. Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders
FI105001B (fi) 1995-06-30 2000-05-15 Nokia Mobile Phones Ltd Menetelmä odotusajan selvittämiseksi puhedekooderissa epäjatkuvassa lähetyksessä ja puhedekooderi sekä lähetin-vastaanotin
US5704003A (en) 1995-09-19 1997-12-30 Lucent Technologies Inc. RCELP coder
JP3707116B2 (ja) * 1995-10-26 2005-10-19 ソニー株式会社 音声復号化方法及び装置
US5659622A (en) 1995-11-13 1997-08-19 Motorola, Inc. Method and apparatus for suppressing noise in a communication system
US5848391A (en) 1996-07-11 1998-12-08 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method subband of coding and decoding audio signals using variable length windows
US6134518A (en) 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
KR100261253B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
US6070137A (en) 1998-01-07 2000-05-30 Ericsson Inc. Integrated frequency-domain voice coding using an adaptive spectral enhancement filter
DE69926821T2 (de) 1998-01-22 2007-12-06 Deutsche Telekom Ag Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
US6115689A (en) 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6449590B1 (en) * 1998-08-24 2002-09-10 Conexant Systems, Inc. Speech encoder using warping in long term preprocessing
US6330533B2 (en) 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
US7047185B1 (en) 1998-09-15 2006-05-16 Skyworks Solutions, Inc. Method and apparatus for dynamically switching between speech coders of a mobile unit as a function of received signal quality
US6424938B1 (en) 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
US6691084B2 (en) 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6223151B1 (en) 1999-02-10 2001-04-24 Telefon Aktie Bolaget Lm Ericsson Method and apparatus for pre-processing speech signals prior to coding by transform-based speech coders
DE19910833C1 (de) 1999-03-11 2000-05-31 Mayer Textilmaschf Kurzketten-Schärmaschine
KR20010072035A (ko) * 1999-05-26 2001-07-31 요트.게.아. 롤페즈 오디오 신호 송신 시스템
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
US6366880B1 (en) 1999-11-30 2002-04-02 Motorola, Inc. Method and apparatus for suppressing acoustic background noise in a communication system by equaliztion of pre-and post-comb-filtered subband spectral energies
JP2001255882A (ja) * 2000-03-09 2001-09-21 Sony Corp 音声信号処理装置及びその信号処理方法
JP2002149200A (ja) 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
US6850884B2 (en) * 2000-09-15 2005-02-01 Mindspeed Technologies, Inc. Selection of coding parameters based on spectral content of a speech signal
CN1408146A (zh) 2000-11-03 2003-04-02 皇家菲利浦电子有限公司 音频信号的参数编码
US6925435B1 (en) * 2000-11-27 2005-08-02 Mindspeed Technologies, Inc. Method and apparatus for improved noise reduction in a speech encoder
SE0004818D0 (sv) 2000-12-22 2000-12-22 Coding Technologies Sweden Ab Enhancing source coding systems by adaptive transposition
KR20030009515A (ko) * 2001-04-05 2003-01-29 코닌클리케 필립스 일렉트로닉스 엔.브이. 결정된 신호 타입들로 한정된 기술들을 사용하는 신호들의시간 스케일 변경
FI110729B (fi) 2001-04-11 2003-03-14 Nokia Corp Menetelmä pakatun audiosignaalin purkamiseksi
US7313519B2 (en) 2001-05-10 2007-12-25 Dolby Laboratories Licensing Corporation Transient performance of low bit rate audio coding systems by reducing pre-noise
DE20108778U1 (de) 2001-05-25 2001-08-02 Mannesmann Vdo Ag Gehäuse für ein in einem Fahrzeug verwendbares Gerät zur automatischen Ermittlung von Straßenbenutzungsgebühren
EP1278185A3 (en) 2001-07-13 2005-02-09 Alcatel Method for improving noise reduction in speech transmission
US6963842B2 (en) 2001-09-05 2005-11-08 Creative Technology Ltd. Efficient system and method for converting between different transform-domain signal representations
EP1446796A1 (en) * 2001-10-26 2004-08-18 Koninklijke Philips Electronics N.V. Tracking of sinusoidal parameters in an audio coder
CA2365203A1 (en) * 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
JP2003316392A (ja) 2002-04-22 2003-11-07 Mitsubishi Electric Corp オーディオ信号の復号化及び符号化装置、復号化装置並びに符号化装置
US7457757B1 (en) 2002-05-30 2008-11-25 Plantronics, Inc. Intelligibility control for speech communications systems
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
TWI288915B (en) 2002-06-17 2007-10-21 Dolby Lab Licensing Corp Improved audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
US7043423B2 (en) 2002-07-16 2006-05-09 Dolby Laboratories Licensing Corporation Low bit-rate audio coding systems and methods that use expanding quantizers with arithmetic coding
WO2004034379A2 (en) * 2002-10-11 2004-04-22 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
EP1604352A4 (en) * 2003-03-15 2007-12-19 Mindspeed Tech Inc SINGLE NOISE DELETION MODEL
JP4629353B2 (ja) * 2003-04-17 2011-02-09 インベンテイオ・アクテイエンゲゼルシヤフト エスカレータまたは動く歩道のための移動手摺り駆動装置
RU2316059C2 (ru) 2003-05-01 2008-01-27 Нокиа Корпорейшн Способ и устройство для квантования усиления в широкополосном речевом кодировании с переменной битовой скоростью передачи
US7363221B2 (en) 2003-08-19 2008-04-22 Microsoft Corporation Method of noise reduction using instantaneous signal-to-noise ratio as the principal quantity for optimal estimation
KR100640893B1 (ko) 2004-09-07 2006-11-02 엘지전자 주식회사 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기
KR100604897B1 (ko) 2004-09-07 2006-07-28 삼성전자주식회사 하드 디스크 드라이브 조립체, 하드 디스크 드라이브의장착 구조 및 이를 채용한 휴대폰
US8155965B2 (en) 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
CN101167125B (zh) * 2005-03-11 2012-02-29 高通股份有限公司 用于对声码器内的帧进行相位匹配的方法及设备
AU2006232361B2 (en) * 2005-04-01 2010-12-23 Qualcomm Incorporated Methods and apparatus for encoding and decoding an highband portion of a speech signal
JP4550652B2 (ja) 2005-04-14 2010-09-22 株式会社東芝 音響信号処理装置、音響信号処理プログラム及び音響信号処理方法
US7885809B2 (en) 2005-04-20 2011-02-08 Ntt Docomo, Inc. Quantization of speech and audio coding parameters using partial information on atypical subsequences
PL1875463T3 (pl) 2005-04-22 2019-03-29 Qualcomm Incorporated Układy, sposoby i urządzenie do wygładzania współczynnika wzmocnienia
JP4450324B2 (ja) 2005-08-15 2010-04-14 日立オートモティブシステムズ株式会社 内燃機関の始動制御装置
JP2007084597A (ja) 2005-09-20 2007-04-05 Fuji Shikiso Kk 表面処理カーボンブラック組成物およびその製造方法
US7366658B2 (en) 2005-12-09 2008-04-29 Texas Instruments Incorporated Noise pre-processor for enhanced variable rate speech codec
TWI447707B (zh) * 2006-02-23 2014-08-01 Lg Electronics Inc 音頻訊號之處理方法及其裝置
TWI294107B (en) 2006-04-28 2008-03-01 Univ Nat Kaohsiung 1St Univ Sc A pronunciation-scored method for the application of voice and image in the e-learning
MY142675A (en) 2006-06-30 2010-12-15 Fraunhofer Ges Forschung Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US8682652B2 (en) * 2006-06-30 2014-03-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
CN101136901B (zh) * 2006-08-18 2012-11-21 广州广晟数码技术有限公司 用于处理基于帧的数据的方法和系统
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
CN101025918B (zh) 2007-01-19 2011-06-29 清华大学 一种语音/音乐双模编解码无缝切换方法
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
EP2107556A1 (en) 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
CN102150201B (zh) * 2008-07-11 2013-04-17 弗劳恩霍夫应用研究促进协会 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码
JP5297891B2 (ja) 2009-05-25 2013-09-25 京楽産業.株式会社 遊技機
US9269366B2 (en) * 2009-08-03 2016-02-23 Broadcom Corporation Hybrid instantaneous/differential pitch period coding
WO2011048815A1 (ja) * 2009-10-21 2011-04-28 パナソニック株式会社 オーディオ符号化装置、復号装置、方法、回路およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0784597A (ja) * 1993-09-20 1995-03-31 Fujitsu Ltd 音声符号化装置および音声復号化装置
JP2003122400A (ja) * 2001-06-29 2003-04-25 Microsoft Corp 低ビットレートcelp符号化のための連続タイムワーピングに基づく信号の修正
WO2006079813A1 (en) * 2005-01-27 2006-08-03 Synchro Arts Limited Methods and apparatus for use in sound modification
JP2008529078A (ja) * 2005-01-27 2008-07-31 シンクロ アーツ リミテッド 音響的特徴の同期化された修正のための方法及び装置
WO2007051548A1 (en) * 2005-11-03 2007-05-10 Coding Technologies Ab Time warped modified transform coding of audio signals
JP2009515207A (ja) * 2005-11-03 2009-04-09 ドルビー スウェーデン アクチボラゲット 音声信号のタイムワープ処理改良変換符号化

Also Published As

Publication number Publication date
CA2718740A1 (en) 2010-01-14
TW201009809A (en) 2010-03-01
KR20100134627A (ko) 2010-12-23
AR072498A1 (es) 2010-09-01
TW201009811A (en) 2010-03-01
TWI451402B (zh) 2014-09-01
JP2011521303A (ja) 2011-07-21
KR101205615B1 (ko) 2012-11-27
RU2486484C2 (ru) 2013-06-27
CA2718740C (en) 2015-10-27
RU2527760C2 (ru) 2014-09-10
RU2010139021A (ru) 2012-03-27
MX2010010749A (es) 2010-11-30
KR20100134625A (ko) 2010-12-23
PL2257944T3 (pl) 2012-04-30
EP2260485A1 (en) 2010-12-15
BRPI0906320A2 (pt) 2020-01-14
BRPI0906320B1 (pt) 2021-05-18
AU2009267485A1 (en) 2010-01-14
HK1151620A1 (en) 2012-02-03
US20110161088A1 (en) 2011-06-30
AU2009267486A1 (en) 2010-01-14
AR072739A1 (es) 2010-09-15
AU2009267484A1 (en) 2010-01-14
JP5323180B2 (ja) 2013-10-23
EP2260485B1 (en) 2013-04-03
BRPI0906300A2 (pt) 2020-09-24
CA2718857C (en) 2014-09-09
TWI459374B (zh) 2014-11-01
US9025777B2 (en) 2015-05-05
MX2010010748A (es) 2010-11-30
ATE532177T1 (de) 2011-11-15
CN102007531A (zh) 2011-04-06
PL2260485T3 (pl) 2013-08-30
CA2718857A1 (en) 2010-01-14
BRPI0906319A2 (pt) 2023-03-14
CN102007531B (zh) 2013-08-21
CN102007536A (zh) 2011-04-06
RU2509381C2 (ru) 2014-03-10
PL2257945T3 (pl) 2012-04-30
JP5323179B2 (ja) 2013-10-23
ES2404132T3 (es) 2013-05-24
US20110158415A1 (en) 2011-06-30
RU2010139022A (ru) 2012-03-27
CA2718859A1 (en) 2010-01-14
US9043216B2 (en) 2015-05-26
EP2257944B1 (en) 2011-11-02
CN102007537A (zh) 2011-04-06
KR101205593B1 (ko) 2012-11-27
CN102007536B (zh) 2012-09-05
MX2010010747A (es) 2010-11-30
KR20100125372A (ko) 2010-11-30
EP2257945A1 (en) 2010-12-08
US9299363B2 (en) 2016-03-29
CN102007537B (zh) 2013-08-28
KR101205644B1 (ko) 2012-11-27
AR072500A1 (es) 2010-09-01
AU2009267486B2 (en) 2011-09-15
TWI453732B (zh) 2014-09-21
EP2257944A1 (en) 2010-12-08
AU2009267485B2 (en) 2011-10-06
HK1151619A1 (en) 2012-02-03
JP5551686B2 (ja) 2014-07-16
EP2257945B1 (en) 2011-11-02
JP2011521305A (ja) 2011-07-21
TW201009810A (en) 2010-03-01
AU2009267484B2 (en) 2011-09-01
BRPI0906300B1 (pt) 2021-11-09
MY154452A (en) 2015-06-15
RU2010139023A (ru) 2012-03-27
JP2014130359A (ja) 2014-07-10
JP6041815B2 (ja) 2016-12-14
US20110106542A1 (en) 2011-05-05
HK1151883A1 (en) 2012-02-10
WO2010003581A1 (en) 2010-01-14
ES2376974T3 (es) 2012-03-21
ES2376849T3 (es) 2012-03-20
WO2010003582A1 (en) 2010-01-14
WO2010003583A1 (en) 2010-01-14
CA2718859C (en) 2015-09-29
ATE532176T1 (de) 2011-11-15

Similar Documents

Publication Publication Date Title
JP5323180B2 (ja) 音声信号復号器、時間軸圧縮曲線データ生成装置、復号化された音声信号の生成方法、およびコンピュータプログラム
JP2019502948A (ja) 符号化されたオーディオ信号を処理するための装置および方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121127

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130220

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130520

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130618

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130716

R150 Certificate of patent or registration of utility model

Ref document number: 5323180

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250